JP2022546885A - 目標対象認識方法及び装置 - Google Patents

目標対象認識方法及び装置 Download PDF

Info

Publication number
JP2022546885A
JP2022546885A JP2021536185A JP2021536185A JP2022546885A JP 2022546885 A JP2022546885 A JP 2022546885A JP 2021536185 A JP2021536185 A JP 2021536185A JP 2021536185 A JP2021536185 A JP 2021536185A JP 2022546885 A JP2022546885 A JP 2022546885A
Authority
JP
Japan
Prior art keywords
recognition
target
target image
height
target object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021536185A
Other languages
English (en)
Inventor
茂清 田
▲進▼ ▲呉▼
▲帥▼ 伊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sensetime International Pte Ltd
Original Assignee
Sensetime International Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from SG10202007348TA external-priority patent/SG10202007348TA/en
Application filed by Sensetime International Pte Ltd filed Critical Sensetime International Pte Ltd
Publication of JP2022546885A publication Critical patent/JP2022546885A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F3/00Board games; Raffle games
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07FCOIN-FREED OR LIKE APPARATUS
    • G07F17/00Coin-freed apparatus for hiring articles; Coin-freed facilities or services
    • G07F17/32Coin-freed apparatus for hiring articles; Coin-freed facilities or services for games, toys, sports, or amusements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Abstract

本発明の実施例は、目標対象認識方法、装置、及びシステムを開示し、前記方法は、目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することと、前記認識待ち目標対象の隠れ層特徴に基づいて前記予測タイプが正確であるか否かを確定することと、前記予測タイプが正確ではないことに応答して、プロンプト情報を出力することと、を含む。【選択図】図1

Description

<関連出願の互いに引用>
本発明は、出願日が2020年08月01日であり、出願番号が10202007348Tであるシンガポール特許出願の優先権を主張し、当該シンガポール特許出願の全ての内容が参照として本願に組み入れられる。
本発明は、コンピュータ視覚技術の分野に関し、特に目標対象認識方法及び装置に関する。
日常の生産および生活では、いくつかの目標対象を認識する必要があることがよくある。卓上ゲームの娯楽の場面の例をとると、一部の卓上ゲームではテーブル上のゲームコインを認識することによって、ゲームコインのタイプおよび数量情報を取得する必要がある。しかしながら、従来の認識方式は、認識精度がより低く、現在の場面に属していない目標対象を判断することができない。
本発明は、目標対象の認識解決策を提供する。
本発明の一態様によると、目標対象認識方法を提供し、前記方法は、
目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象のタイプを確定することと、前記認識待ち目標対象の隠れ層特徴に基づいて前記予測タイプが正確であるか否かを確定することと、前記予測タイプが正確ではないことに応答して、プロンプト情報を出力することと、を含む。
本発明によって提供される任意の実施形態と組み合わせると、前記方法は、前記予測タイプが正確であることに応答して、前記予測タイプを前記認識待ち目標対象の最終のタイプとして確定し、前記認識待ち目標対象の最終のタイプを出力することをさらに含む。
本発明によって提供される任意の実施形態と組み合わせると、前記認識待ち目標対象の隠れ層特徴に基づいて前記予測タイプが正確であるか否かを確定することは、前記認識待ち目標対象の隠れ層特徴を予測タイプに対応する真否認識モデルに入力して、前記真否認識モデルが確率値を出力するようにすることと、前記確率値が確率閾値未満であると、前記予測タイプが正確ではないと確定することと、前記確率値が前記確率閾値以上であると、前記予測タイプが正確であると確定することと、を含み、その中で、前記予測タイプに対応する真否認識モデルは、当該予測タイプの目標対象の隠れ層特徴の分布法則を反映し、前記確率値は、前記認識待ち目標対象の最終のタイプが前記予測タイプである確率を示す。
本発明によって提供される任意の実施形態と組み合わせると、前記目標画像内には、積み上げられている複数の認識待ち目標対象が含まれ、目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することは、前記目標画像の高さを所定の高さに調整することと、調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することと、を含み、その中で、前記目標画像は、収集された画像内の積み上げられている複数の認識待ち目標対象の検出ボックスに基づいて前記収集された画像から裁断して得られたものであり、前記目標画像の高さ方向は、前記積み上げられている複数の認識待ち目標対象の積み上げ方向である。
本発明によって提供される任意の実施形態と組み合わせると、前記目標画像の高さを所定の高さに調整することは、前記目標画像の幅が所定の幅に達するまで、前記目標画像の高さと幅を同じ比率でスケーリングすることと、スケーリング後の目標画像の幅が所定の幅に達したが、スケーリング後の目標画像高さが所定の高さよりも大きいと、縮小後の目標画像の高さが所定の高さと等しくなるまで、前記スケーリング後の目標画像の高さと幅を同じ比率で縮小することと、を含む。
本発明によって提供される任意の実施形態と組み合わせると、前記目標画像の高さを所定の高さに調整することは、前記目標画像の幅が所定の幅に達するまで、前記目標画像の高さと幅を同じ比率でスケーリングすることと、スケーリング後の目標画像の幅が所定の幅に達したが、スケーリング後の目標画像の高さが所定の高さ未満であると、第1ピクセルを利用してスケーリング後の目標画像に対して充填を実行して、充填後の目標画像の高さが所定の高さになるようにすることと、を含む。
本発明によって提供される任意の実施形態と組み合わせると、調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することは、調整後の目標画像特徴に対して抽出を実行して特徴マップを得ることであって、前記特徴マップの高さの次元は、前記目標画像の高さ方向に対応することと、前記特徴マップの幅の次元に沿って前記特徴マップに対して平均プーリングを実行して、プーリング後の特徴マップを得ることと、前記プーリング後の特徴マップを高さの次元に沿ってセグメント化して、所定の数の特徴を得ることと、各特徴に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定することと、を含む。
本発明によって提供される任意の実施形態と組み合わせると、調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することは、ニューラルネットワークによって実行され、前記ニューラルネットワークは、分類ネットワークを含み、その中で、前記分類ネットワークは、K個の分類器を含み、その中で、Kは、分類を実行するときの既知のタイプの数であり、kは、正の整数であり、各特徴に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定することは、各特徴と各分類器の重みベクトルとの間の余弦類似度をそれぞれ計算することと、計算した余弦類似度に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定することと、を含む。
本発明によって提供される任意の実施形態と組み合わせると、調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することは、ニューラルネットワークによって実行され、前記ニューラルネットワークは、特徴抽出ネットワークを含み、前記特徴抽出ネットワークは、複数の畳み込み層を含み、前記特徴抽出ネットワークの前記複数の畳み込み層の中の最後のN個の畳み込み層の前記特徴マップの高さの次元におけるステップ長さは、1であり、Nは、正の整数である。
本発明によって提供される任意の実施形態と組み合わせると、目標画像内の認識待ち目標対象を分類することは、ニューラルネットワークを利用して実行され、前記予測タイプに対応する真否認識モデルは、当該予測タイプの認証目標対象の隠れ層特徴を利用して構築し、前記認証目標対象は、前記ニューラルネットワークのトレーニング段階および/またはテスト段階で、正確に予測される。
本発明の一態様によると、目標対象認識装置を提供し、前記装置は、目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定するための分類ユニットと、前記認識待ち目標対象の隠れ層特徴に基づいて前記予測タイプが正確であるか否かを確定するための確定ユニットと、前記予測タイプが正確ではないことに応答して、プロンプト情報を出力するためのプロンプトユニットと、を備える。
本発明によって提供される任意の実施形態と組み合わせると、前記装置は、前記予測タイプが正確であることに応答して、前記予測タイプを前記認識待ち目標対象の最終のタイプとして確定し、前記認識待ち目標対象の前記最終のタイプを出力するための出力ユニットをさらに備える。
本発明によって提供される任意の実施形態と組み合わせると、前記確定ユニットは、前記認識待ち目標対象の隠れ層特徴を予測タイプに対応する真否認識モデルに入力して、前記真否認識モデルが確率値を出力するようにし、前記確率値が確率閾値未満であると、前記予測タイプが正確ではないと確定し、前記確率値が前記確率閾値以上であると、前記予測タイプが正確であると確定し、その中で、前記予測タイプに対応する真否認識モデルは、当該予測タイプの目標対象の隠れ層特徴の分布法則を反映し、前記確率値は、前記認識待ち目標対象の最終のタイプが前記予測タイプである確率を示す。
本発明によって提供される任意の実施形態と組み合わせると、前記目標画像内には、積み上げられている複数の認識待ち目標対象が含まれ、前記分類ユニットは、前記目標画像の高さを所定の高さに調整し、調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することと、を含み、その中で、前記目標画像は、収集された画像内の積み上げられている複数の認識待ち目標対象の検出ボックスに基づいて前記収集された画像から裁断して得られたものであり、前記目標画像の高さ方向は、前記積み上げられている複数の認識待ち目標対象の積み上げ方向である。
本発明によって提供される任意の実施形態と組み合わせると、前記分類ユニットは、前記目標画像の幅が所定の幅に達するまで、前記目標画像の高さと幅を同じ比率でスケーリングし、スケーリング後の目標画像の幅が所定の幅に達したが、スケーリング後の目標画像高さが所定の高さよりも大きいと、縮小後の目標画像の高さが所定の高さと等しくなるまで、前記スケーリング後の目標画像の高さと幅を同じ比率で縮小する。
本発明によって提供される任意の実施形態と組み合わせると、前記分類ユニットは、前記目標画像の幅が所定の幅に達するまで、前記目標画像の高さと幅を同じ比率でスケーリングし、スケーリング後の目標画像の幅が所定の幅に達したが、スケーリング後の目標画像の高さが所定の高さ未満であると、第1ピクセルを利用してスケーリング後の目標画像に対して充填を実行して、充填後の目標画像の高さが所定の高さになるようにする。
本発明によって提供される任意の実施形態と組み合わせると、前記分類ユニットは、調整後の目標画像特徴に対して抽出を実行して特徴マップを得、前記特徴マップの高さの次元は、前記目標画像の高さ方向に対応し、前記特徴マップの幅の次元に沿って前記特徴マップに対して平均プーリングを実行して、プーリング後の特徴マップを得、前記プーリング後の特徴マップを高さの次元に沿ってセグメント化して、所定の数の特徴を得、各特徴に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定する。
本発明によって提供される任意の実施形態と組み合わせると、調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することは、ニューラルネットワークによって実行され、前記ニューラルネットワークは、分類ネットワークを含み、その中で、前記分類ネットワークは、K個の分類器を含み、Kは、分類を実行するときの既知のタイプの数であり、kは、正の整数であり、各特徴に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定することは、各特徴と各分類器の重みベクトルとの間の余弦類似度をそれぞれ計算することと、計算した余弦類似度に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定することと、を含む。
本発明によって提供される任意の実施形態と組み合わせると、サイズ調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することは、ニューラルネットワークによって実行され、前記ニューラルネットワークは、特徴抽出ネットワークを含み、前記特徴抽出ネットワークは、複数の畳み込み層を含み、前記特徴抽出ネットワークの前記複数の畳み込み層の中の最後のN個の畳み込み層の前記特徴マップの高さの次元におけるステップ長さは、1であり、Nは、正の整数である。
本発明によって提供される任意の実施形態と組み合わせると、目標画像内の認識待ち目標対象を分類することは、ニューラルネットワークを利用して実行され、前記予測タイプに対応する真否認識モデルは、当該予測タイプの認証目標対象の隠れ層特徴を利用して構築し、前記認証目標対象は、前記ニューラルネットワークのトレーニング段階および/またはテスト段階で、正確に予測される。
本発明の一態様によると、電子デバイスを提供し、前記デバイスは、メモリとプロセッサとを備え、前記メモリは、プロセッサで運行可能なコンピュータ命令を格納し、前記プロセッサは、前記コンピュータ命令を実行するときに、本発明の任意の実施形態に記載の目標対象認識方法を実装する。
本発明の一態様によると、コンピュータプログラムが格納されているコンピュータ可読記録媒体を提供し、前記コンピュータプログラムがプロセッサによって実行されるときに、本発明の任意の実施形態に記載の目標対象認識方法が実装される。
本発明の一態様によると、コンピュータ可読記録媒体に格納されているコンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行されるときに、本発明の任意の実施形態に記載の目標対象認識方法が実装される。
本発明の1つまたは複数の実施例によって提供される目標対象の認識システム、方法、装置、デバイス、及び記録媒体によると、目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定し、すなわち、前記認識待ち目標対象が既知のタイプの中のどのタイプに属するかを確定し、前記認識待ち目標対象の隠れ層特徴に基づいて予測タイプが正確であるか否かを確定し、予測タイプが正確ではない場合、プロンプト情報を出力することによって、既知のタイプに属していない目標対象を認識することができ、すなわち、現在の場面に属していない目標対象認識してプロンプトを実行することができる。
上記の一般的な叙述と以下の細部の叙述は、例示的および解釈的なもの過ぎず、本発明に対する限定ではないことを理解すべきである。
ここでの図面は、明細書に組み込まれて、本明細書の一部を構成する。これら図面は、本発明に合致する実施例を示し、明細書ともに本発明の実施例を説明するために用いられる。
本発明の少なくとも1つの実施例によって提供される目標対象認識方法を示すフローチャートである。 それぞれ本発明の少なくとも1つの実施例によって提供される目標対象認識方法での複数の目標対象を示す模式図である。 本発明の少なくとも1つの実施例によって提供される目標画像内の認識待ち目標対象を分類する方法を示すフローチャートである。 ニューラルネットワークのトレーニング過程を示す模式図である。 本発明の少なくとも1つの実施例によって提供される目標対象認識装置の構成を示す模式図である。 本発明の少なくとも1つの実施例によって提供される電子デバイスの構成を示す模式図である。
以下、当業者が本発明の1つまたは複数の実施例における技術的解決策をよりよく理解できるようにするために、本発明の1つまたは複数の実施例における図面と併せて、本発明の1つまたは複数の実施例における技術的解決策を明確かつ完全に説明する。明らかに、説明される実施例は、すべての実施例ではなく、本発明の一部の実施例に過ぎない。本発明の1つまたは複数の実施例に基づいて、当業者が創造的な作業なしに得た他のすべての実施形態は、本開示の保護範囲内に入るはずである。
本発明で使用される用語は、特定の実施例を説明することのみを目的としており、本発明を限定することを意図するものではない。本発明および添付の特許請求の範囲で使用される「一種」、「前記」、「当該」などの単数形は、文脈が他の意味を明確に示さない限り、複数形を含むことを意図している。本明細書で使用される「および/または」という用語は、1つまたは複数の関連するリストされたアイテムの任意の1つまたはすべての可能な組み合わせを含むことを指すことを理解すべきである。また、本明細書での「少なくとも1つ」という用語は、複数の中の任意の1つまたは複数の中の少なくとも2つの任意の組み合わせを含むことを意味する。
本発明では、第1、第2、第3などの用語を使用して様々な情報を記述することがあるが、これら情報はこれら用語によって限定されるべきではないことを理解すべきである。これら用語は、同じ種類の情報を互いに区別するためにのみ使用される。たとえば、本開示の範囲から逸脱することなく、第1の情報は、第2の情報とも呼ばれ得、同様に、第2の情報は、第1の情報とも呼ばれ得る。文脈に応じて、本明細書で使用される「もし」という単語は、「…場合」、「…すると」、または、「…ことに応答して」と解釈することができる。
当業者が本発明の実施例における技術的解決策をより良く理解するようにするために、また、本発明の実施例の上記の目的、特徴、および、利点をより明確かつ理解可能にするために、以下、図面と併せて本発明の実施例における技術的解決策をさらに詳細に説明する。
図1は、本発明の少なくとも1つの実施例によって提供される目標対象認識方法を示すフローチャートである。図1に示すように、当該方法は、ステップ101~103を含み得る。
ステップ101において、目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定する。
いくつかの実施例において、認識待ち目標対象は、ゲームコインなどのさまざまな形状のシート状物体を含み得る。前記認識待ち目標対象は、単一の目標対象であってもよいし、積み重ねられた複数の目標対象の中の1つまたは複数であってもよい。積み重ねられた各目標対象の厚み(高さ)は、一般的に同じである。
目標画像内に含まれた複数の認識待ち目標対象は、通常、厚み方向に沿って積み上げられている。図2Aに示すように、複数のゲームコインは、垂直方向に沿って積み上げられており(スタンド(stand)積み重ね)、目標画像の高さ方向(H)は垂直方向であり、目標画像の幅方向(W)は目標画像の高さ方向(H)に垂直な方向である。また、図2Bに示すように、複数のゲームコインは、水平方向に沿って積み上げられており(フロート(float)積み重ね)、目標画像の高さ方向(H)は水平方向であり、目標画像の幅方向(W)は目標画像の高さ方向(H)に垂直な方向である。
本発明の実施例において、畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)などの分類ネットワークを利用して、前記認識待ち目標対象を分類することで、前記認識待ち目標対象の予測タイプを確定することができる。前記分類ネットワークは、K個の分類器を含み得、その中で、Kは、分類を実行するときの既知のタイプの数であり、Kは、正の整数である。前記認識待ち目標対象を分類することによって、前記認識待ち目標対象が既知のタイプの中のどのタイプに属するかを確定することができる。分類ネットワークは、前記認識待ち目標対象の特徴情報(隠れ層特徴)に基づいて認識待ち目標対象が各既知のタイプに属する確率を判断し、確率が最大であるタイプを前記認識待ち目標対象が属している予測タイプとして確定する。そのため、任意の既知のタイプに属していない認識待ち目標対象であっても、前記分類ネットワークは、既知のタイプの中の1つのタイプを分類結果すなわち予測タイプとして常に出力することになることに注意すべきである。
ステップ102において、前記認識待ち目標対象の隠れ層特徴に基づいて前記予測タイプが正確であるか否かを確定する。
具体的に実施するときに、予測タイプに対応する真否認識モデルを利用して前記認識待ち目標対象の隠れ層特徴に基づいて前記予測タイプが正確であるか否かを確定することができ、その中で、1つの予測タイプに対応する真否認識モデルは、当該予測タイプの目標対象の隠れ層特徴の分布法則を反映し、真否認識モデルが同じタイプの目標対象の隠れ層特徴の分布法則を反映するため、予測したタイプが正確であるか否かを判断することができる。真否認識モデルは、同じタイプの目標対象の隠れ層特徴に基づいて構築した確率分布モデルであり得る。
具体的に実施過程において、真否認識モデルは、ガウス確率分布モデルまたは同じタイプの目標対象の隠れ層特徴の分布法則を反映できる他のモデルを含み得る。
1つの予測タイプに対応する真否認識モデルに入力する隠れ層特徴に対して、前記真否認識モデルは、前記入力された隠れ層特徴が当該予測タイプの目標対象の隠れ層特徴に属する確率値を出力することができ、入力した隠れ層特徴が当該予測タイプの目標対象の隠れ層特徴に属するか否かを確定することができる。当該確率値が確率閾値以上であると、ステップ101で確定した予測タイプが正確であると確定し、当該確率値が確率閾値未満であると、ステップ101で確定した予測タイプが正確ではないと確定し、つまり、認識待ち目標対象の実タイプが、ステップ101で分類するときの既知のタイプに属しないし、未知のタイプに属している。その中で、前記目標対象の隠れ層特徴は、分類ネットワークを利用して目標対象を分類するときに、前記分類ネットワーク中の分類器に入力する前の特徴を表す。
ステップ103において、前記予測タイプが正確ではないことに応答して、プロンプト情報を出力する。
本発明の実施例において、K個の既知のタイプに対して、K個の真否認識モデルを構築することができる。K個のタイプは、現在の場面での目標対象のすべてのタイプであり得る。このK個のタイプ以外の目標対象は、現在の場面に属していない対象といて見なすことができ、または、外来対象と呼ばれ、そのタイプが未知のタイプである。
予測タイプが正確ではない認識待ち目標対象の場合は、前記認識待ち目標対象が実際に既知のタイプの中の任意のタイプに属せず、未知のタイプであることを意味し、すなわち、前記認識待ち目標対象が現在の場面に属しないし、外来対象であると確定することができる。
1例において、前記予測タイプが正確ではないことに応答して、すなわち前記認識待ち目標対象が外来対象であることに応答して、「未知のタイプ」というプロンプト情報を出力することができる。
いくつかの実施例において、目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定し、すなわち、前記認識待ち目標対象が既知のタイプの中のどのタイプに属するかを確定する。前記真否認識モデルが同じタイプの目標対象の隠れ層特徴の分布法則を反映するため、予測タイプに対応する真否認識モデルを利用して、認識待ち目標対象の隠れ層特徴に基づいて、当該予測タイプが正確であるか否かを判断することができ、予測タイプが正確ではないと、プロンプト情報を出力することができ、任意の既知のタイプに属しない目標対象すなわち現在の場面に属していない目標対象を認識して、プロンプトを実行する。
目標画像内に複数の認識待ち目標対象が含まれている場合、その中の1つの認識待ち目標対象が未知のタイプの目標対象である場合、プロンプト情報を出力して、関連人員に対してこの複数の認識待ち目標対象の中に未知のタイプの目標対象が混在されていることをプロンプトする。
前記認識待ち目標対象の予測タイプが正確であると、予測タイプを前記認識待ち目標対象の最終のタイプとして確定し、前記認識待ち目標対象の最終のタイプを出力する。
いくつかの実施例において、以下に方式に従ってステップ101で確定した予測タイプが正確であるか否かを確定することができる。
前記認識待ち目標対象の隠れ層特徴を予測タイプに対応する真否認識モデルに入力することによって、予測タイプに対応する真否認識モデルが確率値を出力するようにし、前記確率値は、前記認識待ち目標対象の最終のタイプが前記予測タイプである確率を示す。前記確率値が確率閾値未満であると、前記予測タイプが正確ではないと確定し、前記確率値が前記確率閾値以上であると、前記予測タイプが正確であると確定する。
前記真否認識モデルが同じタイプの目標対象の隠れ層特徴の分布法則を反映するため、予測タイプに対応する真否認識モデルを利用して、入力した認識待ち目標対象の隠れ層特徴が当該予測タイプの目標対象の隠れ層特徴に属する確率を確定する。前記真否認識モデルによって出力された確率値が確率閾値未満であると、入力した認識待ち目標対象の隠れ層特徴が当該予測タイプの目標対象の隠れ層特徴に属しないと確定することができ、ステップ101で確定した予測タイプが正確ではないと確定し、逆に、前記真否認識モデルによって出力された確率値が確率閾値以上であると、入力した認識待ち目標対象の隠れ層特徴が当該予測タイプの目標対象の隠れ層特徴に属すると確定することができ、ステップ101で確定した予測タイプが正確であると確定することができる。
いくつかの実施例において、以下の方法に従って認識待ち目標対象を分類することができる。
まず、目標画像を取得する。前記目標画像は、収集された画像内の積み上げられている複数の目標対象の検出ボックスに基づいて前記収集された画像から裁断して得られたものであり、前記目標画像の高さ方向は、前記複数の目標対象の積み上げ方向である。前記認識待ち目標対象は、積み重ねられた複数の目標対象の中の1つまたは複数であり得、たとえば、前記認識待ち目標対象は、図2Aに示された垂直方向に沿ってスタンド積み重ねられた複数の目標対象の全部であるか、または、図2Bに示された水平方向に沿ってフロート積み重ねられた複数の目標対象の中の1つであり得る。
目標領域の側面に設置された画像収集装置を利用してスタンド積み重ねられた複数の目標対象を含む目標画像(サイドビュー画像と呼ぶ)を撮影することができ、または、目標領域の上方に設置された画像収集装置を利用してフロート積み重ねられた複数の目標対象の目標画像(鳥瞰画像と呼ぶ)を撮影することができる。
次に、前記目標画像の高さを所定の高さに調整し、調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定する。
本発明の実施例において、前記目標画像の高さを均一な高さに調整することによって、隠れ層特徴の処理の実行により適しており、目標対象に対する認識精度の向上に有利である。
いくつかの実施例において、以下の方式に従って、前記目標画像の高さを所定の高さに調整することができる。
まず、前記目標画像に対応する所定の高さおよび所定の幅を取得して、前記目標画像のサイズ変換に使用する。その中で、前記所定の幅は、目標対象の平均的な幅に基づいて設定することができ、前記所定の高さは、前記目標対象の平均的な高さに基づいて設定することができ、さらに、認識待ち目標対象の最大数を設置することができる。
1つの例において、前記目標画像の幅が所定の幅に達するまで、前記目標画像の高さと幅を同じ比率でスケーリングすることができる。その中で、同じ比率でスケーリングすることは、前記目標画像の高さおよび幅との間の比例をそのまま維持しながら、前記目標画像をズームインまたはズームアウトすることを指す。その中で、前記所定の幅および所定の高さの単位は、ピクセルであってもよいし、他の単位であってもよく、本発明はこれに対して限定しない。
スケーリング後の目標画像の幅が所定の幅に達したが、スケーリング後の目標画像高さが所定の高さよりも大きいと、縮小後の目標画像の高さが所定の高さと等しくなるまで、前記スケーリング後の目標画像の高さと幅を同じ比率で縮小することができる。
例を挙げて言えば、前記目標対象がゲームコインであり、ゲームコインの平均的な幅に基づいて所定の幅を224pix(ピクセル)に設定し、ゲームコインの平均的な高さに基づいて所定の高さを1344pixに設定し、また、認識待ちのゲームコインの最大数を72に設定することができる。まず、目標画像の幅を224pixに調整し、同じ比率で前記目標画像の高さを調整する。調整後の高さが1344pixよりも大きいと、調整後の目標画像の高さを再度調整して、前記目標画像の高さが1344pixになるようにし、また同じ比率で前記目標画像の幅を調整することによって、前記目標画像の高さを所定の高さ1344pixに調整することができる。調整後の高さが1344 pixと等しいと、再度調整する必要がないし、すなわち、前記目標画像の高さが既に所定の高さ1344pixに調整された。
1つの例において、前記目標画像の幅が所定の幅に達するまで、前記目標画像の高さと幅を同じ比率でスケーリングし、スケーリング後の目標画像の幅が所定の幅に達したが、スケーリング後の目標画像の高さが所定の高さ未満であると、第1ピクセルを利用してスケーリング後の目標画像に対して充填を実行して、充填後の目標画像の高さが所定の高さになるようにする。
その中で、前記第1ピクセルは、ピクセル値が(127、127、127)であるピクセルであり得、すなわちグレーピクセルであり得る。前記第1ピクセルは、他のピクセル値に設定してもよく、具体的なピクセル値は本発明の実施例の効果の影響を与えない。
依然として、前記目標対象がゲームコインであり、所定の幅が224pixであり、所定の高さが1344pixであり、最大数が72である例をとると、まず、目標画像の幅を224pixに調整し、同じ比率で前記目標画像の高さを調整することができる。調整後の高さが1344pix未満であると、1344pixに足りない高さの部分をグレーピクセルで充填し、充填後の目標画像の高さが1344pixになるようにする。調整後の高さが1344pixと等しいと、充填する必要がなく、すなわち、前記目標画像の高さが既に所定の高さ1344pixに調整された。
前記目標画像の高さを所定の高さに調整した後に、調整後の目標画像内の認識待ち目標対象を分類することができる。
図3は、本発明の少なくとも1つの実施例に係る目標画像内の認識待ち目標対象を分類する方法を示すフローチャートである。図3に示すように、前記方法は、ステップ301~ステップ304を含む。
ステップ301において、調整後の目標画像特徴に対して抽出を実行して、特徴マップを得る。
1つの例において、得られた特徴マップは、たとえばチャネルの次元、高さの次元、幅の次元、バッチ(batch)の次元などの、複数の次元を含み得る。前記特徴マップの形式は、たとえば[B C H W]として表される。ここで、Bは、バッチの次元を示し、Cは、チャネルの次元を示し、Hは、高さの次元を示し、Wは、幅の次元を示す。その中で、前記特徴マップの高さの次元は、前記目標画像の高さ方向に対応し、幅の次元は、前記目標画像の幅方向に対応する。
ステップ302において、前記特徴マップの幅の次元に沿って前記特徴マップに対して平均プーリングを実行して、プーリング後の特徴マップを得る。
特徴マップの幅の次元に沿って平均プーリングを実行することによって、高さの次元およびチャネルの次元がそのまま維持された、プーリングを通じた特徴マップを、得る。
たとえば、特徴マップが2048*72*8(チャネルの次元が2048であり、高さが72であり、幅が8である)である場合、幅の次元に沿って平均プーリングを実行した後に、2048*72*1の特徴マップを得る。
ステップ303において、前記プーリング後の特徴マップを高さの次元に沿ってセグメント化して、所定の数の特徴を得る。
前記プーリング後の特徴マップを高さの次元に沿ってセグメント化して、所定の数の特徴を得ることができ、その中で、各セグメントの特徴が1つの目標対象に対応すると見なすことができる。その中で、前記所定の数が認識待ちの目標対象の最大数である。
たとえば、最大数が72であり、上記の例でプーリングを通じた特徴マップを高さの次元に沿ってセグメント化し、すなわち高さの次元に沿って2048*72*1の特徴マップを分割して、72個の2048次元のベクトルを得、各ベクトルは前記目標画像内の高さ方向における1/72の領域に対応する特徴に対応する。1つの特徴を、1つの2048次元のベクトルで表すことができる。
ステップ304において、各特徴に基づいて各認識待ち目標対象のタイプを確定する。
本発明の実施例において、調整後の目標画像の高さが所定の高さ未満であると、調整後の目標画像を充填して、高さが所定の高さに達するようにし、調整後の目標画像の高さが所定の高さよりも大きいと、調整後の目標画像の高さを所定の高さに減少し、同時に調整後の目標画像の幅を同じ比率で減少するため、前記目標画像の特徴マップはすべて所定の高さの目標画像に基づいて取得される。また、前記所定の高さを認識待ちの目標対象の最大数に基づいて設定し、前記最大数に基づいて前記特徴マップをセグメント化し、得られた各セグメントの特徴(特徴と略称する)が1つの目標対象に対応し、各セグメントの特徴に基づいて目標対象の認識を実行するため、目標対象の数の影響を減少することができ、各目標対象認識の正確性を向上させることができる。また、異なる認識過程で、目標画像内に含まれた目標対象の数が異なる可能性があるため、目標画像の高さと幅の比率の差異がより大きい可能性があり、高さと幅の比率を維持しながら前記目標画像を調整することによって、画像の歪みを減少し、認識精度をさらに向上させることができる。
いくつかの実施例において、前記充填後の目標画像内のグレーピクセルなどの前記第1ピクセルに充填した部分に対応する特徴を分類する場合、分類結果が空である。得られた空ではない分類結果の数に基づいて、目標画像に含まれた目標対象の数を確定することができる。
認識待ち目標対象の最大数が72であり、調整後の目標画像の特徴マップを72セグメントに分割し、各セグメントの特徴に基づいて目標対象の認識を実行すると、72個の分類結果を得ることができる。目標画像内にグレーピクセル充填領域が含まれると、当該充填領域の特徴に対応する目標対象の分類結果は、空であり、たとえば、16個の空が得られた場合、56個の空ではない分類結果を得られるため、目標画像が56個の目標対象を含むと確定することができる。
当業者は、上記の所定の幅、所定の高さ、および、認識待ちの目標対象の最大数は、いずれも例であり、これらパラメータの具体的な数値は実際の必要に応じて具体的に設定することができ、本発明の実施例はこれに対して限定しないことを理解すべきである。
いくつかの実施例において、調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することは、ニューラルネットワークによって実行され、前記ニューラルネットワークは、分類ネットワークを含み、前記分類ネットワークは、K個の分類器を含み、その中で、Kは、分類を実行するときの既知のタイプの数であり、kは、正の整数である。
前記ニューラルネットワークは、上記のプーリングされた特徴マップに対して高さの次元に沿ってセグメント化して得られた各特徴に基づいて、各認識待ち目標対象のタイプを確定することができる。
まず、各特徴と各分類器の重みベクトルとの間の余弦類似度をそれぞれ計算する。
1つの例において、余弦類似度を計算する前に、各分類器の重みベクトルに対して正規化処理を実行し、また分類器に入力する各特徴に対して正規化処理を実行することによって、前記ニューラルネットワークの分類精度を向上させることができる。
次に、計算した余弦類似度に基づいて前記複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定する。
特徴ごとに、前記特徴と各々の分類器の重みベクトルとの間の余弦類似度を計算し、最大の余弦類似度を有する分類器のタイプを、当該特徴に対応する認識待ち目標対象の予測タイプとして使用する。
各特徴と各分類器の重みベクトルとの間の余弦類似度に基づいて各特徴に対応する認識待ち目標対象の予測タイプを確定することによって、分類ネットワークの分類効果を向上させることができる。
いくつかの実施例において、前記ニューラルネットワークは、特徴抽出ネットワークを含む。前記特徴抽出ネットワークは、複数の畳み込み層を含み得、または、複数の畳み込み層および複数のプーリング層などを含み得る。複数層の特徴抽出を通じて、低層特徴を徐々に中層特徴または高層特徴に変換することによって、前記目標画像の表現力を向上させ、後続の処理に有利である。
1例において、前記特徴抽出ネットワークの最後のN個の畳み込み層の前記特徴マップの高さの次元におけるステップ長さ(stride)は、1であり、したがって、高さの次元における特徴を可能な限り多く維持する。その中で、Nは、正の整数である。
前記特徴抽出ネットワークが4つの残差ユニットを含む残差ネットワーク(ResNet、Residual Networks)である例をとると、関連技術では、前記残差ネットワーク中の第3、第4残差ユニット中の最後の1つの畳み込み層のステップ長さは、通常、(2,2)であるが、本発明の実施例ではステップ長さ(2,2)を(1,2)に変更することによって、特徴マップが高さの次元に沿ってサンプリングを実行せず、幅の次元に沿ってサンプリングを実行するようにすることによって、高さの次元における特徴を可能な限り多く維持する。
いくつかの実施例において、前記目標画像に対して他の前処理を実行することができ、たとえば目標画像のピクセル値に対して正規化操作などを実行することができる。
本発明の実施例において、前記方法は、ニューラルネットワークをトレーニングすることをさらに含み、前記ニューラルネットワークは、調整後の目標画像に対して特徴抽出を実行するための特徴抽出ネットワークと、目標画像内の認識待ち目標対象を分類するための分類ネットワークと、を含む。
図4は、ニューラルネットワークのトレーニング過程を示す模式図である。図4に示すように、前記ニューラルネットワークをトレーニングする過程で利用するモジュールは、前処理モジュール401と、画像強調モジュール402と、ニューラルネットワーク403と、特徴セグメント化モジュール404と、を備え、前記ニューラルネットワーク403は、特徴抽出ネットワーク4031と、分類ネットワーク4032と、を備える。
本発明の実施例において、前記ニューラルネットワークは、サンプル画像およびそのラベリング結果を使用してトレーニングして得られる。
1例において、前記サンプル画像のラベリング結果は、前記サンプル画像内の各目標対象のラベリングタイプを含む。ゲームコインの例をとると、各ゲームコインのタイプは金種に関連しており、同じ金種のゲームコインが同じタイプに属する。スタンド積み重ねられた複数のゲームコインを含むサンプル画像に対して、前記サンプル画像内に各ゲームコインの金種をラベリングした。
図4に示すサンプル画像400の処理過程の例をとって、ニューラルネットワークに対するトレーニング過程を説明し、その中で、サンプル画像400には複数の積み重ねられたゲームコインが含まれ、またサンプル画像400に各ゲームコインの金種をラベリングした。すなわち、各ゲームコインの実タイプをラベリングした。
まず、前処理モジュール401を通じてサンプル画像400に対して前処理を実行する。前処理は、高さと幅の比率を維持しながらサンプル画像400の大きさを調整し、サンプル画像400のピクセル値に対して正規化を実行する。高さと幅の比率を維持しながらサンプル画像400の大きさを調整する具体的な過程は、上記の説明を参照できる。
前処理を実行した後に、さらに、画像強調モジュール402を利用して前処理後のサンプル画像に対して画像強調を実行することができる。前処理後のサンプル画像に対して画像強調を実行することは、前処理後のサンプル画像に対してランダムフリッピングを実行することと、ランダム裁断を実行することと、高さと幅の比率をランダムに微調整することと、ランダムに回転することなどの、操作を含み、したがって、強調後のサンプル画像を取得する。強調後のサンプル画像は、ニューラルネットワークをトレーニングする段階で使用することができ、ニューラルネットワークのロバスト性を向上させることができる。
強調後のサンプル画像に対して、特徴抽出ネットワーク4031を利用して前記強調後のサンプル画像に含まれた複数の目標対象の特徴マップを取得する。特徴抽出ネットワーク4031の具体的な構成は、上記の説明を参照できる。
続いて、特徴セグメント化モジュール404を利用して前記特徴マップを高さの次元に沿ってセグメント化を実行して、所定の数の特徴を得る。
次に、分類ネットワーク4032を利用して各特徴に基づいて各認識待ち目標対象の予測タイプを確定する。
認識待ち目標対象の予測タイプと認識待ち目標対象のラベリングタイプとの間の差異に基づいて、特徴抽出ネットワーク4031のパラメータおよび分類ネットワーク4032のパラメータを含むニューラルネットワーク403のパラメータを調整する。
いくつかの実施例において、前記ニューラルネットワークをトレーニングするのに使用する損失関数は、コネクショニスト時間分類(Connectionist Temporal Classification、CTCと略称する)損失関数を含み、すなわち、CTC損失関数に基づいて逆伝播を実行してニューラルネットワークのパラメータを更新する。
いくつかの実施例において、テスト画像およびそのラベリング結果を使用してトレーニングが完了されたニューラルネットワークをテストすることができ、前記テスト画像のラベリング結果は、同様に、前記テスト画像内の各認識待ち目標対象のラベリングタイプを含む。ニューラルネットワークのテスト過程は、画像強調処理を実行する必要がないことを除いて、トレーニング過程での順伝播過程と類似しており、具体的には図4に示す過程を参照できる。テスト段階で、入力されたテスト画像に基づいて、テスト画像内の認識待ち目標対象の予測タイプを予測して得る。
いくつかの実施例において、1つのタイプに対応する真否認識モデルは、当該タイプの認証目標対象の隠れ層特徴を採用して構築される。前記認証目標対象は、前記ニューラルネットワークのトレーニング段階および/またはテスト段階で、正確に予測される。その中で、正確に予測されることは、トレーニング段階および/またはテスト段階で、前記ニューラルネットワークによって出力された認証目標対象の予測タイプとラベリング結果とが同一であることを示す。
例を挙げて言えば、トレーニング段階およびテスト段階でn個のi番目のタイプのゲームコインを正確に予測し、図4に示すニューラルネットワークの処理によって、当該n個のゲームコインに対応する隠れ層特徴を得、当該n個のゲームコインの各隠れ層特徴を利用して当該タイプに対応する真否認識モデルを構築し、たとえばガウス確率分布モデルを構築する。その中で、i=1、2、...Mであり、Mおよびnは、正の整数である。
得られたi番目のタイプに対応する真否認識モデルは、図4に示すニューラルネットワークに基づいて得られた認識待ち目標対象の隠れ層特徴を前記真否認識モデルに入力し、前記認識待ち目標対象の隠れ層特徴がi番目のタイプの隠れ層特徴に属する確率値を得ることができる。当該確率値が確率閾値未満であると、前記認識待ち目標対象が1つの外来対象であると認識する。
本発明の実施例において、1つのタイプの認証目標対象の隠れ層特徴を利用して、当該タイプに対応する真否認識モデルを構築することによって、入力された隠れ層特徴が当該タイプの目標対象の隠れ層特徴であるか否かを判断するための根拠を構築し、すなわち、認識待ちの目標対象が未知のタイプの目標対象であるか否かを判断するための根拠を構築したため、認識待ち目標対象に対する認識正確性を向上させた。
図5は、本発明の少なくとも1つの実施例によって提供される目標対象認識装置の構成を示す模式図であり、図5に示すように、前記装置は、目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定するための分類ユニット501と、前記認識待ち目標対象の隠れ層特徴に基づいて前記予測タイプが正確であるか否かを確定するための確定ユニット502と、前記予測タイプが正確ではないことに応答して、プロンプト情報を出力するためのプロンプトユニット503と、を備える。
いくつかの実施例において、前記装置は、前記予測タイプが正確であることに応答して、前記予測タイプを前記認識待ち目標対象の最終のタイプとして確定し、前記認識待ち目標対象の最終のタイプを出力するための出力ユニットをさらに備える。
いくつかの実施例において、前記確定ユニットは、具体的に、前記認識待ち目標対象の隠れ層特徴を予測タイプに対応する真否認識モデルに入力して、前記真否認識モデルが確率値を出力するようにし、前記確率値が確率閾値未満であると、前記予測タイプが正確ではないと確定し、前記確率値が前記確率閾値以上であると、前記予測タイプが正確であると確定し、その中で、前記予測タイプに対応する真否認識モデルは、当該予測タイプの目標対象の隠れ層特徴の分布法則を反映し、前記確率値は、前記認識待ち目標対象の最終のタイプが前記予測タイプである確率を示す。
いくつかの実施例において、前記目標画像内には、積み上げられている複数の認識待ち目標対象が含まれ、前記分類ユニットは、前記目標画像の高さを所定の高さに調整し、調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定し、その中で、前記目標画像は、収集された画像内の積み上げられている複数の認識待ち目標対象の検出ボックスに基づいて前記収集された画像から裁断して得られたものであり、前記目標画像の高さ方向は、前記積み上げられている複数の認識待ち目標対象の積み上げ方向である。
いくつかの実施例において、前記分類ユニットは、具体的に、前記目標画像の幅が所定の幅に達するまで、前記目標画像の高さと幅を同じ比率でスケーリングし、スケーリング後の目標画像の幅が所定の幅に達したが、スケーリング後の目標画像高さが所定の高さよりも大きいと、縮小後の目標画像の高さが所定の高さと等しくなるまで、前記スケーリング後の目標画像の高さと幅を同じ比率で縮小する。
いくつかの実施例において、前記分類ユニットは、前記目標画像の幅が所定の幅に達するまで、前記目標画像の高さと幅を同じ比率でスケーリングし、スケーリング後の目標画像の幅が所定の幅に達したが、スケーリング後の目標画像の高さが所定の高さ未満であると、第1ピクセルを利用してスケーリング後の目標画像に対して充填を実行して、充填後の目標画像の高さが所定の高さになるようにする。
いくつかの実施例において、前記分類ユニットは、具体的に、調整後の目標画像特徴に対して抽出を実行して特徴マップを得、前記特徴マップの高さの次元は、前記目標画像の高さ方向に対応し、前記特徴マップの幅の次元に沿って前記特徴マップに対して平均プーリングを実行して、プーリング後の特徴マップを得、前記プーリング後の特徴マップを高さの次元に沿ってセグメント化して、所定の数の特徴を得、各特徴に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定する。
いくつかの実施例において、調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することは、ニューラルネットワークによって実行され、前記ニューラルネットワークは、分類ネットワークを含み、その中で、前記分類ネットワークは、K個の分類器を含み、Kは、分類を実行するときの既知のタイプの数であり、kは、正の整数であり、各特徴に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定することは、各特徴と各分類器の重みベクトルとの間の余弦類似度をそれぞれ計算することと、計算した余弦類似度に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定することと、を含む。
いくつかの実施例において、調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することは、ニューラルネットワークによって実行され、前記ニューラルネットワークは、特徴抽出ネットワークを含み、前記特徴抽出ネットワークは、複数の畳み込み層を含み、前記特徴抽出ネットワークの前記複数の畳み込み層の中の最後のN個の畳み込み層の前記特徴マップの高さの次元におけるステップ長さは、1であり、Nは、正の整数である。
いくつかの実施例において、目標画像内の認識待ち目標対象を分類することは、ニューラルネットワークを利用して実行され、前記予測タイプに対応する真否認識モデルは、当該予測タイプの認証目標対象の隠れ層特徴を利用して構築し、前記認証目標対象は、前記ニューラルネットワークのトレーニング段階および/またはテスト段階で、正確に予測される。
本発明の装置の実施例は、サーバまたは端末デバイスなどの電子デバイスに適用され得る。装置の実施例は、ソフトウェア、ハードウェア、または両者の組み合わせの方式で実装され得る。ソフトウェアで実装する例をとると、論理装置として、電子デバイスのプロセッサによって不揮発性メモリ内の対応するコンピュータプログラム命令をメモリに読み取って運行される形成され得る。ハードウェアの観点からは、図6に示すように、目標対象認識装置が配置された電子デバイスのハードウェアの構成図であり、図6に示すプロセッサ、メモリ、ネットワークインターフェース、および不揮発性メモリに加えて、当該電子デバイスは、当該電子デバイスの実際の機能に応じて、他のハードウェアをさらに含むことができ、本発明はこれに対して繰り返して説明しない。
これに応じて、本発明の実施例は、コンピュータプログラムが格納されているコンピュータ記録媒体をさらに提供し、当該プログラムがプロセッサによって実行されると、任意の実施例に記載の方法が実現される。
これに応じて、本発明の実施例は、コンピュータ可読記録媒体に格納されているコンピュータプログラムをさらに提供し、前記コンピュータプログラムがプロセッサによって実行されるときに、本発明の任意の実施例に記載の目標対象認識方法が実装される。
これに応じて、本発明の実施例は、電子デバイスをさらに提供し、図6に示すように、当該電子デバイスは、メモリと、プロセッサと、メモリに格納された、プロセッサで運行可能なコンピュータプログラムと、を含み、前記プロセッサが前記コンピュータプログラムを実行するときに、任意の実施例に記載の方法が実現される。
本発明は、プログラムコードを含む1つまたは複数の記録媒体(磁気ディスクメモリ、CD―ROM、光学メモリなどを含むがこれらに限定されない)上で実施されるコンピュータプログラム製品の形をとることができる。コンピュータ使用可能記録媒体は、永続的および非永続的、リムーバブルおよび非リムーバブル媒体を含み、任意の方法または技術によって情報の記憶を実装することができる。情報は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータであり得る。コンピュータの記録媒体の例は、相変化メモリ(PRAM)、静的ランダムアクセスメモリ(SRAM)、動的ランダムアクセスメモリ(DRAM)、他のタイプのランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、フラッシュメモリまたは他のメモリ技術、読み取り専用光学ディスク読み取り専用メモリ(CD―ROM)、デジタル多用途ディスク(DVD)または他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスクメモリまたは他の磁気メモリデバイスまたは任意の他の非伝送媒体を含むがこれらに限定されなく、コンピューティングデバイスによってアクセス可能な情報を記憶するために使用される。
当業者は、明細書を考慮し、本明細書に適用される本発明を実施した後、本発明の他の技術的解決策を容易に考えることができる。本発明は、本発明の任意の変形、用途、または適応的変更をカバーすることを意図しており、これら変形、用途または適応的変更は、本発明の一般原則に従い、本発明の技術の分野における常識または従来の技術的手段を含む。明細書および実施例は、単なる例示と見なされるべきであり、本発明の真の範囲および精神は、以下の特許請求の範囲によって指摘される。
本発明は、上記に既に説明され、また図面に示された精確な構成によって限定されず、その範囲から逸脱することなく、様々な修正および変更を行うことができることを理解されたい。本発明の範囲は、添付の特許請求の範囲によってのみ限定される。
上記は、本発明のいくつかの実施例に過ぎず、本発明を限定するために使用されるものではない。本発明の精神と原則の範囲内で行われたいかなる修正、同等の置換、改良などは、いずれも本発明の範囲に含まれるべきである。
上記の各実施例に対する説明は、各実施例間の相違点を強調する傾向があり、同じまたは類似点は互いに参照することができ、簡素化のために、本明細書では繰り返して説明しない。

Claims (21)

  1. 目標対象認識方法であって、
    目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することと、
    前記認識待ち目標対象の隠れ層特徴に基づいて前記予測タイプが正確であるか否かを確定することと、
    前記予測タイプが正確ではないことに応答して、プロンプト情報を出力することと、を含む
    ことを特徴とする目標対象認識方法。
  2. 前記予測タイプが正確であることに応答して、前記予測タイプを前記認識待ち目標対象の最終のタイプとして確定し、前記認識待ち目標対象の前記最終のタイプを出力することをさらに含む
    ことを特徴とする請求項1に記載の目標対象認識方法。
  3. 前記認識待ち目標対象の隠れ層特徴に基づいて前記予測タイプが正確であるか否かを確定することは、
    前記認識待ち目標対象の隠れ層特徴を前記予測タイプに対応する真否認識モデルに入力することによって、前記真否認識モデルが確率値を出力するようにすることと、
    前記確率値が確率閾値未満であると、前記予測タイプが正確ではないと確定することと、
    前記確率値が前記確率閾値以上であると、前記予測タイプが正確であると確定することと、を含み、
    前記予測タイプに対応する真否認識モデルは、当該予測タイプの目標対象の隠れ層特徴の分布法則を反映し、前記確率値は、前記認識待ち目標対象の最終のタイプが前記予測タイプである確率を示す
    ことを特徴とする請求項1または2に記載の目標対象認識方法。
  4. 前記目標画像内には、積み上げられている複数の認識待ち目標対象が含まれ、
    目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することは、
    前記目標画像の高さを所定の高さに調整することと、
    調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することと、を含み、
    前記目標画像は、収集された画像内の積み上げられている複数の認識待ち目標対象の検出ボックスに基づいて前記収集された画像から裁断して得られたものであり、前記目標画像の高さ方向は、前記積み上げられている複数の認識待ち目標対象の積み上げ方向である
    ことを特徴とする請求項1から3のいずれか1項に記載の目標対象認識方法。
  5. 前記目標画像の高さを所定の高さに調整することは、
    前記目標画像の幅が所定の幅に達するまで、前記目標画像の高さと幅を同じ比率でスケーリングすることと、
    スケーリング後の目標画像の幅が所定の幅に達したが、スケーリング後の目標画像高さが所定の高さよりも大きいと、縮小後の目標画像の高さが所定の高さと等しくなるまで、前記スケーリング後の目標画像の高さと幅を同じ比率で縮小することと、を含む
    ことを特徴とする請求項4に記載の目標対象認識方法。
  6. 前記目標画像の高さを所定の高さに調整することは、
    前記目標画像の幅が所定の幅に達するまで、前記目標画像の高さと幅を同じ比率でスケーリングすることと、
    スケーリング後の目標画像の幅が所定の幅に達したが、スケーリング後の目標画像の高さが所定の高さ未満であると、第1ピクセルを利用してスケーリング後の目標画像に対して充填を実行して、充填後の目標画像の高さが所定の高さになるようにすることと、を含む
    ことを特徴とする請求項4に記載の目標対象認識方法。
  7. 調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することは、
    調整後の目標画像特徴に対して抽出を実行して特徴マップを得ることであって、前記特徴マップの高さの次元は、前記目標画像の高さ方向に対応することと、
    前記特徴マップの幅の次元に沿って前記特徴マップに対して平均プーリングを実行して、プーリング後の特徴マップを得ることと、
    前記プーリング後の特徴マップを高さの次元に沿ってセグメント化して、所定の数の特徴を得ることと、
    各特徴に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定することと、を含む
    ことを特徴とする請求項4に記載の目標対象認識方法。
  8. 調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することは、ニューラルネットワークによって実行され、前記ニューラルネットワークは、分類ネットワークを含み、その中で、前記分類ネットワークは、K個の分類器を含み、Kは、分類を実行するときの既知のタイプの数であり、kは、正の整数であり、
    各特徴に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定することは、
    各特徴と各分類器の重みベクトルとの間の余弦類似度をそれぞれ計算することと、
    計算した余弦類似度に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定することと、を含む
    ことを特徴とする請求項7に記載の目標対象認識方法。
  9. 調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することは、ニューラルネットワークによって実行され、前記ニューラルネットワークは、特徴抽出ネットワークを含み、前記特徴抽出ネットワークは、複数の畳み込み層を含み、前記特徴抽出ネットワークの前記複数の畳み込み層の中の最後のN個の畳み込み層の前記特徴マップの高さの次元におけるステップ長さは、1であり、Nは、正の整数である
    ことを特徴とする請求項7に記載の目標対象認識方法。
  10. 目標画像内の認識待ち目標対象を分類することは、ニューラルネットワークを利用して実行され、前記予測タイプに対応する真否認識モデルは、当該予測タイプの認証目標対象の隠れ層特徴を利用して構築し、前記認証目標対象は、前記ニューラルネットワークのトレーニング段階および/またはテスト段階で、正確に予測される
    ことを特徴とする請求項3に記載の目標対象認識方法。
  11. 目標対象認識装置であって、
    目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定するための分類ユニットと、
    前記認識待ち目標対象の隠れ層特徴に基づいて前記予測タイプが正確であるか否かを確定するための確定ユニットと、
    前記予測タイプが正確ではないことに応答して、プロンプト情報を出力するためのプロンプトユニットと、を備える
    ことを特徴とする目標対象認識装置。
  12. 前記予測タイプが正確であることに応答して、前記予測タイプを前記認識待ち目標対象の最終のタイプとして確定し、前記認識待ち目標対象の前記最終のタイプを出力するための出力ユニットをさらに備える
    ことを特徴とする請求項11に記載の目標対象認識装置。
  13. 前記確定ユニットは、
    前記認識待ち目標対象の隠れ層特徴を予測タイプに対応する真否認識モデルに入力して、前記真否認識モデルが確率値を出力するようにし、
    前記確率値が確率閾値未満であると、前記予測タイプが正確ではないと確定し、
    前記確率値が前記確率閾値以上であると、前記予測タイプが正確であると確定し、
    その中で、前記予測タイプに対応する真否認識モデルは、当該予測タイプの目標対象の隠れ層特徴の分布法則を反映し、前記確率値は、前記認識待ち目標対象の最終のタイプが前記予測タイプである確率を示す
    ことを特徴とする請求項11または12に記載の目標対象認識装置。
  14. 前記目標画像内には、積み上げられている複数の認識待ち目標対象が含まれ、
    前記分類ユニットは、
    前記目標画像の高さを所定の高さに調整し、
    調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定し、
    その中で、前記目標画像は、収集された画像内の積み上げられている複数の認識待ち目標対象の検出ボックスに基づいて前記収集された画像から裁断して得られたものであり、前記目標画像の高さ方向は、前記積み上げられている複数の認識待ち目標対象の積み上げ方向である
    ことを特徴とする請求項11から13のいずれか1項に記載の目標対象認識装置。
  15. 前記分類ユニットは、
    前記目標画像の幅が所定の幅に達するまで、前記目標画像の高さと幅を同じ比率でスケーリングし、
    スケーリング後の目標画像の幅が所定の幅に達したが、スケーリング後の目標画像高さが所定の高さよりも大きいと、縮小後の目標画像の高さが所定の高さと等しくなるまで、前記スケーリング後の目標画像の高さと幅を同じ比率で縮小する
    ことを特徴とする請求項14に記載の目標対象認識装置。
  16. 前記分類ユニットは、
    前記目標画像の幅が所定の幅に達するまで、前記目標画像の高さと幅を同じ比率でスケーリングし、
    スケーリング後の目標画像の幅が所定の幅に達したが、スケーリング後の目標画像の高さが所定の高さ未満であると、第1ピクセルを利用してスケーリング後の目標画像に対して充填を実行して、充填後の目標画像の高さが所定の高さになるようにする
    ことを特徴とする請求項14に記載の目標対象認識装置。
  17. 前記分類ユニットは、
    調整後の目標画像特徴に対して抽出を実行して特徴マップを得、前記特徴マップの高さの次元は、前記目標画像の高さ方向に対応し、
    前記特徴マップの幅の次元に沿って前記特徴マップに対して平均プーリングを実行して、プーリング後の特徴マップを得、
    前記プーリング後の特徴マップを高さの次元に沿ってセグメント化して、所定の数の特徴を得、
    各特徴に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定する
    ことを特徴とする請求項14に記載の目標対象認識装置。
  18. 調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することは、ニューラルネットワークによって実行され、前記ニューラルネットワークは、分類ネットワークを含み、その中で、前記分類ネットワークは、K個の分類器を含み、Kは、分類を実行するときの既知のタイプの数であり、kは、正の整数であり、
    各特徴に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定することは、
    各特徴と各分類器の重みベクトルとの間の余弦類似度をそれぞれ計算することと、
    計算した余弦類似度に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定することと、を含む
    ことを特徴とする請求項17に記載の目標対象認識装置。
  19. 電子デバイスであって、
    プロセッサと、
    プロセッサによって実行可能な命令を格納するためのメモリと、を備え、
    その中で、前記プロセッサは、前記メモリに格納されている前記プロセッサによって実行可能な命令を呼び出して、請求項1から10のいずれか1項に記載の方法を実行するように構成される
    ことを特徴とする電子デバイス。
  20. コンピュータプログラム命令が格納されているコンピュータ可読記録媒体であって、
    前記コンピュータプログラム命令がプロセッサによって実行されると、請求項1から10のいずれか1項に記載の方法が実現される
    ことを特徴とするコンピュータ可読記録媒体。
  21. コンピュータ可読記録媒体に格納されているコンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサによって実行されるときに、請求項1から10のいずれか1項に記載の方法は実現される
    ことを特徴とするコンピュータプログラム。
JP2021536185A 2020-08-01 2020-12-07 目標対象認識方法及び装置 Pending JP2022546885A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SG10202007348T 2020-08-01
SG10202007348TA SG10202007348TA (en) 2020-08-01 2020-08-01 Target object identification method and apparatus
PCT/IB2020/061574 WO2022029482A1 (en) 2020-08-01 2020-12-07 Target object identification method and apparatus

Publications (1)

Publication Number Publication Date
JP2022546885A true JP2022546885A (ja) 2022-11-10

Family

ID=77129928

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021536185A Pending JP2022546885A (ja) 2020-08-01 2020-12-07 目標対象認識方法及び装置

Country Status (5)

Country Link
US (1) US20220036141A1 (ja)
JP (1) JP2022546885A (ja)
KR (1) KR20220018469A (ja)
CN (1) CN113243018A (ja)
AU (1) AU2020403709B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023111674A1 (en) * 2021-12-17 2023-06-22 Sensetime International Pte. Ltd. Target detection method and apparatus, electronic device, and computer storage medium
CN116776230B (zh) * 2023-08-22 2023-11-14 北京海格神舟通信科技有限公司 一种基于特征压印与特征迁移识别信号的方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004062604A (ja) * 2002-07-30 2004-02-26 Fuji Photo Film Co Ltd 画像処理方法および装置
JP2011067339A (ja) * 2009-09-25 2011-04-07 Glory Ltd チップ計数装置および管理システム
WO2019097976A1 (ja) * 2017-11-15 2019-05-23 エンゼルプレイングカード株式会社 認識システム
JP2019095910A (ja) * 2017-11-20 2019-06-20 株式会社パスコ 誤判別可能性評価装置、誤判別可能性評価方法及びプログラム
JP2019159499A (ja) * 2018-03-08 2019-09-19 株式会社Jvcケンウッド 学習用データ作成装置、学習用モデル作成システム、学習用データ作成方法、及びプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105303179A (zh) * 2015-10-28 2016-02-03 小米科技有限责任公司 指纹识别方法、装置
US20190034734A1 (en) * 2017-07-28 2019-01-31 Qualcomm Incorporated Object classification using machine learning and object tracking
KR102374747B1 (ko) * 2017-12-15 2022-03-15 삼성전자주식회사 객체를 인식하는 장치 및 방법
CN108520285B (zh) * 2018-04-16 2021-02-09 图灵人工智能研究院(南京)有限公司 物品鉴别方法、系统、设备及存储介质
CN110442721B (zh) * 2018-11-28 2023-01-06 腾讯科技(深圳)有限公司 神经网络语言模型、训练方法、装置及存储介质
CN110119710A (zh) * 2019-05-13 2019-08-13 广州锟元方青医疗科技有限公司 细胞分类方法、装置、计算机设备和存储介质
CN110472675B (zh) * 2019-07-31 2023-04-18 Oppo广东移动通信有限公司 图像分类方法、图像分类装置、存储介质与电子设备
CN111062237A (zh) * 2019-09-05 2020-04-24 商汤国际私人有限公司 识别图像中的序列的方法及装置、电子设备和存储介质
CN110852360A (zh) * 2019-10-30 2020-02-28 腾讯科技(深圳)有限公司 图像情感识别方法、装置、设备及存储介质
CN111062396B (zh) * 2019-11-29 2022-03-25 深圳云天励飞技术有限公司 车牌号码识别方法、装置、电子设备及存储介质
CN111126346A (zh) * 2020-01-06 2020-05-08 腾讯科技(深圳)有限公司 脸部识别方法、分类模型的训练方法、装置和存储介质
US11461650B2 (en) * 2020-03-26 2022-10-04 Fujitsu Limited Validation of deep neural network (DNN) prediction based on pre-trained classifier

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004062604A (ja) * 2002-07-30 2004-02-26 Fuji Photo Film Co Ltd 画像処理方法および装置
JP2011067339A (ja) * 2009-09-25 2011-04-07 Glory Ltd チップ計数装置および管理システム
WO2019097976A1 (ja) * 2017-11-15 2019-05-23 エンゼルプレイングカード株式会社 認識システム
JP2019095910A (ja) * 2017-11-20 2019-06-20 株式会社パスコ 誤判別可能性評価装置、誤判別可能性評価方法及びプログラム
JP2019159499A (ja) * 2018-03-08 2019-09-19 株式会社Jvcケンウッド 学習用データ作成装置、学習用モデル作成システム、学習用データ作成方法、及びプログラム

Also Published As

Publication number Publication date
AU2020403709A1 (en) 2022-02-17
KR20220018469A (ko) 2022-02-15
US20220036141A1 (en) 2022-02-03
AU2020403709B2 (en) 2022-07-14
CN113243018A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN111652217B (zh) 文本检测方法、装置、电子设备及计算机存储介质
CN111241947A (zh) 目标检测模型的训练方法、装置、存储介质和计算机设备
CN112396002A (zh) 一种基于SE-YOLOv3的轻量级遥感目标检测方法
JP5214716B2 (ja) 識別装置
CN112418278A (zh) 一种多类物体检测方法、终端设备及存储介质
CN111797829A (zh) 一种车牌检测方法、装置、电子设备和存储介质
JP2022546885A (ja) 目標対象認識方法及び装置
US11631240B2 (en) Method, apparatus and system for identifying target objects
CN115439718A (zh) 一种结合监督学习和特征匹配技术的工业检测方法、系统、存储介质
WO2022029482A1 (en) Target object identification method and apparatus
CN113591746A (zh) 一种文档表格结构检测方法及装置
CN114913588B (zh) 一种应用于复杂场景下的人脸图像修复及识别方法
CN115984671A (zh) 模型在线更新方法、装置、电子设备及可读存储介质
CN115512207A (zh) 一种基于多路特征融合及高阶损失感知采样的单阶段目标检测方法
CN111950545B (zh) 一种基于MSDNet和空间划分的场景文本检测方法
CN114332112A (zh) 一种细胞图像分割方法、装置、电子设备及存储介质
CN112733741A (zh) 交通标识牌识别方法、装置和电子设备
US20220207258A1 (en) Image identification methods and apparatuses, image generation methods and apparatuses, and neural network training methods and apparatuses
WO2022254597A1 (en) Model training apparatus, model training method, and computer readable medium
CN117893739A (zh) 基于改进Faster RCNN算法的目标识别检测方法、系统、设备
CN114359711A (zh) 自适应步幅卷积的细粒度图像识别方法及系统
CN114127804A (zh) 识别图像中对象序列的方法、训练方法、装置及设备
CN116306982A (zh) 伪造图像检测模型的训练方法、装置、计算机设备及介质
WO2023047172A1 (en) Methods for identifying an object sequence in an image, training methods, apparatuses and devices
WO2022029478A1 (en) Method, apparatus and system for identifying target objects

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210621

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221108

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230602