JP2022546885A

JP2022546885A - 目標対象認識方法及び装置

Info

Publication number: JP2022546885A
Application number: JP2021536185A
Authority: JP
Inventors: 茂清田; ▲進▼ ▲呉▼; ▲帥▼ 伊
Original assignee: Sensetime International Pte Ltd
Current assignee: Sensetime International Pte Ltd
Priority date: 2020-08-01
Filing date: 2020-12-07
Publication date: 2022-11-10
Also published as: AU2020403709A1; KR20220018469A; US20220036141A1; AU2020403709B2; CN113243018A

Abstract

本発明の実施例は、目標対象認識方法、装置、及びシステムを開示し、前記方法は、目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することと、前記認識待ち目標対象の隠れ層特徴に基づいて前記予測タイプが正確であるか否かを確定することと、前記予測タイプが正確ではないことに応答して、プロンプト情報を出力することと、を含む。【選択図】図１

Description

＜関連出願の互いに引用＞
本発明は、出願日が２０２０年０８月０１日であり、出願番号が１０２０２００７３４８Ｔであるシンガポール特許出願の優先権を主張し、当該シンガポール特許出願の全ての内容が参照として本願に組み入れられる。
本発明は、コンピュータ視覚技術の分野に関し、特に目標対象認識方法及び装置に関する。

日常の生産および生活では、いくつかの目標対象を認識する必要があることがよくある。卓上ゲームの娯楽の場面の例をとると、一部の卓上ゲームではテーブル上のゲームコインを認識することによって、ゲームコインのタイプおよび数量情報を取得する必要がある。しかしながら、従来の認識方式は、認識精度がより低く、現在の場面に属していない目標対象を判断することができない。

本発明は、目標対象の認識解決策を提供する。

本発明の一態様によると、目標対象認識方法を提供し、前記方法は、
目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象のタイプを確定することと、前記認識待ち目標対象の隠れ層特徴に基づいて前記予測タイプが正確であるか否かを確定することと、前記予測タイプが正確ではないことに応答して、プロンプト情報を出力することと、を含む。

本発明によって提供される任意の実施形態と組み合わせると、前記方法は、前記予測タイプが正確であることに応答して、前記予測タイプを前記認識待ち目標対象の最終のタイプとして確定し、前記認識待ち目標対象の最終のタイプを出力することをさらに含む。

本発明によって提供される任意の実施形態と組み合わせると、前記認識待ち目標対象の隠れ層特徴に基づいて前記予測タイプが正確であるか否かを確定することは、前記認識待ち目標対象の隠れ層特徴を予測タイプに対応する真否認識モデルに入力して、前記真否認識モデルが確率値を出力するようにすることと、前記確率値が確率閾値未満であると、前記予測タイプが正確ではないと確定することと、前記確率値が前記確率閾値以上であると、前記予測タイプが正確であると確定することと、を含み、その中で、前記予測タイプに対応する真否認識モデルは、当該予測タイプの目標対象の隠れ層特徴の分布法則を反映し、前記確率値は、前記認識待ち目標対象の最終のタイプが前記予測タイプである確率を示す。

本発明によって提供される任意の実施形態と組み合わせると、前記目標画像内には、積み上げられている複数の認識待ち目標対象が含まれ、目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することは、前記目標画像の高さを所定の高さに調整することと、調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することと、を含み、その中で、前記目標画像は、収集された画像内の積み上げられている複数の認識待ち目標対象の検出ボックスに基づいて前記収集された画像から裁断して得られたものであり、前記目標画像の高さ方向は、前記積み上げられている複数の認識待ち目標対象の積み上げ方向である。

本発明によって提供される任意の実施形態と組み合わせると、前記目標画像の高さを所定の高さに調整することは、前記目標画像の幅が所定の幅に達するまで、前記目標画像の高さと幅を同じ比率でスケーリングすることと、スケーリング後の目標画像の幅が所定の幅に達したが、スケーリング後の目標画像高さが所定の高さよりも大きいと、縮小後の目標画像の高さが所定の高さと等しくなるまで、前記スケーリング後の目標画像の高さと幅を同じ比率で縮小することと、を含む。

本発明によって提供される任意の実施形態と組み合わせると、前記目標画像の高さを所定の高さに調整することは、前記目標画像の幅が所定の幅に達するまで、前記目標画像の高さと幅を同じ比率でスケーリングすることと、スケーリング後の目標画像の幅が所定の幅に達したが、スケーリング後の目標画像の高さが所定の高さ未満であると、第１ピクセルを利用してスケーリング後の目標画像に対して充填を実行して、充填後の目標画像の高さが所定の高さになるようにすることと、を含む。

本発明によって提供される任意の実施形態と組み合わせると、調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することは、調整後の目標画像特徴に対して抽出を実行して特徴マップを得ることであって、前記特徴マップの高さの次元は、前記目標画像の高さ方向に対応することと、前記特徴マップの幅の次元に沿って前記特徴マップに対して平均プーリングを実行して、プーリング後の特徴マップを得ることと、前記プーリング後の特徴マップを高さの次元に沿ってセグメント化して、所定の数の特徴を得ることと、各特徴に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定することと、を含む。

本発明によって提供される任意の実施形態と組み合わせると、調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することは、ニューラルネットワークによって実行され、前記ニューラルネットワークは、分類ネットワークを含み、その中で、前記分類ネットワークは、Ｋ個の分類器を含み、その中で、Ｋは、分類を実行するときの既知のタイプの数であり、ｋは、正の整数であり、各特徴に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定することは、各特徴と各分類器の重みベクトルとの間の余弦類似度をそれぞれ計算することと、計算した余弦類似度に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定することと、を含む。

本発明によって提供される任意の実施形態と組み合わせると、調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することは、ニューラルネットワークによって実行され、前記ニューラルネットワークは、特徴抽出ネットワークを含み、前記特徴抽出ネットワークは、複数の畳み込み層を含み、前記特徴抽出ネットワークの前記複数の畳み込み層の中の最後のＮ個の畳み込み層の前記特徴マップの高さの次元におけるステップ長さは、１であり、Ｎは、正の整数である。

本発明によって提供される任意の実施形態と組み合わせると、目標画像内の認識待ち目標対象を分類することは、ニューラルネットワークを利用して実行され、前記予測タイプに対応する真否認識モデルは、当該予測タイプの認証目標対象の隠れ層特徴を利用して構築し、前記認証目標対象は、前記ニューラルネットワークのトレーニング段階および／またはテスト段階で、正確に予測される。

本発明の一態様によると、目標対象認識装置を提供し、前記装置は、目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定するための分類ユニットと、前記認識待ち目標対象の隠れ層特徴に基づいて前記予測タイプが正確であるか否かを確定するための確定ユニットと、前記予測タイプが正確ではないことに応答して、プロンプト情報を出力するためのプロンプトユニットと、を備える。

本発明によって提供される任意の実施形態と組み合わせると、前記装置は、前記予測タイプが正確であることに応答して、前記予測タイプを前記認識待ち目標対象の最終のタイプとして確定し、前記認識待ち目標対象の前記最終のタイプを出力するための出力ユニットをさらに備える。

本発明によって提供される任意の実施形態と組み合わせると、前記確定ユニットは、前記認識待ち目標対象の隠れ層特徴を予測タイプに対応する真否認識モデルに入力して、前記真否認識モデルが確率値を出力するようにし、前記確率値が確率閾値未満であると、前記予測タイプが正確ではないと確定し、前記確率値が前記確率閾値以上であると、前記予測タイプが正確であると確定し、その中で、前記予測タイプに対応する真否認識モデルは、当該予測タイプの目標対象の隠れ層特徴の分布法則を反映し、前記確率値は、前記認識待ち目標対象の最終のタイプが前記予測タイプである確率を示す。

本発明によって提供される任意の実施形態と組み合わせると、前記目標画像内には、積み上げられている複数の認識待ち目標対象が含まれ、前記分類ユニットは、前記目標画像の高さを所定の高さに調整し、調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することと、を含み、その中で、前記目標画像は、収集された画像内の積み上げられている複数の認識待ち目標対象の検出ボックスに基づいて前記収集された画像から裁断して得られたものであり、前記目標画像の高さ方向は、前記積み上げられている複数の認識待ち目標対象の積み上げ方向である。

本発明によって提供される任意の実施形態と組み合わせると、前記分類ユニットは、前記目標画像の幅が所定の幅に達するまで、前記目標画像の高さと幅を同じ比率でスケーリングし、スケーリング後の目標画像の幅が所定の幅に達したが、スケーリング後の目標画像高さが所定の高さよりも大きいと、縮小後の目標画像の高さが所定の高さと等しくなるまで、前記スケーリング後の目標画像の高さと幅を同じ比率で縮小する。

本発明によって提供される任意の実施形態と組み合わせると、前記分類ユニットは、前記目標画像の幅が所定の幅に達するまで、前記目標画像の高さと幅を同じ比率でスケーリングし、スケーリング後の目標画像の幅が所定の幅に達したが、スケーリング後の目標画像の高さが所定の高さ未満であると、第１ピクセルを利用してスケーリング後の目標画像に対して充填を実行して、充填後の目標画像の高さが所定の高さになるようにする。

本発明によって提供される任意の実施形態と組み合わせると、前記分類ユニットは、調整後の目標画像特徴に対して抽出を実行して特徴マップを得、前記特徴マップの高さの次元は、前記目標画像の高さ方向に対応し、前記特徴マップの幅の次元に沿って前記特徴マップに対して平均プーリングを実行して、プーリング後の特徴マップを得、前記プーリング後の特徴マップを高さの次元に沿ってセグメント化して、所定の数の特徴を得、各特徴に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定する。

本発明によって提供される任意の実施形態と組み合わせると、調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することは、ニューラルネットワークによって実行され、前記ニューラルネットワークは、分類ネットワークを含み、その中で、前記分類ネットワークは、Ｋ個の分類器を含み、Ｋは、分類を実行するときの既知のタイプの数であり、ｋは、正の整数であり、各特徴に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定することは、各特徴と各分類器の重みベクトルとの間の余弦類似度をそれぞれ計算することと、計算した余弦類似度に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定することと、を含む。

本発明によって提供される任意の実施形態と組み合わせると、サイズ調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することは、ニューラルネットワークによって実行され、前記ニューラルネットワークは、特徴抽出ネットワークを含み、前記特徴抽出ネットワークは、複数の畳み込み層を含み、前記特徴抽出ネットワークの前記複数の畳み込み層の中の最後のＮ個の畳み込み層の前記特徴マップの高さの次元におけるステップ長さは、１であり、Ｎは、正の整数である。

本発明の一態様によると、電子デバイスを提供し、前記デバイスは、メモリとプロセッサとを備え、前記メモリは、プロセッサで運行可能なコンピュータ命令を格納し、前記プロセッサは、前記コンピュータ命令を実行するときに、本発明の任意の実施形態に記載の目標対象認識方法を実装する。

本発明の一態様によると、コンピュータプログラムが格納されているコンピュータ可読記録媒体を提供し、前記コンピュータプログラムがプロセッサによって実行されるときに、本発明の任意の実施形態に記載の目標対象認識方法が実装される。

本発明の一態様によると、コンピュータ可読記録媒体に格納されているコンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行されるときに、本発明の任意の実施形態に記載の目標対象認識方法が実装される。

本発明の１つまたは複数の実施例によって提供される目標対象の認識システム、方法、装置、デバイス、及び記録媒体によると、目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定し、すなわち、前記認識待ち目標対象が既知のタイプの中のどのタイプに属するかを確定し、前記認識待ち目標対象の隠れ層特徴に基づいて予測タイプが正確であるか否かを確定し、予測タイプが正確ではない場合、プロンプト情報を出力することによって、既知のタイプに属していない目標対象を認識することができ、すなわち、現在の場面に属していない目標対象認識してプロンプトを実行することができる。

上記の一般的な叙述と以下の細部の叙述は、例示的および解釈的なもの過ぎず、本発明に対する限定ではないことを理解すべきである。

ここでの図面は、明細書に組み込まれて、本明細書の一部を構成する。これら図面は、本発明に合致する実施例を示し、明細書ともに本発明の実施例を説明するために用いられる。
本発明の少なくとも１つの実施例によって提供される目標対象認識方法を示すフローチャートである。それぞれ本発明の少なくとも１つの実施例によって提供される目標対象認識方法での複数の目標対象を示す模式図である。本発明の少なくとも１つの実施例によって提供される目標画像内の認識待ち目標対象を分類する方法を示すフローチャートである。ニューラルネットワークのトレーニング過程を示す模式図である。本発明の少なくとも１つの実施例によって提供される目標対象認識装置の構成を示す模式図である。本発明の少なくとも１つの実施例によって提供される電子デバイスの構成を示す模式図である。

以下、当業者が本発明の１つまたは複数の実施例における技術的解決策をよりよく理解できるようにするために、本発明の１つまたは複数の実施例における図面と併せて、本発明の１つまたは複数の実施例における技術的解決策を明確かつ完全に説明する。明らかに、説明される実施例は、すべての実施例ではなく、本発明の一部の実施例に過ぎない。本発明の１つまたは複数の実施例に基づいて、当業者が創造的な作業なしに得た他のすべての実施形態は、本開示の保護範囲内に入るはずである。

本発明で使用される用語は、特定の実施例を説明することのみを目的としており、本発明を限定することを意図するものではない。本発明および添付の特許請求の範囲で使用される「一種」、「前記」、「当該」などの単数形は、文脈が他の意味を明確に示さない限り、複数形を含むことを意図している。本明細書で使用される「および／または」という用語は、１つまたは複数の関連するリストされたアイテムの任意の１つまたはすべての可能な組み合わせを含むことを指すことを理解すべきである。また、本明細書での「少なくとも１つ」という用語は、複数の中の任意の１つまたは複数の中の少なくとも２つの任意の組み合わせを含むことを意味する。

本発明では、第１、第２、第３などの用語を使用して様々な情報を記述することがあるが、これら情報はこれら用語によって限定されるべきではないことを理解すべきである。これら用語は、同じ種類の情報を互いに区別するためにのみ使用される。たとえば、本開示の範囲から逸脱することなく、第１の情報は、第２の情報とも呼ばれ得、同様に、第２の情報は、第１の情報とも呼ばれ得る。文脈に応じて、本明細書で使用される「もし」という単語は、「…場合」、「…すると」、または、「…ことに応答して」と解釈することができる。

当業者が本発明の実施例における技術的解決策をより良く理解するようにするために、また、本発明の実施例の上記の目的、特徴、および、利点をより明確かつ理解可能にするために、以下、図面と併せて本発明の実施例における技術的解決策をさらに詳細に説明する。

図１は、本発明の少なくとも１つの実施例によって提供される目標対象認識方法を示すフローチャートである。図１に示すように、当該方法は、ステップ１０１～１０３を含み得る。

ステップ１０１において、目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定する。

いくつかの実施例において、認識待ち目標対象は、ゲームコインなどのさまざまな形状のシート状物体を含み得る。前記認識待ち目標対象は、単一の目標対象であってもよいし、積み重ねられた複数の目標対象の中の１つまたは複数であってもよい。積み重ねられた各目標対象の厚み（高さ）は、一般的に同じである。

目標画像内に含まれた複数の認識待ち目標対象は、通常、厚み方向に沿って積み上げられている。図２Ａに示すように、複数のゲームコインは、垂直方向に沿って積み上げられており（スタンド（ｓｔａｎｄ）積み重ね）、目標画像の高さ方向（Ｈ）は垂直方向であり、目標画像の幅方向（Ｗ）は目標画像の高さ方向（Ｈ）に垂直な方向である。また、図２Ｂに示すように、複数のゲームコインは、水平方向に沿って積み上げられており（フロート（ｆｌｏａｔ）積み重ね）、目標画像の高さ方向（Ｈ）は水平方向であり、目標画像の幅方向（Ｗ）は目標画像の高さ方向（Ｈ）に垂直な方向である。

本発明の実施例において、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）などの分類ネットワークを利用して、前記認識待ち目標対象を分類することで、前記認識待ち目標対象の予測タイプを確定することができる。前記分類ネットワークは、Ｋ個の分類器を含み得、その中で、Ｋは、分類を実行するときの既知のタイプの数であり、Ｋは、正の整数である。前記認識待ち目標対象を分類することによって、前記認識待ち目標対象が既知のタイプの中のどのタイプに属するかを確定することができる。分類ネットワークは、前記認識待ち目標対象の特徴情報（隠れ層特徴）に基づいて認識待ち目標対象が各既知のタイプに属する確率を判断し、確率が最大であるタイプを前記認識待ち目標対象が属している予測タイプとして確定する。そのため、任意の既知のタイプに属していない認識待ち目標対象であっても、前記分類ネットワークは、既知のタイプの中の１つのタイプを分類結果すなわち予測タイプとして常に出力することになることに注意すべきである。

ステップ１０２において、前記認識待ち目標対象の隠れ層特徴に基づいて前記予測タイプが正確であるか否かを確定する。

具体的に実施するときに、予測タイプに対応する真否認識モデルを利用して前記認識待ち目標対象の隠れ層特徴に基づいて前記予測タイプが正確であるか否かを確定することができ、その中で、１つの予測タイプに対応する真否認識モデルは、当該予測タイプの目標対象の隠れ層特徴の分布法則を反映し、真否認識モデルが同じタイプの目標対象の隠れ層特徴の分布法則を反映するため、予測したタイプが正確であるか否かを判断することができる。真否認識モデルは、同じタイプの目標対象の隠れ層特徴に基づいて構築した確率分布モデルであり得る。

具体的に実施過程において、真否認識モデルは、ガウス確率分布モデルまたは同じタイプの目標対象の隠れ層特徴の分布法則を反映できる他のモデルを含み得る。

１つの予測タイプに対応する真否認識モデルに入力する隠れ層特徴に対して、前記真否認識モデルは、前記入力された隠れ層特徴が当該予測タイプの目標対象の隠れ層特徴に属する確率値を出力することができ、入力した隠れ層特徴が当該予測タイプの目標対象の隠れ層特徴に属するか否かを確定することができる。当該確率値が確率閾値以上であると、ステップ１０１で確定した予測タイプが正確であると確定し、当該確率値が確率閾値未満であると、ステップ１０１で確定した予測タイプが正確ではないと確定し、つまり、認識待ち目標対象の実タイプが、ステップ１０１で分類するときの既知のタイプに属しないし、未知のタイプに属している。その中で、前記目標対象の隠れ層特徴は、分類ネットワークを利用して目標対象を分類するときに、前記分類ネットワーク中の分類器に入力する前の特徴を表す。

ステップ１０３において、前記予測タイプが正確ではないことに応答して、プロンプト情報を出力する。

本発明の実施例において、Ｋ個の既知のタイプに対して、Ｋ個の真否認識モデルを構築することができる。Ｋ個のタイプは、現在の場面での目標対象のすべてのタイプであり得る。このＫ個のタイプ以外の目標対象は、現在の場面に属していない対象といて見なすことができ、または、外来対象と呼ばれ、そのタイプが未知のタイプである。

予測タイプが正確ではない認識待ち目標対象の場合は、前記認識待ち目標対象が実際に既知のタイプの中の任意のタイプに属せず、未知のタイプであることを意味し、すなわち、前記認識待ち目標対象が現在の場面に属しないし、外来対象であると確定することができる。

１例において、前記予測タイプが正確ではないことに応答して、すなわち前記認識待ち目標対象が外来対象であることに応答して、「未知のタイプ」というプロンプト情報を出力することができる。

いくつかの実施例において、目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定し、すなわち、前記認識待ち目標対象が既知のタイプの中のどのタイプに属するかを確定する。前記真否認識モデルが同じタイプの目標対象の隠れ層特徴の分布法則を反映するため、予測タイプに対応する真否認識モデルを利用して、認識待ち目標対象の隠れ層特徴に基づいて、当該予測タイプが正確であるか否かを判断することができ、予測タイプが正確ではないと、プロンプト情報を出力することができ、任意の既知のタイプに属しない目標対象すなわち現在の場面に属していない目標対象を認識して、プロンプトを実行する。

目標画像内に複数の認識待ち目標対象が含まれている場合、その中の１つの認識待ち目標対象が未知のタイプの目標対象である場合、プロンプト情報を出力して、関連人員に対してこの複数の認識待ち目標対象の中に未知のタイプの目標対象が混在されていることをプロンプトする。

前記認識待ち目標対象の予測タイプが正確であると、予測タイプを前記認識待ち目標対象の最終のタイプとして確定し、前記認識待ち目標対象の最終のタイプを出力する。

いくつかの実施例において、以下に方式に従ってステップ１０１で確定した予測タイプが正確であるか否かを確定することができる。

前記認識待ち目標対象の隠れ層特徴を予測タイプに対応する真否認識モデルに入力することによって、予測タイプに対応する真否認識モデルが確率値を出力するようにし、前記確率値は、前記認識待ち目標対象の最終のタイプが前記予測タイプである確率を示す。前記確率値が確率閾値未満であると、前記予測タイプが正確ではないと確定し、前記確率値が前記確率閾値以上であると、前記予測タイプが正確であると確定する。

前記真否認識モデルが同じタイプの目標対象の隠れ層特徴の分布法則を反映するため、予測タイプに対応する真否認識モデルを利用して、入力した認識待ち目標対象の隠れ層特徴が当該予測タイプの目標対象の隠れ層特徴に属する確率を確定する。前記真否認識モデルによって出力された確率値が確率閾値未満であると、入力した認識待ち目標対象の隠れ層特徴が当該予測タイプの目標対象の隠れ層特徴に属しないと確定することができ、ステップ１０１で確定した予測タイプが正確ではないと確定し、逆に、前記真否認識モデルによって出力された確率値が確率閾値以上であると、入力した認識待ち目標対象の隠れ層特徴が当該予測タイプの目標対象の隠れ層特徴に属すると確定することができ、ステップ１０１で確定した予測タイプが正確であると確定することができる。

いくつかの実施例において、以下の方法に従って認識待ち目標対象を分類することができる。

まず、目標画像を取得する。前記目標画像は、収集された画像内の積み上げられている複数の目標対象の検出ボックスに基づいて前記収集された画像から裁断して得られたものであり、前記目標画像の高さ方向は、前記複数の目標対象の積み上げ方向である。前記認識待ち目標対象は、積み重ねられた複数の目標対象の中の１つまたは複数であり得、たとえば、前記認識待ち目標対象は、図２Ａに示された垂直方向に沿ってスタンド積み重ねられた複数の目標対象の全部であるか、または、図２Ｂに示された水平方向に沿ってフロート積み重ねられた複数の目標対象の中の１つであり得る。

目標領域の側面に設置された画像収集装置を利用してスタンド積み重ねられた複数の目標対象を含む目標画像（サイドビュー画像と呼ぶ）を撮影することができ、または、目標領域の上方に設置された画像収集装置を利用してフロート積み重ねられた複数の目標対象の目標画像（鳥瞰画像と呼ぶ）を撮影することができる。

次に、前記目標画像の高さを所定の高さに調整し、調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定する。

本発明の実施例において、前記目標画像の高さを均一な高さに調整することによって、隠れ層特徴の処理の実行により適しており、目標対象に対する認識精度の向上に有利である。

いくつかの実施例において、以下の方式に従って、前記目標画像の高さを所定の高さに調整することができる。

まず、前記目標画像に対応する所定の高さおよび所定の幅を取得して、前記目標画像のサイズ変換に使用する。その中で、前記所定の幅は、目標対象の平均的な幅に基づいて設定することができ、前記所定の高さは、前記目標対象の平均的な高さに基づいて設定することができ、さらに、認識待ち目標対象の最大数を設置することができる。

１つの例において、前記目標画像の幅が所定の幅に達するまで、前記目標画像の高さと幅を同じ比率でスケーリングすることができる。その中で、同じ比率でスケーリングすることは、前記目標画像の高さおよび幅との間の比例をそのまま維持しながら、前記目標画像をズームインまたはズームアウトすることを指す。その中で、前記所定の幅および所定の高さの単位は、ピクセルであってもよいし、他の単位であってもよく、本発明はこれに対して限定しない。

スケーリング後の目標画像の幅が所定の幅に達したが、スケーリング後の目標画像高さが所定の高さよりも大きいと、縮小後の目標画像の高さが所定の高さと等しくなるまで、前記スケーリング後の目標画像の高さと幅を同じ比率で縮小することができる。

例を挙げて言えば、前記目標対象がゲームコインであり、ゲームコインの平均的な幅に基づいて所定の幅を２２４ｐｉｘ（ピクセル）に設定し、ゲームコインの平均的な高さに基づいて所定の高さを１３４４ｐｉｘに設定し、また、認識待ちのゲームコインの最大数を７２に設定することができる。まず、目標画像の幅を２２４ｐｉｘに調整し、同じ比率で前記目標画像の高さを調整する。調整後の高さが１３４４ｐｉｘよりも大きいと、調整後の目標画像の高さを再度調整して、前記目標画像の高さが１３４４ｐｉｘになるようにし、また同じ比率で前記目標画像の幅を調整することによって、前記目標画像の高さを所定の高さ１３４４ｐｉｘに調整することができる。調整後の高さが１３４４ｐｉｘと等しいと、再度調整する必要がないし、すなわち、前記目標画像の高さが既に所定の高さ１３４４ｐｉｘに調整された。

１つの例において、前記目標画像の幅が所定の幅に達するまで、前記目標画像の高さと幅を同じ比率でスケーリングし、スケーリング後の目標画像の幅が所定の幅に達したが、スケーリング後の目標画像の高さが所定の高さ未満であると、第１ピクセルを利用してスケーリング後の目標画像に対して充填を実行して、充填後の目標画像の高さが所定の高さになるようにする。

その中で、前記第１ピクセルは、ピクセル値が（１２７、１２７、１２７）であるピクセルであり得、すなわちグレーピクセルであり得る。前記第１ピクセルは、他のピクセル値に設定してもよく、具体的なピクセル値は本発明の実施例の効果の影響を与えない。

依然として、前記目標対象がゲームコインであり、所定の幅が２２４ｐｉｘであり、所定の高さが１３４４ｐｉｘであり、最大数が７２である例をとると、まず、目標画像の幅を２２４ｐｉｘに調整し、同じ比率で前記目標画像の高さを調整することができる。調整後の高さが１３４４ｐｉｘ未満であると、１３４４ｐｉｘに足りない高さの部分をグレーピクセルで充填し、充填後の目標画像の高さが１３４４ｐｉｘになるようにする。調整後の高さが１３４４ｐｉｘと等しいと、充填する必要がなく、すなわち、前記目標画像の高さが既に所定の高さ１３４４ｐｉｘに調整された。

前記目標画像の高さを所定の高さに調整した後に、調整後の目標画像内の認識待ち目標対象を分類することができる。

図３は、本発明の少なくとも１つの実施例に係る目標画像内の認識待ち目標対象を分類する方法を示すフローチャートである。図３に示すように、前記方法は、ステップ３０１～ステップ３０４を含む。

ステップ３０１において、調整後の目標画像特徴に対して抽出を実行して、特徴マップを得る。

１つの例において、得られた特徴マップは、たとえばチャネルの次元、高さの次元、幅の次元、バッチ（ｂａｔｃｈ）の次元などの、複数の次元を含み得る。前記特徴マップの形式は、たとえば[ＢＣＨＷ]として表される。ここで、Ｂは、バッチの次元を示し、Ｃは、チャネルの次元を示し、Ｈは、高さの次元を示し、Ｗは、幅の次元を示す。その中で、前記特徴マップの高さの次元は、前記目標画像の高さ方向に対応し、幅の次元は、前記目標画像の幅方向に対応する。

ステップ３０２において、前記特徴マップの幅の次元に沿って前記特徴マップに対して平均プーリングを実行して、プーリング後の特徴マップを得る。

特徴マップの幅の次元に沿って平均プーリングを実行することによって、高さの次元およびチャネルの次元がそのまま維持された、プーリングを通じた特徴マップを、得る。

たとえば、特徴マップが２０４８*７２*８（チャネルの次元が２０４８であり、高さが７２であり、幅が８である）である場合、幅の次元に沿って平均プーリングを実行した後に、２０４８*７２*１の特徴マップを得る。

ステップ３０３において、前記プーリング後の特徴マップを高さの次元に沿ってセグメント化して、所定の数の特徴を得る。

前記プーリング後の特徴マップを高さの次元に沿ってセグメント化して、所定の数の特徴を得ることができ、その中で、各セグメントの特徴が１つの目標対象に対応すると見なすことができる。その中で、前記所定の数が認識待ちの目標対象の最大数である。

たとえば、最大数が７２であり、上記の例でプーリングを通じた特徴マップを高さの次元に沿ってセグメント化し、すなわち高さの次元に沿って２０４８*７２*１の特徴マップを分割して、７２個の２０４８次元のベクトルを得、各ベクトルは前記目標画像内の高さ方向における１／７２の領域に対応する特徴に対応する。１つの特徴を、１つの２０４８次元のベクトルで表すことができる。

ステップ３０４において、各特徴に基づいて各認識待ち目標対象のタイプを確定する。

本発明の実施例において、調整後の目標画像の高さが所定の高さ未満であると、調整後の目標画像を充填して、高さが所定の高さに達するようにし、調整後の目標画像の高さが所定の高さよりも大きいと、調整後の目標画像の高さを所定の高さに減少し、同時に調整後の目標画像の幅を同じ比率で減少するため、前記目標画像の特徴マップはすべて所定の高さの目標画像に基づいて取得される。また、前記所定の高さを認識待ちの目標対象の最大数に基づいて設定し、前記最大数に基づいて前記特徴マップをセグメント化し、得られた各セグメントの特徴（特徴と略称する）が１つの目標対象に対応し、各セグメントの特徴に基づいて目標対象の認識を実行するため、目標対象の数の影響を減少することができ、各目標対象認識の正確性を向上させることができる。また、異なる認識過程で、目標画像内に含まれた目標対象の数が異なる可能性があるため、目標画像の高さと幅の比率の差異がより大きい可能性があり、高さと幅の比率を維持しながら前記目標画像を調整することによって、画像の歪みを減少し、認識精度をさらに向上させることができる。

いくつかの実施例において、前記充填後の目標画像内のグレーピクセルなどの前記第１ピクセルに充填した部分に対応する特徴を分類する場合、分類結果が空である。得られた空ではない分類結果の数に基づいて、目標画像に含まれた目標対象の数を確定することができる。

認識待ち目標対象の最大数が７２であり、調整後の目標画像の特徴マップを７２セグメントに分割し、各セグメントの特徴に基づいて目標対象の認識を実行すると、７２個の分類結果を得ることができる。目標画像内にグレーピクセル充填領域が含まれると、当該充填領域の特徴に対応する目標対象の分類結果は、空であり、たとえば、１６個の空が得られた場合、５６個の空ではない分類結果を得られるため、目標画像が５６個の目標対象を含むと確定することができる。

当業者は、上記の所定の幅、所定の高さ、および、認識待ちの目標対象の最大数は、いずれも例であり、これらパラメータの具体的な数値は実際の必要に応じて具体的に設定することができ、本発明の実施例はこれに対して限定しないことを理解すべきである。

いくつかの実施例において、調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することは、ニューラルネットワークによって実行され、前記ニューラルネットワークは、分類ネットワークを含み、前記分類ネットワークは、Ｋ個の分類器を含み、その中で、Ｋは、分類を実行するときの既知のタイプの数であり、ｋは、正の整数である。

前記ニューラルネットワークは、上記のプーリングされた特徴マップに対して高さの次元に沿ってセグメント化して得られた各特徴に基づいて、各認識待ち目標対象のタイプを確定することができる。

まず、各特徴と各分類器の重みベクトルとの間の余弦類似度をそれぞれ計算する。

１つの例において、余弦類似度を計算する前に、各分類器の重みベクトルに対して正規化処理を実行し、また分類器に入力する各特徴に対して正規化処理を実行することによって、前記ニューラルネットワークの分類精度を向上させることができる。

次に、計算した余弦類似度に基づいて前記複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定する。

特徴ごとに、前記特徴と各々の分類器の重みベクトルとの間の余弦類似度を計算し、最大の余弦類似度を有する分類器のタイプを、当該特徴に対応する認識待ち目標対象の予測タイプとして使用する。

各特徴と各分類器の重みベクトルとの間の余弦類似度に基づいて各特徴に対応する認識待ち目標対象の予測タイプを確定することによって、分類ネットワークの分類効果を向上させることができる。

いくつかの実施例において、前記ニューラルネットワークは、特徴抽出ネットワークを含む。前記特徴抽出ネットワークは、複数の畳み込み層を含み得、または、複数の畳み込み層および複数のプーリング層などを含み得る。複数層の特徴抽出を通じて、低層特徴を徐々に中層特徴または高層特徴に変換することによって、前記目標画像の表現力を向上させ、後続の処理に有利である。

１例において、前記特徴抽出ネットワークの最後のＮ個の畳み込み層の前記特徴マップの高さの次元におけるステップ長さ（ｓｔｒｉｄｅ）は、１であり、したがって、高さの次元における特徴を可能な限り多く維持する。その中で、Ｎは、正の整数である。

前記特徴抽出ネットワークが４つの残差ユニットを含む残差ネットワーク（ＲｅｓＮｅｔ、ＲｅｓｉｄｕａｌＮｅｔｗｏｒｋｓ）である例をとると、関連技術では、前記残差ネットワーク中の第３、第４残差ユニット中の最後の１つの畳み込み層のステップ長さは、通常、（２,２）であるが、本発明の実施例ではステップ長さ（２,２）を（１,２）に変更することによって、特徴マップが高さの次元に沿ってサンプリングを実行せず、幅の次元に沿ってサンプリングを実行するようにすることによって、高さの次元における特徴を可能な限り多く維持する。

いくつかの実施例において、前記目標画像に対して他の前処理を実行することができ、たとえば目標画像のピクセル値に対して正規化操作などを実行することができる。

本発明の実施例において、前記方法は、ニューラルネットワークをトレーニングすることをさらに含み、前記ニューラルネットワークは、調整後の目標画像に対して特徴抽出を実行するための特徴抽出ネットワークと、目標画像内の認識待ち目標対象を分類するための分類ネットワークと、を含む。

図４は、ニューラルネットワークのトレーニング過程を示す模式図である。図４に示すように、前記ニューラルネットワークをトレーニングする過程で利用するモジュールは、前処理モジュール４０１と、画像強調モジュール４０２と、ニューラルネットワーク４０３と、特徴セグメント化モジュール４０４と、を備え、前記ニューラルネットワーク４０３は、特徴抽出ネットワーク４０３１と、分類ネットワーク４０３２と、を備える。

本発明の実施例において、前記ニューラルネットワークは、サンプル画像およびそのラベリング結果を使用してトレーニングして得られる。

１例において、前記サンプル画像のラベリング結果は、前記サンプル画像内の各目標対象のラベリングタイプを含む。ゲームコインの例をとると、各ゲームコインのタイプは金種に関連しており、同じ金種のゲームコインが同じタイプに属する。スタンド積み重ねられた複数のゲームコインを含むサンプル画像に対して、前記サンプル画像内に各ゲームコインの金種をラベリングした。

図４に示すサンプル画像４００の処理過程の例をとって、ニューラルネットワークに対するトレーニング過程を説明し、その中で、サンプル画像４００には複数の積み重ねられたゲームコインが含まれ、またサンプル画像４００に各ゲームコインの金種をラベリングした。すなわち、各ゲームコインの実タイプをラベリングした。

まず、前処理モジュール４０１を通じてサンプル画像４００に対して前処理を実行する。前処理は、高さと幅の比率を維持しながらサンプル画像４００の大きさを調整し、サンプル画像４００のピクセル値に対して正規化を実行する。高さと幅の比率を維持しながらサンプル画像４００の大きさを調整する具体的な過程は、上記の説明を参照できる。

前処理を実行した後に、さらに、画像強調モジュール４０２を利用して前処理後のサンプル画像に対して画像強調を実行することができる。前処理後のサンプル画像に対して画像強調を実行することは、前処理後のサンプル画像に対してランダムフリッピングを実行することと、ランダム裁断を実行することと、高さと幅の比率をランダムに微調整することと、ランダムに回転することなどの、操作を含み、したがって、強調後のサンプル画像を取得する。強調後のサンプル画像は、ニューラルネットワークをトレーニングする段階で使用することができ、ニューラルネットワークのロバスト性を向上させることができる。

強調後のサンプル画像に対して、特徴抽出ネットワーク４０３１を利用して前記強調後のサンプル画像に含まれた複数の目標対象の特徴マップを取得する。特徴抽出ネットワーク４０３１の具体的な構成は、上記の説明を参照できる。

続いて、特徴セグメント化モジュール４０４を利用して前記特徴マップを高さの次元に沿ってセグメント化を実行して、所定の数の特徴を得る。

次に、分類ネットワーク４０３２を利用して各特徴に基づいて各認識待ち目標対象の予測タイプを確定する。

認識待ち目標対象の予測タイプと認識待ち目標対象のラベリングタイプとの間の差異に基づいて、特徴抽出ネットワーク４０３１のパラメータおよび分類ネットワーク４０３２のパラメータを含むニューラルネットワーク４０３のパラメータを調整する。

いくつかの実施例において、前記ニューラルネットワークをトレーニングするのに使用する損失関数は、コネクショニスト時間分類（ＣｏｎｎｅｃｔｉｏｎｉｓｔＴｅｍｐｏｒａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ、ＣＴＣと略称する）損失関数を含み、すなわち、ＣＴＣ損失関数に基づいて逆伝播を実行してニューラルネットワークのパラメータを更新する。

いくつかの実施例において、テスト画像およびそのラベリング結果を使用してトレーニングが完了されたニューラルネットワークをテストすることができ、前記テスト画像のラベリング結果は、同様に、前記テスト画像内の各認識待ち目標対象のラベリングタイプを含む。ニューラルネットワークのテスト過程は、画像強調処理を実行する必要がないことを除いて、トレーニング過程での順伝播過程と類似しており、具体的には図４に示す過程を参照できる。テスト段階で、入力されたテスト画像に基づいて、テスト画像内の認識待ち目標対象の予測タイプを予測して得る。

いくつかの実施例において、１つのタイプに対応する真否認識モデルは、当該タイプの認証目標対象の隠れ層特徴を採用して構築される。前記認証目標対象は、前記ニューラルネットワークのトレーニング段階および／またはテスト段階で、正確に予測される。その中で、正確に予測されることは、トレーニング段階および／またはテスト段階で、前記ニューラルネットワークによって出力された認証目標対象の予測タイプとラベリング結果とが同一であることを示す。

例を挙げて言えば、トレーニング段階およびテスト段階でｎ個のｉ番目のタイプのゲームコインを正確に予測し、図４に示すニューラルネットワークの処理によって、当該ｎ個のゲームコインに対応する隠れ層特徴を得、当該ｎ個のゲームコインの各隠れ層特徴を利用して当該タイプに対応する真否認識モデルを構築し、たとえばガウス確率分布モデルを構築する。その中で、ｉ=１、２、...Ｍであり、Ｍおよびｎは、正の整数である。

得られたｉ番目のタイプに対応する真否認識モデルは、図４に示すニューラルネットワークに基づいて得られた認識待ち目標対象の隠れ層特徴を前記真否認識モデルに入力し、前記認識待ち目標対象の隠れ層特徴がｉ番目のタイプの隠れ層特徴に属する確率値を得ることができる。当該確率値が確率閾値未満であると、前記認識待ち目標対象が１つの外来対象であると認識する。

本発明の実施例において、１つのタイプの認証目標対象の隠れ層特徴を利用して、当該タイプに対応する真否認識モデルを構築することによって、入力された隠れ層特徴が当該タイプの目標対象の隠れ層特徴であるか否かを判断するための根拠を構築し、すなわち、認識待ちの目標対象が未知のタイプの目標対象であるか否かを判断するための根拠を構築したため、認識待ち目標対象に対する認識正確性を向上させた。

図５は、本発明の少なくとも１つの実施例によって提供される目標対象認識装置の構成を示す模式図であり、図５に示すように、前記装置は、目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定するための分類ユニット５０１と、前記認識待ち目標対象の隠れ層特徴に基づいて前記予測タイプが正確であるか否かを確定するための確定ユニット５０２と、前記予測タイプが正確ではないことに応答して、プロンプト情報を出力するためのプロンプトユニット５０３と、を備える。

いくつかの実施例において、前記装置は、前記予測タイプが正確であることに応答して、前記予測タイプを前記認識待ち目標対象の最終のタイプとして確定し、前記認識待ち目標対象の最終のタイプを出力するための出力ユニットをさらに備える。

いくつかの実施例において、前記確定ユニットは、具体的に、前記認識待ち目標対象の隠れ層特徴を予測タイプに対応する真否認識モデルに入力して、前記真否認識モデルが確率値を出力するようにし、前記確率値が確率閾値未満であると、前記予測タイプが正確ではないと確定し、前記確率値が前記確率閾値以上であると、前記予測タイプが正確であると確定し、その中で、前記予測タイプに対応する真否認識モデルは、当該予測タイプの目標対象の隠れ層特徴の分布法則を反映し、前記確率値は、前記認識待ち目標対象の最終のタイプが前記予測タイプである確率を示す。

いくつかの実施例において、前記目標画像内には、積み上げられている複数の認識待ち目標対象が含まれ、前記分類ユニットは、前記目標画像の高さを所定の高さに調整し、調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定し、その中で、前記目標画像は、収集された画像内の積み上げられている複数の認識待ち目標対象の検出ボックスに基づいて前記収集された画像から裁断して得られたものであり、前記目標画像の高さ方向は、前記積み上げられている複数の認識待ち目標対象の積み上げ方向である。

いくつかの実施例において、前記分類ユニットは、具体的に、前記目標画像の幅が所定の幅に達するまで、前記目標画像の高さと幅を同じ比率でスケーリングし、スケーリング後の目標画像の幅が所定の幅に達したが、スケーリング後の目標画像高さが所定の高さよりも大きいと、縮小後の目標画像の高さが所定の高さと等しくなるまで、前記スケーリング後の目標画像の高さと幅を同じ比率で縮小する。

いくつかの実施例において、前記分類ユニットは、前記目標画像の幅が所定の幅に達するまで、前記目標画像の高さと幅を同じ比率でスケーリングし、スケーリング後の目標画像の幅が所定の幅に達したが、スケーリング後の目標画像の高さが所定の高さ未満であると、第１ピクセルを利用してスケーリング後の目標画像に対して充填を実行して、充填後の目標画像の高さが所定の高さになるようにする。

いくつかの実施例において、前記分類ユニットは、具体的に、調整後の目標画像特徴に対して抽出を実行して特徴マップを得、前記特徴マップの高さの次元は、前記目標画像の高さ方向に対応し、前記特徴マップの幅の次元に沿って前記特徴マップに対して平均プーリングを実行して、プーリング後の特徴マップを得、前記プーリング後の特徴マップを高さの次元に沿ってセグメント化して、所定の数の特徴を得、各特徴に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定する。

いくつかの実施例において、調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することは、ニューラルネットワークによって実行され、前記ニューラルネットワークは、分類ネットワークを含み、その中で、前記分類ネットワークは、Ｋ個の分類器を含み、Ｋは、分類を実行するときの既知のタイプの数であり、ｋは、正の整数であり、各特徴に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定することは、各特徴と各分類器の重みベクトルとの間の余弦類似度をそれぞれ計算することと、計算した余弦類似度に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定することと、を含む。

いくつかの実施例において、調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することは、ニューラルネットワークによって実行され、前記ニューラルネットワークは、特徴抽出ネットワークを含み、前記特徴抽出ネットワークは、複数の畳み込み層を含み、前記特徴抽出ネットワークの前記複数の畳み込み層の中の最後のＮ個の畳み込み層の前記特徴マップの高さの次元におけるステップ長さは、１であり、Ｎは、正の整数である。

いくつかの実施例において、目標画像内の認識待ち目標対象を分類することは、ニューラルネットワークを利用して実行され、前記予測タイプに対応する真否認識モデルは、当該予測タイプの認証目標対象の隠れ層特徴を利用して構築し、前記認証目標対象は、前記ニューラルネットワークのトレーニング段階および／またはテスト段階で、正確に予測される。

本発明の装置の実施例は、サーバまたは端末デバイスなどの電子デバイスに適用され得る。装置の実施例は、ソフトウェア、ハードウェア、または両者の組み合わせの方式で実装され得る。ソフトウェアで実装する例をとると、論理装置として、電子デバイスのプロセッサによって不揮発性メモリ内の対応するコンピュータプログラム命令をメモリに読み取って運行される形成され得る。ハードウェアの観点からは、図６に示すように、目標対象認識装置が配置された電子デバイスのハードウェアの構成図であり、図６に示すプロセッサ、メモリ、ネットワークインターフェース、および不揮発性メモリに加えて、当該電子デバイスは、当該電子デバイスの実際の機能に応じて、他のハードウェアをさらに含むことができ、本発明はこれに対して繰り返して説明しない。

これに応じて、本発明の実施例は、コンピュータプログラムが格納されているコンピュータ記録媒体をさらに提供し、当該プログラムがプロセッサによって実行されると、任意の実施例に記載の方法が実現される。

これに応じて、本発明の実施例は、コンピュータ可読記録媒体に格納されているコンピュータプログラムをさらに提供し、前記コンピュータプログラムがプロセッサによって実行されるときに、本発明の任意の実施例に記載の目標対象認識方法が実装される。

これに応じて、本発明の実施例は、電子デバイスをさらに提供し、図６に示すように、当該電子デバイスは、メモリと、プロセッサと、メモリに格納された、プロセッサで運行可能なコンピュータプログラムと、を含み、前記プロセッサが前記コンピュータプログラムを実行するときに、任意の実施例に記載の方法が実現される。

本発明は、プログラムコードを含む１つまたは複数の記録媒体（磁気ディスクメモリ、ＣＤ―ＲＯＭ、光学メモリなどを含むがこれらに限定されない）上で実施されるコンピュータプログラム製品の形をとることができる。コンピュータ使用可能記録媒体は、永続的および非永続的、リムーバブルおよび非リムーバブル媒体を含み、任意の方法または技術によって情報の記憶を実装することができる。情報は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータであり得る。コンピュータの記録媒体の例は、相変化メモリ(ＰＲＡＭ)、静的ランダムアクセスメモリ(ＳＲＡＭ)、動的ランダムアクセスメモリ(ＤＲＡＭ)、他のタイプのランダムアクセスメモリ(ＲＡＭ)、読み取り専用メモリ(ＲＯＭ)、電気的に消去可能なプログラム可能な読み取り専用メモリ(ＥＥＰＲＯＭ)、フラッシュメモリまたは他のメモリ技術、読み取り専用光学ディスク読み取り専用メモリ(ＣＤ―ＲＯＭ)、デジタル多用途ディスク(ＤＶＤ)または他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスクメモリまたは他の磁気メモリデバイスまたは任意の他の非伝送媒体を含むがこれらに限定されなく、コンピューティングデバイスによってアクセス可能な情報を記憶するために使用される。

当業者は、明細書を考慮し、本明細書に適用される本発明を実施した後、本発明の他の技術的解決策を容易に考えることができる。本発明は、本発明の任意の変形、用途、または適応的変更をカバーすることを意図しており、これら変形、用途または適応的変更は、本発明の一般原則に従い、本発明の技術の分野における常識または従来の技術的手段を含む。明細書および実施例は、単なる例示と見なされるべきであり、本発明の真の範囲および精神は、以下の特許請求の範囲によって指摘される。

本発明は、上記に既に説明され、また図面に示された精確な構成によって限定されず、その範囲から逸脱することなく、様々な修正および変更を行うことができることを理解されたい。本発明の範囲は、添付の特許請求の範囲によってのみ限定される。

上記は、本発明のいくつかの実施例に過ぎず、本発明を限定するために使用されるものではない。本発明の精神と原則の範囲内で行われたいかなる修正、同等の置換、改良などは、いずれも本発明の範囲に含まれるべきである。

上記の各実施例に対する説明は、各実施例間の相違点を強調する傾向があり、同じまたは類似点は互いに参照することができ、簡素化のために、本明細書では繰り返して説明しない。

Claims

目標対象認識方法であって、
目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することと、
前記認識待ち目標対象の隠れ層特徴に基づいて前記予測タイプが正確であるか否かを確定することと、
前記予測タイプが正確ではないことに応答して、プロンプト情報を出力することと、を含む
ことを特徴とする目標対象認識方法。
前記予測タイプが正確であることに応答して、前記予測タイプを前記認識待ち目標対象の最終のタイプとして確定し、前記認識待ち目標対象の前記最終のタイプを出力することをさらに含む
ことを特徴とする請求項１に記載の目標対象認識方法。
前記認識待ち目標対象の隠れ層特徴に基づいて前記予測タイプが正確であるか否かを確定することは、
前記認識待ち目標対象の隠れ層特徴を前記予測タイプに対応する真否認識モデルに入力することによって、前記真否認識モデルが確率値を出力するようにすることと、
前記確率値が確率閾値未満であると、前記予測タイプが正確ではないと確定することと、
前記確率値が前記確率閾値以上であると、前記予測タイプが正確であると確定することと、を含み、
前記予測タイプに対応する真否認識モデルは、当該予測タイプの目標対象の隠れ層特徴の分布法則を反映し、前記確率値は、前記認識待ち目標対象の最終のタイプが前記予測タイプである確率を示す
ことを特徴とする請求項１または２に記載の目標対象認識方法。
前記目標画像内には、積み上げられている複数の認識待ち目標対象が含まれ、
目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することは、
前記目標画像の高さを所定の高さに調整することと、
調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することと、を含み、
前記目標画像は、収集された画像内の積み上げられている複数の認識待ち目標対象の検出ボックスに基づいて前記収集された画像から裁断して得られたものであり、前記目標画像の高さ方向は、前記積み上げられている複数の認識待ち目標対象の積み上げ方向である
ことを特徴とする請求項１から３のいずれか１項に記載の目標対象認識方法。
前記目標画像の高さを所定の高さに調整することは、
前記目標画像の幅が所定の幅に達するまで、前記目標画像の高さと幅を同じ比率でスケーリングすることと、
スケーリング後の目標画像の幅が所定の幅に達したが、スケーリング後の目標画像高さが所定の高さよりも大きいと、縮小後の目標画像の高さが所定の高さと等しくなるまで、前記スケーリング後の目標画像の高さと幅を同じ比率で縮小することと、を含む
ことを特徴とする請求項４に記載の目標対象認識方法。
前記目標画像の高さを所定の高さに調整することは、
前記目標画像の幅が所定の幅に達するまで、前記目標画像の高さと幅を同じ比率でスケーリングすることと、
スケーリング後の目標画像の幅が所定の幅に達したが、スケーリング後の目標画像の高さが所定の高さ未満であると、第１ピクセルを利用してスケーリング後の目標画像に対して充填を実行して、充填後の目標画像の高さが所定の高さになるようにすることと、を含む
ことを特徴とする請求項４に記載の目標対象認識方法。
調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することは、
調整後の目標画像特徴に対して抽出を実行して特徴マップを得ることであって、前記特徴マップの高さの次元は、前記目標画像の高さ方向に対応することと、
前記特徴マップの幅の次元に沿って前記特徴マップに対して平均プーリングを実行して、プーリング後の特徴マップを得ることと、
前記プーリング後の特徴マップを高さの次元に沿ってセグメント化して、所定の数の特徴を得ることと、
各特徴に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定することと、を含む
ことを特徴とする請求項４に記載の目標対象認識方法。
調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することは、ニューラルネットワークによって実行され、前記ニューラルネットワークは、分類ネットワークを含み、その中で、前記分類ネットワークは、Ｋ個の分類器を含み、Ｋは、分類を実行するときの既知のタイプの数であり、ｋは、正の整数であり、
各特徴に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定することは、
各特徴と各分類器の重みベクトルとの間の余弦類似度をそれぞれ計算することと、
計算した余弦類似度に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定することと、を含む
ことを特徴とする請求項７に記載の目標対象認識方法。
調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することは、ニューラルネットワークによって実行され、前記ニューラルネットワークは、特徴抽出ネットワークを含み、前記特徴抽出ネットワークは、複数の畳み込み層を含み、前記特徴抽出ネットワークの前記複数の畳み込み層の中の最後のＮ個の畳み込み層の前記特徴マップの高さの次元におけるステップ長さは、１であり、Ｎは、正の整数である
ことを特徴とする請求項７に記載の目標対象認識方法。
目標画像内の認識待ち目標対象を分類することは、ニューラルネットワークを利用して実行され、前記予測タイプに対応する真否認識モデルは、当該予測タイプの認証目標対象の隠れ層特徴を利用して構築し、前記認証目標対象は、前記ニューラルネットワークのトレーニング段階および／またはテスト段階で、正確に予測される
ことを特徴とする請求項３に記載の目標対象認識方法。
目標対象認識装置であって、
目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定するための分類ユニットと、
前記認識待ち目標対象の隠れ層特徴に基づいて前記予測タイプが正確であるか否かを確定するための確定ユニットと、
前記予測タイプが正確ではないことに応答して、プロンプト情報を出力するためのプロンプトユニットと、を備える
ことを特徴とする目標対象認識装置。
前記予測タイプが正確であることに応答して、前記予測タイプを前記認識待ち目標対象の最終のタイプとして確定し、前記認識待ち目標対象の前記最終のタイプを出力するための出力ユニットをさらに備える
ことを特徴とする請求項１１に記載の目標対象認識装置。
前記確定ユニットは、
前記認識待ち目標対象の隠れ層特徴を予測タイプに対応する真否認識モデルに入力して、前記真否認識モデルが確率値を出力するようにし、
前記確率値が確率閾値未満であると、前記予測タイプが正確ではないと確定し、
前記確率値が前記確率閾値以上であると、前記予測タイプが正確であると確定し、
その中で、前記予測タイプに対応する真否認識モデルは、当該予測タイプの目標対象の隠れ層特徴の分布法則を反映し、前記確率値は、前記認識待ち目標対象の最終のタイプが前記予測タイプである確率を示す
ことを特徴とする請求項１１または１２に記載の目標対象認識装置。
前記目標画像内には、積み上げられている複数の認識待ち目標対象が含まれ、
前記分類ユニットは、
前記目標画像の高さを所定の高さに調整し、
調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定し、
その中で、前記目標画像は、収集された画像内の積み上げられている複数の認識待ち目標対象の検出ボックスに基づいて前記収集された画像から裁断して得られたものであり、前記目標画像の高さ方向は、前記積み上げられている複数の認識待ち目標対象の積み上げ方向である
ことを特徴とする請求項１１から１３のいずれか１項に記載の目標対象認識装置。
前記分類ユニットは、
前記目標画像の幅が所定の幅に達するまで、前記目標画像の高さと幅を同じ比率でスケーリングし、
スケーリング後の目標画像の幅が所定の幅に達したが、スケーリング後の目標画像高さが所定の高さよりも大きいと、縮小後の目標画像の高さが所定の高さと等しくなるまで、前記スケーリング後の目標画像の高さと幅を同じ比率で縮小する
ことを特徴とする請求項１４に記載の目標対象認識装置。
前記分類ユニットは、
前記目標画像の幅が所定の幅に達するまで、前記目標画像の高さと幅を同じ比率でスケーリングし、
スケーリング後の目標画像の幅が所定の幅に達したが、スケーリング後の目標画像の高さが所定の高さ未満であると、第１ピクセルを利用してスケーリング後の目標画像に対して充填を実行して、充填後の目標画像の高さが所定の高さになるようにする
ことを特徴とする請求項１４に記載の目標対象認識装置。
前記分類ユニットは、
調整後の目標画像特徴に対して抽出を実行して特徴マップを得、前記特徴マップの高さの次元は、前記目標画像の高さ方向に対応し、
前記特徴マップの幅の次元に沿って前記特徴マップに対して平均プーリングを実行して、プーリング後の特徴マップを得、
前記プーリング後の特徴マップを高さの次元に沿ってセグメント化して、所定の数の特徴を得、
各特徴に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定する
ことを特徴とする請求項１４に記載の目標対象認識装置。
調整後の目標画像内の認識待ち目標対象を分類し、前記認識待ち目標対象の予測タイプを確定することは、ニューラルネットワークによって実行され、前記ニューラルネットワークは、分類ネットワークを含み、その中で、前記分類ネットワークは、Ｋ個の分類器を含み、Ｋは、分類を実行するときの既知のタイプの数であり、ｋは、正の整数であり、
各特徴に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定することは、
各特徴と各分類器の重みベクトルとの間の余弦類似度をそれぞれ計算することと、
計算した余弦類似度に基づいて前記積み上げられている複数の認識待ち目標対象の中の各認識待ち目標対象の予測タイプを確定することと、を含む
ことを特徴とする請求項１７に記載の目標対象認識装置。
電子デバイスであって、
プロセッサと、
プロセッサによって実行可能な命令を格納するためのメモリと、を備え、
その中で、前記プロセッサは、前記メモリに格納されている前記プロセッサによって実行可能な命令を呼び出して、請求項１から１０のいずれか１項に記載の方法を実行するように構成される
ことを特徴とする電子デバイス。
コンピュータプログラム命令が格納されているコンピュータ可読記録媒体であって、
前記コンピュータプログラム命令がプロセッサによって実行されると、請求項１から１０のいずれか１項に記載の方法が実現される
ことを特徴とするコンピュータ可読記録媒体。
コンピュータ可読記録媒体に格納されているコンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行されるときに、請求項１から１０のいずれか１項に記載の方法は実現される
ことを特徴とするコンピュータプログラム。