JP2022185144A

JP2022185144A - 対象検出方法、対象検出モデルのレーニング方法および装置

Info

Publication number: JP2022185144A
Application number: JP2022165371A
Authority: JP
Inventors: ユンハオ・ワーン; Yunhao Wang; ビン・ジャーン; Zhang Bin; チャオ・リー; Chao Li; ヤン・ペン; Yan Peng; ソーン・チェン; Soan Cheng; ソーン・シュエ; Song Xue; ユアン・フェン; Yuan Feng; シュミン・ハン; Shumin Han
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-10-29
Filing date: 2022-10-14
Publication date: 2022-12-13
Also published as: CN113963148A; EP4123594A3; CN113963148B; US20230066021A1; EP4123594A2

Abstract

【課題】少ないサンプルの場合に正確な対象検出を実現する対象検出方法及び対象検出モデルのレーニング方法を提供する。【解決手段】対象検出方法は、被測定画像を複数の画像ブロックに分割し、複数の画像ブロックに基づいて、被測定画像の特徴表現を生成し、被測定画像の複数の特徴マップを得るように、予め設定されたパラメータセットを用いて前記特徴表現をマッピングし、複数の特徴マップに基づいて、前記被測定画像における目標対象の位置と種別を確定する。【選択図】図１

Description

本開示は人工知能技術分野に関し、特に、コンピュータ視覚と深層学習技術に関し、具体的には、対象検出方法および装置、対象検出モデルのレーニング方法および装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラム製品に関する。

人工知能は、コンピュータに人間の何らかの思惟過程および知の行動（例えば、学習、推理、思考、計画など）をシミュレートさせるように研究する科目であり、ハードウェア面の技術もあれば、ソフトウェア面の技術もある。人工知能ハードウェア技術は一般的にセンサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能ソフトウェア技術は主にコンピュータ視覚技術、音声認識技術、自然言語処理技術および機械学習／深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの大きな方向を含む。

対象検出は、人工知能分野における画像処理タスクであり、画像に存在する目標対象を検出し、目標対象の画像における位置を標定し、目標対象が属する種別を確定することを指す。対象検出は一般的に深層学習技術を用いて実現される。すなわち、サンプル画像に基づいて深層学習モデルをトレーニングし、続いて、トレーニングされたモデルを使用して被測定画像に対象検出を行う。

この部分で説明される方法は、必ずしも以前に想定された方法又は採用された方法ではない。特に断りのない限り、この部分に記載されているいずれの方法は、この部分に含まれるだけで従来技術であると考えられるべきではない。同様に、特に断りのない限り、この部分に言及する問題は、いかなる従来技術において公認されたものとは考えられるべきではない。

本開示は、対象検出方法および装置、対象検出モデルのレーニング方法および装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラム製品を提供する。
本開示の一態様によれば、被測定画像を複数の画像ブロックに分割することと、前記複数の画像ブロックに基づいて、前記被測定画像の特徴表現を生成することと、前記被測定画像の複数の特徴マップを得るように、予め設定されたパラメータセットを用いて前記特徴表現をマッピングすることと、及び前記複数の特徴マップに基づいて、前記被測定画像における目標対象の位置と種別を確定することとを含む対象検出装置を提供する。

本開示の一態様によれば、対象検出モデルのレーニング方法を提供し、前記対象検出モデルは特徴抽出ネットワークと領域生成ネットワークを含み、前記方法は、第１サンプル画像と第２サンプル画像を取得し、前記第１サンプル画像と前記第２サンプル画像は目標種別に属する目標対象を含み、前記第１サンプル画像には前記目標対象の実際の位置と前記目標種別がマーキングされることと、前記第１サンプル画像の、前記第２サンプル画像に基づいて抽出された第１特徴を得るように、前記第１サンプル画像と前記第２サンプル画像を前記特徴抽出ネットワークに入力することと、前記第１サンプル画像における前記目標対象の予測位置と予測種別を取得するように、前記第１特徴を前記領域生成ネットワークに入力することと、前記実際の位置、目標種別、予測位置及び予測種別に基づいて、前記対象検出モデルの損失値を計算することと、および、前記損失値に基づいて、前記対象検出モデルのパラメータを調整することとを含む。

本開示の一態様によれば、被測定画像を複数の画像ブロックに分割するように構成される分割モジュールと、前記複数の画像ブロックに基づいて、前記被測定画像の特徴表現を生成するように構成される生成モジュールと、前記被測定画像の複数の特徴マップを得るように、予め設定されたパラメータセットを用いて前記特徴表現をマッピングするように構成されるマッピングモジュールと、前記複数の特徴マップに基づいて、前記被測定画像における目標対象の位置と種別を確定するように構成される確定モジュールとを含む対象検出装置を提供する。

本開示の一態様によれば、対象検出モデルのトレーニング装置を提供し、前記対象検出モデルは特徴抽出ネットワークと領域生成ネットワークとを含み、前記方法は、第１サンプル画像と第２サンプル画像を取得するように構成され、前記第１サンプル画像と前記第２サンプル画像は目標種別に属する目標対象を含み、前記第１サンプル画像には前記目標対象の実際の位置と前記目標種別がマーキングされる取得モジュールと、前記第１サンプル画像の、前記第２サンプル画像に基づいて抽出された第１特徴を得るように、前記第１サンプル画像と前記第２サンプル画像を前記特徴抽出ネットワークに入力するように構成される第１処理モジュールと、前記第１サンプル画像における前記目標対象の予測位置と予測種別を取得するように、前記第１特徴を前記領域生成ネットワークに入力するように構成される第２処理モジュールと、前記実際の位置、目標種別、予測位置及び予測種別に基づいて、前記対象検出モデルの損失値を計算するように構成される計算モジュールと、前記損失値に基づいて、前記対象検出モデルのパラメータを調整するように構成される調整モジュールとを含む。

本開示の一態様によれば、電子機器を提供し、前記電子機器は、少なくとも１つのプロセッサ、及び上記少なくとも１つのプロセッサに通信接続されたメモリを含み、このメモリには、上記の少なくとも１つのプロセッサによって実行可能な命令を記憶し、この命令は、上記の少なくとも１つのプロセッサによって実行されることにより、上記の少なくとも１つのプロセッサに上記いずれか１つの方法を実行させる電子機器。

本開示の一態様によれば、上記いずれか１つの方法をコンピュータに実行させるためのコンピュータ命令を記憶した非一時的コンピュータ可読記憶媒体を提供する。
本開示の一態様によれば、プロセッサによって実行されると、上記いずれか１つの方法を実現するコンピュータプログラムを提供する。

本開示の１つまたは複数の実施例によれば、正確な対象検出を実現することができる。
対象検出モデルは第１サンプル画像と第２サンプル画像によりトレーニングされて得られ、第１サンプル画像と第２サンプル画像は目標種別に属する目標対象を含む。対象検出モデルのトレーニング過程において、第２サンプル画像に基づいて第１サンプル画像の特徴（即ち第１特徴）を抽出し、第２サンプル画像に対象検出モデルの第１サンプル画像に対する特徴学習を誘導と強化させることができ、したがって、対象検出モデルの第１サンプル画像に対する対象検出効果を向上させることができる。目標種別のサンプル画像の数が少ない場合であっても、トレーニングされて得られた対象検出モデルは依然として目標対象に対する正確な検出を実現することができる。

理解すべきことは、この部分に説明される内容は、本開示の実施例の要点または重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではないことである。本開示の他の特徴は、以下の明細書によって理解されやすくなる。

図面は、実施例を例示的に示し、明細書の一部を構成し、明細書の文字による説明とともに、実施例の例示的な実施形態を説明するために使用される。図示の実施例は例示的目的のみであり、特許請求の範囲を限定するものではない。すべての図面において、同じ符号は類似しているが、必ずしも同じとは限らない要素を指す。
本開示の実施例による対象検出方法を示すフローチャートである。本開示の実施例による対象検出モデルを示す構造図である。本発明の実施例による対象検出モデルのトレーニング方法を示すフローチャートである。本開示の実施例による第１画像と第２画像を示す概略図である。本開示の実施例による第１画像と第２画像を示す概略図である。本開示の実施例によるサンプル画像セットと局所画像セットを示す概略図である。本開示の実施例による対象検出モデルを示す構成図である。図６における特徴抽出ネットワークを示す構造図である。本開示の実施例による対象検出装置を示す構造ブロック図である。本開示の実施例による対象検出モデルのトレーニング装置を示す構造ブロック図である。本開示の実施例を実現するために使用できる例示的な電子機器を示す構造ブロック図である。

以下、図面に合わせて本開示の例示的な実施形態を説明して、それに含まれる本開示の実施例における様々な詳細が理解を助けるためので、それらは単なる例示的なものと考えられるべきである。したがって、当業者であれば、本開示の範囲及び精神から逸脱することなく、本明細書で説明された実施形態に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、明瞭と簡潔のために、以下の説明では公知の機能および構造についての説明を省略している。

本開示では、特に明記しない限り、様々な要素を説明するための「第１」、「第２」などの用語の使用は、これらの要素の位置関係、タイミング関係、又は重要性関係を限定することを意図していない。このような用語は、ある要素を別の要素と区別するためにのみ使用される。いくつかの例では、第１要素と第２要素は、要素の同じ例を指すことができ、場合によっては、コンテキストの説明に基づいて、異なる例を指してもよい。

本開示の様々な例の説明で使用される用語は、特定の例を説明することのみを目的としており、限定することを意図していない。コンテキストが別途に明確に示されていない限り、特に要素の数を限定しないなら、要素は一つであってもよいし、複数であってもよい。また、本開示で使用される用語「及び／または」は、テーブルされた項目のいずれか及び可能な全ての組み合わせをカバーする。

本開示において、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供と公開などの処理は、すべて関連法律法規の規定に符合し、かつ公順良俗に違反しない。
対象検出は、人工知能分野における画像処理タスクであり、画像に存在する目標対象を検出し、目標対象の画像における位置を標定し、目標対象が属する種別を確定することを指す。対象検出は一般的に深層学習技術を用いて実現される。すなわち、サンプル画像に基づいて深層学習モデルをトレーニングし、続いて、トレーニングされたモデルを使用して被測定画像に対象検出を行う。

正確な対象検出を実現するために、大量のサンプル画像を用いてモデルをトレーニングする必要がある。ただし、大量のサンプル画像の収集及びマーキングは一般的に時間と労力を要する。したがって、サンプル画像の数が少ない（すなわち、「少ないサンプル」）場合であっても、モデルは良好な検出効果に達成することができる方法を提供することが望ましい。

関連技術では、少ないサンプルのモデルトレーニングタスクに対して、一般的に当初のサンプル画像に一定の処理（例えば、回転、並進、明るさ調整、ノイズ付加など）を行い、新たなサンプル画像を得ることで、サンプル画像セットを拡張する。ただし、新たに増加したサンプル画像は人間の目の視覚で大きな変化を示すだけで、変位／スケール／変形不変性を持つ深層学習ネットワークに対しては、拡張されたサンプル画像セットのトレーニング効果と元のサンプル画像セットのトレーニング効果との差異が大きくなく、対象検出の正確性は依然としてよくなく、ユーザの要求を満たすことは難しい。

そのため、本開示の実施例は対象検出方法と対象検出モデルのレーニング方法を提供し、少ないサンプルの場合に正確な対象検出を実現することができる。
以下、図面を参照して本開示の実施例について詳細に説明する。

図１は、本開示の実施例による対象検出方法１００のフローチャートを示す。方法１００は、例えば、クライアントデバイスで実行されてもよいし、サーバーで実行されてもよい。すなわち、方法１００の各ステップの実行主体はクライアントデバイスであってもよいし、サーバーであってもよい。

図１に示すように、方法１００は、
被測定画像を複数の画像ブロックに分割するステップ１１０と、
上述の複数の画像ブロックに基づいて、被測定画像の特徴表現を生成するステップ１２０と、
被測定画像の複数の特徴マップを得るように、予め設定されたパラメータセットを用いて上述の特徴表現をマッピングするステップ１３０と、
上述の複数の特徴マップに基づいて、被測定画像における目標対象の位置と種別を確定するステップ１４０とを含む。

本開示の実施例によれば、正確な対象検出を実現することができる。
以下、方法１００の各ステップを詳細に説明する。
ステップ１１０において、被測定画像を複数の画像ブロックに分割する。

いくつかの実施例によれば、被測定画像を同じサイズで互いに重ならない複数の画像ブロックに分割することができる。例えば、被測定画像のサイズは２２４＊２２４（画素）であり、画像ブロックのサイズを４＊４と設置することができ、被測定画像は（２２４／４）＊（２２４／４）＝３１３６個の画像ブロックに分割されることができる。

ステップ１２０において、ステップ１１０で得られた複数の画像ブロックに基づいて、被測定画像の特徴表現を生成する。
いくつかの実施例によれば、ステップ１２０は、複数の画像ブロックのうちの各画像ブロックに対して、この画像ブロックの画素値に基づいて、この画像ブロックの第１ベクトル表現を確定することと、画像ブロックの第２ベクトル表現を生成するように、予め設定された変換行列を用いて第１ベクトル表現を変換することと、及び被測定画像の特徴表現を得るように、複数の画像ブロックのそれぞれの第２ベクトル表現を組み合わせることを更に含むことができる。

いくつかの実施例によれば、画像ブロックの第１ベクトル表現はこの画像ブロックにおける各チャンネルの画素値のスティッチングである。例えば、画像ブロックのサイズは４＊４であり、かつＲ、Ｇ、Ｂの３つのチャネルを含み、この画像ブロックにおけるＲ、Ｇ、Ｂの３つのチャネルの各画素値をスティッチングすることができ、この画像ブロックの第１ベクトル表現を取得することができる。第１ベクトル表現は長さが４＊４＊３＝４８のベクトルであり、具体的には、１＊４８の行ベクトルであってよいし、４８＊１の列ベクトルであってよい。

画像ブロックの第１ベクトル表現を得た後、この画像ブロックの第２ベクトル表現を得るように、予め設定された変換行列を用いて第１ベクトル表現をマッピングすることができる。例えば、第１ベクトル表現は１＊４８の行ベクトルであり、この行ベクトルを４８＊９６の変換行列に後乗算すると、１＊９６の第２ベクトル表現を得ることができる。変換行列における各要素の値は当業者によって予め設定されてもよい。

各画像ブロックの第２ベクトル表現を組み合わせることにより、被測定画像の特徴表現を得ることができる。例えば、サイズが２２４＊２２４である被測定画像は５６＊５６個の４＊４の画像ブロックに分割され、各画像ブロックの第２ベクトル表現は１＊９６のベクトルであり、各画像ブロックの第２ベクトル表現を組み合わせることにより、得られた被測定画像の特徴表現は９６個の５６＊５６の特徴マップであってもよい。

ステップ１１０と１２０に基づいて、被測定画像の対象検出効率を向上させるように、被測定画像のダウンサンプリングを実現することができる。
ステップ１３０において、被測定画像の複数の特徴マップを得るように、予め設定されたパラメータセットを用いて被測定画像の特徴表現をマッピングする。

いくつかの実施例によれば、予め設定されたパラメータセットは少なくとも１つの行列および／または少なくとも１つの関数を含むことができる。これらの行列および／または関数を用いて被測定画像の特徴表現を演算することにより、被測定画像の複数の特徴マップを得ることができる。

ステップ１４０において、上述の複数の特徴マップに基づいて、被測定画像における目標対象の位置と種別を確定する。
いくつかの実施例によれば、特徴マップと目標対象の位置および種別との対応関係を予め設定しておき、三者の対応関係テーブルを得ることができる。続いて、被測定画像の複数の特徴マップに基づいて、テーブルを検索することにより被測定画像における目標対象の位置と種別を確定する。

別のいくつかの実施例によれば、１セットの予め設定されたパラメータに基づいて、被測定画像における目標対象の位置と種別を確定することもできる。１セットの予め設定されたパラメータは少なくとも１つの行列および／または少なくとも１つの関数を含むことができる。これらの行列および／または関数を用いて被測定画像の複数の特徴マップを演算することにより、被測定画像における目標対象の位置と種別を確定することができる。

いくつかの実施例によれば、方法１００は対象検出モデルによって実現することができ、方法１００中の各ステップは対象検出モデルにおける１つの処理モジュールに対応する。被測定画像を対象検出モデルに入力すれば、対象検出モデルによりが出力した被測定画像における目標対象の位置と種別を得ることができる。

対象検出モデルは、方法１００が実行される前にレーニングされて得られることができる。いくつかの実施例によれば、対象検出モデルは以下の対象検出モデルのレーニング方法によって得ることができる。

図２は、本開示の実施例による対象検出モデル２００の構造図を示す。図２に示すように、対象検出モデル２００は分割モジュール２１０、生成モジュール２２０、マッピングモジュール２３０と確定モジュール２４０を含む。モジュール２１０～２４０は、それぞれ方法１００中のステップ１１０～１４０を実行するために使用される。ここで、マッピングモジュール２３０は、例えばＴｒａｎｓｆｏｒｍｅｒモデルであってもよいし、確定モジュール２４０は、例えばＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ、領域提案ネットワーク）であってもよい。

本開示の実施例によれば、対象検出モデルのレーニング方法を更に提供し、この方法に基づいて、少ないサンプルの場合に正確な対象検出を実現することができる。
図３は本開示の実施例による、特徴抽出ネットワークと領域生成ネットワークを含む対象検出モデルのレーニング方法３００のフローチャートを示す。方法３００は、例えばサーバーで実行されてもよいし、クライアントデバイスで実行されてもよい。すなわち、方法３００の各ステップの実行主体はサーバーであってもよいし、クライアントデバイスであってもよい。

図３に示すように、方法３００は、
第１サンプル画像と第２サンプル画像を取得し、第１サンプル画像と第２サンプル画像は目標種別に属する目標対象を含み、第１サンプル画像には目標対象の実際の位置と目標種別がマーキングされるステップ３１０と、
第１サンプル画像の、第２サンプル画像に基づいて抽出された第１特徴を得るように、第１サンプル画像と第２サンプル画像を特徴抽出ネットワークに入力するステップ３２０と、
第１サンプル画像における目標対象の予測位置と予測種別を得るように、第１特徴を領域生成ネットワークに入力するステップ３３０と、
実際の位置、目標種別、予測位置及び予測種別に基づいて、対象検出モデルの損失値を計算するステップ３４０と、
損失値に基づいて、対象検出モデルのパラメータを調整するステップ３５０とを含む。

本開示の実施例によれば、対象検出モデルは第１サンプル画像と第２サンプル画像によりトレーニングされて得られ、第１サンプル画像と第２サンプル画像は目標種別に属する目標対象を含む。対象検出モデルのトレーニング過程において、第２サンプル画像に基づいて第１サンプル画像の特徴（即ち第１特徴）を抽出し、第２サンプル画像に対象検出モデルの第１サンプル画像に対する特徴学習を誘導と強化させることができ、したがって、対象検出モデルの第１サンプル画像に対する対象検出効果を向上させることができる。目標種別のサンプル画像の数が少ない場合であっても、トレーニングされて得られた対象検出モデルは依然として目標対象に対する正確な検出を実現することができる。

いくつかの実施例によれば、対象検出モデルはプレトレーニングされたモデルであってもよい。すなわち、ステップ３１０を実行する前に、上記の目標種別と異なるベース種別の画像データに基づいて、対象検出モデルをプレトレーニング（ｐｒｅ－ｔｒａｉｎｉｎｇ）することができる。かつ、ベース種別は複数あってもよい。したがって、大量のベース種別の画像データの上で対象検出モデルへのプレトレーニングを完了することができ、続いてステップ３１０～３５０に基づいて、プレトレーニングされた対象検出モデルを微調整（ｆｉｎｅ－ｔｕｎｉｎｇ）し、対象検出モデルは目標種別の目標対象をさらに検出するようにし、ステップ３１０～３５０に示すようなトレーニング過程のトレーニング効率を向上させ、対象検出モデルに良好な汎化性能を持たせることができる。

ステップ３１０において、第１サンプル画像と第２サンプル画像を取得する。第１サンプル画像と第２サンプル画像はいずれも目標種別に属する目標対象を含み、かつ第１サンプル画像には目標対象の実際の位置と目標種別がマーキングされる。

説明すべきことは、方法３００の各実施例において、目標対象とは一般的に目標種別に属する対象を指す。第１サンプル画像における目標対象と第２サンプル画像における目標対象は同じであってもよいし、異なっていてもよい。

なお、説明すべきことは、第１サンプル画像と第２サンプル画像は目標対象以外の他の種別の対象を含むこともできる。
図４Ａは、本開示の実施例による第１サンプル画像４１０と第２サンプル画像４２０の概略図を示す。目標種別は、例えば「五角形」であってもよく、対応的に、任意の五角形形状である対象はいずれも目標対象である。図４Ａに示すように、第１サンプル画像４１０は目標対象４１２を含み、第２サンプル画像４２０は目標対象４２２を含み、第１サンプル画像４１０には目標種別「五角形」（図４Ａには図示せず）と目標対象４１２の実際の位置、すなわち目標対象４１２の外接矩形枠４１４がマーキングされる。第１サンプル画像４１０は目標対象４１２に加えて、２つの三角形である対象４１６と４１８（即ち種別が「三角形」である）を含む。第２サンプル画像４２０は目標対象４２２に加えて、１つの六角星形状である対象４２４（即ち種別が「六角星」である）を含む。

いくつかの実施例によれば、第２サンプル画像は目標対象を含み、且つそれのみを含み、他の種別の対象を含まず、したがって対象検出モデルをより指向的に誘導して目標対象の特徴を学習し、モデルの目標対象に対する検出精度を向上させることができる。

例えば、図４Ｂは、本開示の別の実施例による第１サンプル画像４３０と第２サンプル画像４４０の概略図を示す。目標種別は、例えば「五角形」であってもよく、対応的に、任意の五角形形状である対象はいずれも目標対象である。図４Ｂに示すように、第１サンプル画像４３０は目標対象４３２と他の種別の２つの対象を含み、かつ目標種別「五角形」（図４Ｂには図示せず）と目標対象４３２の実際の位置、すなわち目標対象４３２の外接矩形枠４３４がマーキングされる。第２サンプル画像４２０は目標対象４４２を含み、且つそれのみを含み、対象検出モデルをより指向的に誘導して目標対象の特徴を学習し、モデルの目標対象に対する検出精度を向上させることができる。

いくつかの実施例によれば、以下のステップに従って第１サンプル画像と第２サンプル画像を取得することができる。目標種別の複数のサンプル画像を取得し、ここでは、各サンプル画像は少なくとも目標対象を含み、複数のサンプル画像の各サンプル画像から目標対象を含む局所領域を切り出し、複数の局所画像を得て、ここでは、第１サンプル画像は複数のサンプル画像のうちのいずれかのサンプル画像であり、第２サンプル画像は複数の局所画像のうちのいずれかの局所画像である。

説明すべきことは、上述の実施例では、目標対象の外接矩形枠に沿ってサンプル画像を切り出し、したがって、切り出されて得られた局所画像には目標対象を含み、且つそれのみを含み、対象検出モデルの目標対象に対する特徴学習効果を向上させることができる。

図５は、本開示の実施例によるサンプル画像セットと局所画像セットの概略図を示す。図５に示すような実施例において、目標種別は「五角形」である。目標種別の５つのサンプル画像、すなわちサンプル画像５１０～５５０はサンプル画像セット５００を構成する。サンプル画像５１０から目標対象５１２を含む局所領域５１４を切り出し、局所画像５６１を得る。サンプル画像５２０から目標対象５２２を含む局所領域５２４及び目標対象５２６を含む局所領域５２８を切り出し、局所画像５６２と局所画像５６３を得る。サンプル画像５３０から目標対象５３２を含む局所領域５３４を切り出し、局所画像５６４を得る。サンプル画像５４０から目標対象５４２を含む局所領域５４４を切り出し、局所画像５６５を得る。サンプル画像５５０から目標対象５５２を含む局所領域５５４を切り出し、局所画像５６６を得る。局所画像５６１～５６６は局所画像セット５６０を構成する。サンプル画像セット５００のうちのいずれかのサンプル画像を第１サンプル画像とすることができ、及び局所画像セット５６０のうちのいずれかの局所画像を第２サンプル画像とすることができる。図５に示されるサンプル画像セット５００と局所画像セット５６０に基づいて、５＊６＝３０個（第１サンプル画像、第２サンプル画像）の画像ペアを得ることができる。

別のいくつかの実施例によれば、目標種別の複数のサンプル画像を直接サンプリングして、第１サンプル画像と第２サンプル画像を得ることができる。すなわち、第１サンプル画像と第２サンプル画像は、それぞれ目標種別の複数のサンプル画像のうちのいずれかのサンプル画像であってもよい。引き続き図５を例として、サンプル画像セット５００のうちのいずれかのサンプル画像を第１サンプル画像とすることができ、及びサンプル画像セット５００のうちのいずれかのサンプル画像を第２サンプル画像とすることができる。図５に示すようなサンプル画像セットに基づいて、５＊５＝２５個（第１サンプル画像、第２サンプル画像）の画像ペアを得ることができる。

図６は、本開示の実施例による対象検出モデル６００の構造図を示す。図６に示すように、対象検出モデル６００は特徴抽出ネットワーク６１０と領域生成ネットワーク６２０を含む。特徴抽出ネットワーク６１０は、例えば、１つまたは複数の変換モジュール（Ｔｒａｎｓｆｏｒｍｅｒ）を含むことができ、領域生成ネットワーク６２０は、例えばＲＰＮ、ＦａｓｔｅｒＲ－ＣＮＮなどのネットワーク構造として実現することができる。

ステップ３２０において、第１サンプル画像と第２サンプル画像は特徴抽出ネットワーク６１０に入力される。特徴抽出ネットワーク６１０は、第２サンプル画像に基づいて、第１サンプル画像を特徴抽出し、第１サンプル画像の第１特徴を得る。

ステップ３３０において、第１サンプル画像の第１特徴は領域生成ネットワーク６２０に入力される。領域生成ネットワーク６２０は第１特徴を処理し、第１サンプル画像における目標対象の予測位置と予測種別を得て出力する。

いくつかの実施例によれば、特徴抽出ネットワークは第１サンプル画像の第１特徴を抽出するための第１抽出ブランチと第２サンプル画像の第２特徴を抽出するための第２抽出ブランチを含み、第１抽出ブランチは少なくとも１つの第１注意力モジュールを含み、第２抽出ブランチは少なくとも１つの第２注意力モジュールを含み、上述の少なくとも１つの第１注意力モジュールと上述の少なくとも１つの第２注意力モジュールとは１対１に対応し、各第１注意力モジュールはそれに対応する第２注意力モジュールとパラメータを共有する。いくつかの実施例によれば、第１抽出ブランチと第２抽出ブランチは構造が全く同じでパラメータを共有することができる。

いくつかの実施例によれば、第１注意力モジュールと第２注意力モジュールは自己注意力（Ｓｅｌｆ－Ａｔｔｅｎｔｉｏｎ）モジュールであってもよい。自己注意力モジュールのパラメータは第１変換行列Ｗ^Ｑ、第２変換行列Ｗ^Ｋ及び第３変換行列Ｗ^Ｖを含む。自己注意力モジュールによって実行されるデータ処理過程は以下のとおりである。

まず、入力データＸを取得し、それぞれ第１変換行列Ｗ^Ｑ、第２変換行列Ｗ^Ｋ及び第３変換行列Ｗ^Ｖを用いてＸを線形変換し、クエリ行列Ｑｕｅｒｙ（略称Ｑ、Ｑ＝Ｘ・Ｗ^Ｑ）、キー行列Ｋｅｙ（略称Ｋ、Ｋ＝Ｘ・Ｗ^Ｋ）及び特徴値行列Ｖａｌｕｅ（略称Ｖ、Ｖ＝Ｘ・Ｗ^Ｖ）を得る。

次いで、以下の式に従って出力データを得る。

式（１）において、Ａｔｔｅｎｔｉｏｎ（Ｑ，Ｋ，Ｖ）は自己注意力モジュールの出力であり、ｄ_ｋは行列Ｋの行数または列数である。
本開示の実施例では、前記少なくとも１つの第２注意力モジュールのうちの各第２注意力モジュールは、この第２注意力モジュールに入力された第２入力データを処理し、第２入力データの特徴値行列（Ｖ_２）を出力するように構成される。

前記少なくとも１つの第１注意力モジュールのうちの各第１注意力モジュールは、対応する第２注意力モジュールが出力した特徴値行列（Ｖ_２）を取得し、この第１入力データのクエリ行列（Ｑ_１）とキー行列（Ｋ_１）を得るように、この第１注意力モジュールに入力された第１入力データを処理し、及びクエリ行列（Ｑ_１）、キー行列（Ｋ_１）及び特徴値行列（Ｖ_２）に基づいて、この第１注意力モジュールの第１出力データを確定して出力するように構成される。

以下、図７を参照して第１注意力モジュールと第２注意力モジュールのデータ処理過程を説明する。
図７は図６における特徴抽出ネットワーク６１０の例示的な構造図を示す。図７に示すように、特徴抽出ネットワークは第１抽出ブランチ６１０Ａと第２抽出ブランチ６１０Ｂを含む。第１抽出ブランチ６１０Ａは第１サンプル画像の第１特徴を抽出するために用いられ、第２抽出ブランチ６１０Ｂは第２サンプル画像の第２特徴を抽出するために用いられる。

第１抽出ブランチ６１０Ａは第２抽出ブランチ６１０Ｂの構造と同じであり、両者はそれぞれ１つのダウンサンプリングモジュール（６１１Ａ／６１１Ｂ）と１つの変換モジュール（６１６Ａ／６１６Ｂ）を含み、かつ、変換モジュール（６１６Ａ／６１６Ｂ）は、正規化モジュール（６１２Ａ／６１２Ｂ）、注意力モジュール（６１３Ａ／６１３Ｂ）、正規化モジュール（６１４Ａ／６１４Ｂ）と多層感知モジュール（６１５Ａ／６１５Ｂ）をさらに含む。

第１抽出ブランチ６１０Ａは第２抽出ブランチ６１０Ｂとパラメータを共有する。すなわち、ダウンサンプリングモジュール６１１Ａとダウンサンプリングモジュール６１１Ｂのパラメータ値は同じであり、変換モジュール６１６Ａと変換モジュール６１６Ｂのパラメータ値は同じである。更に、正規化モジュール６１２Ａと正規化モジュール６１２Ｂのパラメータ値は同じであり、第１注意力モジュール６１３Ａと第２注意力モジュール６１３Ｂのパラメータ値は同じであり、以下同様である。

ダウンサンプリングモジュール６１１Ａ、６１１Ｂはそれぞれ第１サンプル画像、第２サンプル画像を複数の画像ブロックに分割し、複数の画像ブロックを処理（例えば、上記のステップ１２０の処理を行い、各画像ブロックの第１ベクトル表現を確定し、第１ベクトル表現を線形変換することにより第２ベクトル表現を得て、及び画像ブロックのベクトル表現を組み合わせる）するように用いられ、第１サンプル画像と第２サンプル画像の特徴表現を生成する。

正規化モジュール６１２Ａ、６１２Ｂ、６１４Ａ、６１４Ｂは、例えばＬＮ（ＬａｙｅｒＮｏｒｍａｌｉｚａｔｉｏｎ、層正規化）処理層である。
第１注意力モジュール６１３Ａと第２注意力モジュール６１３Ｂは、例えばウィンドウマルチヘッド自己注意（ＷｉｎｄｏｗＭｕｌｔｉ－ｈｅａｄＳｅｌｆ－Ａｔｔｅｎｔｉｏｎ、Ｗ－ＭＳＡ）モジュール、シフトウィンドマルチヘッド自己注意（Ｓｈｉｆｔｅｄ－ＷｉｎｄｏｗＭｕｌｔｉ－ｈｅａｄＳｅｌｆ－Ａｔｔｅｎｔｉｏｎ、ＳＷ－ＭＳＡ）モジュールなどであってもよい。

図７に示す実施例では、第１注意力モジュール６１３Ａと第２注意力モジュール６１３Ｂは同じ変換行列Ｗ^Ｑ、Ｗ^Ｋ、Ｗ^Ｖを有する。
第２注意力モジュール６１３Ｂは変換行列Ｗ^Ｖを用いて第２入力データＸ_２を変換して、特徴値行列Ｖ_２（Ｖ_２＝Ｘ_２・Ｗ^Ｖ）を得て、特徴値行列Ｖ_２を第１注意力モジュール６１３Ａに出力する。

第１注意力モジュール６１３Ａは特徴値行列Ｖ_２を取得する。かつ、変換行列を用いて第１入力データＸ_１を変換し、クエリ行列Ｑ_１（Ｑ_１＝Ｘ_１・Ｗ^Ｑ）とキー行列Ｋ_１（Ｋ_１＝Ｘ_１・Ｗ^Ｋ）を得て、続いて次の式（２）に従って、第１出力データＯ_１を算出する。

式（２）において、ｄ_ｋ１は行列Ｋ_１の行数または列数である。
本開示の実施例では、第１注意力モジュール６１３Ａの特徴値行列を第２注意力モジュール６１３Ｂにより算出された特徴値行列Ｖ_２に置き換えることによって、第２サンプル画像の特徴を第１サンプル画像に導入することができ、したがって第１サンプル画像の特徴学習効果を向上させることができる。

多層感知モジュール６１５Ａ、６１５Ｂは、例えば複数の完全接続層で構成された多層パーセプトロン（Ｍｕｌｔｉ－ＬａｙｅｒＰｅｒｃｅｐｔｒｏｎ、ＭＬＰ）であってもよい。

説明すべきことは、図７に示すような特徴抽出ネットワークの構造は一例に過ぎない。実践において、特徴抽出ネットワークは他の構造を用いてもよく、例えば、特徴抽出ネットワークは複数の順に接続されたダウンサンプリングモジュールと変換モジュールを含むことができる。本開示は、特徴抽出ネットワークの具体的な構造を限定しない。

引き続き図３を参照する。ステップ３３０によって第１サンプル画像における目標対象の予測位置と予測種別を取得した後、ステップ３４０を実行することができ、第１サンプル画像における目標対象の実際の位置、属する目標種別、予測位置及び予測種別に基づいて、対象検出モデルの損失値を計算する。説明すべきことは、本開示は、損失値の計算式（即ち損失関数）を限定しない。いくつかの実施例において、損失関数を目標種別と予測種別とのクロスエントロピー損失と、実際の位置と予測位置との重なり率損失（ＧＩｏＵ）の合計として設定することができる。

ステップ３５０において、例えば逆方向伝播アルゴリズムにより対象検出モデルのパラメータを調整することができる。
上述のステップ３１０～３５０は、対象検出モデルの損失値が予め設定された閾値より小さい時に対象検出モデルのトレーニングを完了するまで、複数回に循環実行することができる。

いくつかの実施例によれば、対象検出モデルの損失値が予め設定された閾値より小さいと確定することに応答して、特徴抽出ネットワークにおける第２抽出ブランチを削除する。すなわち、対象検出モデルのトレーニングを完了した後、第２抽出ブランチを削除する。第２抽出ブランチは対象検出モデルのトレーニング段階でのみ機能し、対象検出モデルの応用段階では機能しない。第２抽出ブランチを削除することにより、モデル構造を簡素化することができ、したがって対象検出モデルが占める記憶空間を削減することができる。

方法３００によってトレーニングされて得られる対象検出モデルは、被測定画像における目標種別に属する対象に用いることができる。具体的には、被測定画像を入対象検出モデル（具体的には、入力対象検出モデルの第１抽出ブランチ）に入力することができ、対象検出モデルは被測定画像における目標対象の位置と種別を出力する。

本開示の実施例によれば、対象検出装置を更に提供する。図８は、本開示の実施例による対象検出装置８００の構造ブロック図を示す。図８に示すように、装置８００は、
被測定画像を複数の画像ブロックに分割するように構成される分割モジュール８１０と、
前記複数の画像ブロックに基づいて、前記被測定画像の特徴表現を生成するように構成される生成モジュール８２０と、
前記被測定画像の複数の特徴マップを得るように、予め設定されたパラメータセットを用いて前記特徴表現をマッピングするように構成されるマッピングモジュール８３０と、
前記複数の特徴マップに基づいて、前記被測定画像における目標対象の位置と種別を確定するように構成される確定モジュール８４０とを含む。

本開示の実施例によれば、正確な対象検出を実現することができる。
本開示の実施例によれば、対象検出モデルのトレーニング装置を更に提供する。対象検出モデルは特徴抽出ネットワークと領域生成ネットワークを含む。図９は、本開示の実施例による対象検出モデルのトレーニング装置９００の構造框図を示す。図９に示すように、装置９００は、
第１サンプル画像と第２サンプル画像を取得するように構成され、前記第１サンプル画像と前記第２サンプル画像は目標種別に属する目標対象を含み、前記第１サンプル画像には前記目標対象の実際の位置と前記目標種別がマーキングされる取得モジュール９１０と、
前記第１サンプル画像の、前記第２サンプル画像に基づいて抽出された第１特徴を得るように、前記第１サンプル画像と前記第２サンプル画像を前記特徴抽出ネットワークに入力するように構成される第１処理モジュール９２０と、
前記第１サンプル画像における前記目標対象の予測位置と予測種別を取得するように、前記第１特徴を前記領域生成ネットワークに入力するように構成される第２処理モジュール９３０と、
前記実際の位置、目標種別、予測位置及び予測種別に基づいて、前記対象検出モデルの損失値を計算するように構成される計算モジュール９４０と、
前記損失値に基づいて、前記対象検出モデルのパラメータを調整するように構成される調整モジュール９５０とを含む。

理解すべきことは、図８に示される装置８００の各モジュールまたはユニットは、図１を参照して説明された方法１００中の各ステップに対応することができ、図９に示される装置９００の各モジュールは、図３を参照して説明された方法３００中の各ステップに対応することができる。したがって、上記の方法１００に対して説明した操作、特徴及び利点は、装置８００とそれに含まれるモジュール及びユニットに同様に適用され、上記の方法３００に対して説明した操作、特徴と利点は、装置９００とそれに含まれるモジュールに同様に適用される。簡潔のために、いくつかの操作、特徴及び利点はここでは説明を省略する。

特定の機能は上記で特定のモジュールを参照して論じられているが、本明細書で論じた各モジュールの機能は複数のモジュールに分割されてもよく、および／または複数のモジュールの少なくともいくつかの機能は単一のモジュールに組み合わせてもよいことに留意されたい。例えば、上述の分割モジュール８１０と生成モジュール８２０は、いくつかの実施例において単一のモジュールに組み合わせることができる。

本明細書では、ソフトウェアハードウェア要素またはプログラムモジュールの一般的なコンテキストで様々な技術を説明することができることも理解されたい。上記の図８、図９で説明された各モジュールに関しては、ハードウェアにおいて、またはソフトウェアおよび／またはファームウェアと組み合わされたハードウェアにおいて実装することができる。例えば、これらのモジュールは、１つまたは複数のプロセッサにおいて実行され、コンピュータ可読記憶媒体に記憶されるように構成されたコンピュータプログラムコード／命令として実装することができる。交換可能に、これらのモジュールはハードウェアロジック／回路として実装することができる。例えば、いくつかの実施例において、分割モジュール８１０、生成モジュール８２０、マッピングモジュール８３０、確定モジュール８４０、取得モジュール９１０、第１処理モジュール９２０、第２処理モジュール９３０、計算モジュール９４０、調整モジュール９５０のうちの１つまたは複数は、システムオンチップ（ＳｙｓｔｅｍｏｎＣｈｉｐ、ＳｏＣ）に一緒に実装されることができる。ＳｏＣは、集積回路チップ（例えば、プロセッサ（例えば、中央処理ユニット（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）、マイクロコントローラ、マイクロプロセッサ、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、ＤＳＰ）などを含む）、メモリ、１つまたは複数の通信インターフェース、および／または他の回路中の１つまたは複数のコンポーネント）を含むことができ、オプションで受信したプログラムコードの実行、および／または埋め込みファームウェアを含み機能を実行することができる。

本開示の実施例によれば、電子機器、可読記憶媒体およびコンピュータプログラム製品をさらに提供する。
図１０を参照して、ここでは、本開示の様々な態様に適用可能なハードウェア装置の一例である、本開示のサーバ又はクライアントとして利用可能な電子機器６００の構造ブロック図について説明する。電子機器は、様々な形態のデジタル電子コンピュータ機器、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、個人用デジタル補助装置、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを指すことを意図している。電子機器は更に、様々な形態の移動装置、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、着用可能な装置とその他の類似する計算装置を表すことができる。本明細書に示される部品、これらの接続関係およびこれらの機能は例示的なものに過ぎず、本明細書に説明したおよび／又は請求した本開示の実現を制限することを意図するものではない。

図１０に示すように、機器１０００は、計算ユニット１００１を含み、それはリードオンリーメモリ（ＲＯＭ）１００２に記憶されるコンピュータプログラムまた記憶ユニット１００８からランダムアクセスメモリ（ＲＡＭ）１００３にロードされるコンピュータプログラムによって、種々の適当な操作と処理を実行することができる。ＲＡＭ１００３において、更に装置１０００を操作するために必要な様々なプログラムとデータを記憶することができる。計算ユニット１００１、ＲＯＭ１００２およびＲＡＭ１００３はバス１００４によって互いに接続される。入力／出力（Ｉ／Ｏ）インターフェース１００５もバス１００４に接続される。

デバイス１０００における複数の部品はＩ／Ｏインターフェース１００５に接続され、入力ユニット１００６、出力ユニット１００７、記憶ユニット１００８及び通信ユニット１００９を含む。入力ユニット１００６は、装置１０００に情報を入力することが可能ないずれかのタイプの装置であってもよく、入力ユニット１００６は、入力された数字又は文字情報が受信でき、計算装置のユーザ設定及び／又は機能制御に関するキー信号入力を生成することができ、マウス、キーボード、タッチスクリーン、トラックボード、トラックボール、操作レバー、マイク及び／又はリモコンを含むことができるが、これらに限定されない。出力ユニット１００７は、情報を提示することが可能ないずれかのタイプの装置であってもよく、ディスプレイ、スピーカ、映像／オーディオ出力端末、バイブレータ、及び／又はプリンタを含んでもよいが、これらに限定されない。記憶ユニット１００８は磁気ディスク、光ディスクを含むことができるが、これらに限定されない。通信ユニット１００９は、装置１０００が例えば、インターネットであるコンピュータネットワーク及び／又は様々な電気通信ネットワークを介して他の装置と情報／データを交換することを可能にし、モデム、ネットワークカード、赤外線通信装置、無線通信送受信機、及び／又はチップセット、例えば、ブルートゥース（登録商標）装置、８０２．１１装置、Ｗｉ－Ｆｉ装置、ＷｉＭＡＸ装置、セルラー通信装置及び／又は類似物を含んでもよいが、これらに限定されない。

計算ユニット１００１は処理およびコンピューティング能力を有する様々な汎用および／または専用の処理コンポーネントであってもよい。計算ユニット１００１の例には、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、およびいずれかの適当なプロセッサ、コントローラ、マイクロコントローラなどが含まれるがこれらに限定されないことである。計算ユニット１００１は上記内容で説明した各方法と処理、例えば、方法１００または方法３００を実行する。例えば、いくつかの実施例において、方法１００または方法３００は記憶ユニット１００８のような機械可読媒体に有形に組み込まれたコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施例において、コンピュータプログラムの部分又は全てはＲＯＭ１００２および／又は通信ユニット１００９を経由して装置１０００にロードおよび／又はインストールされてよい。コンピュータプログラムがＲＡＭ１００３にロードされて計算ユニット１００１によって実行されると、上記で説明した方法１００または方法３００の１つまたは複数のステップを実行することできる。代替的に、他の実施形態において、コンピューティングユニット１００１は、他のいずれかの適当な方法で（例えば、ファームウェアを用いて）、方法１００または方法３００を実行するように構成される。

本明細書で上述したシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、複雑なプログラマブル論理デバイス（ＣＰＬＤ）、ソフトウェア・ハードウェア、ファームウェア、ソフトウェア、および／またはこれらの組み合わせにおいて実装することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムに実施され、この１つ又は複数のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行しおよび／又は解釈してもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、少なくとも１つの出力装置からデータと命令を受信し、データと命令をこの記憶システム、この少なくとも１つの入力装置、この少なくとも１つの出力装置に送信してよいこと、を含んでもよい。

本開示の方法を実施するプログラムコードは１つ又は複数のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、よってプログラムコードはプロセッサ又はコントローラにより実行される時にフローチャートおよび／又はブロック図に規定の機能／操作を実施する。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行し且つ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。

本開示の文脈において、機械可読媒体は有形の媒体であってもよく、命令実行システム、装置又はデバイスに使用される又は命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線的、又は半導体システム、装置又はデバイス、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、１つ又は複数のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、光記憶装置、磁気記憶装置、又は上記内容のいかなる適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、このコンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）監視モニタ）、およびキーボードとポインティング装置（例えば、マウスやトラックボール）を備え、ユーザはこのキーボードとこのポインティング装置を介してコンピュータに入力してよい。その他の種類の装置は更に、ユーザとのインタラクティブを提供するためのものであってもよい。例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、いかなる形態（音入力、音声入力、又は触覚入力を含む）でユーザからの入力を受信してよい。

ここで述べたシステムや技術は、バックステージ部材を含む計算システム（例えば、データサーバとして）や、ミドルウェア部材を含む計算システム（例えば、アプリケーションサーバ）や、フロントエンド部材を含む計算システム（例えば、グラフィカルユーザインタフェースやウェブブラウザを有するユーザコンピュータ、ユーザが、そのグラフィカルユーザインタフェースやウェブブラウザを通じて、それらのシステムや技術の実施形態とのインタラクティブを実現できる）、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムには実施されてもよい。システムの部材は、いずれかの形式や媒体のデジタルデータ通信（例えば、通信ネットワーク）により相互に接続されてもよい。通信ネットワークの一例は、ローカルネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）とインターネットを含む。

コンピュータシステムは、クライアントとサーバを含んでもよい。クライアントとサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクションを行う。互にクライアント－サーバという関係を有するコンピュータプログラムを対応するコンピュータで運転することによってクライアントとサーバの関係を生成する。サーバーは、クラウドサーバであってもよく、分散型システムのサーバでも、またはブロックチェーンと組み合わされサーバであってもよい。

理解すべきことは、以上に示した様々な形態のフローを用いて、改めて順位付け、ことを増加又は削除することができる。例えば、本開示に記載された各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行させてもよいし、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されないことである。

本開示の実施形態又は例は図面を参照して説明されたが、上記の方法、システム、及び装置は単なる例示的な実施形態又は例であり、本開示の範囲はこれらの実施形態又は例によって制限されるものではなく、授権後の特許請求の範囲及びその均等範囲のみによって限定されることを理解されたい。実施例又は例の様々な要素は省略されてもよく、又はそれらの均等要素によって代替されてもよい。また、各ステップは、本開示で説明した順序とは異なる順序で実行されてもよい。更に、実施形態又は例の様々な要素は、様々な方法で組み合わせられてもよい。重要なのは、技術の進化に伴い、ここで説明される多くの要素は、本開示の後に現れる同等の要素に置き換えることができるということである。

Claims

対象検出方法であって、
被測定画像を複数の画像ブロックに分割することと、
前記複数の画像ブロックに基づいて、前記被測定画像の特徴表現を生成することと、
前記被測定画像の複数の特徴マップを得るように、予め設定されたパラメータセットを用いて前記特徴表現をマッピングすることと、
前記複数の特徴マップに基づいて、前記被測定画像における目標対象の位置と種別を確定することとを含む対象検出方法。
前記の前記複数の画像ブロックに基づいて、前記被測定画像の特徴表現を生成することは、
前記複数の画像ブロックのうちの各画像ブロックに対して、
前記画像ブロックの画素値に基づいて、前記画像ブロックの第１ベクトル表現を確定することと、
前記画像ブロックの第２ベクトル表現を生成するように、予め設定された変換行列を用いて前記第１ベクトル表現を変換することと、
前記被測定画像の特徴表現を得るように、前記複数の画像ブロックのそれぞれの第２ベクトル表現を組み合わせることとを含む請求項１に記載の方法。
前記複数の画像ブロックのサイズが同じであり、且つ互いに重ならず、
前記画像ブロックの第１ベクトル表現はこの画像ブロックにおける各チャンネルの画素値のスティッチングである請求項２に記載の方法。
対象検出モデルのレーニング方法であって、前記対象検出モデルは特徴抽出ネットワークと領域生成ネットワークを含み、前記方法は、
第１サンプル画像と第２サンプル画像を取得し、前記第１サンプル画像と前記第２サンプル画像は目標種別に属する目標対象を含み、前記第１サンプル画像には前記目標対象の実際の位置と前記目標種別がマーキングされることと、
前記第１サンプル画像の、前記第２サンプル画像に基づいて抽出された第１特徴を得るように、前記第１サンプル画像と前記第２サンプル画像を前記特徴抽出ネットワークに入力することと、
前記第１サンプル画像における前記目標対象の予測位置と予測種別を取得するように、前記第１特徴を前記領域生成ネットワークに入力することと、
前記実際の位置、目標種別、予測位置及び予測種別に基づいて、前記対象検出モデルの損失値を計算することと、
前記損失値に基づいて、前記対象検出モデルのパラメータを調整することとを含む対象検出モデルのレーニング方法。
前記第２サンプル画像は前記目標対象を含み、且つそれのみを含む請求項４に記載の方法。
前記第１サンプル画像と第２サンプル画像を取得することは、
前記目標種別の複数のサンプル画像を取得し、各サンプル画像は少なくとも前記目標対象を含むことと、
前記複数のサンプル画像の各サンプル画像から前記目標対象を含む局所領域を切り出し、複数の局所画像を得て、
前記第１サンプル画像は前記複数のサンプル画像のうちのいずれかのサンプル画像であり、前記第２サンプル画像は前記複数の局所画像のうちのいずれかの局所画像であることとを含む請求項４に記載の方法。
前記第１サンプル画像と前記第２サンプル画像は、それぞれ前記目標種別の複数のサンプル画像のうちのいずれかのサンプル画像である請求項４に記載の方法。
前記第１サンプル画像と前記第２サンプル画像を取得する前に、
前記目標種別と異なるベース種別の画像データに基づいて、前記対象検出モデルをプレトレーニングすることをさらに含む請求項４に記載の方法。
前記特徴抽出ネットワークは前記第１特徴を抽出するための第１抽出ブランチと前記第２サンプル画像の第２特徴を抽出するための第２抽出ブランチを含み、前記第１抽出ブランチは少なくとも１つの第１注意力モジュールを含み、前記第２抽出ブランチは少なくとも１つの第２注意力モジュールを含み、前記少なくとも１つの第１注意力モジュールと前記少なくとも１つの第２注意力モジュールとは１対１に対応し、各第１注意力モジュールはそれに対応する第２注意力モジュールとパラメータを共有し、
前記少なくとも１つの第２注意力モジュールのうちの各第２注意力モジュールは、前記第２注意力モジュールに入力された第２入力データを処理し、前記第２入力データの特徴値行列を出力するように構成され、
前記少なくとも１つの第１注意力モジュールのうちの各第１注意力モジュールは、
対応する第２注意力モジュールが出力した特徴値行列を取得し、
前記第１入力データのクエリ行列とキー行列を得るように、この第１注意力モジュールに入力された第１入力データを処理し、
前記クエリ行列、前記キー行列及び前記特徴値行列に基づいて、この第１注意力モジュールの第１出力データを確定して出力するように構成される請求項４に記載の方法。
前記損失値が予め設定された閾値より小さいと確定することに応答して、前記第２抽出ブランチを削除することとをさらに含む請求項９に記載の方法。
対象検出装置であって、
被測定画像を複数の画像ブロックに分割するように構成される分割モジュールと、
前記複数の画像ブロックに基づいて、前記被測定画像の特徴表現を生成するように構成される生成モジュールと、
前記被測定画像の複数の特徴マップを得るように、予め設定されたパラメータセットを用いて前記特徴表現をマッピングするように構成されるマッピングモジュールと、
前記複数の特徴マップに基づいて、前記被測定画像における目標対象の位置と種別を確定するように構成される確定モジュールとを含む対象検出装置。
対象検出モデルのトレーニング装置であって、前記対象検出モデルは特徴抽出ネットワークと領域生成ネットワークを含み、前記方法は、
第１サンプル画像と第２サンプル画像を取得するように構成され、前記第１サンプル画像と前記第２サンプル画像は目標種別に属する目標対象を含み、前記第１サンプル画像には前記目標対象の実際の位置と前記目標種別がマーキングされる取得モジュールと、
前記第１サンプル画像の、前記第２サンプル画像に基づいて抽出された第１特徴を得るように、前記第１サンプル画像と前記第２サンプル画像を前記特徴抽出ネットワークに入力するように構成される第１処理モジュールと、
前記第１サンプル画像における前記目標対象の予測位置と予測種別を取得するように、前記第１特徴を前記領域生成ネットワークに入力するように構成される第２処理モジュールと、
前記実際の位置、目標種別、予測位置及び予測種別に基づいて、前記対象検出モデルの損失値を計算するように構成される計算モジュールと、
前記損失値に基づいて、前記対象検出モデルのパラメータを調整するように構成される調整モジュールとを含む対象検出モデルのトレーニング装置。
電子機器であって、
少なくとも１つのプロセッサ、
前記少なくとも１つのプロセッサに通信接続されたメモリを含み、
前記メモリは、前記少なくとも１つのプロセッサによって実行可能な命令を記憶し、前記命令は前記少なくとも１つのプロセッサによって実行されることにより、前記少なくとも１つのプロセッサに請求項１～１０のいずれか一項に記載の方法を実行させる電子機器。
コンピュータに請求項１～１０のいずれか一項に記載の方法を実行させるためのコンピュータ命令が記憶される非一時的コンピュータ可読記憶媒体。
プロセッサによって実行される時に、請求項１～１０のいずれか一項に記載の方法を実現するコンピュータプログラム。