JP2022185144A - 対象検出方法、対象検出モデルのレーニング方法および装置 - Google Patents

対象検出方法、対象検出モデルのレーニング方法および装置 Download PDF

Info

Publication number
JP2022185144A
JP2022185144A JP2022165371A JP2022165371A JP2022185144A JP 2022185144 A JP2022185144 A JP 2022185144A JP 2022165371 A JP2022165371 A JP 2022165371A JP 2022165371 A JP2022165371 A JP 2022165371A JP 2022185144 A JP2022185144 A JP 2022185144A
Authority
JP
Japan
Prior art keywords
image
sample image
feature
object detection
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022165371A
Other languages
English (en)
Inventor
ユンハオ・ワーン
Yunhao Wang
ビン・ジャーン
Zhang Bin
チャオ・リー
Chao Li
ヤン・ペン
Yan Peng
ソーン・チェン
Soan Cheng
ソーン・シュエ
Song Xue
ユアン・フェン
Yuan Feng
シュミン・ハン
Shumin Han
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022185144A publication Critical patent/JP2022185144A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

【課題】少ないサンプルの場合に正確な対象検出を実現する対象検出方法及び対象検出モデルのレーニング方法を提供する。【解決手段】対象検出方法は、被測定画像を複数の画像ブロックに分割し、複数の画像ブロックに基づいて、被測定画像の特徴表現を生成し、被測定画像の複数の特徴マップを得るように、予め設定されたパラメータセットを用いて前記特徴表現をマッピングし、複数の特徴マップに基づいて、前記被測定画像における目標対象の位置と種別を確定する。【選択図】図1

Description

本開示は人工知能技術分野に関し、特に、コンピュータ視覚と深層学習技術に関し、具体的には、対象検出方法および装置、対象検出モデルのレーニング方法および装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラム製品に関する。
人工知能は、コンピュータに人間の何らかの思惟過程および知の行動(例えば、学習、推理、思考、計画など)をシミュレートさせるように研究する科目であり、ハードウェア面の技術もあれば、ソフトウェア面の技術もある。人工知能ハードウェア技術は一般的にセンサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能ソフトウェア技術は主にコンピュータ視覚技術、音声認識技術、自然言語処理技術および機械学習/深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの大きな方向を含む。
対象検出は、人工知能分野における画像処理タスクであり、画像に存在する目標対象を検出し、目標対象の画像における位置を標定し、目標対象が属する種別を確定することを指す。対象検出は一般的に深層学習技術を用いて実現される。すなわち、サンプル画像に基づいて深層学習モデルをトレーニングし、続いて、トレーニングされたモデルを使用して被測定画像に対象検出を行う。
この部分で説明される方法は、必ずしも以前に想定された方法又は採用された方法ではない。特に断りのない限り、この部分に記載されているいずれの方法は、この部分に含まれるだけで従来技術であると考えられるべきではない。同様に、特に断りのない限り、この部分に言及する問題は、いかなる従来技術において公認されたものとは考えられるべきではない。
本開示は、対象検出方法および装置、対象検出モデルのレーニング方法および装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラム製品を提供する。
本開示の一態様によれば、被測定画像を複数の画像ブロックに分割することと、前記複数の画像ブロックに基づいて、前記被測定画像の特徴表現を生成することと、前記被測定画像の複数の特徴マップを得るように、予め設定されたパラメータセットを用いて前記特徴表現をマッピングすることと、及び前記複数の特徴マップに基づいて、前記被測定画像における目標対象の位置と種別を確定することとを含む対象検出装置を提供する。
本開示の一態様によれば、対象検出モデルのレーニング方法を提供し、前記対象検出モデルは特徴抽出ネットワークと領域生成ネットワークを含み、前記方法は、第1サンプル画像と第2サンプル画像を取得し、前記第1サンプル画像と前記第2サンプル画像は目標種別に属する目標対象を含み、前記第1サンプル画像には前記目標対象の実際の位置と前記目標種別がマーキングされることと、前記第1サンプル画像の、前記第2サンプル画像に基づいて抽出された第1特徴を得るように、前記第1サンプル画像と前記第2サンプル画像を前記特徴抽出ネットワークに入力することと、前記第1サンプル画像における前記目標対象の予測位置と予測種別を取得するように、前記第1特徴を前記領域生成ネットワークに入力することと、前記実際の位置、目標種別、予測位置及び予測種別に基づいて、前記対象検出モデルの損失値を計算することと、および、前記損失値に基づいて、前記対象検出モデルのパラメータを調整することとを含む。
本開示の一態様によれば、被測定画像を複数の画像ブロックに分割するように構成される分割モジュールと、前記複数の画像ブロックに基づいて、前記被測定画像の特徴表現を生成するように構成される生成モジュールと、前記被測定画像の複数の特徴マップを得るように、予め設定されたパラメータセットを用いて前記特徴表現をマッピングするように構成されるマッピングモジュールと、前記複数の特徴マップに基づいて、前記被測定画像における目標対象の位置と種別を確定するように構成される確定モジュールとを含む対象検出装置を提供する。
本開示の一態様によれば、対象検出モデルのトレーニング装置を提供し、前記対象検出モデルは特徴抽出ネットワークと領域生成ネットワークとを含み、前記方法は、第1サンプル画像と第2サンプル画像を取得するように構成され、前記第1サンプル画像と前記第2サンプル画像は目標種別に属する目標対象を含み、前記第1サンプル画像には前記目標対象の実際の位置と前記目標種別がマーキングされる取得モジュールと、前記第1サンプル画像の、前記第2サンプル画像に基づいて抽出された第1特徴を得るように、前記第1サンプル画像と前記第2サンプル画像を前記特徴抽出ネットワークに入力するように構成される第1処理モジュールと、前記第1サンプル画像における前記目標対象の予測位置と予測種別を取得するように、前記第1特徴を前記領域生成ネットワークに入力するように構成される第2処理モジュールと、前記実際の位置、目標種別、予測位置及び予測種別に基づいて、前記対象検出モデルの損失値を計算するように構成される計算モジュールと、前記損失値に基づいて、前記対象検出モデルのパラメータを調整するように構成される調整モジュールとを含む。
本開示の一態様によれば、電子機器を提供し、前記電子機器は、少なくとも1つのプロセッサ、及び上記少なくとも1つのプロセッサに通信接続されたメモリを含み、このメモリには、上記の少なくとも1つのプロセッサによって実行可能な命令を記憶し、この命令は、上記の少なくとも1つのプロセッサによって実行されることにより、上記の少なくとも1つのプロセッサに上記いずれか1つの方法を実行させる電子機器。
本開示の一態様によれば、上記いずれか1つの方法をコンピュータに実行させるためのコンピュータ命令を記憶した非一時的コンピュータ可読記憶媒体を提供する。
本開示の一態様によれば、プロセッサによって実行されると、上記いずれか1つの方法を実現するコンピュータプログラムを提供する。
本開示の1つまたは複数の実施例によれば、正確な対象検出を実現することができる。
対象検出モデルは第1サンプル画像と第2サンプル画像によりトレーニングされて得られ、第1サンプル画像と第2サンプル画像は目標種別に属する目標対象を含む。対象検出モデルのトレーニング過程において、第2サンプル画像に基づいて第1サンプル画像の特徴(即ち第1特徴)を抽出し、第2サンプル画像に対象検出モデルの第1サンプル画像に対する特徴学習を誘導と強化させることができ、したがって、対象検出モデルの第1サンプル画像に対する対象検出効果を向上させることができる。目標種別のサンプル画像の数が少ない場合であっても、トレーニングされて得られた対象検出モデルは依然として目標対象に対する正確な検出を実現することができる。
理解すべきことは、この部分に説明される内容は、本開示の実施例の要点または重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではないことである。本開示の他の特徴は、以下の明細書によって理解されやすくなる。
図面は、実施例を例示的に示し、明細書の一部を構成し、明細書の文字による説明とともに、実施例の例示的な実施形態を説明するために使用される。図示の実施例は例示的目的のみであり、特許請求の範囲を限定するものではない。すべての図面において、同じ符号は類似しているが、必ずしも同じとは限らない要素を指す。
本開示の実施例による対象検出方法を示すフローチャートである。 本開示の実施例による対象検出モデルを示す構造図である。 本発明の実施例による対象検出モデルのトレーニング方法を示すフローチャートである。 本開示の実施例による第1画像と第2画像を示す概略図である。 本開示の実施例による第1画像と第2画像を示す概略図である。 本開示の実施例によるサンプル画像セットと局所画像セットを示す概略図である。 本開示の実施例による対象検出モデルを示す構成図である。 図6における特徴抽出ネットワークを示す構造図である。 本開示の実施例による対象検出装置を示す構造ブロック図である。 本開示の実施例による対象検出モデルのトレーニング装置を示す構造ブロック図である。 本開示の実施例を実現するために使用できる例示的な電子機器を示す構造ブロック図である。
以下、図面に合わせて本開示の例示的な実施形態を説明して、それに含まれる本開示の実施例における様々な詳細が理解を助けるためので、それらは単なる例示的なものと考えられるべきである。したがって、当業者であれば、本開示の範囲及び精神から逸脱することなく、本明細書で説明された実施形態に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、明瞭と簡潔のために、以下の説明では公知の機能および構造についての説明を省略している。
本開示では、特に明記しない限り、様々な要素を説明するための「第1」、「第2」などの用語の使用は、これらの要素の位置関係、タイミング関係、又は重要性関係を限定することを意図していない。このような用語は、ある要素を別の要素と区別するためにのみ使用される。いくつかの例では、第1要素と第2要素は、要素の同じ例を指すことができ、場合によっては、コンテキストの説明に基づいて、異なる例を指してもよい。
本開示の様々な例の説明で使用される用語は、特定の例を説明することのみを目的としており、限定することを意図していない。コンテキストが別途に明確に示されていない限り、特に要素の数を限定しないなら、要素は一つであってもよいし、複数であってもよい。また、本開示で使用される用語「及び/または」は、テーブルされた項目のいずれか及び可能な全ての組み合わせをカバーする。
本開示において、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供と公開などの処理は、すべて関連法律法規の規定に符合し、かつ公順良俗に違反しない。
対象検出は、人工知能分野における画像処理タスクであり、画像に存在する目標対象を検出し、目標対象の画像における位置を標定し、目標対象が属する種別を確定することを指す。対象検出は一般的に深層学習技術を用いて実現される。すなわち、サンプル画像に基づいて深層学習モデルをトレーニングし、続いて、トレーニングされたモデルを使用して被測定画像に対象検出を行う。
正確な対象検出を実現するために、大量のサンプル画像を用いてモデルをトレーニングする必要がある。ただし、大量のサンプル画像の収集及びマーキングは一般的に時間と労力を要する。したがって、サンプル画像の数が少ない(すなわち、「少ないサンプル」)場合であっても、モデルは良好な検出効果に達成することができる方法を提供することが望ましい。
関連技術では、少ないサンプルのモデルトレーニングタスクに対して、一般的に当初のサンプル画像に一定の処理(例えば、回転、並進、明るさ調整、ノイズ付加など)を行い、新たなサンプル画像を得ることで、サンプル画像セットを拡張する。ただし、新たに増加したサンプル画像は人間の目の視覚で大きな変化を示すだけで、変位/スケール/変形不変性を持つ深層学習ネットワークに対しては、拡張されたサンプル画像セットのトレーニング効果と元のサンプル画像セットのトレーニング効果との差異が大きくなく、対象検出の正確性は依然としてよくなく、ユーザの要求を満たすことは難しい。
そのため、本開示の実施例は対象検出方法と対象検出モデルのレーニング方法を提供し、少ないサンプルの場合に正確な対象検出を実現することができる。
以下、図面を参照して本開示の実施例について詳細に説明する。
図1は、本開示の実施例による対象検出方法100のフローチャートを示す。方法100は、例えば、クライアントデバイスで実行されてもよいし、サーバーで実行されてもよい。すなわち、方法100の各ステップの実行主体はクライアントデバイスであってもよいし、サーバーであってもよい。
図1に示すように、方法100は、
被測定画像を複数の画像ブロックに分割するステップ110と、
上述の複数の画像ブロックに基づいて、被測定画像の特徴表現を生成するステップ120と、
被測定画像の複数の特徴マップを得るように、予め設定されたパラメータセットを用いて上述の特徴表現をマッピングするステップ130と、
上述の複数の特徴マップに基づいて、被測定画像における目標対象の位置と種別を確定するステップ140とを含む。
本開示の実施例によれば、正確な対象検出を実現することができる。
以下、方法100の各ステップを詳細に説明する。
ステップ110において、被測定画像を複数の画像ブロックに分割する。
いくつかの実施例によれば、被測定画像を同じサイズで互いに重ならない複数の画像ブロックに分割することができる。例えば、被測定画像のサイズは224*224(画素)であり、画像ブロックのサイズを4*4と設置することができ、被測定画像は(224/4)*(224/4)=3136個の画像ブロックに分割されることができる。
ステップ120において、ステップ110で得られた複数の画像ブロックに基づいて、被測定画像の特徴表現を生成する。
いくつかの実施例によれば、ステップ120は、複数の画像ブロックのうちの各画像ブロックに対して、この画像ブロックの画素値に基づいて、この画像ブロックの第1ベクトル表現を確定することと、画像ブロックの第2ベクトル表現を生成するように、予め設定された変換行列を用いて第1ベクトル表現を変換することと、及び被測定画像の特徴表現を得るように、複数の画像ブロックのそれぞれの第2ベクトル表現を組み合わせることを更に含むことができる。
いくつかの実施例によれば、画像ブロックの第1ベクトル表現はこの画像ブロックにおける各チャンネルの画素値のスティッチングである。例えば、画像ブロックのサイズは4*4であり、かつR、G、Bの3つのチャネルを含み、この画像ブロックにおけるR、G、Bの3つのチャネルの各画素値をスティッチングすることができ、この画像ブロックの第1ベクトル表現を取得することができる。第1ベクトル表現は長さが4*4*3=48のベクトルであり、具体的には、1*48の行ベクトルであってよいし、48*1の列ベクトルであってよい。
画像ブロックの第1ベクトル表現を得た後、この画像ブロックの第2ベクトル表現を得るように、予め設定された変換行列を用いて第1ベクトル表現をマッピングすることができる。例えば、第1ベクトル表現は1*48の行ベクトルであり、この行ベクトルを48*96の変換行列に後乗算すると、1*96の第2ベクトル表現を得ることができる。変換行列における各要素の値は当業者によって予め設定されてもよい。
各画像ブロックの第2ベクトル表現を組み合わせることにより、被測定画像の特徴表現を得ることができる。例えば、サイズが224*224である被測定画像は56*56個の4*4の画像ブロックに分割され、各画像ブロックの第2ベクトル表現は1*96のベクトルであり、各画像ブロックの第2ベクトル表現を組み合わせることにより、得られた被測定画像の特徴表現は96個の56*56の特徴マップであってもよい。
ステップ110と120に基づいて、被測定画像の対象検出効率を向上させるように、被測定画像のダウンサンプリングを実現することができる。
ステップ130において、被測定画像の複数の特徴マップを得るように、予め設定されたパラメータセットを用いて被測定画像の特徴表現をマッピングする。
いくつかの実施例によれば、予め設定されたパラメータセットは少なくとも1つの行列および/または少なくとも1つの関数を含むことができる。これらの行列および/または関数を用いて被測定画像の特徴表現を演算することにより、被測定画像の複数の特徴マップを得ることができる。
ステップ140において、上述の複数の特徴マップに基づいて、被測定画像における目標対象の位置と種別を確定する。
いくつかの実施例によれば、特徴マップと目標対象の位置および種別との対応関係を予め設定しておき、三者の対応関係テーブルを得ることができる。続いて、被測定画像の複数の特徴マップに基づいて、テーブルを検索することにより被測定画像における目標対象の位置と種別を確定する。
別のいくつかの実施例によれば、1セットの予め設定されたパラメータに基づいて、被測定画像における目標対象の位置と種別を確定することもできる。1セットの予め設定されたパラメータは少なくとも1つの行列および/または少なくとも1つの関数を含むことができる。これらの行列および/または関数を用いて被測定画像の複数の特徴マップを演算することにより、被測定画像における目標対象の位置と種別を確定することができる。
いくつかの実施例によれば、方法100は対象検出モデルによって実現することができ、方法100中の各ステップは対象検出モデルにおける1つの処理モジュールに対応する。被測定画像を対象検出モデルに入力すれば、対象検出モデルによりが出力した被測定画像における目標対象の位置と種別を得ることができる。
対象検出モデルは、方法100が実行される前にレーニングされて得られることができる。いくつかの実施例によれば、対象検出モデルは以下の対象検出モデルのレーニング方法によって得ることができる。
図2は、本開示の実施例による対象検出モデル200の構造図を示す。図2に示すように、対象検出モデル200は分割モジュール210、生成モジュール220、マッピングモジュール230と確定モジュール240を含む。モジュール210~240は、それぞれ方法100中のステップ110~140を実行するために使用される。ここで、マッピングモジュール230は、例えばTransformerモデルであってもよいし、確定モジュール240は、例えばRPN(Region Proposal Network、領域提案ネットワーク)であってもよい。
本開示の実施例によれば、対象検出モデルのレーニング方法を更に提供し、この方法に基づいて、少ないサンプルの場合に正確な対象検出を実現することができる。
図3は本開示の実施例による、特徴抽出ネットワークと領域生成ネットワークを含む対象検出モデルのレーニング方法300のフローチャートを示す。方法300は、例えばサーバーで実行されてもよいし、クライアントデバイスで実行されてもよい。すなわち、方法300の各ステップの実行主体はサーバーであってもよいし、クライアントデバイスであってもよい。
図3に示すように、方法300は、
第1サンプル画像と第2サンプル画像を取得し、第1サンプル画像と第2サンプル画像は目標種別に属する目標対象を含み、第1サンプル画像には目標対象の実際の位置と目標種別がマーキングされるステップ310と、
第1サンプル画像の、第2サンプル画像に基づいて抽出された第1特徴を得るように、第1サンプル画像と第2サンプル画像を特徴抽出ネットワークに入力するステップ320と、
第1サンプル画像における目標対象の予測位置と予測種別を得るように、第1特徴を領域生成ネットワークに入力するステップ330と、
実際の位置、目標種別、予測位置及び予測種別に基づいて、対象検出モデルの損失値を計算するステップ340と、
損失値に基づいて、対象検出モデルのパラメータを調整するステップ350とを含む。
本開示の実施例によれば、対象検出モデルは第1サンプル画像と第2サンプル画像によりトレーニングされて得られ、第1サンプル画像と第2サンプル画像は目標種別に属する目標対象を含む。対象検出モデルのトレーニング過程において、第2サンプル画像に基づいて第1サンプル画像の特徴(即ち第1特徴)を抽出し、第2サンプル画像に対象検出モデルの第1サンプル画像に対する特徴学習を誘導と強化させることができ、したがって、対象検出モデルの第1サンプル画像に対する対象検出効果を向上させることができる。目標種別のサンプル画像の数が少ない場合であっても、トレーニングされて得られた対象検出モデルは依然として目標対象に対する正確な検出を実現することができる。
いくつかの実施例によれば、対象検出モデルはプレトレーニングされたモデルであってもよい。すなわち、ステップ310を実行する前に、上記の目標種別と異なるベース種別の画像データに基づいて、対象検出モデルをプレトレーニング(pre-training)することができる。かつ、ベース種別は複数あってもよい。したがって、大量のベース種別の画像データの上で対象検出モデルへのプレトレーニングを完了することができ、続いてステップ310~350に基づいて、プレトレーニングされた対象検出モデルを微調整(fine-tuning)し、対象検出モデルは目標種別の目標対象をさらに検出するようにし、ステップ310~350に示すようなトレーニング過程のトレーニング効率を向上させ、対象検出モデルに良好な汎化性能を持たせることができる。
ステップ310において、第1サンプル画像と第2サンプル画像を取得する。第1サンプル画像と第2サンプル画像はいずれも目標種別に属する目標対象を含み、かつ第1サンプル画像には目標対象の実際の位置と目標種別がマーキングされる。
説明すべきことは、方法300の各実施例において、目標対象とは一般的に目標種別に属する対象を指す。第1サンプル画像における目標対象と第2サンプル画像における目標対象は同じであってもよいし、異なっていてもよい。
なお、説明すべきことは、第1サンプル画像と第2サンプル画像は目標対象以外の他の種別の対象を含むこともできる。
図4Aは、本開示の実施例による第1サンプル画像410と第2サンプル画像420の概略図を示す。目標種別は、例えば「五角形」であってもよく、対応的に、任意の五角形形状である対象はいずれも目標対象である。図4Aに示すように、第1サンプル画像410は目標対象412を含み、第2サンプル画像420は目標対象422を含み、第1サンプル画像410には目標種別「五角形」(図4Aには図示せず)と目標対象412の実際の位置、すなわち目標対象412の外接矩形枠414がマーキングされる。第1サンプル画像410は目標対象412に加えて、2つの三角形である対象416と418(即ち種別が「三角形」である)を含む。第2サンプル画像420は目標対象422に加えて、1つの六角星形状である対象424(即ち種別が「六角星」である)を含む。
いくつかの実施例によれば、第2サンプル画像は目標対象を含み、且つそれのみを含み、他の種別の対象を含まず、したがって対象検出モデルをより指向的に誘導して目標対象の特徴を学習し、モデルの目標対象に対する検出精度を向上させることができる。
例えば、図4Bは、本開示の別の実施例による第1サンプル画像430と第2サンプル画像440の概略図を示す。目標種別は、例えば「五角形」であってもよく、対応的に、任意の五角形形状である対象はいずれも目標対象である。図4Bに示すように、第1サンプル画像430は目標対象432と他の種別の2つの対象を含み、かつ目標種別「五角形」(図4Bには図示せず)と目標対象432の実際の位置、すなわち目標対象432の外接矩形枠434がマーキングされる。第2サンプル画像420は目標対象442を含み、且つそれのみを含み、対象検出モデルをより指向的に誘導して目標対象の特徴を学習し、モデルの目標対象に対する検出精度を向上させることができる。
いくつかの実施例によれば、以下のステップに従って第1サンプル画像と第2サンプル画像を取得することができる。目標種別の複数のサンプル画像を取得し、ここでは、各サンプル画像は少なくとも目標対象を含み、複数のサンプル画像の各サンプル画像から目標対象を含む局所領域を切り出し、複数の局所画像を得て、ここでは、第1サンプル画像は複数のサンプル画像のうちのいずれかのサンプル画像であり、第2サンプル画像は複数の局所画像のうちのいずれかの局所画像である。
説明すべきことは、上述の実施例では、目標対象の外接矩形枠に沿ってサンプル画像を切り出し、したがって、切り出されて得られた局所画像には目標対象を含み、且つそれのみを含み、対象検出モデルの目標対象に対する特徴学習効果を向上させることができる。
図5は、本開示の実施例によるサンプル画像セットと局所画像セットの概略図を示す。図5に示すような実施例において、目標種別は「五角形」である。目標種別の5つのサンプル画像、すなわちサンプル画像510~550はサンプル画像セット500を構成する。サンプル画像510から目標対象512を含む局所領域514を切り出し、局所画像561を得る。サンプル画像520から目標対象522を含む局所領域524及び目標対象526を含む局所領域528を切り出し、局所画像562と局所画像563を得る。サンプル画像530から目標対象532を含む局所領域534を切り出し、局所画像564を得る。サンプル画像540から目標対象542を含む局所領域544を切り出し、局所画像565を得る。サンプル画像550から目標対象552を含む局所領域554を切り出し、局所画像566を得る。局所画像561~566は局所画像セット560を構成する。サンプル画像セット500のうちのいずれかのサンプル画像を第1サンプル画像とすることができ、及び局所画像セット560のうちのいずれかの局所画像を第2サンプル画像とすることができる。図5に示されるサンプル画像セット500と局所画像セット560に基づいて、5*6=30個(第1サンプル画像、第2サンプル画像)の画像ペアを得ることができる。
別のいくつかの実施例によれば、目標種別の複数のサンプル画像を直接サンプリングして、第1サンプル画像と第2サンプル画像を得ることができる。すなわち、第1サンプル画像と第2サンプル画像は、それぞれ目標種別の複数のサンプル画像のうちのいずれかのサンプル画像であってもよい。引き続き図5を例として、サンプル画像セット500のうちのいずれかのサンプル画像を第1サンプル画像とすることができ、及びサンプル画像セット500のうちのいずれかのサンプル画像を第2サンプル画像とすることができる。図5に示すようなサンプル画像セットに基づいて、5*5=25個(第1サンプル画像、第2サンプル画像)の画像ペアを得ることができる。
図6は、本開示の実施例による対象検出モデル600の構造図を示す。図6に示すように、対象検出モデル600は特徴抽出ネットワーク610と領域生成ネットワーク620を含む。特徴抽出ネットワーク610は、例えば、1つまたは複数の変換モジュール(Transformer)を含むことができ、領域生成ネットワーク620は、例えばRPN、Faster R-CNNなどのネットワーク構造として実現することができる。
ステップ320において、第1サンプル画像と第2サンプル画像は特徴抽出ネットワーク610に入力される。特徴抽出ネットワーク610は、第2サンプル画像に基づいて、第1サンプル画像を特徴抽出し、第1サンプル画像の第1特徴を得る。
ステップ330において、第1サンプル画像の第1特徴は領域生成ネットワーク620に入力される。領域生成ネットワーク620は第1特徴を処理し、第1サンプル画像における目標対象の予測位置と予測種別を得て出力する。
いくつかの実施例によれば、特徴抽出ネットワークは第1サンプル画像の第1特徴を抽出するための第1抽出ブランチと第2サンプル画像の第2特徴を抽出するための第2抽出ブランチを含み、第1抽出ブランチは少なくとも1つの第1注意力モジュールを含み、第2抽出ブランチは少なくとも1つの第2注意力モジュールを含み、上述の少なくとも1つの第1注意力モジュールと上述の少なくとも1つの第2注意力モジュールとは1対1に対応し、各第1注意力モジュールはそれに対応する第2注意力モジュールとパラメータを共有する。いくつかの実施例によれば、第1抽出ブランチと第2抽出ブランチは構造が全く同じでパラメータを共有することができる。
いくつかの実施例によれば、第1注意力モジュールと第2注意力モジュールは自己注意力(Self-Attention)モジュールであってもよい。自己注意力モジュールのパラメータは第1変換行列W、第2変換行列W及び第3変換行列Wを含む。自己注意力モジュールによって実行されるデータ処理過程は以下のとおりである。
まず、入力データXを取得し、それぞれ第1変換行列W、第2変換行列W及び第3変換行列Wを用いてXを線形変換し、クエリ行列Query(略称Q、Q=X・W)、キー行列Key(略称K、K=X・W)及び特徴値行列Value(略称V、V=X・W)を得る。
次いで、以下の式に従って出力データを得る。
Figure 2022185144000002
式(1)において、Attention(Q,K,V)は自己注意力モジュールの出力であり、dは行列Kの行数または列数である。
本開示の実施例では、前記少なくとも1つの第2注意力モジュールのうちの各第2注意力モジュールは、この第2注意力モジュールに入力された第2入力データを処理し、第2入力データの特徴値行列(V)を出力するように構成される。
前記少なくとも1つの第1注意力モジュールのうちの各第1注意力モジュールは、対応する第2注意力モジュールが出力した特徴値行列(V)を取得し、この第1入力データのクエリ行列(Q)とキー行列(K)を得るように、この第1注意力モジュールに入力された第1入力データを処理し、及びクエリ行列(Q)、キー行列(K)及び特徴値行列(V)に基づいて、この第1注意力モジュールの第1出力データを確定して出力するように構成される。
以下、図7を参照して第1注意力モジュールと第2注意力モジュールのデータ処理過程を説明する。
図7は図6における特徴抽出ネットワーク610の例示的な構造図を示す。図7に示すように、特徴抽出ネットワークは第1抽出ブランチ610Aと第2抽出ブランチ610Bを含む。第1抽出ブランチ610Aは第1サンプル画像の第1特徴を抽出するために用いられ、第2抽出ブランチ610Bは第2サンプル画像の第2特徴を抽出するために用いられる。
第1抽出ブランチ610Aは第2抽出ブランチ610Bの構造と同じであり、両者はそれぞれ1つのダウンサンプリングモジュール(611A/611B)と1つの変換モジュール(616A/616B)を含み、かつ、変換モジュール(616A/616B)は、正規化モジュール(612A/612B)、注意力モジュール(613A/613B)、正規化モジュール(614A/614B)と多層感知モジュール(615A/615B)をさらに含む。
第1抽出ブランチ610Aは第2抽出ブランチ610Bとパラメータを共有する。すなわち、ダウンサンプリングモジュール611Aとダウンサンプリングモジュール611Bのパラメータ値は同じであり、変換モジュール616Aと変換モジュール616Bのパラメータ値は同じである。更に、正規化モジュール612Aと正規化モジュール612Bのパラメータ値は同じであり、第1注意力モジュール613Aと第2注意力モジュール613Bのパラメータ値は同じであり、以下同様である。
ダウンサンプリングモジュール611A、611Bはそれぞれ第1サンプル画像、第2サンプル画像を複数の画像ブロックに分割し、複数の画像ブロックを処理(例えば、上記のステップ120の処理を行い、各画像ブロックの第1ベクトル表現を確定し、第1ベクトル表現を線形変換することにより第2ベクトル表現を得て、及び画像ブロックのベクトル表現を組み合わせる)するように用いられ、第1サンプル画像と第2サンプル画像の特徴表現を生成する。
正規化モジュール612A、612B、614A、614Bは、例えばLN(Layer Normalization、層正規化)処理層である。
第1注意力モジュール613Aと第2注意力モジュール613Bは、例えばウィンドウマルチヘッド自己注意(Window Multi-head Self-Attention、W-MSA)モジュール、シフトウィンドマルチヘッド自己注意(Shifted-Window Multi-head Self-Attention、SW-MSA)モジュールなどであってもよい。
図7に示す実施例では、第1注意力モジュール613Aと第2注意力モジュール613Bは同じ変換行列W、W、Wを有する。
第2注意力モジュール613Bは変換行列Wを用いて第2入力データXを変換して、特徴値行列V(V=X・W)を得て、特徴値行列Vを第1注意力モジュール613Aに出力する。
第1注意力モジュール613Aは特徴値行列Vを取得する。かつ、変換行列を用いて第1入力データXを変換し、クエリ行列Q(Q=X・W)とキー行列K(K=X・W)を得て、続いて次の式(2)に従って、第1出力データOを算出する。
Figure 2022185144000003
式(2)において、dk1は行列Kの行数または列数である。
本開示の実施例では、第1注意力モジュール613Aの特徴値行列を第2注意力モジュール613Bにより算出された特徴値行列Vに置き換えることによって、第2サンプル画像の特徴を第1サンプル画像に導入することができ、したがって第1サンプル画像の特徴学習効果を向上させることができる。
多層感知モジュール615A、615Bは、例えば複数の完全接続層で構成された多層パーセプトロン(Multi-Layer Perceptron、MLP)であってもよい。
説明すべきことは、図7に示すような特徴抽出ネットワークの構造は一例に過ぎない。実践において、特徴抽出ネットワークは他の構造を用いてもよく、例えば、特徴抽出ネットワークは複数の順に接続されたダウンサンプリングモジュールと変換モジュールを含むことができる。本開示は、特徴抽出ネットワークの具体的な構造を限定しない。
引き続き図3を参照する。ステップ330によって第1サンプル画像における目標対象の予測位置と予測種別を取得した後、ステップ340を実行することができ、第1サンプル画像における目標対象の実際の位置、属する目標種別、予測位置及び予測種別に基づいて、対象検出モデルの損失値を計算する。説明すべきことは、本開示は、損失値の計算式(即ち損失関数)を限定しない。いくつかの実施例において、損失関数を目標種別と予測種別とのクロスエントロピー損失と、実際の位置と予測位置との重なり率損失(GIoU)の合計として設定することができる。
ステップ350において、例えば逆方向伝播アルゴリズムにより対象検出モデルのパラメータを調整することができる。
上述のステップ310~350は、対象検出モデルの損失値が予め設定された閾値より小さい時に対象検出モデルのトレーニングを完了するまで、複数回に循環実行することができる。
いくつかの実施例によれば、対象検出モデルの損失値が予め設定された閾値より小さいと確定することに応答して、特徴抽出ネットワークにおける第2抽出ブランチを削除する。すなわち、対象検出モデルのトレーニングを完了した後、第2抽出ブランチを削除する。第2抽出ブランチは対象検出モデルのトレーニング段階でのみ機能し、対象検出モデルの応用段階では機能しない。第2抽出ブランチを削除することにより、モデル構造を簡素化することができ、したがって対象検出モデルが占める記憶空間を削減することができる。
方法300によってトレーニングされて得られる対象検出モデルは、被測定画像における目標種別に属する対象に用いることができる。具体的には、被測定画像を入対象検出モデル(具体的には、入力対象検出モデルの第1抽出ブランチ)に入力することができ、対象検出モデルは被測定画像における目標対象の位置と種別を出力する。
本開示の実施例によれば、対象検出装置を更に提供する。図8は、本開示の実施例による対象検出装置800の構造ブロック図を示す。図8に示すように、装置800は、
被測定画像を複数の画像ブロックに分割するように構成される分割モジュール810と、
前記複数の画像ブロックに基づいて、前記被測定画像の特徴表現を生成するように構成される生成モジュール820と、
前記被測定画像の複数の特徴マップを得るように、予め設定されたパラメータセットを用いて前記特徴表現をマッピングするように構成されるマッピングモジュール830と、
前記複数の特徴マップに基づいて、前記被測定画像における目標対象の位置と種別を確定するように構成される確定モジュール840とを含む。
本開示の実施例によれば、正確な対象検出を実現することができる。
本開示の実施例によれば、対象検出モデルのトレーニング装置を更に提供する。対象検出モデルは特徴抽出ネットワークと領域生成ネットワークを含む。図9は、本開示の実施例による対象検出モデルのトレーニング装置900の構造框図を示す。図9に示すように、装置900は、
第1サンプル画像と第2サンプル画像を取得するように構成され、前記第1サンプル画像と前記第2サンプル画像は目標種別に属する目標対象を含み、前記第1サンプル画像には前記目標対象の実際の位置と前記目標種別がマーキングされる取得モジュール910と、
前記第1サンプル画像の、前記第2サンプル画像に基づいて抽出された第1特徴を得るように、前記第1サンプル画像と前記第2サンプル画像を前記特徴抽出ネットワークに入力するように構成される第1処理モジュール920と、
前記第1サンプル画像における前記目標対象の予測位置と予測種別を取得するように、前記第1特徴を前記領域生成ネットワークに入力するように構成される第2処理モジュール930と、
前記実際の位置、目標種別、予測位置及び予測種別に基づいて、前記対象検出モデルの損失値を計算するように構成される計算モジュール940と、
前記損失値に基づいて、前記対象検出モデルのパラメータを調整するように構成される調整モジュール950とを含む。
本開示の実施例によれば、対象検出モデルは第1サンプル画像と第2サンプル画像によりトレーニングされて得られ、第1サンプル画像と第2サンプル画像は目標種別に属する目標対象を含む。対象検出モデルのトレーニング過程において、第2サンプル画像に基づいて第1サンプル画像の特徴(即ち第1特徴)を抽出し、第2サンプル画像に対象検出モデルの第1サンプル画像に対する特徴学習を誘導と強化させることができ、したがって、対象検出モデルの第1サンプル画像に対する対象検出効果を向上させることができる。目標種別のサンプル画像の数が少ない場合であっても、トレーニングされて得られた対象検出モデルは依然として目標対象に対する正確な検出を実現することができる。
理解すべきことは、図8に示される装置800の各モジュールまたはユニットは、図1を参照して説明された方法100中の各ステップに対応することができ、図9に示される装置900の各モジュールは、図3を参照して説明された方法300中の各ステップに対応することができる。したがって、上記の方法100に対して説明した操作、特徴及び利点は、装置800とそれに含まれるモジュール及びユニットに同様に適用され、上記の方法300に対して説明した操作、特徴と利点は、装置900とそれに含まれるモジュールに同様に適用される。簡潔のために、いくつかの操作、特徴及び利点はここでは説明を省略する。
特定の機能は上記で特定のモジュールを参照して論じられているが、本明細書で論じた各モジュールの機能は複数のモジュールに分割されてもよく、および/または複数のモジュールの少なくともいくつかの機能は単一のモジュールに組み合わせてもよいことに留意されたい。例えば、上述の分割モジュール810と生成モジュール820は、いくつかの実施例において単一のモジュールに組み合わせることができる。
本明細書では、ソフトウェアハードウェア要素またはプログラムモジュールの一般的なコンテキストで様々な技術を説明することができることも理解されたい。上記の図8、図9で説明された各モジュールに関しては、ハードウェアにおいて、またはソフトウェアおよび/またはファームウェアと組み合わされたハードウェアにおいて実装することができる。例えば、これらのモジュールは、1つまたは複数のプロセッサにおいて実行され、コンピュータ可読記憶媒体に記憶されるように構成されたコンピュータプログラムコード/命令として実装することができる。交換可能に、これらのモジュールはハードウェアロジック/回路として実装することができる。例えば、いくつかの実施例において、分割モジュール810、生成モジュール820、マッピングモジュール830、確定モジュール840、取得モジュール910、第1処理モジュール920、第2処理モジュール930、計算モジュール940、調整モジュール950のうちの1つまたは複数は、システムオンチップ(System on Chip、SoC)に一緒に実装されることができる。SoCは、集積回路チップ(例えば、プロセッサ(例えば、中央処理ユニット(Central Processing Unit、CPU)、マイクロコントローラ、マイクロプロセッサ、デジタル信号プロセッサ(Digital Signal Processor、DSP)などを含む)、メモリ、1つまたは複数の通信インターフェース、および/または他の回路中の1つまたは複数のコンポーネント)を含むことができ、オプションで受信したプログラムコードの実行、および/または埋め込みファームウェアを含み機能を実行することができる。
本開示の実施例によれば、電子機器、可読記憶媒体およびコンピュータプログラム製品をさらに提供する。
図10を参照して、ここでは、本開示の様々な態様に適用可能なハードウェア装置の一例である、本開示のサーバ又はクライアントとして利用可能な電子機器600の構造ブロック図について説明する。電子機器は、様々な形態のデジタル電子コンピュータ機器、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、個人用デジタル補助装置、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを指すことを意図している。電子機器は更に、様々な形態の移動装置、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、着用可能な装置とその他の類似する計算装置を表すことができる。本明細書に示される部品、これらの接続関係およびこれらの機能は例示的なものに過ぎず、本明細書に説明したおよび/又は請求した本開示の実現を制限することを意図するものではない。
図10に示すように、機器1000は、計算ユニット1001を含み、それはリードオンリーメモリ(ROM)1002に記憶されるコンピュータプログラムまた記憶ユニット1008からランダムアクセスメモリ(RAM)1003にロードされるコンピュータプログラムによって、種々の適当な操作と処理を実行することができる。RAM1003において、更に装置1000を操作するために必要な様々なプログラムとデータを記憶することができる。計算ユニット1001、ROM1002およびRAM1003はバス1004によって互いに接続される。入力/出力(I/O)インターフェース1005もバス1004に接続される。
デバイス1000における複数の部品はI/Oインターフェース1005に接続され、入力ユニット1006、出力ユニット1007、記憶ユニット1008及び通信ユニット1009を含む。入力ユニット1006は、装置1000に情報を入力することが可能ないずれかのタイプの装置であってもよく、入力ユニット1006は、入力された数字又は文字情報が受信でき、計算装置のユーザ設定及び/又は機能制御に関するキー信号入力を生成することができ、マウス、キーボード、タッチスクリーン、トラックボード、トラックボール、操作レバー、マイク及び/又はリモコンを含むことができるが、これらに限定されない。出力ユニット1007は、情報を提示することが可能ないずれかのタイプの装置であってもよく、ディスプレイ、スピーカ、映像/オーディオ出力端末、バイブレータ、及び/又はプリンタを含んでもよいが、これらに限定されない。記憶ユニット1008は磁気ディスク、光ディスクを含むことができるが、これらに限定されない。通信ユニット1009は、装置1000が例えば、インターネットであるコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他の装置と情報/データを交換することを可能にし、モデム、ネットワークカード、赤外線通信装置、無線通信送受信機、及び/又はチップセット、例えば、ブルートゥース(登録商標)装置、802.11装置、Wi-Fi装置、WiMAX装置、セルラー通信装置及び/又は類似物を含んでもよいが、これらに限定されない。
計算ユニット1001は処理およびコンピューティング能力を有する様々な汎用および/または専用の処理コンポーネントであってもよい。計算ユニット1001の例には、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、およびいずれかの適当なプロセッサ、コントローラ、マイクロコントローラなどが含まれるがこれらに限定されないことである。計算ユニット1001は上記内容で説明した各方法と処理、例えば、方法100または方法300を実行する。例えば、いくつかの実施例において、方法100または方法300は記憶ユニット1008のような機械可読媒体に有形に組み込まれたコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施例において、コンピュータプログラムの部分又は全てはROM1002および/又は通信ユニット1009を経由して装置1000にロードおよび/又はインストールされてよい。コンピュータプログラムがRAM 1003にロードされて計算ユニット1001によって実行されると、上記で説明した方法100または方法300の1つまたは複数のステップを実行することできる。代替的に、他の実施形態において、コンピューティングユニット1001は、他のいずれかの適当な方法で(例えば、ファームウェアを用いて)、方法100または方法300を実行するように構成される。
本明細書で上述したシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、複雑なプログラマブル論理デバイス(CPLD)、ソフトウェア・ハードウェア、ファームウェア、ソフトウェア、および/またはこれらの組み合わせにおいて実装することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムに実施され、この1つ又は複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行しおよび/又は解釈してもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、少なくとも1つの出力装置からデータと命令を受信し、データと命令をこの記憶システム、この少なくとも1つの入力装置、この少なくとも1つの出力装置に送信してよいこと、を含んでもよい。
本開示の方法を実施するプログラムコードは1つ又は複数のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、よってプログラムコードはプロセッサ又はコントローラにより実行される時にフローチャートおよび/又はブロック図に規定の機能/操作を実施する。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行し且つ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。
本開示の文脈において、機械可読媒体は有形の媒体であってもよく、命令実行システム、装置又はデバイスに使用される又は命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線的、又は半導体システム、装置又はデバイス、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、又は上記内容のいかなる適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)監視モニタ)、およびキーボードとポインティング装置(例えば、マウスやトラックボール)を備え、ユーザはこのキーボードとこのポインティング装置を介してコンピュータに入力してよい。その他の種類の装置は更に、ユーザとのインタラクティブを提供するためのものであってもよい。例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、いかなる形態(音入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信してよい。
ここで述べたシステムや技術は、バックステージ部材を含む計算システム(例えば、データサーバとして)や、ミドルウェア部材を含む計算システム(例えば、アプリケーションサーバ)や、フロントエンド部材を含む計算システム(例えば、グラフィカルユーザインタフェースやウェブブラウザを有するユーザコンピュータ、ユーザが、そのグラフィカルユーザインタフェースやウェブブラウザを通じて、それらのシステムや技術の実施形態とのインタラクティブを実現できる)、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムには実施されてもよい。システムの部材は、いずれかの形式や媒体のデジタルデータ通信(例えば、通信ネットワーク)により相互に接続されてもよい。通信ネットワークの一例は、ローカルネットワーク(LAN)、広域ネットワーク(WAN)とインターネットを含む。
コンピュータシステムは、クライアントとサーバを含んでもよい。クライアントとサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクションを行う。互にクライアント-サーバという関係を有するコンピュータプログラムを対応するコンピュータで運転することによってクライアントとサーバの関係を生成する。サーバーは、クラウドサーバであってもよく、分散型システムのサーバでも、またはブロックチェーンと組み合わされサーバであってもよい。
理解すべきことは、以上に示した様々な形態のフローを用いて、改めて順位付け、ことを増加又は削除することができる。例えば、本開示に記載された各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行させてもよいし、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されないことである。
本開示の実施形態又は例は図面を参照して説明されたが、上記の方法、システム、及び装置は単なる例示的な実施形態又は例であり、本開示の範囲はこれらの実施形態又は例によって制限されるものではなく、授権後の特許請求の範囲及びその均等範囲のみによって限定されることを理解されたい。実施例又は例の様々な要素は省略されてもよく、又はそれらの均等要素によって代替されてもよい。また、各ステップは、本開示で説明した順序とは異なる順序で実行されてもよい。更に、実施形態又は例の様々な要素は、様々な方法で組み合わせられてもよい。重要なのは、技術の進化に伴い、ここで説明される多くの要素は、本開示の後に現れる同等の要素に置き換えることができるということである。

Claims (15)

  1. 対象検出方法であって、
    被測定画像を複数の画像ブロックに分割することと、
    前記複数の画像ブロックに基づいて、前記被測定画像の特徴表現を生成することと、
    前記被測定画像の複数の特徴マップを得るように、予め設定されたパラメータセットを用いて前記特徴表現をマッピングすることと、
    前記複数の特徴マップに基づいて、前記被測定画像における目標対象の位置と種別を確定することとを含む対象検出方法。
  2. 前記の前記複数の画像ブロックに基づいて、前記被測定画像の特徴表現を生成することは、
    前記複数の画像ブロックのうちの各画像ブロックに対して、
    前記画像ブロックの画素値に基づいて、前記画像ブロックの第1ベクトル表現を確定することと、
    前記画像ブロックの第2ベクトル表現を生成するように、予め設定された変換行列を用いて前記第1ベクトル表現を変換することと、
    前記被測定画像の特徴表現を得るように、前記複数の画像ブロックのそれぞれの第2ベクトル表現を組み合わせることとを含む請求項1に記載の方法。
  3. 前記複数の画像ブロックのサイズが同じであり、且つ互いに重ならず、
    前記画像ブロックの第1ベクトル表現はこの画像ブロックにおける各チャンネルの画素値のスティッチングである請求項2に記載の方法。
  4. 対象検出モデルのレーニング方法であって、前記対象検出モデルは特徴抽出ネットワークと領域生成ネットワークを含み、前記方法は、
    第1サンプル画像と第2サンプル画像を取得し、前記第1サンプル画像と前記第2サンプル画像は目標種別に属する目標対象を含み、前記第1サンプル画像には前記目標対象の実際の位置と前記目標種別がマーキングされることと、
    前記第1サンプル画像の、前記第2サンプル画像に基づいて抽出された第1特徴を得るように、前記第1サンプル画像と前記第2サンプル画像を前記特徴抽出ネットワークに入力することと、
    前記第1サンプル画像における前記目標対象の予測位置と予測種別を取得するように、前記第1特徴を前記領域生成ネットワークに入力することと、
    前記実際の位置、目標種別、予測位置及び予測種別に基づいて、前記対象検出モデルの損失値を計算することと、
    前記損失値に基づいて、前記対象検出モデルのパラメータを調整することとを含む対象検出モデルのレーニング方法。
  5. 前記第2サンプル画像は前記目標対象を含み、且つそれのみを含む請求項4に記載の方法。
  6. 前記第1サンプル画像と第2サンプル画像を取得することは、
    前記目標種別の複数のサンプル画像を取得し、各サンプル画像は少なくとも前記目標対象を含むことと、
    前記複数のサンプル画像の各サンプル画像から前記目標対象を含む局所領域を切り出し、複数の局所画像を得て、
    前記第1サンプル画像は前記複数のサンプル画像のうちのいずれかのサンプル画像であり、前記第2サンプル画像は前記複数の局所画像のうちのいずれかの局所画像であることとを含む請求項4に記載の方法。
  7. 前記第1サンプル画像と前記第2サンプル画像は、それぞれ前記目標種別の複数のサンプル画像のうちのいずれかのサンプル画像である請求項4に記載の方法。
  8. 前記第1サンプル画像と前記第2サンプル画像を取得する前に、
    前記目標種別と異なるベース種別の画像データに基づいて、前記対象検出モデルをプレトレーニングすることをさらに含む請求項4に記載の方法。
  9. 前記特徴抽出ネットワークは前記第1特徴を抽出するための第1抽出ブランチと前記第2サンプル画像の第2特徴を抽出するための第2抽出ブランチを含み、前記第1抽出ブランチは少なくとも1つの第1注意力モジュールを含み、前記第2抽出ブランチは少なくとも1つの第2注意力モジュールを含み、前記少なくとも1つの第1注意力モジュールと前記少なくとも1つの第2注意力モジュールとは1対1に対応し、各第1注意力モジュールはそれに対応する第2注意力モジュールとパラメータを共有し、
    前記少なくとも1つの第2注意力モジュールのうちの各第2注意力モジュールは、前記第2注意力モジュールに入力された第2入力データを処理し、前記第2入力データの特徴値行列を出力するように構成され、
    前記少なくとも1つの第1注意力モジュールのうちの各第1注意力モジュールは、
    対応する第2注意力モジュールが出力した特徴値行列を取得し、
    前記第1入力データのクエリ行列とキー行列を得るように、この第1注意力モジュールに入力された第1入力データを処理し、
    前記クエリ行列、前記キー行列及び前記特徴値行列に基づいて、この第1注意力モジュールの第1出力データを確定して出力するように構成される請求項4に記載の方法。
  10. 前記損失値が予め設定された閾値より小さいと確定することに応答して、前記第2抽出ブランチを削除することとをさらに含む請求項9に記載の方法。
  11. 対象検出装置であって、
    被測定画像を複数の画像ブロックに分割するように構成される分割モジュールと、
    前記複数の画像ブロックに基づいて、前記被測定画像の特徴表現を生成するように構成される生成モジュールと、
    前記被測定画像の複数の特徴マップを得るように、予め設定されたパラメータセットを用いて前記特徴表現をマッピングするように構成されるマッピングモジュールと、
    前記複数の特徴マップに基づいて、前記被測定画像における目標対象の位置と種別を確定するように構成される確定モジュールとを含む対象検出装置。
  12. 対象検出モデルのトレーニング装置であって、前記対象検出モデルは特徴抽出ネットワークと領域生成ネットワークを含み、前記方法は、
    第1サンプル画像と第2サンプル画像を取得するように構成され、前記第1サンプル画像と前記第2サンプル画像は目標種別に属する目標対象を含み、前記第1サンプル画像には前記目標対象の実際の位置と前記目標種別がマーキングされる取得モジュールと、
    前記第1サンプル画像の、前記第2サンプル画像に基づいて抽出された第1特徴を得るように、前記第1サンプル画像と前記第2サンプル画像を前記特徴抽出ネットワークに入力するように構成される第1処理モジュールと、
    前記第1サンプル画像における前記目標対象の予測位置と予測種別を取得するように、前記第1特徴を前記領域生成ネットワークに入力するように構成される第2処理モジュールと、
    前記実際の位置、目標種別、予測位置及び予測種別に基づいて、前記対象検出モデルの損失値を計算するように構成される計算モジュールと、
    前記損失値に基づいて、前記対象検出モデルのパラメータを調整するように構成される調整モジュールとを含む対象検出モデルのトレーニング装置。
  13. 電子機器であって、
    少なくとも1つのプロセッサ、
    前記少なくとも1つのプロセッサに通信接続されたメモリを含み、
    前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記命令は前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに請求項1~10のいずれか一項に記載の方法を実行させる電子機器。
  14. コンピュータに請求項1~10のいずれか一項に記載の方法を実行させるためのコンピュータ命令が記憶される非一時的コンピュータ可読記憶媒体。
  15. プロセッサによって実行される時に、請求項1~10のいずれか一項に記載の方法を実現するコンピュータプログラム。
JP2022165371A 2021-10-29 2022-10-14 対象検出方法、対象検出モデルのレーニング方法および装置 Pending JP2022185144A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111271219.1 2021-10-29
CN202111271219.1A CN113963148B (zh) 2021-10-29 2021-10-29 对象检测方法、对象检测模型的训练方法及装置

Publications (1)

Publication Number Publication Date
JP2022185144A true JP2022185144A (ja) 2022-12-13

Family

ID=79468255

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022165371A Pending JP2022185144A (ja) 2021-10-29 2022-10-14 対象検出方法、対象検出モデルのレーニング方法および装置

Country Status (4)

Country Link
US (1) US20230066021A1 (ja)
EP (1) EP4123594A3 (ja)
JP (1) JP2022185144A (ja)
CN (1) CN113963148B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116188875A (zh) * 2023-03-29 2023-05-30 北京百度网讯科技有限公司 图像分类方法、装置、电子设备、介质和产品

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114511757A (zh) * 2022-01-27 2022-05-17 北京百度网讯科技有限公司 用于训练图像检测模型的方法和装置
CN115908498B (zh) * 2022-12-27 2024-01-02 清华大学 一种基于类别最优匹配的多目标跟踪方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10878576B2 (en) * 2018-02-14 2020-12-29 Elekta, Inc. Atlas-based segmentation using deep-learning
CN111275660B (zh) * 2018-12-05 2024-04-30 合肥欣奕华智能机器股份有限公司 一种平板显示器缺陷检测方法及装置
WO2021087985A1 (zh) * 2019-11-08 2021-05-14 深圳市欢太科技有限公司 模型训练方法、装置、存储介质及电子设备
CN112966742A (zh) * 2021-03-05 2021-06-15 北京百度网讯科技有限公司 模型训练方法、目标检测方法、装置和电子设备
CN113011309A (zh) * 2021-03-15 2021-06-22 北京百度网讯科技有限公司 图像识别方法、装置、设备、介质及程序产品
CN113449586A (zh) * 2021-04-12 2021-09-28 北京市威富安防科技有限公司 目标检测方法、装置、计算机设备和存储介质
CN113378696A (zh) * 2021-06-08 2021-09-10 北京百度网讯科技有限公司 图像处理方法、装置、设备及存储介质
CN113378760A (zh) * 2021-06-25 2021-09-10 北京百度网讯科技有限公司 训练目标检测模型和检测目标的方法及装置
CN113436105A (zh) * 2021-06-30 2021-09-24 北京百度网讯科技有限公司 模型训练和图像优化方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116188875A (zh) * 2023-03-29 2023-05-30 北京百度网讯科技有限公司 图像分类方法、装置、电子设备、介质和产品
CN116188875B (zh) * 2023-03-29 2024-03-01 北京百度网讯科技有限公司 图像分类方法、装置、电子设备、介质和产品

Also Published As

Publication number Publication date
CN113963148A (zh) 2022-01-21
EP4123594A3 (en) 2023-04-19
CN113963148B (zh) 2023-08-08
US20230066021A1 (en) 2023-03-02
EP4123594A2 (en) 2023-01-25

Similar Documents

Publication Publication Date Title
US10885365B2 (en) Method and apparatus for detecting object keypoint, and electronic device
US20220147822A1 (en) Training method and apparatus for target detection model, device and storage medium
US20210209775A1 (en) Image Processing Method and Apparatus, and Computer Readable Storage Medium
JP2022185144A (ja) 対象検出方法、対象検出モデルのレーニング方法および装置
US20230206525A1 (en) Image segmentation using text embedding
KR20210156228A (ko) 광학 문자 인식 방법, 장치, 전자기기 및 기록매체
US11810319B2 (en) Image detection method, device, storage medium and computer program product
EP3955216A2 (en) Method and apparatus for recognizing image, electronic device and storage medium
CN115861462B (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
CN113378712B (zh) 物体检测模型的训练方法、图像检测方法及其装置
WO2022227770A1 (zh) 目标对象检测模型的训练方法、目标对象检测方法和设备
US20230154163A1 (en) Method and electronic device for recognizing category of image, and storage medium
CN113947188A (zh) 目标检测网络的训练方法和车辆检测方法
JP2023527615A (ja) 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム
CN116596916A (zh) 缺陷检测模型的训练和缺陷检测方法及其装置
CN112580666A (zh) 图像特征的提取方法、训练方法、装置、电子设备及介质
US20230245429A1 (en) Method and apparatus for training lane line detection model, electronic device and storage medium
CN114120454A (zh) 活体检测模型的训练方法、装置、电子设备及存储介质
CN113592932A (zh) 深度补全网络的训练方法、装置、电子设备及存储介质
CN114972910B (zh) 图文识别模型的训练方法、装置、电子设备及存储介质
KR20230133808A (ko) Roi 검출 모델 훈련 방법, 검출 방법, 장치, 설비 및 매체
CN114220163B (zh) 人体姿态估计方法、装置、电子设备及存储介质
CN112861940A (zh) 双目视差估计方法、模型训练方法以及相关设备
CN113177545B (zh) 目标物体的检测方法、装置、电子设备和存储介质
US20230122373A1 (en) Method for training depth estimation model, electronic device, and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221014

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240111