JP2022535473A - ターゲット検出、インテリジェント走行方法、装置、機器及び記憶媒体 - Google Patents
ターゲット検出、インテリジェント走行方法、装置、機器及び記憶媒体 Download PDFInfo
- Publication number
- JP2022535473A JP2022535473A JP2021539414A JP2021539414A JP2022535473A JP 2022535473 A JP2022535473 A JP 2022535473A JP 2021539414 A JP2021539414 A JP 2021539414A JP 2021539414 A JP2021539414 A JP 2021539414A JP 2022535473 A JP2022535473 A JP 2022535473A
- Authority
- JP
- Japan
- Prior art keywords
- image
- feature
- map
- similarity
- maps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 91
- 238000000034 method Methods 0.000 title claims abstract description 88
- 238000000605 extraction Methods 0.000 claims abstract description 77
- 238000012360 testing method Methods 0.000 claims description 82
- 239000013598 vector Substances 0.000 claims description 47
- 238000004364 calculation method Methods 0.000 claims description 32
- 238000013528 artificial neural network Methods 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 20
- 230000009466 transformation Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 12
- 238000000844 transformation Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000009877 rendering Methods 0.000 abstract 1
- 238000005070 sampling Methods 0.000 description 60
- 230000008569 process Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 19
- 230000011218 segmentation Effects 0.000 description 19
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本願は、ターゲット検出、インテリジェント走行方法、装置、機器及び記憶媒体を提供する。該ターゲット検出方法は、第1の画像及び第2の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第1の特徴マップ及び複数の異なるスケールの第2の特徴マップを取得するステップと、複数の異なるスケールの第1の特徴マップと、前記第1の画像に含まれるクエリ対象のターゲットをマーキングした結果である前記第1の画像のタグと、対応するスケールの前記第2の特徴マップとに基づいて、前記第2の画像におけるクエリ対象のターゲットを決定するステップと、を含む。本願は、第1の画像及び第2の画像を複数の異なるスケールの特徴に表現することにより、第1の画像及び第2の画像の特徴表現能力を高めて、ターゲット検出の精度を向上させる。
Description
本願は、2019年10月31日に中国国家知識産権局に提出された、出願番号が201911054823.1で、発明の名称が「ターゲット検出、インテリジェント走行方法、装置、機器及び記憶媒体」である中国特許出願、及び2019年10月31日に中国国家知識産権局に提出された、出願番号が201911063316.4で、発明の名称が「ターゲットクエリ方法、装置、機器及び記憶媒体」である中国特許出願の優先権を主張するものであり、それらと本願の全ての内容は、参照により本願に組み込まれるものとする。
本願は、画像処理の分野に関し、具体的には、ターゲット検出、インテリジェント走行方法、装置、機器及び記憶媒体に関する。
単一サンプルセマンティックセグメンテーションは、コンピュータビジョン分野、インテリジェント画像処理分野において新たに生じた問題であり、ある種別の単一トレーニングサンプルによりセグメンテーションモデルに該種別の所在する画素を識別する能力を具備させることを目的とする。
単一サンプルセマンティックセグメンテーションの提供により従来の画像セマンティックセグメンテーションの問題となるサンプル収集及びマーキングのコストを効果的に低減することができる。単一サンプル画像セマンティックセグメンテーションは、ある種別の物体を単一サンプルだけでトレーニングすることにより、セグメンテーションモデルに該物体の所有する画素を識別する能力を具備させることができる。ターゲットクエリは、画像セマンティックセグメンテーションの方式により、画像に含まれるターゲットをクエリすることができる。画像セマンティックセグメンテーションは、単一サンプル画像セマンティックセグメンテーションを含む。従来の画像セマンティックセグメンテーションでは、モデルの性能を保証するためにすべての類別の物体に対して大量のトレーニング画像が必要であり、非常に高いタグ付けのコストをもたらす。
本願は、従来のターゲット検出精度が低いという技術的課題を解決するために、ターゲット検出、インテリジェント走行方法、装置、機器及び記憶媒体を提供することを目的とする。
上記技術的課題を解決するために、本願の技術手段は、以下のとおり実現される。
1つの実施例に係るターゲット検出方法は、第1の画像及び第2の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第1の特徴マップ及び複数の異なるスケールの第2の特徴マップを取得するステップと、複数の異なるスケールの第1の特徴マップと、前記第1の画像に含まれるクエリ対象のターゲットをタグ付けした結果である前記第1の画像のタグと、対応するスケールの前記第2の特徴マップとに基づいて、前記第2の画像におけるクエリ対象のターゲットを決定するステップと、を含む。
別の実施例に係るインテリジェント走行方法は、道路画像を収集するステップと、上述したターゲット検出方法を採用して、サポート画像と、前記サポート画像に含まれる、前記クエリ対象のターゲットと同じ種別のターゲットをタグ付けした結果である前記サポート画像のタグとに基づいて、収集された道路画像に対してクエリ対象のターゲットのクエリを行うステップと、クエリ結果に基づいて、収集された道路画像のインテリジェント走行機器を制御するステップと、を含む。
別の実施例に係るターゲット検出装置は、第1の画像及び第2の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第1の特徴マップ及び複数の異なるスケールの第2の特徴マップを取得する特徴抽出モジュールと、複数の異なるスケールの第1の特徴マップと、前記第1の画像に含まれるクエリ対象のターゲットをタグ付けした結果である前記第1の画像のタグと、対応するスケールの前記第2の特徴マップとに基づいて、前記第2の画像におけるクエリ対象のターゲットを決定する決定モジュールと、を含む。
別の実施例に係るインテリジェント走行装置は、道路画像を収集する収集モジュールと、上述したターゲット検出方法を採用して、サポート画像と、前記サポート画像に含まれる、前記クエリ対象のターゲットと同じ種別のターゲットをタグ付けした結果である前記サポート画像のタグとに基づいて、収集された道路画像に対してクエリ対象のターゲットのクエリを行うクエリモジュールと、クエリ結果に基づいて、収集された道路画像のインテリジェント走行機器を制御する制御モジュールと、を含む。
別の実施例に係るターゲット検出機器は、メモリと、プロセッサと、メモリに記憶されプロセッサ上で実行可能で、前記プロセッサによって実行されると、上述したターゲット検出方法を実現するコンピュータプログラムとを含む。
別の実施例に係るインテリジェント走行機器は、メモリと、プロセッサと、メモリに記憶されプロセッサ上で実行可能なコンピュータプログラムとを含み、前記プロセッサによって前記コンピュータプログラムが実行されると、上述したインテリジェント走行方法を実現することを特徴とする。
別の実施例に係るコンピュータ可読記憶媒体には、プロセッサによって実行されると、前記ターゲット検出方法のステップを実現するか、又は前記インテリジェント走行方法のステップを実現するコンピュータプログラムが記憶されている。
さらに別の実施例に係る、命令を実行するチップは、コード及びデータが記憶されているメモリと、前記メモリに結合され、前記メモリにおけるコードを実行することにより前記チップに上記ターゲット検出方法のステップを実行させるか、又は上記インテリジェント走行方法のステップを実行させるプロセッサと、を含む。
さらに別の実施例に係る、命令を含むプログラム製品は、コンピュータ上で実行されると、前記コンピュータに上記ターゲット検出方法のステップを実行させるか、又は上記インテリジェント走行方法のステップを実行させる。
さらに別の実施例に係るコンピュータプログラムは、プロセッサによって実行されると、上記ターゲット検出方法のステップを実行するか、又は上記インテリジェント走行方法のステップを実行する。
以上の技術手段により、上記実施例において異なるスケールの第1の特徴マップ及び第2の特徴マップを取得するため、第1の画像及び第2の画像の特徴表現能力を高めることにより、第1の画像と第2の画像との間の類似性を判断するより多くの情報を取得できるため、後続のターゲット検出が単一サンプルに対して、より豊かな特徴入力を有することにより、単一サンプルセマンティックセグメンテーションのセグメンテーション精度を向上させて、ターゲット検出の精度を向上させる。
以下の図面は、本願の範囲を限定するものではなく、本願を例示的に説明及び解釈するものに過ぎない。
本願の実施例に係るターゲット検出方法のフローチャートである。
本願の実施例に係るターゲット検出モデルの概略構成図である。
本願の実施例に係るターゲット検出方法のフローチャートである。
本願の実施例に係る対称的なカスケード構造の概略構成図である。
本願の実施例に係るターゲット検出方法のフローチャートである。
本願の別の実施例に係るターゲット検出モデルの概略構成図である。
本願のさらに別の実施例に係るターゲットクエリ方法のフローチャートである。
本願の別の実施例に係るターゲットクエリ方法のフローチャートである。
本願のさらに別の実施例に係るターゲットクエリ方法のフローチャートである。
本願のさらに別の実施例に係るターゲットクエリ方法のフローチャートである。
本願の実施例に係るインテリジェント走行方法のフローチャートである。
本願の実施例に係るターゲット検出プロセスの概略図である。
本願の実施例に係る生成モジュール及び集約モジュールの概略図である。
本願の実施例に係るターゲットクエリ方法における類似性特徴抽出方式と従来技術における抽出方式との比較概略図である。
本願の実施例に係るターゲット検出装置の概略構成図である。
本願の実施例に係るインテリジェント走行装置の概略構成図である。
本願の実施例に係るターゲット検出機器の概略構成図である。
本願の実施例に係るインテリジェント走行機器の概略構成図である。
本願の実施例の目的、技術手段及び利点をより明確にするために、以下、本願の実施例における図面を参照しながら、本願の実施例における技術手段を明確かつ完全的に記載する。明らかに、記載される実施例は、本願の実施例の一部に過ぎず、全ての実施例ではない。
従来技術において、単一サンプル画像セマンティックセグメンテーションの深層学習モデルは、ターゲットクエリを行う必要がある画像であるクエリセット画像と、タグ情報を取得するために予めタグ付けされたクエリ対象のターゲットを含むサポートセット画像とに対して特徴抽出をそれぞれ行うものである。タグ情報と組み合わせて、サポートセット画像の特徴とクエリセット画像の特徴との間の類似性により、クエリセット画像におけるターゲットを決定する。
しかしながら、従来の技術では、深層学習モデルは、サポートセット画像を単一の特徴ベクトルに表現し、サポートセット画像に対する特徴表現能力が限られるため、モデルが、サポートセット画像の特徴とクエリ画像画素の特徴との間の類似性を説明する能力が足りないことを引き起こし、ターゲットクエリの精度が低いことを引き起こす。
本願の実施例では、第1の画像は、上記サポートセット画像であってよく、第2の画像は、上記クエリセット画像であってよく、第1の画像及び第2の画像に対して複数の異なるスケールの特徴抽出を行うことにより、第1の画像及び第2の画像を複数の異なるスケールの特徴に表現して、第1の画像及び第2の画像の特徴表現能力を高めることにより、第1の画像と第2の画像との間の類似性を判断するより多くの情報を取得して、ターゲットクエリの精度を向上させることができる。
以下、具体的な実施例を参照しながら、本願の技術手段及び本願の技術手段がどのように上記技術的課題を解決するかを詳細に説明する。以下のいくつかの具体的な実施例を互いに組み合わせることができ、同じ又は類似する概念又はプロセスについていくつかの実施例では、説明を省略する可能性がある。以下、図面を参照しながら本願の実施例を説明する。
図1は、本願の実施例に係るターゲット検出方法のフローチャートである。本願の実施例は、従来技術の以上の技術的課題に対して、ターゲット検出方法を提供し、該方法の具体的なステップは、以下のステップ101~ステップ102のとおりである。
ステップ101では、第1の画像及び第2の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第1の特徴マップ及び複数の異なるスケールの第2の特徴マップを取得する。
本実施例では、第2の画像は、ターゲットクエリを行う必要がある画像であり、ターゲットクエリによって第2の画像に含まれるクエリ対象のターゲットの所在する画素領域を検出することができる。クエリ対象のターゲットは、実際の状況に応じて決定されてよく、例えば、動物、植物、人物、車両などであってよいが、ここでは、これらを限定しない。タグ情報は、第1の画像におけるクエリ対象のターゲットのプロフィール情報、画素情報などであってよいが、ここでは、これらを限定しない。好ましくは、タグ情報は、二値化タグであってよく、二値化タグにおけるターゲットの所在する画素点領域と画像における他の領域との画素値は異なる。
本実施例のターゲット検出方法は、車両のターゲット検出プロセスに適用されてよく、車両は、自動運転車両、又は先進運転支援(Advanced Driver Assistance Systems、ADAS)システムが搭載されている車両などであってよい。ターゲット検出方法は、ロボットに適用されてもよいことを理解されたい。車両を例にして、第1の画像及び第2の画像は、車両上の画像収集機器によって収集されて取得されてよく、画像収集機器は、カメラ、例えば単眼カメラ、双眼カメラなどであってよい。
本実施例では、特徴抽出アルゴリズムにより第1の画像に対して複数の異なるスケールの特徴抽出を行って、複数の異なるスケールの第1の特徴マップを取得し、第2の画像に対して複数の異なるスケールの特徴抽出を行って、複数の異なるスケールの第2の特徴マップを取得することができる。特徴抽出アルゴリズムは、CNN(Convolutional Neural Networks、畳み込みニューラルネットワーク)アルゴリズム、LBP(Local Binary Pattern、ローカルバイナリパターン)アルゴリズム、SIFT(Scale-invariant feature transform、スケール不変特徴変換)アルゴリズム、HOG(Histogram of Oriented Gradient、勾配方向ヒストグラム)アルゴリズムなどであってよく、ここでは、これらを限定しない。
本実施例では、特徴抽出アルゴリズムは、CNN(Convolutional Neural Networks、畳み込みニューラルネットワーク)アルゴリズムである場合、本実施例に係るターゲット検出方法は、図2に示すターゲット検出モデルに適用できる。図2に示すように、該ターゲット検出モデル20は、特徴抽出ネットワーク21、スケール変換モジュール22及び畳み込みネットワーク23を含む。特徴抽出ネットワーク21は、ニューラルネットワークであり、従来のネットワークアーキテクチャ、例えば、VGG(Visual Geometry Group)ネットワーク、Resnetネットワーク又は他の汎用の画像特徴抽出ネットワークなどを採用してよい。例えば、第1の画像及び第2の画像を特徴抽出ネットワーク21に同時に入力して複数の異なるスケールの特徴抽出を行ってよく、同じネットワークアーキテクチャ及びネットワークパラメータを有する2つの特徴抽出ネットワーク21を設け、第1の画像及び第2の画像をこの2つの特徴抽出ネットワーク21にそれぞれ入力して、第1の画像及び第2の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行ってもよい。例えば、複数の異なるスケールを予め指定して、各スケールに対して、第1の画像及び第2の画像に対して該スケールの特徴抽出をそれぞれ行って、該スケールの第1の特徴マップ及び第2の特徴マップを取得してよい。
ステップ102では、複数の異なるスケールの第1の特徴マップと、第1の画像に含まれるクエリ対象のターゲットをマーキングした結果である第1の画像のタグと、対応するスケールの第2の特徴マップとに基づいて、第2の画像におけるクエリ対象のターゲットを決定する。
本実施例では、各スケールの第1の特徴マップ、第2の特徴マップに対して、第1の画像のタグ情報と組み合わせて、該スケールの第1の特徴マップと第2の特徴マップとの類似性を特徴付けする類似度マップを取得することができる。次に、異なるスケールの類似度マップにより、第2の画像におけるクエリ対象のターゲットを決定することができる。
本実施例は、第1の画像及び第2の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第1の特徴マップ及び複数の異なるスケールの第2の特徴マップを取得し、複数の異なるスケールの第1の特徴マップと、第1の画像に含まれるクエリ対象のターゲットをマーキングした結果である第1の画像のタグと、対応するスケールの上記第2の特徴マップとに基づいて、第2の画像におけるクエリ対象のターゲットを決定する。異なるスケールの第1の特徴マップ及び第2の特徴マップを取得するため、第1の画像及び第2の画像の特徴表現能力を高めることにより、第1の画像と第2の画像との間の類似性を判断するより多くの情報を取得できるため、後続のターゲット検出が単一サンプルに対して、より豊かな特徴入力を有することにより、単一サンプルセマンティックセグメンテーションのセグメンテーション精度を向上させて、ターゲット検出の精度を向上させる。
本願の実施例では、第1の画像にはクエリ対象のターゲットと同じ種別のターゲットが含まれれば、第1の画像に含まれる、クエリ対象のターゲットと同じ種別のターゲットの姿勢、テクスチャ、色などの情報は、第1の画像に含まれる、クエリ対象のターゲットと同じ種別のターゲットの姿勢、テクスチャ、色などの情報と異なってよい。例えば、クエリ対象のターゲットは、交通信号灯である場合、第1の画像に含まれる交通信号灯は縦に配列され、第2の画像に交通信号灯が含まれれば、第2の画像における交通信号灯は、横に配列されてよく、かつ交通信号灯は、第1の画像及び第2の画像での状態が一致しなくてよい。
図3に示すように、第1の画像及び第2の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第1の特徴マップ及び複数の異なるスケールの第2の特徴マップを取得するステップは、ステップ301~ステップ302を含む。
ステップ301では、第1の画像及び第2の画像に対して特徴抽出をそれぞれ行って、第1の特徴マップ及び第2の特徴マップを取得する。
図2に示すように、特徴抽出ネットワーク21は、第1の畳み込みモジュール211、第2の畳み込みモジュール212及び第3の畳み込みモジュール213を含み、第1の畳み込みモジュール211は、順に接続された3つの畳み込み層を含み、第2の畳み込みモジュール212及び第3の畳み込みモジュール213は、それぞれ1つの畳み込み層を含む。
例えば、第1の画像及び第2の画像を図2に示す第1の畳み込みモジュール211に同時に入力してよく、第1の畳み込みモジュール211は、第1の画像及び第2の画像に基づいて、対応する特徴抽出結果をそれぞれ出力し、そのすぐ後に第1の畳み込みモジュール211が第1の画像及び第2の画像に基づいてそれぞれ出力した特徴抽出結果を第2の畳み込みモジュール212に入力する。第2の畳み込みモジュール212は、第1の畳み込みモジュール211が第1の画像及び第2の画像に基づいてそれぞれ出力した特徴抽出結果に基づいて、対応する特徴抽出結果をそれぞれ出力し、そのすぐ後に第2の畳み込みモジュール212が第1の畳み込みモジュール211の第1の画像及び第2の画像に基づいてそれぞれ出力した特徴抽出結果に基づいてそれぞれ出力した特徴抽出結果を第3の畳み込みモジュール213に入力して、第3の畳み込みモジュール213により第2の畳み込みモジュール212が出力した特徴抽出結果に基づいて特徴抽出を行うことにより、第1の画像の特徴抽出結果及び第2の画像の特徴抽出結果をそれぞれ第1の特徴マップ及び第2の特徴マップとしてそれぞれ出力する。
ステップ302では、第1の特徴マップ及び第2の特徴マップに対して複数回のスケール変換をそれぞれ行って、複数の異なるスケールの第1の特徴マップ及び複数の異なるスケールの第2の特徴マップを取得する。
図2に示すように、第1の特徴マップ及び第2の特徴マップをスケール変換モジュール22にそれぞれ入力して、スケール変換モジュール22が第1の特徴マップ及び第2の特徴マップに対して複数回のスケール変換をそれぞれ行うことにより、第1の画像及び第2の画像を複数の異なる寸法の特徴マップとしてそれぞれ表現する。
好ましくは、第1の特徴マップ及び第2の特徴マップに対して複数回のスケール変換をそれぞれ行うステップは、第1の特徴マップ及び第2の特徴マップに対して少なくとも2回のダウンサンプリングをそれぞれ行うステップを含む。
好ましくは、第1の特徴マップ及び第2の特徴マップに対して少なくとも2回のダウンサンプリングをそれぞれ行うステップは、第1のサンプリングレートを採用して第1の特徴マップ及び第2の特徴マップをそれぞれダウンサンプリングして、第1の画像より第1の倍数ダウンサンプリングされた第1の特徴マップと、第2の画像より第2の倍数ダウンサンプリングされた第2の特徴マップとを取得するステップと、第2のサンプリングレートで、第1の画像より第1の倍数ダウンサンプリングされた第1の特徴マップと、第2の画像より第2の倍数ダウンサンプリングされた第2の特徴マップとをそれぞれダウンサンプリングして、第1の画像より第2の倍数ダウンサンプリングされた第1の特徴マップと、第2の画像より第2の倍数ダウンサンプリングされた第2の特徴マップとを取得するステップと、を含み、第2の倍数は第1の倍数より大きい。
例えば、第1のサンプリングレートで第1の特徴マップをダウンサンプリングして、第1の画像より第1の倍数ダウンサンプリングされた第1の特徴マップを取得し、そのすぐ後に第2のサンプリングレートで、第1の画像より第1の倍数ダウンサンプリングされた第1の特徴マップをダウンサンプリングして、第1の画像より第2の倍数ダウンサンプリングされた第1の特徴マップを取得し、第2の倍数は第1の倍数より大きい。同様に、第2の特徴マップについても、第1のサンプリングレートで第2の特徴マップをダウンサンプリングして、第2の画像より第1の倍数ダウンサンプリングされた第2の特徴マップを取得し、そのすぐ後に第2のサンプリングレートで、第2の画像より第2の倍数ダウンサンプリングされた第2の特徴マップをダウンサンプリングして、第2の画像より第2の倍数ダウンサンプリングされた第2の特徴マップを取得する。
好ましくは、第1のサンプリングレートで第1の特徴マップ及び第2の特徴マップをそれぞれダウンサンプリングして、第1の画像より第1の倍数ダウンサンプリングされた第1の特徴マップと、第2の画像より第2の倍数ダウンサンプリングされた第2の特徴マップとを取得した後、本願の実施例の方法は、第3のサンプリングレートで、第1の画像より第2の倍数ダウンサンプリングされた第1の特徴マップと、第2の画像より第2の倍数ダウンサンプリングされた第2の特徴マップとをそれぞれダウンサンプリングして、第1の画像より第3の倍数ダウンサンプリングされた第1の特徴マップと、第2の画像より第3の倍数ダウンサンプリングされた第2の特徴マップとを取得するステップをさらに含み、第3の倍数は第2の倍数より大きい。好ましくは、第1の倍数、第2の倍数及び第3の倍数は、それぞれ8倍、16倍及び32倍である。
1つの好ましい例では、スケール変換モジュール22は、対称的なカスケード構造を採用してよく、図4に示すように、対称的なカスケード構造は、互いに対称的に設けられた2つのカスケード構造を含み、各カスケード構造は、順に接続された3つのサンプリングユニットをそれぞれ含む。理解の便宜上、以下、2つのカスケード構造は、それぞれ第1のカスケード構造41及び第2のカスケード構造42と呼ばれ、第1のカスケード構造に含まれる3つのサンプリングユニットは、それぞれ第1のサンプリングユニット、第2のサンプリングユニット及び第3のサンプリングユニットと呼ばれ、第2のカスケード構造に含まれる3つのサンプリングユニットは、それぞれ第4のサンプリングユニット、第5のサンプリングユニット及び第6のサンプリングユニットと呼ばれる。第1のサンプリングユニット及び第4のサンプリングユニットはサンプリングレートが同じであり、第2のサンプリングユニット及び第5のサンプリングユニットはサンプリングレートが同じであり、第3のサンプリングユニット及び第6のサンプリングユニットはサンプリングレートが同じである。例えば、第1のサンプリングユニット及び第4のサンプリングユニットは、それぞれ第1のサンプリングレートで第1の特徴マップ及び第2の特徴マップをサンプリングすることにより、第1の画像及び第2の画像より8倍ダウンサンプリングされた第1の特徴マップ及び第2の特徴マップを出力し、第2のサンプリングユニット及び第5のサンプリングユニットは、それぞれ第2のサンプリングレートで、第1のサンプリングユニット及び第4のサンプリングユニットが出力した結果をサンプリングし続けることにより、第1の画像及び第2の画像より16倍ダウンサンプリングされた第1の特徴マップ及び第2の特徴マップを出力し、第3のサンプリングユニット及び第6のサンプリングユニットは、それぞれ第3のサンプリングレートで、第2のサンプリングユニット及び第5のサンプリングユニットが出力した結果をサンプリングし続けることにより、第1の画像及び第2の画像より32倍ダウンサンプリングされた第1の特徴マップ及び第2の特徴マップを出力する。
本実施例では、図4に示す対称的なカスケード構造を採用して、第1の特徴マップ及び第2の特徴マップに対して複数回のスケール変換をそれぞれ行ってよい。例えば、第1のカスケード構造41を採用して第1の特徴マップに対して異なるスケールの変換を行う場合、第1の特徴マップをそれぞれ第1のサンプリングユニット、第2のサンプリングユニット及び第3のサンプリングユニットに順に入力して、それぞれ第1のサンプリングユニット、第2のサンプリングユニット及び第3のサンプリングユニットにより、異なるサンプリングレートのダウンサンプリングを行うことにより、第1の画像の寸法より8倍、16倍及び32倍ダウンサンプリングされた第1の特徴マップを出力する。同様に、第2のカスケード構造42を採用して第2の特徴マップに対して異なるスケールの変換を行う場合、第2の特徴マップをそれぞれ第4のサンプリングユニット、第5のサンプリングユニット及び第6のサンプリングユニットに順に入力して、それぞれ第4のサンプリングユニット、第5のサンプリングユニット及び第6のサンプリングユニットにより、異なるサンプリングレートのダウンサンプリングを行うことにより、第2の画像の寸法より8倍、16倍及び32倍ダウンサンプリングされた第2の特徴マップを出力する。
上記第1のカスケード構造41及び第2のカスケード構造42は、2段のカスケード構造であってもよく、例えば、第1のカスケード構造41及び第2のカスケード構造42は、順に接続される2つのサンプリングユニットをそれぞれ含むことを理解されたい。
好ましくは、複数の異なるスケールの第1の特徴マップと、第1の画像のタグと、対応するスケールの第2の特徴マップとに基づいて、第2の画像におけるクエリ対象のターゲットを決定するステップは、複数の異なるスケールの第1の特徴マップ及び第1の画像のタグに基づいて、複数の異なるスケールの第1の特徴ベクトルを決定するステップと、複数の異なるスケールの第1の特徴ベクトルと、対応するスケールの第2の特徴マップとを所定の計算ルールに基づいて計算して、計算結果を取得するステップと、計算結果に基づいて、第2の画像のマスク画像を決定するステップと、マスク画像に基づいて、第2の画像におけるクエリ対象のターゲットを決定するステップと、を含む。好ましくは、所定の計算ルールは、内積の計算ルール又はコサイン距離の計算ルールを含む。第1の画像のタグは、画像におけるターゲット又は対象の種別を表示する情報を指す。
所定の計算ルールが内積であることを例にして、図2に示すように、各スケールの第1の特徴マップ及び第1の画像のタグは、いずれも1つの特徴ベクトルを形成することができ、例えば、第1の画像より8倍、16倍、32倍ダウンサンプリングされた第1の特徴マップ及び第1の画像のタグに対してそれぞれ補間演算を行って1つの特徴ベクトルを形成し、以下、第1の特徴ベクトル、第2の特徴ベクトル及び第3の特徴ベクトルと呼び、次に、それぞれ、第1の特徴ベクトルと、第2の画像より8倍ダウンサンプリングされた第2の特徴マップとに対して内積演算を行い、第2の特徴ベクトルと、第1の画像より16倍ダウンサンプリングされた第2の特徴マップとに対して内積演算を行い、第3の特徴ベクトルと、第1の画像より32倍ダウンサンプリングされた第2の特徴マップとに対して内積演算を行って、3つの異なるスケールの確率マップを取得する。3つの異なるスケールの確率マップの寸法は、それぞれ第1の特徴ベクトル、第2の特徴ベクトル及び第3の特徴ベクトルの寸法と同じであり、3つの異なるスケールの確率マップの寸法は、それぞれ第1の画像又は第2の画像より8倍、16倍及び32倍ダウンサンプリングされた第1の特徴マップ又は第2の特徴マップの寸法と同じであると考えてよい。その後、この3つの確率マップを畳み込みネットワーク23に入力し、畳み込みネットワーク23により、この3つの確率マップを接続して、接続後の画像を畳み込むことにより、第2の画像のマスク画像maskを出力し、第2の画像のターゲット検出効果を達成する。
好ましくは、複数の異なるスケールの第1の特徴マップと、第1の画像のタグと、対応するスケールの第2の特徴マップとに基づいて、第2の画像におけるクエリ対象のターゲットを決定するステップは、複数の異なるスケールの第1の特徴マップと、第1の画像のタグと、対応するスケールの第2の特徴マップとを対応するスケールの第3の特徴マップの指導情報として、第2の画像におけるクエリ対象の画像を決定するステップを含み、第3の特徴マップは、第2の画像に基づいて決定され、かつ同じスケールの第2の特徴マップと第3の特徴マップとは異なる。上記実施例と比較して、本実施例では、第3の特徴マップにより上記実施例で取得された異なるスケールの内積演算結果を指導するプロセスを追加することにより、後続のターゲット検出の精度を向上させ、第3の特徴マップに対して、図2に示す特徴抽出ネットワーク21以外の他の特徴抽出ネットワークを採用して特徴抽出を行い、第3の特徴マップの特徴抽出ネットワークのネットワークアーキテクチャ及びネットワークパラメータは、第1、第2の特徴マップのネットワークアーキテクチャ及びネットワークパラメータと異なり、例えば、畳み込みカーネルが異なる。
図5は、本願の別の実施例に係るターゲット検出方法のフローチャートである。上記実施例に基づいて、本実施例に係るターゲット検出方法は、具体的には、以下のステップ501~ステップ503を含む。
ステップ501では、複数の異なるスケールの第1の特徴マップ及び第1の画像のタグに基づいて、複数の異なるスケールの第1の特徴ベクトルを決定する。
ステップ502では、複数の異なるスケールの第1の特徴ベクトルと、対応するスケールの第2の特徴マップとを所定の計算ルールに基づいて計算して、複数の異なるスケールのマスク画像を取得する。
該ステップで取得されるマスク画像を指導情報として第3の特徴マップを指導する。
ステップ503では、複数の異なるスケールのマスク画像及び対応するスケールの第3の特徴マップを乗算した結果に基づいて、第2の画像におけるクエリ対象のターゲットを決定する。
本実施例では、複数の異なるスケールのマスク画像及び対応するスケールの第3の特徴マップを乗算することは、同じスケールのマスク画像及び第3の特徴マップにおける同じ位置で、マスク画像の値(スカラー)及び第3の特徴マップの値(ベクトル)を乗算することを指す。
本実施例に係る方法は、図6に示す検出モデルに適用でき、図6に示す検出モデルと図2に示す検出モデルは、図2に示す特徴抽出ネットワーク21に基づいていくつかの畳み込み層を追加し、図2に示す対称的なカスケード構造に基づいて1つの第3のカスケード構造を追加するという点で異なっている。第3のカスケード構造の構造は、第1のカスケード構造又は第2のカスケード構造の構造と同じであり、その実現原理は、上記実施例についての説明を参照することができる。
図6に示すように、検出モデル60は、特徴抽出ネットワーク61、スケール変換モジュール62及び畳み込みネットワーク63を含む。特徴抽出ネットワーク61は、第4の畳み込みモジュール611、第5の畳み込みモジュール612、第6の畳み込みモジュール613、第7の畳み込みモジュール614、第8の畳み込みモジュール615、第9の畳み込みモジュール616及び第10の畳み込みモジュール617を含む。第4の畳み込みモジュール611、第5の畳み込みモジュール612及び第6の畳み込みモジュール613と、図2に示す第1の畳み込みモジュール211、第2の畳み込みモジュール212及び第3の畳み込みモジュール213とはネットワークアーキテクチャ及びネットワークパラメータが同じであり、その作用及び原理は、図2に示す実施例部分の内容についての説明を参照することができ、本実施例では、主に図6と図2との相違点に対して詳細に説明される。以上から分かるように、図2に示す特徴抽出ネットワーク21に基づいて、第6の畳み込みモジュール613(図2における第3の畳み込みモジュール213)の後に第7の畳み込みモジュール614がさらに接続され、第4の畳み込みモジュール611(図2における第3の畳み込みモジュール211)の後に第8の畳み込みモジュール615、第9の畳み込みモジュール616及び第10の畳み込みモジュール617が順に接続される。第6の畳み込みモジュール613及び第7の畳み込みモジュール614の出力は、さらにそれぞれ第8の畳み込みモジュール615及び第9の畳み込みモジュール616の入力とされる。第10の畳み込みモジュール617の出力は、第3のカスケード構造33の入力とされる。第7の畳み込みモジュール614はそれぞれ、第6の畳み込みモジュール613の出力結果に基づいて特徴抽出を行って、第1の特徴マップ及び第2の特徴マップを取得した後、スケール変換モジュール62に入力する。スケール変換モジュール62と図2に示すスケール変換モジュール22との構造及び原理は同じであり、スケール変換モジュール62は、それぞれ第1の特徴マップ及び第2の特徴マップに対して異なるスケールの変換を行うと同時に、第1の画像のタグ情報もスケール変換モジュール62に出力される。スケール変換モジュール62は、複数の異なるスケールの第1の特徴マップ、第2の特徴マップ及び第1の画像のタグ情報に基づいて、複数の異なるスケールのマスク画像mask32x、mask16x、mask8xを出力する。mask32x、mask16x、mask8xはそれぞれ、第1の特徴マップ又は第2の特徴マップより32倍、16倍及び8倍ダウンサンプリングされたマスク画像を表す。スケール変換モジュール62が出力したマスク画像mask32x、mask16x、mask8xと、第3のカスケード構造が第2の画像に基づいて出力した、第2の画像より8倍、16倍及び32倍ダウンサンプリングされた第2の特徴マップとに対して、対応する画素位置での乗算演算を行うことにより、3つの確率マップを取得する。その後、この3つの確率マップを畳み込みネットワークに入力して畳み込みなどの操作を行うことにより、第2の画像に対するターゲット検出を実現する。
好ましくは、本実施例は、第6の畳み込みモジュール613により抽出された特徴マップを第3のカスケード構造に直接的に入力してもよい。
好ましくは、本実施例は、直接的に第6の畳み込みモジュール613が出力した、第1の画像に対する特徴マップ及び第2の画像に対する特徴マップを第1のカスケード構造及び第2のカスケード構造にそれぞれ入力してもよい。
好ましくは、図2に示す第1の畳み込みモジュール、第2の畳み込みモジュール及び第3の畳み込みモジュールは、1つの標準的なVGGネットワークアーキテクチャであり、当業者であれば、実際の必要に応じて、図2に示すVGGネットワークアーキテクチャと、図6における第4の畳み込みモジュール、第5の畳み込みモジュール、第6の畳み込みモジュール及び第7の畳み込みモジュールとに基づいて畳み込みモジュールの数を増加又は減少させてよい。本願の実施例は、複数の異なるスケールの第1の特徴マップ及び第1の画像のタグに基づいて、複数の異なるスケールの第1の特徴ベクトルを決定した後、複数の異なるスケールの第1の特徴ベクトルと、対応するスケールの第2の特徴マップとを所定の計算ルールに基づいて計算して、計算結果を取得し、かつ計算結果に基づいて、第2の画像のマスク画像を決定し、マスク画像に基づいて、第2の画像におけるクエリ対象のターゲットを決定する。複数の異なるスケールのマスク画像は、対応するスケールの第2の特徴マップの分割に対して類似性指導を行う(スケール変換モジュール62が出力したマスク画像mask32x、mask16x、mask8xと、第3のカスケード構造が第2の画像に基づいて出力した、第2の画像より8倍、16倍及び32倍ダウンサンプリングされた第2の特徴マップとに対して、対応する画素位置での乗算演算を行う)。また、第6の畳み込みモジュールを例にして、第5の畳み込みモジュール612の第2の画像に対する出力結果が第6の畳み込みモジュールに入力されるため、第6の畳み込みモジュールは、第5の畳み込みモジュールの出力結果及び第2の画像の出力結果に基づいて融合した後に再び特徴抽出を行うことができ、このようにして、より豊かな特徴情報を抽出することができるが、逆伝播する場合、フィードバックされた損失関数もより豊かな情報を有することにより、特徴抽出ネットワークにおける各畳み込みモジュールのネットワークパラメータをよりよく調整することができる。したがって、後続のターゲット検出プロセスにおいても、検出モデルの検出精度をさらに向上させることができる。
図7は、本願のさらに別の実施例に係るターゲット検出方法のフローチャートである。本実施例は、複数の異なるスケールの第1の特徴マップと、第1の画像のタグ情報と、対応するスケールの第2の特徴マップとに基づいて、第2の画像におけるクエリ対象のターゲットを決定するステップの具体的な実現プロセスを詳細に説明する。図7に示すように、該方法は、以下のS701~S704を含む。
S701では、第1の画像及び第2の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第1の特徴マップ及び複数の異なるスケールの第2の特徴マップを生成する。
本実施例では、S701は、図1の実施例におけるS101と類似し、ここでは、説明を省略する。
S702では、複数の異なるスケールの第1の特徴マップと、第1の画像のタグ情報と、対応するスケールの第2の特徴マップとに基づいて、各々が該スケールの第1の特徴マップ及び第2の特徴マップの類似性を特徴付けする複数の異なるスケールの類似度マップを決定する。
本実施例では、各スケールの類似度マップには、該スケールの第1の特徴マップと第2の特徴マップとの間の特徴の類似性情報が含まれる。
好ましくは、S702は、複数の異なるスケールの第1の特徴マップ及び第1の画像のタグ情報に基づいて、複数の異なるスケールの第1の特徴ベクトルを決定するステップと、複数の異なるスケールの第1の特徴ベクトルと、対応するスケールの第2の特徴マップとを要素ごとに乗算して、複数の異なるスケールの類似度マップを取得するステップと、を含んでよい。
本実施例では、各スケールの第1の特徴マップに対して、該スケールの第1の特徴マップ及び第1の画像のタグ情報を乗算して、該スケールの第1の特徴ベクトルを取得してよい。次に、該スケールの第1の特徴ベクトルと、該スケールの第2の特徴マップとを要素ごとに乗算して、該スケールの類似度マップを取得する。該スケールの類似度マップにおいて、各画素位置で、1つのベクトルにより第1の特徴ベクトルと第2の特徴マップとの該位置での類似性を表現する。
内積又はコサイン距離を使用して2つの特徴マップの間の類似度をシングルチャネルの類似度マップに表現して、シングルチャネルの類似度マップによりセマンティックセグメンテーションを行うことにより、ターゲットクエリを実現する場合と比較して説明する。内積の場合を例にすれば、2つの特徴マップ上の同じ位置にある2つの特徴ベクトルに対して内積を求めて、各画素位置に対応する数値を取得し、最終的に取得された類似度マップ上の各画素位置が1つの数値だけに対応するため、シングルチャネルの特徴情報しか特徴付けすることができず、シングルチャネルの特徴情報は、サポートセット画像の特徴を十分に表現することができないため、特徴マップの間の類似性を説明する能力が足りないことを引き起こして、ターゲットクエリの精度が低いことを引き起こす。本実施例では、複数の異なるスケールの第1の特徴ベクトルと、対応するスケールの第2の特徴マップとを要素ごとに乗算する方式により異なるスケールの類似度マップを生成し、要素ごとに乗算する方式により内積又はコサイン距離方式を代替することにより、各スケールの類似度マップがマルチチャネルの類似性情報を含み、類似性特徴をより十分に表現して、ターゲットクエリの精度をさらに向上させることができる。
S703では、複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得する。
本実施例では、アップサンプリングにより異なるスケールの類似度マップを同じスケールの類似度マップに変換して、統合して、統合された類似度マップを取得することができる。具体的には、以下の2種の実現方式のうちのいずれか1種により実現され、以下、それぞれ説明する。
第1の実現方式では、S703は、複数の異なるスケールの類似度マップをアップサンプリングして、複数の同じスケールの類似度マップを取得するステップと、複数の同じスケールの類似度マップを加算して、統合された類似度マップを取得するステップと、を含んでよい。
本実施例では、それぞれ複数の異なるスケールの類似度マップを同じスケールにアップサンプリングして、加算することにより、統合された類似度マップを取得してよい。例えば、合計3つの類似度マップA、B、Cを有し、三者のスケールは、順にm1、m2、m3であり、m1>m2>m3であると仮定すると、それぞれB及びCをアップサンプリングして、B及びCのスケールをm1に上げて、AとアップサンプリングされたB及びCの三者を加算して、スケールがm1である統合された類似度マップを取得し、又は、1つのスケールm4を指定し、m4>m1であり、それぞれA、B及びCをアップサンプリングし、A、B及びCのスケールをいずれもm4に上げて、アップサンプリングされたA、B及びCを加算して、スケールがm4である統合された類似度マップを取得してよい。
第2の実現方式では、S703は、
複数の異なるスケールの類似度マップで類似度マップセットを構成するステップと、
類似度マップセット中のスケールが最小の類似度マップをアップサンプリングして、スケールが2番目に小さい類似度マップと同じスケールの類似度マップを取得するステップと、
取得された類似度マップをスケールが2番目に小さい類似度マップに加算して、新たな類似度マップを取得するステップと、
類似度マップセット中のアップサンプリング処理又は加算処理が行われていない類似度マップと新たな類似度マップとで新たな類似度マップセットを構成し、統合された類似度マップである最後の類似度マップを取得するまで、アップサンプリングのステップ及び加算のステップを繰り返し実行するステップと、を含んでよい。
複数の異なるスケールの類似度マップで類似度マップセットを構成するステップと、
類似度マップセット中のスケールが最小の類似度マップをアップサンプリングして、スケールが2番目に小さい類似度マップと同じスケールの類似度マップを取得するステップと、
取得された類似度マップをスケールが2番目に小さい類似度マップに加算して、新たな類似度マップを取得するステップと、
類似度マップセット中のアップサンプリング処理又は加算処理が行われていない類似度マップと新たな類似度マップとで新たな類似度マップセットを構成し、統合された類似度マップである最後の類似度マップを取得するまで、アップサンプリングのステップ及び加算のステップを繰り返し実行するステップと、を含んでよい。
3つの類似度マップを例にして該実現方式を説明する。合計3つの類似度マップA、B、Cを有し、三者のスケールは、順にm1、m2、m3であり、m1>m2>m3であると仮定すると、まずCをアップサンプリングして、Cのスケールをm2に上げて、BとアップサンプリングされたCを加算して、スケールがm2である新たな類似度マップDを取得してよい。次にDをアップサンプリングし、Dのスケールをm1に上げて、AとアップサンプリングされたDを加算して、最終的に統合された類似度マップを取得する。
S704では、統合された類似度マップに基づいて、第2の画像におけるクエリ対象のターゲットを決定する。
本実施例では、S704は、図1の実施例におけるS102と類似し、ここでは、説明を省略する。
本実施例では、複数の異なるスケールの第1の特徴マップと、第1の画像のタグ情報と、対応するスケールの第2の特徴マップとに基づいて、複数の異なるスケールの類似度マップを決定して、複数の異なるスケールの類似度マップを統合し、統合された類似度マップを取得して、統合された類似度マップに基づいて、第2の画像におけるクエリ対象のターゲットを決定することにより、複数の異なるスケールの類似度を統合して、統合された類似度に複数のスケールの特徴情報を含ませることにより、ターゲットクエリの精度をさらに向上させることができる。
図8は、本願の別の実施例に係るターゲット検出方法のフローチャートである。本実施例と図7の実施例は、S702で複数の異なるスケールの類似度マップを決定した後、S703で複数の異なるスケールの類似度マップを統合する前に、複数の異なるスケールの類似度マップと対応するスケールの第3の特徴マップとを要素ごとに乗算して、処理された複数の異なるスケールの類似度マップを取得するという点で異なっている。
図8に示すように、該方法は、以下のS801~S805を含む。
S801では、第2の画像及び第1の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第1の特徴マップ及び複数の異なるスケールの第2の特徴マップを生成する。
本実施例では、S801は、図1の実施例におけるS101と類似し、ここでは、説明を省略する。
S802では、複数の異なるスケールの第1の特徴マップと、第1の画像のタグ情報と、対応するスケールの第2の特徴マップとに基づいて、各々が該スケールの第1の特徴マップ及び第2の特徴マップの類似性を特徴付けする複数の異なるスケールの類似度マップを決定する。
本実施例では、S802は、図7の実施例におけるS702と類似し、ここでは、説明を省略する。
S803では、複数の異なるスケールの類似度マップと、対応するスケールの第3の特徴マップとを要素ごとに乗算して、処理された複数の異なるスケールの類似度マップを取得し、第3の特徴マップが第2の画像に基づいて決定され、かつ同じスケールの第2の特徴マップと第3の特徴マップとが異なる。
S804では、処理された複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得する。
本実施例では、S804は、図7の実施例におけるS704と類似し、ここでは、説明を省略する。
本実施例では、第2の画像に対して特徴抽出を行う場合、複数の異なるスケールの第2の特徴マップを抽出して取得するだけでなく、複数の異なるスケールの第3の特徴マップを抽出して取得する。各スケールについて、第2の画像に対して異なる特徴抽出方式を採用し、例えば、異なるネットワークパラメータを有する2つのニューラルネットワークなどを採用して、それぞれ該スケールの第2の特徴マップ及び第3の特徴マップを取得してよい。
複数の異なるスケールの第1の特徴マップと、第1の画像のタグ情報と、対応するスケールの第2の特徴マップとに基づいて、複数の異なるスケールの類似度マップを決定した後、各スケールの類似度マップに対して、該スケールの類似度マップと該スケールの第3の特徴マップとを要素ごとに乗算して、処理された該スケールの類似度マップを取得する。次に処理された複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得する。
S805では、統合された類似度マップに基づいて、第2の画像におけるクエリ対象のターゲットを決定する。
本実施例は、複数の異なるスケールの第1の特徴マップと、第1の画像のタグ情報と、対応するスケールの第2の特徴マップとに基づいて、複数の異なるスケールの類似度マップを決定し、第2の画像における第3の特徴マップを要素ごとに乗算することにより、複数の異なるスケールの類似度マップを使用して第2の画像の分割を指導することにより、ターゲットクエリの正確度をさらに向上させることができる。
図9は、本願の実施例に係るターゲット検出方法のフローチャートである。
図9に示すように、上記実施例のターゲット検出方法は、ニューラルネットワークによって実行され、該ニューラルネットワークは、以下のステップ901~ステップ903によりトレーニングされて取得される。
ステップ901では、いずれも第1の種別の対象を含む第1のサンプル画像及び第2のサンプル画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第4の特徴マップ及び複数の異なるスケールの第5の特徴マップを取得する。
ステップ902では、複数の異なるスケールの第4の特徴マップと、第1のサンプル画像に含まれる第1の種別の対象をタグ付けした結果である第1のサンプル画像のタグと、対応するスケールの第5の特徴マップとに基づいて、第2のサンプル画像における第1の種別の対象を決定する。
ステップ903では、決定された第2のサンプル画像における第1の種別の対象と、第2のサンプル画像に含まれる第1の種別の対象をタグ付けした結果である第2のサンプル画像のタグとの間の差異に基づいて、ニューラルネットワークのネットワークパラメータを調整する。
本実施例では、ニューラルネットワークにより上記ターゲットクエリ方式を実現し、ターゲットクエリを行う前に、まず該ニューラルネットワークをトレーニングする。具体的には、複数のサンプル画像を含むトレーニングセットから、同じ種別の対象を含む第1のサンプル画像及び第2のサンプル画像を取得してよく、該対象は、今回トレーニングプロセスにおけるクエリ対象のターゲットである。トレーニングセットには、複数のサブセットが含まれてよく、各サブセット内のサンプル画像は、いずれも同じ種別の対象を含む。例えば、種別は、車両、歩行者、交通信号機(すなわち交通信号灯)などを含んでよく、取得された第1のサンプル画像及び第2のサンプル画像は、いずれも交通信号機を含んでよい。交通信号機を今回のトレーニングプロセスにおけるクエリ対象のターゲットとする。第1のサンプル画像における交通信号機をタグ付けすることにより第1のサンプル画像のタグを取得する。第2のサンプル画像における交通信号機をタグ付けすることにより第2のサンプル画像のタグを取得する。
本実施例のトレーニングプロセスは、上記実施例のターゲット検出方法のプロセスと類似し、具体的な実施プロセスは、上記実施例についての説明を参照することができる。説明すべきこととして、本実施例では、第1のサンプル画像及び第2のサンプル画像には同じ種別の対象を含む必要があって、ニューラルネットワークをトレーニングして、ニューラルネットワークに同じ種別の画像の間の関連付けを識別させることができる。例えば、トレーニング段階では、交通信号灯を採用してニューラルネットワークをトレーニングし、テスト又は応用段階では、街灯を採用してニューラルネットワークをテストするか、又は該ニューラルネットワークに応用することができる。
図10は、本願のさらに別の実施例に係るターゲット検出方法のフローチャートである。本実施例では、図9の実施例におけるトレーニングされたニューラルネットワークのテスト方式を詳細に説明する。図10に示すように、該方法は、以下のS1001~S1002をさらに含んでよい。
S1001では、各々のテスト画像がいずれも同じ種別の対象を含むテスト画像セットからの第1のテスト画像及び第2のテスト画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第1のテスト特徴マップ及び複数の異なるスケールの第2のテスト特徴マップを取得する。
S1002では、複数の異なるスケールの第1のテスト特徴マップと、第1のテスト画像に含まれるクエリ対象のターゲットをタグ付けした結果である第1のテスト画像のタグと、対応するスケールの第2のテスト特徴マップとに基づいて、第2のテスト画像におけるクエリ対象のターゲットを決定する。
本実施例では、同じ種別の対象を含むテスト画像を1つのテスト画像セットに予め組み合わせ、複数のテスト画像セットを1つの総テストセットに組み合わせることができる。ニューラルネットワークをテストする場合、1つのテスト画像セットから第1のテスト画像及び第2のテスト画像を選択し、第1のテスト画像及び第2のテスト画像によりニューラルネットワークをテストする。例えば、街灯を含む第1のテスト画像及び第2のテスト画像によりニューラルネットワークをテストすることができる。
1つの例では、テスト画像セットにおいてテスト種別ごとに1つのサンプルを第1のテスト画像として選択することができ、例えば、PASCAL VOCのテスト画像セットにおいて、種別(合計20種)ごとに1枚の画像を第1のテスト画像として選択する。テストプロセスでは、テスト画像セットにおける各サンプルが、その対応する種別の第1のテスト画像とテストデータ対を組み合わせて、図2又は図5に示すモデルに入力して評価を行い、テストデータ対内のテスト画像には同じ種別のターゲットが含まれる。このようにして、従来のランダムに選択されたテストデータ対による種別選択の不均一の問題を回避するとともに、サンプルの品質が異なることにより評価指標が変動するという問題を解決することができる。好ましくは、テスト時に、100回トレーニングした後に、1回テストしてよく、120回トレーニングした後に、さらに1回テストしてもよい。当業者であれば、実際の必要に応じて対応して調整でき、本実施例は、これを具体的に限定しない。
本願の実施例におけるトレーニングされたニューラルネットワークは、クエリ対象の画像の種別の対応するトレーニング画像の数がトレーニング画像セットにおいて低い占有率を有するか又は学習されていない種別である場合であっても、本実施例に係るターゲット方法は、それを正確に検出することができる。また、本願の実施例に係る、テストデータ対をランダムに選択する方法は、さらに、タスクがサンプルに強く依存することを軽減することができ、実際の応用シーンにおいて収集しにくい種別のサンプルも正確に検出でき、従来のランダムに選択されたテストデータ対による種別選択の不均一の問題を回避するとともに、サポートサンプルの品質が異なることにより評価指標が浮動するという問題を解決することができる。例えば、自動運転におけるターゲット検出タスクにおいて、シーンにおける大量のトレーニングサンプルを供給しないあるターゲット種別に対しても正確に検出することができる。
図11は、本願の実施例に係るインテリジェント走行方法のフローチャートである。図11に示すように、該方法は、以下のS1101~S1103を含んでよい。
S1101では、道路画像を収集する。
S1102では、上述したターゲット検出方法を採用して、サポート画像と、サポート画像に含まれる、クエリ対象のターゲットと同じ種別のターゲットをタグ付けした結果であるサポート画像のタグとに基づいて、収集された道路画像に対してクエリ対象のターゲットのクエリを行う。
S1103では、クエリ結果に基づいて、収集された道路画像のインテリジェント走行機器を制御する。
本実施例では、インテリジェント走行機器は、自動運転車両、先進運転支援システム(Advanced Driving Assistant System、ADAS)が取り付けられた車両、ロボットなどを含んでよい。例えば、インテリジェント走行機器が走行時に又は駐車時に収集された道路画像を取得して、上記ターゲット検出方法を採用して道路画像に対してターゲット検出を行うことができる。上記ターゲット検出方式を採用する場合、道路画像は、上記第2の画像とされ、サポート画像は、上記第1の画像とされる。次に、ターゲット検出結果に基づいてインテリジェント走行機器を制御する。例えば、自動運転車両又はロボットなどのインテリジェント走行機器を直接的に制御して、減速、ブレーキ操作、転向などの操作を行うか、又はADASが取り付けられた車両の運転者に減速、ブレーキ操作、転向などの命令を送信することができる。例えば、クエリ結果がインテリジェント走行機器の前の交通信号機が赤信号であることを表示すれば、インテリジェント走行機器を減速させ駐車するように制御する。クエリ結果がインテリジェント走行機器の前に歩行者が現れることを表示すれば、インテリジェント走行機器をブレーキ操作するように制御する。
図12は、本願の実施例に係るターゲット検出プロセスの概略図である。第1の画像を第1の畳み込みニューラルネットワークに入力して第1の画像の複数の異なるスケールの第1の特徴マップを取得し、第2の画像を第2の畳み込みニューラルネットワークに入力して第2の画像の複数の異なるスケールの第2の特徴マップを取得する。第2の画像の第2の特徴マップ、第1の画像の第1の特徴マップ及び第1の画像のタグ情報を生成モジュールに入力して、複数のスケールの類似度マップを取得する。複数のスケールの類似度マップを集約モジュールに入力して、統合された類似度マップを取得する。統合された類似度マップを第3の畳み込みニューラルネットワークに入力して、第2の画像のセマンティックセグメンテーションマップを取得することにより、第2の画像のターゲット検出を実現する。
図13は、本願の実施例に係る生成モジュール及び集約モジュールの概略図である。図において、convは、畳み込み層を示し、poolは、プーリング処理を示す。第1の画像の特徴マップを生成モジュール131の第1の畳み込みチャネルに入力して、複数の異なるスケールの第1の特徴マップを取得する。第2の画像の特徴マップを生成モジュール131の第2の畳み込みチャネルに入力して、複数の異なるスケールの第2の特徴マップを取得して、それぞれ第1の画像のタグ情報と乗算処理及びプーリング処理を行って、第1の画像の複数の異なるスケールの特徴ベクトルを取得する。第2の画像の複数の異なるスケールの特徴マップと対応するスケールの特徴ベクトルとをそれぞれ要素ごとに乗算して、複数の異なるスケールの類似度マップを取得する。生成モジュール131は、複数の異なるスケールの類似度マップを集約モジュール132に出力して、集約モジュール132は、複数の異なるスケールの類似度マップを統合して、統合された類似度マップを出力する。
図14は、本願の実施例に係るターゲット検出方法における類似性特徴の抽出方式と内積又はコサイン距離による類似性特徴の抽出方式との比較概略図である。図における左側部分は、内積又はコサイン距離により類似性特徴を抽出する概略図である。図における右側部分は、対応する画素位置のベクトルの乗算により類似性特徴を抽出する概略図である。本願の実施例に係る方法において、要素ごとに乗算する方法は、内積又はコサイン距離と比較すると、出力された類似度マップがシングルチャネルからマルチチャネルになり、このように類似性情報のチャネル情報を保留できるとともに、後続の畳み込み及び非線形操作と組み合わせて類似性特徴をさらに合理的に表現することにより、ターゲット検出の精度をさらに向上させることができる。
図15は、本願の実施例に係るターゲット検出装置の概略構成図である。本願の実施例に係るターゲット検出装置は、ターゲット検出方法の実施例に係る処理フローを実行してよく、図15に示すように、本願の実施例に係るターゲット検出装置150は、第1の画像及び第2の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第1の特徴マップ及び複数の異なるスケールの第2の特徴マップを取得する特徴抽出モジュール151と、複数の異なるスケールの第1の特徴マップと、第1の画像に含まれるクエリ対象のターゲットをタグ付けした結果である第1の画像のタグと、対応するスケールの第2の特徴マップとに基づいて、第2の画像におけるクエリ対象のターゲットを決定する決定モジュール152と、を含む。
好ましくは、特徴抽出モジュール151は、第1の画像及び第2の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第1の特徴マップ及び複数の異なるスケールの第2の特徴マップを取得する場合、具体的には、第1の画像及び第2の画像に対して特徴抽出をそれぞれ行って、第1の特徴マップ及び第2の特徴マップを取得するステップと、第1の特徴マップ及び第2の特徴マップに対して複数回のスケール変換をそれぞれ行って、複数の異なるスケールの第1の特徴マップ及び複数の異なるスケールの第2の特徴マップを取得するステップと、を含む。
好ましくは、特徴抽出モジュール151は、第1の特徴マップ及び第2の特徴マップに対して複数回のスケール変換をそれぞれ行う場合、具体的には、第1の特徴マップ及び第2の特徴マップに対して少なくとも2回のダウンサンプリングをそれぞれ行うステップを含む。
好ましくは、決定モジュール152は、複数の異なるスケールの第1の特徴マップと、第1の画像のタグと、対応するスケールの第2の特徴マップとに基づいて、第2の画像におけるクエリ対象のターゲットを決定する場合、具体的には、複数の異なるスケールの第1の特徴マップ及び上記第1の画像のタグに基づいて、複数の異なるスケールの第1の特徴ベクトルを決定するステップと、複数の異なるスケールの第1の特徴ベクトルと、対応するスケールの第2の特徴マップとを所定の計算ルールに基づいて計算して、計算結果を取得するステップと、計算結果に基づいて、第2の画像のマスク画像を決定するステップと、マスク画像に基づいて、第2の画像におけるクエリ対象のターゲットを決定するステップと、を含む。
好ましくは、決定モジュール152は、複数の異なるスケールの第1の特徴マップと、第1の画像のタグと、対応するスケールの第2の特徴マップとに基づいて、第2の画像におけるクエリ対象のターゲットを決定する場合、具体的には、複数の異なるスケールの第1の特徴マップと、第1の画像のタグと、対応するスケールの第2の特徴マップとを対応するスケールの第3の特徴マップの指導情報として、第2の画像におけるクエリ対象の画像を決定するステップを含み、第3の特徴マップは、第2の画像に基づいて決定され、かつ同じスケールの第2の特徴マップと第3の特徴マップとは異なる。
好ましくは、決定モジュール152は、複数の異なるスケールの第1の特徴マップと、第1の画像のタグと、対応するスケールの第2の特徴マップとを対応するスケールの第3の特徴マップの指導情報として、第2の画像におけるクエリ対象の画像を決定し、具体的には、複数の異なるスケールの第1の特徴マップ及び第1の画像のタグに基づいて、複数の異なるスケールの第1の特徴ベクトルを決定するステップと、複数の異なるスケールの第1の特徴ベクトルと、対応するスケールの第2の特徴マップとを所定の計算ルールに基づいて計算して、複数の異なるスケールのマスク画像を取得するステップと、複数の異なるスケールのマスク画像及び対応するスケールの第3の特徴マップを乗算した結果に基づいて、第2の画像におけるクエリ対象のターゲットを決定するステップと、を含む。
好ましくは、所定の計算ルールは、内積の計算ルール又はコサイン距離の計算ルールを含む。
好ましくは、決定モジュール152は、複数の異なるスケールの第1の特徴マップと、第1の画像のタグ情報と、対応するスケールの第2の特徴マップとに基づいて、第2の画像におけるクエリ対象のターゲットを決定し、具体的には、複数の異なるスケールの第1の特徴マップと、第1の画像のタグ情報と、対応するスケールの第2の特徴マップとに基づいて、各々が該スケールの第1の特徴マップ及び第2の特徴マップの類似性を特徴付けする複数の異なるスケールの類似度マップを決定するステップと、複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得するステップと、統合された類似度マップに基づいて、第2の画像におけるクエリ対象のターゲットを決定するステップと、を含む。
好ましくは、決定モジュール152は、複数の異なるスケールの第1の特徴マップと、第1の画像のタグ情報と、対応するスケールの第2の特徴マップとに基づいて、複数の異なるスケールの類似度マップを決定し、具体的には、複数の異なるスケールの第1の特徴マップ及び第1の画像のタグ情報に基づいて、複数の異なるスケールの第1の特徴ベクトルを決定するステップと、複数の異なるスケールの第1の特徴ベクトルと、対応するスケールの第2の特徴マップとを要素ごとに乗算して、複数の異なるスケールの類似度マップを取得するステップと、を含む。
好ましくは、決定モジュール152は、複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得し、具体的には、複数の異なるスケールの類似度マップをアップサンプリングして、複数の同じスケールの類似度マップを取得するステップと、複数の同じスケールの類似度マップを加算して、統合された類似度マップを取得するステップと、を含む。
好ましくは、決定モジュール152は、複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得し、具体的には、複数の異なるスケールの類似度マップで類似度マップセットを構成するステップと、類似度マップセット中のスケールが最小の類似度マップをアップサンプリングして、スケールが2番目に小さい類似度マップと同じスケールの類似度マップを取得するステップと、取得された類似度マップをスケールが2番目に小さい類似度マップに加算して、新たな類似度マップを取得するステップと、類似度マップセット中のアップサンプリング処理又は加算処理が行われていない類似度マップと新たな類似度マップとで新たな類似度マップセットを構成し、統合された類似度マップである最後の類似度マップを取得するまで、アップサンプリングのステップ及び加算ステップを繰り返し実行するステップと、を含む。
好ましくは、決定モジュール152は、さらに、複数の異なるスケールの類似度マップと、対応するスケールの第3の特徴マップとを要素ごとに乗算して、処理された複数の異なるスケールの類似度マップを取得し、第3の特徴マップが第2の画像に基づいて決定され、かつ同じスケールの第1の特徴マップ及び第3の特徴マップが異なり、処理された複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得する。
好ましくは、ターゲット検出装置は、ニューラルネットワークによって実装され、該装置は、以下のステップによりニューラルネットワークをトレーニングして取得するトレーニングモジュール153をさらに含み、該ステップは、いずれも第1の種別の対象を含む第1のサンプル画像及び第2のサンプル画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第4の特徴マップ及び複数の異なるスケールの第5の特徴マップを取得するステップと、複数の異なるスケールの第4の特徴マップと、第1のサンプル画像に含まれる第1の種別の対象をタグ付けした結果である第1のサンプル画像のタグと、対応するスケールの第5の特徴マップとに基づいて、第2のサンプル画像における第1の種別の対象を決定するステップと、決定された第2のサンプル画像における第1の種別の対象と、第2のサンプル画像に含まれる第1の種別の対象をタグ付けした結果である第2のサンプル画像のタグとの間の差異に基づいて、ニューラルネットワークのネットワークパラメータを調整するステップと、を含む。
好ましくは、該装置は、トレーニングされたニューラルネットワークをテストするテストモジュール154をさらに含み、テストモジュールは、具体的には、各々のテスト画像がいずれも同じ種別の対象を含むテスト画像セットからの第1のテスト画像及び第2のテスト画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第1のテスト特徴マップ及び複数の異なるスケールの第2のテスト特徴マップを取得するステップと、複数の異なるスケールの第1のテスト特徴マップと、第1のテスト画像に含まれるクエリ対象のターゲットをタグ付けした結果である第1のテスト画像のタグと、対応するスケールの第2のテスト特徴マップとに基づいて、第2のテスト画像におけるクエリ対象のターゲットを決定するステップとにより、トレーニングされたニューラルネットワークをテストする。
本願の実施例に係るターゲット検出装置は、上記ターゲット検出方法の実施例を実行し、その実現原理及び技術的効果が類似し、本実施例について、ここでは、説明を省略する。
図16は、本願の実施例に係るインテリジェント走行装置の概略構成図である。図16に示すように、本実施例に係るインテリジェント走行装置160は、道路画像を収集する収集モジュール161と、本願の実施例に係るターゲット検出方法を採用して、サポート画像と、サポート画像に含まれる、クエリ対象のターゲットと同じ種別のターゲットをタグ付けした結果であるサポート画像のタグとに基づいて、収集された道路画像に対してクエリ対象のターゲットのクエリを行うクエリモジュール162と、クエリ結果に基づいて、収集された道路画像のインテリジェント走行機器を制御する制御モジュール163と、を含む。
本願の実施例に係るインテリジェント走行装置の実施は、前述したインテリジェント走行方法を参照することができ、その実現原理及び技術的効果が類似し、本実施例について、ここでは、説明を省略する。
図17は、本願の実施例に係るターゲット検出機器のハードウェアの概略構成図である。本願の実施例に係るターゲット検出機器は、ターゲット検出方法の実施例に係る処理フローを実行してよく、図17に示すように、本願の実施例に係るターゲット検出機器170は、少なくとも1つのプロセッサ171及びメモリ172を含む。該ターゲット検出機器170は、通信部材173をさらに含む。プロセッサ171、メモリ172及び通信部材173は、バス174により接続される。
具体的な実現プロセスでは、少なくとも1つのプロセッサ171は、上記メモリ172に記憶されているコンピュータ実行命令を実行して、少なくとも1つのプロセッサ171に上記ターゲット検出方法を実行させる。
プロセッサ171の具体的な実現プロセスは、上記ターゲット検出方法の実施例を参照することができ、その実現原理及び技術的効果が類似し、本実施例について、ここでは、説明を省略する。
図18は、本願の実施例に係るインテリジェント走行機器のハードウェアの概略構成図である。本願の実施例に係るインテリジェント走行機器は、インテリジェント走行方法の実施例に係る処理フローを実行してよく、図18に示すように、本願の実施例に係るインテリジェント走行機器180は、少なくとも1つのプロセッサ181及びメモリ182を含む。該インテリジェント走行機器180は、通信部材183をさらに含む。プロセッサ181、メモリ182及び通信部材183は、バス184により接続される。
具体的な実現プロセスでは、少なくとも1つのプロセッサ181は、上記メモリ182に記憶されているコンピュータ実行命令を実行して、少なくとも1つのプロセッサ181に上記インテリジェント走行方法を実行させる。
プロセッサ181の具体的な実現プロセスは、上記インテリジェント走行方法の実施例を参照することができ、その実現原理及び技術的効果が類似し、本実施例について、ここでは、説明を省略する。
上記図17及び図18に示す実施例では、プロセッサは、中央処理装置(英語:Central Processing Unit、CPUと略称)であってよく、他の汎用プロセッサ、デジタル信号プロセッサ(英語:Digital Signal Processor、DSPと略称)、特定用途向け集積回路(英語:Application Specific Integrated Circuit、ASICと略称)などであってもよいことを理解されたい。汎用プロセッサは、マイクロプロセッサであってよく、任意の通常のプロセッサなどであってもよい。出願を組み合わせて開示された方法のステップは、ハードウェアプロセッサによって実行して完了されるか、又はプロセッサ内のハードウェアとソフトウェアモジュールとの組み合わせによって実行して完了されるものとして、直接的に具体化されてよい。
メモリは、高速RAMメモリを含む可能性があり、不揮発性メモリNVM、例えば、少なくとも1つの磁気ディスクメモリを含む可能性もある。
バスは、業界標準アーキテクチャ(Industry Standard Architecture、ISA)バス、外部機器相互接続(Peripheral Component、PCI)バス又は拡張業界標準アーキテクチャ(Extended Industry Standard Architecture、EISA)バスなどであってよい。バスは、アドレスバス、データバス、制御バスなどに分けられてよい。図示の便宜上、本願の図面におけるバスは、1本のバスだけ又は1種のバスに限定されるものではない。
別の実施例では、本願の実施例に係るコンピュータ可読記憶媒体には、プロセッサによって実行されると、上記ターゲット検出方法又はインテリジェント走行方法のステップを実現するコンピュータプログラムが記憶されている。
さらに別の実施例では、本願の実施例に係る、命令を実行するチップは、コード及びデータが記憶されているメモリと、上記メモリに結合され、上記メモリにおけるコードを実行することにより上記チップに上記ターゲット検出方法又はインテリジェント走行方法のステップを実行させるプロセッサと、を含む。
さらに別の実施例では、本願の実施例に係る、命令を含むプログラム製品は、コンピュータ上で実行されると、上記コンピュータに上記ターゲット検出方法又はインテリジェント走行方法のステップを実行させる。
さらに別の実施例では、本願の実施例に係るコンピュータプログラムは、プロセッサによって実行されると、上記ターゲット検出方法又はインテリジェント走行方法のステップを実行する。
本願に係るいくつかの実施例では、開示される装置及び方法は他の形態によって実現することができると理解されたい。例えば、上述した装置の実施例は、例示的なものに過ぎず、例えば、上記ユニットの区分は、論理上の機能の区分に過ぎず、実際に実現する場合に他の区分方式も可能であり、例えば、複数のユニット又はコンポーネントは組み合わせられてよく、又は別のシステムに集積されてよく、又はいくつかの特徴を無視してよく、実行しなくてよい。また、示されるか又は議論される相互結合、直接結合又は通信接続は、いくつかのインタフェースにより実現されてよく、装置又はユニット間の間接結合又は通信接続は、電気的、機械的、又は他の形態であってよい。
別個の部品として説明した上記ユニットは、物理的に別個であってよい又はでなくてもよく、ユニットとして表示される部品は、物理的ユニットであってよいか又はでなくてもよく、すなわち、1つの箇所に位置してよく、又は複数のネットワークユニットに配置されてもよい。実際の必要に応じて、それらのうちの一部又は全てのユニットを選択して本実施例の技術手段の目的を達成することができる。
また、本願の各実施例において、各機能ユニットが1つの処理ユニットに集積されてよく、各ユニットが別個に物理的に存在してもよく、2つ以上のユニットが1つのユニットに集積されてもよい。
上記集積されたユニットは、ハードウェアの形態で実現されてよく、ハードウェアとソフトウェア機能ユニットとの組み合わせの形態で実現されてもよい。上記ソフトウェア機能ユニットの形態で実現された、集積されたユニットは、コンピュータ可読記憶媒体に記憶されてよい。上記ソフトウェア機能ユニットは、コンピュータ機器(パーソナルコンピュータ、サーバ、又はネットワーク機器などであってよい)又はプロセッサ(processor)に本願の各実施例に記載の方法の一部のステップを実行させるいくつかの命令を含む記憶媒体に記憶されている。前述した記憶媒体は、USBフラッシュメモリ、リムーバブルハードディスク、読み出し専用メモリ(Read-Only Memory、ROM)、ランダムアクセスメモリ(Random Access Memory、RAM)、磁気ディスク又は光ディスクなどのプログラムコードを記憶可能な様々な媒体を含む。
当業者であれば明確に分かるように、便利で簡潔的に説明するために、上記各機能モジュールの区分で例を挙げて説明したが、実際の応用において、必要に応じて上記機能を異なる機能モジュールに割り当て、即ち装置の内部構成を異なる機能モジュールに区分してここまで説明された一部又は全ての機能を完成させることができる。上記説明された装置の具体的な動作プロセスについては、前述した方法の実施例における対応するプロセスを参照してよく、ここでは、説明を省略する。
なお、上記各実施例は、本願の技術手段を説明するための例示に過ぎず、限定するものではなく、前述した各実施例を参照して本願を詳細に説明したが、当業者が理解すべきこととして、依然として、前述した各実施例において記載される技術手段を修正するか、又はその一部又は全ての技術的特徴に同等置換を行うことができ、これらの修正や置換によって、対応する技術手段の本質は、本願の各実施例に係る技術手段の範囲から逸脱することはない。
Claims (36)
- 第1の画像及び第2の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第1の特徴マップ及び複数の異なるスケールの第2の特徴マップを取得するステップと、
複数の異なるスケールの第1の特徴マップと、前記第1の画像に含まれるクエリ対象のターゲットをタグ付けした結果である前記第1の画像のタグと、対応するスケールの前記第2の特徴マップとに基づいて、前記第2の画像におけるクエリ対象のターゲットを決定するステップと、を含むことを特徴とするターゲット検出方法。 - 第1の画像及び第2の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第1の特徴マップ及び複数の異なるスケールの第2の特徴マップを取得する前記ステップは、
前記第1の画像及び前記第2の画像に対して特徴抽出をそれぞれ行って、第1の特徴マップ及び第2の特徴マップを取得するステップと、
前記第1の特徴マップ及び前記第2の特徴マップに対して複数回のスケール変換をそれぞれ行って、複数の異なるスケールの第1の特徴マップ及び複数の異なるスケールの第2の特徴マップを取得するステップと、を含むことを特徴とする請求項1に記載の方法。 - 前記第1の特徴マップ及び前記第2の特徴マップに対して複数回のスケール変換をそれぞれ行う前記ステップは、
前記第1の特徴マップ及び前記第2の特徴マップに対して少なくとも2回のダウンサンプリングをそれぞれ行うステップを含むことを特徴とする、請求項2に記載の方法。 - 複数の異なるスケールの第1の特徴マップと、前記第1の画像のタグと、対応するスケールの前記第2の特徴マップとに基づいて、前記第2の画像におけるクエリ対象のターゲットを決定する前記ステップは、
複数の異なるスケールの第1の特徴マップ及び前記第1の画像のタグに基づいて、複数の異なるスケールの第1の特徴ベクトルを決定するステップと、
前記複数の異なるスケールの第1の特徴ベクトルと、対応するスケールの前記第2の特徴マップとを所定の計算ルールに応じて計算して、計算結果を取得するステップと、
前記計算結果に基づいて、前記第2の画像のマスク画像を決定するステップと、
前記マスク画像に基づいて、前記第2の画像におけるクエリ対象のターゲットを決定するステップと、を含むことを特徴とする請求項1~3のいずれか一項に記載の方法。 - 複数の異なるスケールの前記第1の特徴マップと、前記第1の画像のタグと、対応するスケールの前記第2の特徴マップとに基づいて、前記第2の画像におけるクエリ対象のターゲットを決定する前記ステップは、
複数の異なるスケールの第1の特徴マップと、前記第1の画像のタグと、対応するスケールの前記第2の特徴マップとを対応するスケールの第3の特徴マップの指導情報として、前記第2の画像におけるクエリ対象の画像を決定するステップを含み、
前記第3の特徴マップは、前記第2の画像に基づいて決定され、かつ同じスケールの第2の特徴マップと第3の特徴マップとは異なることを特徴とする、請求項1~3のいずれか一項に記載の方法。 - 複数の異なるスケールの前記第1の特徴マップと、前記第1の画像のタグと、対応するスケールの前記第2の特徴マップとを対応するスケールの第3の特徴マップの指導情報として、前記第2の画像におけるクエリ対象の画像を決定する前記ステップは、
複数の異なるスケールの第1の特徴マップ及び前記第1の画像のタグに基づいて、複数の異なるスケールの第1の特徴ベクトルを決定するステップと、
前記複数の異なるスケールの第1の特徴ベクトルと、対応するスケールの前記第2の特徴マップとを所定の計算ルールに基づいて計算して、複数の異なるスケールのマスク画像を取得するステップと、
複数の異なるスケールのマスク画像及び対応するスケールの前記第3の特徴マップを乗算した結果に基づいて、前記第2の画像におけるクエリ対象のターゲットを決定するステップと、を含むことを特徴とする請求項5に記載の方法。 - 前記所定の計算ルールは、
内積の計算ルール又はコサイン距離の計算ルールを含むことを特徴とする、請求項4又は6に記載の方法。 - 前記複数の異なるスケールの第1の特徴マップと、前記第1の画像のタグ情報と、対応するスケールの第2の特徴マップとに基づいて、前記第2の画像におけるクエリ対象のターゲットを決定する前記ステップは、
複数の異なるスケールの前記第1の特徴マップと、前記第1の画像のタグ情報と、対応するスケールの第2の特徴マップとに基づいて、各々が該スケールの第1の特徴マップ及び第2の特徴マップの類似性を特徴付けする複数の異なるスケールの類似度マップを決定するステップと、
複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得するステップと、
統合された類似度マップに基づいて、前記第2の画像におけるクエリ対象のターゲットを決定するステップと、を含むことを特徴とする請求項1に記載の方法。 - 複数の異なるスケールの前記第1の特徴マップと、前記第1の画像のタグ情報と、対応するスケールの第2の特徴マップとに基づいて、複数の異なるスケールの類似度マップを決定する前記ステップは、
複数の異なるスケールの第1の特徴マップ及び前記第1の画像のタグ情報に基づいて、複数の異なるスケールの第1の特徴ベクトルを決定するステップと、
前記複数の異なるスケールの第1の特徴ベクトルと、対応するスケールの前記第2の特徴マップとを要素ごとに乗算して、複数の異なるスケールの類似度マップを取得するステップと、を含むことを特徴とする請求項8に記載の方法。 - 複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得する前記ステップは、
複数の異なるスケールの類似度マップをアップサンプリングして、複数の同じスケールの類似度マップを取得するステップと、
複数の同じスケールの類似度マップを加算して、統合された類似度マップを取得するステップと、を含むことを特徴とする請求項8又は9に記載の方法。 - 複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得する前記ステップは、
前記複数の異なるスケールの類似度マップで類似度マップセットを構成するステップと、
前記類似度マップセット中のスケールが最小の類似度マップをアップサンプリングして、スケールが2番目に小さい類似度マップと同じスケールの類似度マップを取得するステップと、
取得された類似度マップをスケールが2番目に小さい類似度マップに加算して、新たな類似度マップを取得するステップと、
前記類似度マップセット中のアップサンプリング処理又は加算処理が行われていない類似度マップと新たな類似度マップとで新たな類似度マップセットを構成し、統合された類似度マップである最後の類似度マップを取得するまで、アップサンプリングのステップ及び加算のステップを繰り返し実行するステップと、を含むことを特徴とする請求項8又は9に記載の方法。 - 複数の異なるスケールの前記第1の特徴マップと、前記第1の画像のタグ情報と、対応するスケールの第2の特徴マップとに基づいて、複数の異なるスケールの類似度マップを決定した後、複数の異なるスケールの類似度マップを統合し、統合された類似度マップを取得する前記ステップの前に、
複数の異なるスケールの類似度マップと、対応するスケールの第3の特徴マップとを要素ごとに乗算して、処理された複数の異なるスケールの類似度マップを取得するステップをさらに含み、前記第3の特徴マップは、前記第2の画像に基づいて決定され、かつ同じスケールの第1の特徴マップと第3の特徴マップとは異なり、
複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得するステップは、
処理された複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得するステップを含む、ことを特徴とする請求項8~11のいずれか一項に記載の方法。 - 前記ターゲット検出方法は、ニューラルネットワークによって実行され、前記ニューラルネットワークは、
いずれも第1の種別の対象を含む第1のサンプル画像及び第2のサンプル画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第4の特徴マップ及び複数の異なるスケールの第5の特徴マップを取得するステップと、
複数の異なるスケールの第4の特徴マップと、前記第1のサンプル画像に含まれる前記第1の種別の対象をタグ付けした結果である前記第1のサンプル画像のタグと、対応するスケールの前記第5の特徴マップとに基づいて、前記第2のサンプル画像における前記第1の種別の対象を決定するステップと、
決定された前記第2のサンプル画像における前記第1の種別の対象と、前記第2のサンプル画像に含まれる前記第1の種別の対象をタグ付けした結果である前記第2のサンプル画像のタグとの間の差異に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するステップとによりトレーニングされて取得されるものである、ことを特徴とする請求項1~12のいずれか一項に記載の方法。 - 前記ニューラルネットワークをトレーニングした後、
トレーニングされたニューラルネットワークをテストするステップをさらに含み、
トレーニングされたニューラルネットワークをテストするステップは、
各々のテスト画像がいずれも同じ種別の対象を含むテスト画像セットからの第1のテスト画像及び第2のテスト画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第1のテスト特徴マップ及び複数の異なるスケールの第2のテスト特徴マップを取得するステップと、
複数の異なるスケールの第1のテスト特徴マップと、前記第1のテスト画像に含まれるクエリ対象のターゲットをタグ付けした結果である前記第1のテスト画像のタグと、対応するスケールの前記第2のテスト特徴マップとに基づいて、前記第2のテスト画像におけるクエリ対象のターゲットを決定するステップと、を含むことを特徴とする請求項13に記載の方法。 - 道路画像を収集するステップと、
請求項1~14のいずれか一項に記載の方法を採用して、サポート画像と、前記サポート画像に含まれる、前記クエリ対象のターゲットと同じ種別のターゲットをタグ付けした結果である前記サポート画像のタグとに基づいて、収集された道路画像に対してクエリ対象のターゲットのクエリを行うステップと、
クエリ結果に基づいて、収集された道路画像のインテリジェント走行機器を制御するステップと、を含むことを特徴とするインテリジェント走行方法。 - 第1の画像及び第2の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第1の特徴マップ及び複数の異なるスケールの第2の特徴マップを取得する特徴抽出モジュールと、
複数の異なるスケールの第1の特徴マップと、前記第1の画像に含まれるクエリ対象のターゲットをタグ付けした結果である前記第1の画像のタグと、対応するスケールの前記第2の特徴マップとに基づいて、前記第2の画像におけるクエリ対象のターゲットを決定する決定モジュールと、を含むことを特徴とするターゲット検出装置。 - 前記特徴抽出モジュールは、第1の画像及び第2の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第1の特徴マップ及び複数の異なるスケールの第2の特徴マップを取得する場合、具体的には、
前記第1の画像及び前記第2の画像に対して特徴抽出をそれぞれ行って、第1の特徴マップ及び第2の特徴マップを取得するステップと、
前記第1の特徴マップ及び前記第2の特徴マップに対して複数回のスケール変換をそれぞれ行って、複数の異なるスケールの第1の特徴マップ及び複数の異なるスケールの第2の特徴マップを取得するステップと、を含むことを特徴とする請求項16に記載の装置。 - 前記特徴抽出モジュールは、前記第1の特徴マップ及び前記第2の特徴マップに対して複数回のスケール変換をそれぞれ行う場合、具体的には、
前記第1の特徴マップ及び前記第2の特徴マップに対して少なくとも2回のダウンサンプリングをそれぞれ行うステップを含むことを特徴とする、請求項17に記載の装置。 - 前記決定モジュールは、複数の異なるスケールの第1の特徴マップと、前記第1の画像のタグと、対応するスケールの前記第2の特徴マップとに基づいて、前記第2の画像におけるクエリ対象のターゲットを決定する場合、具体的には、
複数の異なるスケールの第1の特徴マップ及び前記第1の画像のタグに基づいて、複数の異なるスケールの第1の特徴ベクトルを決定するステップと、
前記複数の異なるスケールの第1の特徴ベクトルと、対応するスケールの前記第2の特徴マップとを所定の計算ルールに応じて計算して、計算結果を取得するステップと、
前記計算結果に基づいて、前記第2の画像のマスク画像を決定するステップと、
前記マスク画像に基づいて、前記第2の画像におけるクエリ対象のターゲットを決定するステップと、を含むことを特徴とする請求項16~18のいずれか一項に記載の装置。 - 前記決定モジュールは、複数の異なるスケールの第1の特徴マップと、前記第1の画像のタグと、対応するスケールの前記第2の特徴マップとに基づいて、前記第2の画像におけるクエリ対象のターゲットを決定する場合、具体的には、
複数の異なるスケールの第1の特徴マップと、前記第1の画像のタグと、対応するスケールの前記第2の特徴マップとを対応するスケールの第3の特徴マップの指導情報として、前記第2の画像におけるクエリ対象の画像を決定するステップを含み、
前記第3の特徴マップは、前記第2の画像に基づいて決定され、かつ同じスケールの第2の特徴マップと第3の特徴マップとは異なることを特徴とする、請求項16~18のいずれか一項に記載の装置。 - 前記決定モジュールは、複数の異なるスケールの第1の特徴マップと、前記第1の画像のタグと、対応するスケールの前記第2の特徴マップとを対応するスケールの第3の特徴マップの指導情報として、前記第2の画像におけるクエリ対象の画像を決定し、具体的には、
複数の異なるスケールの第1の特徴マップ及び前記第1の画像のタグに基づいて、複数の異なるスケールの第1の特徴ベクトルを決定するステップと、
前記複数の異なるスケールの第1の特徴ベクトルと、対応するスケールの前記第2の特徴マップとを所定の計算ルールに基づいて計算して、複数の異なるスケールのマスク画像を取得するステップと、
複数の異なるスケールのマスク画像及び対応するスケールの前記第3の特徴マップを乗算した結果に基づいて、前記第2の画像におけるクエリ対象のターゲットを決定するステップと、を含むことを特徴とする請求項20に記載の装置。 - 前記所定の計算ルールは、
内積の計算ルール又はコサイン距離の計算ルールを含むことを特徴とする、請求項19に記載の装置。 - 前記決定モジュールは、前記複数の異なるスケールの第1の特徴マップと、前記第1の画像のタグ情報と、対応するスケールの第2の特徴マップとに基づいて、前記第2の画像におけるクエリ対象のターゲットを決定し、具体的には、
複数の異なるスケールの前記第1の特徴マップと、前記第1の画像のタグ情報と、対応するスケールの第2の特徴マップとに基づいて、各々が該スケールの第1の特徴マップ及び第2の特徴マップの類似性を特徴付けする複数の異なるスケールの類似度マップを決定するステップと、
複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得するステップと、
統合された類似度マップに基づいて、前記第2の画像におけるクエリ対象のターゲットを決定するステップと、を含むことを特徴とする請求項16に記載の装置。 - 前記決定モジュールは、複数の異なるスケールの前記第1の特徴マップと、前記第1の画像のタグ情報と、対応するスケールの第2の特徴マップとに基づいて、複数の異なるスケールの類似度マップを決定し、具体的には、
複数の異なるスケールの第1の特徴マップ及び前記第1の画像のタグ情報に基づいて、複数の異なるスケールの第1の特徴ベクトルを決定するステップと、
前記複数の異なるスケールの第1の特徴ベクトルと、対応するスケールの前記第2の特徴マップとを要素ごとに乗算して、複数の異なるスケールの類似度マップを取得するステップと、を含むことを特徴とする請求項23に記載の装置。 - 前記決定モジュールは、複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得し、具体的には、
複数の異なるスケールの類似度マップをアップサンプリングして、複数の同じスケールの類似度マップを取得するステップと、
複数の同じスケールの類似度マップを加算して、統合された類似度マップを取得するステップと、を含むことを特徴とする請求項23又は24に記載の装置。 - 前記決定モジュールは、複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得し、具体的には、
前記複数の異なるスケールの類似度マップで類似度マップセットを構成するステップと、
前記類似度マップセット中のスケールが最小の類似度マップをアップサンプリングして、スケールが2番目に小さい類似度マップと同じスケールの類似度マップを取得するステップと、
取得された類似度マップをスケールが2番目に小さい類似度マップに加算して、新たな類似度マップを取得するステップと、
前記類似度マップセット中のアップサンプリング処理又は加算処理が行われていない類似度マップと新たな類似度マップとで新たな類似度マップセットを構成し、統合された類似度マップである最後の類似度マップを取得するまで、アップサンプリングのステップ及び加算ステップを繰り返し実行するステップと、を含むことを特徴とする請求項23又は24に記載の装置。 - 前記決定モジュールは、さらに、
複数の異なるスケールの類似度マップと、対応するスケールの第3の特徴マップとを要素ごとに乗算して、処理された複数の異なるスケールの類似度マップを取得し、前記第3の特徴マップが前記第2の画像に基づいて決定され、かつ同じスケールの第1の特徴マップと第3の特徴マップとが異なり、
処理された複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得する、ことを特徴とする請求項23~26のいずれか一項に記載の装置。 - 前記ターゲット検出装置は、ニューラルネットワークによって実装され、
以下のステップを採用して前記ニューラルネットワークをトレーニングして取得するトレーニングモジュールをさらに含み、前記ステップは、
いずれも第1の種別の対象を含む第1のサンプル画像及び第2のサンプル画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第4の特徴マップ及び複数の異なるスケールの第5の特徴マップを取得するステップと、
複数の異なるスケールの第4の特徴マップと、前記第1のサンプル画像に含まれる前記第1の種別の対象をタグ付けした結果である前記第1のサンプル画像のタグと、対応するスケールの前記第5の特徴マップとに基づいて、前記第2のサンプル画像における前記第1の種別の対象を決定するステップと、
決定された前記第2のサンプル画像における前記第1の種別の対象と、前記第2のサンプル画像に含まれる前記第1の種別の対象をタグ付けした結果である前記第2のサンプル画像のタグとの間の差異に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するステップと、を含むことを特徴とする請求項16~27のいずれか一項に記載の装置。 - トレーニングされたニューラルネットワークをテストするテストモジュールをさらに含み、
前記テストモジュールは、具体的には、
各々のテスト画像がいずれも同じ種別の対象を含むテスト画像セットからの第1のテスト画像及び第2のテスト画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第1のテスト特徴マップ及び複数の異なるスケールの第2のテスト特徴マップを取得するステップと、
複数の異なるスケールの第1のテスト特徴マップと、前記第1のテスト画像に含まれるクエリ対象のターゲットをタグ付けした結果である前記第1のテスト画像のタグと、対応するスケールの前記第2のテスト特徴マップとに基づいて、前記第2のテスト画像におけるクエリ対象のターゲットを決定するステップとにより、トレーニングされたニューラルネットワークをテストすることを特徴とする請求項28に記載の装置。 - 道路画像を収集する収集モジュールと、
請求項1~14のいずれか一項に記載の方法を採用して、サポート画像と、前記サポート画像に含まれる、前記クエリ対象のターゲットと同じ種別のターゲットをマーキングした結果である前記サポート画像のタグとに基づいて、収集された道路画像に対してクエリ対象のターゲットのクエリを行うクエリモジュールと、
クエリ結果に基づいて、収集された道路画像のインテリジェント走行機器を制御する制御モジュールと、を含むことを特徴とするインテリジェント走行装置。 - メモリと、プロセッサと、メモリに記憶されプロセッサ上で実行可能なコンピュータプログラムとを含むターゲット検出機器であって、前記プロセッサによって前記プログラムを実行すると、請求項1~14のいずれか一項に記載の方法を実現することを特徴とするターゲット検出機器。
- メモリと、プロセッサと、メモリに記憶されプロセッサ上で実行可能なコンピュータプログラムとを含むインテリジェント走行機器であって、前記プロセッサによって前記プログラムを実行すると、請求項15に記載の方法を実現することを特徴とするインテリジェント走行機器。
- コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、該プログラムがプロセッサによって実行されると、請求項1~14のいずれか一項に記載のターゲット検出方法を実現するか、又は請求項15に記載のインテリジェント走行方法を実現することを特徴とするコンピュータ可読記憶媒体。
- 命令を実行するチップであって、コード及びデータが記憶されているメモリと、前記メモリに結合され、前記メモリにおけるコードを実行することにより前記チップに上記請求項1~14のいずれか一項に記載のターゲット検出方法を実行させるか、又は上記請求項15に記載のインテリジェント走行方法を実行させるプロセッサと、を含むことを特徴とするチップ。
- コンピュータ上で実行されると、前記コンピュータに上記請求項1~14のいずれか一項に記載のターゲット検出方法を実行させるか、又は上記請求項15に記載のインテリジェント走行方法を実行させることを特徴とする、命令を含むプログラム製品。
- プロセッサによって実行されると、上記請求項1~14のいずれか一項に記載のターゲット検出方法を実行するか、又は上記請求項15に記載のインテリジェント走行方法を実行することを特徴とする、コンピュータプログラム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911054823.1 | 2019-10-31 | ||
CN201911063316.4A CN112749602A (zh) | 2019-10-31 | 2019-10-31 | 目标查询方法、装置、设备及存储介质 |
CN201911054823.1A CN112749710A (zh) | 2019-10-31 | 2019-10-31 | 目标检测、智能行驶方法、装置、设备及存储介质 |
CN201911063316.4 | 2019-10-31 | ||
PCT/CN2020/123918 WO2021083126A1 (zh) | 2019-10-31 | 2020-10-27 | 目标检测、智能行驶方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022535473A true JP2022535473A (ja) | 2022-08-09 |
Family
ID=75715793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021539414A Pending JP2022535473A (ja) | 2019-10-31 | 2020-10-27 | ターゲット検出、インテリジェント走行方法、装置、機器及び記憶媒体 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP2022535473A (ja) |
KR (1) | KR20210098515A (ja) |
WO (1) | WO2021083126A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313662A (zh) * | 2021-05-27 | 2021-08-27 | 北京沃东天骏信息技术有限公司 | 图像处理方法、装置、设备及存储介质 |
CN113643239B (zh) * | 2021-07-15 | 2023-10-27 | 上海交通大学 | 一种基于记存机制的异常检测方法、装置和介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255352A (zh) * | 2018-09-07 | 2019-01-22 | 北京旷视科技有限公司 | 目标检测方法、装置及系统 |
CN109344821A (zh) * | 2018-08-30 | 2019-02-15 | 西安电子科技大学 | 基于特征融合和深度学习的小目标检测方法 |
CN109886286A (zh) * | 2019-01-03 | 2019-06-14 | 武汉精测电子集团股份有限公司 | 基于级联检测器的目标检测方法、目标检测模型及系统 |
-
2020
- 2020-10-27 JP JP2021539414A patent/JP2022535473A/ja active Pending
- 2020-10-27 KR KR1020217020811A patent/KR20210098515A/ko active Search and Examination
- 2020-10-27 WO PCT/CN2020/123918 patent/WO2021083126A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344821A (zh) * | 2018-08-30 | 2019-02-15 | 西安电子科技大学 | 基于特征融合和深度学习的小目标检测方法 |
CN109255352A (zh) * | 2018-09-07 | 2019-01-22 | 北京旷视科技有限公司 | 目标检测方法、装置及系统 |
CN109886286A (zh) * | 2019-01-03 | 2019-06-14 | 武汉精测电子集团股份有限公司 | 基于级联检测器的目标检测方法、目标检测模型及系统 |
Non-Patent Citations (1)
Title |
---|
"Siamese Neural Networks for One-shot Image Recognition", PROCEEDINGS OF THE 32ND INTERNATIONAL CONFERENCE ON MACHINE LEARNING, JPN6022038766, 31 December 2015 (2015-12-31), ISSN: 0005032222 * |
Also Published As
Publication number | Publication date |
---|---|
KR20210098515A (ko) | 2021-08-10 |
WO2021083126A1 (zh) | 2021-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298262B (zh) | 物体识别方法及装置 | |
US10810745B2 (en) | Method and apparatus with image segmentation | |
KR102565279B1 (ko) | 객체 검출 방법, 객체 검출을 위한 학습 방법 및 그 장치들 | |
CN107274445B (zh) | 一种图像深度估计方法和系统 | |
CN111209910A (zh) | 用于语义分割的系统、方法和非暂时性计算机可读介质 | |
CN112528878A (zh) | 检测车道线的方法、装置、终端设备及可读存储介质 | |
US11340700B2 (en) | Method and apparatus with image augmentation | |
John et al. | Real-time road surface and semantic lane estimation using deep features | |
CN110781744A (zh) | 一种基于多层次特征融合的小尺度行人检测方法 | |
CN112990065B (zh) | 一种基于优化的YOLOv5模型的车辆分类检测方法 | |
CN116188999B (zh) | 一种基于可见光和红外图像数据融合的小目标检测方法 | |
JP2022535473A (ja) | ターゲット検出、インテリジェント走行方法、装置、機器及び記憶媒体 | |
Cho et al. | Semantic segmentation with low light images by modified CycleGAN-based image enhancement | |
CN112529904A (zh) | 图像语义分割方法、装置、计算机可读存储介质和芯片 | |
Al Mamun et al. | Lane marking detection using simple encode decode deep learning technique: SegNet | |
US20210117700A1 (en) | Lane line attribute detection | |
CN112287859A (zh) | 物体识别方法、装置和系统,计算机可读存储介质 | |
Kaur et al. | A convolutional feature map-based deep network targeted towards traffic detection and classification | |
CN112749602A (zh) | 目标查询方法、装置、设备及存储介质 | |
Choi et al. | ADFNet: accumulated decoder features for real‐time semantic segmentation | |
CN112749710A (zh) | 目标检测、智能行驶方法、装置、设备及存储介质 | |
CN113569600A (zh) | 物体重识别的方法、装置、电子设备及存储介质 | |
CN113221604A (zh) | 目标识别方法、装置、存储介质及电子设备 | |
Gashi et al. | Multi-scale context aggregation by dilated convolutions machine learning-project | |
US20220292806A1 (en) | Methods and Systems for Object Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210716 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210716 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220913 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230407 |