JP2022535473A

JP2022535473A - ターゲット検出、インテリジェント走行方法、装置、機器及び記憶媒体

Info

Publication number: JP2022535473A
Application number: JP2021539414A
Authority: JP
Inventors: ルゥ，シューチャン; チェン，グァンリャン; シー，ジャンピン
Original assignee: ベイジンセンスタイムテクノロジーデベロップメントシーオー．，エルティーディー
Priority date: 2019-10-31
Filing date: 2020-10-27
Publication date: 2022-08-09
Also published as: KR20210098515A; WO2021083126A1

Abstract

本願は、ターゲット検出、インテリジェント走行方法、装置、機器及び記憶媒体を提供する。該ターゲット検出方法は、第１の画像及び第２の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第１の特徴マップ及び複数の異なるスケールの第２の特徴マップを取得するステップと、複数の異なるスケールの第１の特徴マップと、前記第１の画像に含まれるクエリ対象のターゲットをマーキングした結果である前記第１の画像のタグと、対応するスケールの前記第２の特徴マップとに基づいて、前記第２の画像におけるクエリ対象のターゲットを決定するステップと、を含む。本願は、第１の画像及び第２の画像を複数の異なるスケールの特徴に表現することにより、第１の画像及び第２の画像の特徴表現能力を高めて、ターゲット検出の精度を向上させる。

Description

本願は、２０１９年１０月３１日に中国国家知識産権局に提出された、出願番号が２０１９１１０５４８２３．１で、発明の名称が「ターゲット検出、インテリジェント走行方法、装置、機器及び記憶媒体」である中国特許出願、及び２０１９年１０月３１日に中国国家知識産権局に提出された、出願番号が２０１９１１０６３３１６．４で、発明の名称が「ターゲットクエリ方法、装置、機器及び記憶媒体」である中国特許出願の優先権を主張するものであり、それらと本願の全ての内容は、参照により本願に組み込まれるものとする。

本願は、画像処理の分野に関し、具体的には、ターゲット検出、インテリジェント走行方法、装置、機器及び記憶媒体に関する。

単一サンプルセマンティックセグメンテーションは、コンピュータビジョン分野、インテリジェント画像処理分野において新たに生じた問題であり、ある種別の単一トレーニングサンプルによりセグメンテーションモデルに該種別の所在する画素を識別する能力を具備させることを目的とする。

単一サンプルセマンティックセグメンテーションの提供により従来の画像セマンティックセグメンテーションの問題となるサンプル収集及びマーキングのコストを効果的に低減することができる。単一サンプル画像セマンティックセグメンテーションは、ある種別の物体を単一サンプルだけでトレーニングすることにより、セグメンテーションモデルに該物体の所有する画素を識別する能力を具備させることができる。ターゲットクエリは、画像セマンティックセグメンテーションの方式により、画像に含まれるターゲットをクエリすることができる。画像セマンティックセグメンテーションは、単一サンプル画像セマンティックセグメンテーションを含む。従来の画像セマンティックセグメンテーションでは、モデルの性能を保証するためにすべての類別の物体に対して大量のトレーニング画像が必要であり、非常に高いタグ付けのコストをもたらす。

本願は、従来のターゲット検出精度が低いという技術的課題を解決するために、ターゲット検出、インテリジェント走行方法、装置、機器及び記憶媒体を提供することを目的とする。

上記技術的課題を解決するために、本願の技術手段は、以下のとおり実現される。

１つの実施例に係るターゲット検出方法は、第１の画像及び第２の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第１の特徴マップ及び複数の異なるスケールの第２の特徴マップを取得するステップと、複数の異なるスケールの第１の特徴マップと、前記第１の画像に含まれるクエリ対象のターゲットをタグ付けした結果である前記第１の画像のタグと、対応するスケールの前記第２の特徴マップとに基づいて、前記第２の画像におけるクエリ対象のターゲットを決定するステップと、を含む。

別の実施例に係るインテリジェント走行方法は、道路画像を収集するステップと、上述したターゲット検出方法を採用して、サポート画像と、前記サポート画像に含まれる、前記クエリ対象のターゲットと同じ種別のターゲットをタグ付けした結果である前記サポート画像のタグとに基づいて、収集された道路画像に対してクエリ対象のターゲットのクエリを行うステップと、クエリ結果に基づいて、収集された道路画像のインテリジェント走行機器を制御するステップと、を含む。

別の実施例に係るターゲット検出装置は、第１の画像及び第２の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第１の特徴マップ及び複数の異なるスケールの第２の特徴マップを取得する特徴抽出モジュールと、複数の異なるスケールの第１の特徴マップと、前記第１の画像に含まれるクエリ対象のターゲットをタグ付けした結果である前記第１の画像のタグと、対応するスケールの前記第２の特徴マップとに基づいて、前記第２の画像におけるクエリ対象のターゲットを決定する決定モジュールと、を含む。

別の実施例に係るインテリジェント走行装置は、道路画像を収集する収集モジュールと、上述したターゲット検出方法を採用して、サポート画像と、前記サポート画像に含まれる、前記クエリ対象のターゲットと同じ種別のターゲットをタグ付けした結果である前記サポート画像のタグとに基づいて、収集された道路画像に対してクエリ対象のターゲットのクエリを行うクエリモジュールと、クエリ結果に基づいて、収集された道路画像のインテリジェント走行機器を制御する制御モジュールと、を含む。

別の実施例に係るターゲット検出機器は、メモリと、プロセッサと、メモリに記憶されプロセッサ上で実行可能で、前記プロセッサによって実行されると、上述したターゲット検出方法を実現するコンピュータプログラムとを含む。

別の実施例に係るインテリジェント走行機器は、メモリと、プロセッサと、メモリに記憶されプロセッサ上で実行可能なコンピュータプログラムとを含み、前記プロセッサによって前記コンピュータプログラムが実行されると、上述したインテリジェント走行方法を実現することを特徴とする。

別の実施例に係るコンピュータ可読記憶媒体には、プロセッサによって実行されると、前記ターゲット検出方法のステップを実現するか、又は前記インテリジェント走行方法のステップを実現するコンピュータプログラムが記憶されている。

さらに別の実施例に係る、命令を実行するチップは、コード及びデータが記憶されているメモリと、前記メモリに結合され、前記メモリにおけるコードを実行することにより前記チップに上記ターゲット検出方法のステップを実行させるか、又は上記インテリジェント走行方法のステップを実行させるプロセッサと、を含む。

さらに別の実施例に係る、命令を含むプログラム製品は、コンピュータ上で実行されると、前記コンピュータに上記ターゲット検出方法のステップを実行させるか、又は上記インテリジェント走行方法のステップを実行させる。

さらに別の実施例に係るコンピュータプログラムは、プロセッサによって実行されると、上記ターゲット検出方法のステップを実行するか、又は上記インテリジェント走行方法のステップを実行する。

以上の技術手段により、上記実施例において異なるスケールの第１の特徴マップ及び第２の特徴マップを取得するため、第１の画像及び第２の画像の特徴表現能力を高めることにより、第１の画像と第２の画像との間の類似性を判断するより多くの情報を取得できるため、後続のターゲット検出が単一サンプルに対して、より豊かな特徴入力を有することにより、単一サンプルセマンティックセグメンテーションのセグメンテーション精度を向上させて、ターゲット検出の精度を向上させる。

以下の図面は、本願の範囲を限定するものではなく、本願を例示的に説明及び解釈するものに過ぎない。
本願の実施例に係るターゲット検出方法のフローチャートである。本願の実施例に係るターゲット検出モデルの概略構成図である。本願の実施例に係るターゲット検出方法のフローチャートである。本願の実施例に係る対称的なカスケード構造の概略構成図である。本願の実施例に係るターゲット検出方法のフローチャートである。本願の別の実施例に係るターゲット検出モデルの概略構成図である。本願のさらに別の実施例に係るターゲットクエリ方法のフローチャートである。本願の別の実施例に係るターゲットクエリ方法のフローチャートである。本願のさらに別の実施例に係るターゲットクエリ方法のフローチャートである。本願のさらに別の実施例に係るターゲットクエリ方法のフローチャートである。本願の実施例に係るインテリジェント走行方法のフローチャートである。本願の実施例に係るターゲット検出プロセスの概略図である。本願の実施例に係る生成モジュール及び集約モジュールの概略図である。本願の実施例に係るターゲットクエリ方法における類似性特徴抽出方式と従来技術における抽出方式との比較概略図である。本願の実施例に係るターゲット検出装置の概略構成図である。本願の実施例に係るインテリジェント走行装置の概略構成図である。本願の実施例に係るターゲット検出機器の概略構成図である。本願の実施例に係るインテリジェント走行機器の概略構成図である。

本願の実施例の目的、技術手段及び利点をより明確にするために、以下、本願の実施例における図面を参照しながら、本願の実施例における技術手段を明確かつ完全的に記載する。明らかに、記載される実施例は、本願の実施例の一部に過ぎず、全ての実施例ではない。

従来技術において、単一サンプル画像セマンティックセグメンテーションの深層学習モデルは、ターゲットクエリを行う必要がある画像であるクエリセット画像と、タグ情報を取得するために予めタグ付けされたクエリ対象のターゲットを含むサポートセット画像とに対して特徴抽出をそれぞれ行うものである。タグ情報と組み合わせて、サポートセット画像の特徴とクエリセット画像の特徴との間の類似性により、クエリセット画像におけるターゲットを決定する。

しかしながら、従来の技術では、深層学習モデルは、サポートセット画像を単一の特徴ベクトルに表現し、サポートセット画像に対する特徴表現能力が限られるため、モデルが、サポートセット画像の特徴とクエリ画像画素の特徴との間の類似性を説明する能力が足りないことを引き起こし、ターゲットクエリの精度が低いことを引き起こす。

本願の実施例では、第１の画像は、上記サポートセット画像であってよく、第２の画像は、上記クエリセット画像であってよく、第１の画像及び第２の画像に対して複数の異なるスケールの特徴抽出を行うことにより、第１の画像及び第２の画像を複数の異なるスケールの特徴に表現して、第１の画像及び第２の画像の特徴表現能力を高めることにより、第１の画像と第２の画像との間の類似性を判断するより多くの情報を取得して、ターゲットクエリの精度を向上させることができる。

以下、具体的な実施例を参照しながら、本願の技術手段及び本願の技術手段がどのように上記技術的課題を解決するかを詳細に説明する。以下のいくつかの具体的な実施例を互いに組み合わせることができ、同じ又は類似する概念又はプロセスについていくつかの実施例では、説明を省略する可能性がある。以下、図面を参照しながら本願の実施例を説明する。

図１は、本願の実施例に係るターゲット検出方法のフローチャートである。本願の実施例は、従来技術の以上の技術的課題に対して、ターゲット検出方法を提供し、該方法の具体的なステップは、以下のステップ１０１～ステップ１０２のとおりである。

ステップ１０１では、第１の画像及び第２の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第１の特徴マップ及び複数の異なるスケールの第２の特徴マップを取得する。

本実施例では、第２の画像は、ターゲットクエリを行う必要がある画像であり、ターゲットクエリによって第２の画像に含まれるクエリ対象のターゲットの所在する画素領域を検出することができる。クエリ対象のターゲットは、実際の状況に応じて決定されてよく、例えば、動物、植物、人物、車両などであってよいが、ここでは、これらを限定しない。タグ情報は、第１の画像におけるクエリ対象のターゲットのプロフィール情報、画素情報などであってよいが、ここでは、これらを限定しない。好ましくは、タグ情報は、二値化タグであってよく、二値化タグにおけるターゲットの所在する画素点領域と画像における他の領域との画素値は異なる。

本実施例のターゲット検出方法は、車両のターゲット検出プロセスに適用されてよく、車両は、自動運転車両、又は先進運転支援（ＡｄｖａｎｃｅｄＤｒｉｖｅｒＡｓｓｉｓｔａｎｃｅＳｙｓｔｅｍｓ、ＡＤＡＳ）システムが搭載されている車両などであってよい。ターゲット検出方法は、ロボットに適用されてもよいことを理解されたい。車両を例にして、第１の画像及び第２の画像は、車両上の画像収集機器によって収集されて取得されてよく、画像収集機器は、カメラ、例えば単眼カメラ、双眼カメラなどであってよい。

本実施例では、特徴抽出アルゴリズムにより第１の画像に対して複数の異なるスケールの特徴抽出を行って、複数の異なるスケールの第１の特徴マップを取得し、第２の画像に対して複数の異なるスケールの特徴抽出を行って、複数の異なるスケールの第２の特徴マップを取得することができる。特徴抽出アルゴリズムは、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、畳み込みニューラルネットワーク）アルゴリズム、ＬＢＰ（ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ、ローカルバイナリパターン）アルゴリズム、ＳＩＦＴ（Ｓｃａｌｅ－ｉｎｖａｒｉａｎｔｆｅａｔｕｒｅｔｒａｎｓｆｏｒｍ、スケール不変特徴変換）アルゴリズム、ＨＯＧ（ＨｉｓｔｏｇｒａｍｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔ、勾配方向ヒストグラム）アルゴリズムなどであってよく、ここでは、これらを限定しない。

本実施例では、特徴抽出アルゴリズムは、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、畳み込みニューラルネットワーク）アルゴリズムである場合、本実施例に係るターゲット検出方法は、図２に示すターゲット検出モデルに適用できる。図２に示すように、該ターゲット検出モデル２０は、特徴抽出ネットワーク２１、スケール変換モジュール２２及び畳み込みネットワーク２３を含む。特徴抽出ネットワーク２１は、ニューラルネットワークであり、従来のネットワークアーキテクチャ、例えば、ＶＧＧ（ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐ）ネットワーク、Ｒｅｓｎｅｔネットワーク又は他の汎用の画像特徴抽出ネットワークなどを採用してよい。例えば、第１の画像及び第２の画像を特徴抽出ネットワーク２１に同時に入力して複数の異なるスケールの特徴抽出を行ってよく、同じネットワークアーキテクチャ及びネットワークパラメータを有する２つの特徴抽出ネットワーク２１を設け、第１の画像及び第２の画像をこの２つの特徴抽出ネットワーク２１にそれぞれ入力して、第１の画像及び第２の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行ってもよい。例えば、複数の異なるスケールを予め指定して、各スケールに対して、第１の画像及び第２の画像に対して該スケールの特徴抽出をそれぞれ行って、該スケールの第１の特徴マップ及び第２の特徴マップを取得してよい。

ステップ１０２では、複数の異なるスケールの第１の特徴マップと、第１の画像に含まれるクエリ対象のターゲットをマーキングした結果である第１の画像のタグと、対応するスケールの第２の特徴マップとに基づいて、第２の画像におけるクエリ対象のターゲットを決定する。

本実施例では、各スケールの第１の特徴マップ、第２の特徴マップに対して、第１の画像のタグ情報と組み合わせて、該スケールの第１の特徴マップと第２の特徴マップとの類似性を特徴付けする類似度マップを取得することができる。次に、異なるスケールの類似度マップにより、第２の画像におけるクエリ対象のターゲットを決定することができる。

本実施例は、第１の画像及び第２の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第１の特徴マップ及び複数の異なるスケールの第２の特徴マップを取得し、複数の異なるスケールの第１の特徴マップと、第１の画像に含まれるクエリ対象のターゲットをマーキングした結果である第１の画像のタグと、対応するスケールの上記第２の特徴マップとに基づいて、第２の画像におけるクエリ対象のターゲットを決定する。異なるスケールの第１の特徴マップ及び第２の特徴マップを取得するため、第１の画像及び第２の画像の特徴表現能力を高めることにより、第１の画像と第２の画像との間の類似性を判断するより多くの情報を取得できるため、後続のターゲット検出が単一サンプルに対して、より豊かな特徴入力を有することにより、単一サンプルセマンティックセグメンテーションのセグメンテーション精度を向上させて、ターゲット検出の精度を向上させる。

本願の実施例では、第１の画像にはクエリ対象のターゲットと同じ種別のターゲットが含まれれば、第１の画像に含まれる、クエリ対象のターゲットと同じ種別のターゲットの姿勢、テクスチャ、色などの情報は、第１の画像に含まれる、クエリ対象のターゲットと同じ種別のターゲットの姿勢、テクスチャ、色などの情報と異なってよい。例えば、クエリ対象のターゲットは、交通信号灯である場合、第１の画像に含まれる交通信号灯は縦に配列され、第２の画像に交通信号灯が含まれれば、第２の画像における交通信号灯は、横に配列されてよく、かつ交通信号灯は、第１の画像及び第２の画像での状態が一致しなくてよい。

図３に示すように、第１の画像及び第２の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第１の特徴マップ及び複数の異なるスケールの第２の特徴マップを取得するステップは、ステップ３０１～ステップ３０２を含む。

ステップ３０１では、第１の画像及び第２の画像に対して特徴抽出をそれぞれ行って、第１の特徴マップ及び第２の特徴マップを取得する。

図２に示すように、特徴抽出ネットワーク２１は、第１の畳み込みモジュール２１１、第２の畳み込みモジュール２１２及び第３の畳み込みモジュール２１３を含み、第１の畳み込みモジュール２１１は、順に接続された３つの畳み込み層を含み、第２の畳み込みモジュール２１２及び第３の畳み込みモジュール２１３は、それぞれ１つの畳み込み層を含む。

例えば、第１の画像及び第２の画像を図２に示す第１の畳み込みモジュール２１１に同時に入力してよく、第１の畳み込みモジュール２１１は、第１の画像及び第２の画像に基づいて、対応する特徴抽出結果をそれぞれ出力し、そのすぐ後に第１の畳み込みモジュール２１１が第１の画像及び第２の画像に基づいてそれぞれ出力した特徴抽出結果を第２の畳み込みモジュール２１２に入力する。第２の畳み込みモジュール２１２は、第１の畳み込みモジュール２１１が第１の画像及び第２の画像に基づいてそれぞれ出力した特徴抽出結果に基づいて、対応する特徴抽出結果をそれぞれ出力し、そのすぐ後に第２の畳み込みモジュール２１２が第１の畳み込みモジュール２１１の第１の画像及び第２の画像に基づいてそれぞれ出力した特徴抽出結果に基づいてそれぞれ出力した特徴抽出結果を第３の畳み込みモジュール２１３に入力して、第３の畳み込みモジュール２１３により第２の畳み込みモジュール２１２が出力した特徴抽出結果に基づいて特徴抽出を行うことにより、第１の画像の特徴抽出結果及び第２の画像の特徴抽出結果をそれぞれ第１の特徴マップ及び第２の特徴マップとしてそれぞれ出力する。

ステップ３０２では、第１の特徴マップ及び第２の特徴マップに対して複数回のスケール変換をそれぞれ行って、複数の異なるスケールの第１の特徴マップ及び複数の異なるスケールの第２の特徴マップを取得する。

図２に示すように、第１の特徴マップ及び第２の特徴マップをスケール変換モジュール２２にそれぞれ入力して、スケール変換モジュール２２が第１の特徴マップ及び第２の特徴マップに対して複数回のスケール変換をそれぞれ行うことにより、第１の画像及び第２の画像を複数の異なる寸法の特徴マップとしてそれぞれ表現する。

好ましくは、第１の特徴マップ及び第２の特徴マップに対して複数回のスケール変換をそれぞれ行うステップは、第１の特徴マップ及び第２の特徴マップに対して少なくとも２回のダウンサンプリングをそれぞれ行うステップを含む。

好ましくは、第１の特徴マップ及び第２の特徴マップに対して少なくとも２回のダウンサンプリングをそれぞれ行うステップは、第１のサンプリングレートを採用して第１の特徴マップ及び第２の特徴マップをそれぞれダウンサンプリングして、第１の画像より第１の倍数ダウンサンプリングされた第１の特徴マップと、第２の画像より第２の倍数ダウンサンプリングされた第２の特徴マップとを取得するステップと、第２のサンプリングレートで、第１の画像より第１の倍数ダウンサンプリングされた第１の特徴マップと、第２の画像より第２の倍数ダウンサンプリングされた第２の特徴マップとをそれぞれダウンサンプリングして、第１の画像より第２の倍数ダウンサンプリングされた第１の特徴マップと、第２の画像より第２の倍数ダウンサンプリングされた第２の特徴マップとを取得するステップと、を含み、第２の倍数は第１の倍数より大きい。

例えば、第１のサンプリングレートで第１の特徴マップをダウンサンプリングして、第１の画像より第１の倍数ダウンサンプリングされた第１の特徴マップを取得し、そのすぐ後に第２のサンプリングレートで、第１の画像より第１の倍数ダウンサンプリングされた第１の特徴マップをダウンサンプリングして、第１の画像より第２の倍数ダウンサンプリングされた第１の特徴マップを取得し、第２の倍数は第１の倍数より大きい。同様に、第２の特徴マップについても、第１のサンプリングレートで第２の特徴マップをダウンサンプリングして、第２の画像より第１の倍数ダウンサンプリングされた第２の特徴マップを取得し、そのすぐ後に第２のサンプリングレートで、第２の画像より第２の倍数ダウンサンプリングされた第２の特徴マップをダウンサンプリングして、第２の画像より第２の倍数ダウンサンプリングされた第２の特徴マップを取得する。

好ましくは、第１のサンプリングレートで第１の特徴マップ及び第２の特徴マップをそれぞれダウンサンプリングして、第１の画像より第１の倍数ダウンサンプリングされた第１の特徴マップと、第２の画像より第２の倍数ダウンサンプリングされた第２の特徴マップとを取得した後、本願の実施例の方法は、第３のサンプリングレートで、第１の画像より第２の倍数ダウンサンプリングされた第１の特徴マップと、第２の画像より第２の倍数ダウンサンプリングされた第２の特徴マップとをそれぞれダウンサンプリングして、第１の画像より第３の倍数ダウンサンプリングされた第１の特徴マップと、第２の画像より第３の倍数ダウンサンプリングされた第２の特徴マップとを取得するステップをさらに含み、第３の倍数は第２の倍数より大きい。好ましくは、第１の倍数、第２の倍数及び第３の倍数は、それぞれ８倍、１６倍及び３２倍である。

１つの好ましい例では、スケール変換モジュール２２は、対称的なカスケード構造を採用してよく、図４に示すように、対称的なカスケード構造は、互いに対称的に設けられた２つのカスケード構造を含み、各カスケード構造は、順に接続された３つのサンプリングユニットをそれぞれ含む。理解の便宜上、以下、２つのカスケード構造は、それぞれ第１のカスケード構造４１及び第２のカスケード構造４２と呼ばれ、第１のカスケード構造に含まれる３つのサンプリングユニットは、それぞれ第１のサンプリングユニット、第２のサンプリングユニット及び第３のサンプリングユニットと呼ばれ、第２のカスケード構造に含まれる３つのサンプリングユニットは、それぞれ第４のサンプリングユニット、第５のサンプリングユニット及び第６のサンプリングユニットと呼ばれる。第１のサンプリングユニット及び第４のサンプリングユニットはサンプリングレートが同じであり、第２のサンプリングユニット及び第５のサンプリングユニットはサンプリングレートが同じであり、第３のサンプリングユニット及び第６のサンプリングユニットはサンプリングレートが同じである。例えば、第１のサンプリングユニット及び第４のサンプリングユニットは、それぞれ第１のサンプリングレートで第１の特徴マップ及び第２の特徴マップをサンプリングすることにより、第１の画像及び第２の画像より８倍ダウンサンプリングされた第１の特徴マップ及び第２の特徴マップを出力し、第２のサンプリングユニット及び第５のサンプリングユニットは、それぞれ第２のサンプリングレートで、第１のサンプリングユニット及び第４のサンプリングユニットが出力した結果をサンプリングし続けることにより、第１の画像及び第２の画像より１６倍ダウンサンプリングされた第１の特徴マップ及び第２の特徴マップを出力し、第３のサンプリングユニット及び第６のサンプリングユニットは、それぞれ第３のサンプリングレートで、第２のサンプリングユニット及び第５のサンプリングユニットが出力した結果をサンプリングし続けることにより、第１の画像及び第２の画像より３２倍ダウンサンプリングされた第１の特徴マップ及び第２の特徴マップを出力する。

本実施例では、図４に示す対称的なカスケード構造を採用して、第１の特徴マップ及び第２の特徴マップに対して複数回のスケール変換をそれぞれ行ってよい。例えば、第１のカスケード構造４１を採用して第１の特徴マップに対して異なるスケールの変換を行う場合、第１の特徴マップをそれぞれ第１のサンプリングユニット、第２のサンプリングユニット及び第３のサンプリングユニットに順に入力して、それぞれ第１のサンプリングユニット、第２のサンプリングユニット及び第３のサンプリングユニットにより、異なるサンプリングレートのダウンサンプリングを行うことにより、第１の画像の寸法より８倍、１６倍及び３２倍ダウンサンプリングされた第１の特徴マップを出力する。同様に、第２のカスケード構造４２を採用して第２の特徴マップに対して異なるスケールの変換を行う場合、第２の特徴マップをそれぞれ第４のサンプリングユニット、第５のサンプリングユニット及び第６のサンプリングユニットに順に入力して、それぞれ第４のサンプリングユニット、第５のサンプリングユニット及び第６のサンプリングユニットにより、異なるサンプリングレートのダウンサンプリングを行うことにより、第２の画像の寸法より８倍、１６倍及び３２倍ダウンサンプリングされた第２の特徴マップを出力する。

上記第１のカスケード構造４１及び第２のカスケード構造４２は、２段のカスケード構造であってもよく、例えば、第１のカスケード構造４１及び第２のカスケード構造４２は、順に接続される２つのサンプリングユニットをそれぞれ含むことを理解されたい。

好ましくは、複数の異なるスケールの第１の特徴マップと、第１の画像のタグと、対応するスケールの第２の特徴マップとに基づいて、第２の画像におけるクエリ対象のターゲットを決定するステップは、複数の異なるスケールの第１の特徴マップ及び第１の画像のタグに基づいて、複数の異なるスケールの第１の特徴ベクトルを決定するステップと、複数の異なるスケールの第１の特徴ベクトルと、対応するスケールの第２の特徴マップとを所定の計算ルールに基づいて計算して、計算結果を取得するステップと、計算結果に基づいて、第２の画像のマスク画像を決定するステップと、マスク画像に基づいて、第２の画像におけるクエリ対象のターゲットを決定するステップと、を含む。好ましくは、所定の計算ルールは、内積の計算ルール又はコサイン距離の計算ルールを含む。第１の画像のタグは、画像におけるターゲット又は対象の種別を表示する情報を指す。

所定の計算ルールが内積であることを例にして、図２に示すように、各スケールの第１の特徴マップ及び第１の画像のタグは、いずれも１つの特徴ベクトルを形成することができ、例えば、第１の画像より８倍、１６倍、３２倍ダウンサンプリングされた第１の特徴マップ及び第１の画像のタグに対してそれぞれ補間演算を行って１つの特徴ベクトルを形成し、以下、第１の特徴ベクトル、第２の特徴ベクトル及び第３の特徴ベクトルと呼び、次に、それぞれ、第１の特徴ベクトルと、第２の画像より８倍ダウンサンプリングされた第２の特徴マップとに対して内積演算を行い、第２の特徴ベクトルと、第１の画像より１６倍ダウンサンプリングされた第２の特徴マップとに対して内積演算を行い、第３の特徴ベクトルと、第１の画像より３２倍ダウンサンプリングされた第２の特徴マップとに対して内積演算を行って、３つの異なるスケールの確率マップを取得する。３つの異なるスケールの確率マップの寸法は、それぞれ第１の特徴ベクトル、第２の特徴ベクトル及び第３の特徴ベクトルの寸法と同じであり、３つの異なるスケールの確率マップの寸法は、それぞれ第１の画像又は第２の画像より８倍、１６倍及び３２倍ダウンサンプリングされた第１の特徴マップ又は第２の特徴マップの寸法と同じであると考えてよい。その後、この３つの確率マップを畳み込みネットワーク２３に入力し、畳み込みネットワーク２３により、この３つの確率マップを接続して、接続後の画像を畳み込むことにより、第２の画像のマスク画像ｍａｓｋを出力し、第２の画像のターゲット検出効果を達成する。

好ましくは、複数の異なるスケールの第１の特徴マップと、第１の画像のタグと、対応するスケールの第２の特徴マップとに基づいて、第２の画像におけるクエリ対象のターゲットを決定するステップは、複数の異なるスケールの第１の特徴マップと、第１の画像のタグと、対応するスケールの第２の特徴マップとを対応するスケールの第３の特徴マップの指導情報として、第２の画像におけるクエリ対象の画像を決定するステップを含み、第３の特徴マップは、第２の画像に基づいて決定され、かつ同じスケールの第２の特徴マップと第３の特徴マップとは異なる。上記実施例と比較して、本実施例では、第３の特徴マップにより上記実施例で取得された異なるスケールの内積演算結果を指導するプロセスを追加することにより、後続のターゲット検出の精度を向上させ、第３の特徴マップに対して、図２に示す特徴抽出ネットワーク２１以外の他の特徴抽出ネットワークを採用して特徴抽出を行い、第３の特徴マップの特徴抽出ネットワークのネットワークアーキテクチャ及びネットワークパラメータは、第１、第２の特徴マップのネットワークアーキテクチャ及びネットワークパラメータと異なり、例えば、畳み込みカーネルが異なる。

図５は、本願の別の実施例に係るターゲット検出方法のフローチャートである。上記実施例に基づいて、本実施例に係るターゲット検出方法は、具体的には、以下のステップ５０１～ステップ５０３を含む。

ステップ５０１では、複数の異なるスケールの第１の特徴マップ及び第１の画像のタグに基づいて、複数の異なるスケールの第１の特徴ベクトルを決定する。

ステップ５０２では、複数の異なるスケールの第１の特徴ベクトルと、対応するスケールの第２の特徴マップとを所定の計算ルールに基づいて計算して、複数の異なるスケールのマスク画像を取得する。

該ステップで取得されるマスク画像を指導情報として第３の特徴マップを指導する。

ステップ５０３では、複数の異なるスケールのマスク画像及び対応するスケールの第３の特徴マップを乗算した結果に基づいて、第２の画像におけるクエリ対象のターゲットを決定する。

本実施例では、複数の異なるスケールのマスク画像及び対応するスケールの第３の特徴マップを乗算することは、同じスケールのマスク画像及び第３の特徴マップにおける同じ位置で、マスク画像の値（スカラー）及び第３の特徴マップの値（ベクトル）を乗算することを指す。

本実施例に係る方法は、図６に示す検出モデルに適用でき、図６に示す検出モデルと図２に示す検出モデルは、図２に示す特徴抽出ネットワーク２１に基づいていくつかの畳み込み層を追加し、図２に示す対称的なカスケード構造に基づいて１つの第３のカスケード構造を追加するという点で異なっている。第３のカスケード構造の構造は、第１のカスケード構造又は第２のカスケード構造の構造と同じであり、その実現原理は、上記実施例についての説明を参照することができる。

図６に示すように、検出モデル６０は、特徴抽出ネットワーク６１、スケール変換モジュール６２及び畳み込みネットワーク６３を含む。特徴抽出ネットワーク６１は、第４の畳み込みモジュール６１１、第５の畳み込みモジュール６１２、第６の畳み込みモジュール６１３、第７の畳み込みモジュール６１４、第８の畳み込みモジュール６１５、第９の畳み込みモジュール６１６及び第１０の畳み込みモジュール６１７を含む。第４の畳み込みモジュール６１１、第５の畳み込みモジュール６１２及び第６の畳み込みモジュール６１３と、図２に示す第１の畳み込みモジュール２１１、第２の畳み込みモジュール２１２及び第３の畳み込みモジュール２１３とはネットワークアーキテクチャ及びネットワークパラメータが同じであり、その作用及び原理は、図２に示す実施例部分の内容についての説明を参照することができ、本実施例では、主に図６と図２との相違点に対して詳細に説明される。以上から分かるように、図２に示す特徴抽出ネットワーク２１に基づいて、第６の畳み込みモジュール６１３（図２における第３の畳み込みモジュール２１３）の後に第７の畳み込みモジュール６１４がさらに接続され、第４の畳み込みモジュール６１１（図２における第３の畳み込みモジュール２１１）の後に第８の畳み込みモジュール６１５、第９の畳み込みモジュール６１６及び第１０の畳み込みモジュール６１７が順に接続される。第６の畳み込みモジュール６１３及び第７の畳み込みモジュール６１４の出力は、さらにそれぞれ第８の畳み込みモジュール６１５及び第９の畳み込みモジュール６１６の入力とされる。第１０の畳み込みモジュール６１７の出力は、第３のカスケード構造３３の入力とされる。第７の畳み込みモジュール６１４はそれぞれ、第６の畳み込みモジュール６１３の出力結果に基づいて特徴抽出を行って、第１の特徴マップ及び第２の特徴マップを取得した後、スケール変換モジュール６２に入力する。スケール変換モジュール６２と図２に示すスケール変換モジュール２２との構造及び原理は同じであり、スケール変換モジュール６２は、それぞれ第１の特徴マップ及び第２の特徴マップに対して異なるスケールの変換を行うと同時に、第１の画像のタグ情報もスケール変換モジュール６２に出力される。スケール変換モジュール６２は、複数の異なるスケールの第１の特徴マップ、第２の特徴マップ及び第１の画像のタグ情報に基づいて、複数の異なるスケールのマスク画像ｍａｓｋ３２ｘ、ｍａｓｋ１６ｘ、ｍａｓｋ８ｘを出力する。ｍａｓｋ３２ｘ、ｍａｓｋ１６ｘ、ｍａｓｋ８ｘはそれぞれ、第１の特徴マップ又は第２の特徴マップより３２倍、１６倍及び８倍ダウンサンプリングされたマスク画像を表す。スケール変換モジュール６２が出力したマスク画像ｍａｓｋ３２ｘ、ｍａｓｋ１６ｘ、ｍａｓｋ８ｘと、第３のカスケード構造が第２の画像に基づいて出力した、第２の画像より８倍、１６倍及び３２倍ダウンサンプリングされた第２の特徴マップとに対して、対応する画素位置での乗算演算を行うことにより、３つの確率マップを取得する。その後、この３つの確率マップを畳み込みネットワークに入力して畳み込みなどの操作を行うことにより、第２の画像に対するターゲット検出を実現する。

好ましくは、本実施例は、第６の畳み込みモジュール６１３により抽出された特徴マップを第３のカスケード構造に直接的に入力してもよい。

好ましくは、本実施例は、直接的に第６の畳み込みモジュール６１３が出力した、第１の画像に対する特徴マップ及び第２の画像に対する特徴マップを第１のカスケード構造及び第２のカスケード構造にそれぞれ入力してもよい。

好ましくは、図２に示す第１の畳み込みモジュール、第２の畳み込みモジュール及び第３の畳み込みモジュールは、１つの標準的なＶＧＧネットワークアーキテクチャであり、当業者であれば、実際の必要に応じて、図２に示すＶＧＧネットワークアーキテクチャと、図６における第４の畳み込みモジュール、第５の畳み込みモジュール、第６の畳み込みモジュール及び第７の畳み込みモジュールとに基づいて畳み込みモジュールの数を増加又は減少させてよい。本願の実施例は、複数の異なるスケールの第１の特徴マップ及び第１の画像のタグに基づいて、複数の異なるスケールの第１の特徴ベクトルを決定した後、複数の異なるスケールの第１の特徴ベクトルと、対応するスケールの第２の特徴マップとを所定の計算ルールに基づいて計算して、計算結果を取得し、かつ計算結果に基づいて、第２の画像のマスク画像を決定し、マスク画像に基づいて、第２の画像におけるクエリ対象のターゲットを決定する。複数の異なるスケールのマスク画像は、対応するスケールの第２の特徴マップの分割に対して類似性指導を行う（スケール変換モジュール６２が出力したマスク画像ｍａｓｋ３２ｘ、ｍａｓｋ１６ｘ、ｍａｓｋ８ｘと、第３のカスケード構造が第２の画像に基づいて出力した、第２の画像より８倍、１６倍及び３２倍ダウンサンプリングされた第２の特徴マップとに対して、対応する画素位置での乗算演算を行う）。また、第６の畳み込みモジュールを例にして、第５の畳み込みモジュール６１２の第２の画像に対する出力結果が第６の畳み込みモジュールに入力されるため、第６の畳み込みモジュールは、第５の畳み込みモジュールの出力結果及び第２の画像の出力結果に基づいて融合した後に再び特徴抽出を行うことができ、このようにして、より豊かな特徴情報を抽出することができるが、逆伝播する場合、フィードバックされた損失関数もより豊かな情報を有することにより、特徴抽出ネットワークにおける各畳み込みモジュールのネットワークパラメータをよりよく調整することができる。したがって、後続のターゲット検出プロセスにおいても、検出モデルの検出精度をさらに向上させることができる。

図７は、本願のさらに別の実施例に係るターゲット検出方法のフローチャートである。本実施例は、複数の異なるスケールの第１の特徴マップと、第１の画像のタグ情報と、対応するスケールの第２の特徴マップとに基づいて、第２の画像におけるクエリ対象のターゲットを決定するステップの具体的な実現プロセスを詳細に説明する。図７に示すように、該方法は、以下のＳ７０１～Ｓ７０４を含む。

Ｓ７０１では、第１の画像及び第２の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第１の特徴マップ及び複数の異なるスケールの第２の特徴マップを生成する。

本実施例では、Ｓ７０１は、図１の実施例におけるＳ１０１と類似し、ここでは、説明を省略する。

Ｓ７０２では、複数の異なるスケールの第１の特徴マップと、第１の画像のタグ情報と、対応するスケールの第２の特徴マップとに基づいて、各々が該スケールの第１の特徴マップ及び第２の特徴マップの類似性を特徴付けする複数の異なるスケールの類似度マップを決定する。

本実施例では、各スケールの類似度マップには、該スケールの第１の特徴マップと第２の特徴マップとの間の特徴の類似性情報が含まれる。

好ましくは、Ｓ７０２は、複数の異なるスケールの第１の特徴マップ及び第１の画像のタグ情報に基づいて、複数の異なるスケールの第１の特徴ベクトルを決定するステップと、複数の異なるスケールの第１の特徴ベクトルと、対応するスケールの第２の特徴マップとを要素ごとに乗算して、複数の異なるスケールの類似度マップを取得するステップと、を含んでよい。

本実施例では、各スケールの第１の特徴マップに対して、該スケールの第１の特徴マップ及び第１の画像のタグ情報を乗算して、該スケールの第１の特徴ベクトルを取得してよい。次に、該スケールの第１の特徴ベクトルと、該スケールの第２の特徴マップとを要素ごとに乗算して、該スケールの類似度マップを取得する。該スケールの類似度マップにおいて、各画素位置で、１つのベクトルにより第１の特徴ベクトルと第２の特徴マップとの該位置での類似性を表現する。

内積又はコサイン距離を使用して２つの特徴マップの間の類似度をシングルチャネルの類似度マップに表現して、シングルチャネルの類似度マップによりセマンティックセグメンテーションを行うことにより、ターゲットクエリを実現する場合と比較して説明する。内積の場合を例にすれば、２つの特徴マップ上の同じ位置にある２つの特徴ベクトルに対して内積を求めて、各画素位置に対応する数値を取得し、最終的に取得された類似度マップ上の各画素位置が１つの数値だけに対応するため、シングルチャネルの特徴情報しか特徴付けすることができず、シングルチャネルの特徴情報は、サポートセット画像の特徴を十分に表現することができないため、特徴マップの間の類似性を説明する能力が足りないことを引き起こして、ターゲットクエリの精度が低いことを引き起こす。本実施例では、複数の異なるスケールの第１の特徴ベクトルと、対応するスケールの第２の特徴マップとを要素ごとに乗算する方式により異なるスケールの類似度マップを生成し、要素ごとに乗算する方式により内積又はコサイン距離方式を代替することにより、各スケールの類似度マップがマルチチャネルの類似性情報を含み、類似性特徴をより十分に表現して、ターゲットクエリの精度をさらに向上させることができる。

Ｓ７０３では、複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得する。

本実施例では、アップサンプリングにより異なるスケールの類似度マップを同じスケールの類似度マップに変換して、統合して、統合された類似度マップを取得することができる。具体的には、以下の２種の実現方式のうちのいずれか１種により実現され、以下、それぞれ説明する。

第１の実現方式では、Ｓ７０３は、複数の異なるスケールの類似度マップをアップサンプリングして、複数の同じスケールの類似度マップを取得するステップと、複数の同じスケールの類似度マップを加算して、統合された類似度マップを取得するステップと、を含んでよい。

本実施例では、それぞれ複数の異なるスケールの類似度マップを同じスケールにアップサンプリングして、加算することにより、統合された類似度マップを取得してよい。例えば、合計３つの類似度マップＡ、Ｂ、Ｃを有し、三者のスケールは、順にｍ１、ｍ２、ｍ３であり、ｍ１＞ｍ２＞ｍ３であると仮定すると、それぞれＢ及びＣをアップサンプリングして、Ｂ及びＣのスケールをｍ１に上げて、ＡとアップサンプリングされたＢ及びＣの三者を加算して、スケールがｍ１である統合された類似度マップを取得し、又は、１つのスケールｍ４を指定し、ｍ４＞ｍ１であり、それぞれＡ、Ｂ及びＣをアップサンプリングし、Ａ、Ｂ及びＣのスケールをいずれもｍ４に上げて、アップサンプリングされたＡ、Ｂ及びＣを加算して、スケールがｍ４である統合された類似度マップを取得してよい。

第２の実現方式では、Ｓ７０３は、
複数の異なるスケールの類似度マップで類似度マップセットを構成するステップと、
類似度マップセット中のスケールが最小の類似度マップをアップサンプリングして、スケールが２番目に小さい類似度マップと同じスケールの類似度マップを取得するステップと、
取得された類似度マップをスケールが２番目に小さい類似度マップに加算して、新たな類似度マップを取得するステップと、
類似度マップセット中のアップサンプリング処理又は加算処理が行われていない類似度マップと新たな類似度マップとで新たな類似度マップセットを構成し、統合された類似度マップである最後の類似度マップを取得するまで、アップサンプリングのステップ及び加算のステップを繰り返し実行するステップと、を含んでよい。

３つの類似度マップを例にして該実現方式を説明する。合計３つの類似度マップＡ、Ｂ、Ｃを有し、三者のスケールは、順にｍ１、ｍ２、ｍ３であり、ｍ１＞ｍ２＞ｍ３であると仮定すると、まずＣをアップサンプリングして、Ｃのスケールをｍ２に上げて、ＢとアップサンプリングされたＣを加算して、スケールがｍ２である新たな類似度マップＤを取得してよい。次にＤをアップサンプリングし、Ｄのスケールをｍ１に上げて、ＡとアップサンプリングされたＤを加算して、最終的に統合された類似度マップを取得する。

Ｓ７０４では、統合された類似度マップに基づいて、第２の画像におけるクエリ対象のターゲットを決定する。

本実施例では、Ｓ７０４は、図１の実施例におけるＳ１０２と類似し、ここでは、説明を省略する。

本実施例では、複数の異なるスケールの第１の特徴マップと、第１の画像のタグ情報と、対応するスケールの第２の特徴マップとに基づいて、複数の異なるスケールの類似度マップを決定して、複数の異なるスケールの類似度マップを統合し、統合された類似度マップを取得して、統合された類似度マップに基づいて、第２の画像におけるクエリ対象のターゲットを決定することにより、複数の異なるスケールの類似度を統合して、統合された類似度に複数のスケールの特徴情報を含ませることにより、ターゲットクエリの精度をさらに向上させることができる。

図８は、本願の別の実施例に係るターゲット検出方法のフローチャートである。本実施例と図７の実施例は、Ｓ７０２で複数の異なるスケールの類似度マップを決定した後、Ｓ７０３で複数の異なるスケールの類似度マップを統合する前に、複数の異なるスケールの類似度マップと対応するスケールの第３の特徴マップとを要素ごとに乗算して、処理された複数の異なるスケールの類似度マップを取得するという点で異なっている。

図８に示すように、該方法は、以下のＳ８０１～Ｓ８０５を含む。

Ｓ８０１では、第２の画像及び第１の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第１の特徴マップ及び複数の異なるスケールの第２の特徴マップを生成する。

本実施例では、Ｓ８０１は、図１の実施例におけるＳ１０１と類似し、ここでは、説明を省略する。

Ｓ８０２では、複数の異なるスケールの第１の特徴マップと、第１の画像のタグ情報と、対応するスケールの第２の特徴マップとに基づいて、各々が該スケールの第１の特徴マップ及び第２の特徴マップの類似性を特徴付けする複数の異なるスケールの類似度マップを決定する。

本実施例では、Ｓ８０２は、図７の実施例におけるＳ７０２と類似し、ここでは、説明を省略する。

Ｓ８０３では、複数の異なるスケールの類似度マップと、対応するスケールの第３の特徴マップとを要素ごとに乗算して、処理された複数の異なるスケールの類似度マップを取得し、第３の特徴マップが第２の画像に基づいて決定され、かつ同じスケールの第２の特徴マップと第３の特徴マップとが異なる。

Ｓ８０４では、処理された複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得する。

本実施例では、Ｓ８０４は、図７の実施例におけるＳ７０４と類似し、ここでは、説明を省略する。

本実施例では、第２の画像に対して特徴抽出を行う場合、複数の異なるスケールの第２の特徴マップを抽出して取得するだけでなく、複数の異なるスケールの第３の特徴マップを抽出して取得する。各スケールについて、第２の画像に対して異なる特徴抽出方式を採用し、例えば、異なるネットワークパラメータを有する２つのニューラルネットワークなどを採用して、それぞれ該スケールの第２の特徴マップ及び第３の特徴マップを取得してよい。

複数の異なるスケールの第１の特徴マップと、第１の画像のタグ情報と、対応するスケールの第２の特徴マップとに基づいて、複数の異なるスケールの類似度マップを決定した後、各スケールの類似度マップに対して、該スケールの類似度マップと該スケールの第３の特徴マップとを要素ごとに乗算して、処理された該スケールの類似度マップを取得する。次に処理された複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得する。

Ｓ８０５では、統合された類似度マップに基づいて、第２の画像におけるクエリ対象のターゲットを決定する。

本実施例は、複数の異なるスケールの第１の特徴マップと、第１の画像のタグ情報と、対応するスケールの第２の特徴マップとに基づいて、複数の異なるスケールの類似度マップを決定し、第２の画像における第３の特徴マップを要素ごとに乗算することにより、複数の異なるスケールの類似度マップを使用して第２の画像の分割を指導することにより、ターゲットクエリの正確度をさらに向上させることができる。

図９は、本願の実施例に係るターゲット検出方法のフローチャートである。

図９に示すように、上記実施例のターゲット検出方法は、ニューラルネットワークによって実行され、該ニューラルネットワークは、以下のステップ９０１～ステップ９０３によりトレーニングされて取得される。

ステップ９０１では、いずれも第１の種別の対象を含む第１のサンプル画像及び第２のサンプル画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第４の特徴マップ及び複数の異なるスケールの第５の特徴マップを取得する。

ステップ９０２では、複数の異なるスケールの第４の特徴マップと、第１のサンプル画像に含まれる第１の種別の対象をタグ付けした結果である第１のサンプル画像のタグと、対応するスケールの第５の特徴マップとに基づいて、第２のサンプル画像における第１の種別の対象を決定する。

ステップ９０３では、決定された第２のサンプル画像における第１の種別の対象と、第２のサンプル画像に含まれる第１の種別の対象をタグ付けした結果である第２のサンプル画像のタグとの間の差異に基づいて、ニューラルネットワークのネットワークパラメータを調整する。

本実施例では、ニューラルネットワークにより上記ターゲットクエリ方式を実現し、ターゲットクエリを行う前に、まず該ニューラルネットワークをトレーニングする。具体的には、複数のサンプル画像を含むトレーニングセットから、同じ種別の対象を含む第１のサンプル画像及び第２のサンプル画像を取得してよく、該対象は、今回トレーニングプロセスにおけるクエリ対象のターゲットである。トレーニングセットには、複数のサブセットが含まれてよく、各サブセット内のサンプル画像は、いずれも同じ種別の対象を含む。例えば、種別は、車両、歩行者、交通信号機（すなわち交通信号灯）などを含んでよく、取得された第１のサンプル画像及び第２のサンプル画像は、いずれも交通信号機を含んでよい。交通信号機を今回のトレーニングプロセスにおけるクエリ対象のターゲットとする。第１のサンプル画像における交通信号機をタグ付けすることにより第１のサンプル画像のタグを取得する。第２のサンプル画像における交通信号機をタグ付けすることにより第２のサンプル画像のタグを取得する。

本実施例のトレーニングプロセスは、上記実施例のターゲット検出方法のプロセスと類似し、具体的な実施プロセスは、上記実施例についての説明を参照することができる。説明すべきこととして、本実施例では、第１のサンプル画像及び第２のサンプル画像には同じ種別の対象を含む必要があって、ニューラルネットワークをトレーニングして、ニューラルネットワークに同じ種別の画像の間の関連付けを識別させることができる。例えば、トレーニング段階では、交通信号灯を採用してニューラルネットワークをトレーニングし、テスト又は応用段階では、街灯を採用してニューラルネットワークをテストするか、又は該ニューラルネットワークに応用することができる。

図１０は、本願のさらに別の実施例に係るターゲット検出方法のフローチャートである。本実施例では、図９の実施例におけるトレーニングされたニューラルネットワークのテスト方式を詳細に説明する。図１０に示すように、該方法は、以下のＳ１００１～Ｓ１００２をさらに含んでよい。

Ｓ１００１では、各々のテスト画像がいずれも同じ種別の対象を含むテスト画像セットからの第１のテスト画像及び第２のテスト画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第１のテスト特徴マップ及び複数の異なるスケールの第２のテスト特徴マップを取得する。

Ｓ１００２では、複数の異なるスケールの第１のテスト特徴マップと、第１のテスト画像に含まれるクエリ対象のターゲットをタグ付けした結果である第１のテスト画像のタグと、対応するスケールの第２のテスト特徴マップとに基づいて、第２のテスト画像におけるクエリ対象のターゲットを決定する。

本実施例では、同じ種別の対象を含むテスト画像を１つのテスト画像セットに予め組み合わせ、複数のテスト画像セットを１つの総テストセットに組み合わせることができる。ニューラルネットワークをテストする場合、１つのテスト画像セットから第１のテスト画像及び第２のテスト画像を選択し、第１のテスト画像及び第２のテスト画像によりニューラルネットワークをテストする。例えば、街灯を含む第１のテスト画像及び第２のテスト画像によりニューラルネットワークをテストすることができる。

１つの例では、テスト画像セットにおいてテスト種別ごとに１つのサンプルを第１のテスト画像として選択することができ、例えば、ＰＡＳＣＡＬＶＯＣのテスト画像セットにおいて、種別（合計２０種）ごとに１枚の画像を第１のテスト画像として選択する。テストプロセスでは、テスト画像セットにおける各サンプルが、その対応する種別の第１のテスト画像とテストデータ対を組み合わせて、図２又は図５に示すモデルに入力して評価を行い、テストデータ対内のテスト画像には同じ種別のターゲットが含まれる。このようにして、従来のランダムに選択されたテストデータ対による種別選択の不均一の問題を回避するとともに、サンプルの品質が異なることにより評価指標が変動するという問題を解決することができる。好ましくは、テスト時に、１００回トレーニングした後に、１回テストしてよく、１２０回トレーニングした後に、さらに１回テストしてもよい。当業者であれば、実際の必要に応じて対応して調整でき、本実施例は、これを具体的に限定しない。

本願の実施例におけるトレーニングされたニューラルネットワークは、クエリ対象の画像の種別の対応するトレーニング画像の数がトレーニング画像セットにおいて低い占有率を有するか又は学習されていない種別である場合であっても、本実施例に係るターゲット方法は、それを正確に検出することができる。また、本願の実施例に係る、テストデータ対をランダムに選択する方法は、さらに、タスクがサンプルに強く依存することを軽減することができ、実際の応用シーンにおいて収集しにくい種別のサンプルも正確に検出でき、従来のランダムに選択されたテストデータ対による種別選択の不均一の問題を回避するとともに、サポートサンプルの品質が異なることにより評価指標が浮動するという問題を解決することができる。例えば、自動運転におけるターゲット検出タスクにおいて、シーンにおける大量のトレーニングサンプルを供給しないあるターゲット種別に対しても正確に検出することができる。

図１１は、本願の実施例に係るインテリジェント走行方法のフローチャートである。図１１に示すように、該方法は、以下のＳ１１０１～Ｓ１１０３を含んでよい。

Ｓ１１０１では、道路画像を収集する。

Ｓ１１０２では、上述したターゲット検出方法を採用して、サポート画像と、サポート画像に含まれる、クエリ対象のターゲットと同じ種別のターゲットをタグ付けした結果であるサポート画像のタグとに基づいて、収集された道路画像に対してクエリ対象のターゲットのクエリを行う。

Ｓ１１０３では、クエリ結果に基づいて、収集された道路画像のインテリジェント走行機器を制御する。

本実施例では、インテリジェント走行機器は、自動運転車両、先進運転支援システム（ＡｄｖａｎｃｅｄＤｒｉｖｉｎｇＡｓｓｉｓｔａｎｔＳｙｓｔｅｍ、ＡＤＡＳ）が取り付けられた車両、ロボットなどを含んでよい。例えば、インテリジェント走行機器が走行時に又は駐車時に収集された道路画像を取得して、上記ターゲット検出方法を採用して道路画像に対してターゲット検出を行うことができる。上記ターゲット検出方式を採用する場合、道路画像は、上記第２の画像とされ、サポート画像は、上記第１の画像とされる。次に、ターゲット検出結果に基づいてインテリジェント走行機器を制御する。例えば、自動運転車両又はロボットなどのインテリジェント走行機器を直接的に制御して、減速、ブレーキ操作、転向などの操作を行うか、又はＡＤＡＳが取り付けられた車両の運転者に減速、ブレーキ操作、転向などの命令を送信することができる。例えば、クエリ結果がインテリジェント走行機器の前の交通信号機が赤信号であることを表示すれば、インテリジェント走行機器を減速させ駐車するように制御する。クエリ結果がインテリジェント走行機器の前に歩行者が現れることを表示すれば、インテリジェント走行機器をブレーキ操作するように制御する。

図１２は、本願の実施例に係るターゲット検出プロセスの概略図である。第１の画像を第１の畳み込みニューラルネットワークに入力して第１の画像の複数の異なるスケールの第１の特徴マップを取得し、第２の画像を第２の畳み込みニューラルネットワークに入力して第２の画像の複数の異なるスケールの第２の特徴マップを取得する。第２の画像の第２の特徴マップ、第１の画像の第１の特徴マップ及び第１の画像のタグ情報を生成モジュールに入力して、複数のスケールの類似度マップを取得する。複数のスケールの類似度マップを集約モジュールに入力して、統合された類似度マップを取得する。統合された類似度マップを第３の畳み込みニューラルネットワークに入力して、第２の画像のセマンティックセグメンテーションマップを取得することにより、第２の画像のターゲット検出を実現する。

図１３は、本願の実施例に係る生成モジュール及び集約モジュールの概略図である。図において、ｃｏｎｖは、畳み込み層を示し、ｐｏｏｌは、プーリング処理を示す。第１の画像の特徴マップを生成モジュール１３１の第１の畳み込みチャネルに入力して、複数の異なるスケールの第１の特徴マップを取得する。第２の画像の特徴マップを生成モジュール１３１の第２の畳み込みチャネルに入力して、複数の異なるスケールの第２の特徴マップを取得して、それぞれ第１の画像のタグ情報と乗算処理及びプーリング処理を行って、第１の画像の複数の異なるスケールの特徴ベクトルを取得する。第２の画像の複数の異なるスケールの特徴マップと対応するスケールの特徴ベクトルとをそれぞれ要素ごとに乗算して、複数の異なるスケールの類似度マップを取得する。生成モジュール１３１は、複数の異なるスケールの類似度マップを集約モジュール１３２に出力して、集約モジュール１３２は、複数の異なるスケールの類似度マップを統合して、統合された類似度マップを出力する。

図１４は、本願の実施例に係るターゲット検出方法における類似性特徴の抽出方式と内積又はコサイン距離による類似性特徴の抽出方式との比較概略図である。図における左側部分は、内積又はコサイン距離により類似性特徴を抽出する概略図である。図における右側部分は、対応する画素位置のベクトルの乗算により類似性特徴を抽出する概略図である。本願の実施例に係る方法において、要素ごとに乗算する方法は、内積又はコサイン距離と比較すると、出力された類似度マップがシングルチャネルからマルチチャネルになり、このように類似性情報のチャネル情報を保留できるとともに、後続の畳み込み及び非線形操作と組み合わせて類似性特徴をさらに合理的に表現することにより、ターゲット検出の精度をさらに向上させることができる。

図１５は、本願の実施例に係るターゲット検出装置の概略構成図である。本願の実施例に係るターゲット検出装置は、ターゲット検出方法の実施例に係る処理フローを実行してよく、図１５に示すように、本願の実施例に係るターゲット検出装置１５０は、第１の画像及び第２の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第１の特徴マップ及び複数の異なるスケールの第２の特徴マップを取得する特徴抽出モジュール１５１と、複数の異なるスケールの第１の特徴マップと、第１の画像に含まれるクエリ対象のターゲットをタグ付けした結果である第１の画像のタグと、対応するスケールの第２の特徴マップとに基づいて、第２の画像におけるクエリ対象のターゲットを決定する決定モジュール１５２と、を含む。

好ましくは、特徴抽出モジュール１５１は、第１の画像及び第２の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第１の特徴マップ及び複数の異なるスケールの第２の特徴マップを取得する場合、具体的には、第１の画像及び第２の画像に対して特徴抽出をそれぞれ行って、第１の特徴マップ及び第２の特徴マップを取得するステップと、第１の特徴マップ及び第２の特徴マップに対して複数回のスケール変換をそれぞれ行って、複数の異なるスケールの第１の特徴マップ及び複数の異なるスケールの第２の特徴マップを取得するステップと、を含む。

好ましくは、特徴抽出モジュール１５１は、第１の特徴マップ及び第２の特徴マップに対して複数回のスケール変換をそれぞれ行う場合、具体的には、第１の特徴マップ及び第２の特徴マップに対して少なくとも２回のダウンサンプリングをそれぞれ行うステップを含む。

好ましくは、決定モジュール１５２は、複数の異なるスケールの第１の特徴マップと、第１の画像のタグと、対応するスケールの第２の特徴マップとに基づいて、第２の画像におけるクエリ対象のターゲットを決定する場合、具体的には、複数の異なるスケールの第１の特徴マップ及び上記第１の画像のタグに基づいて、複数の異なるスケールの第１の特徴ベクトルを決定するステップと、複数の異なるスケールの第１の特徴ベクトルと、対応するスケールの第２の特徴マップとを所定の計算ルールに基づいて計算して、計算結果を取得するステップと、計算結果に基づいて、第２の画像のマスク画像を決定するステップと、マスク画像に基づいて、第２の画像におけるクエリ対象のターゲットを決定するステップと、を含む。

好ましくは、決定モジュール１５２は、複数の異なるスケールの第１の特徴マップと、第１の画像のタグと、対応するスケールの第２の特徴マップとに基づいて、第２の画像におけるクエリ対象のターゲットを決定する場合、具体的には、複数の異なるスケールの第１の特徴マップと、第１の画像のタグと、対応するスケールの第２の特徴マップとを対応するスケールの第３の特徴マップの指導情報として、第２の画像におけるクエリ対象の画像を決定するステップを含み、第３の特徴マップは、第２の画像に基づいて決定され、かつ同じスケールの第２の特徴マップと第３の特徴マップとは異なる。

好ましくは、決定モジュール１５２は、複数の異なるスケールの第１の特徴マップと、第１の画像のタグと、対応するスケールの第２の特徴マップとを対応するスケールの第３の特徴マップの指導情報として、第２の画像におけるクエリ対象の画像を決定し、具体的には、複数の異なるスケールの第１の特徴マップ及び第１の画像のタグに基づいて、複数の異なるスケールの第１の特徴ベクトルを決定するステップと、複数の異なるスケールの第１の特徴ベクトルと、対応するスケールの第２の特徴マップとを所定の計算ルールに基づいて計算して、複数の異なるスケールのマスク画像を取得するステップと、複数の異なるスケールのマスク画像及び対応するスケールの第３の特徴マップを乗算した結果に基づいて、第２の画像におけるクエリ対象のターゲットを決定するステップと、を含む。

好ましくは、所定の計算ルールは、内積の計算ルール又はコサイン距離の計算ルールを含む。

好ましくは、決定モジュール１５２は、複数の異なるスケールの第１の特徴マップと、第１の画像のタグ情報と、対応するスケールの第２の特徴マップとに基づいて、第２の画像におけるクエリ対象のターゲットを決定し、具体的には、複数の異なるスケールの第１の特徴マップと、第１の画像のタグ情報と、対応するスケールの第２の特徴マップとに基づいて、各々が該スケールの第１の特徴マップ及び第２の特徴マップの類似性を特徴付けする複数の異なるスケールの類似度マップを決定するステップと、複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得するステップと、統合された類似度マップに基づいて、第２の画像におけるクエリ対象のターゲットを決定するステップと、を含む。

好ましくは、決定モジュール１５２は、複数の異なるスケールの第１の特徴マップと、第１の画像のタグ情報と、対応するスケールの第２の特徴マップとに基づいて、複数の異なるスケールの類似度マップを決定し、具体的には、複数の異なるスケールの第１の特徴マップ及び第１の画像のタグ情報に基づいて、複数の異なるスケールの第１の特徴ベクトルを決定するステップと、複数の異なるスケールの第１の特徴ベクトルと、対応するスケールの第２の特徴マップとを要素ごとに乗算して、複数の異なるスケールの類似度マップを取得するステップと、を含む。

好ましくは、決定モジュール１５２は、複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得し、具体的には、複数の異なるスケールの類似度マップをアップサンプリングして、複数の同じスケールの類似度マップを取得するステップと、複数の同じスケールの類似度マップを加算して、統合された類似度マップを取得するステップと、を含む。

好ましくは、決定モジュール１５２は、複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得し、具体的には、複数の異なるスケールの類似度マップで類似度マップセットを構成するステップと、類似度マップセット中のスケールが最小の類似度マップをアップサンプリングして、スケールが２番目に小さい類似度マップと同じスケールの類似度マップを取得するステップと、取得された類似度マップをスケールが２番目に小さい類似度マップに加算して、新たな類似度マップを取得するステップと、類似度マップセット中のアップサンプリング処理又は加算処理が行われていない類似度マップと新たな類似度マップとで新たな類似度マップセットを構成し、統合された類似度マップである最後の類似度マップを取得するまで、アップサンプリングのステップ及び加算ステップを繰り返し実行するステップと、を含む。

好ましくは、決定モジュール１５２は、さらに、複数の異なるスケールの類似度マップと、対応するスケールの第３の特徴マップとを要素ごとに乗算して、処理された複数の異なるスケールの類似度マップを取得し、第３の特徴マップが第２の画像に基づいて決定され、かつ同じスケールの第１の特徴マップ及び第３の特徴マップが異なり、処理された複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得する。

好ましくは、ターゲット検出装置は、ニューラルネットワークによって実装され、該装置は、以下のステップによりニューラルネットワークをトレーニングして取得するトレーニングモジュール１５３をさらに含み、該ステップは、いずれも第１の種別の対象を含む第１のサンプル画像及び第２のサンプル画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第４の特徴マップ及び複数の異なるスケールの第５の特徴マップを取得するステップと、複数の異なるスケールの第４の特徴マップと、第１のサンプル画像に含まれる第１の種別の対象をタグ付けした結果である第１のサンプル画像のタグと、対応するスケールの第５の特徴マップとに基づいて、第２のサンプル画像における第１の種別の対象を決定するステップと、決定された第２のサンプル画像における第１の種別の対象と、第２のサンプル画像に含まれる第１の種別の対象をタグ付けした結果である第２のサンプル画像のタグとの間の差異に基づいて、ニューラルネットワークのネットワークパラメータを調整するステップと、を含む。

好ましくは、該装置は、トレーニングされたニューラルネットワークをテストするテストモジュール１５４をさらに含み、テストモジュールは、具体的には、各々のテスト画像がいずれも同じ種別の対象を含むテスト画像セットからの第１のテスト画像及び第２のテスト画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第１のテスト特徴マップ及び複数の異なるスケールの第２のテスト特徴マップを取得するステップと、複数の異なるスケールの第１のテスト特徴マップと、第１のテスト画像に含まれるクエリ対象のターゲットをタグ付けした結果である第１のテスト画像のタグと、対応するスケールの第２のテスト特徴マップとに基づいて、第２のテスト画像におけるクエリ対象のターゲットを決定するステップとにより、トレーニングされたニューラルネットワークをテストする。

本願の実施例に係るターゲット検出装置は、上記ターゲット検出方法の実施例を実行し、その実現原理及び技術的効果が類似し、本実施例について、ここでは、説明を省略する。

図１６は、本願の実施例に係るインテリジェント走行装置の概略構成図である。図１６に示すように、本実施例に係るインテリジェント走行装置１６０は、道路画像を収集する収集モジュール１６１と、本願の実施例に係るターゲット検出方法を採用して、サポート画像と、サポート画像に含まれる、クエリ対象のターゲットと同じ種別のターゲットをタグ付けした結果であるサポート画像のタグとに基づいて、収集された道路画像に対してクエリ対象のターゲットのクエリを行うクエリモジュール１６２と、クエリ結果に基づいて、収集された道路画像のインテリジェント走行機器を制御する制御モジュール１６３と、を含む。

本願の実施例に係るインテリジェント走行装置の実施は、前述したインテリジェント走行方法を参照することができ、その実現原理及び技術的効果が類似し、本実施例について、ここでは、説明を省略する。

図１７は、本願の実施例に係るターゲット検出機器のハードウェアの概略構成図である。本願の実施例に係るターゲット検出機器は、ターゲット検出方法の実施例に係る処理フローを実行してよく、図１７に示すように、本願の実施例に係るターゲット検出機器１７０は、少なくとも１つのプロセッサ１７１及びメモリ１７２を含む。該ターゲット検出機器１７０は、通信部材１７３をさらに含む。プロセッサ１７１、メモリ１７２及び通信部材１７３は、バス１７４により接続される。

具体的な実現プロセスでは、少なくとも１つのプロセッサ１７１は、上記メモリ１７２に記憶されているコンピュータ実行命令を実行して、少なくとも１つのプロセッサ１７１に上記ターゲット検出方法を実行させる。

プロセッサ１７１の具体的な実現プロセスは、上記ターゲット検出方法の実施例を参照することができ、その実現原理及び技術的効果が類似し、本実施例について、ここでは、説明を省略する。

図１８は、本願の実施例に係るインテリジェント走行機器のハードウェアの概略構成図である。本願の実施例に係るインテリジェント走行機器は、インテリジェント走行方法の実施例に係る処理フローを実行してよく、図１８に示すように、本願の実施例に係るインテリジェント走行機器１８０は、少なくとも１つのプロセッサ１８１及びメモリ１８２を含む。該インテリジェント走行機器１８０は、通信部材１８３をさらに含む。プロセッサ１８１、メモリ１８２及び通信部材１８３は、バス１８４により接続される。

具体的な実現プロセスでは、少なくとも１つのプロセッサ１８１は、上記メモリ１８２に記憶されているコンピュータ実行命令を実行して、少なくとも１つのプロセッサ１８１に上記インテリジェント走行方法を実行させる。

プロセッサ１８１の具体的な実現プロセスは、上記インテリジェント走行方法の実施例を参照することができ、その実現原理及び技術的効果が類似し、本実施例について、ここでは、説明を省略する。

上記図１７及び図１８に示す実施例では、プロセッサは、中央処理装置（英語：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵと略称）であってよく、他の汎用プロセッサ、デジタル信号プロセッサ（英語：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、ＤＳＰと略称）、特定用途向け集積回路（英語：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＡＳＩＣと略称）などであってもよいことを理解されたい。汎用プロセッサは、マイクロプロセッサであってよく、任意の通常のプロセッサなどであってもよい。出願を組み合わせて開示された方法のステップは、ハードウェアプロセッサによって実行して完了されるか、又はプロセッサ内のハードウェアとソフトウェアモジュールとの組み合わせによって実行して完了されるものとして、直接的に具体化されてよい。

メモリは、高速ＲＡＭメモリを含む可能性があり、不揮発性メモリＮＶＭ、例えば、少なくとも１つの磁気ディスクメモリを含む可能性もある。

バスは、業界標準アーキテクチャ（ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ、ＩＳＡ）バス、外部機器相互接続（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔ、ＰＣＩ）バス又は拡張業界標準アーキテクチャ（ＥｘｔｅｎｄｅｄＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ、ＥＩＳＡ）バスなどであってよい。バスは、アドレスバス、データバス、制御バスなどに分けられてよい。図示の便宜上、本願の図面におけるバスは、１本のバスだけ又は１種のバスに限定されるものではない。

別の実施例では、本願の実施例に係るコンピュータ可読記憶媒体には、プロセッサによって実行されると、上記ターゲット検出方法又はインテリジェント走行方法のステップを実現するコンピュータプログラムが記憶されている。

さらに別の実施例では、本願の実施例に係る、命令を実行するチップは、コード及びデータが記憶されているメモリと、上記メモリに結合され、上記メモリにおけるコードを実行することにより上記チップに上記ターゲット検出方法又はインテリジェント走行方法のステップを実行させるプロセッサと、を含む。

さらに別の実施例では、本願の実施例に係る、命令を含むプログラム製品は、コンピュータ上で実行されると、上記コンピュータに上記ターゲット検出方法又はインテリジェント走行方法のステップを実行させる。

さらに別の実施例では、本願の実施例に係るコンピュータプログラムは、プロセッサによって実行されると、上記ターゲット検出方法又はインテリジェント走行方法のステップを実行する。

本願に係るいくつかの実施例では、開示される装置及び方法は他の形態によって実現することができると理解されたい。例えば、上述した装置の実施例は、例示的なものに過ぎず、例えば、上記ユニットの区分は、論理上の機能の区分に過ぎず、実際に実現する場合に他の区分方式も可能であり、例えば、複数のユニット又はコンポーネントは組み合わせられてよく、又は別のシステムに集積されてよく、又はいくつかの特徴を無視してよく、実行しなくてよい。また、示されるか又は議論される相互結合、直接結合又は通信接続は、いくつかのインタフェースにより実現されてよく、装置又はユニット間の間接結合又は通信接続は、電気的、機械的、又は他の形態であってよい。

別個の部品として説明した上記ユニットは、物理的に別個であってよい又はでなくてもよく、ユニットとして表示される部品は、物理的ユニットであってよいか又はでなくてもよく、すなわち、１つの箇所に位置してよく、又は複数のネットワークユニットに配置されてもよい。実際の必要に応じて、それらのうちの一部又は全てのユニットを選択して本実施例の技術手段の目的を達成することができる。

また、本願の各実施例において、各機能ユニットが１つの処理ユニットに集積されてよく、各ユニットが別個に物理的に存在してもよく、２つ以上のユニットが１つのユニットに集積されてもよい。

上記集積されたユニットは、ハードウェアの形態で実現されてよく、ハードウェアとソフトウェア機能ユニットとの組み合わせの形態で実現されてもよい。上記ソフトウェア機能ユニットの形態で実現された、集積されたユニットは、コンピュータ可読記憶媒体に記憶されてよい。上記ソフトウェア機能ユニットは、コンピュータ機器（パーソナルコンピュータ、サーバ、又はネットワーク機器などであってよい）又はプロセッサ（ｐｒｏｃｅｓｓｏｒ）に本願の各実施例に記載の方法の一部のステップを実行させるいくつかの命令を含む記憶媒体に記憶されている。前述した記憶媒体は、ＵＳＢフラッシュメモリ、リムーバブルハードディスク、読み出し専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）、磁気ディスク又は光ディスクなどのプログラムコードを記憶可能な様々な媒体を含む。

当業者であれば明確に分かるように、便利で簡潔的に説明するために、上記各機能モジュールの区分で例を挙げて説明したが、実際の応用において、必要に応じて上記機能を異なる機能モジュールに割り当て、即ち装置の内部構成を異なる機能モジュールに区分してここまで説明された一部又は全ての機能を完成させることができる。上記説明された装置の具体的な動作プロセスについては、前述した方法の実施例における対応するプロセスを参照してよく、ここでは、説明を省略する。

なお、上記各実施例は、本願の技術手段を説明するための例示に過ぎず、限定するものではなく、前述した各実施例を参照して本願を詳細に説明したが、当業者が理解すべきこととして、依然として、前述した各実施例において記載される技術手段を修正するか、又はその一部又は全ての技術的特徴に同等置換を行うことができ、これらの修正や置換によって、対応する技術手段の本質は、本願の各実施例に係る技術手段の範囲から逸脱することはない。

Claims

第１の画像及び第２の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第１の特徴マップ及び複数の異なるスケールの第２の特徴マップを取得するステップと、
複数の異なるスケールの第１の特徴マップと、前記第１の画像に含まれるクエリ対象のターゲットをタグ付けした結果である前記第１の画像のタグと、対応するスケールの前記第２の特徴マップとに基づいて、前記第２の画像におけるクエリ対象のターゲットを決定するステップと、を含むことを特徴とするターゲット検出方法。
第１の画像及び第２の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第１の特徴マップ及び複数の異なるスケールの第２の特徴マップを取得する前記ステップは、
前記第１の画像及び前記第２の画像に対して特徴抽出をそれぞれ行って、第１の特徴マップ及び第２の特徴マップを取得するステップと、
前記第１の特徴マップ及び前記第２の特徴マップに対して複数回のスケール変換をそれぞれ行って、複数の異なるスケールの第１の特徴マップ及び複数の異なるスケールの第２の特徴マップを取得するステップと、を含むことを特徴とする請求項１に記載の方法。
前記第１の特徴マップ及び前記第２の特徴マップに対して複数回のスケール変換をそれぞれ行う前記ステップは、
前記第１の特徴マップ及び前記第２の特徴マップに対して少なくとも２回のダウンサンプリングをそれぞれ行うステップを含むことを特徴とする、請求項２に記載の方法。
複数の異なるスケールの第１の特徴マップと、前記第１の画像のタグと、対応するスケールの前記第２の特徴マップとに基づいて、前記第２の画像におけるクエリ対象のターゲットを決定する前記ステップは、
複数の異なるスケールの第１の特徴マップ及び前記第１の画像のタグに基づいて、複数の異なるスケールの第１の特徴ベクトルを決定するステップと、
前記複数の異なるスケールの第１の特徴ベクトルと、対応するスケールの前記第２の特徴マップとを所定の計算ルールに応じて計算して、計算結果を取得するステップと、
前記計算結果に基づいて、前記第２の画像のマスク画像を決定するステップと、
前記マスク画像に基づいて、前記第２の画像におけるクエリ対象のターゲットを決定するステップと、を含むことを特徴とする請求項１～３のいずれか一項に記載の方法。
複数の異なるスケールの前記第１の特徴マップと、前記第１の画像のタグと、対応するスケールの前記第２の特徴マップとに基づいて、前記第２の画像におけるクエリ対象のターゲットを決定する前記ステップは、
複数の異なるスケールの第１の特徴マップと、前記第１の画像のタグと、対応するスケールの前記第２の特徴マップとを対応するスケールの第３の特徴マップの指導情報として、前記第２の画像におけるクエリ対象の画像を決定するステップを含み、
前記第３の特徴マップは、前記第２の画像に基づいて決定され、かつ同じスケールの第２の特徴マップと第３の特徴マップとは異なることを特徴とする、請求項１～３のいずれか一項に記載の方法。
複数の異なるスケールの前記第１の特徴マップと、前記第１の画像のタグと、対応するスケールの前記第２の特徴マップとを対応するスケールの第３の特徴マップの指導情報として、前記第２の画像におけるクエリ対象の画像を決定する前記ステップは、
複数の異なるスケールの第１の特徴マップ及び前記第１の画像のタグに基づいて、複数の異なるスケールの第１の特徴ベクトルを決定するステップと、
前記複数の異なるスケールの第１の特徴ベクトルと、対応するスケールの前記第２の特徴マップとを所定の計算ルールに基づいて計算して、複数の異なるスケールのマスク画像を取得するステップと、
複数の異なるスケールのマスク画像及び対応するスケールの前記第３の特徴マップを乗算した結果に基づいて、前記第２の画像におけるクエリ対象のターゲットを決定するステップと、を含むことを特徴とする請求項５に記載の方法。
前記所定の計算ルールは、
内積の計算ルール又はコサイン距離の計算ルールを含むことを特徴とする、請求項４又は６に記載の方法。
前記複数の異なるスケールの第１の特徴マップと、前記第１の画像のタグ情報と、対応するスケールの第２の特徴マップとに基づいて、前記第２の画像におけるクエリ対象のターゲットを決定する前記ステップは、
複数の異なるスケールの前記第１の特徴マップと、前記第１の画像のタグ情報と、対応するスケールの第２の特徴マップとに基づいて、各々が該スケールの第１の特徴マップ及び第２の特徴マップの類似性を特徴付けする複数の異なるスケールの類似度マップを決定するステップと、
複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得するステップと、
統合された類似度マップに基づいて、前記第２の画像におけるクエリ対象のターゲットを決定するステップと、を含むことを特徴とする請求項１に記載の方法。
複数の異なるスケールの前記第１の特徴マップと、前記第１の画像のタグ情報と、対応するスケールの第２の特徴マップとに基づいて、複数の異なるスケールの類似度マップを決定する前記ステップは、
複数の異なるスケールの第１の特徴マップ及び前記第１の画像のタグ情報に基づいて、複数の異なるスケールの第１の特徴ベクトルを決定するステップと、
前記複数の異なるスケールの第１の特徴ベクトルと、対応するスケールの前記第２の特徴マップとを要素ごとに乗算して、複数の異なるスケールの類似度マップを取得するステップと、を含むことを特徴とする請求項８に記載の方法。
複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得する前記ステップは、
複数の異なるスケールの類似度マップをアップサンプリングして、複数の同じスケールの類似度マップを取得するステップと、
複数の同じスケールの類似度マップを加算して、統合された類似度マップを取得するステップと、を含むことを特徴とする請求項８又は９に記載の方法。
複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得する前記ステップは、
前記複数の異なるスケールの類似度マップで類似度マップセットを構成するステップと、
前記類似度マップセット中のスケールが最小の類似度マップをアップサンプリングして、スケールが２番目に小さい類似度マップと同じスケールの類似度マップを取得するステップと、
取得された類似度マップをスケールが２番目に小さい類似度マップに加算して、新たな類似度マップを取得するステップと、
前記類似度マップセット中のアップサンプリング処理又は加算処理が行われていない類似度マップと新たな類似度マップとで新たな類似度マップセットを構成し、統合された類似度マップである最後の類似度マップを取得するまで、アップサンプリングのステップ及び加算のステップを繰り返し実行するステップと、を含むことを特徴とする請求項８又は９に記載の方法。
複数の異なるスケールの前記第１の特徴マップと、前記第１の画像のタグ情報と、対応するスケールの第２の特徴マップとに基づいて、複数の異なるスケールの類似度マップを決定した後、複数の異なるスケールの類似度マップを統合し、統合された類似度マップを取得する前記ステップの前に、
複数の異なるスケールの類似度マップと、対応するスケールの第３の特徴マップとを要素ごとに乗算して、処理された複数の異なるスケールの類似度マップを取得するステップをさらに含み、前記第３の特徴マップは、前記第２の画像に基づいて決定され、かつ同じスケールの第１の特徴マップと第３の特徴マップとは異なり、
複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得するステップは、
処理された複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得するステップを含む、ことを特徴とする請求項８～１１のいずれか一項に記載の方法。
前記ターゲット検出方法は、ニューラルネットワークによって実行され、前記ニューラルネットワークは、
いずれも第１の種別の対象を含む第１のサンプル画像及び第２のサンプル画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第４の特徴マップ及び複数の異なるスケールの第５の特徴マップを取得するステップと、
複数の異なるスケールの第４の特徴マップと、前記第１のサンプル画像に含まれる前記第１の種別の対象をタグ付けした結果である前記第１のサンプル画像のタグと、対応するスケールの前記第５の特徴マップとに基づいて、前記第２のサンプル画像における前記第１の種別の対象を決定するステップと、
決定された前記第２のサンプル画像における前記第１の種別の対象と、前記第２のサンプル画像に含まれる前記第１の種別の対象をタグ付けした結果である前記第２のサンプル画像のタグとの間の差異に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するステップとによりトレーニングされて取得されるものである、ことを特徴とする請求項１～１２のいずれか一項に記載の方法。
前記ニューラルネットワークをトレーニングした後、
トレーニングされたニューラルネットワークをテストするステップをさらに含み、
トレーニングされたニューラルネットワークをテストするステップは、
各々のテスト画像がいずれも同じ種別の対象を含むテスト画像セットからの第１のテスト画像及び第２のテスト画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第１のテスト特徴マップ及び複数の異なるスケールの第２のテスト特徴マップを取得するステップと、
複数の異なるスケールの第１のテスト特徴マップと、前記第１のテスト画像に含まれるクエリ対象のターゲットをタグ付けした結果である前記第１のテスト画像のタグと、対応するスケールの前記第２のテスト特徴マップとに基づいて、前記第２のテスト画像におけるクエリ対象のターゲットを決定するステップと、を含むことを特徴とする請求項１３に記載の方法。
道路画像を収集するステップと、
請求項１～１４のいずれか一項に記載の方法を採用して、サポート画像と、前記サポート画像に含まれる、前記クエリ対象のターゲットと同じ種別のターゲットをタグ付けした結果である前記サポート画像のタグとに基づいて、収集された道路画像に対してクエリ対象のターゲットのクエリを行うステップと、
クエリ結果に基づいて、収集された道路画像のインテリジェント走行機器を制御するステップと、を含むことを特徴とするインテリジェント走行方法。
第１の画像及び第２の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第１の特徴マップ及び複数の異なるスケールの第２の特徴マップを取得する特徴抽出モジュールと、
複数の異なるスケールの第１の特徴マップと、前記第１の画像に含まれるクエリ対象のターゲットをタグ付けした結果である前記第１の画像のタグと、対応するスケールの前記第２の特徴マップとに基づいて、前記第２の画像におけるクエリ対象のターゲットを決定する決定モジュールと、を含むことを特徴とするターゲット検出装置。
前記特徴抽出モジュールは、第１の画像及び第２の画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第１の特徴マップ及び複数の異なるスケールの第２の特徴マップを取得する場合、具体的には、
前記第１の画像及び前記第２の画像に対して特徴抽出をそれぞれ行って、第１の特徴マップ及び第２の特徴マップを取得するステップと、
前記第１の特徴マップ及び前記第２の特徴マップに対して複数回のスケール変換をそれぞれ行って、複数の異なるスケールの第１の特徴マップ及び複数の異なるスケールの第２の特徴マップを取得するステップと、を含むことを特徴とする請求項１６に記載の装置。
前記特徴抽出モジュールは、前記第１の特徴マップ及び前記第２の特徴マップに対して複数回のスケール変換をそれぞれ行う場合、具体的には、
前記第１の特徴マップ及び前記第２の特徴マップに対して少なくとも２回のダウンサンプリングをそれぞれ行うステップを含むことを特徴とする、請求項１７に記載の装置。
前記決定モジュールは、複数の異なるスケールの第１の特徴マップと、前記第１の画像のタグと、対応するスケールの前記第２の特徴マップとに基づいて、前記第２の画像におけるクエリ対象のターゲットを決定する場合、具体的には、
複数の異なるスケールの第１の特徴マップ及び前記第１の画像のタグに基づいて、複数の異なるスケールの第１の特徴ベクトルを決定するステップと、
前記複数の異なるスケールの第１の特徴ベクトルと、対応するスケールの前記第２の特徴マップとを所定の計算ルールに応じて計算して、計算結果を取得するステップと、
前記計算結果に基づいて、前記第２の画像のマスク画像を決定するステップと、
前記マスク画像に基づいて、前記第２の画像におけるクエリ対象のターゲットを決定するステップと、を含むことを特徴とする請求項１６～１８のいずれか一項に記載の装置。
前記決定モジュールは、複数の異なるスケールの第１の特徴マップと、前記第１の画像のタグと、対応するスケールの前記第２の特徴マップとに基づいて、前記第２の画像におけるクエリ対象のターゲットを決定する場合、具体的には、
複数の異なるスケールの第１の特徴マップと、前記第１の画像のタグと、対応するスケールの前記第２の特徴マップとを対応するスケールの第３の特徴マップの指導情報として、前記第２の画像におけるクエリ対象の画像を決定するステップを含み、
前記第３の特徴マップは、前記第２の画像に基づいて決定され、かつ同じスケールの第２の特徴マップと第３の特徴マップとは異なることを特徴とする、請求項１６～１８のいずれか一項に記載の装置。
前記決定モジュールは、複数の異なるスケールの第１の特徴マップと、前記第１の画像のタグと、対応するスケールの前記第２の特徴マップとを対応するスケールの第３の特徴マップの指導情報として、前記第２の画像におけるクエリ対象の画像を決定し、具体的には、
複数の異なるスケールの第１の特徴マップ及び前記第１の画像のタグに基づいて、複数の異なるスケールの第１の特徴ベクトルを決定するステップと、
前記複数の異なるスケールの第１の特徴ベクトルと、対応するスケールの前記第２の特徴マップとを所定の計算ルールに基づいて計算して、複数の異なるスケールのマスク画像を取得するステップと、
複数の異なるスケールのマスク画像及び対応するスケールの前記第３の特徴マップを乗算した結果に基づいて、前記第２の画像におけるクエリ対象のターゲットを決定するステップと、を含むことを特徴とする請求項２０に記載の装置。
前記所定の計算ルールは、
内積の計算ルール又はコサイン距離の計算ルールを含むことを特徴とする、請求項１９に記載の装置。
前記決定モジュールは、前記複数の異なるスケールの第１の特徴マップと、前記第１の画像のタグ情報と、対応するスケールの第２の特徴マップとに基づいて、前記第２の画像におけるクエリ対象のターゲットを決定し、具体的には、
複数の異なるスケールの前記第１の特徴マップと、前記第１の画像のタグ情報と、対応するスケールの第２の特徴マップとに基づいて、各々が該スケールの第１の特徴マップ及び第２の特徴マップの類似性を特徴付けする複数の異なるスケールの類似度マップを決定するステップと、
複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得するステップと、
統合された類似度マップに基づいて、前記第２の画像におけるクエリ対象のターゲットを決定するステップと、を含むことを特徴とする請求項１６に記載の装置。
前記決定モジュールは、複数の異なるスケールの前記第１の特徴マップと、前記第１の画像のタグ情報と、対応するスケールの第２の特徴マップとに基づいて、複数の異なるスケールの類似度マップを決定し、具体的には、
複数の異なるスケールの第１の特徴マップ及び前記第１の画像のタグ情報に基づいて、複数の異なるスケールの第１の特徴ベクトルを決定するステップと、
前記複数の異なるスケールの第１の特徴ベクトルと、対応するスケールの前記第２の特徴マップとを要素ごとに乗算して、複数の異なるスケールの類似度マップを取得するステップと、を含むことを特徴とする請求項２３に記載の装置。
前記決定モジュールは、複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得し、具体的には、
複数の異なるスケールの類似度マップをアップサンプリングして、複数の同じスケールの類似度マップを取得するステップと、
複数の同じスケールの類似度マップを加算して、統合された類似度マップを取得するステップと、を含むことを特徴とする請求項２３又は２４に記載の装置。
前記決定モジュールは、複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得し、具体的には、
前記複数の異なるスケールの類似度マップで類似度マップセットを構成するステップと、
前記類似度マップセット中のスケールが最小の類似度マップをアップサンプリングして、スケールが２番目に小さい類似度マップと同じスケールの類似度マップを取得するステップと、
取得された類似度マップをスケールが２番目に小さい類似度マップに加算して、新たな類似度マップを取得するステップと、
前記類似度マップセット中のアップサンプリング処理又は加算処理が行われていない類似度マップと新たな類似度マップとで新たな類似度マップセットを構成し、統合された類似度マップである最後の類似度マップを取得するまで、アップサンプリングのステップ及び加算ステップを繰り返し実行するステップと、を含むことを特徴とする請求項２３又は２４に記載の装置。
前記決定モジュールは、さらに、
複数の異なるスケールの類似度マップと、対応するスケールの第３の特徴マップとを要素ごとに乗算して、処理された複数の異なるスケールの類似度マップを取得し、前記第３の特徴マップが前記第２の画像に基づいて決定され、かつ同じスケールの第１の特徴マップと第３の特徴マップとが異なり、
処理された複数の異なるスケールの類似度マップを統合して、統合された類似度マップを取得する、ことを特徴とする請求項２３～２６のいずれか一項に記載の装置。
前記ターゲット検出装置は、ニューラルネットワークによって実装され、
以下のステップを採用して前記ニューラルネットワークをトレーニングして取得するトレーニングモジュールをさらに含み、前記ステップは、
いずれも第１の種別の対象を含む第１のサンプル画像及び第２のサンプル画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第４の特徴マップ及び複数の異なるスケールの第５の特徴マップを取得するステップと、
複数の異なるスケールの第４の特徴マップと、前記第１のサンプル画像に含まれる前記第１の種別の対象をタグ付けした結果である前記第１のサンプル画像のタグと、対応するスケールの前記第５の特徴マップとに基づいて、前記第２のサンプル画像における前記第１の種別の対象を決定するステップと、
決定された前記第２のサンプル画像における前記第１の種別の対象と、前記第２のサンプル画像に含まれる前記第１の種別の対象をタグ付けした結果である前記第２のサンプル画像のタグとの間の差異に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するステップと、を含むことを特徴とする請求項１６～２７のいずれか一項に記載の装置。
トレーニングされたニューラルネットワークをテストするテストモジュールをさらに含み、
前記テストモジュールは、具体的には、
各々のテスト画像がいずれも同じ種別の対象を含むテスト画像セットからの第１のテスト画像及び第２のテスト画像に対して複数の異なるスケールの特徴抽出をそれぞれ行って、複数の異なるスケールの第１のテスト特徴マップ及び複数の異なるスケールの第２のテスト特徴マップを取得するステップと、
複数の異なるスケールの第１のテスト特徴マップと、前記第１のテスト画像に含まれるクエリ対象のターゲットをタグ付けした結果である前記第１のテスト画像のタグと、対応するスケールの前記第２のテスト特徴マップとに基づいて、前記第２のテスト画像におけるクエリ対象のターゲットを決定するステップとにより、トレーニングされたニューラルネットワークをテストすることを特徴とする請求項２８に記載の装置。
道路画像を収集する収集モジュールと、
請求項１～１４のいずれか一項に記載の方法を採用して、サポート画像と、前記サポート画像に含まれる、前記クエリ対象のターゲットと同じ種別のターゲットをマーキングした結果である前記サポート画像のタグとに基づいて、収集された道路画像に対してクエリ対象のターゲットのクエリを行うクエリモジュールと、
クエリ結果に基づいて、収集された道路画像のインテリジェント走行機器を制御する制御モジュールと、を含むことを特徴とするインテリジェント走行装置。
メモリと、プロセッサと、メモリに記憶されプロセッサ上で実行可能なコンピュータプログラムとを含むターゲット検出機器であって、前記プロセッサによって前記プログラムを実行すると、請求項１～１４のいずれか一項に記載の方法を実現することを特徴とするターゲット検出機器。
メモリと、プロセッサと、メモリに記憶されプロセッサ上で実行可能なコンピュータプログラムとを含むインテリジェント走行機器であって、前記プロセッサによって前記プログラムを実行すると、請求項１５に記載の方法を実現することを特徴とするインテリジェント走行機器。
コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、該プログラムがプロセッサによって実行されると、請求項１～１４のいずれか一項に記載のターゲット検出方法を実現するか、又は請求項１５に記載のインテリジェント走行方法を実現することを特徴とするコンピュータ可読記憶媒体。
命令を実行するチップであって、コード及びデータが記憶されているメモリと、前記メモリに結合され、前記メモリにおけるコードを実行することにより前記チップに上記請求項１～１４のいずれか一項に記載のターゲット検出方法を実行させるか、又は上記請求項１５に記載のインテリジェント走行方法を実行させるプロセッサと、を含むことを特徴とするチップ。
コンピュータ上で実行されると、前記コンピュータに上記請求項１～１４のいずれか一項に記載のターゲット検出方法を実行させるか、又は上記請求項１５に記載のインテリジェント走行方法を実行させることを特徴とする、命令を含むプログラム製品。
プロセッサによって実行されると、上記請求項１～１４のいずれか一項に記載のターゲット検出方法を実行するか、又は上記請求項１５に記載のインテリジェント走行方法を実行することを特徴とする、コンピュータプログラム。