JP2022043216A

JP2022043216A - ターゲット検出方法、電子機器、路側機器、及びクラウド制御プラットフォーム

Info

Publication number: JP2022043216A
Application number: JP2021210257A
Authority: JP
Inventors: チュンロン・シア; Chunlong Xia
Original assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Current assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date: 2020-12-25
Filing date: 2021-12-24
Publication date: 2022-03-15
Also published as: CN112668460A; KR20220004607A; EP3961579A2; US20220114759A1; EP3961579A3; US11721042B2

Abstract

【課題】ターゲット検出方法、電子機器、路側機器及びクラウド制御プラットフォームを提供する。【解決手段】高度道路交通システムにおいて、ターゲット検出方法は、検出対象ターゲットについて検出用単眼カメラにより撮影された画像である検出対象ターゲットの検出画像を取得することと、該検出対象ターゲットの位置する地面での検出対象ターゲットの正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標を含む検出対象ターゲットの位置情報を検出画像から抽出するターゲット検出モデルを取得することと、検出画像をターゲット検出モデルに入力して、検出対象ターゲットの位置情報を抽出することと、検出対象ターゲットの位置情報に基づいて、検出対象ターゲットの３次元位置を決定することと、を含む。【選択図】図２

Description

本開示は、高度道路交通の技術分野に関し、具体的には、コンピュータビジョン及び深層学習の技術である。具体的には、本開示は、ターゲット検出方法、電子機器、路側機器、及びクラウド制御プラットフォームを提供する。

高度道路交通システムは、情報技術、データ通信技術、センサ技術、電子制御技術やコンピュータ技術などを、交通輸送管理システム全体に総合的かつ効果的に適用することで、広範囲、全方位で作用を果たす、リアルタイム、正確且つ効率的な総合輸送・管理システムを構築する。広く適用されていた高度道路交通システムは、空港、駅旅客ガイダンスシステム、都市交通インテリジェントディスパッチングシステム、高速道路インテリジェントディスパッチングシステム、運用車両ディスパッチング管理システム、モータービークル自動制御システムなどを含む。高度道路交通システムは、車、道路の調和で密接な協力を通じて交通輸送効率を高め、交通渋滞を緩和し、道路網の通過能力を高め、交通事故を減らし、エネルギー消費を減らし、環境汚染を軽減する。

画像に基づくターゲットの検出・認識は高度道路交通技術分野において注目を集めている研究方向である。スマート都市、高度道路交通などを含む多くのコンピュータビジョンの適用分野では、ターゲット位置の推定はきわめて重要な役割を果たす。関連技術では、画像に基づくターゲットの位置検出の技術案には、まだ改善する余裕がある。

この部分に記載の方法は必ずしも以前に想定又は採用された方法ではない。特に明記しない限り、この部分に記載のいずれの方法はこの部分に含まれるため従来技術と見なされると想定されるべきではない。同様に、特に明記しない限り、この部分で言及している課題は任意の従来技術で認められていると見なされるべきではない。

本開示は、ターゲット検出方法、電子機器、路側機器、及びクラウド制御プラットフォームを提供する。

本開示の一態様によれば、検出対象ターゲットについて検出用単眼カメラにより撮影された画像である検出対象ターゲットの検出画像を取得することと、該検出対象ターゲットの位置する地面での検出対象ターゲットの正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標を含む検出対象ターゲットの位置情報を検出画像から抽出するように構成されるターゲット検出モデルを取得することと、検出画像をターゲット検出モデルに入力して、検出対象ターゲットの位置情報を抽出することと、検出対象ターゲットの位置情報に基づいて、検出対象ターゲットの３次元位置を決定することとを含む、ターゲット検出方法を提供する。

本開示の別の態様によれば、ターゲットについて単眼カメラによって撮影された訓練画像を含む訓練データを取得することと、該ターゲットの位置する地面でのターゲットの正投影の中心点の、単眼カメラの画像平面に投影された画素座標を含むターゲットの位置情報を訓練画像から抽出するように構成される多層畳み込みニューラルネットワークを含む基礎モデルを作成することと、訓練データを用いて基礎モデルを訓練し、ターゲット検出モデルを得ることとを含む、ターゲット検出モデルの訓練方法を提供する。

本開示の別の態様によれば、検出対象ターゲットについて検出用単眼カメラにより撮影された画像である検出対象ターゲットの検出画像を取得するように構成される第１の取得ユニットと、該検出対象ターゲットの位置する地面での検出対象ターゲットの正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標を含む検出対象ターゲットの位置情報を検出画像から抽出するように構成されるターゲット検出モデルを取得するように構成される第２の取得ユニットと、検出画像をターゲット検出モデルに入力して、検出対象ターゲットの位置情報を抽出するように構成される入力ユニットと、検出対象ターゲットの位置情報に基づいて、検出対象ターゲットの３次元位置を決定するように構成される決定ユニットとを含む、ターゲット検出装置を提供する。

本開示の別の態様によれば、ターゲットについて単眼カメラによって撮影された訓練画像を含む訓練データを取得するように構成される第３の取得ユニットと、該ターゲットの位置する地面でのターゲットの正投影の中心点の、単眼カメラの画像平面に投影された画素座標を含むターゲットの位置情報を訓練画像から抽出するように構成される多層畳み込みニューラルネットワークを含む基礎モデルを作成するように構成される作成ユニットと、訓練データを用いて基礎モデルを訓練し、ターゲット検出モデルを得るように構成される訓練ユニットとを含む、ターゲット検出モデル訓練装置を提供する。

本開示の別の態様によれば、メモリ、プロセッサ、及びメモリに記憶されたコンピュータプログラムを含む電子機器を提供する。プロセッサは、コンピュータプログラムを実行して、上記方法のステップを実現するように構成される。

本開示の別の態様によれば、コンピュータプログラムが記憶された非一時的なコンピュータ読み取り可能な記憶媒体を提供する。コンピュータプログラムは、プロセッサにより実行されると、上記方法のステップを実現する。

本開示の別の態様によれば、コンピュータプログラムを含むコンピュータプログラム製品を提供する。前記コンピュータプログラムは、プロセッサにより実行されると、上記方法のステップを実現する。

本開示の別の態様によれば、上記電子機器を含む路側機器を提供する。

本開示の別の態様によれば、上記電子機器を含むクラウド制御プラットフォームを提供する。

本開示の実施例による技術案によりもたらされる有益な技術的効果は、少なくとも以下を含む。

単眼ビジョンに基づいて、ターゲットの２次元情報を抽出できるターゲット検出モデルを取得することによって、ターゲットの３次元情報を予測する。そして、検出方法は、カメラとシナリオとの間の外部パラメータによらないため、ターゲット検出の適用シナリオの範囲を広げる。

なお、本部分で記載の内容は、本開示の実施例のキー又は重要な特徴を示すことを意図するものではなく、また、本開示の範囲を制限するものではない。本開示のほかの特徴は、以下の明細書から理解しやすくなる。

図面は、実施例を例示的に示し、明細書の一部を構成し、明細書の記載とともに実施例の例示的な実施形態を説明するために使用される。示される実施例は例示の目的にのみ使用され、請求項の範囲を限制するものではない。全ての図面では、同じ図面の符号は類似するが、必ずしも同一であるではない要素を示す。
本開示の実施例に係る本明細書に記載の各種方法が実施され得る例示的なシステムの模式図を示す。本開示の実施例に係るターゲット検出方法のフローチャートを示す。本開示の実施例に係る図２の方法において検出対象ターゲットの３次元位置を決定する例示的な過程のフローチャートを示す。本開示の実施例に係る図３の過程において検出対象ターゲットの３次元位置を決定する例示的な操作のフローチャートを示す。本開示の実施例に係る図２の方法において検出対象ターゲットの３次元位置を決定する別の例示的な過程のフローチャートを示す。本開示の実施例に係る図５の過程において検出対象ターゲットの３次元位置を決定する例示的な操作のフローチャートを示す。本開示の実施例に係る検出対象ターゲットの３次元位置の構造の模式図を示す。本開示の実施例に係るターゲット検出モデルの訓練方法のフローチャートを示す。本開示の実施例に係るターゲットの地面での正投影の中心点の模式図を示す。本開示の実施例に係るターゲットの地面での正投影の中心点の、画像平面に投影された上面図を示す。本開示の実施例に係るターゲット検出モデルの構造の模式図を示す。本開示の実施例に係るターゲット検出モデルの構造の模式図を示す。本開示の実施例に係るターゲット検出モデルの構造の模式図を示す。本開示の実施例に係る図８の方法において基礎モデルを訓練する例示的な過程のフローチャートを示す。本開示の実施例に係るターゲット検出方法による例示的なターゲットの検出の模式図を示す。本開示の実施例に係るターゲット検出方法による例示的なターゲットの検出の模式図を示す。本開示の実施例に係るターゲット検出装置のブロック図を示す。本開示の実施例に係るターゲット検出装置のブロック図を示す。本開示の実施例に係るターゲット検出モデルの訓練装置のブロック図を示す。本開示の実施例を実現できる例示的な電子機器の構造ブロック図を示す。

以下、図面を参照しながら本開示の例示的な実施例を説明し、この説明には、理解を容易にするために、本開示の実施例の各種の詳細が含まれ、このような詳細は例示的なものとして理解すべきである。したがって、当業者にとって自明なように、本開示の範囲を逸脱することなく、ここで記載の実施例について各種の変化や修正を行うことができる。同様に、明瞭さや簡素化のため、以下の説明では、公知の機能及び構造の説明を省略する。

本開示では、特に明記しない限り、「第１の」、「第２の」などの用語を用いて各種の要素を説明する場合は、これらの要素の位置関係、タイミング関係又は重要性の関係を限定することを意図しておらず、このような用語は１つの素子を別の素子と区別するためのものである。いくつかの例では、第１の要素と第２の要素は該要素の同一の例を指すことができる一方、場合によっては、文脈の説明から、異なる例を指すこともできる。

本開示では、前記各例の説明に使用される用語は、特定の例を説明する目的にのみ使用され、制限するものではない。文脈において明記していない限り、特に要素の数が限定されない場合、この要素は１つであっても、複数であってもよい。さらに、本開示に使用される用語「及び／又は」は、挙げられたすべての項目のいずれか１つ及び全部の可能な組み合わせの形態を含む。

ターゲットに対して３次元検出を行う分野では、点群に基づくターゲット検出方法、双眼に基づくターゲット検出方法、及び単眼に基づくターゲット検出方法がある。単眼に基づく３次元検出は、コストや再利用の因素から人気のある研究方向となっている。

関連技術では、単眼に基づく３次元ターゲット検出方法は、ターゲットの中心点の３次元座標、ターゲットのスケール情報及びターゲットの姿勢情報を含むターゲットの３次元位置情報を直接予測することである。該方法では、予測モデルを生成するときに、ターゲットの３次元座標情報が使用されているので、カメラ周辺の外部パラメータに対する感度が高い。訓練セットとは分布が類似しているシナリオでは、モデルは良い成果を示す。しかしながら、カメラの配置位置又は周辺環境情報が異なる場合、モデルの予測の信頼性が低下する。さらに、３次元ターゲットを検出するための訓練セットの収集やキャリブレーションが困難であり、その結果、データセットのサイズが小さくなり、関連技術におけるターゲット検出アルゴリズムはデータ駆動型アルゴリズムであり、このため、３次元情報を用いてモデルを直接訓練すると、良好な一般化効果が得られにくい。

関連技術における上記課題を解決するために、本開示は、コンピュータビジョン及び深層学習のターゲット検出モデルに基づいて、回帰パラメータを改めて設計して訓練することで、以下の最適化方法の技術案を提供する。

以下、図面を参照しながら本開示の実施例を詳述する。

図１は、本開示の実施例は、本明細書に記載の各種の方法及び装置が実施され得る例示的なシステム１００の模式図を示す。図１を参照すると、該システム１００は、１つ以上のクライアント機器１０１、１０２、１０３、１０４、１０５及び１０６と、サーバ１２０と、１つ以上のクライアント機器をサーバ１２０に結合する１つ以上の通信ネットワーク１１０とを含む。クライアント機器１０１、１０２、１０３、１０４、１０５及び１０６は１つ以上のアプリケーションを実行するように構成されてもよい。

本開示の実施例では、サーバ１２０は、作動して本開示のターゲット検出モデルの訓練方法及びターゲット検出方法の１つ以上のサービス又はソフトウェアアプリケーションを実行可能にする。

いくつかの実施例では、サーバ１２０は、非仮想環境と仮想環境を含むことができる他のサービス又はソフトウェアアプリケーションも提供できる。いくつかの実施例では、これらのサービスは、ｗｅｂに基づくサービス又はクラウドサービスとして提供することができ、たとえば、ソフトウェアであるサービス（ＳａａＳ）モデルとしてクライアント機器１０１、１０２、１０３、１０４、１０５及び／又は１０６のユーザに提供する。

図１に示す構成では、サーバ１２０は、サーバ１２０により実行される機能を実現する１つ以上のコンポーネントを含むことができる。これらのコンポーネントは、１つ以上のプロセッサによって実行可能なソフトウェアコンポーネント、ハードウェアコンポーネント又はこれらの組み合わせを含むことができる。クライアント機器１０１、１０２、１０３、１０４、１０５及び／又は１０６を操作するユーザは、１つ以上のクライアントアプリケーションを順次利用してサーバ１２０とインタラクションすることで、これらのコンポーネントによるサービスを利用できる。なお、さまざまなシステム構成は可能であり、システム１００と異なってもよい。したがって、図１は本明細書に記載の各種の方法を実施するためのシステムの一例であり、制限するものではない。

ユーザは、クライアント機器１０１、１０２、１０３、１０４、１０５及び／又は１０６を使用してターゲット検出モデルとインタラクションすることができる。クライアント機器は、使クライアント機器のユーザがクライアント機器とインタラクションすることを可能とするインターフェースを提供できる。クライアント機器はまた、該インターフェースを介してユーザに情報を出力してもよい。図１には６種類のクライアント機器が示されているが、当業者にとって自明なように、本開示は、任意の数のクライアント機器をサポートできる。

クライアント機器１０１、１０２、１０３、１０４、１０５及び／又は１０６は、各種のタイプのコンピュータ機器、たとえば、ポータブルハンドヘルド機器、汎用コンピュータ（たとえば、パーソナルコンピュータ及びラップトップコンピュータ）、ワークステーションコンピュータ、ウェアラブル機器、ゲームシステム、シンクライアント、各種の情報トランシーバ、センサ又は他の感知機器などを含むことができる。いくつかの実施例では、クライアント機器１０１、１０２、１０３、１０４、１０５及び／又は１０６は、路側機器を含んでもよい。これらのコンピュータ機器は、各種のタイプやバージョンのソフトウェアアプリケーション及びオペレーティングシステム、たとえば、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ、ＡｐｐｌｅｉＯＳ、ＵＮＩＸライクなオペレーティングシステム、Ｌｉｎｕｘ又はＬｉｎｕｘライクなオペレーティングシステム（たとえば、ＧｏｏｇｌｅＣｈｒｏｍｅＯＳ）を運行するか、又は各種の移動オペレーティングシステム、たとえば、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓＭｏｂｉｌｅＯＳ、ｉＯＳ、ＷｉｎｄｏｗｓＰｈｏｎｅ、Ａｎｄｒｏｉｄを含むことができる。ポータブルハンドヘルド機器は、セルラー電話、スマートフォン、タブレットコンピュータ、パーソナル・デジタル・アシスタント（ＰＤＡ）などを含むことができる。ウェアラブル機器は、ヘッドマウントディスプレイや他の機器を含むことができる。ゲームシステムは、各種の手持ちゲーム機器、インターネットをサポートするゲーム機器などを含むことができる。クライアント機器はさまざまなアプリケーション、たとえば、Ｉｎｔｅｒｎｅｔに関連する各種のアプリケーション、通信アプリケーション（たとえば、電子メールアプリケーション）、ショートメッセージサービス（ＳＭＳ）アプリケーションを実行し、各種の通信プロトコルを使用することができる。

ネットワーク１１０は、当業者に公知の任意のタイプのネットワークであってもよく、多種の利用可能なプロトコルのうちのいずれか（ＴＣＰ／ＩＰ、ＳＮＡ、ＩＰＸなどを含むが、これらに制限されない）を用いてデータ通信をサポートすることができる。一例として、１つ以上のネットワーク１１０は、ローカルエリアネットワーク（ＬＡＮ）、イーサネットに基づくネットワーク、トークンリング、ワイドエリアネットワーク（ＷＡＮ）、インターネット、仮想ネットワーク、仮想プライベートネットワーク（ＶＰＮ）、イントラネット、エクストラネット、公衆交換電話網（ＰＳＴＮ）、赤外線ネットワーク、無線ネットワーク（たとえば、ブルートゥース、ＷＩＦＩ）及び／又はこれら及び／又は他のネットワークの任意の組み合わせであってもよい。

サーバ１２０は、１つ以上の汎用コンピュータ、プライベートサーバコンピュータ（たとえば、ＰＣ（パーソナルコンピュータ）サーバ、ＵＮＩＸサーバ、ミッドレンジサーバ）、ブレードサーバ、メインフレームコンピュータ、サーバクラスター又は任意のほかの適切な配置及び／又は組み合わせを含むことができる。サーバ１２０は、仮想オペレーティングシステムを運行する１つ以上の仮想マシン、又は仮想化に関連するほかのコンピューティングアーキテクチャ（たとえば、サーバの仮想記憶機器の論理記憶機器をメンテナンスするために仮想化され得る１つ以上のフレキシブルプール）を含むことができる。いくつかの実施例では、サーバ１２０は、クラウド制御プラットフォームを含むこともできる。さまざまな実施例では、サーバ１２０は、以下に記載の機能を提供する１つ以上のサービス又はソフトウェアアプリケーションを運行できる。

サーバ１２０の計算ユニットは、上記の任意のオペレーティングシステム及び商業的に利用可能な任意のサーバオペレーティングシステムを含む１つ以上のオペレーティングシステムを運行できる。サーバ１２０は、各種の追加サーバアプリケーション及び／又は中間層アプリケーションのうちのいずれかも運行でき、ＨＴＴＰサーバ、ＦＴＰサーバ、ＣＧＩサーバ、ＪＡＶＡサーバ、データベースサーバなどを含む。

いくつかの実施形態では、サーバ１２０は、クライアント機器１０１、１０２、１０３、１０４、１０５及び１０６のユーザから受信したデータフィード及び／又はイベント更新を分析してマージするために１つ以上のアプリケーションを含むことができる。サーバ１２０はまた、クライアント機器１０１、１０２、１０３、１０４、１０５及び１０６の１つ以上の表示機器を介してデータフィード及び／又はリアルタイムイベントを表示するように、１つ以上のアプリケーションを含んでもよい。

いくつかの実施形態では、サーバ１２０は、分散システムのサーバ、又はブロックチェーンと組み合わせたサーバであってもよい。サーバ１２０は、クラウドサーバ、又は人工知能技術を有するインテリジェントクラウドコンピューティングサーバ又はインテリジェントクラウドホストであってもよい。クラウドサーバは、クラウドコンピューティングサービスシステムの１つのホスト製品であり、従来の物理ホストと仮想プライベートサーバ（ＶＰＳ、ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ）サービスに存在している管理しにくく、ビジネスのスケーラビリティが弱いという欠陥を解決する。

システム１００は、１つ以上のデータベース１３０を含んでもよい。いくつかの実施例では、これらのデータベースはデータや他の情報の記憶に用いられ得る。たとえば、データベース１３０の１つ以上はたとえばオーディオファイルやビデオファイルの情報の記憶に用いられ得る。データリポジトリ１３０は各種の位置に存在できる。たとえば、サーバ１２０により使用されるデータリポジトリはサーバ１２０のローカルに存在してもよく、又はサーバ１２０から離れて、ネットワークに基づいて又はプライベート接続を介してサーバ１２０と通信してもよい。データリポジトリ１３０はさまざまなタイプがある。いくつかの実施例では、サーバ１２０により使用されるデータリポジトリはデータベース、たとえば、関係データベースであってもよい。これらのデータベースのうち１つ以上は命令に応答してデータベース及びデータベースからのデータを記憶、更新、検索できる。

いくつかの実施例では、データベース１３０のうち１つ以上は、アプリケーションにより使用されてアプリケーションデータを記憶してもよい。アプリケーションにより使用されるデータベースは、さまざまなタイプのデータベース、たとえば、キー値リポジトリ、オブジェクトリポジトリ又はファイルシステムでサポートされる通常のリポジトリであってもよい。

図２は、本開示の実施例に係るターゲット検出方法２００のフローチャートを示す。方法２００は、クライアント機器（たとえば、図１に示すクライアント機器１０１～１０６のうちの任意の１つ）で実行することができ、つまり、方法２００の各ステップの実行主体は、図１に示すクライアント機器１０１～１０６のうちのいずれかであってもよい。いくつかの実施例では、方法２００は、サーバ（たとえば、図１に示すサーバ１２０）で実行することができる。いくつかの実施例では、方法２００は、クライアント機器（たとえば、クライアント機器１０１～１０６のうちのいずれか）及びサーバ（たとえば、サーバ１２０）との組み合わせにより実行できる。以下では、実行主体がサーバ１２０である場合を例にして、方法２００の各ステップを詳細に説明する。

図２に示すように、ターゲット検出方法２００は、ステップ２１０～ステップ２４０を含む。

ステップ２１０では、検出対象ターゲットについて検出用単眼カメラにより撮影された画像である検出対象ターゲットの検出画像を取得する。

ステップ２２０では、該検出対象ターゲットの位置する地面での検出対象ターゲットの正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標を含む検出対象ターゲットの位置情報を検出画像から抽出するように構成されるターゲット検出モデルを取得する。

ステップ２３０では、検出画像をターゲット検出モデルに入力して、検出対象ターゲットの位置情報を抽出する。

ステップ２４０では、検出対象ターゲットの位置情報に基づいて、検出対象ターゲットの３次元位置を決定する。

例示的には、検出対象ターゲットの位置情報は、地面での検出対象ターゲットの正投影の中心点の、検出用単眼カメラの画像平面に投影された画像投影点の画素座標（画素単位）、検出対象ターゲットの長さ、幅、高さ（たとえば、メートル単位）及びヨー角を含む。

例示的には、検出対象ターゲットの３次元位置は、地面での検出対象ターゲットの正投影の中心点の検出用単眼カメラ座標系における３次元座標を含むことができる。任意選択には、地面での検出対象ターゲットの正投影の中心点の３次元座標、検出対象ターゲットの長さ、幅、高、及びヨー角は検出対象物体の３次元バウンディングボックスを示すことができる。任意選択には、検出対象ターゲットの位置情報は検出対象ターゲット画像の２次元バウンディングボックスをさらに含んでもよい。

以上のように、本開示の実施例に係るターゲット検出方法は、ターゲット検出モデルによって、ターゲットの地面での中心点のカメラに投影された座標位置を出力し、ターゲットの３次元位置を得ることができる。ターゲット検出モデルによって出力される画像座標は、検出用単眼カメラと適用シナリオとの間の外部パラメータによらないので、モデルは優れた一般化能力を持つ。このため、該モデルを用いた検出方法は、さまざまな外部パラメータのシナリオで同一のターゲット検出モデルを使用して検出対象ターゲットを検出できる。

図３は、本開示の実施例に係る図２の方法２００において検出対象ターゲットの３次元位置を決定する（ステップ２４０）例示的な過程のフローチャートを示す。図３に示すように、検出対象ターゲットの位置情報に基づいて、検出対象ターゲットの３次元位置を決定するステップ２４０は、さらに、ステップ３１０～ステップ３６０を含む。

ステップ３１０では、検出用単眼カメラの内部パラメータを取得する。

ステップ３２０では、検出対象ターゲットの位置する地面の検出用単眼カメラの座標系における平面方程式のパラメータを含む検出用単眼カメラの外部パラメータを取得する。

ステップ３３０では、検出用単眼カメラの内部パラメータと検出対象ターゲットの位置情報とに基づいて、検出用単眼カメラの座標系の原点と、位置情報中の、地面での検出対象ターゲットの正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標とを通る直線を決定する。ここでは、地面での検出対象ターゲットの正投影の中心点の検出用単眼カメラの座標系における座標は直線上にある。

ステップ３４０では、直線と地面の平面方程式のパラメータとに基づいて、直線と地面との交差点の検出用単眼カメラの座標系における座標を、地面での検出対象ターゲットの正投影の中心点の検出用単眼カメラの座標系における座標として決定する。

ステップ３５０では、検出対象ターゲットの位置情報中の、正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標を正投影の中心点の検出用単眼カメラの座標系における座標に置き換える。

ステップ３６０では、置き換えられた検出対象ターゲットの位置情報を検出対象ターゲットの３次元位置として提供する。

以下、図４を参照しながら図３に示す過程を例示的に説明する。図４は、本開示の実施例に係る図３の過程において検出対象ターゲットの３次元位置を決定する例示的な操作４００のフローチャートを示す。

図４に示すように、例示的な操作４００は、検出対象ターゲット４１０と地面平面４２０を含む。検出対象ターゲット４１０の地面平面４２０での正投影は４１０’である。検出対象ターゲットの正投影４１０’は中心点４３０を有する。

例示的な操作４００は検出用単眼カメラ４４０をさらに含む。検出用単眼カメラ４４０の焦点４７０を原点、地面平面４２０に垂直な方向をＹ_Ｃ軸、紙面に垂直な方向をＸ_Ｃ軸、及びＸ_Ｃ－Ｙ_Ｃ平面に垂直な方向をＺ_Ｃ軸として、単眼カメラ４４０の座標系４５０（Ｘ_Ｃ－Ｙ_Ｃ－Ｚ_Ｃ）を作成する。さらに、検出用単眼カメラ４４０は画像平面４６０を有する。

さらに、検出対象ターゲットの正投影４１０’の中心点４３０は、焦点４７０を通って画像平面４６０に投影し、画像投影点４３０’を得ることができる。

次に、検出対象ターゲット４１０の位置情報は訓練済みのターゲット検出モデルにより予測され得るため、ここでは再度言及しない。さらに、検出対象ターゲット４１０の位置情報は、地面４２０での検出対象ターゲット４１０の投影４１０’の中心点４３０の、画像平面４６０に投影された画像投影点４３０’の画素座標を含む。

次に、検出用単眼カメラ４４０の内部パラメータ４９０を得る。内部パラメータ４９０と画像投影点４３０’の画素座標とに基づいて、解を求めて画像投影点４３０’から焦点４７０を通る直線４８０の、検出用単眼カメラ４４０の座標系下の方程式：ａｘ＋ｂｙ＝ｃを得る。

次に、検出用単眼カメラ４４０の外部パラメータを得ることができる。該外部パラメータは、検出対象ターゲット４１０の位置する地面４２０の検出用単眼カメラ４４０の座標系４５０における平面方程式のパラメータを含む。即ち、カメラ座標系４５０における平面方程式：ＡＸ＋ＢＹ＋ＣＺ＝Ｄである。さらに、外部パラメータによって地面４２０の方程式の各パラメータが決定され得る。

さらに、投影関係から、画像投影点４３０’に対応する中心点４３０が直線４８０上にあることがわかることができる。さらに、中心点４３０が地面４２０での検出対象ターゲット４１０の投影４１０’の中心点であるため、中心点４３０は地面４２０の平面内にある。このため、直線４８０と地面４２０との交差点は中心点４３０である。

さらに、直線４８０と地面４２０のカメラ座標系４５０における方程式は既知であるので、座標系４５０下で両方の交差点について解を求め、座標系４５０下の中心点４３０の座標を得ることができる。

その後、ターゲット検出モデルによって抽出された検出対象ターゲット４１０の位置情報中の画像投影点４３０’の、画像平面４６０における画素座標を、中心点４３０のカメラ座標系４５０における座標に置き換える。

最後に、置き換えられた検出対象ターゲット４１０の位置情報を検出対象ターゲット４１０の３次元位置として提供する。

以上のように、本開示の実施例の技術案では、まず、訓練済みのターゲット検出モデルによって検出対象ターゲットの位置情報を予測し、次に、既知のカメラの内部パラメータと外部パラメータとから、中心点の画像投影の座標に基づいて中心点の３次元座標を推定する。カメラの外部パラメータは、人為的に制御可能な求解過程にのみ使用され、制御不能なモデル訓練には、カメラの外部パラメータが使用されない。このため、訓練済みのモデルは、人為的に制御可能なカメラの外部パラメータと組み合わせて、さまざまなシナリオのターゲットを検出することができ、それにより、検出方法の適用範囲を広げる。

図５は、本開示の実施例に係る図２の方法２００において検出対象ターゲットの３次元位置を決定する（ステップ２４０）別の例示的な過程のフローチャートを示す。図５に示すように、検出対象ターゲットの位置情報に基づいて、検出対象ターゲットの３次元位置を決定するステップ２４０は、ステップ５１０～ステップ５４０をさらに含む。

ステップ５１０では、地面内の点の検出用単眼カメラの座標系における座標と検出用単眼カメラの画像平面に投影された該点の画素座標との間のマッピング関係を示す検出対象ターゲットの位置する地面の地面深度マップを取得する。

ステップ５２０では、地面深度マップに基づいて、検出対象ターゲットの位置情報中の、地面での検出対象ターゲットの正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標の検出用単眼カメラ座標系における座標を検索する。

ステップ５３０では、検出対象ターゲットの位置情報中の、正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標を正投影の中心点の検出用単眼カメラの座標系における座標に置き換える。

ステップ５４０では、置き換えられた検出対象ターゲットの位置情報を検出対象ターゲットの３次元位置として提供する。

以下、図６を参照しながら図５に示す過程を例示的に説明する。図６は、本開示の実施例に係る図５の過程において検出対象ターゲットの３次元位置を決定する例示的な操作６００のフローチャートを示す。図６の検出対象ターゲット６１０は図４の検出対象ターゲット４１０と同じであり、同様に、他の類似する図面の符号は図４のものと類似する素子を示し、ここでは再度言及しない。

図６に示すように、例示的な操作６００は地面深度マップ６９０を含む。地面深度マップ６９０は、地面６２０における点の検出用単眼カメラの座標系６５０における座標と、該点の検出用単眼カメラの画像平面座標系６６０に投影された画像投影点の画素座標との間のマッピング関係を示す。即ち、地面６２０での検出対象ターゲット６１０の正投影６１０’の中心点６３０について、地面深度マップ６９０は、カメラ座標系６５０における中心点６３０の座標と画像平面座標系６６０における画像投影点６３０’の画素座標との間のマッピング関係を確立する。

次に、同様に、訓練済みのターゲット検出モデルによって、画像投影点６３０’の画素座標を知ることができ、ここでは再度言及しない。

次に、画像平面座標系６６０における画像投影点６３０’の画素座標に基づいて、地面深度マップ６９０でカメラ座標系６５０における中心点６３０の座標を検索する。

その後、ターゲット検出モデルによって抽出された検出対象ターゲット６１０の位置情報中の、画像投影点６３０’の画像平面６６０における画素座標をカメラ座標系６５０における中心点６３０の座標に置き換える。

最後に、置き換えられた検出対象ターゲット６１０の位置情報を検出対象ターゲット６１０の３次元位置として提供する。

以上のように、本開示の実施例の技術案では、人為的に制御可能な地面深度マップによって検出対象ターゲットの中心点の３次元座標を検索し、制御不能なモデル訓練には、カメラの外部パラメータが使用されない。このため、訓練済みのモデルは、人為的に制御可能なカメラの外部パラメータと組み合わせて、さまざまなシナリオのターゲットを検出することができ、それにより、検出方法の適用範囲を広げる。

いくつかの例示的な実施例では、検出対象ターゲットの３次元位置は検出対象ターゲットの３次元バウンディングボックスであってもよい。例示的には、図７は、本開示の実施例に係る検出対象ターゲットの３次元位置的構造７００の模式図を示す。

図７に示すように、検出対象ターゲットの３次元位置の構造７００は、地面での検出対象ターゲット７１０の投影中心点７３０のカメラ座標系７５０における３次元座標を含むことができる。検出対象ターゲット７１０の長さ７６０、幅７７０、高さ７８０及びヨー角をさらに含んでもよい。ヨー角は、たとえば、検出対象ターゲットの軸線７４０と座標軸Ｘ_Ｃとの挟角であってもよい。

さらに、中心点７３０の座標、長さ７６０、幅７７０、高さ７８０及びヨー角から検出対象ターゲット７１０の３次元バウンディングボックス７２０を得て、検出対象ターゲット７１０の３次元位置として提供できる。

図８は、本開示の実施例に係るターゲット検出モデルの訓練方法８００のフローチャートを示す。図８に示すように、ターゲット検出モデルの訓練方法８００はステップ８１０～ステップ８３０を含むことができる。

ステップ８１０では、ターゲットについて単眼カメラによって撮影された訓練画像を含む訓練データを取得する。例示的には、ターゲット検出モデルは、訓練画像におけるターゲットの位置情報を検出する。訓練データは、たとえば訓練画像に対応するラベルを含んでもよく、このラベルは、訓練画像におけるターゲットの実際の位置を示すことができる。

ステップ８２０では、多層畳み込みニューラルネットワークを含む基礎モデルを作成することができる。多層畳み込みニューラルネットワークは、該ターゲットの位置する地面でのターゲットの正投影の中心点の、単眼カメラの画像平面に投影された画素座標を含むターゲットの位置情報を訓練画像から抽出するように構成される。

例示的には、基礎モデルは多層畳み込みニューラルネットワークを含むことができる。多層畳み込みニューラルネットワークは、モデルに入力された訓練画像について畳み込みを複数回行い、ターゲットの位置情報を抽出することができる。例示的には、ターゲットの位置する地面は平面であると想定でき、訓練画像から抽出されたターゲットの位置情報が地面平面でのターゲットの正投影の中心点の、カメラ画像平面での投影点の画素座標を含むことができる。例示的には、３次元世界座標系においてターゲットの位置の変化が大きい場合、訓練画像における中心点に対応する画像投影点の画素座標の変化も大きくなる。

ステップ８３０では、訓練データを用いて基礎モデルを訓練し、ターゲット検出モデルを得ることができる。例示的には、多層畳み込みニューラルネットワークは、ターゲットの位置情報を回帰することによりニューラルネットワークの重みを学習して更新することができる。任意選択には、訓練画像をターゲット検出モデルに絶えずに入力し、畳み込みニューラルネットワークの重みを反復更新することにより、畳み込みニューラルネットワークによるターゲットの位置情報の予測は訓練データのうちの実際値にほぼ近くなり、それによりターゲット検出モデルが生成される。

図９Ａは、本開示の実施例に係る地面でのターゲットの正投影の中心点の模式図を示す。図９Ａは、ターゲット９１０、地面９２０、地面９２０でのターゲット９１０の正投影９３０、ターゲット９１０での点９４０、地面９２０での点９４０の投影点９４０’、及び地面９２０でのターゲット９１０の正投影９３０の中心点９５０’を含む。

例示的には、地面９２０が平面であると想定すると、ターゲット９１０での点９４０を地面９２０に投影して投影点９４０’を得ることができる。同様に、地面９２０でのターゲット９１０の正投影９３０を得て、正投影９３０の中心点９５０’を得ることができる。

図９Ｂは、本開示の実施例に係る地面でのターゲットの正投影の中心点の、画像平面に投影された上面図を示す。図９Ｂの類似する図面の符号は、図９Ａのものと類似する素子を示し、ここでは再度言及しない。

図９Ｂに示すように、ターゲット９１０の正投影９３０の中心点９５０’はカメラ９６０の画像平面９７０に投影され、中心点９５０’の画像投影点９５０’’は得られる。

例示的には、訓練データのうち訓練画像内の画像投影点９５０’’にラベルを追加し、投影点９５０’の３次元座標の代わりに、画像投影点９５０’’の２次元画素座標を回帰パラメータとする。

以上のように、本開示の実施例によるターゲット検出モデルの訓練方法では、位置の変化が小さい、地面でのターゲットの正投影の中心点の画像平面に投影された画素座標を回帰パラメータとして用いることにより、ターゲット検出モデルの訓練過程におけるパラメータフィッティングの難度が低下し、モデルの訓練速度が向上することができる。また、モデルの訓練過程において、地面でのターゲットの正投影の中心点の３次元座標を回帰しないため、カメラの外部パラメータに対するモデルの依存性を低減させ、モデルの一般化能力を高める。

図１０Ａ～１０Ｃは、本開示の実施例に係るターゲット検出モデル１０００Ａの構造の模式図を示す。図１０Ａに示すように、ターゲット検出モデル１０００Ａは、訓練画像１０１０、多層畳み込みニューラルネットワーク１０２０、及びターゲット位置情報１０９０を含むことができる。多層畳み込みニューラルネットワーク１０２０は、画像特徴抽出層１０３０を含むことができる。画像特徴抽出層１０３０は、訓練画像１０１０から画像特徴を抽出するように構成される。

多層畳み込みニューラルネットワーク１０２０はターゲットパラメータ抽出層１０４０をさらに含んでもよい。ターゲットパラメータ抽出層１０４０は、画像特徴に基づいて、ターゲットの位置情報１０９０を抽出するように構成される。

いくつかの例示的な実施例では、ターゲットパラメータ抽出層１０４０は３次元情報検出層１０４２を含むことができる。３次元情報検出層１０４２は、画像特徴に基づいて、ターゲットの３次元位置情報１０９２を検出するように構成される。ここで、ターゲットの位置情報１０９０は、前記ターゲットの３次元位置情報１０９２を含むことができる。

いくつかの例示的な実施例では、ターゲットの３次元位置情報１０９２は、単眼カメラの座標系におけるターゲットの長さ、幅、高さ、及びヨー角を含む。

例示的には、画像特徴抽出層１０３０は、関連技術における任意の画像特徴抽出ネットワーク、たとえば、ビジュアルジオメトリグループネットワーク（ＶＧＧ）、残差ネットワーク（ＲｅｓＮｅｔ）、モバイルニューラルネットワーク（ＭｏｂｉｌｅＮｅｔ）などであってもよい。

例示的には、３次元情報検出層１０４２は、関連技術における単眼ビジョンに基づいてターゲットを検出する任意の３次元情報的ネットワーク、たとえば、一次ニューラルネットワークＹＯＬＯ（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ）、特徴ピラミッドに基づくＳＳＤ（ＳｉｎｇｌｅＳｈｏｔＭｕｌｔｉＢｏｘＤｅｔｅｃｔｏｒ）ネットワーク、アンカーに基づくネットワーク（ＡｎｃｈｏｒＢａｓｅｄ）などであってもよい。

以上のように、多層畳み込みニューラルネットワーク１０２０には画像特徴抽出層１０３０とターゲットパラメータ抽出層１０４０がさらに含まれる。画像特徴抽出層１０３０は、関連技術において成熟した２次元ターゲット特徴抽出技術を用いて画像特徴を抽出できる。さらに、画像特徴はターゲットパラメータ抽出層１０４０に入力され、たとえば、地面でのターゲットの正投影の中心点の画像投影点の画素座標などを含むターゲット位置情報は抽出される。ターゲットパラメータ抽出層１０４０によって抽出された２次元画素点を回帰パラメータとすることによって、３次元座標を抽出して回帰パラメータの訓練セットとする場合に収集やキャリブレーションが難しいという課題を回避する。

図１０Ｂは、本開示の別の実施例に係るターゲット検出モデル１０００Ｂの構造の模式図を示す。図１０Ｂの類似する図面の符号は図１０Ａのものと類似する素子を示し、ここでは再度言及しない。図１０Ｂに示すように、ターゲットパラメータ抽出層１０４０は２次元情報検出層１０４４をさらに含む。２次元情報検出層１０４４は、画像特徴に基づいて、単眼カメラの画像平面に投影されたターゲット画像の単眼カメラの画像平面座標系におけるターゲットの２次元位置情報１０９４を検出するように構成される。且つ、ターゲットの位置情報１０９０はターゲットの２次元位置情報１０９４を含んでもよい。

いくつかの例示的な実施例では、２次元情報検出層１０４４によって検出されたターゲット画像の画像平面における２次元位置情報１０９４は、画像平面座標系におけるターゲット画像の高さ、幅、ターゲット画像の中心点の画素座標、信頼度及びスコアを含むことができ、画像平面座標系におけるターゲット画像の高さ、幅、及びターゲット画像の中心点の画素座標はターゲット画像の２次元バウンディングボックスを示すことができる。例示的には、信頼度は、２次元バウンディングボックスと訓練データ中の実際の２次元バウンディングボックスとの類似度を示すことができる。さらに例示的には、スコアは、２次元バウンディングボックスと実際の２次元バウンディングボックスとの間の重なり度を示すことができる。

以上のように、本開示の実施例のターゲット検出モデルの訓練方法では、２次元情報検出層１０４４をターゲットパラメータ抽出層１０４０に導入し、ターゲットの位置情報に訓練画像でのターゲットの２次元位置情報を追加することにより、ターゲット検出モデルにより予測可能な情報を豊かにする。なお、ターゲットの２次元バウンディングボックスを作成することによって、バウンディングボックスの２次元位置情報及びターゲットの幾何学的制約を利用してターゲットの３次元位置の予測精度を高めることができる。

図１０Ｃは本開示の別の実施例に係るターゲット検出モデル１０００Ｃの構造の模式図を示す。図１０Ｃの類似する図面の符号は図１０Ａ及び１０Ｂのものと類似する素子を示し、ここでは再度言及しない。図１０Ｃに示すように、多層畳み込みニューラルネットワーク１０２０は領域候補ネットワーク層１０５０をさらに含む。領域候補ネットワーク層１０５０は、画像特徴に基づいて、ターゲットの画像候補領域を検出するように構成される。

多層畳み込みニューラルネットワーク１０２０は候補領域プーリング層１０６０をさらに含む。候補領域プーリング層１０６０は、画像特徴と画像候補領域とに基づいて、画像候補領域の特徴を抽出してターゲットパラメータ抽出層１０４０に入力することができるように構成される。

例示的には、領域候補ネットワーク層１０５０は、ターゲット画像を含む領域について予備的な位置を推定し、単独の一次モデルとして訓練することができ、このため、ターゲット検出モデル１０００Ｃは二次検出モデルであってもよい。

例示的には、領域候補ネットワーク層１０５０は、関連技術におけるターゲット候補領域を抽出する任意のネットワーク、たとえば、ＲＰＮネットワーク（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋｓ）などであってもよい。

例示的には、候補領域プーリング層１０６０は、関連技術における、ターゲット候補領域と画像特徴とに基づいて候補領域特徴を抽出する任意のネットワーク、たとえば、ＲＯＩＰｏｏｌｉｎｇネットワーク（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔＰｏｏｌｉｎｇ）などであってもよい

以上のように、多層畳み込みニューラルネットワーク１０２０に領域候補ネットワーク層１０５０と候補領域プーリング層１０６０とをさらに追加することによって、領域候補ネットワーク層１０５０により出力された画像候補領域及び画像特徴抽出層１０３０により抽出された画像特徴を候補領域プーリング層１０６０に入力して候補領域の画像特徴を得ることができる。候補ネットワーク層４５０及び候補領域プーリング層１０６０がターゲットの検出をターゲット画像を含む可能性がある領域内に限定するので、後続の検出操作が候補領域内にのみ行わればよく、このように、ターゲットの３次元位置情報及び／又は２次元位置情報の検出速度が高まる。

図１１は、本開示の実施例に係る図８の方法８００において基礎モデルを訓練する（ステップ８３０）例示的な過程のフローチャートを示す。図８に示すように、訓練データを用いて基礎モデルを訓練し、ターゲット検出モデルを得るステップ８３０は、ステップ１１１０～ステップ１１３０をさらに含む。

ステップ１１１０では、訓練データを基礎モデルに入力する。

ステップ１１２０では、基礎モデルの誤差関数に従って、多層畳み込みニューラルネットワークにより抽出されたターゲットの位置情報とデータ内の対応する実際値との間の誤差を算出する。

ステップ１１３０では、誤差に従って多層畳み込みニューラルネットワークに対してバックプロパゲーション訓練を行い、ターゲット検出モデルを得る。

例示的には、訓練データを入力し、多層畳み込みニューラルネットワークの重みパラメータを初期化することができる。次に、データをバッチでモデルに順次入力して、フォワードプロパゲーションを行う。次に、モデルにより予測されたターゲットの位置情報と訓練データにおいて標識された実際値との間の誤差を算出する。さらに、誤差勾配をバックプロパゲーションして重みを更新する。最後に、繰り返して反復して誤差勾配をゼロにする。任意選択には、モデルの誤差関数は、モデルにより予測されたターゲットの位置情報と実際値との間のユークリッド距離として設計されることができる。

以上のように、多層畳み込みニューラルネットワークの重みパラメータを連続的に繰り返して更新することによって、ターゲット検出モデルの予測出力を実際値にほぼ近くすることができる。また、訓練過程において、回帰用の畳み込みニューラルネットワークパラメータがターゲットの正投影の中心点の画像投影座標を含むターゲット位置情報であるため、訓練収束速度が高く、ターゲット検出モデルの一般化能力が高まる。

図１２Ａ～１２Ｂは本開示の実施例に係るターゲット検出方法による例示的なターゲットの検出の模式図を示す。

図１２Ａには、訓練済みのターゲット検出モデルを用いてシナリオ１２００Ａを検出する。図１２Ａに示す検出結果から、検出対象ターゲット１２１０の３次元位置は３次元バウンディングボックス１２２０を含む。

図１２Ｂには、同じターゲット検出モデルを用いてシナリオ１２００Ｂを検出する。図１２Ｂに示す検出結果から、検出対象ターゲット１２１２の３次元位置は３次元バウンディングボックス１２２２を含む。

同一のターゲット検出モデルについては、シナリオ及び外部パラメータが異なる場合にも、依然としてターゲットの３次元位置を検出できることがわかることができる。

図１３Ａ～１３Ｂは、本開示の実施例に係るターゲット検出装置１３００Ａのブロック図を示す。図１３Ａに示すように、ターゲット検出装置１３００Ａは、検出対象ターゲットについて検出用単眼カメラにより撮影された画像である検出対象ターゲットの検出画像を取得するように構成される第１の取得ユニット１３１０と、該検出対象ターゲットの位置する地面での検出対象ターゲットの正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標を含む検出対象ターゲットの位置情報を検出画像から抽出するように構成されるターゲット検出モデルを取得するように構成される第２の取得ユニット１３２０と、検出画像をターゲット検出モデルに入力して、検出対象ターゲットの位置情報を抽出するように構成される入力ユニット１３３０と、検出対象ターゲットの位置情報に基づいて、検出対象ターゲットの３次元位置を決定するように構成される決定ユニット１３４０とを含む。

いくつかの例示的な実施例では、決定ユニット１３４０は、
検出用単眼カメラの内部パラメータを取得するように構成される第１の取得サブユニット１３４１と、
検出対象ターゲットの位置する地面の検出用単眼カメラの座標系における平面方程式のパラメータを含む検出用単眼カメラの外部パラメータを取得するように構成される第２の取得サブユニット１３４２と、
検出用単眼カメラの内部パラメータと検出対象ターゲットの位置情報とに基づいて、検出用単眼カメラの座標系の原点と位置情報中の、地面での検出対象ターゲットの正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標とを通る直線を決定し、ここで、前記地面での検出対象ターゲットの正投影の中心点の検出用単眼カメラの座標系における座標は前記直線上にあるように構成される第１の決定サブユニット１３４３と、
直線と地面の平面方程式のパラメータとに基づいて、直線と地面との交差点の検出用単眼カメラの座標系における座標を、地面での検出対象ターゲットの正投影の中心点の検出用単眼カメラの座標系における座標として決定するように構成される第２の決定サブユニット１３４４と、
検出対象ターゲットの位置情報中の、正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標を正投影の中心点の検出用単眼カメラの座標系における座標に置き換えるように構成される第１の置き換えサブユニット１３４５とを含むことができる。

さらに、置き換えられた検出対象ターゲットの位置情報を検出対象ターゲットの３次元位置として提供するように構成される第１の提供サブユニット１３４６を含む。

図１３Ｂは、本開示の別の実施例に係るターゲット検出装置１３００Ｂのブロック図を示す。図１３Ｂの類似する図面の符号は、図１３Ａのものと類似する素子を示し、ここでは再度言及しない。

図１３Ｂに示すように、決定ユニット１３５０は、
検出対象ターゲットの位置する地面の、ここで、地面内の点の検出用単眼カメラの座標系における座標と検出用単眼カメラの画像平面に投影された該点の画素座標との間のマッピング関係を示す地面深度マップを取得するように構成される第３の取得サブユニット１３５１と、
地面深度マップに基づいて、検出対象ターゲットの位置情報中の、地面での検出対象ターゲットの正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標の検出用単眼カメラ座標系における座標を検索するように構成される検索サブユニット１３５２と、
検出対象ターゲットの位置情報中の、正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標を正投影の中心点の検出用単眼カメラの座標系における座標に置き換えるように構成される第２の置き換えサブユニット１３５３とを含むことができる。

さらに、置き換えられた検出対象ターゲットの位置情報を検出対象ターゲットの３次元位置として提供するように構成される第２の提供サブユニット１３５４をさらに含む。

図１４は本開示の実施例に係るターゲット検出モデルの訓練装置１４００のブロック図を示す。図１４に示すように、ターゲット検出モデルの訓練装置１４００は、ターゲットについて単眼カメラによって撮影された訓練画像を含む訓練データを取得するように構成される第３の取得ユニット１４１０と、該ターゲットの位置する地面でのターゲットの正投影の中心点の、単眼カメラの画像平面に投影された画素座標を含むターゲットの位置情報を訓練画像から抽出するように構成される多層畳み込みニューラルネットワークを含む基礎モデルを作成するように構成される作成ユニット１４２０と、訓練データを用いて基礎モデルを訓練し、ターゲット検出モデルを得るように構成される訓練ユニット１４３０とを含む。

なお、図１３Ａ～１３Ｂに示す装置１３００Ａ及び１３００Ｂの各ユニット、及びサブユニットは、図２～図７を参照して説明する方法２００の各ステップに対応する。それによって、以上で方法２００について説明した操作、特徴、及び利点は装置１３００Ａ、１３００Ｂ及びこれらに含まれるユニット及びサブユニットにも適用でき、簡素化のため、再度言及しない。

なお、図１４に示す装置１４００の各ユニット及びサブユニットは、図８～図１１を参照して説明した方法８００の各ステップに対応する。それによって、以上で方法８００について説明した操作、特徴及び利点は装置１４００及びこれに含まれるユニット及びサブユニットにも適用でき、簡素化のため、再度言及しない。

なお、以上、特定のユニットを参照して特定の機能を検討しているが、本明細書で検討する各ユニットの機能は複数のユニットに分けられることができ、及び／又は複数のユニットの少なくとも一部の機能は単一のユニットとして組み合わせられることができる。本明細書で検討する特定のユニットによる動作の実行は、該特定のユニット自体が該動作を実行する場合と、代わりに、該特定のユニットにより該動作（又は該特定のユニットと組み合わせて一緒に該動作を実行する）を実行する別のコンポーネント又はユニットを呼び出す又は他の方式でアクセスする場合を含む。したがって、動作を実行する特定のユニットは、動作を実行する該特定のユニット自体及び／又は該特定のユニットにより呼び出される又は他の方式でアクセスされる、動作を実行する別のユニットを含むことができる。

本明細書では、ソフトウェア・ハードウェア素子又はプログラムモジュールの通常の文脈において各種の技術を説明できる。以上で説明した各ユニット、サブユニットは、ハードウェア又はソフトウェア及び／又はファームウェアを組み合わせたハードウェアにて実現できる。たとえば、これらのユニット、サブユニットはコンピュータプログラムコード／命令として実現されることができ、該コンピュータプログラムコード／命令は、１つ以上のプロセッサにて実行され、コンピュータ読み取り可能な記憶媒体に記憶されるように構成される。代替的には、これらのモジュールは、ハードウェア論理／回路として実現されてもよい。たとえば、ユニット、サブユニットのうち１つ以上はシステムオンチップ（ＳｏＣ）に一緒に実現されることができる。ＳｏＣは、集積回路チップ（プロセッサ（たとえば、中央処理ユニット（ＣＰＵ）、マイクロコントローラ、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）など）、メモリ、１つ以上の通信インターフェース、及び／又は他の回路における１つ以上の部材を含む）を含み、そして、任意選択には受信されたプログラムコードを実行するか、及び／又は機能を実行するための組み込みファームウェアを含むことができる。

本開示の別の態様によれば、メモリ、プロセッサ及びメモリに記憶されたコンピュータプログラムを含む電子機器を提供する。プロセッサは、コンピュータプログラムを実行して、本開示の上記方法のステップを実現するように構成される。

本開示の別の態様によれば、コンピュータプログラムが記憶された非一時的なコンピュータ読み取り可能な記憶媒体を提供する。コンピュータプログラムは、プロセッサにより実行されると、本開示の上記方法のステップを実現する。

本開示の別の態様によれば、コンピュータプログラムを含むコンピュータプログラム製品を提供する。コンピュータプログラムは、プロセッサにより実行されると、本開示の上記方法のステップを実現する。

以下では、図１５を参照してこのような電子機器、非一時的なコンピュータ読み取り可能な記憶媒体、及びコンピュータプログラム製品の例を説明する。図１５は、本開示の実施例を実現するために使用できる例示的な電子機器１５００の構造ブロック図を示す。

図１５を参照して、本開示のサーバ又はクライアントとして使用できる電子機器１５００の構造ブロック図を示し、これは、本開示の各態様に適用されるハードウェア機器の例である。電子機器は、たとえば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなど、様々な形態のデジタル電子の電子機器を指すことを意図している。電子機器は、たとえば、パーソナルデジタルアシスタント、セルラー電話、スマートフォン、ウェアラブル機器、及びその他の類似のコンピューティング装置など、様々な形態の移動装置を示してもよい。本明細書に示されている部材、それらの接続と関係、及びそれらの機能は単なる例であるが、本明細書の説明される及び/又は求められる本開示の実現を制限するのを意図しない。

図１５に示すように、電子機器１５００は、読み取り専用（ＲＯＭ）１５０２に記憶されたコンピュータプログラム又は記憶ユニット１５０８からランダムアクセスメモリ（ＲＡＭ）１５０３にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる計算ユニット１５０１を含む。ＲＡＭ１５０３には、電子機器１５００の動作に必要な様々なプログラム及びデータが記憶されてもよい。計算ユニット１５０１、ＲＯＭ１５０２及びＲＡＭ１５０３は、バス１５０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インターフェース１５０５もバス１５０４に接続されている。

機器１５００の複数の部材はＩ／Ｏインターフェース１５０５に接続され、入力ユニット１５０６、出力ユニット１５０７、記憶ユニット１５０８及び通信ユニット１５０９を含む。入力ユニット１５０６は機器１５００に情報を入力できる任意のタイプの機器であってもよく、入力ユニット１５０６は、入力したデジタル又は文字情報を受信するとともに、電子機器のユーザ設定及び／又は機能制御に関連するキー信号入力を発生させることができ、そして、マウス、キーボード、タッチスクリーン、トラックパッド、トラックボール、ジョイスティック、マイク、および/またはリモコンを含むが、これらに限定されない。出力ユニット１５０７は、情報を表示できる任意のタイプの機器であってもよく、そして、ディスプレイ、スピーカー、ビデオ／オーディオ出力端末、振動器及び／又はプリンタを含むが、これらに限定されない。記憶ユニット１５０８は、磁気ディスク、光ディスクを含むが、これらに限定されない。通信ユニット１５０９は、機器１５００がたとえばインターネットのコンピュータネットワーク及び／又は各種の電信ネットワークを介して他の機器と情報／データを交換することを可能にし、そして、モデム、ネットワークカード、赤外線通信機器、無線通信トランシーバ及び／又はチップセットを含むが、これらに限定されなく、たとえば、ブルートゥースＴＭ機器、１３０２．１１機器、ＷｉＦｉ機器、ＷｉＭａｘ機器、セルラー通信機器及び／又は類似するものである。

計算ユニット１５０１は、処理能力及び計算能力を有する様々な汎用及び／又は専用の処理構成要素であってもよい。計算ユニット１５０１のいくつかの例は、中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどが含まれるが、これらに限定されない。計算ユニット１５０１は、以上で説明された様々な方法及び処理、たとえば、方法２００及び方法６００のうちの一方又は両方を実行する。たとえば、いくつかの実施例では、方法２００及び方法６００のうちの一方又は両方は、記憶ユニット１５０８などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ＲＯＭ１５０２及び／又は通信ユニット１５０９を介して電子機器１５００にロード及び／又はインストールされることができる。コンピュータプログラムがＲＡＭ１５０３にロードされ、計算ユニット１５０１によって実行されると、以上で説明された方法２００及び方法８００のうちの一方又は両方の１つ以上のステップを実行することができる。オプションとして、別の実施例では、計算ユニット１５０１は、他の任意の適切な方式で（たとえば、ファームウェアによって）方法２００及び方法８００のうちの一方又は両方を実行するように構成されてもよい。

本明細書に記載のシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップシステム（ＳＯＣ）、ロードプログラマブルロジック機器（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は以下の内容を含むことができ、１つ又は複数のコンピュータプログラムにおいて実施され、この１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行及び／又は解釈され得、このプログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令をこのストレージシステム、この少なくとも１つの入力装置、及びこの少なくとも１つの出力装置に送信することができる。

本開示の方法を実施するためのプログラムコードは１つ又は複数の言語の任意の組み合わせで作成することができる。これらのプログラムコードは汎用コンピュータ、専用コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供されることができ、それによりプログラムコードがプロセッサ又はコントローラにより実行されると、フローチャート及び/又はブロック図に規定された機能/動作が実施される。プログラムコードは機械に完全に実行されてもよく、部分的に機械で実行されてもよく、独立したソフトウェアパッケージとして一部が機械で実行されかつ一部が遠隔機械で実行されるか、又は完全に遠隔機械又はサーバで実行されてもよい。

本開示の文脈において、機械読み取り可能な記憶媒体はプログラムを含む又は記憶することができる有形媒体であってもよく、このプログラムは、命令実行システム、装置又は機器により使用されるか、又はそれらと組み合わせて使用されてもよい。機械読み取り可能な記憶媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な記憶媒体は、例えば電子的、磁気的、光学的、電磁的、赤外線、又は半導体のシステム、装置又は機器、又は以上の任意の組み合わせを含むことができるが、これらに限られない。機械読み取り可能な記憶媒体のより具体的な例は、１つ又は複数のワイヤによる電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラム可読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光記憶機器、磁気記憶機器、又は上記の任意の適切な組み合わせを含む。

ユーザと対話できるように、ここで記載のシステム及び技術をコンピュータに実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置（たとえば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニター）、ユーザが入力をコンピュータに提供するすることを可能とするキーボード及びポインティング装置（たとえば、マウスやトラックボール）を有する。他の種類の装置も、ユーザとの対話を提供することができ、たとえば、ユーザに提供するフィードバックは、任意の形態の感覚フィードバック（たとえば、視覚的フィードバック、聴覚的フィードバック、又は触覚的フィードバック）であってもよく、そして、ユーザからの入力は、任意の形態（音響入力、音声入力、又は触覚入力を含む）で受信できる。

ここで記載のシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（たとえば、データサーバとして）、又はミドルウェアコンポーネントを含むコンピューティングシステム（たとえば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（たとえば、グラフィカルユーザインターフェース又はＷＥＢブラウザーを備えたユーザコンピュータが挙げられ、ユーザはこのグラフィカルユーザインターフェース又はこのＷＥＢブラウザーを介してここで記載のシステム及び技術の実施形態と対話できる）、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムにおいて実施されることができる。システムのコンポーネントは、任意の形態又は媒体のデジタルデータ通信（たとえば、通信ネットワーク）を介して相互に接続できる。通信ネットワークの例には、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、及びインターネットが含まれる。

コンピュータシステムは、クライアントとサーバを含むことができる。クライアントとサーバは通常、互いに遠く離れており、通信ネットワークを介してインタラクションする。クライアントとサーバの関係は、対応するコンピュータで実行され、互いにクライアント－サーバの関係を持つコンピュータプログラムによって生成される。

なお、上記の様々な形態のプロセスを用いて、ステップを改めて並べ替えたり、追加したり、削除したりすることができる。たとえば、本開示に記載の各ステップは、本開示の技術案の所望の結果が達成できる限り、並行して実施しても、順次実施しても、異なる順次で実施してもよく、本明細書ではそれについて限定しない。

本開示の別の態様によれば、上記電子機器１５００を含む路側機器を提供する。例示的には、路側機器は、電子機器１５００に加えて、通信部材などを含んでもよく、電子機器１５００は、通信部材に一体に集積されてもよく、個別に配置されてもよい。電子機器１５００は、検知機器（たとえば路側カメラ）のデータ、たとえば、ピクチャーやビデオなどを取得し、画像ビデオ処理及びデータ計算を行うことができる。

本開示の別の態様によれば、上記電子機器１５００を含むクラウド制御プラットフォームを提供する。例示的には、クラウド制御プラットフォームは、クラウドで処理を実行し、クラウド制御プラットフォームに含まれる電子機器１５００は、検知機器（たとえば路側カメラ）のデータ、たとえば、ピクチャーやビデオなどを取得し、画像ビデオ処理及びデータ計算を行うことができ、クラウド制御プラットフォームは、路車協調管理プラットフォーム、エッジコンピューティングプラットフォーム、クラウドピューティングプラットフォーム、中央システム、クラウドサーバなどと呼ばれてもよい。

なお、図面を参照して本開示の実施例又は例を説明したが、上記の方法、システム及び機器は例示的な実施例又は例に過ぎず、本発明の範囲はこれらの実施例又は例により制限されず、授権された特許請求の範囲及びその同等の範囲により限定される。実施例又は例における各種の要素は、省略されたり、他の同等の要素に置き換えられたりすることができる。さらに、本開示で記載のものと異なる順番に従って各ステップを実行してもよい。さらに、各種の方式で実施例又は例の各種の要素を組み合わせることができる。技術の発展に伴い、ここで記載の多くの要素は本開示の後に現れる同等の要素に置き換えられることができることが重要である。

Claims

ターゲット検出方法であって、
検出対象ターゲットについて検出用単眼カメラによって撮影された画像である検出対象ターゲットの検出画像を取得することと、
前記検出対象ターゲットの位置する地面での検出対象ターゲットの正投影の中心点の、前記検出用単眼カメラの画像平面に投影された画素座標を含む前記検出対象ターゲットの位置情報を前記検出画像から抽出するように構成されるターゲット検出モデルを取得することと、
前記検出画像を前記ターゲット検出モデルに入力して、前記検出対象ターゲットの位置情報を抽出することと、
前記検出対象ターゲットの位置情報に基づいて、前記検出対象ターゲットの３次元位置を決定することとを含む、ターゲット検出方法。
前記検出対象ターゲットの位置情報に基づいて、前記検出対象ターゲットの３次元位置を決定することは、
前記検出用単眼カメラの内部パラメータを取得することと、
前記検出対象ターゲットの位置する地面の前記検出用単眼カメラの座標系における平面方程式のパラメータを含む前記検出用単眼カメラの外部パラメータを取得することと、
前記検出用単眼カメラの内部パラメータと前記検出対象ターゲットの位置情報とに基づいて、前記検出用単眼カメラの座標系の原点と前記位置情報中の、前記地面での前記検出対象ターゲットの正投影の中心点の、前記検出用単眼カメラの画像平面に投影された画素座標とを通る直線を決定し、ここで、前記地面での前記検出対象ターゲットの正投影の中心点の、前記検出用単眼カメラの座標系における座標が前記直線上にあることと、
前記直線と前記地面の平面方程式のパラメータとに基づいて、前記直線と前記地面との交差点の前記検出用単眼カメラの座標系における座標を、前記地面での前記検出対象ターゲットの正投影の中心点の、前記検出用単眼カメラの座標系における座標として決定することと、
前記検出対象ターゲットの位置情報中の、前記正投影の中心点の、前記検出用単眼カメラの画像平面に投影された画素座標を前記正投影の中心点の、前記検出用単眼カメラの座標系における座標に置き換えることと、
置き換えられた前記検出対象ターゲットの位置情報を前記検出対象ターゲットの３次元位置として提供することとを含む、請求項１に記載の方法。
前記検出対象ターゲットの位置情報に基づいて、前記検出対象ターゲットの３次元位置を決定することは、
前記検出用単眼カメラの座標系における前記地面内の点の座標と、前記検出用単眼カメラの画像平面に投影された該点の画素座標との間のマッピング関係を表す前記検出対象ターゲットの位置する地面の地面深度マップを取得することと、
前記地面深度マップに基づいて、前記検出対象ターゲットの位置情報中の、前記地面での前記検出対象ターゲットの正投影の中心点の、前記検出用単眼カメラの画像平面に投影された画素座標の前記検出用単眼カメラ座標系における座標を検索することと、
前記検出対象ターゲットの位置情報中の、前記正投影の中心点の、前記検出用単眼カメラの画像平面に投影された画素座標を前記正投影の中心点の、前記検出用単眼カメラの座標系における座標に置き換えることと、
置き換えられた前記検出対象ターゲットの位置情報を前記検出対象ターゲットの３次元位置として提供することとを含む、請求項１に記載の方法。
ターゲット検出モデルの訓練方法であって、
ターゲットについて単眼カメラによって撮影された訓練画像を含む訓練データを取得することと、
前記ターゲットの位置する地面での前記ターゲットの正投影の中心点の、前記単眼カメラの画像平面に投影された画素座標を含む前記ターゲットの位置情報を前記訓練画像から抽出するように構成される多層畳み込みニューラルネットワークを含む基礎モデルを作成することと、
前記訓練データを用いて前記基礎モデルを訓練し、前記ターゲット検出モデルを得ることとを含む、ターゲット検出モデルの訓練方法。
前記多層畳み込みニューラルネットワークは、
前記訓練画像から画像特徴を抽出するように構成される画像特徴抽出層と、
前記画像特徴に基づいて、前記ターゲットの位置情報を抽出するターゲットパラメータ抽出層とを含む、請求項４に記載の方法。
前記ターゲットパラメータ抽出層は、
前記画像特徴に基づいて、前記ターゲットの３次元位置情報を検出するように構成される３次元情報検出層を含み、
前記ターゲットの位置情報は前記ターゲットの３次元位置情報をさらに含む、請求項５に記載の方法。
前記ターゲットの３次元位置情報は、前記単眼カメラの座標系における前記ターゲットの長さ、幅、高さ、及びヨー角を含む、請求項６に記載の方法。
前記ターゲットパラメータ抽出層は、
前記画像特徴に基づいて、前記単眼カメラの画像平面に投影された前記ターゲットのターゲット画像の前記単眼カメラの画像平面座標系における２次元位置情報を検出するように構成される２次元情報検出層をさらに含み、
前記ターゲットの位置情報は前記ターゲットの２次元位置情報をさらに含む、請求項６又は７に記載の方法。
前記２次元位置情報は、前記画像平面座標系における前記ターゲット画像の高さ、幅、前記ターゲット画像の中心点の画素座標、信頼度及びスコアを含み、
前記画像平面座標系における前記ターゲット画像の高さ、幅、及び前記ターゲット画像の中心点の画素座標は前記ターゲット画像の２次元バウンディングボックスを示し、
前記信頼度は前記２次元バウンディングボックスと前記訓練データ中の実際の２次元バウンディングボックスとの間の類似度を示し、
前記スコアは前記２次元バウンディングボックスと前記実際の２次元バウンディングボックスとの間の重なり度を示す、請求項８に記載の方法。
前記多層畳み込みニューラルネットワークは、
前記画像特徴に基づいて、前記ターゲットの画像候補領域を検出するように構成される領域候補ネットワーク層と、
前記画像特徴と前記画像候補領域とに基づいて、前記画像候補領域の特徴を抽出して前記ターゲットパラメータ抽出層に入力するように構成される候補領域プーリング層とをさらに含む、請求項５～９のいずれか１項に記載の方法。
前記訓練データを用いて前記基礎モデルを訓練し、ターゲット検出モデルを得ることは、
前記訓練データを前記基礎モデルに入力することと、
前記基礎モデルの誤差関数に従って、前記多層畳み込みニューラルネットワークによって抽出された前記ターゲットの位置情報と前記訓練データ内の対応する実際値との間の誤差を算出することと、
前記誤差に従って前記多層畳み込みニューラルネットワークに対してバックプロパゲーション訓練を行い、前記ターゲット検出モデルを得ることとを含む、請求項４～１０のいずれか１項に記載の方法。
ターゲット検出装置であって、
前記検出対象ターゲットについて検出用単眼カメラによって撮影された画像である検出対象ターゲットの検出画像を取得するように構成される第１の取得ユニットと、
前記検出対象ターゲットの位置する地面での検出対象ターゲットの正投影の中心点の、前記検出用単眼カメラの画像平面に投影された画素座標を含む前記検出対象ターゲットの位置情報を前記検出画像から抽出するように構成されるターゲット検出モデルを取得するように構成される第２の取得ユニットと、
前記検出画像を前記ターゲット検出モデルに入力して、前記検出対象ターゲットの位置情報を抽出するように構成される入力ユニットと、
前記検出対象ターゲットの位置情報に基づいて、前記検出対象ターゲットの３次元位置を決定するように構成される決定ユニットとを含む、ターゲット検出装置。
前記決定ユニットは、
前記検出用単眼カメラの内部パラメータを取得するように構成される第１の取得サブユニットと、
前記検出対象ターゲットの位置する地面の前記検出用単眼カメラの座標系における平面方程式のパラメータを含む前記検出用単眼カメラの外部パラメータを取得するように構成される第２の取得サブユニットと、
前記検出用単眼カメラの内部パラメータと前記検出対象ターゲットの位置情報とに基づいて、前記検出用単眼カメラの座標系の原点と前記位置情報中の、前記地面での前記検出対象ターゲットの正投影の中心点の、前記検出用単眼カメラの画像平面に投影された画素座標とを通る直線を決定し、ここで、前記地面での前記検出対象ターゲットの正投影の中心点の、前記検出用単眼カメラの座標系における座標は前記直線上にあるように構成される第１の決定サブユニットと、
前記直線と前記地面の平面方程式のパラメータとに基づいて、前記直線と前記地面との交差点の前記検出用単眼カメラの座標系における座標を、前記地面での前記検出対象ターゲットの正投影の中心点の、前記検出用単眼カメラの座標系における座標として決定するように構成される第２の決定サブユニットと、
前記検出対象ターゲットの位置情報中の、前記正投影の中心点の、前記検出用単眼カメラの画像平面に投影された画素座標を前記検出用単眼カメラの座標系における前記正投影の中心点の座標に置き換えるように構成される第１の置き換えサブユニットと、
置き換えられた前記検出対象ターゲットの位置情報を前記検出対象ターゲットの３次元位置として提供するように構成される第１の提供サブユニットとを含む、請求項１２に記載の装置。
前記決定ユニットは、
前記地面内の点の前記検出用単眼カメラの座標系における座標と、前記検出用単眼カメラの画像平面に投影された該点の画素座標との間のマッピング関係を表す前記検出対象ターゲットの位置する地面の地面深度マップを取得するように構成される第３の取得サブユニットと、
前記地面深度マップに基づいて、前記検出対象ターゲットの位置情報中の、前記地面での前記検出対象ターゲットの正投影の中心点の、前記検出用単眼カメラの画像平面に投影された画素座標の前記検出用単眼カメラ座標系における座標を検索するように構成される検索サブユニットと、
前記検出対象ターゲットの位置情報中の、前記正投影の中心点の、前記検出用単眼カメラの画像平面に投影された画素座標を前記検出用単眼カメラの座標系における前記正投影の中心点の座標に置き換えるように構成される第２の置き換えサブユニットと、
置き換えられた前記検出対象ターゲットの位置情報を前記検出対象ターゲットの３次元位置として提供するように構成される第２の提供サブユニットとを含む、請求項１２に記載の装置。
ターゲット検出モデル訓練装置であって、
ターゲットについて単眼カメラによって撮影された訓練画像を含む訓練データを取得するように構成される第３の取得ユニットと、
該ターゲットの位置する地面での前記ターゲットの正投影の中心点の、前記単眼カメラの画像平面に投影された画素座標を含む前記ターゲットの位置情報を前記訓練画像から抽出するように構成される多層畳み込みニューラルネットワークを含む基礎モデルを作成するように構成される作成ユニットと、
前記訓練データを用いて前記基礎モデルを訓練し、前記ターゲット検出モデルを得るように構成される訓練ユニットとを含む、ターゲット検出モデル訓練装置。
電子機器であって、
メモリ、プロセッサ及び前記メモリに記憶されたコンピュータプログラムを含み、
前記プロセッサは、前記コンピュータプログラムを実行して、請求項１～１１のいずれか１項に記載の方法のステップを実現するように構成される電子機器。
プロセッサにより実行されると、請求項１～１１のいずれか１項に記載の方法のステップを実現するコンピュータプログラムが記憶された非一時的なコンピュータ読み取り可能な記憶媒体。
前記コンピュータプログラムはプロセッサにより実行されると、請求項１～１１のいずれか１項に記載の方法のステップを実現するコンピュータプログラムを含むコンピュータプログラム製品。
請求項１６に記載の電子機器を含む路側機器。
請求項１６に記載の電子機器を含むクラウド制御プラットフォーム。