JP2022043216A - ターゲット検出方法、電子機器、路側機器、及びクラウド制御プラットフォーム - Google Patents
ターゲット検出方法、電子機器、路側機器、及びクラウド制御プラットフォーム Download PDFInfo
- Publication number
- JP2022043216A JP2022043216A JP2021210257A JP2021210257A JP2022043216A JP 2022043216 A JP2022043216 A JP 2022043216A JP 2021210257 A JP2021210257 A JP 2021210257A JP 2021210257 A JP2021210257 A JP 2021210257A JP 2022043216 A JP2022043216 A JP 2022043216A
- Authority
- JP
- Japan
- Prior art keywords
- target
- detection
- monocular camera
- position information
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 359
- 238000012549 training Methods 0.000 claims description 85
- 238000000034 method Methods 0.000 claims description 81
- 238000004590 computer program Methods 0.000 claims description 28
- 238000013527 convolutional neural network Methods 0.000 claims description 25
- 238000000605 extraction Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 24
- 238000005516 engineering process Methods 0.000 description 19
- 238000004891 communication Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 17
- 238000012545 processing Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003054 catalyst Substances 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
- G06V20/647—Three-dimensional objects by matching two-dimensional images to three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18019—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
- G06V30/18038—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
- G06V30/18048—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
- G06V30/18057—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
- Geophysics And Detection Of Objects (AREA)
- Radar Systems Or Details Thereof (AREA)
Abstract
【課題】ターゲット検出方法、電子機器、路側機器及びクラウド制御プラットフォームを提供する。【解決手段】高度道路交通システムにおいて、ターゲット検出方法は、検出対象ターゲットについて検出用単眼カメラにより撮影された画像である検出対象ターゲットの検出画像を取得することと、該検出対象ターゲットの位置する地面での検出対象ターゲットの正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標を含む検出対象ターゲットの位置情報を検出画像から抽出するターゲット検出モデルを取得することと、検出画像をターゲット検出モデルに入力して、検出対象ターゲットの位置情報を抽出することと、検出対象ターゲットの位置情報に基づいて、検出対象ターゲットの3次元位置を決定することと、を含む。【選択図】図2
Description
本開示は、高度道路交通の技術分野に関し、具体的には、コンピュータビジョン及び深層学習の技術である。具体的には、本開示は、ターゲット検出方法、電子機器、路側機器、及びクラウド制御プラットフォームを提供する。
高度道路交通システムは、情報技術、データ通信技術、センサ技術、電子制御技術やコンピュータ技術などを、交通輸送管理システム全体に総合的かつ効果的に適用することで、広範囲、全方位で作用を果たす、リアルタイム、正確且つ効率的な総合輸送・管理システムを構築する。広く適用されていた高度道路交通システムは、空港、駅旅客ガイダンスシステム、都市交通インテリジェントディスパッチングシステム、高速道路インテリジェントディスパッチングシステム、運用車両ディスパッチング管理システム、モータービークル自動制御システムなどを含む。高度道路交通システムは、車、道路の調和で密接な協力を通じて交通輸送効率を高め、交通渋滞を緩和し、道路網の通過能力を高め、交通事故を減らし、エネルギー消費を減らし、環境汚染を軽減する。
画像に基づくターゲットの検出・認識は高度道路交通技術分野において注目を集めている研究方向である。スマート都市、高度道路交通などを含む多くのコンピュータビジョンの適用分野では、ターゲット位置の推定はきわめて重要な役割を果たす。関連技術では、画像に基づくターゲットの位置検出の技術案には、まだ改善する余裕がある。
この部分に記載の方法は必ずしも以前に想定又は採用された方法ではない。特に明記しない限り、この部分に記載のいずれの方法はこの部分に含まれるため従来技術と見なされると想定されるべきではない。同様に、特に明記しない限り、この部分で言及している課題は任意の従来技術で認められていると見なされるべきではない。
本開示は、ターゲット検出方法、電子機器、路側機器、及びクラウド制御プラットフォームを提供する。
本開示の一態様によれば、検出対象ターゲットについて検出用単眼カメラにより撮影された画像である検出対象ターゲットの検出画像を取得することと、該検出対象ターゲットの位置する地面での検出対象ターゲットの正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標を含む検出対象ターゲットの位置情報を検出画像から抽出するように構成されるターゲット検出モデルを取得することと、検出画像をターゲット検出モデルに入力して、検出対象ターゲットの位置情報を抽出することと、検出対象ターゲットの位置情報に基づいて、検出対象ターゲットの3次元位置を決定することとを含む、ターゲット検出方法を提供する。
本開示の別の態様によれば、ターゲットについて単眼カメラによって撮影された訓練画像を含む訓練データを取得することと、該ターゲットの位置する地面でのターゲットの正投影の中心点の、単眼カメラの画像平面に投影された画素座標を含むターゲットの位置情報を訓練画像から抽出するように構成される多層畳み込みニューラルネットワークを含む基礎モデルを作成することと、訓練データを用いて基礎モデルを訓練し、ターゲット検出モデルを得ることとを含む、ターゲット検出モデルの訓練方法を提供する。
本開示の別の態様によれば、検出対象ターゲットについて検出用単眼カメラにより撮影された画像である検出対象ターゲットの検出画像を取得するように構成される第1の取得ユニットと、該検出対象ターゲットの位置する地面での検出対象ターゲットの正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標を含む検出対象ターゲットの位置情報を検出画像から抽出するように構成されるターゲット検出モデルを取得するように構成される第2の取得ユニットと、検出画像をターゲット検出モデルに入力して、検出対象ターゲットの位置情報を抽出するように構成される入力ユニットと、検出対象ターゲットの位置情報に基づいて、検出対象ターゲットの3次元位置を決定するように構成される決定ユニットとを含む、ターゲット検出装置を提供する。
本開示の別の態様によれば、ターゲットについて単眼カメラによって撮影された訓練画像を含む訓練データを取得するように構成される第3の取得ユニットと、該ターゲットの位置する地面でのターゲットの正投影の中心点の、単眼カメラの画像平面に投影された画素座標を含むターゲットの位置情報を訓練画像から抽出するように構成される多層畳み込みニューラルネットワークを含む基礎モデルを作成するように構成される作成ユニットと、訓練データを用いて基礎モデルを訓練し、ターゲット検出モデルを得るように構成される訓練ユニットとを含む、ターゲット検出モデル訓練装置を提供する。
本開示の別の態様によれば、メモリ、プロセッサ、及びメモリに記憶されたコンピュータプログラムを含む電子機器を提供する。プロセッサは、コンピュータプログラムを実行して、上記方法のステップを実現するように構成される。
本開示の別の態様によれば、コンピュータプログラムが記憶された非一時的なコンピュータ読み取り可能な記憶媒体を提供する。コンピュータプログラムは、プロセッサにより実行されると、上記方法のステップを実現する。
本開示の別の態様によれば、コンピュータプログラムを含むコンピュータプログラム製品を提供する。前記コンピュータプログラムは、プロセッサにより実行されると、上記方法のステップを実現する。
本開示の別の態様によれば、上記電子機器を含む路側機器を提供する。
本開示の別の態様によれば、上記電子機器を含むクラウド制御プラットフォームを提供する。
本開示の実施例による技術案によりもたらされる有益な技術的効果は、少なくとも以下を含む。
単眼ビジョンに基づいて、ターゲットの2次元情報を抽出できるターゲット検出モデルを取得することによって、ターゲットの3次元情報を予測する。そして、検出方法は、カメラとシナリオとの間の外部パラメータによらないため、ターゲット検出の適用シナリオの範囲を広げる。
なお、本部分で記載の内容は、本開示の実施例のキー又は重要な特徴を示すことを意図するものではなく、また、本開示の範囲を制限するものではない。本開示のほかの特徴は、以下の明細書から理解しやすくなる。
図面は、実施例を例示的に示し、明細書の一部を構成し、明細書の記載とともに実施例の例示的な実施形態を説明するために使用される。示される実施例は例示の目的にのみ使用され、請求項の範囲を限制するものではない。全ての図面では、同じ図面の符号は類似するが、必ずしも同一であるではない要素を示す。
本開示の実施例に係る本明細書に記載の各種方法が実施され得る例示的なシステムの模式図を示す。
本開示の実施例に係るターゲット検出方法のフローチャートを示す。
本開示の実施例に係る図2の方法において検出対象ターゲットの3次元位置を決定する例示的な過程のフローチャートを示す。
本開示の実施例に係る図3の過程において検出対象ターゲットの3次元位置を決定する例示的な操作のフローチャートを示す。
本開示の実施例に係る図2の方法において検出対象ターゲットの3次元位置を決定する別の例示的な過程のフローチャートを示す。
本開示の実施例に係る図5の過程において検出対象ターゲットの3次元位置を決定する例示的な操作のフローチャートを示す。
本開示の実施例に係る検出対象ターゲットの3次元位置の構造の模式図を示す。
本開示の実施例に係るターゲット検出モデルの訓練方法のフローチャートを示す。
本開示の実施例に係るターゲットの地面での正投影の中心点の模式図を示す。
本開示の実施例に係るターゲットの地面での正投影の中心点の、画像平面に投影された上面図を示す。
本開示の実施例に係るターゲット検出モデルの構造の模式図を示す。
本開示の実施例に係るターゲット検出モデルの構造の模式図を示す。
本開示の実施例に係るターゲット検出モデルの構造の模式図を示す。
本開示の実施例に係る図8の方法において基礎モデルを訓練する例示的な過程のフローチャートを示す。
本開示の実施例に係るターゲット検出方法による例示的なターゲットの検出の模式図を示す。
本開示の実施例に係るターゲット検出方法による例示的なターゲットの検出の模式図を示す。
本開示の実施例に係るターゲット検出装置のブロック図を示す。
本開示の実施例に係るターゲット検出装置のブロック図を示す。
本開示の実施例に係るターゲット検出モデルの訓練装置のブロック図を示す。
本開示の実施例を実現できる例示的な電子機器の構造ブロック図を示す。
以下、図面を参照しながら本開示の例示的な実施例を説明し、この説明には、理解を容易にするために、本開示の実施例の各種の詳細が含まれ、このような詳細は例示的なものとして理解すべきである。したがって、当業者にとって自明なように、本開示の範囲を逸脱することなく、ここで記載の実施例について各種の変化や修正を行うことができる。同様に、明瞭さや簡素化のため、以下の説明では、公知の機能及び構造の説明を省略する。
本開示では、特に明記しない限り、「第1の」、「第2の」などの用語を用いて各種の要素を説明する場合は、これらの要素の位置関係、タイミング関係又は重要性の関係を限定することを意図しておらず、このような用語は1つの素子を別の素子と区別するためのものである。いくつかの例では、第1の要素と第2の要素は該要素の同一の例を指すことができる一方、場合によっては、文脈の説明から、異なる例を指すこともできる。
本開示では、前記各例の説明に使用される用語は、特定の例を説明する目的にのみ使用され、制限するものではない。文脈において明記していない限り、特に要素の数が限定されない場合、この要素は1つであっても、複数であってもよい。さらに、本開示に使用される用語「及び/又は」は、挙げられたすべての項目のいずれか1つ及び全部の可能な組み合わせの形態を含む。
ターゲットに対して3次元検出を行う分野では、点群に基づくターゲット検出方法、双眼に基づくターゲット検出方法、及び単眼に基づくターゲット検出方法がある。単眼に基づく3次元検出は、コストや再利用の因素から人気のある研究方向となっている。
関連技術では、単眼に基づく3次元ターゲット検出方法は、ターゲットの中心点の3次元座標、ターゲットのスケール情報及びターゲットの姿勢情報を含むターゲットの3次元位置情報を直接予測することである。該方法では、予測モデルを生成するときに、ターゲットの3次元座標情報が使用されているので、カメラ周辺の外部パラメータに対する感度が高い。訓練セットとは分布が類似しているシナリオでは、モデルは良い成果を示す。しかしながら、カメラの配置位置又は周辺環境情報が異なる場合、モデルの予測の信頼性が低下する。さらに、3次元ターゲットを検出するための訓練セットの収集やキャリブレーションが困難であり、その結果、データセットのサイズが小さくなり、関連技術におけるターゲット検出アルゴリズムはデータ駆動型アルゴリズムであり、このため、3次元情報を用いてモデルを直接訓練すると、良好な一般化効果が得られにくい。
関連技術における上記課題を解決するために、本開示は、コンピュータビジョン及び深層学習のターゲット検出モデルに基づいて、回帰パラメータを改めて設計して訓練することで、以下の最適化方法の技術案を提供する。
以下、図面を参照しながら本開示の実施例を詳述する。
図1は、本開示の実施例は、本明細書に記載の各種の方法及び装置が実施され得る例示的なシステム100の模式図を示す。図1を参照すると、該システム100は、1つ以上のクライアント機器101、102、103、104、105及び106と、サーバ120と、1つ以上のクライアント機器をサーバ120に結合する1つ以上の通信ネットワーク110とを含む。クライアント機器101、102、103、104、105及び106は1つ以上のアプリケーションを実行するように構成されてもよい。
本開示の実施例では、サーバ120は、作動して本開示のターゲット検出モデルの訓練方法及びターゲット検出方法の1つ以上のサービス又はソフトウェアアプリケーションを実行可能にする。
いくつかの実施例では、サーバ120は、非仮想環境と仮想環境を含むことができる他のサービス又はソフトウェアアプリケーションも提供できる。いくつかの実施例では、これらのサービスは、webに基づくサービス又はクラウドサービスとして提供することができ、たとえば、ソフトウェアであるサービス(SaaS)モデルとしてクライアント機器101、102、103、104、105及び/又は106のユーザに提供する。
図1に示す構成では、サーバ120は、サーバ120により実行される機能を実現する1つ以上のコンポーネントを含むことができる。これらのコンポーネントは、1つ以上のプロセッサによって実行可能なソフトウェアコンポーネント、ハードウェアコンポーネント又はこれらの組み合わせを含むことができる。クライアント機器101、102、103、104、105及び/又は106を操作するユーザは、1つ以上のクライアントアプリケーションを順次利用してサーバ120とインタラクションすることで、これらのコンポーネントによるサービスを利用できる。なお、さまざまなシステム構成は可能であり、システム100と異なってもよい。したがって、図1は本明細書に記載の各種の方法を実施するためのシステムの一例であり、制限するものではない。
ユーザは、クライアント機器101、102、103、104、105及び/又は106を使用してターゲット検出モデルとインタラクションすることができる。クライアント機器は、使クライアント機器のユーザがクライアント機器とインタラクションすることを可能とするインターフェースを提供できる。クライアント機器はまた、該インターフェースを介してユーザに情報を出力してもよい。図1には6種類のクライアント機器が示されているが、当業者にとって自明なように、本開示は、任意の数のクライアント機器をサポートできる。
クライアント機器101、102、103、104、105及び/又は106は、各種のタイプのコンピュータ機器、たとえば、ポータブルハンドヘルド機器、汎用コンピュータ(たとえば、パーソナルコンピュータ及びラップトップコンピュータ)、ワークステーションコンピュータ、ウェアラブル機器、ゲームシステム、シンクライアント、各種の情報トランシーバ、センサ又は他の感知機器などを含むことができる。いくつかの実施例では、クライアント機器101、102、103、104、105及び/又は106は、路側機器を含んでもよい。これらのコンピュータ機器は、各種のタイプやバージョンのソフトウェアアプリケーション及びオペレーティングシステム、たとえば、Microsoft Windows、Apple iOS、UNIXライクなオペレーティングシステム、Linux又はLinuxライクなオペレーティングシステム(たとえば、Google Chrome OS)を運行するか、又は各種の移動オペレーティングシステム、たとえば、Microsoft Windows Mobile OS、iOS、Windows Phone、Androidを含むことができる。ポータブルハンドヘルド機器は、セルラー電話、スマートフォン、タブレットコンピュータ、パーソナル・デジタル・アシスタント(PDA)などを含むことができる。ウェアラブル機器は、ヘッドマウントディスプレイや他の機器を含むことができる。ゲームシステムは、各種の手持ちゲーム機器、インターネットをサポートするゲーム機器などを含むことができる。クライアント機器はさまざまなアプリケーション、たとえば、Internetに関連する各種のアプリケーション、通信アプリケーション(たとえば、電子メールアプリケーション)、ショートメッセージサービス(SMS)アプリケーションを実行し、各種の通信プロトコルを使用することができる。
ネットワーク110は、当業者に公知の任意のタイプのネットワークであってもよく、多種の利用可能なプロトコルのうちのいずれか(TCP/IP、SNA、IPXなどを含むが、これらに制限されない)を用いてデータ通信をサポートすることができる。一例として、1つ以上のネットワーク110は、ローカルエリアネットワーク(LAN)、イーサネットに基づくネットワーク、トークンリング、ワイドエリアネットワーク(WAN)、インターネット、仮想ネットワーク、仮想プライベートネットワーク(VPN)、イントラネット、エクストラネット、公衆交換電話網(PSTN)、赤外線ネットワーク、無線ネットワーク(たとえば、ブルートゥース、WIFI)及び/又はこれら及び/又は他のネットワークの任意の組み合わせであってもよい。
サーバ120は、1つ以上の汎用コンピュータ、プライベートサーバコンピュータ(たとえば、PC(パーソナルコンピュータ)サーバ、UNIXサーバ、ミッドレンジサーバ)、ブレードサーバ、メインフレームコンピュータ、サーバクラスター又は任意のほかの適切な配置及び/又は組み合わせを含むことができる。サーバ120は、仮想オペレーティングシステムを運行する1つ以上の仮想マシン、又は仮想化に関連するほかのコンピューティングアーキテクチャ(たとえば、サーバの仮想記憶機器の論理記憶機器をメンテナンスするために仮想化され得る1つ以上のフレキシブルプール)を含むことができる。いくつかの実施例では、サーバ120は、クラウド制御プラットフォームを含むこともできる。さまざまな実施例では、サーバ120は、以下に記載の機能を提供する1つ以上のサービス又はソフトウェアアプリケーションを運行できる。
サーバ120の計算ユニットは、上記の任意のオペレーティングシステム及び商業的に利用可能な任意のサーバオペレーティングシステムを含む1つ以上のオペレーティングシステムを運行できる。サーバ120は、各種の追加サーバアプリケーション及び/又は中間層アプリケーションのうちのいずれかも運行でき、HTTPサーバ、FTPサーバ、CGIサーバ、JAVAサーバ、データベースサーバなどを含む。
いくつかの実施形態では、サーバ120は、クライアント機器101、102、103、104、105及び106のユーザから受信したデータフィード及び/又はイベント更新を分析してマージするために1つ以上のアプリケーションを含むことができる。サーバ120はまた、クライアント機器101、102、103、104、105及び106の1つ以上の表示機器を介してデータフィード及び/又はリアルタイムイベントを表示するように、1つ以上のアプリケーションを含んでもよい。
いくつかの実施形態では、サーバ120は、分散システムのサーバ、又はブロックチェーンと組み合わせたサーバであってもよい。サーバ120は、クラウドサーバ、又は人工知能技術を有するインテリジェントクラウドコンピューティングサーバ又はインテリジェントクラウドホストであってもよい。クラウドサーバは、クラウドコンピューティングサービスシステムの1つのホスト製品であり、従来の物理ホストと仮想プライベートサーバ(VPS、Virtual Private Server)サービスに存在している管理しにくく、ビジネスのスケーラビリティが弱いという欠陥を解決する。
システム100は、1つ以上のデータベース130を含んでもよい。いくつかの実施例では、これらのデータベースはデータや他の情報の記憶に用いられ得る。たとえば、データベース130の1つ以上はたとえばオーディオファイルやビデオファイルの情報の記憶に用いられ得る。データリポジトリ130は各種の位置に存在できる。たとえば、サーバ120により使用されるデータリポジトリはサーバ120のローカルに存在してもよく、又はサーバ120から離れて、ネットワークに基づいて又はプライベート接続を介してサーバ120と通信してもよい。データリポジトリ130はさまざまなタイプがある。いくつかの実施例では、サーバ120により使用されるデータリポジトリはデータベース、たとえば、関係データベースであってもよい。これらのデータベースのうち1つ以上は命令に応答してデータベース及びデータベースからのデータを記憶、更新、検索できる。
いくつかの実施例では、データベース130のうち1つ以上は、アプリケーションにより使用されてアプリケーションデータを記憶してもよい。アプリケーションにより使用されるデータベースは、さまざまなタイプのデータベース、たとえば、キー値リポジトリ、オブジェクトリポジトリ又はファイルシステムでサポートされる通常のリポジトリであってもよい。
図2は、本開示の実施例に係るターゲット検出方法200のフローチャートを示す。方法200は、クライアント機器(たとえば、図1に示すクライアント機器101~106のうちの任意の1つ)で実行することができ、つまり、方法200の各ステップの実行主体は、図1に示すクライアント機器101~106のうちのいずれかであってもよい。いくつかの実施例では、方法200は、サーバ(たとえば、図1に示すサーバ120)で実行することができる。いくつかの実施例では、方法200は、クライアント機器(たとえば、クライアント機器101~106のうちのいずれか)及びサーバ(たとえば、サーバ120)との組み合わせにより実行できる。以下では、実行主体がサーバ120である場合を例にして、方法200の各ステップを詳細に説明する。
図2に示すように、ターゲット検出方法200は、ステップ210~ステップ240を含む。
ステップ210では、検出対象ターゲットについて検出用単眼カメラにより撮影された画像である検出対象ターゲットの検出画像を取得する。
ステップ220では、該検出対象ターゲットの位置する地面での検出対象ターゲットの正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標を含む検出対象ターゲットの位置情報を検出画像から抽出するように構成されるターゲット検出モデルを取得する。
ステップ230では、検出画像をターゲット検出モデルに入力して、検出対象ターゲットの位置情報を抽出する。
ステップ240では、検出対象ターゲットの位置情報に基づいて、検出対象ターゲットの3次元位置を決定する。
例示的には、検出対象ターゲットの位置情報は、地面での検出対象ターゲットの正投影の中心点の、検出用単眼カメラの画像平面に投影された画像投影点の画素座標(画素単位)、検出対象ターゲットの長さ、幅、高さ(たとえば、メートル単位)及びヨー角を含む。
例示的には、検出対象ターゲットの3次元位置は、地面での検出対象ターゲットの正投影の中心点の検出用単眼カメラ座標系における3次元座標を含むことができる。任意選択には、地面での検出対象ターゲットの正投影の中心点の3次元座標、検出対象ターゲットの長さ、幅、高、及びヨー角は検出対象物体の3次元バウンディングボックスを示すことができる。任意選択には、検出対象ターゲットの位置情報は検出対象ターゲット画像の2次元バウンディングボックスをさらに含んでもよい。
以上のように、本開示の実施例に係るターゲット検出方法は、ターゲット検出モデルによって、ターゲットの地面での中心点のカメラに投影された座標位置を出力し、ターゲットの3次元位置を得ることができる。ターゲット検出モデルによって出力される画像座標は、検出用単眼カメラと適用シナリオとの間の外部パラメータによらないので、モデルは優れた一般化能力を持つ。このため、該モデルを用いた検出方法は、さまざまな外部パラメータのシナリオで同一のターゲット検出モデルを使用して検出対象ターゲットを検出できる。
図3は、本開示の実施例に係る図2の方法200において検出対象ターゲットの3次元位置を決定する(ステップ240)例示的な過程のフローチャートを示す。図3に示すように、検出対象ターゲットの位置情報に基づいて、検出対象ターゲットの3次元位置を決定するステップ240は、さらに、ステップ310~ステップ360を含む。
ステップ310では、検出用単眼カメラの内部パラメータを取得する。
ステップ320では、検出対象ターゲットの位置する地面の検出用単眼カメラの座標系における平面方程式のパラメータを含む検出用単眼カメラの外部パラメータを取得する。
ステップ330では、検出用単眼カメラの内部パラメータと検出対象ターゲットの位置情報とに基づいて、検出用単眼カメラの座標系の原点と、位置情報中の、地面での検出対象ターゲットの正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標とを通る直線を決定する。ここでは、地面での検出対象ターゲットの正投影の中心点の検出用単眼カメラの座標系における座標は直線上にある。
ステップ340では、直線と地面の平面方程式のパラメータとに基づいて、直線と地面との交差点の検出用単眼カメラの座標系における座標を、地面での検出対象ターゲットの正投影の中心点の検出用単眼カメラの座標系における座標として決定する。
ステップ350では、検出対象ターゲットの位置情報中の、正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標を正投影の中心点の検出用単眼カメラの座標系における座標に置き換える。
ステップ360では、置き換えられた検出対象ターゲットの位置情報を検出対象ターゲットの3次元位置として提供する。
以下、図4を参照しながら図3に示す過程を例示的に説明する。図4は、本開示の実施例に係る図3の過程において検出対象ターゲットの3次元位置を決定する例示的な操作400のフローチャートを示す。
図4に示すように、例示的な操作400は、検出対象ターゲット410と地面平面420を含む。検出対象ターゲット410の地面平面420での正投影は410’である。検出対象ターゲットの正投影410’は中心点430を有する。
例示的な操作400は検出用単眼カメラ440をさらに含む。検出用単眼カメラ440の焦点470を原点、地面平面420に垂直な方向をYC軸、紙面に垂直な方向をXC軸、及びXC-YC平面に垂直な方向をZC軸として、単眼カメラ440の座標系450(XC-YC-ZC)を作成する。さらに、検出用単眼カメラ440は画像平面460を有する。
さらに、検出対象ターゲットの正投影410’の中心点430は、焦点470を通って画像平面460に投影し、画像投影点430’を得ることができる。
次に、検出対象ターゲット410の位置情報は訓練済みのターゲット検出モデルにより予測され得るため、ここでは再度言及しない。さらに、検出対象ターゲット410の位置情報は、地面420での検出対象ターゲット410の投影410’の中心点430の、画像平面460に投影された画像投影点430’の画素座標を含む。
次に、検出用単眼カメラ440の内部パラメータ490を得る。内部パラメータ490と画像投影点430’の画素座標とに基づいて、解を求めて画像投影点430’から焦点470を通る直線480の、検出用単眼カメラ440の座標系下の方程式:ax+by=cを得る。
次に、検出用単眼カメラ440の外部パラメータを得ることができる。該外部パラメータは、検出対象ターゲット410の位置する地面420の検出用単眼カメラ440の座標系450における平面方程式のパラメータを含む。即ち、カメラ座標系450における平面方程式:AX+BY+CZ=Dである。さらに、外部パラメータによって地面420の方程式の各パラメータが決定され得る。
さらに、投影関係から、画像投影点430’に対応する中心点430が直線480上にあることがわかることができる。さらに、中心点430が地面420での検出対象ターゲット410の投影410’の中心点であるため、中心点430は地面420の平面内にある。このため、直線480と地面420との交差点は中心点430である。
さらに、直線480と地面420のカメラ座標系450における方程式は既知であるので、座標系450下で両方の交差点について解を求め、座標系450下の中心点430の座標を得ることができる。
その後、ターゲット検出モデルによって抽出された検出対象ターゲット410の位置情報中の画像投影点430’の、画像平面460における画素座標を、中心点430のカメラ座標系450における座標に置き換える。
最後に、置き換えられた検出対象ターゲット410の位置情報を検出対象ターゲット410の3次元位置として提供する。
以上のように、本開示の実施例の技術案では、まず、訓練済みのターゲット検出モデルによって検出対象ターゲットの位置情報を予測し、次に、既知のカメラの内部パラメータと外部パラメータとから、中心点の画像投影の座標に基づいて中心点の3次元座標を推定する。カメラの外部パラメータは、人為的に制御可能な求解過程にのみ使用され、制御不能なモデル訓練には、カメラの外部パラメータが使用されない。このため、訓練済みのモデルは、人為的に制御可能なカメラの外部パラメータと組み合わせて、さまざまなシナリオのターゲットを検出することができ、それにより、検出方法の適用範囲を広げる。
図5は、本開示の実施例に係る図2の方法200において検出対象ターゲットの3次元位置を決定する(ステップ240)別の例示的な過程のフローチャートを示す。図5に示すように、検出対象ターゲットの位置情報に基づいて、検出対象ターゲットの3次元位置を決定するステップ240は、ステップ510~ステップ540をさらに含む。
ステップ510では、地面内の点の検出用単眼カメラの座標系における座標と検出用単眼カメラの画像平面に投影された該点の画素座標との間のマッピング関係を示す検出対象ターゲットの位置する地面の地面深度マップを取得する。
ステップ520では、地面深度マップに基づいて、検出対象ターゲットの位置情報中の、地面での検出対象ターゲットの正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標の検出用単眼カメラ座標系における座標を検索する。
ステップ530では、検出対象ターゲットの位置情報中の、正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標を正投影の中心点の検出用単眼カメラの座標系における座標に置き換える。
ステップ540では、置き換えられた検出対象ターゲットの位置情報を検出対象ターゲットの3次元位置として提供する。
以下、図6を参照しながら図5に示す過程を例示的に説明する。図6は、本開示の実施例に係る図5の過程において検出対象ターゲットの3次元位置を決定する例示的な操作600のフローチャートを示す。図6の検出対象ターゲット610は図4の検出対象ターゲット410と同じであり、同様に、他の類似する図面の符号は図4のものと類似する素子を示し、ここでは再度言及しない。
図6に示すように、例示的な操作600は地面深度マップ690を含む。地面深度マップ690は、地面620における点の検出用単眼カメラの座標系650における座標と、該点の検出用単眼カメラの画像平面座標系660に投影された画像投影点の画素座標との間のマッピング関係を示す。即ち、地面620での検出対象ターゲット610の正投影610’の中心点630について、地面深度マップ690は、カメラ座標系650における中心点630の座標と画像平面座標系660における画像投影点630’の画素座標との間のマッピング関係を確立する。
次に、同様に、訓練済みのターゲット検出モデルによって、画像投影点630’の画素座標を知ることができ、ここでは再度言及しない。
次に、画像平面座標系660における画像投影点630’の画素座標に基づいて、地面深度マップ690でカメラ座標系650における中心点630の座標を検索する。
その後、ターゲット検出モデルによって抽出された検出対象ターゲット610の位置情報中の、画像投影点630’の画像平面660における画素座標をカメラ座標系650における中心点630の座標に置き換える。
最後に、置き換えられた検出対象ターゲット610の位置情報を検出対象ターゲット610の3次元位置として提供する。
以上のように、本開示の実施例の技術案では、人為的に制御可能な地面深度マップによって検出対象ターゲットの中心点の3次元座標を検索し、制御不能なモデル訓練には、カメラの外部パラメータが使用されない。このため、訓練済みのモデルは、人為的に制御可能なカメラの外部パラメータと組み合わせて、さまざまなシナリオのターゲットを検出することができ、それにより、検出方法の適用範囲を広げる。
いくつかの例示的な実施例では、検出対象ターゲットの3次元位置は検出対象ターゲットの3次元バウンディングボックスであってもよい。例示的には、図7は、本開示の実施例に係る検出対象ターゲットの3次元位置的構造700の模式図を示す。
図7に示すように、検出対象ターゲットの3次元位置の構造700は、地面での検出対象ターゲット710の投影中心点730のカメラ座標系750における3次元座標を含むことができる。検出対象ターゲット710の長さ760、幅770、高さ780及びヨー角をさらに含んでもよい。ヨー角は、たとえば、検出対象ターゲットの軸線740と座標軸XCとの挟角であってもよい。
さらに、中心点730の座標、長さ760、幅770、高さ780及びヨー角から検出対象ターゲット710の3次元バウンディングボックス720を得て、検出対象ターゲット710の3次元位置として提供できる。
図8は、本開示の実施例に係るターゲット検出モデルの訓練方法800のフローチャートを示す。図8に示すように、ターゲット検出モデルの訓練方法800はステップ810~ステップ830を含むことができる。
ステップ810では、ターゲットについて単眼カメラによって撮影された訓練画像を含む訓練データを取得する。例示的には、ターゲット検出モデルは、訓練画像におけるターゲットの位置情報を検出する。訓練データは、たとえば訓練画像に対応するラベルを含んでもよく、このラベルは、訓練画像におけるターゲットの実際の位置を示すことができる。
ステップ820では、多層畳み込みニューラルネットワークを含む基礎モデルを作成することができる。多層畳み込みニューラルネットワークは、該ターゲットの位置する地面でのターゲットの正投影の中心点の、単眼カメラの画像平面に投影された画素座標を含むターゲットの位置情報を訓練画像から抽出するように構成される。
例示的には、基礎モデルは多層畳み込みニューラルネットワークを含むことができる。多層畳み込みニューラルネットワークは、モデルに入力された訓練画像について畳み込みを複数回行い、ターゲットの位置情報を抽出することができる。例示的には、ターゲットの位置する地面は平面であると想定でき、訓練画像から抽出されたターゲットの位置情報が地面平面でのターゲットの正投影の中心点の、カメラ画像平面での投影点の画素座標を含むことができる。例示的には、3次元世界座標系においてターゲットの位置の変化が大きい場合、訓練画像における中心点に対応する画像投影点の画素座標の変化も大きくなる。
ステップ830では、訓練データを用いて基礎モデルを訓練し、ターゲット検出モデルを得ることができる。例示的には、多層畳み込みニューラルネットワークは、ターゲットの位置情報を回帰することによりニューラルネットワークの重みを学習して更新することができる。任意選択には、訓練画像をターゲット検出モデルに絶えずに入力し、畳み込みニューラルネットワークの重みを反復更新することにより、畳み込みニューラルネットワークによるターゲットの位置情報の予測は訓練データのうちの実際値にほぼ近くなり、それによりターゲット検出モデルが生成される。
図9Aは、本開示の実施例に係る地面でのターゲットの正投影の中心点の模式図を示す。図9Aは、ターゲット910、地面920、地面920でのターゲット910の正投影930、ターゲット910での点940、地面920での点940の投影点940’、及び地面920でのターゲット910の正投影930の中心点950’を含む。
例示的には、地面920が平面であると想定すると、ターゲット910での点940を地面920に投影して投影点940’を得ることができる。同様に、地面920でのターゲット910の正投影930を得て、正投影930の中心点950’を得ることができる。
図9Bは、本開示の実施例に係る地面でのターゲットの正投影の中心点の、画像平面に投影された上面図を示す。図9Bの類似する図面の符号は、図9Aのものと類似する素子を示し、ここでは再度言及しない。
図9Bに示すように、ターゲット910の正投影930の中心点950’はカメラ960の画像平面970に投影され、中心点950’の画像投影点950’’は得られる。
例示的には、訓練データのうち訓練画像内の画像投影点950’’にラベルを追加し、投影点950’の3次元座標の代わりに、画像投影点950’’の2次元画素座標を回帰パラメータとする。
以上のように、本開示の実施例によるターゲット検出モデルの訓練方法では、位置の変化が小さい、地面でのターゲットの正投影の中心点の画像平面に投影された画素座標を回帰パラメータとして用いることにより、ターゲット検出モデルの訓練過程におけるパラメータフィッティングの難度が低下し、モデルの訓練速度が向上することができる。また、モデルの訓練過程において、地面でのターゲットの正投影の中心点の3次元座標を回帰しないため、カメラの外部パラメータに対するモデルの依存性を低減させ、モデルの一般化能力を高める。
図10A~10Cは、本開示の実施例に係るターゲット検出モデル1000Aの構造の模式図を示す。図10Aに示すように、ターゲット検出モデル1000Aは、訓練画像1010、多層畳み込みニューラルネットワーク1020、及びターゲット位置情報1090を含むことができる。多層畳み込みニューラルネットワーク1020は、画像特徴抽出層1030を含むことができる。画像特徴抽出層1030は、訓練画像1010から画像特徴を抽出するように構成される。
多層畳み込みニューラルネットワーク1020はターゲットパラメータ抽出層1040をさらに含んでもよい。ターゲットパラメータ抽出層1040は、画像特徴に基づいて、ターゲットの位置情報1090を抽出するように構成される。
いくつかの例示的な実施例では、ターゲットパラメータ抽出層1040は3次元情報検出層1042を含むことができる。3次元情報検出層1042は、画像特徴に基づいて、ターゲットの3次元位置情報1092を検出するように構成される。ここで、ターゲットの位置情報1090は、前記ターゲットの3次元位置情報1092を含むことができる。
いくつかの例示的な実施例では、ターゲットの3次元位置情報1092は、単眼カメラの座標系におけるターゲットの長さ、幅、高さ、及びヨー角を含む。
例示的には、画像特徴抽出層1030は、関連技術における任意の画像特徴抽出ネットワーク、たとえば、ビジュアルジオメトリグループネットワーク(VGG)、残差ネットワーク(ResNet)、モバイルニューラルネットワーク(MobileNet)などであってもよい。
例示的には、3次元情報検出層1042は、関連技術における単眼ビジョンに基づいてターゲットを検出する任意の3次元情報的ネットワーク、たとえば、一次ニューラルネットワークYOLO(You Only Look Once)、特徴ピラミッドに基づくSSD(Single Shot MultiBox Detector)ネットワーク、アンカーに基づくネットワーク(Anchor Based)などであってもよい。
以上のように、多層畳み込みニューラルネットワーク1020には画像特徴抽出層1030とターゲットパラメータ抽出層1040がさらに含まれる。画像特徴抽出層1030は、関連技術において成熟した2次元ターゲット特徴抽出技術を用いて画像特徴を抽出できる。さらに、画像特徴はターゲットパラメータ抽出層1040に入力され、たとえば、地面でのターゲットの正投影の中心点の画像投影点の画素座標などを含むターゲット位置情報は抽出される。ターゲットパラメータ抽出層1040によって抽出された2次元画素点を回帰パラメータとすることによって、3次元座標を抽出して回帰パラメータの訓練セットとする場合に収集やキャリブレーションが難しいという課題を回避する。
図10Bは、本開示の別の実施例に係るターゲット検出モデル1000Bの構造の模式図を示す。図10Bの類似する図面の符号は図10Aのものと類似する素子を示し、ここでは再度言及しない。図10Bに示すように、ターゲットパラメータ抽出層1040は2次元情報検出層1044をさらに含む。2次元情報検出層1044は、画像特徴に基づいて、単眼カメラの画像平面に投影されたターゲット画像の単眼カメラの画像平面座標系におけるターゲットの2次元位置情報1094を検出するように構成される。且つ、ターゲットの位置情報1090はターゲットの2次元位置情報1094を含んでもよい。
いくつかの例示的な実施例では、2次元情報検出層1044によって検出されたターゲット画像の画像平面における2次元位置情報1094は、画像平面座標系におけるターゲット画像の高さ、幅、ターゲット画像の中心点の画素座標、信頼度及びスコアを含むことができ、画像平面座標系におけるターゲット画像の高さ、幅、及びターゲット画像の中心点の画素座標はターゲット画像の2次元バウンディングボックスを示すことができる。例示的には、信頼度は、2次元バウンディングボックスと訓練データ中の実際の2次元バウンディングボックスとの類似度を示すことができる。さらに例示的には、スコアは、2次元バウンディングボックスと実際の2次元バウンディングボックスとの間の重なり度を示すことができる。
以上のように、本開示の実施例のターゲット検出モデルの訓練方法では、2次元情報検出層1044をターゲットパラメータ抽出層1040に導入し、ターゲットの位置情報に訓練画像でのターゲットの2次元位置情報を追加することにより、ターゲット検出モデルにより予測可能な情報を豊かにする。なお、ターゲットの2次元バウンディングボックスを作成することによって、バウンディングボックスの2次元位置情報及びターゲットの幾何学的制約を利用してターゲットの3次元位置の予測精度を高めることができる。
図10Cは本開示の別の実施例に係るターゲット検出モデル1000Cの構造の模式図を示す。図10Cの類似する図面の符号は図10A及び10Bのものと類似する素子を示し、ここでは再度言及しない。図10Cに示すように、多層畳み込みニューラルネットワーク1020は領域候補ネットワーク層1050をさらに含む。領域候補ネットワーク層1050は、画像特徴に基づいて、ターゲットの画像候補領域を検出するように構成される。
多層畳み込みニューラルネットワーク1020は候補領域プーリング層1060をさらに含む。候補領域プーリング層1060は、画像特徴と画像候補領域とに基づいて、画像候補領域の特徴を抽出してターゲットパラメータ抽出層1040に入力することができるように構成される。
例示的には、領域候補ネットワーク層1050は、ターゲット画像を含む領域について予備的な位置を推定し、単独の一次モデルとして訓練することができ、このため、ターゲット検出モデル1000Cは二次検出モデルであってもよい。
例示的には、領域候補ネットワーク層1050は、関連技術におけるターゲット候補領域を抽出する任意のネットワーク、たとえば、RPNネットワーク(Region Proposal Networks)などであってもよい。
例示的には、候補領域プーリング層1060は、関連技術における、ターゲット候補領域と画像特徴とに基づいて候補領域特徴を抽出する任意のネットワーク、たとえば、ROI Poolingネットワーク(Region Of Interest Pooling)などであってもよい
以上のように、多層畳み込みニューラルネットワーク1020に領域候補ネットワーク層1050と候補領域プーリング層1060とをさらに追加することによって、領域候補ネットワーク層1050により出力された画像候補領域及び画像特徴抽出層1030により抽出された画像特徴を候補領域プーリング層1060に入力して候補領域の画像特徴を得ることができる。候補ネットワーク層450及び候補領域プーリング層1060がターゲットの検出をターゲット画像を含む可能性がある領域内に限定するので、後続の検出操作が候補領域内にのみ行わればよく、このように、ターゲットの3次元位置情報及び/又は2次元位置情報の検出速度が高まる。
図11は、本開示の実施例に係る図8の方法800において基礎モデルを訓練する(ステップ830)例示的な過程のフローチャートを示す。図8に示すように、訓練データを用いて基礎モデルを訓練し、ターゲット検出モデルを得るステップ830は、ステップ1110~ステップ1130をさらに含む。
ステップ1110では、訓練データを基礎モデルに入力する。
ステップ1120では、基礎モデルの誤差関数に従って、多層畳み込みニューラルネットワークにより抽出されたターゲットの位置情報とデータ内の対応する実際値との間の誤差を算出する。
ステップ1130では、誤差に従って多層畳み込みニューラルネットワークに対してバックプロパゲーション訓練を行い、ターゲット検出モデルを得る。
例示的には、訓練データを入力し、多層畳み込みニューラルネットワークの重みパラメータを初期化することができる。次に、データをバッチでモデルに順次入力して、フォワードプロパゲーションを行う。次に、モデルにより予測されたターゲットの位置情報と訓練データにおいて標識された実際値との間の誤差を算出する。さらに、誤差勾配をバックプロパゲーションして重みを更新する。最後に、繰り返して反復して誤差勾配をゼロにする。任意選択には、モデルの誤差関数は、モデルにより予測されたターゲットの位置情報と実際値との間のユークリッド距離として設計されることができる。
以上のように、多層畳み込みニューラルネットワークの重みパラメータを連続的に繰り返して更新することによって、ターゲット検出モデルの予測出力を実際値にほぼ近くすることができる。また、訓練過程において、回帰用の畳み込みニューラルネットワークパラメータがターゲットの正投影の中心点の画像投影座標を含むターゲット位置情報であるため、訓練収束速度が高く、ターゲット検出モデルの一般化能力が高まる。
図12A~12Bは本開示の実施例に係るターゲット検出方法による例示的なターゲットの検出の模式図を示す。
図12Aには、訓練済みのターゲット検出モデルを用いてシナリオ1200Aを検出する。図12Aに示す検出結果から、検出対象ターゲット1210の3次元位置は3次元バウンディングボックス1220を含む。
図12Bには、同じターゲット検出モデルを用いてシナリオ1200Bを検出する。図12Bに示す検出結果から、検出対象ターゲット1212の3次元位置は3次元バウンディングボックス1222を含む。
同一のターゲット検出モデルについては、シナリオ及び外部パラメータが異なる場合にも、依然としてターゲットの3次元位置を検出できることがわかることができる。
図13A~13Bは、本開示の実施例に係るターゲット検出装置1300Aのブロック図を示す。図13Aに示すように、ターゲット検出装置1300Aは、検出対象ターゲットについて検出用単眼カメラにより撮影された画像である検出対象ターゲットの検出画像を取得するように構成される第1の取得ユニット1310と、該検出対象ターゲットの位置する地面での検出対象ターゲットの正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標を含む検出対象ターゲットの位置情報を検出画像から抽出するように構成されるターゲット検出モデルを取得するように構成される第2の取得ユニット1320と、検出画像をターゲット検出モデルに入力して、検出対象ターゲットの位置情報を抽出するように構成される入力ユニット1330と、検出対象ターゲットの位置情報に基づいて、検出対象ターゲットの3次元位置を決定するように構成される決定ユニット1340とを含む。
いくつかの例示的な実施例では、決定ユニット1340は、
検出用単眼カメラの内部パラメータを取得するように構成される第1の取得サブユニット1341と、
検出対象ターゲットの位置する地面の検出用単眼カメラの座標系における平面方程式のパラメータを含む検出用単眼カメラの外部パラメータを取得するように構成される第2の取得サブユニット1342と、
検出用単眼カメラの内部パラメータと検出対象ターゲットの位置情報とに基づいて、検出用単眼カメラの座標系の原点と位置情報中の、地面での検出対象ターゲットの正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標とを通る直線を決定し、ここで、前記地面での検出対象ターゲットの正投影の中心点の検出用単眼カメラの座標系における座標は前記直線上にあるように構成される第1の決定サブユニット1343と、
直線と地面の平面方程式のパラメータとに基づいて、直線と地面との交差点の検出用単眼カメラの座標系における座標を、地面での検出対象ターゲットの正投影の中心点の検出用単眼カメラの座標系における座標として決定するように構成される第2の決定サブユニット1344と、
検出対象ターゲットの位置情報中の、正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標を正投影の中心点の検出用単眼カメラの座標系における座標に置き換えるように構成される第1の置き換えサブユニット1345とを含むことができる。
検出用単眼カメラの内部パラメータを取得するように構成される第1の取得サブユニット1341と、
検出対象ターゲットの位置する地面の検出用単眼カメラの座標系における平面方程式のパラメータを含む検出用単眼カメラの外部パラメータを取得するように構成される第2の取得サブユニット1342と、
検出用単眼カメラの内部パラメータと検出対象ターゲットの位置情報とに基づいて、検出用単眼カメラの座標系の原点と位置情報中の、地面での検出対象ターゲットの正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標とを通る直線を決定し、ここで、前記地面での検出対象ターゲットの正投影の中心点の検出用単眼カメラの座標系における座標は前記直線上にあるように構成される第1の決定サブユニット1343と、
直線と地面の平面方程式のパラメータとに基づいて、直線と地面との交差点の検出用単眼カメラの座標系における座標を、地面での検出対象ターゲットの正投影の中心点の検出用単眼カメラの座標系における座標として決定するように構成される第2の決定サブユニット1344と、
検出対象ターゲットの位置情報中の、正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標を正投影の中心点の検出用単眼カメラの座標系における座標に置き換えるように構成される第1の置き換えサブユニット1345とを含むことができる。
さらに、置き換えられた検出対象ターゲットの位置情報を検出対象ターゲットの3次元位置として提供するように構成される第1の提供サブユニット1346を含む。
図13Bは、本開示の別の実施例に係るターゲット検出装置1300Bのブロック図を示す。図13Bの類似する図面の符号は、図13Aのものと類似する素子を示し、ここでは再度言及しない。
図13Bに示すように、決定ユニット1350は、
検出対象ターゲットの位置する地面の、ここで、地面内の点の検出用単眼カメラの座標系における座標と検出用単眼カメラの画像平面に投影された該点の画素座標との間のマッピング関係を示す地面深度マップを取得するように構成される第3の取得サブユニット1351と、
地面深度マップに基づいて、検出対象ターゲットの位置情報中の、地面での検出対象ターゲットの正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標の検出用単眼カメラ座標系における座標を検索するように構成される検索サブユニット1352と、
検出対象ターゲットの位置情報中の、正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標を正投影の中心点の検出用単眼カメラの座標系における座標に置き換えるように構成される第2の置き換えサブユニット1353とを含むことができる。
検出対象ターゲットの位置する地面の、ここで、地面内の点の検出用単眼カメラの座標系における座標と検出用単眼カメラの画像平面に投影された該点の画素座標との間のマッピング関係を示す地面深度マップを取得するように構成される第3の取得サブユニット1351と、
地面深度マップに基づいて、検出対象ターゲットの位置情報中の、地面での検出対象ターゲットの正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標の検出用単眼カメラ座標系における座標を検索するように構成される検索サブユニット1352と、
検出対象ターゲットの位置情報中の、正投影の中心点の、検出用単眼カメラの画像平面に投影された画素座標を正投影の中心点の検出用単眼カメラの座標系における座標に置き換えるように構成される第2の置き換えサブユニット1353とを含むことができる。
さらに、置き換えられた検出対象ターゲットの位置情報を検出対象ターゲットの3次元位置として提供するように構成される第2の提供サブユニット1354をさらに含む。
図14は本開示の実施例に係るターゲット検出モデルの訓練装置1400のブロック図を示す。図14に示すように、ターゲット検出モデルの訓練装置1400は、ターゲットについて単眼カメラによって撮影された訓練画像を含む訓練データを取得するように構成される第3の取得ユニット1410と、該ターゲットの位置する地面でのターゲットの正投影の中心点の、単眼カメラの画像平面に投影された画素座標を含むターゲットの位置情報を訓練画像から抽出するように構成される多層畳み込みニューラルネットワークを含む基礎モデルを作成するように構成される作成ユニット1420と、訓練データを用いて基礎モデルを訓練し、ターゲット検出モデルを得るように構成される訓練ユニット1430とを含む。
なお、図13A~13Bに示す装置1300A及び1300Bの各ユニット、及びサブユニットは、図2~図7を参照して説明する方法200の各ステップに対応する。それによって、以上で方法200について説明した操作、特徴、及び利点は装置1300A、1300B及びこれらに含まれるユニット及びサブユニットにも適用でき、簡素化のため、再度言及しない。
なお、図14に示す装置1400の各ユニット及びサブユニットは、図8~図11を参照して説明した方法800の各ステップに対応する。それによって、以上で方法800について説明した操作、特徴及び利点は装置1400及びこれに含まれるユニット及びサブユニットにも適用でき、簡素化のため、再度言及しない。
なお、以上、特定のユニットを参照して特定の機能を検討しているが、本明細書で検討する各ユニットの機能は複数のユニットに分けられることができ、及び/又は複数のユニットの少なくとも一部の機能は単一のユニットとして組み合わせられることができる。本明細書で検討する特定のユニットによる動作の実行は、該特定のユニット自体が該動作を実行する場合と、代わりに、該特定のユニットにより該動作(又は該特定のユニットと組み合わせて一緒に該動作を実行する)を実行する別のコンポーネント又はユニットを呼び出す又は他の方式でアクセスする場合を含む。したがって、動作を実行する特定のユニットは、動作を実行する該特定のユニット自体及び/又は該特定のユニットにより呼び出される又は他の方式でアクセスされる、動作を実行する別のユニットを含むことができる。
本明細書では、ソフトウェア・ハードウェア素子又はプログラムモジュールの通常の文脈において各種の技術を説明できる。以上で説明した各ユニット、サブユニットは、ハードウェア又はソフトウェア及び/又はファームウェアを組み合わせたハードウェアにて実現できる。たとえば、これらのユニット、サブユニットはコンピュータプログラムコード/命令として実現されることができ、該コンピュータプログラムコード/命令は、1つ以上のプロセッサにて実行され、コンピュータ読み取り可能な記憶媒体に記憶されるように構成される。代替的には、これらのモジュールは、ハードウェア論理/回路として実現されてもよい。たとえば、ユニット、サブユニットのうち1つ以上はシステムオンチップ(SoC)に一緒に実現されることができる。SoCは、集積回路チップ(プロセッサ(たとえば、中央処理ユニット(CPU)、マイクロコントローラ、マイクロプロセッサ、デジタル信号プロセッサ(DSP)など)、メモリ、1つ以上の通信インターフェース、及び/又は他の回路における1つ以上の部材を含む)を含み、そして、任意選択には受信されたプログラムコードを実行するか、及び/又は機能を実行するための組み込みファームウェアを含むことができる。
本開示の別の態様によれば、メモリ、プロセッサ及びメモリに記憶されたコンピュータプログラムを含む電子機器を提供する。プロセッサは、コンピュータプログラムを実行して、本開示の上記方法のステップを実現するように構成される。
本開示の別の態様によれば、コンピュータプログラムが記憶された非一時的なコンピュータ読み取り可能な記憶媒体を提供する。コンピュータプログラムは、プロセッサにより実行されると、本開示の上記方法のステップを実現する。
本開示の別の態様によれば、コンピュータプログラムを含むコンピュータプログラム製品を提供する。コンピュータプログラムは、プロセッサにより実行されると、本開示の上記方法のステップを実現する。
以下では、図15を参照してこのような電子機器、非一時的なコンピュータ読み取り可能な記憶媒体、及びコンピュータプログラム製品の例を説明する。図15は、本開示の実施例を実現するために使用できる例示的な電子機器1500の構造ブロック図を示す。
図15を参照して、本開示のサーバ又はクライアントとして使用できる電子機器1500の構造ブロック図を示し、これは、本開示の各態様に適用されるハードウェア機器の例である。電子機器は、たとえば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなど、様々な形態のデジタル電子の電子機器を指すことを意図している。電子機器は、たとえば、パーソナルデジタルアシスタント、セルラー電話、スマートフォン、ウェアラブル機器、及びその他の類似のコンピューティング装置など、様々な形態の移動装置を示してもよい。本明細書に示されている部材、それらの接続と関係、及びそれらの機能は単なる例であるが、本明細書の説明される及び/又は求められる本開示の実現を制限するのを意図しない。
図15に示すように、電子機器1500は、読み取り専用(ROM)1502に記憶されたコンピュータプログラム又は記憶ユニット1508からランダムアクセスメモリ(RAM)1503にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる計算ユニット1501を含む。RAM 1503には、電子機器1500の動作に必要な様々なプログラム及びデータが記憶されてもよい。計算ユニット1501、ROM 1502及びRAM 1503は、バス1504を介して互いに接続されている。入力/出力(I/O)インターフェース1505もバス1504に接続されている。
機器1500の複数の部材はI/Oインターフェース1505に接続され、入力ユニット1506、出力ユニット1507、記憶ユニット1508及び通信ユニット1509を含む。入力ユニット1506は機器1500に情報を入力できる任意のタイプの機器であってもよく、入力ユニット1506は、入力したデジタル又は文字情報を受信するとともに、電子機器のユーザ設定及び/又は機能制御に関連するキー信号入力を発生させることができ、そして、マウス、キーボード、タッチスクリーン、トラックパッド、トラックボール、ジョイスティック、マイク、および/またはリモコンを含むが、これらに限定されない。出力ユニット1507は、情報を表示できる任意のタイプの機器であってもよく、そして、ディスプレイ、スピーカー、ビデオ/オーディオ出力端末、振動器及び/又はプリンタを含むが、これらに限定されない。記憶ユニット1508は、磁気ディスク、光ディスクを含むが、これらに限定されない。通信ユニット1509は、機器1500がたとえばインターネットのコンピュータネットワーク及び/又は各種の電信ネットワークを介して他の機器と情報/データを交換することを可能にし、そして、モデム、ネットワークカード、赤外線通信機器、無線通信トランシーバ及び/又はチップセットを含むが、これらに限定されなく、たとえば、ブルートゥースTM機器、1302.11機器、WiFi機器、WiMax機器、セルラー通信機器及び/又は類似するものである。
計算ユニット1501は、処理能力及び計算能力を有する様々な汎用及び/又は専用の処理構成要素であってもよい。計算ユニット1501のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどが含まれるが、これらに限定されない。計算ユニット1501は、以上で説明された様々な方法及び処理、たとえば、方法200及び方法600のうちの一方又は両方を実行する。たとえば、いくつかの実施例では、方法200及び方法600のうちの一方又は両方は、記憶ユニット1508などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ROM 1502及び/又は通信ユニット1509を介して電子機器1500にロード及び/又はインストールされることができる。コンピュータプログラムがRAM 1503にロードされ、計算ユニット1501によって実行されると、以上で説明された方法200及び方法800のうちの一方又は両方の1つ以上のステップを実行することができる。オプションとして、別の実施例では、計算ユニット1501は、他の任意の適切な方式で(たとえば、ファームウェアによって)方法200及び方法800のうちの一方又は両方を実行するように構成されてもよい。
本明細書に記載のシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブルロジック機器(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は以下の内容を含むことができ、1つ又は複数のコンピュータプログラムにおいて実施され、この1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行及び/又は解釈され得、このプログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令をこのストレージシステム、この少なくとも1つの入力装置、及びこの少なくとも1つの出力装置に送信することができる。
本開示の方法を実施するためのプログラムコードは1つ又は複数の言語の任意の組み合わせで作成することができる。これらのプログラムコードは汎用コンピュータ、専用コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供されることができ、それによりプログラムコードがプロセッサ又はコントローラにより実行されると、フローチャート及び/又はブロック図に規定された機能/動作が実施される。プログラムコードは機械に完全に実行されてもよく、部分的に機械で実行されてもよく、独立したソフトウェアパッケージとして一部が機械で実行されかつ一部が遠隔機械で実行されるか、又は完全に遠隔機械又はサーバで実行されてもよい。
本開示の文脈において、機械読み取り可能な記憶媒体はプログラムを含む又は記憶することができる有形媒体であってもよく、このプログラムは、命令実行システム、装置又は機器により使用されるか、又はそれらと組み合わせて使用されてもよい。機械読み取り可能な記憶媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な記憶媒体は、例えば電子的、磁気的、光学的、電磁的、赤外線、又は半導体のシステム、装置又は機器、又は以上の任意の組み合わせを含むことができるが、これらに限られない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のワイヤによる電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラム可読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光記憶機器、磁気記憶機器、又は上記の任意の適切な組み合わせを含む。
ユーザと対話できるように、ここで記載のシステム及び技術をコンピュータに実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置(たとえば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニター)、ユーザが入力をコンピュータに提供するすることを可能とするキーボード及びポインティング装置(たとえば、マウスやトラックボール)を有する。他の種類の装置も、ユーザとの対話を提供することができ、たとえば、ユーザに提供するフィードバックは、任意の形態の感覚フィードバック(たとえば、視覚的フィードバック、聴覚的フィードバック、又は触覚的フィードバック)であってもよく、そして、ユーザからの入力は、任意の形態(音響入力、音声入力、又は触覚入力を含む)で受信できる。
ここで記載のシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(たとえば、データサーバとして)、又はミドルウェアコンポーネントを含むコンピューティングシステム(たとえば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(たとえば、グラフィカルユーザインターフェース又はWEBブラウザーを備えたユーザコンピュータが挙げられ、ユーザはこのグラフィカルユーザインターフェース又はこのWEBブラウザーを介してここで記載のシステム及び技術の実施形態と対話できる)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムにおいて実施されることができる。システムのコンポーネントは、任意の形態又は媒体のデジタルデータ通信(たとえば、通信ネットワーク)を介して相互に接続できる。通信ネットワークの例には、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及びインターネットが含まれる。
コンピュータシステムは、クライアントとサーバを含むことができる。クライアントとサーバは通常、互いに遠く離れており、通信ネットワークを介してインタラクションする。クライアントとサーバの関係は、対応するコンピュータで実行され、互いにクライアント-サーバの関係を持つコンピュータプログラムによって生成される。
なお、上記の様々な形態のプロセスを用いて、ステップを改めて並べ替えたり、追加したり、削除したりすることができる。たとえば、本開示に記載の各ステップは、本開示の技術案の所望の結果が達成できる限り、並行して実施しても、順次実施しても、異なる順次で実施してもよく、本明細書ではそれについて限定しない。
本開示の別の態様によれば、上記電子機器1500を含む路側機器を提供する。例示的には、路側機器は、電子機器1500に加えて、通信部材などを含んでもよく、電子機器1500は、通信部材に一体に集積されてもよく、個別に配置されてもよい。電子機器1500は、検知機器(たとえば路側カメラ)のデータ、たとえば、ピクチャーやビデオなどを取得し、画像ビデオ処理及びデータ計算を行うことができる。
本開示の別の態様によれば、上記電子機器1500を含むクラウド制御プラットフォームを提供する。例示的には、クラウド制御プラットフォームは、クラウドで処理を実行し、クラウド制御プラットフォームに含まれる電子機器1500は、検知機器(たとえば路側カメラ)のデータ、たとえば、ピクチャーやビデオなどを取得し、画像ビデオ処理及びデータ計算を行うことができ、クラウド制御プラットフォームは、路車協調管理プラットフォーム、エッジコンピューティングプラットフォーム、クラウドピューティングプラットフォーム、中央システム、クラウドサーバなどと呼ばれてもよい。
なお、図面を参照して本開示の実施例又は例を説明したが、上記の方法、システム及び機器は例示的な実施例又は例に過ぎず、本発明の範囲はこれらの実施例又は例により制限されず、授権された特許請求の範囲及びその同等の範囲により限定される。実施例又は例における各種の要素は、省略されたり、他の同等の要素に置き換えられたりすることができる。さらに、本開示で記載のものと異なる順番に従って各ステップを実行してもよい。さらに、各種の方式で実施例又は例の各種の要素を組み合わせることができる。技術の発展に伴い、ここで記載の多くの要素は本開示の後に現れる同等の要素に置き換えられることができることが重要である。
Claims (20)
- ターゲット検出方法であって、
検出対象ターゲットについて検出用単眼カメラによって撮影された画像である検出対象ターゲットの検出画像を取得することと、
前記検出対象ターゲットの位置する地面での検出対象ターゲットの正投影の中心点の、前記検出用単眼カメラの画像平面に投影された画素座標を含む前記検出対象ターゲットの位置情報を前記検出画像から抽出するように構成されるターゲット検出モデルを取得することと、
前記検出画像を前記ターゲット検出モデルに入力して、前記検出対象ターゲットの位置情報を抽出することと、
前記検出対象ターゲットの位置情報に基づいて、前記検出対象ターゲットの3次元位置を決定することとを含む、ターゲット検出方法。 - 前記検出対象ターゲットの位置情報に基づいて、前記検出対象ターゲットの3次元位置を決定することは、
前記検出用単眼カメラの内部パラメータを取得することと、
前記検出対象ターゲットの位置する地面の前記検出用単眼カメラの座標系における平面方程式のパラメータを含む前記検出用単眼カメラの外部パラメータを取得することと、
前記検出用単眼カメラの内部パラメータと前記検出対象ターゲットの位置情報とに基づいて、前記検出用単眼カメラの座標系の原点と前記位置情報中の、前記地面での前記検出対象ターゲットの正投影の中心点の、前記検出用単眼カメラの画像平面に投影された画素座標とを通る直線を決定し、ここで、前記地面での前記検出対象ターゲットの正投影の中心点の、前記検出用単眼カメラの座標系における座標が前記直線上にあることと、
前記直線と前記地面の平面方程式のパラメータとに基づいて、前記直線と前記地面との交差点の前記検出用単眼カメラの座標系における座標を、前記地面での前記検出対象ターゲットの正投影の中心点の、前記検出用単眼カメラの座標系における座標として決定することと、
前記検出対象ターゲットの位置情報中の、前記正投影の中心点の、前記検出用単眼カメラの画像平面に投影された画素座標を前記正投影の中心点の、前記検出用単眼カメラの座標系における座標に置き換えることと、
置き換えられた前記検出対象ターゲットの位置情報を前記検出対象ターゲットの3次元位置として提供することとを含む、請求項1に記載の方法。 - 前記検出対象ターゲットの位置情報に基づいて、前記検出対象ターゲットの3次元位置を決定することは、
前記検出用単眼カメラの座標系における前記地面内の点の座標と、前記検出用単眼カメラの画像平面に投影された該点の画素座標との間のマッピング関係を表す前記検出対象ターゲットの位置する地面の地面深度マップを取得することと、
前記地面深度マップに基づいて、前記検出対象ターゲットの位置情報中の、前記地面での前記検出対象ターゲットの正投影の中心点の、前記検出用単眼カメラの画像平面に投影された画素座標の前記検出用単眼カメラ座標系における座標を検索することと、
前記検出対象ターゲットの位置情報中の、前記正投影の中心点の、前記検出用単眼カメラの画像平面に投影された画素座標を前記正投影の中心点の、前記検出用単眼カメラの座標系における座標に置き換えることと、
置き換えられた前記検出対象ターゲットの位置情報を前記検出対象ターゲットの3次元位置として提供することとを含む、請求項1に記載の方法。 - ターゲット検出モデルの訓練方法であって、
ターゲットについて単眼カメラによって撮影された訓練画像を含む訓練データを取得することと、
前記ターゲットの位置する地面での前記ターゲットの正投影の中心点の、前記単眼カメラの画像平面に投影された画素座標を含む前記ターゲットの位置情報を前記訓練画像から抽出するように構成される多層畳み込みニューラルネットワークを含む基礎モデルを作成することと、
前記訓練データを用いて前記基礎モデルを訓練し、前記ターゲット検出モデルを得ることとを含む、ターゲット検出モデルの訓練方法。 - 前記多層畳み込みニューラルネットワークは、
前記訓練画像から画像特徴を抽出するように構成される画像特徴抽出層と、
前記画像特徴に基づいて、前記ターゲットの位置情報を抽出するターゲットパラメータ抽出層とを含む、請求項4に記載の方法。 - 前記ターゲットパラメータ抽出層は、
前記画像特徴に基づいて、前記ターゲットの3次元位置情報を検出するように構成される3次元情報検出層を含み、
前記ターゲットの位置情報は前記ターゲットの3次元位置情報をさらに含む、請求項5に記載の方法。 - 前記ターゲットの3次元位置情報は、前記単眼カメラの座標系における前記ターゲットの長さ、幅、高さ、及びヨー角を含む、請求項6に記載の方法。
- 前記ターゲットパラメータ抽出層は、
前記画像特徴に基づいて、前記単眼カメラの画像平面に投影された前記ターゲットのターゲット画像の前記単眼カメラの画像平面座標系における2次元位置情報を検出するように構成される2次元情報検出層をさらに含み、
前記ターゲットの位置情報は前記ターゲットの2次元位置情報をさらに含む、請求項6又は7に記載の方法。 - 前記2次元位置情報は、前記画像平面座標系における前記ターゲット画像の高さ、幅、前記ターゲット画像の中心点の画素座標、信頼度及びスコアを含み、
前記画像平面座標系における前記ターゲット画像の高さ、幅、及び前記ターゲット画像の中心点の画素座標は前記ターゲット画像の2次元バウンディングボックスを示し、
前記信頼度は前記2次元バウンディングボックスと前記訓練データ中の実際の2次元バウンディングボックスとの間の類似度を示し、
前記スコアは前記2次元バウンディングボックスと前記実際の2次元バウンディングボックスとの間の重なり度を示す、請求項8に記載の方法。 - 前記多層畳み込みニューラルネットワークは、
前記画像特徴に基づいて、前記ターゲットの画像候補領域を検出するように構成される領域候補ネットワーク層と、
前記画像特徴と前記画像候補領域とに基づいて、前記画像候補領域の特徴を抽出して前記ターゲットパラメータ抽出層に入力するように構成される候補領域プーリング層とをさらに含む、請求項5~9のいずれか1項に記載の方法。 - 前記訓練データを用いて前記基礎モデルを訓練し、ターゲット検出モデルを得ることは、
前記訓練データを前記基礎モデルに入力することと、
前記基礎モデルの誤差関数に従って、前記多層畳み込みニューラルネットワークによって抽出された前記ターゲットの位置情報と前記訓練データ内の対応する実際値との間の誤差を算出することと、
前記誤差に従って前記多層畳み込みニューラルネットワークに対してバックプロパゲーション訓練を行い、前記ターゲット検出モデルを得ることとを含む、請求項4~10のいずれか1項に記載の方法。 - ターゲット検出装置であって、
前記検出対象ターゲットについて検出用単眼カメラによって撮影された画像である検出対象ターゲットの検出画像を取得するように構成される第1の取得ユニットと、
前記検出対象ターゲットの位置する地面での検出対象ターゲットの正投影の中心点の、前記検出用単眼カメラの画像平面に投影された画素座標を含む前記検出対象ターゲットの位置情報を前記検出画像から抽出するように構成されるターゲット検出モデルを取得するように構成される第2の取得ユニットと、
前記検出画像を前記ターゲット検出モデルに入力して、前記検出対象ターゲットの位置情報を抽出するように構成される入力ユニットと、
前記検出対象ターゲットの位置情報に基づいて、前記検出対象ターゲットの3次元位置を決定するように構成される決定ユニットとを含む、ターゲット検出装置。 - 前記決定ユニットは、
前記検出用単眼カメラの内部パラメータを取得するように構成される第1の取得サブユニットと、
前記検出対象ターゲットの位置する地面の前記検出用単眼カメラの座標系における平面方程式のパラメータを含む前記検出用単眼カメラの外部パラメータを取得するように構成される第2の取得サブユニットと、
前記検出用単眼カメラの内部パラメータと前記検出対象ターゲットの位置情報とに基づいて、前記検出用単眼カメラの座標系の原点と前記位置情報中の、前記地面での前記検出対象ターゲットの正投影の中心点の、前記検出用単眼カメラの画像平面に投影された画素座標とを通る直線を決定し、ここで、前記地面での前記検出対象ターゲットの正投影の中心点の、前記検出用単眼カメラの座標系における座標は前記直線上にあるように構成される第1の決定サブユニットと、
前記直線と前記地面の平面方程式のパラメータとに基づいて、前記直線と前記地面との交差点の前記検出用単眼カメラの座標系における座標を、前記地面での前記検出対象ターゲットの正投影の中心点の、前記検出用単眼カメラの座標系における座標として決定するように構成される第2の決定サブユニットと、
前記検出対象ターゲットの位置情報中の、前記正投影の中心点の、前記検出用単眼カメラの画像平面に投影された画素座標を前記検出用単眼カメラの座標系における前記正投影の中心点の座標に置き換えるように構成される第1の置き換えサブユニットと、
置き換えられた前記検出対象ターゲットの位置情報を前記検出対象ターゲットの3次元位置として提供するように構成される第1の提供サブユニットとを含む、請求項12に記載の装置。 - 前記決定ユニットは、
前記地面内の点の前記検出用単眼カメラの座標系における座標と、前記検出用単眼カメラの画像平面に投影された該点の画素座標との間のマッピング関係を表す前記検出対象ターゲットの位置する地面の地面深度マップを取得するように構成される第3の取得サブユニットと、
前記地面深度マップに基づいて、前記検出対象ターゲットの位置情報中の、前記地面での前記検出対象ターゲットの正投影の中心点の、前記検出用単眼カメラの画像平面に投影された画素座標の前記検出用単眼カメラ座標系における座標を検索するように構成される検索サブユニットと、
前記検出対象ターゲットの位置情報中の、前記正投影の中心点の、前記検出用単眼カメラの画像平面に投影された画素座標を前記検出用単眼カメラの座標系における前記正投影の中心点の座標に置き換えるように構成される第2の置き換えサブユニットと、
置き換えられた前記検出対象ターゲットの位置情報を前記検出対象ターゲットの3次元位置として提供するように構成される第2の提供サブユニットとを含む、請求項12に記載の装置。 - ターゲット検出モデル訓練装置であって、
ターゲットについて単眼カメラによって撮影された訓練画像を含む訓練データを取得するように構成される第3の取得ユニットと、
該ターゲットの位置する地面での前記ターゲットの正投影の中心点の、前記単眼カメラの画像平面に投影された画素座標を含む前記ターゲットの位置情報を前記訓練画像から抽出するように構成される多層畳み込みニューラルネットワークを含む基礎モデルを作成するように構成される作成ユニットと、
前記訓練データを用いて前記基礎モデルを訓練し、前記ターゲット検出モデルを得るように構成される訓練ユニットとを含む、ターゲット検出モデル訓練装置。 - 電子機器であって、
メモリ、プロセッサ及び前記メモリに記憶されたコンピュータプログラムを含み、
前記プロセッサは、前記コンピュータプログラムを実行して、請求項1~11のいずれか1項に記載の方法のステップを実現するように構成される電子機器。 - プロセッサにより実行されると、請求項1~11のいずれか1項に記載の方法のステップを実現するコンピュータプログラムが記憶された非一時的なコンピュータ読み取り可能な記憶媒体。
- 前記コンピュータプログラムはプロセッサにより実行されると、請求項1~11のいずれか1項に記載の方法のステップを実現するコンピュータプログラムを含むコンピュータプログラム製品。
- 請求項16に記載の電子機器を含む路側機器。
- 請求項16に記載の電子機器を含むクラウド制御プラットフォーム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011564385.6 | 2020-12-25 | ||
CN202011564385.6A CN112668460A (zh) | 2020-12-25 | 2020-12-25 | 目标检测方法、电子设备、路侧设备和云控平台 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022043216A true JP2022043216A (ja) | 2022-03-15 |
Family
ID=75409319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021210257A Pending JP2022043216A (ja) | 2020-12-25 | 2021-12-24 | ターゲット検出方法、電子機器、路側機器、及びクラウド制御プラットフォーム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11721042B2 (ja) |
EP (1) | EP3961579A3 (ja) |
JP (1) | JP2022043216A (ja) |
KR (1) | KR20220004607A (ja) |
CN (1) | CN112668460A (ja) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344200B (zh) * | 2021-06-17 | 2024-05-28 | 阿波罗智联(北京)科技有限公司 | 用于训练可分离卷积网络的方法、路侧设备及云控平台 |
CN113580134B (zh) * | 2021-08-03 | 2022-11-04 | 亿咖通(湖北)技术有限公司 | 视觉定位方法、设备、机器人、存储介质及程序产品 |
CN114327346B (zh) * | 2021-12-27 | 2023-09-29 | 北京百度网讯科技有限公司 | 显示方法、显示装置、电子设备以及存储介质 |
CN114612558B (zh) * | 2022-03-10 | 2024-07-19 | 西安交通大学 | 一种基于单目相机检测的叉车托盘空间定位方法及系统 |
CN114782547B (zh) * | 2022-04-13 | 2024-08-20 | 北京爱笔科技有限公司 | 一种三维坐标确定方法及装置 |
WO2023201723A1 (zh) * | 2022-04-22 | 2023-10-26 | 华为技术有限公司 | 目标检测模型的训练方法、目标检测方法及装置 |
CN114723827A (zh) * | 2022-04-28 | 2022-07-08 | 哈尔滨理工大学 | 一种基于深度学习的抓取机器人目标定位系统 |
CN115019226A (zh) * | 2022-05-13 | 2022-09-06 | 云南农业大学 | 一种基于改进型YoloV4模型的茶叶采摘识别方法 |
CN115009321B (zh) * | 2022-06-27 | 2024-07-12 | 南京理工大学 | 基于改进YoloX-s的密贴检查器故障检测方法 |
CN115082886B (zh) * | 2022-07-04 | 2023-09-29 | 小米汽车科技有限公司 | 目标检测的方法、装置、存储介质、芯片及车辆 |
CN115184378B (zh) * | 2022-09-15 | 2024-03-29 | 北京思莫特科技有限公司 | 一种基于移动设备的混凝土结构病害检测系统及方法 |
CN115393423A (zh) * | 2022-09-19 | 2022-11-25 | 北京京东尚科信息技术有限公司 | 目标检测方法和装置 |
CN115578470B (zh) * | 2022-09-22 | 2024-06-07 | 虹软科技股份有限公司 | 一种单目视觉定位方法、装置、存储介质和电子设备 |
CN115351713B (zh) * | 2022-10-19 | 2023-06-02 | 武汉艾极涂科技有限公司 | 一种基于图像识别的喷砂方法、装置、设备及存储介质 |
CN115830140B (zh) * | 2022-12-12 | 2024-08-20 | 中国人民解放军海军工程大学 | 一种海上近程光电监控方法、系统、介质、设备及终端 |
CN115661158B (zh) * | 2022-12-28 | 2023-04-25 | 歌尔光学科技有限公司 | 光机镜头组件的检测方法、装置、电子设备及存储介质 |
CN116704019B (zh) * | 2023-01-05 | 2024-08-16 | 中国矿业大学(北京) | 一种基于锚杆网络的钻锚机器人单目视觉定位方法 |
CN116152783B (zh) * | 2023-04-18 | 2023-08-04 | 安徽蔚来智驾科技有限公司 | 目标元素标注数据的获取方法、计算机设备及存储介质 |
CN116681778B (zh) * | 2023-06-06 | 2024-01-09 | 固安信通信号技术股份有限公司 | 一种基于单目相机的距离测量方法 |
CN117274575A (zh) * | 2023-09-28 | 2023-12-22 | 北京百度网讯科技有限公司 | 目标检测模型的训练方法、目标检测方法、装置和设备 |
CN117132767B (zh) * | 2023-10-23 | 2024-03-19 | 中国铁塔股份有限公司湖北省分公司 | 一种小目标检测方法、装置、设备及可读存储介质 |
CN117611592B (zh) * | 2024-01-24 | 2024-04-05 | 长沙隼眼软件科技有限公司 | 一种异物检测方法、装置、电子设备以及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190286153A1 (en) * | 2018-03-15 | 2019-09-19 | Nvidia Corporation | Determining drivable free-space for autonomous vehicles |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103154666B (zh) * | 2011-06-14 | 2015-03-18 | 日产自动车株式会社 | 距离测量装置以及环境地图生成装置 |
JP6547785B2 (ja) * | 2016-07-29 | 2019-07-24 | 株式会社デンソー | 物標検出装置 |
JP6602743B2 (ja) * | 2016-12-08 | 2019-11-06 | 株式会社ソニー・インタラクティブエンタテインメント | 情報処理装置および情報処理方法 |
CN109345510A (zh) * | 2018-09-07 | 2019-02-15 | 百度在线网络技术(北京)有限公司 | 物体检测方法、装置、设备、存储介质及车辆 |
US11105924B2 (en) * | 2018-10-04 | 2021-08-31 | Waymo Llc | Object localization using machine learning |
US11093761B2 (en) * | 2019-03-06 | 2021-08-17 | GM Global Technology Operations LLC | Lane position sensing and tracking in a vehicle |
CN110032949B (zh) * | 2019-03-22 | 2021-09-28 | 北京理工大学 | 一种基于轻量化卷积神经网络的目标检测与定位方法 |
CN110070025B (zh) | 2019-04-17 | 2023-03-31 | 上海交通大学 | 基于单目图像的三维目标检测系统及方法 |
CN110427917B (zh) * | 2019-08-14 | 2022-03-22 | 北京百度网讯科技有限公司 | 用于检测关键点的方法和装置 |
CN111126269B (zh) | 2019-12-24 | 2022-09-30 | 京东科技控股股份有限公司 | 三维目标检测方法、装置以及存储介质 |
CN111310574B (zh) | 2020-01-17 | 2022-10-14 | 清华大学 | 一种车载视觉实时多目标多任务联合感知方法和装置 |
CN111814548B (zh) * | 2020-06-03 | 2022-12-09 | 中铁第四勘察设计院集团有限公司 | 一种异常行为检测方法和装置 |
CN112101209B (zh) * | 2020-09-15 | 2024-04-09 | 阿波罗智联(北京)科技有限公司 | 用于路侧计算设备的确定世界坐标点云的方法和装置 |
-
2020
- 2020-12-25 CN CN202011564385.6A patent/CN112668460A/zh active Pending
-
2021
- 2021-12-22 KR KR1020210185137A patent/KR20220004607A/ko not_active Application Discontinuation
- 2021-12-22 EP EP21217200.1A patent/EP3961579A3/en not_active Withdrawn
- 2021-12-23 US US17/561,242 patent/US11721042B2/en active Active
- 2021-12-24 JP JP2021210257A patent/JP2022043216A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190286153A1 (en) * | 2018-03-15 | 2019-09-19 | Nvidia Corporation | Determining drivable free-space for autonomous vehicles |
Also Published As
Publication number | Publication date |
---|---|
CN112668460A (zh) | 2021-04-16 |
KR20220004607A (ko) | 2022-01-11 |
EP3961579A2 (en) | 2022-03-02 |
US20220114759A1 (en) | 2022-04-14 |
EP3961579A3 (en) | 2022-06-29 |
US11721042B2 (en) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022043216A (ja) | ターゲット検出方法、電子機器、路側機器、及びクラウド制御プラットフォーム | |
US20230229919A1 (en) | Learning to generate synthetic datasets for training neural networks | |
JP6745328B2 (ja) | 点群データを復旧するための方法及び装置 | |
JP6644742B2 (ja) | 頑健で効率的な車両測位用のアルゴリズム及びインフラ | |
US10380890B2 (en) | Autonomous vehicle localization based on walsh kernel projection technique | |
JP7256758B2 (ja) | 自動運転車両においてrnnとlstmを用いて時間平滑化を行うlidar測位 | |
KR102212825B1 (ko) | 이미지를 기반으로 포즈 계산을 위한 지도의 최신성을 유지하는 방법 및 시스템 | |
JP7241057B2 (ja) | 車両測位方法、装置、電子機器、車両及び記憶媒体 | |
CN110083149A (zh) | 用于自动驾驶车辆的路径与速度优化后馈机制 | |
CN110377025A (zh) | 用于自动驾驶车辆的传感器聚合框架 | |
JP6526105B2 (ja) | イメージの内容に基づく地図イメージ検索方法、地図イメージ検索システム及びコンピュータプログラム | |
US9245366B1 (en) | Label placement for complex geographic polygons | |
CN110389582A (zh) | 利用多个线索跟踪对象 | |
US11531697B2 (en) | Identifying and providing digital images depicting human poses utilizing visual interactive content search and virtual mannequins | |
CN109213144A (zh) | 人机接口(hmi)架构 | |
US11922582B2 (en) | Location-specific three-dimensional models responsive to location-related queries | |
CN114723949A (zh) | 三维场景分割方法和用于训练分割模型的方法 | |
JP2023064082A (ja) | 高精地図における三次元地図の構築方法、装置、機器および記憶媒体 | |
JP2022034034A (ja) | 障害物検出方法、電子機器、路側機器、及びクラウド制御プラットフォーム | |
KR20200105157A (ko) | 온라인 학습을 이용한 객체 트래킹을 위한 방법 및 시스템 | |
US20240221215A1 (en) | High-precision vehicle positioning | |
CN116678424A (zh) | 高精度车辆定位、矢量化地图构建及定位模型训练方法 | |
CN114111813A (zh) | 高精地图元素更新方法、装置、电子设备及存储介质 | |
CN115578432B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
KR20210057586A (ko) | 블라인드 워터마킹 기술을 이용한 카메라 기반 측위 방법 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230105 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230721 |