JP2021516817A - 目標対象の運動の向きを予測するための方法、車両制御方法及び装置 - Google Patents

目標対象の運動の向きを予測するための方法、車両制御方法及び装置 Download PDF

Info

Publication number
JP2021516817A
JP2021516817A JP2020550616A JP2020550616A JP2021516817A JP 2021516817 A JP2021516817 A JP 2021516817A JP 2020550616 A JP2020550616 A JP 2020550616A JP 2020550616 A JP2020550616 A JP 2020550616A JP 2021516817 A JP2021516817 A JP 2021516817A
Authority
JP
Japan
Prior art keywords
target object
appearance
image
angle section
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020550616A
Other languages
English (en)
Other versions
JP7101255B2 (ja
Inventor
シュー ジャン
シュー ジャン
ジャオフイ ヤン
ジャオフイ ヤン
ジアマン リー
ジアマン リー
シンユー ゾン
シンユー ゾン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JP2021516817A publication Critical patent/JP2021516817A/ja
Application granted granted Critical
Publication of JP7101255B2 publication Critical patent/JP7101255B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/08Active safety systems predicting or avoiding probable or impending collision or attempting to minimise its consequences
    • B60W30/09Taking automatic action to avoid collision, e.g. braking and steering
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/08Active safety systems predicting or avoiding probable or impending collision or attempting to minimise its consequences
    • B60W30/095Predicting travel path or likelihood of collision
    • B60W30/0956Predicting travel path or likelihood of collision the prediction being responsive to traffic or environmental parameters
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • B60W50/14Means for informing the driver, warning the driver or prompting a driver intervention
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0015Planning or execution of driving tasks specially adapted for safety
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • G08G1/166Anti-collision systems for active traffic, e.g. moving vehicles, pedestrians, bikes
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2420/00Indexing codes relating to the type of sensors based on the principle of their operation
    • B60W2420/40Photo, light or radio wave sensitive means, e.g. infrared sensors
    • B60W2420/403Image sensing, e.g. optical camera
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/40Dynamic objects, e.g. animals, windblown objects
    • B60W2554/402Type
    • B60W2554/4029Pedestrians
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/80Spatial relation or speed relative to objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30256Lane; Road marking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30261Obstacle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Automation & Control Theory (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

目標対象の運動の向きを予測するための方法、ニューラルネットワーク訓練方法、車両インテリジェント制御方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラムを提供し、目標対象の運動の向きを予測するための方法は、撮像装置により撮像された画像における目標対象の外見向きを取得し、前記画像における目標対象と前記撮像装置との三次元空間における相対的位置関係を取得すること(S100)と、前記目標対象の外見向き及び前記相対的位置関係に基づいて、前記撮像装置の進行方向に対する前記目標対象の運動の向きを決定すること(S110)と、を含む。【選択図】図1

Description

本出願は、2018年3月23日に中国特許局に提出された出願番号がCN201810247961.0であり、発明名称が「目標対象の運動の向きを予測するための方法、車両制御方法及び装置」である中国特許出願の優先権を要求し、その全ての内容は引用によって本出願に援用される。
本出願は、コンピュータビジョン技術に関し、特に、目標対象の運動の向きを予測するための方法、目標対象の運動の向きを予測するための装置、車両インテリジェント制御方法、車両インテリジェント制御装置、ニューラルネットワーク訓練方法、ニューラルネットワーク訓練装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラムに関する。
自動運転/運転支援は、コンピュータビジョン技術分野における重要な課題の1つである。
車両が自動運転/運転支援状態にある場合、車両走行の安全性を可能な限り向上させるために、車両車両を如何に、より正確に制御するかは、注目に値する技術的課題である。
本出願の実施形態は、目標対象の運動の向きに対する予測、車両インテリジェント制御及びニューラルネットワークの訓練のための技術案を提供する。
本出願の実施形態の一態様によれば、目標対象の運動の向きを予測するための方法を提供する。前記方法は、撮像装置により撮像された画像における目標対象の外見向きを取得し、前記画像における目標対象と前記撮像装置との三次元空間における相対的位置関係を取得することと、前記目標対象の外見向き及び前記相対的位置関係に基づいて、前記撮像装置の進行方向に対する前記目標対象の運動の向きを決定することとを含む。
本出願の実施形態の別の態様によれば、ニューラルネットワーク訓練方法を提供する。前記方法は、人体が含まれるサンプル画像ブロックの画像特徴を取得することと、訓練対象である第1ニューラルネットワークによって、前記画像特徴に基づいて、前記人体の人体輪郭キーポイント予測結果を取得することと、前記人体輪郭キーポイント予測結果と人体輪郭キーポイントアノテーション情報との差異をガイダンス情報として、前記訓練対象である第1ニューラルネットワークに対して教師あり学習を行うこととを含む。
本出願の実施形態の別の態様によれば、車両インテリジェント制御方法を提供する。前記方法は、撮像装置により撮像された画像における目標対象の外見向きを取得し、前記画像における目標対象と前記撮像装置との三次元空間における相対的位置関係を取得することと、前記目標対象の外見向き及び前記相対的位置関係に基づいて、前記撮像装置の進行方向に対する前記目標対象の運動の向きを決定することと、前記撮像装置の進行方向に対する前記目標対象の運動の向きに基づいて、前記撮像装置が搭載されている車両を制御するための命令又は警報アラート情報を生成することとを含む。
本出願の実施形態の別の態様によれば、本出願の実施形態のもう1つの態様による、目標対象の運動の向きを予測するための装置を提供する。前記装置は、撮像装置により撮像された画像における目標対象の外見向きを取得し、前記画像における目標対象と前記撮像装置との三次元空間における相対的位置関係を取得するように構成される第1取得モジュールと、前記目標対象の外見向き及び前記相対的位置関係に基づいて、前記撮像装置の進行方向に対する前記目標対象の運動の向きを決定するように構成される向き決定モジュールとを備える。
本出願の実施形態のもう1つの態様によれば、ニューラルネットワーク訓練装置を提供する。前記装置は、目標対象を含むサンプル画像ブロックを取得するように構成される第2取得モジュールと、訓練対象である第1ニューラルネットワークによって、前記サンプル画像ブロックに対して外見向きを検出し、前記サンプル画像ブロックにおける目標対象の外見向きを取得するように構成される第3取得モジュールと、前記取得された目標対象の外見向きとサンプル画像ブロックの外見向きのアノテーション情報との差異をガイダンス情報として、前記訓練対象である第1ニューラルネットワークに対して、教師あり学習を行うように構成される教師あり学習モジュールとを備える。
本出願の実施形態のもう1つの態様によれば、車両インテリジェント制御装置を提供する。前記装置は、撮像装置により撮像された画像における目標対象の外見向きを取得し、前記画像における目標対象と前記撮像装置との三次元空間における相対的位置関係を取得するように構成される第1取得モジュールと、前記目標対象の外見向き及び前記相対的位置関係に基づいて、前記撮像装置の進行方向に対する前記目標対象の運動の向きを決定するように構成される向き決定モジュールと、前記撮像装置の進行方向に対する前記目標対象の運動の向きに基づいて、前記撮像装置が搭載されている物体を制御するための命令又は警報アラート情報を生成するように構成されるインテリジェント制御モジュールとを備える。
本出願の実施形態のもう1つの態様によれば、電子機器を提供する。該電子機器は、コンピュータプログラムを記憶するように構成されるメモリと、前記メモリに記憶されているコンピュータプログラムを実行し、前記コンピュータプログラムが実行される場合、本出願のいずれか1つの方法の実施形態を実現させるように構成されるプロセッサと備える。
本出願の実施形態のもう1つの態様によれば、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体を提供する。該コンピュータプログラムがプロセッサにより実行される場合、本出願のいずれか1つの方法の実現形態を実現させる。
本出願の実施形態のもう1つの態様によれば、コンピュータコマンドを含むコンピュータプログラムを提供する。前記コンピュータコマンドが装置のプロセッサにおいて実行される場合、本出願のいずれか1つの方法の実施形態を実現させる。
本出願が提供する目標対象の運動の向きを予測するための方法、目標対象の運動の向きを予測するための装置、ニューラルネットワーク訓練方法、ニューラルネットワーク訓練装置、車両インテリジェント制御方法、車両インテリジェント制御装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラムによれば、本出願は、目標対象の外見向き及び目標対象と撮像装置との三次元空間における相対的位置関係を利用して、撮像装置の進行方向に対する目標対象の運動の向きを決定することで、画像における目標対象の現在の状態をより明確に知ることができる。本出願が提供する技術案を自動運転又は運転支援などの応用に適用する場合、車両の走行方向に対する歩行者などの目標対象の運動の向きを正確に把握するのに利し、車両を制御するための命令又は警報アラート情報を正確に生成するのに利し、更に車両走行の安全性の向上に利する。
以下、図面及び実施形態を参照しながら、本出願の技術案を更に詳しく説明する。
本出願の実施例による目標対象の運動の向きを予測するための方法を示すブローチャートである。 本出願の実施例による画像における目標対象A及び目標対象Bを示す概略図である。 本出願の実施例による目標対象の外見向きの実施形態を示す概略図である。 本出願の実施例による目標対象の外見向きの別の実施形態を示す概略図である。 本出願の実施例による画像における相互平行な2本の線の実施形態を示す概略図である。 図5に示した2本の平行線からなる三次元空間における2本の交線の実施形態を示す概略図である。 本出願の実施例による目標対象と撮像装置との相対的位置関係の実施形態を示す概略図である。 本出願の実施例による撮像装置の進行方向に対する目標対象の運動の向きの実施形態を示す概略図である。 本出願の実施例による撮像装置の進行方向に対する目標対象の運動の向きの別の実施形態を示す概略図である。 本出願の実施例によるニューラルネットワーク訓練方法を示すフローチャートである。 本出願の実施例による車両インテリジェント制御方法を示すフローチャートである。 本出願の実施例による目標対象の運動の向きを予測するための装置の構成を示す概略図である。 本出願の実施例によるニューラルネットワーク訓練装置の構成を示す概略図である。 本出願の実施例による車両インテリジェント制御装置の構成を示す概略図である。 本出願の実施形態を実現させるための例示的な装置を示すブロック図である。
明細書の一部を構成する図面は、本出願の実施例を説明し、その説明とともに、本出願の原理の解釈に用いられる。
図面を参照しながら、下記詳細な記載に基づいて、本出願をより明確に理解することができる。
以下、図面を参照しながら、本出願の様々な例示的な実施例を詳しく説明する。別途明記されない限り、これらの実施例において説明されるモジュール及びステップの相対的構成、数式及び数値が、本出願の範囲を限定しないことは自明である。
また、説明の便宜上、図示の各部分の寸法は実際の比例関係に従って描かれたものではないことが理解すべきである。
以下の少なくとも1つの例示的な実施例の説明は単なる例であり、本願発明及びその適用又は使用に対する限定にならない。
ここで、当分野の既知技術、方法および設備については詳しく説明せず、適宜な状況で、前記技術、方法および設備を明細書の一部として見なすべきである。
類似した符号及びアルファベットは下記図面において類似する要素を表すため、いずれかの要素が図面において定義された場合、後続図面においてそれを更に説明する必要がない。
本出願の実施例は、コンピュータシステム/サーバに適用される。それは、多数の他の汎用又は専用コンピュータシステム環境又は構成とともに動作することができる。コンピュータシステム/サーバ一と共に適用されるのに適する公知のコンピューティングシステム、環境及び/又は構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルド又はラップトップデバイス、車載装置、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル消費者向け電子機器製品、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム及び上記任意のシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。
コンピュータシステム/サーバは、コンピュータシステムにより実行されるコンピュータシステムによる実行可能な命令(例えば、プログラムモジュール)の一般的な内容で説明できる。一般的には、プログラムモジュールは、ルーチン、プログラム、オブジェクトプログラム、ユニット、ロジック、データ構造などを含んでもよいが、これらは、特定のタスクを実行するか又は特定の抽象データ型を実現させる。コンピュータシステム/サーバを、分散型クラウドコンピューティング環境において実行することができる。分散型クラウドコンピューティング環境において、タスクは、通信ネットワークを介してリンクされるリモート処理デバイスにより実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは、記憶装置を備えるローカル又はリモートコンピューティングシステム記憶媒体に位置してもよい。
図1は、本出願の実施例による目標対象の運動の向きを予測するための方法を示すフローチャートである。
図1に示すように、該実施例の方法は、以下を含む。
S100において、撮像装置により撮像された画像における目標対象の外見向きを取得し、前記画像における目標対象と撮像装置との三次元空間における相対的位置関係を取得する。
任意選択的な例において、該ステップS100は、プロセッサにより、メモリに記憶されている対応する命令を呼出して実行されてもよいし、プロセッサにより実行される第1取得モジュール1200で実行されてもよい。
S110において、目標対象の外見向き及び上記相対的位置関係に基づいて、撮像装置の進行方向に対する目標対象の運動の向きを決定する。
任意選択的な例において、該ステップS110は、プロセッサにより、メモリに記憶されている対応する命令を呼出して実行されてもよいし、プロセッサにより実行される向き決定モジュール1210で実行されてもよい。
本出願は、目標対象の外見向き及び目標対象と撮像装置との三次元空間における相対的位置関係を利用して、撮像装置の進行方向に対する目標対象の運動の向きを決定することで、画像における目標対象の現在の状態をより明確に知ることができる。例えば、同一の画像における異なる目標対象の外見向きが同じであり、異なる目標対象と撮像装置との三次元空間における相対的位置関係が相違している場合、本出願は、画像における同じ外見向きを有する異なる目標対象の、撮像装置の進行方向(例えば、撮像装置が搭載されている車両などの装置の進行方向)に対する運動の向きが相違していると判定し得る。さらに例えば、異なる画像における同一の目標対象の外見向きが変わり、該目標対象と撮像装置との三次元空間における相対的位置関係も変わった場合、本出願は、異なる画像における異なる外見向きを有する同一の目標対象の、撮像装置の進行方向(例えば、撮像装置が搭載されている車両などの装置の進行方向)に対する運動の向きが同じであると判定し得る。上記から分かるように、本出願が提供する技術案は、画像解読の正確性の向上に利する。本出願が提供する技術案を自動運転又は運転支援などの応用に適用する場合、車両の走行方向に対する歩行者などの目標対象の運動の向きを正確に把握するのに利し、車両を制御するための命令又は警報アラート情報を正確に生成するのに利し、更に車両走行の安全性の向上に利する。
任意選択的な例において、本出願における撮像装置は、物体に設けられた撮像装置であってもよく、該物体は、一般的には、移動可能である。例えば、該物体は、車両、飛行体、船舶又はロボットなどであってもよい。本出願は、物体の具体的な表現形態を限定しない。なお、下記技術案の説明において、車両を例として本出願の技術案を説明するが、本出願における物体が車両でなければならないことを示唆するものではない。本出願における撮像装置が車両に設けられた撮像装置である場合、該撮像装置は、ドライブレコーダにおけるカメラ、車両の運転室に設けられたカメラ又は撮像機能を持つ他の部材であってもよい。勿論、本出願における撮像装置は、視覚障害者向けのナビゲーション装置などのような他の物体に設けられた撮像装置であってもよい。
任意選択的な例において、本出願における画像は、フレームの抽出で、撮像装置により撮像されたビデオから抽出されたビデオフレームであってもよい。勿論、該画像は、撮像装置により撮像されたビデオのうちのいずれか1つのビデオフレーム又は撮像装置により撮像された写真などであってもよい。
任意選択的な例において、本出願における目標対象を実際の需要に応じて予め設けてもよい。例えば、目標対象は、歩行者、動物、軽車両、障害物などのような運動の向きが注目されるべき物体を含んでもよいが、これらに限定されない。なお、下記技術案の説明において、歩行者を例として本出願の技術案を説明するが、本出願における物体が歩行者でなければならないことを示唆するものではない。本出願は、物体の具体的な表現形態を限定しない。
任意選択的な例において、本出願における目標対象の外見向きとは、通常、画像における目標対象の外観の観測可能な情報によって表される目標対象の向きを指す。例えば、目標対象が歩行者である場合、画像における歩行者の目、鼻などの外観の観測可能な情報によって表される歩行者の向きを表す。外見向きの真前方は、一般的には、目標対象に正対する方向である。外見向きの真後方は、一般的には、目標対象に背向する方向である。外見向きの真右方は、一般的には、目標対象の右側に正対する方向である。外見向きの真左方は、一般的には、目標対象の左側に正対する方向である。図2に示した画像において、目標対象A(即ち、歩行者A)及び目標対象B(歩行者B)の外観によって表されるそれぞれの外見向きは、いずれも真右方である。
任意選択的な例において、画像に表れる目標対象の外見向きは、一般的には、目標対象の現在の状態及び撮像装置の撮像方向に関わる。例えば、撮像装置の撮像方向が変わった場合、同一の実位置に位置する何の変わりもない目標対象の外見向きを変化させることができる。また、例えば、同一の位置に位置する目標対象が回動した場合、撮像装置の撮像方向が変わっていないが、目標対象の外見向きは変わる。
任意選択的な例において、撮像装置により撮像された画像における目標対象の外見向きを取得することは、
画像における目標対象が含まれる画像ブロックを、第1ニューラルネットワークに提供して外見向きの検出を行い、画像における目標対象の外見向きを取得することを含む。
本出願は、第1ニューラルネットワークを利用して、撮像装置により撮像された画像における目標対象の外見向きを取得することができる。例えば、画像における目標対象が含まれる画像ブロックを、第1ニューラルネットワークに提供して外見向きの検出(例えば、分類処理又は回帰処理等)を行い、該第1ニューラルネットワークから出力される情報に基づいて、画像における目標対象の外見向きを取得することができる。勿論、本出願は、画像全体を、外見向きの検出を行うための第1ニューラルネットワークに提供することもできる。本出願における第1ニューラルネットワークは、訓練画像集合によって予め訓練されたものである。該訓練画像集合は、複数の画像サンプル及び画像サンプルの外見向きのアノテーション情報を含む。該第1ニューラルネットワークを訓練する過程は、図10に関する下記説明を参照されたい。本出願は、第1ニューラルネットワークを利用して目標対象の外見向きを取得するため、外見向きを迅速に取得するのに利し、外見向きの決定の正確性の向上に利する。
第1ニューラルネットワークに提供する画像ブロックの大きさは、一般的には、第1ニューラルネットワークの入力画像に対する要求によるものである。例えば、第1ニューラルネットワークが、256×256などの画像ブロックの大きさを要求してもよい。本出願は、画像又は分割して得られた画像ブロックに対して、スケーリング、引き伸ばし又は圧縮処理等を行い、分割して得られた画像ブロックに第1ニューラルネットワークの要件を満たさせることができる。本出願は、第1ニューラルネットワークに提供された画像ブロックの大きさを限定しない。
任意選択的な例において、本出願における第1ニューラルネットワークのネットワーク構造を、外見向きの分類(例えば、4クラス分類、8クラス分類又はより多くの分類など)の実際の需要に応じて柔軟に設計することができる。本出願の実施例は、第1ニューラルネットワークの具体的なネットワーク構造を限定しない。例えば、本出願における第1ニューラルネットワークは、畳み込み層、非線形Relu層、プーリング層及び全結合層などを含んでもよいが、これらに限定されない。該第1ニューラルネットワークに含まれる層数が多いほど、ネットワークが深くなる。また、例えば、本出願のニューラルネットワークのネットワーク構造として、ALexNet、深層残差ネットワーク(Deep Residual Network:ResNet)又は視覚幾何学グループネットワーク(Visual Geometry Group Network:VGGnet)等のニューラルネットワークに用いられるネットワーク構造を用いてもよい。
任意選択的な例において、画像ブロックの生成方式は、
画像を、目標対象の外接枠を検出するための第2ニューラルネットワークに提供し、画像における目標対象の外接枠を取得することと、
取得された目標対象の外接枠に基づいて、画像に対して分割処理を行い、目標対象が含まれる画像ブロックを取得することと、を含む。
本出願は、目標対象の外接枠を検出するための第2ニューラルネットワークにより、画像における目標対象が含まれる画像ブロックを取得することができる。例えば、まず、画像を、第2ニューラルネットワークに提供して目標対象の外接枠を検出することで、本出願は、該第2ニューラルネットワークから出力された目標対象検出結果情報に基づいて、該画像における目標対象の外接枠(例えば、目標対象の外接枠の対角線に位置する2つの頂点の座標)を取得してから、上記取得された目標対象の外接枠を利用して、画像に対して分割処理を行い、目標対象が含まれる画像ブロックを取得することができる。画像に複数の目標対象(例えば、歩行者)が含まれる場合、本出願は、目標対象の外接枠を検出するための第2ニューラルネットワークを利用して、複数の目標対象の外接枠を取得して、分割処理により、複数の画像ブロックを取得することができる。
任意選択的な例において、本出願における目標対象が歩行者である場合、人体の外接枠を検出するための第2ニューラルネットワークから出力された人体検出結果は、一般的には、画像における人体外接枠の中心位置及び人体スケールファクタを含む。本出願における人体外接枠の中心位置は、人体位置又は人体中心点などと呼ばれてもよい。本出願における人体スケールファクタは人体外接枠の大きさを決定するためのものであってもよい。人体スケールファクタは、スケーリングファクタを含んでもよい。例えば、人体スケールファクタsは、画像における人頭の大きさHを、標準サイズhまでスケーリングするためのスケーリングファクタであってもよい。つまり、s=h/Hである。続いて、本出願は、人体外接枠の中心位置及び人体スケールファクタを利用して画像をスケーリング処理し、第1ニューラルネットワークの画像ブロックの大きさに対する要求及び中心位置に基づいて、スケーリング処理された画像をクロッピング処理して、第1ニューラルネットワークの画像ブロックの大きさに対する要求に合致する、人体を含む画像ブロックを取得することができる。
任意選択的な例において、本出願における目標対象の外接枠を検出するための第2ニューラルネットワークは、従来の勾配方向ヒストグラム(Histogram of Oriented Gradient:HOG)演算子に基づいたカスケード検出器、深層学習ベースの領域畳み込みニューラルネットワーク(Regions with Convolutional Neural Network:RCNN)、FastRCNN、FasterRCNN、シングルショットマルチボックス検出器(Single Shot MultiBox Detector:SSD)、見るのは一度きり(You Only Look Once:YOLO)アルゴリズム等により実現することができる。本出願は、目標対象の外接枠を検出するための第2ニューラルネットワークの具体的な構造及び該第2ニューラルネットワークによる目標対象の外接枠の形成のための具体的な方式などを限定しない。
本出願は、第2ニューラルネットワークを利用して目標対象の外接枠を取得するため、目標対象の外接枠を迅速かつ完全的に取得するのに利し、目標対象の外接枠の正確性の向上に利する。
任意選択的な例において、本出願において、取得された画像ブロックに含まれる目標対象は、完全な目標対象であってもよいし、局所的な目標対象であってもよい。例えば、目標対象が歩行者である場合、該画像ブロックに含まれる目標対象は、完全な人体であってもよいし、局所的な人体(即ち、人の半身像等のような人体の局所)であってもよい。本出願は、画像ブロックに含まれる目標対象の具体的な表現形態を限定しない。
任意選択的に、第1ニューラルネットワークは、目標対象の外見向きのアノテーション情報を含む訓練画像集合によって予め訓練されたものである。
本出願の実施例における訓練画像集合には、複数の画像サンプル及び画像サンプルの外見向きのアノテーション情報が含まれる。該第1ニューラルネットワークを訓練する過程は、図10に関する下記説明を参照されたい。本出願は、第1ニューラルネットワークを利用して目標対象の外見向きを取得するため、外見向きを迅速に取得するのに利し、外見向きの決定の正確性の向上に利する。
任意選択的に、第1ニューラルネットワークの訓練過程は、
目標対象を含むサンプル画像ブロックを取得することと、
訓練対象である第1ニューラルネットワークによって、サンプル画像ブロックに対して外見向きを検出し、サンプル画像ブロックにおける目標対象の外見向きを取得することと、
取得された目標対象の外見向きとサンプル画像ブロックの外見向きのアノテーション情報との差異をガイダンス情報として、訓練対象である第1ニューラルネットワークに対して教師あり学習を行うこととを含む。
任意選択的な例において、本出願は、訓練データ集合から画像サンプルを取得し、画像サンプルにおける目標対象を含むサンプル画像ブロックを取得することができる。例えば、本出願は、画像サンプルを、既に訓練できている、目標対象の外接枠を検出するためのニューラルネットワークに提供し、該ニューラルネットワークから目標対象検出結果情報を出力する。本出願は、該検出結果情報に基づいて、画像サンプルにおける目標対象の外接枠(例えば、目標対象の外接枠の対角線に位置する2つの頂点の座標)を取得してから、上記取得された目標対象外接枠を利用して、画像に対して分割処理を行い、目標対象が含まれる画像ブロックを取得することができる。画像サンプルに複数の目標対象(例えば、歩行者)が含まれる場合、本出願は、目標対象の外接枠を検出するためのニューラルネットワークを利用して、複数の目標対象の外接枠を取得し、分割処理により、複数のサンプル画像ブロックを取得することができる。
任意選択的な例において、外見向きのアノテーション情報は、外見向きの所属角度区間のアノテーション情報又は外見向きの角度のアノテーション情報を含むが、これらに限定されない。
訓練対象である第1ニューラルネットワークから出力される情報は、目標対象の外見向きの所属角度区間を表す情報、又は、目標対象の外見向きの角度を表す情報を含むが、これらに限定されない。
本出願の実施例における第1ニューラルネットワークから出力される情報は、一般的には、目標対象の外見向きの所属角度区間を表す情報を含んでもよい。例えば、目標対象の外見向きの所属角度区間の2つの角度境界値を含む。また、例えば、目標対象の外見向きの所属角度区間に対応する識別子(例えば、1は、2つの角度区間を表し、2は、別の角度区間を表す)等を含む。
任意選択的な例において、角度区間は、
真前方角度区間、左前方角度区間、真左方角度区間、左後方角度区間、真後方角度区間、右後方角度区間、真右方角度区間及び右前方角度区間のうちの少なくとも1つを含むが、これらに限定されない。
任意選択的に、目標対象の外見向きは、一般的には、0度から360度という角度範囲に属する。本出願は、該角度範囲を複数の角度区間に分けることができる。例えば、本出願は、0から360度という角度範囲を真前方角度区間(315度から45度)、真左方角度区間(315度から225度)、真後方角度区間(225度から+135度)及び真右方角度区間(+45度から+135度)という4つの角度区間に分けることができる。この場合、第1ニューラルネットワークは、4クラス分類処理に基づいた第1ニューラルネットワークであってもよい。また、例えば、本出願は、0度から360度という角度範囲を、真前方角度区間(337.5度から22.5度)、左前方角度区間(337.5度から292.5度)、真左方角度区間(292.5度から247.5度)、左後方角度区間(247.5度から202.5度)、真後方角度区間(202.5度から157.5度)、右後后方角度区間(157.5度から112.5度)、真右方角度区間(112.5度から67.5度)及び右前方角度区間(67.5度から22.5度)という8つの角度区間に分けることができる。この場合、第1ニューラルネットワークは、8クラス分類処理に基づいた第1ニューラルネットワークであってもよい。
勿論、本出願は、0度から360度という角度範囲をより多くの角度区間に分けることもできる。本出願は、角度区間の数を制限すものではない。なお、隣接する2つの角度区間が共有する角度境界値は、一般的には、該2つの角度区間にそれぞれ属する。
任意選択的に、本出願の実施例における第1ニューラルネットワークから出力される情報は、目標対象の外見向きの角度を表す情報を含んでもよい。例えば、目標対象の外見向きの角度を含んでもよい。また、例えば、目標対象の外見向きの角度に対応する識別子等を含んでもよい。この場合、第1ニューラルネットワークは、回帰処理に基づいた第1ニューラルネットワークであってもよい。
任意選択的な例において、第1ニューラルネットワークから出力された目標対象の外見向きの所属角度区間におけるいずれか1つの角度は、目標対象の外見向きとして用いられるか、又は、
第1ニューラルネットワークから出力された目標対象の外見向きの所属角度区間の中心角度は、目標対象の外見向きとして用いられる。
本出願の実施例における第1ニューラルネットワークが、入力された画像ブロックに対して、目標対象の外見向きの所属角度区間を出力する場合、本出願は、一般的には、第1ニューラルネットワークから出力された目標対象の外見向きの所属角度区間の中心角度を目標対象の外見向きとすることができる。例えば、112.5度から67.5度という角度区間の中心角度90度を目標対象の外見向きとする。本出願における角度区間の中心角度は、平均角度と呼ばれてもよい。該平均角度は、角度区間の2つの境界値の平均値ではなく、該角度区間における整数角度(例えば、全ての整数角度)の平均値であると考えられる。360度を上記8つの角度区間に分ける場合、該8つの角度区間の中心角度はそれぞれ、0度(即ち、360度)(図3における真前方を向いている矢印)、45度(図3における右前方を向いている矢印)、90度(図3における真右方を向いている矢印)、135度(図3における右後方を向いている矢印)、180度(図3における真後方を向いている矢印)、315度(図3における左前方を向いている矢印)、270度(図3における真左方を向いている矢印)及び225度(図3における左後方を向いている矢印)である。
なお、図3に示した各方向は、車両に設けられる撮像装置の現在の撮像方向(即ち撮像装置の進行方向)によって決まる。また、本出願は、第1ニューラルネットワークから出力された目標対象の外見向きの所属角度区間におけるいずれか1つの角度を目標対象の外見向きとして用いることもできる。本出願は、目標対象の外見向きの所属角度区間に基づいて目標対象の外見向きを決定するための具体的な実現形態を制限するものではない。
任意選択的な例において、本出願は、後続の運動の向きの決定に関する実際の需要に応じて、上記取得された目標対象の外見向きを変換処理することができる。例えば、本出願は、目標対象の外見向きを、目標対象の撮像方向(例えば、目標対象を撮像する装置と目標対象との連結線、即ち、第1ニューラルネットワークから出力された角度区間の中心角の1つの辺)と目標対象の真右方との反時計回り方向の夾角αに変換することができる。例えば、図3において、撮像装置が目標対象(例えば、歩行者)の左後方にあり、即ち、撮像装置が目標対象の左後肩の方向から撮像する。従って、夾角αは、目標対象の左後方と目標対象の真右方との反時計回り方向の夾角である。また、例えば、図4において、撮像装置が同じく目標対象(例えば、歩行者)の左後方にあり、即ち撮像装置が目標対象の左後肩の方向から撮像する。従って、夾角αは同様に、目標対象の左後方と目標対象の真右方との反時計回り方向の夾角である。本出願は、他の変換方式で、目標対象の外見向きを変換することで、目標対象の外見向きを表すこともできる。本出願は、目標対象の外見向きの具体的な表現形態を制限するものではない。
任意選択的な例において、本出願は、画像における目標対象の位置及び撮像装置を同一の三次元空間内に変換することで、画像における目標対象と撮像装置との該三次元空間における相対的位置関係を取得することができる。ここで、相対的位置関係は、目標対象及び撮像装置のうちの1つ(例えば、撮像装置)を基準点とした場合、該基準点に対するもう1つ(例えば、目標対象)の方位であってもよい。本出願における相対的位置関係は、一般的には、目標対象と撮像装置との三次元空間における連結線と、水平線又は垂直線(例えば、三次元空間におけるy軸)との夾角で表される。本出願の三次元空間は、一般的には、現実世界における三次元空間である。即ち、ワールド座標系に基づいた三次元空間である。該ワールド座標系の原点は、如何なる位置に位置してもよい。該ワールド座標系のx軸及びy軸により決められた平面は、地平面と認められてもよいし、地平面に平行なものと認められてもよい。本出願は、三次元空間の具体的な表現形態を限定しない。
任意選択的な例において、本出願は、射影変換行列(ホモグラフィ行列と呼ばれてもよい)を利用して、画像における目標対象の位置及び撮像装置をそれぞれ同一の三次元空間内に変換することができる。本出願は、射影変換行列を利用することで、画像における目標対象の位置及び撮像装置をそれぞれ同一の三次元空間内に迅速かつ正確に変換することができる。
任意選択的な例において、射影変換行列は、撮像装置を予めキャリブレーションして形成される射影変換行列を含む。又は、
射影変換行列は、画像における複数の特徴点の画像における座標に基づいて、ホモグラフィ行列関数を解いて取得される射影変換行列を含む。
任意選択的に、本出願における射影変換行列は、撮像装置を予めキャリブレーションして得られた射影変換行列であってもよい。例えば、予め設けられた碁盤目等のキャリブレーション装置を利用して、撮像装置をキャリブレーション処理して、射影変換行列を得る。本出願は、画像における特徴点の画像における座標に基づいて、射影変換行列を取得するための関数を解いて、射影変換行列を取得することもできる。射影変換行列を取得するための関数は、opencvにより提供された射影変換行列を取得するための関数等であってもよい。本出願は、射影変換行列を取得するために用いられる射影変換行列取得用関数の具体的な表現形態を限定するものではなく、射影変換行列を取得するための具体的な実現形態を限定するものでもない。
任意選択的な例において、特徴点は、道路区画線における点を含んでもよいが、これに限定されない。本出願は、射影変換行列を取得するために用いられる画像における特徴点は、一般的には、画像における、標準規範を満たす物体(例えば道路区画線等)における点である。任意選択的に、画像における特徴点は、道路区画線における頂点などを含んでもよい。本出願における道路区画線は、白実線、白破線、横断歩道標示線、単一黄色実線、単一黄色破線又は二重黄色実線などを含んでもよいが、これらに限定されない。本出願は、画像における複数本の道路区画線のうちの各道路区画線における少なくとも2つの頂点(例えば、幅方向における2つの頂点又は長手方向における2つの頂点など)を決定し、道路区画線の幅及び長さが一般的には所定の標準規範を満たしているため、道路区画線の実際の幅及び実際の長さが一般的には既知のものである。従って、本出願は、画像における所定の数量の特徴点を利用して、対応する関数を解き、解かれた結果から射影変換行列を取得することができる。該技術案によれば、射影変換の正確度を向上させて複雑さを低減させるのに利する。
本出願は、道路区画線を利用して射影変換行列を得ているため、実施しやすい射影変換行列取得方式を提供し、射影変換行列を動的に随時取得することができ、射影変換行列を予め設ける必要があるという状況の減少に利する。
任意選択的な例において、ステップ100は、
射影変換行列に基づいて、画像における目標対象の位置を三次元空間における目標対象の位置に変換することと、
三次元空間における撮像装置の位置を決定することと、
三次元空間に位置する目標対象と撮像装置の位置を連結し、位置の連結線と撮像装置の運動の向きの法線との夾角を決定することとを含む。
本出願の実施例において、射影変換行列を利用して、画像における目標対象の位置を三次元空間内に変換する一例としては、射影変換行列に基づいて、目標対象の外接枠の下縁における一点の画像における位置を三次元空間内に変換し、三次元空間における該点の位置が三次元空間における目標対象の位置であると見なす。目標対象の外接枠の下縁における一点として、一般的には、下縁の中点を用いることができる。三次元空間における目標対象の外接枠の下縁の中点の位置が一般的には、三次元空間における地平面への、目標対象の重心の垂直投影点に近い(例えば、最も近い)位置であるため、本出願は、目標対象の外接枠の下縁(例えば、最下縁)の中点の、三次元空間における位置を、三次元空間における目標対象の位置として用い、画像における目標対象の重心に対する投影処理を減少させる上で、三次元空間における目標対象の位置の正確性を最大限確保する。
任意選択的な例において、前記三次元空間における撮像装置の位置を決定することは、
射影変換行列に基づいて、画像における第1線に位置する第1点及び第2点、画像における第2線に位置する第3点及び第4点をそれぞれ三次元空間内に変換することと、
三次元空間における第1点及び第2点で形成される線と、三次元空間における第3点及び第4点で形成される線との交差点を三次元空間における撮像装置の位置として用いることとを含む。
ここで、画像における第1線と第2線は互いに平行し、且つそれぞれ水平方向に垂直する。
本出願において、射影変換行列を利用して三次元空間における撮像装置の位置を決定する一例は、以下のとおりである。画像において、相互平行している2本の線(例えば、相互平行な直線又は線分等)を設ける。以下、第1線及び第2線と呼ばれる。第1線及び第2線はそれぞれ画像の水平方向に垂直する(例えば、図5における矢印付きの2本の平行線)。第1線において、第1点及び第2点(第1線におけるいずれか2つの点)のような2つの点を選択し、第2線において、第3点及び第4点(第2線におけるいずれか2つの点)のような2つの点を選択する。射影変換行列を利用して、第1点、第2点、第3点及び第4点をそれぞれ三次元空間内に変換する。三次元空間における第1点と第2点を連結し、1本の線を構成し、三次元空間における第3点と第4点を連結し、もう1本の線を構成する。該2本の線には、交差点が必ず存在する。本出願は、該交差点を三次元空間における撮像装置の位置とすることができる。図5における矢印付きの2本の平行線は、三次元空間において、図6に示した交差点が有する2本の線になる。本出願における三次元空間における撮像装置の位置を決定する方式によれば、三次元空間における撮像装置の位置を迅速かつ正確に取得するのに利し、且つ該方式は、実施しやすい。
任意選択的な例において、本出願における撮像装置の進行方向は、運動状態にある撮像装置の運動方向と、静止状態にある撮像装置の運動趨勢方向とを含む。撮像装置の進行方向は、一般的には、撮像装置の位置する装置の進行方向と同じである。例えば、車両に設けられた撮像装置と言えば、撮像装置の進行方向は、一般的には車両の進行方向である。車両が運動状態にある場合、車両の車頭が指す方向は、車両の運動趨勢方向であり、即ち、撮像装置の運動趨勢方向である。
任意選択的な例において、画像における目標対象と撮像装置との三次元空間における相対的位置関係は、三次元空間における撮像装置に対する三次元空間における目標対象の方位を含む。
任意選択的な例において、ステップ110は、目標対象の外見向き及び撮像装置に対する三次元空間における目標対象の方位に基づいて、撮像装置の進行方向に対する目標対象の運動の向きを決定することを含んでもよい。
任意選択的に、本出願の実施例における目標対象の外見向きは、目標対象の撮像方向と目標対象の真右方との反時計回り方向の夾角(例えば、上記実施例で取得された夾角α)と表現されてもよい。
任意選択的に、三次元空間における撮像装置に対する三次元空間における目標対象の方位は、
三次元空間における目標対象の位置と三次元空間における撮像装置の位置との連結線と、撮像装置の運動の向きの法線との、夾角を含む。
任意選択的な例において、本出願は、三次元空間における目標対象の位置及び三次元空間における撮像装置の位置を取得してから、三次元空間における目標対象と撮像装置を連結し、両者の連結線と撮像装置の運動の向きの法線との夾角(例えば図7に示した夾角β)を、目標対象と撮像装置との相対的位置関係とすることができる。本出願における目標対象と撮像装置との相対的位置関係を決定するための前記方式によれば、目標対象と撮像装置との相対的位置関係を迅速かつ正確に取得するのに利し、且つ該方式は、実施しやすい。勿論、本出願は、他の方式で、目標対象と撮像装置との相対的位置関係を表すこともできる。本出願は、目標対象と撮像装置との相対的位置関係の具体的な方言形態を限定しない。
任意選択的な例において、撮像装置の進行方向に対する目標対象の運動の向きθを式(1)により得ることができる。
θ=α+β+360°/4 式(1)
ただし、αは、目標対象の外見向きであり、目標対象の撮像方向と目標対象の真右方との反時計回り方向の夾角と表現されてもよく、その単位は、度である。βは、目標対象と撮像装置との三次元空間における相対的位置関係であり、三次元空間における目標対象の位置と三次元空間における撮像装置の位置との連結線と、撮像装置の運動の向きの法線との、夾角と表現されてもよく、その単位は、度である。上記式(1)によれば、撮像装置の進行方向に対する目標対象の運動の向きの角度θを算出することができる。例えば、図7に示すように、歩行者Bは、目標対象の撮像方向と目標対象の真右方との反時計回り方向の夾角αが225度であり、目標対象と撮像装置との三次元空間における相対的位置関係βが45度であることが得られ、式(1)に代入して計算すると、θ=225°+45°+90°=360°を得る。この場合、歩行者Bが右へ行くと予測する。
任意選択的な例において、同じ外見向きを有する2つの異なる目標対象については、2つの目標対象と撮像装置との相対的位置関係が異なるため、最終的に決定された、撮像装置の進行方向に対する目標対象の運動の向きが異なる。例えば、図8における歩行者及び図9における歩行者は、両者の外見向きが同じであり、いずれも右向きであるが、図8における歩行者と撮像装置との相対的位置関係が、図9における歩行者と撮像装置との相対的位置関係が異なる。本出願において、最終的に決定された、撮像装置の進行方向に対する図8における歩行者の運動の向きは後向きであり、それに対して撮像装置の進行方向に対する図9における歩行者の運動の向きは右向きである。
任意選択的な例において、本出願の実施例が提供する方法は、
取得された、撮像装置の進行方向に対する目標対象の運動の向きに基づいて、撮像装置が搭載されている物体(例えば、車両、飛行体、船舶又はロボット)を制御するための命令又は警報アラート情報を生成することを更に含み、例えば、増速命令、降速命令、急ブレーキ命令、ある方位に関する注意喚起アラート情報又は衝突回避警報アラート情報などが挙げられる。本出願は、撮像装置の進行方向に対する目標対象の運動の向きに基づいて命令又は警報アラート情報を生成するための具体的実現形態を限定しない。
図10は、本出願の実施例によるニューラルネットワーク訓練方法を示すフローチャートである。図10に示すように、該実施例の方法は、ステップS1000、ステップS1010及びステップS1020を含む。本出願におけるステップS1000、ステップS1010及びステップS1020は、以下を含む。
S1000において、目標対象を含むサンプル画像ブロックを取得する。
任意選択的な例において、該ステップS1000は、プロセッサにより、メモリに記憶されている対応する命令を呼出して実行されてもよいし、プロセッサにより実行される第2取得モジュール1300で実行されてもよい。
S1010において、訓練対象である第1ニューラルネットワークによって、サンプル画像ブロックに対して外見向きを検出し、サンプル画像ブロックにおける目標対象の外見向きを取得する。
任意選択的な例において、該ステップS1010は、プロセッサにより、メモリに記憶されている対応する命令を呼出して実行されてもよいし、プロセッサにより実行される第31取得モジュール1310で実行されてもよい。
S1020において、取得された目標対象の外見向きとサンプル画像ブロックの外見向きのアノテーション情報との差異をガイダンス情報として、訓練対象である第1ニューラルネットワークに対して、教師あり学習を行う。
任意選択的な例において、該ステップS1020は、プロセッサにより、メモリに記憶されている対応する命令を呼出して実行されてもよいし、プロセッサにより実行される教師あり学習モジュール1320で実行されてもよい。
任意選択的な例において、本出願は、訓練データ集合から画像サンプルを取得し、画像サンプルにおける目標対象を含むサンプル画像ブロックを取得することができる。例えば、本出願は、画像サンプルを、既に訓練された、目標対象の外接枠を検出するためのニューラルネットワークに提供し、該ニューラルネットワークから目標対象検出結果情報を出力する。本出願は、該検出結果情報に基づいて、画像サンプルにおける目標対象の外接枠(例えば、目標対象の外接枠の対角線に位置する2つの頂点の座標)を取得してから、上記取得した目標対象外接枠を利用して、画像に対して分割処理を行い、目標対象が含まれる画像ブロックを取得することができる。画像サンプルに複数の目標対象(例えば、歩行者)が含まれる場合、本出願は、目標対象の外接枠を検出するためのニューラルネットワークを利用して、複数の目標対象の外接枠を取得して、分割処理により、複数のサンプル画像ブロックを取得することができる。
任意選択的な例において、外見向きのアノテーション情報は、外見向きの角度区間のアノテーション情報又は外見向きの角度のアノテーション情報を含み、
訓練対象である第1ニューラルネットワークから出力される情報は、目標対象の外見向きの角度区間を表す情報、又は、目標対象の外見向きの角度を表す情報を含む。
本出願における訓練データ集合は、第1ニューラルネットワークを訓練するための複数の画像サンプルを含む。一般的には、各画像サンプルに、いずれも目標対象の外見向きのアノテーション情報が含まれる。例えば、各画像サンプルに、目標対象の外見向きの属する角度区間のアノテーション情報がいずれもラベル付けられている。また、例えば、各画像サンプルに、目標対象の外見向きの角度のアノテーション情報がいずれもラベル付けられている。上記目標対象の外見向きの属する角度区間のアノテーション情報は、目標対象の外見向きの所属角度区間の2つの角度境界値を含んでもよいし、目標対象の外見向きの所属角度区間に対応する識別子(例えば、1は、2つの角度区間を表し、2は、別の角度区間を表す)等を含んでもよい。
任意選択的な例において、本出願は、ランダム読み取りの方式又は画像サンプルのランキングに応じて順に読み取るという方式で、1つ又は複数の画像サンプルを訓練データ集合から一度に読み取ることができる。
任意選択的な例において、目標対象の外見向きの角度区間は、
真前方角度区間、左前方角度区間、真左方角度区間、左後方角度区間、真後方角度区間、右後方角度区間、真右方角度区間及び右前方角度区間のうちの少なくとも1つを含む。
画像サンプルにおける目標対象の外見向きは、一般的には、0度から360度という角度範囲内にある。本出願は、該角度範囲を複数の角度区間に分けることができる。例えば、上記方法の実施形態に記載の4つの角度区間又は8つの角度区間に分けることができる。具体的には、上記方法の実施例において記載したとおりであり、ここで、詳細な説明を省略する。
任意選択的な例において、本出願における訓練対象である第1ニューラルネットワークは、入力された各サンプル画像ブロックに対して、外見向きを検出し、外見向きの検出結果情報を出力する。例えば、第1ニューラルネットワークは、各サンプル画像ブロックに対して、目標対象の外見向きの所属角度区間を出力する。また、例えば、第1ニューラルネットワークは、各サンプル画像ブロックに対して、目標対象の外見向きの所属角度区間における1つの角度を出力する。
任意選択的な例において、訓練対象である第1ニューラルネットワークに対する訓練が所定の反復条件を満たした場合、今回の訓練過程が完了する。本出願における所定の反復条件は、訓練対象である第1ニューラルネットワークから出力される情報と画像サンプルの外見向きのアノテーション情報との差異が所定の差異要件を満たすことを含む。相違点が該所定の差異要件を満たした場合、訓練対象である第1ニューラルネットワークに対する今回の訓練に成功することになる。本出願における所定の反復条件は、該訓練対象である第1ニューラルネットワークを訓練し、用いられる画像サンプルの数が所定の数量要件を満たすことを含んでもよい。用いられる画像サンプルの数量が所定の数量要件を満たしており、相違点が所定の差異要件を満たさない場合、訓練対象である第1ニューラルネットワークに対する今回の訓練に成功していないことである。訓練に成功した第1ニューラルネットワークは、画像における目標対象の外見向きの予測に用いられる。
図11は、本出願の実施例による車両インテリジェント制御方法を示すフローチャートである。
図11に示すように、該実施例の方法は、ステップS1100、ステップS1110及びステップS1120を含む。本出願におけるステップS1100、ステップS1110及びステップS1120は以下を含む。
S1100において、撮像装置により撮像された画像における目標対象的外見向きを取得し、画像における目標対象と撮像装置との三次元空間における相対的位置関係を取得する。
任意選択的な例において、該ステップS1100は、プロセッサにより、メモリに記憶されている対応する命令を呼出して実行されてもよいし、プロセッサにより実行される第1取得モジュール1200で実行されてもよい。
S1110において、目標対象の外見向き及び上記相対的位置関係に基づいて、撮像装置の進行方向に対する目標対象の運動の向きを決定する。
任意選択的な例において、該ステップS1110は、プロセッサにより、メモリに記憶されている対応する命令を呼出して実行されてもよいし、プロセッサにより実行される向き決定モジュール1210で実行されてもよい。
S1120において、撮像装置の進行方向に対する目標対象の運動の向きに基づいて、撮像装置が搭載されている車両を制御するための命令又は警報アラート情報を生成する。
任意選択的な例において、該ステップS1120は、プロセッサにより、メモリに記憶されている対応する命令を呼出して実行されてもよいし、プロセッサにより実行されるインテリジェント制御モジュール1240で実行されてもよい。
任意選択的な例において、本出願におけるS1100の実現過程は、上記図1におけるステップS100に関する説明を参照されたい。本出願におけるS1110の実現過程は、上記図1におけるステップS110に関する説明を参照されたい。ここで詳細な説明を省略する。
任意選択的な例において、本出願は、上記取得した、撮像装置の進行方向に対する目標対象の運動の向きに基づいて、撮像装置が搭載されている車両を制御するための命令又は警報アラート情報を生成することができ、例えば、増速命令、降速命令、急ブレーキ命令、ある方位に関する注意喚起アラート情報又は衝突回避警報アラート情報などが挙げられる。本出願は、撮像装置の進行方向に対する目標対象の運動の向きに基づいて命令又は警報アラート情報を生成するための具体的実現形態を限定しない。
本出願の1つの適用シナリオは図6に示される。図6において、目標対象Bとしての歩行者Bは、横断歩道標示線の左(例えば、最左)から横断歩道標示線の右(例えば、最右)へ歩き、横断歩道標示線の片側に位置する車両に撮像装置が搭載されている。例えば、該撮像装置は、歩行者Bが横断歩道標示線の左(例えば、最左)から横断歩道標示線の右(例えば、最右)まで歩いた全過程のビデオフレームを撮像した。歩行者Bが横断歩道の左(例えば、最左)に位置する時に、本出願は、画像における該歩行者Bの外見向きが右前方であると識別することができ、計算により、歩行者Bの運動の向きが右向きであることを知ることができる。歩行者Bが横断歩道の中間位置に位置する時に、本出願は、画像における該歩行者Bの外見向きが真右方であると識別することができ、計算により、歩行者Bの運動の向きが右向きであることを知ることができる。歩行者Bが横断歩道の右(例えば、最右)に位置する時に、本出願は、画像における該歩行者Bの外見向きが右後方であると識別することができ、計算により、歩行者Bの運動の向きが右向きであることを知ることができる。これから分かるように、異なる画像における同一の歩行者の外見向きが変わったが、該目標対象と撮像装置との三次元空間における相対的位置関係が変わった場合、本出願は、異なる画像における異なる外見向きを有する同一の目標対象の、車両の進行方向に対する運動の向きが同じであると判定することができる。従って、本出願が提供する技術案は、画像に対する正確な解読に利し、車両の走行方向に対する歩行者などの目標対象の運動の向きを正確に把握するのに利し、車両を制御するための命令又は警報アラート情報を正確に生成するのに利し、更に車両走行の安全性の向上に利する。
本出願の1つの適用シナリオは、図8及び図9に示される。図8及び図9がいずれも車両における撮像装置により撮像されたビデオにおける1つのビデオフレームであるとする。本出願は、図8に示される画像における該歩行者の外見向きが右前方であると識別することができ、計算により、該歩行者の運動の向きが右後向きであることを知ることができる。本出願は、図9に示した画像における該歩行者の外見向きが右前方であると識別することができ、計算により、該歩行者の運動の向きが右向きであることを知ることができる。これから分かるように、異なる画像における異なる歩行者の外見向きが同じであるが、異なる歩行者と撮像装置との三次元空間における相対的位置関係が異なるため、本出願は、異なる画像における同じ外見向きを有する異なる歩行者の、車両の進行方向に対する運動の向きが異なると判定することができる。従って、本出願が提供する技術案は、画像に対する正確な解読に利し、車両の走行方向に対する歩行者などの目標対象の運動の向きを正確に把握するのに利し、車両を制御するための命令又は警報アラート情報を正確に生成するのに利し、更に車両走行の安全性の向上に利する。
当業者であればわかるように、上記各方法実施例の全て又は一部のステップの実現は、プログラム命令に関するハードウェアにより完成することができる。上述したプログラムは、コンピュータ可読記憶媒体に記憶されてもよい。該プログラムが実行される場合、上記方法実施例におけるステップを実行する。上述した記憶媒体は、ROM、RAM、磁気ディスク又は光ディスクのような、プログラムコードを記憶できる様々な媒体を含む。
図12は、本出願の実施例による目標対象の運動の向きを予測するための装置の構造を示す概略図である。図12に示すように、該実施例の装置は主に、第1取得モジュール1200と、向き決定モジュール1210とを備える。任意選択的な例において、該装置は、画像ブロック生成モジュール1220と、ニューラルネットワーク訓練装置1230及びインテリジェント制御モジュール1240のうちの少なくとも1つを備えてもよい。
第1取得モジュール1200は主に、撮像装置により撮像された画像における目標対象の外見向きを取得し、画像における目標対象と撮像装置との三次元空間における相対的位置関係を取得するように構成される。例えば、第1取得モジュール1200は、画像における目標対象が含まれる画像ブロックを、第1ニューラルネットワークに提供して外見向きの検出を行い、画像における目標対象の外見向きを取得する。
向き決定モジュール1210は主に、目標対象の外見向き及び相対的位置関係に基づいて、撮像装置の進行方向に対する目標対象の運動の向きを決定するように構成される。
画像ブロック生成モジュール1220は主に、画像を、目標対象の外接枠を検出するための第2ニューラルネットワークに提供し、画像における目標対象の外接枠を取得し、取得された目標対象の外接枠に基づいて、画像に対して分割処理を行い、目標対象が含まれる画像ブロックを取得するように構成される。
ニューラルネットワーク訓練装置1230は主に、目標対象の外見向きのアノテーション情報を含む訓練画像集合を利用して、訓練対象である第1ニューラルネットワークを訓練するように構成される。
インテリジェント制御モジュール1240は主に、撮像装置の進行方向に対する目標対象の運動の向きに基づいて、前記撮像装置が搭載されている物体を制御するための命令又は警報アラート情報を生成するように構成され、ここで、物体は、車両、飛行体、船舶又はロボット等であってもよい。
任意選択的な例において、本出願における撮像装置は、物体に設けられた撮像装置を含んでもよく、撮像装置の進行方向は、物体の進行方向である。該物体は、車両、飛行体、船舶又はロボットを含んでもよい。本出願における画像は、フレームの抽出で、撮像装置により撮像されたビデオから抽出されたビデオフレームを含んでもよい。本出願における目標対象は、歩行者、動物、軽車両又は障害物等を含んでもよい。
任意選択的な例において、本出願における第1取得モジュールは、第1サブモジュール、第2サブモジュール及び第3サブモジュール(図示されず)を備えてもよい。
上記第1サブモジュールは主に、射影変換行列に基づいて、画像における目標対象の位置を三次元空間における目標対象の位置に変換するように構成される。
上記第2サブモジュールは主に、三次元空間における撮像装置の位置を決定するように構成される。例えば、第2サブモジュールは、射影変換行列に基づいて、画像における第1線に位置する第1点及び第2点、画像における第2線に位置する第3点及び第4点をそれぞれ三次元空間内に変換する。第2サブモジュールは、三次元空間における第1点及び第2点で形成される線と、三次元空間における第3点及び第4点で形成される線との交差点を三次元空間における撮像装置の位置として用いる。ここで、画像における第1線と第2線は互いに平行し、且つそれぞれ水平方向に垂直する。本出願における射影変換行列は、撮像装置を予めキャリブレーションして形成される射影変換行列を含んでもよい。本出願における射影変換行列は、画像における複数の特徴点の画像における座標に基づいて、ホモグラフィ行列関数を解いて取得される射影変換行列を含んでもよい。本出願における特徴点は、道路区画線における点を含んでもよい。
上記第3サブモジュールは主に、三次元空間に位置する目標対象と撮像装置の位置を連結し、該位置の連結線と撮像装置の運動の向きの法線との夾角を決定するように構成される。
任意選択的な例において、本出願における第1ニューラルネットワーク訓練装置1230は主に、第2取得モジュール1300、第3取得モジュール1310及び教師あり学習モジュール1320を備える。
第2取得モジュール1300は主に、目標対象を含むサンプル画像ブロックを取得するように構成される。
第3取得モジュール1310は主に、訓練対象である第1ニューラルネットワークによって、サンプル画像ブロックに対して外見向きを検出し、サンプル画像ブロックにおける目標対象の外見向きを取得するように構成される。
教師あり学習モジュール1320は主に、取得された目標対象の外見向きとサンプル画像ブロックの外見向きのアノテーション情報との差異をガイダンス情報として、訓練対象である第1ニューラルネットワークに対して、教師あり学習を行うように構成される。
任意選択的な例において、本出願における外見向きのアノテーション情報は、外見向きの所属角度区間のアノテーション情報を含んでもよい。又は、外見向きのアノテーション情報は、外見向きの角度のアノテーション情報を含んでもよい。訓練対象である第1ニューラルネットワークから出力される情報は、目標対象の外見向きの所属角度区間を表す情報を含んでもよい。又は、訓練対象である第1ニューラルネットワークから出力される情報は、目標対象の外見向きの角度を表す情報を含んでもよい。
任意選択的な例において、本出願における角度区間は、真前方角度区間、左前方角度区間、真左方角度区間、左後方角度区間、真後方角度区間、右後方角度区間、真右方角度区間及び右前方角度区間のうちの少なくとも1つを含む。例えば、本出願における角度区間は、真前方角度区間、真左方角度区間、真後方角度区間及び真右方角度区間を含む。また例えば、本出願における角度区間は、真前方角度区間、左前方角度区間、真左方角度区間、左後方角度区間、真後方角度区間、右後方角度区間、真右方角度区間及び右前方角度区間を含む。
任意選択的な例において、第1ニューラルネットワークから出力された目標対象の外見向きの所属角度区間におけるいずれか1つの角度は、目標対象の外見向きとして用いられる。
任意選択的な例において、第1ニューラルネットワークから出力された目標対象の外見向きの所属角度区間の中心角度は、目標対象の外見向きとして用いられる。
任意選択的な例において、本出願における画像における目標対象と撮像装置との三次元空間における相対的位置関係は、三次元空間における撮像装置に対する三次元空間における目標対象の方位を含む。
任意選択的な例において、本出願における三次元空間における撮像装置に対する三次元空間における目標対象の方位は、三次元空間における目標対象の位置と三次元空間における撮像装置の位置との連結線と、撮像装置の運動の向きの法線との、夾角を含む。
第1取得モジュール1200及び向き決定モジュール1210により実行される操作及びそれにより実現できる技術的効果は、上記方法の実施例形態における図1に示したステップS100及びステップS110に関する説明を参照されたい。ここで、詳細な説明を省略する。
図13は、本出願の実施例によるニューラルネットワーク訓練装置の構造を示す概略図である。図13に示すように、該実施例の装置は主に、第2取得モジュール1300、第3取得モジュール1310及び教師あり学習モジュール1320を備える。
第2取得モジュール1300は主に目標対象を含むサンプル画像ブロックを取得するように構成される。
第3取得モジュール1310は主に、訓練対象である第1ニューラルネットワークによって、サンプル画像ブロックに対して外見向きを検出し、サンプル画像ブロックにおける目標対象の外見向きを取得するように構成される。
教師あり学習モジュール1320は主に、取得された目標対象の外見向きとサンプル画像ブロックの外見向きのアノテーション情報との差異をガイダンス情報として、訓練対象である第1ニューラルネットワークに対して教師あり学習を行うように構成される。
任意選択的な例において、本出願における外見向きのアノテーション情報は、外見向きの所属角度区間のアノテーション情報を含んでもよい。又は、外見向きのアノテーション情報は、外見向きの角度のアノテーション情報を含んでもよい。訓練対象である第1ニューラルネットワークから出力される情報は、目標対象の外見向きの所属角度区間を表す情報を含んでもよい。又は、訓練対象である第1ニューラルネットワークから出力される情報は、目標対象の外見向きの角度を表す情報を含んでもよい。
任意選択的な例において、本出願における角度区間は、真前方角度区間、左前方角度区間、真左方角度区間、左後方角度区間、真後方角度区間、右後方角度区間、真右方角度区間及び右前方角度区間のうちの少なくとも1つを含む。例えば、本出願における角度区間は、真前方角度区間、真左方角度区間、真後方角度区間及び真右方角度区間を含む。また例えば、本出願における角度区間は、真前方角度区間、左前方角度区間、真左方角度区間、左後方角度区間、真後方角度区間、右後方角度区間、真右方角度区間及び右前方角度区間を含む。
第2取得モジュール1300、第3取得モジュール1310及び教師あり学習モジュール1320により実行される操作及びそれにより実現できる技術的効果は、上記方法の実施例形態における図10に示したステップS1000、S1010及びS1020に関する説明を参照されたい。ここで、詳細な説明を省略する。
図14は、本出願の実施例による車両インテリジェント制御装置の構造を示す概略図である。図14に示した装置は主に、第1取得モジュール1200、向き決定モジュール1210及びインテリジェント制御モジュール1240を備える。任意選択的な例において、該装置は、画像ブロック生成モジュール1220を更に備えてもよい。
第1取得モジュール1200は主に、撮像装置により撮像された画像における目標対象の外見向きを取得し、画像における目標対象と撮像装置との三次元空間における相対的位置関係を取得するように構成される。例えば、第1取得モジュール1200は、画像における目標対象が含まれる画像ブロックを、第1ニューラルネットワークに提供して外見向きの検出を行い、画像における目標対象の外見向きを取得する。
向き決定モジュール1210は主に、目標対象の外見向き及び相対的位置関係に基づいて、撮像装置の進行方向に対する目標対象の運動の向きを決定するように構成される。
画像ブロック生成モジュール1220は主に、画像を、目標対象の外接枠を検出するための第2ニューラルネットワークに提供し、画像における目標対象の外接枠を取得し、取得された目標対象の外接枠に基づいて、画像に対して分割処理を行い、目標対象が含まれる画像ブロックを取得するように構成される。
インテリジェント制御モジュール1240は主に、撮像装置の進行方向に対する目標対象の運動の向きに基づいて、撮像装置が搭載されている物体を制御するための命令又は警報アラート情報を生成するように構成され、ここで、物体は、車両、飛行体、船舶又はロボット等であってもよい。
第1取得モジュール1200、向き決定モジュール1210、画像ブロック生成モジュール1220及びインテリジェント制御モジュール1240により実行される操作及びそれにより実現できる技術的効果は、上記方法の実施例形態における図1及び図11に関する説明を参照されたい。ここで、詳細な説明を省略する。
図15は、本出願を実現させるための例示的な装置1500を示す。装置1500は、車両に配置された制御システム/電子システム、携帯端末(例えばスマートフォン等)、パーソナルコンピュータ(例えば、デスクトップコンピュータ又はノートパソコンなどのようなPC)、タブレット及びサーバ等であってもよい。図15において、装置1500は、1つあんたは複数のプロセッサ、通信部等を含む。前記1つ又は複数のプロセッサは、1つ又は複数の中央演算処理ユニット(CPU)1501、及び/又は、ニューラルネットワークを利用して目標対象の運動の向きを予測するための画像処理装置(GPU)1513等であってもよい。プロセッサは、読み出し専用メモリ(ROM)1502に記憶されている実行可能な命令又は記憶部1508からランダムアクセスメモリ(RAM)1503にロードされた実行可能な命令に基づいて、様々な適切な動作及び処理を実行することができる。通信部1512は、ネットワークカードを含んでもよいが、これに限定されない。前記ネットワークカードは、IB(Infiniband)ネットワークカードを含んでもよいが、これに限定されない。プロセッサは、読み出し専用メモリ1502及び/又はランダムアクセスメモリ1530と通信して、実行可能な命令を実行し、バス1504を介して通信部1512に接続され、通信部1512を経由して他のターゲット装置と通信することで、本出願における対応するステップを完了する。
上記各命令により実行される操作は、上記方法実施例における関連説明を参照されたい。ここで詳細な説明を省略する。なお、RAM 1503に、装置の操作に必要な様々なプログラム及びデータが記憶されてもよい。CPU1501、ROM1502及びRAM1503は、バス1504を介して相互接続される。RAM1503が存在する場合、ROM1502は、任意選択的なモジュールである。RAM1503に実行可能な命令が記憶されている。又は、実行中に、ROM1502に実行可能な命令を書き込む。実行可能な命令は、中央演算処理ユニット1501に上記の方法に含まれるステップを実行させる。1入力/出力(I/O)インタフェース1505もバス1504に接続される。通信部1512は、一体的に設けられてもよいし、それぞれバスに接続される複数のサブモジュール(例えば、複数のIBネットワークカード)を有するものとして設けられてもよい。
キーボード、マウスなどを含む入力部1506、陰極線管(CRT)、液晶ディスプレイ(LCD)及びスピーカー等を含む出力部1507、ハードディスク等を含む記憶部1508、及びLANカード、モデム等のようなネットワークインタフェースカードを含む通信部1509は、I/Oインタフェース1505に接続される。通信部1509は、インターネットのようなネットワークを経由して通信処理を実行する。ドライブ1510も必要に応じてI/Oインタフェース1505に接続される。磁気ディスク、光ディスク、磁気光ディスク、半導体メモリ等のようなリムーバブル媒体1511は、必要に応じてドライブ1510に取り付けられ、それから読み出されたコンピュータプログラムを必要に応じて記憶部1508にインストールするようになる。
図15に示したアーキテクチャは、任意選択的な実現形態に過ぎず、実践過程において、実際の需要に応じて、上記図15に示した部材の数及びタイプを選択、削除、増加、置き換えることができることに特に留意されたい。異なる機能部材を設ける場合、分散型配置又は集積型配置などのような実現形態を用いてもよい。例えば、GPUとCPUを離して設けてもよい。また、例えば、GPUをCPUに集積してもよい。通信部は、離間するように設けられてもよいし、CPU又はGPUに集積して設けられてもよい。これらの置き換え可能な実施形態は、いずれも本出願の保護範囲内に含まれる。
特に、本出願の実施形態によれば、フローチャートを参照しながら記載された下記プロセスは、コンピュータのソフトウェアプログラムとして実現されてもよい。例えば、本出願の実施形態は、機械可読媒体上に有体に具現されたコンピュータプログラムを含むコンピュータプログラム製品を含む。コンピュータプログラムは、フローチャートに示したステップを実行するためのプログラムコードを含む。プログラムコードは、本出願が提供する方法のステップを実行するための命令を含んでもよい。
このような実施形態において、該コンピュータプログラムは、通信部1509により、ネットワークからダウンロードされてインストールされか、及び/又はリムーバブル媒体1511からインストールされる。該コンピュータプログラムが中央演算処理ユニット(CPU)1501により実行される場合、本出願に記載の、上記対応するステップを実現させるするための命令を実行する。
1つ又は複数の任意選択的な実施形態において、本出願の実施例は、コンピュータ可読命令を記憶するためのコンピュータプログラム製品を更に提供する。前記命令が実行される場合、コンピュータに上記任意の実施例に記載の目標対象の運動の向きを予測するための方法、ニューラルネットワーク訓練方法又は車両インテリジェント制御方法を実行させる。
該コンピュータプログラム製品は、具体的には、ハードウェア、ソフトウェアまたはその組み合わせにより実現されてもよい。任意選択的な一例において、前記コンピュータプログラム製品は具体的には、コンピュータ記憶媒体として体現される。別の任意選択的な例において、前記コンピュータプログラム製品は、具体的には、ソフトウェア開発キット(Software Development Kit:SDK)等のようなソフトウェア製品として体現される。
1つ又は複数の任意選択的な実施形態において、本出願の実施例は、目標対象の運動の向きを予測するための方法、ニューラルネットワーク訓練方法及び車両インテリジェント制御方法並びにそれに対応する装置及び電子機器、コンピュータ記憶媒体、コンピュータプログラム及びコンピュータプログラム製品を更に提供する。ここで、前記方法は、第1装置が、目標対象の運動の向きを予測するための指示、ニューラルネットワーク訓練指示又は車両インテリジェント制御指示を第2装置に送信し、該指示によれば、第2装置に、上記いずれか1つの実施例における目標対象の運動の向きを予測するための方法、ニューラルネットワーク訓練方法又は車両インテリジェント制御方法を実行させることと、第1装置が、第2装置からの、目標対象の運動の向きの予測結果、ニューラルネットワーク訓練結果又は車両インテリジェント制御結果を受信することとを含む。
幾つかの実施例において、目標対象の運動の向きを予測するための指示、ニューラルネットワーク訓練指示又は車両インテリジェント制御指示は、呼出命令を含んでもよい。第1装置は、呼出の方式により、目標対象の運動の向きを予測するための操作、ニューラルネットワーク訓練の操作又は車両インテリジェント制御の操作を実行するように第2装置に指示することができる。なお、呼び出された命令を受信したことに応答して、第2装置は、上記目標対象の運動の向きを予測するための方法、ニューラルネットワーク訓練方法又は車両インテリジェント制御方法におけるいずれか1つの実施例におけるステップ及び/又はフローを実行することができる。
本出願の実施例における「第1」、「第2」等の用語は、区別するためのものに過ぎず、本出願の実施例を限定するものと解釈されるわけではないことが理解されるべきである。また、本出願において、「複数」とは、2つ又は2つ以上を意味してもよく、「少なくとも1つ」とは、1つ、2つ又は2つ以上を意味してもよいことも理解されるべきである。本出願に記載されているいずれか1つのモジュール、データ又は構造について、明確に限定されないか又は文脈では反対となるものが示唆された場合、一般的には、1つ又は複数と解釈されることも理解されるべきである。また、本出願において、各実施例を説明する場合、各実施例の相違点に重点が置かれており、その同じ又は類似した部分は互いに参照することができる。簡潔化を図るために、詳細な説明を省略する。
本明細書における各実施例は漸進的方式で説明され、各実施例が重点的に説明したのは、その他の実施例との相違点であり、各実施例の同じ又は類似した部分は互いに参照することができる。システムの実施例は、基本的に方法の実施例と類似するので、説明が比較的に簡単であり、関連する部分は方法の実施例の一部の説明を参考すればよい。
本出願の方法及び装置を多くの態様で実行できる。例えば、本出願の方法及び装置をソフトウェア、ハードウェア、ファームウェア又はソフトウェア、ハードウェア、ファームウェアの任意の組み合わせにより実行することができる。前記方法のステップに用いられる上記順番は説明のためのものに過ぎず、本出願の方法のステップは、他の方式で特に説明すること以外、上記具体的に記載した順番に限定されない。なお、幾つかの実施例において、本出願を記録媒体に記録されているプログラムとして実行することもできる。これらのプログラムは、本出願の方法を実現させるための機械可読命令を含む。従って、本出願は、本出願の方法を実行するためのプログラムを記憶するための記録媒体を更に含む。
本出願の記載は、例示および説明のためのものであり、網羅的もしくは本出願を開示された形態に限定するように意図されていない。多くの修正及び変化は当業者には明らかであろう。実施例の選択及び説明は、本出願の原理及び実際の適用をより好適に説明するためのものであり、また当業者が本出願を理解して特定の用途向けの様々な修正を含む様々な実施例を設計するようになる。

Claims (45)

  1. 目標対象の運動の向きを予測するための方法であって、
    撮像装置により撮像された画像における目標対象の外見向きを取得し、前記画像における目標対象と前記撮像装置との三次元空間における相対的位置関係を取得することと、
    前記目標対象の外見向き及び前記相対的位置関係に基づいて、前記撮像装置の進行方向に対する前記目標対象の運動の向きを決定することと、を含むことを特徴とする、目標対象の運動の向きを予測するための方法。
  2. 前記撮像装置は、物体に搭載されている撮像装置を含み、前記撮像装置の進行方向は、物体の進行方向であり、前記物体は、車両、飛行体、船舶又はロボットを含むことを特徴とする、
    請求項1に記載の方法。
  3. 前記画像は、フレームの抽出で、前記撮像装置により撮像されたビデオから抽出されたビデオフレームを含むことを特徴とする、
    請求項1から2のいずれか一項に記載の方法。
  4. 前記目標対象は、歩行者、動物、軽車両又は障害物を含むことを特徴とする、
    請求項1から3のいずれか一項に記載の方法。
  5. 撮像装置により撮像された画像における目標対象の外見向きを取得することは、
    前記画像における前記目標対象が含まれる画像ブロックを、第1ニューラルネットワークに提供して外見向きの検出を行い、前記画像における目標対象の外見向きを取得することを含むことを特徴とする、
    請求項1から4のいずれか一項に記載の方法。
  6. 前記画像ブロックの生成方式は、
    前記画像を、目標対象の外接枠を検出するための第2ニューラルネットワークに提供し、前記画像における目標対象の外接枠を取得することと、
    前記取得された目標対象の外接枠に基づいて、前記画像に対して分割処理を行い、前記目標対象が含まれる画像ブロックを取得することと、を含むことを特徴とする、
    請求項5に記載の方法。
  7. 前記第1ニューラルネットワークは、訓練画像集合によって予め訓練されたものであり、前記訓練画像集合に目標対象の外見向きのアノテーション情報が含まれることを特徴とする、
    請求項5から6のいずれか一項に記載の方法。
  8. 前記第1ニューラルネットワークの訓練過程は、
    目標対象を含むサンプル画像ブロックを取得することと、
    訓練対象である第1ニューラルネットワークによって、前記サンプル画像ブロックに対して外見向きを検出し、前記サンプル画像ブロックにおける目標対象の外見向きを取得することと、
    前記取得された目標対象の外見向きとサンプル画像ブロックの外見向きのアノテーション情報との差異をガイダンス情報として、前記訓練対象である第1ニューラルネットワークに対して教師あり学習を行うこととを含むことを特徴とする、
    請求項7に記載の方法。
  9. 前記外見向きのアノテーション情報は、外見向きの所属角度区間のアノテーション情報又は外見向きの角度のアノテーション情報を含み、
    前記訓練対象である第1ニューラルネットワークから出力される情報は、目標対象の外見向きの所属角度区間を表す情報、又は、目標対象の外見向きの角度を表す情報を含むことを特徴とする、
    請求項7から8のいずれか一項に記載の方法。
  10. 前記角度区間は、
    真前方角度区間、左前方角度区間、真左方角度区間、左後方角度区間、真後方角度区間、右後方角度区間、真右方角度区間及び右前方角度区間のうちの少なくとも1つを含むことを特徴とする、
    請求項9に記載の方法。
  11. 前記第1ニューラルネットワークから出力された目標対象の外見向きの所属角度区間におけるいずれか1つの角度は、目標対象の外見向きとして用いられるか、又は、
    前記第1ニューラルネットワークから出力された目標対象の外見向きの所属角度区間の中心角度は、目標対象の外見向きとして用いられることを特徴とする、
    請求項5から10のいずれか一項に記載の方法。
  12. 前記画像における目標対象と前記撮像装置との三次元空間における相対的位置関係を取得することは、
    射影変換行列に基づいて、画像における前記目標対象の位置を三次元空間における前記目標対象の位置に変換することと、
    三次元空間における前記撮像装置の位置を決定することと、
    前記三次元空間に位置する目標対象と撮像装置の位置を連結し、前記位置の連結線と前記撮像装置の運動の向きの法線との夾角を決定することとを含むことを特徴とする、
    請求項1から11のいずれか一項に記載の方法。。
  13. 前記三次元空間における前記撮像装置の位置を決定することは、
    前記射影変換行列に基づいて、前記画像における第1線に位置する第1点及び第2点、前記画像における第2線に位置する第3点及び第4点をそれぞれ前記三次元空間内に変換することと、
    前記三次元空間における第1点及び第2点で形成される線と、前記三次元空間における第3点及び第4点で形成される線との交差点を前記三次元空間における前記撮像装置の位置として用いることとを含み、
    ここで、前記画像における第1線と第2線は相互平行し、かつそれぞれ水平方向に垂直することを特徴とする、
    請求項12に記載の方法。
  14. 前記射影変換行列は、撮像装置を予めキャリブレーションして形成される射影変換行列を含むか、又は、
    前記射影変換行列は、前記画像における複数の特徴点の画像における座標に基づいて、ホモグラフィ行列関数を解いて取得される射影変換行列を含むことを特徴とする、
    請求項12又は13に記載の方法。
  15. 前記特徴点は、道路区画線における点を含むことを特徴とする、
    請求項14に記載の方法。
  16. 前記目標対象の外見向き及び前記相対的位置関係に基づいて、前記撮像装置の進行方向に対する前記目標対象の運動の向きを決定することは、
    前記目標対象の外見向き、及び三次元空間における撮像装置に対する前記目標対象の方位に基づいて、前記撮像装置の進行方向に対する前記目標対象の運動の向きを決定することを含むことを特徴とする、
    請求項12から15のいずれか一項に記載の方法。
  17. 前記方法は、
    前記撮像装置の進行方向に対する前記目標対象の運動の向きに基づいて、前記撮像装置が搭載されている物体を制御するための命令又は警報アラート情報を生成することを更に含み、前記物体は、車両、飛行体、船舶又はロボットを含むことを特徴とする、
    請求項1から16のいずれか一項に記載の方法。
  18. ニューラルネットワーク訓練方法であって、
    人体が含まれるサンプル画像ブロックの画像特徴を取得することと、
    訓練対象である第1ニューラルネットワークによって、前記画像特徴に基づいて、前記人体の人体輪郭キーポイント予測結果を取得することと、
    前記人体輪郭キーポイント予測結果と人体輪郭キーポイントアノテーション情報との差異をガイダンス情報として、前記訓練対象である第1ニューラルネットワークに対して教師あり学習を行うこととを含むことを特徴とする、ニューラルネットワーク訓練方法。
  19. 前記外見向きのアノテーション情報は、外見向きの角度区間のアノテーション情報又は外見向きの角度のアノテーション情報を含み、
    前記訓練対象である第1ニューラルネットワークから出力される情報は、目標対象の外見向きの角度区間を表す情報、又は、目標対象の外見向きの角度を表す情報を含むことを特徴とする、
    請求項18に記載の方法。
  20. 前記角度区間は、
    真前方角度区間、左前方角度区間、真左方角度区間、左後方角度区間、真後方角度区間、右後方角度区間、真右方角度区間及び右前方角度区間のうちの少なくとも1つを含むことを特徴とする、
    請求項19に記載の方法。
  21. 車両インテリジェント制御方法であって、
    撮像装置により撮像された画像における目標対象の外見向きを取得し、前記画像における目標対象と前記撮像装置との三次元空間における相対的位置関係を取得することと、
    前記目標対象の外見向き及び前記相対的位置関係に基づいて、前記撮像装置の進行方向に対する前記目標対象の運動の向きを決定することと、
    前記撮像装置の進行方向に対する前記目標対象の運動の向きに基づいて、前記撮像装置が搭載されている車両を制御するための命令又は警報アラート情報を生成することと、を含むことを特徴とする、車両インテリジェント制御方法。
  22. 目標対象の運動の向きを予測するための装置であって、
    撮像装置により撮像された画像における目標対象の外見向きを取得し、前記画像における目標対象と前記撮像装置との三次元空間における相対的位置関係を取得するように構成される第1取得モジュールと、
    前記目標対象の外見向き及び前記相対的位置関係に基づいて、前記撮像装置の進行方向に対する前記目標対象の運動の向きを決定するように構成される向き決定モジュールと、を備えることを特徴とする、目標対象の運動の向きを予測するための装置。
  23. 前記撮像装置は、物体に搭載されている撮像装置を含み、前記撮像装置の進行方向は、物体の進行方向であり、前記物体は、車両、飛行体、船舶又はロボットを含むことを特徴とする、
    請求項22に記載の装置。
  24. 前記画像は、フレームの抽出で、前記撮像装置により撮像されたビデオから抽出されたビデオフレームを含むことを特徴とする、
    請求項22又は23に記載の装置。
  25. 前記目標対象は、歩行者、動物、軽車両又は障害物を含むことを特徴とする、
    請求項22から24のいずれか一項に記載の装置。
  26. 前記第1取得モジュールは更に、前記画像における前記目標対象が含まれる画像ブロックを、第1ニューラルネットワークに提供して外見向きの検出を行い、前記画像における目標対象の外見向きを取得するように構成されることを特徴とする、
    請求項22から25のいずれか一項に記載の装置。
  27. 前記装置は、
    前記画像を、目標対象の外接枠を検出するための第2ニューラルネットワークに提供し、前記画像における目標対象の外接枠を取得し、
    前記取得された目標対象の外接枠に基づいて、前記画像に対して分割処理を行い、前記目標対象が含まれる画像ブロックを取得するように構成される画像ブロック生成モジュールを更に備えることを特徴とする、
    請求項26に記載の装置。
  28. 前記第1ニューラルネットワークは、ニューラルネットワーク訓練装置が訓練画像集合によって予め訓練したものであり、前記訓練画像集合に目標対象の外見向きのアノテーション情報が含まれることを特徴とする、
    請求項26から27のいずれか一項に記載の装置。
  29. 前記第1ニューラルネットワーク訓練装置は、
    目標対象を含むサンプル画像ブロックを取得するように構成される第2取得モジュールと、
    訓練対象である第1ニューラルネットワークによって、前記サンプル画像ブロックに対して外見向きを検出し、前記サンプル画像ブロックにおける目標対象の外見向きを取得するように構成される第3取得モジュールと、
    前記取得された目標対象の外見向きとサンプル画像ブロックの外見向きのアノテーション情報との差異をガイダンス情報として、前記訓練対象である第1ニューラルネットワークに対して教師あり学習を行うように構成される教師あり学習モジュールとを備えることを特徴とする、
    請求項28に記載の装置。
  30. 前記外見向きのアノテーション情報は、外見向きの所属角度区間のアノテーション情報又は外見向きの角度のアノテーション情報を含み、
    前記訓練対象である第1ニューラルネットワークから出力される情報は、目標対象の外見向きの所属角度区間を表す情報、又は、目標対象の外見向きの角度を表す情報を含むことを特徴とする、
    請求項28又は29に記載の装置。
  31. 前記角度区間は、
    真前方角度区間、左前方角度区間、真左方角度区間、左後方角度区間、真後方角度区間、右後方角度区間、真右方角度区間及び右前方角度区間のうちの少なくとも1つを含むことを特徴とする、
    請求項30に記載の装置。
  32. 前記第1ニューラルネットワークから出力された目標対象の外見向きの所属角度区間におけるいずれか1つの角度は、目標対象の外見向きとして用いられるか、又は、
    前記第1ニューラルネットワークから出力された目標対象の外見向きの所属角度区間の中心角度は、目標対象の外見向きとして用いられることを特徴とする、
    請求項27から31のいずれか一項に記載の装置。
  33. 前記第1取得モジュールは、
    射影変換行列に基づいて、画像における前記目標対象の位置を三次元空間における前記目標対象の位置に変換するように構成される第1サブモジュールと、
    三次元空間における前記撮像装置の位置を決定するように構成される第2サブモジュールと、
    前記三次元空間に位置する目標対象と撮像装置の位置を連結し、前記位置の連結線と前記撮像装置の運動の向きの法線との夾角を決定するように構成される第3サブモジュールとを備えることを特徴とする、
    請求項21から32のいずれか一項に記載の装置。。
  34. 前記第2サブモジュールは更に、
    前記射影変換行列に基づいて、前記画像における第1線に位置する第1点及び第2点、前記画像における第2線に位置する第3点及び第4点をそれぞれ前記三次元空間内に変換し、
    前記三次元空間における第1点及び第2点で形成される線と、前記三次元空間における第3点及び第4点で形成される線との交差点を前記三次元空間における前記撮像装置の位置として用いるように構成され、
    ここで、前記画像における第1線と第2線は相互平行し、かつそれぞれ水平方向に垂直することを特徴とする、
    請求項33に記載の装置。
  35. 前記射影変換行列は、撮像装置を予めキャリブレーションして形成される射影変換行列を含むか、又は、
    前記射影変換行列は、前記画像における複数の特徴点の画像における座標に基づいて、ホモグラフィ行列関数を解いて取得される射影変換行列を含むことを特徴とする、
    請求項32又は33に記載の装置。
  36. 前記特徴点は、道路区画線における点を含むことを特徴とする、
    請求項35に記載の装置。
  37. 前記向き決定モジュールは、前記目標対象の外見向き、及び三次元空間における撮像装置に対する前記目標対象の方位に基づいて、前記撮像装置の進行方向に対する前記目標対象の運動の向きを決定するように構成されることを特徴とする、
    請求項33から36のいずれか一項に記載の装置。
  38. 前記装置は、
    前記撮像装置の進行方向に対する前記目標対象の運動の向きに基づいて、前記撮像装置が搭載されている物体を制御するための命令又は警報アラート情報を生成するように構成されるインテリジェント制御モジュールを更に備え、前記物体は、車両、飛行体、船舶又はロボットを含むことを特徴とする、
    請求項22から37のいずれか一項に記載の装置。
  39. ニューラルネットワーク訓練装置であって、
    目標対象を含むサンプル画像ブロックを取得するように構成される第2取得モジュールと、
    訓練対象である第1ニューラルネットワークによって、前記サンプル画像ブロックに対して外見向きを検出し、前記サンプル画像ブロックにおける目標対象の外見向きを取得するように構成される第3取得モジュールと、
    前記取得された目標対象の外見向きとサンプル画像ブロックの外見向きのアノテーション情報との差異をガイダンス情報として、前記訓練対象である第1ニューラルネットワークに対して、教師あり学習を行うように構成される教師あり学習モジュールとを備えることを特徴とする、ニューラルネットワーク訓練装置。
  40. 前記外見向きのアノテーション情報は、外見向きの所属角度区間のアノテーション情報又は外見向きの角度のアノテーション情報を含み、
    前記訓練対象である第1ニューラルネットワークから出力される情報は、目標対象の外見向きの所属角度区間を表す情報、又は、目標対象の外見向きの角度を表す情報を含むことを特徴とする、
    請求項39に記載の装置。
  41. 前記角度区間は、
    真前方角度区間、左前方角度区間、真左方角度区間、左後方角度区間、真後方角度区間、右後方角度区間、真右方角度区間及び右前方角度区間のうちの少なくとも1つを含むことを特徴とする、
    請求項40に記載の装置。
  42. 車両インテリジェント制御装置であって、
    撮像装置により撮像された画像における目標対象の外見向きを取得し、前記画像における目標対象と前記撮像装置との三次元空間における相対的位置関係を取得するように構成される第1取得モジュールと、
    前記目標対象の外見向き及び前記相対的位置関係に基づいて、前記撮像装置の進行方向に対する前記目標対象の運動の向きを決定するように構成される向き決定モジュールと、
    前記撮像装置の進行方向に対する前記目標対象の運動の向きに基づいて、前記撮像装置が搭載されている車両を制御するための命令又は警報アラート情報を生成するように構成されるインテリジェント制御モジュールと、を備えることを特徴とする、車両インテリジェント制御装置。
  43. 電子機器であって、
    コンピュータプログラムを記憶するように構成されるメモリと、
    前記メモリに記憶されているコンピュータプログラムを実行し、前記コンピュータプログラムが実行される場合、請求項1から21のいずれか一項に記載の方法を実現するように構成されるプロセッサと備える、電子機器。
  44. コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、該コンピュータプログラムがプロセッサにより実行される場合、請求項1から21のいずれか一項に記載の方法を実現する、コンピュータ可読記憶媒体。
  45. コンピュータコマンドを含むコンピュータプログラムであって、前記コンピュータコマンドが装置のプロセッサにおいて実行される場合、請求項1から21のいずれか一項に記載の方法を実現する、コンピュータプログラム。
JP2020550616A 2018-03-23 2019-03-20 目標対象の運動の向きを予測するための方法、車両制御方法及び装置 Active JP7101255B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810247961.0 2018-03-23
CN201810247961.0A CN108416321A (zh) 2018-03-23 2018-03-23 用于预测目标对象运动朝向的方法、车辆控制方法及装置
PCT/CN2019/078886 WO2019179464A1 (zh) 2018-03-23 2019-03-20 用于预测目标对象运动朝向的方法、车辆控制方法及装置

Publications (2)

Publication Number Publication Date
JP2021516817A true JP2021516817A (ja) 2021-07-08
JP7101255B2 JP7101255B2 (ja) 2022-07-14

Family

ID=63133339

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020550616A Active JP7101255B2 (ja) 2018-03-23 2019-03-20 目標対象の運動の向きを予測するための方法、車両制御方法及び装置

Country Status (4)

Country Link
US (1) US11710243B2 (ja)
JP (1) JP7101255B2 (ja)
CN (1) CN108416321A (ja)
WO (1) WO2019179464A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
CN108416321A (zh) 2018-03-23 2018-08-17 北京市商汤科技开发有限公司 用于预测目标对象运动朝向的方法、车辆控制方法及装置
CN111079477A (zh) * 2018-10-19 2020-04-28 北京奇虎科技有限公司 监控分析方法及监控分析系统
CN111079473B (zh) * 2018-10-19 2024-08-02 北京奇虎科技有限公司 性别识别方法、装置、电子设备及计算机可读存储介质
CN111292350B (zh) * 2018-12-10 2024-03-01 北京京东乾石科技有限公司 目标朝向的优化算法、系统、电子设备及存储介质
US11782158B2 (en) * 2018-12-21 2023-10-10 Waymo Llc Multi-stage object heading estimation
CN109878512A (zh) * 2019-01-15 2019-06-14 北京百度网讯科技有限公司 自动驾驶控制方法、装置、设备及计算机可读存储介质
CN109758756B (zh) * 2019-02-28 2021-03-23 国家体育总局体育科学研究所 基于3d相机的体操视频分析方法及系统
CN111756990B (zh) * 2019-03-29 2022-03-01 阿里巴巴集团控股有限公司 一种图像传感器控制方法、装置及系统
CN110059623B (zh) * 2019-04-18 2021-06-11 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN112017239B (zh) * 2019-05-31 2022-12-20 北京市商汤科技开发有限公司 确定目标对象朝向方法、智能驾驶控制方法和装置及设备
CN110239529A (zh) * 2019-06-28 2019-09-17 北京海益同展信息科技有限公司 车辆控制方法、装置及计算机可读存储介质
CN111192327B (zh) * 2020-01-03 2023-09-29 北京百度网讯科技有限公司 用于确定障碍物朝向的方法和装置
US11586843B1 (en) * 2020-03-26 2023-02-21 Ambarella International Lp Generating training data for speed bump detection
CN111845554A (zh) * 2020-06-03 2020-10-30 北京中科慧眼科技有限公司 一种基于双目立体相机的行人碰撞预警方法和装置
EP3958167B1 (en) * 2020-08-21 2024-03-20 Toyota Jidosha Kabushiki Kaisha A method for training a neural network to deliver the viewpoints of objects using unlabeled pairs of images, and the corresponding system
CN112289040B (zh) * 2020-11-25 2022-08-19 浙江大华技术股份有限公司 一种车辆行驶方向识别的方法、装置及存储介质
CN112669335A (zh) * 2021-01-27 2021-04-16 东软睿驰汽车技术(沈阳)有限公司 车辆感知方法、装置、电子设备以及机器可读存储介质
CN112668563B (zh) * 2021-03-16 2021-06-04 智道网联科技(北京)有限公司 一种基于视频图像实现移动轨迹推算的方法及相关装置
WO2022211995A1 (en) * 2021-03-30 2022-10-06 Carnegie Mellon University System and method for using non-axis aligned bounding boxes for retail detection
CN113256625A (zh) * 2021-06-29 2021-08-13 北京天星博迈迪医疗器械有限公司 一种电子设备和识别装置
CN113435350A (zh) * 2021-06-30 2021-09-24 浙江大华技术股份有限公司 一种交通标线检测方法、装置、设备和介质
CN114820865B (zh) * 2022-03-24 2024-09-03 深圳拓邦股份有限公司 一种智能割草机构图方法、装置、电子设备及存储介质
CN115412709B (zh) * 2022-07-26 2023-11-10 广州汽车集团股份有限公司 投影方法、装置、车辆及存储介质
CN115331174B (zh) * 2022-08-19 2023-06-13 中国安全生产科学研究院 一种企业安全生产标准化智能监管系统及方法
CN118254736A (zh) * 2024-01-29 2024-06-28 重庆大学 一种面向弱势道路使用者复杂工况下的自动紧急制动方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006202047A (ja) * 2005-01-20 2006-08-03 Toyota Motor Corp 移動物体検出装置及び移動物体検出方法
JP2014059841A (ja) * 2012-09-19 2014-04-03 Daimler Ag 運転支援装置
CN107194938A (zh) * 2017-04-17 2017-09-22 上海大学 基于深度卷积神经网络的图像轮廓检测方法
CN107767419A (zh) * 2017-11-07 2018-03-06 广州深域信息科技有限公司 一种人体骨骼关键点检测方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4561346B2 (ja) * 2004-12-08 2010-10-13 株式会社豊田中央研究所 車両運動推定装置及び移動体検出装置
US8498448B2 (en) * 2011-07-15 2013-07-30 International Business Machines Corporation Multi-view object detection using appearance model transfer from similar scenes
US9733350B2 (en) * 2014-07-03 2017-08-15 GM Global Technology Operations LLC Vehicle radar control
JP6397934B2 (ja) * 2014-12-19 2018-09-26 株式会社日立製作所 走行制御装置
US9877012B2 (en) * 2015-04-01 2018-01-23 Canon Kabushiki Kaisha Image processing apparatus for estimating three-dimensional position of object and method therefor
CN106033615B (zh) * 2016-05-16 2017-09-15 北京旷视科技有限公司 目标对象运动方向检测方法和装置
JP6868805B2 (ja) * 2016-06-07 2021-05-12 パナソニックIpマネジメント株式会社 画像生成装置、画像生成方法、およびプログラム
CN107563256A (zh) 2016-06-30 2018-01-09 北京旷视科技有限公司 辅助驾驶信息产生方法及装置、辅助驾驶系统
US10007854B2 (en) * 2016-07-07 2018-06-26 Ants Technology (Hk) Limited Computer vision based driver assistance devices, systems, methods and associated computer executable code
CN107122736B (zh) * 2017-04-26 2020-06-12 北京邮电大学 一种基于深度学习的人体朝向预测方法及装置
CN107609486A (zh) * 2017-08-16 2018-01-19 中国地质大学(武汉) 一种车辆前向防撞预警方法及系统
CN108416321A (zh) * 2018-03-23 2018-08-17 北京市商汤科技开发有限公司 用于预测目标对象运动朝向的方法、车辆控制方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006202047A (ja) * 2005-01-20 2006-08-03 Toyota Motor Corp 移動物体検出装置及び移動物体検出方法
JP2014059841A (ja) * 2012-09-19 2014-04-03 Daimler Ag 運転支援装置
CN107194938A (zh) * 2017-04-17 2017-09-22 上海大学 基于深度卷积神经网络的图像轮廓检测方法
CN107767419A (zh) * 2017-11-07 2018-03-06 广州深域信息科技有限公司 一种人体骨骼关键点检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ARSALAN MOUSAVIAN ET AL.: "3D Bounding Box Estimation Using Deep Learning and Geometry", IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR) 2017, JPN6021046150, 10 April 2017 (2017-04-10), ISSN: 0004646452 *

Also Published As

Publication number Publication date
US20210001885A1 (en) 2021-01-07
CN108416321A (zh) 2018-08-17
JP7101255B2 (ja) 2022-07-14
WO2019179464A1 (zh) 2019-09-26
US11710243B2 (en) 2023-07-25

Similar Documents

Publication Publication Date Title
JP7101255B2 (ja) 目標対象の運動の向きを予測するための方法、車両制御方法及び装置
CN112540671B (zh) 基于视觉的灵巧机器人系统的远程操作
Ghasemi et al. Deep learning-based object detection in augmented reality: A systematic review
JP7239703B2 (ja) 領域外コンテキストを用いたオブジェクト分類
JP6364049B2 (ja) 点群データに基づく車両輪郭検出方法、装置、記憶媒体およびコンピュータプログラム
Yu et al. Vehicle detection and localization on bird's eye view elevation images using convolutional neural network
US20210148727A1 (en) Simulating diverse long-term future trajectories in road scenes
CN113228042A (zh) 自主机器应用中障碍物检测的距离
CN110796692A (zh) 用于同时定位与建图的端到端深度生成模型
WO2019202397A2 (en) Vehicle environment modeling with a camera
CN113994390A (zh) 针对自主驾驶应用的使用曲线拟合的地标检测
CN114902295A (zh) 用于自主驾驶应用的三维路口结构预测
CN113168505A (zh) 用于自主驾驶机器的基于回归的线检测
CN109214987A (zh) 从上采样的低分辨率lidar 3-d点云和摄像机图像生成高分辨率3-d点云
CN109215067A (zh) 基于cnn和crf模型生成高分辨率3-d点云
CN112904370A (zh) 用于激光雷达感知的多视图深度神经网络
CN111091038A (zh) 训练方法、计算机可读介质和检测消失点的方法及装置
US11842440B2 (en) Landmark location reconstruction in autonomous machine applications
CN113096151B (zh) 对目标的运动信息进行检测的方法和装置、设备和介质
JP2022132075A (ja) 自律運転アプリケーションにおけるディープ・ニューラル・ネットワーク知覚のためのグラウンド・トゥルース・データ生成
JP2023088849A (ja) 自律型システム及びアプリケーションにおける特徴ディスクリプタ・マッピングを使用した単一及びアクロス・センサ物体追跡
CN112639822B (zh) 一种数据处理方法及装置
US12106528B2 (en) Generating scene flow labels for point clouds using object labels
CN116868239A (zh) 静态占用跟踪
EP4211651A1 (en) Efficient three-dimensional object detection from point clouds

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200918

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20201119

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200918

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20201119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220704

R150 Certificate of patent or registration of utility model

Ref document number: 7101255

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150