JP2023523527A

JP2023523527A - ターゲット動き情報検出方法、装置、機器及び媒体

Info

Publication number: JP2023523527A
Application number: JP2022557731A
Authority: JP
Inventors: ミン、ウェンミン; チュー、ホンメイ; ジャン、チィエン
Original assignee: 地平▲線▼征程（杭州）人工智能科技有限公司
Priority date: 2021-04-07
Filing date: 2022-02-18
Publication date: 2023-06-06
Anticipated expiration: 2042-02-18
Also published as: CN113096151A; JP7306766B2; WO2022213729A1; CN113096151B; EP4246437A1

Abstract

【課題】ターゲット動き情報検出方法、装置、機器と媒体を開示する。【解決手段】動き情報検出方法は、第１の画像に対してターゲット検出を行って第１のターゲットの検出ボックスを得るステップと、第１の画像の対応する第１のカメラ座標系における深度情報を取得し、これにより第１のターゲットの検出ボックスの深度情報を決定するステップと、第１のターゲットの検出ボックスの画像座標系における位置と深度情報とに基づいて第１のターゲットの第１のカメラ座標系における第１の座標を決定するステップと、撮像装置の位置姿勢変化情報に基づいて、第２のターゲットの第２の画像に対応する第２のカメラ座標系における第２の座標を第１のカメラ座標系における第３の座標に変換するステップと、第１の座標と第３の座標とに基づいて第１のターゲットの動き情報を決定するステップと、を含む。本開示の実施例に係る技術的構成は、膨大な計算処理を回避し、処理効率を向上させることができる。【選択図】図２

Description

本開示は、コンピュータビジョン技術に関し、特にターゲット動き情報検出方法及び装置、ターゲット動き情報に基づく走行対象制御方法、装置、電子機器及び記憶媒体である。

物体の動き速度及び方向の推定は、自動運転、防犯モニタリング、シーン理解などの分野での研究重点である。自動運転、防犯モニタリング、シーン理解などの分野において、意思決定層が相応する意思決定を行うように、シーンにおける全ての物体の動き速度及び方向を推定して意思決定層に提供する必要がある。例えば、自動運転システムにおいて、道路側方における動き物体（例えば、人や動物など）が道路中央に近づいていることを感知した場合、意思決定層は、車両を制御して減速ひいては停止させて、車両の安全走行を保障することができる。

現在、自動運転、防犯モニタリング、シーン理解などのシーンにおいて、レーザレーダを採用してデータを採集することが多く、レーザビームを高頻度で出射し、レーザビームの出射時間と受信時間とに基づいてターゲットポイントとの距離を計算して点群データを得てから、ある時間範囲に対応する２つの時刻に採集した点群データでターゲット検出とターゲット追踪とを行って、ターゲットのこの時間範囲内における動き速度及び方向を計算する。

本開示は、上記技術的課題を解決するために創作された。本開示の実施例は、ターゲット動き情報検出方法及び装置、ターゲット動き情報に基づく走行対象制御方法及び装置、電子機器、記憶媒体を提供する。

本開示の実施例の１つの態様に係るターゲット動き情報検出方法は、
走行対象上の撮像装置が前記走行対象の走行中に採集した前記走行対象外シーンの画像としての第１の画像に対してターゲット検出を行って第１のターゲットの検出ボックスを得るステップと、
前記第１の画像の対応する第１のカメラ座標系における深度情報を取得するステップと、
前記第１の画像の深度情報に基づいて、前記第１のターゲットの検出ボックスの深度情報を決定し、前記第１のターゲットの検出ボックスの画像座標系における位置と前記第１のターゲットの検出ボックスの深度情報とに基づいて、前記第１のターゲットの前記第１のカメラ座標系における第１の座標を決定するステップと、
前記第１の画像が位置する画像シーケンスにおいて時間系列が前記第１の画像前であり且つ前記第１の画像と予め設定のフレーム数間隔を有する画像としての第２の画像の採集から前記第１の画像の採集までの撮像装置の位置姿勢変化情報を取得するステップと、
前記位置姿勢変化情報に基づいて、前記第１のターゲットに対応する第２の画像におけるターゲットとしての第２のターゲットの前記第２の画像に対応する第２のカメラ座標系における第２の座標を前記第１のカメラ座標系における第３の座標に変換するステップと、
前記第１の座標と前記第３の座標とに基づいて、前記第２の画像の採集時刻から前記第１の画像の採集時刻までの対応する時間範囲内の前記第１のターゲットの動き情報を決定するステップと、を含む。

本開示の実施例の別の態様に係るインテリジェント運転制御方法は、
走行対象の走行中において前記走行対象上の撮像装置によって前記走行対象外シーンの画像シーケンスを採集するステップと、
前記画像シーケンスにおける少なくとも１フレームのレート画像を第１の画像とし、前記画像シーケンスにおいて前記第１の画像前であり且つ前記第１の画像と予め設定のフレーム数間隔を有する少なくとも１フレームの画像を第２の画像とし、本開示のいずれか１つの実施例に記載のターゲット動き情報検出方法利用して前記シーンにおけるターゲットの動き情報を決定するステップと、
前記ターゲットの動き情報に基づいて前記走行対象の走行状態を制御するための制御命令を生成するステップと、を含む。

本開示の実施例のまた別の態様に係るターゲット動き情報検出装置は、
走行対象上の撮像装置が前記走行対象の走行中に採集した前記走行対象外シーンの画像としての第１の画像に対してターゲット検出を行って第１のターゲットの検出ボックスを得るための検出モジュールと、
前記第１の画像の対応する第１のカメラ座標系における深度情報を取得するための第１の取得モジュールと、
前記第１の取得モジュールによって取得された前記第１の画像の深度情報に基づいて、前記第１のターゲットの検出ボックスの深度情報を決定するための第１の決定モジュールと、
前記検出モジュールによって得られた前記第１のターゲットの検出ボックスの画像座標系における位置と前記第１の決定モジュールによって決定された前記第１のターゲットの検出ボックスの深度情報とに基づいて、前記第１のターゲットの前記第１のカメラ座標系における第１の座標を決定するための第２の決定モジュールと、
前記第１の画像が位置する画像シーケンスにおいて時間系列が前記第１の画像前であり且つ前記第１の画像と予め設定のフレーム数間隔を有する画像としての第２の画像の採集から前記第１の画像の採集までの撮像装置の位置姿勢変化情報を取得するための第２の取得モジュールと、
前記第２の取得モジュールによって取得された前記位置姿勢変化情報に基づいて、前記第１のターゲットに対応する第２の画像におけるターゲットとしての第２のターゲットの前記第２の画像に対応する第２のカメラ座標系における第２の座標を前記第１のカメラ座標系における第３の座標に変換するための変換モジュールと、
前記第２の決定モジュールによって決定された前記第１の座標と前記変換モジュールによって変換された前記第３の座標とに基づいて、前記第２の画像の採集時刻から前記第１の画像の採集時刻までの対応する時間範囲内の前記第１のターゲットの動き情報を決定するための第３の決定モジュールと、を含む。

本開示の実施例のさらに別の態様に係るインテリジェント運転制御装置は、
走行対象上に設けられ、走行対象の走行中において前記走行対象外シーンの画像シーケンスを採集するための撮像装置と、
前記画像シーケンスにおける少なくとも１フレームの画像を第１の画像とし、前記画像シーケンスにおいて前記第１の画像前であり且つ前記第１の画像と予め設定のフレーム数間隔を有する少なくとも１フレームの画像を第２の画像として、前記シーンにおけるターゲットの動き情報を決定するための本開示のいずれか１つの実施例に記載のターゲットの動き情報を検出する動き情報検出装置と、
前記動き情報検出装置によって検出された前記ターゲットの動き情報に基づいて、前記走行対象の走行状態を制御するための制御命令を生成するための制御装置と、を含む。

本開示の実施例のさらに別の態様に係るコンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記コンピュータプログラムは、本開示の上記いずれか１つの実施例に記載のターゲット動き情報検出方法又はターゲット動き情報に基づく走行対象制御方法を実行させる。

本開示の実施例のさらに別の態様に係る電子機器は、
プロセッサと、
前記プロセッサの実行可能命令を記憶するためのメモリと、を含み、
前記プロセッサは、前記メモリから前記実行可能命令を読み出し、前記命令を実行して本開示の上記いずれか１つの実施例に記載のターゲット動き情報検出方法又はターゲット動き情報に基づく走行対象制御方法を実施する。

本開示の上記実施例に係るターゲット動き情報検出方法、装置、電子機器及び記憶媒体によれば、走行対象上の撮像装置によって走行対象の走行中においてこの走行対象外シーンの画像を採集し、採集した第１の画像に対してターゲット検出を行って第１のターゲットの検出ボックスを得、第１の画像の対応する第１のカメラ座標系における深度情報を取得し、この第１の画像の深度情報に基づいて第１のターゲットの検出ボックスの深度情報を決定してから、第１のターゲットの検出ボックスの画像座標系における位置と第１のターゲットの検出ボックスの深度情報とに基づいて、第１のターゲットの第１のカメラ座標系における第１の座標を決定し、第１の画像が位置する画像シーケンスにおいて時間系列が第１の画像前であり且つ第１の画像と予め設定のフレーム数間隔を有する画像としての第２の画像の採集から第１の画像の採集までの撮像装置の位置姿勢変化情報を取得し、この位置姿勢変化情報に基づいて、第１のターゲットに対応する第２の画像におけるターゲットを第２のターゲットとし、第２のターゲットの第２の画像に対応する第２のカメラ座標系における第２の座標を第１のカメラ座標系における第３の座標に変換し、第１の座標と第３の座標とに基づいて、第２の画像の採集時刻から第１の画像の採集時刻までの対応する時間範囲内の第１のターゲットの動き情報を決定する。本開示の実施例は、コンピュータビジョン技術を利用して、運転シーン画像シーケンスに基づいて運転シーンにおけるターゲットの動き情報を決定し、レーザレーダに依頼する必要がなく、レーザレーダを採用してターゲットの動き速度及び方向を取得する方式に比べて、レーザビームを高頻度で出射することによって点群データを構築し、２つの点群データ上でターゲット検出及びターゲット追踪を行ってターゲットの動き速度及び方向を計算する必要がないため、膨大な計算処理を回避し、処理時間を節約し、処理効率を向上させることができ、リアルタイム性に対する要求が比較的高い自動運転などのシーン需要を満たすに有利である。

本開示の上記実施例に係るターゲット動き情報に基づく走行対象制御方法、装置、電子機器及び記憶媒体によれば、走行対象の走行中において走行対象上の撮像装置によって走行対象外シーンの画像シーケンスを採集し、画像シーケンスにおける少なくとも１フレームのレート画像を第１の画像とし、画像シーケンスにおいて第１の画像前であり且つ第１の画像と予め設定のフレーム数間隔を有する少なくとも１フレームの画像を第２の画像とし、本開示のいずれか１つの実施例に記載のターゲット動き情報検出方法を利用して運転シーンにおけるターゲットの動き情報を決定し、このターゲットの動き情報に基づいて走行対象の走行状態を制御するための制御命令を生成することによって、コンピュータビジョン技術の利用による運転シーンにおけるターゲットの動き情報の検出、走行対象に対するインテリジェント運転制御を実現し、自動運転シーンにおける走行対象に対するリアルタイムなインテリジェント運転制御を満たすに有利であり、走行対象の安全な走行を保障することができる。

以下、添付図面及び実施例を基に、本開示の技術的構成をより詳細に記述する。
添付図面を参照しながら本開示の実施例をより詳細に記述することによって、本開示の上記及び他の目的、特徴や利点は、より明らかになる。添付図面は、本開示の実施例に対するさらなる理解を提供するために用いられ、明細書の一部を構成し、本開示の実施例とともに本開示を解釈するために用いられ、本開示に対する制限を構成するものではない。添付図面において、同じ参照符号は、一般に同じ部品又はステップを代表するものである。

本開示が適用されるシーン図である。本開示の一例示的な実施例に係るターゲット動き情報検出方法のフローチャートである。本開示の別の例示的な実施例に係るターゲット動き情報検出方法のフローチャートである。本開示のまた別の例示的な実施例に係るターゲット動き情報検出方法のフローチャートである。本開示のさらに別の例示的な実施例に係るターゲット動き情報検出方法のフローチャートである。本開示のさらに別の例示的な実施例に係るターゲット動き情報検出方法のフローチャートである。本開示のさらに別の例示的な実施例に係るターゲット動き情報検出方法のフローチャートである。本開示の一例示的な実施例に係るターゲット動き情報検出方法の応用フローチャートである。本開示の一例示的な実施例に係るターゲット動き情報に基づく走行対象制御方法のフローチャートである。本開示の一例示的な実施例に係るターゲット動き情報検出装置の構造概略図である。本開示の別の例示的な実施例に係るターゲット動き情報検出装置の構造概略図である。本開示の一例示的な実施例に係るターゲット動き情報に基づく走行対象制御装置の構造概略図である。本開示の一例示的な実施例に係る電子機器の構造図である。

以下、添付図面を参照しながら本開示に係る例示的な実施例を詳細に記述する。記述された実施例は、本開示の一部の実施例に過ぎず、本開示の全ての実施例ではない。なお、本開示は、ここに記述される例示的な実施例の制限を受けることではない。

特に断らない限り、これらの実施例に記述される部品やステップの相対的配置、数式及び数値は、本開示の範囲を制限することではない。

当業者が理解できるように、本開示の実施例における「第１」、「第２」などの用語は、異なるステップ、機器やモジュールなどを区別するために使用されるのであり、いずれの特定の技術的意味やそれらの間の必然的な論理順序を示すのではない。

なお、本開示の実施例において、「複数」とは、２つ又は２つ以上であり、「少なくとも１つ」とは、１つ、２つ又は２つ以上であることができる。

なお、本開示の実施例に言及されるいずれか一部品、データ又は構造に対し、明確に限定されていない場合又は前後文で逆の啓示が与えられた場合、一般に１つ又は複数と理解されるべきである。

また、本開示における「及び／又は」との用語は、関連対象の関連関係を記述するものに過ぎず、３つの関係が存在し得ることを示し、例えば、Ａ及び／又はＢは、Ａのみが存在する場合、ＡとＢとが同時に存在する場合、Ｂのみが存在する場合という３つの場合を示すことができる。また、本開示における「／」とのキャラクタは、一般に前後関連対象が「又は」の関係であることを示す。

なお、本開示における各実施例に対する記述について、その重点は、主に各実施例間の相違点を強調することにあり、その同じ又は類似の点を相互に参照することができ、簡素加のために、再度説明しない。

また、記述の便宜上、添付図面に示される各部分の寸法は、実際の割合関係に従って描かれていないこともある。

以下、少なくとも１つの例示的な実施例に対する記述は、実際には単なる説明にすぎず、本開示及びその応用又は使用に対するいかなる制限とならない。

当業者の周知技術、方法や機器については、詳細に説明しないが、前記技術、方法や機器は、明細書の一部と見なされる。

なお、類似の符号やアルファベットは、以下の添付図面において類似項を示すため、ある項目が１つの添付図面で定義されると、その後の添付図面においてそれを再度説明する必要はない。

本開示の実施例は、端末機器、コンピュータシステム、サーバなどの電子機器に適用されることができ、多くの他の汎用又は専用のコンピューティングシステム環境又は配置とともに操作されることができる。端末機器、コンピュータシステム、サーバなどの電子機器とともに使用される好適な周知の端末機器、コンピューティングシステム、環境及び／又は配置の例としては、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルド又はラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費電子製品、ネットワークパーソナルコンピュータ、小型コンピュータシステム、大型コンピュータシステム、及び、上記任意のシステムを含む分散クラウドコンピューティング技術環境などがあるが、それらに限定されることではない。

端末機器、コンピュータシステム、サーバなどの電子機器は、コンピュータシステムによって実行されるコンピュータシステム実行可能命令（例えば、プログラムモジュール）の一般的な言語環境で説明される。通常、プログラムモジュールは、特定のタスクを実行するか、又は特定の抽象データタイプを実現するインスタンス、プログラム、ターゲットプログラム、コンポーネント、論理、データ構造などを含むことができる。コンピュータシステム／サーバは、分散クラウドコンピューティング環境で実施されることができ、分散クラウドコンピューティング環境において、タスクは、通信ネットワークを介してリンクされる遠隔プロセッシングデバイスによって実行される。分散クラウドコンピューティング環境において、プログラムモジュールは、記憶機器を含むローカル又は遠隔コンピューティングシステム記憶媒体に位置することができる。

（出願概要）
本開示を実現する過程において、本開示の発明者は、研究によって、レーザレーダが、ある瞬時的シーンにおける複数の点の深度値（ｄｅｐｔｈｖａｌｕｅ）を得ることができるが、ある物体の動き速度及び方向などの情報は直接得ることができず、ある時間範囲内における物体の動き速度及び方向を知るためには、この時間範囲で対応する２つの時刻に採集した点群データでターゲット検出とターゲット追踪とを行ってから、ターゲットのこの時間範囲内における動き速度及び方向を計算する必要があるので、膨大な計算処理が必要であり、所要時間が比較的長く、効率が比較的低く、リアルタイム性に対する要求が比較的高い自動運転などのシーン需要を満たすことができなかったことを発見した。

本開示の実施例は、コンピュータビジョン技術を利用し、運転シーン画像シーケンスに基づいて運転シーンにおけるターゲットの動き情報を取得する技術的構成を提供し、走行対象上の撮像装置によって走行対象の走行中においてこの走行対象外シーンの画像を採集し、採集した画像シーケンスにおいて予め設定のフレーム数間隔を有する第１の画像と第２の画像とに対してターゲット検出とターゲット追跡とを行い、同一のターゲットの、第１の画像に対応する第１のカメラ座標系における第１の座標と第２の画像に対応する第２のカメラ座標系における第２の座標とを、第１のカメラ座標系へ変換して第３の座標を得、第１の座標と第３の座標とに基づいて第１の画像と第２の画像との採集時刻に対応する時間範囲内におけるこのターゲットの動き情報を決定する。本開示の実施例は、レーザレーダに依頼する必要がないので、膨大な計算処理を回避し、処理時間を節約し、処理効率を向上させることができ、リアルタイム性に対する要求が比較的高い自動運転などのシーン需要を満たすに有利である。

本開示の上記実施例に係る上記技術的構成に基づいて運転シーンにおけるターゲットの動き情報を検出した後、ターゲットの動き情報に基づいて走行対象の走行状態を制御するための制御命令を生成することによって、コンピュータビジョン技術の利用による運転シーンにおけるターゲットの動き情報の検出、走行対象に対するインテリジェント運転制御を実現し、自動運転シーンにおける走行対象に対するリアルタイムなインテリジェント運転制御を満たすに有利であり、走行対象の安全走行を保障することができる。

（例示的なシステム）
本開示の実施例は、走行対象、ロボット、玩具車などの走行対象のインテリジェント運転制御シーンに適用され、走行対象の運転シーンにおけるターゲットの動き情報を検出することによって、走行対象の走行状態を制御するための制御命令を生成して、走行対象の走行状態を制御することができる。

図１は、本開示が適用される１つのシーン図である。図１に示すように、本開示の実施例を走行対象のインテリジェント運転制御シーンに適用する場合、走行対象上の画像採集モジュール１０１（例えば、カメラなどの撮像装置）は、画像シーケンスを採集して、本開示の実施例の動き情報検出装置１０２に入力する。動き情報検出装置１０２は、この画像シーケンスにおける各フレーム毎の画像又は複数のフレーム間隔をあけて選択された１フレームの画像を第２の画像とし、この画像シーケンスにおいて時間系列が第２の画像後でありかつ第２の画像と所定のフレーム数間隔の１フレームの画像を第１の画像とし、第１の画像に対してターゲット検出を行って第１のターゲットの検出ボックスを得、第１の画像の対応する第１のカメラ座標系における深度情報を取得し、この第１の画像の深度情報に基づいて第１のターゲットの検出ボックスの深度情報を決定し、第１のターゲットの検出ボックスの画像座標系における位置と第１のターゲットの検出ボックスの深度情報とに基づいて第１のターゲットの第１のカメラ座標系における第１の座標を決定し、第２の画像の採集から第１の画像の採集までの撮像装置の位置姿勢変化情報に基づいて、第２のターゲットの第２の画像に対応する第２のカメラ座標系における第２の座標を第１のカメラ座標系における第３の座標に変換し、第１の座標と第３の座標とに基づいて、第２の画像の採集時刻から第１の画像の採集時刻までの対応する時間範囲内の第１のターゲットの動き情報を決定して出力する。制御装置１０３は、動き情報検出装置１０２から出力された対応する時間範囲内の第１のターゲットの動き情報に基づいて、車両、ロボット、玩具車などの走行対象の走行状態を制御する。例えば、走行対象の走行状態を制御する応用シーンにおいて、第１のターゲットの動き情報（この動き情報は、動き速度及び動き方向を含む）と走行対象の走行状態（この走行状態は、走行速度及び走行方向を含む）に基づいて、走行対象と第１のターゲットとがその後５秒以内に衝突する恐れがあると決定すると、制御装置１０３は、走行対象を制御して減速走行させるための制御命令を生成して当該走行対象に出力して、当該走行対象を制御して減速走行させることにより、走行対象と第１のターゲットとの衝突を回避する。本開示の実施例は、具体的な応用シーンを制限することではない。

（例示的な方法）
図２は、本開示の一例示的な実施例に係るターゲット動き情報検出方法のフローチャートである。本実施例は、電子機器に適用されてもよいし、車両、ロボット、玩具車などの走行対象に適用されてもよい。図２に示すように、この実施例のターゲット動き情報検出方法は、以下のステップを含む。

ステップ２０１では、第１の画像に対してターゲット検出を行って第１のターゲットの検出ボックスを得る。

ここで、第１の画像は、走行対象上の撮像装置がこの走行対象の走行中に採集したこの走行対象外シーンの画像である。この第１の画像は、ＲＧＢ（赤緑青）画像であってもよいし、階調画像であってもよく、本開示の実施例は、第１の画像を制限することではない。

選択的に、本開示の実施例におけるターゲットは、走行対象外シーンにおける任意の関心有りのターゲット（例えば、運動又は静止の人、小動物、物体など）であることができ、そのうちの物体は、例えば、車両、道路両側の建物、緑植、道路標示、交通信号機などであることができ、本開示の実施例は、検出しようとするターゲットを限定せず、実際の要求に応じて決定してもよい。

選択的に、そのうちのいくつかの実施形態では、予め設定のターゲット検出フレーム、（例えば、再帰型畳み込みニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲＣＮＮ）、高速再帰型畳み込みニューラルネットワーク（ＦａｓｔＲＣＮＮ）、マスク（ＭａｓｋＲＣＮＮ）などの領域に基づくアルゴリズム、ユー・オンリー・ルック・ワンス（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ、ＹＯＬＯ）などの回帰に基づくアルゴリズム、ＦａｓｔｅｒＲＣＮＮとＹＯＬＯとを組み合わせて得られたシングルショットマルチボックス検出（ＳｉｎｇｌｅＳｈｏｔＭｕｌｔｉＢｏｘＤｅｔｅｃｔｏｒ、ＳＳＤ）アルゴリズム、など）を採用して、第１の画像に対してターゲット検出を行うことができる。本開示の実施例は、ターゲット検出の具体的な方式、採用されるターゲット検出ボックスを制限することではない。

本開示の実施例では、第１のターゲットは、第１の画像におけるターゲットであり、１つのターゲットであってもよいし、複数のターゲットであってもよく、複数のターゲットは、同じタイプのターゲット（例えば、全てが人である）であってもよいし、異なるタイプのターゲット（例えば、人、車両などを含む）であってもよい。それに応じて、第１の画像に対してターゲット検出を行って得られた第１のターゲットの検出ボックスは、１つであってもよいし、複数であってもよい。本開示の実施例は、第１のターゲットの数及びタイプを制限することではない。

本開示の実施例における検出ボックスは、ターゲットのバウンディングボックス（ＢｏｕｎｄｉｎｇＢｏｘ）である。選択的に、４次元ベクトル（ｘ，ｙ，ｗ，ｈ）で各検出ボックスを表すことができ、ここで、（ｘ，ｙ）は、画像座標系における検出ボックスの座標を表し、検出ボックスの中心点又は画像座標系における予め設定のいずれか１つの頂点の座標であってもよく、ｗ、ｈは、それぞれ検出ボックスの幅及び高さを表す。

ステップ２０２では、第１の画像の対応する第１のカメラ座標系における深度情報を取得する。

本開示の実施例では、深度（Ｄｅｐｔｈ）情報は、シーンにおける各ドット（それぞれ画像における各画素ドットに対応する）と撮像装置との間の距離情報に用いられ、そのうちのいくつかの実施形態では、深度情報は、具体的に深度図として表されることができる。深度図は、シーンにおける各ドットと撮像装置との間の距離情報を含む画像又は画像チャンネルである。深度図は、階調画像と類似し、その各画素値は、撮像装置からシーンにおける１ドットの実際の距離（Ｌ）であり、各画素値は、１つの短い（ｓｈｏｒｔ）長さを占用して撮像装置から対応する１ドットまでの距離を記憶する。

選択的に、そのうちのいくつかの実施形態では、１つのニューラルネットワークを介して、第１の画像の対応する第１のカメラ座標系における深度情報を取得することができる。そのうちのニューラルネットワークは、予め訓練されたニューラルネットワークであり、入力された画像に基づいて深度推定を行い、その画像におけるシーンの深度情報を出力することができる。例えば、１つのエンド・ツー・エンドのＵ－型ディープニューラルネットワークを採用し、ディープラーニングの単眼深度推定方法に基づいて、入力された第１の画像に対して深度推定を行って、第１の画像の対応する第１のカメラ座標系における深度情報を得ることができる。

本開示の実施例では、カメラ座標系は、撮像装置のフォーカス中心を原点とし、光軸（即ち、奥行方向）をＺ軸として確立された３次元（３Ｄ）座標系である。走行対象の走行中において、走行対象上の撮像装置は動き状態となり、撮像装置の位置姿勢も変化状態となり、対応的に確立される３Ｄ座標系も異なり、第１の画像に対応する第１のカメラ座標系は、即ち撮像装置が第１の画像を採集する時の３Ｄ座標系である。

選択的に、ステップ２０２は、ステップ２０１と同時に実行されてもよいし、任意の時間順で実行されてもよく、本開示の実施例は、これを制限することではない。

ステップ２０３では、第１の画像の深度情報に基づいて、第１のターゲットの検出ボックスの深度情報を決定し、第１のターゲットの検出ボックスの画像座標系における位置と第１のターゲットの検出ボックスの深度情報とに基づいて、第１のターゲットの第１のカメラ座標系における第１の座標を決定する。

ここで、ステップ２０３において、第１の画像の深度情報は、ステップ２０２で決定された第１の画像の対応する第１のカメラ座標系における深度情報であり、第１のターゲットの検出ボックスの深度情報は、第１のターゲットの検出ボックスの第１のカメラ座標系における深度情報である。

ステップ２０４では、第２の画像の採集から第１の画像の採集までの撮像装置の位置姿勢変化情報を取得する。

ここで、第２の画像は、第１の画像が位置する画像シーケンスにおいてその時間系列が第１の画像の前であり且つ第１の画像と予め設定のフレーム数間隔を有する画像である。

本開示の実施例では、予め設定のフレーム数の具体的な値は、実際の要求（例えば、具体的なシーン、走行対象の動き状態、撮像装置の画像採集頻度など）によって設定されることができ、０、１、２、３などであることができ、予め設定のフレーム数が０である場合、第２の画像と第１の画像とは、隣接する２つのフレーム画像である。例えば、高速運転シーンにおいて、走行対象の動き速度が比較的速い及び／又は撮像装置の画像採集頻度が比較的高い場合、予め設定のフレーム数の値を比較的小さくすることにより、撮像装置が第１の画像を採集する時に第２の画像におけるターゲットが撮像装置の撮影範囲外に移動されて第１の画像に現れることができないことを回避して、走行対象外シーンにおけるターゲットの動き情報に対する有効な検出を実現する。しかし、混雑な都市道路運転シーンにおいては、走行対象の動き速度が比較的遅い及び／又は撮像装置の画像採集頻度が比較的低い場合、予め設定のフレーム数の値を比較的大きくすることにより、第２の画像の採集時刻から第１の画像の採集時刻までの対応する時間範囲内の同一のターゲットの動き情報を検出することができるだけではなく、動き情報検出方法の頻繁な実行によって計算リソース及び記憶リソースを占用されることを回避することができ、リソース利用率を向上させることができる。

選択的に、本開示の実施例における位置姿勢変化情報は、撮像装置が第１の画像を採集する時の位置姿勢と第２の画像を採集する時の位置姿勢との差分である。この位置姿勢変化情報は、３Ｄ空間に基づく位置姿勢変化情報であり、具体的に、行列として表されるため、位置姿勢変化行列と呼ばれることができる。この位置姿勢変化情報は、撮像装置の平行移動情報と回転情報とを含むことができる。ここで、撮像装置の平行移動情報は、撮像装置の、３Ｄ座標系における３つの座標軸ＸＹＺ上のそれぞれの変位量を含むことができる。そのうちの撮像装置の回転情報は、ロール（Ｒｏｌｌ）とヨー（Ｙａｗ）とピッチ（Ｐｉｔｃｈ）とによる回転ベクトルであることができ、Ｒｏｌｌ、Ｙａｗ及びＰｉｔｃｈとの３つの回転方向による回転分量ベクトルを含み、ここで、Ｒｏｌｌ、Ｙａｗ及びＰｉｔｃｈは、それぞれ３Ｄ座標系における３つの座標軸ＸＹＺを中心とする撮像装置の回転を表す。

選択的に、そのうちのいくつかの実施形態では、ビジョン技術を利用して、第２の画像の採集から第１の画像の採集までの撮像装置の位置姿勢変化情報を取得することができる。例えば、自己位置推定と環境地図作成（ＳｉｍｕｌｔａｎｅｏｕｓＬｏｃａｌｉｚａｔｉｏｎＡｎｄＭａｐｐｉｎｇ、ＳＬＡＭ）技術を利用して、位置姿勢変化情報を取得することができる。例えば、第１の画像（ＲＧＢ画像）と第１の画像の深度情報及び第２の画像（ＲＧＢ画像）をＯＲＢ（ＯｒｉｅｎｔｅｄＦＡＳＴａｎｄＲｏｔａｔｅｄＢＲＩＥＦ）－ＳＬＡＭフレームワークの赤緑青深度（ＲｅｄＧｒｅｅｎＢｌｕｅＤｅｐｔｈ、ＲＧＢＤ）モデルに入力し、ＲＧＢＤモデルが位置姿勢変化情報を出力することができる。また、本開示の実施例は、他の方式を採用し、例えば、グローバルポジショニングシステム（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ、ＧＰＳ）及び角速度センサを利用して、第２の画像の採集から第１の画像の採集までの撮像装置の位置姿勢変化情報を取得することができる。本開示の実施例は、第２の画像採集までのから第１の画像の採集までの撮像装置の位置姿勢変化情報を取得する具体的な方式を制限することではない。

ステップ２０５では、第２の画像の採集から第１の画像の採集までの撮像装置の位置姿勢変化情報に基づいて、第２のターゲットの第２の画像に対応する第２のカメラ座標系における第２の座標を第１のカメラ座標系における第３の座標に変換する。

ここで、第２のターゲットは、第１のターゲットに対応する第２の画像におけるターゲットであり、第１のターゲットに対応して、第２のターゲットは、１つのターゲットであってもよいし、複数のターゲットであってもよく、複数のターゲットは、同じタイプのターゲット（例えば、全てが人である）であってもよいし、異なるタイプのターゲット（例えば、人、車両などを含む）であってもよい。

本開示の実施例では、第２の画像に対応する第２のカメラ座標系は、撮像装置が第２の画像を採集する時の３Ｄ座標系である。

選択的に、ステップ２０４からステップ２０５は、ステップ２０１からステップ２０３と同時に実行されてもよいし、任意の時間順で実行されてもよく、本開示の実施例は、これを制限することではない。

ステップ２０６では、第１の座標と第３の座標とに基づいて、第２の画像の採集時刻から第１の画像の採集時刻までの対応する時間範囲内の第１のターゲットの動き情報を決定する。

本開示の実施例では、第１のターゲットの動き情報は、対応する時間範囲内の第１のターゲットの動き速度及び動き方向を含むことができる。

本実施例では、走行対象上の撮像装置によって走行対象の走行中においてこの走行対象外シーンの画像を採集し、採集した第１の画像に対してターゲット検出を行って第１のターゲットの検出ボックスを得、第１の画像の対応する第１のカメラ座標系における深度情報を取得し、この第１の画像の深度情報に基づいて第１のターゲットの検出ボックスの深度情報を決定してから、第１のターゲットの検出ボックスの画像座標系における位置と第１のターゲットの検出ボックスの深度情報とに基づいて、第１のターゲットの第１のカメラ座標系における第１の座標を決定し、第１の画像が位置する画像シーケンスにおいて時間系列が第１の画像前であり且つ第１の画像と予め設定のフレーム数間隔を有する画像としての第２の画像の採集から第１の画像の採集までの撮像装置の位置姿勢変化情報を取得し、この位置姿勢変化情報に基づいて、第１のターゲットに対応する第２の画像におけるターゲットを第２のターゲットとし、第２のターゲットの第２の画像に対応する第２のカメラ座標系における第２の座標を第１のカメラ座標系における第３の座標に変換し、第１の座標と第３の座標とに基づいて、第２の画像の採集時刻から第１の画像の採集時刻までの対応する時間範囲内の第１のターゲットの動き情報を決定する。本開示の実施例は、コンピュータビジョン技術を利用し、運転シーン画像シーケンスに基づいて運転シーンにおけるターゲットの動き情報を決定し、レーザレーダに依頼する必要がなく、レーザレーダを採用してターゲットの動き速度及び方向を取得する方式に比べて、レーザビームを高頻度で出射することによって点群データを構築し、２つの点群データ上でターゲット検出及びターゲット追踪を行ってターゲットの動き速度及び方向を計算する必要がないため、膨大な計算処理を回避し、処理時間を節約し、処理効率を向上させることができ、リアルタイム性に対する要求が比較的高い自動運転などのシーン需要を満たすに有利である。

図３は、本開示の別の例示的な実施例に係るターゲット動き情報検出方法のフローチャートである。図３に示すように、上記図２に示された実施例に加えて、ステップ２０３は、以下のステップを含むことができる。

ステップ２０３１では、第１の画像の深度情報から第１のターゲットの検出ボックスにおける各画素ドットの深度値を取得する。

第１の画像の深度情報は、第１の画像における各画素ドットの深度値を含み、第１の画像の深度情報から第１のターゲットの検出ボックスにおける各画素ドットの深度値を検索することができる。

ステップ２０３２では、予め設定の方式を採用し、第１のターゲットの検出ボックスにおける各画素ドットの深度値に基づいて、第１のターゲットの検出ボックスの深度情報を決定する。

第１のターゲットの検出ボックスには、複数の画素ドットが含まれており、各画素は、それぞれの深度値を有しており、本実施例によれば、第１のターゲットの検出ボックスにおける各画素ドットの深度値に基づいて第１のターゲットの検出ボックスの深度情報を総合的に決定し、この深度情報と第１のターゲットの検出ボックスの画像座標系における位置とに基づいて、第１のターゲットの第１のカメラ座標系における第１の座標を正確に決定することを容易にし、第１のターゲットの第１のカメラ座標系における座標の正確性を向上させることができる。

例えば、そのうちのいくつかの実施形態では、第１のターゲットの検出ボックスにおける各画素ドットの深度値のうち、出現頻度が最高の深度値を第１のターゲットの検出ボックスの深度情報として選択することができる。

本開示の発明を実現する過程において、発明者は、研究によって、実際の応用において、車両走行中の振動、光線などの原因により、撮像装置により採集された画像品質に影響を及ぼすことによって、画像にいくつかのノイズ点(ｎｏｉｓｅｓｐｏｔ)が存在し、これらのノイズ点の深度値を正確に取得することができないことによって、深度情報におけるこれらのノイズ点の深度値が大き過ぎるか又は小さ過ぎることを発見した。シーンにおける同一のターゲット上の各ドットと撮像装置との間の距離が近接し、対応する画素の深度値も近いことにより、本実施例では、第１のターゲットの検出ボックスにおける各画素ドットの深度値のうち、出現頻度が最高の深度値、即ち最多の画素ドットに対応する深度値を選択し、一部差異が比較的大きい画素ドットの深度値を無視することにより、第１の画像におけるノイズ画素ドットの深度値による第１のターゲット全体の検出ボックスの深度情報に対する影響を回避して、第１のターゲットの検出ボックスの深度情報の正確性を向上させることができる。

又は、別のいくつかの実施形態では、第１のターゲットの検出ボックスにおける各画素ドットの深度値のうち、それぞれ予め設定の各深度値範囲内にある画素ドットの数を決定してから、深度値が同一の深度値の範囲内にある画素ドットの数が最多の深度値範囲に基づいて、第１のターゲットの検出ボックスの深度情報を決定する。例えば、この深度値が同一の深度値の範囲内にある画素ドットの数が最多の深度値範囲の最大値、最小値、最大値と最小値との平均値、又は中央値などを、第１のターゲットの検出ボックスの深度値とすることができる。

本実施例では、各深度値範囲を予め区分し、第１のターゲットの検出ボックスにおける各画素ドットの深度値のうち、それぞれ予め設定の各深度値範囲内にある画素ドットの数を統計し、ある深度値範囲内にある画素ドットの数が多いほど、対応する第１のターゲットの表面上の点が、多く、深度値のうち、ある深度値範囲内にある画素ドットの数が最多の深度値範囲に基づいて第１のターゲットの検出ボックスの深度情報を決定し、一部差異が比較的大きい画素ドットの深度値を無視することにより、第１の画像におけるノイズ画素ドットの深度値による第１のターゲット全体の検出ボックスの深度情報に対する影響を回避して、第１のターゲットの検出ボックスの深度情報の正確性を向上させることができる。

又は、さらに別のいくつかの実施形態では、第１のターゲットの検出ボックスにおける各画素ドットの深度値の平均値を、第１のターゲットの検出ボックスの深度情報として取得することもできる。

本実施例では、第１のターゲットの検出ボックスにおける各画素ドットの深度値の平均値を第１のターゲットの検出ボックスの深度情報として取得することで、第１のターゲットの検出ボックスの深度情報を迅速に決定することにより、一部差異が比較的大きい画素ドットの深度値による第１のターゲット全体の検出ボックスの深度情報に対する影響を低減して、第１のターゲットの検出ボックスの深度情報の正確性を向上させることができる。

図４は、本開示のまた別の例示的な実施例に係るターゲット動き情報検出方法のフローチャートである。図４に示すように、上記図２や図３に示された実施例に加えて、ステップ２０５前に、以下のステップをさらに含むことができる。

ステップ３０１では、第１の画像における少なくとも１つのターゲットと第２の画像における少なくとも１つのターゲットとの対応関係を決定する。

ここで、第１の画像における少なくとも１つのターゲットは、上記第１のターゲットを含む。

本開示の実施例では、第１の画像における少なくとも１つのターゲット及び第２の画像における少なくとも１つのターゲットは、走行対象外シーンにおける任意の関心有りのターゲット（例えば、人、車両、建物などの様々なタイプのターゲット）であることができる。そのうちの第１のターゲットは、第１の画像における少なくとも１つのターゲットのうちの１つのターゲット又は複数のターゲットであり、第２のターゲットは、第２の画像における少なくとも１つのターゲットのうちの１つのターゲット又は複数のターゲットである。

第１の画像における少なくとも１つのターゲットと第２の画像における少なくとも１つのターゲットとの間の対応関係を決定することは、第１の画像と第２の画像とのターゲット間でどのターゲットが同一のターゲットに属するかを決定し、第１の画像と第２の画像とで同一のターゲットに属する２つのターゲット間に対応関係を確立することである。例えば、第１のターゲットは、第１の画像において動き情報検出を行う必要があるターゲットであり、第２のターゲットは、第２の画像において第１のターゲットと同一のターゲットに属するターゲットである。

ステップ３０２では、上記対応関係に基づいて、第１のターゲットに対応する第２の画像におけるターゲットを第２のターゲットとして決定する。

ステップ３０１で第１の画像における少なくとも１つのターゲットと第２の画像における少なくとも１つのターゲットとの対応関係を決定した後、この対応関係に基づいて、第１の画像における第１のターゲットに対応する第２の画像におけるターゲットを第２のターゲットとして決定することができる。

本実施例によれば、２つの画像に対し、２つの画像におけるターゲット間の対応関係を決定することにより、直接対応関係に基づいて第１のターゲットに対応する第２の画像における第２のターゲットを決定することができ、これにより、第２のターゲットを決定する効率を向上させることができる。

選択的に、そのうちのいくつかの実施形態では、ステップ３０１において、第２の画像における少なくとも１つのターゲットの検出ボックスを追跡し、第１の画像における少なくとも１つのターゲットと第２の画像における少なくとも１つのターゲットとの間の対応関係を得ることができる。

本実施例によれば、ターゲットの検出ボックスを追跡することにより、異なる画像におけるターゲット間の対応関係を得ることができる。

図５は、本開示のさらに別の例示的な実施例に係るターゲット動き情報検出方法のフローチャートである。図５に示すように、別のいくつかの実施形態では、ステップ３０１は、以下のステップを含むことができる。

ステップ３０１１では、第２の画像から第１の画像へのオプティカルフロー情報を取得する。

本開示の実施例では、オプティカルフロー情報は、ビデオや画像シーケンスにおいて画像間の画素ドットの動きや時間系列情報を表すために用いられる。第２の画像から第１の画像へのオプティカルフロー情報は、第２の画像から第１の画像への画素の２次元モーションフィールドであり、第２の画像における画素ドットが第１の画像に移動する移動状況を表すために用いられる。そのうちのいくつかの実施形態では、オープンコンピュータビジョンライブラリー（ＯｐｅｎＳｏｕｒｃｅＣｏｍｐｕｔｅｒＶｉｓｉｏｎＬｉｂｒａｒｙ、ＯｐｅｎＣＶ）のようなビジョン技術を利用することができ、例えば、第２の画像と第１の画像とをＯｐｅｎＣＶによるモデルに入力し、このモデルが第２の画像と第１の画像との間のオプティカルフロー情報を出力することができる。

ステップ３０１２では、それぞれ第２の画像における少なくとも１つのターゲットのうちの各ターゲットの検出ボックスに対し、オプティカルフロー情報と第２の画像におけるターゲットの検出ボックスとに基づいて、第２の画像におけるターゲットの検出ボックス内の画素ドットが第１の画像に移行する位置を決定する。

ステップ３０１３では、第２の画像におけるターゲットの検出ボックス内の画素ドットが第１の画像に移行する位置のセットと第１の画像における各検出ボックスとの交差オーバーユニオン（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ、ＩｏＵ）比率、即ちこのセットと第１の画像における各検出ボックスとの被覆割合を取得する。

選択的に、そのうちのいくつかの実施形態では、上記セットと第１の画像における各検出ボックスとの積集合Ｉ、上記セットと第１の画像における各検出ボックスとの和集合Ｕを取得し、上記セットと第１の画像における各検出ボックスとの、積集合Ｉと和集合Ｕとの比率をそれぞれ計算して、セットと第１の画像における各検出ボックスとの被覆割合とすることができる。

ステップ３０１４では、第２の画像におけるターゲットと第１の画像における交差オーバーユニオン比率が最大の検出ボックスに対応するターゲットとの対応関係を確立し、この第１の画像における交差オーバーユニオン比率が最大の検出ボックスに対応するターゲットをこの第２の画像におけるターゲットに対応するターゲットとする。

本実施例によれば、２つの画像間のオプティカルフロー情報に基づいて第２の画像におけるあるターゲットの検出ボックス内の画素ドットが第１の画像に移行する位置のセットを決定し、このセットと第１の画像における各検出ボックスとの交差オーバーユニオン比率をそれぞれ取得し、交差オーバーユニオン比率が大きいほど、第１の画像におけるこの検出ボックスと上記セットにおける画素との重複割合が大きく、第１の画像における各検出ボックスのうち、このセットとの交差オーバーユニオン比率が最大の検出ボックスが第２の画像におけるこのターゲットの検出ボックスである確率が大きいことを説明し、２つの画像間のオプティカルフロー情報と、第２の画像におけるターゲットの検出ボックス内の画素ドットが第１の画像に移行する位置のセットと第１の画像における各検出ボックスとの間の交差オーバーユニオン比率とによって、２つの画像におけるターゲット間の対応関係を決定することで、２つの画像におけるターゲット間の対応関係をより正確に且つ客観的に決定することができる。

図６は、本開示のさらに別の例示的な実施例に係るターゲット動き情報検出方法のフローチャートである。図６に示すように、上記図２や図３に示された実施例に加えて、ステップ２０６は、以下のステップを含むことができる。

ステップ２０６１では、第３の座標から第１の座標へのベクトルを取得する。

ここで、第３の座標から第１の座標へのベクトルは、第３の座標から第１の座標への変位（ｄｉｓｐｌａｃｅｍｅｎｔ）ベクトル、即ち第３の座標から第１の座標への有向線分であり、この変位ベクトルの大きさは、第３の座標から第１の座標までの直線距離であり、この変位ベクトルの方向は、第３の座標から第１の座標を向く。

ステップ２０６２では、第３の座標から第１の座標へのベクトルの方向に基づいて、第２の画像の採集時刻から第１の画像の採集時刻までの対応する時間範囲内の第１のターゲットの動き方向を決定し、第３の座標から第１の座標へのベクトルのノルムと上記時間範囲とに基づいて、第１のターゲットの上記時間範囲内における動き速度を決定する。例えば、第３の座標から第１の座標へのベクトルのノルムと上記時間範囲との比の値を、第１のターゲットの上記時間範囲内における動き速度として取得することができる。ここで、第１のターゲットの上記時間範囲内における動き方向及び動き速度は、第１のターゲットの上記時間範囲内における動き情報を構成する。

本実施例によれば、第３の座標から第１の座標へのベクトルに基づいて、上記対応する時間範囲内の第１のターゲットの動き方向及び動き速度を正確に決定することによって、第１のターゲットの動き状態を把握することができる。

図７は、本開示のさらに別の例示的な実施例に係るターゲット動き情報検出方法のフローチャートである。図７に示すように、上記図２から図６に示された実施例に加えて、ステップ２０５前、以下のステップをさらに含むことができる。

ステップ４０１では、第２の画像に対してターゲット検出を行って、第２のターゲットの検出ボックスを得る。

ステップ４０２では、第２の画像の第２のカメラ座標系における深度情報を取得する。

また、第２の画像の第２のカメラ座標系における深度情報を決定した後、この第２の画像の第２のカメラ座標系における深度情報に基づいて、第２のターゲットの検出ボックスの深度情報を決定する。ここで、第２のターゲットの検出ボックスの深度情報は、第２のターゲットの検出ボックスの第２のカメラ座標系における深度情報である。

ステップ４０３では、第２のターゲットの検出ボックスの画像座標系における位置と第２のターゲットの検出ボックスの深度情報とに基づいて、第２のターゲットの第２のカメラ座標系における第２の座標を決定する。

本実施例によれば、後で直接この第２のターゲットの第２の座標に対して変換処理を行って対応する時間範囲内の第１のターゲットの動き情報を決定することができるように、予め画像シーケンスにおいて時間系列が第１の画像前である第２の画像に対してターゲット検出を行って深度情報を取得するこれにより、第２のターゲットの第２のカメラ座標系における第２の座標を決定する。これにより、シーンにおけるターゲットの動き情報の検出効率を向上させることができる。

選択的に、そのうちのいくつかの実施形態では、上記図７に示される実施例によれば、第２のターゲットの前記第２のカメラ座標系における第２の座標を決定した後、後で直接照会して使用することができるように、第２のターゲットの第２の座標を記憶しておくこともできる。これにより、シーンにおけるターゲットの動き情報の検出効率を向上させることができる。

選択的に、第１の画像を新たな第２の画像とし、画像シーケンスにおいて時間系列が第１の画像後である第３の画像を新たな第１の画像とし、本開示の上記いずれか１つの実施例に記載のターゲット動き情報検出方法を実行して、上記第１の画像の採集時刻から第３の画像の採集時刻までの対応する時間範囲内の第３の画像におけるターゲットの動き情報を決定することもできる。

本実施例によれば、画像シーケンスのフレームごと又は所定のフレーム間隔で画像におけるターゲットの動き情報を検出することによって、走行対象の走行中において、走行対象外シーンにおけるターゲットの動き状態に対する持続的な検出を実現して、ターゲットの動き状態に基づいて走行対象の走行を制御し、走行対象の安全な走行を保障することができる。

図８は、本開示の一例示的な実施例に係るターゲット動き情報検出方法の応用フローチャートである。以下、１つの応用実施例を例として、本開示の実施例のターゲット動き情報検出方法をさらに説明する。図８に示すように、この応用実施例は、以下のステップを含む。

ステップ５０１では、走行対象の走行中において、走行対象上の撮像装置がこの走行対象外シーンの画像を採集して画像シーケンスを得る。

この画像シーケンスにおいて、t－１時刻に採集した画像を第２の画像とし、Ｉ_ｔ－１と示し、ステップ５０２からステップ５０５及びステップ５０７を実行し、この画像シーケンスにおいて、ｔ時刻に採集した画像を第１の画像とし、Ｉ_ｔと示し、ステップ５０８からステップ５１１を実行する。撮像装置に対してステップ５０６を実行する。

ステップ５０２では、予め設定のターゲット検出フレームを採用して第２の画像Ｉ_ｔ－１に対してターゲット検出を行い、第２の画像Ｉ_ｔ－１におけるターゲットの検出ボックスを得、検出されたターゲットの検出ボックスが１つ又は複数である可能性があるため、検出ボックスセットＢＢｏｘ_ｔ－１で検出された第２の画像Ｉ_ｔ－１におけるターゲットの検出ボックスを表し、ｔ－１時刻に番号がｋであるターゲット（以下、ターゲットｋと呼ばれる）の検出ボックスは、以下のように記述される。

ここで、（ｘ，ｙ）は、ターゲットｋの検出ボックスの画像座標系における座標を表し、ｗ、ｈは、それぞれターゲットｋの検出ボックスの幅及び高さを表す。

ステップ５０３では、予め設定の深度推定方式を採用して第２の画像Ｉ_ｔ－１に対して深度推定を行い、第２の画像Ｉ_ｔ－１に対応する深度図Ｄ_ｔ－１を得る。

ここで、深度図Ｄ_ｔ－１には、第２の画像Ｉ_ｔ－１における異なる画素ドットのｔ－１時刻に対応する第２のカメラ座標系における深度値が含まれ、第２のカメラ座標系における第２の画像Ｉ_ｔ－１における画素ドット（ｉ，ｊ）の深度値は、

として表されることができる。

ステップ５０４では、第２の画像Ｉ_ｔ－１に対応する深度図Ｄ_ｔ－１から第２の画像Ｉ_ｔ－１における各ターゲットの検出ボックスにおける各画素ドットの深度値を取得し、予め設定の方式を採用して、第２の画像Ｉ_ｔ－１における各ターゲットの検出ボックスにおける各画素ドットの深度値に基づいて、第２の画像Ｉ_ｔ－１における各ターゲットの検出ボックスの深度値を決定する。

ここで、第２の画像Ｉ_ｔ－１における各ターゲットの検出ボックス内の各画素ドットの深度値は、第２の画像Ｉ_ｔ－１における各ターゲットの検出ボックスにおける各画素ドットの第２のカメラ座標系における深度値である。

続いてｔ－１時刻のターゲットｋを例とし、第２の画像Ｉ_ｔ－１に対応する深度図Ｄ_ｔ－１から、ターゲットｋの検出ボックス

における各画素ドットの深度値を取得してから、本開示の上記実施例の方式を採用して、ターゲットｋの検出ボックス

における各画素ドットの深度値に基づいてターゲットｋの検出ボックス

の深度値

を決定する。

ここで、ステップ５０３からステップ５０４は、ステップ５０２と同時に実行されてもよいし、任意の時間順で実行されてもよく、本開示の実施例は、これを制限することではない。

ステップ５０５では、第２の画像Ｉ_ｔ－１における各ターゲットの検出ボックスに対し、各ターゲットの検出ボックスの画像座標系における位置と各ターゲットの検出ボックスの深度値とに基づいて、各ターゲットのt－１時刻に対応する第２のカメラ座標系における３Ｄ座標（第２の座標）を決定する。

例えば、続いてt－１時刻のターゲットｋを例として、以下の式によってターゲットｋの検出ボックスのt－１時刻に対応する第２のカメラ座標系における３Ｄ座標

を得ることができる。

ここで、Ｋは、撮像装置自身の属性を表すための撮像装置のパラメータであり、予めキャリブレーションすることによって得ることができる。

ステップ５０６では、撮像装置のｔ－１時刻からｔ時刻までの位置姿勢変化行列Ｔ_t-1→tを取得する。

ここで、ステップ５０６は、ステップ５０２からステップ５０５、及びステップ５０８から５１３と同時に実行されてもよいし、任意の時間順で実行されてもよく、本開示の実施例は、これを制限することではない。

ステップ５０７では、上記位置姿勢変化行列Ｔ_t-1→tに基づいて、第２の画像Ｉ_ｔ－１における各ターゲットの第２のカメラ座標系における第２の座標を第１のカメラ座標系における３Ｄ座標（即ち上記第３の座標）に変換する。

例えば、続いてｔ－１時刻のターゲットｋを例として、以下の式によって第２の画像Ｉ_ｔ－１におけるターゲットｋの検出ボックスの第２の座標

を第３の座標

に変換することができる。

ステップ５０８では、予め設定のターゲット検出フレームを採用して、第１の画像Ｉ_ｔに対してターゲット検出を行い、第１の画像Ｉ_ｔにおけるターゲット（即ち、上記第１のターゲット）の検出ボックスを得、検出されたターゲットの検出ボックスが１つ又は複数である可能性があるため、検出ボックスセットＢＢｏｘ_ｔで第１のターゲットの検出ボックスを表し、ｔ時刻の第１のターゲットのうち、番号がｋ^～であるターゲット（以下、ターゲットｋ^～と呼ばれる）の検出ボックスは、以下の式のように記述される。

ここで、（ｘ，ｙ）は、ターゲットｐの検出ボックスの画像座標系における座標を表し、ｗ、ｈは、それぞれターゲットｋ^～の検出ボックスの幅及び高さを表す。

ステップ５０９では、予め設定の深度推定方式を採用して、第１の画像Ｉ_ｔに対して深度推定を行い、第１の画像Ｉ_ｔに対応する深度図Ｄ_ｔを得る。

ここで、深度図Ｄ_ｔには、第１の画像Ｉ_ｔにおける異なる画素ドットのｔ時刻に対応する第１のカメラ座標系における深度値が含まれ、第１の画像Ｉ_ｔにおける画素ドット（ｉ，ｊ）の第１のカメラ座標系における深度値は、

として表されることができる。

ステップ５１０では、第１の画像Ｉ_ｔに対応する深度図Ｄ_ｔから第１のターゲットの検出ボックスにおける各画素ドットの深度値を取得し、予め設定の方式を採用して、第１のターゲットの検出ボックスにおける各画素ドットの深度値に基づいて、第１のターゲットの検出ボックスの深度値を決定する。

ここで、第１のターゲットの検出ボックスの深度値は、第１のターゲットの検出ボックスの第１のカメラ座標系における深度値である。

続いてｔ時刻のターゲットｋ^～を例として、第１の画像Ｉ_ｔに対応する深度図Ｄ_ｔから、ターゲットｋ^～の検出ボックス

における各画素ドットの深度値を取得してから、本開示の上記実施例の方式を採用して、ターゲットｋ^～の検出ボックス

の深度値

を決定する。

ここで、ステップ５０９からステップ５１０は、ステップ５０８と同時に実行されてもよいし、任意の時間順で実行されてもよく、本開示の実施例は、これを制限することではない。

ステップ５１１では、第１のターゲットの検出ボックスの画像座標系における位置と第１のターゲットの検出ボックスの深度値とに基づいて、第１のターゲットのｔ時刻に対応する第１のカメラ座標系における第１の座標を決定する。

そのうちの第１のターゲットは、１つのターゲットであってもよいし、複数のターゲットであってもよく、第１のターゲットが複数のターゲットである場合、第１のターゲットのうちの各ターゲットに対し、各ターゲットの検出ボックスの画像座標系における位置と深度値に基づいて、このターゲットの検出ボックスのｔ時刻に対応する第１のカメラ座標系における３Ｄ座標（即ち、上記第１の座標）を決定する。例えば、続いてｔ時刻のターゲットｋ^～を例として、以下の式によってターゲットｋ^～の検出ボックスのｔ時刻に対応する第１のカメラ座標系における３Ｄ座標

を得ることができる。

ステップ５１２では、第１の画像Ｉ_ｔ－１における第１のターゲットと第２の画像Ｉ_ｔにおけるターゲットとの対応関係を決定する。

ステップ５１３では、上記対応関係に基づいて、第１のターゲットに対応する第２の画像におけるターゲットを第２のターゲットとして決定する。

そのうちの第２のターゲットは、１つのターゲットであってもよいし、複数のターゲットであってもよい。第１のターゲットと対応的に、第２のターゲットは、１つのターゲットであってもよいし、複数のターゲットであってもよく、複数のターゲットは、同じタイプのターゲット（例えば、全てが人である）であってもよいし、異なるタイプのターゲット（例えば、人、車両、建物などを含む）であってもよい。

ここで、ステップ５１２からステップ５１３は、本開示の上記図４から図５のいずれか１つの実施例に記載の方式によって、第１のターゲットに対応する第２の画像における第２のターゲットを決定してもよい。

ここで、ステップ５１２からステップ５１３は、ステップ５０２とステップ５０８後に実行されればよく、本応用の実施例における上記他のステップとの間で同時に実行されてもよいし、任意の時間順で実行されてもよい。本開示の実施例は、これを制限することではない。

ステップ５１４では、第１のターゲットの第１の座標と対応する第２のターゲットの第３の座標とに基づいて、ｔ－１時刻からｔ時刻までの対応する時間範囲Δ_ｔ内の第１のターゲットの動き情報を決定する。

そのうちの第１のターゲットは、１つのターゲットであってもよいし、複数のターゲットであってもよく、第１のターゲットが複数のターゲットである場合、各第１のターゲットに対し、それぞれこのステップ５１４を実行する。

第２の画像Ｉ_ｔ－１における第２のターゲットｋが第１の画像Ｉ_ｔにおける第１のターゲットｋ^～に対応すると仮定すると、第１のターゲットｋ^～のｔ時刻の第１の座標

と、対応する第２のターゲットｋのｔ－１時刻の第３の座標

と、に基づいて、第１のターゲットｋ^～の対応する時間範囲Δ_ｔ内の動き情報を決定する。具体的には、第３の座標

から第１の座標

へのベクトルを取得し、このベクトルの方向を第１のターゲットｋ^～の対応する時間範囲Δ_ｔ内の動き方向とし、以下の式のように示される。

第３の座標

から第１の座標

に形成されたベクトルのノルム

を取得し、以下の式によって第１のターゲットｋ^～の対応する時間範囲Δ_ｔ内の動き速度ｖを取得する。

図９は、本開示の一例示的な実施例に係るターゲット動き情報に基づく走行対象制御方法のフローチャートである。本実施例は、車両、ロボット、玩具車などの走行対象上に応用されることができる。図９に示すように、この実施例のターゲット動き情報に基づく走行対象制御方法は、以下のステップを含む。

ステップ６０１では、走行対象の走行中において走行対象上の撮像装置によって走行対象外シーンの画像シーケンスを採集する。

ステップ６０２では、画像シーケンスにおける少なくとも１フレームの画像を第１の画像とし、画像シーケンスにおいて前記第１の画像前であり且つ第１の画像と予め設定のフレーム数間隔を有する少なくとも１フレームの画像を第２の画像とし、本開示の上記いずれか１つの実施例の走行中の動き情報検出方法の方法を利用して、走行対象外シーンにおけるターゲットの動き情報を決定する。

ステップ６０３では、上記ターゲットの動き情報に基づいて、走行対象の走行状態を制御するように、走行対象の走行状態を制御するための制御命令を生成する。

本実施例によれば、走行対象の走行中において、本開示のいずれか１つの実施例に記載の走行中の動き情報検出方法を利用して運転シーンにおけるターゲットの動き情報を決定し、このターゲットの動き情報に基づいて走行対象の走行状態を制御するための制御命令を生成することによって、コンピュータビジョン技術の利用による運転シーンにおけるターゲットの動き情報の検出、走行対象に対するインテリジェント運転制御を実現し、自動運転シーンにおける走行対象に対するリアルタイムなインテリジェント運転制御を満たすに有利であり、走行対象の安全な走行を保障することができる。

選択的に、そのうちのいくつかの実施形態では、上記制御命令は、例えば、動き速度の大きさを保持するための制御命令、動き速度の大きさを調整するための制御命令（例えば減速走行の制御命令、加速走行の制御命令など）、動き方向を保持するための制御命令、動き方向を調整するための制御命令（例えば、左折の制御命令、右折の制御命令、左側への車線変更の制御命令、又は右側への車線変更の制御命令など）、警報提示のための制御命令（例えば、前方ターゲットなどに対する注意喚起メッセージ）、運転モード切り替えを行うための制御命令（例えば、自動巡航運転モードへの切り替えの制御命令、人工運転モードへの切り替えの制御命令など）などのうちの少なくとも１つを含むことができるが、それらに限らない。本開示の実施例の制御命令は、実際の要求によって設定することができ、上記制御命令には限らない。

本開示の上記いずれか１つの実施例に係るターゲット動き情報検出方法又はターゲット動き情報に基づく走行対象制御方法は、データ処理能力を有する任意の適切な機器によって実行されることができ、端末機器及びサーバなどを含むが、それらに限らない。又は、本開示の上記いずれか１つの実施例に係るターゲット動き情報検出方法又はターゲット動き情報に基づく走行対象制御方法は、プロセッサによって実行されることができ、例えば、プロセッサは、メモリに記憶されている相応する命令を呼び出すことによって、本開示の上記いずれか１つの実施例に係るターゲット動き情報検出方法又はターゲット動き情報に基づく走行対象制御方法を実行する。以下では、その説明を省略する。

（例示的な装置）
図１０は、本開示の一例示的な実施例に係るターゲットの動き情報を検出する装置の構造概略図である。このターゲットの動き情報を検出する装置は、端末機器、サーバなどの電子機器に設けられてもよいし、車両、ロボット、玩具車などの走行対象に設けられてもよく、本開示の上記いずれか１つの実施例のターゲット動き情報検出方法を実行する。図１０に示すように、このターゲットの動き情報を検出する装置は、検出モジュール７０１と、第１の取得モジュール７０２と、第１の決定モジュール７０３と、第２の決定モジュール７０４と、第２の取得モジュール７０５と、変換モジュール７０６と、第３の決定モジュール７０７と、を含む。

検出モジュール７０１は、第１の画像に対してターゲット検出を行って第１のターゲットの検出ボックスを得るために用いられ、そのうちの第１の画像は、走行対象上の撮像装置が走行対象の走行中に採集した走行対象外シーンの画像である。

第１の取得モジュール７０２は、第１の画像の対応する第１のカメラ座標系における深度情報を取得するために用いられる。

第１の決定モジュール７０３は、第１の取得モジュール７０２によって取得された第１の画像の深度情報に基づいて、第１のターゲットの検出ボックスの深度情報を決定するために用いられる。

第２の決定モジュール７０４は、検出モジュール７０１によって得られた第１のターゲットの検出ボックスの画像座標系における位置と第１の決定モジュール７０３によって決定された第１のターゲットの検出ボックスの深度情報とに基づいて、第１のターゲットの第１のカメラ座標系における第１の座標を決定するために用いられる。

第２の取得モジュール７０５は、第２の画像の採集から第１の画像の採集までの撮像装置の位置姿勢変化情報を取得するために用いられる。ここで、第２の画像は、第１の画像が位置する画像シーケンスにおいて時間系列が第１の画像前であり且つ第１の画像と予め設定のフレーム数の間隔を有する画像である。

変換モジュール７０６は、第２の取得モジュール７０５によって取得された位置姿勢変化情報に基づいて、第２のターゲットの第２の画像に対応する第２のカメラ座標系における第２の座標を第１のカメラ座標系における第３の座標に変換するために用いられる。ここで、第２のターゲットは、第１のターゲットに対応する第２の画像におけるターゲットである。

第３の決定モジュール７０７は、第２の決定モジュール７０４によって決定された第１の座標と変換モジュール７０６によって変換された第３の座標とに基づいて、第２の画像の採集時刻から第１の画像の採集時刻までの対応する時間範囲内の第１のターゲットの動き情報を決定するために用いられる。

本実施例によれば、コンピュータビジョン技術を利用して、走行対象の走行中に採集したこの走行対象外シーンの画像に基づいて運転シーンにおけるターゲットの動き情報を決定し、レーザレーダに依頼する必要がなく、レーザレーダを採用してターゲットの動き速度及び方向を取得する方式に比べて、レーザビームを高頻度で出射することによって点群データを構築し、２つの点群データ上でターゲット検出及びターゲット追跡を行って、ターゲットの動き速度及び方向を計算する必要がないため、膨大な計算処理を回避し、処理時間を節約し、処理効率を向上させることができ、リアルタイム性に対する要求が比較的高い自動運転などのシーン需要を満たすに有利である。

図１１は、本開示の別の例示的な実施例に係るターゲットの動き情報を検出する装置の構造概略図である。図１１に示すように、上記図１１に示される実施例に加えて、この実施例のターゲットの動き情報を検出する装置において、第１の決定モジュール７０３は、第１の画像の深度情報から第１のターゲットの検出ボックスにおける各画素ドットの深度値を取得するための第１の取得ユニット７０３１と、予め設定の方式を採用して、第１の取得ユニット７０３１によって取得された第１のターゲットの検出ボックスにおける各画素ドットの深度値に基づいて、第１のターゲットの検出ボックスの深度情報を決定するための第１の決定ユニット７０３２と、を含む。

選択的に、そのうちのいくつかの実施形態では、第１の決定ユニット７０３２は、具体的に、第１の取得ユニット７０３１によって取得された第１のターゲットの検出ボックスにおける各画素ドットの深度値のうち、出現頻度が最高の深度値を第１のターゲットの検出ボックスの深度情報として選択するために用いられる。

又は、別のいくつかの実施形態では、第１の決定ユニット７０３２は、具体的に、第１のターゲットの検出ボックスにおける各画素ドットの深度値のうち、それぞれ予め設定の各深度値範囲内にある画素ドットの数を決定し、深度値が同一の深度値の範囲内にある画素ドットの数が最多の深度値範囲に基づいて、第１のターゲットの検出ボックスの深度情報を決定するために用いられる。

又は、さらに別のいくつかの実施形態では、第１の決定ユニット７０３２は、具体的に、第１のターゲットの検出ボックスにおける各画素ドットの深度値の平均値を、第１のターゲットの検出ボックスの深度情報として取得するために用いられる。

選択的に、図１１を再度参照すると、上記実施例のターゲットの動き情報を検出する装置は、第４の決定モジュール７０８と、第５の決定モジュール７０９と、をさらに含むことができる。

第４の決定モジュール７０８は、第１の画像における少なくとも１つのターゲットと第２の画像における少なくとも１つのターゲットとの対応関係を決定するために用いられ、ここで、第１の画像におけるターゲットは、上記第１のターゲットを含む。

第５の決定モジュール７０９は、第４のモジュール７０８によって決定された対応関係に基づいて、第１のターゲットに対応する第２の画像におけるターゲットを上記第２のターゲットとして決定するために用いられる。

選択的に、そのうちのいくつかの実施形態では、第４の決定モジュール７０８は、具体的に、第２の画像における少なくとも１つのターゲットの検出ボックスを追跡し、第１の画像における少なくとも１つのターゲットと第２の画像における少なくとも１つのターゲットとの対応関係を得るために用いられる。

又は、別のいくつかの実施形態では、第４の決定モジュール７０８は、第２の画像から第１の画像へのオプティカルフロー情報を取得するための第２の取得ユニット７０８１と、それぞれ第２の画像における少なくとも１つのターゲットのうちの各ターゲットの検出ボックスに対し、上記オプティカルフロー情報と第２の画像におけるターゲットの検出ボックスとに基づいて、第２の画像におけるターゲットの検出ボックス内の画素ドットが第１の画像に移行する位置を決定するための第２の決定ユニット７０８２と、ターゲットの検出ボックス内の画素ドットが第１の画像に移行する位置のセットと第１の画像における各検出ボックスとの間の交差オーバーユニオン比率を取得するための第３の取得ユニット７０８３と、第２の画像におけるターゲットと第１の画像における交差オーバーユニオン比率が最大の検出ボックスに対応するターゲットとの対応関係を確立するための確立ユニット７０８４と、を含む。

選択的に、図１１を再度参照すると、そのうちのいくつかの実施形態では、第３の決定モジュール７０７は、第３の座標から第１の座標へのベクトルを取得するための第４の取得ユニット７０７１と、第４の取得ユニット７０７１によって取得されたベクトルの方向に基づいて、第１のターゲットの上記時間範囲内における動き方向を決定し、上記ベクトルのノルムと上記時間範囲とに基づいて第１のターゲットの上記時間範囲内における動き速度を決定するための第３の決定ユニット７０７２と、を含む。

選択的に、上記各実施例のターゲットの動き情報を検出する装置において、検出モジュール７０１は、第２の画像に対してターゲット検出を行って、第２のターゲットの検出ボックスを得るために用いられることもできる。第１の取得モジュール７０２は、第２の画像の第２のカメラ座標系における深度情報を取得するために用いられることもできる。第２の決定モジュール７０４は、検出モジュール７０１によって得られた第２のターゲットの検出ボックスの画像座標系における位置と第１の決定モジュール７０３によって決定された第２のターゲットの検出ボックスの深度情報とに基づいて、第２のターゲットの第２のカメラ座標系における第２の座標を決定するために用いられることもできる。

選択的に、図１１を再度参照すると、上記実施例のターゲットの動き情報を検出する装置は、第２の決定モジュール７０４によって決定された第２のターゲットの前記第２の座標を記憶するための記憶モジュール７１０をさらに含むことができる。

選択的に、上記各実施例がターゲットの動き情報を検出する装置において、第１の画像を新たな第２の画像とし、画像シーケンスにおいて時間系列が第１の画像後である第３の画像を新たな第１の画像とし、ターゲットの動き情報を検出する装置における各モジュールは、該当する操作を実行して、上記第１の画像の採集時刻から第３の画像の採集時刻までの対応する時間範囲内の第３の画像におけるターゲットの動き情報を決定することもできる。

図１２は、本開示の一例示的な実施例に係るターゲットの動き情報に基づいて走行対象を制御する装置の構造概略図である。この走行中のターゲットの動き情報に基づいて走行対象を制御する装置は、車両、ロボット、玩具車などの走行対象に設けられて、走行対象に対してターゲットの動き情報に基づく走行対象の制御を行うことができる。図１２に示すように、このターゲットの動き情報に基づいて走行対象を制御する装置は、撮像装置８０１と、動き情報検出装置８０２と、制御装置８０３と、を含む。

撮像装置８０１は、走行対象上に設けられ、走行対象の走行中において走行対象外シーンの画像シーケンスを採集するために用いられる。

動き情報検出装置８０２は、上記画像シーケンスにおける少なくとも１フレームの画像を第１の画像とし、上記画像シーケンスにおいて第１の画像前であり且つ第１の画像と予め設定のフレーム数間隔を有する少なくとも１フレームの画像を第２の画像として、走行対象外シーンにおけるターゲットの動き情報を決定するために用いられる。この動き情報検出装置８０２は、具体的に、上記図１０から図１１のいずれか１つの実施例のターゲットの動き情報を検出する装置によって実現されることができる。

制御装置８０３は、動き情報検出装置８０２によって検出されたターゲットの動き情報に基づいて、走行対象の走行状態を制御するための制御命令を生成するために用いられる。

本実施例によれば、走行対象の走行中において、走行対象上の撮像装置によって走行対象外シーンの画像シーケンスを採集し、画像シーケンスにおける少なくとも１フレームの画像を第１の画像とし、画像シーケンスにおいて第１の画像前であり且つ第１の画像と予め設定のフレーム数間隔を有する少なくとも１フレームの画像を第２の画像とし、本開示のいずれか１つの実施例に記載のターゲット動き情報検出方法を利用して運転シーンにおけるターゲットの動き情報を決定し、このターゲットの動き情報に基づいて走行対象の走行状態を制御するための制御命令を生成することによって、コンピュータビジョン技術の利用による運転シーンにおけるターゲットの動き情報の検出、走行対象に対するインテリジェント運転制御を実現し、自動運転シーンにおける走行対象に対するリアルタイムなインテリジェント運転制御を満たすに有利であり、走行対象の安全な走行を保障することができる。

選択的に、そのうちのいくつかの実施形態では、上記制御命令は、例えば、動き速度の大きさを保持するための制御命令、動き速度の大きさを調整するための制御命令、動き方向を保持するための制御命令、動き方向を調整するための制御命令、警報提示のための制御命令、運転モード切り替えを行うための制御命令などのうちの少なくとも１つを含んでもよいが、それらに限らない。

（例示的な電子機器）
以下、図１３を参照しながら本開示の実施例に基づく電子機器を記述する。図１３は、本開示の実施例に基づく電子機器のブロック図を示す。図１３に示すように、電子機器は、１つ又は複数のプロセッサ１１と、メモリ１２と、を含む。

プロセッサ１１は、中央処理ユニット（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）又はデータ処理能力及び／又は命令実行能力を有する他の形式の処理ユニットであってもよく、電子機器１０における他のコンポーネントを制御して所望の機能を実行することができる。

メモリ１２は、１つ又は複数のコンピュータプログラム製品を含むことができ、前記コンピュータプログラム製品は、揮発性メモリ及び／又は不揮発性メモリなどの様々な形式のコンピュータ可読記憶媒体を含むことができる。前記揮発性メモリは、例えば、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）及び／又は高速キャッシュメモリ（ｃａｃｈｅ）などを含むことができる。前記不揮発性メモリは、例えば、リードオンリーメモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、ハードディスク、フラッシュメモリなどを含むことができる。前記コンピュータ可読記憶媒体には、１つ又は複数のコンピュータプログラム命令が記憶されることができ、プロセッサ１１は、前記プログラム命令を実行して、上述した本開示の各実施例のターゲット動き情報検出方法又はターゲット動き情報に基づく走行対象制御方法及び／又は他の所望の機能を実現することができる。前記コンピュータ可読記憶媒体には、例えば、画像の深度情報、ターゲットの検出ボックスの深度情報、撮像装置の位置姿勢変化情報などの様々な内容が記憶されることができる。

一例では、電子機器１０は、入力装置１３と出力装置１４とをさらに含むことができ、これらのコンポーネントは、バスシステム及び／又は他の形式の接続機構（図示せず）を介して相互接続される。

例えば、この入力装置１３は、上記のマイクロホン又はマイクロホンアレイであってもよく、又は、この入力装置１３は、通信ネットワークコネクタであってもよい。

なお、この入力装置１３は、例えば、キーボード、マウスなどをさらに含んでもよい。

この出力装置１４は、決定された第２の画像の採集時刻から第１の画像の採集時刻までの対応する時間範囲内の第１のターゲットの動き情報などを含む様々な情報を外部に出力することができる。この出力装置１４は、例えば、ディスプレイ、スピーカ、プリンタ、通信ネットワーク及びそれに接続されている遠隔出力装置などを含むことができる。

無論、簡素化のために、図１３には、この電子機器１０のうち、本開示に関連するコンポーネントの一部のみが示されており、例えば、バス、入力／出力インタフェースなどのコンポーネントは省略されている。このほか、具体的な応用状況に応じ、電子機器１０は、任意の他の適切なコンポーネントをさらに含んでもよい。

（例示的なコンピュータプログラム製品とコンピュータ可読記憶媒体）
上記方法と機器のほか、本開示の実施例は、コンピュータプログラム命令を含むコンピュータプログラム製品であることもできる。前記コンピュータプログラム命令がプロセッサによって実行されると、前記プロセッサに、本明細書の上記「例示的な方法」の部分に記述されている本開示の様々な実施例に基づくターゲット動き情報検出方法又はターゲット動き情報に基づく走行対象制御方法におけるステップを実行させる。

前記コンピュータプログラム製品は、１つ又は複数のプログラミング言語の任意の組み合わせによって本開示の実施例の操作を実行するためのプログラムコードを作成することができ、前記プログラミング言語は、Ｊａｖａ（登録商標）、Ｃ＋＋などのオブジェクト向けのプログラミング言語を含み、例えば、「Ｃ」言語又は類似のプログラミング言語などの一般的な手続き型プログラミング言語をさらに含む。プログラムコードは、下記のように実行されることができ、すなわち、ユーザコンピューティングデバイス上で全体的に実行される、ユーザ機器上で部分的に実行される、独立したソフトウェアパッケージとして実行される、一部はユーザコンピューティングデバイス上で実行され、別の一部は遠隔コンピューティングデバイス上で実行される、又は、遠隔コンピューティングデバイス又はサーバ上で全体的に実行される。

なお、本開示の実施例は、コンピュータプログラム命令が記憶されるコンピュータ可読記憶媒体であることもできる。前記コンピュータプログラム命令がプロセッサによって実行されると、前記プロセッサに、本明細書の上記「例示的な方法」の部分に記述されている本開示の様々な実施例に基づくターゲット動き情報検出方法又はターゲット動き情報に基づく走行対象制御方法におけるステップを実行させる。

前記コンピュータ可読記憶媒体は、１つ又は複数の可読媒体の任意の組み合わせを採用することができる。可読媒体は、可読信号媒体又は可読記憶媒体であってもよい。可読記憶媒体は、例えば、電気、磁気、光、電磁、赤外線、又は半導体のシステム、装置又はデバイス、又は任意以上の組み合わせを含むことができるが、それらに限らない。可読記憶媒体のより具体的な例（非網羅的リスト）は、１つ又は複数の導線を有する電気接続、ポータブルディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＥＰＲＯＭ）又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＣＤ－ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、又は上記の任意の適切な組み合わせを含む。

以上、具体的な実施例を参照しながら本開示の基本的原理を記述してきたが、本開示に言及された利点、優位性、効果などは、制限されず、例示に過ぎず、これらの利点、優位性、効果などは、本開示の各実施例が必ずしも備えられるのではない。また、上記開示の具体的な細部は、例示的な作用及び理解しやすい作用のためのものにすぎず、限定的なものではなく、上記細部は、本開示を必ずしも上記具体的な詳細により実現されるように制限するものではない。

本明細書における各実施例は、いずれも逐次的な方法で記述されており、各実施例間に同じである部分や類似した部分は、互いに参照さればよく、各実施例では、主に他の実施例との相違点を重点として説明した。システム実施例においては、基本的に方法の実施例に対応するため、その記述は、比較的簡単であり、関連内容は、方法の実施例の部分の説明を参照すればよい。

本開示に関わるデバイス、装置、機器、システムのブロック図は、単なる例示的な例にすぎず、必ずしもブロック図に示される方式で接続、レイアウト、配置することを要求又は暗示することを意図しない。当業者が理解できるように、これらのデバイス、装置、機器、システムを任意の形態で接続、レイアウト、配置することができる。例えば、「含む」、「備える」、「有する」などの単語は開放的語彙であり、「含むが限定されない」ことを指し、互いに置き換えて使用され得る。本明細書で使用される「又は」及び「及び」という用語は、「及び／又は」という用語を指し、そのようでないと明記しない限り、互いに置き換えて使用され得る。ここで使用される語彙「例えば」とは、「例えば、…であるが、これに限定されない」という連語を指し、互いに置き換えて使用され得る。

本開示の方法及び装置は、多くの形態で実現され得る。例えば、本開示の方法及び装置は、ソフトウェア、ハードウェア、ファームウェア、又はソフトウェア、ハードウェア、ファームウェアのいかなる組み合わせで実現され得る。前記方法に使用されるステップの上記順序は、単なる説明のためのものであり、本開示の方法のステップは、特に他の形態で説明しない限り、以上具体的に説明された順序に限定されない。また、いくつかの実施例では、本開示は、記録媒体に記録されたプログラムとして実施されてもよく、これらのプログラムは、本開示に係る方法を実現するための機械読み取り可能な命令を含む。したがって、本開示に係る方法を実行するためのプログラムを記憶する記録媒体も本開示に含まれる

また、本開示の装置、機器、及び方法において、各部材又は各ステップは、分解及び／又は再度組み合わせされてもよいことに指摘されたい。これらの分解及び／又は再度組み合わせは、本開示の同等な形態とみなされるべきである。

開示された態様の上記の説明は、当業者が本開示を作成又は使用することを可能にするために提供される。これらの態様に対する様々な修正は、当業者にとって非常に明らかであり、本明細書で定義された一般的な原理は、本開示の範囲から逸脱することなく他の態様に適用され得る。したがって、本開示は、本明細書に示された態様に制限されることを意図しておらず、本明細書に開示された原理及び新規な特徴と一致する最も広い範囲に従うものである。

上記の説明は、例示及び説明のために提供される。さらに、この説明は、本開示の実施例を本明細書に開示された形態に制限することを意図しない。以上、複数の例示的な態様及び実施例を説明したが、当業者であれば、それらの特定の変形、修正、変更、追加、及びサブコンビネーションを認識することができる。

Claims

走行対象上の撮像装置が前記走行対象の走行中に採集した前記走行対象外シーンの画像としての第１の画像に対してターゲット検出を行って第１のターゲットの検出ボックスを得るステップと、
前記第１の画像の対応する第１のカメラ座標系における深度情報を取得するステップと、
前記第１の画像の深度情報に基づいて前記第１のターゲットの検出ボックスの深度情報を決定し、前記第１のターゲットの検出ボックスの画像座標系における位置と前記第１のターゲットの検出ボックスの深度情報とに基づいて、前記第１のターゲットの前記第１のカメラ座標系における第１の座標を決定するステップと、
前記第１の画像が位置する画像シーケンスにおいて時間系列が前記第１の画像前であり且つ前記第１の画像と予め設定のフレーム数間隔を有する画像としての第２の画像の採集から前記第１の画像の採集までの前記撮像装置の位置姿勢変化情報を取得するステップと、
前記位置姿勢変化情報に基づいて、前記第１のターゲットに対応する第２の画像におけるターゲットとしての第２のターゲットの前記第２の画像に対応する第２のカメラ座標系における第２の座標を前記第１のカメラ座標系における第３の座標に変換するステップと、
前記第１の座標と前記第３の座標とに基づいて、前記第２の画像の採集時刻から前記第１の画像の採集時刻までの対応する時間範囲内の前記第１のターゲットの動き情報を決定するステップと、を含む、
ことを特徴とするターゲット動き情報検出方法。
前記第１の画像の対応する第１のカメラ座標系における深度情報に基づいて前記第１のターゲットの検出ボックスの深度情報を決定するステップは、
前記第１の画像の深度情報から前記第１のターゲットの検出ボックスにおける各画素ドットの深度値を取得するステップと、
予め設定の方式を採用して、前記第１のターゲットの検出ボックスにおける各画素ドットの深度値に基づいて前記第１のターゲットの検出ボックスの深度情報を決定するステップと、を含む、
ことを特徴とする請求項１に記載のターゲット動き情報検出方法。
前記位置姿勢変化情報に基づいて、第２のターゲットの前記第２の画像に対応する第２のカメラ座標系における第２の座標を前記第１のカメラ座標系における第３の座標に変換するステップ前に、
前記第１の画像における少なくとも１つのターゲットと前記第２の画像における少なくとも１つのターゲットとの対応関係を決定するステップであって、前記第１の画像における少なくとも１つのターゲットは、前記第１のターゲットを含むステップと、
前記対応関係に基づいて、前記第１のターゲットに対応する第２の画像におけるターゲットを前記第２のターゲットとして決定するステップと、をさらに含む、
ことを特徴とする請求項１に記載のターゲット動き情報検出方法。
前記第１の画像における少なくとも１つのターゲットと前記第２の画像における少なくとも１つのターゲットとの対応関係を決定する前記ステップは、
前記第２の画像における少なくとも１つのターゲットの検出ボックスを追跡し、前記第１の画像における少なくとも１つのターゲットと前記第２の画像における少なくとも１つのターゲットとの対応関係を得るステップを含む、
又は、
前記第２の画像から前記第１の画像へのオプティカルフロー情報を取得するステップと、
前記第２の画像における少なくとも１つのターゲットのうちの各ターゲットの検出ボックスに対し、前記オプティカルフロー情報と前記第２の画像におけるターゲットの検出ボックスとに基づいて、前記第２の画像におけるターゲットの検出ボックス内の画素ドットが前記第１の画像に移行する位置を決定するステップと、
前記ターゲットの検出ボックス内の画素ドットが前記第１の画像に移行する位置のセットと前記第１の画像における各検出ボックスとの交差オーバーユニオン比率を取得するステップと、
前記第２の画像におけるターゲットと前記第１の画像における交差オーバーユニオン比率が最大の検出ボックスに対応するターゲットとの対応関係を確立するステップと、を含む、
ことを特徴とする請求項３に記載のターゲット動き情報検出方法。
前記第１の座標と前記第３の座標とに基づいて、前記第２の画像の採集時刻から前記第１の画像の採集時刻までの対応する時間範囲内の前記第１のターゲットの動き情報を決定するステップは、
前記第３の座標から前記第１の座標へのベクトルを取得するステップと、
前記ベクトルの方向に基づいて前記第１のターゲットの前記時間範囲内における動き方向を決定し、前記ベクトルのノルムと前記時間範囲とに基づいて前記第１のターゲットの前記時間範囲内における動き速度を決定するステップであって、前記第１のターゲットの前記時間範囲内における動き情報は、前記第１のターゲットの前記時間範囲内における動き方向と動き速度とを含むステップと、を含む、
ことを特徴とする請求項１に記載のターゲット動き情報検出方法。
前記位置姿勢変化情報に基づいて、第２のターゲットの前記第２の画像に対応する第２のカメラ座標系における第２の座標を前記第１のカメラ座標系における第３の座標に変換するステップ前に、
前記第２の画像に対してターゲット検出を行って前記第２のターゲットの検出ボックスを得るステップと、
前記第２の画像の前記第２のカメラ座標系における深度情報を取得し、前記第２の画像の前記第２のカメラ座標系における深度情報に基づいて、前記第２のターゲットの検出ボックスの深度情報を決定するステップと、
前記第２のターゲットの検出ボックスの画像座標系における位置と前記第２のターゲットの検出ボックスの深度情報とに基づいて、前記第２のターゲットの前記第２のカメラ座標系における第２の座標を決定するステップと、をさらに含む、
ことを特徴とする請求項１から５のいずれか１項に記載のターゲット動き情報検出方法。
走行対象の走行中において、前記走行対象上の撮像装置によって前記走行対象外シーンの画像シーケンスを採集するステップと、
前記画像シーケンスにおける少なくとも１フレームの画像を第１の画像とし、前記画像シーケンスにおいて前記第１の画像前であり且つ前記第１の画像と予め設定のフレーム数間隔を有する少なくとも１フレームの画像を第２の画像とし、請求項１から７のいずれか１項に記載の方法を利用して、前記シーンにおけるターゲットの動き情報を決定するステップと、
前記ターゲットの動き情報に基づいて前記走行対象の走行状態を制御するための制御命令を生成するステップと、を含む、
ことを特徴とするターゲット動き情報に基づく走行対象制御方法。
走行対象上の撮像装置が前記走行対象の走行中に採集した前記走行対象外シーンの画像としての第１の画像に対してターゲット検出を行って第１のターゲットの検出ボックスを得るための検出モジュールと、
前記第１の画像の対応する第１のカメラ座標系における深度情報を取得するための第１の取得モジュールと、
前記第１の取得モジュールによって取得された前記第１の画像の深度情報に基づいて、前記第１のターゲットの検出ボックスの深度情報を決定するための第１の決定モジュールと、
前記検出モジュールによって得られた前記第１のターゲットの検出ボックスの画像座標系における位置と前記第１の決定モジュールによって決定された前記第１のターゲットの検出ボックスの深度情報とに基づいて、前記第１のターゲットの前記第１のカメラ座標系における第１の座標を決定するための第２の決定モジュールと、
前記第１の画像が位置する画像シーケンスにおいて時間系列が前記第１の画像前であり且つ前記第１の画像と予め設定のフレーム数間隔を有する画像としての第２の画像の採集から前記第１の画像の採集までの撮像装置の位置姿勢変化情報を取得するための第２の取得モジュールと、
前記第２の取得モジュールによって取得された前記位置姿勢変化情報に基づいて、前記第１のターゲットに対応する第２の画像におけるターゲットとしての第２のターゲットの前記第２の画像に対応する第２のカメラ座標系における第２の座標を前記第１のカメラ座標系における第３の座標に変換するための変換モジュールと、
前記第２の決定モジュールによって決定された前記第１の座標と前記変換モジュールによって変換された前記第３の座標に基づいて、前記第２の画像の採集時刻から前記第１の画像の採集時刻までの対応する時間範囲内の前記第１のターゲットの動き情報を決定するための第３の決定モジュールと、を含む、
ことを特徴とするターゲット動き情報検出装置。
走行対象上に設けられ、走行対象の走行中において前記走行対象外シーンの画像シーケンスを採集するための撮像装置と、
前記画像シーケンスにおける少なくとも１フレームのレート画像を第１の画像とし、前記画像シーケンスにおいて前記第１の画像前であり且つ前記第１の画像と予め設定のフレーム数間隔を有する少なくとも１フレームの画像を第２の画像として、前記シーンにおけるターゲットの動き情報を決定するための請求項１０から１６のいずれか１項に記載の動き情報検出装置と、
前記動き情報検出装置によって検出された前記ターゲットの動き情報に基づいて、前記走行対象の走行状態を制御するための制御命令を生成するための制御装置と、を含む、
ことを特徴とするターゲット動き情報に基づく走行対象制御装置。
請求項１から７のいずれか１項に記載の方法を実行させるためのコンピュータプログラムが記憶される、
ことを特徴とするコンピュータ可読記憶媒体。
プロセッサと、
前記プロセッサの実行可能命令を記憶するためのメモリと、を含み、
前記プロセッサは、前記メモリから前記実行可能命令を読み出し、前記命令を実行して請求項１から７のいずれか１項に記載の方法を実施する、
ことを特徴とする電子機器。