JP7228623B2

JP7228623B2 - 障害物検出方法、装置、設備、記憶媒体、及びプログラム

Info

Publication number: JP7228623B2
Application number: JP2021086756A
Authority: JP
Inventors: シュー，マオ
Original assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Current assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date: 2020-05-29
Filing date: 2021-05-24
Publication date: 2023-02-24
Anticipated expiration: 2041-05-24
Also published as: CN111652113A; CN111652113B; US11688177B2; KR20210040312A; JP2021121970A; EP3836017B1; EP3836017A3; US20210374439A1; EP3836017A2

Description

本開示は、スマート交通の分野に関し、特に、障害物検出の分野に関する。

スマート交通において路傍検知を行う時には、二次元（２Ｄ）物体検出アルゴリズム及び三次元（３Ｄ）物体検出アルゴリズムにより、画像における障害物の２Ｄ検出枠及び世界座標系における３Ｄ位置を得ることができ、３Ｄ位置の精度が路傍検知の精度を決める。路側カメラの設置位置、角度及びカメラの内部パラメータが様々であるため、３Ｄ検出技術によって予測した障害物の３Ｄ位置は精度が低い。

本開示は、障害物検出方法、装置、設備及び記憶媒体を提供する。

本開示の第１態様では、
画像における障害物の二次元検出枠の位置情報及び三次元検出枠の位置情報を取得することと、
前記障害物の三次元検出枠の位置情報を前記障害物の二次元投影枠の位置情報に変換することと、
前記画像における前記障害物の二次元検出枠、三次元検出枠及び二次元投影枠の位置情報を利用して、前記障害物の三次元検出枠の位置情報を最適化することとを含む、障害物検出方法を提供する。

本開示の第２態様では、
画像における障害物の二次元検出枠の位置情報及び三次元検出枠の位置情報を取得するための取得モジュールと、
前記障害物の三次元検出枠の位置情報を前記障害物の二次元投影枠の位置情報に変換するための変換モジュールと、
前記画像における前記障害物の二次元検出枠、三次元検出枠及び二次元投影枠の位置情報を利用して、前記障害物の三次元検出枠の位置情報を最適化するための最適化モジュールとを備える、障害物検出装置を提供する。

本開示の技術的解決手段によれば、画像における障害物の二次元検出枠の位置情報、三次元検出枠及び二次元投影枠の位置情報を利用して、当該障害物の三次元検出枠の位置情報を最適化することにより、路傍設備、車載設備又は他の検知設備による障害物の三次元位置の予測結果の正確さを高めることができる。
なお、上述した内容が本開示の実施形態の重要な特徴を示すためではなく、本開示の範囲の限定にもならない。本開示の他の特徴は下記の説明から理解しやすくなる。

次に記載の各図面は本開示の理解を促すためのもので、本開示の限定にならない。
本開示の一実施形態による障害物検出方法のフローチャートである。二次元検出枠の模式図である。三次元検出枠の模式図である。本開示の別の実施形態による障害物検出方法のフローチャートである。本開示の別の実施形態による障害物検出方法のフローチャートである。本開示の別の実施形態による障害物検出方法のフローチャートである。本開示の別の実施形態による障害物検出方法の適用例のフローチャートである。本開示の一実施形態による障害物検出装置のブロック図である。本開示の別の実施形態による障害物検出装置のブロック図である。本開示の実施形態による障害物検出方法を実現するための電子設備のブロック図である。

次に、図面を参照して本開示の例示的な実施形態を説明し、中には理解を促すために本開示の実施形態の様々な詳細が含まれるが、それが例示的な内容に過ぎない。したがって、当業者が理解したように、本開示の範囲や趣旨から逸脱せずここに記載の実施形態に対し様々な変更や修正を行うことができる。また、次の説明では簡素化の観点上、周知の機能及び構造の説明は省略する。

図１は本開示の一実施形態による障害物検出方法のフローチャートである。当該方法はＳ１０１～Ｓ１０３を含んでもよい。
Ｓ１０１で、画像における障害物の二次元検出枠の位置情報及び三次元検出枠の位置情報を取得する。
Ｓ１０２で、当該障害物の三次元検出枠の位置情報を当該障害物の二次元投影枠の位置情報に変換する。
Ｓ１０３で、当該画像における当該障害物の二次元検出枠、三次元検出枠及び二次元投影枠の位置情報を利用して、当該障害物の三次元検出枠の位置情報を最適化する。

本開示の実施形態で画像は、ビデオのフレーム画像、撮影写真などであってもよい。例えば、車載カメラ（撮影機とも呼ばれる）で撮影したビデオのフレーム画像、携帯電話で撮影した写真などである。画像には様々なタイプの障害物が含まれてもよい。障害物の検出方法が様々である。例えば、ニューラルネットワークなどでトレーニングして、１種以上の障害物を認識できる検出モデルを得る。検出モデルなどを利用して画像を検出して、障害物の二次元検出枠の位置情報及び三次元検出枠の位置情報を得る。二次元検出枠及び三次元検出枠を得る障害物検出モデルは同一のモデルであってもよいし、異なるモデルであってもよい。二次元検出枠の位置情報は当該障害物が位置する二次元検出枠の座標、例えば、左上隅の座標及び右下隅の座標を含んでもよい。三次元検出枠の位置情報は当該障害物が位置する三次元検出枠の座標、サイズ、方向角などを含んでもよい。

例えば、図２に示すとおり、二次元の障害物検出モデルを利用して、画像から障害物Ａの二次元検出枠の位置情報［ｘ１，ｘ２，ｙ１，ｙ２］を認識できる。ここで、［ｘ１，ｙ１］は当該障害物の二次元検出枠の左上隅の座標であってもよく、［ｘ２，ｙ２］は当該障害物の二次元検出枠の右下隅の座標であってもよい。また、図３に示すとおり、三次元の障害物検出モデルを利用して、画像から障害物Ａの三次元検出枠の位置情報を認識できる。当該三次元検出枠の中心点のカメラ座標系における座標［ｘ３ｄ，ｙ３ｄ，ｚ３ｄ］、長さ・幅・高さ［ｗ３ｄ，ｈ３ｄ，ｌ３ｄ］、ｙ軸方向角ｒｙ３ｄを含む。

三次元検出枠の位置情報の投影によって二次元投影枠の位置情報を得ることができる。例えば、三次元検出枠が直方体である場合に、投影式により当該直方体の８つの頂点に対応する二次元投影点を算出できる。投影式の一例は次のとおりである。
ｘ＝ＫＸ
ここで、Ｋとはカメラの内部パラメータ行列であり、ｘとは二次元投影点の座標［ｘ，ｙ］であり、Ｘとは三次元点の座標［ｘ，ｙ，ｚ］である。

三次元検出枠の各頂点に対し、対応する二次元投影点を算出した後、前記二次元投影点から二次元投影枠を得ることができる。当該二次元投影枠は当該三次元検出枠の全ての二次元投影点を含んでもよい。例えば、三次元検出枠の８つの二次元投影点の座標を利用して、二次元投影枠のｘ軸における最大値ｘ_ｍａｘと最小値ｘ_ｍｉｎ、及びｙ軸における最大値ｙ_ｍａｘと最小値ｙ_ｍｉｎを得、さらに二次元投影枠の位置情報［ｘ_ｍａｘ，ｘ_ｍｉｎ，ｙ_ｍａｘ，ｙ_ｍｉｎ］を得る。

次に、画像における障害物の二次元検出枠の位置情報、三次元検出枠及び二次元投影枠の位置情報のうちの１つ以上を利用して、損失関数を構築する。当該障害物の三次元検出枠の座標及び軸角などを調整した後、損失関数を利用して損失を計算することにより、当該障害物の三次元検出枠の位置情報を最適化する。

本開示では、画像における障害物の二次元検出枠の位置情報、三次元検出枠及び二次元投影枠の位置情報を利用して、当該障害物の三次元検出枠の位置情報を最適化することにより、路傍設備、車載設備又は他の検知設備による障害物の三次元位置の予測結果の正確さを高めることができる。本開示の実施形態の障害物検出方法は三次元障害物の位置の路傍検知のシーンに適用され、車載カメラや他の監視カメラなどのシーンにも適用される。

図４は本開示の別の実施形態による障害物検出方法のフローチャートである。当該実施形態の障害物検出方法は前記実施形態の各ステップを含んでもよい。

本実施形態では、Ｓ１０３で、当該画像における当該障害物の二次元検出枠、三次元検出枠及び二次元投影枠の位置情報を利用して、当該障害物の三次元検出枠の位置情報を最適化するステップは、Ｓ２０１～Ｓ２０３を含んでもよい。

Ｓ２０１で、当該画像における当該障害物の二次元検出枠、三次元検出枠及び二次元投影枠の位置情報を用いて、当該障害物の三次元検出枠の位置情報に対して少なくとも１つの制約項目を設定する。
Ｓ２０２で、当該制約項目を利用して損失関数を構築する。
Ｓ２０３で、当該損失関数を利用して、当該障害物の三次元検出枠の位置情報を最適化する。

予測結果を分析したところ、障害物の二次元検出枠の予測結果の方が真値に近い。障害物の二次元検出枠、三次元検出枠及び二次元投影枠の位置情報を利用して、少なくとも１つの制約項目を設定することにより、障害物の三次元位置が二次元位置の予測結果に一層マッチングし、障害物の三次元位置の予測結果の正確さを高めることができる。

可能な一実施形態では、当該制約項目は第１制約項目を含み、当該第１制約項目は当該障害物の二次元検出枠及び二次元投影枠の中心点座標に基づいて設定される。二次元検出枠及び二次元投影枠の中心点座標を利用して第１制約項目を設定し、第１制約項目を利用して損失関数を構築し、二次元投影枠と二次元検出枠の中心点が最大限に近づき、場合によっては重なることを希望することにより、路傍設備、車載設備又は他の検知設備による障害物の三次元位置の予測結果の正確さを高める。

可能な一実施形態では、当該制約項目は第２制約項目をさらに含み、当該第２制約項目は当該障害物の二次元検出枠及び二次元投影枠の左右両辺の座標に基づいて設定される。二次元検出枠及び二次元投影枠の左右両辺の座標を利用して第２制約項目を設定し、第２制約項目を利用して損失関数を構築し、二次元投影枠と二次元検出枠の左右両辺が最大限に近づき、場合によっては重なることを希望することにより、路傍設備、車載設備又は他の検知設備による障害物の三次元位置の予測結果の正確さを高める。

可能な一実施形態では、当該制約項目は第３制約項目をさらに含み、当該第３制約項目は当該障害物の三次元検出枠の投影点座標に基づいて設定される。三次元検出枠の投影点座標を利用して第３制約項目を設定し、第３制約項目を利用して損失関数を構築することにより、最適化で調整幅が制御しやすくなり、路傍設備、車載設備又は他の検知設備による障害物の三次元位置の予測結果の精度を高める。

前記第１制約項目、第２制約項目及び第３制約項目はいずれか単独で損失関数を構築してもよいし、２つ又はその全てで損失関数を構築してもよい。複数の制約項目を設けることで、最適解が満たすべき条件を充分に検討し、最適解を見逃す確率を低減し、最終的には障害物の三次元位置の予測結果がより正確である。

図５は本開示の別の実施形態による障害物検出方法のフローチャートである。当該実施形態の障害物検出方法は前記いずれかの実施形態の各ステップを含んでもよい。

本実施形態では、Ｓ２０３で、当該損失関数を利用して、当該三次元検出枠の位置情報を最適化するステップは、Ｓ３０１～Ｓ３０５を含んでもよい。
Ｓ３０１で、障害物の三次元検出枠の初期予測結果及び前記損失関数を利用して、初期損失を計算し、当該初期損失は参照損失である。

Ｓ３０２で、予測誤差に基づいて初期の解空間範囲を設定する。例えば、障害物の三次元検出枠の位置情報で調整可能な変数が三次元座標［ｘ３ｄ，ｙ３ｄ，ｚ３ｄ］及び方向角ｒｙ３ｄの４つである場合に、予め真値のあるデータを利用して三次元検出結果を得、真値と予測値の誤差を計算し、誤差の平均値［ｘ３ｄ_ｍｅａｎ，ｙ３ｄ_ｍｅａｎ，ｚ３ｄ_ｍｅａｎ，ｒｙ３ｄ_ｍｅａｎ］を統計し、これを先験的な予測誤差とする。使用する時は、真値のないデータを利用して得た初期の三次元検出結果は［ｘ３ｄ，ｙ３ｄ，ｚ３ｄ，ｒｙ３ｄ］である。この場合に、ｘ３ｄの解空間は［ｘ３ｄ_ｍｉｎ＝ｘ３ｄ－ｘ３ｄ_ｍｅａｎ，ｘ３ｄ_ｍａｘ＝ｘ３ｄ＋ｘ３ｄ_ｍｅａｎ］であり、他の３つの変数については同様である。

ｙ３ｄの解空間は［ｙ３ｄ_ｍｉｎ＝ｙ３ｄ－ｙ３ｄ_ｍｅａｎ，ｙ３ｄ_ｍａｘ＝ｙ３ｄ＋ｙ３ｄ_ｍｅａｎ］である。
ｚ３ｄの解空間は［ｚ３ｄ_ｍｉｎ＝ｚ３ｄ－ｚ３ｄ_ｍｅａｎ，ｚ３ｄ_ｍａｘ＝ｚ３ｄ＋ｚ３ｄ_ｍｅａｎ］である。
ｒｙ３ｄの解空間は［ｒｙ３ｄ_ｍｉｎ＝ｒｙ３ｄ－ｒｙ３ｄ_ｍｅａｎ，ｒｙ３ｄ_ｍａｘ＝ｒｙ３ｄ－ｒｙ３ｄ_ｍｅａｎ］である。

Ｓ３０３で、初期の解空間範囲においてランダムサンプリングを行って、サンプル点に含まれる三次元検出枠の１組の位置情報を得、ランダムサンプリングの回数はｍ回である。
Ｓ３０４で、当該損失関数によってサンプル点に対応する損失を計算する。例えば、前のステップで得たサンプル点の三次元検出枠の１組の位置情報を損失関数式に代入して、当該サンプル点に対応する損失を得る。
Ｓ３０５で、サンプル点に対応する損失と参照損失を比較し、損失が最小であるサンプル点の三次元検出枠の位置情報を候補結果とし、損失が最小であるサンプル点に対応する損失を新たな参照損失とする。１回目にはサンプル点に対応する損失と初期損失を比較し、サンプル点に対応する損失が初期損失よりも小さい場合に、当該サンプル点に対応する損失を新たな参照損失とする。以降は新たにサンプリングして得たサンプル点に対応する損失と新たな参照損失を比較してもよい。サンプル点に対応する損失が初期損失以上である場合に、参照損失は変わらず、次回の比較で当該参照損失を用いる。サンプリングするたびに、サンプリング回数を１増加させ、サンプリング回数がｍになると終了し、再サンプリング回数を１増加させる。
本開示の実施形態では三次元検出枠の初期解空間におけるランダムにより検索が最適解のサンプリング率が高められ、最終的には検索結果が初期検出結果より正確さも精度も大幅に向上している。

図６は本開示の別の実施形態による障害物検出方法のフローチャートである。当該実施形態の障害物検出方法は前記いずれかの実施形態の各ステップを含んでもよい。
本実施形態では、Ｓ２０３で、Ｓ３０５後に、当該損失関数を利用して、当該障害物の三次元検出枠の位置情報を最適化するステップは、ステップＳ３０６からＳ３１０までをｎ－１回繰り返し実行することを含んでもよく、ｎは再サンプリング回数である。

Ｓ３０６で、前回再サンプリングしたｍ個のサンプル点のうち、損失が参照損失よりも小さいサンプル点の分布範囲を統計して、新たな解空間範囲を得る。例えば、前回再サンプリングしたｍ個のサンプル点を利用して、三次元位置情報における中心点座標及び方向角の最小値及び最大値を得、予測誤差を利用して新たな解空間範囲を得る。
Ｓ３０７で、新たな解空間範囲においてランダムサンプリングを行って、サンプル点に含まれる障害物の三次元検出枠の１組の位置情報を得、ランダムサンプリングの回数はｍ回である。
Ｓ３０８で、当該損失関数によってサンプル点に対応する損失を計算する。例えば、前のステップで得たサンプル点の三次元検出枠の１組の位置情報を損失関数式に代入して、当該サンプル点に対応する損失を得る。
Ｓ３０９で、サンプル点に対応する損失と参照損失を比較し、損失が最小であるサンプル点の三次元検出枠の位置情報を候補結果とし、損失が最小であるサンプル点に対応する損失を新たな参照損失とする。

Ｓ３０７からＳ３０９までは、サンプリングしてサンプル点を得るたびに、当該サンプル点に含まれる障害物の三次元検出枠の１組の位置情報を損失関数に代入して、当該サンプル点に対応する損失を計算してもよい。次に、前の候補結果との比較で候補結果及び参照損失を更新するかどうかを決定する。更新する場合には、更新後の候補結果及び参照損失を、次のサンプル点で比較するための参照値とする。更新しない場合には、変わらない候補結果及び参照損失を、次のサンプル点で比較するための参照値とする。次のサンプル点に含まれる障害物の三次元検出枠の１組の位置情報を損失関数に代入して、当該サンプル点に対応する損失を計算する。引き続き比較して候補結果及び参照損失を決定し、サンプリング回数がｍになると終了する。
また、ｍ個のサンプル点をサンプリングするたびに、再サンプリング回数を１増加させ、再サンプリング回数がｎ以上であるかどうかを判断する。再サンプリング回数がｎ未満である場合に、Ｓ３０６に戻り、再サンプリング回数がｎになると終了する。ここで、ｎは正整数であり、ｎの値はニーズに応じて具体的に設定してもよい。一般に、ｎの値が大きいほど、正確さ及び精度が高い。

例えば、Ｓ３０３を実行した後、再サンプリング回数は１であり、１回目のＳ３０８の実行後、再サンプリング回数は２である。その後、Ｓ３０８を実行するたびに、再サンプリング回数を１増加させ、再サンプリング回数がｎになると終了する。最後の１回に得た候補結果を、障害物の三次元検出枠の最適化の最終的な位置情報としてもよい。

本開示の実施形態では障害物の三次元検出枠の解空間に複数回の再サンプリングを行うことにより、最適解のサンプリング率をより一層高め、路傍設備、車載設備又は他の検知設備による障害物の三次元位置の予測結果の正確さ及び精度をより一層高めることができる。
本開示の実施形態の一適用例では、カメラの結像原理を利用して幾何学的制約を構築し、二次元（ｔｗｏＤｉｍｅｎｓｉｏｎ、２Ｄ）検出枠予測結果と三次元（ｔｈｒｅｅＤｉｍｅｎｓｉｏｎ、３Ｄ）検出枠予測結果がマッチングするようにし、バックエンドからの３Ｄ検出結果の最適化を実現する。

画像から障害物を検出して、障害物の２Ｄ検出枠の位置情報及び３Ｄ検出枠の位置情報を得た後、前記位置情報を最適化アルゴリズムに入力する。例えば、最適化アルゴリズムの入力は２Ｄ検出枠座標［ｘ１，ｘ２，ｙ１，ｙ２］、３Ｄ検出枠の中心点のカメラ座標系における座標［ｘ３ｄ，ｙ３ｄ，ｚ３ｄ］、長さ・幅・高さ［ｗ３ｄ，ｈ３ｄ，ｌ３ｄ］、ｙ軸方向角ｒｙ３ｄを含む。また、最適化アルゴリズムの入力はカメラ内部パラメータ行列ｐ２及び基準方程式ｄｅ＿ｎｏｒｍをさらに含む。最適化の対象はｘ３ｄ、ｙ３ｄ、ｚ３ｄ、ｒｙ３ｄの４つの自由度である。

制約項目１：予測結果を分析したところ、２Ｄ検出枠の予測結果の方が真値に近い。３Ｄ検出枠の予測結果を利用して、投影関係によって２Ｄ投影枠を得る。位置が正しい場合に、長さ・幅・高さ［ｗ３ｄ，ｈ３ｄ，ｌ３ｄ］が最適化の範囲になく、予測誤差の存在で２Ｄ検出枠と２Ｄ投影枠が完全には重ならないが、２者の中心点が重なることを希望する。よって、一例として制約項目１ｅｒｒ１は次のとおりである。
ｅｒｒ１＝｜（ｘ１_ｐｒｏ＋ｘ２_ｐｒｏ）－（ｘ１＋ｘ２）｜＋｜（ｙ１_ｐｒｏ＋ｙ２_ｐｒｏ）－（ｙ１＋ｙ２）｜
ここで、［ｘ１_ｐｒｏ，ｘ２_ｐｒｏ，ｙ１_ｐｒｏ，ｙ２_ｐｒｏ］とは３Ｄ検出枠の２Ｄ投影枠座標であり、［ｘ１，ｘ２，ｙ１，ｙ２］とは２Ｄ検出枠座標である。
制約項目２：中心点が重なった上に、方向角のずれを一層制約するために、制約項目２では２Ｄ検出枠と２Ｄ投影枠の左右両辺が重なることを希望する。よって、一例として制約項目２ｅｒｒ２は次のとおりである。
ｅｒｒ２＝｜ｘ１_ｐｒｏ－ｘ１｜＋｜ｘ２_ｐｒｏ－ｘ２｜
制約項目３：方向角±ｒｙが生じる２Ｄ投影枠は制約項目１及び制約項目２で値が同じであり、且つ、３Ｄ検出枠の予測結果のずれが一般に大きくないことを考慮すると、一例として最適化の程度を制約するための制約項目３ｅｒｒ３は次のとおりである。

前記制約項目によれば、一例として損失関数ｅｒｒは次のとおりである。
ｅｒｒ＝ｅｒｒ１＋α×ｅｒｒ２＋β×ｅｒｒ３
ここで、α、βとはハイパーパラメータであり、ハイパーパラメータは予め設定した値であってもよい。

例えば、図７に示すとおり、当該最適解の求解手順は次のステップＳ４０１～Ｓ４１０を含んでもよい。
Ｓ４０１で、２Ｄ検出枠の位置情報［ｘ１，ｘ２，ｙ１，ｙ２］、及び３Ｄ検出枠の位置情報［ｘ３ｄ，ｙ３ｄ，ｚ３ｄ，ｗ３ｄ，ｈ３ｄ，ｌ３ｄ，ｒｙ３ｄ］、ｐ２、ｄｅ＿ｎｏｒｍを入力する。
Ｓ４０２で、３Ｄ検出枠の位置情報を用いて投影を行うことにより、二次元投影点ｖを得る。
Ｓ４０３で、予測誤差［ｘ３ｄ_ｍｅａｎ，ｙ３ｄ_ｍｅａｎ，ｚ３ｄ_ｍｅａｎ，ｒｙ３ｄ_ｍｅａｎ］を利用して初期の解空間範囲を得、例えば、次のとおりである。
ｘ３ｄ_ｍｉｎ＝ｘ３ｄ－ｘ３ｄ_ｍｅａｎ，ｘ３ｄ_ｍａｘ＝ｘ３ｄ＋ｘ３ｄ_ｍｅａｎ
ｙ３ｄ_ｍｉｎ＝ｙ３ｄ－ｙ３ｄ_ｍｅａｎ，ｙ３ｄ_ｍａｘ＝ｙ３ｄ－ｙ３ｄ_ｍｅａｎ
ｚ３ｄ_ｍｉｎ＝ｚ３ｄ－ｚ３ｄ_ｍｅａｎ，ｚ３ｄ_ｍａｘ＝ｚ３ｄ－ｚ３ｄ_ｍｅａｎ
ｒｙ３ｄ_ｍｉｎ＝ｒｙ３ｄ－ｒｙ３ｄ_ｍｅａｎ，ｒｙ３ｄ_ｍａｘ＝ｒｙ３ｄ－ｒｙ３ｄ_ｍｅａｎ。
Ｓ４０４で、初期予測結果（［ｘ１，ｘ２，ｙ１，ｙ２］，ｖ，［ｘ１_ｐｒｏ，ｘ２_ｐｒｏ，ｙ１_ｐｒｏ，ｙ２_ｐｒｏ］）に基づいて、初期損失ｏｌを計算する。

ランダムサンプリングの回数（即ちサンプル点の個数）ｊ＜ｍである場合には、引き続きランダムサンプリングを実行する。サンプリングしてサンプル点を得るたびに、ｊ＋１とする。ｊ＝ｍになると、今回の再サンプリングが終了し、ｉ＋１とする。

ここで、ｎは再サンプリング回数であり、ｍは毎回サンプリングする個数である。
本実施形態では、複数の制約項目を用いると最適解が満たすべき条件を充分に検討することができ、ランダムに検索すると最適解のサンプリング率を高めることができ、最終的には検索結果は初期解より精度が大幅に向上している。本実施形態の方法は三次元障害物の位置の路傍検知のシーンに適用され、車載カメラや他の監視カメラにも適用される。

図８は本開示の一実施形態による障害物検出装置のブロック図である。当該装置は、
画像における障害物の二次元検出枠の位置情報及び三次元検出枠の位置情報を取得するための取得モジュール４１と、
当該障害物の三次元検出枠の位置情報を当該障害物の二次元投影枠の位置情報に変換するための変換モジュール４２と、
当該画像における当該障害物の二次元検出枠、三次元検出枠及び二次元投影枠の位置情報を利用して、当該障害物の三次元検出枠の位置情報を最適化するための最適化モジュール４３とを備えてもよい。

可能な一実施形態では、図９に示すとおり、当該最適化モジュール４３は、
当該画像における当該障害物の二次元検出枠、三次元検出枠及び二次元投影枠の位置情報を用いて、当該障害物の三次元検出枠の位置情報に対して少なくとも１つの制約項目を設定するための制約項目サブモジュール５１と、
当該制約項目を利用して損失関数を構築するための損失関数サブモジュール５２と、
当該損失関数を利用して、当該障害物の三次元検出枠の位置情報を最適化するための最適化サブモジュール５３とを備える。

可能な一実施形態では、当該制約項目は第１制約項目を含み、当該第１制約項目は当該障害物の二次元検出枠及び二次元投影枠の中心点座標に基づいて設定される。
可能な一実施形態では、当該制約項目は第２制約項目をさらに含み、当該第２制約項目は当該障害物の二次元検出枠及び二次元投影枠の左右両辺の座標に基づいて設定される。
可能な一実施形態では、当該制約項目は第３制約項目をさらに含み、当該第３制約項目は当該障害物の三次元検出枠の投影点座標に基づいて設定される。

可能な一実施形態では、当該最適化サブモジュールは、具体的には、
障害物の三次元検出枠の初期予測結果及び前記損失関数を利用して、初期損失を計算することであって、当該初期損失は参照損失であることと、
予測誤差に基づいて初期の解空間範囲を設定することと、
初期の解空間範囲においてランダムサンプリングを行って、サンプル点に含まれる三次元検出枠の１組の位置情報を得ることであって、ランダムサンプリングの回数はｍ回であることと、
当該損失関数によってサンプル点に対応する損失を計算することと、
サンプル点に対応する損失と参照損失を比較し、損失が最小であるサンプル点の三次元検出枠の位置情報を候補結果とし、損失が最小であるサンプル点に対応する損失を新たな参照損失とすることとに用いられる。

可能な一実施形態では、当該最適化サブモジュールは、さらに、
前回再サンプリングしたｍ個のサンプル点のうち、損失が参照損失よりも小さいサンプル点の分布範囲を統計して、新たな解空間範囲を得るステップと、
新たな解空間範囲においてランダムサンプリングを行って、サンプル点に含まれる障害物の三次元検出枠の１組の位置情報を得るステップであって、ランダムサンプリングの回数はｍ回であるステップと、
当該損失関数によってサンプル点に対応する損失を計算するステップと、
サンプル点に対応する損失と参照損失を比較し、損失が最小であるサンプル点の三次元検出枠の位置情報を候補結果とし、損失が最小であるサンプル点に対応する損失を新たな参照損失とするステップとをｎ－１回繰り返し実行するために用いられ、ｎは再サンプリング回数である。

本開示の実施形態による装置の各モジュールの機能は、前記方法実施形態での対応の記載を参照できるため、ここで重複を避けるために説明を省略する。
さらに、本開示の実施形態では、電子設備及び可読記憶媒体を提供する。

図１０は、本開示の実施形態による障害物検出方法を実現するための電子設備のブロック図である。電子設備としては、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバー、ブレードサーバー、大型コンピュータ、他の適切なコンピュータなど、様々な形態のデジタルコンピュータであってもよい。また、パーソナルデジタルアシスタント、セルラーホン、スマートフォン、ウェアラブルデバイス、他の類似の計算設備など、様々な形態の移動設備であってもよい。本明細書に記載のコンポーネント、その接続関係、及びその機能は例示的なものに過ぎず、本開示の実施に関して本明細書に記載及び／又は主張された内容に限定を加えるためではない。

図１０に示すとおり、当該電子設備は、１つ以上のプロセッサ９０１と、メモリ９０２と、各コンポーネントを接続するためのインタフェース（高速インタフェース及び低速インタフェース）とを含む。各コンポーネントは異なるバスによって互いに接続され、共通のマザーボードに取り付けられ、又は所望の方式で取り付けられてもよい。プロセッサは外部の入力／出力装置（例えば、インタフェースによって接続された表示設備）にグラフィカルユーザーインタフェース（ＧＵＩ）のグラフィック情報を表示するようにメモリに記憶されているコマンドなど、電子設備において実行されるコマンドを処理することができる。他の実施形態では、必要ならば、複数のプロセッサ及び／又は複数のバスと複数のメモリを複数のメモリと一緒に使用してもよい。同様に、複数の電子設備を接続させ、各設備が必要な操作の一部を提供するようにしてもよい（例えば、サーバーアレイ、１群のブレードサーバー、又はマルチプロセッサシステムとする）。図１０では、例示的にプロセッサ９０１が１つあるものである。

メモリ９０２は、本開示に係る非一時的なコンピュータ可読記憶媒体である。当該メモリには、少なくとも１つのプロセッサが本開示に係る障害物検出方法を実行するように、少なくとも１つのプロセッサによって実行可能なコマンドが記憶されている。本開示に係る非一時的なコンピュータ可読記憶媒体にはコンピュータコマンドが記憶されており、当該コンピュータコマンドはコンピュータに本開示に係る障害物検出方法を実行させる。
メモリ９０２は非一時的なコンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュール、例えば、本開示の実施形態に係る障害物検出方法に対応するプログラムコマンド／モジュール（例えば、図８に示す取得モジュール４１、変換モジュール４２及び最適化モジュール４３）を記憶するために用いることができる。プロセッサ９０１はメモリ９０２に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを動作させることにより、サーバーの様々な機能及びデータ処理を実行し、即ち前記方法実施形態に係る障害物検出方法を実現する。
メモリ９０２はプログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域はオペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は障害物検出方法を実現するための電子設備の使用時に作成されたデータ等を記憶することができる。また、メモリ９０２は高速ランダムアクセスメモリを含んでもよいし、非一時的メモリを含んでもよく、例えば、少なくとも１つの磁気ディスク記憶素子、フラッシュメモリ素子、又は他の非一時的固体記憶素子である。いくつかの実施形態では、任意選択でメモリ９０２はプロセッサ９０１に対して遠隔設置されたメモリを含み、当該遠隔メモリはネットワークを介して障害物検出方法を実行する電子設備に接続されてもよい。前記ネットワークの例はインターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、その組み合わせを含むが、これに限定されない。

障害物検出方法を実行する電子設備は、入力装置９０３及び出力装置９０４をさらに含んでもよい。プロセッサ９０１、メモリ９０２、入力装置９０３及び出力装置９０４はバス又は他の方式で接続されてもよく、図１０では、例示的にバスによって接続されたものである。
入力装置９０３は入力されたデジタル又は文字情報を受信し、障害物検出方法を実行する電子設備のユーザー設定や機能制御に関連するキー信号入力を生成することができ、例えば、タッチスクリーン、テンキー、マウス、トラックパッド、タッチパッド、インジケータスティック、１つ以上のマウスボタン、トラックボール、ジョイスティック等入力装置である。出力装置９０４は表示設備、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モーター）等を含んでもよい。当該表示設備は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、プラズマディスプレイを含むが、これに限定されない。いくつかの実施形態では、表示設備はタッチスクリーンであってもよい。

ここに記載のシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、ＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はその組み合わせにおいて実施できる。前記実施形態は次のものを含んでもよい。１つ以上のコンピュータプログラムにおいて実施され、当該１つ以上のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行及び／又は解釈されてもよく、当該プログラマブルプロセッサは専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置及び少なくとも１つの出力装置からデータ及びコマンドを受信し、且つデータ及びコマンドを当該記憶システム、当該少なくとも１つの入力装置及び当該少なくとも１つの出力装置に伝送することができる。
前記コンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、コードともいう）にはプログラマブルプロセッサ用機械コマンドを含み、且つ高度なプロセス及び／又はオブジェクト指向のプログラミング言語、及び／又はアセンブリ／機械言語を用いて前記コンピュータプログラムを実施することができる。本明細書で、用語「機械可読媒体」及び「コンピュータ可読媒体」とは機械コマンド及び／又はデータをプログラマブルプロセッサに提供するあらゆるコンピュータプログラム製品、設備、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））であり、機械可読信号としての機械コマンドを受信する機械可読媒体を含む。用語「機械可読信号」とは、機械コマンド及び／又はデータをプログラマブルプロセッサに提供するためのあらゆる信号である。

ユーザーとのインタラクションを実現するように、コンピュータにおいてここに記載のシステム及び技術を実現することができ、当該コンピュータは、ユーザーに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ））と、キーボードと、ポインティングデバイス（例えば、マウス又はトラックボール）を備え、ユーザーは当該キーボード及び当該ポインティングデバイスによってコンピュータに入力することができる。他にもユーザーとのインタラクションを実現するための装置がある。例えば、ユーザーへのフィードバックは感覚的なフィードバック（例えば、視覚的なフィードバック、聴覚的なフィードバック、触覚的なフィードバック）など任意の形態であってもよく、また任意の方式（声入力、音声入力、触覚入力）でユーザーの入力を受信することができる。

ここに記載のシステム及び技術は、バックグラウンドコンポーネントを含むコンピューティングシステム（例えば、データサーバー）、又は中間コンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバー）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザーインタフェース又はウェブブラウザーを備えるパソコンであって、ユーザーは当該グラフィカルユーザーインタフェース又は当該ウェブブラウザーによってここに記載のシステム及び技術の実施形態とインタラクションを行うことができる）、又は前記バックグラウンドコンポーネント、中間コンポーネント、もしくはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムにおいて実施することができる。任意の方式又は媒体によるデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを互いに接続させることができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネットを含む。

コンピュータシステムはクライアント及びサーバーを含んでもよい。クライアントとサーバーは一般に遠隔設置され、且つ通信ネットワークによって互いに接続される。コンピュータで実行されるクライアント－サーバー型配置のコンピュータプログラムによってクライアントとサーバーの関係を構成する。
本開示の実施形態の技術的解決手段によれば、画像における障害物の二次元検出枠の位置情報、三次元検出枠及び二次元投影枠の位置情報を利用して損失関数を構築し、当該障害物の三次元検出枠の位置情報を最適化することにより、障害物の三次元位置の予測結果の正確さを高めることができる。本開示の実施形態の障害物検出方法は三次元障害物の位置の路傍検知のシーンに適用され、車載カメラや他の監視カメラなどのシーンにも適用される。
なお、上記の様々なプロセスを踏まえて、ステップを並べ替え、追加、又は削除することができる。例えば、本開示に記載の各ステップは同時に実行されてもよいし、順に実行されてもよいし、他の順番で実行されてもよく、本開示の技術的解決手段の効果を得られるものであれば、本明細書では特に限定しない。

上記のいくつかの実施形態は、本開示の保護範囲を限定するものと見なされない。当業者が理解したように、設計上の要件や他の要素に基づいて、様々な修正や、組み合わせ、置き換えを行うことができる。本開示の趣旨においてなされた修正、同等な置き換えや改善等は、いずれも本開示の保護範囲に含まれる。

Claims

画像における障害物の二次元検出枠の位置情報及び三次元検出枠の位置情報を取得することと、
前記障害物の三次元検出枠の位置情報を前記障害物の二次元投影枠の位置情報に変換することと、
前記画像における前記障害物の二次元検出枠、三次元検出枠及び二次元投影枠の位置情報を利用して、前記障害物の三次元検出枠の位置情報を最適化することとを含み、
前記画像における前記障害物の二次元検出枠、三次元検出枠及び二次元投影枠の位置情報を利用して、前記障害物の三次元検出枠の位置情報を最適化することは、
前記画像における前記障害物の二次元検出枠、三次元検出枠及び二次元投影枠の位置情報を用いて、前記障害物の三次元検出枠の位置情報に対して少なくとも１つの制約項目を設定することと、
前記制約項目を利用して損失関数を構築することと、
前記損失関数を利用して、前記障害物の三次元検出枠の位置情報を最適化することとを含む、
障害物検出方法。
前記制約項目は、前記障害物の二次元検出枠及び二次元投影枠の中心点座標に基づいて設定される第１制約項目を含む、
請求項１に記載の障害物検出方法。
前記制約項目は、前記障害物の二次元検出枠及び二次元投影枠の左右両辺の座標に基づいて設定される第２制約項目をさらに含む、
請求項１又は２に記載の障害物検出方法。
前記制約項目は、前記障害物の三次元検出枠の投影点座標に基づいて設定される第３制約項目をさらに含む、
請求項２又は３に記載の障害物検出方法。
前記損失関数を利用して、前記障害物の三次元検出枠の位置情報を最適化することは、
障害物の三次元検出枠の初期予測結果及び前記損失関数を利用して、参照損失である初期損失を計算することと、
予測誤差に基づいて初期の解空間範囲を設定することと、
初期の解空間範囲においてｍ回のランダムサンプリングを行って、サンプル点に含まれる三次元検出枠の１組の位置情報を得ることと、
前記損失関数によってサンプル点に対応する損失を計算することと、
サンプル点に対応する損失と前記参照損失を比較し、損失が最小であるサンプル点の三次元検出枠の位置情報を候補結果とし、損失が最小であるサンプル点に対応する損失を新たな参照損失とすることとを含む、
請求項１～４のいずれか１項に記載の障害物検出方法。
前記損失関数を利用して、前記障害物の三次元検出枠の位置情報を最適化することは、
前回再サンプリングしたｍ個のサンプル点のうち、損失が参照損失よりも小さいサンプル点の分布範囲を統計し、新たな解空間範囲を得ることと、
新たな解空間範囲においてｍ回のランダムサンプリングを行って、サンプル点に含まれる障害物の三次元検出枠の１組の位置情報を得ることと、
前記損失関数によってサンプル点に対応する損失を計算することと、
サンプル点に対応する損失と前記参照損失を比較し、損失が最小であるサンプル点の三次元検出枠の位置情報を候補結果とし、損失が最小であるサンプル点に対応する損失を新たな参照損失とすることと、
を含む前記障害物の三次元検出枠の位置情報を最適化することをｎ－１回繰り返し実行することをさらに含み、
ｎは、再サンプリング回数である、
請求項５に記載の障害物検出方法。
画像における障害物の二次元検出枠の位置情報及び三次元検出枠の位置情報を取得するための取得モジュールと、
前記障害物の三次元検出枠の位置情報を前記障害物の二次元投影枠の位置情報に変換するための変換モジュールと、
前記画像における前記障害物の二次元検出枠、三次元検出枠及び二次元投影枠の位置情報を利用して、前記障害物の三次元検出枠の位置情報を最適化するための最適化モジュールとを備え、
前記最適化モジュールは、
前記画像における前記障害物の二次元検出枠、三次元検出枠及び二次元投影枠の位置情報を用いて、前記障害物の三次元検出枠の位置情報に対して少なくとも１つの制約項目を設定するための制約項目サブモジュールと、
前記制約項目を利用して損失関数を構築するための損失関数サブモジュールと、
前記損失関数を利用して、前記障害物の三次元検出枠の位置情報を最適化するための最適化サブモジュールとを備える、
障害物検出装置。
前記制約項目は、前記障害物の二次元検出枠及び二次元投影枠の中心点座標に基づいて設定される第１制約項目を含む、
請求項７に記載の障害物検出装置。
前記制約項目は、前記障害物の二次元検出枠及び二次元投影枠の左右両辺の座標に基づいて設定される第２制約項目をさらに含む、
請求項７又は８に記載の障害物検出装置。
前記制約項目は、前記障害物の三次元検出枠の投影点座標に基づいて設定される第３制約項目をさらに含む、
請求項８又は９に記載の障害物検出装置。
前記最適化サブモジュールは、
障害物の三次元検出枠の初期予測結果及び前記損失関数を利用して、参照損失である初期損失を計算することと、
予測誤差に基づいて初期の解空間範囲を設定することと、
初期の解空間範囲においてｍ回のランダムサンプリングを行って、サンプル点に含まれる三次元検出枠の１組の位置情報を得ることと、
前記損失関数によってサンプル点に対応する損失を計算することと、
サンプル点に対応する損失と前記参照損失を比較し、損失が最小であるサンプル点の三次元検出枠の位置情報を候補結果とし、損失が最小であるサンプル点に対応する損失を新たな参照損失とすることとに用いられる、
請求項７～１０のいずれか１項に記載の障害物検出装置。
前記最適化サブモジュールは、
前回再サンプリングしたｍ個のサンプル点のうち、損失が参照損失よりも小さいサンプル点の分布範囲を統計し、新たな解空間範囲を得ることと、
新たな解空間範囲においてｍ回のランダムサンプリングを行って、サンプル点に含まれる障害物の三次元検出枠の１組の位置情報を得ることと、
前記損失関数によってサンプル点に対応する損失を計算することと、
サンプル点に対応する損失と前記参照損失を比較し、損失が最小であるサンプル点の三次元検出枠の位置情報を候補結果とし、損失が最小であるサンプル点に対応する損失を新たな参照損失とすることと、
を含む前記障害物の三次元検出枠の位置情報を最適化することをｎ－１回繰り返し実行することにさらに用いられ、
ｎは、再サンプリング回数である、
請求項１１に記載の障害物検出装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されるメモリとを備え、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能なコマンドが記憶されており、前記コマンドは、前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに請求項１～６のいずれか１項に記載の障害物検出方法を実行させる、
電子設備。
コンピュータに請求項１～６のいずれか１項に記載の障害物検出方法を実行させるコマンドが記憶されている非一時的なコンピュータ可読記憶媒体。
コンピュータにおいて、プロセッサにより実行される場合、請求項１～６のいずれか１項に記載の障害物検出方法を実現することを特徴とするプログラム。