JP7113910B2

JP7113910B2 - 画像処理方法及び装置、電子機器並びにコンピュータ可読記憶媒体

Info

Publication number: JP7113910B2
Application number: JP2020556853A
Authority: JP
Inventors: ▲楊▼武魁; ▲呉▼立威
Original assignee: ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Priority date: 2018-12-29
Filing date: 2019-09-23
Publication date: 2022-08-05
Anticipated expiration: 2039-09-23
Also published as: CN111383256B; CN111383256A; SG11202010402VA; US20210150745A1; WO2020134229A1; JP2021519983A

Description

（関連出願の相互参照）
本開示は、２０１８年１２月２９日に提出した中国特許出願第２０１８１１６４７４８５．８号の優先権を主張し、ここで、前記中国特許出願の全ての内容が援用により本開示に組み込まれる。

本開示は画像処理技術分野に関し、特に画像処理方法及び装置、電子機器並びにコンピュータ可読記憶媒体に関する。

視差は観測者が２つの異なる位置で同じ物体を見る方向の差である。例えば、１つの指を目の前に置いて、まず右目を閉じて左目で見て、次に左目を閉じて右目で見ると、指の遠いところの物体に対する位置が変化すると発見することとなり、以上は異なる視点で同じ点を見る視差である。

双眼カメラで収集された２つの画像の間の視差は、深度を効果的に推定するために採用され、生体検出、身分認証、スマート運転等の分野に広く使用されている。双眼カメラで収集された２つの画像の視差は双眼マッチングアルゴリズムにより予測したものである。従来の双眼マッチングアルゴリズムは一般的に２つの画像におけるすべての画素点をマッチングすることで２つの画像の視差を取得するものであり、計算量がより大きく、マッチング効率がより低い。

本開示の実施例は画像処理の技術案を提供する。

本開示の実施例に係る第１態様では、画像処理方法を提供し、前記方法は、双眼カメラの第１画像センサによって収集された第１画像から切り取った目標対象の第１目標領域画像、及び前記双眼カメラの第２画像センサによって収集された第２画像から切り取った前記目標対象の第２目標領域画像を取得することと、前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間の視差を決定することと、前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間の視差に基づき、前記第１画像と前記第２画像との間の視差予測結果を取得することと、を含む。

可能な実現方式では、前記目標対象の第１目標領域画像及び前記目標対象の第２目標領域画像を取得することは、前記双眼カメラの第１画像センサが収集した第１画像、及び前記双眼カメラの第２画像センサが収集した第２画像を取得することと、前記第１画像及び前記第２画像に対してそれぞれ目標検出を行って、第１目標領域画像及び第２目標領域画像を取得することと、を含む。

可能な実現方式では、前記目標対象の第１目標領域画像を取得することは、前記双眼カメラの第１画像センサが収集した第１画像に対して目標検出を行って、第１候補領域を取得することと、前記第１候補領域の画像に対してキーポイント検出を行って、キーポイント情報を取得することと、前記キーポイント情報に基づき、前記第１画像から第１目標領域画像を切り取ることと、を含む。

可能な実現方式では、前記第１目標領域画像及び前記第２目標領域画像の画像寸法が同じである。

可能な実現方式では、前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間の視差を決定することは、双眼マッチングニューラルネットワークを通して前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間の視差を取得することを含む。

可能な実現方式では、前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間の視差に基づき、前記第１画像と前記第２画像との間の視差予測結果を取得する前に、前記方法は、更に、前記第１画像における前記第１目標領域画像の位置及び前記第２画像における前記第２目標領域画像の位置に基づき、前記第１目標領域画像と前記第２目標領域画像との間の変位情報を決定することを含む。

可能な実現方式では、前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間の視差に基づき、前記第１画像と前記第２画像との間の視差予測結果を取得することは、前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記視差を加算して、前記第１画像と前記第２画像との間の視差予測結果を取得することを含む。

可能な実現方式では、前記方法は、更に、前記第１画像と前記第２画像との視差予測結果に基づき、前記目標対象の深度情報を決定することと、前記目標対象の深度情報に基づき、生体検出結果を決定することと、を含む。

可能な実現方式では、前記双眼カメラはコモーダル双眼カメラ及びクロスモーダル双眼カメラのうちの１つを含む。

可能な実現方式では、前記第１画像センサ又は前記第２画像センサは可視光画像センサ、近赤外線画像センサ、デュアルチャネル画像センサのうちの１つを含む。

可能な実現方式では、前記目標対象は人間顔を含む。

本開示の実施例に係る第２態様では、他の画像処理方法を提供する。前記方法は、目標対象の第１目標領域画像及び前記目標対象の第２目標領域画像を取得することであって、前記第１目標領域画像は、画像収集領域の第１時刻に収集された第１画像から切り取ったものであり、前記第２目標領域画像は、前記画像収集領域の第２時刻に収集された第２画像から切り取ったものであることと、前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報を決定することと、前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報に基づき、前記第１画像と前記第２画像との間のオプティカルフロー情報予測結果を取得することと、を含む。

可能な実現方式では、前記目標対象の第１目標領域画像及び前記目標対象の第２目標領域画像を取得することは、画像収集領域の前記第１時刻に収集された第１画像、及び前記画像収集領域の前記第２時刻に収集された第２画像を取得することと、前記第１画像及び前記第２画像に対してそれぞれ目標検出を行って、第１目標領域画像及び第２目標領域画像を取得することと、を含む。

可能な実現方式では、前記目標対象の第１目標領域画像を取得することは、画像収集領域の前記第１時刻に収集された第１画像に対して目標検出を行って、第１候補領域を取得することと、前記第１候補領域の画像に対してキーポイント検出を行って、キーポイント情報を取得することと、前記キーポイント情報に基づき、前記第１画像から第１目標領域画像を切り取ることと、を含む。

可能な実現方式では、前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報を決定することは、ニューラルネットワークを通して前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報を取得することを含む。

可能な実現方式では、前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報に基づき、前記第１画像と前記第２画像との間のオプティカルフロー情報予測結果を取得する前に、前記方法は、更に、前記第１画像における前記第１目標領域画像の位置及び前記第２画像における前記第２目標領域画像の位置に基づき、前記第１目標領域画像と前記第２目標領域画像との間の変位情報を決定することを含む。

可能な実現方式では、前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報に基づき、前記第１画像と前記第２画像との間のオプティカルフロー情報予測結果を取得することは、前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記オプティカルフロー情報を加算して、前記第１画像と前記第２画像との間のオプティカルフロー情報予測結果を取得することを含む。

本開示の実施例に係る第３態様では、他の画像処理方法を提供し、前記方法は、第１画像から切り取った第１目標領域画像及び第２画像から切り取った第２目標領域画像を取得することと、前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１画像と前記第２画像との相対処理結果を取得することと、前記第１目標領域画像と第２目標領域画像との変位情報及び前記第１画像と前記画像との相対処理結果に基づき、前記第１画像と前記第２画像との最終処理結果を取得することと、を含む。

可能な実現方式では、前記第１画像及び前記第２画像は、双眼カメラの２つの画像センサが同じ時刻に収集した画像である。

可能な実現方式では、前記相対処理結果が相対視差であり、前記最終処理結果が視差予測結果である。

好ましくは、前記視差予測結果の決定プロセスは第１態様又は第１態様のいずれか１つの可能な実現方式における方法を参照してもよい。

他の可能な実現方式では、前記第１画像及び前記第２画像はカメラが異なる時刻に同じ目標領域に対して収集した画像である。

可能な実現方式では、前記相対処理結果が相対光束であり、前記最終処理結果が光束予測結果である。

好ましくは、前記光束予測結果の決定プロセスは第２態様又は第２態様のいずれか１つの可能な実現方式における方法を参照してもよい。

本開示の実施例に係る第４態様では、画像処理装置を提供し、前記装置は、双眼カメラの第１画像センサによって収集された第１画像から切り取った目標対象の第１目標領域画像、及び前記双眼カメラの第２画像センサによって収集された第２画像から切り取った前記目標対象の第２目標領域画像を取得するように構成される取得ユニットと、前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間の視差を決定するように構成される第１決定ユニットと、前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間の視差に基づき、前記第１画像と前記第２画像との間の視差予測結果を取得するように構成される第２決定ユニットと、を備える。

可能な実現方式では、前記取得ユニットは前記双眼カメラの第１画像センサが収集した第１画像、及び前記双眼カメラの第２画像センサが収集した第２画像を取得し、前記第１画像及び前記第２画像に対してそれぞれ目標検出を行って、第１目標領域画像及び第２目標領域画像を取得するように構成される。

可能な実現方式では、前記取得ユニットは、前記双眼カメラの第１画像センサが収集した第１画像に対して目標検出を行って、第１候補領域を取得するように構成される目標検出ユニットと、前記第１候補領域の画像に対してキーポイント検出を行って、キーポイント情報を取得するように構成されるキーポイント検出ユニットと、前記キーポイント情報に基づき、前記第１画像から第１目標領域画像を切り取るように構成される切り取りユニットと、を備える。

可能な実現方式では、前記第１決定ユニットは双眼マッチングニューラルネットワークを通して前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間の視差を取得するように構成される。

可能な実現方式では、前記装置は、更に、前記第２決定ユニットが前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間の視差に基づき、前記第１画像と前記第２画像との間の視差予測結果を取得する前に、前記第１画像における前記第１目標領域画像の位置及び前記第２画像における前記第２目標領域画像の位置に基づき、前記第１目標領域画像と前記第２目標領域画像との間の変位情報を決定するように構成される変位決定ユニットを備える。

可能な実現方式では、前記第２決定ユニットは前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記視差を加算して、前記第１画像と前記第２画像との間の視差予測結果を取得するように構成される。

可能な実現方式では、前記装置は、更に、前記第１画像と前記第２画像との視差予測結果に基づき、前記目標対象の深度情報を決定するように構成される深度情報決定ユニットと、前記目標対象の深度情報に基づき、生体検出結果を決定するように構成される生体検出決定ユニットと、を備える。

可能な実現方式では、前記目標対象は人間顔を含む。

本開示の実施例に係る第５態様では、画像処理装置を提供し、前記装置は、目標対象の第１目標領域画像及び前記目標対象の第２目標領域画像を取得するように構成される取得ユニットであって、前記第１目標領域画像は、画像収集領域の第１時刻に収集された第１画像から切り取ったものであり、前記第２目標領域画像は、前記画像収集領域の第２時刻に収集された第２画像から切り取ったものである取得ユニットと、前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報を決定するように構成される第１決定ユニットと、前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報に基づき、前記第１画像と前記第２画像との間のオプティカルフロー情報予測結果を取得するように構成される第２決定ユニットと、を備える。

可能な実現方式では、前記取得ユニットは画像収集領域の前記第１時刻に収集された第１画像、及び前記画像収集領域の前記第２時刻に収集された第２画像を取得し、前記第１画像及び前記第２画像に対してそれぞれ目標検出を行って、第１目標領域画像及び第２目標領域画像を取得するように構成される。

可能な実現方式では、前記取得ユニットは、画像収集領域の前記第１時刻に収集された第１画像に対して目標検出を行って、第１候補領域を取得するように構成される目標検出ユニットと、前記第１候補領域の画像に対してキーポイント検出を行って、キーポイント情報を取得するように構成されるキーポイント検出ユニットと、前記キーポイント情報に基づき、前記第１画像から第１目標領域画像を切り取るように構成される切り取りユニットと、を備える。

可能な実現方式では、前記第１決定ユニットはニューラルネットワークを通して前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報を取得するように構成される。

可能な実現方式では、前記装置は、更に、前記第２決定ユニットが前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報に基づき、前記第１画像と前記第２画像との間のオプティカルフロー情報予測結果を取得する前に、前記第１画像における前記第１目標領域画像の位置及び前記第２画像における前記第２目標領域画像の位置に基づき、前記第１目標領域画像と前記第２目標領域画像との間の変位情報を決定するように構成される変位決定ユニットを備える。

可能な実現方式では、前記第２決定ユニットは前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記オプティカルフロー情報を加算して、前記第１画像と前記第２画像との間のオプティカルフロー情報予測結果を取得するように構成される。

本開示の実施例に係る第５態様では、電子機器を提供し、前記機器は、プロセッサと、コンピュータ可読命令を記憶するように構成されるメモリとを備え、前記プロセッサは前記メモリに記憶されるコンピュータ可読命令を呼び出して、上記第１態様又は第２態様に記載の画像処理方法又はそのいずれか１つの可能な実現方式を実行するように構成される。

本開示に係る第６態様では、コンピュータ可読記憶媒体を提供し、前記媒体にコンピュータプログラム命令が記憶され、前記コンピュータプログラム命令がプロセッサにより実行されるとき、上記第１態様又は第２態様の画像処理方法又はそのいずれか１つの可能な実現方式を実現する。

本開示に係る第７態様では、コンピュータプログラム製品を提供し、前記製品はコンピュータ命令を含み、前記コンピュータ命令がプロセッサにより実行されるとき、上記第１態様又は第２態様画像処理方法又はそのいずれか１つの可能な実現方式を実現する。

好ましくは、前記コンピュータプログラム製品は前記コンピュータ命令が記憶されるコンピュータ可読記憶媒体を含む。
例えば、本願は以下の項目を提供する。
（項目１）
画像処理方法であって、
双眼カメラの第１画像センサによって収集された第１画像から切り取った目標対象の第１目標領域画像、及び前記双眼カメラの第２画像センサによって収集された第２画像から切り取った前記目標対象の第２目標領域画像を取得することと、
前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間の視差を決定することと、
前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間の視差に基づき、前記第１画像と前記第２画像との間の視差予測結果を取得することと、を含む、前記画像処理方法。
（項目２）
前記目標対象の第１目標領域画像及び前記目標対象の第２目標領域画像を取得することは、
前記双眼カメラの第１画像センサが収集した第１画像、及び前記双眼カメラの第２画像センサが収集した第２画像を取得することと、
前記第１画像及び前記第２画像に対してそれぞれ目標検出を行って、第１目標領域画像及び第２目標領域画像を取得することと、を含む
項目１に記載の方法。
（項目３）
前記目標対象の第１目標領域画像を取得することは、
前記双眼カメラの第１画像センサが収集した第１画像に対して目標検出を行って、第１候補領域を取得することと、
前記第１候補領域の画像に対してキーポイント検出を行って、キーポイント情報を取得することと、
前記キーポイント情報に基づき、前記第１画像から第１目標領域画像を切り取ることと、を含む
項目１又は２に記載の方法。
（項目４）
前記第１目標領域画像及び前記第２目標領域画像の画像寸法が同じである
項目１～３のいずれか１項に記載の方法。
（項目５）
前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間の視差を決定することは、
双眼マッチングニューラルネットワークを通して前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間の視差を取得することを含む
項目１に記載の方法。
（項目６）
前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間の視差に基づき、前記第１画像と前記第２画像との間の視差予測結果を取得する前に、前記方法は、更に、
前記第１画像における前記第１目標領域画像の位置及び前記第２画像における前記第２目標領域画像の位置に基づき、前記第１目標領域画像と前記第２目標領域画像との間の変位情報を決定することを含む
項目１に記載の方法。
（項目７）
前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間の視差に基づき、前記第１画像と前記第２画像との間の視差予測結果を取得することは、
前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記視差を加算して、前記第１画像と前記第２画像との間の視差予測結果を取得することを含む
項目１又は６のいずれか１項に記載の方法。
（項目８）
前記方法は、更に、
前記第１画像と前記第２画像との視差予測結果に基づき、前記目標対象の深度情報を決定することと、
前記目標対象の深度情報に基づき、生体検出結果を決定することと、を含む
項目１～７のいずれか１項に記載の方法。
（項目９）
前記双眼カメラはコモーダル双眼カメラ及びクロスモーダル双眼カメラのうちの１つを含む
項目１～８のいずれか１項に記載の方法。
（項目１０）
前記第１画像センサ又は前記第２画像センサは、可視光画像センサ、近赤外線画像センサ、デュアルチャネル画像センサのうちの１つを含む
項目１～９のいずれか１項に記載の方法。
（項目１１）
前記目標対象は人間顔を含む
項目１～１０のいずれか１項に記載の方法。
（項目１２）
画像処理方法であって、
目標対象の第１目標領域画像及び前記目標対象の第２目標領域画像を取得することであって、前記第１目標領域画像は、画像収集領域の第１時刻に収集された第１画像から切り取ったものであり、前記第２目標領域画像は、前記画像収集領域の第２時刻に収集された第２画像から切り取ったものであることと、
前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報を決定することと、
前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報に基づき、前記第１画像と前記第２画像との間のオプティカルフロー情報予測結果を取得することと、を含む、前記画像処理方法。
（項目１３）
前記目標対象の第１目標領域画像及び前記目標対象の第２目標領域画像を取得することは、
前記画像収集領域の前記第１時刻に収集された第１画像、及び前記画像収集領域の前記第２時刻に収集された第２画像を取得することと、
前記第１画像及び前記第２画像に対してそれぞれ目標検出を行って、第１目標領域画像及び第２目標領域画像を取得することと、を含む
項目１２に記載の方法。
（項目１４）
前記目標対象の第１目標領域画像を取得することは、
前記画像収集領域の前記第１時刻に収集された第１画像に対して目標検出を行って、第１候補領域を取得することと、
前記第１候補領域の画像に対してキーポイント検出を行って、キーポイント情報を取得することと、
前記キーポイント情報に基づき、前記第１画像から第１目標領域画像を切り取ることと、を含む
項目１２又は１３に記載の方法。
（項目１５）
前記第１目標領域画像及び前記第２目標領域画像の画像寸法が同じである
項目１２～１４のいずれか１項に記載の方法。
（項目１６）
前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報を決定することは、
ニューラルネットワークを通して前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報を取得することを含む
項目１２に記載の方法。
（項目１７）
前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報に基づき、前記第１画像と前記第２画像との間のオプティカルフロー情報予測結果を取得する前に、前記方法は、更に、
前記第１画像における前記第１目標領域画像の位置及び前記第２画像における前記第２目標領域画像の位置に基づき、前記第１目標領域画像と前記第２目標領域画像との間の変位情報を決定することを含む
項目１２に記載の方法。
（項目１８）
前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報に基づき、前記第１画像と前記第２画像との間のオプティカルフロー情報予測結果を取得することは、
前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記オプティカルフロー情報を加算して、前記第１画像と前記第２画像との間のオプティカルフロー情報予測結果を取得することを含む
項目１２又は１７のいずれか１項に記載の方法。
（項目１９）
画像処理装置であって、
双眼カメラの第１画像センサによって収集された第１画像から切り取った目標対象の第１目標領域画像、及び前記双眼カメラの第２画像センサによって収集された第２画像から切り取った前記目標対象の第２目標領域画像を取得するように構成される取得ユニットと、
前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間の視差を決定するように構成される第１決定ユニットと、
前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間の視差に基づき、前記第１画像と前記第２画像との間の視差予測結果を取得するように構成される第２決定ユニットと、を備える、前記画像処理装置。
（項目２０）
前記取得ユニットは、前記双眼カメラの第１画像センサが収集した第１画像、及び前記双眼カメラの第２画像センサが収集した第２画像を取得し、前記第１画像及び前記第２画像に対してそれぞれ目標検出を行って、第１目標領域画像及び第２目標領域画像を取得するように構成される
項目１９に記載の装置。
（項目２１）
前記取得ユニットは、
前記双眼カメラの第１画像センサが収集した第１画像に対して目標検出を行って、第１候補領域を取得するように構成される目標検出ユニットと、
前記第１候補領域の画像に対してキーポイント検出を行って、キーポイント情報を取得するように構成されるキーポイント検出ユニットと、
前記キーポイント情報に基づき、前記第１画像から第１目標領域画像を切り取るように構成される切り取りユニットと、を備える
項目１９又は２０に記載の装置。
（項目２２）
前記第１目標領域画像及び前記第２目標領域画像の画像寸法が同じである
項目１９～２１のいずれか１項に記載の装置。
（項目２３）
前記第１決定ユニットは、双眼マッチングニューラルネットワークを通して前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間の視差を取得するように構成される
項目１９に記載の装置。
（項目２４）
前記装置は、更に、前記第２決定ユニットが前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間の視差に基づき、前記第１画像と前記第２画像との間の視差予測結果を取得する前に、前記第１画像における前記第１目標領域画像の位置及び前記第２画像における前記第２目標領域画像の位置に基づき、前記第１目標領域画像と前記第２目標領域画像との間の変位情報を決定するように構成される変位決定ユニットを備える
項目１９に記載の装置。
（項目２５）
前記第２決定ユニットは、前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記視差を加算して、前記第１画像と前記第２画像との間の視差予測結果を取得するように構成される
項目１９又は２４のいずれか１項に記載の装置。
（項目２６）
前記装置は、更に、
前記第１画像と前記第２画像との視差予測結果に基づき、前記目標対象の深度情報を決定するように構成される深度情報決定ユニットと、
前記目標対象の深度情報に基づき、生体検出結果を決定するように構成される生体検出決定ユニットと、を備える
項目１９～２５のいずれか１項に記載の装置。
（項目２７）
前記双眼カメラはコモーダル双眼カメラ及びクロスモーダル双眼カメラのうちの１つを含む
項目１９～２６のいずれか１項に記載の装置。
（項目２８）
前記第１画像センサ又は前記第２画像センサは、可視光画像センサ、近赤外線画像センサ、デュアルチャネル画像センサのうちの１つを含む
項目１９～２７のいずれか１項に記載の装置。
（項目２９）
前記目標対象は人間顔を含む
項目１９～２８のいずれか１項に記載の装置。
（項目３０）
画像処理装置であって、
目標対象の第１目標領域画像及び前記目標対象の第２目標領域画像を取得するように構成される取得ユニットであって、前記第１目標領域画像は、画像収集領域の第１時刻に収集された第１画像から切り取ったものであり、前記第２目標領域画像は、前記画像収集領域の第２時刻に収集された第２画像から切り取ったものである取得ユニットと、
前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報を決定するように構成される第１決定ユニットと、
前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報に基づき、前記第１画像と前記第２画像との間のオプティカルフロー情報予測結果を取得するように構成される第２決定ユニットと、を備える、前記画像処理装置。
（項目３１）
前記取得ユニットは、画像収集領域の前記第１時刻に収集された第１画像、及び前記画像収集領域の前記第２時刻に収集された第２画像を取得し、前記第１画像及び前記第２画像に対してそれぞれ目標検出を行って、第１目標領域画像及び第２目標領域画像を取得するように構成される
項目３０に記載の装置。
（項目３２）
前記取得ユニットは、
画像収集領域の前記第１時刻に収集された第１画像に対して目標検出を行って、第１候補領域を取得するように構成される目標検出ユニットと、
前記第１候補領域の画像に対してキーポイント検出を行って、キーポイント情報を取得するように構成されるキーポイント検出ユニットと、
前記キーポイント情報に基づき、前記第１画像から第１目標領域画像を切り取るように構成される切り取りユニットと、を備える
項目３０又は３１に記載の装置。
（項目３３）
前記第１目標領域画像及び前記第２目標領域画像の画像寸法が同じである
項目３０～３２のいずれか１項に記載の装置。
（項目３４）
前記第１決定ユニットはニューラルネットワークを通して前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報を取得するように構成される
項目３０に記載の装置。
（項目３５）
前記装置は、更に、前記第２決定ユニットが前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報に基づき、前記第１画像と前記第２画像との間のオプティカルフロー情報予測結果を取得する前に、前記第１画像における前記第１目標領域画像の位置及び前記第２画像における前記第２目標領域画像の位置に基づき、前記第１目標領域画像と前記第２目標領域画像との間の変位情報を決定するように構成される変位決定ユニットを備える
項目３０に記載の装置。
（項目３６）
前記第２決定ユニットは、前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記オプティカルフロー情報を加算して、前記第１画像と前記第２画像との間のオプティカルフロー情報予測結果を取得するように構成される
項目３０又は３５のいずれか１項に記載の装置。
（項目３７）
電子機器であって、
プロセッサと、
コンピュータ可読命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、前記メモリに記憶されるコンピュータ可読命令を呼び出して、項目１～１１のいずれか１項に記載の方法を実行し、又は、項目１２～１８のいずれか１項に記載の方法を実行するように構成される、前記電子機器。
（項目３８）
コンピュータ可読記憶媒体であって、
コンピュータプログラム命令が記憶され、前記コンピュータプログラム命令がプロセッサにより実行されるとき、項目１～１１のいずれか１項に記載の方法を実現し、又は、前記コンピュータプログラム命令がプロセッサにより実行されるとき、項目１２～１８のいずれか１項に記載の方法を実現する、前記コンピュータ可読記憶媒体。
（項目３９）
コンピュータプログラム製品であって、
コンピュータ命令を含み、前記コンピュータ命令がプロセッサにより実行されるとき、項目１～１１のいずれか１項に記載の方法を実現し、又は、前記コンピュータ命令がプロセッサにより実行されるとき、項目１２～１８のいずれか１項に記載の方法を実現する、前記コンピュータプログラム製品。

本開示の実施例では、目標対象の第１目標領域画像及び前記目標対象の第２目標領域画像を取得し、前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間の視差を決定し、前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間の視差に基づき、前記第１画像と前記第２画像との間の視差予測結果を取得する。本開示の実施例は視差予測の計算量を減少させ、視差の予測速度を向上させることができ、視差のリアルタイム予測を実現することに役立つ。

以下の図面を参照して例示的な実施例を詳しく説明する内容によれば、本開示の他の特徴及び態様が明らかになる。

図１は本開示の実施例に係る画像処理方法のフローチャートである。図２は本開示の実施例に係る第１目標領域画像と第２目標領域画像との視差を決定する模式図である。図３は本開示の実施例に係る目標領域変位決定方法の例示的な模式図である。図４は本開示の実施例に係る画像処理方法の他のフローチャートである。図５は本開示の実施例に係る画像処理装置の構造模式図である。図６は本開示の実施例に係る画像処理装置の他の構造模式図である。図７は本開示の実施例に係る画像処理装置の他の構造模式図である。図８は本開示の実施例に係る画像処理装置の他の構造模式図である。図９は本開示の実施例に係る電子機器の構造ブロック図である。

本開示の実施例の技術案をより明確に説明するために、以下に実施例の記述において必要な図面を用いて簡単に説明を行うが、当然ながら、以下に記載する図面は本開示の実施例の一例であって、当業者であれば、創造的な労力を要することなく、これらの図面に基づいて他の図面に想到しうる。

以下、本開示の実施例の図面を参照しながら、本開示の実施例の技術案を明確且つ完全に説明し、無論、説明される実施例は本開示の実施例の一部であり、実施例のすべてではない。本開示の実施例に基づき、当業者が進歩性のある労働を必要とせずに得られる他の実施例は、いずれも本開示の保護範囲に属する。

理解すべきものは、本明細書及び添付の特許請求の範囲に使用されるとき、用語「包括」と「包含」は説明される特徴、全体、ステップ、操作、要素及び／又はコンポーネントが存在するが、１つ又は複数の他の特徴、全体、ステップ、操作、要素、コンポーネント及び／又はその集合が存在し又は追加されることを排除しないことを示す。

更に理解すべきものは、ここで、本開示の明細書に使用される用語は特定の実施例を説明するためのものに過ぎず、本開示を制限するためのものではない。本開示の明細書及び添付の特許請求の範囲に使用されるとおり、上下の文脈において他の意味を明確に示していない限り、単数形式の「一」、「１つ」及び「前記」は複数形式も含むように意図されている。

更に理解すべきものは、本開示の明細書及び添付の特許請求の範囲に使用される用語「及び／又は」は関連して列挙した項のうちの１項又は複数項の組み合わせ及びすべての可能な組み合わせを指し、且つこれらの組み合わせを含む。

本明細書及び添付の特許請求の範囲に使用されるとおり、コンテクストによって、用語「〇〇場合」は「○○時」、「○○であれば」又は「決定に応答する」又は「検出に応答する」と解釈されてもよい。それと似ていて、コンテクストによって、連語「決定すれば」又は「［陳述した条件又はイベント］を検出すれば」は「決定する時」又は「決定に応答する」又は「［陳述した条件又はイベント］を検出する時」又は「［陳述した条件又はイベント］の検出に応答する」と解釈されてもよい。

本開示の実施例に係る画像処理方法は携帯電話、デスクトップパソコン、ラップトップパソコン、ウェアラブル端末等の画像処理機能を持つ端末装置又はサーバ又は他のタイプの電子機器又はシステムにより実現されてもよく、ここで制限しない。理解しやすくするために、以下に画像処理方法の実行主体が画像処理装置と称される。

図１は本開示の実施例に係る画像処理方法のフローチャートである。

１０１において、目標対象の第１目標領域画像及び前記目標対象の第２目標領域画像を取得する。

本開示の実施例では、双眼撮影カメラの２つの画像センサが第１画像センサ及び第２画像センサと称される。双眼カメラの２つの画像センサは水平に配列したものであってもよいし、垂直に配列したものであってもよいし、他の配列形式であってもよく、本開示の実施例は具体的に制限しない。一例として、上記第１画像センサ及び第２画像センサは撮影機能を持つ装置、例えばカメラ等であってもよい。

可能な実現方式では、前記第１画像センサ又は前記第２画像センサは可視光画像センサ、近赤外線画像センサ、デュアルチャネル画像センサのうちの１つを含む。本開示の実施例における第１画像センサ又は第２画像センサは他のタイプの画像センサであってもよく、ここで、具体的なタイプを制限しない。

可視光画像センサは可視光で物体を照射して画像をなす画像センサである。近赤外線画像センサは近赤外線で物体を照射して画像をなす画像センサである。デュアルチャネル画像センサはデュアルチャネル（Ｒチャネルを含む）イメージング原理を利用して画像をなす画像センサである。双眼カメラの２つの画像センサは同じタイプの画像センサであってもよいし、異なるタイプの画像センサであってもよく、つまり双眼カメラはコモーダル双眼カメラであってもよいし、クロスモーダル双眼カメラであってもよい。例えば、双眼カメラＡの２つの画像センサがいずれも可視光画像センサであり、又は、双眼カメラＢの２つの画像センサがいずれも近赤外線画像センサであり、又は、双眼カメラＣの２つの画像センサがいずれもデュアルチャネル画像センサであり、又は、双眼カメラＤの２つの画像センサがそれぞれ可視光画像センサ及び近赤外線画像センサであり、又は、双眼カメラＥの２つの画像センサがそれぞれ可視光画像センサ及びデュアルチャネル画像センサであり、又は、双眼カメラＦの２つの画像センサがそれぞれ近赤外線画像センサ及びデュアルチャネル画像センサである等が挙げられる。実際のニーズに応じて、双眼カメラの２つの画像センサのタイプを選択してもよく、適用範囲がより広く、拡張性がより高い。

本開示の実施例に係る技術案は目標識別、生体検出、スマート交通等の分野に適用されてもよいことに対応して、目標対象も応用分野の相違に応じて異なる。目標識別分野では、前記目標対象が人体、人間顔、マスク、耳、服飾等の特定物体であってもよい。生体検出分野では、前記目標対象が様々な生体対象又は生体対象の一部であってもよく、例えば、目標対象が人間、動物、人間顔等であってもよい。服飾識別分野では、前記目標対象が様々なタイプの服飾、例えば髪飾り、上着、下着、コンビネゾン等であってもよい。スマート交通分野では、前記目標対象が道路、建物、通行人、交通信号灯、交通手段又は交通手段の指定された箇所等であってもよく、例えば目標対象が自転車、乗用車、バス、トラック、車の先端部分、車のテール等であってもよく、本開示の実施例は目標対象の具体的な実現を制限しない。

いくつかの実施例では、前記目標対象が人間顔であってもよいことに対応して、第１目標領域画像及び第２目標領域画像が人間顔領域を含む画像又は顔部領域を含む画像である。当然ながら、本願の実施例に記載の目標対象は人間顔に限らず、他の対象であってもよい。

本開示の実施例では、第１画像は双眼カメラの第１画像センサにより収集されたものであり、第２画像は双眼カメラの第２画像センサにより収集されたものであり、いくつかの実施例では、第１画像及び第２画像はそれぞれ左側面図及び右側面図であってもよく、又は、第１画像及び第２画像はそれぞれ右側面図及び左側面図であってもよく、本開示の実施例は制限しない。

本開示のいくつかの可能な実施例では、目標対象の第１目標領域画像及び前記目標対象の第２目標領域画像を取得することは、双眼カメラの第１画像センサが収集した第１画像、及び前記双眼カメラの第２画像センサが収集した第２画像を取得して、第１画像から目標対象の第１目標領域画像を切り取り、第２画像から前記目標対象の第２目標領域画像を切り取ることを含む。

いくつかの可能な実施形態では、双眼カメラは静的画像対を収集して、第１画像と第２画像とを含む画像対を取得してもよく、又は、双眼カメラは連続したビデオストリームを収集して、ビデオストリームに対してフレーム選択操作を行うことで第１画像と第２画像とを含む画像対を取得してもよい。それに対応して、第１画像及び第２画像は静的画像対から取得された静的画像又はビデオストリームから取得されたビデオフレーム画像であってもよく、本開示の実施例は制限しない。

いくつかの可能な実現方式では、画像処理装置に双眼カメラが設置され、画像処理装置は双眼カメラが静的画像対又はビデオストリームの収集を行うことで、第１画像と第２画像とを含む画像対を取得し、本開示の実施例は制限しない。

いくつかの可能な実施形態では、画像処理装置は更に他の装置から送信された第１画像と第２画像とを含む画像対を受信してもよい。例えば、画像処理装置は他の装置に設定されるデータベースから第１画像と第２画像とを含む画像対を取得する。第１画像と第２画像とを含む画像対が生体検出要求、身分認証要求、深度予測要求、双眼マッチング要求又は他のメッセージに含まれて送信されてもよい。画像処理装置は更にそれぞれ第１画像及び第２画像から第１目標領域画像及び第２目標領域画像を切り取り、本開示の実施例は制限しない。更に、例えば、画像処理装置は双眼カメラが設置される端末装置から送信された第１画像と第２画像とを含む画像対を受信し、好ましくは、端末装置は画像処理装置（例えば、サーバ）へ第１画像と第２画像とを含む画像対を送信してもよく、第１画像と第２画像とを含む画像対は端末装置が双眼カメラにより収集した静的画像対又は双眼カメラの収集したビデオストリームからフレーム選択を行って取得したビデオフレーム画像対であってもよい。更に、例えば、端末装置は画像処理装置へ前記画像対を含むビデオシーケンスを送信し、画像処理装置は端末装置から送信されたビデオストリームを受信した後、フレーム選択によって第１画像と第２画像とを含む画像対を取得し、本開示の実施例は制限しない。

本開示の実施例では、様々な方式でビデオストリームに対してフレーム選択操作を行って第１画像と第２画像とを含む画像対を取得してもよい。

いくつかの実施例では、第１画像センサが収集したビデオストリーム又はビデオシーケンスに対してフレーム選択処理を行って、第１画像を取得し、且つ第２画像センサが収集したビデオストリーム又はビデオシーケンスから第１画像に対応する第２画像を検索して、第１画像と第２画像とを含む画像対を取得してもよい。いくつかの例では、画像品質に基づき、第１画像センサが収集した第１ビデオストリームに含まれるマルチフレーム画像から第１画像を選択し、画像品質は画像解像度、画像輝度、画像露出度、画像コントラスト、人間顔の完成度、人間顔が遮られるかどうか等のうちの１つ又は複数の要素の組み合わせに基づいて考慮してもよく、つまり、画像解像度、画像輝度、画像露出度、画像コントラスト、人間顔の完成度、人間顔が遮られるかどうか等のうちの１つ又は複数の要素の組み合わせに基づいて第１画像センサが収集した第１ビデオストリームに含まれるマルチフレーム画像から第１画像を選択してもよい。

いくつかの可能な実施形態では、画像に含まれる目標対象の人間顔状態及び画像品質に基づいてビデオストリームに対してフレーム選択操作を行って第１画像を取得してもよい。例えば、キーポイント検出により取得されたキーポイント情報に基づいて前記第１ビデオストリームにおける各フレームの画像又はいくつかのフレームの間隔をおく画像における目標対象の人間顔状態を決定し、前記人間顔状態が例えば人間顔の向きであり、且つ前記第１ビデオストリームにおける各フレームの画像又はいくつかのフレームの間隔をおく画像の画像品質を決定し、画像フレームにおける目標対象の人間顔状態と画像品質をまとめて、人間顔状態が所定条件（例えば、人間顔の向きが正面向きであり、又は人間顔の向きと順方向との夾角が設定閾値より小さい）を満たし画像品質がより高い１フレーム又はマルチフレーム画像を前記第１画像として選択する。いくつかの例では、更に画像に含まれる目標対象の状態に応じてフレーム選択操作を行って第１画像を取得してもよい。好ましくは、目標対象の状態は画像における人間顔の向きが正面向きであるかどうか、目閉じ状態にあるかどうか、口開き状態にあるかどうか、動きボケ又はフォーカスボケになるかどうか等のうちの１つ又は複数の要素の組み合わせを含み、本開示の実施例は制限しない。

いくつかの可能な実施形態では、更に第１画像センサが収集した第１ビデオストリーム及び第２画像センサが収集した第２ビデオストリームに対して共同でフレーム選択を行って、第１画像と第２画像とを含む画像対を取得してもよい。このとき、双眼カメラで収集されたビデオストリームから画像対を選択し、選択された画像対に含まれる２つの画像がいずれも設定条件を満たし、前記設定条件の具体的な実現は以上の説明を参照してもよく、簡潔のため、ここで詳細な説明は省略する。

本開示のいくつかの可能な実施例では、第１画像及び第２画像に対して双眼マッチング処理を行う（例えば、第１画像から第１目標領域画像を切り取り、第２画像から第２目標領域画像を切り取る）前に、第１画像及び第２画像における対応する画素点を同じ水平線にするよう、更に第１画像及び第２画像に対して校正処理を行ってもよい。一実施形態として、校正により取得された双眼カメラのパラメータに基づき、第１画像及び第２画像に対して双眼校正処理を行い、例えば、第１画像センサのパラメータ、第２画像センサのパラメータ及び第１画像センサと第２画像センサとの間の相対位置パラメータに基づき、第１画像及び第２画像に対して双眼校正処理を行ってもよい。他の実施形態として、双眼カメラのパラメータに依存せずに第１画像及び第２画像に対して自動校正を行い、例えば、目標対象の第１画像でのキーポイント情報（すなわち、第１キーポイント情報）及び前記目標対象の第２画像でのキーポイント情報（すなわち、第２キーポイント情報）を取得して、第１キーポイント情報及び第２キーポイント情報に基づいて目標変換行列を決定し（例えば、最小二乗法で目標変換行列を決定し）、更に目標変換行列に基づいて第１画像又は第２画像に対して変換処理を行って変換後の第１画像又は第２画像を取得してもよいが、本開示の実施例は制限しない。

いくつかの実施例では、第１目標領域画像及び第２目標領域画像における対応する画素点が同じ水平線に位置する。例えば、前処理後の第１画像及び第２画像における対応する画素点を同じ水平線にするよう、第１画像センサ及び第２画像センサのパラメータに基づき、第１画像及び第２画像のうちの少なくとも１つに対して並進及び／又は回転等の前処理を行ってもよい。更に、例えば、双眼カメラの２つの画像センサが校正されず、このとき、校正後の第１画像及び第２画像における対応する画素点を同じ水平線にするよう、第１画像及び第２画像に対してマッチング検出及び校正処理を行ってもよく、本開示の実施例は制限しない。

いくつかの実施例では、第１画像センサ及び第２画像センサのパラメータを取得するよう、双眼カメラの２つの画像センサを予め校正してもよい。

本開示の実施例では、様々な方式で目標対象の第１目標領域画像及び前記目標対象の第２目標領域画像を取得してもよい。

いくつかの可能な実施例では、画像処理装置は他の装置から第１目標領域画像及び第２目標領域画像を直接取得してもよく、第１目標領域画像及び第２目標領域画像がそれぞれ第１画像及び第２画像から切り取ったものである。第１目標領域画像及び第２目標領域画像が生体検出要求、身分認証要求、深度予測要求、双眼マッチング要求又は他のメッセージに含まれて送信されてもよく、本開示の実施例は制限しない。例えば、画像処理装置は他の装置に設定されるデータベースから第１目標領域画像及び第２目標領域画像を取得する。更に、例えば、画像処理装置（例えば、サーバ）は双眼カメラが設置される端末装置から送信された第１目標領域画像及び第２目標領域画像を受信し、好ましくは、端末装置は双眼カメラにより第１画像と第２画像とを含む静的画像対を収集して、それぞれ第１画像及び第２画像から第１目標領域画像及び第２目標領域画像を切り取ってもよく、又は、端末装置は双眼カメラによりビデオシーケンスを収集し、収集されたビデオシーケンスに対してフレーム選択を行って、第１画像と第２画像とを含むビデオフレーム画像対を取得する。更に、例えば、端末装置は画像処理装置へ第１画像と第２画像とを含む画像対のビデオストリームを送信し、更にそれぞれ第１画像及び第２画像から第１目標領域画像及び第２目標領域画像を切り取り、本開示の実施例は制限しない。

他の可能な実施例では、目標対象の第１目標領域画像及び前記目標対象の第２目標領域画像を取得することは、前記双眼カメラの第１画像センサが収集した第１画像、及び前記双眼カメラの第２画像センサが収集した第２画像を取得することと、前記第１画像及び前記第２画像に対してそれぞれ目標検出を行って、第１目標領域画像及び第２目標領域画像を取得することと、を含む。

いくつかの実施例では、第１画像及び第２画像に対してそれぞれ目標検出を行って、目標対象の第１画像での第１位置情報及び前記目標対象の第２画像での第２位置情報を取得し、且つ第１位置情報に基づいて第１画像から第１目標領域画像を切り取り、第２位置情報に基づいて第２画像から第２目標領域画像を切り取ってもよい。

好ましくは、第１画像及び第２画像に対して直接目標検出を行い、又は先に第１画像及び／又は第２画像を前処理して、前処理後の第１画像及び／又は第２画像に対して目標検出を行ってもよく、前記前処理は例えば輝度調整、寸法調整、並進、回転等のうちの１項又は複数項の処理を含んでもよく、本開示の実施例は制限しない。

本開示のいくつかの可能な実施例では、目標対象の第１目標領域画像を取得することは、前記双眼カメラの第１画像センサが収集した第１画像に対して目標検出を行って、第１候補領域を取得することと、前記第１候補領域の画像に対してキーポイント検出を行って、キーポイント情報を取得することと、前記キーポイント情報に基づき、前記第１画像から第１目標領域画像を切り取ることと、を含む。

いくつかの実施例では、第１画像及び第２画像に対してそれぞれ目標検出を行って、前記第１画像における第１候補領域及び前記第２画像における第１候補領域に対応する第２候補領域を取得し、第１候補領域に基づいて第１画像から第１目標領域画像を切り取り、第２候補領域に基づいて第２画像から第２目標領域画像を切り取ってもよい。

例えば、第１画像から第１候補領域の画像を第１目標領域画像として切り取ってもよい。更に、例えば、第１候補領域を一定倍数増幅して第１目標領域を取得して、第１画像から第１目標領域の画像を第１目標領域画像として切り取る。

いくつかの実施例では、第１候補領域の画像に対してキーポイント検出を行うことで、第１候補領域に対応する第１キーポイント情報を取得し、取得された第１キーポイント情報に基づいて第１画像から第１目標領域画像を切り取る。それに対応して、第２候補領域の画像に対してキーポイント検出を行うことで、第２候補領域に対応する第２キーポイント情報を取得し、取得された第２キーポイント情報に基づいて第２画像から第２目標領域画像を切り取る。

可能な実現方式では、画像処理技術（例えば、畳み込みニューラルネットワーク）により第１画像に対して目標検出を行って、目標対象が属する第１候補領域を取得してもよいことに対応して、画像処理技術（例えば、畳み込みニューラルネットワーク）により第２画像に対して目標検出を行って、目標対象が属する第２候補領域を取得してもよく、前記第１候補領域及び前記第２候補領域が例えば第１人間顔領域である。前記目標検出は目標対象に対する大体位置決めであってもよいことに対応して、前記第１候補領域は目標対象を含む予備領域であり、前記第２候補領域は前記目標対象を含む予備領域である。

上記キーポイント検出はディープニューラルネットワーク、例えば畳み込みニューラルネットワーク、再帰型ニューラルネットワーク等により実現されてもよく、前記ネットワークが具体的にＬｅＮｅｔ、ＡｌｅｘＮｅｔ、ＧｏｏｇＬｅＮｅｔ、ＶＧＧＮｅｔ、ＲｅｓＮｅｔ等のいかなるタイプのニューラルネットワークモデルであってもよく、又は、キーポイント検出は他の機械学習方法により実現されてもよく、本開示の実施例はキーポイント検出の具体的な実現を制限しない。

キーポイント情報は目標対象の複数のキーポイントのうちの各キーポイントの位置情報を含んでもよく、又は、更に信頼度等の情報を含み、本開示の実施例は制限しない。

例えば、前記目標対象が人間顔である場合、人間顔キーポイント検出モデルを利用してそれぞれ前記第１候補領域及び第２候補領域の画像に対して人間顔キーポイント検出を行って、前記第１候補領域の画像における人間顔キーポイントに対応する複数のキーポイント情報を取得し、前記第２候補領域の画像における人間顔キーポイントに対応する複数のキーポイント情報を取得し、前記複数のキーポイント情報に基づいて人間顔の位置情報を決定してもよく、人間顔の位置情報に基づいて人間顔に対応する第１目標領域と前記人間顔に対応する第２目標領域とを決定してもよい。第１候補領域及び第２候補領域に比べて、第１目標領域及び第２目標領域が人間顔のより正確な位置であり、これにより、後続操作の精度の向上に役立つ。

上記各実施例における第１画像及び第２画像に対して行われる目標検出は目標対象又はその属する領域の正確な位置を決定する必要がないが、目標対象又はその属する領域を大体位置決めすればよく、これにより、目標検出アルゴリズムに対する精度要求を低減し、ロバスト性と画像処理速度を向上させる。

いくつかの可能な実現方式では、前記第２目標領域画像の切り取り方式は前記第１目標領域画像の切り取り方式と同じであってもよいし、異なってもよく、本開示の実施例は制限しない。

本開示の実施例では、好ましくは、前記第１目標領域画像及び前記第２目標領域画像の画像は異なる寸法を有してもよい。又は、計算複雑性を低減して、処理速度を更に向上させるために、前記第１目標領域画像及び前記第２目標領域画像の画像寸法を同じにする。

いくつかの実施例では、前記第１目標領域画像及び前記第２目標領域画像の画像寸法を同じにするよう、同じ寸法を特徴づける切り取り枠の切り取りパラメータを利用してそれぞれ第１画像及び第２画像から第１目標領域画像及び第２目標領域画像を切り取ってもよい。例えば、上記例では、目標対象の第１位置情報及び第２位置情報に基づき、目標対象を完全に含む２つの同じ切り取り枠を取得してもよい。更に、例えば、上記例では、取得された第１画像に対応する第１切り取り枠と第２画像に対応する第２切り取り枠とが同じ寸法を有するよう、第１画像及び第２画像に対して目標検出を行ってもよい。更に、例えば、上記例では、第１切り取り枠と第２切り取り枠とが異なる寸法を有する場合、増幅処理により取得された２つの切り取り枠が同じ寸法を有するよう、それぞれ第１切り取り枠及び第２切り取り枠を異なる倍数増幅し、つまりそれぞれ第１切り取り枠に対応する第１切り取りパラメータ及び第２切り取り枠に対応する第２切り取りパラメータに対して異なる倍数の増幅処理を行う。更に、例えば、上記例では、第１画像のキーポイント情報及び第２画像のキーポイント情報に基づき、同じ寸法を有する第１目標領域及び第２目標領域を決定し、第１目標領域及び第２目標領域が目標対象を完全に含む等が挙げられる。

本開示の実施例では、第１画像及び第２画像に対して目標対象の検出を行うことで、目標対象又は目標領域以外の不関情報を除去し、これにより、後続の双眼マッチングアルゴリズムの入力画像の寸法及び処理のデータ量を減少させ、画像視差の予測速度を向上させる。いくつかの実施形態では、生体検出分野において、画像の視差を予測することで画像の深度情報を取得し、更に前記画像に含まれる人間顔が生体人間顔であるかどうかを決定してもよい。これに基づき、画像の人間顔領域に関心を持つだけでよく、このため、画像の人間顔領域のみに対して視差予測を行うことで、不必要な計算を回避することができ、これにより、視差の予測速度を向上させる。

１０２において、前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間の視差を決定する。

本開示の可能な実施例では、ステップ１０２に対して、前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間の視差を決定することは、双眼マッチングニューラルネットワークを通して前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との視差を取得することを含む。

本実施形態は双眼マッチングニューラルネットワークを通して第１目標領域画像及び第２目標領域画像を処理して、第１目標領域画像と第２目標領域画像との間の視差を取得して出力する。

いくつかの可能な実施形態では、第１目標領域画像及び第２目標領域画像を双眼マッチングニューラルネットワークに直接入力して処理し、第１目標領域画像と第２目標領域画像との間の視差を取得する。他の可能な実施形態では、先に第１目標領域画像及び／又は第２目標領域画像を前処理し、前記前処理が例えば順方向回転処理等であり、更に前処理後の第１目標領域画像及び第２目標領域画像を双眼マッチングニューラルネットワークに入力して処理し、第１目標領域画像と第２目標領域画像との間の視差を取得してもよい。本開示の実施例は制限しない。

図２に示すように、図２は本開示の実施例に係る第１目標領域画像と第２目標領域画像との視差を決定する模式図であり、第１目標領域画像及び第２目標領域画像を前記双眼マッチングニューラルネットワークに入力し、前記双眼マッチングニューラルネットワークを通してそれぞれ前記第１目標領域画像の第１特徴（すなわち、図２における特徴１）及び第２目標領域画像の第２特徴（すなわち、図２における特徴２）を抽出し、双眼マッチングニューラルネットワークにおけるマッチング代価計算モジュールによって第１特徴と第２特徴とのマッチング代価を計算し、取得されたマッチング代価に基づいて前記第１目標領域画像と前記第２目標領域画像との間の視差を決定し、前記マッチング代価が第１特徴と第２特徴との関連性を示してもよい。取得されたマッチング代価に基づいて前記第１目標領域画像と前記第２目標領域画像との間の視差を決定することは、マッチング代価に対して特徴抽出を行って、抽出された特徴データに基づいて第１目標領域画像と第２目標領域画像との間の視差を決定することを含む。

他の可能な実現方式では、ステップ１０２に対して、他の機械学習に基づく双眼マッチングアルゴリズムによって前記第１目標領域画像と前記第２目標領域画像との間の視差を決定してもよい。実際の応用中、前記双眼マッチングアルゴリズムは立体双眼視覚アルゴリズム（ＳＡＤ：Ｓｕｍｏｆａｂｓｏｌｕｔｅｄｉｆｆｅｒｅｎｃｅｓ）、双方向マッチングアルゴリズム（ＢＭ：ｂｉｄｉｒｅｃｔｉｏｎａｌｍａｔｃｈｉｎｇ）、グローバルマッチングアルゴリズム（ＳＧＢＭ：Ｓｅｍｉ－ｇｌｏｂａｌｂｌｏｃｋｍａｔｃｈｉｎｇ）、グラフカットアルゴリズム（ＧＣ：ＧｒａｐｈＣｕｔｓ）のうちのいずれか１つであってもよく、本開示の実施例は双眼マッチング処理の具体的な実現を制限しない。

１０３において、前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間の視差に基づき、前記第１画像と前記第２画像との間の視差予測結果を取得する。

本開示のいくつかの可能な実施例では、ステップ１０３を実行する前、つまり前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間の視差に基づき、前記第１画像と前記第２画像との間の視差予測結果を取得する前に、前記方法は、更に、第１目標領域画像の第１画像での位置及び第２目標領域画像の第２画像での位置に基づき、第１目標領域画像と第２目標領域画像との変位情報を決定することを含む。好ましくは、前記変位情報は水平方向における変位及び／又は垂直方向における変位を含んでもよく、いくつかの実施例では、第１画像及び第２画像における対応する画素点が同じ水平線に位置する場合、前記変位情報は水平方向における変位のみを含んでもよいが、本開示の実施例は制限しない。

第１目標領域画像の第１画像での位置及び第２目標領域画像の第２画像での位置に基づき、第１目標領域画像と第２目標領域画像との変位情報を決定することは、前記第１目標領域画像の第１中心点位置を決定し、前記第２目標領域画像の第２中心点位置を決定することと、前記第１中心点の位置及び前記第２中心点の位置に基づき、前記第１目標領域画像と前記第２目標領域画像との間の変位情報を決定することと、を含む。

図３に示すように、図３は本開示の実施例に係る目標領域変位決定方法の例示的な模式図であり、第１画像における第１目標領域画像の中心点ａの位置が（ｘ_１，ｙ_１）と示され、第２画像における第２目標領域画像の中心点ｂの位置が（ｘ_２，ｙ_１）と示され、中心点ａと中心点ｂとの間の変位が＝（ｘ_２－ｘ_１，０）と示され、すなわち前記第１目標領域画像と前記第１目標領域画像との間の変位情報である。他の可能な実現方式では、上記中心点が目標領域画像の４つの頂点のうちのいずれか１つの頂点で代替されてもよく、本開示の実施例は具体的に制限しない。

本開示の実施例では、更に他の方式で第１目標領域画像と第２目標領域画像との間の変位情報を決定してもよく、本開示の実施例は制限しない。

本開示のいくつかの可能な実施例では、ステップ１０３に対して、前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間の視差に基づき、前記第１画像と前記第２画像との間の視差予測結果を取得することは、前記第１目標領域画像と前記第２目標領域画像との間の視差に変位情報を加えて、前記第１画像と前記第２画像との間の視差予測結果を取得することを含む。

例えば、前記第１目標領域画像と前記第２目標領域画像との間の変位情報がｘであり、前記第１目標領域画像と前記第２目標領域画像との視差がＤ（ｐ）であり、変位情報ｘと視差Ｄ（ｐ）とを加算又は減算した結果を前記第１画像と前記第２画像との間の視差予測結果とする。

いくつかの実施例では、第１目標領域画像と第２目標領域画像との間の変位が０である場合、第１目標領域画像と第２目標領域画像との間の視差が第１画像と第２画像との間の視差である。

いくつかの可能な実現方式では、前記変位情報の決定及び前記第１目標領域画像と第２目標領域画像との間の視差の決定は並行して実行されてもよいし、いかなる前後順序で実行されてもよく、本開示の実施例は変位情報の決定及び前記第１目標領域画像と第２目標領域画像との間の視差の決定の実行順序を制限しない。

本開示の可能な実施例では、ステップ１０３の後で、前記方法は、更に、第１画像と第２画像との視差予測結果を取得した後、前記第１画像と前記第２画像との視差予測結果に基づき、前記目標対象の深度情報を決定することと、前記目標対象の深度情報に基づき、生体検出結果を決定することと、を含む。

本開示の実施例では、目標対象の第１目標領域画像及び前記目標対象の第２目標領域画像を取得し、前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間の視差を決定し、前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間の視差に基づき、前記第１画像と前記第２画像との間の視差予測結果を取得する。本開示の実施例は視差予測の計算量を減少させることができ、これにより、視差の予測速度を向上させ、視差のリアルタイム予測を実現することに役立つ。

理解すべきものは、以上は視差予測を例として本開示の実施例の技術案を説明し、好ましくは、本開示の実施例の技術案は他の応用シーン、例えば光束予測にも適用されてもよく、このとき、第１画像及び第２画像はそれぞれ単眼カメラが異なる時刻に収集した画像である等が挙げられ、本開示の実施例は制限しない。

図４は本開示の実施例に係る画像処理方法のフローチャートである。

２０１において、画像収集領域の第１時刻に収集された第１画像から切り取った目標対象の第１目標領域画像、及び前記画像収集領域の第２時刻に収集された第２画像から切り取った前記目標対象の第２目標領域画像を取得する。

２０２において、前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報を決定する。

２０３において、前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報に基づき、前記第１画像と前記第２画像との間のオプティカルフロー情報予測結果を取得する。

本開示の実施例では、単眼カメラにより前記画像収集領域に対して画像収集を行い、異なる時刻に収集された画像に基づいて第１目標領域画像及び第２目標領域画像を取得してもよい。一例として、第１時刻に収集された画像が第１画像と記され、第１画像から第１目標領域画像を取得し、第２時刻に収集された画像が第２画像と記され、第２画像から第２目標領域画像を取得する。

本開示のいくつかの可能な実施例では、目標対象の第１目標領域画像及び前記目標対象の第２目標領域画像を取得することは、画像収集領域の前記第１時刻に収集された第１画像、及び前記画像収集領域の前記第２時刻に収集された第２画像を取得することと、前記第１画像及び前記第２画像に対してそれぞれ目標検出を行って、第１目標領域画像及び第２目標領域画像を取得することと、を含む。

一実施形態では、目標対象の第１目標領域画像を取得することは、画像収集領域の前記第１時刻に収集された第１画像に対して目標検出を行って、第１候補領域を取得することと、前記第１候補領域の画像に対してキーポイント検出を行って、キーポイント情報を取得することと、前記キーポイント情報に基づき、前記第１画像から第１目標領域画像を切り取ることと、を含む。

本開示の実施例では、好ましくは、前記第１目標領域画像及び前記第２目標領域画像の画像寸法が同じである。

本開示の実施例では、ステップ２０１についての関連説明は上記実施例におけるステップ１０１についての詳細な説明を参照してもよく、ここで詳細な説明は省略する。

本開示のいくつかの可能な実施例では、前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報を決定することは、ニューラルネットワークを通して前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報を取得することを含む。

このように、ニューラルネットワークを通して第１目標領域画像及び第２目標領域画像を処理して、第１目標領域画像と第２目標領域画像との間のオプティカルフロー情報を取得してもよい。

いくつかの可能な実施形態では、第１目標領域画像及び第２目標領域画像をニューラルネットワークに入力して処理し、第１目標領域画像と第２目標領域画像との間のオプティカルフロー情報を取得してもよく、他の可能な実施形態では、先に第１目標領域画像及び／又は第２目標領域画像を前処理し、前記前処理が例えば順方向回転処理等であり、更に前処理後の第１目標領域画像及び第２目標領域画像をニューラルネットワークに入力して、第１目標領域画像と第２目標領域画像との間のオプティカルフロー情報を取得してもよい。第１目標領域画像及び第２目標領域画像に対応する位置が絶対に変化しないとは限らないため、前記オプティカルフロー情報が１つの相対概念であって、前記目標対象の相対オプティカルフロー情報、すなわち前記目標対象の相対運転状況を特徴づけてもよい。

本開示のいくつかの可能な実施例では、前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報に基づき、前記第１画像と前記第２画像との間のオプティカルフロー情報予測結果を取得する前に、前記方法は、更に、前記第１画像における前記第１目標領域画像の位置及び前記第２画像における前記第２目標領域画像の位置に基づき、前記第１目標領域画像と前記第２目標領域画像との間の変位情報を決定することを含む。

本開示の実施例では、前記第１目標領域画像と前記第２目標領域画像との間の変位情報を決定する関連説明は具体的に上記実施例の説明を参照してもよく、ここで詳細な説明を省略する。

本開示のいくつかの可能な実施例では、前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報に基づき、前記第１画像と前記第２画像との間のオプティカルフロー情報予測結果を取得することは、前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記オプティカルフロー情報を加算して、前記第１画像と前記第２画像との間のオプティカルフロー情報予測結果を取得することを含む。

本開示の実施例では、第１目標領域画像及び第２目標領域画像に対応する位置が絶対に変化しないとは限らないため、前記第１目標領域画像と前記第２目標領域画像との変位情報を決定し、更に前記変位情報と前記オプティカルフロー情報とを加算又は減算してオプティカルフロー情報予測結果を取得する必要がある。前記オプティカルフロー情報予測結果が目標対象の絶対オプティカルフロー情報、すなわち前記目標対象の絶対運転状況を示してもよい。

本開示の実施例の画像処理方法はオプティカルフロー情報の予測に適用され、図１に説明された画像処理方法は視差情報予測に適用され、それらは技術の実現においてほぼ合致し、簡潔のため、本開示の実施例の画像処理方法の具体的な実現は図１に説明された画像処理方法の実施例の説明を参照してもよく、ここで詳細な説明は省略する。

本開示の実施例は更に画像処理装置を提供する。図５は本開示の実施例に係る画像処理装置の構造模式図１である。前記装置５００は取得ユニット５０１、第１決定ユニット５０２及び第２決定ユニット５０３を備える。

前記取得ユニット５０１は、双眼カメラの第１画像センサによって収集された第１画像から切り取った目標対象の第１目標領域画像、及び前記双眼カメラの第２画像センサによって収集された第２画像から切り取った前記目標対象の第２目標領域画像を取得するように構成される。

前記第１決定ユニット５０２は、前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間の視差を決定するように構成される。

前記第２決定ユニット５０３は、前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間の視差に基づき、前記第１画像と前記第２画像との間の視差予測結果を取得するように構成される。

本開示のいくつかの可能な実施例では、前記取得ユニット５０１は前記双眼カメラの第１画像センサが収集した第１画像、及び前記双眼カメラの第２画像センサが収集した第２画像を取得し、前記第１画像及び前記第２画像に対してそれぞれ目標検出を行って、第１目標領域画像及び第２目標領域画像を取得するように構成される。

本開示のいくつかの可能な実施例では、図６に示すように、前記取得ユニット５０１は、目標検出ユニット５０１－１、キーポイント検出ユニット５０１－２及び切り取りユニット５０１－３を備える。前記目標検出ユニット５０１－１は前記双眼カメラの第１画像センサが収集した第１画像に対して目標検出を行って、第１候補領域を取得するように構成される。前記キーポイント検出ユニット５０１－２は前記第１候補領域の画像に対してキーポイント検出を行って、キーポイント情報を取得するように構成される。前記切り取りユニット５０１－３は前記キーポイント情報に基づき、前記第１画像から第１目標領域画像を切り取るように構成される。

本開示のいくつかの可能な実施例では、前記第１目標領域画像及び前記第２目標領域画像の画像寸法が同じである。

本開示のいくつかの可能な実施例では、前記第１決定ユニット５０２は双眼マッチングニューラルネットワークを通して前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間の視差を取得するように構成される。

本開示のいくつかの可能な実施例では、図７に示すように、前記装置は更に変位決定ユニット７０１を備える。前記変位決定ユニット７０１は、前記第２決定ユニット５０３が前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間の視差に基づき、前記第１画像と前記第２画像との間の視差予測結果を取得する前に、前記第１画像における前記第１目標領域画像の位置及び前記第２画像における前記第２目標領域画像の位置に基づき、前記第１目標領域画像と前記第２目標領域画像との間の変位情報を決定するように構成される。

本開示のいくつかの可能な実施例では、前記第２決定ユニット５０３は、前記第１目標領域画像と前記第２目標領域画像との間の変位情報に前記第１目標領域画像と第２目標領域画像との間の視差を加えて、前記第１画像と前記第２画像との間の視差予測結果を取得するように構成される。

本開示のいくつかの可能な実施例では、図７に示すように、前記装置は更に深度情報決定ユニット７０２及び生体検出決定ユニット７０３を備える。前記深度情報決定ユニット７０２は、前記第２決定ユニット５０３が取得した前記第１画像と前記第２画像との視差予測結果に基づき、前記目標対象の深度情報を決定するように構成される。前記生体検出決定ユニット７０３は、前記深度情報決定ユニット７０２が取得した前記目標対象の深度情報に基づき、生体検出結果を決定するように構成される。

本開示のいくつかの可能な実施例では、前記双眼カメラはコモーダル双眼カメラ及びクロスモーダル双眼カメラのうちの１つを含む。

本開示のいくつかの可能な実施例では、前記第１画像センサ又は前記第２画像センサは可視光画像センサ、近赤外線画像センサ、デュアルチャネル画像センサのうちの１つを含む。

本開示のいくつかの可能な実施例では、前記目標対象は人間顔を含む。

本開示の実施例に係る装置が有する機能又は備えるモジュールは以上の画像処理方法の実施例に説明される方法を実行することに用いられてもよく、その具体的な実現は以上の方法実施例の説明を参照してもよく、簡潔のため、ここで詳細な説明は省略する。

本開示の実施例は更に画像処理装置を提供する。図８は本開示の実施例に係る画像処理装置の構造模式図４である。前記装置８００は取得ユニット８０１、第１決定ユニット８０２及び第２決定ユニット８０３を備える。

前記取得ユニット８０１は、画像収集領域の第１時刻に収集された第１画像から切り取った目標対象の第１目標領域画像、及び前記画像収集領域の第２時刻に収集された第２画像から切り取った前記目標対象の第２目標領域画像を取得するように構成される。

前記第１決定ユニット８０２は、前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報を決定するように構成される。

前記第２決定ユニット８０３は、前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報に基づき、前記第１画像と前記第２画像との間のオプティカルフロー情報予測結果を取得するように構成される。

本開示のいくつかの可能な実施例では、前記取得ユニット８０１は画像収集領域の前記第１時刻に収集された第１画像、及び前記画像収集領域の前記第２時刻に収集された第２画像を取得し、前記第１画像及び前記第２画像に対してそれぞれ目標検出を行って、第１目標領域画像及び第２目標領域画像を取得するように構成される。

本開示のいくつかの可能な実施例では、前記取得ユニット８０１は目標検出ユニット、キーポイント検出ユニット及び切り取りユニットを備え、
前記目標検出ユニットは画像収集領域の前記第１時刻に収集された第１画像に対して目標検出を行って、第１候補領域を取得するように構成され、
前記キーポイント検出ユニットは前記第１候補領域の画像に対してキーポイント検出を行って、キーポイント情報を取得するように構成され、
前記切り取りユニットは前記キーポイント情報に基づき、前記第１画像から第１目標領域画像を切り取るように構成される。

本開示のいくつかの可能な実施例では、前記第１決定ユニット８０２はニューラルネットワークを通して前記第１目標領域画像及び前記第２目標領域画像を処理して、前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報を取得するように構成される。

本開示のいくつかの可能な実施例では、前記装置は更に変位決定ユニットを備え、前記変位決定ユニットは前記第２決定ユニット８０３が前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間のオプティカルフロー情報に基づき、前記第１画像と前記第２画像との間のオプティカルフロー情報予測結果を取得する前に、前記第１画像における前記第１目標領域画像の位置及び前記第２画像における前記第２目標領域画像の位置に基づき、前記第１目標領域画像と前記第２目標領域画像との間の変位情報を決定するように構成される。

本開示のいくつかの可能な実施例では、前記第２決定ユニット８０３は前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記オプティカルフロー情報を加算して、前記第１画像と前記第２画像との間のオプティカルフロー情報予測結果を取得するように構成される。

本実施例の画像処理装置はオプティカルフロー情報の予測に適用され、本開示の実施例に係る装置が有する機能又は備えるモジュールは図４に示される方法実施例に説明される方法を実行することに用いられてもよく、その具体的な実現は図４における画像処理方法の実施例の説明を参照してもよく、簡潔のため、ここで詳細な説明は省略する。

また、本開示の実施例は電子機器を提供し、図９は本開示の実施例に係る電子機器の構造ブロック図である。図９に示すように、前記電子機器は、プロセッサ９０１と、プロセッサ実行可能命令を記憶するように構成されるメモリ９０４とを備え、前記プロセッサ９０１は本開示の実施例例えば図１に示される画像処理方法又はそのいずれか１つの可能な実現方式を実行し、又は本開示の実施例例えば図４に示される画像処理方法又はそのいずれか１つの可能な実現方式を実行するように構成される。

好ましくは、前記電子機器は更に１つ又は複数の入力装置９０２と、１つ又は複数の出力装置９０３とを備えてもよい。

上記プロセッサ９０１、入力装置９０２、出力装置９０３及びメモリ９０４がバス９０５によって接続される。メモリ９０２は命令を記憶することに用いられ、プロセッサ９０１はメモリ９０２に記憶される命令を実行することに用いられる。プロセッサ９０１は前記プログラム命令を呼び出して以上の画像処理方法におけるいずれか１つの実施例を実行するように構成され、簡潔のため、ここで詳細な説明は省略する。

理解すべきものは、以上の装置実施例は視差予測を例として本開示の実施例の技術案を説明する。好ましくは、本開示の実施例の技術案は光束予測にも適用されてもよいことに対応して、光束予測装置は同様に本開示の保護範囲に属し、光束予測装置は以上に説明される画像処理装置と類似し、簡潔のため、ここで詳細な説明は省略する。

理解すべきものは、本開示の実施例では、所謂プロセッサ９０１は中央処理装置（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）であってもよく、前記プロセッサは更に他の汎用プロセッサ、デジタルシグナルプロセッサ（ＤＳＰ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、特定用途向け集積回路（ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）又は他のプログラマブルロジックデバイス、個別ゲート又はトランジスタロジックデバイス、個別ハードウェアコンポーネント等であってもよい。汎用プロセッサはマイクロプロセッサであってもよく、又は前記プロセッサはいかなる通常のプロセッサ等であってもよい。

入力装置９０２は携帯電話、デスクトップパソコン、ラップトップパソコン、ウェアラブル端末、監視画像センサ等を含んでもよく、出力装置９０３はディスプレイ（ＬＣＤ等）を含んでもよい。

前記メモリ９０４は読み出し専用メモリ及びランダムアクセスメモリを含んでもよく、且つプロセッサ９０１に命令及びデータを提供する。メモリ９０４の一部は更に不揮発性ランダムアクセスメモリを含んでもよい。例えば、メモリ９０４に更に装置タイプの情報が記憶されてもよい。

本開示の実施例に説明される電子機器は以上に説明される画像処理方法を実行することに用いられることに対応して、プロセッサ９０１は本開示の実施例に係る画像処理方法の各実施例におけるステップ及び／又はプロセスを実行することに用いられ、ここで詳細な説明は省略する。

本開示の他の実施例はコンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体にコンピュータプログラムが記憶され、前記コンピュータプログラムがプログラム命令を含み、前記プログラム命令がプロセッサにより実行されるとき、以上の画像処理方法におけるいずれか１つの実施例を実現し、簡潔のため、ここで詳細な説明は省略する。

前記コンピュータ可読記憶媒体は上記いずれか１つの実施例に記載の電子機器の内部記憶ユニット、例えば端末のハードディスク又はメモリであってもよい。前記コンピュータ可読記憶媒体は更に前記端末の外部記憶装置、例えば前記端末に配置されるプラグインハードディスク、スマート記憶カード（ＳＭＣ：ＳｍａｒｔＭｅｄｉａ（登録商標）Ｃａｒｄ）、セキュアデジタル（ＳＤ：ＳｅｃｕｒｅＤｉｇｉｔａｌ）カード、フラッシュカード（ＦｌａｓｈＣａｒｄ）等であってもよい。更に、前記コンピュータ可読記憶媒体は前記電子機器の内部記憶ユニットを備えるだけでなく、外部記憶装置も備えてもよい。前記コンピュータ可読記憶媒体は前記コンピュータプログラム及び前記電子機器に必要な他のプログラム及びデータを記憶することに用いられる。前記コンピュータ可読記憶媒体は更に出力した又は出力しようとするデータを一時的に記憶することに用いられてもよい。

当業者であれば意識できるように、本明細書に開示される実施例を参照して説明した各例示的なユニット及びアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア又はそれらの組み合わせで実現できるが、ハードウェアとソフトウェアとの互換性を明確に説明するために、上記説明において機能に基づいて各例示的な構成及びステップを一般的に説明した。これらの機能をハードウェアそれともソフトウェア方式で実行するかは、技術案の特定応用及び設計制約条件によって決定される。当業者は各特定応用に対して異なる方法でここの説明される機能を実現することができるが、このような実現は本開示の範囲を超えるものと見なされるべきではない。

当業者であれば明確に理解できるように、説明を容易且つ簡単にするために、上記説明されるサーバ、装置及びユニットの具体的な動作過程は、前述の方法実施例における対応過程を参照してもよいし、発明実施例に説明される電子機器の実現方式を実行してもよく、ここで詳細な説明は省略する。

本開示に係るいくつかの実施例では、理解すべきものは、開示されるサーバ、装置及び方法は他の方式で実現されてもよい。例えば、以上に説明されるサーバ実施例は模式的なものに過ぎず、例えば、前記ユニットの区分は論理機能上の区分に過ぎず、実際に実現するとき、他の区分方式があってもよく、例えば複数のユニット又はコンポーネントは他のシステムに結合又は統合されてもよく、又はいくつかの特徴は省略してもよく、又は実行しなくてもよい。一方、表示又は検討される相互間の結合又は直接結合又は通信接続はいくつかのインターフェース、装置又はユニットによる間接結合又は通信接続であってもよく、電気、機械又は他の形式であってもよい。

分離部材として説明される前記ユニットは物理的に分離してもよいし、物理的に分離しなくてもよく、ユニットとして表示される部材は物理ユニットであってもよいし、物理ユニットでなくてもよく、つまり、一箇所に位置してもよいし、複数のネットワークユニットに配置されてもよい。実際の必要に応じて、その一部又は全部のユニットを選択して本開示の実施例案の目的を実現してもよい。

また、本開示の各実施例では、各機能ユニットは１つの処理ユニットに統合されてもよく、各ユニットは独立して物理的に存在してもよく、２つ又は２つ以上のユニットは１つのユニットに統合されてもよい。上記統合されたユニットはハードウェアの形式で実現されてもよいし、ソフトウェア機能ユニットの形式で実現されてもよい。

前記統合されたユニットはソフトウェア機能ユニットの形式で実現され、独立した製品として販売又は使用されるときは、１つのコンピュータ可読記憶媒体に記憶されてもよい。このような理解に基づき、本開示の技術案の本質的又は従来技術に貢献する部分、又は前記技術案の全部又は一部はソフトウェア製品の形式で具現されてもよく、前記コンピュータソフトウェア製品は、１台のコンピュータ装置（パーソナルコンピュータ、サーバ又はネットワーク装置等）に本開示の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む１つの記憶媒体に記憶される。そして、上記記憶媒体はＵＳＢメモリ、ポータブルハードディスク、読み出し専用メモリ（ＲＯＭ：Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスク又は光ディスク等のプログラムコードを記憶できる様々な媒体を含む。

以上の説明は本開示の具体的な実施形態であって、本開示の保護範囲を制限するためのものではなく、当業者が本開示に開示される技術的範囲内で種々の等価修正又は置換を容易に想到することができ、これらの修正又は置換はいずれも本開示の保護範囲内に含まれるべきである。従って、本開示の保護範囲は特許請求の範囲に準じるべきである。

Claims

画像処理方法であって、
双眼カメラの第１画像センサによって収集された第１画像から切り取った目標対象の第１目標領域画像、及び前記双眼カメラの第２画像センサによって収集された第２画像から切り取った前記目標対象の第２目標領域画像を取得することと、
双眼マッチングニューラルネットワークを通してそれぞれ前記第１目標領域画像の第１特徴及び前記第２目標領域画像の第２特徴を抽出し、前記双眼マッチングニューラルネットワークにおけるマッチング代価計算モジュールによって前記第１特徴と前記第２特徴とのマッチング代価を計算し、取得された前記マッチング代価に基づいて、前記第１目標領域画像と前記第２目標領域画像との間の視差を決定することであって、前記マッチング代価は、第１特徴と第２特徴との関連性を示すものである、ことと、
前記第１画像における前記第１目標領域画像の位置及び前記第２画像における前記第２目標領域画像の位置に基づき、前記第１目標領域画像と前記第２目標領域画像との間の変位情報を決定することと、
前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間の視差に基づき、前記第１画像と前記第２画像との間の視差予測結果を取得することと
を含む、画像処理方法。
前記目標対象の第１目標領域画像及び前記目標対象の第２目標領域画像を取得することは、
前記双眼カメラの第１画像センサが収集した第１画像、及び前記双眼カメラの第２画像センサが収集した第２画像を取得することと、
前記第１画像及び前記第２画像に対してそれぞれ目標検出を行って、第１目標領域画像及び第２目標領域画像を取得することと
を含む、請求項１に記載の画像処理方法。
前記目標対象の第１目標領域画像を取得することは、
前記双眼カメラの第１画像センサが収集した第１画像に対して目標検出を行って、第１候補領域を取得することと、
前記第１候補領域の画像に対してキーポイント検出を行って、キーポイント情報を取得することと、
前記キーポイント情報に基づき、前記第１画像から第１目標領域画像を切り取ることと
を含む、請求項１又は２に記載の画像処理方法。
前記取得された前記マッチング代価に基づいて、前記第１目標領域画像と前記第２目標領域画像との間の視差を決定することは、
前記マッチング代価に対して特徴抽出を行って、抽出された特徴データに基づいて、前記第１目標領域画像と前記第２目標領域画像との間の視差を取得することを含む、請求項１に記載の画像処理方法。
前記第１画像における前記第１目標領域画像の位置及び前記第２画像における前記第２目標領域画像の位置に基づき、前記第１目標領域画像と前記第２目標領域画像との間の変位情報を決定することは、
前記第１目標領域画像の第１中心点位置を決定し、前記第２目標領域画像の第２中心点位置を決定することと、
前記第１中心点の位置及び前記第２中心点の位置に基づき、前記第１目標領域画像と前記第２目標領域画像との間の変位情報を決定することと
を含む、請求項１に記載の画像処理方法。
前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間の視差に基づき、前記第１画像と前記第２画像との間の視差予測結果を取得することは、
前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記視差を加算して、前記第１画像と前記第２画像との間の視差予測結果を取得することを含む、請求項１又は５に記載の画像処理方法。
前記画像処理方法は、
前記第１画像と前記第２画像との視差予測結果に基づき、前記目標対象の深度情報を決定することと、
前記目標対象の深度情報に基づき、生体検出結果を決定することと
を更に含む、請求項１～６のいずれか１項に記載の画像処理方法。
前記双眼カメラは、コモーダル双眼カメラ及びクロスモーダル双眼カメラのうちの１つを含む、請求項１～７のいずれか１項に記載の画像処理方法。
前記第１画像センサ又は前記第２画像センサは、可視光画像センサ、近赤外線画像センサ、デュアルチャネル画像センサのうちの１つを含む、請求項１～８のいずれか１項に記載の画像処理方法。
画像処理装置であって、
双眼カメラの第１画像センサによって収集された第１画像から切り取った目標対象の第１目標領域画像、及び前記双眼カメラの第２画像センサによって収集された第２画像から切り取った前記目標対象の第２目標領域画像を取得するように構成される取得ユニットと、
双眼マッチングニューラルネットワークを通してそれぞれ前記第１目標領域画像の第１特徴及び前記第２目標領域画像の第２特徴を抽出し、前記双眼マッチングニューラルネットワークにおけるマッチング代価計算モジュールによって前記第１特徴と前記第２特徴とのマッチング代価を計算し、取得された前記マッチング代価に基づいて、前記第１目標領域画像と前記第２目標領域画像との間の視差を決定するように構成される第１決定ユニットであって、前記マッチング代価は、第１特徴と第２特徴との関連性を示すものである、第１決定ユニットと、
前記第１画像における前記第１目標領域画像の位置及び前記第２画像における前記第２目標領域画像の位置に基づき、前記第１目標領域画像と前記第２目標領域画像との間の変位情報を決定するように構成される変位決定ユニットと、
前記第１目標領域画像と前記第２目標領域画像との間の変位情報及び前記第１目標領域画像と前記第２目標領域画像との間の視差に基づき、前記第１画像と前記第２画像との間の視差予測結果を取得するように構成される第２決定ユニットと
を備える、画像処理装置。
電子機器であって、
プロセッサと、
コンピュータ読み取り可能な命令を記憶するように構成されるメモリと
を備え、
前記プロセッサは、前記メモリに記憶されるコンピュータ読み取り可能な命令を呼び出して、請求項１～９のいずれか１項に記載の画像処理方法を実行するように構成される、電子機器。
コンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ読み取り可能な記憶媒体には、コンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令は、プロセッサによって実行されると、請求項１～９のいずれか１項に記載の画像処理方法を実現する、コンピュータ読み取り可能な記憶媒体。
請求項１～９のいずれか１項に記載の画像処理方法を実行することをコンピュータに行わせるコンピュータプログラム。