JP6971894B2

JP6971894B2 - 画像処理装置

Info

Publication number: JP6971894B2
Application number: JP2018043324A
Authority: JP
Inventors: 貢己山田; 道生山下; 亮押切
Original assignee: Toshiba Corp; Toshiba Electronic Devices and Storage Corp
Current assignee: Toshiba Corp; Toshiba Electronic Devices and Storage Corp
Priority date: 2018-03-09
Filing date: 2018-03-09
Publication date: 2021-11-24
Anticipated expiration: 2038-03-09
Also published as: JP2019159575A; US20190279025A1

Description

本発明の実施形態は、画像処理装置に関する。

従来、入力した画像から解像度の異なる画像をレイヤ化させた画像ピラミッドを生成し、画像ピラミッドを探索し、様々なサイズのオブジェクトを検出するオブジェクト検出技術がある。

オブジェクト検出技術では、より精度の高い検出ができるように画像ピラミッドのレイヤを増やすと、処理コストが増大する。

特許第５０９２０３７号公報

実施形態は、検出精度を落とすことなく、より処理コストを軽減でき、入力画像からオブジェクトの検出をすることができる、画像処理装置を提供することを目的とする。

実施形態の画像処理装置は、画像ピラミッド生成部、メモリ及び照合部を有する。画像ピラミッド生成部は、入力画像に基づいて、互いにサイズが異なる複数のレイヤ画像を有する画像ピラミッドを生成する。メモリは、第１オブジェクトを検出するための第１辞書と、前記第１オブジェクトを第１所定縮小率だけ縮小した第２オブジェクトを検出するための第２辞書とを記憶する。照合部は、前記レイヤ画像内を移動する検出枠毎に、前記第１辞書及び前記第２辞書の各々と、前記検出枠内の検出枠内画像との照合を行って尤度を算出する。

実施形態に関わる、画像処理装置の構成の一例を示すブロック図である。実施形態に関わる、画像処理装置の検出処理を説明するための説明図である。実施形態に関わる、画像処理装置の検出処理を説明するための説明図である。実施形態に関わる、画像処理装置のグルーピング処理を説明するための説明図である。実施形態に関わる、画像処理装置の検出処理の流れの一例を説明するためのフローチャートである。

（実施形態）
以下、図面を参照して実施形態を説明する。

（構成）
図１は、実施形態に関わる、画像処理装置１の構成の一例を示すブロック図である。図２は、実施形態に関わる、画像処理装置１の検出処理を説明するための説明図である。図２の文字「Ａ」は、説明のため、模式的に示したオブジェクトの一例である。図３は、実施形態に関わる、画像処理装置１の検出処理を説明するための説明図である。図４は、実施形態に関わる、画像処理装置１のグルーピング処理を説明するための説明図である。

画像処理装置１は、メモリ１１、画像ピラミッド生成部２１、特徴量算出部３１、及び、プロセッサ４１を有する。

メモリ１１は、ＳＲＡＭ又はＤＲＡＭ等の記憶素子によって構成される。メモリ１１は、画像ピラミッド生成部２１、特徴量算出部３１及びプロセッサ４１と接続される。

メモリ１１は、入力画像Ｉ、画像ピラミッドＩｐ、第１辞書Ｗ１及び第２辞書Ｗ２等の各種データを記憶する。また、メモリ１１は、照合部４２のプログラムＰ１及び判定部４３のプログラムＰ２も記憶する。

メモリ１１は、例えばカメラ又は記憶媒体等の外部装置から入力画像Ｉが入力される。メモリ１１は、画像ピラミッド生成部２１によって入力画像Ｉを読み出し可能である。

メモリ１１は、画像ピラミッド生成部２１から画像ピラミッドＩｐが入力される。メモリ１１は、特徴量算出部３１によって画像ピラミッドＩｐを読み出し可能である。

第１辞書Ｗ１及び第２辞書Ｗ２は、互いに異なるサイズのオブジェクトの検出に用いる。

第１オブジェクトは、所定サイズを有する検出対象のオブジェクトである。第２オブジェクトは、第１オブジェクトを第１所定縮小率だけ縮小した、検出対象のオブジェクトである。以下、第１オブジェクト及び第２オブジェクトの両方又はいずれか一方を示すとき、オブジェクトという。

第１辞書Ｗ１は、第１オブジェクトを検出するための第１重みＷｚ１を有する。第２辞書Ｗ２は、第２オブジェクトを検出するための第２重み量Ｗｚ２を有する。以下、第１重み量Ｗｚ１及び第２重み量Ｗｚ２の両方又はいずれか一方を示すとき、重み量Ｗｚという。

第１重み量Ｗｚ１及び第２重み量Ｗｚ２は、互いに構造が同じである。例えば、第１重み量Ｗｚ１の構成要素数がｎ個であれば、第２重み量Ｗｚ２の構成要素数もｎ個である。

重み量Ｗｚは、所定の学習処理によって予め生成される。図２に示すように、第１辞書Ｗ１は、オブジェクト領域Ａ１を有する第１教師画像Ｊ１によって学習が行われる。第２辞書Ｗ２は、オブジェクト領域Ａ１から第１所定縮小率だけ縮小されたオブジェクト領域Ａ２を有する第２教師画像Ｊ２によって学習が行われる。オブジェクト領域Ａ１には第１オブジェクトを配置可能である。オブジェクト領域Ａ２には第２オブジェクトを配置可能である。図２の例では、第１所定縮小率は、０．６である。

所定の学習処理では、オブジェクトが配置された第１教師画像Ｊ１及び第２教師画像Ｊ２に基づいて算出された特徴量Ｆ（ｚ）との演算結果が相対的に大きくなり、一方、オブジェクトが配置されていない第１教師画像Ｊ１及び第２教師画像Ｊ２に基づいて算出された特徴量Ｆ（ｚ）との演算結果が相対的に小さくなるように、重み量Ｗｚを生成する。

すなわち、メモリ１１は、第１オブジェクトを検出するための第１辞書Ｗ１と、第１オブジェクトを第１所定縮小率だけ縮小した第２オブジェクトを検出するための第２辞書Ｗ２とを記憶する。第１辞書Ｗ１は、第１オブジェクトを有する第１教師画像Ｊ１に基づいて、所定の学習処理によって生成され、第２辞書Ｗ２は、第２オブジェクトを有する第２教師画像Ｊ２に基づいて、所定の学習処理によって生成される。第１辞書Ｗ１は、第１オブジェクトを検出するための第１重み量Ｗｚ１を有し、第２辞書Ｗ２は、第２オブジェクトを検出するための第２重み量Ｗｚ２を有する。

図３に示すように、画像ピラミッド生成部２１は、画像ピラミッドＩｐを生成する回路である。より具体的には、画像ピラミッド生成部２１は、メモリ１１から読み込んだ入力画像Ｉに基づいて、レイヤ画像Ｌを有する画像ピラミッドＩｐを生成し、メモリ１１に出力する。レイヤ画像Ｌ間の縮小率は、第２所定縮小率に設定される。

図３は、入力画像Ｉから第１レイヤ画像Ｌ１と、第１レイヤ画像Ｌ１を第２所定縮小率だけ縮小させた第２レイヤ画像Ｌ２を含む、画像ピラミッドＩｐを生成した例である。図３の例では、第２所定縮小率は、０．３６であり、第２レイヤ画像Ｌ２が第１レイヤ画像Ｌ１から０．３６倍に縮小される。以下、第１レイヤ画像Ｌ１及び第２レイヤ画像Ｌ２の全て又は一部を示すとき、レイヤ画像Ｌという。

第１所定縮小率及び第２所定縮小率は、オブジェクトの検出の精度が高くなるように、経験的又は実験的に設定される。第１所定縮小率は、第２所定縮小率よりも大きい値に設定される。図３の例では、第２所定縮小率は、第１所定縮小率の２乗に設定されるがこれに限定されない。

すなわち、画像ピラミッド生成部２１は、入力画像Ｉに基づいて、互いにサイズが異なる複数のレイヤ画像Ｌを有する画像ピラミッドＩｐを生成する。画像ピラミッド生成部２１は、第１レイヤ画像Ｌ１と、第１所定縮小率よりも小さい第２所定縮小率だけ第１レイヤ画像Ｌ１を縮小させた第２レイヤ画像Ｌ２とを含む、画像ピラミッドＩｐを生成する。

特徴量算出部３１は、特徴量Ｆ（ｚ）を算出する回路である。特徴量算出部３１は、メモリ１１から読み込んだ画像ピラミッドＩｐから特徴量Ｆ（ｚ）を算出してプロセッサ４１に出力する。

より具体的には、特徴量算出部３１は、検出枠Ｄによって画像ピラミッドＩｐに含まれるレイヤ画像Ｌの各々を走査する。例えば、特徴量算出部３１は、レイヤ画像Ｌ内において、検出枠Ｄを移動させてｘ方向へ走査を行い、ｘ方向の走査が終了すると、ｙ方向に１つ移動してｘ方向へ走査を行う。ｘｙ方向の走査が終了すると、特徴量算出部３１は、次のレイヤに配置されたレイヤ画像Ｌの走査を行う。

特徴量算出部３１は、レイヤ画像Ｌから検出枠Ｄ内の画像を取得し、特徴量Ｆ（ｚ）を算出する。特徴量Ｆ（ｚ）は、例えば、検出枠Ｄ内の画素の各々に基づいて、勾配を算出し、勾配を階級としてヒストグラム化することによって算出する。例えば、特徴量算出部３１は、検出枠Ｄ内の画素の各々が、８つの輝度勾配方向ａ１〜ａ８のいずれであるかを算出し、輝度勾配方向ａ１〜ａ８の度数に基づいて、特徴量Ｆ（ｚ）、（但し、ｚ＝ａ１〜ａ８）を算出する。

なお、特徴量Ｆ（ｚ）は、これに限定されず、検出枠Ｄ内の分割領域の勾配強度に基づいて算出してもよいし、検出枠Ｄ内の画素の色相に基づいて算出してもよいし、検出枠Ｄ内の検出枠Ｄ内の画素をそのまま特徴量Ｆ（ｚ）にしてもよいし、また、他の方法によって算出してもよい。所定の学習処理では、特徴量算出部３１における特徴量Ｆ（ｚ）の算出方法に基づいて、重み量Ｗｚの学習が行われる。

プロセッサ４１は、ＭＰＵ等の処理装置によって構成される。プロセッサ４１は、画像処理装置１内の各部と接続され、画像処理装置１内の各部の制御を行う。プロセッサ４１は、メモリ１１からプログラムＰ１、Ｐ２を読み込み、プログラムＰ１を実行することによって照合部４２の機能を実現し、プログラムＰ２を実行することによって判定部４３の機能を実現する。プロセッサ４１は、外部装置と接続され、判定部４３の判定結果Ｚを外部装置に出力する。

照合部４２は、第１辞書Ｗ１及び第２辞書Ｗ２の各々と、レイヤ画像Ｌ内を移動する検出枠Ｄ内の検出枠内画像との照合を行う。より具体的には、照合部４２は、第１重み量Ｗｚ１と特徴量Ｆ（ｚ）に基づく所定の演算を行い、第１尤度を算出する。また、照合部４２は、第２重み量Ｗｚ２と特徴量Ｆ（ｚ）に基づく所定の演算を行い、第２尤度を算出する。照合部４２は、第１尤度及び第２尤度と、第１尤度及び第２尤度に対応付けられたレイヤ画像Ｌのレイヤ方向の位置であるレイヤ方向位置及び検出枠Ｄの枠座標とを含む照合結果Ｙを判定部４３に出力する。

所定の演算は、例えば、数式（１）に示すように、重み量Ｗｚ（ｚ）と特徴量Ｆ（ｚ）の内積演算である。数式（１）において、Ｓｃが第１尤度又は第２尤度のいずれか一方である。
Ｓｃ＝ΣＷｚ（ｚ）・Ｆ（ｚ）、（但し、ｚ＝１からｎ）
＝Ｗｚ（１）×Ｆ（１）＋Ｗｚ（２）×Ｆ（２）・・・Ｗｚ（ｎ）×Ｆ（ｎ）・・・（１）

すなわち、照合部４２は、第１重み量Ｗｚ１及び第２重み量Ｗｚ２の各々と、検出枠内画像から算出した特徴量Ｆ（ｚ）との演算によって照合を行う。

判定部４３は、判定処理を行い、照合部４２から入力された照合結果Ｙに基づいて、オブジェクトの検出数、検出位置、検出サイズ、検出スコアを含む判定結果Ｚを出力する。

判定部４３は、第１尤度又は第２尤度の少なくとも一方が所定尤度閾値以上である検出候補を抽出する。所定尤度閾値は、第１尤度及び第２尤度に基づいて、オブジェクトが検出できるように、経験的又は実験的に設定される。検出候補が複数抽出されると、判定部４３は、互いの検出候補に対応付けられたレイヤ方向位置及び枠座標に基づいて、グルーピング処理を行い、同一オブジェクトと判定された検出候補をグルーピングし、検出候補グループを生成する。

図４に示すように、グルーピング処理では、判定部４３は、検出候補と全部又は一部の領域が重なり合う重複検出候補を、他の検出候補の中から抽出する。続いて、判定部４３は、重なり合った部位における重なり面積Ｓｍ１と、検出候補及び重複検出候補によって区画された検出候補面積Ｓｍ２とを算出する。続いて、Ｓｍ１／Ｓｍ２の算出値が所定面積閾値以上であるとき、判定部４３は、検出候補と重複検出候補を同一オブジェクトであると判定する。図４の例では、判定部４３は、検出候補Ｄ１について、検出候補Ｄ１の他の検出候補Ｄ２〜Ｄ４の中から、重複検出候補Ｄ２、Ｄ３を抽出する。続いて、判定部４３は、図４のハッチングによって示される重なり面積Ｓｍ１と、実線によって囲まれた検出候補面積Ｓｍ２を算出し、Ｓｍ１／Ｓｍ２の算出値が所定面積閾値以上であるとき、検出候補Ｄ１と重複検出候補Ｄ２を同一オブジェクトであると判定する。重複検出候補Ｄ３は、Ｓｍ１／Ｓｍ２の算出値が所定面積閾値未満であり、同一オブジェクトではないと判定された例である。

判定部４３は、検出候補グループの数と、グルーピングされていない検出候補の数とを合計し、検出数を決定する。

判定部４３は、検出位置を決定する。検出候補グループの検出位置は、検出候補グループに含まれる複数の検出候補に対応付けられた枠座標の中心位置に応じて決定される。グルーピングされていない検出候補の検出位置は、検出候補に対応付けられた枠座標の中心位置に応じて決定される。

判定部４３は、レイヤ方向位置、第１尤度、第２尤度に基づいて、検出候補グループ及びグルーピングされていない検出候補の検出サイズを決定する。より具体的には、判定部４３は、レイヤ方向位置におけるレイヤ画像Ｌの入力画像Ｉに対する縮小率を算出する。続いて、判定部４３は、オブジェクト領域Ａ１、Ａ２のサイズと縮小率に基づいて、検出サイズを決定する。例えば、判定部４３は、オブジェクト領域Ａ１、Ａ２のサイズが１６画素×１６画素であり、縮小率が０．５であるとき、オブジェクト領域Ａ１、Ａ２のサイズに縮小率の逆数を乗算し、検出サイズを３２×３２画素に応じて決定する。オブジェクト領域Ａ１、Ａ２のサイズは、第１尤度が第２尤度以上であるとき、オブジェクト領域Ａ１のサイズが用いられ、一方、第１尤度が第２尤度未満であるとき、オブジェクト領域Ａ２のサイズが用いられる。すなわち、判定部４３は、第１尤度が第２尤度以上であるとき、第１オブジェクトのサイズに応じて検出サイズを決定し、第１尤度が第２尤度未満であるとき、第２オブジェクトのサイズに応じて検出サイズを決定する。

判定部４３は、第１尤度と第２尤度のいずれか高い方を検出スコアに決定する。

なお、上述の処理は、判定部４３における判定処理の一例であって、判定処理を限定するものではない。判定部４３は、上述の判定処理以外の処理によってオブジェクトの検出数、検出位置、検出サイズ、検出スコアを決定してもよい。

（作用）
次に、実施形態に係る画像処理装置１の作用について説明をする。

図５は、実施形態に関わる、画像処理装置１の検出処理の流れの一例を説明するためのフローチャートである。

画像処理装置１は、入力画像Ｉを入力する（Ｓ１）。メモリ１１は、入力された入力画像Ｉを記憶する。画像ピラミッド生成部２１は、メモリ１１に記憶された入力画像Ｉを読み込み、画像ピラミッドＩｐを生成する（Ｓ２）。画像ピラミッド生成部２１は、画像ピラミッドＩｐをメモリ１１に出力する。メモリ１１は、画像ピラミッドＩｐを記憶する（Ｓ３）。

特徴量算出部３１は、走査対象のレイヤ画像Ｌを決定する（Ｓ４）。Ｓ４〜Ｓ１２は、繰り返して処理が行われ、特徴量算出部３１は、繰り返し回数に応じ、走査対象のレイヤ画像Ｌを決定する。

特徴量算出部３１は、検出枠Ｄの位置を決定する（Ｓ５）。Ｓ５〜Ｓ１１は、繰り返して処理が行われ、特徴量算出部３１は、繰り返し回数に応じ、レイヤ画像Ｌを走査する検出枠Ｄの位置を決定する。

特徴量算出部３１は、特徴量Ｆ（ｚ）を算出する（Ｓ６）。特徴量算出部３１は、検出枠Ｄ内の画像に基づいて、特徴量Ｆ（ｚ）を算出し、プロセッサ４１に出力する。

プロセッサ４１は、照合部４２の処理を実行する。照合部４２は、第１辞書Ｗ１に基づいて、第１尤度を算出する（Ｓ７）。照合部４２は、第１尤度、レイヤ方向位置、及び、枠座標を含む照合結果Ｙをメモリ１１に出力して記憶させる（Ｓ８）。照合部４２は、第２辞書Ｗ２に基づいて、第２尤度を算出する（Ｓ９）。照合部４２は、第２尤度、レイヤ方向位置、及び、枠座標を含む照合結果Ｙをメモリ１１に出力して記憶させる（Ｓ１０）。Ｓ７及びＳ８と、Ｓ９及びＳ１０とは、並列的に処理されるが、直列的に処理されても構わない。

全ての位置の検出枠Ｄの処理が終了していないとき、処理はＳ５に戻る（Ｓ１１：ＮＯ）。一方、全ての位置の検出枠Ｄの処理が終了しているとき、処理はＳ１２に進む（Ｓ１１：ＹＥＳ）。

全てのレイヤ画像Ｌの処理が終了していないとき、処理は、Ｓ４に戻る（Ｓ１２：ＮＯ）。一方、全てのレイヤ画像Ｌの処理が終了しているとき、処理は、Ｓ１３に進む（Ｓ１２：ＹＥＳ）。

判定部４３は、メモリ１１から照合結果Ｙを読み込み、判定処理を行う（Ｓ１３）。判定部４３は、判定処理によってオブジェクトの検出数、検出位置、検出サイズ、検出スコアを決定する。判定部４３は、判定結果Ｚを外部装置に出力する（Ｓ１４）。

Ｓ１〜Ｓ１４の処理が画像処理装置１の検出処理を構成する。

これにより、画像処理装置１では、第１辞書Ｗ１及び第２辞書Ｗ２を用い、１つのレイヤ画像Ｌから互いに異なるサイズの第１オブジェクト及び第２オブジェクトの検出を行う。図３の例では、例えば第１レイヤ画像Ｌ１ａを有しなくても、第１レイヤ画像Ｌ１において、第２オブジェクトを検出することができる。したがって、画像処理装置１では、検出精度を落とすことなく、生成時の処理コストの高い第１レイヤ画像Ｌ１ａ、Ｌ２ａを削減可能であり、処理コストが軽減される。

また、画像処理装置１では、第１辞書Ｗ１及び第２辞書Ｗ２において、検出枠Ｄに対するオブジェクトのサイズが互いに異なるように設定され、あたかも他のレイヤ画像Ｌも含めて探索を行うように、現レイヤ画像Ｌの探索を行うことができる。

つまり、画像処理装置１は、検出枠Ｄから抽出した検出枠内画像、又は、検出枠内画像から取得された特徴量Ｆ（ｚ）に対してオブジェクトのサイズが互いに異なる２種類の尤度計算を行い、１つのレイヤ画像Ｌに対する１回の探索により、あたかも２つのレイヤ画像Ｌに対する探索を行ったかのような効果を得ることができる。すなわち、画像処理装置１では、１回の探索における検出枠Ｄの各位置において、複数の辞書を用いた複数回の尤度計算を行う。

レイヤ画像Ｌは、データ量が大きく、レイヤ画像Ｌを１個余計に処理すると、外部メモリとのアクセス頻度が増え、画像縮小処理の処理負荷の増大、メモリ必要量の増大を招く。探索１回に対しても、例えば、１辺が１０００画素程度の画像に対してくまなく探索するためには、検出枠Ｄを数千箇所の位置に置いて、検出枠内画像を抽出し、特徴量Ｆ（ｚ）を計算しなければならないので、処理コストが増大する。それに対して、特徴量Ｆ（ｚ）と第１辞書Ｗ１及び第２辞書Ｗ２を用いた尤度計算は、ほぼ特徴量Ｆ（ｚ）の次元の内積演算で済むため、尤度計算を１個余計に行うときの処理コストの増加はそれ程大きくない。

実施形態によれば、画像処理装置１は、検出精度を落とすことなく、より処理コストを軽減でき、入力画像Ｉからオブジェクトの検出をすることができる。

なお、実施形態では、画像処理装置１は、第１辞書Ｗ１及び第２辞書Ｗ２を有するがこれに限定されず、第３辞書を有してもよいし、それ以上の数の辞書を有してもよい。

なお、実施形態では、各部の機能は、回路の構成及びプロセッサ４１が実行するプログラムＰ１、Ｐ２によって実現されるが、回路の構成をプロセッサ４１が実行するプログラムによって実現してよいし、プログラムＰ１、Ｐ２によって実現される機能を回路によって構成してもよい。

本発明の実施形態を説明したが、これらの実施形態は、例として示したものであり、本発明の範囲を限定することは意図していない。これら新規の実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１・・・画像処理装置、１１・・・メモリ、２１・・・画像ピラミッド生成部、３１・・・特徴量算出部、４１・・・プロセッサ、４２・・・照合部、４３・・・判定部、Ａ１、Ａ２・・・オブジェクト領域、Ｄ・・・検出枠、Ｉ・・・入力画像、Ｉｐ・・・画像ピラミッド、Ｊ１・・・第１教師画像、Ｊ２・・・第２教師画像、Ｐ１、Ｐ２・・・プログラム、Ｌ・・・レイヤ画像、Ｓｍ１・・・重なり面積、Ｓｍ２・・・検出候補面積、Ｗ１・・・第１辞書、Ｗ２・・・第２辞書、Ｗｚ・・・重み量、Ｙ・・・照合結果、Ｚ・・・判定結果

Claims

入力画像に基づいて、互いにサイズが異なる複数のレイヤ画像を有する画像ピラミッドを生成する画像ピラミッド生成部と、
第１オブジェクトを検出するための第１辞書と、前記第１オブジェクトを第１所定縮小率だけ縮小した第２オブジェクトを検出するための第２辞書とを記憶するメモリと、
前記レイヤ画像内を移動する検出枠毎に、前記第１辞書及び前記第２辞書の各々と、前記検出枠内の検出枠内画像との照合を行って尤度を算出する、照合部と、
を有する画像処理装置。
前記第１辞書は、前記第１オブジェクトを有する第１教師画像に基づいて、所定の学習処理によって生成され、
前記第２辞書は、前記第２オブジェクトを有する第２教師画像に基づいて、前記所定の学習処理によって生成される、
請求項１に記載の画像処理装置。
前記第１辞書は、前記第１オブジェクトを検出するための第１重み量を有し、
前記第２辞書は、前記第２オブジェクトを検出するための第２重み量を有し、
前記照合部は、前記第１重み量及び前記第２重み量の各々と、前記検出枠内画像から算出した特徴量との演算によって前記照合を行う、
請求項１に記載の画像処理装置。
前記画像ピラミッド生成部は、第１レイヤ画像と、前記第１所定縮小率よりも小さい第２所定縮小率だけ前記第１レイヤ画像を縮小させた第２レイヤ画像とを含む、前記画像ピラミッドを生成する、請求項１に記載の画像処理装置。