JP2021047757A

JP2021047757A - 画像処理装置、撮像装置、制御方法およびプログラム

Info

Publication number: JP2021047757A
Application number: JP2019171076A
Authority: JP
Inventors: 健作森; Kensaku Mori
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2021-03-25
Also published as: US20210090293A1; US11631194B2

Abstract

【課題】作業対象の物品の認識を効率的に行うことを目的とする。【解決手段】載置面に搭載されている認識対象を撮像装置が撮像した画像を処理する画像処理装置は、認識対象から撮像装置までの第１の距離と、指定された認識対象の高さと、撮像装置から載置面までの第２の距離とに基づいて、画像の中から領域を抽出する抽出手段と、領域に対して認識処理を実行する認識手段と、を含む。【選択図】図５

Description

本発明は、画像処理装置、撮像装置、制御方法およびプログラムに関する。

近年、工場等において、ロボットを用いて、製品の組み立てや測定等の作業の自動化が図られている。例えば、ベルトコンベアで搬送される物品の状態を、カメラ等の撮像装置が撮像し、所定の画像処理装置が画像処理を行うことで、物品の状態を自動で認識する。そして、所定のロボットが、認識された物品の状態に応じて、物品の選別を行う。

関連する技術として、特許文献１の技術が提案されている。この技術は、過去に決定した被写体領域と、入力画像に係る距離情報とを取得し、被写体が存在し得る距離範囲を設定する。また、この技術は、設定された距離範囲と追跡被写体の候補領域とから追跡被写体に係る被写体領域を決定する。

特開２０１６−２１３７４４号公報

ベルトコンベアで搬送される物品に対して画像処理を行うことで、作業の自動化を行う場合、高い精度で物品の位置および品質状態を認識することが求められている。例えば、物品の認識処理は、畳み込みニューラルネットワーク（以下、ＣＮＮと称する）を用いて行うことができる。ＣＮＮにより物品の認識を行う場合、膨大な演算処理が行われるため、物品の認識処理に要する時間が長くなる。このため、ベルトコンベアにより次々に搬送される複数の物品を認識することが難しい。特に、ＣＮＮの演算を行うＣＰＵやＧＰＵの性能が低い場合、次々に搬送される複数の物品をＣＮＮにより認識することが難しい。以上の問題は、機械学習を用いない認識処理を行う場合にも生じるものである。

本発明の目的は、作業対象の物品の認識を効率的に行うことを目的とする。

上記目的を達成するために、本発明の画像処理装置は、載置面に搭載されている認識対象を撮像装置が撮像した画像を処理する画像処理装置であって、前記認識対象から前記撮像装置までの第１の距離と、指定された認識対象の高さと、前記撮像装置から前記載置面までの第２の距離とに基づいて、前記画像の中から領域を抽出する抽出手段と、前記領域に対して認識処理を実行する認識手段と、を備えることを特徴とする。

本発明によれば、作業対象の物品の認識を効率的に行うことができる。

第１実施形態に係るシステムの全体構成を示す図である。撮像装置の一例を示す図である。ＣＭＯＳセンサの一例を示す図である。第１実施形態における物品の認識方法の一例を示す図である。物品認識部の機能ブロック図である。ＣＮＮの一例を示す図である。第１実施形態の処理の流れを示すフローチャートである。第２実施形態の処理の流れを示すフローチャートである。第３実施形態の物品認識部の機能ブロック図である。第３実施形態における物品の認識方法の一例を示す図である。第３実施形態の処理の流れを示すフローチャートである。

以下、本発明の各実施の形態について図面を参照しながら詳細に説明する。しかしながら、以下の各実施の形態に記載されている構成はあくまで例示に過ぎず、本発明の範囲は各実施の形態に記載されている構成によって限定されることはない。

＜第１実施形態＞
以下、各実施形態について図面を参照して説明する。図１は、第１実施形態に係るシステム１０の全体構成を示す図である。システム１０は、ベルトコンベア１６１と第１のロボット１６４と第２のロボット１６５とを含む。ベルトコンベア１６１は可動式の載置面を有しており、該載置面には１以上の物品が搭載されている。物品は、静止している載置面に搭載されてもよい。図１の例では、それぞれ高さが異なる物品１６２と物品１６３とがベルトコンベア１６１に搭載されている。第１のロボット１６４は、多関節のロボットアームにより構成されており、先端に撮像装置１８０が取り付けられている。第２のロボット１６５は、第１のロボット１６４と同様、多関節のロボットアームにより構成されており、先端にピックアップ装置１６６が取り付けられている。

撮像装置１８０は、ベルトコンベア１６１により搬送される物品を撮影する。物品は、認識対象である。以下、ベルトコンベア１６１には、複数種類の物品が搭載されているものとする。各実施形態では、撮像装置１８０が画像処理装置の機能（後述する物品認識部１０７）を有する例を説明する。ただし、画像処理装置と撮像装置１８０とが別個に設けられており、両者が相互に接続されている場合にも、各実施形態を適用することができる。物品認識部１０７は、撮像装置１８０が撮影して取得された画像に基づいて、物品の位置を検出し、物品の品質状態を認識する。例えば、物品認識部１０７は、物品の亀裂や色落ち、研磨処理の仕上がり具合等を認識する。第１のロボット１６４と第２のロボット１６５とは、所定の通信手段により通信可能に接続されている。物品認識部１０７が認識した物品の位置および品質状態に関する情報は、撮像装置１８０から第２のロボット１６５に送信される。第２のロボット１６５は、回転軸を制御して、認識された物品の品質状態に応じて、物品を選別してピックアップを行う。以下、物品の位置を検出し、検出された物品の品質状態を認識する方法について説明する。

図１の例では、第１のロボット１６４と第２のロボット１６５との２台のロボットが別個に設けられる例について示しているが、使用されるロボットは１台であってもよい。例えば、多関節構造の第２のロボット１６５の複数のリンクのうち何れかに撮像装置１８０が取り付けられているような場合、使用されるロボットは１台である。このような場合でも、各実施形態を適用できる。

図２は、撮像装置１８０の一例を示す図である。撮像装置１８０は、バス１０１、ＣＰＵ１０２、撮影レンズ１０３、撮像素子部１０４、レンズ駆動部１０５、操作部１０６、物品認識部１０７、外部インタフェース部１０８および記憶部１０９を有する。物品認識部１０７が認識した物品の位置および品質状態に関する情報は、第２のロボット１６５に送信される。

撮像装置１８０の各部は、バス１０１を介して、相互に接続されており、ＣＰＵ１０２により制御がされる。被写体からの光は、レンズユニットとしての撮影レンズ１０３を構成する複数の固定レンズや、ズームレンズ、絞り、フォーカスレンズ等の各光学部材を介して撮像素子部１０４上に結像される。レンズ駆動部１０５は、ＣＰＵ１０２の指令に従い、撮影レンズ１０３内の絞りの開口径を調整して撮影時の光量調節を行い、ズームレンズを駆動して、焦点距離を変更する。さらに、レンズ駆動部１０５は、撮影レンズ１０３の焦点検出信号に基づき焦点位置のずれ量に応じてフォーカスレンズの移動を制御し、ＡＦ（自動焦点調節）制御を実現する。

撮像素子部１０４上に結像する被写体像は、撮像素子部１０４により電気信号に変換される。撮像素子部１０４は、被写体像（光学像）を電気信号に光電変換する光電変換素子である。撮像素子部１０４は、複数のマイクロレンズと、各マイクロレンズのそれぞれに対応する複数の光電変換素子とを有する画素部により構成される。１つのマイクロレンズを共有する複数の光電変換素子（第１の光電変換素子および第２の光電変換素子）を有する撮像素子を用いることで、視差画像を生成することができる。物品認識部１０７は、視差画像から距離情報を生成する。物品認識部１０７の詳細は後述する。

図３を参照して、撮像素子部１０４の撮像画素および焦点検出画素の配列を説明する。図３は、２次元状に配列されたＣＭＯＳ（相補型金属酸化膜半導体）センサの一例を示す図である。図３の例では、各撮像画素は「４列×４行」で配列されており、焦点検出画素は「８列×４行」で配列されている。配列の態様は、図３の例には限定されない。画素群２００は、２列×２行の撮像画素で構成されている。画素群２００は、１組の画素２００Ｒ、２００Ｇおよび２００Ｂを含む。画素２００Ｒは、赤色（Ｒ）の分光感度を有する画素である。画素２００Ｇは、緑色（Ｇ）の分光感度を有する画素であり、画素群２００に２つ含まれている。画素２００Ｂは、青色（Ｂ）の分光感度を有する画素である。

各撮像画素は、２列×１行の第１焦点検出画素２０１と第２焦点検出画素２０２とにより構成されている。図３の４列×４行の撮像画素（８列×４行の焦点検出画素）が平面上にて格子状に多数配置されることで、撮像画像信号および焦点検出信号が取得される。本実施形態では、撮像素子部１０４における各撮影画素の第１焦点検出画素２０１の受光信号が集められて第１焦点検出信号である「Ａ像」が生成される。また、各撮像画素の第２焦点検出画素２０２の受光信号が集められて第２焦点検出信号である「Ｂ像」が生成される。物品認識部１０７は、視差を有するＡ像とＢ像とから像ずれ量を算出し、算出した像ずれ量に基づいて、距離情報（奥行き情報）を算出する処理を行う。また、撮像素子部１０４の撮影画素ごとに、Ａ像とＢ像とを加算して「Ａ＋Ｂ像」を生成することで、表示や記録等に用いる撮像画像を生成することができる。撮像素子部１０４上に結像されて光電変換により生成された画像信号は、物品認識部１０７に出力される。

図２の操作部１０６は各種の操作スイッチを有する。操作部１０６は、操作者（ユーザ）が撮像装置１８０を操作する際に用いられる。操作部１０６に対する操作は操作指示信号として、バス１０１を介してＣＰＵ１０２に送られる。ＣＰＵ１０２は、操作指示信号に基づき、パラメータの設定値を決定する。ＣＰＵ１０２は、パラメータの設定値の１つとして、物品の高さ情報を認識する。操作者は、操作部１０６を用いて、物品の高さ情報を指定することができる。物品の高さ情報は、例えば、操作部１０６を用いて、数値により指定されてもよい。また、記憶部１０９が物品ごとの高さ情報を記憶している場合、操作者が、操作部１０６を用いて、物品を識別する情報を入力することで、物品の高さ情報が指定されてもよい。指定された物品の高さ情報は、記憶部１０９に記憶される。物品認識部１０７は、物品の高さ情報を利用し、物品の品質状態を認識する認識処理を実行する。

物品認識部１０７には、撮像素子部１０４からＡ像とＢ像とによる視差画像およびＡ＋Ｂ像の撮像画像が入力される。物品認識部１０７は、入力された視差画像を用いて、カメラと被写体としての物品との間の距離（第１の距離）を求める。物品認識部１０７は、各種の情報を用いて、品質状態を認識する対象の領域を絞り込み、絞り込んだ領域に含まれる物品の品質状態を認識する処理を行う。物品認識部１０７は、認識処理した結果（認識結果）を外部インタフェース部１０８に出力する。外部インタフェース部１０８は、認識結果を、有線通信または無線通信により、第２のロボット１６５に送信する。第２のロボット１６５は、認識結果に基づいて、ピックアップ装置１６６を制御する。

図４は、第１実施形態における物品の認識方法の一例を示す図である。図４（ａ）は、撮影環境の一例を示す。撮像装置１８０は、稼働しているベルトコンベア１６１に搭載されている物品１６２および物品１６３を撮影している。第１実施形態では、物品１６２と物品１６３とは高さが異なる。図４（ｂ）は、撮像画像を示す。撮像画像（Ａ＋Ｂ像）において、物品１６２は、物品画像１６２Ｃとして示されており、物品１６３は、物品画像１６３Ｃとして示されている。図４（ｃ）は、視差画像を示す。視差画像（Ａ、Ｂ像）において、物品１６２は、物品画像１６２Ｄとして示されており、物品１６３は、物品画像１６３Ｄとして示されている。撮像画像および視差画像は、撮像装置１８０の撮像素子部１０４により取得される。

図４（ｄ）は、撮像装置１８０から被写体（物品）での距離を示す距離情報を示す図である。物品認識部１０７は、視差画像に基づいて、撮像装置１８０から物品１６２までの距離および撮像装置から物品１６３までの距離を示す距離情報を求める。図４（ｄ）において、物品１６２は、物品画像１６２Ｅとして示されており、物品１６３は、物品画像１６３Ｅとして示されている。図４（ｄ）において、撮像装置１８０と物品との距離は、物品画像の濃度で表されている。物品画像の濃度が濃い物品は、撮像装置１８０までの距離が近いため、第１の距離は短い。一方、物品画像の濃度が濃い物品は、撮像装置１８０までの距離が遠いため、第２の距離は長い。図４（ｄ）の例では、物品１６３よりも物品１６２の方が撮像装置１８０に近い。

図４（ｅ）は、マスク画像データの一例を示す図である。マスク画像データは、物品の位置および座標を表す。画像内の画素値が「１」である画素が認識対象の物品の位置を表す。図４（ｅ）の物品画像１６２Ｆは、物品１６２を示している。図４（ｅ）のように、認識対象の位置を画像として表現したデータが、マスク画像データである。マスク画像データは、品質状態の認識処理を行う領域を絞るために用いられる。図４（ｆ）は、マスク画像データを用いて、領域が絞られた認識用画像を示す図である。物品認識部１０７は、撮影画像およびマスク画像データを用いて、認識用画像を生成する。物品認識部１０７は、認識用画像を用いて物品の品質状態を認識する。

図５は、物品認識部１０７の機能ブロック図である。物品認識部１０７は、距離算出部６０３、物品距離記憶部６０４、マスク画像出力部６０５、認識用画像生成部６０６および認識処理部６０７を有する。物品認識部１０７は、撮像装置１８０が撮影した画像の中から所定の領域を抽出し、抽出された領域に対して認識処理を実行する。物品認識部１０７は、抽出手段および認識手段に対応する。

物品認識部１０７は、例えば、ＣＰＵ、ＲＡＭおよびＲＯＭを含む。この場合、ＲＯＭに記憶されたプログラムがＲＡＭに展開され、ＣＰＵがＲＡＭに展開されたプログラムを実行することで、物品認識部１０７の機能が実現される。物品認識部１０７は、所定のプログラミング回路（ＦＰＧＡ等）で実現されてもよい。上述したように、物品認識部１０７は、単体の画像処理装置であってよい。この場合、例えば、物品認識部１０７の機能を実現する画像処理装置と撮像装置１８０（物品認識部１０７を含まない画像処理装置）とが、相互に通信する。これにより、各実施形態の制御が行われる。

物品認識部１０７には、上述した撮像画像および視差画像が入力される。距離算出部６０３は、水平方向に視差を持つ一対の画像（Ａ像、Ｂ像）を取得し、被写体としての物品と撮像装置１８０との間の距離（第１の距離）を算出する。距離算出部６０３は、水平方向に視差を持つ一対の画像に対して相関演算処理を施すことで、像ズレ量を検出することができる。像ズレ量の検出処理では、例えば画像領域を小領域に分割した小ブロックごとに相関演算が行われる。相関演算で算出された像ズレ量は、撮像装置１８０から被写体（物品）までの距離に比例する値となり、所定の変換係数を乗算することで距離を求めることができる。撮像面の画像の各画素に対して、算出した距離が割り当てられた距離分布の情報を距離情報と称する。物品１６２と物品１６３とでは高さが異なるため、図３（ｄ）の例に示されるように、物品１６２と物品１６３とのそれぞれの高さに応じた輝度値で遠近が表示される。

物品距離記憶部６０４は、ＣＰＵ１０２が、操作部１０６を操作して指定した物品の高さ情報と、撮像装置１８０とベルトコンベア１６１との間の距離（第２の距離）の情報とを記憶する。例えば、ベルトコンベア１６１が動作しておらず、且つベルトコンベア１６１に物品が載置されていないとする。この状態で、撮像装置１８０がベルトコンベア１６１の上部に配置され、撮像装置１８０が１回の撮影を行う。これにより、撮像装置１８０は、ベルトコンベア１６１の面（載置面）を撮影することができる。距離算出部６０３は、視差画像に基づいて、撮像装置１８０とベルトコンベア１６１との間の距離（第２の距離）を求めて、第２の距離の情報を物品距離記憶部６０４に記憶させる。

マスク画像出力部６０５は、認識対象の物品の高さ情報および撮像装置１８０とベルトコンベア１６１との間の距離（第２の距離）の情報を物品距離記憶部６０４から取得する。上述したように、認識対象の物品は、操作部１０６を用いて、ユーザが指定することができる。例えば、物品を識別するＩＤ（識別ＩＤ）と物品の高さ情報とが関連付けられて物品距離記憶部６０４に記憶される。マスク画像出力部６０５は、操作者が、操作部１０６を用いて指定した識別ＩＤに対応する物品の高さ情報を物品距離記憶部６０４から取得する。また、マスク画像出力部６０５は、撮像装置１８０と被写体（物品）との間の距離（第１の距離）を物品距離記憶部６０４から取得する。

図４（ａ）は、物品の高さと第１の距離と第２の距離との関係を示す。マスク画像出力部６０５は、図４（ｄ）の画像の全ての画素に対して、以下の数式（１）で表される評価式を適用する。マスク画像出力部６０５は、評価式を満たす画素を「１」に設定し、評価式を満たさない画素を「０」に設定して、マスク画像データを出力する。

「第１の距離＋指定された物品の高さ−第２の距離≦所定の閾値」・・・（１）
上記評価式（数式（１））は、第１の距離と指定された物品の高さとの合計から第２の距離を減じた値が所定の閾値以下であるかを判定する式である。所定の閾値としては、十分に小さな値を設定することができる。例えば、距離算出部６０３が測定できる最小分解能の距離等が所定の閾値として設定できる。図４（ｅ）は、図４（ｄ）の距離情報の画像に対して、上記の評価式を適用した結果であるマスク画像データを示す。

認識用画像生成部６０６は、撮像画像であるＡ＋Ｂ像を撮像素子部１０４から取得し、マスク画像出力部６０５からマスク画像データを取得する。認識用画像生成部６０６は、取得した撮像画像（Ａ＋Ｂ像）に対して、マスク画像データと１画素ずつ論理積演算を行う。そして、認識用画像生成部６０６は、画素値が「０」でない画素を抽出して、図４（ｆ）に示されるような認識用画像を生成し、生成した認識用画像を認識処理部６０７に出力する。認識処理部６０７は、入力した認識用画像に対して所定の認識処理を施すことで、物品の品質状態を認識する。所定の認識処理の一例として、学習済みのパラメータが設定されたＣＮＮ（畳み込みニューラルネットワーク）を用いた処理が適用される。ただし、所定の認識処理には、任意の機械学習手法が適用されてもよい。

図６を参照して、ＣＮＮを用いた認識処理の一例を説明する。ＣＮＮは、一般に、入力層、中間層、全結合層および出力層から構成される。入力層には、一定のサイズに正規化された画像が入力される。中間層は、複数の畳み込み層と複数のプーリング層とから構成される。畳み込み層は、入力に対して事前に学習したフィルタを用いて畳み込みを行う層であり、各フィルタに対応する出力値が得られる。プーリング層は、複数の出力値を入力値として１つの値を出力する層であり、例えば複数の入力値の最大値を出力とする。畳み込み層の出力やプーリング層の出力は特徴マップと称されることがある。全結合層は、中間層の出力を結合する層であり、特徴マップから、所定の個数の出力値へと変換する。出力層は対象となるラベル（例えば、亀裂が大きい状態、亀裂が小さい状態、亀裂がない状態等の物品の状態を表すラベル）の数のノードで構成される。全結合層の出力から最終的な値が出力される。各ラベルに対応するノードの出力値の和は、「１」となるように構成される。そして、ＣＮＮは、出力値が最大となるノードに対応するラベルを推論結果として出力する。ＣＮＮでは、画像と正解ラベルをセットとした学習用データを用いて、誤差が最小となるように、各フィルタや各層の重み等のパラメータが調整される。調整されたパラメータは、学習パラメータとも称される。

次に、第１実施形態の処理の流れについて説明する。図７は、第１実施形態の処理の流れを示すフローチャートである。距離算出部６０３は、視差画像に基づいて、撮像装置１８０とベルトコンベア１６１との間の距離である第２の距離を示す第２の距離情報を算出する。そして、算出された第２の距離情報は、物品距離記憶部６０４に記憶される（Ｓ１０１）。距離算出部６０３は、ベルトコンベア１６１に物品が搭載されていない状態で、１回の撮影により第２の距離情報を算出してもよいし、複数回の撮影に基づいて第２の距離情報を算出してもよい。そして、ユーザが、操作部１０６を用いて、認識対象の物品を指定すると、ＣＰＵ１０２は、認識対象の物品の指定を受け付ける（Ｓ１０２）。

ＣＰＵ１０２は、ベルトコンベア１６１に物品が搭載されているかを判定する（Ｓ１０３）。例えば、ベルトコンベア１６１の搬送路にセンサが配置されている場合、ＣＰＵ１０２は、センサからの信号に基づいて、Ｓ１０３の判定を行ってもよい。Ｓ１０３でＮｏと判定された場合、フローは、次のステップに進まない。撮像装置１８０が連続して撮影を行っている場合等においては、Ｓ１０３の処理は省略されてもよい。

Ｓ１０３でＹｅｓと判定された場合、撮像装置１８０は、撮影を開始する（Ｓ１０４）。例えば、図４（ａ）に示されるように、撮像装置１８０は、それぞれ高さが異なる物品１６２および物品１６３を撮影する。これにより、撮像画像および視差画像が得られる。距離算出部６０３は、視差画像に基づいて、撮像装置１８０から物品１６２および物品１６３までの距離を示す第１の距離情報を算出する（Ｓ１０５）。マスク画像出力部６０５は、上述した評価式を用いて、マスク画像データを生成する（Ｓ１０６）。そして、マスク画像出力部６０５は、生成したマスク画像データを認識用画像生成部６０６に出力する。認識用画像生成部６０６は、マスク画像データと撮影画像との論理積演算を行い、認識用画像を生成する（Ｓ１０７）。生成された認識用画像は、認識用画像生成部６０６に出力される。

ここで、図４（ａ）に示されるように、物品１６２の高さは、物品１６３の高さよりも大きい。従って、撮像装置１８０からの距離（第１の距離）は、物品１６２よりも物品１６３の方が長くなる。よって、物品１６２の高さが指定されている場合には、「第１の距離＋物品の高さ」は、物品１６２よりも物品１６３の方が長くなる。上述した評価式は、「第１の距離＋指定された物品の高さ−第２の距離≦所定の閾値」である。従って、図４の例の場合、物品１６２は、評価式の条件を満たし、物品１６３は、評価式の条件を満たさない。これにより、マスク画像データには、図４（ｅ）のように、物品１６２を示す物品画像１６２Ｆのみが含まれる。そして、図４（ｆ）のように、認識用画像には、物品１６２を示す画像１６２Ｇのみが含まれるようになる。

認識処理部６０７は、認識用画像に対して、ＣＮＮを適用した認識処理を実行する（Ｓ１０８）。これにより、物品１６２の品質が認識される。認識処理部６０７は、認識結果をＣＰＵ１０２に出力する（Ｓ１０９）。ＣＰＵ１０２は、外部インタフェース部１０８を制御して、認識結果を第２のロボット１６５に送信する。第２のロボット１６５は、認識結果に応じて、ピックアップ装置１６６を制御する。

上述したように、本実施形態によれば、撮像装置１８０が撮影する画像全体ではなく、指定された物品の高さに応じて、領域を絞った認識処理を行うことができる。これにより、画像全体に対して認識処理を行う場合と比較して、認識処理の処理量が少なくなり、作業対象の物品の認識を効率的に行うことができる。例えば、ＣＮＮを用いて認識処理を行う場合、ＣＰＵ或いはＧＰＵは、多くの積和演算処理を行う。本実施形態では、認識処理を行う領域が絞り込まれているため、ＣＰＵ或いはＧＰＵが行う積和演算の演算量を少なくすることができ、演算負荷を低減することができる。

図４の例では、２つの物品がベルトコンベア１６１に搭載されている例を説明したが、物品の数は３つ以上であってもよい。ベルトコンベア１６１に搭載されている複数の物品のうち全部の物品の高さが異なっていてもよいし、一部の物品の高さが異なっていてもよい。

また、第２のロボット１６５に取り付けられた撮像装置１８０の位置は固定されていてもよいし、可変であってもよい。撮像装置１８０の位置が変化すると、撮像装置１８０からベルトコンベア１６１までの距離である第２の距離も変化する。例えば、ＣＰＵ１０２が、撮像装置１８０の位置が変化したことを検出した場合、第２の距離を示す第２の距離情報が変更される。第２の距離情報は、第２のロボット１６５のロボットアームにおける各関節の回転軸の角度変化量に基づいて、得ることができる。また、撮像装置１８０が、物品が搭載されていない状態のベルトコンベア１６１を再度撮影し、距離算出部６０３が再度第２の距離情報を算出してもよい。

また、撮像装置１８０による物品の撮影位置は画像の中心であることが好ましい。距離算出部６０３が算出する距離情報は、レンズ歪み等の影響を受ける。このため、認識対象の物品の撮影位置が画像の中心から離れるに従って、距離算出部６０３が算出する距離情報の誤差が大きくなる。そこで、撮像装置１８０は、ベルトコンベア１６１で搬送される物品の撮影位置が画像の中心に位置したときに、撮影を行う。これにより、距離情報の誤差を小さくすることができる。

一方、撮像装置１８０による物品の撮影位置が画像の中心から離れている場合もある。この場合、認識対象の物品の位置を正しく検出することができず、物品よりも小さな領域がマスク画像データとして検出され、物品の認識処理が正確に行われなくなる。つまり、認識処理部６０７は、物品の品質状態を正しく認識しなくなる。そこで、物品の撮影位置が画像の中心から離れていることが検出された場合、マスク画像出力部６０５は、評価式における所定の閾値を変更する。これにより、物品の品質状態を認識することが可能になる。つまり、マスク画像出力部６０５は、物品の撮影位置が画像の中心から離れるに応じて、評価式の所定の閾値を大きくするように変更する。これにより、レンズ歪み等の誤差要因の影響が低減される。従って、マスク画像出力部６０５が、認識対象の物品より小さな領域をマスク画像データとして検出するようなケースを回避することができ、認識対象の物品の品質状態を認識できる。

＜第２実施形態＞
次に、第２実施形態について説明する。第１実施形態では、認識処理部６０７は１つの物品に対して認識処理が行うが、第２実施形態では、認識処理部６０７は複数の物品画像に対して認識処理を行う。物品認識部１０７の構成は、第１実施形態と同様であるため、説明を省略する。

例えば、ユーザが、操作部１０６を用いて、物品１６２の高さ情報および物品１６３の高さ情報を指定する操作を行ったとする。ＣＰＵ１０２は、該操作を受け付ける。ＣＰＵ１０２は、物品１６２の高さ情報および物品１６３の高さ情報を、物品認識部１０７に出力する。物品１６２の高さ情報および物品１６３の高さ情報は、物品距離記憶部６０４に記憶される。また、撮像装置１８０からベルトコンベア１６１までの距離である第２の距離を示す第２の距離情報は、第１実施形態と同様の方法で、物品距離記憶部６０４に記憶されているものとする。

距離算出部６０３は、視差画像に基づいて、物品１６２から撮像装置１８０までの距離および物品１６３から撮像装置１８０までの距離を算出する。算出結果は、マスク画像出力部６０５に出力される。マスク画像出力部６０５は、物品１６２の高さ情報と上述した算出結果と第２の距離情報とに基づいて、上述した評価式を用いて、マスク画像データＡを生成する。同様に、マスク画像出力部６０５は、物品１６３の高さ情報と上述した算出結果と第２の距離情報とに基づいて、上述した評価式を用いて、マスク画像データＢを生成する。つまり、マスク画像データＡは、物品１６２についてのマスク画像データであり、マスク画像データＢは、物品１６３についてのマスク画像データである。

認識用画像生成部６０６は、撮像画像とマスク画像データＡとを１画素ずつ論理積演算を行い、認識用画像Ａを生成する。同様に、認識用画像生成部６０６は、撮像画像とマスク画像データＢとを１画素ずつ論理積演算を行い、認識用画像Ｂを生成する。認識処理部６０７は、認識用画像Ａと認識用画像Ｂとのそれぞれについて認識処理を実行する。つまり、第２実施形態では、認識処理部６０７は、２回の認識処理を実行する。そして、認識結果は、外部インタフェース部１０８に出力される。マスク画像データが３枚以上生成された場合、認識処理部６０７は、生成されたマスク画像データの数に応じて、認識処理を実行する。

ここで、物品１６２の種類と物品１６３の種類とは異なる。また、認識処理部６０７は、ＣＮＮを用いて物品の品質状態を認識する。第２実施形態では、物品の種類に応じたＣＮＮを用いて、認識処理を実行する。つまり、認識処理部６０７は、物品１６２の品質状態を認識するためのＣＮＮ―Ａおよび物品１６３の品質状態を認識するためのＣＮＮ―Ｂを用いて、認識処理を実行する。このため、認識処理部６０７は、物品１６２の品質状態を認識するための学習済みパラメータが設定されたＣＮＮ−Ａおよび物品１６３の品質状態を認識するための学習済みパラメータが設定されたＣＮＮ−Ｂを用いて、認識処理を実行する。物品１６２の種類と物品１６３の種類とは異なるため、ＣＮＮ−Ａの学習済みパラメータとＣＮＮ−Ｂの学習済みパラメータとは異なる。以上により、物品１６２と物品１６３とのそれぞれに適した認識処理を実行することができる。

図８は、第２実施形態の処理の流れを示すフローチャートである。Ｓ２０１〜Ｓ２０５およびＳ２０９は、第１実施形態と同様であるため、説明を省略する。距離算出部６０３は、マスク画像出力部６０５は、上述した評価式を用いて、複数枚のマスク画像データを生成する（Ｓ２０６）。認識用画像生成部６０６は、複数枚のマスク画像データのそれぞれと撮影画像と論理積演算を行い、複数枚の認識用画像を生成する（Ｓ２０７）。認識処理部６０７は、複数枚の認識用画像のそれぞれに対して、ＣＮＮを適用した認識処理を実行する（Ｓ２０８）。

従って、第２実施形態では、複数の物品に対して認識処理を実行する場合であっても、認識処理を実行する領域が絞り込まれているため、認識処理の処理量を低減させることができ、作業対象の物品の認識を効率的に行うことができる。ここで、それぞれ高さが異なる複数の物品に対して認識処理を実行する場合、認識処理部６０７は、複数回の認識処理を行う。認識処理部６０７が認識処理を行う機能を複数有している場合、各機能が並列的に複数の物品についての認識処理を実行してもよい。

＜第３実施形態＞
次に、第３実施形態について説明する。第３実施形態では、認識処理部６０７は、高さが同じである複数の物品の品質状態を認識する。以下、撮像装置１８０の画角に同じ種類の２つの物品１７２および物品１７３が含まれているものとして説明する。２つの物品１７２および物品１７３の高さは同じである。ただし、両者の高さは実質的に同じであればよく、若干の誤差があってもよい。また、物品の数は２つには限定されない。

図９は、第３実施形態の物品認識部１０７の機能ブロック図である。第３実施形態の物品認識部１０７は、位置情報生成部６０９を有している点で、第１実施形態および第２実施形態と異なる。位置情報生成部６０９の詳細について後述する。図１０は、第３実施形態における物品の認識方法の一例を示す図である。第３実施形態の物品認識部１０７も、上述した各実施形態と同様、物品認識部１０７は、物品の亀裂や色落ち、研磨処理の仕上がり具合等を認識する。以下、物品認識部１０７が、物品の亀裂が大きい状態か、亀裂が小さい状態か、または亀裂がない状態かを認識する例について説明する。物品認識部１０７は、亀裂以外の物品の品質状態を認識してもよい。また、物品認識部１０７は、入力された画像に対して、学習済みのパラメータが設定されているＣＮＮを用いて、物品の品質状態を認識するものとする。

図１０（ａ）は、第３実施形態の撮影環境の一例を示す図である。撮像装置１８０の画角には、同じ種類の物品１７２および物品１７３が含まれている。物品１７２の高さと物品１７３の高さとは同じである。物品１７２および物品１７３は、ベルトコンベア１６１に搭載されている。物品１７２にはヒビ３００が入っており、物品１７２の品質状態は異常である。図１０（ｂ）は、撮像画像を示す図である。撮像画像中の物品画像１７２Ｃは物品１７２を示し、物品画像１７３Ｃは物品１７３を示す。図１０（ｃ）は、視差画像を示す図である。撮像画像中の物品画像１７２Ｄは物品１７２を示し、物品画像１７３Ｄは物品１７３を示す。

距離算出部６０３は、視差画像に基づいて、撮像装置１８０と被写体（物品）との間の距離である第１の距離を求める。図１０（ｄ）は、距離情報を示す図である。画像中の物品画像１７２Ｅは物品１７２を示し、物品画像１７３Ｅは物品１７３を示す。物品１７２と物品１７３とは同じ高さであるため、両者の距離情報は同じである。図１０（ｅ）は、マスク画像データを示す図である。物品１７２と物品１７３とは同じ高さであるため、物品画像１７２Ｅおよび物品画像１７３Ｅの両者が抽出される。上述した第１実施形態のマスク画像データには１つの物品画像１６２Ｆが含まれている。一方、第３実施形態のマスク画像データには、２つの物品画像１７２Ｅおよび物品画像１７３Ｅが含まれている。従って、第３実施形態のマスク画像データに含まれる物品画像は複雑な形状となり、該複雑な形状から物品画像１７２Ｅと物品画像１７３Ｅとを区別する必要がある。

位置情報生成部６０９は、マスク画像出力部６０５が出力したマスク画像データから位置情報を生成する。位置情報生成部６０９は、検出手段に対応する。位置情報生成部６０９は、マスク画像データに複数の物品画像が含まれている場合でも、複数の物品の位置を個別に検出する。このため、位置情報生成部６０９は、マスク画像データを入力として、ＲｅｇｉｏｎＣＮＮ（Ｒ−ＣＮＮ）の処理を行い、物品の個数を検出し、物品位置情報を生成する。Ｒ−ＣＮＮとしては、例えば、文献（Ｒｉｃｈｆｅａｔｕｒｅｈｉｅｒａｒｃｈｉｅｓｆｏｒａｃｃｕｒａｔｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎａｎｄｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ，ＲｏｓｓＧｉｒｓｈｉｃｋ，ＪｅｆｆＤｏｎａｈｕｅ，ＴｒｅｖｏｒＤａｒｒｅｌ，ＪｉｔｅｎｄｒａＭａｌｉｋ，ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），２０１４）に記載された手法を適用することができる。

位置情報生成部６０９がＲ−ＣＮＮを行うことにより生成される物品位置情報（物品の位置に関する情報）は、物品の位置、矩形領域の中心座標およびサイズで表現される。Ｒ−ＣＮＮは、画像中の物体だけでなく、該物体の位置を推論する手法であり、上述した物品位置情報は、物品の位置に関する他の情報であってもよい。Ｒ−ＣＮＮは、学習済みパラメータが設定された学習モデルである。また、位置情報生成部６０９は、Ｒ−ＣＮＮ以外の任意の機械学習手法を用いて、画像中の物品および物品の位置を検出してもよい。

ここで、Ｒ−ＣＮＮの処理を行うために、多くの演算が行われる。このとき、マスク画像データは二値で表現されるデータであるため、ＲＧＢの画素値（各８ビット）を持った画像に対するＲ−ＣＮＮの処理と比べて、演算量が少なくなる。また、物品の位置に対応する画素に絞ってＲ−ＣＮＮの処理が行われることで、少ないハードウェア資源でＲ−ＣＮＮの処理を行うことができる。Ｒ−ＣＮＮの各パラメータは、予め学習済みである。例えば、Ｒ−ＣＮＮの事前学習は、物品の複数枚のマスク画像データと正解データ（マスク画像データにおける正解の領域を示すデータ）とを入力として、行われる。これにより、Ｒ−ＣＮＮの各パラメータは学習されて調整される。

そして、位置情報生成部６０９は、マスク画像出力部６０５が出力したマスク画像データを入力として、学習済みのＲ−ＣＮＮの処理により、マスク画像データに含まれる複数の物品の個数を検出し、検出した各物品のそれぞれについて物品位置情報を生成する。また、図１０（ｆ）は、物品１７２についての物品位置情報１７２Ｇおよび物品１７３についての物品位置情報１７３Ｇを示す図である。図１０（ｆ）に示されるように、マスク画像データを入力としたＲ−ＣＮＮの処理により、２つの物品が検出され、２つの物品のそれぞれについての物品位置情報が生成されている。

位置情報生成部６０９は、物品位置情報に基づいて、画像中の対応する領域の画素値を「１」とし、他の領域を「０」とする画像（以下、位置画像）を生成する。図１０（ｆ）は、位置画像の一例を示す図である。ここで、位置情報生成部６０９は、物品位置情報１７２Ｇと物品位置情報１７３Ｇとのそれぞれについて個別的に位置画像を生成する。物品１７２に対応する位置画像は、物品位置情報１７２Ｇにより特定される領域（図１０（ｆ）の場合、矩形領域）の画素値が「１」であり、他の領域の画素値が「０」である。また、物品１７３に対応する位置画像は、物品位置情報１７３Ｇにより特定される矩形領域の画素値が「１」であり、他の領域の画素値が「０」である。

認識用画像生成部６０６は、図１０（ｂ）に示される撮像画像と図１０（ｆ）の位置画像とに基づいて、図１０（ｇ）に示されるような認識用画像を生成する。つまり、認識用画像生成部６０６は、図１０（ｂ）の撮像画像のうち図１０（ｆ）の位置画像の矩形領域が有効であり、他の領域が無効である認識用画像を生成する。位置画像は、物品１７２と物品１７３とのそれぞれについて生成されるため、認識用画像は２つ生成される。

認識処理部６０７は、２つの認識用画像のそれぞれに対して、第１実施形態および第２実施形態と同様の認識処理を実行する。ここで、図１０（ａ）に示されるように、物品１７２にはヒビ３００が入っている。このため、認識処理部６０７は、認識処理を実行した結果として、物品１７２の品質に問題があると判定する。つまり、物品１７２の品質は異常であると判定される。一方、認識処理部６０７は、認識処理を実行した結果として、物品１７３の品質に問題がないと判定する。つまり、物品１７３の品質は正常であると判定する。

上述したように、認識処理部６０７は、２つの認識用画像のそれぞれに対して、認識処理を行う。従って、認識処理は２回実行される。認識処理を実行した認識結果は、外部インタフェース部１０８に出力される。外部インタフェース部１０８は、第２のロボット１６５に認識結果を送信する。第２のロボット１６５は、認識結果に基づいて、ロボットアームおよびピックアップ装置１６６を制御する。

図１１は、第３実施形態の処理の流れを示すフローチャートである。Ｓ３０１〜Ｓ３０５およびＳ３１０は、第１実施形態と同様であるため、説明を省略する。距離算出部６０３は、マスク画像出力部６０５は、上述した評価式を用いて、複数枚のマスク画像データを生成する（Ｓ３０６）。位置情報生成部６０９は、マスク画像出力部６０５が出力したマスク画像データを入力として、学習済みのＲ−ＣＮＮの処理により、画像に含まれる各物品のそれぞれについての物品位置情報を生成する（Ｓ３０７）。そして、認識用画像生成部６０６は、各物品のそれぞれに対応する認識用画像を生成する（Ｓ３０８）。認識処理部６０７は、複数枚の認識用画像を入力として、ＣＮＮの処理により、認識処理を実行する（Ｓ３０９）。

従って、第３実施形態では、同じ高さの同種類の複数の物品に対して認識処理を実行する場合であっても、認識処理を実行する領域が絞り込まれているため、認識処理の処理量を低減させることができ、作業対象の物品の認識を効率的に行うことができる。また、認識処理部６０７が認識処理を行う機能を複数有している場合、各機能が並列的に複数の物品についての認識処理を実行してもよい。

以上、本発明の好ましい実施の形態について説明したが、本発明は上述した各実施の形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。本発明は、上述の各実施の形態の１以上の機能を実現するプログラムを、ネットワークや記憶媒体を介してシステムや装置に供給し、そのシステム又は装置のコンピュータの１つ以上のプロセッサーがプログラムを読み出して実行する処理でも実現可能である。また、本発明は、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０２ＣＰＵ
１０６操作部
１０７物品認識部
１６２物品
１６３物品
１６４第１のロボット
１６５第２のロボット
１８０撮像装置
６０３距離算出部
６０５マスク画像出力部
６０６認識用画像生成部
６０７認識処理部

Claims

載置面に搭載されている認識対象を撮像装置が撮像した画像を処理する画像処理装置であって、
前記認識対象から前記撮像装置までの第１の距離と、指定された認識対象の高さと、前記撮像装置から前記載置面までの第２の距離とに基づいて、前記画像の中から領域を抽出する抽出手段と、
前記領域に対して認識処理を実行する認識手段と、
を備えることを特徴とする画像処理装置。
前記載置面に搭載されている複数の前記認識対象の一部または全部の高さは異なることを特徴とする請求項１に記載の画像処理装置。
前記第２の距離は、前記認識処理が実行される前に取得され、
前記撮像装置の位置が変化したことに応じて、前記第２の距離が変更されることを特徴とする請求項１または２に記載の画像処理装置。
前記撮像装置は、前記認識対象の撮影位置が前記画像の中心に位置したときに撮影を行うことを特徴とする請求項１乃至３のうち何れか１項に記載の画像処理装置。
前記抽出手段は、前記認識対象の撮影位置が前記画像の中心から離れるに応じて、前記第１の距離と前記指定された認識対象の高さとの合計から前記第２の距離を減じた値と比較される前記領域を抽出するための閾値を大きくすることを特徴とする請求項１乃至４のうち何れか１項に記載の画像処理装置。
前記抽出手段により複数の前記領域が抽出された場合、前記認識手段は、抽出された前記複数の領域のそれぞれに対して前記認識処理を実行することを特徴とする請求項１乃至５のうち何れか１項に記載の画像処理装置。
前記画像に含まれる複数の前記認識対象および該複数の認識対象の位置を検出する検出手段、をさらに備え、
前記認識手段は、検出された前記複数の認識対象の位置に基づいて、前記複数の認識対象のそれぞれの領域に対して前記認識処理を実行することを特徴とする請求項１乃至６のうち何れか１項に記載の画像処理装置。
前記抽出手段は、検出された前記複数の認識対象および該複数の認識対象の位置に基づいて個別的に位置を示す画像を生成し、学習済みパラメータが設定された学習モデルに前記位置を示す画像を入力して、前記複数の認識対象のそれぞれに対応する領域を抽出し、
前記認識手段は、抽出された複数の前記領域のそれぞれに対して前記認識処理を実行することを特徴とする請求項７に記載の画像処理装置。
前記位置を示す画像を構成する各画素のうち前記領域に対応する画素は１で表され、前記領域に対応しない画素は０で表されることを特徴とする請求項８に記載の画像処理装置。
前記画像を撮影する撮像素子部と、
請求項１乃至８のうち何れか１項に記載の画像処理装置と、
を備えることを特徴とする撮像装置。
載置面に搭載されている認識対象を撮像装置が撮像した画像を処理する画像処理装置を制御する制御方法であって、
前記認識対象から前記撮像装置までの第１の距離と指定された認識対象の高さとの合計から前記撮像装置から前記載置面までの第２の距離を減じた値と、所定の閾値とを比較して前記画像の中から領域を抽出する工程と、
前記領域に対して認識処理を実行する工程と、
を備えることを特徴とする制御方法。
請求項１乃至９のうち何れか１項に記載の画像処理装置の各手段をコンピュータに実行させるためのプログラム。