JP2022045905A

JP2022045905A - 混合サイズデパレタイジング

Info

Publication number: JP2022045905A
Application number: JP2021136172A
Authority: JP
Inventors: タントー; Te Tang; 哲朗加藤; Tetsuro Kato
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2020-09-09
Filing date: 2021-08-24
Publication date: 2022-03-22
Also published as: US20220072712A1; DE102021121612A1; US12017368B2; CN114241037A

Abstract

【課題】箱の積み重ねからロボットによって取出すべき箱を特定する方法及びシステムを提供する。【解決手段】箱をパレットから取出すロボットシステムのコントローラの一部である混合サイズデパレタイジングシステム３０における方法は、三次元カメラを使用して箱の二次元赤緑青カラー（ＲＧＢ）画像３２と、箱の二次元深度マップ画像３４と、を取得する。深度マップ画像のピクセルは、カメラから箱までの距離を特定する値を割当てられる。方法はさらに、セグメンテーションモジュール３６が、ＲＧＢ画像と深度マップ画像とから特徴を抽出し、画像内の抽出された特徴を結合し、セグメンテーション画像内の各箱が同一のラベルを有するように特徴画像内のピクセルにラベルを割当てる画像セグメンテーション処理を実行することによって箱のセグメンテーション画像を生成し、位置モジュール６４が、セグメンテーション画像を使用して箱を取出す位置を特定する。【選択図】図２

Description

本開示は、概して、箱の積み重ねからロボットによって取出すべき箱を特定するためのシステム及び方法に関し、より具体的には、箱の積み重ねからロボットによって取出すべき箱を特定するためのシステム及び方法であって、積み重ねの画像内の全ピクセルにラベルを割当てる画像セグメンテーション処理を採用したシステム及び方法に関する。

ロボットはピックアンドプレース動作を含む多数の商用タスクを実行する。ピックアンドプレース動作では、ロボットが対象物を取出して、ある位置から別の位置に移動する。例えば、ロボットはパレットから箱を取出し、箱をコンベヤベルト上に載置する。ここで、ロボットは箱を保持するために吸着カップを備えたエンドエフェクタを採用することが多い。ロボットが箱を効果的に取出すために、ロボットは、取出す箱の幅、長さ及び高さを認識する必要がある。幅、長さ及び高さはピックアンドプレース動作の前にロボットコントローラに入力される。しかし、多くの場合、同じパレット上の箱の大きさが異なるため、ピックアンドプレース動作中に箱の大きさをロボットに入力するのは非効率的である。箱はこのほか、同じ高さに隣り合って配置できる。この場合、箱が別々の箱であるか、単一の大きな箱であるかを区別するのは困難である。現在、リアルタイムで取出す箱の大きさを決定できるロボットシステムはない。

ある既知のロボットピックアンドプレースシステムでは、ロボットが取出す箱の幅、長さ及び高さが最初にシステムに入力される。三次元カメラが、箱の積み重ねの上面（top down）画像を取得し、箱の二次元赤緑青カラー（ＲＧＢ）画像と箱の二次元グレースケール深度マップ画像を生成する。ここで、深度マップ画像の各ピクセルは、カメラから特定の箱までの距離を規定する値を有する。即ち、ピクセルが対象物に近いほど、その値は低くなる。ロボットコントローラは、箱の幅と長さに基づいて一連の投影テンプレートを提供する。各テンプレートは、カメラと箱の間の特定の距離に対応する大きさを有する。深度マップ画像によって提供される箱の距離のためのテンプレートは検索処理にてカラー画像内を移動し、テンプレートがカラー画像の箱と一致するか整列すると、ロボットコントローラは箱の位置を認識し、その位置を用いて箱の中心を規定し、ロボットが箱を取出すように制御する。

以下の考察は、箱の積み重ねからロボットによって取出すべき箱を特定するためのシステム及び方法を開示して説明する。この方法は、三次元カメラを使用して、箱の二次元赤緑青カラー（ＲＧＢ）画像と、箱の二次元深度マップ画像とを取得することを含む。ここで、深度マップ画像のピクセルは、カメラから箱までの距離を特定する値を割当てられる。この方法は、ＲＧＢ画像と深度マップ画像とから特徴を抽出し、画像内の抽出された特徴を結合し、セグメンテーション画像の各箱が同一のラベルを有するように特徴画像内のピクセルにラベルを割当てる、画像セグメンテーション処理を実行することによって箱のセグメンテーション画像を生成する。次に、この方法はセグメンテーション画像を使用して箱を取出す位置を特定する。

本開示の追加の特徴が、添付の図面と併せて、以下の説明及び添付の特許請求の範囲から明らかになるであろう。

パレットから箱を取出し、コンベヤベルト上に箱を載置するロボットを含むロボットシステムの図である。図１に示すロボットシステムの一部である混合サイズデパレタイジングシステムの概略ブロック図である。図２に示すシステムから分離されたセグメンテーションモジュールの概略ブロック図である。３層の箱の積み重ねの上面ＲＧＢ画像を示す図である。図４に示す箱の積み重ねの上面深度マップ画像である。横軸に深さ、縦軸に度数を有するヒストグラムであり、積み重ねの中の箱の度数ピークを示す。図４に示す積み重ねの最上層の切取り上面ＲＧＢ画像である。図４に示す積み重ねの中間層の切取り上面ＲＧＢ画像である。

本開示の実施形態に関する以下の考察は、箱の積み重ねからロボットによって取出すべき箱を特定するためのシステム及び方法を対象とし、この方法は積み重ねの画像内の全ピクセルにラベルを割当てる画像セグメンテーション処理を採用する。本質的に単なる例示であり、本発明又はその用途又は使用を制限することを全く意図していない。例えば、このシステム及び方法はロボットによって取出すべき箱を特定する用途を有する。しかし、このシステム及び方法は他の用途を有することもある。

図１は、パレット２０上に位置決めされた箱１６の積み重ね１８から箱１６を取出し、コンベヤベルト２２上に載置するように構成されたエンドエフェクタ１４を有するロボット１２を含むロボットシステム１０の図である。システム１０は本書の考察から利益を得ることができる任意のタイプのロボットシステムを表すよう意図され、ロボット１２はその目的に適した任意のロボットでよい。三次元カメラ２４は、箱１６の積み重ね１８の上面二次元ＲＢＧ画像及び深度マップ画像を取得するために位置決めされ、ロボット１２の動作を制御するロボットコントローラ２６に画像を提供する。箱１６は、パレット２０上で異なる方向を有する場合があり、パレット２０上で複数の層に積み重ねられる場合があり、異なる大きさ有する場合がある。

以下で詳細に考察するように、ロボットコントローラ２６は、箱１６の長さ、幅及び高さを事前にコントローラ２６に入力することなく、箱１６の投影テンプレートを生成することを必要とせずに、ロボット１２が取出そうとする箱１６のそれぞれのサイズを決定するアルゴリズムを採用する。より具体的には、アルゴリズムは、同一のラベルを有するピクセルが特定の特性を共有するように、画像内の全ピクセルにラベルを割当てる画像セグメンテーション処理を実行する。このため、セグメンテーション処理はどのピクセルがどの箱１６に属するかを予測する。ここで、異なる特徴が異なる箱１６を表す。

最新の画像セグメンテーション技術は、深層学習技術を採用する場合がある。深層学習は、特定の実世界の環境を、増大する複雑な概念の階層として表すことによってより優れた学習性能を提供する特定のタイプの機械学習である。深層学習は、典型的には、非線形処理を実行するニューラルネットワークの複数の層を含むソフトウェア構成を採用する。ここで、連続する各層は前の層からの出力を受取る。一般に、層は、センサからの生データを受取る入力層と、データから抽象的な特徴を抽出する幾つかの隠れ層と、隠れ層からの特徴抽出に基づいて特定の事柄を特定する出力層と、を含む。ニューラルネットワークは、ある事柄が正しいかどうかの可能性（probability）を得るためにノードへの入力が乗算される「重み」をそれぞれ有するニューロン又はノードを含む。より具体的には、ノードのそれぞれは、入力の幾らかの比率であるそのノードの出力を生成するためにノードへの入力が乗算される浮動小数点数である重みを有する。重みは、ニューラルネットワークに教師あり処理の下で一組の既知のデータを分析させることによって、及び、ネットワークが正しい出力の最高の可能性（probability）を得られるようにコスト関数を最小化することを通じて、最初に「訓練される」か、又は設定される。深層学習ニューラルネットワークは、画像内の対象物の視覚的検出と分類のための画像特徴抽出及び変換を提供するために採用されることが多い。ここで、動画又は画像のストリームは、対象物を特定及び分類し、対象物をより良く認識する処理を通じて学習するネットワークによって分析され得る。このため、このようなタイプのネットワークでは、システムは、同じ処理構成を使用して、特定の対象物を検出し、アルゴリズムが対象物を認識するために学習した方法に基づいて対象物を別々に分類できる。

図２は、箱１６をパレット２０から取出すように動作するロボットシステム１０におけるコントローラ２６の一部である混合サイズデパレタイジングシステム３０の概略ブロック図である。システム３０は、カメラ２４から、パレット２０上に位置決めされた箱１６の上面図の二次元ＲＧＢ画像３２と、箱１６の上面図の二次元深度マップ画像３４と、を受取る。画像３２及び３４は、画像セグメンテーション処理を実行するセグメンテーションモジュール３６に提供される。ここで、各ピクセルは特定のラベルを割当てられ、同じ箱１６に関連付けられたピクセルは同一のラベルを有する。

図３は、システム３０から分離されたモジュール３６の概略ブロック図である。ＲＧＢ画像３２は、特徴抽出モジュール４０に提供され、深度マップ画像３４は、画像３２及び３４から特徴を抽出するフィルタリング処理を実行する特徴抽出モジュール４２に提供される。例えば、モジュール４０及び４２は、勾配、エッジ、輪郭、基本形状等を画像３２及び３４から抽出する学習ベースのニューラルネットワークを含み、既知の方法で、ＲＧＢ画像３２の抽出された特徴画像４４と、深度マップ画像３４の抽出された特徴画像４６とを提供してもよい。画像４４及び４６は、三次元拡大行列を提供するために、特徴積み重ね画像４８として位置合わせされる。特徴積み重ね画像４８は、画像４８内の箱１６の位置を決定するために、ＲＧＢ画像３２及び深度マップ画像３４にて特定された特徴を、ニューラルネットワークを使用して分析する領域提案モジュール５０に提供される。特に、モジュール５０は、異なるサイズの５０個から１００個のボックス等の幾つかのバウンディングボックス、即ち、箱１６が画像４８内の特定の位置に存在する可能性（probability）を特定するために使用される種々の長さと幅を有するボックスを提供する、訓練されたニューラルネットワークを含む。領域提案モジュール５０は、当業者によく知られているスライド検索ウィンドウテンプレートを採用する。ここで、全てのバウンディングボックスを含む検索ウィンドウが、箱１６のうちの１つの存在の可能性を特定する特徴を探索するために、特徴積み重ね画像４８上を、例えば、画像４８の左上から画像４８の右下へ移動する。

スライドウィンドウ検索は、画像４８内の予測された対象物をそれぞれ取囲む幾つかのバウンディングボックス５２を含むバウンディングボックス画像５４を生成する。ここで、画像５４内のバウンディングボックス５２の数は、ロボット１２が積み重ね１８から箱１６のうちの１つを取除くたびに減少する可能性がある。モジュール５０は、各ボックス５２の中心位置（ｘ、ｙ）、幅（ｗ）及び高さ（ｈ）をパラメータ化し、箱がボックス５２の中に存在することの０％から１００％の間の予測信頼値を提供する。画像５４は、ピクセルがバウンディングボックス５２のそれぞれの中の箱１６に属するかどうかを、ニューラルネットワークを使用して推定して、対象物１６の一部ではないボックス５２の中の背景ピクセルを除去する、バイナリセグメンテーションモジュール５６に提供される。ボックス５２のそれぞれの中の画像５４内の残りのピクセルは、特定の箱１６の値を割当てられ、その結果、色等の異なる特徴によって箱１６を特定する二次元セグメンテーション画像５８が生成される。説明した画像セグメンテーション処理は、深層学習マスクＲ－ＣＮＮ（畳み込みニューラルネットワーク）の修正された形態である。

次に、二次元セグメンテーション画像５８は、画像５８の中のどの区分けされた箱が箱であるための最大信頼値を有するかを決定し、選択された箱１６の中心ピクセルのｘｙ座標を提供する、中心ピクセルモジュール６０に提供される。選択された箱１６の特定された中心ピクセルは、深度マップ画像３４と共に、その箱１６の中心ピクセルのｘｙｚデカルト座標を計算するデカルト座標モジュール６２に提供される。ここで、深度マップ画像３４は、現実世界の各ピクセル位置を認識する。次に、その箱１６の中心ピクセルのｘｙｚ座標は、エンドエフェクタ１４を位置決めするための取出（grasp）位置モジュール６４においてｘｙｚ取出位置を特定するために使用される。エンドエフェクタ１４の取出位置と、方向モジュール６６からの箱１６の既知の垂直方向とが、取出姿勢モジュール６８のエンドエフェクタ１４の取出姿勢又は方向を決定する。ここで、取出姿勢は、エンドエフェクタ１４のｘｙｚ座標と、ヨー、ピッチ及びロールとを含み、エンドエフェクタ１４の箱１６への接近方向を提供する。ここで、垂直方向の代わりに、箱１６の他の方向、例えば箱表面の法線方向等を提供できる。ロボット動作は、箱１６を取出すために取出モジュール７０にて実行される。次に、ロボット１２は、カメラ２４に信号を送信して、以前にピックアップされた箱１６が積み重ね１８から取除かれた、新たなＲＧＢ画像と深度マップ画像を提供する。この処理は、全ての箱１６が取出されるまで継続される。

箱１６がロボット１２によって積み重ね１８から取除かれると、積み重ね１８の下層の箱１６が、カメラ２４に部分的に露出され、セグメンテーションモジュール３６によって区分けされることがある。図４は、これを示す箱８４の積み重ね８２の上面ＲＧＢ画像８０である。ここで、最上層８８の箱８６が、中間層９２の箱９０と最下層９６の箱９４を部分的に覆い、箱９０及び９４は、セグメンテーションモジュール３６によって区分けされる場合があり、ロボット１２は、箱８６が取除かれる前に箱９０及び９４を取出そうとする場合がある。部分的に区分けされた箱は、カメラ２４にとって完全な箱のように見えるかもしれないが、それらの箱の一部が遮蔽されているため、箱の適切な中心を決定できず、エンドエフェクタ１４の方向はそれらの箱を取出すために適切な位置に配置されない場合がある。

以下で詳細に考察するように、この問題は、積み重ね１８の深度マップ画像を使用して箱８４の最上層を切取り、最上層のそれらの箱を、ロボット１２によって積み重ね８２から取除くまで区分けすることのみによって対処される。図５は、積み重ね８２の深度マップ画像９８である。ここで、層８８、９２及び９６のうちの特定の１つにて箱８４は同じ陰影を有する。

図６は、横軸に深さを有し、縦軸に度数を有するヒストグラムである。ここで、別個の「バー」が、例えば、カメラ２４からの深さ１センチメートルごとに定義される。深度マップ画像９８の各ピクセルは、カメラ２４からの距離に応じて値が割当てられ、深度マップ画像９８の各ピクセルは度数であり、各度数は、その値に応じてバーに割当てられる。このため、特定の層の箱８４のピクセルは、同じバー又は周辺のバーに割当てられることになる。ヒストグラムは、深さ７０ｃｍでの最上層８８の度数のピーク１００と、深さ９０ｃｍでの中間層９２の度数のピーク１０２と、深さ１０５ｃｍの最下層９６の度数のピーク１０４とを示す。ここで、カメラ２４から０ｃｍのピーク１０６は、測定できずに却下されるピクセルによる度数を含み、カメラ２４から１２０ｃｍのピーク１０８は地面であり、これも却下される。

コントローラ２６は、最も近いピークを箱８４の最上層として特定し、これはピーク１００であり、図７に示すように、そのピーク値又は周辺の値に関連する全ての箱を画像から切取る。ここで、他の箱で覆われている箱は切取り画像に存在せず、セグメンテーション処理は上記で考察された方法で切取り画像に対して実行できる。切取り画像において全ての箱８４が取出されると、コントローラ２６は別のヒストグラムを生成する。ここで、最も近いピークは、図８に示すように切取られた箱８４の中間層のピーク１０２である。

当業者によって充分に理解されるように、本開示を説明するために本書で考察された幾つかの種々のステップ及び処理は、電気的現象を使用してデータを操作したり、及び／又は変換したりする、コンピュータ、プロセッサ又は他の電子計算装置によって実行される動作を指す場合がある。それらのコンピュータ及び電子装置は、コンピュータ又はプロセッサによって実行できる種々のコード又は実行可能命令を含む実行可能プログラムが記憶された非一時的なコンピュータ可読媒体を含む種々の揮発性メモリ及び／又は不揮発性メモリを採用する場合がある。ここで、メモリ及び／又はコンピュータ可読媒体は、あらゆる形態及びタイプのメモリ及び他のコンピュータ可読媒体を含んでもよい。

前述の考察は、本開示の単なる例示的な実施形態を開示し説明する。当業者は、そのような考察及び添付の図面及び特許請求の範囲から、以下の特許請求の範囲で規定される開示の精神及び範囲から逸脱することなく、種々の変更、修正及び変形を施すことができることを容易に認識するであろう。

Claims

一群の箱から対象箱を取出すための方法であって、前記方法は、
三次元カメラを使用して前記箱の二次元赤緑青カラー（ＲＧＢ）画像を取得することと、
前記三次元カメラを使用して前記箱の二次元深度マップ画像を取得することであって、前記深度マップ画像のピクセルは、前記カメラから前記箱までの距離を特定する値を割当てられる、ことと、
前記ＲＧＢ画像と前記深度マップ画像とから特徴を抽出し、これら画像内の前記抽出された特徴を結合し、セグメンテーション画像内の各箱が同一のラベルを有するように前記セグメンテーション画像内のピクセルにラベルを割当てる、画像セグメンテーション処理を実行することにより、前記箱のセグメンテーション画像を生成することと、
前記セグメンテーション画像を使用して前記箱を取出す位置を特定することと、
を含む、方法。
セグメンテーション画像を生成することは、深層学習マスクＲ－ＣＮＮ（畳み込みニューラルネットワーク）を使用することを含む、請求項１に記載の方法。
セグメンテーション画像を生成することは、複数のバウンディングボックスを提供することと、前記バウンディングボックスを前記抽出された特徴に位置合わせすることと、前記対象箱を取囲むバウンディングボックスを含むバウンディングボックス画像を提供することと、を含む、請求項１に記載の方法。
セグメンテーション画像を生成することは、対象箱が各バウンディングボックスに存在する可能性を決定することを含む、請求項３に記載の方法。
セグメンテーション画像を生成することは、前記バウンディングボックス画像内の各バウンディングボックスから、対象箱に関連付けられていないピクセルを除去することを含む、請求項３に記載の方法。
セグメンテーション画像を生成することは、前記セグメンテーション画像内の各箱が同一のラベルを有するように、前記セグメンテーション画像内のピクセルにラベルを割当てることを含む、請求項１に記載の方法。
前記箱の前記セグメンテーション画像を生成する前に、前記一群の箱の中の他の箱の上に積み重ねられた前記箱の最上層を前記カラー画像から分離することをさらに含み、前記箱のセグメンテーション画像を生成することは、前記箱の前記最上層のセグメンテーション画像を生成することを含む、請求項１に記載の方法。
箱が前記一群の箱から取出されると、前記箱の前記積み重ねの下層が前記箱の前記最上層になる、請求項７に記載の方法。
最上層を分離することは、類似の深度値を有する前記深度マップ画像内のピクセルを計数することと、ピクセルがカメラに最も近いことを示す深度値を有する一群のピクセルによって前記最上層を特定することとを含む、請求項７に記載の方法。
類似の深度値を有する前記一群のピクセルはヒストグラムによって特定される、請求項９に記載の方法。
セグメンテーション画像を生成することは、前記バウンディングボックス内の各対象物の中心ピクセルを特定することを含み、前記対象物を取出すための位置を特定することは、前記セグメンテーション画像内の前記対象物のうちの１つの中心ピクセルを特定することと、前記中心ピクセルの前記位置と前記深度マップ画像とを使用して前記中心ピクセルのｘｙｚ座標を計算することとを含む、請求項１に記載の方法。
前記箱を取出す位置を特定することは、前記ｘｙｚ座標と、ピッチ、ヨー及びロール位置とを使用して前記箱を取出すための取出姿勢を決定することを含む、請求項１１に記載の方法。
前記箱はロボットによって取出され、前記取出姿勢がロボットエンドエフェクタの姿勢を決定する、請求項１２に記載の方法。
ロボットを使用して一群の箱から対象箱を取出すための方法であって、前記方法は、
三次元カメラを使用して前記箱の二次元赤緑青カラー（ＲＧＢ）画像を取得することと、
前記三次元カメラを使用して前記箱の二次元深度マップ画像を取得することであって、前記深度マップ画像のピクセルは、前記カメラから前記箱までの距離を特定する値を割当てられる、ことと、
前記ＲＧＢ画像と前記深度マップ画像とから特徴を抽出し、これら画像内の前記抽出された特徴を結合し、セグメンテーション画像の各箱が同一のラベルを有するように前記セグメンテーション画像内のピクセルにラベルを割当てる、深層学習畳み込みニューラルネットワークを使用して画像セグメンテーション処理を実行することにより、前記箱のセグメンテーション画像を生成することと、
前記セグメンテーション画像を使用して前記箱を取出す位置を特定することであって、カラー画像を取得することと、深度マップ画像を取得することと、セグメンテーション画像を生成することと、前記箱を取出す位置を特定することとが、前記ロボットによって前記一群の箱から箱を取出す度に実行される、ことと、
を含む、方法。
セグメンテーション画像を生成することは、複数のバウンディングボックスを提供することと、前記バウンディングボックスを前記抽出された特徴に位置合わせすることと、前記対象箱を取囲むバウンディングボックスを含むバウンディングボックス画像を提供することと、対象箱が各バウンディングボックスに存在する可能性を決定することと、前記バウンディングボックス画像の各バウンディングボックスから、対象箱に関連付けられていないピクセルを除去することと、を含む、請求項１４に記載の方法。
類似の深度値を有する前記深度マップ画像のピクセルを計数することと、前記カメラに最も近いことを示す深度値を有する一群のピクセルによって最上層を特定することとによって前記箱のセグメンテーション画像を生成する前に前記一群の箱の中の他の箱の上に積み重ねられた前記箱の最上層を前記カラー画像から分離することをさらに含み、類似の深度値を有する前記一群のピクセルはヒストグラムによって特定され、前記箱のセグメンテーション画像を生成することは前記箱の前記最上層のセグメンテーション画像を生成することを含む、請求項１４に記載の方法。
箱が前記一群の箱から取出されると、前記箱の前記積み重ねの下層が前記箱の前記最上層になる、請求項１６に記載の方法。
ロボットを使用して一群の箱から対象箱を取出すためのロボットシステムであって、前記システムは、
前記箱の二次元赤緑青カラー（ＲＧＢ）画像と二次元深度マップ画像を提供する三次元カメラと、
前記ＲＧＢ画像と前記深度マップ画像とから特徴を抽出し、これら画像内の前記抽出された特徴を結合し、セグメンテーション画像の各箱が同一のラベルを有するように前記セグメンテーション画像内のピクセルにラベルを割当てる、画像セグメンテーション処理を実行することによって、前記箱のセグメンテーション画像を生成する深層学習畳み込みニューラルネットワークと、
前記セグメンテーション画像を使用して前記箱を取出す位置を特定するための手段であって、カラー画像を取得することと、深度マップ画像を取得することと、セグメンテーション画像を生成することと、前記箱を取出す位置を特定することとが、前記ロボットによって前記一群の箱から箱を取出す度に実行される、手段と、
を備える、システム。
前記画像セグメンテーション処理は、複数のバウンディングボックスを提供し、前記バウンディングボックスを前記抽出された特徴に位置合わせし、前記対象箱を取囲むバウンディングボックスを含むバウンディングボックス画像を提供し、対象箱が各バウンディングボックスに存在する可能性を決定し、前記バウンディングボックス画像内の各バウンディングボックスから、対象箱に関連付けられていないピクセルを除去する、請求項１８に記載のシステム。
類似の深度値を有する前記深度マップ画像内のピクセルを計数することと、前記カメラに最も近いことを示す深度値を有する一群のピクセルによって最上層を特定することとによって前記箱の前記セグメンテーション画像を生成する前に前記一群の箱の中の他の箱の上に積み重ねられた前記箱の最上層を前記カラー画像から分離するための手段をさらに備え、
類似の深度値を有する前記一群のピクセルはヒストグラムによって特定され、前記箱のセグメンテーション画像を生成することは前記箱の前記最上層のセグメンテーション画像を生成することを含む、請求項１８に記載のシステム。