JP2022524973A

JP2022524973A - ボックスの検出

Info

Publication number: JP2022524973A
Application number: JP2021551959A
Authority: JP
Inventors: ダグラスパーキンス，アレクサンダー; デュハッドウェイ，チャールズ; アンダーソン－シュプレッヒャー，ペーター
Original assignee: ボストンダイナミクス，インコーポレイテッド
Priority date: 2019-03-19
Filing date: 2020-03-13
Publication date: 2022-05-11
Anticipated expiration: 2040-03-13
Also published as: KR20210148191A; EP3942458A1; US20240037936A1; US11836974B2; US11562552B2; US11023763B2; US20230096840A1; US20200302207A1; KR102625214B1; CN113811882A; JP7304961B2; WO2020190678A1; US20210256287A1

Abstract

【課題】作業環境内のボックスを正確かつ効率的に検出し得ることである。【解決手段】ボックス（２０）を検出するための方法（４００）は、少なくとも１つのターゲットボックス（２０２）を含む関心領域について複数の画像フレームペア（Ｆａｂ１－ｎ）を受信することを含む。各画像フレームペア（Ｆａｂ）は、単眼画像フレーム（１７６ａ、Ｆａ）およびそれぞれの深度画像フレーム（１７６ｂ、Ｆｂ）を含む。各画像フレームペアについて、本方法は、それぞれの単眼画像フレーム内の少なくとも１つのターゲットボックスと関連付けられた長方形のコーナー（２１４）を決定することを含む。決定されたコーナーに基づいて、本方法は、エッジ検出を実行し、それぞれの単眼画像フレーム内の面（２２４）を決定し、それぞれの深度画像フレームから少なくとも１つのターゲットボックスに対応する平面（２２６）を抽出することを含む。本方法は、決定された面を抽出された平面に一致させることと、決定されたコーナー、実行されたエッジ検出、および一致した面に基づいてボックス推定（２２２）を生成することと、を含む。【選択図】図１Ａ

Description

本開示は、ボックスの検出に関する。

ロボットは、一般に、タスクを実行するために、可変のプログラムされた動作を介して材料、部品、ツール、または特殊なデバイスを移動するように設計された再プログラム可能な多機能マニピュレータとして定義される。ロボットは、物理的に固定されたマニピュレータ（例えば、産業用ロボットアーム）、（例えば、脚、車輪、もしくは牽引ベースのメカニズムを使用して）環境全体を移動する移動ロボット、またはマニピュレータと移動ロボットとの何らかの組み合わせであり得る。ロボットは、例えば、製造、輸送、危険な環境、探査、およびヘルスケアを含む、様々な産業で利用される。そのため、ロボットの周りの環境内の形状や物体を認識する能力は、ロボットの機能を強化し、これらの産業にさらなる利益を提供する可能性がある。

本開示の一態様は、ボックスを検出するための方法を提供する。本方法は、データ処理ハードウェアで、ある期間にわたって関心領域について複数の画像フレームペアを受信することを含み、関心領域は、少なくとも１つのターゲットボックスを含み、複数の画像フレームペアの各画像フレームペアは、その期間中にそれぞれのタイムスタンプと関連付けられ、単眼画像フレームおよびそれぞれの深度画像フレームを含む。各画像フレームペアについて、本方法はまた、データ処理ハードウェアによって、それぞれの単眼画像フレーム内の少なくとも１つのターゲットボックスに対応する長方形のコーナーを決定することを含む。それぞれの単眼画像フレーム内の長方形の決定されたコーナーに基づいて、本方法は、データ処理ハードウェアによって、それぞれの単眼画像フレーム内の少なくとも１つのターゲットボックス上でエッジ検出を実行することと、データ処理ハードウェアによって、それぞれの単眼画像フレーム内の少なくとも１つのターゲットボックスの面を決定することと、データ処理ハードウェアによって、それぞれの深度画像フレームから平面を抽出することであって、それぞれの深度画像フレームから抽出された平面が少なくとも１つのターゲットボックスに対応する、平面を抽出することと、を追加的に含む。本方法は、データ処理ハードウェアによって、それぞれの単眼画像フレーム内の少なくとも１つのターゲットボックスの決定された面を、それぞれの深度画像フレームから抽出された平面に一致させることをさらに含む。本方法はまた、データ処理ハードウェアによって、決定されたコーナー、実行されたエッジ検出、および少なくとも１つのターゲットボックスの一致した面に基づいて、ボックス推定を生成することを含む。

本開示の実装例は、以下の任意選択の特徴のうちの１つ以上を含み得る。いくつかの実施例では、本方法は、データ処理ハードウェアによって、各画像フレームペアに対して生成されたボックス推定を集約して、少なくとも１つのターゲットボックスについて期間にわたって調整されたボックス推定を決定することを含む。各画像フレームペアに対して生成されたボックス推定を集約することは、第１の画像フレームペアに対して生成された少なくとも１つのターゲットボックスの第１のボックス推定を、第２の画像フレームペアに対して生成された少なくとも１つのターゲットボックスの第２のボックス推定と比較すること、および、第１のボックス推定と第２のボックス推定との間の比較に基づいて、期間にわたってボックス推定を調整すること、を含み得る。

いくつかの実装例では、本方法は、各フレームペアについて、データ処理ハードウェアによって、それぞれの単眼画像フレームおよび深度画像フレームをトリミングして、少なくとも１つのターゲットボックスに対応する関心領域を分離することをさらに含む。いくつかの実施例では、本方法はまた、各フレームペアについて、データ処理ハードウェアによって、それぞれの単眼画像フレームと関連付けられた角度歪みを補正することを含む。いくつかの構成では、本方法は、データ処理ハードウェアによって、ロボットのビジョンシステム内のホモグラフィック投影としてボックス推定を表示することを含む。いくつかの実施例では、本方法は、データ処理ハードウェアによって、ロボットのビジョンシステム内の投影としてボックス推定を表示することを含み得る。ここで、射影は、ボックス推定の信頼区間を示す色で少なくとも１つのターゲットボックスを表す。

いくつかの実装例では、それぞれの単眼画像フレーム内の長方形のコーナーを決定することは、機械学習モデルを使用して、それぞれの単眼画像フレーム内の長方形のコーナーを決定することを含む。機械学習モデルは、訓練された深層学習ニューラルネットワークであり得る。それぞれの単眼画像フレーム内の長方形の決定されたコーナーは、勾配上昇オプティマイザへの初期シードであり得、ここで、勾配上昇オプティマイザは、面を一致させ、エッジ検出を実行するように構成される。任意選択で、各それぞれの深度画像フレームは、ステレオカメラ、走査光検出と測距（ＬＩＤＡＲ）センサー、飛行時間センサー、または走査レーザー検出と測距（ＬＡＤＡＲ）センサーのうちの１つ以上を含む深度センサーから得ることができる。単眼画像フレームおよび深度画像フレームは、ロボットの関節式アームに取り付けられた１つ以上のセンサーからキャプチャすることができる。いくつかの実施例では、データ処理ハードウェアは、関心領域内の移動ロボット上にある。

本開示の別の態様は、ボックスを検出するためのロボットを提供する。ロボットは、データ処理ハードウェアと通信するセンサーシステム、データ処理ハードウェア、およびメモリハードウェアを含む。メモリハードウェアは、データ処理ハードウェア上で実行されると、データ処理ハードウェアに動作を実行させる命令を格納する。動作は、センサーシステムから、ある期間にわたって関心領域について複数の画像フレームペアを受信することを含み、ここで、関心領域は、少なくとも１つのターゲットボックスを含み、複数の画像フレームペアの各画像フレームペアは、その期間中にそれぞれのタイムスタンプと関連付けられ、単眼画像フレームおよびそれぞれの深度画像フレームを含む。各画像フレームペアについて、動作はまた、それぞれの単眼画像フレーム内の少なくとも１つのターゲットボックスに対応する長方形のコーナーを決定することを含む。それぞれの単眼画像フレーム内の長方形の決定されたコーナーに基づいて、動作は、それぞれの単眼画像フレーム内の少なくとも１つのターゲットボックス上でエッジ検出を実行することと、それぞれの単眼画像フレーム内の少なくとも１つのターゲットボックスの面を決定することと、それぞれの深度画像フレームから平面を抽出することであって、それぞれの深度画像フレームから抽出された平面が少なくとも１つのターゲットボックスに対応する、平面を抽出することと、を追加的に含む。動作は、それぞれの単眼画像フレーム内の少なくとも１つのターゲットボックスの決定された面を、それぞれの深度画像フレームから抽出された平面に一致させることをさらに含む。動作はまた、決定されたコーナー、実行されたエッジ検出、および少なくとも１つのターゲットボックスの一致した面に基づいてボックス推定を生成することを含む。

本開示の実装例は、以下の任意選択の特徴のうちの１つ以上を含み得る。いくつかの実施例では、動作は、各画像フレームペアに対して生成されたボックス推定を集約して、少なくとも１つのターゲットボックスについて期間にわたって調整されたボックス推定を決定することを含む。各画像フレームペアに対して生成されたボックス推定を集約することは、第１の画像フレームペアに対して生成された少なくとも１つのターゲットボックスの第１のボックス推定を、第２の画像フレームペアに対して生成された少なくとも１つのターゲットボックスの第２のボックス推定と比較すること、および、第１のボックス推定と第２のボックス推定との間の比較に基づいて、期間にわたってボックス推定を調整すること、を含み得る。

いくつかの実装例では、動作は、各フレームペアについて、それぞれの単眼画像フレームおよび深度画像フレームをトリミングして、少なくとも１つのターゲットボックスに対応する関心領域を分離することをさらに含む。いくつかの実施例では、動作はまた、各フレームペアについて、それぞれの単眼画像フレームと関連付けられた角度歪みを補正することを含む。いくつかの構成では、動作は、ロボットのビジョンシステム内のホモグラフィック投影としてボックス推定を表示することを含む。いくつかの実施例では、動作は、ロボットのビジョンシステム内の投影としてボックス推定を表示することを含み得る。ここで、射影は、ボックス推定の信頼区間を示す色で少なくとも１つのターゲットボックスを表す。

いくつかの実装例では、それぞれの単眼画像フレーム内の長方形のコーナーを決定することは、機械学習モデルを使用して、それぞれの単眼画像フレーム内の長方形のコーナーを決定することを含む。機械学習モデルは、訓練された深層学習ニューラルネットワークであり得る。それぞれの単眼画像フレーム内の長方形の決定されたコーナーは、勾配上昇オプティマイザへの初期シードであり得、ここで、勾配上昇オプティマイザは、面を一致させ、エッジ検出を実行するように構成される。任意選択で、各それぞれの深度画像フレームは、センサーシステムの深度センサーから得ることができ、ここで、深度センサーは、ステレオカメラ、走査光検出と測距（ＬＩＤＡＲ）センサー、飛行時間センサー、または走査レーザー検出と測距（ＬＡＤＡＲ）センサーのうちの１つ以上を含む。ロボットはまた、センサーシステムの少なくとも一部分が関節式アームに取り付けられているロボットの関節式アームを含み得る。

本開示の１つ以上の実装例の詳細は、添付図面および以下の説明において記述される。他の態様、特徴および利点は、本明細書および図面から、ならびに特許請求の範囲から明らかになるであろう。

作業環境内の例示的なロボットの斜視図である。図１Ａのロボットのシステムの例示的な配置の概略図である。図１Ａのロボット用の例示的な画像処理システムの概略図である。図２Ａの画像処理のための例示的な画像の斜視図である。図２Ａの画像処理のための例示的な画像の斜視図である。図２Ａの画像処理のための例示的な画像の斜視図である。図２Ａの画像処理のための例示的な画像の斜視図である。図２Ａの画像処理のための例示的な画像の斜視図である。図２Ａの画像処理システムを使用した図１Ａのロボットのための例示的なビジョンシステムの斜視図である。ロボットが作業環境内のボックスを検出するための動作の例示的な配置である。本明細書に記載のシステムおよび方法を実装するために使用され得る例示的なコンピューティングデバイスの概略図である。

様々な図面中の同様の参照符号は、同様の要素を示す。

ロジスティクスは、あらゆる形状およびサイズの商品を梱包および／または出荷するように進化した。この進化に伴い、ボックスなどの、ますます多くのパッケージ商品が、様々なロジスティックチャネルを動き回る。特に、ここ数十年で、とりわけオンラインショッピングの増加により、パッケージ商品に対する消費者の需要が大幅に増加した。今日、大手運送会社は、毎日数百万のパッケージを出荷すると見積もっている。出荷ロジスティクスの一環として、多くの場合、カウント、仕分け、輸送、パレット積載等、などのボックスに関連する特定のタスクを実行する必要がある。これらのタスクは、様々なビジネス、倉庫、フルフィルメントセンター等のための入庫および／または出庫施設の両方で必要になり得る。現在、パッケージ商品のボックスに関連するタスクは、数え切れない量の人的労力および時間を費やしている。さらに、速度と精度が重要になり得る一方で、これらのタスクは、単調で、退屈で、時間がかかり、および／または骨の折れることがよくある。

人間固有の疲労の性質および人間の精度への悪影響のため、これらのタスクは概してロボットにより適している。ロボットは、疲労に悩まされることなく、繰り返し可能および／または信頼性の高い様態でボックス関連のタスクを実行し得る。有利なことに、出荷ロジスティクスのいくつかの側面は、すでに機械および／または機械処理に関わっている。例えば、出荷環境は、通常、コンピュータ、スキャナー、はかり、コンベヤ、フォークリフトなどの機器を含んでいる。ロボットを使用してボックスに対するタスクを実行することにより、ロボットは、この機器の役割を統合するように機能し得る。場合によっては、ロボットは、この機器および／または関連するロジスティックシステムとより簡単に統合することができることがある。これらのおよびその他の利点に基づいて、作業環境内のボックスを正確かつ効率的に検出し得るロボットは、進化するロジスティクス分野に大きな利益をもたらす可能性がある。

図１Ａは、少なくとも１つのボックス２０を含む作業環境１０内で動作するロボット１００の例である。ここで、作業環境１０は、地面１２上にあるパレット３０上に積み重ねられた複数のボックス２０、２０ａ～ｎを含む。一般に、ボックス２０は、保護、輸送の容易さ、積み重ね可能性等のために商品を包装するために使用される。ボックス２０は、通常、長方形プリズムまたは直方体に似た構造を有する。ボックス２０は、面２６の２つのエッジ２４が交差するコーナー２２を含む。長方形プリズムとして、ボックス２０は、６つの面２６を含み、各面２６は、４つのエッジ２４の境界によって形成される長方形である。各面２６は、２つの平面の交差がエッジ２４を形成する空間平面に対応する。コーナー２２は、２つのエッジ２４が一般に９０度の角度（すなわち、直角）で交差する点または頂点を指す。ボックス２０は、８つのコーナー２２（すなわち、頂点）および１２個のエッジ２４を有する。ロジスティクスでは、ボックス２０は、ボックス２０内に含まれる商品のための在庫商品識別番号（ＳＫＵ）（例えば、バーコードの形態で）を含むことが多い。パレット化される（すなわち、パレット３０上に積み重ねられる）とき、ＳＫＵまたはバーコードは、露出されているボックス２０の面２６上に配置されるのが一般的である。

作業環境１０は、例えば、保管施設、流通センター、またはフルフィルメントセンターを含み得る。ロボット１００は、作業環境１０内のボックス２０を検出および／または操作するために、地面１２を横切って移動（例えば、駆動）し得る。例えば、パレット３０は、ロボット１００がロードまたはアンロードする配送トラックに対応し得る。ロボット１００は、ロボット１００が、ボックス２０をパレット化するか、またはロジスティクスのフルフィルメントまたは在庫管理のためにボックス２０を検出する、ロジスティクスの出荷および／または受け取り段階と関連付けられ得る。例えば、ロボット１００は、ボックス２０を検出し、この検出に基づいて、入ってくるまたは出て行く在庫についてボックス２０をスキャンまたは処理する。いくつかの実装例では、ロボット１００は、作業環境１０について１つ以上のボックス２０を操作し得る。

ロボット１００は、重力方向に沿った垂直重力軸Ｖ_ｇと、ロボット１００が質量のゼロサム分布を有する点である質量中心ＣＭを有する。ロボット１００は、垂直重力軸Ｖ_ｇに対するＣＭに基づいたポーズＰをさらに有して、ロボット１００によって採られる特定のポーズまたはスタンスを定義する。ロボット１００の姿勢は、空間における物体の向きまたは角度位置によって定義され得る。

ロボット１００は、一般に、ボディー１１０および１つ以上の脚１２０を含む。ロボット１００のボディー１１０は、作業環境１０で実行されるタスクに応じて、単一構造またはより複雑な設計であり得る。ボディー１１０は、ロボット１００のバランスを取り、作業環境１０について感知し、ロボット１００に電力を供給し、作業環境１０内のタスクを支援し、またはロボット１００の他の構成要素を支持することを可能にし得る。いくつかの実施例では、ロボット１００は、２つの部分からなるボディー１１０を含む。例えば、ロボット１００は、倒立振子ボディー（ＩＰＢ）１１０、１１０ａ（すなわち、ロボット１００の胴体１１０ａと呼ばれる）およびＩＰＢ１１０ａ上に配設されたカウンタバランスボディー（ＣＢＢ）１１０、１１０ｂ（すなわち、ロボット１００のテール１１０ｂと呼ばれる）を含む。

ボディー１１０（例えば、ＩＰＢ１１０ａまたはＣＢＢ１１０ｂ）は、第１の端部１１２および第２の端部１１４を有する。例えば、ＩＰＢ１１０ａは、第１の端部１１２ａおよび第２の端部１１４ａを有し、一方、ＣＢＢ１１０ｂは、第１の端部１１２ｂおよび第２の端部１１４ｂを有する。いくつかの実装例では、ＣＢＢ１１０ｂは、ＩＰＢ１１０ａの第２の端部１１４ａ上に配設され、ＩＰＢ１１０ａに対して移動するように構成される。いくつかの実施例では、カウンタバランスボディー１１０ｂは、ロボット１００に電力を供給するのに役立つ電池を含む。後部関節Ｊ_Ｂは、ＣＢＢ１１０ｂをＩＰＢ１１０ａの第２の端部１１４ａに回転可能に結合して、ＣＢＢ１１０ｂがＩＰＢ１１０ａに対して回転することを可能にすることができる。後部関節Ｊ_Ｂは、ピッチ関節と呼ばれることがある。示される例では、後部関節Ｊ_Ｂは、ＣＢＢ１１０ｂを支持して、ＣＢＢ１１０ｂが、重力垂直軸Ｖ_ｇおよびロボット１００の前後軸（ｘ軸）に垂直に延びる横軸（ｙ軸）の周りを移動／ピッチすることを可能にする。前後軸（ｘ軸）は、ロボット１００による現在の進行方向を示し得る。ＩＰＢ１１０ａに対するＣＢＢ１１０ｂによる移動は、垂直重力軸Ｖ_ｇに対してロボット１００のＣＭを移動させることによって、ロボット１００のポーズＰを変える。回転アクチュエータまたは後部関節アクチュエータＡ、Ａ_Ｂ（例えば、テールアクチュエータまたはカウンタバランスボディーアクチュエータ）は、横軸（ｙ軸）の周りのＣＢＢ１１０ｂ（例えば、テール）による動きを制御するために、後部関節Ｊ_Ｂまたはその近くに位置決めされ得る。回転アクチュエータＡ_Ｂは、電気モーター、電気油圧サーボ、圧電アクチュエータ、ソレノイドアクチュエータ、空気圧アクチュエータ、またはＩＰＢ１１０ａに対するＣＢＢ１１０ｂの動きを正確にもたらすのに好適な他のアクチュエータ技術を含み得る。

ＩＰＢ１１０ａに対するＣＢＢ１１０ｂによる回転運動は、ロボット１００を直立位置にバランスをとって維持するために、ロボット１００のポーズＰを変える。例えば、従来の倒立振子フライホイールにおけるフライホイールによる回転と同様に、重力垂直軸Ｖ_ｇに対するＣＢＢ１１０ｂによる回転は、後部関節Ｊ_ＢでモーメントＭ_ＣＢＢを生成し／分け与えてロボット１００のポーズＰを変える。ＣＢＢ１１０ｂをＩＰＢ１１０ａに対して移動させてロボット１００のポーズＰを変えることにより、ロボット１００のＣＭは、重力垂直軸Ｖｇに対して移動して、ロボット１００が移動している、および／または荷物を運んでいるシナリオにおいて、ロボット１００を直立位置にバランスをとって維持する。しかしながら、モーメント点を中心とした質量を有する従来の倒立振子フライホイールにおけるフライホイール部分とは対照的に、ＣＢＢ１１０ｂは、いくつかの構成で、後部関節Ｊ_Ｂに与えられたモーメントからオフセットされた対応する質量を含み、後部関節Ｊ_Ｂに配設されたジャイロスコープをＣＢＢ１１０ｂの代わりに後部関節を使用して、ロボット１００を直立位置にバランスをとって維持するためのモーメント（回転力）をスピンさせて与えることができる。

ＣＢＢ１１０ｂは、時計回りおよび反時計回りの両方向（例えば、「ピッチ方向」のｙ軸の周り）に後部関節Ｊ_Ｂの周りを回転（例えば、ピッチ）して、振動（例えば、揺れ）運動を作り出すことができる。位置間のＩＰＢ１１０ａに対するＣＢＢ１１０ｂによる動きは、ロボット１００のＣＭをシフトさせる（例えば、地面１２に向かってより低く、または地面１２からより高く離れて）。ＣＢＢ１１０ｂは、動きの間で振動して、揺れる動きを作り出すことができる。ＩＰＢ１１０ａに対して動くときのＣＢＢ１１０ｂの回転速度は、ロボット１００を動的にバランスさせるためにロボット１００のポーズＰをどれだけ速く変える必要があるかに応じて、一定または変化（加速または減速）し得る。

脚１２０は、作業環境１０の周りでロボット１００を動かすように構成された移動ベースの構造（例えば、脚および／または車輪）である。ロボット１００は、任意の数の脚１２０を有し得る（例えば、４本の脚を備えた四足歩行、２本の脚を備えた二足歩行、６本の脚を備えた六脚、８本の脚を備えたクモのようなロボット等）。ここでは、簡単にするために、ロボット１００は、一般に、２つの脚１２０、１２０ａ～ｂで示され、説明されている。

二足歩行ロボット１００として、ロボットは、第１の脚１２０、１２０ａおよび第２の脚１２０、１２０ｂを含む。いくつかの実施例では、各脚１２０は、第１の端部１２２および第２の端部１２４を含む。第２の端部１２４は、ロボット１００が作業環境１０を横断し得るように、表面（例えば、地面）に接触するロボット１００の部材に接触するか、または近接する脚１２０の端部に対応する。例えば、第２の端部１２４は、歩行パターンに従って移動するロボット１００の足に対応する。いくつかの実装例では、ロボット１００は、転がり運動に従って移動し、そのためロボット１００は駆動輪１３０を含む。駆動輪１３０は、ロボット１００の足のような部材に追加するか、またはその代わりであり得る。例えば、ロボット１００は、歩行運動および／または転がり運動に従って移動することができる。ここで、図１Ａに示されるロボット１００は、ボディー１１０に（例えば、ＩＰＢ１１０ａで）結合された第１の端部１２２を図示し、一方、第２の端部１２４は、駆動輪１３０に結合されている。駆動輪１３０を脚１２０の第２の端部１２４に結合することにより、駆動輪１３０は、結合の軸の周りを回転して、ロボット１００を作業環境１０の周りで動かすことができる。

ボディー１１０の各側の股関節Ｊ_Ｈ（例えば、ロボット１００の矢状面Ｐ_Ｓに関して対称な第１の股関節Ｊ_Ｈ、Ｊ_Ｈａおよび第２の股関節Ｊ_Ｈ、Ｊ_Ｈｂ）は、脚１２０の第１の端部１２２をボディー１１０の第２の端部１１４に回転可能に結合して、脚１２０の少なくとも一部分がボディー１１０に対して横軸（ｙ軸）の周りを移動／ピッチすることを可能にし得る。例えば、脚１２０の（例えば、第１の脚１２０ａまたは第２の脚１２０ｂの）第１の端部１２２は、股関節Ｊ_ＨでＩＰＢ１１０ａの第２の端部１１４ａに結合して、脚１２０の少なくとも一部分が、ＩＰＢ１１０ａに対して横軸（ｙ軸）の周りを移動／ピッチすることを可能にする。

脚アクチュエータＡ、Ａ_Ｌは、各股関節Ｊ_Ｈと関連付けられ得る（例えば、第１の脚アクチュエータＡ_Ｌ、Ａ_Ｌａおよび第２の脚アクチュエータＡ_Ｌ、Ａ_Ｌｂ）。股関節Ｊ_Ｈと関連付けられた脚アクチュエータＡ_Ｌは、脚１２０の上部１２６（例えば、第１の脚１２０ａまたは第２の脚１２０ｂ）を、ボディー１１０（例えば、ＩＰＢ１１０ａ）に対して横軸（ｙ軸）の周りで移動／ピッチングさせ得る。いくつかの構成では、各脚１２０は、対応する上部１２６および対応する下部１２８を含む。上部１２６は、第１の端部１２２の股関節Ｊ_Ｈから対応する膝関節Ｊ_Ｋまで延在することができ、下部１２８は、膝関節Ｊ_Ｋから第２の端部１２４まで延在することができる。膝関節Ｊ_Ｋと関連付けられた膝アクチュエータＡ、Ａ_Ｋは、脚１２０の下部１２８を、脚１２０の上部１２６に対して横軸（ｙ軸）の周りで移動／ピッチさせ得る。

各脚１２０は、駆動輪１３０を脚１２０の第２の端部１２４に回転可能に結合するように構成された対応する足首関節Ｊ_Ａを含み得る。例えば、第１の脚１２０ａは、第１の足首関節Ｊ_Ａ、Ｊ_Ａａを含み、第２の脚１２０ｂは、第２の足首関節Ｊ_Ａ、Ｊ_Ａｂを含む。ここで、足首関節Ｊ_Ａは、駆動輪１３０と共通の回転のために結合され、横軸（ｙ軸）に実質的に平行に延在する輪軸と関連付けられ得る。駆動輪１３０は、足首関節Ｊ_Ａの周りで駆動輪１３０を回転させるための対応する車軸トルクを適用して、駆動輪１３０を、前後軸（ｘ軸）に沿って地面１２（交換可能に作業面１２と呼ばれる場合がある）を横切って移動させるように構成された、対応するトルクアクチュエータ（駆動モーター）Ａ、Ａ_Ｔを含み得る。例えば、車軸トルクは、ロボット１００を前後軸（ｘ軸）に沿って前進方向に移動させるために駆動輪１３０を第１の方向に回転させ得、および／またはロボット１００を前後軸（ｘ軸）に沿って後方に移動させるために駆動輪１３０を反対の第２の方向に回転させ得る。

いくつかの実施形態では、脚１２０は、各脚１２０の長さが、股関節Ｊ_Ｈの近位の対応するアクチュエータ（例えば、脚アクチュエータＡ_Ｌ）、股関節Ｊ_Ｈおよび膝関節Ｊ_Ｋの近位に配設された一対のプーリ（図示せず）、およびプーリの回転を同期させるタイミングベルト（図示せず）を介して拡張および収縮し得るように、ボディー１１０（例えば、ＩＰＢ１１０ａ）にプリズム状に結合されている。各脚アクチュエータＡ_Ｌは、線形アクチュエータまたは回転アクチュエータを含み得る。ここで、コントローラー１４２（例えば、図１Ｂに示される）を備えた制御システム１４０は、各脚１２０と関連付けられたアクチュエータを作動させて、ボディー１１０（例えば、ＩＰＢ１１０ａ）に対して対応する上部１２６を時計回り方向または反時計回り方向の一方に回転させて、対応する下部１２８を、時計回り方向または反時計回り方向の他方に上部１２６に対して対応する膝関節Ｊ_Ｋの周りで回転させることによって脚１２０の長さをプリズム状に伸張／拡張し得る。任意選択で、２リンク脚の代わりに、少なくとも１つの脚１２０は、脚１２０の第２の端部１２４が線形レールに沿ってボディー１１０（例えば、ＩＰＢ１１０ａ）にプリズム状に離れて／向かって移動するように、プリズム状に直線的に伸長／収縮する単一のリンクを含み得る。他の構成では、膝関節Ｊ_Ｋは、同期プーリの対の代わりに、上部１２６に対して下部１２８を回転させるための膝アクチュエータＡ_Ｋとして対応する回転アクチュエータを使用し得る。

駆動輪１３０（例えば、第１の脚１２０ａと関連付けられる第１の駆動輪１３０、１３０ａおよび第２の脚１２０ｂと関連付けられる第２の駆動輪１３０、１３０ｂ）の各々に加えられる対応する車軸トルクは、地面１２を横切ってロボット１００を操縦するために変化し得る。例えば、第２の駆動輪１３０ｂに加えられる車軸トルクよりも大きい第１の駆動輪１３０ａに加えられる車軸トルクは、ロボット１００を左に回転させ得、一方、第１の駆動輪１３０よりも第２の駆動輪１３０ｂにより大きな車軸トルクを加えることは、ロボット１００を右に回転させ得る。同様に、駆動輪１３０の各々に実質的に同じ大きさの車軸トルクを加えることは、ロボット１００を、地面１２を横切って順方向または逆方向のいずれかに実質的に真っ直ぐに移動させ得る。駆動輪１３０の各々に加えられる車軸トルクの大きさはまた、前後軸（ｘ軸）に沿ったロボット１００の速度を制御する。任意選択で、駆動輪１３０は、反対方向に回転して、ロボット１００が地面１２上で旋回することによって向きを変えることを可能にし得る。こうして、各車軸トルクは、他の駆動輪１３０に加えられる車軸トルク（もしあれば）とは独立して、対応する駆動輪１３０に加えられ得る。

いくつかの実施例では、ボディー１１０（例えば、ＣＢＢ１１０ｂで）はまた、少なくとも１つの非駆動輪（図示せず）を含む。非駆動輪は、一般に受動的（例えば、受動キャスタ車輪）であり、ボディー１１０（例えば、ＣＢＢ１１０ｂ）が地面によって支持されるポーズＰにボディー１１０が移動しない限り、地面１２に接触しない。

いくつかの実装例では、ロボット１００は、ボディー１１０（例えば、ＩＰＢ１１０ａ）上に配設され、ボディー１１０に対して動くように構成された関節式アーム１５０（アームまたはマニピュレータアームとも呼ばれる）などの、１つ以上の付属物をさらに含む。関節式アーム１５０は、１以上の自由度を有し得る（例えば、比較的固定されたものから、作業環境１０において幅広いタスクを実行することができるものまでの範囲）。ここで、図１Ａに例示された関節式アーム１５０は、５自由度を有する。図１Ａは、ボディー１１０（例えば、ＩＰＢ１１０ａ）の第１の端部１１２上に配設された関節式アーム１５０を示しているが、関節式アーム１５０は、他の構成ではボディー１１０の任意の部分に配設されてもよい。例えば、関節式アーム１５０は、ＣＢＢ１１０ｂ上またはＩＰＢ１１０ａの第２の端部１１４ａ上に配設される。

関節式アーム１５０は、近位の第１の端部１５２と遠位の第２の端部１５４との間に延在する。アーム１５０は、第１の端部１５２と第２の端部１５４との間に１つ以上のアーム関節Ｊ_Ａを含み得、各アーム関節Ｊ_Ａは、アーム１５０が作業環境１０で関節運動することを可能にするように構成されている。これらのアーム関節Ｊ_Ａは、アーム１５０のアーム部材１５６をボディー１１０に結合するか、２つ以上のアーム部材１５６を一緒に結合し得る。例えば、第１の端部１５２は、第１の関節式アーム関節Ｊ_Ａ１（例えば、肩関節に似ている）でボディー１１０（例えば、ＩＰＢ１１０ａ）に接続する。いくつかの構成において、第１の関節式アーム関節Ｊ_Ａ１は、股関節Ｊ_Ｈの間に配設される（例えば、ボディー１１０の中心でロボット１００の矢状面Ｐ_Ｓに沿って整列される）。いくつかの実施例では、第１の関節式アーム関節Ｊ_Ａ１は、アーム１５０の近位第１の端部１５２をボディー１１０（例えば、ＩＰＢ１１０ａ）に回転可能に結合して、アーム１５０がボディー１１０（例えば、ＩＰＢ１１０ａ）に対して回転することを可能にする。例えば、アーム１５０は、ボディー１１０に対して横軸（ｙ軸）を中心に移動／ピッチすることができる。

図１などのいくつかの実装例では、アーム１５０は、第２のアーム関節Ｊ_Ａ２（例えば、肘関節に似ている）および第３のアーム関節Ｊ_Ａ３（例えば、手首関節に似ている）を含む。第２のアーム関節Ｊ_Ａ２は、第１のアーム部材１５６ａを第２のアーム部材１５６ｂに結合し、その結果、これらの部材１５６ａ～ｂは、互いに対して、かつまたボディー１１０（例えば、ＩＰＢ１１０）に対しても回転可能である。アーム１５０の長さに応じて、アーム１５０の第２の端部１５４は、アーム部材１５６の端部と一致する。例えば、アーム１５０は、任意の数のアーム部材１５６を有することができるが、図１Ａは、第２のアーム部材１５６ｂの端部がアーム１５０の第２の端部１５４と一致するように、２つのアーム部材１５６ａ～ｂを有するアーム１５０を示す。ここで、アーム１５０の第２の端部１５４において、アーム１５０は、作業環境１０内でタスクを実行するように構成されたエンドエフェクタ１６０を含む。エンドエフェクタ１６０は、アーム関節Ｊ_Ａ（例えば、第３のアーム関節Ｊ_Ａ３）でアーム１５０の第２の端部１５４上に配設され得、エンドエフェクタ１６０が動作中に複数の自由度を有することを可能にする。エンドエフェクタ１６０は、物体を把持／把握するための１つ以上のエンドエフェクタアクチュエータＡ、Ａ_ＥＥを含み得る。例えば、エンドエフェクタ１６０は、エンドエフェクタ１６０とターゲット物体、例えば、ターゲットボックス２０２との間に真空シールを提供することによって物体を把握または把持するためのエンドエフェクタアクチュエータＡ_ＥＥとして１つ以上の吸盤を含む。

関節式アーム１５０は、ボディー１１０（例えば、ＩＰＢ１１０ａ）に対して横軸（ｙ軸）の周りを移動／ピッチすることができる。例えば、関節式アーム１５０は、ボディー１１０に対して横軸（ｙ軸）を中心に重力方向に回転して、回転操作を実行している間にロボット１００のＣＭを下げることができる。ＣＢＢ１２０ｂはまた、ＩＰＢ１１０に対して横軸（ｙ軸）を中心に重力方向に同時に回転して、ロボット１００のＣＭを下げるのを助けることができる。ここで、関節式アーム１５０およびＣＢＢ１１０ｂは、ロボット１００のＣＭの前後軸（ｘ軸）に沿った前後方向へのシフトをキャンセルし得、一方、ロボット１００のＣＭが地面１２により近く下方にシフトすることを依然として果たす。

図１Ｂを参照して、ロボット１００は、ロボット１００の動作を監視および制御するように構成された制御システム１４０を含む。いくつかの実装例では、ロボット１００は、自律的および／または半自律的に動作するように構成される。しかしながら、ユーザはまた、ロボット１００にコマンド／指示を提供することによってロボットを動作させ得る。示される実施例では、制御システム１４０は、コントローラー１４２（例えば、データ処理ハードウェア）およびメモリハードウェア１４４を含む。コントローラー１４２は、それ自体のメモリハードウェアを含んでもよく、または制御システム１４０のメモリハードウェア１４４を利用してもよい。いくつかの実施例では、制御システム１４０（例えば、コントローラー１４２を備えた）は、ロボット１００が作業環境１０の周りを移動することを可能にするために、アクチュエータＡ（例えば、後部アクチュエータＡ_Ｂ、脚アクチュエータＡ_Ｌ、膝アクチュエータＡ_Ｋ、駆動ベルトアクチュエータ、回転アクチュエータ、エンドエフェクタアクチュエータＡ_ＥＥ等）と通信（例えば、コマンド動作）するように構成される。制御システム１４０は、示される構成要素に限定されず、本開示の範囲から逸脱することなく、追加の（例えば、電源）またはより少ない構成要素を含み得る。構成要素は、無線または有線接続によって通信することができ、ロボット１００の複数の場所に分散させることができる。いくつかの構成では、制御システム１４０は、リモートコンピューティングデバイスおよび／またはユーザとインターフェースする。例えば、制御システム１４０は、リモートコンピューティングデバイスおよび／またはユーザからの入力を受信し、リモートコンピューティングデバイスおよび／またはユーザにフィードバックを提供するために、ジョイスティック、ボタン、送信機／受信機、有線通信ポート、および／または無線通信ポートなど、ロボット１００と通信するための様々な構成要素を含み得る。

コントローラー１４２は、１つ以上の汎用プロセッサ、デジタル信号プロセッサ、および／または特定用途向け集積回路（ＡＳＩＣ）を含み得るデータ処理ハードウェアに対応する。いくつかの実装例では、コントローラー１４２は、ロボット１００の１つ以上のサブシステムで特定の動作を実行するように構成された専用の組み込みデバイスである。メモリハードウェア１４４は、コントローラー１４２と通信しており、揮発性および／または不揮発性ストレージコンポーネントなどの１つ以上の非一時的なコンピュータ可読ストレージ媒体を含み得る。例えば、メモリハードウェア１４４は、互いに通信している１つ以上の物理デバイスと関連付けられ得、光学的、磁気的、有機的、または他のタイプのメモリまたはストレージを含み得る。メモリハードウェア１４４は、とりわけ、命令（例えば、コンピュータ可読プログラム命令）を格納するように構成され、コントローラー１４２によって実行されると、コントローラー１４２に、限定はしないが、バランスを維持するためのロボット１００のポーズＰの変更、ロボット１００の操縦、物体の検出、物体の輸送、および／または作業環境１０内の他のタスクの実行などの多数の動作を実行させる。コントローラー１４２は、センサーシステム１７０との直接的または間接的な相互作用に基づいて動作を実行し得る。

センサーシステム１７０は、１つ以上のセンサー１７２、１７２ａ～ｎを含む。センサー１７２は、視覚／画像センサー、慣性センサー（例えば、慣性測定ユニット（ＩＭＵ））、および／または運動学的センサーを含み得る。画像／視覚センサー１７２のいくつかの例としては、単眼カメラまたはステレオカメラなどのカメラ、飛行時間（ＴＯＦ）深度センサー、走査光検出と測距（ＬＩＤＡＲ）センサー、または走査レーザー検出と測距（ＬＡＤＡＲ）センサーが挙げられる。より一般的には、センサー１７２は、力センサー、トルクセンサー、速度センサー、加速度センサー、位置センサー（線形および／または回転位置センサー）、運動センサー、場所センサー、負荷センサー、温度センサー、タッチセンサー、深度センサー、超音波距離センサー、赤外線センサー、および／または物体センサーのうちの１つ以上を含み得る。いくつかの実施例では、センサー１７２は、センサー１７２に対応する感知範囲または領域を定義する、対応する視野を有する。各センサー１７２は、センサー１７２が、例えば、１つ以上の軸（例えば、ｘ軸、ｙ軸、または地面１２に対するｚ軸）の周りの視野を変更し得るように、枢動可能および／または回転可能であり得る。いくつかの実装例では、ロボット１００のボディー１１０は、ロボット１００の周りのすべての方向でセンサーデータ１７４を収集するために、ボディーの周りに複数のセンサー１７２を有するセンサーシステム１７０を含む。追加的または代替的に、センサーシステム１７０のセンサー１７２は、ロボット１００のアーム１５０に取り付けられ得る（例えば、ボディー１１０に取り付けられた１つ以上のセンサー１７２と併せて）。ロボット１００は、ロボット１００の周りの作業環境１０のセンサーデータ１７２を生成するために、センサーシステム１７０の一部として任意の数のセンサー１７２を含み得る。例えば、ロボット１００が作業環境１０の周りを動いているとき、センサーシステム１７０は、慣性測定データ（例えば、ＩＭＵによって測定された）を含むロボット１００のポーズデータを収集する。いくつかの実施例では、ポーズデータは、ロボット１００に関する運動学的データおよび／または向きデータを含む。

センサー１７２を用いて視野を調査する場合、センサーシステム１７０は、視野に対応するセンサーデータ１７４（画像データ１７４とも呼ばれる）を生成する。画像／視覚センサー１７２の場合、センサー１７２は、センサーデータ１７４が時間間隔で視野に対応するフレームＦを含むように、特定の周波数でセンサーデータ１７４として画像１７６をキャプチャし得る。センサーシステム１７０が複数の視覚センサー１７２を含む構成では、センサーシステム１７０は、画像センサー１７２に対応する１つを超える視野が重なって、異なるタイプの画像データ１７４を一緒に画像処理に使用できるように、各センサー１７２の方向（例えば、視野）を制御するように構成され得る。いくつかの実施例では、センサーシステム１７０は、第１のセンサー１７２、１７２ａとして少なくとも１つの単眼カメラと、第２のセンサー１７２、１７２ｂとして少なくとも１つの深度センサー（例えば、ステレオカメラ、ＬＩＤＡＲ、ＴＯＦ等）とを含む。センサー１７２ａ～ｂは、それらの視野が重複しても良い。重複する視野を用いて、センサー１７２ａ－ｂは、作業環境１０の同じ視野（またはセンサーの取り付け位置に応じてほぼ同じ視野）に対して同じ時間のインスタンスでの、単眼画像１７６、１７６ａ（すなわち、二次元）および深度画像１７６、１７６ｂ（すなわち、三次元）をキャプチャする。これは、一致するフレームＦごとに（すなわち、同じ時間のインスタンスでの）異なるセンサーデータ１７４を有する同一またはほぼ同一のフレームＦをもたらす。各一致するフレームＦは、時間のインスタンスに対応するそれぞれのタイムスタンプと関連付けられ得る。例えば、第１のセンサー１７２ａなどの単眼カメラは、単眼画像１７６ａのフレームＦについてのセンサーデータ１７４をキャプチャ／生成し、第２のセンサー１７２ｂなどの深度センサーは、三次元体積点群に対応する深度画像１７６ｂのフレームＦについてのセンサーデータ１７４をキャプチャ／生成する。単眼画像１７６ａの各フレームＦは「単眼画像フレーム」と呼ばれ得、深度画像１７６ｂの各フレームＦは「深度画像フレーム」と呼ばれ得る。

ロボット環境１０に関する、画像データ、ポーズデータ、慣性データ、運動学的データ、等などの、センサーシステム１７０によって収集されたセンサーデータ１７４は、ロボット１００の制御システム１４０（例えば、コントローラー１４２および／またはメモリハードウェア１４４）に通信され得る。いくつかの実施例では、センサーシステム１７０は、センサーデータ１７４を収集および格納する（例えば、メモリハードウェア１４４またはロボット１００と通信するリモートリソースに関連するメモリハードウェア内に）。他の実施例では、センサーシステム１７０は、センサーデータ１７４をリアルタイムで収集し、センサーデータ１７４を生で（すなわち、未処理で）格納せずに、センサーデータ１７４を処理する。さらに他の実施例では、コントローラーシステム１４０および／またはリモートリソースは、処理されたセンサーデータ１７４および生のセンサーデータ１７４の両方を格納する。センサー１７２からのセンサーデータ１７４は、ロボット１００のシステムがロボット１００に関する状態を検出および／または分析することを可能にし得る。例えば、センサーデータ１７４は、制御システム１４０がロボット１００を操縦し、ロボット１００のポーズＰを変更し、および／またはロボット１００の機械的構成要素を移動／回転させるための様々なアクチュエータＡを作動させることを可能にし得る。

図２Ａに示されるように、ロボット１００は、センサーシステム１７０のセンサー１７２によってキャプチャされた画像１７６に対応するセンサーデータ１７４を処理するように構成された画像処理システム２００を含む。センサーデータ１７４に基づいて、画像処理システム２００は、ロボット１００に関する作業環境１０内の１つ以上のボックス２０に対応する形状を検出するように構成される。１つ以上のボックス２０を検出することにより、ロボット１００は、ボックス２０を操作するか、または各ターゲットボックス２０の他の処理を容易にすることができる。いくつかの実施例では、ロボット１００は、１つ以上のボックス２０を検出し、ボックス２０の場所を別のエンティティ（例えば、作業者、別のロボット、ボックス２０の所有者等）に通信する。例えば、ロボット１００がボックス２０（例えば、ボックス２０のパレット３０）を検出すると、ロボット１００は、ボックス２０の場所をフォークリフトオペレータに伝達することができる。いくつかの構成では、画像処理システム２００を用いて、ロボット１００は、ロボット１００がボックス２０に関連するタスクについて支援を必要とし得る時を認識し得る。言い換えれば、ロボット１００は、ロボット１００の強度またはロボット１００が操作することができるボックス２０のサイズなどの制約を認識し得る。

画像処理システム２００は、関心領域の画像１７６の複数のフレームＦに対応するセンサーデータ１７４を受信する。センサーシステム１７０が画像１７６のフレームＦをキャプチャするとき、センサーシステム１７０は、１つ以上のターゲットボックス２０２を含む関心領域に対応する１つ以上のセンサー１７２の視野を整列させる。より具体的には、画像処理システム２００は、ある期間にわたって関心領域について複数の画像フレームペア１７６ａ、１７６ｂ、Ｆ_ａｂに対応するセンサーデータ１７４を受信し、それにより、各画像フレームペアＦ_ａｂは、その期間中、それぞれのタイムスタンプ（画像フレームＦとして示される）と関連付けられ、関心領域についてそれぞれの単眼画像フレーム１７６ａ、Ｆ_ａおよびそれぞれの深度画像フレーム１７６ｂ、Ｆ_ｂを含む。簡単にするために、図２Ａ～図２Ｆは、それぞれのタイムスタンプと関連付けられた単一の画像フレームペアＦ_ａｂ１を示している。フレームＦを処理するために、画像処理システム２００は、一般に、モデラー２１０および推定器２２０を含む。図２Ｂ～図２Ｆは、画像処理システム２００の構成要素（例えば、検出器２１０、モデラー２１０、および推定器２２０）によって実行される画像処理機能の例を図示する。

いくつかの実施例では、ロボット１００は、センサーシステム１７０からのセンサーデータ１７４により作業環境１０がボックス２０を含み得ることを画像処理システム２００に示す（すなわち、ターゲットボックス２０２の可能性を示す）。例えば、センサーデータ１７４は、一般に、ロボット１００の周りの領域内の物体を示す（すなわち、感知する）（例えば、物体がボックス２０に対応し得ることを知らなくても）。いくつかの実装例では、ロボット１００は、関心領域がボックス２０を有する可能性があるという入力（すなわち、ターゲットボックス２０２を示す入力）をリモートコンピューティングデバイスおよび／またはユーザから受信する。いずれの場合も、センサーシステム１７０は、画像処理システム２００と通信して、関心領域の画像データ１７４をキャプチャする。ターゲットボックス２０２を示す入力に基づいて、画像処理システム２００は、ボックス検出を開始するように初期化され得る。

いくつかの実施例では、画像処理システム２００が、関心領域の画像フレームペアＦ_ａｂ（例えば、単眼画像フレーム１７６ａおよび深度画像フレーム１７６ｂ）を受信するとき、各画像１７６ａ～ｂは、ボックス２０以外の作業環境１０内の物体または特徴に対する画像データ１７４を含む。例えば、作業環境１０が倉庫である場合、画像１７６ａ～ｂは、床、天井、壁、等などの特徴を含み得る。画像処理システム２００は、これらの非ボックス特徴を認識し、これらの非ボックス特徴に対応する画像データ１７４を除去するように構成される。言い換えれば、画像１７６ａ～ｂは、ターゲットボックス２０２を含む関心領域を分離するためにトリミングされ得る。例えば、図２Ｃは、図２Ｂの単眼画像フレーム１７６ａ、Ｆ_ａから非ボックス特徴に対応する画像データ１７４を切り抜いた後の単眼画像フレーム１７６ａ、Ｆ_ａを示し、それにより、関心領域を分離し、図２Ｂと比較したとき、作業環境１０のより少ないものを明らかにしている。画像処理システム２００は、センサー１７２によってキャプチャされた画像１７６全体を処理することができるが、非ボックス特徴の除去は、画像処理システム２００によって処理される必要がある画像データ１７４の量を合理化（例えば、削減）し得る。

いくつかの実装例では、画像処理システム２００は、歪んだ画像１７６（例えば、単眼画像１７６ａまたは深度画像１７６ｂ）を受信する。歪んだ画像は、概して、直線セグメントを有する対象（すなわち、直線からなる対象）をキャプチャしようとする画像１７６を指すが、キャプチャされた画像は、曲線セグメント（すなわち、非直線からなる対象）をもたらす。歪みのいくつかの例は、バレル歪み（すなわち、画像１７６の中心に向かって凹線を伴う歪み）、ピンクッション歪み（すなわち、画像１７６の中心に向かって凸線を伴う歪み）、または角度歪み（すなわち、直線ではなく角度のある線を伴う歪み）である。いくつかの構成では、画像１７６の歪みは、画像１７６をキャプチャするセンサー１７２によるものである。センサー１７２は、センサー１７２がロボット１００にどのように取り付けられるかに基づいて、ある程度の傾斜を有し得る。例えば、センサー１７２は、ロボット１００の曲面に取り付けられる場合がある。画像処理システム２００が歪みのある画像１７６を受信すると、画像処理システム２００は、画像補正を実行して、歪みのある画像１７６を直線投影に変換する。ボックス２０（例えば、ボックスの側面および面）は、概して直線セグメントから形成されるので、補正された画像は、画像処理システム２００がより効率的に画像１７６を処理してボックス２０を検出することを可能にし得る。

モデラー２１０は、少なくとも１つのターゲットボックス２０２を含む単眼画像フレーム１７６ａ、Ｆ_ａ（例えば、図２Ｂに示されるような単眼画像１７６ａに関連する画像データ１７４）を受信するように構成される。追加的または代替的に、モデラー２１０は、単眼画像１７６ａのフレームＦ_ａの画像データ１７４が、ターゲットボックス２０２として少なくとも１つのボックス２０を含むことを検出し得る。各画像フレームペアＦ_ａｂについて、モデラー２１０は、受信された単眼画像フレーム１７６ａ、Ｆ_ａに基づいて、少なくとも１つのターゲットボックス２０２と関連付けられた長方形のコーナー２１４を決定するように構成される。簡単にするために、図２Ａは、それぞれのフレームＦ_ａ１と関連付けられた１つの単眼画像１７６ａを受信するモデラー２１０を示している。モデラー２１０は、単眼画像１７６ａからの少なくとも１つのターゲットボックス２０２と関連付けられた長方形のコーナー２１４（すなわち、ボックス２０のコーナー２２のデジタル表現）を決定するモデル２２２を含む。例えば、図２Ｃは、モデラー２１０が単眼画像１７６ａ内の２５個のコーナー２１４、２１４ａ～ｙを識別した、単眼画像１７６ａを図示している。いくつかの実施例では、モデル２２２は、訓練データセットと同様の入力データに基づいて、推論中に出力２１６を予測するために、入力データセットおよび出力結果セットで訓練された機械学習モデルである。訓練中に、モデル２２２は、１つ以上のボックス２０を有するフレームＦを含む訓練データセットを受信する。ここで、訓練データセットの各フレームＦは、フレームＦ内の各訓練ボックスのコーナー２１４を識別するラベルを有する。通常、訓練の目的で、データは訓練データセットと評価データセットとに分離され（例えば、９０％の訓練および１０％の評価）、モデル２２２は、評価セットでのモデル２２２のパフォーマンスの低下が止まるまで訓練される。評価セットでのパフォーマンスの低下が止まると、モデル２２２は、単眼画像１７６ａ内の少なくとも１つのターゲットボックス２０２と関連付けられた長方形のコーナー２１４を決定するための推論の準備ができている可能性がある。いくつかの実装例では、モデル２２２は、深層学習ニューラルネットワークなどのニューラルネットワークである。いくつかの実施例では、ニューラルネットワークはリカレントニューラルネットワークである。訓練されると、モデル２２２は、単眼画像１７６ａを受信し、出力２１６としてターゲットボックス２０２のコーナー２１４を生成する。ここで、単眼画像１７６ａは二次元であるため、モデル２２２からの出力２１６は、二次元のみである（例えば、ターゲットボックス２０２のコーナー２１４の二次元座標位置）。モデラー２１０は、ターゲットボックス２０２のコーナー２１４を推定器２２０に通信するように構成される。

ロボット１００は三次元作業環境１０で動作しているので、モデラー２１０の出力２１６からのコーナー２１４は、三次元ボックス検出に変換するために画像処理システム２００によるさらなる処理を必要とする。さらに、二次元情報（すなわち、モデラー２１０から識別されたコーナー２１４）を三次元に直接変換することは、不正確さに悩まされる可能性がある。例えば、ターゲットボックス２０２のコーナー２１４は、ボックス２０のエッジ２４の画像データ１７４が交差する二次元空間内の単一の点に対応する。さらに、単一点を正確に決定することは、画像１７６および／またはセンサー１７２の品質のために困難であることが判明する可能性がある。例えば、ターゲットボックス２０２のコーナー２１４は、画像１７６のサブピクセル品質で最もよく検出され得るが、センサー品質または作業環境１０内の照明などの制限は、モデラー２１０による次善のコーナー決定をもたらす。したがって、モデラー２１０によって決定されたコーナー２１４は、深度画像１７６ｂと併せて使用されて、ボックス検出の精度を高め、二次元コーナー情報を、ロボット１００に対する１つ以上のターゲットボックス２０２についての三次元情報に変換し得る。

推定器２２０は、単眼画像１７６ａのフレームＦ_ａ（すなわち、単眼画像フレーム１７６ａ、Ｆ）内のターゲットボックス２０２のコーナー２１４を含む出力２１６を受信する。コーナー２１４は、単眼画像１７６ａ内で識別され得るか、またはデータ（例えば、座標データ）として単眼画像１７６ａとは別に提供され得る。推定器２２０はまた、コーナー２１４が決定された単眼画像フレーム１７６ａ、Ｆ_ａを含む対応する画像フレームペアＦ_ａｂのそれぞれの深度画像フレーム１７６ｂ、Ｆ_ｂを受け取る。対応する画像フレームペアＦ_ａｂに対してそれぞれの単眼画像フレーム１７６ａ、Ｆ_ａおよびそれぞれの深度画像フレーム１７６ｂ、Ｆ_ｂの両方を使用して、推定器２２０は、モデラー２１０からのコーナー２１４に基づいて２段階のボックス検出を実行し得る。これらの段階は、ボックス２０に対応する幾可学的形状を利用して、画像処理システム２００によってボックス検出を実行するときに、推定器２２０が正確なボックス推定２２２を生成することを確実にする。

第１の段階では、推定器２２０は、単眼画像１７６ａ内の少なくとも１つのターゲットボックス２０２の同様の幾可学的形状を深度画像１７６ｂに一致させるように構成される。いくつかの実施例では、コーナー２１４に基づいて、推定器２２０は、単眼画像１７６ａ内の少なくとも１つのターゲットボックス２０２の面を、深度画像１７６ｂ内の少なくとも１つのターゲットボックス２０２の平面に一致させる。言い換えれば、推定器２２０は、ターゲットボックス２０２の二次元特徴（すなわち、面２１４）を、ターゲットボックス２０２の同様の三次元特徴（すなわち、平面２１６）に一致させ、ここで、各次元において、これらの特徴は、モデラー２１０によって決定されたコーナー２１４に基づいている。いくつかの実装例では、推定器２２０は、ターゲットボックス２０２のコーナー２１４に基づいて、ターゲットボックス２０２の推定面２２４を識別するように構成される。推定面２２４は、推定器２２０が単眼画像１７６ａから（例えば、画像データ１７４から）面として推定する、作業環境１０内のボックス２０の実際の面２６の推定された表現を指す。推定器２２０は、ターゲットボックス２０２の４つのコーナー２１４を境界付けて、ターゲットボックス２０２の推定面２２４を表す長方形または正方形を形成することによって、推定面２２４を識別し得る。図２Ｄは、９つの推定面２２４、２２４ａ～ｉを有する単眼画像フレーム１７６ａ、Ｆ_ａの例を示す。

推定器２２０は、深度画像フレーム１７６ｂ、Ｆ_ｂに同様の処理を実行し得る。ここで、推定器２２０は、ターゲットボックス２０２の同じ４つのコーナー２１４を境界付けることによって、深度画像１７６ｂの画像データ１７４から平面２２６を構築する。推定器２２０は、境界内の深度画像データ１７４（例えば、点のクラスター）を抽出することによって平面２２６を抽出し得る。いくつかの実施例では、推定器２２０は、単眼画像１７６ａ内の少なくとも１つのターゲットボックス２０２の推定面２２４と、深度画像１７６ｂ内の少なくとも１つのターゲットボックス２０２の平面２２６との間で一致する画像データ１７４から検出された面２２４_Ｄを決定する。図２Ｅは、画像データ１７４を有する深度画像１７６ｂの例である。図２Ｅでは、推定器２２０は、モデラー２１０からのコーナー２１４に基づいて、深度画像１７６ｂから２つの平面２２６、２２６ａ～ｂを決定した。これらの平面２２６ａ～ｂは、深度画像１７６ｂの画像データ１７４を形成する点群の縁の近くの白い点線として示されている。

第２の段階では、推定器２２０は、単眼画像フレーム１７６ａ、Ｆ_ａ内の少なくとも１つのターゲットボックス２０２上でエッジ検出を実行するように構成される。エッジ検出を実行するために、推定器２２０は、モデラー２１０からのコーナー２１４に基づく従来のエッジ検出アルゴリズムを使用してもよい。エッジ検出アルゴリズムは、画像１７６内の変化（例えば、画像強度の有意な変化）を検出するように構成される。エッジ検出アルゴリズムのいくつかの例としては、キャニー（Ｃａｎｎｙ）エッジ検出、ソーベル（Ｓｏｂｅｌ）エッジ検出、プレウィット（Ｐｒｅｗｉｔｔ）エッジ検出、ラプラシアン（Ｌａｐｌａｃｉａｎ）エッジ検出、ロバーツ（Ｒｏｂｅｒｔｓ）エッジ検出、キルシュ（Ｋｉｒｓｃｈ）エッジ検出、ロビンソン（Ｒｏｂｉｎｓｏｎ）エッジ検出、マーヒルドレス（Ｍａｒｒ－Ｈｉｌｄｒｅｔｈ）エッジ検出等がある。推定器２２０によるエッジ検出プロセスの結果として、推定器２２０は、ターゲットボックス２０２について検出されたエッジ２２８を識別する。例えば、図２Ｄはまた、推定面２２４の境界を形成する検出されたエッジ２２８、２２８ａ～ａａを示す。

いくつかの実施例では、推定器２２０は、画像処理システム２００のボックス推定２２２を生成して、ターゲットボックス２０２の幾可学的形状を定義するように構成される。これらの例では、推定器２２０は、コーナー２１４、検出された面２２４_Ｄ、および検出されたエッジ２２８に基づいて、ターゲットボックス２０２についてのボックス推定２２２を生成する。一例として、対応する画像フレームペアＦ_ａｂのそれぞれの単眼画像１７６ａおよびそれぞれの深度画像１７６ｂに基づいて、図２Ｆは、パレット３０上のボックス２０のスタックの第１の行および第１の列でボックス２０が欠落している（すなわち、ボックススタックの右上でボックスが欠落している）ような、画像フレームペア１７６、１７６ａ～ｂ、Ｆ_ａｂの背景に向かって後退する第３のボックス推定２２２、２２２ｃを生成する推定器２２０を示す。推定器２２０は、図２Ｃおよび図２Ｄの単眼画像フレーム１７６ａ、Ｆ_ａが、ボックス２０がボックス２０のスタックの第１の行および第１の列に存在し得ることを示す（すなわち、推定器２２０は、ボックス２０のスタックの右上隅にあるターゲットボックス２０２の面２２４、２２４ｃおよびエッジ２２８を決定する）としても、図２Ｆにおける第３のボックス推定２２２、２２２ｃについてのこの決定を行うことができる。いくつかの構成では、推定器２２０は、勾配上昇オプティマイザを使用してボックス推定２２２を生成する。ここで、勾配上昇オプティマイザは、ボックス推定２２２を生成するための初期シード（すなわち、入力）としてモデラー２１０によって決定されたコーナー２１４を受け取ることができる。これらの構成では、勾配上昇オプティマイザは、それぞれの単眼画像１７６ａから決定されたコーナー２１４を使用して、深度画像１７６ｂをそれぞれの単眼画像１７６ａに適合させる。最適化中に、勾配上昇オプティマイザは、検出されたエッジ２２４および検出された面２２４_Ｄを決定して、各画像フレームペアＦ_ａｂについてのボックス推定２２２を生成し得る。

いくつかの実装例では、画像１７６をキャプチャするセンサー１７２は、フレームレート（すなわち、フレーム／秒（ｆｐｓ））で画像１７６をキャプチャし、複数のフレームＦは、各フレームＦがそれぞれのタイムスタンプを示すように、短期間でキャプチャされる。センサー１７２は、短期間に複数のフレームＦをキャプチャするので（例えば、１５ｆｐｓ、３０ｆｐｓ、または６０ｆｐｓのフレームレート）、同様の期間からのこれらのフレームＦは、フレームＦ間で最小の変動（すなわち、ボックス検出の目的のためのわずかな変動）を有し得る。推定器２２０は、追加の画像データから得られたこれらのフレーム類似性を利用して、期間にわたってボックス推定２２２を微調整／調整し得る。より具体的には、推定器２２０は、各画像フレームペアＦ_ａｂに対して生成されたボックス推定２２２、２２２Ａ～Ｎを集約することによって、各ターゲットボックス２０２について調整されたボックス推定２２２を決定する。ここで、各画像フレームペアＦ_ａｂは、複数のフレームＦ、Ｆ_１－ｎのうちのそれぞれ１つに対応するそれぞれのタイムスタンプと関連付けられている。例えば、推定器２２０は、それぞれのタイムスタンプと関連付けられた第１の画像フレームペアＦ_ａｂ１のターゲットボックス２０２の第１のボックス推定２２２、２２２Ａと、それぞれのタイムスタンプと関連付けられた第２の画像フレームペアＦ_ａｂ２の第２のボックス推定２２２、２２２Ｂとを生成する。ここで、第１の画像フレームペアＦ_ａｂ２のフレームＦおよび第２の画像フレームペアＦ_ａｂ２のフレームＦは、近接するフレーム（すなわち、隣接するフレーム）または最小の主題変動を有する比較的近接するフレームであり得る。第１の画像フレームペアＦ_ａｂ１内の第１のボックス推定２２２ａの場所および第２の画像フレームペアＦ_ａｂ２内の第２のボックス推定２２２ｂの場所は、各フレームＦ内の同様の場所に対応する。これらの例では、推定器２２０は、フレームＦからのこれらの推定２２２ａ～ｂを比較し、比較に基づいて、期間にわたってそのボックス推定２２２を調整するように構成される。例えば、調整は、ボックス推定２２２間の統計分析（例えば、平均値、中央値、最頻値等）に基づくことができる。この例は２つのフレームペアＦ_{ａｂ１、２}を比較するが、推定器２２０は、任意の数のボックス推定２２２を集約することに基づいて、その調整されたボックス推定２２２を微調整／決定するように構成される。

単眼画像１７６ａおよび深度画像１７６ｂを使用することにより、画像処理システム２００は、他の機械ビジョン技術との問題を回避し得る。例えば、単眼画像１７６ａのみを使用する機械ビジョン技術は、ボックス２０の深度またはボックス２０の向きなどの不正確さに悩まされている。言い換えれば、ボックス２０のスタック（例えば、パレット３０上の）の場合、単眼画像１７６ａのみを使用する技術は、ボックス２０のスタックから後退または除去されたボックス２０を正確に識別しない可能性がある。一例として、単眼画像１７６ａのみを使用する機械ビジョン技術は、図２Ａのボックス２０のスタックの右上隅にあるボックス２０を正確に検出するのが難しいであろう。単眼画像１７６ａのかみ合わせまたは部分的かみ合わせは、これらの機械ビジョン技術にとってしばしば問題となる。言い換えれば、図２Ｆの第３のボックス推定２２２、２２２ｃは、おそらく不正確であろう。

画像処理システム２００はまた、他の画像処理技術と比較して、ボックス推定２２２をより効率的に生成し得る。例えば、画像処理システム２００は、ボックス推定２２２を生成するための処理時間について慎重であるように構成される。単眼画像１７６ａからのいくつかの幾何学的特徴および深度画像１７６ｂからのいくつかの特徴を戦略的に検出することによって、画像処理システム２００は、処理時間を短縮し得る。より具体的には、画像処理システム２００は、単眼画像１７６ａが関連する深度画像１７６ｂよりも少ない画像データ１７４を含み得るので、単眼画像１７６ａをいくつかの処理ステップに利用して、ターゲットボックス２０２の幾何学的特徴を生成する（例えば、コーナーの決定２１４、エッジの検出２２８、面の推定２２４等）。より少ない画像データ１７４で、画像処理システム２００は、ボックス検出精度を保証するために、深度画像１７６ｂからの画像データ１７４を依然として利用しながら、単眼画像１７６ａを効率的に利用し得る。したがって、このハイブリッド画像アプローチは、他の技術（例えば、単一のタイプの画像１７６のみを使用するか、または各画像１７６のすべての幾何学的特徴を決定する）と比較して、精度を提供しながら処理時間を短縮し得る。

図１Ｂに戻ると、いくつかの実装例では、ロボット１００の制御システム１４０は、ビジョンシステム１４６を含む。ビジョンシステム１４６は、ロボット１００および／またはロボット１００のオペレータのためにガイダンスを提供するように構成される。ここで、ガイダンスは、画像処理システム２００がボックス推定２２２を用いて識別するボックス２０に関連する作業環境１０において、ロボット１００がタスクを実行することを可能にし得る。例えば、ビジョンシステム１４６は、ボックス推定２２２の視覚的表現（すなわち、投影）を生成する。いくつかの実施例では、視覚的表現は、ロボット１００の視覚内（すなわち、センサー１７２の視野内）のボックス２０と、ボックス２０に対応するボックス推定２２２との間の画像レジストレーション（例えば、自動認識）を可能にし得る。いくつかの構成では、ビジョンシステム１４６は、ロボット１００のホモグラフィック投影としてボックス推定２２２を表示する。例えば、図３は、ボックス２０の輪郭としてのホモグラフィック投影を示す（例えば、第１のボックス推定２２２ａの実線輪郭、または第２のボックス推定２２２ｂのセグメント化された十字輪郭）。

追加的または代替的に、視覚的表現は、画像処理システム２００のボックス推定２２２の信頼区間または信頼水準を示すために色分けされ得る。信頼区間は、ボックス推定２２２が正確である確率（すなわち、尤度）を指す（例えば、作業環境１０内の実際のボックス２０の場所および／または幾可学的形状に関して）。ロボット１００が作業環境１０の周りを移動するとき、ビジョンシステム１４６は、ボックス推定２２２のために視覚的表現の色を変えることができる。言い換えれば、リアルタイムでロボット１００は、視覚処理システム２００で、ボックス推定２２２を更新または修正する画像データ１７４を受信して、ビジョンシステム１４６に、ボックス推定２２２と関連付けられた信頼水準、したがって色を変更させ得る。いくつかの実施例では、ロボット１００またはロボット１００のオペレータは、ボックス２０のボックス推定２２２に対する信頼水準が閾値に達したときに、ボックス２０に関連するタスク（例えば、ボックス２０の操作またはボックス２０の処理）を実行する。一例として、ビジョンシステム１４６は、ボックス推定２２２を、赤、黄、および緑の３色で表す。ここで、赤、黄、および緑の色は、ボックス推定２２２に対する信頼度の昇順でランク付けされ、赤い色は、所与のボックス２０に対してボックス推定２２２があるが、ボックス推定２２２に対する信頼度が低いことを示し、黄色は、ボックス推定２２２に対する中程度の信頼度を示し、緑色は、ボックス推定２２２に対する最高レベルの信頼度を示す。単なる例として、信頼水準が３色より多くまたは少なく含まれ得るように、色の数が変化してもよい。

ターゲットボックス２０２に対する信頼区間および／または投影を説明するために、図３は、ビジョンシステム１４６の非カラーの例（例えば、ビジョンシステム１４６のディスプレイ）を示す。ここで、画像処理システム２００によって検出されたボックス２０は、太字の実線の輪郭（例えば、第１の推定ボックス２２２ａ）またはセグメント化された十字輪郭（例えば、第２の推定ボックス２２２ｂ）のいずれかを有する。太字の実線の輪郭は、信頼水準が低い第１のボックス推定２２２ａを有する第１のボックス２０ａを視覚的に表し、一方、セグメント化された十字輪郭は、信頼水準が高い第２のボックス推定２２２ｂを有する第２のボックス２０ｂを視覚的に表す。

図４は、ボックスを検出するための方法４００である。動作４０２において、方法４００は、ある期間にわたって、関心領域について複数の画像フレームペアＦ_{ａｂ１－ｎ}を受信し、ここで、関心領域は、少なくとも１つのターゲットボックス２０２を含む。ここで、複数の画像フレームペアＦ_{ａｂ１－ｎ}の各画像フレームペアＦ_ａｂは、期間中のそれぞれのタイムスタンプと関連付けられ、単眼画像フレーム１７６ａ、Ｆ_ａおよびそれぞれの深度画像フレーム１７６ｂ、Ｆ_ｂを含む。方法４００は、各画像フレームペアＦ_ａｂに対して動作４０４～４１０を実行する。動作４０４において、方法４００は、単眼画像フレーム１７６ａ、Ｆ_ａ内の少なくとも１つのターゲットボックス２０２と関連付けられた長方形のコーナー２１４を決定する。決定されたコーナー２１４に基づいて、方法４００は、動作４０６、４０６ａ～ｂを実行する。動作４０６ａにおいて、方法４００は、それぞれの単眼画像フレーム１７６ａ、Ｆ_ａ内の少なくとも１つのターゲットボックス２０２上でエッジ検出を実行し、それぞれの単眼画像フレーム１７６ａ、Ｆ_ａ内の少なくとも１つのターゲットボックス２０２の面２２４を決定する。動作４０６ｂにおいて、方法４００は、それぞれの深度画像フレーム１７６ｂ、Ｆ_ｂから平面２２６を抽出し、ここで、それぞれの深度画像フレーム１７６ｂ、Ｆ_ｂから抽出された平面２２６は、少なくとも１つのターゲットボックス２０２に対応する。動作４１０において、方法４００は、単眼画像フレーム１７６ａ、Ｆ_ａ内の少なくとも１つのターゲットボックス２０２の決定された面２２４を、深度画像１７６ｂ、Ｆ_ｂから抽出された平面２２６に一致させる。動作４１０において、方法４００は、決定されたコーナー２１４、実行されたエッジ検出２２８、および少なくとも１つのターゲットボックス２０２の一致した面２２４_Ｄに基づいて、ボックス推定２２２を生成する。

任意選択で、方法４００はさらに動作する。例えば、方法４００は、各画像フレームペアＦ_ａｂに対して生成されたボックス推定２２２を集約して、少なくとも１つのターゲットボックス２０２について期間にわたって調整されたボックス推定２２２を決定する。各画像フレームペアＦ_ａｂに対して生成されたボックス推定２２２を集約することは、第１の画像フレームペアＦ_ａｂ１に対して生成された少なくとも１つのターゲットボックス２０２の第１のボックス推定２２２ａを、第２の画像フレームペアＦ_ａｂ２に対して生成された少なくとも１つのターゲットボックス２０２の第２のボックス推定２２２ｂと比較すること、および、第１のボックス推定２２２ａと第２のボックス推定２２２ｂとの間の比較に基づいて、期間にわたってボックス推定２２２を調整すること、を含み得る。

図５は、本文書に記載されているシステム（例えば、制御システム１４０、センサーシステム１７０、ビジョンシステム１４６、画像処理システム２００等）および方法（例えば、方法４００）を実装するために使用され得る、例示的なコンピューティングデバイス５００の概略図である。コンピューティングデバイス５００は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図される。本明細書に示されている構成要素、それらの接続および関係、ならびにそれらの機能は、例示のみを意図しており、本明細書で説明および／または特許請求されている本発明の実装を制限することを意味するものではない。

コンピューティングデバイス５００は、プロセッサ５１０と、メモリ５２０と、ストレージデバイス５３０と、メモリ５２０および高速拡張ポート５５０に接続する高速インターフェース／コントローラー５４０と、低速バス５７０およびストレージデバイス５３０に接続する低速インターフェース／コントローラー５６０と、を含む。構成要素５１０、５２０、５３０、５４０、５５０、および５６０の各々は、様々なバスを使用して相互接続されており、共通のマザーボードに、または必要に応じて他の様態で取り付けられ得る。プロセッサ５１０は、グラフィカルユーザインターフェース（ＧＵＩ）のためのグラフィカル情報を、高速インターフェース５４０に結合されたディスプレイ５８０などの外部入出力デバイス上に表示するために、メモリ５２０内またはストレージデバイス５３０上に格納された命令を含む、コンピューティングデバイス５００内で実行するための命令を処理し得る。他の実装例では、必要に応じて、複数のプロセッサおよび／または複数のバスが、複数のメモリおよび複数のタイプのメモリとともに使用され得る。また、複数のコンピューティングデバイス５００が、各デバイスが必要な動作の部分を提供する状態で（例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）、接続され得る。

メモリ５２０は、コンピューティングデバイス５００内に非一時的に情報を格納する。メモリ５２０は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであり得る。非一時的メモリ５２０は、コンピューティングデバイス５００で使用するために、プログラム（例えば、命令のシーケンス）またはデータ（例えば、プログラム状態情報）を一時的または永続的に格納するために使用される物理デバイスであり得る。不揮発性メモリの例としては、以下に限定されないが、フラッシュメモリおよび読み取り専用メモリ（ＲＯＭ）／プログラム可能な読み取り専用メモリ（ＰＲＯＭ）／消去可能なプログラム可能な読み取り専用メモリ（ＥＰＲＯＭ）／電気的に消去可能なプログラム可能な読み取り専用メモリ（ＥＥＰＲＯＭ）（例えば、通常、ブートプログラムなどのファームウェアに使用される）が挙げられる。揮発性メモリの例としては、以下に限定されないが、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、相変化メモリ（ＰＣＭ）、ならびにディスクまたはテープが挙げられる。

ストレージデバイス５３０は、コンピューティングデバイス５００に大容量ストレージを提供し得る。いくつかの実装例では、ストレージデバイス５３０は、コンピュータ可読媒体である。様々な異なる実装例では、ストレージデバイス５３０は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークもしくは他の構成のデバイスを含むデバイスのアレイであり得る。追加の実装例では、コンピュータプログラム製品は、情報担体内に実体的に具体化される。コンピュータプログラム製品は、実行されると、上記のような１つ以上の方法を実行する命令を含む。情報担体は、メモリ５２０、ストレージデバイス５３０、またはプロセッサ５１０上のメモリなどの、コンピュータ可読媒体または機械可読媒体である。

高速コントローラー５４０が、コンピューティングデバイス５００の帯域幅集中動作を管理する一方で、低速コントローラー５６０は、より低い帯域幅集中動作を管理する。そのようなデューティの割り当ては、例示にすぎない。いくつかの実装例では、高速コントローラー５４０は、メモリ５２０と、ディスプレイ５８０（例えば、グラフィックプロセッサまたはアクセラレータを介して）と、様々な拡張カード（図示せず）を受容する高速拡張ポート５５０と、に結合されている。いくつかの実装例では、低速コントローラー５６０は、ストレージデバイス５３０と、低速拡張ポート５９０と、に結合されている。様々な通信ポート（例えば、ＵＳＢ、Ｂｌｕｅｔｏｏｔｈ、イーサネット、ワイヤレスイーサネット）を含み得る低速拡張ポート５９０は、キーボード、ポインティングデバイス、スキャナーなどの１つ以上の入出力デバイスに、または、例えば、ネットワークアダプタを介して、スイッチもしくはルータなどのネットワーキングデバイスに結合され得る。

コンピューティングデバイス５００は、図に示すように、いくつかの異なる形態で実装され得る。例えば、コンピューティングデバイス５００は、標準のサーバ５００ａとして、もしくはそのようなサーバ５００ａのグループ内に複数回、ラップトップコンピューター５００ｂとして、またはラックサーバシステム５００ｃの一部として実装され得る。

本明細書に記載のシステムおよび技術の様々な実装は、デジタル電子および／もしくは光回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、ならびに／またはそれらの組み合わせで実現され得る。これらの様々な実装は、データおよび命令をストレージシステムから受信するため、かつデータおよび命令をストレージシステムに送信するために結合された、専用または汎用であってもよい、少なくとも１つのプログラマブルプロセッサと、少なくとも１つの入力デバイスと、少なくとも１つの出力デバイスと、を含むプログラマブルシステム上で実行可能および／または解釈可能な１つ以上のコンピュータプログラム内での実装を含み得る。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる）は、プログラマブルプロセッサ用の機械命令を含み、高レベル手続き型および／もしくはオブジェクト指向プログラミング言語で、ならびに／またはアセンブリ言語／機械語で実装され得る。本明細書で使用される場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、プログラマブルプロセッサに機械命令および／またはデータを提供するために使用される任意のコンピュータプログラム製品、非一時的なコンピュータ可読媒体、装置、および／またはデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械命令を機械可読信号として受け取る機械可読媒体を含む。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令および／またはデータを提供するために使用される任意の信号を指す。

本明細書で説明されるプロセスおよびロジックフローは、入力データを処理して出力を生成することによって機能を実行するために、１つ以上のコンピュータプログラムを実行する１つ以上のプログラマブルプロセッサによって実行され得る。プロセスおよびロジックフローはまた、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）などの専用論理回路によっても実行され得る。コンピュータプログラムの実行に好適なプロセッサには、例として、汎用および専用マイクロプロセッサの両方、ならびに任意の種類のデジタルコンピュータのうちの任意の１つ以上のプロセッサが含まれる。概して、プロセッサは、読み取り専用メモリもしくはランダムアクセスメモリ、またはその両方から命令および／またはデータを受信することになる。コンピュータの必須要素は、命令を実行するためのプロセッサ、ならびに命令およびデータを格納するための１つ以上のメモリデバイスである。概して、コンピュータはまた、データを格納するための１つ以上の大容量ストレージデバイス、例えば、磁気ディスク、光磁気ディスク、もしくは光ディスクを含むか、または大容量ストレージデバイスからデータを受信、もしくはデータを転送、またはその両方を行うように動作可能に結合される。しかしながら、コンピュータは必ずしもそのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを格納するための好適なコンピュータ可読媒体には、すべての形態の不揮発性メモリ、媒体、およびメモリデバイスが含まれ、例としては、例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイスなどの半導体メモリデバイス、例えば、内蔵ハードディスクまたは取り外し可能ディスクなどの磁気ディスク、光磁気ディスク、ならびにＣＤＲＯＭディスクおよびＤＶＤ－ＲＯＭディスクが挙げられる。プロセッサおよびメモリは、専用論理回路によって補足されるか、または専用論理回路に組み込まれ得る。

ユーザとの相互作用を提供するために、本開示の１つ以上の態様は、ユーザに情報を表示するための、例えば、ＣＲＴ（陰極線管）、ＬＣＤ（液晶ディスプレイ）モニタ、もしくはタッチスクリーンなどの表示デバイス、ならびに任意選択で、ユーザがコンピュータに入力を提供することができるキーボード、および、例えば、マウスもしくはトラックボールなどのポインティングデバイスを有するコンピュータ上に実装され得る。他の種類のデバイスを使用して、ユーザとの相互作用を提供することもでき、例えば、ユーザに提供されるフィードバックは、例えば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバックなどの任意の形態の感覚フィードバックであり得、ユーザからの入力は、音響、音声、または触覚入力を含む任意の形態で受け取ることができる。さらに、コンピュータは、ユーザによって使用されるデバイスにドキュメントを送信し、当該デバイスからドキュメントを受信することによって、例えば、ウェブブラウザから受信された要求に応答して、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによって、ユーザと相互作用することができる。

多数の実装例が説明されてきた。それでもなお、本発明の趣旨および範囲から逸脱することなく、様々な修正が行われ得ることが理解されよう。したがって、他の実装例は、以下の特許請求の範囲の範囲内にある。

Claims

方法（４００）であって、
データ処理ハードウェア（１４２）で、ある期間にわたって関心領域について複数の画像フレームペア（Ｆ_{ａｂ１－ｎ}）を受信することであって、前記関心領域が、少なくとも１つのターゲットボックス（２０２）を含み、前記複数の画像フレームペア（Ｆ_{ａｂ１－ｎ}）の各画像フレームペア（Ｆ_ａｂ）が、前記期間中にそれぞれのタイムスタンプと関連付けられ、それぞれの単眼画像フレーム（１７６ａ、Ｆ_ａ）およびそれぞれの深度画像フレーム（１７６ｂ、Ｆ_ｂ）を含む、前記複数の画像フレームペアを受信することと、
各画像フレームペア（Ｆ_ａｂ）について、
前記データ処理ハードウェア（１４２）によって、前記それぞれの単眼画像フレーム（１７６ａ、Ｆ_ａ）内の前記少なくとも１つのターゲットボックス（２０２）に対応する長方形のコーナー（２１４）を決定することと、
前記それぞれの単眼画像フレーム（１７６ａ、Ｆ_ａ）内の前記長方形の前記決定されたコーナー（２１４）に基づいて、
前記データ処理ハードウェア（１４２）によって、前記それぞれの単眼画像フレーム（１７６ａ、Ｆ_ａ）内の前記少なくとも１つのターゲットボックス（２０２）上でエッジ検出を実行することと、
前記データ処理ハードウェア（１４２）によって、前記それぞれの単眼画像フレーム（１７６ａ、Ｆ_ａ）内の前記少なくとも１つのターゲットボックス（２０２）の面（２２４）を決定することと、
前記データ処理ハードウェア（１４２）によって、前記それぞれの深度画像フレーム（１７６ｂ、Ｆ_ｂ）から平面（２２６）を抽出することであって、前記それぞれの深度画像フレーム（１７６ｂ、Ｆ_ｂ）から抽出された前記平面（２２６）が、前記少なくとも１つのターゲットボックス（２０２）に対応する、抽出することと、
前記データ処理ハードウェア（１４２）によって、前記それぞれの単眼画像フレーム（１７６ａ、Ｆ_ａ）内の前記少なくとも１つのターゲットボックス（２０２）の前記決定された面（２２４）を、前記それぞれの深度画像フレーム（１７６ｂ、Ｆ_ｂ）から抽出された前記平面（２２６）に一致させることと、
前記データ処理ハードウェア（１４２）によって、前記決定されたコーナー（２１４）、前記実行されたエッジ検出、および前記一致した面（２２４）に基づいて、ボックス推定（２２２）を生成することと、を含む、方法。
前記データ処理ハードウェア（１４２）によって、各画像フレームペア（Ｆ_ａｂ）に対して生成された前記ボックス推定（２２２）を集約して、前記少なくとも１つのターゲットボックス（２０２）について前記期間にわたって調整されたボックス推定（２２２）を決定することをさらに含む、請求項１に記載の方法。
各画像フレームペア（Ｆ_ａｂ）に対して生成された前記ボックス推定（２２２）を集約することが、
第１の画像フレームペア（Ｆ_ａｂ）に対して生成された前記少なくとも１つのターゲットボックス（２０２）の第１のボックス推定（２２２、２２２ａ）を、第２の画像フレームペア（Ｆ_ａｂ）に対して生成された前記少なくとも１つのターゲットボックス（２０２）の第２のボックス推定（２２２、２２２ｂ）と比較することと、
前記第１のボックス推定（２２２、２２２ａ）と前記第２のボックス推定（２２２、２２２ｂ）との間の前記比較に基づいて、前記期間にわたって前記ボックス推定（２２２）を調整することと、を含む、請求項２に記載の方法。
前記データ処理ハードウェア（１４２）によって、ロボット（１００）のビジョンシステム（１４６）内のホモグラフィック投影として前記ボックス推定（２２２）を表示することをさらに含む、請求項１から３のいずれか一項に記載の方法。
前記データ処理ハードウェア（１４２）によって、ロボット（１００）のビジョンシステム（１４６）内の投影として前記ボックス推定（２２２）を表示することをさらに含み、前記投影が、前記ボックス推定（２２２）に対する信頼区間を示す色で前記少なくとも１つのターゲットボックス（２０２）を表す、請求項１から３のいずれか一項に記載の方法。
前記それぞれの単眼画像フレーム（１７６ａ、Ｆ_ａ）内の前記長方形の前記コーナー（２１４）を決定することが、機械学習モデルを使用して、前記それぞれの単眼画像フレーム（１７６ａ、Ｆ_ａ）内の前記長方形の前記コーナー（２１４）を決定することを含む、請求項１から５のいずれか一項に記載の方法。
前記機械学習モデルが、訓練された深層学習ニューラルネットワークを含む、請求項６に記載の方法。
各画像フレームペア（Ｆ_ａｂ）について、前記データ処理ハードウェア（１４２）によって、前記それぞれの単眼画像フレーム（１７６ａ、Ｆ_ａ）および前記それぞれの深度画像フレーム（１７６ｂ、Ｆ_ｂ）をトリミングして、前記少なくとも１つのターゲットボックス（２０２）に対応する前記関心領域を分離することさらに含む、請求項１から７のいずれか一項に記載の方法。
各画像フレームペア（Ｆ_ａｂ）について、前記データ処理ハードウェア（１４２）によって、前記それぞれの単眼画像フレーム（１７６ａ、Ｆ_ａ）と関連付けられた角度歪みを補正することをさらに含む、請求項１から８のいずれか一項に記載の方法。
前記それぞれの単眼画像フレーム（１７６ａ、Ｆ_ａ）内の前記長方形の前記決定されたコーナー（２１４）が、勾配上昇オプティマイザに入力される初期シードを含み、前記勾配上昇オプティマイザが、面（２２４）を一致させ、エッジ検出を実行するように構成されている、請求項１から９のいずれか一項に記載の方法。
各それぞれの深度画像フレーム（１７６ｂ、Ｆ_ｂ）が、深度センサー（１７２）から得られ、前記深度センサー（１７２）が、ステレオカメラ、走査光検出と測距（ＬＩＤＡＲ）センサー、飛行時間センサー、または走査レーザー検出と測距（ＬＡＤＡＲ）センサーのうちの１つ以上を備える、請求項１から１０のいずれか一項に記載の方法。
前記データ処理ハードウェア（１４２）が、前記関心領域内の移動ロボット（１００）上に存在する、請求項１から１１のいずれか一項に記載の方法。
前記単眼画像フレーム（１７６ａ、Ｆ_ａ）および前記深度画像フレーム（１７６ｂ、Ｆ_ｂ）が、ロボット（１００）の関節式アーム（１５０）上に取り付けられた１つ以上のセンサー（１７２）からキャプチャされる、請求項１から１２のいずれか一項に記載の方法。
ロボット（１００）であって、
センサーシステム（１７０）と、
データ処理ハードウェア（１４２）と、
前記データ処理ハードウェア（１４２）と通信するメモリハードウェア（１４４）と、を備え、前記メモリハードウェア（１４４）が、前記データ処理ハードウェア（１４２）上で実行されると、前記データ処理ハードウェア（１４２）に、
前記センサーシステム（１７０）から、ある期間にわたって関心領域について複数の画像フレームペア（Ｆ_{ａｂ１－ｎ}）を受信することであって、前記関心領域が、少なくとも１つのターゲットボックス（２０２）を含み、前記複数の画像フレームペア（Ｆ_{ａｂ１－ｎ}）の各画像フレーム（Ｆ_ａｂ）が、前記期間中にそれぞれのタイムスタンプと関連付けられ、それぞれの単眼画像フレーム（１７６ａ、Ｆ_ａ）およびそれぞれの深度画像フレーム（１７６ｂ、Ｆ_ｂ）を含む、前記複数の画像フレームペアを受信することと、
各画像フレームペア（Ｆ_ａｂ）について、
前記それぞれの単眼画像フレーム（１７６ａ、Ｆ_ａ）内の前記少なくとも１つのターゲットボックス（２０２）に対応する長方形のコーナー（２１４）を決定することと、
前記それぞれの単眼画像フレーム（１７６ａ、Ｆ_ａ）内の前記長方形の前記決定されたコーナー（２１４）に基づいて、
前記それぞれの単眼画像フレーム（１７６ａ、Ｆ_ａ）内の前記少なくとも１つのターゲットボックス（２０２）上でエッジ検出を実行することと、
前記それぞれの単眼画像フレーム（１７６ａ、Ｆ_ａ）内の前記少なくとも１つのターゲットボックス（２０２）の面（２２４）を決定することと、
前記それぞれの深度画像フレーム（１７６ｂ、Ｆ_ｂ）から平面（２２６）を抽出することであって、前記それぞれの深度画像フレーム（１７６ｂ、Ｆ_ｂ）から抽出された前記平面（２２６）が、前記少なくとも１つのターゲットボックス（２０２）に対応する、抽出することと、
前記それぞれの単眼画像フレーム（１７６ａ、Ｆ_ａ）内の前記少なくとも１つのターゲットボックス（２０２）の前記決定された面（２２４）を、前記それぞれの深度画像フレーム（１７６ｂ、Ｆ_ｂ）から抽出された前記平面（２２６）に一致させることと、
前記決定されたコーナー（２１４）、前記実行されたエッジ検出、および前記一致した面（２２４）に基づいて、ボックス推定（２２２）を生成することと、を含む、動作を実行させる命令を格納する、ロボット。
前記動作が、各画像フレームペア（Ｆ_ａｂ）に対して生成された前記ボックス推定（２２２）を集約して、前記少なくとも１つのターゲットボックス（２０２）について前記期間にわたって調整されたボックス推定（２２２）を決定することをさらに含む、請求項１４に記載のロボット。
各画像フレームペア（Ｆ_ａｂ）に対して生成された前記ボックス推定（２２２）を集約することが、
第１の画像フレームペア（Ｆ_ａｂ）に対して生成された前記少なくとも１つのターゲットボックス（２０２）の第１のボックス推定（２２２、２２２ａ）を、第２の画像フレームペア（Ｆ_ａｂ）に対して生成された前記少なくとも１つのターゲットボックス（２０２）の第２のボックス推定（２２２、２２２ｂ）と比較することと、
前記第１のボックス推定（２２２、２２２ａ）と前記第２のボックス推定（２２２、２２２ｂ）との間の前記比較に基づいて、前記期間にわたって前記ボックス推定（２２２）を調整することと、を含む、請求項１５に記載のロボット。
前記動作が、ロボット（１００）のビジョンシステム（１４６）内のホモグラフィック投影としての前記ボックス推定（２２２）をさらに含む、請求項１４から１６のいずれか一項に記載のロボット。
前記動作が、ロボット（１００）のビジョンシステム（１４６）内の投影としての前記ボックス推定（２２２）をさらに含み、前記投影が、前記ボックス推定（２２２）に対する信頼区間を示す色で前記少なくとも１つのターゲットボックス（２０２）を表す、請求項１４から１６のいずれか一項に記載のロボット。
前記それぞれの単眼画像フレーム（１７６ａ、Ｆ_ａ）内の前記長方形の前記コーナー（２１４）を決定することが、機械学習モデルを使用して、前記それぞれの単眼画像フレーム（１７６ａ、Ｆ_ａ）内の前記長方形の前記コーナー（２１４）を決定すること含む、請求項１４から１８のいずれか一項に記載のロボット。
前記機械学習モデルが、訓練された深層学習ニューラルネットワークを含む、請求項１９に記載のロボット。
前記動作が、各画像フレームペアについて、前記それぞれの単眼画像フレーム（１７６ａ、Ｆ_ａ）および前記それぞれの深度画像フレーム（１７６ｂ、Ｆ_ｂ）をトリミングして、前記少なくとも１つのターゲットボックス（２０２）に対応する前記関心領域を分離することをさらに含む、請求項１４から２０のいずれか一項に記載のロボット。
前記動作が、各画像フレームペア（Ｆ_ａｂ）について、前記それぞれの単眼画像フレーム（１７６ａ、Ｆ_ａ）と関連付けられた角度歪みを補正することをさらに含む、請求項１４から２１のいずれか一項に記載のロボット。
前記それぞれの単眼画像フレーム（１７６ａ、Ｆ_ａ）内の前記長方形の前記決定されたコーナー（２１４）が、勾配上昇オプティマイザに入力される初期シードを含み、前記勾配上昇オプティマイザが、面（２２４）を一致させ、エッジ検出を実行するように構成されている、請求項１４から２２のいずれか一項に記載のロボット。
各それぞれの深度画像フレーム（１７６ｂ、Ｆ_ｂ）が、深度センサー（１７２）から得られ、前記深度センサー（１７２）が、ステレオカメラ、走査光検出と測距（ＬＩＤＡＲ）センサー、飛行時間センサー、または走査レーザー検出と測距（ＬＡＤＡＲ）センサーのうちの１つ以上を備える、請求項１４から２３のいずれか一項に記載のロボット。
関節式アーム（１５０）をさらに備え、前記センサーシステム（１７０）の少なくとも一部分が、前記関節式アーム（１５０）上に取り付けられている、請求項１４から２４のいずれか一項に記載のロボット。