JP6877072B1

JP6877072B1 - 領域抽出装置、領域抽出方法、及び領域抽出プログラム

Info

Publication number: JP6877072B1
Application number: JP2021515668A
Authority: JP
Inventors: 美廷金
Original assignee: Rakuten Group Inc
Current assignee: Rakuten Group Inc
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2021-05-26
Anticipated expiration: 2040-07-07
Also published as: US11881045B2; US20220189194A1; CN114158281A; EP3958212A1; WO2022009305A1; JPWO2022009305A1; EP3958212A4

Abstract

画像から対象物が映っている領域を、より正確に抽出することを目的とする。領域抽出装置は、時間的に連続する第１フレーム画像及び第２フレーム画像を取得する。領域抽出装置は、取得された第１フレーム画像及び第２フレーム画像に基づいて、第１フレーム画像内で動きのある領域を示す動き情報を取得する。領域抽出装置は、取得された第１フレーム画像に基づいて、取得された動き情報により示される動きのある領域から、人体の肘及び手首の位置を検出する。領域抽出装置は、検出された位置に基づいて、取得された動き情報により示される動きのある領域のうち、手首から人体の手側の部分に対応する領域を抽出する。

Description

本発明は、画像から、物が映っている領域を抽出する方法に関する。

従来、画像認識技術を用いて、商品が置かれている場所から人が手に取った商品を識別する技術が知られている。例えば、特許文献１には、商品棚から客が手にした商品を推定するマーケティング情報収集装置が開示されている。この情報収集装置は、商品棚と客との間の上方にある天井から撮像された画像に対して、領域をスライドさせて、領域ごとの特徴量と予め算出された商品ごとの特徴量との類似度を計算する。情報収集装置は、この類似度が閾値を超え且つ最大である商品を、対応する領域に含まれる商品と推定する。

特開２０１６−２０１１０５号公報

しかしながら、上方から撮影した場合には対象物が隠れて認識できないことがある。一方、商品棚又は商品の取り出し口付近から外に向かって撮影するとすれば、対象物以外を含む様々な物が写り込むこととなるので、対象物以外の物を認識してしまう場合がある。

本願発明は以上の点に鑑みてなされてものであり、その課題の一例は、画像から対象物が映っている領域を、より正確に抽出することを可能とする領域抽出装置、領域抽出方法、及び領域抽出プログラムを提供することである。

上記課題を解決するために、本発明の一の側面は、時間的に連続する第１フレーム画像及び第２フレーム画像を取得するフレーム画像取得手段と、前記取得された第１フレーム画像及び第２フレーム画像に基づいて、前記第１フレーム画像内で動きのある領域を示す動き情報を取得する動き情報取得手段と、前記取得された第１フレーム画像に基づいて、前記取得された動き情報により示される前記動きのある領域から、人体の肘及び手首の位置を検出する検出手段と、前記検出された位置に基づいて、前記取得された動き情報により示される前記動きのある領域のうち、前記手首から前記人体の手側の部分に対応する領域を抽出する抽出手段と、を備えることを特徴とする領域抽出装置である。

この側面によれば、第１フレーム画像内で動きのある領域を示す動き情報が取得される。認識されるべきオブジェクトが人体の手で掴まれている場合、そのオブジェクト、手及び腕は画像内で動いている可能性がある。そして、動きのある領域から、人体の肘及び手首の位置が検出される。そして、動きのある領域のうち、手首から人体の手側の部分に対応する領域が抽出される。動きのある領域が、手首を境として２つの部分に分割された場合、これらの部分のうち、肘が位置していない方の部分が、手側の部分である。手で掴まれているオブジェクトは、画像内において、手と重なっている。そのため、手側の部分に対応する領域を抽出することで、対象物が映っている領域を、より正確に抽出することができる。

本発明の別の側面は、前記抽出手段は、前記手側の部分の色と、所定の肌色と、の比較の結果に基づいて、前記手側の部分に対応する前記領域の抽出を制御することを特徴とする領域抽出装置である。

手でオブジェクトが掴まれている場合、動きのある領域のうち、手側の部分は、オブジェクトの色を有する画素を含む。従って、手側の部分からは、肌色以外の色も抽出される可能性がある。この側面によれば、手側の部分の色と所定の肌色とを比較することで、手がオブジェクトを掴んでいるか否かを推定することができる。これにより、領域の抽出が制御されるので、対象物が映っていない領域を抽出することを抑制することができる。

本発明の更に別の側面は、前記抽出手段は、前記手側の部分の色と前記肌色との差が所定程度を超える場合に、前記手側の部分に対応する前記領域を抽出することを特徴とする領域抽出装置である。

この側面によれば、手側の部分の色と所定の肌色との差が所定程度を超える場合に、領域が抽出されるので、オブジェクトが映っていない領域を抽出することを抑制することができる。

本発明の更に別の側面は、前記検出手段は、前記動きのある領域から、前記人体の指の関節及び指先の位置を更に検出し、前記抽出手段は、前記指の関節及び指先の位置に基づいて、前記抽出される領域を修正することを特徴とする領域抽出装置である。

この側面によれば、検出される指の関節及び指先の位置に基づいて、手で掴まれているオブジェクトの位置を推定することができるので、対象物が映る領域を、より適切に設定することができる。

本発明の更に別の側面は、前記抽出手段は、前記指の関節から前記指先への方向に従って、前記抽出される領域を広げることを特徴とする領域抽出装置である。

手で掴まれているオブジェクトは、指先の方向に、手からはみ出している傾向がある。この側面によれば、指先の方向に領域が広げられるので、対象物が映る領域を、より適切に設定することができる。

本発明の更に別の側面は、前記検出手段は、所定の姿勢推定モデルを用いて、前記肘及び前記手首の位置を検出することを特徴とする領域抽出装置である。

本発明の更に別の側面は、前記抽出された領域の画像を用いて、画像内のオブジェクトを識別するためのモデルを訓練する訓練手段を更に備えることを特徴とする領域抽出装置である。

この側面によれば、動きのある領域のうち、手側の部分に対応する領域の画像で、モデルが訓練される。従って、第１フレーム画像のうち、手で掴まれているオブジェクトが映っている部分の画像が訓練に用いられるので、より適切に対象物を識別するように、モデルを訓練することができる。

本発明の更に別の側面は、前記抽出された領域の画像を、所定のモデルに入力することにより、前記抽出された領域に存在するオブジェクトを示すオブジェクト情報を出力する出力手段を更に備えることを特徴とする領域抽出装置である。

この側面によれば、動きのある領域のうち、手側の部分に対応する領域の画像から、手で掴まれているオブジェクトを示す情報が出力される。従って、手で掴まれていないオブジェクトの識別が防止されるので、本来識別されるべき対象物を識別することができる。

本発明の更に別の側面は、前記取得される動き情報は、デンスオプティカルフローであることを特徴とする領域抽出装置である。

本発明の更に別の側面は、コンピュータにより実行される領域抽出方法において、時間的に連続する第１フレーム画像及び第２フレーム画像を取得するフレーム画像取得ステップと、前記取得された第１フレーム画像及び第２フレーム画像に基づいて、前記第１フレーム画像内で動きのある領域を示す動き情報を取得する動き情報取得ステップと、前記取得された第１フレーム画像に基づいて、前記取得された動き情報により示される前記動きのある領域から、人体の肘及び手首の位置を検出する検出ステップと、前記検出された位置に基づいて、前記取得された動き情報により示される前記動きのある領域のうち、前記手首から前記人体の手側の部分に対応する領域を抽出する抽出ステップと、を備えることを特徴とする。

本発明の更に別の側面は、コンピュータを、時間的に連続する第１フレーム画像及び第２フレーム画像を取得するフレーム画像取得手段と、前記取得された第１フレーム画像及び第２フレーム画像に基づいて、前記第１フレーム画像内で動きのある領域を示す動き情報を取得する動き情報取得手段と、前記取得された第１フレーム画像に基づいて、前記取得された動き情報により示される前記動きのある領域から、人体の肘及び手首の位置を検出する検出手段と、前記検出された位置に基づいて、前記取得された動き情報により示される前記動きのある領域のうち、前記手首から前記人体の手側の部分に対応する領域を抽出する抽出手段と、として機能させることを特徴とする領域抽出プログラムである。

本発明によれば、画像から対象物が映っている領域を、より正確に抽出することができる。

一実施形態に係る画像処理装置１の概要構成の一例を示すブロック図である。一実施形態に係る画像処理装置１のシステム制御部１１及びＧＰＵ１８の機能ブロックの一例を示す図である。画像処理装置１による処理の流れの一例を示す図である。画像処理装置１の動作による効果の一例を示す図である。（ａ）及び（ｂ）は、手１１０側にある領域の抽出例を示す図である。領域６００の拡張例の一例を示す図である。画像処理装置１のシステム制御部１１及びＧＰＵ１８による学習処理の一例を示すフローチャートである。画像処理装置１のシステム制御部１１及びＧＰＵ１８による識別処理の一例を示すフローチャートである。

以下、図面を参照して本発明の実施形態について詳細に説明する。以下に説明する実施形態においては、画像に映るオブジェクトを識別するモデルを生成するための学習の実行と、生成されたモデルを用いてオブジェクトの識別を行う画像処理装置に対して本発明を適用した場合の実施形態である。オブジェクトの識別は、画像内に存在するオブジェクトを認識し又は分類することを含んでもよい。なお、学習を実行する装置と、オブジェクトの識別を行う装置とは別々の装置であってもよい。

［１．画像処理装置の構成］
先ず、画像処理装置１の構成について、図１を用いて説明する。図１は、本実施形態に係る画像処理装置１の概要構成の一例を示すブロック図である。図１に示すように、画像処理装置１は、システム制御部１１と、システムバス１２と、入出力インターフェース１３と、記憶部１４と、通信部１５と、入力部１６と、表示部１７と、ＧＰＵ（Graphics Processing Unit）１８と、ＧＰＵメモリ１９（または、ビデオＲＡＭ）と、撮像部２０と、を備えている。システム制御部１１と入出力インターフェース１３とは、システムバス１２を介して接続されている。画像処理装置１の例として、サーバ装置、パーソナルコンピュータ等が挙げられる。

システム制御部１１は、ＣＰＵ（Central Processing Unit）１１ａ、ＲＯＭ（Read Only Memory）１１ｂ、ＲＡＭ（Random Access Memory）１１ｃ等により構成されている。

入出力インターフェース１３は、システム制御部１１と、記憶部１４、通信部１５、入力部１６、表示部１７、ＧＰＵ１８、ＧＰＵメモリ１９及び撮像部２０と、の間のインターフェース処理を行う。

記憶部１４は、例えば、ハードディスクドライブ又はソリッドステートドライブ等により構成されている。この記憶部１４には、生成されたモデル２、及びモデル２の生成に用いられる訓練データ等が記憶される。訓練データは、動画データ及びその動画データにより示される動画内に存在するオブジェクトのクラスのラベル（Ground Truth）を含む。動画データのフォーマットの例として、Ｈ．２６４、ＭＰＥＧ−２等が挙げられる。記憶部１４には、更にオペレーティングシステム、モデル生成用のプログラム、オブジェクト識別用のプログラム等が記憶されている。訓練データ及び各種プログラムは、例えば、所定のコンピュータからネットワークを介して取得されるようにしてもよいし、光ディスク、メモリカード、磁気テープ等の記録媒体に記録されてドライブ装置を介して読み込まれるようにしてもよい。モデル２を生成する装置とオブジェクトの識別を行う装置とが別々の装置である場合、生成されたモデル２の受け渡しは、ネットワークを介して行われてもよいし、記録媒体を介して行われてもよい。

通信部１５は、例えばネットワークインターフェースコントローラ等により構成されている。通信部１５は、インターネット、ＬＡＮ（Local Area Network）等の所定のネットワークを介して他のコンピュータと接続し、そのコンピュータとの通信状態を制御する。

入力部１６は、オペレータによる操作を受け付け、操作内容に対応する信号をシステム制御部１１に出力する。入力部１６の例として、キーボード、マウス、タッチパネル等が挙げられる。

表示部１７は、例えば、グラフィックコントローラ及びディスプレイ等により構成されている。表示部１７は、システム制御部１１の制御により、画像、文字等の情報を表示する。ディスプレイのパネルの例として、液晶パネル、有機ＥＬ（Light Emitting）パネル等が挙げられる。

ＧＰＵ１８は、システム制御部１１からの制御により、機械学習における行列演算等を実行する。ＧＰＵ１８は、複数の演算を並列にパイプライン処理する。ＧＰＵ１８とＧＰＵメモリ１９とは接続されている。ＧＰＵメモリ１９は、ＧＰＵ１８による演算に用いられるデータや演算結果を記憶する。なお、システム制御部１１が機械学習における全ての演算を実行する場合、ＧＰＵ１８及びＧＰＵメモリ１９は不要である。

撮像部２０は、例えばＣＣＤ（Charge-Coupled Device）センサ、又はＣＭＯＳ（Complementary Metal Oxide Semiconductor）センサ等を備えるデジタルカメラを含む。撮像部２０は、システム制御部１１による制御に基づき、動画を撮像する。撮像部２０は、撮像された動画を示す動画データをシステム制御部１１又は記憶部１４に出力する。学習を実行する装置と、オブジェクトの識別を行う装置とが別々の装置である場合においては、学習を実行する装置は、撮像部２０を備えなくてもよい。また、撮像部２０により撮像される動画からリアルタイムでオブジェクトの識別を実行するのではなく、他のコンピュータ又は記録媒体から取得された動画データからオブジェクトの識別を実行する場合、画像処理装置１は、撮像部２０を備えなくてもよい。

画像処理装置１自身は、入力部１６、表示部１７、ＧＰＵ１８、ＧＰＵメモリ１９及び撮像部２０の少なくとも何れか一は備えなくてもよい。これらのうち少なくとも一つは、有線又は無線を介して画像処理装置１と接続されてもよい。

［２．システム制御部の機能概要］
次に、図２乃至図６を用いて、システム制御部１１及びＧＰＵ１８の機能概要について説明する。図２は、本実施形態に係る画像処理装置１のシステム制御部１１及びＧＰＵ１８の機能ブロックの一例を示す図である。システム制御部１１及びＧＰＵ１８は、ＣＰＵ１１ａが、記憶部１４に記憶されているプログラムに含まれる各種コード等を読み出し実行することにより、図２に示すように、フレーム取得部１１１、動き情報取得部１１２、関節検出部１１３、領域抽出部１１４、訓練部１１５、オブジェクト情報出力部１１６等として機能する。

図３は、画像処理装置１による処理の流れの一例を示す図である。フレーム取得部１１１は、時間的に連続するフレーム画像を取得する。フレーム画像は、動画に含まれる静止画である。フレーム画像の取得元となる動画は、通常は撮像部２０により撮像された動画である。但し、後述するようにモデル２を訓練する場合、フレーム画像の取得元となる動画は、例えば記憶部１４に予め記憶されてもよい。動画には、識別されるべき対象であるオブジェクト１００が映っていると想定される。識別されるべきオブジェクト１００は、人体のパーツとは異なる何かであってもよい。オブジェクト１００の例として、食料品、飲料、文房具、日用品、雑貨等が挙げられる。また、識別されるべきオブジェクト１００は、人体の手１１０で掴まれていると想定される。通常、オブジェクト１００を持った手１１０及び腕１２０が動いているときに、動画が撮像されると想定される。例えば、誰かが、或る場所からオブジェクト１００を取り出したり、オブジェクト１００を元の場所に置こうとしたりするときに、動画が撮像されてもよい。従って、オブジェクト１００と、そのオブジェクト１００を掴んでいる手１１０及び腕１２０は、動画内で動いていると想定される。動画に含まれるフレーム画像のうち、少なくとも一のフレーム画像は、オブジェクト１００を含まなくてもよい。すなわち、オブジェクト１００がフレームアウトしたりフレームインしたりしてもよい。また、幾つかのフレーム画像間においては、オブジェクト１００が全く動かなくてもよい。撮像される動画は、時間的に連続するフレームを含む。時間的に連続するフレームとは、例えば、撮像時刻が連続するフレームである。例えば、フレームレートが30fpsである場合、30分の1秒間隔でフレームが撮像される。フレーム取得部１１１は、撮像順序に従って、動画データから順次フレーム画像を取得してもよい。図３において、フレーム取得部１１１は、例えばフレームｔ−１及びフレームｔを取得する。フレームｔ−１は、動画に含まれるフレーム画像のうち、撮像順序に従ってｔ−１番目のフレーム画像である。フレームｔは、ｔ番目のフレーム画像である。従って、フレームｔ−１とフレームｔとは時間的に連続する。

動き情報取得部１１２は、フレーム取得部１１１により取得されたフレームｔ−１及びフレームｔに基づいて、フレームｔ−１内において動きのある領域２１０を示す動き情報２００を取得する。動き領域２１０は、フレームｔ−１からフレームｔにフレームが変わる際に、視覚的な変化が起こった領域であってもよい。動き領域２１０とは、フレームが変わる際に、フレームｔ−１において動いた何かが占める領域であってもよい。動いている何かとは、例えばオブジェクト１００、手１１０、腕１２０、及び／又はその他の物等であってもよい。前述した想定から、動き領域２１０は、通常、オブジェクト１００、手１１０及び腕１２０が占める領域を少なくとも含むと考えられる。動き情報２００は、動き領域２１０の座標を含んでもよい。或いは、動き情報２００は、フレームｔ−１の各ピクセルについて、動きがあるか否かを示す情報を含んでもよい。或いは、動き情報２００は、フレームｔ−１の各ピクセルについて、移動方向及び移動距離を示すベクトルを含んでもよい。動き情報２００は、例えばオプティカルフローであってもよい。オプティカルフローの一種として、デンスオプティカルフローがある。デンスオプティカルフローは、動き領域を示す。動き情報２００は、デンスオプティカルフローであってもよい。オプティカルフローは、畳み込みニューラルネットワーク（ＣＮＮ）を含むモデルを用いて生成されてもよい。そのようなモデルの例として、FlowNet、FlowNet 2.0、LiteFlowNet等が挙げられる。予め学習済みのモデルが使用されてもよい。オプティカルフローの生成方法として、機械学習を用いない方法が用いられてもよい。そのような方法の例として、ブロックマッチング法、勾配法等が挙げられる。動き情報２００は、オプティカルフローとは異なる情報であってもよい。例えば、動き情報２００は、フレーム間差分法又は背景差分法を用いて生成されてもよい。

関節検出部１１３は、フレーム取得部１１１により取得されたフレームｔ−１に基づいて、動き情報取得部１１２により取得された動き情報２００により示される動きのある領域２１０から、人体の関節の位置を検出する。特に、関節検出部１１３は、人体の肘３１０及び手首３２０の位置を検出する。関節検出部１１３は、肘３１０及び手首３２０の位置の検出に、人体の姿勢推定モデルを用いてもよい。このモデルは、例えばＣＮＮを含んでもよい。姿勢推定モデルの例として、DeepPose、Convolutional Pose Machines、HRNet等が挙げられる。関節検出部１１３は、動き領域２１０から、肘３１０及び手首３２０に加えて、人体の指先及び指の関節の位置を検出してもよい。すなわち、関節検出部１１３は、手１１０を構成する指先及び指の関節の位置を検出してもよい。指先及び関節が検出される指は、親指、人差し指、中指、薬指及び小指のうち少なくとも一つであってもよい。検出される関節は、第１、第２及び第３関節のうち少なくとも一つであってもよい。

領域抽出部１１４は、関節検出部１１３により検出された肘３１０及び手首３２０の位置に基づいて、動き情報取得部１１２により取得された動き情報２００により示される動きのある領域２１０のうち、手首３２０から人体の手１１０側にある部分に対応する領域６００を抽出する。通常、手首３２０を中心として、手１１０及び腕１２０を、手１１０と腕１２０とに分けることができる。例えば、領域抽出部１１４は、検出された位置に基づいて、フレームｔ−１において、肘３１０と手首３２０とを結ぶ直線４１０を計算してもよい。領域抽出部１１４は、手首３２０の位置で、直線４１０と直角に交わる直線４２０を計算してもよい。直線４２０を境として、動き領域２１０のうち、肘３１０が位置する部分が、腕１２０側の部分２２０である。そして、動き領域２１０のうち、肘３１０がない部分が、手１１０側の部分２３０である。

領域抽出部１１４は、手１１０側の部分２３０を特定すると、手１１０側の部分２３０に対応する所定形状の領域６００を設定してもよい。領域６００は、手１１０側の部分２３０を囲う領域であってもよい。これにより、手１１０がオブジェクト１００を掴んでいれば、領域抽出部１１４は、領域６００として、オブジェクト１００を囲う領域を抽出することになる。領域６００は、例えば、バウンディングボックスであってもよい。領域６００の形状は、例えば矩形であってもよいし、その他の形状であってもよい。領域抽出部１１４は、手１１０側の部分２３０の領域において、例えば内角が１８０度未満となる各頂点の座標を特定してもよい。特定される頂点の数は４個であってもよいし、３個又は５個以上であってもよい。図３においては、頂点５１０、５２０、５３０及び５４０が特定される。領域抽出部１１４は、全頂点のＸ座標のうち最小及び最大のＸ座標を特定し、全頂点のＹ座標のうち最小及び最大のＹ座標を特定してもよい。そして、領域抽出部１１４は、特定したＸ座標及びＹ座標に基づいて、領域６００の座標を決定してもよい。例えば、最小のＸ座標及びＹ座標の組み合わせが、領域６００の左上の頂点の座標となり、最大のＸ座標及びＹ座標の組み合わせが、領域６００の右下の頂点の座標となる。領域抽出部１１４は、フレームｔ−１において、設定した領域６００を抽出して、その領域６００に相当する画像６１０を取得する。

図４は、画像処理装置１の動作による効果の一例を示す図である。図４に示すフレームｔ−１には、オブジェクト１００−１及び１００−２が映っている。オブジェクト１００−１は、手１１０で掴まれている。オブジェクト１００−２は、テーブルに置かれている。画像処理装置１は、オブジェクト１００−１及び１００−２の何れも識別可能であるとする。しかしながら、識別すべきオブジェクトは、オブジェクト１００−１である。オブジェクト１００−１を持った手１１０及び腕１２０は動いているので、動画内でオブジェクト１００−１も動いている。一方、オブジェクト１００−２は動かない。従って、動き情報取得部１１２は、オブジェクト１００−１、手１１０及び腕１２０が占める領域を、動き領域２１０として示す動き情報２００を取得する。この動き領域２１０からは、オブジェクト１００−２が占める領域は除外される。そのため、識別すべきではない方のオブジェクト１００−２が映っている領域が抽出されることが防止される。また、関節検出部１１３により、肘３１０及び手首３２０の位置が検出される。肘３１０及び手首３２０の位置に基づいて、領域抽出部１１４は、動き領域２１０から、手１１０が何処にあるかを識別することができる。オブジェクトは手１１０で持たれていると想定されているので、手１１０側の部分２３０を特定することで、識別すべき対象物が映っている領域を、より正確に抽出することができる。

領域抽出部１１４は、動きのある領域２１０のうち、手１１０側にある部分２３０の色と、所定の肌色と、の比較の結果に基づいて、手１１０側にある部分２３０に対応する領域６００の抽出を制御してもよい。この制御は、領域６００に相当する画像６１０を抽出するか否かを制御することであってもよい。領域抽出部１１４は、色の比較に基づいて、手１１０がオブジェクトを掴んでいるか否かを推定する。領域抽出部１１４は、手１１０がオブジェクトを掴んでいると推定される場合にのみ、領域６００を抽出してもよい。

手１１０側にある部分２３０の色は、例えば、この部分２３０の平均色であってもよい。例えば、領域抽出部１１４は、部分２３０内の画素値の平均を計算してもよい。所定の肌色は、例えば人体の手の色であってもよい。例えば、画像処理装置１の管理者により、肌色のＲ、Ｇ及びＢそれぞれの輝度値が予め画像処理装置１に入力されてもよい。或いは、画像処理装置１又はその他の装置が、手が映っている一又は複数の画像から、手の色の平均色を計算してもよい。計算された平均色の数値が、所定の肌色の数値として、記憶部１４に予め記憶されてもよい。

領域抽出部１１４は、例えば手１１０側にある部分２３０の色と所定の肌色との差が所定程度を超える場合に、領域６００を抽出してもよい。領域抽出部１１４は、色の差を、公知のアルゴリズムを用いて計算してもよい。例えば、領域抽出部１１４は、ユークリッド距離を計算してもよい。或いは、領域抽出部１１４は、Ｒ、Ｇ及びＢそれぞれについて輝度値の差を計算し、計算した輝度値の差を合計してもよい。領域抽出部１１４は、色の差の数値が所定の閾値を超える場合にのみ、領域６００を抽出してもよい。手１１０が何かを掴んでいるのであれば、手１１０側の部分２３０は、肌色以外の色を有する画素を比較的多く含む蓋然性がある。この場合、手１１０側の部分２３０の平均色は、肌色から大きく異なる。これにより、手１１０がオブジェクト１００を掴んでいるか否かを推定することができる。

図５（ａ）及び図５（ｂ）は、手１１０側にある領域の抽出例を示す図である。図５（ａ）に示すフレームｔ１−１には、オブジェクト１００を掴んだ手１１０が映っている。ここで、領域抽出部１１４は、手１１０側の部分２３０−１を特定する。領域抽出部１１４は、部分２３０−１の平均色のＲ、Ｇ及びＢそれぞれの輝度値として、４５、６５及び１００を計算する。一方、所定の肌色のＲ、Ｇ及びＢそれぞれの輝度値は、２５０、１８０及び１００である。この場合、色の差が所定程度よりも大きいので、領域抽出部１１４は、手１１０側の部分２３０−１を囲う領域６００−１を抽出する。一方、図５（ａ）に示すフレームｔ２−１には、何も掴んでいない手１１０が映っている。ここで、領域抽出部１１４は、手１１０側の部分２３０−２を特定する。領域抽出部１１４は、部分２３０−２の平均色のＲ、Ｇ及びＢそれぞれの輝度値として、２３０、１９３及び８５を計算する。この場合、色の差が所定程度よりも小さいので、領域抽出部１１４は、手１１０側の部分２３０−２を囲う領域６００−２を抽出しない。

関節検出部１１３により人体の指の関節及び指先の位置が検出された場合、領域抽出部１１４は、抽出される領域６００を修正してもよい。指の関節の位置及び指先の位置により、手１１０に掴まれているオブジェクト１００の位置を或る程度推定することができるので、これらにより領域６００が修正される。例えば、領域抽出部１１４は、指の関節から指先への方向に従って、領域６００を広げてもよい。手１１０にオブジェクト１００が掴まれているとき、フレームｔ−１内において、オブジェクト１００は通常指に重なっている。更に、オブジェクト１００は、指先が向く方向にはみ出す傾向がある。そこで、指先が向く方向に、領域６００に余裕を持たせることで、オブジェクト１００を囲う領域６００を、適切に設定することができる。

指の関節から指先への方向は、第１関節から指先の方向、第２関節から指先の方向、及び第３関節から指先の方向の何れであってもよい。領域抽出部１１４は、例えば第１関節が検出された場合、第１関節から指先への方向を優先して用いてもよい。第１関節が検出されず、第２関節が検出された場合、領域抽出部１１４は、第２関節から指先への方向を用いてもよい。第３関節のみが検出された場合、領域抽出部１１４は、第３関節から指先への方向を用いてもよい。

複数の指それぞれについて関節及び指先の位置が検出された場合に対応するために、何れの指の方向に従うかについて、優先順位が予め定められてもよい。例えば、人差し指、中指、薬指、小指及び親指の順に、優先順位が定められてもよい。人差し指が検出された場合、領域抽出部１１４は、人差し指の関節及び指先の位置に基づいて、領域６００を広げる方向を決定してもよい。人差し指が検出されず、中指が検出された場合、領域抽出部１１４は、中指の関節及び指先の位置に基づいて、領域６００を広げる方向を決定してもよい。領域抽出部１１４は、優先順位を用いるのではなく、検出された複数の指について、関節から指先への方向ベクトルを合成してもよい。そして、領域抽出部１１４は、合成された方向ベクトルに従って、領域６００を広げてもよい。

領域抽出部１１４は、領域６００の元の面積に対して所定割合の面積分、領域６００を広げてもよい。或いは、領域抽出部１１４は、領域６００の縦又は横の辺の長さに対して所定割合の長さ分、領域６００を広げてもよい。

領域抽出部１１４は、上下左右の方向うち、指の関節から指先への方向に最も近い方向に、領域６００を広げてもよい。或いは、領域抽出部１１４は、指の関節から指先への方向ベクトルのＸ成分及びＹ成分それぞれに応じた方向に、領域６００を広げてもよい。例えば、指先の方向が右上の方向である場合、領域抽出部１１４は、領域６００を、右方向及び上方向に広げてもよい。この場合、領域抽出部１１４は、方向ベクトルのＸ成分とＹ成分との比率に応じて、横方向における領域６００の拡張量と、縦方向における領域６００の拡張量との比率を決定してもよい。

図６は、領域６００の拡張例の一例を示す図である。図６に示されるフレームｔ−１には、オブジェクト１００を掴んだ手１１０が映っている。ここで、関節検出部１１３は、手１１０から、人差し指、中指、薬指及び小指それぞれについて、関節７１０の位置及び指先７２０の位置を検出した。各指において、関節７１０から指先７２０への方向８００は、略左方向である。そこで、領域抽出部１１４は、領域６００を、左方向へ所定割合拡張してもよい。

図３に戻り、訓練部１１５は、領域抽出部１１４により抽出された領域６００の画像６１０を用いて、画像内のオブジェクトを識別するためのモデル２を訓練する。モデル２は、分類器であってもよい。モデル２は、画像６１０における各クラスのオブジェクトの存在確率を示すオブジェクト情報６２０を出力してもよい。モデル２はＣＮＮであってもよい。ＣＮＮの例として、ResNet、GoogleNet、AlexNet、VGGNet等が挙げられる。手１１０で掴まれているオブジェクト１００の画像が、モデル２の訓練に用いられるので、識別すべきオブジェクト１００を適切に識別するモデル２を生成することができる。ここで、識別すべきオブジェクトのクラスに加えて、「エンプティ」クラスが定義されてもよい。「エンプティ」クラスは、手１１０が何も掴んでいないことを示すクラスである。撮像部２０により撮像される動画には、何も掴んでいない手１１０が映っている場合がある。こうした状況に対応するために、「エンプティ」クラスが定義される。訓練部１１５は、識別すべき各クラスのオブジェクトを掴んだ手１１０が映っている動画から抽出された画像６１０を用いて、モデル２を訓練するとともに、何も掴んでいない手１１０が映っている動画から抽出された画像６１０を用いて、モデル２を訓練してもよい。なお、画像処理装置１以外の装置でモデル２が訓練される場合、又は訓練済みのモデルを用いて画像処理装置１がオブジェクト１００を識別する場合、画像処理装置１において、訓練部１１５は不要である。

オブジェクト情報出力部１１６は、領域抽出部１１４により抽出された領域６００の画像６１０を、所定のモデルに入力することにより、抽出された領域６００に存在するオブジェクト１００を示すオブジェクト情報６２０を出力する。これにより、オブジェクト１００が識別される。用いられるモデルは、画像内のオブジェクトを識別するためのモデルである。このモデルは、画像６１０における各クラスのオブジェクトの存在確率を示すオブジェクト情報６２０を出力する。このモデルは分類器であってもよい。このモデルは、訓練部１１５により訓練されたモデル２であってもよい。或いは、このモデルは、訓練部１１５による訓練とは別の方法で訓練されたモデルであってもよい。例えば、このモデルは、識別すべき各クラスのオブジェクトを掴んだ手１１０が映っている動画又は静止画を用いて訓練されたモデルであってもよい。画像処理装置１は、オブジェクト情報出力部１１６により出力されたオブジェクト情報６２０において、例えば出現確率が最も高く、且つその出現確率が所定の閾値を超えるクラスを、オブジェクト１００のクラスに決定してもよい。画像処理装置１は、「エンプティ」クラスの出現確率が最も高い場合、識別すべきオブジェクトは何も映っていないと決定してもよい。オブジェクト情報出力部１１６は、オブジェクトの識別結果として、オブジェクト情報に加えて、領域６００の座標及びサイズを出力してもよい。なお、画像処理装置１以外の装置でオブジェクト１００を識別する場合、画像処理装置１において、オブジェクト情報出力部１１６は不要である。

［３．画像処理装置の動作］
次に、画像処理装置１の動作について、図７及び図８を用いて説明する。図７は、画像処理装置１のシステム制御部１１及びＧＰＵ１８による学習処理の一例を示すフローチャートである。モデル生成用のプログラムに含まれるプログラムコードに従って、システム制御部１１及びＧＰＵ１８は学習処理を実行する。例えば、入力部１６を用いたオペレータからの指示に応じて、学習処理が実行されてもよい。

図７に示すように、フレーム取得部１１１は、記憶部１４に記憶された訓練データに含まれる第一組の動画データ及びクラスのラベルを取得する（ステップＳ１０１）。次いで、フレーム取得部１１１は、フレーム番号ｔを１に設定する（ステップＳ１０２）。次いで、フレーム取得部１１１は、取得された動画データから、フレームｔを取得する（ステップＳ１０３）。

次いで、フレーム取得部１１１は、フレーム番号ｔを１増加させる（ステップＳ１０４）。フレーム取得部１１１は、取得された動画データから、フレームｔを取得する（ステップＳ１０５）。次いで、動き情報取得部１１２は、フレームｔ−１及びフレームｔに基づいて、動き情報２００を取得する（ステップＳ１０６）。例えば、動き情報取得部１１２は、デンスオプティカルフロー生成用のモデルに、フレームｔ−１及びフレームｔを入力することにより、動き情報２００を取得する。この時点におけるフレームｔ−１は、ステップＳ１０２で取得されたフレームである。

次いで、関節検出部１１３は、フレームｔ−１において、動き情報２００により示される動き領域２１０から、肘３１０及び手首３２０それぞれの位置を検出する（ステップＳ１０７）。例えば、関節検出部１１３は、姿勢推定モデルにフレームｔ−１を入力することにより、肘３１０及び手首３２０それぞれの座標を取得する。関節検出部１１３は、取得された座標から、動き領域２１０内の位置を示す座標を抽出する。

次いで、領域抽出部１１４は、取得された座標に基づいて、動き情報２００により示される動き領域２１０のうち、手１１０側の領域２３０を特定する（ステップＳ１０８）。例えば、領域抽出部１１４は、手首３２０を通る境界線４２０を計算する。領域抽出部１１４は、動き領域２１０を、境界線４２０で２つの領域に分割する。領域抽出部１１４は、これらの２つの領域のうち、肘３１０が位置していない領域を、手１１０側の部分２３０として特定する。

次いで、領域抽出部１１４は、特定された手１１０側の部分２３０の平均色を計算する。そして、領域抽出部１１４は、部分２３０の平均色と所定の肌色との差を計算する（ステップＳ１０９）。次いで、領域抽出部１１４は、計算された色の差が、所定の閾値よりも大きいか否かを判定する（ステップＳ１１０）。色の差が閾値よりも大きい場合（ステップＳ１１０：ＹＥＳ）、領域抽出部１１４は、手１１０側の部分２３０に対応する領域６００を抽出する（ステップＳ１１１）。例えば、領域抽出部１１４は、部分２３０の各頂点の座標を特定する。領域抽出部１１４は、全頂点の座標から、最小のＸ座標及びＹ座標と、最大のＸ座標及びＹ座標を決定する。領域抽出部１１４は、決定された座標を用いて、領域６００の座標を決定する。なお、ステップＳ１０１において取得されたクラスのラベルが「エンプティ」である場合、領域抽出部１１４は、ステップＳ１０９及びＳ１１０を省略して、常に領域６００を設定してもよい。

次いで、関節検出部１１３は、フレームｔ−１において、動き情報２００により示される動き領域２１０から、指の関節７１０及び指先７２０それぞれの位置を検出する（ステップＳ１１２）。なお、関節検出部１１３は、ステップＳ１０７において、肘３１０及び手首３２０の位置とともに、指の関節７１０及び指先７２０の位置を検出しておいてもよい。

次いで、領域抽出部１１４は、検出された関節７１０及び指先７２０の位置に基づいて、関節７１０から指先７２０への方向を特定する（ステップＳ１１３）。例えば、領域抽出部１１４は、第１関節を特定し、第１関節から指先への方向のベクトルを計算する。複数の指について関節及び指先が検出された場合、領域抽出部１１４は、例えば優先順位に従って、何れの指の方向を用いるかを決定する。領域抽出部１１４は、指先の方向ベクトルのＸ成分に基づいて、領域６００を左右何れの方向に拡張するか、及び拡張量を決定する。また、領域抽出部１１４は、方向ベクトルのＹ成分に基づいて、領域６００を上下何れの方向に拡張するか、及び拡張量を決定する。次いで、領域抽出部１１４は、決定された方向及び拡張量に従って、領域６００を拡張し、拡張された領域６００の座標を取得する（ステップＳ１１４）。

次いで、領域抽出部１１４は、フレームｔ−１から、設定された領域６００に相当する画像６１０を抽出する（ステップＳ１１５）。次いで、訓練部１１５は、抽出された画像６１０をモデル２に入力して、オブジェクト情報６２０を取得する（ステップＳ１１６）。次いで、訓練部１１５は、取得されたオブジェクト情報６２０と、ステップＳ１０１で取得されたクラスのラベルとの間の誤差を計算する。そして、訓練部１１５は、計算された誤差を逆伝播することにより、モデル２の重み及びバイアスを更新する（ステップＳ１１７）。なお、説明の便宜上、一フレームごとに重みが更新されているが、例えば所定数のフレームを含むバッチごとに又は動画データごとに重みが更新されてもよい。

次いで、訓練部１１５は、取得された動画データの中に、フレームｔ＋１があるか否かを判定する（ステップＳ１１８）。フレームｔ＋１がある場合（ステップＳ１１８：ＹＥＳ）、処理はステップＳ１０４に進む。

フレームｔ＋１がない場合（ステップＳ１１８：ＮＯ）、又は色の差が閾値よりも大きくはない場合（ステップＳ１１０：ＮＯ）、訓練部１１５は、訓練データの中に次の動画データがあるか否かを判定する（ステップＳ１１９）。次の動画データがある場合（ステップＳ１１９：ＹＥＳ）、フレーム取得部１１１は、訓練データから、次の組の動画データ及びクラスのラベルを取得して（ステップＳ１２０）、処理はステップＳ１０２に進む。一方、次の動画データがない場合（ステップＳ１１９：ＮＯ）、訓練部１１５は、学習を終了させるか否かを判定する（ステップＳ１２０）。例えば、予め設定されたエポック数に相当する回数学習が実行された場合、訓練部１１５は、学習を終了させると判定してもよい。或いは、訓練部１１５は、テストデータを用いてオブジェクトの識別を行うことにより、識別誤差を計算してもよい。訓練部１１５は、計算された識別誤差の平均値が所定値未満である場合、学習を終了させると判定してもよい。学習が終了しない場合（ステップＳ１２１：ＮＯ）、処理はステップＳ１０１に進む。学習が終了する場合（ステップＳ１２１：ＹＥＳ）、学習処理は終了する。

図８は、画像処理装置１のシステム制御部１１及びＧＰＵ１８による識別処理の一例を示すフローチャートである。図８において、図７と同一のステップについては同一の符号が付されている。図８に示す処理例は、撮像部２０により撮像される動画からリアルタイムでオブジェクトを識別する場合の処理例である。例えば、図７に示す学習処理による学習が完了したモデル２を用いて、識別処理が実行される。システム制御部１１及びＧＰＵ１８は、オフジェクト識別用のプログラムに含まれるプログラムコードに従って、識別処理を実行する。例えば、システム制御部１１からの指示に基づいて、撮像部２０による動画の撮像が開始されたとき、識別処理が実行されてもよい。

図８に示すように、フレーム取得部１１１は、フレーム番号ｔを０に設定する（ステップＳ２０１）。次いで、フレーム取得部１１１は、フレーム番号ｔを１増加させる（ステップＳ２０２）。次いで、フレーム取得部１１１は、撮像部２０から、最新のフレームを、フレームｔとして取得する（ステップＳ２０３）。

次いで、フレーム取得部１１１は、フレーム番号ｔが１より大きいか否かを判定する（ステップＳ２０４）。フレーム番号ｔが１より大きくはない場合（ステップＳ２０４：ＮＯ）、処理はステップＳ２０２に進む。

一方、フレーム番号ｔが１より大きい場合（ステップＳ２０４：ＹＥＳ）、ステップＳ１０６〜Ｓ１１０が実行される。ステップＳ１１０において、色の差が閾値よりも大きい場合（ステップＳ１１０：ＹＥＳ）、ステップＳ１１１〜Ｓ１１５が実行される。次いで、オブジェクト情報出力部１１６は、ステップＳ１１５で抽出された画像６１０をモデル２に入力することにより、オブジェクト情報６２０を出力する（ステップＳ２０５）。

ステップＳ２０５の後、又は色の差が閾値よりも大きくはない場合（ステップＳ１１０：ＮＯ）、オブジェクト情報出力部１１６は、オブジェクトの識別を終了させるか否かを判定する（ステップＳ２０６）。識別が終了する条件は、画像処理装置１の用途に応じて予め定められていてもよい。識別が終了しない場合（ステップＳ２０６：ＮＯ）、処理はステップＳ２０２に進む。一方、識別が終了する場合（ステップＳ２０６：ＹＥＳ）、識別処理は終了する。

以上説明したように、本実施形態によれば、画像処理装置１が、時間的に連続するフレームｔ−１及びフレームｔを取得する。また、画像処理装置１が、取得されたフレームｔ−１及びフレームｔに基づいて、フレームｔ−１内で動きのある領域２１０を示す動き情報２００を取得する。また、画像処理装置１が、取得されたフレームｔ−１に基づいて、取得された動き情報２００により示される動きのある領域２１０から、人体の肘３１０及び手首３２０の位置を検出する。また、画像処理装置１が、検出された位置に基づいて、取得された動き情報２００により示される動きのある領域２１０のうち、手首３２０から人体の手１１０側の部分２３０に対応する領域６００を抽出する。手１１０で掴まれているオブジェクト１００は、画像内において、手１１０と重なっているので、手１１０側の部分に対応する領域６００を抽出することで、オブジェクト１００が映っている領域６００を、より正確に抽出することができる。

ここで、画像処理装置１が、手１１０側の部分２３０の色と、所定の肌色と、の比較の結果に基づいて、手１１０側の部分２３０に対応する領域６００の抽出を制御してもよい。この場合、手１１０側の部分２３０の色と所定の肌色とを比較することで、手１１０がオブジェクト１００を掴んでいるか否かを推定することができる。これにより、領域６００の抽出が制御されるので、オブジェクト１００が映っていない領域を抽出することを抑制することができる。

ここで、画像処理装置１が、手１１０側の部分２３０の色と肌色との差が所定程度を超える場合に、手１１０側の部分２３０に対応する領域６００を抽出してもよい。この場合、オブジェクト１００が映っていない領域を抽出することを抑制することができる。

また、画像処理装置１が、動きのある領域２１０から、人体の指の関節７１０及び指先７２０の位置を更に検出してもよい。また、画像処理装置１が、指の関節７１０及び指先７２０の位置に基づいて、抽出される領域６００を修正してもよい。この場合、検出される指の関節７１０及び指先７２０の位置に基づいて、手１１０で掴まれているオブジェクト１００の位置を推定することができるので、オブジェクト１００が映る領域６００を、より適切に設定することができる。

ここで、画像処理装置１が、指の関節７１０から指先７２０への方向に従って、抽出される領域６００を広げてもよい。この場合、指先の方向に領域６００が広げられるので、オブジェクト１００が映る領域を、より適切に設定することができる。

また、画像処理装置１が、所定の姿勢推定モデルを用いて、肘３１０及び手首３２０の位置を検出してもよい。

また、画像処理装置１が、抽出された領域６００の画像６１０を用いて、画像内のオブジェクト１００を識別するためのモデル２を訓練してもよい。この場合、動きのある領域２１０のうち、手１１０側の部分２３０に対応する領域６００の画像６１０で、モデルが訓練される。従って、フレームｔ−１のうち、手１１０で掴まれているオブジェクト１００が映っている部分の画像６１０が訓練に用いられるので、より適切にオブジェクト１００を識別するように、モデル２を訓練することができる。

また、画像処理装置１が、抽出された領域６００の画像６１０を、所定のモデルに入力することにより、抽出された領域６００に存在するオブジェクト１００を示すオブジェクト情報６２０を出力してもよい。この場合、動きのある領域２１０のうち、手１１０側の部分２３０に対応する領域６００の画像６１０から、手１１０で掴まれているオブジェクト１００を示す情報が出力される。従って、手で掴まれていないオブジェクト１００の識別が防止されるので、本来識別されるべきオブジェクト１００を識別することができる。

また、取得される動き情報２００は、デンスオプティカルフローであってもよい。

１画像処理装置
１１システム制御部
１２システムバス
１３入出力インターフェース
１４記憶部
１５通信部
１６入力部
１７表示部
１８ＧＰＵ
１９ＧＰＵメモリ
２０撮像部
１１１フレーム取得部
１１２動き情報取得部
１１３関節検出部
１１４領域抽出部
１１５訓練部
１１６オブジェクト情報出力部
２モデル

Claims

時間的に連続する第１フレーム画像及び第２フレーム画像を取得するフレーム画像取得手段と、
前記取得された第１フレーム画像及び第２フレーム画像に基づいて、前記第１フレーム画像内で動きのある領域を示す動き情報を取得する動き情報取得手段と、
前記取得された第１フレーム画像に基づいて、前記取得された動き情報により示される前記動きのある領域から、人体の肘及び手首の位置を検出する検出手段と、
前記検出された位置に基づいて、前記取得された動き情報により示される前記動きのある領域のうち、前記手首から前記人体の手側の部分に対応する領域を抽出する抽出手段と、
を備えることを特徴とする領域抽出装置。
前記抽出手段は、前記手側の部分の色と、所定の肌色と、の比較の結果に基づいて、前記手側の部分に対応する前記領域の抽出を制御することを特徴とする請求項１に記載の領域抽出装置。
前記抽出手段は、前記手側の部分の色と前記肌色との差が所定程度を超える場合に、前記手側の部分に対応する前記領域を抽出することを特徴とする請求項２に記載の領域抽出装置。
前記検出手段は、前記動きのある領域から、前記人体の指の関節及び指先の位置を更に検出し、
前記抽出手段は、前記指の関節及び指先の位置に基づいて、前記抽出される領域を修正することを特徴とする請求項１乃至３の何れか一項に記載の領域抽出装置。
前記抽出手段は、前記指の関節から前記指先への方向に従って、前記抽出される領域を広げることを特徴とする請求項４に記載の領域抽出装置。
前記検出手段は、所定の姿勢推定モデルを用いて、前記肘及び前記手首の位置を検出することを特徴とする請求項１乃至５の何れか一項に記載の領域抽出装置。
前記抽出された領域の画像を用いて、画像内のオブジェクトを識別するためのモデルを訓練する訓練手段を更に備えることを特徴とする請求項１乃至６の何れか一項に記載の領域抽出装置。
前記抽出された領域の画像を、所定のモデルに入力することにより、前記抽出された領域に存在するオブジェクトを示すオブジェクト情報を出力する出力手段を更に備えることを特徴とする請求項１乃至７の何れか一項に記載の領域抽出装置。
前記取得される動き情報は、デンスオプティカルフローであることを特徴とする請求項１乃至８の何れか一項に記載の領域抽出装置。
コンピュータにより実行される領域抽出方法において、
時間的に連続する第１フレーム画像及び第２フレーム画像を取得するフレーム画像取得ステップと、
前記取得された第１フレーム画像及び第２フレーム画像に基づいて、前記第１フレーム画像内で動きのある領域を示す動き情報を取得する動き情報取得ステップと、
前記取得された第１フレーム画像に基づいて、前記取得された動き情報により示される前記動きのある領域から、人体の肘及び手首の位置を検出する検出ステップと、
前記検出された位置に基づいて、前記取得された動き情報により示される前記動きのある領域のうち、前記手首から前記人体の手側の部分に対応する領域を抽出する抽出ステップと、
を備えることを特徴とする領域抽出方法。
コンピュータを、
時間的に連続する第１フレーム画像及び第２フレーム画像を取得するフレーム画像取得手段と、
前記取得された第１フレーム画像及び第２フレーム画像に基づいて、前記第１フレーム画像内で動きのある領域を示す動き情報を取得する動き情報取得手段と、
前記取得された第１フレーム画像に基づいて、前記取得された動き情報により示される前記動きのある領域から、人体の肘及び手首の位置を検出する検出手段と、
前記検出された位置に基づいて、前記取得された動き情報により示される前記動きのある領域のうち、前記手首から前記人体の手側の部分に対応する領域を抽出する抽出手段と、
として機能させることを特徴とする領域抽出プログラム。