JP7501858B2

JP7501858B2 - 判定方法及び情報処理装置

Info

Publication number: JP7501858B2
Application number: JP2022093269A
Authority: JP
Inventors: 和広佐伯; 宏一角崎; 遼平岩橋; 祥平久保田; 力峰張; 施周
Original assignee: Kyushu Institute of Technology NUC
Current assignee: Kyushu Institute of Technology NUC
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2024-06-18
Anticipated expiration: 2042-06-08
Also published as: JP2023180133A

Description

特許法第３０条第２項適用ｈｔｔｐｓ：／／ｗｗｗ２．ｉａ－ｅｎｇｉｎｅｅｒｓ．ｏｒｇ／ｃｏｎｆｅｒｅｎｃｅ／ｉｎｄｅｘ．ｐｈｐ／ｉｃｉａｅ／ｉｃｉａｅ２０２２／ｐａｐｅｒ／ｖｉｅｗＦｉｌｅ／２５９７／１６８５，２０２２年３月２６日

特許法第３０条第２項適用ｈｔｔｐｓ：／／ｗｗｗ２．ｉａ－ｅｎｇｉｎｅｅｒｓ．ｏｒｇ／ｃｏｎｆｅｒｅｎｃｅ／ｉｎｄｅｘ．ｐｈｐ／ｉｃｉａｅ／ｉｃｉａｅ２０２２／ｐａｐｅｒ／ｖｉｅｗ／２５９７，２０２２年３月２６日

本願発明は、判定方法及び情報処理装置に関し、特に、対象物品群を撮影して得られた対象撮影データに含まれる各対象物品を、学習データを利用して判定する判定システムにおける判定方法等に関する。

学習データの整備は、大きなコストを要する。学習データの整備には、画像データなどの収集に加えて、画像データなどへのラベル付け等のアノテーションの付加が含まれる。近年、このコストを軽減するための技術として、ルールベースのデータ拡張が注目されている（特許文献１参照）。

特開２０２０－３４９９８号公報

しかしながら、特許文献１記載の手法では、現実にはあり得ない画像（例えば猫と犬を組み合わせたような画像）が学習データとなってしまうリスクがある。

そこで、本願発明は、学習データを容易に拡張できることに適した判定方法等を提案することを目的とする。

本願発明の第１の側面は、対象物品群を撮影して得られた対象撮影データに含まれる各対象物品を、学習データを利用して判定する判定システムにおける判定方法であって、情報処理装置と、前記対象物品群を撮影する施設撮影部を備え、前記情報処理装置は、検出処理部と、合成処理部と、学習処理部と、判定処理部を備え、前記検出処理部が、複数の検出可能物品について個々の検出可能物品を別々に撮影した個別撮影データから個別データを生成する個別データ生成ステップと、前記合成処理部が、複数の前記個別データを組み合わせて学習データを生成するデータ拡張ステップと、前記学習処理部が、前記学習データを利用して前記判定処理部に対して学習処理を行う学習ステップと、前記施設撮影部が、前記対象物品群を撮影して前記対象撮影データを得る対象撮影ステップと、前記判定処理部が、前記対象撮影データに含まれる各対象物品を判定する判定ステップを含む。

本願発明の第２の側面は、第１の側面の判定方法であって、前記対象撮影データは、施設撮影部が、前記対象物品群を、施設照明部が光を照射した施設ステージに載せた状態を撮影したものであり、前記施設ステージと、前記合成処理部が複数の前記個別データを組み合わせて学習データを生成するために使用する背景データは、無地であり、前記施設撮影部は、前記施設ステージにおいて前記対象物品群の影が生じないように光を照射し、前記判定処理部は、画像処理領域の物品識別と物品認識を行うものであって、物品認識前のセグメンテーション作業が不要なものである。

本願発明の第３の側面は、第１の側面の判定方法であって、新たに検出する検出可能物品を追加する場合に、前記検出処理部が、前記新たに検出する検出可能物品を撮影した個別撮影データから個別データを生成し、前記合成処理部が、前記新たに検出する検出可能物品の個別データと、既に検出できる検出可能物品の個別データとを組み合わせて配置して学習データを生成するステップを含む。

本願発明の第４の側面は、第１の側面の判定方法であって、検出可能物品を削除する場合に、前記合成処理部が、前記学習データのうち、削除する検出可能物品を含むものを削除するステップを含む。

本願発明の第５の側面は、対象物品群を撮影して得られた対象撮影データに含まれる各対象物品を、学習データを利用して判定する情報処理装置であって、複数の検出可能物品について個々の検出可能物品を別々に撮影した個別撮影データから個別データを生成する検出処理部と、複数の前記個別データを組み合わせて学習データを生成する合成処理部を備える。

本願発明の各側面によれば、個別データを組み合わせて学習データを生成することにより、容易にデータ拡張を実現することができる。

本願発明の実施の形態の一例である判定システムの構成の一例を示すブロック図である。最初の検出可能物品の学習データを生成する処理の一例を示すフロー図である。図２の各ステップの具体例を説明するための図である。検出可能物品を追加する場合に、学習データを生成する処理の一例を示すフロー図である。図４の各ステップの具体例を説明するための図である。検出可能物品を削除する場合の処理の一例を示すフロー図である。学習処理部４５による処理の一例を説明するためのフロー図である。対象物品群３３の判定処理の一例を示すフロー図である。商品の領域を検出して切り出す処理を説明するための図である。合成処理部４３による個々の物品のエッジ処理の一例を示す図である。訓練結果を示す図である。 10-fold交差検証を実施した結果を示すグラフである。（ａ）評価時と（ｂ）訓練時の損失を示す。

以下では、図面を参照して、本願発明の実施例について説明する。なお、本願発明は、この実施例に限定されるものではない。

図１は、本願発明の実施の形態の一例である判定システムの構成の一例を示すブロック図である。

判定システム１は、管理装置３と、施設装置５と、情報処理装置７と、物品処理サーバ９を備える。

判定システム１において、施設装置５の施設撮影部２５は、対象物品群（図１の例では対象物品群３３）を撮影して対象撮影データを得る。情報処理装置７の判定部３７は、対象撮影データにおいて撮影されている対象物品を判定する。

図１において、対象物品は、判定部３７による判定処理の対象となる物品であり、本願請求項の「対象物品」の一例である。対象物品群は、一つ又は複数の対象物品である。検出可能物品は、判定部３７により検出できる物品である。

管理装置３は、判定部３７により判定することができる検出可能物品（図１の例では検出可能物品２１）を個別に撮影して個別撮影データを得る。管理装置３は、管理通信部１１と、管理撮影部１３と、管理操作部１５と、管理照明部１７と、管理ステージ１９を備える。一つの検出可能物品２１は、管理ステージ１９に載せられる。

管理照明部１７は、管理ステージ１９に対して、光を均一に照らして明るくする。管理撮影部１３は、管理照明部１７により光を均一に照らされて明るくされた状態の管理ステージ１９に載せられた検出可能物品２１を撮影して、個別撮影データを得る。

ここで、管理照明部１７が管理ステージ１９に光を均一に照らすことは、少なくとも管理撮影部１３によって撮影される管理ステージ１９の領域をほぼ一様に明るくすることを意味する。例えば、管理撮影部１３によって撮影される管理ステージ１９の領域において、照らされる光量の違いは１０％以内である。さらに、複数方向（例えば四方）からライティングすることで影を飛ばす。

また、個別撮影データにおいて、検出可能物品２１を撮影した部分は前景となり、管理ステージ１９を撮影した部分は単純な背景となる。ここで、単純な背景は、例えば、無地で、単一の色で一様に配色されたものである。

施設装置５は、店舗、物流施設（貨物などの保管・仕分けなどのための施設。物流センター、倉庫など）などにおいて、判定部３７による判定処理の対象となる対象物品群（図１の例では対象物品群３３）を撮影して対象撮影データを得る。図１では、無人店舗に設けて、購入者が購入する商品群を撮影させて決済をすることを例に説明する。施設装置５は、施設通信部２３と、施設撮影部２５と、施設操作部２７と、施設照明部２９と、施設ステージ３１を備える。対象物品群３３は、施設ステージ３１に載せられる。

施設照明部２９は、施設ステージ３１に対して、光を均一に照らして明るくする。施設撮影部２５は、施設照明部２９により光を均一に照らされて明るくされた状態の施設ステージ３１に載せられた対象物品群３３を撮影して、対象撮影データを得る。

ここで、施設照明部２９が施設ステージ３１に光を均一に照らすことは、少なくとも施設撮影部２５によって撮影される施設ステージ３１の領域をほぼ一様に明るくすることを意味する。例えば、施設撮影部２５によって撮影される施設ステージ３１の領域において照らされる光量の違いは１０％以内である。さらに、複数方向（例えば四方）からライティングすることで影を飛ばす。

また、対象撮影データにおいて、対象物品群３３を撮影した部分は前景となり、施設ステージ３１を撮影した部分は単純な背景となる。ここで、単純な背景は、例えば、単一の色で一様に配色されたものである。

情報処理装置７は、学習部３５と、判定部３７を備える。学習部３５は、個別撮影データによって得られた学習データを用いて、判定部３７に対して学習処理を行う。判定部３７は、学習処理によって、対象撮影データにおいて撮影された対象物品を判定する。

学習部３５は、学習通信部３９と、検出処理部４１と、合成処理部４３と、学習処理部４５と、個別撮影データ記憶部４７と、背景データ記憶部４９と、個別データ記憶部５１と、学習データ記憶部５３を備える。

判定部３７は、判定通信部５５と、判定処理部５７と、対象撮影データ記憶部６１と、判定結果記憶部６３を備える。

物品処理サーバ９は、例えば決済などの処理を行う者である。物品処理サーバ９は、物品処理通信部６５と、物品関連処理部６７を備える。

なお、各通信部は、他の装置やサーバとデータの送信及び／又は受信をするためのものであり、無線及び／又は有線による通信装置によって実現することができる。各処理部は、情報処理を行うための情報処理装置であり、例えばプログラムの制御によって動作するプロセッサなどで実現することができる。各記憶部は、データを記憶する記憶装置であり、例えばメモリなどによって実現することができる。

また、図１において、管理装置３、施設装置５及び情報処理装置７は、一つ又は複数の装置によって実現してもよい。例えば、物理的には、管理通信部１１、管理撮影部１３、管理操作部１５、管理照明部１７及び管理ステージ１９は、それぞれ、施設通信部２３、施設撮影部２５、施設操作部２７、施設照明部２９及び施設ステージ３１と同じものであってもよい。また、情報処理装置７は、パソコンなどで実現し、管理装置３及び施設装置５と有線又は無線で接続して通信を行うものであってもよい。

図２は、最初の検出可能物品の学習データを生成する処理の一例を示すフロー図である。図３は、図２の各ステップの具体例を説明するための図である。図３では、物品Ａが最初の検出可能物品であり、観点１及び観点２という２つの観点から撮影する場合について説明する。

管理装置３を利用する管理者は、管理ステージ１９に最初の１つの検出可能物品２１を載せる。管理撮影部１３は、例えばカメラである。管理操作部１５は、例えばタッチパネルである。管理撮影部１３は、管理者が管理操作部１５を操作して指示したことに従って管理ステージ１９に載せられた検出可能物品２１を撮影して、静止画像である個別撮影データを得る。管理者は、必要に応じて検出可能物品２１を異なる向きに変更して、異なる観点からの個別撮影データを得る。管理者は、管理操作部１５を操作して、最初の検出可能物品２１についての処理を指示する。管理通信部１１は、情報処理装置７に、最初の検出可能物品２１について処理することと、最初の検出可能物品２１を一つ又は複数の観点から撮影して得られた個別撮影データを送信する。

学習通信部３９は、管理通信部１１から個別撮影データを受信する。個別撮影データ記憶部４７は、個別撮影データを記憶する（ステップＳＴＡ１）。検出処理部４１は、各観点に対応する個別撮影データにおいて、背景の部分（管理ステージ１９が撮影されている部分）とは区別して、前景の部分（検出可能物品２１が検出されている部分）を検出する（ステップＳＴＡ２）。検出処理部４１は、前景の部分を特定する情報を利用して、必要に応じた処理を行い、検出可能物品２１について各観点から撮影された場合の静止画像を生成するための個別データを得る（ステップＳＴＡ３）。個別データ記憶部５１は、個別データを記憶する。

ステップＳＴＡ１～ＳＴＡ３について、図３（ａ）及び（ｂ）は、物品Ａを観点１から撮影した場合の処理を説明するための図である。図３（ａ）は、物品Ａを観点１から撮影して得られた個別撮影データを示す。図３（ｂ）は、図３（ａ）の個別撮影データにおいて、斜線部である背景部分から区別して、物品Ａが撮影されている部分を特定することなどにより得られた、物品Ａを観点１から撮影したとする場合の静止画像を生成するための個別データを示す。

ステップＳＴＡ１～ＳＴＡ３について、図３（ｃ）及び（ｄ）は、物品Ａを、観点１とは異なる観点２から撮影した場合の処理を説明するための図である。図３（ｃ）は、物品Ａを観点２から撮影して得られた個別撮影データを示す。図３（ｄ）は、図３（ｃ）の個別撮影データにおいて、斜線部である背景部分から区別して、物品Ａが撮影されている部分を特定することなどにより得られた、物品Ａを観点２から撮影したとする場合の静止画像を生成するための個別データを示す。ここで、学習データにおける画像データでは、例えば偽境界を除去することなどの処理を行ってもよい。また、分布関数（距離・角度など）を利用して商品配置位置を決定してもよい。また、物品間でオーバーラップの有無を設定できるようにしてもよい。

ここで、例えば、検出処理部４１は個別データの候補を生成するものとし、管理装置３の管理者の確認によって個別データとするようにしてもよい。例えば、学習通信部３９は、管理装置３に個別データの候補を送信する。管理装置３は、管理操作部１５に個別データの候補を表示する。管理通信部１１は、管理者が管理操作部１５を操作して個別データの候補を確認したことを認識すると、このことを情報処理装置７に伝える。検出処理部４１は、管理者の確認の下で、個別データの候補を、個別データとして確定する。

図２を参照して、合成処理部４３は、背景データ記憶部４９から背景データを取得する（ステップＳＴＡ４）。背景データは、例えば、施設照明部２９による照明の下で、施設ステージ３１を施設撮影部２５で撮影した場合に得られる画像と実質的に同一のデータである。背景データ記憶部４９は、背景データを予め記憶している。

合成処理部４３は、管理撮影部１３が各観点から検出可能物品を撮影する場合に得られることが期待される画像データと、この画像データにおいて検出可能物品を解釈するためのアノテーションデータを生成する（ステップＳＴＡ５）。この画像データとアノテーションデータの組み合わせが、学習データとなる。合成処理部４３は、学習データを、学習データ記憶部５３に記憶する。なお、例えば管理撮影部１３と施設撮影部２５が同じものである場合などでは、この画像データについては、例えば、背景データなどに代えて、又は、と共に、個別撮影データを利用してもよい。

図３（ｅ）及び（ｆ）は、それぞれ、観点１及び観点２についての物品Ａの個別データを利用して得られる学習データにおいて、画像データの一例を示す。

合成処理部４３は、施設ステージ３１に複数の検出可能物品を置いた場合に施設撮影部２５が撮影して得られることが期待される画像データと、この画像データにおいて検出可能物品を解釈するためのアノテーションデータを生成する（ステップＳＴＡ６）。この複数の検出可能物品を置いた場合として得られた画像データとアノテーションデータの組み合わせが、データ拡張のための学習データとなる。合成処理部４３は、データ拡張のための学習データを、学習データ記憶部５３に記憶する（ステップＳＴＡ７）。

図３（ｇ）は、施設ステージ３１に２つの物品Ａを置き、共に観点１から撮影された場合として得られる学習データにおいて、画像データの一例を示す。図３（ｈ）は、施設ステージ３１に２つの物品Ａを置き、１つは観点１から、もう１つは観点２から撮影された場合として得られる学習データにおいて、画像データの一例を示す。同様に、３つ以上の物品Ａを配置した場合についての学習データを生成することができる。なお、２つの物品Ａを配置する位置を変えて、さらに複数の学習データを生成してデータ拡張をしてもよい。

図４は、検出可能物品を追加する場合に、学習データを生成する処理の一例を示すフロー図である。図５は、図４の各ステップの具体例を説明するための図である。図５では、既に物品Ａの観点１及び観点２からの個別データが得られている状態で、物品Ｂについて観点１から撮影して学習データを追加する場合について説明する。

管理装置３の管理者は、管理ステージ１９に追加する検出可能物品２１を載せる。管理撮影部１３は、管理者が管理操作部１５を操作して指示したことに従って、管理ステージ１９に載せられた追加する検出可能物品２１を撮影して個別撮影データを得る。追加する検出可能物品２１を複数の観点から撮影する場合には、管理者は、追加する検出可能物品２１を置き直して、それぞれの観点から撮影する。これにより、追加する検出可能物品２１について、一つ又は複数の観点についての個別撮影データを得る。管理者は、管理操作部１５を操作して、検出可能物品２１を追加することを指示する。管理通信部１１は、情報処理装置７に、検出可能物品２１を追加することと、追加する検出可能物品２１を一つ又は複数の観点から撮影して得られた個別撮影データを送信する。

学習通信部３９は、管理通信部１１から個別撮影データを受信する。個別撮影データ記憶部４７は、個別撮影データを記憶する（ステップＳＴＢ１）。検出処理部４１は、各観点に対応する個別撮影データにおいて、背景の部分（管理ステージ１９が撮影されている部分）とは区別して、前景の部分（検出可能物品２１が検出されている部分）を検出する（ステップＳＴＢ２）。検出処理部４１は、前景の部分を特定する情報を利用して、必要な処理を行い、追加する検出可能物品２１について各観点から撮影された場合の静止画像を生成するための個別データを得る（ステップＳＴＢ３）。個別データ記憶部５１は、個別データを記憶する。

ステップＳＴＢ１～ＳＴＢ３について、図５（ａ）及び（ｂ）は、物品Ｂを観点１から撮影した場合の処理を説明するための図である。図５（ａ）は、物品Ｂを観点１から撮影して得られた個別撮影データを示す。図５（ｂ）は、図５（ａ）の個別撮影データにおいて、斜線部である背景部分から区別して、物品Ｂが撮影されている部分を特定することなどにより得られた、物品Ｂを観点１から撮影したとする場合の静止画像を生成するための個別データを示す。

ここで、例えば、検出処理部４１は個別データの候補を生成するものとし、管理装置３の管理者の確認によって個別データとするようにしてもよい。

合成処理部４３は、背景データ記憶部４９から背景データを取得する（ステップＳＴＢ４）。

合成処理部４３は、施設撮影部２５が各観点から検出可能物品を撮影する場合に得られることが期待される画像データと、この画像データにおいて検出可能物品を解釈するためのアノテーションデータを生成する（ステップＳＴＢ５）。この画像データとアノテーションデータの組み合わせが、学習データとなる。合成処理部４３は、学習データを、学習データ記憶部５３に記憶する。なお、例えば管理撮影部１３と施設撮影部２５が同じものである場合などでは、この画像データについては、例えば、背景データなどに代えて、又は、と共に、個別撮影データを利用してもよい。

図５（ｃ）は、観点１についての物品Ｂの個別データを利用して得られる学習データにおいて、画像データの一例を示す。

合成処理部４３は、個別データ記憶部５１から、既に存在する検出可能物品についての個別データを取得する（ステップＳＴＢ６）。合成処理部４３は、施設ステージ３１に複数の検出可能物品を置いた場合に施設撮影部２５が撮影して得られることが期待される画像データと、この画像データにおいて検出可能物品を解釈するためのアノテーションデータを生成する（ステップＳＴＢ７）。この複数の検出可能物品を置いた場合として得られた画像データとアノテーションデータの組み合わせが、データ拡張のための学習データとなる。合成処理部４３は、データ拡張のための学習データを、学習データ記憶部５３に記憶する（ステップＳＴＢ８）。

図５（ｄ）は、施設ステージ３１に２つの物品Ｂを置き、共に観点１から撮影された場合として得られる学習データにおいて、画像データの一例を示す。図５（ｅ）は、施設ステージ３１に１つの物品Ａと１つの物品Ｂを置き、物品Ａは観点１から、物品Ｂは観点１から撮影された場合として得られる学習データにおいて、画像データの一例を示す。図５（ｆ）は、施設ステージ３１に１つの物品Ａと１つの物品Ｂを置き、物品Ａは観点２から、物品Ｂは観点１から撮影された場合として得られる学習データにおいて、画像データの一例を示す。図５（ｇ）は、施設ステージ３１に２つの物品Ａと１つの物品Ｂを置き、１つの物品Ａは観点１から、もう１つの物品Ａは観点２から、物品Ｂは観点１から撮影された場合として得られる学習データにおいて、画像データの一例を示す。図５（ｈ）は、施設ステージ３１に４つの物品Ａと２つの物品Ｂを置き、２つの物品Ａは観点１から、２つの物品Ａは観点２から、２つの物品Ｂは観点１から撮影された場合として得られる学習データにおいて、画像データの一例を示す。同様に、多数の検出可能物品の配置した場合についての学習データを生成することができる。なお、２つの物品Ａを配置する位置を変えて、さらに複数の学習データを生成してデータ拡張をしてもよい。

図６は、検出可能物品を削除する場合の処理の一例を示すフロー図である。

管理装置３の管理者は、管理操作部１５を操作して、削除する検出可能物品を指示する。管理通信部１１は、情報処理装置７に対して、検出可能物品を削除することと、削除する検出可能物品を特定するための情報を送信する。学習通信部３９は、管理通信部１１から受信した情報に従って、削除する検出可能物品を特定する（ステップＳＴＣ１）。

合成処理部４３は、学習データ記憶部５３に記憶された学習データを検索し、削除する検出可能物品の個別データを含む学習データを特定して削除する（ステップＳＴＣ２）。

図７は、学習処理部４５による処理の一例を説明するためのフロー図である。学習処理部４５は、学習データ記憶部５３に記憶された学習データが変更（例えば、増加、減少など）したか否かを判定する（ステップＳＴＤ１）。学習処理部４５は、学習データの変更がない場合には待機する。学習処理部４５は、学習データが変更した場合には、変更後の学習データを用いて、判定処理部５７に対する学習処理を行う。判定処理部５７は、この学習処理によって、撮影データにおいて撮影された検出可能物品を識別するための物品識別情報（物品名、物品識別番号など）と、各物品識別情報に対応する検出可能物品の点数を判定することができる。

ここで、判定処理部５７による判定処理は、画像処理領域の物品識別と物品認識を併せて行うものであり、物品認識前のセグメンテーション作業が不要なものである。例えば、ニューラルネットワークにEfficientNetを採用する。EfficientNetは、例えばResNet50などと比較して少ない計算量で高い精度を出すことができる。また、重なった商品も認識することができる。ただし、学習データを作成する工期が長くなる傾向にあった。例えば７０商品で３人作業により３カ月かかった。学習用に3,000枚以上の写真を撮影し、これらの3,000枚以上の写真に対してアノテーション作業のためにラベル付けを行った。これにより９５％程度の精度で検出することができた。また、商品が追加するたびに、既存の商品も含めて同様の作業を行うことが必要になる。それに対し、本願発明によれば、アノテーション作業を含めて自動化して、容易にデータ拡張を実現することができる。例えば１００商品について撮影し、合成写真１００００枚を作製したところ、一般的なパソコン１台で、２日で学習データを作成することができた。そして、同程度の精度での検出を実現することができた。さらに、商品の追加も削除も容易に実現することができる。

図８は、対象物品群３３の判定処理の一例を示すフロー図である。

施設装置５の利用者は、施設ステージ３１に対象物品群３３を載せる。対象物品群３３は、一つ又は複数の対象物品を含む。施設撮影部２５は、例えばカメラである。施設操作部２７は、例えばタッチパネルである。施設撮影部２５は、利用者が施設操作部２７を操作して指示したこと、図示を省略する検出装置によって利用者が施設ステージ３１に対象物品群３３を載せたことを検出したこと、などによって、施設ステージ３１に載せられた対象物品群３３を撮影して、静止画像である対象撮影データを得る。施設通信部２３は、情報処理装置７に、対象物品群３３が撮影されたことと、対象物品群３３を撮影して得られた対象撮影データを送信する。

判定通信部５５は、施設通信部２３から対象撮影データを受信する。対象撮影データ記憶部６１は、対象撮影データを記憶する（ステップＳＴＥ１）。判定処理部５７は、対象撮影データにおいて撮影された対象物品を識別するための物品識別情報と、各物品識別情報に対応する検出可能物品の点数を特定する（ステップＳＴＥ２）。判定結果記憶部６３は、判定処理部５７により特定された物品識別情報と点数を記憶する。

判定通信部５５は、判定処理部５７により特定された物品識別情報と点数を、施設装置５に送信する。施設装置５において、施設操作部２７は、物品識別情報と物品名及び価格との対応関係を特定する情報を参照して、対象物品群３３に含まれる対象物品の物品名と価格を取得し、施設装置５の利用者に表示する（ステップＳＴＥ３）。利用者は、表示された内容を確認して、購入するために決済のための指示を行う（ステップＳＴＥ４）。施設通信部２３は、物品処理サーバ９に対して決済のための情報を送信する。物品処理サーバ９において、物品処理通信部６５が施設通信部２３から決済のための情報を受信すると、物品関連処理部６７は決済のための処理を行い、物品処理通信部６５は決済処理が終了したことを施設装置５に伝える。施設操作部２７は、決済処理が終了したことを表示して利用者に伝える。

図９～図１１を参照して、発明者らによる具体的な実験の例を説明する。

図９は、商品の領域を検出して切り出す処理を説明するための図である。図９（ａ）は、オリジナル画像を示す。実験では、カラーの写真を用いた。図９（ｂ）、（ｃ）及び（ｄ）は、それぞれ、青、緑、赤の各色チャンネルの画像を示す。図９（ｅ）は、グラブカットアルゴリズムの使用した画像を示す。図９（ｆ）は、各色チャンネル、グラブカットアルゴリズムなどを使用した複合手法により得られた、対象物のマスク画像を示す。図９（ｇ）は、対象物を含む長方形の領域を示す。なお、必要に応じて角度変更などを行ってもよい。

図１０は、合成処理部４３による個々の物品のエッジ処理の一例を示す図である。複数の商品を検出して背景を分離した後、一枚の写真を合成する。ここでは、各物品の内外のエッジを検出してエッジ領域のマスキングを行い、対象物のエッジをぼかす。具体的には、図１０（ａ）は、検出された対象物の外側及び内側のエッジを示す。図１０（ｂ）は、図１０（ａ）の長方形の部分の拡大図である。図１０（ｃ）は、対象物のエッジ領域のマスキングを示す。図１０（ｄ）は、図１０（ｃ）の長方形の部分の拡大図である。図１０（ｅ）は、対象物のエッジをぼかした状態を示す。図１０（ｆ）は、図１０（ｅ）の長方形の部分の拡大図である。

図１１は、訓練結果を示す図である。図１１（ａ）は、検証用セットの結果を示す。図１１（ｂ）は、テスト用セットの結果を示す。通常の学習セットと同じ程度の精度であることを確認することができた。

図１２は、10-fold交差検証を実施した結果を示すグラフである。Difficult（例えば、複数の物品間の距離が非常に狭かったり、物品が少なくとも一部において重なっている状態など）は、最も評価精度が低かったものである。Easy（例えば、複数の物品間の距離が十分に確保できている状態など）は、最も評価が高かったものである。Valは、平均値である。横軸は、各画像の使用回数である。縦軸は、平均精確性を示す。全体的に、３回ほどの使用回数で十分な精確性を示している。

図１３は、（ａ）評価時と（ｂ）訓練時の損失を示す。横軸は、各画像の使用回数である。縦軸は、（ａ）評価時の損失（classification loss）と、（ｂ）訓練時の損失（regression loss）を示す。図１３も、全体的に、３回ほどの使用回数で、損失が十分になくなっていることを示している。

エッジ検出の改良について説明をする。ここでは、単純な背景を持つ画像におけるキャニー（Canny）エッジを応用して、適応的な閾値キャニーエッジ検出法を説明する。具体的には、（前景に位置する）オブジェクトと背景の分布を考慮し、対応するグレー画像に対して画素強度統計量を演算する。背景の画素の強度分布は正規分布であるため、平均値を容易に求めることができる。このため、平均値に基づいて背景との距離を適切に保つことで、二重の閾値を設定することができる。背景の統計的な結果を分析して二重の適応的な閾値を決定してエッジを検出する。発明者らは、撮影条件の異なる画像に対する実験により、二重の適用的な閾値を利用することで、キャニーエッジを良好に検出でき、異なる条件に対して強いロバスト性を持つことを確認した。これにより、様々な産業用途において、簡単かつ自動的に画像から対象物を検出・分割することが可能となる。

具体的には、まず、対応するグレースケール画像の画素の強度について統計解析を行い、背景の平均値を求め、その平均値に基づいて二重の閾値を決定する。最後に、二重しきい値に従ってキャニーエッジを検出する。

ＲＧＢ画像は３つのチャンネルを持ち、グレー画像は１つのチャンネルを持つ。計算を簡単にするために、グレースケール画像に変換する。背景は無地なので、ヒストグラムの背景の分布は集中し、ピークにつながる。また、背景の面積が大きいため、背景においてヒストグラムの最も高いピークとなる正規分布となる。このように、強度の分布から背景の平均値を容易に求めることができる。

背景の正規分布は分散が非常に小さく、前景に位置する物品の面積が小さいことを考慮すると、物品の割合を無視して、全画像が正規分布であると仮定することができる。そうすると、背景の平均強度をうまく得ることができる。

画像中の対象物の面積は小さく、背景と物品の間には強度差がある。そのため、背景の中心までの強度距離に応じて二重の閾値を求めることができる。以下では、最も単純な例として、相対的な距離によって二重閾値を設定する。

ある画素の強度勾配が第１閾値より大きい場合、この画素はオブジェクトのエッジ点である必要がある。同時に、勾配が第２閾値より大きく第１閾値より小さい場合、それは弱いエッジ点である。信頼できるエッジかどうかは、周囲のピクセルの状態によって決定される。また、勾配が第２閾値より小さい場合、オブジェクトのエッジ点ではない。このように、異なる照度や背景で撮影された画像に対して適切なエッジ情報を得るために二つの適応的な閾値を自動的に設定することができる。

この二つの閾値により、段階的にキャニーエッジを検出することができる。まず、ガウシアンフィルタにより画像を平滑化する。画像をガウシアンスムージングした後、方向と勾配などを総合的に考慮してグラデーションを計算する。ここで、各方向の勾配は、画素の強度に応じて計算される。さらに、各エッジに対して１画素のみの応答を保証するために、画像に対して非最大化の抑制を行う。３ｘ３の近傍領域を用いて、２つの勾配方向に沿って補間を行う。勾配が２方向とも最大であればエッジ点の候補となる。それ以外の場合はエッジ点の候補でない。最後に、二つの閾値に従ってすべてのエッジ点候補をチェックする。第１閾値より小さく第２閾値より大きいピクセルについて、その隣接ピクセルがエッジ点であれば、このピクセルはエッジ点としてマスクされる。そうでない場合は、エッジポイントではない。こうしてエッジ検出を終了し、エッジ情報を出力することができる。

１判定システム
３管理装置
５施設装置
７情報処理装置
９物品処理サーバ
１１管理通信部
１３管理撮影部
１５管理操作部
１７管理照明部
１９管理ステージ
２１検出可能物品
２３施設通信部
２５施設撮影部
２７施設操作部
２９施設照明部
３１施設ステージ
３３対象物品群
３５学習部
３７判定部
３９学習通信部
４１検出処理部
４３合成処理部
４５学習処理部
４７個別撮影データ記憶部
４９背景データ記憶部
５１個別データ記憶部
５３学習データ記憶部
５５判定通信部
５７判定処理部
６１対象撮影データ記憶部
６３判定結果記憶部
６５物品処理通信部
６７物品関連処理部

Claims

対象物品群を撮影して得られた対象撮影データに含まれる各対象物品を、学習データを利用して判定する判定システムにおける判定方法であって、
情報処理装置と、前記対象物品群を撮影する施設撮影部を備え、
前記情報処理装置は、検出処理部と、合成処理部と、学習処理部と、判定処理部を備え、
前記検出処理部が、複数の検出可能物品について個々の検出可能物品を別々に撮影した個別撮影データから個別データを生成する個別データ生成ステップと、
前記合成処理部が、複数の前記個別データを組み合わせて学習データを生成するデータ拡張ステップと、
前記学習処理部が、前記学習データを利用して前記判定処理部に対して学習処理を行う学習ステップと、
前記施設撮影部が、前記対象物品群を撮影して前記対象撮影データを得る対象撮影ステップと、
前記判定処理部が、前記対象撮影データに含まれる各対象物品を判定する判定ステップを含み、
新たに検出する検出可能物品を追加する場合に、
前記検出処理部が、前記新たに検出する検出可能物品を撮影した個別撮影データから個別データを生成し、
前記合成処理部が、前記新たに検出する検出可能物品の個別データと、既に検出できる検出可能物品の個別データとを組み合わせて配置して学習データを生成するステップを含む判定方法。
前記対象撮影データは、前記施設撮影部が、前記対象物品群を、施設照明部が光を照射した施設ステージに載せた状態を撮影したものであり、
前記施設ステージと、前記合成処理部が複数の前記個別データを組み合わせて学習データを生成するために使用する背景データは、無地であり、
前記施設撮影部は、前記施設ステージにおいて前記対象物品群の影が生じないように光を照射し、
前記判定処理部は、画像処理領域の物品識別と物品認識を行うものであって、物品認識前のセグメンテーション作業が不要なものである、請求項１記載の判定方法。
対象物品群を撮影して得られた対象撮影データに含まれる各対象物品を、学習データを利用して判定する判定システムにおける判定方法であって、
情報処理装置と、前記対象物品群を撮影する施設撮影部を備え、
前記情報処理装置は、検出処理部と、合成処理部と、学習処理部と、判定処理部を備え、
前記検出処理部が、複数の検出可能物品について個々の検出可能物品を別々に撮影した個別撮影データから個別データを生成する個別データ生成ステップと、
前記合成処理部が、複数の前記個別データを組み合わせて学習データを生成するデータ拡張ステップと、
前記学習処理部が、前記学習データを利用して前記判定処理部に対して学習処理を行う学習ステップと、
前記施設撮影部が、前記対象物品群を撮影して前記対象撮影データを得る対象撮影ステップと、
前記判定処理部が、前記対象撮影データに含まれる各対象物品を判定する判定ステップを含み、
検出可能物品を削除する場合に、前記合成処理部が、前記学習データのうち、削除する検出可能物品を含むものを削除するステップを含む判定方法。
対象物品群を撮影して得られた対象撮影データに含まれる各対象物品を、学習データを利用して判定する判定システムであって、
情報処理装置と、前記対象物品群を撮影する施設撮影部を備え、
前記情報処理装置は、検出処理部と、合成処理部と、学習処理部と、判定処理部を備え、
前記検出処理部は、複数の検出可能物品について個々の検出可能物品を別々に撮影した個別撮影データから個別データを生成し、
前記合成処理部は、複数の前記個別データを組み合わせて学習データを生成し、
前記学習処理部は、前記学習データを利用して前記判定処理部に対して学習処理を行い、
前記施設撮影部は、前記対象物品群を撮影して前記対象撮影データを得、
前記判定処理部は、前記対象撮影データに含まれる各対象物品を判定し、
新たに検出する検出可能物品を追加する場合に、
前記検出処理部は、前記新たに検出する検出可能物品を撮影した個別撮影データから個別データを生成し、
前記合成処理部は、前記新たに検出する検出可能物品の個別データと、既に検出できる検出可能物品の個別データとを組み合わせて配置して学習データを生成する、判定システム。
対象物品群を撮影して得られた対象撮影データに含まれる各対象物品を、学習データを利用して判定する判定システムであって、
情報処理装置と、前記対象物品群を撮影する施設撮影部を備え、
前記情報処理装置は、検出処理部と、合成処理部と、学習処理部と、判定処理部を備え、
前記検出処理部は、複数の検出可能物品について個々の検出可能物品を別々に撮影した個別撮影データから個別データを生成し、
前記合成処理部は、複数の前記個別データを組み合わせて学習データを生成し、
前記学習処理部は、前記学習データを利用して前記判定処理部に対して学習処理を行い、
前記施設撮影部は、前記対象物品群を撮影して前記対象撮影データを得、
前記判定処理部は、前記対象撮影データに含まれる各対象物品を判定し、
検出可能物品を削除する場合に、前記合成処理部は、前記学習データのうち、削除する検出可能物品を含むものを削除する、判定システム。