JP2020008904A

JP2020008904A - 学習データ収集装置、学習データ収集システム、及び学習データ収集方法

Info

Publication number: JP2020008904A
Application number: JP2018126399A
Authority: JP
Inventors: 大介上田; Daisuke Ueda; 誠新崎; Makoto Niizaki; 裕一松本; Yuichi Matsumoto
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2018-07-02
Filing date: 2018-07-02
Publication date: 2020-01-16
Anticipated expiration: 2038-07-02
Also published as: WO2020008710A1; CN112334943A; EP3819863A1; JP7122625B2; EP3819863A4; US20210264210A1; US11579904B2

Abstract

【課題】画像認識に利用される学習データの収集において、学習に適さない不適切な撮影画像の収集を抑制する。【解決手段】学習データ収集装置３において、プロセッサ５１が、撮影画像を撮影装置２から取得し、その撮影画像が学習データに適するか否かを判定し、学習データに適さないと判定した撮影画像については、撮影者に再撮影を促すための報知処理を実行する構成とする。【選択図】図１

Description

本開示は、画像認識に利用される学習データを収集する学習データ収集装置、学習データ収集システム、及び学習データ収集方法に関する。

近年、カメラの撮影画像などから対象物を認識する画像認識の技術が、ディープラーニング（深層学習）などを用いた機械学習により急速に発展している。機械学習を利用した画像認識では、対象物（認識対象）を被写体とする撮影画像のデータを学習データとしてより多く収集し、これを学習器に学習させることで、未知の撮影画像における対象物を学習済モデルで認識する精度を向上させることが可能となる。

そのような学習データの収集において、対象物の画像を含む撮影画像を網羅的に収集するためには、複数の撮影条件（カメラ設定、照明設定、対象物の配置などを含む）を適切に設定して撮影を行うなどの手間の掛かる作業が生じる。

そこで、そのような学習データを簡易に生成するための技術が開発されており、例えば、学習データ生成装置が、被写体に対するカメラの位置に関する情報を少なくとも含む撮影条件を変更しながら、各々の撮影条件下で生成された各物体撮影画像に、撮影時の撮影条件を示す情報を含む撮影環境情報を対応づける撮影処理手段と、各物体撮影画像から、物体が写っている領域である物体領域を抽出する物体領域抽出手段とを備え、物体領域抽出手段は、物体領域の抽出元とされた第１の物体撮影画像とは撮影条件が異なる第２の物体撮影画像を用いて、第１の物体撮影画像から物体領域を抽出するようにした技術が知られている（特許文献１参照）。

特開２０１４−１７８９５７号公報

ところで、上記のような学習データをより多く収集するための対象物の撮影は、全て適切に実施されるとは限らないため、撮影によって得られた撮影画像の中には、必ずしも学習に適さない不適切な撮影画像（例えば、対象物が適切に撮影されていない）が含まれ得る。そのような不適切な撮影画像が学習データに多く含まれると、学習済モデルによる画像認識の精度を低下させることになる。

しかしながら、上記特許文献１に記載されたような従来技術では、対象物の向きの変化に対応した撮影画像が得られるものの、学習に適さない不適切な撮影画像が含まれ得ることについては考慮されていなかった。

本開示は、このような従来技術の課題を鑑みて案出されたものであり、画像認識に利用される学習データの収集において、学習に適さない不適切な撮影画像の収集を抑制することができる学習データ収集装置、学習データ収集システム、及び学習データ収集方法を提供することを主目的とする。

本開示の学習データ収集装置は、撮影者が対象物の撮影に用いる撮影装置によって生成された撮影画像を、画像認識に利用される学習データとして収集する学習データ収集装置であって、前記学習データを収集する処理を実行するプロセッサを備え、前記プロセッサは、前記撮影画像を前記撮影装置から取得し、前記撮影画像が前記学習データに適するか否かを判定し、前記学習データに適さないと判定した前記撮影画像について、前記撮影者に再撮影を促すための報知処理を実行することを特徴とする。

本開示の学習データ収集システムは、前記学習データ収集装置および前記撮影装置を備えたことを特徴とする。

本開示の学習データ収集方法は、撮影者が対象物の撮影に用いる撮影装置によって生成された撮影画像を、画像認識に利用される学習データとして収集する学習データ収集装置による学習データ収集方法であって、前記撮影画像を前記撮影装置から取得し、前記撮影画像が前記学習データに適するか否かを判定し、前記学習データに適さないと判定した前記撮影画像を前記撮影装置から取得した場合には、前記撮影者に対し、当該撮影画像について再撮影を促すための報知処理を実行することを特徴とする。

本開示の学習データ収集装置、学習データ収集システム、及び学習データ収集方法によれば、画像認識に利用される学習データの収集において、学習に適さない不適切な撮影画像の収集を抑制することが可能となる。

本開示に係る学習データ収集システムの概略構成図撮影装置の構成例を示す説明図学習データ収集装置のハードウェア構成を示す説明図学習データ収集装置による学習データの収集処理の流れを示すフロー図図４中のステップＳＴ１０２における撮影データ登録処理の詳細を示すフロー図図４に示した学習データの収集処理における撮影者に対する表示装置の画面表示の第１の例を示す説明図図４に示した学習データの収集処理における撮影者に対する表示装置の画面表示の第２の例を示す説明図

上記課題を解決するためになされた第１の発明は、撮影者が対象物の撮影に用いる撮影装置によって生成された撮影画像を、画像認識に利用される学習データとして収集する学習データ収集装置であって、前記学習データを収集する処理を実行するプロセッサを備え、前記プロセッサは、前記撮影画像を前記撮影装置から取得し、前記撮影画像が前記学習データに適するか否かを判定し、前記学習データに適さないと判定した前記撮影画像について、前記撮影者に再撮影を促すための報知処理を実行することを特徴とする。

これによると、画像認識に利用される学習データの収集において、学習データに適さないと判定した撮影画像について撮影者に再撮影を促すため、学習に適さない不適切な撮影画像の収集を抑制することができる。

また、第２の発明は、前記学習データ収集装置に関し、前記プロセッサによる制御に基づき情報を表示する表示装置を更に備え、前記プロセッサは、前記報知処理として、前記撮影者に再撮影を促すための報知画面を前記表示装置に表示することを特徴とする。

これによると、学習データに適さないと判定した撮影画像について、簡易かつ明確に撮影者に再撮影を促すことが可能となる。

また、第３の発明は、前記学習データ収集装置に関し、前記プロセッサは、複数の判定基準を用いて前記各撮影画像が前記学習データに適するか否かを判定し、前記判定に用いられた前記判定基準の種類に応じて、複数の異なる態様の前記報知処理を実行することを特徴とする。

これによると、判定基準の種類に応じて撮影者に再撮影を促すための報知処理を適切に実行することが可能となる。

また、第４の発明は、前記学習データ収集装置に関し、前記プロセッサによる制御に基づきデータを記憶する記憶装置を更に備え、前記報知処理には、前記複数の異なる態様として、前記記憶装置への前記撮影画像に関する前記学習データの記憶が禁止される再撮影指示に関する処理と、前記記憶装置への前記撮影画像に関する前記学習データの記憶が許容される再撮影推奨に関する処理と、が含まれることを特徴とする。

これによると、撮影画像が学習データに適さないと判定された場合でも、その程度に応じてその学習データの記憶の可否が設定されるため、撮影者による撮影作業（延いては、学習データの収集）が過度に阻害されることを回避できる。

また、第５の発明は、前記学習データ収集装置に関し、前記プロセッサは、前記撮影画像が、複数の対象物を含むと判定した場合、前記対象物が複数の物体であるか透明な部分を含む物体であるかを示す入力を受け付け、前記複数の物体である旨の入力を受け付けた場合、前記再撮影指示に関する処理を行い、前記透明な部分を含む物体である旨の入力を受け付けた場合、前記再撮影推奨に関する処理を行うことを特徴とする。

これによると、複数の物体が検知された場合であっても、当該検知結果が透明な部分を含むことに起因するか否かに応じて学習データの記憶の可否を設定することができる。したがって、撮影者による撮影作業（延いては、学習データの収集）が過度に阻害されることを回避できる。

また、第６の発明は、前記学習データ収集装置に関し、前記プロセッサは、前記各撮影画像が前記学習データに適するか否かを判定する前に、前記撮影装置から取得した前記撮影画像を前記学習データとして前記記憶装置に記憶し、前記学習データに適さないと判定した前記撮影画像に関して前記再撮影指示に関する処理を実行する場合には、当該撮影画像の前記学習データとしての登録を解除することを特徴とする。

これによると、学習データの収集処理を過度に阻害することなく、学習に適さない不適切な撮影画像を学習データから除外することが可能となる。

また、第７の発明は、前記学習データ収集装置に関し、前記プロセッサは、前記対象物を互いに異なる向きから同時に撮影した前記撮影画像のセットを前記撮影装置から取得し、前記撮影画像のセットに前記学習データに適さないと判定した少なくとも１つの前記撮影画像が含まれる場合には、前記撮影者に対し、当該撮影画像のセットについて前記再撮影を促すための報知処理を実行することを特徴とする。

これによると、複数のカメラによって対象物を互いに異なる向きから同時に撮影した撮影画像を取得しつつ、学習に適さない不適切な撮影画像の収集を抑制することができる。

また、第８の発明は、前記学習データ収集装置に関し、前記プロセッサは、前記学習データとして登録された前記撮影画像における前記対象物を、予め準備された学習済みモデルを用いて認識した結果を取得し、前記認識結果に基づき、前記対象物と類似する他の異なる物体を学習済みであると判定した場合、当該撮影画像が前記学習データに適さないと判定することを特徴とする。

これによると、撮影画像に含まれる対象物と類似する他の異なる物体を学習済みである場合に、当該撮影画像（すなわち、他の異なる物体と混同され得る形態で対象物が撮影された画像）について撮影者に再撮影を促すため、学習に適さない不適切な撮影画像の収集を抑制することができる。

また、第９の発明は、前記学習データ収集装置および前記撮影装置を備えたことを特徴とする学習データ収集システムである。

また、第１０の発明は、撮影者が対象物の撮影に用いる撮影装置によって生成された撮影画像を、画像認識に利用される学習データとして収集する学習データ収集装置による学習データ収集方法であって、前記撮影画像を前記撮影装置から取得し、前記撮影画像が前記学習データに適するか否かを判定し、前記学習データに適さないと判定した前記撮影画像を前記撮影装置から取得した場合には、前記撮影者に対し、当該撮影画像について再撮影を促すための報知処理を実行することを特徴とする。

また、第１１の発明は、前記学習データ収集方法に関し、前記報知処理として、前記撮影者に再撮影を促すための報知画面を表示装置に表示することを特徴とする。

また、第１２の発明は、前記学習データ収集方法に関し、複数の判定基準を用いて前記各撮影画像が前記学習データに適するか否かを判定し、前記判定に用いられた前記判定基準の種類に応じて、複数の異なる態様の前記報知処理を実行することを特徴とする。

また、第１３の発明は、前記学習データ収集方法に関し、前記報知処理には、前記複数の異なる態様として、記憶装置への前記学習データの記憶が禁止される再撮影指示に関する処理と、記憶装置への前記学習データの記憶が許容される再撮影推奨に関する処理と、が含まれることを特徴とする。

また、第１４の発明は、前記学習データ収集方法に関し、前記撮影画像が、複数の対象物を含むと判定した場合、前記対象物が複数の物体であるか透明な部分を含む物体であるかを示す入力を受け付け、前記複数の物体である旨の入力を受け付けた場合、前記再撮影指示に関する処理を行い、前記透明な部分を含む物体である旨の入力を受け付けた場合、前記再撮影推奨に関する処理を行うことを特徴とする。

また、第１５の発明は、前記学習データ収集方法に関し、前記各撮影画像が前記学習データに適するか否かを判定する前に、前記撮影装置から取得した前記撮影画像を前記学習データとして前記記憶装置に記憶し、前記学習データに適さないと判定した前記撮影画像に関して前記再撮影指示に関する処理を実行する場合には、当該撮影画像の前記学習データとして登録を解除することを特徴とする。

また、第１６の発明は、前記学習データ収集方法に関し、前記学習データとして登録された前記撮影画像における前記対象物を、予め準備された学習済みモデルを用いて認識した結果を取得し、前記認識結果に基づき、前記対象物と同一または類似の物体を学習済みであると判定した場合、当該撮影画像が前記学習データに適さないと判定することを特徴とする。

また、第１７の発明は、前記学習データ収集方法に関し、予め準備された学習済みモデルを用いて、前記学習データとして登録された前記撮影画像における前記対象物を認識し、当該対象物と類似する他の異なる物体を学習済みであると判定した場合、当該撮影画像が前記学習データに適さないと判定することを特徴とする。

以下、本開示の実施形態について、図面を参照しながら説明する。

図１は、本開示に係る学習データ収集システム１の概略構成図である。

学習データ収集システム１は、撮影者が対象物６（図２参照）の撮影に用いる撮影装置２と、この撮影装置２によって生成された撮影画像を、画像認識に利用される学習データとして収集する処理（以下、「学習データ収集処理」という。）を実行する学習データ収集装置３と、未知の物体を撮影する識別装置４と、を主として備える。

撮影装置２は、対象物６を互いに異なる向きから同時に撮影可能な複数のカメラ５Ａ−５Ｃを有する。異なる向きカメラを設けている理由は、対象物外観の特徴を全体的に捉え、識別装置４で対象物の姿勢が変わっても識別を正しく実施できるようにするためである。カメラ５Ａ−５Ｃは、それぞれ公知の撮影機能を有するビデオカメラであり、対象物６を被写体とする撮影画像（動画または静止画）を生成する。また、撮影装置２は、公知の通信機能を有し、生成した撮影画像を学習データ収集装置３に対して順次送信する。撮影装置２は、公知の通信ケーブルや無線通信により学習データ収集装置３に接続可能であるが、これに限らず、公知の通信ネットワーク（ＬＡＮ等）を介して学習データ収集装置３に接続されてもよい。

なお、撮影装置２によって撮影される対象物６は、本開示に示すものに限定されず、画像認識の対象となり得る任意の物体である。また、カメラ５Ａ−５Ｃによって生成される撮影画像としては、画像認識（対象物６の識別）に利用可能な限りにおいて任意の形式を採用することができ、例えば、カメラ５Ａ−５ＣがＲＧＢ−Ｄセンサを備えることにより、撮影画像としてＲＧＢ画像および距離画像が生成されてもよい。

学習データ収集装置３は、撮影装置２によって生成された撮影画像を順次取得する画像取得部１１と、取得した撮影画像が学習データに適するか否かを順次判定する画像判定部１２と、画像判定部１２により学習データに適さないと判定された撮影画像について、撮影者に再撮影を促すための報知処理を実行する報知処理部１３と、撮影者に対して必要な情報を表示する表示部１４と、ユーザ（例えば、撮影者）が学習データ収集装置３に対して入力操作を行うための入力部１５と、を有する。後に詳述するように、表示部１４は、例えば、報知処理部１３が実行する報知処理に関し、撮影者に再撮影を促すための情報を表示することができる。

また、学習データ収集装置３は、機械学習による画像認識（未知の物体の識別）に用いられる識別モデル２１を記憶する記憶部２２と、画像判定部１２により学習データに適すると判定された撮影画像に基づき識別モデル２１の再学習を実行する識別モデル学習部２３と、識別モデル２１を利用して撮影画像に含まれる対象物６または識別装置４によって撮影された未知の物体の識別を行う画像識別部２４と、を有する。識別モデル２１は、予め準備された学習済みモデルであり、学習データ収集装置３により収集された撮影画像を学習データとして利用することにより、未知の物体の識別（画像認識）に関する正解率や精度をより向上させることが可能となる。

識別装置４は、未知の物体を撮影する識別用カメラ（図示せず）を有しており、その識別用カメラによって撮影された未知の物体を被写体とする撮影画像を学習データ収集装置３に送信する。これにより、学習データ収集装置３の画像識別部２４では、識別モデル２１を利用して、識別装置４からの撮影画像の未知の物体を識別する処理（以下、「物体認識処理」という。）を行うことが可能である。識別用カメラは、上記カメラ５Ａ−５Ｃと同様の構成とすることができる。

なお、学習データ収集システム１における物体認識処理の機能は、システム１に必須の構成ではなく、再学習した識別モデル２１を他のシステムで利用してもよい。その場合、学習データ収集システム１において識別装置４を省略することができる。

図２は、図１に示した撮影装置２の構成例を示す説明図である。

撮影装置２は、床面や机上面等に載置される略平板状のベース部３１と、ベース部３１の一端側から略鉛直方向に延出する略平板状の第１のアーム部３２と、第１のアーム部３２の上端からベース部３１の他端側に向けて斜め上方に延出する略平板状の第２のアーム部３３と、第２のアーム部３３の上端からベース部３１の他端側に向けて略水平に延出する第３のアーム部３４と、を有する。なお、図２では、図示を省略するが、撮影装置２は、内蔵バッテリ（または電源ケーブル）や、学習データ収集装置３との通信を行うための無線通信部（または通信ケーブル）等を備える。

ベース部３１は、鉛直方向の軸周りに回転自在に設けられた回転台４１を有している。撮影者は、対象物（ここでは、飲料容器）６を回転台４１上に配置し、その状態で回転台４１を所望の回転角度で回転させることにより、カメラ５Ａ−５Ｃに対する対象物６の方向（すなわち、カメラ５Ａ−５Ｃに対する対象物６の配置）を変更することができる。

第３のアーム部３４の下面側には、平面視カメラ５Ａが配置されている。平面視カメラ５Ａの撮影方向は、下方の回転台４１に向けられており、対象物６の平面図に概ね相当する撮影画像４６を撮影可能である。

また、第２のアーム部３３の下面側（内面側）には、斜視カメラ５Ｂが配置されている。カメラ５Ｂの撮影方向は、斜め下方の回転台４１に向けられており、対象物６の上側からの斜視図に概ね相当する撮影画像４７を撮影可能である。

また、第１のアーム部３２の内面側（ベース部３１の他端側）には、側面視カメラ５Ｃが配置されている。カメラ５Ｃの撮影方向は、略水平方向（回転台４１の上方）に向けられており、対象物６の側面図に概ね相当する撮影画像４８を撮影可能である。

なお、撮影装置２の構成（例えば、カメラの数、撮影方向）は、図２に示したものに限らず種々の変更が可能である。撮影装置２は、少なくとも１つのカメラを有するものであればよい。

図３は、図１に示した学習データ収集装置３のハードウェア構成を示す説明図である。

学習データ収集装置３は、公知のハードウェア構成を有するコンピュータからなり、所定の制御プログラムに基づき、学習データの収集処理（必要に応じて物体認識処理を含む）を統括的に実行するプロセッサ５１、このプロセッサ５１のワークエリア等として機能する揮発性メモリであるＲＡＭ５２、プロセッサ５１が実行する制御プログラムやデータを格納する不揮発性メモリであるＲＯＭ５３、ＨＤＤやフラッシュメモリ等からなる記憶装置５４、液晶モニタ等からなる表示装置５５、キーボード、マウス、及びタッチパネル等の入力デバイスからなる入力装置５６、他の装置との通信を実行する通信モジュール５７等を有している。

図１に示した学習データ収集装置における表示部１４、入力部１５、及び記憶部２２の機能は、それぞれ図２に示した表示装置５５、入力装置５６、及び記憶装置５４によって実現可能である。また、学習データ収集装置３における画像取得部１１、画像判定部１２、報知処理部１３、識別モデル学習部２３、及び画像識別部２４の機能の少なくとも一部は、プロセッサ５１が制御プログラムを実行することによって実現可能である。なお、学習データ収集装置３は、必ずしも図３に示した構成に限定される必要はなく、図１に示した学習データ収集装置３の機能の少なくとも一部を他の公知のハードウェアによる処理によって代替してもよい。

図４は、学習データ収集装置３による学習データの収集処理の流れを示すフロー図であり、図５は、図４中のステップＳＴ１０２における撮影データ登録処理の詳細を示すフロー図である。

学習データ収集システム１では、撮影装置２により撮影者が対象物を撮影すると、その撮影画像およびその関連情報（カメラ５Ａ−５Ｃの撮影条件等）を含む撮影データが撮影装置２から学習データ収集装置３に送信され、学習データ収集装置３は、その撮影データを受信（取得）する（ＳＴ１０１）ここで、撮影者は、回転台４１上に所望の態様で対象物６を載置して回転台４１の角度を調整した後に、表示装置５５に表示される撮影画面６１（図６（Ａ）参照）において、撮影ボタン６２をクリック（押下）することにより、カメラ５Ａ−５Ｃによる撮影を実行することができる。

なお、上記ステップＳＴ１０１において、学習データ収集装置３は、カメラ５Ａ−５Ｃにより同時に撮影された撮影画像のセット（３つの撮影画像）を含む撮影データを取得するが、これに限らず、学習データ収集システム１では、少なくとも１つの撮影画像が得られればよい。

次に、学習データ収集装置３は、取得した撮影データを学習データとして登録する処理（以下、「撮影データ登録処理」という。）を実行する（ＳＴ１０２）。ここで、撮影者は、撮影画面６１（図６（Ａ）参照）において、登録ボタン６３をクリック（押下）することにより、撮影データ登録処理を実行することができる。

上記ステップＳＴ１０２の撮影データ登録処理では、図５に示すように、まず、学習データ収集装置３は、取得した撮影画像（すなわち、撮影された対象物）に対して撮影者によって入力されたラベルの情報を取得する（ＳＴ２０１）。

続いて、学習データ収集装置３は、公知の手法により、撮影画像における前景画像を対象物の画像領域として抽出する（ＳＴ２０２）。この前景画像は、例えば背景画像との差分によって抽出することができる。

そこで、学習データ収集装置３は、抽出した前景画像から公知の手法により特徴量を抽出する（ＳＴ２０３）。このとき、学習データ収集装置３は、例えば、ＨＯＧ（Histograms of Oriented Gradients）やＳＵＲＦ（Speeded-Up Robust Features）などの手法や、ディープラーニングを用いた手法に基づき特徴量を抽出することができる。

その後、学習データ収集装置３は、ステップＳＴ２０３において抽出した特徴量に基づき、識別モデル２１の再学習を実行する（ＳＴ２０４）。なお、学習データ収集システム１における再学習の機能（識別モデル学習部２３）は、システムに必須の構成ではなく、収集した学習データを他のシステムで利用してもよい。

再び図４を参照して、続いて、学習データ収集装置３は、取得した撮影画像が学習データに適するか否かを判定する（ＳＴ１０３）。

このステップＳＴ１０３において、学習データ収集装置３は、撮影画像の適否判定に次に示すような複数の判定基準（１）−（７）を用いることができる。

（１）類似物体の存在に関する判定
学習データ収集装置３では、識別モデル２１によって対象物と類似する他の異なる物体（特徴量）が登録されているか否かに基づき、撮影画像が学習データに適するか否かを判定することができる。より詳細には、学習データ収集装置３では、画像識別部２４により、撮影画像から特徴が類似する（例えば、認識の確からしさを表すスコアが所定の閾値を超える）物体を検出し、且つその検出された物体が上記ステップＳＴ２０１において撮影者によって入力されたラベルとは異なる場合、撮影画像に含まれる対象物と混同され得る他の異なる物体が識別モデル２１に登録されていることになるため、画像判定部１２は、その撮影画像（すなわち、他の異なる物体と混同され得る形態で対象物が撮影された画像）を不適切であると判定する。

そこで、学習データ収集装置３は、当該対象物について撮影条件が異なる撮影画像を取得するために、上記報知処理の一態様として撮影者に再撮影を推奨する。後に詳述するように、再撮影推奨に関する処理では、記憶装置５４への撮影画像に関する学習データの記憶（ここでは、識別モデル２１の再学習）が許容される。これにより、同一の対象物に関し、当該対象物の特徴をより抽出しやすい撮影画像（学習データ）を取得することが可能となる。その結果、識別モデル２１による当該対象物と、それに類似する他の異なる物体との識別に関する正解率や精度をより向上させることが可能となる。

（２）手の写り込みに関する判定
学習データ収集装置３では、撮影画像中に人の手（例えば、撮影者の手）が存在するか否かに基づき、撮影画像が学習データに適するか否かを判定することができる。より詳細には、学習データ収集装置３では、公知の手法により、撮影画像中に人の手が存在すると判定した（例えば、人の手の特徴点が抽出された）場合には、学習データとして抽出される対象物の特徴量に手の特徴が含まれてしまう可能性があるため、画像判定部１２は、その撮影画像を不適切であると判定する。

そこで、学習データ収集装置３は、人の手を排除した撮影画像を取得するために、撮影者に再撮影を推奨する。これにより、適切な撮影画像を取得することが可能となる。

（３）透明な物体に関する判定
学習データ収集装置３では、撮影画像に少なくとも一部が透明な物体（対象物）が存在するか否かに基づき、撮影画像が学習データに適するか否かを判定することができる。より詳細には、学習データ収集装置３では、公知の手法により、撮影画像に少なくとも一部が透明な物体が存在すると判定した（例えば、対象物の全体の輪郭を抽出できない）場合には、その透明（半透明を含む）な部位が対象物として認識されない（すなわち、背景として認識されてしまう）可能性があるため、画像判定部１２は、その撮影画像を不適切であると判定する。

そこで、学習データ収集装置３は、対象物の一部が透明であっても適切な撮影画像を取得するために、撮影者に再撮影を推奨する。これにより、撮影者は、例えば対象物の配置を変更することにより、適切な撮影画像を取得することが可能となる。

（４）複数物体の存在に関する判定
学習データ収集装置３では、撮影画像に複数の物体（対象物）が存在するか否かに基づき、撮影画像が学習データに適するか否かを判定することができる。より詳細には、学習データ収集装置３では、公知の手法により、撮影画像に複数の物体が存在すると判定した（例えば、複数の分離された前景領域が抽出された）場合には、学習データとして抽出される対象物の特徴量に別の物体の特徴が含まれてしまう可能性があるため、画像判定部１２は、その撮影画像を不適切であると判定する。なお、上述のような一部が透明な物体（すなわち、互いに離間した複数の不透明な部分を有する物体）である場合にも、撮影画像に複数の物体が存在すると判定され得る。

そこで、学習データ収集装置３は、複数の対象物を撮影することなく適切な撮影画像を取得するために、上記報知処理の一態様として撮影者に再撮影を指示する（すなわち、再撮影指示に関する処理を実行する）。後に詳述するように、再撮影指示に関する処理では、記憶装置５４への撮影画像に関する学習データの記憶（ここでは、識別モデル２１の再学習）が禁止される。これにより、撮影者は、例えば、撮影対象を１つの対象物とする（対象物以外の物体を撮影領域から取り除く）か、或いは、一部が透明な物体（すなわち、互いに離間した複数の不透明な部分を有する物体）の配置を変更することにより、適切な撮影画像を取得することが可能となる。

（５）照明条件（反射）に関する判定
学習データ収集装置３では、撮影画像に白とび領域（概ね白一色に塗りつぶされた領域）が存在するか否かに基づき、撮影画像が学習データに適するか否かを判定することができる。より詳細には、学習データ収集装置３では、公知の手法により、撮影画像に存在する白とび領域の割合（または面積）が規定の閾値以上であると判定した場合には、対象物のテクスチャから特徴を抽出することが難しくなるため、画像判定部１２は、その撮影画像を不適切であると判定する。

そこで、学習データ収集装置３は、白とびの発生を抑制して適切な撮影画像を取得するために、撮影者に再撮影を指示する。これにより、撮影者は、例えば照明の方向（または照明光に対する対象物の配置）を変更することにより、適切な撮影画像を取得することが可能となる。なお、撮影画像における白とび領域の割合（または面積）が予め定めた閾値よりも小さい場合には、再撮影は必須ではないため、学習データ収集装置３は、再撮影を推奨することができる。

（６）対象物の大きさ（小物体）に関する判定
学習データ収集装置３では、撮影画像の対象物が小物体か否かに基づき、撮影画像が学習データに適するか否かを判定することができる。より詳細には、学習データ収集装置３では、公知の手法により、撮影画像に占める対象物の画像領域の割合（または面積）が規定の閾値よりも小さいと判定した場合には、対象物の画像領域から特徴量を抽出することが難しくなるため、画像判定部１２は、その撮影画像を不適切であると判定する。

そこで、学習データ収集装置３は、対象物が小さい場合でも適切な撮影画像を取得するために、再撮影を推奨する。これにより、撮影者は、例えば、カメラ５Ａ−５Ｃのズーム機能の利用や、対象物とカメラ５Ａ−５Ｃとの距離の変更などにより対象物の画像領域を拡大することにより、適切な撮影画像を取得することが可能となる。

（７）低照度に関する判定
学習データ収集装置３では、撮影画像が低照度において得られたか否かに基づき、或いは、黒つぶれ領域（概ね黒一色に塗りつぶされた領域）が存在するか否かに基づき、撮影画像が学習データに適するか否かを判定することができる。より詳細には、学習データ収集装置３では、公知の手法により、撮影画像全体（または対象物の画像領域）の明度が規定の閾値よりも小さい、或いは、撮影画像に存在する黒つぶれ領域の割合（または面積）が予め定めた閾値以上であると判定した場合には、対象物の画像領域から特徴量を抽出することが難しくなるため、画像判定部１２は、その撮影画像を不適切であると判定する。

そこで、学習データ収集装置３は、低照度における撮影を回避して、或いは、黒つぶれの発生を抑制して適切な撮影画像を取得するために、再撮影を推奨する。これにより、撮影者は、例えば、照明の明るさを調整する（例えば、光源を対象物に近づけたり、新たな照明装置を追加したりする）ことにより、適切な撮影画像を取得することが可能となる。

学習データ収集装置３では、上記判定基準（１）−（７）の全てを用いて上記ステップＳＴ１０３を実行する。ただし、これに限らず、学習データ収集装置３では、対象物の種類等に応じて、上記判定基準（１）−（７）のうちの少なくとも１つを選択して用いてもよい。

また、学習データ収集装置３において、複数の判定基準を用いて上記ステップＳＴ１０３を実行した場合の報知処理としては、再撮影の推奨よりも再撮影の指示が優先される。例えば、（１）類似物体の存在に関する判定および（４）複数物体の存在に関する判定に関して共に撮影画像が不適切であると判定された場合には、再撮影を指示する（４）複数物体の存在に関する判定の結果が優先される。

さらに、学習データ収集装置３において、複数の判定基準を用いて上記ステップＳＴ１０３を実行した場合に、再撮影の指示に関する判定結果は存在せずに、再撮影の推奨に関する判定結果が複数存在する場合には、予め設定された優先順位にしたがって、最上位の判定基準による判定の結果が優先される。優先順位は、例えば、（１）類似物体の存在に関する判定、（２）手の写り込みに関する判定、及び（３）透明な物体に関する判定の順に設定することができる。

このように、学習データ収集装置３は、判定基準の種類に応じて撮影者に再撮影を促すための報知処理を適切に実行することができる。また、学習データ収集装置３では、撮影画像が学習データに適さないと判定された場合でも、複数の異なる態様の報知処理（再撮影指示に関する処理、再撮影推奨に関する処理）が実行されるため、その程度に応じてその学習データの記憶の可否が設定され、撮影者による撮影作業（延いては、学習データの収集）が過度に阻害されることを回避できる。

その後、学習データ収集装置３は、上記ステップＳＴ１０３において撮影画像が学習データに適さないと判定され（ＳＴ１０４：Ｎｏ）、かつ当該撮影画像について再撮影推奨に関する処理を実行すべきであると判定された場合（ＳＴ１０５：Ｙｅｓ）、撮影者に対する報知処理として再撮影指示に関する処理を実行する（ＳＴ１０６）。

その後、学習データ収集装置３は、ステップＳＴ１０２の撮影データ登録処理により学習データとして登録された撮影データの登録を解除する（ＳＴ１０７）。これにより、学習データの収集処理を過度に阻害することなく、学習に適さない不適切な撮影画像を学習データから除外（識別モデル２１から対応するデータを削除）することが可能となる。

一方、学習データ収集装置３は、上記ステップＳＴ１０３において撮影画像が学習データに適さないと判定され（ＳＴ１０４：Ｎｏ）、かつ当該撮影画像について再撮影推奨に関する処理を実行すべきででないと判定された場合（ＳＴ１０５：Ｎｏ）、撮影者に対する報知処理として再撮影推奨に関する処理を実行する（ＳＴ１０８）。

学習データの収集処理では、撮影者が対象物の撮影を行うたびに、上述のような一連の処理が繰り返し実行される。また、図６および図７について後述するように、学習データの収集処理では、上記ステップＳＴ１０５、ＳＴ１０６、及びＳＴ１０８等に関し、表示装置５５では撮影者に対する画面表示が実行される。

なお、ステップＳＴ１０２の撮影データ登録処理については、ステップＳＴ１０３の前に実行する必要はなく、例えば、ステップＳＴ１０４において撮影画像が学習データに適すると判定された（Ｙｅｓ）後や、ＳＴ１０８の後に実行するようにしてもよい。これらの場合、ＳＴ１０６の時点では学習データはまだ登録されていないため、ＳＴ１０６における学習データの登録解除の処理は省略される。また、ステップＳＴ１０８における処理は、上述のステップＳＴ１０６の場合と同様に、表示装置５５に情報を表示する構成には限定されない。

このように、学習データ収集システム１では、画像認識に利用される学習データの収集において、学習データに適さないと判定した撮影画像について撮影者に再撮影を促すため、学習に適さない不適切な撮影画像の収集を抑制することができる。

図６は、図４に示した学習データの収集処理における撮影者に対する表示装置５５の画面表示の第１の例を示す説明図である。ここでは、学習データの収集処理において、（３）透明な物体に関する判定または（４）複数物体の存在に関する判定に基づき、撮影画像が学習データに適さないと判定された場合の画面表示例を示している。

上述のように、対象物の撮影開始時（図４中のステップＳＴ１０１参照）には、表示装置５５には図６（Ａ）に示す撮影画面６１が表示されており、その後、撮影画像が学習データに適さないと判定されると（図４中のステップＳＴ１０４（Ｎｏ）参照）、その撮影画面６１から表示が変化し、図４中のステップＳＴ１０５に関し、図６（Ｂ）に示すように、対象物の画像から検知された物体に関して撮影者に確認を促す（撮影者の入力を受け付ける）ためのメッセージを含む報知画面７１が表示される。この報知画面７１には、撮影画像において透明な物体または複数の物体が検知されたために撮影者の確認（透明な物体または複数の物体のいずれかの入力）が必要であることを説明する第１のメッセージ７２が表示される。

そこで、撮影者は、対象物が複数配置されていることを確認して第１のメッセージ７２における複数物体ボタン７３をクリックすると、図４中のステップＳＴ１０６に関し、図６（Ｃ）に示すように、報知画面７１には、撮影者に対する新たなメッセージ（再撮影の指示）として、発生した事象（ここでは、複数物体を同時に撮影することはできないこと）、及びより適切な状態で（ここでは、配置する物体を１つにして）再撮影を行う必要があることを説明する第２のメッセージ７４が表示される。

一方、撮影者が、対象物の少なくとも一部が透明であることを確認してメッセージ７２における透明物体ボタン７６をクリックすると、図４中のステップＳＴ１０８に関し、図６（Ｄ）に示すように、報知画面７１には、撮影者に対する新たなメッセージ（再撮影の推奨）として、より適切な状態で（ここでは、対象物の置き方を変えて）再撮影を行うことが好ましいことを説明する第３のメッセージ７７が表示される。

前述した通り、画像を基に物体の数を判定する場合、一部が透明な物体が検知されたのか、複数の物体が検知されたのか判定することが難しい。一方、複数の物体が検知された場合は、複数の物体の特徴がひとつの物体の特徴として記憶されてしまうことを避けるために再撮影指示を行わなくてはならず、一部透明な物体の場合まで再撮影指示の処理を行うとユーザの負担が大きくなる。そのため、図６では、複数の物体が検知されているのか、一部透明な物体が検知されているのかの判断を受け付けた上で、どちらの物体であるのかに応じて、一部透明な物体が検知されている場合の再撮影推奨の処理を行うのか、複数の物体が検知されている場合の再撮影指示の処理を行うか否かを切り替える動作を例示している。

なお、図６（Ｂ）に示した報知画面７１（撮影者に確認を促すためのメッセージ）は、対象物の画像から検知された物体に関して撮影者の確認を必要としない場合には省略することができ、その場合、図６（Ａ）から図６（Ｃ）または図６（Ｄ）のように表示が変化する。

また、ステップＳＴ１０５、ＳＴ１０６、及びＳＴ１０８等における処理は、上述のように表示装置５５に所定の情報を含む画面を表示する構成に限らず、例えば、撮影装置２や学習データ収集装置３に設けたスピーカからの音声出力により再撮影が必要であることを撮影者に知らせることも可能である。或いは、撮影装置２や学習データ収集装置３に設けた警告ランプの動作状態（点灯、点滅など）によって、再撮影が必要であることを撮影者に知らせてもよい。

図７は、図４に示した学習データの収集処理における撮影者に対する表示装置５５の画面表示の第２の例を示す説明図である。ここでは、学習データの収集処理において、（１）類似物体の存在に関する判定、（５）照明条件に関する判定、及び（７）低照度に関する判定に基づき、それぞれ撮影画像が学習データに適さないと判定された場合の画面表示例を示している。

図６の場合と同様に、対象物の撮影開始時には、表示装置５５には図７（Ａ）に示す撮影画面６１が表示されており、その後、撮影画像が学習データに適さないと判定されると、その撮影画面６１から表示が変化し、図７（Ｂ）−図７（Ｄ）のいずれかに示すように、撮影者に再撮影を促すためのメッセージを含む報知画面８１が表示される。

図６（Ｂ）では、上述の（１）類似物体の存在に関する判定に基づき、撮影画像が学習データに適さないと判定された場合の画面表示例を示しており、報知画面８１には、撮影者に再撮影を促すためのメッセージ（再撮影の推奨）として、発生した事象（ここでは、対象物と類似する他の異なる物体が存在する（すなわち、他の異なる物体を学習済みである）こと）、及びより適切な状態で（例えば、対象物の配置を変えた後に）同じ対象物の再撮影を行うことが好ましいことを説明する第４のメッセージ８２が表示される。

また、図６（Ｃ）では、上述の（５）照明条件に関する判定に基づき、撮影画像が学習データに適さないと判定された（ここでは、撮影画像における白とび領域の割合（または面積）が予め定めた閾値よりも小さい）場合の画面表示例を示しており、報知画面８１には、撮影者に再撮影を促すためのメッセージ（再撮影の推奨）として、発生した事象（ここでは、撮影画像中の物体に白とびしている部分が存在すること）、及びより適切な状態で（ここでは、照明条件を変えて）対象物の再撮影を行うことが好ましいことを説明する第５のメッセージ８３が表示される。

なお、図６（Ｃ）関し、上述の（５）照明条件に関する判定において、撮影画像における白とび領域の割合（または面積）が予め定めた閾値よりも大きい場合には、報知画面８１には、撮影者に再撮影を促すためのメッセージ（再撮影の指示）として、対象物の再撮影を必要があることを説明するメッセージが表示される。

また、図６（Ｄ）では、上述の（７）低照度に関する判定に基づき、撮影画像が学習データに適さないと判定された場合の画面表示例を示しており、報知画面８１には、撮影者に再撮影を促すためのメッセージ（再撮影の推奨）として、発生した事象（ここでは、撮影画像の明るさが不十分であること）、及びより適切な状態で（ここでは、照明条件を変えて）対象物の再撮影を行うことが好ましいことを説明する第６のメッセージ８４が表示される。

以上、本開示を特定の実施形態に基づいて説明したが、これらの実施形態はあくまでも例示であって、本開示はこれらの実施形態によって限定されるものではない。また、上記実施形態に示した本開示に係る学習データ収集装置、学習データ収集システム、及び学習データ収集方法は、必ずしも全てが必須ではなく、当業者であれば、少なくとも本開示の範囲を逸脱しない限りにおいて適宜取捨選択することが可能である。

上述した実施形態では、撮影装置２は、各カメラ５Ａ−５Ｃを固定的した向きで備えているが、１つのカメラを可動式にすることで同様の撮影画像を得ることもできる。

上述した実施形態では、各判定において学習データの記憶を許容または禁止のいずれかをそれぞれ対応付けていたが、これに限られるものではない。例えば、学習データの質を重視するのであれば、一律で学習データの記憶を禁止してもよい。ただし、上述した実施形態では、学習結果の改善に寄与しない例では学習データの記憶を禁止し、他の例では学習データの記憶を許容している。例えば、（４）複数物体の存在に関する判定において学習データを記憶してしまうと、物体の組合せの特徴がひとつの物体の特徴として学習されてしまうため、その結果を反映して構築される学習済みモデルでは当該ひとつの物体の認識精度が低下してしまう。また、（５）照明条件（反射）に関する判定における白とび領域の割合（または面積）が規定の閾値を以上である場合は、学習させるべき特徴自体が抽出できないため、この学習データを記憶しても学習結果の向上には貢献できない。

本開示に係る学習データ収集装置、学習データ収集システム、及び学習データ収集方法は、画像認識に利用される学習データの収集において、学習に適さない不適切な撮影画像の収集を抑制することを可能とし、画像認識に利用される学習データを収集する学習データ収集装置、学習データ収集システム、及び学習データ収集方法などとして有用である。

１：学習データ収集システム
２：撮影装置
３：学習データ収集装置
４：識別装置
５Ａ−５Ｃ：カメラ
６：対象物
１１：画像取得部
１２：画像判定部
１３：報知処理部
２１：識別モデル
２２：記憶部
２３：識別モデル学習部
２４：画像識別部
４１：回転台
４６−４８：撮影画像
５１：プロセッサ
５４：記憶装置
５５：表示装置
５６：入力装置
５７：通信モジュール
６１：撮影画面
６２：撮影ボタン
６３：登録ボタン
７１、８１：報知画面
７２：第１のメッセージ
７４：第２のメッセージ
７７：第３のメッセージ
８２：第４のメッセージ
８３：第５のメッセージ
８４：第６のメッセージ

Claims

撮影者が対象物の撮影に用いる撮影装置によって生成された撮影画像を、画像認識に利用される学習データとして収集する学習データ収集装置であって、
前記学習データを収集する処理を実行するプロセッサを備え、
前記プロセッサは、
前記撮影画像を前記撮影装置から取得し、
前記撮影画像が前記学習データに適するか否かを判定し、
前記学習データに適さないと判定した前記撮影画像について、前記撮影者に再撮影を促すための報知処理を実行することを特徴とする学習データ収集装置。
前記プロセッサによる制御に基づき情報を表示する表示装置を更に備え、
前記プロセッサは、前記報知処理として、前記撮影者に再撮影を促すための報知画面を前記表示装置に表示することを特徴とする請求項１に記載の学習データ収集装置。
前記プロセッサは、
複数の判定基準を用いて前記各撮影画像が前記学習データに適するか否かを判定し、
前記判定に用いられた前記判定基準の種類に応じて、複数の異なる態様の前記報知処理を実行することを特徴とする請求項１または請求項２に記載の学習データ収集装置。
前記プロセッサによる制御に基づきデータを記憶する記憶装置を更に備え、
前記報知処理には、前記複数の異なる態様として、前記記憶装置への前記撮影画像に関する前記学習データの記憶が禁止される再撮影指示に関する処理と、前記記憶装置への前記撮影画像に関する前記学習データの記憶が許容される再撮影推奨に関する処理と、が含まれることを特徴とする請求項３に記載の学習データ収集装置。
前記プロセッサは、
前記撮影画像が、複数の対象物を含むと判定した場合、前記対象物が複数の物体であるか透明な部分を含む物体であるかを示す入力を受け付け、
前記複数の物体である旨の入力を受け付けた場合、前記再撮影指示に関する処理を行い、
前記透明な部分を含む物体である旨の入力を受け付けた場合、前記再撮影推奨に関する処理を行うことを特徴とする請求項４に記載の学習データ収集装置。
前記プロセッサは、
前記各撮影画像が前記学習データに適するか否かを判定する前に、前記撮影装置から取得した前記撮影画像を前記学習データとして前記記憶装置に記憶し、
前記学習データに適さないと判定した前記撮影画像に関して前記再撮影指示に関する処理を実行する場合には、当該撮影画像の前記学習データとしての登録を解除することを特徴とする請求項４に記載の学習データ収集装置。
前記プロセッサは、
前記対象物を互いに異なる向きから同時に撮影した前記撮影画像のセットを前記撮影装置から取得し、
前記撮影画像のセットに前記学習データに適さないと判定した少なくとも１つの前記撮影画像が含まれる場合には、前記撮影者に対し、当該撮影画像のセットについて前記再撮影を促すための報知処理を実行することを特徴とする請求項１から請求項６のいずれかに記載の学習データ収集装置。
前記プロセッサは、
前記学習データとして登録された前記撮影画像における前記対象物を、予め準備された学習済みモデルを用いて認識した結果を取得し、
前記認識結果に基づき、前記対象物と類似する他の異なる物体を学習済みであると判定した場合、当該撮影画像が前記学習データに適さないと判定することを特徴とする請求項１から請求項７のいずれかに記載の学習データ収集装置。
請求項１から請求項８のいずれかに記載の前記学習データ収集装置および前記撮影装置を備えたことを特徴とする学習データ収集システム。
撮影者が対象物の撮影に用いる撮影装置によって生成された撮影画像を、画像認識に利用される学習データとして収集する学習データ収集装置による学習データ収集方法であって、
前記撮影画像を前記撮影装置から取得し、
前記撮影画像が前記学習データに適するか否かを判定し、
前記学習データに適さないと判定した前記撮影画像を前記撮影装置から取得した場合には、前記撮影者に対し、当該撮影画像について再撮影を促すための報知処理を実行することを特徴とする学習データ収集方法。
前記報知処理として、前記撮影者に再撮影を促すための報知画面を表示装置に表示することを特徴とする請求項１０に記載の学習データ収集方法。
複数の判定基準を用いて前記各撮影画像が前記学習データに適するか否かを判定し、
前記判定に用いられた前記判定基準の種類に応じて、複数の異なる態様の前記報知処理を実行することを特徴とする請求項９または請求項１１に記載の学習データ収集方法。
前記報知処理には、前記複数の異なる態様として、記憶装置への前記学習データの記憶が禁止される再撮影指示に関する処理と、記憶装置への前記学習データの記憶が許容される再撮影推奨に関する処理と、が含まれることを特徴とする請求項１２に記載の学習データ収集方法。
前記撮影画像が、複数の対象物を含むと判定した場合、前記対象物が複数の物体であるか透明な部分を含む物体であるかを示す入力を受け付け、
前記複数の物体である旨の入力を受け付けた場合、前記再撮影指示に関する処理を行い、
前記透明な部分を含む物体である旨の入力を受け付けた場合、前記再撮影推奨に関する処理を行うことを特徴とする請求項１３に記載の学習データ収集方法。
前記各撮影画像が前記学習データに適するか否かを判定する前に、前記撮影装置から取得した前記撮影画像を前記学習データとして前記記憶装置に記憶し、
前記学習データに適さないと判定した前記撮影画像に関して前記再撮影指示に関する処理を実行する場合には、当該撮影画像の前記学習データとして登録を解除することを特徴とする請求項１４に記載の学習データ収集方法。
前記学習データとして登録された前記撮影画像における前記対象物を、予め準備された学習済みモデルを用いて認識した結果を取得し、
前記認識結果に基づき、前記対象物と同一または類似の物体を学習済みであると判定した場合、当該撮影画像が前記学習データに適さないと判定することを特徴とする請求項１０から請求項１５のいずれかに記載の学習データ収集方法。
予め準備された学習済みモデルを用いて、前記学習データとして登録された前記撮影画像における前記対象物を認識し、当該対象物と類似する他の異なる物体を学習済みであると判定した場合、当該撮影画像が前記学習データに適さないと判定することを特徴とする請求項１０から請求項１６のいずれかに記載の学習データ収集方法。