JP2020095537A

JP2020095537A - 学習用データセット自動生成システム、サーバ、及び学習用データセット自動生成プログラム

Info

Publication number: JP2020095537A
Application number: JP2018233776A
Authority: JP
Inventors: 要氏家; Kaname Ujiie; 安紘土田; Yasuhiro Tsuchida
Original assignee: AWL Inc
Current assignee: AWL Inc
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2020-06-18

Abstract

【課題】学習用データセット自動生成システム、サーバ、及び学習用データセット自動生成プログラムにおいて、多数の商品画像に商品識別情報をラベル付けした、商品認識用ニューラルネットワークの学習用データセットを自動生成する。【解決手段】サーバ１は、カメラ３から受信した各撮影画像のうち、各商品のバーコードのスキャン時刻近辺の時刻に撮影した撮影画像を抽出する画像抽出部６１と、抽出した撮影画像における商品画像を切り取る画像切取部６２と、切り取った商品画像の各々に、ＰＯＳレジ２から受信したＪＡＮコードのうち、商品画像の各々の基になる（切り取り前の）撮影画像の撮影時刻に最も近いスキャン時刻にスキャンしたバーコードに対応したＪＡＮコードをラベル付けするラベル付け部６３とを備える。これにより、サーバ１が、多数の商品画像にＪＡＮコードをラベル付けした商品認識用ＮＮ学習用データセット２０を自動生成することができる。【選択図】図５

Description

本発明は、学習用データセット自動生成システム、サーバ、及び学習用データセット自動生成プログラムに関する。

従来の小売店で販売している商品のうち、メーカが製造した商品には、商品の種類毎に異なる商品コード（日本では、ＪＡＮ（ＪａｐａｎｅｓｅＡｒｔｉｃｌｅＮｕｍｂｅｒ）コード）が付与されており、商品には、上記の商品コードを一次元のコードで表したバーコードが印字されている。従来の小売店では、ＰＯＳレジスタのスキャナで、商品のバーコードをスキャンすることにより、商品コードを読み取って、商品の識別を行っていた。

これに対して、カメラで撮影した撮影画像に映った商品から、商品の認識（識別）を行うようにした商品認識用ニューラルネットワーク（画像のクラス分類用ニューラルネットワークの一種）が提案されている（例えば、特許文献１参照）。

特開２０１８−１６９７５２号公報

ところが、上記の特許文献１に示されるように、商品認識用ニューラルネットワークを用いて、撮影画像に映った商品の認識（識別）を行うことができるようにするためには、多数の商品画像とＪＡＮコード等の商品コード（商品識別情報）をラベル付けした学習（訓練）用データセットを用いて、商品認識用ニューラルネットワークの機械学習を行う必要がある。特許文献１では、学習用データセットを作成するための教師データは、人の手作業で画像情報に含められる（商品画像にラベル付けされる）が、例えば、ＪＡＮコードは、１３桁の数値で管理されていて、チェックディジットの１桁を除外した１２桁に対応する商品の数は、理論上約１兆個にもなる。このため、ＪＡＮコードに対応する商品画像の各々に、ＪＡＮコードを手作業で１つずつ登録するには、膨大な時間と労力がかかってしまう。また、商品認識用ニューラルネットワークの学習用データセットの生成をサポートするために、手作業で多角から商品の撮影を行って商品画像をサービスとして提供している会社もあるが、手間・コストがかかり、商品点数の多さを考えると、現実的ではない。

本発明は、上記課題を解決するものであり、多数の商品画像に商品識別情報をラベル付けした、商品認識用ニューラルネットワークの学習用データセットを自動生成することが可能な学習用データセット自動生成システム、サーバ、及び学習用データセット自動生成プログラムを提供することを目的とする。

上記課題を解決するために、本発明の第1の態様による学習用データセット自動生成システムは、固定スキャナを有するＰＯＳレジスタと、前記固定スキャナにより商品のバーコードをスキャンする時に前記商品を撮影することが可能な位置に配置されたカメラと、前記ＰＯＳレジスタ及び前記カメラと通信回線で接続されて、商品認識用ニューラルネットワークの学習用データセットの自動生成を行うサーバとを備えた学習用データセット自動生成システムにおいて、前記サーバは、前記カメラから、各撮影画像と、前記各撮影画像の撮影時刻とを受信すると共に、前記ＰＯＳレジスタから、前記固定スキャナによる各商品のバーコードのスキャン時刻と、前記スキャン時刻にスキャンしたバーコードに対応した商品識別情報とを受信する受信部と、前記カメラから受信した前記各撮影画像及び前記各撮影画像の撮影時刻と、前記ＰＯＳレジスタから受信した前記各商品のバーコードのスキャン時刻とに基づいて、前記カメラから受信した前記各撮影画像のうち、前記各商品のバーコードのスキャン時刻近辺の時刻に撮影した撮影画像を抽出する画像抽出部と、前記画像抽出部により抽出した撮影画像における商品の部分の画像である商品画像を切り取る画像切取部と、前記画像切取部により切り取った前記商品画像の各々に、前記ＰＯＳレジスタから受信した商品識別情報のうち、前記商品画像の各々の基になる撮影画像の撮影時刻に最も近いスキャン時刻にスキャンしたバーコードに対応した商品識別情報をラベル付けするラベル付け部とを備える。

この学習用データセット自動生成システムにおいて、前記画像抽出部は、前記カメラから受信した前記各撮影画像及び前記各撮影画像の撮影時刻と、前記ＰＯＳレジスタから受信した前記各商品のバーコードのスキャン時刻とに基づいて、前記カメラから受信した前記各撮影画像のうち、前記各商品のバーコードのスキャン時刻に撮影した撮影画像、前記スキャン時刻の所定時間前の時刻に撮影した撮影画像、及び前記スキャン時刻の所定時間後の時刻に撮影した撮影画像を抽出することが望ましい。

この学習用データセット自動生成システムにおいて、前記画像切取部は、前記画像抽出部により抽出した撮影画像から、前記商品画像として、店員の手に持たれている商品と、前記店員の手における、この商品を把持する部分とを含む画像を切り取ることが望ましい。

この学習用データセット自動生成システムにおいて、前記カメラは、複数であり、これらのカメラは、前記固定スキャナにより商品のバーコードをスキャンする時に、前記商品を異なる方向から撮影することが可能な位置に配置されていることが望ましい。

本発明の第２の態様によるサーバは、固定スキャナを有するＰＯＳレジスタから、前記固定スキャナによる各商品のバーコードのスキャン時刻と、前記スキャン時刻にスキャンしたバーコードに対応した商品識別情報とを受信すると共に、前記固定スキャナにより商品のバーコードをスキャンする時に前記商品を撮影することが可能な位置に配置されたカメラから、各撮影画像と、前記各撮影画像の撮影時刻とを受信する受信部と、前記カメラから受信した前記各撮影画像及び前記各撮影画像の撮影時刻と、前記ＰＯＳレジスタから受信した前記各商品のバーコードのスキャン時刻とに基づいて、前記カメラから受信した前記各撮影画像のうち、前記各商品のバーコードのスキャン時刻近辺の時刻に撮影した撮影画像を抽出する画像抽出部と、前記画像抽出部により抽出した撮影画像における商品の部分の画像である商品画像を切り取る画像切取部と、前記画像切取部により切り取った前記商品画像の各々に、前記ＰＯＳレジスタから受信した商品識別情報のうち、前記商品画像の各々の基になる撮影画像の撮影時刻に最も近いスキャン時刻にスキャンしたバーコードに対応した商品識別情報をラベル付けするラベル付け部とを備える。

このサーバにおいて、前記画像抽出部は、前記カメラから受信した前記各撮影画像及び前記各撮影画像の撮影時刻と、前記ＰＯＳレジスタから受信した前記各商品のバーコードのスキャン時刻とに基づいて、前記カメラから受信した前記各撮影画像のうち、前記各商品のバーコードのスキャン時刻に撮影した撮影画像、前記スキャン時刻の所定時間前の時刻に撮影した撮影画像、及び前記スキャン時刻の所定時間後の時刻に撮影した撮影画像を抽出することが望ましい。

このサーバにおいて、前記画像切取部は、前記画像抽出部により抽出した撮影画像から、前記商品画像として、店員の手に持たれている商品と、前記店員の手における、この商品を把持する部分とを含む画像を切り取ることが望ましい。

本発明の第３の態様による学習用データセット自動生成プログラムは、コンピュータを、固定スキャナを有するＰＯＳレジスタから、前記固定スキャナによる各商品のバーコードのスキャン時刻と、前記スキャン時刻にスキャンしたバーコードに対応した商品識別情報とを受信すると共に、前記固定スキャナにより商品のバーコードをスキャンする時に前記商品を撮影することが可能な位置に配置されたカメラから、各撮影画像と、前記各撮影画像の撮影時刻とを受信する受信部と、前記カメラから受信した前記各撮影画像及び前記各撮影画像の撮影時刻と、前記ＰＯＳレジスタから受信した前記各商品のバーコードのスキャン時刻とに基づいて、前記カメラから受信した前記各撮影画像のうち、前記各商品のバーコードのスキャン時刻近辺の時刻に撮影した撮影画像を抽出する画像抽出部と、前記画像抽出部により抽出した撮影画像における商品の部分の画像である商品画像を切り取る画像切取部と、前記画像切取部により切り取った前記商品画像の各々に、前記ＰＯＳレジスタから受信した商品識別情報のうち、前記商品画像の各々の基になる撮影画像の撮影時刻に最も近いスキャン時刻にスキャンしたバーコードに対応した商品識別情報をラベル付けするラベル付け部として機能させるための、学習用データセット自動生成プログラムである。

この学習用データセット自動生成プログラムにおいて、前記画像抽出部は、前記カメラから受信した前記各撮影画像及び前記各撮影画像の撮影時刻と、前記ＰＯＳレジスタから受信した前記各商品のバーコードのスキャン時刻とに基づいて、前記カメラから受信した前記各撮影画像のうち、前記各商品のバーコードのスキャン時刻に撮影した撮影画像、前記スキャン時刻の所定時間前の時刻に撮影した撮影画像、及び前記スキャン時刻の所定時間後の時刻に撮影した撮影画像を抽出することが望ましい。

この学習用データセット自動生成プログラムにおいて、前記画像切取部は、前記画像抽出部により抽出した撮影画像から、前記商品画像として、店員の手に持たれている商品と、前記店員の手における、この商品を把持する部分とを含む画像を切り取ることが望ましい。

本発明の第１の態様による学習用データセット自動生成システム、第２の態様によるサーバ、及び第３の態様による学習用データセット自動生成プログラムによれば、サーバ又はコンピュータが、カメラから受信した各撮影画像のうち、固定スキャナによる各商品のバーコードのスキャン時刻近辺の時刻に撮影した撮影画像から切り取った商品画像の各々に、ＰＯＳレジスタから受信した商品識別情報のうち、上記の商品画像の各々の基になる（切り取り前の）撮影画像の撮影時刻に最も近い時刻にスキャンしたバーコードに対応した商品識別情報をラベル付けすることができる。従って、ＰＯＳレジスタの固定スキャナで、多数の商品のバーコードをスキャンすることにより、多数の商品画像に商品識別情報をラベル付けした、商品認識用ニューラルネットワークの学習用データセットを自動生成することができる。

本発明の一実施形態の学習用データセット自動生成システムの概略の構成を示すブロック構成図。同学習用データセット自動生成システムの電気的ブロック構成図。（ａ）（ｂ）（ｃ）（ｄ）は、それぞれ、図２中のサーバの撮影画像ファイル、スキャン情報ログファイル、スキャン情報ファイル、及び商品認識用ニューラルネットワークの学習用データセットのレコードフォーマットを示す図。同学習用データセット自動生成システムにおける、上記学習用データセットの自動生成方法の説明図。同学習用データセット自動生成システムに含まれるサーバのＣＰＵ内の機能ブロック構成図。同学習用データセット自動生成システムにおける上記学習用データセットの自動生成処理のフローチャート。同学習用データセット自動生成システムにおける、撮影画像からの商品画像の切り取り方の説明図。同学習用データセット自動生成システムにおけるカメラの設置方法の例を示す図。

以下、本発明を具体化した実施形態による学習用データセット自動生成システム、サーバ、及び学習用データセット自動生成プログラムについて、図面を参照して説明する。図１は、本実施形態による学習用データセット自動生成システム１０の概略の構成を示すブロック構成図である。この学習用データセット自動生成システム１０は、小売店の店舗内に配されたＰＯＳレジスタ（以下、「ＰＯＳレジ」という）２及びカメラ３と、クラウド上のサーバ１（請求項におけるサーバ、及びコンピュータに相当）とを備えている。上記のカメラ３は、動画の撮影を行うことが可能なカメラであり、ＰＯＳレジ２の固定スキャナにより商品のバーコードをスキャンする時に商品を撮影することが可能な位置に配置されている（図４の３ａ及び３ｂ参照）。

図１に示されるように、店舗内の各ＰＯＳレジ２及び各カメラ３は、有線又は無線（Ｗｉｆｉ等）のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）６と、ルータ７とを介して、インターネット８（クラウド）上のサーバ１と接続されている。すなわち、サーバ１は、店舗内の各ＰＯＳレジ２及び各カメラ３と通信回線で接続されている。詳細については後述するが、サーバ１は、各店舗のＰＯＳレジ２及びカメラ３から受信したデータに基づいて、商品認識用ニューラルネットワークの学習用データセットの自動生成を行う。

次に、図２を参照して、学習用データセット自動生成システム１０のハードウェア構成について説明する。ＰＯＳレジ２は、装置全体の制御と各種演算を行うＣＰＵ２１を備えている。また、ＰＯＳレジ２は、通信部２２を有しており、通信部２２を介して、サーバ１と通信を行う。通信部２２は、通信用ＩＣを備えている。

また、ＰＯＳレジ２は、メモリ２３と、液晶タッチパネル２４と、客側表示部２５と、固定スキャナ２６と、ハンディスキャナ２７と、キーボード２８と、印字部２９とを備えている。メモリ２３は、各種のプログラムやデータを記憶する。メモリ２３に記憶されているプログラム及びデータには、ＰＯＳレジ２の動作を制御するためのＰＯＳレジ制御プログラム３０と、ＰＯＳレジ２によりスキャンした情報のログファイルであるスキャン情報ログファイル３１とが含まれている。上記のスキャン情報ログファイル３１には、ＰＯＳレジ２の固定スキャナ２６又はハンディスキャナ２７によるスキャン時のＪＡＮコード等の情報と、店員のキーボード２８による入力時のＪＡＮコード等の情報とが、含まれる。

また、カメラ３は、カメラ全体の制御と各種演算を行うＣＰＵ３１と、撮像素子であるＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）等を備えたカメラユニット３２と、ハードディスク等で構成されたフォトストレージ３４とを備えている。このフォトストレージ３４には、カメラユニット３２による１日以上の撮影画像（動画）のデータを記憶することができる。この撮影画像（動画）のファイルが、図２における撮影画像ファイル３５である。また、カメラ３は、通信用ＩＣから構成される通信部３３を有しており、通信部３３を介して、サーバ１に、例えば、１日１回のタイムスパンで、撮影画像（動画）を送信する。なお、上記のカメラ３からサーバ１への撮影画像の送信は、ＰＵＳＨ型で行われてもよいし、ＰＵＬＬ型で行われもよい。すなわち、カメラ３が、撮影画像を自動的にサーバ１に送信するようにしてもよいし、サーバ１が、カメラ３に対して、撮影画像を送信するように要求し、これに応じて、カメラ３が、撮影画像を送信するようにしてもよい。

上記のＰＯＳレジ２とカメラ３のシステム時刻は、いずれも、日本標準時と一致する（同期する）ようになっている。また、上記のＰＯＳレジ２及びカメラ３は、ＬＡＮケーブル等により、常時給電されている。

上記のサーバ１は、装置全体の制御と各種演算を行うＣＰＵ１１を備えている。また、サーバ１は、通信部１２（請求項における「受信部」）を有しており、通信部１２を介して、ＰＯＳレジ２及びカメラ３と通信を行う。通信部１２は、カメラ３から、各撮影画像と、各撮影画像の撮影時刻とを受信すると共に、ＰＯＳレジ２から、固定スキャナ２６による各商品のバーコードのスキャン時刻と、このスキャン時刻にスキャンしたバーコードに対応したＪＡＮコード（請求項における「商品識別情報」）とを受信する。上記の通信部１２は、通信用ＩＣを備えている。

また、サーバ１は、各種のプログラムやデータを記憶するハードディスク１３と、各種のプログラムの実行時に、実行するプログラムやデータをロードするＲＡＭ１４と、ディスプレイ１５と、各種の入力指示操作に用いられる操作部１６とを備えている。上記のハードディスク１３には、学習用データセット自動生成プログラム１７と、撮影画像ファイル１８と、スキャン情報ファイル１９と、商品認識用ニューラルネットワークの学習用データセット（以下、「商品認識用ＮＮ学習用データセット」という）２０とが格納されている。学習用データセット自動生成プログラム１７は、商品認識用ＮＮ学習用データセット２０の自動生成を行うプログラムである。撮影画像ファイル１８は、カメラ３側から転送された撮影画像を格納するためのファイルである。

なお、上記図２に示す例では、サーバ１が、ハードディスク１３に、学習用データセット自動生成プログラム１７、撮影画像ファイル１８、スキャン情報ファイル１９、及び商品認識用ＮＮ学習用データセット２０を格納する場合の例を示したが、サーバ１が、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）を備えて、このＳＳＤに、上記の学習用データセット自動生成プログラム１７、撮影画像ファイル１８、スキャン情報ファイル１９、及び商品認識用ＮＮ学習用データセット２０を格納してもよい。

図３（ａ）（ｂ）（ｃ）（ｄ）は、それぞれ、図２中の撮影画像ファイル１８、スキャン情報ログファイル３１、スキャン情報ファイル１９、及び商品認識用ＮＮ学習用データセット２０のレコードフォーマットを示す。撮影画像ファイル１８の各レコードは、図３（ａ）に示すように、カメラ３側から転送された（カメラ３側の画像ファイル３５に含まれる）各撮影画像５２と、この撮影画像５２の撮影時刻５１とを格納している。上記の撮影画像５２は、カメラ３で撮影された動画における、撮影時刻５１の撮影画像である。また、ＰＯＳレジ２のスキャン情報ログファイル３１の各レコードは、図３（ｂ）に示すように、ＰＯＳレジ２が取得したＪＡＮコード５４と、このＪＡＮコード５４の取得時刻（取得年月日を含む）であるスキャン時刻５３と、ＪＡＮコード５４の取得（入力）方法（固定スキャナ２６、ハンディスキャナ２７、及び店員のキーボード２８による手入力のうち、いずれの方法でＪＡＮコード５４を取得したかという情報）であるコード入力方法５５とを格納している。

上記のサーバ１のスキャン情報ファイル１９の各レコードは、図３（ｃ）に示すように、ＰＯＳレジ２から受信した、固定スキャナ２６による各商品のバーコードのスキャン時刻５６と、このスキャン時刻５６にスキャンしたバーコードに対応したＪＡＮコード５７とを格納している。上記のスキャン時刻５６とＪＡＮコード５７とは、それぞれ、ＰＯＳレジ２側のスキャン情報ログファイル３１に格納されたレコードのうち、固定スキャナ２６を用いたバーコードのスキャンにより得られたレコードにおける、スキャン時刻５３とＪＡＮコード５４に対応する。なお、上記のＰＯＳレジ２からサーバ１へのスキャン時刻とＪＡＮコードの送信は、ＰＵＳＨ型で行われてもよいし、ＰＵＬＬ型で行われもよい。すなわち、ＰＯＳレジ２が、取得したＪＡＮコードとスキャン時刻とを、自動的に、サーバ１に送信するようにしてもよいし、サーバ１が、ＰＯＳレジ２に対して、ＪＡＮコードとスキャン時刻とを送信するように要求し、これに応じて、ＰＯＳレジ２が、ＪＡＮコードとスキャン時刻とをサーバ１に送信するようにしてもよい。

上記の商品認識用ＮＮ学習用データセット２０の各レコードは、図３（ｄ）に示すように、商品画像５８と、ＪＡＮコード５９とを格納している。上記の商品画像５８は、カメラ３から受信した各撮影画像のうち、固定スキャナ２６による各商品のバーコードのスキャン時刻近辺の時刻に撮影した撮影画像における商品の部分の画像（を切り取った画像）である。上記の「各商品のバーコードのスキャン時刻近辺の時刻に撮影した撮影画像」とは、例えば、カメラ３から受信した各撮影画像のうち、各商品のバーコードのスキャン時刻に撮影した撮影画像、このスキャン時刻の１秒前に撮影した撮影画像、及びこのスキャン時刻の１秒後に撮影した撮影画像である。また、上記のＪＡＮコード５９は、スキャン情報ファイル１９に格納された各レコードのＪＡＮコード５７のうち、上記の商品画像５８の基になる（切り取り前の）撮影画像の撮影時刻に最も近いスキャン時刻にスキャンしたバーコードに対応したＪＡＮコードである。このＪＡＮコード５９は、同じレコードの商品画像５８にアノテーションされた正解ラベルのデータである。

次に、図４を参照して、この学習用データセット自動生成システム１０における、商品認識用ＮＮ学習用データセット２０の自動生成方法の概要について、説明する。図４において、Ｇは、商品を示し、Ｂは、商品Ｇのバーコードを示し、Ｈは、商品Ｇを持つ店員の手を示す。また、図４における４１ａ、４１ｂは、買い物かごを示す。さらにまた、図４における矢印は、店員が手に持った商品ＧのバーコードＢを固定スキャナ２６でスキャンする時における、商品Ｇの移動方向を示す。図４に示すように、カメラ３ａ、３ｂは、店員がＰＯＳレジ２の固定スキャナ２６により商品ＧのバーコードＢをスキャンする時に商品Ｇを撮影することが可能な位置に配置されているため、固定スキャナ２６による商品ＧのバーコードＢのスキャンの際に撮影した撮影画像に映った商品ＧのＪＡＮコードは、このスキャンで読み取ったバーコードＢのＪＡＮコードであるということになる。従って、各商品のバーコードのスキャン時刻近辺の時刻に撮影した撮影画像５２における商品画像の各々に、ＰＯＳレジ２から受信したＪＡＮコード５７のうち、上記の商品画像の各々の基になる撮影画像５２の撮影時刻５１に最も近いスキャン時刻５６にスキャンしたバーコードに対応したＪＡＮコード５７をラベル付けすることにより、上記の商品画像の各々に、正解ラベルのＪＡＮコードをラベル付けすることができる。

次に、図５を参照して、上記のサーバ１側のＣＰＵ１１内の機能ブロックについて、説明する。ＣＰＵ１１内の各ブロック（画像抽出部６１、画像切取部６２、及びラベル付け部６３）の機能は、ＣＰＵ１１が学習用データセット自動生成プログラム１７を実行することにより実現される。ただし、この構成に限られず、上記のＣＰＵ１１における各ブロックの機能の少なくとも一つを、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等によって構成される個別のハードウェアによって実現してもよい。例えば、サーバ１に、ＧＰＵを設けて、上記の画像抽出部６１、画像切取部６２、及びラベル付け部６３の機能の少なくとも一つを、ＧＰＵで行うようにしてもよい。

上記の画像抽出部６１は、カメラ３から受信した（撮影画像ファイル１８における）各撮影画像５２、及び各撮影画像５２の撮影時刻５１と、ＰＯＳレジ２から受信した（スキャン情報ファイル１９における）各商品のバーコードのスキャン時刻５６とに基づいて、カメラ３から受信した各撮影画像５２のうち、各商品のバーコードのスキャン時刻５６近辺の時刻に撮影した撮影画像５２を抽出する。上記の画像切取部６２は、画像抽出部６１により抽出した各撮影画像５２における商品の部分の画像である商品画像を切り取る。

上記のラベル付け部６３は、画像切取部６２により切り取った商品画像（各商品のバーコードのスキャン時刻近辺の時刻に撮影した撮影画像５２における商品画像）の各々に、ＰＯＳレジ２から受信した（スキャン情報ファイル１９の）ＪＡＮコード５７のうち、上記の商品画像の各々の基になる（切り取り前の）撮影画像５２の撮影時刻５１に最も近いスキャン時刻５６にスキャンしたバーコードに対応したＪＡＮコード５７をラベル付けする。

次に、本実施形態の学習用データセット自動生成システム１０に採用されている、商品認識用ＮＮ学習用データセット２０に、異なる角度からの商品画像５８についての学習用データ（訓練データ）を格納するための工夫について、説明する。この学習用データセット自動生成システム１０では、商品認識用ＮＮ学習用データセット２０に、異なる角度からの商品画像５８についての学習用データ（訓練データ）を格納するために、（これらの商品画像５８の基になる）異なる角度からの撮影画像を得るための工夫をしている。

上記の異なる角度からの撮影画像を得るための工夫の例としては、学習用データセット自動生成システム１０が、図４に示すように、固定スキャナ２６により商品ＧのバーコードＢをスキャンする時に、商品Ｇを異なる方向から撮影することが可能な位置に配置された複数のカメラ３ａ、３ｂを備えることが挙げられる。これらのカメラ３ａ、３ｂは、それぞれ、ＰＯＳレジ２の固定スキャナ２６から見て、商品ＧのバーコードＢのスキャン後の位置と、スキャン前の位置に配置されている。これらのカメラ３ａ、３ｂを用いて、商品Ｇの異なる角度からの撮影画像を得ることができる。

ただし、学習用データセット自動生成システム１０は、必ずしも、図４に示すように、複数のカメラ３ａ、３ｂを備える必要はなく、一つのカメラ３を備えていてもよい。このように、学習用データセット自動生成システム１０が備えるカメラ３が、一つの場合であっても、図３の説明で述べたように、商品認識用ＮＮ学習用データセット２０に、各商品のバーコードのスキャン時刻に撮影した撮影画像に基づく商品画像５８に加えて、このスキャン時刻の所定時間前（例えば、１秒前）と所定時間後（例えば、１秒後）の時刻に撮影した撮影画像に基づく商品画像５８を格納することにより、各商品のバーコードのスキャン時に、異なる角度からの複数の商品画像５８についての学習用データを得ることができる。

上記のように、各商品のバーコードのスキャン時に、異なる角度からの複数の商品画像５８についての学習用データを得ることにより、学習用データセット自動生成システム１０のサーバ１側のシステム管理者またはオペレータが、これらの商品画像５８のうち、いわゆるモーションブラー（動いている被写体をカメラで撮影した時に生じるぶれ）が発生していない商品画像５８についての学習用データを選択することが可能である。

次に、図６を参照して、サーバ１のＣＰＵ１１が学習用データセット自動生成プログラム１７に従って行う、商品認識用ＮＮ学習用データセット２０の自動生成処理について、説明する。まず、サーバ１のＣＰＵ１１は、通信部１２を用いて、カメラ３から、撮影画像ファイル３５に格納された、各撮影画像と各撮影画像の撮影時刻とを受信すると共に、ＰＯＳレジ２から、スキャン情報ログファイル３１に格納されたレコードにおける、固定スキャナ２６による各商品のバーコードのスキャン時刻５３（図３（ｂ）参照）と、このスキャン時刻５３にスキャンしたバーコードに対応したＪＡＮコード５４とを受信する（Ｓ１）。なお、上記の固定スキャナ２６による各商品のバーコードのスキャン時刻５３とは、スキャン情報ログファイル３１に格納されたレコードのうち、図３（ｂ）に示すコード入力方法５５が固定スキャナであるレコードにおけるスキャン時刻５３を意味する。サーバ１のＣＰＵ１１は、上記のカメラ３から受信した各撮影画像と各撮影画像の撮影時刻とを、サーバ１側の撮影画像ファイル１８に格納し、ＰＯＳレジ２から受信したスキャン時刻とＪＡＮコードとを、スキャン情報ファイル１９に格納する。

なお、上記のカメラ３からの撮影画像等の受信は、カメラ３の撮影画像ファイル３５のサーバ１への転送の形で行われる。このカメラ３からサーバ１への撮影画像ファイル転送は、例えば、１日１回の頻度で行われる。また、上記のサーバ１のＰＯＳレジ２からのスキャン時刻５３とＪＡＮコード５４の受信も、バッチ処理で行えばよく、例えば、カメラ３からの撮影画像ファイル転送と同様に、１日１回の頻度で行えばよい。

次に、サーバ１のＣＰＵ１１の画像抽出部６１は、カメラ３から受信した（撮影画像ファイル１８における）各撮影画像５２及び撮影時刻５１と、ＰＯＳレジ２から受信した（スキャン情報ファイル１９における）各商品のバーコードのスキャン時刻５６とに基づいて、カメラ３から受信した各撮影画像５２のうち、各商品のバーコードのスキャン時刻５６近辺の時刻に撮影した撮影画像５２を抽出する（Ｓ２）。具体的には、画像抽出部６１は、スキャン情報ファイル１９に格納された１つのレコードを読み出して、撮影画像ファイル１８に格納された各撮影画像５２のうち、上記の読み出したスキャン情報ファイル１９のレコードにおけるスキャン時刻５６の近辺の時刻に撮影した撮影画像５２を抽出する。

より詳細に説明すると、画像抽出部６１は、上記の読み出したスキャン情報ファイル１９のレコードにおけるスキャン時刻５６と、撮影画像ファイル１８に格納された各撮影画像５２及び撮影時刻５1とに基づいて、撮影画像ファイル１８に格納された各撮影画像５２のうち、上記の読み出したスキャン情報ファイル１９のレコードにおけるスキャン時刻５６に撮影した撮影画像５２、このスキャン時刻５６の所定時間前（例えば、１秒前）の時刻に撮影した撮影画像５２、及びスキャン時刻５６の所定時間後（例えば、１秒後）の時刻に撮影した撮影画像５２を抽出する。

上記Ｓ２の撮影画像抽出処理が完了すると、サーバ１のＣＰＵ１１の画像切取部６２は、画像抽出部６１により抽出した各撮影画像５２における商品の部分の画像である商品画像を切り取る（Ｓ３）。より詳細に説明すると、画像切取部６２は、画像抽出部６１により抽出した各撮影画像５２から、商品画像として、店員の手Ｈに持たれている商品Ｇ（図４参照）と、店員の手Ｈにおける、この商品を把持する部分とを含む画像を切り取る。

次に、サーバ１のＣＰＵ１１のラベル付け部６３は、画像切取部６２により切り取った商品画像（上記の読み出したスキャン情報ファイル１９のレコードにおけるスキャン時刻５６近辺の時刻に撮影した撮影画像５２における商品画像）の各々に、スキャン情報ファイル１９に記憶されたＪＡＮコード５７のうち、上記の商品画像の各々の基になる（切り取り前の）撮影画像５２の撮影時刻５１に最も近いスキャン時刻５６にスキャンしたバーコードに対応したＪＡＮコード５７をラベル付けする（Ｓ４）。ただし、本実施形態の場合は、実際には、ラベル付け部６３は、画像切取部６２により切り取った商品画像（上記の読み出したスキャン情報ファイル１９のレコードにおけるスキャン時刻５６近辺の時刻に撮影した撮影画像５２における商品画像）の各々に、上記の読み出したスキャン情報ファイル１９のレコードのＪＡＮコード５７をラベル付けする。上記の商品画像の各々と、この商品画像にラベル付けされたＪＡＮコードは、商品認識用ＮＮ学習用データセット２０における同じレコードに格納される。

サーバ１のＣＰＵ１１は、上記Ｓ１でＰＯＳレジ２から受信してスキャン情報ファイル１９に格納した全てのＪＡＮコード５７を用いたラベル付け処理が完了するまで（Ｓ５でＮＯ）、上記Ｓ２乃至Ｓ４の処理を繰り返す。

図７は、上記のように、撮影画像５２から切り取られて、商品認識用ＮＮ学習用データセット２０に格納される商品画像５８を示す。図７に示すように、画像切取部６２により切り取られる商品画像５８は、店員の手に持たれている商品の画像ＧＩと、店員の手における、商品を把持する部分の画像（以下、「手画像」という）ＨＩとを含んだ画像である。

ここで、商品認識用ニューラルネットワークを用いた商品認識は、例えば、顧客が買い物かごに商品を入れる時や、顧客が買い物かごから商品を取り出す時等の、顧客が商品を手にもっている時に行われるケースが多い。従って、上記のように、商品認識用ＮＮ学習用データセット２０に格納される商品画像５８に、上記の手画像ＨＩを含むようにすることにより、この商品認識用ＮＮ学習用データセット２０を用いて学習を行った商品認識用ニューラルネットワークの商品認識の精度を向上させることができる可能性が高い。

なお、上述した各商品のスキャン時に異なる角度からの複数の商品画像を得るための工夫は、学習時に手（画像）を過学習することを防ぐことにもつながる。この点について詳述すると、例えば、上記図４に示すように、複数のカメラ３ａ、３ｂを用いて撮影した撮影画像に基づいて異なる角度からの複数の商品画像を得ることにより、商品を持つ手の向きが異なる商品画像を得ることができる。また、図３の説明で述べたように、各商品のバーコードのスキャン時刻に撮影した撮影画像に基づく商品画像に加えて、このスキャン時刻の所定時間前（例えば、１秒前）と所定時間後（例えば、１秒後）の時刻に撮影した撮影画像に基づく商品画像を作成する（切り取る）ことにより、商品を持つ手の位置や向きが異なる商品画像を得ることができる。これらのバリエーションを有する手画像ＨＩ（図７参照）を含む商品画像５８を格納した商品認識用ＮＮ学習用データセット２０を用いて、商品認識用ニューラルネットワークの機械学習を行うことにより、手（画像）の過学習を防ぐことができる。

次に、カメラ３の具体的な設置の仕方について、説明する。カメラ３は、固定スキャナ２６の真下に位置する買い物かご４１ａの全景が映る位置に設置される。より具体的に言うと、固定スキャナ２６が、ＰＯＳレジ２の中央部にある場合（図４参照）、固定スキャナ２６の左右、又は斜め上に設置される。固定スキャナ２６の左右とは、固定スキャナ２６から見て、商品のバーコードのスキャン後の位置と、スキャン前の位置に相当する。また、カメラ３のＰＯＳレジ２周辺への固定方法としては、クランプ、クリップ、両面テープ、マグネット等、ＰＯＳレジ２又はその置台７３（図８参照）の形状と材質にマッチしたものを採用すればよい。ただし、カメラ３が外れにくいようにすることを考慮すると、カメラ３を、ＰＯＳレジ２又はその置台７３に、クランプで固定することが望ましい。

図８は、カメラ３を、固定スキャナ２６の右側（固定スキャナ２６から見て、商品のバーコードのスキャン前の位置）に設置した場合の例を示す。この例では、カメラ３は、ポール７１を介して、ＰＯＳレジ２の置台７３に、クランプ７２で固定されている。具体的に言うと、図８中のポール７１の上端には、ねじ切り（雄ねじ）が設けられており、また、カメラ３の底面には、ねじ孔（雌ねじ）が設けられている。カメラ３の底面に設けられた雌ねじと、ポール７１の上端に設けられた雄ねじとを螺合して、ポール７１の上端にカメラ３を取り付けた上で、このポール７１をクランプ７２により置台７３に取り付けることにより、カメラ３とポール７１を置台７３に固定することができる。また、カメラ３をＰＯＳレジ２自体に固定する場合には、例えば、カメラ３を、クランプを用いて、ＰＯＳレジ２における破線Ｃの位置（液晶タッチパネル２４の側端部の枠の部分）に取り付ける。

上記のように、本実施形態の学習用データセット自動生成システム１０、サーバ１、及び学習用データセット自動生成プログラム１７によれば、サーバ１が、カメラ３から受信した各撮影画像５２のうち、固定スキャナ２６による各商品のバーコードのスキャン時刻近辺の時刻に撮影した撮影画像５２から切り取った商品画像５８の各々に、ＰＯＳレジ２から受信したＪＡＮコード５７のうち、上記の商品画像５８の各々の基になる（切り取り前の）撮影画像５２の撮影時刻５１に最も近いスキャン時刻５６にスキャンしたバーコードに対応したＪＡＮコード５７をラベル付けすることができる。従って、従来の小売店で用いられていたＰＯＳレジの固定スキャナと同様な固定スキャナ２６で、多数の商品のバーコードをスキャンすることにより、多数の商品画像５８にＪＡＮコード５７をラベル付けした商品認識用ＮＮ学習用データセット２０を自動生成することができる。

また、この学習用データセット自動生成システム１０、サーバ１、及び学習用データセット自動生成プログラム１７によれば、サーバ１のＣＰＵ１１の画像抽出部６１が、商品画像５８の各々の基になる（切り取り前の）撮影画像５２として、カメラ３から受信した各撮影画像５２のうち、各商品のバーコードのスキャン時刻５６に撮影した撮影画像５２、スキャン時刻５６の所定時間前（例えば、１秒前）の時刻に撮影した撮影画像５２、及びスキャン時刻５６の所定時間後（例えば、１秒後）の時刻に撮影した撮影画像５２を抽出するようにした。これにより、各商品のバーコードのスキャン時に、異なる角度からの複数の商品画像５８についての学習用データを得ることができる。また、このように、各商品のバーコードのスキャン時に、異なる角度からの複数の商品画像５８についての学習用データを得ることにより、学習用データセット自動生成システム１０のサーバ１側のシステム管理者またはオペレータが、これらの商品画像５８のうち、いわゆるモーションブラーが発生していない商品画像５８についての学習用データを選択することができる。さらにまた、商品画像５８の各々の基になる撮影画像５２として、カメラ３から受信した各撮影画像５２のうち、各商品のバーコードのスキャン時刻５６に撮影した撮影画像５２に加えて、スキャン時刻５６の所定時間前と所定時間後の時刻に撮影した撮影画像５２を抽出するようにしたことにより、商品を持つ手の位置や向きが異なる商品画像を得ることができる。これらのバリエーションを有する手画像を含む商品画像５８を格納した商品認識用ＮＮ学習用データセット２０を用いて、商品認識用ニューラルネットワークの機械学習を行うことにより、手（画像）の過学習を防ぐことができる。

また、この学習用データセット自動生成システム１０、サーバ１、及び学習用データセット自動生成プログラム１７によれば、サーバ１のＣＰＵ１１の画像抽出部６１により抽出した撮影画像５２から、商品画像５８として、店員の手に持たれている商品と、店員の手における、この商品を把持する部分とを含む画像（手画像ＨＩ）を切り取るようにした。ここで、商品認識用ニューラルネットワークを用いた商品認識は、顧客が商品を手にもっている時に行われるケースが多い。従って、上記のように、商品認識用ＮＮ学習用データセット２０に格納される商品画像５８に、上記の手画像ＨＩを含むようにすることにより、この商品認識用ＮＮ学習用データセット２０を用いて学習を行った商品認識用ニューラルネットワークの商品認識の精度を向上させることができる可能性が高い。

また、この学習用データセット自動生成システム１０によれば、カメラ３を複数とし、これらのカメラ３（例えば、図４におけるカメラ３ａ、３ｂ）を、固定スキャナ２６により商品のバーコードをスキャンする時に、商品を異なる方向から撮影することが可能な位置に配置するようにした。これらのカメラ３を用いて、各商品のバーコードのスキャン時に、異なる角度からの複数の商品画像５８についての学習用データを得ることができる。また、このように、各商品のバーコードのスキャン時に、異なる角度からの複数の商品画像５８についての学習用データを得ることにより、学習用データセット自動生成システム１０のサーバ１側のシステム管理者またはオペレータが、これらの商品画像５８のうち、いわゆるモーションブラーが発生していない商品画像５８についての学習用データを選択することができる。さらにまた、上記のように、複数のカメラ３を、固定スキャナ２６により商品のバーコードをスキャンする時に、商品を異なる方向から撮影することが可能な位置に配置するようにしたことにより、商品を持つ手の向きが異なる商品画像を得ることができる。これらのバリエーションを有する手画像を含む商品画像５８を格納した商品認識用ＮＮ学習用データセット２０を用いて、商品認識用ニューラルネットワークの機械学習を行うことにより、手（画像）の過学習を防ぐことができる。

変形例：
なお、本発明は、上記の各実施形態の構成に限られず、発明の趣旨を変更しない範囲で種々の変形が可能である。次に、本発明の変形例について説明する。

変形例１：
上記の実施形態では、図１等に示すように、サーバ１が、各店舗に配された多数のＰＯＳレジ２とカメラ３から受信したデータに基づいて、商品認識用ＮＮ学習用データセット２０の自動生成を行う場合の例を示したが、サーバは、特定の店舗に配された特定の（少なくとも一組の）ＰＯＳレジとカメラから受信したデータに基づいて、商品認識用ＮＮ学習用データセットの自動生成を行うようにしてもよい。

また、上記の実施形態では、商品認識用ＮＮ学習用データセット２０の自動生成を行うサーバ１を、クラウド（インターネット８）上に配置した場合の例を示したが、商品認識用ＮＮ学習用データセットの自動生成を行うサーバの配置は、これに限られず、例えば、このサーバを、イントラネット内（店舗内）に設置してもよい。

変形例２：
上記の実施形態では、サーバ１のＣＰＵ１１の画像抽出部６１が、商品画像５８の基になる（切り取り前の）撮影画像５２として、カメラ３から受信した各撮影画像５２のうち、各商品のバーコードのスキャン時刻５６に撮影した撮影画像５２、このスキャン時刻５６の所定時間前（例えば、１秒前）の時刻に撮影した撮影画像５２、及びスキャン時刻５６の所定時間後（例えば、１秒後）の時刻に撮影した撮影画像５２を抽出する場合の例を示した。けれども、サーバの画像抽出部が、商品画像の基になる撮影画像として抽出する撮影画像は、カメラから受信した各撮影画像のうち、各商品のバーコードのスキャン時刻近辺の時刻に撮影した一つ以上の撮影画像であればよい。例えば、画像抽出部が抽出する撮影画像は、各商品のバーコードのスキャン時刻に撮影した撮影画像だけであってもよい。また、画像抽出部が抽出する撮影画像は、各商品のバーコードのスキャン時刻に撮影した撮影画像と、スキャン時刻の０．５秒前の時刻に撮影した撮影画像と、スキャン時刻の１秒前の時刻に撮影した撮影画像であってもよいし、各商品のバーコードのスキャン時刻に撮影した撮影画像と、スキャン時刻の０．５秒後の時刻に撮影した撮影画像と、スキャン時刻の１秒後の時刻に撮影した撮影画像であってもよい。

変形例３：
上記の実施形態では、図４において、複数のカメラ３ａ、３ｂが、ＰＯＳレジ２の固定スキャナ２６から見て、左側（商品のバーコードのスキャン後の位置）と、右側（スキャン前の位置）に配置されている場合の例を示した。けれども、１台のＰＯＳレジ２の周辺に複数のカメラを配する場合におけるカメラの配置場所の例は、これに限られず、例えば、カメラを、固定スキャナの左側又は右側のいずれか一方と、固定スキャナの斜め上とに設置してもよいし、カメラを、固定スキャナの左側、右側、及び斜め上に設置してもよい。

変形例４：
上記の実施形態では、画像切取部６２が、図７に示すように、画像抽出部６１により抽出した各撮影画像５２から、商品画像として、店員の手に持たれている商品の画像ＧＩと、店員の手における、商品を把持する部分の画像（手画像ＨＩ）とを含んだ画像を切り取るようにした。けれども、画像切取部が、画像抽出部により抽出した各撮影画像から、商品画像として、店員の手に持たれている商品の画像ＧＩのみを切り取るようにしてもよい。

１サーバ（サーバ、コンピュータ）
２ＰＯＳレジ（ＰＯＳレジスタ）
３、３ａ、３ｂカメラ
１０学習用データセット自動生成システム
１２通信部（受信部）
１７学習用データセット自動生成プログラム
５２撮影画像
５８商品画像
６１画像抽出部
６２画像切取部
６３ラベル付け部
ＨＩ手画像（「店員の手における、この商品を把持する部分」の画像）
ＧＩ店員の手に持たれている商品の画像

Claims

固定スキャナを有するＰＯＳレジスタと、前記固定スキャナにより商品のバーコードをスキャンする時に前記商品を撮影することが可能な位置に配置されたカメラと、前記ＰＯＳレジスタ及び前記カメラと通信回線で接続されて、商品認識用ニューラルネットワークの学習用データセットの自動生成を行うサーバとを備えた学習用データセット自動生成システムにおいて、
前記サーバは、
前記カメラから、各撮影画像と、前記各撮影画像の撮影時刻とを受信すると共に、前記ＰＯＳレジスタから、前記固定スキャナによる各商品のバーコードのスキャン時刻と、前記スキャン時刻にスキャンしたバーコードに対応した商品識別情報とを受信する受信部と、
前記カメラから受信した前記各撮影画像及び前記各撮影画像の撮影時刻と、前記ＰＯＳレジスタから受信した前記各商品のバーコードのスキャン時刻とに基づいて、前記カメラから受信した前記各撮影画像のうち、前記各商品のバーコードのスキャン時刻近辺の時刻に撮影した撮影画像を抽出する画像抽出部と、
前記画像抽出部により抽出した撮影画像における商品の部分の画像である商品画像を切り取る画像切取部と、
前記画像切取部により切り取った前記商品画像の各々に、前記ＰＯＳレジスタから受信した商品識別情報のうち、前記商品画像の各々の基になる撮影画像の撮影時刻に最も近いスキャン時刻にスキャンしたバーコードに対応した商品識別情報をラベル付けするラベル付け部とを備える学習用データセット自動生成システム。
前記画像抽出部は、前記カメラから受信した前記各撮影画像及び前記各撮影画像の撮影時刻と、前記ＰＯＳレジスタから受信した前記各商品のバーコードのスキャン時刻とに基づいて、前記カメラから受信した前記各撮影画像のうち、前記各商品のバーコードのスキャン時刻に撮影した撮影画像、前記スキャン時刻の所定時間前の時刻に撮影した撮影画像、及び前記スキャン時刻の所定時間後の時刻に撮影した撮影画像を抽出することを特徴とする請求項１に記載の学習用データセット自動生成システム。
前記画像切取部は、前記画像抽出部により抽出した撮影画像から、前記商品画像として、店員の手に持たれている商品と、前記店員の手における、この商品を把持する部分とを含む画像を切り取ることを特徴とする請求項１又は請求項２に記載の学習用データセット自動生成システム。
前記カメラは、複数であり、これらのカメラは、前記固定スキャナにより商品のバーコードをスキャンする時に、前記商品を異なる方向から撮影することが可能な位置に配置されていることを特徴とする請求項１乃至請求項３のいずれか一項に記載の学習用データセット自動生成システム。
固定スキャナを有するＰＯＳレジスタから、前記固定スキャナによる各商品のバーコードのスキャン時刻と、前記スキャン時刻にスキャンしたバーコードに対応した商品識別情報とを受信すると共に、前記固定スキャナにより商品のバーコードをスキャンする時に前記商品を撮影することが可能な位置に配置されたカメラから、各撮影画像と、前記各撮影画像の撮影時刻とを受信する受信部と、
前記カメラから受信した前記各撮影画像及び前記各撮影画像の撮影時刻と、前記ＰＯＳレジスタから受信した前記各商品のバーコードのスキャン時刻とに基づいて、前記カメラから受信した前記各撮影画像のうち、前記各商品のバーコードのスキャン時刻近辺の時刻に撮影した撮影画像を抽出する画像抽出部と、
前記画像抽出部により抽出した撮影画像における商品の部分の画像である商品画像を切り取る画像切取部と、
前記画像切取部により切り取った前記商品画像の各々に、前記ＰＯＳレジスタから受信した商品識別情報のうち、前記商品画像の各々の基になる撮影画像の撮影時刻に最も近いスキャン時刻にスキャンしたバーコードに対応した商品識別情報をラベル付けするラベル付け部とを備えるサーバ。
前記画像抽出部は、前記カメラから受信した前記各撮影画像及び前記各撮影画像の撮影時刻と、前記ＰＯＳレジスタから受信した前記各商品のバーコードのスキャン時刻とに基づいて、前記カメラから受信した前記各撮影画像のうち、前記各商品のバーコードのスキャン時刻に撮影した撮影画像、前記スキャン時刻の所定時間前の時刻に撮影した撮影画像、及び前記スキャン時刻の所定時間後の時刻に撮影した撮影画像を抽出することを特徴とする請求項５に記載のサーバ。
前記画像切取部は、前記画像抽出部により抽出した撮影画像から、前記商品画像として、店員の手に持たれている商品と、前記店員の手における、この商品を把持する部分とを含む画像を切り取ることを特徴とする請求項５又は請求項６に記載のサーバ。
コンピュータを、
固定スキャナを有するＰＯＳレジスタから、前記固定スキャナによる各商品のバーコードのスキャン時刻と、前記スキャン時刻にスキャンしたバーコードに対応した商品識別情報とを受信すると共に、前記固定スキャナにより商品のバーコードをスキャンする時に前記商品を撮影することが可能な位置に配置されたカメラから、各撮影画像と、前記各撮影画像の撮影時刻とを受信する受信部と、
前記カメラから受信した前記各撮影画像及び前記各撮影画像の撮影時刻と、前記ＰＯＳレジスタから受信した前記各商品のバーコードのスキャン時刻とに基づいて、前記カメラから受信した前記各撮影画像のうち、前記各商品のバーコードのスキャン時刻近辺の時刻に撮影した撮影画像を抽出する画像抽出部と、
前記画像抽出部により抽出した撮影画像における商品の部分の画像である商品画像を切り取る画像切取部と、
前記画像切取部により切り取った前記商品画像の各々に、前記ＰＯＳレジスタから受信した商品識別情報のうち、前記商品画像の各々の基になる撮影画像の撮影時刻に最も近いスキャン時刻にスキャンしたバーコードに対応した商品識別情報をラベル付けするラベル付け部
として機能させるための、学習用データセット自動生成プログラム。
前記画像抽出部は、前記カメラから受信した前記各撮影画像及び前記各撮影画像の撮影時刻と、前記ＰＯＳレジスタから受信した前記各商品のバーコードのスキャン時刻とに基づいて、前記カメラから受信した前記各撮影画像のうち、前記各商品のバーコードのスキャン時刻に撮影した撮影画像、前記スキャン時刻の所定時間前の時刻に撮影した撮影画像、及び前記スキャン時刻の所定時間後の時刻に撮影した撮影画像を抽出することを特徴とする請求項８に記載の学習用データセット自動生成プログラム。
前記画像切取部は、前記画像抽出部により抽出した撮影画像から、前記商品画像として、店員の手に持たれている商品と、前記店員の手における、この商品を把持する部分とを含む画像を切り取ることを特徴とする請求項８又は請求項９に記載の学習用データセット自動生成プログラム。