JP7355299B2

JP7355299B2 - 学習用データセット生成システム、学習サーバ、及び学習用データセット生成プログラム

Info

Publication number: JP7355299B2
Application number: JP2019110810A
Authority: JP
Inventors: 安紘土田
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2023-10-03
Anticipated expiration: 2039-06-14
Also published as: JP2020204800A

Description

本発明は、学習用データセット生成システム、学習サーバ、及び学習用データセット生成プログラムに関する。

従来から、監視カメラ等のカメラで撮影したフレーム画像（撮影画像）に映り込んだ人等の物体を、学習済物体検出用ニューラルネットワークで検出し、検出した物体の認識を、学習済物体認識用ニューラルネットワークを用いて行うようにした装置やシステムが知られている（例えば、特許文献１参照）。

特開２０１８－０９３２８３号公報

ところが、上記のようなニューラルネットワークを用いて物体検出及び物体認識を行う装置やシステムでは、物体検出用ニューラルネットワークや、物体認識用ニューラルネットワークの機械学習のためのデータセット（学習用データセット）が必要になる。ここで、上記特許文献１のようなカメラによる撮影画像に基づいて、物体検出及び物体認識を行う装置やシステムでは、上記の学習用データセットは、多数の画像（データ）と、これらの画像のクラス分類の正解ラベルとを含む教師データ（訓練データ）である。上記の学習用データセットに含まれるデータのうち、（多数の）画像については、これらの画像の候補となる画像（候補画像）を集めることは比較的容易であるが、学習用データセットに含めるべき画像の選別、及び選別された画像へのラベル付け（アノテーション）には、多大な時間と費用が必要である。そして、上記の画像の選別、及び選別された画像へのラベル付けは、一般に、管理部門のスタッフ等の人が、パソコンやサーバ等の情報処理機器を用いて行っている。

本発明は、上記課題を解決するものであり、物体検出用ニューラルネットワークや、物体認識用ニューラルネットワークの学習用データセットを、容易に作成することが可能な学習用データセット生成システム、学習サーバ、及び学習用データセット生成プログラムを提供することを目的とする。

上記課題を解決するために、本発明の第1の態様による学習用データセット生成システムは、複数枚のサンプル画像と、これらのサンプル画像に付与されたクラス分類の正解ラベルとを含む教師データである種データセットを入力する画像入力部と、前記種データセットに含まれるサンプル画像を検出することが可能な物体検出用ＮＮモデルを用いて、カメラで撮影された撮影画像のうち、前記種データセットに含まれる複数枚のサンプル画像の少なくともいずれかに類似する撮影画像である、複数の関連画像を収集する画像収集部と、前記画像入力部で入力された種データセットに含まれるサンプル画像を用いて、前記クラス分類の正解ラベルに応じたクラスタを形成するクラスタ形成部と、前記画像収集部により収集した複数の関連画像の各々が、前記クラスタのうち、いずれのクラスタに含まれるかを判定して、この判定結果のクラスタに応じた正解ラベルを、前記関連画像の各々に付与するラベル付与部と、前記複数の関連画像の各々について、前記ラベル付与部により付与された正解ラベルの訂正入力を行うための訂正入力部と、前記訂正入力部による訂正入力に応じて、前記複数の関連画像の各々に付与された正解ラベルを訂正する訂正処理部とを備える。

この学習用データセット生成システムにおいて、前記複数の関連画像を、前記クラス分類への寄与度の高い２軸又は３軸を用いた２次元平面又は３次元空間上にマッピングするマッピング処理部と、前記マッピング処理部による前記複数の関連画像の各々のマッピング結果を表示する表示部とをさらに備え、前記訂正入力部は、前記表示部にマッピング結果が表示された前記複数の関連画像の各々について、前記ラベル付与部により付与された正解ラベルの訂正入力を行うためのものであることが望ましい。

この学習用データセット生成システムにおいて、前記複数の関連画像の各々のマッピング結果を、前記クラスタ形成部により形成されたクラスタの境界と共に、前記表示部に表示するように制御する表示制御部をさらに備え、前記訂正入力部による訂正入力は、前記クラスタ形成部により形成された、各正解ラベルのクラスタの境界を訂正するための入力であってもよい。

この学習用データセット生成システムにおいて、前記クラスタ形成部は、前記クラス分類への寄与度の高い軸に重みを付けて、前記クラスタの形成処理を行うことが望ましい。

この学習用データセット生成システムにおいて、前記クラスタ形成部は、ＶＡＥ（ＶａｒｉａｔｉｏｎａｌＡｕｔｏｅｎｃｏｄｅｒ）を利用して、前記クラスタの形成処理を行うことが望ましい。

本発明の第２の態様による学習サーバは、複数枚のサンプル画像と、これらのサンプル画像に付与されたクラス分類の正解ラベルとを含む教師データである種データセットを入力する画像入力部と、カメラで撮影された撮影画像のうち、前記種データセットに含まれる複数枚のサンプル画像の少なくともいずれかに類似する撮影画像である、複数の関連画像を受信する画像受信部と、前記画像入力部で入力された種データセットに含まれるサンプル画像を用いて、前記クラス分類の正解ラベルに応じたクラスタを形成するクラスタ形成部と、前記画像受信部により受信した複数の関連画像の各々が、前記クラスタのうち、いずれのクラスタに含まれるかを判定して、この判定結果のクラスタに応じた正解ラベルを、前記関連画像の各々に付与するラベル付与部と、前記複数の関連画像の各々について、前記ラベル付与部により付与された正解ラベルの訂正入力を行うための訂正入力部と、前記訂正入力部による訂正入力に応じて、前記複数の関連画像の各々に付与された正解ラベルを訂正する訂正処理部とを備え、前記画像受信部が受信する関連画像は、前記種データセットに含まれるサンプル画像を検出することが可能な物体検出用ＮＮモデルを用いて、カメラで撮影された撮影画像から収集された撮影画像である。

この学習サーバにおいて、前記複数の関連画像を、前記クラス分類への寄与度の高い２軸又は３軸を用いた２次元平面又は３次元空間上にマッピングするマッピング処理部と、前記マッピング処理部による前記複数の関連画像の各々のマッピング結果を表示する表示部とをさらに備え、前記訂正入力部は、前記表示部にマッピング結果が表示された前記複数の関連画像の各々について、前記ラベル付与部により付与された正解ラベルの訂正入力を行うためのものであることが望ましい。

本発明の第３の態様による学習用データセット生成プログラムは、コンピュータを、複数枚のサンプル画像と、これらのサンプル画像に付与されたクラス分類の正解ラベルとを含む教師データである種データセットを入力する画像入力部と、カメラで撮影された撮影画像のうち、前記種データセットに含まれる複数枚のサンプル画像の少なくともいずれかに類似する撮影画像である、複数の関連画像を受信する画像受信部と、前記画像入力部で入力された種データセットに含まれるサンプル画像を用いて、前記クラス分類の正解ラベルに応じたクラスタを形成するクラスタ形成部と、前記画像受信部により受信した複数の関連画像の各々が、前記クラスタのうち、いずれのクラスタに含まれるかを判定して、この判定結果のクラスタに応じた正解ラベルを、前記関連画像の各々に付与するラベル付与部と、前記複数の関連画像の各々について、前記ラベル付与部により付与された正解ラベルの訂正入力を行うための訂正入力部と、前記訂正入力部による訂正入力に応じて、前記複数の関連画像の各々に付与された正解ラベルを訂正する訂正処理部として機能させ、前記画像受信部が受信する関連画像は、前記種データセットに含まれるサンプル画像を検出することが可能な物体検出用ＮＮモデルを用いて、カメラで撮影された撮影画像から収集された撮影画像である。

この学習用データセット生成プログラムにおいて、前記コンピュータを、さらに、前記複数の関連画像を、前記クラス分類への寄与度の高い２軸又は３軸を用いた２次元平面又は３次元空間上にマッピングするマッピング処理部と、前記マッピング処理部による前記複数の関連画像の各々のマッピング結果を表示する表示部として機能させ、前記訂正入力部は、前記表示部にマッピング結果が表示された前記複数の関連画像の各々について、前記ラベル付与部により付与された正解ラベルの訂正入力を行うためのものであることが望ましい。

本発明の第１の態様による学習用データセット生成システムによれば、種データセットに含まれるサンプル画像を検出することが可能な物体検出用ＮＮモデルを用いて、カメラで撮影された撮影画像から、種データセットに含まれる複数枚のサンプル画像の少なくともいずれかに類似する複数の関連画像を収集することにより、学習用データセットに含めるべき画像を選別することができる。また、種データセットに含まれるサンプル画像を用いて、クラス分類の正解ラベルに応じたクラスタを形成した上で、上記の複数の関連画像の各々が、上記のクラスタのうち、いずれのクラスタに含まれるかを判定して、この判定結果のクラスタに応じた正解ラベルを、上記の関連画像の各々に付与することができる。これにより、上記の学習用データセットに含めるべき画像として選別された画像（関連画像）へのラベル付けを、容易に行うことができる。従って、従来と異なり、管理部門のスタッフ等の人が、学習用データセットに含めるべき全ての画像の選別処理や、選別された全ての画像へのラベル付けを行うことなく、少量の種データセット（に含まれる少量のサンプル画像と、これらのサンプル画像に付与されるべきクラス分類の正解ラベル）を入力するだけで、物体検出用ニューラルネットワークや、物体認識用ニューラルネットワークの学習用データセットを、容易に（半自動的に）作成することができる。また、ユーザ（システム管理者）が、半自動的に作成された上記の学習用データセットにおける各関連画像の正解ラベルを訂正することができる。

本発明の第２の態様による学習サーバ、及び第３の態様による学習用データセット生成プログラムによれば、カメラで撮影された撮影画像のうち、種データセットに含まれる複数枚のサンプル画像の少なくともいずれかに類似する撮影画像である、複数の関連画像を受信することにより、学習用データセットに含めるべき画像を集めることができる。また、種データセットに含まれるサンプル画像を用いて、クラス分類の正解ラベルに応じたクラスタを形成した上で、上記の複数の関連画像の各々が、上記のクラスタのうち、いずれのクラスタに含まれるかを判定して、この判定結果のクラスタに応じた正解ラベルを、上記の関連画像の各々に付与することができる。これにより、上記の学習用データセットに含めるべき画像として選別された画像（関連画像）へのラベル付けを、容易に行うことができる。従って、従来と異なり、管理部門のスタッフ等の人が、学習用データセットに含めるべき全ての画像の選別処理や、選別された全ての画像へのラベル付けを行うことなく、少量の種データセット（に含まれる少量のサンプル画像と、これらのサンプル画像に付与されるべきクラス分類の正解ラベル）を入力するだけで、物体検出用ニューラルネットワークや、物体認識用ニューラルネットワークの学習用データセットを、容易に（半自動的に）作成することができる。また、ユーザ（システム管理者）が、半自動的に作成された上記の学習用データセットにおける各関連画像の正解ラベルを訂正することができる。

本発明の一実施形態の学習用データセット生成システムの概略の構成を示すブロック構成図。図１中の学習サーバの概略のハードウェア構成を示すブロック図。図１中の分析ボックスにおけるＣＰＵの機能ブロック構成図。上記学習用データセット生成システムにおける、主要機器が果たす機能の概要と、主なデータの流れを示すブロック構成図。同学習用データセット生成システムにおける画像入力部と画像収集部の処理の説明図。同学習用データセット生成システムにおけるラベリング部の処理の説明図。ＶＡＥのネットワーク構成図。上記学習サーバのラベル訂正部により行われるラベル訂正処理の説明図。上記ラベル訂正処理の前後における関連画像の各々のマッピング結果と、クラスタ間の境界の説明図。

以下、本発明を具体化した実施形態による学習用データセット生成システム、学習サーバ、及び学習用データセット生成プログラムについて、図面を参照して説明する。図１は、本実施形態による学習用データセット生成システム１０（以下、「データセット生成システム１０」と略す）の概略の構成を示すブロック構成図である。本実施形態では、複数のネットワークカメラ（ＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）カメラ）２（以下、「カメラ２」と略す）、及びこれらのカメラ２の各々から入力された画像の分析を行う分析ボックス３が、チェーン店等の店舗Ｓ内に配される場合の例について説明する。図１に示すように、データセット生成システム１０は、店舗Ｓ内に、上記のカメラ２と分析ボックス３に加えて、ハブ５と、ルータ６とを備えている。上記の分析ボックス３は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）４とハブ５とを介して、複数のカメラ２と接続され、これらのカメラ２の各々から入力された画像を分析する。具体的には、分析ボックス３は、カメラ２の各々から入力された画像に対する物体検出処理と、この物体検出処理で検出された物体の画像に対する物体認識処理とを行う。

また、データセット生成システム１０は、クラウドＣ上のＡＩ分析サーバ７、管理サーバ８、及び学習サーバ１を備えている。ＡＩ分析サーバ７は、分析ボックス３からの物体認識結果に基づいて、例えば、各店舗内における人物の行動を分析し、分析結果の情報を、マーケティングや防犯等の種々の用途のアプリケーションが使い易いデータに変換して出力する。

上記の管理サーバ８は、各店舗に配された多数の分析ボックス３、及びこれらの分析ボックス３に接続されたカメラ２の管理を行う。具体的には、管理サーバ８は、各店舗の分析ボックス３へのアプリパッケージのインストールや、これらの分析ボックス３に接続されたカメラ２の起動及び停止等の制御を行う。なお、このアプリパッケージは、例えば、学習済の物体検出用ニューラルネットワークモデル（以下、「物体検出用ＮＮモデル」という）と、１種類以上の学習済の物体認識用ニューラルネットワークモデル（以下、「物体認識用ＮＮモデル」という）と、これらのニューラルネットワークモデル（以下、「ＮＮモデル」という）の使い方（処理の順番）を記載した制御用スクリプトとを含んだパッケージ・プログラムである。

上記の学習サーバ１の詳細については後述するが、この学習サーバ１は、上記の分析ボックス３にインストールされるアプリパッケージに含まれるニューラルネットワークモデル（物体検出用ＮＮモデル、及び物体認識用ＮＮモデル）の学習用データセットを半自動生成する機能と、この学習用データセットを用いて、上記のＮＮモデルの学習又は再学習を行う機能とを有している。なお、上記の再学習とは、現在の（分析ボックス３にインストールされている）ＮＮモデル（物体検出用ＮＮモデル、及び物体認識用ＮＮモデル）が陳腐化しないように、新しい学習用データセットを用いて、学習済のＮＮモデルの学習をやり直す処理である。この再学習が済むと、再学習後の新しいバージョンのＮＮモデルが、学習サーバ１から、管理サーバ８を介して、分析ボックス３にインストールされる。

次に、図２を参照して、学習サーバ１のハードウェア構成について説明する。学習サーバ１は、装置全体の制御及び各種演算を行うＣＰＵ１１（請求項における「クラスタ形成部」、「ラベル付与部」、「マッピング処理部」、「表示制御部」、及び「訂正処理部」に相当）と、各種のデータやプログラムを格納するハードディスク１２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３と、ディスプレイ１４（請求項における「表示部」に相当）と、マウスを含む操作部１５（請求項における「訂正入力部」に相当）と、通信部１６（請求項における「画像受信部」に相当）と、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）コネクタ１７とを備えている。このＵＳＢコネクタ１７には、画像等を記憶したＵＳＢメモリカード２５を接続することができる。

上記のハードディスク１２に格納されるプログラムには、学習用データセット生成訂正プログラム１８（請求項における「学習用データセット生成プログラム」）が含まれている。この学習用データセット生成訂正プログラム１８は、上記の分析ボックス３にインストールされるアプリパッケージに含まれるニューラルネットワークモデルの学習用データセットを半自動生成する機能と、半自動生成した学習用データセットの（正解）ラベルを簡易なユーザ操作で訂正するための機能とを提供する。

また、上記のハードディスク１２に格納されるデータには、種データセット１９、検出モデルＤＢ２０、生データＤＢ２１、誤り有ラベル付データセット２２、及び誤り訂正済ラベル付データセット２３が含まれている。

上記の種データセット１９は、複数枚のサンプル画像と、これらのサンプル画像に付与されたクラス分類の正解ラベルとを含む教師データである。上記の検出モデルＤＢ２０は、複数の物体検出用ＮＮモデルが格納されたデータベースである。上記の生データＤＢ２１は、複数のカメラ２で撮影された撮影画像のうち、上記の種データセット１９に含まれる複数枚のサンプル画像の少なくともいずれかに類似する撮影画像である、多数の関連画像を格納するデータベースである。上記の誤り有ラベル付データセット２２は、上記の生データＤＢ２１に含まれる多数の関連画像に、これらの関連画像の各々が属する（含まれる）クラスタに応じた正解ラベルを自動的に付与した（学習用）データセットである。上記の誤り訂正済ラベル付データセット２３は、上記の誤り有ラベル付データセット２２の関連画像に自動的に付与された正解ラベルの訂正後の（学習用）データセットである。

図３は、図１中の分析ボックス３におけるＣＰＵ３１の機能ブロックを示す。分析ボックス３は、機能ブロックとして、画像収集部３２と、画像分析部３３と、プロセッサ割当部３４とを備えている。画像収集部３２は、カメラ２で撮影された撮影画像のうち、種データセット１９に含まれる複数枚のサンプル画像の少なくともいずれかに類似する撮影画像である、複数の関連画像を収集する。

また、上記の画像分析部３３は、カメラ２の各々から入力された画像に映り込んだ物体を検出するための学習済の物体検出用ＮＮモデルと、この物体検出用ＮＮモデルにより検出された物体を認識するための１種類以上の学習済の物体認識用ＮＮモデルとを含むアプリパッケージを用いて、カメラ２の各々から入力された画像を分析する。また、プロセッサ割当部３４は、アプリパッケージの各インスタンスに含まれる物体検出用ＮＮモデル及び物体認識用ＮＮモデルの各々の推論処理に必要な推論時間と使用頻度とに基づいて、複数のチップ３５のうち、物体検出用ＮＮモデルにおける推論処理、及び物体認識用ＮＮモデルの各々における推論処理に用いるチップ（推論用プロセッサ）の割り当てを行う。

上記の各（推論）チップ３５は、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ）推論に最適化されたプロセッサ（推論専用チップ）であることが望ましいが、一般的な用途に用いられる汎用のＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、又はその他のプロセッサであってもよい。

次に、図４を参照して、データセット生成システム１０において、図１中の主要機器（学習サーバ１、分析ボックス３及び管理サーバ８）が果たす機能の概要と、主なデータの流れについて説明する。図４は、図１中の主要機器における、機能ブロックと主なデータファイルを示す。図４に示すように、管理サーバ８は、そのハードディスク４１に、各種のアプリパッケージを格納したアプリケーションＤＢ４２を格納している。アプリケーションＤＢ４２に格納されている各アプリパッケージは、画像分析用のアプリパッケージであり、学習済物体検出用ＮＮモデルと、１種類以上の学習済の物体認識用ＮＮモデルと、これらのＮＮモデルの使い方（処理の順番）を記載した制御用スクリプトとを含んだパッケージ・プログラムである。データセット生成システム１０の管理者は、アプリケーションＤＢ４２に格納されている各アプリパッケージの中から、各カメラ２の画像の分析に適切なアプリパッケージを選択して、選択したアプリパッケージを、アプリ配信部４３により分析ボックス３に配信する。

分析ボックス３は、管理サーバ８から受信した上記のアプリパッケージを、画像分析アプリケーション３７としてインストールする。また、分析ボックス３は、管理サーバ８から、分析ボックスＯＳ３６も受信する。この分析ボックスＯＳ３６は、分析ボックス３内の画像分析アプリケーション３７のインスタンス等のアプリケーションの制御を行うと共に、管理サーバ８との送受信を行う。なお、上記の画像分析アプリケーション３７は、図３中における画像分析部３３に相当する処理を行うためのアプリパッケージである。画像分析アプリケーション３７の各インスタンスにおける物体検出用ＮＮモデルと物体認識用ＮＮモデルの推論処理には、これらのＮＮモデルの推論処理に割り当てられたチップ３５が用いられる。

学習サーバ１は、複数枚のサンプル画像と、これらのサンプル画像に付与されたクラス分類の正解ラベルとを含む教師データである種データセット１９を入力する画像入力部５１を備えている。この種データセット１９に含まれるデータのうち、サンプル画像の入力については、例えば、図２に示すＵＳＢメモリカード２５に格納された画像を読み取ったり、通信部１６を介して他のコンピュータに格納された画像を受信する方法により行ってもよいし、学習サーバ１が通信部１６を介してカメラ２から受信した撮影画像のうち、データセット生成システム１０の管理者（以下、「システム管理者」と略す）が学習用データセットに含めるべきであると判断した画像を、種データセット１９のサンプル画像として選択してもよい。また、種データセット１９に含まれるデータのうち、正解ラベルの入力については、例えば、学習サーバ１の操作部１５に含まれているキーボードやマウス等により行う。従って、画像入力部５１（請求項の「画像入力部」に相当）は、図２に示されるハードウェアのうち、ＵＳＢメモリカード２５、ＵＳＢコネクタ１７、通信部１６、及び操作部１５に対応する。

なお、詳細については後述するが、システム管理者は、検出モデルＤＢ２０に格納された複数の物体検出用ＮＮモデルのうち、上記の種データセット１９内のデータ（以下、「種データ」という）を精度良く検出することができる物体検出用ＮＮモデルを、操作部１５により選択して、選択した物体検出用ＮＮモデルを、分析ボックス３における画像収集部３２で用いる物体検出用ＮＮモデルとして、分析ボックス３にインストールする。

また、学習サーバ１は、分析ボックス３の画像収集部３２により収集された複数の関連画像を受信する画像受信部５２を備えている。すなわち、画像受信部５２は、カメラ２で撮影された撮影画像のうち、種データセット１９に含まれる複数枚のサンプル画像の少なくともいずれかに類似する複数の関連画像を受信する。学習サーバ１（のＣＰＵ１１）は、画像受信部５２により受信した複数の関連画像を、生データＤＢ２１に格納する。

さらに、学習サーバ１は、クラスタ形成部５４とラベル付与部５５とから構成されるラベリング部５３を備えている。クラスタ形成部５４は、画像入力部５１で入力された種データセット１９に含まれるサンプル画像を用いて、クラス分類の正解ラベルに応じたクラスタを形成する。また、ラベル付与部５５は、分析ボックス３の画像収集部３２により収集した（画像受信部５２により受信した）、生データＤＢ２１内の複数の関連画像の各々が、クラスタ形成部５４により形成されたクラスタのうち、いずれのクラスタに含まれるかを判定して、この判定結果のクラスタに応じた正解ラベルを、関連画像の各々に付与する。このラベル付与部５５により正解ラベルが付与された後の各関連画像は、誤り有ラベル付データセット２２に格納される。

さらに、学習サーバ１は、マッピング処理部５７と、表示制御部５８と、訂正入力部６０と、訂正処理部６１とから構成されるラベル訂正部５６を備えている。マッピング処理部５７は、上記の複数の関連画像を、クラス分類への寄与度の高い２軸を用いた２次元平面上にマッピングすることにより、複数の関連画像のマッピング結果を可視化する。表示制御部５８は、マッピング処理部５７による複数の関連画像の各々のマッピング結果を、クラスタ形成部５４により形成されたクラスタの境界と共に、表示部５９に表示するように制御する。訂正入力部６０は、表示部にマッピング結果が表示された複数の関連画像の各々について、ラベル付与部により付与された正解ラベルの訂正入力を行うための入力装置であり、例えば、操作部１５（図２参照）に含まれるマウスである。訂正処理部６１は、訂正入力部６０による訂正入力に応じて、誤り有ラベル付データセット２２に格納された関連画像の各々に付与された正解ラベルを訂正して、訂正後の関連画像と正解ラベルを、誤り訂正済ラベル付データセット２３に格納する。

また、学習サーバ１は、学習部６３を備えている。学習部６３は、上記の誤り訂正済ラベル付データセット２３を用いて、既に管理サーバ８のアプリケーションＤＢ４２に格納されているアプリパッケージに含まれる既存のＮＮモデル（物体検出用ＮＮモデル、及び物体認識用ＮＮモデル）の再学習や、上記のアプリパッケージに未だ含まれていない新しいＮＮモデルの学習を行う。この学習又は再学習後のＮＮモデル（物体検出用ＮＮモデル、及び物体認識用ＮＮモデル）は、一旦、学習サーバ１から管理サーバ８に送られて、管理サーバ８のアプリケーションＤＢ４２に格納された後、適当なタイミングで、管理サーバ８から、各店舗内の分析ボックス３にインストールされる。

次に、図５乃至図９を参照して、上記の画像入力部５１、画像収集部３２、ラベリング部５３、及びラベル訂正部５６が行う、学習用データセットの半自動生成と訂正処理について、詳述する。まず、学習用データセットの半自動生成処理について、説明する。この学習用データセットの半自動生成処理は、主に、上記の画像入力部５１、画像収集部３２、及びラベリング部５３によって行われる。

この学習用データセットの半自動生成処理では、図５に示すように、まず、画像入力部５１を用いた種データセット１９の入力処理を行う。この画像入力部５１を用いた入力処理では、まず、システム管理者が、ＵＳＢメモリカード２５に格納された複数の画像や、通信部１６を介して他のコンピュータから受信した複数の画像を、サンプル画像として入力した上で、操作部１５を用いて、これらのサンプル画像にクラス分類の正解ラベルを付与し、種データとして、種データセット１９に格納する。システム管理者が、種データセット１９に格納する種データ（正解ラベルを付与したサンプル画像）の数は、例えば、２０個程度である。

次に、システム管理者は、検出モデルＤＢ２０に格納された複数の物体検出用ＮＮモデルのうち、上記の種データ（のサンプル画像）を精度良く検出することができる物体検出用ＮＮモデルを、操作部１５により選択する。例えば、半自動生成したい学習用データセットが、店員と顧客の分類を行う物体認識用ＮＮモデルであった場合は、システム管理者は、店員及び顧客（のサンプル画像）を精度良く検出することができる物体検出用ＮＮモデルを、操作部１５により選択する。なお、物体検出用ＮＮモデルの選択は、システム管理者が手動で行うのではなく、学習サーバ１のＣＰＵ１１が、検出モデルＤＢ２０の物体検出用ＮＮモデルを順に取得し、取得した各物体検出用ＮＮモデルに種データを入力して正しく検出ができるかどうかを検査し、当該検査の結果、最も種データを正確に検出できた物体検出用ＮＮモデルを自動的に選択するようにしてもよい。選択された物体検出用ＮＮモデルは、通信部１６（図２参照）により、各店舗に配された分析ボックス３ａ，３ｂにおける画像収集部３２で用いる物体検出用ＮＮモデルとして、分析ボックス３ａ，３ｂにインストールされる。

上記の物体検出用ＮＮモデルのインストールにより、各店舗に配された分析ボックス３ａ，３ｂ（の画像収集部３２）が、カメラ２で撮影された撮影画像のうち、種データセット１９に含まれる複数枚のサンプル画像の少なくともいずれかに類似する複数の撮影画像（例えば、店員か顧客のいずれかに類似する撮影画像）を、関連画像として、収集することができる。分析ボックス３ａ，３ｂの画像収集部３２は、マスク機能７１を有しており、収集した関連画像が、人の顔を含む画像である場合は、関連画像中の顔にマスク処理を施すことができる。分析ボックス３ａ，３ｂは、必要に応じてマスク処理が施された関連画像を、学習サーバ１に送信する。学習サーバ１は、通信部１６（図４中の「画像受信部５２」に相当）により、分析ボックス３ａ，３ｂから送信された関連画像を受信して、生データＤＢ２１に格納する。

次に、学習サーバ１のＣＰＵ１１は、図６に示すように、ラベリング部５３による処理に移行する。このラベリング部５３による処理では、まず、（ラベリング部５３の）クラスタ形成部５４（図４参照）によるクラスタ形成処理（クラスタリング）が行われる。具体的には、まず、上記の生データＤＢ２１に格納された関連画像を訓練データとして用いて、ＶＡＥ（ＶａｒｉａｔｉｏｎａｌＡｕｔｏｅｎｃｏｄｅｒ）の学習（図６中の「ＶＡＥ学習７３」に相当）を行う。

ここで、図７を参照して、上記のＶＡＥの概要について説明する。ＶＡＥは、通常のＡＥ（Ａｕｔｏｅｎｃｏｄｅｒ（オートエンコーダ））と同様に、入力画像（データ）と同じ画像を出力するニューラルネットワークであり、図７に示すように、入力画像（データ）を潜在変数ｚに変換するニューラルネットワーク（エンコーダ）と、潜在変数ｚを入力して、元の入力画像（データ）を復元するニューラルネットワーク（デコーダ）とから構成される。ただし、ＶＡＥは、通常のオートエンコーダと異なり、図７に示すように、潜在変数ｚを確率分布（通常、ｚ～Ｎ（０，１））という構造に押し込めている。すなわち、ＶＡＥにおける潜在変数ｚは、通常、平均値μ＝０、分散σ^２＝１の正規分布をとる。従って、ＶＡＥの場合は、同じ分類のデータは、中心値から分散１の正規分布をとるように学習が進む。例えば、手書き数字の「７」は、「７」の中心値（平均値）から分散１の正規分布をとるように、ＶＡＥの学習が進む。このため、ＶＡＥを利用すると、クラスタが非常に形成し易い（平均値から分散１の範囲にある（画像）データでクラスタを形成すればよい）。

次に、図６に戻って、ラベリング部５３におけるクラスタリング・ラベリング７４の処理について、説明する。図６中のクラスタリング・ラベリング７４の処理は、図４中のクラスタ形成部５４とラベル付与部５５の機能ブロックが行う処理に相当する。具体的には、クラスタリング・ラベリング７４の処理では、上記の生データＤＢ２１に格納された関連画像を訓練データとして用いたＶＡＥの学習（「ＶＡＥ学習７３」）が完了した後に、この学習で得られたＶＡＥのエンコーダに、種データセット１９に格納された（種データの）サンプル画像を入力する。ここで、上記のように、学習済のＶＡＥの場合は、同じ分類の（同じラベルの）画像に対応する潜在変数ｚは、中心値（平均値）から分散１の正規分布をとるので、学習済のＶＡＥのエンコーダに、種データセット１９に含まれるサンプル画像を入力することにより、これらのサンプル画像に付与された（クラス分類の正解）ラベルに応じたクラスタを、容易に形成することができる。

ただし、上記のように、学習済のＶＡＥのエンコーダに、種データセット１９に含まれるサンプル画像を入力するだけでは、例えば、潜在変数ｚの空間を２次元空間にした場合に、この空間の２軸を、クラス分類への寄与度の高い軸にしないと、ある（クラス分類の正解）ラベルが付されたサンプル画像に対応する潜在変数ｚの分布位置と、他のラベルが付されたサンプル画像に対応する潜在変数ｚの分布位置とがオーバーラップしてしまうので、サンプル画像に対応する潜在変数ｚの分布位置に基づいて形成した各ラベル毎のクラスタが、オーバーラップしてしまう。そこで、クラスタリング・ラベリング７４に含まれるクラスタリング処理（図４中のクラスタ形成部５４が行うクラスタ形成処理）では、クラス分類への寄与度の高い軸に重みを付ける（クラス分類への寄与度の高い軸を、主成分軸化する）方法を適用して、異なるクラスの（サンプル画像に対応する）潜在変数ｚの分布位置のオーバーラップ（異なるクラスのクラスタのオーバーラップ）を防いでいる。

次に、クラスタリング・ラベリング７４に含まれるラベリング処理（図４中のラベル付与部５５が行うラベル付与処理）について、説明する。このラベリング処理では、学習サーバ１のＣＰＵ１１（のラベル付与部５５）は、図５中の画像収集部３２により収集した生データＤＢ２１内の複数の関連画像の各々を、上記の学習済のＶＡＥのエンコーダに入力して、これらの関連画像に対応する潜在変数ｚが、上記のクラス分類への寄与度の高い２軸を主成分軸とした２次元平面上のいずれのクラスタ内に位置するかを判定する。言い換えると、学習サーバ１のＣＰＵ１１は、まず、生データＤＢ２１内の複数の関連画像の各々を、上記の学習済のＶＡＥのエンコーダに入力して、これらの関連画像に対応する潜在変数ｚを得て、これらの潜在変数ｚに基づき、生データＤＢ２１内の複数の関連画像の各々を、上記のクラス分類への寄与度の高い２軸を主成分軸とした２次元平面上にマッピングする。そして、上記のマッピングされた関連画像の各々が、上記のクラスタリング処理で形成したクラスタのうち、いずれのクラスタに含まれるかを判定して、この判定結果のクラスタに応じた正解ラベルを、関連画像の各々に付与する。

例えば、半自動生成したい学習用データセットが、店員と顧客の分類を行う物体認識用ＮＮモデルの学習用データセットであり、上記の関連画像が、店員又は顧客のサンプル画像に類似する撮影画像であった場合には、学習サーバ１のＣＰＵ１１（のラベル付与部５５）は、図６に示すように、顧客の（正解）ラベルに対応する第１クラスタ７５内に含まれる（位置する）第１種類画像７７には、顧客の正解ラベルを自動的に付与し、店員の（正解）ラベルに対応する第２クラスタ７６内に含まれる（位置する）第２種類画像７８には、店員の正解ラベルを自動的に付与する。これらの正解ラベルが自動付与された関連画像は、誤り有ラベル付データセット２２に格納される。このように、データの分布状況から、正解ラベルを自動的に付与する技術はＰｓｅｕｄｏ－Ｌａｂｅｌｉｎｇ（ＰＬ）と言われている。ＰＬを行うための手段として前述のＶＡＥ等のオートエンコーダでの潜在変数の分布を利用する方法の他、様々な手法が提案されている。例えば、少ないデータセットで分類モデルの学習を行い、当該分類モデルでラベル無データの分類を行い、分類対象のラベル無データに、当該分類実施時に当該分類の確からしさが最も高いクラスをラベルとして付与する、という手法を採用してもよい。

ところが、上記のように、（種データセット１９内の）少数の種データを用いて形成したクラスタに基づいて、生データＤＢ２１内の関連画像の各々に、正解ラベルを自動的に付与する方式では、どうしても、作成したデータセット（誤り有ラベル付データセット２２）に誤りが含まれてしまう。すなわち、誤り有ラベル付データセット２２には、付与する（正解）ラベルが間違ったデータが含まれてしまう。特に、各データクラス間（各クラスタ間）の境界付近においては、ラベリング誤りが発生しやすい。誤り有ラベル付データセット２２に含まれるデータの精度（誤り有ラベル付データセット２２に含まれるデータのうち、関連画像と正解ラベルの組み合わせが正しいデータの割合）は、例えば、８割程度である。

次に、図８及び図９を参照して、ラベル訂正部５６により行われるラベル訂正処理について説明する。このラベル訂正処理は、上記のラベリング処理で生じたラベル付けの誤りを、ユーザ（システム管理者）が簡単に見つけることができるように、上記の関連画像（のサムネイル画像）を、上記のクラスタリング処理及びラベリング処理の説明で言及した、クラス分類への寄与度の高い２軸を主成分軸とした２次元平面上にマッピングして可視化し、簡易な手順で誤りを訂正できるようにしたものである。具体的には、学習サーバ１のＣＰＵ１１（のラベル訂正部５６）は、上記のクラスタリング処理で（種データセット１９の種データを用いて）形成したクラスタ間の境界（図９におけるクラスタ間の境界８３に相当）と、ラベリング処理で行った、クラス分類への寄与度の高い軸を主成分軸とした２次元平面上への関連画像の各々のマッピング結果（図９における顧客画像８１及び店員画像８２に相当）を、ディスプレイ１４（表示部５９）に表示する。要するに、図９の左側に示すラベル訂正前の画面は、上記のクラスタリング・ラベリング７４により行われる関連画像の各々がいずれのクラスタに含まれるかの判定処理の結果を示す画面である。

図９にマッピングされている関連画像（顧客画像８１及び店員画像８２）は、誤り有ラベル付データセット２２に格納された関連画像のサムネイル画像であってもよいし、上記のマッピング後における周囲の関連画像の平均値の画像のサムネイル画像であってもよい。なお、図９では、図を分かり易くするために、顧客画像８１を、白丸で表し、店員画像８２を、網掛けの付いた丸で表している。また、当該表示されるデータはデータ分布全体ではなく、各データクラス間（各クラスタ間）の境界部分をクローズアップし（境界部分が複数ある場合は、タブ等で複数のクローズアップされた部分を切り替えできる形式とし）、境界部分以外はラベル付けの誤りが発生する確率が低いため、当該表示の対象外にするという表示方法にしてもよい。

上記の可視化処理について、以下に詳述する。一般に、画像は、数１００次元のベクトル（データ）の形式でＶＡＥ等のニューラルネットワークに入力されるため、上記のラベリング処理において、関連画像の各々（のベクトル（データ））を学習済のＶＡＥのエンコーダに入力して得た結果（平均値μと分散σ^２、又は潜在変数ｚ）は、数１０～数１００次元のベクトル（データ）になる。従って、潜在変数ｚに基づいて関連画像の各々をマッピングするためには、全ての関連画像の潜在変数ｚに基づいて、クラス分類への寄与度の高い２軸（第１主成分軸と第２主成分軸）を求めて、これらの２軸を用いた２次元平面上に、各関連画像をマッピングする必要がある。これにより、各関連画像の潜在変数ｚのベクトル次元を削減して、各関連画像のマッピング結果を可視化することができるからである。

図９の左側に示すように、学習サーバ１のＣＰＵ１１（の表示制御部５８（図４参照））は、上記の関連画像（顧客画像８１及び店員画像８２）の各々のマッピング結果を、クラスタリング処理で形成したクラスタ間の境界８３と共に、ディスプレイ１４に表示する。システム管理者は、図９の右側に示すように、ディスプレイ１４に表示された（各正解ラベルに対応した）各クラスタ間の境界８３を、操作部１５（図２参照）に含まれるマウス（図４における訂正入力部６０に相当）のドラッグ＆ドロップ操作等で訂正入力することにより、ディスプレイ１４にマッピング結果が表示された全ての関連画像について、ラベル付与部５５により付与された正解ラベルの訂正入力を行うことができる。

そして、学習サーバ１のＣＰＵ１１（の訂正処理部６１）は、この訂正入力に応じて、誤り有ラベル付データセット２２に格納された関連画像の各々に付与された正解ラベルを一括して訂正して、訂正後の関連画像と正解ラベルを、誤り訂正済ラベル付データセット２３に格納する。従って、簡単な操作で、ラベル付与部５５により付与された正解ラベルのうち、誤っている正解ラベルを一括して訂正することができる。そして、この誤り訂正済ラベル付データセット２３（に格納されている教師データ（訓練データ））を用いて、学習サーバ１のＣＰＵ１１（の学習部６３）が、既存のＮＮモデルの再学習や、新しいＮＮモデルの学習を行う。

上記のように、本実施形態のデータセット生成システム１０によれば、カメラ２で撮影された撮影画像から、種データセット１９に含まれる複数枚のサンプル画像の少なくともいずれかに類似する複数の関連画像を収集することにより、学習用データセットに含めるべき画像を選別することができる。また、種データセット１９に含まれるサンプル画像を用いて、クラス分類の正解ラベルに応じたクラスタを形成した上で、上記の複数の関連画像の各々が、上記のクラスタのうち、いずれのクラスタに含まれるかを判定して、この判定結果のクラスタに応じた正解ラベルを、上記の関連画像の各々に付与することができる。これにより、上記の学習用データセットに含めるべき画像として選別された画像（関連画像）へのラベル付けを、容易に行うことができる。従って、従来と異なり、管理部門のスタッフ等の人が、学習用データセットに含めるべき全ての画像の選別処理や、選別された全ての画像へのラベル付けを行うことなく、種データセット１９に少量の種データ（少量のサンプル画像と、これらのサンプル画像に付与されるべきクラス分類の正解ラベル）を入力するだけで、物体検出用ＮＮや、物体認識用ＮＮの学習用データセットを、容易に（半自動的に）作成することができる。

また、本実施形態の学習サーバ１、及び学習用データセット生成訂正プログラム１８によれば、カメラ２で撮影された撮影画像のうち、種データセット１９に含まれる複数枚のサンプル画像の少なくともいずれかに類似する撮影画像である、複数の関連画像を受信することにより、学習用データセットに含めるべき画像を集めることができる。また、種データセット１９に含まれるサンプル画像を用いて、クラス分類の正解ラベルに応じたクラスタを形成した上で、上記の複数の関連画像の各々が、上記のクラスタのうち、いずれのクラスタに含まれるかを判定して、この判定結果のクラスタに応じた正解ラベルを、上記の関連画像の各々に付与することができる。これにより、上記の学習用データセットに含めるべき画像として選別された画像（関連画像）へのラベル付けを、容易に行うことができる。従って、従来と異なり、管理部門のスタッフ等の人が、学習用データセットに含めるべき全ての画像の選別処理や、選別された全ての画像へのラベル付けを行うことなく、種データセット１９に少量の種データ（少量のサンプル画像と、これらのサンプル画像に付与されるべきクラス分類の正解ラベル）を入力するだけで、物体検出用ニューラルネットワークや、物体認識用ニューラルネットワークの学習用データセットを、容易に（半自動的に）作成することができる。

また、本実施形態のデータセット生成システム１０、学習サーバ１、及び学習用データセット生成訂正プログラム１８によれば、複数の関連画像を、クラス分類への寄与度の高い２軸又は３軸を用いた２次元平面又は３次元空間上にマッピングすることにより、複数の関連画像のマッピング結果を可視化して、このマッピング結果を表示することができる。これにより、ユーザ（システム管理者）が、表示された関連画像の各々のマッピング結果を見ながら、半自動的に生成された学習用データセット（誤り有ラベル付データセット２２）における各関連画像の正解ラベルの訂正入力を行うことができる。

また、本実施形態のデータセット生成システム１０によれば、複数の関連画像の各々を２次元平面又は３次元空間上にマッピングした結果が、クラスタの境界と共に表示部に表示される。そして、ユーザ（システム管理者）は、各正解ラベルのクラスタの境界を訂正するための入力を行うことにより、ラベル付与部５５により自動的に付与された正解ラベルの訂正入力を行うことができる。従って、簡単な操作で、ラベル付与部５５により付与された正解ラベルのうち、誤っている正解ラベルを一括して訂正することができる。

また、本実施形態のデータセット生成システム１０によれば、クラス分類への寄与度の高い軸に重みを付けて、クラスタの形成処理を行うようにした。これにより、異なるクラスのクラスタがオーバーラップしてしまうことを防ぐことができる。

また、本実施形態のデータセット生成システム１０によれば、ＶＡＥを利用して、クラス分類の正解ラベルに応じたクラスタの形成処理を行うようにした。一般に、ＶＡＥの場合は、同じ分類（同じクラス）のデータは、平均値（中心値）から分散１の正規分布をとるように学習が進むので、ＶＡＥを利用することにより、クラス分類の正解ラベルに応じたクラスタを容易に形成することができる。

変形例：
なお、本発明は、上記の各実施形態の構成に限られず、発明の趣旨を変更しない範囲で種々の変形が可能である。次に、本発明の変形例について説明する。

変形例１：
上記の実施形態では、分析ボックス３に画像収集部３２を配して（分析ボックス３に、物体検出用ＮＮモデルをインストールして）、この画像収集部３２により、カメラ２で撮影された撮影画像のうち、種データセット１９に含まれる複数枚のサンプル画像の少なくともいずれかに類似する撮影画像である、複数の関連画像を収集するようにした。けれども、この構成に限られず、例えば、各店舗に配するカメラを、いわゆるエッジコンピューティング機能を有するＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）カメラにして、このＡＩカメラに、種データ（のサンプル画像）を精度良く検出することができる物体検出用ＮＮモデルをインストールし、複数の関連画像を収集するようにさせてもよい。また、学習サーバが、画像収集部３２を有する構成にしてもよい。すなわち、学習サーバに、カメラで撮影された全ての撮影画像を送信して、学習サーバが、種データのサンプル画像を精度良く検出することができる物体検出用ＮＮモデルを用いて、種データセットに含まれる複数枚のサンプル画像の少なくともいずれかに類似する撮影画像である、複数の関連画像を収集（選別）するようにしてもよい。

変形例２：
上記の実施形態では、複数の関連画像の各々を、クラス分類への寄与度の高い２軸を主成分軸とした２次元平面上にマッピングすることにより、複数の関連画像のマッピング結果を可視化した。けれども、複数の関連画像の各々を、クラス分類への寄与度の高い３軸を主成分軸とした（３軸を用いた）３次元空間上にマッピングすることにより、複数の関連画像のマッピング結果を可視化するようにしてもよい。

変形例３：
上記の実施形態では、ディスプレイ１４に表示された各クラスタ間の境界８３を、マウスのドラッグ＆ドロップ操作等で訂正入力することにより、ディスプレイ１４にマッピング結果が表示された全ての関連画像について、ラベル付与部５５により付与された正解ラベルの訂正入力を行うようにした。けれども、正解ラベルの訂正入力の方法は、これに限られず、例えば、ディスプレイ１４にマッピング結果が表示された関連画像（のサムネイル画像）のうち、誤った正解ラベルに対応するクラスタに含まれている関連画像（のサムネイル画像）を、マウスのドラッグ操作で、正しい正解ラベルに対応するクラスタの方向に引っ張ることにより、正解ラベルの訂正入力を行うようにしてもよい。なお、この場合、ドラッグ操作で正しい（正解ラベルに対応する）クラスタの方向に引っ張られた関連画像（のサムネイル画像）の位置は変化せず、クラスタの境界（線）の方が変えられる（訂正される）。

変形例４：
上記の実施形態では、データセット生成システム１０が、クラウドＣ上に、学習サーバ１とＡＩ分析サーバ７と管理サーバ８とを備える場合の例を示したが、データセット生成システムの構成はこれに限られず、例えば、クラウド上に、学習サーバと管理サーバを備えていてもよいし、学習サーバのみを備えていてもよい。

１学習サーバ
２カメラ
１０データセット生成システム（学習用データセット生成システム）
１１ＣＰＵ（クラスタ形成部、ラベル付与部、マッピング処理部、表示制御部、訂正処理部）
１４ディスプレイ（表示部）
１５操作部（訂正入力部）
１８学習用データセット生成訂正プログラム（学習用データセット生成プログラム）
１９種データセット
３２画像収集部
５１画像入力部
５２画像受信部
５４クラスタ形成部
５５ラベル付与部
５７マッピング処理部
５８表示制御部
５９表示部
６０訂正入力部
６１訂正処理部
８３境界（クラスタの境界）

Claims

複数枚のサンプル画像と、これらのサンプル画像に付与されたクラス分類の正解ラベルとを含む教師データである種データセットを入力する画像入力部と、
前記種データセットに含まれるサンプル画像を検出することが可能な物体検出用ＮＮモデルを用いて、カメラで撮影された撮影画像のうち、前記種データセットに含まれる複数枚のサンプル画像の少なくともいずれかに類似する撮影画像である、複数の関連画像を収集する画像収集部と、
前記画像入力部で入力された種データセットに含まれるサンプル画像を用いて、前記クラス分類の正解ラベルに応じたクラスタを形成するクラスタ形成部と、
前記画像収集部により収集した複数の関連画像の各々が、前記クラスタのうち、いずれのクラスタに含まれるかを判定して、この判定結果のクラスタに応じた正解ラベルを、前記関連画像の各々に付与するラベル付与部と、
前記複数の関連画像の各々について、前記ラベル付与部により付与された正解ラベルの訂正入力を行うための訂正入力部と、
前記訂正入力部による訂正入力に応じて、前記複数の関連画像の各々に付与された正解ラベルを訂正する訂正処理部とを備える学習用データセット生成システム。
前記複数の関連画像を、前記クラス分類への寄与度の高い２軸又は３軸を用いた２次元平面又は３次元空間上にマッピングするマッピング処理部と、
前記マッピング処理部による前記複数の関連画像の各々のマッピング結果を表示する表示部とをさらに備え、
前記訂正入力部は、前記表示部にマッピング結果が表示された前記複数の関連画像の各々について、前記ラベル付与部により付与された正解ラベルの訂正入力を行うためのものであることを特徴とする請求項１に記載の学習用データセット生成システム。
前記複数の関連画像の各々のマッピング結果を、前記クラスタ形成部により形成されたクラスタの境界と共に、前記表示部に表示するように制御する表示制御部をさらに備え、
前記訂正入力部による訂正入力は、前記クラスタ形成部により形成された、各正解ラベルのクラスタの境界を訂正するための入力であることを特徴とする請求項２に記載の学習用データセット生成システム。
前記クラスタ形成部は、前記クラス分類への寄与度の高い軸に重みを付けて、前記クラスタの形成処理を行うことを特徴とする請求項１乃至請求項３のいずれか一項に記載の学習用データセット生成システム。
前記クラスタ形成部は、ＶＡＥ（ＶａｒｉａｔｉｏｎａｌＡｕｔｏｅｎｃｏｄｅｒ）を利用して、前記クラスタの形成処理を行うことを特徴とする請求項１乃至請求項４のいずれか一項に記載の学習用データセット生成システム。
複数枚のサンプル画像と、これらのサンプル画像に付与されたクラス分類の正解ラベルとを含む教師データである種データセットを入力する画像入力部と、
カメラで撮影された撮影画像のうち、前記種データセットに含まれる複数枚のサンプル画像の少なくともいずれかに類似する撮影画像である、複数の関連画像を受信する画像受信部と、
前記画像入力部で入力された種データセットに含まれるサンプル画像を用いて、前記クラス分類の正解ラベルに応じたクラスタを形成するクラスタ形成部と、
前記画像受信部により受信した複数の関連画像の各々が、前記クラスタのうち、いずれのクラスタに含まれるかを判定して、この判定結果のクラスタに応じた正解ラベルを、前記関連画像の各々に付与するラベル付与部と、
前記複数の関連画像の各々について、前記ラベル付与部により付与された正解ラベルの訂正入力を行うための訂正入力部と、
前記訂正入力部による訂正入力に応じて、前記複数の関連画像の各々に付与された正解ラベルを訂正する訂正処理部とを備え、
前記画像受信部が受信する関連画像は、前記種データセットに含まれるサンプル画像を検出することが可能な物体検出用ＮＮモデルを用いて、カメラで撮影された撮影画像から収集された撮影画像である学習サーバ。
前記複数の関連画像を、前記クラス分類への寄与度の高い２軸又は３軸を用いた２次元平面又は３次元空間上にマッピングするマッピング処理部と、
前記マッピング処理部による前記複数の関連画像の各々のマッピング結果を表示する表示部とをさらに備え、
前記訂正入力部は、前記表示部にマッピング結果が表示された前記複数の関連画像の各々について、前記ラベル付与部により付与された正解ラベルの訂正入力を行うためのものであることを特徴とする請求項６に記載の学習サーバ。
コンピュータを、
複数枚のサンプル画像と、これらのサンプル画像に付与されたクラス分類の正解ラベルとを含む教師データである種データセットを入力する画像入力部と、
カメラで撮影された撮影画像のうち、前記種データセットに含まれる複数枚のサンプル画像の少なくともいずれかに類似する撮影画像である、複数の関連画像を受信する画像受信部と、
前記画像入力部で入力された種データセットに含まれるサンプル画像を用いて、前記クラス分類の正解ラベルに応じたクラスタを形成するクラスタ形成部と、
前記画像受信部により受信した複数の関連画像の各々が、前記クラスタのうち、いずれのクラスタに含まれるかを判定して、この判定結果のクラスタに応じた正解ラベルを、前記関連画像の各々に付与するラベル付与部と、
前記複数の関連画像の各々について、前記ラベル付与部により付与された正解ラベルの訂正入力を行うための訂正入力部と、
前記訂正入力部による訂正入力に応じて、前記複数の関連画像の各々に付与された正解ラベルを訂正する訂正処理部として機能させ、
前記画像受信部が受信する関連画像は、前記種データセットに含まれるサンプル画像を検出することが可能な物体検出用ＮＮモデルを用いて、カメラで撮影された撮影画像から収集された撮影画像である学習用データセット生成プログラム。
前記コンピュータを、さらに、
前記複数の関連画像を、前記クラス分類への寄与度の高い２軸又は３軸を用いた２次元平面又は３次元空間上にマッピングするマッピング処理部と、
前記マッピング処理部による前記複数の関連画像の各々のマッピング結果を表示する表示部として機能させ、
前記訂正入力部は、前記表示部にマッピング結果が表示された前記複数の関連画像の各々について、前記ラベル付与部により付与された正解ラベルの訂正入力を行うためのものであることを特徴とする請求項８に記載の学習用データセット生成プログラム。