JP7211495B2

JP7211495B2 - 教師データ生成装置

Info

Publication number: JP7211495B2
Application number: JP2021515437A
Authority: JP
Inventors: 哲夫井下
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2023-01-24
Anticipated expiration: 2039-04-25
Also published as: US11954901B2; US20220215653A1; JPWO2020217425A1; WO2020217425A1

Description

本発明は、教師データ生成装置、教師データ生成方法、および、記録媒体に関する。

近年、ディープラーニングを用いたデータ解析システムが提案ないし実用化されている。ディープラーニングによって画像中の物体認識を行うためには、その物体が何であるかという正解ラベルを伴った画像が必要となる。ここで、正解ラベルと画像のペアを教師データまたは学習データまたは訓練データと呼ぶ。

教師データの生成は、基本的に人手で行われる。例えば、特許文献１には、表示部とタッチ操作を検出するタッチパネル部とを有するデータ処理装置を使って教師データを作成する方法が記載されている。この特許文献１に記載される方法では、オペレータは、表示部に表示された画像を確認し、その画像のカテゴリを判断し、判断結果に応じた方向にタッチパネル部上でフリック操作を行う。データ処理装置は、フリックを検出すると、そのフリック方向に応じたラベルを決定し、決定したラベルと表示部に表示されている画像とから教師データを生成する。

特開２０１５－１４８９８１号公報

ディープラーニングによって画像中の物体認識を精度良く行うためには、大量の教師データが必要となる。そのような大量の教師データを、特許文献１に記載されるように全て人手で生成すると、多くの手間と時間を必要とする。

本発明の目的は、上述した課題、すなわち、教師データを大量に生成するためには多くの手間と時間がかかる、という課題を解決する教師データ生成装置を提供することにある。

本発明の一形態に係る教師データ生成装置は、
動画データを構成する複数のフレーム画像のうちの一部の複数のフレーム画像を第１の動画データとして選択し、前記第１の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第２の動画データとして選択し、前記第１の動画データおよび前記第２の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第３の動画データとして選択する選択手段と、
前記第１の動画データを構成する複数のフレーム画像から特定の認識対象に係るラベル付けされたデータである第１の教師データを生成する第１の生成手段と、
前記第１の教師データを使用して、前記特定の認識対象を認識する第１のモデルを学習する第１の学習手段と、
前記第１のモデルを使用して、前記第２の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第２の教師データを生成する第２の生成手段と、
前記第２の教師データを使用して、前記特定の認識対象を認識する第２のモデルを学習する第２の学習手段と、
前記第２のモデルを使用して、前記第３の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第３の教師データを生成する第３の生成手段と、
を含む。

また、本発明の他の形態に係る教師データ生成方法は、
動画データを構成する複数のフレーム画像のうちの一部の複数のフレーム画像を第１の動画データとして選択し、前記第１の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第２の動画データとして選択し、前記第１の動画データおよび前記第２の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第３の動画データとして選択し、
前記第１の動画データを構成する複数のフレーム画像から特定の認識対象に係るラベル付けされたデータである第１の教師データを生成し、
前記第１の教師データを使用して、前記特定の認識対象を認識する第１のモデルを学習し、
前記第１のモデルを使用して、前記第２の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第２の教師データを生成し、
前記第２の教師データを使用して、前記特定の認識対象を認識する第２のモデルを学習し、
前記第２のモデルを使用して、前記第３の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第３の教師データを生成する。

また、本発明の他の形態に係るコンピュータ読み取り可能な記録媒体は、
コンピュータに、
動画データを構成する複数のフレーム画像のうちの一部の複数のフレーム画像を第１の動画データとして選択し、前記第１の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第２の動画データとして選択し、前記第１の動画データおよび前記第２の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第３の動画データとして選択する処理と、
前記第１の動画データを構成する複数のフレーム画像から特定の認識対象に係るラベル付けされたデータである第１の教師データを生成する処理と、
前記第１の教師データを使用して、前記特定の認識対象を認識する第１のモデルを学習する処理と、
前記第１のモデルを使用して、前記第２の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第２の教師データを生成する処理と、
前記第２の教師データを使用して、前記特定の認識対象を認識する第２のモデルを学習する処理と、
前記第２のモデルを使用して、前記第３の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第３の教師データを生成する処理と、
を行わせるためのプログラムを記録する。

本発明は、上述したような構成を有することにより、教師データを大量に生成する際の手間と時間を削減することができる。

本発明の第１の実施形態に係る教師データ生成装置のブロック図である。本発明の第１の実施形態に係る教師データ生成装置の動作の一例を示すフローチャートである。本発明の第１の実施形態に係る教師データ生成装置における選択部の処理の一例を示すフローチャートである。本発明の第１の実施形態に係る教師データ生成装置における選択部の動作説明図である。第１の動画データを構成する１０枚のフレーム画像をｋ－ｍｅａｎｓ法によって選択した場合とランダムに選択した場合とにおける物体認識精度の違いを示す表である。本発明の第１の実施形態に係る教師データ生成装置における選択部の処理の他の例を示すフローチャートである。本発明の第１の実施形態の方法によって３００枚のフレーム画像から教師データを実際に生成した手順と所要時間とを示すフロー図である。本発明の第２の実施形態に係る教師データ生成装置のブロック図である。

［第１の実施の形態］
次に、本発明の第１の実施形態について、図面を参照して説明する。図１は、本実施形態に係る教師データ生成装置１００のブロック図である。図１を参照すると、教師データ生成装置１００は、カメラＩ／Ｆ（インターフェース）部１０１と、通信Ｉ／Ｆ部１０２と、操作入力部１０３と、画面表示部１０４と、記憶部１０５と、演算処理部１０６とを含んで構成されている。

カメラＩ／Ｆ部１０１は、有線または無線により画像サーバ１１０に接続され、画像サーバ１１０と演算処理部１０６との間でデータの送受信を行うように構成されている。画像サーバ１１０は、有線または無線によりカメラ１１１に接続され、カメラ１１１で撮影された動画を過去一定期間分蓄積するように構成されている。カメラ１１１は、特定の認識対象を含む動画を撮影する撮像装置である。カメラ１１１は、例えば、数百万画素程度の画素容量を有するＣＣＤ（Ｃｈａｒｇｅ－ＣｏｕｐｌｅｄＤｅｖｉｃｅ）イメージセンサやＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭＯＳ）イメージセンサを備えたカラーカメラであってよい。カメラ１１１は、教師データを作成するための動画を撮影する目的で多くの人や物が行きかう街頭などに設置された専用カメラであってよい。あるいはカメラ１１１は、防犯・監視などの他の目的のために設置されたカメラであってよい。またカメラ１１１は、固定された場所から固定された撮影方向で動画を撮影するカメラであることが望ましい。その理由は、固定された場所から固定された撮影方向で撮影する動画は、背景が固定しているため、動画の一部から生成した教師データで学習したモデルを使って動画の残りの部分から物体認識を行う際、背景が学習時と同じなので物体認識精度が高まるためである。すなわち、自由な背景の前で雑多なオブジェクトが多様な位置・姿勢をとっている動画に比べて、固定された背景の前で雑多なオブジェクトが多様な位置・姿勢をとっている動画の方が、ディープラーニングによる物体認識がより簡単かつ精度良く行えるためである。但し、本発明は、背景が固定されている動画データに限定されない。車などの移動体に搭載されたカメラで撮影された動画データのように背景が変化するものであってもよい。

通信Ｉ／Ｆ部１０２は、データ通信回路から構成され、有線または無線によって図示しない外部装置との間でデータ通信を行うように構成されている。操作入力部１０３は、キーボードやマウスなどの操作入力装置から構成され、オペレータの操作を検出して演算処理部１０６に出力するように構成されている。画面表示部１０４は、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）などの画面表示装置から構成され、演算処理部１０６からの指示に応じて、各種情報を画面表示するように構成されている。

記憶部１０５は、ハードディスクやメモリなどの記憶装置から構成され、演算処理部１０６における各種処理に必要な処理情報およびプログラム１０５－１を記憶するように構成されている。プログラム１０５－１は、演算処理部１１６に読み込まれて実行されることにより各種処理部を実現するプログラムであり、通信Ｉ／Ｆ部１０２などのデータ入出力機能を介して図示しない外部装置や記録媒体から予め読み込まれて記憶部１０５に保存される。記憶部１０５に記憶される主な処理情報には、動画データ１０５－２、第１の動画データ１０５－３、第１の教師データ１０５－４、第１のモデル１０５－５、第２の動画データ１０５－６、第２の教師データ１０５－７、第２のモデル１０５－８、第３の動画データ１０５－９、第３の教師データ１０５－１０がある。

動画データ１０５－２は、カメラ１１１で撮影された時系列画像である。この動画データ１０５－２は、カメラ１１１で撮影された動画を構成する複数のフレーム画像であってよい。あるいは動画データ１０５－２は、カメラ１１１で撮影された動画のフレームレートをダウンサンプリングして得られた複数のフレーム画像であってよい。各フレーム画像には、撮影時刻が付加されている。

第１の動画データ１０５－３は、動画データ１０５－２から選択されたごく少数のフレーム画像から構成された動画データである。

第１の教師データ１０５－４は、第１の動画データ１０５－３を構成するフレーム画像から人手によって生成された教師データである。教師データは、画像データと、その画像の中にクラスに対応する対象（例えば、人、車、杖、リュックなど）がどこに存在するかを示す座標データと、クラスを表す正解ラベルとを含んで構成されている。

第１のモデル１０５－５は、第１の教師データ１０５－４を使用して学習して得られたディープラーニングモデル（単に、モデルとも称す）である。

第２の動画データ１０５－６は、動画データ１０５－２から選択された複数のフレーム画像から構成される動画データである。好ましくは、第２の動画データ１０５－６は、第１の動画データ１０５－３よりもデータ量が多くなるように構成されている。即ち、第２の動画データ１０５－６を構成するフレーム画像の数は、第１の動画データ１０５－３よりも多い。

第２の教師データ１０５－７は、第１のモデル１０５－５を使用して第２の動画データ１０５－６から生成された教師データである。

第２のモデル１０５－８は、第２の教師データ１０５－７を使用して学習して得られたディープラーニングモデルである。

第３の動画データ１０５－９は、動画データ１０５－２から選択された複数のフレーム画像から構成される動画データである。好ましくは、第３の動画データ１０５－９は、第２の動画データ１０５－６よりもデータ量が多い。

第３の教師データ１０５－１０は、第２のモデル１０５－８を使用して第３の動画データ１０５－９から生成された教師データである。

演算処理部１０６は、ＭＰＵなどのプロセッサとその周辺回路を有し、記憶部１０５からプログラム１０５－１を読み込んで実行することにより、上記ハードウェアとプログラム１０５－１とを協働させて各種処理部を実現するように構成されている。演算処理部１０６で実現される主な処理部は、入力部１０６－１、選択部１０６－２、ラベル付けツール１０６－３、学習部１０６－４、生成部１０６－５、チェックツール１０６－６、出力部１０６－７、および、制御部１０６－８である。

入力部１０６－１は、カメラＩ／Ｆ部１０１を通じて画像サーバ１１０から、カメラ１１１で撮影された動画データあるいは当該動画データのフレームレートをダウンサンプリングした動画データを取得し、記憶部１０５に動画データ１０５－２として記憶するように構成されている。

選択部１０６－２は、記憶部１０５から動画データ１０５－２を読み出し、動画データ１０５－２を構成する複数のフレーム画像のうちの一部の複数のフレーム画像を第１の動画データ１０５－３として選択し、記憶部１０５に記憶するように構成されている。また、選択部１０６－２は、第１の動画データ１０５－３として選択されなかった動画データ１０５－２を構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第２の動画データ１０５－６として選択し、記憶部１０５に記憶するように構成されている。また、選択部１０６－２は、第１の動画データ１０５－３および第２の動画データ１０５－６として選択されなかった動画データ１０５－２を構成する複数のフレーム画像のうちの全部の複数のフレーム画像を第３の動画データ１０５－９として選択し、記憶部１０５に記憶するように構成されている。

また、選択部１０６－２は、動画データ１０５－２を構成するフレーム画像の総数に基づいて、第１の動画データ１０５－３として選択されなかった動画データ１０５－２を構成する複数のフレーム画像のうちの全部のフレーム画像を第２の動画データ１０５－６として選択するか、一部の複数のフレーム画像を第２の動画データ１０５－６として選択するかを決定するように構成されている。換言すれば、選択部１０６－２は、動画データ１０５－２を構成するフレーム画像の総数に基づいて、動画データ１０５－２を、第１の動画データ１０５－３および第２の動画データ１０５－６に２分割するか、あるいは、第１の動画データ１０５－３、第２の動画データ１０５－６、および第３の動画データ１０５－９に３分割するかを決定する。例えば、選択部１０６－２は、動画データ１０５－２のフレーム画像の総数が、閾値枚数未満であれば上記２分割し、閾値枚数以上であれば上記３分割するように構成されている。ここで、閾値枚数は、実際の処理時間の統計量などに基づいて事前に定められ、記憶されている。

ラベル付けツール１０６－３は、記憶部１０５から第１の動画データ１０５－３を読み出し、操作入力部１０３および画面表示部１０４を通じたユーザとの対話型処理によって第１の動画データ１０５－３から第１の教師データ１０５－４を生成し、記憶部１０５に第１の教師データ１０５－４として記憶するように構成されている。ラベル付けツール１０６－３は、例えば、第１の動画データ１０５－３を構成するフレーム画像毎に、そのフレーム画像のイメージを画面表示部１０４に表示し、操作入力部１０３を通じてユーザから、その画像の中にクラスに対応する対象がどこに存在するかを示す座標データおよびその対象が何であるかを示す正解ラベルを入力し、上記フレーム画像と座標データと正解ラベルとを関連付けた教師データを生成するように構成されている。ラベル付けツール１０６－３は、例えば教師データ生成用の市販のアノテーションツールによって実現することができる。

学習部１０６－４は、記憶部１０５から第１の教師データ１０５－４を読み出し、この第１の教師データ１０５－４を使用してディープラーニングによる物体認識手法により学習を行って学習済モデルを作成し、この学習済モデルを記憶部１０５に第１のモデル１０５－５として記憶するように構成されている。また学習部１０６－４は、記憶部１０５から第２の教師データ１０５－７を読み出し、この第２の教師データ１０５－７を使用してディープラーニングによる物体認識手法により学習を行って学習済モデルを作成し、この学習済モデルを記憶部１０５に第２のモデル１０５－８として記憶するように構成されている。具体的には、学習部１０６－４は、以下のようにして第１のモデル１０５－５、および、第２のモデル１０５－８を作成する。

学習部１０６－４は、ニューラルネットワークの特定のアーキテクチャである畳み込みニューラルネットワーク（ＣＮＮ）上に第１のモデル１０５－５を構築する。但し、ニューラルネットワークのアーキテクチャは畳み込みニューラルネットワークに限定されない。リカレントニューラルネットワークなどであってもよい。また、学習部１０６－４は、ＲｅｔｉｎａＮｅｔなどのような事前に訓練されたモデルに対して、そのモデルでは事前に学習されていない第１の教師データ１０５－４を与えて学習を行うことにより、所望の認識対象（例えば、人、車、杖、リュックなど）を識別する第１のモデル１０５－５を作成する。学習部１０６－４が使用するディープラーニングモデルによる物体認識手法は、例えば、Ｒ－ＣＮＮベースのアルゴリズム、あるいは、ＹＯＬＯ（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ）型アルゴリズムなどとすることができる。また学習部１０６－４は、第１のモデル１０５－５を作成した後、作成された第１のモデル１０５－５に対して、第２の教師データ１０５－７を与えて学習を行うことにより、第２のモデル１０５－８を作成する。

上記説明では、学習部１０６－４は、第１のモデル１０５－５を利用して第２のモデル１０５－８を作成した。しかし、学習部１０６－４は、第１のモデル１０５－５を利用する代わりに、ＲｅｔｉｎａＮｅｔなどのような事前に訓練されたモデルに対して、そのモデルでは事前に学習されていない第２の教師データ１０５－７（および必要に応じて第１の教師データ１０５－４）を与えて学習を行うことにより、第２のモデル１０５－８を作成するようにしてもよい。

生成部１０６－５は、記憶部１０５から第１のモデル１０５－５および第２の動画データ１０５－６を読み出し、第１のモデル１０５－５を使用して、第２の動画データ１０５－６を構成するフレーム画像からディープラーニングによる物体認識手法により推論を行って特定の識別対象を検出するように構成されている。また生成部１０６－５は、検出した識別対象に係る教師データを作成し、記憶部１０５に第２の教師データ１０５－７として記憶するように構成されている。例えば、生成部１０６－５は、第２の動画データ１０５－６を構成する或るフレーム画像を第１のモデル１０５－５に入力して行った物体認識処理において、左上頂点の座標値（ｘ１，ｙ１）および右下頂点の座標値（ｘ２，ｙ２）で特定される矩形領域内の画像が「人」として検出された場合、当該フレーム画像と上記座標値と正解ラベル「人」と信頼度とを関連付けた教師データを生成する。ここで、信頼度は、検出結果の確からしさを表す指標値である。１つのフレーム画像中に複数種類の対象物が存在する場合、１つのフレーム画像から複数の教師データが生成される。

また、生成部１０６－５は、記憶部１０５から第２のモデル１０５－８および第３の動画データ１０５－９を読み出し、第１のモデル１０５－５を使用して第２の教師データ１０５－７を生成した処理と同様な処理を行うように構成されている。すなわち、生成部１０６－５は、第２のモデル１０５－８を使用して、第３の動画データ１０５－９を構成するフレーム画像からディープラーニングによる物体認識手法により推論を行って特定の識別対象を検出するように構成されている。また生成部１０６－５は、検出した識別対象に係る教師データを作成し、記憶部１０５に第３の教師データ１０５－１０として記憶するように構成されている。

チェックツール１０６－６は、記憶部１０５から第２の教師データ１０５－７を読み出し、操作入力部１０３および画面表示部１０４を通じたユーザとの対話型処理によって第２の教師データ１０５－７に対する修正を行い、修正後の教師データで記憶部１０５の第２の教師データ１０５－７を上書きするように構成されている。チェックツール１０６－６は、例えば、第２の教師データ１０５－７を構成するフレーム画像毎に、検出した対象物を矩形で囲んだフレーム画像のイメージと、検出リストとを表示する。上記検出リストは、生成した教師データに１対１に対応するリスト要素から構成される。１つのリスト要素は、チェックボックス、クラス（対象物）、姿勢（隠蔽の有無）、信頼度ラベルなどで構成され、信頼度で降順にソートされている。ユーザは、画面表示部１０４の表示を確認し、誤りがあれば、操作入力部１０３による操作によって教師データを修正する。例えば、ユーザは、対象物を囲む矩形の位置が誤っていれば、操作入力部１０３からの入力によって矩形の位置を手動で修正する。また、ユーザは、推定されたラベルが誤っていれば、操作入力部１０３からの入力によって正しいラベルに修正する。また、ユーザは、特定の対象物以外のものを特定の対象物と誤認識している教師データがあれば、操作入力部１０３からの入力によって当該教師データを削除する。また、ユーザは、特定の対象物の検出漏れがあれば、操作入力部１０３からの入力によって、対象物の領域を矩形で囲み、正解ラベルを入力して、新規の教師データを作成する。

またチェックツール１０６－６は、記憶部１０５から第３の教師データ１０５－１０を読み出し、第２の教師データ１０５－７と同様な処理を行うように構成されている。

出力部１０６－７は、記憶部１０５から第１の教師データ１０５－４、第２の教師データ１０５－７、および、第３の教師データ１０５－１０を読み出し、画面表示部１０４に表示し、または／および、通信Ｉ／Ｆ部１０２を通じて外部装置へ出力するように構成されている。

制御部１０６－８は、入力部１０６－１、選択部１０６－２、ラベル付けツール１０６－３、学習部１０６－４、生成部１０６－５、チェックツール１０６－６、および、出力部１０６－７を選択的に起動し、または停止することにより、教師データ生成装置１００全体の動作を制御するように構成されている。

図２は教師データ生成装置１００の動作の一例を示すフローチャートである。以下、各図を参照して、教師データ生成装置１００の動作を説明する。

ユーザが、教師データを生成するために、操作入力部１０３から起動指示を入力すると、制御部１０６－８の制御の下で図２に示す処理が開始される。

先ず、制御部１０６－８は入力部１０６－１を起動する。入力部１０６－１は、カメラＩ／Ｆ部１０１を通じて画像サーバ１１０からカメラ１１１で撮影された動画データを過去一定期間分取得し、記憶部１０５に動画データ１０５－２として記憶する（ステップＳ１）。

次に、制御部１０６－８は選択部１０６－２を起動する。選択部１０６－２は、記憶部１０５から動画データ１０５－２を読み出し、動画データ１０５－２のデータ量（フレーム画像数）が予め設定された閾値より多いか否かを判定する（ステップＳ２）。選択部１０６－２は、動画データ１０５－２のデータ量が閾値より多くない場合、内部変数Ｋに値２を設定し（ステップＳ３）、多い場合は内部変数Ｋに値３を設定する（ステップＳ４）。次に、選択部１０６－２は、動画データ１０５－２をＫ分割する（ステップＳ５）。即ち、選択部１０６－２は、Ｋ＝３の場合、動画データ１０５－２を、ごく少数の第１の動画データ１０５－３と、第１の動画データ１０５－３よりデータ量の多い第２の動画データ１０５－６と、第２の動画データ１０５－６よりデータ量の多い第３の動画データ１０５－９とに分割する。また、選択部１０６－２は、Ｋ＝２の場合、動画データ１０５－２を、ごく少数の第１の動画データ１０５－３と、第１の動画データ１０５－３よりデータ量の多い第２の動画データ１０５－６とに分割する。

次に、制御部１０６－８は、内部変数Ｊに１を設定する（ステップＳ６）。

次に、制御部１０６－８はラベル付けツール１０６－３を起動する。ラベル付けツール１０６－３は、記憶部１０５から第１の動画データ１０５－３を読み出し、操作入力部１０３および画面表示部１０４を通じたユーザとの対話型処理によって第１の動画データ１０５－３から第１の教師データ１０５－４を生成し、記憶部１０５に第１の教師データ１０５－４として記憶する（ステップＳ７）。

次に、制御部１０６－８は学習部１０６－４を起動する。学習部１０６－４は、記憶部１０５から第１の教師データ１０５－４を読み出し、この第１の教師データ１０５－４を使用してディープラーニングによる物体認識手法により学習を行って学習済モデルを作成し、この学習済モデルを記憶部１０５に第１のモデル１０５－５として記憶する（ステップＳ８）。

次に、制御部１０６－８は生成部１０６－５を起動する。生成部１０６－５は、記憶部１０５から第１のモデル１０５－５および第２の動画データ１０５－６を読み出し、第１のモデル１０５－５を使用して、第２の動画データ１０５－６を構成するフレーム画像からディープラーニングによる物体認識手法により推論を行って特定の識別対象を検出し、かつ、検出した識別対象に係る教師データを作成し、記憶部１０５に第２の教師データ１０５－７として記憶する（ステップＳ９）。

次に、制御部１０６－８はチェックツール１０６－６を起動する。チェックツール１０６－６は、記憶部１０５から第２の教師データ１０５－７を読み出し、操作入力部１０３および画面表示部１０４を通じたユーザとの対話型処理によって第２の教師データ１０５－７に対する修正を行い、修正後の教師データで記憶部１０５の第２の教師データ１０５－７を上書きする（ステップＳ１０）。

次に、制御部１０６－８は、内部変数Ｊをインクリメントして値２とする（ステップＳ１１）。次に、制御部１０６－８は、内部変数Ｊの値２が内部変数Ｋの値より小さいか否かを判定する（ステップＳ１２）。制御部１０８－８は、内部変数Ｊの値２が内部変数Ｋの値より小さくない場合、出力部１０６－７を起動する。出力部１０６－７は、記憶部１０５から第１の教師データ１０５－４、および、第２の教師データ１０５－７を読み出し、画面表示部１０４に表示し、または／および、通信Ｉ／Ｆ部１０２を通じて外部装置へ出力する（ステップＳ１３）。そして、制御部１０６－８は、図２に示す処理を終了する。

他方、制御部１０８－８は、内部変数Ｊの値２が内部変数Ｋの値より小さい場合、ステップＳ８に戻って上述した処理と同様の以下のような処理を繰り返す。

先ず、制御部１０６－８は、学習部１０６－４を起動する。学習部１０６－４は、記憶部１０５から第２の教師データ１０５－７を読み出し、この第２の教師データ１０５－７を使用してディープラーニングによる物体認識手法により学習を行って学習済モデルを作成し、この学習済モデルを記憶部１０５に第２のモデル１０５－８として記憶する（ステップＳ８）。

次に、制御部１０６－８は生成部１０６－５を起動する。生成部１０６－５は、記憶部１０５から第２のモデル１０５－８および第３の動画データ１０５－９を読み出し、第２のモデル１０５－８を使用して、第３の動画データ１０５－９を構成するフレーム画像からディープラーニングによる物体認識手法により推論を行って特定の識別対象を検出し、かつ、検出した識別対象に係る教師データを作成し、記憶部１０５に第３の教師データ１０５－１０として記憶する（ステップＳ９）。

次に、制御部１０６－８はチェックツール１０６－６を起動する。チェックツール１０６－６は、記憶部１０５から第３の教師データ１０５－１０を読み出し、操作入力部１０３および画面表示部１０４を通じたユーザとの対話型処理によって第３の教師データ１０５－１０に対する修正を行い、修正後の教師データで記憶部１０５の第３の教師データ１０５－１０を上書きする（ステップＳ１０）。

次に、制御部１０６－８は、内部変数Ｊをインクリメントして値３とする（ステップＳ１１）。次に、制御部１０６－８は、内部変数Ｊの値３が内部変数Ｋの値より小さくないので、出力部１０６－７を起動する。出力部１０６－７は、記憶部１０５から第１の教師データ１０５－４、第２の教師データ１０５－７、および、第３の教師データ１０５－１０を読み出し、画面表示部１０４に表示し、または／および、通信Ｉ／Ｆ部１０２を通じて外部装置へ出力する（ステップＳ１３）。そして、制御部１０６－８は、図２に示す処理を終了する。
ップＳ１０）。

次に、選択部１０６－２の構成例を幾つか説明する。

＜選択部１０６－２の例１＞
図３は選択部１０６－２の処理の一例を示すフローチャートである。図３を参照すると、選択部１０６－２は、動画データ１０５－２を構成するフレーム画像毎に、Ｒ、Ｇ、Ｂそれぞれの平均値である平均ＲＧＢ値を算出する（ステップＳ２１）。この例では、色情報としてＲＧＢ表色系を使用したが、ＨＳＶ表色系などの他の表色系を使用してもよい。

次に、選択部１０６－２は、図４に示すように、上記算出した平均ＲＧＢ値を使用してｋ－ｍｅａｎｓ法によって動画データ１０５－２を構成するフレーム画像群をｎグループ（ｎクラスタ）に分割する（ステップＳ２２）。ここで、ｎは予め定められた２以上の正の整数である。例えば、ｎ＝１０とすることができる。但し、ｎは１０に限定されず、１０未満であってもよいし、１０以上であってもよい。また、ｋ－ｍｅａｎｓ法によるクラスタリングは、例えば、以下のようにして行ってよい。まず、各フレーム画像に対してランダムにクラスタを割り振り、割り振ったフレーム画像の平均ＲＧＢ値をもとに各クラスタの重心を求める。次に各フレーム画像と各クラスタとの距離を求め、距離の近いクラスタに各フレーム画像を割り振る。各クラスタの重心に変化がない場合、あるいはクラスタの重心計算が所定回数繰り返された場合に、収束したと判断する。

次に、選択部１０６－２は、図４に示すように、各グループからランダムに１個のフレーム画像を抽出し、合計１０個のフレーム画像から構成される第１の動画データ１０５－３を作成する（ステップＳ２３）。この例では、各グループから１個のフレーム画像を抽出したが、各グループから２個以上のフレーム画像を抽出するようにしてもよい。

また、選択部１０６－２は、図４に示すように、第１の動画データ１０５－３のためのフレーム画像が抽出された後の各グループからランダムに４個のフレーム画像を抽出し、合計４０個のフレーム画像から構成される第２の動画データ１０５－６を作成する（ステップＳ２４）。この例では、各グループから４個のフレーム画像を抽出したが、第１の動画データ１０５－３のために各グループから抽出したフレーム画像数より多ければ、４個に限定されず、３個あるいは５個以上であってもよい。

また、選択部１０６－２は、図４に示すように、第１の動画データ１０５－３および第２の動画データ１０５－６のためのフレーム画像が抽出された後の各グループに残っている全てのフレーム画像の集合を第３の動画データ１０５－９として生成する（ステップＳ２５）。

このように本例の選択部１０６－２は、動画データ１０５－２を構成するフレーム画像群を色情報によってクラスタリングした各グループから、第１の動画データ１０５－３を構成するフレーム画像、第２の動画データ１０５－６を構成するフレーム画像、および、第３の動画データ１０５－９を構成するフレーム画像を抽出する。そのため、第２の動画データ１０５－６は、第３の動画データ１０５－９を代表するフレーム画像の集合になる傾向が強く、第１の動画データ１０５－３は、第２の動画データ１０５－６を代表するフレーム画像の集合になる傾向が強い。その理由は以下の通りである。

フレーム画像の平均ＲＧＢ値は、背景が同じであれば、写っている対象（例えば、人、車、杖、リュックなど）の色情報が類似していれば類似する。そのため、背景が固定された動画データ１０５－２を色情報によってクラスタリングして得られるｎグループは、フレーム画像群を写っている対象の色によって分類したものとなる。その結果、同じグループに属する複数のフレーム画像には同一あるいは類似する対象が含まれる傾向があるためである。

そして、第１の動画データ１０５－３が第２の動画データ１０５－６を代表するフレーム画像の集合であることによって、第１の動画データ１０５－３に含まれる対象によって生成された第１の教師データ１０５－４によって学習した第１のモデル１０５－５を使用して、第２の動画データ１０５－６から物体認識を行う際、含まれる対象が学習時と類似するので物体認識精度を高めることができる。また、第２の動画データ１０５－６が第３の動画データ１０５－９を代表するフレーム画像の集合であることによって、第２の動画データ１０５－６に含まれる対象によって生成された第２の教師データ１０５－７によって学習した第２のモデル１０５－８を使用して、第３の動画データ１０５－９から物体認識を行う際、含まれる対象が学習時と類似するので物体認識精度を高めることができる。

図５は、第１の動画データ１０５－３を構成する１０枚のフレーム画像を上述したｋ－ｍｅａｎｓ法によって選択した場合と動画データ１０５－２からランダムに選択した場合とで、物体認識精度がどの程度相違するかを確かめるために行った本発明者による実験の結果を示している。物体認識の対象は、立っている人、座っている人、頭部、リュックサック、スーツケース、他のカバンの合計６種類である。また、精度（Ｐｒｅｃｉｓｉｏｎ）は１２回の実験の平均値である。図５に示されるように、ｋ－ｍｅａｎｓ法によってフレーム画像を選択する方法は、ランダム方法によってフレーム画像を選択する方法に比較して、物体認識精度が高くなっているのがわかる。

上記では、選択部１０６－２は、動画データ１０５－２を構成する複数のフレーム画像を色情報に基づいてクラスタリングした。しかし、クラスタリングに使用する画像特徴量は色情報に限定されない。例えば、選択部１０６－２は、動画データ１０５－２を構成する複数のフレーム画像をエッジ情報などの画像特徴量に基づいてクラスタリングするようにしてもよい。ここで、エッジ情報は、例えば、エッジの有無、エッジ量、エッジの形状などとすることができる。

＜選択部１０６－２の例２＞
図６は選択部１０６－２の処理の他の例を示すフローチャートである。図６を参照すると、選択部１０６－２は、先ず、動画データ１０５－２からシーンチェンジ点を検出する（ステップＳ３１）。例えば、選択部１０６－２は、動画データ１０５－２を構成するフレーム画像毎に、時間的に直前のフレーム画像との画像特徴量（例えば色情報あるいはエッジ情報）の変化量を測定し、測定した画像特徴量の変化量が所定の値を超えることにより、シーンチェンジを検出する。

次に、選択部１０６－２は、動画データ１０５－２を、検出したシーンチェンジ点を分割点として複数のグループ（複数の時系列画像データ）に分割する（ステップＳ３２）。検出したシーンチェンジ点の個数がｍ－１の場合、生成されるグループ数はｍになる。

次に、選択部１０６－２は、各グループからランダムに１個のフレーム画像を抽出し、合計ｍ個のフレーム画像から構成される第１の動画データ１０５－３を作成する（ステップＳ３３）。この例では、各グループから１個のフレーム画像を抽出したが、各グループから２個以上のフレーム画像を抽出するようにしてもよい。

また、選択部１０６－２は、第１の動画データ１０５－３のためのフレーム画像が抽出された後の各グループからランダムに４個のフレーム画像を抽出し、合計４×ｍ個のフレーム画像から構成される第２の動画データ１０５－６を作成する（ステップＳ３４）。この例では、各グループから４個のフレーム画像を抽出したが、第１の動画データ１０５－３のために各グループから抽出したフレーム画像数より多ければ、４個に限定されず、３個あるいは５個以上であってもよい。

また、選択部１０６－２は、第１の動画データ１０５－３および第２の動画データ１０５－６のためのフレーム画像が抽出された後の各グループに残っている全てのフレーム画像の集合を第３の動画データ１０５－９として生成する（ステップＳ３５）。

このように本例の選択部１０６－２は、動画データ１０５－２を構成するフレーム画像群を、シーンチェンジ点を分割点として複数のグループに分割し、各グループから、第１の動画データ１０５－３を構成するフレーム画像、第２の動画データ１０５－６を構成するフレーム画像、および、第３の動画データ１０５－９を構成するフレーム画像を抽出する。そのため、第２の動画データ１０５－６は、第３の動画データ１０５－９と同じシーンを構成するフレーム画像になり、第１の動画データ１０５－３は、第２の動画データ１０５－６と同じシーンのフレーム画像になる。

そして、第１の動画データ１０５－３が第２の動画データ１０５－６と同じシーンのフレーム画像となることによって、第１の動画データ１０５－３に含まれる対象によって生成された第１の教師データ１０５－４によって学習した第１のモデル１０５－５を使用して、第２の動画データ１０５－６から物体認識を行う際、シーンが学習時と同じなので物体認識精度を高めることができる。また、第２の動画データ１０５－６が第３の動画データ１０５－９と同じシーンのフレーム画像となることによって、第２の動画データ１０５－６に含まれる対象によって生成された第２の教師データ１０５－７によって学習した第２のモデル１０５－８を使用して、第３の動画データ１０５－９から物体認識を行う際、シーンが同じなので物体認識精度を高めることができる。

選択部１０６－２が動画データ１０５－２から第１の動画データ１０５－３、第２の動画データ１０５－６、および、第３の動画データ１０５－９を生成する方法は、上述した例に限定されない。例えば、選択部１０６－２は、以下のような方法によって、第１の動画データ１０５－３、第２の動画データ１０５－６、および、第３の動画データ１０５－９を生成してもよい。

＜選択部１０６－２の例３＞
選択部１０６－２は、第１の動画データ１０５－２を構成する複数のフレーム画像、および、第２の動画データ１０５－６を構成する複数のフレーム画像を、それぞれ動画データ１０５からランダムに選択する。
＜選択部１０６－２の例４＞
選択部１０６－２は、動画データ１０５－２を時間軸に沿って、連続する１０枚程度の第１の動画データ１０５－３と、連続する４０枚程度の第２の動画データ１０５－６と、残りの第３の動画データ１０５－９とに機械的に分割する。
＜選択部１０６－２の例５＞
選択部１０６－２は、動画データ１０５－２からｒ（ｒは２以上の正の整数。例えばｒ＝５）おきに選択した１０枚程度のフレーム画像を第１の動画データ１０５－３とし、４０枚程度のフレーム画像を第２の動画データ１０５－６とし、残りのフレーム画像を第３の動画データ１０５－９とする。
＜選択部１０６－２の例６＞
選択部１０６－２は、動画データ１０５－２を構成するフレーム画像のイメージを画面表示部１０４に表示し、操作入力部１０３を通じてユーザから選択されたフレーム画像を、第１の動画データ１０５－３とする。ユーザは、学習に効果のありそうなフレーム画像を第１の動画データ１０５－３として選択する。あるいはユーザは、ラベル付けする対象毎に、その対象が含まれるフレーム画像を１枚あるいは数枚、第１の動画データ１０５－３として選択する。
＜選択部１０６－２の例７＞
選択部１０６－２は、動画データ１０５－２をラベル付けする対象毎にクラスタリングし、各クラスタから代表のフレーム画像を第１の動画データ１０５－３として選択する。
＜選択部１０６－２の例８＞
選択部１０６－２は、動画データ１０５－２から、ラベル付けする対象がより多く含まれるフレーム画像を所定枚数だけ第１の動画データ１０５－３として選択する。
＜選択部１０６－２の例９＞
選択部１０６－２は、動画データ１０５－２から、オクルージョンの少ないフレーム画像を所定枚数だけ第１の動画データとして選択する。
＜選択部１０６－２の例１０＞
選択部１０６－２は、動画データ１０５－２を分割単位間で類似度が増すように複数のフレーム画像群に分割し、複数のフレーム画像群のうちの１つのフレーム画像群を第１の動画データ１０５－３とし、他の１つ以上のフレーム画像群を第２の動画データ１０５－６とし、残りのフレーム画像群を第３の動画データ１０５－９とする。

次に本実施形態の効果を説明する。

本実施形態に係る教師データ生成装置１００によれば、教師データを大量に生成する際の手間と時間を削減することができる。その理由は、ユーザが手動で作成する必要があるのはごく一部の教師データであり、残りの多くの教師データは教師データ生成装置１００がディープラーニングモデルによる推論によって機械的に自動で作成するためである。

図７は、本実施形態の方法によって３００枚のフレーム画像からラベル付けされたデータ（教師データ）を実際に生成した手順と所要時間とを示すフロー図である。図７を参照すると、選択部１０６－２は、３００枚のフレーム画像から構成される動画データ１０５－２を、色情報を用いてｋ－ｍｅａｎｓ法によって１０枚のフレーム画像から構成される第１の動画データ１０５－３、４０枚のフレーム画像から構成される第２の動画データ１０５－６、および、２５０枚のフレーム画像から構成される第３の動画データ１０５－９に分割した。次に、ラベル付けツール１０６－３は、ユーザとの対話型処理によって第１の動画データ１０５－３から第１の教師データ１０５－４を作成した。これに要した時間は３６分であった。次に、学習部１０６－４は、第１の教師データ１０５－４を使用して第１のモデル１０５－５を学習し、生成部１０６－５は、第１のモデル１０５－５を使用して第２の動画データ１０５－６から第２の教師データ１０５－７を生成した。この学習と生成に要した時間は２２分であった。また、この生成時における物体認証精度（ｍＡＰ）は７１．３１パーセントであった。次に、チェックツール１０６－６は、ユーザとの対話型処理によって第２の教師データ１０５－７に対するチェックを行い、チェック済みの第２の教師データ１０５－７を作成した。このチェックに要した時間は５０分であった。次に、学習部１０６－４は、第１の教師データ１０５－４とチェック済みの第２の教師データ１０５－７を使用して第２のモデル１０５－８を学習し、生成部１０６－５は、第２のモデル１０５－８を使用して第３の動画データ１０５－９から第３の教師データ１０５－１０を生成した。この学習と生成に要した時間は１時間４５分であった。また、この生成時における物体認証精度（ｍＡＰ）は９５．０５パーセントであった。最後に、チェックツール１０６－６は、ユーザとの対話型処理によって第３の教師データ１０５－１０に対するチェックを行い、チェック済みの第３の教師データ１０５－１０を作成した。このチェックに要した時間は２時間３０分であった。

従って、３００枚のフレーム画像からラベル付けされたデータ（教師データ）を本実施形態の方法によって生成するのに要した総時間は、上記時間（３６分、２２分、５０分、１時間４５分、２時間３０分）を加算した６時間３分であった。なお、選択部１０６－２によって第１乃至第３の動画データを生成する時間は極めて短いため無視した。これに対して、３００枚のフレーム画像に対してラベル付けツール１０６－３を使用して全て手動でラベル付け作業を行った場合、１８時間を要した。そのため、本実施形態による方法は、人手による方法に比較して、約１／３の処理時間で教師データを作成することができた。

また、図７の第２の教師データ１０５－７の生成時における物体認証精度（ｍＡＰ：７１．３１％）は、図５を参照して説明した色情報を用いたｋ－ｍｅａｎｓ法によってフレーム画像を選択したことによって得られたものである。そのため、ｋ－ｍｅａｎｓ法でなく、図５を参照して説明したランダム選択法によってフレーム画像を選択すると、図７の第２の教師データ１０５－７の生成時における物体認証精度（ｍＡＰ）は、６５．７０％に低下する。そうすると、第２の教師データ１０５－７に対するチェック時間は５０分より増加することになる。このことから理解されるように、第１の動画データ１０５－３を構成するフレーム画像群をｋ－ｍｅａｎｓ法によって選択する構成は、教師データを生成する際の手間と時間の削減に大きく寄与している。

また、本実施形態による方法によれば、動画データ１０５－２のフレーム画像数が閾値より多い場合には動画データ１０５－２を３分割して２回のモデル学習と推論によって教師データを生成するようにしているため、動画データ１０５－２のフレーム画像数に関わらず常に２分割して処理を行う方法と比較して、フレーム画像数が多い場合、教師データを生成する際の手間と時間を削減することができる。以下、この点について図７を参照して説明する。

今、図７において、第１のモデル１０５－５を使用して、第２の動画データ１０５－６の４０枚と第３の動画データ１０５－９の２５０枚との合計２９０枚のフレーム画像から第２の教師データ１０５－７を生成することを考える。以下、この生成方法を２分割方法と記す。２分割方法によれば、本実施形態による方法で必要であった第２のモデルの学習と推論に要した１時間４５分、および、第３の教師データのチェックに要した２時間３０分の合計４時間１５分は不要になる。一方、２分割方法によれば、第２の教師データ１０５－７のデータ量が本実施形態による方法よりも多くなるので、第２の教師データ１０５－７のチェックに要する５０分は増加することになる。本実施形態による方法では、４０枚のフレーム画像から生成された教師データに対して５０分必要となったため、２９０枚のフレーム画像から生成された教師データでは、５０分×（２９０／４０）＝６時間２．５分だけ要すると考えられる。即ち、２分割方法によれば、本実施形態による方法と比較して、第２の教師データのチェックに５時間１２．５分だけ余分に時間がかかることになる。その結果、総時間でみると、２分割方法は、本実施形態による方法と比較して、５時間１２．５分－４時間１５分＝５７．５分だけ余分に時間がかかることになる。

また、本実施形態による方法によれば、動画データ１０５－２のフレーム画像数が閾値より少ない場合には動画データ１０５－２を２分割して１回のモデル学習と推論によって教師データを生成するようにしているため、動画データ１０５－２のフレーム画像数に関わらず常に３分割して処理を行う方法と比較して、フレーム画像数が少ない場合、教師データを生成する際の手間と時間を削減することができる。その理由は、少量のフレーム画像を３分割する方法では、第３の動画データ１０５－９のデータ量が極端に少なくなるため、第２のモデル１０５－８の学習時間がネックとなるためである。

次に、本実施形態の変形例について説明する。

上記実施形態では、選択部１０６－２による分割数の上限は３であったが、分割数の上限を４以上としてもよい。例えば、分割数の上限を４とする場合、図２のステップＳ２～Ｓ５の処理を以下のような処理に変更する。すなわち、選択部１０６－２は、動画データ１０５－２のデータ量を第１の閾値および第２の閾値と比較し、データ量が第１の閾値未満であれば、動画データ１０５－２を第１および第２の動画データに２分割し、データ量が第１の閾値以上、第２の閾値未満であれば、動画データ１０５－２を第１乃至第３の動画データに３分割し、データ量が第２の閾値以上であれば、動画データ１０５－２を第１乃至第４の動画データに４分割する。ここで、データ量は、第１の動画データ、第２の動画データ、第３の動画データ、第４の動画データの順に少ない。

また上記実施形態では、選択部１０６－２による分割数の上限は３であったが、常にデータ量の少ない動画データ１０５－２を扱う構成とする場合、分割数の上限を２に固定するように構成されていてよい。

［第２の実施の形態］
次に、本発明の第２の実施形態について図８を参照して説明する。図８は、本実施形態に係る教師データ生成装置２００のブロック図である。

図８を参照すると、教師データ生成装置２００は、選択手段２０１と第１の生成手段２０２と第１の学習手段２０３と第２の生成手段２０４と第２の学習手段２０５と第３の生成手段２０６とから構成されている。

選択手段２０１は、動画データを構成する複数のフレーム画像のうちの一部の複数のフレーム画像を第１の動画データとして選択し、第１の動画データとして選択されなかった上記動画データを構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第２の動画データとして選択し、第１の動画データおよび第２の動画データとして選択されなかった上記動画データを構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第３の動画データとして選択するように構成されている。選択手段２０１は、図１の選択部１０６－２と同様に構成することができるが、それに限定されない。

第１の生成手段２０２は、上記第１の動画データを構成する複数のフレーム画像から特定の認識対象に係るラベル付けされたデータである第１の教師データを生成するように構成されている。第１の生成手段２０２は、図１のラベル付けツール１０６－３と同様に構成することができるが、それに限定されない。

第１の学習手段２０３は、上記第１の教師データを使用して、特定の認識対象を認識する第１のモデルを学習するように構成されている。第１の学習手段２０３は、図１の学習部１０６－４と同様に構成することができるが、それに限定されない。

第２の生成手段２０４は、上記第１のモデルを使用して、上記第２の動画データを構成する複数のフレーム画像から特定の認識対象に係るラベル付けされたデータである第２の教師データを生成するように構成されている。第２の生成手段２０４は、図１の生成部１０６－５と同様に構成することができるが、それに限定されない。

第２の学習手段２０４は、上記第２の教師データを使用して、特定の認識対象を認識する第２のモデルを学習するように構成されている。第２の学習手段２０４は、図１の学習部１０６－４と同様に構成することができるが、それに限定されない。

第３の生成手段２０６は、上記第２のモデルを使用して、上記第３の動画データを構成する複数のフレーム画像から特定の認識対象に係るラベル付けされたデータである第３の教師データを生成するように構成されている。第３の生成手段２０６は、図１の生成部１０６－５と同様に構成することができるが、それに限定されない。

以上のように構成された教師データ生成装置２００は、以下のように動作する。すなわち、選択手段２０１は、動画データを構成する複数のフレーム画像のうちの一部の複数のフレーム画像を第１の動画データとして選択し、第１の動画データとして選択されなかった上記動画データを構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第２の動画データとして選択し、第１の動画データおよび第２の動画データとして選択されなかった上記動画データを構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第３の動画データとして選択する。次に、第１の生成手段２０２は、上記第１の動画データを構成する複数のフレーム画像から特定の認識対象に係るラベル付けされたデータである第１の教師データを生成する。次に、第１の学習手段２０３は、上記第１の教師データを使用して、特定の認識対象を認識する第１のモデルを学習する。次に、第２の生成手段２０４は、上記第１のモデルを使用して、上記第２の動画データを構成する複数のフレーム画像から特定の認識対象に係るラベル付けされたデータである第２の教師データを生成する。次に、第２の学習手段２０４は、上記第２の教師データを使用して、特定の認識対象を認識する第２のモデルを学習する。次に、第３の生成手段２０６は、上記第２のモデルを使用して、上記第３の動画データを構成する複数のフレーム画像から特定の認識対象に係るラベル付けされたデータである第３の教師データを生成する。

上述したように構成され動作する教師データ生成装置２００によれば、教師データを大量に生成する際の手間と時間を削減することができる。その理由は、ユーザが手動で作成する必要があるのはごく一部の教師データであり、残りの多くの教師データは教師データ生成装置２００が機械的に自動で作成するためである。

以上、上記各実施形態を参照して本発明を説明したが、本発明は、上述した実施形態に限定されるものではない。本発明の構成や詳細には、本発明の範囲内で当業者が理解しうる様々な変更をすることができる。例えば、図１の入力部１０６－１、選択部１０６－２、ラベル付けツール１０６－３、学習部１０６－４、生成部１０６－５、チェックツール１０６－６、出力部１０６－７、および、制御部１０６－８の一部あるいは全部は、クラウド上に設けられたコンピュータによって構成されていてもよい。

本発明は、ディープラーニングによって画像中の物体認識を行うモデルを学習する際に使用する教師データを作成する分野に利用できる。

上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
［付記１］
動画データを構成する複数のフレーム画像のうちの一部の複数のフレーム画像を第１の動画データとして選択し、前記第１の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第２の動画データとして選択し、前記第１の動画データおよび前記第２の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第３の動画データとして選択する選択手段と、
前記第１の動画データを構成する複数のフレーム画像から特定の認識対象に係るラベル付けされたデータである第１の教師データを生成する第１の生成手段と、
前記第１の教師データを使用して、前記特定の認識対象を認識する第１のモデルを学習する第１の学習手段と、
前記第１のモデルを使用して、前記第２の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第２の教師データを生成する第２の生成手段と、
前記第２の教師データを使用して、前記特定の認識対象を認識する第２のモデルを学習する第２の学習手段と、
前記第２のモデルを使用して、前記第３の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第３の教師データを生成する第３の生成手段と、
を含む教師データ生成装置。
［付記２］
前記選択手段は、前記第２の動画データが前記第１の動画データよりもデータ量が多くなるように前記選択を行うように構成されている、
付記１に記載の教師データ生成装置。
［付記３］
前記選択手段は、前記第３の動画データが前記第２の動画データよりもデータ量が多くなるように前記選択を行うように構成されている、
付記１または２に記載の教師データ生成装置。
［付記４］
前記選択手段は、前記動画データを構成する複数のフレーム画像を特定の画像特徴量に基づいて複数のグループにクラスタリングし、前記複数のグループのそれぞれから少なくとも１つのフレーム画像を前記第１の動画データを構成するフレーム画像として抽出するように構成されている、
付記１乃至３の何れかに記載の教師データ生成装置。
［付記５］
前記選択手段は、前記動画データを構成する複数のフレーム画像を特定の画像特徴量に基づいて複数のグループにクラスタリングし、前記複数のグループのそれぞれから少なくとも１つのフレーム画像を前記第２の動画データを構成するフレーム画像として抽出するように構成されている、
付記１乃至４の何れかに記載の教師データ生成装置。
［付記６］
前記選択手段は、前記動画データを構成する複数のフレーム画像を特定の画像特徴量に基づいて複数のグループにクラスタリングし、前記複数のグループのそれぞれから少なくとも１つのフレーム画像を前記第３の動画データを構成するフレーム画像として抽出するように構成されている、
付記１乃至５の何れかに記載の教師データ生成装置。
［付記７］
前記選択手段は、前記動画データのシーンチェンジ点を検出し、前記動画データを構成する複数のフレーム画像を前記検出されたシーンチェンジ点を分割点として複数のグループに分割し、前記複数のグループのそれぞれから少なくとも１つのフレーム画像を前記第１の動画データを構成するフレーム画像として抽出するように構成されている、
付記１乃至３の何れかに記載の教師データ生成装置。
［付記８］
前記選択手段は、前記動画データのシーンチェンジ点を検出し、前記動画データを構成する複数のフレーム画像を前記検出されたシーンチェンジ点を分割点として複数のグループに分割し、前記複数のグループのそれぞれから少なくとも１つのフレーム画像を前記第２の動画データを構成するフレーム画像として抽出するように構成されている、
付記１、２、３または７に記載の教師データ生成装置。
［付記９］
前記選択手段は、前記動画データのシーンチェンジ点を検出し、前記動画データを構成する複数のフレーム画像を前記検出されたシーンチェンジ点を分割点として複数のグループに分割し、前記複数のグループのそれぞれから少なくとも１つのフレーム画像を前記第３の動画データを構成するフレーム画像として抽出するように構成されている、
付記１、２、３、７または８に記載の教師データ生成装置。
［付記１０］
固定されたカメラ位置から固定されたカメラ視野で撮影を行う撮像手段によって撮影されて得られた時系列画像データを前記動画データとして取得する入力手段を、さらに含む、
付記１乃至９の何れかに記載の教師データ生成装置。
［付記１１］
前記選択手段は、前記動画データを構成するフレーム画像の総数に基づいて、前記第１の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部のフレーム画像を前記第２の動画データとして選択するか、一部の複数のフレーム画像を前記第２の動画データとして選択するかを決定するように構成されている、
付記１乃至１０の何れかに記載の教師データ生成装置。
［付記１２］
前記選択手段は、前記動画データを構成するフレーム画像の総数に基づいて、前記第１の動画データおよび前記第２の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部のフレーム画像を前記第３の動画データとして選択するか、一部の複数のフレーム画像を前記第３の動画データとして選択するかを決定するように構成されている、
付記１乃至１１の何れかに記載の教師データ生成装置。
［付記１３］
ユーザとの対話型処理によって前記第２の生成手段によって生成された前記第２の教師データに対する修正を行うチェック手段を、
さらに含む付記１乃至１２の何れかに記載の教師データ生成装置。
［付記１４］
動画データを構成する複数のフレーム画像のうちの一部の複数のフレーム画像を第１の動画データとして選択し、前記第１の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第２の動画データとして選択し、前記第１の動画データおよび前記第２の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第３の動画データとして選択し、
前記第１の動画データを構成する複数のフレーム画像から特定の認識対象に係るラベル付けされたデータである第１の教師データを生成し、
前記第１の教師データを使用して、前記特定の認識対象を認識する第１のモデルを学習し、
前記第１のモデルを使用して、前記第２の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第２の教師データを生成し、
前記第２の教師データを使用して、前記特定の認識対象を認識する第２のモデルを学習し、
前記第２のモデルを使用して、前記第３の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第３の教師データを生成する、
教師データ生成方法。
［付記１５］
前記選択では、前記第２の動画データが前記第１の動画データよりもデータ量が多くなるように前記選択を行うように構成されている、
付記１４に記載の教師データ生成方法。
［付記１６］
前記選択では、前記第３の動画データが前記第２の動画データよりもデータ量が多くなるように前記選択を行うように構成されている、
付記１４または１５に記載の教師データ生成方法。
［付記１７］
前記選択では、前記動画データを構成する複数のフレーム画像を特定の画像特徴量に基づいて複数のグループにクラスタリングし、前記複数のグループのそれぞれから少なくとも１つのフレーム画像を前記第１の動画データを構成するフレーム画像として抽出するように構成されている、
付記１４乃至１６の何れかに記載の教師データ生成方法。
［付記１８］
前記選択では、前記動画データを構成する複数のフレーム画像を特定の画像特徴量に基づいて複数のグループにクラスタリングし、前記複数のグループのそれぞれから少なくとも１つのフレーム画像を前記第２の動画データを構成するフレーム画像として抽出するように構成されている、
付記１４乃至１７の何れかに記載の教師データ生成方法。
［付記１９］
前記選択では、前記動画データを構成する複数のフレーム画像を特定の画像特徴量に基づいて複数のグループにクラスタリングし、前記複数のグループのそれぞれから少なくとも１つのフレーム画像を前記第３の動画データを構成するフレーム画像として抽出するように構成されている、
付記１４乃至１８の何れかに記載の教師データ生成方法。
［付記２０］
前記選択では、前記動画データのシーンチェンジ点を検出し、前記動画データを構成する複数のフレーム画像を前記検出されたシーンチェンジ点を分割点として複数のグループに分割し、前記複数のグループのそれぞれから少なくとも１つのフレーム画像を前記第１の動画データを構成するフレーム画像として抽出するように構成されている、
付記１４乃至１６の何れかに記載の教師データ生成方法。
［付記２１］
前記選択では、前記動画データのシーンチェンジ点を検出し、前記動画データを構成する複数のフレーム画像を前記検出されたシーンチェンジ点を分割点として複数のグループに分割し、前記複数のグループのそれぞれから少なくとも１つのフレーム画像を前記第２の動画データを構成するフレーム画像として抽出するように構成されている、
付記１４、１５、１６または２０に記載の教師データ生成方法。
［付記２２］
前記選択では、前記動画データのシーンチェンジ点を検出し、前記動画データを構成する複数のフレーム画像を前記検出されたシーンチェンジ点を分割点として複数のグループに分割し、前記複数のグループのそれぞれから少なくとも１つのフレーム画像を前記第３の動画データを構成するフレーム画像として抽出するように構成されている、
付記１４、１５、１６、２０または２１に記載の教師データ生成方法。
［付記２３］
固定されたカメラ位置から固定されたカメラ視野で撮影を行う撮像手段によって撮影されて得られた時系列画像データを前記動画データとして取得する、
付記１４乃至２２の何れかに記載の教師データ生成方法。
［付記２４］
前記選択では、前記動画データを構成するフレーム画像の総数に基づいて、前記第１の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部のフレーム画像を前記第２の動画データとして選択するか、一部の複数のフレーム画像を前記第２の動画データとして選択するかを決定する、
付記１４乃至２３の何れかに記載の教師データ生成方法。
［付記２５］
前記選択では、前記動画データを構成するフレーム画像の総数に基づいて、前記第１の動画データおよび前記第２の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部のフレーム画像を前記第３の動画データとして選択するか、一部の複数のフレーム画像を前記第３の動画データとして選択するかを決定する、
付記１４乃至２４の何れかに記載の教師データ生成方法。
［付記２６］
ユーザとの対話型処理によって前記第２の教師データに対する修正を行う、
付記１４乃至２５の何れかに記載の教師データ生成方法。
［付記２７］
コンピュータに、
動画データを構成する複数のフレーム画像のうちの一部の複数のフレーム画像を第１の動画データとして選択し、前記第１の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第２の動画データとして選択し、前記第１の動画データおよび前記第２の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第３の動画データとして選択する処理と、
前記第１の動画データを構成する複数のフレーム画像から特定の認識対象に係るラベル付けされたデータである第１の教師データを生成する処理と、
前記第１の教師データを使用して、前記特定の認識対象を認識する第１のモデルを学習する処理と、
前記第１のモデルを使用して、前記第２の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第２の教師データを生成する処理と、
前記第２の教師データを使用して、前記特定の認識対象を認識する第２のモデルを学習する処理と、
前記第２のモデルを使用して、前記第３の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第３の教師データを生成する処理と、
を行わせるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。

１００教師データ生成装置
１０１カメラＩ／Ｆ部
１０２通信Ｉ／Ｆ部
１０３操作入力部
１０４画面表示部
１０５記憶部
１０５－１プログラム
１０５－２動画データ
１０５－３第１の動画データ
１０５－４第１の教師データ
１０５－５第１のモデル
１０５－６第２の動画データ
１０５－７第２の教師データ
１０５－８第２のモデル
１０５－９第３の動画データ
１０５－１０第３の教師データ
１０６演算処理部
１０６－１入力部
１０６－２選択部
１０６－３ラベル付けツール
１０６－４学習部
１０６－５生成部
１０６－６チェックツール
１０６－７出力部
１０６－８制御部
２００教師データ生成装置
２０１選択手段
２０２第１の生成手段
２０３第１の学習手段
２０４第２の生成手段
２０５第２の学習手段
２０６第３の生成手段

Claims

動画データを構成する複数のフレーム画像を特定の画像特徴量に基づいて複数のグループにクラスタリングし、前記複数のグループのそれぞれから、一部のフレーム画像を第１の動画データとして選択し、
前記第１の動画データとして選択されなかった前記複数のフレーム画像の全部または一部を、前記複数のグループのそれぞれから、第２の動画データとして選択し、
前記複数のフレーム画像の一部が、前記第２の動画データとして選択された場合に、前記第１の動画データおよび前記第２の動画データとして選択されなかった前記複数のフレーム画像の全部または一部を、前記複数のグループのそれぞれから、第３の動画データとして選択する選択手段と、
前記第１の動画データを構成する複数のフレーム画像から特定の認識対象に係るラベル付けされたデータである第１の教師データを生成する第１の生成手段と、
前記第１の教師データを使用して、前記特定の認識対象を認識する第１のモデルを学習する第１の学習手段と、
前記第１のモデルを使用して、前記第２の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第２の教師データを生成する第２の生成手段と、
前記第２の教師データを使用して、前記特定の認識対象を認識する第２のモデルを学習する第２の学習手段と、
前記第３の動画データが選択されている場合に、前記第２のモデルを使用して、前記第３の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第３の教師データを生成する第３の生成手段と、
を含む教師データ生成装置。
前記選択手段は、前記第２の動画データが前記第１の動画データよりもデータ量が多くなるように前記選択を行い、前記第３の動画データが前記第２の動画データよりもデータ量が多くなるように前記選択を行うように構成されている、
請求項１に記載の教師データ生成装置。
前記選択手段は、前記動画データのシーンチェンジ点を検出し、前記動画データを構成する複数のフレーム画像を前記検出されたシーンチェンジ点を分割点として複数のグループに分割し、前記複数のグループのそれぞれから、少なくとも１つのフレーム画像を前記第１の動画データを構成するフレーム画像として抽出し、少なくとも１つのフレーム画像を前記第２の動画データを構成するフレーム画像として抽出し、少なくとも１つのフレーム画像を前記第３の動画データを構成するフレーム画像として抽出するように構成されている、
請求項１乃至２の何れかに記載の教師データ生成装置。
固定されたカメラ位置から固定されたカメラ視野で撮影を行う撮像手段によって撮影されて得られた時系列画像データを前記動画データとして取得する入力手段を、さらに含む、
請求項１乃至３の何れかに記載の教師データ生成装置。
前記選択手段は、前記動画データを構成するフレーム画像の総数に基づいて、前記第１の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部のフレーム画像を前記第２の動画データとして選択するか、一部の複数のフレーム画像を前記第２の動画データとして選択するかを決定するように構成されている、
請求項１乃至４の何れかに記載の教師データ生成装置。
前記選択手段は、前記動画データを構成するフレーム画像の総数に基づいて、前記第１の動画データおよび前記第２の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部のフレーム画像を前記第３の動画データとして選択するか、一部の複数のフレーム画像を前記第３の動画データとして選択するかを決定するように構成されている、
請求項１乃至５の何れかに記載の教師データ生成装置。
ユーザとの対話型処理によって前記第２の生成手段によって生成された前記第２の教師データに対する修正を行うチェック手段を、
さらに含む請求項１乃至６の何れかに記載の教師データ生成装置。
動画データを構成する複数のフレーム画像を複数のグループにクラスタリングし、前記複数のグループのそれぞれから、少なくとも一つのフレーム画像を第１の動画データとして選択し、
前記第１の動画データとして選択されなかった前記複数のフレーム画像の全部または一部を、前記複数のグループのそれぞれから、第２の動画データとして選択し、
前記複数のフレーム画像の一部が、前記第２の動画データとして選択された場合に、前記第１の動画データおよび前記第２の動画データとして選択されなかった前記複数のフレーム画像の全部または一部を、前記複数のグループのそれぞれから、第３の動画データとして選択し、
前記第１の動画データを構成する複数のフレーム画像から特定の認識対象に係るラベル付けされたデータである第１の教師データを生成し、
前記第１の教師データを使用して、前記特定の認識対象を認識する第１のモデルを学習し、
前記第１のモデルを使用して、前記第２の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第２の教師データを生成し、
前記第２の教師データを使用して、前記特定の認識対象を認識する第２のモデルを学習し、
前記第３の動画データが選択されている場合に、前記第２のモデルを使用して、前記第３の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第３の教師データを生成する、
教師データ生成方法。
コンピュータに、
動画データを構成する複数のフレーム画像を複数のグループにクラスタリングし、前記複数のグループのそれぞれから、少なくとも一つのフレーム画像を第１の動画データとして選択する処理と、
前記第１の動画データとして選択されなかった前記複数のフレーム画像の全部または一部を、前記複数のグループのそれぞれから、第２の動画データとして選択する処理と、
前記複数のフレーム画像の一部が、前記第２の動画データとして選択された場合に、前記第１の動画データおよび前記第２の動画データとして選択されなかった前記複数のフレーム画像の全部または一部を、前記複数のグループのそれぞれから、第３の動画データとして選択する処理と、
前記第１の動画データを構成する複数のフレーム画像から特定の認識対象に係るラベル付けされたデータである第１の教師データを生成する処理と、
前記第１の教師データを使用して、前記特定の認識対象を認識する第１のモデルを学習する処理と、
前記第１のモデルを使用して、前記第２の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第２の教師データを生成する処理と、
前記第２の教師データを使用して、前記特定の認識対象を認識する第２のモデルを学習する処理と、
前記第３の動画データが選択されている場合に、前記第２のモデルを使用して、前記第３の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第３の教師データを生成する処理と、
を行わせるためのプログラム。