JP2018200531A

JP2018200531A - 教師データ生成装置、教師データ生成方法、教師データ生成プログラム、及び物体検出システム

Info

Publication number: JP2018200531A
Application number: JP2017104493A
Authority: JP
Inventors: 直幸津野; Naoyuki Tsuno; 廣岡野; Hiroshi Okano
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-05-26
Filing date: 2017-05-26
Publication date: 2018-12-20
Anticipated expiration: 2037-05-26
Also published as: US20180342077A1; JP6974697B2

Abstract

【課題】教師データを生成する手間と時間を削減することができる教師データ生成装置等の提供。
【解決手段】特定の識別対象の物体検出を行う際に用いられる教師データを生成する教師データ生成装置において、前記特定の識別対象を含む基準データを用いて物体認識手法により学習を行い、前記特定の識別対象の識別モデルを作成する識別モデル作成部と、作成された前記識別モデルを用いて、前記特定の識別対象を含む動画データから物体認識手法により推論を行い、前記特定の識別対象を検出し、前記特定の識別対象の教師データを生成する教師データ生成部と、を有する教師データ生成装置である。
【選択図】図６

Description

本発明は、教師データ生成装置、教師データ生成方法、教師データ生成プログラム、及び物体検出システムに関する。

近年、画像に映った識別対象の物体検出を行うためにディープラーニング（ｄｅｅｐｌｅａｒｎｉｎｇ；深層学習）が使用されている。このディープラーニングによる物体認識手法としては、例えば、ＦａｓｔｅｒＲ−ＣＮＮ（Ｒｅｇｉｏｎｓ−ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）（例えば、非特許文献１参照）などが挙げられる。また、ＳＳＤ（ＳｉｎｇｌｅＳｈｏｔｍｕｌｔｉｂｏｘＤｅｔｅｃｔｏｒ）（例えば、非特許文献２参照）などが挙げられる。

ディープラーニングによる物体認識手法では、識別対象を予め決定し定義しておく必要がある。また、ディープラーニングでは汎化させるため、一般的に、識別対象１種類につき１,０００枚程度以上の教師データを用意することが必要とされている。

教師データの画像の作成には、識別対象が映っている静止画を収集する方法と、識別対象が映っている動画データから静止画データを抽出することにより、動画データを静止画データに画像変換する方法とがある。これらの中でも、大量の静止画を取得する際の手間と時間の点から、動画データを静止画データに画像変換する方法が好適である。
得られた静止画に映っている識別対象のリージョンを切り出し、切り出した静止画にラベルを付加するか、またはリージョンとラベルを有する情報ファイルを作成し、この情報ファイルと静止画を組み合わせることにより、教師データが生成されている。

従来は、識別対象毎に動画データを静止画データに変換する画像変換処理、及び静止画にリージョンやラベルを付加する情報付加処理をすべて作業者が手作業で行っており、教師データの生成には非常に大きな手間と時間がかかっていた。

そのため、例えば、物体検出システムの学習フェーズにおいて作成したモデルに入力するデータを、検出フェーズにおいて増やすことにより学習用画像へのラベル付与の手間を削減できる方法が提案されている（例えば、特許文献１参照）。
また、汎用の物体識別器の認識結果から、予め準備してある個別物体識別器を選択して使用し認識精度を向上させることにより、動画にラベルを付与する手間を削減できる方法が提案されている（例えば、特許文献２参照）。
また、ディープラーニングによる物体認識手法であるＲ−ＣＮＮ（Ｒｅｇｉｏｎｓ−ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）などにおいて、物体を検出したい画像領域のサイズや縦横比を考慮しなくてもすむように、必要なサイズに画像領域を合わせ込む手法が報告されている（例えば、非特許文献３参照）。

特開２０１６−６２５２４号公報特開２０１３−１２１６３号公報

Ｓ．Ｒｅｎ，Ｋ．Ｈｅ，Ｒ．Ｇｉｒｓｈｉｃｋ，ａｎｄＪ．Ｓｕｎ，"ＦａｓｔｅｒＲ−ＣＮＮ：ＴｏｗａｒｄｓＲｅａｌ−ＴｉｍｅＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎｗｉｔｈＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋｓ"，Ｊａｎｕａｒｙ６，２０１６，［ｏｎｌｉｎｅ］，＜ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ．／ｐｄｆ／１５０６．０１４９７．ｐｄｆ＞Ｗ．Ｌｉｕ，Ｄ．Ａｎｇｕｅｌｏｖ，Ｄ．Ｅｒｈａｎ，Ｃ．Ｓｚｅｇｅｄｙ，ａｎｄＳ．Ｅ．Ｒｅｅｄ，"ＳＳＤ：ＳｉｎｇｌｅＳｈｏｔＭｕｌｔｉｂｏｘＤｅｔｅｃｔｏｒ"，Ｄｅｃｅｍｂｅｒ２９，２０１６，［ｏｎｌｉｎｅ］，＜ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ．／ｐｄｆ／１５１２．０２３２５．ｐｄｆ＞Ｙ．Ｊｉａ，Ｅ．Ｓｈｅｌｈａｍｅｒ，Ｊ．Ｄｏｎａｈｕｅ，Ｓ．Ｋａｒａｙｅｖ，Ｊ．Ｌｏｎｇ，Ｒ．Ｇｉｒｓｈｉｃｋ，Ｓ．ＧｕａｄａｒｒａｍａａｎｄＴ．Ｄａｒｒｅｌｌ，"Ｃａｆｆｅ：ＣｏｎｖｏｌｕｔｉｏｎａｌＡｒｃｈｉｔｅｃｔｕｒｅｆｏｒＦａｓｔＦｅａｔｕｒｅＥｍｂｅｄｄｉｎｇ"，Ｊｕｎｅ２０，２０１４，［ｏｎｌｉｎｅ］，＜ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ．／ｐｄｆ／１４０８．５０９３．ｐｄｆ＞

前述の非特許文献３の記載によれば、前述の特許文献１に記載の発明における課題は解決できるが、その上で、さらなる検出精度の向上が求められており、その手段の一つとして教師データを増やすことが必要となる。しかし、前述の特許文献１に記載の発明では、教師データを生成することができないので、教師データ自体を増やすための手間と時間を削減できないという課題がある。

また、前述の特許文献２に記載の発明においても、教師データを生成することができないので、教師データ自体を増やすための手間と時間を削減できない。さらに、前述の特許文献２に記載の発明では、個別物体識別器が複数必要になるため、画像認識装置の構成の複雑化や複数の個別物体識別器が各々使用するデータ格納領域が増大してしまうという課題がある。

一つの側面では、教師データを生成する手間と時間を削減することができる教師データ生成装置、教師データ生成方法、教師データ生成プログラム、及び物体検出システムを提供することを目的とする。

一つの実施態様では、特定の識別対象の物体検出を行う際に用いられる教師データを生成する教師データ生成装置において、
特定の識別対象を含む基準データを用いて物体認識手法により学習を行い、特定の識別対象の識別モデルを作成する識別モデル作成部と、
作成された識別モデルを用いて、特定の識別対象を含む動画データから物体認識手法により推論を行い、特定の識別対象を検出し、特定の識別対象の教師データを生成する教師データ生成部と、を有する教師データ生成装置である。

一つの側面では、教師データを生成する手間と時間を削減することができる教師データ生成装置、教師データ生成方法、教師データ生成プログラム、及び物体検出システムを提供することができる。

図１は、本発明の教師データ生成装置のハードウェア構成の一例を示す図である。図２は、本発明の教師データ生成装置全体の一例を示すブロック図である。図３は、本発明の教師データ生成装置全体の処理の流れの一例を示すフローチャートである。図４は、従来の教師データ生成装置の一例を示すブロック図である。図５は、従来の教師データ生成装置の他の一例を示すブロック図である。図６は、実施例１の教師データ生成装置全体における各部の処理の一例を示すブロック図である。図７は、実施例１の教師データ生成装置全体における各部の処理の流れの一例を示すフローチャートである。図８は、実施例１の教師データ生成装置の識別モデル作成部における基準データのＸＭＬファイルのラベルの一例を示す図である。図９は、図８のラベルを定義したｐｙｔｈｏｎのｉｍｐｏｒｔファイルの一例を示す図である。図１０は、図９のｐｙｔｈｏｎのｉｍｐｏｒｔファイルをＦａｓｔｅｒＲ−ＣＮＮで参照できるように構成した一例を示す図である。図１１は、実施例２の教師データ生成装置全体における各部の処理の一例を示すブロック図である。図１２は、実施例２の教師データ生成装置全体における各部の処理の流れの一例を示すフローチャートである。図１３は、実施例２の動画データテーブルの一例を示す図である。図１４は、実施例３の教師データ生成装置全体における各部の処理の一例を示すブロック図である。図１５は、実施例３の教師データ生成装置全体における各部の処理の流れの一例を示すフローチャートである。図１６は、本発明の物体検出システム全体の一例を示すブロック図である。図１７は、本発明の物体検出システム全体の処理の流れの一例を示すフローチャートである。図１８は、本発明の物体検出システム全体の他の一例を示すブロック図である。図１９は、本発明の物体検出システムにおける学習部全体の一例を示すブロック図である。図２０は、本発明の物体検出システムにおける学習部全体の他の一例を示すブロック図である。図２１は、本発明の物体検出システムにおける学習部全体の処理の流れの一例を示すフローチャートである。図２２は、本発明の物体検出システムにおける推論部全体の一例を示すブロック図である。図２３は、本発明の物体検出システムにおける推論部全体の他の一例を示すブロック図である。図２４は、本発明の物体検出システムにおける推論部全体の処理の流れの一例を示すフローチャートである。

以下、本発明の一実施形態について説明するが、本発明は、これらの実施形態に何ら限定されるものではない。

（教師データ生成装置）
本発明の教師データ生成装置は、特定の識別対象の物体検出を行うための教師データを生成する教師データ生成装置において、識別モデル作成部と、教師データ生成部と、を有し、基準データ作成部及び選択部を有することが好ましく、さらに必要に応じてその他の部を有する。

＜基準データ作成部＞
基準データ作成部は、特定の識別対象を含む動画データを複数の静止画データに変換し、得られた複数の静止画データから切り出した特定の識別対象のリージョンにラベルを付加して特定の識別対象を含む基準データを作成する。

「特定の認識対象」とは、認識したい特定の対象を意味する。特定の認識対象としては、特に制限はなく、目的に応じて適宜選択することができ、例えば、各種画像、図形、文字等の人間の視覚により検知できるものなどが挙げられる。
各種画像としては、例えば、人間の顔、動物（鳥、犬、猫、猿、熊、パンダ等）、果物（イチゴ、リンゴ、ミカン、ぶどう等）、汽車、電車、自動車（バス、トラック、自家用車等）、船、飛行機などが挙げられる。

「特定の識別対象を含む基準データ」としては、１種類または少数種の特定の識別対象を含む基準データであり、１種類〜３種類の特定の識別対象を含む基準データであることが好ましく、１種類の特定の識別対象を含む基準データであることがより好ましい。特定の識別対象が１種類の場合、識別対象であるかどうかを判別すればよく、複数種類の識別対象のうちのどの識別対象であるかを識別する必要がなく、他の種類を誤って認識する事象が減少するため、従来に比べて少数の基準データで足りる。
具体的には、１種類の特定の動物（例えば、パンダ）しか映っていない動画データを用いると、１種類の特定の動物（例えば、パンダ）以外の動物に誤って認識することはなく、少数の基準データから１種類の特定の動物（例えば、パンダ）の多数の教師データを生成することができる。

そこで、１種類または少数種の特定の識別対象を含む少数の基準データから識別モデルを作成し、この作成した識別モデルを用いて、動画データから特定の識別対象を検出することにより、特定の識別対象に関する教師データを多数生成することができる。その結果、教師データを増やすために必要な手間と時間を大幅に減らすことができる。
識別モデルは、上記の特定の識別対象の検出に用いられる。このような識別モデルを用いることにより、特定の識別対象ではない物体を認識してしまう誤認識を減らすことができる。

また、特定の識別対象の品種を絞って品種毎に１つまたは少数の基準データを作成し、これらの基準データを用いて品種毎に識別モデルを作成する。その後、品種毎に教師データを生成し、生成した各品種の教師データを用いて学習させることにより、汎用の識別モデルを作成することができる。
また、柴犬、秋田犬、マルチーズ、チワワ、ブルドッグ、トイプードル、ドーベルマン等の犬の種別毎に分けて、犬の種別毎の基準データを作成する。これらの犬の種別毎の１つまたは少数の基準データを用いて犬の種別毎に識別モデルをそれぞれ作成する。作成した識別モデルを用いて複数の犬の種別毎の教師データを生成する。次に、生成した複数の犬の種別毎の教師データを集めて、作成した識別モデルのラベルを犬に変えることで、犬の教師データを作成することができる。

「リージョン」とは、識別対象を矩形などで囲った領域を意味する。
「ラベル」とは、対象を示したり、識別または分類するために付けられた名前（文字列）を意味する。

＜識別モデル作成部＞
識別モデル作成部は、特定の識別対象を含む基準データを用いて物体認識手法により学習を行い、特定の識別対象の識別モデルを作成する。

物体認識手法としては、ディープラーニングによる物体認識手法により行われることが好ましい。ディープラーニングは、人間の脳のニューロンを模した多層構造のニューラルネットワーク（ディープニューラルネットワーク）を用いた機械学習手法の一種であり、データの特徴を自動的に学習できる手法である。

ディープラーニングによる物体認識手法としては、特に制限はなく、公知のものから適宜選択することができ、例えば、以下のものが挙げられる。
（１）Ｒ−ＣＮＮ（Ｒｅｇｉｏｎ−ｂａｓｅｄＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌｎｅｔｗｏｒｋ）
Ｒ−ＣＮＮのアルゴリズムは、物体らしさ（Ｏｂｊｅｃｔｎｅｓｓ）を見つける既存手法（ＳｅｌｅｃｔｉｖｅＳｅａｒｃｈ）を用いて、画像から物体候補（ＲｅｇｉｏｎＰｒｏｐｏｓａｌｓ）を２,０００個程度探す手法である。
次に、物体候補の領域画像を全て一定の大きさにリサイズして畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ；ＣＮＮ）にかけて特徴を取り出す。次に、取り出した特徴を用いて複数のＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）により学習し、カテゴリ識別、及び回帰（ｒｅｇｒｅｓｓｉｏｎ）によってバウンディングボックス（物体を囲う正確な位置）を推定する。最後に、矩形の座標を回帰することで候補領域の位置を補正する。
Ｒ−ＣＮＮは、抽出された候補領域について、それぞれ特徴量の計算を行うため、検出処理に時間がかかる。

（２）ＳＰＰｎｅｔ（ＳｐａｔｉａｌＰｙｒａｍｉｄＰｏｏｌｉｎｇｎｅｔ）
ＳＰＰｎｅｔは、ＳｐａｔｉａｌＰｙｒａｍｉｄＰｏｏｌｉｎｇ（ＳＰＰ）という手法を用いることにより、畳み込みニューラルネットワーク（ＣＮＮ）で畳み込んだ最終層の特徴地図を縦横可変サイズで取り扱うことができる。
ＳＰＰｎｅｔは、画像１枚から大きな特徴地図を作成した後、物体候補（ＲｅｇｉｏｎＰｒｏｐｏｓａｌｓ）の領域の特徴をＳＰＰでベクトル化することにより、Ｒ−ＣＮＮに比べて高速化を達成できる。

（３）ＦａｓｔＲ−ＣＮＮ（ＦａｓｔＲｅｇｉｏｎ−ｂａｓｅｄＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌｎｅｔｗｏｒｋ）
ＦａｓｔＲ−ＣＮＮは、関心が有る領域層（ＲｏＩｐｏｏｌｉｎｇｌａｙｅｒ）という、ＳＰＰのピラミッド構造を取り除いたシンプルな幅可変プーリングを行う。
ＦａｓｔＲ−ＣＮＮは、分類（ｃｌａｓｓｉｆｉｃａｔｉｏｎ）とバウンディングボックス回帰（ｂｏｕｎｄｉｎｇｂｏｘｒｅｇｒｅｓｓｉｏｎ）とを同時に学習させるためのマルチタスクロスにより１回で学習できるようにする。また、オンラインで教師データを生成する工夫を行っている。
ＦａｓｔＲ−ＣＮＮは、マルチタスクロスの導入により、誤差逆伝播法（バックプロパゲーション）が全層に適用できるようになるため、全ての層の学習が可能である。
ＦａｓｔＲ−ＣＮＮは、Ｒ−ＣＮＮ及びＳＰＰｎｅｔよりも高精度な物体検出を実現できる。

（４）ＦａｓｔｅｒＲ−ＣＮＮ（Ｒｅｇｉｏｎ−ｂａｓｅｄＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌｎｅｔｗｏｒｋ）
ＦａｓｔｅｒＲ−ＣＮＮは、領域提案ネットワーク（ＲＰＮ；ｒｅａｇｉｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋ）という物体候補領域を推定するネットワーク、及び関心が有るある領域（関心領域：ＲｅｇｉｏｎｓｏｆＩｎｔｅｒｅｓｔ；ＲｏＩ）のプーリングにクラス推定を行うことにより、エンドツーエンド（ｅｎｄｔｏｅｎｄ）で学習できるアーキテクチャを実現できる。
領域提案ネットワーク（ＲＰＮ）は、物体候補を出力するために、物体か否かを表すスコアと物体の領域との２つを同時に出力するように設計されている。
画像全体の特徴から、予め決められたｋ個の固定枠を用いて特徴を抽出し、領域提案ネットワーク（ＲＰＮ）の入力とすることで、各場所において物体候補とすべきか否かを推定する。
ＦａｓｔｅｒＲ−ＣＮＮは、物体候補として推定された出力枠（ｒｅｇｌａｙｅｒ）の範囲を、ＦａｓｔＲ−ＣＮＮと同様に関心が有る領域にプーリング（ＲｏＩＰｏｏｌｉｎｇ）し、クラス識別用のネットワークの入力とすることで、最終的な物体検出を実現できる。
ＦａｓｔｅｒＲ−ＣＮＮは、物体候補検出がディープ化されたことで、既存手法（ＳｅｌｅｃｔｉｖｅＳｅａｒｃｈ）よりも物体候補が高精度化し、かつ物体候補数が少なくなり、ＧＰＵ上で５ｆｐｓの実行速度（ＶＧＧのネットワークを利用）を達成できる。また、識別精度もＦａｓｔＲ−ＣＮＮより高精度化している。

（５）ＹＯＬＯ（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ）
ＹＯＬＯは、予め画像全体をグリッド分割しておき、分割した領域ごとに物体のクラスとバウンディングボックス（物体を囲う正確な位置）を求める方法である。
畳み込みニューラルネットワーク（ＣＮＮ）のアーキテクチャがシンプルになったため、ＦａｓｔｅｒＲ−ＣＮＮと比べると識別精度は少し劣るが、良好な検出速度を達成できる。
ＹＯＬＯは、スライディングウィンドウ（ＳｌｉｄｉｎｇＷｉｎｄｏｗ）や物体候補（ＲｅｇｉｏｎＰｒｏｐｏｓａｌｓ）を使った手法と異なり、１枚の画像の全ての範囲を学習時に利用するため、周辺のコンテクストも同時に学習することができる。これにより、背景の誤検出を抑制できる。なお、背景の誤検出はＦａｓｔＲ−ＣＮＮの約半分に抑えることができる。

（６）ＳＳＤ（ＳｉｎｇｌｅＳｈｏｔｍｕｌｔｉｂｏｘＤｅｔｅｃｔｏｒ）
ＳＳＤは、ＹＯＬＯのアルゴリズムと同じような系統のアルゴリズムであり、様々な階層の出力層からマルチスケールな検出枠を出力できるように工夫されている。
ＳＳＤは、最先端（ｓｔａｔｅｏｆｔｈｅａｒｔ）の検出速度のアルゴリズム（ＹＯＬＯ）より高速であり、ＦａｓｔｅｒＲ−ＣＮＮと同等の精度を実現するアルゴリズムである。また、小さなフィルタサイズの畳み込みニューラルネットワーク（ＣＮＮ）を特徴地図に適応することにより、物体のカテゴリと位置を推定できる。また、様々なスケールの特徴地図を利用し、アスペクト比ごとに識別することにより、高い精度の検出率を達成できる。さらに、比較的低解像度でも高精度に検出できるエンドツーエンド（ｅｎｄｔｏｅｎｄ）に学習可能なアルゴリズムである。
ＳＳＤは、異なる階層から特徴地図を使い、比較的小さなサイズの物体も検出できるため、入力画像サイズを小さくしても、精度が得られるため、高速化が可能である。

＜教師データ生成部＞
教師データ生成部は、作成された識別モデルを用いて、特定の識別対象を含む動画データから物体認識手法により推論を行い、特定の識別対象を検出し、特定の識別対象の教師データを生成する。
推論については、上述したディープラーニングによる物体認識手法を用いることができる。

教師データとは、教師ありディープラーニングで用いられる「入力データ」と「正解ラベル」とのペアである。「入力データ」を多数のパラメータを有するニューラルネットワークに入力することでディープラーニング学習を実施し、推論ラベルと正解ラベルとの差（学習中重み）を更新し、学習済み重みを求める。したがって、教師データの形態は、学習したい問題（以下、「タスク」と称することもある）に依存する。いくつかの教師データの例を下記の表１に挙げる。

＜選択部＞
選択部は、生成された特定の識別対象の教師データから、任意の教師データを選択する。
選択部においては、深層学習処理にとって有用な教師データとなるように、例えば、フォーマットの変換、認識する部分の補正、ズレの補正、大きさの補正や教師データとして有用でないデータの除外などを行う。

以下に、本発明の実施例について図面を用いて具体的に説明するが、本発明は、この実施例に何ら限定されるものではない。

（実施例１）
図１は、教師データ生成装置のハードウェア構成の一例を示す図である。この図１の教師データ生成装置６０の後述する外部記憶装置９５には、教師データ生成プログラムが記録されており、後述のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９１が当該プログラムを読出して実行することにより、後述の基準データ作成部６１、識別モデル作成部８１、教師データ生成部８２、及び選択部８３として動作する。

この図１の教師データ生成装置６０は、バス９８により互いに接続される、ＣＰＵ９１、メモリ９２、外部記憶装置９５、接続部９７、及び媒体駆動部９６を備え、入力部９３及び出力部９４が接続される。

ＣＰＵ９１は、外部記憶装置９５などに格納された基準データ作成部６１、識別モデル作成部８１、教師データ生成部８２、及び選択部８３の各種プログラムを実行するユニットである。

メモリ９２は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、フラッシュメモリやＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等を含み、教師データ生成装置６０を構成する各処理のプログラムとデータが格納される。

外部記憶装置９５としては、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置などが挙げられる。この外部記憶装置９５に上述の各処理のプログラムとデータを保存しておき、必要に応じて、これらをメモリ９２にロードして使用することもできる。

接続部９７としては、例えば、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）等の任意のネットワーク（回線、あるいは伝送媒体）を介して外部の装置に通信し、通信に伴うデータ変換を行う装置などが挙げられる。

媒体駆動部９６は、可搬記録媒体９９を駆動し、その記録内容にアクセスする。
可搬記録媒体９９としては、例えば、メモリカード、フロッピー（登録商標）ディスク、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、光ディスク、光磁気ディスク等の任意のコンピュータ読み取り可能な記録媒体などが挙げられる。この可搬記録媒体９９に上述の各処理のプログラムとデータを格納しておき、必要に応じて、それらをメモリ９２にロードして使用することもできる。

入力部９３としては、例えば、キーボード、マウス、ポインティングデバイス、タッチパネル等であり、作業者からの指示の入力に用いられ、また、可搬記録媒体９９を駆動してその記録内容の入力に用いられる。

出力部９４としては、例えば、ディスプレイやプリンタ等であり、教師データ生成装置６０の作業者への処理結果等の表示に用いられる。

なお、図１には示していないが、ＣＰＵ９１における演算処理の高速化のために、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのアクセラレータやＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）を利用できる構成としてもよい。

次に、図２は、実施例１の教師データ生成装置全体の一例を示すブロック図である。この図２の教師データ生成装置６０は、識別モデル作成部８１、及び教師データ生成部８２を備えており、基準データ作成部６１及び選択部８３を備えていることが好ましい。ここで、識別モデル作成部８１、及び教師データ生成部８２の構成は、本発明の「教師データ生成装置」に該当し、識別モデル作成部８１、及び教師データ生成部８２を実行する処理は、本発明の「教師データ生成方法」に該当し、識別モデル作成部８１、及び教師データ生成部８２の処理をコンピュータに実行させるプログラムは、本発明に関する「教師データ生成プログラム」に該当する。

ここで、図３は、教師データ生成装置全体の処理の流れの一例を示すフローチャートである。以下、図２を参照して、教師データ生成装置全体の処理の流れについて説明する。

ステップＳ１１では、基準データ作成部６１は、１種類または少数種の特定の識別対象を含む動画データを静止画データに変換する。得られた静止画データから１種類または少数種の特定の識別対象のリージョンを切り出し、ラベルを付加して１種類または少数種の特定の識別対象を含む基準データを作成すると、処理をＳ１２に移行する。基準データの作成処理は、作業者が行ってもよく、ソフトウェアにより実行してもよい。なお、ステップＳ１１は、任意の処理であり、省略することができる。

ステップＳ１２では、識別モデル作成部８１は、１種類または少数種の特定の識別対象を含む基準データを学習対象となるように定義して、物体認識手法により学習を行い、１種類または少数種の特定の識別対象の識別モデルを作成すると、処理をＳ１３に移行する。

ステップＳ１３では、教師データ生成部８２は、作成した識別モデルを用いて、1種類または少数種の特定の識別対象を含む動画データから物体認識手法により推論を行い、１種類または少数種の特定の識別対象を検出し、１種類または少数種の特定の識別対象の教師データを生成すると、処理をＳ１４に移行する。

ステップＳ１４では、選択部８３が、生成した１種類または少数種の特定の識別対象の教師データから、任意の教師データを選抜すると、本処理を終了する。この教師データの選抜処理は、作業者が行ってもよく、ソフトウェアにより実行してもよい。なお、ステップＳ１４は、任意の処理であり、省略することができる。

図４に示すように、従来は、教師データ生成装置７０は、特定の識別対象が映っている動画データ５０を、画像変換処理７１０において手作業で静止画データ７２０に変換する。次に、得られた静止画データ７２０を特定の識別対象の情報付加処理７３０において、手作業で静止画に映っている識別対象のリージョンを切り出し、この切り出した静止画にラベルの情報を手作業で付加して、教師データ１０を生成していた。

従来は、図５に示す動画データ１５０１、動画データ２５０２、・・・動画データｎ５０３から、教師データ生成装置７０の画像１変換処理７１１、画像２変換処理７１２、・・・画像ｎ変換処理７１３において、手作業で、静止画１データ７２１、静止画２データ７２２、・・・静止画ｎデータ７２３に画像変換する。この画像変換は既存のライブラリを使用したプログラムを作成すれば容易に自動化することができる。しかし、識別対象１の情報付加処理７３１、識別対象２の情報付加処理７３２、・・・識別対象ｎの情報付加処理７３３で実施する静止画から識別対象のリージョンを切り出し、この切り出した静止画にラベルを付加する情報付加処理は、手作業で実施しなければならない。その結果、識別対象１種類につき１,０００枚以上の教師データを生成するためには大きな手間と時間がかかっていた。

このような情報付加処理を、識別対象１種類につき１０枚〜１００枚程度の１つまたは少数の教師データで学習したモデルを使用した物体認識で代用する方法も考えられる。しかし、１つまたは少数の教師データで複数の識別対象の物体認識を行うと、識別対象以外の物体を認識してしまう誤認識が生じる可能性が高くなり、生成した教師データに誤った教師データが混在する割合が高くなってしまう。

ここで、図６は、本発明の教師データ生成装置全体における各部の処理の一例を示すブロック図である。以下、識別対象の物体認識手法としてＦａｓｔｅｒＲ−ＣＮＮを使用し、画像データのｊｐｇファイルと、ＰＡＳＣＡＬＶＯＣフォーマットのＸＭＬファイルとが組となった教師データを生成した実施例について説明する。なお、物体認識手法、及び教師データ生成装置のブロック図などは一例として挙げたものであり、これらに限定されるものではない。

［動画データ］
動画データ５０は、１種類または少数種の特定の識別対象が映っている動画データである。動画の形式としては、ａｖｉ、ｗｍｖフォーマットなどが挙げられる。
１種類または少数種の特定の識別対象としては、１種類であることが好ましく、例えば、動物であれば犬、ネコ、鳥、猿、熊、パンダなどが挙げられる。識別対象が１種類であると、識別対象が有るか無いかだけを判定すればよく、誤って認識することがないので、従来に比べて１つまたは少数の基準データで足りる。

［基準データ作成部］
基準データ作成部６１は、画像変換処理６１１及び特定の識別対象の情報付加処理６１３を実行することにより、１種類または少数種の特定の識別対象を含む基準データ１０４を作成する。なお、基準データの作成は、任意であり、作業者から提供されたデータをそのまま、または適宜加工したものを用いることもできる。

画像変換処理６１１は、既存のライブラリを使用したプログラムにより、動画データ５０の一定間隔のフレームを抽出する、またはランダムにフレームを取り出すことによりフレームを間引いて、１つまたは少数の静止画データ６１２に画像変換する。
静止画データ６１２は、１種類または少数種の特定の識別対象が映っている１０枚〜１００枚程度の１つまたは少数の静止画データである。静止画の形式としては、例えば、ｊｐｇなどが挙げられる。

特定の識別対象の情報付加処理６１３は、既存のツールを使用し、または作業者の手作業により、静止画データ６１２に映っている特定の識別対象のリージョンとラベルの情報をＰＡＳＣＡＬＶＯＣフォーマットのＸＭＬファイルとして作成する。この特定の識別対象の情報付加処理６１３は、図４に示す従来の特定の識別対象の情報付加処理７３０と同様の処理であるが、図６の特定の識別対象の情報付加処理６１３は、フレームが１つまたは少数に間引かれているため、図４の従来の特定の識別対象の情報付加処理７３０に比べて大幅に手間と時間が削減できる。

以上により、静止画データ６１２のｊｐｇファイルとＰＡＳＣＡＬＶＯＣフォーマットのＸＭＬファイルとが組となった１０枚〜１００枚程度の１つまたは少数の基準データ１０４が作成される。基準データ１０４の形式は、識別モデル作成部８１の入力となる形式であれば、静止画データのｊｐｇファイルとＰＡＳＣＡＬＶＯＣフォーマットのＸＭＬファイルが組となった形式に限定されるものではない。

［識別モデル作成部］
識別モデル作成部８１は、特定の識別対象の専用化処理８１１、及び特定の識別対象の学習処理８１２を実行することにより、識別モデル８１３を作成する。

特定の識別対象の専用化処理８１１は、１つまたは少数の基準データ１０４内のＸＭＬファイルのラベルを検索して特定の識別対象ラベルを取り出し、特定の識別対象の学習処理８１２の学習対象として定義する。即ち、特定の識別対象の専用化処理８１１においては、１つまたは少数の基準データ１０４内の１種類または少数種の特定の識別対象を動的に定義し、ディープラーニングによる物体認識手法で参照できるようにする。

特定の識別対象の学習処理８１２は、１つまたは少数の基準データ１０４を入力として、特定の識別対象の専用化処理８１１で定義した１種類または少数種の特定の識別対象の学習を行い、識別モデル８１３を作成する。学習は、ディープラーニングによる物体認識手法により行われる。ディープラーニングによる物体認識手法としては、ＦａｓｔｅｒＲ−ＣＮＮを用いている。
従来のディープラーニングによる物体認識手法における学習済モデルは、複数種の識別対象の検出に使用する。これに対して、識別モデル８１３は、１種類または少数種の特定の識別対象の検出に使用される。１種類または少数種の特定の識別対象の識別モデル８１３を使用することにより、１種類または少数種の特定の識別対象ではない物体の誤認識を減らすことができる。

［教師データ生成部］
教師データ生成部８２は、特定の識別対象の検出処理８２１、及び特定の識別対象の教師データ生成処理８２２を実行し、特定の識別対象の教師データ１０５を生成する。

特定の識別対象の検出処理８２１は、基準データ作成部６１で使用した動画データ５０と、識別モデル８１３とを入力として、動画データ５０を１フレーム毎にディープラーニングによる物体認識手法により推論を行う。推論を行うことにより、特定の識別対象の専用化処理８１１で定義した１種類または少数種の特定の識別対象の検出を行う。
ディープラーニングによる物体認識手法としては、ＦａｓｔｅｒＲ−ＣＮＮを用いている。

特定の識別対象の教師データ生成処理８２２は、特定の識別対象の教師データ１０５を自動で作成する。特定の識別対象の教師データ１０５は、１種類または少数種の特定の識別対象が映っている静止画データのｊｐｇファイルと、特定の識別対象のリージョンとラベルの情報を持つＰＡＳＣＡＬＶＯＣフォーマットのＸＭＬファイルとが組となったものである。
なお、特定の識別対象の教師データ１０５の形式は、基準データ１０４と同じ形式であるが、静止画データのｊｐｇファイルと、ＰＡＳＣＡＬＶＯＣフォーマットのＸＭＬファイルが組となった形式に限定するものではない。

［選択部］
教師データ生成装置６０は、特定の識別対象の教師データ１０５から、任意の教師データを選抜するため、選択部８３を有することが好ましい。なお、教師データの選抜は、任意であり、特定の識別対象の教師データ１０５の数が足りない場合や特定の識別対象の教師データ１０５からの選抜が必要ない場合には、省略することができる。

選択部８３は、特定の識別対象の教師データ選択処理８３１を実行し、特定の識別対象について、選抜された選抜教師データ１００を生成する。
特定の識別対象の教師データ選択処理８３１においては、有用な教師データになるように、例えば、フォーマットの変換、認識する部分の補正、ズレの補正、大きさの補正や教師データとして有用でないデータの除外などを行う。

特定の識別対象の教師データ選択処理８３１は、特定の識別対象の教師データ１０５のリージョンを使って、特定の識別対象を切り出した静止画データ、または特定の識別対象のリージョンを枠で囲った静止画データを表示する。
表示された静止画データから所望の教師データを選択する、または不要な教師データを選択する選択手段により教師データを手作業、またはソフトウェアにより選択し、選択された教師データから特定の識別対象の選抜教師データ１００を生成する。
以上により、教師データ生成装置６０は、１つまたは少数の基準データ１０４から自動的に多くの教師データを生成できるため、教師データを生成する手間と時間を削減することができる。

次に、図７は、教師データ生成装置全体における各部の処理の流れの一例を示すフローチャートである。以下、図６を参照して、教師データ生成装置全体における各部の処理の流れについて説明する。

ステップＳ１１０では、基準データ作成部６１は、画像変換処理６１１において、作成する基準データの数を設定すると、処理をＳ１１１に移行する。なお、作成する基準データの設定数は、１０枚〜１００枚程度の１つまたは少数でよい。

ステップＳ１１１では、基準データ作成部６１は、動画データ５０の０フレームから基準データの設定数間隔で、既存のライブラリを使用して動画データを静止画に変換してｊｐｇファイルなどを作成すると、処理をＳ１１２に移行する。なお、動画データ５０の特定の識別対象が映っているフレームの内、教師データにしたいフレームを既存のライブラリを使用して設定数分、動画から静止画に変換してｊｐｇファイルなどを作成してもよい。

ステップＳ１１２では、基準データ作成部６１は、特定の識別対象の情報付加処理６１３により、基準データを作成すると、処理をＳ１１３に移行する。
基準データは、手作業または既存のツールを使用して作成したｊｐｇファイルに映っている特定の識別対象のリージョンとラベルの情報をＰＡＳＣＡＬＶＯＣフォーマットのＸＭＬファイルとして作成される。

ステップＳ１１３では、基準データ作成部６１は、作成した基準データ数が基準データ設定数より小さいか否かを判定する。
作成した基準データ数が基準データ設定数よりも小さいと判定すると、処理をＳ１１１に戻す。一方、作成した基準データ数が基準データ設定数よりも大きいと判定すると、処理をＳ１１４に移行する。このように基準データの作成処理を基準データ設定数分繰り返すことにより、基準データ１０４が作成される。１種類または少数種の特定の識別対象に絞っているため、１つまたは少数の基準データが得られる。
なお、ステップＳ１１０〜ステップＳ１２１はオプションであり、作業者から提供された基準データを用いることもできる。

ステップＳ１１４では、識別モデル作成部８１は、特定の識別対象の専用化処理８１１において、図８に示すような基準データ１０４のＸＭＬファイルのラベル（図８の＜ｎａｍｅ＞ｃａｒ＜／ｎａｍｅ＞）を検索する。特定の識別対象（１種類の識別対象：図８のｃａｒ）を図９に示すようなｐｙｔｈｏｎのｉｍｐｏｒｔファイルとして定義する。図１０に示すようなＦａｓｔｅｒＲ−ＣＮＮで参照できるように定義すると、処理をＳ１１５に移行する。
このステップＳ１１４において、異なるラベルの基準データに変更することにより、識別モデルの識別対象を動的に切り替えることができる。

ステップＳ１１５では、特定の識別対象の学習処理８１２において、特定の識別対象の専用化処理８１１で定義したｉｍｐｏｒｔファイルを参照して、１つまたは少数の基準データ１０４を用いて、ＦａｓｔｅｒＲ−ＣＮＮで学習を行い、識別モデル８１３を作成すると、処理をＳ１１６に移行する。

ステップＳ１１６では、識別モデル作成部８１は、学習回数が指定された学習回数以下であるか否かを判定する。学習回数が指定された学習回数以下であると判定すると、処理をＳ１１５に戻す。一方、学習回数が指定された学習回数を超えたと判定すると、処理をＳ１１７に移行する。
学習回数としては、固定回数、引数による指定回数などを使用することができる。
学習回数をｔｒａｉｎａｃｃｕｒａｃｙ（学習正解率）とすることもできる。指定されたｔｒａｉｎａｃｃｕｒａｃｙ未満であると判定すると、処理をＳ１１５に戻す。一方、ｔｒａｉｎａｃｃｕｒａｃｙ以上と判定すると、処理をＳ１１７に移行する。
ｔｒａｉｎａｃｃｕｒａｃｙとしては、固定ｔｒａｉｎａｃｃｕｒａｃｙ、引数による指定ｔｒａｉｎａｃｃｕｒａｃｙなどを使用することができる。

ステップＳ１１７では、教師データ生成部８２は、特定の識別対象の検出処理８２１において、基準データ作成部６１で使用した動画データ５０を読み込むと、処理をＳ１１８に移行する。

ステップＳ１１８では、読み込んだ動画データ５０をフレーム０から順に１フレームずつ処理して、識別モデル作成部８１の特定の識別対象の専用化処理８１１で定義にしたｉｍｐｏｒｔファイルを参照して、ＦａｓｔｅｒＲ−ＣＮＮで検出すると、処理をＳ１１９に移行する。

ステップＳ１１９では、特定の識別対象の教師データ生成処理８２２において、特定の識別対象の教師データを生成すると、処理をＳ１２０に移行する。
特定の識別対象の教師データは、特定の識別対象の検出処理８２１で検出したｊｐｇファイルと、ｊｐｇファイルに映っている特定の識別対象のリージョンとラベルの情報をＰＡＳＣＡＬＶＯＣフォーマットのＸＭＬファイルとしたものである。

ステップＳ１２０では、教師データ生成部８２は、読み込んだ動画データ５０に残りのフレームがあるか否かを判定する。残りのフレームがあると判定すると、処理をＳ１１８に戻す。一方、残りのフレームがないと判定すると、処理をＳ１２１に移行する。
なお、検出したｊｐｇファイルから特定の識別対象のリージョンを切り出したｊｐｇファイルを教師データとして作成することもできる。動画データ５０の全てのフレームに対して検出を繰り返すことで特定の識別対象の教師データ１０５を生成する。

ステップＳ１２１では、特定の識別対象の教師データ選択処理８３１により、特定の識別対象の教師データ１０５のリージョンを用いて、特定の識別対象を切り出した静止画データ、または特定の識別対象のリージョンを枠で囲った静止画データを全て表示する。
次に、有効な教師データを選択する、または不要な教師データを選択する選択手段で教師データを手動またはソフトウェアにより選択し、選択された教師データから特定の識別対象の選抜教師データ１００を生成すると、本処理を終了する。なお、ステップＳ１２１はオプションである。

実施例１によれば、ディープラーニングの学習時に必要な教師データを、１つまたは少数の基準データから多数自動生成でき、教師データの生成の手間と時間を削減することが可能になる。

（実施例２）
図１１は、実施例２の教師データ生成装置全体における各部の処理の一例を示すブロック図である。この図１１の実施例２の教師データ生成装置６０１は、教師データ生成部８２の特定の識別対象検出処理８２１において複数の動画データを処理する機能を追加した以外は、実施例１と同様である。このため、既に説明した実施例１と同一の構成については、同じ参照符号を付してその説明を省略する。

複数の動画データとしては、図１３に示す動画データテーブルが挙げられる。動画データ１’ ５０１１は、動画データ１５０１と同じ１種類または少数種の特定の識別対象が映った別の動画データである。動画の形式としては、特に制限はなく、目的に応じて適宜選択することができ、例えば、ａｖｉ、ｗｍｖフォーマットなどが挙げられる。なお、動画データ１’ ５０１１は複数指定することができる。

特定の識別対象検出処理８２１においては、基準データ作成部６１で使用した動画データ１５０１と、識別モデル８１３とを入力として、動画データ１５０１の各フレームから特定の識別対象の専用化処理８１１で定義した特定の識別対象の検出を行う。
その後、動画データ１’ ５０１１と、識別モデル８１３とを入力として、動画データ１’ ５０１１の各フレームから特定の識別対象の専用化処理８１１で定義した特定の識別対象の検出を行う。なお、動画データ１’ ５０１１が複数指定された場合は、新たな動画データで特定の識別対象検出処理８２１から処理を繰り返す。

図１２は、実施例２の教師データ生成装置６０１全体における各部の処理の流れの一例を示すフローチャートである。以下、図１１を参照して、教師データ生成装置全体における各部の処理の流れについて説明する。
なお、図１２中のステップＳ１１０〜ステップＳ１１６については、図７の実施例１のフローチャートと同様であるため、その説明を省略する。

ステップＳ２１０では、特定の識別対象検出処理８２１において、図１３に示す動画データテーブルに画像変換処理６１１で使用した動画データ１５０１のファイル名を先頭にして、以降、動画データ１’ ５０１１の画像データのファイル名を設定すると、処理をＳ２１１に移行する。なお、画像データのファイル名はファイル読み込みや入力装置からの読み込みでもよい。

ステップＳ２１１では、図１３に示す動画データテーブルの先頭から順に画像データを読み込むと、処理をＳ１１８に移行する。

ステップＳ１１８では、図１３に示す動画データテーブルから読み込んだ動画データ１５０１をフレーム０から順に処理して、特定の識別対象の専用化処理８１１で定義にしたｉｍｐｏｒｔファイルを参照して、ＦａｓｔｅｒＲ−ＣＮＮで検出すると、処理をＳ１１９に移行する。

ステップＳ１１９では、教師データ生成部８２は、特定の識別対象の教師データ生成処理８２２において、特定の識別対象の教師データを生成すると、処理をＳ１２０に移行する。
特定の識別対象の教師データは、特定の識別対象検出処理８２１で検出したｊｐｇファイルと、ｊｐｇファイルに映っている特定の識別対象のリージョンとラベルの情報をＰＡＳＣＡＬＶＯＣフォーマットのＸＭＬファイルとして作成される。

ステップＳ１２０では、教師データ生成部８２は、読み込んだ動画データ１５０１に残りのフレームがあるか否かを判定する。読み込んだ動画データ１５０１に残りのフレームがあると判定すると、処理をＳ１１８に戻す。一方、読み込んだ動画データ１５０１に残りのフレームがないと判定すると、処理をＳ２１２に移行する。

ステップＳ２１２では、教師データ生成部８２は、図１３に示す動画データテーブルを参照し、未処理の動画データがあるか否かを判定する。未処理の動画データがあると判定すると、処理をＳ２１１に戻し、新たな動画データに基づき処理を行う。一方、未処理の動画データがないと判定すると、処理をＳ１２１に移行する。

ステップＳ１２１では、特定の識別対象の教師データ選択処理８３１により、特定の識別対象の教師データ１０５のリージョンを用いて、特定の識別対象を切り出した静止画データ、または特定の識別対象のリージョンを枠で囲った静止画データを全て表示する。
次に、有効な教師データを選択する、または不要な教師データを選択する選択手段で教師データを手動またはソフトウェアにより選択し、選択した教師データから特定の識別対象の選抜教師データ１００を生成すると、本処理を終了する。なお、ステップＳ１２１はオプションである。

実施例２によれば、多数の教師データが自動で作成でき、実施例１に比べて、教師データ生成の手間と時間をさらに削減することが可能になる。

（実施例３）
図１４は、実施例３の教師データ生成装置全体における各部の処理の一例を示すブロック図である。この図１４の実施例３の教師データ生成装置６０２は、特定の識別対象の学習処理８１２により、特定の識別対象の教師データ１０５、または特定の識別対象の選抜教師データ１００を用いて繰り返し処理する機能を追加した以外は、実施例１と同様である。このため、既に説明した実施例１と同一の構成については、同じ参照符号を付してその説明を省略する。

特定の識別対象の学習処理８１２において、特定の識別対象の教師データ１０５、または特定の識別対象の選抜教師データ１００を用いて何回繰り返し処理するかのイテレーション数を設定する。
基準データ１０４を入力として、特定の識別対象の専用化処理８１１で定義した特定の識別対象の学習を行い、識別モデル８１３を作成する。または繰り返す場合には更新する。

教師データ生成部８２の特定の識別対象の教師データ生成処理８２２は、特定の識別対象の学習処理８１２で設定されたイテレーション数分、特定の識別対象の教師データ１０５を入力として、特定の識別対象の学習処理８１２から処理を繰り返す。
特定の識別対象の教師データ選択処理８３１は、特定の識別対象の教師データ１０５のリージョンを使って、特定の識別対象を切り出した静止画データ、または特定の識別対象のリージョンを枠で囲った静止画データを表示する。
表示された静止画データから希望の教師データを選択する、または不要な教師データを選択する選択手段により教師データを手作業またはソフトウェアで選択し、選択された教師データから特定の識別対象の選抜教師データ１００を生成する。
特定の識別対象の学習処理８１２で設定されたイテレーション数分、特定の識別対象の選抜教師データ１００を入力として、特定の識別対象の学習処理８１２から処理を繰り返す。
なお、同じ教師データで複数回学習を行うと過学習になる可能性があるため、フィードバック処理では教師データが重複しないようにすることが好ましい。

ここで、図１５は、教師データ生成装置全体における各部の処理の流れの一例を示すフローチャートである。以下、図１４を参照して、教師データ生成装置全体における各部の処理の流れについて説明する。
なお、図１５中のステップＳ１１０〜ステップＳ１１４については、図７の実施例１のフローチャートと同様であるため、その説明を省略する。

ステップＳ３１０では、特定の識別対象の学習処理８１２において、特定の識別対象の教師データ１０５、または特定の識別対象の選抜教師データ１００を用いて何回繰り返し処理するか、イテレーション数を設定すると、処理をＳ１１５に移行する。なお、イテレーション数は、ファイル読み込みや入力装置からの読み込みであってもよく、固定値としてもよい。

ステップＳ１１５では、特定の識別対象の専用化処理８１１で定義したｉｍｐｏｒｔファイルを参照して、基準データ１０４を用い、ＦａｓｔｅｒＲ−ＣＮＮで学習することにより、識別モデル８１３を作成すると、処理をＳ１１６に移行する。

ステップＳ１１６では、識別モデル作成部８１は、学習回数が指定された学習回数以下であるか否かを判定する。学習回数が指定された学習回数以下であると判定すると、処理をＳ１１５に戻す。一方、学習回数が指定された学習回数を超えたと判定すると、処理をＳ１１７に移行する。
学習回数としては、固定回数、引数による指定回数、またはｔｒａｉｎａｃｃｕｒａｃｙ（学習正解率）などを使用することができる。

ステップＳ１１７では、教師データ生成部８２は、特定の識別対象検出処理８２１において、基準データ作成部６１で使用した動画データ５０を読み込むと、処理をＳ１１８に移行する。

ステップＳ１１８では、読み込んだ動画データ５０をフレーム０から順に１フレームずつ処理して、特定の識別対象の専用化処理８１１で定義にしたｉｍｐｏｒｔファイルを参照して、ＦａｓｔｅｒＲ−ＣＮＮで検出すると、処理をＳ１１９に移行する。

ステップＳ１１９では、特定の識別対象の教師データ生成処理８２２において、特定の識別対象検出処理８２１で検出したｊｐｇファイルと、ｊｐｇファイルに映っている特定の識別対象のリージョンとラベルの情報をＰＡＳＣＡＬＶＯＣフォーマットのＸＭＬファイルとして、教師データを生成すると、処理をＳ１２０に移行する。
なお、検出したｊｐｇファイルから特定の識別対象のリージョンを切り出したｊｐｇファイルを教師データとして作成することもできる。動画データ５０の全てのフレームに対して検出を繰り返すことで特定の識別対象教師データ１０５を生成する。

ステップＳ１２０では、教師データ生成部８２は、読み込んだ動画データ５０に残りのフレームがあるか否かを判定する。読み込んだ動画データ５０に残りのフレームがあると判定すると、処理をＳ１１８に戻す。一方、残りのフレームがないと判定すると、処理をＳ１２１に移行する。

ステップＳ１２１では、特定の識別対象の教師データ選択処理８３１により、特定の識別対象の教師データ１０５のリージョンを用いて、特定の識別対象を切り出した静止画データ、または特定の識別対象のリージョンを枠で囲った静止画データを全て表示する。
次に、有効な教師データを選択する、または不要な教師データを選択する選択手段で教師データを手動またはソフトウェアにより選択し、選択された教師データから特定の識別対象の選抜教師データ１００を生成すると、処理をＳ３１１に移行する。なお、ステップＳ１２１はオプションである。

ステップＳ３１１では、教師データ生成部８２または選択部８３は、繰り返し回数が設定されているイテレーション数よりも小さいか否かを判定する。繰り返し回数がイテレーション数より小さいと判定すると、処理をＳ１１５に戻す。一方、繰り返し回数がイテレーション数より大きいと判定すると、本処理を終了する。

実施例３によれば、多数の教師データが自動で生成でき、実施例１に比べて、教師データ生成の手間と時間をさらに削減することが可能になる。

（実施例４）
実施例１の教師データ生成装置において、実施例３で追加した処理と実施例４で追加した処理とを組み合わせた構成とした以外は、実施例１と同様にして、実施例４の教師データ生成装置を作製した。
実施例４によれば、実施例１に比べて、さらに自動で生成する教師データ数が増え、教師データ生成の手間と時間をより削減することが可能になる。

（実施例５）
（物体検出システム）
図１６は、本発明の物体検出システム全体の一例を示すブロック図である。この図１６の物体検出システム４００は、教師データ生成装置６０と、学習部２００と、推論部３００とを備えている。

ここで、図１７は、物体検出システム全体の処理の流れの一例を示すフローチャートである。以下、図１６を参照して、物体検出システム全体の処理の流れについて説明する。

ステップＳ４０１では、教師データ生成装置６０は、１種類または少数種の特定の識別対象の教師データを生成すると、処理をＳ４０２に移行する。

ステップＳ４０２では、学習部２００は、教師データ生成装置６０が生成した教師データを用いて学習を行い、学習済み重みを得ると、処理をＳ４０３に移行する。

ステップＳ４０３では、推論部３００は、得られた学習済み重みを用いて推論を行い、推論結果を得ると、本処理を終了する。

図１８は、本発明の物体検出システム全体の他の一例を示すブロック図である。この図１８の物体検出システム４００は、動画データ１５０１、動画データ２５０２、・・・動画データｎ５０３から、教師データ生成装置６０により、識別対象１の教師データ１０１、識別対象２の教師データ１０２・・・識別対象ｎの教師データ１０３が生成される。生成された教師データは、学習部２００により学習され、推論部３００により、検出結果２４０が得られる。
教師データ生成装置６０としては、本発明の教師データ生成装置６０を用いることができる。
学習部２００及び推論部３００としては、特に制限はなく、一般的なものを用いることができる。

＜学習部＞
学習部２００は、教師データ生成装置６０で生成した教師データを用いて学習を行う。
図１９は、学習部全体の一例を示すブロック図である。図２０は、学習部全体の他の一例を示すブロック図である。
教師データ生成装置で生成した教師データを用いて行う学習は、通常のディープラーニング学習と同様にして行うことができる。

図１９に示す教師データ格納部１２には、教師データ生成装置６０で生成した入力データ（画像）と正解ラベルとのペアである教師データが格納されている。

ニューラルネットワーク定義２０１は、多層構造のニューラルネットワーク（ディープニューラルネットワーク）の種別、多数のニューロン同士がどのようにつながっているのかという構造を定義したファイルであり、作業者の指定値である。

学習済み重み２０２は、作業者の指定値であり、学習を開始する際に、予め学習済み重みを与えておくことが通常行われており、学習済み重みは、ニューラルネットワークの各ニューロンの重みを格納したファイルである。なお、学習において学習済み重みは必須ではない。

ハイパーパラメータ２０３は、学習に関するパラメータ群であり、学習を何回行うのか、学習中の重みをどのような幅で更新するのかなどが格納されているファイルである。

学習中重み２０５は、学習中のニューラルネットワークの各ニューロンの重みを表し、学習することで更新される。

図２０に示すようにディープラーニング学習部２０４は、教師データ格納部１２からミニバッチ２０７と呼ばれる単位で教師データを取得する。この教師データを入力データと正解ラベルとに分離し、順伝播処理と逆伝播処理とを行うことにより、学習中重みを更新して、学習済み重みを出力する。
学習の終了条件は、ニューラルネットワークに入力するか、または損失関数２０８が閾値を下回ったかで決定される。

ここで、図２１は、学習部全体の処理の流れの一例を示すフローチャートである。以下、図１９及び図２０を参照して、学習部全体の処理の流れについて説明する。

ステップＳ５０１では、作業者またはソフトウェアが、ディープラーニング学習部２０４に、教師データ格納部１２、ニューラルネットワーク定義２０１、ハイパーパラメータ２０３、及び必要に応じて学習済み重み２０２を与えると、処理をＳ５０２に移行する。

ステップＳ５０２では、ディープラーニング学習部２０４が、ニューラルネットワーク定義２０１に従いニューラルネットワークを構築すると、処理をＳ５０３に移行する。

ステップＳ５０３では、ディープラーニング学習部２０４が、学習済み重み２０２を有するか否かを判定する。
学習済み重み２０２を有していないと判定すると、ディープラーニング学習部２０４が、構築したニューラルネットワークにニューラルネットワーク定義２０１で指定されたアルゴリズムに従い、初期値を設定すると、処理をＳ５０６に移行する。一方、学習済み重み２０２を有すると判定すると、ディープラーニング学習部２０４が、構築したニューラルネットワークに学習済み重み２０２を設定すると、処理をＳ５０６に移行する。なお、初期値は、ニューラルネットワーク定義２０１に記載されている。

ステップＳ５０６では、ディープラーニング学習部２０４が、教師データ格納部１２から指定されたバッチサイズの教師データ集合を取得すると、処理をＳ５０７に移行する。

ステップＳ５０７では、ディープラーニング学習部２０４が、教師データ集合を「入力データ」と「正解ラベル」とに分離すると、処理をＳ５０８に移行する。

ステップＳ５０８では、ディープラーニング学習部２０４が、ニューラルネットワークに「入力データ」を入力し、順伝播処理を実施すると、処理をＳ５０９に移行する。

ステップＳ５０９では、ディープラーニング学習部２０４が、順伝播処理の結果として、得られた「推論ラベル」と「正解ラベル」を損失関数２０８に与え、損失２０９を計算すると、処理をＳ５１０に移行する。なお、損失関数２０８は、ニューラルネットワーク定義２０１に記載されている。

ステップＳ５１０では、ディープラーニング学習部２０４が、ニューラルネットワークに損失２０９を入力し、逆伝播処理を実施して、学習中重みを更新すると、処理をＳ５１１に移行する。

ステップＳ５１１では、ディープラーニング学習部２０４が、終了条件に到達したか否かを判定する。ディープラーニング学習部２０４が、終了条件に到達していないと判定すると、処理をＳ５０６に戻し、終了条件に到達したと判定すると、処理をＳ５１２に移行する。なお、終了条件は、ハイパーパラメータ２０３に記載されている。

ステップＳ５１２では、ディープラーニング学習部２０４が、学習中重みを学習済み重みとして出力し、本処理を終了する。

＜推論部＞
推論部３００は、学習部２００で求めた学習済み重みを用いて推論（テスト）を行う。
図２２は、推論部全体の一例を示すブロック図である。図２３は、推論部全体の他の一例を示すブロック図である。
テストデータ格納部３０１を用いた推論は、通常のディープラーニング推論と同様にして行うことができる。
テストデータ格納部３０１は、推論用のテストデータを格納する。テストデータは入力データ（画像）のみである。
ニューラルネットワーク定義３０２は、学習部２００のニューラルネットワーク定義２０１と基本的な構造は共通する。
学習済み重み３０３は、推論は学習した成果を評価するため、必ず与える。
ディープラーニング推論部３０４は、学習部２００のディープラーニング学習部２０４に対応する。

ここで、図２４は、推論部全体の処理の流れの一例を示すフローチャートである。以下、図２２及び図２３を参照して、推論部全体の処理の流れについて説明する。

ステップＳ６０１では、作業者またはソフトウェアが、ディープラーニング推論部３０４に、テストデータ格納部３０１、ニューラルネットワーク定義３０２、及び学習済み重み３０３を与えると、処理をＳ６０２に移行する。

ステップＳ６０２では、ディープラーニング推論部３０４が、ニューラルネットワーク定義３０２に従いニューラルネットワークを構築すると、処理をＳ６０３に移行する。

ステップＳ６０３では、ディープラーニング推論部３０４が、構築したニューラルネットワークに学習済み重み３０３を設定すると、処理をＳ６０４に移行する。

ステップＳ６０４では、ディープラーニング推論部３０４が、テストデータ格納部３０１から、指定されたバッチサイズのテストデータ集合を取得すると、処理をＳ６０５に移行する。

ステップＳ６０５では、ディープラーニング推論部３０４が、ニューラルネットワークにテストデータ集合の入力データを入力し、順伝播処理を実施すると、処理をＳ６０６に移行する。

ステップＳ６０６では、ディープラーニング推論部３０４が、推論ラベル（推論結果）を出力すると、本処理を終了する。

以上の実施形態に関し、さらに以下の付記を開示する。
（付記１）
特定の識別対象の物体検出を行う際に用いられる教師データを生成する教師データ生成装置において、
前記特定の識別対象を含む基準データを用いて物体認識手法により学習を行い、前記特定の識別対象の識別モデルを作成する識別モデル作成部と、
作成された前記識別モデルを用いて、前記特定の識別対象を含む動画データから物体認識手法により推論を行い、前記特定の識別対象を検出し、前記特定の識別対象の教師データを生成する教師データ生成部と、
を有する教師データ生成装置。
（付記２）
前記教師データ生成装置はさらに、
前記特定の識別対象を含む動画データを複数の静止画データに変換し、得られた前記複数の静止画データから切り出した前記特定の識別対象のリージョンにラベルを付加して前記特定の識別対象を含む基準データを作成する基準データ作成部を有する付記１に記載の教師データ生成装置。
（付記３）
前記教師データ生成装置はさらに、
生成された前記特定の識別対象の教師データから、任意の教師データを選択する選択部を有する付記１または２に記載の教師データ生成装置。
（付記４）
前記教師データ生成装置において、
前記物体認識手法が、ディープラーニングによる物体認識手法により行われる付記１から３のいずれか一項に記載の教師データ生成装置。
（付記５）
特定の識別対象の物体検出を行う際に用いられる教師データを生成する教師データ生成装置を用いた教師データ生成方法において、
前記教師データ生成装置が有する識別モデル作成部が、前記特定の識別対象を含む基準データを用いて物体認識手法により学習を行い、前記特定の識別対象の識別モデルを作成し、
前記教師データ生成装置が有する教師データ生成部が、作成された前記識別モデルを用いて、前記特定の識別対象を含む動画データから物体認識手法により推論を行い、前記特定の識別対象を検出し、前記特定の識別対象の教師データを生成する教師データ生成方法。
（付記６）
前記教師データ生成装置はさらに、
前記特定の識別対象を含む動画データを複数の静止画データに変換し、得られた前記複数の静止画データから切り出した前記特定の識別対象のリージョンにラベルを付加して前記特定の識別対象を含む基準データを作成する基準データ作成部を有する付記５に記載の教師データ生成方法。
（付記７）
前記教師データ生成装置はさらに、
生成された前記特定の識別対象の教師データから、任意の教師データを選択する選択部を有する付記５または６に記載の教師データ生成方法。
（付記８）
前記教師データ生成装置において、
前記物体認識手法が、ディープラーニングによる物体認識手法により行われる付記５から７のいずれか一項に記載の教師データ生成方法。
（付記９）
特定の識別対象の物体検出を行う際に用いられる教師データを生成する教師データ生成装置の教師データ生成プログラムにおいて、
前記教師データ生成装置が有する識別モデル作成部に、前記特定の識別対象を含む基準データを用いて物体認識手法により学習を行い、前記特定の識別対象の識別モデルを作成させ、
前記教師データ生成装置が有する教師データ生成部に、作成された前記識別モデルを用いて、前記特定の識別対象を含む動画データから物体認識手法により推論を行い、前記特定の識別対象を検出し、前記特定の識別対象の教師データを生成させる教師データ生成プログラム。
（付記１０）
前記教師データ生成装置はさらに、
前記特定の識別対象を含む動画データを複数の静止画データに変換し、得られた前記複数の静止画データから切り出した前記特定の識別対象のリージョンにラベルを付加して前記特定の識別対象を含む基準データを作成する基準データ作成部を有する付記９に記載の教師データ生成プログラム。
（付記１１）
前記教師データ生成装置はさらに、
生成された前記特定の識別対象の教師データから、任意の教師データを選択する選択部を有する付記９または１０に記載の教師データ生成プログラム。
（付記１２）
前記教師データ生成装置において、
前記物体認識手法が、ディープラーニングによる物体認識手法により行われる付記９から１１のいずれか一項に記載の教師データ生成プログラム。
（付記１３）
特定の識別対象の物体検出を行う物体検出システムにおいて、
前記特定の識別対象を含む基準データを用いて物体認識手法により学習を行い、前記特定の識別対象の識別モデルを作成する識別モデル作成部と、作成された前記識別モデルを用いて、前記特定の識別対象を含む動画データから物体認識手法により推論を行い、前記特定の識別対象を検出し、前記特定の識別対象の教師データを生成する教師データ生成部とを有する教師データ生成装置と、
前記教師データ生成装置が生成した教師データを用いて学習を行う学習部と、
前記学習部が生成した学習済み重みを用いて推論を行う推論部と、
を有することを特徴とする物体検出システム。
（付記１４）
前記教師データ生成装置はさらに、
前記特定の識別対象を含む動画データを複数の静止画データに変換し、得られた前記複数の静止画データから切り出した前記特定の識別対象のリージョンにラベルを付加して前記特定の識別対象を含む基準データを作成する基準データ作成部を有する付記１３に記載の物体検出システム。
（付記１５）
前記教師データ生成装置はさらに、
生成された前記特定の識別対象の教師データから、任意の教師データを選択する選択部を有する付記１３または１４に記載の物体検出システム。
（付記１６）
前記教師データ生成装置において、
前記物体認識手法が、ディープラーニングによる物体認識手法により行われる付記１３から１５のいずれか一項に記載の物体検出システム。

１０教師データ
５０動画データ
６０教師データ生成装置
６１基準データ作成部
８１識別モデル作成部
８２教師データ生成部
８３選択部
１０４基準データ
１０５特定の識別対象の教師データ
１０６特定の識別対象の選抜教師データ
２００学習部
３００推論部
４００物体検出システム
６１２静止画データ
８１３識別モデル

Claims

特定の識別対象の物体検出を行う際に用いられる教師データを生成する教師データ生成装置において、
前記特定の識別対象を含む基準データを用いて物体認識手法により学習を行い、前記特定の識別対象の識別モデルを作成する識別モデル作成部と、
作成された前記識別モデルを用いて、前記特定の識別対象を含む動画データから物体認識手法により推論を行い、前記特定の識別対象を検出し、前記特定の識別対象の教師データを生成する教師データ生成部と、
を有する教師データ生成装置。
前記教師データ生成装置はさらに、
前記特定の識別対象を含む動画データを複数の静止画データに変換し、得られた前記複数の静止画データから切り出した前記特定の識別対象のリージョンにラベルを付加して前記特定の識別対象を含む基準データを作成する基準データ作成部を有する請求項１に記載の教師データ生成装置。
前記教師データ生成装置はさらに、
生成された前記特定の識別対象の教師データから、任意の教師データを選択する選択部を有する請求項１または２に記載の教師データ生成装置。
前記教師データ生成装置において、
前記物体認識手法が、ディープラーニングによる物体認識手法により行われる請求項１から３のいずれか一項に記載の教師データ生成装置。
特定の識別対象の物体検出を行う際に用いられる教師データを生成する教師データ生成装置を用いた教師データ生成方法において、
前記教師データ生成装置が有する識別モデル作成部が、前記特定の識別対象を含む基準データを用いて物体認識手法により学習を行い、前記特定の識別対象の識別モデルを作成し、
前記教師データ生成装置が有する教師データ生成部が、作成された前記識別モデルを用いて、前記特定の識別対象を含む動画データから物体認識手法により推論を行い、前記特定の識別対象を検出し、前記特定の識別対象の教師データを生成する教師データ生成方法。
特定の識別対象の物体検出を行う際に用いられる教師データを生成する教師データ生成装置の教師データ生成プログラムにおいて、
前記教師データ生成装置が有する識別モデル作成部に、前記特定の識別対象を含む基準データを用いて物体認識手法により学習を行い、前記特定の識別対象の識別モデルを作成させ、
前記教師データ生成装置が有する教師データ生成部に、作成された前記識別モデルを用いて、前記特定の識別対象を含む動画データから物体認識手法により推論を行い、前記特定の識別対象を検出し、前記特定の識別対象の教師データを生成させる教師データ生成プログラム。
特定の識別対象の物体検出を行う物体検出システムにおいて、
前記特定の識別対象を含む基準データを用いて物体認識手法により学習を行い、前記特定の識別対象の識別モデルを作成する識別モデル作成部と、作成された前記識別モデルを用いて、前記特定の識別対象を含む動画データから物体認識手法により推論を行い、前記特定の識別対象を検出し、前記特定の識別対象の教師データを生成する教師データ生成部とを有する教師データ生成装置と、
前記教師データ生成装置が生成した教師データを用いて学習を行う学習部と、
前記学習部が生成した学習済み重みを用いて推論を行う推論部と、
を有することを特徴とする物体検出システム。