JP6446971B2

JP6446971B2 - データ処理装置、データ処理方法、及び、コンピュータ・プログラム

Info

Publication number: JP6446971B2
Application number: JP2014205759A
Authority: JP
Inventors: 崇宏小此木
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2014-10-06
Filing date: 2014-10-06
Publication date: 2019-01-09
Anticipated expiration: 2034-10-06
Also published as: JP2016076073A; US20160098636A1

Description

本発明は、機械学習を用いたデータ解析システムにおける、学習用データの生成等に関する。

近年、機械学習を用いたデータ解析システムが普及している。そのようなシステムとして、例えば、機械学習システムを用いて動画データを解析することにより、特定の条件にあてはまるシーンを抽出したり、各シーンを決められた基準に沿って分類したりする技術が知られている。

このようなデータ解析システムによりデータを解析するためには、機械学習システムの学習に用いる十分な量の学習用データを、予め準備することが求められる。

そのような学習用データは、例えば、解析対象のデータに対して人手による抽出作業、又は、分類作業を行うことにより生成される。このようにして生成された学習用データ（以下、「教師データ」と称する場合がある）を用いて機械学習システムにおける学習処理を実行することにより、学習結果としてモデルデータ（モデル）が生成される。機械学習システムは、係るモデルデータを参照しながら、新たに与えられたデータを解析する。

解析対象のデータが動画データである場合、教師データを用意するためには、動画を構成する画像データ１枚１枚に対して、人間（システムのユーザ、エンジニア、管理者等）が目視した結果に基づいて、人手により当該画像データを適切に分類（ラベル付け）する必要がある。この場合、例えば、ユーザ等は、実際に動画データを再生しながら、動画を構成する画像データに対してラベル付けを行うことになり、多くの工数を要する。

また、このようなシステムにおいては、作成されたモデルによる解析結果が十分ではない場合（即ち、十分な精度の解析結果が得られない場合）、その原因の特定が困難な場合がある。具体的には、ユーザ等は、教師データの量が不十分であることが原因なのか、あるいは、特定の利用シーン（特定の解析データ）の解析がそもそも困難であることが原因なのか、等を簡単に判別できない場合がある。係る原因を追究するために、ユーザ等は、試行錯誤を繰り返すことを求められる。

上記したような学習データの収集に関連して、以下の特許文献が開示されている。

特許文献１は、画像識別ソフトの開発に際して用いられる学習用画像を生成する技術を開示する。特許文献１に開示された技術は、入力した元画像（動画等）から、識別対象が撮影された領域（部分画像）を抽出し、当該抽出された部分画像をクラスタリングする。特許文献１に開示された技術は、クラスタリングした結果を分類したクラスごとに、識別情報を自動又は手動にて付与することにより、学習用画像を生成する。また、特許文献１に開示された技術は、ユーザ入力した代表画像に類似する画像を抽出することにより、学習用画像の候補を生成する。

特許文献２は、複数の学習済みの検出器を用いて、画像から検出対象を検出する識別機に関する技術を開示する。特許文献２に開示された技術は、入力画像に対して複数の検出器が検出した検出結果を統合することにより、学習画像の候補となる画像領域と、スコアとを算出する。特許文献２に開示された技術は、算出したスコアと所定の採択率とに基づいて、上記学習済みの検出器を再学習するための学習画像を、学習画像の候補から選択する。

特許文献３は、識別器を学習するための教師データの作成方法を開示する。特許文献３に開示された技術は、教師データの基になる基礎データ（画像等）をユーザに提示し、当該基礎データに対してユーザが付与した第１のクラスを取得する。特許文献３に開示された技術は、当該第１のクラスに対して類似、共起、あるいは関連する情報に基づいて生成した第２のクラスをユーザに提示し、当該第２のクラスに対する評価を取得する。特許文献３に開示された技術は、ユーザによる評価を反映した第２のクラスと、第１のクラスと、基礎データとを関連付けて教師データを生成する。

なお、動画像データから静止画像を抽出する技術に関連して、特許文献４が開示されている。即ち、特許文献４は、動画像中の注目対象の動作速度に応じて、動画像中から静止画憎を適宜抽出する技術を開示する。特許文献４に開示された技術は、動画像中に含まれる注目対象の動作速度を算出し、その動作速度に合わせた時間間隔にて、当該動画像から静止画像を抽出する。

特開２０１１−１４５７９１号公報特開２０１２−１９０１５９号公報特開２０１３−０２５７４５号公報特開２００４−１１７６２２号公報

上記したように、機械学習システムを用いたデータ解析においては、教師データの準備に工数と労力を要する、とういう問題がある。特に、動画データの解析に必要となる教師データの準備は、動画を構成する大量の静止画像をもとに、人間の視覚に依存した方法を用いて行うことになる。このため、十分な量の教師データの収取には、多くの時間と工数を要する。

ここで、特許文献１に開示された技術は、実用的な性能を有する検出処理や、クラスタリング処理が利用可能であることを前提としている。係る検出処理やクラスタリング処理が利用できない場合、特許文献１に開示された技術は、適切な学習画像を収集できない可能性がある。

また、特許文献２に開示された技術は、所与の実用的な性能を有する識別器を用いて、当該識別器自体の再学習に用いられる学習データを収集する技術である。このため、特許文献２に開示された技術は、実用的な性能を有する識別器を構成するための学習データ（教師データ）を別途用意する必要があり、係る教師データの容易に多くの工数を要する可能性がある。

また、特許文献３に開示された技術は、ユーザによって基礎データに対して付与されたクラスに基づいて、複数のクラスを更に付与するものである。即ち、基礎データに対してユーザがクラスを付与する必要がある。このため、基礎データが大量に存在する場合、特許文献３に開示された技術は、基礎データに対するクラスの付与に関して、多くの工数を要する可能性がある。

また、特許文献４に開示された技術は、動画像に含まれる注目対象の動作速度に応じて、静止画の抽出間隔を調整する技術を開示するのみである。即ち、特許文献４に開示された技術は、動画像から静止画像を抽出する一つの具体的な技法を開示するにすぎない。特許文献４に開示された技術は、機械学習に用いる教師データの生成に関して直接適用可能な技術ではない。

本発明は、上記の事情を鑑みてなされたものである。

即ち、本発明は、時系列のデータから特定の基準に基づいて教師データの元となるデータを抽出し、その抽出したデータを分類することにより、教師データを効率的に生成するデータ処理装置等を提供することを主たる目的とする。

上記の目的を達成すべく、本発明の一態様に係るデータ処理装置は、以下の構成を備える。即ち、本発明の一態様に係るデータ処理装置は、時系列データから、特定タイミングにおける一部のデータである教師データ候補を抽出するデータ抽出部と、上記教師データ候補を分類可能なラベルと、当該ラベルが付与される上記教師データ候補とに基づいて、教師データを生成する教師データ生成部と、特定の上記教師データ候補と、上記時系列において当該特定の上記教師データ候補と異なるタイミングにおける他の上記教師データ候補との間の変化の程度に基づいて、当該特定の上記教師データ候補と当該他の上記教師データ候補との間に存在する上記時系列データから、上記教師データ候補を抽出する教師データ補完部と、を備え、上記教師データ生成部は、上記変化の程度が第１の基準よりも小さい場合に、当該特定の上記教師データ候補と当該他の上記教師データ候補との間に存在する上記時系列データから抽出された上記教師データ候補に対して、特定の上記教師データ候補又は他の上記教師データ候補のいずれかに付与された上記ラベルを付与し、当該ラベルが付与された上記データを上記教師データに追加する。

また、本発明の一態様に係るデータ処理方法は、以下の構成を備える。即ち、本発明の一態様に係るデータ処理方法は、情報処理装置が、時系列データに含まれる特定タイミングにおける一部のデータである特定の教師データ候補と、上記時系列データに含まれる上記特定タイミグとは異なるタイミングにおける一部のデータである他の上記教師データ候補との間の変化の程度に基づいて、当該特定の上記教師データ候補と当該他の上記教師データ候補との間に存在する上記時系列データから、上記教師データ候補を抽出し、上記変化の程度が第１の基準よりも小さい場合に、当該抽出された上記教師データ候補に対して、特定の上記教師データ候補又は他の上記教師データ候補のいずれかに付与された上記教師データ候補を分類可能なラベルを付与し、当該ラベルが付与された上記データに基づいて上記教師データを生成する。

また、同目的は、上記構成を有するデータ処理装置、並びに対応するデータ処理方法を、コンピュータによって実現するコンピュータ・プログラム、及び、そのコンピュータ・プログラムが格納されている、コンピュータ読み取り可能な記憶媒体によっても達成される。

本発明によれば、時系列のデータから特定の基準に基づいて教師データの元となるデータを抽出し、その抽出したデータを分類することにより、教師データを効率的に生成するデータ処理装置等が提供される。

図１は、本願発明の第１の実施形態におけるデータ処理装置の機能的な構成を例示するブロック図である。図２は、本願発明の各実施形態における、設定情報テーブルの具体的な内容を例示する図である。図３は、本願発明の各実施形態において、ユーザ等に教師データ候補を提示する画面の具体例を示す図である。図４Ａは、本願発明の第１の実施形態における、静止画像群（教師データ候補）を作成する処理を例示するフローチャートである。図４Ｂは、本願発明の第１の実施形態における、教師データを作成する処理を例示するフローチャートである。図５は、本願発明の第２の実施形態におけるデータ処理装置の機能的な構成を例示するブロック図である。図６は、本願発明の第２の実施形態における、背景画像との差分に基づいて静止画像群（教師データ候補）を作成する処理を例示するフローチャートである。図７は、本願発明の第３の実施形態におけるデータ処理装置の機能的な構成を例示するブロック図である。図８は、本願発明の第３の実施形態における、モデルデータの作成処理を例示するフローチャートである。図９は、本願発明の第３の実施形態における、教師データを作成する処理を例示するフローチャートである。図１０は、本願発明の第４の実施形態におけるデータ処理装置の機能的な構成を例示するブロック図である。図１１は、本願発明の第４の実施形態における、静止画像群（教師データ候補）を作成する処理を例示するフローチャートである。図１２は、本願発明の第４の実施形態における、教師データを作成する処理を例示するフローチャートである。図１３は、本願発明の第５の実施形態におけるデータ処理装置の機能的な構成を例示するブロック図である。図１４は、本願発明の各実施形態に係る、データ処理装置の各構成要素を実現可能な情報処理装置のハードウェア構成を例示したブロック図である。

次に、本発明を実施する形態について図面を参照して詳細に説明する。なお、以下において、動画像を構成するデータを「動画データ」、あるいは、「動画」と称する場合がある。また、静止画像を構成するデータを「静止画像データ」、あるいは、「静止画像」と称する場合がある。

以下に説明する実施形態は、機械学習システムを用いた映像解析（映像解析システム）において、その機械学習システムの学習に用いる教師データを作成する場合を想定している。この場合、教師データの作成は、用意された時系列データである動画データを構成する各静止画像データに対して、当該各静止画像を分類するラベルを付与する作業を含む。なお、係るラベルは、各静止画像が特定の条件にあてはまるか否かによって付与されてもよい。この場合、各静止画像は、当該静止画像が特定の条件にあてはまるか否かにより分類される。

そのような映像解析システムは、例えば、動画データの中から特定の条件にあてはまる場面を見つける、又は、動画データ全体を特定の条件にあてはまるか否かにより分類するという目的に適用可能である。

なお、以下の実施の形態に記載されている構成は単なる例示であり、本願発明の技術範囲はそれらには限定されない。即ち、本願発明の技術範囲は、下記に例示する映像解析には限定されず、音声や各種信号波等、任意の時系列データの解析に適用可能である。

なお、以下の各実施形態の説明において参照するブロック図（、図１、図５、図７、図１０、及び、図１３）は、機能単位のブロックを図示する。これらの図においては、各装置を１つの機器により実現する態様が例示されるが、各実施形態を実現する構成はこれに限定されない。すなわち、以下の各実施形態の構成は、各ブロックが物理的に分かれた構成により実現されてもよく、論理的に分かれた構成により実現されてもよい。

＜第１の実施形態＞
本願発明の第１の実施形態に係るデータ処理装置１００について、図１を参照して説明する。

データ処理装置１００は、画像データ抽出部１０１と、教師データ作成部１０２と、教師データ補完部１０３と、設定情報テーブル１０４とを有する。データ処理装置１００は、更に、動画データ記憶部１０５と、提示部１１０とを有してもよい。以下、データ処理装置１００を構成するこれらの各構成要素について説明する。

画像データ抽出部１０１は、動画データの中から教師データ作成に使用する静止画像を抽出する。以下、画像データ抽出部１０１により抽出された静止画像を、「教師データ候補」と称する場合がある。また、教師データ候補が抽出された動画データを「元の動画データ」あるいは「元データ」と称する場合がある。換言すると、教師データ候補は、時系列データである元の動画データに含まれる、特定のタイミングにおける静止画像を表すデータである。

画像データ抽出部１０１は、動画データにおける場面ごとの映像の変化量を求める（算出する）変化量算出部１０１ａを有する。

教師データ作成部１０２は、画像データ抽出部１０１により抽出された静止画像（教師データ候補）に対してラベルを付与することにより、教師データを作成する。

教師データ作成部１０２は、提示部１１０を用いて、教師データ候補を、本装置１００のユーザやシステム管理者等（以下「ユーザ等」と称する）に対して提示してもよい。教師データ作成部１０２は、提示された各教師データ候補に対してユーザ等が入力（選択）したラベルを、当該教師データ候補に対して付与する。ユーザに対する教師データ候補の提示方法については、後述する。

教師データ作成部１０２は、作成した教師データを出力する教師データ出力部１０２ａを有する。

教師データ補完部１０３は、上記教師データ作成部１０２によるラベルが付与されていない動画データから、必要に応じて追加の教師データ候補を抽出する。そのように抽出された追加の教師データ候補には、所定の条件に応じてラベルが付与される。

設定情報テーブル１０４は、教師データの作成に用いられる各種設定情報を保持する。設定情報テーブル１０４が保持する情報を、図２に例示する。図２に例示する各閾値（静止画像追加抽出の閾値２０２、ラベル追加付与の閾値２０４、背景画像変化閾値２０５、背景画像差分閾値２０７、信頼度閾値２０８）は、本装置の開発段階や運用段階等における、予備的な実験、蓄積された過去のデータ、ユーザ等の要望、あるいは、本装置の開発者が有するノウハウ等に基づいて、予め設定されてもよい。図２に例示された各設定情報の詳細な内容については後述する。設定情報テーブル１０４は、テーブル構造に限定されず、任意のデータ形式により各種設定情報を保持してよい。

動画データ記憶部１０５は、教師データの基になる動画データ（元データ）を保持する。教師データを抽出する元となる動画データ（以下、単に「元データ」と称する場合がある）は、予め収集され、動画データ記憶部１０５に登録される。動画データ記憶部１０５は、例えば、任意のデータベースやファイル等を用いて構成されてもよい。

提示部１１０は、教師データ候補をユーザ等に提示するＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ：ユーザ・インタフェース）画面１１０ａを有する。提示部１１０は、例えば、教師データ作成部１０２における処理に応じてＵＩ画面１１０ａに教師データ候補を提示し、ユーザ等からの入力を受け付ける。提示部１１０は、ユーザ等から受け付けた入力を、教師データ作成部１０２に通知してもよい。なお、提示部１１０は、周知の画面表示装置等に構成されてもよい。

データ処理装置１００を構成する上記各構成要素の間は、任意の周知の通信手段（通信バスや、通信ネットワーク等）により通信可能に接続されている。

以下、上記のように構成された本実施形態におけるデータ処理装置１００の動作について、図４Ａ及び図４Ｂに例示するフローチャートを参照して説明する。図４Ａは、本実施形態における画像データ抽出部１０１による、静止画像群（教師データ候補）の作成処理を例示するフローチャートである。図４Ｂは、教師データ作成部１０２による、教師データの作成処理を例示するフローチャートである。

まず、画像データ抽出部１０１は、動画データ記憶部１０５に記憶されている動画データから、機械学習システムの学習に用いる教師データを作成する元データである動画データを取得する（ステップＳ４０１Ａ）。画像データ抽出部１０１は、例えば、図示しないユーザ等からの要求に基づいて、動画データ記憶部１０５に記憶されている動画データの一部又は全部を参照又は取得してもよい。

次に、画像データ抽出部１０１は、設定情報テーブル１０４を参照して、動画データから静止画像を抽出する時間間隔（静止画像抽出間隔、図２に例示する符号２０１）を取得する（ステップＳ４０２Ａ）。この静止画像抽出間隔２０１は、ユーザ等によって、設定情報テーブル１０４に予め設定されていてもよい。

画像データ抽出部１０１は、静止画像抽出間隔２０１に設定された時間間隔で、上記取得した動画データから静止画像を抽出する（選択する）（ステップＳ４０３Ａ）。

例えば、この静止画像抽出間隔が「１秒」に設定されている場合、画像データ抽出部１０１は、動画データの中から１秒ごとに静止画像を抽出する。

なお、動画データの中から静止画像を抽出する具体的な方法は、動画データの形式等に応じて複数存在する。係る方法は、いずれも周知技術を採用してよいことから、詳細な説明は省略する。

次に、画像データ抽出部１０１は、静止画像抽出間隔２０１に設定された間隔（例えば１秒）で抽出された静止画像のそれぞれについて、以下に説明する処理を繰り返す（ステップＳ４０４Ａ乃至ステップＳ４０８Ａ）。

まず、画像データ抽出部１０１は、特定の静止画像と、当該特定の静止画像の直前に抽出された（抽出された）静止画像との間の差分を計算する（ステップＳ４０５Ａ）。

ここで、当該特定の静止画像の直前に抽出された静止画像は、当該特定の静止画像より、静止画像抽出間隔２０１に設定された間隔（例えば１秒）だけ前に抽出された静止画像である。

画像データ抽出部１０１は、変化量算出部１０１ａを用いて、係る画像間の差分を計算してもよい。変化量算出部１０１ａは、例えば、２枚の画像間の差分を計算する方法として、静止画像を構成する画素ごとの差分を計算するフレーム間差分法等の周知の計算方法を用いてよい。上記に限らず、変化量算出部１０１ａは、周知の任意の方法により画像間の差分を計算してよい。

変化量算出部１０１ａによる差分の計算は、換言すると、特定の静止画像と、当該特定の静止画像の直前に抽出された（取り出された）静止画像との間の変化の程度を算出しているともとらえられる。

次に、画像データ抽出部１０１は、ステップＳ４０５Ａにおいて計算した画像間の差分の値が、設定情報テーブル１０４に設定されている「静止画像追加抽出の閾値（第２の基準値）」（図２における符号２０２）より大きいか判定する（ステップＳ４０６Ａ）。

なお、静止画像追加抽出の閾値２０２は、ユーザ等により、設定情報テーブル１０４に予め設定されてもよい。

ステップＳ４０６Ａに判定結果がＹＥＳの場合、画像データ抽出部１０１は、元の動画データにおいて、特定の静止画像とその前に抽出された静止画像との間の部分に撮像されている映像が大きく変化していると判定する。

この場合、画像データ抽出部１０１は、当該特定の静止画像と、その前に抽出された静止画像との間（例えば１秒間）に撮像されている動画データから、更に複数枚の静止画像を抽出する（ステップＳ４０７Ａ）。

以上をまとめると、画像データ抽出部１０１は、当該特定の静止画像と、その前に抽出された静止画像との間の変化の程度（画像間の差分値）が、第２の基準値が超えるか否かを確認する。そして、係る画像間の差分値が、第２の基準値が超える場合には、当該特定の静止画像と、その前に抽出された静止画像との間に撮像されている動画データから、更に複数枚の静止画像を抽出する。

ステップＳ４０７Ａにおいて抽出される静止画像の具体的な枚数は、例えば、予め設定情報テーブル１０４に「追加抽出枚数（図２における符号２０３）」として設定されている。

上記ステップＳ４０７Ａにおいて更に抽出された静止画像は、後述するステップＳ４０２Ｂにおいて、ユーザに対して提示される。

ステップＳ４０７Ａにおける処理の後、画像データ抽出部１０１は、ステップＳ４０４Ａから処理を続行する。

ステップＳ４０６Ａによる判定結果がＮＯの場合、画像データ抽出部１０１は、ステップＳ４０４Ａから処理を続行する。

ステップＳ４０３Ａにおいて抽出した全ての画像に対する処理が終了した場合（ステップＳ４０８Ａ）、画像データ抽出部１０１は、抽出した静止画像群を、教師データ作成用の教師データ候補として教師データ作成部１０２に渡す（ステップＳ４０９Ａ）。

なお、この場合、画像データ抽出部１０１が、係る教師データ候補を教師データ作成部１０２に提供（送信等）してもよく、教師データ作成部１０２が、係る教師データ候補を画像データ抽出部１０１から取得してもよい。教師データ作成部１０２は、係る静止画像（教師データ候補）を用いて、教師データを生成する。

上記説明においては、画像データ抽出部１０１は、ステップＳ４０６Ａにおいて、画像間の差分値が所定の基準値（第２の基準値）よりも大きいか否かを判定する。上記に限定されず、画像データ抽出部１０１は、例えば、ステップＳ４０６Ａにおいて、画像間の差分値が所定の基準値（第２の基準値）以上か否かを判定してもよい。

次に、教師データ作成部１０２における、教師データの作成処理について説明する。

先ず、教師データ作成部１０２は、画像データ抽出部１０１から、画像データ抽出部１０１が抽出した静止画像群（教師データ候補）を取得する（ステップＳ４０１Ｂ）。

次に、教師データ作成部１０２は、取得した静止画像群に含まれる静止画像をＵＩ画面１１０ａに表示する（ステップＳ４０２Ｂ）。教師データ作成部１０２は、図３に例示するように、静止画像群に含まれる静止画像を、順次ＵＩ画面１１０ａに表示してもよい。

ユーザ等は、この画面を参照しながら、表示されたそれぞれの静止画像に対して適切なラベル付け作業を行う。具体的には、ユーザ等は、例えば、ＵＩ画面１１０ａに表示された静止画像（３０１ａ乃至３０１ｆ）を選択し、ラベルを表すボタン（３０２ａ、３０２ｂ）を押下することにより、選択した静止画像に対してラベルを付与してもよい。なお、ＵＩ画面１１０ａの構成は、図３に例示した構成に限定されず、ユーザが静止画像に対してラベルを付与可能な任意の構成を採用して良い。

次に、教師データ作成部１０２は、提示した静止画像（教師データ候補）に対するラベル付与結果を取得する（ステップＳ４０３Ｂ）。この場合、提示部１１０は、各静止画像に対して付与されたラベルを教師データ作成部１０２に通知してもよい。また、教師データ作成部１０２は、提示部１１０から、各静止画像に対して付与されたラベルを取得してもよい。

次に教師データ作成部１０２、及び、教師データ補完部１０３は、ステップＳ４０４Ｂ乃至ステップＳ４１１Ｂにより、必要に応じて追加の静止画像を教師データに加える。以下、係る処理について説明する。

まず、教師データ補完部１０３は、ステップＳ４０１Ｂ乃至Ｓ４０３Ｂにおいてラベル付けされた静止画像（教師データ候補）のうち、隣接する２枚の教師データ候補のラベルを確認する（ステップＳ４０５Ｂ）。ここで、隣接する２枚の教師データ候補は、例えば、元の動画データの中から抽出された静止画像のうち、時系列において隣接する静止画像である。

隣接する２枚の教師データ候補に付与されたラベルが等しい場合（ステップＳ４０６ＢにおいてＹＥＳ）、教師データ補完部１０３は、それらの間の差分が、ラベル追加付与の閾値（第１の基準値、図２に例示する２０４）より小さいか確認する（ステップＳ４０７Ｂ）。

ラベル追加付与の閾値（図２の２０４）は、例えば、ユーザ等により設定情報テーブル１０４に予め設定されてもよい。この場合、教師データ補完部１０３は、設定情報テーブル１０４に設定された当該ラベル追加付与の閾値（図２の２０４）を参照する。なお、ステップＳ４０７Ｂにおいて、教師データ補完部１０３は、隣接する静止画像の間の差分が、特定の基準値（第１の基準値）以下か否かを判定してもよい。

教師データ補完部１０３は、ステップＳ４０７Ｂにおいて、時系列において隣接する２枚の教師データ候補の間の変化の程度を確認しているととらえることも可能である。

次に、当該静止画像の間の差分が第１の基準値よりも小さい場合（ステップＳ４０８ＢにおいてＹＥＳ）、教師データ補完部１０３は、当該２枚の静止画像の間にはさまれた区間に存在する画像についても、同じラベルを付与可能であると判断する。即ち、教師データ補完部１０３は、元の動画データにおいて、当該２枚の静止画像の間にはさまれた区間に存在する静止画像についても、同じラベルを付与可能であると判断する。

そして、教師データ補完部１０３は、係る判断結果を教師データ作成部１０２に通知する。

係る通知結果を受け付けた教師データ作成部１０２は、画像データ抽出部１０１から、該当する２枚の静止画像の間に存在する静止画像を受け取る（ステップＳ４０９Ｂ）。

ステップＳ４０９Ｂにおいて、教師データ作成部１０２は、例えば、元の動画データにおいて当該２枚の静止画像撮像されているタイミングを特定可能な情報を画像データ抽出部１０１に通知してもよい。係る通知を受け付けた画像データ抽出部１０１は、元の動画データから、当該２枚の静止画像が撮像されているタイミングの間（以下「第１の追加抽出区間」と称する）に存在する静止画像を抽出し、教師データ作成部１０２に提供する。

なお、画像データ抽出部１０１が第１の追加抽出区間から抽出する画像の枚数は、任意に定めてよい。係る枚数は、例えば、設定情報テーブル１０４に予め設定されてもよい。また、係る枚数は、例えば、第１の追加抽出区間における動画データに撮影された全フレーム数としてもよい。この場合、例えば、動画データの撮影フレーム数が毎秒３０フレームであり、第１の追加抽出区間が「１秒」である場合、画像データ抽出部１０１は、３０枚の静止画像を更に抽出し、教師データ作成部１０２に提供する。

教師データ作成部１０２は、上記ステップＳ４０９Ｂにおいて受け取った追加の静止画像に対して、上記した隣接する２枚の静止画像に対して付与されたラベルと同じラベルを付与する（ステップＳ４１０Ｂ）。

なお、上記ステップＳ４０６ＢにおいてＮＯの場合、又は、ステップＳ４０８ＢにおいてＮＯの場合、教師データ作成部１０２及び教師データ補完部１０３は、ステップＳ４０４Ｂから処理を繰り返す。

全ての静止画像に対する上記各ステップにおける処理が終了した場合（ステップＳ４１１Ｂ）、教師データ作成部１０２は、ラベルが付与された教師データ候補を教師データとして出力する（ステップＳ４１２Ｂ）。作成された教師データは、教師データ出力部１０２ａにより出力される。教師データ出力部１０２ａによる教師データの出力先は、適宜定めてよい。

上記のように構成された本実施形態におけるデータ処理装置１００は、教師データの元となる動画データから、特定の時間間隔で静止画像を抽出可能である。例えば、動画データから静止画像を１秒間隔で抽出した場合、元の動画ファイルが１秒間に３０フレームのデータを有する構成であれば、ラベル付けを行う静止画像の数は３０分の１に削減される。

このように、本実施形態におけるデータ処理装置１００は、動画データに含まれる静止画像に対して、実際にユーザ等がラベル付けを行う静止画像の数を削減可能である。

ここで、単純にラベル付けを行う画像の数を削減すると、作成される教師データの量が減ってしまう場合がある。

これに対して、本実施形態におけるデータ処理装置１００は、抽出した２枚の静止画像間の差分が第１の基準値よりも小さい場合は、それぞれの静止画像が撮像されたタイミングの間に存在する静止画像について、当該２枚の静止画像と同様のラベルを付与する。即ち、本実施形態におけるデータ処理装置１００は、抽出した２枚の静止画像の間の変化の程度に基づいて、当該２枚の画像の間存在する時系列データ（本実施系においては動画データ）から、追加の教師データ候補を抽出する。そして、本実施形態におけるデータ処理装置１００は、当該抽出された教師データ候補に、当該２枚の静止画像と同様のラベルを付与する。

これにより、本実施形態におけるデータ処理装置１００は、教師データの減少を抑制可能であり、適切な数の教師データを作成可能である。

また、本実施形態におけるデータ処理装置１００は、特定の時間間隔（静止画像抽出間隔２０１）により抽出した２枚の静止画像の差分が第２の基準値よりも大きい場合には、係る２枚の静止画像の間に挟まれた区間に含まれる動画データから、静止画像を追加して抽出する。これは、上記特定の時間間隔よりも短い時間間隔により、動外データから静止画像を抽出することと同様である。

動画データの中で映像の変化が激しい個所については、映像の内容が短い時間間隔で変化する。この場合、適切な教師データを作成するには、元の動画データから短い時間間隔で静止画像を抽出することが望ましいと考えられる。

本実施形態におけるデータ処理装置１００は、動画データの中で映像の変化が少ない箇所からは、一定間隔で画像を抽出することにより、ラベル付けの対象を削減可能である。また、本実施形態におけるデータ処理装置１００は、動画データの中で映像の変化が激しい個所については、より短い時間間隔により静止画像を抽出することにより、適切な教師データを作成可能である。

以上より、本実施形態におけるデータ処理装置１００は、時系列の動画データから、特定の基準（例えば、静止画像抽出間隔２０１、第１の基準値２０４、第２の基準値２０２、等）に基づいて抽出したデータを分類（ラベル付け）することにより、教師データを効率的に生成可能である。

＜第１の実施形態の変形例＞
次に、上記第１の実施形態の変形例について説明する。本変形例におけるデータ処理装置１００の構成は、上記第１の実施形態と同様としてもよい。

上記第１の実施形態において、変化量算出部１０１ａは、動画データから特定の時間間隔（静止画像抽出間隔２０１）により抽出された２枚の静止画像間の差分を計算する。

本変形例における変化量算出部１０１ａは、当該２枚の静止画像がどの程度相互に類似しているかを表す類似度を算出してもよい。なお、係る類似度は、当該２枚の静止画像間の変化の程度（度合）を表しているともとらえられる。

この場合、例えば、画像データ抽出部１０１は、当該２枚の静止画像間の類似度が第１の類似度基準（不図示）よりも小さい（即ち、類似度合いが小さい）場合に、追加の静止画像を抽出してもよい。なお、係る第１の類似度基準は、ユーザ等により、設定情報テーブル１０４に予め登録されてもよい。なお、当該２枚の静止画像間の類似度が第１の類似度基準よりも小さい場合、係る画像間の差分は大きい。

また、上記第１の実施形態において、教師データ補完部１０３は、時系列において隣接する２枚の静止画像間の差分を確認する（ステップＳ４０７Ｂ）。

これに対して、本変形例における教師データ補完部１０３は、時系列において隣接する２枚の静止画像間の類似度を確認してもよい。なお、係る類似度は、当該２時系列において隣接する枚の静止画像間の変化の程度を表しているともとらえられる。

この場合、例えば、教師データ補完部１０３は、時系列において隣接する２枚の静止画像間の類似度が第２の類似度基準よりも大きい（即ち、類似度合いが大きい）場合に、それら２枚の静止画像の間に存在する動画データから、教師画像候補を追加抽出してもよい。なお、係る第２の類似度基準は、ユーザ等により、設定情報テーブル１０４に予め登録されてもよい。なお、当該２枚の静止画像間の類似度が第２の類似度基準よりも大きい場合、係る画像間の差分は小さい。

なお、画像データ抽出部１０１及び教師データ補完部１０３は、任意の周知の技術を用いて、２枚の画像間の類似度を算出してよい。上記のように構成された本変形例におけるデータ処理装置１００は、上記第１の実施形態と同様の効果を奏する。

＜第２の実施形態＞
次に、本願発明の第２の実施形態について、図５を参照して説明する。以下においては、本実施形態における特徴的な構成について説明する。上記第１の実施形態と同様の構成については、同様の参照符号を付し、詳細な説明を省略する。

まず、本実施形態の概要について説明する。例えば、解析対象の動画データが監視カメラ映像などの場合、係る映像は、人や車などの動体が写っている個所（場面）とそうでない個所（場面）とに分けられる。以下、動体の写っていない個所の静止画像を「背景画像」と称する場合がある。

動画データから抽出した静止画像と背景画像との差分が大きい場合は、係る静止画像には大きな（撮影画像中に占める面積の割合が大きい）動体が写っていると判断可能である。これに対して、背景画像との差分が小さい静止画像には、大きな動体が写っていないと判断可能である。

これにより、動きの大きさ（激しさ）とは別に、写された動体の大きさに基づいて、静止画像を教師データ候補として抽出するか否かを判断することが可能である。

例えば、写された動体が小さい（画像中に占める面積の割合が小さい）画像を教師データとして学習した機械学習システムを用いて映像を解析する場合、解析結果について十分な精度が得られない可能性がある。即ち、写された動体が小さいことから、当該画像に対する機械学習システムの識別力が低下する可能性があり、これに伴い、映像解析処理の精度が低下する可能性がある。

本実施形態におけるデータ処理装置１００は、このような画像データを教師データ候補の抽出対象から外す。これにより、本実施形態におけるデータ処理装置１００は、ラベル付けの対象となるデータを削減することが可能であり、作業の効率化を実現可能である。また、本実施形態におけるデータ処理装置１００は、解析結果の精度を低下させない、適切な教師データを提供可能である。

以下、本実施形態におけるデータ処理装置１００の具体的な構成について説明する。

本実施形態におけるデータ処理装置１００は、画像データ抽出部１０１が背景画像抽出部１０１ｂを有する点において、上記第１の実施形態と相違する。

背景画像抽出部１０１ｂは、動画の中で動体が写されていない場面を背景画像として取り出す（抽出する）。

具体的には、背景画像抽出部１０１ｂは、例えば、教師データの元になる動画データの中から、以下の条件（Ａ）及び（Ｂ）にあてはまる区間を、背景画像が写っている区間であると判断する。下記の条件（Ａ）及び（Ｂ）に該当するか否かを判断する基準は、いずれも設定情報テーブル１０４に予め設定されていてもよい。
（Ａ）動画データにおける特定の区間全体の映像の変化量が背景画像変化閾値（第３の基準値、図２における符号２０５）より小さい、
（Ｂ）そのような特定の区間が、背景画像時間閾値（図２における符号２０６）が示す時間以上連続している。

上記に限定されず、背景画像抽出部１０１ｂは、周知の具体的な技術（背景差分法等を用いて、動画像中における背景画像を抽出してもよい。

本実施形態におけるデータ処理装置１００のその他の構成は、上記第１の実施形態と同様としてよいので、詳細な説明を省略する。

以下、本実施形態におけるデータ処理装置１００の動作について、図６に例示するフローチャートを参照して説明する。

まず、画像データ抽出部１０１は、上記第１の実施形態と同様、動画データ記憶部１０５から教師データの元データである動画データを受け取る（ステップＳ６０１）。

次に、画像データ抽出部１０１は、ステップＳ６０１において受け取った動画データに対して、背景画像抽出部１０１ｂを用いて、動体が映っていない場面の静止画像である「背景画像」を抽出する（ステップＳ６０２）。背景画像抽出部１０１ｂにおける背景画像の抽出処理は、上記説明した通りである。

次に、画像データ抽出部１０１は、ステップＳ６０１において受け取った動画データから、静止画像を抽出する（ステップＳ６０３）。

ステップＳ６０２における静止画像の抽出処理は、例えば、上記第１の実施形態における画像データ抽出部１０１による静止画像の抽出処理（図４Ａに例示するステップ４０１Ａ乃至４０９Ａ）と同様としてもよい。

次に、画像データ抽出部１０１は、動画データから抽出した全ての静止画像に含まれる各静止画像に対して、以下の処理を繰り返し実行する（ステップＳ６０４乃至ステップＳ６０８）。

まず、画像データ抽出部１０１は、ステップＳ６０３において抽出した静止画像と、ステップＳ６０２において抽出した背景画像との差分を計算する（ステップＳ６０５）。

ステップＳ６０５において算出した差分が、設定情報テーブル１０４に設定された背景画像差分閾値より大きい場合（ステップＳ６０６においてＹＥＳ）、画像データ抽出部１０１は、当該静止画像に解析すべき動体が写っている場面であると判断する。係る背景画像差分閾値は、予め設定情報テーブル１０４に設定されていてもよい（第４の基準値、図２における符号２０７）。

この場合、画像データ抽出部１０１は、当該静止画像を、教師データ作成部１０２に渡す静止画像群（教師データ候補）に追加する（ステップＳ６０７）。

抽出した静止画像と、背景画像との差分が背景画像差分閾値以下の場合（ステップＳ６０６においてＮＯの場合）は、画像データ抽出部１０１は、当該静止画像には解析すべき動体は写っていないと判断する。この場合、画像データ抽出部１０１は、当該静止画像を、教師データ作成部１０２には渡す静止画像群（教師データ候補）に追加しない。

ステップＳ６０６においてＮＯの場合、及び、ステップＳ６０７における処理が終了した場合、画像データ抽出部１０１は、ステップＳ６０４に戻り、ステップＳ６０３において抽出した他の静止画像に対して、処理を続行する。

なお、上記ステップＳ６０６において、画像データ抽出部１０１は、抽出した静止画像と背景画像との差分が、特定の基準値（第４の基準値）以上か否かを判定してもよい。

ステップＳ６０４乃至ステップＳ６０８における繰り返し処理が終了した後、画像データ抽出部１０１は、教師データ作成部１０２に対して、静止画像群（教師データ候補）を渡す。

画像データ抽出部１０１から教師データ候補を受け付けた教師データ作成部１０２は、係る教師データ候補に基づいて、教師データを作成する（ステップＳ６０９）。教師データ作成部１０２は、例えば、上記第１の実施形態と同様の処理により教師データを作成してもよい。

なお、上記において、画像データ抽出部１０１は、ステップＳ６０７において、背景画像との差分値が所定の基準値より大きい静止画像を、１枚ずつ教師データ作成部１０２に渡してもよい。

上記のように構成されたデータ処理装置１００は、例えば、動画データに撮影された、特定の条件にあてはまる動体を検知する映像解析システムに用いられる機械学習システムに対する学習データを生成する目的に有効である。係る特定の条件としては、例えば、人通りの有無等、任意の条件が設定されてよい。

例えば、検出対象の動体が遠方に写っている場合など、動体が描写された領域が小さい場合には、当該画像が検出対象であるか否かを判別することが困難な場合がある。そのような画像に基づいた教師データにより機械学習システムを学習した場合、映像解析の精度（対象物の検知精度）が低下する可能性がある。これに伴い、当該映像解析システムを使用した場合に、見落としや誤検出率が高くなる可能性がある。そのような場合は、判別の難しい動体についてはあえて教師データとして採用しないことが運用上有効である。

本実施形態におけるデータ処理装置１００は、動画データから抽出した静止画像と、背景画像との差分が所定の基準値より大きいか否かに基づいて、当該静止画像を教師データ候補に追加するか否かを判定する。換言すると、本実施形態におけるデータ処理装置１００は、動画データから抽出した静止画像と、背景画像との差異の程度に基づいて、当該静止画像を教師データ候補として採用するか否かを判定する。

本実施形態においては、背景画像との差分が小さい（即ち、検出対象の判別が困難である）静止画像は、教師データとして採用されない。これより、本実施形態におけるデータ処理装置１００は、教師データとして妥当ではない静止画像を、教師データ候補から排除することにより、ラベル付けの対象を適正な範囲に削減可能である。

また、本実施形態におけるデータ処理装置１００は、上記第１の実施形態と同様の処理を実行可能であることから、上記第１の実施形態と同様の効果を奏する。

以上より、本実施形態におけるデータ処理装置１００は、時系列の動画データから、特定の基準（例えば、静止画像抽出間隔２０１、第１の基準値２０４、第２の基準値２０２、第４の基準値２０７等）に基づいて抽出したデータを分類（ラベル付け）することにより、教師データを効率的に生成可能である。

＜第２の実施形態の変形例＞
次に、上記説明した第２の実施形態に対する変形例について説明する。本変形例におけるデータ処理装置１００の構成は、上記第２の実施形態と同様としてよい。

上記説明した第２の実施形態においては、背景画像抽出部１０１ｂが、動画データの中から背景画像を抽出する。これに対して、本変形例においては、データ処理装置１００は、教師データを作成する元データである動画データごとに、予め背景画像を作成する。そして、データ処理装置１００は、予め作成した背景画像と、当該背景画像を作成する元データである動画データとを関連付けて（対にして）、記憶装置１０５に保存する。

上記のように構成された本変形例におけるデータ処理装置１００は、背景画像を予め抽出することにより、教師データの作成に際して、背景画像の抽出に必要となる処理を軽減可能である。

また、本変形例におけるデータ処理装置１００は、上記第２の実施形態と同様の処理を実行可能であることから、上記第２の実施形態と同様の効果を奏する。

＜第３の実施形態＞
次に、本願発明の第３の実施形態について、図７を参照して説明する。以下においては、本実施形態における特徴的な構成について説明する。上記第１及び第２の実施形態と同様の構成については、同様の参照符号を付し、詳細な説明を省略する。

まず、本実施形態の概要について説明する。

本実施形態におけるデータ処理装置１００は、教師データがある程度作成された際、その教師データを用いて機械学習システムを学習し、映像解析に用いるモデルデータを作成する。

本実施形態におけるデータ処理装置１００は、更なる教師データを作成する際に、上記作成したモデルデータを用いて、当該教師データの元となる動画データに対する映像解析処理を事前に実行する。

ここで、一般的に、機械学習システムを用いた映像解析においては、解析結果の確からしさを示すデータ（数値）である「信頼度」が求められる。係る信頼度は、機械学習システムにおいて用いられる具体的な学習アルゴリズムや、生成されるモデルデータに応じて、適宜具体的な算出方法を用いて算出される。例えば、当該信頼度は、画像解析システムにより特定の画像を解析した結果に関する確率値を用いて表されてもよい。即ち、当該特定の画像があるカテゴリに属する確率が確率値Ｎ（例えば、Ｎは０以上１以下の値）の場合、映像解析システムは、信頼度として確率値Ｎを採用してもよい。例えば、機械学習システムが確率モデルを採用する場合、当該信頼度は、解析結果（識別結果）を表す確率値を用いて表されてもよい。上記に限定されず、信頼度の算出方法は、適宜適切に選択されてよい。

上記した信頼度が高いほど、映像解析の結果が正しい確率が高く、低い場合は映像解析の結果が誤りである可能性が高い。更に、一般的に、映像解析に必要な学習量が十分ではない場合には、信頼度が低い値を示すことが知られている。

以下、ある時点までに作成された教師データにより学習された機械学習システムを用いた、画像データに対する映像解析の結果を「事前解析結果」と称する場合がある。

本実施形態におけるデータ処理装置１００は、教師データを作成する際、ある場面（シーン）を写した画像データに対する事前解析結果に関する信頼度が、予め設定した基準よりも高いか（あるいは基準以上であるか）否かを判定する。

本実施形態におけるデータ処理装置１００は、事前解析結果の信頼度が予め設定した基準よりも高い場合、その場面の解析に必要となる機械学習システムの学習量は十分であると判断する。この場合、本実施形態におけるデータ処理装置１００は、当該画像データを、教師データの対象から外す。

これにより、本実施形態におけるデータ処理装置１００は、教師データ作成の作業量を削減可能である。即ち、本実施形態におけるデータ処理装置１００は、教師データの作成が進んで学習量が増え、十分な信頼度により解析可能な場面（シーン）が増えるほど、学習対象となる教師データを削減可能である。

次に、本実施形態におけるデータ処理装置１００の構成について説明する。本実施形態におけるデータ処理装置１００は、上記各実施形態において説明した構成要素に加えて、映像解析部１０６と、教師データ記憶部１０７と、モデルデータ記憶部１０８と、解析結果記憶部１０９と、を有する。また、本実施形態における教師データ作成部１０２は、信頼度受信部１０２ｂを有する。以下、それぞれの構成要素について説明する。

データ記憶部１０７は、教師データ出力部１０２ａが出力した教師データを保持（記憶）する。データ記憶部１０７は、例えば、任意のデータベースを用いて構成されてもよい。

モデルデータ記憶部１０８は、教師データ出力部１０２ａから出力された教師データを用いて機械学習システム（不図示）の学習処理を実行した結果をモデル化したデータ（モデルデータ）を保持（記憶）する。モデルデータ記憶部１０８は、例えば、任意のファイルやデータベースを用いて構成されてもよい。

本実施形態における映像解析部１０６は、教師データ学習部１０６ａと、データ解析部１０６ｂと、信頼度算出部１０６ｃを有する。映像解析部１０６は、時系列データである動画データを解析する、時系列データ解析部として機能する。

具体的には、映像解析部１０６は、モデルデータ記憶部１０８に保持されるモデルデータを用いて動画データ（時系列データ）を解析することにより、当該動画データに含まれるデータである静止画像に対して付与すべきラベルを判定する。また、本実施形態における映像解析部１０６は、動画データを解析した結果（ラベルを付与した結果）に関する信頼度を算出する。以下、映像解析部１０６の各構成要素について説明する。

教師データ学習部１０６ａは、上記教師データ記憶部１０７に記憶された教師データを用いて、機械学習システムの学習処理を実行する。

データ解析部１０６ｂは、機械学習システムの学習結果であるモデルデータを用いて、映像解析処理を実行する。

信頼度算出部１０６ｃは、データ解析部１０６において解析された画像データの解析結果に対する信頼度を算出する。信頼度は、解析結果がどの程度確からしいかを示す値（数値）でああり、映像解析システムにおいて一般に用いられている値である。信頼度算出部１０６ｃは、周知の技術により、係る信頼度を算出可能である。

解析結果記憶部１０９は、映像解析部１０６が解析した結果を保持（記憶）する。解析結果記憶部１０９は、例えば、任意のファイルやデータベースを用いて構成されてもよい。

教師データ作成部１０２における信頼度受信部１０２ｂは、映像解析部１０６が算出した解析結果の信頼度を受け付け（あるいは取得し）る。教師データ作成部１０２は、係る信頼度を教師データ作成に反映する。

本実施形態において、データ処理装置１００を構成する上記各構成要素の間は、任意の周知の通信手段（通信バスや、通信ネットワーク等）により通信可能に接続されている。

以下、上記のように構成された本実施形態におけるデータ処理装置１００の動作について、図８及び図９に例示するフローチャートを参照して説明する。

まず、教師データ作成部１０２は、例えば、上記各実施形態において説明した処理を実行することにより、教師データを作成する。教師データ作成部１０２は、教師データ出力部１０２ａを用いることにより、当該作成した教師データ（ラベル付けされた静止画像）を、教師データ記憶部１０７に保存する。

この場合、教師データ出力部１０２ａは、教師データ記憶部１０７の具体的な構成に応じて、適切な方法により教師データを保存する。教師データ出力部１０２ａは、例えば、教師データ記憶部１０７がデータベースにより構成される場合はデータベース操作言語を用いて教師データを保存する。また、教師データ出力部１０２ａは、例えば、教師データ記憶部１０７がファイルにより構成される場合は、当該ファイルに対して教師データを追記する。

次に、映像解析部１０６の処理について、図８に例示するフローチャートを参照して説明する。

映像解析部１０６は、教師データ記憶部１０７に保存された教師データが所定量に達したタイミングで、教師データ記憶部１０７に保存された教師データを用いて、機械学習システムの学習処理を実行し、モデルデータを作成する（ステップＳ８０１）。この際、映像解析部１０６は、機械学習システムの学習処理の結果として作成されたモデルデータを、モデルデータ記憶部１０８に保存する。

映像解析部１０６は、保存された教師データが所定の量になったタイミングを自ら判定することにより（自動的に）、機械学習システムの学習処理を実行してもよい。また、映像解析部１０６は、ユーザ等の外部からの指示に応じて、機械学習システムの学習処理を実行してもよい。機械学習システムの学習処理を開始するタイミングは、例えば、ユーザ等により、設定情報テーブル１０４に予め設定されていてもよい。なお、映像解析部１０６は、機械学習システムの構成に応じて具体的な学習処理の方法を適宜選択してよい。

なお、映像解析部１０６は、教師データ学習部１０６ａを用いて機械学習システムに関する学習処理を実行してもよい。

次に、映像解析部１０６は、上記作成したモデルデータを用いて、動画データ記憶部１０５に保存されている動画データを解析する（ステップＳ８０２）。ステップＳ８０２において解析される動画データには、教師データ候補の元データである動画データが含まれる。この場合、動画データを構成する各画面（静止画像）は、動画データを構成するフレーム毎の画像であってもよい。例えば、ある動画データの撮影フレーム数が毎秒３０フレームである場合、１秒間の動画データに、３０枚の静止画像が含まれる。

映像解析部１０６は、データ解析部１０６ｂを用いることにより、動画データを解析してもよい。この場合、データ解析部１０６ｂは、モデルデータを用いて動画データを解析することにより、動画データを構成する各画面（静止画像）に対して付与されるべきラベルを判定する。なお、データ解析部１０６ｂは、当該判定結果に基づいて、各静止画像に対してラベルを付与してもよい。

また、映像解析部１０６は、モデルデータを用いて映像を解析した際、信頼度算出部１０６ｃを用いて、当該解析結果に対する信頼度を算出する。この場合、信頼度算出部１０６ｃは、一般的な周知の算出方法により、解析結果に対する信頼度を算出する。

次に、映像解析部１０６は、元の動画データを構成する静止画像ごとに、上記ステップＳ８０２における映像解析の結果を解析結果記憶部１０９に保存する（ステップＳ８０３）。係る解析結果は、動画データに含まれる静止画像に対するラベルの判断（判定）結果を表す情報と、当該解析結果に対する信頼度とを含む。

次に、上記のように保存された解析結果と信頼度とを用いて教師データを作成する処理について、図９に例示するフローチャートを用いて説明する。

まず、教師データ作成部１０２は、画像データ抽出部１０１から、静止画像群（教師データ候補）を取得する（ステップＳ９０１）。

次に、教師データ作成部１０２は、上記ステップＳ９０１において取得した静止画像群に含まれる各静止画像（教師データ候補）に関する信頼度の情報を、映像解析部１０６から取得する（ステップＳ９０２）。この場合、映像解析部１０６は、解析結果記憶部１０９に保存されている信頼度の情報から、静止画像群に含まれる各静止画像に関する信頼度を抽出し、教師データ作成部１０２に通知してもよい。

なお、上記したように、解析結果記憶部１０９には、教師データ候補の元データである動画データを解析した結果が保存されている。即ち、映像解析部１０６は、解析結果記憶部１０９を参照することにより、各教師データ候補に関する解析結果と、当該解析結果に対する信頼度とを取得可能である。

次に、教師データ作成部１０２は、上記ステップＳ９０１において取得した静止画像群に含まれる全ての静止画像（教師データ候補）について、それぞれ下記ステップＳ９０３乃至ステップＳ９０７の処理を繰り返して実行する。

まず、教師データ作成部１０２は、設定情報テーブル１０４を参照し、ある静止画像に対して算出された信頼度が、所定の信頼度閾値（図２に例示する符号２０８）より小さいか確認する（ステップＳ９０４）。なお、係る信頼度閾値は、ユーザ等により、設定情報テーブル１０４に予め設定されていてもよい。

上記信頼度が所定の信頼度閾値以上の場合（ステップＳ９０５においてＮＯ）、教師データ作成部１０２は、当該静止画像に描写された場面については、作成済のモデルデータを用いることにより、十分な信頼度を有する解析結果が得られると判定する。

即ち、この場合、当該静止画像に描写された場面については、映像解析部１０６が作成済のモデルデータを用いることにより、十分な信頼度で解析可能であることを表す。

この場合、教師データ作成部１０２は、当該場面（シーン）については新たに教師データを作成する必要はないと判断する。教師データ作成部１０２は、当該静止画像をユーザ等によるラベル付けの対象から外す。この場合、当該静止画像は、ユーザ等によるラベル付けのＵＩ画面１１０ａには表示されない。

当該静止画像に関する信頼度が所定の信頼度閾値より小さい場合（ステップＳ９０５においてＹＥＳ）、教師データ作成部１０２は、当該静止画像に描写された場面については、十分な信頼度を有する解析結果が得られないと判定する。

この場合、教師データ作成部１０２は、当該場面（シーン）について教師データを作成する必要があると判断する。教師データ作成部１０２は、当該静止画像をユーザ等によるラベル付けの対象とする（ステップＳ９０６）。

ステップＳ９０５における判定結果がＮＯの場合、及び、ステップＳ９０６における処理が完了した場合、教師データ作成部１０２は、ステップＳ９０３から処理を続行する。

ステップＳ９０１において取得した全ての静止画像群に関する上記処理が終了した場合（ステップＳ９０７）、教師データ作成部１０２は、ステップＳ９０６においてラベル付けの対象とされた静止画像を、ユーザ等によるラベル付けに用いられるＵＩ画面１１０ａに表示する（ステップＳ９０８）。

なお、教師データ作成部１０２はステップＳ９０８の処理の後、上記第１の実施形態において説明したステップＳ４０３Ｂから処理を続行してもよい。

本実施形態におけるデータ処理装置１００は、特定の静止画像にする映像解析の結果と、当該解析結果に関する信頼度とに基づいて、当該静止画像を教師データとして採用するか否かを判定する。

教師データを作成する元となる動画データの中には、あらわれる頻度が多い場面と少ない場面とが存在する。このため、動画データから教師データが作成されるに伴い、動画データの中にあらわれる場面によって、作成される教師データの量に差が生じる。即ち、十分な量の教師データが作成されたことにより、十分な学習が可能である場面と、作成された教師データの量が十分ではなく、より多くの教師データが必要である場面とが生じる。

そこで、本実施形態におけるデータ処理装置１００は、あるタイミングまでに作成された教師データを用いて機械学習システムの学習処理を実行することにより、モデルデータを作成する。そして、本実施形態におけるデータ処理装置１００は、そのモデルデータを用いて、新たな教師データの元データである動画データに対する解析処理を実行する。

本実施形態におけるデータ処理装置１００は、係る解析処理の結果に基づいて、信頼度が低い場面を描写した静止画像を、教師データ候補として追加する。即ち、データ処理装置１００は、教師データが不足している場面に関する静止画像を、教師データ候補とする。

これにより、本実施形態におけるデータ処理装置１００は、より効率よく教師データを充実させることが可能である。

また、本実施形態におけるデータ処理装置１００は、上記各実施形態と同様の処理を実行可能であることから、上記各実施形態と同様の効果を奏する。

以上より、本実施形態におけるデータ処理装置１００は、時系列の動画データから、特定の基準（本実施形態においては、例えば、解析結果の信頼度閾値）に基づいて抽出したデータを分類（ラベル付け）することにより、教師データを効率的に生成可能である。

＜第３の実施形態の変形例＞
次に、上記第３の実施形態の変形例について説明する。本変形例におけるデータ処理装置１００の構成は、上記第３の実施形態と同様としてよい。本変形例においては、映像解析部１０６の動作が、上記第３の実施形態と一部異なる。以下、係る相違点について説明する。

上記第３の実施形態における映像解析部１０６は、教師データ記憶部１０７に保存された教師データが所定量に達したタイミングで、教師データ記憶部１０７に保存された教師データを用いて、機械学習システムの学習処理を実行し、モデルデータを作成する（ステップＳ８０１）。

そして、上記第３の実施形態における映像解析部１０６は、上記作成したモデルデータを用いて、動画データ記憶部１０５に保存されている動画データを解析する（ステップＳ８０２）。

これに対して、本変形例における映像解析部１０６は、上記第３の実施形態と同様、ステップＳ８０１を実行することにより、モデルデータを作成する。

そして、本実変形例における映像解析部１０６は、ステップＳ９０２において、教師データ作成部１０２から静止画像群に含まれる各静止画像に関する信頼度の情報を要求された際に、当該各静止画像に対する信頼度を算出してもよい。

即ち、上記第３の実施形態における映像解析部１０６は、所定のタイミングで静止されたモデルデータを用いて、動画データ記憶部１０５に保存されている動画データを解析することにより、予め信頼度を算出する。これに対して、本変形例における映像解析部１０６は、教師データ作成部１０２から特定の静止画像に対する信頼度の情報を要求された際に、当該各静止画像に対する信頼度を算出する。よって、本変形例におけるデータ処理装置１００によれば、信頼度の算出に要する計算量を削減可能である。また、本変形例におけるデータ処理装置１００は、上記第３の実施形態におけるデータ処理装置１００と同様の構成を有することから、上記第３の実施形態におけるデータ処理装置１００と同様の効果を奏する。

＜第４の実施形態＞
次に、本願発明の第４の実施形態について、図１０を参照して説明する。以下においては、本実施形態における特徴的な構成について説明する。上記各実施形態と同様の構成については、同様の参照符号を付し、詳細な説明を省略する。

まず、本実施形態の概要について説明する。

一般的に、機械学習システムの学習に使用する教師データの十分性をユーザ等が判断することは、困難であることが多い。即ち、解析対象のデータに対して、十分な精度の解析結果が得られるような機械学習システムの学習に必要となる教師データの量や質を、ユーザ等が判断することは容易ではない。この場合、例えば、専門的な知識やノウハウを持つ専門家（技術者）が、データ解析の利用シーンに応じて試行錯誤を繰り返すことにより、教師データの十分性を判断する必要がある。

これに対して、本実施形態におけるデータ処理装置１００は、機械学習システムに対する教師データを作成するとともに、作成した教師データの十分性をユーザ等が判断可能な情報を提供する。

具体的には、本実施形態におけるデータ処理装置１００は、あるタイミングまでに作成された教師データを用いて学習処理を実行した機械学習システムによる映像解析の結果を、ユーザ等に提示する。これにより、本実施形態におけるデータ処理装置１００は、作成した教師データの十分性をユーザ等が把握することを可能とする。ユーザ等は、これにより、教師データの作成を終了するか否か、あるいは、更なる教師データの作成が映像解析に対して有効か否かを判断することが可能である。

本実施形態におけるデータ処理装置１００は、所定量の教師データを作成した際に、機械学習システムによる学習を開始する。本実施形態におけるデータ処理装置１００は、その学習結果に基づいて、新たな教師データを作成する元である動画データの解析処理を実行する。本実施形態におけるデータ処理装置１００は、係る解析処理を、新たな教師データを作成する前に実行してもよい。

係る動画データの解析処理は、例えば、動画データに含まれる画像データ（教師データ候補）に対して、当該画像データが分類されるラベルを判定する処理であってもよい。

本実施形態におけるデータ処理装置１００は、係る解析処理の結果を記録する。本実施形態におけるデータ処理装置１００は、新たな教師データを作成する際に、当該新たな教師データに対するユーザ等の判断結果（当該教師データに付与されたラベル）と、上記記録した解析結果とを比較する。本実施形態におけるデータ処理装置１００は、係る判断結果と、解析結果とが一致した場合は正解、不一致の場合は不正解とし、上記解析結果の正解率を算出し、係る正解率をユーザ等に提示する。

これにより、本実施形態におけるデータ処理装置１００は、所定のタイミングまでに作成した教師データに基づいて学習した機械学習システムを用いることにより映像を解析した結果に関して、正解率を算出可能である。

ユーザ等は、係る正解率に基づいて教師データの十分性を判断することが可能である。例えば、ユーザ等は、予め目標として設定しておいた正解率に達するまで教師データの作成を継続する、という運用が可能である。

以下、本実施形態におるデータ処理装置１００の構成について説明する。

本実施形態におけるデータ処理装置１００は、上記各実施形態において説明した構成要素に加えて、画像データ抽出部１０１が解析結果受信部１０１ｃを有し、教師データ作成部１０２が正解率算出部１０２ｃを有する。以下、それぞれの構成要素について説明する。

解析結果受信部１０１ｃは、映像解析部１０６において実行された動画データの解析結果を受け取る。解析結果受信部１０１ｃは、係る解析結果を映像解析部１０６から取得してもよく、あるいは、解析結果記憶部１０９から取得してもよい。

正解率算出部１０２ｃは、映像解析部１０６（特に、データ解析部１０６ｂ）における映像解析の結果に対する正解率を計算する。

以下、上記のように構成された本実施形態におけるデータ処理装置１００の動作について、図１１及び図１２に例示するフローチャートを参照して説明する。

本実施形態における映像解析部１０６は、上記第３の実施形態と同様、作成された教師データが所定量に達したタイミングで、教師データ記憶部１０７に保存された教師データを用いて、機械学習システムの学習処理を実行し、モデルデータを作成する。

映像解析部１０６は、保存された教師データが所定の量になったタイミングを自ら判定することにより（自動的に）、機械学習システムの学習処理を実行してもよい。また、映像解析部１０６は、ユーザ等の外部からの指示に応じて、機械学習システムの学習処理を実行してもよい。

映像解析部１０６は、作成したモデルデータをモデルデータ記憶部１０８に保存する。

次に、映像解析部１０６は、上記作成したモデルデータを用いて、動画データ記憶部１０５に保存されている動画データを解析する。係る動画データには、教師データ候補の元データである動画データが含まれる。この場合、動画データを構成する各画面（静止画像）は、動画データを構成するフレーム毎の画像であってもよい。

次に、映像解析部１０６は、係る動画データの解析結果を、解析結果記憶部１０９に保存する。

上記説明した映像解析部１０６におけるモデルデータの作成処理、及び、動画データに関する解析処理は、上記第３の実施形態と同様としてもよい。

次に、上記のように保存された解析結果を用いて、正解率を算出する処理について説明する。

まず、画像データ抽出部における処理について説明する。

画像データ抽出部１０１は、動画データ記憶部１０５から新たな動画データを読み出す（ステップＳ１１０１）。

次に、画像データ抽出部１０１は、当該動画データから静止画像を抽出する（取り出す）（ステップＳ１１０２）。画像データ抽出部１０１における静止画像の抽出処理は、上記各実施形態と同様としてよいので、詳細な説明を省略する。

次に、画像データ抽出部１０１は、当該動画データに対する映像解析の結果を、映像解析部１０６から受け取る（ステップＳ１１０３）。

係る解析結果は、映像解析部１０６（データ解析部１０６ｂ）が上記作成したモデルデータを用いて当該動画データを解析した結果である。即ち、係る解析結果は、当該動画データを構成する各静止画像に対するラベルの判定結果を表す情報を含む。なお、係る解析結果は、動画データを構成する静止画像ごとに解析結果記録部１０９に記録されてもよい。

なお、この場合、画像データ抽出部１０１における解析結果受信部１０１ｃが、係る解析結果を映像解析部１０６から取得してもよく、あるいは、解析結果記憶部１０９から取得してもよい。解析結果受信部１０１ｃは、上記ステップＳ１１０２において抽出した静止画像ごとに、当該静止画像に対する解析結果を、映像解析部１０６から取得してもよい。

画像データ抽出部１０１は、教師データ作成部１０２に、抽出した静止画像群（教師データ候補）を渡す。この際、画像データ抽出部１０１は、それぞれの静止画像に対する上記解析結果を教師データ作成部１０２に渡す（ステップＳ１１０４）。なお、この場合、教師データ作成部１０２が、画像データ抽出部１０１から、上記静止画像群と、当該静止画像群に対する解析結果とを取得してもよい。

次に、本実施形態における教師データ作成部１０２における、教師データの作成処理について図１２を参照して説明する。

教師データ作成部１０２は、上記ステップＳ１１０４において画像データ抽出部１０１から渡された静止画像群（教師データ候補）を取得する（ステップＳ１２０１）。

次に、教師データ作成部１０２は、記ステップＳ１１０４において画像データ抽出部１０１から渡された、静止画像群に含まれるそれぞれの静止画像に対する解析結果を取得する（ステップＳ１２０２）。

次に、教師データ作成部１０２は、下記ステップＳ１２０３乃至ステップＳ１２１２を、当該静止画像群に含まれる全ての静止画像について繰り返す。

まず、教師データ作成部１０２は、静止画像群（教師データ候補）に含まれる静止画像を表示する（ステップＳ１２０４）。ステップＳ１２０４における処理は、上記第１の実施形態において説明したステップＳ４０２Ｂ（図４Ｂ）と同様としてよいので、詳細な説明は省略する。

次に、次に、教師データ作成部１０２は、ステップＳ１２０４において提示した静止画像（教師データ候補）に対するラベル付与結果を取得する（ステップＳ１２０５）。ステップＳ１２０５における処理は、上記第１の実施形態において説明したステップＳ４０３Ｂ（図４Ｂ）と同様としてよいので、詳細な説明は省略する。

次に、教師データ作成部１０２は、静止画像（教師データ候補）ごとに、ステップＳ１２０５において取得したユーザ等によるラベル付与結果と、画像データ抽出部１０１からステップＳ１２０２において取得した当該静止画像に対する解析結果とを比較する（ステップＳ１２０６）。上記したように、当該静止画像に対する解析結果は、映像解析部１０６（データ解析部１０６ｂ）による、当該静止画像に対するラベルの判定結果を表す情報を含む。

ある静止画像に対してユーザ等により付与されたラベルと、画像データ抽出部１０１から取得した解析結果（当該静止画像に対するラベルの判定結果）とが一致する場合（ステップＳ１２０７においてＹＥＳ）、教師データ作成部１０２は、当該解析結果を正解としてカウントする（ステップＳ１２０８）。

ある静止画像に対してユーザ等により付与されたラベルと、画像データ抽出部１０１から取得した解析結果とが不一致である場合（ステップＳ１２０７においてＮＯ）、教師データ作成部１０２は、当該解析結果を不正解としてカウントする（ステップＳ１２０９）。

教師データ作成部１０２は、ステップＳ１２０８及びステップＳ１２０９の結果に基づいて、正解率を計算する（ステップＳ１２１０）。

そして、教師データ作成部１０２は、ステップＳ１２１０において計算した正解率を、例えば図３のＵＩ画面１１０ａに表示することにより、利用者に提示する（ステップＳ１２１１）。

全ての静止画像群（教師データ候補）に対して上記各ステップにおける処理が終了した際（ステップＳ１２１２）、教師データ作成部１０２は、教師データを出力する（ステップＳ１２１３）。ステップＳ１２１３の処理は、上記第１の実施形態におけるステップＳ４１２Ｂ（図４Ｂ）と同様としてよいので、詳細な説明は省略する。

なお、教師データ作成部１０２は、全ての教師データ候補に対する正解率を計算した後に、それらの正解率をユーザ等に対して提示してもよい。また、係る正解率の提示方法は、図３に例示するＵＩ画面１１０ａに限定されず、適切な方法を適宜選択してよい。

以上のように構成された本実施形態におけるデータ処理装置１００は、作成済みの教師データを用いて機械学習システムにおける学習処理を実行することにより、モデルデータを作成する。そして、本実施形態におけるデータ処理装置１００は、作成されたモデルデータを用いて、新たな教師データの元データである動画データに対する解析処理を実行する。

本実施形態におけるデータ処理装置１００は、当該動画データに基づいて新たな教師データを作成する際、当該動画データに含まれる静止画像について、ユーザ等により付与されたラベルと、上記解析結果とを比較することにより、正解率を算出する。

即ち、本実施形態におけるデータ処理装置１００は、既に作成された教師データにより学習された機械学習システムを用いたデータ解析の精度に関する情報（正解率）をユーザに提示可能である。

このため、本実施形態におけるデータ処理装置１００によれば、ユーザ等は、教師データを作成する際、その時点における解析結果の精度に関する情報（正解率）を参照することが可能である。ユーザ等は、係る精度に関する情報を参照することにより、例えば、目標とする精度に達した時点で新たな教師データの作成を中止するなどの運用が可能である。

また、本実施形態におけるデータ処理装置１００によれば、ユーザ等は、教師データの作成作業に際して解析結果の精度の変化を確認可能である。このため、ユーザ等は、例えば、教師データが増えても精度が上がらないというような場合に、現在の作業を中断して教師データの内容を見直すなどの対応を取ることが可能である。

以上より、本実施形態におけるデータ処理装置１００は、時系列の動画データから、特定の基準に基づいて抽出したデータを分類（ラベル付け）することにより、教師データを効率的に生成可能である。特に、本実施形態におけるデータ処理装置１００は、ユーザ等が教師データの十分性を判断可能な情報を提供可能である。

＜第４の実施形態の第１の変形例＞
次に、上記第４の実施形態に対する第１の変形例について説明する。本変形例におけるデータ処理装置１００の構成は、上記第４の実施形態と同様としてよい。

上記第４の実施形態においては、データ処理装置１００は、算出した正解率を（例えばＵＩ画面１１０ａ等を介して）ユーザに提示する。

これに対して、本変形例におけるデータ処理装置１００は、教師データの作成を終了する正解率を予め目標値として設定する。係る目標値は、例えば、設定情報テーブル１０４に予め設定されてもよい。

本変形例におけるデータ処理装置１００は、上記第４の実施形態において説明した処理と同様の処理を実行することにより正解率を算出する。本変形例におけるデータ処理装置１００は、係る正解率が上記目標値に達した際に、教師データ作成を終了する。本変形例におけるデータ処理装置１００は、教師データの作成を終了可能であることを、ユーザ等に対して通知してもよい。

上記のように構成された本変形例におけるデータ処理装置１００は、所定の設定値（正解率の目標値）に基づいて、教師データの作成の終了可否を判断可能である。

また、本変形例におけるデータ処理装置１００は、上記第４の実施形態と同様の処理を実行可能であることから、上記第４の実施形態と同様の効果を奏する。

＜第４の実施形態の第２の変形例＞
次に、上記第４の実施形態に対する第１の変形例について説明する。本変形例におけるデータ処理装置１００の構成は、上記第４の実施形態と同様としてよい。

本変形例においては、映像解析部１０６の動作が、上記第４の実施形態と一部異なる。以下、係る相違点について説明する。

上記第４の実施形態における映像解析部１０６は、教師データ記憶部１０７に保存された教師データが所定量に達したタイミングで、教師データ記憶部１０７に保存された教師データを用いて、機械学習システムの学習処理を実行し、モデルデータを作成する。そして、上記第４の実施形態における映像解析部１０６は、上記作成したモデルデータを用いて、動画データ記憶部１０５に保存されている動画データを解析する。

これに対して、本変形例における映像解析部１０６は、上記第４の実施形態と同様にモデルデータを作成する。

そして、本実変形例における映像解析部１０６は、ステップＳ１１０３において、画像データ抽出部１０１から特定の静止画像に対する解析結果を要求された際に、当該静止画像に対する解析結果を算出してもよい。

即ち、上記第４の実施形態における映像解析部１０６は、所定のタイミングで静止されたモデルデータを用いて、動画データ記憶部１０５に保存されている動画データを解析することにより、予め解析結果を算出する。これに対して、本変形例における映像解析部１０６は、画像データ抽出部１０１から特定の静止画像に対する解析結果を要求された際に、当該各静止画像に対する解析結果を算出する。よって、本変形例におけるデータ処理装置１００によれば、信頼度の算出に要する計算量を削減可能である。

また、本変形例におけるデータ処理装置１００は、上記第４の実施形態におけるデータ処理装置１００と同様の構成を有することから、上記第４の実施形態におけるデータ処理装置１００と同様の効果を奏する。

＜第５の実施形態＞
次に、本願発明の第５の実施形態について、図１３を参照して説明する。

本実施形態におけるデータ処理装置１３００は、データ抽出部１３０１と、教師データ作成部１３０２と、教師データ補完部１３０３と、を有する。本実施形態において、データ処理装置１３００を構成する上記各構成要素の間は、任意の周知の通信手段（通信バスや、通信ネットワーク等）により通信可能に接続されている。以下、それぞれの構成要素について説明する。

データ抽出部１３０１は、時系列データから、特定タイミングにおける一部のデータである教師データ候補を抽出する。本実施形態において、当該時系列データは、例えば、動画データであってもよい。データ抽出部１３０１は、上記各実施形態における画像データ抽出部１０１と同様としてもよい。

教師データ作成部１３０２は、上記教師データ候補を分類可能なラベルと、当該ラベルが付与される上記教師データ候補とに基づいて、教師データを生成する。教師データ作成部１３０２は、上記各実施形態における教師データ作成部１３０２と同様としてもよい。

教師データ補完部１３０３は、特定の上記教師データ候補と、上記時系列において当該特定の上記教師データ候補前と異なるタイミングにおける他の上記教師データ候補との間の変化の程度に基づいて、当該特定の上記教師データ候補と、当該他の上記教師データ候補との間に存在する上記時系列データから、新たな上記教師データ候補を抽出する。教師データ補完部１３０３は、上記各実施形態における教師データ補完部と同様としてもよい。

上記教師データ作成部１３０２は、上記変化の程度が第１の基準よりも小さい場合に、教師データ補完部１３０３により抽出された上記教師データ候補に対して、上記特定の教師データ候補又は上記他の教師データ候補のいずれかに付与された上記ラベルを付与し、当該ラベルが付与された上記データを上記教師データに追加する。

上記のように構成された本実施形態におけるデータ処理装置１３００は、抽出した２つの教師データ候補の差分が第１の基準よりも小さい場合は、時系列においてそれぞれの教師データ候補の間に存在するデータについて、自動的にラベルを付与することが可能である。

これにより、本実施形態におけるデータ処理装置１００は、ユーザ等によりラベルが付与された教師データ候補が少ない場合でも、適切な数の教師データを自動的に作成可能である。即ち、本実施形態におけるデータ処理装置１００は、ユーザ等によるラベル付けの作業に要する工数を低減可能である。

以上より、本実施形態におけるデータ処理装置１００は、時系列の動画データから、特定の基準に基づいて抽出したデータを分類（ラベル付け）することにより、教師データを効率的に生成可能である。

＜ハードウェア及びソフトウェア・プログラム（コンピュータ・プログラム）の構成＞
次に、上記説明した各実施形態を実現可能なハードウェア及びソフトウェア・プログラムの構成について説明する。以下においては、データ処理装置（１００、１３００）をまとめて「データ処理装置」と称する場合がある。

上記各実施形態において説明したデータ処理装置は、専用のハードウェア装置により構成してもよい。その場合、上記各図に示した各部は、一部又は全部を統合したハードウェア（処理ロジックを実装した集積回路等）として実現してもよい。

また、上記データ処理装置は、図１４に例示するようなハードウェアと、係るハードウェアによって実行される各種ソフトウェア・プログラム（コンピュータ・プログラム）とによって構成してもよい。

図１４における演算装置１４０１は、汎用のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やマイクロプロセッサ等の演算処理装置である。演算装置１４０１は、例えば後述する不揮発性記憶装置１４０３に記憶された各種ソフトウェア・プログラムを記憶装置１４０２に読み出し、係るソフトウェア・プログラムに従って処理を実行してもよい。

記憶装置１４０２は、演算装置１４０１から参照可能な、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等のメモリ装置であり、ソフトウェア・プログラムや各種データ等を記憶する。記憶装置１４０２は、揮発性のメモリ装置であってもよい。

不揮発性記憶装置１４０３は、例えば半導体記憶装置によるＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ、磁気ディスク装置のような、不揮発性の記憶装置であり、各種ソフトウェア・プログラムやデータ等を記録してもよい。

例えば、データ処理装置における動画データ記憶部１０５、教師データ記憶部１０７、モデルデータ記憶部１０８、及び、解析結果記憶部１０９は、不揮発性記憶装置１４０３保存されるファイルやデータベース等を用いることにより構成されてもよい。

ドライブ装置１４０４は、例えば、後述する外部記憶媒体１４０５に対するデータの読み込みや書き込みを処理する装置である。

外部記録媒体１４０５は、例えば光ディスク、光磁気ディスク、半導体フラッシュメモリ等、データを記録可能な任意の記録媒体である。

ネットワークインタフェース１４０６は、データ処理装置と、有線あるいは無線及びこれらが組み合わされて構成された任意の通信ネットワークとの間を通信可能に接続するインタフェース装置である。本実施形態におけるデータ処理装置は、例えば、係るネットワークインタフェース１４０６を介して通信ネットワークに接続されてもよい。

入出力インタフェース１４０７は、データ処理装置に対する各種入力を受け付ける入力装置、及び、データ処理装置からの各種出力を受け付ける出力装置が接続されるインタフェースである。

例えば、データ処理装置における提示部１１０は、入出力インタフェース１４０７を介して接続された表示装置（不図示）に対して、ＵＩ画面１１０ａを表示してもよい。また、ユーザ等は、入出力インタフェース１４０７を介して接続された入力装置（キーボードやマウス等）を用いて、データ処理装置に対してラベル等を入力してもよい。

上述した各実施形態を例に説明した本発明は、例えば、図１４に例示したハードウェア装置によりデータ処理装置を構成し、係るデータ処理装置に対して、上記各実施形態において説明した機能を実現可能なソフトウェア・プログラムを供給することにより実現してもよい。この場合、係るデータ処理装置に対して供給したソフトウェア・プログラムを、演算装置１４０１が実行することによって、本願発明が達成されてもよい。

上述した各実施形態において、上記各図に示した各部は、上述したハードウェアにより実行されるソフトウェア・プログラムの機能（処理）単位である、ソフトウェアモジュールとして実現することができる。但し、これらの図面に示した各ソフトウェアモジュールの区分けは、説明の便宜上の構成であり、実装に際しては、様々な構成が想定され得る。

例えば、図１、図５、図７、図１０、及び、図１３に例示したデータ処理装置の各構成要素をソフトウェアモジュールとして実現する場合、これらのソフトウェアモジュールを不揮発性記憶装置１４０３に記憶しておき、演算装置１４０１がそれぞれの処理を実行する際に、これらのソフトウェアモジュールを記憶装置１４０２に読み出すよう構成してもよい。

また、これらのソフトウェアモジュール間は、共有メモリやプロセス間通信等の適宜の方法により、相互に各種データを伝達できるように構成してもよい。このような構成により、これらのソフトウェアモジュール間は、相互に通信可能に接続可能である。

更に、上記各ソフトウェア・プログラムを外部記憶媒体１４０５に記録しておき、上記データ処理装置の出荷段階、あるいは運用段階等において、適宜ドライブ装置１４０４を通じて当該ソフトウェア・プログラムが不揮発性メモリ１４０３に格納されるよう構成してもよい。

なお、上記の場合において、データ処理装置への各種ソフトウェア・プログラムの供給方法は、出荷前の製造段階、あるいは出荷後のメンテナンス段階等において、適当な治具を利用して当該データ処理装置内にインストールする方法を採用してもよい。また、各種ソフトウェア・プログラムの供給方法は、インターネット等の通信回線を介して外部からダウンロードする方法等のように、現在では一般的な手順を採用してもよい。

そして、このような場合において、本発明は、係るソフトウェア・プログラムを構成するコード、あるいは係るコードが記録されたところの、コンピュータ読み取り可能な記憶媒体によって構成されると捉えることができる。

以上、本発明を、上述した模範的な実施形態に適用した例として説明した。しかしながら、本発明の技術的範囲は、上述した各実施形態に記載した範囲には限定されない。当業者には、係る実施形態に対して多様な変更又は改良を加えることが可能であることは明らかである。そのような場合、係る変更又は改良を加えた新たな実施形態も、本発明の技術的範囲に含まれ得る。そしてこのことは、特許請求の範囲に記載した事項から明らかである。

本発明は、例えば、機械学習システムを使用した動画データの解析装置に関連して、動画データから教師データを作成する場合に適用可能である。具体的には、本発明は、例えば、大量の監視カメラの映像から、特定の条件にあてはまる映像を探し出す映像解析装置や、作動中の監視カメラ映像において、特定の事象を検出した際に警告を発する映像解析装置等に適用可能である。

１００データ処理装置
１０１画像データ抽出部
１０２教師データ作成部
１０３教師データ補完部
１０４設定情報テーブル
１０５動画データ記憶部
１０６映像解析部
１０７教師データ記憶部
１０８モデルデータ記憶部
１０９解析結果記憶部
１１０提示部
１３００データ処理装置
１３０１データ抽出部
１３０２教師データ作成部
１３０３教師データ補完部
１４０１演算装置
１４０２記憶装置
１４０３不揮発性記憶装置
１４０４ドライブ装置
１４０５外部記録媒体
１４０６ネットワークインタフェース
１４０７入出力インタフェース

Claims

時系列データから、特定タイミングにおける一部のデータである教師データ候補を抽出するデータ抽出手段と、
前記教師データ候補を分類可能なラベルと、当該ラベルが付与される前記教師データ候補とに基づいて、教師データを生成する教師データ生成手段と、
特定の前記教師データ候補と、前記時系列において当該特定の前記教師データ候補と異なるタイミングにおける他の前記教師データ候補との間の変化の程度に基づいて、当該特定の前記教師データ候補と当該他の前記教師データ候補との間に存在する前記時系列データから、前記教師データ候補を抽出する教師データ補完手段と、を備え、
前記教師データ生成手段は、前記変化の程度が第１の基準よりも小さい場合に、当該特定の前記教師データ候補と当該他の前記教師データ候補との間に存在する前記時系列データから抽出された前記教師データ候補に対して、特定の前記教師データ候補又は他の前記教師データ候補のいずれかに付与された前記ラベルを付与し、当該ラベルが付与された前記データを前記教師データに追加する
データ処理装置。
前記データ抽出手段は、前記時系列データから所定の時間間隔で前記教師データ候補を抽出する
請求項１に記載のデータ処理装置。
前記データ抽出手段は、前記時系列データの特定タイミングにおける第１の前記教師データ候補と、時系列において第１の前記教師データ候補より前記所定の時間間隔だけ異なるタイミングにおける第２の前記教師データ候補との間の変化の程度が第２の基準を超える場合、当該第１の前記教師データ候補と当該第２の前記教師データ候補との間に存在する前記時系列データから、所定数の前記教師データ候補を更に抽出する
請求項２に記載のデータ処理装置。
前記時系列データが動画像データである場合、特定の期間において前記動画像データに記録された描写内容の変化の程度が所定の背景画像変化基準よりも小さい背景画像を抽出する、背景画像抽出手段を更に備え、
前記データ抽出手段は、
特定タイミングにおける前記動画像データから抽出した画像データと、前記背景画像との間の差異の程度に基づいて、当該画像データを前記教師データ候補として抽出するか否かを判定する
請求項１乃至請求項３のいずれかに記載のデータ処理装置。
前記教師データを用いて機械学習システムにおける学習処理を実行した結果であるモデルデータを記憶するモデルデータ記憶手段と、
前記モデルデータを用いて前記時系列データを解析することにより、前記時系列データに含まれるデータに対して、当該データに付与する前記ラベルを判定するとともに、当該判定の確からしさを表す信頼度を生成する時系列データ解析手段と、
を更に備え、
前記教師データ作成手段は、前記時系列データのうち、前記教師データ候補として抽出されたデータに対して生成された前記信頼度が所定の信頼度基準よりも高い場合には当該教師データ候補を前記教師データの作成に用いない
請求項１乃至請求項４のいずれかに記載のデータ処理装置。
前記教師データを記憶する教師データ記憶手段を更に有し、
前記時系列データ解析手段は、
前記教師データ記憶手段に所定量を以上の前記教師データが記憶された際に、当該記憶された前記教師データを用いて前記機械学習システムの学習処理を実行することにより前記モデルデータを作成するよう制御し、
当該作成したモデルデータを、前記モデルデータ記憶手段に対して記憶するよう制御する
請求項５に記載のデータ処理装置。
前記教師データ作成手段は、
前記教師データ候補をユーザに提示し、
当該提示した前記教師データ候補に対して前記ユーザが付与した前記ラベルを受け付け、
当該受け付けた前記ラベルと、そのラベルが付与される前記教師データ候補と、に基づいて教師データを作成する
請求項１乃至請求項６のいずれかに記載のデータ処理装置。
前記教師データ作成手段は、
前記教師データ候補をユーザに提示し、当該提示した前記教師データ候補に対して前記ユーザが付与した前記ラベルを受け付けるとともに、
前記時系列データに含まれる前記教師データ候補として抽出されたデータに対して前記時系列データ解析手段によって判定された前記ラベルと、当該教師データ候補に対して前記ユーザによって付与された前記ラベルと、を比較した結果に基づいて、前記時系列データ解析手段によって判定された前記ラベルの正解率を算出し、当該算出した正解率を提示する、
ユーザ・インタフェースを含む、
請求項６に記載のデータ処理装置。
情報処理装置が、
時系列データに含まれる特定タイミングにおける一部のデータである特定の教師データ候補と、前記時系列データに含まれる前記特定タイミグとは異なるタイミングにおける一部のデータである他の前記教師データ候補との間の変化の程度に基づいて、当該特定の前記教師データ候補と当該他の前記教師データ候補との間に存在する前記時系列データから、前記教師データ候補を抽出し、
前記変化の程度が第１の基準値よりも小さい場合に、当該抽出された前記教師データ候補に対して、特定の前記教師データ候補又は他の前記教師データ候補のいずれかに付与された前記教師データ候補を分類可能なラベルを付与し、
当該ラベルが付与された前記データに基づいて前記教師データを生成する、
データ処理方法。
コンピュータに、
時系列データに含まれる特定タイミングにおける一部のデータである特定の教師データ候補と、前記時系列データに含まれる前記特定タイミグとは異なるタイミングにおける一部のデータである他の前記教師データ候補との間の変化の程度に基づいて、当該特定の前記教師データ候補と当該他の前記教師データ候補との間に存在する前記時系列データから、前記教師データ候補を抽出する処理と、
前記変化の程度が第１の基準値よりも小さい場合に、当該抽出された前記教師データ候補に対して特定の前記教師データ候補又は他の前記教師データ候補のいずれかに付与された前記教師データ候補を分類可能なラベルを付与する処理と、
当該ラベルが付与された前記データに基づいて前記教師データを生成する処理と、を実行させる
コンピュータ・プログラム。
情報処理装置が、
時系列データに含まれる特定タイミングにおける一部のデータである第１の教師データ候補と、前記時系列データに含まれる前記特定タイミングと異なるタイミングにおける一部のデータであり、前記第１の教師データ候補との間の変化の程度が特定の基準を超える第２の教師データ候補とをユーザに対して提示し、
前記ユーザに対して提示された前記各教師データ候補の少なくともいずれと、当該教師データ候補対して前記ユーザにより付与された当該教師データ候補を分類可能なラベルと、に基づいて教師データを生成する
データ処理方法。
情報処理装置が、
時系列データに含まれる特定タイミングにおける一部のデータである第１の教師データ候補と、前記時系列データに含まれる前記特定タイミングと異なるタイミングにおける一部のデータである第２の教師データ候補とをユーザに対して提示し、
前記第１の教師データ候補と、前記第２の教師データ候補との間の変化の程度が特定の基準を超える場合には、前記時系列データにおいて前記第１の教師データ候補と前記第１の教師データ候補と間に存在する１以上のデータを教師データ候補として前記ユーザに対して提示し、
前記ユーザに対して提示された前記各教師データ候補の少なくともいずれと、前記ユーザにより当該教師データ候補対して付与された当該教師データ候補を分類可能なラベルと、に基づいて教師データを生成する
データ処理方法。
前記第２の教師データ候補は、前記特定タイミングから所定の時間間隔だけ異なるタイミングにおける当該時系列データの一部のデータである
請求項１２に記載のデータ処理方法。
時系列データに含まれる特定タイミングにおける一部のデータである第１の教師データ候補と、前記時系列データに含まれる前記特定タイミングと異なるタイミングにおける一部のデータである第２の教師データ候補とをユーザに対して提示し、
前記第１の教師データ候補と、前記第２の教師データ候補との間の変化の程度が特定の基準を超える場合には、前記時系列データにおいて前記第１の教師データ候補と前記第２の教師データ候補と間に存在する１以上のデータを教師データ候補として前記ユーザに対して提示する
ユーザ・インタフェース提示手段と、
前記ユーザに対して提示された前記各教師データ候補の少なくともいずれと、前記ユーザにより当該教師データ候補対して付与された当該教師データ候補を分類可能なラベルと、に基づいて教師データを生成する
教師データ生成手段と、を備える
データ処理装置。