次に、本発明を実施する形態について図面を参照して詳細に説明する。なお、以下において、動画像を構成するデータを「動画データ」、あるいは、「動画」と称する場合がある。また、静止画像を構成するデータを「静止画像データ」、あるいは、「静止画像」と称する場合がある。
以下に説明する実施形態は、機械学習システムを用いた映像解析(映像解析システム)において、その機械学習システムの学習に用いる教師データを作成する場合を想定している。この場合、教師データの作成は、用意された時系列データである動画データを構成する各静止画像データに対して、当該各静止画像を分類するラベルを付与する作業を含む。なお、係るラベルは、各静止画像が特定の条件にあてはまるか否かによって付与されてもよい。この場合、各静止画像は、当該静止画像が特定の条件にあてはまるか否かにより分類される。
そのような映像解析システムは、例えば、動画データの中から特定の条件にあてはまる場面を見つける、又は、動画データ全体を特定の条件にあてはまるか否かにより分類するという目的に適用可能である。
なお、以下の実施の形態に記載されている構成は単なる例示であり、本願発明の技術範囲はそれらには限定されない。即ち、本願発明の技術範囲は、下記に例示する映像解析には限定されず、音声や各種信号波等、任意の時系列データの解析に適用可能である。
なお、以下の各実施形態の説明において参照するブロック図(、図1、図5、図7、図10、及び、図13)は、機能単位のブロックを図示する。これらの図においては、各装置を1つの機器により実現する態様が例示されるが、各実施形態を実現する構成はこれに限定されない。すなわち、以下の各実施形態の構成は、各ブロックが物理的に分かれた構成により実現されてもよく、論理的に分かれた構成により実現されてもよい。
<第1の実施形態>
本願発明の第1の実施形態に係るデータ処理装置100について、図1を参照して説明する。
データ処理装置100は、画像データ抽出部101と、教師データ作成部102と、教師データ補完部103と、設定情報テーブル104とを有する。データ処理装置100は、更に、動画データ記憶部105と、提示部110とを有してもよい。以下、データ処理装置100を構成するこれらの各構成要素について説明する。
画像データ抽出部101は、動画データの中から教師データ作成に使用する静止画像を抽出する。以下、画像データ抽出部101により抽出された静止画像を、「教師データ候補」と称する場合がある。また、教師データ候補が抽出された動画データを「元の動画データ」あるいは「元データ」と称する場合がある。換言すると、教師データ候補は、時系列データである元の動画データに含まれる、特定のタイミングにおける静止画像を表すデータである。
画像データ抽出部101は、動画データにおける場面ごとの映像の変化量を求める(算出する)変化量算出部101aを有する。
教師データ作成部102は、画像データ抽出部101により抽出された静止画像(教師データ候補)に対してラベルを付与することにより、教師データを作成する。
教師データ作成部102は、提示部110を用いて、教師データ候補を、本装置100のユーザやシステム管理者等(以下「ユーザ等」と称する)に対して提示してもよい。教師データ作成部102は、提示された各教師データ候補に対してユーザ等が入力(選択)したラベルを、当該教師データ候補に対して付与する。ユーザに対する教師データ候補の提示方法については、後述する。
教師データ作成部102は、作成した教師データを出力する教師データ出力部102aを有する。
教師データ補完部103は、上記教師データ作成部102によるラベルが付与されていない動画データから、必要に応じて追加の教師データ候補を抽出する。そのように抽出された追加の教師データ候補には、所定の条件に応じてラベルが付与される。
設定情報テーブル104は、教師データの作成に用いられる各種設定情報を保持する。設定情報テーブル104が保持する情報を、図2に例示する。図2に例示する各閾値(静止画像追加抽出の閾値202、ラベル追加付与の閾値204、背景画像変化閾値205、背景画像差分閾値207、信頼度閾値208)は、本装置の開発段階や運用段階等における、予備的な実験、蓄積された過去のデータ、ユーザ等の要望、あるいは、本装置の開発者が有するノウハウ等に基づいて、予め設定されてもよい。図2に例示された各設定情報の詳細な内容については後述する。設定情報テーブル104は、テーブル構造に限定されず、任意のデータ形式により各種設定情報を保持してよい。
動画データ記憶部105は、教師データの基になる動画データ(元データ)を保持する。教師データを抽出する元となる動画データ(以下、単に「元データ」と称する場合がある)は、予め収集され、動画データ記憶部105に登録される。動画データ記憶部105は、例えば、任意のデータベースやファイル等を用いて構成されてもよい。
提示部110は、教師データ候補をユーザ等に提示するUI(User Interface:ユーザ・インタフェース)画面110aを有する。提示部110は、例えば、教師データ作成部102における処理に応じてUI画面110aに教師データ候補を提示し、ユーザ等からの入力を受け付ける。提示部110は、ユーザ等から受け付けた入力を、教師データ作成部102に通知してもよい。なお、提示部110は、周知の画面表示装置等に構成されてもよい。
データ処理装置100を構成する上記各構成要素の間は、任意の周知の通信手段(通信バスや、通信ネットワーク等)により通信可能に接続されている。
以下、上記のように構成された本実施形態におけるデータ処理装置100の動作について、図4A及び図4Bに例示するフローチャートを参照して説明する。図4Aは、本実施形態における画像データ抽出部101による、静止画像群(教師データ候補)の作成処理を例示するフローチャートである。図4Bは、教師データ作成部102による、教師データの作成処理を例示するフローチャートである。
まず、画像データ抽出部101は、動画データ記憶部105に記憶されている動画データから、機械学習システムの学習に用いる教師データを作成する元データである動画データを取得する(ステップS401A)。画像データ抽出部101は、例えば、図示しないユーザ等からの要求に基づいて、動画データ記憶部105に記憶されている動画データの一部又は全部を参照又は取得してもよい。
次に、画像データ抽出部101は、設定情報テーブル104を参照して、動画データから静止画像を抽出する時間間隔(静止画像抽出間隔、図2に例示する符号201)を取得する(ステップS402A)。この静止画像抽出間隔201は、ユーザ等によって、設定情報テーブル104に予め設定されていてもよい。
画像データ抽出部101は、静止画像抽出間隔201に設定された時間間隔で、上記取得した動画データから静止画像を抽出する(選択する)(ステップS403A)。
例えば、この静止画像抽出間隔が「1秒」に設定されている場合、画像データ抽出部101は、動画データの中から1秒ごとに静止画像を抽出する。
なお、動画データの中から静止画像を抽出する具体的な方法は、動画データの形式等に応じて複数存在する。係る方法は、いずれも周知技術を採用してよいことから、詳細な説明は省略する。
次に、画像データ抽出部101は、静止画像抽出間隔201に設定された間隔(例えば1秒)で抽出された静止画像のそれぞれについて、以下に説明する処理を繰り返す(ステップS404A乃至ステップS408A)。
まず、画像データ抽出部101は、特定の静止画像と、当該特定の静止画像の直前に抽出された(抽出された)静止画像との間の差分を計算する(ステップS405A)。
ここで、当該特定の静止画像の直前に抽出された静止画像は、当該特定の静止画像より、静止画像抽出間隔201に設定された間隔(例えば1秒)だけ前に抽出された静止画像である。
画像データ抽出部101は、変化量算出部101aを用いて、係る画像間の差分を計算してもよい。変化量算出部101aは、例えば、2枚の画像間の差分を計算する方法として、静止画像を構成する画素ごとの差分を計算するフレーム間差分法等の周知の計算方法を用いてよい。上記に限らず、変化量算出部101aは、周知の任意の方法により画像間の差分を計算してよい。
変化量算出部101aによる差分の計算は、換言すると、特定の静止画像と、当該特定の静止画像の直前に抽出された(取り出された)静止画像との間の変化の程度を算出しているともとらえられる。
次に、画像データ抽出部101は、ステップS405Aにおいて計算した画像間の差分の値が、設定情報テーブル104に設定されている「静止画像追加抽出の閾値(第2の基準値)」(図2における符号202)より大きいか判定する(ステップS406A)。
なお、静止画像追加抽出の閾値202は、ユーザ等により、設定情報テーブル104に予め設定されてもよい。
ステップS406Aに判定結果がYESの場合、画像データ抽出部101は、元の動画データにおいて、特定の静止画像とその前に抽出された静止画像との間の部分に撮像されている映像が大きく変化していると判定する。
この場合、画像データ抽出部101は、当該特定の静止画像と、その前に抽出された静止画像との間(例えば1秒間)に撮像されている動画データから、更に複数枚の静止画像を抽出する(ステップS407A)。
以上をまとめると、画像データ抽出部101は、当該特定の静止画像と、その前に抽出された静止画像との間の変化の程度(画像間の差分値)が、第2の基準値が超えるか否かを確認する。そして、係る画像間の差分値が、第2の基準値が超える場合には、当該特定の静止画像と、その前に抽出された静止画像との間に撮像されている動画データから、更に複数枚の静止画像を抽出する。
ステップS407Aにおいて抽出される静止画像の具体的な枚数は、例えば、予め設定情報テーブル104に「追加抽出枚数(図2における符号203)」として設定されている。
上記ステップS407Aにおいて更に抽出された静止画像は、後述するステップS402Bにおいて、ユーザに対して提示される。
ステップS407Aにおける処理の後、画像データ抽出部101は、ステップS404Aから処理を続行する。
ステップS406Aによる判定結果がNOの場合、画像データ抽出部101は、ステップS404Aから処理を続行する。
ステップS403Aにおいて抽出した全ての画像に対する処理が終了した場合(ステップS408A)、画像データ抽出部101は、抽出した静止画像群を、教師データ作成用の教師データ候補として教師データ作成部102に渡す(ステップS409A)。
なお、この場合、画像データ抽出部101が、係る教師データ候補を教師データ作成部102に提供(送信等)してもよく、教師データ作成部102が、係る教師データ候補を画像データ抽出部101から取得してもよい。教師データ作成部102は、係る静止画像(教師データ候補)を用いて、教師データを生成する。
上記説明においては、画像データ抽出部101は、ステップS406Aにおいて、画像間の差分値が所定の基準値(第2の基準値)よりも大きいか否かを判定する。上記に限定されず、画像データ抽出部101は、例えば、ステップS406Aにおいて、画像間の差分値が所定の基準値(第2の基準値)以上か否かを判定してもよい。
次に、教師データ作成部102における、教師データの作成処理について説明する。
先ず、教師データ作成部102は、画像データ抽出部101から、画像データ抽出部101が抽出した静止画像群(教師データ候補)を取得する(ステップS401B)。
次に、教師データ作成部102は、取得した静止画像群に含まれる静止画像をUI画面110aに表示する(ステップS402B)。教師データ作成部102は、図3に例示するように、静止画像群に含まれる静止画像を、順次UI画面110aに表示してもよい。
ユーザ等は、この画面を参照しながら、表示されたそれぞれの静止画像に対して適切なラベル付け作業を行う。具体的には、ユーザ等は、例えば、UI画面110aに表示された静止画像(301a乃至301f)を選択し、ラベルを表すボタン(302a、302b)を押下することにより、選択した静止画像に対してラベルを付与してもよい。なお、UI画面110aの構成は、図3に例示した構成に限定されず、ユーザが静止画像に対してラベルを付与可能な任意の構成を採用して良い。
次に、教師データ作成部102は、提示した静止画像(教師データ候補)に対するラベル付与結果を取得する(ステップS403B)。この場合、提示部110は、各静止画像に対して付与されたラベルを教師データ作成部102に通知してもよい。また、教師データ作成部102は、提示部110から、各静止画像に対して付与されたラベルを取得してもよい。
次に教師データ作成部102、及び、教師データ補完部103は、ステップS404B乃至ステップS411Bにより、必要に応じて追加の静止画像を教師データに加える。以下、係る処理について説明する。
まず、教師データ補完部103は、ステップS401B乃至S403Bにおいてラベル付けされた静止画像(教師データ候補)のうち、隣接する2枚の教師データ候補のラベルを確認する(ステップS405B)。ここで、隣接する2枚の教師データ候補は、例えば、元の動画データの中から抽出された静止画像のうち、時系列において隣接する静止画像である。
隣接する2枚の教師データ候補に付与されたラベルが等しい場合(ステップS406BにおいてYES)、教師データ補完部103は、それらの間の差分が、ラベル追加付与の閾値(第1の基準値、図2に例示する204)より小さいか確認する(ステップS407B)。
ラベル追加付与の閾値(図2の204)は、例えば、ユーザ等により設定情報テーブル104に予め設定されてもよい。この場合、教師データ補完部103は、設定情報テーブル104に設定された当該ラベル追加付与の閾値(図2の204)を参照する。なお、ステップS407Bにおいて、教師データ補完部103は、隣接する静止画像の間の差分が、特定の基準値(第1の基準値)以下か否かを判定してもよい。
教師データ補完部103は、ステップS407Bにおいて、時系列において隣接する2枚の教師データ候補の間の変化の程度を確認しているととらえることも可能である。
次に、当該静止画像の間の差分が第1の基準値よりも小さい場合(ステップS408BにおいてYES)、教師データ補完部103は、当該2枚の静止画像の間にはさまれた区間に存在する画像についても、同じラベルを付与可能であると判断する。即ち、教師データ補完部103は、元の動画データにおいて、当該2枚の静止画像の間にはさまれた区間に存在する静止画像についても、同じラベルを付与可能であると判断する。
そして、教師データ補完部103は、係る判断結果を教師データ作成部102に通知する。
係る通知結果を受け付けた教師データ作成部102は、画像データ抽出部101から、該当する2枚の静止画像の間に存在する静止画像を受け取る(ステップS409B)。
ステップS409Bにおいて、教師データ作成部102は、例えば、元の動画データにおいて当該2枚の静止画像撮像されているタイミングを特定可能な情報を画像データ抽出部101に通知してもよい。係る通知を受け付けた画像データ抽出部101は、元の動画データから、当該2枚の静止画像が撮像されているタイミングの間(以下「第1の追加抽出区間」と称する)に存在する静止画像を抽出し、教師データ作成部102に提供する。
なお、画像データ抽出部101が第1の追加抽出区間から抽出する画像の枚数は、任意に定めてよい。係る枚数は、例えば、設定情報テーブル104に予め設定されてもよい。また、係る枚数は、例えば、第1の追加抽出区間における動画データに撮影された全フレーム数としてもよい。この場合、例えば、動画データの撮影フレーム数が毎秒30フレームであり、第1の追加抽出区間が「1秒」である場合、画像データ抽出部101は、30枚の静止画像を更に抽出し、教師データ作成部102に提供する。
教師データ作成部102は、上記ステップS409Bにおいて受け取った追加の静止画像に対して、上記した隣接する2枚の静止画像に対して付与されたラベルと同じラベルを付与する(ステップS410B)。
なお、上記ステップS406BにおいてNOの場合、又は、ステップS408BにおいてNOの場合、教師データ作成部102及び教師データ補完部103は、ステップS404Bから処理を繰り返す。
全ての静止画像に対する上記各ステップにおける処理が終了した場合(ステップS411B)、教師データ作成部102は、ラベルが付与された教師データ候補を教師データとして出力する(ステップS412B)。作成された教師データは、教師データ出力部102aにより出力される。教師データ出力部102aによる教師データの出力先は、適宜定めてよい。
上記のように構成された本実施形態におけるデータ処理装置100は、教師データの元となる動画データから、特定の時間間隔で静止画像を抽出可能である。例えば、動画データから静止画像を1秒間隔で抽出した場合、元の動画ファイルが1秒間に30フレームのデータを有する構成であれば、ラベル付けを行う静止画像の数は30分の1に削減される。
このように、本実施形態におけるデータ処理装置100は、動画データに含まれる静止画像に対して、実際にユーザ等がラベル付けを行う静止画像の数を削減可能である。
ここで、単純にラベル付けを行う画像の数を削減すると、作成される教師データの量が減ってしまう場合がある。
これに対して、本実施形態におけるデータ処理装置100は、抽出した2枚の静止画像間の差分が第1の基準値よりも小さい場合は、それぞれの静止画像が撮像されたタイミングの間に存在する静止画像について、当該2枚の静止画像と同様のラベルを付与する。即ち、本実施形態におけるデータ処理装置100は、抽出した2枚の静止画像の間の変化の程度に基づいて、当該2枚の画像の間存在する時系列データ(本実施系においては動画データ)から、追加の教師データ候補を抽出する。そして、本実施形態におけるデータ処理装置100は、当該抽出された教師データ候補に、当該2枚の静止画像と同様のラベルを付与する。
これにより、本実施形態におけるデータ処理装置100は、教師データの減少を抑制可能であり、適切な数の教師データを作成可能である。
また、本実施形態におけるデータ処理装置100は、特定の時間間隔(静止画像抽出間隔201)により抽出した2枚の静止画像の差分が第2の基準値よりも大きい場合には、係る2枚の静止画像の間に挟まれた区間に含まれる動画データから、静止画像を追加して抽出する。これは、上記特定の時間間隔よりも短い時間間隔により、動外データから静止画像を抽出することと同様である。
動画データの中で映像の変化が激しい個所については、映像の内容が短い時間間隔で変化する。この場合、適切な教師データを作成するには、元の動画データから短い時間間隔で静止画像を抽出することが望ましいと考えられる。
本実施形態におけるデータ処理装置100は、動画データの中で映像の変化が少ない箇所からは、一定間隔で画像を抽出することにより、ラベル付けの対象を削減可能である。また、本実施形態におけるデータ処理装置100は、動画データの中で映像の変化が激しい個所については、より短い時間間隔により静止画像を抽出することにより、適切な教師データを作成可能である。
以上より、本実施形態におけるデータ処理装置100は、時系列の動画データから、特定の基準(例えば、静止画像抽出間隔201、第1の基準値204、第2の基準値202、等)に基づいて抽出したデータを分類(ラベル付け)することにより、教師データを効率的に生成可能である。
<第1の実施形態の変形例>
次に、上記第1の実施形態の変形例について説明する。本変形例におけるデータ処理装置100の構成は、上記第1の実施形態と同様としてもよい。
上記第1の実施形態において、変化量算出部101aは、動画データから特定の時間間隔(静止画像抽出間隔201)により抽出された2枚の静止画像間の差分を計算する。
本変形例における変化量算出部101aは、当該2枚の静止画像がどの程度相互に類似しているかを表す類似度を算出してもよい。なお、係る類似度は、当該2枚の静止画像間の変化の程度(度合)を表しているともとらえられる。
この場合、例えば、画像データ抽出部101は、当該2枚の静止画像間の類似度が第1の類似度基準(不図示)よりも小さい(即ち、類似度合いが小さい)場合に、追加の静止画像を抽出してもよい。なお、係る第1の類似度基準は、ユーザ等により、設定情報テーブル104に予め登録されてもよい。なお、当該2枚の静止画像間の類似度が第1の類似度基準よりも小さい場合、係る画像間の差分は大きい。
また、上記第1の実施形態において、教師データ補完部103は、時系列において隣接する2枚の静止画像間の差分を確認する(ステップS407B)。
これに対して、本変形例における教師データ補完部103は、時系列において隣接する2枚の静止画像間の類似度を確認してもよい。なお、係る類似度は、当該2時系列において隣接する枚の静止画像間の変化の程度を表しているともとらえられる。
この場合、例えば、教師データ補完部103は、時系列において隣接する2枚の静止画像間の類似度が第2の類似度基準よりも大きい(即ち、類似度合いが大きい)場合に、それら2枚の静止画像の間に存在する動画データから、教師画像候補を追加抽出してもよい。なお、係る第2の類似度基準は、ユーザ等により、設定情報テーブル104に予め登録されてもよい。なお、当該2枚の静止画像間の類似度が第2の類似度基準よりも大きい場合、係る画像間の差分は小さい。
なお、画像データ抽出部101及び教師データ補完部103は、任意の周知の技術を用いて、2枚の画像間の類似度を算出してよい。 上記のように構成された本変形例におけるデータ処理装置100は、上記第1の実施形態と同様の効果を奏する。
<第2の実施形態>
次に、本願発明の第2の実施形態について、図5を参照して説明する。以下においては、本実施形態における特徴的な構成について説明する。上記第1の実施形態と同様の構成については、同様の参照符号を付し、詳細な説明を省略する。
まず、本実施形態の概要について説明する。例えば、解析対象の動画データが監視カメラ映像などの場合、係る映像は、人や車などの動体が写っている個所(場面)とそうでない個所(場面)とに分けられる。以下、動体の写っていない個所の静止画像を「背景画像」と称する場合がある。
動画データから抽出した静止画像と背景画像との差分が大きい場合は、係る静止画像には大きな(撮影画像中に占める面積の割合が大きい)動体が写っていると判断可能である。これに対して、背景画像との差分が小さい静止画像には、大きな動体が写っていないと判断可能である。
これにより、動きの大きさ(激しさ)とは別に、写された動体の大きさに基づいて、静止画像を教師データ候補として抽出するか否かを判断することが可能である。
例えば、写された動体が小さい(画像中に占める面積の割合が小さい)画像を教師データとして学習した機械学習システムを用いて映像を解析する場合、解析結果について十分な精度が得られない可能性がある。即ち、写された動体が小さいことから、当該画像に対する機械学習システムの識別力が低下する可能性があり、これに伴い、映像解析処理の精度が低下する可能性がある。
本実施形態におけるデータ処理装置100は、このような画像データを教師データ候補の抽出対象から外す。これにより、本実施形態におけるデータ処理装置100は、ラベル付けの対象となるデータを削減することが可能であり、作業の効率化を実現可能である。また、本実施形態におけるデータ処理装置100は、解析結果の精度を低下させない、適切な教師データを提供可能である。
以下、本実施形態におけるデータ処理装置100の具体的な構成について説明する。
本実施形態におけるデータ処理装置100は、画像データ抽出部101が背景画像抽出部101bを有する点において、上記第1の実施形態と相違する。
背景画像抽出部101bは、動画の中で動体が写されていない場面を背景画像として取り出す(抽出する)。
具体的には、背景画像抽出部101bは、例えば、教師データの元になる動画データの中から、以下の条件(A)及び(B)にあてはまる区間を、背景画像が写っている区間であると判断する。下記の条件(A)及び(B)に該当するか否かを判断する基準は、いずれも設定情報テーブル104に予め設定されていてもよい。
(A)動画データにおける特定の区間全体の映像の変化量が背景画像変化閾値(第3の基準値、図2における符号205)より小さい、
(B)そのような特定の区間が、背景画像時間閾値(図2における符号206)が示す時間以上連続している。
上記に限定されず、背景画像抽出部101bは、周知の具体的な技術(背景差分法等を用いて、動画像中における背景画像を抽出してもよい。
本実施形態におけるデータ処理装置100のその他の構成は、上記第1の実施形態と同様としてよいので、詳細な説明を省略する。
以下、本実施形態におけるデータ処理装置100の動作について、図6に例示するフローチャートを参照して説明する。
まず、画像データ抽出部101は、上記第1の実施形態と同様、動画データ記憶部105から教師データの元データである動画データを受け取る(ステップS601)。
次に、画像データ抽出部101は、ステップS601において受け取った動画データに対して、背景画像抽出部101bを用いて、動体が映っていない場面の静止画像である「背景画像」を抽出する(ステップS602)。背景画像抽出部101bにおける背景画像の抽出処理は、上記説明した通りである。
次に、画像データ抽出部101は、ステップS601において受け取った動画データから、静止画像を抽出する(ステップS603)。
ステップS602における静止画像の抽出処理は、例えば、上記第1の実施形態における画像データ抽出部101による静止画像の抽出処理(図4Aに例示するステップ401A乃至409A)と同様としてもよい。
次に、画像データ抽出部101は、動画データから抽出した全ての静止画像に含まれる各静止画像に対して、以下の処理を繰り返し実行する(ステップS604乃至ステップS608)。
まず、画像データ抽出部101は、ステップS603において抽出した静止画像と、ステップS602において抽出した背景画像との差分を計算する(ステップS605)。
ステップS605において算出した差分が、設定情報テーブル104に設定された背景画像差分閾値より大きい場合(ステップS606においてYES)、画像データ抽出部101は、当該静止画像に解析すべき動体が写っている場面であると判断する。係る背景画像差分閾値は、予め設定情報テーブル104に設定されていてもよい(第4の基準値、図2における符号207)。
この場合、画像データ抽出部101は、当該静止画像を、教師データ作成部102に渡す静止画像群(教師データ候補)に追加する(ステップS607)。
抽出した静止画像と、背景画像との差分が背景画像差分閾値以下の場合(ステップS606においてNOの場合)は、画像データ抽出部101は、当該静止画像には解析すべき動体は写っていないと判断する。この場合、画像データ抽出部101は、当該静止画像を、教師データ作成部102には渡す静止画像群(教師データ候補)に追加しない。
ステップS606においてNOの場合、及び、ステップS607における処理が終了した場合、画像データ抽出部101は、ステップS604に戻り、ステップS603において抽出した他の静止画像に対して、処理を続行する。
なお、上記ステップS606において、画像データ抽出部101は、抽出した静止画像と背景画像との差分が、特定の基準値(第4の基準値)以上か否かを判定してもよい。
ステップS604乃至ステップS608における繰り返し処理が終了した後、画像データ抽出部101は、教師データ作成部102に対して、静止画像群(教師データ候補)を渡す。
画像データ抽出部101から教師データ候補を受け付けた教師データ作成部102は、係る教師データ候補に基づいて、教師データを作成する(ステップS609)。教師データ作成部102は、例えば、上記第1の実施形態と同様の処理により教師データを作成してもよい。
なお、上記において、画像データ抽出部101は、ステップS607において、背景画像との差分値が所定の基準値より大きい静止画像を、1枚ずつ教師データ作成部102に渡してもよい。
上記のように構成されたデータ処理装置100は、例えば、動画データに撮影された、特定の条件にあてはまる動体を検知する映像解析システムに用いられる機械学習システムに対する学習データを生成する目的に有効である。係る特定の条件としては、例えば、人通りの有無等、任意の条件が設定されてよい。
例えば、検出対象の動体が遠方に写っている場合など、動体が描写された領域が小さい場合には、当該画像が検出対象であるか否かを判別することが困難な場合がある。そのような画像に基づいた教師データにより機械学習システムを学習した場合、映像解析の精度(対象物の検知精度)が低下する可能性がある。これに伴い、当該映像解析システムを使用した場合に、見落としや誤検出率が高くなる可能性がある。そのような場合は、判別の難しい動体についてはあえて教師データとして採用しないことが運用上有効である。
本実施形態におけるデータ処理装置100は、動画データから抽出した静止画像と、背景画像との差分が所定の基準値より大きいか否かに基づいて、当該静止画像を教師データ候補に追加するか否かを判定する。換言すると、本実施形態におけるデータ処理装置100は、動画データから抽出した静止画像と、背景画像との差異の程度に基づいて、当該静止画像を教師データ候補として採用するか否かを判定する。
本実施形態においては、背景画像との差分が小さい(即ち、検出対象の判別が困難である)静止画像は、教師データとして採用されない。これより、本実施形態におけるデータ処理装置100は、教師データとして妥当ではない静止画像を、教師データ候補から排除することにより、ラベル付けの対象を適正な範囲に削減可能である。
また、本実施形態におけるデータ処理装置100は、上記第1の実施形態と同様の処理を実行可能であることから、上記第1の実施形態と同様の効果を奏する。
以上より、本実施形態におけるデータ処理装置100は、時系列の動画データから、特定の基準(例えば、静止画像抽出間隔201、第1の基準値204、第2の基準値202、第4の基準値207等)に基づいて抽出したデータを分類(ラベル付け)することにより、教師データを効率的に生成可能である。
<第2の実施形態の変形例>
次に、上記説明した第2の実施形態に対する変形例について説明する。本変形例におけるデータ処理装置100の構成は、上記第2の実施形態と同様としてよい。
上記説明した第2の実施形態においては、背景画像抽出部101bが、動画データの中から背景画像を抽出する。これに対して、本変形例においては、データ処理装置100は、教師データを作成する元データである動画データごとに、予め背景画像を作成する。そして、データ処理装置100は、予め作成した背景画像と、当該背景画像を作成する元データである動画データとを関連付けて(対にして)、記憶装置105に保存する。
上記のように構成された本変形例におけるデータ処理装置100は、背景画像を予め抽出することにより、教師データの作成に際して、背景画像の抽出に必要となる処理を軽減可能である。
また、本変形例におけるデータ処理装置100は、上記第2の実施形態と同様の処理を実行可能であることから、上記第2の実施形態と同様の効果を奏する。
<第3の実施形態>
次に、本願発明の第3の実施形態について、図7を参照して説明する。以下においては、本実施形態における特徴的な構成について説明する。上記第1及び第2の実施形態と同様の構成については、同様の参照符号を付し、詳細な説明を省略する。
まず、本実施形態の概要について説明する。
本実施形態におけるデータ処理装置100は、教師データがある程度作成された際、その教師データを用いて機械学習システムを学習し、映像解析に用いるモデルデータを作成する。
本実施形態におけるデータ処理装置100は、更なる教師データを作成する際に、上記作成したモデルデータを用いて、当該教師データの元となる動画データに対する映像解析処理を事前に実行する。
ここで、一般的に、機械学習システムを用いた映像解析においては、解析結果の確からしさを示すデータ(数値)である「信頼度」が求められる。係る信頼度は、機械学習システムにおいて用いられる具体的な学習アルゴリズムや、生成されるモデルデータに応じて、適宜具体的な算出方法を用いて算出される。例えば、当該信頼度は、画像解析システムにより特定の画像を解析した結果に関する確率値を用いて表されてもよい。即ち、当該特定の画像があるカテゴリに属する確率が確率値N(例えば、Nは0以上1以下の値)の場合、映像解析システムは、信頼度として確率値Nを採用してもよい。例えば、機械学習システムが確率モデルを採用する場合、当該信頼度は、解析結果(識別結果)を表す確率値を用いて表されてもよい。上記に限定されず、信頼度の算出方法は、適宜適切に選択されてよい。
上記した信頼度が高いほど、映像解析の結果が正しい確率が高く、低い場合は映像解析の結果が誤りである可能性が高い。更に、一般的に、映像解析に必要な学習量が十分ではない場合には、信頼度が低い値を示すことが知られている。
以下、ある時点までに作成された教師データにより学習された機械学習システムを用いた、画像データに対する映像解析の結果を「事前解析結果」と称する場合がある。
本実施形態におけるデータ処理装置100は、教師データを作成する際、ある場面(シーン)を写した画像データに対する事前解析結果に関する信頼度が、予め設定した基準よりも高いか(あるいは基準以上であるか)否かを判定する。
本実施形態におけるデータ処理装置100は、事前解析結果の信頼度が予め設定した基準よりも高い場合、その場面の解析に必要となる機械学習システムの学習量は十分であると判断する。この場合、本実施形態におけるデータ処理装置100は、当該画像データを、教師データの対象から外す。
これにより、本実施形態におけるデータ処理装置100は、教師データ作成の作業量を削減可能である。即ち、本実施形態におけるデータ処理装置100は、教師データの作成が進んで学習量が増え、十分な信頼度により解析可能な場面(シーン)が増えるほど、学習対象となる教師データを削減可能である。
次に、本実施形態におけるデータ処理装置100の構成について説明する。本実施形態におけるデータ処理装置100は、上記各実施形態において説明した構成要素に加えて、映像解析部106と、教師データ記憶部107と、モデルデータ記憶部108と、解析結果記憶部109と、を有する。また、本実施形態における教師データ作成部102は、信頼度受信部102bを有する。以下、それぞれの構成要素について説明する。
データ記憶部107は、教師データ出力部102aが出力した教師データを保持(記憶)する。データ記憶部107は、例えば、任意のデータベースを用いて構成されてもよい。
モデルデータ記憶部108は、教師データ出力部102aから出力された教師データを用いて機械学習システム(不図示)の学習処理を実行した結果をモデル化したデータ(モデルデータ)を保持(記憶)する。モデルデータ記憶部108は、例えば、任意のファイルやデータベースを用いて構成されてもよい。
本実施形態における映像解析部106は、教師データ学習部106aと、データ解析部106bと、信頼度算出部106cを有する。映像解析部106は、時系列データである動画データを解析する、時系列データ解析部として機能する。
具体的には、映像解析部106は、モデルデータ記憶部108に保持されるモデルデータを用いて動画データ(時系列データ)を解析することにより、当該動画データに含まれるデータである静止画像に対して付与すべきラベルを判定する。また、本実施形態における映像解析部106は、動画データを解析した結果(ラベルを付与した結果)に関する信頼度を算出する。以下、映像解析部106の各構成要素について説明する。
教師データ学習部106aは、上記教師データ記憶部107に記憶された教師データを用いて、機械学習システムの学習処理を実行する。
データ解析部106bは、機械学習システムの学習結果であるモデルデータを用いて、映像解析処理を実行する。
信頼度算出部106cは、データ解析部106において解析された画像データの解析結果に対する信頼度を算出する。信頼度は、解析結果がどの程度確からしいかを示す値(数値)でああり、映像解析システムにおいて一般に用いられている値である。信頼度算出部106cは、周知の技術により、係る信頼度を算出可能である。
解析結果記憶部109は、映像解析部106が解析した結果を保持(記憶)する。解析結果記憶部109は、例えば、任意のファイルやデータベースを用いて構成されてもよい。
教師データ作成部102における信頼度受信部102bは、映像解析部106が算出した解析結果の信頼度を受け付け(あるいは取得し)る。教師データ作成部102は、係る信頼度を教師データ作成に反映する。
本実施形態において、データ処理装置100を構成する上記各構成要素の間は、任意の周知の通信手段(通信バスや、通信ネットワーク等)により通信可能に接続されている。
以下、上記のように構成された本実施形態におけるデータ処理装置100の動作について、図8及び図9に例示するフローチャートを参照して説明する。
まず、教師データ作成部102は、例えば、上記各実施形態において説明した処理を実行することにより、教師データを作成する。教師データ作成部102は、教師データ出力部102aを用いることにより、当該作成した教師データ(ラベル付けされた静止画像)を、教師データ記憶部107に保存する。
この場合、教師データ出力部102aは、教師データ記憶部107の具体的な構成に応じて、適切な方法により教師データを保存する。教師データ出力部102aは、例えば、教師データ記憶部107がデータベースにより構成される場合はデータベース操作言語を用いて教師データを保存する。また、教師データ出力部102aは、例えば、教師データ記憶部107がファイルにより構成される場合は、当該ファイルに対して教師データを追記する。
次に、映像解析部106の処理について、図8に例示するフローチャートを参照して説明する。
映像解析部106は、教師データ記憶部107に保存された教師データが所定量に達したタイミングで、教師データ記憶部107に保存された教師データを用いて、機械学習システムの学習処理を実行し、モデルデータを作成する(ステップS801)。この際、映像解析部106は、機械学習システムの学習処理の結果として作成されたモデルデータを、モデルデータ記憶部108に保存する。
映像解析部106は、保存された教師データが所定の量になったタイミングを自ら判定することにより(自動的に)、機械学習システムの学習処理を実行してもよい。また、映像解析部106は、ユーザ等の外部からの指示に応じて、機械学習システムの学習処理を実行してもよい。機械学習システムの学習処理を開始するタイミングは、例えば、ユーザ等により、設定情報テーブル104に予め設定されていてもよい。なお、映像解析部106は、機械学習システムの構成に応じて具体的な学習処理の方法を適宜選択してよい。
なお、映像解析部106は、教師データ学習部106aを用いて機械学習システムに関する学習処理を実行してもよい。
次に、映像解析部106は、上記作成したモデルデータを用いて、動画データ記憶部105に保存されている動画データを解析する(ステップS802)。ステップS802において解析される動画データには、教師データ候補の元データである動画データが含まれる。この場合、動画データを構成する各画面(静止画像)は、動画データを構成するフレーム毎の画像であってもよい。例えば、ある動画データの撮影フレーム数が毎秒30フレームである場合、1秒間の動画データに、30枚の静止画像が含まれる。
映像解析部106は、データ解析部106bを用いることにより、動画データを解析してもよい。この場合、データ解析部106bは、モデルデータを用いて動画データを解析することにより、動画データを構成する各画面(静止画像)に対して付与されるべきラベルを判定する。なお、データ解析部106bは、当該判定結果に基づいて、各静止画像に対してラベルを付与してもよい。
また、映像解析部106は、モデルデータを用いて映像を解析した際、信頼度算出部106cを用いて、当該解析結果に対する信頼度を算出する。この場合、信頼度算出部106cは、一般的な周知の算出方法により、解析結果に対する信頼度を算出する。
次に、映像解析部106は、元の動画データを構成する静止画像ごとに、上記ステップS802における映像解析の結果を解析結果記憶部109に保存する(ステップS803)。係る解析結果は、動画データに含まれる静止画像に対するラベルの判断(判定)結果を表す情報と、当該解析結果に対する信頼度とを含む。
次に、上記のように保存された解析結果と信頼度とを用いて教師データを作成する処理について、図9に例示するフローチャートを用いて説明する。
まず、教師データ作成部102は、画像データ抽出部101から、静止画像群(教師データ候補)を取得する(ステップS901)。
次に、教師データ作成部102は、上記ステップS901において取得した静止画像群に含まれる各静止画像(教師データ候補)に関する信頼度の情報を、映像解析部106から取得する(ステップS902)。この場合、映像解析部106は、解析結果記憶部109に保存されている信頼度の情報から、静止画像群に含まれる各静止画像に関する信頼度を抽出し、教師データ作成部102に通知してもよい。
なお、上記したように、解析結果記憶部109には、教師データ候補の元データである動画データを解析した結果が保存されている。即ち、映像解析部106は、解析結果記憶部109を参照することにより、各教師データ候補に関する解析結果と、当該解析結果に対する信頼度とを取得可能である。
次に、教師データ作成部102は、上記ステップS901において取得した静止画像群に含まれる全ての静止画像(教師データ候補)について、それぞれ下記ステップS903乃至ステップS907の処理を繰り返して実行する。
まず、教師データ作成部102は、設定情報テーブル104を参照し、ある静止画像に対して算出された信頼度が、所定の信頼度閾値(図2に例示する符号208)より小さいか確認する(ステップS904)。なお、係る信頼度閾値は、ユーザ等により、設定情報テーブル104に予め設定されていてもよい。
上記信頼度が所定の信頼度閾値以上の場合(ステップS905においてNO)、教師データ作成部102は、当該静止画像に描写された場面については、作成済のモデルデータを用いることにより、十分な信頼度を有する解析結果が得られると判定する。
即ち、この場合、当該静止画像に描写された場面については、映像解析部106が作成済のモデルデータを用いることにより、十分な信頼度で解析可能であることを表す。
この場合、教師データ作成部102は、当該場面(シーン)については新たに教師データを作成する必要はないと判断する。教師データ作成部102は、当該静止画像をユーザ等によるラベル付けの対象から外す。この場合、当該静止画像は、ユーザ等によるラベル付けのUI画面110aには表示されない。
当該静止画像に関する信頼度が所定の信頼度閾値より小さい場合(ステップS905においてYES)、教師データ作成部102は、当該静止画像に描写された場面については、十分な信頼度を有する解析結果が得られないと判定する。
この場合、教師データ作成部102は、当該場面(シーン)について教師データを作成する必要があると判断する。教師データ作成部102は、当該静止画像をユーザ等によるラベル付けの対象とする(ステップS906)。
ステップS905における判定結果がNOの場合、及び、ステップS906における処理が完了した場合、教師データ作成部102は、ステップS903から処理を続行する。
ステップS901において取得した全ての静止画像群に関する上記処理が終了した場合(ステップS907)、教師データ作成部102は、ステップS906においてラベル付けの対象とされた静止画像を、ユーザ等によるラベル付けに用いられるUI画面110aに表示する(ステップS908)。
なお、教師データ作成部102はステップS908の処理の後、上記第1の実施形態において説明したステップS403Bから処理を続行してもよい。
本実施形態におけるデータ処理装置100は、特定の静止画像にする映像解析の結果と、当該解析結果に関する信頼度とに基づいて、当該静止画像を教師データとして採用するか否かを判定する。
教師データを作成する元となる動画データの中には、あらわれる頻度が多い場面と少ない場面とが存在する。このため、動画データから教師データが作成されるに伴い、動画データの中にあらわれる場面によって、作成される教師データの量に差が生じる。即ち、十分な量の教師データが作成されたことにより、十分な学習が可能である場面と、作成された教師データの量が十分ではなく、より多くの教師データが必要である場面とが生じる。
そこで、本実施形態におけるデータ処理装置100は、あるタイミングまでに作成された教師データを用いて機械学習システムの学習処理を実行することにより、モデルデータを作成する。そして、本実施形態におけるデータ処理装置100は、そのモデルデータを用いて、新たな教師データの元データである動画データに対する解析処理を実行する。
本実施形態におけるデータ処理装置100は、係る解析処理の結果に基づいて、信頼度が低い場面を描写した静止画像を、教師データ候補として追加する。即ち、データ処理装置100は、教師データが不足している場面に関する静止画像を、教師データ候補とする。
これにより、本実施形態におけるデータ処理装置100は、より効率よく教師データを充実させることが可能である。
また、本実施形態におけるデータ処理装置100は、上記各実施形態と同様の処理を実行可能であることから、上記各実施形態と同様の効果を奏する。
以上より、本実施形態におけるデータ処理装置100は、時系列の動画データから、特定の基準(本実施形態においては、例えば、解析結果の信頼度閾値)に基づいて抽出したデータを分類(ラベル付け)することにより、教師データを効率的に生成可能である。
<第3の実施形態の変形例>
次に、上記第3の実施形態の変形例について説明する。本変形例におけるデータ処理装置100の構成は、上記第3の実施形態と同様としてよい。本変形例においては、映像解析部106の動作が、上記第3の実施形態と一部異なる。以下、係る相違点について説明する。
上記第3の実施形態における映像解析部106は、教師データ記憶部107に保存された教師データが所定量に達したタイミングで、教師データ記憶部107に保存された教師データを用いて、機械学習システムの学習処理を実行し、モデルデータを作成する(ステップS801)。
そして、上記第3の実施形態における映像解析部106は、上記作成したモデルデータを用いて、動画データ記憶部105に保存されている動画データを解析する(ステップS802)。
これに対して、本変形例における映像解析部106は、上記第3の実施形態と同様、ステップS801を実行することにより、モデルデータを作成する。
そして、本実変形例における映像解析部106は、ステップS902において、教師データ作成部102から静止画像群に含まれる各静止画像に関する信頼度の情報を要求された際に、当該各静止画像に対する信頼度を算出してもよい。
即ち、上記第3の実施形態における映像解析部106は、所定のタイミングで静止されたモデルデータを用いて、動画データ記憶部105に保存されている動画データを解析することにより、予め信頼度を算出する。これに対して、本変形例における映像解析部106は、教師データ作成部102から特定の静止画像に対する信頼度の情報を要求された際に、当該各静止画像に対する信頼度を算出する。よって、本変形例におけるデータ処理装置100によれば、信頼度の算出に要する計算量を削減可能である。 また、本変形例におけるデータ処理装置100は、上記第3の実施形態におけるデータ処理装置100と同様の構成を有することから、上記第3の実施形態におけるデータ処理装置100と同様の効果を奏する。
<第4の実施形態>
次に、本願発明の第4の実施形態について、図10を参照して説明する。以下においては、本実施形態における特徴的な構成について説明する。上記各実施形態と同様の構成については、同様の参照符号を付し、詳細な説明を省略する。
まず、本実施形態の概要について説明する。
一般的に、機械学習システムの学習に使用する教師データの十分性をユーザ等が判断することは、困難であることが多い。即ち、解析対象のデータに対して、十分な精度の解析結果が得られるような機械学習システムの学習に必要となる教師データの量や質を、ユーザ等が判断することは容易ではない。この場合、例えば、専門的な知識やノウハウを持つ専門家(技術者)が、データ解析の利用シーンに応じて試行錯誤を繰り返すことにより、教師データの十分性を判断する必要がある。
これに対して、本実施形態におけるデータ処理装置100は、機械学習システムに対する教師データを作成するとともに、作成した教師データの十分性をユーザ等が判断可能な情報を提供する。
具体的には、本実施形態におけるデータ処理装置100は、あるタイミングまでに作成された教師データを用いて学習処理を実行した機械学習システムによる映像解析の結果を、ユーザ等に提示する。これにより、本実施形態におけるデータ処理装置100は、作成した教師データの十分性をユーザ等が把握することを可能とする。ユーザ等は、これにより、教師データの作成を終了するか否か、あるいは、更なる教師データの作成が映像解析に対して有効か否かを判断することが可能である。
本実施形態におけるデータ処理装置100は、所定量の教師データを作成した際に、機械学習システムによる学習を開始する。本実施形態におけるデータ処理装置100は、その学習結果に基づいて、新たな教師データを作成する元である動画データの解析処理を実行する。本実施形態におけるデータ処理装置100は、係る解析処理を、新たな教師データを作成する前に実行してもよい。
係る動画データの解析処理は、例えば、動画データに含まれる画像データ(教師データ候補)に対して、当該画像データが分類されるラベルを判定する処理であってもよい。
本実施形態におけるデータ処理装置100は、係る解析処理の結果を記録する。本実施形態におけるデータ処理装置100は、新たな教師データを作成する際に、当該新たな教師データに対するユーザ等の判断結果(当該教師データに付与されたラベル)と、上記記録した解析結果とを比較する。本実施形態におけるデータ処理装置100は、係る判断結果と、解析結果とが一致した場合は正解、不一致の場合は不正解とし、上記解析結果の正解率を算出し、係る正解率をユーザ等に提示する。
これにより、本実施形態におけるデータ処理装置100は、所定のタイミングまでに作成した教師データに基づいて学習した機械学習システムを用いることにより映像を解析した結果に関して、正解率を算出可能である。
ユーザ等は、係る正解率に基づいて教師データの十分性を判断することが可能である。例えば、ユーザ等は、予め目標として設定しておいた正解率に達するまで教師データの作成を継続する、という運用が可能である。
以下、本実施形態におるデータ処理装置100の構成について説明する。
本実施形態におけるデータ処理装置100は、上記各実施形態において説明した構成要素に加えて、画像データ抽出部101が解析結果受信部101cを有し、教師データ作成部102が正解率算出部102cを有する。以下、それぞれの構成要素について説明する。
解析結果受信部101cは、映像解析部106において実行された動画データの解析結果を受け取る。解析結果受信部101cは、係る解析結果を映像解析部106から取得してもよく、あるいは、解析結果記憶部109から取得してもよい。
正解率算出部102cは、映像解析部106(特に、データ解析部106b)における映像解析の結果に対する正解率を計算する。
本実施形態において、データ処理装置100を構成する上記各構成要素の間は、任意の周知の通信手段(通信バスや、通信ネットワーク等)により通信可能に接続されている。
以下、上記のように構成された本実施形態におけるデータ処理装置100の動作について、図11及び図12に例示するフローチャートを参照して説明する。
本実施形態における映像解析部106は、上記第3の実施形態と同様、作成された教師データが所定量に達したタイミングで、教師データ記憶部107に保存された教師データを用いて、機械学習システムの学習処理を実行し、モデルデータを作成する。
映像解析部106は、保存された教師データが所定の量になったタイミングを自ら判定することにより(自動的に)、機械学習システムの学習処理を実行してもよい。また、映像解析部106は、ユーザ等の外部からの指示に応じて、機械学習システムの学習処理を実行してもよい。
映像解析部106は、作成したモデルデータをモデルデータ記憶部108に保存する。
次に、映像解析部106は、上記作成したモデルデータを用いて、動画データ記憶部105に保存されている動画データを解析する。係る動画データには、教師データ候補の元データである動画データが含まれる。この場合、動画データを構成する各画面(静止画像)は、動画データを構成するフレーム毎の画像であってもよい。
次に、映像解析部106は、係る動画データの解析結果を、解析結果記憶部109に保存する。
上記説明した映像解析部106におけるモデルデータの作成処理、及び、動画データに関する解析処理は、上記第3の実施形態と同様としてもよい。
次に、上記のように保存された解析結果を用いて、正解率を算出する処理について説明する。
まず、画像データ抽出部における処理について説明する。
画像データ抽出部101は、動画データ記憶部105から新たな動画データを読み出す(ステップS1101)。
次に、画像データ抽出部101は、当該動画データから静止画像を抽出する(取り出す)(ステップS1102)。画像データ抽出部101における静止画像の抽出処理は、上記各実施形態と同様としてよいので、詳細な説明を省略する。
次に、画像データ抽出部101は、当該動画データに対する映像解析の結果を、映像解析部106から受け取る(ステップS1103)。
係る解析結果は、映像解析部106(データ解析部106b)が上記作成したモデルデータを用いて当該動画データを解析した結果である。即ち、係る解析結果は、当該動画データを構成する各静止画像に対するラベルの判定結果を表す情報を含む。なお、係る解析結果は、動画データを構成する静止画像ごとに解析結果記録部109に記録されてもよい。
なお、この場合、画像データ抽出部101における解析結果受信部101cが、係る解析結果を映像解析部106から取得してもよく、あるいは、解析結果記憶部109から取得してもよい。解析結果受信部101cは、上記ステップS1102において抽出した静止画像ごとに、当該静止画像に対する解析結果を、映像解析部106から取得してもよい。
画像データ抽出部101は、教師データ作成部102に、抽出した静止画像群(教師データ候補)を渡す。この際、画像データ抽出部101は、それぞれの静止画像に対する上記解析結果を教師データ作成部102に渡す(ステップS1104)。なお、この場合、教師データ作成部102が、画像データ抽出部101から、上記静止画像群と、当該静止画像群に対する解析結果とを取得してもよい。
次に、本実施形態における教師データ作成部102における、教師データの作成処理について図12を参照して説明する。
教師データ作成部102は、上記ステップS1104において画像データ抽出部101から渡された静止画像群(教師データ候補)を取得する(ステップS1201)。
次に、教師データ作成部102は、記ステップS1104において画像データ抽出部101から渡された、静止画像群に含まれるそれぞれの静止画像に対する解析結果を取得する(ステップS1202)。
次に、教師データ作成部102は、下記ステップS1203乃至ステップS1212を、当該静止画像群に含まれる全ての静止画像について繰り返す。
まず、教師データ作成部102は、静止画像群(教師データ候補)に含まれる静止画像を表示する(ステップS1204)。ステップS1204における処理は、上記第1の実施形態において説明したステップS402B(図4B)と同様としてよいので、詳細な説明は省略する。
次に、次に、教師データ作成部102は、ステップS1204において提示した静止画像(教師データ候補)に対するラベル付与結果を取得する(ステップS1205)。ステップS1205における処理は、上記第1の実施形態において説明したステップS403B(図4B)と同様としてよいので、詳細な説明は省略する。
次に、教師データ作成部102は、静止画像(教師データ候補)ごとに、ステップS1205において取得したユーザ等によるラベル付与結果と、画像データ抽出部101からステップS1202において取得した当該静止画像に対する解析結果とを比較する(ステップS1206)。上記したように、当該静止画像に対する解析結果は、映像解析部106(データ解析部106b)による、当該静止画像に対するラベルの判定結果を表す情報を含む。
ある静止画像に対してユーザ等により付与されたラベルと、画像データ抽出部101から取得した解析結果(当該静止画像に対するラベルの判定結果)とが一致する場合(ステップS1207においてYES)、教師データ作成部102は、当該解析結果を正解としてカウントする(ステップS1208)。
ある静止画像に対してユーザ等により付与されたラベルと、画像データ抽出部101から取得した解析結果とが不一致である場合(ステップS1207においてNO)、教師データ作成部102は、当該解析結果を不正解としてカウントする(ステップS1209)。
教師データ作成部102は、ステップS1208及びステップS1209の結果に基づいて、正解率を計算する(ステップS1210)。
そして、教師データ作成部102は、ステップS1210において計算した正解率を、例えば図3のUI画面110aに表示することにより、利用者に提示する(ステップS1211)。
全ての静止画像群(教師データ候補)に対して上記各ステップにおける処理が終了した際(ステップS1212)、教師データ作成部102は、教師データを出力する(ステップS1213)。ステップS1213の処理は、上記第1の実施形態におけるステップS412B(図4B)と同様としてよいので、詳細な説明は省略する。
なお、教師データ作成部102は、全ての教師データ候補に対する正解率を計算した後に、それらの正解率をユーザ等に対して提示してもよい。また、係る正解率の提示方法は、図3に例示するUI画面110aに限定されず、適切な方法を適宜選択してよい。
以上のように構成された本実施形態におけるデータ処理装置100は、作成済みの教師データを用いて機械学習システムにおける学習処理を実行することにより、モデルデータを作成する。そして、本実施形態におけるデータ処理装置100は、作成されたモデルデータを用いて、新たな教師データの元データである動画データに対する解析処理を実行する。
本実施形態におけるデータ処理装置100は、当該動画データに基づいて新たな教師データを作成する際、当該動画データに含まれる静止画像について、ユーザ等により付与されたラベルと、上記解析結果とを比較することにより、正解率を算出する。
即ち、本実施形態におけるデータ処理装置100は、既に作成された教師データにより学習された機械学習システムを用いたデータ解析の精度に関する情報(正解率)をユーザに提示可能である。
このため、本実施形態におけるデータ処理装置100によれば、ユーザ等は、教師データを作成する際、その時点における解析結果の精度に関する情報(正解率)を参照することが可能である。ユーザ等は、係る精度に関する情報を参照することにより、例えば、目標とする精度に達した時点で新たな教師データの作成を中止するなどの運用が可能である。
また、本実施形態におけるデータ処理装置100によれば、ユーザ等は、教師データの作成作業に際して解析結果の精度の変化を確認可能である。このため、ユーザ等は、例えば、教師データが増えても精度が上がらないというような場合に、現在の作業を中断して教師データの内容を見直すなどの対応を取ることが可能である。
また、本実施形態におけるデータ処理装置100は、上記各実施形態と同様の処理を実行可能であることから、上記各実施形態と同様の効果を奏する。
以上より、本実施形態におけるデータ処理装置100は、時系列の動画データから、特定の基準に基づいて抽出したデータを分類(ラベル付け)することにより、教師データを効率的に生成可能である。特に、本実施形態におけるデータ処理装置100は、ユーザ等が教師データの十分性を判断可能な情報を提供可能である。
<第4の実施形態の第1の変形例>
次に、上記第4の実施形態に対する第1の変形例について説明する。本変形例におけるデータ処理装置100の構成は、上記第4の実施形態と同様としてよい。
上記第4の実施形態においては、データ処理装置100は、算出した正解率を(例えばUI画面110a等を介して)ユーザに提示する。
これに対して、本変形例におけるデータ処理装置100は、教師データの作成を終了する正解率を予め目標値として設定する。係る目標値は、例えば、設定情報テーブル104に予め設定されてもよい。
本変形例におけるデータ処理装置100は、上記第4の実施形態において説明した処理と同様の処理を実行することにより正解率を算出する。本変形例におけるデータ処理装置100は、係る正解率が上記目標値に達した際に、教師データ作成を終了する。本変形例におけるデータ処理装置100は、教師データの作成を終了可能であることを、ユーザ等に対して通知してもよい。
上記のように構成された本変形例におけるデータ処理装置100は、所定の設定値(正解率の目標値)に基づいて、教師データの作成の終了可否を判断可能である。
また、本変形例におけるデータ処理装置100は、上記第4の実施形態と同様の処理を実行可能であることから、上記第4の実施形態と同様の効果を奏する。
<第4の実施形態の第2の変形例>
次に、上記第4の実施形態に対する第1の変形例について説明する。本変形例におけるデータ処理装置100の構成は、上記第4の実施形態と同様としてよい。
本変形例においては、映像解析部106の動作が、上記第4の実施形態と一部異なる。以下、係る相違点について説明する。
上記第4の実施形態における映像解析部106は、教師データ記憶部107に保存された教師データが所定量に達したタイミングで、教師データ記憶部107に保存された教師データを用いて、機械学習システムの学習処理を実行し、モデルデータを作成する。そして、上記第4の実施形態における映像解析部106は、上記作成したモデルデータを用いて、動画データ記憶部105に保存されている動画データを解析する。
これに対して、本変形例における映像解析部106は、上記第4の実施形態と同様にモデルデータを作成する。
そして、本実変形例における映像解析部106は、ステップS1103において、画像データ抽出部101から特定の静止画像に対する解析結果を要求された際に、当該静止画像に対する解析結果を算出してもよい。
即ち、上記第4の実施形態における映像解析部106は、所定のタイミングで静止されたモデルデータを用いて、動画データ記憶部105に保存されている動画データを解析することにより、予め解析結果を算出する。これに対して、本変形例における映像解析部106は、画像データ抽出部101から特定の静止画像に対する解析結果を要求された際に、当該各静止画像に対する解析結果を算出する。よって、本変形例におけるデータ処理装置100によれば、信頼度の算出に要する計算量を削減可能である。
また、本変形例におけるデータ処理装置100は、上記第4の実施形態におけるデータ処理装置100と同様の構成を有することから、上記第4の実施形態におけるデータ処理装置100と同様の効果を奏する。
<第5の実施形態>
次に、本願発明の第5の実施形態について、図13を参照して説明する。
本実施形態におけるデータ処理装置1300は、データ抽出部1301と、教師データ作成部1302と、教師データ補完部1303と、を有する。本実施形態において、データ処理装置1300を構成する上記各構成要素の間は、任意の周知の通信手段(通信バスや、通信ネットワーク等)により通信可能に接続されている。以下、それぞれの構成要素について説明する。
データ抽出部1301は、時系列データから、特定タイミングにおける一部のデータである教師データ候補を抽出する。本実施形態において、当該時系列データは、例えば、動画データであってもよい。データ抽出部1301は、上記各実施形態における画像データ抽出部101と同様としてもよい。
教師データ作成部1302は、上記教師データ候補を分類可能なラベルと、当該ラベルが付与される上記教師データ候補とに基づいて、教師データを生成する。教師データ作成部1302は、上記各実施形態における教師データ作成部1302と同様としてもよい。
教師データ補完部1303は、特定の上記教師データ候補と、上記時系列において当該特定の上記教師データ候補前と異なるタイミングにおける他の上記教師データ候補との間の変化の程度に基づいて、当該特定の上記教師データ候補と、当該他の上記教師データ候補との間に存在する上記時系列データから、新たな上記教師データ候補を抽出する。教師データ補完部1303は、上記各実施形態における教師データ補完部と同様としてもよい。
上記教師データ作成部1302は、上記変化の程度が第1の基準よりも小さい場合に、教師データ補完部1303により抽出された上記教師データ候補に対して、上記特定の教師データ候補又は上記他の教師データ候補のいずれかに付与された上記ラベルを付与し、当該ラベルが付与された上記データを上記教師データに追加する。
上記のように構成された本実施形態におけるデータ処理装置1300は、抽出した2つの教師データ候補の差分が第1の基準よりも小さい場合は、時系列においてそれぞれの教師データ候補の間に存在するデータについて、自動的にラベルを付与することが可能である。
これにより、本実施形態におけるデータ処理装置100は、ユーザ等によりラベルが付与された教師データ候補が少ない場合でも、適切な数の教師データを自動的に作成可能である。即ち、本実施形態におけるデータ処理装置100は、ユーザ等によるラベル付けの作業に要する工数を低減可能である。
以上より、本実施形態におけるデータ処理装置100は、時系列の動画データから、特定の基準に基づいて抽出したデータを分類(ラベル付け)することにより、教師データを効率的に生成可能である。
<ハードウェア及びソフトウェア・プログラム(コンピュータ・プログラム)の構成>
次に、上記説明した各実施形態を実現可能なハードウェア及びソフトウェア・プログラムの構成について説明する。以下においては、データ処理装置(100、1300)をまとめて「データ処理装置」と称する場合がある。
上記各実施形態において説明したデータ処理装置は、専用のハードウェア装置により構成してもよい。その場合、上記各図に示した各部は、一部又は全部を統合したハードウェア(処理ロジックを実装した集積回路等)として実現してもよい。
また、上記データ処理装置は、図14に例示するようなハードウェアと、係るハードウェアによって実行される各種ソフトウェア・プログラム(コンピュータ・プログラム)とによって構成してもよい。
図14における演算装置1401は、汎用のCPU(Central Processing Unit)やマイクロプロセッサ等の演算処理装置である。演算装置1401は、例えば後述する不揮発性記憶装置1403に記憶された各種ソフトウェア・プログラムを記憶装置1402に読み出し、係るソフトウェア・プログラムに従って処理を実行してもよい。
記憶装置1402は、演算装置1401から参照可能な、RAM(Random Access Memory)等のメモリ装置であり、ソフトウェア・プログラムや各種データ等を記憶する。記憶装置1402は、揮発性のメモリ装置であってもよい。
不揮発性記憶装置1403は、例えば半導体記憶装置によるROM(Read Only Memory)、フラッシュメモリ、磁気ディスク装置のような、不揮発性の記憶装置であり、各種ソフトウェア・プログラムやデータ等を記録してもよい。
例えば、データ処理装置における動画データ記憶部105、教師データ記憶部107、モデルデータ記憶部108、及び、解析結果記憶部109は、不揮発性記憶装置1403保存されるファイルやデータベース等を用いることにより構成されてもよい。
ドライブ装置1404は、例えば、後述する外部記憶媒体1405に対するデータの読み込みや書き込みを処理する装置である。
外部記録媒体1405は、例えば光ディスク、光磁気ディスク、半導体フラッシュメモリ等、データを記録可能な任意の記録媒体である。
ネットワークインタフェース1406は、データ処理装置と、有線あるいは無線及びこれらが組み合わされて構成された任意の通信ネットワークとの間を通信可能に接続するインタフェース装置である。本実施形態におけるデータ処理装置は、例えば、係るネットワークインタフェース1406を介して通信ネットワークに接続されてもよい。
入出力インタフェース1407は、データ処理装置に対する各種入力を受け付ける入力装置、及び、データ処理装置からの各種出力を受け付ける出力装置が接続されるインタフェースである。
例えば、データ処理装置における提示部110は、入出力インタフェース1407を介して接続された表示装置(不図示)に対して、UI画面110aを表示してもよい。また、ユーザ等は、入出力インタフェース1407を介して接続された入力装置(キーボードやマウス等)を用いて、データ処理装置に対してラベル等を入力してもよい。
上述した各実施形態を例に説明した本発明は、例えば、図14に例示したハードウェア装置によりデータ処理装置を構成し、係るデータ処理装置に対して、上記各実施形態において説明した機能を実現可能なソフトウェア・プログラムを供給することにより実現してもよい。この場合、係るデータ処理装置に対して供給したソフトウェア・プログラムを、演算装置1401が実行することによって、本願発明が達成されてもよい。
上述した各実施形態において、上記各図に示した各部は、上述したハードウェアにより実行されるソフトウェア・プログラムの機能(処理)単位である、ソフトウェアモジュールとして実現することができる。但し、これらの図面に示した各ソフトウェアモジュールの区分けは、説明の便宜上の構成であり、実装に際しては、様々な構成が想定され得る。
例えば、図1、図5、図7、図10、及び、図13に例示したデータ処理装置の各構成要素をソフトウェアモジュールとして実現する場合、これらのソフトウェアモジュールを不揮発性記憶装置1403に記憶しておき、演算装置1401がそれぞれの処理を実行する際に、これらのソフトウェアモジュールを記憶装置1402に読み出すよう構成してもよい。
また、これらのソフトウェアモジュール間は、共有メモリやプロセス間通信等の適宜の方法により、相互に各種データを伝達できるように構成してもよい。このような構成により、これらのソフトウェアモジュール間は、相互に通信可能に接続可能である。
更に、上記各ソフトウェア・プログラムを外部記憶媒体1405に記録しておき、上記データ処理装置の出荷段階、あるいは運用段階等において、適宜ドライブ装置1404を通じて当該ソフトウェア・プログラムが不揮発性メモリ1403に格納されるよう構成してもよい。
なお、上記の場合において、データ処理装置への各種ソフトウェア・プログラムの供給方法は、出荷前の製造段階、あるいは出荷後のメンテナンス段階等において、適当な治具を利用して当該データ処理装置内にインストールする方法を採用してもよい。また、各種ソフトウェア・プログラムの供給方法は、インターネット等の通信回線を介して外部からダウンロードする方法等のように、現在では一般的な手順を採用してもよい。
そして、このような場合において、本発明は、係るソフトウェア・プログラムを構成するコード、あるいは係るコードが記録されたところの、コンピュータ読み取り可能な記憶媒体によって構成されると捉えることができる。
以上、本発明を、上述した模範的な実施形態に適用した例として説明した。しかしながら、本発明の技術的範囲は、上述した各実施形態に記載した範囲には限定されない。当業者には、係る実施形態に対して多様な変更又は改良を加えることが可能であることは明らかである。そのような場合、係る変更又は改良を加えた新たな実施形態も、本発明の技術的範囲に含まれ得る。そしてこのことは、特許請求の範囲に記載した事項から明らかである。