JP2018147173A

JP2018147173A - データ抽出装置、及びデータ抽出方法

Info

Publication number: JP2018147173A
Application number: JP2017040601A
Authority: JP
Inventors: 俊輔山口; Shunsuke Yamaguchi; 大治郎小牧; Daijiro Komaki; 昌子湊; Masako MINATO; 健一堀尾; Kenichi Horio; 村上　雅彦; Masahiko Murakami; 雅彦村上
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-03-03
Filing date: 2017-03-03
Publication date: 2018-09-20
Anticipated expiration: 2037-03-03
Also published as: JP6787187B2

Abstract

【課題】複数のメディアデータのなかから、フィルタの適用結果の例示に適したメディアデータを容易に抽出する。【解決手段】データ抽出装置は、フィルタ適用部と、変換部と、検出部と、スコア算出部と、サンプル決定部とを備える。フィルタ適用部は、メディアデータに含まれる所定の情報を検出するフィルタをメディアデータに適用して適用結果を出力する。変換部は、メディアデータに対するフィルタの適用結果を第１のビット列に変換する。検出部は、メディアデータの内容の時間変化を検出し、当該時間変化を示す第２のビット列を生成する。スコア算出部は、１つのメディアデータについての第１のビット列と第２のビット列との一致度を算出する。サンプル決定部は、複数のメディアデータのそれぞれにおける第１のビット列と第２のビット列との一致度に基づいて、複数のメディアデータのなかから、フィルタの適用結果を例示するメディアデータを抽出する。【選択図】図１

Description

本発明は、データ抽出装置、及びデータ抽出方法に関する。

動画像データ等のメディアデータから所定の情報を検出、検知するフィルタ（プログラム）には、様々な種類がある。例えば、動画像データについてのフィルタには、人の数を検知する人数検知フィルタ、動体を検出する動体検出フィルタ、人の顔を検出する顔検出フィルタ等がある（例えば、特許文献１−３を参照。）。更に、上記のフィルタには、同一の情報を検出、検知するものであり、検出方法（検知方法）が異なる複数のフィルタがある。

メディアデータに対するフィルタを提供するサービスでは、提供するフィルタに、フィルタの適用結果を例示するサンプルデータを添付することが多い。例えば、動画像データに適用する人数検知フィルタを提供する際には、当該人数検知フィルタの適用結果を例示するサンプルデータを添付する。フィルタの適用結果を例示するサンプルデータを添付することにより、利用者が複数種類のフィルタのなかから所望のフィルタを選択しやすくなり、利用者の利便性が向上する。

特開２０１５−７０３５９号公報特開２０１６−１７０５０２号公報特開２０１６−１２２９５１号公報

フィルタの適用結果を例示するサンプルデータは、フィルタの効果が顕著であることが好ましい。しかしながら、サンプルデータに適したメディアデータの特徴（条件）は、フィルタ毎に異なる。そのため、複数のメディアデータのなかからサンプルデータに適したメディアデータを抽出することが難しい。例えば、上記の動体検出フィルタを動画像データに適用した場合、再生した動画像内における時間変化量が小さくても、動体があると判定する条件を満たしていれば、適用結果では動体を検出したことになる。ところが、動画像内における像の変化量が小さい動画像データを動体検出フィルタのサンプルデータとした場合、フィルタの適用結果（効果）を視覚的に把握することが難しくなる。

１つの側面において、本発明は、フィルタの適用対象となる複数のメディアデータのなかから、フィルタの適用結果の例示に適したメディアデータを容易に抽出することを目的とする。

１つの態様のデータ抽出装置は、フィルタ適用部と、変換部と、検出部と、スコア算出部と、サンプル決定部とを備える。フィルタ適用部は、メディアデータに含まれる所定の情報を検出するフィルタをメディアデータに適用して適用結果を出力する。変換部は、メディアデータに対するフィルタの適用結果を第１のビット列に変換する。検出部は、メディアデータの内容の時間変化を検出し、当該時間変化を示す第２のビット列を生成する。スコア算出部は、１つのメディアデータについての第１のビット列と、第２のビット列との一致度を算出する。サンプル決定部は、複数のメディアデータのそれぞれにおける第１のビット列と第２のビット列との一致度に基づいて、複数のメディアデータのなかから、フィルタの適用結果を例示するメディアデータを決定して抽出する。

上述の態様によれば、フィルタの適用対象となる複数のメディアデータのなかから、フィルタの適用結果の例示に適したメディアデータを容易に抽出することが可能となる。

一実施形態に係るデータ抽出装置の機能的構成を示す図である。フィルタ群の例を示す図である。センサ値変換ルールの例を示す図である。動画像の時間変化を示すビット列の生成ルールの例を示す図である。一実施形態に係るサンプル動画の抽出処理を説明するフローチャートである。人数検知フィルタについてのサンプル動画を抽出する処理におけるビット列の例を示す図である。ビット列の一致度が高くなる例を説明する図である。ビット列の一致度が低くなる例を説明する図である。動体検出フィルタについてのサンプル動画を抽出する処理におけるビット列の例を示す図である。顔検出フィルタについてのサンプル動画を抽出する処理におけるビット列の例を示す図である。コンピュータのハードウェア構成を示す図である。

以下で説明するデータ抽出装置は、複数の動画像データのなかから、フィルタの適用結果の例示に適した動画像データ（サンプル動画）を抽出する装置である。フィルタは、動画像データに含まれる所定の情報を検出、検知するものであり、例えば、アプリケーションソフトウェア（プログラム）として提供される。動画像データに適用するフィルタには、例えば、動画像に写っている人の数を検知する人数検知フィルタ、動画像に写っている動体を検出する動体検出フィルタ、動画像に写っている人の顔を検出する顔検出フィルタ等がある。

図１は、一実施形態に係るデータ抽出装置の機能的構成を示す図である。
図１に示すように、本実施形態のデータ抽出装置１は、入力受付部１１０と、サンプル動画抽出部１２０と、出力部１３０と、記憶部１９０と、を備える。

入力受付部１１０は、外部装置２からデータ抽出装置１に送信された各種の入力情報を受け付け、該入力情報に従った処理を行う。外部装置２は、図示しない入力装置及び表示装置を含む情報処理装置（例えば、コンピュータ）である。例えば、外部装置２からの入力情報がサンプル動画を抽出する処理の実行命令を含む情報である場合、入力受付部１１０は、サンプル動画抽出部１２０にサンプル動画を抽出する処理を行わせる。

サンプル動画抽出部１２０は、記憶部１９０に記憶させた動画像データ群１９１に含まれる複数の動画像データのなかから、フィルタの適用結果の例示に適した動画像データを抽出する。以下の説明では、フィルタの適用結果の例示に適した動画像データのことをサンプル動画ともいう。サンプル動画抽出部１２０は、フィルタ適用部１２１と、センサ値変換部１２２と、動画変化検出部１２３と、スコア算出部１２４と、サンプル決定部１２５と、を含む。

フィルタ適用部１２１は、動画像データにフィルタを適用し、適用結果（センサ値）を出力する。フィルタ適用部１２１は、記憶部１９０のフィルタ群１９２からフィルタを読み出すとともに、記憶部１９０の動画像データ群１９１からフィルタを適用する動画像データを読み出し、動画像データに対してフィルタを適用する。例えば、適用するフィルタが人数検知フィルタである場合、フィルタ適用部１２１は、動画像データを再生した動画像に写っている人の数を検知し、人の数の時間変化を示すセンサ値を出力する。また、適用するフィルタが動体検出フィルタである場合、フィルタ適用部１２１は、動画像データを再生した動画像に写っている動体を検出し、検出結果の時間変化を示すセンサ値を出力する。

センサ値変換部１２２は、記憶部１９０に記憶させたセンサ値変換ルール１９３に従って、センサ値をビット列に変換する。センサ値変換ルール１９３には、フィルタ毎に定めた、センサ値のうちの「０」に変換する値の条件と「１」に変換する値の条件とが登録されている。例えば、動体検出フィルタを適用して得られるセンサ値に対する変換ルールは、動体を検出したことを示す値を「１」に変換し、動体を検出しなかったことを示す値を「０」に変換するというルールにする。以下の説明では、センサ値変換部１２２においてセンサ値を変換することにより生成されたビット列を、第１のビット列ともいう。

動画変化検出部１２３は、動画像データを再生した動画像内における内容（像）の変化を検出し、動画像内での内容の時間変化を示すビット列を生成する。本実施形態に係る動画変化検出部１２３は、既知の検出方法に従って、動画像における内容（像）の変化を検出する。例えば、動画変化検出部１２３は、画素のＲＧＢ値の変化、オプティカルフロー、テンプレートマッチング、ブロックマッチング、及び背景差分のいずれかに基づいて、動画像データにおけるフレーム間での像の変化の有無を検出する。像の変化を検出した後、動画像変化検出部１２３は、検出結果に基づいて、像の時間変化を示すビット列を生成する。例えば、動画像変化検出部１２３は、像の変化量が閾値以上であることを示す値を「１」に変換し、像の変化量が閾値よりも小さいことを示す値を「０」に変換したビット列を生成する。以下の説明では、動画変化検出部１２３において生成した像の時間変化を示すビット列を、第２のビット列ともいう。

スコア算出部１２４は、センサ値変換部１２２で生成した第１のビット列と、動画変化検出部１２３で生成した第２のビット列との一致度についてのスコアを算出する。例えば、ビット列がｎ桁である場合、スコア算出部１２４は、第１のビット列の値と第２のビット列の値とを１桁毎に比較し、ｎ桁のうちの値が一致している桁の割合を一致度として算出する。例えば、第１のビット列及び第２のビット列がともに２０（ｎ＝２０）桁であり、当該２０桁のうちの１６桁で値が一致している場合、スコア算出部１２４は、一致度として０．８（＝１６／２０）を算出する。スコア算出部１２４は、フィルタを示す情報と、動画像データを示す情報と、算出したスコアとを対応付けて、記憶部１９０のスコアデータ１９４に格納する。

サンプル決定部１２５は、複数の動画像データのそれぞれに同一のフィルタを適用したときのスコアに基づいて、フィルタの適用結果（効果）の例示に最適な動画像データ（すなわちサンプル動画）を決定する。サンプル決定部１２５は、記憶部１９０のスコアデータ１９４から、サンプル動画を決定するフィルタを示す情報と対応付けられた動画像データを示す情報とスコアとの組を読み出し、スコアを比較してサンプル動画を決定する。２つのビット列の一致度が高いほどスコアが高くなる場合、サンプル決定部１２５は、同一のフィルタを適用した複数の動画像データのうちの、スコアが最大値となる動画像データをサンプル動画に決定する。サンプル決定部１２５は、フィルタを示す情報と、サンプル動画とする動画像データを示す情報とを対応付けて、記憶部１９０のサンプル動画リスト１９５に登録する。また、サンプル決定部１２５は、フィルタを示す情報と、サンプル動画とする動画像データを示す情報とを対応付けて、出力部１３０に通知する。

出力部１３０は、サンプル動画抽出部１２０の抽出結果、外部装置２からの入力情報により指定されたフィルタの適用結果を例示するサンプル動画等を、外部装置２に送信する。

本実施形態のデータ抽出装置１は、上記のように、複数の動画像データ（サンプル動画の候補）のなかから、動画像データに含まれる所定の情報を検出、検知するフィルタの適用結果の例示に適した動画像データ（サンプル動画）を抽出する装置である。複数の動画像データは、それぞれ、適用するフィルタで検出、検知する情報に応じて選択し、用意されたものであればよい。複数の動画像データは、例えば、外部装置２からデータ抽出装置１に送信し、データ抽出装置１の記憶部１９０に動画像データ群１９１として記憶させる。動画像データ群１９１に含まれる複数の動画像データは、動画像データ毎に異なる識別情報（例えば、通し番号等）により識別する。

また、フィルタは、例えば、外部装置２からデータ抽出装置１に送信し、データ抽出装置１の記憶部１９０にフィルタ群１９２として記憶させる。フィルタ群１９２に含まれるフィルタが複数である場合、当該複数のフィルタは、フィルタ毎に異なる識別情報（例えば、通し番号等）により識別する。更に、データ抽出装置１の記憶部１９０にフィルタを記憶させる際には、動画像データにフィルタを適用することで得られるセンサ値をビット列に変換する変換ルールを、フィルタを識別する情報と対応付けてセンサ値変換ルール１９３に登録する。

図２は、フィルタ群の例を示す図である。図３は、センサ値変換ルールの例を示す図である。

図２のフィルタ群１９２は、顔検出フィルタ１９２Ａ、動体検出フィルタ１９２Ｂ、及び人数検知フィルタ１９３Ｃを含む。図３のセンサ値変換ルール１９３は、顔検出フィルタを適用したときのセンサ値に対する変換ルール１９３Ａ、動体検出フィルタを適用したときのセンサ値に対する変換ルール１９３Ｂ、及び人数検知フィルタを適用したときのセンサ値に対する変換ルール１９３Ｃを含む。センサ値変換ルール１９３における各変換ルールは、それぞれ、フィルタを識別する情報と、センサ値（フィルタの適用結果）に含まれる値と、ビット列におけるビットの値と対応関係を示している。

顔検出フィルタ１９２Ａは、動画像に写っている人の顔を検出するフィルタである。顔検出フィルタ１９２Ａは、適用結果として、例えば、動画像における所定時間（フレーム）毎の、顔を検出したか否かを示す情報、検出した顔の位置を示す情報等を出力する。顔検出フィルタ１９２Ａを適用したときのセンサ値は、例えば、顔を検出したか否かを示す情報とする。この場合のセンサ値は、顔を検出したか否かを示す情報（値）が時系列に並ぶデータとなる。よって、顔検出フィルタ１９２Ａを適用したときのセンサ値に対する変換ルールは、例えば、図３の変換ルール１９３Ａのようにする。すなわち、センサ値（フィルタの適用結果）に含まれる複数フレーム分の情報（値）のうちの、顔を検出しなかったことを示す情報は「０」に変換し、顔を検出したことを示す情報は「１」に変換するというルールにする。

動体検出フィルタ１９２Ｂは、動画像内の動体（動いている物体）を検出するフィルタである。動体検出フィルタ１９２Ｂは、適用結果として、例えば、動画像における所定時間（フレーム）毎の、動体を検出したか否かを示す情報、検出した動体の位置を示す情報等を出力する。動体検出フィルタ１９２Ｂを適用したときのセンサ値は、例えば、動体を検出したか否かを示す情報とする。この場合のセンサ値は、動体を検出したか否かを示す情報が時系列に並ぶデータとなる。よって、動体検出フィルタ１９２Ｂを適用したときのセンサ値に対する変換ルールは、例えば、図３の変換ルール１９３Ｂのようにする。すなわち、センサ値（フィルタの適用結果）に含まれる複数フレーム分の情報（値）のうちの、動体を検出しなかったことを示す情報は「０」に変換し、動体を検出したことを示す情報は「１」に変換するというルールにする。

人数検知フィルタ１９２Ｃは、動画像に写っている人の数を検知するフィルタである。人数検知フィルタ１９２Ｃは、適用結果として、例えば、動画像における所定時間（フレーム）毎の、検知した人の数を示す情報、検知した人の位置を示す情報等を出力する。人数検知フィルタ１９２Ｃを適用したときのセンサ値は、例えば、検知した人の数を示す情報とする。この場合のセンサ値は、検知した人の数を示す情報が時系列に並ぶデータとなる。よって、人数検知フィルタ１９２Ｃのセンサ値に対する変換ルールは、例えば、図３の変換ルール１９３Ｃのようにする。すなわち、センサ値（フィルタの適用結果）に含まれる複数フレーム分の情報（値）のうちの、検出人数が０であることを示す情報は「０」に変換し、検出人数が１以上であることを示す情報は「１」に変換するというルールにする。

なお、フィルタ群１９２には、検出する（検知する）情報が同一であり、検出方法（検知方法）が異なる複数のフィルタが含まれていてもよい。例えば、フィルタ群１９２には、顔の検出に使用する情報や判定方法等が異なる複数の顔検出フィルタが含まれていてもよい。

動画像の時間変化を示すビット列は、例えば、図４の生成ルールに従って生成する。
図４は、動画像の時間変化を示すビット列の生成ルールの例を示す図である。

動画変化検出部１２３は、図４の生成ルール３に従って、動画像データの時間変化を示すビット列（第２のビット列）を生成する。動画変化検出部１２３は、上記のように、既知の検出方法に従って、動画像に写っている像の変化を検出する。動画変化検出部１２３は、隣り合うフレームにおける変化量（変化の度合い）を算出し、当該変化の度合いに基づいて、各フレームの変化の有無を示す情報を出力する。動画変化検出部１２３は、例えば、算出した変化量が第１の閾値ＴＨ１未満である場合には変化が無いと判定する。このため、生成ルール４では、図４に示すように、変化が無いことを示す情報は「０」に変換するというルールにする。また、生成ルール４では、変化があることを示す情報のうちの、変化量が第２の閾値ＴＨ２（＞ＴＨ１）未満である情報は「０」に変換し、変化量が第２の閾値ＴＨ２以上である情報は「１」に変換するというルールにする。これにより、第２のビット列は、動画像に写っている像に大きな変化が生じたことを示す情報となる。

複数の動画像データ（サンプル動画の候補）、及びフィルタを記憶部１９０に記憶させ、センサ値変換ルール１９３を設定した後、外部装置２からサンプル動画の抽出を命令する情報が入力されると、データ抽出装置１は、サンプル動画を抽出する処理を行う。サンプル動画を抽出する処理は、データ抽出装置１のサンプル動画抽出部１２０が行う。本実施形態に係るサンプル動画抽出部１２０は、サンプル動画を抽出する処理として、図５の処理を行う。

図５は、一実施形態に係るサンプル動画の抽出処理を説明するフローチャートである。
サンプル動画抽出部１２０は、まず、サンプル動画の抽出処理の対象とするフィルタを選択する（ステップＳ１）。ステップＳ１の処理は、例えば、フィルタ適用部１２１が行う。フィルタ適用部１２１は、外部装置２から入力された入力情報、或いは予め定められた選択条件に従って、フィルタ群１９２に含まれるフィルタの１つを選択する。

次に、サンプル動画抽出部１２０は、フィルタを適用する動画像データを選択し（ステップＳ２）、選択した動画像データにフィルタを適用する（ステップＳ３）。ステップＳ２及びＳ３の処理は、フィルタ適用部１２１が行う。ステップＳ２では、フィルタ適用部１２１は、予め定められた選択条件に従って、動画像データ群１９１に含まれる複数の動画像データのなかから１つの動画像データを選択する。また、ステップＳ３では、フィルタ適用部１２１は、ステップＳ１で選択したフィルタと、ステップＳ２で選択した動画像データとを記憶部１９０から読み出し、動画像データに対してフィルタを適用する。

動画像データにフィルタを適用する処理の内容、及び適用結果（センサ値）は、適用するフィルタ毎に異なる。例えば、人数検知フィルタを適用する場合、フィルタ適用部１２１は、動画像データに含まれる複数のフレームのそれぞれに対し、写っている人の数を検出する処理を行う。この場合、フィルタ適用部１２１は、各フレームに写っている人の数を示す数値が時系列に並んだデータをセンサ値として出力する。

次に、サンプル動画抽出部１２０は、適用結果（センサ値）を第１のビット列に変換する（ステップＳ４）。ステップＳ４の処理は、センサ値変換部１２３が行う。センサ値変換部１２３は、フィルタ毎に設定されたセンサ値変換ルール１９３（図３参照）に従って、センサ値に含まれる複数の値のそれぞれを、「０」及び「１」のいずれかに変換する。例えば、人数検知フィルタを適用した場合のセンサ値は、各フレームに写っている人の数を示す数値が時系列に並んでいる。この場合、センサ値変換部１２３は、センサ値において人が写っていることを示す値は「１」に変換し、人が写っていないことを示す値は「０」に変換する。このような変換ルールが設定されている場合、センサ値変換部１２３は、センサ値における「０」以外の値（すなわち人物が写っていることを表す１以上の値）を全て「１」に変換する。センサ値変換部１２３は、センサ値変換ルール１９３に従って生成した第１のビット列をスコア算出部１２４に出力する。

次に、サンプル動画抽出部１２０は、ステップＳ２で選択した動画像データにおける動画像の時間変化を示す第２のビット列を生成する（ステップＳ５）。ステップＳ５の処理は、動画変化検出部１２３が行う。動画変化検出部１２３は、既知の検出方法に従って動画像データにおける像の変化を検出し、像の時間変化を示す情報を抽出する。例えば、動画変化検出部１２３は、動画像データのフレーム毎に、時間的に前のフレームと比較して像の変化量（変化の度合い）を算出し、変化量が閾値よりも小さいフレームを「０」で表し、変化量が閾値以上であるフレームを「１」で表すビット列を生成する。ここで、「０」及び「１」のいずれの値にするかを判定する閾値は、変化の有無を判定する場合の閾値よりも大きな値とする（図４の生成ルール３を参照）。「０」及び「１」のいずれの値にするかを判定する閾値ＴＨ２は、例えば、検出（検知）対象である物体の数や位置が大きく変化した場合に「１」となるような値とする。

次に、サンプル動画抽出部１２０は、フィルタの適用結果を示す第１のビット列と、動画像の時間変化を示す第２のビット列との一致度を算出して保持する（ステップＳ６）。ステップＳ６の処理は、スコア算出部１２４が行う。スコア算出部１２４は、２つのビット列の一致度として、例えば、ビット列の総桁数のうちの値が一致している桁の個数の割合を算出する。この場合、スコア算出部１２４は、第１のビット列における各桁の値と、第２のビット列における各桁の値とを一桁毎に比較し、一致している桁の個数を算出する。その後、スコア算出部１２４は、比較した桁の総数ｎのうちの、値が一致している桁の個数ｍの割合（ｍ／ｎ）を算出する。スコア算出部１２４は、算出した一致度を、現在選択されている動画像データのサンプル動画としての適正度を示すスコアとする。スコア算出部１２４は、算出した一致度（スコア）と、動画像データの識別情報と、フィルタの識別情報とを対応付けてスコアデータ１９４に格納する。

次に、サンプル動画抽出部１２０は、サンプル動画の候補である全ての動画像データについての一致度（スコア）を算出したか否かを判定する（ステップＳ７）。ここで、全ての動画像データは、動画像データ群１９１に含まれる全ての動画像データであってもよいし、動画像データ群１９１に含まれる全ての動画像データのなかから選択した複数の動画像データであってもよい。

一致度を算出していない動画像データがある場合（ステップＳ７；ＮＯ）、サンプル動画抽出部１２０は、ステップＳ２以降の処理を行う。そして、全ての動画像データについての一致度を算出すると（ステップＳ７；ＹＥＳ）、サンプル動画抽出部１２０は、次に、一致度が最大値となる動画像データを、選択されたフィルタの適用結果を例示するサンプル動画に決定して出力する（ステップＳ８）。ステップＳ８の処理は、サンプル決定部１２５が行う。サンプル決定部１２５は、スコアデータ１９４を参照し、現在選択されているフィルタと対応付けられている動画像データのうちの、一致度が最大値である動画像データをサンプル動画に決定する。サンプル動画を決定した後、サンプル決定部１２５は、現在選択されているフィルタの識別情報と、サンプル動画に決定した動画像データの識別情報とを対応付けてサンプル動画リスト１９５に登録する。なお、ステップＳ８の処理は、フィルタの識別情報、サンプル動画に決定した動画像データの識別情報等を、現在選択されているフィルタに対するサンプル動画の抽出処理の結果として、外部装置２に送信する処理を含むものであってもよい。この場合、サンプル決定部１２５は、出力部１３０にフィルタの識別情報、サンプル動画に決定した動画像データの識別情報等を通知する。出力部１３０は、例えば、フィルタの識別情報、サンプル動画に決定した動画像データの識別情報、サンプル動画にフィルタを適用した結果等を外部装置２に送信する。

ステップＳ８の処理を終えると、サンプル動画抽出部１２０は、次に、サンプル動画を抽出する処理を続けるか否かを判定する（ステップＳ９）。サンプル動画を決定していないフィルタがあり処理を続ける場合（ステップＳ９；ＹＥＳ）、サンプル動画抽出部１２０は、ステップＳ１以降の処理を行う。一方、処理を続けない場合（ステップＳ９；ＮＯ）、サンプル動画抽出部１２０は、サンプル動画の抽出処理を終了する。

上記のサンプル動画の抽出処理を終えた後、フィルタ群１９２に含まれる各種フィルタを提供する際には、例えば、サンプル動画リスト１９５を参照し、提供するフィルタ毎にサンプル動画を添付する。

このように、本実施形態に係るサンプル動画の抽出処理では、動画像データにフィルタを適用したときの適用結果（センサ値）と、当該動画像データを再生した動画像における像の時間変化とに基づいて、フィルタの適用結果の例示に適したサンプル画像を決定する。

動画像データに適用するフィルタは、動画像における動体の有無を示す情報や、人の増減を示す情報等のセンサ的な情報を出力するものが多い。そのため、動画像データにフィルタを適用したときの適用結果の変化は、動画像における像に生じた何らかの変化と連動していることが多い。したがって、動画像における像の変化のうちの視覚的にわかりやすい大きな変化のみを抽出し、当該変化とセンサ値の変化との一致度が高い動画像データをサンプル動画とすることで、フィルタの適用結果を視覚的にわかりやすくすることが可能となる。

図６は、人数検知フィルタについてのサンプル動画を抽出する処理におけるビット列の例を示す図である。図６には、上記のサンプル動画の抽出処理により人数検知フィルタについてのサンプル動画を抽出する際に、１つの動画像データ４００から生成される２つのビット列の例を示している。

人数検知フィルタについてのサンプル動画を抽出する場合、サンプル動画抽出部１２０は、動画像データ４００を選択し（ステップＳ２）、当該動画像データ４００に人数検知フィルタを適用する（ステップＳ３）。ステップＳ３は、サンプル動画抽出部１２０のフィルタ適用部１２１が行う。フィルタ適用部１２１は、動画像データ４００を時間方向でＮ個のフレームＦ_１〜Ｆ_Ｎに分割し、フレーム毎に、動画像に写っている人の数を検知する処理を行う。フィルタ適用部１２１は、各フレームＦ_１〜Ｆ_Ｎから検知した人の数が時系列に並んだセンサ値４１０を出力する。例えば、センサ値４１０における１番目の値Ｓ_１（＝０）は、動画像データ４００における１番目のフレームＦ_１から検知した人数が０人であること（すなわち人を検知しなかったこと）を示している。また、例えば、センサ値４１０における３番目の値Ｓ_３（＝４）は、動画像データ４００における３番目のフレームＦ_３から検知した人数が１人であることを示している。

センサ値４１０を出力した後、サンプル動画抽出部１２０は、センサ値変換ルール１９３に登録された人数検知フィルタについての変換ルールに従って、センサ値４１０を第１のビット列４２０に変換する（ステップＳ４）。センサ値４１０を第１のビット列４２０に変換する処理は、サンプル動画抽出部１２０のセンサ値変換部１２２が行う。人数検知フィルタについての変換ルールが図３の変換ルール１９３Ｃである場合、センサ値変換部１２２は、センサ値４１０に含まれるＮ個の値のうちの０以外の値を全て「１」に変更する。例えば、センサ値４１０における３番目の値Ｓ_３（＝４）や５番目の値Ｓ_５（＝２）等は、変換ルールにより「１」に変換される。このため、第１のビット列４２０における３番目（３桁目）の値Ｑ_３や５番目（５桁目）の値Ｑ_５は「１」となる。また、例えば、センサ値４１０における１番目の値Ｓ_１（＝０）は、「０」のままとなる。このため、第１のビット列４２０における１番目（１桁目）の値Ｑ_１は「０」となる。

センサ値４１０を第１のビット列４２０に変換した後、サンプル動画抽出部１２０は、動画像データ４００における動画像の時間変化を示す第２のビット列４４０を生成する（ステップＳ５）。第２のビット列４４０を生成する処理は、サンプル動画抽出部１２０の動画変化検出部１２３が行う。動画変化検出部１２３は、まず、既知の検出方法に従って、動画像に写っている像の変化を検出し、動画像の時間変化４３０を取得する。例えば、動画変化検出部１２３は、画素のＲＧＢ値の変化、オプティカルフロー、テンプレートマッチング、ブロックマッチング、及び背景差分のいずれかに基づいて、動画像データにおけるフレーム間での像の変化の有無を検出する。なお、図６の動画像の時間変化４３０における「有（大）」及び「有（小）」は、それぞれ、検出した変化が変化量の大きい変化であること、及び検出した変化が変化量の小さい変化であることを意味する。

動画像の時間変化４３０を取得した後、動画変化検出部１２３は、例えば、図４の生成ルール３に従って、動画像の時間変化を示す第２のビット列４４０を生成する。図４の生成ルール３では、動画像の時間変化４３０における変化が無いことを示す情報、及び変化量が小さい変化であることを示す情報は「０」となり、変化量が大きい変化であることを示す情報は「１」となる。例えば、時間変化４３０における１番目の値Ｄ_１（変化が無いことを示す情報）や、３番目の値Ｄ_３（変化量が小さい変化であることを示す情報）は、それぞれ「０」に変換される。このため、第２のビット列４４０における１番目（１桁目）の値Ｒ_１、及び３番目（３桁目）の値Ｒ_３は、それぞれ「０」となる。また、例えば、時間変化４３０における５番目の値Ｄ_５（変化量が大きい変化であることを示す情報）は、生成ルール４により「１」に変換される。このため、第２のビット列４４０における５番目（５桁目）の値Ｒ_５は「１」となる。

上記の処理により第１のビット列４２０と第２のビット列４４０とを生成した後、サンプル動画抽出部１２０は、当該２つのビット列４２０，４４０の一致度を算出する（ステップＳ６）。例えば、図６に示した２つのビット列４２０，４４０において、値が一致していない桁が、３桁目及び９桁目（すなわち動画像データ４００における３番目のフレームＦ_３についての値、及び９番目のフレームＦ_９についての値）の２個のみであるとする。この場合、２つのビット列４２０，４４０の一致度は、（Ｎ−２）／Ｎとなる。このため、Ｎ＝２０であれば、２つのビット列４２０，４４０の一致度は、０．９（＝１８／２０）となる。

本実施形態のデータ抽出装置１におけるサンプル動画抽出部１２０は、動画像データ群１９１に含まれる複数の動画像データのそれぞれで、第１のビット列と第２のビット列とを生成し、ビット列の一致度を算出する。その後、サンプル動画抽出部１２０は、複数の動画像データのうちの、ビット列の一致度が最大値となる動画像データを、人数検知フィルタについてのサンプル動画に決定する。

図７は、ビット列の一致度が高くなる例を説明する図である。図８は、ビット列の一致度が低くなる例を説明する図である。

人数検知フィルタは、上記のように、動画像に写っている人の数を検知するフィルタである。このため、人数検知フィルタの効果を視覚的にわかりやすくするには、人数検知フィルタの適用結果を例示するサンプル動画として、人の数の変化が多い動画を選ぶことが好ましい。このため、動画像の時間変化を示す第２のビット列を生成する際の変化量についての閾値ＴＨ２は、例えば、動画像内の人の数の変化が小さい場合には第２のビット列における値が「０」となるような値に設定することが好ましい。

図７に示したセンサ値４１１は、動画像における５番目から８番目までのフレームＦ_５〜Ｆ_８において、フレームが変わる毎に検知した人数が２人以上変化している（すなわち検知した人数が大きく変化している）。ここで、図３の変換ルール１９３Ｃに従ってセンサ値４１１を第１のビット列４２１に変換すると、第１のビット列４２１における５桁目から８桁目まで値は全て「１」となる。また、動画像の時間変化を示す第２のビット列４４１を生成する際の変化量についての閾値ＴＨ２が、人数が２人以上変化した場合に「１」となるような値であるとすると、第２のビット列４４１における５桁目から８桁目まで値は全て「１」となる。

図７の第１のビット列４２１と第２のビット列４４１とを比較すると、３桁目及び１２桁目の２つの桁で、値が不一致となっている。このため、図７の第１のビット列４２１と第２のビット列４４１との一致度は、０．８６（≒１２／１４）となる。

これに対し、図８に示したセンサ値４１２では、検知した人数に変化があるものの、隣り合うフレーム間で人数が２人以上変化している箇所は少ない。このため、センサ値４１２を変換した第１のビット列４２２は図７の第１のビット列４２１と同一であるが、動画像の時間変化を示す第２のビット列４４２は、図７の第２のビット列４４１との差異が大きい。例えば、図７の第２のビット列４４１では６桁目から８桁目までの値が「１」となっているが、図８の第２のビット列４４２における６桁目から８桁目までの値はいずれも「０」となっている。図８の第１のビット列４２２と第２のビット列４４２とを比較すると、値が不一致である桁が６個となっている。このため、図８の第１のビット列４２２と第２のビット列４４２との一致度は、０．５７（≒８／１４）となる。

本実施形態のサンプル動画の抽出処理では、上記のように、第１のビット列と第２のビット列との一致度が最大値となる動画像データをサンプル動画に決定する。人数検知フィルタを適用することにより図７のセンサ値４１１が出力される第１の動画像データと、図８のセンサ値４１２が出力される第２の動画像データとでは、第１の動画像データのほうがビット列の一致度が大きい。このため、本実施形態に係るサンプル動画の抽出処理では、第１の動画像データと第２の動画像データとのうちの第１の動画像データが、人数検知フィルタについてのサンプル動画となる。

人数検知フィルタの効果を視覚的に把握する場合、動画像における人数の変化の度合いが大きいほうが把握しやすい。そして、人数検知フィルタを適用することにより図７のセンサ値４１１が出力される第１の動画像データと、図８のセンサ値４１２が出力される第２の動画像データとでは、第１の動画像データのほうが人数の変化の度合いが大きい。このため、第１の動画像データと第２の動画像データとでは、第１の動画像データのほうが人数検知フィルタの効果（適用結果）を例示するサンプル動画に適しているといえる。すなわち、本実施形態に係るサンプル動画の抽出処理では、複数の動画像データのなかから、フィルタの適用結果が動画像の時間変化における大きな変化と連動している動画像データを容易に抽出することが可能となる。そのため、本実施形態によれば、人数検知フィルタの適用対象である複数の動画像データのなかから、フィルタの効果の例示に適したサンプル動画を容易に抽出することが可能となる。

また、人数検知フィルタとは別のフィルタ（例えば、動体検出フィルタや顔検出フィルタ）についてのサンプル動画を抽出する場合も、同様の処理を行うことにより、フィルタの効果の例示に適したサンプル動画を容易に抽出することが可能となる。

図９は、動体検出フィルタについてのサンプル動画を抽出する処理におけるビット列の例を示す図である。図９には、上記のサンプル動画の抽出処理により動体検出フィルタについてのサンプル動画を抽出する際に、１つの動画像データ４０５から生成される２つのビット列の例を示している。

動体検出フィルタについてのサンプル動画を抽出する場合、サンプル動画抽出部１２０のフィルタ適用部１２１は、動画像データ４０５を選択し（ステップＳ２）、当該動画像データ４０５に動体検出フィルタを適用する（ステップＳ３）。フィルタ適用部１２１は、動画像データ４０５を時間方向でＮ個のフレームＦ_１〜Ｆ_Ｎに分割し、フレーム毎に、動画像に写っている動体を検出する処理を行う。フィルタ適用部１２１は、各フレームＦ_１〜Ｆ_Ｎに対する動体の検出結果（すなわち検出結果を示すＮ個の値）が時系列に並んだセンサ値４１５を出力する。センサ値４１５において、「有」は動体が検出されたことを示しており、「無」は動体が検出されなかったことを示している。例えば、センサ値４１５における１番目の値Ｓ_１は「有」となっており、動画像データ４０５における１番目のフレームＦ_１から動体が検出されたことを示している。また、例えば、センサ値４１５における５番目の値Ｓ_５は「無」となっており、動画像データ４０５における５番目のフレームＦ_５からは動体が検出されなかったことを示している。

センサ値４１５を出力すると、次に、サンプル動画抽出部１２０のセンサ値変換部１２２が、センサ値変換ルール１９３に登録された動体検出フィルタについての変換ルールに従って、センサ値４１５を第１のビット列４２５に変換する（ステップＳ４）。変換ルールが図３の変換ルール１９３Ｂである場合、センサ値変換部１２２は、センサ値４１５に含まれるＮ個の値のうちの、動体が検出されなかったことを示す値（無）を「０」に変換し、動体が検出されたことを示す値（有）を「１」に変換する。例えば、センサ値４１５における５番目の値Ｓ_５は、変換ルールにより「０」に変換される。このため、第１のビット列４２５における５番目（５桁目）の値Ｑ_５は「０」となる。また、例えば、センサ値４１５における１番目の値Ｓ_１、１０番目の値Ｓ_１０は、それぞれ「１」に変換される。このため、第１のビット列４２５における１番目（１桁目）の値Ｑ_１及び１０番目（１０桁目）の値Ｑ_１０は、それぞれ「１」となる。

センサ値４１５を第１のビット列４２５に変換すると、次に、サンプル動画抽出部１２０の動画変化検出部１２３が、動画像データ４０５における動画像の時間変化を示す第２のビット列４４５を生成する（ステップＳ５）。動画変化検出部１２３は、まず、既知の検出方法に従って、動画像に写っている像の変化を検出し、動画像の時間変化４３５を取得する。なお、図９の動画像の時間変化４３５における「有（大）」及び「有（小）」は、それぞれ、検出した変化が変化量の大きい変化であること、及び検出した変化が変化量の小さい変化であることを意味する。

動画像の時間変化４３５を取得した後、動画変化検出部１２３は、例えば、図４の生成ルール３に従って、動画像の時間変化を示す第２のビット列４４５を生成する。図４の生成ルール３では、動画像の時間変化４３５における変化が無いことを示す値、及び変化量が小さい変化であることを示す値は「０」となり、変化量が大きい変化であることを示す値は「１」となる。例えば、時間変化４３５における１番目の値Ｄ_１や３番目の値Ｄ_３は、それぞれ「１」に変換される。このため、第２のビット列４４５における１番目（１桁目）の値Ｒ_１や３番目（３桁目）の値Ｒ_３は「１」となる。また、例えば、時間変化４３５における５番目の値Ｄ_５や、１０番目の値Ｄ_１０は、それぞれ「０」に変換される。このため、第２のビット列４４５における５番目（５桁目）の値Ｒ_５や１０番目（１０桁目）の値Ｒ_１０は、それぞれ「０」となる。

上記の処理により第１のビット列４２５と第２のビット列４４５とを生成すると、次に、サンプル動画抽出部１２０のスコア算出部１２４が、当該２つのビット列４２５，４４５の一致度を算出する（ステップＳ６）。例えば、図９に示した２つのビット列４２５，４４５において、値が一致していない桁が、１０桁目（すなわち動画像データ４０５における１０番目のフレームＦ_１０についての値）の１個のみであるとする。この場合、２つのビット列４２５，４４５の一致度は、（Ｎ−１）／Ｎとなる。このため、Ｎ＝２０であれば、２つのビット列４２５，４４５の一致度は、０．９５（＝１９／２０）となる。

本実施形態のデータ抽出装置１におけるサンプル動画抽出部１２０は、動画像データ群１９１に含まれる複数の動画像データのそれぞれで、第１のビット列と第２のビット列とを生成し、ビット列の一致度を算出する。その後、サンプル動画抽出部１２０は、複数の動画像データのうちの、ビット列の一致度が最大値となる動画像データを、動体検出フィルタについてのサンプル動画に決定する。

例えば、図９の動画像データ４０５と類似した第３の動画像データでは、１番目のフレームＦ_１及び２番目のフレームＦ_２で検出される動体の位置及び数がほぼ同じであるとする。この場合、動体検出フィルタは２番目のフレームＦ_２から動体を検出する。このため、第３の動画像データについての第１のビット列における２番目（２桁目）の値Ｑ_２は「１」となる。これに対し、第３の動画像データについての動画像の時間変化における２番目の値Ｄ_２は「変化が無いことを示す値」又は「変化量が小さいことを示す値」となる。このため、第３の動画像データについての第２のビット列における２番目（２桁目）の値Ｒ_２は「０」となる。ここで、第３の動画像データについての第１のビット列及び第２のビット列における各桁の値が、第２のビット列の２桁目の値を除き、図９の第１のビット列４２５及び第２のビット列４４５の各桁の値と同一であるとする。この場合、第３の動画像データについての２つのビット列において値が一致していない桁の数は、２個となる。よって、第３の動画像データについての２つのビット列の一致度は０．９（＝１８／２０）に低下する。したがって、本実施形態に係るサンプル動画の抽出方法では、図９の動画像データ４０５と第３の動画像データとのうちの、ビット列の一致度の高い図９の動画像データ４０５が、動体検出フィルタについてのサンプル動画となる。

動体検出フィルタは、上記のように、動画像に写っている動体を検出するフィルタである。このため、動体検出フィルタの効果を視覚的に把握する場合、動画像における動体の位置や数の変化が大きいほうが把握しやすい。そして、動体検出フィルタを適用することにより図９のセンサ値４１５が出力される動画像データ４０５と、上記の第３の動画像データとでは、２番目のフレームＦ_２における変化量が大きい分、動画像データ４０５のほうが動体の変化の度合いが大きい。このため、図９の動画像データ４０５と第３の動画像データとでは、図９の動画像データ４０５のほうが動体検知フィルタの効果（適用結果）を例示するサンプル動画に適しているといえる。そのため、本実施形態によれば、動体検出フィルタの適用対象である複数の動画像データのなかから、フィルタの効果の例示に適したサンプル動画を容易に抽出することが可能となる。

図１０は、顔検出フィルタについてのサンプル動画を抽出する処理におけるビット列の例を示す図である。図１０には、上記のサンプル動画の抽出処理により顔検出フィルタについてのサンプル動画を抽出する際に、１つの動画像データ４０６から生成される２つのビット列の例を示している。

顔検出フィルタについてのサンプル動画を抽出する場合、サンプル動画抽出部１２０のフィルタ適用部１２１は、動画像データ４０６を選択し（ステップＳ２）、当該動画像データ４０６に顔検出フィルタを適用する（ステップＳ３）。フィルタ適用部１２１は、動画像データ４０６を時間方向でＮ個のフレームＦ_１〜Ｆ_Ｎに分割し、フレーム毎に、動画像に写っている人の顔を検出する処理を行う。フィルタ適用部１２１は、各フレームＦ_１〜Ｆ_Ｎに対する顔の検出結果（すなわち検出結果を示すＮ個の値）が時系列に並んだセンサ値４１６を出力する。センサ値４１６において、「有」は顔が検出されたことを示しており、「無」は顔が検出されなかったことを示している。例えば、センサ値４１６における１番目の値Ｓ_１は「無」となっており、動画像データ４０６における１番目のフレームＦ_１からは顔が検出されなかったことを示している。また、例えば、センサ値４１６における６番目の値Ｓ_６は「有」となっており、動画像データ４０６における６番目のフレームＦ_６から顔が検出されたことを示している。

センサ値４１６を出力すると、次に、サンプル動画抽出部１２０のセンサ値変換部１２２が、センサ値変換ルール１９３に登録された顔検出フィルタについての変換ルールに従って、センサ値４１６を第１のビット列４２６に変換する（ステップＳ４）。変換ルールが図３の変換ルール１９３Ａである場合、センサ値変換部１２２は、センサ値４１６に含まれるＮ個の値のうちの、顔が検出されなかったことを示す値（無）を「０」に変換し、顔が検出されたことを示す値（有）を「１」に変換する。例えば、センサ値４１６における１番目の値Ｓ_１は、「０」に変換される。このため、第１のビット列４２６における１番目（１桁目）の値Ｑ_１は「０」となる。また、例えば、センサ値４１６における６番目の値Ｓ_６、８番目の値Ｓ_１０は、それぞれ「１」に変換される。このため、第１のビット列４２５における１番目（１桁目）の値Ｑ_１及び１０番目（１０桁目）の値Ｑ_１０は、それぞれ「１」となる。

センサ値４１６を第１のビット列４２６に変換すると、次に、サンプル動画抽出部１２０の動画変化検出部１２３が、動画像データ４０６における動画像の時間変化を示す第２のビット列４４６を生成する（ステップＳ５）。動画変化検出部１２３は、まず、既知の検出方法に従って、動画像に写っている像の変化を検出し、動画像の時間変化４３６を取得する。なお、図１０の動画像の時間変化４３６における「有（大）」及び「有（小）」は、それぞれ、検出した変化が変化量の大きい変化であること、及び検出した変化が変化量の小さい変化であることを意味する。

動画像の時間変化４３６を取得した後、動画変化検出部１２３は、例えば、図４の生成ルール３に従って、動画像の時間変化を示す第２のビット列４４６を生成する。図４の生成ルール３では、動画像の時間変化４３６における変化が無いことを示す値、及び変化量が小さい変化であることを示す値は「０」となり、変化量が大きい変化であることを示す値は「１」となる。例えば、時間変化４３６における６番目の値Ｄ_６は、「１」に変換される。このため、第２のビット列４４６における６番目（６桁目）の値Ｒ_６は「１」となる。また、例えば、時間変化４３６における１番目の値Ｄ_１や、８番目の値Ｄ_８は、それぞれ「０」に変換される。このため、第２のビット列４４６における１番目（１桁目）の値Ｒ_１や８番目（８桁目）の値Ｒ_８は、それぞれ「０」となる。

上記の処理により第１のビット列４２６と第２のビット列４４６とを生成すると、次に、サンプル動画抽出部１２０のスコア算出部１２４が、当該２つのビット列４２６，４４６の一致度を算出する（ステップＳ６）。例えば、図１０に示した２つのビット列４２６，４４６において、値が一致していない桁が、３桁目から５桁目、及び８桁目から１０桁目（すなわち動画像データ４０６におけるフレームＦ_３〜Ｆ_５、及びＦ_８〜Ｆ_１０ついての値）の６個であるとする。この場合、２つのビット列４２６，４４６の一致度は、（Ｎ−６）／Ｎとなる。このため、Ｎ＝２０であれば、２つのビット列４２６，４４６の一致度は、０．７（＝１４／２０）となる。

本実施形態のデータ抽出装置１におけるサンプル動画抽出部１２０は、動画像データ群１９１に含まれる複数の動画像データのそれぞれで、第１のビット列と第２のビット列とを生成し、ビット列の一致度を算出する。その後、サンプル動画抽出部１２０は、複数の動画像データのうちの、ビット列の一致度が最大値となる動画像データを、顔検出フィルタについてのサンプル動画に決定する。

例えば、図１０の動画像データ４０６と類似した第４の動画像データでは、２番目のフレームＦ_２及び３番目のフレームＦ_３で検出される顔の位置や数が大きく異なっているとする。この場合、動体検出フィルタは３番目のフレームＦ_３から顔を検出する。このため、第４の動画像データについての第１のビット列における３番目（３桁目）の値Ｑ_３は「１」となる。また、第４の動画像データについての動画像の時間変化における３番目の値Ｄ_３は「変化量が大きいことを示す値」となる。このため、第４の動画像データについての第２のビット列における３番目（３桁目）の値Ｒ_３は「１」となる。ここで、第４の動画像データについての第１のビット列及び第２のビット列における各桁の値が、第２のビット列の３桁目の値を除き、図１０の第１のビット列４２６及び第２のビット列４４６の各桁の値と同一であるとする。この場合、第４の動画像データについての２つのビット列において値が一致していない桁の数は、５個となる。よって、第４の動画像データについての２つのビット列の一致度は０．７５（＝１５／２０）に上昇する。したがって、本実施形態に係るサンプル動画の抽出方法では、図１０の動画像データ４０６と第４の動画像データとのうちの、ビット列の一致度が高い第４の動画像データが、顔検出フィルタについてのサンプル動画となる。

顔検出フィルタは、上記のように、動画像に写っている人の顔を検出するフィルタである。このため、顔検出フィルタの効果を視覚的に把握する場合、動画像における顔の位置や数の変化が大きいほうが把握しやすい。そして、顔検出フィルタを適用することにより図１０のセンサ値４１６が出力される動画像データ４０６と、上記の第４の動画像データとでは、３番目のフレームＦ_３における変化量が大きい分、第４の動画像データのほうが動体の変化の度合いが大きい。このため、図１０の動画像データ４０６と第４の動画像データとでは、第４の動画像データのほうが顔検知フィルタの効果（適用結果）を例示するサンプル動画に適しているといえる。そのため、本実施形態によれば、顔検出フィルタの適用対象である複数の動画像データのなかから、フィルタの効果の例示に適したサンプル動画を容易に抽出することが可能となる。

以上説明したように、本実施形態によれば、フィルタの適用対象である複数の動画像データのなかから、フィルタの適用結果の例示に適したサンプル動画を容易に抽出することが可能となる。

なお、図３のセンサ値変換ルール１９３は、動画像データにフィルタを適用して得られるセンサ値をビット列に変換する際のルールの一例に過ぎない。本実施形態に係るサンプル動画の抽出処理において参照するセンサ値変換ルール１９３は、本実施形態の要旨を逸脱しない範囲において適宜変更可能である。また、人数検知フィルタ１９２Ａ、動体検出フィルタ１９２Ｂ、及び顔検出フィルタ１９３とは異なる別のフィルタがフィルタ群１９２に含まれる場合には、当該別のフィルタにより検出、検知する情報に応じた変換ルールをセンサ値変換ルール１９３に登録する。

また、図４の生成ルールは、動画像の時間変化を表すビット列の生成ルールの一例に過ぎない。本実施形態に係るサンプル動画の抽出処理における生成ルールは、本実施形態の要旨を逸脱しない範囲において適宜変更可能である。加えて、動画像の時間変化を表すビット列の生成ルールは、共通の１つのルールに限らず、適用するフィルタ毎に異なるルールを設定してもよい。

更に、図５のフローチャートは、本実施形態に係るサンプル動画の抽出処理の一例に過ぎない。本実施形態に係るサンプル動画の抽出処理は、本実施形態の要旨を逸脱しない範囲において適宜変更可能である。例えば、動画像データにフィルタを適用し、適用結果（センサ値）をビット列に変換する処理（ステップＳ３及びＳ４）と、動画像の時間変化を示すビット列を生成する処理（ステップＳ５）とは、処理の順番が逆であってもよいし、並列に行ってもよい。他にも、ビット列の一致度に基づいてサンプル動画を決定する処理（ステップＳ７）は、例えば、ビット列の一致度が閾値以上となる動画像データの全てをサンプル動画としてもよい。

また、サンプル動画の抽出処理は、例えば、ビット列の一致度が最大値となる動画像データが複数存在する場合に、ビット列における「０」及び「１」の各値が定期的に継続している動画像データをサンプル動画に決定する処理を含むものであってもよい。ビット列における「０」及び「１」の各値が定期的に継続しているか否かの評価は、例えば、ビット列を任意の時間間隔に分割して分散を算出し、全間隔の分散値に基づいて行う。分散を算出する間隔は、例えば、適当な期間内における「０」の期間と「１」の期間との時間平均に基づいて決定する。

また、動画像データにフィルタを適用する際には、例えば、適用するフィルタに応じて動画像データの分割数（フレーム数）を変更してもよい。例えば、適用結果（センサ値）の算出に要する時間が長いフィルタを適用する場合には、動画像データのフレーム数を少なくすることにより、サンプル動画を決定するまでに要する処理時間を短縮することが可能となる。

加えて、本実施形態で説明した動画像データに適用するフィルタについてのサンプル動画を抽出する装置及び抽出処理は、メディアデータに適用するフィルタについてのサンプルデータを抽出する装置及び抽出処理の一例に過ぎない。メディアデータは、例えば、音声データや静止画像等であってもよい。

上記の実施形態に係るデータ抽出装置１は、コンピュータと、該コンピュータに実行させるプログラムとにより実現可能である。以下、図１１を参照して、コンピュータとプログラムとにより実現されるデータ抽出装置１について説明する。

図１１は、コンピュータのハードウェア構成を示す図である。
図１１に示すように、コンピュータ９は、プロセッサ９０１と、主記憶装置９０２と、補助記憶装置９０３と、入力装置９０４と、出力装置９０５と、入出力インタフェース９０６と、通信制御装置９０７と、媒体駆動装置９０８と、を備える。コンピュータ９におけるこれらの要素９０１〜９０８は、バス９１０により相互に接続されており、要素間でのデータの受け渡しが可能になっている。

プロセッサ９０１は、Central Processing Unit（ＣＰＵ）やMicro Processing Unit（ＭＰＵ）等である。プロセッサ９０１は、オペレーティングシステムを含む各種のプログラムを実行することにより、コンピュータ９の全体の動作を制御する。また、プロセッサ９０１は、例えば、図５のフローチャートにおけるステップＳ１〜Ｓ９の処理を含むデータ抽出プログラムを実行する。

主記憶装置９０２は、図示しないRead Only Memory（ＲＯＭ）及びRandom Access Memory（ＲＡＭ）を含む。主記憶装置９０２のＲＯＭには、例えば、コンピュータ９の起動時にプロセッサ９０１が読み出す所定の基本制御プログラム等が予め記録されている。一方、主記憶装置９０２のＲＡＭは、プロセッサ９０１が、各種のプログラムを実行する際に必要に応じて作業用記憶領域として使用する。主記憶装置９０２のＲＡＭは、例えば、センサ値変換ルール１９３、センサ値、ビット列、スコアデータ１９４、サンプル動画リスト１９５等の記憶に利用可能である。

補助記憶装置９０３は、主記憶装置９０２のＲＡＭと比べて容量の大きい記憶装置であり、例えば、Hard Disk Drive（ＨＤＤ）や、フラッシュメモリのような不揮発性メモリ（Solid State Drive（ＳＳＤ）を含む）等である。補助記憶装置９０３は、プロセッサ９０１によって実行される各種のプログラムや各種のデータ等の記憶に利用可能である。補助記憶装置９０３は、例えば、図５のフローチャートにおけるステップＳ１〜Ｓ９の処理を含むデータ抽出プログラムの記憶に利用可能である。また、補助記憶装置９０３は、例えば、動画像データ群１９１、フィルタ群１９２、センサ値変換ルール１９３、センサ値、ビット列、スコアデータ１９４、サンプル動画リスト１９５等の記憶に利用可能である。

入力装置９０４は、例えば、キーボード装置やタッチパネル装置等である。コンピュータ９のオペレータ（利用者）が入力装置９０４に対して所定の操作を行うと、入力装置９０４は、その操作内容に対応付けられている入力情報をプロセッサ９０１に送信する。入力装置９０４は、例えば、サンプル動画を抽出する処理の開始命令の入力、センサ値変換ルール１９３の入力、編集等に利用可能である。

出力装置９０５は、例えば、液晶表示装置等の表示装置やプリンタ等の印刷装置である。出力装置９０５は、コンピュータ９の動作状況、サンプル動画リスト１９５の表示や印刷、フィルタの適用結果の表示等に利用可能である。

入出力インタフェース９０６は、コンピュータ９と、他の電子機器とを接続する。入出力インタフェース９０６は、例えば、Universal Serial Bus（ＵＳＢ）規格のコネクタや、映像入力端子等を備える。入出力インタフェース９０６は、例えば、コンピュータ９と、デジタルビデオカメラ等の撮像装置、外部装置２との接続に利用可能である。

通信制御装置９０７は、コンピュータ９をインターネット等のネットワークに接続し、ネットワークを介したコンピュータ９と他の通信機器との各種通信を制御する装置である。通信制御装置９０７は、例えば、外部装置２で収集した動画像データや、外部装置２で作成した各種フィルタをコンピュータ９に送信することに利用可能である。

媒体駆動装置９０８は、可搬型記憶媒体１０に記録されているプログラムやデータの読み出し、補助記憶装置９０３に記憶されたデータ等の可搬型記憶媒体１０への書き込みを行う。媒体駆動装置９０８には、例えば、１種類又は複数種類の規格に対応したメモリカード用リーダ／ライタが利用可能である。媒体駆動装置９０８としてメモリカード用リーダ／ライタを用いる場合、可搬型記憶媒体１０としては、メモリカード用リーダ／ライタが対応している規格、例えば、Secure Digital（ＳＤ）規格のメモリカード（フラッシュメモリ）等を利用可能である。また、可搬型記録媒体１０としては、例えば、ＵＳＢ規格のコネクタを備えたフラッシュメモリが利用可能である。更に、コンピュータ９が媒体駆動装置９０８として利用可能な光ディスクドライブを搭載している場合、当該光ディスクドライブで認識可能な各種の光ディスクを可搬型記録媒体１０として利用可能である。可搬型記録媒体１０として利用可能な光ディスクには、例えば、Compact Disc（ＣＤ）、Digital Versatile Disc（ＤＶＤ）、Blu-ray Disc（登録商標）等がある。可搬型記録媒体１０は、例えば、図５のフローチャートにおけるステップＳ１〜Ｓ９の処理を含むデータ抽出プログラムの記憶に利用可能である。また、可搬型記録媒体１０は、例えば、動画像データ群１９１、フィルタ群１９２、センサ値変換ルール１９３、センサ値、ビット列、スコアデータ１９４、サンプル動画リスト１９５等の記憶に利用可能である。

例えば、入力装置９０４や外部装置２からコンピュータ９にサンプル動画を抽出する処理の開始命令が入力されると、プロセッサ９０１が、補助記憶装置９０３等の非一時的な記録媒体に記憶させたデータ抽出プログラムを読み出して実行する。データ抽出プログラムの実行中、コンピュータ９は、動画像データにフィルタを適用して第１のビット列を生成する処理、動画像の時間変化を示す第２のビット列を生成する処理、ビット列の一致度を算出する処理、一致度に基づいてサンプル動画を決定する処理を行う。コンピュータ９においてデータ抽出プログラムを実行している間、プロセッサ９０１は、データ抽出装置１における入力受付部１１０、サンプル動画抽出部１２０、及び出力部１３０として機能する（動作する）。また、コンピュータ９においてデータ抽出プログラムを実行している間、主記憶装置９０２のＲＡＭや補助記憶装置９０３等は、データ抽出装置１における記憶部１９０として機能する。

なお、データ抽出装置１として動作させるコンピュータ９は、図１１に示した全ての要素９０１〜９０８を含む必要はなく、用途や条件に応じて一部の要素を省略することも可能である。例えば、コンピュータ９は、媒体駆動装置９０８が省略されたものであってもよい。また、データ抽出装置１として動作させるコンピュータ９は、例えば、Digital Signal Processor（ＤＳＰ）等のプロセッサ９０１とは別のプロセッサを含み、当該別のプロセッサで動画像データにフィルタを適用する処理等の一部を行うものであってもよい。

以上記載した実施形態に関し、更に以下の付記を開示する。
（付記１）
メディアデータに含まれる所定の情報を検出するフィルタをメディアデータに適用して適用結果を出力するフィルタ適用部と、
前記メディアデータに対する前記フィルタの適用結果を第１のビット列に変換する変換部と、
前記メディアデータの内容の時間変化を検出し、当該時間変化を示す第２のビット列を生成する検出部と、
１つのメディアデータについての前記第１のビット列と、前記第２のビット列との一致度を算出するスコア算出部と、
複数のメディアデータのそれぞれにおける前記第１のビット列と前記第２のビット列との一致度に基づいて、前記複数のメディアデータのなかから、前記フィルタの適用結果を例示するメディアデータを決定して抽出するサンプル決定部と、
を備えることを特徴とするデータ抽出装置。
（付記２）
前記サンプル決定部は、前記複数のメディアデータのうちの、前記一致度が最大値となるメディアデータを、前記フィルタの適用結果を例示する前記メディアデータに決定する、
ことを特徴とする付記１に記載のデータ抽出装置。
（付記３）
前記サンプル決定部は、前記複数のメディアデータのうちの、前記一致度が閾値以上となるメディアデータを、前記フィルタの適用結果を例示する前記メディアデータに決定する、
ことを特徴とする付記１に記載のデータ抽出装置。
（付記４）
前記サンプル決定部は、前記一致度に基づいて決定される前記メディアデータが複数である場合に、該複数のメディアデータのそれぞれについての、前記第１のビット列又は前記第２のビット列におけるビットの値の並び順に基づいて、前記フィルタの適用結果を例示する前記メディアデータを決定する、
ことを特徴とする付記１に記載のデータ抽出装置。
（付記５）
前記データ抽出装置は、前記フィルタと、前記フィルタの適用結果に含まれる値と、前記第１のビット列におけるビットの値との対応関係を示す変換ルールを記憶する記憶部、を更に備え、
前記変換部は、前記メディアデータに適用した前記フィルタについての前記変換ルールに従って、前記フィルタの適用結果を前記第１のビット列に変換する、
ことを特徴とする付記１に記載のデータ抽出装置。
（付記６）
前記検出部は、前記メディアデータの内容の時間変化における変化量の大きさと、前記第２のビット列におけるビットの値との対応関係を示す生成ルールに従って、前記第２のビット列を生成する、
ことを特徴とする付記１に記載のデータ抽出装置。
（付記７）
前記生成ルールは、前記メディアデータの内容に変化があり、かつ前記変化量が閾値以上であるか否かにより前記ビットの値を決定するルールである、
ことを特徴とする付記６に記載のデータ抽出装置。
（付記８）
前記サンプル決定部は、前記フィルタと、該フィルタの適用結果を例示する前記メディアデータとの対応関係を示すサンプルリストを作成する、
ことを特徴とする付記１に記載のデータ抽出装置。
（付記９）
前記メディアデータは、動画像データであり、
前記フィルタは、前記動画像データを再生した動画像における人の数を検知する人数検知フィルタ、前記動画像における動体を検出する動体検出フィルタ、及び前記動画像における人の顔を検出する顔検出フィルタのいずれかを含む、
ことを特徴とする付記１に記載のデータ抽出装置。
（付記１０）
コンピュータが、
メディアデータに含まれる所定の情報を検出するフィルタをメディアデータに適用し、前記メディアデータに対する前記フィルタの適用結果を第１のビット列に変換するとともに、前記メディアデータの内容の時間変化を検出して当該時間変化を示す第２のビット列を生成し、
１つの前記メディアデータについての前記第１のビット列と、前記第２のビット列との一致度を算出し、
複数のメディアデータのそれぞれについての前記第１のビット列と前記第２のビット列との一致度に基づいて、前記複数のメディアデータのなかから、前記フィルタの適用結果を例示するメディアデータを決定して抽出する、
処理を実行することを特徴とするデータ抽出方法。
（付記１１）
前記第１のフィルタの適用結果を前記第１のビット列に変換する処理において、前記コンピュータは、前記フィルタの適用結果に含まれる値と、前記第１のビット列におけるビットの値との対応関係を示す変換ルールに従って、前記フィルタの適用結果を前記第１のビット列に変換する、
ことを特徴とする付記１０に記載のデータ抽出方法。
（付記１２）
前記第２のビット列を生成する処理において、前記コンピュータは、前記メディアデータの内容の時間変化において前記内容に変化があり、かつ前記変化量が閾値以上となる部分であるか否かに基づいて、前記第２のビット列における各桁の値を決定する、
ことを特徴とする付記１０に記載のデータ抽出方法。
（付記１３）
前記コンピュータが、
複数の前記フィルタのそれぞれについての、前記フィルタの適用結果を例示する前記メディアデータを決定し、
前記フィルタと、該フィルタの適用結果を例示する前記メディアデータとの対応関係を示すサンプルリストを作成する、
処理を実行することを特徴とする付記１０に記載のデータ抽出方法。
（付記１４）
前記メディアデータは、動画像データであり、
前記フィルタは、前記動画像データを再生した動画像における人の数を検知する人数検知フィルタ、前記動画像における動体を検出する動体検出フィルタ、及び前記動画像における人の顔を検出する顔検出フィルタのいずれかを含む、
ことを特徴とする付記１０に記載のデータ抽出方法。

１データ抽出装置
１１０入力受付部
１２０サンプル動画抽出部
１２１フィルタ適用部
１２２センサ値変換部
１２３動画変化検出部
１２４スコア算出部
１２５サンプル決定部
１３０出力部
１９０記憶部
１９１動画像データ群
１９２フィルタ群
１９２Ａ顔検出フィルタ
１９２Ｂ動体検出フィルタ
１９２Ｃ人数検知フィルタ
１９３センサ値変換ルール
１９４スコアデータ
１９５サンプル動画リスト
２外部装置
３生成ルール
４００，４０５，４０６動画像データ
４１０，４１１，４１２，４１５，４１６センサ値
４２０，４２１，４２２，４２５，４２６第１のビット列
４３０，４３５，４３６動画像の時間変化
４４０，４４１，４４２，４４５，４４６第２のビット列
９コンピュータ
９０１プロセッサ
９０２主記憶装置
９０３補助記憶装置
９０４入力装置
９０５出力装置
９０６入出力インタフェース
９０７通信制御装置
９０８媒体駆動装置
９１０バス
１０可搬型記録媒体

Claims

メディアデータに含まれる所定の情報を検出するフィルタをメディアデータに適用して適用結果を出力するフィルタ適用部と、
前記メディアデータに対する前記フィルタの適用結果を第１のビット列に変換する変換部と、
前記メディアデータの内容の時間変化を検出し、当該時間変化を示す第２のビット列を生成する検出部と、
１つのメディアデータについての前記第１のビット列と、前記第２のビット列との一致度を算出するスコア算出部と、
複数のメディアデータのそれぞれにおける前記第１のビット列と前記第２のビット列との一致度に基づいて、前記複数のメディアデータのなかから、前記フィルタの適用結果を例示するメディアデータを決定して抽出するサンプル決定部と、
を備えることを特徴とするデータ抽出装置。
前記サンプル決定部は、前記複数のメディアデータのうちの、前記一致度が最大値となるメディアデータを、前記フィルタの適用結果を例示する前記メディアデータに決定する、
ことを特徴とする請求項１に記載のデータ抽出装置。
前記サンプル決定部は、前記一致度に基づいて決定される前記メディアデータが複数である場合に、該複数のメディアデータのそれぞれについての、前記第１のビット列又は前記第２のビット列におけるビットの値の並び順に基づいて、前記フィルタの適用結果を例示する前記メディアデータを決定する、
ことを特徴とする請求項１に記載のデータ抽出装置。
前記データ抽出装置は、前記フィルタと、前記フィルタの適用結果に含まれる値と、前記第１のビット列におけるビットの値との対応関係を示す変換ルールを記憶する記憶部、を更に備え、
前記変換部は、前記メディアデータに適用した前記フィルタについての前記変換ルールに従って、前記フィルタの適用結果を前記第１のビット列に変換する、
ことを特徴とする請求項１に記載のデータ抽出装置。
前記データ抽出装置は、複数の前記フィルタのそれぞれについての、前記フィルタの適用結果を例示する前記メディアデータを決定し、
前記サンプル決定部は、前記フィルタと、該フィルタの適用結果を例示する前記メディアデータとの対応関係を示すサンプルリストを作成する、
ことを特徴とする請求項１に記載のデータ抽出装置。
前記メディアデータは、動画像データであり、
前記フィルタは、前記動画像データを再生した動画像における人の数を検知する人数検知フィルタ、前記動画像における動体を検出する動体検出フィルタ、及び前記動画像における人の顔を検出する顔検出フィルタのいずれかを含む、
ことを特徴とする請求項１に記載のデータ抽出装置。
コンピュータが、
メディアデータに含まれる所定の情報を検出するフィルタをメディアデータに適用し、前記メディアデータに対する前記フィルタの適用結果を第１のビット列に変換するとともに、前記メディアデータの内容の時間変化を検出して当該時間変化を示す第２のビット列を生成し、
１つの前記メディアデータについての前記第１のビット列と、前記第２のビット列との一致度を算出し、
複数のメディアデータのそれぞれについての前記第１のビット列と前記第２のビット列との一致度に基づいて、前記複数のメディアデータのなかから、前記フィルタの適用結果を例示するメディアデータを決定する、
処理を実行することを特徴とするデータ抽出方法。
前記メディアデータは、動画像データであり、
前記フィルタは、前記動画像データを再生した動画像における人の数を検知する人数検知フィルタ、前記動画像における動体を検出する動体検出フィルタ、及び前記動画像における人の顔を検出する顔検出フィルタのいずれかを含む、
ことを特徴とする請求項７に記載のデータ抽出方法。