JP6904614B2

JP6904614B2 - 対象物検出装置、予測モデル作成装置、対象物検出方法及びプログラム

Info

Publication number: JP6904614B2
Application number: JP2019558264A
Authority: JP
Inventors: 青木　教之; 教之青木; 真則高岡; 伊藤　哲也; 哲也伊藤; 大輝横田
Original assignee: NEC Communication Systems Ltd
Current assignee: NEC Communication Systems Ltd
Priority date: 2017-12-08
Filing date: 2018-12-05
Publication date: 2021-07-21
Anticipated expiration: 2038-12-05
Also published as: US11361547B2; US20200394415A1; WO2019111976A1; JPWO2019111976A1

Description

（関連出願についての記載）
本発明は、日本国特許出願：特願２０１７−２３５８３８号（２０１７年１２月８日出願）の優先権主張に基づくものであり、同出願の全記載内容は引用をもって本書に組み込み記載されているものとする。
本発明は、対象物検出装置、予測モデル作成装置、対象物検出方法及びプログラムに関する。

車両やドローンと呼ばれる無人飛翔体（以下、これらを総称して「移動体」と呼ぶ。）にカメラを搭載し、その撮影画像から施設や設備等を点検することが行われている。特に、位置等が既知である施設や設備（以下、これらを総称して「対象物」と呼ぶ。）の点検においては、移動体を所定のルートで移動させ、その搭載カメラで動画を撮影することで対象物の状態を撮影することが可能となる。このような手法を採ることで、点検担当者は、現地に赴かなくても、動画を見ることで対象物の異常の有無等を確認することができる。

特許文献１に、画像から検出された被写体がデータベースに登録されていない被写体であることをより正確に判別できるという画像認識装置が開示されている。同文献によると、この画像認識装置は、被写体を撮影した画像またはこの画像から得られる当該被写体に関する画像特徴と撮影状態を、登録画像情報として当該被写体に関連付けて登録したデータベースを有する。そして、この画像認識装置は、処理対象の画像から特定の被写体画像を検出する。そして、この画像認識装置は、前記被写体画像と登録画像情報における被写体の撮影状態の一致度と画像特徴の類似度とを算出し、類似度と一致度とに基づいて、被写体画像の被写体が登録画像情報の被写体であるか否かを認識する。そして、この画像認識装置は、類似度が第１の閾値よりも低く、一致度が第２の閾値以上の場合、被写体画像の被写体は登録画像情報の被写体とは異なる被写体であると認識する。

特許文献２には、入力画像から所定領域毎の画像を抽出する画像抽出手段と、輝度補正手段と、対象物検出手段と、を備えた対象物検出装置が開示されている。具体的には、輝度補正手段は、前記画像抽出手段により抽出された所定領域の画像を構成する画素の輝度値が予め設定された閾値を超えているときに、前記閾値を超えないように前記画素の輝度値を補正する。そして、前記対象物検出手段は、前記輝度補正手段により輝度値が補正された画素を含む所定領域の画像と、対象物を検出するための学習モデルと、に基づいて、対象物を検出する、と記載されている。

その他、特許文献３には動画像を構成するフレーム画像中の対象物を追跡する画像処理装置が開示されている。また、特許文献４には、映像に代表画像を選択するためのインデックスを付与する技術が開示されている。

特開２０１１−１６５００８号公報特開２００７−２７２４２１号公報特開２０１７−０８５５６４号公報特開２００５−３５２７１８号公報

以下の分析は、本発明によって与えられたものである。上記点検担当者が動画を見て、対象物の異常の有無等を確認する方法では、点検担当者が、撮影した動画データを最初から最後まで見て、対象物を探す必要があり、時間がかかるという問題点がある。更に、点検担当者のスキルによっては点検するオブジェクトを見逃してしまう場合がある。

本発明は、上記動画を見て対象物の点検等を行う担当者の負担の軽減に貢献できる対象物検出装置、予測モデル作成装置、対象物検出方法及びプログラムを提供することを目的とする。

第１の視点によれば、動画データを入力する入力部を含む対象物検出装置が提供される。この対象物検出装置は、さらに、前記動画データから、静止画データを抽出する抽出部を含む。この対象物検出装置は、さらに、前記静止画データに、対象物が写っているか否かを判定する判定部を含む。そして、前記判定部は、事前に撮影された学習用動画データから抽出された学習用静止画データに写っている前記対象物が少なくとも複数の領域にまたがるように、前記学習用動画データから抽出された静止画データに、複数の領域を設定し、前記設定した領域それぞれに学習用教師ラベルを付与し、前記領域毎に付与した前記学習用教師ラベルを用いて作成した予測モデルを用いて、前記静止画データに対象物が写っているか否かを判定する。

第２の視点によれば、事前に撮影された学習用動画データを入力する入力部と、前記学習用動画データから、学習用静止画データを抽出する抽出部と、前記学習用動画データから抽出された静止画データに写っている前記対象物が少なくとも複数の領域にまたがるように、前記学習用静止画データに複数の領域を設定し、前記設定した領域それぞれに付与した学習用教師ラベルを用いて、予測モデルを作成する機械学習エンジンと、を備える予測モデル作成装置が提供される。

第３の視点によれば、動画データを入力する入力部を備えるコンピュータが、前記動画データから、静止画データを抽出するステップと、事前に撮影された学習用動画データから抽出された学習用静止画データに写っている前記対象物が少なくとも複数の領域にまたがるように、前記学習用静止画データに複数の領域を設定し、前記設定した領域それぞれに付与した学習用教師ラベルを用いて作成された予測モデルを用いて、前記静止画データに対象物が写っているか否か判定するステップと、を含む動画データからの対象物検出方法が提供される。本方法は、動画データを入力として対象物が写っているか否かを判定するコンピュータという、特定の機械に結びつけられている。

第４の視点によれば、動画データを入力する入力部を備えるコンピュータに、前記動画データから、静止画データを抽出する処理と、事前に撮影された学習用動画データから抽出された学習用静止画データに写っている前記対象物が少なくとも複数の領域にまたがるように、前記学習用静止画データに複数の領域を設定し、前記設定した領域それぞれに付与した学習用教師ラベルを用いて作成された予測モデルを用いて、前記静止画データに対象物が写っているか否か判定する処理と、を実行させるプログラムが提供される。なお、このプログラムは、コンピュータが読み取り可能な（非トランジトリーな）記憶媒体に記録することができる。即ち、本発明は、コンピュータプログラム製品として具現することも可能である。

本発明によれば、動画を見て対象物の点検等を行う担当者の負担を軽減することが可能となる。即ち、本発明は、背景技術に記載した対象物検出装置を、その点検作業者の負担を飛躍的に軽減できるものへと変換するものとなっている。

本発明の一実施形態の構成を示す図である。本発明の第１の実施形態の予測モデル作成装置の構成を示す機能ブロック図である。本発明の第１の実施形態のインデックス作成装置の構成を示す機能ブロック図である。本発明の第１の実施形態の前処理として実行される処理フローを示す図である。動画から切り出した画像中の対象物を説明するための図である。本発明の第１の実施形態における予測モデルの作成方法を説明するための図である。本発明の第１の実施形態における予測モデルの作成方法を説明するための別の図である。本発明の第１の実施形態の後処理部により実行される処理フローを示す図である。本発明の各実施形態の対象物検出装置又はインデックス作成装置として機能するコンピュータの構成を示す図である。

はじめに本発明の一実施形態の概要について図面を参照して説明する。なお、この概要に付記した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、本発明を図示の態様に限定することを意図するものではない。また、以降の説明で参照する図面等のブロック間の接続線は、双方向及び単方向の双方を含む。一方向矢印については、主たる信号（データ）の流れを模式的に示すものであり、双方向性を排除するものではない。また、図中の各ブロックの入出力の接続点には、ポート乃至インタフェースがあるが図示省略する。

本発明は、その一実施形態において、図１に示すように、入力部１１と、抽出部１２と、判定部１３と、を含む対象物検出装置１０にて実現できる。より具体的には、前記入力部１１は、動画データを入力する。前記抽出部１２は、前記動画データから静止画データを抽出する。前記判定部１３は、所定の予測モデル１４に基づいて、前記静止画データに、対象物が写っているか否かを判定する。

前記所定の予測モデル１４は、次のように作成される。まず、事前に撮影された学習用動画データから学習用静止画データを抽出する。そして、学習用静止画データに写っている前記対象物が少なくとも複数の領域にまたがるように、前記学習用静止画データに複数の領域を設定する（図６、図７のＦＬ１−１〜ＦＬ１−６参照）。そして、前記設定した領域それぞれに学習用教師ラベルを付与する。さらに、所定の機械学習エンジンに、前記領域と学習用教師ラベルの組を多数入力し、予測モデルを作成する。

そして、前記判定部１３は、この予測モデルを用いて、入力された動画データから抽出した静止画データに前記対象物が写っているか否かを判定する。

以上のように構成することで、動画を見て対象物の点検等を行う担当者の負担を軽減することが可能となる。その理由は、静止画データに写っている前記対象物が少なくとも複数の領域にまたがるように、前記静止画データに複数の領域を設定することで、静止画データに写っている対象物の検出能力を向上させた構成を採用したことにある。

［第１の実施形態］
続いて、本発明の第１の実施形態について図面を参照して詳細に説明する。以下、第１の実施形態では、車両に搭載したカメラで前方風景を撮影した動画データにより、走行経路上の点検対象物の点検を行う例を挙げて説明する。また、点検対象は、幹線道路に沿って設置された電柱であるものとして説明する。

図２は、本発明の第１の実施形態の予測モデル作成装置の構成を示す機能ブロック図である。図２を参照すると、動画データ１を画像データ（静止画データ）３に変換する前処理部２と、学習用分析データ４とこの学習用分析データ４に付与した学習用教師ラベル５とを用いて予測モデル６２を作成する機械学習エンジン６とを含む構成が示されている。

前処理部２は、画像化部２１と、精細化部２２とを含む。画像化部２１は、所定のサンプリング周期で動画データから、画像（フレーム；静止画データ、以下「画像」と呼ぶ。）を切り出す処理を行う。精細化部２２は、必要に応じて、画像の精細化処理を行う。精細化処理としては、例えば、輪郭補正やドットノイズ消去等の画質向上技術を用いることができる。また、精細化部２２と、画像化部２１の順序を逆にして、あるフレームの前後のフレームの画素情報を参照して画質向上を行った後に、画像化部２１が画像を切り出すこととしてもよい。前処理部２が作成した画像データは、学習用分析データ４の素材となる。

機械学習エンジン（機械学習部）６は、機械学習の学習フェーズを実施する予測モデル作成部６１を含む。予測モデル作成部６１は、学習用教師ラベル５が付与された学習用分析データ４を用いて、任意の画像データに点検対象物が写っているか否かを判定する予測モデル６２を作成する。上記前処理部２及び機械学習エンジン６の処理の詳細は、後に詳しく説明する。

なお、上記前処理部２と、機械学習エンジン６は、コンピュータに、後記するこれら要素の機能を実現するコンピュータプログラムにより実現することが可能である。また、上記前処理部２と、機械学習エンジン６として、クラウドサービスとして提供されているものを用いても良い。

図３は、本発明の第１の実施形態のインデックス作成装置の構成を示す機能ブロック図である。図３を参照すると、動画データ１を画像データ３に変換する前処理部２と、機械学習エンジン６と、機械学習エンジン６の出力に基づいて動画データに対応するインデックスデータを出力する後処理部７とを含む。

前処理部２は、図２に示した予測モデル作成装置の前処理部２と同様のものを用いることができる。

機械学習エンジン６は、予測モデル６２を用いて画像データに点検対象物が写っている否かを判定する（検知フェーズ（運用フェーズ））。本実施形態では、機械学習エンジン６は、画像データに点検対象物が写っている否かを、確信度（尤度）という値で出力する。

後処理部７は、判定処理部７１と、誤判定除去部７２と、インデックス作成部７３とを含む。判定処理部７１は、機械学習エンジン６による判定結果を、所定の判定閾値と比較して、画像データに点検対象物が写っているか否かの判定を行う。誤判定除去部７２は、判定処理部７１の判定した結果を検査して誤判定を除去する。インデックス作成部７３は、誤判定除去後の判定結果と、画像データとの対応関係に基づいて、動画データに点検対象物が写っているタイミングや画像中の位置等を示すインデックスデータ８を作成する。これら後処理部７の処理の詳細は、後に説明する。

図３の前処理部２の画像化部２１が、図１の抽出部１２に相当する。また、図３の機械学習エンジン６と後処理部７の判定処理部７１が、図１の判定部１３に相当する。

続いて、本発明の第１の実施形態の動作について図面を参照して詳細に説明する。はじめに前処理部２による前処理について説明する。図４は、本発明の第１の実施形態の前処理部により実行される処理フローを示す図である。図４を参照すると、まず、前処理部２の画像化部２１は、データが入力されると（ステップＳ３１）と、指定されたサンプリング周期で、動画データから画像データを切り出す（ステップＳ３２；画像化）。

画像化部２１は、上記切り出した画像データを所定の記憶装置に保存する（ステップＳ３３）。次に、精細化部２２は、必要に応じて切り出した画像データに対し精細化処理を施す（ステップＳ３４）。精細化部２２は、精細化処理後の画像データを所定の記憶装置に保存する（ステップＳ３５）。

以上により、前処理部２による前処理が完了する。次に、機械学習エンジン６による予測モデルの作成処理について説明する。

図５は、動画データ１から切り出した画像データの一例を示す。図５において、白い枠線ＦＬ１で囲まれた電柱が点検対象物である。特定物体認識の場合、このような電柱全体の写真を大量に用意して機械学習を行うことがあるが、本発明では、以下のように、電柱が複数の領域にまたがるように、分割し機械学習を行う。

本実施形態では、１つの画像に対し、点検対象物である電柱が少なくとも複数の領域にまたがるように複数の領域を設定し、それぞれに学習用教師ラベル５を付与する。学習用分析データ４に学習用教師ラベル５を付与する方法としては、画像内の一部領域をマーキングして、ラベル付け（正解値付け）を行うマーキングラベルと呼ばれる方式を用いることができる。

図６は、本発明の第１の実施形態における予測モデルの作成方法を説明するための図である。図６の例では、点検対象物である電柱について、白色の枠線ＦＬ１−１〜ＦＬ１−６で細分化してマーキングしている。図６の例では、それ以外の部分についても黒色の枠線で同じく細分化してマーキングしている。なお、図６の例では、マーキングラベルで指定する領域は、任意の大きさで自在に設定可能となっている。また、図６の例のように、各領域が重なっていても問題はない。

図７は、図６とは異なるタイミングで動画データから切り出した画像に、白色の枠線ＦＬ１−１〜ＦＬ１−６及び黒色の枠線を設定した例である。このように、学習用静止画データに写っている対象物に高さや幅がある場合、その長手方向に、Ｎ個の領域を設定し、前記Ｎ個の領域それぞれに、学習用教師ラベルを付与して予測モデルを作成する方法を採ることができる。図６、図７を対比すると明らかなとおり、枠線の数や配置は、画像データ毎に変えても良い。また、枠線の数や配置は、コンピュータが所定のルールにより決めてもよいが、コンピュータの経験豊富な点検作業者が設定することとしてもよい。もちろん、機械的に、桝目状の格子を設定し、これら一つ一つの区画に学習用教師ラベルを付与してもよい。

上記図６、図７に示したマーキングした領域のひとつひとつが学習用分析データ４となり、それぞれに学習用教師ラベル５を付与することになる。その際に、より望ましくは、機械学習エンジン６が、学習用分析データ４に対し、スライディングウィンドウ方式や反転、回転、輝度変換などの画像加工処理を用いて、学習用画像を増やすようにしてもよい。機械学習エンジン６は、これらのデータセットを用いて学習することで、隈なく検出したい点検対象物の特徴を学習することができる。また、本実施形態では、上記のように、複数の領域に分けて学習を行うため、点検対象物の一部が隠れていたり、類似した対象物に関しても検出することの出来る予測モデルが作成される。この点が、図５の枠線ＦＬ１で示す点検対象物の全景（全体）で学習する方式に対する大きな利点となる。

続いて、上記のように作成された予測モデル６２を用いてインデックスデータを作成するインデックス作成装置の動作について説明する。インデックス作成装置は、動画が入力されると、図４に示した予測モデル作成装置の前処理と同様に、前処理を行う。次に、インデックス作成装置は、機械学習エンジン６に前処理後の画像データを入力し、画像データに点検対象物が写っている確信度（尤度）を得る。

次に、インデックス作成装置は、機械学習エンジン６の判定結果を後処理部７に入力しインデックス作成までの処理を行う。図８は、本発明の第１の実施形態の後処理部７により実行される処理フローを示す図である。インデックス作成装置の判定処理部７１は、機械学習エンジン６の判定結果が入力されると（ステップＳ５１）、閾値判定を実施する（ステップＳ５２）。この閾値判定は、機械学習エンジン６の出力である画像データに点検対象物が写っている確信度（尤度）と所定の判定閾値を比較することで、画像データに点検対象物が写っているか否かの判定を行う。例えば、判定閾値８５％である場合、機械学習エンジン６が出力する確信度（尤度）が８５％以上の画像を、点検対象物「有」と判定することになる。なお、この判定閾値は、判定対象物、判定したい状況、インデックスデータの用途等に応じてチューニングが可能である。

次に、インデックス作成装置は、閾値判定した結果から、誤判断をしていると考えられるものを除去する誤判定除去処理を実施する（ステップＳ５３）。例えば、点検対象物が電柱である場合、縦に長い形状であり、画像データ内に電柱ではないが電柱の形状に似ている縦に長い形状（例えば、街灯の支持柱や、建物の配管など）のオブジェクトが写りこむことがあり、電柱有として誤判定する場合がある。特に、本実施形態では、判定処理部７１の検出能力を向上させているため、誤判定の確率が増大する。

そこで、本実施形態では、誤判定処理を挿入し、このような誤判定したと考えられるものを除去している。誤判定処理としては、例えば、次のように、動画データに点検対象物が出現するルールに基いて、誤判定を検出する方法を用いることができる。例えば、電柱は、ある一定の間隔で配置されており、その距離（間隔）は一定の範囲に収まっている。また、道路を走りながら動画撮影していることから、動画撮影時の時刻とその時に走行している速度も記録可能である。これらの時間、速度を用いることにより、ある電柱から、次の電柱が検出される適正な時間間隔を導き出すことができる。この時間間隔の中で、電柱が存在すると判定された場合、それは、誤判定と判定することができる。誤判定除去部７２は、このように、誤判定された画像データを除去する処理を実施する。なお、誤判定処理は、上記の例に限られず、例えば、特定の電柱の領域画像の特徴（標識板の有無、電柱の背景）等を用いて誤判定を検出する方法も採用することができる。

次に、インデックス作成装置は、誤判断除去が完了した画像データを画像出力（保存）する（ステップＳ５４）。なお、誤判断除去処理により誤判定として除去できなかった事例に関しては、別途、誤判定した結果を機械学習において再学習することにより予測モデルの検出精度を改善することができる。例えば、点検対象物の検出の有無を判定した際に、画像中の領域のどの部分を電柱として検出したのかがマーキングされて出力される。これを学習用分析データに追加し、正しい学習用教師ラベルを付与して、再学習することで予測モデルの改善を行うことができる。

次に、インデックス作成装置は、誤判定除去部７２の出力情報を、インデックス作成部７３に入力して、インデックスを作成する（ステップＳ５５）。インデックス作成部７３は、作成したインデックスをインデックスデータ８として出力し、所定の記憶装置に保存する（ステップＳ５６）。具体的には、インデックス作成部７３は、点検対象物である電柱が映っている画像と、その位置情報等に基づいて、動画データ中の電柱が映っている場面の時間情報と、その画像データを含むインデックスデータを作成する。前記画像データには、点検対象物の有無を判断した際に、画像中のどの部分を電柱として検出したのかを示すマーキングを含めてもよい。これにより、点検担当者は、動画中のどのシーンのどの部分に点検対象物が存在するのかを容易に確認することが可能となる。

以上説明したように、本実施形態によれば、以下に記載するような効果を奏する。第１の効果は、動画の中から参照したい部分だけを漏れなく高精度で点検対象物が写っている部分を把握することができる点である。これにより、録画した長時間の動画データを確認する作業が短縮することができる。

第２の効果は、比較的少ない学習データでも点検対象物を検出することができる点である。その理由は、機械学習の方法を工夫し、マーキングラベルを効果的に活用する構成を採用したことにある。また、スライディングウィンドウ方式や反転、回転、輝度変換などの画像加工処理を用いて、学習用画像を増やすことも好ましい。これらの工夫により、少ない学習データでも、点検対象物の見逃しを無くすことができる。併せて、一部が隠されたオブジェクトの検出（オクルージョン）も可能となる。また、領域の設定や判定閾値のチューニング次第で、未学習の類似の対象物も検出することができる（汎化能力）。

第３の効果は、予測モデルによる判定結果として、画像中のどの部分を点検対象物として検出したのかをマーキングして出力することができる点である。これにより、録画した長時間の動画データを確認する作業を容易化し、必要に応じ、再学習に役立てることが可能となる。

第４の効果は、検出したい対象物、動画データの品質、対象物検出の用途等に応じて、判定方法（基準・閾値・過誤）をチューニングすることができる点である。例えば、予測モデルによる判定結果の確信度（尤度）や、対象物の出現頻度（対象物が出現する画面の割合）など特徴に応じた判定方法のチューニングが可能である。これにより、動画データやその検出したい対象物に応じて、チューニングを行って、その検出精度を高めることが可能である。

以上、本発明の各実施形態を説明したが、本発明は、上記した実施形態に限定されるものではなく、本発明の基本的技術思想を逸脱しない範囲で、更なる変形・置換・調整を加えることができる。例えば、各図面に示したネットワーク構成、各要素の構成、メッセージの表現形態は、本発明の理解を助けるための一例であり、これらの図面に示した構成に限定されるものではない。また、以下の説明において、「Ａ及び／又はＢ」は、Ａ及びＢの少なくともいずれかという意味で用いる。

例えば、上記した実施形態では、予測モデルの作成（図２）と、インデックスデータ作成（図３）のそれぞれにおいて、精細化処理を行うものとして説明したが、精細化処理を省略することも可能である。また、例えば、前処理において、画像化後に画質を低下させた画像データを用いて、予測モデルの作成（図２）と、インデックスデータ作成（図３）を行ってもよい。

また、上記した実施形態では、対象物検出装置１０、予測モデル作成装置、インデックス作成装置に分けて説明したが、それぞれの装置を統合したり、さらに細分化することも可能である。例えば、予測モデル作成装置、インデックス作成装置は、前処理部２及び機械学習エンジン６が共通するので、同一の装置で実現してもよい。また、インデックス作成装置の前処理部２、機械学習エンジン６、後処理部７をそれぞれ異なるハードウェアで実現してもよい。例えば、前処理部２、機械学習エンジン６はクラウド基盤上のネットワーク機能を利用し、後処理部７を、スマートフォン等の携帯端末にアプリケーションプログラムで実現する構成も採用可能である。

また、上記した実施形態では、検出対象物が電柱である例を挙げて説明したが、電柱以外の例えば、線路に沿って建てられている電化柱などにも適用可能である。また、検出対象物は、１種類だけでなく、複数種類あってもよい。また、上記した実施形態では、車両から撮影した動画データを用いるものとして説明したが、ドローンや電車等の移動体に搭載されたカメラにて撮影された動画データを用いた各種施設や設備等の点検用途にも適用することができる。

また、これらの移動体に、位置情報取得部として、ＧＰＳ（Global Positioning System）受信機等を搭載することも好ましい。このインデックス作成部７３は、点検対象物の出現時間だけでなく、出現位置（撮影位置）を含んだインデックスデータを作成することができる。これにより、点検対象物の位置特定が容易化され、異常発見時に、作業員に的確な派遣指示を出すことができる。

また、上記した実施形態に示した手順は、予測モデル作成装置やインデックス作成装置として機能するコンピュータ（図９の９０００）に、これらの装置としての機能を実現させるプログラムにより実現可能である。このようなコンピュータは、図９のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１０、通信インタフェース９０２０、メモリ９０３０、補助記憶装置９０４０を備える構成に例示される。すなわち、図９のＣＰＵ９０１０にて、前処理プログラム、機械学習プログラムや後処理プログラムを実行し、その補助記憶装置９０４０等に保持されたデータの更新処理を実施させればよい。なお、ＣＰＵ９０１０に代えて、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）と呼ばれる画像処理用のプロセッサを用いてもよいことはもちろんである。

即ち、上記した実施形態に示した予測モデル作成装置やインデックス作成装置の各部（処理手段、機能）は、これらの装置に搭載されたプロセッサに、そのハードウェアを用いて、上記した各処理を実行させるコンピュータプログラムにより実現することができる。

最後に、本発明の好ましい形態を要約する。
［第１の形態］
（上記第１の視点による対象物検出装置参照）
［第２の形態］
上記した対象物検出装置において、前記動画データ及び前記学習用動画データは、同一のパターンで移動するカメラで撮影された動画データであることが好ましい。即ち、対象物検出装置は、既知の物体を検出する特定物体検出を行う。
［第３の形態］
上記した対象物検出装置は、さらに、
前記同一のパターンで移動するカメラにて撮影された動画に、前記対象物が出現するルールに基づいて、前記判定部の判定が誤りであるか否かを確認する誤判定除去部を備えることが好ましい。
［第４の形態］
上記した対象物検出装置は、さらに、
前記判定部及び前記誤判定除去部の判定結果に基づいて、前記動画データに前記対象物が現れるタイミングを示したインデックス情報を作成するインデックス作成部を備えることが好ましい。
［第５の形態］
上記した対象物検出装置は、さらに、
前記動画データの撮影位置を特定する位置情報を取得する位置情報取得部を備え、
前記インデックス作成部は、前記対象物の撮影位置を含んだインデックス情報を作成することが好ましい。
［第６の形態］
上記した対象物検出装置は、さらに、
前記動画データから抽出した静止画データに、前記学習用動画データから抽出された学習用静止画データと同一の前処理を施す前処理部を備えることが好ましい。
［第７の形態］
上記した対象物検出装置において、
前記予測モデルは、
学習用静止画データに写っている前記対象物の長手方向に、Ｎ個の領域を設定し、前記Ｎ個領域それぞれに、学習用教師ラベルを付与して作成されていることが好ましい。
［第８の形態］
（上記第２の視点による予測モデル作成装置参照）
［第９の形態］
（上記第３の視点による対象物検出方法参照）
［第１０の形態］
（上記第４の視点によるプログラム参照）
なお、上記第８〜第１０の形態は、第１の形態と同様に、第２〜第７の形態に展開することが可能である。

なお、上記の特許文献の各開示を、本書に引用をもって繰り込むものとする。本発明の全開示（請求の範囲を含む）の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の開示の枠内において種々の開示要素（各請求項の各要素、各実施形態ないし実施例の各要素、各図面の各要素等を含む）の多様な組み合わせ、ないし選択（部分的削除を含む）が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。特に、本書に記載した数値範囲については、当該範囲内に含まれる任意の数値ないし小範囲が、別段の記載のない場合でも具体的に記載されているものと解釈されるべきである。

１動画データ
２前処理部
３画像データ
４学習用分析データ
５学習用教師ラベル
６機械学習エンジン
７後処理部
８インデックスデータ
１０対象物検出装置
１１入力部
１２抽出部
１３判定部
１４、６２予測モデル
２１画像化部
２２精細化部
６１予測モデル作成部
７１判定処理部
７２誤判定除去部
７３インデックス作成部
９０００コンピュータ
９０１０ＣＰＵ
９０２０通信インタフェース
９０３０メモリ
９０４０補助記憶装置

Claims

動画データを入力する入力部と、
前記動画データから、静止画データを抽出する抽出部と、
前記静止画データに、対象物が写っているか否かを判定する判定部と、を含み、
前記判定部は、
事前に撮影された学習用動画データから抽出された学習用静止画データに写っている前記対象物が少なくとも複数の領域にまたがるように、前記学習用静止画データに、複数の領域を設定し、
前記設定した領域それぞれに学習用教師ラベルを付与し、
前記領域毎に付与した前記学習用教師ラベルを用いて作成した予測モデルを用いて、前記静止画データに対象物が写っているか否かを判定する、
対象物検出装置。
前記動画データ及び前記学習用動画データは、同一のパターンで移動するカメラで撮影された動画データである請求項１の対象物検出装置。
さらに、
前記同一のパターンで移動するカメラにて撮影された動画に、前記対象物が出現するルールに基づいて、前記判定部の判定が誤りであるか否かを確認する誤判定除去部を備える請求項２の対象物検出装置。
さらに、
前記判定部及び前記誤判定除去部の判定結果に基づいて、前記動画データに前記対象物が現れるタイミングを示したインデックス情報を作成するインデックス作成部を備える請求項３の対象物検出装置。
さらに、
前記動画データの撮影位置を特定する位置情報を取得する位置情報取得部を備え、
前記インデックス作成部は、前記対象物の撮影位置を含んだインデックス情報を作成する請求項４の対象物検出装置。
前記動画データから抽出した静止画データに、前記学習用動画データから抽出された学習用静止画データと同一の前処理を施す前処理部を備える請求項１から５いずれか一の対象物検出装置。
前記予測モデルは、
学習用静止画データに写っている前記対象物の長手方向に、Ｎ個の領域を設定し、前記Ｎ個の領域それぞれに、学習用教師ラベルを付与して作成される請求項１から６いずれか一の対象物検出装置。
事前に撮影された学習用動画データを入力する入力部と、
前記学習用動画データから、学習用静止画データを抽出する抽出部と、
前記学習用動画データから抽出された静止画データに写っている対象物が少なくとも複数の領域にまたがるように、前記学習用静止画データに複数の領域を設定し、前記設定した領域それぞれに付与した学習用教師ラベルを用いて、予測モデルを作成する機械学習エンジンと、
を備える予測モデル作成装置。
動画データを入力する入力部を備えるコンピュータが、
前記動画データから、静止画データを抽出するステップと、
事前に撮影された学習用動画データから抽出された学習用静止画データに写っている対象物が少なくとも複数の領域にまたがるように、前記学習用静止画データに複数の領域を設定し、前記設定した領域それぞれに付与した学習用教師ラベルを用いて作成された予測モデルを用いて、前記静止画データに対象物が写っているか否か判定するステップと、
を含む動画データからの対象物検出方法。
動画データを入力する入力部を備えるコンピュータに、
前記動画データから、静止画データを抽出する処理と、
事前に撮影された学習用動画データから抽出された学習用静止画データに写っている対象物が少なくとも複数の領域にまたがるように、前記学習用静止画データに複数の領域を設定し、前記設定した領域それぞれに付与した学習用教師ラベルを用いて作成された予測モデルを用いて、前記静止画データに対象物が写っているか否か判定する処理と、
を実行させるプログラム。