JP6942472B2 - 映像認識装置、映像認識方法及びプログラム - Google Patents

映像認識装置、映像認識方法及びプログラム Download PDF

Info

Publication number
JP6942472B2
JP6942472B2 JP2017004680A JP2017004680A JP6942472B2 JP 6942472 B2 JP6942472 B2 JP 6942472B2 JP 2017004680 A JP2017004680 A JP 2017004680A JP 2017004680 A JP2017004680 A JP 2017004680A JP 6942472 B2 JP6942472 B2 JP 6942472B2
Authority
JP
Japan
Prior art keywords
image
person
recognition
learning
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017004680A
Other languages
English (en)
Other versions
JP2018112996A (ja
Inventor
誠人 数井
誠人 数井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2017004680A priority Critical patent/JP6942472B2/ja
Priority to US15/864,899 priority patent/US10671850B2/en
Priority to CN201810032478.0A priority patent/CN108304783B/zh
Publication of JP2018112996A publication Critical patent/JP2018112996A/ja
Application granted granted Critical
Publication of JP6942472B2 publication Critical patent/JP6942472B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Psychiatry (AREA)
  • Evolutionary Biology (AREA)
  • Social Psychology (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、入力された映像を認識する技術に関する。
近年、機械学習により映像認識を行う分野において、自律学習(Autonomous Learning)を行う手法が注目を集めている。自律学習とは、例えば、環境からのフィードバック情報を得て、学習データベースの更新と追加学習、あるいは再学習を識別器自らが自律的に行うものである。非特許文献1には、人物検出を自律的に学習させ、初期の識別器から性質の異なる新たな識別器を生成することで、検出性能を向上する手法が提案されている。
A.Gaidon,G.Zen,and J.A.Rodriguez−Serrano,"Self−Learning Camera:Autonomous Adaptation of Object Detectors to Unlabeled Video Streams",arXiv:1406.4296v2[cs.CV]18 Jun 2014. N.Dalal,B.Triggs,"Histograms of Oriented Gradients for Human Detection",ICPR2005(IEEE International Conference on Pattern Recognition),Vol.1,pp.886−893,2005.
特開2007−219865号公報
人物検出、人物動作認識等のような映像認識を行う場合、その性能は画像が撮影されている環境の照明状況に大きく依存する。しかしながら、非特許文献1に開示された手法は、撮影環境の照明変動の解析結果を用いて識別器を再学習するものではないため、撮影環境の照明変動によらず、精度よく映像認識することは難しかった。そこで、本発明は、撮影環境の照明変動によらず、精度よく映像認識が行えるようにすることを目的とする。
上記課題を解決するために、本発明は、撮像部が撮像した映像を補正するためのパラメータに基づいて、前記撮像部が映像を撮像した際の環境の状況を解析する解析手段と、識別器を用いて、前記撮像部が撮像した映像から人物の検出を行う認識手段と、前記解析手段の解析結果と前記認識手段の認識結果とに基づいて、前記識別器を学習する学習手段と、を有し、前記パラメータは、前記撮像部のオートフォーカス(AF)評価値を含み、前記解析手段は、前記AF評価値の波形に基づいて前記映像に人物が存在するか否かを判断することを特徴とする
本発明によれば、撮影環境の照明変動によらず、精度よく映像認識を行うことができるようになる。
第1の実施形態に係る映像認識装置の機能構成を示すブロック図。 第1の実施形態に係る撮像部の概略ブロック図。 各実施形態の映像調整パラメータ解析部における解析方法を説明する図。 第1の実施形態において第1の被写体存在判定方法を説明する図。 第1の実施形態において第2の被写体存在判定方法を説明する図。 第1の実施形態において識別器の追加学習を行う際の更新ルールを示す表。 第1の実施形態における人物検出の識別器の自律学習処理を示すフローチャート。 第2の実施形態において露出値Evの時間変動解析処理を説明する図。 第2の実施形態において識別器の追加学習を行う際の更新ルールを示す表。 第2の実施形態において動作認識の識別器の自律学習処理を示すフローチャート。
一般的に、映像から人物を検出したり、その人物の動作や行動を認識したりする映像の認識処理では人物のシルエット、服装などのテクスチャ、動きのパターンといった人物認識に関わる特徴量を映像から抽出する。そして、その特徴量を識別器に通すことで人物検出や人物の動作認識を行う。しかしながら、これらの人物特徴量は照明条件の変動により安定して得られないことが多い。具体的には、検出対象である被写体領域の露出とホワイトバランスが適正でなかったり、変動したりすると映像認識性能が低下する。人物検出においては、背景が暗いシーンの場合、AE制御によってシーン全体を適正露出にしようとした結果、人物領域の露出がオーバーになり、顔や服装などのテクスチャが白飛びして人物検出できなくなるという問題がある。
本発明の一実施形態では、カメラの露出値(Ev:Exposure Value)及びAF評価値波形に基づいて、人物検出結果が正しいか否か(誤検出判定)、人物が存在しているにも関わらず人物を検出できていないか否か(未検出判定)を推定する。その上で、その推定情報に基づいて識別器の追加学習を行う。
また、人物動作認識においては、映像信号の空間方向と時間方向の微分値を解析するが、シーンが暗い場合は微分値計算が不安定になり、動作認識性能が低下するという問題がある。さらには、映像内の明るさが、外光入射、その入射光の鏡面反射、不連続に配置された照明下における人物の移動と人物領域の面積の変動などによって、大幅に変動する時、動作認識性能が低下するという問題がある。
そこで、他の実施形態では、露出値の適正範囲外判定、露出値の時間変動の解析、AF評価値波形の解析により、低照度、環境光の急変、及び人物移動による映像の明るさ変動推定を行い、その推定情報に基づいて識別器の追加学習を行う。環境、照明、人物の間のコンテクストを推定するには、シーン解析といった、何らかの映像認識手法が必要であるが、撮像部から取得できる映像調整パラメータを解析することにより、従来技術と比較して少ない演算量でコンテクスト情報を推定できる。また、従来の機械学習においては、識別器が照明変動に対応できるように、識別器を学習する際に、可能な限りその変動を含むように学習データベースを構築する必要がある。特に近年、実用化が加速し始めた深層学習を用いた映像認識では、そのデータベースの規模が非常に大規模になるため、最初から学習に必要な規模のデータベースを構築することが困難になってきている。しかしながら、この実施形態によれば、大規模データベースを必要としない自律学習手段を、少ない演算量で実現することが可能である。
以下、本発明の実施形態について詳細に説明を行う。
[第1の実施形態]
以下、本発明の第1の実施形態の詳細について図面を参照しつつ説明する。本実施形態では、映像認識として、入力された映像から人物の領域を検出する例について説明する。
図1は、本実施形態に係る映像認識装置の機能構成を示すブロック図である。図1に示すように、映像認識装置100は、撮像部(カメラ)10、映像調整パラメータ解析部20、自律学習部30、映像認識部40を備えている。また、自律学習部30は、学習ルール保存部31、学習データベース保存部32、識別器更新部33を備えている。
映像認識装置100は、撮像部10を除き、CPU、ROM、RAM、HDD等のハードウェア構成を備え、CPUがROMやHD等に格納されたプログラムを実行することにより、例えば、後述する各機能構成やフローチャートの処理が実現される。RAMは、CPUがプログラムを展開して実行するワークエリアとして機能する記憶領域を有する。ROMは、CPUが実行するプログラム等を格納する記憶領域を有する。HDは、CPUが処理を実行する際に要する各種のプログラム、閾値に関するデータ等を含む各種のデータを格納する記憶領域を有する。
撮像部10は、人物検出等の認識を行うシーンを撮影し、その映像信号を自律学習部30へ送る。また、撮像部10が撮影するシーンの状態(屋内、屋外、背景の配色)、照明条件、人物の存在有無、及びカメラの映像調整と補正の方法によって決まる映像調整パラメータが映像調整パラメータ解析部20へ出力される。
映像調整パラメータには、オート・エクスポージャー(AE:Auto Exposure)を制御するためのAPEX値、オートフォーカス(AF:Auto Focus)を制御するためのAF評価値波形が含まれる。また、オート・ホワイト・バランスのためのカラーバランスが含まれる。APEX値には、Lv:光値(Light Value)、Ev:露出値(Exposure Value)、Sv:フィルム感度(Sensitivity Value)(CCD/CMOS感度)が含まれる。更に、Bv:被写体輝度(Brightness Value)、Av:レンズ絞り(Aperture Value)、及びTv:シャッター速度(Time Value)が含まれる。
これらカメラ映像の自動調整と自動補正を担うAE,AF,AWBをこれらの頭文字をとって3A(またはカメラ3A)と呼ぶことがある。なお、本実施形態では、撮像部10が映像認識装置100に含まれる例を示しているが、撮像部10は映像認識装置100とは別体に構成されていてもよい。すなわち、例えば、監視カメラによって撮影された映像がネットワーク等を介して映像認識装置100に入力され、映像認識装置100が、その入力映像の映像認識を行うような形態であってもよい。
映像調整パラメータ解析部20は、撮影部10が映像を撮影した際の環境の状況を解析するために、撮像部10から出力される映像調整パラメータに対し、閾値処理、時間変動解析、及びそれらの結果に基づいた被写体存在判定処理を行う。この映像調整パラメータ解析部20で解析された結果は、自律学習部30へ送られる。この解析結果は、ネットワークを介して他の映像認識装置と共有してもよい。
自律学習部30は、映像調整パラメータ解析部20から送られてきたパラメータ解析結果、撮像部10から送られてきた映像信号、及び映像認識部40から送られてきた人物検出結果を入力として受け付ける。そして、これら情報を入力として、学習ルールメモリに保存されている自律学習のルールに基づき、識別器更新部33において映像認識を行う識別器の追加学習を行う。この際、映像認識部40の認識結果が入力されることで、映像認識部40の認識結果が学習データベース保存部32に逐次追加される。
学習ルール保存部31は、自律学習を行うためのルール(処理手続きと条件分岐)を保存している。学習ルールは認識対象毎に定義しておく必要がある。本実施形態では、人物検出のための学習ルールを定義しているが、認識対象は動物や、自動車等の他の物体であってもよい。また、認識タスクは人物検出に限られず、他の映像認識、例えば、人物の動作認識、シーン認識等であってもよく、このような場合は、人物の動作認識やシーン認識を自律学習させるための学習ルールを用意すればよい。
学習データベース保存部32は、映像認識を行うための識別器を学習させるデータベースである。様々な撮影環境を想定した大規模なデータベースを構築してもよいが、一般的には非常に難しいので、撮像部10が設置される環境に対応できる最低限のデータベースを構築できればよい。例えば、カメラ設置高とカメラ俯角が決まっていれば、同様なカメラ設置条件で撮影した映像のみを集めてデータベースを構築する。
識別器更新部33は、初期の学習データベースを用いて学習された識別器に対し、映像認識部40から送られてくる認識結果をフィードバック情報として、追加学習または再学習を行う。本実施形態の識別器は、学習データベースに週録された映像(画像)から抽出されたHOG特徴量(非特許文献2参照)を入力としてSVMやAdaBoost等の識別器によって人物の領域が検出できるように構成されたものである。映像認識部40は、自律学習部30で更新された識別器を用いて、撮像部10により撮影された映像から人物の検出等を行う。
図2は、本実施形態に係る撮像部10の概略ブロック図である。撮像部10は、映像信号生成部70、映像信号現像部80、及び外部I/F部から構成される。映像信号生成部70は、レンズ群71、絞り72、撮像素子73、AGC(自動利得制御部)74、A/D変換部75、レンズ駆動部76、及び絞り駆動部77とから構成される。レンズ群71は、被写体からの光を撮像素子73に集光(結像)するための光学系である。レンズ群71には、被写体に対するピント合わせを行うためのフォーカスレンズおよび画角を調整するためのズームレンズなどが含まれる。
レンズ群71を通過した光(光学像)は、絞り72でその光量が調整される。絞り72を通過した光学像は、撮像素子73の受光面に結像する。撮像素子73の受光面には所定の順序で配列されたカラーフィルタが配置されている。そして、撮像素子73は、光学像に応じた電気信号(アナログ信号)を出力する。撮像素子73の出力であるアナログ信号はAGC74に送られて、ここでゲイン調整されてその輝度が調整される。AGC74の出力はA/D変換部75でA/D変換されてデジタル信号(デジタル撮像信号)として出力される。レンズ駆動部76は、後述するAF制御部84からの指示を受けてレンズ群71を駆動制御してピント合わせを行う。絞り駆動部77は、後述するAE制御部85からの指示に基づいて絞り72を制御する。
映像信号現像部80は、信号処理部81、測光装置82、AWB制御部83、AF制御部84、及びAE制御部85とから構成される。信号処理部81は、AWB制御部83、AF制御部84、及びAE制御部85のための前処理、及び測光装置82から送られてくる露出値Evに基づいてAE制御のための計算を行う。
AWB制御部83は、シーンのホワイトバランスを合わせる処理を行い、本来白い(灰色)領域に色がついている場合に、その領域を白くするようなホワイトバランス補正ゲイン(補正値)をかける。
AF制御部84は、シーン内の主要被写体にフォーカスが合うようにレンズ駆動部76へ制御信号を送る。本実施形態ではコントラストAFを例として用いるが、位相差AFでも本実施形態で提供する機能を実現できる。コントラストAFは撮像素子に映った映像をもとに、ピントレンズを動かしながら明暗差(コントラスト)が大きなところを探してピントを合わせる方式である。コントラストAFでは、フォーカスレンズの各位置に対してAF評価値(コントラスト)が与えられ、そのAF評価値のピーク点を探すことによって被写体のフォーカスを合わせることができる。本実施形態では、このAF評価値の波形を映像調整パラメータ解析部20へ送り、撮影環境に応じた識別器の更新を実現する。
AE制御部85は、撮像映像が適正露出になるように撮影シーンの状態(シーン内の色と明るさの分布)を考慮して絞り駆動部77を制御する。レンズの絞りは、露出値Ev、フィルム感度Sv(CCD/CMOS感度)、Bv(被写体輝度)、Av(レンズ絞り)、Tv(シャッター速度)の間の関係式(Ev=Sv+Bv=Av+Tv)から計算される。Ev、Sv、Bv、Av、TvはAPEX単位と呼ばれ、露出の制御に必要な物理量要素(被写体輝度、感度、レンズ絞り、シャッター速度)を同じ次元の単位に変換し、単純な加減算処理だけで露出値を割り出すものである。算出された露出値Evは、映像調整パラメータ解析部20へと送られる。
外部I/F90は、外部出力を行うためのI/F部であり、自律学習部30へと映像信号が出力される。また、撮像部(カメラ)10が映像認識装置100と別体で構成される場合には、外部I/F90を介して、撮像部10の映像が映像認識装置100へと出力される。
図3を用いて、映像調整パラメータ解析部20における解析方法について説明する。図3(A)に本実施形態における解析方法を示しており、本実施形態では、まず映像調整パラメータが映像調整パラメータ解析部20へ入力される(S101)。本実施形態では、映像調整パラメータとしてAF評価値と露出値Evが入力され、AF評価値を用いて視野内に被写体が存在するかどうかを判定するとともに、露出値Evに対して閾値処理を行う。なお、図3(A)において、露出値Evに対する閾値処理のフローは省略している。本実施形態では、被写体存在判定に関し、第1の被写体存在判定方法、及び第2の被写体存在判定方法という、2つの被写体存在判定を行うことにより被写体の存在判定を行う。
まず、図4を用いて、AF評価値波形の時間変化を用いた第1の被写体存在判定方法(S102)について説明する。図4に、撮影対象の被写体が視野に存在しない背景状態のAF評価値波形と被写体がフレームインした状態のAF評価値波形を示す。異なる時刻において被写体が存在しない場合、AF評価値波形は変化しないが、被写体がフレームインするとAF評価値波形は背景状態の波形と異なってくる。この時間的なAF評価値波形の変化を捉えて、視野内に被写体が存在するかどうかを判定するのが、第1の被写体存在判定方法である。
判定の方法としては、被写体のフレームイン前後のAF評価値波形同士の非共通部分の面積を求め、この面積がある閾値Th1以上になった場合に被写体が存在すると判定する。本実施形態では、被写体の存在判定を存在の有りと無しの2値で出力するが、被写体の存在判定を確率的に表現してもよい。例えば、様々な状況からAF評価値波形同士の非共通部分の面積に関する尤度分布を求めて、背景状態と被写体ズームイン状態の事前確率とからベイズ推定によって被写体存在確率を算出してもよい。
ただし、AF評価値波形の時間差分によって被写体存在判定を行うと、光源位置の移動(例えば太陽の移動)、及び光源強度の変化(例えば、朝夕と日中)によって被写体存在しなくてもAF評価値が変動する可能性がある。そこで、AF評価値波形の時間変化を用いた第1の被写体存在判定方法(S102)に続いて、本実施形態では、AF評価値のピーク検出に基づく第2の被写体存在判定(S103)を行う。図5は、AF評価値のピーク検出に基づく第2の被写体存在判定を説明する図である。
図5に、被写体がフレームインしている状態におけるAF評価値波形、及びその一次微分波形を示す。AF評価値波形からピント位置を検出するためには、その波形の極値を検出すればよい。上に凸であるピークを検出するには、一次微分値がゼロで、その位置の一次微分勾配が負である場所を選択すればよい。被写体がフレームインしている状態では、背景のピークに加えて、被写体のピークが出現する。そのピークの出現判定を行うことでシーン内に被写体がフレームインしているか否かを判定できる。
本実施形態では、ピーク出現判定による被写体の存在判定を、存在の有りと無しの2値で出力するが、確率的に表現してもよい。例えば、AF評価値のピーク位置における一次微分波形の勾配の大きさが大きければ被写体が存在する確率を大きくするといった方法を用いることができる。
以上のように、本実施形態では、AF評価値波形の時間変化(S102)とAF評価値波形のピーク解析(S102)とにより被写体の存在判定を行い、その判定値を求める。また、本実施形態では、映像調整パラメータ解析部20において、露出値Ev露出値Evが閾値Th_low以下か、または閾値Th_high以上かを判定し、その判定値を求める。映像調整パラメータ解析部20は、以上の2つの判定値を、パラメータ解析値として出力する(S106)。
続いて、映像調整パラメータ解析部20による解析結果を用いて、人物検出のための識別器の自律学習を行う方法を説明する。図6は、本実施形態において、学習ルール保存部31に記憶されている人物検出器の追加学習を行う際の更新ルールを表で示したものである。
図6に示すように、人物検出においては、その検出結果として以下の4つの場合がある。まず、映像(画像)から人物が検出され、それが正しい場合である人物正解検出(TP:True Positive)と、誤って検出されている場合である人物誤検出(FP:False Positive)である。また、映像(画像)から人物が検出されなかった時に、その判断が正しい場合である人物正解未検出(TN:True Negative)と、検出漏れとなってしまっている場合である人物未検出(FN:False Negative)である。
映像認識部40で実行された人物検出器は、撮像部10から送られてくる入力映像から人物を検出し、その位置とサイズとを出力する。その際、人物検出結果の中には誤検出と未検出とを含むため、これらの情報を判定して識別器にフィードバックすることにより、識別器が撮影している環境に応じて自律的に適応することになる。また、人物検出性能をオンラインかつ人間によって教師信号を与えることなしに向上していくことが可能となる。
図6に示すように、人物誤検出の要因としては、背景の模様や人物写真を間違って検出することがある。この場合、撮影シーンには人物は存在していないため、AF評価値波形は時間的に変動せず(背景状態から変化しない)、また背景以外のAF評価値波形ピークも検出されないはずである。したがって、パラメータ解析値(S106)の中で、被写体存在判定値から人物の誤検出が発生している場合は、学習データベース保存部32に保存されているデータベースに誤検出事例を追加して、誤検出を低減するように識別器を再学習する。
一方、図6に示すように、人物未検出(検出漏れ)の要因としては、被写体領域の露出オーバーによるテクスチャの白飛び、及び被写体領域の露出アンダーによるテクスチャの黒つぶれが挙げられる。この場合、人物が存在しているにも関わらず識別器が人物検出するための特徴量を十分に得られないため、人物検出に失敗する。人物は存在しているので、前記AF評価値波形は時間的に変動し(背景状態と異なる)、また背景以外のAF評価値波形ピークも検出されるはずである。
さらに、被写体領域が露出オーバー、または露出アンダーになる時はそれぞれ露出値Evが小さいか、大きくなる傾向がある。したがって、被写体存在判定値と露出値Evの値から人物が存在しているにも関わらず、人物検出ができていないと判定した場合、まず識別器の人物検出器の感度を上げて(人物検出の閾値を下げて)人物を検出されるようにする。その後(それ以降のフレームで)、学習データベース保存部32に保存されているデータベースに正解検出事例を追加して、人物未検出を低減するように識別器を再学習する。
図7は、本実施形態の自律学習部30における人物検出の識別器を自律学習する処理を示すフローチャートである。ここでは、入力映像の毎フレームごとに識別器の自律学習を行う構成を示すが、本発明はこの構成に限られず、数フレームおきに行うなどであってもよい。
まず、ステップS201において、自律学習部30は、前フレームにおける映像認識部40による人物検出結果を受け付ける。そして、検出結果がある場合(条件分岐でYesの場合)には、ステップS202において、パラメータ解析値(S106)のうち、AF評価値波形の時間解析(S102)及びピーク検出(S103)による人物存在判定の結果を参照する。このS202で、存在有り(条件分岐でYes)の場合には、ステップS203に進み、パラメータ解析値(S106)のうち、露出値Evが閾値Th_low以下か、または閾値Th_high以上かの判定結果を参照し、適正露光になっているかを判断する。
このS203における条件分岐でYesなら、ステップS204に進み、人物検出器の追加学習を行う。一方、S203の条件分岐でNoなら、適正露出範囲内(すなわち所定の範囲内)での人物検出と判断して、人物検出器の追加学習を行わず、ステップS209で、人物検出器の検出感度をリセットする。これは、後述するステップS207の判断においてNoの場合(適正露光でないと判断された場合)に、ステップS208において人物検出器の検出感度を上げて検知できていない対象(人物)を検知できるようにしている。そのため、次フレーム以降で照明条件が良くなり(適正露光になり)、S207の分岐でNoになった場合に、そのままの検出感度では過剰検出になるため、S209で検出感度をリセットしているのである。
本実施形態では、追加学習の方法の例として、学習データベース保存部32に正解事例を追加して学習器を再学習する方法を示している。しかし、非特許文献1のように、現フレームにおける識別器を初期の識別器として、その初期識別器から性質の異なる複数の識別器を発生させ、それらの識別器の人物検出結果を用いて識別器の更新を行うことで自律的に再学習を行ってもよい。以上が、人物正解検出(TP)の場合の処理に相当する。
続いて、人物誤検出(FP)の場合の処理手順について説明する。この場合、S201において前フレームで人物が検出されたと判断されてS202に進み、S202において、AF評価値波形の時間解析(S102)及びピーク検出(S103)による人物が存在するかの判断結果を参照する。そして、このS202では人物が存在していないと判定されるため、S201における人物検出結果が誤検出である可能性が高いということになる。このような人物誤検出(FP)の場合には、誤検出を低減するように、ステップS205において、学習データベース保存部32に誤検出例を追加して人物検出器の再学習をする。
続いて、人物正解未検出(TN)の場合の処理手順を説明する。まず、S201において前フレームで人物が検出されず、ステップS206に進んで、S202と同様に人物存在判定の結果が参照される。そして、人物正解未検出(TN)の場合には、S206においても人物も存在しないと判定されて、再学習を行わず次のフレームの処理に移る。
最後に、人物検出漏れ(FN)の場合の処理手順について説明する。人物検出漏れ(FN)の場合は、S201において前フレームで人物が検出されていないにも関わらず、S206では人物が存在していると判定されることになる。そこで、ステップS207へと進み、パラメータ解析値(S106)のうち、露出値Evが閾値Th_low以下か、または閾値Th_high以上かの判定結果を参照し、適正露光になっているかを判断する。このS207の条件分岐でYesの場合には、人物が未検出である可能性が高い。そこで、このような場合は一旦人物検出器の感度を上げて(S208)、映像認識部40が未検出状態の人物を検出できるようにする。
一方、露出値Evが適正範囲内(閾値Th_low以上かつ、閾値Th_low以下)である場合(S207でNoの場合)は、人物検出漏れの判断を保留して再学習を行わず、人物検出器の検出感度をリセットする(S209)。
このように判断を保留するケースとして考えられるのは、人物検出器が主に直立歩行している事例を集めたデータベースを用いて学習した場合に、入力映像中の人物が複雑な姿勢をしていると、識別器が人物を検出できないことが考えられる。ここでいう複雑な姿勢とは、例えばしゃがみ込む、手足を大きく動かして走るといった場合である。このような場合、AF評価値波形は人物が存在することを示すので、識別器が出力する結果と整合しないことになる。この場合は人物検出領域が識別器から出力されないので学習データベース保存部32の更新、および識別器の更新ができないので、非特許文献2に記載の手法のように、初期の識別器から性質の異なる複数の識別器を発生させる手法を用いることが考えられる。
以上、本実施形態では、AF評価値波形の時間解析とピーク解析、露出値Evの閾値判定、及び識別器の人物検出結果を用いて学習データベースの更新と識別器の更新を行うことにより、自律的に人物検出機能の追加学習、再学習を行うことが可能となる。特に、本実施形態では、撮影した映像を補正するための映像信号調整パラメータ(AF評価値波形、露出値Ev)を利用して、人物検出の識別器を追加学習するようにしているので、撮影環境の照明変動によらず、精度よく映像認識を行うことができるようになる。
[第2の実施形態]
次に、本発明の第2の実施形態について説明する。本実施形態では、映像認識として、入力された映像から人物動作の認識、特に異常動作(特定の動作)を検出する例について説明する。なお、第1の実施形態において既に説明をした構成については、同一の符号を付し、その説明は省略する。
本実施形態に係る映像認識装置100の構成は、基本的に、第1の実施形態と同じであるが、本実施形態のAWB制御部83は、ホワイトバランス補正ゲインを映像調整パラメータ解析部20へ送る。なお、後述するように、照明変動があるかないかの判断をする際にホワイトバランス補正ゲインを用いない形態とすることもできるため、その際には、ホワイトバランス補正ゲインを映像調整パラメータ解析部20へ送る必要はない。
図3(B)は、本実施形態の映像調整パラメータ解析部20における解析方法を示している。本実施形態では、AF評価値波形の解析(S102及びS103)に加えて、露出値Evの時間変動解析(S104)とホワイトバランス補正ゲインの時間変動解析(S105)の少なくともいずれか一方を行う。なお、本実施形態においても露出値Evに対する閾値処理を行うが、図3(B)ではそれを省略している。
人物の動作認識では、一般的に動画像から輝度信号、または色信号の空間方向と時間方向の変化量(微分値)を用いることが多い。これら時空間の微分値や、それに類似した特徴は人間の動作種類に対応して特徴量空間で分布を作ることが知られている(特許文献1参照)。この特徴量を機械学習することにより、動作認識を行う識別器を構成できる。しかしながら、時空間微分情報は照明の変動に対して大きく影響を受けるため、極端な照明変動は動作誤認識の原因となることがある。そこで、照明の変動を露出値Evの時間変動解析(S104)によって判定し、識別器の追加学習に反映させることにより、動作認識の自律学習が可能となる。図8は、露出値Evの時間変動解析処理(S104)を説明する図である。図8のグラフの横軸は時間を、縦軸は露出値Evを示す。照明が定常状態であれば、Evは一定の値をとり続ける。照明条件が緩やかに変化する場合はEvも一定の変化率で変化していくが、AEの自動制御によりシーン全体の露出、及び被写体領域の露出も安定に保たれる。
しかしながら、照明条件が短時間に変動したり、規則的に変動したりする場合、輝度信号の時空間微分値が大幅に変動するため、動作誤認識につながりやすい。照明条件が短時間に変動する要因としては、例えば、ドアの開閉により屋内環境に外光が入射する場合が挙げられる。
そこで、露出値Evの時間変動を解析するために、Evの時系列信号の一微分と二次微分を計算する。一次微分値は照明変動の変化率を表し、この値が大きいほど照明条件が大きく変化していることを検出できる。また、二次微分値は照明変動の加速度を表し、これもまた照明条件の変動状態を検出できる。また、二次微分値のゼロ交差を検出することにより照明変動の変化率の最大値を検出できる。これら、Ev波形の一次微分と二次微分情報は短時間の照明条件の急変に対応するので、動作認識を行う識別器を再学習、追加学習する際のルール情報として用いることができる。
図8の上から3番目の波形で示した照明が急変する場合を例に、具体的に説明する。この波形は定常的な照明環境において外光が差し込むような場合の例を示している。外光が差し込み、短時間にEvが大きくなった後、元の照明条件に戻っている。露出値Evが急変する波形の位置はEv波形の一次微分値があるしきい値を超えた場合として検出できる。
また、この例のようにEv波形がピークを持つ場合は、Ev波形の一次微分のゼロ交差を検出することによっても照明の急変を検出できる。このゼロ交差が検出されるということも照明条件が短時間に変化していることを示す。その場合は輝度の時間的、空間的な微分値を用いる動作識別器が誤認識することがある。そこで、Ev波形が閾値以上になった場合、あるいはEv波形の一次微分のゼロ交差を検出した場合は、そのような照明変動があると判定し、それを判定値として出力する。ここでは、照明変動があるかないかの2値の結果を判定値として出力するようにしているが、照明変動の確率を求めるようにしてそれを判定値として出力するようにしてもよい。
上述の説明では、照明変動の判定値を、露出値Evの短時間急変を用いて求めているが、ホワイトバランスの時間変動を用いて同様の処理によって求めるようにしてもよい。さらには、露出値Evとホワイトバランスの両方の急変情報を用いて異常動作(特定動作)の追加学習を行うことができる。この場合は、Evとホワイトバランスの2次元ベクトルに対して一次、二次の偏微分計算により照明条件の急変を判定すればよい。いずれにしても、本実施形態では、露出値Evの時間変動解析(S104)とホワイトバランス補正ゲインの時間変動解析(S105)の少なくともいずれか一方を行い、照明変動があるかないかの判定結果を出力する。
また、本実施形態では、露出値Evに対する閾値処理として、露出値Evの変動量が閾値Th_var以上かの判定を行い、露出変動が正常範囲内であるかを決定し、その結果をパラメータ解析値(S106)のうちの1つとして出力する。
図9は、本実施形態において、学習ルール保存部31に記憶されている人物行動認識の識別器の追加学習を行う際の更新ルールを表で示したものである。図9に示すように、人物行動認識においては、その認識結果として以下の4つの場合がある。まず、入力された映像(画像)から異常な行動が検出されて、それが正しい場合である異常動作正解検出(TP:True Positive)と、誤って検出されている場合である異常動作誤検出(FP:False Positive)とがある。また、映像から異常な行動が検出されず、それが正解である場合の異常動作正解未検出(TN:True Negative)と、それが不正解(検出漏れ)の場合の異常動作未検出(FN:False Negative)とがある。
図9に示したように、異常動作誤検出の要因としては、環境光の変動や、それに応じて発生する鏡面反射のような輝度変動の大きなものである。この場合、撮影シーンには人物は存在していないため、AF評価値波形は時間的に変動しない(基本的に背景状態から変化しないしないが、鏡面反射によってエッジ強度が大きくなり、それに伴いピーク値も大きくなく可能性はある)。また、背景以外のAF評価値波形ピークも検出されないはずである。したがって、被写体存在判定値から人物が存在していないと判断したにも関わらず、異常動作を検出している場合は学習データベース保存部32に保存されている学習データベースに異常動作の誤検出事例を追加して、誤検出を低減するように識別器を再学習する。
一方、異常動作の未検出の要因としては、照明が暗く、動き情報を表す時空間輝度勾配情報を十分に得られないことが挙げられる。この場合は、第1の実施形態と同様に、異常動作識別器の感度を上げて異常動作を検出した後、学習データベース保存部32に保存されているデータベースに正解検出事例を追加して、異常動作未検出を低減するように識別器を再学習する。
図10は、本実施形態の自律学習部30における人物動作認識の識別器を自律学習する処理を示すフローチャートである。ここでは、入力映像の毎フレームごとに識別器の自律学習を行う構成を示すが、本発明はこの構成に限られず、数フレームおきに行うなどであってもよい。
まず、ステップS301において、自律学習部30は、前フレームにおける映像認識部40による人物動作認識結果を受け付ける。そして、検出結果がある場合(条件分岐でYesの場合)には、ステップS202に進む。S302において、AF評価値波形の時間解析(S102)及びピーク検出(S103)による人物存在判定の結果を参照する。このS302で存在有り(条件分岐でYesの場合)の場合に、ステップS303に進み、パラメータ解析値(S106)のうち、露出値Evの時間変化解析の判定結果を参照して、露出の時間変動が正常範囲内であるかを決定する。
このS303の条件分岐でYesなら、ステップS304で異常動作検出器の追加学習を行う。このS303の条件分岐でNoなら、露出変動が正常範囲内での異常動作検出と判断して、異常動作検出器の追加学習を行わず、後述するように、異常動作検出器の検出感度をリセットする(S309)。ここで、検出器の検出感度をリセットする理由は、第1の実施形態と同様で、照明条件が良くなっていた場合に、過剰検出を防ぐためである。
本実施形態では、追加学習の方法の例として、学習データベース保存部32に正解事例を追加して学習器を再学習する方法を示している。しかし、非特許文献1で示されている方法のように、現フレームにおける識別器を初期の識別器として、その初期識別器から性質の異なる複数の識別器を発生させ、それらの識別器の人物検出結果を用いて識別器の更新を行うことで自律的に再学習を行ってもよい。以上が、異常動作正解検出(TP)の場合の処理に相当する。
続いて、異常動作誤検出(FP)の場合の処理手順について説明する。まず、S301において、前フレームで異常動作が検出されたと判断されて、S302に進む。S302では、AF評価値波形の時間解析(S102)及びピーク検出(S103)による人物存在判定で人物が存在していないと判定されて、その異常動作検出結果は誤検出である可能性が高いと判断されることになる。このような異常動作誤検出(FP)の場合には、誤検出を低減するように、S305で、学習データベース保存部32に誤検出例を追加して、異常動作検出器の追加学習を行う。
続いて、異常動作正解未検出(TN)の場合の処理手順を説明する。S301において前フレームで異常動作は検出されず、ステップS306へと進む。S306では、S302と同様にして人物存在判定が行われるが、異常動作正解未検出(TN)の場合には、このS306では人物も存在しないと判定される。そして、再学習を行わず次のフレームの処理に移る。
最後に、異常動作検出漏れ(FN)の場合の処理手順について説明する。S301において、前フレームで異常動作が検出されていないにも関わらず、S306では人物存在判定の解析結果より人物が存在していると判定される。そして、ステップS307へと進み、パラメータ解析値(S106)のうち、露出値Evの閾値判定の結果(露出値Evが閾値Th_lowより大幅に小さいか否か)を参照する。このS307において、露出値Evが閾値Th_lowより大幅に小さいと判断された場合、異常動作が未検出である可能性が高い。このような場合は、一旦、異常動作検出器の感度を上げて(S308)、映像認識部40が未検出状態の異常動作を検出できるようにする。
一方、S307で、露出値Evが閾値Th_lowより大幅に小さいと判断されなかった場合、すなわち露出値Evが適正範囲内と判断された場合は異常動作検出漏れの判断を保留して再学習を行わず、異常動作検出器の検出感度をリセットする(S309)。
以上、本実施形態では、AF評価値波形の時間解析とピーク解析、露出値Evの閾値判定、露出値Evの変動量解析、及び識別器の異常動作検出結果を用いて学習データベースの更新と識別器の更新を行うことが可能になる。特に、本実施形態では、撮影した映像を補正するための映像信号調整パラメータ(AF評価値波形、露出値Ev、ホワイトバランス)を利用して、異常行動検知の識別器を追加学習するようにしている。そのため、撮影環境の照明変動によらず、精度よく映像認識を行うことができるようになる。
[その他の実施形態]
上述の各実施形態では、人物、あるいは異常動作の検出結果と映像調整パラメータの解析結果とを用いて識別器の自律学習を実行する際のルールを決めている。しかし、そのような学習ルールを決めずに、人物特徴(人物検出用の特徴、あるいは動作識別用の特徴)と映像調整パラメータを連結させ、1つの特徴量として扱い、直接学習する手法を採用してもよい。
また、上述の実施形態では、自律的に識別器を学習する例として、人物検出と異常動作検出の2つの例を挙げた。自律学習を実行するためのルールは認識環境毎、及び認識対象毎に異なり、ユーザの要求に応じてそれらのルールを変更することで自律学習の精度を上げることが可能となる。例えば、露出値Evの急激な変化は、屋内環境では照明のオン・オフによって生じ、屋外環境では雲によって生じる影の移動により生じることが考えられる。これら環境の違いによる差異を学習ルールに反映させ、カメラの設置環境に応じて学習ルールを切り替えることで自律学習の効率を上げることが可能となる。
学習ルールの設定は、設定部、特にはカメラ設置時に映像表示系に表示したユーザーインターフェース上で切り替えることができる。ユーザーインターフェースによって学習ルールを切り替えることにより、特にIPネットワークカメラの場合は、ネットワーク経由で複数のカメラの学習ルール設定を一括で行うことができる。
また、本発明は、各実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPU等)がプログラムを読出し実行する処理である。また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。本発明は上記実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形(各実施例の有機的な組合せを含む)が可能であり、それらを本発明の範囲から除外するものではない。即ち、上述した各実施例及びその変形例を組み合わせた構成も全て本発明に含まれるものである。
10 撮像部
20 映像調整パラメータ解析部
30 自律学習部
40 映像認識部
100 映像認識装置

Claims (16)

  1. 撮像部が撮像した映像を補正するためのパラメータに基づいて、前記撮像部が映像を撮像した際の環境の状況を解析する解析手段と、
    識別器を用いて、前記撮像部が撮像した映像から人物の検出を行う認識手段と、
    前記解析手段の解析結果と前記認識手段の認識結果とに基づいて、前記識別器を学習する学習手段と、を有し、
    前記パラメータは、前記撮像部のオートフォーカス(AF)評価値を含み、
    前記解析手段は、前記AF評価値の波形に基づいて前記映像に人物が存在するか否かを判断することを特徴とする映像認識装置。
  2. 前記認識手段によって前記映像に人物が検出された際に、前記解析手段が当該映像に人物が存在しないと判断した場合、前記学習手段は、当該映像と前記解析手段の判断結果に基づいて前記識別器を学習することを特徴とする請求項1に記載の映像認識装置。
  3. 前記パラメータは、前記撮像部の露出値を含み、
    前記解析手段は、前記露出値が所定の範囲内にあるか否かを判断することを特徴とする請求項1または2に記載の映像認識装置。
  4. 前記認識手段によって前記映像に人物が検出された際に、前記解析手段が当該映像に人物が存在すると判断し、前記露出値が所定の範囲内にないと判断した場合、前記学習手段は、当該映像と前記解析手段の判断結果に基づいて前記識別器を学習することを特徴とする請求項に記載の映像認識装置。
  5. 前記認識手段によって前記映像に人物が検出されなかった際に、前記解析手段が当該映像に人物が存在すると判断し、前記露出値が所定の範囲内にないと判断した場合、前記学習手段は、前記識別器の人物検出の検出感度を上げることを特徴とする請求項に記載の映像認識装置。
  6. 前記学習手段により前記識別器の検出感度が上げられた後、前記解析手段が前記露出値が所定の範囲内にあると判断した場合、前記検出感度をリセットすることを特徴とする請求項に記載の映像認識装置。
  7. 撮像部が撮像した映像を補正するためのパラメータに基づいて、前記撮像部が映像を撮像した際の環境の状況を解析する解析手段と、
    識別器を用いて、前記撮像部が撮像した映像から人物の特定動作の検出を行う認識手段と、
    前記解析手段の解析結果と前記認識手段の認識結果とに基づいて、前記識別器を学習する学習手段と、を有し、
    前記パラメータは、前記撮像部のオートフォーカス(AF)評価値を含み、
    前記解析手段は、前記AF評価値の波形に基づいて前記映像に人物が存在するか否かを判断することを特徴とする映像認識装置。
  8. 前記認識手段によって前記映像に人物の特定動作が検出された際に、前記解析手段が当該映像に人物が存在しないと判断した場合、前記学習手段は、当該映像と前記解析手段の判断結果に基づいて前記識別器を学習することを特徴とする請求項に記載の映像認識装置。
  9. 前記パラメータは、前記撮像部の露出値またはホワイトバランスの補正値の少なくとも一方を含み、
    前記解析手段は、前記露出値またはホワイトバランスの補正値の少なくとも一方に時間変動があるか否かを判断することを特徴とする請求項に記載の映像認識装置。
  10. 前記認識手段によって前記映像に人物の特定動作が検出された際に、前記解析手段が当該映像に人物が存在すると判断し、前記露出値またはホワイトバランスの補正値の少なくとも一方に時間変動があると判断した場合、前記学習手段は、当該映像と前記解析手段の判断結果に基づいて前記識別器を学習することを特徴とする請求項に記載の映像認識装置。
  11. 前記パラメータは、前記撮像部の露出値を含み、
    前記解析手段は、前記露出値が閾値よりも小さいか否かを判断することを特徴とする請求項に記載の映像認識装置。
  12. 前記認識手段によって前記映像に人物の特定動作が検出されなかった際に、前記解析手段が当該映像に人物が存在すると判断し、前記露出値が閾値よりも低いと判断した場合、前記学習手段は、前記識別器の前記特定動作の検出感度を上げることを特徴とする請求項11に記載の映像認識装置。
  13. 前記学習手段により前記識別器の検出感度が上げられた後、前記解析手段が前記露出値が閾値よりも高いと判断した場合、前記検出感度をリセットすることを特徴とする請求項12記載の映像認識装置。
  14. 撮像部が撮像した映像を補正するためのパラメータに基づいて、前記撮像部が映像を撮像した際の環境の状況を解析する解析ステップと、
    識別器を用いて、前記撮像部が撮像した映像から人物の検出を行う認識ステップと、
    前記解析ステップの解析結果と前記認識ステップの認識結果とに基づいて、前記識別器を学習する学習ステップと、
    前記パラメータは、前記撮像部のオートフォーカス(AF)評価値を含み、
    前記解析ステップは、前記AF評価値の波形に基づいて前記映像に人物が存在するか否かを判断する
    を有することを特徴とする映像認識方法。
  15. 撮像部が撮像した映像を補正するためのパラメータに基づいて、前記撮像部が映像を撮像した際の環境の状況を解析する解析ステップと、
    識別器を用いて、前記撮像部が撮像した映像から人物の特定動作の検出を行う認識ステップと、
    前記解析ステップの解析結果と前記認識ステップの認識結果とに基づいて、前記識別器を学習する学習ステップと、を有し、
    前記パラメータは、前記撮像部のオートフォーカス(AF)評価値を含み、
    前記解析ステップは、前記AF評価値の波形に基づいて前記映像に人物が存在するか否かを判断することを特徴とする映像認識方法。
  16. コンピュータを、請求項1から13のいずれか1項に記載の映像認識装置として機能させるためのプログラム。
JP2017004680A 2017-01-13 2017-01-13 映像認識装置、映像認識方法及びプログラム Active JP6942472B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017004680A JP6942472B2 (ja) 2017-01-13 2017-01-13 映像認識装置、映像認識方法及びプログラム
US15/864,899 US10671850B2 (en) 2017-01-13 2018-01-08 Video image recognition apparatus, video image recognition method, and storage medium
CN201810032478.0A CN108304783B (zh) 2017-01-13 2018-01-12 视频图像识别装置、视频图像识别方法和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017004680A JP6942472B2 (ja) 2017-01-13 2017-01-13 映像認識装置、映像認識方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2018112996A JP2018112996A (ja) 2018-07-19
JP6942472B2 true JP6942472B2 (ja) 2021-09-29

Family

ID=62840993

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017004680A Active JP6942472B2 (ja) 2017-01-13 2017-01-13 映像認識装置、映像認識方法及びプログラム

Country Status (3)

Country Link
US (1) US10671850B2 (ja)
JP (1) JP6942472B2 (ja)
CN (1) CN108304783B (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201904265A (zh) * 2017-03-31 2019-01-16 加拿大商艾維吉隆股份有限公司 異常運動偵測方法及系統
JP7106391B2 (ja) * 2018-08-22 2022-07-26 株式会社Ye Digital 画像判定方法、画像判定装置および画像判定プログラム
JP6731680B2 (ja) * 2018-08-23 2020-07-29 荏原環境プラント株式会社 情報処理装置、情報処理プログラム、および情報処理方法
JP7205148B2 (ja) * 2018-10-04 2023-01-17 カシオ計算機株式会社 ロボット、制御方法、及び、プログラム
JP7123306B2 (ja) * 2018-11-07 2022-08-23 オムロン株式会社 画像処理装置及び画像処理方法
US11068718B2 (en) * 2019-01-09 2021-07-20 International Business Machines Corporation Attribute classifiers for image classification
KR102658563B1 (ko) * 2019-03-14 2024-04-17 에스케이텔레콤 주식회사 영상 감시장치, 영상 분석 서버장치 및 그 학습 방법들
KR102357729B1 (ko) * 2019-09-10 2022-02-03 라온피플 주식회사 복수의 이미지들에 대해 기계학습 및 테스트를 수행하기 위한 방법 및 장치
JP7273344B2 (ja) * 2019-10-23 2023-05-15 富士通株式会社 データ前処理方法、データ前処理装置およびデータ前処理プログラム
WO2022202178A1 (ja) * 2021-03-23 2022-09-29 株式会社日立国際電気 機械学習用の学習データ生成装置、学習データ生成システム及び学習データ生成方法
CN116369362A (zh) * 2023-05-30 2023-07-04 乳山新达食品有限公司 一种海鲜产品分类萃取装置控制方法及控制系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11252450A (ja) * 1998-03-06 1999-09-17 Canon Inc 画像処理装置及びコンピュータ読み取り可能な記憶媒体
JP4701100B2 (ja) 2006-02-17 2011-06-15 株式会社日立製作所 異常行動検知装置
DE102009055127A1 (de) * 2009-12-22 2011-06-30 Robert Bosch GmbH, 70469 Vorrichtung und Verfahren zum Überwachen von Videoobjekten
US9495591B2 (en) * 2012-04-13 2016-11-15 Qualcomm Incorporated Object recognition using multi-modal matching scheme
JP6267502B2 (ja) * 2013-12-10 2018-01-24 キヤノン株式会社 撮像装置、撮像装置の制御方法、及び、プログラム
JP6471934B2 (ja) * 2014-06-12 2019-02-20 パナソニックIpマネジメント株式会社 画像認識方法、カメラシステム
CN106027889B (zh) * 2016-05-20 2019-04-12 Oppo广东移动通信有限公司 控制方法、控制装置及电子装置
JP2018092610A (ja) * 2016-11-28 2018-06-14 キヤノン株式会社 画像認識装置、画像認識方法及びプログラム
DE102018201909A1 (de) * 2018-02-07 2019-08-08 Robert Bosch Gmbh Verfahren und Vorrichtung zur Objekterkennung
US10834365B2 (en) * 2018-02-08 2020-11-10 Nortek Security & Control Llc Audio-visual monitoring using a virtual assistant

Also Published As

Publication number Publication date
JP2018112996A (ja) 2018-07-19
US10671850B2 (en) 2020-06-02
CN108304783B (zh) 2022-08-16
CN108304783A (zh) 2018-07-20
US20180204067A1 (en) 2018-07-19

Similar Documents

Publication Publication Date Title
JP6942472B2 (ja) 映像認識装置、映像認識方法及びプログラム
CN102761706B (zh) 成像设备和成像方法
JP6320112B2 (ja) 情報処理装置、情報処理方法
US8199208B2 (en) Operation input apparatus, operation input method, and computer readable medium for determining a priority between detected images
US9330446B2 (en) Method and apparatus for processing image
US20150207986A1 (en) Information processing apparatus, information processing method, and program
US20120140994A1 (en) Image processing apparatus and image processing method
CN111107276B (zh) 信息处理设备及其控制方法、存储介质以及摄像系统
JP7272024B2 (ja) 物体追跡装置、監視システムおよび物体追跡方法
JP2007148988A (ja) 顔認証装置、顔認証方法および入退場管理装置
CN103905727A (zh) 被摄体区域跟踪设备及其控制方法
JP2007067559A (ja) 画像処理方法、画像処理装置、及び撮像装置の制御方法
US20220321792A1 (en) Main subject determining apparatus, image capturing apparatus, main subject determining method, and storage medium
JP2010160743A (ja) 物体検知装置及び物体検知方法
US20210256713A1 (en) Image processing apparatus and image processing method
JP2011071925A (ja) 移動体追尾装置および方法
US11575841B2 (en) Information processing apparatus, imaging apparatus, method, and storage medium
JP5241687B2 (ja) 物体検出装置及び物体検出プログラム
WO2023106103A1 (ja) 画像処理装置およびその制御方法
JP2021090121A (ja) 画像処理装置および画像処理方法、撮像装置、プログラム
US11587324B2 (en) Control apparatus, control method, storage medium, and imaging control system
US20230064329A1 (en) Identification model generation apparatus, identification apparatus, identification model generation method, identification method, and storage medium
JP5930915B2 (ja) 対象物検出装置
JP2023086274A (ja) 画像処理装置およびその制御方法
US20120148095A1 (en) Image processing apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210810

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210908

R151 Written notification of patent or utility model registration

Ref document number: 6942472

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151