JP2022043631A - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2022043631A
JP2022043631A JP2020149008A JP2020149008A JP2022043631A JP 2022043631 A JP2022043631 A JP 2022043631A JP 2020149008 A JP2020149008 A JP 2020149008A JP 2020149008 A JP2020149008 A JP 2020149008A JP 2022043631 A JP2022043631 A JP 2022043631A
Authority
JP
Japan
Prior art keywords
list
feature
registered
information processing
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020149008A
Other languages
English (en)
Inventor
昌弘 松下
Masahiro Matsushita
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2020149008A priority Critical patent/JP2022043631A/ja
Priority to US17/410,830 priority patent/US11841902B2/en
Publication of JP2022043631A publication Critical patent/JP2022043631A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7328Query by example, e.g. a complete video frame or video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Abstract

Figure 2022043631000001
【課題】 映像から特定の物体をより高速に検索する。
【解決手段】 本発明は、映像から抽出された物体の特徴を、検出対象となる所定の物体を示す特徴と、該所定の物体を識別するためのID情報とが登録された登録リストから検索する第一の検索手段と、前記第一の検索手段によって前記映像から抽出された物体の特徴が前記登録リストから検出された場合に、前記映像から抽出された物体と対応する前記所定の物体の前記ID情報を少なくとも登録した第一のリストを、前記第一の検索手段によって前記映像から抽出された物体の特徴が前記登録リストから検出されなかった場合に、前記映像から抽出された物体の特徴を登録した第二のリストを、生成する生成手段と、前記第一のリストまたは前記第二のリストから、ユーザによって指定された注目物体を検索する第二の検索手段と、を有することを特徴とする。
【選択図】 図3

Description

本発明は、映像から特定の人物を検出する技術に関する。
従来、監視映像の各フレームから、人物の顔を検索することで、不審者などの特定の人物を検索する技術が知られている。特許文献1には、リアルタイム検索を行った監視映像から抽出して記憶しておいたメタデータの中から事後検索条件に合致する人物を検索する事後検索処理の技術が開示されている。
特開2007-280043号公報
特許文献1の技術では、長期間の運用をした場合に、監視映像から抽出して記憶しておいたメタデータが肥大化する。また、リアルタイム検索処理を実行した時点よりも過去に撮影された映像に対する事後検索処理は肥大化したメタデータに対しての検索となり、検出結果取得まで時間を要する。
本発明はこのような問題点に鑑みなされたもので、映像から特定の物体をより高速に検索することを目的とする。
そこで、本発明は、映像から抽出された物体の特徴を、検出対象となる所定の物体を示す特徴と、該所定の物体を識別するためのID情報とが登録された登録リストから検索する第一の検索手段と、前記第一の検索手段によって前記映像から抽出された物体の特徴が前記登録リストから検出された場合に、前記映像から抽出された物体と対応する前記所定の物体の前記ID情報を少なくとも登録した第一のリストを、前記第一の検索手段によって前記映像から抽出された物体の特徴が前記登録リストから検出されなかった場合に、前記映像から抽出された物体の特徴を登録した第二のリストを、生成する生成手段と、前記第一のリストまたは前記第二のリストから、ユーザによって指定された注目物体を検索する第二の検索手段と、を有することを特徴とする。
本発明によれば、映像から特定の物体をより高速に検索できる。
情報処理システムのハードウェア構成の一例を示す図。 情報処理装置の機能構成例を示すブロック図。 情報処理システムにおけるデータのフローの一例を説明する図。 情報処理装置が実行する処理を説明するフローチャート。 情報処理装置が実行する処理を説明するフローチャート。 情報処理装置が実行する処理を説明するフローチャート。 情報処理装置が実行する処理を説明するフローチャート。 各種リストの一例を示す図。 閾値の一例を示す図。
以下、本発明の実施形態について図面に基づいて説明する。
(実施形態1)
図1は、本実施形態に係る監視システムのハードウェア構成の一例を示す図である。監視システムは、情報処理装置100と、撮像部としての撮像装置112とを有し、クエリとして指定された人物の検索を行う。図1においては、情報処理システムが3台の撮像装置112を有する場合を例示しているが、撮像装置112の数は実施形態に限定されるものではない。情報処理装置100と撮像装置112は、ネットワーク111を介して接続している。
CPU101は、情報処理装置100全体を制御するCentral Processing Unitである。ROM102は、変更を必要としないプログラムやパラメータを格納するRead Only Memoryである。RAM103は、外部装置などから供給されるプログラムやデータを一時記憶するRandom Access Memoryである。外部記憶装置104は、情報処理装置100に固定して設置されたハードディスクやメモリカードなどの記憶装置である。なお、外部記憶装置104は、情報処理装置100から着脱可能なフレキシブルディスク(FD)やCompact Disc(CD)等の光ディスク、磁気や光カード、ICカード、メモリカードなどを含んでもよい。なお、後述する情報処理装置100の機能や処理は、CPU101がROM102や外部記憶装置104に格納されているプログラムを読み出し、このプログラムを実行することにより実現されるものである。
入力I/F105は、ユーザの操作を受け、データを入力するポインティングデバイスやキーボードなどの入力部109とのインターフェースである。出力デバイスI/F106は、情報処理装置100の保持するデータや供給されたデータを表示するためのモニタ110とのインターフェースである。通信I/F107は、インターネットなどのネットワーク111に接続する。撮像装置112は、監視カメラなどの映像の撮像装置であり、ネットワーク111を介して情報処理装置100に接続されている。システムバス108は、101~107の各ユニットを通信可能に接続する伝送路である。
図2は、本実施形態に係る情報処理装置100の機能構成例を示す図である。情報処理装置100は、取得部200、検出部201、特徴抽出部202、第一検索部203、生成部204、判定部205、更新部206、第二検索部207、出力部208から構成される。ソフトウェアの場合、これらはROM102に格納される。ROM102の有する各機能部については後述する。
図3は本実施形態に係る情報処理装置が行う情報処理のデータフローの一例を示すブロック図である。図3の例においては、本実施形態に係る情報処理装置は、情報処理装置100として示される部分であり、ネットワーク111及び通信I/F107を介して外部にある撮像装置112が取得した監視映像301を取得する。監視映像301は、ここでは逐次的に撮像される画像で構成されるものとするが、特にそのように限定されるわけではない。
取得部200は、撮像装置または記憶装置から映像(時系列画像)を取得する。検出部201は、取得された映像から物体を検出する。ここでは、検出部201は、取得した監視映像301を解析し、映像内に写っている物体を検出する。本実施形態においては説明のため、検出部201が抽出する物体は人物の顔領域であるものとするが、特にそれに限定されるわけではない。例えば、検出部201は物体として人物領域を抽出してもよい。なお、ここでは、予め用意した人体や顔のテンプレートやモデルを用いて画像における人物または顔の領域を検出するものとする。次いで、特徴抽出部202は、映像から所定の物体を示す特徴を抽出する。つまり、特徴抽出部202は、検出部201が検出した物体から、その物体の画像特徴である特徴32を抽出する。
第一検索部203は、抽出された特徴32と、検出対象リスト303(登録リスト)に登録されている所定の物体を示す特徴との類似度に基づいて、検出対象リストから検出された物体を検索する。図8(A)は、検出対象リスト303(登録リスト)の一例である。検出対象リスト303には、映像に写った物体の中から検出対象となる所定の物体を示す画像特徴が登録されている。またそれぞれの画像特徴は、その所定の物体を個々に識別するためのID情報(検出対象者IDや名前)が少なくとも対応付けられる。さらに、その物体が検出対象リスト303に登録された日時情報(リスト追加日時)とともに登録されている。登録対象となる物体は、ユーザによって指定される。また、1つの物体に対し、複数の特徴を登録しておいてもよい。なお、1つの物体に1つの特徴を登録する場合は、本例では、例えば、図8(A)の2行目のバイト数の合計から物体ごとに864バイトのデータ量となる。リアルタイムで検出したい物体が1万程度のオーダーのとき、検出対象リスト303は、高々10メガバイト程度のデータ量となる。そして、所定類似度TH1(例えば0~100の類似度範囲に対して、60)より高い類似度を持つ特徴が存在した場合は、その特徴に紐づけられている検出対象者のID情報を検出結果304として取得する。さらに、最も高い類似度が、所定類似度TH3(例えば、同90)よりも高い場合は、検出結果304のID情報をモニタ110に出力する。なお、以下に出てくる検出対象リスト303、検出結果リスト305、および特徴リスト306は、ここでは、リストと表記するが、ある画像特徴と個体を特定可能な情報との対応付けがわかる、リスト、データベース、テーブル、データであればよい。
生成部204は、第一検索部203によって映像から検出された物体が検出対象リスト(登録リスト)から検出された場合は、映像から抽出された物体と対応する所定の物体のID情報を少なくとも登録した検出結果リスト(第一のリスト)を生成する。さらに、生成部204は、第一検索部203によって映像から検出された物体が検出対象リスト305(登録リスト)から検出されなかった場合は、映像から抽出された物体の特徴を登録した特徴リスト(第二のリスト)を生成する。
検出結果リスト305に第一の検出結果としてID情報や時間を登録しておくことで、リアルタイムで検出した結果を、後で確認することも可能であるし、後述する過去の検出結果としても活用可能である。図8(B)は、検出結果リスト305の一例である。検出結果リスト305には、物体を検出した日時(検出日時、すなわち、撮影日時)や撮像装置情報(撮像装置ID)が登録される。またそれらは、検出した物体のID情報(検出対象者ID)、類似度、物体領域を切り出したサムネイル画像(サムネイル画像ファイル名)とともに登録される。特に、物体のID情報は、検出対象リスト303の一列目と対応づけられている。検出結果リスト305は、スカラ値である物体のID情報(検出対象者ID)をキーとして一般的なRDB(リレーショナルデータベース)上に構築することで、物体のID情報(検出対象者ID)から高速に検索可能となる。本例では、図8(B)の2行目のデータ量を例として、検出結果ごとに132バイトのデータ量となる。検出結果が1億程度のオーダーのとき、検出結果リスト305は、13ギガバイト程度のデータ量となり、RAM上への展開も可能な容量である。図3の例においては、検出結果リスト305は記憶部108に配置される。また、RAM103にもロードしておいた場合は、高速に検索することができる。
一方、第一検索部203によって映像から検出された物体が検出対象リスト305(登録リスト)から検出されなかった場合は、映像から抽出された物体の特徴を登録した特徴リスト(第二のリスト)を生成する。つまり、検出結果304として映像から検出された物体が検出されない場合や、所定類似度TH2よりも高い類似度になる所定の物体が検出対象リストから検出されない場合は、特徴抽出部202が算出した特徴32を特徴リスト306に登録する。図8(C)は、特徴リスト306(第二のリスト)の一例である。特徴リスト306には、物体の特徴が、特徴を一意に特定するID(特徴ID)、撮影日時、撮像装置情報(撮像装置ID)、物体領域を切り出したサムネイル画像(サムネイル画像ファイル名)とともに登録される。本例では、図8(C)の2行目のデータ数を例とすると、特徴ごとに936バイトのデータ量となる。登録数が、1億程度のオーダーの時、特徴リスト306は94ギガバイト程度のデータ量となる。特徴リスト306は、特徴をクエリとした検索に用いられるが、特徴は一般的には多次元のベクトルのため、一般的なRDBでは高速に検索することはできない。したがって、多次元の特徴に対応したインデクスを生成する。インデクスの生成については後述する。そのような場合であっても、ハードディスクドライブからデータを読み込みながら検索を行う場合は、RAM上にロードされているデータから検索する場合と比べて、10倍以上の時間がかかる。図3の例においては、特徴リスト306は記憶部108に配置される。RAM103にもロードしておくことで、高速に検索することが可能となるが、100GB以上のRAMを搭載する必要がある。
また、既に検出対象リストに登録された物体以外の物体のうち、映像に何回も写る人は、検出対象リスト303(登録リスト)に登録しておくことで、総データ容量を削減することができる。撮像装置112にn回写ったときの総データ容量は、検出対象リスト303に登録されているときは(864+132n)バイト、登録されていないときは936nバイトである。したがって、多く写る物体を検出し、検出対象リスト303に登録することで、総データ容量を削減することができる。判定部205は、特徴リスト306に登録されている特徴同士の類似度をもとに、特徴リスト306に多く登録されている物体を判定する。そして、その物体の代表の特徴を、判定結果307として取得する。更新部206では、判定部205が検出した判定結果307の物体の特徴を検出対象リスト303に登録することによって、検出対象リスト303(登録リスト)を更新する。以降、それらの物体も、第一検索部203にて検出可能となる。これにより、検出結果リスト305で探索可能な物体が増え、検索高速化が可能となる。また、特徴リスト306への登録量を更に削減することが可能となり、更なるメモリ量削減、検索速度高速化が可能となる。
本実施形態に係る検索処理においては、取得部200は、まず入力部109にてユーザが指定した注目物体を示すクエリ画像308を、入力I/Fを介して取得する。次いで、情報処理装置100が行うデータ登録処理と同様に、検出部201がクエリ画像308に写っている注目物体を検出する。さらに、特徴抽出部202が、クエリ画像308内に検出された注目物体の特徴であるクエリ特徴309を抽出する。
そして、情報処理装置100が行うリスト生成処理と同様に、第一検索部203は、注目物体を示すクエリ特徴309と検出対象リスト303に登録された特徴とを比較することで、検出対象リスト303から注目物体を検索する。そして、注目物体のクエリ特徴と一致する特徴を示す所定の物体のID情報と検出対象リスト303に登録された日時情報を検出結果304として取得する。
第二検索部207は、検出結果304として検出対象リスト303(登録リスト)に注目物体が存在する場合は、検出結果304の物体のID情報をもとに、検出結果リスト305(第一のリスト)から注目物体を検索する。具体的には、注目物体に関する情報(サムネイル画像、撮影時刻情報、撮像装置情報、類似度など)を、検出結果310として取得する。さらに、第二検索部207は、検出対象リスト303(登録リスト)に注目物体がない場合は、特徴リスト306(第二のリスト)に登録された特徴から、特徴に基づいて算出される類似度に応じて、クエリ特徴309と類似する特徴を検索する。具体的には、注目物体に関する情報(サムネイル画像、撮影時刻情報、撮像装置情報、類似度など)を、検出結果311として取得する。第二検索部207は、検出結果310と検出結果311を、RAM103上に保存する。次に、第二検索部207は、検出結果310および検出結果311の物体のサムネイル画像をモニタ110に出力する。
出力部208は、検出結果リスト305または特徴リスト306(第一または第二のリスト)から注目物体が検出された場合に、ユーザに対する通知を出力する。具体的には、モニタ110は、第一検索部203による検出結果304をユーザに提示する。提示にあたっては、検出結果を表示するだけでなく、画面の一部や全体を点滅させることによりアラートするようにしてもよい。さらには、システムに警告灯(不図示)を追加して、アラートするようにしてもよい。また、モニタ110は、第二検索部207による検出結果310および検出結果311をユーザに提示する。
なお、入力部109及び表示部110は別の装置に備わっている装置であってもよく、通信I/F107を介してクエリ画像308、クエリ特徴309、検出結果310、検出結果311の送受信を行ってもよい。また、制御プログラムはROM102に格納されているもののみに限らず、そのいくつかを別装置に備える構成であってもよい。例えば、検出部201及び特徴抽出部202を撮像装置112に内蔵したり別のサーバに備えたりし、並びに、情報処理装置100は第一検索部203、生成部204及び第二検索部207のみを備える構成としてもよい。このような構成とする場合には、映像を解析する処理と検索に関する処理で装置を分けることが可能となり、したがってそれぞれの処理に適したハードウェアスペックを選択することができる。また、上記のすべての構成を1台の情報処理装置で有していてもよい。
検出部201が顔領域を検出する方法は特に限定されない。以下においては、検出部201は、顔領域の特徴を事前に学習しておき、並びにその上で入力画像内を探索窓で走査することにより、各探索窓が顔領域であるか否かを判定する方式を用いるものとする。そのための学習方法としては、例えば、アンサンブル学習又はCNN(Convolutional Neutral Network)等の深層学習手法が用いられてもよい。また、特徴抽出部202が物体の特徴を抽出する方法も特に限定はされない。例えば、特徴抽出部202は、顔領域内の部分領域の色ヒストグラムを特徴として算出してもよいし、CNN等の深層学習手法によって算出する方法を用いてもよい。
本実施形態において記述されるフローチャートの各に対応する処理は、CPUを用いてソフトウェアで実現されてもよいし、電子回路などのハードウェアで実現されるようにしてもよい。
以下、情報処理装置100が行う上述の処理のうち、リスト生成に関する処理について、フローチャートに従って説明する。リスト生成処理は、事前準備の処理であって、例えば、リアルタイム検索として監視中の映像から所定の人物を検出する場合や、クエリ画像を用いた過去検索を行うための特徴リストを蓄積する場合に実行できる。図4は、本実施形態に係る情報処理装置100が行うリスト生成に関する処理の一例を示したフローチャートである。なお、図4から図7のフローチャートに示した処理は、コンピュータである図1のCPU101により外部記憶装置104に格納されているコンピュータプログラムに従って実行される。以下の説明では、各工程(ステップ)について先頭にSを付けて表記することで、工程(ステップ)の表記を省略する。
まず、S400で、取得部200は、検索対象となる映像を取得する。なお、ここで検索対象となる映像は、撮像装置によってリアルタイムに撮影された映像でも、過去に撮影された映像であってもよい。S401で、検出部201が、取得された映像から物体を検出する。S402では、特徴抽出部202が、映像から検出された物体の特徴を抽出する。なお、映像から検出する物体はひとつであっても複数であってもよい。そしてS403で、第一検索部203は、抽出された特徴32と、検出対象リスト303(登録リスト)に登録されている所定の物体を示す特徴との類似度に基づいて、検出対象リストに登録されている物体を検索する。つまり、第一検索部203は、抽出された特徴32と検出対象リスト303(登録リスト)に登録されている所定の物体の特徴とを比較し、類似度を取得する。比較対象となる検出対象リスト303は複数の所定の物体が登録されていてもよい。その場合、映像から抽出された特徴と、登録リストの特徴とのそれぞれの組合せにおいて類似度を取得する。そして、S404で、第一検索部203は、第一の閾値TH1より高い類似度を持つ特徴が存在した場合は、S405に進む。S404で、映像から検出された物体の特徴との類似度が第一の閾値TH1より高い類似度を持つ特徴が検出対象リスト303(登録リスト)になかった場合は、S410に進む。
S405では、生成部204が、検出対象リスト303(登録リスト)から映像から検出された物体を検出したことを示す検出結果304を取得する。S406では、生成部204が、映像から抽出された物体と対応する所定の物体のID情報を少なくとも登録した検出結果リスト(第一のリスト)を生成する。つまり、検出結果304を検出結果リスト305に追加する。このとき、検出結果304に複数の結果が含まれていた場合は、それら複数の検出対象者のID情報と紐づけて、サムネイル画像、撮影時刻情報、撮像装置情報、類似度などが登録される。サムネイル画像等、容量の大きいものは、別ファイルもしくは別領域に保存し、検出対象者のID情報と紐づけるのは、別ファイルもしくは別領域へのリンク情報とする。検出結果リスト305は、過去を網羅的に検索するときも使用される。そのような場合は、たとえ誤検出が含まれていたとしても、未検出が少なくなることが望ましい。したがって、閾値TH1は、未検出が発生しにくい、低めの閾値を設定する。また、このとき、検出対象者のID情報と紐づいて登録されている検出結果が所定数を超えたとき、類似度の低い検出結果を検出結果リスト305から削除するようにしてもよい。つまり、生成部204は、検出結果リスト(第一のリスト)に登録された特徴のうち、同一の物体を示す特徴の数が所定の数より多い場合に、所定の物体の特徴との類似度がより低い特徴を検出結果リストから削除する。これによって、誤検出が抑制され、より効率的に検索処理が可能となる。
S407では、生成部204が、検出対象リスト303に登録済みの特徴のうち、映像から検出された物体の特徴との類似度のうち最大類似度が、第三の閾値TH3よりも高いか否かを判断する。最大類似度が第三の閾値より大きい場合は、S407に進む。最大類似度が第三の閾値より小さい場合は、S409に進む。S408では、出力部208が、検出結果304のID情報をモニタ110に出力してユーザにアラートを通知する。ここで、リアルタイムで検出したときにユーザに提示するアラートは、誤検出が少なくなることが望ましい。誤検出が多発すると、ユーザはアラートがあっても、その結果を確認しなくなるからである。したがって、閾値TH3は誤検出が発生しにくい、高めの閾値を設定する。すなわち、閾値TH1は閾値TH3よりも低く設定することになる。S409では、生成部204が、検出対象リスト303に登録済みの特徴のうち、映像から検出された物体の特徴との類似度が第二閾値TH2より高い類似度を持つ特徴があるか否かを判断する。映像から検出された物体の特徴との類似度が第二閾値TH2より高い類似度を持つ特徴がある場合は、処理を終了する。映像から検出された物体の特徴との類似度が第二閾値TH2より高い類似度を持つ特徴がない場合は、S410に進む。
また、S404で第一の閾値TH1より高い類似度を持つ特徴が存在しない、もしくは、S409で第二の閾値TH2より高い類似度を持つ特徴が存在しない場合は、S410で特徴32を特徴リスト306に登録する。ここで、閾値TH2は閾値TH1よりも高く設定する。すなわち、図9の閾値の一例を示す図に記載の通り、閾値TH2より高い類似度の結果が存在するとき、すなわち、検出対象リスト303との類似度が高い結果が存在するときは、その結果の信頼度が高いため、検出結果リスト305のみに登録する。しかしながら、閾値TH1より高い類似度の結果は存在するが、閾値TH2より高い類似度の結果が存在しないときは、検出した物体は別の物体(候補物体と呼ぶ)である可能性もあり、検出対象リスト303の中には該当する物体が存在しない可能性もある。したがって、このような場合は、検出結果リスト305と特徴リスト306の両方に所定の物体の候補物体として登録される。また、閾値TH1より高い類似度の結果が存在しないときは、特徴32が特徴リスト306のみに登録される。
次に、情報処理装置100が行う上述の処理のうち、事後検索関連の処理について、フローチャートに従って説明する。事後検索処理は、過去に遡って監視映像から所定の人物を検出する処理であり、上述のリスト生成処理で検出結果リストおよび特徴リストが生成された後に実行できる。図5は、本実施形態に係る情報処理装置100が行う検索処理の一例を示したフローチャートである。まず、S501で、取得部200は、ユーザによって指定された注目物体を示すクエリ画像から抽出されたクエリ特徴を取得する。また、取得部200は、検索対象である画像の撮像時刻及び撮像装置等の、検索範囲を指定するユーザ入力を取得する。これは、取得された画像のうち、特定の領域に注目物体が映っている場合に、その注目物体を含む領域をユーザ入力によって決定する。なお、一枚の画像に複数の物体がある場合、一人または複数の注目物体を指定する。第一検索部203に入力される検索範囲は、すべての時刻、すべての撮像装置であってもよく、特定の時刻や特定の撮像装置であってもよい。S502で、第一検索部203は、クエリ特徴309と検出対象リスト303に登録されている特徴とを比較し、類似度を算出する。そして、S503で、第一検索部203は、第四の閾値TH4より高い類似度を持つ特徴が検出対象リスト305(登録リスト)に存在するか否かを判断する。第四の閾値TH4より高い類似度を持つ特徴が検出対象リスト305(登録リスト)に存在した場合は、S504に進む。第四の閾値TH4より高い類似度を持つ特徴が検出対象リスト305(登録リスト)に存在しない場合は、S508に進む。このときの閾値TH4は、特徴リスト306に登録するかどうかを判定する閾値TH2と同程度が望ましい。閾値TH2より高ければ、検出結果リスト305に含まれる結果には信頼性があり、閾値TH2より高くなければ、それらの特徴は特徴リスト306にも登録されているため、後述のS508で検索可能となるからである。
S504で、第二検索部207は、検出対象リスト303(登録リスト)から注目物体と対応する登録済みの物体のID情報を検索し、検出結果304を取得する。なお、このID情報には少なくとも物体を特定可能な情報を含み、さらに検出結果リスト305(第一のリスト)にその物体が登録された日時を示す時間情報を含む。次に、S505で、第二検索部207は、検出結果304の物体のID情報をもとに、検出結果リスト305(第一のリスト)から注目物体を検索する。検出結果304の物体のID情報をもとに、検出結果リスト305から検出結果310を取得する。このとき、検出結果304に複数の結果が含まれていた場合は、それら複数の検出対象者の検出結果310を取得する。
次に、S506で、第二検索部207は、検出結果リスト305(第一のリスト)に該所定の物体の特徴が登録された時刻より前の期間については、特徴リスト306(第二のリスト)から注目物体を検索する。すなわち、第二検索部207は、検出結果304の検出対象者が検出対象リスト303に登録されていなかった期間を対象に、クエリ特徴と類似度の高い特徴を特徴リスト306(第二のリスト)から検索し、検出結果311を取得する。ここで、検出結果304に複数の結果が含まれていた場合は、検出対象者ごとに検索対象期間を設定した検索を行い、それらの結果を統合する。結果統合においては、検出対象リスト303との類似度xを用いて、検出結果リスト305から取得した類似度yを補正する。すなわち、一例としては、補正した類似度y_refineは、x、yと重みwを用いて、以下の式(1)によって算出する。
y_refine=x-w(1-x)(1-y)
そして、S507で、第二検索部207は、第一または第二のリストから注目物体を検索した結果を統合する。すなわち、検出結果310と検出結果311を統合する。最後にS509で、出力部208が、出力I/F106を介し、モニタ110に検出結果を出力する。
また、第二検索部207は、S503で所定類似度TH4より高い類似度を持つ特徴が存在しない場合、S508において、入力された検索条件で、クエリ特徴と類似度の高い特徴を特徴リスト306から検索し、検出結果311を取得する。そして最後にS509で、出力部208が、出力I/F106を介し、モニタ110に結果を出力する。
次に、情報処理装置100が行う上述の処理のうち、更新処理について、図6のフローチャートに従って説明する。リストの更新処理は、予め指定された期間に撮像された映像が取得された場合に、例えば、ユーザが指示するタイミング、週末の深夜等に登録リストを更新する。または、特徴リストのデータ量に応じて、例えば登録量が所定値を超えた場合に実行するようにしてもよい。図6は、本実施形態に係る情報処理装置100が行う検出対象リストの更新処理の一例を示したフローチャートである。まず、S601で、生成部204が、特徴リストに登録された複数の特徴のうち、互いの特徴が類似するクラスタを特定する。生成部204は、多次元の特徴を高速に検索するためのインデクス生成、すなわち、リストに登録された特徴に基づいて、特徴リスト306のクラスタリングを行う。クラスタリングは、k-means法を用いることができる。すなわち、最初はk個のランダムなクラスタに分類する。その後は、各クラスタのクラスタ中心(特徴の重心)を求め、最も類似しているクラスタ中心に各データを分類して新たなクラスタを生成することを、クラスタ中心の変化がなくなるまで繰り返す。
次に、S602からS606で、すべてのクラスタに対してクラスタごとに、S603からS605の処理を行う。すなわち、S603で、生成部204が、クラスタ内の各データ間の類似度の中で最小の類似度を求める。そして、S604で、判定部205が、クラスタ内のデータ数が所定数より多く、かつ、その最小類似度が第五の閾値TH5よりも高いか否かを判定する。
S605で、判定部205が、クラスタ内のデータ数が所定数より多く、かつ、その最小類似度が閾値TH5よりも高い場合、クラスタ中心の特徴を判定結果307に追加する。このときの閾値TH5は、リアルタイムで検出したときにユーザにアラートを提示する閾値TH3と同程度が望ましい。そして、S603に戻り、次のクラスタの処理を行う。S604で、その最小類似度が閾値TH5よりも高くない場合も、S603に戻り、次のクラスタの処理を行う。
次に、S607で、更新部206は、判定結果307の特徴を、検出対象リスト303(登録リスト)に登録する。ただし、本フローにて登録した特徴は、ユーザがアラートを所望する物体ではない。したがって、本フローにて検出対象リスト303に登録した特徴と、ユーザが指定した物体の特徴とは区別可能なように登録する。そして、図4のフローチャートのS406において、判定部205が、類似度の比較に加え、検出対象者がユーザ登録の物体であるかどうかの判定を行う。ユーザが指定した物体のときのみ、アラートをするようにすることも可能である。
以上のように、本実施形態に係る情報処理装置100は、監視映像301が入力されたときに、検出対象リスト303との照合を行い、所定類似度よりも高い検出結果があった場合は、検出結果リスト305にその結果を登録する。そして、特徴リスト306には、映像から抽出された特徴を登録しないようにした。これにより、特徴リスト306への登録量を削減することが可能となり、メモリ量削減、検索速度高速化が可能となる。また、クエリ画像308が入力されたときに、検出対象リスト303との照合を行い、所定類似度よりも高い検出結果があった場合は、検出結果リスト305からその結果を取得する。また、特徴リスト306からの検索は、検出結果リスト305非登録の期間のみを対象にする。検出結果リスト305からの結果の取得は、キー探索処理であり、少メモリで高速に処理可能である。また、特徴リスト306の検索範囲を狭めたことにより、更なる検索速度高速化が可能となる。また、特徴リスト306への登録数の多い物体を検出対象リスト303に追加登録することで、監視映像301が入力されたときの処理で、該当の物体が特徴リスト306ではなく検出結果リスト305に登録されるようになる。これにより、検出結果リスト305で探索可能な物体が増え、検索高速化が可能となる。また、特徴リスト306への登録量を更に削減することが可能となり、更なるメモリ量削減、検索速度高速化が可能となる。
(変形例)
図4で説明したリスト生成処理においては、特徴リスト306に登録する特徴が少なくなるようにした。しかしながら、すべての抽出特徴を特徴リスト306に登録してもよい。このときは、図5で示す検索時に、検出結果リスト305からの検出結果の取得と、検索範囲を狭めた特徴リスト306の検索を行う。このような構成を取った場合であっても、検索速度高速化が可能である。
以下、情報処理装置100が行う上述の処理のうち、リスト生成関連の処理について、フローチャートに従って説明する。図7は、本実施形態に係る情報処理装置100が行う登録処理の一例を示したフローチャートである。実施形態1の図4のS409が無くなり、検出対象リスト303との検出結果304に因らず、常に、S410の特徴リスト306への登録が行われるようになっている。すなわち、S407で、生成部204は、最も高い類似度が閾値TH3よりも高くない場合は、S408のユーザへのアラートをスキップして、S409の特徴リスト306への登録に進む。なお、情報処理装置100が行う検索処理、および、更新処理のフローチャートは、図5、図6と同等である。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
100 情報処理装置
200 取得部
201 検出部
202 特徴抽出部
203 第一検索部
204 生成部
205 判定部
206 更新部
207 第二検索部
208 出力部

Claims (12)

  1. 映像から抽出された物体の特徴を、検出対象となる所定の物体を示す特徴と、該所定の物体を識別するためのID情報とが登録された登録リストから検索する第一の検索手段と、
    前記第一の検索手段によって前記映像から抽出された物体の特徴が前記登録リストから検出された場合に、前記映像から抽出された物体と対応する前記所定の物体の前記ID情報を少なくとも登録した第一のリストを、前記第一の検索手段によって前記映像から抽出された物体の特徴が前記登録リストから検出されなかった場合に、前記映像から抽出された物体の特徴を登録した第二のリストを、生成する生成手段と、
    前記第一のリストまたは前記第二のリストから、ユーザによって指定された注目物体を検索する第二の検索手段と、
    を有することを特徴とする情報処理装置。
  2. 前記注目物体を含むクエリ画像からクエリ特徴を取得する取得手段を更に有し、
    前記第一の検索手段は、前記取得されたクエリ特徴と、前記登録リストとに基づいて、前記登録リストから前記注目物体を検索し、
    前記第二の検索手段は、前記第一の検索手段によって前記注目物体が前記登録リストから検出された場合に、前記第一のリストから前記注目物体を検索し、前記第一の検索手段によって前記注目物体が前記登録リストから検出されない場合に、前記第二のリストから前記注目物体を検索することを特徴とする請求項1に記載の情報処理装置。
  3. 前記第二の検索手段は、前記第一の検索手段によって前記注目物体が前記登録リストから検出された場合に、前記第一のリストに前記注目物体の特徴が登録された時刻より前の期間については、前記第二のリストから前記注目物体を検索することを特徴とする請求項2に記載の情報処理装置。
  4. 前記第一の検索手段は、前記クエリ特徴と、前記登録リストに登録された物体の特徴との類似度が第一の閾値より大きい場合に、前記登録リストに登録された物体を前記注目物体として検出し、前記類似度が前記第一の閾値より小さい場合に、前記登録リストから前記注目物体を検出しないことを特徴とする請求項2または3に記載の情報処理装置。
  5. 前記第二のリストに登録された複数の特徴のうち、互いの特徴が類似するクラスタに含まれる物体の数が所定の値より大きい場合、前記クラスタに含まれる物体を前記登録リストに登録することで前記登録リストを更新する更新手段を更に有することを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。
  6. 前記更新手段は、前記第二のリストに登録された特徴の数が所定の数より多い場合に、前記登録リストを更新することを特徴とする請求項5に記載の情報処理装置。
  7. 前記更新手段は、予め指定された期間に撮像された映像が取得された場合に、前記登録リストを更新することを特徴とする請求項5または6に記載の情報処理装置。
  8. 前記生成手段は、前記第一のリストに登録された特徴のうち、同一の物体を示す特徴の数が所定の数より多い場合に、前記所定の物体の特徴との類似度がより低い特徴を前記第一のリストから削除することを特徴とする請求項1乃至7のいずれか1項に記載の情報処理装置。
  9. 前記第一の検索手段は、前記登録リストに登録された特徴のうち、前記映像から抽出された物体の特徴との類似度が第一の閾値より大きくかつ第二の閾値より小さい特徴を候補物体として、前記映像から抽出された物体の特徴との類似度が前記第二の閾値より大きい特徴を前記所定の物体として検出し、
    前記生成手段は、前記候補物体が検出された場合に、前記映像から抽出された物体の特徴または前記ID情報を前記第一のリストと前記第二のリストとに登録することを特徴とする請求項1乃至8のいずれか1項に記載の情報処理装置。
  10. 前記第二の検索手段によって前記注目物体が検出された場合に、ユーザに通知するための情報を出力する出力手段を更に有することを特徴とする請求項1乃至9のいずれか1項に記載の情報処理装置。
  11. コンピュータを、請求項1乃至10のいずれか1項に記載の情報処理装置が有する各手段として機能させるためのプログラム。
  12. 映像から抽出された物体の特徴を、検出対象となる所定の物体を示す特徴と、該所定の物体を識別するためのID情報とが登録された登録リストから検索する第一の検索工程と、
    前記第一の検索工程で前記映像から抽出された物体の特徴が前記登録リストから検出された場合に、前記映像から抽出された物体と対応する前記所定の物体の前記ID情報を少なくとも登録した第一のリストを、前記第一の検索工程で前記映像から抽出された物体の特徴が前記登録リストから検出されなかった場合に、前記映像から抽出された物体の特徴を登録した第二のリストを、生成する生成工程と、
    前記第一のリストまたは前記第二のリストから、ユーザによって指定された注目物体を検索する第二の検索工程と、
    を有することを特徴とする情報処理方法。
JP2020149008A 2020-09-04 2020-09-04 情報処理装置、情報処理方法及びプログラム Pending JP2022043631A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020149008A JP2022043631A (ja) 2020-09-04 2020-09-04 情報処理装置、情報処理方法及びプログラム
US17/410,830 US11841902B2 (en) 2020-09-04 2021-08-24 Information processing apparatus, information processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020149008A JP2022043631A (ja) 2020-09-04 2020-09-04 情報処理装置、情報処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2022043631A true JP2022043631A (ja) 2022-03-16

Family

ID=80469817

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020149008A Pending JP2022043631A (ja) 2020-09-04 2020-09-04 情報処理装置、情報処理方法及びプログラム

Country Status (2)

Country Link
US (1) US11841902B2 (ja)
JP (1) JP2022043631A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022043631A (ja) * 2020-09-04 2022-03-16 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
CN116469025B (zh) * 2022-12-30 2023-11-24 以萨技术股份有限公司 一种识别任务的处理方法、电子设备及存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4541316B2 (ja) 2006-04-06 2010-09-08 三菱電機株式会社 映像監視検索システム
US10140354B2 (en) * 2013-03-01 2018-11-27 Nec Corporation Information processing device, data processing method therefor, and recording medium
JP6431302B2 (ja) * 2014-06-30 2018-11-28 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
US10432996B2 (en) * 2014-11-07 2019-10-01 Kube-It Inc. Matching data objects to video content
US20190052925A1 (en) * 2014-11-07 2019-02-14 Kube-It Inc. Method and System for Recognizing, Analyzing, and Reporting on Subjects in Videos without Interrupting Video Play
JP6543062B2 (ja) * 2015-03-23 2019-07-10 キヤノン株式会社 画像処理装置、画像処理方法
US10242287B2 (en) * 2015-06-11 2019-03-26 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and recording medium
JP2017033547A (ja) * 2015-08-05 2017-02-09 キヤノン株式会社 情報処理装置及びその制御方法及びプログラム
JP6775343B2 (ja) * 2015-09-11 2020-10-28 キヤノン株式会社 情報処理装置及びその制御方法及びプログラム
CN106557521B (zh) * 2015-09-29 2020-07-14 佳能株式会社 对象索引方法、对象搜索方法及对象索引系统
US10949467B2 (en) * 2018-03-01 2021-03-16 Huawei Technologies Canada Co., Ltd. Random draw forest index structure for searching large scale unstructured data
US11195023B2 (en) * 2018-06-30 2021-12-07 Microsoft Technology Licensing, Llc Feature generation pipeline for machine learning
US10621649B2 (en) * 2018-08-31 2020-04-14 Realm Ip Method, non-transitory machine-readable storage medium, and system for collaborative matching
JP7431563B2 (ja) * 2019-11-28 2024-02-15 キヤノン株式会社 画像検索装置、画像検索方法、及びプログラム
JP2022043631A (ja) * 2020-09-04 2022-03-16 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
US11841902B2 (en) 2023-12-12
US20220075821A1 (en) 2022-03-10

Similar Documents

Publication Publication Date Title
US9053357B2 (en) Identifying images using face recognition
US9141184B2 (en) Person detection system
US20140254934A1 (en) Method and system for mobile visual search using metadata and segmentation
WO2014132349A1 (ja) 画像解析装置、画像解析システム、画像解析方法
US8442967B2 (en) Operator-assisted iterative biometric search
JP6254836B2 (ja) 画像検索装置、画像検索装置の制御方法およびプログラム
CN108229289B (zh) 目标检索方法、装置和电子设备
KR20170119630A (ko) 정보 처리장치, 정보 처리방법 및 기억매체
CN111581423A (zh) 一种目标检索方法及装置
JP2022043631A (ja) 情報処理装置、情報処理方法及びプログラム
CN115115825B (zh) 图像中的对象检测方法、装置、计算机设备和存储介质
CN111814690A (zh) 一种目标重识别方法、装置和计算机可读存储介质
CN113963303A (zh) 图像处理方法、视频识别方法、装置、设备及存储介质
JP6314071B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN116071569A (zh) 图像选择方法、计算机设备及存储装置
JP6341843B2 (ja) 画像検索装置、及び画像検索システム
KR101170676B1 (ko) 얼굴 인식 기반의 얼굴 검색 시스템 및 그 방법
WO2021145030A1 (ja) 映像検索システム、映像検索方法、及びコンピュータプログラム
CN113111689A (zh) 一种样本挖掘方法、装置、设备及存储介质
JP6904619B1 (ja) 検索方法
JP2019016255A (ja) 情報処理装置、プログラム及び情報処理方法
US20240013427A1 (en) Video analysis apparatus, video analysis method, and a non-transitory storage medium
WO2016139804A1 (ja) 画像登録装置、画像検索システム、画像を登録する方法
CN110019872B (zh) 索引装置和方法、对象图像检索装置和方法以及监视系统
JPH10171831A (ja) 画像ファイル検索装置

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20200924