JP2020503604A - 外観検索のシステムおよび方法 - Google Patents

外観検索のシステムおよび方法 Download PDF

Info

Publication number
JP2020503604A
JP2020503604A JP2019529970A JP2019529970A JP2020503604A JP 2020503604 A JP2020503604 A JP 2020503604A JP 2019529970 A JP2019529970 A JP 2019529970A JP 2019529970 A JP2019529970 A JP 2019529970A JP 2020503604 A JP2020503604 A JP 2020503604A
Authority
JP
Japan
Prior art keywords
image
video
learning machine
computer
signature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2019529970A
Other languages
English (en)
Other versions
JP2020503604A5 (ja
Inventor
リチャード バット
リチャード バット
アレクサンダー チャウ
アレクサンダー チャウ
ムッサ ドゥンブヤ
ムッサ ドゥンブヤ
レビ グローズマン
レビ グローズマン
ルー ホー
ルー ホー
アレクセイ リプチン
アレクセイ リプチン
ショーン ピー マーラット
ショーン ピー マーラット
シュリマナナンス サダナンド
シュリマナナンス サダナンド
ミトゥル サハ
ミトゥル サハ
マヘシュ サパリシ
マヘシュ サパリシ
ヤンヤン フー
ヤンヤン フー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Avigilon Corp
Original Assignee
Avigilon Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=62243913&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2020503604(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Avigilon Corp filed Critical Avigilon Corp
Publication of JP2020503604A publication Critical patent/JP2020503604A/ja
Publication of JP2020503604A5 publication Critical patent/JP2020503604A5/ja
Priority to JP2021171909A priority Critical patent/JP7317919B2/ja
Priority to JP2023117547A priority patent/JP2023145558A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/143Sensing or illuminating at different wavelengths
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/955Hardware or software architectures specially adapted for image or video understanding using specific electronic processors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4666Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

ある場面の映像を取り込むように構成された1つ以上のカメラを備え、映像がオブジェクトの画像を有している、外観検索システムが提供される。本システムは、1つ以上のプロセッサおよびメモリに記憶されるコンピュータプログラムコードを含むメモリを備え、1つ以上のプロセッサによって実行されたときにその1つ以上のプロセッサがある方法を実施するように構成される。本方法は、オブジェクトの画像内にある1つ以上のオブジェクトを識別することを含む。本方法はさらに、識別したオブジェクトのシグネチャを生成し、関心オブジェクトのシグネチャを生成するように構成された学習機械を実装することを含む。本システムはさらに、カメラからのオブジェクトの画像を1つ以上のプロセッサに送信するように構成されたネットワークを含む。本方法はさらに、識別したオブジェクトのシグネチャを関心オブジェクトのシグネチャと比較して識別したオブジェクトに対する類似度スコアを生成することと、類似度スコアに基づいてオブジェクトの画像の1つ以上をディスプレイに提示する命令を伝送することとを含む。

Description

関連出願
本明細書は、2016年12月5日に出願された米国仮特許出願第62/430,292号、および2017年6月30日に出願された米国仮特許出願第62/527,894号の利益を主張するものであり、両文献を参照してその全容を本願に援用する。
技術分野
本主題は、映像監視、さらに詳細には、映像監視システムの映像にある関心オブジェクトを識別することに関する。
コンピュータ実行型の視覚オブジェクト分類は、オブジェクト認識とも呼ばれ、カメラで撮影した静止画または動画に見られる実生活のオブジェクトの視覚表現を分類することに関わるものである。視覚によるオブジェクト分類を実施することによって、静止画または動画に見られる各視覚オブジェクトは、その種類(例えばヒト、車両、または動物など)に応じて分類される。
自動のセキュリティおよび監視システムでは、通常ビデオカメラまたはその他の撮像装置またはセンサを用いて映像または映像フィート数などの画像データを収集する。最も単純なシステムでは、画像データで表現された画像は、セキュリティ担当者によって同時放映用に表示され、かつ/またはセキュリティが侵害された後にあとで見直すために記録される。そのようなシステムでは、視覚的関心オブジェクトを検知し分類する作業は、人間の観察者によって行われる。システム自体がオブジェクトの検知および分類を一部であっても全部であっても実施する能力がある場合は、著しい進歩が生じる。
通常の監視システムでは、環境内で動くヒト、車両、動物などのオブジェクトを検知することに関心を寄せることがある。しかしながら、例えば子どもが大型ショッピングモールで迷子になった場合、セキュリティ担当者がその迷子の子どもに対して映像フィート数を手作業で見直すには非常に時間がかかる可能性がある。カメラで取り込んだ画像データで表現された画像内のオブジェクトのコンピュータ実行型の検知では、関連する映像セグメントをセキュリティ担当者が見直す作業を著しく容易にして、迷子の子どもを適時に発見することができる。
とは言うものの、オブジェクトを検知して認識し、どのオブジェクトが似ているのかを検知して認識するためのコンピュータ実行型の映像解析は、とりわけ所望の精度が上がるにつれて相当な計算資源を必要とする。資源の利用を最適にするために処理を分散できれば、コンピュータによる実行が容易になる。
本開示の第1の態様では、ある場面の映像を取り込むように構成された1つ以上のカメラを備え、映像がオブジェクトの画像を有している、外観検索システムが提供される。本システムは、1つ以上のプロセッサおよびメモリであって、メモリに記憶されるコンピュータプログラムコードを含み、1つ以上のプロセッサによって実行されたときにその1つ以上のプロセッサがある方法を実施するように構成される、プロセッサおよびメモリを備えている。本方法は、オブジェクトの画像内にある1つ以上のオブジェクトを識別することを含む。本方法はさらに、識別したオブジェクトのシグネチャを生成し、関心オブジェクトのシグネチャを生成するように構成された学習機械を実装することを含む。本システムはさらに、カメラからのオブジェクトの画像を1つ以上のプロセッサに送信するように構成されたネットワークを含む。本方法はさらに、識別したオブジェクトのシグネチャを関心オブジェクトのシグネチャと比較して識別したオブジェクトに対する類似度スコアを生成することと、類似度スコアに基づいてオブジェクトの画像の1つ以上をディスプレイに提示する命令を伝送することとを含む。
本システムはさらに、識別したオブジェクトから生成したシグネチャ、および映像を記憶する記憶システムを備えていてよい。
実装された学習機械は第2の学習機械であってよく、識別は、1つ以上のプロセッサによって実装された第1の学習機械によって実施されてよい。
第1および第2の学習機械は、ニューラルネットワークを含んでいてよい。ニューラルネットワークは、畳み込みニューラルネットワークを含んでいてよい。ニューラルネットワークまたは畳み込みニューラルネットワークは、訓練モデルを含む。
本システムはさらに、第1および第2の学習機械を稼働させる1つ以上のグラフィックスプロセッシングユニットを含んでいてよい。
1つ以上のカメラはさらに、映像解析を用いてオブジェクトの画像を取り込むように構成されてよい。
1つ以上のカメラはさらに、オブジェクトの分類によってオブジェクトの画像を選別するように構成されてよい。1つ以上のカメラはさらに、ヒトオブジェクトを含む1つ以上の画像を識別するように構成されてよく、ネットワークはさらに、識別した画像のみを1つ以上のプロセッサに送信するように構成されてよい。
オブジェクトの画像は、映像の画像フレームの部分を含んでいてよい。画像フレームの部分は、画像フレームの第1の画像部分を含んでいてよく、第1の画像部分は、少なくともオブジェクトを含む。画像フレームの部分は、画像フレームの第2の画像部分を含んでいてよく、第2の画像部分は、第1の画像部分よりも大きい。第1の学習機械は、第2の学習機械に対して、第2の画像部分内の1つ以上のオブジェクト、またはそのすべての輪郭を描くように構成されてよい。
1つ以上のカメラはさらに、映像からオブジェクトの画像を抜き出せるように基準座標を生成するように構成されてよい。記憶システムは、基準座標を記憶するように構成されてよい。
1つ以上のカメラはさらに、ある一定時間にわたって取り込まれた映像から1つ以上の画像を選択してオブジェクトの1つ以上の画像を得るように構成されてよい。
オブジェクトの識別は、画像にある1つ以上のオブジェクトの輪郭を描くことを含んでいてよい。
識別は、少なくとも1つの画像内の複数のオブジェクトを識別することと、少なくとも1つの画像を複数の分割画像に分割し、1つ1つの分割画像が識別したオブジェクトのうちの1つの少なくとも一部を含むこととを含んでいてよい。本方法はさらに、1つ1つの識別したオブジェクトに対し、信頼度を判定することと、信頼度が信頼要件を満たしていない場合に、識別および分割を第1の学習機械に実施させるか、または、信頼度が信頼要件を満たしている場合に、識別および分割を第2の学習機械に実施させることとを含んでいてよい。
1つ以上のカメラはさらに、信頼度を判定する1つ以上の映像解析モジュールを備えていてよい。
本開示のさらに別の態様では、ある場面の映像を取り込み、映像がオブジェクトの画像を有していることを含む方法が提供される。本方法はさらに、オブジェクトの画像内にある1つ以上のオブジェクトを識別することを含む。本方法はさらに、学習機械を用いて、識別したオブジェクトのシグネチャ、および関心オブジェクトのシグネチャを生成することを含む。本方法はさらに、識別したオブジェクトのシグネチャを関心オブジェクトの第1のシグネチャと比較することによって、識別したオブジェクトに対する類似度スコアを生成することを含む。本方法はさらに、類似度スコアに基づいてオブジェクトの1つ以上の画像をディスプレイに提示することを含む。
本方法はさらに、上記の工程または動作のいずれかを本開示の第1の態様と合わせて実施することを含んでいてよい。
本開示のさらに別の態様では、1つ以上のプロセッサで実行可能なコンピュータプログラムコードが記憶され、1つ以上のプロセッサによって実行されたときに1つ以上のプロセッサがある方法を実施するように構成される、コンピュータ可読媒体が提供される。本方法は、ある場面の映像を取り込み、映像がオブジェクトの画像を有していることを含む。本方法はさらに、オブジェクトの画像内にある1つ以上のオブジェクトを識別することを含む。本方法はさらに、学習機械を用いて、識別したオブジェクトのシグネチャ、および関心オブジェクトのシグネチャを生成することを含む。本方法はさらに、識別したオブジェクトのシグネチャを関心オブジェクトの第1のシグネチャと比較することによって、識別したオブジェクトに対する類似度スコアを生成することを含む。本方法はさらに、類似度スコアに基づいてオブジェクトの1つ以上の画像をディスプレイに提示することを含む。
1つ以上のプロセッサによって実施される方法はさらに、上記の工程または動作のいずれかを本開示の第1の態様と合わせて実施することを含んでいてよい。
本開示のさらに別の態様では、ある場面の映像を取り込むように構成された1つ以上のカメラを備えているシステムが提供される。本システムはさらに、1つ以上のプロセッサおよびメモリに記憶されるコンピュータプログラムコードを含むメモリを備え、1つ以上のプロセッサによって実行されたときにその1つ以上のプロセッサがある方法を実施するように構成される。本方法は、映像からチップを抜き出すことを含み、チップは、オブジェクトの画像を含む。本方法はさらに、少なくとも1つのチップ内にある複数のオブジェクトを識別することを含む。本方法はさらに、少なくとも1つのチップを複数の分割チップに分割することを含み、1つ1つの分割したチップは、識別したオブジェクトのうちの1つの少なくとも一部を含む。
本方法はさらに、識別したオブジェクトのシグネチャを生成して関心オブジェクトのシグネチャを生成するように構成された学習機械を実装することを含んでいてよい。学習機械は第2の学習機械であってよく、識別および分割は、1つ以上のプロセッサによって実装された第1の学習機械によって実施されてよい。本方法はさらに、1つ1つの識別したオブジェクトに対して:信頼度を判定することと、信頼度が信頼要件を満たしていない場合に、第1の学習機械による識別および分割を実施させるか、または、信頼度が信頼要件を満たしている場合に、第2の学習機械による識別および分割を実施させることとを含んでいてよい。1つ以上のカメラは、信頼度を判定する1つ以上の映像解析モジュールを備えていてよい。
少なくとも1つのチップは、少なくとも1つのパディング済チップを含んでいてよい。1つ1つのパディング済チップは、映像の画像フレームの第1の画像部分を含んでいてよい。少なくとも1つのチップはさらに、少なくとも1つのパディングしていないチップを含んでいてよい。1つ1つのパディングしていないチップは、映像の画像フレームの第2の画像部分を含んでいてよく、第2の画像部分は第1の画像部分よりも小さい。
本開示のさらに別の態様では、1つ以上のプロセッサで実行可能なコンピュータプログラムコードが記憶され、1つ以上のプロセッサによって実行されたときに1つ以上のプロセッサがある方法を実施するように構成される、コンピュータ可読媒体が提供される。本方法は、ある場面の映像を得ることを含む。本方法はさらに、映像からチップを抜き出すことを含み、チップは、オブジェクトの画像を含む。本方法はさらに、少なくとも1つのチップ内にある複数のオブジェクトを識別することを含む。本方法はさらに、少なくとも1つのチップを複数の分割チップに分割することを含み、1つ1つの分割したチップは、識別したオブジェクトのうちの1つの少なくとも一部を含む。
1つ以上のプロセッサによって実施される方法はさらに、上記の工程または動作のいずれかを上記のシステムと直に合わせて実施することを含んでいてよい。
本開示のさらに別の態様では、場面の映像を取り込み、映像がオブジェクトの画像を有している、カメラと、映像に関連するオブジェクトの画像からシグネチャを生成し、関心オブジェクトの第1の画像から第1のシグネチャを生成する学習機械を含むプロセッサと、カメラからのオブジェクトの画像をプロセッサに送信するためのネットワークと、生成したオブジェクトのシグネチャおよび関連映像を記憶する記憶システムとを備え、プロセッサはさらに、画像からのシグネチャを関心オブジェクトの第1のシグネチャと比較して類似度スコアを生成し、さらに、類似度スコアがより高いオブジェクトの画像を準備してディスプレイでユーザに提示する、外観検索システムが提供される。
いくつかの例示的な実施形態によれば、学習機械は、ニューラルネットワークである。
いくつかの例示的な実施形態によれば、ニューラルネットワークは、畳み込みニューラルネットワークである。
いくつかの例示的な実施形態によれば、ニューラルネットワークは、訓練モデルである。
いくつかの例示的な実施形態によれば、グラフィックスプロセッシングユニットは、学習機械を稼働させるために使用される。
いくつかの例示的な実施形態によれば、オブジェクトの画像は、カメラで取り込まれ、映像解析を用いてカメラで処理される。
いくつかの例示的な実施形態によればオブジェクトの画像は、プロセッサに送信される前にカメラでオブジェクトの種類を分類することによって選別される。
いくつかの例示的な実施形態によれば、プロセッサに送信されるオブジェクトの種類は、ヒトである。
いくつかの例示的な実施形態によれば、映像からオブジェクトの画像を取り込むカメラはさらに、映像内の画像の基準座標を取り込んで、その基準座標に基づいてオブジェクトの画像を映像から抜き出せるようにすることを含む。
いくつかの例示的な実施形態によれば、映像から抜き出された画像は削除され、記憶システムは、シグネチャ、基準座標、および映像を記憶する。
いくつかの例示的な実施形態によれば、映像解析は、ある一定時間にわたってオブジェクトの1つ以上の画像を選択し、その期間に取り込んだオブジェクトの画像を表現する。
本開示のさらに別の態様では、カメラによって取り込まれた映像にある関心オブジェクトに対して外観検索するコンピュータ実行型の方法であって、本方法は、カメラが撮った映像からオブジェクトの画像を抜き出すことと、オブジェクトの画像および映像をネットワーク上でプロセッサに送信することと、学習機械を用いて、オブジェクトの画像からのシグネチャをプロセッサによって生成することと、オブジェクトのシグネチャおよびオブジェクトに関連する映像を記憶システムに記憶することと、学習機械を用いて、任意の関心オブジェクトの画像からのシグネチャをプロセッサによって生成することと、プロセッサによって、記憶システムにある画像からのシグネチャを関心オブジェクトのシグネチャと比較して、1つ1つの比較に対して類似度スコアを生成することと、類似度スコアがより高いオブジェクトの画像を準備してディスプレイでユーザに提示することとを含む、方法が提供される。
本開示のさらに別の態様では、カメラによって取り込まれた映像にある関心オブジェクトに対して外観検索するコンピュータ実行型の方法であって、本方法は、カメラが撮った映像からオブジェクトの画像を抜き出すことと、オブジェクトの画像および映像をネットワーク上でプロセッサに送信することと、学習機械を用いて、オブジェクトの画像からのシグネチャをプロセッサによって生成し、オブジェクトの画像が、関心オブジェクトの画像を含むことと、オブジェクトのシグネチャおよびオブジェクトに関連する映像を記憶システムに記憶することと、記憶システムを介して関心オブジェクトの画像のインスタンスを検索することと、関心オブジェクトの画像のインスタンスに対する関心オブジェクトのシグネチャを記憶部から引き出すことと、プロセッサによって、記憶システムにある画像からのシグネチャを関心オブジェクトのシグネチャと比較して、1つ1つの比較に対して類似度スコアを生成することと、類似度スコアがより高いオブジェクトの画像を準備してディスプレイでユーザに提示することとを含む、方法が提供される。
本開示のさらに別の態様では、プロセッサによって実行されたときに、カメラによって取り込まれた映像にある関心オブジェクトを外観検索する方法であって、本方法は、カメラが撮った映像からオブジェクトの画像を抜き出すことと、オブジェクトの画像および映像をネットワーク上でプロセッサに送信することと、学習機械を用いて、オブジェクトの画像からのシグネチャをプロセッサによって生成し、オブジェクトの画像が、関心オブジェクトの画像を含むことと、オブジェクトのシグネチャおよびオブジェクトに関連する映像を記憶システムに記憶することと、記憶システムを介して関心オブジェクトの画像のインスタンスを検索することと、関心オブジェクトの画像のインスタンスに対する関心オブジェクトのシグネチャを記憶部から引き出すことと、プロセッサによって、記憶システムにある画像からのシグネチャを関心オブジェクトのシグネチャと比較して、1つ1つの比較に対して類似度スコアを生成することと、類似度スコアがより高いオブジェクトの画像を準備してディスプレイでユーザに提示することとを含む、方法をプロセッサに実施させる命令を記憶している、非一過性のコンピュータ可読記憶媒体が提供される。
詳細な説明では、以下の図面を参照する。
例示的な実施形態による映像取り込み再生システムの接続済みデバイスのブロック図である。
1つの例示的な実施形態による映像取り込み再生システムの一連の動作モジュールのブロック図である。
映像解析モジュール224、映像管理モジュール232および記憶デバイス240が1つ以上の画像取り込みデバイス108に全面的に実装されている1つの特定の例示的な実施形態の一連の動作モジュールのブロック図である。
映像取り込みデバイスによって取り込まれた映像の1つ以上の画像フレームに対して映像解析を実施する方法の例示的な実施形態の流れ図である。
映像取り込みデバイス(カメラ)によって取り込まれた映像の1つ以上の画像フレームに対して関心オブジェクトの位置を特定する外観照合を実施する方法の例示的な実施形態の流れ図である。
クライアントで外観照合を実施して関心オブジェクトが録画された映像の場所を特定するための外観検索の詳細を示す図4の例示的な実施形態の流れ図である。
クライアント420で外観照合を実施して選択した時間の前または後のいずれかで関心オブジェクトが録画された映像の場所を特定するための時間指定外観検索の詳細を示す図4の例示的な実施形態の流れ図である。
記憶される前のオブジェクトプロファイルおよび記憶するためにサイズを縮小したオブジェクトプロファイルの例示的なメタデータのブロック図である。
図4の例示的な実施形態の場面およびトリミング境界ボックスを示す図である。
1つの例示的な実施形態による映像解析モジュールの一連の動作サブモジュールのブロック図である。
1つの例示的な実施形態による特徴ベクトルを生成するための処理のブロック図である。
別の例示的な実施形態による特徴ベクトルを生成するための代替的な処理のブロック図である。
トリミング境界ボックを生成する例示的な実施形態の流れ図である。
カメラが見た画像、パディング済トリミング境界ボックス、および解析モジュールによって生成されたトリミング境界ボックスの例を示す図である。
簡略化のため、かつ説明を明瞭にするため、図面に示した要素は必ずしも原寸通りには描かれていないことが理解されるであろう。例えば、一部の要素の寸法は、明瞭にするために他の要素よりも誇張されていることがある。さらに、必要に応じて、対応する要素または同じ要素を示すために図面を通して符号が繰り返し用いられていることがある。
本明細書に記載した例示的な実施形態を徹底的に理解してもらうため、数々の具体的な詳細を記載している。しかしながら、本明細書に記載した実施形態は、これらの具体的な詳細がなくとも実施され得ることが当業者には理解されるであろう。他の事例では、本明細書に記載した実施形態を不明瞭にしないように、公知の方法、手順および構成要素を記載していない。さらに、この説明を決して本明細書に記載した実施形態の範囲を限定するものとしてとらえてはならず、むしろ本明細書に記載した様々な実施形態の実施を単に説明するものとしてとらえるべきである。
「a(1つの)」または「an(1つの)」という単語が請求項および/または明細書で「comprising(備えている)」または「including(含む)」という用語と一緒に用いられている場合、それは「1つ」を意味することがあるが、特に明記しない限り、「1つ以上の」、「少なくとも1つの」、および「1つよりも多い」の意味とも同じである。同じように、「another(別の)」という単語は、特に明記しない限り、少なくとも2つ目以降を意味することがある。
本明細書で使用した「coupled(連結した)」、「coupling(連結している)」または「connected(接続した)」という用語は、これらの用語が使用されている文脈に応じていくつかの異なる意味を持つ可能性がある。例えば、連結した、連結している、接続したという用語は、機械的または電気的な意味合いを有する可能性がある。例えば、本明細書で使用したように、連結した、連結している、接続したという用語は、特定の文脈に応じて、電気要素、電気信号または機械要素を介して、2つの要素またはデバイスが互いに直接接続されているか、1つ以上の仲介する要素またはデバイスによって互いに接続されていることを指している可能性がある。
本明細書では、画像は、複数の連続する画像フレームを包含することがあり、画像フレームは、映像撮影装置で撮影された映像を一緒に形成するものである。各画像フレームは、画素の行列で表現されてよく、各画素は画素画像値を有する。例えば、画素画像値は、グレースケールでの数値(例えば0〜255)であってもよいし、カラー画像の場合は複数の数値であってもよい。画像データの画素画像値を表すのに使用される色空間の例として、RGB、YUV、CYKM、YCBCR4:2:2、YCBCR4:2:0の画像がある。
本明細書での「メタデータ」またはその派生語は、映像内の画像などの画像のコンピュータ実行型の解析で得た情報を指す。例えば、映像の処理は、映像データの画像処理作業、解析、管理、圧縮、符号化、記憶、伝送および/または再生を含み得るが、これに限定されない。映像の解析は、画像フレーム領域のセグメント化、および視覚オブジェクトの検知、画像データで表現された撮影場面内に位置する視覚オブジェクトの追跡および/または分類を含み得る。画像データの処理で、画像データまたは画像内に取り込まれた視覚オブジェクトに関する追加情報を出力させることも可能である。例えば、そのような追加情報は、一般にはメタデータであると理解される。メタデータは、画像データの他の処理、例えば画像フレーム内で検知されたオブジェクトの周りに境界ボックスを描くなどのためにも使用され得る。
当業者には理解されるように、本明細書に記載した様々な例示的な実施形態は、方法、システム、またはコンピュータプログラム製品として具現化され得る。したがって、様々な例示的な実施形態は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)またはソフトウェアとハードウェアの側面を兼ね備えている実施形態の形態をとることが可能で、これらすべてを本明細書では総じて「回路」、「モジュール」または「システム」と称することがある。さらに、様々な例示的な実施形態は、媒体に組み込まれたコンピュータ使用可能プログラムコードを有するコンピュータ使用可能記憶媒体上のコンピュータプログラム製品の形態をとることが可能である。
何らかの適切なコンピュータ使用可能媒体またはコンピュータ可読媒体を使用してよい。コンピュータ使用可能媒体またはコンピュータ可読媒体は、例えば、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置、デバイス、または伝搬媒体であってよいが、これに限定されない。本明細書の文脈では、コンピュータ使用可能媒体またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスによって、またはこれらに接続して使用するためのプログラムを含むことができ、記憶でき、通信でき、伝搬でき、または運搬できる任意の媒体であってよい。
様々な例示的な実施形態の動作を実行するためのコンピュータプログラムコードは、Java、Smalltalk、C++、Pythonなどのオブジェクト指向プログラミング言語で書かれてよい。ただし、様々な例示的な実施形態の動作を実行するためのコンピュータプログラムコードは、従来の手続き型プログラミング言語、例えば「C」プログラミング言語または同様のプログラミング言語などで書かれてもよい。プログラムコードは、完全にコンピュータ上で、一部をコンピュータ上で、独立型のソフトウェアパッケージとして、一部をコンピュータ上でかつ一部を遠隔コンピュータ上で、または完全に遠隔コンピュータ上もしくはサーバ上で実行してよい。最後に記載した状況では、遠隔コンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を通してコンピュータに接続されてよく、あるいはこの接続は、外部コンピュータ(例えば、インターネットサービスプロバイダを利用するインターネットを通して)に対して行われてよい。
様々な例示的な実施形態を、本発明の実施形態による方法、装置(システム)およびコンピュータプログラム製品のフローチャート図および/またはブロック図を参照して以下に説明する。フローチャート図および/またはブロック図の各ブロック、およびフローチャート図および/またはブロック図にあるブロックを組み合わせたものは、コンピュータプログラム命令によって実行され得ることが理解されるであろう。これらのコンピュータプログラム命令は、機械を製造するために、汎用コンピュータ、特殊用途のコンピュータ、またはその他のプログラム可能なデータ処理装置のプロセッサに提供されてよく、それによってコンピュータのプロセッサまたはその他のプログラム可能なデータ処理装置を介して実行する命令は、フローチャートおよび/またはブロック図の1つまたは複数のブロックで指定された機能/動作を実行する手段を作り出す。
これらのコンピュータプログラム命令は、コンピュータまたはその他のプログラム可能なデータ処理装置に特定の方法で機能するよう指示できるコンピュータ可読メモリに記憶されることも可能で、それによってコンピュータ可読メモリに記憶された命令は、フローチャートおよび/またはブロック図の1つまたは複数のブロックで指定された機能/動作を実行する命令を含む製造の項目を生み出す。
コンピュータプログラム命令は、コンピュータまたはその他のプログラム可能なデータ処理装置にロードされて一連の動作工程をコンピュータまたはその他のプログラム可能な装置で実施させて、コンピュータ実行型のプロセスを生み出すことも可能であり、それによってコンピュータまたはその他のプログラム可能な装置で実行する命令は、フローチャートおよび/またはブロック図の1つまたは複数のブロックで指定された機能/動作を実行する工程を提供する。
図1を参照すると、図示されているのは、例示的な実施形態による映像取り込み再生システム100の接続デバイスのブロック図である。例えば、映像取り込み再生システム100は、映像監視システムとして使用されてよい。映像取り込み再生システム100は、本明細書に記載したプロセスおよび機能を実施するハードウェアおよびソフトウェアを備えている。
映像取り込み再生システム100は、複数の画像を取り込み、取り込んだ複数の画像を表現する画像データを生成するよう動作する映像取り込みデバイス108を少なくとも1つ備えている。映像取り込みデバイス108またはカメラ108は、画像取り込みデバイスであり、セキュリティ映像カメラを含む。
各々の映像取り込みデバイス108は、複数の画像を取り込むための少なくとも1つの画像センサ116を備えている。映像取り込みデバイス108は、デジタル映像カメラであってよく、画像センサ116は、取り込んだ光をデジタルデータとして出力してよい。例えば、画像センサ116は、CMOS、NMOS、またはCCDであってよい。いくつかの実施形態では、映像取り込みデバイス108は、符号化器に接続しているアナログカメラであってよい。
少なくとも1つの画像センサ116は、1つ以上の周波数範囲で光を取り込むよう動作し得る。例えば、少なくとも1つの画像センサ116は、実質的に可視光線の周波数範囲に相当する範囲で光を取り込むよう動作し得る。他の例では、少なくとも1つの画像センサ116は、可視光線の範囲外の光、例えば赤外線および/または紫外線の範囲内の光を取り込むよう動作し得る。他の例では、映像取り込みデバイス108は、別々の周波数範囲の光を取り込むよう動作する2つ以上のセンサを備えているマルチセンサカメラであってよい。
少なくとも1つの映像取り込みデバイス108は、専用のカメラを備えていてよい。本明細書での専用のカメラとは、主な特徴が画像または映像を取り込むことであるカメラを指すことが理解されるであろう。いくつかの例示的な実施形態では、専用のカメラは、取り込んだ画像または映像に関連する機能を実施してよく、例えばカメラまたは別の映像取り込みデバイス108によって生成された画像データを処理するなどだが、これに限定されない。例えば、専用のカメラは、監視カメラであってよく、例えばパンチルトズームカメラ、ドームカメラ、天井内カメラ、ボックスカメラ、弾丸カメラのいずれか1つであってよい。
これに加えて、またはこの代わりに、少なくとも1つの映像取り込みデバイス108は、埋め込みカメラを備えていてよい。本明細書での埋め込みカメラとは、取り込んだ画像または映像とは無関係の機能を実施するよう動作するデバイス内に埋め込まれているカメラを指すことが理解されるであろう。例えば、埋め込みカメラは、ラップトップ、タブレット、ドローンデバイス、スマートフォン、映像ゲームのコンソールまたはコントローラのいずれか1つに見られるカメラであってよい。
各々の映像取り込みデバイス108は、1つ以上のプロセッサ124、このプロセッサおよび1つ以上のネットワークインターフェースに接続している1つ以上のメモリデバイス132を備えている。メモリデバイスは、プログラム命令の実行過程で用いられるローカルメモリ(例えば、ランダムアクセスメモリおよびキャッシュメモリなど)を備えることができる。プロセッサは、コンピュータプログラム命令(例えば、オペレーティングシステムおよび/またはアプリケーションプログラムなど)を実行し、この命令はメモリデバイスに記憶され得る。
様々な実施形態では、プロセッサ124は、デジタルシグナルプロセッサ(DSP)、グラフィックスプロセッシングユニット(GPU)が埋め込まれたプロセッサなど、およびこの任意の適切な組み合わせを含む1つ以上の回路ユニットを有する任意の適切な処理回路によって実装されてよく、これらのプロセッサは、別々に動作するか平行して動作し、冗長に動作する可能性のあるものを含む。このような処理回路は、1つ以上の集積回路(IC)によって実装されてよく、モノリシック集積回路(MIC)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)など、またはこの任意の適切な組み合わせによって実装されることを含む。これに加えて、またはこの代わりに、このような処理回路は、例えばプログラマブルロジックコントローラ(PLC)として実装されてよい。プロセッサは、デジタルデータなどのメモリを記憶する回路を備えていてよく、かつメモリ回路を含むか、例えばメモリ回路と有線通信していてよい。
様々な例示的な実施形態では、プロセッサ回路に接続しているメモリデバイス132は、データおよびコンピュータプログラム命令を記憶するよう動作する。典型的には、メモリデバイスは、デジタル電子集積回路の全体または一部であるか、あるいは複数のデジタル電子集積回路から形成されている。メモリデバイスは、例えば、リードオンリーメモリ(ROM)、プログラマブルリードオンリーメモリ(PROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM)、電気消去可能なプログラマブルリードオンリーメモリ(EEPROM)、フラッシュメモリ、1つ以上のフラッシュドライブ、メモリユニットに接続しているユニバーサルシリアルバス(USB)、磁気記憶装置、光学記憶装置、光磁気記憶装置など、またはこの任意の組み合わせとして実装されてよい。メモリデバイスは、揮発メモリ、不揮発メモリ、動的メモリなどのメモリ、またはこの任意の組み合わせを記憶するよう動作してよい。
様々な例示的な実施形態では、画像取り込みデバイス108の複数の構成要素は、システムオンチップ(SOC)の中にまとめて実装されてよい。例えば、プロセッサ124、メモリデバイス116およびネットワークインターフェースは、SOCの中に実装されてよい。さらに、このように実装した場合、汎用プロセッサとGPUおよびDSPの1つ以上とは、SOCの中にまとめて実装されてよい。
引き続き図1では、少なくとも1つの映像取り込みデバイス108の各々は、ネットワーク140に接続されている。各映像取り込みデバイス108は、このデバイスが取り込む画像が表現する画像データを出力し、画像データをネットワーク上に伝送するよう動作する。
ネットワーク140は、データの送受信を行う任意の適切な通信ネットワークであってよいことが理解されるであろう。例えば、ネットワーク140は、ローカルエリアネットワーク、外部ネットワーク(例えば、WAN、またはインターネットなど)またはこの組み合わせであってよい。他の例では、ネットワーク140は、クラウドネットワークを含んでいてよい。
いくつかの例では、映像取り込み再生システム100は、処理機器148を備えている。処理機器148は、映像取り込みデバイス108によって出力された画像データを処理するよう動作する。処理機器148は、1つ以上のプロセッサおよびプロセッサ(CPU)に接続している1つ以上のメモリデバイスも備えている。処理機器148は、1つ以上のネットワークインターフェースも備えていてよい。説明の便宜上、1つの処理機器148のみを示しているが、映像取り込み再生システム100は、任意の適切な数の処理装置148を備えていてよいことが理解されるであろう。
例えば、図示したように、処理機器148は、画像データを処理するためのメモリ132またはCPU124を有していないことがある映像取り込みデバイス108に接続されている。処理機器148は、さらにネットワーク140に接続されていてよい。
1つの例示的な実施形態によれば、また図1に示したように、映像取り込み再生システム100は、少なくとも1つのワークステーション156(例えばサーバなど)を備え、その各々は、グラフィックスプロセッシングユニット(GPU)を含む1つ以上のプロセッサを有している。少なくとも1つのワークステーション156は、記憶メモリも備えていてよい。ワークステーション156は、少なくとも1つの映像取り込みデバイス108から画像データを受信し、画像データの処理を実施する。ワークステーション156は、さらに、画像取り込みデバイス108を1つ以上管理かつ/または制御するコマンドを送信してよい。ワークステーション156は、映像取り込みデバイス108から未処理の画像データを受信してよい。この代わりに、またはこれに加えてワークステーション156は、映像取り込みデバイス108および/または処理機器148での処理などの何らかの中間処理をすでに受けた画像データを受信してよい。ワークステーション156は、画像データからメタデータを受信して画像データのさらに別の処理を実施してもよい。
図1には単一のワークステーション156が示されているが、ワークステーションは複数のワークステーションの集合として実装されてよいことが理解されるであろう。
映像取り込み再生システム100は、ネットワーク140に接続している少なくとも1つのクライアントデバイス164をさらに備えている。クライアントデバイス164は、1人以上のユーザに使用されて映像取り込み再生システム100と相互作用する。したがって、クライアントデバイス164は、少なくとも1つの表示デバイスおよび少なくとも1つのユーザ入力デバイス(例えば、マウス、キーボード、またはタッチ画面など)を備えている。クライアントデバイス164はその表示デバイスに、情報を表示し、ユーザの入力内容を受信し、映像を再生するユーザインターフェースを表示するよう動作する。例えば、クライアントデバイスは、パーソナルコンピュータ、ラップトップ、タブレット、携帯情報端末(PDA)、携帯電話、スマートフォン、ゲーム機器、およびその他の移動型デバイスのいずれか1つであってよい。
クライアントデバイス164は、ネットワーク140上で画像データを受信するよう動作し、さらに、受信した画像データを再生するよう動作する。クライアントデバイス164は、画像データを処理する機能も有していてよい。例えば、クライアントデバイス164の処理機能を、受信した画像データを再生する能力に関連する処理に限定することが可能である。他の例では、画像処理機能は、ワークステーションと1つ以上のクライアントデバイス164との間で共有されてよい。
いくつかの例では、画像取り込み再生システム100は、ワークステーション156なしで実装されてよい。したがって、画像処理機能は、全面的に1つ以上の映像取り込みデバイス108で実施されてよい。その代わりに、画像処理機能は、映像取り込みデバイス108、処理機器148およびクライアントデバイス164のうちの2つ以上で共有されてよい。
次に図2Aを参照すると、図示されているのは、1つの例示的な実施形態による映像取り込み再生システム100の動作モジュールのセット200のブロック図である。動作モジュールは、図1に示したような映像取り込み再生システム100のデバイスの1つ以上にあるハードウェア、ソフトウェアまたはこの両方に実装されてよい。
動作モジュールのセット200は、少なくとも1つの映像取り込みモジュール208を含む。例えば、各映像取り込みデバイス108は、映像取り込みモジュール208を実装してよい。映像取り込みモジュール208は、映像取り込みデバイス108の1つ以上の構成要素(例えば、センサ116など)を制御して画像を取り込むよう動作する。
動作モジュールのセット200は、画像データ処理モジュールのサブセット216を含む。例えば、図示したように、画像データ処理モジュールのサブセット216は、映像解析モジュール224および映像管理モジュール232を含む。
映像解析モジュール224は、画像データを受信し、画像データを解析して、取り込んだ画像または映像の特性もしくは特徴、および/または画像または映像で表現された場面に見られるオブジェクトの特性もしくは特徴を決定する。決定内容に基づいて、映像解析モジュール224はさらに、その決定に関する情報を提供するメタデータを出力してよい。映像解析モジュール224が行う決定の例として、前景/背景のセグメント化、オブジェクト検知、オブジェクト追跡、オブジェクト分類、仮想トリップワイヤ、異常な検知、顔検知、顔認識、ナンバープレート認識、「背後にある」または「削除された」オブジェクトの識別、およびビジネスインテリジェンスのうちの1つ以上を挙げ得る。ただし、先行技術で公知の他の映像解析機能も映像解析モジュール224によって実装されてよいことが理解されるであろう。
映像管理モジュール232は、画像データを受信し、映像の伝送、再生および/または記憶に関連する画像データに対して処理機能を実施する。例えば、映像管理モジュール232は、帯域幅要件および/または容量に従って画像データの伝送が可能になるように画像データを処理できる。映像管理モジュール232は、クライアントデバイス164のディスプレイの処理能力および/または解像度など、映像を再生するクライアントデバイス164の再生能力に応じて画像データを処理することもある。映像管理モジュール232は、画像データを記憶するために映像取り込み再生システム100内の記憶容量に応じて画像データを処理することもある。
いくつかの例示的な実施形態によれば、映像処理モジュールのサブセット216は、映像解析モジュール224および映像管理モジュール232のいずれか一方のみを含むことがあることが理解されるであろう。
動作モジュールのセット200は、記憶モジュールのサブセット240をさらに含む。例えば、図示したように、記憶モジュールのサブセット240は、映像記憶モジュール248およびメタデータ記憶モジュール256を含む。映像記憶モジュール248は、画像データを記憶し、この画像データは、映像管理モジュールによって処理される画像データであってよい。メタデータ記憶モジュール256は、映像解析モジュール224から出力された情報データを記憶する。
映像記憶モジュール248およびメタデータ記憶モジュール256は、別々のモジュールとして示されているが、両者は同じハードウェア記憶デバイス内に実装されてよく、それによって記憶されたメタデータから記憶された映像を分離するための論理規則が実装されることが理解されるであろう。他の例示的な実施形態では、映像記憶モジュール248および/またはメタデータ記憶モジュール256は、分散記憶方式を実施してよい複数のハードウェア記憶デバイス内に実装されてよい。
動作モジュールのセットは、少なくとも1つの映像再生モジュール264をさらに含み、この映像再生モジュールは、画像データを受信し、画像データを映像として再生するよう動作する。例えば、映像再生モジュール264は、クライアントデバイス164に実装されてよい。
セット200の動作モジュールは、画像取り込みデバイス108、処理機器148、ワークステーション156およびクライアントデバイス164のうちの1つ以上に実装されてよい。いくつかの例示的な実施形態では、動作モジュールが単一のデバイスに全面的に実装されてよい。例えば、映像解析モジュール224は、ワークステーション156に全面的に実装されてよい。同じように、映像管理モジュール232は、ワークステーション156に全面的に実装されてよい。
他の例示的な実施形態では、セット200の動作モジュールのいくつかの機能は、一部が第1のデバイスに実装されてよく、動作モジュールの残りの機能が第2のデバイスに実装されてよい。例えば、映像解析機能は、画像取り込みデバイス108、処理機器148およびワークステーション156のうちの1つ以上で分担されてよい。同じように、映像管理機能は、画像取り込みデバイス108、処理機器148およびワークステーション156のうちの1つ以上で分担されてよい。
次に図2Bを参照すると、図示されているのは、1つの特定の例示的な実施形態による映像取り込み再生システム100の動作モジュールのセット200のブロック図であり、この実施形態では、映像解析モジュール224、映像管理モジュール232および記憶デバイス240は、1つ以上の画像取り込みデバイス108に全面的に実装される。あるいは、映像解析モジュール224、映像管理モジュール232および記憶デバイス240は、処理機器148に全面的に実装される。
画像データ(映像)処理モジュールのサブセット216を映像取り込み再生システム100の単一のデバイスまたは様々なデバイスに実装できるようにすることで、システム100の柔軟な構築が可能になることが理解されるであろう。
例えば、何らかの機能を有している特定のデバイスをそのような機能のない別のデバイスと一緒に使用することを選択してよい。これは、別々の当事者(例えば製造業者)からのデバイスを統合したり、既存の映像取り込み再生システムを取り付けたりする場合に有用となり得る。
次に図3を参照すると、図示されているのは、映像取り込みデバイス108で取り込んだ映像の1つ以上の画像フレームに対して映像解析を実施する方法350の例示的な実施形態の流れ図である。映像解析は、映像解析モジュール224によって実施されて、取り込んだ画像または映像の特性または特徴、および/または映像内に取り込まれている場面に見られる視覚オブジェクトの特性または特徴を決定する。
300では、映像の少なくとも1つの画像フレームを前景領域と背景領域とにセグメント化する。このセグメント化で、取り込まれた場面内の動いているオブジェクト(または事前に動いているオブジェクト)に対応する画像フレームの領域をその場面の静止領域から分離する。
302では、画像フレームで表現された場面内の1つ以上の前景視覚オブジェクトを300のセグメント化に基づいて検知する。例えば、何らかのばらばらに隣接している前景領域または「ブロブ(blob)」は、場面内の前景視覚オブジェクトとして識別されてよい。例えば、ある特定のサイズ(例えば画素数など)よりも大きい隣接する前景領域のみが場面内の前景視覚オブジェクトとして識別される。
検知された1つ以上の前景領域に関してさらにメタデータが生成されてよい。メタデータは、画像フレーム内で前景視覚オブジェクト、またはオブジェクトの位置、基準座標を規定してよい。例えば、位置メタデータをさらに使用して、検知した前景視覚オブジェクトの輪郭を示す境界ボックス(例えば映像を符号化するとき、または映像を再生するときなど)を生成してよい。境界ボックス内の画像は、抜き出され、トリミング境界ボックス(「チップ」とも呼ぶ)と呼ばれてメタデータに含められ、このメタデータは、関連する映像と共に、ネットワーク140上のワークステーション156などの他のデバイスでさらに処理されてよい。要するに、トリミング境界ボックス、またはチップは、検知した前景視覚オブジェクトが入っている映像の画像フレームを切り取った一部である。抜き出された画像は、トリミング境界ボックスであり、境界ボックス内にあるものより小さくても境界ボックス内のものより大きくてもどちらでもよい。抜き出される画像のサイズは、例えば検知されたオブジェクトの実際の境界に近いものであるべきだが、それを超えてはならない。境界ボックスは通常は矩形だが、オブジェクトの輪郭とほぼ同じである不規則な形状であってもよい。境界ボックスは、例えばヒトオブジェクトの境界(輪郭)にほぼ沿ったものでもよい
さらに別の実施形態では、抜き出した画像のサイズは、検知したオブジェクトの実際の境界よりも大きく、本明細書では、パディング済トリミング境界ボックスと称する(「パディング済チップ」とも呼ぶ)。パディング済トリミング境界ボックスは、例えば、検知した前景視覚オブジェクトに近い、またはこれと重なるオブジェクトの全体または一部を含むように、境界ボックスの2倍の領域であってよい。さらに明確にすると、パディング済トリミング境界ボックスは、境界ボックス内のオブジェクトの画像のトリミング境界ボックスよりも大きい画像を有する(本明細書ではパディングしていないトリミング境界ボックスと称する)。明確にすると、本明細書で用いるトリミング境界ボックスには、パディング済トリミング境界ボックスと、パディングしていないトリミング境界ボックスとがある。パディング済トリミング境界ボックスの画像サイズは、やや大きいもの(例えば10%大きい)からかなり大きいもの(例えば1000%大きい)までサイズが変化してよいことが理解されるであろう。
本明細書の実施形態では、パディング済トリミング境界ボックスは、パディングしていないトリミング境界ボックスを拡大して余分な画素を含んでいるが元のパディングしていないトリミング境界ボックスの基準座標を依然として維持しているものとして記載されているが、この拡大または余分な画素は、垂直軸の代わりに水平軸でさらに追加されてよい。さらに、余分な画素の拡大は、オブジェクトに関する軸周りに対称であっても非対称であってもよい。パディングしていないトリミング境界ボックスのオブジェクトは、パディング済トリミング境界ボックスの中心にもパディングしていないトリミング境界ボックスの中心にもあってよいが、いくつかの実施形態ではこのようなオブジェクトが中心からずれていてよい。
いくつかの実施形態では、パディング済トリミング境界ボックスおよびパディングしていないトリミング境界ボックスを包含するトリミング境界ボックスは、映像の画像フレームから実際に抜き出した画像の代わりに、映像の画像フレームの基準座標であってよい。トリミング境界ボックスの画像は、その場合、必要なときに画像フレームから抜き出されてよい。カメラ108が見た画像、パディング済トリミング境界ボックス、およびパディング済トリミング境界ボックスから生じたトリミング境界ボックスの例は、映像解析モジュール224に送信され、映像解析モジュールは、例えばトリミング境界ボックスをサーバ上で処理してよい。
検知した1つ以上の前景視覚オブジェクトの1つ1つを視覚により識別するために、画像フレームに視覚インジケータを追加してよい。視覚インジケータは、画像フレーム内にある1つ以上の前景視覚オブジェクトの1つ1つを取り囲む境界ボックスであってよい
いくつかの例示的な実施形態では、映像解析は、302で検知した前景視覚オブジェクト(またはオブジェクト)を分類することを304でさらに含んでいてよい。例えば、前景視覚オブジェクトを分類するためにパターン認識が行われてよい。前景視覚オブジェクトは、人物、車または動物などのクラスに分類されてよい。これに加えて、またはこの代わりに、視覚オブジェクトは、視覚オブジェクトの動きおよび動く方向などの行為によって分類されてよい。色、サイズ、向きなど、他の分類要素が決定されてもよい。さらに具体的な例では、視覚オブジェクトの分類は、顔検知に基づく人物識別およびナンバープレートなどの文字認識を含んでいてよい。視覚による分類は、共同所有の米国特許第8,934,709号に記載されているシステムおよび方法に従って実施されてよく、同文献を参照してその全容を本願に援用する。
映像解析は、306で、イベントが起きたがどうか、およびそのイベントの種類を検知することをさらに含んでいてよい。イベントの検知は、1つ以上の前景視覚オブジェクトの分類を1つ以上の所定規則と比較することに基づいていてよい。イベントは、異常な検知またはビジネスインテリジェンスにあってよく、例えば映像のトリップワイヤが起動されたかどうか、1つの領域にいる人物の数、場面内のオブジェクトが「背後にある」かどうか、または場面内のオブジェクトが削除されたかどうかなどである。
306での映像解析の一例が、ヒトのみを検知する設定であってよく、それを検知すると、ヒトオブジェクトのトリミング境界ボックスを抜き出し、トリミング境界ボックスの1つ1つの基準座標と共にメタデータに含め、このメタデータは、関連する映像と共に、ネットワーク140上のワークステーション156などの他のデバイスでさらに処理されてよい310。
次に図4を参照すると、図示されているのは、映像取り込みデバイス108(カメラ108)で取り込んだ映像の1つ以上の画像フレームにある関心オブジェクトの位置を特定するために外観照合を実施する方法400の例示的な実施形態の流れ図である。映像は、ある時間にわたってカメラ108によって取り込まれる。時間は、数時間、数日、または数ヶ月にわたることがあり、複数の映像ファイルまたはセグメントに及ぶことがある。本明細書で使用している「映像」の意味は、時間を示唆するものを含み、2つ以上のカメラがある場合にどのカメラ108かを識別する関連メタデータを含む映像ファイルおよび映像セグメントを包含している。映像の処理は、複数の段階に分けられ、関心のあるオブジェクト(または人物)を後で検索するための資源利用および索引付けを最適化するよう分散される。検索中にそのような関心のある人物が見つかった映像は、その場合、ユーザに見直されてよい。
場面402の映像は、カメラ108に取り込まれる。場面402は、カメラ108の視野の中にある。映像は、カメラ108内の映像解析モジュール224によって処理されてトリミング境界ボックス404を含むメタデータを生成する。映像解析モジュール224は、オブジェクトの検知および分類を実施し、場面402内のオブジェクトを最もよく表現している映像から画像(トリミング境界ボックス)も生成する。この例では、人またはヒトとして分類されたオブジェクトの画像は、映像から抜き出され、さらに識別処理するためにトリミング境界ボックス404としてメタデータに含まれる。トリミング境界ボックス404を含むメタデータおよび映像は、ネットワーク140上でサーバ406に送られる。サーバ406は、ワークステーション156またはクライアントデバイス164であってよい。
サーバ406には、トリミング境界ボックス108および生成された特徴ベクトル(または「シグネチャ」または「バイナリ表現」)410をさらに処理して408場面402内のオブジェクトを表現するための遙かに多くの資源がある。処理408は、例えば先行技術では特徴記述子として知られている。
コンピュータのビジョンでは、画像を撮って画像変換を介して特徴記述または特徴ベクトルを出力するアルゴリズムとしての特徴記述子が一般に知られている。特徴記述子は、情報すなわち画像を一連の数字に符号化して、特徴を互いに区別するために使用できる数字の「指紋」として機能する。この情報は、同じオブジェクト内の別の画像内で特徴を再度見つけられるように、画像変換を受けても不変であることが理想である。特徴記述子のアルゴリズムの例として、SIFT(Scale−invariant feature transform、スケール不変特徴変換)、HOG(histogram of oriented gradients、配向勾配のヒストグラム)、およびSURF(Speeded Up Robust Features、高速化ロバスト特徴)がある。
特徴ベクトルとは、コンピュータで処理できるオブジェクトの画像を表現する数値的特徴(数字)のn次元ベクトルである。1つのオブジェクトの1つの画像の特徴ベクトルを別の画像の特徴ベクトルと比較することによって、コンピュータで実行可能な処理で、その1つの画像と別の画像とが同じオブジェクトの画像であるかどうかを判断し得る。画像シグネチャ(または特徴ベクトル、または埋め込み、または表現など)は、(例えば畳み込みの)ニューラルネットワークで計算された多次元ベクトルである。
カメラ108によって取り込まれた2つの画像の2つの特徴ベクトルの間のユークリッド距離を計算することによって、コンピュータで実行可能な処理が、2つの画像がどれだけ類似している可能性があるかを示す類似度スコアを決定できる。ニューラルネットワークは、ニューラルネットワークが画像用に算出する特徴ベクトルが、類似画像に対しては近く(ユークリッド距離が短い)、非類似画像に対しては遠く(ユークリッド距離が長い)なるように訓練される。関連画像を引き出すために、クエリ画像の特徴ベクトルは、データベース414内の画像の特徴ベクトルと比較される。検索結果は、クエリ画像までのその距離(0から1の間の値)の昇順で示されてよい。類似度スコアは、例えば0から1の間の値から変換されたパーセンテージであってよい。
この例示的な実施形態では、処理408は、学習機械を用いてトリミング境界ボックス404を処理し、映像に取り込まれたオブジェクトの画像の特徴ベクトルまたはシグネチャを生成する。学習機械は、例えばグラフィックスプロセッシングユニット(GPU)上で動作する畳み込みニューラルネットワーク(CNN)などのニューラルネットワークである。CNNは、類似画像と非類似画像との対が無数に入っている訓練データセットを用いて訓練されてよい。CNNは、例えば、ニューラルネットワークを訓練するために対照的な損失関数を用いて訓練されたシャムネットワークのアーキテクチャである。シャムネットワークの一例が、Bromley,Jane,et al.「Signature verification using a 「Siamese」 time delay neural network」、International Journal of Pattern Recognition and Artificial Intelligence 7.04(1993):669−688に記載されており、この内容を参照してその全容を本願に援用する。
処理408は、訓練モデルを、外観検索システムが使用される前にすべての訓練が行われるバッチ学習として知られているものを活用する。訓練モデルは、この実施形態では、1つの可能なパラメータ群を含む畳み込みニューラルネットワーク学習モデルである。所与の学習モデルに対して可能なパラメータ群は無限にある。目的関数(AKA損失関数)を最小にするパラメータ群を見つけるために最適化法(確率的勾配降下法など)、および数の勾配計算法(バックプロパゲーションなど)を用いてよい。対照的な損失関数は目的関数として使用される。この関数は、現在の訓練モデルの精度が低い場合に高い値を取り(類似の対に長い距離を割り当て、または非類似の対に短い距離を割り当てる)、現在の訓練済みモデルの精度が高い場合に低い値を取る(類似の対に短い距離を割り当て、非類似の対に長い距離を割り当てる)ように定義される。訓練処理は、このように最小の問題に軽減される。精度が最も高いモデルを見つける処理は訓練処理であり、パラメータ群を含む仕上がりモデルは訓練済みモデルであり、パラメータ群は、外観検索システムに展開されたあとは変更されない。
処理部408に対する代替の実施形態は、オンライン機械学習アルゴリズムとして知られているものを用いて学習機械を活用することである。学習機械は、処理部408で最初のパラメータ群を用いて活用されるが、外観検索システムは、何らかの真実の源(例えば、関心オブジェクトの画像を選択した際のユーザフィードバック)に基づいてモデルのパラメータを更新し続ける。このような学習機械は、他の種類のニューラルネットワークも畳み込みニューラルネットワークも含んでいてよい。
ヒトオブジェクトのトリミング境界ボックス404は、処理部408によって処理されて特徴ベクトル410を生成する。特徴ベクトル410は、索引付けされ412、映像と共にデータベース414に記憶される。特徴ベクトル410は、ヒトオブジェクトのトリミング境界ボックス404が映像内のどこに位置し得るかについての基準座標にも関連付けられる。データベース414の記憶は、タイムスタンプおよびカメラの識別情報のほか、トリミング境界ボックス404の特徴ベクトル410と、トリミング境界ボックス404が映像内のどこに位置し得るかについての基準座標とを含む関連メタデータも一緒に映像を記憶することを含む。
映像内の特定の人物の位置を特定するため、関心人物の特徴ベクトルが生成される。関心人物の特徴ベクトルに類似特徴ベクトル416がデータベース414から抜き出される。抜き出された特徴ベクトル416は、閾値の類似度スコアと比較され418、その閾値を超えているものは、ユーザに提示するためにクライアント420に提供される。クライアント420は、抜き出された特徴ベクトル416に関連する映像をユーザが見られるように映像再生モジュール264も有する。
さらに詳細には、訓練済みモデルは、計算された特徴ベクトルと比較するために使用される所定の距離関数を用いて訓練されている。訓練済みモデルが外観検索システムで活用されるときは同じ距離関数を使用する。距離関数は、特徴ベクトルが単位ノルムを有するように正規化されている特徴ベクトルどうしの間のユークリッド距離であるため、特徴ベクトルはすべて単位ノルムの超球上にある。データベースにある検知されたオブジェクトの特徴ベクトルを計算して記憶した後、正確な最近傍検索を用いて類似オブジェクトの検索が行われ、照会された特徴ベクトル(関心オブジェクトの特徴ベクトル)から対象となる時間フレームにある他の全ベクトルまでの距離を徹底的に評価する。検索結果は、照会された特徴ベクトルまでの距離の降順でランク付けされて返される。
別の実施形態では、近似最近傍検索を使用してよい。近似最近傍検索は、最近傍検索「そのもの」に似ているが、すべての結果を見ずに最も類似性が高い結果を引き出す。こちらの方が速いが、誤検知を招くおそれがある。近似最近傍の一例では、特徴ベクトルのハッシングの索引付けを用いることがある。検索時間フレームが長いときなど、特徴ベクトルの数が多い場合に近似最近傍検索の方が速いことがある。
さらに正確に言うと、「関心オブジェクト」は「関心人物」を包含し、「関心人物」は「関心オブジェクト」を包含することが理解されるであろう。
次に図5を参照すると、図示されているのは、図4の例示的な実施形態の流れ図であり、クライアント420で外観照合を実施して関心オブジェクトの録画映像の場所を特定する外観検索500の詳細を示している。関心オブジェクトに対する外観検索を開始するには、類似の特徴ベクトルに対してデータベース414を検索するために関心オブジェクトの特徴ベクトルが必要である。外観検索500には、外観検索を開始する2つの例示的な方法が示されている。
外観検索500を開始する第1の方法では、関心オブジェクトの画像をクライアント420で受信し502、クライアントではそれを処理部408に送信して関心オブジェクトの特徴ベクトルを生成する504。第2の方法では、ユーザは、関心オブジェクトの画像に対するデータベース414を検索し514、データベース414に記憶するために映像が処理されていたときに事前に生成されていた関心オブジェクトの特徴ベクトルを引き出す516。
次に、第1の方法または第2の方法のいずれかから、関心オブジェクトの特徴ベクトルと比較して、閾値を超えていて例えば70%となることがある類似度スコアを有する候補特徴ベクトルに対してデータベース414の検索506を行う。候補特徴ベクトルの画像を受信し508、その後クライアント420でユーザに提示して、関心オブジェクトのものであるか、関心オブジェクトのものである可能性がある候補特徴ベクトルの画像を選択する510。クライアント420は、リスト内の選択された画像を追跡する。ユーザが選択した画像を含むリストは、関心オブジェクトのものである。任意選択として、ユーザは選択510のところで、ユーザがリストから選択して後に不適当と思われた画像を削除してもよい。
関心オブジェクトの新たな1つの画像(または複数の画像)を選択510で選択するたびに、新たな画像の特徴ベクトルがデータベース414で検索され506、関心オブジェクトの新たな候補画像がクライアント420でユーザに提示されて、関心オブジェクトのものであるか、関心オブジェクトのものである可能性がある新たな画像を再度選択する510。この外観検索の検索ループ500は、関心オブジェクトの十分な画像を特定したとユーザが判断して検索512を終了するまで続いてよい。次にユーザは、例えば、リストにある画像に関連する映像を見るかダウンロードしてよい。
次に図6を参照すると、図示されているのは、図4の例示的な実施形態の流れ図であり、クライアント420で外観照合を実施して選択した時間の前または後のいずれかで関心オブジェクトの録画映像の場所を特定する時間指定外観検索600の詳細を示している。この種の検索は、例えば、現時刻に近い画像を特定することによって紛失した鞄の場所を突き止め、時間を遡って追跡して誰が鞄を置き忘れた可能性があるかを突き止めるのに有用である。
関心オブジェクトの外観検索を開始するには、類似の特徴ベクトルに対してデータベース414を検索するために関心オブジェクトの特徴ベクトルが必要である。時間指定外観検索600には、外観検索500のように、時間指定外観検索を開始する2つの例示的な方法が示されている。外観検索600を開始する第1の方法では、関心オブジェクトの画像をクライアント420で受信し602、クライアントではそれを処理部408に送信して関心オブジェクトの特徴ベクトルを生成する604。第2の方法では、ユーザは、関心オブジェクトの画像に対するデータベース414を検索し614、データベース414に記憶する前に映像が処理されたときに事前に生成されていた関心オブジェクトの特徴ベクトルを引き出す616。
第1の方法または第2の方法のいずれかから、時間指定外観検索600は、時間を前向きまたは後ろ向きのいずれかで検索するよう設定される618。第1の方法では、ユーザが手動で検索時間を設定してよい。第2の方法では、検索開始時刻は、画像がカメラ108によって取り込まれた時刻に設定される。この例では、時間指定外観検索600は、例えば現時刻により近いところで迷子を突き止めるために時間を前向きに検索するよう設定される。別の例では、時間指定外観検索600は、ユーザが例えば誰が鞄(関心オブジェクト)を置き忘れたかを明らかにしたいと思った場合に時間を後ろ向きに検索するよう設定されてよい。
次に、関心オブジェクトの特徴ベクトルと比較して、閾値を超えていて例えば80%となることがある類似度スコアを有する候補特徴ベクトルに対して、検索時刻から時間を前向きにデータベース414の検索606を行う。候補特徴ベクトルの画像を受信し608、その後クライアント420でユーザに提示して、関心オブジェクトのものであるか、関心オブジェクトのものである可能性がある候補特徴ベクトルの画像から1つの画像を選択する610。クライアント420は、リスト内の選択された画像を追跡する。リストは、ユーザが選択した画像を関心オブジェクトのものとして含む。任意選択として、ユーザは選択610のところで、ユーザがリストから選択して後に不適当と思われた画像を削除してもよい。
関心オブジェクトの新たな画像を選択610で選択するたびに、新たな画像の特徴ベクトルが検索時刻から時間を前向きにデータベース414で検索される606。検索時刻は、新たな画像がカメラ108によって取り込まれた時刻である。関心オブジェクトの新たな候補画像は、クライアント420でユーザに提示されて、関心オブジェクトのものであるか、関心オブジェクトのものである可能性がある別の新たな画像を再度選択する610。この時間指定外観検索の検索ループ600は、関心オブジェクトの十分な画像を特定したとユーザが判断して検索612を終了するまで続いてよい。次にユーザは、例えば、リストにある画像に関連する映像を見るかダウンロードしてよい。この例は時間を前向きに検査するものだが、時間を後ろ向きに検索するのは、データベース414の検索が検索時刻から遡る的中事項、または検索時刻よりも前に起きた的中事項を対象に選別されるという点を除いては結果的にほぼ同じである。
次に図7を参照すると、図示されているのは、カメラ108によってサーバ406に送信されたときのトリミング境界ボックス404を含むオブジェクトプロファイル702のメタデータの一例と、画像706(トリミング境界ボックス404)に代わって、データベース414に記憶するためにトリミング境界ボックス404の特徴ベクトル708を含むオブジェクトプロファイル704の一例とのブロック図である。画像706のファイルサイズは特徴ベクトル708のファイルサイズよりも大きいため、画像706の代わりに特徴ベクトル708を含むオブジェクトプロファイル704を記憶することによって記憶スペースをいくらか節約できる。その結果、データ記憶領域を大幅に節約できる。なぜならトリミング境界ボックスはかなり大きく多数であることが多いからである。
オブジェクトプロファイル702およびオブジェクトプロファイル704のデータ710は、例えば、タイムスタンプ、フレーム番号、場面の幅および高さを基準とする画素単位の解像度、画素単位での幅および高さを基準とするこのフレームのセグメンテーションマスク、ならびにバイト単位の行幅を基準とするストライド、分類(人物、車両、その他)、分類のパーセント単位の信頼度、正規化したセンサ座標での幅および高さを基準とするボックス(縁取ったオブジェクトを囲んでいる境界ボックス)、画素単位での画像の幅および高さと画像のストライド(バイト単位の行幅)、画像のセグメンテーションマスク、向き、ならびに画像ボックスのxy座標などの内容を含む。特徴ベクトル708は、例えば48次元、すなわち48の浮動小数点数の画像706のバイナリ表現(0と1で構成されている場面でのバイナリ)である。次元数は、特徴ベクトルを生成するのに使用される学習機械に応じてこれよりも大きくても小さくてもよい。次元が高いほど一般には精度が高いが、必要とされる計算資源も極めて高くなることがある。
トリミング境界ボックス404または画像706は、基準座標を用いて録画映像から再度抜き出せるため、トリミング境界ボックス404を映像に追加して保存する必要はない。基準座標は、例えば、タイムスタンプ、フレーム番号、およびボックスを含んでいてよい。例として、基準座標は、単に関連する映像ファイルを含むタイムスタンプであり、タイムスタンプが元の画像フレームに遡るのに十分な精度を有している場合と、タイムスタンプが元の画像フレームに遡るのに十分な精度を有していない場合とでは、元の画像フレームに近い画像フレームで十分よいことがある。なぜなら映像内で時間的に近い画像フレームは一般によく似ているからである。
この例示的な実施形態では、特徴ベクトルを画像に代えたオブジェクトプロファイル704を有するが、他の実施形態では従来の方法を用いて圧縮した画像を有していてよい。
次に図8を参照すると、図示されているのは、図4の例示的な実施形態の場面402およびトリミング境界ボックス404である。場面402には、検知された3人が示されている。彼らの画像802、806、808は、カメラ108で抜き出され、トリミング境界ボックス404としてサーバ406に送信される。画像802、806、808は、ある時間にわたって映像にある3人の代表画像である。映像内の3人は動いていて、それに伴い取り込まれた彼らの画像は、ある一定時間にわたって違ったものになる。画像を管理可能な数になるよう選別するため、代表的な1つの画像(または複数の画像)をトリミング境界ボックス404として選択してさらに処理する。
次に図9を参照すると、図示されているのは、1つの例示的な実施形態による映像解析モジュール224の動作サブモジュール一式のブロック図である。映像解析モジュール224は、様々なタスクを実行するいくつかのモジュールを含む。例えば、映像解析モジュール224は、映像取り込みデバイス108の視野に現れているオブジェクトを検知するオブジェクト検知モジュール904を含む。オブジェクト検知モジュール904は、例えば動き検知およびブロブ検知など、任意の公知のオブジェクト検知方法を用いてよい。オブジェクト検知モジュール904は、「Methods and Systems for Detecting Objects of Interest in Spatio−Temporal Signals」と題する米国特許第7,627,171号に記載のシステムを含んで同文献に記載の検知方法を用いてよく、同文献の全容を参照して本願に援用する。
映像解析モジュール224は、オブジェクト検知モジュール904に接続または連結しているオブジェクト追跡モジュール908も含む。オブジェクト追跡モジュール908は、オブジェクト検知モジュール908によって検知されたオブジェクトのインスタンスを時間に関連づけるよう動作する。オブジェクト追跡モジュール908は、「Object Matching for Tracking,Indexing,and Search」と題する米国特許第8,224,029号に記載のシステムを含んで同文献に記載の検知方法を用いてよく、同文献の全容を参照して本願に援用する。オブジェクト追跡モジュール908は、同モジュールが追跡する視覚オブジェクトに対応するメタデータを生成する。メタデータは、オブジェクトの外観またはその他の特徴を表現する視覚オブジェクトのシグネチャに対応していてよい。メタデータは、処理するためにサーバ406に伝送される。
映像解析モジュール224は、オブジェクト検知モジュール904で検知したオブジェクトを分類してオブジェクト追跡モジュール908に接続するオブジェクト分類モジュール916も含む。オブジェクト分類モジュール916は、瞬間的オブジェクト分類モジュール918および一時的オブジェクト分類モジュール912を内部に含んでいてよい。瞬間的オブジェクト分類モジュール918は、オブジェクトの単一のインスタンスに基づいて視覚オブジェクトの種類(例えば、ヒト、車両、または動物など)を判定する。瞬間的オブジェクト分類モジュール916への入力は、画像フレーム全体ではなく視覚関心オブジェクトが位置している画像の下位領域(例えば境界ボックス内)であることが好ましい。画像フレームの下位領域を分類モジュール916に入力する利点は、分類のために場面全体を解析する必要がないために必要な処理力が少ないことである。映像解析モジュール224は、例えばヒト以外のあらゆるオブジェクトの種類を選別してさらに処理してよい。
一時的オブジェクト分類モジュール912は、オブジェクトのクラス(例えば、ヒト、車両、または動物など)情報をある一定時間にわたって維持してもよい。一時的オブジェクト分類モジュール912は、瞬間的オブジェクト分類モジュール918から提供されたオブジェクトの瞬間的なクラス情報を、オブジェクトが存在している間のある一定時間にわたって平均する。換言すると、一時的オブジェクト分類モジュール912は、複数のフレームにあるオブジェクトの外観に基づいてオブジェクトの種類を判定する。例えば、ある人の歩き方の足取りを分析すると、人を分類するのに有用となり得るし、あるいは人の足を分析するとサイクリストを分類するのに有用となり得る。一時的オブジェクト分類モジュール912は、オブジェクトの軌跡に関する情報(例えば、軌跡が滑らかであるか無秩序であるか、またはオブジェクトが動いているか止まっているかなど)と、複数のフレームにわたって平均された瞬間的オブジェクト分類モジュール918によって行われた分類の信頼情報とを組み合わせてよい。例えば、オブジェクト分類モジュール916によって判定される分類信頼値は、オブジェクトの軌跡の滑らかさに基づいて調整されてよい。一時的オブジェクト分類モジュール912は、視覚オブジェクトが瞬間的オブジェクト分類モジュール918によって十分な回数分類されて所定数の統計が収集されるまで、オブジェクトを未知のクラスに割り当ててよい。オブジェクトを分類する際、一時的オブジェクト分類モジュール912は、オブジェクトがどのくらいの時間にわたって視野にあったかも計算に入れてよい。一時的オブジェクト分類モジュール912は、前述した情報に基づいてオブジェクトのクラスに関して最終決定を下してよい。一時的オブジェクト分類モジュール912は、オブジェクトのクラスを変更するためにヒステリシス手法を用いてもよい。さらに詳細には、オブジェクトの分類を未知のクラスから確定したクラスに移すために閾値を設定してよく、その閾値は、逆に移す(例えば、ヒトから未知にするなど)ための閾値よりも大きくてよい。オブジェクト分類モジュール916は、オブジェクトのクラスに関するメタデータを生成してよく、メタデータは、データベース414に記憶されてよい。一時的オブジェクト分類モジュール912は、瞬間的オブジェクト分類モジュール918によって行われた分類を集約してよい。
代替構成では、オブジェクト分類モジュール916は、オブジェクト分類がオブジェクト追跡よりも前に起こるようにオブジェクト検知モジュール904の後かつオブジェクト追跡モジュール908の前に配置される。別の代替構成では、オブジェクト検知モジュール、追跡モジュール、一時的分類モジュール、および分類モジュール904、908、912、および916は、前述したように相関している。さらに他の代替実施形態では、映像解析モジュール224は、(先行技術で公知の)顔認識を用いてヒトの画像にある顔を検知し、それに応じた信頼度を提供してよい。このような実施形態の外観検索システムは、図8に示したようにヒト全体の代わりに顔の画像の特徴ベクトルまたはトリミング境界ボックスを使用することを含んでいてよい。このような顔の特徴ベクトルは、単独で使用してもよいし、オブジェクト全体の特徴ベクトルと合わせて使用してもよい。さらに、オブジェクトの一部の特徴ベクトルも同じように、単独で使用してもよいし、オブジェクト全体の特徴ベクトルと合わせて使用してもよい。例えば、オブジェクトの一部とは、ヒトの耳の画像であってよい。個体を識別する耳の認識は、先行技術で公知である。
映像の各画像フレームでは、映像解析モジュール224は、オブジェクトを検知し、各オブジェクトの画像を抜き出す。これらの画像から選択された画像を、オブジェクトの最終物と称する。オブジェクトの最終物は、場面にオブジェクトが存在している間に1つ1つのオブジェクトの視覚的外観が最良である表現を選択するよう意図されたものである。最終物を使用してシグネチャ/特徴ベクトルを抜き出し、このシグネチャ/特徴ベクトルをさらに使用して他の最終物を照会し、外観検索を設定する際に最も近い一致を引き出すことができる。
オブジェクトの最終物は、オブジェクトの存在期間の1つ1つのフレームで生成できることが理想である。これが行われた場合、映像の1秒間でさえ多くの画像フレームがあるため、外観検索を実際に実用するには計算要件が高すぎることがある。以下は、計算要件を軽減するために、ある一定時間にわたってオブジェクトを表現するオブジェクトの可能な最終物を選別する、またはオブジェクトの可能性のある画像から一画像を選択する一例である。
オブジェクト(ヒト)が場面402に入ってくると、オブジェクト検知モジュール904によってオブジェクトとして検知される。次にオブジェクト分類モジュール916は、そのオブジェクトがヒトであるとする信頼度を有するオブジェクトをヒトまたは人物として分類する。オブジェクトは、カメラ108に取り込まれた映像の1つ1つの画像フレームを通して、オブジェクト追跡モジュール908によって場面402内を追跡される。オブジェクトは、追跡されるときの追跡番号によって識別されてもよい。
各画像フレームでは、オブジェクトを囲んでいる境界ボックス内にあるオブジェクトの画像が画像フレームから抜き出され、画像はトリミング境界ボックスである。オブジェクト分類モジュール916は、例えば、各画像フレームに対してオブジェクトがヒトであるとする信頼度を提供する。さらに他の例示的な実施形態として、オブジェクト分類モジュール916が、オブジェクトが(例えば)ヒトであるとする分類に比較的低い信頼度を提供した場合、パディング済トリミング境界ボックスが抜き出され、それによってより計算力の強いオブジェクト検知および分類モジュール(例えば処理408)がサーバで、特徴ベクトルが生成される前に、オブジェクトのパディング済トリミング境界ボックスを解像する。より計算力の強いオブジェクト検知および分類モジュールは、重なっているか密に隣接している別のオブジェクトからオブジェクトを解像または抜き出す別のニューラルネットワークであってよい。特徴ベクトルが生成される前に、トリミング境界ボックスまたはパディング済トリミング境界ボックスのどれをさらに処理して境界ボックス内にある他のオブジェクトなどの問題を解決すべきかを示すために、比較的低い信頼度(例えば50%)を使用してもよい。映像解析モジュール224は、ある特定数のトリミング境界ボックスのリストを維持し、例えばオブジェクトとしての信頼度が最も高い上位10個のトリミング境界ボックスを場面402内で追跡する。オブジェクト追跡モジュール908がオブジェクトの追跡し損なったとき、またはオブジェクトが場面から出たとき、トリミング境界ボックス404は、前景画素(またはオブジェクト画素)が最多数であるオブジェクトを示す10個のトリミング境界ボックスのリストから選択される。トリミング境界ボックス404は、メタデータと一緒にサーバ406に送信されてさらに処理される。トリミング境界ボックス404は、この追跡期間にわたるオブジェクトの画像を表現する。信頼度は、オブジェクトが影にまたがっているときなど、オブジェクトが良好な画像ではない可能性があるトリミング境界ボックスを棄却するのに使用される。その代わりに、上位10個のトリミング境界ボックスのリストから2つ以上のトリミング境界ボックスを選び抜いてサーバ406に送信してもよい。例えば、最も高い信頼度を基準に選択した別のトリミング境界ボックスも送信してよい。
上位10個のトリミング境界ボックスのリストは、1つの実施形態である。その代わりに、このリストは、さらに他の例として、5個のみのトリミング境界ボックスまたは20個のトリミング境界ボックスとすることもできる。さらに、トリミング境界ボックスのリストからのトリミング境界ボックス404としてトリミング境界ボックスを選択することは、追跡し損なった跡だけではなく定期的に行われてよい。あるいは、リストからのトリミング境界ボックスの選択は、最大数のオブジェクト画素に基づく代わりに最も高い信頼度に基づくものであってよい。あるいは、映像解析モジュール224は、サーバ406(ワークステーション156)、処理機器148、クライアントデバイス164、またはカメラの外部にある他のデバイスに配置されてよい。
上記のトリミング境界ボックスの選択基準は、オブジェクトの存在期間を単一のトリミング境界ボックスで表現するという問題に対して可能性のある解決策である。以下は別の選択基準である。
代わりに、オブジェクト分類モジュール916の高さ推定アルゴリズムによって提供された情報を用いて、n個のトリミング境界ボックスのうち上位10個の選別を実施できる。高さ推定モジュールは、ある一定時間にわたって観察された頭部(上部)と足部(下部)に基づいてホモロジーマトリクスを作成する。ホモロジーを学習する期間を本明細書では学習段階と称する。得られたホモロジーは、特定の場所に現れている実際のオブジェクトの高さを推定するためにさらに使用され、その場所で観察されたオブジェクトの高さと比較される。学習が完了すると、高さ推定モジュールによって提供された情報を用いて、トリミング境界ボックスの高さをトリミング境界ボックスが取り込まれた場所で予想されるオブジェクトの高さと比較することによって、上位n個のリストにあるトリミング境界ボックスを選別することができる。この選別方法は、オブジェクト分類モジュール916によって報告された高い信頼性で偽陽性となる可能性があるトリミング境界ボックスの棄却基準となることが意図されている。次にその結果選別されたトリミング境界ボックスは、オブジェクトによって取り込まれた前景画素数によってさらにランク付けできる。この多段階の選別基準により、オブジェクトの最終物が高い分類信頼性を有するだけでなく、その場所で予想されたオブジェクトの寸法にも準拠し、さらにはオブジェクト検知モジュール904によって報告された通りの良好な数の前景画素も有することを実現する。多段階の選別基準から得られたトリミング境界ボックスは、単独で適用した前述のいずれの基準から得たトリミング境界ボックスと比較しても、オブジェクトの外観はフレーム内での存在期間にわたってよりよく見える可能性がある。本明細書では機械学習モジュールは、先行技術で公知の機械学習アルゴリズムを含む。
次に図10Aを参照すると、図示されているのは、別の例示的な実施形態による図4の処理408のブロック図である。オブジェクトの画像(パディング済トリミング境界ボックスを含むトリミング境界ボックス)404は、処理部408に受信され、そこで第1のニューラルネットワーク1010によって処理されてトリミング境界ボックス404内のオブジェクトを検知し、分類し、輪郭を描く。第1のニューラルネットワーク1010および第2のニューラルネットワーク1030は、例えば、畳み込みニューラルネットワークである。第1のニューラルネットワーク1010は、例えば、クリップ404の所与のトリミング境界ボックスに対して(分類された通りの)0人、1人、2人またはそれ以上のヒトを検知する。0であれば、ヒトオブジェクトは検知されず、最初の分類(カメラ108で)は誤りだったということであり、その所与のトリミング境界ボックスに対しては特徴ベクトル410を生成すべきではないということである(終了1020)。ヒトオブジェクトが1つ検知された場合、その所与のトリミング境界ボックスをさらに処理する必要がある。所与のトリミング境界ボックスがパディング済トリミング境界ボックスである場合、その所与のトリミング境界ボックスのオブジェクトの画像は、任意選択で、他のパディングしていないトリミング境界ボックスと同じように、オブジェクトの境界ボックス内に収まるようにサイズを縮小される。所与のトリミング境界ボックスで2つ以上(2+)のヒトオブジェクトが検知された場合、この実施形態では、画像フレーム内の「オブジェクト」の中心の座標に最も近い(または中心に最も近い)オブジェクトの画像は、トリミング境界ボックス404内の所与のトリミング境界ボックスに取って代わる新たなトリミング境界ボックスの画像フレームから抜き出されて、さらに処理される。
第1のニューラルネットワーク1010は、オブジェクトの輪郭を描いた画像(トリミング境界ボックス)1040を出力して第2のニューラルネットワーク1030で処理し、特徴ベクトル410を生成してトリミング境界ボックス404と関連付ける。第1のニューラルネットワーク1010の一例が、先行技術で公知の単一のシングルショットマルチボックス検知器(SSD)である。
次に図10Bを参照すると、図示されているのは、さらに他の例示的な実施形態による図4の処理部408のブロック図である。オブジェクトの画像(パディング済トリミング境界ボックスを含むトリミング境界ボックス)404は、処理部408に受信され、比較器1050がトリミング境界ボックス404に関連する信頼度を判定する。カメラ108からのトリミング境界ボックス404は、カメラ108の映像解析モジュールによって判定された通りの関連するメタデータ(信頼度など)を有する。
所与のトリミング境界ボックスの信頼度が比較的低い場合(例えば50%未満)、その所与のトリミング境界ボックスは、第1のニューラルネットワーク1010で始まり特徴ベクトル410で終わる図10Aの実施形態に従って処理される。所与のトリミング境界ボックスの信頼度が比較的高い(例えば50%以上)、所与のトリミング境界ボックスは、第2のニューラルネットワーク1030によって直接処理され、第1のニューラルネットワーク1010を通らずに特徴ベクトル410を生成する。
カメラ108でパディング済トリミング境界ボックスを抜き出すことを説明している実施形態は、オブジェクトの全画像をパディング済トリミング境界ボックスとして抜き出すことを含むが、他の実施形態では、分類された関連オブジェクトに対する信頼度が比較的低い場合にはパディング済トリミング境界ボックスのみを抜き出す。第1のニューラルネットワーク1010は、精度を上げるためにパディング済トリミング境界ボックスとパディングしていないトリミング境界ボックスの両方を処理してよく、いくつかの実施形態では、計算資源が利用可能な場合は第1のニューラルネットワークにすべてのトリミング境界ボックスを処理させてよいことに注意されたい。第1のニューラルネットワーク1010は、すべてのパディング済トリミング境界ボックスを処理してよいが、信頼度が低いパディングしていないトリミング境界ボックスの一部のみを処理してもよい。比較器1050によって設定された閾値信頼度は、カメラ108でパディング済トリミング境界ボックスを抜き出すよう設定された閾値信頼度よりも低くてよい。いくつかの実施形態では、パディング済トリミング境界ボックスのいくつかは、特に計算資源がサーバ406の他の機能と結びついている場合は、第1のニューラルネットワーク1010による処理を飛ばして直接第2のニューラルネットワーク1030に行ってもよい。そのため、第1のニューラルネットワークによって処理されるトリミング境界ボックス処理の数は、サーバ406で利用可能な計算資源の量に応じて設定されてよい。
次に図11を参照すると、図示されているのは、別の例示的な実施形態による図11Aおよび図11Bの処理部408流れ図である。所与のトリミング境界ボックス1110(パディングしていないものでもパディング済みのものでもよい)にヒトオブジェクトが3つある場合、第1のニューラルネットワーク1010は、3つのヒトオブジェクトの1つ1つを検知し、3つのヒトオブジェクトの1つ1つの画像の輪郭を描いてトリミング境界ボックス1120、1130、1140にする。次に第2のニューラルネットワーク1030によってトリミング境界ボックス1120、1130、1140の特徴ベクトルを生成する。トリミング境界ボックス1120、1130、1140はその関連する特徴ベクトルと共に、索引412およびデータベース414内のトリミング境界ボックス404の所与のトリミング境界ボックス1110を置き換える。画像に複数のオブジェクトが入っている代替実施形態では、最大に重なっているオブジェクトのみが維持され(トリミング境界ボックス1130)、他のトリミング境界ボックスは破棄される。
そのため、一実施形態では、オブジェクト検知を次の2段階で実施する。(1)カメラ108は、精度は低いが電力効率のよいオブジェクト検知を実施し、パディング済オブジェクトのトリミング境界ボックスをサーバ406に送信する。トリミング境界ボックスをパディングすることで、サーバ側のアルゴリズムにオブジェクト検知を実施するためのより多くの画素背景を与え、カメラ側のアルゴリズムによって切り捨てられたオブジェクトの一部をサーバ側のアルゴリズムに復元させる。次に(2)サーバ406は、精度は高いが電力がより強いアルゴリズムを用いて、パディング済トリミング境界ボックスに対してオブジェクト検知を実施する。
これによって、ネットワーク帯域幅の使用中に妥協点を提供する。というのも、オブジェクトのトリミング境界ボックスを抱えているネットワークストリームは帯域幅が非常に低いことがあるからである。高速のフレームレートで全フレームを送信することは、映像コーデック(これはサーバ406上での映像の復号化を必要とする)を使用しないかぎり、そのような環境では実用的でない。
サーバ側のオブジェクト検知が符号化した映像ストリームに対して実施された場合(映像の録画に使用したもののように)、オブジェクト検知アルゴリズムを実行する前に映像の復号化を実施する必要がある。ただし、複数の映像ストリームを復号化するのに必要な計算要件は高すぎて実用的でない可能性がある。
そのため、この実施形態では、カメラ108は、「おおよその」オブジェクト検知を実施し、比較的低い帯域幅の通信チャネルを用いて関連するパディング済トリミング境界ボックスをサーバに送信する。したがってカメラ108は、コンピュータをあまり駆使しないアルゴリズムを用いて関心オブジェクトを含んでいそうなパディング済トリミング境界ボックスを作成する。
以上の説明では、ヒトオブジェクトが主な関心オブジェクトである実施形態の例を挙げているが、オブジェクトからトリミング境界ボックスを抜き出し、そこから特徴ベクトルの表現を計算し、さらにはこの特徴ベクトルを基底として用いてそれに反する特徴ベクトルを他のオブジェクトと比較するという基本的方法は、検討しているオブジェクトのクラスを断定するものではないことが理解されるであろう。標本オブジェクトとして、例えば鞄、バックパックまたはスーツケースがあり得る。したがって、車両、動物、および無生物オブジェクトの位置を特定する外観検索システムは、記載した実施形態の動作の趣旨および原理を逸脱しないかぎり、本明細書に記載した特徴および/または機能を用いて実施し得る。
以上の説明では、実施形態の例を挙げているが、記載した実施形態のいくつかの特徴および/または機能は、記載した実施形態の動作の趣旨および原理を逸脱しないかぎり、修正が可能であることが理解されるであろう。したがって、上記に記載したことは、非限定的に説明していることを意図しており、本明細書に添付の請求項に記載した本発明の範囲を逸脱しないかぎり、他の変形例および修正例を加えてよいことが当業者には理解されるであろう。さらに、本明細書に記載したどの実施形態のどの特徴も、本明細書に記載した他のどの実施形態の他のどの特徴とも適切に組み合わせてよい。

Claims (72)

  1. 外観検索システムであって、
    ある場面の映像を取り込むように構成された1つ以上のカメラであって、前記映像がオブジェクトの画像を有している、1つ以上のカメラと、
    1つ以上のプロセッサおよびメモリであって、前記メモリに記憶されるコンピュータプログラムコードを含み、前記1つ以上のプロセッサによって実行されたときに前記1つ以上のプロセッサが、
    前記オブジェクトの前記画像内にある1つ以上の前記オブジェクトを識別することと、
    前記識別したオブジェクトのシグネチャを生成し、関心オブジェクトのシグネチャを生成するように構成された学習機械を実装することと
    を含む方法を実施するように構成された、1つ以上のプロセッサおよびメモリと、
    前記カメラからの前記オブジェクトの前記画像を前記1つ以上のプロセッサに送信するように構成されたネットワークと
    を備え、
    前記方法はさらに、
    前記識別したオブジェクトの前記シグネチャを前記関心オブジェクトの前記シグネチャと比較して前記識別したオブジェクトに対する類似度スコアを生成することと、
    前記類似度スコアに基づいて前記オブジェクトの画像の1つ以上をディスプレイに提示する命令を伝送することと
    を含む、システム。
  2. 前記識別したオブジェクトの前記生成したシグネチャ、および前記映像を記憶する記憶システムを備えている、請求項1に記載のシステム。
  3. 前記実装された学習機械は、第2の学習機械であり、前記識別は、前記1つ以上のプロセッサによって実装された第1の学習機械によって実施される、請求項1または2に記載のシステム。
  4. 前記第1および第2の学習機械は、ニューラルネットワークを含む、請求項3に記載のシステム。
  5. 前記ニューラルネットワークは、畳み込みニューラルネットワークを含む、請求項4に記載のシステム。
  6. 前記第1および第2の学習機械を稼働させる1つ以上のグラフィックスプロセッシングユニットをさらに含む、請求項3〜5のいずれか一項に記載のシステム。
  7. 前記1つ以上のカメラはさらに、映像解析を用いて前記オブジェクトの前記画像を取り込むように構成される、請求項1〜6のいずれか一項に記載のシステム。
  8. 前記1つ以上のカメラはさらに、前記オブジェクトの分類によって前記オブジェクトの前記画像を選別するように構成される、請求項1〜7のいずれか一項に記載のシステム。
  9. 前記1つ以上のカメラはさらに、ヒトオブジェクトを含む1つ以上の前記画像を識別するように構成され、前記ネットワークはさらに、前記識別した画像のみを前記1つ以上のプロセッサに送信するように構成される、請求項8に記載のシステム。
  10. 前記オブジェクトの前記画像は、前記映像の画像フレームの部分を含む、請求項1〜9のいずれか一項に記載のシステム。
  11. 前記画像フレームの前記部分は、前記画像フレームの第1の画像部分を含み、前記第1の画像部分は、少なくとも前記オブジェクトを含む、請求項10に記載のシステム。
  12. 前記画像フレームの前記部分は、前記画像フレームの第2の画像部分を含み、前記第2の画像部分は、前記第1の画像部分よりも大きい、請求項11に記載のシステム。
  13. 前記第1の学習機械は、前記第2の学習機械に対して、前記第2の画像部分内の1つ以上の前記オブジェクトの輪郭を描くように構成される、請求項12に記載のシステム。
  14. 前記第1の学習機械は、前記第2の学習機械に対して、前記第2の画像部分内の前記オブジェクトの輪郭を描くように構成される、請求項12に記載のシステム。
  15. 前記1つ以上のカメラはさらに、前記映像から前記オブジェクトの前記画像を抜き出せるように基準座標を生成するように構成される、請求項1〜14のいずれか一項に記載のシステム。
  16. 前記記憶システムは、前記基準座標を記憶するように構成される、請求項15に記載のシステム。
  17. 前記1つ以上のカメラはさらに、ある一定時間にわたって取り込まれた前記映像から1つ以上の画像を選択して前記オブジェクトの1つ以上の前記画像を得るように構成される、請求項1〜16のいずれか一項に記載のシステム。
  18. 前記オブジェクトの前記識別は、前記画像にある前記1つ以上のオブジェクトの輪郭を描くことを含む、請求項1〜17のいずれか一項に記載のシステム。
  19. 前記識別は、
    少なくとも1つの前記画像内の複数の前記オブジェクトを識別することと、
    前記少なくとも1つの画像を複数の分割画像に分割し、1つ1つの分割画像が前記識別したオブジェクトのうちの1つの少なくとも一部を含むことと
    を含む、請求項1〜18のいずれか一項に記載のシステム。
  20. 前記本方法はさらに、
    1つ1つの識別したオブジェクトに対し、
    信頼度を判定することと、
    前記信頼度が信頼要件を満たしていない場合に、前記識別および分前記割を前記第1の学習機械に実施させるか、または、
    前記信頼度が前記信頼要件を満たしている場合に、前記識別および前記分割を前記第2の学習機械に実施させることと
    を含む、請求項19に記載のシステム。
  21. 前記1つ以上のカメラはさらに、前記信頼度を判定する1つ以上の映像解析モジュールを備えている、請求項20に記載のシステム。
  22. 方法であって、
    ある場面の映像を取り込み、前記映像がオブジェクトの画像を有していることと、
    前記オブジェクトの前記画像内にある1つ以上の前記オブジェクトを識別することと、
    学習機械を用いて、前記識別したオブジェクトのシグネチャ、および関心オブジェクトのシグネチャを生成することと、
    前記識別したオブジェクトの前記シグネチャを前記関心オブジェクトの前記第1のシグネチャと比較することによって、前記識別したオブジェクトに対する類似度スコアを生成することと、
    前記類似度スコアに基づいて前記オブジェクトの1つ以上の前記画像をディスプレイに提示することと
    を含む、方法。
  23. 識前記別したオブジェクトの前記生成したシグネチャ、および前記映像を記憶することをさらに含む、請求項22に記載の方法。
  24. 前記学習機械は、第2の学習機械であり、前記識別は、前記1つ以上のプロセッサによって実装された第1の学習機械によって実施される、請求項22または23に記載の方法。
  25. 前記第1および第2の学習機械は、ニューラルネットワークを含む、請求項24に記載の方法。
  26. 前記ニューラルネットワークは、畳み込みニューラルネットワークを含む、請求項25に記載の方法。
  27. 前記取り込みは、映像解析を用いることを含む、請求項22〜26のいずれか一項に記載の方法。
  28. 前記オブジェクトを分類することによって前記オブジェクトの前記画像を選別することをさらに含む、請求項22〜27のいずれか一項に記載の方法。
  29. 前記方法はさらに、ヒトオブジェクトを含む1つ以上の前記画像を識別することを含む、請求項28に記載の方法。
  30. 前記オブジェクトの前記画像は、前記映像の画像フレームの部分を含む、請求項22〜29のいずれか一項に記載の方法。
  31. 前記画像フレームの前記部分は、前記画像フレームの第1の画像部分を含み、前記第1の画像部分は、少なくとも前記オブジェクトを含む、請求項30に記載の方法。
  32. 前記画像フレームの前記部分は、前記画像フレームの第2の画像部分を含み、前記第2の画像部分は、前記第1の画像部分よりも大きい、請求項31に記載の方法。
  33. 前記第1の学習機械は、前記第2の学習機械に対して、前記第2の画像部分内の1つ以上の前記オブジェクトの輪郭を描くように構成される、請求項32に記載の方法。
  34. 前記第1の学習機械は、前記第2の学習機械に対して、前記第2の画像部分内の前記オブジェクトの輪郭を描くように構成される、請求項33に記載の方法。
  35. 前記映像から前記オブジェクトの前記画像を抜き出せるように基準座標を生成することをさらに含む、請求項22〜34のいずれか一項に記載の方法。
  36. 前記基準座標を記憶することをさらに含む、請求項35に記載の方法。
  37. ある一定時間にわたって取り込まれた前記映像から1つ以上の画像を選択して前記オブジェクトの1つ以上の前記画像を得ることをさらに含む、請求項22〜36のいずれか一項に記載の方法。
  38. 前記オブジェクトの前記識別は、前記画像にある前記1つ以上のオブジェクトの輪郭を描くことを含む、請求項22〜37のいずれか一項に記載の方法。
  39. 前記識別は、
    少なくとも1つの前記画像内の複数の前記オブジェクトを識別することと、
    前記少なくとも1つの画像を複数の分割画像に分割し、1つ1つの分割画像が前記識別したオブジェクトのうちの1つの少なくとも一部を含むことと
    を含む、請求項22〜38のいずれか一項に記載の方法。
  40. 前記本方法はさらに、
    1つ1つの識別したオブジェクトに対し、
    信頼度を判定することと、
    前記信頼度が信頼要件を満たしていない場合に、前記識別および分前記割を前記第1の学習機械に実施させるか、または、
    前記信頼度が前記信頼要件を満たしている場合に、前記識別および前記分割を前記第2の学習機械に実施させることと
    を含む、請求項39に記載の方法。
  41. 1つ以上のプロセッサで実行可能なコンピュータプログラムコードが記憶され、1つ以上のプロセッサによって実行されたときに1つ以上のプロセッサが、
    ある場面の映像を取り込み、前記映像がオブジェクトの画像を有していることと、
    前記オブジェクトの前記画像内にある1つ以上の前記オブジェクトを識別することと、
    学習機械を用いて、前記識別したオブジェクトのシグネチャ、および関心オブジェクトのシグネチャを生成することと、
    前記識別したオブジェクトの前記シグネチャを前記関心オブジェクトの前記第1のシグネチャと比較することによって、前記識別したオブジェクトに対する類似度スコアを生成することと、
    前記類似度スコアに基づいて前記オブジェクトの1つ以上の前記画像をディスプレイに提示することと
    を含む、方法
    を実施するように構成される、コンピュータ可読媒体。
  42. 前記方法はさらに、前記識別したオブジェクトの前記生成したシグネチャ、および前記映像を記憶することを含む、請求項41に記載のコンピュータ可読媒体。
  43. 前記学習機械は、第2の学習機械であり、前記識別は、第1の学習機械によって実施される、請求項41または42に記載のコンピュータ可読媒体。
  44. 前記第1および第2の学習機械は、ニューラルネットワークを含む、請求項43に記載のコンピュータ可読媒体。
  45. 前記ニューラルネットワークは、畳み込みニューラルネットワークを含む、請求項44に記載のコンピュータ可読媒体。
  46. 前記取り込みは、映像解析を用いることを含む、請求項41〜45のいずれか一項に記載のコンピュータ可読媒体。
  47. 前記方法はさらに、前記オブジェクトの分類によって前記オブジェクトの前記画像を選別することを含む、請求項41〜46のいずれか一項に記載のコンピュータ可読媒体。
  48. 前記方法はさらに、ヒトオブジェクトを含む1つ以上の前記画像を識別することを含む、請求項47に記載のコンピュータ可読媒体。
  49. 前記オブジェクトの前記画像は、前記映像の画像フレームの部分を含む、請求項41〜48のいずれか一項に記載のコンピュータ可読媒体。
  50. 前記画像フレームの前記部分は、前記画像フレームの第1の画像部分を含み、前記第1の画像部分は、少なくとも前記オブジェクトを含む、請求項49に記載のコンピュータ可読媒体。
  51. 前記画像フレームの前記部分は、前記画像フレームの第2の画像部分を含み、前記第2の画像部分は、前記第1の画像部分よりも大きい、請求項50に記載のコンピュータ可読媒体。
  52. 前記第1の学習機械は、前記第2の学習機械に対して、前記第2の画像部分内の1つ以上の前記オブジェクトの輪郭を描くように構成される、請求項51に記載のコンピュータ可読媒体。
  53. 前記第1の学習機械は、前記第2の学習機械に対して、前記第2の画像部分内の前記オブジェクトの輪郭を描くように構成される、請求項52に記載のコンピュータ可読媒体。
  54. 前記方法はさらに、前記映像から前記オブジェクトの前記画像を抜き出せるように基準座標を生成することを含む、請求項41〜53のいずれか一項に記載のコンピュータ可読媒体。
  55. 前記方法はさらに、前記基準座標を記憶することを含む、請求項54に記載のコンピュータ可読媒体。
  56. 前記方法はさらに、ある一定時間にわたって取り込まれた前記映像から1つ以上の画像を選択して前記オブジェクトの1つ以上の前記画像を得ることを含む、請求項41〜55のいずれか一項に記載のコンピュータ可読媒体。
  57. 前記オブジェクトの前記識別は、前記画像にある前記1つ以上のオブジェクトの輪郭を描くことを含む、請求項41〜56のいずれか一項に記載のコンピュータ可読媒体。
  58. 前記識別は、
    少なくとも1つの前記画像内の複数の前記オブジェクトを識別することと、
    前記少なくとも1つの画像を複数の分割画像に分割し、1つ1つの分割画像が前記識別したオブジェクトのうちの1つの少なくとも一部を含むことと
    を含む、請求項41〜57のいずれか一項に記載のコンピュータ可読媒体。
  59. 前記本方法はさらに、
    1つ1つの識別したオブジェクトに対し、
    信頼度を判定することと、
    前記信頼度が信頼要件を満たしていない場合に、前記識別および分前記割を前記第1の学習機械に実施させるか、または、
    前記信頼度が前記信頼要件を満たしている場合に、前記識別および前記分割を前記第2の学習機械に実施させることと
    を含む、請求項58に記載のコンピュータ可読媒体。
  60. システムであって、
    ある場面の映像を取り込むように構成された1つ以上のカメラと、
    1つ以上のプロセッサおよびメモリであって、前記メモリに記憶されるコンピュータプログラムコードを含み、前記1つ以上のプロセッサによって実行されたときに前記1つ以上のプロセッサが、
    前記映像からチップを抜き出し、前記チップは、オブジェクトの画像を含むことと、
    少なくとも1つの前記チップ内にある複数のオブジェクトを識別することと、
    前記少なくとも1つのチップを複数の分割チップに分割し、1つ1つの分割チップが前記識別したオブジェクトのうちの1つの少なくとも一部を含むことと
    を含む方法を実施するように構成された、1つ以上のプロセッサおよびメモリと、
    を備えているシステム。
  61. 前記方法はさらに、
    前記識別したオブジェクトのシグネチャを生成し、関心オブジェクトのシグネチャを生成するように構成された学習機械を実装すること
    を含む、請求項60に記載のシステム。
  62. 前記学習機械は、第2の学習機械であり、前記識別および前記分割は、前記1つ以上のプロセッサによって実装された第1の学習機械によって実施される、請求項61に記載のシステム。
  63. 前記本方法はさらに、
    1つ1つの識別したオブジェクトに対し、
    信頼度を判定することと、
    前記信頼度が信頼要件を満たしていない場合に、前記識別および分前記割を前記第1の学習機械に実施させるか、または、
    前記信頼度が前記信頼要件を満たしている場合に、前記識別および前記分割を前記第2の学習機械に実施させることと
    を含む、請求項62に記載のシステム。
  64. 前記1つ以上のカメラは、前記信頼度を判定する1つ以上の映像解析モジュールを備えている、請求項63に記載のシステム。
  65. 前記少なくとも1つのチップは、少なくとも1つのパディング済チップを含み、1つ1つのパディング済チップは、前記映像の画像フレームの第1の画像部分を含む、請求項60〜64のいずれか一項に記載のシステム。
  66. 前記少なくとも1つのチップはさらに、少なくとも1つのパディングしていないチップを含み、1つ1つのパディングしていないチップは、前記映像の画像フレームの第2の画像部分を含み、前記第2の画像部分は、前記第1の画像部分よりも小さい、請求項65に記載のシステム。
  67. 1つ以上のプロセッサで実行可能なコンピュータプログラムコードが記憶され、1つ以上のプロセッサによって実行されたときに1つ以上のプロセッサが、
    ある場面の映像を得ることを含むことと、
    前記映像からチップを抜き出し、前記チップは、オブジェクトの画像を含むことと、
    少なくとも1つの前記チップ内にある複数のオブジェクトを識別することと、
    前記少なくとも1つのチップを複数の分割チップに分割し、1つ1つの分割チップが前記識別したオブジェクトのうちの1つの少なくとも一部を含むことと
    を含む、方法
    を実施するように構成される、コンピュータ可読媒体。
  68. 前記方法はさらに、
    前記識別したオブジェクトのシグネチャを生成し、関心オブジェクトのシグネチャを生成するように構成された学習機械を実装すること
    を含む、請求項67に記載のコンピュータ可読媒体。
  69. 前記学習機械は、第2の学習機械であり、前記識別および前記分割は、前記1つ以上のプロセッサによって実装された第1の学習機械によって実施される、請求項68に記載のコンピュータ可読媒体。
  70. 前記本方法はさらに、
    1つ1つの識別したオブジェクトに対し、
    信頼度を判定することと、
    前記信頼度が信頼要件を満たしていない場合に、前記識別および分前記割を前記第1の学習機械に実施させるか、または、
    前記信頼度が前記信頼要件を満たしている場合に、前記識別および前記分割を前記第2の学習機械に実施させることと
    を含む、請求項69に記載のコンピュータ可読媒体。
  71. 前記少なくとも1つのチップは、少なくとも1つのパディング済チップを含み、1つ1つのパディング済チップは、前記映像の画像フレームの第1の画像部分を含む、請求項67〜70のいずれか一項に記載のコンピュータ可読媒体。
  72. 前記少なくとも1つのチップはさらに、少なくとも1つのパディングしていないチップを含み、1つ1つのパディングしていないチップは、前記映像の画像フレームの第2の画像部分を含み、前記第2の画像部分は、前記第1の画像部分よりも小さい、請求項71に記載のコンピュータ可読媒体。
JP2019529970A 2016-12-05 2017-12-05 外観検索のシステムおよび方法 Withdrawn JP2020503604A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021171909A JP7317919B2 (ja) 2016-12-05 2021-10-20 外観検索のシステムおよび方法
JP2023117547A JP2023145558A (ja) 2016-12-05 2023-07-19 外観検索のシステムおよび方法

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662430292P 2016-12-05 2016-12-05
US62/430,292 2016-12-05
US201762527894P 2017-06-30 2017-06-30
US62/527,894 2017-06-30
PCT/CA2017/051469 WO2018102919A1 (en) 2016-12-05 2017-12-05 System and method for appearance search

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021171909A Division JP7317919B2 (ja) 2016-12-05 2021-10-20 外観検索のシステムおよび方法

Publications (2)

Publication Number Publication Date
JP2020503604A true JP2020503604A (ja) 2020-01-30
JP2020503604A5 JP2020503604A5 (ja) 2021-01-21

Family

ID=62243913

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2019529970A Withdrawn JP2020503604A (ja) 2016-12-05 2017-12-05 外観検索のシステムおよび方法
JP2021171909A Active JP7317919B2 (ja) 2016-12-05 2021-10-20 外観検索のシステムおよび方法
JP2023117547A Pending JP2023145558A (ja) 2016-12-05 2023-07-19 外観検索のシステムおよび方法

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2021171909A Active JP7317919B2 (ja) 2016-12-05 2021-10-20 外観検索のシステムおよび方法
JP2023117547A Pending JP2023145558A (ja) 2016-12-05 2023-07-19 外観検索のシステムおよび方法

Country Status (10)

Country Link
US (2) US10726312B2 (ja)
EP (1) EP3549063A4 (ja)
JP (3) JP2020503604A (ja)
KR (1) KR102560308B1 (ja)
CN (2) CN117095349A (ja)
AU (2) AU2017372905B2 (ja)
CA (2) CA3000127C (ja)
IL (1) IL267115B (ja)
MX (1) MX2019006588A (ja)
WO (1) WO2018102919A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022064808A (ja) * 2020-10-14 2022-04-26 財團法人工業技術研究院 画像認識方法および画像認識システム
JP7525220B2 (ja) 2020-04-08 2024-07-30 日本電気通信システム株式会社 推定装置、学習装置、推定方法及びプログラム

Families Citing this family (90)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018033156A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 视频图像的处理方法、装置和电子设备
US10318827B2 (en) * 2016-12-19 2019-06-11 Waymo Llc Object detection neural networks
US10229322B2 (en) * 2017-04-06 2019-03-12 Ants Technology (Hk) Limited Apparatus, methods and computer products for video analytics
EP3610410A1 (en) * 2017-04-14 2020-02-19 Koninklijke Philips N.V. Person identification systems and methods
CN107423571B (zh) * 2017-05-04 2018-07-06 深圳硅基仿生科技有限公司 基于眼底图像的糖尿病视网膜病变识别系统
AU2018324122B2 (en) * 2017-09-01 2021-09-09 Percipient.ai Inc. Identification of individuals in a digital file using media analysis techniques
US11284062B2 (en) * 2017-09-05 2022-03-22 Texas Instruments Incorporated Automotive display validation
CN107679466B (zh) * 2017-09-21 2021-06-15 百度在线网络技术(北京)有限公司 信息输出方法和装置
CA3078245A1 (en) 2017-10-02 2019-04-11 Sensen Networks Group Pty Ltd System and method for machine learning-driven object detection
US11475351B2 (en) * 2017-11-15 2022-10-18 Uatc, Llc Systems and methods for object detection, tracking, and motion prediction
US11455801B2 (en) 2017-12-05 2022-09-27 Avigilon Corporation Generating signatures within a network that includes a plurality of computing devices of varying processing capabilities
US10417501B2 (en) * 2017-12-06 2019-09-17 International Business Machines Corporation Object recognition in video
CN108399381B (zh) * 2018-02-12 2020-10-30 北京市商汤科技开发有限公司 行人再识别方法、装置、电子设备和存储介质
US11100350B2 (en) 2018-02-19 2021-08-24 Avigilon Corporation Method and system for object classification using visible and invisible light images
WO2019168258A1 (ko) * 2018-02-27 2019-09-06 (주)호모미미쿠스 동물의 독립 태스크 수행을 지원하는 원격 제어 시스템 및 방법과 동물 웨어러블 다용도 모듈화 플랫폼 시스템
US20190279043A1 (en) 2018-03-06 2019-09-12 Tazi AI Systems, Inc. Online machine learning system that continuously learns from data and human input
JP6760318B2 (ja) * 2018-03-14 2020-09-23 オムロン株式会社 顔画像識別システム、識別器生成装置、識別装置、画像識別システム、及び識別システム
CA3088781A1 (en) 2018-03-23 2019-09-26 Avigilon Coporation Method and system for interfacing with a user to facilitate an image search for an object-of-interest
US20190304102A1 (en) * 2018-03-30 2019-10-03 Qualcomm Incorporated Memory efficient blob based object classification in video analytics
US11321592B2 (en) 2018-04-25 2022-05-03 Avigilon Corporation Method and system for tracking an object-of-interest without any required tracking tag theron
US11157524B2 (en) * 2018-05-18 2021-10-26 At&T Intellectual Property I, L.P. Automated learning of anomalies in media streams with external feed labels
CN112313043B (zh) * 2018-06-15 2024-04-02 谷歌有限责任公司 自我监督的机器人对象交互
WO2019245359A1 (en) 2018-06-21 2019-12-26 N.V. Nutricia Method and system for characterizing stool patterns of young infants
AU2019303730B2 (en) * 2018-07-17 2022-01-20 Motorola Solutions, Inc. Hash-based appearance search
JP7326667B2 (ja) 2018-07-31 2023-08-16 マーベル アジア ピーティーイー、リミテッド ストレージエッジにおけるメタデータ生成
US11055854B2 (en) * 2018-08-23 2021-07-06 Seoul National University R&Db Foundation Method and system for real-time target tracking based on deep learning
BR102018067756A8 (pt) * 2018-09-04 2022-12-06 Univ Estadual Campinas Unicamp Sistema de gerenciamento e método de identificação de animais
US10643667B2 (en) * 2018-09-11 2020-05-05 Avigilon Corporation Bounding box doubling as redaction boundary
WO2020061236A1 (en) 2018-09-18 2020-03-26 Focal Systems, Inc. Product onboarding machine
US11423648B2 (en) * 2018-09-27 2022-08-23 Ncr Corporation Item recognition processing over time
GB2577689B (en) * 2018-10-01 2023-03-22 Digital Barriers Services Ltd Video surveillance and object recognition
GB2611949B (en) * 2018-10-01 2023-08-09 Digital Barriers Services Ltd Video surveillance and object recognition
US11443165B2 (en) * 2018-10-18 2022-09-13 Deepnorth Inc. Foreground attentive feature learning for person re-identification
US10504027B1 (en) * 2018-10-26 2019-12-10 StradVision, Inc. CNN-based learning method, learning device for selecting useful training data and test method, test device using the same
US11055874B2 (en) * 2018-10-30 2021-07-06 Ncr Corporation Image processing for tracking actions of individuals
TWI686748B (zh) * 2018-12-07 2020-03-01 國立交通大學 人流分析系統及人流分析方法
US20210303853A1 (en) * 2018-12-18 2021-09-30 Rovi Guides, Inc. Systems and methods for automated tracking on a handheld device using a remote camera
EP3797512A1 (en) * 2018-12-18 2021-03-31 Rovi Guides, Inc. Systems and methods for automated tracking using a client device
US10769915B2 (en) * 2018-12-31 2020-09-08 TCL Research America Inc. Privacy preserving camera
JP7136234B2 (ja) * 2019-01-17 2022-09-13 日本電気株式会社 情報処理装置、制御方法、及びプログラム
WO2020157885A1 (ja) * 2019-01-31 2020-08-06 日本電気株式会社 データストリーム割り当て方法、システムおよびプログラム
KR102246408B1 (ko) 2019-02-14 2021-05-18 엔에이치엔 주식회사 딥러닝 기반 유사상품 제공방법
KR102391817B1 (ko) * 2019-02-18 2022-04-29 주식회사 아이도트 딥 러닝 시스템
CN113574866B (zh) 2019-02-28 2024-08-02 斯塔特斯公司 校准捕捉广播视频的移动相机的系统及方法
US10915786B2 (en) * 2019-02-28 2021-02-09 Sap Se Object detection and candidate filtering system
US20200342291A1 (en) * 2019-04-23 2020-10-29 Apical Limited Neural network processing
US11195172B2 (en) * 2019-07-24 2021-12-07 Capital One Services, Llc Training a neural network model for recognizing handwritten signatures based on different cursive fonts and transformations
US11586682B2 (en) 2019-07-30 2023-02-21 Motorola Solutions, Inc. Method and system for enhancing a VMS by intelligently employing access control information therein
US12067462B2 (en) * 2019-08-15 2024-08-20 Yahoo Assets Llc Model training framework
WO2021072645A1 (en) * 2019-10-15 2021-04-22 Motorola Solutions, Inc. Video analytics conflict detection and mitigation
CN112714349B (zh) * 2019-10-24 2023-06-27 阿里巴巴集团控股有限公司 数据处理方法、商品展示方法和视频播放方法
US11238314B2 (en) * 2019-11-15 2022-02-01 Salesforce.Com, Inc. Image augmentation and object detection
US11216666B2 (en) * 2019-12-11 2022-01-04 Fujifilm Business Innovation Corp. Understanding normality of an environment using semantic information from images
FR3104774B1 (fr) * 2019-12-11 2022-01-07 Bull Sas Procédé de suivi d’un élément, dispositif électronique et produit programme d’ordinateur associés
US20210200826A1 (en) * 2019-12-26 2021-07-01 Motorola Solutions, Inc. Appearance search for incident response
US11687778B2 (en) 2020-01-06 2023-06-27 The Research Foundation For The State University Of New York Fakecatcher: detection of synthetic portrait videos using biological signals
CN111353585B (zh) * 2020-02-25 2024-09-06 南京羽丰视讯科技有限公司 神经网络模型的结构搜索方法和装置
KR102462733B1 (ko) * 2020-03-03 2022-11-04 한국과학기술연구원 샴 네트워크를 활용하는 강인한 다중 객체 검출 장치 및 방법
CN111782633B (zh) * 2020-06-29 2024-04-30 北京百度网讯科技有限公司 数据处理方法、装置及电子设备
US11443510B2 (en) 2020-08-03 2022-09-13 Motorola Solutions, Inc. Method, system and computer program product that provides virtual assistance in facilitating visual comparison
CN114079820A (zh) * 2020-08-19 2022-02-22 安霸国际有限合伙企业 在摄像机设备上借助于神经网络输入的以感兴趣的事件/对象为中心的间隔拍摄视频生成
KR102253989B1 (ko) * 2020-08-19 2021-05-20 이노뎁 주식회사 딥러닝 객체 검출기를 이용한 cctv 영상의 객체 추적 방법
KR102375509B1 (ko) * 2020-09-07 2022-03-17 주식회사 한글과컴퓨터 복수의 포맷 변환 서버들에 문서의 포맷 변환을 위한 작업 할당을 수행하는 문서 파일의 포맷 변환 작업 할당 장치 및 그 동작 방법
CN112040325B (zh) * 2020-11-02 2021-01-29 成都睿沿科技有限公司 一种视频播放方法、装置、电子设备及存储介质
CN112330711B (zh) * 2020-11-26 2023-12-05 北京奇艺世纪科技有限公司 模型生成方法、信息提取方法、装置及电子设备
US11509832B2 (en) 2020-12-01 2022-11-22 Western Digital Technologies, Inc. Low light surveillance system with dual video streams
US12039014B2 (en) * 2020-12-01 2024-07-16 Motorola Solutions, Inc. Obtaining potential match results for a reference image across a plurality of system sites
MX2023001144A (es) 2020-12-15 2023-04-14 Selex Es Inc Sistemas y metodos para rastrear una firma electronica.
US11900662B2 (en) 2020-12-16 2024-02-13 Here Global B.V. Method, apparatus, and computer program product for training a signature encoding module and a query processing module to identify objects of interest within an image utilizing digital signatures
US12073615B2 (en) * 2020-12-16 2024-08-27 Here Global B.V. Method, apparatus, and computer program product for identifying objects of interest within an image captured by a relocatable image capture device
US11829192B2 (en) 2020-12-23 2023-11-28 Here Global B.V. Method, apparatus, and computer program product for change detection based on digital signatures
US11587253B2 (en) 2020-12-23 2023-02-21 Here Global B.V. Method, apparatus, and computer program product for displaying virtual graphical data based on digital signatures
US11830103B2 (en) 2020-12-23 2023-11-28 Here Global B.V. Method, apparatus, and computer program product for training a signature encoding module and a query processing module using augmented data
EP4268473A4 (en) * 2020-12-28 2024-05-22 Samsung Electronics Co., Ltd. SYSTEM AND METHOD FOR AUTOMATIC VIDEO RECONSTRUCTION WITH DYNAMIC POINT OF INTEREST
CN112581544B (zh) * 2020-12-30 2022-04-19 易思维(杭州)科技有限公司 基于参数优化的无公共视场相机标定方法
CN112818808B (zh) * 2021-01-27 2024-01-19 南京大学 一种结合两个向量嵌入空间的高精度步态识别方法
US11496671B2 (en) 2021-02-19 2022-11-08 Western Digital Technologies, Inc. Surveillance video streams with embedded object data
EP4295288A4 (en) * 2021-02-22 2024-07-17 Briefcam Ltd METHOD AND SYSTEM FOR VISUAL ANALYSIS AND EVALUATION OF CUSTOMER INTERACTION IN A SCENE
US20220405974A1 (en) * 2021-06-18 2022-12-22 Acronis International Gmbh Systems and methods for color-based outfit classification
CN113255582A (zh) * 2021-06-21 2021-08-13 中国银行股份有限公司 基于深度神经网络及区块链的笔迹鉴定方法及装置
US20230069768A1 (en) * 2021-08-31 2023-03-02 Micron Technology, Inc. Distributed Camera System
WO2023039072A2 (en) * 2021-09-09 2023-03-16 Selex Es Inc. Systems and methods for electronic surveillance
EP4148581B1 (en) * 2021-09-10 2023-08-30 Axis AB Verification of updated analytical procedures in monitoring systems
EP4187505A1 (en) * 2021-11-26 2023-05-31 Cattle Eye Ltd A method and system for the identification of animals
US11991295B2 (en) 2021-12-07 2024-05-21 Here Global B.V. Method, apparatus, and computer program product for identifying an object of interest within an image from a digital signature generated by a signature encoding module including a hypernetwork
US12014447B2 (en) 2022-02-17 2024-06-18 Revieve Oy Method and system for dynamic cropping of full body pose images
US20240062529A1 (en) * 2022-08-18 2024-02-22 Microsoft Technology Licensing, Llc Determining media documents embedded in other media documents
WO2024090390A1 (ja) * 2022-10-24 2024-05-02 ソフトバンクグループ株式会社 情報処理装置、車両、情報処理方法、及び情報処理プログラム
US20240241908A1 (en) * 2023-01-12 2024-07-18 Motorola Solutions, Inc. Searchable video with binary vectors
KR102703340B1 (ko) * 2023-04-28 2024-09-05 소니드로보틱스 주식회사 단일 복합 센서를 활용한 경계구역 지능형 자동 탐지 시스템

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001005967A (ja) * 1999-06-21 2001-01-12 Matsushita Electric Ind Co Ltd 画像送信装置及びニューラルネットワーク
JP2010073112A (ja) * 2008-09-22 2010-04-02 Omron Corp 顔照合システム
US20100124271A1 (en) * 2008-11-18 2010-05-20 Andrew Martz Method, system and apparatus for image capture, analysis and transmission
US20100157065A1 (en) * 2008-12-22 2010-06-24 Kunio Yata Autofocus system
US20140333775A1 (en) * 2013-05-10 2014-11-13 Robert Bosch Gmbh System And Method For Object And Event Identification Using Multiple Cameras
JP2015002553A (ja) * 2013-06-18 2015-01-05 キヤノン株式会社 情報処理システムおよびその制御方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7627171B2 (en) 2003-07-03 2009-12-01 Videoiq, Inc. Methods and systems for detecting objects of interest in spatio-temporal signals
US7809722B2 (en) * 2005-05-09 2010-10-05 Like.Com System and method for enabling search and retrieval from image files based on recognized information
PL2118864T3 (pl) * 2007-02-08 2015-03-31 Behavioral Recognition Sys Inc System rozpoznawania zachowania
US8170280B2 (en) * 2007-12-03 2012-05-01 Digital Smiths, Inc. Integrated systems and methods for video-based object modeling, recognition, and tracking
GB2471036B (en) 2008-03-03 2012-08-22 Videoiq Inc Object matching for tracking, indexing, and search
US8886206B2 (en) 2009-05-01 2014-11-11 Digimarc Corporation Methods and systems for content processing
US20130128050A1 (en) * 2011-11-22 2013-05-23 Farzin Aghdasi Geographic map based control
EP3633543A1 (en) * 2013-03-15 2020-04-08 Hologic, Inc. System and method for reviewing and analyzing cytological specimens
BR112015027899B1 (pt) * 2013-05-06 2023-04-04 Hercules Incorporated Aparelho para teste de produto e meios legíveis por processador não-transitórios
CN105359186B (zh) * 2013-06-04 2019-06-25 赫尔实验室有限公司 用于检测场景中的感兴趣的对象的系统、方法和存储介质
AU2013242830B2 (en) * 2013-10-10 2016-11-24 Canon Kabushiki Kaisha A method for improving tracking in crowded situations using rival compensation
US9646131B2 (en) * 2014-06-27 2017-05-09 Oracle International Corporation Intelligent image processing for enterprise applications
AU2014240213B2 (en) 2014-09-30 2016-12-08 Canon Kabushiki Kaisha System and Method for object re-identification

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001005967A (ja) * 1999-06-21 2001-01-12 Matsushita Electric Ind Co Ltd 画像送信装置及びニューラルネットワーク
JP2010073112A (ja) * 2008-09-22 2010-04-02 Omron Corp 顔照合システム
US20100124271A1 (en) * 2008-11-18 2010-05-20 Andrew Martz Method, system and apparatus for image capture, analysis and transmission
US20100157065A1 (en) * 2008-12-22 2010-06-24 Kunio Yata Autofocus system
US20140333775A1 (en) * 2013-05-10 2014-11-13 Robert Bosch Gmbh System And Method For Object And Event Identification Using Multiple Cameras
JP2015002553A (ja) * 2013-06-18 2015-01-05 キヤノン株式会社 情報処理システムおよびその制御方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
中村 優吾 外4名: "ローカル環境での効果的な動画像解析を実現する分散処理システムの提案", 情報処理学会研究報告 VOL. 2016-MBL-79 NO. 32, vol. Vol. 2016-MBL-79 No. 32, JPN6021013662, 19 May 2016 (2016-05-19), JP, pages 1 - 7, ISSN: 0004487160 *
白井良明,三浦純: "複雑背景における人の追跡", 情報処理学会論文誌 VOL 43 NO. SIG4(CVIM 4) コンピュータビジョンとイメージメディア, vol. Vol 43 No. SIG4(CVIM 4), JPN6021013664, 15 June 2002 (2002-06-15), JP, pages 33 - 42, ISSN: 0004487161 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7525220B2 (ja) 2020-04-08 2024-07-30 日本電気通信システム株式会社 推定装置、学習装置、推定方法及びプログラム
JP2022064808A (ja) * 2020-10-14 2022-04-26 財團法人工業技術研究院 画像認識方法および画像認識システム
US11507776B2 (en) 2020-10-14 2022-11-22 Industrial Technology Research Institute Image recognition method for detection tasks based on single convolutional neural network and image recognition system thereof

Also Published As

Publication number Publication date
IL267115B (en) 2022-04-01
CA3077830A1 (en) 2018-06-05
CA3077830C (en) 2023-03-07
US10726312B2 (en) 2020-07-28
AU2017372905B2 (en) 2022-08-11
CA3000127A1 (en) 2018-06-05
CN110235138B (zh) 2023-09-05
MX2019006588A (es) 2019-10-09
CN110235138A (zh) 2019-09-13
IL267115A (en) 2019-08-29
AU2022252799A1 (en) 2022-11-03
EP3549063A1 (en) 2019-10-09
AU2022252799B2 (en) 2023-09-28
JP2023145558A (ja) 2023-10-11
WO2018102919A1 (en) 2018-06-14
KR20190099443A (ko) 2019-08-27
CN117095349A (zh) 2023-11-21
KR102560308B1 (ko) 2023-07-27
US20180157939A1 (en) 2018-06-07
CA3000127C (en) 2020-06-02
EP3549063A4 (en) 2020-06-24
JP2022023887A (ja) 2022-02-08
US20200320356A1 (en) 2020-10-08
US11113587B2 (en) 2021-09-07
JP7317919B2 (ja) 2023-07-31
AU2017372905A1 (en) 2019-07-04

Similar Documents

Publication Publication Date Title
JP7317919B2 (ja) 外観検索のシステムおよび方法
US10628683B2 (en) System and method for CNN layer sharing
US10846554B2 (en) Hash-based appearance search
US11023707B2 (en) System and method for selecting a part of a video image for a face detection operation
JP6419830B2 (ja) 画像検索のためのシステム、方法、および装置
WO2020017190A1 (ja) 映像解析装置、人物検索システムおよび人物検索方法
Nabi et al. Temporal poselets for collective activity detection and recognition
CA3011713A1 (en) Hash-based appearance search
AU2019303730B2 (en) Hash-based appearance search
US12080023B2 (en) Trajectory linking apparatus, trajectory linking method, and non-transitory computer readable medium storing program
JP2016207106A (ja) 物体検出における誤検出低減方法および装置
JP2015158745A (ja) 行動識別器生成装置、行動認識装置及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201130

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201130

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20201130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210323

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210407

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210420

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20210603

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210715

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20210608

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20211125