JP6875262B2 - モーションビデオにおいて事象を識別するための方法 - Google Patents

モーションビデオにおいて事象を識別するための方法 Download PDF

Info

Publication number
JP6875262B2
JP6875262B2 JP2017231462A JP2017231462A JP6875262B2 JP 6875262 B2 JP6875262 B2 JP 6875262B2 JP 2017231462 A JP2017231462 A JP 2017231462A JP 2017231462 A JP2017231462 A JP 2017231462A JP 6875262 B2 JP6875262 B2 JP 6875262B2
Authority
JP
Japan
Prior art keywords
event
camera
neural network
data
motion video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017231462A
Other languages
English (en)
Other versions
JP2018142299A (ja
JP2018142299A5 (ja
Inventor
ヴィクトル エドパルム,
ヴィクトル エドパルム,
エーリク アンデション,
エーリク アンデション,
ソン ユアン,
ソン ユアン,
Original Assignee
アクシス アーベー
アクシス アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アクシス アーベー, アクシス アーベー filed Critical アクシス アーベー
Publication of JP2018142299A publication Critical patent/JP2018142299A/ja
Publication of JP2018142299A5 publication Critical patent/JP2018142299A5/ja
Application granted granted Critical
Publication of JP6875262B2 publication Critical patent/JP6875262B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/18Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
    • G08B13/189Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
    • G08B13/194Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
    • G08B13/196Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
    • G08B13/19602Image analysis to detect motion of the intruder, e.g. by frame subtraction
    • G08B13/19606Discriminating between target movement or movement in an area of interest and other non-signicative movements, e.g. target movements induced by camera shake or movements of pets, falling leaves, rotating fan
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/183Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)
  • Alarm Systems (AREA)

Description

本発明は、モーションビデオにおいて事象を識別するためのプロセスおよびデバイスに関する。
今日の監視および/またはモニタリングシステムは、動き、侵入、暴力行為、徘徊、置き去りにされた品物、その他などの事象を検出するように、度々構成される。モニターされる場面において発生する事象を、システムに検出させ、認識させることによって、このタイプの監視および/またはモニタリングシステムの動作が促進されるが、それは、多くの同時に調査される場面を有するシステムにおいてモニターするために要する人的資源がより少なくて済むからである。しかしながら、システムに事象を認識させ、検出させることは、多量の処理能力を要する。これについての1つの理由は、検出された、および/または認識される事象を示すために、空間的および時間的両方の、かなりの量の画像データを要することである。
本発明の1つの目的は、減少した量の処理能力および他のコンピューティングリソースを要する事象検出方法を提供することである。
本目的は、請求項1に記載の方法を用いて、かつ請求項12に記載のシステムを用いて達成される。本発明のさらなる実施形態は、従属請求項に提示されている。
とりわけ、本発明のいくつかの実施形態によれば、モーションビデオカメラによって取り込まれた場面における事象を識別するための方法が、一時的識別プロセスおよび長期的識別プロセスの2つの識別プロセスを備える。一時的識別プロセスは、取り込まれた画像フレームからピクセルデータを分析することによって、取り込まれた場面における事象を識別することと、事象の識別の対象となる各画像フレームに関係するカメラ処理データを登録することと、登録されたカメラ処理データを入力として使用するように構成された事象識別動作に属する重みを調整することとを含み、ここで、重みは、事象識別動作からの結果と、取り込まれた場面の取り込まれた画像フレームからのピクセルの分析に基づいた識別からの結果との相関性を高めるために調整される。長期的識別プロセスは、登録されたカメラ処理データを事象識別動作に入力することによって、取り込まれた場面における事象を識別することを含む。さらに、一時的識別プロセスは、所定の時間期間の間に実行され、長期的識別プロセスは、あらかじめ決められた初期時間が終了した後に実行される。事象識別をカメラ処理データに基づかせる1つの利点は、処理されるデータの量が、画像を表すピクセルデータの場合よりもはるかに低量なので、事象検出のために要する処理能力が減少することである。その上、カメラ処理データは、モーションビデオカメラの周囲状況、およびモーションビデオカメラがどのように設置されているかということ、たとえば、高いところから見下ろしているのか、地上レベルの低さで見上げているのか、人の肩の高さにあるのか、場面における動きの移動方向にあるのか、場面における動きの移動方向に直交するのか、交通監視のためか、人々の動きを追跡するためか、街区にあるのか、駐車場にあるのか、ガレージにあるのか、店舗にあるのか、ショッピングモールにあるのか、道路横にあるのかなどに大いに依存していることがあるので、一時的識別プロセスにおいてそのモーションビデオカメラ用に提供された独自のトレーニングによって、長期的識別プロセスからの結果の品質が著しく高まる。したがって、特定の位置における個別のモーションビデオカメラ用の独自のトレーニングを用いて、減少した量のデータの使用が可能になる。したがって、初期のおよび独自のトレーニングと、次いでトレーニングおよび低データレートのカメラ処理データに基づいた事象識別との2つのステップのプロセスが、事象検出を低い処理能力要件で許容する結果に結びつく。したがって、事象識別は、限定されたコンピューティングリソースしか有さないモニタリングカメラによってもまた使用され得る。
さらに、いくつかの実施形態において、一時的識別プロセスは、モーションビデオカメラが初期にセットアップされるときに開始され、これらの実施形態またはいくつかの他の実施形態において、一時的識別プロセスは、要求により開始される。したがって、カメラ処理データを使用した事象検出動作のトレーニングは、そのカメラの環境用に独自にトレーニングされてよく、異なる環境に動かされた場合は、再トレーニングされてよい。一時的識別プロセスの開始を求める要求は、ユーザによってモーションビデオカメラに入力された命令であってよい。
さらなる実施形態において、一時的識別プロセスは、ネットワークを介してモーションビデオカメラに接続されたデバイスによって実行される。モーションビデオカメラにおけるこのことの利点は、低いコンピューティング容量または処理容量を有するモーションビデオカメラに対して、高いコンピューティング容量または処理容量のデバイス上で、一時的識別プロセスのトレーニングを実行できることである。
いくつかの実施形態において、事象識別動作に属する重みは、一時的識別プロセスの間に、ネットワークを介してモーションビデオカメラに接続されたデバイスに記憶される。これらの実施形態のうちのいくつかにおいて、事象識別動作に属する重みは、ネットワークを介してモーションビデオカメラに転送される。
さらなる実施形態において、カメラ処理データを入力として使用する事象識別動作の重みおよびコードは、長期的識別プロセスで、モーションビデオカメラにおいて実行される。このことの利点は、事象識別プロセスが、事象が識別されたときにのみ、モーションビデオカメラにネットワーク負荷を付与させることを可能にすることである。事象が存在しないとき、たとえば、送らなければならないデータが全くないときには、それに応じてネットワーク負荷を減少させることができ、事象が発生したことを識別するために送られるべき限定された量のデータのみを要するので、事象が検出されたときのネットワーク負荷もまた減少させることができる。
いくつかの実施形態は、長期的識別プロセスにおいて失敗した事象識別に応答して、一時的識別プロセスを再開することをさらに備える。
いくつかの実施形態において、登録されたカメラ処理データを入力として使用するように構成された事象識別動作に属する重みを調整することは、ニューラルネットワークトレーニングセッションの一部である。
他の実施形態において、事象識別動作は、ニューラルネットワークによって実施される。
本発明の別の態様によれば、通信ネットワークを介して通信するように構成されたモーションビデオカメラと処理デバイスとを含むシステムが、上の実施形態のうちのいずれかによる方法を実施するように構成される。上の実施形態に関して提示された利点は、システムに関係した対応する実施形態に適用可能である。
いくつかの実施形態において、処理デバイスは、一時的識別プロセスを実施するように構成される。他の実施形態において、モーションビデオカメラは、長期的識別プロセスを実施するように構成される。さらに他の実施形態において、処理デバイスは、長期的識別プロセスを実施するように構成される。本発明の適用可能性のさらなる範囲は、下で述べる詳細な説明から明らかになるであろう。しかしながら、当業者には、本発明の範囲内でのさまざまな変更および修正がこの詳細な説明から明らかとなるので、詳細な説明および個別の例は、本発明の好ましい実施形態を示すものの、例示のみとして述べられることが理解されるべきである。したがって、そのようなデバイスおよび方法は多様であってよいので、本発明は、説明されるデバイスの特定のコンポーネント部分、または説明される方法のステップには限定されないことを理解されたい。本明細書で使用される専門用語は、特定の実施形態を説明する目的のためのみであり、限定することを意図しないこともまた理解されたい。本明細書および添付の請求項において使用されるとき、冠詞「a」、「an」、「the」、および「said」は、コンテキストが別段明白に指図しない限り、要素のうちの1つまたは複数が存在することを意味するように意図されることに留意しなければならない。よって、たとえば、「a sensor」または「the sensor」への参照は、数個のセンサなどを含むことがある。さらに、単語「comprising(備える)」は、他の要素またはステップを排除しない。
本発明の他の特徴および利点は、付属の図面を参照して、以下の現時点で好ましい実施形態の詳細な説明から明らかになるであろう。
本発明の実施形態のプロセスの流れ図である。 本発明の実施形態を実装するシステムの概略ブロック図である。
さらに、図において、同様の参照文字は、数個の図面の全体を通して、同様のまたは対応する部分を指す。
本発明は、モーションビデオにおける事象の検出に関する。一実施形態によれば、事象の検出および識別は、直接画像データの代わりに、カメラ処理データに基づく。カメラ処理データは、具体例として、カメラによって取り込まれた符号化されたビデオストリームのデータレートを示す値、登録されたカメラ処理データの残りに関係した時間点、オートフォーカス距離を示す値、オートホワイトバランス機能の設定を示す値、オート露出設定、たとえば、絞り、シャッター時間、ゲイン、電子画像安定化データに関係した値、信号対ノイズ比の値、取り込まれたフレームにおけるコントラストを示す値、ネットワークに送られるデータレートを示す値、CPU使用量を示す値、メモリ使用量を示す値、ジャイロまたは加速度計からのデータ、カメラに接続されたパンチルトズームヘッドからの位置データ、レーダセンサからのデータ、受動赤外線センサからのデータ、などであってよい。カメラ処理データは、代替として、または上で言及したものに加えて、上で言及した値のシーケンス、すなわち、露出カーブ、時間期間にわたるデータレートの変動を表すカーブ、オートフォーカスによって示される距離の変動を表すカーブなどから形成されてもよい。加えて、カメラの画像処理において実装される個別の画像符号化方式からの、最終的なおよび/または中間的な値の両方のさまざまな値が、カメラ処理データを表していることがある。上のカメラ処理データの例から明白であるように、全体のフレームを表す画像ピクセルデータの代わりにカメラ処理データを使用するとき、処理するためのデータの量を著しく減少させることができる。
カメラ処理データを使用して事象を検出するためのプロセスの設計を促進するために、分類のために設計されたニューラルネットワークが、カメラ処理データを入力として使用して事象を検出するようにトレーニングされる。そのようなニューラルネットワークの例は、分類のために設計されたニューラルネットワーク、分類のために設計された畳み込みニューラルネットワーク、リカレントニューラルネットワーク、リカーシブニューラルネットワーク、ディープビリーフネットワーク、Boltzmannマシン、などである。
一般的な分類ニューラルネットワークを、さまざまなカメラにおける、または処理に基づいた、事象検出器として使用するようにトレーニングすることの1つの問題は、データのうちのいくつかがすべてのカメラにおいて入手可能ではないこと、およびデータのうちのいくつかが異なるカメラ間で極めて多様であり得ることである。異なるカメラ間でのばらつきの1つの理由は、カメラが、異なる環境において、異なるビュー角度で、異なる光条件などで設置されていること、および/または、カメラが異なるカメラであることである。
本発明の一実施形態によれば、この問題は、2つのステップの事象検出プロセスを実装することによって対処される。初期の一時的識別プロセスの間に、取り込まれたフレームにおけるピクセル情報に基づいて、取り込まれた画像フレームにおける事象を識別するためによく知られた事象識別プロセスが使用され、すなわち、取り込まれた場面において発生する事象を識別するために、画像フレームのシーケンスにおいて取り込まれたピクセルデータが分析される。同時に、この一時的識別プロセスでは、一組のさまざまなカメラ処理データが登録される。登録されたカメラ処理データは、ピクセルデータに基づいて事象を識別するプロセスで識別されたのと同じ識別された事象に達するように、ニューラルネットワークをトレーニングするための入力として使用される。この一時的識別プロセスは、ニューラルネットワークが受け入れ可能な信頼水準に届いたとき、またはオペレータがプロセスに停止するように告げたときに、終了する。一時的識別プロセスが停止したとき、事象識別は、トレーニングされたニューラルネットワークによって続行され、ニューラルネットワークは、長期的識別プロセスにおける入力としてのカメラ処理データを受信している。
本発明のいくつかの実施形態によれば、事象識別プロセスは、図1の流れ図で説明されるように実施される。事象を識別するための方法は、一時的識別プロセス102で開始され、このプロセスでは、ステップ104で、場面の1つの画像フレーム、または取り込まれた画像フレームのシーケンスのピクセルデータ上で動作させることによって、取り込まれた場面における事象が識別される。さらに、ステップ106で、事象を識別するのに使用される取り込まれた1つまたは複数のフレームに対応する時間期間に関係するカメラ処理データが登録される。次いで、ステップ108で、登録されたカメラ処理データが、ニューラルネットワークを基にした事象識別動作のトレーニングにおける入力として使用され、ピクセルを基にした事象識別動作から識別された事象が、登録されたカメラ処理データのこの入力から生じた事象の適正な分類として使用される。トレーニング動作は、ニューラルネットワークのノードにおける重みの調整を含むことができる。カメラ処理データの入力から生じた分類が、ピクセルを基にした事象識別動作によって識別された分類に近くなるように、重みが調整される。次いで、ステップ110で、一時的識別プロセスのための既定の時間期間が終了するかどうかを確認することによって、プロセスは継続する。一時的識別プロセスのための時間期間が終了していない場合、プロセスは、ステップ104に戻り、一時的識別プロセスにおいて継続する。一時的識別プロセスのための時間期間が終了している場合、プロセスは、ステップ114で、次の画像フレームを取り込み、ステップ116で、その画像フレームの取り込みの時間期間に関係するカメラ処理データを登録することによって、長期的識別プロセスにおいて継続する。次いで、ステップ118で、取り込まれた画像フレームの時間期間に関係するカメラ処理データが、ニューラルネットワークを基にした事象識別動作に、入力として送られる。ニューラルネットワークを基にした事象識別動作への入力は、代替として、またはそれに加えて、1つの画像フレームの時間期間よりも長い時間期間に関係するカメラ処理データを含んでもよく、たとえば、より長い時間期間にわたって拡大したカメラ処理データのより多いサンプルを含んでもよい。次いで、ステップ120で、プロセスは、追加のトレーニングを求める要求が受信されているかどうかを確認する。追加のトレーニングを求める要求が受信されていない場合、長期的識別プロセス112は、プロセス114に戻ることによって継続する。追加のトレーニングを求める要求が受信されている場合、プロセスは、一時的識別プロセスのステップ104に戻る。
実装されるニューラルネットワークは、具体例として、リカレントニューラルネットワーク(RNN)であってよく、そのようなRNNのために使用される学習アルゴリズムは、バックプロパゲーションまたは共役勾配などの学習アルゴリズムであってよい。カメラ処理データは、時系列として見なされてよく、最初にトレーニングされ、後で事象の分類のために処理される。既存のRNNの実装の多くが、一変量の時系列および/または多変量の時系列を処理することができ、すなわち、RNNは、1つの成分および/または多数の成分を保有するベクトルのシーケンスを処理することができる。たとえば、一変量の時系列の処理は、符号化されたビデオストリームのデータレートを示す値のシーケンスの処理であってよい。多変量の時系列の処理の例はその場合、ベクトルのシーケンスの処理であってよく、ここでは各ベクトルが、符号化されたデータストリームのデータレートを示す値、およびホワイトバランスを示す値を含む。カメラ処理データの任意の組合せが可能であり、組合せは、2つの異なるデータタイプのみを組み合わせることに限定されるべきではなく、複数のデータタイプを非常に首尾よく組み合わせることができる。説明される方法はまた、時系列ではないデータ上で使用されてもよく、そのようなケースでは、方法は、その特定の分類動作のために好適なニューラルネットワークを使用していることがある。
次に図2を参照すると、本発明の実施形態によるシステムが、以下でネットワーク214と呼ぶ通信ネットワーク214を介して互いに接続された、モーションビデオカメラ210と、処理デバイス212とを備える。処理デバイス212は、具体例として、PC、ワークステーション、サーバ、またはデータを処理するように可能にする任意の他のタイプのネットワーク接続可能なデバイスであってよい。ネットワーク214は、任意のタイプのネットワーク、たとえば、イーサネット、Wi−Fi、LAN、WAN、インターネット、セルラー接続、公衆交換電話ネットワークなどであってよい。2つの識別プロセス、一時的識別プロセス102および長期的識別プロセス112は、2つのデバイス、すなわち、モーションビデオカメラ210および処理デバイス212のうちのいずれか1つにおいて実施されるように構成されてよい。モーションビデオカメラが多量の予備処理能力を有するケースでは、モーションビデオカメラが両方のプロセスを実行することができる。この処理能力に関して、モーションビデオカメラがその容量において非常に限定されている実施形態においては、両方のプロセスが処理デバイス212において実行されてもよく、処理デバイス212はその場合、モーションビデオカメラから、動作させるためのデータを受信している。このケースにおいて、本発明のプロセスを使用する利益は、長期的識別プロセスがいかなる画像データも要さないので、事象識別プロセスが一時的識別プロセスをスイッチオフにしたときに、ネットワーク負荷を減少させることができることであり、そのようなデータは、その段階では必ずしもカメラによって送信されない。
さらに別のシナリオにおいて、ニューラルネットワークの学習段階および全体の画像フレームの分析を含む一時的識別プロセスは、それに応じて、2つの識別プロセスのうち最も多くの処理を要しているプロセスであり、したがって、処理デバイス212において実行されるように構成される。一方長期的識別プロセスは、はるかに少ない処理しか要さないので、このプロセスはモーションビデオカメラにおいて実行され、その場合、とりわけ長期において、カメラによってネットワークに送信されるデータの量を非常に減少させることができ、なぜなら、事象が検出されない限り、モーションビデオカメラはデータを送ることを回避してよいからである。
いずれにせよ、モーションビデオカメラは、レンズ216と、画像センサ218と、画像処理ユニット220とを含み、これらはその組合せにおいて、カメラビューの場面において光を取り込み、その光からデジタル画像データを生成するように構成される。多くのモーションビデオカメラにおいて、取り込まれたデジタル画像データの圧縮および符号化は、画像処理デバイスにおいて実施される。さらに、モーションビデオカメラ210は、モーションカメラデバイスのより一般的な機能に関係したプログラムを実行するように構成された中央処理ユニット222を含む。画像処理は、画像処理デバイスによって処理されるので、中央処理ユニット222は、通常、そのような動作には関わらない。モーションビデオカメラはまた、揮発性メモリ224と、不揮発性メモリ226とを含み、揮発性メモリ224は、主として、処理デバイスによる実行中、データおよび/またはプログラムコードの一時的な記憶のための作業メモリとして使用され、不揮発性メモリ226は、モーションビデオカメラに長期間記憶されることになるデータおよびコードの記憶のために構成される。さらに、モーションビデオカメラ210は、カメラ処理データ登録モジュール228と、事象識別動作モジュール230と、ネットワークインターフェース232とを含む。カメラ処理データ登録モジュール228は、カメラ処理データを、モーションビデオカメラにおけるさまざまな物理的および/または論理的インターフェースから取り出す、または受信するように構成される。たとえば、生成された画像ストリームの現在のデータレートは、画像プロセッサ220から、またはネットワークインターフェース232から取り出すことができ、温度は、カメラにおける温度センサへのインターフェースから受信することができる、などである。事象識別動作モジュール230は、処理デバイス212上で稼働していてよい一時的識別プロセスが、登録されたカメラ処理データを使用するように構成された事象識別動作を調整することを済ませるまで、たとえば、カメラ処理データを入力として使用して動作するニューラルネットワークを調整することを済ませるまでは、モーションビデオカメラ210に存在しなくてもよい。ネットワークインターフェース232は、カメラをネットワーク214に接続するための、任意の知られたタイプのネットワークインターフェースであってよい。
処理デバイス212もまた、ネットワークインターフェース234と、不揮発性メモリ236と、揮発性メモリ238と、中央処理ユニット240とを含む。ネットワークインターフェース234は、処理デバイスをネットワークに接続するように構成され、ネットワーク214を通じたモーションビデオカメラ210へのネットワーク通信を達成するために、任意の知られたやり方で実装されてよい。中央処理ユニット240、揮発性メモリ238、および不揮発性メモリ236は、プログラムコードを実行し、一時的なデータおよび/またはプログラムコードを記憶し、長期的なデータおよび/またはプログラムコードを記憶するように構成される。さらに、処理デバイス212は、ピクセルを基にした事象識別動作モジュール242と、事象識別動作トレーニングモジュール244とを含む。ピクセルを基にした事象識別動作モジュール242、および事象識別動作トレーニングモジュール244は、中央処理ユニット240によって、処理デバイス212において記憶され、実行されるプログラムコードとして実装されてよい。
ピクセルを基にした事象識別動作は、画像フレームにおけるピクセルおよびピクセルの特性を分析することによって、一度に1つの画像フレーム上で、または一度に画像フレームのシーケンスで動作している、1つまたは複数のよく知られた事象識別動作を含むことができる。画像フレームは、モーションビデオカメラによって取り込まれた画像フレームであり、処理デバイス212で一時的プロセスが実施されるシステムにおいては、これらの取り込まれた画像フレームが、ネットワークを通じて処理デバイス212に送られる。ピクセルを基にした事象識別動作の例は、場面に到来する乗り物、場面に到来する乗り物のタイプ、場面に到来する乗り物のスピード、場面に到来する乗り物の数などである。ピクセルを基にした事象識別動作はまた、もしくはそれに代えて、場面に到来する人、場面に到来する動物、場面に到来する個別のオブジェクトなどに関係してもよく、上の乗り物について提示したバリエーションもまた含むことができる。さらに、ピクセルを基にした事象識別動作は、モーションが場面に発生したこと、徘徊、大群衆の集まり、交通渋滞、降雪、降雨、煙霧、および筐体の汚れ、ピントが外れたレンズ、異常のせいで劣化した画像などを識別することを含むことができる。
一時的プロセスが処理デバイスにおいて実施される図2に図示されたシステムにおいて、カメラは、少なくとも一時的プロセスの実行の間に、取り込まれた場面の画像フレームを含むビデオストリームと、モーションビデオカメラおよび/またはセットアップに関連したカメラ処理データとを送信する。動作させるためにどのタイプのカメラ処理データを選択するかは、さまざまなカメラ処理データの入手可能性により限定され、特定のカメラにおける上の例を参照されたい。さらに、カメラ処理データのタイプがさらに限定されることもある。しかしながら、特定のカメラについてのカメラ処理データを表す全体の入手可能なデータセットは比較的小さい可能性が高いので、全体のセットをしばしば使用することができる。事象識別動作を表すニューラルネットワークのトレーニングは、トレーニング入力をトリガすると、ピクセルを基にした事象識別動作を使用することによって実行される。すなわち、ある事象がピクセルを基にした事象識別動作によって識別されるとき、入力されたカメラ処理データを、ピクセルを基にした事象識別動作によって検出された事象と同じ事象として、より高い可能性でニューラルネットワークに識別させるために、ニューラルネットワークをトレーニングするプロセスは、トレーニングプロセスに対する識別よりも前の時間期間を表すカメラ処理データを入力として構成し、トレーニングプロセスでニューラルネットワークの重みを調整する。
システムの追加的なトレーニングは、上で説明したように始めることができ、それに応じて、一時的識別プロセスの再開を含むことができる。加えて、または代替として、事象識別動作が事象を分類し、あらかじめ決められた閾値よりも低い個別の分類について事象識別動作によって生成された信頼値をもたらすことに応答して、カメラ処理データを入力として使用するように構成された事象識別動作のさらなるトレーニング、またはさらなる向上を始めることができる。信頼値が低いほど、分類はより不確実である。そのようなさらなるトレーニングは、ピクセルデータと、低い信頼の分類を得る事象についての時間点を含む時間期間に関係するカメラ処理データとを取り出すことによって開始されることになる。これらのデータセットは次いで、事象識別動作を向上させるために、トレーニング動作によって、すなわち、ピクセルを基にした事象識別動作および事象識別動作の重みを調整するプロセスによって、処理されることになる。次いで、向上した事象識別動作が、それ以前の事象識別動作に取って代わるように構成される。
先に言及したように、カメラ処理データに基づいて事象を識別する利点は数多い。そのような利点の理解を促進するために、時間的に圧縮されたビデオの画像ストリームデータレートを本発明におけるカメラ処理データとして使用することを、以下でもう少し詳細に説明することにする。画像ストリームデータレートは、事象検出が所望される場面のモーションビデオを取り込んでいるカメラ210の画像処理デバイス220において、時間的に圧縮するビデオ符号器によって生成されたデータの量を表す基準である。符号器によって生成されたデータの量は、連続して取り込まれた画像フレーム間での変化量に依存する。たとえば、本質的に動いているオブジェクトを有さない場面の画像シーケンスは、多量の動きを有する場面の画像シーケンスよりも、少ない符号化されたデータをもたらすことになる。したがって、符号化ステップ後のデータの量は、連続して取り込まれた画像における変動に激しく依存する。これはまた、符号器によって生成されている符号化された画像データの量が、場面における動きによって影響される画像センサ上のピクセルの数に依存しているものとして説明することができる。具体例として、カメラに近いオブジェクトまたは場面の中の大きなオブジェクトは、カメラから遠いオブジェクトまたは小さなオブジェクトよりも、画像センサ上の多くのピクセルにインパクトを有することになる。それに応じて、データの量は、画像情報の時間的圧縮の効果となる。
本発明の実施形態によれば、モニターされる場面のモーションビデオを含む、データストリームにおける単位時間あたりのデータ量を表す複数のデータレートが、測定され、順次登録され、カメラ処理データに含まれる。それにより、経時的にデータレートの変動を表すデータセットが登録される。データレートは、システムのさまざまな場所から、測定する、または取り出すことができる。たとえば、データレートは、カメラ210の画像処理デバイス220における符号器で、カメラのネットワークインターフェース232で、ネットワーク214におけるスイッチもしくはルータで、またはネットワーク214に接続された処理デバイス212におけるネットワークインターフェース234もしくは復号器で、測定する、または取り出すことができる。データレートは、画像ストリームを表すストリーム上で直接測定することができるが、モーションビデオを送信するネットワークパケットのデータレートを測定することによってもまた測定することができる。データストリームの、または任意のデータ送信のデータレートを測定するプロセスは、当業者によく知られている。経時的にデータレートを表すデータセットは、とりわけモーションビデオストリームを表すのに要するデータと比較して、非常に低いデータの量を使用して表すことができる。たとえば、経時的にデータレートの変動を表すデータセットに、画像ストリームにおける各画像を表すのに使用されるデータの量を表す値またはデータエントリを含めることを考えてみたい。カメラが10メガピクセルカメラである場合、イントラフレーム、すなわち空間的に符号化されたイントラフレームのサイズは、標準的な符号器のいずれかを使用して、およそ2.5MBとなる。ロスレス符号化方式を使用して10メガピクセルフレームが符号化されるとしても、10MBよりもはるかに大きいサイズを有することにはならない。0MB〜10MBの間のあらゆるサイズを表す値またはデータエントリを登録するために、必要となるのはほんの3バイトにすぎず、なぜなら3バイトは、1600万を超える値を表すことができることになるからである。データレートの分解能がそれほど重要ではないケースでは、2または1バイトを使用してデータレートを表すことさえ可能であることがある。ともかく、データセットにおいてデータレートを表すのに必要とされるデータは、1つのイントラフレームを表すために使用されるデータよりも、優にほぼ100万倍は少なくてよい。ストリーミングビデオにおいて、インターフレームは時間的に符号化されているので、フレームあたりに使用されるデータは当然より少ないことになる。しかしながら、使用されるデータセットは、あらゆるフレームのサイズを含む必要はなくてもよく、所定の時間期間にわたって蓄積されたデータ量を表すことができる。一実施形態において、フレームサイズは、データレートの表現として登録される。フレームサイズは、フレームを符号化するのに必要とされるデータの量を示す。フレームサイズは、4バイト(32ビット)を使用して登録され、フレームサイズは、フレームごとに登録される。フレームは、1秒あたり30フレームで取り込まれ、それに応じて、事象の検出のために本発明によって使用されるデータは、本実施形態において、0.12Kb/sであってよい。これは、通常のモーションビデオストリームの6000Kb/sのデータレートよりもはるかに低い。
それに応じて、本発明によるシステムが長期的識別プロセスに切り替えたとき、事象を検出するために要するデータの量の極端な減少は、ピクセルを基にした事象検出動作に比べて、事象識別動作の処理能力要件に著しく影響を及ぼすことになる。事象識別動作が追加的な情報のタイプを入力として有するように設計されているとしても、上で言及したように、これらの追加のデータセットは、画像フレームまたは画像フレームのシーケンスを表すのに必要とされるデータ量に比べて、依然として非常に少ないことになる。
102 一時的識別プロセス
112 長期的識別プロセス
210 モーションビデオカメラ
212 処理デバイス
214 通信ネットワーク
216 レンズ
218 画像センサ
220 画像処理ユニット、画像プロセッサ、画像処理デバイス
222 中央処理ユニット
224 揮発性メモリ
226 不揮発性メモリ
228 カメラ処理データ登録モジュール
230 事象識別動作モジュール
232 ネットワークインターフェース
234 ネットワークインターフェース
236 不揮発性メモリ
238 揮発性メモリ
240 中央処理ユニット
242 ピクセルを基にした事象識別動作モジュール
244 事象識別動作トレーニングモジュール

Claims (24)

  1. 一時的識別プロセスおよび長期的識別プロセスを備える、モーションビデオカメラによって取り込まれた場面における事象を識別するための方法であって、
    前記一時的識別プロセスが、
    取り込まれた画像フレームからピクセルデータを分析することによって、前記取り込まれた場面における事象を識別することと、
    前記事象の識別の対象となる前記画像フレームに関係するカメラ処理データを登録することであって、前記カメラ処理データは、カメラによって取り込まれた符号化されたビデオストリームのデータレート、オートフォーカス距離、オートホワイトバランス機能の設定、オート露出設定、シャッター時間、ゲイン、号対ノイズ比、取り込まれたフレームにおけるコントラスト、ネットワークに送られるデータレート、中央処理装置(CPU)使用量、メモリ使用量、ジャイロまたは加速度計からのデータ、および前記カメラに接続されたパンチルトズーム(PTZ)ヘッドからの位置データのうちの少なくとも1つを含む、カメラ処理データを登録することと、
    事象の前記識別の対象となる前記画像フレームに関係する前記登録されたカメラ処理データを、入力として使用し、前記識別された事象を、ニューラルネットワークを基にした事象識別動作から生じた事象の適正な分類として使用して、前記ニューラルネットワークを基にした事象識別動作をトレーニングすることと
    を含み、
    前記長期的識別プロセスが、
    ピクセルデータの分析のために使用された前記画像フレームに引き続いて取り込まれた画像フレームに関係するカメラ処理データを登録することと、
    ピクセルデータの前記分析のために使用された前記画像フレームに引き続いて取り込まれた画像フレームに関係する登録されたカメラ処理データを、前記トレーニングされたニューラルネットワークを基にした事象識別動作に入力することによって、前記取り込まれた場面における事象を識別することと
    を含み、
    前記一時的識別プロセスが、所定の時間期間の間に実行され、前記長期的識別プロセスが、前記所定の時間期間が終了した後に実行される、
    方法。
  2. 前記ニューラルネットワークを基にした事象識別動作を前記トレーニングすることが、前記ニューラルネットワークを基にした事象識別動作のノードに属する重みを調整することを含み、前記ニューラルネットワークを基にした事象識別動作から生じた事象の分類が、前記取り込まれた画像フレームからのピクセルデータの前記分析によって識別された事象の分類に近くなるように、前記ニューラルネットワークを基にした事象識別動作の前記ノードの前記重みが調整される、請求項1に記載の方法。
  3. 前記重みが、前記一時的識別プロセスの間に、ネットワークを介して前記モーションビデオカメラに接続されたデバイスに記憶される、請求項2に記載の方法。
  4. 前記重みが、前記ネットワークを介して前記モーションビデオカメラに転送される、請求項3に記載の方法。
  5. 前記一時的識別プロセスが、要求により開始される、請求項1に記載の方法。
  6. 前記要求が、ユーザによって前記モーションビデオカメラに入力された命令である、請求項5に記載の方法。
  7. 前記一時的識別プロセスが、ネットワークを介して前記モーションビデオカメラに接続されたデバイスによって実行される、請求項1に記載の方法。
  8. 前記ニューラルネットワークを基にした事象識別動作の重みおよびコードが、前記長期的識別プロセスで、前記モーションビデオカメラにおいて実行される、請求項1に記載の方法。
  9. 前記長期的識別プロセスにおいて、前記ニューラルネットワークを基にした事象識別動作によって生成された信頼値が所定の閾値を下回ることに応答して、前記一時的識別プロセスを再開することをさらに備える、請求項1に記載の方法。
  10. 通信ネットワークを介して通信するように構成されたモーションビデオカメラと処理デバイスとを含むシステムであって、
    前記処理デバイスは一時的識別プロセスを使用するように構成されており、前記処理デバイスは、
    前記処理デバイスの中央処理装置(CPU)に動作可能に連結された前記処理デバイスのネットワークインターフェースであって、前記処理デバイスの前記ネットワークインターフェース及び前記処理デバイスの前記CPUは、取り込まれた画像フレームからピクセルデータを分析することによって、前記モーションビデオカメラによって取り込まれた場面における事象を識別するように構成されている、ネットワークインターフェース、及び
    前記事象の識別の対象となる前記画像フレームに関係するカメラ処理データを登録するように構成された前記処理デバイスの前記CPUであって、前記カメラ処理データは、カメラによって取り込まれた符号化されたビデオストリームのデータレート、オートフォーカス距離、オートホワイトバランス機能の設定、オート露出設定、シャッター時間、ゲイン、号対ノイズ比、取り込まれたフレームにおけるコントラスト、ネットワークに送られるデータレート、中央処理装置(CPU)使用量、メモリ使用量、ジャイロまたは加速度計からのデータ、および前記カメラに接続されたパンチルトズーム(PTZ)ヘッドからの位置データのうちの少なくとも1つを含む、前記CPU、及び
    事象の前記識別の対象となる前記画像フレームに関係する前記登録されたカメラ処理データを、入力として使用し、前記識別された事象を、ニューラルネットワークを基にした事象識別動作から生じた事象の適正な分類として使用して、前記ニューラルネットワークを基にした事象識別動作をトレーニングするように構成された、前記CPU
    を備え、
    前記モーションビデオカメラは長期的識別プロセスを使用するように構成されており、前記モーションビデオカメラは、
    ピクセルデータの分析のために使用された前記画像フレームに引き続いて取り込まれた画像フレームに関係するカメラ処理データを登録するように構成された、前記モーションビデオカメラのCPU、及び
    前記モーションビデオカメラの前記CPUに動作可能に連結された前記モーションビデオカメラのネットワークインターフェースであって、前記モーションビデオカメラの前記ネットワークインターフェース及び前記モーションビデオカメラの前記CPUは、ピクセルデータの前記分析のために使用された前記画像フレームに引き続いて取り込まれた画像フレームに関係する登録されたカメラ処理データを、前記トレーニングされたニューラルネットワークを基にした事象識別動作に入力することによって、前記取り込まれた場面における事象を識別するように構成されている、ネットワークインターフェース
    を備え、
    前記一時的識別プロセスが、所定の時間期間の間に実行され、前記長期的識別プロセスが、前記所定の時間期間が終了した後に実行される、システム。
  11. 前記ニューラルネットワークを基にした事象識別動作をトレーニングすることが、前記ニューラルネットワークを基にした事象識別動作のノードに属する重みを調整することを含み、前記ニューラルネットワークを基にした事象識別動作から生じた事象の分類が、前記取り込まれた画像フレームからのピクセルデータの前記分析によって識別された事象の分類に近くなるように、前記ニューラルネットワークを基にした事象識別動作の前記ノードの前記重みが調整される、請求項10に記載のシステム。
  12. 前記一時的識別プロセスが、要求により開始される、請求項10に記載のシステム。
  13. 前記要求が、ユーザによって前記モーションビデオカメラに入力された命令である、請求項12に記載のシステム。
  14. 前記長期的識別プロセスにおいて、前記ニューラルネットワークを基にした事象識別動作によって生成された信頼値が所定の閾値を下回ることに応答して、前記一時的識別プロセスを再開するように構成された前記処理デバイスをさらに備える、請求項10に記載のシステム。
  15. モーションビデオカメラであって、
    前記モーションビデオカメラは一時的識別プロセスを使用するように構成されており、前記モーションビデオカメラは、
    中央処理装置(CPU)に動作可能に連結されたネットワークインターフェースであって、前記ネットワークインターフェース及び前記CPUは、取り込まれた画像フレームからピクセルデータを分析することによって、前記モーションビデオカメラによって取り込まれた場面における事象を識別するように構成されている、ネットワークインターフェース、
    前記事象の識別の対象となる前記画像フレームに関係するカメラ処理データを登録するように構成された前記CPUであって、前記カメラ処理データは、カメラによって取り込まれた符号化されたビデオストリームのデータレート、オートフォーカス距離、オートホワイトバランス機能の設定、オート露出設定、シャッター時間、ゲイン、号対ノイズ比、取り込まれたフレームにおけるコントラスト、ネットワークに送られるデータレート、中央処理装置(CPU)使用量、メモリ使用量、ジャイロまたは加速度計からのデータ、および前記カメラに接続されたパンチルトズーム(PTZ)ヘッドからの位置データのうちの少なくとも1つを含む、前記CPU、及び
    事象の前記識別の対象となる前記画像フレームに関係する前記登録されたカメラ処理データを、入力として使用し、前記識別された事象を、ニューラルネットワークを基にした事象識別動作から生じた事象の適正な分類として使用して、前記ニューラルネットワークを基にした事象識別動作をトレーニングするように構成された、前記CPU
    を備え、
    前記モーションビデオカメラは長期的識別プロセスを使用するように構成されており、前記モーションビデオカメラはさらに、
    ピクセルデータの分析のために使用された前記画像フレームに引き続いて取り込まれた画像フレームに関係するカメラ処理データを登録するように構成された、前記CPU、及び
    ピクセルデータの前記分析のために使用された前記画像フレームに引き続いて取り込まれた画像フレームに関係する登録されたカメラ処理データを、前記トレーニングされたニューラルネットワークを基にした事象識別動作に入力することによって、前記取り込まれた場面における事象を識別するように構成された、前記ネットワークインターフェース及び前記CPU、
    を備え、
    前記一時的識別プロセスが、所定の時間期間の間に実行され、前記長期的識別プロセスが、前記所定の時間期間が終了した後に実行される、モーションビデオカメラ。
  16. 前記ニューラルネットワークを基にした事象識別動作をトレーニングすることが、前記ニューラルネットワークを基にした事象識別動作のノードに属する重みを調整することを含み、前記ニューラルネットワークを基にした事象識別動作から生じた事象の分類が、前記取り込まれた画像フレームからのピクセルデータの前記分析によって識別された事象の分類に近くなるように、前記ニューラルネットワークを基にした事象識別動作の前記ノードの前記重みが調整される、請求項15に記載のモーションビデオカメラ。
  17. 前記一時的識別プロセスが、要求により開始される、請求項15に記載のモーションビデオカメラ。
  18. 前記要求が、ユーザによって前記モーションビデオカメラに入力された命令である、請求項17に記載のモーションビデオカメラ。
  19. さらに、前記長期的識別プロセスにおいて、前記ニューラルネットワークを基にした事象識別動作によって生成された信頼値が所定の閾値を下回ることに応答して、前記一時的識別プロセスを再開するように構成されている、請求項15に記載のモーションビデオカメラ。
  20. 処理デバイスであって、
    前記処理デバイスは一時的識別プロセスを使用するように構成されており、前記処理デバイスは、
    中央処理装置(CPU)に動作可能に連結されたネットワークインターフェースであって、前記ネットワークインターフェース及び前記CPUは、取り込まれた画像フレームからピクセルデータを分析することによって、モーションビデオカメラによって取り込まれた場面における事象を識別するように構成されている、ネットワークインターフェース、
    前記事象の識別の対象となる前記画像フレームに関係するカメラ処理データを登録するように構成された前記CPUであって、前記カメラ処理データは、カメラによって取り込まれた符号化されたビデオストリームのデータレート、オートフォーカス距離、オートホワイトバランス機能の設定、オート露出設定、シャッター時間、ゲイン、号対ノイズ比、取り込まれたフレームにおけるコントラスト、ネットワークに送られるデータレート、中央処理装置(CPU)使用量、メモリ使用量、ジャイロまたは加速度計からのデータ、および前記カメラに接続されたパンチルトズーム(PTZ)ヘッドからの位置データのうちの少なくとも1つを含む、前記CPU、及び
    事象の前記識別の対象となる前記画像フレームに関係する前記登録されたカメラ処理データを、入力として使用し、前記識別された事象を、ニューラルネットワークを基にした事象識別動作から生じた事象の適正な分類として使用して、前記ニューラルネットワークを基にした事象識別動作をトレーニングするように構成された、前記CPU
    を備え、
    前記処理デバイスは長期的識別プロセスを使用するように構成されており、前記処理デバイスはさらに、
    ピクセルデータの分析のために使用された前記画像フレームに引き続いて取り込まれた画像フレームに関係するカメラ処理データを登録するように構成された、前記CPU、及び
    ピクセルデータの前記分析のために使用された前記画像フレームに引き続いて取り込まれた画像フレームに関係する登録されたカメラ処理データを、前記トレーニングされたニューラルネットワークを基にした事象識別動作に入力することによって、前記取り込まれた場面における事象を識別するように構成された、前記ネットワークインターフェース及び前記CPU、
    を備え、
    前記一時的識別プロセスが、所定の時間期間の間に実行され、前記長期的識別プロセスが、前記所定の時間期間が終了した後に実行される、処理デバイス。
  21. 前記ニューラルネットワークを基にした事象識別動作をトレーニングすることが、前記ニューラルネットワークを基にした事象識別動作のノードに属する重みを調整することを含み、前記ニューラルネットワークを基にした事象識別動作から生じた事象の分類が、前記取り込まれた画像フレームからのピクセルデータの前記分析によって識別された事象の分類に近くなるように、前記ニューラルネットワークを基にした事象識別動作の前記ノードの前記重みが調整される、請求項20に記載の処理デバイス。
  22. 前記一時的識別プロセスが、要求により開始される、請求項20に記載の処理デバイス。
  23. 前記要求が、ユーザによって前記モーションビデオカメラに入力された命令である、請求項22に記載の処理デバイス。
  24. さらに、前記長期的識別プロセスにおいて、前記ニューラルネットワークを基にした事象識別動作によって生成された信頼値が所定の閾値を下回ることに応答して、前記一時的識別プロセスを再開するように構成されている、請求項20に記載の処理デバイス。
JP2017231462A 2016-12-21 2017-12-01 モーションビデオにおいて事象を識別するための方法 Active JP6875262B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP16205865.5A EP3340103A1 (en) 2016-12-21 2016-12-21 Method for identifying events in a motion video
EP16205865.5 2016-12-21

Publications (3)

Publication Number Publication Date
JP2018142299A JP2018142299A (ja) 2018-09-13
JP2018142299A5 JP2018142299A5 (ja) 2021-01-21
JP6875262B2 true JP6875262B2 (ja) 2021-05-19

Family

ID=57755011

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017231462A Active JP6875262B2 (ja) 2016-12-21 2017-12-01 モーションビデオにおいて事象を識別するための方法

Country Status (6)

Country Link
US (1) US10824872B2 (ja)
EP (1) EP3340103A1 (ja)
JP (1) JP6875262B2 (ja)
KR (1) KR102264202B1 (ja)
CN (1) CN108229333B (ja)
TW (1) TWI713794B (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11482256B2 (en) * 2017-01-16 2022-10-25 Zhejiang Dahua Technology Co., Ltd. Systems and methods for video replaying
US10354169B1 (en) * 2017-12-22 2019-07-16 Motorola Solutions, Inc. Method, device, and system for adaptive training of machine learning models via detected in-field contextual sensor events and associated located and retrieved digital audio and/or video imaging
CN110769279B (zh) * 2018-07-27 2023-04-07 北京京东尚科信息技术有限公司 视频处理方法和装置
KR102134902B1 (ko) * 2018-11-15 2020-07-17 (주)지와이네트웍스 딥러닝 기반 음영영상의 시공간적 특성 분석을 활용한 폭력검출 프레임워킹 방법
CN109697815A (zh) * 2019-01-24 2019-04-30 广州市天河区保安服务公司 防盗通讯网络报警方法、装置设备及存储介质
CN110274590B (zh) * 2019-07-08 2022-10-28 哈尔滨工业大学 一种基于决策树的暴力动作检测方法及系统
EP4020963A4 (en) * 2019-08-20 2022-08-10 Sony Interactive Entertainment Inc. IMAGE PROCESSING DEVICE, IMAGE PROCESSING METHOD AND PROGRAM
EP3800581A1 (en) 2019-10-03 2021-04-07 Axis AB A method and apparatus for generating an object classification for an object
CN110749974B (zh) * 2019-11-04 2021-06-01 中南大学 全载玻片成像扫描仪的自动聚焦方法及其图像获取方法
EP3905659B1 (en) * 2020-04-28 2022-06-01 Axis AB Statistics-based electronics image stabilization
CN111757175A (zh) * 2020-06-08 2020-10-09 维沃移动通信有限公司 视频处理方法及装置
US11789542B2 (en) * 2020-10-21 2023-10-17 International Business Machines Corporation Sensor agnostic gesture detection
CN115119044B (zh) * 2021-03-18 2024-01-05 阿里巴巴新加坡控股有限公司 视频处理方法、设备、系统及计算机存储介质
CN113537071B (zh) * 2021-07-19 2023-08-11 深圳龙岗智能视听研究院 一种基于事件相机的静态和动态目标检测方法及设备
CN116402811B (zh) * 2023-06-05 2023-08-18 长沙海信智能系统研究院有限公司 一种打架斗殴行为识别方法及电子设备

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7481453B2 (en) * 1991-07-09 2009-01-27 Automotive Technologies International, Inc. Inflator system
ITRM20010045A1 (it) * 2001-01-29 2002-07-29 Consiglio Nazionale Ricerche Sistema e metodo per la rilevazione della posizione relativa di un oggetto rispetto ad un punto di riferimento.
US8948468B2 (en) * 2003-06-26 2015-02-03 Fotonation Limited Modification of viewing parameters for digital images using face detection information
CN101551732A (zh) * 2009-03-24 2009-10-07 上海水晶石信息技术有限公司 带有交互功能的增强现实的方法及其系统
EP2407943B1 (en) * 2010-07-16 2016-09-28 Axis AB Method for event initiated video capturing and a video camera for capture event initiated video
US8918344B2 (en) * 2011-05-11 2014-12-23 Ari M. Frank Habituation-compensated library of affective response
GB2493956A (en) * 2011-08-24 2013-02-27 Inview Technology Ltd Recommending audio-visual content based on user's personal preerences and the profiles of others
CN102982336B (zh) * 2011-09-02 2015-11-25 株式会社理光 识别模型生成方法和系统
CN102568026B (zh) * 2011-12-12 2014-01-29 浙江大学 一种多视点自由立体显示的三维增强现实方法
EP2995079A4 (en) * 2013-05-10 2017-08-23 Robert Bosch GmbH System and method for object and event identification using multiple cameras
US9405377B2 (en) * 2014-03-15 2016-08-02 Microsoft Technology Licensing, Llc Trainable sensor-based gesture recognition
JP6471934B2 (ja) * 2014-06-12 2019-02-20 パナソニックIpマネジメント株式会社 画像認識方法、カメラシステム
US9928708B2 (en) * 2014-12-12 2018-03-27 Hawxeye, Inc. Real-time video analysis for security surveillance
WO2016145379A1 (en) * 2015-03-12 2016-09-15 William Marsh Rice University Automated Compilation of Probabilistic Task Description into Executable Neural Network Specification
AU2015207945A1 (en) * 2015-07-31 2017-02-16 Canon Kabushiki Kaisha Method for training an artificial neural network
US20170161555A1 (en) * 2015-12-04 2017-06-08 Pilot Ai Labs, Inc. System and method for improved virtual reality user interaction utilizing deep-learning
US20170161607A1 (en) * 2015-12-04 2017-06-08 Pilot Ai Labs, Inc. System and method for improved gesture recognition using neural networks
US10242266B2 (en) * 2016-03-02 2019-03-26 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting actions in videos
US20170311095A1 (en) * 2016-04-20 2017-10-26 Starkey Laboratories, Inc. Neural network-driven feedback cancellation
US10019629B2 (en) * 2016-05-31 2018-07-10 Microsoft Technology Licensing, Llc Skeleton-based action detection using recurrent neural network
US10427645B2 (en) * 2016-10-06 2019-10-01 Ford Global Technologies, Llc Multi-sensor precipitation-classification apparatus and method
US10606885B2 (en) * 2016-11-15 2020-03-31 Evolv Technology Solutions, Inc. Data object creation and recommendation using machine learning based online evolution

Also Published As

Publication number Publication date
US20180173956A1 (en) 2018-06-21
TW201824085A (zh) 2018-07-01
EP3340103A1 (en) 2018-06-27
KR102264202B1 (ko) 2021-06-11
CN108229333A (zh) 2018-06-29
JP2018142299A (ja) 2018-09-13
KR20180072563A (ko) 2018-06-29
US10824872B2 (en) 2020-11-03
CN108229333B (zh) 2023-04-07
TWI713794B (zh) 2020-12-21

Similar Documents

Publication Publication Date Title
JP6875262B2 (ja) モーションビデオにおいて事象を識別するための方法
US10691949B2 (en) Action recognition in a video sequence
CN109040709B (zh) 视频监控方法及装置、监控服务器及视频监控系统
JP2018142299A5 (ja)
US9521377B2 (en) Motion detection method and device using the same
CN112805996B (zh) 一种用于生成慢动作视频片段的设备和方法
US10769442B1 (en) Scene change detection in image data
CN107809639B (zh) 量化参数确定方法和图像捕获设备
US7239720B2 (en) Optical monitoring apparatus with image-based distance accommodation
CN108337534B (zh) 视频管理系统和视频管理方法
TWI521473B (zh) 影像分析裝置、方法及電腦可讀取媒體
JP7036579B2 (ja) イベントを検出するための方法、および、イベントを検出するための装置
JP4947936B2 (ja) モニタリングシステムおよび管理装置
JP6809114B2 (ja) 情報処理装置、画像処理システム、プログラム
KR102077632B1 (ko) 로컬 영상분석과 클라우드 서비스를 활용하는 하이브리드 지능형 침입감시 시스템
JP2012257173A (ja) 追尾装置、追尾方法及びプログラム
US10817727B2 (en) Information processing apparatus and method of controlling an information processing apparatus that estimate a waiting time in a waiting line
KR102552071B1 (ko) 감시용 카메라에 의해 촬영되는 영상을 네트워크를 통해 관리자단말에 전송하는 촬영영상 전송장치 및 그 촬영영상 전송방법
KR20230069735A (ko) 디지털 이미지 안정화를 위한 이미지 처리 장치 및 방법
KR102527133B1 (ko) 영상 분석 대상 판별 서버 및 그 제어방법
US11683595B2 (en) Wearable camera and a method for encoding video captured by the wearable camera
WO2024013936A1 (ja) 映像処理システム、映像処理装置及び映像処理方法
CN115037870A (zh) 摄像装置控制方法、装置、电子设备及存储介质
CN113906735A (zh) 网络监控相机系统及其操作方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201201

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201201

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20201207

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210420

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210422

R150 Certificate of patent or registration of utility model

Ref document number: 6875262

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250