JP6668514B1 - ディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング方法およびその装置 - Google Patents

ディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング方法およびその装置 Download PDF

Info

Publication number
JP6668514B1
JP6668514B1 JP2019003768A JP2019003768A JP6668514B1 JP 6668514 B1 JP6668514 B1 JP 6668514B1 JP 2019003768 A JP2019003768 A JP 2019003768A JP 2019003768 A JP2019003768 A JP 2019003768A JP 6668514 B1 JP6668514 B1 JP 6668514B1
Authority
JP
Japan
Prior art keywords
image
violence
video
convolution
spatio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019003768A
Other languages
English (en)
Other versions
JP2020087400A (ja
Inventor
スンオン バン
スンオン バン
Original Assignee
株式会社 ジーワイネットワークス
株式会社 ジーワイネットワークス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社 ジーワイネットワークス, 株式会社 ジーワイネットワークス filed Critical 株式会社 ジーワイネットワークス
Application granted granted Critical
Publication of JP6668514B1 publication Critical patent/JP6668514B1/ja
Publication of JP2020087400A publication Critical patent/JP2020087400A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/80Shading
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

【課題】映像から暴力を検出するフレームワーキング方法およびその装置を提供する。【解決手段】暴力検出フレームワーキング方法は、入力映像に含まれた一つのフレーム映像から色差成分U、Vを除外して2次元(2D)基盤の輝度成分Y映像を抽出する第1段階、2D基盤のY映像を順次3次元(3D)に蓄積し、このうち均等な間隔のフレームのみを抽出して3次元(3D)基盤のY映像グループを獲得する第2段階および3D基盤のY映像グループに対して3*3*3フィルタを使用して映像コンボリューション(Convolution)を遂行することによって暴力検出場面を導き出す第3段階を含むことによって、ネットワークの軽量化および時間空間に最適化した映像を作ってアルゴリズムに適用し、映像コンボリューション過程で特定のレイヤーに暴力の特徴点を持続的に記憶させて再学習させる。【選択図】図4

Description

本発明はディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング方法およびその装置に関するものであって、より詳細には暴力映像コンボリューション遂行時に通り過ぎた特徴点を容易になくしてしまう部分を改善して映像の暴力性検出能力および正確度を向上させ、小さいフィルタの使用で分析フレームの長さにかかわらず分析が可能であり、フィルタの時間軸の移動を通じて連続フレームに対する学習を可能とさせて連続した行動に対する分析を可能とした、ディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング方法およびその装置に関するものである。
一般に、住宅街やビルディング、道路や公共施設などで暴力、暴行、または拉致事件などが発生した時、周辺に人がいないか無関心により申告がない場合、その発生原因や程度を判断するための情報収集が難しくなるため、このような事件、事故の予防およびセキュリティー手段として、虞犯地帯、暗い路地、人のいない地域などに映像を撮影できる多数のCCTVをそれぞれ設置し、これを一度に管制センターなどで収集して多数のCCTV画面が集結したモニタリング画面で監視するようにしている。
しかし、管制センターなどでCCTVをモニタリングする画面は通常数十個が存在するが、これを確認する監視者は少数であり、しかも暴力、暴行、拉致事件などの事件、事故行為は一瞬間にまたは比較的短い時間に発生するため、少数の監視者がモニタリング画面を通じて確認することは難しいという短所があったし、これを補完するために、最近は映像分析を通じての暴力検出システムこの開発されている。
これと関連して、既存の暴力検出フレームワークは、MoSIFT+HIK(Violence detection in video using computer vision techniques)、VIF(Violent flows)、MoSIFT+KDE+Sparse Coding(Violent video detection based on mosift feature and sparse coding)、Gracia et al(Fast fight detection)、Substantial Derivative(Violence detection in crowded scenes using substantial derivative)、Bilinski et al(Human violence recognition and detection in surveillance videos)、MoIWLD(Discriminative dictionary learning with motion weber local descriptor for violence detection)、ViF+OViF(Violence detection using oriented violent flows)、およびThree streams+LSTM(Multi−stream deep networks for person to person violence detection in videos)等がある。
(1)MoSIFT+HIK:Violence detection in video using computer vision techniques
A.方法:図1aに例示された通り、時空間的な解析が可能なlocal featureとBoWに基づいて映像特性を示し、SVM(Support Vector Machine)を使用して暴力の有無を判断し、Space−time interest points(STIP):Harris corner detectionの結果を時空間的に分析することになるので、corner pointの時空間的な変化を分析することができる。
B.Motion SIFT(MoSIFT):図1bに例示された通り、Standard SIFT(scale−invariant feature transform)+optical flow based local motion:SIFT基盤のlocal feature特性にoptical flow基盤の情報を結合してlocal featureの変化特性を分析することができる。
SIFTは、殆どcornerがinterest pointに抽出され、cornerの周辺領域をdescriptorで表現(histogram of oriented gradients)する。
C.Bag−of−Words(BOW):図1cに例示された通り、Visual word(特定のfeatureの組み合わせを利用したlocal descriptor)のヒストグラムで映像の特性を説明する方法であり、Visual word基盤の特徴を学習と分類の情報として使用する。
(2)VIF:Violent flows:real−time detection of violent crowd behavior.
A.方法:optical flow vector magnitudesの変化様相をSVMを利用して暴力と非暴力に区分する。
B.ViF:Optical flow magnitudeの時間による変化様相を表現し、magnitude自らの値は考慮しない。
C.Classification:ViFとViF wordを使用して映像を示し、SVMを利用して暴力の有無を判断する。
(3)MoSIFT+KDE+Sparse Coding:Violent video detection based on mosift feature and sparse coding
A.方法:図1dに例示された通り、MoSIFTをKDE基盤で選別し、sparse codingを通じてfeature vectorを生成して暴力の有無を判断する。
B.KDE(Kernel Density Estimation):ヒストグラムの分布での不連続性およびbinの大きさおよび範囲による分布変化の問題を解決した方法であり、観測されたデータごとにkernel functionを生成し、すべてのkernelをすべて足して全体のデータ分布を表現する。
(4)Gracia et al:Fast fight detection
A.方法:図1eに例示された通り、フレーム間の差を利用したmotion blobを分析して暴力と非暴力を区分する。
B.Motion blob(blob間の)のshape、position分析を通じてglobal motionとlocal motionの差を分析することができる。
(5)Substantial Derivative:Violence detection in crowded scenes using substantial derivative.
A.方法:図1fに例示された通り、映像間のoptical flowの時空間的な特性を抽出し(substantial derivative)、これをBoWで表現して暴力の有無を判断する。
(6)Bilinski et al.:Human violence recognition and detection in surveillance videos.
A.方法:Improved fisher filterに時空間的な情報を反映して暴力を検知する。
(7)MoIWLD:Discriminative dictionary learning with motion weber local descriptor for violence detection
(8)ViF+OViF:Violence detection using oriented violent flows
A.方法:図1gに例示された通り、ViFの概念をoptical flow directionに適用したOViFを利用して映像を表し、暴力を検知する。
(9)Three streams+LSTM:Multi−stream deep networks for person to person violence detection in videos
A.方法:図1hに例示された通り、既存の単一の人の行動(例:歩き、腕伸ばし)を分析するものとしては、暴行が発生した時の複合的な形状を分析することができ、これを解決するためにCNNを利用して人と人の間の形状を自体を学習して暴力を検知する。
しかし、前記のような従来の技術では、暴力の属性上、少なくとも2名以上の人が絡み合って複雑な動きを有するのが一般的であるため、このように絡み合っている映像の中で暴力性を検出することが困難であるという問題点があったし、また、このような従来の方法には行動の時差的な差まで考慮した検出方法は存在しないため、このような行動の時差的な差を考慮していない検出システムはその性能が低下せざるを得ない問題点があった。
KR10−1541272B1 2015.07.28.登録 KR10−1552344B1 2015.09.04.登録 KR10−1651410B1 2016.08.22.登録
したがって、本発明は前記の問題点を解決するために案出されたものであって、本発明が解決しようとする技術的課題は、リアルタイム入力映像から色差成分(U、V)を除外した白黒陰影映像である輝度成分(Y)映像を抽出した後、ネットワークの軽量化および時間空間に最適化した映像を作ってアルゴリズムに適用し、映像コンボリューション過程で特定のレイヤーに暴力の特徴点を持続的に記憶させて再学習できるようにすることによって、暴力映像コンボリューション遂行時に通り過ぎた特徴点を容易になくしてしまう部分を改善して映像の暴力性検出能力および正確度を向上させることができ、小さいフィルタの使用で分析フレームの長さにかかわらず分析が可能であり、フィルタの時間軸の移動を通じて連続フレームに対する学習を可能とさせて連続した行動に対する分析が可能な、ディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング方法およびその装置を提供しようとするものである。
前記目的を達成するための本発明の一実施形態として、ビデオカメラまたは動映像ファイルから与えられる映像フレームで構成された入力映像から暴力の特徴点を検出して映像の暴力性を検出する暴力検出フレームワーキング方法において、入力映像に含まれた一つのフレーム映像から色差成分(U、V)を除外して2次元(2D)基盤の輝度成分(Y)映像を抽出する第1段階、前記2D基盤のY映像を順次3次元(3D)に蓄積し、このうち均等な間隔のフレームのみを抽出して3次元(3D)基盤のY映像グループを獲得する第2段階、および前記3D基盤のY映像グループについて映像コンボリューション(Convolution)を遂行し、3*3*3フィルタを使用して暴力検出場面を導き出す第3段階を含む、ディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング方法を提供する。
また、前記目的を達成するための本発明の一実施形態は、少なくとも一つのフレーム映像を含む入力映像から暴力の特徴点を検出して映像の暴力性を検出する映像分析部を含む暴力検出フレームワーキング装置であって、前記映像分析部は、入力映像に含まれた一つのフレーム映像から色差成分(U、V)を除外して2次元(2D)基盤の輝度成分(Y)映像を抽出し、前記2D基盤のY映像を順次3次元(3D)に蓄積し、このうち均等な間隔のフレームのみを抽出して3次元(3D)基盤のY映像グループを獲得し、前記3D基盤のY映像グループについて映像コンボリューション(Convolution)を遂行し、3*3*3フィルタを使用して暴力検出場面を導き出す、ディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング装置を提供する。
本発明によると、リアルタイム入力映像に対して色差成分(U、V)を除外した輝度成分(Y)映像を抽出した後、ネットワークの軽量化および時間空間に最適化した映像を作ってアルゴリズムに適用し、映像コンボリューション過程で再学習方法を使用して特定のレイヤーに暴力の特徴点を持続的に記憶させて再学習できるようにすることによって、暴力映像コンボリューション遂行時に通り過ぎた特徴点を容易になくしてしまう部分を改善して映像の暴力性検出能力を向上させる利点を提供することができる。
また、本発明は既存のフレームワーク(3×3×F)よりも小さいフィルタ(3×3×3カーネル)を使用するため、分析フレームの長さにかかわらず分析を可能とする利点を提供することができる。
また、本発明はフィルタの時間軸の移動を通じて、既存のフレームワークに比べてより多くの連続したフレームに対する学習を可能とさせて連続した行動に対する分析を可能とする利点を提供することができる。
また、本発明は3Dコンボリューションに対する残余ネットワーク(Residual networks)の適用により、学習時間および検出正確度を向上させることができる利点を提供することができる。
従来の種暴力検出フレームワークを例示した参照図。 従来の種暴力検出フレームワークを例示した参照図。 従来の種暴力検出フレームワークを例示した参照図。 従来の種暴力検出フレームワークを例示した参照図。 従来の種暴力検出フレームワークを例示した参照図。 従来の種暴力検出フレームワークを例示した参照図。 従来の種暴力検出フレームワークを例示した参照図。 従来の種暴力検出フレームワークを例示した参照図。 本発明によるディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング方法を例示したブロック図。 本発明による暴力検出用フレームワーキング方法で映像コンボリューション時の再学習過程を例示した詳細図。 本発明による暴力検出用フレームワーキング方法を表示したフローチャート。 本発明による映像コンボリューション方法をより具体的に表示したフローチャート。
以下、本発明の好ましい実施形態に係るディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出フレームワーキング方法の構成と動作およびそれによる作用効果を添付図面を参照して詳細に説明する。
本明細書および特許請求の範囲に使用された用語や単語は、通常的または辞書的な意味に限定して解釈されず、発明者は自分の発明を最も最善の方法で説明するために用語の概念を適切に定義することができるという原則に則って、本発明の技術的思想に符合する意味と概念に解釈されるべきである。したがって、本明細書に記載された実施例と図面に図示された構成は、本発明の最も好ましい一実施例に過ぎないものであるため、本出願時点においてこれらを代替できる多様な均等物と変形例が存在し得ることが理解されるべきである。
明細書で使用される「部」という用語はソフトウェアまたはハードウェアの構成要素を意味し、「部」はある役割を遂行する。しかし、「部」はソフトウェアまたはハードウェアに限定される意味ではない。「部」はアドレッシングできる保存媒体に存在するように構成され手もよく、一つまたはそれ以上のプロセッサを再生させるように構成されてもよい。したがって、一例として、「部」はソフトウェア構成要素、客体指向ソフトウェア構成要素、クラス構成要素およびタスク構成要素のような構成要素と、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイおよび変数を含む。構成要素と「部」の中で提供される機能は、より小さい数の構成要素および「部」で結合されるか追加的な構成要素と「部」にさらに分離され得る。
本開示の一実施例によると、「部」はプロセッサおよびメモリで具現され得る。用語「プロセッサ」は汎用プロセッサ、中央処理装置(CPU)、マイクロ・プロセッサ、デジタル信号プロセッサ(DSP)、制御器、マイクロ制御器、状態マシンなどを含むように、広く解釈されるべきである。いくつかの環境では、「プロセッサ」はエーシック(ASIC)、プログラム可能ロジックデバイス(PLD)、フィールドプログラム可能ゲートアレイ(FPGA)等を意味することもある。用語「プロセッサ」は、例えば、DSPとマイクロ・プロセッサの組み合わせ、複数のマイクロ・プロセッサの組み合わせ、DSPコアと結合した一つ以上のマイクロ・プロセッサの組み合わせ、または任意の異なるそのような構成の組み合わせのような処理デバイスの組み合わせを指し示すこともある。
用語「メモリ」は電子情報を保存可能な任意の電子コンポーネントを含むように、広く解釈されるべきである。用語メモリは、任意アクセスメモリ(RAM)、読み出し−専用メモリ(ROM)、不揮発性任意アクセスメモリ(NVRAM)、プログラム可能読み出し−専用メモリ(PROM)、消去−プログラム可能読み出し専用メモリ(EPROM)、電気的に消去可能PROM(EEPROM)、フラッシュメモリ、磁気または光学データ保存装置、レジスターなどのようなプロセッサ−読み出し可能媒体の多様な類型を指し示すこともある。プロセッサがメモリから情報を読み出し/読み出すか、メモリに情報を記録することができるのであれば、メモリはプロセッサと電子通信状態にあると言う。プロセッサに集積されたメモリはプロセッサと電子通信状態にある。
図2は本発明によるディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出フレームワーキング方法を例示したブロック図であり、図3は本発明による暴力検出フレームワーキング方法で映像コンボリューション時の再学習過程を例示した詳細図である。図2に例示された通り、本発明のディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出フレームワークは、入力映像がRGB基盤映像である場合、入力映像をRGB基盤映像からYUV基盤映像に変換することができる。
本開示の一実施例によると、フレームワークは入力映像に含まれた一つのフレーム映像から色差成分(U、V)を除外して2次元(2D)基盤の輝度成分(Y)白黒Y映像を獲得する第1段階、前記2D基盤のY映像を順次3次元(3D)に蓄積し、このうち均等な間隔のレイヤーのフレームのみを抽出および再び蓄積して3次元(3D)基盤のY映像グループを獲得する第2段階、および3D基盤のY映像グループについて映像コンボリューションを遂行し、3*3*3フィルタを使用して所望の検出場面を導き出す第3段階を含んで構成され得る。このような本開示の暴力検出フレームワーキング方法は、ビデオカメラまたは動映像ファイルから与えられる映像フレームで構成された入力映像において暴力の特徴点を検出する暴力検出装置の映像分析部に適用されて具現され得、このような暴力検出装置の映像分析部にソフトウェアまたはプラットフォームの形態で搭載されて運用され得る。Yフレーム白黒映像はY映像が白黒映像である場合、Y映像と同じであり得る。
以下、本発明の説明において、記載の簡潔さのために、共通する課題解決構成を有するフレームワーキング方法およびフレームワーキング装置をフレームワーク(framework)で通称して図2、図3、図4および図5を参照して具体的に説明する。
映像分析部は、リアルタイムで入力する映像を各フレーム当たり映像11に分ける段階を遂行することができる。リアルタイムで入力する映像は少なくとも一つのフレーム映像を含むことができる。映像分析部は入力映像に含まれた少なくとも一つのフレーム映像のうち一つのフレーム映像11を連続的に獲得することができる。この時、リアルタイムで入力する映像は互いに異なる秒当たりのフレームを有することができる(例えば、秒当たり90フレーム、秒当たり60フレームなど)。
一つのフレーム映像11がRGB形式などの色表現方式を有しているのであれ、映像分析部は一つのフレーム映像11がYUV形式の色表現方式を有するように変換することができる。YUV形式の色表現方式で表現された一つのフレーム映像11は、色差成分(U、V)と輝度成分(Y)を含むことができる。映像分析部は一つのフレーム映像11から色差成分(U、V)を除外して2D基盤の輝度成分(Y)映像12を獲得する段階を遂行することができるS100。
映像分析部は2D基盤のY映像12多数個(好ましく30個フレーム)を順次蓄積して3D基盤のY映像グループ13を獲得する段階を遂行することができる。本開示で映像分析部は2次元(2D)基盤のY映像を30個フレーム蓄積して3次元空間を作る。ここで3次元空間は、2次元の空間軸と1次元の時間軸を含むことができる。3次元空間は3D基盤のY映像グループ13を表すことができるS300。
好ましい実施例によると、映像分析部は3D基盤のYフレーム白黒陰影映像グループのフレームが所定の数(好ましくは、30個フレーム)を超過する場合、そのうち均等な間隔の順番目のフレーム(例えば、あらかじめ指定された間隔の順番目のフレーム)のみをダウンサンプリング(downsampling)を通じて抽出することができる。例えば、入力された映像が90フレームの映像の場合、30フレーム(F)でダウンサンプリングをするために、あらかじめ指定された3、6、9、12...のように均等な3の倍数の順番目のフレームのみを選択して抽出後に蓄積することによって、30フレーム(F=30)の時間軸を有する3D基盤のY映像グループ13を生成することができるS200。
この後、映像分析部は30フレームに対して3*3*3フィルタを使用してコンボリューション(合成積演算、Conv)を遂行するS400。より詳細には、映像分析部は最初の224*224*F大きさの映像に対して3*3*3フィルタを使用して1次合成積演算を遂行するS410。この時、好ましい実施例として、1次合成積演算時にフィルタのストライド(Stride)は1であるが、これに限定されず、2または3でもよい。図面では前記コンボリューション(合成積演算)を図面符号Convで表示した。
以下、説明の便宜のために、最初の映像の横(x)*縦(y)を224*224で説明したが任意の大きさの横(x)*縦(y)についても同様に適用され得る。
その後、1次合成積演算(Conv1)された前記224*224*F大きさの映像を112*112*(F/2)大きさの映像に1次プーリング(Pooling)変換(Pool1)することができるS420。この時、プーリング方法は従来の方法であって、好ましくはプーリング変換時にレイヤーは2*2*2の大きさであってプーリング時のフィルタのストライドは2を使用したマックスプーリング(Max Pooling)方式が使用され得る。図面では、前期プーリング変換を図面符号Poolで表示した。
その後、映像分析部は1次プーリング変換された(Conv1)112*112*(F/2)大きさの映像に対して2次合成積演算(Conv2)を遂行するS430。
好ましい実施例において、このとき、2次合成積演算(Conv2)は複数回連続して遂行され得る。すなわち、2次合成積演算を遂行した値に対して再び繰り返して2次合成積演算が遂行され得る。図2および図3に図示された好ましい実施例によると、第2合成積演算は3回連続して遂行された。説明の便宜のために以下3回連続遂行された順に、それぞれの3D映像グループを15a、15b、15cで表示した。すなわち、図2および図3において図面番号15aは、1次プーリング変換された映像に対して1回目の2次合成積演算を遂行した映像、図面番号15bは1回目の2次合成積演算を遂行した映像に対して2回目の2次合成積演算を遂行した映像、図面番号15cは2回目の2次合成積演算を遂行した映像に対して3回目の2次合成積演算を遂行した映像を意味する。
映像分析部は繰り返される2次合成積演算において、1回目の2次合成積演算を遂行した映像15aと3回目の2次合成積演算を遂行した映像15cでそれぞれあらかじめ指定された同一または均等な順番目のフレームの値を合算(Sum)することによって、暴力の特徴点を記憶および保存する1次再学習方法(RL1)を使用することができる。図3では、1回目の2次合成積演算を遂行した映像15aの6番目のフレーム150aと3回目の2次合成積演算を遂行した映像15cの6番目のフレーム150cの値を合さんすることによって2次再学習(RL2)をすることができる。
次いで、図3を参照して本発明の効果を高めるために、前記1次合成積演算、1次プーリング変換および2次合成積演算を同様に繰り返す実施例を説明する。
映像分析部は2次合成積演算された112*112*(F/2)大きさの映像に対して3次合成積演算(S440)を1次合成積演算と同様に遂行し、その後1次プーリング変換と同じ方式を通じて56*56*(F/4)大きさの映像に2次プーリング変換(S450)することができる。
その後、映像分析部は2次プーリング変換された56*56*(F/4)大きさの映像に対して2次合成積演算と同じ方式で4次合成積演算(S460)を遂行することができる。好ましい実施例として、4次合成積演算も2次合成積演算のように再学習のために3回連続して遂行され得、1回目の4次合成積演算18aの特定フレームと3回目の4次合成積演算18cの同一の位置フレーム(180aおよび180c)を合算することによって2次再学習(RL2)をすることができる。
また、図3および前述した実施例において、映像分析部は3次元(3D)空間で3x3x3カーネル(kernel)8個と2x2x2カーネル(kernel)2個を利用して映像の暴力性を検出することによって、分析フレームの長さにかかわらず分析することができる。また、映像分析部はフィルタの時間軸の移動を通じて、既存のフレームワークに比べてより多くの連続したフレームに対する学習を可能とさせて連続した行動に対する分析を可能として、学習時間および検出正確度を向上させることができる。
下記の表1には、以上のような本発明による暴力検出フレームワークの正確度を既存の多数の暴力検出フレームワークの正確度と比較した結果を例示している。
以上のような本発明によると、映像分析部はリアルタイム入力映像から色差成分(U、V)を除外したYフレーム白黒陰影映像を抽出した後、ネットワークの軽量化および時間空間に最適化した映像を作ってアルゴリズムに適用することができる。映像分析部は映像コンボリューション過程で再学習方法を使用して暴力の特徴点を持続的に記憶し、再学習することができるため、暴力映像コンボリューション遂行時に通り過ぎた特徴点を容易になくさないことができ、映像の暴力性検出能力を向上させることができる。また、映像分析部は既存のフレームワーク(3×3×F)よりも小さいフィルタ(3×3×3カーネル)を使用するため、分析フレームの長さにかかわらず分析が可能な利点を提供することができる。
また、本発明によると、映像分析部はフィルタの時間軸の移動を通じて、既存のフレームワークに比べてより多くの連続したフレームに対して学習することができるため連続した行動に対する分析が可能であり、3Dコンボリューションに対する残余ネットワークの適用により学習時間および検出正確度を向上させることができる。
以上のように、本発明はたとえ限定された実施例と図面によって説明されたが、本発明は前記の実施例に限定されず、これは本発明が属する分野で通常の知識を有する者であればこのような記載から多様な修正および変形が可能である。したがって、本発明の思想は下記に記載された特許請求の範囲によってのみ把握されるべきであり、これの均等または等価的変形はいずれも本発明の思想の範疇に属するものと言える。

Claims (7)

  1. 少なくとも一つのフレーム映像を含む入力映像から暴力の特徴点を検出して映像の暴力性を検出する暴力検出フレームワーキング方法において、
    入力映像に含まれた一つのフレーム映像から色差成分(U、V)を除外して2次元(2D)基盤の輝度成分(Y)映像を抽出する第1段階と、
    前記2D基盤のY映像を順次3次元(3D)に蓄積し、このうち均等な間隔のフレームのみを抽出して3次元(3D)基盤のY映像グループを獲得する第2段階と、
    前記3D基盤のY映像グループに対して3*3*3フィルタを使用して映像コンボリューション(Convolution)を遂行することによって暴力検出場面を導き出す第3段階と、を含んでなることを特徴とする、ディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング方法。
  2. 前記第2段階で均等な間隔のフレームのみを抽出することは、
    前記3Dで蓄積された映像のうちあらかじめ指定された均等な順番目のフレームのみをダウンサンプリング(downsmapling)を通じて抽出することを特徴とする、請求項1に記載のディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング方法。
  3. 前記第3段階の映像コンボリューション遂行は、
    所定の横(x)*縦(y)*フレーム(F)の大きさの映像に対して1次合成積演算(Convolution)を遂行し、(x/2)*(y/2)*(F/2)の大きさの映像に1次プーリング変換(Pooling)する段階と、
    前記1次プーリング変換された(x/2)*(y/2)*(F/2)の大きさの映像に対して2次合成積演算を遂行する段階と、
    2次合成積演算が遂行された(x/2)*(y/2)*(F/2)の大きさの映像に対して(x/4)*(y/4)*(F/4)の大きさの映像に2次プーリング変換する段階と、を含んでなることを特徴とする、請求項1に記載のディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング方法。
  4. 前記第2段階は30個フレームでダウンサンプリングして3D基盤のY映像グループを獲得し、
    前記1次合成積演算および2次合成積演算時のフィルタの大きさは3*3*3であって、ストライドは1であり、
    前記1次プーリング変換時のフィルタの大きさは2*2*2であって、ストライドは2であることを特徴とする、請求項3に記載のディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング方法。
  5. 前記2次合成積演算は3回繰り返して連続に遂行され、
    1回目の2次合成積演算を遂行した映像と3回目の2次合成積演算を遂行した映像でそれぞれあらかじめ指定された同じ順番目のフレームの値を合算(Sum)することによって暴力の特徴点を再学習することを特徴とする、請求項4に記載のディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング方法。
  6. 前記2次プーリング変換された (x/4)*(y/4)*(F/4)の大きさの映像に対して、
    3*3*3フィルタを使用した4次合成積演算は3回繰り返して連続に遂行され、
    1回目の4次合成積演算を遂行した映像と3回目の4次合成積演算を遂行した映像でそれぞれあらかじめ指定された同じ順番目のフレームの値を合算(Sum)することによって暴力の特徴点を再学習することを特徴とする、請求項5に記載のディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング方法。
  7. 少なくとも一つのフレーム映像を含む入力映像から暴力の特徴点を検出して映像の暴力性を検出する映像分析部を含む暴力検出用フレームワーキング装置であって、
    前記映像分析部は、
    入力映像に含まれた一つのフレーム映像から色差成分(U、V)を除外して2次元(2D)基盤の輝度成分(Y)映像を抽出し、
    前記2D基盤のY映像を順次3次元(3D)に蓄積し、このうち均等な間隔のレイヤーのフレームのみを抽出して3次元(3D)基盤のY映像グループを獲得し、
    前記3D基盤のY映像グループに対して3*3*3フィルタを使用して映像コンボリューション(Convolution)を遂行することによって暴力検出場面を導き出すことを特徴とする、ディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング装置。
JP2019003768A 2018-11-15 2019-01-11 ディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング方法およびその装置 Active JP6668514B1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180140481A KR102134902B1 (ko) 2018-11-15 2018-11-15 딥러닝 기반 음영영상의 시공간적 특성 분석을 활용한 폭력검출 프레임워킹 방법
KR10-2018-0140481 2018-11-15

Publications (2)

Publication Number Publication Date
JP6668514B1 true JP6668514B1 (ja) 2020-03-18
JP2020087400A JP2020087400A (ja) 2020-06-04

Family

ID=70000671

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019003768A Active JP6668514B1 (ja) 2018-11-15 2019-01-11 ディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング方法およびその装置

Country Status (2)

Country Link
JP (1) JP6668514B1 (ja)
KR (1) KR102134902B1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668410A (zh) * 2020-12-15 2021-04-16 浙江大华技术股份有限公司 分拣行为检测方法、系统、电子装置和存储介质
CN113378722A (zh) * 2021-06-11 2021-09-10 西安电子科技大学 基于3d卷积和多级语义信息融合的行为识别方法及系统
CN117011766A (zh) * 2023-07-26 2023-11-07 中国信息通信研究院 基于帧内差异化的人工智能检测方法和系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102504321B1 (ko) 2020-08-25 2023-02-28 한국전자통신연구원 온라인 행동 탐지 장치 및 방법

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3753232B2 (ja) * 2001-03-30 2006-03-08 オムロン株式会社 運動動作解析支援装置
EP1491038A2 (en) * 2001-12-26 2004-12-29 YEDA RESEARCH AND DEVELOPMENT CO., Ltd. A system and method for increasing space or time resolution in video
US8345984B2 (en) * 2010-01-28 2013-01-01 Nec Laboratories America, Inc. 3D convolutional neural networks for automatic human action recognition
JP2015082287A (ja) * 2013-10-24 2015-04-27 日本電気株式会社 画像処理装置、画像処理方法および画像処理プログラム
KR101541272B1 (ko) 2013-11-05 2015-08-03 한국과학기술연구원 사람들의 움직임 불규칙성을 이용한 폭력 행위 검출 장치 및 방법
KR101552344B1 (ko) 2014-01-24 2015-09-10 아이브스테크놀러지(주) 폭력 상황을 검출하는 장치 및 방법
KR101651410B1 (ko) 2014-11-11 2016-08-29 한국과학기술연구원 다중시차 행위인식 기반의 폭력 검출시스템 및 검출방법
KR102592076B1 (ko) * 2015-12-14 2023-10-19 삼성전자주식회사 딥러닝 기반 영상 처리 장치 및 방법, 학습 장치
EP3340103A1 (en) * 2016-12-21 2018-06-27 Axis AB Method for identifying events in a motion video

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668410A (zh) * 2020-12-15 2021-04-16 浙江大华技术股份有限公司 分拣行为检测方法、系统、电子装置和存储介质
CN112668410B (zh) * 2020-12-15 2024-03-29 浙江大华技术股份有限公司 分拣行为检测方法、系统、电子装置和存储介质
CN113378722A (zh) * 2021-06-11 2021-09-10 西安电子科技大学 基于3d卷积和多级语义信息融合的行为识别方法及系统
CN117011766A (zh) * 2023-07-26 2023-11-07 中国信息通信研究院 基于帧内差异化的人工智能检测方法和系统
CN117011766B (zh) * 2023-07-26 2024-02-13 中国信息通信研究院 基于帧内差异化的人工智能检测方法和系统

Also Published As

Publication number Publication date
KR20200057834A (ko) 2020-05-27
KR102134902B1 (ko) 2020-07-17
JP2020087400A (ja) 2020-06-04

Similar Documents

Publication Publication Date Title
JP6668514B1 (ja) ディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング方法およびその装置
JP4870803B2 (ja) ビデオモーション検出方法
US9008365B2 (en) Systems and methods for pedestrian detection in images
US9158985B2 (en) Method and apparatus for processing image of scene of interest
CN104966304B (zh) 基于卡尔曼滤波与非参数背景模型的多目标检测跟踪方法
US8977060B2 (en) Motion stabilization and detection of articulated objects
JP4764172B2 (ja) 画像処理による移動体候補の検出方法及び移動体候補から移動体を検出する移動体検出方法、移動体検出装置及び移動体検出プログラム
US8922674B2 (en) Method and system for facilitating color balance synchronization between a plurality of video cameras and for obtaining object tracking between two or more video cameras
CN110929593A (zh) 一种基于细节辨别区别的实时显著性行人检测方法
JP6654789B2 (ja) 変化点で複数候補を考慮して物体を追跡する装置、プログラム及び方法
JP2010204860A (ja) 映像監視システム
Komagal et al. Real time background subtraction techniques for detection of moving objects in video surveillance system
KR20200060868A (ko) 객체 탐지 및 자동 추적이 가능한 다시점 영상 감시 시스템
CN113158963A (zh) 一种高空抛物的检测方法及装置
Villamizar et al. Watchnet: Efficient and depth-based network for people detection in video surveillance systems
Kheder et al. Transfer learning based traffic light detection and recognition using CNN inception-V3 model
CN112257492A (zh) 一种多路摄像头实时入侵检测与跟踪方法
CN111160255B (zh) 一种基于三维卷积网络的捕鱼行为识别方法及系统
WO2014038924A2 (en) A method for producing a background model
Terdal et al. YOLO-Based Video Processing for CCTV Surveillance
Pava et al. Object Detection and Motion Analysis in a Low Resolution 3-D Model
Sun Research on the application of convolutional neural network based on the YOLO algorithm in airport intelligent monitoring
Modi et al. Neural network based approach for recognition human motion using stationary camera
Ani et al. Neural network based unsupervised face and mask detection in surveillance networks
Jimenez Event detection in surveillance video

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190111

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200226

R150 Certificate of patent or registration of utility model

Ref document number: 6668514

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250