JP6668514B1

JP6668514B1 - ディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング方法およびその装置

Info

Publication number: JP6668514B1
Application number: JP2019003768A
Authority: JP
Inventors: スンオンバン
Original assignee: 株式会社ジーワイネットワークス
Priority date: 2018-11-15
Filing date: 2019-01-11
Publication date: 2020-03-18
Anticipated expiration: 2039-01-11
Also published as: KR20200057834A; KR102134902B1; JP2020087400A

Abstract

【課題】映像から暴力を検出するフレームワーキング方法およびその装置を提供する。【解決手段】暴力検出フレームワーキング方法は、入力映像に含まれた一つのフレーム映像から色差成分Ｕ、Ｖを除外して２次元（２Ｄ）基盤の輝度成分Ｙ映像を抽出する第１段階、２Ｄ基盤のＹ映像を順次３次元（３Ｄ）に蓄積し、このうち均等な間隔のフレームのみを抽出して３次元（３Ｄ）基盤のＹ映像グループを獲得する第２段階および３Ｄ基盤のＹ映像グループに対して３＊３＊３フィルタを使用して映像コンボリューション（Ｃｏｎｖｏｌｕｔｉｏｎ）を遂行することによって暴力検出場面を導き出す第３段階を含むことによって、ネットワークの軽量化および時間空間に最適化した映像を作ってアルゴリズムに適用し、映像コンボリューション過程で特定のレイヤーに暴力の特徴点を持続的に記憶させて再学習させる。【選択図】図４

Description

本発明はディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング方法およびその装置に関するものであって、より詳細には暴力映像コンボリューション遂行時に通り過ぎた特徴点を容易になくしてしまう部分を改善して映像の暴力性検出能力および正確度を向上させ、小さいフィルタの使用で分析フレームの長さにかかわらず分析が可能であり、フィルタの時間軸の移動を通じて連続フレームに対する学習を可能とさせて連続した行動に対する分析を可能とした、ディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング方法およびその装置に関するものである。

一般に、住宅街やビルディング、道路や公共施設などで暴力、暴行、または拉致事件などが発生した時、周辺に人がいないか無関心により申告がない場合、その発生原因や程度を判断するための情報収集が難しくなるため、このような事件、事故の予防およびセキュリティー手段として、虞犯地帯、暗い路地、人のいない地域などに映像を撮影できる多数のＣＣＴＶをそれぞれ設置し、これを一度に管制センターなどで収集して多数のＣＣＴＶ画面が集結したモニタリング画面で監視するようにしている。

しかし、管制センターなどでＣＣＴＶをモニタリングする画面は通常数十個が存在するが、これを確認する監視者は少数であり、しかも暴力、暴行、拉致事件などの事件、事故行為は一瞬間にまたは比較的短い時間に発生するため、少数の監視者がモニタリング画面を通じて確認することは難しいという短所があったし、これを補完するために、最近は映像分析を通じての暴力検出システムこの開発されている。

これと関連して、既存の暴力検出フレームワークは、ＭｏＳＩＦＴ＋ＨＩＫ（Ｖｉｏｌｅｎｃｅｄｅｔｅｃｔｉｏｎｉｎｖｉｄｅｏｕｓｉｎｇｃｏｍｐｕｔｅｒｖｉｓｉｏｎｔｅｃｈｎｉｑｕｅｓ）、ＶＩＦ（Ｖｉｏｌｅｎｔｆｌｏｗｓ）、ＭｏＳＩＦＴ＋ＫＤＥ＋ＳｐａｒｓｅＣｏｄｉｎｇ（Ｖｉｏｌｅｎｔｖｉｄｅｏｄｅｔｅｃｔｉｏｎｂａｓｅｄｏｎｍｏｓｉｆｔｆｅａｔｕｒｅａｎｄｓｐａｒｓｅｃｏｄｉｎｇ）、Ｇｒａｃｉａｅｔａｌ（Ｆａｓｔｆｉｇｈｔｄｅｔｅｃｔｉｏｎ）、ＳｕｂｓｔａｎｔｉａｌＤｅｒｉｖａｔｉｖｅ（Ｖｉｏｌｅｎｃｅｄｅｔｅｃｔｉｏｎｉｎｃｒｏｗｄｅｄｓｃｅｎｅｓｕｓｉｎｇｓｕｂｓｔａｎｔｉａｌｄｅｒｉｖａｔｉｖｅ）、Ｂｉｌｉｎｓｋｉｅｔａｌ（Ｈｕｍａｎｖｉｏｌｅｎｃｅｒｅｃｏｇｎｉｔｉｏｎａｎｄｄｅｔｅｃｔｉｏｎｉｎｓｕｒｖｅｉｌｌａｎｃｅｖｉｄｅｏｓ）、ＭｏＩＷＬＤ（Ｄｉｓｃｒｉｍｉｎａｔｉｖｅｄｉｃｔｉｏｎａｒｙｌｅａｒｎｉｎｇｗｉｔｈｍｏｔｉｏｎｗｅｂｅｒｌｏｃａｌｄｅｓｃｒｉｐｔｏｒｆｏｒｖｉｏｌｅｎｃｅｄｅｔｅｃｔｉｏｎ）、ＶｉＦ＋ＯＶｉＦ（Ｖｉｏｌｅｎｃｅｄｅｔｅｃｔｉｏｎｕｓｉｎｇｏｒｉｅｎｔｅｄｖｉｏｌｅｎｔｆｌｏｗｓ）、およびＴｈｒｅｅｓｔｒｅａｍｓ＋ＬＳＴＭ（Ｍｕｌｔｉ−ｓｔｒｅａｍｄｅｅｐｎｅｔｗｏｒｋｓｆｏｒｐｅｒｓｏｎｔｏｐｅｒｓｏｎｖｉｏｌｅｎｃｅｄｅｔｅｃｔｉｏｎｉｎｖｉｄｅｏｓ）等がある。

（１）ＭｏＳＩＦＴ＋ＨＩＫ：Ｖｉｏｌｅｎｃｅｄｅｔｅｃｔｉｏｎｉｎｖｉｄｅｏｕｓｉｎｇｃｏｍｐｕｔｅｒｖｉｓｉｏｎｔｅｃｈｎｉｑｕｅｓ

Ａ．方法：図１ａに例示された通り、時空間的な解析が可能なｌｏｃａｌｆｅａｔｕｒｅとＢｏＷに基づいて映像特性を示し、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）を使用して暴力の有無を判断し、Ｓｐａｃｅ−ｔｉｍｅｉｎｔｅｒｅｓｔｐｏｉｎｔｓ（ＳＴＩＰ）：Ｈａｒｒｉｓｃｏｒｎｅｒｄｅｔｅｃｔｉｏｎの結果を時空間的に分析することになるので、ｃｏｒｎｅｒｐｏｉｎｔの時空間的な変化を分析することができる。

Ｂ．ＭｏｔｉｏｎＳＩＦＴ（ＭｏＳＩＦＴ）：図１ｂに例示された通り、ＳｔａｎｄａｒｄＳＩＦＴ（ｓｃａｌｅ−ｉｎｖａｒｉａｎｔｆｅａｔｕｒｅｔｒａｎｓｆｏｒｍ）＋ｏｐｔｉｃａｌｆｌｏｗｂａｓｅｄｌｏｃａｌｍｏｔｉｏｎ：ＳＩＦＴ基盤のｌｏｃａｌｆｅａｔｕｒｅ特性にｏｐｔｉｃａｌｆｌｏｗ基盤の情報を結合してｌｏｃａｌｆｅａｔｕｒｅの変化特性を分析することができる。

ＳＩＦＴは、殆どｃｏｒｎｅｒがｉｎｔｅｒｅｓｔｐｏｉｎｔに抽出され、ｃｏｒｎｅｒの周辺領域をｄｅｓｃｒｉｐｔｏｒで表現（ｈｉｓｔｏｇｒａｍｏｆｏｒｉｅｎｔｅｄｇｒａｄｉｅｎｔｓ）する。

Ｃ．Ｂａｇ−ｏｆ−Ｗｏｒｄｓ（ＢＯＷ）：図１ｃに例示された通り、Ｖｉｓｕａｌｗｏｒｄ（特定のｆｅａｔｕｒｅの組み合わせを利用したｌｏｃａｌｄｅｓｃｒｉｐｔｏｒ）のヒストグラムで映像の特性を説明する方法であり、Ｖｉｓｕａｌｗｏｒｄ基盤の特徴を学習と分類の情報として使用する。

（２）ＶＩＦ：Ｖｉｏｌｅｎｔｆｌｏｗｓ：ｒｅａｌ−ｔｉｍｅｄｅｔｅｃｔｉｏｎｏｆｖｉｏｌｅｎｔｃｒｏｗｄｂｅｈａｖｉｏｒ．

Ａ．方法：ｏｐｔｉｃａｌｆｌｏｗｖｅｃｔｏｒｍａｇｎｉｔｕｄｅｓの変化様相をＳＶＭを利用して暴力と非暴力に区分する。

Ｂ．ＶｉＦ：Ｏｐｔｉｃａｌｆｌｏｗｍａｇｎｉｔｕｄｅの時間による変化様相を表現し、ｍａｇｎｉｔｕｄｅ自らの値は考慮しない。

Ｃ．Ｃｌａｓｓｉｆｉｃａｔｉｏｎ：ＶｉＦとＶｉＦｗｏｒｄを使用して映像を示し、ＳＶＭを利用して暴力の有無を判断する。

（３）ＭｏＳＩＦＴ＋ＫＤＥ＋ＳｐａｒｓｅＣｏｄｉｎｇ：Ｖｉｏｌｅｎｔｖｉｄｅｏｄｅｔｅｃｔｉｏｎｂａｓｅｄｏｎｍｏｓｉｆｔｆｅａｔｕｒｅａｎｄｓｐａｒｓｅｃｏｄｉｎｇ

Ａ．方法：図１ｄに例示された通り、ＭｏＳＩＦＴをＫＤＥ基盤で選別し、ｓｐａｒｓｅｃｏｄｉｎｇを通じてｆｅａｔｕｒｅｖｅｃｔｏｒを生成して暴力の有無を判断する。

Ｂ．ＫＤＥ（ＫｅｒｎｅｌＤｅｎｓｉｔｙＥｓｔｉｍａｔｉｏｎ）：ヒストグラムの分布での不連続性およびｂｉｎの大きさおよび範囲による分布変化の問題を解決した方法であり、観測されたデータごとにｋｅｒｎｅｌｆｕｎｃｔｉｏｎを生成し、すべてのｋｅｒｎｅｌをすべて足して全体のデータ分布を表現する。

（４）Ｇｒａｃｉａｅｔａｌ：Ｆａｓｔｆｉｇｈｔｄｅｔｅｃｔｉｏｎ

Ａ．方法：図１ｅに例示された通り、フレーム間の差を利用したｍｏｔｉｏｎｂｌｏｂを分析して暴力と非暴力を区分する。

Ｂ．Ｍｏｔｉｏｎｂｌｏｂ（ｂｌｏｂ間の）のｓｈａｐｅ、ｐｏｓｉｔｉｏｎ分析を通じてｇｌｏｂａｌｍｏｔｉｏｎとｌｏｃａｌｍｏｔｉｏｎの差を分析することができる。

（５）ＳｕｂｓｔａｎｔｉａｌＤｅｒｉｖａｔｉｖｅ：Ｖｉｏｌｅｎｃｅｄｅｔｅｃｔｉｏｎｉｎｃｒｏｗｄｅｄｓｃｅｎｅｓｕｓｉｎｇｓｕｂｓｔａｎｔｉａｌｄｅｒｉｖａｔｉｖｅ．

Ａ．方法：図１ｆに例示された通り、映像間のｏｐｔｉｃａｌｆｌｏｗの時空間的な特性を抽出し（ｓｕｂｓｔａｎｔｉａｌｄｅｒｉｖａｔｉｖｅ）、これをＢｏＷで表現して暴力の有無を判断する。

（６）Ｂｉｌｉｎｓｋｉｅｔａｌ．：Ｈｕｍａｎｖｉｏｌｅｎｃｅｒｅｃｏｇｎｉｔｉｏｎａｎｄｄｅｔｅｃｔｉｏｎｉｎｓｕｒｖｅｉｌｌａｎｃｅｖｉｄｅｏｓ．

Ａ．方法：Ｉｍｐｒｏｖｅｄｆｉｓｈｅｒｆｉｌｔｅｒに時空間的な情報を反映して暴力を検知する。

（７）ＭｏＩＷＬＤ：Ｄｉｓｃｒｉｍｉｎａｔｉｖｅｄｉｃｔｉｏｎａｒｙｌｅａｒｎｉｎｇｗｉｔｈｍｏｔｉｏｎｗｅｂｅｒｌｏｃａｌｄｅｓｃｒｉｐｔｏｒｆｏｒｖｉｏｌｅｎｃｅｄｅｔｅｃｔｉｏｎ

（８）ＶｉＦ＋ＯＶｉＦ：Ｖｉｏｌｅｎｃｅｄｅｔｅｃｔｉｏｎｕｓｉｎｇｏｒｉｅｎｔｅｄｖｉｏｌｅｎｔｆｌｏｗｓ

Ａ．方法：図１ｇに例示された通り、ＶｉＦの概念をｏｐｔｉｃａｌｆｌｏｗｄｉｒｅｃｔｉｏｎに適用したＯＶｉＦを利用して映像を表し、暴力を検知する。

（９）Ｔｈｒｅｅｓｔｒｅａｍｓ＋ＬＳＴＭ：Ｍｕｌｔｉ−ｓｔｒｅａｍｄｅｅｐｎｅｔｗｏｒｋｓｆｏｒｐｅｒｓｏｎｔｏｐｅｒｓｏｎｖｉｏｌｅｎｃｅｄｅｔｅｃｔｉｏｎｉｎｖｉｄｅｏｓ

Ａ．方法：図１ｈに例示された通り、既存の単一の人の行動（例：歩き、腕伸ばし）を分析するものとしては、暴行が発生した時の複合的な形状を分析することができ、これを解決するためにＣＮＮを利用して人と人の間の形状を自体を学習して暴力を検知する。

しかし、前記のような従来の技術では、暴力の属性上、少なくとも２名以上の人が絡み合って複雑な動きを有するのが一般的であるため、このように絡み合っている映像の中で暴力性を検出することが困難であるという問題点があったし、また、このような従来の方法には行動の時差的な差まで考慮した検出方法は存在しないため、このような行動の時差的な差を考慮していない検出システムはその性能が低下せざるを得ない問題点があった。

ＫＲ１０−１５４１２７２Ｂ１２０１５．０７．２８．登録ＫＲ１０−１５５２３４４Ｂ１２０１５．０９．０４．登録ＫＲ１０−１６５１４１０Ｂ１２０１６．０８．２２．登録

したがって、本発明は前記の問題点を解決するために案出されたものであって、本発明が解決しようとする技術的課題は、リアルタイム入力映像から色差成分（Ｕ、Ｖ）を除外した白黒陰影映像である輝度成分（Ｙ）映像を抽出した後、ネットワークの軽量化および時間空間に最適化した映像を作ってアルゴリズムに適用し、映像コンボリューション過程で特定のレイヤーに暴力の特徴点を持続的に記憶させて再学習できるようにすることによって、暴力映像コンボリューション遂行時に通り過ぎた特徴点を容易になくしてしまう部分を改善して映像の暴力性検出能力および正確度を向上させることができ、小さいフィルタの使用で分析フレームの長さにかかわらず分析が可能であり、フィルタの時間軸の移動を通じて連続フレームに対する学習を可能とさせて連続した行動に対する分析が可能な、ディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング方法およびその装置を提供しようとするものである。

前記目的を達成するための本発明の一実施形態として、ビデオカメラまたは動映像ファイルから与えられる映像フレームで構成された入力映像から暴力の特徴点を検出して映像の暴力性を検出する暴力検出フレームワーキング方法において、入力映像に含まれた一つのフレーム映像から色差成分（Ｕ、Ｖ）を除外して２次元（２Ｄ）基盤の輝度成分（Ｙ）映像を抽出する第１段階、前記２Ｄ基盤のＹ映像を順次３次元（３Ｄ）に蓄積し、このうち均等な間隔のフレームのみを抽出して３次元（３Ｄ）基盤のＹ映像グループを獲得する第２段階、および前記３Ｄ基盤のＹ映像グループについて映像コンボリューション（Ｃｏｎｖｏｌｕｔｉｏｎ）を遂行し、３＊３＊３フィルタを使用して暴力検出場面を導き出す第３段階を含む、ディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング方法を提供する。

また、前記目的を達成するための本発明の一実施形態は、少なくとも一つのフレーム映像を含む入力映像から暴力の特徴点を検出して映像の暴力性を検出する映像分析部を含む暴力検出フレームワーキング装置であって、前記映像分析部は、入力映像に含まれた一つのフレーム映像から色差成分（Ｕ、Ｖ）を除外して２次元（２Ｄ）基盤の輝度成分（Ｙ）映像を抽出し、前記２Ｄ基盤のＹ映像を順次３次元（３Ｄ）に蓄積し、このうち均等な間隔のフレームのみを抽出して３次元（３Ｄ）基盤のＹ映像グループを獲得し、前記３Ｄ基盤のＹ映像グループについて映像コンボリューション（Ｃｏｎｖｏｌｕｔｉｏｎ）を遂行し、３＊３＊３フィルタを使用して暴力検出場面を導き出す、ディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング装置を提供する。

本発明によると、リアルタイム入力映像に対して色差成分（Ｕ、Ｖ）を除外した輝度成分（Ｙ）映像を抽出した後、ネットワークの軽量化および時間空間に最適化した映像を作ってアルゴリズムに適用し、映像コンボリューション過程で再学習方法を使用して特定のレイヤーに暴力の特徴点を持続的に記憶させて再学習できるようにすることによって、暴力映像コンボリューション遂行時に通り過ぎた特徴点を容易になくしてしまう部分を改善して映像の暴力性検出能力を向上させる利点を提供することができる。

また、本発明は既存のフレームワーク（３×３×Ｆ）よりも小さいフィルタ（３×３×３カーネル）を使用するため、分析フレームの長さにかかわらず分析を可能とする利点を提供することができる。

また、本発明はフィルタの時間軸の移動を通じて、既存のフレームワークに比べてより多くの連続したフレームに対する学習を可能とさせて連続した行動に対する分析を可能とする利点を提供することができる。

また、本発明は３Ｄコンボリューションに対する残余ネットワーク（Ｒｅｓｉｄｕａｌｎｅｔｗｏｒｋｓ）の適用により、学習時間および検出正確度を向上させることができる利点を提供することができる。

従来の種暴力検出フレームワークを例示した参照図。従来の種暴力検出フレームワークを例示した参照図。従来の種暴力検出フレームワークを例示した参照図。従来の種暴力検出フレームワークを例示した参照図。従来の種暴力検出フレームワークを例示した参照図。従来の種暴力検出フレームワークを例示した参照図。従来の種暴力検出フレームワークを例示した参照図。従来の種暴力検出フレームワークを例示した参照図。本発明によるディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング方法を例示したブロック図。本発明による暴力検出用フレームワーキング方法で映像コンボリューション時の再学習過程を例示した詳細図。本発明による暴力検出用フレームワーキング方法を表示したフローチャート。本発明による映像コンボリューション方法をより具体的に表示したフローチャート。

以下、本発明の好ましい実施形態に係るディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出フレームワーキング方法の構成と動作およびそれによる作用効果を添付図面を参照して詳細に説明する。

本明細書および特許請求の範囲に使用された用語や単語は、通常的または辞書的な意味に限定して解釈されず、発明者は自分の発明を最も最善の方法で説明するために用語の概念を適切に定義することができるという原則に則って、本発明の技術的思想に符合する意味と概念に解釈されるべきである。したがって、本明細書に記載された実施例と図面に図示された構成は、本発明の最も好ましい一実施例に過ぎないものであるため、本出願時点においてこれらを代替できる多様な均等物と変形例が存在し得ることが理解されるべきである。

明細書で使用される「部」という用語はソフトウェアまたはハードウェアの構成要素を意味し、「部」はある役割を遂行する。しかし、「部」はソフトウェアまたはハードウェアに限定される意味ではない。「部」はアドレッシングできる保存媒体に存在するように構成され手もよく、一つまたはそれ以上のプロセッサを再生させるように構成されてもよい。したがって、一例として、「部」はソフトウェア構成要素、客体指向ソフトウェア構成要素、クラス構成要素およびタスク構成要素のような構成要素と、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイおよび変数を含む。構成要素と「部」の中で提供される機能は、より小さい数の構成要素および「部」で結合されるか追加的な構成要素と「部」にさらに分離され得る。

本開示の一実施例によると、「部」はプロセッサおよびメモリで具現され得る。用語「プロセッサ」は汎用プロセッサ、中央処理装置（ＣＰＵ）、マイクロ・プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、制御器、マイクロ制御器、状態マシンなどを含むように、広く解釈されるべきである。いくつかの環境では、「プロセッサ」はエーシック（ＡＳＩＣ）、プログラム可能ロジックデバイス（ＰＬＤ）、フィールドプログラム可能ゲートアレイ（ＦＰＧＡ）等を意味することもある。用語「プロセッサ」は、例えば、ＤＳＰとマイクロ・プロセッサの組み合わせ、複数のマイクロ・プロセッサの組み合わせ、ＤＳＰコアと結合した一つ以上のマイクロ・プロセッサの組み合わせ、または任意の異なるそのような構成の組み合わせのような処理デバイスの組み合わせを指し示すこともある。

用語「メモリ」は電子情報を保存可能な任意の電子コンポーネントを含むように、広く解釈されるべきである。用語メモリは、任意アクセスメモリ（ＲＡＭ）、読み出し−専用メモリ（ＲＯＭ）、不揮発性任意アクセスメモリ（ＮＶＲＡＭ）、プログラム可能読み出し−専用メモリ（ＰＲＯＭ）、消去−プログラム可能読み出し専用メモリ（ＥＰＲＯＭ）、電気的に消去可能ＰＲＯＭ（ＥＥＰＲＯＭ）、フラッシュメモリ、磁気または光学データ保存装置、レジスターなどのようなプロセッサ−読み出し可能媒体の多様な類型を指し示すこともある。プロセッサがメモリから情報を読み出し／読み出すか、メモリに情報を記録することができるのであれば、メモリはプロセッサと電子通信状態にあると言う。プロセッサに集積されたメモリはプロセッサと電子通信状態にある。

図２は本発明によるディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出フレームワーキング方法を例示したブロック図であり、図３は本発明による暴力検出フレームワーキング方法で映像コンボリューション時の再学習過程を例示した詳細図である。図２に例示された通り、本発明のディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出フレームワークは、入力映像がＲＧＢ基盤映像である場合、入力映像をＲＧＢ基盤映像からＹＵＶ基盤映像に変換することができる。

本開示の一実施例によると、フレームワークは入力映像に含まれた一つのフレーム映像から色差成分（Ｕ、Ｖ）を除外して２次元（２Ｄ）基盤の輝度成分（Ｙ）白黒Ｙ映像を獲得する第１段階、前記２Ｄ基盤のＹ映像を順次３次元（３Ｄ）に蓄積し、このうち均等な間隔のレイヤーのフレームのみを抽出および再び蓄積して３次元（３Ｄ）基盤のＹ映像グループを獲得する第２段階、および３Ｄ基盤のＹ映像グループについて映像コンボリューションを遂行し、３＊３＊３フィルタを使用して所望の検出場面を導き出す第３段階を含んで構成され得る。このような本開示の暴力検出フレームワーキング方法は、ビデオカメラまたは動映像ファイルから与えられる映像フレームで構成された入力映像において暴力の特徴点を検出する暴力検出装置の映像分析部に適用されて具現され得、このような暴力検出装置の映像分析部にソフトウェアまたはプラットフォームの形態で搭載されて運用され得る。Ｙフレーム白黒映像はＹ映像が白黒映像である場合、Ｙ映像と同じであり得る。

以下、本発明の説明において、記載の簡潔さのために、共通する課題解決構成を有するフレームワーキング方法およびフレームワーキング装置をフレームワーク（ｆｒａｍｅｗｏｒｋ）で通称して図２、図３、図４および図５を参照して具体的に説明する。

映像分析部は、リアルタイムで入力する映像を各フレーム当たり映像１１に分ける段階を遂行することができる。リアルタイムで入力する映像は少なくとも一つのフレーム映像を含むことができる。映像分析部は入力映像に含まれた少なくとも一つのフレーム映像のうち一つのフレーム映像１１を連続的に獲得することができる。この時、リアルタイムで入力する映像は互いに異なる秒当たりのフレームを有することができる（例えば、秒当たり９０フレーム、秒当たり６０フレームなど）。

一つのフレーム映像１１がＲＧＢ形式などの色表現方式を有しているのであれ、映像分析部は一つのフレーム映像１１がＹＵＶ形式の色表現方式を有するように変換することができる。ＹＵＶ形式の色表現方式で表現された一つのフレーム映像１１は、色差成分（Ｕ、Ｖ）と輝度成分（Ｙ）を含むことができる。映像分析部は一つのフレーム映像１１から色差成分（Ｕ、Ｖ）を除外して２Ｄ基盤の輝度成分（Ｙ）映像１２を獲得する段階を遂行することができるＳ１００。

映像分析部は２Ｄ基盤のＹ映像１２多数個（好ましく３０個フレーム）を順次蓄積して３Ｄ基盤のＹ映像グループ１３を獲得する段階を遂行することができる。本開示で映像分析部は２次元（２Ｄ）基盤のＹ映像を３０個フレーム蓄積して３次元空間を作る。ここで３次元空間は、２次元の空間軸と１次元の時間軸を含むことができる。３次元空間は３Ｄ基盤のＹ映像グループ１３を表すことができるＳ３００。

好ましい実施例によると、映像分析部は３Ｄ基盤のＹフレーム白黒陰影映像グループのフレームが所定の数（好ましくは、３０個フレーム）を超過する場合、そのうち均等な間隔の順番目のフレーム（例えば、あらかじめ指定された間隔の順番目のフレーム）のみをダウンサンプリング（ｄｏｗｎｓａｍｐｌｉｎｇ）を通じて抽出することができる。例えば、入力された映像が９０フレームの映像の場合、３０フレーム（Ｆ）でダウンサンプリングをするために、あらかじめ指定された３、６、９、１２．．．のように均等な３の倍数の順番目のフレームのみを選択して抽出後に蓄積することによって、３０フレーム（Ｆ＝３０）の時間軸を有する３Ｄ基盤のＹ映像グループ１３を生成することができるＳ２００。

この後、映像分析部は３０フレームに対して３＊３＊３フィルタを使用してコンボリューション（合成積演算、Ｃｏｎｖ）を遂行するＳ４００。より詳細には、映像分析部は最初の２２４＊２２４＊Ｆ大きさの映像に対して３＊３＊３フィルタを使用して１次合成積演算を遂行するＳ４１０。この時、好ましい実施例として、１次合成積演算時にフィルタのストライド（Ｓｔｒｉｄｅ）は１であるが、これに限定されず、２または３でもよい。図面では前記コンボリューション（合成積演算）を図面符号Ｃｏｎｖで表示した。

以下、説明の便宜のために、最初の映像の横（ｘ）＊縦（ｙ）を２２４＊２２４で説明したが任意の大きさの横（ｘ）＊縦（ｙ）についても同様に適用され得る。

その後、１次合成積演算（Ｃｏｎｖ１）された前記２２４＊２２４＊Ｆ大きさの映像を１１２＊１１２＊（Ｆ／２）大きさの映像に１次プーリング（Ｐｏｏｌｉｎｇ）変換（Ｐｏｏｌ１）することができるＳ４２０。この時、プーリング方法は従来の方法であって、好ましくはプーリング変換時にレイヤーは２＊２＊２の大きさであってプーリング時のフィルタのストライドは２を使用したマックスプーリング（ＭａｘＰｏｏｌｉｎｇ）方式が使用され得る。図面では、前期プーリング変換を図面符号Ｐｏｏｌで表示した。

その後、映像分析部は１次プーリング変換された（Ｃｏｎｖ１）１１２＊１１２＊（Ｆ／２）大きさの映像に対して２次合成積演算（Ｃｏｎｖ２）を遂行するＳ４３０。

好ましい実施例において、このとき、２次合成積演算（Ｃｏｎｖ２）は複数回連続して遂行され得る。すなわち、２次合成積演算を遂行した値に対して再び繰り返して２次合成積演算が遂行され得る。図２および図３に図示された好ましい実施例によると、第２合成積演算は３回連続して遂行された。説明の便宜のために以下３回連続遂行された順に、それぞれの３Ｄ映像グループを１５ａ、１５ｂ、１５ｃで表示した。すなわち、図２および図３において図面番号１５ａは、１次プーリング変換された映像に対して１回目の２次合成積演算を遂行した映像、図面番号１５ｂは１回目の２次合成積演算を遂行した映像に対して２回目の２次合成積演算を遂行した映像、図面番号１５ｃは２回目の２次合成積演算を遂行した映像に対して３回目の２次合成積演算を遂行した映像を意味する。

映像分析部は繰り返される２次合成積演算において、１回目の２次合成積演算を遂行した映像１５ａと３回目の２次合成積演算を遂行した映像１５ｃでそれぞれあらかじめ指定された同一または均等な順番目のフレームの値を合算（Ｓｕｍ）することによって、暴力の特徴点を記憶および保存する１次再学習方法（ＲＬ１）を使用することができる。図３では、１回目の２次合成積演算を遂行した映像１５ａの６番目のフレーム１５０ａと３回目の２次合成積演算を遂行した映像１５ｃの６番目のフレーム１５０ｃの値を合さんすることによって２次再学習（ＲＬ２）をすることができる。

次いで、図３を参照して本発明の効果を高めるために、前記１次合成積演算、１次プーリング変換および２次合成積演算を同様に繰り返す実施例を説明する。

映像分析部は２次合成積演算された１１２＊１１２＊（Ｆ／２）大きさの映像に対して３次合成積演算（Ｓ４４０）を１次合成積演算と同様に遂行し、その後１次プーリング変換と同じ方式を通じて５６＊５６＊（Ｆ／４）大きさの映像に２次プーリング変換（Ｓ４５０）することができる。

その後、映像分析部は２次プーリング変換された５６＊５６＊（Ｆ／４）大きさの映像に対して２次合成積演算と同じ方式で４次合成積演算（Ｓ４６０）を遂行することができる。好ましい実施例として、４次合成積演算も２次合成積演算のように再学習のために３回連続して遂行され得、１回目の４次合成積演算１８ａの特定フレームと３回目の４次合成積演算１８ｃの同一の位置フレーム（１８０ａおよび１８０ｃ）を合算することによって２次再学習（ＲＬ２）をすることができる。

また、図３および前述した実施例において、映像分析部は３次元（３Ｄ）空間で３ｘ３ｘ３カーネル（ｋｅｒｎｅｌ）８個と２ｘ２ｘ２カーネル（ｋｅｒｎｅｌ）２個を利用して映像の暴力性を検出することによって、分析フレームの長さにかかわらず分析することができる。また、映像分析部はフィルタの時間軸の移動を通じて、既存のフレームワークに比べてより多くの連続したフレームに対する学習を可能とさせて連続した行動に対する分析を可能として、学習時間および検出正確度を向上させることができる。

下記の表１には、以上のような本発明による暴力検出フレームワークの正確度を既存の多数の暴力検出フレームワークの正確度と比較した結果を例示している。

以上のような本発明によると、映像分析部はリアルタイム入力映像から色差成分（Ｕ、Ｖ）を除外したＹフレーム白黒陰影映像を抽出した後、ネットワークの軽量化および時間空間に最適化した映像を作ってアルゴリズムに適用することができる。映像分析部は映像コンボリューション過程で再学習方法を使用して暴力の特徴点を持続的に記憶し、再学習することができるため、暴力映像コンボリューション遂行時に通り過ぎた特徴点を容易になくさないことができ、映像の暴力性検出能力を向上させることができる。また、映像分析部は既存のフレームワーク（３×３×Ｆ）よりも小さいフィルタ（３×３×３カーネル）を使用するため、分析フレームの長さにかかわらず分析が可能な利点を提供することができる。

また、本発明によると、映像分析部はフィルタの時間軸の移動を通じて、既存のフレームワークに比べてより多くの連続したフレームに対して学習することができるため連続した行動に対する分析が可能であり、３Ｄコンボリューションに対する残余ネットワークの適用により学習時間および検出正確度を向上させることができる。

以上のように、本発明はたとえ限定された実施例と図面によって説明されたが、本発明は前記の実施例に限定されず、これは本発明が属する分野で通常の知識を有する者であればこのような記載から多様な修正および変形が可能である。したがって、本発明の思想は下記に記載された特許請求の範囲によってのみ把握されるべきであり、これの均等または等価的変形はいずれも本発明の思想の範疇に属するものと言える。

Claims

少なくとも一つのフレーム映像を含む入力映像から暴力の特徴点を検出して映像の暴力性を検出する暴力検出フレームワーキング方法において、
入力映像に含まれた一つのフレーム映像から色差成分（Ｕ、Ｖ）を除外して２次元（２Ｄ）基盤の輝度成分（Ｙ）映像を抽出する第１段階と、
前記２Ｄ基盤のＹ映像を順次３次元（３Ｄ）に蓄積し、このうち均等な間隔のフレームのみを抽出して３次元（３Ｄ）基盤のＹ映像グループを獲得する第２段階と、
前記３Ｄ基盤のＹ映像グループに対して３＊３＊３フィルタを使用して映像コンボリューション（Ｃｏｎｖｏｌｕｔｉｏｎ）を遂行することによって暴力検出場面を導き出す第３段階と、を含んでなることを特徴とする、ディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング方法。
前記第２段階で均等な間隔のフレームのみを抽出することは、
前記３Ｄで蓄積された映像のうちあらかじめ指定された均等な順番目のフレームのみをダウンサンプリング（ｄｏｗｎｓｍａｐｌｉｎｇ）を通じて抽出することを特徴とする、請求項１に記載のディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング方法。
前記第３段階の映像コンボリューション遂行は、
所定の横（ｘ）＊縦（ｙ）＊フレーム（Ｆ）の大きさの映像に対して１次合成積演算（Ｃｏｎｖｏｌｕｔｉｏｎ）を遂行し、（ｘ／２）＊（ｙ／２）＊（Ｆ／２）の大きさの映像に１次プーリング変換（Ｐｏｏｌｉｎｇ）する段階と、
前記１次プーリング変換された（ｘ／２）＊（ｙ／２）＊（Ｆ／２）の大きさの映像に対して２次合成積演算を遂行する段階と、
２次合成積演算が遂行された（ｘ／２）＊（ｙ／２）＊（Ｆ／２）の大きさの映像に対して（ｘ／４）＊（ｙ／４）＊（Ｆ／４）の大きさの映像に２次プーリング変換する段階と、を含んでなることを特徴とする、請求項１に記載のディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング方法。
前記第２段階は３０個フレームでダウンサンプリングして３Ｄ基盤のＹ映像グループを獲得し、
前記１次合成積演算および２次合成積演算時のフィルタの大きさは３＊３＊３であって、ストライドは１であり、
前記１次プーリング変換時のフィルタの大きさは２＊２＊２であって、ストライドは２であることを特徴とする、請求項３に記載のディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング方法。
前記２次合成積演算は３回繰り返して連続に遂行され、
１回目の２次合成積演算を遂行した映像と３回目の２次合成積演算を遂行した映像でそれぞれあらかじめ指定された同じ順番目のフレームの値を合算（Ｓｕｍ）することによって暴力の特徴点を再学習することを特徴とする、請求項４に記載のディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング方法。
前記２次プーリング変換された（ｘ／４）＊（ｙ／４）＊（Ｆ／４）の大きさの映像に対して、
３＊３＊３フィルタを使用した４次合成積演算は３回繰り返して連続に遂行され、
１回目の４次合成積演算を遂行した映像と３回目の４次合成積演算を遂行した映像でそれぞれあらかじめ指定された同じ順番目のフレームの値を合算（Ｓｕｍ）することによって暴力の特徴点を再学習することを特徴とする、請求項５に記載のディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング方法。
少なくとも一つのフレーム映像を含む入力映像から暴力の特徴点を検出して映像の暴力性を検出する映像分析部を含む暴力検出用フレームワーキング装置であって、
前記映像分析部は、
入力映像に含まれた一つのフレーム映像から色差成分（Ｕ、Ｖ）を除外して２次元（２Ｄ）基盤の輝度成分（Ｙ）映像を抽出し、
前記２Ｄ基盤のＹ映像を順次３次元（３Ｄ）に蓄積し、このうち均等な間隔のレイヤーのフレームのみを抽出して３次元（３Ｄ）基盤のＹ映像グループを獲得し、
前記３Ｄ基盤のＹ映像グループに対して３＊３＊３フィルタを使用して映像コンボリューション（Ｃｏｎｖｏｌｕｔｉｏｎ）を遂行することによって暴力検出場面を導き出すことを特徴とする、ディープランニング基盤陰影映像の時空間的な特性分析を活用した暴力検出用フレームワーキング装置。