JP6909657B2 - 映像認識システム - Google Patents

映像認識システム Download PDF

Info

Publication number
JP6909657B2
JP6909657B2 JP2017136239A JP2017136239A JP6909657B2 JP 6909657 B2 JP6909657 B2 JP 6909657B2 JP 2017136239 A JP2017136239 A JP 2017136239A JP 2017136239 A JP2017136239 A JP 2017136239A JP 6909657 B2 JP6909657 B2 JP 6909657B2
Authority
JP
Japan
Prior art keywords
video
unit
feature amount
undefined
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017136239A
Other languages
English (en)
Other versions
JP2019020820A (ja
Inventor
森田 健一
健一 森田
英克 高田
英克 高田
裕樹 渡邉
裕樹 渡邉
マルティン クリンキグト
マルティン クリンキグト
眞之 藤田
眞之 藤田
栄二 岡村
栄二 岡村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2017136239A priority Critical patent/JP6909657B2/ja
Publication of JP2019020820A publication Critical patent/JP2019020820A/ja
Application granted granted Critical
Publication of JP6909657B2 publication Critical patent/JP6909657B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Closed-Circuit Television Systems (AREA)
  • Image Analysis (AREA)

Description

本発明は、映像認識システムに関する。
一般的に、監視向けの映像認識システムは、監視対象の外見や動作が定義済みの場合に、監視映像に写る物体が監視対象であることを識別可能である。
このような映像認識システムは、例えば、特許文献1に記載されている。特許文献1では、カメラにより撮像されて入力される映像が予め定められたカテゴリに含まれるものであるか否かを判別する。この際、予めカテゴリに属する映像サンプルを複数のクラスに分割し、その分割結果に基づいて学習した識別器それぞれの識別結果を統合する。この統合結果に基づき、入力された映像が予め定められたカテゴリに含まれるものであるか否かを判別する。
特開2008−250908号公報
特許文献1では、監視対象の外見や動作が定義済みの場合に、監視映像に写る物体が監視対象であることを識別可能である。しかし、特許文献1には、未定義の監視対象の外見や動作を識別することについては言及されていない。
本発明の目的は、映像認識システムにおいて、未定義の監視対象の外見や動作を識別することにある。
本発明の一態様の映像認識システムは、映像撮像装置が撮影した映像の内容を予め定められた第1の映像識別器を用いて識別する映像識別部と、前記撮影した映像から特徴量を抽出する特徴量抽出部と、前記映像識別部によって識別された識別結果と、前記特徴量抽出部により抽出された前記特徴量とを蓄積する映像データベースと、前記映像データベースに蓄積された前記特徴量に基づいて前記映像を分類する映像分類部と、情報を表示する表示部と、を有し、前記映像分類部は、前記映像データベースに蓄積された前記特徴量を用いて、前記撮影した映像を、前記第1の映像識別器で識別可能な定義済み映像で構成される定義済み映像グループと、前記第1の映像識別器では識別不可能な未定義映像で構成される未定義映像グループとに分類し、前記映像識別部は、前記未定義映像グループが存在する場合、前記撮影した映像が前記未定義映像グループに属するかを判定し、前記表示部は、前記撮影した映像が前記未定義映像グループに属すると判定された場合、前記撮影した映像が前記未定義映像であることを表示することを特徴とする。
本発明の一態様によれば、映像認識システムにおいて、未定義の監視対象の外見や動作を識別することができる。
実施例の映像認識システムの全体構成図である。 実施例の映像認識システムのハードウェア構成図である。 映像データベースの構成及びデータ例の説明図である。 ニューラルネットワークの説明図である。 ニューラルネットワークの説明図である。 映像分類結果の説明図である。 映像分類結果の説明図である。 映像分類結果の説明図である。 映像認識処理のシーケンス図である。 設定画面の一例を示す図である。 表示画面の一例を示す図である。
以下、図面を参照して実施例について説明する。
図1を参照して、実施例の映像認識システム100の全体構成について説明する。
実施例の映像認識システム100は、映像撮影装置101、映像記憶装置102、入力装置103、表示装置104及びサーバ計算機110を有する。
映像撮影装置101は、映像を撮影して映像データを作成し、それを出力する装置である。映像記憶装置102は、映像データを保存し要求に応じて出力する記憶媒体である。映像記憶装置102は、コンピュータ内蔵のハードディスクドライブ、または、NAS(Network Attached Storage)もしくはSAN(Storage Area Network)などのネットワークで接続されたストレージシステムを用いて構成することができる。
映像撮影装置101又は映像記憶装置102から出力された映像は、いずれもサーバ計算機110の映像入力部111に入力される。映像認識システム100は、図1に示すように映像撮影装置101及び映像記憶装置102の両方を備えてもよいが、いずれか一方のみを備えてもよい。
映像認識システム100が映像撮影装置101及び映像記憶装置102の両方を備える場合、映像入力部110への映像データの入力元が必要に応じて映像撮影装置101又は映像記憶装置102に切り替えられてもよい。あるいは、映像撮影装置101から出力された映像データが一旦映像記憶装置102に記憶され、そこから映像入力部110に入力されてもよい。その場合、映像記憶装置102は、例えば、映像撮影装置101から継続的に入力される映像データを一時的に保持するキャッシュメモリであってもよい。
なお、映像記憶装置102に保存される映像データ及び映像撮影装置101によって作成される映像データは、撮影された物体の認識に利用できるものである限り、どのような形式のデータであってもよい。例えば、映像撮影装置101がビデオカメラであり、それによって撮影された動画像データが映像データとして出力されてもよいし、そのような映像データが映像記憶装置102に記憶されてもよい。
あるいは、映像撮影装置101がスチルカメラであり、それによって所定の間隔(少なくとも撮影された物体を追跡できる程度の間隔)で撮影された一連の静止画像データが映像データとして出力されてもよい。あるいは、そのような映像データが映像記憶装置102に記憶されてもよい。また、映像撮影装置101は、複数台のビデオカメラ、あるいは、スチルカメラであってもよいし、その両方で構成されてもよい。
入力装置103は、マウス、キーボード、タッチデバイスなど、ユーザの操作をサーバ計算機110に伝えるための入力インタフェースである。表示装置104は、液晶ディスプレイなどの出力インタフェースであり、サーバ計算機110の映像認識結果の表示や、ユーザとの対話的操作などのために用いられる。例えば、タッチパネル等を用いることによって入力装置103と表示装置104は一体化されてもよい。
サーバ計算機110は、入力された映像データが予め定義済みの監視対象の外見や動作を含む映像であるか否かを識別する映像識別装置として機能する。また、サーバ計算機110は、映像データを機械学習特徴量を用いて分類することが可能な映像分類装置として機能する。さらに、サーバ計算機110は、予め定義されていない監視対象の外見や動作を識別するための映像識別器を半自動的に生成可能な新規映像識別器生成装置として機能する。
サーバ計算機110が扱う映像は、一箇所以上の場所で撮影された定点観測の映像であってもよい。あるいは、アクションカメラ、ドローン搭載のカメラ、ウェアラブルカメラなどのような移動型のカメラによって撮影された映像であってもよい。また、検索対象の物体は、人物または車両などの任意の物体である。なお、実施例の映像認識システム100は、例えば、映像認識対象を人物の外見や行動とする。
サーバ計算機110は、映像入力部111、機械学習パラメータ保持部121、機械学習特徴量抽出部122、機械学習特徴量登録部123、映像識別部131、識別結果登録部132、識別結果統合部133、映像分類部141、及び分類条件制御部142を備える。
映像入力部111は、映像撮影装置101によって撮影された映像データを受け取るか、または、映像記憶装置102から映像データを読み出し、それをサーバ計算機110内部で使用するデータ形式に変換する。具体的には、映像入力部111は、映像(動画データ形式)をフレーム(静止画データ形式)に分解する動画デコード処理を行う。得られたフレームは、機械学習特徴量抽出部122及び映像識別部131に送られる。
機械学習特徴量抽出部122は、機械学習パラメータ保持部121に保持された機械学習パラメータを使用して映像データの特徴量を抽出する。以降、この機械学習パラメータ121を用いて算出した全ての特徴量を機械学習特徴量と言う。機械学習特徴量の抽出は、公知の方法を含む任意の方法によって行うことができる。
機械学習パラメータ保持部121が保持している機械学習パラメータが深層学習技術を前提とするネットワークモデルである場合、機械学習特徴量抽出部122は、そのネットワークモデルに従い映像入力部111より受け付けた映像の機械学習特徴量を算出する。深層学習技術を前提とするネットワークモデルには、例えば、静止画中の物体認識に適したfaster R−CNNや映像中の人物行動認識に適した3dimension−CNNなどがある。
特徴量抽出の詳細については、図4を用いて後述する。機械学習特徴量抽出部122により算出された機械学習特徴量は、機械学習特徴量登録部123に送られる。機械学習特徴量登録部123は、機械学習特徴量を映像データベース150に登録する。
映像識別部131は、映像入力部131より受け付けた映像データが、予め定義された人物の外見または動作を含むか否かを判別する。予め定義される人物の外見または動作の種類は、単数であっても良いし複数であってもよい。映像識別部131によって算出された識別結果は、識別結果登録部132及び識別結果統合部133に送られる。
識別結果登録部132は、識別結果を映像データベース150に登録する。
識別結果統合部133は、映像データと識別結果を統合する。例えば、映像データに予め定義された人物の外見または動作が含まれる場合、映像データに予め定義された人物の外見または動作が含まれることを明示する情報を付与する。表示装置104は、識別結果統合部133により作成された映像データを表示する。
映像分類部141は、映像データベース150に登録された映像データと、映像データの各フレームに対応する機械学習特徴量と識別結果を受け付けるとともに、分類条件制御部142より映像分類条件を受け付け、映像データの分類を実施する。映像データの分類方法については、図5を用いて後述する。映像分類結果は映像識別部131に送られる。映像データベース150に登録するデータの詳細については図3を用いて後述する。
図2を参照して、実施例の映像認識システム100のハードウェア構成について説明する。
サーバ計算機110は、例えば、相互に接続されたプロセッサ201および記憶装置202を有する一般的な計算機である。記憶装置202は任意の種類の記憶媒体によって構成される。例えば、記憶装置202は、半導体メモリ及びハードディスクドライブを含んでもよい。
この例において、図1に示した映像入力部111、機械学習特徴量抽出部122、機械学習特徴量登録部123、映像識別部131、識別結果登録部132、識別結果統合部133、映像分類部141及び分類条件制御部142といった機能部は、プロセッサ201が記憶装置202に格納された処理プログラム203を実行することによって実現される。言い換えると、この例において、上記の各機能部が実行する処理は、実際には、処理プログラム203に記述された命令に従うプロセッサ201によって実行される。また、映像データベース150及び機械学習パラメータ保持部121は、記憶装置202に含まれる。
サーバ計算機110は、さらに、プロセッサに接続されたネットワークインターフェース装置(NIF)204を含む。映像撮影装置101は、例えば、ネットワークインターフェース装置204を介してサーバ計算機110に接続される。映像記憶装置102は、ネットワークインターフェース装置204を介してサーバ計算機110に接続されたNASまたはSANであってもよいし、記憶装置202に含まれてもよい。
図3を参照して、映像データベース150の構成及びデータ例について説明する。
ここではテーブル形式の構成例を示すが、データ形式は任意でよい。
映像データベース150は、図3に示す映像データ管理情報300を含む。図3のテーブル構成及び各テーブルのフィールド構成は、実施例に必要な構成であり、アプリケーションに応じてテーブル及びフィールドを追加してもよい。
映像データ管理情報300は、映像IDフィールド301、カメラIDフィールド302、撮影時刻フィールド303、映像データフィールド304、識別器#1フィールド305、識別器#2フィールド306、識別器#3フィールド、機械学習特徴量フィールド311、識別器#N2フィールド312及び識別器#N2フィールド313を有する。
映像IDフィールド301は、各映像データの識別情報(以下、映像IDという)を保持する。カメラIDフィールド302は、カメラIDを保持する。カメラIDは、映像撮影装置101であるカメラを特定するために必要となる値である。映像データが映像記憶装置102から映像入力部111に入力される場合は、入力される映像データが格納するカメラIDを保持する。必要に応じて、映像データ管理情報300は、ファイル名フィールドを有し、ファイル名フィールドは、映像記憶装置102から映像入力部111に入力される映像データのファイル名を保持しても良い。
撮影時刻フィールド303は、映像入力部111に入力される映像データが撮影された時刻を保持する。映像データフィールド304は、映像入力部111に入力される映像データを保有する。映像データフィールド304は、連続するフレーム画像や動画ファイルなどのいかなる映像ファイルフォーマットのデータを保持してもよい。実施例においては、映像データフィールド304は、予め設定されたフレーム数の連続するフレーム画像(いわゆるモーションJPEG)のバイナリデータを保持するものとする。
識別器#1フィールド305、識別器#2フィールド306及び識別器#3フィールド307は、映像識別部131が映像入力部111より受け付けた映像データを識別した結果を保持する。映像識別部131による映像識別の詳細については、図5を用いて後述する。
図3においては、映像識別部131が3種類の識別器(識別器#1、識別器#2及び識別器#3)を有するものとする。そして、映像データ管理情報300は、それぞれの識別器(識別器#1、識別器#2及び識別器#3)による識別結果を、識別器#1フィールド305、識別器#2フィールド306及び識別器#3フィールド307に保持する場合について記載している。しかし、映像識別部131は任意の個数の映像識別器を備えても良く、映像データ管理情報300は映像識別器の個数に対応する識別器フィールドを備えても良い。
機械学習特徴量フィールド311は、機械学習特徴量抽出部122が映像入力部111より受け付けた映像データから抽出した特徴量を保持する。識別器#N1フィールド312及び識別器#N2フィールド313は、映像識別部131が映像入力部111より受け付けた映像データを、映像分類部141によって生成される識別器によって識別した結果を保持する。
映像分類部141は、2種類の識別器(識別器#N1及び識別器#N2)を生成する。そして、映像データ管理情報300が、それぞれの識別器(識別器#N1及び識別器#N2)による識別結果を、識別器#N1フィールド312、識別器#N2フィールド313に保持する。しかし、映像データ管理情報300は、映像分類部141が生成する識別器の個数に合わせて、追加の識別器フィールドを備えても良い。
図4A、図4Bを参照して、機械学習特徴量抽出部122が機械学習特徴量を抽出する際に使用する深層学習型のニューラルネットワークの一例について説明する。
図4Aのニューラルネットワークは、一般に知られているニューラルネットワークに準ずるものであり、入力層、最終層および1層以上の中間層で構成される。各層内の丸記号はノードを、ノード間の線はネットワーク接続をそれぞれ示している。
各ノードは、1層前のノードのうちネットワーク接続されているノードの数値と該当するネットワーク接続部の重みの積を用いた四則演算によって算出されるものとする。各ノード間の演算時に使用される重みは機械学習パラメータ保持部121が保持する重みパラメータを使用するものとする。
入力層は、映像入力部111により映像から抽出された1枚または複数のフレーム画像の全体あるいは部分領域の画素値の多次元配列データで構成される。中間層の各層と最終層は、例えば、2次元畳み込み層、3次元畳み込み層、プーリング層、完全結合層などのように、ニューラルネットワークの構成要素として一般に知られているものであれば、どのような構成でもよい。最終層は全ての層における演算を実施した結果となる。
また、ネットワーク構造は、図4Aに示したような演繹型のニューラルネットワーク構造以外に、再帰型ニューラルネットワーク(RNN)や長短期記憶(LSTM)といった再帰型のニューラルネットワーク構造であってもよい。機械学習特徴量抽出部122は、図4Aのようなネットワーク構造の中間層と最終層のうち1層または数層の数値データを連結した多次元配列データを特徴量として出力する。
なお、重みパラメータについては、映像分類システム100の映像撮影装置101で撮影された映像以外の映像の学習により獲得したものであっても良い。具体的には、機械学習パラメータ保持部121は、人物の動作の識別に適した3D−CNNのようなニューラルネットワークモデルと、ウェブ上に公開されている様々な映像を用いて学習済みのニューラルネットワークモデルの重みパラメータを保持しても良い。機械学習特徴量抽出部122は、像認識システム100が監視カメラの映像を扱う場合であっても良いし、監視カメラ以外の撮影装置によって学習済みのニューラルネットワークを用いて特徴量抽出を行っても良い。
次に、図4Bを参照して、映像分類部141の処理の概要について説明する。
機械学習特徴量抽出部122が、図4Aのようなニューラルネットワーク構造を有し、かつ、その最終層が定義済みの映像を識別する機能を有する場合(つまり、最終層が図3における識別器#1〜#3として機能する場合)、映像分類部141は、ニューラルネットワークの中間層の計算値のクラスタリングにより映像を分類する。
さらに、得られた各映像分類グループについて、分類グループに含まれる映像がニューラルネットワークの最終層によって識別不可能な映像で構成されるかを算出する。そして、任意の閾値以上の映像がニューラルネットワークの最終層によって実現される識別器によって識別不可能な映像で構成される映像分類グループは、未定義の人物行動を収めた映像分類グループであることを見出す。その結果、映像分類部141は、図4Bのように、図3の識別器#N1、識別器#N2を自動的に生成する。
図5A〜図5Cを参照して、映像分類部141が映像データベース150に登録済みの映像を分類した結果と、映像識別部131による映像識別結果の関係について説明する。
映像分類部141は、映像データベース150に登録済みの機械学習特徴量311をクラスタリングすることにより映像分類を行うが、クラスタリングに際し、図5A〜図5Cに示すような映像分類結果と映像識別結果の関係を元に、クラスタリング条件を調整する。
はじめに、図5Aについて説明する。
表の列は、映像分類部141によって分類された分類結果に対応し、図5Aの場合、6種類に映像グループに分類されていることがわかる。表の行は、映像識別部131の有する識別器で正事例として識別した映像であることを示す。表の数値は、映像分類部141によって分類された映像グループ別の映像識別結果の割合である。例えば、表の左端の映像グループの数値列をみると、映像識別部131が保持する識別器#1に該当するデータが80%、識別器#2に該当するデータが10%、識別器#3に該当するデータが3%、識別器#4に該当するデータが5%、何れの識別器でも正事例とならなかったデータが2%の内訳になっていることが読み取れる。
このように、映像分類部141における映像分類においては、映像識別部131では正事例とならない映像が予め設定した割合以上となる映像分類を1つ以上生じるように分類数(クラスタ数)を調整する最適化が行われても良い。
図5Aのように、映像分類部141による映像の分類が行われ、未定義の映像グループである#N1、#N2が発見された場合、映像識別部131は、従来の映像識別#1〜#4に加えて、#N1、#N2に該当するかの判定も可能となる。つまり、映像識別部は図5Bのように更新される。
次に、図5Cについて説明する。図5Cは、映像識別部131では、任意の一つの識別器(図5Cでは識別器#1)の正事例と判定される映像が分割されるような映像分類となる場合の例である。このように、映像分類部141における映像分類においては、映像識別部131では任意の一つの識別器の正事例となる映像が、複数のグループに分解されるように分類数(クラスタ数)を調整する最適化が行われても良い。
図6を参照して、実施例1の映像認識処理について説明する。
最初に、映像入力部111が、映像撮影装置101または映像記憶装置102から入力された映像データをデコードし、連続するフレーム画像を抽出する(ステップS601)。尚、映像データが複数種類入力される場合、それぞれの映像データのフレームレートは異なっても良い。
次に、機械学習特徴量抽出部122は、映像入力部111より受け付けた連続するフレーム画像から機械学習特徴量を抽出する(ステップS602)。抽出された機械学習特徴量は、機械学習特徴量登録部123により、映像データベース150に登録される。
次に、映像識別部131は、ステップS602で機械学習特徴量抽出部122が受け付けた連続するフレーム画像を受け付け、映像識別を実施する(ステップS603)。抽出された識別結果は、識別結果登録部132により、映像データベース150に登録される。さらに、識別結果は、識別結果統合部133により映像データと統合され、表示装置104に出力される。
ステップS601〜S603の処理により、サーバ計算機110は、定義済みの映像内容を識別する映像識別装置として機能する。
映像分類部141は、予め設定されたタイミングで映像データベースを参照し、機械学習特徴量に基づく映像分類を実施し、分類結果と映像識別部131による識別結果との比較により、未定義の人物行動を収めた映像が存在するか否かを判定する(ステップS604)。
次に、映像分類部141は、各映像が複数の分類グループのいずれに属するかを映像データベース150に登録する(ステップS605)。
また、分類グループに映像識別部131が有する識別器では識別出来ない映像データで構成される分類グループが存在する場合、映像分類部141は、映像識別部131に、分類グループに映像識別部131が有する識別器では識別出来ない映像データで構成される分類グループ(以降、未定義映像グループという)が存在することを通知する(ステップS606)。
次に、ステップS606における映像分類部141から映像識別部131への通知が実施された場合以降に、サーバ計算機110が実施する映像認識処理について説明する。
はじめに、映像入力部111が映像撮影装置101または映像記憶装置102から入力された映像データをデコードし、連続するフレーム画像を抽出する(ステップS611)。
次に、機械学習特徴量抽出部122は、映像入力部111より受け付けた連続するフレーム画像から機械学習特徴量を抽出する(ステップS612)。抽出された機械学習特徴量は、機械学習特徴量登録部123により、映像データベース150に登録される。
次に、映像識別部131は、ステップS612で機械学習特徴量抽出部122が受け付けた連続するフレーム画像と機械学習特徴量抽出部122が抽出した機械学習特徴量を受け付け、映像識別を実施する(ステップS613)。
ここで、映像識別部131は、ステップS603と同様に、予め保持する映像識別器による映像識別を実施するとともに、機械学習特量抽出部122より受け付けた機械学習特徴量を、映像データベース150に登録済みの機械学習特徴量と比較し、ステップS605において映像分類部141が生成した分類グループのいずれに属するかを識別する。
ステップS613における識別結果は、識別結果登録部132により、映像データベース150に登録される。さらに、識別結果は、識別結果統合部133により映像データと統合され、表示装置104に出力される(ステップS614)。この際、映像データが未定義映像グループに該当する場合は、映像監視において注視すべき映像データであることを示すテキストメッセージや記号データを映像データと統合して表示装置104に出力してもよい。
最後に、ユーザが未定義映像グループについて意味付けする処理(アノテーション)について説明する。
はじめに、映像分類部141は、入力装置104を用いてユーザが入力した映像分類結果の表示要求を受け付けると、映像データベースに登録されている映像分類結果を読み出して表示装置103に出力する(ステップS621)。 次に、ユーザは表示装置103により映像分類結果を確認し、未定義映像グループの内容を説明するテキストを入力装置104により入力することでアノテーションを実施する(ステップS622)。この際、ユーザは、未定義映像グループを監視対象とするか否かの設定を行っても良い。
図7を参照して、サーバ計算機107が入力された映像を解析する処理の条件を設定するための設定画面について説明する。ユーザは、設定画面から映像分類条件を入力する。
図7に示すように、映像分類条件の設定画面は、映像分類手法選択部701、映像分類数指定部702、映像分類モード選択部703、映像分類結果表示部704、映像分類別映像データ再生部705、映像分類番号指定部706、再生制御部707、映像説明テキスト入力部708及び監視アラート設定部709を有する。
図7は一例であり、図7に示す設定画面と同様の設定が行えるものであれば、異なるデザインの設定画面であっても良い。
ユーザは、映像分類手法選択部701により映像分類部141が実施する映像分類において使用するクラスタリング手法を選択することが出来る。選択可能なクラスタリング手法は、一般に知られているクラスタリング手法を含みいかなる手法を含んでも良い。ユーザは、映像分類数指定部702に数値を入力することで、映像分類数を決定することが出来る。映像分類モード選択部703により、ユーザは、映像分類数の最適化方法を指定することが出来る。
例えば、映像分類数が映像分類数指定部702の値となるように指定するか、図5Aのように未定義の映像分類が生じるように映像分類数を最適化するか、図5Bのように定義済みの任意の識別結果が分割されるように映像分類数を最適化するかを選択することが出来る。
映像分類手法選択部701、映像分類数指定部702、映像分類モード選択部703のいずれかが変更されると、映像分類が実施され、映像分類結果が映像分類結果表示部704に表示される。
映像分類結果表示部704の表示内容は、図5A〜図5Cに示すような表であってもよいし、階層型クラスタリング手法によって分類される場合には、クラスタリング結果の木構造であっても良い。
さらに、ユーザは分類番号指定部706を用いて詳細を確認したい映像分類番号を指定し、再生制御部707により再生を開始させることにより、映像データ再生部705に表示される映像データを確認することが可能である。ユーザは、分類番号指定部706で指定した映像データについて映像説明テキスト入力部708を用いてアノテーションすることや、監視アラート設定部709により同様の映像を識別した際に画面上に警告を表示するか否かを設定することが可能である。
図8を参照して、サーバ計算機107が入力された映像を解析した処理の結果を表示するためのモニタ画面に一例について説明する。
図8に示すように、表示装置104であるディスプレイ上に6種類の映像を同時に表示する。映像表示エリア801〜806にはそれぞれ異なる映像が表示される。それぞれの表示内容は、映像識別部131が映像識別を実施し、識別結果統合部133が識別結果と映像を統合したものである。
ステップS601〜S603により、映像識別部131の有する予め定義済みの識別器によって映像データが監視対象の外見または動作を含むことが識別された場合、図8の表示エリア801のメッセージ807、表示エリア802のメッセージ808、表示エリア803のメッセージ809のような識別結果の意味情報が統合された映像データが表示される。
これらは、図3及び図5A〜図5Cで示した識別器#1〜3が、倒れている人物が存在するか否か、視線の先が正常な人とは異なる人物が存在するか否か(表示エリア802では監視カメラ位置を確認している例)、長時間一定箇所に留まっている人物が存在するか否かについて識別出来る識別器であり、それぞれの映像が識別器#1〜3に該当すると判定された場合の結果である。
いずれの識別器によっても該当すると判定がされない正常な映像については、表示エリア806のようにメッセージは表示されず、単に映像のみが再生されてもよい。あるいは、正常であることを示すメッセージが表示されても良い。なお、表示エリア806の映像は人物が単に歩いて通り過ぎていく場合の例である。
一方、ステップS604〜S606の実施を前提とし、ステップS611〜S614により、映像分類部141が見出した物体の外見または動作を含むことが識別された場合、図8の表示エリア804のメッセージ810、表示エリア805のメッセージ811のような新たに監視対象とするべき可能性のある映像であることを示す意味情報が統合された映像データが表示される。表示エリア804は、人物がふらふらと歩いている映像の例であり、表示エリア805は、人物が大きな荷物を放置して去っていく映像の例である。
これらは、図3及び図5A〜図5Cで示した識別器#N1、#N2が、ふらふら歩いている人物が存在するか否か、大きな荷物を置いて去っていく人物が存在するか否かについて識別出来る識別器である。しかし、未だステップS622によるアノテーションは実施されておらず、ステップS611〜S614により見出された監視対象候補の映像に該当すると判定された場合の結果である。
さらに、ステップS621〜ステップS622のように、映像分類部141が見出した物体の外見または動作であって、かつ、ユーザによる意味付けが行われた映像に該当すると識別された場合、メッセージ810、メッセージ811は、ふらふらしている人がいる、大きな荷物を置いて去っていく人がいる、などの表示に更新される。
以上述べてきたように、実施例では、映像分類部141は、映像データベース150に蓄積された機械学習特徴量を用いて撮影した映像を、映像識別器#1〜#4(第1の映像識別器)で識別可能な定義済み映像で構成される定義済み映像グループと、第1の映像識別器#1〜#4では識別不可能な未定義映像で構成される未定義映像グループとに分類する。
映像識別部131は、未定義映像グループが存在する場合、撮影した映像が未定義映像グループに属するかを判定する。表示装置104は、撮影した映像が未定義映像グループに属すると判定された場合、撮影した映像が未定義映像であることを表示する。
機械学習特徴量抽出部122は、未定義映像グループに含まれる第1の映像識別器#1〜#4では識別不可能な未定義映像から機械学習特徴量を抽出する。映像分類部141は、この機械学習特徴量に基づいて、第1の映像識別器#1〜#4では識別不可能な未定義映像を識別するための映像識別器#N1、#N2(第2の映像識別器)を新たに生成する。
このようにして、実施例では、映像認識システムにおいて、未定義の監視対象の外見や動作を識別することができる。
100 映像分類システム
101 映像撮影装置
102 映像記憶装置
103 入力装置
104 表示装置
110 サーバ計算機
111 映像入力部
121 機械学習パラメータ保持部
122 機械学習特徴量抽出部
123 機械学習特徴量登録部
131 映像識別部
132 識別結果登録部
133 識別結果統合部
141 映像分類部
142 分類条件制御部
150 映像データベース

Claims (8)

  1. 映像撮像装置が撮影した映像の内容を予め定められた第1の映像識別器を用いて識別する映像識別部と、
    前記撮影した映像から特徴量を抽出する特徴量抽出部と、
    前記映像識別部によって識別された識別結果と、前記特徴量抽出部により抽出された前記特徴量とを蓄積する映像データベースと、
    前記映像データベースに蓄積された前記特徴量に基づいて前記映像を分類する映像分類部と、
    情報を表示する表示部と、を有し、
    前記映像分類部は、
    前記映像データベースに蓄積された前記特徴量を用いて、前記撮影した映像を、前記第1の映像識別器で識別可能な定義済み映像で構成される定義済み映像グループと、前記第1の映像識別器では識別不可能な未定義映像で構成される未定義映像グループとに分類し、
    前記映像識別部は、
    前記未定義映像グループが存在する場合、前記撮影した映像が前記未定義映像グループに属するかを判定し、
    前記表示部は、
    前記撮影した映像が前記未定義映像グループに属すると判定された場合、前記撮影した映像が前記未定義映像であることを表示することを特徴とする映像認識システム。
  2. 前記特徴量抽出部は、
    前記第1の映像識別器では識別不可能な前記未定義映像から前記特徴量を抽出し、
    前記映像分類部は、
    前記特徴量に基づいて、前記第1の映像識別器では識別不可能な前記未定義映像を識別するための第2の映像識別器を前記映像識別部に新たに生成することを特徴とする請求項1に記載の映像認識システム。
  3. 前記映像分類部は、
    予め定められたタイミングで前記映像データベースを参照し、前記映像データベースに蓄積された前記特徴量に基づいて前記撮影した映像を分類することを特徴とする請求項1に記載の映像認識システム。
  4. 前記映像識別部は、
    前記撮影した映像が前記定義済み映像グループに属すると判定した場合、
    前記第1の映像識別器によって識別された識別結果の意味情報を前記定義済み映像と統合して前記表示部に出力することを特徴とする請求項1に記載の映像認識システム。
  5. 前記映像識別部は、
    前記撮影した映像が前記未定義映像グループに属すると判定した場合、
    前記第2の映像識別器によって識別された識別結果の意味情報を前記未定義済み映像と統合して前記表示部に出力することを特徴とする請求項に記載の映像認識システム。
  6. 前記第2の映像識別器によって識別された識別結果の前記意味情報は、前記未定義映像が監視すべき映像であることを示すメッセージを含むことを特徴とする請求項5に記載の映像認識システム。
  7. 情報を入力する入力部を更に有し、
    前記入力部は、前記未定義映像が前記監視すべき映像であることを示す前記メッセージの入力を受け付けることを特徴とする請求項6に記載の映像認識システム。
  8. 前記特徴量抽出部は、機械学習を行う機械学習特徴量抽出部を構成し、
    前記機械学習特徴量抽出部が演算に用いるネットワークモデルと前記ネットワークモデルの各ノードにおける重み情報を格納する学習済みパラメータを保持する機械学習パラメータ保持部を更に有し、
    前記機械学習特徴量抽出部は、
    前記学習済みパラメータを用いて前記ネットワークモデルに従い、中間層又は最終層による計算結果からなる多次元数値配列を前記特徴量として出力することを特徴とする請求項1に記載の映像認識システム。
JP2017136239A 2017-07-12 2017-07-12 映像認識システム Active JP6909657B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017136239A JP6909657B2 (ja) 2017-07-12 2017-07-12 映像認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017136239A JP6909657B2 (ja) 2017-07-12 2017-07-12 映像認識システム

Publications (2)

Publication Number Publication Date
JP2019020820A JP2019020820A (ja) 2019-02-07
JP6909657B2 true JP6909657B2 (ja) 2021-07-28

Family

ID=65352912

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017136239A Active JP6909657B2 (ja) 2017-07-12 2017-07-12 映像認識システム

Country Status (1)

Country Link
JP (1) JP6909657B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102021441B1 (ko) * 2019-05-17 2019-11-04 정태웅 인공지능을 이용한 영상 기반의 실시간 침입 감지 방법 및 감시카메라
US11151412B2 (en) * 2019-07-01 2021-10-19 Everseen Limited Systems and methods for determining actions performed by objects within images
CN112861637B (zh) * 2021-01-14 2023-04-28 国网浙江省电力有限公司湖州供电公司 一种基于多视频人员跟踪的站内人像特征比对识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4481663B2 (ja) * 2004-01-15 2010-06-16 キヤノン株式会社 動作認識装置、動作認識方法、機器制御装置及びコンピュータプログラム
EP2521092A1 (en) * 2009-12-28 2012-11-07 Cyber Ai Entertainment Inc. Image recognition system
JP2016139176A (ja) * 2015-01-26 2016-08-04 シャープ株式会社 画像処理装置、画像処理システム、画像処理方法、およびその画像処理プログラム
WO2016157499A1 (ja) * 2015-04-02 2016-10-06 株式会社日立製作所 画像処理装置、物体検知装置、画像処理方法
JP6584250B2 (ja) * 2015-09-10 2019-10-02 株式会社Screenホールディングス 画像分類方法、分類器の構成方法および画像分類装置

Also Published As

Publication number Publication date
JP2019020820A (ja) 2019-02-07

Similar Documents

Publication Publication Date Title
KR102560308B1 (ko) 외관 탐색을 위한 시스템 및 방법
CN106156693B (zh) 用于面部识别的基于多模型表示的鲁棒错误纠正方法
JP2020524348A (ja) 顔画像検索方法およびシステム、撮影装置、ならびにコンピュータ記憶媒体
JP2017220085A (ja) 画像検索装置、画像検索システム及び画像検索方法
JP6909657B2 (ja) 映像認識システム
KR20190088087A (ko) 움직임 정보를 이용한 인공지능 학습기반의 이동객체 영상 분류처리 방법
Höferlin et al. Scalable video visual analytics
Cameron et al. A fall detection/recognition system and an empirical study of gradient-based feature extraction approaches
Chaudhry et al. Automatic annotation of traditional dance data using motion features
US11532158B2 (en) Methods and systems for customized image and video analysis
CN105608411A (zh) 为预置监控摄像头的影像分类方法及其装置
Zhu et al. A vision-based fall detection framework for the elderly in a room environment using motion features and DAG-SVM
US20200242155A1 (en) Search apparatus, search method, and non-transitory storage medium
Lotfi Trajectory clustering and behaviour retrieval from traffic surveillance videos
Joy et al. Automatic Generation of Statutory Warnings Using Deep Learning
US20240212324A1 (en) Video retrieval system using object contextualization
Vasudevan et al. Multi-layered Object Identification and Detection Using Deep CNN Detector
Tran et al. Anomaly Event Retrieval System from TV News and Surveillance Cameras
Alanazi et al. Mitigating human fall injuries: A novel system utilizing 3D 4-stream convolutional neural networks and image fusion
Persia et al. A distributed framework for event detection in video surveillance context
Pateriya et al. Fight Detection In Video Surveillance Using Kalman Filter & Blob Analysis
KR20230077586A (ko) 객체 맥락화 데이터 저장 시스템 및 방법
der Merwe et al. Using existing surveillance infrastructure to monitor pedestrians on pedestrian bridges: a proof of concept

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200123

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210323

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210519

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210615

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210705

R150 Certificate of patent or registration of utility model

Ref document number: 6909657

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150