JP2017228224A - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2017228224A
JP2017228224A JP2016125703A JP2016125703A JP2017228224A JP 2017228224 A JP2017228224 A JP 2017228224A JP 2016125703 A JP2016125703 A JP 2016125703A JP 2016125703 A JP2016125703 A JP 2016125703A JP 2017228224 A JP2017228224 A JP 2017228224A
Authority
JP
Japan
Prior art keywords
recognition
unit
local
hypothesis
recognizer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016125703A
Other languages
English (en)
Inventor
侑輝 斎藤
Yuki Saito
侑輝 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2016125703A priority Critical patent/JP2017228224A/ja
Publication of JP2017228224A publication Critical patent/JP2017228224A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】ローカル認識器による認識結果が妥当であるか否かを検証することを目的とする。【解決手段】ローカル認識器の辞書データに基づいて、認識対象データに対し、前記ローカル認識器による認識処理を行う第1の認識手段と、前記第1の認識手段による認識処理の結果に基づいて、前記認識対象データに対し、グローバル認識器による認識処理を行う第2の認識手段と、前記第1の認識手段による認識処理の結果と、前記第2の認識手段による認識処理の結果と、に基づいて、前記第1の認識手段による認識処理の結果に誤りが含まれるという仮説を示す仮説情報を生成する生成手段と、前記辞書データに基づいて、前記生成手段により生成された前記仮説情報に対応する仮説が妥当であるか否かを検証する検証手段と、を有する。【選択図】図6

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。
映像、画像等のデータから、例えば、オブジェクト及びオブジェクトの状態を認識するために、学習データを用いて認識器のパラメータを学習し、学習されたパラメータに基づいて、認識器を用いて入力データに対して認識処理を行う装置や方法が知られている。
認識処理の一つの方法として、入力データの中の局所的な部分に対して認識を行うローカルな認識器(以下では、ローカル認識器)を用いて、以下の処理を行う手法がある。即ち、複数のローカル認識器による認識結果を統合するグローバルな認識器(以下では、グローバル認識器)を学習することで、認識処理を行う方法である。非特許文献1には、このような認識処理の方法を映像データに対して応用した場合について開示されている。非特許文献1に記載されている方法は、Convolutional Neural Network(CNN)によって得られた人体姿勢推定結果をHidden Markov Models(HMM)によって統合する方法である。CNNは、ニューラルネットワークの一種であり、局所的な畳み込み処理を行うという特徴がある。HMMは、Dynamic Bayesian Network(DBN)というグラフィカルモデルの一種であり、隠れ状態に従って観測可能な時系列データが生成されるという仮定のもとで、その生成モデルを学習する。この場合は、CNNがローカル認識器であり、DBNがグローバル認識器という構成になっている。
また、非特許文献2には、調理手順を撮影した映像中の食材、道具、手先等をCNNで認識し、認識した結果をツリー構造のグラフィカルモデルで統合する方法が開示されている。この場合は、CNNがローカル認識器であり、ツリーグラフィカルモデルがグローバル認識器という構成になっている。
Deep Dynamic Neural Networks for Gesture Segmentation and Recognition、 Di Wu、 Ling Shao、 ECCV ChaLearn Looking at People Workshop、 2014 Robot Learning Manipulation Action Plans by "Watching" Unconstrained Videos from the WorldWideWeb、 Yezhou Yang、 Yi Li、 Cornelia Fermuller、 Yiannis Aloimonos、 Association for the Advancement of Artificial Intelligence、 2015
しかしながら、非特許文献1及び2等の従来技術は、ローカル認識器やグローバル認識器の認識結果に誤りが含まれている場合、ローカル認識結果とグローバル認識結果との間で不整合が生じ、認識精度が低下するという問題があった。そのような場合に、ローカル認識器による認識結果が妥当であるか検証したいという要望がある。
そこで本発明は、ローカル認識器による認識結果が妥当かの検証を目的とする。
本発明の情報処理装置は、ローカル認識器の辞書データに基づいて、認識対象データに対し、前記ローカル認識器による認識処理を行う第1の認識手段と、前記第1の認識手段による認識処理の結果に基づいて、前記認識対象データに対し、グローバル認識器による認識処理を行う第2の認識手段と、前記第1の認識手段による認識処理の結果と、前記第2の認識手段による認識処理の結果と、に基づいて、前記第1の認識手段による認識処理の結果に誤りが含まれるという仮説を示す仮説情報を生成する生成手段と、前記辞書データに基づいて、前記生成手段により生成された前記仮説情報に対応する仮説が妥当であるか否かを検証する検証手段と、を有する。
本発明によれば、ローカル認識器による認識結果が妥当であるかを検証できる。
異常検知システムのシステム構成の一例を示す図である。 ローカル学習装置のハードウェア構成の一例を示す図である。 異常検知システムのシステム構成要素の機能構成等の一例を示す図である。 異常検知システムのシステム構成要素の機能構成等の一例を示す図である。 学習処理の一例を示すフローチャートである。 認識処理の一例を示すフローチャートである。 ローカル認識部の詳細等の一例を示す図である。 認識対象の映像データの一例を示す図である。 グローバル学習部の詳細等の一例を示す図である。 分割された領域とDBNとの関係の一例を示す図である。 事前確率、及び学習された確率テーブルの一例を示す図である。 グローバル認識部の詳細等の一例を示す図である。 認識に成功・失敗しうるパターンの一例を示す図である。 仮説生成部の詳細等の一例を示す図である。 仮説生成処理の一例を示すフローチャートである。 仮説生成処理の一例を示すフローチャートである。 仮説検証部の詳細等の一例を示す図である。 仮説検証処理の一例を示すフローチャートである。 仮説検証部の詳細等の一例を示すフローチャートである。 前検証処理の一例を示すフローチャートである。
以下、本発明の実施形態について図面に基づいて説明する。
<実施形態1>
(異常検知システムの概要)
本実施形態では、映像中の物体やその状態を認識するローカル認識器と、複数のローカル認識器の認識結果(以下では、ローカル認識結果)を統合するグローバル認識器と、のそれぞれの認識器が辻褄を合せるように自身の認識結果を補正する処理を説明する。本実施形態では、グローバル認識器は、異常を認識することで異常を検知する認識器である。
図1は、本実施形態の異常検知システムのシステム構成の一例を示す図である。本実施例では、異常検知システムは、監視カメラ等の撮像装置によって撮影された映像中の異常を検出するシステムである。本実施形態では、複数のローカル認識結果をグローバル認識器が統合し、その統合した結果に基づいてグローバル認識器が異常を判定する。
異常検知システムは、ローカル学習装置10、グローバル学習装置20、グローバル認識装置30、仮説生成検証装置40、端末装置50、外部記憶装置60を含む。
ローカル学習装置10は、複数のローカル認識器の学習を行うパーソナルコンピュータ(PC)、タブレット装置等の情報処理装置である。グローバル学習装置20は、グローバル認識器の学習を行うPC、タブレット装置等の情報処理装置である。グローバル認識装置30は、グローバル学習装置20により学習されたグローバル認識器を用いて、入力データ中の異常を認識するPC、タブレット装置等の情報処理装置である。仮説生成検証装置40は、ローカル認識器の認識結果に対する仮説の情報を生成・検証するPC、タブレット装置等の情報処理装置である。端末装置50は、グローバル認識装置30から、最終的な認識結果を取得し、認識結果に応じた処理を行うPC、タブレット装置等の情報処理装置である。外部記憶装置60は、ローカル認識器の情報、グローバル認識器の情報、辞書データ、学習データ等を記憶する外付けハードディスク等の記憶装置である。
外部記憶装置60は、ローカル学習装置10、グローバル学習装置20、グローバル認識装置30、仮説生成検証装置40等に接続され、これらと情報のやり取りを行う。ローカル学習装置10、グローバル学習装置20、グローバル認識装置30、仮説生成検証装置40は、外部記憶装置60を介して、相互に情報をやり取りすることができる。また、ローカル学習装置10、グローバル学習装置20、グローバル認識装置30、仮説生成検証装置40は、例えば、携帯電話回線網、インターネット等のネットワークを介して、相互に通信可能に接続されていることとしてもよい。グローバル認識装置30、仮説生成検証装置40は、ネットワーク等を介して、相互に接続されている。
(異常検知システムの各構成要素のハードウェア構成)
図2は、ローカル学習装置10のハードウェア構成の一例を示す図である。ローカル学習装置10は、CPU100、主記憶装置101、補助記憶装置102、入出力I/F103、ネットワークI/F104を含む。これらは、システムバス105を介して相互に接続されている。
CPU100は、ローカル学習装置10の処理を制御する中央演算装置である。主記憶装置101は、CPU100のワークエリアや、データの一時記憶領域として機能する。補助記憶装置102は、各種プログラム、各種設定データ、認識器の情報、学習データ等を記憶する。入出力I/F103は、外部記憶装置60等の外部の装置との間の情報の入出力に利用されるインターフェースである。ネットワークI/F104は、外部の他の装置との間で、ネットワークを介した通信を行う際に利用されるインターフェースである。
CPU100が、補助記憶装置102等に記憶されたプログラムに基づき処理を実行することによって、図3で後述するローカル学習装置10の機能及び図5で後述するフローチャートにおけるローカル学習装置10の処理等が実現される。
グローバル学習装置20、グローバル認識装置30、仮説生成検証装置40、端末装置50のそれぞれのハードウェア構成は、図2と同様である。各装置では、CPUが、補助記憶装置等に記憶されたプログラムに基づき処理を実行することによって、後述する機能が実現され、後述するフローチャートにおける処理等が実現される。
(異常検知システムの各構成要素の機能構成の概要)
本実施形態の異常検知システムは、監視対象を撮像装置で撮影し、撮影した映像データに基づいて、監視対象の異常を検知する。異常検知システムは、異常がある場合は、監視センタに常駐する監視者に、例えば端末装置50を介して警告する。異常検知システムの監視対象としては、例えば、家庭の屋内及び屋外や、病院、駅等の公共施設等がある。
図3は、異常検知システムのシステム構成要素のうち、学習処理に係る機能構成等の一例を示す図である。図4は、異常検知システムのシステム構成要素のうち、認識処理に係る機能構成等の一例を示す図である。本実施形態の異常検知システムの処理は、学習処理と、認識処理と、に大別される。そこで、学習処理に用いられる機能については、図3で示し、図3の各機能の処理の一例を後述する図5で説明する。また、認識処理に用いられる機能については、図4で示し、図4の各機能の処理の一例を後述する図6で説明する。
異常検知システムは、ローカル学習装置10、グローバル学習装置20、外部記憶装置60を介して、認識器の辞書データの学習処理等を行う。
異常検知システムは、グローバル認識装置30、仮説生成検証装置40、端末装置50、外部記憶装置60を介して、異常の認識処理を行う。異常検知システムは、例えば、認識対象データの認識、異常の判定、及び異常の警告表示等を行う。
ローカル学習装置10は、学習データ読込部11、ローカル学習部12を含む。
学習データ読込部11は、外部記憶装置60のローカル学習データ記憶部D1から、ローカル認識器の辞書データの学習に用いられる学習データを取得する。ローカル学習部12は、学習データ読込部11により取得された学習データに基づいて、ローカル認識器の辞書データの機械学習を行い、機械学習の結果、得られた辞書データを、外部記憶装置のローカル辞書記憶部M1に記憶する。
グローバル学習装置20は、学習データ読込部21、ローカル認識部22、グローバル学習部23を含む。
学習データ読込部21は、外部記憶装置60のグローバル学習データ記憶部D2から、グローバル認識器の辞書データの学習に用いられる学習データを取得する。ローカル認識部22は、ローカル認識器による認識処理を行う。グローバル学習部23は、グローバル認識器の辞書データを学習する。
グローバル認識装置30は、認識対象データ読込部31、ローカル認識部32、グローバル認識部33を含む。認識対象データ読込部31は、認識対象データ記憶部D5から、認識対象データを取得する。ローカル認識部32は、ローカル認識部22と同様に、ローカル認識器による認識処理を行う。グローバル認識部33は、ローカル認識部32の認識結果に基づいて、グローバル認識器による認識処理を行う。
仮説生成検証装置40は、仮説生成部41、仮説検証部42を含む。
仮説生成部41は、ローカル認識部32によるローカル認識結果と、グローバル認識部33によるグローバル認識結果と、に基づいて、仮説情報を生成する。仮説生成部41は、ローカル認識器の認識結果に誤りがあるのではないか、という仮説を生成する。ここで、認識結果の誤りには誤検出と未検出とがあり、それぞれについて仮説を生成する。仮説検証部42は、ローカル認識器の学習に用いられた辞書データに基づいて、仮説生成部41により生成された仮説情報を検証する。
端末装置50は、表示部51、音声出力部等を含む。表示部51は、グローバル認識装置30から送信された認識結果等を表示する。音声出力部は、グローバル認識装置30の認識結果が異常を示す情報である場合、アラーム音等を出力し、ユーザに警告する。
外部記憶装置60は、ローカル学習データ記憶部D1、グローバル学習データ記憶部D2、ローカル認識結果記憶部D3、グローバル認識結果記憶部D4、認識対象データ記憶部D5、ローカル辞書記憶部M1、グローバル辞書記憶部M2を含む。各記憶部は、外部記憶装置60の記憶領域内に実装されている各種別のデータを記憶する記憶部である。
ローカル学習データ記憶部D1は、ローカル認識器の辞書データの学習に利用される学習データを、予め記憶している。グローバル学習データ記憶部D2は、グローバル認識器の辞書データの学習に利用される学習データを、予め記憶している。ローカル認識結果記憶部D3は、ローカル認識器による認識結果の情報を記憶する。グローバル認識結果記憶部D4は、グローバル認識器による認識の結果の情報を記憶する。ローカル辞書記憶部M1は、ローカル学習装置10により学習されたローカル認識器の辞書データを記憶する。グローバル辞書記憶部M2は、グローバル学習装置20により学習されたグローバル認識器の辞書データを記憶する。認識対象データ記憶部D5は、監視カメラにより撮影された映像データ等の異常認識処理の対象となる認識対象データを記憶する。
(学習処理の概要)
図5は、学習処理の一例を示すフローチャートである。図5を用いて、本実施形態の異常検知システムが行う学習処理を説明する。図5のS1701〜S1702の処理は、ローカル学習装置10の処理である。また、図5のS1703〜S1705の処理は、グローバル学習装置20の処理である。
S1701において、学習データ読込部11は、ローカル認識器の辞書データの学習に利用される学習データを、ローカル学習データ記憶部D1から取得する。
S1702において、ローカル学習部12は、S1701で取得された学習データを利用して、ローカル認識器の辞書データの学習を行い、学習したローカル認識器の辞書データを、ローカル辞書記憶部M1に記憶する。
S1703において、学習データ読込部21は、ローカル認識器による認識処理を施すための学習データを、グローバル学習データ記憶部D2から取得する。
S1704において、ローカル認識部22は、S1702で記憶されたローカル認識器の辞書データをローカル辞書記憶部M1から取得し、取得した辞書データに基づいて、ローカル認識器による認識処理を、S1703で取得された学習データに対して行う。そして、ローカル認識部22は、ローカル認識器による認識処理の結果の情報を、ローカル認識結果記憶部D3に記憶する。
S1705において、グローバル学習部23は、ローカル認識結果記憶部D3から、S1704で行われた認識処理の結果の情報を取得し、取得した情報に基づいて、グローバル認識器の辞書データの学習を行う。そして、グローバル学習部23は、学習した辞書データを、グローバル辞書記憶部M2に記憶する。
(認識処理の概要)
図6は、認識処理の一例を示すフローチャートである。図6を用いて、本実施形態の異常検知システムが実行する認識処理の概要を説明する。図6のS1801〜S1803、S1807〜S1808の処理は、グローバル認識装置30の処理である。図6のS1804〜S1806の処理は、グローバル認識装置30の処理である。図6のS1809は、端末装置50の処理である。
S1801において、認識対象データ読込部31は、認識対象データ記憶部D5から認識対象データを取得する。
S1802において、ローカル認識部32は、S1702で学習されたローカル認識器の辞書データを、ローカル辞書記憶部M1から取得する。そして、ローカル認識部32は、取得した辞書データに基づいて、S1801で取得された認識対象データの認識処理を行い、認識処理の結果の情報を、ローカル認識結果記憶部D3に記憶する。
S1803において、グローバル認識部33は、S1705で学習されたグローバル認識器の辞書データを、グローバル辞書記憶部M2から取得し、S1802での認識処理の結果の情報を、ローカル認識結果記憶部D3から取得する。そして、グローバル認識部33は、取得した辞書データと認識結果の情報とに基づいて、各認識結果を統合する認識処理を行い、認識処理の結果の情報を、グローバル認識結果記憶部D4に記憶する。
S1804において、仮説生成部41は、S1802での認識処理の結果の情報をローカル認識結果記憶部D3から取得し、S1803での認識処理の結果の情報をグローバル認識結果記憶部D4から取得する。仮説生成部41は、ローカル認識結果記憶部D3から取得した情報と、グローバル認識結果記憶部D4から取得した情報と、の一致性に基づいて、S1802で行われた認識処理の結果の誤りに関する仮説情報を生成する。
S1805において、仮説検証部42は、S1702で学習されたローカル認識器の辞書データを、ローカル辞書記憶部M1から取得し、取得した辞書データに基づいて、S1804で生成された仮説情報を検証する。
S1806において、仮説検証部42は、S1802での認識処理に誤りがあるという仮説を正しいと判定した場合、S1804で生成された仮説情報を、ローカル認識結果記憶部D3に記憶されているS1802での認識処理の結果の情報に基づいて補正する。
S1807において、グローバル認識部33は、S1806で補正されたS1802での認識処理の結果の情報を、ローカル認識結果記憶部D3から取得する。そして、グローバル認識部33は、取得した認識処理の結果の情報及びS1705で学習されたグローバル認識器の辞書データに基づいて、再度、認識処理を行う。
S1808において、グローバル認識部33は、S1807での認識処理の結果に基づいて、S1801で取得された認識対象データが異常であるか否かを判定し、その結果の情報を端末装置50に送信する。
S1809において、端末装置50は、S1808で送信された情報が異常を示す情報である場合、異常音を鳴らして警告する等の予め設定された異常に対応する処理を行う。
(学習処理の詳細)
以下では、異常検知システムによる学習処理の詳細について説明する。
まず、ローカル学習装置10の各機能構成要素の詳細について説明する。
学習データ読込部11は、ローカル認識器を学習するための学習データを、ローカル学習データ記憶部D1から取得し、ローカル学習部12に送信する。ローカル学習データ記憶部D1から取得される学習データは、映像データや音声データ等、目的に応じたデータである。異常検知システムは、例えば、ローカル認識器を行動認識器として用いる場合、映像データを学習データとして利用する。異常検知システムは、例えば、ローカル認識器を音声認識器として用いる場合、音声データを学習データとして利用する。本実施形態では、異常検知システムは、映像データのみをローカル認識器の学習に用いることとする。即ち、本実施形態のローカル認識器は、入力された映像と、映像中に含まれるオブジェクトの名称と、の組とを学習し、入力された映像が何のオブジェクトの映像であるか認識する。ここで、名称とは、オブジェクトのクラスである。学習データは、オブジェクトのクラスと一対一に対応する教師信号を含むものとする。本実施形態で用いられる学習データには、少なくとも、認識対象と同じクラスのオブジェクトが含まれている。
なお、本実施形態では、異常検知システムは、学習データから特徴量を抽出する特徴抽出器を用いていないが、学習データ・認識対象のデータの種類やローカル認識器の種類等に応じて、ローカル認識器による処理の前に任意の特徴抽出器を用いてよい。
また、学習に十分な量の学習データを予め用意することは困難な場合、異常検知システムは、追加の学習データとして、入手可能な異なるドメインの画像を用いてもよく、例えば、以下の参考文献1に記載のImage Netを用いてもよい。
(参考文献1)ImageNet: A large−scale hierarchical image database、 J. Deng、 W. Dong、 R. Socher、 L.−J. Li、 K. Li、 and L. Fei−Fei、 In CVPR、 2009
Image Netは、オブジェクトを大量に撮影した大規模画像データセットである。異常検知システムは、Image Netをローカル認識器の学習に用いることで、ローカル認識器の汎化性能を向上させることができる。以上のようなデータを、ローカル学習データ記憶部D1は、ローカル認識器の学習に用いられる学習データとして記憶する。
ローカル学習部12の詳細について説明する。
ローカル学習部12は、学習データ読込部11から送信された学習データに基づいてローカル認識器の辞書データを学習する。ローカル認識器には、例えば、Convolutional Neural Network(CNN)等がある。CNNは、局所的な畳み込み処理を行うニューラルネットワークの一種である。異常検知システムが行うCNNの学習方法としては、例えば以下の参考文献2に記載の方法がある。CNNは、特徴抽出器を兼ねた認識器として機能し、学習データに適した特徴抽出器を実現できる。本実施形態では、異常検知システムは、ローカル認識器としてCNNを用いることとする。
(参考文献2)Rich feature hierarchies for accurate object detection and semantic segmentation、 Ross Girshick、 Jeff Donahue、 Trevor Darrel、 Jitendra Malik、 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)、 2014
また、学習データの画像には異なるクラスのオブジェクトが複数存在していることがある。その場合、ローカル学習部12は、参考文献2の方法でオブジェクトそれぞれが単独で存在する小領域を特定した後、特定したそれぞれの小領域を切り出した画像を用いてCNNを学習すればよい。
ローカル学習部12は、学習したローカル認識器の辞書データをローカル辞書記憶部M1に記憶する。ローカル検出器としてCNNを用いる場合、異常検知システムが学習する辞書データは、CNNが持つ複数の重み係数であり、更に各重み係数に対応するCNNのネットワーク構造上の位置の情報と、活性化関数の種類等モデルの情報をも含む。異常検知システムは、このように重み係数とネットワーク情報を辞書データとして保持することで、CNNの辞書データを取得した際に、元の学習済みネットワークを復元できる。
グローバル学習装置20の各機能構成要素の詳細について説明する。
学習データ読込部21の詳細について説明する。
学習データ読込部21は、グローバル認識器を学習するための元となる学習データをグローバル学習データ記憶部D2から取得し、ローカル認識部22に送信する。取得された学習データは、まずローカル認識器による認識処理が施され、その認識処理の結果の情報に基づいてグローバル認識器の辞書データが学習される。
学習データとしては、異常検知システムによる認識処理における認識対象として用いられる映像データと、同様の位置に設置されたカメラにより同様の場所を撮影された映像データとが用いられる。学習データとしては、異常な事象が含まれていない正常な映像データが用いられるため、正常な関係モデルをグローバル認識器が学習することになる。
ローカル認識部22の詳細について説明する。図7は、ローカル認識部22の詳細等の一例を示す図である。
ローカル認識部22は、小領域抽出部221と、ローカル辞書読込部222と、ローカル認識実行部223と、ローカル認識結果送信部224と、を含む。
本実施形態の異常検知システムが認識対象とする映像データには、複数のオブジェクトが撮影される場合があり、ローカル認識器は、それぞれのオブジェクトを独立に認識するものとする。そこで、異常検知システムは、認識対象とする映像データに含まれるそれぞれのオブジェクトを囲む小領域を抽出する必要がある。
小領域抽出部221は、学習データである映像データの各フレームから、撮影されたオブジェクトを含む小領域を抽出する。ここで、ある映像データ中の1フレームの画像の例を図8に示す。図8の画像501は、ある交差点における監視映像の画像の例を示し、オブジェクト502〜505は撮影されたオブジェクトをそれぞれ示している。領域506〜509は、小領域抽出部221によって抽出された小領域のBounding Boxを示している。Bounding Boxとは、ある画像中に設定された矩形領域の境界である。Bounding Boxは、あくまでも小領域を抽出する具体例の一つであり、小領域抽出部221は、例えば、背景差分法によって撮影されたオブジェクトの輪郭に沿った小領域を抽出してもよい。オブジェクト510は、信号機を示している。
映像データのフレームから小領域を抽出するための方法は、複数存在し、大別して、背景差分法、物体検出・追尾法、領域分割法の三つ等がある。小領域抽出部221は、任意の方法で、オブジェクトの小領域を抽出することができるが、監視対象のオブジェクトが予め既知である場合、ターゲットのオブジェクトのみを検出・追尾する目的に絞られた物体検出・追尾法が比較的、適している。物体検出・追尾法には、例えば以下の参考文献3の方法があり、小領域抽出部221は、この方法を用いてもよい。
(参考文献3)Real−Time Tracking via On−line Boosting、 H. Grabner、 M. Grabner and H. Bischof、 Proceedings of the British Machine Conference、 pages 6.1−6.10. BMVA Press、 September 2006
小領域抽出部221は、抽出した小領域の画像をローカル認識実行部223に送信する。
ローカル辞書読込部222は、ローカル辞書記憶部M1からローカル認識器の学習済みの辞書データを取得し、取得した辞書データをローカル認識実行部223に送信する。
ローカル認識実行部223は、ローカル辞書読込部222から受信したローカル認識器の辞書データを用いて、小領域抽出部221から受信した小領域の画像に対して認識処理を行う。ローカル認識実行部223は、例えば、図8のオブジェクト502を含む小領域画像に対して認識処理を実行した際は、オブジェクトの属性に関する歩行者であることを示す情報をローカル認識結果の情報として得る。また、ローカル認識実行部223は、図8の領域504の小領域画像に対して認識処理を実行した際は、自転車であることを示す情報をローカル認識結果の情報として得られる。ローカル認識実行部223は、ローカル認識結果の情報をローカル認識結果送信部224に送信する。
なお、ローカル認識器の辞書データの学習の際に、認識対象となる映像データ以外の学習データ(Image Net等)が利用された場合、認識対象データに対するローカル認識器の認識精度が低下することがある。その場合、CNNに対してFine Tuningを行うことで精度改善が期待できるため、ローカル認識実行部223は、Fine Tuningを行ってもよい。Fine Tuningには、実際の識別対象となる映像データ中のオブジェクトの画像と、その教師信号と、を用いて、別途再学習を行う必要がある。そこで、ローカル認識実行部223は、例えば参考文献2に記載の方法等を用いることで、Fine Tuningを実現できる。
ローカル認識結果送信部224は、ローカル認識実行部223から受信したローカル認識結果をローカル認識結果記憶部D3に送信して記憶させる。ローカル認識結果記憶部D3は、学習データ読込部21で取得された映像データ中におけるフレーム番号と、小領域の位置情報と、をローカル認識結果の情報と併せて、記憶することとする。フレーム番号は、そのローカル認識結果がどの時点で認識されたかを示している。また、小領域の位置情報は、映像データのフレーム上での小領域の座標を示す情報であり、異常検知システムは、例えば小領域の中心や重心等の代表値を使用すればよい。これにより、グローバル認識器は、ローカル認識結果の時系列情報、及び、位置情報を取得することができ、これらを考慮した認識処理を行うことが可能になる。
グローバル学習部23の詳細について説明する。図9は、グローバル学習部23の詳細等の一例を示す図である。グローバル学習部23は、ローカル認識結果読込部231と、領域分割部232と、グローバル認識器学習部233と、を含む。
ローカル認識結果読込部231は、ローカル認識結果記憶部D3から、ローカル認識結果の情報を取得し、グローバル認識器学習部233に送信する。ローカル認識結果読込部231は、ローカル認識結果記憶部D3から、ローカル認識結果の情報と併せて、映像データのフレーム番号、及び認識対象となった小領域の位置情報をも取得する。
領域分割部232は、グローバル学習データ記憶部D2から、学習データとなる映像データを取得し、取得した映像データの情報に基づいて、取得した映像データの各フレームについて、領域分割を行う。領域分割とは、映像データの画面を複数の異なる領域に分割することである。グローバル認識器学習部233は、領域分割部232による領域分割処理により得られる領域に基づいて、グローバル認識器の辞書データの学習を行う。
領域分割の方法は、様々あり、最も単純な方法は画面の等分割である。領域分割部232は、例えば、映像データのフレームサイズに基づいて画面を4分割する。一方で、例えば、図8のようにオブジェクトが特定の経路上を動き回る特徴がある映像データの場合、等分割は単純すぎる。その場合は、領域分割部232は、例えば、以下の参考文献4に記載されているように、オブジェクトの動き特徴をベースとした領域分割を行ってもよい。本実施形態では、領域分割部232は、画面を4つに等分割することとする。
(参考文献4)Scene Segmentation for Behaviour Correlation、 J. Li、 S. Gong、 T. Xiang、 In Proceedings of European Conference on Computer Vision (ECCV)、 Marseille、 France、 2008.
領域分割部232は、ターゲットとするデータによって領域分割の処理を行わず、代替する処理を行ってもよい。領域分割部232は、例えば、特許文献1に記載の、単語を検出するための区間の分割処理等をおこなってもよい。この処理は、ターゲットが映像データである際のローカル認識処理を行う前に領域分割を行い、領域毎にローカル認識を行う場合に相当し、領域分割部232は、必要に応じてこのような処理を行ってもよい。
領域分割部232は、分割した領域の情報を、グローバル辞書記憶部M2に記憶し、グローバル認識器学習部233に送信する。
グローバル認識器学習部233は、ローカル認識結果読込部231から受信したローカル認識結果と、領域分割部232から受信した領域分割結果と、に基づいて、グローバル認識器の辞書データを学習する。より具体的には、グローバル認識器学習部233は、時系列上・画面座標上に分布する複数の異なるローカル認識結果を統合するように、それらの関係を学習する。グローバル認識器学習部233は、このような学習に対応するのであれば、任意の認識器の辞書データを学習してもよい。本実施形態では、異常検知システムは、グローバル認識器として、時間遷移を含む確率モデルの一つであるDynamic Bayesian Network(DBN)を用いるものとする。DBNは、確率変数間の条件付き依存構造を示す確率モデルであるグラフィカルモデルの一例である。
DBNによってローカル認識結果を統合する処理の例を図10に示す。図10の状態601は、本実施形態の学習データや認識対象データと同様の場所が撮影された映像データから抜き出した一フレームの状態である。座標軸602のu軸は、画面座標上の横軸、v軸は、縦軸を示している。領域603a〜603dは、領域分割部232により分割された領域を例示したものであり、画面座標が4等分に分割され、4つの領域が得られている。状態604〜607は、DBNの現在の観測変数を示した状態であり、一つ一つの観測変数が一つの分割領域に対応する。状態608は、DBNの不観測な現在の状態を示した状態であり、例えば、離散値をとることで、又は、予め設定された値で、状態数が決定される。エッジ609は、現在の観測変数と現在の状態とを繋ぐエッジであり、観測変数と状態とが確率的な関係を持つことを意味している。状態610は、過去の状態を示し、状態608の一つ前の状態を意味する。エッジ611は、過去の状態と現在の状態とを繋ぐエッジであり、エッジ609と同様に確率的な関係を表している。
ここで観測変数は、DBNに入力情報として与えられる可観測な時系列情報を表しており、観測変数が離散モデルのDBNでは、例えば、0と1の数値で表わされる。このとき観測変数の値が、観測対象が観測された場合は1で表わされ、観測されなかった場合は0で表わされる。即ち、図10は、各領域における現在のローカル検出結果の情報が、その領域の観測変数に対して代入されることを示す。なお、観測変数は任意の次元数のベクトルで表わされ、例えば図10の状態604〜607は、それぞれ複数次元のベクトルで表わされる。より具体的には、図8を例とした場合、観測されるオブジェクトが歩行者及び自転車の2種類とすると、観測変数は歩行者と自転車とを意味する2次元ベクトルで表わされる。また、図10では、各領域に複数の小領域が存在している場合がある。より具体的には、ある同一の領域に、図8の歩行者503と自転車505のような複数のオブジェクトが存在することがある。このような場合は、複数のオブジェクトの情報を一つの観測変数にまとめる必要があり、ここでは例として領域内にあるすべての小領域の和集合から観測変数を得るものとする。即ち、仮に、ある領域中に歩行者と自転車の小領域(オブジェクト)が存在する場合は、小領域が同時にいくつ存在している場合でも、歩行者の観測変数が1、自転車の観測変数が1とする。
図10は、一次のマルコフ過程のDBNを例示したものであり、現在から一つ前の過去の状態まで遡ってモデル化しているが、グローバル認識器学習部233は、任意のマルコフ次のDBNを用いてもよい。本実施形態では、グローバル認識器学習部233は、一次のマルコフ過程のDBNを用いることとする。
DBNを学習する方法は、任意であるが、観測が与えられたもとでの隠れ状態の尤度が高くなるように最適化を行うことが望ましい。グローバル認識器学習部233は、例えば、以下の参考文献5に記載の方法を用いてもよい。
(参考文献5)Dynamic Bayesian Network : Representation、 Inference and Learning. K. P. Murphy、 PhD thesis、 UC Berkeley、 2002
グローバル認識器学習部233は、以上のような学習方法を利用することで、DBNが与えられた時系列的な観測変数を尤もらしく生成する状態を学習する。DBNは、観測変数と状態との間に存在する確率的な関係を学習によって獲得していると言い換えることもできる。グローバル認識器学習部233による学習処理によって得られた結果を図11に例示する。図11は、DBNが獲得した確率的関係を示す図である。図11の例では、状態は2次元(2種類)、観測変数は2次元(2種類)である場合を例示している。テーブル701は、事前状態の確率を示すテーブルであり、図10の状態610に対応する過去の状態がとり得る状態の事前確率を示している。テーブル702は、状態遷移確率テーブルであり、状態610に対応する過去の状態から状態608に対応する現在の状態に遷移する際に状態の値が変化する確率を示している。テーブル703は、観測確率テーブルであり、状態608に対応する現在の状態の値が定まったもとでの状態604〜607に対応する現在の観測変数の値がどのようになり得るかを確率的に示している。
グローバル認識器学習部233は、学習処理の結果の情報を、グローバル辞書記憶部M2に送信することで、グローバル辞書記憶部M2に記憶する。
以上が、異常検知システムの学習処理の詳細である。
(認識処理の詳細)
以下では、異常検知システムによる認識処理の詳細について説明する。
まず、グローバル認識装置30の各機能構成要素の詳細について説明する。
認識対象データ読込部31は、認識対象データ記憶部D5から認識対象データを取得し、ローカル認識部22に送信する。本実施形態で用いられる認識対象データは、異常検知システムが異常を検知する映像データであり、正常な映像データだけでなく、異常な事態を撮影した映像データも含む。本実施形態では、ローカル認識器は、異常を検知せず、ローカル認識器の認識結果の関係に基づいてグローバル認識器が異常を検知する。
ローカル認識部32は、ローカル辞書記憶部M1から学習済みのローカル認識器の辞書データを取得し、認識対象データ読込部31から認識対象データである映像データを取得する。ローカル認識部32は、ローカル認識器の辞書データに基づいて、認識対象データに対して認識処理を行い、認識結果の情報をローカル認識結果記憶部D3に記憶する。
ローカル認識部32の詳細は、図7に示されるローカル認識部22の詳細と同様である。ローカル認識部32は、小領域抽出部321と、ローカル辞書読込部322と、ローカル認識実行部323と、ローカル認識結果送信部324と、を含む。小領域抽出部321、ローカル辞書読込部322、ローカル認識実行部323、ローカル認識結果送信部324の詳細は、それぞれ小領域抽出部221、ローカル辞書読込部222、ローカル認識実行部223、ローカル認識結果送信部224と同様である。
グローバル認識部33の詳細について説明する。図12は、グローバル認識部33の詳細等の一例を示す図である。グローバル認識部33は、ローカル認識結果読込部331と、グローバル辞書読込部332と、グローバル認識実行部333と、を含む。
ローカル認識結果読込部331は、ローカル認識結果記憶部D3から、ローカル認識結果の情報を取得し、グローバル認識実行部333に送信する。
グローバル辞書読込部332は、グローバル辞書記憶部M2から、学習済みのグローバル認識器の辞書データを取得し、グローバル認識実行部333に送信する。
グローバル認識実行部333は、グローバル認識結果記憶部D4から、過去のグローバル認識結果の情報を取得する。グローバル認識実行部333は、グローバル辞書読込部332から受信した辞書データと、ローカル認識結果読込部331から受信したローカル認識結果の情報と、取得した過去のグローバル認識結果の情報と、に基づいて、認識対象のデータへの認識処理を行う。
本実施形態では、異常検知システムがグローバル認識器としてDBNを用いているため、過去のグローバル認識結果は、過去の状態に相当する。例えば、図10の状態610に対応する状態が過去の状態である。また、ここで新たに認識を行うのは現在の状態であり、例えば状態608に対応する現在の状態である。
ここで、グローバル認識実行部333は、DBNの状態を認識する方法として、例えば参考文献5に記載されるViterbiアルゴリズムを用いてもよい。Viterbiアルゴリズムは、動的計画法のように効率よく現在の状態の推定ができ、図11のテーブル702のような状態遷移確率テーブル等を用いて、最適なパスを高速に算出可能である。
本実施形態では、グローバル認識実行部333は、Viterbiアルゴリズムによって求めた現在の状態のもとで、例えば以下の式1によって尤度を計算できる。
Figure 2017228224
式1で、L1は、尤度、P(・)は、確率、P(・|・)は、条件付き確率、Oは、観測変数、Qは、状態、tは、時間を表すインデクスである。Qは、Viterbiアルゴリズムによって求められた最適な状態を示している。なお、式1のL1は、時間tの幅が2であるとき(一つ前の過去の状態まで遡ることを意味する)の尤度を示しており、時間幅の増減によって尤度計算の式が変更される。このとき、グローバル認識実行部333は、式1によって求められた尤度L1に基づいて以下のように異常を判定できる。
Figure 2017228224
式2で、Th1は、予め設定された閾値を示しており、例えば、ユーザが任意に決定した値である。式2は、尤度が閾値よりも低いか否かを判定する式である。尤度の低下は、推定された状態のもとで観測されたある観測変数の条件付き確率が低い場合や、観測された観測変数を生成するために低い確率の状態遷移を行った場合等、統計・確率的に不自然なことが起きている際に生じる。
しかしながら、一方で、ローカル認識器やグローバル認識器の認識に誤りが起きている場合でも、同様に尤度が低下する場合がある。式2に基づいて、尤度が閾値よりも低いときに、認識が成功している場合と失敗している場合とで場合分けした表を図13の表901に示す。表901の(A)は、グローバル認識器が認識に成功し、かつ、ローカル認識器が認識に成功している場合を示しており、表901の(B)〜(D)は、それぞれの認識器が認識成功・認識失敗した場合の組み合わせを示している。(A)は、グローバル認識器とローカル認識器がともに認識成功した場合であるため、このときに尤度が低いのであれば、仮定したモデルのもとで統計・確率的に何らかの異常が発生しているとすることができる。しかし、それ以外の場合では、認識器の誤りが尤度の低下を招いているかもしれないため、認識対象である映像が異常でない可能性もある。
更に、式2において尤度が閾値を超えている場合でも、認識結果が失敗である場合がある。例えば、ローカル認識器が認識すべきオブジェクトを見逃してしまい、その認識結果のもとで結果的にDBNの尤度が高くなる場合がある。そのため、尤度が高い場合でも、認識器の誤りが生じて、認識対象である映像が正常でない可能性もある。
そこで、本実施形態では、異常検知システムは、異常の検知処理において、異常の判定を行う前にグローバル認識器の認識結果をローカル認識器にフィードバックし、相互の認識結果を検証・補正しあう処理を行う。そして、異常検知システムは、相互の認識結果を検証・補正しあった結果のもとで、例えば、式2に基づいて最終的な異常の判定を行う。より詳細な説明は、以降の仮説生成検証装置40に関する説明として行う。
本実施形態のようにグローバル認識器がDBNである場合、グローバル認識器による認識が失敗する場合としては、例えば学習サンプルの不足によって学習が上手くいかなかったことから認識が失敗する場合等がある。また、本実施形態のようにローカル認識器がCNNである場合、ローカル認識器による認識が失敗する場合としては、例えば、学習が上手くいかず、図8の502を歩行者ではなく自転車として誤認識してしまう場合等がある。なお、ローカル認識器が複数存在する場合、ローカル認識器の一部が認識に失敗する場合もある。一部のローカル認識器が認識に失敗した場合でも、その一部よりも多数のその他のローカル認識器が認識に成功していれば、その結果に基づいて、グローバル認識器は、頑強に推定を行うことができると期待される。
グローバル認識実行部333は、グローバル認識器による認識結果の情報をグローバル認識結果記憶部D4に記憶する。また、グローバル認識実行部333は、仮説生成検証装置40によるローカル認識結果の補正を受けて、再度、グローバル認識器による認識処理を行い、最終的な認識結果を取得し、認識結果の情報を端末装置50に送信する。
次に、仮説生成検証装置40の詳細について説明する。
仮説生成部41の詳細を説明する。図14は、仮説生成部41の詳細等の一例を示す図である。仮説生成部41は、認識結果読込部411と、グローバル辞書読込部412と、誤検出仮説生成部413と、未検出仮説生成部414と、を含む。仮説生成部41は、誤検出仮説生成部413と未検出仮説生成部414との2つを含む。これは、本実施形態では、ローカル認識器の認識結果に含まれる可能性のある認識誤りの種類は、誤検出、及び、未検出の二種類が存在し、それぞれに対応する仮説を生成するためである。
認識結果読込部411は、ローカル認識結果記憶部D3から、ローカル認識結果を取得し、グローバル認識結果記憶部D4から、グローバル認識結果を取得する。そして、認識結果読込部411は、取得したローカル認識結果、及びグローバル認識結果を、誤検出仮説生成部413及び未検出仮説生成部414に送信する。
グローバル辞書読込部412は、グローバル辞書記憶部M2からグローバル認識器の辞書データを取得し、誤検出仮説生成部413、及び未検出仮説生成部414に送信する。
以下では、誤検出仮説生成部413、及び未検出仮説生成部414が、グローバル認識結果とローカル認識結果との一致性に基づいて、仮説を生成する処理を説明する。認識結果の一致性とは、グローバル認識結果と、ローカル認識結果と、に基づく実際の観測結果とが、一致しているか否かということを示す。誤検出仮説生成部413、及び未検出仮説生成部414は、例えば、認識結果が一致しているかどうかを決定するために、例えば、予め設定された閾値を用いた閾値判定を行う。
誤検出仮説生成部413は、認識結果読込部411、グローバル辞書読込部412からそれぞれ送信された、ローカル認識結果の情報とグローバル認識結果の情報と辞書データとに基づいて、ローカル認識器が起こし得る誤検出の情報を、仮説情報として生成する。
図15は、ローカル認識器が起こし得る誤検出の情報である仮説情報の生成処理の一例を示すフローチャートである。
S1201において、誤検出仮説生成部413は、ローカル認識結果記憶部D3から、ローカル認識結果の情報を取得する。このローカル認識結果の情報は、全ての時点での認識対象の映像データに対するローカル認識結果のうち、現在時点での情報である。
S1202において、誤検出仮説生成部413は、グローバル認識結果記憶部D4から、グローバル認識結果を取得する。このグローバル認識結果は、現在時点でのグローバル認識結果の情報であり、現在時点の状態を示す。
S1203において、誤検出仮説生成部413は、グローバル辞書記憶部M2から、グローバル認識器の辞書データを取得する。S1203で取得されるグローバル認識器の辞書データは、現在時点での状態から各種の観測変数への条件付き確率を示す条件付き確率テーブルの情報である。S1203で取得される情報に対応する条件付き確率テーブルは、例えば、グローバル認識器による認識結果が示す状態における、ローカル認識器の認識結果が取り得る値それぞれの確率を示している。本実施形態では、観測変数が1であることは、ローカル認識器によるオブジェクトの認識がなされたことを示し、観測変数が0であることは、ローカル認識器によりオブジェクトが認識されなかったことを示す
S1204において、誤検出仮説生成部413は、S1203で取得した条件付き確率テーブルを参照し、S1202で取得したグローバル認識結果の情報が示す現在時点での状態、及び観測変数に対応する観測確率を取得する。本実施形態で観測確率は、学習処理において、ある状態のもとで、ある観測変数が観測された確率を示している。即ち、認識器の学習処理の際に、その観測が現れた確率を意味している。本実施形態では、観測確率は、グローバル認識部があるローカル認識結果を観測する確率であり、現在時点で観測されているローカル認識結果を示している訳ではない。
S1205において、誤検出仮説生成部413は、観測がなされている観測変数に関して、得られた観測確率と、予め設定された閾値Th2と、を比較する。誤検出仮説生成部413は、観測確率が閾値Th2よりも小さく、かつ、実際に観測されていれば、S1206の処理に進み、そうでなければ、図15の処理を終了する。本実施例では、観測変数は、1、0という離散型の入力値を想定しているが、当然ながら連続型の入力値を用いてもよい。その場合は、観測変数の観測が、どの値のときに観測されているとするのかを示す判断基準が必要となる。誤検出仮説生成部413は、判断基準として、例えば、予め設定された閾値を用い、実際の観測変数の値と比較して観測されているか否かを決定することができる。
S1206において、誤検出仮説生成部413は、S1205で観測確率が閾値Th2よりも小さく、かつ、実際に観測されているとされた観測を、ローカル認識器の誤検出であると判断する。そして、誤検出仮説生成部413は、その観測がローカル認識器の誤検出であることを示す仮説情報を生成する。
S1207において、誤検出仮説生成部413は、S1206で生成された仮説情報を、仮説検証部42に送信する。
異常検知システムは、本実施形態で示した動作手順を一部変更し、S1804の処理を実行する前に、S1808の処理を行ってもよい。それにより、異常検知システムは、S1808での異常判定結果に基づいて、誤検出仮説生成部413の動作を実行するか否かを決めることができる。即ち、異常検知システムは、グローバル認識器が異常を検出した場合にのみ、ローカル認識器の誤検出を疑い、補正するための処理を行う。これにより、異常検知システムは、誤検出仮説の検証にかかる処理時間を低減できる場合がある。
未検出仮説生成部414は、認識結果読込部411、グローバル辞書読込部412からそれぞれ送信された、ローカル認識結果の情報とグローバル認識結果の情報と辞書データとに基づいて、ローカル認識器が起こし得る未検出の情報を、仮説情報として生成する。
図16は、ローカル認識器が起こし得る未検出の情報である仮説情報の生成処理の一例を示すフローチャートである。
S1301において、未検出仮説生成部414は、ローカル認識結果記憶部D3から、ローカル認識結果の情報を取得する。このローカル認識結果の情報は、全ての時点での認識対象の映像データに対するローカル認識結果のうち、現在時点での情報である。
S1302において、未検出仮説生成部414は、グローバル認識結果記憶部D4から、グローバル認識結果の情報を取得する。このグローバル認識結果の情報は、現在時点でのグローバル認識結果の情報であり、現在時点の状態を示す。
S1303において、未検出仮説生成部414は、グローバル辞書記憶部M2から、グローバル認識器の辞書データを取得する。この辞書データは、現在時点での状態から各種の観測変数への条件付き確率を示す条件付き確率テーブルの情報である。
S1304において、未検出仮説生成部414は、S1302で取得したグローバル認識結果の情報が示す現在時点での状態に基づいて、以下の処理を行う。即ち、未検出仮説生成部414は、S1303で取得した条件付き確率テーブルを参照し、観測されたローカル認識結果以外の観測変数に対する全ての観測確率を取得する。
S1305において、未検出仮説生成部414は、S1304で取得した観測がなされていない観測変数に関して得られた観測確率と、予め設定された閾値Th3との大小を比較する。未検出仮説生成部414は、観測確率が閾値Th3よりも大きく、かつ、未観測であれば、S1306の処理に進み、そうでなければ図16の処理を終了する。
S1306において、未検出仮説生成部414は、S1305で観測確率が閾値Th3よりも大きく、かつ、未観測とされた観測について、ローカル認識器における未検出を示す仮説情報を生成する。ここで、例えばローカル認識器がマルチクラスである場合、閾値よりも大きい観測確率が複数存在する場合がある。その場合、未検出仮説生成部414は、最も確率が高い観測確率の観測を選択し、仮説を生成する。
S1307において、未検出仮説生成部414は、S1306で生成された仮説情報を、仮説検証部42に送信する。
図15、図16の処理は、S1804の処理の詳細である。異常検知システムは、S1804(図15、図16)の処理で、もし仮説が生成されなかった場合は、S1808の処理に移る。
図17は、仮説検証部42の詳細等の一例を示す図である。仮説検証部42は、ローカル辞書読込部421、ローカル認識結果読込部422、検証部423、検証結果判定部424、認識結果補正部425、を含む。
ローカル辞書読込部421は、ローカル辞書記憶部M1からローカル認識器の辞書データを取得し、検証部423に送信する。本実施形態では、ローカル認識器は、CNNである。そのため、ローカル辞書読込部421は、ローカル辞書記憶部M1からCNNの重みパラメータ及びネットワーク構造の情報を、辞書データとして取得する。
ローカル認識結果読込部422は、ローカル認識結果記憶部D3から、ローカル認識結果の情報を取得し、取得した情報を、検証部423に送信する。
検証部423は、グローバル辞書記憶部M3から、グローバル認識器の辞書データを取得する。検証部423は、仮説生成部41から仮説情報を受信する。そして、検証部423は、ローカル辞書読込部421から送信された辞書データと、ローカル認識結果読込部422から送信されたローカル認識結果の情報と、グローバル認識器の辞書データと、に基づいて、仮説生成部41から送信された仮説情報の検証を行う。
図18は、仮説検証処理の一例を示すフローチャートである。図18を用いて、検証部423がローカル認識器の誤検出、未検出に関する仮説を検証する処理を説明する。
S1401において、検証部423は、ローカル辞書読込部421から送信された辞書データを受信する。
S1402において、検証部423は、ローカル認識結果読込部422から送信されたローカル認識結果の情報を受信する。
S1403において、検証部423は、グローバル辞書記憶部M3から、グローバル認識器の辞書データを取得する。
S1404において、検証部423は、仮説生成部41から図15、図16の処理で生成された仮説情報(未検出仮説の仮説情報、誤検出仮説の仮説情報)を受信する。本実施形態では、仮説生成部41は、仮説情報を1つずつ検証部423に送信することとする。そのため、仮説生成部41により複数の仮説情報が生成された場合、検証部423は、以下の処理を仮説の数だけ繰り返すことになる。
S1405において、検証部423は、グローバル辞書記憶部M2から認識対象の映像データの分割領域を示す領域情報を取得する。
S1406において、検証部423は、S1405で取得した領域情報に基づいて、仮説情報に対応する領域を特定し、特定した領域に存在するオブジェクトのローカル認識結果を取得する。S1406で、仮説情報に対応する領域を特定する理由は、本実施形態において仮説生成部41が生成した仮説情報はある観測変数に対する仮説であり、その観測変数は、領域に1対1で対応しているからである。そのため、検証部423は、仮説情報に対応する領域を特定し、その領域に存在するローカル認識結果を取得する。
S1407において、検証部423は、仮説情報に対応する領域に複数のオブジェクトが存在する場合に対応するため、仮説情報に対応する仮説を検証するオブジェクトの選択を行う。選択する方法としては、その領域中に存在する全てのオブジェクトに対して仮説を検証する方法と、一部のオブジェクトに対してのみ仮説を検証する方法とがあり、検証部423は、どちらの方法を選んでもよい。検証部423は、検証にかかる処理時間を短縮するために、例えば、順次仮説を検証していく際、一つでも仮説を立証するオブジェクトが見つかり次第、検証処理を打ち切り、仮説は正解であると決定してもよい。
しかしながら、すべてのオブジェクトに対して仮説を検証する処理が行われる場合は、オブジェクトが増えるに従って処理時間が長くなってしまう傾向がある。そこで本実施形態では、検証部423は、最も仮説を説明しうるローカル認識結果を選択し、仮説の検証を行うこととする。最も仮説を説明しうるローカル認識結果とは、誤検出仮説の場合は、例えば誤検出であると仮説を立てている観測変数の値に関して、最もスコアの低いローカル認識結果を持つオブジェクトについての認識結果である。また、未検出仮説の場合は、検証部423は、例えば、未検出であると仮説を立てている観測変数の値に関して、最もスコアの高いローカル認識結果のオブジェクトについての認識結果を選択する。ここで用いられるスコアは、任意であり、例えば、ローカル認識器であるCNNの出力層が備えるソフトマックス関数の出力値であっても、ソフトマックス関数に入力される前の値であるロジットであってもよい。仮説検証器は、スコアとして、ロジットを用いることで、正規化される前の実数値ベースでスコアを比較することができるようになる。
S1408において、検証部423は、S1407で選択されたオブジェクトに対するローカル認識結果と、観測確率テーブルの確率と、を結合することで、ローカル認識結果を補正する。本実施例のローカル認識器はCNNであることから、その結合結果は、例えば、以下の式3で求まる結合確率として与えられる。検証部423は、式3を用いて、ローカル認識結果を補正する。
Figure 2017228224
式3で、softmax_(Ot)は、観測Otに関するCNNの出力値を得る関数であり、右辺の項の二項目に対応するソフトマックス関数を示す。ソフトマックス関数内のfは、CNNのロジットを表し、Tは、温度パラメータである。
S1409において、検証部423は、S1408でのローカル認識結果の補正における補正に利用されるパラメータの最適化を行う。式3は、温度TのもとでCNNの出力がDBNの観測確率によって補正されたということもできる。本実施形態では、検証部423は、例えば、式3が最も高くなる温度Tを最適化によって求める。このとき最適化の目的関数は、以下の式4で表すことができる。
Figure 2017228224
式4を最適化する方法は、任意であり、検証部423は、例えば、Tを設定された固定幅毎に粗くグリッドサンプリングした場合の式4の値を比べることで最適化してもよい。
S1410において、検証部423は、S1409で最適化したTのもとで最も式4の値が高い観測Otの情報を、最も良く仮説を説明できる結果として、検証結果判定部424に送信する。
検証結果判定部424は、S1410で検証部423から受信した情報と、本来のローカル認識結果Otと、を比較し、異なるか否かを判定し、判定の結果を認識結果補正部425に送信する。例えば、検証結果判定部424は、S1410で検証部423から受信した情報と、本来のローカル認識結果Otと、の比較の結果、異なる場合、仮説が妥当であると判定し、同一である場合、仮説が妥当でないと判定する。
認識結果補正部425は、受け取った判定の結果に基づいて、ローカル認識結果を補正し、補正したローカル認識結果を、ローカル認識結果記憶部D3に記憶する。認識結果補正部425は、例えば、式3を用いて、検証部423により最適化されたTに基づいて、ローカル認識結果を補正する。また、認識結果補正部425は、検証部423により式3を用いて補正されたローカル認識結果を、検証部423から取得することとしてもよい。そして、認識結果補正部425は、仮説情報に基づいて、ローカル認識結果が補正されたか否かを示す情報をグローバル認識部33に送信する。
グローバル認識部33は、仮説情報の生成及び検証処理の結果、ローカル認識結果が補正されたか否かの情報を受信し、補正された場合、再度状態の推定を行うことでグローバル認識器を補正し、異常を判定する。異常検知システムは、これ以降、収束するまで上述の仮説生成検証と状態の推定を繰り返してもよいし、設定された回数だけ繰り返してもよいし、1度のみ実行することとしてもよい。本実施形態では、異常検知システムは、式1の尤度が上昇する限り、上述の処理を繰り返すものとする。
以上の結果を受けて、グローバル認識部33は、S1808で異常の判定をし、その結果を端末装置50に送る。
以上が、異常検知システムによる認識処理の詳細である。
(端末装置の詳細)
端末装置50の詳細について説明する。
端末装置50は、表示部51を含む。端末装置50は、異常検知システムのユーザが利用するコンピュータ等の情報処理装置であり、グローバル認識装置30から、例えば、ネットワークを介して送信される表示情報を表示部51等に表示する。端末装置50は、例えば、PC(Personal Computer)やタブレットPC、スマートフォン、フューチャーフォン等により構成される。
グローバル認識装置30が異常検知結果を出力したことに応じて、端末装置50のCPUは、異常検知結果を取得する。端末装置50のCPUは、取得した識別結果を表示部51に出力する。端末装置50のCPUは、識別結果が異常の発生を示している場合、例えば、音声出力部を介して、異常音を鳴らして、ユーザに警告することができる。また、端末装置50のCPUは、ローカル認識結果記憶部D3からローカル認識結果をも受け取り、異常を警告する際等にローカル認識結果を表示部51に重畳表示してもよい。
(効果)
以上、本実施形態の処理により、本実施形態の異常検知システムは、データ中の物体やその状態を認識するローカル認識器と、複数のローカル認識結果を統合するグローバル認識器と、のそれぞれの認識結果に基づいて、以下の処理を行う。即ち、異常検知システムは、ローカル認識結果に含まれうる誤りの情報である仮説情報を生成する。そして、異常検知システムは、ローカル認識器の辞書データに基づいて、生成した仮説情報の妥当性を検証することで、ローカル認識器による認識結果が妥当であるか否かを検証できる。
また、異常検知システムは、生成した仮説情報の妥当性の検証結果に基づいて、ローカル認識器と、グローバル認識器と、のそれぞれの認識器が辻褄を合せるように、ローカル認識器の認識結果を補正する。即ち、異常検知システムは、ローカル認識結果からローカル認識器による認識において発生し得る誤りの情報である仮説情報を生成し、生成した仮説情報を妥当か否か決定し、妥当であると決定した場合、ローカル認識結果を補正する。そして、異常検知システムは、補正したローカル認識結果に基づいて、再度、グローバル認識器による認識処理を行う。
これにより、異常検知システムは、ローカル認識器やグローバル認識器の認識結果に誤りが含まれている場合でも、ローカル認識結果が妥当か否かを検証し、検証結果に基づいて、ローカル認識結果を補正することで、認識精度を向上させることができる。
<実施形態2>
実施形態1では、異常検知システムは、式3を用いてローカル認識器とグローバル認識器の認識結果とを統合し、式4のように結合確率を最大化することで出力を補正する処理を行うこととした。この処理は、DBNから送られた仮説を再現するように、CNNの出力層のパラメータを最適化している処理ともいえる。
本実施形態では、異常検知システムがDBNから仮説が与えられたもとで、CNNの出力層以外の層のパラメータをも最適化する処理を説明する。
本実施形態の異常検知システムのシステム構成、各システム構成要素のハードウェア構成は、実施形態1と同様である。本実施形態の異常検知システムの各システム構成要素の機能構成は、仮説生成検証装置40が仮説検証部42の代わりに仮説検証部42aを含む点、及び、外部記憶装置60が、ローカル追加辞書記憶部M1を含む点で異なる。
仮説検証部42aの詳細について説明する。図19は、仮説検証部42aの詳細等の一例を示す図である。
仮説検証部42aは、ローカル辞書読込部421a、ローカル認識結果読込部422、検証判定部423a、認識結果補正部425、を含む。仮説検証部42aは、仮説検証部42と比べると、ローカル辞書読込部421の代わりにローカル辞書読込部421aを含み、検証部423の代わりに検証判定部423aを含み、検証結果判定部424を含まない点で異なる。
ローカル辞書読込部421aは、ローカル辞書記憶部M1及びローカル追加辞書記憶部M1aからローカル認識器の辞書データを取得し、取得した辞書データを検証部423に送信する。本実施形態では、実施形態1と同じくローカル認識器は、CNNであるとする。そのため、ローカル辞書読込部421aは、CNNの重みパラメータ及びネットワーク構造の情報を、辞書データとして取得する。
ローカル辞書読込部421aとローカル辞書読込部421との相違として、ローカル認識器の辞書データをローカル追加辞書記憶部M1aからも取得することがある。ローカル追加辞書記憶部M1aは、過去に検証判定部423aが最適化したCNNの重みパラメータの情報を記憶する。異常検知システムは、新たに仮説情報を検証する際に、過去に最適化した辞書データを使いまわすことで、仮説情報の検証の処理負担を低減できる。ローカル辞書読込部421aは、複数存在する辞書データの中から、仮説生成部41から受信した仮説情報に対応する仮説が与えられた場合の辞書データを選択する。
ローカル認識結果読込部422は、実施形態1と同様に、ローカル認識結果記憶部D3から、ローカル認識結果を取得し、検証判定部423aに送信する。
検証判定部423aは、仮説生成部41から送信された仮説情報を検証する。
図20は、仮説検証処理の一例を示すフローチャートである。図20を用いて、検証判定部423aがローカル認識器の誤検出、未検出に関する仮説情報を検証する処理を説明する。
S1601において、検証判定部423aは、ローカル辞書記憶部M1及びローカル追加辞書記憶部M1aから、ローカル認識器の辞書データを取得する。ローカル追加辞書記憶部M1aから取得される辞書データは、過去に最適化された辞書データである。
S1402〜S1407の処理は、図18と同様である。ただし、処理の主体は、検証判定部423aである。
S1602において、検証判定部423aは、S1407で決定したオブジェクトのローカル認識結果に対して、仮説情報の前検証を行う。本実施形態では、検証判定部423aは、S1601で取得した過去に最適化された辞書データを用いて、仮説を説明できるか否かを調べる。検証判定部423aは、仮説を説明可能な辞書データを、取得することができれば、仮説情報を正しいと決定する。検証判定部423aによる判定処理は、以下の式5を用いて行われる。
Figure 2017228224
式5で、関数Fは、仮説を検証する際に算出されるコスト関数であり、出力値が小さいほど仮説を良く説明できていることを表す。Hypothesisは、検証中の仮説であり、例えば、クラスの番号に対応するスカラー値をとる。xは、CNNの入力画像、wα及びwβは、CNNの重みパラメータであり、wαは、学習済みのCNNの重みパラメータ、Wは、過去の仮説検証時に最適化されたCNNの重みパラメータの集合、wβは、集合Wの要素である。Th4は、仮説の正否を決定するために予め設定された閾値である。即ち、式5は、過去の仮説検証時に最適化されたパラメータのうち、最も現在の仮説を正しいと言えるものを選んだとき、そのコストが閾値Th4よりも高いか低いかを判定することで、現在の仮説の正否を判定するための式である。検証判定部423aは、式5によって仮説を正しいと判定したら、S1410の処理に進み、そうでなければ、S1603の処理に進む。
S1603において、検証判定部423aは、過去の仮説情報検証の際に最適化したCNNのパラメータでは仮説を立証できなかったものとみなし、新たに仮説情報の検証を行う。検証判定部423aは、以下の式6を用いて、仮説情報を検証する。
Figure 2017228224
式6は、仮説検証に用いるコスト関数を最小化するCNNの重みパラメータwγを求める目的関数になっている。検証判定部423aは、閾値よりもコスト関数が低ければ、仮説を採用したものとみなし、後に、新たにwγを集合Wに加える。また、検証判定部423aは、逆に閾値よりもコスト関数が高ければ、仮説を棄却する。ここで、関数Fは、例えば、以下の式7であるとする。
Figure 2017228224
式7で、関数f(・)はCNNであり、‖・‖pは、p-ノルムの正則化項である。(Hypothesis−f(x、wγ))2は、重みパラメータwγによって仮説を再現した際の二乗誤差であり、式6のminの最小化作用によって二乗誤差を小さくするように重みパラメータの探索に利用される。しかしながら、三層以上のニューラルネットワークは、任意の関数を近似する能力があるため、式(Hypothesis−f(x、wγ))2は、最適化によって0になりうる。そこで、簡易な正則化を導入する必要があり、ここでは‖wα−wγ‖pを用いる。このとき、最適化されるパラメータwγは、元の学習済み重みパラメータwαからなるべく離れないように探索されるようになる。特に、p=1のとき正則化項は、スパース項になり、より少ない重みパラメータだけを変更するようになる。なお、wγはランダム又はwαで初期化する等、任意の方法で初期化してもよい。
検証判定部423aは、式6を、任意の方法で最適化してよいが、式7のp-ノルムに応じて最適化手法を選択する必要がある。検証判定部423aは、例えば、Stochastic Gradient Descent法を用いてもよいし、以下の参考文献6に記載の方法を用いてもよい。
(参考文献6)Stochastic Optimizationfor Machine Learning、 Nati Srebro、 Ambuj Tewari、 ICML Tutorial、 ICML、 2010
検証判定部423aは、式5と同様に、式6を用いて、仮説を正しいと言うことができるか否かの決定処理に閾値Th4を用いる。検証判定部423aは、式7を用いて求めたコスト関数Fを最小化するパラメータから求まる以下の式8の値を閾値Th4と比較する。
Figure 2017228224
検証判定部423aは、仮説を妥当と決定し、採用するのであれば、式7を用いて求めたコスト関数Fを最小化するパラメータを、後の検証判定部423aの仮説情報の検証処理で再利用可能なように、ローカル追加辞書記憶部M1aに記憶する。また、検証判定部423aは、認識結果補正部425に仮説情報の検証結果の情報を送信する。
以降の処理は、実施形態1と同様である。
以上、本実施形態の処理により、異常検知システムは、ローカル認識器であるCNNが仮説の検証を行う際に、CNNの全体の重みパラメータを変更することで仮説を検証する。異常検知システムは、元の重みパラメータから離れないように最適化を行う。
また、本実施形態の異常検知システムは、仮説の検証を行う際に、後の検証処理の際に再利用可能なように、検証で用いたパラメータをローカル追加辞書記憶部M1aに記憶する。そして、異常検知システムは、後の検証処理において、過去の検証で用いたパラメータを再利用することで、より高速に仮説の検証処理を行うことができる。
<その他の実施形態>
実施形態1、2では、異常検知システムは、ローカル学習装置10、グローバル学習装置20、グローバル認識装置30、仮説生成検証装置40、端末装置50、外部記憶装置60を含むシステムであるとした。しかし、ローカル学習装置10、グローバル学習装置20、グローバル認識装置30、仮説生成検証装置40、端末装置50、外部記憶装置60それぞれの機能を有した単一のPC、サーバ装置等の情報処理装置が、本実施形態の処理を行うこととしてもよい。その場合、その情報処理装置は、図2と同様のハードウェア構成を有する。また、情報処理装置のCPUが、情報処理装置の補助記憶装置等に記憶されたプログラムに基づき処理を実行することで、異常検知システムに含まれる各装置の機能、異常検知システムに含まれる各装置の処理が実現される。
実施形態1、2では、ローカル学習部12とローカル認識部22とを異なる装置としたが、ローカル認識部22がローカル学習部12の機能を保持することとしてもよい。
実施形態1、2では、異常検知システムが仮説情報を妥当であると決定した場合、その際に与えられた認識対象データに対して、ローカル認識器が誤った認識結果を出力してしまう可能性がある。そこで、異常検知システムは、これらの認識対象データと、妥当であると決定された仮説情報と、をローカル認識器の学習データとして利用することとしてもよい。その場合、異常検知システムは、ローカル認識部22が学習機能を備えていれば、認識対象データの認識の際にローカル認識器の辞書データの追加的な学習により、ローカル認識器の辞書データを更新できるため利便性を高くすることができる。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではない。
例えば、上述した異常検知システムの機能構成の一部又は全てをハードウェアとしてグローバル認識装置30等に実装してもよい。
40 仮説生成検証装置
41 仮説生成部
42 仮説検証部

Claims (15)

  1. ローカル認識器の辞書データに基づいて、認識対象データに対し、前記ローカル認識器による認識処理を行う第1の認識手段と、
    前記第1の認識手段による認識処理の結果に基づいて、前記認識対象データに対し、グローバル認識器による認識処理を行う第2の認識手段と、
    前記第1の認識手段による認識処理の結果と、前記第2の認識手段による認識処理の結果と、に基づいて、前記第1の認識手段による認識処理の結果に誤りが含まれるという仮説を示す仮説情報を生成する生成手段と、
    前記辞書データに基づいて、前記生成手段により生成された前記仮説情報に対応する仮説が妥当であるか否かを検証する検証手段と、
    を有する情報処理装置。
  2. 前記生成手段は、前記第1の認識手段による認識処理の結果と、前記第2の認識手段による認識処理の結果と、が一致しているか否かに基づいて、前記仮説情報を生成する請求項1記載の情報処理装置。
  3. 前記検証手段は、前記辞書データと、前記生成手段により生成された前記仮説情報と、に基づいて、前記仮説情報が妥当であるか否かを検証する請求項1又は2記載の情報処理装置。
  4. 前記生成手段により生成された前記仮説情報が妥当であると前記検証手段により判定された場合、前記仮説情報に基づいて、前記第1の認識手段による認識処理の結果を補正する補正手段を更に有し、
    前記第2の認識手段は、更に、前記補正手段により補正された前記第1の認識手段による認識処理の結果に基づいて、前記認識対象データに対し、前記グローバル認識器による認識処理を行う請求項1乃至3何れか1項記載の情報処理装置。
  5. 第1の認識手段は、前記辞書データに基づいて、映像データである前記認識対象データから抽出されたオブジェクトの領域に対し、前記ローカル認識器による認識処理を行う請求項1乃至4何れか1項記載の情報処理装置。
  6. 前記第1の認識手段による前記認識対象データから抽出されたオブジェクトの領域に対しての認識処理の結果のうち、最も仮説を説明しうる認識結果に対応するオブジェクトを選択する選択手段を更に有し、
    前記検証手段は、前記辞書データに基づいて、前記選択手段により選択されたオブジェクトについて前記生成手段により生成された前記仮説情報に対応する仮説が妥当であるか否かを検証する請求項5記載の情報処理装置。
  7. 前記グローバル認識器は、グラフィカルモデルであり、
    前記ローカル認識器は、ニューラルネットワークである請求項1乃至6何れか1項記載の情報処理装置。
  8. 前記グローバル認識器は、Dynamic Bayesian Networkであり、
    前記ローカル認識器は、畳み込み処理を行うニューラルネットワークである請求項7記載の情報処理装置。
  9. 前記検証手段は、前記第1の認識手段による認識処理の結果の補正に利用されるパラメータを最適化し、最適化された前記パラメータと前記辞書データとに基づいて、前記生成手段により生成された仮説情報に対応する仮説が妥当であるか否かを検証する請求項1乃至8何れか1項記載の情報処理装置。
  10. 前記検証手段は、前記ローカル認識器がニューラルネットワークである場合、前記パラメータである前記ローカル認識器の重みパラメータを最適化し、最適化された前記重みパラメータと前記辞書データとに基づいて、前記生成手段により生成された仮説情報に対応する仮説が妥当であるか否かを検証する請求項9記載の情報処理装置。
  11. 前記検証手段による検証処理に利用された前記重みパラメータを、前記検証手段による検証処理に再利用可能なパラメータとして記憶する記憶手段を更に有する請求項10記載の情報処理装置。
  12. 前記第2の認識手段は、前記第1の認識手段による認識処理の結果に基づいて、前記認識対象データに対し、前記グローバル認識器による異常を認識する認識処理を行う請求項1乃至11何れか1項記載の情報処理装置。
  13. 前記検証手段により前記仮説情報が妥当であると検証された場合、前記仮説情報に基づいて、前記辞書データを更新する更新手段を更に有する請求項1乃至12何れか1項記載の情報処理装置。
  14. 情報処理装置が実行する情報処理方法であって、
    ローカル認識器の辞書データに基づいて、認識対象データに対し、前記ローカル認識器による認識処理を行う第1の認識ステップと、
    前記第1の認識ステップでの認識処理の結果に基づいて、前記認識対象データに対し、グローバル認識器による認識処理を行う第2の認識ステップと、
    前記第1の認識ステップでの認識処理の結果と、前記第2の認識ステップでの認識処理の結果と、に基づいて、前記第1の認識ステップでの認識処理の結果に誤りが含まれるという仮説を示す仮説情報を生成する生成ステップと、
    前記辞書データに基づいて、前記生成ステップで生成された前記仮説情報に対応する仮説が妥当であるか否かを検証する検証ステップと、
    を含む情報処理方法。
  15. コンピュータを、請求項1乃至13何れか1項記載の情報処理装置の各手段として、機能させるためのプログラム。
JP2016125703A 2016-06-24 2016-06-24 情報処理装置、情報処理方法及びプログラム Pending JP2017228224A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016125703A JP2017228224A (ja) 2016-06-24 2016-06-24 情報処理装置、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016125703A JP2017228224A (ja) 2016-06-24 2016-06-24 情報処理装置、情報処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2017228224A true JP2017228224A (ja) 2017-12-28

Family

ID=60891762

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016125703A Pending JP2017228224A (ja) 2016-06-24 2016-06-24 情報処理装置、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2017228224A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019139775A (ja) * 2018-02-14 2019-08-22 ハイパーコネクト インコーポレイテッド サーバー及びその動作方法(server and operating method thereof)
JP2019197000A (ja) * 2018-05-10 2019-11-14 大阪瓦斯株式会社 酒米分析装置
JP2019205034A (ja) * 2018-05-22 2019-11-28 パナソニックIpマネジメント株式会社 監視パラメータ更新システム、監視パラメータ更新方法およびプログラム
CN111008689A (zh) * 2018-09-27 2020-04-14 谷歌有限责任公司 使用softmax近似来减少神经网络推理时间
US11184582B2 (en) 2019-10-01 2021-11-23 Hyperconnect, Inc. Terminal and operating method thereof
US11323659B2 (en) 2017-04-17 2022-05-03 Hyperconnect Inc. Video communication device, video communication method, and video communication mediating method
US11553157B2 (en) 2016-10-10 2023-01-10 Hyperconnect Inc. Device and method of displaying images
US11716424B2 (en) 2019-05-10 2023-08-01 Hyperconnect Inc. Video call mediation method
US11825236B2 (en) 2020-01-31 2023-11-21 Hyperconnect Inc. Terminal and operating method thereof

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11553157B2 (en) 2016-10-10 2023-01-10 Hyperconnect Inc. Device and method of displaying images
US11722638B2 (en) 2017-04-17 2023-08-08 Hyperconnect Inc. Video communication device, video communication method, and video communication mediating method
US11323659B2 (en) 2017-04-17 2022-05-03 Hyperconnect Inc. Video communication device, video communication method, and video communication mediating method
US11080325B2 (en) 2018-02-14 2021-08-03 Hyperconnect, Inc. Server and operating method thereof
JP2019139775A (ja) * 2018-02-14 2019-08-22 ハイパーコネクト インコーポレイテッド サーバー及びその動作方法(server and operating method thereof)
JP7023180B2 (ja) 2018-05-10 2022-02-21 大阪瓦斯株式会社 酒米分析装置
JP2019197000A (ja) * 2018-05-10 2019-11-14 大阪瓦斯株式会社 酒米分析装置
JP7002009B2 (ja) 2018-05-22 2022-01-20 パナソニックIpマネジメント株式会社 監視パラメータ更新システム、監視パラメータ更新方法およびプログラム
JP2019205034A (ja) * 2018-05-22 2019-11-28 パナソニックIpマネジメント株式会社 監視パラメータ更新システム、監視パラメータ更新方法およびプログラム
CN111008689A (zh) * 2018-09-27 2020-04-14 谷歌有限责任公司 使用softmax近似来减少神经网络推理时间
CN111008689B (zh) * 2018-09-27 2024-01-26 谷歌有限责任公司 使用softmax近似来减少神经网络推理时间
US11716424B2 (en) 2019-05-10 2023-08-01 Hyperconnect Inc. Video call mediation method
US11184582B2 (en) 2019-10-01 2021-11-23 Hyperconnect, Inc. Terminal and operating method thereof
US11825236B2 (en) 2020-01-31 2023-11-21 Hyperconnect Inc. Terminal and operating method thereof

Similar Documents

Publication Publication Date Title
JP2017228224A (ja) 情報処理装置、情報処理方法及びプログラム
US9965865B1 (en) Image data segmentation using depth data
US10096122B1 (en) Segmentation of object image data from background image data
CN110909651B (zh) 视频主体人物的识别方法、装置、设备及可读存储介质
US20210133474A1 (en) Image processing apparatus, system, method, and non-transitory computer readable medium storing program
JP7007829B2 (ja) 情報処理装置、情報処理方法及びプログラム
US11106903B1 (en) Object detection in image data
US20230134967A1 (en) Method for recognizing activities using separate spatial and temporal attention weights
KR20160096460A (ko) 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법
CN107851192B (zh) 用于检测人脸部分及人脸的设备和方法
CN101095149A (zh) 图像比较
JP2019117556A (ja) 情報処理装置、情報処理方法及びプログラム
CN108875505B (zh) 基于神经网络的行人再识别方法和装置
CN110390308B (zh) 一种基于时空对抗生成网络的视频行为识别方法
EP3836085B1 (en) Multi-view three-dimensional positioning
Liu et al. Action recognition based on 3d skeleton and rgb frame fusion
KR101827538B1 (ko) 성별 인식 장치 및 방법
US11334759B2 (en) Information processing apparatus, information processing method, and medium
CN111709296A (zh) 一种景别识别方法、装置、电子设备及可读存储介质
KR20210062256A (ko) 행동 시퀀스 기반으로 이상행동 여부를 판단하는 방법, 프로그램 및 시스템
CN112270246A (zh) 视频行为识别方法及装置、存储介质、电子设备
CN113591758A (zh) 一种人体行为识别模型训练方法、装置及计算机设备
JP2007213528A (ja) 行動認識システム
CN116824641B (zh) 姿态分类方法、装置、设备和计算机存储介质
CN113763418B (zh) 一种基于头肩检测的多目标跟踪方法