JP2019009686A

JP2019009686A - 情報処理装置及び画像データの処理方法

Info

Publication number: JP2019009686A
Application number: JP2017125304A
Authority: JP
Inventors: 雄樹近藤; Takeki Kondo; 功人佐藤; Katsuto Sato
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2017-06-27
Filing date: 2017-06-27
Publication date: 2019-01-17
Also published as: US20180373964A1; US10679103B2

Abstract

【課題】撮影された画像データの容量を抑制し、画像単位で復元可能な状態で保持して、再度分析を実施可能にする。
【解決手段】入力された画像データ１１１を保存データに変換して記憶部１３０に保存し、保存データから画像データを再生する情報処理装置１００であって、画像データを保存データに変換するエンコーダ部１２０と、保存データを画像データとして再生するデコーダ部１４０と、を有する。エンコーダ部は、入力された画像データからクラスタグ情報を生成する認識部１２４と、入力された画像データから認識対象領域と背景領域を区別する領域情報を生成するセグメンテーション部１２５と、領域情報に基づいて入力された画像データから背景領域にかかる背景イメージを生成する領域分離部１２６と、を含む。
【選択図】図１Ａ

Description

本発明は、センサやカメラなどから取得される画像データを処理し、圧縮して保持する技術に関する。

近年、センサやカメラを用いて大量のデータを取得し、それを人工知能技術を用いて分析することによりスマートな社会を実現するための取り組みが盛んである。このようなシステムでは、効率のよい制御を実現するにあたり、先立って必要となるデータ種や分析方法が確定できないことが多く、大量、多種のデータを長期間保持し、それらを後から様々な観点で分析することで、結果として効率のよい制御方法を見つけ出すというフローが採られる。

より効率のよい制御方法の発見にはデータを一斉に分析できることが必要で、そのためにはデータをデータセンタのストレージなど一箇所に集約する必要がある。しかし、大量、多種のデータは通信容量の制約から一箇所に集約できないことが多く、データの取得元に近いエッジ装置で分散して一次処理を行い、一次処理の結果をデータセンタ（あるいはクラウド）側の一箇所に集約して二次処理をする必要がある。

しかし、エッジ装置では記憶容量の観点で制約が多く、大量、多種のデータの保管が難しい。そのため、エッジ装置で処理して得られたデータをデータセンタに送信した後は、分析前のデータの大部分は破棄されてしまい、後から観点を変えて分析を行うことは不可能である。

観測環境中に設置するセンサの中でも、カメラなどの撮像センサが生成する情報量は大量であり、エッジ処理装置に蓄積できるデータ量の制約が大きい。また、エッジ装置での一次処理結果も保存する場合、同じ内容を示す情報が画像情報と一次処理結果に二重に存在することになる。格納するデータ容量の制約が厳しい中で情報を重複して持たなければならないという矛盾した状況が発生している。

特許文献１では、監視カメラの画像中に複数領域をユーザが設定し、それぞれの領域に対して圧縮レートを個別に割り当てる技術が開示されている。

非特許文献１では、監視カメラの画像から顔部分などの特定部分だけを認識し、当該部分の画像だけを切り出して保持することでエッジ装置に蓄積される情報量を抑制する手法と、認識結果だけを蓄積してさらに情報量を削減する方法を提案している。

特開２０１４−２１６８３１号公報

小坂谷達夫他著、"インテリジェントな監視カメラネットワークを実現する画像解析ボックス"、東芝レビュー、Vol.69 No.4、pp.41-44、2014年（特に、pp.44、図5中の(2)-(5)）

上記特許文献１の技術では、予め設定した領域毎に圧縮レートが固定されているため、監視対象の位置が移動したり監視対象が運動する場合では、監視対象の画像データが所望の解像度で得られない場合があった。すなわち、固定された領域毎に圧縮レートを設定して監視対象の画像を撮影するために、予めカメラの設置位置や画角や被写体の位置、動作範囲を限定することが難しい、という問題があった。

また、上記非特許文献１の技術では、元の画像は保持されないため、予め設定された認識対象以外の部分に何が映っていたかを解析することはできない、という問題があった。

そこで本発明は、上記問題点に鑑みてなされたもので、入力された画像データの容量を抑制しながら、画像単位で復元可能な状態で保持し、再度分析を実施可能にすることを目的とする。

本発明は、プロセッサとメモリを含んで、入力された画像データを保存データに変換して記憶部に保存し、前記保存データから前記画像データを再生する情報処理装置であって、前記画像データを保存データに変換するエンコーダ部と、前記保存データを画像データとして再生するデコーダ部と、を有し、前記エンコーダ部は、前記入力された画像データからクラスタグ情報を生成する認識部と、前記入力された画像データから認識対象領域と背景領域を区別する領域情報を生成するセグメンテーション部と、前記領域情報に基づいて前記入力された画像データから前記背景領域にかかる背景イメージを生成する領域分離部と、を含む。

したがって、本発明によれば、ひとつの画像データ毎に、クラスタグと、認識対象と背景を分離する領域情報と、背景イメージに分けて変換し、保存データ全体として圧縮することができる。画像データの再生時には、クラスタグから生成した再構成画像を、領域情報に従って、背景イメージと合成することで、元の画像データをフレーム単位で再生することができる。

本発明の実施例１を示し、情報処理装置の機能要素の一例を示す図である。本発明の実施例１を示し、情報処理装置の構成の一例を示すブロック図である。本発明の実施例１を示し、エンコーダモジュールで行われる処理の一例を示す図である。本発明の実施例１を示し、抽出部で行われる処理の一例を示す図である。本発明の実施例１を示し、ニューロンで行われる処理の一例を示す図である。本発明の実施例１を示し、デコーダモジュールで行われる処理の一例を示す図である。本発明の実施例１を示し、合成部で行われる処理の一例を示す図である。本発明の実施例１を示し、認識部、再構成部、セグメンテーション部のニューラルネットワークへ教師データを与える処理の一例を示す図である。本発明の実施例２を示し、情報処理装置の機能要素の一例を示すブロック図である。本発明の実施例２を示し、エンコーダモジュールで行われる処理の一例を示す図である。本発明の実施例２を示し、分離部で行われる処理の一例を示す図である。本発明の実施例２を示し、差分部で行われる処理の一例を示す図である。本発明の実施例２を示し、デコーダモジュールで行われる処理の一例を示す図である。本発明の実施例２を示し、混成部で行われる処理の一例を示す図である。本発明の実施例２を示し、認識部、特徴抽出部、再構成部、セグメンテーション部のニューラルネットワークへ教師データを与える処理の一例を示す図である。本発明の実施例３を示し、エンコーダモジュールで行われる処理の一例を示す図である。

以下、本発明の実施の形態を添付図面に基づいて説明する。

図１Ａは、本発明を実施する情報処理装置の機能要素の一例を示す図である。図中１００は本発明を実施する情報処理装置であり、１０１は情報処理装置１００に接続されて画像を取得する機器であり、例えばカメラである。

１１０はカメラ１０１とのインターフェースモジュールであり、カメラ１０１からの入力信号に基づいて入力画像データ１１１を生成する。入力画像データ１１１は情報処理装置１００が有するメモリ上にデータとして格納される。例えばカラー画像であれば、１画素あたりＲＧＢの３原色の成分に応じて８ビットずつ２４ビットの値とし、それらを画素数分のデータとして格納することができる。

１２０は入力画像データ１１１を処理するエンコーダモジュールであり、後に画像を再生するために必要となるデータを出力する。エンコーダモジュール１２０には、入力画像データ１１１の認識を行う認識部（図中ＲｅｃｏｇｎｉｔｉｏｎＮＮ）１２４と、入力画像データ１１１の認識対象とそれ以外の背景を区別するセグメンテーション部（図中ＳｅｇｍｅｎｔａｔｉｏｎＮＮ）１２５と、入力画像データ１１１のうち背景部分のイメージを出力する抽出部（図中Ｅｘｔｒａｃｔｉｏｎ）１２６が含まれる。なお、認識部１２４とセグメンテーション部１２５は、ニューラルネットワーク（図中ＮＮ）を含む。

エンコーダモジュール１２０は、認識部１２４の出力であるクラスタグ（図中ＣｌａｓｓＴａｇ）１２１と、セグメンテーション部１２５の出力であるセグメンテーションビットマップ（図中ＳｅｇｍｅｎｔａｔｉｏｎＢｉｔｍａｐ）１２２と、入力画像データ（図中Ｉｍａｇｅ）１１１とセグメンテーションビットマップ１２２に基づいて、抽出部１２６が出力する背景イメージ（図中ＢａｃｋｇｒｏｕｎｄＩｍａｇｅ）１２３を出力し、これらの出力はストレージ１３０に書き込む。ここまでが入力画像データ１１１の記録時のデータ処理の一例である。なお、ストレージ１３０は外部のストレージ装置であっても良い。

クラスタグ１２１は、特徴量などを含むメタデータで構成される。例えば、認識対象が人体であれば、認識部１２４は、骨格点の座標情報を特徴量として算出し、クラスタグ１２１に含めることができる。

セグメンテーションビットマップ１２２は、背景イメージ１２３と認識対象の画像領域と背景領域を画素単位で識別する二値ビットマップで構成された領域情報である。セグメンテーション部１２５は、入力画像データ１１１から、背景イメージ１２３の領域と認識対象の画像領域を分離してセグメンテーションビットマップ１２２を生成する。

なお、本実施例１では、セグメンテーション部１２５が、画素単位で背景イメージ１２３と認識対象の画像領域を分離する例を示すが、隣り合う複数の画素をブロックとして、ブロック単位で背景イメージ１２３と認識対象の画像領域を区別するようにしてもよい。

抽出部１２６は、セグメンテーションビットマップ１２２で分離された背景の画素に入力画像データ１１１の画素を出力して背景イメージ１２３を生成する。

エンコーダモジュール１２０は、１つのフレームについて、クラスタグ１２１と、セグメンテーションビットマップ１２２と、背景イメージ１２３を対にして保存データとしてストレージ１３０に格納する。

次に、再生時のデータ処理について述べる。デコーダモジュール１４０が、ストレージ１３０に記録されているクラスタグ１２１と、セグメンテーションビットマップ１２２と、背景イメージ１２３からなる保存データを読み込み、当該保存データから再生画像となる画像データ１４１を出力する。

デコーダモジュール１４０は、クラスタグ１２１から認識対象の画像を再構成する再構成部（図中ＲｅｃｏｎｓｔｒｕｃｔｉｏｎＮＮ）１４２と、再構成部１４２の出力、およびセグメンテーションビットマップ１２２、背景イメージ１２３を合成する合成部（図中Ｍｅｒｇｅ）１４３を含む。なお、再構成部１４２は、ニューラルネットワーク（図中ＮＮ）を含む。

再構成部１４２は、クラスタグ１２１から認識対象の画像を再構成イメージとして生成し、合成部１４３は、セグメンテーションビットマップ１２２と、再構成イメージと、背景イメージ１２３から１つの画像データ１４１を再生する。

図１Ｂは、情報処理装置１００の構成の一例を示すブロック図である。情報処理装置１００は、プロセッサ１０と、メモリ２０と、ストレージ１３０と、入力デバイス３０と、出力デバイス４０と、インターフェースモジュール１１０を、バス５０によって相互に接続した計算機である。

図１Ａに示したエンコーダモジュール１２０を構成する認識部１２４と、セグメンテーション部１２５と、デコーダモジュール１４０を構成する再構成部１４２の各機能部はプログラムとしてメモリ２０にロードされる。

プロセッサ１０は、各機能部のプログラムに従って処理することによって、所定の機能を提供する機能部として稼働する。例えば、プロセッサ１０は、認識プログラムに従って処理することで認識部１２４として機能する。他のプログラムについても同様である。さらに、プロセッサ１０は、各プログラムが実行する複数の処理のそれぞれの機能を提供する機能部としても稼働する。計算機及び計算機システムは、これらの機能部を含む装置及びシステムである。

エンコーダモジュール１２０とデコーダモジュール１４０各機能を実現するプログラム、テーブル等の情報は、ストレージ１３０や不揮発性半導体メモリ、ハードディスクドライブ、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶デバイス、または、ＩＣカード、ＳＤカード、ＤＶＤ等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。

本実施例１では、エンコーダモジュール１２０、デコーダモジュール１４０はメモリ２０にロードされたソフトウェアプログラムであることを想定するが、ハードウェアで構成しても良い。

図２はエンコーダモジュール１２０で行われる処理の一例を示す図である。認識部１２４は入力画像データ１１１を後述するように処理し、クラスタグ１２１を出力する。また、セグメンテーション部１２５は入力画像データ１１１を後述するように処理し、入力画像データ１１１の画素に対応して、認識対象の画素には１が、背景には０が格納されるセグメンテーションビットマップ１２２を出力する。抽出部１２６は入力画像データ１１１とセグメンテーションビットマップ１２２から、背景イメージ１２３を出力する。

以上のように本実施例１のエンコーダモジュール１２０では、入力された１つの入力画像データ１１１（１フレーム）を、特徴量を含むメタデータで構成されたクラスタグ１２１と、認識対象と背景を分離したセグメンテーションビットマップ１２２と、背景イメージ１２３に分解してストレージ１３０に格納される。

認識対象の画像は、特徴量としてクラスタグ１２１に格納されるため、クラスタグ１２１とセグメンテーションビットマップ１２２と背景イメージ１２３からなる１フレームの保存データは、入力画像データ１１１に比して、圧縮されることになる。

また、カメラ１０１が固定されて定点観測を行う場合では、背景イメージ１２３はほとんど変化しない。このような撮影環境では、背景イメージ１２３を複数のフレームで代用することで、保存データの圧縮レートをさらに向上させることが可能となる。

図３は、抽出部１２６で行われる処理の一例を示す図である。抽出部１２６は、セグメンテーションビットマップ１２２の値が０となっている画素については入力画像データ１１１の画素の値を出力し、値が１となっている画素については０を出力し、背景イメージ１２３の画素の値として出力する。

次に、認識部１２４の構成について示す。認識部１２４はニューラルネットワークの計算モデルに基づいて構成される。すなわち、認識部１２４は、ニューロンと呼ばれる処理単位の構造に基づき、複数のニューロンの入力と出力を連ねることにより構成される。

図４は、ニューロンで行われる処理の一例を示す図である。４０１は複数の入力値、４０２は入力値に対する重み係数であり、入力値４０１に重み計数４０２を乗じた結果が加算部４０３において加算される。４０４は入力値から出力値への伝播特性を表現する活性化関数であり、活性化関数４０４の演算結果が４０５に出力される。

ニューラルネットワークを用いた処理において、入力から所望の出力を得るために必要になるのは、その処理に適した前述の重み係数であるが、これは、事前に所望の入力データと出力データの対を用いて、所望の出力データとの差分から重み係数を調整する逆誤差伝播を用いた学習により得ることができる。

認識部１２４は、事前に入力画像データ１１１に対して、望ましい処理結果であるクラスタグ１２１の対応を学習した重み係数を有するニューラルネットワークによって構成する。学習方法については後述する。このニューラルネットワークは、例えばコンボリューショナルニューラルネットワークを用いて構成しても良い。

セグメンテーション部１２５の構成について示す。セグメンテーション部１２５はニューラルネットワークの計算モデルに基づいて構成される。セグメンテーション部１２５は、事前に入力画像データ１１１に対して、望ましい処理結果であるセグメンテーションビットマップを学習した重み係数を含むニューラルネットワークによって構成される。ニューラルネットワークの学習方法については後述する。

図５は、デコーダモジュール１４０で行われる処理の一例を示す図である。再構成部１４２はクラスタグ１２１を処理し、再構成イメージ５０１を出力する。また、合成部１４３は再構成イメージ５０１と、セグメンテーションビットマップ１２２と、背景イメージ１２３を処理し、再生された画像データ１４１を出力する。

なお、画像データ１４１の再生は、情報処理装置１００が再生する画像データ１４１を指定されたときに実施すれば良い。

本実施例１のデコーダモジュール１４０では、特徴量を含むメタデータで構成されたクラスタグ１２１と、認識対象と背景を分離したセグメンテーションビットマップ１２２と、背景イメージ１２３に分解された１つのフレームの画像データを再生する。

再構成部１４２は、クラスタグ１２１を入力として、クラスタグ１２１の特徴量などから再構成イメージ５０１を生成する。そして、合成部１４３は、再構成イメージ５０１と、セグメンテーションビットマップ１２２と、背景イメージ１２３を合成して、画像データ１４１を再生する。

以上のように、本実施例１では、ひとつのフレーム毎に、特徴量を含むクラスタグ１２１と、認識対象と背景を分離するセグメンテーションビットマップ１２２と、背景イメージ１２３に分けて変換し、認識対象の画像を特徴量に変換することで、保存データ全体として圧縮することができる。

そして、画像データの再生時には、クラスタグ１２１から生成した再構成イメージ５０１を、セグメンテーションビットマップ１２２に従って配置し、背景イメージ１２３を加えることで、元の画像データ１４１を再生することができる。本実施例１の圧縮（変換）、再生では、前後のフレームが欠落していても、当該フレームの画像を再生することが可能となる。すなわち、本実施例１の保存データは、前後のフレームの有無に関わらず圧縮し、再生することが可能となる。また、本実施例１では、クラスタグ１２１を検索することで、１フレーム単位で画像データの検索と再生を実現することが可能となる。

図６は、合成部１４３で行われる処理の一例を示す図である。合成部１４３は、セグメンテーションビットマップ１２２の値が０となっている画素については背景イメージ１２３の画素の値を出力し、値が１となっている画素については再構成イメージ５０１の画素の値を出力し、再生する画像データ１４１の画素の値として出力する。

次に、再構成部１４２の構成について示す。再構成部１４２はニューラルネットワークの計算モデルに基づいて構成される。再構成部１４２は、事前にクラスタグ１２１に対して、望ましい処理結果である画像データ１４１を学習した重み係数を含むニューラルネットワークによって構成する。

図７は、ニューラルネットワークによって構成される認識部１２４、セグメンテーション部１２５、再構成部１４２について、事前に重み係数を学習によって得るための教師データの与え方の一例を示す図である。

認識部１２４は、入力画像群７０１と、それぞれの画像に対して望ましい処理結果となるクラスタグ群７０２を教師データとし、入力画像群７０１の画像を認識部１２４の入力側７１１に与え、得られる出力とクラスタグ群７０２のクラスタグとの誤差を出力側７１２で損失関数として計算し、逆誤差伝播法により重み係数を更新する。認識部１２４において、この処理を複数回行うことにより、最終的な重み係数を得る。クラスタグ群７０２としては、例えば、入力画像群７０１のそれぞれに対応する正解特徴量を与えれば良い。

再構成部１４２は、同じく入力画像群７０１とクラスタグ群７０２を教師データとするが、クラスタグ群７０２のクラスタグを再構成部１４２の入力側７２１に与え、得られる出力と入力画像群７０１の画像との誤差を出力側７２２で損失関数として計算し、逆誤差伝播法により重み係数を更新する。再構成部１４２では、この処理を複数回行うことにより、最終的な重み係数を得る。

セグメンテーション部１２５も、同じく入力画像群７０１とクラスタグ群７０２を教師データとする。入力画像群７０１の画像をセグメンテーション部１２５の入力側７３１に与える。セグメンテーション部１２５では、得られる出力とリファレンスとなる画像との誤差を出力側７３３で損失関数として計算するが、リファレンスとなる画像は、再構成部１４２に対してクラスタグ群７０２のクラスタグを入力側７３２に与え、得られる出力を二値化した画像（７３３）を用いる。セグメンテーション部１２５では、逆誤差伝播法により重み係数を更新し、この処理を複数回行うことにより、最終的な重み係数を得る。

以上のように、本実施例１では、ひとつの入力画像データ１１１（フレーム）毎に、特徴量を含むクラスタグ１２１と、認識対象と背景を分離するセグメンテーションビットマップ１２２と、背景イメージ１２３に分けて変換し、保存データ全体として圧縮することができる。

認識部１２４や再構成部１４２やセグメンテーション部１２５のニューラルネットワークは、上述のように入力画像群７０１と正解特徴量のクラスタグ群７０２の対を教師データとして与え、逆誤差伝播法によって重み係数を学習することができる。なお、セグメンテーション部１２５については、入力画像群７０１を入力として、出力側にはクラスタグを入力とした再構成部１４２の出力（７３３）を正解として与えることで、重み係数を算出することができる。

画像データの再生時には、クラスタグ１２１から生成した再構成イメージ５０１を、セグメンテーションビットマップ１２２に従って、背景イメージ１２３と合成することで、元の画像データ１４１を１フレーム単位で再生することができる。

本実施例１のように、入力画像データ１１１のうち認識対象を画像から特徴量（またはメタデータ）に変換するニューラルネットワークを含む認識部１２４と、画像から認識対象とそれ以外（例えば、背景）に分離するニューラルネットワークを含むセグメンテーション部１２５と、特徴量から再構成イメージ５０１を生成するニューラルネットワークを含む再構成部１４２と、を有することで、１つの入力画像データ１１１を、クラスタグ１２１と、セグメンテーションビットマップ１２２と、背景イメージ１２３に分割して蓄積することができる。

認識対象の画像データを特徴量に変換してクラスタグ１２１へ格納することで、認識対象の画像データを圧縮するのに加え、カメラ１０１が定点観測を行う場合には背景イメージ１２３をほぼ変化しない画像データとして扱うことにより、さらに画像データの圧縮レートを向上させることができる。

また、画像の再生時には、クラスタグ１２１と、セグメンテーションビットマップ１２２と、背景イメージ１２３で構成される保存データから元の画像データ１４１を１フレーム単位で復元できる。これにより、視点や観点を変更して画像データを再度分析することが可能となり、撮影した画像データを有効に利用することが可能となる。

なお、入力画像データ１１１の認識対象は、認識部１２４のニューラルネットワークに学習させる教師データに応じて変更することができ、上述のように人体に限定されるものではなく、物体などにも適用することが可能である。

また、情報処理装置１００に蓄積される保存データを特徴量（クラスタグ１２１）と領域情報（セグメンテーションビットマップ１２２）と背景イメージ１２３とすることで、保存データ全体での圧縮レートを向上させて長期間にわたるデータの蓄積及び再分析が可能となる。

図８は、本発明の実施例２の情報処理装置１００の機能要素の一例を示す図である。情報処理装置１００は、インターフェースモジュール１１０を介して接続されたカメラ１０１から入力画像データ１１１を取得する。

８２０は入力画像データ１１１を処理するエンコーダモジュールである。エンコーダモジュール８２０には、入力画像データ１１１の認識対象とそれ以外の背景を区別するセグメンテーション部（図中ＳｅｇｍｅｎｔａｔｉｏｎＮＮ）８２６と、入力画像データ１１１を認識対象部分と背景部分で分離して、それぞれのイメージを出力する分離部（図中Ｓｅｐａｒａｔｉｏｎ）８２７と、認識対象部分の認識を行う認識部（図中ＲｅｃｏｇｎｉｔｉｏｎＮＮ）８２５と、認識対象部分の特徴量の抽出を行う特徴抽出部（図中ＦｅａｔｕｒｅＥｘｔｒａｃｔｉｏｎＮＮ）８２８と、画像の再構成を行う再構成部（図中ＲｅｃｏｎｓｔｒｕｃｔｉｏｎＮＮ）８４２と、画像の差分を出力する差分部（図中Ｄｉｆｆｅｒｅｎｔｉａｌ）８２９が含まれる。

なお、セグメンテーション部８２６と、認識部８２５と、特徴抽出部８２８と、再構成部８４２は、それぞれニューラルネットワーク（図中ＮＮ）を含む。

エンコーダモジュール８２０は、認識部８２５の出力であるクラスタグ８２１と、特徴抽出部８２８の出力である特徴ベクトル（図中ＦｅａｔｕｒｅＶｅｃｔｏｒ）８２２と、差分部（差分抽出部）８２９の出力である差分イメージ（図中ＤｉｆｆｅｒｅｎｔｉａｌＩｍａｇｅ）８２３と、分離部（領域分離部）８２７が背景部分として分離して出力した背景イメージ８２４を出力し、これら出力をストレージ１３０に書き込む。以上のデータが入力画像データ１１１の記録時に演算されてストレージ１３０に格納される。

次に、再生時のデータ処理について述べる。デコーダモジュール８４０が、ストレージ１３０に記録されているクラスタグ８２１、特徴ベクトル８２２、差分イメージ（認識差分イメージ）８２３、背景イメージ８２４からなる保存データをフレーム単位で読み込み、保存データから再生画像となる再生画像データ８４１を出力する。

デコーダモジュール８４０は、クラスタグ８２１、特徴ベクトル８２２から認識対象の画像を再構成する再構成部（図中ＲｅｃｏｎｓｔｒｕｃｔｉｏｎＮＮ）８４２と、再構成部８４２の出力、および差分イメージ８２３、背景イメージ８２４を混成する混成部（図中Ｂｌｅｎｄ）８４３を含む。

デコーダモジュール８４０の再構成部８４２は、エンコーダモジュール８２０の再構成部８４２と同一のもので構成することができる。

なお、情報処理装置１００は、前記実施例１の図１Ｂと同様であり、例えば中央演算装置ＣＰＵやメモリを具備する計算機によって構成されることを想定し、その場合はエンコーダモジュール８２０、デコーダモジュール１４０はソフトウェアプログラムであることを想定するが、技術的に周知または公知の範囲で想定されうる構成形態であればよい。

図９は、エンコーダモジュール８２０で行われる処理の一例を示す図である。セグメンテーション部８２６は、入力画像データ１１１を処理して認識対象部分を識別し、入力画像データ１１１の画素に対応して、認識対象の画素には１が、背景には０が格納されるセグメンテーションビットマップ９０１を出力する。

分離部８２７は、入力画像データ１１１とセグメンテーションビットマップ９０１から、認識対象イメージ（図中ＦｏｒｅｇｒｏｕｎｄＩｍａｇｅ）９０２と背景イメージ８２４を出力する。認識部８２５は認識対象イメージ９０２を処理し、クラスタグ８２１を出力する。クラスタグ８２１は、前記実施例１と同様であり、認識対象イメージ９０２の特徴量を含むメタデータで構成することができる。

また、特徴抽出部８２８は認識対象イメージ９０２を処理し、特徴ベクトル８２２を出力する。特徴ベクトル８２２は、例えば、歪み大きさ、太さなど、予め学習した要素で構成される。

再構成部８４２は、クラスタグ８２１と特徴ベクトル８２２から、認識対象部分を再構成した再構成イメージ９０３を生成して出力する。差分部８２９は、再構成イメージ９０３と認識対象イメージ９０２から、差分イメージ８２３を出力する。

すなわち、差分イメージ８２３は、クラスタグ８２１と特徴ベクトル８２２を入力として再構成部８４２が推定した再構成イメージ９０３と、分離部８２７が出力した実際の認識対象イメージ９０２との差分データで構成される。換言すれば、差分イメージ８２３は、再構成部８４２が推定する再構成イメージ９０３の補正情報として機能する。

情報処理装置１００は、１フレーム単位でクラスタグ８２１と、特徴ベクトル８２２と、差分イメージ８２３と、背景イメージ８２４を対にしてストレージ１３０に蓄積する。

図１０は、分離部８２７で行われる処理の一例を示す図である。分離部８２７は、セグメンテーションビットマップ９０１の値が０となっている画素については、背景イメージ８２４の対応する画素については入力画像データ１１１の画素の値を出力し、認識対象イメージ９０２の対応する画素については０を出力し、背景イメージ８２４として出力する。

一方、分離部８２７は、セグメンテーションビットマップ９０１の値が１となっている画素については、認識対象イメージ９０２の対応する画素について入力画像データ１１１の値を出力し、背景イメージ８２４の対応する画素については０を出力し、認識対象イメージ９０２として出力する。

図１１は、差分部８２９で行われる処理の一例を示す図である。差分部８２９は、認識対象イメージ９０２の画素の値と、再構成イメージ９０３の対応する画素の値を減算し、差分イメージ８２３として出力する。すなわち、差分イメージ８２３は、再構成部８４２が推定した再構成イメージ９０３と、実際の認識対象イメージ９０２との誤差で構成される。

認識部８２５の構成について示す。認識部８２５はニューラルネットワークの計算モデルに基づいて構成し、事前に、入力画像データ１１１対して、望ましい処理結果出力であるクラスタグを学習した重み係数をもつニューラルネットワークによって構成する。学習方法については後述する。

セグメンテーション部８２６の構成について示す。セグメンテーション部８２６はニューラルネットワークの計算モデルに基づいて構成し、事前に、入力画像データ１１１に対して、望ましい処理結果出力であるセグメンテーションビットマップを学習した重み係数をもつニューラルネットワークによって構成する。学習方法については後述する。

特徴抽出部８２８の構成について示す。特徴抽出部８２８はニューラルネットワークの計算モデルに基づいて構成し、事前に、入力画像データ１１１に対して、望ましい処理結果出力である特徴ベクトルを学習した重み係数を含むニューラルネットワークによって構成する。学習方法については後述する。

再構成部８４２の構成について示す。再構成部８４２はニューラルネットワークの計算モデルに基づいて構成し、事前に、入力のクラスタグと特徴ベクトルに対して、望ましい処理結果出力である再構成イメージを学習した重み係数を含むニューラルネットワークによって構成する。学習方法については後述する。

図１２は、デコーダモジュール８４０で行われる処理の一例を示す図である。再構成部８４２はクラスタグ８２１と特徴ベクトル８２２から、再構成イメージ１２０１を推定して出力する。

また、混成部８４３は再構成イメージ９０３と、差分イメージ８２３と、背景イメージ８２４を処理して、再生画像データ８４１を出力する。すなわち、混成部８４３は、再構成イメージ９０３を差分イメージ８２３によって補正した画像データを、認識対象イメージの再生画像として算出し、この認識対象イメージに背景イメージ８２４を加えることで、元の画像データ１４１を再生する。

図１３は、混成部８４３で行われる処理の一例を示す図である。混成部８４３は、再構成イメージ９０３の画素の値と、差分イメージ８２３の対応する画素の値と、背景イメージ８２４の対応する画素の値を加算し、再生画像データ８４１として出力する。

図１４に、ニューラルネットワークによって構成される認識部８２５と、セグメンテーション部８２６と、特徴抽出部８２８と、再構成部８４２について、事前に重み係数を学習によって得るための教師データの与え方の一例を示す図である。

認識部８２５は、入力画像群７０１と、それぞれの画像に対して望ましい処理結果となるクラスタグ群７０２を教師データとし、入力画像群７０１の画像を認識部８２５の入力側１４１１に与え、得られる出力とクラスタグ群７０２のクラスタグとの誤差を出力側１４１２で損失関数として計算し、逆誤差伝播法により重み係数を更新する。これを複数回行うことにより、最終的な重み係数を得る。前記実施例１と同様にして、クラスタグ群７０２としては、例えば、入力画像群７０１のそれぞれに対応する正解特徴量を与えれば良い。

特徴抽出部８２８と、再構成部８４２は、特徴抽出部８２８の出力、すなわち特徴ベクトルの部分を、再構成部８４２の入力のうちクラスタグ群７０２の入力部分を除いた部分、すなわちこれも特徴ベクトルの部分だが、それぞれ連結したニューラルネットワークの構成で学習を行う。

入力画像群７０１と、クラスタグ群７０２を教師データとし、入力画像群７０１の画像を特徴抽出部８２８の入力側１４２１に、クラスタグ群７０２のクラスタグを再構成部８４２の入力のうちクラスタグ入力部分である入力側１４２２に与え、得られる出力と入力画像群７０１の画像との誤差を再構成部８４２の出力側１４２３で損失関数として計算し、逆誤差伝播法により重み係数を更新する。これを複数回行うことにより、最終的な重み係数を得る。

セグメンテーション部８２６も、同じく入力画像群７０１とクラスタグ群７０２を教師データとする。入力画像群７０１の画像をセグメンテーション部８２６の入力側１４３１に与える。セグメンテーション部８２６で得られる出力とリファレンスとなる画像との誤差を出力側１４３４で損失関数として計算するが、リファレンスとなる画像は、特徴抽出部８２８と再構成部８４２を連結した構成で、特徴抽出部８２８の入力側１４３２に対して入力画像群７０１の画像を与え、再構成部８４２の入力のうちクラスタグ入力部分である入力側１４３３に対してクラスタグ群７０２のクラスタグを与え、得られる出力を二値化した画像（１４３４）を用いる。逆誤差伝播法により重み係数を更新、これを複数回行うことにより、最終的な重み係数を得る。

以上のように、本実施例２では、ひとつの入力画像データ１１１（フレーム）毎に、特徴量を含むクラスタグ８２１と、認識対象イメージ９０２の特徴ベクトル８２２と、再構成イメージ９０３と認識対象イメージ９０２の誤差を含む差分イメージ８２３と、背景イメージ８２４に分けて保存データへ変換することができる。

認識部８２５や再構成部８４２やセグメンテーション部８２６や特徴抽出部８２８のニューラルネットワークは、上述のように入力画像群７０１と正解特徴量のクラスタグ群７０２の対を教師データとして与え、逆誤差伝播法によって重み係数を学習することができる。なお、セグメンテーション部８２６については、入力画像群７０１を入力として、出力側にはクラスタグ群７０２と特徴ベクトル８２２（特徴抽出部８２８の出力）を入力とした再構成部８４２の出力を正解として与えることで、重み係数を算出することができる。

画像データの再生時には、クラスタグ８２１と特徴ベクトル８２２から生成した再構成イメージ９０３を差分イメージ８２３で補正して、背景イメージ８２４と合成することで、元の画像データ１４１を１フレーム単位で再生することができる。

本実施例２のように、クラスタグ８２１と特徴ベクトル８２２から生成した再構成イメージ９０３と、分離部８２７が出力した認識対象イメージ９０２の誤差を差分イメージ８２３として保存データとして蓄積することで、デコーダモジュール８４０で画像を再構成する際には、差分イメージ８２３で再構成イメージ９０３を補正することにより再生された画像データ１４１の精度を向上させることが可能となる。

図１５は、本発明の実施例３のエンコーダモジュール１２０の機能要素の一例を示す図である。本実施例３では、前記実施例１のエンコーダモジュール１２０に差分生成部１２７を加えたもので、その他の構成は前記実施例１と同様である。

差分生成部１２７は、抽出部１２６が出力した前回の背景イメージ１２３と、抽出部１２６が出力した今回の背景イメージの差分を差分背景イメージ１２３Ｂとして生成し、ストレージ１３０に蓄積する。背景イメージ１２３は、所定の間隔（例えば、３０フレームなど）で生成することができる。

画像データ１４１を再生する際には、前記実施例１に示したデコーダモジュール１４０の合成部１４３が、差分背景イメージ１２３Ｂと背景イメージ１２３から現在のフレームの背景イメージを生成する。

以上のように本実施例３では、背景イメージを時系列方向の差分背景イメージ１２３Ｂで蓄積することにより、入力画像データ１１１に対する保存データ全体の圧縮レートをさらに向上させることが可能となる。

なお、前記実施例１〜３の情報処理装置１００は、入力画像データ１１１として動画を採用しても良いし、静止画を採用しても良い。

＜まとめ＞
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に記載したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加、削除、又は置換のいずれもが、単独で、又は組み合わせても適用可能である。

また、上記の各構成、機能、処理部、及び処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、及び機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

１００情報処理装置
１０１カメラ
１１０インターフェースモジュール
１１１入力画像データ
１２０エンコーダモジュール
１２１、８２１クラスタグ
１２２セグメンテーションビットマップ
１２３背景イメージ
１２４、８２５認識部
１２５、８２６セグメンテーション部
１２６抽出部
１３０ストレージ
１４０デコーダモジュール
１４１再生画像データ
１４２、８４２再構成部
１４３合成部
４０１ニューロン入力値
４０２重み係数
４０３加算部
４０４活性化関数
４０５ニューロン出力値
５０１再構成イメージ
７０１入力画像群
７０２クラスタグ群
８２０エンコーダモジュール
８２１クラスタグ
８２２特徴ベクトル
８２３差分イメージ
８２４背景イメージ
８２７分離部
８２８特徴抽出部
８２９差分部
８４０デコーダモジュール
８４３混成部
９０１セグメンテーションビットマップ
９０２認識対象イメージ
９０３再構成イメージ

Claims

プロセッサとメモリを含んで、入力された画像データを保存データに変換して記憶部に保存し、前記保存データから前記画像データを再生する情報処理装置であって、
前記画像データを保存データに変換するエンコーダ部と、
前記保存データを画像データとして再生するデコーダ部と、を有し、
前記エンコーダ部は、
前記入力された画像データからクラスタグ情報を生成する認識部と、
前記入力された画像データから認識対象領域と背景領域を区別する領域情報を生成するセグメンテーション部と、
前記領域情報に基づいて前記入力された画像データから前記背景領域にかかる背景イメージを生成する領域分離部と、
を含む
ことを特徴とする情報処理装置。
請求項１において、
前記クラスタグ情報と、前記領域情報と、前記背景イメージを含む前記保存データを記憶装置に記憶し、
前記デコーダ部は、
前記保存データから読み込んだ前記クラスタグ情報から認識対象領域の再構成画像を生成する再構成部と、
前記保存データから読み込んだ前記領域情報と前記背景イメージに、前記再構成画像を合成して画像データを再生する合成部と、
を含むことを特徴とする情報処理装置。
請求項１において、
前記エンコーダ部が生成した前記クラスタグ情報と、前記領域情報と、前記背景イメージからなる前記保存データを格納する前記記憶部を、さらに有することを特徴とする情報処理装置。
請求項１において、
前記認識部と、前記セグメンテーション部と、前記再構成部は、ニューラルネットワークを含んで構成されることを特徴とする情報処理装置。
請求項４において、
前記認識部と、前記セグメンテーション部と、前記再構成部のニューラルネットワークは、当該ニューラルネットワークの重みを教師データを用いた逆誤差伝播による学習で設定し、
前記教師データは、予め設定された学習用画像データと学習用クラスタグ情報の対で構成されることを特徴とする情報処理装置。
請求項４において、
前記認識部は、
前記入力された画像データから、当該画像データの特徴量を含むクラスタグを生成することを特徴とする情報処理装置。
請求項１において、
前記領域分離部が、出力した背景イメージと、前記領域分離部が前回出力した背景イメージから差分背景イメージを生成する差分生成部を、さらに有することを特徴とする情報処理装置。
請求項１において、
前記エンコーダ部は、
前記入力された画像データから特徴ベクトルを生成する特徴抽出部と、
前記クラスタグ情報と前記特徴ベクトルから再構成画像を生成する再構成部と、
前記入力された画像データと前記領域情報から認識対象イメージと背景イメージを生成する前記領域分離部と、
前記認識対象イメージと前記再構成画像から認識差分イメージを生成する差分抽出部と、
を含んで、前記クラスタグ情報と、前記特徴ベクトルと、前記認識差分イメージと、前記背景イメージを含む前記保存データを出力し、
前記デコーダ部は、
前記保存データを読み込んで、前記クラスタグ情報と前記特徴ベクトルから再構成画像を生成する再構成部と、
前記保存データから読み込んだ前記認識差分イメージと前記背景イメージと、前記再構成画像を合成して画像データを再生する合成部と、
を含むことを特徴とする情報処理装置。
請求項８において、
前記エンコーダ部が生成した前記クラスタグ情報と、前記特徴ベクトルと、前記認識差分イメージと、前記背景イメージからなる前記保存データを格納する記憶部を、さらに有することを特徴とする情報処理装置。
請求項８において、
前記認識部と、前記特徴抽出部と、前記セグメンテーション部と、前記再構成部は、ニューラルネットワークを含んで構成されることを特徴とする情報処理装置。
請求項１０において、
前記認識部と、前記特徴抽出部と、前記セグメンテーション部と、前記再構成部のニューラルネットワークは、当該ニューラルネットワークの重みを教師データを用いた逆誤差伝播による学習で設定し、
前記教師データは、予め設定された学習用画像データと学習用クラスタグ情報の対で構成されることを特徴とする情報処理装置。
請求項１０において、
前記認識部は、
前記入力された画像データから、当該画像データの特徴量を含むクラスタグを生成することを特徴とする情報処理装置。
請求項８において、
前記エンコーダ部の前記再構成部と、前記デコーダ部の前記再構成部が同一であることを特徴とする情報処理装置。
プロセッサとメモリを含む計算機が、入力された画像データを保存データに変換して記憶部に保存し、前記保存データから前記画像データを再生する画像データの処理方法であって、
前記計算機が、入力された画像データからクラスタグ情報を生成する認識ステップと、
前記計算機が、前記入力された画像データから認識対象領域と背景領域を区別する領域情報を生成するセグメンテーションステップと、
前記計算機が、前記領域情報に基づいて前記入力された画像データから前記認識対象領域を除外した背景イメージを生成する領域分離ステップと、
を含むことを特徴とする画像データの処理方法。
請求項１４において、
前記計算機が、前記クラスタグ情報と、前記領域情報と、前記背景イメージを記憶装置に記憶する記憶ステップと、
前記計算機が、前記保存データから読み込んだ前記クラスタグ情報から認識対象領域の再構成画像を生成する再構成ステップと、
前記計算機が、前記保存データから読み込んだ前記領域情報と前記背景イメージに、前記再構成画像を合成して画像データを再生する合成ステップと、
を含むことを特徴とする画像データの処理方法。
請求項１４において、
前記計算機は、
前記入力された画像データから特徴ベクトルを生成する特徴抽出ステップと、
前記クラスタグ情報と前記特徴ベクトルから再構成画像を生成する再構成ステップと、
前記入力された画像データと前記領域情報から認識対象イメージと背景イメージを生成する前記領域分離ステップと、
前記認識対象イメージと前記再構成画像から認識差分イメージを生成する差分抽出ステップと、
を行い、前記クラスタグ情報と、前記特徴ベクトルと、前記認識差分イメージと、前記背景イメージを含む前記保存データを出力し、
前記計算機は、
前記保存データを読み込んで、前記クラスタグ情報と前記特徴ベクトルから再構成画像を生成する再構成ステップと、
前記保存データから読み込んだ前記認識差分イメージと前記背景イメージと、前記再構成画像を合成して画像データを再生する合成ステップと、
を行うこと含むことを特徴とする画像データの処理方法。