JP2019009686A - 情報処理装置及び画像データの処理方法 - Google Patents

情報処理装置及び画像データの処理方法 Download PDF

Info

Publication number
JP2019009686A
JP2019009686A JP2017125304A JP2017125304A JP2019009686A JP 2019009686 A JP2019009686 A JP 2019009686A JP 2017125304 A JP2017125304 A JP 2017125304A JP 2017125304 A JP2017125304 A JP 2017125304A JP 2019009686 A JP2019009686 A JP 2019009686A
Authority
JP
Japan
Prior art keywords
unit
image
data
image data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017125304A
Other languages
English (en)
Inventor
雄樹 近藤
Takeki Kondo
雄樹 近藤
功人 佐藤
Katsuto Sato
功人 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2017125304A priority Critical patent/JP2019009686A/ja
Priority to US15/992,246 priority patent/US10679103B2/en
Publication of JP2019009686A publication Critical patent/JP2019009686A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/87Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Abstract

【課題】撮影された画像データの容量を抑制し、画像単位で復元可能な状態で保持して、再度分析を実施可能にする。
【解決手段】入力された画像データ111を保存データに変換して記憶部130に保存し、保存データから画像データを再生する情報処理装置100であって、画像データを保存データに変換するエンコーダ部120と、保存データを画像データとして再生するデコーダ部140と、を有する。エンコーダ部は、入力された画像データからクラスタグ情報を生成する認識部124と、入力された画像データから認識対象領域と背景領域を区別する領域情報を生成するセグメンテーション部125と、領域情報に基づいて入力された画像データから背景領域にかかる背景イメージを生成する領域分離部126と、を含む。
【選択図】図1A

Description

本発明は、センサやカメラなどから取得される画像データを処理し、圧縮して保持する技術に関する。
近年、センサやカメラを用いて大量のデータを取得し、それを人工知能技術を用いて分析することによりスマートな社会を実現するための取り組みが盛んである。このようなシステムでは、効率のよい制御を実現するにあたり、先立って必要となるデータ種や分析方法が確定できないことが多く、大量、多種のデータを長期間保持し、それらを後から様々な観点で分析することで、結果として効率のよい制御方法を見つけ出すというフローが採られる。
より効率のよい制御方法の発見にはデータを一斉に分析できることが必要で、そのためにはデータをデータセンタのストレージなど一箇所に集約する必要がある。しかし、大量、多種のデータは通信容量の制約から一箇所に集約できないことが多く、データの取得元に近いエッジ装置で分散して一次処理を行い、一次処理の結果をデータセンタ(あるいはクラウド)側の一箇所に集約して二次処理をする必要がある。
しかし、エッジ装置では記憶容量の観点で制約が多く、大量、多種のデータの保管が難しい。そのため、エッジ装置で処理して得られたデータをデータセンタに送信した後は、分析前のデータの大部分は破棄されてしまい、後から観点を変えて分析を行うことは不可能である。
観測環境中に設置するセンサの中でも、カメラなどの撮像センサが生成する情報量は大量であり、エッジ処理装置に蓄積できるデータ量の制約が大きい。また、エッジ装置での一次処理結果も保存する場合、同じ内容を示す情報が画像情報と一次処理結果に二重に存在することになる。格納するデータ容量の制約が厳しい中で情報を重複して持たなければならないという矛盾した状況が発生している。
特許文献1では、監視カメラの画像中に複数領域をユーザが設定し、それぞれの領域に対して圧縮レートを個別に割り当てる技術が開示されている。
非特許文献1では、監視カメラの画像から顔部分などの特定部分だけを認識し、当該部分の画像だけを切り出して保持することでエッジ装置に蓄積される情報量を抑制する手法と、認識結果だけを蓄積してさらに情報量を削減する方法を提案している。
特開2014−216831号公報
小坂谷達夫 他著、"インテリジェントな監視カメラネットワークを実現する画像解析ボックス"、東芝レビュー、Vol.69 No.4、pp.41-44、2014年(特に、pp.44、図5中の(2)-(5))
上記特許文献1の技術では、予め設定した領域毎に圧縮レートが固定されているため、監視対象の位置が移動したり監視対象が運動する場合では、監視対象の画像データが所望の解像度で得られない場合があった。すなわち、固定された領域毎に圧縮レートを設定して監視対象の画像を撮影するために、予めカメラの設置位置や画角や被写体の位置、動作範囲を限定することが難しい、という問題があった。
また、上記非特許文献1の技術では、元の画像は保持されないため、予め設定された認識対象以外の部分に何が映っていたかを解析することはできない、という問題があった。
そこで本発明は、上記問題点に鑑みてなされたもので、入力された画像データの容量を抑制しながら、画像単位で復元可能な状態で保持し、再度分析を実施可能にすることを目的とする。
本発明は、プロセッサとメモリを含んで、入力された画像データを保存データに変換して記憶部に保存し、前記保存データから前記画像データを再生する情報処理装置であって、前記画像データを保存データに変換するエンコーダ部と、前記保存データを画像データとして再生するデコーダ部と、を有し、前記エンコーダ部は、前記入力された画像データからクラスタグ情報を生成する認識部と、前記入力された画像データから認識対象領域と背景領域を区別する領域情報を生成するセグメンテーション部と、前記領域情報に基づいて前記入力された画像データから前記背景領域にかかる背景イメージを生成する領域分離部と、を含む。
したがって、本発明によれば、ひとつの画像データ毎に、クラスタグと、認識対象と背景を分離する領域情報と、背景イメージに分けて変換し、保存データ全体として圧縮することができる。画像データの再生時には、クラスタグから生成した再構成画像を、領域情報に従って、背景イメージと合成することで、元の画像データをフレーム単位で再生することができる。
本発明の実施例1を示し、情報処理装置の機能要素の一例を示す図である。 本発明の実施例1を示し、情報処理装置の構成の一例を示すブロック図である。 本発明の実施例1を示し、エンコーダモジュールで行われる処理の一例を示す図である。 本発明の実施例1を示し、抽出部で行われる処理の一例を示す図である。 本発明の実施例1を示し、ニューロンで行われる処理の一例を示す図である。 本発明の実施例1を示し、デコーダモジュールで行われる処理の一例を示す図である。 本発明の実施例1を示し、合成部で行われる処理の一例を示す図である。 本発明の実施例1を示し、認識部、再構成部、セグメンテーション部のニューラルネットワークへ教師データを与える処理の一例を示す図である。 本発明の実施例2を示し、情報処理装置の機能要素の一例を示すブロック図である。 本発明の実施例2を示し、エンコーダモジュールで行われる処理の一例を示す図である。 本発明の実施例2を示し、分離部で行われる処理の一例を示す図である。 本発明の実施例2を示し、差分部で行われる処理の一例を示す図である。 本発明の実施例2を示し、デコーダモジュールで行われる処理の一例を示す図である。 本発明の実施例2を示し、混成部で行われる処理の一例を示す図である。 本発明の実施例2を示し、認識部、特徴抽出部、再構成部、セグメンテーション部のニューラルネットワークへ教師データを与える処理の一例を示す図である。 本発明の実施例3を示し、エンコーダモジュールで行われる処理の一例を示す図である。
以下、本発明の実施の形態を添付図面に基づいて説明する。
図1Aは、本発明を実施する情報処理装置の機能要素の一例を示す図である。図中100は本発明を実施する情報処理装置であり、101は情報処理装置100に接続されて画像を取得する機器であり、例えばカメラである。
110はカメラ101とのインターフェースモジュールであり、カメラ101からの入力信号に基づいて入力画像データ111を生成する。入力画像データ111は情報処理装置100が有するメモリ上にデータとして格納される。例えばカラー画像であれば、1画素あたりRGBの3原色の成分に応じて8ビットずつ24ビットの値とし、それらを画素数分のデータとして格納することができる。
120は入力画像データ111を処理するエンコーダモジュールであり、後に画像を再生するために必要となるデータを出力する。エンコーダモジュール120には、入力画像データ111の認識を行う認識部(図中Recognition NN)124と、入力画像データ111の認識対象とそれ以外の背景を区別するセグメンテーション部(図中Segmentation NN)125と、入力画像データ111のうち背景部分のイメージを出力する抽出部(図中Extraction)126が含まれる。なお、認識部124とセグメンテーション部125は、ニューラルネットワーク(図中NN)を含む。
エンコーダモジュール120は、認識部124の出力であるクラスタグ(図中Class Tag)121と、セグメンテーション部125の出力であるセグメンテーションビットマップ(図中Segmentation Bitmap)122と、入力画像データ(図中Image)111とセグメンテーションビットマップ122に基づいて、抽出部126が出力する背景イメージ(図中Background Image)123を出力し、これらの出力はストレージ130に書き込む。ここまでが入力画像データ111の記録時のデータ処理の一例である。なお、ストレージ130は外部のストレージ装置であっても良い。
クラスタグ121は、特徴量などを含むメタデータで構成される。例えば、認識対象が人体であれば、認識部124は、骨格点の座標情報を特徴量として算出し、クラスタグ121に含めることができる。
セグメンテーションビットマップ122は、背景イメージ123と認識対象の画像領域と背景領域を画素単位で識別する二値ビットマップで構成された領域情報である。セグメンテーション部125は、入力画像データ111から、背景イメージ123の領域と認識対象の画像領域を分離してセグメンテーションビットマップ122を生成する。
なお、本実施例1では、セグメンテーション部125が、画素単位で背景イメージ123と認識対象の画像領域を分離する例を示すが、隣り合う複数の画素をブロックとして、ブロック単位で背景イメージ123と認識対象の画像領域を区別するようにしてもよい。
抽出部126は、セグメンテーションビットマップ122で分離された背景の画素に入力画像データ111の画素を出力して背景イメージ123を生成する。
エンコーダモジュール120は、1つのフレームについて、クラスタグ121と、セグメンテーションビットマップ122と、背景イメージ123を対にして保存データとしてストレージ130に格納する。
次に、再生時のデータ処理について述べる。デコーダモジュール140が、ストレージ130に記録されているクラスタグ121と、セグメンテーションビットマップ122と、背景イメージ123からなる保存データを読み込み、当該保存データから再生画像となる画像データ141を出力する。
デコーダモジュール140は、クラスタグ121から認識対象の画像を再構成する再構成部(図中Reconstruction NN)142と、再構成部142の出力、およびセグメンテーションビットマップ122、背景イメージ123を合成する合成部(図中Merge)143を含む。なお、再構成部142は、ニューラルネットワーク(図中NN)を含む。
再構成部142は、クラスタグ121から認識対象の画像を再構成イメージとして生成し、合成部143は、セグメンテーションビットマップ122と、再構成イメージと、背景イメージ123から1つの画像データ141を再生する。
図1Bは、情報処理装置100の構成の一例を示すブロック図である。情報処理装置100は、プロセッサ10と、メモリ20と、ストレージ130と、入力デバイス30と、出力デバイス40と、インターフェースモジュール110を、バス50によって相互に接続した計算機である。
図1Aに示したエンコーダモジュール120を構成する認識部124と、セグメンテーション部125と、デコーダモジュール140を構成する再構成部142の各機能部はプログラムとしてメモリ20にロードされる。
プロセッサ10は、各機能部のプログラムに従って処理することによって、所定の機能を提供する機能部として稼働する。例えば、プロセッサ10は、認識プログラムに従って処理することで認識部124として機能する。他のプログラムについても同様である。さらに、プロセッサ10は、各プログラムが実行する複数の処理のそれぞれの機能を提供する機能部としても稼働する。計算機及び計算機システムは、これらの機能部を含む装置及びシステムである。
エンコーダモジュール120とデコーダモジュール140各機能を実現するプログラム、テーブル等の情報は、ストレージ130や不揮発性半導体メモリ、ハードディスクドライブ、SSD(Solid State Drive)等の記憶デバイス、または、ICカード、SDカード、DVD等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。
本実施例1では、エンコーダモジュール120、デコーダモジュール140はメモリ20にロードされたソフトウェアプログラムであることを想定するが、ハードウェアで構成しても良い。
図2はエンコーダモジュール120で行われる処理の一例を示す図である。認識部124は入力画像データ111を後述するように処理し、クラスタグ121を出力する。また、セグメンテーション部125は入力画像データ111を後述するように処理し、入力画像データ111の画素に対応して、認識対象の画素には1が、背景には0が格納されるセグメンテーションビットマップ122を出力する。抽出部126は入力画像データ111とセグメンテーションビットマップ122から、背景イメージ123を出力する。
以上のように本実施例1のエンコーダモジュール120では、入力された1つの入力画像データ111(1フレーム)を、特徴量を含むメタデータで構成されたクラスタグ121と、認識対象と背景を分離したセグメンテーションビットマップ122と、背景イメージ123に分解してストレージ130に格納される。
認識対象の画像は、特徴量としてクラスタグ121に格納されるため、クラスタグ121とセグメンテーションビットマップ122と背景イメージ123からなる1フレームの保存データは、入力画像データ111に比して、圧縮されることになる。
また、カメラ101が固定されて定点観測を行う場合では、背景イメージ123はほとんど変化しない。このような撮影環境では、背景イメージ123を複数のフレームで代用することで、保存データの圧縮レートをさらに向上させることが可能となる。
図3は、抽出部126で行われる処理の一例を示す図である。抽出部126は、セグメンテーションビットマップ122の値が0となっている画素については入力画像データ111の画素の値を出力し、値が1となっている画素については0を出力し、背景イメージ123の画素の値として出力する。
次に、認識部124の構成について示す。認識部124はニューラルネットワークの計算モデルに基づいて構成される。すなわち、認識部124は、ニューロンと呼ばれる処理単位の構造に基づき、複数のニューロンの入力と出力を連ねることにより構成される。
図4は、ニューロンで行われる処理の一例を示す図である。401は複数の入力値、402は入力値に対する重み係数であり、入力値401に重み計数402を乗じた結果が加算部403において加算される。404は入力値から出力値への伝播特性を表現する活性化関数であり、活性化関数404の演算結果が405に出力される。
ニューラルネットワークを用いた処理において、入力から所望の出力を得るために必要になるのは、その処理に適した前述の重み係数であるが、これは、事前に所望の入力データと出力データの対を用いて、所望の出力データとの差分から重み係数を調整する逆誤差伝播を用いた学習により得ることができる。
認識部124は、事前に入力画像データ111に対して、望ましい処理結果であるクラスタグ121の対応を学習した重み係数を有するニューラルネットワークによって構成する。学習方法については後述する。このニューラルネットワークは、例えばコンボリューショナルニューラルネットワークを用いて構成しても良い。
セグメンテーション部125の構成について示す。セグメンテーション部125はニューラルネットワークの計算モデルに基づいて構成される。セグメンテーション部125は、事前に入力画像データ111に対して、望ましい処理結果であるセグメンテーションビットマップを学習した重み係数を含むニューラルネットワークによって構成される。ニューラルネットワークの学習方法については後述する。
図5は、デコーダモジュール140で行われる処理の一例を示す図である。再構成部142はクラスタグ121を処理し、再構成イメージ501を出力する。また、合成部143は再構成イメージ501と、セグメンテーションビットマップ122と、背景イメージ123を処理し、再生された画像データ141を出力する。
なお、画像データ141の再生は、情報処理装置100が再生する画像データ141を指定されたときに実施すれば良い。
本実施例1のデコーダモジュール140では、特徴量を含むメタデータで構成されたクラスタグ121と、認識対象と背景を分離したセグメンテーションビットマップ122と、背景イメージ123に分解された1つのフレームの画像データを再生する。
再構成部142は、クラスタグ121を入力として、クラスタグ121の特徴量などから再構成イメージ501を生成する。そして、合成部143は、再構成イメージ501と、セグメンテーションビットマップ122と、背景イメージ123を合成して、画像データ141を再生する。
以上のように、本実施例1では、ひとつのフレーム毎に、特徴量を含むクラスタグ121と、認識対象と背景を分離するセグメンテーションビットマップ122と、背景イメージ123に分けて変換し、認識対象の画像を特徴量に変換することで、保存データ全体として圧縮することができる。
そして、画像データの再生時には、クラスタグ121から生成した再構成イメージ501を、セグメンテーションビットマップ122に従って配置し、背景イメージ123を加えることで、元の画像データ141を再生することができる。本実施例1の圧縮(変換)、再生では、前後のフレームが欠落していても、当該フレームの画像を再生することが可能となる。すなわち、本実施例1の保存データは、前後のフレームの有無に関わらず圧縮し、再生することが可能となる。また、本実施例1では、クラスタグ121を検索することで、1フレーム単位で画像データの検索と再生を実現することが可能となる。
図6は、合成部143で行われる処理の一例を示す図である。合成部143は、セグメンテーションビットマップ122の値が0となっている画素については背景イメージ123の画素の値を出力し、値が1となっている画素については再構成イメージ501の画素の値を出力し、再生する画像データ141の画素の値として出力する。
次に、再構成部142の構成について示す。再構成部142はニューラルネットワークの計算モデルに基づいて構成される。再構成部142は、事前にクラスタグ121に対して、望ましい処理結果である画像データ141を学習した重み係数を含むニューラルネットワークによって構成する。
図7は、ニューラルネットワークによって構成される認識部124、セグメンテーション部125、再構成部142について、事前に重み係数を学習によって得るための教師データの与え方の一例を示す図である。
認識部124は、入力画像群701と、それぞれの画像に対して望ましい処理結果となるクラスタグ群702を教師データとし、入力画像群701の画像を認識部124の入力側711に与え、得られる出力とクラスタグ群702のクラスタグとの誤差を出力側712で損失関数として計算し、逆誤差伝播法により重み係数を更新する。認識部124において、この処理を複数回行うことにより、最終的な重み係数を得る。クラスタグ群702としては、例えば、入力画像群701のそれぞれに対応する正解特徴量を与えれば良い。
再構成部142は、同じく入力画像群701とクラスタグ群702を教師データとするが、クラスタグ群702のクラスタグを再構成部142の入力側721に与え、得られる出力と入力画像群701の画像との誤差を出力側722で損失関数として計算し、逆誤差伝播法により重み係数を更新する。再構成部142では、この処理を複数回行うことにより、最終的な重み係数を得る。
セグメンテーション部125も、同じく入力画像群701とクラスタグ群702を教師データとする。入力画像群701の画像をセグメンテーション部125の入力側731に与える。セグメンテーション部125では、得られる出力とリファレンスとなる画像との誤差を出力側733で損失関数として計算するが、リファレンスとなる画像は、再構成部142に対してクラスタグ群702のクラスタグを入力側732に与え、得られる出力を二値化した画像(733)を用いる。セグメンテーション部125では、逆誤差伝播法により重み係数を更新し、この処理を複数回行うことにより、最終的な重み係数を得る。
以上のように、本実施例1では、ひとつの入力画像データ111(フレーム)毎に、特徴量を含むクラスタグ121と、認識対象と背景を分離するセグメンテーションビットマップ122と、背景イメージ123に分けて変換し、保存データ全体として圧縮することができる。
認識部124や再構成部142やセグメンテーション部125のニューラルネットワークは、上述のように入力画像群701と正解特徴量のクラスタグ群702の対を教師データとして与え、逆誤差伝播法によって重み係数を学習することができる。なお、セグメンテーション部125については、入力画像群701を入力として、出力側にはクラスタグを入力とした再構成部142の出力(733)を正解として与えることで、重み係数を算出することができる。
画像データの再生時には、クラスタグ121から生成した再構成イメージ501を、セグメンテーションビットマップ122に従って、背景イメージ123と合成することで、元の画像データ141を1フレーム単位で再生することができる。
本実施例1のように、入力画像データ111のうち認識対象を画像から特徴量(またはメタデータ)に変換するニューラルネットワークを含む認識部124と、画像から認識対象とそれ以外(例えば、背景)に分離するニューラルネットワークを含むセグメンテーション部125と、特徴量から再構成イメージ501を生成するニューラルネットワークを含む再構成部142と、を有することで、1つの入力画像データ111を、クラスタグ121と、セグメンテーションビットマップ122と、背景イメージ123に分割して蓄積することができる。
認識対象の画像データを特徴量に変換してクラスタグ121へ格納することで、認識対象の画像データを圧縮するのに加え、カメラ101が定点観測を行う場合には背景イメージ123をほぼ変化しない画像データとして扱うことにより、さらに画像データの圧縮レートを向上させることができる。
また、画像の再生時には、クラスタグ121と、セグメンテーションビットマップ122と、背景イメージ123で構成される保存データから元の画像データ141を1フレーム単位で復元できる。これにより、視点や観点を変更して画像データを再度分析することが可能となり、撮影した画像データを有効に利用することが可能となる。
なお、入力画像データ111の認識対象は、認識部124のニューラルネットワークに学習させる教師データに応じて変更することができ、上述のように人体に限定されるものではなく、物体などにも適用することが可能である。
また、情報処理装置100に蓄積される保存データを特徴量(クラスタグ121)と領域情報(セグメンテーションビットマップ122)と背景イメージ123とすることで、保存データ全体での圧縮レートを向上させて長期間にわたるデータの蓄積及び再分析が可能となる。
図8は、本発明の実施例2の情報処理装置100の機能要素の一例を示す図である。情報処理装置100は、インターフェースモジュール110を介して接続されたカメラ101から入力画像データ111を取得する。
820は入力画像データ111を処理するエンコーダモジュールである。エンコーダモジュール820には、入力画像データ111の認識対象とそれ以外の背景を区別するセグメンテーション部(図中Segmentation NN)826と、入力画像データ111を認識対象部分と背景部分で分離して、それぞれのイメージを出力する分離部(図中Separation)827と、認識対象部分の認識を行う認識部(図中Recognition NN)825と、認識対象部分の特徴量の抽出を行う特徴抽出部(図中Feature Extraction NN)828と、画像の再構成を行う再構成部(図中Reconstruction NN)842と、画像の差分を出力する差分部(図中Differential)829が含まれる。
なお、セグメンテーション部826と、認識部825と、特徴抽出部828と、再構成部842は、それぞれニューラルネットワーク(図中NN)を含む。
エンコーダモジュール820は、認識部825の出力であるクラスタグ821と、特徴抽出部828の出力である特徴ベクトル(図中Feature Vector)822と、差分部(差分抽出部)829の出力である差分イメージ(図中Differential Image)823と、分離部(領域分離部)827が背景部分として分離して出力した背景イメージ824を出力し、これら出力をストレージ130に書き込む。以上のデータが入力画像データ111の記録時に演算されてストレージ130に格納される。
次に、再生時のデータ処理について述べる。デコーダモジュール840が、ストレージ130に記録されているクラスタグ821、特徴ベクトル822、差分イメージ(認識差分イメージ)823、背景イメージ824からなる保存データをフレーム単位で読み込み、保存データから再生画像となる再生画像データ841を出力する。
デコーダモジュール840は、クラスタグ821、特徴ベクトル822から認識対象の画像を再構成する再構成部(図中Reconstruction NN)842と、再構成部842の出力、および差分イメージ823、背景イメージ824を混成する混成部(図中Blend)843を含む。
デコーダモジュール840の再構成部842は、エンコーダモジュール820の再構成部842と同一のもので構成することができる。
なお、情報処理装置100は、前記実施例1の図1Bと同様であり、例えば中央演算装置CPUやメモリを具備する計算機によって構成されることを想定し、その場合はエンコーダモジュール820、デコーダモジュール140はソフトウェアプログラムであることを想定するが、技術的に周知または公知の範囲で想定されうる構成形態であればよい。
図9は、エンコーダモジュール820で行われる処理の一例を示す図である。セグメンテーション部826は、入力画像データ111を処理して認識対象部分を識別し、入力画像データ111の画素に対応して、認識対象の画素には1が、背景には0が格納されるセグメンテーションビットマップ901を出力する。
分離部827は、入力画像データ111とセグメンテーションビットマップ901から、認識対象イメージ(図中Foreground Image)902と背景イメージ824を出力する。認識部825は認識対象イメージ902を処理し、クラスタグ821を出力する。クラスタグ821は、前記実施例1と同様であり、認識対象イメージ902の特徴量を含むメタデータで構成することができる。
また、特徴抽出部828は認識対象イメージ902を処理し、特徴ベクトル822を出力する。特徴ベクトル822は、例えば、歪み大きさ、太さなど、予め学習した要素で構成される。
再構成部842は、クラスタグ821と特徴ベクトル822から、認識対象部分を再構成した再構成イメージ903を生成して出力する。差分部829は、再構成イメージ903と認識対象イメージ902から、差分イメージ823を出力する。
すなわち、差分イメージ823は、クラスタグ821と特徴ベクトル822を入力として再構成部842が推定した再構成イメージ903と、分離部827が出力した実際の認識対象イメージ902との差分データで構成される。換言すれば、差分イメージ823は、再構成部842が推定する再構成イメージ903の補正情報として機能する。
情報処理装置100は、1フレーム単位でクラスタグ821と、特徴ベクトル822と、差分イメージ823と、背景イメージ824を対にしてストレージ130に蓄積する。
図10は、分離部827で行われる処理の一例を示す図である。分離部827は、セグメンテーションビットマップ901の値が0となっている画素については、背景イメージ824の対応する画素については入力画像データ111の画素の値を出力し、認識対象イメージ902の対応する画素については0を出力し、背景イメージ824として出力する。
一方、分離部827は、セグメンテーションビットマップ901の値が1となっている画素については、認識対象イメージ902の対応する画素について入力画像データ111の値を出力し、背景イメージ824の対応する画素については0を出力し、認識対象イメージ902として出力する。
図11は、差分部829で行われる処理の一例を示す図である。差分部829は、認識対象イメージ902の画素の値と、再構成イメージ903の対応する画素の値を減算し、差分イメージ823として出力する。すなわち、差分イメージ823は、再構成部842が推定した再構成イメージ903と、実際の認識対象イメージ902との誤差で構成される。
認識部825の構成について示す。認識部825はニューラルネットワークの計算モデルに基づいて構成し、事前に、入力画像データ111対して、望ましい処理結果出力であるクラスタグを学習した重み係数をもつニューラルネットワークによって構成する。学習方法については後述する。
セグメンテーション部826の構成について示す。セグメンテーション部826はニューラルネットワークの計算モデルに基づいて構成し、事前に、入力画像データ111に対して、望ましい処理結果出力であるセグメンテーションビットマップを学習した重み係数をもつニューラルネットワークによって構成する。学習方法については後述する。
特徴抽出部828の構成について示す。特徴抽出部828はニューラルネットワークの計算モデルに基づいて構成し、事前に、入力画像データ111に対して、望ましい処理結果出力である特徴ベクトルを学習した重み係数を含むニューラルネットワークによって構成する。学習方法については後述する。
再構成部842の構成について示す。再構成部842はニューラルネットワークの計算モデルに基づいて構成し、事前に、入力のクラスタグと特徴ベクトルに対して、望ましい処理結果出力である再構成イメージを学習した重み係数を含むニューラルネットワークによって構成する。学習方法については後述する。
図12は、デコーダモジュール840で行われる処理の一例を示す図である。再構成部842はクラスタグ821と特徴ベクトル822から、再構成イメージ1201を推定して出力する。
また、混成部843は再構成イメージ903と、差分イメージ823と、背景イメージ824を処理して、再生画像データ841を出力する。すなわち、混成部843は、再構成イメージ903を差分イメージ823によって補正した画像データを、認識対象イメージの再生画像として算出し、この認識対象イメージに背景イメージ824を加えることで、元の画像データ141を再生する。
図13は、混成部843で行われる処理の一例を示す図である。混成部843は、再構成イメージ903の画素の値と、差分イメージ823の対応する画素の値と、背景イメージ824の対応する画素の値を加算し、再生画像データ841として出力する。
図14に、ニューラルネットワークによって構成される認識部825と、セグメンテーション部826と、特徴抽出部828と、再構成部842について、事前に重み係数を学習によって得るための教師データの与え方の一例を示す図である。
認識部825は、入力画像群701と、それぞれの画像に対して望ましい処理結果となるクラスタグ群702を教師データとし、入力画像群701の画像を認識部825の入力側1411に与え、得られる出力とクラスタグ群702のクラスタグとの誤差を出力側1412で損失関数として計算し、逆誤差伝播法により重み係数を更新する。これを複数回行うことにより、最終的な重み係数を得る。前記実施例1と同様にして、クラスタグ群702としては、例えば、入力画像群701のそれぞれに対応する正解特徴量を与えれば良い。
特徴抽出部828と、再構成部842は、特徴抽出部828の出力、すなわち特徴ベクトルの部分を、再構成部842の入力のうちクラスタグ群702の入力部分を除いた部分、すなわちこれも特徴ベクトルの部分だが、それぞれ連結したニューラルネットワークの構成で学習を行う。
入力画像群701と、クラスタグ群702を教師データとし、入力画像群701の画像を特徴抽出部828の入力側1421に、クラスタグ群702のクラスタグを再構成部842の入力のうちクラスタグ入力部分である入力側1422に与え、得られる出力と入力画像群701の画像との誤差を再構成部842の出力側1423で損失関数として計算し、逆誤差伝播法により重み係数を更新する。これを複数回行うことにより、最終的な重み係数を得る。
セグメンテーション部826も、同じく入力画像群701とクラスタグ群702を教師データとする。入力画像群701の画像をセグメンテーション部826の入力側1431に与える。セグメンテーション部826で得られる出力とリファレンスとなる画像との誤差を出力側1434で損失関数として計算するが、リファレンスとなる画像は、特徴抽出部828と再構成部842を連結した構成で、特徴抽出部828の入力側1432に対して入力画像群701の画像を与え、再構成部842の入力のうちクラスタグ入力部分である入力側1433に対してクラスタグ群702のクラスタグを与え、得られる出力を二値化した画像(1434)を用いる。逆誤差伝播法により重み係数を更新、これを複数回行うことにより、最終的な重み係数を得る。
以上のように、本実施例2では、ひとつの入力画像データ111(フレーム)毎に、特徴量を含むクラスタグ821と、認識対象イメージ902の特徴ベクトル822と、再構成イメージ903と認識対象イメージ902の誤差を含む差分イメージ823と、背景イメージ824に分けて保存データへ変換することができる。
認識部825や再構成部842やセグメンテーション部826や特徴抽出部828のニューラルネットワークは、上述のように入力画像群701と正解特徴量のクラスタグ群702の対を教師データとして与え、逆誤差伝播法によって重み係数を学習することができる。なお、セグメンテーション部826については、入力画像群701を入力として、出力側にはクラスタグ群702と特徴ベクトル822(特徴抽出部828の出力)を入力とした再構成部842の出力を正解として与えることで、重み係数を算出することができる。
画像データの再生時には、クラスタグ821と特徴ベクトル822から生成した再構成イメージ903を差分イメージ823で補正して、背景イメージ824と合成することで、元の画像データ141を1フレーム単位で再生することができる。
本実施例2のように、クラスタグ821と特徴ベクトル822から生成した再構成イメージ903と、分離部827が出力した認識対象イメージ902の誤差を差分イメージ823として保存データとして蓄積することで、デコーダモジュール840で画像を再構成する際には、差分イメージ823で再構成イメージ903を補正することにより再生された画像データ141の精度を向上させることが可能となる。
図15は、本発明の実施例3のエンコーダモジュール120の機能要素の一例を示す図である。本実施例3では、前記実施例1のエンコーダモジュール120に差分生成部127を加えたもので、その他の構成は前記実施例1と同様である。
差分生成部127は、抽出部126が出力した前回の背景イメージ123と、抽出部126が出力した今回の背景イメージの差分を差分背景イメージ123Bとして生成し、ストレージ130に蓄積する。背景イメージ123は、所定の間隔(例えば、30フレームなど)で生成することができる。
画像データ141を再生する際には、前記実施例1に示したデコーダモジュール140の合成部143が、差分背景イメージ123Bと背景イメージ123から現在のフレームの背景イメージを生成する。
以上のように本実施例3では、背景イメージを時系列方向の差分背景イメージ123Bで蓄積することにより、入力画像データ111に対する保存データ全体の圧縮レートをさらに向上させることが可能となる。
なお、前記実施例1〜3の情報処理装置100は、入力画像データ111として動画を採用しても良いし、静止画を採用しても良い。
<まとめ>
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に記載したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加、削除、又は置換のいずれもが、単独で、又は組み合わせても適用可能である。
また、上記の各構成、機能、処理部、及び処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、及び機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
100 情報処理装置
101 カメラ
110 インターフェースモジュール
111 入力画像データ
120 エンコーダモジュール
121、821 クラスタグ
122 セグメンテーションビットマップ
123 背景イメージ
124、825 認識部
125、826 セグメンテーション部
126 抽出部
130 ストレージ
140 デコーダモジュール
141 再生画像データ
142、842 再構成部
143 合成部
401 ニューロン入力値
402 重み係数
403 加算部
404 活性化関数
405 ニューロン出力値
501 再構成イメージ
701 入力画像群
702 クラスタグ群
820 エンコーダモジュール
821 クラスタグ
822 特徴ベクトル
823 差分イメージ
824 背景イメージ
827 分離部
828 特徴抽出部
829 差分部
840 デコーダモジュール
843 混成部
901 セグメンテーションビットマップ
902 認識対象イメージ
903 再構成イメージ

Claims (16)

  1. プロセッサとメモリを含んで、入力された画像データを保存データに変換して記憶部に保存し、前記保存データから前記画像データを再生する情報処理装置であって、
    前記画像データを保存データに変換するエンコーダ部と、
    前記保存データを画像データとして再生するデコーダ部と、を有し、
    前記エンコーダ部は、
    前記入力された画像データからクラスタグ情報を生成する認識部と、
    前記入力された画像データから認識対象領域と背景領域を区別する領域情報を生成するセグメンテーション部と、
    前記領域情報に基づいて前記入力された画像データから前記背景領域にかかる背景イメージを生成する領域分離部と、
    を含む
    ことを特徴とする情報処理装置。
  2. 請求項1において、
    前記クラスタグ情報と、前記領域情報と、前記背景イメージを含む前記保存データを記憶装置に記憶し、
    前記デコーダ部は、
    前記保存データから読み込んだ前記クラスタグ情報から認識対象領域の再構成画像を生成する再構成部と、
    前記保存データから読み込んだ前記領域情報と前記背景イメージに、前記再構成画像を合成して画像データを再生する合成部と、
    を含むことを特徴とする情報処理装置。
  3. 請求項1において、
    前記エンコーダ部が生成した前記クラスタグ情報と、前記領域情報と、前記背景イメージからなる前記保存データを格納する前記記憶部を、さらに有することを特徴とする情報処理装置。
  4. 請求項1において、
    前記認識部と、前記セグメンテーション部と、前記再構成部は、ニューラルネットワークを含んで構成されることを特徴とする情報処理装置。
  5. 請求項4において、
    前記認識部と、前記セグメンテーション部と、前記再構成部のニューラルネットワークは、当該ニューラルネットワークの重みを教師データを用いた逆誤差伝播による学習で設定し、
    前記教師データは、予め設定された学習用画像データと学習用クラスタグ情報の対で構成されることを特徴とする情報処理装置。
  6. 請求項4において、
    前記認識部は、
    前記入力された画像データから、当該画像データの特徴量を含むクラスタグを生成することを特徴とする情報処理装置。
  7. 請求項1において、
    前記領域分離部が、出力した背景イメージと、前記領域分離部が前回出力した背景イメージから差分背景イメージを生成する差分生成部を、さらに有することを特徴とする情報処理装置。
  8. 請求項1において、
    前記エンコーダ部は、
    前記入力された画像データから特徴ベクトルを生成する特徴抽出部と、
    前記クラスタグ情報と前記特徴ベクトルから再構成画像を生成する再構成部と、
    前記入力された画像データと前記領域情報から認識対象イメージと背景イメージを生成する前記領域分離部と、
    前記認識対象イメージと前記再構成画像から認識差分イメージを生成する差分抽出部と、
    を含んで、前記クラスタグ情報と、前記特徴ベクトルと、前記認識差分イメージと、前記背景イメージを含む前記保存データを出力し、
    前記デコーダ部は、
    前記保存データを読み込んで、前記クラスタグ情報と前記特徴ベクトルから再構成画像を生成する再構成部と、
    前記保存データから読み込んだ前記認識差分イメージと前記背景イメージと、前記再構成画像を合成して画像データを再生する合成部と、
    を含むことを特徴とする情報処理装置。
  9. 請求項8において、
    前記エンコーダ部が生成した前記クラスタグ情報と、前記特徴ベクトルと、前記認識差分イメージと、前記背景イメージからなる前記保存データを格納する記憶部を、さらに有することを特徴とする情報処理装置。
  10. 請求項8において、
    前記認識部と、前記特徴抽出部と、前記セグメンテーション部と、前記再構成部は、ニューラルネットワークを含んで構成されることを特徴とする情報処理装置。
  11. 請求項10において、
    前記認識部と、前記特徴抽出部と、前記セグメンテーション部と、前記再構成部のニューラルネットワークは、当該ニューラルネットワークの重みを教師データを用いた逆誤差伝播による学習で設定し、
    前記教師データは、予め設定された学習用画像データと学習用クラスタグ情報の対で構成されることを特徴とする情報処理装置。
  12. 請求項10において、
    前記認識部は、
    前記入力された画像データから、当該画像データの特徴量を含むクラスタグを生成することを特徴とする情報処理装置。
  13. 請求項8において、
    前記エンコーダ部の前記再構成部と、前記デコーダ部の前記再構成部が同一であることを特徴とする情報処理装置。
  14. プロセッサとメモリを含む計算機が、入力された画像データを保存データに変換して記憶部に保存し、前記保存データから前記画像データを再生する画像データの処理方法であって、
    前記計算機が、入力された画像データからクラスタグ情報を生成する認識ステップと、
    前記計算機が、前記入力された画像データから認識対象領域と背景領域を区別する領域情報を生成するセグメンテーションステップと、
    前記計算機が、前記領域情報に基づいて前記入力された画像データから前記認識対象領域を除外した背景イメージを生成する領域分離ステップと、
    を含むことを特徴とする画像データの処理方法。
  15. 請求項14において、
    前記計算機が、前記クラスタグ情報と、前記領域情報と、前記背景イメージを記憶装置に記憶する記憶ステップと、
    前記計算機が、前記保存データから読み込んだ前記クラスタグ情報から認識対象領域の再構成画像を生成する再構成ステップと、
    前記計算機が、前記保存データから読み込んだ前記領域情報と前記背景イメージに、前記再構成画像を合成して画像データを再生する合成ステップと、
    を含むことを特徴とする画像データの処理方法。
  16. 請求項14において、
    前記計算機は、
    前記入力された画像データから特徴ベクトルを生成する特徴抽出ステップと、
    前記クラスタグ情報と前記特徴ベクトルから再構成画像を生成する再構成ステップと、
    前記入力された画像データと前記領域情報から認識対象イメージと背景イメージを生成する前記領域分離ステップと、
    前記認識対象イメージと前記再構成画像から認識差分イメージを生成する差分抽出ステップと、
    を行い、前記クラスタグ情報と、前記特徴ベクトルと、前記認識差分イメージと、前記背景イメージを含む前記保存データを出力し、
    前記計算機は、
    前記保存データを読み込んで、前記クラスタグ情報と前記特徴ベクトルから再構成画像を生成する再構成ステップと、
    前記保存データから読み込んだ前記認識差分イメージと前記背景イメージと、前記再構成画像を合成して画像データを再生する合成ステップと、
    を行うこと含むことを特徴とする画像データの処理方法。
JP2017125304A 2017-06-27 2017-06-27 情報処理装置及び画像データの処理方法 Pending JP2019009686A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017125304A JP2019009686A (ja) 2017-06-27 2017-06-27 情報処理装置及び画像データの処理方法
US15/992,246 US10679103B2 (en) 2017-06-27 2018-05-30 Information processing apparatus and processing method for image data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017125304A JP2019009686A (ja) 2017-06-27 2017-06-27 情報処理装置及び画像データの処理方法

Publications (1)

Publication Number Publication Date
JP2019009686A true JP2019009686A (ja) 2019-01-17

Family

ID=64693327

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017125304A Pending JP2019009686A (ja) 2017-06-27 2017-06-27 情報処理装置及び画像データの処理方法

Country Status (2)

Country Link
US (1) US10679103B2 (ja)
JP (1) JP2019009686A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11275866B2 (en) * 2019-07-17 2022-03-15 Pusan National University Industry-University Cooperation Foundation Image processing method and image processing system for deep learning

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10706503B2 (en) * 2018-03-13 2020-07-07 Disney Enterprises, Inc. Image processing using a convolutional neural network
US11159798B2 (en) * 2018-08-21 2021-10-26 International Business Machines Corporation Video compression using cognitive semantics object analysis
US11210547B2 (en) * 2019-03-20 2021-12-28 NavInfo Europe B.V. Real-time scene understanding system
KR102159052B1 (ko) * 2020-05-12 2020-09-23 주식회사 폴라리스쓰리디 영상 분류 방법 및 장치
CN111914777B (zh) * 2020-08-07 2021-07-06 广东工业大学 一种跨模态识别机器人指令的方法及系统
CN112969022B (zh) * 2021-01-29 2023-09-01 新东方教育科技集团有限公司 摄像头调整方法、系统、存储介质及电子设备
US11756288B2 (en) * 2022-01-05 2023-09-12 Baidu Usa Llc Image processing method and apparatus, electronic device and storage medium
CN114630125B (zh) * 2022-03-23 2023-10-27 徐州百事利电动车业有限公司 基于人工智能与大数据的车辆图像压缩方法与系统
WO2023203509A1 (en) * 2022-04-19 2023-10-26 Instituto De Telecomunicações Image data compression method and device using segmentation and classification

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09331536A (ja) * 1995-10-27 1997-12-22 Texas Instr Inc <Ti> 誤り訂正デコーダ及び誤り訂正デコーディング方法
JPH104549A (ja) * 1995-09-29 1998-01-06 Toshiba Corp 画像符号化装置および画像復号化装置
JP2009268088A (ja) * 2008-04-04 2009-11-12 Fujifilm Corp 画像処理システム、画像処理方法、およびプログラム
WO2016013147A1 (ja) * 2014-07-22 2016-01-28 パナソニックIpマネジメント株式会社 符号化方法、復号方法、符号化装置および復号装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7120297B2 (en) * 2002-04-25 2006-10-10 Microsoft Corporation Segmented layered image system
US9633275B2 (en) * 2008-09-11 2017-04-25 Wesley Kenneth Cobb Pixel-level based micro-feature extraction
JP2014216831A (ja) 2013-04-25 2014-11-17 株式会社東芝 符号化装置および遠隔監視システム
JP6618767B2 (ja) * 2015-10-27 2019-12-11 株式会社デンソーテン 画像処理装置および画像処理方法
US20180308281A1 (en) * 2016-04-01 2018-10-25 draw, Inc. 3-d graphic generation, artificial intelligence verification and learning system, program, and method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH104549A (ja) * 1995-09-29 1998-01-06 Toshiba Corp 画像符号化装置および画像復号化装置
JPH09331536A (ja) * 1995-10-27 1997-12-22 Texas Instr Inc <Ti> 誤り訂正デコーダ及び誤り訂正デコーディング方法
JP2009268088A (ja) * 2008-04-04 2009-11-12 Fujifilm Corp 画像処理システム、画像処理方法、およびプログラム
WO2016013147A1 (ja) * 2014-07-22 2016-01-28 パナソニックIpマネジメント株式会社 符号化方法、復号方法、符号化装置および復号装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11275866B2 (en) * 2019-07-17 2022-03-15 Pusan National University Industry-University Cooperation Foundation Image processing method and image processing system for deep learning

Also Published As

Publication number Publication date
US20180373964A1 (en) 2018-12-27
US10679103B2 (en) 2020-06-09

Similar Documents

Publication Publication Date Title
US10679103B2 (en) Information processing apparatus and processing method for image data
JP7206386B2 (ja) 画像処理モデルの訓練方法、画像処理方法、ネットワーク機器、及び記憶媒体
WO2021048607A1 (en) Motion deblurring using neural network architectures
US11600008B2 (en) Human-tracking methods, systems, and storage media
CN112767554B (zh) 一种点云补全方法、装置、设备及存储介质
KR102042168B1 (ko) 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치
CN111079764B (zh) 一种基于深度学习的低照度车牌图像识别方法及装置
JP2021106044A (ja) 画像処理装置、画像処理方法およびプログラム
KR20190091806A (ko) 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템 및 그 방법
CN110858277A (zh) 一种获得姿态分类模型的方法以及装置
US9595113B2 (en) Image transmission system, image processing apparatus, image storage apparatus, and control methods thereof
CN116630832B (zh) 一种无人机目标识别方法、系统、计算机及可读存储介质
JP2014110020A (ja) 画像処理装置、画像処理方法および画像処理プログラム
CN112613373A (zh) 图像识别方法、装置、电子设备及计算机可读存储介质
CN110555865B (zh) 一种基于帧图像的动态视觉传感器样本集建模方法
KR102086042B1 (ko) 영상 처리 장치 및 방법
US20220217321A1 (en) Method of training a neural network configured for converting 2d images into 3d models
CN111160340A (zh) 一种运动目标检测方法、装置、存储介质及终端设备
US9002135B2 (en) Form image management system and form image management method
CN111754412A (zh) 构建数据对的方法、装置及终端设备
KR101106448B1 (ko) 지능 영상 감시를 위한 이동 객체 실시간 검출 방법
KR102296644B1 (ko) 단일 이미지 상에서 기 설정된 속성을 제거하여 무잡음 영상을 생성하기 위한 장치 및 이를 위한 방법
CN115049963A (zh) 视频分类方法、装置、处理器及电子设备
CN110298229B (zh) 视频图像处理方法及装置
CN112990076A (zh) 一种基于人工智能的数据整理方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210406

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210521

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210817