JP2018205800A

JP2018205800A - 画像解析装置、ニューラルネットワーク装置、学習装置、画像解析方法およびプログラム

Info

Publication number: JP2018205800A
Application number: JP2017106492A
Authority: JP
Inventors: ヴェトクォクファン; Viet Quoc Pham
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2017-05-30
Filing date: 2017-05-30
Publication date: 2018-12-27
Anticipated expiration: 2037-05-30
Also published as: US20180349748A1; US10789515B2; EP3410344A1; JP6833620B2; EP3410344B1

Abstract

【課題】対象物の形状を精度良く検出する。【解決手段】実施形態に係る画像解析装置は、特徴量算出部と、コンテキスト算出部と、形状算出部と、補正部と、出力部とを、備える。特徴量算出部は、対象画像の特徴量マップを算出する。コンテキスト算出部は、特徴量マップに基づき、対象画像における画素毎のコンテキストを表すコンテキストスコアを算出する。形状算出部は、特徴量マップに基づき、対象画像に含まれる少なくとも１つの領域における、対象物の形状を表す形状スコアを算出する。補正部は、少なくとも１つの領域における形状スコアを、対応する領域におけるコンテキストスコアにより補正する。出力部は、少なくとも１つの領域における、補正した形状スコアを出力する。【選択図】図１

Description

本発明の実施形態は、画像解析装置、ニューラルネットワーク装置、学習装置、画像解析方法およびプログラムに関する。

自動車の自動運転の分野においては、カメラにより撮像された画像を解析して車両等を制御する。このような技術分野では、カメラにより撮像した画像に対してコンテキスト解析および形状解析の２つを実行する。コンテキスト解析では、カメラにより撮像した画像における画素毎のセマンティック情報を予測する。セマンティック情報とは、対象物がどのようなカテゴリの物体（例えば、自動車または人）であるかを表す情報である。

また、このような画像解析をニューラルネットワーク装置で実現することも知られている。しかしながら、従来、コンテキスト解析および形状解析のそれぞれを別個のネットワークで実現しなければならなかった。また、コンテキスト解析用のネットワークと、形状解析用のネットワークとを単純に接続しても、性能は向上しない。

特開２０１３−２０６４５８号公報

Jonathan Long et al.， "Fully Convolutional Networks for Semantic Segmentation"， 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, 2015, pp.3431-3440. Y. Li， H. Qi， J. Dai， X. Ji， and Y. Wei.， "Fully convolutional instance-aware semantic segmentation."， arXiv:1611.07709,2016.

本発明が解決しようとする課題は、対象物の形状を精度良く検出することである。

実施形態に係る画像解析装置は、特徴量算出部と、コンテキスト算出部と、形状算出部と、補正部と、出力部とを、備える。前記特徴量算出部は、対象画像の特徴量マップを算出する。前記コンテキスト算出部は、前記特徴量マップに基づき、前記対象画像における画素毎のコンテキストを表すコンテキストスコアを算出する。前記形状算出部は、前記特徴量マップに基づき、前記対象画像に含まれる少なくとも１つの領域における、対象物の形状を表す形状スコアを算出する。前記補正部は、前記少なくとも１つの領域における前記形状スコアを、対応する領域における前記コンテキストスコアにより補正する。前記出力部は、前記少なくとも１つの領域における、補正した前記形状スコアを出力する。

実施形態に係る画像解析装置の構成図。対象画像におけるコンテキストスコアを示す図。対象画像に含まれる候補領域の一例を示す図。形状スコアの一例を示す図。抽出部の構成の一例を示す図。画像解析装置の処理を示すフローチャート。ニューラルネットワーク装置および学習装置の構成を示す図。実施形態に係る情報処理装置のハードウェアブロック図。

以下、図面を参照しながら本実施形態について説明する。実施形態に係る画像解析装置１０は、対象画像を解析して、コンテキストスコアおよび形状スコアを出力する。

図１は、実施形態に係る画像解析装置１０の構成を示す図である。画像解析装置１０は、画像取得部１２と、特徴量算出部１４と、コンテキスト算出部１６と、候補領域取得部１８と、形状算出部２０と、抽出部２２と、補正部２４と、出力部２６とを備える。

画像取得部１２は、例えばカメラから対象画像を取得する。画像取得部１２は、画像を蓄積する記憶装置から対象画像を取得してもよいし、ネットワーク等を介して受信した対象画像を取得してもよい。画像取得部１２は、取得した対象画像を特徴量算出部１４に与える。

特徴量算出部１４は、画像取得部１２から対象画像を受け取る。特徴量算出部１４は、対象画像に基づき、対象画像の特徴量を含む特徴量マップを算出する。特徴量算出部１４は、後段のコンテキスト算出部１６、候補領域取得部１８および形状算出部２０において用いられる特徴量を含む特徴量マップを算出する。特徴量算出部１４は、例えば、ＣＮＮ（Convolutional Neural Network）を用いて特徴量マップを算出してもよい。また、特徴量算出部１４は、複数種類の特徴量を含む特徴量マップを算出してもよい。特徴量算出部１４は、生成した特徴量マップをコンテキスト算出部１６、候補領域取得部１８および形状算出部２０に与える。

コンテキスト算出部１６は、特徴量算出部１４から特徴量マップを受け取る。コンテキスト算出部１６は、特徴量マップに基づき、対象画像における画素毎のコンテキストを表すコンテキストスコアを算出する。

ここで、コンテキストは、対象物の意味合いを表すセマンティック情報である。コンテキストスコアは、コンテキストを識別する識別情報であってよい。コンテキストスコアは、例えば、対象物のカテゴリを表す情報であってよい。対象物のカテゴリとは、対象物が、車であるのか、人であるのか、道路であるのか、空であるのか等を識別する情報である。コンテキストスコアは、基準位置（例えば、カメラ位置）から対象物までの距離等の幾何学的情報であってもよい。

なお、コンテキスト算出部１６は、対象画像における画素毎にコンテキストスコアを算出する。ここで、画素とは、画像上における微小領域の位置を表し、必ずしもデータ上における画素位置と一致していなくてもよい。例えば、画素は、対象画像を表すデータ上における１画素単位であってもよいし、データ上の隣接する２画素をまとめた単位であってもよいし、データ上の隣接する４画素をまとめた単位であってもよい。

例えば、図２に示すように、車載カメラにより撮像された画像を解析する場合、コンテキスト算出部１６は、対象画像に含まれるそれぞれの画素について、車を示すのか、人を示すのか、道路を示すのか、または、その他の対象物を示すのかを表すコンテキストスコアを算出する。コンテキスト算出部１６は、非特許文献１に記載のセマンティックセグメンテーション手法によりコンテキストスコアを算出することができる。すなわち、コンテキスト算出部１６は、非特許文献１に記載の手法により、対象画像の画素毎に、予め定められたカテゴリ毎の事前確率を表すコンテキストスコアを算出することができる。

コンテキスト算出部１６は、算出したコンテキストスコアを抽出部２２および出力部２６に与える。

候補領域取得部１８は、対象画像に含まれる少なくとも１つの候補領域のそれぞれを特定する領域情報を取得する。候補領域は、対象画像内における、対象物が存在する可能性のある部分領域である。候補領域は、対象画像よりも十分に小さく、画素よりも十分に大きい領域である。候補領域は、例えば、ＲＯＩ（Region Of Interest）と呼ばれるような、ユーザの関心の高い領域および重要な被写体が含まれている可能性の高い領域等であってもよい。また、候補領域は、例えば、対象物の正確な位置に一致せずズレが生じる場合があってもよい。

候補領域取得部１８は、特徴量マップに基づき領域情報を生成してもよい。また、候補領域取得部１８は、例えば操作者により手動で入力された領域情報を外部装置から取得してもよい。

例えば、図３に示すように、車載カメラにより撮像された画像を解析する場合、候補領域取得部１８は、車を含むと予測される候補領域および人を含むと予測される候補領域を取得してもよい。候補領域取得部１８は、例えば、矩形状の候補領域を取得してもよい。候補領域取得部１８は、矩形に限らず、他の形状の候補領域を取得してもよい。候補領域取得部１８は、取得した領域情報を形状算出部２０および抽出部２２に与える。

形状算出部２０は、特徴量算出部１４から特徴量マップを受け取る。また、形状算出部２０は、候補領域取得部１８から領域情報を取得する。形状算出部２０は、特徴量マップおよび領域情報に基づき、対象画像に含まれる少なくとも１つの候補領域のそれぞれにおける、対象物の形状を表す形状スコアを算出する。なお、対象物は、人または車等の物体の全体であってもよいし、人の腕、頭部および目等の物体の特定のパーツであってもよい。

形状スコアは、例えば、画素毎に対象物が存在するか否かを示すマスク情報であってよい。例えば、形状スコアは、対象物を表す画素を１、対象物以外を表す画素を０とするような情報であってよい。

例えば図４に示すように、車載カメラにより撮像された画像を解析する場合、形状算出部２０は、候補領域における対象物（車または人）を表す画素を１、対象物以外を表す画素を０とする形状スコアを算出してもよい。形状算出部２０は、非特許文献２に記載のセマンティックセグメンテーションの手法により形状スコアを算出することができる。すなわち、形状算出部２０は、非特許文献２に記載のｐｏｓｉｔｉｏｎ−ｓｅｎｓｉｔｉｖｅスコアマップを利用した手法により、候補領域（例えばＲＯＩ）毎に、画素毎の尤度を表す尤度スコアマップを形状スコアとして算出することができる。

形状算出部２０は、対象画像に含まれる少なくとも１つの候補領域のそれぞれにおける形状スコアを抽出部２２に与える。

抽出部２２は、コンテキスト算出部１６から対象画像におけるコンテキストスコアを取得する。また、抽出部２２は、候補領域取得部１８から領域情報を取得する。また、抽出部２２は、形状算出部２０から対象画像に含まれる少なくとも１つの候補領域のそれぞれにおける形状スコアを取得する。

抽出部２２は、対象画像におけるコンテキストスコアおよび領域情報に基づき、少なくとも１つの候補領域のそれぞれにおけるコンテキストスコアを抽出する。すなわち、抽出部２２は、対象画像におけるコンテキストスコアから、それぞれの候補領域に対応する部分のコンテキストスコアを切り出す。そして、抽出部２２は、少なくとも１つの候補領域のそれぞれ毎に、形状スコアとコンテキストスコアとを対応付けて（例えばペアにして）、補正部２４に与える。なお、抽出部２２のより詳細な構成については、図５を参照してさらに説明する。

補正部２４は、抽出部２２から、少なくとも１つの候補領域のそれぞれ毎に対応付けられた、形状スコアとコンテキストスコアと取得する。補正部２４は、少なくとも１つの候補領域のそれぞれにおける形状スコアを、対応する候補領域におけるコンテキストスコアにより補正する。例えば、補正部２４は、画素毎に形状スコアとコンテキストスコアとを乗じた値に基づき、補正した形状スコアを算出する。

例えば、補正部２４は、下記の式（１）の演算を実行することにより、少なくとも１つの候補領域のそれぞれにおける形状スコアを補正する。
Ｊ_ｎ＝ｆ（Ｉ_ｎ，Ｓ_ｎ） …（１）

式（１）において、Ｊ_ｎは、ｎ番目（ｎは１以上の整数）の候補領域における補正後の形状スコアを表す。Ｉ_ｎは、ｎ番目の候補領域における補正前の形状スコアを表す。Ｓ_ｎは、ｎ番目の候補領域におけるコンテキストスコアを表す。

ｆ（）は、形状スコアをコンテキストスコアにより補正するための、予め定められた関数である。例えば、ｆ（）は、画素毎に形状スコアとコンテキストスコアとを乗じる関数を表す。なお、ｆ（）は、乗じた値に所定の係数をさらに乗じてもよいし、乗じた値にさらにその他の演算を追加してもよい。また、ｆ（）は、画素毎に形状スコアとコンテキストスコアとを乗じる関数に限らず、他の関数であってもよい。

同一の対象物に属する画素は、コンテキストも同一である可能性が高い。つまり、コンテキストスコアと形状スコアとは、相関が高い。従って、補正部２４は、形状スコアをコンテキストスコアにより補正することにより、形状スコアの精度を向上させることができる。補正部２４は、少なくとも１つの候補領域のそれぞれにおける、補正した形状スコアを出力部２６に与える。

出力部２６は、コンテキスト算出部１６から、対象画像におけるコンテキストスコアを取得する。また、出力部２６は、補正部２４から、少なくとも１つの候補領域のそれぞれにおける、補正した形状スコアを取得する。そして、出力部２６は、対象画像におけるコンテキストスコア、および、少なくとも１つの候補領域のそれぞれにおける補正した形状スコアを外部装置に出力する。

図５は、抽出部２２の構成の一例を示す図である。抽出部２２は、コンテキストスコア抽出部３２と、形状スコア取得部３４と、対応付け部３６とを有する。

コンテキストスコア抽出部３２は、コンテキスト算出部１６から、対象画像におけるコンテキストスコアを取得する。また、コンテキストスコア抽出部３２は、候補領域取得部１８から、領域情報を取得する。コンテキストスコア抽出部３２は、領域情報に基づき、対象画像におけるコンテキストスコアから、少なくとも１つの候補領域のそれぞれにおけるコンテキストスコアを抽出する。

形状スコア取得部３４は、形状算出部２０から、少なくとも１つの候補領域のそれぞれにおける形状スコアを取得する。

対応付け部３６は、コンテキストスコア抽出部３２から、少なくとも１つの候補領域のそれぞれにおけるコンテキストスコアを取得する。また、対応付け部３６は、形状スコア取得部３４から、少なくとも１つの候補領域のそれぞれにおける形状スコアを取得する。

そして、対応付け部３６は、少なくとも１つの候補領域のそれぞれについて、コンテキストスコアと形状スコアとを対応付けて、補正部２４に出力する。例えば、対応付け部３６は、候補領域に割り当てられた識別番号の順に、コンテキストスコアおよび形状スコアを整列させて出力してもよい。

図６は、画像解析装置１０の処理を示すフローチャートである。画像解析装置１０は、図６に示すフローチャートの流れで処理を実行する。

まず、Ｓ１０１において、画像取得部１２は、対象画像を取得する。続いて、Ｓ１０２において、特徴量算出部１４は、対象画像に基づき、対象画像の特徴量を含む特徴量マップを算出する。

続いて、Ｓ１０３において、コンテキスト算出部１６は、特徴量マップに基づき、対象画像における画素毎のコンテキストを表すコンテキストスコアを算出する。なお、コンテキスト算出部１６は、Ｓ１０４またはＳ１０５の後にコンテキストスコアを算出してもよいし、Ｓ１０４またはＳ１０５と並行して（例えば同時に）コンテキストスコアを算出してもよい。

続いて、Ｓ１０４において、候補領域取得部１８は、対象画像に含まれる少なくとも１つの候補領域のそれぞれを特定する領域情報を取得する。候補領域取得部１８は、特徴量マップに基づき領域情報を生成してもよいし、外部装置から領域情報を取得してもよい。

続いて、Ｓ１０５において、形状算出部２０は、特徴量マップおよび領域情報に基づき、対象画像に含まれる少なくとも１つの候補領域のそれぞれにおける、対象物の形状を表す形状スコアを算出する。

続いて、Ｓ１０６において、抽出部２２は、対象画像におけるコンテキストスコアから、少なくとも１つの候補領域のそれぞれにおけるコンテキストスコアを抽出する。すなわち、抽出部２２は、対象画像におけるコンテキストスコアから、それぞれの候補領域に対応する部分のコンテキストスコアを切り出す。そして、抽出部２２は、少なくとも１つの候補領域のそれぞれ毎に、形状スコアとコンテキストスコアとを対応付ける。

続いて、Ｓ１０７において、補正部２４は、少なくとも１つの候補領域のそれぞれにおける形状スコアを、対応する候補領域におけるコンテキストスコアにより補正する。例えば、補正部２４は、画素毎に形状スコアとコンテキストスコアとを乗じた値に基づき、補正した形状スコアを算出する。

続いて、Ｓ１０８において、出力部２６は、対象画像におけるコンテキストスコア、および、少なくとも１つの候補領域のそれぞれにおける補正した形状スコアを外部装置に出力する。画像解析装置１０は、Ｓ１０８の処理を終了すると、対応する対象画像における処理を終了し、例えば次の対象画像に対してＳ１０１〜Ｓ１０８の処理を実行する。

以上のように、本実施形態に係る画像解析装置１０によれば、対象画像におけるコンテキストスコア、および、少なくとも１つの候補領域のそれぞれにおける形状スコアを算出することができる。さらに、本実施形態に係る画像解析装置１０によれば、形状スコアをコンテキストスコアにより補正するので、少なくとも１つの候補領域のそれぞれにおける形状スコアを精度良く算出することができる。

図７は、実施形態に係るニューラルネットワーク装置５０および学習装置１００の構成を示す図である。実施形態に係る画像解析装置１０は、例えば、図７に示すニューラルネットワーク装置５０を、学習装置１００を用いて学習させることにより実現される。

ニューラルネットワーク装置５０は、画像取得層６２と、特徴量算出層６４と、コンテキスト算出層６６と、候補領域取得層６８と、形状算出層７０と、抽出層７２と、補正層７４と、出力層７６とを備える。

それぞれの層は、１または複数のサブネットワークユニットを含む。サブネットワークユニットは、前段の層から複数の信号（情報）を取得し、取得した複数の信号に対して演算処理を実行し、演算処理により実行した結果得られる複数の信号を後段の層に与える。なお、一部のサブネットワークユニットは、自身へ信号を帰還させる帰還路を含んでもよい。

それぞれのサブネットワークユニットは、例えば、複数の信号に対して、加算、乗算、畳み込み演算、または、ソフトマックス関数等の所定の関数演算を実行する。

また、それぞれのサブネットワークユニットは、複数の信号に対する演算処理を実行するためのパラメータ（例えば、乗算の重みまたは信号に加算するオフセット等）が設定されている。それぞれのサブネットワークユニットは、学習時において、学習装置１００によりパラメータが調整される。

画像取得層６２は、外部装置から対象画像を取得する。画像取得層６２は、取得した対象画像に含まれる複数の画素値を後段の特徴量算出層６４に出力する。画像取得層６２は、含まれるサブネットワークユニットのパラメータが学習装置１００により調整されることにより、図１に示した画像取得部１２として機能する。

特徴量算出層６４は、画像取得層６２から対象画像に含まれる複数の画素値を受け取って、対象画像の特徴量を含む特徴量マップを出力する。特徴量算出層６４は、含まれるサブネットワークユニットのパラメータが学習装置１００により調整されることにより、図１に示した特徴量算出部１４として機能する。

コンテキスト算出層６６は、特徴量算出層６４から特徴量マップを受け取って、対象画像における画素毎のコンテキストを表すコンテキストスコアを出力する。コンテキスト算出層６６は、含まれるサブネットワークユニットのパラメータが学習装置１００により調整されることにより、図１に示したコンテキスト算出部１６として機能する。

候補領域取得層６８は、特徴量算出層６４から特徴量マップを受け取って、対象画像に含まれる少なくとも１つの候補領域のそれぞれを特定する領域情報を出力する。候補領域取得層６８は、含まれるサブネットワークユニットのパラメータが学習装置１００により調整されることにより、図１に示した候補領域取得部１８として機能する。なお、候補領域取得層６８は、外部装置から領域情報を受け取って、他の層へ出力する入力層であってもよい。

形状算出層７０は、特徴量算出層６４から特徴量マップを受け取る。さらに、形状算出層７０は、候補領域取得層６８から領域情報を受け取る。そして、形状算出層７０は、対象画像に含まれる少なくとも１つの候補領域のそれぞれにおける、対象物の形状を表す形状スコアを出力する。形状算出層７０は、含まれるサブネットワークユニットのパラメータが学習装置１００により調整されることにより、図１に示した形状算出部２０として機能する。

抽出層７２は、コンテキスト算出層６６から対象画像におけるコンテキストスコアを受け取り、候補領域取得層６８から領域情報を受け取り、形状算出層７０から少なくとも１つの候補領域のそれぞれにおける形状スコアを受け取る。そして、抽出層７２は、少なくとも１つの候補領域のそれぞれにおけるコンテキストスコアを出力する。例えば、抽出層７２は、少なくとも１つの候補領域のそれぞれについて、コンテキストスコアと形状スコアとを対応付けて出力する。抽出層７２は、含まれるサブネットワークユニットのパラメータが学習装置１００により調整されることにより、図１に示した抽出部２２として機能する。

補正層７４は、抽出層７２から、少なくとも１つの候補領域のそれぞれにおける形状スコア、および、少なくとも１つの候補領域のそれぞれにおけるコンテキストスコアを受け取る。そして、補正層７４は、少なくとも１つの候補領域のそれぞれにおける、補正した形状スコアを出力する。補正層７４は、含まれるサブネットワークユニットのパラメータが学習装置１００により調整されることにより、図１に示した補正部２４として機能する。

出力層７６は、補正層７４から、少なくとも１つの候補領域のそれぞれにおける補正した形状スコアを受け取る。また、出力層７６は、コンテキスト算出層６６から、対象画像におけるコンテキストスコアを受け取る。そして、出力層７６は、少なくとも１つの候補領域のそれぞれにおける補正した形状スコアと、対象画像におけるコンテキストスコアとを外部装置に出力する。出力層７６は、含まれるサブネットワークユニットのパラメータが学習装置１００により調整されることにより、図１に示した出力部２６として機能する。

学習装置１００は、ニューラルネットワーク装置５０を訓練する。すなわち、学習装置１００は、ニューラルネットワーク装置５０の運用に先だって、ニューラルネットワーク装置５０に設定されている複数のパラメータを調整する。学習装置１００は、訓練データ取得部１１２と、制御部１１４と、誤差算出部１１６と、調整部１１８とを備える。

訓練データ取得部１１２は、外部記憶装置から訓練データを取得する。訓練データは、訓練用画像データと、訓練用コンテキストスコアと、少なくとも１つの候補領域のそれぞれについての訓練用形状スコアとの組を含む。また、候補領域取得層６８が領域情報を外部装置から取得する場合には、訓練データは、さらに領域情報を含む。

制御部１１４は、訓練データ取得部１１２が取得した訓練用画像データをニューラルネットワーク装置５０に与えて、コンテキストスコアおよび少なくとも１つの候補領域のそれぞれについての形状スコアをニューラルネットワーク装置５０に算出させる。この場合、候補領域取得層６８が領域情報を外部装置から取得する場合には、制御部１１４は、さらに領域情報をニューラルネットワーク装置５０に与える。

誤差算出部１１６は、訓練用画像データを与えることによりニューラルネットワーク装置５０により算出されたコンテキストスコアと、訓練用コンテキストスコアとの第１誤差を算出する。また、誤差算出部１１６は、訓練用画像データを与えることによりニューラルネットワーク装置５０により算出された少なくとも１つの候補領域のそれぞれの形状スコアと、対応する訓練用形状スコアとの第２誤差を算出する。

調整部１１８は、第１誤差、および、少なくとも１つの候補領域のそれぞれについての第２誤差に基づき、ニューラルネットワーク装置５０に設定されている複数のパラメータを調整する。例えば、調整部１１８は、第１誤差および第２誤差の総和を最小化するように複数のパラメータを調整する。例えば、調整部１１８は、バックプロパゲーション等の手法を用いて、誤差勾配を逆方向に伝播することにより、複数のパラメータを調整する。

このような学習装置１００は、コンテンツスコアを算出するための訓練と、形状スコアを算出するための訓練とを同時に実行することができる。これにより、学習装置１００によれば、ニューラルネットワーク装置５０を効率良く学習させて、ニューラルネットワーク装置５０を精度の良い画像解析装置１０として機能させることができる。

図８は、情報処理装置２００のハードウェアブロック図である。情報処理装置２００は、一例として、一般のコンピュータと同様のハードウェア構成により実現される。情報処理装置２００は、所定プログラムを実行することにより、画像解析装置１０、ニューラルネットワーク装置５０または学習装置１００として機能することができる。

情報処理装置２００は、ＣＰＵ（Central Processing Unit）２０２と、ＲＯＭ（Read Only Memory）２０４と、ＲＡＭ（Random Access Memory）２０６と、操作部２０８と、表示部２１０と、通信装置２１２と、記憶装置２１４とを備える。各部は、バスにより接続される。

ＣＰＵ２０２は、情報処理を実行するプロセッサであって、記憶装置２１４に記憶されたプログラムをＲＡＭ２０６に展開して実行し、各部を制御して入出力を行ったり、データの加工を行ったりする。ＣＰＵ２０２は、１または複数のプロセッサにより構成されていてもよい。また、情報処理装置２００は、プログラムを実行することが可能であれば、ＣＰＵ２０２に限らず他のプロセッサを備えてもよい。ＲＯＭ２０４には、起動用プログラムを記憶装置２１４からＲＡＭ２０６に読み出すスタートプログラムが記憶されている。ＲＡＭ２０６は、ＣＰＵ２０２の作業領域としてデータを記憶する。

操作部２０８は、マウスまたはキーボード等の入力デバイスであって、ユーザから操作入力された情報を指示信号として受け付け、その指示信号をＣＰＵ２０２に出力する。表示部２１０は、例えばＬＣＤ（Liquid Crystal Display）等の表示装置である。表示部２１０は、ＣＰＵ２０２からの表示信号に基づいて、各種情報を表示する。通信装置２１２は、ネットワーク等を介して、外部機器と情報をやり取りする。記憶装置２１４は、例えば、ハードディスクドライブまたはフラッシュメモリ等である。記憶装置２１４は、情報処理装置２００で実行されるプログラム、および、オペレーティングシステムを記憶している。

本実施形態の情報処理装置２００で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録されて提供される。また、本実施形態の情報処理装置２００で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態の情報処理装置２００で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。また、本実施形態のプログラムを、ＲＯＭ２０４等に予め組み込んで提供するように構成してもよい。

情報処理装置２００を画像解析装置１０として機能させるためのプログラムは、画像取得モジュールと、特徴量算出モジュールと、コンテキスト算出モジュールと、候補領域取得モジュールと、形状算出モジュールと、抽出モジュールと、補正モジュールと、出力モジュールとを有する。情報処理装置２００は、プロセッサ（ＣＰＵ２０２）が記憶媒体（記憶装置２１４等）からプログラムを読み出して実行することにより各モジュールが主記憶装置（ＲＡＭ２０６）上にロードされ、プロセッサ（ＣＰＵ２０２）が、画像取得部１２、特徴量算出部１４、コンテキスト算出部１６、候補領域取得部１８、形状算出部２０、抽出部２２、補正部２４および出力部２６として機能する。なお、これらの一部または全部がプロセッサ以外のハードウェアにより実現されてもよい。

また、情報処理装置２００をニューラルネットワーク装置５０として機能させるためのプログラムは、画像取得層モジュールと、特徴量算出層モジュールと、コンテキスト算出層モジュールと、候補領域取得層モジュールと、形状算出層モジュールと、抽出層モジュールと、補正層モジュールと、出力層モジュールとを有する。情報処理装置２００は、プロセッサ（ＣＰＵ２０２）が記憶媒体（記憶装置２１４等）からプログラムを読み出して実行することにより各モジュールが主記憶装置（ＲＡＭ２０６）上にロードされ、プロセッサ（ＣＰＵ２０２）が、画像取得層６２、特徴量算出層６４、コンテキスト算出層６６、候補領域取得層６８、形状算出層７０、抽出層７２、補正層７４および出力層７６として機能する。なお、これらの一部または全部がプロセッサ以外のハードウェアにより実現されてもよい。

また、情報処理装置２００を学習装置１００として機能させるためのプログラムは、訓練データ取得モジュールと、制御モジュールと、誤差算出モジュールと、調整モジュールとを有する。情報処理装置２００は、プロセッサ（ＣＰＵ２０２）が記憶媒体（記憶装置２１４等）からプログラムを読み出して実行することにより各モジュールが主記憶装置（ＲＡＭ２０６）上にロードされ、プロセッサ（ＣＰＵ２０２）が、訓練データ取得部１１２、制御部１１４、誤差算出部１１６および調整部１１８として機能する。なお、これらの一部または全部がプロセッサ以外のハードウェアにより実現されてもよい。

本発明の実施形態を説明したが、実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０画像解析装置
１２画像取得部
１４特徴量算出部
１６コンテキスト算出部
１８候補領域取得部
２０形状算出部
２２抽出部
２４補正部
２６出力部
３２コンテキストスコア抽出部
３４形状スコア取得部
３６対応付け部
５０ニューラルネットワーク装置
６２画像取得層
６４特徴量算出層
６６コンテキスト算出層
６８候補領域取得層
７０形状算出層
７２抽出層
７４補正層
７６出力層
１００学習装置
１１２訓練データ取得部
１１４制御部
１１６誤差算出部
１１８調整部

Claims

対象画像の特徴量マップを算出する特徴量算出部と、
前記特徴量マップに基づき、前記対象画像における画素毎のコンテキストを表すコンテキストスコアを算出するコンテキスト算出部と、
前記特徴量マップに基づき、前記対象画像に含まれる少なくとも１つの領域における、対象物の形状を表す形状スコアを算出する形状算出部と、
前記少なくとも１つの領域における前記形状スコアを、対応する領域における前記コンテキストスコアにより補正する補正部と、
前記少なくとも１つの領域における、補正した前記形状スコアを出力する出力部と、
を備える画像解析装置。
前記出力部は、前記対象画像における前記コンテキストスコアをさらに出力する
請求項１に記載の画像解析装置。
前記特徴量マップに基づき、前記対象画像に含まれる前記少なくとも１つの領域を特定する領域情報を生成する候補領域取得部をさらに備える
請求項１または２に記載の画像解析装置。
前記対象画像に含まれる前記少なくとも１つの領域を特定する領域情報を外部装置から取得する候補領域取得部をさらに備える
請求項１または２に記載の画像解析装置。
前記対象画像に対する前記コンテキストスコアおよび前記領域情報に基づき、前記少なくとも１つの領域における前記コンテキストスコアを抽出する抽出部をさらに備える
請求項３または４に記載の画像解析装置。
前記抽出部は、
前記領域情報に基づき、前記対象画像における前記コンテキストスコアから、前記少なくとも１つの領域における前記コンテキストスコアを抽出するコンテキストスコア抽出部と、
前記少なくとも１つの領域における前記形状スコアを取得する形状スコア取得部と、
前記少なくとも１つの領域について、前記コンテキストスコアと前記形状スコアとを対応付けて出力する対応付け部と、
を有する請求項５に記載の画像解析装置。
前記コンテキストスコアは、画素毎の対象物のカテゴリを表す情報である
請求項１から６の何れか１項に記載の画像解析装置。
前記コンテキストスコアは、画素毎の基準位置から対象物までの距離を表す情報である
請求項１から６の何れか１項に記載の画像解析装置。
前記形状スコアは、画素毎に対象物が存在するか否かを示すマスク情報である
請求項１から８の何れか１項に記載の画像解析装置。
前記補正部は、画素毎に前記形状スコアと前記コンテキストスコアとを乗じた値に基づき、補正した前記形状スコアを算出する
請求項１から９の何れか１項に記載の画像解析装置。
対象画像の特徴量マップを出力する特徴量算出層と、
前記特徴量マップを受け取って、前記対象画像における画素毎のコンテキストを表すコンテキストスコアを出力するコンテキスト算出層と、
前記特徴量マップを受け取って、少なくとも１つの領域における、対象物の形状を表す形状スコアを出力する形状算出層と、
前記対象画像における前記コンテキストスコアを受け取って、前記少なくとも１つの領域における前記コンテキストスコアを出力する抽出層と、
前記少なくとも１つの領域における前記形状スコア、および、前記少なくとも１つの領域における前記コンテキストスコアを受け取って、前記少なくとも１つの領域における、補正した前記形状スコアを出力する補正層と、
前記少なくとも１つの領域における補正した前記形状スコアと、前記対象画像における前記コンテキストスコアとを出力する出力層と、
を備えるニューラルネットワーク装置。
請求項１１に記載のニューラルネットワーク装置を訓練する学習装置であって、
訓練用画像データと、訓練用コンテキストスコアと、前記少なくとも１つの領域についての訓練用形状スコアとの組を取得する訓練データ取得部と、
前記訓練用画像データを前記ニューラルネットワーク装置に与えて、前記コンテキストスコアおよび前記少なくとも１つの領域についての前記形状スコアを前記ニューラルネットワーク装置に算出させる制御部と、
前記コンテキストスコアと前記訓練用コンテキストスコアとの第１誤差と、前記少なくとも１つの領域の前記形状スコアと前記訓練用形状スコアとの第２誤差とを算出する誤差算出部と、
前記第１誤差および少なくとも１つの領域についての第２誤差に基づき、前記ニューラルネットワーク装置のパラメータを調整する調整部と、
を備える学習装置。
対象画像の特徴量マップを算出する特徴量算出ステップと、
前記特徴量マップに基づき、前記対象画像における画素毎のコンテキストを表すコンテキストスコアを算出するコンテキスト算出ステップと、
前記特徴量マップに基づき、前記対象画像に含まれる少なくとも１つの領域における、対象物の形状を表す形状スコアを算出する形状算出ステップと、
前記少なくとも１つの領域における前記形状スコアを、対応する領域における前記コンテキストスコアにより補正する補正ステップと、
前記少なくとも１つの領域における、補正した前記形状スコアを出力する出力ステップと、
を含む画像解析方法。
情報処理装置を画像解析装置として機能させるためのプログラムであって、
前記情報処理装置を、
対象画像の特徴量マップを算出する特徴量算出部と、
前記特徴量マップに基づき、前記対象画像における画素毎のコンテキストを表すコンテキストスコアを算出するコンテキスト算出部と、
前記特徴量マップに基づき、前記対象画像に含まれる少なくとも１つの領域における、対象物の形状を表す形状スコアを算出する形状算出部と、
前記少なくとも１つの領域における前記形状スコアを、対応する領域における前記コンテキストスコアにより補正する補正部と、
前記少なくとも１つの領域における、補正した前記形状スコアを出力する出力部と、
して機能させるプログラム。