JP2019220014A

JP2019220014A - 画像解析装置、画像解析方法及びプログラム

Info

Publication number: JP2019220014A
Application number: JP2018118089A
Authority: JP
Inventors: ヴェトクォクファン; Viet Quoc Pham; 小坂谷　達夫; Tatsuo Kosakaya; 達夫小坂谷
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2018-06-21
Filing date: 2018-06-21
Publication date: 2019-12-26
Anticipated expiration: 2038-06-21
Also published as: US20190392270A1; JP6989450B2; US11417129B2

Abstract

【課題】学習データセットに登録された既知物体以外の未知の物体も認識できるようにする。【解決手段】実施形態の画像解析装置は、受付部と算出部と既知物体認識部と汎化物体認識部と出力制御部とを備える。受付部は、画像の入力を受け付ける。算出部は、前記画像に含まれる領域の特徴を示す特徴量情報を算出する。既知物体認識部は、画像認識処理の学習データに登録された既知物体を、前記特徴量情報に基づいて認識する。汎化物体認識部は、前記特徴量情報に基づいて、前記既知物体から汎化可能な汎化物体を認識する。出力制御部は、前記画像に含まれる物体が、前記既知物体又は前記汎化物体として特定された出力情報を出力する。【選択図】図１

Description

本発明の実施形態は画像解析装置、画像解析方法及びプログラムに関する。

画像に含まれる人物等を認識する技術が従来から知られている。例えば、画像認識に利用される技術として、畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ）が知られている。

Ｒｅｎｅｔａｌ． "ＦａｓｔｅｒＲ−ＣＮＮ：ＴｏｗａｒｄｓＲｅａｌ−ＴｉｍｅＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎｗｉｔｈＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋｓ"，ＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ（ＮＩＰＳ）２０１５Ｌｉｅｔａｌ． "ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＩｎｓｔａｎｃｅ−ａｗａｒｅＳｅｍａｎｔｉｃＳｅｇｍｅｎｔａｔｉｏｎ"，ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ）２０１７ＬｅＣｕｎｅｔ．ａｌ．"Ｂａｃｋｐｒｏｐａｇａｔｉｏｎａｐｐｌｉｅｄｔｏｈａｎｄｗｒｉｔｔｅｎｚｉｐｃｏｄｅｒｅｃｏｇｎｉｔｉｏｎ"，Ｎｅｕｒａｌｃｏｍｐｕｔａｔｉｏｎ，１９８９Ｍ．Ｅｖｅｒｉｎｇｈａｍ，Ｌ．ＶａｎＧｏｏｌ，Ｃ．Ｋ．Ｗｉｌｌｉａｍｓ，Ｊ．Ｗｉｎｎ，ａｎｄＡ．Ｚｉｓｓｅｒｍａｎ． "Ｔｈｅｐａｓｃａｌｖｉｓｕａｌｏｂｊｅｃｔｃｌａｓｓｅｓ（ｖｏｃ）ｃｈａｌｌｅｎｇｅ"．ＩＪＣＶ，２０１０

しかしながら、従来の技術では、学習データセットに登録された既知物体以外の未知の物体は、認識できなかった。

実施形態の画像解析装置は、受付部と算出部と既知物体認識部と汎化物体認識部と出力制御部とを備える。受付部は、画像の入力を受け付ける。算出部は、前記画像に含まれる領域の特徴を示す特徴量情報を算出する。既知物体認識部は、画像認識処理の学習データに登録された既知物体を、前記特徴量情報に基づいて認識する。汎化物体認識部は、前記特徴量情報に基づいて、前記既知物体から汎化可能な汎化物体を認識する。出力制御部は、前記画像に含まれる物体が、前記既知物体又は前記汎化物体として特定された出力情報を出力する。

実施形態の画像解析装置の機能構成の例を示す図。実施形態の画像解析方法の例を示す図。実施形態の特徴量情報の算出方法の例を示す図。実施形態の学習データに登録された既知物体の例を示す図。実施形態の入力画像の例を示す図。実施形態の既知物体の認識例１を示す図。実施形態の既知物体の認識例２を示す図。図４の既知物体から汎化可能な汎化物体の例を示す図。実施形態の既知物体の形状から汎化可能な汎化物体の形状の例を示す図。実施形態の出力情報の例を示す図。実施形態の出力制御部の機能構成の例を示す図。実施形態の統合処理及び判定処理の例を示す図。実施形態の統合部の処理の例を示す図。実施形態のＲＯＩの例を示す図。実施形態の画像解析装置のハードウェア構成の例を示す図。

以下に添付図面を参照して、画像解析装置、画像解析方法及びプログラムの実施形態を詳細に説明する。

はじめに、実施形態の画像解析装置１００の機能構成の例について説明する。

［機能構成の例］
図１は実施形態の画像解析装置１００の機能構成の例を示す図である。実施形態の画像解析装置１００は、受付部１０、算出部１１、既知物体認識部１２、汎化物体認識部１３及び出力制御部１４を備える。

受付部１０は、画像の入力を受け付ける。

算出部１１は、画像に含まれる領域の特徴を示す特徴量情報を算出する。

既知物体認識部１２は、画像認識処理の学習データに登録された既知物体を、特徴量情報に基づいて認識する。特徴量情報は、例えば画素ごとの特徴量を示す特徴量マップである。実施形態の説明では、特徴量情報が特徴量マップである場合を例にして説明する。

汎化物体認識部１３は、特徴量情報に基づいて、既知物体から汎化可能な汎化物体（未知物体）を認識する。

出力制御部１４は、画像に含まれる物体が、既知物体又は汎化物体として特定された出力情報を出力する。

図２は実施形態の画像解析方法の例を示す図である。はじめに、受付部１０が、画像の入力を受け付ける（ステップＳ１００）。

次に、算出部１１が、特徴量情報として、特徴量マップを算出する（ステップＳ１０１）。なお、特徴量マップの種類は任意でよい。

図３は実施形態の特徴量情報の算出方法の例を示す図である。図３の例は、畳み込みニューラルネットワーク（例えば、非特許文献３を参照）を使用して、特徴量マップを算出する場合を示す。図３に示すように、畳み込み処理とプ―リング処理とが繰り返されることにより、入力画像に含まれる領域の特徴を示す特徴量マップが算出される。

図２に戻り、次に、既知物体認識部１２が、ステップＳ１０１の処理により算出された特徴量情報（例えば、特徴量マップ）に基づいて、既知物体を認識する（ステップＳ１０２）。既知物体は、画像認識処理の学習データに登録された物体である。

図４は実施形態の学習データに登録された既知物体の例を示す図である。図４の例は、学習データが、ＰＡＳＣＡＬＶＯＣデータセット（例えば、非特許文献４を参照）である場合を示す。この例では、図４に示す２０カテゴリに属する物体が、既知物体として認識される。

ここで、既知物体の形状の認識例について説明する。

図５Ａは実施形態の入力画像の例を示す図である。図５Ａの例は、入力画像に人と２匹の犬が含まれている場合を示す。なお、実施形態では、人は、ｐｅｒｓｏｎカテゴリの既知物体であり、犬は、ｄｏｇカテゴリの既知物体である。

図５Ｂは実施形態の既知物体の認識例１を示す図である。図５Ｂでは、図５Ａに示す入力画像に含まれる既知物体（ｐｅｒｓｏｎ及びｄｏｇ）が、当該既知物体を囲む矩形（ｂｏｕｎｄｉｎｇｂｏｘ）により認識されている。例えば、既知物体認識部１２が、非特許文献１のような物体検出（ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ）方法を使用することにより、画像中の既知物体を、当該既知物体を囲む矩形により認識することができる。

図５Ｃは実施形態の既知物体の認識例２を示す図である。図５Ｃでは、図５Ａに示す入力画像に含まれる既知物体（ｐｅｒｓｏｎ及びｄｏｇ）が、当該既知物体を示す領域の領域マスクにより認識されている。例えば、既知物体認識部１２が、非特許文献２のようなインスタンスセグメンテーション（ｉｎｓｔａｎｃｅｓｅｇｍｅｎｔａｔｉｏｎ）方法を使用することにより、画像中の既知物体を、当該既知物体を示す領域の領域マスク（セグメンテーションマスク）により認識することができる。

なお、汎化物体認識部１３による汎化物体の認識方法についても、図５Ｂ及び図５Ｃと同様である。

図２に戻り、汎化物体認識部１３が、ステップＳ１０１の処理により算出された特徴量情報に基づいて、学習データに登録された既知物体を組み合わせることにより汎化可能な汎化物体を認識する（ステップＳ１０３）。汎化物体（未知物体）は、学習データには登録されていない物体である。汎化物体とは、既知物体の特徴（例えば、形状）から、汎用化可能な物体である。つまり、汎化物体は、既知物体の特徴から汎用化可能な未知物体の集合である。ここでの汎用化とは、既知物体の学習データから学習された特徴量の汎化能力である。

なお、実施形態の説明では、既知物体の特徴として、形状を利用しているが、利用される特徴は、既知物体の色及びテスクチャ等でもよい。

図６は、図４の既知物体から汎化可能な汎化物体の例を示す図である。図６は、図４に示す学習データに登録された２０カテゴリの既知物体ではないが、当該既知物体の形状を組み合わせることにより認識可能な汎化物体（未知物体）を示す。図６の例では、例えばｎｏｏｄｌｅｃｕｐの形状、及び、ｂｏｘの形状が、汎化物体の例として示されている。

図７は実施形態の既知物体の形状から汎化可能な汎化物体の形状の例を示す図である。例えば、汎化物体認識部１３は、円柱及び三角形等の既知物体の形状の組み合わせに基づいて、台形（例えば、ｎｏｏｄｌｅｃｕｐの形状）等の形状を有する物体を汎化物体として認識する。

汎化物体認識部１３の画像認識処理は、既知物体認識部１２の画像認識処理を学習するための学習データセットから学習できる。その１つの方法を説明する。まず、汎化物体認識部１３では、学習データセットを、学習画像中の物体を各既知物体カテゴリにカテゴライズせずに、１つの汎化カテゴリ‘ｏｂｊｅｃｔ’に統合する。すなわち、汎化物体認識部１３の画像認識処理の学習では、学習対象の物体カテゴリが１つに限定された学習モデルが使用される。そして、汎化物体認識部１３は、既知物体認識部１２の画像認識処理の学習方法と同様にして、汎化物体認識部１３の画像認識処理を学習する。

なお、既知物体認識部１２の画像認識処理の学習方法は、例えば非特許文献１及び２等の学習方法が利用できる。また、画像認識処理の学習は、外部の装置で行われてもよい。すなわち、外部の装置で学習された画像認識処理を、既知物体認識部１２（汎化物体認識部１３）で実行するようにしてもよい。

図２に戻り、次に、出力制御部１４が、画像に含まれる物体が、既知物体又は汎化物体として特定された出力情報を出力する（ステップＳ１０４）。出力情報の出力形式は任意でよい。出力情報は、例えば、既知物体の数、汎化物体の数、既知物体の位置、汎化物体の位置、既知物体を囲む矩形（非特許文献１のような物体検出（ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ））、汎化物体を囲む矩形、既知物体を示す領域の領域マスク（非特許文献２のようなインスタンスセグメンテーション（ｉｎｓｔａｎｃｅｓｅｇｍｅｎｔａｔｉｏｎ））、及び、汎化物体を示す領域の領域マスクのうち、少なくとも１つを含む。

図８は実施形態の出力情報の例を示す図である。図８の例は、物体を領域マスク（インスタンスセグメンテーション）により特定する場合を示す。従来のインスタンスセグメンテーションでは、既知カテゴリの物体として特定可能な既知物体２０１ａ（図８の例では、ｐｅｒｓｏｎ）のみを検出する。一方、実施形態のインスタンスセグメンテーションでは、既知物体２０１ａだけでなく、未知の物体（図８の例では、ぬいぐるみ）も、汎化カテゴリ‘ｏｂｊｅｃｔ’により汎化物体２０２ａとして検出できる。

次に、実施形態の出力制御部１４の機能構成の例について説明する。

図９は実施形態の出力制御部１４の機能構成の例を示す図である。出力制御部１４は、統合部２０及び判定部２１を備える。

統合部２０は、既知物体認識部１２により認識された既知物体を含む既知物体データを、既知物体認識部１２から受け付ける。また、統合部２０は、汎化物体認識部１３により認識された汎化物体を含む汎化物体データを、汎化物体認識部１３から受け付ける。そして、統合部２０は、既知物体データと汎化物体データとを、統合データに統合する。

判定部２１は、統合データに含まれる既知物体の位置と、汎化物体の位置とが一致する場合、既知物体であると判定し、統合データに含まれる既知物体の位置と、汎化物体の位置とが一致しない場合、汎化物体であると判定する。

図１０は実施形態の統合処理及び判定処理の例を示す図である。既知物体認識部１２は、画像に含まれる既知物体を、上述の特徴量情報に基づいて認識する。図１０の例では、既知物体認識部１２は、画像認識処理の学習データに登録されたｐｅｒｓｏｎカテゴリの既知物体２０１ａとして、画像に含まれる人物を認識することにより、既知物体データを取得する。一方、汎化物体認識部１３は、上述の特徴量情報に基づいて、既知物体から汎化可能な汎化物体を認識する。図１０の例では、汎化物体認識部１３は、画像に含まれるぬいぐるみ及び人物を、汎化カテゴリ‘ｏｂｊｅｃｔ’の２つの汎化物体２０２ａ及び２０２ｂとして認識することにより、汎化物体データを取得する。

統合部２０は、既知物体認識部１２により認識された既知物体を含む既知物体データと、汎化物体認識部１３により認識された汎化物体を含む汎化物体データとを、統合データに統合する。

判定部２１は、統合データに含まれる既知物体の位置と、汎化物体の位置とが一致する場合、既知物体であると判定する。また、判定部２１は、統合データに含まれる既知物体の位置と、汎化物体の位置とが一致しない場合、汎化物体であると判定する。図１０の例では、汎化カテゴリ‘ｏｂｊｅｃｔ’として認識された汎化物体２０２ｂと、ｐｅｒｓｏｎカテゴリの既知物体２０１ａとが、同じ位置で認識されているため、当該位置で認識された物体は、既知物体２０１ａであると判定される。一方、汎化カテゴリ‘ｏｂｊｅｃｔ’として認識された汎化物体２０２ａの位置と同じ位置では、既知物体が認識されていないため、当該位置で認識された物体は、汎化物体２０２ａであると判定される。

なお、判定部２１による上述の判定基準は一例であり、他の判定基準を用いて、既知物体であるか否か（汎化物体であるか否か）を判定してもよい。

図１１は実施形態の統合部２０の処理の例を示す図である。統合部２０は、既知物体データと、汎化物体データとを、物体認識の候補領域ＲＯＩ（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔ）ごとに、統合データ上で統合する。そして、判定部２１は、既知物体の位置と、汎化物体の位置とが一致するか否かを、ＲＯＩごとに判定する。

図１２は実施形態のＲＯＩの例を示す図である。図１２の例では、ＲＯＩ２１１ａ〜２１１ｇが示されている。ＲＯＩの検出方法は任意でよい。例えば、ＲＯＩは、予め設定された位置で検出されてもよい。また例えば、ＲＯＩは、上述の特徴量マップに基づいて、任意の位置で検出されてもよい。なお、ＲＯＩは、物体認識の候補領域（予測領域）であるため、ＲＯＩに認識対象の物体が含まれていない場合もある。

以上説明したように、実施形態の画像解析装置１００では、受付部１０が、画像の入力を受け付ける。算出部１１が、画像に含まれる領域の特徴を示す特徴量情報を算出する。既知物体認識部１２が、画像認識処理の学習データに登録された既知物体を、特徴量情報に基づいて認識する。汎化物体認識部１３が、特徴量情報に基づいて、既知物体から汎化可能な汎化物体を認識する。そして、出力制御部１４が、画像に含まれる物体が、既知物体又は汎化物体として特定された出力情報を出力する。これにより実施形態の画像解析装置１００によれば、学習データセットに登録された既知物体以外の未知の物体も、汎化物体として、認識することができる。また、実施形態の画像解析装置１００によれば、学習データ、及び、特徴量情報を算出するネットワーク（例えば、図３）のサイズ等を変更することなく、未知の物体を汎化物体として認識することができる。

最後に、実施形態の画像解析装置のハードウェア構成の例について説明する。

［ハードウェア構成の例］
図１３は実施形態の画像解析装置のハードウェア構成の例を示す図である。実施形態の画像解析装置は、制御装置３０１、主記憶装置３０２、補助記憶装置３０３、表示装置３０４、入力装置３０５及び通信装置３０６を備える。制御装置３０１、主記憶装置３０２、補助記憶装置３０３、表示装置３０４、入力装置３０５及び通信装置３０６は、バス３１０を介して接続されている。

制御装置３０１は、補助記憶装置３０３から主記憶装置３０２に読み出されたプログラムを実行する。主記憶装置３０２は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及び、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等のメモリである。補助記憶装置３０３は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、及び、メモリカード等である。

表示装置３０４は表示情報を表示する。表示装置３０４は、例えば液晶ディスプレイ等である。入力装置３０５は、画像解析装置１００を操作するためのインタフェースである。入力装置３０５は、例えばキーボードやマウス等である。画像解析装置１００がスマートフォン及びタブレット型端末等のスマートデバイスの場合、表示装置３０４及び入力装置３０５は、例えばタッチパネルである。通信装置３０６は、他の装置と通信するためのインタフェースである。

実施形態の画像解析装置１００で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、メモリカード、ＣＤ−Ｒ及びＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）等のコンピュータで読み取り可能な記憶媒体に記録されてコンピュータ・プログラム・プロダクトとして提供される。

また実施形態の画像解析装置１００で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また実施形態の画像解析装置１００で実行されるプログラムをダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。

また実施形態の画像解析装置１００のプログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

実施形態の画像解析装置１００で実行されるプログラムは、上述の機能ブロックのうち、プログラムによっても実現可能な機能ブロックを含むモジュール構成となっている。当該各機能ブロックは、実際のハードウェアとしては、制御装置３０１が記憶媒体からプログラムを読み出して実行することにより、上記各機能ブロックが主記憶装置３０２上にロードされる。すなわち上記各機能ブロックは主記憶装置３０２上に生成される。

なお上述した各機能ブロックの一部又は全部をソフトウェアにより実現せずに、ＩＣ等のハードウェアにより実現してもよい。

また複数のプロセッサを用いて各機能を実現する場合、各プロセッサは、各機能のうち１つを実現してもよいし、各機能のうち２以上を実現してもよい。

また実施形態の画像解析装置１００の動作形態は任意でよい。実施形態の画像解析装置１００を、例えばネットワーク上のクラウドシステムとして動作させてもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０受付部
１１算出部
１２既知物体認識部
１３汎化物体認識部
１４出力制御部
２０統合部
２１判定部
１００画像解析装置
３０１制御装置
３０２主記憶装置
３０３補助記憶装置
３０４表示装置
３０５入力装置
３０６通信装置
３１０バス

Claims

画像の入力を受け付ける受付部と、
前記画像に含まれる領域の特徴を示す特徴量情報を算出する算出部と、
画像認識処理の学習データに登録された既知物体を、前記特徴量情報に基づいて認識する既知物体認識部と、
前記特徴量情報に基づいて、前記既知物体から汎化可能な汎化物体を認識する汎化物体認識部と、
前記画像に含まれる物体が、前記既知物体又は前記汎化物体として特定された出力情報を出力する出力制御部と、
を備える画像解析装置。
前記出力制御部は、
前記既知物体認識部により認識された既知物体を含む既知物体データと、前記汎化物体認識部により認識された汎化物体を含む汎化物体データとを、統合データに統合する統合部と、
前記統合データに含まれる前記既知物体の位置と、前記汎化物体の位置とが一致する場合、前記既知物体であると判定し、前記統合データに含まれる前記既知物体の位置と、前記汎化物体の位置とが一致しない場合、前記汎化物体であると判定する判定部と、
を備える請求項１に記載の画像解析装置。
前記統合部は、前記既知物体データと、前記汎化物体データとを、ＲＯＩ（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔ）ごとに、前記統合データ上で統合し、
前記判定部は、前記既知物体の位置と、前記汎化物体の位置とが一致するか否かを、前記ＲＯＩごとに判定する、
請求項２に記載の画像解析装置。
前記汎化物体認識部は、前記学習データに登録された既知物体を組み合わせることにより汎化可能な前記汎化物体を、１つの物体カテゴリとして認識する学習モデルを使用して、前記汎化物体を認識する、
請求項１に記載の画像解析装置。
前記出力制御部は、前記既知物体又は前記汎化物体を、既知物体又は汎化物体を囲む矩形により特定する、
請求項１に記載の画像解析装置。
前記出力制御部は、前記既知物体又は前記汎化物体を、既知物体又は汎化物体を示す領域の領域マスクにより特定する、
請求項１に記載の画像解析装置。
前記出力情報は、前記既知物体の数、前記汎化物体の数、前記既知物体の位置、前記汎化物体の位置、前記既知物体を囲む矩形、前記汎化物体を囲む矩形、前記既知物体を示す領域の領域マスク、及び、前記汎化物体を示す領域の領域マスクのうち、少なくとも１つを含む、
請求項１に記載の画像解析装置。
画像の入力を受け付けるステップと、
前記画像に含まれる領域の特徴を示す特徴量情報を算出するステップと、
画像認識処理の学習データに登録された既知物体を、前記特徴量情報に基づいて認識するステップと、
前記特徴量情報に基づいて、前記既知物体から汎化可能な汎化物体を認識するステップと、
前記画像に含まれる物体が、前記既知物体又は前記汎化物体として特定された出力情報を出力するステップと、
を含む画像解析方法。
コンピュータを、
画像の入力を受け付ける受付部と、
前記画像に含まれる領域の特徴を示す特徴量情報を算出する算出部と、
画像認識処理の学習データに登録された既知物体を、前記特徴量情報に基づいて認識する既知物体認識部と、
前記特徴量情報に基づいて、前記既知物体から汎化可能な汎化物体を認識する汎化物体認識部と、
前記画像に含まれる物体が、前記既知物体又は前記汎化物体として特定された出力情報を出力する出力制御部、
として機能させるためのプログラム。