JP6158882B2 - 生成装置、生成方法、及び生成プログラム - Google Patents

生成装置、生成方法、及び生成プログラム Download PDF

Info

Publication number
JP6158882B2
JP6158882B2 JP2015184742A JP2015184742A JP6158882B2 JP 6158882 B2 JP6158882 B2 JP 6158882B2 JP 2015184742 A JP2015184742 A JP 2015184742A JP 2015184742 A JP2015184742 A JP 2015184742A JP 6158882 B2 JP6158882 B2 JP 6158882B2
Authority
JP
Japan
Prior art keywords
image
generation
processing
intermediate image
recognition rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015184742A
Other languages
English (en)
Other versions
JP2017059090A (ja
Inventor
直晃 山下
直晃 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2015184742A priority Critical patent/JP6158882B2/ja
Publication of JP2017059090A publication Critical patent/JP2017059090A/ja
Application granted granted Critical
Publication of JP6158882B2 publication Critical patent/JP6158882B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、生成装置、生成方法、及び生成プログラムに関する。
従来、ニューラルネットワークによる画像の特徴抽出に関する技術が提供されている。例えば、畳み込みニューラルネットワーク(Convolutional Neural Network)により、画像の顕著性マップを生成する技術が提供されている。
Karen Simonyan, Andrea Vedaldi, Andrew Zisserman, "Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps", International Conference on Machine Learning(ICLR), Apr14-16, 2014, Banff, Canada. Misha Denil, Alban Demiraj, Nando de Freitas, "Extraction of Salient Sentences from Labelled Documents", International Conference on Machine Learning(ICLR), Apr14-16, 2015, San Diego, USA.
しかしながら、上記の従来技術では画像を適切に認識するために用いる情報が生成されるとは限らない。例えば、ニューラルネットワークにおける情報から画像を適切に認識するために用いる情報が生成されるとは限らない。
本願は、上記に鑑みてなされたものであって、ニューラルネットワークにおける情報から画像を適切に認識するために用いる情報を生成する生成装置、生成方法、及び生成プログラムを提供することを目的とする。
本願に係る生成装置は、画像中の所定の対象を認識するニューラルネットワークの中間層における中間画像群から、前記所定の対象の認識率向上に寄与する中間画像を抽出する抽出部と、前記抽出部により抽出された前記中間画像を合成した合成画像を生成する生成部と、を備えたことを特徴とする。
実施形態の一態様によれば、ニューラルネットワークにおける情報から画像を適切に認識するために用いる情報を生成することができるという効果を奏する。
図1は、実施形態に係る生成処理の一例を示す図である。 図2は、実施形態に係る生成装置の構成例を示す図である。 図3は、実施形態に係る学習情報記憶部の一例を示す図である。 図4は、実施形態に係る画像情報記憶部の一例を示す図である。 図5は、実施形態に係る中間画像群の取得の一例を示すフローチャートである。 図6は、実施形態に係る合成画像の生成の一例を示すフローチャートである。 図7は、実施形態に係る画像の加工の一例を示すフローチャートである。 図8は、実施形態に係る端末装置における加工画像の表示例を示す図である。 図9は、生成装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に、本願に係る生成装置、生成方法、及び生成プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る生成装置、生成方法、及び生成プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
(実施形態)
〔1.生成処理〕
まず、図1を用いて、実施形態に係る生成処理の一例について説明する。図1は、実施形態に係る生成処理の一例を示す図である。図1に示す生成装置100は、画像に含まれる所定の対象を認識し、その所定の対象が含まれる領域に基づいて画像を加工する。具体的には、生成装置100は、画像に含まれる犬の顔を認識し、画像中の犬の顔が含まれる領域をトリミングする。また、生成装置100がトリミングにより生成した画像は、例えば所定のコンテンツの画像として配信されるが、詳細は後述する。
図1に示すように、生成装置100には、画像IM11が入力される(ステップS11)。すなわち、生成装置100は、犬が写った画像IM11を取得する。画像IM11を取得した生成装置100は、所定の学習器に画像IM11を入力する。
ここで、生成装置100が用いる学習器について説明する。生成装置100が用いる学習器は、例えば、入力されたデータに対する演算結果を出力する複数のノードを多層に接続した学習器であって、教師あり学習により抽象化された画像の特徴を学習された学習器である。例えば、学習器は、複数のノードを有する層を多段に接続したニューラルネットワークであり、いわゆるディープラーニングの技術により実現されるDNN(Deep Neural Network)であってもよい。また、画像の特徴とは、画像に含まれる文字の有無、色、構成等、画像内に現れる具体的な特徴のみならず、撮像されている物体が何であるか、画像がどのような利用者に好かれるか、画像の雰囲気等、抽象化(メタ化)された画像の特徴をも含む概念である。
例えば、学習器は、ディープラーニングの技術により、以下のような学習手法により生成される。例えば、学習器は、各ノードの間の接続係数が初期化され、様々な特徴を有する画像が入力される。そして、学習器は、学習器における出力と、入力した画像との誤差が少なくなるようにパラメータ(接続係数)を補正するバックプロパゲーション(誤差逆伝播法)等の処理により生成される。例えば、学習器は、所定の損失(ロス)関数を最小化するようにバックプロパゲーション等の処理を行うことにより生成される。上述のような処理を繰り返すことで、学習器は、入力された画像をより良く再現できる出力、すなわち入力された画像の特徴を出力することができる。
なお、学習器の学習手法については、上述した手法に限定されるものではなく、任意の公知技術が適用可能である。また、学習器の学習を行う際に用いられる画像は、犬が含まれる画像や犬が含まれない画像等の種々の画像のデータセットを利用してもよい。また、学習器に対する画像の入力方法、学習器が出力するデータの形式、学習器に対して明示的に学習させる特徴の内容等は、任意の手法が適用できる。すなわち、生成装置100は、画像から抽象化された特徴を示す特徴量を算出できるのであれば、任意の学習器を用いることができる。
図1では、生成装置100は、入力画像の局所領域の畳み込みとプーリングとを繰り返す、いわゆる畳み込みニューラルネットワーク(Convolutional Neural Network)による学習器LEを用いるものとする。以下では、畳み込みニューラルネットワークをCNNと記載する場合がある。例えば、CNNによる学習器LEは、画像から特徴を抽出して出力する機能に加え、画像内に含まれる文字や撮像対象等の位置的変異に対し、出力の不変性を有する。このため、学習器LEは、画像の抽象化された特徴を精度良く算出することができる。
具体的には、図1では、生成装置100は、画像に犬が含まれるかを識別する識別器(モデル)である学習器LEを用いる。すなわち、図1では、生成装置100は、上述のような所定の学習処理により生成済みの学習器LEを用いるものとする。なお、図1では、生成装置100が犬を識別する学習器LEを用いる場合を示すが、生成装置100は、どのような学習器を用いてもよい。例えば、犬や猫等を含む複数の対象のうち、画像にどの対象が含まれるかを識別する学習器を用いてもよい。また、学習器LEを生成する際に用いられた損失関数を損失関数Lとして、以下説明する。なお、損失関数Lは、学習器LEの認識の精度を示すものであれば、どのような関数であってもよい。
図1では、画像IM11を取得した生成装置100は、学習器LEに画像IM11を入力する(ステップS12)。例えば、画像IM11が入力された学習器LEは、画像IM11に犬が含まれるかを識別する(ステップS13)。図1では、画像IM11には犬が含まれるため、学習器LEは、画像IM11に犬が写っていることを示す識別情報IRを生成する。なお、ステップS13は、学習器LEの動作を説明するための処理であり、行われなくてもよい。
ここで、学習器LEは、CNNにより生成された学習器であり、複数の中間層A〜C等を含む。そこで、生成装置100は、画像IM11を学習器LEに入力した際に所定の中間層における情報(以下、「中間画像」とする)を取得する。図1では、生成装置100は、画像IM11を学習器LEに入力した際に中間層Bにおける中間画像を取得する(ステップS14)。具体的には、生成装置100は、中間画像MM11〜MM19を含む中間画像群MG10を取得する。なお、図1では、中間画像MM11〜MM19において特徴を示す領域は、色が濃い態様で示す。例えば、中間画像MM12は、中央部に特徴を示す領域が含まれることを示す。また、例えば、中間画像MM16は、略特徴を示す領域が含まれないことを示す。
そして、生成装置100は、中間画像群MG10から、所定の対象の認識率向上に寄与する中間画像を抽出する(ステップS15)。図1では、生成装置100は、中間画像群MG10から、犬の認識率向上に寄与する中間画像を抽出する。例えば、生成装置100は、中間画像群MG10に含まれる中間画像MM11〜MM19の各々への加工に応じた犬の認識率の変化に基づいて、中間画像を抽出する。ここでいう中間画像の加工とは、中間画像の輝度を所定の値だけ増加させること等、目的に応じて種々の手段により行われてもよい。また、中間画像の加工とは、実際に中間画像の輝度等を変化させる操作に限らず、下記の式(1)や式(2)等において所定の値を算出するために行う概念的な操作であってもよい。また、加工により犬の認識率の変化を生じさせる中間画像は、犬の認識に影響を持つ中間画像であることが推定される。そのため、生成装置100は、加工により犬の認識率の変化を生じさせる中間画像を抽出する。なお、図1に示す例では、生成装置100は、加工により犬の認識率を向上させる中間画像を抽出する。
ここで、生成装置100は、各中間画像が加工により犬の認識率を向上させるかどうかを損失関数Lの変化により判定する。損失関数Lの変化は、例えば以下の式(1)により導出される。
Figure 0006158882
ここで、上記式(1)中の「I」は画像を示し、「f」はどの中間画像かを示し、「x」及び「y」はピクセルのインデックスを示す。以下の記載においては、「x,y」の記載を省略する。すなわち、図1では、「I」には、中間画像MM11〜MM19のいずれかが対応する。
また、上記式(1)の右辺中の第1項「L(I+δ)」は、「I」に対応する中間画像MM11〜MM19のいずれかを加工した場合の損失関数Lの値を示す。また、上記式(1)の右辺中の第2項「L(I)」は、中間画像MM11〜MM19のいずれにも加工を加えていない場合の損失関数Lの値を示す。例えば、「I」を中間画像MM11とした場合、上記式(1)の右辺中の第2項「L(I+δ)」は、中間画像MM11を加工した場合の損失関数Lの値を示す。すなわち、上記式(1)は、ある中間画像を加工した場合における損失関数Lの変化を示す。
例えば、ある中間画像を加工により上記式(1)の左辺の値がマイナス値となった場合、その中間画像は、損失関数Lをより小さくする、すなわち、犬の認識率の向上に寄与する中間画像と判定される。そこで、生成装置100は、加工により上記式(1)の左辺の値がマイナス値となった中間画像を抽出する。図1では、生成装置100は、中間画像MM12、MM14、MM17、MM18を抽出する。
そして、生成装置100は、ステップS15で抽出した中間画像MM12、MM14、MM17、MM18を合成する(ステップS16)。図1では、生成装置100は、中間画像MM12、MM14、MM17、MM18を合成することにより、合成画像CM11を生成する。
例えば、生成装置100は、以下の式(2)を用いて、ステップS15〜ステップS16の処理を行ってもよい。例えば、生成装置100は、以下の式(2)を用いて、中間画像群MG10から中間画像MM12、MM14、MM17、MM18を抽出しながら、合成画像CM11を生成してもよい。
Figure 0006158882
ここで、上記式(2)中の「F」は中間画像MM11〜MM19を含む中間画像群MG10を示す。また、上記式(2)中の「CIx、y」は合成画像を示す。上述の式(2)を用いて、生成装置100は、合成画像CM11を生成する。具体的には、生成装置100は、以下の式(2)を用いて、中間画像群「F」から上記式(1)の左辺の値がマイナス値となる中間画像のみを抽出し、抽出した中間画像から合成画像を生成する。図1の例では、生成装置100は、以下の式(2)を用いて、中間画像群MG10から上記式(1)の左辺の値がマイナス値となる中間画像MM12、MM14、MM17、MM18を抽出し、抽出した中間画像MM12、MM14、MM17、MM18から合成画像CM11を生成する。すなわち、生成装置100は、特徴を示す領域AR11を含む合成画像CM11を生成する。
また、例えば、生成装置100は、中間画像MM12、MM14、MM17、MM18を合成する際に、各中間画像の影響度に応じた重み付けを行ってもよい。
例えば、生成装置100は、以下の式(3)を用いて、中間画像MM12、MM14、MM17、MM18を合成した合成画像CM11を生成してもよい。
Figure 0006158882
ここで、上記式(3)中の「F」はステップS15において抽出された中間画像を含む中間画像群を示す。また、上記式(3)の右辺中の絶対値により示される値(|ΔL|)が、各中間画像の重みに対応する。また、上記式(3)中の「CIx、y」は合成画像を示す。上述の式(3)を用いて、生成装置100は、ステップS15において抽出された中間画像から合成画像を生成する。図1の例では、上記式(3)中の「F」は中間画像MM12、MM14、MM17、MM18を含む中間画像群に対応する。図1の例では、上記式(3)中の「CIx、y」は合成画像CM11に対応する。すなわち、上述の式(3)を用いて、生成装置100は、中間画像MM12、MM14、MM17、MM18から合成画像CM11を生成する。すなわち、生成装置100は、特徴を示す領域AR11を含む合成画像CM11を生成する。なお、上記式(3)は、重み付けの一例であって、上記式(1)の左辺の値が小さい程(犬の認識率の向上に寄与度が高い程)、重み付けが重くなるように合成画像CM11を生成すれば、どのような重み付けであってもよい。
その後、生成装置100は、合成画像CM11を用いて、画像IM11の特徴、すなわち犬の顔を含む領域を特定する(ステップS17)。すなわち、生成装置100は、画像IM11の特徴、すなわち犬の顔を含む領域AR11を特定する。
そして、生成装置100は、画像IM11のうち犬の顔を含む領域AR11をトリミングする(ステップS18)。これにより、生成装置100は、犬の顔を含む画像(以下、「加工画像IM12」とする場合がある)を生成する。
上述したように、生成装置100は、ニューラルネットワーク(図1ではCNN)における情報から画像を適切に認識するために用いる情報を生成する。図1では、生成装置100は、CNNの中間層における中間画像群MG10から、犬の認識率向上に寄与する中間画像を抽出する。そして、生成装置100は、抽出した中間画像を合成することにより、合成画像を生成する。すなわち、生成装置100は、犬の認識率向上に寄与する中間画像のみを用いて合成画像を生成する。したがって、生成装置100は、犬の特徴領域を精度よく示す合成画像を生成することができる。これにより、生成装置100は、画像に含まれる犬の顔を認識し、画像中の犬の顔が含まれる領域をトリミングすることができる。
なお、上記例においては、加工により上記式(1)の左辺の値がマイナス値となる中間画像を抽出する場合を示したが、生成装置100は、加工により上記式(1)の左辺の値がプラス値となる中間画像を抽出してもよい。この場合、抽出された中間画像は、損失関数Lをより大きくする、すなわち、犬の認識率に影響を与える中間画像と判定される。そこで、生成装置100は、加工により上記式(1)の左辺の値がプラス値となった中間画像を抽出して、合成画像を生成してもよい。
また、生成装置100は、加工により上記式(1)の左辺の値が所定の負の閾値以下のマイナス値となる中間画像と所定の正の閾値以上のプラス値となる中間画像との両方を抽出してもよい。すなわち、生成装置100は、加工により上記式(1)の左辺の値に基づく変化量が所定の範囲外となる中間画像を抽出する。すなわち、生成装置100は、加工により上記式(1)の左辺の値に基づく変化量が所定の範囲内となる、すなわち犬の認識率に与える影響が小さい中間画像以外の中間画像を抽出する。これにより、生成装置100は、犬の認識率に与える影響が大きい中間画像を抽出する。また、この場合、生成装置100は、所定の正規化を行うことにより、負の閾値以下のマイナス値となる中間画像と所定の正の閾値以上のプラス値となる中間画像との両方から合成画像を生成してもよい。
〔2.生成装置の構成〕
次に、図2を用いて、実施形態に係る生成装置100の構成について説明する。図2は、実施形態に係る生成装置100の構成例を示す図である。図2に示すように、生成装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、生成装置100は、生成装置100の管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
(通信部110)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、ネットワークと有線または無線で接続され、端末装置10との間で情報の送受信を行う。
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部120は、図2に示すように、学習情報記憶部121と、画像情報記憶部122とを有する。
(学習情報記憶部121)
実施形態に係る学習情報記憶部121は、学習に関する各種情報を記憶する。例えば、図3では、学習情報記憶部121は、所定の学習処理により生成された学習器LEに関する学習情報(モデル)を記憶する。図3に、実施形態に係る学習情報記憶部121の一例を示す。図3に示す学習情報記憶部121は、「重み(wij)」を記憶する。
例えば、図3に示す例において、「重み(w11)」は「0.2」であり、「重み(w12)」は「−0.3」であることを示す。また、図3に示す例において、「重み(w21)」は「0.5」であり、「重み(w22)」は「1.3」であることを示す。
なお、「重み(wij)」は、例えば、学習器LEにおけるニューロンyからニューロンxへのシナプス結合係数であってもよい。また、学習情報記憶部121は、上記に限らず、目的に応じて種々の情報を記憶してもよい。
(画像情報記憶部122)
実施形態に係る画像情報記憶部122は、画像に関する各種情報を記憶する。図4に、実施形態に係る画像情報記憶部122の一例を示す。図4に示す画像情報記憶部122は、「画像ID」、「画像」といった項目を有する。
「画像ID」は、画像を識別するための識別情報を示す。「画像」は、画像情報を示す。具体的には、「画像」は、トリミングにより生成した画像を示す。図4では、説明のため画像IDにより識別される画像を図示するが、「画像」としては、画像の格納場所を示すファイルパス名などが格納されてもよい。
例えば、図4に示す例において、画像ID「IM12」により識別される画像は、対象「犬」を含む画像であることを示す。なお、画像情報記憶部122は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、画像情報記憶部122は、画像を生成した日時に関する情報を記憶してもよい。また、例えば、画像情報記憶部122は、画像に含まれる対象に関する情報を記憶してもよい。図4では、画像ID「IM12」により識別される画像には、犬が含まれることを示す情報を記憶してもよい。また、例えば、画像情報記憶部122は、取得した元となる画像を記憶してもよい。
(制御部130)
図2の説明に戻って、制御部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、生成装置100内部の記憶装置に記憶されている各種プログラム(生成プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
図2に示すように、制御部130は、取得部131と、抽出部132と、生成部133と、加工部134と、送信部135とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図2に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、図2に示した接続関係に限られず、他の接続関係であってもよい。
(取得部131)
取得部131は、画像を取得する。例えば、取得部131は、外部の情報処理装置から画像を取得する。図1では、取得部131は、外部の情報処理装置から画像IM11を取得する。なお、画像情報記憶部122に元となる画像(例えば、画像IM11)が記憶される場合、取得部131は、画像情報記憶部122から画像(例えば、画像IM11)を取得してもよい。
(抽出部132)
抽出部132は、画像中の所定の対象を認識するニューラルネットワークの中間層における中間画像群から、所定の対象の認識率向上に寄与する中間画像を抽出する。例えば、抽出部132は、画像に含まれる犬を認識するニューラルネットワークの中間層における中間画像群から、犬の認識率向上に寄与する中間画像を抽出する。また、例えば、抽出部132は、畳み込み処理及びプーリング処理を行うニューラルネットワークの中間層における中間画像群から、所定の対象の認識率向上に寄与する中間画像を抽出する。例えば、抽出部132は、CNNの中間層における中間画像群から、所定の対象の認識率向上に寄与する中間画像を抽出する。
また、例えば、抽出部132は、中間画像群に含まれる中間画像の各々への加工に応じた所定の対象の認識率の変化に基づいて、中間画像を抽出する。例えば、抽出部132は、加工により所定の対象の認識率を向上させる中間画像を抽出する。例えば、抽出部132は、加工により上記式(1)の左辺の値がマイナス値となった中間画像を抽出する。図1では、抽出部132は、CNNの中間層における中間画像群MG10から、犬の認識率向上に寄与する中間画像MM12、MM14、MM17、MM18を抽出する。
(生成部133)
生成部133は、抽出部132により抽出された中間画像を合成した合成画像を生成する。例えば、生成部133は、加工による所定の対象の認識率の変化に応じて重み付けした中間画像を合成した合成画像を生成する。例えば、生成部133は、上記式(2)を用いて、加工による所定の対象の認識率の変化に応じて重み付けした中間画像を合成した合成画像を生成する。図1では、生成部133は、中間画像MM12、MM14、MM17、MM18を合成した合成画像CM11を生成する。
(加工部134)
加工部134は、合成画像に基づいて、画像から所定の対象が含まれる領域の画像を取り出す。例えば、加工部134は、合成画像に基づいて、画像から犬の顔が含まれる領域の画像を取り出す。図1では、加工部134は、合成画像CM11を用いて特定された画像IM11の特徴、すなわち犬の顔を含む領域AR11をトリミングする。例えば、加工部134は、画像IM11のうち犬の顔を含む領域AR11をトリミングする。これにより、加工部134は、犬の顔を含む加工画像IM12を生成する。
(送信部135)
送信部135は、外部の情報処理装置へ各種情報を送信する。例えば、送信部135は、加工部134により生成された画像を外部の情報処理装置へ送信する。図1では、送信部135は、加工画像IM12を配信する。また、送信部135は、生成装置100がコンテンツを配信する場合、コンテンツを要求した端末装置へ加工画像IM12を含むコンテンツを送信してもよい。
〔3.中間画像の取得処理のフロー〕
ここで、図5を用いて、実施形態に係る生成装置100による中間画像の取得処理の手順について説明する。図5は、実施形態に係る中間画像群の取得の一例を示すフローチャートである。
図5に示すように、生成装置100は、画像を取得する(ステップS101)。図1では、生成装置100は、画像IM11を取得する。その後、生成装置100は、ステップS101で取得した画像を学習器に入力する(ステップS102)。図1では、生成装置100は、取得した画像IM11を学習器LEに入力する。
その後、生成装置100は、入力した画像における中間層から中間画像群を取得する(ステップS103)。図1では、生成装置100は、画像IM11を学習器LEに入力した際に中間層Bにおける中間画像群MG10を取得する。例えば、生成装置100は、画像IM11を学習器LEに入力した際に中間層Bにおける中間画像MM11〜MM19を取得する。
〔4.合成画像の生成処理のフロー〕
次に、図6を用いて、実施形態に係る生成装置100による合成画像の生成処理の手順について説明する。図6は、実施形態に係る合成画像の生成の一例を示すフローチャートである。
図6に示すように、生成装置100は、変数nを1に設定する(ステップS201)。その後、生成装置100は、中間画像群MG10からn番目の中間画像を選択する(ステップS202)。例えば、図1の場合、生成装置100は、中間画像群MG10から、nに応じて中間画像MM11〜MM19のいずれかを選択する。例えば、図1の場合、生成装置100は、中間画像群MG10から1番目(n=1)の中間画像MG11を選択する。
そして、生成装置100は、選択した中間画像を加工する(ステップS203)。例えば、生成装置100は、選択した中間画像の輝度を所定の値だけ増加させる。図1では、生成装置100は、選択した中間画像MM11の輝度を所定の値だけ増加させる。
その後、生成装置100は、選択した中間画像への加工により認識率が向上したかを判定する(ステップS204)。例えば、生成装置100は、選択した中間画像を加工により上記式(1)の左辺の値がマイナス値となった場合、選択した中間画像は、損失関数Lをより小さくする、すなわち、犬の認識率の向上に寄与する中間画像と判定する。
生成装置100は、選択した中間画像への加工により認識率が向上したと判定した場合(ステップS204:Yes)、選択した中間画像を抽出する(ステップS205)。図1では、例えば、生成装置100は、選択した中間画像MM12への加工により認識率が向上したと判定した場合、中間画像MM12を抽出画像群MG11として抽出する。その後、ステップS206以降の処理を行う。
一方、生成装置100は、選択した中間画像への加工により認識率が向上しないと判定した場合(ステップS204:No)、その中間画像を抽出することなく、ステップS206以降の処理を行う。図1では、例えば、生成装置100は、選択した中間画像MM11への加工により認識率が向上しないと判定した場合、中間画像MM11を抽出画像群MG11として抽出することなく、ステップS206以降の処理を行う。
その後、生成装置100は、中間画像群の全中間画像が選択済みかどうかを判定する(ステップS206)。中間画像群の全中間画像が選択済みでない場合(ステップS206:No)、生成装置100は、変数nを1加算する(ステップS207)。その後、生成装置100は、ステップS202に戻り処理を繰り返す。
一方、中間画像群の全中間画像が選択済みである場合(ステップS206:Yes)、生成装置100は、抽出した中間画像の合成により、合成画像を生成する(ステップS208)。図1では、生成装置100は、抽出画像群MG11に含まれる中間画像MM12、MM14、MM17、MM18を合成することにより、合成画像CM11を生成する。例えば、生成装置100は、上記式(2)を用いて、中間画像MM12、MM14、MM17、MM18を合成した合成画像CM11を生成してもよい。
〔5.合成画像を用いた画像加工処理のフロー〕
次に、図7を用いて、実施形態に係る生成装置100による合成画像を用いた画像の加工処理の手順について説明する。図7は、実施形態に係る画像の加工の一例を示すフローチャートである。
図7に示すように、生成装置100は、画像を取得する(ステップS301)。図1では、生成装置100は、画像IM11を取得する。例えば、生成装置100は、画像情報記憶部122から画像IM11を取得してもよい。その後、生成装置100は、ステップS301で取得した画像に対応する合成画像を取得する(ステップS302)。図1では、生成装置100は、学習器LEから抽出した中間画像MM12、MM14、MM17、MM18を合成した合成画像CM11を取得する。
その後、生成装置100は、合成画像に基づいて画像中の特徴領域を特定する(ステップS303)。図1では、生成装置100は、合成画像CM11を用いて、画像IM11の特徴、すなわち犬の顔を含む領域を特定する。すなわち、生成装置100は、画像IM11の特徴、すなわち犬の顔を含む領域AR11を特定する。
その後、生成装置100は、特定した特徴領域に基づいて画像を加工する(ステップS304)。図1では、生成装置100は、画像IM11のうち犬の顔を含む領域AR11をトリミングする。これにより、生成装置100は、犬の顔を含む加工画像IM12を生成する。
〔6.画像の表示例〕
次に、図8を用いて、生成装置100により生成された加工画像IM12の表示例を示す。図8は、実施形態に係る端末装置における加工画像の表示例を示す図である。
図8に示す端末装置10には、所定のコンテンツ配信装置から配信されたコンテンツCT11〜CT14が表示される。なお、生成装置100がコンテンツを配信する場合、コンテンツCT11〜CT14は生成装置100から端末装置10へ送信されてもよい。
図8に示す例においては、コンテンツCT14の画像には加工画像IM12が用いられる。このように、加工画像IM12は、端末装置10においてスクロール方向に並べて表示されるコンテンツの画像として用いられてもよい。
〔7.効果〕
上述してきたように、実施形態に係る生成装置100は、抽出部132と、生成部133とを有する。抽出部132は、画像中の所定の対象を認識するニューラルネットワークの中間層における中間画像群から、所定の対象の認識率向上に寄与する中間画像を抽出する。生成部133は、抽出部132により抽出された中間画像を合成した合成画像を生成する。
これにより、実施形態に係る生成装置100は、ニューラルネットワークの中間層における中間画像群から、所定の対象の認識率向上に寄与する中間画像を抽出する。そして、生成装置100は、抽出した中間画像を合成することにより、合成画像を生成する。すなわち、生成装置100は、所定の対象の認識率向上に寄与する中間画像を用いて適切に合成画像を生成する。このように、生成装置100は、ニューラルネットワークにおける情報から画像を適切に認識するために用いる情報を生成することができる。
また、実施形態に係る生成装置100において、抽出部132は、中間画像群に含まれる中間画像の各々への加工に応じた所定の対象の認識率の変化に基づいて、中間画像を抽出する。
これにより、実施形態に係る生成装置100は、ニューラルネットワークの中間層における中間画像群から、加工に応じた所定の対象の認識率の変化に基づいて中間画像を抽出する。したがって、生成装置100は、所定の対象の認識率向上に寄与する中間画像を用いて適切に合成画像を生成することができる。
また、実施形態に係る生成装置100において、抽出部132は、加工により所定の対象の認識率を向上させる中間画像を抽出する。
これにより、実施形態に係る生成装置100は、ニューラルネットワークの中間層における中間画像群から、加工により所定の対象の認識率を向上させる中間画像を抽出する。したがって、生成装置100は、所定の対象の認識率向上に寄与する中間画像を用いて適切に合成画像を生成することができる。
また、実施形態に係る生成装置100において、生成部133は、加工による所定の対象の認識率の変化に応じて重み付けした中間画像を合成した合成画像を生成する。
これにより、実施形態に係る生成装置100は、加工による所定の対象の認識率の変化に応じて重み付けすることにより、ニューラルネットワークの中間層における中間画像を用いて適切に合成画像を生成することができる。
また、実施形態に係る生成装置100は、加工部134を有する。加工部134は、生成部133により生成された合成画像に基づいて、画像を加工する。
これにより、実施形態に係る生成装置100は、画像に含まれる対象を含む特徴領域を示す合成画像に基づいて、適切に画像を加工することができる。
また、実施形態に係る生成装置100において、加工部134は、合成画像に基づいて、画像から所定の対象が含まれる領域の画像を取り出す。
これにより、実施形態に係る生成装置100は、画像に含まれる対象を含む特徴領域を示す合成画像に基づいて、画像中の対象が含まれる領域を適切に取り出す(トリミングする)ことができる。
また、実施形態に係る生成装置100において、抽出部132は、畳み込み処理及びプーリング処理を行うニューラルネットワークの中間層における中間画像群から、所定の対象の認識率向上に寄与する中間画像を抽出する。
これにより、実施形態に係る生成装置100は、畳み込みニューラルネットワーク(CNN)の中間層における中間画像群から、加工により所定の対象の認識率を向上させる中間画像を抽出する。したがって、生成装置100は、所定の対象の認識率向上に寄与する中間画像を用いて適切に合成画像を生成することができる。
〔8.ハードウェア構成〕
上述してきた実施形態に係る生成装置100は、例えば図9に示すような構成のコンピュータ1000によって実現される。図9は、生成装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、ネットワークNを介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータをネットワークNを介して他の機器へ送信する。
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が実施形態に係る生成装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置からネットワークNを介してこれらのプログラムを取得してもよい。
以上、本願の実施形態を図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の行に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
〔9.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上述してきた実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
100 生成装置
121 学習情報記憶部
122 画像情報記憶部
130 制御部
131 取得部
132 抽出部
133 生成部
134 加工部
135 送信部

Claims (8)

  1. 画像中の所定の対象を認識するニューラルネットワークの中間層における中間画像群から、前記中間画像群に含まれる中間画像の各々への加工に応じた前記所定の対象の認識率の変化に基づいて、前記所定の対象の認識率向上に寄与する中間画像を抽出する抽出部と、
    前記抽出部により抽出された前記中間画像を合成した合成画像を生成する生成部と、
    を備えることを特徴とする生成装置。
  2. 前記抽出部は、
    前記加工により前記所定の対象の認識率を向上させる前記中間画像を抽出する
    ことを特徴とする請求項に記載の生成装置。
  3. 前記生成部は、
    前記加工による前記所定の対象の認識率の変化に応じて重み付けした前記中間画像を合成した合成画像を生成する
    ことを特徴とする請求項または請求項に記載の生成装置。
  4. 前記生成部により生成された前記合成画像に基づいて、前記画像を加工する加工部、
    をさらに備えることを特徴とする請求項1〜のいずれか1項に記載の生成装置。
  5. 前記加工部は、
    前記合成画像に基づいて、前記画像から前記所定の対象が含まれる領域の画像を取り出す
    ことを特徴とする請求項に記載の生成装置。
  6. 前記抽出部は、
    畳み込み処理及びプーリング処理を行うニューラルネットワークの中間層における中間画像群から、前記所定の対象の認識率向上に寄与する中間画像を抽出する
    ことを特徴とする請求項1〜のいずれか1項に記載の生成装置。
  7. コンピュータが実行する生成方法であって、
    画像中の所定の対象を認識するニューラルネットワークの中間層における中間画像群から、前記中間画像群に含まれる中間画像の各々への加工に応じた前記所定の対象の認識率の変化に基づいて、前記所定の対象の認識率向上に寄与する中間画像を抽出する抽出工程と、
    前記抽出工程により抽出された前記中間画像を合成した合成画像を生成する生成工程と、
    を含むことを特徴とする生成方法。
  8. 画像中の所定の対象を認識するニューラルネットワークの中間層における中間画像群から、前記中間画像群に含まれる中間画像の各々への加工に応じた前記所定の対象の認識率の変化に基づいて、前記所定の対象の認識率向上に寄与する中間画像を抽出する抽出手順と、
    前記抽出手順により抽出された前記中間画像を合成した合成画像を生成する生成手順と、
    をコンピュータに実行させることを特徴とする生成プログラム。
JP2015184742A 2015-09-18 2015-09-18 生成装置、生成方法、及び生成プログラム Active JP6158882B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015184742A JP6158882B2 (ja) 2015-09-18 2015-09-18 生成装置、生成方法、及び生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015184742A JP6158882B2 (ja) 2015-09-18 2015-09-18 生成装置、生成方法、及び生成プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2017051067A Division JP6214073B2 (ja) 2017-03-16 2017-03-16 生成装置、生成方法、及び生成プログラム

Publications (2)

Publication Number Publication Date
JP2017059090A JP2017059090A (ja) 2017-03-23
JP6158882B2 true JP6158882B2 (ja) 2017-07-05

Family

ID=58391649

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015184742A Active JP6158882B2 (ja) 2015-09-18 2015-09-18 生成装置、生成方法、及び生成プログラム

Country Status (1)

Country Link
JP (1) JP6158882B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7146372B2 (ja) * 2017-06-21 2022-10-04 キヤノン株式会社 画像処理装置、撮像装置、画像処理方法、プログラム、および、記憶媒体
JP6352512B1 (ja) * 2017-08-22 2018-07-04 株式会社 ディー・エヌ・エー 信号処理装置、信号処理方法、信号処理プログラム、及びデータ構造
JP6554193B1 (ja) 2018-01-30 2019-07-31 三菱電機インフォメーションシステムズ株式会社 記入領域抽出装置および記入領域抽出プログラム
JP6757349B2 (ja) 2018-03-12 2020-09-16 株式会社東芝 固定小数点を用いて認識処理を行う多層の畳み込みニューラルネットワーク回路を実現する演算処理装置
JP7135504B2 (ja) * 2018-07-02 2022-09-13 カシオ計算機株式会社 画像識別装置、画像識別方法及びプログラム
JP7055769B2 (ja) * 2019-04-23 2022-04-18 株式会社東芝 データ生成装置、データ生成方法およびプログラム
JP7179705B2 (ja) * 2019-09-09 2022-11-29 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
JPWO2023157439A1 (ja) * 2022-02-18 2023-08-24

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0447474A (ja) * 1990-06-14 1992-02-17 Canon Inc ニューラルネットワークを用いた画像処理方式
JPH05101187A (ja) * 1991-10-09 1993-04-23 Kawasaki Steel Corp 画像認識装置及びその学習方法
JPH0830728A (ja) * 1994-07-12 1996-02-02 Suzuki Motor Corp 画像の二値化装置
JP5997545B2 (ja) * 2012-08-22 2016-09-28 キヤノン株式会社 信号処理方法及び信号処理装置
JP6137916B2 (ja) * 2013-04-01 2017-05-31 キヤノン株式会社 信号処理装置、信号処理方法、及び、信号処理システム

Also Published As

Publication number Publication date
JP2017059090A (ja) 2017-03-23

Similar Documents

Publication Publication Date Title
JP6158882B2 (ja) 生成装置、生成方法、及び生成プログラム
CN108140032B (zh) 用于自动视频概括的设备和方法
US10726304B2 (en) Refining synthetic data with a generative adversarial network using auxiliary inputs
JP6843086B2 (ja) 画像処理システム、画像においてマルチラベル意味エッジ検出を行う方法、および、非一時的コンピューター可読記憶媒体
US10534981B2 (en) Media content analysis system and method
JP6099793B2 (ja) 1つ以上の画像処理アルゴリズムの自動選択のための方法およびシステム
JP6458394B2 (ja) 対象追跡方法及び対象追跡装置
JP6960722B2 (ja) 生成装置、生成方法、及び生成プログラム
US9299004B2 (en) Image foreground detection
KR102008290B1 (ko) 영상에서 객체의 행동을 인식하는 방법 및 그 장치
US10019823B2 (en) Combined composition and change-based models for image cropping
US9779329B2 (en) Image processing apparatus, image processing method and program
US11620480B2 (en) Learning method, computer program, classifier, and generator
CN110909868A (zh) 基于图神经网络模型的节点表示方法和装置
JP2023502140A (ja) タスク固有のデータ利用のための物理学により誘導されたディープマルチモーダル埋め込みのための方法及び装置
JP6214073B2 (ja) 生成装置、生成方法、及び生成プログラム
JP6389742B2 (ja) 画像セグメンテーション方法、装置、及びプログラム
JP2013120441A (ja) 画像識別情報付与プログラム及び画像識別情報付与装置
Sharjeel et al. Real time drone detection by moving camera using COROLA and CNN algorithm
WO2024145343A1 (en) Avatar generation according to artistic styles
JP7054603B2 (ja) 判定装置、判定方法、及び判定プログラム
CN111435457B (zh) 对传感器获取的采集进行分类的方法
WO2020170803A1 (ja) 拡張装置、拡張方法及び拡張プログラム
JP2014149788A (ja) 物体領域境界推定装置、物体領域境界推定方法及び物体領域境界推定プログラム
KR101592087B1 (ko) 배경 영상의 위치를 이용한 관심맵 생성 방법 및 이를 기록한 기록 매체

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20161220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170316

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20170328

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170608

R150 Certificate of patent or registration of utility model

Ref document number: 6158882

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250