JP6960722B2 - 生成装置、生成方法、及び生成プログラム - Google Patents

生成装置、生成方法、及び生成プログラム Download PDF

Info

Publication number
JP6960722B2
JP6960722B2 JP2016106559A JP2016106559A JP6960722B2 JP 6960722 B2 JP6960722 B2 JP 6960722B2 JP 2016106559 A JP2016106559 A JP 2016106559A JP 2016106559 A JP2016106559 A JP 2016106559A JP 6960722 B2 JP6960722 B2 JP 6960722B2
Authority
JP
Japan
Prior art keywords
image
intermediate images
generation
generation device
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016106559A
Other languages
English (en)
Other versions
JP2017211939A (ja
Inventor
智大 田中
直晃 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2016106559A priority Critical patent/JP6960722B2/ja
Priority to US15/455,711 priority patent/US10445910B2/en
Publication of JP2017211939A publication Critical patent/JP2017211939A/ja
Application granted granted Critical
Publication of JP6960722B2 publication Critical patent/JP6960722B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、生成装置、生成方法、及び生成プログラムに関する。
従来、ニューラルネットワークによる画像の特徴抽出に関する技術が提供されている。例えば、畳み込みニューラルネットワーク(Convolutional Neural Network)により、画像の顕著性マップを生成する技術が提供されている。また、ニューラルネットワークにより、画像に含まれる対象物を識別する技術が提供されている。
Ligang Liu, Renjie, Chen Lior Wolf, Daniel Cohen-Or, "Optimizing Photo Composition", Computer Graphics Forum, The Eurographics Association and Blackwell Publishing Ltd, 2010 Karen Simonyan, Andrea Vedaldi, Andrew Zisserman, "Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps", International Conference on Machine Learning(ICLR), Apr14-16, 2014, Banff, Canada. Misha Denil, Alban Demiraj, Nando de Freitas, "Extraction of Salient Sentences from Labelled Documents", International Conference on Machine Learning(ICLR), Apr14-16, 2015, San Diego, USA. Jianming Zhang, Shugao Ma, Mehrnoosh Sameki, Stan Sclaroff, Margrit Betke, Zhe Lin, Xiaohui Shen, Brian Price, Radomir Mech "Salient Object Subitizing", The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015, pp. 4045-4054
しかしながら、上記の従来技術では画像を適切に認識するために用いる情報が生成されるとは限らない。例えば、画像に含まれる対象物を識別するのみでは、ニューラルネットワークにおける情報から画像を適切に認識するために用いる情報が生成されるとは限らない。
本願は、上記に鑑みてなされたものであって、ニューラルネットワークにおける情報から画像を適切に認識するために用いる情報を生成する生成装置、生成方法、及び生成プログラムを提供することを目的とする。
本願に係る生成装置は、画像中の対象物の数を認識するニューラルネットワークの中間層における中間画像を取得する取得部と、前記取得部により取得された前記中間画像を合成した合成画像を生成する生成部と、を備えたことを特徴とする。
実施形態の一態様によれば、ニューラルネットワークにおける情報から画像を適切に認識するために用いる情報を生成することができるという効果を奏する。
図1は、実施形態に係る生成処理の一例を示す図である。 図2は、実施形態に係る生成処理の一例を示す図である。 図3は、実施形態に係る生成装置の構成例を示す図である。 図4は、実施形態に係る学習情報記憶部の一例を示す図である。 図5は、実施形態に係る画像情報記憶部の一例を示す図である。 図6は、実施形態に係る合成画像の生成の一例を示すフローチャートである。 図7は、実施形態に係る画像の加工の一例を示すフローチャートである。 図8は、実施形態に係る端末装置における加工画像の表示例を示す図である。 図9は、実施形態に係るアスペクト比に基づく加工画像の生成例を示す図である。 図10は、生成装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に、本願に係る生成装置、生成方法、及び生成プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る生成装置、生成方法、及び生成プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
(実施形態)
〔1.生成処理〕
図1及び図2を用いて、実施形態に係る生成処理の一例について説明する。図1及び図2は、実施形態に係る生成処理の一例を示す図である。例えば、図1及び図2に示す生成システム1には、生成装置100や、画像の加工を依頼する依頼主の端末装置(図示省略)等が含まれる。図1に示す生成装置100は、画像に含まれる対象物の数を認識する学習器から取得した中間画像を用いて画像を加工する。具体的には、生成装置100は、学習器から取得した中間画像を用いて画像の所定の領域ごとにスコアを算出し、スコアに基づいて画像をクロッピングする。例えば、画像に含まれる対象物の数を認識する学習器については、非特許文献4に示すようなCNN(Convolutional Neural Network)での個数の検出等の種々の従来技術を適宜用いて生成された学習器であってもよい。なお、ここでいうクロッピングとは画像から所定の領域を切り取る処理をいう。また、生成装置100がクロッピングにより生成した画像は、例えば所定のコンテンツの画像として配信されるが、詳細は後述する。
まず、図1を用いて、生成装置100による合成画像の生成処理について説明する。図1に示すように、生成装置100には、画像IM10が入力される(ステップS11)。例えば、生成装置100は、対象物として親猿(画像IM10内の対象物OB1)とその親猿に抱えられた子猿(画像IM10内の対象物OB2)が写った画像IM10を取得する。画像IM10を取得した生成装置100は、所定の学習器に画像IM10を入力する。なお、対象物は、猿に限らず、人間等の他の生物や植物や車等の種々の物体等であってもよい。また、ここでいう対象物は、識別可能であれば種々の対象が含まれてもよく、例えば火や海の波など種々の現象等が含まれてもよい。
ここで、生成装置100が用いる学習器について説明する。生成装置100が用いる学習器は、例えば、入力されたデータに対する演算結果を出力する複数のノードを多層に接続した学習器であって、教師あり学習により抽象化された画像の特徴を学習された学習器である。例えば、学習器は、複数のノードを有する層を多段に接続したニューラルネットワークであり、いわゆるディープラーニングの技術により実現されるDNN(Deep Neural Network)であってもよい。また、画像の特徴とは、画像に含まれる文字の有無、色、構成等、画像内に現れる具体的な特徴のみならず、撮像されている物体が何であるか、画像がどのような利用者に好かれるか、画像の雰囲気等、抽象化(メタ化)された画像の特徴をも含む概念である。
例えば、学習器は、ディープラーニングの技術により、以下のような学習手法により生成される。例えば、学習器は、各ノードの間の接続係数が初期化され、様々な特徴を有する画像が入力される。そして、学習器は、学習器における出力と、入力した画像との誤差が少なくなるようにパラメータ(接続係数)を補正するバックプロパゲーション(誤差逆伝播法)等の処理により生成される。例えば、学習器は、所定の損失(ロス)関数を最小化するようにバックプロパゲーション等の処理を行うことにより生成される。上述のような処理を繰り返すことで、学習器は、入力された画像をより良く再現できる出力、すなわち入力された画像の特徴を出力することができる。
なお、学習器の学習手法については、上述した手法に限定されるものではなく、任意の公知技術が適用可能である。また、学習器の学習を行う際に用いられる情報は、画像及びその画像に含まれる対象物の数等の種々の画像のデータセットを利用してもよい。学習器の学習を行う際に用いられる情報は、対象物が1つ含まれる画像及び対象物が1つであることを示す情報のセットや、対象物が複数(例えば2つ)含まれる画像及び対象物が複数(例えば2つ)であることを示す情報のセットや、対象物が含まれない画像及び対象物が含まれない(0である)ことを示す情報のセット等を利用してもよい。また、学習器に対する画像の入力方法、学習器が出力するデータの形式、学習器に対して明示的に学習させる特徴の内容等は、任意の手法が適用できる。すなわち、生成装置100は、画像から抽象化された特徴を示す特徴量を算出できるのであれば、任意の学習器を用いることができる。
図1では、生成装置100は、入力画像の局所領域の畳み込みとプーリングとを繰り返す、いわゆる畳み込みニューラルネットワーク(Convolutional Neural Network)による学習器LEを用いるものとする。以下では、畳み込みニューラルネットワークをCNNと記載する場合がある。例えば、CNNによる学習器LEは、画像から特徴を抽出して出力する機能に加え、画像内に含まれる文字や撮像対象等の位置的変異に対し、出力の不変性を有する。このため、学習器LEは、画像の抽象化された特徴を精度良く算出することができる。
例えば、図1では、生成装置100は、画像に含まれる対象物の数を識別する識別器(モデル)である学習器LEを用いる。すなわち、図1では、生成装置100は、上述のような所定の学習処理により生成済みの学習器LEを用いるものとする。なお、図1では、生成装置100が画像に含まれる対象物の数を識別する学習器LEを用いる場合を示すが、生成装置100は、どのような学習器を用いてもよい。例えば、1つの対象物が画像に含まれるかを識別する学習器や2つの対象物が画像に含まれるかを識別する学習器や画像に対象物が含まれていないかを識別する学習器を用いてもよい。また、学習器LEを生成する際に用いられた損失関数とは別に、学習器LEの認識時の認識結果の確信度を示す関数を導入し関数Lとして、以下説明する。なお、関数Lは、認識結果の確信度を表すものであれば、どのような関数であっても良い。例えば、関数Lは、識別確率から求められるエントロピーであってもよい。また、例えば、関数Lは、学習器LEの認識の精度を示すものであれば、どのような関数であってもよい。また、図1で用いる関数Lの詳細は後述する。
図1では、画像IM10を取得した生成装置100は、学習器LEに入力するために画像IM10を補正する(ステップS12)。例えば、生成装置100は、画像IM10のアスペクト比を1:1に補正することにより、画像IM11を生成する。このように、図1では、生成装置100は、画像IM10をリサイズすることにより、アスペクト比が1:1である画像IM11を生成する。上述したアスペクト比の変更等の画像を補正する処理には、スムージング等の種々の従来技術が適宜用いられてもよい。
なお、画像IM10がそのまま学習器LEに入力可能である場合、生成装置100は、画像IM10を学習器LEに入力してもよい。すなわち、画像IM10と画像IM11とは同一の画像であってもよい。例えば、学習器LEがどのようなアスペクト比の画像であっても入力可能である場合、画像IM10と画像IM11とは同一の画像であってもよい。例えば、ステップS12の処理は、学習器LEにおいて行われてもよい。
図1では、生成装置100は、学習器LEに画像IM11を入力する(ステップS13)。なお、生成装置100は、画像IM10を学習器LEに入力してもよい。例えば、学習器LEは、画像IM11に含まれる対象物の数を識別する(ステップS14)。図1では、画像IM10には対象物として親猿とその親猿に抱えられた子猿が含まれるため、学習器LEは、画像IM10に含まれる対象物の数が1か2である可能性が高いことを示す識別情報IR11を生成する。なお、ステップS14は、学習器LEの動作を説明するための処理であり、行われなくてもよい。なお、学習器LEが出力する情報は、対象物の数の識別に関する情報であればどのような情報であってもよく、識別情報IR11を生成可能な情報であってもよい。例えば、学習器LEが画像に含まれる対象物の数が1であるかを識別する場合、学習器LEは、画像IM10に対象物が1つ含まれることを示す識別情報を生成してもよい。
ここで、学習器LEは、CNNにより生成された学習器であり、複数の中間層A〜C等を含む。そこで、生成装置100は、画像IM10を学習器LEに入力した際に所定の中間層における情報(以下、「中間画像」とする)を取得する。図1では、生成装置100は、画像IM10を学習器LEに入力した際に中間層Bにおける中間画像を取得する(ステップS15)。具体的には、生成装置100は、中間画像MM11〜MM19を含む中間画像群MG10を取得する。なお、図1では、中間画像MM11〜MM19において特徴を示す領域は、色が濃い態様で示す。例えば、中間画像MM12は、中央部に特徴を示す領域が含まれることを示す。また、例えば、中間画像MM16は、特徴を示す領域がほとんど含まれないことを示す。
そして、生成装置100は、ステップS15で取得した中間画像群MG10に含まれる中間画像MM11〜MM19を合成する(ステップS16)。図1では、生成装置100は、中間画像MM11〜MM19を合成することにより、合成画像CM10を生成する。図1では、生成装置100は、中間画像MM11〜MM19の各々への加工に応じた対象物の数の認識の変化に基づいて、重み付けした中間画像MM11〜MM19を合成した合成画像CM10を生成する。
ここで、関数Lの詳細について説明する。図1では、例えば、関数Lは以下の式(1)により算出される。
Figure 0006960722
ここで、上記式(1)や下記の式(2)〜(5)中の「x」は画像を示し、「f」はどの中間画像かを示し、「i」及び「j」はピクセルのインデックスを示す。以下の記載においては、「i,j」の記載を省略する。すなわち、図1では、「x」には、中間画像MM11〜MM19のいずれかが対応する。
また、上記式(1)の左辺中の「L(x)」は、「x」に対応する中間画像MM11〜MM19のいずれかの関数Lの値を示す。また、cには、識別(分類)される対象物の数が入力される。例えば、学習器LEが対象物の数を0、1、2、3、4以上のいずれであるかを識別する場合、cは1から4までとなる。また、上記式(1)の右辺中の「p」は、各対象物の数である確率を示す。例えば、「p」は、対象物の数が1である確率に対応する。また、上記式(1)の右辺中の「log」の底は、例えば「2」等種々の値であってもよい。
「L(x)」はcに1〜4の各々が代入された場合の総和となる。この場合、上記式(1)で算出される「L(x)」は、例えば、平均情報量(エントロピー)に対応する。例えば、関数Lの取り得る値は以下の式(2)の範囲となる。
Figure 0006960722
例えば、学習器LEが対象物の数を0、1、2、3、4以上のいずれであるかを識別する場合、上記式(2)中の「N」は「5」となる。例えば、上記式(2)中の「log」の底を「2」とした場合、「L(x)」が取り得る最大値「logN」は「2.32…」となる。
上述のように、生成装置100は、中間画像MM11〜MM19の各々への加工に応じた対象物の数の認識の変化に基づいて、重み付けした中間画像MM11〜MM19を合成した合成画像CM10を生成する。ここでいう中間画像の加工とは、中間画像の輝度を所定の値だけ増加させること等、目的に応じて種々の手段により行われてもよい。また、中間画像の加工とは、実際に中間画像の輝度等を変化させる操作に限らず、下記の式(3)等において所定の値を算出するために行う概念的な操作であってもよい。また、加工により対象物の数の認識率の変化を生じさせる中間画像は、入力された画像に含まれる対象物の数の認識に影響を持つ中間画像であることが推定される。
ここで、生成装置100は、各中間画像が加工により対象物の数の認識率に影響を与えるかどうかを関数Lの変化により判定する。関数Lの変化は、例えば以下の式(3)により導出される。
Figure 0006960722
ここで、上記式(3)の左辺中の「L(x+εx)」は、中間画像MM11〜MM19の各々を加工した場合の関数Lの合計値を示す。また、上記式(3)の右辺中の「L(x)」は、中間画像MM11〜MM19のいずれにも加工を加えていない場合の関数Lの合計値を示す。このように、上記式(3)の左辺は、例えば、関数Lの変化を示す。なお、「ε」は1に比べて非常に小さい値であり、「εx」は微小な変化値である。また、上記式(3)の左辺中の「Σ」の項は、中間画像MM11〜MM19の各々を加工した場合における関数Lの変化量の総和を示す。このように、上記式(3)においては、右辺中の変数「u」は、以下のように示される。
Figure 0006960722
上記のように、「u」は、対応する中間画像MM11〜MM19を加工した場合における関数Lの変化量を示す。また、生成装置100が生成する合成画像CM10は、「u」を用いて以下の式(5)により求まる。
Figure 0006960722
ここで、上記式(5)中の右辺中の「F」は所定の関数を示す。例えば、「F」は「u」の値が大きい程、大きな値を返す関数であってもよい。なお、「F」は、対象物の数の認識率の向上に寄与度が高い程、大きな値となればどのような関数であってもよい。
また、上記式(5)中の「s」は合成画像を示し、「i」及び「j」はピクセルのインデックスを示す。例えば、図1では、「sij」は、合成画像CM10における各画素に対応する中間画像MM11〜MM19の画素に基づく値の合計となる。例えば、「s11」は、合成画像CM10における各画素(1,1)に対応する中間画像MM11〜MM19の画素に基づく値の合計となる。
上記式(5)により、生成装置100は、中間画像MM11〜MM19の各々への加工に応じた対象物の数の認識の変化に基づいて、重み付けした中間画像MM11〜MM19を合成した合成画像CM10を生成する。図1の例では、合成画像CM10のサイズと画像IM11とのサイズは同じであり、合成画像CM10は、画像IM11における各画素の特徴量を示す。なお、ここでいう特徴量は、例えば、特徴量を示す数値である。具体的には、合成画像CM10を構成する各点(画素)の位置は、画像IM11に重畳させた場合に画像IM11において重なる位置に対応し、合成画像CM10は、画像IM11において対応する画素の特徴量を示す。なお、図1中の合成画像CM10では、特徴を示す領域を色が濃い態様で示す。すなわち、合成画像CM10では、特徴量が大きいほど色が濃い態様で表示される。例えば、図1中の合成画像CM10では、画像IM11において親猿や小猿が位置する領域が色の濃い態様で示される。
ここから、図2を用いて、生成装置100による画像の加工による加工画像の生成処理について説明する。
図2に示すように、生成装置100には、アスペクト比に関する情報の入力を受け付ける(ステップS21)。例えば、生成装置100は、画像IM10の加工を行うユーザからアスペクト比AS10の入力を受け付ける。図2では、生成装置100は、アスペクト比「1:1」を示す情報を受け付ける。なお、生成装置100には、アスペクト比が特定可能であれば、縦のサイズ及び横のサイズ等、どのような情報を受け付けてもよい。生成装置100には、ステップS21で取得したアスペクト比に基づいて、画像IM10をクロッピングすることにより加工画像を生成するが、詳細は後述する。
図2に示すように、生成装置100は、画像IM10と同じサイズになるように合成画像CM10を補正する(ステップS22)。例えば、生成装置100は、合成画像CM10の縦のサイズを縦幅hに補正し、合成画像CM10の横のサイズを横幅wに補正することにより、補正画像CM11を生成する。なお、縦幅hや横幅wは、画素数であってもよい。このように、図2では、生成装置100は、合成画像CM10をリサイズすることにより、画像IM10に対応する補正画像CM11を生成する。上述した補正画像CM11を生成する処理には、スムージング等の種々の従来技術が適宜用いられてもよい。
生成装置100は、ステップS21において取得したアスペクト比1:1を満たすように画像IM10をクロッピングする。具体的には、生成装置100は、補正画像CM11における所定の領域と、所定の領域に含まれる特徴量とにより算出されるスコアに基づいて、画像IM10から加工画像を取り出す。図2では、生成装置100は、補正画像CM11において切取枠AR10に含まれる領域の画素の特徴量を用いてスコアを算出する。なお、切取枠AR10はアスペクト比1:1を満たすように拡縮可能な領域とする。
図2中の切取枠AR10は、左上の座標が「(l,t)」であり、縦幅が「ch」であり、横幅は「ch」に「ar」を乗算した値「ch・ar」となる。なお、「ar」は、アスペクト比に基づく値であり、図2では切取枠AR10のアスペクト比が1:1であるため「1」となる。なお、アスペクト比が2:1である場合、「ar」は、「2(=2/1)」となる。
ここで、図2の例では、補正画像CM11のサイズと画像IM10とのサイズは同じであり、補正画像CM11は、画像IM10における各画素の特徴量を示す。具体的には、補正画像CM11を構成する各点(画素)の位置は、画像IM10に重畳させた場合に画像IM10において重なる位置に対応し、補正画像CM11は、画像IM10において対応する画素の特徴量を示す。なお、図2中の補正画像CM11では、特徴を示す領域を色が濃い態様で示す。すなわち、補正画像CM11では、特徴量が大きいほど色が濃い態様で表示される。例えば、図2中の補正画像CM11では、画像IM10において親猿や小猿が位置する領域が色の濃い態様で示される。
例えば、生成装置100は、切取枠AR10のアスペクト比1:1を維持しつつ、切取枠AR10のサイズを拡縮したり、位置を移動させたりすることにより、切取枠AR10に含まれる領域を変動させて、各スコアを算出する。そして、生成装置100は、変動させた各切取枠AR10に含まれる領域のうち、スコアが最大となる領域をクロッピングする。例えば、生成装置100は、切取枠AR10がアスペクト比1:1を満たし、かつ全パターンのスコアを算出して、スコアが最大となる領域をクロッピングしてもよい。
ここで、生成装置100は、切取枠AR10に含まれる領域(以下、「関心領域(ROI:Region Of Interest)」ともいう)のスコアを以下の式(6)により算出する。
Figure 0006960722
上記式(6)中の左辺中の「score(R)」は算出されたスコアを示す。「R」は、関心領域であり、以下の式(7)のように示される。
Figure 0006960722
上記式(7)中の右辺中の「l」は、関心領域の左上のx座標に対応し、「t」は、関心領域の左上のy座標に対応する。また、「ch」は、関心領域の縦幅に対応する。なお、生成装置100は、アスペクト比が与えられれば、上記の「l」、「t」、「ch」が特定されることにより、関心領域のサイズや位置、すなわち切取枠AR10のサイズや位置が特定できる。
また、上記式(6)中の右辺中の第1項「E(R)」は、例えばエネルギー値を示し、以下の式(8)により算出される。
Figure 0006960722
また、上記式(8)中の分母「Stotal」は、補正画像全体の特徴量から算出される値である。例えば、「Stotal」は、補正画像全体の特徴量の合計値であってもよい。図2では、生成装置100は、補正画像CM11全体の特徴量から「Stotal」を算出する。
また、上記式(8)中の分子「S(R)」は、切取枠AR10に含まれる関心領域の特徴量から算出される値である。例えば、「S(R)」は、関心領域の特徴量の合計値であってもよい。図2では、生成装置100は、切取枠AR10に含まれる関心領域CM12、CM13、CM14等の特徴量から「S(R)」を算出する。例えば、右辺中の第1項「E(R)」は、エネルギー値を示し、切取枠AR10に含まれる領域における色が濃い(特徴量が大きい)部分の割合が多い程大きな値となる。
また、上記式(6)中の右辺中の第2項「ΦE(R)」は、例えばペナルティ項を示し、「E(R)」は、以下の式(9)により算出される。
Figure 0006960722
また、上記式(9)中の分母「h・w」は、補正画像全体の縦幅hと横幅wとの乗算により算出される値である。例えば、「h・w」は、補正画像全体の面積(画素数)である。また、上記式(9)中の分子「ch(ch・ar)」は、切取枠AR10の縦幅chと横幅ch・arとの乗算により算出される値である。例えば、「ch(ch・ar)」は、切取枠AR10に含まれる関心領域の面積(画素数)である。例えば、「E(R)」は、切取枠AR10が大きくなる、すなわち関心領域が大きくなる程大きな値となる。
また、「ΦE(R)」中の「Φ」は、所定のパラメータである。このように、上記式(6)では、エネルギー値「E(R)」が大きく、ペナルティ項「ΦE(R)」が小さくなるほど、スコアが高くなる。なお、生成装置100は、ペナルティ項、例えばパラメータΦを適宜変更することにより、算出されるスコアを調整してもよい。
図2では、生成装置100は、上記式(6)を用いて算出したスコアにより、画像IM10をクロッピングする領域を決定する。
例えば、生成装置100は、補正画像CM11のうち、切取枠AR10のサイズや位置を変更した切取枠AR11に含まれる領域を指定し、その領域に含まれる特徴量に基づくスコアを算出する(ステップS23−1)。例えば、生成装置100は、切取枠AR11に含まれる関心領域CM12のスコアを0.7と算出する。
また、例えば、生成装置100は、補正画像CM11のうち、切取枠AR10のサイズや位置を変更した切取枠AR12に含まれる領域を指定し、その領域に含まれる特徴量に基づくスコアを算出する(ステップS23−2)。例えば、生成装置100は、切取枠AR12に含まれる関心領域CM13のスコアを0.5と算出する。
また、例えば、生成装置100は、補正画像CM11のうち、切取枠AR10のサイズや位置を変更した切取枠AR13に含まれる領域を指定し、その領域に含まれる特徴量に基づくスコアを算出する(ステップS23−3)。例えば、生成装置100は、切取枠AR13に含まれる関心領域CM14のスコアを0.1と算出する。以下では、切取枠AR10のサイズや位置を変動させてスコアを算出する処理であるステップS23−1〜S23−3等を併せてステップS23と記載する。
例えば、生成装置100は、切取枠AR10のサイズや位置を変動させてステップS23等の処理を繰り返すことにより、数多くのパターンの関心領域ごとのスコアを算出する。なお、図2の例では、説明を簡単にするために、切取枠AR11に含まれる関心領域CM12のスコア「0.7」が最大である場合を例に説明する。
生成装置100は、切取枠AR11に基づいて、画像IM10をクロッピングする(ステップS24)。具体的には、生成装置100は、切取枠AR11に対応する切取枠に含まれる画像IM10における領域をクロッピングすることにより、画像IM10から加工画像IM12を生成する。例えば、生成装置100は、画像IM10と補正画像CM11とを重畳させた場合に、画像IM10において補正画像CM11の関心領域CM12に重なる領域をクロッピングすることにより、画像IM10から加工画像IM12を生成する。このように、生成装置100は、画像IM10を加工することにより、画像IM10から加工画像IM12を生成する。
上述したように、生成装置100は、ニューラルネットワーク(図1ではCNN)における情報から画像を適切に認識するために用いる情報を生成する。図1では、生成装置100は、CNNの中間層における中間画像群MG10から、中間画像を取得する。そして、生成装置100は、取得した中間画像を合成することにより、合成画像を生成する。そして、生成装置100は、合成画像をクロッピング対象となる画像のサイズに補正した補正画像を用いて関心領域のスコアを算出する。そして、生成装置100は、関心領域ごとに算出したスコアにより、画像をクロッピングする領域を決定する。これにより、生成装置100は、画像の適切な領域をクロッピングすることができる。
〔2.生成装置の構成〕
次に、図3を用いて、実施形態に係る生成装置100の構成について説明する。図3は、実施形態に係る生成装置100の構成例を示す図である。図3に示すように、生成装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、生成装置100は、生成装置100の管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
(通信部110)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、ネットワークと有線または無線で接続され、例えば生成システム1に含まれる端末装置との間で情報の送受信を行う。
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部120は、図3に示すように、学習情報記憶部121と、画像情報記憶部122とを有する。
(学習情報記憶部121)
実施形態に係る学習情報記憶部121は、学習に関する各種情報を記憶する。例えば、図4では、学習情報記憶部121は、所定の学習処理により生成された学習器LEに関する学習情報(モデル)を記憶する。図4に、実施形態に係る学習情報記憶部121の一例を示す。図4に示す学習情報記憶部121は、「重み(wij)」を記憶する。
例えば、図4に示す例において、「重み(w11)」は「0.2」であり、「重み(w12)」は「−0.3」であることを示す。また、図4に示す例において、「重み(w21)」は「0.5」であり、「重み(w22)」は「1.3」であることを示す。
なお、「重み(wij)」は、例えば、学習器LEにおけるニューロンyからニューロンxへのシナプス結合係数であってもよい。また、学習情報記憶部121は、上記に限らず、目的に応じて種々の情報を記憶してもよい。
(画像情報記憶部122)
実施形態に係る画像情報記憶部122は、画像に関する各種情報を記憶する。図5に、実施形態に係る画像情報記憶部122の一例を示す。図5に示す画像情報記憶部122は、「画像ID」、「画像」といった項目を有する。
「画像ID」は、画像を識別するための識別情報を示す。「画像」は、画像情報を示す。具体的には、「画像」は、クロッピングにより生成した画像を示す。図5では、説明のため画像IDにより識別される画像を図示するが、「画像」としては、画像の格納場所を示すファイルパス名などが格納されてもよい。
なお、画像情報記憶部122は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、画像情報記憶部122は、画像を生成した日時に関する情報を記憶してもよい。また、例えば、画像情報記憶部122は、画像に含まれる対象に関する情報を記憶してもよい。図5では、画像ID「IM12」により識別される画像には、親猿や小猿が含まれることを示す情報を記憶してもよい。また、例えば、画像情報記憶部122は、取得した元となる画像を記憶してもよい。
(制御部130)
図3の説明に戻って、制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、生成装置100内部の記憶装置に記憶されている各種プログラム(生成プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
図3に示すように、制御部130は、取得部131と、生成部132と、算出部133と、加工部134と、送信部135とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
(取得部131)
取得部131は、画像を取得する。例えば、取得部131は、外部の情報処理装置から画像を取得する。図1では、取得部131は、外部の情報処理装置から画像IM10を取得する。なお、画像情報記憶部122に元となる画像(例えば、画像IM10)が記憶される場合、取得部131は、画像情報記憶部122から画像(例えば、画像IM10)を取得してもよい。また、取得部131は、中間画像MM11〜MM19を含む中間画像群MG10を取得する。
また、例えば、取得部131は、畳み込み処理及びプーリング処理を行うニューラルネットワークの中間層における中間画像を取得する。例えば、図1の例では、取得部131は、中間画像群MG10を学習器LEの中間層Bから取得する。また、例えば、取得部131は、中間画像群MG10を外部の情報処理装置から取得してもよい。
(生成部132)
生成部132は、取得部131により取得された中間画像を合成した合成画像を生成する。例えば、生成部132は、加工による対象物の数の認識率の変化に応じて重み付けした中間画像を合成した合成画像を生成する。例えば、生成部132は、上記式(5)を用いて、加工による対象物の数の認識率の変化に応じて重み付けした中間画像を合成した合成画像を生成する。図1では、生成部132は、中間画像群MG10に含まれる中間画像MM11〜MM19を合成した合成画像CM10を生成する。
例えば、生成部132は、画像中の対象物の数を認識するニューラルネットワークの中間層における中間画像群から、対象物の数の認識率向上に寄与する中間画像を抽出してもよい。例えば、生成部132は、画像に含まれる対象物の数を認識するニューラルネットワークの中間層における中間画像群から、対象物の数の認識率向上に寄与する中間画像を抽出する。また、例えば、生成部132は、畳み込み処理及びプーリング処理を行うニューラルネットワークの中間層における中間画像群から、対象物の数の認識率向上に寄与する中間画像を抽出する。例えば、生成部132は、CNNの中間層における中間画像群から、対象物の数の認識率向上に寄与する中間画像を抽出する。そして、生成部132は、抽出した中間画像を用いて合成画像を生成してもよい。
また、例えば、生成部132は、中間画像群に含まれる中間画像の各々への加工に応じた対象物の数の認識率の変化に基づいて、中間画像を抽出する。例えば、生成部132は、加工により対象物の数の認識率を向上させる中間画像を抽出する。例えば、生成部132は、加工により上記式(4)の左辺の値がマイナス値となった中間画像を抽出する。例えば、図1では、生成部132は、CNNの中間層における中間画像群MG10から、対象物の数の認識率向上に寄与する中間画像MM12、MM14、MM17、MM18を抽出してもよい。そして、生成部132は、抽出した中間画像MM12、MM14、MM17、MM18を用いて、合成画像を生成してもよい。
例えば、生成部132は、加工により上記式(4)の左辺の値がプラス値となる中間画像を抽出してもよい。この場合、抽出された中間画像は、関数Lをより大きくする、すなわち、対象物の数の認識率に影響を与える中間画像と判定される。そこで、生成部132は、加工により上記式(4)の左辺の値がプラス値となった中間画像を抽出して、合成画像を生成してもよい。
また、生成部132は、加工により上記式(4)の左辺の値が所定の負の閾値以下のマイナス値となる中間画像と所定の正の閾値以上のプラス値となる中間画像との両方を抽出してもよい。すなわち、生成部132は、加工により上記式(4)の左辺の値に基づく変化量が所定の範囲外となる中間画像を抽出する。すなわち、生成部132は、加工により上記式(4)の左辺の値に基づく変化量が所定の範囲内となる、すなわち対象物の数の認識率に与える影響が小さい中間画像以外の中間画像を抽出する。これにより、生成部132は、対象物の数の認識率に与える影響が大きい中間画像を抽出する。また、この場合、生成部132は、所定の正規化を行うことにより、負の閾値以下のマイナス値となる中間画像と所定の正の閾値以上のプラス値となる中間画像との両方から合成画像を生成してもよい。
(算出部133)
算出部133は、各種情報を算出する。例えば、算出部133は、上記式(6)を用いて関心領域のスコアを算出する。図2では、算出部133は、補正画像CM11において切取枠AR10に含まれる領域の画素の特徴量を用いてスコアを算出する。例えば、算出部133は、切取枠AR10のアスペクト比1:1を維持しつつ、切取枠AR10のサイズを拡縮したり、位置を移動させたりすることにより、切取枠AR10に含まれる領域を変動させて、各スコアを算出する。
図2の例では、算出部133は、補正画像CM11のうち、切取枠AR10のサイズや位置を変更した切取枠AR11に含まれる関心領域CM12のスコアを0.7と算出する。また、例えば、算出部133は、補正画像CM11のうち、切取枠AR10のサイズや位置を変更した切取枠AR12に含まれる関心領域CM13のスコアを0.5と算出する。また、例えば、算出部133は、補正画像CM11のうち、切取枠AR10のサイズや位置を変更した切取枠AR13に含まれる関心領域CM14のスコアを0.1と算出する。例えば、算出部133は、切取枠AR10のサイズや位置を変動させる処理を繰り返すことにより、数多くのパターンの関心領域ごとのスコアを算出する。
(加工部134)
加工部134は、合成画像に基づいて画像を加工する。例えば、加工部134は、合成画像をリサイズした補正画像に基づいて画像を加工する。例えば、加工部134は、合成画像に基づいて、画像の一部を加工画像として取り出す。例えば、加工部134は、合成画像のアスペクト比を画像のアスペクト比に基づいて変更した補正画像を用いて、画像の一部を加工画像として取り出す。例えば、加工部134は、補正画像において所定の閾値以上である特徴量を含む領域に基づいて、画像から加工画像を取り出す(クロッピングする)。例えば、加工部134は、補正画像における特徴量により算出されるスコアに基づいて、画像から加工画像を取り出す。例えば、加工部134は、補正画像における所定の領域と、所定の領域に含まれる特徴量とにより算出されるスコアに基づいて、画像から加工画像を取り出す。
加工部134は、所定のアスペクト比により形成される所定の領域に基づいて、画像から加工画像を取り出す。図2の例では、加工部134は、アスペクト比1:1を満たすように画像IM10をクロッピングする。具体的には、加工部134は、補正画像CM11における所定の領域と、所定の領域に含まれる特徴量とにより算出されるスコアに基づいて、画像IM10から加工画像を取り出す。例えば、加工部134は、変動させた各切取枠AR10に含まれる領域のうち、スコアが最大となる領域をクロッピングする。
例えば、加工部134は、切取枠AR11に対応する切取枠に含まれる画像IM10における領域をクロッピングすることにより、画像IM10から加工画像IM12を生成する。例えば、加工部134は、画像IM10と補正画像CM11とを重畳させた場合に、画像IM10において補正画像CM11の関心領域CM12に重なる領域をクロッピングすることにより、画像IM10から加工画像IM12を生成する。
(送信部135)
送信部135は、外部の情報処理装置へ各種情報を送信する。例えば、送信部135は、加工部134により生成された画像を外部の情報処理装置へ送信する。図1では、送信部135は、加工画像IM12を送信する。また、送信部135は、生成装置100がコンテンツを配信する場合、コンテンツを要求した端末装置等の外部装置へ加工画像IM12を含むコンテンツを送信してもよい。
〔3.合成画像の生成処理のフロー〕
ここで、図6を用いて、実施形態に係る生成装置100による合成画像の生成処理の手順について説明する。図6は、実施形態に係る合成画像の生成の一例を示すフローチャートである。
図6に示すように、生成装置100は、画像を取得する(ステップS101)。図1では、生成装置100は、画像IM10を取得する。その後、生成装置100は、ステップS101で取得した画像を学習器に入力する(ステップS102)。図1では、生成装置100は、取得した画像IM10を学習器LEに入力する。
その後、生成装置100は、入力した画像における中間層から中間画像を取得する(ステップS103)。図1では、生成装置100は、画像IM10を学習器LEに入力した際に中間層Bにおける中間画像を取得する。例えば、生成装置100は、画像IM10を学習器LEに入力した際に中間層Bにおける中間画像MM11〜MM19を取得する。
その後、生成装置100は、取得した中間画像の合成により、合成画像を生成する(ステップS104)。図1では、生成装置100は、中間画像群MG10に含まれる中間画像MM11〜MM19を合成することにより、合成画像CM10を生成する。例えば、生成装置100は、上記式(5)を用いて、中間画像MM11〜MM19を合成した合成画像CM10を生成してもよい。
〔4.合成画像を用いた画像加工処理のフロー〕
次に、図7を用いて、実施形態に係る生成装置100による合成画像を用いた画像の加工処理の手順について説明する。図7は、実施形態に係る画像の加工の一例を示すフローチャートである。
図7に示すように、生成装置100は、アスペクト比を取得する(ステップS201)。図2では、生成装置100は、アスペクト比「1:1」を取得する。
その後、生成装置100は、合成画像を補正した補正画像を生成する(ステップS202)。図2では、生成装置100は、合成画像CM10をリサイズすることにより補正画像CM11を生成する。
その後、生成装置100は、取得したアスペクト比を満たす補正画像における各領域のスコアを算出する(ステップS203)。例えば、生成装置100は、切取枠AR10のアスペクト比1:1を維持しつつ、切取枠AR10のサイズを拡縮したり、位置を移動させたりすることにより、切取枠AR10に含まれる領域(関心領域)を変動させて、各スコアを算出する。例えば、生成装置100は、上記式(6)を用いて各関心領域のスコアを算出する。
その後、生成装置100は、スコアが最大となる領域を特定する(ステップS204)。例えば、生成装置100は、上記式(6)を用いて算出したスコアにより、画像IM10をクロッピングする領域を特定する。
その後、生成装置100は、特定した領域に基づいて画像を加工する(ステップS205)。例えば、生成装置100は、変動させた各切取枠AR10に含まれる領域のうち、スコアが最大となる領域を特定し、特定した領域に基づいて画像をクロッピングする。例えば、生成装置100は、切取枠AR11に対応する切取枠に含まれる画像IM10における領域をクロッピングすることにより、画像IM10から加工画像IM12を生成する。
〔5.画像の表示例〕
次に、図8を用いて、生成装置100により生成された加工画像IM12の表示例を示す。図8は、実施形態に係る端末装置における加工画像の表示例を示す図である。
図8に示す端末装置10には、所定のコンテンツ配信装置から配信されたコンテンツCT11〜CT14が表示される。なお、生成装置100がコンテンツを配信する場合、コンテンツCT11〜CT14は生成装置100から端末装置10へ送信されてもよい。
図8に示す例においては、コンテンツCT14の画像には加工画像IM12が用いられる。このように、加工画像IM12は、端末装置10においてスクロール方向に並べて表示されるコンテンツの画像として用いられてもよい。このように、生成装置100により生成された加工画像IM12は、スマートフォン等の種々の端末装置10において表示される。生成装置100は、端末装置10の種別を問わず、適切な加工画像IM12を生成することができる。
〔6.アスペクト比に応じた生成〕
上述した例では、画像中においてクロッピングする領域のアスペクト比が「1:1」に指定された場合を例に説明したが、アスペクト比は「1:1」に限らず、種々のアスペクト比であってもよい。この点について図9を用いて説明する。図9は、実施形態に係るアスペクト比に基づく加工画像の生成例を示す図である。
図9の例では、生成装置100は、アスペクト比が「1:1」に指定された場合、画像IM10をクロッピングすることにより、アスペクト比が「1:1」である加工画像IM12を生成する。なお、生成装置100は、加工画像IM12を生成する処理を、図2と同様に各関心領域のスコアに基づいて行う。
また、図9の例では、生成装置100は、アスペクト比が「2:1」に指定された場合、画像IM10をクロッピングすることにより、アスペクト比が「2:1」である加工画像IM13を生成する。なお、生成装置100は、加工画像IM13を生成する処理を、図2と同様に各関心領域のスコアに基づいて行う。例えば、図9の例では、加工画像IM13が、コンテンツCT15の画像に用いられる。このように、加工画像IM13は、端末装置10においてスクロール方向に並べて表示されるコンテンツの画像として用いられてもよい。
また、図9の例では、生成装置100は、アスペクト比が「4:3」に指定された場合、画像IM10をクロッピングすることにより、アスペクト比が「4:3」である加工画像IM14を生成する。なお、生成装置100は、加工画像IM14を生成する処理を、図2と同様に各関心領域のスコアに基づいて行う。また、図示することは省略するが、加工画像IM14は、端末装置10においてスクロール方向に並べて表示されるコンテンツの画像として用いられてもよい。このように、生成装置100は、指定されたアスペクト比に応じて、画像IM10から種々のアスペクト比に対応した加工画像を生成することができる。
〔7.効果〕
上述してきたように、実施形態に係る生成装置100は、取得部131と、生成部132とを有する。取得部131は、画像中の対象物の数を認識するニューラルネットワークの中間層における中間画像を取得する。生成部132は、取得部131により抽出された中間画像を合成した合成画像を生成する。
これにより、実施形態に係る生成装置100は、ニューラルネットワークの中間層における中間画像を取得する。そし生成装置100は、取得した中間画像を合成することにより、合成画像を生成する。すなわち、生成装置100は、対象物の数を認識する中間画像を用いて適切に合成画像を生成する。このように、生成装置100は、ニューラルネットワークにおける情報から画像を適切に認識するために用いる情報を生成することができる。
また、実施形態に係る生成装置100において、生成部132は、中間画像の各々への加工に応じた対象物の数の認識の変化に基づいて、重み付けした中間画像を合成した合成画像を生成する。
これにより、実施形態に係る生成装置100は、加工による対象物の数の認識率の変化に応じて重み付けすることにより、ニューラルネットワークの中間層における中間画像を用いて適切に合成画像を生成することができる。
また、実施形態に係る生成装置100は、加工部134を有する。加工部134は、生成部132により生成された合成画像に基づいて、画像を加工する。
これにより、実施形態に係る生成装置100は、合成画像に基づいて適切に画像を加工することができる。
また、実施形態に係る生成装置100において、加工部134は、合成画像に基づいて、画像の一部を加工画像として取り出す。
これにより、実施形態に係る生成装置100は、合成画像に基づいて適切に画像から領域を取り出す(クロッピングする)ことができる。
また、実施形態に係る生成装置100において、加工部134は、合成画像のアスペクト比を画像のアスペクト比に基づいて変更した補正画像を用いて、画像の一部を加工画像として取り出す。
これにより、実施形態に係る生成装置100は、補正画像に基づいて適切に画像から領域を取り出す(クロッピングする)ことができる。
また、実施形態に係る生成装置100において、加工部134は、補正画像における特徴量に基づいて、画像から加工画像を取り出す。
これにより、実施形態に係る生成装置100は、補正画像に含まれる領域の特徴量に基づいて適切に画像から領域を取り出す(クロッピングする)ことができる。
また、実施形態に係る生成装置100において、加工部134は、補正画像における特徴量により算出されるスコアに基づいて、画像から加工画像を取り出す。
これにより、実施形態に係る生成装置100は、補正画像に含まれる領域の特徴量により算出されるスコアに基づいて適切に画像から領域を取り出す(クロッピングする)ことができる。
また、実施形態に係る生成装置100において、加工部134は、補正画像における所定の領域と、所定の領域に含まれる特徴量とにより算出されるスコアに基づいて、画像から加工画像を取り出す。
これにより、実施形態に係る生成装置100は、補正画像に含まれる所定の領域の特徴量により算出されるスコアに基づいて適切に画像から領域を取り出す(クロッピングする)ことができる。
また、実施形態に係る生成装置100において、加工部134は、所定のアスペクト比により形成される所定の領域に基づいて、画像から加工画像を取り出す。
これにより、実施形態に係る生成装置100は、所定のアスペクト比により形成される所定の領域の特徴量により算出されるスコアに基づいて適切に画像から領域を取り出す(クロッピングする)ことができる。
また、実施形態に係る生成装置100において、取得部131は、畳み込み処理及びプーリング処理を行うニューラルネットワークの中間層における中間画像を取得する。
これにより、実施形態に係る生成装置100は、畳み込みニューラルネットワーク(CNN)の中間層における中間画像を取得する。したがって、生成装置100は、ニューラルネットワーク(CNN)の中間層における中間画像を用いて適切に合成画像を生成することができる。
〔8.ハードウェア構成〕
上述してきた実施形態に係る生成装置100は、例えば図10に示すような構成のコンピュータ1000によって実現される。図10は、生成装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、ネットワークNを介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータをネットワークNを介して他の機器へ送信する。
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が実施形態に係る生成装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置からネットワークNを介してこれらのプログラムを取得してもよい。
以上、本願の実施形態を図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の行に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
〔9.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上述してきた実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
100 生成装置
121 学習情報記憶部
122 画像情報記憶部
130 制御部
131 取得部
132 生成部
133 算出部
134 加工部
135 送信部

Claims (11)

  1. 画像中の対象物の数を認識するニューラルネットワークであって、1つの入力画像が入力されたニューラルネットワークの中間層における複数の中間画像であって、前記1つの入力画像を基に前記ニューラルネットワークで生成される複数の中間画像を取得する取得部と、
    前記取得部により取得された前記複数の中間画像を合成した合成画像を生成する生成部と、
    を備え
    前記生成部は、
    前記複数の中間画像の各々への加工に応じた前記対象物の数の認識の変化に基づく前記複数の中間画像の各々に対応する重みを用いて、前記複数の中間画像を合成した合成画像を生成することを特徴とする生成装置。
  2. 前記生成部により生成された前記合成画像に基づいて、前記画像を加工する加工部、
    をさらに備えることを特徴とする請求項1に記載の生成装置。
  3. 前記加工部は、
    前記合成画像に基づいて、前記画像の一部を加工画像として取り出す
    ことを特徴とする請求項に記載の生成装置。
  4. 前記加工部は、
    前記合成画像のアスペクト比を前記画像のアスペクト比に基づいて変更した補正画像を用いて、前記画像の一部を加工画像として取り出す
    ことを特徴とする請求項に記載の生成装置。
  5. 前記加工部は、
    前記補正画像における特徴量に基づいて、前記画像から前記加工画像を取り出す
    ことを特徴とする請求項に記載の生成装置。
  6. 前記加工部は、
    前記補正画像における特徴量により算出されるスコアに基づいて、前記画像から前記加工画像を取り出す
    ことを特徴とする請求項に記載の生成装置。
  7. 前記加工部は、
    前記補正画像における所定の領域と、前記所定の領域に含まれる特徴量とにより算出されるスコアに基づいて、前記画像から前記加工画像を取り出す
    ことを特徴とする請求項に記載の生成装置。
  8. 前記加工部は、
    所定のアスペクト比により形成される前記所定の領域に基づいて、前記画像から前記加工画像を取り出す
    ことを特徴とする請求項に記載の生成装置。
  9. 前記取得部は、
    畳み込み処理及びプーリング処理を行うニューラルネットワークの中間層における複数の中間画像を取得する
    ことを特徴とする請求項1〜のいずれか1項に記載の生成装置。
  10. コンピュータが実行する生成方法であって、
    画像中の対象物の数を認識するニューラルネットワークであって、1つの入力画像が入力されたニューラルネットワークの中間層における複数の中間画像であって、前記1つの入力画像を基に前記ニューラルネットワークで生成される複数の中間画像を取得する取得工程と、
    前記取得工程により取得された前記複数の中間画像を合成した合成画像を生成する生成工程と、
    を含み、
    前記生成工程は、
    前記複数の中間画像の各々への加工に応じた前記対象物の数の認識の変化に基づく前記複数の中間画像の各々に対応する重みを用いて、前記複数の中間画像を合成した合成画像を生成することを特徴とする生成方法。
  11. 画像中の対象物の数を認識するニューラルネットワークであって、1つの入力画像が入力されたニューラルネットワークの中間層における複数の中間画像であって、前記1つの入力画像を基に前記ニューラルネットワークで生成される複数の中間画像を取得する取得手順と、
    前記取得手順により取得された前記複数の中間画像を合成した合成画像を生成する生成手順と、
    をコンピュータに実行させ
    前記生成手順は、
    前記複数の中間画像の各々への加工に応じた前記対象物の数の認識の変化に基づく前記複数の中間画像の各々に対応する重みを用いて、前記複数の中間画像を合成した合成画像を生成することを特徴とする生成プログラム。
JP2016106559A 2016-05-27 2016-05-27 生成装置、生成方法、及び生成プログラム Active JP6960722B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016106559A JP6960722B2 (ja) 2016-05-27 2016-05-27 生成装置、生成方法、及び生成プログラム
US15/455,711 US10445910B2 (en) 2016-05-27 2017-03-10 Generating apparatus, generating method, and non-transitory computer readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016106559A JP6960722B2 (ja) 2016-05-27 2016-05-27 生成装置、生成方法、及び生成プログラム

Publications (2)

Publication Number Publication Date
JP2017211939A JP2017211939A (ja) 2017-11-30
JP6960722B2 true JP6960722B2 (ja) 2021-11-05

Family

ID=60418167

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016106559A Active JP6960722B2 (ja) 2016-05-27 2016-05-27 生成装置、生成方法、及び生成プログラム

Country Status (2)

Country Link
US (1) US10445910B2 (ja)
JP (1) JP6960722B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10366497B2 (en) * 2016-06-10 2019-07-30 Apple Inc. Image/video editor with automatic occlusion detection and cropping
JP7054603B2 (ja) 2016-08-03 2022-04-14 ヤフー株式会社 判定装置、判定方法、及び判定プログラム
DE102017211331A1 (de) * 2017-07-04 2019-01-10 Robert Bosch Gmbh Bildauswertung mit zielgerichteter Vorverarbeitung
JP2019096006A (ja) * 2017-11-21 2019-06-20 キヤノン株式会社 情報処理装置、情報処理方法
JP6985977B2 (ja) * 2018-05-14 2021-12-22 ヤフー株式会社 出力装置、出力方法、出力プログラム及び出力システム
EP3791316A1 (en) * 2018-06-13 2021-03-17 Siemens Healthcare GmbH Localization and classification of abnormalities in medical images
JP6994572B2 (ja) * 2018-06-28 2022-01-14 オリンパス株式会社 データ処理システムおよびデータ処理方法
CN110163932A (zh) * 2018-07-12 2019-08-23 腾讯数码(天津)有限公司 图像处理方法、装置、计算机可读介质及电子设备
JP7055211B2 (ja) * 2018-08-31 2022-04-15 オリンパス株式会社 データ処理システムおよびデータ処理方法
CN110930298A (zh) * 2019-11-29 2020-03-27 北京市商汤科技开发有限公司 图像处理方法及装置、图像处理设备及存储介质
US20240112449A1 (en) 2021-02-24 2024-04-04 Panasonic Intellectual Property Management Co., Ltd. Image identifying apparatus, video reproducing apparatus, image identifying method, and recording medium

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07141316A (ja) * 1993-11-12 1995-06-02 Sankyo Seiki Mfg Co Ltd ニュ−ラルネットワークの学習状態の観測システム
JP2002298155A (ja) * 2001-03-29 2002-10-11 Hic:Kk 感情による3dコンピュータグラフィックス表情モデル形成システム
JP4794938B2 (ja) * 2005-07-27 2011-10-19 富士フイルム株式会社 監視システム、監視装置、監視方法、及びプログラム
US8009921B2 (en) * 2008-02-19 2011-08-30 Xerox Corporation Context dependent intelligent thumbnail images
JP2014509435A (ja) * 2010-12-22 2014-04-17 コーニンクレッカ フィリップス エヌ ヴェ 照明制御システム
KR102288280B1 (ko) * 2014-11-05 2021-08-10 삼성전자주식회사 영상 학습 모델을 이용한 영상 생성 방법 및 장치
US9852492B2 (en) * 2015-09-18 2017-12-26 Yahoo Holdings, Inc. Face detection
US9858675B2 (en) * 2016-02-11 2018-01-02 Adobe Systems Incorporated Object segmentation, including sky segmentation

Also Published As

Publication number Publication date
US10445910B2 (en) 2019-10-15
JP2017211939A (ja) 2017-11-30
US20170345196A1 (en) 2017-11-30

Similar Documents

Publication Publication Date Title
JP6960722B2 (ja) 生成装置、生成方法、及び生成プログラム
US9299004B2 (en) Image foreground detection
CN108140032B (zh) 用于自动视频概括的设备和方法
US9361510B2 (en) Efficient facial landmark tracking using online shape regression method
Hu et al. A novel object tracking algorithm by fusing color and depth information based on single valued neutrosophic cross-entropy
US9330334B2 (en) Iterative saliency map estimation
JP6188400B2 (ja) 画像処理装置、プログラム及び画像処理方法
US9552510B2 (en) Facial expression capture for character animation
US10019823B2 (en) Combined composition and change-based models for image cropping
US10984272B1 (en) Defense against adversarial attacks on neural networks
JP2020126614A (ja) 高精度イメージを分析するディープラーニングネットワークの学習に利用するためのトレーニングイメージをオートラベリングするための方法、及びこれを利用したオートラベリング装置{method for auto−labeling training images for use in deep learning network to analyze images with high precision, and auto−labeling device using the same}
JP6798183B2 (ja) 画像解析装置、画像解析方法およびプログラム
US9454712B2 (en) Saliency map computation
US10762662B2 (en) Context based position estimation of target of interest in videos
US9367762B2 (en) Image processing device and method, and computer readable medium
JP2005284487A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
CN110909724B (zh) 一种多目标图像的缩略图生成方法
CN111274981B (zh) 目标检测网络构建方法及装置、目标检测方法
CN111814753A (zh) 针对雾天条件下的目标检测方法和装置
JP2007249852A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
EP2613294A1 (en) System and method for synthesizing portrait sketch from photo
Aroulanandam et al. Object Detection in Convolution Neural Networks Using Iterative Refinements.
JP2017059090A (ja) 生成装置、生成方法、及び生成プログラム
KR20210088656A (ko) 이미지 생성 및 신경망 트레이닝 방법, 장치, 기기 및 매체
CN115311550B (zh) 遥感影像语义变化检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20160623

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190319

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200408

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200818

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20200818

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20200826

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20200901

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20201016

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20201020

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20210413

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20210518

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210708

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20210824

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20210928

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20210928

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211012

R150 Certificate of patent or registration of utility model

Ref document number: 6960722

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350