JP2018205885A - Image generation device and image generation method - Google Patents
Image generation device and image generation method Download PDFInfo
- Publication number
- JP2018205885A JP2018205885A JP2017107945A JP2017107945A JP2018205885A JP 2018205885 A JP2018205885 A JP 2018205885A JP 2017107945 A JP2017107945 A JP 2017107945A JP 2017107945 A JP2017107945 A JP 2017107945A JP 2018205885 A JP2018205885 A JP 2018205885A
- Authority
- JP
- Japan
- Prior art keywords
- image
- feature vector
- neural network
- caption
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 157
- 238000013528 artificial neural network Methods 0.000 claims abstract description 91
- 230000007177 brain activity Effects 0.000 claims abstract description 36
- 238000006243 chemical reaction Methods 0.000 claims abstract description 23
- 230000000007 visual effect Effects 0.000 abstract description 10
- 210000004556 brain Anatomy 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 14
- 239000011159 matrix material Substances 0.000 description 7
- 238000003860 storage Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008035 nerve activity Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 210000003792 cranial nerve Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
Images
Abstract
Description
本発明は、画像を生成する技術に関するものである。 The present invention relates to a technique for generating an image.
近年においては、非特許文献1及び2に示されるように、キャプション文(説明文)を基に、敵対ニューラルネットワークを用いて画像を生成する手法が提案されている。
In recent years, as shown in
なお、非特許文献3及び4には、画像認識用の深層ニューラルネットと画像生成用の敵対ニューラルネットを同時学習する手法が提案されている。 Non-Patent Documents 3 and 4 propose a method of simultaneously learning a deep neural network for image recognition and a hostile neural network for image generation.
一方、特許文献においては、例えば特許文献1には、ニューラルネットワークを利用した画像レイアウト装置が開示されている。 On the other hand, in Patent Literature, for example, Patent Literature 1 discloses an image layout device using a neural network.
非特許文献1及び2に記載された手法は、自然な言語表現(文章)の入力を想定しているが、必ずしも入力された文章に対して一義的に対応した情報を利用することはできないため、脳の活動による視覚関連情報を映像として可視化する場合、被検体の視覚体験を十分に再現できないという問題がある。
Although the methods described in
本発明は、このような問題を解決するためになされたもので、被検体の視覚体験をより正確に可視化した画像を生成する装置及び方法を提供することを目的とする。 The present invention has been made to solve such a problem, and an object thereof is to provide an apparatus and a method for generating an image in which a visual experience of a subject is visualized more accurately.
上記課題を解決するため、本発明は、画像データから画像特徴ベクトルを生成する画像特徴ベクトル生成手段と、画像に対応するテキストデータからキャプション特徴ベクトルを生成するキャプション特徴ベクトル生成手段と、キャプション特徴ベクトルと画像特徴ベクトルに応じて共通特徴ベクトルを生成する共通特徴ベクトル生成手段と、共通特徴ベクトルに応じて生成画像データを創出する画像生成手段と、脳の活動データを脳活動特徴ベクトルに変換する変換手段と、脳活動特徴ベクトルを画像特徴ベクトル生成手段により生成されるベクトル及び共通特徴ベクトルと比較して、最も相関が高いベクトルを生成するチャネルへ選択的に脳活動特徴ベクトルを供給する選択手段とを備えた画像生成装置を提供する。 In order to solve the above problems, the present invention provides an image feature vector generating means for generating an image feature vector from image data, a caption feature vector generating means for generating a caption feature vector from text data corresponding to an image, and a caption feature vector. A common feature vector generating unit that generates a common feature vector according to the image feature vector, an image generating unit that generates generated image data according to the common feature vector, and a conversion that converts brain activity data into a brain activity feature vector Means for comparing the brain activity feature vector with the vector generated by the image feature vector generation unit and the common feature vector, and selectively supplying the brain activity feature vector to the channel that generates the vector having the highest correlation. An image generation apparatus including the above is provided.
また、上記課題を解決するため、本発明は、画像データから画像特徴ベクトルを生成する第一のステップと、画像データに対応する言語データからキャプション特徴ベクトルを生成する第二のステップと、画像特徴ベクトルとキャプション特徴ベクトルに応じて共通特徴ベクトルを生成する第三のステップと、共通特徴ベクトルに応じて生成画像データを創出する第四のステップとを有する画像生成方法を提供する。 In order to solve the above problem, the present invention provides a first step of generating an image feature vector from image data, a second step of generating a caption feature vector from language data corresponding to the image data, and an image feature There is provided an image generation method including a third step of generating a common feature vector according to a vector and a caption feature vector, and a fourth step of generating generated image data according to the common feature vector.
本発明によれば、ユーザの視覚体験をより正確に可視化した画像を生成する装置及び方法を提供することができる。 ADVANTAGE OF THE INVENTION According to this invention, the apparatus and method which produce | generate the image which visualized the user's visual experience more correctly can be provided.
以下において、本発明の実施の形態を図面を参照しつつ詳しく説明する。なお、図中同一符号は同一又は相当部分を示す。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In the drawings, the same reference numerals indicate the same or corresponding parts.
本発明の実施の形態に係る画像生成装置及び画像生成方法は、ユーザの脳神経活動により認識される視覚体験を可視化した画像を生成するものである。本画像の生成においては、視覚要素を示す単純な情報を網羅的に抽出し、抽出された情報に関連する言語情報が補助的に利用される。すなわち、ユーザにより認識される画像をクエリ―として、言語情報を援用しながら、似た画像を自動的に生成する。以下において、本画像生成装置及び画像生成方法について詳しく説明する。 An image generation apparatus and an image generation method according to an embodiment of the present invention generate an image visualizing a visual experience recognized by a user's cranial nerve activity. In generating the main image, simple information indicating visual elements is exhaustively extracted, and linguistic information related to the extracted information is supplementarily used. That is, an image recognized by the user is used as a query, and a similar image is automatically generated while using language information. Hereinafter, the image generation apparatus and the image generation method will be described in detail.
[実施の形態1]
図1は、本発明の実施の形態1に係る画像生成装置1の構成を示すブロック図である。図1に示されるように、画像生成装置1は、画像認識用深層ニューラルネットワーク部2と、変換切替部3と、画像生成用敵対ニューラルネットワーク部4と、乱数生成部5と、表示部6と、記憶部7を備える。
[Embodiment 1]
FIG. 1 is a block diagram showing a configuration of an image generation apparatus 1 according to Embodiment 1 of the present invention. As shown in FIG. 1, the image generation apparatus 1 includes an image recognition deep
画像認識用深層ニューラルネットワーク部2は変換切替部3に接続され、画像生成用敵対ニューラルネットワーク部4は画像認識用深層ニューラルネットワーク部2及び乱数生成部5に接続される。また、表示部6は画像生成用敵対ニューラルネットワーク部4及び記憶部7に接続され、記憶部7はさらに画像生成用敵対ニューラルネットワーク部4に接続される。
The image recognition deep
ここで、画像認識用深層ニューラルネットワーク部2は、入力される画像データDGと画像に対応するキャプションデータDL(ならびにその他のテキストデータDT)に応じて言語・画像共通特徴ベクトルVcを生成する。また、変換切替部3は、入力された画像観察時における脳の活動データDを脳活動特徴ベクトルVbに変換すると共に、画像認識用深層ニューラルネットワーク部2から供給された回帰結果信号Rに応じて脳の活動データDとの相関が最も高いチャネルを選択して、当該チャネルへ脳活動特徴ベクトルVbを供給する。
Here, the deep
また、画像生成用敵対ニューラルネットワーク部4は、画像データDGと言語・画像共通特徴ベクトルVc及び乱数ベクトルVrに応じて生成画像を創出する。 Further, the image generation hostile neural network unit 4 creates a generated image according to the image data DG, the language / image common feature vector Vc, and the random number vector Vr.
また、乱数生成部5は乱数ベクトルVrを生成し、表示部6は画像生成用敵対ニューラルネットワーク部4により創出され若しくは記憶部7に記憶された生成画像を表示する。また、記憶部7は画像生成用敵対ニューラルネットワーク部4により創出された生成画像を記憶する。
The random
図2は、図1に示された画像認識用深層ニューラルネットワーク部2の構成を示すブロック図である。図2に示されるように、画像認識用深層ニューラルネットワーク部2は画像認識用深層ニューラルネットワーク21とキャプション特徴ベクトル生成部22と共通特徴ベクトル生成部23を備える。
FIG. 2 is a block diagram showing a configuration of the image recognition deep
画像認識用深層ニューラルネットワーク21は変換切替部3に接続され、共通特徴ベクトル生成部23は画像認識用深層ニューラルネットワーク21、キャプション特徴ベクトル生成部22及び変換切替部3に接続される。
The image recognition deep
ここで、画像認識用深層ニューラルネットワーク21は、畳込演算層と全結合層から構成されるn個の層Lv1〜Lvnからなるニューラルネットワークであり、画像特徴ベクトルVgを生成する。キャプション特徴ベクトル生成部22は、キャプションデータDLからキャプション特徴ベクトルVsを生成する。共通特徴ベクトル生成部23は、画像に対応したキャプション特徴量が表現されるベクトル空間と画像特徴量が表現されるベクトル空間が一致するような変換を予め機械学習することで、言語・画像共通特徴ベクトルVcの生成が可能となる。
Here, the deep neural network for
そして、図1に示された変換切替部3は、回帰や正準相関解析等の手法を適用することにより上記各層Lv1〜Lvnからの出力、画像認識用深層ニューラルネットワーク21により生成された画像特徴ベクトルVg、及び共通特徴ベクトル生成部23により生成された言語・画像共通特徴ベクトルVcと、脳活動特徴ベクトルVbとの間でそれぞれ算出された回帰結果を示す回帰結果信号Rに応じて、回帰結果の成績が最も良い、すなわち脳の活動データDとの相関度が最も高いベクトルを生成するチャネルを選択し、後述する実行フェーズ時に当該チャンネルに直接脳活動特徴ベクトルVbを供給し、脳活動データDから共通特徴ベクトルVcの生成を可能にする。
Then, the conversion switching unit 3 shown in FIG. 1 applies outputs such as regression and canonical correlation analysis, outputs from the layers Lv1 to Lvn, and image features generated by the deep
従って、例えば、脳の活動データDと層Lv2からの出力との相関度が最も高い場合には、変換切替部3は層Lv2を最適チャネルとし、脳の活動データDと言語・画像共通特徴ベクトルVcとの相関度が最も高い場合には、変換切替部3は共通特徴ベクトル生成部23を最適チャネルとし、脳活動特徴ベクトルVbを供給する。
Therefore, for example, when the correlation between the brain activity data D and the output from the layer Lv2 is the highest, the conversion switching unit 3 uses the layer Lv2 as the optimum channel, and the brain activity data D and the language / image common feature vector When the degree of correlation with Vc is the highest, the conversion switching unit 3 uses the common feature
図3は、図1に示された画像生成用敵対ニューラルネットワーク部4の構成を示すブロック図である。図3に示されるように、画像生成用敵対ニューラルネットワーク部4は画像生成用深層ニューラルネットワーク41と、判別用深層ニューラルネットワーク42と、誤差検出器43を備える。
FIG. 3 is a block diagram showing a configuration of the image generation hostile neural network unit 4 shown in FIG. As shown in FIG. 3, the image generation hostile neural network unit 4 includes an image generation deep
画像生成用深層ニューラルネットワーク41は、共通特徴ベクトル生成部23と乱数生成部5及び誤差検出器43に接続される。また、判別用深層ニューラルネットワーク42は、共通特徴ベクトル生成部23と画像生成用深層ニューラルネットワーク41及び誤差検出器43に接続される。
The image generation deep
ここで、画像生成用深層ニューラルネットワーク41は、n′個の層Lg1〜Lgn′からなるニューラルネットワークであり、各層は畳込演算層と全結合層から構成される。この画像生成用深層ニューラルネットワーク41においては、言語・画像共通特徴ベクトルVcの情報を利用しながら乱数ベクトルVrを元に画像が合成される。
Here, the image generation deep
一方、判別用深層ニューラルネットワーク42は、n″個の層Ld1〜Ldn″からなるニューラルネットワークであり、各層は畳込演算層と全結合層から構成される。この判別用深層ニューラルネットワーク42においては、画像データベース等にある画像データ(実画像)DG及び画像生成用深層ニューラルネットワーク41が創出した生成画像が入力され、入力された画像が実画像であるか生成画像であるかに応じて判別信号が出力される。
On the other hand, the distinguishing deep
また、誤差検出器43は、判別用深層ニューラルネットワーク42が、実画像を入力したのに生成画像を示す判別信号を出力し、若しくは生成画像を入力したのに実画像を示す判別信号を出力した場合、判別用深層ニューラルネットワーク42により誤った判別信号が生成されたものとみなし、画像生成用深層ニューラルネットワーク41及び判別用深層ニューラルネットワーク42に対して、当該演算で用いる重み係数を修正するための信号errを供給する。
Further, the
このようにして、画像生成用敵対ニューラルネットワーク部4では、画像生成用深層ニューラルネットワーク41は判別用深層ニューラルネットワーク42にとって、実画像と区別できないような生成画像を出力するように学習し、判別用深層ニューラルネットワーク42は実画像と生成画像を正しく区別できるように学習する。
In this way, in the image generation hostile neural network unit 4, the image generation deep
図4から図6は、本発明の実施の形態1に係る画像生成方法を示すフローチャートである。なお、後に詳しく説明するように、図4は画像データDGと画像のキャプションデータDLから画像認識用深層ニューラルネットワーク部2の最適化学習を行う第一の学習フェーズを示し、図5は画像データDGと脳活動データDを使って変換切り替え部3の最適化学習を行う第二の学習フェーズを示す。また、図6は脳活動データDのみを用いる実行フェーズを示す。
4 to 6 are flowcharts showing an image generation method according to Embodiment 1 of the present invention. As will be described in detail later, FIG. 4 shows a first learning phase in which optimization learning of the image recognition deep
以下においては、図1に示された画像生成装置1を用いて図4から図6に示された画像生成方法を実行する場合を一例として説明するが、本方法は図1に示された画像生成装置1を用いて行う場合に限られず、他の手段を用いて実行されても良いことは言うまでもない。 In the following, a case where the image generation method shown in FIGS. 4 to 6 is executed by using the image generation apparatus 1 shown in FIG. 1 will be described as an example. Needless to say, the present invention is not limited to the case of using the generation apparatus 1 and may be executed using other means.
図4に示された最初のステップS11において、画像認識用深層ニューラルネットワーク21は、脳により認識される画像データDGに基づいて画像特徴ベクトルVgを生成する。なお、画像特徴ベクトルVgは、例えばコンピュータビジョン研究でよく用いられるVGG19(”Very Deep Convolutional Networks for Large-Scale Image Recognition”, K.Simonyan, A.Zisserman, arXiv:1409.1556)を使用することにより生成される。
In the first step S11 shown in FIG. 4, the image recognition deep
次のステップS12においては、キャプション特徴ベクトル生成部22が当該画像に対応するキャプションデータDLからキャプション特徴ベクトルVsを生成する。以下においては、キャプション特徴ベクトルVsの生成方法を、図7を参照しつつ詳しく説明する。
In the next step S12, the caption feature
なお、図7においては、画像データDGに対応したキャプションデータDLに基づいて、キャプション特徴ベクトルVsを生成する場合が示されている。 FIG. 7 shows a case where the caption feature vector Vs is generated based on the caption data DL corresponding to the image data DG.
図7に示されるように、まずは、画像に対応したキャプションデータDLと予め用意された単語リストWとを照合し、リストアップされた各単語w1〜wkを抽出して出現回数をカウントし、リスト単語出現回数ベクトルw_oを生成する。 As shown in FIG. 7, first, the caption data DL corresponding to the image is collated with a word list W prepared in advance, and the listed words w 1 to w k are extracted to count the number of appearances. The list word appearance frequency vector w_o is generated.
一方、画像に関係ないテキストデータDTに対しても上記単語リストWと照合し、全リスト単語の特徴ベクトルの集合であるリスト単語特徴行列Aを生成する。なお、このリスト単語特徴行列Aは、テキストデータから各単語の出現関係を機械学習することによって各単語をベクトル表現する手法であるワードトゥベック(Word2vec)などの自然言語処理により生成される。そして、生成されたリスト単語特徴行列Aに基づいて、リスト単語の類似度行列Cが算出される。 On the other hand, text data DT not related to an image is also collated with the word list W to generate a list word feature matrix A that is a set of feature vectors of all list words. The list word feature matrix A is generated by natural language processing such as WordTubec (Word2vec), which is a technique for expressing each word as a vector by machine learning of the appearance relation of each word from text data. Based on the generated list word feature matrix A, a list word similarity matrix C is calculated.
次に、上記のリスト単語出現回数ベクトルにリスト単語の類似度行列Cを乗じることによって、リスト単語出現重みベクトルw_o’を生成する。 Next, the list word appearance weight vector w_o ′ is generated by multiplying the list word appearance frequency vector by the list word similarity matrix C.
ここで、リスト単語出現回数ベクトルにリスト単語の類似度行列Cを乗じることは、キャプションに直接出現しない単語の寄与を、他のテキストとの間における言語間の類似度を利用して加味することを意味する。 Here, multiplying the list word appearance frequency vector by the list word similarity matrix C takes into account the contribution of words that do not appear directly in the caption using the similarity between languages with other texts. Means.
次に、リスト単語出現重みベクトルw_o’にリスト単語特徴行列Aを乗じることにより、キャプション特徴ベクトルVsを生成する。 Next, a caption feature vector Vs is generated by multiplying the list word appearance weight vector w_o ′ by the list word feature matrix A.
その後、ステップS13において、共通特徴ベクトル生成部23は、変換切替部3により生成された脳活動特徴ベクトルVbと画像認識用深層ニューラルネットワーク21により生成された画像特徴ベクトルVgとキャプション特徴ベクトル生成部22により生成されたキャプチョン特徴ベクトルVsに応じて、言語・画像共通特徴ベクトルVcを生成する。
Thereafter, in step S13, the common feature
ここで、共通特徴ベクトル生成部23は、回帰解析や正準相関解析の他、自然言語処理で広く用いられる公知論文(”Unifying visual semantic embedings with multimodal neural language models”, Kiros, Salakhutdinov, Zemel, arXiv:1411.2539)に記載された方法を用いて画像特徴ベクトルとキャプション特徴ベクトルが一致するベクトルに変換されるよう予め学習させたものとされる。
Here, the common feature
次に、ステップS14において、画像生成用敵対ニューラルネットワーク部4は、言語・画像共通特徴ベクトルVcと乱数ベクトルVrに応じて、生成画像データを創出する。なお、創出された生成画像データは、ユーザの操作に応じて表示部6に表示され、又は記憶部7に記憶される。
Next, in step S14, the image generation hostile neural network unit 4 creates generated image data according to the language / image common feature vector Vc and the random number vector Vr. The created generated image data is displayed on the display unit 6 or stored in the
第二の学習フェーズでは、図5に示されたステップS21において、脳の各領域(部位)を対象として脳・神経活動計測装置を用いて計測したデータから構成される脳活動データDを取得する。 In the second learning phase, in step S21 shown in FIG. 5, brain activity data D composed of data measured using a brain / nerve activity measuring device for each region (part) of the brain is acquired. .
次に、ステップS22において、変換切替部3は脳活動データDを変換して脳活動特徴ベクトルVbを生成する。 Next, in step S22, the conversion switching unit 3 converts the brain activity data D to generate a brain activity feature vector Vb.
次に、ステップS23において、変換切替部3は、画像認識用深層ニューラルネットワーク21の各層の出力ベクトルならびに、共通特徴ベクトルVcと、脳活動特徴ベクトルVbを比較し、最も回帰結果の良い変換に応じて最適化学習を行うとともに、脳活動特徴ベクトルVbと最も相関の高いベクトルを生成するチャネルを最適チャネルとして選択する。
Next, in step S23, the conversion switching unit 3 compares the output vector of each layer of the image recognition deep
実行フェーズにおいては、図6に示されたステップS31において脳活動データDを取得し、ステップS32で変換切替部3は脳活動データDを脳活動特徴ベクトルVbに変換した後、ステップS33で変換切替部3が脳活動特徴ベクトルVbを画像認識用深層ニューラルネットワーク部2の最適チャネルに供給する。
In the execution phase, the brain activity data D is acquired in step S31 shown in FIG. 6, the conversion switching unit 3 converts the brain activity data D into the brain activity feature vector Vb in step S32, and then the conversion is switched in step S33. The unit 3 supplies the brain activity feature vector Vb to the optimum channel of the deep
そして、ステップS34では、画像生成用敵対ニューラルネットワーク部4は、画像認識用深層ニューラルネットワーク部2によって脳活動特徴ベクトルVbに基づき生成された言語・画像共通特徴ベクトルVcに応じて生成画像データを創出する。
In step S34, the image generation hostile neural network unit 4 creates generated image data according to the language / image common feature vector Vc generated by the image recognition deep
以上より、本発明の実施の形態1に係る画像生成装置1によれば、視覚のみならず言語情報の特徴量表現も利用して画像を生成するため、ユーザの視覚体験をより正確に可視化した画像を創出することができる。 As described above, according to the image generation device 1 according to the first embodiment of the present invention, an image is generated using not only visual information but also feature amount expression of language information, so that the visual experience of the user can be visualized more accurately. Images can be created.
[実施の形態2]
以下においては、実施の形態1との相違点のみにつき説明し、共通点については説明を省略する。
[Embodiment 2]
In the following, only differences from the first embodiment will be described, and description of common points will be omitted.
図8は、本発明の実施の形態2に係る画像生成装置10の構成を示すブロック図である。図8に示されるように、実施の形態2に係る画像生成装置10は実施の形態1に係る画像生成装置1と同様な構成を有するが、画像認識用深層ニューラルネットワーク部2と画像生成用敵対ニューラルネットワーク部4の替わりに、画像に対応したキャプションデータなどの言語データDLが供給され、キャプション特徴ベクトルVsを生成するキャプション特徴ベクトル生成部22と、画像符号化用深層ニューラルネットワーク部12と、画像データDGとキャプション特徴ベクトルVsが供給される画像復号化用深層ニューラルネットワーク部14が備えられたものである。
FIG. 8 is a block diagram showing the configuration of the
また、図8に示された変換切替部13は、図1に示された変換切替部3と同様な機能を有するが、各層Le1〜Lenからの出力、ベクトル生成部16により生成された推定乱数ベクトルEVr、推定キャプション特徴ベクトルEVsと、脳活動特徴ベクトルVbとの間でそれぞれ算出された回帰結果を示す回帰結果信号Rに応じて、回帰結果の成績が最も良い、すなわち相関度が最も高いベクトルを生成するチャネルを選択し、実行フェーズ時に脳活動特徴ベクトルVbを選択したチャネルへ供給する。
The
図9は、図8に示された画像符号化用深層ニューラルネットワーク部12の構成を示すブロック図である。図9に示されるように、画像符号化用深層ニューラルネットワーク部12は画像符号化用深層ニューラルネットワーク15とベクトル生成部16を備える。
FIG. 9 is a block diagram showing a configuration of the image coding deep
画像符号化用深層ニューラルネットワーク15は変換切替部13と誤差検出器17に接続され、ベクトル生成部16は画像符号化用深層ニューラルネットワーク15及び変換切替部13に接続される。
The image encoding deep
ここで、画像符号化用深層ニューラルネットワーク15は、畳込演算層と全結合層から構成されるn個の層Le1〜Lenからなるニューラルネットワークであり、画像特徴ベクトルVgを生成する。また、ベクトル生成部16は、画像特徴ベクトルVgを入力し、推定キャプション特徴ベクトルEVs及び推定乱数ベクトルEVrを出力する。
Here, the image encoding deep
図10は、図8に示された画像復号化用深層ニューラルネットワーク部14の構成を示すブロック図である。図10に示されるように、画像復号化用深層ニューラルネットワーク部14は図3に示された画像生成用敵対ニューラルネットワーク部4と同様な構成を有するが、画像復号化用深層ニューラルネットワーク18は、乱数ベクトルVrとキャプション特徴ベクトル生成部22が生成するキャプション特徴ベクトルVsを入力して画像を生成する。
FIG. 10 is a block diagram showing a configuration of the image decoding deep
また、判別用深層ニューラルネットワーク19は、キャプション特徴ベクトルVs、乱数ベクトルVr、及び生成画像(以下「生成画像関連データ」という。)か、若しくは推定乱数ベクトルEVr及びベクトル生成部16で生成された推定キャプション特徴ベクトルEVsと、画像データDG(以下「実画像関連データ」という。)を入力とし、入力されたデータが生成画像関連データか実画像関連データかを判別する。
In addition, the discrimination deep
ここで、上記のように推定キャプション特徴ベクトルEVs及び推定乱数ベクトルEVrを利用する画像生成装置10の実装は、公知論文(”Adversarial Feature Learning”, Jeff Donahue, Philipp Krahenbuhl, Trevor Darrell, arXiv:1605.09782や”Adversarially Learned Inference”, Vincent Dumoulin, Ishmael Belghazi, Ben Poole, Olivier Mastropietro, Alex Lamb, Martin Arjovsky, Aaron Courville, arXiv:1606.00704)に示された方法により実現できる。
Here, as described above, the implementation of the
以上のような本発明の実施の形態2に係る画像生成装置10によれば、画像データDGのみならず画像に対応したキャプションデータDLなどの言語データをも参照して画像を生成するため、かかる言語データが使用できる環境においては、脳により認識される実画像により近い画像を創出することができる。
According to the
[実施の形態3]
図11は、本発明の実施の形態3に係る画像生成装置20の構成を示すブロック図である。図11に示されるように、画像生成装置20は、上記実施の形態2に係る画像生成装置10においてさらに、上記実施の形態1に係る画像認識用深層ニューラルネットワーク部2を追加した構成を有する。ただし、画像復号化用深層ニューラルネットワーク部14には、キャプション特徴ベクトル生成部22が生成するキャプション特徴ベクトルVsの代わりに、画像認識用深層ニューラルネットワーク部2において生成される言語・画像共通特徴ベクトルVcが入力される。
[Embodiment 3]
FIG. 11 is a block diagram showing a configuration of the
このような構成を有する本発明の実施の形態3に係る画像生成装置20によれば、一つの装置において、上記実施の形態1に係る画像生成装置1と上記実施の形態2に係る画像生成装置10の双方の機能を実現することができる。
According to the
1,10,20 画像生成装置
2 画像認識用深層ニューラルネットワーク部
3,13 変換切替部
4 画像生成用敵対ニューラルネットワーク部
12 画像符号化用深層ニューラルネットワーク部
14 画像復号化用深層ニューラルネットワーク部
15 画像符号化用深層ニューラルネットワーク
16 ベクトル生成部
18 画像復号化用深層ニューラルネットワーク
21 画像認識用深層ニューラルネットワーク
22 キャプション特徴ベクトル生成部
23 共通特徴ベクトル生成部
41 画像生成用深層ニューラルネットワーク
19,42 判別用深層ニューラルネットワーク
17,43 誤差検出器
1, 10, 20
Claims (8)
画像に対応するテキストデータからキャプション特徴ベクトルを生成するキャプション特徴ベクトル生成手段と、
前記キャプション特徴ベクトルと前記画像特徴ベクトルに応じて共通特徴ベクトルを生成する共通特徴ベクトル生成手段と、
前記共通特徴ベクトルに応じて生成画像データを創出する画像生成手段と、
脳の活動データを脳活動特徴ベクトルに変換する変換手段と、
前記脳活動特徴ベクトルを前記画像特徴ベクトル生成手段により生成されるベクトル及び前記共通特徴ベクトルと比較して、最も相関が高いベクトルを生成するチャネルへ選択的に前記脳活動特徴ベクトルを供給する選択手段とを備えた画像生成装置。 Image feature vector generation means for generating an image feature vector from image data;
Caption feature vector generating means for generating a caption feature vector from text data corresponding to an image;
Common feature vector generation means for generating a common feature vector according to the caption feature vector and the image feature vector;
Image generating means for generating generated image data according to the common feature vector;
Conversion means for converting brain activity data into brain activity feature vectors;
A selection unit that compares the brain activity feature vector with the vector generated by the image feature vector generation unit and the common feature vector, and selectively supplies the brain activity feature vector to a channel that generates a vector having the highest correlation. An image generation apparatus comprising:
前記画像生成手段は敵対ニューラルネットワークにより構成された、請求項1に記載の画像生成装置。 The image feature vector generating means is constituted by a deep neural network,
The image generation apparatus according to claim 1, wherein the image generation unit is configured by a hostile neural network.
前記画像生成手段は、敵対ニューラルネットワークにより構成された、請求項4に記載の画像生成装置。 The image feature vector generating means is constituted by a deep neural network,
The image generation device according to claim 4, wherein the image generation means is configured by an adversarial neural network.
前記画像データに対応する言語データからキャプション特徴ベクトルを生成する第二のステップと、
前記画像特徴ベクトルと前記キャプション特徴ベクトルに応じて共通特徴ベクトルを生成する第三のステップと、
前記共通特徴ベクトルに応じて生成画像データを創出する第四のステップとを有する画像生成方法。 A first step of generating an image feature vector from the image data;
A second step of generating a caption feature vector from language data corresponding to the image data;
A third step of generating a common feature vector according to the image feature vector and the caption feature vector;
And a fourth step of generating generated image data according to the common feature vector.
The image generation method according to claim 6, wherein in the fourth step, the generated image data is further created based on the image data and language data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017107945A JP6853535B2 (en) | 2017-05-31 | 2017-05-31 | Image generator and image generation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017107945A JP6853535B2 (en) | 2017-05-31 | 2017-05-31 | Image generator and image generation method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018205885A true JP2018205885A (en) | 2018-12-27 |
JP6853535B2 JP6853535B2 (en) | 2021-03-31 |
Family
ID=64957144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017107945A Active JP6853535B2 (en) | 2017-05-31 | 2017-05-31 | Image generator and image generation method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6853535B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102089014B1 (en) * | 2018-09-07 | 2020-03-13 | 연세대학교 산학협력단 | Apparatus for generating image reconstructing brain activity of inspecting object and method thereof |
CN111968193A (en) * | 2020-07-28 | 2020-11-20 | 西安工程大学 | Text image generation method based on StackGAN network |
-
2017
- 2017-05-31 JP JP2017107945A patent/JP6853535B2/en active Active
Non-Patent Citations (4)
Title |
---|
ABRAM HANDLER ET AL.: "An empirical study of semantic similarity in WordNet and Word2Vec", [ONLINE], JPN7021000132, 18 December 2014 (2014-12-18), ISSN: 0004426448 * |
HAN ZHANG ET AL.: "StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks", [ONLINE], JPN7021000131, December 2016 (2016-12-01), ISSN: 0004426447 * |
TOMAS MIKOLOV ET AL.: "Distributed Representations of Words and Phrases and their Compositionality", [ONLINE], JPN7021000134, October 2013 (2013-10-01), ISSN: 0004449925 * |
林隆介: "脳神経情報に基づく視覚体験の可視化技術の開発", [ONLINE], JPN7021000133, 2015, ISSN: 0004449924 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102089014B1 (en) * | 2018-09-07 | 2020-03-13 | 연세대학교 산학협력단 | Apparatus for generating image reconstructing brain activity of inspecting object and method thereof |
CN111968193A (en) * | 2020-07-28 | 2020-11-20 | 西安工程大学 | Text image generation method based on StackGAN network |
CN111968193B (en) * | 2020-07-28 | 2023-11-21 | 西安工程大学 | Text image generation method based on StackGAN (secure gas network) |
Also Published As
Publication number | Publication date |
---|---|
JP6853535B2 (en) | 2021-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ortega et al. | Multimodal fusion with deep neural networks for audio-video emotion recognition | |
He et al. | Deep learning for image-to-text generation: A technical overview | |
CN110738057B (en) | Text style migration method based on grammar constraint and language model | |
Chiu et al. | How to train your avatar: A data driven approach to gesture generation | |
US10643032B2 (en) | Output sentence generation apparatus, output sentence generation method, and output sentence generation program | |
CN110427625B (en) | Sentence completion method, apparatus, medium, and dialogue processing system | |
CN113052149B (en) | Video abstract generation method and device, computer equipment and medium | |
CN111464881B (en) | Full-convolution video description generation method based on self-optimization mechanism | |
KR20180064907A (en) | 3d body information recognition apparatus, apparatus and method for visualizing of health state | |
JP6853535B2 (en) | Image generator and image generation method | |
CN115270807A (en) | Method, device and equipment for judging emotional tendency of network user and storage medium | |
Li et al. | Context-aware Multimodal Fusion for Emotion Recognition. | |
Li et al. | Cross2Self-attentive bidirectional recurrent neural network with BERT for biomedical semantic text similarity | |
JP2004053652A (en) | Pronunciation judging system, server for managing system and program therefor | |
JP7164077B2 (en) | Video segment description generation method, apparatus, program, electronic device and storage medium | |
Shang et al. | Multi-scale interaction transformer for temporal action proposal generation | |
CN110717054A (en) | Method and system for generating video by crossing modal characters based on dual learning | |
Su et al. | An improved multimodal dimension emotion recognition based on different fusion methods | |
Aspandi et al. | Audio-visual gated-sequenced neural networks for affect recognition | |
Balayn et al. | Data-driven development of virtual sign language communication agents | |
CN111475614B (en) | Knowledge reasoning dialogue method, apparatus, electronic device and storage medium | |
Gillmann et al. | A taxonomy of uncertainty events in visual analytics | |
CN113590772A (en) | Abnormal score detection method, device, equipment and computer readable storage medium | |
CN113642630A (en) | Image description method and system based on dual-path characteristic encoder | |
Ayoub | Multimodal Affective Computing Using Temporal Convolutional Neural Network and Deep Convolutional Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210120 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210204 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210224 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210303 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6853535 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |