JP7396492B2

JP7396492B2 - 学習装置、生成装置、学習方法、生成方法、及びプログラム

Info

Publication number: JP7396492B2
Application number: JP2022533275A
Authority: JP
Inventors: 香織熊谷; 崇之梅田; 哲小橋川; 潤島村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2023-12-12
Anticipated expiration: 2040-06-29
Also published as: JPWO2022003773A1; WO2022003773A1

Description

開示の技術は、学習装置、生成装置、学習方法、生成方法、及びプログラムに関する。

シーンを説明する文書を可視化するイラストを自動で生成するいくつかの技術開発が為され、開示されてきている。

例えば、非特許文献１の技術は、文を入力として、現在のレイアウトの状態から次に配置すべき単語の予測及び当該単語に相当する物体の適切な配置場所の予測を繰り返し行い、最終的に入力された文に対応するレイアウトを生成する。その後、生成したレイアウトに各物体のイラストを合成し、文書を可視化するイラスト画像を生成する。

また、非特許文献２の技術は、文を入力として、バウンディングボックス生成モジュール、物体形状生成モジュール、及び画像生成モジュールの３段階の処理を経て最終的に画像を生成する。バウンディングボックス生成モジュールは、物体及び物体の位置関係であるレイアウト情報を生成する。物体形状生成モジュールは、各物体の形状を生成する。画像生成モジュールは、物体形状モジュールの出力から、本物の画像のように見えるよう画像全体を生成する。

これらの技術は、複数の物体が相互に関係するシーンを説明する文書を可視化するために、まず複数の物体の位置関係を示すレイアウトを生成し、生成したレイアウトにイラストを合成したり、他のニューラルネットワークを用意して画像を生成したりしている。

Tan Fuwen, Feng Song, Ordonez Vicente. "Text2Scene: Generating Compositional Scenes from Textual Descriptions. ", In proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019. Wenbo Li, Pengchuan Zhang, Lei Zhang, Qiuyuan Huang, Xiaodong He, Siwei Lyu, Jianfeng Gao. "Object-driven Text-to-Image Synthesis via Adversarial Training. " In proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.

もっともこれらの技術は、現実にあり得るレイアウトであっても、学習に用いたイラストデータセットに存在しないシーンのレイアウトの生成は困難であるという問題がある。例えば、非特許文献１で使用されたＡｂｓｔｒａｃｔデータセットには、人が３人以上同時に存在するシーンが含まれていない。このとき、３人以上存在するシーンを説明する文を入力すると、２人しか存在しないシーンが生成されてしまう。このように、入力文と学習データとの対応に関する課題がある。

開示の技術は、上記の点に鑑みてなされたものであり、現実のシーンに即した適切なレイアウトを生成するための学習装置、生成装置、学習方法、生成方法、及びプログラムを提供することを目的とする。

本開示の第１態様は、学習装置であって、入力画像と、前記入力画像中の物体及び前記物体の位置関係を示す入力レイアウトと、前記入力画像の描画に関する入力文と、データセットの種類を示すデータ種類とを含む学習データを受け付ける受付部と、文を入力として物体のクラス及び属性を含む生成レイアウトを生成するレイアウト生成モデル、レイアウトを入力としてレイアウトの特徴を抽出する関係ベース識別モデル、及び画像を入力として所定のターゲットデータに対応した画像である確率を出力するターゲット識別モデルを含む各種モデル、並びに前記各種モデルのパラメータが格納されている記憶部と、前記受付部により受け付けた前記学習データのうちの入力文を、前記レイアウト生成モデルへの入力として、前記レイアウト生成モデルの出力により生成レイアウトを生成する生成部と、前記受付部から受け付けたデータ種類と、前記生成部によって生成した生成レイアウトと、前記関係ベース識別モデルと、前記ターゲット識別モデルとを受け付け、ドメインに応じた所定の誤差を示すロスを計算し、計算結果を出力するロス計算部と、前記ロス計算部から受け付けたロスの計算結果に基づいて、前記各種モデルのうち少なくとも前記レイアウト生成モデルのパラメータを更新するパラメータ更新部と、を含む。

本開示の第２態様は、生成装置であって、入力文を受け付ける受付部と、ドメインに応じた所定の誤差を示すロスを用いて予め学習されたレイアウト生成モデルであって、文を入力として物体のクラス及び属性を含む生成レイアウトを生成するレイアウト生成モデルへ前記入力文を入力し、前記レイアウト生成モデルの出力として、生成レイアウトを生成し、レイアウト及び所定のデータセットを入力として生成画像を生成する合成器に、前記生成レイアウトを入力し、前記合成器の出力として、生成画像を生成する生成部と、を含む。

本開示の第３態様は、学習方法であって、入力画像と、前記入力画像中の物体及び前記物体の位置関係を示す入力レイアウトと、前記入力画像の描画に関する入力文と、データセットの種類を示すデータ種類とを含む学習データを受け付け、文を入力として物体のクラス及び属性を含む生成レイアウトを生成するレイアウト生成モデル、レイアウトを入力としてレイアウトの特徴を抽出する関係ベース識別モデル、及び画像を入力として所定のターゲットデータに対応した画像である確率を出力するターゲット識別モデルを含む各種モデルを用いて、前記受け付けた前記学習データのうちの入力文を、前記レイアウト生成モデルへの入力として、前記レイアウト生成モデルの出力により生成レイアウトを生成し、前記受け付けたデータ種類と、前記生成した生成レイアウトと、前記関係ベース識別モデルと、前記ターゲット識別モデルとを受け付け、ドメインに応じた所定の誤差を示すロスを計算し、計算結果を出力し、前記受け付けたロスの計算結果に基づいて、前記各種モデルのうち少なくとも前記レイアウト生成モデルのパラメータを更新する、ことを含む処理をコンピュータが実行することを特徴とする。

本開示の第４態様は、生成方法であって、入力文を受け付け、ドメインに応じた所定の誤差を示すロスを用いて予め学習されたレイアウト生成モデルであって、文を入力として物体のクラス及び属性を含む生成レイアウトを生成するレイアウト生成モデルへ前記入力文を入力し、前記レイアウト生成モデルの出力として、生成レイアウトを生成し、レイアウト及び所定のデータセットを入力として生成画像を生成する合成器に、前記生成レイアウトを入力し、前記合成器の出力として、生成画像を生成する、ことを含む処理をコンピュータが実行することを特徴とする。

開示の技術によれば、現実のシーンに即した適切なレイアウトを生成することができる。

本開示の手法で用いる各種モデル等、及び計算される各種ロスの関係を示す概念図である。学習装置及び生成装置のハードウェア構成を示すブロック図である。本実施形態の学習装置の構成を示すブロック図である。学習装置による学習処理の流れを示すフローチャートである。本実施形態の生成装置の構成を示すブロック図である。生成装置による生成処理の流れを示すフローチャートである。

以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

まず、本開示の概要について説明する。我々は日常的に、製品や作業のマニュアルを読解したり、メール又は会議の履歴から概要を掴むなど、大量の文書データに触れ、それらの内容を理解している。特に、複数の物体が複雑に関係するようなシーンを描写する文を読解する際には、その情景を想起する必要があり、理解に時間がかかる。このような複雑なシーンの理解を助ける手法として、文が描写する情景を可視化したイラストを共に認識する手法が挙げられる。例えば、事故発生状況を説明した文書に、その時の状況を可視化したイラストが付与されていれば、人は容易にその状況を想起できる。更に、文書中に明記されていない部分が明確化されれば、理解を更に深める助けになると共に、認識齟齬の回避にも繋がる。従って、シーンを説明する文書を可視化したイラストを付与することが、人が複雑なシーンを素早く正確に理解する助けになる。

このようなシーンを説明する文書を可視化するイラストを自動で生成する技術について上記開示の技術がある。これに対して、本開示の技術は、上記課題に示したように、現実にあり得るレイアウトであって、ターゲットデータセット、すなわちイラストデータセットに存在しないシーンの生成に関する技術を提案する。本開示の手法では、イラストデータ（ターゲットドメイン）と実画像データ（ソースドメイン）とで学習する内容を区別し、それぞれにおいて必要な知識を転用する手法を検討した。例えば、他の実画像データセットのレイアウト情報を転用することで現実にあり得るシーンの知識を補い、イラストデータセットに存在しないシーンについても正確に、かつ自然なイラストレイアウトとイラスト画像とを生成する。このように、ドメイン間ギャップを埋めるようにレイアウト知識を転用した学習及び生成により、適切なシーン生成を可能とした。

図１は、本開示の手法で用いる各種モデル等、及び計算される各種ロスの関係を示す概念図である。図１に示すように、本開示の手法では、各種モデルを用いると共に、各種ロスの計算結果を用いて各種モデルのうちの所定のモデルのパラメータを更新する。各種モデルは、レイアウト生成モデル、関係ベース識別モデル、及びターゲット識別モデルである。各種ロスは、関係ベースロス、物体ロス、及びドメイン敵対ロスである。各種モデル及び各種ロスの詳細については後述する。

以下、本開示の実施形態について学習装置及び生成装置に分けて説明する。

［学習装置］
学習装置の構成について説明する。

図２は、学習装置１００のハードウェア構成を示すブロック図である。

図２に示すように、学習装置１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３、ストレージ１４、入力部１５、表示部１６及び通信インタフェース（Ｉ／Ｆ）１７を有する。各構成は、バス１９を介して相互に通信可能に接続されている。

ＣＰＵ１１は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、ＣＰＵ１１は、ＲＯＭ１２又はストレージ１４からプログラムを読み出し、ＲＡＭ１３を作業領域としてプログラムを実行する。ＣＰＵ１１は、ＲＯＭ１２又はストレージ１４に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。本実施形態では、ＲＯＭ１２又はストレージ１４には、学習プログラムが格納されている。

ＲＯＭ１２は、各種プログラム及び各種データを格納する。ＲＡＭ１３は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ１４は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）又はＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。

入力部１５は、マウス等のポインティングデバイス、及びキーボードを含み、各種の入力を行うために使用される。

表示部１６は、例えば、液晶ディスプレイであり、各種の情報を表示する。表示部１６は、タッチパネル方式を採用して、入力部１５として機能してもよい。

通信インタフェース１７は、端末等の他の機器と通信するためのインタフェースである。当該通信には、たとえば、イーサネット（登録商標）若しくはＦＤＤＩ等の有線通信の規格、又は、４Ｇ、５Ｇ、若しくはＷｉ－Ｆｉ（登録商標）等の無線通信の規格が用いられる。

次に、学習装置１００の各機能構成について説明する。図３は、本実施形態の学習装置の構成を示すブロック図である。各機能構成は、ＣＰＵ１１がＲＯＭ１２又はストレージ１４に記憶された学習プログラムを読み出し、ＲＡＭ１３に展開して実行することにより実現される。

図３に示すように、学習装置１００は、受付部１１０と、記憶部１１２と、生成部１１４と、ロス計算部１１６と、パラメータ更新部１１８とを含んで構成されている。

受付部１１０は、学習データを受け付ける。学習データは、学習用の入力画像ｙと、学習用の入力レイアウトｓと、入力画像の描画に関する学習用の入力文ｘと、データセットの種類を示す学習用のデータ種類ｄとを１セット以上含むデータである。入力画像ｙは、入力文が描写するシーンである。入力レイアウトｓは、入力画像中の各物体、各物体の種類、各物体の属性、及び各物体の位置関係を示す。データセットは、ターゲットドメインのターゲットデータか、又はソースドメインのソースデータの何れかであり、データ種類ｄと共に受け付ける。

以下、各種学習データの具体的な例について説明する。具体的には、入力文ｘは、サイズがＶ×Ｎの行列であり、Ｖは文中の各単語及び紐づくベクトルの長さであり、Ｎは文中の単語数である。文中の各単語及び紐づくベクトルは、各単語を一意に定めるベクトルであれば何を用いてもよい。

入力画像ｙは、サイズが横幅×縦幅×チャネル数のテンソルであり、ここでは、学習用の入力画像ｘの横幅をＷ、縦幅をＨ、チャネル数をＤとする。また、テンソルの最左上手前の座標を（０、０、０）とし、最左上手前から右にｗ、下にｈ進み、奥にｄ枚目のチャネルに相当する座標を（ｗ、ｈ、ｄ）と表記する。また、説明の簡単のため、各テンソルについて、横幅の次元を次元１、縦幅の次元を次元２、チャネル数の次元を次元３と記載する。すなわち、学習用の入力画像ｘの次元１のサイズはＷ、次元２のサイズはＨ、次元３のサイズはＤとなる。

入力レイアウトｓは、入力画像ｘに存在する各物体のクラス、及び各物体の属性を示すテンソルである。例えば、非特許文献１では、学習用の入力画像ｘの横と縦とのグリッド数をｇｗ、ｇｈとするとき、横幅がＷ／ｇｗ、縦幅がＨ／ｇｈであり、チャネル数はクラス数×属性項目数である。ここでクラス数をＣ、属性項目数をＡとする。物体のクラスとは、予め定義されている物体の種類を示す言葉であれば何を用いてもよい。例えば、物体の種類を示す言葉としては、ｐｅｒｓｏｎ、又はｓｐｏｒｔｓｂａｌｌ等が挙げられる。物体の属性とは、物体のサイズに関する情報を含み、これに加えて、物体の状態を示す情報であれば何を用いてもよい。属性項目数Ａとは、物体のサイズに関する情報及び物体の状態を示す情報の種類数の和である。物体のサイズに関する情報とは物体のサイズを示す数値であれば何でもよい。物体のサイズを示す数値としては、例えば、物体サイズの横と縦との長さの各々の、画像の横と縦との長さに対する比が挙げられる。物体の状態を示す情報とは、物体の状態を示す数値又は言葉であれば何を用いてもよい。物体の状態を示す言葉としては、例えば、赤及び青などの物体の色を示す言葉が挙げられる。物体の状態を示す数値としては、例えば、物体の向きを示す数値などが挙げられる。非特許文献１の手法では、データセットに格納されている初期状態の向きであれば０、左右に逆転していた場合は１等と数値で示している。

データ種類ｄは、入力されたデータが、ターゲットデータか、又はソースデータかを判別できる数値又は記号であれば何を用いてもよい。データ種類ｄを数値とする場合は、例えば、ターゲットデータであれば０、ソースデータであれば１である。

受付部１１０は、以上説明した、入力文ｘ、入力画像ｙ、入力レイアウトｓ、及びデータ種類ｄの１以上の学習データのセットを、生成部１１４及びロス計算部１１６に出力する。また、受付部１１０以降の処理では、データ種類ｄに応じて処理が異なるため、データ種類ｄの判定を行っておく。

記憶部１１２には、各種モデルとしてレイアウト生成モデル、関係ベース識別モデル、及びターゲット識別モデルを含む各種モデル、並びにこれらの各種モデルのパラメータが格納されている。レイアウト生成モデルは、入力文ｘを入力として物体のクラス及び属性を含む生成レイアウトを生成するモデルである。例えば、入力文の内容が例えば、「森のベンチに３人座っている」だったとすれば、レイアウト生成モデルは、３人の人物の各々、及びベンチに対応するレイアウトを生成する。関係ベース識別モデルは、レイアウトを入力としてレイアウトの特徴を抽出するモデルである。ターゲット識別モデルは、画像を入力として自然なターゲットデータの画像である確率、すなわちターゲットデータらしさの確率を出力するモデルである。また、記憶部１１２には、ターゲットデータセットが付随した合成器が格納されている。合成器はレイアウトを入力として生成画像を生成するように予め学習された合成器である。ターゲットデータセットには、イラスト及びイラストを合成する画像が含まれる。生成画像とは、レイアウトを元に、レイアウトに対応するターゲットデータセットのデータ、すなわちイラストデータを合成した画像である。例えば、３人の人物に対応するレイアウトが入力されたとすれば、レイアウトに対応する３人の人物を示すイラストデータの各々が、入力画像ｘと同じサイズの画像に合成される。またイラストを合成する画像は、レイアウトの物体のクラス等の内容から適切な画像を合成対象としてターゲットデータセットから選択すればよい。

（各種モデルの説明）
具体的には、レイアウト生成モデル、関係ベース識別モデル、及びターゲット識別モデルは、それぞれニューラルネットワークであり、記憶部１１２には、各ニューラルネットワークのパラメータが格納されている。レイアウト生成モデルは、入力文ｘを入力とし、生成レイアウトｓ’を生成するニューラルネットワークであれば何を用いてもよい。関係ベース識別モデルは、レイアウトの物体の位置関係を表現する特徴を抽出するニューラルネットワークであれば何を用いてもよい。ターゲット識別モデルは、入力画像ｙと生成画像ｙ’とを識別するニューラルネットワークであれば何を用いてもよい。

生成部１１４は、受付部１１０から入力文ｘ、入力画像ｙ、入力レイアウトｓ、及びデータ種類ｄを受け付ける。また、生成部１１４は、記憶部１１２からレイアウト生成モデル、及び当該レイアウト生成モデルのパラメータを取得する。そして、生成部１１４は、入力文ｘを、レイアウト生成モデルへの入力として、レイアウト生成モデルの出力により生成レイアウトｓ’を生成する。ここで、生成部１１４の処理は、データ種別ｄに応じて異なる。生成部１１４は、データ種類ｄがターゲットデータのときには、記憶部１１２から合成器を更に受け付け、合成器に生成レイアウトｓ’及びデータ種類ｄに対応したターゲットデータのデータセットを入力し、合成器の出力として生成画像ｙ’を生成する。以上のように、生成部１１４の出力は、生成レイアウトｓ’（データ種別ｄがターゲットデータのときは更に生成画像ｙ’）である。

生成部１１４の具体的態様について説明する。生成部１１４は、まず、記憶部１１２からレイアウト生成モデル及び当該レイアウト生成モデルのパラメータを取得する。次に、生成部１１４は、入力文ｘをレイアウト生成モデルに入力して生成レイアウトｓ’を生成する。データ種類ｄがターゲットデータのときには、合成器に生成レイアウトｓ’とターゲットデータセットとを入力し、生成画像ｙ’を生成する。合成器は、具体的には、生成レイアウトｓ’が示す物体のクラスに相当するイラストをターゲットデータセットから選択し、当該物体のクラスの属性情報に従って拡縮、変換し、入力画像ｓと同じサイズの画像に合成し、生成画像ｙ’を生成する。

ロス計算部１１６は、受付部１１０からデータ種類ｄの判定結果を受け付け、生成部１１４から生成レイアウトｓ’及び生成画像ｙ’を受け付ける。ここで、ロス計算部１１６の処理は、データ種別ｄに応じて異なる。データ種別ｄがターゲットデータの場合、記憶部１１２から関係ベース識別モデル及びターゲット識別モデルを取得する。データ種別ｄがソースデータの場合、記憶部１１２から関係ベース識別モデルを取得する。ロス計算部１１６は、データ種別ｄに応じて、２種類又は３種類のロスを計算し、ロスの計算結果を出力する。以下にロスの種類について説明する。ロスの種類は、関係ベースロス、物体ロス、及びドメイン敵対ロスがある。

一つ目のロスは、生成レイアウトｓ’が、入力レイアウトｓの物体間の位置関係とどの程度似通っているか否かを示す指標であれば何を用いてもよい。例えば、入力レイアウトｓと生成レイアウトｓ’とを関係ベース識別モデルに入力し、その出力値の二乗誤差とする。関係ベース識別モデルの出力値はそれぞれ入力関係特徴ｒ及び生成関係特徴ｒ’である。この二乗誤差の値を小さくするようにレイアウト生成モデルのパラメータを更新する。以下、このロスを関係ベースロスと呼ぶ。以上のように、関係ベースロスは、本開示の生成レイアウト及び入力レイアウトにおける物体間の位置関係に関する指標を示すロスでる。

二つ目のロスは、生成レイアウトｓ’が、入力レイアウトｓ中の物体をどれだけ正確に持つか判定する指標であれば何を用いてもよい。例えば、入力レイアウトｓ中の物体数が５つのとき、生成レイアウトｓ’が５つ中４つ持つとき、誤り率として０．２とする。これを小さくするようにレイアウト生成モデルのパラメータを更新する。以下、このロスを物体ロスと呼ぶ。以上のように、物体ロスは、本開示の生成レイアウト及び入力レイアウトにおける物体自体に関する指標を示すロスである。なお、記憶部１１２に、上記の誤り率のチェックを行う物体チェック器を格納しておき、物体チェック器を用いるようにしてもよい。

三つ目のロスは、入力画像ｙが、本物のターゲットデータの画像であり、生成画像ｙ’が、偽物のターゲットデータの画像であることを判定する指標であれば何を用いてもよい。例えば、ある画像をターゲット識別モデルに入力したときの出力値である。当該出力値を小さくするようにターゲット識別モデルのパラメータを更新し、同時に当該出力値を大きくするようにレイアウト生成モデルのパラメータを更新する。以下、このロスをドメイン敵対ロスと呼ぶ。以上のように、ドメイン敵対ロスは、生成画像及び入力画像の真偽判定の識別性に関する指標を示すロスである。

ロス計算部１１６は、データ種類ｄがターゲットデータのとき、上記３種類のロスを計算する。また、ロス計算部１１６は、データ種類ｄがソースデータのときは関係ベースロス及び物体ロスの２種類のロスを計算する。

パラメータ更新部１１８は、ロス計算部１１６から各種ロスを受け付ける。パラメータ更新部１１８の処理は、データ種別ｄに応じて異なる。データ種別ｄが、ターゲットデータの場合、記憶部１１２からレイアウト生成モデル、及びターゲット識別モデルを取得する。データ種別ｄが、ソースデータの場合、記憶部１１２からレイアウト生成モデルを取得する。パラメータ更新部１１８は、データ種別ｄがターゲットデータの場合、関係ベースロス、物体ロス、及びドメイン敵対ロスを用いて、レイアウト生成モデルのパラメータを更新する。また、ドメイン敵対ロスを用いて、ターゲット識別モデルのパラメータを更新する。一方、パラメータ更新部１１８は、データ種別ｄがソースデータの場合、関係ベースロス、及び物体ロスを用いて、レイアウト生成モデルのパラメータを更新する。レイアウト生成モデルのパラメータを更新するとき、関係ベースロス、物体ロス、が小さくなるように、かつ、ドメイン敵対ロスを受け取った時は、ドメイン敵対ロスが大きくなるように更新すればどんな方法であってもよい。例えば、ターゲットデータの場合、関係ベースロス、物体ロス、及びドメイン敵対ロスと絶対値が同じ負の値との線形和を全体ロスとして、全体ロスが小さくなるようにパラメータを更新する。また、ソースデータの場合も同様に関係ベースロス、及び物体ロスに対する全体ロスとして、全体ロスが小さくなるようにパラメータを更新する。ターゲット識別モデルのパラメータを更新するとき、ドメイン敵対ロスが小さくなるように更新すればどんな方法であってもよい。以上のようにして更新したパラメータは記憶部１１２に格納する。

次に、学習装置１００の作用について説明する。

図４は、学習装置１００による学習処理の流れを示すフローチャートである。ＣＰＵ１１がＲＯＭ１２又はストレージ１４から学習プログラムを読み出して、ＲＡＭ１３に展開して実行することにより、学習処理が行なわれる。学習装置１００は、入力として、学習データを受け付けて以下の処理を行う。ＣＰＵ１１が学習装置１００の各部として機能する。

ステップＳ１００において、ＣＰＵ１１は、受付部１１０として、学習データを受け付ける。学習データは、入力文ｘ、入力画像ｙ、入力レイアウトｓ、及びデータ種類ｄである。

ステップＳ１０２において、ＣＰＵ１１は、受付部１１０として、データ種類ｄがターゲットデータであるか、ソースデータであるかを判定する。当該判定による分岐は、データ種類ｄの判定結果に応じて、ターゲットデータであればステップＳ１０４へ移行し、ソースデータであればステップＳ１１８へ移行する。なお、データ種類ｄについての当該判定結果は、各部に出力し、判定結果に応じて各部が適宜処理を行う。

ステップＳ１０４において、ＣＰＵ１１は、生成部１１４として、記憶部１１２からレイアウト生成モデル、及び当該レイアウト生成モデルのパラメータ、並びに合成器を取得する。

ステップＳ１０６において、ＣＰＵ１１は、生成部１１４として、入力文ｘを、レイアウト生成モデルへの入力として、レイアウト生成モデルの出力により生成レイアウトｓ’を生成する。

ステップＳ１０８において、ＣＰＵ１１は、生成部１１４として、合成器に生成レイアウトｓ’及びデータ種類ｄに対応したターゲットデータのデータセットを入力し、合成器の出力として生成画像ｙ’を生成する。以上によりロス計算部１１６には、生成レイアウトｓ’及び生成画像ｙ’が出力される。

ステップＳ１１０において、ＣＰＵ１１は、ロス計算部１１６として、記憶部１１２から関係ベース識別モデル及びターゲット識別モデルを取得する。

ステップＳ１１２において、ＣＰＵ１１は、ロス計算部１１６として、関係ベースロス、物体ロス、及びドメイン敵対ロスを計算する。具体的には、関係ベースロスは、生成レイアウトｓ’と入力レイアウトｓとを関係ベース識別モデルに入力し、その出力値の二乗誤差を求めることにより計算する。物体ロスは、入力レイアウトｓ中の物体数と、生成レイアウトｓ’の物体数とから誤り率を求めることにより計算する。ドメイン敵対ロスは、生成画像ｙ’をターゲット識別モデルに入力したときの出力値を求めることにより計算する。

ステップＳ１１４において、ＣＰＵ１１は、パラメータ更新部１１８として、記憶部１１２からレイアウト生成モデル、及びターゲット識別モデルを取得する。

ステップＳ１１６において、ＣＰＵ１１は、パラメータ更新部１１８として、関係ベースロス、物体ロス、及びドメイン敵対ロスを用いて、レイアウト生成モデルのパラメータを更新する。また、ドメイン敵対ロスを用いて、ターゲット識別モデルのパラメータを更新する。更新したパラメータは記憶部１１２に格納する。

以上が、データ種類ｄの判定結果がターゲットデータであった場合の処理である。以下ステップＳ１１８以降はデータ種類ｄの判定結果がソースデータであった場合の処理である。

ステップＳ１１８において、ＣＰＵ１１は、生成部１１４として、記憶部１１２からレイアウト生成モデル、及び当該レイアウト生成モデルのパラメータを取得する。

ステップＳ１２０において、ＣＰＵ１１は、生成部１１４として、入力文ｘを、レイアウト生成モデルへの入力として、レイアウト生成モデルの出力により生成レイアウトｓ’を生成する。

ステップＳ１２２において、ＣＰＵ１１は、ロス計算部１１６として、記憶部１１２から関係ベース識別モデルを取得する。

ステップＳ１２４において、ＣＰＵ１１は、ロス計算部１１６として、関係ベースロス、及び物体ロスを計算する。

ステップＳ１２６において、ＣＰＵ１１は、パラメータ更新部１１８として、記憶部１１２からレイアウト生成モデルを取得する。

ステップＳ１２８において、ＣＰＵ１１は、パラメータ更新部１１８として、関係ベースロス、及び物体ロスを用いて、レイアウト生成モデルのパラメータを更新する。以上が学習処理ルーチンである。

以上説明したように本実施形態の学習装置１００によれば、現実のシーンに即した適切なレイアウトを生成するためのモデルを学習できる。

［生成装置］
次に、生成装置について説明する。図５は、本実施形態の生成装置の構成を示すブロック図である。

図５に示すように、生成装置２００は、受付部２１０と、記憶部２１２と、生成部２１４と、出力部２１６とを含んで構成されている。

なお、生成装置２００も学習装置１００と同様のハードウェア構成によって構成できる。図２に示すように、生成装置２００は、ＣＰＵ２１、ＲＯＭ２２、ＲＡＭ２３、ストレージ２４、入力部２５、表示部２６及び通信Ｉ／Ｆ２７を有する。各構成は、バス２９を介して相互に通信可能に接続されている。ＲＯＭ２２又はストレージ２４には、生成プログラムが格納されている。

受付部２１０は、入力文ｘ^＊のみを受け付ける。レイアウト生成処理時の入力文ｘ^＊は、具体的には学習処理時の入力文ｘと同様の形式のデータである。

記憶部２１２には、学習装置１００でパラメータが学習されたレイアウト生成モデル、及び合成器が格納されている。レイアウト生成モデルは、上述した関係ベースロス、物体ロス、及びドメイン敵対ロスを含む各種ロスを用いてパラメータが学習されている。

生成部２１４は、受付部２１０から入力文ｘ^＊を受け付け、記憶部２１２からレイアウト生成モデル及び当該レイアウト生成モデルのパラメータ、並びに合成器を取得する。生成部２１４は、生成レイアウトｓ’及び生成画像ｙ’を生成する。生成レイアウトｓ’及び生成画像ｙ’の生成手法は学習装置１００の生成部１１４と同様である。

出力部２１６は、生成部２１４から生成レイアウトｓ’及び生成画像ｙ’を受け取り、出力する。

次に、生成装置２００の作用について説明する。

図６は、生成装置２００による生成処理の流れを示すフローチャートである。ＣＰＵ２１がＲＯＭ２２又はストレージ２４から生成プログラムを読み出して、ＲＡＭ１３に展開して実行することにより、生成習処理が行なわれる。生成装置２００は、入力として、入力文を受け付けて以下の処理を行う。ＣＰＵ２１が生成装置２００の各部として機能する。

ステップＳ２００において、ＣＰＵ２１は、受付部２１０として、入力文ｘ^＊を受け付ける。

ステップＳ２０２において、ＣＰＵ２１は、生成部２１４として、記憶部２１２からレイアウト生成モデル、及び当該レイアウト生成モデルのパラメータ、並びに合成器を取得する。

ステップＳ２０４において、ＣＰＵ２１は、生成部２１４として、入力文ｘ^＊を、レイアウト生成モデルへの入力として、レイアウト生成モデルの出力により生成レイアウトｓ’を生成する。

ステップＳ２０６において、ＣＰＵ２１は、生成部２１４として、合成器に生成レイアウトｓ’及びターゲットデータのデータセットを入力し、合成器の出力として生成画像ｙ’を生成する。

ステップＳ２０８において、ＣＰＵ２１は、出力部２１６として、生成レイアウトｓ’及び生成画像ｙ’を出力する。以上が生成処理ルーチンである。

以上説明したように本実施形態の生成装置２００によれば、現実のシーンに即した適切なレイアウトを生成し、当該レイアウトを合成した生成画像を出力できる。

ここで、上述した学習装置１００に関する効果についての補足を説明する。学習装置１００においては、データ種類ｄをソースデータとしても学習を行うことで、ターゲットドメインとは異なる他のデータセットからのレイアウト知識を転用することができる。

また、物体の捉え方に関して、パラメータ学習に用いるロスの種類として、関係ベースロスと物体ロスとに分けて、大局的条件と、局所的条件とをチェック機構として設けた。関係ベースロスは物体同士のおおよその空間関係を捉えた大局的条件である。物体ロスは物体の有無を必ず満たしたいという局所的条件である。

また、関係ベースロス及び物体ロスを、ターゲットドメイン及びソースドメインの共通のロスをとし、ドメイン敵対ロスをターゲットドメインに固有のロスとした。これにより物体と当該物体の属性を正しく推論する点、及び自然なイラストを生成する点をそれぞれ分けて学習させることができるようにした。

なお、上記実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行した学習処理又は生成処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、及びＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、学習処理又は生成処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

また、上記実施形態では、学習プログラム又は生成プログラムがストレージ１４に予め記憶（インストール）されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＤＶＤ－ＲＯＭ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及びＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリ等の非一時的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

以上の実施形態に関し、更に以下の付記を開示する。

（付記項１）
メモリと、
前記メモリに接続された少なくとも１つのプロセッサと、
を含み、
前記プロセッサは、
入力画像と、前記入力画像中の物体及び前記物体の位置関係を示す入力レイアウトと、前記入力画像の描画に関する入力文と、データセットの種類を示すデータ種類とを含む学習データを受け付け、
文を入力として物体のクラス及び属性を含む生成レイアウトを生成するレイアウト生成モデル、レイアウトを入力としてレイアウトの特徴を抽出する関係ベース識別モデル、及び画像を入力として所定のターゲットデータに対応した画像である確率を出力するターゲット識別モデルを含む各種モデルを用いて、
前記受け付けた前記学習データのうちの入力文を、前記レイアウト生成モデルへの入力として、前記レイアウト生成モデルの出力により生成レイアウトを生成し、
前記受け付けたデータ種類と、前記生成部によって生成した生成レイアウトと、前記関係ベース識別モデルと、前記ターゲット識別モデルとを受け付け、ドメインに応じた所定の誤差を示すロスを計算し、計算結果を出力し、
前記受け付けたロスの計算結果に基づいて、前記各種モデルのうち少なくとも前記レイアウト生成モデルのパラメータを更新する、
ように構成されている学習装置。

（付記項２）
学習処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
入力画像と、前記入力画像中の物体及び前記物体の位置関係を示す入力レイアウトと、前記入力画像の描画に関する入力文と、データセットの種類を示すデータ種類とを含む学習データを受け付け、
文を入力として物体のクラス及び属性を含む生成レイアウトを生成するレイアウト生成モデル、レイアウトを入力としてレイアウトの特徴を抽出する関係ベース識別モデル、及び画像を入力として所定のターゲットデータに対応した画像である確率を出力するターゲット識別モデルを含む各種モデルを用いて、
前記受け付けた前記学習データのうちの入力文を、前記レイアウト生成モデルへの入力として、前記レイアウト生成モデルの出力により生成レイアウトを生成し、
前記受け付けたデータ種類と、前記生成部によって生成した生成レイアウトと、前記関係ベース識別モデルと、前記ターゲット識別モデルとを受け付け、ドメインに応じた所定の誤差を示すロスを計算し、計算結果を出力し、
前記受け付けたロスの計算結果に基づいて、前記各種モデルのうち少なくとも前記レイアウト生成モデルのパラメータを更新する、
非一時的記憶媒体。

１００学習装置
１１０受付部
１１２記憶部
１１４生成部
１１６ロス計算部
１１８パラメータ更新部
２００生成装置
２１０受付部
２１２記憶部
２１４生成部
２１６出力部

Claims

入力画像と、前記入力画像中の物体及び前記物体の位置関係を示す入力レイアウトと、前記入力画像の描画に関する入力文と、データセットの種類を示すデータ種類とを含む学習データを受け付ける受付部と、
文を入力として物体のクラス及び属性を含む生成レイアウトを生成するレイアウト生成モデル、レイアウトを入力としてレイアウトの特徴を抽出する関係ベース識別モデル、及び画像を入力として所定のターゲットデータに対応した画像である確率を出力するターゲット識別モデルを含む各種モデル、並びに前記各種モデルのパラメータが格納されている記憶部と、
前記受付部により受け付けた前記学習データのうちの入力文を、前記レイアウト生成モデルへの入力として、前記レイアウト生成モデルの出力により生成レイアウトを生成する生成部と、
前記受付部から受け付けたデータ種類と、前記生成部によって生成した生成レイアウトと、前記関係ベース識別モデルと、前記ターゲット識別モデルとを受け付け、ドメインに応じた所定の誤差を示すロスを計算し、計算結果を出力するロス計算部と、
前記ロス計算部から受け付けたロスの計算結果に基づいて、前記各種モデルのうち少なくとも前記レイアウト生成モデルのパラメータを更新するパラメータ更新部と、
を含む学習装置。
レイアウト及び所定のデータセットを入力として生成画像を生成する合成器を有し、
前記生成部は、前記合成器に前記生成レイアウト及び所定のデータセットを入力し、前記合成器の出力として生成画像を生成する請求項１に記載の学習装置。
前記ロス計算部は、前記ロスの種類として、前記生成レイアウト及び前記入力レイアウトにおける物体間の位置関係に関する指標である関係ベースロスと、前記生成レイアウト及び前記入力レイアウトにおける物体自体に関する指標である物体ロスと、前記生成画像及び前記入力画像の真偽判定の識別性に関する指標であるドメイン敵対ロスとのうち、少なくとも前記関係ベースロス及び前記物体ロスを計算する請求項２に記載の学習装置。
前記データ種類はターゲットデータ、又はソースデータとし、
前記データ種類が前記ターゲットデータの場合は、
前記ロス計算部は、前記関係ベースロス、前記物体ロス、及び前記ドメイン敵対ロスを計算し、
前記パラメータ更新部は、前記関係ベースロス、前記物体ロス、及び前記ドメイン敵対ロスを用いて、前記レイアウト生成モデルのパラメータを更新し、前記ドメイン敵対ロスを用いて、前記ターゲット識別モデルのパラメータを更新し、
前記データ種類が前記ソースデータの場合は、
前記ロス計算部は、前記関係ベースロス、及び前記物体ロスを計算し、
前記パラメータ更新部は、前記関係ベースロス、及び前記物体ロスの計算結果を用いて、前記レイアウト生成モデルのパラメータを更新する、請求項３に記載の学習装置。
入力文を受け付ける受付部と、
ドメインに応じた所定の誤差を示すロスを用いて予め学習されたレイアウト生成モデルであって、文を入力として物体のクラス及び属性を含む生成レイアウトを生成するレイアウト生成モデルへ前記入力文を入力し、前記レイアウト生成モデルの出力として、生成レイアウトを生成し、
レイアウト及び所定のデータセットを入力として生成画像を生成する合成器に、前記生成レイアウトを入力し、前記合成器の出力として、生成画像を生成する生成部と、
を含む生成装置。
入力画像と、前記入力画像中の物体及び前記物体の位置関係を示す入力レイアウトと、前記入力画像の描画に関する入力文と、データセットの種類を示すデータ種類とを含む学習データを受け付け、
文を入力として物体のクラス及び属性を含む生成レイアウトを生成するレイアウト生成モデル、レイアウトを入力としてレイアウトの特徴を抽出する関係ベース識別モデル、及び画像を入力として所定のターゲットデータに対応した画像である確率を出力するターゲット識別モデルを含む各種モデルを用いて、
前記受け付けた前記学習データのうちの入力文を、前記レイアウト生成モデルへの入力として、前記レイアウト生成モデルの出力により生成レイアウトを生成し、
前記受け付けたデータ種類と、前記生成した生成レイアウトと、前記関係ベース識別モデルと、前記ターゲット識別モデルとを受け付け、ドメインに応じた所定の誤差を示すロスを計算し、計算結果を出力し、
前記受け付けたロスの計算結果に基づいて、前記各種モデルのうち少なくとも前記レイアウト生成モデルのパラメータを更新する、
ことを含む処理をコンピュータに実行させる学習方法。
入力文を受け付け、
ドメインに応じた所定の誤差を示すロスを用いて予め学習されたレイアウト生成モデルであって、文を入力として物体のクラス及び属性を含む生成レイアウトを生成するレイアウト生成モデルへ前記入力文を入力し、前記レイアウト生成モデルの出力として、生成レイアウトを生成し、
レイアウト及び所定のデータセットを入力として生成画像を生成する合成器に、前記生成レイアウトを入力し、前記合成器の出力として、生成画像を生成する、
ことを含む処理をコンピュータに実行させる生成方法。
請求項１～請求項５の何れか１項記載の学習装置、又は請求項６に記載の生成装置の各部の処理をコンピュータに実行させるプログラム。