JP2019045984A - Data composing apparatus and method - Google Patents
Data composing apparatus and method Download PDFInfo
- Publication number
- JP2019045984A JP2019045984A JP2017166062A JP2017166062A JP2019045984A JP 2019045984 A JP2019045984 A JP 2019045984A JP 2017166062 A JP2017166062 A JP 2017166062A JP 2017166062 A JP2017166062 A JP 2017166062A JP 2019045984 A JP2019045984 A JP 2019045984A
- Authority
- JP
- Japan
- Prior art keywords
- image
- data
- unit
- concept
- context
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
Abstract
Description
本発明は、言葉によるデータ合成を可能にする技術に関する。 The present invention relates to techniques that allow verbal data synthesis.
画像と自然言語の言葉を関連付けることにより画像の様々な応用が可能となる。例えば、画像と言葉を関連づけると言葉による画像検索が可能となる。画像と言葉を関連付ける技術として、例えば、画像アノテーション技術がある。画像アノテーション技術は、対象画像の画像領域から特徴量を抽出し、予め特徴を学習しメタデータを付与してある画像の中から対象画像に最も近い特徴量を有する画像を選択し、その画像のメタデータを対象画像に付与する技術である。また、特許文献1には、学習用画像から複数の特徴量を抽出し、バイナリ識別器を用いて複数の特徴量を分類し、識別情報と特徴量とを対応付けるための学習モデルを識別情報及び特徴量の種類毎に作成し、識別情報の条件付確率を求める計算式をシグモイド関数で近似し、識別情報の条件付確率が最大となるようにシグモイド関数のパラメータを最適化することで識別情報毎に学習モデルを最適化する技術が開示されている。それにより、画像に信頼性の高い識別情報を付与することができる。 By associating images with natural language words, various applications of images become possible. For example, associating an image with a word makes it possible to search an image by words. As a technique for associating an image with a word, for example, there is an image annotation technique. The image annotation technology extracts a feature amount from an image area of a target image, selects an image having a feature amount closest to the target image from images in which features have been learned in advance and metadata have been added, and It is a technology that gives metadata to a target image. Further, in Patent Document 1, a plurality of feature quantities are extracted from a learning image, a plurality of feature quantities are classified using a binary discriminator, and a learning model for correlating identification information with the feature quantity is identified as identification information and Discriminant information by creating a formula for each type of feature and approximating the equation for finding the conditional probability of identification information with a sigmoid function and optimizing the parameters of the sigmoid function so that the conditional probability of identification information is maximized. A technique for optimizing a learning model is disclosed for each. Thereby, reliable identification information can be given to the image.
また画像合成技術として、四角いキャンバスの中に「山」「海」のような言葉を配置して、画像を合成する技術もある。 There is also a technology for combining images by arranging words such as "mountain" and "sea" in a square canvas as an image combining technology.
近年では画像の新たな活用が求められている。例えば、言葉で表現した所望の画像を作り出すことも求められる。しかしながら、上述した従来の画像アノテーション技術は、データベースの中から所望の画像を選択するものであり、新たな画像を作り出すことはできない。言葉を配置して画像を合成する技術では、単純な位置関係を表現することはできるが、「走って電車に乗る」といった時間的空間的関係や動作状況を表現することができず、こうした画像を合成することができない。また、従来の画像合成技術では、大量の画像とその画像に対する説明文を学習させることで、テキストから画像を生成するモデルを構築するが、学習データに含まれない未知の事象に対して適切な画像を生成することは困難である。
また、上述した画像と同様に音声やセンサデータなど他の様々なデータも自然言語の言葉と関連付けることができれば、そのデータの活用も大きく広がることが考えられる。
In recent years, new utilization of images is required. For example, it is also required to create a desired image expressed in words. However, the conventional image annotation technology described above selects a desired image from a database and can not create a new image. Although the technique of arranging words and combining images can represent simple positional relationships, it can not represent temporal and spatial relationships such as "run and get on a train" and operating conditions. Can not be synthesized. Also, in the conventional image synthesis technology, a model for generating an image from text is constructed by learning a large number of images and their descriptive sentences, but it is suitable for unknown events not included in learning data. It is difficult to generate an image.
In addition, if various other data such as voice and sensor data can be associated with the language of the natural language as in the case of the image described above, it is conceivable that the utilization of the data will be greatly expanded.
本発明の目的は、言葉によるデータ合成を可能にする技術を提供することである。 An object of the present invention is to provide a technology that enables verbal data synthesis.
本発明の一つの態様に従うデータ合成装置は、自然言語で記述可能なオブジェクトに関する合成可能なデータである要素オブジェクトを予め蓄積したデータベースと、自然言語の文からコンセプトまたはコンテキストの少なくとも一方を抽出する抽出部と、前記コンセプトまたは前記コンテキストを所定の特徴空間におけるベクトルで表現した特徴ベクトルに変換する変換部と、入力された特徴ベクトルに従って要素オブジェクトを合成するニューラルネットワークモデルを予め保持しており、前記ニューラルネットワークモデルおよび前記特徴ベクトルに基づき、前記データベースから要素オブジェクトを選択し該要素オブジェクトを用いて合成データを生成する合成部と、を有する。 A data synthesizing apparatus according to one aspect of the present invention is a database in which element objects which are synthesizable data relating to objects that can be described in natural language are stored in advance, and an extraction that extracts at least one of concept or context from natural language sentences. A neural network model for combining element objects according to an input feature vector, and a conversion unit for converting the concept or the context into a feature vector represented by a vector in a predetermined feature space; And a composition unit that selects an element object from the database and generates composition data using the element object based on the network model and the feature vector.
本発明によれば、特徴ベクトルに従って要素オブジェクトを合成するニューラルネットワークモデルを予め保持し、自然言語の文からコンセプトとコンテキストの少なくとも一方を抽出し、それらを特徴ベクトルに変換し、ニューラルネットワークモデルに基づき要素オブジェクトを合成して合成データを生成するので、自然言語の文で表現されたユーザ所望の合成データを、データベースに蓄積された要素オブジェクトから生成することができる。また、学習に用いていない未知のシーンの画像を生成することができる。 According to the present invention, a neural network model that combines element objects in accordance with feature vectors is held in advance, at least one of concept and context is extracted from natural language sentences, and converted into feature vectors. Since element objects are synthesized to generate synthesized data, user-desired synthesized data expressed in natural language sentences can be generated from the element objects stored in the database. Also, an image of an unknown scene not used for learning can be generated.
以下、本発明の実施形態について図面を参照して説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図1は、実施例1による画像合成システムの物理構成を示すブロック図である。図1を参照すると、画像合成システムは、端末100、画像合成装置200、およびデータベース300を有している。端末100と画像合成装置200は通信ネットワーク101で接続され、画像合成装置200は通信ネットワーク201で接続される。通信ネットワーク101は例えばインターネットである。通信ネットワーク201は例えばLAN(Local Area Network)である。
FIG. 1 is a block diagram showing the physical configuration of the image combining system according to the first embodiment. Referring to FIG. 1, the image combining system includes a
端末100は、ユーザ10が直接利用する情報端末であり、例えば、パーソナルコンピュータ、タブレット端末、スマートフォンなどである。ユーザ10の指示により、ユーザが所望する合成画像を自然言語で表現した文の情報を画像合成装置200に送り、文に合った画像の合成を要求する。また、端末100は、画像合成装置200が作成した合成画像のデータを画像合成装置200から受信し、内部の記憶措置(不図示)にデータを記録するとともに合成画像を画面に表示する。
The
データベース300は、画像合成に利用する様々な画像のデータを、画像合成装置200から取得可能に蓄積するデータベースである。データベース300には、様々な物をそれぞれ表示する画像(オブジェクト画像)のデータが蓄積されている。オブジェクト画像にはその画像に表示されている物を示す情報(ラベル)が付加されている。例えば、オブジェクト画像には、その画像に表示されている物の名称の情報がラベルとして付加されている。
The
画像合成装置200は、ユーザ10が操作する端末100からの要求に従い、データベース300に蓄積されたデータを利用して、ユーザ10の所望する画像(合成画像)を合成する計算機である。
The image synthesizing
図2は、実施例1による画像合成装置のブロック図である。図2を参照すると、画像合成装置200は、文処理部210、コンセプト抽出部220、コンテキスト抽出部230、エンベディング変換部240、画像合成部250、および画像出力部260を有している。
FIG. 2 is a block diagram of the image combining device according to the first embodiment. Referring to FIG. 2, the
文処理部210は、端末100から受信した文を解析し、意味の解釈が可能な最小単位のエンティティ(以下「最小エンティティ」という)変換するとともに各エンティティの品詞を判断する。これにより文はコンセプト抽出部220およびコンテキスト抽出部230にて処理可能な形式となる。
The
コンセプト抽出部220は、文処理部210にて解析された文からコンセプトを抽出する。具体的には例えば、コンセプト抽出部220は、文処理部210による解析により得られたエンティティのうち、品詞が名詞であるものを入力としコンセプトとして抽出すればよい。
The
コンセプトは例えば、名詞に対する属性や特徴の関係性を記述したものである。例えば「犬」に対して「動物」「毛」といった関連語句が記述される。 The concept describes, for example, the relationship between attributes and features to nouns. For example, related words such as "animal" and "hair" are described for "dog".
コンテキスト抽出部230は、文処理部210にて解析された文からコンテキストを抽出する。具体的には例えば、コンテキスト抽出部230は、コンセプト抽出部220で抽出されたコンセプトをそのままコンテキストとしたもの、文処理部210による解析により得られたエンティティのうち動詞など名詞以外の品詞の最小エンティティとコンセプトとを接続したもの、動詞でコンセプトとコンセプトを接続したものをコンテキストとして抽出すればよい。
The
コンテキストは語句の文章表現の関係性を記述したものである。例えば「犬」と「走る」といった関係性が記述される。 The context describes the relationship of the sentence expression of the phrase. For example, the relationship between "dog" and "run" is described.
エンベディング変換部240は、コンセプトおよびコンテキストを、特徴空間におけるベクトルである特徴ベクトルに変換する。特徴ベクトルにより、コンセプトあるいはコンテキストの意味が表現される。これにより、コンセプトおよびコンテキストの意味を特徴ベクトルにより処理することが可能となる。本実施例では、コンセプトおよびコンテキストの特徴ベクトルがニューラルネットワークモデルの入力となる。
The
画像合成部250は、機械学習により得たニューラルネットワーク(NN)モデルを予め保持しており、エンベディング変換部240で生成されたコンセプトの特徴ベクトルに応じたオブジェクト画像をデータベース300から取得し、コンセプトおよびコンテキストの特徴ベクトルとNNモデルとに基づいてオブジェクト画像を配置することにより合成画像を生成する。例えば、NNモデルは、コンセプトを含むコンテキストの特徴ベクトルを入力とし、合成画像またはその生成方法を出力する。NNモデルでは、入力された特徴ベクトルからレイヤ毎に高次元平面が生成され、最終平面ではコンテキストにおけるコンセプトを解釈した合成画像が出力される。合成画像の生成方法には、例えば、どのオブジェクト画像を用いるか、オブジェクト画像をどのような位置関係に配置するか、などが含まれる。例えば、画像合成部250は、NNモデルの出力に従って、コンセプト抽出部220で抽出されたコンセプトに対応するオブジェクト画像をデータベース300から取得し、そのオブジェクト画像を、コンテキスト抽出部230で抽出されたコンテキストに基づいて配置することにより合成画像を生成すればよい。
The
本方式では、コンセプトとコンテキストの両方の特徴と出力画像が紐づけられるようにNNモデルが構成されていることを特徴とする。これによりコンセプトのみで学習したNNモデルでは合成することができない、事前に関係性が学習されていない対象についても画像を合成することができる。例えば、「雲の中を泳ぐ人」のような、実例のない画像を合成することができる。 The present method is characterized in that the NN model is configured such that features of both concept and context can be linked to an output image. As a result, images can be synthesized even for objects for which relationships have not been learned in advance, which can not be synthesized by the NN model learned only by the concept. For example, it is possible to synthesize an example-free image such as “person swimming in the cloud”.
画像出力部260は、画像合成部250で生成された合成画像のデータを端末100に送信する。
The
図3は、実施例1による画像合成処理のフローチャートである。図3を参照すると、まずステップS210にて、文処理部210が、端末100から受信した文を解析する。次にステップS220にて、コンセプト抽出部220が、文処理部210にて解析された文からコンセプトを抽出する。続いてステップS230にて、コンテキスト抽出部230が、文処理部210にて解析された文からコンテキストを抽出する。
FIG. 3 is a flowchart of the image combining process according to the first embodiment. Referring to FIG. 3, first, in step S <b> 210, the
なお、文の複雑さによっては、コンセプトのみを抽出することで画像の合成は可能である。また、ここでは、コンセプトの抽出の次にコンテキストの抽出を行う例を示しているが、この順序に限定されることはない。他の例として、コンセプトとコンテキストを同時に抽出してもよい。 Depending on the complexity of the sentence, it is possible to combine images by extracting only the concept. Moreover, although the example which extracts context after extraction of a concept is shown here, it is not limited to this order. As another example, concepts and contexts may be extracted simultaneously.
次にステップS240では、エンベディング変換部240が、コンセプトおよびコンテキストを、特徴空間におけるベクトルである特徴ベクトルに変換する。例えば、Word2Vecにより個々のコンセプトおよびコンテキストを高次元のベクトル表現されたフィーチャにマッピングすることができる。コンセプトあるいはコンテキストの意味が特徴ベクトルで表現される。これにより、コンセプトおよびコンテキストの意味を演算処理することが可能となる。
Next, in step S240, the embedding
更にステップS250にて、画像合成部250が、コンセプトの特徴ベクトルに応じたオブジェクト画像をデータベース300から取得し、NNモデルを利用して、コンセプトおよびコンテキストの特徴ベクトルに基づき、オブジェクト画像を配置することにより合成画像を生成する。そしてステップS260にて、画像出力部260が、画像合成部250で生成された合成画像のデータを端末100に送信する。
Furthermore, in step S250, the
図4は、実施例1による画像合成処理のシーケンス図である。図4を参照すると、ステップS501にて、端末100から画像合成装置200に文が送信される。ステップS502にて、画像合成装置200でコンセプトが抽出される。ステップS503にて、画像合成装置200からデータベース300に、抽出されたコンセプトに合う画像が要求される。ステップS504にて、要求された、コンセプトに合った画像がデータベース300から画像合成装置200に返信される。ステップS505にて、画像合成装置200でコンテキストが抽出される。ステップS506にて、コンセプトに合った画像をコンテキストに従って合成した合成画像が生成される。ステップS507にて、合成画像が画像合成装置200から端末100に返送される。
FIG. 4 is a sequence diagram of the image combining process according to the first embodiment. Referring to FIG. 4, in step S501, a sentence is transmitted from the terminal 100 to the
図5は、実施例1による画像合成装置の動作例を示すシーケンス図である。 FIG. 5 is a sequence diagram showing an operation example of the image combining device according to the first embodiment.
端末110は、ステップS610にて、ユーザ10入力した“Man running to train at station.”という文を画像合成装置200に送信する。
In step S610, the terminal 110 transmits the sentence “Man running to train at station.” Input by the
画像合成装置200では、文を最小エンティティに分割する。そして、画像合成装置200は、最小エンティティの例に変換された文からコンセプトを抽出する。最小エンティティは、例えば、"Man:A"、"Running:P"、"Train:B"、"at station:C"などである。更に、画像合成装置200は、それらのコンセプトが存在するコンテキストを文から抽出する。図5の例では以下のようなコンテキストを抽出することができる。これらのコンセプトおよびコンテキストがNNモデルの入力となる。ここで、A、B、C、P等のアルファベットはコンセプトあるいはコンテキストに付与される識別符号である。
Man:A
Train:B
At Station:C
Man:A running:P
Man:A running:P Train:B
Train:B at station:C
Man:A running:P at Station:C
The
Man: A
Train: B
At Station: C
Man: A running: P
Man: A running: P Train: B
Train: B at station: C
Man: A running: P at Station: C
画像合成装置200は、ステップS602にて、コンセプトを取得し、ステップS603にて、コンセプトに対応する画像をデータベース300に要求する。この例では、manとtrainの画像が要求されている。ステップS604にて、データベース300から画像合成装置200に、コンセプトに対応する画像が返信される。この例では、男の画像と駅に停車している電車の画像が返信されている。画像合成装置200は、ステップS605にて、コンテキストを取得し、ステップS606にて、画像を合成する。ここでは、manの画像とtrainの画像を重ね合わせて配置することにより、二次元の合成画像を生成している。画像合成装置200は、ステップS607にて、作成した合成画像のデータを端末100に送信する。画像合成は、コンセプトおよびコンテキスト、コンテキストのみ、あるいはコンセプトのみから合成が可能である。
The
なお、本実施例では、画像を合成する例を示したが、画像と同様にオーディオデータやセンサデータなど他の様々なデータについても自然言語の言葉と関連付けることができれば、そのデータの活用も大きく広がることが考えられる。様々なデータについて、合成可能なデータである要素オブジェクトを用いて合成データを生成することができる。 In the present embodiment, an example of combining images is shown, but if various other data such as audio data and sensor data can be associated with the language of natural language as in the case of images, the utilization of the data is also significant. It is thought that it spreads. For various data, composite data can be generated using element objects that can be composited data.
以上、説明したように、本実施例による画像合成装置200は、自然言語で記述可能なオブジェクトに関する合成可能なデータ(画像データ)である要素オブジェクト(オブジェクト画像)を予め蓄積したデータベース300と、自然言語の文からコンセプトまたはコンテキストの少なくとも一方を抽出する抽出部(コンセプト抽出部220、コンテキスト抽出部230)と、コンセプトまたはコンテキストを所定の特徴空間におけるベクトルで表現した特徴ベクトルに変換する変換部(エンベディング変換部240)と、入力された特徴ベクトルに従って要素オブジェクトを合成するニューラルネットワークモデルを予め保持しており、ニューラルネットワークモデルおよび特徴ベクトルに基づき、データベースから要素オブジェクトを選択しその要素オブジェクトを用いて合成データ(合成画像)を生成する合成部(画像合成部250)と、を有している。このように、特徴ベクトルに従って要素オブジェクトを合成するニューラルネットワークモデルを予め保持し、自然言語の文からコンセプトとコンテキストの少なくとも一方を抽出し、それらを特徴ベクトルに変換し、ニューラルネットワークモデルに基づき要素オブジェクトを合成して合成データを生成するので、自然言語の文で表現されたユーザ所望の合成データを、データベースに蓄積された要素オブジェクトから生成することができる。画像についてみると、要素オブジェクトとしてオブジェクト画像をデータベースに予め保持し、自然言語の文からコンセプトとコンテキストの少なくとも一方を抽出し、それらを特徴ベクトルに変換し、ニューラルネットワークモデルに基づきオブジェクト画像を合成して合成画像を生成するので、自然言語の文で表現されたユーザ所望の合成画像タを生成することができる。
As described above, the
また、抽出部は、文を意味解釈が可能な最小単位である最小エンティティのうち、名詞である最小エンティティをコンセプトとし、他の最小エンティティとコンセプトを接続してコンテキストを生成する。名詞をコンセプトとし、コンセプトと他の最小エンティティを接続してコンテキストを生成するので、文で表現された物を解釈して合成データに反映させることができる。 Also, the extraction unit generates a context by connecting the concept with the smallest entity which is a noun among the smallest entities which are the smallest units capable of semantic interpretation of a sentence, and connecting the concept with other minimal entities. A noun is a concept, and a concept is connected to other minimal entities to generate a context, so that objects represented by sentences can be interpreted and reflected in synthetic data.
また、画像合成部は複数のオブジェクト画像を重ね合わせてまたは並べて配置することにより前記合成画像を生成する。比較的少ない処理量で合成画像を生成することができる。 Further, the image combining unit generates the combined image by arranging a plurality of object images so as to overlap or align. A composite image can be generated with a relatively small amount of processing.
また、本実施例では、どのような画像合成方法を用いてもよい。例えば、ニューラルネットワークモデルは、ジェネレータとディスクリミネータという互いに敵対する2つのモデルで学習を行うGenerative Adversarial Networksによるニューラルネットワークモデルであり、ジェネレータにより合成画像を生成する。ユーザの所望するものに比較的近い合成画像を生成することができる。また、より単純な方法として、複数の画像を組み合わせて配置するコラージュにより合成画像を生成してもよい。 Further, in the present embodiment, any image combining method may be used. For example, a neural network model is a neural network model according to General Adversalial Networks which performs learning with two opposing models of a generator and a discriminator, and a generator generates a composite image. A composite image can be generated that is relatively close to what the user desires. As a simpler method, a composite image may be generated by collage in which a plurality of images are combined and arranged.
実施例1は、画像合成システムが学習済みのニューラルネットワークモデルを予め備え、そのNNモデルを用いて画像を合成する例を示した。実施例2では、画像合成システムがNNモデルを学習し、学習したNNモデルを用いて画像を合成する例を示す。 The first embodiment shows an example in which the image synthesis system is provided in advance with a trained neural network model, and images are synthesized using the NN model. The second embodiment shows an example in which the image combining system learns an NN model and combines images using the learned NN model.
実施例2による画像合成システムは、図1に示した実施例1のものと同様の物理構成を有する。 The image synthesizing system according to the second embodiment has the same physical configuration as that of the first embodiment shown in FIG.
図6は、実施例2による画像合成装置のブロック図である。実施例2による画像合成装置は、図2に示した実施例1のものとは、コンセプト選択部310、コンテキスト生成部320、画像判定部350、および終了条件判定部360を有する点で異なっている。
FIG. 6 is a block diagram of an image combining device according to a second embodiment. The image combining apparatus according to the second embodiment is different from that of the first embodiment shown in FIG. 2 in that it has a
実施例2による画像合成処理は、図3および図4に示した実施例1のものと同様の処理である。 The image combining process according to the second embodiment is the same process as that of the first embodiment shown in FIGS. 3 and 4.
図7は、実施例2による機械学習処理のフローチャートである。 FIG. 7 is a flowchart of machine learning processing according to the second embodiment.
まず、ステップS310にて、コンセプト選択部310が、様々ある既知のコンセプトから、例えばランダムにあるいは所定の選択方法によりコンセプトを選択する。次に、ステップS320にて、コンテキスト生成部320が、そのコンセプトを含む自然なコンテキストを生成する。例えば、自然言語の様々な文を蓄積しておき、その中から、選択されたコンセプトを含む文をコンテキストとして抽出することにしてもよい。
First, in step S310, the
次に、ステップS330にて、エンベディング変換部240が、コンセプトおよびコンテキストを特徴ベクトルに変換する。このときエンベディング変換部240は、実施例1にて説明した画像合成時と同様の方法で、コンセプトおよびコンテキストを特徴ベクトルに変換すればよい。エンベディング変換部240で生成された特徴ベクトルは、実施例1にて説明した画像合成時と同様に、画像合成部250に提供される。
Next, in step S330, the embedding
次に、ステップS340にて、画像合成部250は、コンセプトおよびコンテキストの特徴ベクトルをNNモデルに入力することにより合成画像を生成する。このとき画像合成部250は、実施例1にて説明した画像合成時と同様の方法で画像合成を行う。
Next, in step S340, the
次に、ステップS350にて、画像判定部350が、作成された合成画像が、コンセプトとコンテキストを正しく表現したものとなっているか否か判定する。合成画像がコンセプトおよびコンテキストを正しく表現したものでなければ、ステップS340に戻って画像合成をやり直す。合成画像がコンセプトおよびコンテキストを正しく表現したものとなっていれば、次に、ステップS360にて、終了条件判定部360が、所定の終了条件が成立しているか否か判定する。終了条件が成立していれば、機械学習処理は終了する。終了条件が成立していなければ、ステップS310に戻る。終了条件は例えば所定回数だけ機械学習処理がループしたら終了としてもよい。あるいは、所定時間だけ機械学習処理を行ったら終了としてもよい。
Next, in step S350, the
なお、本実施例も実施例1と同様に、オーディオデータやセンサデータなど画像データ以外のデータにも適用可能である。 As in the first embodiment, the present embodiment is also applicable to data other than image data such as audio data and sensor data.
以上説明したように、本実施例では、画像合成装置200は、ニューラルネットワークモデルの学習に用いるコンセプトを選択するコンセプト選択部310と、ニューラルネットワークモデルの学習に用いるコンテキストを生成するコンテキスト生成部320と、ニューラルネットワークモデルにより生成された合成画像を評価する判定部(画像判定部350)と、を更に有している。そして、変換部(エンベディング変換部240)が、コンセプト選択部310により選択されたコンセプトと、コンテキスト生成部320により生成されたコンテキストとを特徴ベクトルに変換する。合成部(画像合成部250)が、ニューラルネットワークモデルおよび特徴ベクトルに基づき、データベース300から要素オブジェクト(オブジェクト画像)を選択しその要素オブジェクトを用いて合成データを生成する。判定部が、合成データを評価し、合成データが所定の評価を得られなければ合成部および判定部の処理を繰り返す。データ合成装置がデータ合成の機械学習を行うことができるので、ニューラルネットワークモデルを自身で学習して自身で利用するということが可能となる。
As described above, in the present embodiment, the
実施例1は、ユーザ10が端末100から入力した自然言語の文書に基づいて画像合成装置200が画像を合成し、端末100に送信する例を示した。実施例3では、端末が単独で画像合成を行う例を示す。
The first embodiment shows an example in which the
図8は、実施例3による画像合成システムの物理構成を示すブロック図である。図8を参照すると、画像合成システムは端末110のみで構成されている。端末110は、例えば、パーソナルコンピュータ、タブレット端末、スマートフォンなどの情報機器である。図9は、実施例3による端末のブロック図である。図9を参照すると、実施例3による端末110は、入力部410、表示部420、データベース記憶部430、文処理部210、コンセプト抽出部220、コンテキスト抽出部230、エンベディング変換部240、および画像合成部250を有している。
FIG. 8 is a block diagram showing the physical configuration of the image combining system according to the third embodiment. Referring to FIG. 8, the image combining system is configured of only the terminal 110. The terminal 110 is, for example, an information device such as a personal computer, a tablet terminal, or a smartphone. FIG. 9 is a block diagram of a terminal according to the third embodiment. 9, the terminal 110 according to the third embodiment includes an
文処理部210、コンセプト抽出部220、コンテキスト抽出部230、エンベディング変換部240、および画像合成部250は、図2に示した実施例1において画像合成装置200が備えていたものと同様である。
The
入力部410は、ユーザ10が生成したい画像に関する文を入力する入力操作部である。
The
表示部420は、画像合成部250で生成された合成画像を表示する表示部である。
The
データベース記憶部430は、図2のデータベース300に相当するオブジェクト画像のデータを蓄積する記憶部である。
The
実施例1では、データベース300に多数のオブジェクト画像を蓄積しておき、画像合成部250は、データベース300から特定のオブジェクト画像を取得し、それらのオブジェクト画像を合成することにより合成画像を作成した。オブジェクト画像は、人間、電車、うさぎ、など所定の対象物の画像である。しかし、本発明が実施例1の構成および処理に限定されることはない。視覚表現オブジェクトを組み合わせることにより合成画像を生成するものであればよい。視覚表現オブジェクトには、対象物の画像だけでなく、対象物の外観上の特徴を示すパッチも含まれる。パッチにより画像上で対象物の外観上の特徴を修正することが可能である。特徴は、うさぎの例をとれば、「白い毛皮」「短い脚」「長い耳」などであり、それを、うさぎのオブジェクト画像に、白い毛皮のパッチを組み合わせて「白いウサギ」の画像を生成することができる。
In the first embodiment, a large number of object images are accumulated in the
実施例4では、データベース300に、視覚表現オブジェクトとして、オブジェクト画像の他に、対象物の外観上の詳細な特徴を示すパッチを蓄積しておき、オブジェクト画像とパッチを用いて所望のオブジェクト画像を作成する例を示す。実施例4の画像合成装置200の基本的な構成は、図2に示した実施例1のものと同様である。実施例4では、画像合成部250は、オブジェクト画像とパッチを用いて所望のオブジェクト画像を作成し、その作成したオブジェクト画像を用いて合成画像を作成する。
In the fourth embodiment, as a visual representation object, in addition to the object image, a patch indicating a detailed feature of the appearance of the object is accumulated in the
図10は、実施例4によるデータベースが蓄積するデータの一例を示す図である。図10を参照すると、データベース300には、オブジェクト画像510と、それに付随するパッチ520が蓄積されている。画像合成部250は、ユーザ10が入力した文から抽出されたコンセプトおよびコンテキストに基づき、NNモデルを用いて、オブジェクト画像をパッチで修正し、修正した画像を組み合わせて合成画像を生成する。
FIG. 10 is a diagram of an example of data accumulated by the database according to the fourth embodiment. Referring to FIG. 10, in the
なお、本実施例も、画像データだけでなく、オーディオデータやセンサデータなど他のデータにも適用可能である。 The present embodiment is also applicable to not only image data but also other data such as audio data and sensor data.
以上説明したように、本実施例によれば、要素オブジェクト(オブジェクト画像)は、画像の要素となる視覚的な表現を示す視覚表現オブジェクトであり、合成部(画像合成部250)は、特徴ベクトルに基づいて視覚表現オブジェクトを組み合わせることにより合成画像を生成する。自然言語の文で表現されたユーザ所望の画像を、視覚表現オブジェクトを組み合わせて合成することができる。 As described above, according to the present embodiment, the element object (object image) is a visual expression object indicating a visual expression that is an element of the image, and the combining unit (image combining unit 250) To generate a composite image by combining the visual representation objects on the basis of. A user-desired image represented by natural language sentences can be synthesized by combining visual presentation objects.
また、視覚表現オブジェクトには、合成画像に表示する物体の特徴を表すパッチが含まれ、合成部は、オブジェクト画像をパッチにより修正し、修正したオブジェクト画像により合成画像を作成する。パッチによりユーザが所望する合成画像に適するようにオブジェクト画像を修正するので、よりユーザの所望に近い合成画像の生成が可能となる。 In addition, the visual representation object includes a patch representing the feature of the object to be displayed in the composite image, and the combining unit corrects the object image with the patch, and creates a composite image from the corrected object image. The patch corrects the object image so as to be suitable for the composite image desired by the user, and thus enables generation of a composite image closer to the user's desired.
実施例1に示した例は、予め学習により取得したNNモデルを使用して画像合成を行う例であった。しかし、本発明がこれに限定されることはない。他の例として、実施例5では、NNモデルを用いた画像合成により得られる情報を利用してゼロショット学習を行い、NNモデルを更新していく例を示す。合成画像を生成する過程で、合成画像を生成するのに利用したオブジェクト画像が何を示しているかに関する情報(以下「オブジェクト画像情報」という)が得られる。本実施例では、合成データを生成する過程で得られたオブジェクト画像情報を利用してゼロショット学習を行い、NNモデルを更新する。合成データの生成で得られた情報を用いたゼロショット学習によりNNモデルを更新するので、言葉によるデータ合成の性能を継続的に向上させることができる。 The example shown in the first embodiment is an example in which image synthesis is performed using an NN model acquired by learning in advance. However, the present invention is not limited to this. As another example, Example 5 shows an example of performing zero-shot learning using information obtained by image combination using an NN model, and updating the NN model. In the process of generating the composite image, information (hereinafter referred to as “object image information”) is obtained regarding what the object image used to generate the composite image indicates. In this embodiment, zero-shot learning is performed using object image information obtained in the process of generating composite data, and the NN model is updated. Since the NN model is updated by zero-shot learning using information obtained in the generation of synthetic data, the performance of verbal data synthesis can be continuously improved.
実施例5による画像合成システムの物理構成は図1に示した実施例1のものと同様である。実施例5の画像合成装置200は実施例1のものと一部が異なる。図11は、実施例5による画像合成装置のブロック図である。
The physical configuration of the image combining system according to the fifth embodiment is the same as that of the first embodiment shown in FIG. The
図11を参照すると、画像合成装置200は、文処理部210、コンセプト抽出部220、コンテキスト抽出部230、エンベディング変換部240、画像合成部250、画像出力部260、およびモデル更新部610を有している。実施例5の画像合成装置200は、実施例1のものと同様に画像合成を行うことができ、文処理部210、コンセプト抽出部220、コンテキスト抽出部230、エンベディング変換部240、画像合成部250、および画像出力部260は、図2に示した実施例1のものと同様である。
Referring to FIG. 11, the
データベース300に蓄積されたオブジェクト画像には、オブジェクト画像に表示された対象物に関する情報がメタデータ(ラベル)として付加されている。モデル更新部610は、画像合成部250で合成画像を生成する過程に得られた、合成画像の生成に利用したオブジェクト画像に関するオブジェクト画像情報が、データベース300に蓄積されたオブジェクト画像に与えられていない情報(以下「サンプルなしオブジェクト画像情報」という)であることを認識する。例えば、データベース300に蓄積されていない物に関する情報、あるいは、データベース300に蓄積されたオブジェクト画像に付加されていない情報が考えられる。モデル更新部610は、サンプルなしオブジェクト画像情報を認識すると、そのサンプルなしオブジェクト画像情報を利用してNNモデルのゼロショット学習を行うことを決定する。モデル更新部610は、モデル更新部610は、画像合成部250で合成画像を生成する過程に得られた、合成画像の生成に利用したオブジェクト画像に関するオブジェクト画像情報を利用してゼロショット学習を行うことによりNNモデルを更新する。その後、画像合成部250は、更新されたNNモデルを用いて画像合成を行う。サンプルが与えられていない情報を認識すると、その情報をゼロショット学習に利用するので、サンプルが与えられていない情報を効率よくゼロショット学習することができる。
Information on the object displayed in the object image is added as metadata (label) to the object image stored in the
なお、モデル更新部610はどのようなタイミングでゼロショット学習を実行してもよいが、例えば、一定期間間隔で行ってもよいし、管理者が指示したタイミングで行ってもよい。
The
実施例5では、画像合成装置200は、ユーザの要求した合成画像を生成する過程で得られる情報を用いてゼロショット学習を行う例を示したが、本発明がこれに限定されることはない。他の例として実施例6では、NNモデルのゼロショット学習に利用するための文(以下「サンプル文」という)を画像合成装置に与え、画像合成装置は、そのサンプル文を用いて、コンセプト抽出、コンテキスト抽出、およびエンベディング変換を行い、その過程で得られた、オブジェクト画像が何を示しているかに関するオブジェクト画像情報をゼロショット学習に利用する。ただし、NNモデルのゼロショット学習に利用するために与えられたサンプル文に対する処理では、画像合成部250は画像合成を行わない。合成画像を生成する処理は負荷の高い処理であるが、本実施例では、合成画像を実際に生成するまでの処理を完結しなくてもオブジェクト画像情報が得られるので、それをゼロショット学習に利用するというものである。
The fifth embodiment shows an example in which the
コンセプト抽出、コンテキスト抽出、およびエンベディング変換を行うことによりコンセプトおよびコンテキストが特徴ベクトルで表現した情報(以下「フィーチャ情報」という)される。実施例6では、合成画像の生成まで行わずに得られたフィーチャ情報がゼロショット学習に利用される。そのために実施例6では、NNモデルのゼロショット学習に利用するフィーチャ情報を取得するために、コンセプト抽出、コンテキスト抽出、およびエンベディング変換の処理が実行される。 Information extracted from concepts and contexts as feature vectors (hereinafter referred to as "feature information") is obtained by performing concept extraction, context extraction, and embedding transformation. In the sixth embodiment, feature information obtained without generating a composite image is used for zero-shot learning. Therefore, in the sixth embodiment, in order to obtain feature information used for zero shot learning of the NN model, processes of concept extraction, context extraction, and embedding transformation are performed.
実施例6による画像合成システムの物理構成は図1に示した実施例1(あるいは実施例5)のものと同様である。実施例6の画像合成装置200の構成は図11に示した実施例5による画像合成装置と同様である。
The physical configuration of the image combining system according to the sixth embodiment is the same as that of the first embodiment (or the fifth embodiment) shown in FIG. The configuration of the
画像合成装置200に対してゼロショット学習のためにサンプル文が与えられる。サンプル文は、仮想的な合成画像に関する文であり、NNモデルの学習のための文である。コンセプト抽出部220は、実施例1のものと同様に、サンプル文からコンセプトを抽出する。コンテキスト抽出部230は、実施例1のものと同様に、サンプル文からコンテキストを抽出する。更に、エンベディング変換部240は、コンセプトおよびコンテキストを特徴ベクトルに変換する。これらによりオブジェクト画像情報(フィーチャ情報)が得られる。ただし、画像合成部250は、サンプル文に対する処理では画像合成を行わない。モデル更新部610は、オブジェクト画像情報(フィーチャ情報)を利用してゼロショット学習を行うことによりNNモデルを更新する。合成データを生成しなくてもゼロショット学習によりNNモデルを更新することができ処理量が少ないので、高速な学習が可能であり、言葉によるデータ合成の性能を迅速に向上させることができる。
Sample sentences are given to the
実施例5では、一般的なニューラルネットワークのゼロショット学習手法を用いてNNモデルを更新する例を示したが、実施例7では、GAN(Generative Adversarial Networks)を用いた敵対的訓練によるゼロショット学習によりNNモデルを更新する例を示す。実施例7では、全てのコンセプトおよびコンテキストの特徴が知られているわけではなく、ゼロショット学習が行われる。コンセプトおよびコンテキストの特徴の限定されたサブセットが与えられると、画像合成装置は、2つのコンセプトの特徴を選択し、それら2つのコンセプトの特徴の間に新しい特徴を合成することができる。その結果として得られる特徴は、いずれのコンセプトではなく、両方を混合したものとなる。そのような特徴を計算し、NNモデルを訓練するために可能なアプローチの一例を以下に示す。 In the fifth embodiment, an example of updating the NN model using a general neural network zero-shot learning method has been described. In the seventh embodiment, zero-shot learning by hostile training using generic adaptive networks (GAN) is performed. Shows an example of updating the NN model. In Example 7, not all features of the concept and context are known, but zero shot learning is performed. Given a limited subset of concepts and context features, the image synthesizer can select features of the two concepts and combine new features between the features of the two concepts. The resulting feature is not a concept, but a mixture of both. An example of a possible approach to computing such features and training an NN model is given below.
実施例7による画像合成システムの物理構成は図1に示した実施例1(あるいは実施例5)のものと同様である。また、実施例7による画像合成装置の構成は図11に示した実施例5のものと同様である。本実施例のモデル更新部610は、条件生成モデルを用いて多様な学習用のサンプルを生成し、GAN(Generative Adversarial Networks)を用いた敵対的訓練によるゼロショット学習によりNNモデルを更新する。条件生成モデルで学習用のサンプルを生成し、GANによるゼロショット学習でニューラルネットワークモデルを更新するので、NNモデルによるデータ合成を継続的に改善し、NNモデルを堅牢にすることができる。
The physical configuration of the image combining system according to the seventh embodiment is the same as that of the first embodiment (or the fifth embodiment) shown in FIG. The configuration of the image combining apparatus according to the seventh embodiment is the same as that of the fifth embodiment shown in FIG. The
本実施例のゼロショット学習について説明する。ここでは以下の表記法に従う。学習データDを式(1)のように表す。
ここで画像xnは式(2)に示すように画像集合の要素である。
yiは画像xiのラベルであり、それらのラベルは、式(3)に示す既知のクラスのラベル空間から得られる。
未知のクラスのラベル空間を式(4)で示すものとする。
式(5)に示す既知の各クラスはワンショット表現または単語エンベディング(単語の特徴ベクトル)で表現することができるものとする。
本実施例におけるゼロショット学習の目標は、未知の画像を正しいクラスラベル(クラスを示すラベル)のマッピングに近づけるようにマッピングすることができる、最適な意味的エンベディング(意味を表す特徴ベクトル)を見つけることである。つまり、画像とクラスラベルを、ある画像のエンベディングはその画像と同じクラスラベルのエンベディングに近く、ある画像のエンベディングはその画像と異なるクラスのラベルのエンベディングと異なるという意味空間に投影することを目的とする。最小化の目的となる損失を式(6)のように示すことができる。
ここで、d(xi,yi)は、画像の意味的エンベディングと同じクラスのラベルの意味的エンベディングとの間の類似性を示す指標である。類似性の指標として、セマンティックマッチングで広く用いられているドット積を用いている。 Here, d (x i , y i ) is an index indicating the similarity between the semantic embedding of an image and the semantic embedding of a label of the same class. The dot product widely used in semantic matching is used as an index of similarity.
ここで、条件生成モデルをGen(yi,z)と表す。ラベルyiは、画像xiの単語エンベディング(単語の特徴ベクトル)である。生成モデルGenは、画像xiと同じ分布から、画像合成において条件として用いる視覚的特徴を出力するNNモデルである。以下、この視覚的特徴を式(7)に示す記号で示すものとする。
また、単語エンベディングyiの補間は式(8)のように表すことができる。
式(8)の補間は生成モデルGenの入力とみなされ、視覚的特徴空間における補間uiを得ることができる。生成された視覚的特徴に対する2つの損失関数(式(9)および式(10))を得ることができる。
式(9)および式(10)は、視覚的特徴空間における補間uiで補間された視覚的特徴のマッピングが単語エンベディングyiと単語エンベディングyjのマッピングの間にあることを意味する。NNモデルで生成された視覚的特徴(式(7))に対して以下の式(11)および式(12)の損失関数を用いることができる。
式(11)および式(12)のLを最小化することは、NNモデルで生成される視覚的特徴のマッピングを画像xiのものに近づけようとすることを意味する。式(9)および式(10)は、xi、yi、およびyjを識別する関係を崩さないように補間uiを決めようとするものである。この式(11)および式(12)を用いることにより、より多様なサンプルの視覚的特徴を用いて式(6)を訓練することができる。 Minimizing L in Equations (11) and (12) means that the mapping of the visual features generated in the NN model is to be closer to that of the image xi. Equations (9) and (10) try to determine the interpolation ui so as not to break the relationship identifying xi, yi, and yj. By using Equations (11) and (12), it is possible to train Equation (6) using more diverse sample visual features.
上述した各実施例は、本発明の説明のための例示であり、本発明の範囲をそれらに限定する趣旨ではない。当業者は、本発明の範囲を逸脱することなしに、他の様々な態様で本発明を実施することができる。 Each example mentioned above is an illustration for explanation of the present invention, and is not the meaning which limits the range of the present invention to them. Those skilled in the art can implement the present invention in various other aspects without departing from the scope of the present invention.
10…ユーザ、100…端末、101…通信ネットワーク、110…端末、200…画像合成装置、201…通信ネットワーク、210…文処理部、220…コンセプト抽出部、230…コンテキスト抽出部、240…エンベディング変換部、250…画像合成部、260…画像出力部、300…データベース、310…コンセプト選択部、320…コンテキスト生成部、350…画像判定部、360…終了条件判定部、410…入力部、420…表示部、430…データベース記憶部、510…オブジェクト画像、520…パッチ、610…モデル更新部
Claims (13)
自然言語の文からコンセプトまたはコンテキストの少なくとも一方を抽出する抽出部と、
前記コンセプトまたは前記コンテキストを所定の特徴空間におけるベクトルで表現した特徴ベクトルに変換する変換部と、
入力された特徴ベクトルに従って要素オブジェクトを合成するニューラルネットワークモデルを予め保持しており、前記ニューラルネットワークモデルおよび前記特徴ベクトルに基づき、前記データベースから要素オブジェクトを選択し該要素オブジェクトを用いて合成データを生成する合成部と、
を有するデータ合成装置。 A database in which element objects, which are synthesizable data related to objects that can be described in natural language, are stored in advance;
An extraction unit that extracts at least one of a concept or context from natural language sentences;
A transformation unit for transforming the concept or the context into a feature vector represented by a vector in a predetermined feature space;
A neural network model for combining element objects according to the input feature vector is held in advance, and based on the neural network model and the feature vector, an element object is selected from the database and combined data is generated using the element object The synthesis unit to
A data synthesizer comprising:
前記合成データは、前記オブジェクト画像により合成される合成画像を含み、
前記ニューラルネットワークモデルは、前記コンセプトと前記コンテキストの少なくとも一方の特徴ベクトルを入力とし、前記データベースからオブジェクト画像を取得し、取得した前記オブジェクト画像を用いて合成画像を生成する、
請求項1に記載のデータ合成装置。 The element object includes an object image which is data of an image representing a predetermined object,
The composite data includes a composite image to be composited by the object image,
The neural network model receives a feature vector of at least one of the concept and the context, acquires an object image from the database, and generates a composite image using the acquired object image.
The data synthesizing apparatus according to claim 1.
請求項2に記載のデータ合成装置。 The image combining unit generates the combined image by overlapping or arranging a plurality of object images.
The data synthesizer according to claim 2.
請求項2に記載のデータ合成装置。 The neural network model is a neural network model based on generative adaptive networks which performs learning with two mutually opposing models of a generator and a discriminator, and the generator generates the composite image by the generator.
The data synthesizer according to claim 2.
前記ニューラルネットワークモデルの学習に用いるコンテキストを生成するコンテキスト生成部と、
前記ニューラルネットワークモデルにより生成された合成画像を評価する判定部と、
を更に有し、
前記変換部が、前記コンセプト選択部により選択された前記コンセプトと、前記コンテキスト生成部により生成された前記コンテキストとを特徴ベクトルに変換し、
前記合成部が、前記ニューラルネットワークモデルおよび前記特徴ベクトルに基づき、前記データベースから要素オブジェクトを選択し該要素オブジェクトを用いて合成データを生成し、
前記判定部が、前記合成データを評価し、
前記合成データが所定の評価を得られなければ前記合成部および前記判定部の処理を繰り返す、
請求項1に記載のデータ合成装置。 A concept selection unit for selecting a concept to be used for learning the neural network model;
A context generation unit that generates a context used to learn the neural network model;
A determination unit that evaluates a composite image generated by the neural network model;
And have
The conversion unit converts the concept selected by the concept selection unit and the context generated by the context generation unit into a feature vector;
The synthesizing unit selects an element object from the database based on the neural network model and the feature vector, and generates synthesized data using the element object.
The determination unit evaluates the combined data;
If the synthesized data can not obtain a predetermined evaluation, the processing of the synthesizing unit and the judging unit is repeated.
The data synthesizing apparatus according to claim 1.
前記合成部は、前記特徴ベクトルに基づいて前記視覚表現オブジェクトを組み合わせることにより合成画像を生成する、
請求項1に記載のデータ合成装置。 The element object is a visual expression object indicating a visual expression that is an element of an image,
The combining unit generates a combined image by combining the visual representation objects based on the feature vector.
The data synthesizing apparatus according to claim 1.
前記合成部は、前記オブジェクト画像を前記パッチにより修正し、前記修正したオブジェクト画像により合成画像を作成する、
請求項7に記載のデータ合成装置。 The visual representation object includes a patch representing a feature of an object to be displayed in the composite image.
The combining unit corrects the object image with the patch, and creates a combined image from the corrected object image.
The data synthesizer according to claim 7.
請求項9に記載のデータ合成装置。 The update unit recognizes that the information on the element object used for generating the composite data, which is obtained in the process of generating the composite data, is information that is not given to the object image stored in the database. Then, it is decided to perform the zero shot learning.
The data synthesizer according to claim 9.
前記抽出部が、前記ニューラルネットワークモデルの学習のために与えられたサンプル文からコンセプトまたはコンテキストの少なくとも一方を抽出し、
前記変換部が、前記コンセプトまたは前記コンテキストを所定の特徴空間におけるベクトルで表現した特徴ベクトルに変換し、
前記更新部が、前記特徴ベクトルの情報を利用してゼロショット学習を行い、前記ニューラルネットワークモデルを更新する、
請求項1に記載のデータ合成装置。 It further comprises an updating unit that performs zero-shot learning using information on element objects and updates the neural network model,
The extraction unit extracts at least one of a concept or a context from sample sentences given for learning of the neural network model;
The conversion unit converts the concept or the context into a feature vector represented by a vector in a predetermined feature space;
The updating unit performs zero-shot learning using information on the feature vector, and updates the neural network model.
The data synthesizing apparatus according to claim 1.
自然言語で記述可能なオブジェクトに関する合成可能なデータである要素オブジェクトを予め蓄積したデータベースを備え、
抽出手段が、自然言語の文からコンセプトまたはコンテキストの少なくとも一方を抽出し、
変換手段が、前記コンセプトまたは前記コンテキストを所定の特徴空間におけるベクトルで表現した特徴ベクトルに変換し、
合成手段が、前記ニューラルネットワークモデルおよび前記特徴ベクトルに基づき、前記データベースから要素オブジェクトを選択し、該要素オブジェクトを用いて合成データを生成する、
データ合成方法。 Pre-hold a neural network model that synthesizes element objects according to the input feature vector,
It has a database in which element objects that are synthesizable data related to objects that can be described in natural language are stored in advance
The extraction means extracts at least one of a concept or context from natural language sentences,
Transformation means transforms the concept or the context into a feature vector represented by a vector in a predetermined feature space;
And combining means, based on the neural network model and the feature vector, selects an element object from the database and generates synthesized data using the element object.
Data synthesis method.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017166062A JP6962747B2 (en) | 2017-08-30 | 2017-08-30 | Data synthesizer and method |
PCT/JP2018/019750 WO2019044064A1 (en) | 2017-08-30 | 2018-05-23 | Data synthesis device and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017166062A JP6962747B2 (en) | 2017-08-30 | 2017-08-30 | Data synthesizer and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019045984A true JP2019045984A (en) | 2019-03-22 |
JP6962747B2 JP6962747B2 (en) | 2021-11-05 |
Family
ID=65526348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017166062A Active JP6962747B2 (en) | 2017-08-30 | 2017-08-30 | Data synthesizer and method |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6962747B2 (en) |
WO (1) | WO2019044064A1 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200032614A (en) * | 2018-09-18 | 2020-03-26 | 이승일 | A system that generates text and picture data from video data using artificial intelligence |
JP2021022317A (en) * | 2019-07-30 | 2021-02-18 | Kddi株式会社 | Classification device, learning device, classification method, and program |
JP2022541832A (en) * | 2019-07-23 | 2022-09-27 | ベイジン・ジンドン・ゼンシ・インフォメーション・テクノロジー・カンパニー・リミテッド | Method and apparatus for retrieving images |
JP7504192B2 (en) | 2019-07-23 | 2024-06-21 | ベイジン・ジンドン・ゼンシ・インフォメーション・テクノロジー・カンパニー・リミテッド | Method and apparatus for searching images - Patents.com |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11856276B2 (en) | 2019-09-13 | 2023-12-26 | Oracle International Corporation | Scalable architecture for automatic generation of content distribution images |
CN111724467B (en) * | 2020-06-02 | 2024-05-17 | 山东师范大学 | Voxel model generation method and system for 3D printing |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09134454A (en) * | 1995-11-08 | 1997-05-20 | Matsushita Electric Ind Co Ltd | Method for preparing picture, method for displaying spatial position and method for calculating spatial position |
-
2017
- 2017-08-30 JP JP2017166062A patent/JP6962747B2/en active Active
-
2018
- 2018-05-23 WO PCT/JP2018/019750 patent/WO2019044064A1/en active Application Filing
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200032614A (en) * | 2018-09-18 | 2020-03-26 | 이승일 | A system that generates text and picture data from video data using artificial intelligence |
KR102103518B1 (en) | 2018-09-18 | 2020-04-22 | 이승일 | A system that generates text and picture data from video data using artificial intelligence |
JP2022541832A (en) * | 2019-07-23 | 2022-09-27 | ベイジン・ジンドン・ゼンシ・インフォメーション・テクノロジー・カンパニー・リミテッド | Method and apparatus for retrieving images |
JP7504192B2 (en) | 2019-07-23 | 2024-06-21 | ベイジン・ジンドン・ゼンシ・インフォメーション・テクノロジー・カンパニー・リミテッド | Method and apparatus for searching images - Patents.com |
JP2021022317A (en) * | 2019-07-30 | 2021-02-18 | Kddi株式会社 | Classification device, learning device, classification method, and program |
JP7175244B2 (en) | 2019-07-30 | 2022-11-18 | Kddi株式会社 | Classification device, learning device, classification method and program |
Also Published As
Publication number | Publication date |
---|---|
JP6962747B2 (en) | 2021-11-05 |
WO2019044064A1 (en) | 2019-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108334487B (en) | Missing semantic information completion method and device, computer equipment and storage medium | |
WO2019044064A1 (en) | Data synthesis device and method | |
CN110446063B (en) | Video cover generation method and device and electronic equipment | |
Saunders et al. | Signing at scale: Learning to co-articulate signs for large-scale photo-realistic sign language production | |
Cao et al. | Image captioning with bidirectional semantic attention-based guiding of long short-term memory | |
CN109887484A (en) | A kind of speech recognition based on paired-associate learning and phoneme synthesizing method and device | |
CN106846306A (en) | A kind of ultrasonoscopy automatic describing method and system | |
KR20200087977A (en) | Multimodal ducument summary system and method | |
CN111767694B (en) | Text generation method, apparatus and computer readable storage medium | |
KR102411767B1 (en) | Apparatus and method for automatically generating explainable image caption | |
KR20220147545A (en) | Image editing model training method and image editing method | |
CN113761105A (en) | Text data processing method, device, equipment and medium | |
CN111651635A (en) | Video retrieval method based on natural language description | |
CN114339450A (en) | Video comment generation method, system, device and storage medium | |
CN111444313B (en) | Knowledge graph-based question and answer method, knowledge graph-based question and answer device, computer equipment and storage medium | |
CN117033609B (en) | Text visual question-answering method, device, computer equipment and storage medium | |
KR102445932B1 (en) | Image generation technique using multi-modal mapping information on knowledge distillation | |
KR102562387B1 (en) | Learning method for image feature extraction and synthesis system | |
CN117634459A (en) | Target content generation and model training method, device, system, equipment and medium | |
CN117635275A (en) | Intelligent electronic commerce operation commodity management platform and method based on big data | |
Saleem et al. | Stateful human-centered visual captioning system to aid video surveillance | |
CN111445545B (en) | Text transfer mapping method and device, storage medium and electronic equipment | |
Wang et al. | Image captioning using region-based attention joint with time-varying attention | |
US20230306278A1 (en) | Artificial intelligence feedback method and artificial intelligence feedback system | |
KR20200001902A (en) | Method and system for generating learning data of sign language recognition artificial neural network, and system for generating modified animation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210209 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210408 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210914 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211014 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6962747 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |