JP6975281B2

JP6975281B2 - 人工知能モデルを利用したイメージ編集方法及びその装置

Info

Publication number: JP6975281B2
Application number: JP2020054014A
Authority: JP
Inventors: ファルスクイ; ヨンミンペク; スンシン; ヨンモイ
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2019-03-27
Filing date: 2020-03-25
Publication date: 2021-12-01
Anticipated expiration: 2040-03-25
Also published as: KR102279164B1; KR20200114034A; JP2020161140A

Description

本発明は、イメージ処理分野に係り、さらに具体的には、人工知能モデルを利用し、イメージを編集する装置及びその方法に関する。

イメージ編集へのニーズは多様である。一例として、あるユーザは、イメージに含まれるテキストを、他のテキストに変更し、あるユーザは、イメージに含まれる所定言語のテキストを、他の言語のテキストに翻訳しようとする。また、人工知能モデルを訓練するためには、数多くの学習用イメージが必要であるが、一部学習用イメージには、センシティブな個人情報が含まれており、学習用イメージ確保のために、個人情報を削除しなければならない必要性もある。

イメージに含まれるテキストは、一般的な文書編集プログラム、例えば、マイクロソフト（登録商標）社のワープロなどでは編集が不可能であるので、イメージ編集プログラムを利用しなければならない。しかし、専門的なイメージ編集プログラムに係わる知識なしに、イメージを自然に編集することは、容易ではない。特に、イメージ編集過程において、周辺背景が損なわれる場合が多い。専門的なイメージ編集プログラムの高価格であることにより、無料または廉価なイメージ編集プログラムでイメージを編集するときには、相当な時間が必要となりもする。

したがって、専門的な知識がないユーザでも、簡単な方法でイメージを編集することができる方法が要求される。

本発明が解決しようとする課題は、人工知能モデルを利用し、簡単にイメージを編集することを技術的課題にする。

本発明が解決しようとする課題は、また、イメージに含まれるテキスト翻訳を支援することを技術的課題にする。

本発明が解決しようとする課題は、また、イメージに含まれる個人情報の流出を防止することを技術的課題にする。

一実施形態によるイメージ編集方法は、代替テキストに対応するテキストデータと、第１イメージとをイメージ編集モデルに入力する段階と、前記代替テキストが含まれる第２イメージを、前記イメージ編集モデルから獲得する段階と、を含むが、前記イメージ編集モデルは、前記第１イメージの一部領域に、前記代替テキストを合成し、前記第２イメージを生成することができる。

他の実施形態によるイメージ編集装置は、プロセッサと、少なくとも１つの命令を保存するメモリと、を含むが、前記プロセッサは、前記少なくとも１つの命令により、代替テキストに対応するテキストデータと、第１イメージとをイメージ編集モデルに入力し、前記代替テキストが含まれる第２イメージを、前記イメージ編集モデルから獲得し、前記イメージ編集モデルは、前記第１イメージの一部領域に、前記代替テキストを合成し、前記第２イメージを生成することができる。

一実施形態によるイメージ編集方法及びその装置は、人工知能モデルを利用し、簡単にイメージを編集することができる。

また、一実施形態によるイメージ編集方法及びその装置は、イメージに含まれるテキスト翻訳を支援することができる。

また、一実施形態によるイメージ編集方法及びその装置は、イメージに含まれる個人情報の流出を防止することができる。

ただし、一実施形態によるイメージ編集方法及びその装置が達成することができる効果は、以上で言及したところに制限されるものではなく、言及されていない他の効果は、以下の記載から、本開示が属する技術分野において当業者に、明確に理解されるであろう。

一実施形態によるイメージ編集装置を図示する図面である。一実施形態によるイメージ編集装置によるイメージ編集方法を示すフローチャートである。一実施形態によるイメージ編集モデルを示す図面である。図３に図示された循環モデルを示す図面である。一実施形態による第１イメージを示す図面である。一実施形態による第２イメージを示す図面である。他の実施形態による第１イメージを示す図面である。他の実施形態による第２イメージを示す図面である。一実施形態によるイメージ編集モデルの訓練方法について説明するための図面である。他の実施形態によるイメージ編集方法を示すフローチャートである。イメージ編集のためのユーザ端末のＵＩ画面を示す例示的な図面である。一実施形態によるイメージ編集装置の構成を図示するブロック図である。一実施形態によるイメージ編集装置が適用可能なサーバ装置及びクライアント装置を図示する図面である。

本開示は、多様な変更を加えることができ、さまざまな実施形態を有することができるが、特定実施形態を図面に例示し、それについて、詳細な説明を介して説明する。しかし、それは、本開示を、特定の実施形態について限定するものではなく、本開示の思想及び技術範囲に含まれる全ての変更、均等物ないし代替物を含むものであると理解されなければならない。

本実施形態についての説明において、関連公知技術についての具体的な説明が、要旨を必要以上に不明確にすると判断される場合、その詳細な説明を省略する。また、本実施形態の説明過程で利用される数（例えば、第１、第２など）は、１つの構成要素を他の構成要素と区分するための識別記号に過ぎない。

また、本明細書において、一構成要素が他の構成要素と「連結される」、「接続される」というように言及されたときには、その一構成要素が他の構成要素と直接連結されることも、直接接続されることもあるが、特別に反対となる記載がない限り以上、中間に、他の構成要素を媒介させて連結又は接続されることもあると理解されなければならない。

また、本明細書において、「〜部（ユニット）」、「モジュール」というように表現される構成要素は、２個以上の構成要素が１つの構成要素に合わされるか、あるいは１つの構成要素がさらに細分化された機能別に、２個以上に分化されることもある。また、以下で説明する構成要素それぞれは、それ自体が担当する主機能以外にも、他の構成要素が担当する機能のうち、一部または全部の機能を追加して遂行することもでき、構成要素それぞれが担当する主機能のうち、一部機能が他の構成要素によって専用担当されても遂行されるということは言うまでもない。

また、本明細書において、「イメージ」は、静止映像を含んでもよい。また、本明細書において、「テキスト」は、イメージに含まれる文字、数及び記号を含んでもよい。

以下、本開示の技術的思想による実施形態について、順に詳細に説明する。

図１は、一実施形態によるイメージ編集装置１００を図示する図面である。

一実施形態によるイメージ編集装置１００は、代替テキストに対応するテキストデータ３０と、第１イメージ１０とを獲得し、既に保存されているイメージ編集モデル３００を介して、第１イメージ１０に含まれていたテキストが代替テキストに変更された第２イメージ５０を生成することができる。

第１イメージ１０の一部領域（例えば、テキストを含む領域）に代替テキストが合成されることにより、第２イメージ５０が生成されるのである。

第１イメージ１０は、チェックカード、クレジットカードなどの実物カードを撮影したイメージ、動画を構成する少なくとも１つのイメージなどを含んでもよいが、それらに限定されるものではない。

実物カードを撮影したイメージに含まれる個人情報（例えば、カード番号、有効期間など）が代替情報に変更されることにより、個人情報の流出が遮断される。また、映画を構成するフレームに含まれる特定言語の字幕が、他の言語の字幕にも変更される。

後述するように、イメージ編集装置１００は、サーバ装置またはクライアント装置にも適用される。イメージ編集装置１００がサーバ装置で具現される場合、イメージ編集装置１００は、クライアント装置から受信した第１イメージ１０、内部保存装置に保存された第１イメージ１０、及び／またはネットワークを介して連結された外部装置から受信した第１イメージ１０を編集し、第２イメージ５０を生成することができる。

イメージ編集装置１００がクライアント装置で具現される場合、イメージ編集装置１００は、カメラによって撮影された第１イメージ１０、内部保存装置に保存された第１イメージ１０、及び／またはネットワークを介して外部装置から受信した第１イメージ１０を編集し、第２イメージ５０を生成することもできる。

図２は、一実施形態によるイメージ編集装置１００によるイメージ編集方法を示すフローチャートである。

Ｓ２１０段階において、イメージ編集装置１００は、代替テキストに対応するテキストデータ３０、及び第１イメージ１０を、イメージ編集モデル３００に入力する。一例示として、第１イメージ１０において、編集が必要な一部領域の位置情報が、イメージ編集モデル３００にもさらに入力される。

代替テキストは、第２イメージ５０に含めるテキストであり、ユーザから入力されることもあり、またはイメージ編集装置１００がランダムに決定したり、所定規則により、直接決定したりもする。

一実施形態において、イメージ編集装置１００は、第１イメージ１０をイメージ編集モデル３００に入力する前に、編集が必要な第１イメージ１０の一部領域（例えば、テキストを含む領域）を識別し、当該領域を除去する前処理を行うことができる。ここで、第１イメージ１０の一部領域の除去とは、第１イメージ１０の一部領域に含まれる値（例えば、ピクセル値）を、既定値に変更することを意味する。

Ｓ２２０段階において、イメージ編集装置１００は、代替テキストが含まれた第２イメージ５０を、イメージ編集モデル３００から獲得する。第１イメージ１０内一部領域が代替テキストに置き換えられることにより、第２イメージ５０が生成されるのである。

イメージ編集モデル３００は、ニューラルネットワークモデルであり、学習用データに基づいて訓練された内部パラメータを利用し、第２イメージ５０を生成することができる。該内部パラメータは、ニューラルネットワークをなす各レイヤの演算過程で利用される値であり、例えば、入力値を所定演算式に適用するときに利用される加重値を含んでもよい。

イメージ編集モデル３００は、第１イメージ１０の一部領域に、代替テキストを合成し、第２イメージ５０を生成することができる。

イメージ編集モデル３００の構造については、図３を参照して説明する。

図３は、一実施形態によるイメージ編集モデル３００を示す図面である。

イメージ編集モデル３００は、第１エンコーダ３１０、第１デコーダ３２０、第２エンコーダ３３０及び第２デコーダ３４０を含んでもよい。第１エンコーダ３１０、第１デコーダ３２０、第２エンコーダ３３０及び第２デコーダ３４０のそれぞれは、少なくとも１層の畳み込みレイヤ（convolution layer）を含んでもよい。畳み込みレイヤは、データから、所望する特性を抽出するために、畳み込み演算を行うことができる。

第１エンコーダ３１０は、第１イメージ１０に対し、畳み込み演算を適用し、特徴マップ（feature map）を出力する。

第１デコーダ３２０は、第１エンコーダ３１０から出力される特徴マップとテキストデータ３０とを入力され、それに対応するイメージを生成して出力する。第１エンコーダ３１０から出力される特徴マップとテキストデータ３０は、連結（concatenation）され、第１デコーダ３２０にも入力される。

第２エンコーダ３３０は、第１デコーダ３２０の出力イメージを入力され、それに対応する特徴マップを出力する。

第２デコーダ３４０は、第２エンコーダ３３０の特徴マップ及びテキストデータ３０を入力され、それに対応する第２イメージ５０を出力する。第２エンコーダ３３０から出力される特徴マップと、テキストデータ３０は、連結され、第２デコーダ３４０にも入力される。

図３は、イメージ編集モデル３００が、２つのエンコーダと、２つのデコーダとを含むように図示しているが、それは１つの例示であり、エンコーダ及びデコーダそれぞれの個数は、多様にも変更される。

第１デコーダ３２０及び第２デコーダ３４０には、テキストデータ３０が入力されるが、該テキストデータ３０は、代替テキストを入力された循環モデル４００から出力されるテキストベクトルを含んでもよい。

図４を参照すれば、循環モデル４００は、代替テキストを順次に入力され、それに対応するベクトル、例えば、埋め込み（embedding）ベクトルを出力することができる。例えば、１０４８という代替テキストに対応する埋め込みベクトルを獲得しようとするとき、まず、数字８が循環モデル４００のレイヤＡに入力される。次に、ｍ字４がレイヤＡに入力される。このとき、数字８に対応する埋め込みベクトルが、数字４と共に、レイヤＡに入力される。すなわち、以前段階での出力が、次の段階で利用されるのである。最後の数字１までレイヤＡに入力されれば、最終的に、ｈ_ｔという埋め込みベクトルが獲得されるが、この最終埋め込みベクトルが、イメージ編集モデル３００に入力されるのである。

図５は、一実施形態による第１イメージ１０を示す図面であり、図６は、一実施形態による第２イメージ５０を示す図面である。

図５に図示されているように、第１イメージ１０は、カードを撮影したイメージであり、個人情報に該当するカード番号などを含んでいる。第１イメージ１０に含まれていたテキストである３４５６を代替テキストに変更しようとするとき、イメージ編集装置１００は、第１イメージ１０（または、前処理された第１イメージ）、及び代替テキストに対応するテキストデータ３０を、イメージ編集モデル３００に入力することができる。３４５６を含む領域１１の位置情報がイメージ編集モデル３００にさらに入力される。

イメージ編集モデル３００は、３４５６のテキストが代替テキストに変更された第２イメージ５０を生成するが、図６に図示されているように、第２イメージ５０には、３４５６のテキストの代わりに、５１で示される０１２５のテキストが含まれる。

図７は、他の実施形態による第１イメージ１０を示す図面であり、図８は、他の実施形態による第２イメージ５０を示す図面である。

図７に図示されているように、第１イメージ１０は、動画を構成する１つのフレームであり、英語の字幕を含んでいる。英語字幕をハングル字幕に変更しようとするとき、イメージ編集装置１００は、第１イメージ１０（または、前処理された第１イメージ）、及びハングル字幕に対応するテキストデータ３０を、イメージ編集モデル３００に入力することができる。イメージ編集装置１００は、英語字幕を含む領域１１の位置情報を、イメージ編集モデル３００にさらに入力することもできる。

図８に図示されているように、イメージ編集モデル３００は、英語字幕がハングル字幕５１に変更された第２イメージ５０を生成することができる。

図９は、一実施形態によるイメージ編集モデル３００の訓練方法について説明するための図面である。

一実施形態によるイメージ編集装置１００は、イメージ編集モデル３００訓練のための区別モデル９００を保存することができる。区別モデル９００は、イメージ編集モデル３００から出力される第２イメージ５０の真偽を判断する。区別モデル９００は、編集されていない学習用イメージに基づいても訓練される。

区別モデル９００は、第２イメージ５０が編集されていないリアル（real）イメージに該当する場合、リアルイメージという判断結果を出力し、第２イメージ５０が編集されたフェイク（fake）イメージに該当する場合、フェイクイメージであるという判断結果を出力することができる。

イメージ編集モデル３００は、区別モデル９００から出力される判断結果に基づき、内部パラメータを更新することができる。イメージ編集モデル３００は、区別モデル９００が第２イメージ５０をリアルイメージと判断するように、内部パラメータを更新することができる。すなわち、イメージ編集モデル３００は、区別モデル９００を欺くために、さらに精巧な第２イメージ５０を生成することができるのである。

一実施形態において、区別モデル９００は、第１区別モデル９１０及び第２区別モデル９３０を含んでもよい。第１区別モデル９１０は、第２イメージ５０全体領域に対して真偽を判断し、第２区別モデル９３０は、第２イメージ５０内の一部領域、例えば、編集された領域に対して真偽を判断することができる。

第１区別モデル９１０及び第２区別モデル９３０の判断結果に基づき、イメージ編集モデル３００は、イメージ編集が適用される一部領域及び全体領域に対して、リアルイメージ対比で差がない第２イメージ５０が生成されるように、内部パラメータを更新することができる。

図１０は、一実施形態によるイメージ編集方法を示すフローチャートである。

Ｓ１０１０段階において、イメージ編集装置１００は、第１イメージ１０を獲得する。イメージ編集装置１００は、ネットワークを介して、外部装置から第１イメージ１０を受信するか、あるいは内部保存装置に保存された第１イメージ１０を獲得することができる。

第１イメージ１０には、第１言語のテキストが含まれている。

Ｓ１０２０段階において、イメージ編集装置１００は、編集が必要な第１イメージ１０内の一部領域を選択する。

イメージ編集装置１００は、第１イメージ１０内テキストを含む領域を直接選択することができる。一例として、イメージ編集装置１００は、第１イメージ１０を、深層学習基盤の公知の単語領域識別モデルに入力し、第１イメージ１０内テキスト領域を識別することができる。

他の例として、イメージ編集装置１００は、ユーザから第１イメージ１０内の一部領域を選択されてもよい。

Ｓ１０３０段階において、イメージ編集装置１００は、代替テキストのための第２言語を選択する。イメージ編集装置１００は、既定の第２言語を選択するか、あるいはユーザから、代替テキストのための第２言語を選択されてもよい。

Ｓ１０４０段階において、イメージ編集装置１００は、第１イメージ１０内の一部領域に含まれるテキストに基づいて代替テキストを決定する。

イメージ編集装置１００は、第１イメージ１０内の一部領域に含まれる第１言語のテキストを、ＯＣＲ（optical character recognition）を介して認識し、認識されたテキストに基づき、Ｓ１０３０段階で選択された第２言語のテキストを決定することができる。例えば、第１イメージ１０に、英語テキストが含まれている場合、イメージ編集装置１００は、第２言語に該当する韓国語テキストを決定することができるのである。

イメージ編集装置１００は、第１イメージ１０内の一部領域に含まれる第１言語のテキストを認識するために、深層学習基盤の公知のテキスト識別モデルを利用することができる。

Ｓ１０５０段階において、イメージ編集装置１００は、第１イメージ１０（または、前処理された第１イメージ）、代替テキストをイメージ編集モデル３００に入力し、イメージ編集モデル３００から出力される第２イメージ５０を獲得することができる。

図１０に図示された実施形態は、動画に含まれる第１言語の字幕を、第２言語の字幕に変更するのに有用である。一例として、ユーザが、動画を構成する複数のイメージをイメージ編集装置１００に提供すれば、イメージ編集装置１００は、複数のイメージそれぞれにおいて、テキスト領域を識別し、複数のイメージに含まれる第１言語のテキストを、第２言語のテキストに変更することができる。他の例において、ユーザがイメージ編集装置１００に動画を提供した場合、イメージ編集装置１００は、当該動画を複数のイメージに分割し、複数のイメージに含まれる第１言語のテキストを、第２言語のテキストに変更することもできる。

一実施形態において、字幕翻訳を所望するユーザが、第１イメージ１０をイメージ編集装置１００に提供すれば、イメージ編集装置１００は、深層学習基盤の公知の単語領域識別モデル及び／またはテキスト識別モデルを介して、編集が必要な第１イメージ１０内の一部領域を識別し、識別された一部領域に含まれる第１言語（例えば、英語）のテキストを確認することができる。そして、イメージ編集装置１００は、第１言語のテキストに対応する第２言語（例えば、韓国語）のテキストを決定した後、イメージ編集モデル３００を介して、第２イメージ５０を生成することもできる。すなわち、その場合、ユーザは、第１イメージ１０をイメージ編集装置１００に提供することだけで、翻訳サービスを提供されるのである。

図１１は、イメージ編集のためのユーザ端末のＵＩ（user interface）画面を示す例示的な図面である。

ユーザ５は、ユーザ端末の画面に表示された第１イメージ１０において編集が必要な領域１１１０を選択することができ、選択された領域１１１０内のテキストを変更するための言語種類を、「言語」メニュー１１２０を介して選択することができる。また、ユーザが、「代替テキスト」メニューにおいて自動ボタン１１３０を選択すれば、イメージ編集装置１００は、ユーザが選択した領域１１１０内のテキストを認識し、認識されたテキストに対応する他言語の代替テキストを決定することができる。

ユーザが、「代替テキスト」メニューにおいて、直接入力ボタン１１４０を選択し、図示されていないテキスト入力ボックスを介して、代替テキストを直接入力した場合、イメージ編集装置１００は、言語種類と関係なく、第１イメージ１０内の一部領域１１１０に含まれるテキストを、ユーザが入力した代替テキストに変更することができる。

図１２は、一実施形態によるイメージ編集装置１００の構成を図示するブロック図である。

図１２を参照すれば、イメージ編集装置１００は、メモリ１２１０、通信モジュール１２３０及びプロセッサ１２５０を含んでもよい。メモリ１２１０には、少なくとも１つの命令が保存され、プロセッサ１２５０は、少なくとも１つの命令により、イメージ編集モデル３００、循環モデル４００及び区別モデル９００のうち少なくとも１つの訓練を制御することができる。

図１２は、１つのメモリ１２１０、及び１つのプロセッサ１２５０だけを図示しているが、イメージ編集装置１００は、複数のメモリ、及び／または複数のプロセッサを含んでもよい。

メモリ１２１０は、イメージ編集モデル３００、循環モデル４００及び区別モデル９００を保存することができる。

プロセッサ１２５０は、イメージ編集モデル３００に、第１イメージ１０及びテキストデータ３０を入力し、イメージ編集モデル３００から出力される第２イメージ５０を獲得することができる。

一実施形態において、プロセッサ１２５０は、学習用データに基づき、イメージ編集モデル３００、循環モデル４００及び区別モデル９００のうち少なくとも１つを訓練することができる。

通信モジュール１２３０は、ネットワークを介して、外部装置とデータを送受信する。例えば、通信モジュール１２３０は、外部装置と、イメージを送受信することができる。

図１３は、一実施形態によるイメージ編集装置１００が適用されるサーバ装置１３１０及びクライアント装置１３２０を図示する図面である。

イメージ編集装置１００は、サーバ装置１３１０に具現されるか、あるいはクライアント装置１３２０にも具現される。

イメージ編集装置１００がサーバ装置１３１０に具現される場合、サーバ装置１３１０は、クライアント装置１３２０から第１イメージ１０を受信し、代替テキストが合成された第２イメージ５０を生成することができる。一例において、サーバ装置１３１０は、ネットワークを介して、外部装置から第１イメージ１０を受信するか、あるいは内部保存装置に保存された第１イメージ１０を編集し、第２イメージ５０を生成することができる。

サーバ装置１３１０は、第２イメージ５０を内部保存装置に保存した後、人工知能モデルの訓練に利用するか、あるいは第２イメージ５０をクライアント装置１３２０で伝送することができる。

また、サーバ装置１３１０は、クライアント装置１３２０を含んだ外部装置から、学習用データを受信するか、あるいは内部に保存された学習用データを利用し、イメージ編集モデル３００、循環モデル４００及び区別モデル９００のうち少なくとも１つの訓練を制御することもできる。

イメージ編集装置１００がクライアント装置１３２０に具現される場合、クライアント装置１３２０は、クライアント装置１３２０のカメラによって撮影されたイメージ、またはクライアント装置１３２０に保存された第１イメージ１０を編集し、第２イメージ５０を生成することができる。

一実施形態において、クライアント装置１３２０は、イメージ編集モデル３００、循環モデル４００及び区別モデル９００のうち少なくとも１つの実行のためのデータを、サーバ装置１３１０から受信することができる。クライアント装置１３２０は、カメラモジュールを介して撮影されたイメージ、内部メモリに保存されたイメージ、または外部装置から受信されたイメージを、イメージ編集モデル３００に入力させ、当該イメージを編集することができる。

クライアント装置１３２０は、外部装置から学習用データを受信するか、あるいは内部に保存された学習用データを利用し、イメージ編集モデル３００、循環モデル４００及び区別モデル９００のうち少なくとも１つの訓練を制御することもできる。具現例により、クライアント装置１３２０は、イメージ編集モデル３００、循環モデル４００及び区別モデル９００のうち少なくとも１つの実行のためのデータを、サーバ装置１３１０から受信してインストールし、サーバ装置１３１０は、学習用データに基づき、イメージ編集モデル３００、循環モデル４００及び区別モデル９００のうち少なくとも１つの訓練を制御することもできる。その場合、サーバ装置１３１０は、訓練結果として更新された加重値情報のみをクライアント装置１３２０に伝送し、クライアント装置１３２０は、受信された情報により、イメージ編集モデル３００、循環モデル４００及び区別モデル９００のうち少なくとも１つを更新することができる。

図１３は、クライアント装置１３２０として、デスクトップＰＣ（personal computer）を図示しているが、それに限定されるものではなく、クライアント装置１３２０は、ノート型パソコン、スマートフォン、タブレットＰＣ、ＡＩ（artificial intelligence）ロボット、ＡＩスピーカ、ウェアラブル機器などを含んでもよい。

なお、前述の本開示の実施形態はコンピュータで実行されるプログラムに作成可能であり、作成されたプログラムは、媒体にも保存される。

該媒体は、コンピュータで実行可能なプログラムを続けて保存するか、あるいは実行またはダウンロードのために臨時保存するものでもある。また、該媒体は、単一または数個のハードウェアが結合された形態の多様な記録手段または保存手段でもあるが、あるコンピューターシステムに直接接続される媒体に限定されるものではなく、ネットワーク上に分散存在するものでもある。該媒体の例示としては、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体；ＣＤ−ＲＯＭ（compact disc read only memory）及びＤＶＤ（digital versatile disc）のような光記録媒体、フロプティカルディスク（floptical disk のような磁気・光媒体（magneto-optical medium）；及びＲＯＭ（read-only memory）、ＲＡＭ（random access memory）、フラッシュメモリなどを含み、プログラム命令語が保存されるように構成されたものでもある。また、他の媒体の例示として、アプリケーションを流通するアプリストアや、その他多様なソフトウェアを供給したり流通させたりするサイト、サーバなどで管理する記録媒体または保存媒体も挙げることができる。

以上、本開示の技術的思想について、望ましい実施形態を挙げて詳細に説明したが、本開示の技術的思想は、前記実施形態に限定されるものではなく、本開示の技術的思想の範囲内において、当分野において当業者により、さまざまな変形及び変更が可能である。

１００イメージ編集装置
１２１０メモリ
１２３０通信モジュール
１２５０プロセッサ
１３１０サーバ装置
１３２０クライアント装置

Claims

イメージ編集装置によるイメージ編集方法において、
代替テキストに対応するテキストデータと、第１イメージとをイメージ編集モデルに入力する段階と、
前記代替テキストが含まれる第２イメージを、前記イメージ編集モデルから獲得する段階と、を含み、
前記第１イメージは、カードイメージを含み、
前記代替テキストは、複数の数字を含み、
前記イメージ編集モデルは、前記カードイメージの一部領域に、前記複数の数字を合成し、前記第２イメージを生成することを特徴とするイメージ編集方法。
イメージ編集装置によるイメージ編集方法において、
代替テキストに対応するテキストデータと、第１イメージとをイメージ編集モデルに入力する段階と、
前記代替テキストが含まれる第２イメージを、前記イメージ編集モデルから獲得する段階と、を含み、
前記イメージ編集モデルは、前記第１イメージの一部領域に前記代替テキストを合成して前記第２イメージを生成し、
前記イメージ編集モデルは、
前記第１イメージに対応する特徴マップを出力する第１エンコーダと、
前記第１エンコーダの特徴マップ、及び前記テキストデータを入力され、それに対応するイメージを出力する第１デコーダと、
前記第１デコーダの出力イメージを入力され、それに対応する特徴マップを出力する第２エンコーダと、
前記第２エンコーダの特徴マップ、及び前記テキストデータを入力され、それに対応する前記第２イメージを出力する第２デコーダと、を含むことを特徴とするイメージ編集方法。
前記イメージ編集モデルは、
前記第１イメージ内の位置情報をさらに入力され、入力された位置情報に対応する前記第１イメージの一部領域に、前記代替テキストを合成することを特徴とする請求項１に記載のイメージ編集方法。
イメージ編集装置によるイメージ編集方法において、
代替テキストに対応するテキストデータと、第１イメージとをイメージ編集モデルに入力する段階と、
前記代替テキストが含まれる第２イメージを、前記イメージ編集モデルから獲得する段階と、
前記イメージ編集モデルから出力される前記第２イメージを、区別モデルに入力する段階と、を含み、
前記イメージ編集モデルは、前記第１イメージの一部領域に前記代替テキストを合成して前記第２イメージを生成し、
前記区別モデルでの前記第２イメージの真偽判断結果に基づき、前記イメージ編集モデルの内部パラメータが更新されることを特徴とするイメージ編集方法。
前記区別モデルは、
前記第２イメージの全体領域に対する真偽を判断する第１区別モデルと、
前記第２イメージの一部領域に対する真偽を判断する第２区別モデルと、を含むことを特徴とする請求項４に記載のイメージ編集方法。
イメージ編集装置によるイメージ編集方法において、
代替テキストに対応するテキストデータと、第１イメージとをイメージ編集モデルに入力する段階と、
前記代替テキストが含まれる第２イメージを、前記イメージ編集モデルから獲得する段階と、を含み、
前記イメージ編集モデルは、前記第１イメージの一部領域に前記代替テキストを合成して前記第２イメージを生成し、
前記テキストデータは、
代替テキストに基づいて循環モデルから出力されるテキストベクトルを含むことを特徴とするイメージ編集方法。
当該イメージ編集方法は、
前記第１イメージを、前記イメージ編集モデルに入力する前に、前記第１イメージの前記一部領域を除去する前処理を行う段階をさらに含むことを特徴とする請求項１に記載のイメージ編集方法。
当該イメージ編集方法は、
前記第１イメージ内の第１言語のテキストを含む前記一部領域を識別する段階をさらに含み、
前記イメージ編集モデルは、
前記第１イメージの一部領域に、第２言語の代替テキストを合成し、前記第２イメージを生成することを特徴とする請求項１に記載のイメージ編集方法。
当該イメージ編集方法は、
前記第１イメージの一部領域に含まれる前記第１言語のテキストを識別する段階と、
識別された前記第１言語のテキストに対応する前記第２言語の代替テキストを決定する段階と、
前記決定された第２言語の代替テキストに対応するテキストデータ及び前記第１イメージを、前記イメージ編集モデルに入力する段階と、をさらに含むことを特徴とする請求項８に記載のイメージ編集方法。
ハードウェアと結合し、請求項１ないし９のうちいずれか一項に記載のイメージ編集方法を実行するために媒体に保存されたプログラム。
プロセッサと、
少なくとも１つの命令を保存するメモリと、を含み、
前記プロセッサは、前記少なくとも１つの命令により、
代替テキストに対応するテキストデータと、第１イメージとをイメージ編集モデルに入力し、
前記代替テキストが含まれる第２イメージを、前記イメージ編集モデルから獲得し、
前記第１イメージは、カードイメージを含み、
前記代替テキストは、複数の数字を含み、
前記イメージ編集モデルは、前記カードイメージの一部領域に、前記複数の数字を合成し、前記第２イメージを生成することを特徴とするイメージ編集装置。