JP6975281B2 - 人工知能モデルを利用したイメージ編集方法及びその装置 - Google Patents

人工知能モデルを利用したイメージ編集方法及びその装置 Download PDF

Info

Publication number
JP6975281B2
JP6975281B2 JP2020054014A JP2020054014A JP6975281B2 JP 6975281 B2 JP6975281 B2 JP 6975281B2 JP 2020054014 A JP2020054014 A JP 2020054014A JP 2020054014 A JP2020054014 A JP 2020054014A JP 6975281 B2 JP6975281 B2 JP 6975281B2
Authority
JP
Japan
Prior art keywords
image
image editing
model
text
alternative text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020054014A
Other languages
English (en)
Other versions
JP2020161140A (ja
Inventor
ファルスク イ
ヨンミン ペク
スン シン
ヨンモ イ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2020161140A publication Critical patent/JP2020161140A/ja
Application granted granted Critical
Publication of JP6975281B2 publication Critical patent/JP6975281B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Description

本発明は、イメージ処理分野に係り、さらに具体的には、人工知能モデルを利用し、イメージを編集する装置及びその方法に関する。
イメージ編集へのニーズは多様である。一例として、あるユーザは、イメージに含まれるテキストを、他のテキストに変更し、あるユーザは、イメージに含まれる所定言語のテキストを、他の言語のテキストに翻訳しようとする。また、人工知能モデルを訓練するためには、数多くの学習用イメージが必要であるが、一部学習用イメージには、センシティブな個人情報が含まれており、学習用イメージ確保のために、個人情報を削除しなければならない必要性もある。
イメージに含まれるテキストは、一般的な文書編集プログラム、例えば、マイクロソフト(登録商標)社のワープロなどでは編集が不可能であるので、イメージ編集プログラムを利用しなければならない。しかし、専門的なイメージ編集プログラムに係わる知識なしに、イメージを自然に編集することは、容易ではない。特に、イメージ編集過程において、周辺背景が損なわれる場合が多い。専門的なイメージ編集プログラムの高価格であることにより、無料または廉価なイメージ編集プログラムでイメージを編集するときには、相当な時間が必要となりもする。
したがって、専門的な知識がないユーザでも、簡単な方法でイメージを編集することができる方法が要求される。
本発明が解決しようとする課題は、人工知能モデルを利用し、簡単にイメージを編集することを技術的課題にする。
本発明が解決しようとする課題は、また、イメージに含まれるテキスト翻訳を支援することを技術的課題にする。
本発明が解決しようとする課題は、また、イメージに含まれる個人情報の流出を防止することを技術的課題にする。
一実施形態によるイメージ編集方法は、代替テキストに対応するテキストデータと、第1イメージとをイメージ編集モデルに入力する段階と、前記代替テキストが含まれる第2イメージを、前記イメージ編集モデルから獲得する段階と、を含むが、前記イメージ編集モデルは、前記第1イメージの一部領域に、前記代替テキストを合成し、前記第2イメージを生成することができる。
他の実施形態によるイメージ編集装置は、プロセッサと、少なくとも1つの命令を保存するメモリと、を含むが、前記プロセッサは、前記少なくとも1つの命令により、代替テキストに対応するテキストデータと、第1イメージとをイメージ編集モデルに入力し、前記代替テキストが含まれる第2イメージを、前記イメージ編集モデルから獲得し、前記イメージ編集モデルは、前記第1イメージの一部領域に、前記代替テキストを合成し、前記第2イメージを生成することができる。
一実施形態によるイメージ編集方法及びその装置は、人工知能モデルを利用し、簡単にイメージを編集することができる。
また、一実施形態によるイメージ編集方法及びその装置は、イメージに含まれるテキスト翻訳を支援することができる。
また、一実施形態によるイメージ編集方法及びその装置は、イメージに含まれる個人情報の流出を防止することができる。
ただし、一実施形態によるイメージ編集方法及びその装置が達成することができる効果は、以上で言及したところに制限されるものではなく、言及されていない他の効果は、以下の記載から、本開示が属する技術分野において当業者に、明確に理解されるであろう。
一実施形態によるイメージ編集装置を図示する図面である。 一実施形態によるイメージ編集装置によるイメージ編集方法を示すフローチャートである。 一実施形態によるイメージ編集モデルを示す図面である。 図3に図示された循環モデルを示す図面である。 一実施形態による第1イメージを示す図面である。 一実施形態による第2イメージを示す図面である。 他の実施形態による第1イメージを示す図面である。 他の実施形態による第2イメージを示す図面である。 一実施形態によるイメージ編集モデルの訓練方法について説明するための図面である。 他の実施形態によるイメージ編集方法を示すフローチャートである。 イメージ編集のためのユーザ端末のUI画面を示す例示的な図面である。 一実施形態によるイメージ編集装置の構成を図示するブロック図である。 一実施形態によるイメージ編集装置が適用可能なサーバ装置及びクライアント装置を図示する図面である。
本開示は、多様な変更を加えることができ、さまざまな実施形態を有することができるが、特定実施形態を図面に例示し、それについて、詳細な説明を介して説明する。しかし、それは、本開示を、特定の実施形態について限定するものではなく、本開示の思想及び技術範囲に含まれる全ての変更、均等物ないし代替物を含むものであると理解されなければならない。
本実施形態についての説明において、関連公知技術についての具体的な説明が、要旨を必要以上に不明確にすると判断される場合、その詳細な説明を省略する。また、本実施形態の説明過程で利用される数(例えば、第1、第2など)は、1つの構成要素を他の構成要素と区分するための識別記号に過ぎない。
また、本明細書において、一構成要素が他の構成要素と「連結される」、「接続される」というように言及されたときには、その一構成要素が他の構成要素と直接連結されることも、直接接続されることもあるが、特別に反対となる記載がない限り以上、中間に、他の構成要素を媒介させて連結又は接続されることもあると理解されなければならない。
また、本明細書において、「〜部(ユニット)」、「モジュール」というように表現される構成要素は、2個以上の構成要素が1つの構成要素に合わされるか、あるいは1つの構成要素がさらに細分化された機能別に、2個以上に分化されることもある。また、以下で説明する構成要素それぞれは、それ自体が担当する主機能以外にも、他の構成要素が担当する機能のうち、一部または全部の機能を追加して遂行することもでき、構成要素それぞれが担当する主機能のうち、一部機能が他の構成要素によって専用担当されても遂行されるということは言うまでもない。
また、本明細書において、「イメージ」は、静止映像を含んでもよい。また、本明細書において、「テキスト」は、イメージに含まれる文字、数及び記号を含んでもよい。
以下、本開示の技術的思想による実施形態について、順に詳細に説明する。
図1は、一実施形態によるイメージ編集装置100を図示する図面である。
一実施形態によるイメージ編集装置100は、代替テキストに対応するテキストデータ30と、第1イメージ10とを獲得し、既に保存されているイメージ編集モデル300を介して、第1イメージ10に含まれていたテキストが代替テキストに変更された第2イメージ50を生成することができる。
第1イメージ10の一部領域(例えば、テキストを含む領域)に代替テキストが合成されることにより、第2イメージ50が生成されるのである。
第1イメージ10は、チェックカード、クレジットカードなどの実物カードを撮影したイメージ、動画を構成する少なくとも1つのイメージなどを含んでもよいが、それらに限定されるものではない。
実物カードを撮影したイメージに含まれる個人情報(例えば、カード番号、有効期間など)が代替情報に変更されることにより、個人情報の流出が遮断される。また、映画を構成するフレームに含まれる特定言語の字幕が、他の言語の字幕にも変更される。
後述するように、イメージ編集装置100は、サーバ装置またはクライアント装置にも適用される。イメージ編集装置100がサーバ装置で具現される場合、イメージ編集装置100は、クライアント装置から受信した第1イメージ10、内部保存装置に保存された第1イメージ10、及び/またはネットワークを介して連結された外部装置から受信した第1イメージ10を編集し、第2イメージ50を生成することができる。
イメージ編集装置100がクライアント装置で具現される場合、イメージ編集装置100は、カメラによって撮影された第1イメージ10、内部保存装置に保存された第1イメージ10、及び/またはネットワークを介して外部装置から受信した第1イメージ10を編集し、第2イメージ50を生成することもできる。
図2は、一実施形態によるイメージ編集装置100によるイメージ編集方法を示すフローチャートである。
S210段階において、イメージ編集装置100は、代替テキストに対応するテキストデータ30、及び第1イメージ10を、イメージ編集モデル300に入力する。一例示として、第1イメージ10において、編集が必要な一部領域の位置情報が、イメージ編集モデル300にもさらに入力される。
代替テキストは、第2イメージ50に含めるテキストであり、ユーザから入力されることもあり、またはイメージ編集装置100がランダムに決定したり、所定規則により、直接決定したりもする。
一実施形態において、イメージ編集装置100は、第1イメージ10をイメージ編集モデル300に入力する前に、編集が必要な第1イメージ10の一部領域(例えば、テキストを含む領域)を識別し、当該領域を除去する前処理を行うことができる。ここで、第1イメージ10の一部領域の除去とは、第1イメージ10の一部領域に含まれる値(例えば、ピクセル値)を、既定値に変更することを意味する。
S220段階において、イメージ編集装置100は、代替テキストが含まれた第2イメージ50を、イメージ編集モデル300から獲得する。第1イメージ10内一部領域が代替テキストに置き換えられることにより、 第2イメージ50が生成されるのである。
イメージ編集モデル300は、ニューラルネットワークモデルであり、学習用データに基づいて訓練された内部パラメータを利用し、第2イメージ50を生成することができる。該内部パラメータは、ニューラルネットワークをなす各レイヤの演算過程で利用される値であり、例えば、入力値を所定演算式に適用するときに利用される加重値を含んでもよい。
イメージ編集モデル300は、第1イメージ10の一部領域に、代替テキストを合成し、第2イメージ50を生成することができる。
イメージ編集モデル300の構造については、図3を参照して説明する。
図3は、一実施形態によるイメージ編集モデル300を示す図面である。
イメージ編集モデル300は、第1エンコーダ310、第1デコーダ320、第2エンコーダ330及び第2デコーダ340を含んでもよい。第1エンコーダ310、第1デコーダ320、第2エンコーダ330及び第2デコーダ340のそれぞれは、少なくとも1層の畳み込みレイヤ(convolution layer)を含んでもよい。畳み込みレイヤは、データから、所望する特性を抽出するために、畳み込み演算を行うことができる。
第1エンコーダ310は、第1イメージ10に対し、畳み込み演算を適用し、特徴マップ(feature map)を出力する。
第1デコーダ320は、第1エンコーダ310から出力される特徴マップとテキストデータ30とを入力され、それに対応するイメージを生成して出力する。第1エンコーダ310から出力される特徴マップとテキストデータ30は、連結(concatenation)され、第1デコーダ320にも入力される。
第2エンコーダ330は、第1デコーダ320の出力イメージを入力され、それに対応する特徴マップを出力する。
第2デコーダ340は、第2エンコーダ330の特徴マップ及びテキストデータ30を入力され、それに対応する第2イメージ50を出力する。第2エンコーダ330から出力される特徴マップと、テキストデータ30は、連結され、第2デコーダ340にも入力される。
図3は、イメージ編集モデル300が、2つのエンコーダと、2つのデコーダとを含むように図示しているが、それは1つの例示であり、エンコーダ及びデコーダそれぞれの個数は、多様にも変更される。
第1デコーダ320及び第2デコーダ340には、テキストデータ30が入力されるが、該テキストデータ30は、代替テキストを入力された循環モデル400から出力されるテキストベクトルを含んでもよい。
図4を参照すれば、循環モデル400は、代替テキストを順次に入力され、それに対応するベクトル、例えば、埋め込み(embedding)ベクトルを出力することができる。例えば、1048という代替テキストに対応する埋め込みベクトルを獲得しようとするとき、まず、数字8が循環モデル400のレイヤAに入力される。次に、m字4がレイヤAに入力される。このとき、数字8に対応する埋め込みベクトルが、数字4と共に、レイヤAに入力される。すなわち、以前段階での出力が、次の段階で利用されるのである。最後の数字1までレイヤAに入力されれば、最終的に、hという埋め込みベクトルが獲得されるが、この最終埋め込みベクトルが、イメージ編集モデル300に入力されるのである。
図5は、一実施形態による第1イメージ10を示す図面であり、図6は、一実施形態による第2イメージ50を示す図面である。
図5に図示されているように、第1イメージ10は、カードを撮影したイメージであり、個人情報に該当するカード番号などを含んでいる。第1イメージ10に含まれていたテキストである3456を代替テキストに変更しようとするとき、イメージ編集装置100は、第1イメージ10(または、前処理された第1イメージ)、及び代替テキストに対応するテキストデータ30を、イメージ編集モデル300に入力することができる。3456を含む領域11の位置情報がイメージ編集モデル300にさらに入力される。
イメージ編集モデル300は、3456のテキストが代替テキストに変更された第2イメージ50を生成するが、図6に図示されているように、第2イメージ50には、3456のテキストの代わりに、51で示される0125 のテキストが含まれる。
図7は、他の実施形態による第1イメージ10を示す図面であり、図8は、他の実施形態による第2イメージ50を示す図面である。
図7に図示されているように、第1イメージ10は、動画を構成する1つのフレームであり、英語の字幕を含んでいる。英語字幕をハングル字幕に変更しようとするとき、イメージ編集装置100は、第1イメージ10(または、前処理された第1イメージ)、及びハングル字幕に対応するテキストデータ30を、イメージ編集モデル300に入力することができる。イメージ編集装置100は、英語字幕を含む領域11の位置情報を、イメージ編集モデル300にさらに入力することもできる。
図8に図示されているように、イメージ編集モデル300は、英語字幕がハングル字幕51に変更された第2イメージ50を生成することができる。
図9は、一実施形態によるイメージ編集モデル300の訓練方法について説明するための図面である。
一実施形態によるイメージ編集装置100は、イメージ編集モデル300訓練のための区別モデル900を保存することができる。区別モデル900は、イメージ編集モデル300から出力される第2イメージ50の真偽を判断する。区別モデル900は、編集されていない学習用イメージに基づいても訓練される。
区別モデル900は、第2イメージ50が編集されていないリアル(real)イメージに該当する場合、リアルイメージという判断結果を出力し、第2イメージ50が編集されたフェイク(fake)イメージに該当する場合、フェイクイメージであるという判断結果を出力することができる。
イメージ編集モデル300は、区別モデル900から出力される判断結果に基づき、内部パラメータを更新することができる。イメージ編集モデル300は、区別モデル900が第2イメージ50をリアルイメージと判断するように、内部パラメータを更新することができる。すなわち、イメージ編集モデル300は、区別モデル900を欺くために、さらに精巧な第2イメージ50を生成することができるのである。
一実施形態において、区別モデル900は、第1区別モデル910及び第2区別モデル930を含んでもよい。第1区別モデル910は、第2イメージ50全体領域に対して真偽を判断し、第2区別モデル930は、第2イメージ50内の一部領域、例えば、編集された領域に対して真偽を判断することができる。
第1区別モデル910及び第2区別モデル930の判断結果に基づき、イメージ編集モデル300は、イメージ編集が適用される一部領域及び全体領域に対して、リアルイメージ対比で差がない第2イメージ50が生成されるように、内部パラメータを更新することができる。
図10は、一実施形態によるイメージ編集方法を示すフローチャートである。
S1010段階において、イメージ編集装置100は、第1イメージ10を獲得する。イメージ編集装置100は、ネットワークを介して、外部装置から第1イメージ10を受信するか、あるいは内部保存装置に保存された第1イメージ10を獲得することができる。
第1イメージ10には、第1言語のテキストが含まれている。
S1020段階において、イメージ編集装置100は、編集が必要な第1イメージ10内の一部領域を選択する。
イメージ編集装置100は、第1イメージ10内テキストを含む領域を直接選択することができる。一例として、イメージ編集装置100は、第1イメージ10を、深層学習基盤の公知の単語領域識別モデルに入力し、第1イメージ10内テキスト領域を識別することができる。
他の例として、イメージ編集装置100は、ユーザから第1イメージ10内の一部領域を選択されてもよい。
S1030段階において、イメージ編集装置100は、代替テキストのための第2言語を選択する。イメージ編集装置100は、既定の第2言語を選択するか、あるいはユーザから、代替テキストのための第2言語を選択されてもよい。
S1040段階において、イメージ編集装置100は、第1イメージ10内の一部領域に含まれるテキストに基づいて代替テキストを決定する。
イメージ編集装置100は、第1イメージ10内の一部領域に含まれる第1言語のテキストを、OCR(optical character recognition)を介して認識し、認識されたテキストに基づき、S1030段階で選択された第2言語のテキストを決定することができる。例えば、第1イメージ10に、英語テキストが含まれている場合、イメージ編集装置100は、第2言語に該当する韓国語テキストを決定することができるのである。
イメージ編集装置100は、第1イメージ10内の一部領域に含まれる第1言語のテキストを認識するために、深層学習基盤の公知のテキスト識別モデルを利用することができる。
S1050段階において、イメージ編集装置100は、第1イメージ10(または、前処理された第1イメージ)、代替テキストをイメージ編集モデル300に入力し、イメージ編集モデル300から出力される第2イメージ50を獲得することができる。
図10に図示された実施形態は、動画に含まれる第1言語の字幕を、第2言語の字幕に変更するのに有用である。一例として、ユーザが、動画を構成する複数のイメージをイメージ編集装置100に提供すれば、イメージ編集装置100は、複数のイメージそれぞれにおいて、テキスト領域を識別し、複数のイメージに含まれる第1言語のテキストを、第2言語のテキストに変更することができる。他の例において、ユーザがイメージ編集装置100に動画を提供した場合、イメージ編集装置100は、当該動画を複数のイメージに分割し、複数のイメージに含まれる第1言語のテキストを、第2言語のテキストに変更することもできる。
一実施形態において、字幕翻訳を所望するユーザが、第1イメージ10をイメージ編集装置100に提供すれば、イメージ編集装置100は、深層学習基盤の公知の単語領域識別モデル及び/またはテキスト識別モデルを介して、編集が必要な第1イメージ10内の一部領域を識別し、識別された一部領域に含まれる第1言語(例えば、英語)のテキストを確認することができる。そして、イメージ編集装置100は、第1言語のテキストに対応する第2言語(例えば、韓国語)のテキストを決定した後、イメージ編集モデル300を介して、第2イメージ50を生成することもできる。すなわち、その場合、ユーザは、第1イメージ10をイメージ編集装置100に提供することだけで、翻訳サービスを提供されるのである。
図11は、イメージ編集のためのユーザ端末のUI(user interface)画面を示す例示的な図面である。
ユーザ5は、ユーザ端末の画面に表示された第1イメージ10において編集が必要な領域1110を選択することができ、選択された領域1110内のテキストを変更するための言語種類を、「言語」メニュー1120を介して選択することができる。また、ユーザが、「代替テキスト」メニューにおいて自動ボタン1130を選択すれば、イメージ編集装置100は、ユーザが選択した領域1110内のテキストを認識し、認識されたテキストに対応する他言語の代替テキストを決定することができる。
ユーザが、「代替テキスト」メニューにおいて、直接入力ボタン1140を選択し、図示されていないテキスト入力ボックスを介して、代替テキストを直接入力した場合、イメージ編集装置100は、言語種類と関係なく、第1イメージ10内の一部領域1110に含まれるテキストを、ユーザが入力した代替テキストに変更することができる。
図12は、一実施形態によるイメージ編集装置100の構成を図示するブロック図である。
図12を参照すれば、イメージ編集装置100は、メモリ1210、通信モジュール1230及びプロセッサ1250を含んでもよい。メモリ1210には、少なくとも1つの命令が保存され、プロセッサ1250は、少なくとも1つの命令により、イメージ編集モデル300、循環モデル400及び区別モデル900のうち少なくとも1つの訓練を制御することができる。
図12は、1つのメモリ1210、及び1つのプロセッサ1250だけを図示しているが、イメージ編集装置100は、複数のメモリ、及び/または複数のプロセッサを含んでもよい。
メモリ1210は、イメージ編集モデル300、循環モデル400及び区別モデル900を保存することができる。
プロセッサ1250は、イメージ編集モデル300に、第1イメージ10及びテキストデータ30を入力し、イメージ編集モデル300から出力される第2イメージ50を獲得することができる。
一実施形態において、プロセッサ1250は、学習用データに基づき、イメージ編集モデル300、循環モデル400及び区別モデル900のうち少なくとも1つを訓練することができる。
通信モジュール1230は、ネットワークを介して、外部装置とデータを送受信する。例えば、通信モジュール1230は、外部装置と、イメージを送受信することができる。
図13は、一実施形態によるイメージ編集装置100が適用されるサーバ装置1310及びクライアント装置1320を図示する図面である。
イメージ編集装置100は、サーバ装置1310に具現されるか、あるいはクライアント装置1320にも具現される。
イメージ編集装置100がサーバ装置1310に具現される場合、サーバ装置1310は、クライアント装置1320から第1イメージ10を受信し、代替テキストが合成された第2イメージ50を生成することができる。一例において、サーバ装置1310は、ネットワークを介して、外部装置から第1イメージ10を受信するか、あるいは内部保存装置に保存された第1イメージ10を編集し、第2イメージ50を生成することができる。
サーバ装置1310は、第2イメージ50を内部保存装置に保存した後、人工知能モデルの訓練に利用するか、あるいは第2イメージ50をクライアント装置1320で伝送することができる。
また、サーバ装置1310は、クライアント装置1320を含んだ外部装置から、学習用データを受信するか、あるいは内部に保存された学習用データを利用し、イメージ編集モデル300、循環モデル400及び区別モデル900のうち少なくとも1つの訓練を制御することもできる。
イメージ編集装置100がクライアント装置1320に具現される場合、クライアント装置1320は、クライアント装置1320のカメラによって撮影されたイメージ、またはクライアント装置1320に保存された第1イメージ10を編集し、第2イメージ50を生成することができる。
一実施形態において、クライアント装置1320は、イメージ編集モデル300、循環モデル400及び区別モデル900のうち少なくとも1つの実行のためのデータを、サーバ装置1310から受信することができる。クライアント装置1320は、カメラモジュールを介して撮影されたイメージ、内部メモリに保存されたイメージ、または外部装置から受信されたイメージを、イメージ編集モデル300に入力させ、当該イメージを編集することができる。
クライアント装置1320は、外部装置から学習用データを受信するか、あるいは内部に保存された学習用データを利用し、イメージ編集モデル300、循環モデル400及び区別モデル900のうち少なくとも1つの訓練を制御することもできる。具現例により、クライアント装置1320は、イメージ編集モデル300、循環モデル400及び区別モデル900のうち少なくとも1つの実行のためのデータを、サーバ装置1310から受信してインストールし、サーバ装置1310は、学習用データに基づき、イメージ編集モデル300、循環モデル400及び区別モデル900のうち少なくとも1つの訓練を制御することもできる。その場合、サーバ装置1310は、訓練結果として更新された加重値情報のみをクライアント装置1320に伝送し、クライアント装置1320は、受信された情報により、イメージ編集モデル300、循環モデル400及び区別モデル900のうち少なくとも1つを更新することができる。
図13は、クライアント装置1320として、デスクトップPC(personal computer)を図示しているが、それに限定されるものではなく、クライアント装置1320は、ノート型パソコン、スマートフォン、タブレットPC、AI(artificial intelligence)ロボット、AIスピーカ、ウェアラブル機器などを含んでもよい。
なお、前述の本開示の実施形態はコンピュータで実行されるプログラムに作成可能であり、作成されたプログラムは、媒体にも保存される。
該媒体は、コンピュータで実行可能なプログラムを続けて保存するか、あるいは実行またはダウンロードのために臨時保存するものでもある。また、該媒体は、単一または数個のハードウェアが結合された形態の多様な記録手段または保存手段でもあるが、あるコンピューターシステムに直接接続される媒体に限定されるものではなく、ネットワーク上に分散存在するものでもある。該媒体の例示としては、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体;CD−ROM(compact disc read only memory)及びDVD(digital versatile disc)のような光記録媒体、フロプティカルディスク(floptical disk のような磁気・光媒体(magneto-optical medium);及びROM(read-only memory)、RAM(random access memory)、フラッシュメモリなどを含み、プログラム命令語が保存されるように構成されたものでもある。また、他の媒体の例示として、アプリケーションを流通するアプリストアや、その他多様なソフトウェアを供給したり流通させたりするサイト、サーバなどで管理する記録媒体または保存媒体も挙げることができる。
以上、本開示の技術的思想について、望ましい実施形態を挙げて詳細に説明したが、本開示の技術的思想は、前記実施形態に限定されるものではなく、本開示の技術的思想の範囲内において、当分野において当業者により、さまざまな変形及び変更が可能である。
100 イメージ編集装置
1210 メモリ
1230 通信モジュール
1250 プロセッサ
1310 サーバ装置
1320 クライアント装置

Claims (11)

  1. イメージ編集装置によるイメージ編集方法において、
    代替テキストに対応するテキストデータと、第1イメージとをイメージ編集モデルに入力する段階と、
    前記代替テキストが含まれる第2イメージを、前記イメージ編集モデルから獲得する段階と、を含
    前記第1イメージは、カードイメージを含み、
    前記代替テキストは、複数の数字を含み、
    前記イメージ編集モデルは、前記カードイメージの一部領域に、前記複数の数字を合成し、前記第2イメージを生成することを特徴とするイメージ編集方法。
  2. イメージ編集装置によるイメージ編集方法において、
    代替テキストに対応するテキストデータと、第1イメージとをイメージ編集モデルに入力する段階と、
    前記代替テキストが含まれる第2イメージを、前記イメージ編集モデルから獲得する段階と、を含み、
    前記イメージ編集モデルは、前記第1イメージの一部領域に前記代替テキストを合成して前記第2イメージを生成し、
    前記イメージ編集モデルは、
    前記第1イメージに対応する特徴マップを出力する第1エンコーダと、
    前記第1エンコーダの特徴マップ、及び前記テキストデータを入力され、それに対応するイメージを出力する第1デコーダと、
    前記第1デコーダの出力イメージを入力され、それに対応する特徴マップを出力する第2エンコーダと、
    前記第2エンコーダの特徴マップ、及び前記テキストデータを入力され、それに対応する前記第2イメージを出力する第2デコーダと、を含むことを特徴とするイメージ編集方法。
  3. 前記イメージ編集モデルは、
    前記第1イメージ内の位置情報をさらに入力され、入力された位置情報に対応する前記第1イメージの一部領域に、前記代替テキストを合成することを特徴とする請求項1に記載のイメージ編集方法。
  4. イメージ編集装置によるイメージ編集方法において、
    代替テキストに対応するテキストデータと、第1イメージとをイメージ編集モデルに入力する段階と、
    前記代替テキストが含まれる第2イメージを、前記イメージ編集モデルから獲得する段階と、
    前記イメージ編集モデルから出力される前記第2イメージを、区別モデルに入力する段階と、を含み、
    前記イメージ編集モデルは、前記第1イメージの一部領域に前記代替テキストを合成して前記第2イメージを生成し、
    前記区別モデルでの前記第2イメージの真偽判断結果に基づき、前記イメージ編集モデルの内部パラメータが更新されることを特徴とするイメージ編集方法。
  5. 前記区別モデルは、
    前記第2イメージの全体領域に対する真偽を判断する第1区別モデルと、
    前記第2イメージの一部領域に対する真偽を判断する第2区別モデルと、を含むことを特徴とする請求項4に記載のイメージ編集方法。
  6. イメージ編集装置によるイメージ編集方法において、
    代替テキストに対応するテキストデータと、第1イメージとをイメージ編集モデルに入力する段階と、
    前記代替テキストが含まれる第2イメージを、前記イメージ編集モデルから獲得する段階と、を含み、
    前記イメージ編集モデルは、前記第1イメージの一部領域に前記代替テキストを合成して前記第2イメージを生成し、
    前記テキストデータは、
    代替テキストに基づいて循環モデルから出力されるテキストベクトルを含むことを特徴とするイメージ編集方法。
  7. 当該イメージ編集方法は、
    前記第1イメージを、前記イメージ編集モデルに入力する前に、前記第1イメージの前記一部領域を除去する前処理を行う段階をさらに含むことを特徴とする請求項1に記載のイメージ編集方法。
  8. 当該イメージ編集方法は、
    前記第1イメージ内の第1言語のテキストを含む前記一部領域を識別する段階をさらに含み、
    前記イメージ編集モデルは、
    前記第1イメージの一部領域に、第2言語の代替テキストを合成し、前記第2イメージを生成することを特徴とする請求項1に記載のイメージ編集方法。
  9. 当該イメージ編集方法は、
    前記第1イメージの一部領域に含まれる前記第1言語のテキストを識別する段階と、
    識別された前記第1言語のテキストに対応する前記第2言語の代替テキストを決定する段階と、
    前記決定された第2言語の代替テキストに対応するテキストデータ及び前記第1イメージを、前記イメージ編集モデルに入力する段階と、をさらに含むことを特徴とする請求項に記載のイメージ編集方法。
  10. ハードウェアと結合し、請求項1ないしのうちいずれか一項に記載のイメージ編集方法を実行するために媒体に保存されたプログラム。
  11. プロセッサと、
    少なくとも1つの命令を保存するメモリと、を含み、
    前記プロセッサは、前記少なくとも1つの命令により、
    代替テキストに対応するテキストデータと、第1イメージとをイメージ編集モデルに入力し、
    前記代替テキストが含まれる第2イメージを、前記イメージ編集モデルから獲得し、
    前記第1イメージは、カードイメージを含み、
    前記代替テキストは、複数の数字を含み、
    前記イメージ編集モデルは、前記カードイメージの一部領域に、前記複数の数字を合成し、前記第2イメージを生成することを特徴とするイメージ編集装置。
JP2020054014A 2019-03-27 2020-03-25 人工知能モデルを利用したイメージ編集方法及びその装置 Active JP6975281B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2019-0035117 2019-03-27
KR1020190035117A KR102279164B1 (ko) 2019-03-27 2019-03-27 인공지능 모델을 이용한 이미지 편집 방법 및 장치

Publications (2)

Publication Number Publication Date
JP2020161140A JP2020161140A (ja) 2020-10-01
JP6975281B2 true JP6975281B2 (ja) 2021-12-01

Family

ID=72643601

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020054014A Active JP6975281B2 (ja) 2019-03-27 2020-03-25 人工知能モデルを利用したイメージ編集方法及びその装置

Country Status (2)

Country Link
JP (1) JP6975281B2 (ja)
KR (1) KR102279164B1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112288835A (zh) * 2020-10-29 2021-01-29 维沃移动通信有限公司 图像文本提取方法、装置及电子设备
CN116168119B (zh) * 2023-02-28 2024-05-28 北京百度网讯科技有限公司 图像编辑方法、装置、电子设备、存储介质及程序产品

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0230565A (ja) * 1988-07-20 1990-01-31 Toshiba Corp 小組印刷方式
JPH04260987A (ja) * 1990-10-09 1992-09-16 Nec Corp 文字認識装置
MXPA02004015A (es) * 1999-10-22 2003-09-25 Activesky Inc Un sistema de video orientado a los objetos.
US8326930B2 (en) * 2004-06-22 2012-12-04 J2 Global Communications Variation of image content in electronic messaging protocol messages
US9870629B2 (en) 2008-06-20 2018-01-16 New Bis Safe Luxco S.À R.L Methods, apparatus and systems for data visualization and related applications
KR101263332B1 (ko) * 2009-09-11 2013-05-20 한국전자통신연구원 모바일 기기에서 사용자 상호작용을 이용한 자동 번역 장치 및 그 방법
JP2012133663A (ja) * 2010-12-22 2012-07-12 Fujifilm Corp ビューワ装置、閲覧システム、ビューワプログラム及び記録媒体
KR101883178B1 (ko) * 2011-10-12 2018-07-30 엘지전자 주식회사 영상표시장치 및 그 동작방법
EP2827586B1 (en) * 2012-03-14 2019-05-08 Panasonic Corporation Receiver apparatus, broadcast/communication-cooperation system, and broadcast/communication-cooperation method
KR101377601B1 (ko) * 2012-09-20 2014-03-25 주식회사 인지소프트 모바일 카메라를 이용한 자연 영상 다국어 문자 인식과 번역 시스템 및 방법
KR101456183B1 (ko) * 2013-12-13 2014-10-31 성균관대학교산학협력단 영상 내 텍스트 정보의 선택적 제거 방법 및 장치
LT6273B (lt) 2014-10-14 2016-05-25 Uab "Locatory.Com" Aviacijos detalių atpažinimo struktūros neturinčiame tekste sistema ir būdas
US10416868B2 (en) * 2016-02-29 2019-09-17 Myscript Method and system for character insertion in a character string
KR102630668B1 (ko) * 2016-12-06 2024-01-30 한국전자통신연구원 입력 텍스트를 자동으로 확장하는 시스템 및 방법
US10964097B2 (en) 2017-07-13 2021-03-30 Cambrian Tech, LLC Pattern recognition systems and methods for performing segmentation on surfaces and objects

Also Published As

Publication number Publication date
KR102279164B1 (ko) 2021-07-19
KR20200114034A (ko) 2020-10-07
JP2020161140A (ja) 2020-10-01

Similar Documents

Publication Publication Date Title
CN109618222B (zh) 一种拼接视频生成方法、装置、终端设备及存储介质
CN110414519B (zh) 一种图片文字的识别方法及其识别装置、存储介质
JP7123122B2 (ja) 認知的洞察を使用したビデオ・シーンの移動
CN109754783B (zh) 用于确定音频语句的边界的方法和装置
CN111523413B (zh) 生成人脸图像的方法和装置
US8467577B2 (en) Method, terminal, and computer-readable recording medium for supporting collection of object included in inputted image
CN108924599A (zh) 视频字幕显示方法及装置
JP5432617B2 (ja) アニメーション製作方法及び装置
CN102256049A (zh) 自动化故事生成
CN101753823A (zh) 自动标记图像的装置及其方法
JP6975281B2 (ja) 人工知能モデルを利用したイメージ編集方法及びその装置
KR20180105810A (ko) 음성 댓글을 이용하여 컨텐츠를 생성하는 방법 및 시스템
CN114238904B (zh) 身份识别方法、双通道超分模型的训练方法及装置
KR102086780B1 (ko) 만화 데이터 생성 장치, 방법 및 프로그램
KR101352203B1 (ko) 모바일용 동영상 편집도구의 이펙트 설정을 위한 플러그인의 배포방법
CN115640611B (zh) 一种自然语言处理模型的更新方法及相关设备
CN108255917B (zh) 图像管理方法、设备及电子设备
KR102281298B1 (ko) 인공지능 기반 동영상 합성을 위한 시스템 및 방법
CN104978389A (zh) 方法、系统、服务器和客户端
KR20230051032A (ko) 라이브 방송 플랫폼에서 콘텐츠 편집 방법 및 장치
KR20220089367A (ko) 회의록 작성 시스템
CN108536343B (zh) 控件展示方法、装置、终端及存储介质
CN113301436A (zh) 播放控制方法、装置及计算机可读存储介质
KR101837963B1 (ko) 웹툰 무단 복사 방지 및 추적시스템, 방법 및 프로그램
KR102377038B1 (ko) 화자가 표지된 텍스트 생성 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210413

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211012

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211105

R150 Certificate of patent or registration of utility model

Ref document number: 6975281

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150