JP2023508640A - データ増強基盤スタイル分析モデル学習装置及び方法 - Google Patents

データ増強基盤スタイル分析モデル学習装置及び方法 Download PDF

Info

Publication number
JP2023508640A
JP2023508640A JP2022531444A JP2022531444A JP2023508640A JP 2023508640 A JP2023508640 A JP 2023508640A JP 2022531444 A JP2022531444 A JP 2022531444A JP 2022531444 A JP2022531444 A JP 2022531444A JP 2023508640 A JP2023508640 A JP 2023508640A
Authority
JP
Japan
Prior art keywords
spatial image
spatial
generating
learning
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022531444A
Other languages
English (en)
Other versions
JP7325637B2 (ja
Inventor
キム、スミン
ペク、ユナ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
UrbanBase Inc
Original Assignee
UrbanBase Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by UrbanBase Inc filed Critical UrbanBase Inc
Publication of JP2023508640A publication Critical patent/JP2023508640A/ja
Application granted granted Critical
Publication of JP7325637B2 publication Critical patent/JP7325637B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Architecture (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

本発明の一実施例に係るデータ増強基盤スタイル分析モデル学習装置は、一つ以上のプロセッサを含み、プロセッサが遂行する動作は、複数の空間イメージを獲得してスタイル情報を特定するクラスをラベリングするか、クラスがラベリングされた複数の空間イメージを獲得して学習データを生成する動作、第1空間イメージが含むピクセル情報を所定の範囲内で変更した第2空間イメージを生成して学習データを増強する動作、第1空間イメージにラベリングされたクラスを第2空間イメージにラベリングする動作、及びイメージ分類アルゴリズム基盤に設計されたモデルに増強された学習データを入力して空間イメージとラベリングされたクラスとの相関関係を導出するモデルの重み付けを学習させることで空間イメージのスタイルに対するクラスを判別するモデルを生成する動作を含むことができる。

Description

本発明は、データ増強基盤スタイル分析モデル学習装置及び方法に関する。
韓国インターネット振興院(KISA)によれば、2019年に集計された韓国内オンラインショッピング市場の規模は約133兆ウォンであり、2018年の111兆ウォンに対比して約20%の成長傾向を見せている。このようにオンラインショッピング市場の成長傾向が急激に増加するにつれ、オンラインショッピングプラットフォームに登録されるストア及び商品の数が飛躍的に増加しており、消費者がオフライン売場よりオンライン売場を通して物を購入する比率が大幅に上昇している。
一方、オフラインショッピングの形態は、消費者が売場を選び売場内に備えられた商品を目で確認して気に入る商品を購入する形態であったら、オンラインショッピングの形態は、消費者が所望の商品のキーワードを通して商品を検索して購入する形態であって、商品が販売されるプラットフォームが変化するにつれて消費者が商品を探すようになる形態も変わっている。
そのため、オンラインショッピングでは、商品ページに消費者のトラフィックを流入させ得るように商品と関連したキーワードをよく設定することが非常に重要になっている。ただし、韓国内の上位10個のオンラインショッピングモールにアップロードされた商品の個数だけでも4億個を超える状況で商品毎にキーワードを一々設定することは難しい状況であるため、オンラインショッピングモールには、商品に対するイメージファイルだけで商品のキーワードを設定できる機能のソリューションが要求されている。
このとき、商品のイメージを構成する要素は、大きく空間、事物、商品が使用される背景のスタイル(雰囲気)、色彩に分けられる。購買者もまた商品を検索するとき、商品が使用される空間の用途、商品そのもの、空間の雰囲気、商品の色彩を重要な要素と見なすため、商品のイメージを構成する要素である空間、事物、スタイル、色彩のいずれか一つのキーワードを組み合わせて検索するようになる。
このように、商品のイメージから自動で空間、事物、スタイル、色彩に対するキーワードを抽出できるソリューションが要求される状況で導入可能な代表的な技術としては、人工知能を利用したイメージ分類アルゴリズムがある。一方、商品のイメージから空間、事物、スタイル、色彩を正確に分類するためには、データの品質、データの数量、ラベリング方法、学習の容易性等、考慮すべき要素が多い。これによって、多様な学習データを生成し、人工知能モデルの学習を容易にしながら正確な性能を有するモデルを生成させることのできる技術が必要な実情である。
本発明の実施例において解決しようとする課題は、イメージから自動で該当イメージが示す空間のスタイルを分類できるモデルを生成する技術を提供しようとする。
このとき、本発明の実施例が使用する技術であるイメージ分類人工知能アルゴリズムは、学習に使用する学習データの量と質によってモデルの性能に大きな差が発生し得る。特に、人工知能モデル学習の場合、限定された学習データだけでも優れた性能を有するモデルを作るためには、モデルが実際に使用される多様な環境や多様な状況の変数を含む学習データを通してモデルを学習させることが重要である。本発明は、空間イメージが示すスタイルを分類するモデルを生成しながら、モデルが実際に使用される多様な環境や状況の変数を含む学習データを生成するデータ増強技術を提示する。
ただし、本発明の実施例が解決しようとする技術的課題は、以上において言及した課題に制限されず、以下において説明する内容から通常の技術者に自明な範囲内で多様な技術的課題が導出され得る。
本発明の一実施例に係るデータ増強基盤スタイル分析モデル学習装置は、所定の動作を遂行するようにする命令語を格納する一つ以上のメモリ及び前記一つ以上のメモリと動作できるように連結されて前記命令語を実行するように設定された一つ以上のプロセッサを含み、前記プロセッサが遂行する動作は、複数の空間イメージを獲得して前記複数の空間イメージそれぞれに該当するスタイル情報を特定するクラスをラベリングするか、前記クラスがラベリングされた複数の空間イメージを獲得して学習データを生成する動作、前記複数の空間イメージのうち第1空間イメージが含むピクセル情報を所定の範囲内に変更した第2空間イメージを生成して前記学習データを増強する動作、前記第1空間イメージにラベリングされたクラスを前記第2空間イメージにラベリングする動作、及び所定のイメージ分類アルゴリズム基盤に設計されたモデルに前記増強された学習データを入力し、前記学習データに含まれた空間イメージと前記空間イメージそれぞれにラベリングされたクラスとの相関関係を導出する前記モデルの重み付けを学習させることで、前記相関関係に基づいて空間イメージのスタイルに対するクラスを判別するモデルを生成する動作を含むことができる。
また、前記第2空間イメージを生成する動作は、
[数1]
Figure 2023508640000002

(src(I):ピクセル情報の変更前の元素値(x、y、z)、
Figure 2023508640000003
:既設定された値であるn以下の乱数、dst(I):ピクセル情報の変更後の元素値(x’、y’、z’))前記数1に基づいて前記第1空間イメージから前記第2空間イメージを生成する動作を含むことができる。
また、前記第2空間イメージを生成する動作は、前記第1空間イメージに含まれたピクセル情報のRGB情報を構成する(x、y、z)元素値に対して、所定の基準値より大きな値を有する元素値がさらに大きな値を有するように変更し、前記基準値より小さな値を有する元素値がさらに小さな元素値を有するように変更して前記第2空間イメージを生成する動作を含むことができる。
また、前記第2空間イメージを生成する動作は、
[数2]
Figure 2023508640000004

(src(I):ピクセル情報の変更前の元素値(x、y、z)、
Figure 2023508640000005
:定数、
Figure 2023508640000006
:定数、dst(I):ピクセル情報の変更後の元素値(x’、y’、z’))前記数2に基づいて前記第1空間イメージから前記第2空間イメージを生成する動作を含むことができる。
また、前記第2空間イメージを生成する動作は、
[数3]
Figure 2023508640000007

(R:ピクセル情報のRGB情報(x、y、z)のうちx、G:ピクセル情報のRGB情報(x、y、z)のうちy、B:ピクセル情報のRGB情報(x、y、z)のうちz、Y:ピクセル情報の変更後の元素値(x’、y’、z’))前記数3に基づいて前記第1空間イメージから前記第2空間イメージを生成する動作を含むことができる。
また、前記第2空間イメージを生成する動作は、
[数4]
Figure 2023508640000008

(src(I):ピクセル情報の変更前の元素値(x、y、z)、
Figure 2023508640000009
:定数、
Figure 2023508640000010
:定数、dst(I):ピクセル情報の変更後の元素値(x’、y’、z’))
[数5]
Figure 2023508640000011

(R:前記dst(I)の(x’、y’、z’)のうちx’、G:前記dst(I)の(x’、y’、z’)のうちy’、B:前記dst(I)の(x’、y’、z’)のうちz’、Y:ピクセル情報の変更後の元素値(x’’、y’’、z’’))前記数4及び5に基づいて前記第1空間イメージから前記第2空間イメージを生成する動作を含むことができる。
また、前記第2空間イメージを生成する動作は、前記第1空間イメージに含まれたピクセル情報の一部にノイズ情報を追加して前記第2空間イメージを生成する動作を含むことができる。
また、前記第2空間イメージを生成する動作は、
[数6]
Figure 2023508640000012

(src(I):ピクセル情報の変更前の元素値(x、y、z)、
Figure 2023508640000013
:乱数、dst(I):ピクセル情報の変更後の元素値(x’、y’、z’))前記数6に基づいて前記第1空間イメージのピクセル情報にノイズ情報を付加して前記第2空間イメージを生成する動作を含むことができる。
また、前記第2空間イメージを生成する動作は、前記第1空間イメージが含むピクセルのうち第1ピクセルを真ん中に含むN×N(Nは、3以上の自然数)行列大きさに含まれた複数のピクセルのR、G、Bそれぞれの元素値のうち最大元素値である
Figure 2023508640000014
から前記複数のピクセルのR、G、Bそれぞれの元素平均値である
Figure 2023508640000015
を引いた値である
Figure 2023508640000016
を求め、前記
Figure 2023508640000017
の元素値のいずれか一つが既設定された値より小さい場合、前記第1ピクセルをブラー処理をする演算を遂行して前記第2空間イメージを生成する動作を含むことができる。
また、前記第2空間イメージを生成する動作は、前記第1空間イメージが含む全てのピクセルの個数だけ、平均0及び標準偏差100の標準ガウス正規分布に従う乱数情報を生成し、前記全てのピクセルのそれぞれに前記乱数情報それぞれを合算してノイズが挿入された前記第2空間イメージを生成する動作を含むことができる。
また、前記モデルを生成する動作は、ResNet(Deep Residual Learning for Image Recognition)アルゴリズムに基づいて設計された神経網の入力レイヤに前記学習データに含まれた空間イメージが入力されるように設定し、出力レイヤに前記空間イメージそれぞれにラベリングされたクラスが入力されるように設定して、前記学習データに含まれた空間イメージと前記空間イメージそれぞれにラベリングされたクラスとの相関関係を導出する神経網の重み付けを学習させる動作を含むことができる。
また、前記ResNetアルゴリズムに基づいて設計された神経網のハイパーパラメータのうちネットワーク階層数は、[18、34、50、101、152、200]のうち一つの値を有し、クラス個数は、モダン/ロマンチック/クラシック/ナチュラル/カジュアル/北ヨーロッパ/ビンテージに分類される7つのクラスを含み、ミニバッチサイズは、[32、64、128、256]のうち一つの値を有し、学習回数は、10~15、または30の値のうち一つを有し、学習率は、0.005または0.01に設定され、損失関数は、SGDまたはAdamに設定され得る。
本発明の一実施例に係るデータ増強基盤スタイル分析モデル学習方法は、複数の空間イメージを獲得して前記複数の空間イメージそれぞれに該当するスタイル情報を特定するクラスをラベリングするか、前記クラスがラベリングされた複数の空間イメージを獲得して学習データを生成するステップ、前記複数の空間イメージのうち第1空間イメージが含むピクセル情報を所定の範囲内で変更した第2空間イメージを生成して前記学習データを増強するステップ、前記第1空間イメージにラベリングされたクラスを前記第2空間イメージにラベリングするステップ、及び所定のイメージ分類アルゴリズム基盤に設計されたモデルに前記増強された学習データを入力して、前記学習データに含まれた空間イメージと前記空間イメージそれぞれにラベリングされたクラスとの相関関係を導出する前記モデルの重み付けを学習させることで、前記相関関係に基づいて空間イメージのスタイルに対するクラスを判別するモデルを生成するステップを含むことができる。
本発明の実施例によれば、同じ空間を撮影しても撮影するカメラの特性、撮影時間、撮影する人の習慣等、実際の多様な環境や状況により、同じ空間を撮影する場合にも生成されるイメージが変わり得るという変数を学習できるように、原本学習データを変形させて多様な学習データを確保するデータ増強技術を通して学習データの数量を増加させながらも高品質の学習データを確保する。
特に、データ増強のためにRGB情報を変更する場合、相対的に大幅のRGB情報の変更は、スタイルそのものの変化を引き起こして増強されたデータに対して2次的にまたラベリングする作業を発生させ得る。これによって、本発明の実施例は、スタイル変化のない程度の範囲内で学習データのRGB情報を変更して、増強された学習データに対するクラスを原本学習データと同一にラベリングして自動化することで、学習が容易でありながら性能が向上したイメージ分類モデルを提供できる。
このようなイメージ分類モデルを使用して、オンラインショッピングモールは、商品のイメージだけで商品と関連したキーワードを使用することで商品ページに消費者のトラフィックを効果的に流入させることができ、消費者もまた自身が所望するイメージを利用して自身に必要なキーワードを探して検索に利用できる。
この他に、本文書を通して直接的または間接的に把握される多様な効果が提供され得る。
本発明の一実施例に係るデータ増強基盤スタイル分析モデル学習装置が生成したモデルを利用してイメージが示すスタイルに対するクラスを分類する機能を示した図である。 本発明の一実施例に係るデータ増強基盤スタイル分析モデル学習装置が分類するスタイルのクラスを説明するための例示図である。 本発明の一実施例に係るデータ増強基盤スタイル分析モデル学習装置の機能ブロック図である。 本発明の一実施例に係るデータ増強基盤スタイル分析モデル学習装置が第1空間イメージ(a)のピクセル情報を所定範囲内に変更させた第2空間イメージ(b)の例示図である。 第1空間イメージに含まれたピクセル情報を変更してデータを増強する実施例によって生成された第2空間イメージの例示図である。 第1空間イメージに含まれたピクセル情報にグレースケールを適用してデータを増強する実施例によって生成された第2空間イメージの例示図である。 第1空間イメージに含まれた事物の枠領域を区分し、枠でない領域にブラーを適用して第2空間イメージを生成する方法を説明するための例示図である。 第1空間イメージにガウス正規分布によるノイズ情報を追加してデータを増強する実施例によって生成された第2空間イメージの例示図である。 本発明の一実施例に係るデータ増強基盤スタイル分析モデル学習方法のフローチャートである。
本発明の利点及び特徴、そして、それらを達成する方法は、添付の図面と共に詳細に後述されている実施例を参照すると、明確になるだろう。しかし、本発明は、以下において開示される実施例に限定されるものではなく、多様な形態に具現され得、単に、本実施例は、本発明の開示が完全なものとなるようにし、本発明の属する技術の分野における通常の知識を有する者に発明の範疇を完全に知らせるために提供されるものであり、本発明の範疇は、請求項により定義されるだけである。
本発明の実施例を説明するにあたって、公知機能または構成についての具体的な実際に必要な場合の他には省略される。そして、後述の用語は、本発明の実施例での機能を考慮して定義された用語であって、これは、ユーザ、運用者の意図または慣例等によって変わり得る。それゆえ、その定義は、本明細書全般にわたった内容に基づいて下されるべきである。
図面に表示され、下記に説明される機能ブロックは、可能な具現の例であるだけである。他の具現では、詳細な説明の思想及び範囲を外れない範囲で他の機能ブロックが使用され得る。また、本発明の一つ以上の機能ブロックが個別ブロックで表示されるが、本発明の機能ブロックのうち一つ以上は、同じ機能を実行する多様なハードウェア及びソフトウェア構成の組み合わせであってよい。
また、ある構成要素を含むという表現は、開放型の表現であって、該当構成要素が存在することを単に指すだけであり、さらなる構成要素を排除するものと理解されてはならない。
さらに、ある構成要素が他の構成要素に連結されているとか接続されていると言及される時には、その他の構成要素に直接的に連結または接続されていてもよいが、中間に他の構成要素が存在してもよいと理解されるべきである。
また、「第1、第2」等のような表現は、複数の構成を区分するための用途にだけ使用された表現であって、構成の間の順序やその他の特徴を限定しない。
以下においては、図面を参照して本発明の実施例について説明する。
図1は、本発明の一実施例に係るデータ増強基盤スタイル分析モデル学習装置100が生成した人工知能モデルを利用してイメージが示すスタイルに対するクラスを分類する機能を示した図である。
図1を参照すると、本発明の一実施例に係るデータ増強基盤スタイル分析モデル学習装置100は、図1に示されたインターフェースの上段メニューの空間分類、事物検出、スタイル分析、商品推薦機能のうちスタイル分析機能を提供できる。データ増強基盤スタイル分析モデル学習装置100は、図1のインターフェースに使用される人工知能モデルを生成する。人工知能モデルは、図1の左側下段に入力される空間イメージを分析して、空間イメージがどのようなスタイルを有するのかクラスを判別(ex.nordic style:97.78%、natural style:2.07%)できる。
一方、空間のスタイルは、インテリア雰囲気を決定する重要な要素であって、空間のスタイルは、大きく空間に含まれた客体の素材、色相、質感、形態によって変わり得、一実施例によれば、図2のように大きく7つのスタイルにインテリア空間を分類できる。
図2は、本発明の一実施例に係るデータ増強基盤スタイル分析モデル学習装置100が分類するスタイル(雰囲気)のクラスを説明するための例示図である。
図2を参照すると、データ増強基盤スタイル分析モデル学習装置100は、入力される空間イメージが示すスタイルを区分するように学習されてクラスを判別できる。例えば、空間イメージのクラスは、モダンスタイル、ロマンチックスタイル、クラシックスタイル、ナチュラルスタイル、カジュアルスタイル、北ヨーロッパスタイル、ビンテージスタイルを含むことができる。
図2(a)は、モダンスタイルのクラスに分類される空間イメージに対する例示である。モダンスタイルは、シンプルで現代的なインテリアスタイルであって、主に2つ以下の色相を使用することが特徴である。ステンレス、ガラス、スチール、鉄、革、金属、大理石等、硬い感じを与える素材を使用するか、モノトーンカラー(白色、黒色、無彩色、鮮明な色、ネイビー色、グレー色)の色を主に使用しながら灰色やその他の暗いトーンの色が添加され得る。また、冷たい、つやつや、滑らか、固い感じを与え、紋なしに光沢が出る仕上げを有し、直線や非定形の形態を示す。パターンを使用する場合、ストライプやチェック等、幾何学的なデザインパターンを利用でき、機能性と実用性を強調するという点でシンプルな簡潔さを追求する「ミニマルスタイル(Minimal Style)」を含むことができる。このとき、モダンスタイルのクラスは、「トレンディー、現代的、実用性、機能性、モノトーン、幾何学的パターン、冷たい素材」のキーワードを有する商品とマッチングされ得る。
図2(b)は、ロマンチックスタイルのクラスに分類される空間イメージに対する例示である。ロマンチックスタイルは、柔らかい感じで女性に人気のあるインテリアであって、ナチュラルな素材と色彩を強調することが特徴である。ソフトな織物と柔らかくて暖かい感じの素材(綿織物、木、煉瓦、シルク、リネン)を使用し、空色と緑色トーンのパステルトーン(薄いピンク、ブルー等)と共に使用され得、浪漫的で童話的な感じを与えるインテリアであり、物静かで高級に見える雰囲気である。また、優雅な曲線と植物、花模様等のパターンを活用し、ほのかな照明を使用して全体的に繊細かつ感性的な雰囲気を造成するスタイルであってごついが品格のある「プロヴァンススタイル(Provence Style)」を含むことができる。このとき、ロマンチックスタイルのクラスは、「ロマンチック、感性的、浪漫的、パステルトーン、ソフトな素材、曲線、ほのかな照明」のキーワードを有する商品とマッチングされ得る。
図2(c)は、クラシックスタイルのクラスに分類される空間イメージに対する例示である。クラシックスタイルは、中世以降ヨーロッパの伝統的な建築様式と装飾様式に基づく格式のあるインテリアであって、革、ファブリック、金属、天然木、大理石等、古く高級な素材を使用することが特徴である。また、木と革のカラーを基本としながら、褐色または黒色のような鮮明でトーンダウンした物静かで濃いカラーを使用する。古風で上品な雰囲気であり、空間が広い時にさらに似合うスタイルである。また、ヨーロッパ風のクラシックな家具を活用して華やかで装飾的な模様を有し、古風な感じの「アンティークスタイル(Antique Style)」や華やかさと曲線美を強調した「アールヌーヴォースタイル(Art Nouveau Style)」を含むことができる。このとき、クラシックスタイルのクラスは、「雄壮さ、古風な感じ、華やかな装飾、造形美、物静かなカラー、華やかなカラー、重たいカラー、木、織物」のキーワードを有する商品とマッチングされ得る。
図2(d)は、ナチュラルスタイルのクラスに分類される空間イメージに対する例示である。ナチュラルスタイルは、自然に優しい素材を利用した素朴なスタイルであって、暖かい色感のインテリアからなる家具が使用されることが特徴である。また、木、土、革、綿、麻のように自然的な素材が活用されながら白色、クリーム色、緑色、褐色のような木材色が主に使用され、パステルよりはウッドトーンがさらに活用され得る。また、つやなしまたは光沢が自然な感じまたは自然素材を連想させる質感の素材を強調した単純なデザインでホワイト背景に原木家具が主に配置され得る。従って、植物で自然を演出する「プランテリア(Planterior)」や「ボタニックスタイル(Botanic Style)」もナチュラルスタイルに含まれ得る。このとき、ナチュラルスタイルのクラスは、「オーガニック、自然さ、天然素材、木、ホワイト、ブラウン」のキーワードを有する商品とマッチングされ得る。
図2(e)は、カジュアルスタイルのクラスに分類される空間イメージに対する例示である。カジュアルスタイルは、自由で楽なイメージと若く運動感の溢れる個性のあって軽快なインテリアであって、明るい色調の木と金属、ガラス、プラスチック等、自然材と人工材の混用材を多く使用することが特徴である。また、白色と灰色等の基本色相に明るく華やかで鮮やかな色彩をポイントカラーに使用して生動感のある材質感と共に強い色彩の対比でリズム感を付与することができ、格式ばらない自由な雰囲気であって機能的で軽い感覚のデザイン要素が中心である。また、チェックと横型ストライプ、水玉模様が代表的なパターンに使用(幾何学的模様や抽象的模様も使用)され得る。このとき、カジュアルスタイルのクラスは、「独特さ、装飾的、華やかさ、都市的、混乱、洗練された明るさ、カラフルさ、自由さ」のキーワードを有する商品とマッチングされ得る。
図2(f)は、北ヨーロッパスタイルのクラスに分類される空間イメージに対する例示である。北ヨーロッパスタイルは、明るく安らかな色彩の仕上げ材が空間を満たしたインテリアであって、多様な小品とファブリックの活用がポイントである。また、天然木、タイル、ステンレス等、多様な素材が使用され、基本的に白色とベージュ色、ウッドトーンが使用されながらソフトなパステルトーンでポイントを与えることができる。また、単調なデザインの家具と小品を使用し、素材本来の質感と滑らかな仕上げが加味されて機能的で単純でありながら暖かさを追求する。このとき、北ヨーロッパスタイルのクラスは、「清さ、スマートさ、鮮やかさ、シンプルさ、単純さ、滑らかさ、ソフトさ、余裕さ、安楽さ、柔らかさ、暖かさ」のキーワードを有する商品とマッチングされ得る。
図2(g)は、ビンテージスタイルのクラスに分類される空間イメージに対する例示である。ビンテージスタイルは、思い出や懐かしさを呼び起こす過去の痕跡が自然に現れるスタイルであって、粗い金属製品、古いウッド、露出コンクリート、鉄製、煉瓦等、手入れされていない素材を使用することが特徴である。また、濃い褐色や黒色、灰色を活用してあせたか剥げたようなカラーを演出し、粗くごつい感じを与える。また、安らかで自然な模様で天井、壁等をそのまま露出して「インダストリアルスタイル(Industrial Style)」を含むことができる。このとき、ビンテージスタイルのクラスは、「産業化、機械的、工場、倉庫、金属、廃原木、煉瓦、露出コンクリート」のキーワードを有する商品とマッチングされ得る。
一方、上述した空間のスタイル分類は例示であるだけで、実施例の変形によって多様なスタイルの空間を判別できるように学習され得、空間イメージが示すスタイルを判別する実施例を具現するために、データ増強基盤スタイル分析モデル学習装置100が有する構成を図3と共に説明する。
図3は、本発明の一実施例に係るデータ増強基盤スタイル分析モデル学習装置100の機能ブロック図である。
図3を参照すると、一実施例に係るデータ増強基盤スタイル分析モデル学習装置100は、メモリ110、プロセッサ120、入力インターフェース130、ディスプレイ部140及び通信インターフェース150を含むことができる。
メモリ110は、学習データDB111、神経網モデル113、及び命令語DB115を含むことができる。
学習データDB111は、室内空間、外部空間等、特定の空間を撮影した空間イメージファイルを含むことができる。空間イメージは、外部サーバ、外部DBを通して獲得するかインターネット上の空間イメージを獲得できる。このとき、空間イメージは、多数のピクセル(ex.横M個、縦N個の行列形態に構成されたM×N個のピクセル)で構成され得、それぞれのピクセルは、R(Red)、G(Green)、B(Blue)の固有色相を示すRGB元素値(x、y、z)で構成されたピクセル情報を含むことができる。
神経網モデル113は、入力された空間イメージを分析して、空間イメージがどのようなスタイルを示す空間であるかを特定するクラスを判別するイメージ分類人工知能アルゴリズム基盤に学習された人工知能モデルであってよい。人工知能モデルは、後述するプロセッサ120の動作により生成されてメモリ110に格納され得る。
命令語DB115は、プロセッサ120の動作を遂行させることのできる命令語を格納することができる。例えば、命令語DB115は、後述するプロセッサ120の動作と対応する動作を遂行するようにするコンピュータコードを格納することができる。
プロセッサ120は、データ増強基盤スタイル分析モデル学習装置100が含む構成、メモリ110、入力インターフェース130、ディスプレイ部140及び通信インターフェース150の全般的な動作を制御できる。プロセッサ120は、ラベリングモジュール121、増強モジュール123、学習モジュール125及び制御モジュール127を含むことができる。プロセッサ120は、メモリ110に格納された命令語を実行してラベリングモジュール121、増強モジュール123、学習モジュール125及び制御モジュール127を駆動させることができ、ラベリングモジュール121、増強モジュール123、学習モジュール125及び制御モジュール127により遂行される動作は、プロセッサ120により遂行される動作と理解され得る。
ラベリングモジュール121は、複数の空間イメージそれぞれのイメージが示すスタイル情報(ex.モダン、ロマンチック、クラシック、ナチュラル、カジュアル、北ヨーロッパ、ビンテージ等)を特定するクラスをラベリング(マッピング)して人工知能モデルの学習に使用される学習データを生成し、学習データDB111に格納することができる。ラベリングモジュール121は、外部サーバ、外部DBを通して空間イメージを獲得するかインターネット上の空間イメージを獲得できる。空間イメージには、該当イメージのスタイル情報を特定するクラス(ex.モダン、ロマンチック、クラシック、ナチュラル、カジュアル、北ヨーロッパ、ビンテージ等)が既ラベリングされていてよい。
増強モジュール123は、学習データDB111に格納された空間イメージ(増強モジュールが変形を加えていない空間イメージを、以下、「第1空間イメージ」と称する)が含むピクセル情報を所定範囲内で変更した空間イメージ(増強モジュールが変形を加えた空間イメージを、以下、「第2空間イメージ」と称する)を生成して学習データを増強させ、第2空間イメージを学習データDB111に追加して格納することができる。
本発明の実施例に係るデータ増強基盤スタイル分析モデル学習装置100が学習させるモデルは、空間イメージが示すスタイルのクラスを分類する機能を有する。このとき、空間イメージは、同じ空間が撮影されるものであっても撮影に使用されるカメラの特性、撮影が行われる時間、撮影する人の習慣等、実際の空間イメージが生成される多様な環境や状況により、同じ空間を撮影する場合であっても多様な変数によりイメージファイルに含まれる情報が変わり得る。従って、人工知能モデルの性能向上のためには、学習に使用されるデータの量と質が重要である。特に、撮影に使用されるカメラの特性、撮影時間、撮影する人の習慣によって発生し得る変数を学習できるように、増強モジュール123は、一つの空間イメージに対して実際に発生し得る変数を反映する図5乃至図8のデータ増強アルゴリズムを通して学習データの数量を増加させることができる。
一方、上述した図2の説明のように、空間イメージの色感または色相は、空間のスタイルを決定する重要な要素のうち一つである。ここで、増強モジュール123がデータ増強のためにRGB情報を相対的に大幅に変更する場合に生成される第2空間イメージは、原本である第1空間イメージとは異なる色相を有する可能性が高く、第2空間イメージが示す空間のスタイルそのものが第1空間イメージと異なり得る。このような場合、原本である第1空間イメージと新たに生成された第2空間イメージは互いにスタイルそのものが変わり、増強された学習データである第2空間イメージに対するラベリング作業時、原本である第1空間イメージと変更された第2空間イメージは互いに異なるスタイルクラスをラベリングしなければならない必要がある。このような場合、色相の過度な変更は、現実感とかけ離れたデータを生成しながら、第2空間イメージに対して第1空間イメージのクラスと異なるクラスをまたラベリングしなければならない作業を発生させ得る。
このような作業が発生することを防止するために、本発明の実施例は、図4の例示のように空間のスタイル変化のない程度の範囲内で第1空間イメージ(図4(a))のRGB情報を変更して第2空間イメージ(図4(b))を生成し、ラベリングモジュール121は、新たに生成されたラベリングが遂行される前の第2空間イメージに対して、第1空間イメージにラベリングされたクラスを第2空間イメージに同一にラベリングを遂行して、学習データの数量を増加させながら増強された学習データに対するラベリングを自動化して性能が向上したイメージ分類モデルを提供できる。
学習モジュール125は、イメージ分類アルゴリズム基盤に設計されたモデルに増強された学習データを入力して、学習データに含まれた空間イメージと空間イメージそれぞれにラベリングされたスタイルクラスとの相関関係を導出する重み付けを学習させることで、重み付けの相関関係に基づいて新たに入力される空間イメージに対するスタイルクラスを判別する人工知能モデルを生成できる。例えば、学習モジュール125は、イメージ分類アルゴリズムのうちResNet(Deep Residual Learning for Image Recognition)アルゴリズムに基づいて設計された神経網の入力レイヤに学習データに含まれた空間イメージが入力されるように設定し、出力レイヤに空間イメージそれぞれが示すスタイルがラベリングされたクラスが入力されるように設定して、学習データに含まれた空間イメージと空間イメージそれぞれにラベリングされたスタイルクラスとの相関関係を導出するように神経網の重み付けを学習させて神経網を生成できる。
制御モジュール127は、学習が完了した人工知能モデルに空間イメージを入力して、入力された空間イメージに対して人工知能モデルが判別したスタイルクラスを該当空間イメージのキーワード、またはスタイルクラスとマッチングされる単語(ex.図2と共に上述したキーワードの例示)をキーワードに導出することができる。これによって、制御モジュール127は、空間イメージを含む商品ページに該当キーワード情報を使用できるようにオンラインショッピングモールサーバの商品DBにキーワードを格納することができる。
入力インターフェース130は、ユーザの入力を受信することができる。例えば、学習データに対するクラスをラベリングする場合、ユーザの入力を受信することができる。
ディスプレイ部140は、ディスプレイパネルを含んで画像を出力するハードウェア構成を含むことができる。
通信インターフェース150は、外部装置(ex.オンラインショッピングモールサーバ、ユーザ端末等)と通信して情報を送受信できるようにする。このために、通信インターフェース150は、無線通信モジュールまたは有線通信モジュールを含むことができる。
以下、データ増強基盤スタイル分析モデル学習装置100を構成する各構成が具現する多様な実施例を図5乃至図8と共に説明する。
図5は、第1空間イメージに含まれたピクセル情報を変更してデータを増強する実施例によって生成された第2空間イメージの例示図である。
増強モジュール123は、下記数1を通して第1空間イメージが含むピクセル情報を所定範囲内で変更した第2空間イメージを生成できる。
[数1]
Figure 2023508640000018

(src(I):ピクセル情報の変更前の元素値(x、y、z)、
Figure 2023508640000019
:既設定された値であるn以下の乱数、dst(I):ピクセル情報の変更後の元素値(x’、y’、z’))
数1によれば、
Figure 2023508640000020
は、既設定された値であるnより小さな値を有する乱数である。従って、増強モジュール123は、第1空間イメージが含むピクセルのいずれか一つの値である(x、y、z)元素値を変更させるために乱数
Figure 2023508640000021
を発生させて、該当ピクセルの元素値を
Figure 2023508640000022
に変更でき、このような演算は、第1空間イメージが含む全てのピクセルまたは選択された一部のピクセルに対して適用される方式で第2空間イメージを生成できる。これによって、光が空間に入るか入らないことで、または時間によって撮影されるイメージの色相がある程度変更され得るという変数を学習に反映するように、数1による方式でデータを新たに生成して該当変数を学習させることができる。
また、増強モジュール123は、第1空間イメージのピクセルの中で明るい部分をさらに明るくし、暗い部分をさらに暗くして対比を増加させるように変形するか、または第1空間イメージのピクセルの中で明るい部分をあまり明るくなくし、暗い部分をあまり暗くなくして対比を減少させるように変形して、カメラの性能や機種によって一つの空間に対するイメージが異に生成され得る変数まで学習されるようにする第2空間イメージを生成できる。
このために、増強モジュール123は、第1空間イメージに含まれたピクセル情報のRGB情報を構成する(x、y、z)元素値に対して、所定の基準値より大きな値を有する元素値がさらに大きな値を有するように変更し、基準値より小さな値を有する元素値がさらに小さな元素値を有するように変更して第2空間イメージを生成できる。
例えば、増強モジュール123は、第1空間イメージが有する全てのピクセルが有するピクセル情報に対して、下記数1を適用してピクセル情報が変更された第2空間イメージを生成できる。
[数2]
Figure 2023508640000023

(src(I):ピクセル情報の変更前の元素値(x、y、z)、
Figure 2023508640000024
:定数、
Figure 2023508640000025
:定数、dst(I):ピクセル情報の変更後の元素値(x’、y’、z’))
数2によれば、
Figure 2023508640000026
が1より大きな値を有するように設定する場合、第1空間イメージのピクセルの中で明るい部分をさらに明るくし、暗い部分をさらに暗くして対比を増加させることができ、
Figure 2023508640000027
が0より大きく1より小さな値を有するように設定する場合、第1空間イメージのピクセルの中で明るい部分をあまり明るくなくし、暗い部分をあまり暗くなくして対比を減少させることができる。
また、R、G、Bの元素値は、一般に0から255の間の値を有するため、
Figure 2023508640000028
により出力される元素値が255より過度に大きくならないように
Figure 2023508640000029
を設定でき、min関数を使用して最大値が255より大きくならないように設定できる。
また、R、G、Bの元素値は、一般に0から255の間の値を有するため、max関数を使用して
Figure 2023508640000030
により出力される元素値が0より小さくならないようにmax関数を使用してすることができる。
加えて、
Figure 2023508640000031
が小数点を有する値に設定される場合、変更されたピクセル情報の元素値が整数になるようにround関数を使用することができる。
図5Aを参照すると、左側は、第1空間イメージであり、右側は、
Figure 2023508640000032
を設定して数2を適用した場合の第2空間イメージである。図5Aの右側第2空間イメージは、第1空間イメージに比して、明るい部分がさらに明るく変わり、暗い部分がさらに暗く変わって対比が増加した新たな学習データが生成されることを確認することができる。
図5Bを参照すると、左側は、第1空間イメージであり、右側は、
Figure 2023508640000033
を設定して数2を適用した場合の第2空間イメージである。図5Bの右側第2空間イメージは、第1空間イメージに比して、明るい部分があまり明るくなく変わり、暗い部分があまり暗くなく変わって対比が減少した新たな学習データが生成されることを確認することができる。
図5Cを参照すると、左側は、一つの色(R、G、B)=(183、191、194)に統一された第1空間イメージであり、右側は、
Figure 2023508640000034
を設定して数2を適用した場合の第2空間イメージである。図5Cを通して一つのピクセル情報が数2によって変わる程度を確認することができる。
図6(a)は、第1空間イメージに含まれたピクセル情報にグレースケールを適用してデータを増強する実施例によって生成された第2空間イメージの例示図である。
空間イメージに対するクラス判別は、事物の配置や、事物のパターンに大きな影響を受けるため、増強モジュール123は、色相を単調に変換させた後、事物の配置と事物のパターンをよりよく学習されるように変数を反映した学習データを生成できる。
このために、増強モジュール123は、図6(a)の左側イメージのように、第1空間イメージが有する全てのピクセル情報に対して、下記数3を適用してピクセル情報が単調な色相を有しながら配置とパターンが現れる第2空間イメージを生成できる。
[数3]
Figure 2023508640000035

(R:ピクセル情報のRGB情報(x、y、z)のうちx、G:ピクセル情報のRGB情報(x、y、z)のうちy、B:ピクセル情報のRGB情報(x、y、z)のうちz、Y:ピクセル情報の変更後の元素値(x’、y’、z’)
加えて、増強モジュール123は、図6(a)の右側イメージのように、下記数4を通して第1空間イメージの対比を増加させた後に導出された元素値に、下記数5を適用して、第1空間イメージに含まれた事物の配置とパターンがより克明に現れる第2空間イメージを生成できる。
[数4]
Figure 2023508640000036

(src(I):ピクセル情報の変更前の元素値(x、y、z)、
Figure 2023508640000037
:定数、
Figure 2023508640000038
:定数、dst(I):ピクセル情報の変更後の元素値(x’、y’、z’))
[数5]
Figure 2023508640000039

(R:数4で求められたdst(I)の(x’、y’、z’)のうちx’、G:数4で求められたdst(I)の(x’、y’、z’)のうちy’、B:数4で求められたdst(I)の(x’、y’、z’)のうちz’、Y:ピクセル情報の変更後の元素値(x’’、y’’、z’’)
また、増強モジュール123は、数4と5を使用する前記実施例で数4の代わりに、数1を適用し数5を適用する方式を通して、所定範囲内に変更されたピクセル情報のパターンが克明に現れるように変更された第2空間イメージを生成することもできる。
図6(b)は、第1空間イメージに含まれたピクセル情報の一部にノイズを追加してデータを増強する実施例によって生成された第2空間イメージの例示図である。
増強モジュール123は、カメラを拡大して撮影する場合、イメージにノイズが発生する場合を学習するための学習データを生成できる。このために、増強モジュール123は、第1空間イメージに含まれたピクセル情報の一部にノイズ情報を追加して第2空間イメージを生成できる。例えば、増強モジュール123は、乱数発生アルゴリズムを通して任意の座標情報を生成して、第1空間イメージに含まれたピクセルのうち一部の座標を選択し、選択された座標のピクセルが有する元素値に対して下記数6を利用して、ピクセル情報に乱数発生アルゴリズムを利用して算出される乱数を付加してノイズ情報が追加された第2空間イメージを生成できる。
[数6]
Figure 2023508640000040

(src(I):ピクセル情報の変更前の元素値(x、y、z)、
Figure 2023508640000041
:乱数、dst(I):ピクセル情報の変更後の元素値(x’、y’、z’))
図6(b)を参照すると、左側は、第1空間イメージであり、右側は、数6を適用してノイズを追加した場合の第2空間イメージを確認することができる。
図7は、第1空間イメージに含まれた事物の枠領域を区分し、枠でない領域にブラーを適用して第2空間イメージを生成する方法を説明するための例示図である。
増強モジュール123は、カメラの焦点がよく合わない状態で撮影されたイメージを学習するように次の実施例を通して事物の縁が潰れたような第2空間イメージを生成できる。
図7Aは、説明の便宜のために、横5個×縦5個の行列形態の25個のピクセルを含む第1空間イメージを仮定して各ピクセル領域を区分した例示である。このとき、各ピクセルは、R、G、Bの元素値を有するが、R(Red)の元素値を基準に実施例を説明する。図7Aの各ピクセル領域に示された数字は、Rの元素値を意味する。
図7Aの場合、全てのピクセルに後述する方式の演算が遂行されるが、説明の便宜のために、真ん中のピクセルを基準に演算を説明する。図5Aの場合、増強モジュール123は、演算が遂行されるピクセルを中央とするN×N領域(図7AでNは3を仮定)に含まれたピクセルのうちR元素値の最大値(R_max=130)とR元素値の平均値(R_avg=120)の差(R_max-R_avg=10)を計算して、導出される値が既設定された値nより小さい場合のピクセル(事物の内側領域に存在するピクセルと判別)と既設定された値nより大きい場合のピクセル(事物の枠領域に存在するピクセルと判別)を区分して、図7Bの右側のように第1空間イメージに含まれた事物の枠を判別できる。ここで、増強モジュール123は、枠領域を除く領域のピクセルに対してのみガウスブラーアルゴリズムを適用して図7Cの右側イメージのようなイメージを生成できる。一方、演算が遂行されるピクセルを基準にするN×N領域にピクセルが存在しない領域(ex.イメージの縁側)が存在するならば、該当ピクセルに対しては上述した演算を省略し、ブラー処理をすることができる。
このように、増強モジュール123は、第1空間イメージが含む全てのピクセルそれぞれに対して上の演算を遂行することができる。演算が遂行されるピクセルの場合、該当ピクセルを中央に含むN×N(Nは、3以上の奇数)行列大きさに含まれる複数のピクセルをカーネル領域に選択し、カーネル領域に含まれた複数のピクセルのR、G、Bそれぞれの元素値のうち最大元素値である(R_max、G_max、B_max)から、カーネル領域に含まれた複数のピクセルのR、G、Bそれぞれの元素平均値である(R_avg、G_avg、B_avg)を引いた値である(R_max-R_avg、G_max-G_avg、B_max-B_avg)を求め、(R_max-R_avg、G_max-G_avg、B_max-B_avg)のうち少なくともいずれか一つの元素値が既設定された値nより小さければ、該当ピクセルにガウスブラーアルゴリズムを適用して第2空間イメージを生成できる。
このような演算を第1空間イメージに含まれた全てのピクセルに対して遂行すれば、色相差が大きく開く枠領域のピクセルだけがピクセル情報をそのまま有し、色相差のない領域のピクセルはブラー処理されて、カメラの焦点がよく合わない状態で撮影されたイメージを学習できる第2空間イメージを生成できる。このとき、ブラー処理は、ガウスブラーアルゴリズムを適用できるが、これに限定されず、多様なブラーフィルタを使用することができる。
図7Bを参照すると、左側は、第1空間イメージであり、右側は、図7を通して説明した実施例で既設定された値nより大きい場合とnより小さい場合のピクセルを区分して生成されたイメージである。図7Bの右側イメージもまた事物の枠を克明に示すため、事物の配置とパターンを明確に認識させるための目的で学習データに追加して使用することができる。
図7Cを参照すると、左側は、第1空間イメージであり、右側は、上述した図7の実施例でN=7、n=20を適用した実施例であり、枠以外の領域がブラー処理された第2空間イメージを確認することができる。
加えて、図7を通して説明した実施例で既設定された値nより大きい場合のピクセルをブラー処理して上述した実施例と反対の効果を発生させた第2空間イメージを学習データDB111に追加することもできる。
図8は、第1空間イメージにガウス正規分布によるノイズ情報を追加してデータを増強する実施例によって生成された第2空間イメージの例示図である。
増強モジュール123は、イメージの特定部分に焦点が合わない場合を学習するための学習データを生成できる。このために、増強モジュール123は、第1空間イメージが含む全てのピクセルの個数だけ、平均0及び標準偏差100の標準ガウス正規分布に従う乱数情報を生成し、全てのピクセルのそれぞれに乱数情報それぞれを合算してノイズ情報が挿入された第2空間イメージを生成できる。
ラベリングモジュール121は、図5乃至図8を通して生成された第2空間データに対して、変形前の原本である第1空間イメージにラベリングされたクラスを、変形後の第2空間イメージに同一にラベリングして、増強された学習データに対するラベリング過程を自動化してラベリング時間を短縮させることができる。
以後、学習モジュール125は、イメージ分類アルゴリズム基盤に設計されたモデルに原本学習データ(第1空間イメージ)と図5乃至図8の実施例を通して増強された学習データ(第2空間イメージ)を入力して、学習データに含まれた空間イメージと空間イメージそれぞれにラベリングされたスタイルクラスとの相関関係を導出するモデルの重み付けを学習させることで、相関関係に基づいて空間イメージに対するクラスを判別するモデルを生成できる。
このようなイメージ分類アルゴリズムは、人工知能の分野で扱う多様な問題を定義し、それを解決するマシンラーニングアルゴリズムを含む。本発明の実施例は、ResNet、LeNet-5、AlexNet、VGG-F、VGG-M、VGG-S、VGG-16、VGG-19、GoogLeNet(inception v1)、SENetのアルゴリズムによって設計された人工知能モデルを通して学習を進行できる。
人工知能モデルは、シナプスの結合でネットワークを形成したノードで構成される、問題解決能力を有するモデル全般を意味し得る。人工知能モデルは、モデルを構成するレイヤの間の重み付けである、モデルパラメータを更新する学習過程、出力値を生成する活性化関数(Activation Function)により定義され得る。
モデルパラメータは、学習を通して決定されるパラメータを意味し、レイヤ連結の重み付けとニューロンの偏向等が含まれる。そして、ハイパーパラメータは、マシンラーニングアルゴリズムで学習の前に設定されるべきパラメータを意味し、ネットワーク階層数(num_layer)、学習データ個数(num_training_samples)、クラス個数(num_classes)、学習率(Learning Rate)、学習回数(epochs)、ミニバッチサイズ(mini_batch_size)、損失関数(optimizer)等が含まれる。
本発明の一実施例に係る人工知能モデルのハイパーパラメータは、下記のような設定値を有し得る。例えば、ネットワーク階層数は、イメージの大きさが大きな学習データである場合、[18、34、50、101、152、200]の間から選択され得る。このとき、ネットワーク階層数は、学習時間を考慮して初期値18で学習されて所定個数の学習データが学習された以後には34に変更され得、これによって正確度が向上し得る。学習データ個数は、全体イメージデータから評価データの個数を引いた値であり、計83,134枚の中で66,509枚が学習データに使用され得、残りの16,625枚は評価データに使用され得る。クラス個数は、モダン/ロマンチック/クラシック/ナチュラル/カジュアル/北ヨーロッパ/ビンテージに分類される7つのクラスを含むことができる。ミニバッチサイズは、大きさ値によってコンバージェンス速度及び最終loss値に差があるので、[32、64、128、256]等の大きさをそれぞれ試みて適切な値を選択でき、好ましく128または256の大きさが設定され得る。学習回数は、10~15、または30のいずれか一つの値に設定され得る。学習率は、0.005または0.01に設定され得る。損失関数(目的関数)は、基本値であるSGDに設定され得、またはイメージ分類に適したAdamに設定され得る。ただし、上述した設定値は一例示であるだけで、実施例が前記数値に限定されるものではない。
人工知能モデルの学習目的は、損失関数を最小化するモデルパラメータを決定することと見られる。損失関数は、人工知能モデルの学習過程で最適なモデルパラメータを決定するための指標に利用され得る。
図9は、本発明の一実施例に係るデータ増強基盤スタイル分析モデル学習方法のフローチャートである。図9によるデータ増強基盤スタイル分析モデル学習方法の各ステップは、図3を通して説明されたデータ増強基盤スタイル分析モデル学習装置100により遂行され得、各ステップを説明すると、次のとおりである。
まず、ラベリングモジュール121は、複数の空間イメージを獲得して複数の空間イメージそれぞれに該当するスタイル情報を特定するクラスをラベリングするか、クラスがラベリングされた複数の空間イメージを獲得して学習データを生成する(S910)。以後、増強モジュール123は、複数の空間イメージのうち第1空間イメージが含むピクセル情報を所定の範囲内に変更した第2空間イメージを生成して学習データを増強させる(S920)。次に、ラベリングモジュール121は、第1空間イメージにラベリングされたクラスを第2空間イメージにラベリングする(S930)。これによって、学習モジュール125は、所定のイメージ分類アルゴリズム基盤に設計されたモデルに増強された学習データを入力して、学習データに含まれた空間イメージと空間イメージそれぞれにラベリングされたクラスとの相関関係を導出するモデルの重み付けを学習させることで、相関関係に基づいて空間イメージのスタイルに対するクラスを判別するモデルを生成できる(S940)。
一方、上述した各ステップの主体である構成要素が該当ステップを実施するための過程は、図3乃至図8と共に説明したので、重複した説明は省略する。
上述した本発明の実施例は、多様な手段を通して具現され得る。例えば、本発明の実施例は、ハードウェア、ファームウェア(firmware)、ソフトウェアまたはそれらの結合等により具現され得る。
ハードウェアによる具現の場合、本発明の実施例に係る方法は、一つまたはそれ以上のASICs(Application Specific Integrated Circuits)、DSPs(Digital Signal Processors)、DSPDs(Digital Signal Processing Devices)、PLDs(Programmable Logic Devices)、FPGAs(Field Programmable Gate Arrays)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ等により具現され得る。
ファームウェアやソフトウェアによる具現の場合、本発明の実施例に係る方法は、以上において説明された機能または動作を遂行するモジュール、手順または関数等の形態に具現され得る。ソフトウェアコード等が書き込まれたコンピュータプログラムは、コンピュータ読み取り可能書き込み媒体またはメモリユニットに格納されてプロセッサにより駆動され得る。メモリユニットは、プロセッサの内部または外部に位置して、既に公知になった多様な手段によりプロセッサとデータを受け渡しすることができる。
また、本発明に添付のブロック図の各ブロックとフローチャートの各ステップの組み合わせは、コンピュータプログラムインストラクションにより遂行されてもよい。これらのコンピュータプログラムインストラクションは、汎用コンピュータ、特殊用コンピュータまたはその他のプログラム可能なデータプロセシング装備のエンコーディングプロセッサに搭載され得るので、コンピュータまたはその他のプログラム可能なデータプロセシング装備のエンコーディングプロセッサを通して遂行されるそのインストラクションがブロック図の各ブロックまたはフローチャートの各ステップで説明された機能を遂行する手段を生成するようになる。これらのコンピュータプログラムインストラクションは、特定方法で機能を具現するためにコンピュータまたはその他のプログラム可能なデータプロセシング装備を目指すことのできるコンピュータ利用可能またはコンピュータ読み取り可能メモリに格納されることも可能であるので、そのコンピュータ利用可能またはコンピュータ読み取り可能メモリに格納されたインストラクションは、ブロック図の各ブロックまたはフローチャートの各ステップで説明された機能を遂行するインストラクション手段を内包する製造品目を生産することも可能である。コンピュータプログラムインストラクションは、コンピュータまたはその他のプログラム可能なデータプロセシング装備上に搭載されることも可能であるので、コンピュータまたはその他のプログラム可能なデータプロセシング装備上で一連の動作ステップが遂行されてコンピュータで実行されるプロセスを生成してコンピュータまたはその他のプログラム可能なデータプロセシング装備を遂行するインストラクションは、ブロック図の各ブロック及びフローチャートの各ステップで説明された機能を実行するためのステップを提供することも可能である。
併せて、各ブロックまたは各ステップは、特定された論理的機能を実行するための一つ以上の実行可能なインストラクションを含むモジュール、セグメントまたはコードの一部を示すことができる。また、いくつかの代替実施例では、ブロックまたはステップで言及された機能が順序を外れて発生することも可能であることを注目すべきである。例えば、引き続き図示されている二つのブロックまたはステップは、実際、実質的に同時に遂行されることも可能であり、またはそのブロックまたはステップが時々該当する機能によって逆順に遂行されることも可能である。
このように、本発明の属する技術の分野における当業者は、本発明がその技術的思想や必須特徴を変更することなく他の具体的な形態で実施され得るということが理解できるだろう。それゆえ、以上において記述した実施例は、全ての面で例示的なものであり、限定的ではないものとして理解すべきである。本発明の範囲は、詳細な説明よりは後述する特許請求の範囲により示され、特許請求の範囲の意味及び範囲、そしてその等価概念から導出される全ての変更または変形された形態が本発明の範囲に含まれるものと解釈されるべきである。

Claims (14)

  1. データ増強基盤スタイル分析モデル学習装置において、
    所定の動作を遂行するようにする命令語を格納する一つ以上のメモリ;及び前記一つ以上のメモリと動作できるように連結されて前記命令語を実行するように設定された一つ以上のプロセッサを含み、
    前記プロセッサが遂行する動作は、
    複数の空間イメージを獲得して前記複数の空間イメージそれぞれに該当するスタイル情報を特定するクラスをラベリングするか、前記クラスがラベリングされた複数の空間イメージを獲得して学習データを生成する動作;
    前記複数の空間イメージのうち第1空間イメージが含むピクセル情報を所定の範囲内で変更した第2空間イメージを生成して前記学習データを増強する動作;
    前記第1空間イメージにラベリングされたクラスを前記第2空間イメージにラベリングする動作;及び
    所定のイメージ分類アルゴリズム基盤に設計されたモデルに前記増強された学習データを入力し、前記学習データに含まれた空間イメージと前記空間イメージそれぞれにラベリングされたクラスとの相関関係を導出する前記モデルの重み付けを学習させることで、前記相関関係に基づいて空間イメージのスタイルに対するクラスを判別するモデルを生成する動作を含む、
    データ増強基盤スタイル分析モデル学習装置。
  2. 前記第2空間イメージを生成する動作は、
    [数1]
    Figure 2023508640000042

    (src(I):ピクセル情報の変更前の元素値(x、y、z)、
    Figure 2023508640000043
    :既設定された値であるn以下の乱数、dst(I):ピクセル情報の変更後の元素値(x’、y’、z’))
    前記数1に基づいて前記第1空間イメージから前記第2空間イメージを生成する動作を含む、
    請求項1に記載のデータ増強基盤スタイル分析モデル学習装置。
  3. 前記第2空間イメージを生成する動作は、
    [数2]
    Figure 2023508640000044

    (src(I):ピクセル情報の変更前の元素値(x、y、z)、
    Figure 2023508640000045
    :定数、
    Figure 2023508640000046
    :定数、dst(I):ピクセル情報の変更後の元素値(x’、y’、z’))
    前記数2に基づいて前記第1空間イメージから前記第2空間イメージを生成する動作を含む、
    請求項1に記載のデータ増強基盤スタイル分析モデル学習装置。
  4. 前記第2空間イメージを生成する動作は、
    [数3]
    Figure 2023508640000047

    (R:ピクセル情報のRGB情報(x、y、z)のうちx、G:ピクセル情報のRGB情報(x、y、z)のうちy、B:ピクセル情報のRGB情報(x、y、z)のうちz、Y:ピクセル情報の変更後の元素値(x’、y’、z’))
    前記数3に基づいて前記第1空間イメージから前記第2空間イメージを生成する動作を含む、
    請求項1に記載のデータ増強基盤スタイル分析モデル学習装置。
  5. 前記第2空間イメージを生成する動作は、
    [数4]
    Figure 2023508640000048

    (src(I):ピクセル情報の変更前の元素値(x、y、z)、
    Figure 2023508640000049
    :定数、
    Figure 2023508640000050
    :定数、dst(I):ピクセル情報の変更後の元素値(x’、y’、z’))
    [数5]
    Figure 2023508640000051

    (R:前記dst(I)の(x’、y’、z’)のうちx’、G:前記dst(I)の(x’、y’、z’)のうちy’、B:前記dst(I)の(x’、y’、z’)のうちz’、Y:ピクセル情報の変更後の元素値(x’’、y’’、z’’))
    前記数4及び5に基づいて前記第1空間イメージから前記第2空間イメージを生成する動作を含む、
    請求項1に記載のデータ増強基盤スタイル分析モデル学習装置。
  6. 前記第2空間イメージを生成する動作は、
    前記第1空間イメージに含まれたピクセル情報の一部にノイズ情報を追加して前記第2空間イメージを生成する動作を含む、
    請求項1に記載のデータ増強基盤スタイル分析モデル学習装置。
  7. 前記第2空間イメージを生成する動作は、
    [数6]
    Figure 2023508640000052

    (src(I):ピクセル情報の変更前の元素値(x、y、z)、
    Figure 2023508640000053
    :乱数、dst(I):ピクセル情報の変更後の元素値(x’、y’、z’))
    前記数6に基づいて前記第1空間イメージのピクセル情報にノイズ情報を付加して前記第2空間イメージを生成する動作を含む、
    請求項6に記載のデータ増強基盤スタイル分析モデル学習装置。
  8. 前記第2空間イメージを生成する動作は、
    前記第1空間イメージが含むピクセルのうち第1ピクセルを真ん中に含むN×N(Nは、3以上の自然数)行列大きさに含まれた複数のピクセルのR、G、Bそれぞれの元素値のうち最大元素値である
    Figure 2023508640000054
    から前記複数のピクセルのR、G、Bそれぞれの元素平均値である
    Figure 2023508640000055
    を引いた値である
    Figure 2023508640000056
    を求め、前記
    Figure 2023508640000057
    の元素値のいずれか一つが既設定された値より小さい場合、前記第1ピクセルをブラー処理をする演算を遂行して前記第2空間イメージを生成する動作を含む、
    請求項1に記載のデータ増強基盤スタイル分析モデル学習装置。
  9. 前記第2空間イメージを生成する動作は、
    前記第1空間イメージが含む全てのピクセルの個数だけ、平均0及び標準偏差100の標準ガウス正規分布に従う乱数情報を生成し、前記全てのピクセルのそれぞれに前記乱数情報それぞれを合算してノイズが挿入された前記第2空間イメージを生成する動作を含む、
    請求項1に記載のデータ増強基盤スタイル分析モデル学習装置。
  10. 前記モデルを生成する動作は、
    ResNet(Deep Residual Learning for Image Recognition)アルゴリズムに基づいて設計された神経網の入力レイヤに前記学習データに含まれた空間イメージが入力されるように設定し、出力レイヤに前記空間イメージそれぞれにラベリングされたクラスが入力されるように設定して、前記学習データに含まれた空間イメージと前記空間イメージそれぞれにラベリングされたクラスとの相関関係を導出する神経網の重み付けを学習させる動作を含む、
    請求項1に記載のデータ増強基盤スタイル分析モデル学習装置。
  11. 前記ResNetアルゴリズムに基づいて設計された神経網のハイパーパラメータのうちネットワーク階層数は、[18、34、50、101、152、200]のうち一つの値を有し、クラス個数は、モダン/ロマンチック/クラシック/ナチュラル/カジュアル/北ヨーロッパ/ビンテージに分類される7つのクラスを含み、ミニバッチサイズは、[32、64、128、256]のうち一つの値を有し、学習回数は、10~15、または30の値のうち一つを有し、学習率は、0.005または0.01に設定され、損失関数は、SGDまたはAdamに設定される、
    請求項10に記載のデータ増強基盤スタイル分析モデル学習装置。
  12. 請求項1乃至11のいずれか一項に記載の装置が生成したデータ増強基盤スタイル分析モデルを含むデータ増強基盤スタイル分析モデル学習装置。
  13. データ増強基盤スタイル分析モデル学習装置が遂行する方法において、
    複数の空間イメージを獲得して前記複数の空間イメージそれぞれに該当するスタイル情報を特定するクラスをラベリングするか、前記クラスがラベリングされた複数の空間イメージを獲得して学習データを生成するステップ;
    前記複数の空間イメージのうち第1空間イメージが含むピクセル情報を所定の範囲内で変更した第2空間イメージを生成して前記学習データを増強するステップ;
    前記第1空間イメージにラベリングされたクラスを前記第2空間イメージにラベリングするステップ;及び
    所定のイメージ分類アルゴリズム基盤に設計されたモデルに前記増強された学習データを入力して、前記学習データに含まれた空間イメージと前記空間イメージそれぞれにラベリングされたクラスとの相関関係を導出する前記モデルの重み付けを学習させることで、前記相関関係に基づいて空間イメージのスタイルに対するクラスを判別するモデルを生成するステップを含む、
    データ増強基盤スタイル分析モデル学習方法。
  14. 請求項13に記載の方法をプロセッサが遂行するようにするコンピュータ読み取り可能書き込み媒体に格納されたコンピュータプログラム。
JP2022531444A 2020-07-23 2020-11-24 データ増強基盤スタイル分析モデル学習装置及び方法 Active JP7325637B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020200091766A KR102208690B1 (ko) 2020-07-23 2020-07-23 데이터 증강 기반 스타일 분석 모델 학습 장치 및 방법
KR10-2020-0091766 2020-07-23
PCT/KR2020/016742 WO2022019391A1 (ko) 2020-07-23 2020-11-24 데이터 증강 기반 스타일 분석 모델 학습 장치 및 방법

Publications (2)

Publication Number Publication Date
JP2023508640A true JP2023508640A (ja) 2023-03-03
JP7325637B2 JP7325637B2 (ja) 2023-08-14

Family

ID=74239301

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022531444A Active JP7325637B2 (ja) 2020-07-23 2020-11-24 データ増強基盤スタイル分析モデル学習装置及び方法

Country Status (6)

Country Link
US (1) US20220366675A1 (ja)
EP (1) EP4040348A4 (ja)
JP (1) JP7325637B2 (ja)
KR (2) KR102208690B1 (ja)
CN (1) CN114830144A (ja)
WO (1) WO2022019391A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116593408B (zh) * 2023-07-19 2023-10-17 四川亿欣新材料有限公司 一种重质碳酸钙粉体色度检测方法
CN117095257A (zh) * 2023-10-16 2023-11-21 珠高智能科技(深圳)有限公司 多模态大模型微调方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170300783A1 (en) * 2016-04-13 2017-10-19 Xerox Corporation Target domain characterization for data augmentation
CN108520278A (zh) * 2018-04-10 2018-09-11 陕西师范大学 一种基于随机森林的路面裂缝检测方法及其评价方法
JP2018169672A (ja) * 2017-03-29 2018-11-01 三菱電機インフォメーションシステムズ株式会社 教師画像を生成する方法、コンピュータおよびプログラム
US10489683B1 (en) * 2018-12-17 2019-11-26 Bodygram, Inc. Methods and systems for automatic generation of massive training data sets from 3D models for training deep learning networks
CN110516703A (zh) * 2019-07-18 2019-11-29 平安科技(深圳)有限公司 基于人工智能的车辆识别方法、装置及存储介质
KR20200078214A (ko) * 2018-12-21 2020-07-01 삼성전자주식회사 스타일 변환을 위한 영상 처리 장치 및 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3347817B2 (ja) * 1993-06-22 2002-11-20 株式会社ビュープラス 画像認識装置
KR20100102772A (ko) 2009-03-12 2010-09-27 주식회사 퍼시스 실내환경 분석 시스템 및 그 방법
KR101880035B1 (ko) * 2015-09-24 2018-07-19 주식회사 뷰노 영상 생성 방법 및 장치, 및 영상 분석 방법
KR102645202B1 (ko) * 2017-01-03 2024-03-07 한국전자통신연구원 기계 학습 방법 및 장치

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170300783A1 (en) * 2016-04-13 2017-10-19 Xerox Corporation Target domain characterization for data augmentation
JP2018169672A (ja) * 2017-03-29 2018-11-01 三菱電機インフォメーションシステムズ株式会社 教師画像を生成する方法、コンピュータおよびプログラム
CN108520278A (zh) * 2018-04-10 2018-09-11 陕西师范大学 一种基于随机森林的路面裂缝检测方法及其评价方法
US10489683B1 (en) * 2018-12-17 2019-11-26 Bodygram, Inc. Methods and systems for automatic generation of massive training data sets from 3D models for training deep learning networks
KR20200078214A (ko) * 2018-12-21 2020-07-01 삼성전자주식회사 스타일 변환을 위한 영상 처리 장치 및 방법
CN110516703A (zh) * 2019-07-18 2019-11-29 平安科技(深圳)有限公司 基于人工智能的车辆识别方法、装置及存储介质

Also Published As

Publication number Publication date
CN114830144A (zh) 2022-07-29
WO2022019391A1 (ko) 2022-01-27
EP4040348A1 (en) 2022-08-10
US20220366675A1 (en) 2022-11-17
JP7325637B2 (ja) 2023-08-14
KR102208690B9 (ko) 2022-03-11
KR102430740B1 (ko) 2022-08-11
EP4040348A4 (en) 2023-11-22
KR20220012786A (ko) 2022-02-04
KR102208690B1 (ko) 2021-01-28

Similar Documents

Publication Publication Date Title
KR102485503B1 (ko) 이미지 데이터베이스 분석 기반 상품 추천 장치 및 방법
US11854070B2 (en) Generating virtual makeup products
US11854072B2 (en) Applying virtual makeup products
US20220366675A1 (en) Apparatus and method for developing style analysis model based on data augmentation
Phan et al. Color orchestra: Ordering color palettes for interpolation and prediction
JP7499362B2 (ja) パーソナライズされた正確な仮想メイクアップトライオンのためのシステム及び方法
KR20210090456A (ko) 멀티 포즈를 지원하는 이미지 기반 자세보존 가상피팅 시스템
JP7336033B2 (ja) データ増強基盤事物分析モデル学習装置及び方法
CN112218006B (zh) 一种多媒体数据处理方法、装置、电子设备及存储介质
Lee et al. Emotion-inspired painterly rendering
US20220358752A1 (en) Apparatus and method for developing space analysis model based on data augmentation
Shakeri et al. Saliency-based artistic abstraction with deep learning and regression trees
Delanoy et al. Perception of material appearance: A comparison between painted and rendered images
CN115018729A (zh) 一种面向内容的白盒图像增强方法
KR20050046877A (ko) 이미지 조절 시스템 및 방법
Ma et al. Computer-Aided Brand Logo Design Based on Generative Adversarial Networks
بابا AI-Generated Imagery: A New Frontier for Nubian Artistic Expression
CN116805373A (zh) 彩色底色检测
Yuan Application of multi-source data fusion of modern dress design with the artistic elements of Chinese embroidery
Rakshitha et al. Anime Visage: Revealing Ingenuity with GAN-Assisted Character Development
Sun Colour Matching Algorithm in Artificial Intelligence-based Chinese Painting Teaching

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230619

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230801

R150 Certificate of patent or registration of utility model

Ref document number: 7325637

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150