JP7161572B2 - ディープラーニング基盤の仮想イメージ生成方法及びシステム - Google Patents

ディープラーニング基盤の仮想イメージ生成方法及びシステム Download PDF

Info

Publication number
JP7161572B2
JP7161572B2 JP2021073577A JP2021073577A JP7161572B2 JP 7161572 B2 JP7161572 B2 JP 7161572B2 JP 2021073577 A JP2021073577 A JP 2021073577A JP 2021073577 A JP2021073577 A JP 2021073577A JP 7161572 B2 JP7161572 B2 JP 7161572B2
Authority
JP
Japan
Prior art keywords
image
product
pose
deep learning
virtual image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021073577A
Other languages
English (en)
Other versions
JP2021174553A (ja
Inventor
ミョンフン チョ
Original Assignee
エヌエイチエヌ クラウド コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エヌエイチエヌ クラウド コーポレーション filed Critical エヌエイチエヌ クラウド コーポレーション
Publication of JP2021174553A publication Critical patent/JP2021174553A/ja
Application granted granted Critical
Publication of JP7161572B2 publication Critical patent/JP7161572B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0641Shopping interfaces
    • G06Q30/0643Graphical representation of items or shoppers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition

Description

本発明は、ディープラーニング基盤の仮想イメージ生成方法に関する。より詳細には、1つの製品に対する複数の製品イメージを分類するときに求められる必要製品イメージをディープラーニングに基づいて生成し、提供する方法に関する。
周知のように、インターネット回線速度の増加とマルチメディア技術の発展に伴い、インターネット網を介したマルチメディアウェブ情報の流通が活発になされており、インターネットを介した財貨の流通のための保安技術が発展するにつれて、オフライン上で主に販売されていた商品や各種サービス取引がオンラインのインターネットショッピングモールを介してなされている傾向にある。
すなわち、上記のような通信技術の発展に伴い、ユーザは、個人の端末を介してショッピングモールサーバで提供する商品情報を確認し、ショッピングすることが可能となった。
このとき、ユーザは、合理的なショッピングのために、ショッピングモールサーバで提供する製品に対する複数の製品イメージを検索し、確認するようになる。
しかしながら、オンラインショッピングモール上に存在する様々なイメージ(例えば、製品着用イメージ、製品材質及び/又は色相イメージなど)は、別の区分なしに1つの製品を表すページ上にランダムに並べられている場合がほとんどであり、このため、製品を効果的に認知するのに不便さがあるなどの問題がある。
また、ショッピングモールで提供される製品をより効果的にディスプレイするために、様々な形態(例えば、衣類製品を着用した状態での様々なポーズなど)で当該製品を表すイメージを提供する必要があるが、既存の製品イメージの他に、追加的に必要なイメージが発生する場合、必要な製品イメージを作るために、別の撮影や作業を行わなければならないなどの困難があり、このための技術開発が求められている。
一方、人間の脳を摸倣するニューラルネットワーク(neural network)が考案されて、コンピュータが自ら外部データを組み合わせ、分析して学習するディープラーニング(deep learning)技術が発展するにつれて、AI(Artificial Intelligence、人工知能)が画期的に跳躍した。
そして、コンピュータが人間に代えて膨大な量のデータを分析し、事物やデータを群集化したり、分類することができる。
また、上記のようなニューラルネットワークがイメージに融合されたイメージディープラーニング(Image Deep-learning)技術が共に発展するにつれて、イメージセグメンテーション(Segmentation)、イメージインペインティング(Inpainting)、及びイメージ合成(composite)などを活用した各種技術開発に対する関心が高まっている。
ここで、イメージセグメンテーションとは、全体イメージからオブジェクト領域を分離する技術であって、全体イメージで事物の領域をピクセル単位に分類する技術をいう。
また、イメージインペインティングは、全体イメージからオブジェクトを除いた部分(すなわち、イメージ内で消された領域)に対するイメージ復元を行う技術である。
さらに、イメージ合成技術は、複数のイメージを合成して新しいイメージを実現する技術を意味する。
韓国公開特許第10-2016-0046471号公報
本発明は、上述した問題点を解決するために案出されたものであって、オンラインショッピングモールで提供する1つの製品に対する複数の製品イメージをユーザビリティを考慮して分類し、ここで求められる必要製品イメージをディープラーニングに基づいて生成するディープラーニング基盤の仮想イメージ生成方法を提供することを目的とする。
ただし、本発明及び本発明の実施形態が解決しようとする技術的課題は、上記したような技術的課題に限定されず、さらに他の技術的課題が存在しうる。
本発明の実施形態に係るディープラーニング基盤の仮想イメージ生成方法及びシステムは、コンピューティングデバイスのプロセッサにより実行されるイメージアプリケーションがディープラーニングに基づいて仮想イメージを生成する方法であって、1つの製品に対する複数の製品イメージを取得するステップと、前記取得された製品イメージを互いに異なるポーズ(pose)形態を基準に区分された複数のカテゴリーに分類するステップと、前記複数のカテゴリーのうち、前記仮想イメージを生成するターゲットカテゴリーを決定するステップと、前記複数の製品イメージのうち、少なくとも1つの製品イメージを基に前記決定されたターゲットカテゴリーにマッチングされた第1ポーズ形態の仮想イメージを生成するステップと、前記生成された仮想イメージを出力するステップとを含む。
このとき、前記ターゲットカテゴリーを決定するステップは、前記製品イメージが分類されなかった空のカテゴリーを検出するステップと、前記検出された空のカテゴリーを前記ターゲットカテゴリーとして決定するステップとを含む。
また、前記仮想イメージは、少なくとも前記1つの製品イメージと前記第1ポーズ形態に関する情報を予め学習されたディープラーニングニューラルネットワークに入力して、前記第1ポーズ形態を有するように生成された前記製品に対するイメージである。
また、前記第1ポーズ形態の仮想イメージを生成するステップは、前記複数の製品イメージのうち、少なくとも1つをベースイメージとして決定するステップを含む。
また、前記ベースイメージを決定するステップは、予め設定されたカテゴリー別の優先順位にしたがって最優先順位のカテゴリーの製品イメージを前記ベースイメージとして決定するステップを含む。
また、前記第1ポーズ形態の仮想イメージを生成するステップは、前記ベースイメージと前記第1ポーズ形態情報を予め学習されたディープラーニングニューラルネットワークに入力して、前記第1ポーズ形態のポーズセマンティックレベルマップ(Semantic Label Map)を生成するステップをさらに含む。
また、前記第1ポーズ形態の仮想イメージを生成するステップは、前記ベースイメージのセマンティックレベルマップであるベースセマンティックレベルマップ(Base Semantic Label Map)を生成するステップをさらに含む。
また、前記第1ポーズ形態の仮想イメージを生成するステップは、前記ポーズセマンティックレベルマップ及び前記ベースイメージを予め学習されたディープラーニングニューラルネットワークに入力して、出力として前記仮想イメージを生成するステップをさらに含む。
また、前記第1ポーズ形態の仮想イメージを生成するステップは、前記ベースイメージ及びベースセマンティックレベルマップと対応するように、前記第1ポーズ形態情報及びポーズセマンティックレベルマップをディープラーニングニューラルネットワークに入力して、出力として前記第1ポーズ形態を有する前記仮想イメージを生成するステップを含む。
また、本発明の実施形態に係るディープラーニング基盤の仮想イメージ生成方法及びシステムは、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサにより実行されるメモリ格納命令を格納するメモリとを備え、前記メモリ格納命令は、1つの製品に対する複数の製品イメージを取得し、前記取得された製品イメージを互いに異なるポーズ(pose)形態を基準に区分された複数のカテゴリーに分類し、前記複数のカテゴリーのうち、仮想イメージを生成するターゲットカテゴリーを決定し、前記複数の製品イメージのうち、少なくとも1つの製品イメージを基に前記決定されたターゲットカテゴリーにマッチングされた第1ポーズ形態の仮想イメージを生成し、前記生成された仮想イメージを出力する命令語を含む。
本発明の実施形態に係るディープラーニング基盤のイメージ生成方法は、1つの製品に対して存在する製品イメージの他に、新しく求められる必要製品イメージがあれば、当該必要製品イメージをディープラーニングに基づいて生成することにより、製品を効果的に表示するために補充されなければならない必要製品イメージを、別の撮影や作業がなくとも迅速かつ便利に提供することができるという効果がある。
また、本発明の実施形態に係るディープラーニング基盤のイメージ生成方法は、必要製品イメージをディープラーニングに基づいて提供することにより、ショッピングモール上の製品をより正確に把握できるように、様々な観点で実現される製品イメージを容易に提供でき、これにより、ショッピングモールサービスの全般的なクオリティを向上させると同時に、ユーザビリティを増進させることができるという効果がある。
また、本発明の実施形態に係るディープラーニング基盤のイメージ生成方法は、オンラインショッピングモールで提供する1つの製品に対する複数の製品イメージをユーザビリティを考慮して自動的に分類することにより、ショッピングモールで製品イメージをランダムに並べる場合に発生する可能性がある不便さを最小化でき、製品ページの構築に消費される費用を低減でき、ショッピングモール使用性の向上及びこれによる売上げ増大の効果を実現できる。
ただし、本発明において得ることができる効果は、以上で言及した効果に制限されず、言及していないさらに他の効果は、下記の記載から明確に理解され得るであろう。
本発明の実施形態に係るディープラーニング基盤のイメージ生成システムの概念図である。 本発明の実施形態に係るモバイルタイプのコンピューティングデバイスの内部ブロック図である。 本発明の実施形態に係るデスクトップタイプのコンピューティングデバイスの内部ブロック図である。 本発明の実施形態に係るディープラーニング基盤の仮想イメージ生成方法を説明するためのフローチャートである。 本発明の実施形態に係るイメージディープラーニングのセグメンテーション(Segmentation)技術を説明するための図である。 本発明の実施形態に係るイメージディープラーニングのインペインティング(Inpainting)技術を説明するための図である。 本発明の実施形態に係る仮想イメージを生成する方法を説明するためのフローチャートである。 本発明の実施形態に係る仮想イメージを生成する方法を説明するための概念図である。 本発明の実施形態に係る仮想イメージを生成する方法を説明するための概念図である。 本発明の実施形態に係るカテゴリー別の製品イメージ情報を表す形状の一例である。 本発明の実施形態に係るセマンティックレベルマップ生成器に基づいて生成されるセマンティックレベルマップを説明するための図である。
図1は、本発明の実施形態に係るディープラーニング基盤のイメージ生成システムの概念図である。
図1に示すように、本発明の実施形態に係るディープラーニング基盤のイメージ生成システムは、コンピューティングデバイス100、イメージ管理サーバ400、ショッピングモールサーバ500、及びネットワーク600を備えることができる。
実施形態において、コンピューティングデバイス100、イメージ管理サーバ400、ショッピングモールサーバ500、及びネットワーク600は、相互に連動してオンラインショッピングモールで提供する1つの製品に対する複数の製品イメージをユーザビリティを考慮して分類することができ、ここで求められる必要製品イメージをディープラーニングに基づいて生成できるイメージアプリケーションを実現できる。
また、実施形態においてコンピューティングデバイス100、イメージ管理サーバ400、ショッピングモールサーバ500、及びネットワーク600は、前記イメージアプリケーションを介して生成された結果物をオン/オフラインにてユーザに提供することができる。
具体的には、本発明の実施形態において、イメージアプリケーションは、オンラインショッピングモールに接続して複数の製品イメージを取得できる。
ここで、実施形態に係る製品イメージとは、オンラインショッピングモールサービスで提供される製品を表示するために、当該製品を含んで撮影したイメージであることができる。
また、イメージアプリケーションは、取得された製品イメージを複数のカテゴリー(category)ごとに分類することができる。
このとき、実施形態において、カテゴリーとは、製品イメージ内の製品と関連したポーズ形態及び/又は製品情報に基づいて前記製品イメージが分類されるカテゴリーであることができる。詳細な説明は、後述する。
また、実施形態において、イメージアプリケーションは、複数のカテゴリーのうち、追加的な製品イメージが必要であると判断されるカテゴリーであるターゲットカテゴリー(target category)を検出することができる。
また、ターゲットカテゴリーが検出される場合、イメージアプリケーションは、オンラインショッピングモールに接続して取得した製品イメージに基づいて、ターゲットカテゴリーにマッチングされるポーズ形態を有する仮想イメージを生成できる。
ここで、実施形態に係る仮想イメージとは、既存に存在する製品イメージに基づいてディープラーニングイメージ処理を行い、新しいポーズ形態を有するように生成された製品イメージであることができる。
本発明の実施形態に係る仮想イメージを生成する方法についての詳細な説明は、以下において記述されるディープラーニング基盤の仮想イメージ生成方法で後述する。
また、仮想イメージを生成したイメージアプリケーションは、生成された仮想イメージをマッチングされるカテゴリーに分類することができる。
また、実施形態において、イメージアプリケーションは、生成された仮想イメージを含んで分類された製品イメージを再構成して、カテゴリー別の製品イメージ情報を提供することができる。
ここで、カテゴリー別の製品イメージ情報とは、オンラインショッピングモール上でランダムに並べられた様々な製品イメージをユーザビリティに合うように分類し、再構成して表す情報であることができる。
このとき、実施形態に係るイメージアプリケーションは、前記カテゴリー別の製品イメージ情報をオンラインまたはオフラインを介してユーザに提供することができる。
一方、図1のコンピューティングデバイス100、イメージ管理サーバ400、及びショッピングモールサーバ500は、ネットワーク600を介して接続されることができる。
ここで、ネットワーク600は、コンピューティングデバイス100、イメージ管理サーバ400、及びショッピングモールサーバ500などのようなそれぞれのノード相互間に情報交換が可能な接続構造を意味するものであって、このようなネットワーク600の一例には、3GPP(登録商標)(3rd Generation Partnership Project)ネットワーク、LTE(登録商標)(Long Term Evolution)ネットワーク、WiMAX(登録商標)(World Interoperability for Microwave Access)ネットワーク、インターネット(Internet)、LAN(Local Area Network)、Wireless LAN(Wireless Local Area Network)、WAN(Wide Area Network)、PAN(Personal Area Network)、ブルートゥース(登録商標)(Bluetooth)ネットワーク、衛星放送ネットワーク、アナログ放送ネットワーク、DMB(Digital Multimedia Broadcasting)ネットワークなどが含まれるが、これに限定されるものではない。
[コンピューティングデバイス]
本発明の実施形態においてコンピューティングデバイス100は、オンラインショッピングモールサービスを利用するための環境を提供し、このようなオンラインショッピングモールサービス環境内で1つの製品に対する複数の製品イメージを分類し、ここで求められる必要製品イメージをディープラーニングに基づいて生成できるイメージアプリケーションを実行できる。
また、実施形態に係るコンピューティングデバイス100は、生成されたカテゴリー別の製品イメージ情報を表示することができ、表示されたカテゴリー別の製品イメージ情報を活用できるインターフェースを提供することもできる。
実施形態において、このようなコンピューティングデバイス100は、イメージアプリケーションがインストールされた様々なタイプ(例えば、モバイルタイプまたはデスクトップタイプ)のコンピューティングデバイス100を含むことができる。
[1.モバイルタイプのコンピューティングデバイス]
本発明の実施形態において、モバイルタイプのコンピューティングデバイス200は、イメージアプリケーションがインストールされたスマートフォンやタブレットPCのようなモバイル装置であることができる。
例えば、モバイルタイプのコンピューティングデバイス200は、スマートフォン(smart phone)、携帯電話、デジタル放送用端末機、PDA(personal digital assistants)、PMP(portable multimedia player)、タブレットPC(tablet PC)などが含まれ得る。
図2は、本発明の実施形態に係るモバイルタイプのコンピューティングデバイス200の内部ブロック図である。
図2に示すように、例示的な実現によるモバイルタイプのコンピューティングデバイス200は、メモリ210、プロセッサアセンブリ220、通信モジュール230、インターフェースモジュール240、入力システム250、センサシステム260、及びディスプレイシステム270を備えることができる。このような構成要素等は、モバイルタイプのコンピューティングデバイス200のハウジング内に含まれるように構成されることができる。
具体的には、メモリ210には、イメージアプリケーション211が格納され、イメージアプリケーション211には、ディープラーニング基盤のイメージ生成サービスを実現できる環境を提供するための各種応用プログラム、データ、及び命令語のうち、いずれか1つ以上を格納することができる。
例えば、メモリ210は、製品イメージ情報、製品情報、カテゴリー情報、仮想イメージ情報、ポーズ形態情報、及び/又はカテゴリー別の製品イメージ情報などが含まれ得る。
すなわち、メモリ210は、ディープラーニング基盤のイメージ生成サービス環境を生成するために使用され得る命令及びデータを格納することができる。
また、メモリ210は、少なくとも1つ以上の非一時的コンピュータ読み取り可能記憶媒体と、一時的コンピュータ読み取り可能記憶媒体とを含むことができる。例えば、メモリ210は、ROM、EPROM、フラッシュドライブ、ハードドライブなどのような様々な格納機器であることができ、インターネット(internet)上で前記メモリ210の格納機能を果たすウェブストレージ(web storage)を含むことができる。
プロセッサアセンブリ220は、ディープラーニング基盤のイメージ生成サービス環境を実現するための様々な作業を行うために、メモリ210に格納されたイメージアプリケーション211の命令を実行できる少なくとも1つ以上のプロセッサを備えることができる。
実施形態において、プロセッサアセンブリ220は、ディープラーニング基盤のイメージ生成サービスを提供するために、メモリ210のイメージアプリケーション211を介して構成要素の全般的な動作をコントロールすることができる。
このようなプロセッサアセンブリ220は、中央処理装置CPU及び/又はグラフィックプロセッサ装置GPUを含むことができる。また、プロセッサアセンブリ220は、ASICs(application specific integrated circuits)、DSPs(digital signal processors)、DSPDs(digital signal processing devices)、PLDs(programmable logic devices)、FPGAs(field programmable gate arrays)、コントローラ(controllers)、マイクロコントローラ(micro-controllers)、マイクロプロセッサ(microprocessors)、その他の機能を実行するための電気的ユニットのうち、少なくとも1つを備えて実現されることができる。
通信モジュール230は、他のコンピューティング装置(例えば、イメージ管理サーバ400)と通信するための1つ以上の装置を含むことができる。このような通信モジュール230は、無線ネットワークを介して通信することができる。
具体的には、通信モジュール230は、ディープラーニング基盤のイメージ生成サービス環境を実現するためのコンテンツソースを格納したコンピューティング装置と通信することができ、ユーザ入力を受けたコントローラのような様々なユーザ入力コンポーネントと通信することができる。
実施形態において、通信モジュール230は、ディープラーニング基盤のイメージ生成サービスと関連した各種データをイメージ管理サーバ400、ショッピングモールサーバ500、及び/又は他のコンピューティングデバイス100と送受信することができる。
このような通信モジュール230は、移動通信のための技術標準または通信方式(例えば、LTE(登録商標)(Long Term Evolution)、LTE-A(Long Term Evolution-Advanced)、5G NR(New Radio)、Wi-Fi(登録商標))、または近距離通信方式などを行うことができる通信装置を介して構築された移動通信網上で基地局、外部の端末、任意のサーバのうち、少なくとも1つと無線でデータを送受信することができる。
センサシステム260は、イメージセンサ261、位置センサ(IMU、263)、オーディオセンサ、距離センサ、近接センサ、接触センサなど、様々なセンサを備えることができる。
イメージセンサ261は、モバイルタイプのコンピューティングデバイス200周りの物理的空間に対するイメージ及び/又は画像をキャプチャすることができる。
実施形態において、イメージセンサ261は、ディープラーニング基盤のイメージ生成サービスに関連した画像(例えば、QRコード(登録商標)等)を撮影して取得することができる。
また、イメージセンサ261は、モバイルタイプのコンピューティングデバイス200の前面又は/及び後面に配置されて、配置された方向側を撮影して画像を取得でき、モバイルタイプのコンピューティングデバイス200の外部に向かって配置されたカメラを介して物理的空間を撮影することができる。
このようなイメージセンサ261は、イメージセンサ装置と画像処理モジュールを含むことができる。具体的に、イメージセンサ261は、イメージセンサ装置(例えば、CMOSまたはCCD)により得られる静止画または動画を処理することができる。
また、イメージセンサ261は、画像処理モジュールを用いて、イメージセンサ装置を介して取得された静止画または動画を加工して必要な情報を抽出し、抽出された情報をプロセッサに伝達することができる。
このようなイメージセンサ261は、少なくとも1つ以上のカメラを含むカメラアセンブリであることができる。カメラアセンブリは、可視光線帯域を撮影する一般カメラを含むことができ、赤外線カメラ、ステレオカメラなどの特殊カメラをさらに含むことができる。
IMU(263)は、モバイルタイプのコンピューティングデバイス200の動き及び加速度のうち、少なくとも1つ以上を感知できる。例えば、加速度計、ジャイロスコープ、磁力計のような様々な位置センサの組み合わせからなることができる。また、通信モジュール230のGPSのような位置通信モジュール230と連動して、モバイルタイプのコンピューティングデバイス200周りの物理的空間に対する空間情報を認識することができる。
また、IMU(263)は、検出された位置及び方向を基にユーザの視線方向及び頭の動きを検出及び追跡する情報を検出することができる。
また、一部の実現等において、イメージアプリケーション211は、このようなIMU(263)及びイメージセンサ261を使用して物理的空間内のユーザの位置及び方向を決定するか、物理的空間内の特徴またはオブジェクトを認識することができる。
オーディオセンサ265は、モバイルタイプのコンピューティングデバイス200周りの音を認識できる。
具体的には、オーディオセンサ265は、モバイルタイプのコンピューティングデバイス200ユーザの音声入力を感知できるマイクロホンを備えることができる。
実施形態において、オーディオセンサ265は、ディープラーニング基盤のイメージ生成サービスのために必要な音声データをユーザから受信することができる。
インターフェースモジュール240は、モバイルタイプのコンピューティングデバイス200を1つ以上の他の装置と通信可能に接続することができる。具体的には、インターフェースモジュール240は、1つ以上の相違した通信プロトコルと互換される有線及び/又は無線通信装置を含むことができる。
このようなインターフェースモジュール240を介してモバイルタイプのコンピューティングデバイス200は、種々の入出力装置等と接続されることができる。
例えば、インターフェースモジュール240は、ヘッドセットポートやスピーカのようなオーディオ出力装置と接続されて、音声を出力することができる。
例示的に、オーディオ出力装置がインターフェースモジュール240を介して接続されることと説明したが、モバイルタイプのコンピューティングデバイス200内部に設けられる実施形態も含まれることができる。
このようなインターフェースモジュール240は、有線/無線ヘッドセットポート(port)、外部充電器ポート(port)、有線/無線データポート(port)、メモリカード(memory card)ポート、識別モジュールが備えられた装置を接続するポート(port)、オーディオI/O(Input/Output)ポート(port)、ビデオI/O(Input/Output)ポート(port)、イヤホンポート(port)、電力増幅器、RF回路、送受信機、及びその他の通信回路のうち、少なくとも1つを含んで構成されることができる。
入力システム250は、ディープラーニング基盤のイメージ生成サービスと関連したユーザの入力(例えば、ジェスチャ、音声命令、ボタンの作動、または他の類型の入力)を感知することができる。
具体的には、入力システム250は、ボタン、タッチセンサ、及びユーザモーション入力を受信するイメージセンサ261を備えることができる。
また、入力システム250は、インターフェースモジュール240を介して外部コントローラと接続されて、ユーザの入力を受信することができる。
ディスプレイシステム270は、ディープラーニング基盤のイメージ生成サービスと関連した様々な情報をグラフィックイメージとして出力することができる。
このようなディスプレイは、液晶ディスプレイ(liquid crystal display、LCD)、薄膜トランジスタ液晶ディスプレイ(thin film transistor-liquid crystal display、TFT LCD)、有機発光ダイオード(organic light-emittingdiode、OLED)、フレキシブルディスプレイ(flexible display)、3次元ディスプレイ(3D display)、電子インキディスプレイ(e-ink display)のうち、少なくとも1つを含むことができる。
このようなモバイルタイプのコンピューティングデバイス200のハウジング内には、前記構成要素等が配置され得るし、ユーザインターフェースは、ユーザタッチ入力を受信するように構成されたディスプレイ271上にタッチセンサ273を備えることができる。
具体的には、ディスプレイシステム270は、イメージを出力するディスプレイ271と、ユーザのタッチ入力を感知するタッチセンサ273とを備えることができる。
例示的に、ディスプレイ271は、タッチセンサ273と相互レイヤ構造をなしたり、一体型で形成されることにより、タッチスクリーンとして実現されることができる。このようなタッチスクリーンは、モバイルタイプのコンピューティングデバイス200とユーザとの間の入力インターフェースを提供するユーザ入力部として機能すると同時に、モバイルタイプのコンピューティングデバイス200とユーザとの間の出力インターフェースを提供することができる。
[2.デスクトップタイプのコンピューティングデバイス]
図3は、本発明の実施形態に係るデスクトップタイプのコンピューティングデバイス300の内部ブロック図である。
デスクトップタイプのコンピューティングデバイス300の前記構成要素についての説明のうち、重複する内容は、モバイルタイプのコンピューティングデバイス200の構成要素についての説明に代えることにし、以下では、モバイルタイプのコンピューティングデバイス200との相違点を中心に説明する。
図3に示すように、他の例示においてデスクトップタイプのコンピューティングデバイス300は、イメージアプリケーション311が設けられた固定型デスクトップPC、ノートブックコンピュータ(laptop computer)、ウルトラブック(登録商標)(ultrabook)のようなパーソナルコンピュータなどのように、有線/無線通信に基づいてディープラーニング基盤のイメージ生成サービスを実行するためのプログラムが設けられた装置をさらに含むことができる。
また、デスクトップタイプのコンピューティングデバイス300は、ユーザインターフェースシステム350を含んで、ユーザ入力(例えば、タッチ入力、マウス入力、キーボード入力、ジェスチャ入力、ガイド道具を利用したモーション入力等)を受信することができる。
例示的に、デスクトップタイプのコンピューティングデバイス300は、ユーザインターフェースシステム350を様々な通信プロトコルでマウス351、キーボード352、ジェスチャ入力コントローラ、イメージセンサ361(例えば、カメラ)、及びオーディオセンサ365など、少なくとも1つの装置と接続して、ユーザ入力を取得できる。
また、デスクトップタイプのコンピューティングデバイス300は、ユーザインターフェースシステム350を介して外部出力装置と接続されることができ、例えば、ディスプレイ装置370、オーディオ出力装置などに接続されることができる。
また、例示的な実現によるデスクトップタイプのコンピューティングデバイス300は、メモリ310、プロセッサアセンブリ320、通信モジュール330、ユーザインターフェースシステム350、及び入力システム340を備えることができる。このような構成要素等は、コンピューティングデバイス300のハウジング内に含まれるように構成されることができる。
デスクトップタイプのコンピューティングデバイス300の上記構成要素についての説明は、モバイルタイプのコンピューティングデバイス200の構成要素についての説明に代えることにする。
ただし、本発明の実施形態において図2及び3に示された構成要素等は、コンピューティングデバイス100を実現するのにおいて必須なものではなく、本明細書上で説明されるコンピューティングデバイス100は、上記で列挙された構成要素等より多いか、または少ない構成要素等を有することができる。
[イメージ管理サーバ]
一方、本発明の実施形態において、イメージ管理サーバ400は、ディープラーニング基盤のイメージ生成サービスを提供するための一連のプロセスを行うことができる。
具体的には、イメージ管理サーバ400は、オンラインショッピングモールで提供される製品に対する製品イメージに基づいてイメージディープラーニング(Image Deep-learning)を行うことができる。
また、イメージ管理サーバ400は、イメージディープラーニングに基づいて1つの製品に対する複数の製品イメージをカテゴリー別に自動分類することができる。
また、実施形態においてイメージ管理サーバ400は、イメージディープラーニングを基に1つの製品に対する複数の製品イメージを分類するときに求められる必要製品イメージを生成できる。
また、イメージ管理サーバ400は、ディープラーニング基盤のイメージ生成サービスを実現するための各種応用プログラム、データ、及び命令語のうち、いずれか1つ以上を格納することができる。
より具体的には、図1をさらに参照すれば、上記のようなイメージ管理サーバ400は、ディープラーニングサーバ410、イメージ自動分類サーバ420、イメージ生成サーバ430、及びデータベースサーバ440を備えることができる。このとき、実施形態によって前記各構成要素は、イメージ管理サーバ400とは別の装置として実現されることができ、イメージ管理サーバ400に含まれて実現されることもできる。以下、各構成要素がイメージ管理サーバ400に含まれて実現されることと説明するが、これに限定されるものではない。
具体的には、ディープラーニングサーバ410は、イメージディープラーニングニューラルネットワーク(Image Deep-learning Neural network)と連動することができる。
ここで、イメージディープラーニングニューラルネットワークは、畳み込みニューラルネットワーク(CNN、Convolution Neural network、例えば、U-ネット畳み込みニューラルネットワーク(U-net Convolution Neural network))及びMask R-CNNのうち、少なくとも1つのディープラーニングニューラルネットワークを含むことができる。
そして、イメージディープラーニングニューラルネットワークと連動したディープラーニングサーバ410は、イメージセグメンテーション(segmentation)、インペインティング(inpainting)、及び/又は合成(composite)等、イメージ処理技術を実現することができる。これについての詳細な説明は、後述する。
実施形態において、ディープラーニングサーバ410は、上記のようなイメージディープラーニングを介して製品イメージに基づいた製品情報、ポーズ形態、及び/又は仮想イメージなどを出力でき、出力された情報をコンピューティングデバイス及び/又は他のサーバ(実施形態として、イメージ自動分類サーバ420及び/又はイメージ生成サーバ430等)に提供することができる。
また、イメージ自動分類サーバ420は、ディープラーニングサーバ410と連動してオンラインショッピングモールの様々な製品イメージをユーザビリティに合うように自動分類することができる。
さらに、イメージ自動分類サーバ420は、前記自動分類した製品イメージをショッピングモール上で容易に区分して確認することができるように再構成した情報であるカテゴリー別の製品イメージ情報を生成することもできる。
また、イメージ生成サーバ430は、ディープラーニングサーバ410と連動して既存に存在する製品イメージに基づいたイメージディープラーニング処理を行うことができ、これにより、前記製品イメージとは異なる形態の新しいポーズを有する製品イメージである仮想イメージを生成することができる。
実施形態において、このようなイメージ生成サーバ430は、セマンティックレベルマップ(Semantic Label Map)生成器を含むことができる。
ここで、セマンティックレベルマップ生成器は、入力されたイメージ内の領域を被写体(モデル及び/又はマネキン)の身体部位及び製品を含む領域と、その他の領域とに区分するマップイメージ生成モジュールであることができる。
図11に示すように、実施形態においてセマンティックレベルマップ生成器は、入力されたイメージ内の領域を身体領域(例えば、顔領域(目領域、鼻領域、耳領域、及び/又は首領域を含む)、肩領域、肘領域、手首領域、ヒップ(hip)領域、膝領域、及び/又は足首領域等)及び製品領域を含む領域と、その他の領域を含む複数の領域とに区分するマップイメージを生成するモジュールであることができる。
また、イメージ生成サーバ430は、生成された仮想イメージをコンピューティングデバイス及び/又は他のサーバ(実施形態として、イメージ自動分類サーバ420)に提供し、前記仮想イメージにマッチングされるカテゴリーに分類させることができる。
また、データベースサーバ440は、ディープラーニング基盤のイメージ生成サービスを実現するための各種応用プログラム、アプリケーション、命令語、及び/又はデータなどを格納し、管理することができる。
実施形態において、データベースサーバ440は、製品イメージ情報、製品情報、カテゴリー情報、仮想イメージ情報、ポーズ形態情報、及び/又はカテゴリー別の製品イメージ情報などを格納及び管理することができる。
一方、上記のような構成要素等を含むイメージ管理サーバ400は、少なくとも1つ以上のディープラーニングサーバ410、イメージ自動分類サーバ420、イメージ生成サーバ430、及び/又はデータベースサーバ440で構成されることができ、データ処理のためのプロセッサと、ディープラーニング基盤のイメージ生成サービス提供のための命令語等を格納するメモリとを備えることができる。
また、本発明の実施形態では、イメージ管理サーバ400においてオンラインショッピングモールで提供される製品に対する製品イメージに基づいてイメージディープラーニング(Image Deep-learning)を行い、イメージディープラーニングに基づいて1つの製品に対する複数の製品イメージをカテゴリー別に自動分類し、イメージディープラーニングを基に1つの製品に対する複数の製品イメージを分類するときに求められる必要製品イメージを生成し、ディープラーニング基盤のイメージ生成サービスを実現するための各種応用プログラム、データ、及び命令語のうち、いずれか1つ以上を格納することができると説明したが、実施形態によって、イメージ管理サーバ400が行う機能動作の一部をコンピューティングデバイスで行うこともできるなど、様々な実施形態も可能であることは自明である。
[ショッピングモールサーバ]
また、本発明の実施形態においてショッピングモールサーバ500は、オンラインショッピングモールサービス(Online shopping-mall service)を提供するための一連のプロセスを行うことができる。
具体的には、実施形態において、ショッピングモールサーバ500は、ネットワーク600を介して製品を注文し、販売できる電子商取引オンラインショッピングモールサービスを実行するための環境をコンピューティングデバイス100に提供することができる。
また、ショッピングモールサーバ500は、ディープラーニング基盤のイメージ生成サービスに必要な各種データを送受信することができる。
実施形態として、ショッピングモールサーバ500は、オンラインショッピングモール上の複数の製品イメージをコンピューティングデバイス100及び/又はイメージ管理サーバ400に送信することができ、コンピューティングデバイス100及び/又はイメージ管理サーバ400から生成されるカテゴリー別の製品イメージ情報を受信することができる。
また、ショッピングモールサーバ500は、オンラインショッピングモールサービスと関連した機能動作に必要な応用プログラム、データ、及び命令語のうち、いずれか1つ以上を格納することができる。
実施形態として、ショッピングモールサーバ500は、オンラインショッピングモール上の製品イメージ及び/又は製品情報などを格納し、管理することができる。
より具体的には、上記のようなショッピングモールサーバ500は、ショッピングモールサービス提供サーバ、製品管理サーバ、及びデータ格納サーバを備えることができる。
ここで、ショッピングモールサービス提供サーバは、コンピューティングデバイスでオンラインショッピングモールサービスが動作できる環境を提供することができる。
すなわち、ショッピングモールサービス提供サーバは、コンピューティングデバイスでインターネット(Internet)などを利用して商品を売買できる仮想の商店であるオンラインショッピングモールを提供するオンラインショッピングモールサービスを実現できる環境を提供することができる。
実施形態において、このようなショッピングモールサービス提供サーバは、オンラインショッピングモールサービスと関連して提供されるサービスを実現できる各種応用プログラム、データ、及び/又は命令語などを含むことができる。
また、製品管理サーバは、オンラインショッピングモールサービスに基づいて提供される少なくとも1つ以上の製品に対する管理機能を実行することができる。
実施形態において、製品管理サーバは、製品別の製品名、製品イメージ、製品価格、及び/又は残余数量などを管理できる。
また、データ格納サーバは、オンラインショッピングモールサービスを実現するための各種応用プログラム、アプリケーション、命令語、及び/又はデータなどを格納し、管理することができる。
例えば、データ格納サーバは、オンラインショッピングモールサービスを利用するユーザ別個人情報、ショッピング情報、及び/又は注文情報などを各ユーザ別勘定にマッチングして格納及び管理することができる。
上記のような構成要素等を含むショッピングモールサーバ500は、少なくとも1つ以上のショッピングモールサービス提供サーバ、製品管理サーバ、及び/又はデータ格納サーバで構成されることができ、データ処理のためのプロセッサと、オンラインショッピングモールサービス提供のための命令語等を格納するメモリとを備えることができる。
[ディープラーニング基盤の仮想イメージ生成方法]
以下、添付された図面を参照して本発明の実施形態に係るディープラーニング基盤のイメージ生成方法について詳細に説明する。
図4は、本発明の実施形態に係るディープラーニング基盤の仮想イメージ生成方法を説明するためのフローチャートである。
図4に示すように、本発明の実施形態に係るコンピューティングデバイス100は、複数の製品イメージをユーザビリティを考慮して分類することができ、ここで求められる必要製品イメージをディープラーニングに基づいて生成できるイメージアプリケーションを実行できる。
そして、コンピューティングデバイス100のプロセッサを介して実行されたイメージアプリケーションは、オンラインショッピングモールに接続して複数の製品イメージを取得することができる。(S101)
具体的には、イメージアプリケーションは、ショッピングモールサーバ500で提供するオンラインショッピングモールサービスに基づいてオンラインショッピングモールに接続することができる。
また、イメージアプリケーションは、接続したオンラインショッピングモールから複数の製品イメージを受信して取得することができる。
例えば、イメージアプリケーションは、接続したオンラインショッピングモールの1つの製品に対する販売ページで当該ページに含まれた複数の製品イメージをクローリングして、1つの製品に対する複数の製品イメージを自動に取得することができる。
ここで、実施形態に係る製品イメージとは、オンラインショッピングモールサービスで提供される製品を表示するために、当該製品を含んで撮影したイメージであることができる。
実施形態において、イメージアプリケーションは、後でイメージ自動分類サーバ420との連動を介して上記のような製品イメージをカテゴリー別に分類することができる。
具体的に、イメージアプリケーションは、カテゴリー区分基準によって順次製品イメージがどのカテゴリーに属するか判断することができる。
例えば、イメージアプリケーションは、先に製品イメージを製品ショットとポーズ(pose)ショットのうち、いずれか1つのカテゴリーに分類することができる。
また、イメージアプリケーションは、次に、前記分類されたポーズショットを1次カテゴリーである後面ショットと時点ショットとに分類することができ、前記分類された時点ショットを2次カテゴリーであるクローズアップ(close-up)ショットと全身ショットとに分類することができる。
また、イメージアプリケーションは、前記分類された全身ショットをスタンド(stand)ショットとその他のポーズショットとに分類することができ、前記分類されたその他のポーズショットを側面ショット、シッティング(sitting)ショット、またはライ(lie)ショットなどに分類することができる。これについての詳細な説明は、以下において後述する。
以下、実施形態において、イメージアプリケーションが1つの製品に対する複数の製品イメージを取得して、後述する一連のプロセスを進行することと限定して説明するが、これに制限されるものではない。
また、以下の実施形態では、イメージアプリケーションが複数の製品イメージのうち、モデルまたはマネキンなどが着用した状態の製品を表すポーズ(pose)ショットに基づいて後述する動作を行うことと説明するが、これに限定されるものではない。
さらに戻ってきて、また、実施形態に係るイメージアプリケーションは、取得された製品イメージに基づいて製品イメージ別の製品情報を取得することができる。
ここで、製品情報とは、上着、下着、及び/又はワンピースなどのように、各製品が属した属性カテゴリーに関する情報であることができる。
具体的には、実施形態において、イメージアプリケーションは、イメージ管理サーバ400のディープラーニングサーバ410と連動してイメージ基盤製品群(例えば、上着、下着、及び/又はワンピース等)学習が行われたディープラーニングニューラルネットワークを介して各製品イメージ別ディープラーニングを行うことができ、ディープラーニングされたニューラルネットワークを介して製品イメージ別の製品情報を出力して取得することができる。
また、イメージアプリケーションは、取得された製品イメージを複数のカテゴリー(category)別に分類することができる。(S103)
具体的には、イメージアプリケーションは、イメージ管理サーバ400のイメージ自動分類サーバ420との連動を介して、複数の製品イメージの各々を複数のショットカテゴリーのうち、対応するカテゴリーに分類することができる。
ここで、本発明の実施形態に係るカテゴリーとは、製品イメージ内の製品と関連したポーズ形態及び/又は製品情報に基づいて前記製品イメージが分類されるカテゴリーを意味することができる。
ここで、実施形態に係るポーズ形態とは、全身ショットまたは後面ショットなどのような前記製品イメージの被写体が取っている特定ポーズの形態を意味するものであって、製品イメージ内の被写体(モデルまたはマネキン)の身体の主なキーポイント(key-point)に対する座標情報であることができる。
実施形態において、ポーズ形態は、製品イメージ内の被写体の顔領域(目領域、鼻領域、耳領域、及び/又は首領域を含む)、肩領域、肘領域、手首領域、ヒップ(hip)領域、膝領域、及び/又は足首領域などを含む身体の主なキーポイントに対する座標情報を含むことができる。
例えば、イメージアプリケーションは、製品イメージにモデルのポーズ形態が検出されたか否かを基に製品ショットカテゴリーとポーズショットカテゴリーとに製品イメージを1次的に分類することができる。
そして、イメージアプリケーションは、ポーズショットカテゴリーに分類された製品イメージをポーズ形態によるカテゴリー別に分類することができる。
より具体的には、実施形態において、イメージアプリケーションは、イメージ自動分類サーバ420と連動して製品イメージに基づいたディープラーニングを行うことができ、ディープラーニングされたニューラルネットワークを介して製品イメージを後面ショット、クローズアップ(close-up)ショット、スタンド(stand)ショット、及び/又はその他のポーズショットカテゴリーのうち、いずれか1つに分類することができる。
実施形態として、イメージアプリケーションは、取得された複数の製品イメージ(実施形態において、複数のポーズショット)を分類するために、前記製品イメージ内のポーズ形態を基準に利用することができる。
このとき、イメージアプリケーションは、ディープラーニングされたニューラルネットワークを介してポーズ形態によって製品の後面を表すポーズイメージ(以下、後面ショット)、製品の正面を表すポーズイメージ(以下、時点ショット)、製品がクローズアップ(close-up)されたポーズイメージ(以下、クローズアップショット)、製品着用被写体(人またはマネキン)の全身を表すポーズイメージ(以下、全身ショット)、前記被写体が立っているポーズイメージ(以下、スタンド(stand)ショット)、及び/又はその他のポーズイメージ(以下、その他のポーズショット)のうち、少なくとも1つのカテゴリーに製品イメージを分類することができる。
ここで、イメージアプリケーションは、前記ポーズショットにおけるポーズ形態を判断するために、イメージディープラーニング技術のうち、ポーズショット識別器アルゴリズムを利用することができる。
このとき、ポーズショット識別器とは、ルール方式及び/又はディープラーニング方式で製品イメージに属する被写体(人またはマネキン)のポーズの形態を判断するアルゴリズムであって、予め設定された規則及び/又は基準によってポーズ形態を判断できる。このようなポーズショット識別器アルゴリズムは、ディープラーニングを介して学習されたニューラルネットワークであって、ポーズの種類をオブジェクトと認識してディテクティングするポーズディテクタニューラルネットワークであることができる。
具体的には、ポーズショット識別器は、前記製品イメージを、1)後面ショット可否、2)全身ショット可否、及び3)スタンドショット可否のうち、少なくともいずれか1つ以上を基準として分類することができる。
より具体的には、ポーズショット識別器は、後面ショット可否、全身ショット可否、及びスタンドショット可否を順次製品イメージ分類に適用して、まず、後面ショット可否を分類基準として後面ショットを分類することができる。
そして、ポーズショット識別器は、後面ショットでない残りの製品イメージに全身ショット可否を分類基準として適用して全身ショットを分類することができる。
次に、ポーズショット識別器は、全身ショットに対してスタンドショットを分類基準として適用してスタンドショット及びその他のポーズショットを分類することができる。
例えば、イメージアプリケーションは、第1製品イメージが時点ショット、全身ショット、及びスタンドショットであると判断された場合、前記第1製品イメージをスタンドショットに分類することができる。
また、イメージアプリケーションは、第2製品イメージが時点ショットと全身ショットとに判断され、スタンドショットでないと判断された場合、前記第2製品イメージをその他のポーズショットに分類することができる。
このように、イメージアプリケーションは、上記のような順序で製品イメージ内のポーズ形態に基づいたイメージ分類を行うことにより、製品イメージに対するイメージディープラーニング速度を向上させ、正確度も高めることができるという効果がある。
以上では、イメージアプリケーションがイメージ管理サーバ400と連動して各製品イメージを複数のカテゴリー(category)別に分類すると説明したが、他の実施形態では、イメージアプリケーションが自主的に各製品イメージ別のポーズ形態を取得し、複数のカテゴリー別に分類することができるなど、様々な実施形態が可能でありうる。
このように、本発明の実施形態において、イメージアプリケーションは、オンラインショッピングモールにランダムに並べられた様々な製品イメージをショッピングモールユーザビリティに最適化された形態(例えば、PCバージョンオンラインショッピングモールのイメージがモバイルタイプのコンピューティングデバイス200に表示されるとき、モバイルバージョンオンラインショッピングモールに適した型式に表示され得るように製品イメージを分類など)で自動分類することにより、製品ページ構築に消費される費用を低減することができ、ショッピングモール使用性の向上及びこれによる売上げ増大の効果を実現することができる。
また、本発明の実施形態において、イメージアプリケーションは、製品イメージが分類される複数のカテゴリーのうち、一部を必要カテゴリーに設定することができる。
ここで、実施形態に係る必要カテゴリーとは、1つの製品に対する効果的な表示のために必要であると予め設定されたポーズ形態を有する製品イメージが分類されるカテゴリーであることができる。
すなわち、イメージアプリケーションは、製品イメージを当該製品イメージ内のポーズ形態によって区分した複数のカテゴリーのうち、少なくとも1つを必要カテゴリーとして決定することができる。
このとき、イメージアプリケーションは、必要カテゴリーをユーザ入力に基づいて手動で予め設定するか、または所定の基準によって自動に予め設定することができる。
例えば、イメージアプリケーションは、ユーザ入力により所定の頻度数以上に必要カテゴリーとして選定されたカテゴリーを製品情報別に収集することができ、収集された情報に基づいて製品情報別に重要度の高い重要カテゴリーを導出できる。そして、イメージアプリケーションは、導出された製品情報別の重要カテゴリーに基づいて第1製品イメージの製品情報に応じた必要カテゴリーを自動に設定することができる。
例えば、イメージアプリケーションは、第1製品の製品情報が「ワンピース」を表し、ワンピース製品情報にマッチングされる重要カテゴリーが後面ショット、クローズアップショット、及びスタンドショットカテゴリーである場合、前記第1製品に対する必要カテゴリーを後面ショット、クローズアップショット、及びスタンドショットカテゴリーとして決定することができる。
このように、本発明の実施形態において、イメージアプリケーションは、製品別に必要カテゴリーを設定可能であることにより、ショッピングモールで提供する製品の各々をより明確かつ確実にディスプレイするために最適化された製品イメージを選定して提供することができる。
また、実施形態においてイメージアプリケーションは、追加製品イメージが必要なカテゴリーであるターゲットカテゴリー(target category)を検出できる。(S105)
具体的には、イメージアプリケーションは、1つの製品に対する少なくとも1つ以上の必要カテゴリーのうち、追加的に製品イメージが必要であると判断されるターゲットカテゴリーを検出できる。
実施形態として、イメージアプリケーションは、複数の必要カテゴリーのうち、製品イメージが分類されなかった空の必要カテゴリーを検出でき、検出された空の必要カテゴリーをターゲットカテゴリーとして決定することができる。
すなわち、イメージアプリケーションは、1つの製品に対して必要なポーズ形態を有する製品イメージを分類する必要カテゴリーが予め設定されているが、当該ポーズ形態を有する製品イメージが存在せずに空いている空の必要カテゴリーを自動に検出してターゲットカテゴリーとして決定することができる。
例えば、イメージアプリケーションは、第1製品に対して予め設定された必要カテゴリーが後面ショット、クローズアップショット、及びスタンドショットカテゴリーであり、第1製品から取得された複数の製品イメージが後面ショット及びクローズアップショットカテゴリーに各々分類された場合、第1製品の製品イメージが分類されなかった空の必要カテゴリーであるスタンドショットカテゴリーを自動に検出してターゲットカテゴリーとして決定することができる。
他の実施形態として、イメージアプリケーションは、必要カテゴリーに分類された製品イメージの品質に基づいてターゲットカテゴリーを決定することができる。
すなわち、イメージアプリケーションは、必要カテゴリーに製品イメージが分類されているが、分類された製品イメージが所定の品質基準(例えば、カテゴリーポーズ形態に対する製品イメージ内のポーズ形態の適合性可否等)を満たすか否かによってターゲットカテゴリーを決定することができる。
さらに他の実施形態として、イメージアプリケーションは、ユーザ入力による選択に基づいてターゲットカテゴリーを決定することができる。
具体的には、イメージアプリケーションは、追加製品イメージが必要なカテゴリーを選択できるユーザインターフェースを提供することができる。
そして、イメージアプリケーションは、提供されたインターフェースに基づいたユーザ入力によってターゲットカテゴリーを決定することができる。
このように、実施形態において、イメージアプリケーションは、ショッピングモール上に製品をより効果的に表示するために必要であると判断される製品イメージが存在しない場合を様々な方式を介して判断することで、後で、よりクオリティの高い製品ディスプレイのために必要なイメージを追加的に補充することができる。
続いて、本発明の実施形態においてイメージアプリケーションは、ターゲットカテゴリーが検出される場合、製品イメージに基づいてターゲットカテゴリーにマッチングされるポーズ形態を有する仮想イメージを生成することができる。(S107)
ここで、実施形態に係る仮想イメージとは、既存に存在する製品イメージに基づいてディープラーニングイメージ処理を行い、新しいポーズ形態を有するように生成された製品イメージであることができる。
具体的には、実施形態において、イメージアプリケーションは、イメージ管理サーバ400と連動して製品イメージに基づいたイメージディープラーニングを行って仮想イメージを生成することができる。
このとき、イメージアプリケーションは、イメージセグメンテーション(segmentation)、イメージインペインティング(inpainting)、及び/又はイメージ合成(composite)などを含むイメージ処理技術に基づいて仮想イメージを生成することができる。
参考として、図5に示すように、イメージセグメンテーションとは、全体イメージからオブジェクト領域を分離する技術であって、全体イメージで事物の領域をピクセル単位に分類する技術を意味することができる。
また、図6に示すように、イメージインペインティングとは、全体イメージからオブジェクトを除いた部分(すなわち、イメージ内で消された領域)に対するイメージ復元を行う技術であることができる。
また、実施形態において、イメージ合成とは、イメージセグメンテーション及び/又はインペインティングなどを介して生成されたイメージを合成して新しいイメージを実現し出す技術を意味することができる。
さらに戻ってきて、例えば、イメージアプリケーションは、第1製品に対するターゲットカテゴリーとしてスタンドショットカテゴリーが検出された場合、検出されたターゲットカテゴリーであるスタンドショットカテゴリーにマッチングされるポーズ形態を有する第1製品に対するスタンドショットイメージを、第1製品の製品イメージに基づいたイメージディープラーニングを介して仮想イメージとして生成することができる。
本発明の実施形態においては、イメージアプリケーションがイメージ管理サーバ400と連動して製品イメージに基づいてターゲットカテゴリーにマッチングされるポーズ形態を有する仮想イメージを生成すると説明するが、実施形態によって、イメージアプリケーションが自主的に製品イメージに基づいた仮想イメージを生成することもできるなど、様々な実施形態が可能である。
このように、イメージアプリケーションは、ショッピングモールで提供する製品を効果的に表示するために補充されなければならないイメージを当該製品の製品イメージを利用したディープラーニングを基に生成して提供することにより、追加的に必要な製品イメージを作るための別の撮影や作業がなくとも迅速かつ便利に新しい製品イメージを実現して製品の表示を補完することができる。
以下、添付された図面を参照してイメージアプリケーションが製品イメージに基づいてターゲットカテゴリーにマッチングされるポーズ形態を有する仮想イメージを生成する方法についてより詳細に説明する。
図7は、本発明の実施形態に係る仮想イメージを生成する方法を説明するためのフローチャートであり、図8及び図9は、本発明の実施形態に係る仮想イメージを生成する方法を説明するための概念図である。
図7及び図8に示すように、実施形態において、イメージアプリケーションは、複数の製品イメージのうち、仮想イメージ生成のためのイメージ処理を行うベースイメージ10を決定できる。(S201)
具体的には、イメージアプリケーションは、複数の製品イメージの中で、当該製品及びモデルに関する情報量が相対的に最大である製品イメージをベースイメージ10として選択することができる。
より具体的には、実施形態として、イメージアプリケーションは、予め設定された優先順位にしたがって当該製品及びモデルに関する情報量が相対的に最大である製品イメージを判断でき、これにより、ベースイメージ10を選定することができる。
ここで、イメージアプリケーションは、ディープラーニング基盤の仮想イメージ生成プロセスの繰り返し実行を介して学習されたデータに基づいてベースイメージ10を自動設定することができる。
具体的に、イメージアプリケーションは、モデルの複数の身体の主なキーポイント(key-point)が最も多く表示された製品イメージをベースイメージ10として選定することができる。
また、イメージアプリケーションは、ベースイメージ10選定優先順位をユーザ入力に基づいて設定することができる。例えば、イメージアプリケーションは、優先順位を「スタンドショット>その他のポーズショット>クローズアップショット>後面ショット」の順にベースイメージ10を決定できる。
具体的には、イメージアプリケーションは、第1製品に対する複数の製品イメージがスタンドショット、クローズアップショット、及び後面ショットを含む場合、前記優先順位にしたがって第1製品の仮想イメージ生成のために使用されるベースイメージ10をスタンドショットイメージとして決定することができる。
そして、イメージアプリケーションは、第1製品の複数の製品イメージのうち、その他のポーズショットが存在せずに、その他のポーズショットカテゴリーがターゲットカテゴリーとして検出される場合、前記ベースイメージ10として決定されたスタンドショットイメージに基づいたイメージディープラーニングを介して第1製品に対するその他のポーズショットを仮想イメージとして生成することができる。
また、実施形態においてイメージアプリケーションは、優先順位カテゴリーに複数の製品イメージが含まれている場合、前記優先順位カテゴリーの複数の製品イメージのうち、当該モデル又は/及び製品に関する情報を最も多く有しているイメージを検出してベースイメージ10として決定することができる。
実施形態として、イメージアプリケーションは、ユーザ入力及び/又はディープラーニング基盤の仮想イメージ生成プロセスの繰り返し実行を介して学習されたデータに基づいて所定の基準を設定でき、これを基に優先順位カテゴリーの複数の製品イメージのうち、当該製品に関する情報を最も多く有しているイメージを検出してベースイメージ10として決定することができる。
例えば、イメージアプリケーションは、第1製品に対する優先順位カテゴリーが時点ショットカテゴリーであり、複数の時点ショットイメージを含む場合、各時点ショットイメージ内の被写体(人またはマネキン)のフルボディ(full body)包含可否を所定の基準に設定することができる。
具体的には、フルボディ包含とは、モデルの複数の身体の主なキーポイント要素を最も多く含んでいるということを意味する。例えば、イメージ内のモデルをセグメンテーションしたとき、頭、胸、胴体、左腕、右腕、右脚、左脚、左足、及び右足に分類される身体の主な要素のうち、最も多い要素を含むイメージをベースイメージ10として決定することができる。
そして、イメージアプリケーションは、被写体のフルボディ包含可否によって前記複数の時点ショットイメージのうち、イメージ内のボディが占める面積が大きいイメージであるほど、第1製品に関する情報を多く有していると判断することができ、これにより、ベースイメージ10を決定できる。
他の例において、イメージアプリケーションは、第1製品に対する優先順位カテゴリーが時点ショットカテゴリーであり、複数の時点ショットイメージを含む場合、各時点ショットイメージ内の被写体及び/又は製品に対するビューポイントの正面角度レベル(正面ビューポイントに近い程度を表す値)を所定の基準に設定することができる。
そして、イメージアプリケーションは、正面角度レベルを基準に前記複数の時点ショットイメージのうち、正面ビューポイントに近いイメージであるほど、第1製品に関する情報を多く有していると判断することができ、これにより、ベースイメージ10を決定できる。
このように、本発明の実施形態において、イメージアプリケーションは、1つの製品に対する仮想イメージ生成の際、前記製品に関する情報を最も多く有している製品イメージに基づいて仮想イメージを生成することで、生成される仮想イメージの正確性と品質を向上させることができる。
また、実施形態においてイメージアプリケーションは、仮想イメージに適用されるターゲットポーズ形態20を決定することができる。(S203)
ここで、実施形態に係るターゲットポーズ形態20とは、仮想イメージに適用するポーズ形態すなわち、仮想イメージ内の被写体(モデルまたはマネキン)の身体の主なキーポイント(key-point)に対する座標情報であることができる。
実施形態として、ターゲットポーズ形態20は、仮想イメージ内の被写体の顔領域(目領域、鼻領域、耳領域、及び/又は首領域を含む)、肩領域、肘領域、手首領域、ヒップ(hip)領域、膝領域、及び/又は足首領域などを含む身体の主なキーポイントに対する座標情報を含むことができる。
このようなターゲットポーズ形態20は、含まれている情報等に基づいてイメージ化されることができる。
具体的には、実施形態において、ターゲットポーズ形態20は、コンピューティングデバイス100及び/又はイメージ管理サーバ400により、ターゲットポーズ形態20に含まれた各身体の主なキーポイント別の座標情報がグラフィックイメージ化され得る。
例えば、ターゲットポーズ形態20は、顔領域、肩領域、肘領域、手首領域、ヒップ(hip)領域、膝領域、及び/又は足首領域の座標情報を所定の方式(例えば、座標別の実線表示等)で表示してグラフィックイメージ化されることができる。
このとき、イメージ化されたターゲットポーズ形態20は、各情報を区分しやすいように互いに異なる形状で表示されることができる。
例えば、イメージ化されたターゲットポーズ形態20は、顔領域の座標情報が桃色実線で表示され、右側肩領域の座標情報が赤色実線で表示され、左側肩領域の座標情報が橙色実線で表示されるなど、座標情報別に互いに異なる形状で実現されて表示されることができる。
このように、ターゲットポーズ形態20は、含まれている身体の主なキーポイント別の座標情報がイメージ化されることで、各座標情報をより容易に把握可能であると同時に、イメージディープラーニングに入力するよりも有利な形態に変換されることができる。
具体的には、実施形態として、イメージアプリケーションは、ターゲットカテゴリーにマッチングされるポーズ形態をターゲットポーズ形態20として決定することができる。
より具体的には、イメージアプリケーションは、複数のカテゴリーの各々にマッチングされるポーズ形態サンプルを格納していることができる。
このとき、イメージアプリケーションは、ユーザ入力及び/又は所定の方式(例えば、イメージディープラーニング及び/又はビッグデータ技術等)に基づいてカテゴリー別のポーズ形態サンプルを取得及び格納することができる。
また、イメージアプリケーションは、格納されているカテゴリー別のポーズ形態サンプルに基づいてターゲットカテゴリーにマッチングされるポーズ形態を導出してターゲットポーズ形態20を決定することができる。
例えば、イメージアプリケーションは、ターゲットカテゴリーが全身ショットカテゴリーであれば、後面ショットポーズ、時点ショットポーズ、全身ショットポーズ、スタンドショットポーズ、及び/又はその他のポーズショットポーズなどを含んで、予め格納されている少なくとも1つ以上のカテゴリー別のポーズ形態サンプルのうち、全身ショットポーズ形態をターゲットポーズ形態20として決定することができる。
他の実施形態として、イメージアプリケーションは、ターゲットカテゴリーにマッチングされる複数のポーズ形態サンプルのうち、いずれか1つをターゲットポーズ形態20として決定することができる。
すなわち、イメージアプリケーションは、カテゴリー別にマッチングされる複数のポーズ形態サンプルを格納していることができる。
このとき、イメージアプリケーションは、カテゴリー別のポーズ形態サンプルにメインポーズ形態サンプルとサブポーズ形態サンプルとを含むことができる。
ここで、メインポーズ形態サンプルは、該当のカテゴリーの複数のポーズ形態サンプルのうち、前記カテゴリーがターゲットカテゴリーにマッチングされるとき、優先的にターゲットポーズ形態20として決定されるポーズ形態サンプルであることができる。
また、サブポーズ形態サンプルは、該当のカテゴリーの複数のポーズ形態サンプルのうち、前記カテゴリーがターゲットカテゴリーにマッチングされるとき、所定の方式(例えば、ユーザ入力による選択等)によってターゲットポーズ形態20として決定されるポーズ形態サンプルであることができる。
すなわち、他の実施形態においてイメージアプリケーションは、カテゴリー別のメインポーズ形態サンプルとサブポーズ形態サンプルとに基づいてターゲットカテゴリーにマッチングされるポーズ形態サンプルを導出し、ターゲットポーズ形態20を決定することができる。
例えば、イメージアプリケーションは、ターゲットカテゴリーが全身ショットカテゴリーであれば、全身ショットカテゴリーにマッチングされているメインポーズ形態サンプルを優先的にターゲットポーズ形態20として決定することができ、所定の方式(例えば、ユーザ選択等)によって前記全身ショットカテゴリーにマッチングされている複数のサブポーズ形態サンプル(例えば、互いに異なるポーズで実現された第1サブ全身ショットポーズ、第2サブ全身ショットポーズ等)のうち、いずれか1つをターゲットポーズ形態20として決定することができる。
さらに他の実施形態において、イメージアプリケーションは、ディープラーニング方式で学習されたネットワークを利用してターゲットカテゴリーにマッチングされるポーズ形態を生成でき、生成されたポーズ形態をターゲットポーズ形態20として使用することもできる。
このように、イメージアプリケーションは、様々な方式を介して仮想イメージに適用されるターゲットポーズ形態20を決定できることにより、仮想イメージに適用されるより正確なポーズ形態を選択でき、ポーズ形態選択に対する容易性を向上させることができ、これにより、生成される仮想イメージの完成度を増大させることができる。
また、実施形態においてイメージアプリケーションは、上記のように決定されたベースイメージ10及びターゲットポーズ形態20に基づいてセマンティックレベルマップ(Semantic Label Map)を生成することができる。(S205)
具体的には、イメージアプリケーションは、イメージ管理サーバ400と連動して、上記のように決定されたベースイメージ10とターゲットポーズ形態20情報をディープラーニングニューラルネットワーク1に入力することができる。
このとき、ディープラーニングニューラルネットワーク1に入力されるターゲットポーズ形態20情報は、ターゲットポーズ形態20に含まれた身体の主なキーポイント別の座標情報がイメージ化された情報であることができる。すなわち、イメージアプリケーションは、ターゲットポーズ形態20の身体領域(例えば、顔領域、肩領域、肘領域、手首領域、ヒップ(hip)領域、膝領域、及び/又は足首領域)の座標情報が所定の方式(例えば、座標別の実線表示等)で変換されてグラフィックイメージ化されたターゲットポーズ形態20情報をディープラーニングニューラルネットワーク1に入力することができる。
そして、イメージアプリケーションは、ベースイメージ10とターゲットポーズ形態20情報を受信したディープラーニングニューラルネットワーク1から出力されるターゲットポーズ形態20に対するセマンティックレベルマップを取得することができる。
ここで、実施形態に係るセマンティックレベルマップとは、入力されたイメージ内の領域を身体の主なキーポイント別に区分したマップイメージであることができる。
例えば、セマンティックレベルマップは、入力されたイメージでモデルの身体の主なキーポイントである顔領域(目領域、鼻領域、耳領域、及び/又は首領域を含む)、肩領域、肘領域、手首領域、ヒップ(hip)領域、膝領域、及び/又は足首領域と製品領域(このとき、全ての身体の主なキーポイントは、左/右区分が可能)などを含む複数の領域に区分したマップイメージであることができる。
より具体的には、イメージアプリケーションは、ベースイメージ10とターゲットポーズ形態20情報に基づいてポーズセマンティックレベルマップ(21:Pose Semantic Label Map)を取得することができる。
また、イメージアプリケーションは、ベースイメージ10に対するベースセマンティックレベルマップ(Base Semantic Label Map)をさらに取得することができる。実施形態において、イメージアプリケーションは、製品イメージのカテゴリーを分類するためのディープラーニング処理のうち、ベースセマンティックレベルマップを予め取得することができる。
他の実施形態において、イメージアプリケーションは、ベースイメージ10のベースセマンティックレベルマップと、ターゲットポーズ形態20の情報に基づいてポーズセマンティックレベルマップ21を取得することもできる。
実施形態において、ポーズセマンティックレベルマップ21とは、学習されたイメージディープラーニングニューラルネットワーク1を介して、前記ベースイメージ10内の少なくとも一部が前記ターゲットポーズ形態20に適用されて生成されるセマンティックレベルマップイメージであることができる。
また、実施形態に係るベースセマンティックレベルマップとは、学習されたイメージディープラーニングニューラルネットワーク1を介して、前記ベースイメージ10内の領域が身体領域(例えば、顔領域(目領域、鼻領域、耳領域、及び/又は首領域含む)、肩領域、肘領域、手首領域、ヒップ(hip)領域、膝領域、及び/又は足首領域)と製品領域などを含む複数の領域に区分されたマップイメージであることができる。
実施形態において、イメージアプリケーションは、公知されたアルゴリズムモデル(例えば、U-net convolutional neural network等)に基づいてセマンティックレベルマップを生成でき、本発明では、セマンティックレベルマップを生成するアルゴリズム自体を限定したり、制限してはいない。
また、本発明の実施形態では、イメージアプリケーションがイメージ管理サーバ400と連動してベースイメージ10とターゲットポーズ形態20情報に基づいたセマンティックレベルマップを生成すると説明したが、実施形態によってイメージアプリケーションが自主的にセマンティックレベルマップを生成することもできるなど、様々な実施形態が可能である。
また、図9に示すように、実施形態においてイメージアプリケーションは、生成されたセマンティックレベルマップに基づいてディープラーニングを行って仮想イメージ30を取得することができる。(S207)
具体的には、イメージアプリケーションは、ベースイメージ10及びベースセマンティックレベルマップ11と対応するように、ターゲットポーズ形態20の情報及びポーズセマンティックレベルマップ21をディープラーニングニューラルネットワーク1(例えば、u-net等)に入力することができる。
そして、イメージアプリケーションは、前記入力を受けたディープラーニングニューラルネットワーク1の出力データで前記ターゲットポーズ形態20を有する仮想イメージ30を取得することができる。
すなわち、実施形態においてイメージアプリケーションは、ベースイメージ10及びターゲットポーズ形態20と、これらに基づいて生成されたベースセマンティックレベルマップ11及びポーズセマンティックレベルマップ21に基づいたイメージ処理を行い、最大の情報量に基づいて前記ベースイメージ10のポーズ形態が前記ターゲットポーズ形態20に変形された仮想イメージ30を取得できる。
他の実施形態において、イメージアプリケーションは、ベースイメージ10及びターゲットポーズ形態20と、これらに基づいて生成されたベースセマンティックレベルマップ11及びポーズセマンティックレベルマップ21のうち、少なくとも一部を利用して仮想イメージ30を取得することもできる。
実施形態として、イメージアプリケーションは、ベースイメージ10、ベースセマンティックレベルマップ11、及びポーズセマンティックレベルマップ21のみを用いて仮想イメージ30を取得することができる。
具体的には、他の実施形態において、イメージアプリケーションは、仮想イメージ30を生成するのに必須なデータ(例えば、ベースイメージ10、ベースセマンティックレベルマップ11、及びポーズセマンティックレベルマップ21)を選び出し、選び出されたデータをディープラーニングニューラルネットワーク1に入力して仮想イメージ30を取得することができる。
すなわち、他の実施形態に係るイメージアプリケーションは、仮想イメージ30の生成のために必要な最小限のデータに基づいてイメージディープラーニングを行い、より効率的に動作するディープラーニング基盤の仮想イメージ生成プロセスを実現できる。
このように、本発明の実施形態において、イメージアプリケーションは、ターゲットポーズ形態20に基づいて製品を表す仮想イメージ30を生成、提供することにより、ショッピングモール上の製品をより正確に把握するために必要な様々な観点の製品イメージを容易に生成して提供することができ、これにより、ショッピングモールサービスの全般的なクオリティを向上させると同時に、ユーザビリティを向上させることができる。
さらに図4に戻ってきて、上記のように製品イメージに基づいてターゲットカテゴリーにマッチングされるポーズ形態を有する仮想イメージ30を生成したイメージアプリケーションは、生成された仮想イメージ30をマッチングされるカテゴリーに入力することができる。(S109)
具体的には、実施形態において、イメージアプリケーションは、生成された仮想イメージ30をイメージ自動分類サーバ420に送信し、前記仮想イメージ30に対応するカテゴリーに分類させることができる。
または、イメージアプリケーションは、生成された仮想イメージ30を自主的に前記仮想イメージ30にマッチングされるカテゴリーに分類することもできる。
また、本発明の実施形態において、イメージアプリケーションは、生成された仮想イメージ30を含んで分類された製品イメージを再構成してカテゴリー別の製品イメージ情報を提供することができる。(S111)
図10は、本発明の実施形態に係るカテゴリー別の製品イメージ情報の一例である。
図10に示すように、実施形態に係るカテゴリー別の製品イメージ情報(以下、コレクティング情報)とは、オンラインショッピングモール上でランダムに並べられた様々な製品イメージをユーザビリティに合うようにカテゴリー別に分類し、再構成して表す情報であることができる。
具体的には、実施形態において、イメージアプリケーションは、自主的にまたはイメージ管理サーバ400と連動して、カテゴリー別に分類された製品イメージをカテゴリーによって区分しやすいように再構成し、カテゴリー別の製品イメージ情報を生成することができる。
また、イメージアプリケーションは、上記のようなカテゴリー別の製品イメージ情報を活用して各種機能動作を行うことができるインターフェースを前記カテゴリー別の製品イメージ情報にさらに含んで提供することができる。
より具体的には、実施形態において、イメージアプリケーションは、カテゴリー別の製品イメージ情報に基づいて各製品別の製品情報、各カテゴリー別の名前(例えば、ポーズ形態名)、及び/又は各製品とカテゴリー別の製品イメージなどを提供することができる。
また、イメージアプリケーションは、カテゴリー別の製品イメージ情報に基づいたユーザ入力によって各種機能動作を行うユーザインターフェースを提供することができる。
例えば、イメージアプリケーションは、カテゴリー別の製品イメージ情報の複数の製品イメージのうち、1つのイメージを選択すれば、当該1つのイメージにマッチングされる詳細情報(例えば、当該1つのイメージ内の製品に対する製品名及び/又は製品価格情報等)を確認できるユーザインターフェースを提供することができる。
他の例として、イメージアプリケーションは、ユーザ入力に基づいてカテゴリー別の製品イメージ情報のカテゴリー表示順序を変更できるユーザインターフェースを前記カテゴリー別の製品イメージ情報を介して提供することができる。
さらに他の例として、イメージアプリケーションは、ユーザ入力に基づいてショッピングモールサーバ500から取得された製品イメージと、ディープラーニングに基づいて生成された仮想イメージ30とを区分して表示する可否を設定できるユーザインターフェースを前記カテゴリー別の製品イメージ情報を介して提供することができる。
このように、本発明の実施形態において、イメージアプリケーションは、ショッピングモールの複数の製品イメージをポーズ形態によって自動的に分類し、整理して公開することにより、ショッピングモールで製品イメージをランダムに並べる場合に発生する可能性がある不便さを最小化でき、製品ページ構築に消費される費用を低減でき、ショッピングモール使用性の向上及びこれによる売上げ増大の効果を実現することができる。
また、イメージアプリケーションは、複数の製品イメージが自動的に分類されて生成されたカテゴリー別の製品イメージ情報をより効果的に活用できるユーザインターフェースを提供することにより、ユーザ要求に最適化された形態のカテゴリー別の製品イメージ情報を提供することができ、これにより、複数の製品イメージを提供するショッピングモールに対する満足度と使用性を向上させることができる。
以上、本発明の実施形態に係るディープラーニング基盤のイメージ生成方法は、1つの製品に対して存在する製品イメージの他に、新しく求められる必要製品イメージがあれば、当該必要製品イメージをディープラーニングに基づいて生成することにより、製品を効果的に表示するために補充されなければならない必要製品イメージを別の撮影や作業がなくとも迅速かつ便利に提供することができるという効果がある。
また、本発明の実施形態に係るディープラーニング基盤のイメージ生成方法は、必要製品イメージをディープラーニングに基づいて提供することにより、ショッピングモール上の製品をより正確に把握できるように様々な観点で実現される製品イメージを容易に提供することができ、これにより、ショッピングモールサービスの全般的なクオリティを向上させると同時に、ユーザビリティを向上させることができるという効果がある。
また、本発明の実施形態に係るディープラーニング基盤のイメージ生成方法は、オンラインショッピングモールで提供する1つの製品に対する複数の製品イメージをユーザビリティを考慮して自動的に分類することで、ショッピングモールで製品イメージをランダムに並べる場合に発生する可能性がある不便さを最小化でき、製品ページ構築に消費される費用を低減でき、ショッピングモール使用性の向上及びこれによる売上げ増大の効果を実現することができる。
また、以上で説明された本発明に係る実施形態は、様々なコンピュータ構成要素を介して実行され得るプログラム命令語の形態で実現されて、コンピュータ読み取り可能な記録媒体に記録されることができる。前記コンピュータ読み取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含むことができる。前記コンピュータ読み取り可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知されて使用可能なものであることができる。コンピュータ読み取り可能な記録媒体の例には、ハードディスク、フロッピーディスク、及び磁気テープのような磁気媒体、CD-ROM及びDVDのような光記録媒体、フロプティカルディスク(floptical disk)のような磁気-光媒体(magneto-optical medium)、及びROM、RAM、フラッシュメモリなどのような、プログラム命令語を格納し、実行するように特別に構成されたハードウェアー装置が含まれる。プログラム命令語の例には、コンパイラによって作られるような機械語コードだけでなく、インタプリタなどを使用してコンピュータにより実行され得る高級言語コードも含まれる。ハードウェアー装置は、本発明に係る処理を行うために、1つ以上のソフトウェアモジュールに変更されることができ、その逆も同様である。

Claims (15)

  1. コンピューティングデバイスのプロセッサにより実行されるイメージアプリケーションが、
    1つの製品に対する複数の製品イメージを取得し、
    前記取得された複数の製品イメージを、互いに異なるポーズ(pose)形態を基準に区分された複数のカテゴリーのうちの少なくとも1つのカテゴリーに分類し、
    前記複数のカテゴリーのうち、少なくとも1つのターゲットカテゴリーを決定し、
    前記複数の製品イメージのうちの少なくとも1つの製品イメージを基に、前記少なくとも1つのターゲットカテゴリーにマッチングされた第1ポーズ形態の仮想イメージを生成し、
    前記生成された仮想イメージを出力する、ことを含み、
    前記ターゲットカテゴリーの決定は、
    前記複数のカテゴリーのうち、前記複数の製品イメージが分類されなかった空のカテゴリーを検出し、
    前記検出された空のカテゴリーを前記ターゲットカテゴリーとして決定する、
    ことを含むディープラーニング基盤の仮想イメージ生成方法。
  2. 前記仮想イメージは、
    少なくとも前記1つの製品イメージと前記第1ポーズ形態に関する情報が予め学習されたディープラーニングニューラルネットワークに入力して、前記第1ポーズ形態を有するように生成された前記1つの製品に対するイメージである請求項1に記載のディープラーニング基盤の仮想イメージ生成方法。
  3. 前記第1ポーズ形態の仮想イメージの生成は、
    前記複数の製品イメージのうち、少なくとも1つをベースイメージとして決定する、
    ことを含む請求項1に記載のディープラーニング基盤の仮想イメージ生成方法。
  4. 前記ベースイメージの決定は、
    予め設定されたカテゴリー別の優先順位にしたがって最優先順位のカテゴリーの製品イメージを前記ベースイメージとして決定する、
    ことを含む請求項に記載のディープラーニング基盤の仮想イメージ生成方法。
  5. 前記第1ポーズ形態の仮想イメージの生成は、
    前記ベースイメージ及び前記第1ポーズ形態の情報が予め学習されたディープラーニングニューラルネットワークに入力して、前記第1ポーズ形態のポーズセマンティックレベルマップ(Semantic Label Map)を生成する、
    ことをさらに含む請求項に記載のディープラーニング基盤の仮想イメージ生成方法。
  6. 前記第1ポーズ形態の仮想イメージの生成は、
    前記ベースイメージのセマンティックレベルマップであるベースセマンティックレベルマップ(Base Semantic Label Map)を生成する、
    ことをさらに含む請求項に記載のディープラーニング基盤の仮想イメージ生成方法。
  7. 前記第1ポーズ形態の仮想イメージの生成は、
    前記ポーズセマンティックレベルマップ及び前記ベースイメージが予め学習されたディープラーニングニューラルネットワークに入力して、出力として前記仮想イメージを生成する、
    ことをさらに含む請求項に記載のディープラーニング基盤の仮想イメージ生成方法。
  8. 前記第1ポーズ形態の仮想イメージの生成は、
    前記ベースイメージ及びベースセマンティックレベルマップと対応するように、前記第1ポーズ形態の情報及びポーズセマンティックレベルマップをディープラーニングニューラルネットワークに入力して、出力として前記第1ポーズ形態を有する前記仮想イメージを生成する、
    ことを含む請求項に記載のディープラーニング基盤の仮想イメージ生成方法。
  9. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサにより実行されるイメージアプリケーションに対する格納命令を格納するメモリと、
    を備え、
    前記イメージアプリケーションの格納命令は、
    1つの製品に対する複数の製品イメージを取得し、
    前記取得された複数の製品イメージを、互いに異なるポーズ(pose)形態を基準に区分された複数のカテゴリーに分類し、
    前記複数のカテゴリーのうち、前記複数の製品イメージが分類されなかった空のカテゴリーを検出し、
    前記検出された空のカテゴリーをターゲットカテゴリーとして決定し、
    前記複数の製品イメージのうちの少なくとも1つの製品イメージを基に前記決定されたターゲットカテゴリーにマッチングされた第1ポーズ形態の仮想イメージを生成し、
    前記生成された仮想イメージを出力する、命令語を含む、
    ディープラーニング基盤の仮想イメージ生成システム。
  10. 前記イメージアプリケーションの格納命令は、
    前記複数の製品イメージのうち、少なくとも1つをベースイメージとして決定する、命令語を含む、
    請求項に記載のディープラーニング基盤の仮想イメージ生成システム。
  11. 前記イメージアプリケーションの格納命令は、
    予め設定されたカテゴリー別の優先順位にしたがって最優先順位のカテゴリーの製品イメージを前記ベースイメージとして決定する、命令語を含む、
    請求項10に記載のディープラーニング基盤の仮想イメージ生成システム。
  12. 前記イメージアプリケーションの格納命令は、
    前記ベースイメージ及び前記第1ポーズ形態の情報を予め学習されたディープラーニングニューラルネットワークに入力して、前記第1ポーズ形態のポーズセマンティックレベルマップ(Semantic Label Map)を生成する、命令語を含む、
    請求項11に記載のディープラーニング基盤の仮想イメージ生成システム。
  13. 前記イメージアプリケーションの格納命令は、
    前記ベースイメージのセマンティックレベルマップであるベースセマンティックレベルマップ(Base Semantic Label Map)を生成する、命令語を含む、
    請求項12に記載のディープラーニング基盤の仮想イメージ生成システム。
  14. 前記イメージアプリケーションの格納命令は、
    前記ポーズセマンティックレベルマップ及び前記ベースイメージを予め学習されたディープラーニングニューラルネットワークに入力して、出力として前記仮想イメージを生成する、命令語を含む、
    請求項13に記載のディープラーニング基盤の仮想イメージ生成システム。
  15. 前記イメージアプリケーションの格納命令は、
    前記ベースイメージ及びベースセマンティックレベルマップと対応するように、前記第1ポーズ形態の情報及びポーズセマンティックレベルマップをディープラーニングニューラルネットワークに入力して、出力として前記第1ポーズ形態を有する前記仮想イメージを生成する、命令語を含む、
    請求項14に記載のディープラーニング基盤の仮想イメージ生成システム。
JP2021073577A 2020-04-23 2021-04-23 ディープラーニング基盤の仮想イメージ生成方法及びシステム Active JP7161572B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200049121A KR102466978B1 (ko) 2020-04-23 2020-04-23 딥러닝 기반 가상 이미지 생성방법 및 시스템
KR10-2020-0049121 2020-04-23

Publications (2)

Publication Number Publication Date
JP2021174553A JP2021174553A (ja) 2021-11-01
JP7161572B2 true JP7161572B2 (ja) 2022-10-26

Family

ID=78222636

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021073577A Active JP7161572B2 (ja) 2020-04-23 2021-04-23 ディープラーニング基盤の仮想イメージ生成方法及びシステム

Country Status (3)

Country Link
US (1) US11727605B2 (ja)
JP (1) JP7161572B2 (ja)
KR (1) KR102466978B1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023068632A1 (ko) 2021-10-18 2023-04-27 라이트비전 주식회사 딥러닝을 이용하여 가상 tem sadp 영상과 실제 tem sadp 영상을 상호 변환시키는 회절 패턴 영상 변환 시스템 및 방법
KR102582498B1 (ko) 2021-10-18 2023-09-26 라이트비전 주식회사 높은 분별력을 가지는 tem sadp 영상 생성 시스템 및 방법
WO2023068631A1 (ko) 2021-10-18 2023-04-27 라이트비전 주식회사 높은 분별력을 가지는 tem sadp 영상 생성 시스템 및 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019204476A (ja) 2018-05-17 2019-11-28 株式会社Preferred Networks 画像生成装置、画像生成方法及びプログラム
US20190371080A1 (en) 2018-06-05 2019-12-05 Cristian SMINCHISESCU Image processing method, system and device
JP2020038640A (ja) 2018-08-31 2020-03-12 エヌエイチエヌ コーポレーション イメージ自動分類方法及びシステム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102240302B1 (ko) 2014-10-21 2021-04-14 삼성전자주식회사 가상 피팅 장치 및 이의 가상 피팅 방법
CN107330439B (zh) 2017-07-14 2022-11-04 腾讯科技(深圳)有限公司 一种图像中物体姿态的确定方法、客户端及服务器
CN109670444B (zh) * 2018-12-18 2019-12-24 北京字节跳动网络技术有限公司 姿态检测模型的生成、姿态检测方法、装置、设备及介质
US11030772B2 (en) 2019-06-03 2021-06-08 Microsoft Technology Licensing, Llc Pose synthesis
US10949960B2 (en) 2019-06-20 2021-03-16 Intel Corporation Pose synthesis in unseen human poses
US20210232858A1 (en) * 2020-01-23 2021-07-29 Seiko Epson Corporation Methods and systems for training an object detection algorithm using synthetic images

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019204476A (ja) 2018-05-17 2019-11-28 株式会社Preferred Networks 画像生成装置、画像生成方法及びプログラム
US20190371080A1 (en) 2018-06-05 2019-12-05 Cristian SMINCHISESCU Image processing method, system and device
JP2020038640A (ja) 2018-08-31 2020-03-12 エヌエイチエヌ コーポレーション イメージ自動分類方法及びシステム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Albert Pumarola et al.,Unsupervised Person Image Synthesis in Arbitrary Poses,2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,米国,IEEE,2018年,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8578997
中田 秀基 外1名,ニューラルネットワークを用いた任意人物・姿勢画像の生成,電子情報通信学会技術研究報告,第118巻 第513号,日本,一般社団法人電子情報通信学会,2019年03月10日,pp.73~78

Also Published As

Publication number Publication date
US11727605B2 (en) 2023-08-15
KR102466978B1 (ko) 2022-11-14
KR20210130953A (ko) 2021-11-02
JP2021174553A (ja) 2021-11-01
US20210335021A1 (en) 2021-10-28

Similar Documents

Publication Publication Date Title
US20210406960A1 (en) Joint-based item recognition
JP7161572B2 (ja) ディープラーニング基盤の仮想イメージ生成方法及びシステム
US20220130125A1 (en) Virtual content generation
US20230394681A1 (en) Region-based stabilized face tracking
US11055514B1 (en) Image face manipulation
CN111787242B (zh) 用于虚拟试衣的方法和装置
US10719993B1 (en) Augmented reality system and method with space and object recognition
US10157324B2 (en) Systems and methods of updating user identifiers in an image-sharing environment
CN108229559B (zh) 服饰检测方法、装置、电子设备、程序和介质
Shi et al. Human-computer interaction based on face feature localization
CN106030610A (zh) 移动设备的实时3d姿势识别和跟踪系统
US10726631B1 (en) Augmented reality system and method with frame region recording and reproduction technology based on object tracking
US9959480B1 (en) Pixel-structural reference image feature extraction
CN111368116B (zh) 图像分类方法、装置、计算机设备及存储介质
Tammvee et al. Human activity recognition-based path planning for autonomous vehicles
CN117940962A (zh) 基于面部表情控制交互时尚
KR102534182B1 (ko) 딥러닝 기반 상품검색 방법 및 시스템
KR102467010B1 (ko) 이미지 복원에 기반한 상품 검색 방법 및 시스템
US20220067812A1 (en) Method and system for providing search results for similar products based on deep-learning
Aravindan et al. A Smart Assistive System for Visually Impaired to Inform Acquaintance Using Image Processing (ML) Supported by IoT
Milanova et al. Markerless 3D virtual glasses try-on system
KR102401626B1 (ko) 이미지 기반 상품검색 방법 및 그 시스템
Jain et al. [POSTER] AirGestAR: Leveraging Deep Learning for Complex Hand Gestural Interaction with Frugal AR Devices
KR102665456B1 (ko) 2차원 이미지에 기초한 3차원 가상 의류 착용방법 및 그 시스템
WO2023135699A1 (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210423

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220525

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220621

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20220627

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221014

R150 Certificate of patent or registration of utility model

Ref document number: 7161572

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350