JP2022550548A

JP2022550548A - 機械学習を利用した画像内客体認識方法及び装置

Info

Publication number: JP2022550548A
Application number: JP2022519820A
Authority: JP
Inventors: ヒョンキム，ジェ
Original assignee: Zackdang Co
Current assignee: Zackdang Co
Priority date: 2019-09-29
Filing date: 2020-07-17
Publication date: 2022-12-02
Also published as: WO2021060684A1; US20220319176A1; JP2024016283A

Abstract

本発明は、機械学習を利用した画像内客体認識方法及び装置に関する。本発明の一実施例に係る客体認識方法は、（ａ）客体関連画像を獲得するステップと、（ｂ）客体認識ディープラーニングモデルを利用して、前記獲得された客体関連画像から前記客体及び客体表示時間を認識するステップとを含むことができる。

Description

本発明は、機械学習を利用した画像内客体認識方法及び装置に関するもので、より詳しくは、機械学習を利用して客体及び客体表示時間を認識するための方法及び装置に関する。

最近、個人のノーハウを共有する方法がＴＥＸＴ中心から画像中心に移動している傾向である。このような画像で用いた事物を判別することができれば、多様なビジネスモデルを用いることができ、コンテンツを豊富に加工することができる基本にあり得る。これを具現するために、人が人為的に代入する方式は多くの時間と資本労動が必要となり、一定の品質管理を保持しにくいという短所がある。これを活用すれば、画像を加工する人や、画像を通じてノーハウを受ける人々に有益な情報としての意味があるはずである。

ただ、画像の中で客体を認知することができるようにする過程で多量のイメージ学習データを収集してタギングしなければならない初期データ収集努力が大きすぎるという問題点がある。

本発明は、前述の問題点を解決するために創出されたもので、機械学習を利用した画像内客体認識方法及び装置を提供することをその目的とする。

また、本発明は、人工知能を取り入れて画像の中で客体を見つけ出すために、人の手作業が大量投入されてこそ学習することができる従来の状況を改善することを目的とする。

また、本発明は、最初数百個程度の少ない数から始めて製品学習を始めることができるスパイラル学習モデルを取り入れて早い時間内に客体の特性上、画像の中で客体を認識することができるようにする装置及び方法を提供することをその目的とする。

本発明の目的は、以上で言及した目的に制限されず、言及しなかったまた他の目的は以下の記載から明確に理解され得るはずである。

前記した目的を達するために、本発明の一実施例に係る客体認識方法は、（ａ）客体関連画像を獲得するステップと、（ｂ）客体認識ディープラーニングモデルを利用して、前記獲得された客体関連画像から前記客体及び客体表示時間を認識するステップと、を含むことができる。

実施例において、前記（ａ）ステップは、前記客体関連画像を獲得するステップと、前記客体関連画像を複数のフレームに分割するステップと、前記複数のフレームの中で前記客体が含まれたフレームを決めるステップと、を含むことができる。

実施例において、前記（ｂ）ステップは、予めタギングされた客体の学習イメージから前記客体認識ディープラーニングモデルを学習させるステップと、前記学習された客体認識ディープラーニングモデルを利用して前記客体関連画像に含まれた客体をタギングするステップと、を含むことができる。

実施例において、前記学習させるステップは、前記予めタギングされた客体の学習イメージから特徴（ｆｅａｔｕｒｅ）を決めるステップと、前記決められた特徴をベクトル（ｖｅｃｔｏｒ）値に変換するステップと、を含むことができる。

実施例において、前記客体認識方法は、前記客体及び客体表示時間に基づいて前記客体関連画像をディスプレーするステップをさらに含むことができる。

実施例において、前記客体認識方法は、前記客体表示時間に対する入力を獲得するステップと、前記複数のフレームのうち、前記客体表示時間に対応する前記客体が含まれたフレームをディスプレーするステップと、をさらに含むことができる。

実施例において、客体認識装置は、客体関連画像を獲得する通信部と、客体認識ディープラーニングモデルを利用して、前記獲得された客体関連画像から前記客体及び客体表示時間を認識する制御部と、を含むことができる。

実施例において、前記通信部は、前記客体関連画像を獲得し、前記制御部は、前記客体関連画像を複数のフレームに分割し、前記複数のフレームの中で前記客体が含まれたフレームを決めることができる。

実施例において、前記制御部は、予めタギングされた客体の学習イメージから前記客体認識ディープラーニングモデルを学習させ、前記学習された客体認識ディープラーニングモデルを利用して前記客体関連画像に含まれた客体をタギングすることができる。

実施例において、前記制御部は、前記予めタギングされた客体の学習イメージから特徴（ｆｅａｔｕｒｅ）を決め、前記決められた特徴をベクトル（ｖｅｃｔｏｒ）値に変換することができる。

実施例において、前記客体認識装置は、前記客体及び客体表示時間に基づいて前記客体関連画像をディスプレーする表示部をさらに含むことができる。

実施例において、前記客体認識装置は、前記客体表示時間に対する入力を獲得する入力部と、前記複数のフレームのうち、前記客体表示時間に対応する前記客体が含まれたフレームをディスプレーする表示部と、をさらに含むことができる。

前記目的を達するための具体的な事項は、添付図面とともに詳細に後述される実施例を参照すれば明確になり得るはずである。

しかしながら、本発明は、以下で開示される実施例に限定されるのではなく、互いに異なる多様な形態で構成されることができ、本発明の開示が完全になるようにし、本発明が属する技術分野において通常の知識を有する者（以下、「当業者」）に発明の範疇を完全に知らせるために提供されるのである。

本発明の一実施例に係ると、機械学習を通じて画像内客体を検出して利用することにより、画像コンテンツを提供する際において、より豊かで活用度のあるサービスを提供することができる。

また、本発明の一実施例に係ると、画像内多様な製品が用いられている現象を分かることができ、特定ブランドや製品がどれだけ画像で所要されるかを特定することができる。

また、本発明の一実施例に係ると、顧客の疑問を解決することができ、長い画像内特定製品が露出された箇所に直ちに進入させるサービスが可能である。

本発明の効果は、前述の効果に制限されず、本発明の技術的特徴によって期待される暫定的な効果は、以下の記載から明確に理解され得るはずである。

本発明の一実施例に係る客体認識方法を示した図面である。本発明の一実施例に係る画像収集の例を示した図面である。本発明の一実施例に係る客体認識ディープラーニングモデル学習の例を示した図面である。本発明の一実施例に係る客体認識の例を示した図面である。本発明の一実施例に係る客体認識の例を示した図面である。本発明の一実施例に係る客体認識のための事前準備動作方法を示した図面である。本発明の一実施例に係る客体認識のための認識抽出動作方法を示した図面である。本発明の一実施例に係る客体認識装置の機能的構成を示した図面である。

本発明は、多様な変更を施すことができ、さまざまな実施形態を有することができ、特定の実施例を図面に例示してこれについて詳しく説明する。

特許請求範囲に開示された発明の多様な特徴は、図面及び詳細な説明を考慮してより理解され得るはずである。明細書に開示された装置、方法、製法及び多様な実施例は例示のために提供されるのである。開示された構造及び機能上の特徴は、当業者にとって多様な実施例を具体的に実施することができるようにするためのもので、発明の範囲を制限するのではない。開示された用語及び文章は開示された発明の多様な特徴を容易に理解するために説明するもので、発明の範囲を制限するのではない。

本発明を説明する際において、係わる公知技術に対する具体的な説明が本発明の要旨を不必要に曖昧にする虞があると判断される場合、その詳細な説明を省略する。

以下、本発明の一実施例に係る機械学習を利用した画像内客体認識方法及び装置について説明する。

図１は、本発明の一実施例に係る客体認識方法を示した図面である。図２ａは、本発明の一実施例に係る画像収集の例を示した図面である。図２ｂは、本発明の一実施例に係る客体認識ディープラーニングモデル学習の例を示した図面である。図２ｃ及び２ｄは、本発明の一実施例に係る客体認識の例を示した図面である。

図１を参照すると、Ｓ１０１ステップは、客体関連画像を獲得するステップである。一実施例において、図２ａを参照すると、客体関連画像２０１を獲得し、客体関連画像２０１を複数のフレームに分割し、複数のフレームの中で客体が含まれたフレーム２０３を決めることができる。

例えば、複数のフレームは、客体関連画像２０１を１秒単位に分割して生成されることができる。

Ｓ１０３ステップは、客体認識ディープラーニングモデルを利用して、客体関連画像から客体及び客体表示時間を認識するステップである。

一実施例において、図２ｂを参照すると、予めタギングされた客体の学習イメージから客体認識ディープラーニングモデル２１０を学習させることができる。例えば、予めタギングされた客体の学習イメージから特徴（ｆｅａｔｕｒｅ）を決め、決められた特徴をベクトル（ｖｅｃｔｏｒ）値に変換することができる。

一実施例において、図２ｃ及び２ｄを参照すると、客体ＩＤ２２０及び当該客体が表示される画面に対する客体表示時間を決めることができる。

一実施例において、客体及び客体表示時間に基づいて客体関連画像をディスプレーすることができる。

一実施例において、客体表示時間に対する入力を獲得し、複数のフレームのうち客体表示時間に対応する客体が含まれたフレームをディスプレーすることができる。

一実施例において、使用者による客体表示時間に対する入力の回数が閾値以上の場合、前記客体表示時間に対応する客体が含まれる少なくとも一つの客体関連画像のリストをディスプレーすることができる。

すなわち、当該客体表示時間へのタイムワープの回数が所定数以上である場合、当該客体に対する使用者の選好度が高いことと判断し、当該客体に関する多様な画像のリストを使用者に提供することにより、使用者の客体検索活用性を高めることができる。

例えば、前記客体は、化粧品、アクセサリ、ファッション雑貨など多様な製品を含むことができるが、これに制限されない。

図３は、本発明の一実施例に係る客体認識のための事前準備動作方法を示した図面である。

図３を参照すると、Ｓ３０１ステップは、自ら確保したアルゴリズムで学習画像を収集するステップである。ここで、学習画像は客体認識ディープラーニングモデルの学習のための画像を含むことができる。

一実施例において、学習画像に存在するキーワードを把握し、キーワードが自ら確保したアルゴリズムを利用して、画像として用いることができる画像と用いることのできない画像を区分することができる。

Ｓ３０３ステップは、学習画像から客体イメージを抽出するステップである。例えば、ブラー現象と滲み現象に対する問題を最小化するために、１秒単位で客体イメージを抽出して学習画像を細分化することができる。

Ｓ３０５ステップは、客体イメージから客体認識ディープラーニングモデル２１０を学習させるステップである。この場合、客体イメージは客体の学習イメージを含むことができる。

この場合、学習イメージの客体は、使用者によって予めタギングされることができる。すなわち、最初使用者の介入で客体をタギングし、最小化させることができる最小数量を求めて取り入れることができる。

その後、客体のイメージの中で特徴を把握してベクトル形態を計算することができる。例えば、客体認識ディープラーニングモデル２１０は、ＹＯＬＯアルゴリズム、ＳＳＤ（ＳｉｎｇｌｅＳｈｏｔＭｕｌｔｉｂｏｘＤｅｔｅｃｔｏｒ）アルゴリズム及びＣＮＮアルゴリズムなどがあるが、他のアルゴリズムの適用を排除するのではない。

Ｓ３０７ステップは、客体認識ディープラーニングモデル２１０の学習によって計算された学習ファイルを保存するステップである。この場合、学習ファイルは、抽出するサーバに移動して抽出の適正性を測定することができる。

Ｓ３０９ステップは、学習ファイルを活用して客体関連画像で客体を自動タギングするステップである。すなわち、新たに流入された客体関連画像での客体を学習することができるデータとして自動に流入されることができるようにする自動タギングステップである。

一実施例において、良質の学習イメージをたくさん手に入れて学習をさせるほど認識率がたくさん上がるので、これを繰り返し学習して所望の認識率が出るまでＳ３０５ステップ乃至Ｓ３０９ステップを繰り返すことができる。

図４は、本発明の一実施例に係る客体認識のための認識抽出動作方法を示した図面である。

図４を参照すると、Ｓ４０１ステップは、客体関連画像を獲得するステップである。すなわち、新しい画像を入力することができる。一実施例において、新しい画像は、図３のＳ３０１ステップと同じ方式で獲得されることができる。

Ｓ４０３ステップは、客体関連画像から客体イメージを抽出することができる。すなわち、客体関連画像から客体が含まれたフレームを抽出することができる。例えば、客体イメージが入力されることができるように１秒単位イメージで抽出することができる。

Ｓ４０５ステップは、客体イメージと客体認識ディープラーニングモデルによって生成された学習ファイルの一致可否を判断するステップである。すなわち、客体イメージと学習ファイルを有し、客体の種類を見つけ出すことができる。ここで、学習ファイルは既存客体ＤＢ（ｄａｔａｂａｓｅ）を含むことができる。

Ｓ４０７ステップは、客体イメージと客体認識ディープラーニングモデルによって生成された学習ファイルが一致する場合、客体イメージに対応する客体のＩＤ（ｉｄｅｎｔｉｆｉｃａｔｉｏｎ）及び客体表示時間（ｔｉｍｅ）を抽出するステップである。

Ｓ４０９ステップは、客体イメージと客体認識ディープラーニングモデルによって生成された学習ファイルが一致しない場合、新しい客体を登録することができるように客体イメージを保存するステップである。

すなわち、マッチングできないデータは、また手動でタギングして客体認識ディープラーニングモデルの学習に利用して、次回の認識抽出ステップでは、客体ＤＢとマッチングされることができるように、先循環サイクル（Ｃｉｒｃｌｅ）が円滑に行われるようにシステムを構成することができる。

図５は、本発明の一実施例に係る客体認識装置５００の機能的構成を示した図面である。

図５を参照すると、客体認識装置５００は、通信部５１０、制御部５２０、表示部５３０、入力部５４０及び保存部５５０を含むことができる。

通信部５１０は、客体関連画像を獲得することができる。

一実施例において、通信部５１０は、有線通信モジュール及び無線通信モジュールの少なくとも一つを含むことができる。通信部５１０の全部または一部は、「送信部」、「受信部」または「送受信部（ｔｒａｎｓｃｅｉｖｅｒ）」に指称されることができる。

制御部５２０は、客体認識ディープラーニングモデルを利用して、客体関連画像から客体及び客体表示時間を認識することができる。

一実施例において、制御部５２０は、ビューティ関連クリエータ及び関連画像を収集する画像収集部５２２、収集された画像を集めて深化学習（ＤｅｅｐＬｅａｒｎｉｎｇ）し、既学習した学習データを活用して新規製品を自動にタギングして学習する事物学習部５２４、及び特定のイメージを提示した時、学習された製品の中でこの製品が何なのかを区分する事物抽出部５２６を含むことができる。

一実施例において、制御部５２０は、少なくとも一つのプロセッサまたはマイクロ（ｍｉｃｒｏ）プロセッサを含むか、または、プロセッサの一部であり得る。また、制御部５２０は、ＣＰ（ｃｏｍｍｕｎｉｃａｔｉｏｎｐｒｏｃｅｓｓｏｒ）と指称され得る。制御部５２０は、本発明の多様な実施例に係る客体認識装置５００の動作を制御することができる。

表示部５３０は、客体及び客体表示時間に基づいて客体関連画像をディスプレーすることができる。一実施例において、表示部５３０は、複数のフレームのうち、客体表示時間に対応する客体が含まれたフレームをディスプレーすることができる。

一実施例において、表示部５３０は、客体認識装置５００で処理される情報を表示することができる。例えば、表示部５３０は、液晶ディスプレー（ＬＣＤ；ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、発光ダイオード（ＬＥＤ；ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）ディスプレー、有機発光ダイオード（ＯＬＥＤ；ＯｒｇａｎｉｃＬＥＤ）ディスプレー、マイクロ電子機械システム（ＭＥＭＳ；ＭｉｃｒｏＥｌｅｃｔｒｏＭｅｃｈａｎｉｃａｌＳｙｓｔｅｍｓ）ディスプレー及び電子ペーパー（ｅｌｅｃｔｒｏｎｉｃｐａｐｅｒ）ディスプレーの少なくとも何れか一つを含むことができる。

入力部５４０は、客体表示時間に対する入力を獲得することができる。一実施例において、入力部５４０は、使用者による客体表示時間に対する入力を獲得することができる。

保存部５５０は、客体認識ディープラーニングモデル２１０の学習ファイル、客体関連画像、客体ＩＤ及び客体表示時間を保存することができる。

一実施例において、保存部５５０は、揮発性メモリ、不揮発性メモリまたは揮発性メモリと不揮発性メモリの組み合わせで構成されることができる。そして、保存部５５０は、制御部５２０の要請によって保存されたデータを提供することができる。

図５を参照すると、客体認識装置５００は、通信部５１０、制御部５２０、表示部５３０、入力部５４０及び保存部５５０を含むことができる。本発明の多様な実施例において、客体認識装置５００は、図５に説明された構成が必須的でないので、図５に説明された構成よりも多い構成を有するか、またはそれよりも少ない構成を有することに具現されることができる。

本発明に係ると、最初数百個の画像で手動で学習し、学習したデータを活用して他のイメージを自動に抽出することができるようにシステムを構築した。

また、本発明に係ると、客体イメージを取り入れると、自動にタギングすることができることは、自動にタギングされることができるようにし、自動にタギングされなかったものを別途に集めてタギングするようにシステムを構築して、人の手作業が最小化されることができる。

また、本発明に係ると、初期データ収集を最小化することができるように、最初少量のデータを利用して学習し、この学習データを活用して自動にイメージの形態を抽出して学習データを作るのに活用し、このような過程を繰り返して高品質の学習データを学習することができる。

以上の説明は、本発明の技術的思想を例示的に説明したことに過ぎず、当業者であれば本発明の本質的な特性から逸脱しない範囲で多様な変更及び修正が可能であり得る。

したがって、本明細書に開示された実施例は、本発明の技術的思想を限定するためのものではなく、説明するためのもので、このような実施例によって本発明の範囲が限定されるのではない。

本発明の保護範囲は特許請求範囲によって解釈されるべきであり、それと同等な範囲内にある全ての技術思想は、本発明の権利範囲に含まれることに理解されるべきである。

Claims

（ａ）客体関連画像を獲得するステップと、
（ｂ）客体認識ディープラーニングモデルを利用して、前記獲得された客体関連画像から前記客体及び客体表示時間を認識するステップとを含む、客体認識方法。
前記（ａ）ステップは、
前記客体関連画像を獲得するステップと、
前記客体関連画像を複数のフレームに分割するステップと、
前記複数のフレームのうち前記客体が含まれたフレームを決めるステップとを含む、請求項１に記載の客体認識方法。
前記（ｂ）ステップは、
予めタギングされた客体の学習イメージから前記客体認識ディープラーニングモデルを学習させるステップと、
前記学習された客体認識ディープラーニングモデルを利用して前記客体関連画像に含まれた客体をタギングするステップとを含む、請求項１に記載の客体認識方法。
前記学習させるステップは、
前記予めタギングされた客体の学習イメージから特徴（ｆｅａｔｕｒｅ）を決めるステップと、
前記決められた特徴をベクトル（ｖｅｃｔｏｒ）値に変換するステップとを含む、請求項３に記載の客体認識方法。
前記客体及び客体表示時間に基づいて前記客体関連画像をディスプレーするステップをさらに含む、請求項１に記載の客体認識方法。
前記客体表示時間に対する入力を獲得するステップと、
前記複数のフレームのうち、前記客体表示時間に対応する前記客体が含まれたフレームをディスプレーするステップとをさらに含む、請求項２に記載の客体認識方法。
客体関連画像を獲得する通信部と、
客体認識ディープラーニングモデルを利用して、前記獲得された客体関連画像から前記客体及び客体表示時間を認識する制御部とを含む、客体認識装置。
前記通信部は、前記客体関連画像を獲得し、
前記制御部は、前記客体関連画像を複数のフレームに分割し、
前記複数のフレームのうち前記客体が含まれたフレームを決める、請求項７に記載の客体認識装置。
前記制御部は、
予めタギングされた客体の学習イメージから前記客体認識ディープラーニングモデルを学習させ、
前記学習された客体認識ディープラーニングモデルを利用して前記客体関連画像に含まれた客体をタギングする、請求項７に記載の客体認識装置。
前記制御部は、
前記予めタギングされた客体の学習イメージから特徴（ｆｅａｔｕｒｅ）を決め、
前記決められた特徴をベクトル（ｖｅｃｔｏｒ）値に変換する、請求項９に記載の客体認識装置。
前記客体及び客体表示時間に基づいて前記客体関連画像をディスプレーする表示部をさらに含む、請求項７に記載の客体認識装置。
前記客体表示時間に対する入力を獲得する入力部と、
前記複数のフレームのうち前記客体表示時間に対応する前記客体が含まれたフレームをディスプレーする表示部とをさらに含む、請求項８に記載の客体認識装置。