JP7478339B2

JP7478339B2 - 視線認識ベースのカスタムコンテンツを提供する装置及び方法

Info

Publication number: JP7478339B2
Application number: JP2023002697A
Authority: JP
Inventors: ハウンアン，; ロクキュイ，; ヒョクジェイ，
Original assignee: NHN Corp; NHN Entertainment Corp
Current assignee: NHN Corp
Priority date: 2022-01-17
Filing date: 2023-01-11
Publication date: 2024-05-07
Anticipated expiration: 2043-01-11
Also published as: KR102665453B1; US20230244309A1; JP2023104899A; KR20230111005A

Description

本発明は、視線認識ベースのカスタマイズされたコンテンツを提供する装置及び方法に関する。より詳細には、商品を凝視する機器ユーザの視線認識に基づいて、機器ユーザの関心度をリアルタイムで推定してカスタマイズ（ｃｕｓｔｏｍｉｚｅ）されたコンテンツを提供する装置及び方法に関する。

情報化時代における多様な方式の広告方法のうち、ディスプレイ装置による広告は、視聴者の関心度にかかわらず一方的に不特定多数の広告を提供する方式である。

視聴者の広告商品に対する関心度や個人性向などによって広告の効果は千差万別であり、広告の効果を高めるために視聴者の好み及び消費パターンなどを収集して個人別にカスタマイズされた広告を提供することもある。

しかしながら、このような情報に基づいて関心度を推測してカスタマイズされた広告を提供することは、視聴者が実際のメディア消費時に感じる関心度を反映することができないという問題がある。

また、所定の装置に広告露出が可能な場合において、当該装置を使用する者の選択を通じて関心のある商品に対する広告を提供する方法があるが、これはユーザの行動を要求するため一方的または自動的に広告を提供する方法に比べて広告の露出が低い。

したがって、ユーザがメディアを消費する際に、ユーザの関心度を即座に反映して自動的に広告を露出する方法が必要となっているのが実情である。

韓国公開特許第２００２－００７９２３６号公報

本発明の目的は、上述のような従来技術の問題を解決するために案出されたものであり、視線認識ベースのカスタマイズされたコンテンツを提供する装置及び方法を提供することにある。

また、本発明の異なる目的は、ユーザの身体的特性に応じて装置に取り付けられたカメラの視野角をリアルタイムで自動調整する視線認識ベースのカスタマイズされたコンテンツを提供する装置及び方法を提供することにある。

さらに、本発明の異なる目的は、ユーザが凝視する商品のコンテンツを出力する視線認識ベースのカスタマイズされたコンテンツを提供する装置及び方法を提供することにある。

また、本発明また他の目的は、複数のユーザの数に合わせてコンテンツ出力画面を分割する視線認識ベースのカスタマイズされたコンテンツを提供する装置及び方法を提供することを目的とする。

但し、本発明及び本発明の実施形態が達成しようとする技術的課題は、上述した技術的課題に限定されず、他の技術的課題が存在し得る。

本発明の実施形態に係る視線認識ベースのカスタマイズされたコンテンツを提供する方法は、コンテンツ提供装置の少なくとも１つのプロセッサによって実行される視線認識ベースのカスタマイズされたコンテンツを提供する方法において、イメージセンサに基づいてユーザの顔認識映像を取得するステップと、取得された顔認識映像に基づいてイメージセンサを制御してユーザの顔の正面画像を取得するステップと、取得された顔の正面画像に基づいて、ユーザの視線方向及び視線固定時間情報を含む視線情報を生成するステップと、生成された視線情報に対応するディスプレイ領域を関心領域として決定するステップと、決定された関心領域にマッチングするアイテムを検出するステップと、検出されたアイテムの商品情報コンテンツを提供するステップを含む。

このとき、取得された顔認識映像に基づいてイメージセンサを制御してユーザの顔の正面画像を取得するステップは、顔認識映像を予め学習されたディープラーニングニューラルネットワークの入力データとして提供するステップと、ディープラーニングニューラルネットワークの出力データでユーザの顔ポーズ情報を取得するステップと、取得された顔ポーズ情報に基づいてイメージセンサを制御するステップを含む。

また、生成された視線情報に対応するディスプレイ領域を関心領域として決定するステップは、ユーザの視線固定時間情報が予め設定された時間以上を満たす場合、ユーザの視線方向に対応するディスプレイ領域を関心領域として決定するステップを含む。

また、決定された関心領域にマッチングするアイテムを検出するステップは、ディスプレイ領域に基づいて出力されるアイテムページを選択するユーザ入力を取得するステップと、選択されたアイテムページ内の関心領域にマッチングするアイテムを検出するステップを含む。

また、視線情報に対応するディスプレイ領域を関心領域として決定するステップは、視線情報が変更されると、変更された視線情報に対応するディスプレイ領域に関心領域をアップデートするステップを含む。

さらに、決定された関心領域にマッチングするアイテムを検出するステップは、関心領域にマッチングするディスプレイ領域内の少なくとも１つの画素（ピクセル）を検出するステップと、検出された少なくとも１つの画素に対して予め格納されたアイテムを検出するステップを含む。

さらに、本発明の実施形態に係る視線認識ベースのカスタマイズされたコンテンツを提供する方法は、ディスプレイ領域内の少なくとも１つの画素を選択するユーザ入力を取得するステップと、選択された少なくとも１つの画素に対して予め格納されたアイテムを検出するステップと、検出されたアイテムの商品情報コンテンツを出力するステップをさらに含む。

さらに、取得された顔の正面画像に基づいてユーザの視線方向及び視線固定時間情報を含む視線情報を生成するステップは、取得された顔認識映像において、第１ユーザの顔領域と第２ユーザの顔領域を検出するステップと、検出された複数のユーザ顔領域を含むようにイメージセンサを含むカメラアングルを制御するステップを含む。

さらに、取得された顔の正面画像に基づいてユーザの視線方向及び視線固定時間情報を含む視線情報を生成するステップは、第１ユーザの顔領域に基づいて第１ユーザの第１視線情報を生成するステップと、第２ユーザの顔領域に基づいて第２ユーザの第２視線情報を生成するステップを含む。

さらに、生成された視線情報に対応するディスプレイ領域を関心領域として決定するステップは、生成した第１視線情報に対応する第１画素面積を決定するステップと、生成した第２視線情報に対応する第２画素面積を決定するステップを含む。

さらに、決定された関心領域にマッチングするアイテムを検出するステップは、決定された第１画素面積にマッチングされた第１アイテムを検出するステップと、決定された第２画素面積にマッチングされた第２アイテムを検出するステップとを含む。

検出されたアイテムの商品情報コンテンツを提供するステップは、ディスプレイ領域を第１ユーザに対応する第１出力画面と、第２ユーザに対応する第２出力画面に分割するステップと、第１出力画面には、検出された第１アイテムに対応する第１コンテンツを出力し、第２出力画面には、第２アイテムに対応する第２コンテンツを出力するステップを含む。

ディスプレイ領域を第１ユーザに対応する第１出力画面と第２ユーザに対応する第２出力画面に分割するステップは、ディスプレイ領域に基づいて第１ユーザの第１位置と、第２ユーザの第２位置を決定するステップと、決定された第１位置に対応する第１ディスプレイ領域を第１出力画面として決定するステップと、決定された第２位置に対応する第２ディスプレイ領域を第２出力画面として決定するステップを含む。

一方、本発明の実施形態に係る視線認識ベースのカスタマイズされたコンテンツを提供する装置は、ユーザの顔認識映像を取得する少なくとも１つのイメージセンサと、取得された顔認識映像に基づいた商品情報コンテンツを出力する少なくとも１つのディスプレイと少なくとも１つのプロセッサとを含み、プロセッサは、顔認識映像に基づいてイメージセンサを制御してユーザの顔の正面画像を取得し、取得された顔の正面画像に基づいてユーザの視線方向及び視線固定時間情報を含む視線情報を生成し、生成された視線情報に対応するディスプレイ領域を関心領域として決定し、決定された関心領域にマッチングするアイテムを検出し、検出されたアイテムの商品情報コンテンツを提供するように制御する。

また、ディスプレイは、少なくとも１つ以上のアイテムの代表画像を出力するアイテムディスプレイと、商品情報コンテンツを出力するコンテンツディスプレイとを含む。

また、プロセッサは、顔認識映像に基づくディープラーニングに基づいてユーザの顔ポーズ情報を取得し、取得された顔ポーズ情報に基づいてイメージセンサを制御してユーザの顔の正面画像を取得する。

また、プロセッサは、顔認識映像を予め学習されたディープラーニングニューラルネットワークの入力データとして入力し、ディープラーニングニューラルネットワークの出力データでユーザの顔ポーズ情報を取得し、取得された顔ポーズ情報に基づいてイメージセンサを制御する。

プロセッサは、視線情報が変更されると、変更された視線情報に対応するディスプレイ領域に関心領域をアップデートするようにディスプレイを制御する。

プロセッサは、関心領域にマッチングするディスプレイ領域内の少なくとも１つの画素を検出し、検出された少なくとも１つの画素に対して格納されたアイテムを検出するように制御する。

プロセッサは、ディスプレイ領域内の少なくとも１つの画素を選択するユーザ入力を取得し、選択された少なくとも１つの画素に対して予め格納されたアイテムを検出し、検出されたアイテムの商品情報コンテンツを出力するように制御する。

本発明の実施形態に係る視線認識ベースのカスタマイズされたコンテンツを提供する装置及び方法は、ユーザの身体的特性に応じて装置に取り付けられたカメラの視野角をリアルタイムで自動調整することによって、ユーザが変わるたびにユーザに合う初期設定の実行にかかる時間を短縮する効果がある。

さらに、本発明の実施形態に係る視線認識ベースのカスタマイズされたコンテンツを提供する装置及び方法は、ユーザが凝視する商品のコンテンツを出力することによってユーザの関心のある商品を直感的に把握してコンテンツの露出によるユーザの満足度を向上させる効果がある。

また、本発明の実施形態に係る視線認識ベースのカスタマイズされたコンテンツを提供する装置及び方法は、複数のユーザ数に合うようにコンテンツ出力画面を分割することによってコンテンツ出力画面を効率的に使用して、各ユーザに広告及び情報の伝達力を上昇させる効果がある。

ただし、本発明で得られる効果は上述した効果に限定されず、言及しないまた他の効果は以下の記載から明確に理解することができる。

本発明の実施形態に係る視線認識ベースのカスタマイズされたコンテンツを提供する装置の内部ブロック図である。本発明の実施形態に係る視線認識ベースのカスタマイズされたコンテンツを提供する装置を説明するための図の一例である。本発明の実施形態に係る視線認識ベースのカスタマイズされたコンテンツを提供する方法を説明するためのフローチャートである。本発明の実施形態に係る顔キーポイント(key point)を推定する方法を説明するための図の一例である。本発明の実施形態に係る視線方向を追跡するための視線情報を説明するための図の一例である。本発明の実施形態に係る視線情報に基づいて関心領域を設定する方法を説明するための図の一例である。本発明の他の実施形態に係る視線認識ベースのカスタマイズされたコンテンツを提供する方法を説明するためのフローチャートである。本発明の他の実施形態に係る複数の視線認識ベースのカスタマイズされたコンテンツが出力される様子を示す一例である。

本発明の実施形態に係る視線認識ベースのカスタマイズされたコンテンツを提供する装置は、ユーザを撮影した映像に基づいて装置に取り付けられたカメラの角度をリアルタイムで自動調整してユーザの視線を認識し、ユーザが凝視するアイテムの商品情報を含むコンテンツである視線認識ベースのカスタマイズされたコンテンツを提供することができる。

実施形態におけるアイテムとは、視線認識ベースのカスタマイズされたコンテンツ提供装置を用いて装置を利用するユーザに販売することができる物品及びサービス等を意味する。

なお、実施形態における商品情報とは、装置を用いてユーザに販売することができるアイテムに対する広告及び付加情報等を意味する。

－視線認識ベースのカスタマイズされたコンテンツ提供装置（１００：Ｄｅｖｉｃｅｆｏｒｐｒｏｖｉｄｉｎｇｃｕｓｔｏｍｉｚｅｄｃｏｎｔｅｎｔｓｂａｓｅｄｏｎｇａｚｅｒｅｃｏｇｎｉｔｉｏｎ）

図１は、本発明の実施形態に係る視線認識ベースのカスタマイズされたコンテンツを提供する装置（以下、コンテンツ提供装置１００）の内部ブロック図である。

図１を参照すると、本発明の実施形態に係るコンテンツ提供装置１００は、視線認識ベースのカスタマイズされたコンテンツを提供するプロセッサアセンブリ１２０が設置された所定のコンピューティング装置であり得る。

実施形態においてコンテンツ提供装置１００は、ユーザが選択した所定のアイテムを購入することができる購入環境を提供することができる。

また、実施形態においてコンテンツ提供装置１００は、ユーザが凝視するアイテムに対する広告及び付加情報を含むコンテンツを装置に含まれたディスプレイに出力するコンテンツ出力環境を提供することができる。

また、実施形態においてコンテンツ提供装置１００は、ユーザの正面を撮影した映像を取得することができる。

このようなコンテンツ提供装置１００は、消費者が一般的にアイテムを購入する環境で利用しやすい自動販売機（Ｖｅｎｄｉｎｇｍａｃｈｉｎｅ、以下自動販売機）又はキオスク（Ｋｉｏｓｋ）で具現されることが最も好ましい実施形態であってもよく、以下の実施形態においては、コンテンツ提供装置１００を自動販売機タイプに基づいて説明するが、これに限定されものではない。

例えば、コンテンツ提供装置１００は、カメラを介して視線を追跡しながら商品を購入するコンテンツ出力環境を表示する様々な表示装置であり得る。例えば、コンテンツ提供装置１００は、スマートフォン、携帯電話、デジタル放送用デバイス、ＰＤＡ（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔｓ）、ＰＭＰ（ｐｏｒｔａｂｌｅｍｕｌｔｉｍｅｄｉａｐｌａｙｅｒ）、タブレットＰＣ（ｔａｂｌｅｔＰＣ）、固定型デスクトップＰＣ、ノートブックコンピュータ（ｌａｐｔｏｐｃｏｍｐｕｔｅｒ）、ウルトラブック（ｕｌｔｒａｂｏｏｋ）などのパーソナルコンピュータなどを含めることができる。

実施形態においては、プロセッサアセンブリ１２０は、前述のコンテンツ提供装置１００に設置され、コンテンツ提供装置１００で実行する様々な機能動作を実行することができる。

さらに、実施形態でコンテンツ提供装置１００は、コンテンツ出力環境を提供するために所定のサーバ（Ｓｅｒｖｅｒ）コンピューティングデバイスをさらに含むこともできる。

一方、図１をさらに参照すると、機能的観点からコンテンツ提供装置１００は、メモリ１１０、プロセッサアセンブリ１２０、通信プロセッサ１３０、決済部１４０、入力システム１５０、センサシステム１６０及びディスプレイシステム１７０及び排出部１８０を含むことができる。このような構成要素は、コンテンツ提供装置１００のハウジング内に含まれるように構成することができる。

詳細には、メモリ１１０には商品情報データベース１１１が格納され、商品情報データベース１１１にはコンテンツ出力環境を提供するための様々なアプリケーションプログラム、データ、及び命令語のうち、いずれか１つ以上が格納されてもよい。

このとき、実施形態において商品情報データベース１１１は、コンテンツ提供装置１００を介して販売するアイテムのそれぞれについて商品情報が予め格納されたデータ集合体を意味する。

すなわち、メモリ１１０は、コンテンツ出力環境を生成するために使用され得る命令及びデータを格納することができる。

また、メモリ１１０は、プログラム領域とデータ領域を含むことができる。

ここで、実施形態に係るプログラム領域は、コンテンツ提供装置１００をブーテイングするオペレーティングシステム（ＯＳ：ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）及び機能要素との間に連携することができ、データ領域は、コンテンツ提供装置１００の使用に従って発生するデータが格納されていてもよい。

さらに、メモリ１１０は、少なくとも１つ以上の非一時的コンピュータ可読記憶媒体と、一時的コンピュータ可読記憶媒体を含んでいてもよい。

例えば、メモリ１１０は、ＲＯＭ、ＥＰＲＯＭ、フラッシュドライブ、ハードドライブなどの様々な記憶機器であってもよく、インターネット（ｉｎｔｅｒｎｅｔ）上でメモリ１１０の記憶機能を実行するウェブストレージ（ｗｅｂｓｔｏｒａｇｅ）を含むことができる。

プロセッサアセンブリ１２０は、購入環境及びコンテンツ出力環境を提供するための様々なタスクを実行するために、メモリ１１０に格納された商品情報データベース１１１の命令を実行することができる少なくとも１つ以上のプロセッサを含むことができる。

実施形態において、プロセッサアセンブリ１２０は、カスタマイズされたコンテンツを提供するためにメモリ１１０の商品情報データベース１１１を介して構成要素の全体的な動作を制御することができる。

このようなプロセッサアセンブリ１２０は、中央処理装置（ＣＰＵ）及び／またはグラフィック処理装置（ＧＰＵ）などが含まれたコンテンツ提供装置１００に適合したシステムオンチップ（ＳＯＣ）であってもよく、メモリ１１０に格納されたオペレーティングシステム（ＯＳ）及び／またはアプリケーションプログラムなどを実行することができ、コンテンツ提供装置１００に搭載された各構成要素を制御することができる。

さらに、プロセッサアセンブリ１２０は、各構成要素と内部的にシステムバス（ＳｙｓｔｅｍＢｕｓ）によって通信を実行することができ、ローカルバス（ＬｏｃａｌＢｕｓ）を含む１つ以上の所定のバス構造を含むことができる。

さらに、プロセッサアセンブリ１２０は、ＡＳＩＣ（ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔｓ），ＤＳＰｓ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒｓ），ＤＳＰＤｓ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇｄｅｖｉｃｅｓ），ＰＬＤｓ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅｓ），ＦＰＧＡｓ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙｓ），コントローラ（ｃｏｎｔｒｏｌｌｅｒｓ），マイクロコントローラ（ｍｉｃｒｏ－ｃｏｎｔｒｏｌｌｅｒ）、マイクロプロセス（ｍｉｃｒｏｐｒｏｃｅｓｓｏｒｓ）、他の機能を実行するための電気的ユニットのうち、少なくとも１つを含んで実現することができる。

通信プロセッサ１３０は、外部の装置と通信するための１つ以上の装置を含んでいてもよい。このような通信プロセッサ１３０は、無線ネットワークを介して通信することができる。

詳細には、通信プロセッサ１３０は、コンテンツ出力環境を実現するためのコンテンツソースを格納した所定のコンピューティングデバイスと通信することができ、ユーザ入力を受けたコントローラのような様々なユーザ入力コンポーネントと通信することができる。

実施形態において、通信プロセッサ１３０は、カスタマイズされたコンテンツに関連する様々なデータを他のコンテンツ提供装置１００及び／または外部のサーバなどと送受信することができる。

詳細には、実施形態において、通信プロセッサ１３０は、ＯＴＴ（ＯｖｅｒＴｈｅＴｏｐ、オンライン動画サービス）を用いて他の外部装置及び外部サーバなどと通信することによって、ユーザが選択したアイテムのコンテンツを受信することができる。

このような通信プロセッサ１３０は、移動通信のための技術標準または通信方式（例えば、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、ＬＴＥ－Ａ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ－Ａｄｖａｎｃｅｄ）、５ＧＮＲ（ＮｅｗＲａｄｉｏ）、ＷＩＦＩ）あるいは、近距離通信方式などを行うことができる通信装置を介して構築された移動通信網上で基地局、外部のコンテンツ提供装置１００、任意のサーバのうち少なくとも１つと無線でデータを送受信することができる。

センサシステム１６０は、イメージセンサ１６１及びオーディオセンサ１６５などの様々なセンサを含むことができる。

ここで、イメージセンサ１６１は、コンテンツ提供装置１００の周囲の物理空間に対する画像及び／または画像をキャプチャーすることができる。

実施形態において、イメージセンサ１６１は、カスタマイズされたコンテンツに関連する映像（実施形態として、ユーザの顔認識映像、顔の正面画像など）を撮影して取得することができる。

また、イメージセンサ１６１は、コンテンツ提供装置１００の前面又は／及び後面に配置されて配置された方向側を撮影して映像を取得することができ、コンテンツ提供装置１００の外部に向けて配置されたカメラを介して物理的空間を撮影することができる。

このとき、実施形態において、カメラは、ユーザの顔位置を認知して角度を調整することができるように、所定の角度調整が可能な形態で実現されるカメラであってもよい。

さらに、実施形態において、カメラは、所定の角度を調整する役割を果たすためのモータをさらに含んでいてもよい。

このようなイメージセンサ１６１は、イメージセンサ装置と映像処理モジュールを含むことができる。詳細には、イメージセンサ１６１は、イメージセンサ装置（例えば、ＣＭＯＳまたはＣＣＤ）によって得られる静止画または動画を処理することができる。

また、イメージセンサ１６１は、映像処理モジュールを用いてイメージセンサ装置を通じて取得された静止画または動画を加工して必要な情報を抽出し、抽出した情報をプロセッサに伝達することができる。

このようなイメージセンサ１６１は、少なくとも１つ以上のカメラを含むカメラアセンブリであってもよい。カメラアセンブリは、可視光帯域を撮影する一般カメラを含んでいてもよく、赤外線カメラ、ステレオカメラなどの特殊カメラをさらに含んでいてもよい。

また、上述したようなイメージセンサ１６１は、実施形態に応じてコンテンツ提供装置１００に含まれて動作することもでき、外部の装置（例えば、外部のサーバなど）に含まれて前述された通信プロセッサ１３０等に基づく連動を通じて動作することもできる。

オーディオセンサ１６５は、コンテンツ提供装置１００周辺の音を認識することができる。

詳細には、オーディオセンサ１６５は、コンテンツ提供装置１００を使用するユーザの音声入力及び／またはコンテンツ提供装置１００の周辺環境から検知されるオーディオ信号などを検知することができるマイクロホンを含むことができる。

決済部１４０は、コンテンツ提供装置１００を介してユーザが選択した所定のアイテムを購入及び利用する費用に対する決済に関する行為全般を行うことができる。

決済部１４０は自販機であればいずれかを備えなければならないものであり、実施形態において決済部１４０は現金投入口、カード投入口、カードリーダ機及び投入金額認識部等を含むことができるが決済に関連する行為を行う構成であれば、いずれの構成も追加できる。

入力システム１５０は、カスタマイズされたコンテンツに関連するユーザの入力（例えば、ジェスチャ、音声コマンド、ボタンの作動、または他の種類の入力）を検知することができる。

詳細には、入力システム１５０は、所定のボタン、タッチセンサ及び／またはユーザモーション入力を受信するイメージセンサ１６１などを含むことができる。

入力システム１５０は、自動販売機であればいずれかを備えなければならないものであり、実施形態において入力システム１５０は、ボタン、タッチセンサ、及びタッチスクリーンとして実現することができるが、ユーザが選択するアイテムに対する入力を実行することができる構成であればいずれの構成も追加することができる。

ディスプレイシステム１７０は、カスタマイズされたコンテンツに関連する様々な情報をグラフィック画像に出力することができる。

実施形態において、ディスプレイシステム１７０は、ディスプレイを用いてユーザの顔認識映像、顔の正面画像、撮影位置フィードバック情報、フィードバックメッセージ及びアイテムコンテンツなどを表示することができる。

このようなディスプレイは、液晶ディスプレイ（ｌｉｑｕｉｄｃｒｙｓｔａｌｄｉｓｐｌａｙ、ＬＣＤ）、薄膜トランジスタ液晶ディスプレイ（ｔｈｉｎｆｉｌｍｔｒａｎｓｉｓｔｏｒ－ｌｉｑｕｉｄｃｒｙｓｔａｌｄｉｓｐｌａｙ、ＴＦＴＬＣＤ）、有機発光ダイオード（ｏｒｇａｎｉｃｌｉｇｈｔ－ｅｍｉｔｔｉｎｇｄｉｏｄｅ、ＯＬＥＤ）、フレキシブルディスプレイ（ｆｌｅｘｉｂｌｅｄｉｓｐｌａｙ）、３次元ディスプレイ（３Ｄｄｉｓｐｌａｙ）、電子インクディスプレイ（ｅ－ｉｎｋｄｉｓｐｌａｙ）のうち少なくとも１つを含むことができる。

このようなコンテンツ提供装置１００のハウジング内には構成要素が配置されてもよく、ユーザインタフェースは、ユーザタッチ入力を受信するように構成されたディスプレイ１７１上にタッチセンサ１７３を含むことができる。

詳細には、ディスプレイシステム１７０は、画像を出力するディスプレイ１７１と、ユーザのタッチ入力を検知するタッチセンサ１７３を含むことができる。

例示的に、ディスプレイ１７１は、タッチセンサ１７３と相互層構造をなすか、または一体形に形成されることによって、タッチスクリーンとして実現することができる。このようなタッチスクリーンは、コンテンツ提供装置１００とユーザとの間の入力インタフェースを提供するユーザ入力部として機能するとともに、コンテンツ提供装置１００とユーザとの間の出力インタフェースを提供することができる。

排出部１８０は、コンテンツ提供装置１００を用いたユーザに提供され得る所定の物品を装置外部に排出することができる。

排出部１８０は、自販機であればいずれかを備えなければならないものであり、実施例において排出部１８０は、ユーザが購入した物品、釣り銭及びレシート等を装置外部に排出することができ、排出に関連する行為を行う構成であれば、いずれの構成でも実現され得る。

一方、本発明の実施形態に係るコンテンツ提供装置１００は、ディープラーニングニューラルネットワーク（Ｄｅｅｐ－ｌｅａｒｎｉｎｇＮｅｕｒａｌＮｅｔｗｏｒｋ）と連動してカスタマイズされたコンテンツ提供に必要なディープラーニングを行うことができる。

ここで、実施形態に係るディープラーニングニューラルネットワークは、畳み込みニューラルネットワーク（ＣＮＮ、ＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ）、Ｒ－ＣＮＮ（ＲｅｇｉｏｎｓｗｉｔｈＣＮＮｆｅａｔｕｒｅｓ）、ＦａｓｔＲ－ＣＮＮ、ＦａｓｔｅｒＲ－ＣＮＮ及び／またはＭａｓｋＲ－ＣＮＮなどを含むことができ、後述する実施形態を実行することができるアルゴリズムを含むディープラーニングニューラルネットワークであればいかなるものも含むことができ、本発明の実施形態においてはこのようなディープラーニングニューラルネットワーク自体を限定または制限することはない。

詳しくは、実施形態において、コンテンツ提供装置１００は、前述したディープラーニングニューラルネットワークに基づくポーズエスティメーションモデル（ＰｏｓｅＥｓｔｉｍａｔｉｏｎＭｏｄｅｌ）及びゲイズエティメーションモデル（ＧａｚｅＥｓｔｉｍａｔｉｏｎＭｏｄｅｌ）を用いてカスタマイズされたコンテンツ提供に必要なディープラーニングを行うことができる。

このとき、ＰｏｓｅＥｓｔｉｍａｔｉｏｎＭｏｄｅｌはＷｈｏｌｅ－ＢｏｄｙＨｕｍａｎＰｏｓｅＥｓｔｉｍａｔｉｏｎｉｎｔｈｅＷｉｌｄ及びＲＭＰＥ：ＲｅｇｉｏｎａｌＭｕｌｔｉ－ＰｅｒｓｏｎＰｏｓｅＥｓｔｉｍａｔｉｏｎ論文を用いて設計したモデルである。

また、ＧａｚｅＥｓｔｉｍａｔｉｏｎＭｏｄｅｌは、ＬｅａｒｎｉｎｇｔｏＦｉｎｄＥｙｅＲｅｇｉｏｎＬａｎｄｍａｒｋｓｆｏｒＲｅｍｏｔｅＧａｚｅＥｓｔｉｍａｔｉｏｎｉｎＵｎｃｏｎｓｔｒａｉｎｅｄＳｅｔｔｉｎｇｓ及びＧａｚｅ３６０：ＰｈｙｓｉｃａｌｌｙＵｎｃｏｎｓｔｒａｉｎｅｄＧａｚｅＥｓｔｉｍａｔｉｏｎｉｎｔｈｅＷｉｌｄ論文を用いて設計したモデルである。

このようなディープラーニング技術を用いて、実施形態に係るコンテンツ提供装置１００は、ユーザの初期カメラ位置をリアルタイムで自動調整することができる。

また、このようなディープラーニング技術を用いて、実施形態に係るコンテンツ提供装置１００は、リアルタイムで視線追跡対象となるユーザを判断し、自動にユーザの視線を追跡することができる。

図２は、本発明の実施形態に係る視線認識ベースのカスタマイズされたコンテンツを提供する装置１００を説明するための図の一例である。

図２を参照すると、コンテンツ提供装置１００は、一側に決済部１４０、イメージセンサ１６１、ディスプレイ１７１、及び排出部１８０を含むことができる。

イメージセンサ１６１は、ユーザ１の視線を認識するためにユーザ１に販売しようとするアイテムとアイテム画像が陳列された一側と同じ一側に含まれ得る。

また、ディスプレイ１７１は、コンテンツディスプレイ１７１－１及びアイテムディスプレイ１７１－２を含むことができる。

実施形態におけるコンテンツディスプレイ１７１－１とは、ユーザ１の視線を認識してユーザ１の視線が到達するアイテムの商品情報を含むコンテンツが出力されるディスプレイを意味する。

なお、実施形態においてアイテムディスプレイ１７１－２とは、ユーザ１に販売しようとするアイテムを代表するイメージが出力されるディスプレイを意味する。このとき、アイテムディスプレイ１７１－２領域内には所定のボタンが位置するか、領域の一部または全部にタッチセンサ１７３が内装されていてもよい。

すなわち、これによりコンテンツ提供装置１００は、アイテムディスプレイ１７１－２に基づいてユーザ１の入力を受信することができるユーザインタフェースを提供することができる。

なお、決済部１４０及び排出部１８０は、ユーザ１が使用しやすい位置であれば、コンテンツ提供装置１００上のどこでも位置することができ、図示したものに限定されるものではない。

－コンテンツ提供装置１００が視線認識ベースのカスタマイズされたコンテンツを提供する方法

以下、本発明の実施形態に係る少なくとも１つ以上のプロセッサを含むプロセッサアセンブリ１２０によって実行されるコンテンツ提供装置１００が視線認識ベースのカスタマイズされたコンテンツを提供する方法を添付した図３～図７を参照して詳細に説明する。

図３は本発明の一実施形態に係る視線認識ベースのカスタマイズされたコンテンツを提供する方法を説明するためのフローチャートである。

図３を参照すると、コンテンツ提供装置１００は、ユーザ１のアクセス（接近）を認識することができる（Ｓ１０１）。

詳しくは、実施形態において、コンテンツ提供装置１００は、装置１００に取り付けられたイメージセンサ１６１を用いてユーザ１のアクセスを認識することができる。

このとき、実施形態において、コンテンツ提供装置１００は、予め設定された正常のアクセス基準情報にマッチングするようにユーザ１の状態を変動させることができる。

ここで、実施形態に係る正常アクセス基準情報は、コンテンツ提供装置１００を利用しようとするユーザ１に要求される初期位置情報及び初期容貌情報を含むことができる。

このとき、初期位置情報とは、ユーザ１の配置状態（実施例として、位置や角度など）を案内する情報であってもよい。なお、初期容貌情報とは、ユーザ１の容貌状態（実施形態として、目及び顔を認識するための容貌）を案内する情報で有り得る。

詳細には、コンテンツ提供装置１００は、装置管理者の設定及び予め設定されたプロセスに従って所定の初期位置情報及び初期容貌情報を予め構築することができる。

実施形態として、初期位置情報は、ユーザ１の顔を撮影することができる所定の位置を案内するように予め設定されてもよい。また、初期容貌情報は、ユーザ１がコンテンツ提供装置１００を利用しながら維持するように要求される所定の容貌状態（例えば、帽子やサングラスなどを未着用の状態など）を案内するように予め設定されていてもよい。

また、実施形態ではいおいて、コンテンツ提供装置１００は、上述したように予め設定された正常のアクセス基準情報に基づいてアクセスフィードバック情報を生成してディスプレイ１７１を介して出力してユーザ１に提供することができる。

ここで、アクセスフィードバック情報とは、ユーザ１の姿を撮影する際に撮影環境条件を満たす位置で顔認識映像を取得するようにユーザ１の状態（実施形態において、位置、角度、容貌など）の調整／変更を案内する情報を意味することができる。

このとき、撮影環境条件は、コンテンツ提供装置１００を利用するユーザ１の顔領域を容易に推定するための条件として、実施形態としてはユーザ１の顔キーポイント及び視線情報を取得しやすい条件であってもよく、これに対する詳細な説明は後述する。

例えば、図２を再び参照すると、コンテンツ提供装置１００は、撮影環境条件に関連する「エリア内に位置して下さい」、「イメージセンサ１６１を眺めて下さい」及び「帽子を脱いで下さい」などのようなアクセスフィードバック情報を、ディスプレイ１７１を介してテキスト化して出力することによって、ユーザ１の位置、角度及び容貌を調整することができる。

このようにして、実施形態において、コンテンツ提供装置１００は、イメージセンサ１６１を用いてユーザ１の顔認識映像１０を撮影及び取得することができる。

このとき、実施形態において顔認識映像１０とは、ユーザの顔領域を判断するためにユーザがコンテンツ提供装置１００と所定距離近く近づいたときにユーザの顔を認識した映像を意味する。

次に、実施形態において、コンテンツ提供装置１００は、カメラアングルを調整して顔の正面画像を取得することができる（Ｓ１０３）。

詳細には、実施形態において、コンテンツ提供装置１００は、顔認識映像１０に基づいてディープラーニングモデルを介してユーザの顔領域を判断し、これに応じてカメラに含まれたモータを用いてカメラの位置及び角度を調整することで、顔の正面画像を取得することができる。

このとき、コンテンツ提供装置１００は、ディープラーニングモデルのうち、ＰｏｓｅＥｓｔｉｍａｔｉｏｎＭｏｄｅｌを用いてユーザ１の顔キーポイントを検出することができる。

図４は、本発明の実施形態に係る顔キーポイント（ｋｅｙｐｏｉｎｔ）３０を推定する方法を説明するための図の一例である。

図４を参照すると、コンテンツ提供装置１００は、取得したユーザ１の顔認識映像１０に基づいてディープラーニング分析を行い、顔認識映像１０内の顔キーポイント３０を検出することができる。

ここで、実施形態に係る顔キーポイント３０は、ユーザ１の顔形状を特定することができる少なくとも１つ以上のキーポイント及びサブキーポイント３１を含むことができる。

実施形態として、顔キーポイント３０は、凝視者の目の形状を特定する目のキーポイント、鼻の形状を特定する鼻のキーポイント、口の形状を特定する口のキーポイント、及び／または耳の形状を特定する耳のキーポイントなどを含み、前述の少なくとも１つ以上のキーポイントは、サブキーポイント３１に接続されてもよい。

すなわち、実施形態においてコンテンツ提供装置１００は、所定のディープラーニングニューラルネットワークと連動して顔認識映像１０からユーザ１の顔キーポイントを抽出する検出ディープラーニングを行うことができる。

また、コンテンツ提供装置１００は、ディープラーニングニューラルネットワークの出力データとして抽出されたユーザ１の複数の顔キーポイントに基づいて、ユーザ１の顔の向き及び角度などを含む情報である顔ポーズ情報を取得することができる。

すなわち、ステップＳ１０１で前述した撮影環境条件は、ユーザ１の顔形状を特定する顔キーポイント３０を全て含む条件と、顔キーポイント３０に基づく画素面積が所定の基準（例えば、予め設定された画素面積以上及び顔認識映像１０の全画素面積に対する予め設定された割合以上など）を満たす条件を含むことができる。

また、実施形態においてコンテンツ提供装置１００は、検出されたユーザ１の顔キーポイントに基づいて、ユーザ１の顔方向及び角度等を含む情報である顔ポーズ情報を取得することができる。

また、実施形態において、コンテンツ提供装置１００は、取得したユーザ１の顔ポーズ情報に基づいてイメージセンサを制御することができる。

イメージセンサの制御を実行するために、コンテンツ提供装置１００は、所定の顔キーポイントに基づいた標準正面顔領域情報を設定しておくことができる。

実施形態として、コンテンツ提供装置１００は、所定の顔キーポイント間の群集度（実施例として、所定の長さ（例えば、間隔０．１ｃｍ、誤差範囲±５％など）の基準間隔、所定の幅（例えば、３平方センチメートル（ｃｍ^２）及び誤差範囲±５％等）の基準面積等）、所定の顔キーポイントの個数及び／又は存在有無等を含む標準正面顔領域情報を予め設定しておくことができる。

すなわち、コンテンツ提供装置１００は、取得したユーザ１の顔ポーズ情報及び予め設定された標準正面顔領域情報を比較し、誤差値に応じて顔ポーズ情報を取得することができる。

また、コンテンツ提供装置１００は取得した顔ポーズ情報に基づいて前述したイメージセンサを制御することにより、ユーザ１の顔の正面姿を含む顔の正面画像を取得することができる。

また、撮影環境条件に応じて実施形態においてコンテンツ提供装置１００は、顔認識映像１０に認識されたユーザ１の顔領域ＦＡが複数個の場合、認識された複数個の顔領域ＦＡのうち、所定の大きさ（例えば、３平方センチメートル（ｃｍ^２））以下の顔領域ＦＡを判断対象から除外することができる。

例えば、コンテンツ提供装置１００を利用しようとするユーザが２人以上であり利用順番でないユーザの顔領域が認識された場合、利用順番ではないユーザの顔領域を判断対象から除外することにより、利用順番であるユーザーの顔領域（ＦＡ）だけを認識することができる。

また、コンテンツ提供装置１００は、ユーザ１の顔領域ＦＡをリアルタイムかつ自動で判断することができ、これによりカメラのアングルをリアルタイムかつ自動的に変更することができる。

すなわち、コンテンツ提供装置１００は、判断されたユーザ１の顔領域ＦＡを正常に認識するためにカメラに含まれるモータを用いてカメラの視野角を変動させることによりリアルタイム及び自動にユーザ１に合わせてカメラの角度を調整できる。

また、実施形態において、コンテンツ提供装置１００は、カメラの角度を調整することによってユーザ１の顔の正面画像を取得することができる。

このとき、顔の正面画像２０とは、ユーザ１の視線情報４０を取得するためのものであり、顔認識映像１０に基づいてユーザの目、鼻、口がよく現れるようにカメラのアングルを調整することによって取得されたユーザ１の顔の正面姿を含む画像を意味することができる。

次に、実施形態では、コンテンツ提供装置１００は、ユーザ１の視線を追跡して視線情報４０を生成することができる（Ｓ１０５）。

詳細には、実施形態においては、コンテンツ提供装置１００は、ユーザ１の顔領域ＦＡに含まれた目のキーポイント３０－Ｅに基づいてユーザ１の視線を追跡して視線情報４０を生成することができる。

ここで、視線情報４０とは、ユーザ１の視線位置、視線方向及び視線固定時間（例えば、秒（ｓｅｃｏｎｄ）））などを推定した情報であり、ユーザ１の視線に関する様々な情報を含むことができる。

すなわち、実施形態において、コンテンツ提供装置１００は、ユーザ１の顔の正面画像２０に基づいてユーザ１の視線方向を追跡することにより、ユーザ１の視線情報４０を生成することができる。

図５は、本発明の実施形態に係る視線方向を追跡するための視線情報４０を説明するための図の一例である。

図５を参照すると、実施形態においてコンテンツ提供装置１００は、顔の正面画像２０に含まれた目キーポイント３０－Ｅに基づいてユーザ１の視線方向を追跡することができる。

詳細には、実施形態において、コンテンツ提供装置１００は、顔の正面画像２０が含む複数の顔キーポイント３０のうち、ユーザ１の視線情報を提供する目キーポイント３０－Ｅに基づいてユーザ１の視線方向を追跡することができる。

このとき、顔の正面画像１０は、ユーザ１がコンテンツ提供装置１００を利用しながら購入決定を下している間の姿を含み、目キーポイント３０－Ｅは、ステップＳ１０３における所定のディープラーニング学習プロセス（実施形態において、ＰｏｓｅＥｓｔｉｍａｔｉｏｎＭｏｄｅｌを利用）を経て顔領域ＦＡで目の位置を推定することによって検出することができる。

また、実施形態において、コンテンツ提供装置１００は、検出された目キーポイント３０－Ｅを介してユーザ１の視線を継続的に追跡した情報である視線情報４０を生成することができる。

ここで、実施に形態においてコンテンツ提供装置１００は、所定のディープラーニング学習過程（実施形態において、ＧａｚｅＥｓｔｉｍａｔｉｏｎＭｏｄｅｌを利用）を経てユーザ１の視線位置及び方向を推定して視線情報４０を生成できる。

このとき、実施形態においてコンテンツ提供装置１００は、生成された視線情報４０に含まれたユーザ１の視線固定時間が所定の時間以上（例えば、０．５秒以上など）である場合、視線固定時間を関心時間に設定することができる。

ここで、実施形態においてコンテンツ提供装置１００は、関心時間に設定された視線固定時間が複数の場合、そのうち最も長い時間のみを関心時間とみなして設定することができる。

また、実施形態において、コンテンツ提供装置１００は、生成された視線情報４０に基づいて関心領域を判断することができる（Ｓ１０７）。

詳細に、実施形態において、コンテンツ提供装置１００は、生成された視線情報４０に含まれた関心時間に基づいて関心領域を判断することができる。

図６は本発明の実施形態に係る視線情報４０に基づいて関心領域を設定する方法を説明するための図の一例である。

図６を参照すると、コンテンツ提供装置１００は、ユーザ１がコンテンツ提供装置１００のアイテムディスプレイ１７１－２上に出力された少なくとも１つ以上のアイテムのうちどのアイテムを見つめたかを視線情報４０に含まれた関心時間に基づいて関心領域を判断することができる。

言い換えれば、実施形態において関心領域とは、ユーザ１の視線が所定の時間以上留まる領域であり、関心時間に基づいて判断することができる。

詳細には、図６は、説明の便宜のため、コンテンツ提供装置１００に取り付けられたイメージセンサの視点でない、ユーザ１の視点の視線情報４０で有り得る。すなわち、図６に示された視線情報４０はユーザの視線とみなすことができる。

このとき、視線情報４０に含まれる（ａ）及び（ｂ）は、関心時間に基づいて判断された関心領域であってもよい。（ａ）及び（ｂ）の大きさは関心時間に比例し、前述したように実施形態において、コンテンツ提供装置１００は、さらに大きな関心時間が設定された（ｂ）が形成された領域を関心領域と判断することができる。

また、ここで判断される関心領域は、コンテンツ提供装置１００のアイテムディスプレイ１７１－２上に出力された少なくとも１つ以上のアイテム画像ＩＭＧ上に位置することができる。

また、コンテンツ提供装置１００は、ユーザ１が少なくとも１人以上の場合、視線情報４０をユーザ１の数に比例する個数で生成することができる。

再び戻って、実施形態において、コンテンツ提供装置１００は、判断された関心領域と一致率が高い画素面積ＰＡを導出することができる（Ｓ１０９）。

詳細には、実施形態において、コンテンツ提供装置１００は、判断された関心領域及びアイテムディスプレイ１７１－２に含まれた画素面積ＰＡとの一致率を比較することによって、複数の画素面積ＰＡのうち一致率が最も高い第１画素面積ＰＡ－１を導出することができる。

ここで、画素面積ＰＡとは、複数のアイテムが陳列されたり、アイテム画像ＩＭＧが露出したアイテムディスプレイ１７１－２で各アイテムが位置した所定の領域を意味する。

すなわち、このために実施形態においてコンテンツ提供装置１００は、画素面積ＰＡ毎にアイテム及びアイテム画像ＩＭＧを個別にマッチングして少なくとも１つ以上の画素面積ＰＡを予め設定することができる。

なお、アイテム画像（ＩＭＧ）とは、コンテンツ提供装置１００を用いて当該装置を利用するユーザに販売することができるアイテムの代表画像を意味してもよく、アイテムディスプレイ１７１－２上に少なくとも１つ以上出力することができる。

したがって、画素面積ＰＡ及びアイテムイメージＩＭＧは、コンテンツ提供装置１００で提供するアイテム数に対応する数だけ存在することができる。

また、実施形態においてコンテンツ提供装置１００は、アイテムディスプレイ１７１－２を予め設定された割合で分割して（例えば、９分割）分割した各領域を画素面積ＰＡと設定する方法及び各アイテム画像（ＩＭＧ）に隣接する所定の領域（例えば、アイテム画像ＩＭＧを含む矩形領域）を画素面積ＰＡと設定する方法などを用いて画素面積ＰＡを予め設定することができる。

本発明の実施形態においては、コンテンツ提供装置１００が後者の方法を用いて画素面積ＰＡを予め設定する方法に基づいて図面に図示及び説明するが、画素面積ＰＡを予め設定する方法は、これに限定されず、様々な実施形態が存在することができる。

実施形態において、コンテンツ提供装置１００は、アイテムディスプレイ１７１－２に含まれた複数の画素面積ＰＡと判断されたユーザ１の関心領域の一致率を比較し、一致率が最も高い第１画素面積（ＰＡ－１）を導出することができる。

再び図６を参照すると、実施形態において、コンテンツ提供装置１００は、販売中のアイテムの数に対応する数だけ（例えば、図６に基づいて９つ）の画素面積ＰＡを予め設定することができる。このとき、各々の画素面積ＰＡには、１つのアイテム及びアイテム画像ＩＭＧを含むことができる。

また、実施形態においてコンテンツ提供装置１００は、ユーザの関心領域である（ｂ）と一致率が最も高い第１画素面積（例えば、図６においてＰＡ－１）を導出することができる。

このとき、実施形態においてコンテンツ提供装置１００は、複数の画素面積ＰＡのうち関心領域と一致率が最も高い（例えば、一致率８０％以上）第１画素面積ＰＡ－１を導出することができる。

次に、実施形態においてコンテンツ提供装置１００は、導出された画素面積ＰＡにマッチングしたアイテムを検出することができる（Ｓ１１１）。

このために、実施形態においてコンテンツ提供装置１００は、画素面積ＰＡ毎にマッチングされたアイテムをユーザ１が凝視するアイテムであると判断することにより検出することができる。

すなわち、実施形態においてコンテンツ提供装置１００は、複数の画素面積ＰＡのうち関心領域と一致率が最も高い第１画素面積ＰＡ－１を導出し、導出された第１画素面積ＰＡ－１にマッチングされたアイテムを検出することができる。

このとき、検出されたアイテムは、該当アイテムの広告及び付加情報である商品情報を含むことができる。このために、実施形態では、コンテンツ提供装置１００は、コンテンツ提供装置１００を用いてユーザ１に販売されるアイテムのそれぞれに含まれた商品情報をアイテム毎に個別にマッチングして商品情報データベース１１１に予め格納しておくことができる。

一方、アイテムディスプレイ１７１－２上に一度に露出可能なアイテム画像（ＩＭＧ）数の制限で複数のアイテムページが存在する場合でも、該当するアイテムページ内の所定の画素面積ＰＡにマッチングされたアイテムを検出することができる。

このために、実施形態において、コンテンツ提供装置１００は、入力システム１５０を用いてユーザ１のアイテムページ変更入力を検知することができる。

また、実施形態においてコンテンツ提供装置１００は、ユーザ１のアイテムページ変更入力に応じて、該当するアイテムページ内の所定の画素面積ＰＡにマッチングされたアイテム及びアイテム画像ＩＭＧを変更することができる。

これにより、コンテンツ提供装置１００は、ユーザ１の入力により変更されたアイテムページ上で導出された画素面積ＰＡにマッチングされたアイテムを検出することができる。

例えば、再び図６を参照すると、ユーザ１の入力を検知して第１アイテムページを第２アイテムページに変更した場合、コンテンツ提供装置１００は第１画素面積ＰＡ－１にマッチングされた第１アイテムを第２アイテムに変更することができる。

このとき、複数のアイテムページの画素面積ＰＡごとに露出されるアイテム画像ＩＭＧが変更され、それに応じて検出されるアイテムも異なるため、このためにコンテンツ提供装置１００は、予め設定されたピクセル面積ＰＡにアイテムページ情報を含めることができる。

すなわち、ユーザ１が同じアイテムディスプレイ１７１－２領域を視聴することにより、コンテンツ提供装置１００が同じ画素面積ＰＡを導出しても、画素面積ＰＡに含まれるアイテムページ情報に応じて異なるアイテムを検出することができる。

続いて、実施形態では、コンテンツ提供装置１００は、検出されたアイテムのコンテンツを出力することができる（Ｓ１１３）。

詳細には、実施形態において、コンテンツ提供装置１００は、商品情報データベース１１１に基づいて検出されたアイテムの商品情報をコンテンツとしてコンテンツディスプレイ１７１－１に出力することができる。

また、商品情報データベース１１１に検出されたアイテムに関する商品情報が未存在である場合、実施形態においてコンテンツ提供装置１００は、通信プロセッサ１３０を用いたＯＴＴサービスで検出されたアイテムに対する広告及び付加情報を含むコンテンツを取得してコンテンツディスプレイ１７１－１に出力することもできる。

実施形態にしたがって、コンテンツ提供装置１００は、商品情報データベース１１１から画素面積にマッチングするアイテムを検出し、検出されたアイテムの商品情報を開示したＯＴＴサービス（Ｏｖｅｒ－ｔｈｅ－ｔｏｐｍｅｄｉａｓｅｒｖｉｃｅ）に基づいてインターネット経由で取得して提供することもできる。

まとめると、コンテンツ提供装置１００は、アイテムディスプレイ１７１－２に露出された複数のアイテムのうち、ユーザ１が凝視するアイテムを判断及び検出して当該アイテムに対する広告及び付加情報をコンテンツディスプレイ１７１－１上に出力することにより、ユーザ１にコンテンツを提供することができる。

また、コンテンツ提供装置１００は、ユーザ１の視線情報だけでなく、入力システム１５０を用いてユーザ１のアイテム選択入力を検知することによってユーザ１にコンテンツを提供することもできる。

このために、コンテンツ提供装置１００は、アイテムディスプレイ１７１－２に露出された複数のアイテムのうち少なくとも１つのアイテムを含まれた画素（ピクセル）面積ＰＡを選択するユーザ１のアイテム選択入力を検知することができる。

入力に応じて、コンテンツ提供装置１００は、ユーザ１が選択した画素面積ＰＡを導出することができ、導出された画素面積ＰＡにマッチングされたアイテムを検出して検出されたアイテムに対する商品情報コンテンツを出力することができる。

また、実施形態においてコンテンツ提供装置１００は、ステップＳ１０５で生成されたユーザ１の視線情報４０に基づいてコンテンツディスプレイ１７１－１に露出されるコンテンツを管理（実施形態において、再生、変更、停止、終了）できる。

例えば、１）アイテムディスプレイ１７１－２上でユーザ１の視線情報４０が未収集の場合、実施形態においてコンテンツ提供装置１００は、ユーザ１がコンテンツディスプレイ１７１－１に再生中のコンテンツを継続的に見つめていると判断して、再生中のコンテンツをコンテンツディスプレイ１７１－１上に出力する状態を維持することができる。

また、例えば、２）アイテムディスプレイ１７１－２上でユーザ１の視線情報４０が収集され、視線情報４０に含まれた関心領域が変更された場合、実施形態においてコンテンツ提供装置１００は、再生中のコンテンツを停止してステップＳ１０９に回帰してユーザ１が新たに凝視するアイテムに対するコンテンツに変更して再生することができる。

また、例えば、３）アイテムディスプレイ１７１－２上でユーザ１の視線情報４０が未収集であり、イメージセンサ１６１を用いて取得される顔認識映像１０が未存在である場合、実施形態において、コンテンツ提供装置１００は、ユーザ１がアイテムの購入を望んでいないため、コンテンツ提供装置１００の利用を中断したと判断して再生中のコンテンツを終了することがある。

前述した３）の場合には、コンテンツディスプレイ１７１－１上にユーザ１ではない一般行為者を対象に一般広告を出力することができ、これによりコンテンツ提供装置１００の使用効率を増加させることができる効果がある。

一方、他の実施形態に係るコンテンツ提供装置１００は、複数のユーザがコンテンツ提供装置１００を利用する場合であっても、複数のユーザのそれぞれに対して視線認識ベースのカスタマイズされたコンテンツを提供することもできる。

以下の他の実施形態においては、前述した実施形態と相違がある内容についてのみ叙述し、叙述されない内容は、前述した実施形態の方法を準用するものとみなす。

図７は本発明の他の実施形態に係る視線認識ベースのカスタマイズされたコンテンツを提供する方法を説明するためのフローチャートである。

図７を参照すると、他の実施形態において、コンテンツ提供装置１００は、顔認識映像１０に基づいて複数のユーザ顔領域ＦＡを認識することができる（Ｓ３０１）。

詳しくは、他の実施形態において、コンテンツ提供装置１００は、顔認識映像１０に認識されたユーザ１の顔領域ＦＡが複数あり、認識された顔領域ＦＡが全て所定の大きさ（例えば、３平方センチメートル（ｃｍ^２）以上の場合、複数のユーザ顔領域ＦＡを認識することができる。

説明の便宜のため、複数のユーザ１が２人の場合に基づいて説明するが、これに限定されず、さらに少ないかまたは多数のユーザ１が存在する様々な実施形態が可能であってもよい。

例えば、コンテンツ提供装置１００を利用しようとするユーザ１が２人であり、認識された顔領域（ＦＡ）２つが全て所定の大きさ以上である場合、コンテンツ提供装置１００はコンテンツ提供装置１００を利用しようとするユーザ１が複数名であることを判断することができる。

次いで、他の実施形態において、コンテンツ提供装置１００は、認識された顔領域ＦＡに従ってカメラアングルを調整することができる（Ｓ３０３）。

詳しくは、他の実施形態において、コンテンツ提供装置１００は、認識された顔領域ＦＡが複数であるため、複数の顔領域ＦＡの全てが正常に認識される角度を導出してカメラアングルを調整することができる。

例えば、コンテンツ提供装置１００は、カメラ中心点が認識された２つの顔領域ＦＡの正中央に位置することができるようにカメラアングルを調整することができる。

また、他の実施形態において、コンテンツ提供装置１００は、複数のユーザの視線を追跡して第１視線情報及び第２視線情報を生成することができる（Ｓ３０５）。

このとき、他の実施形態において、コンテンツ提供装置１００は、第１ユーザの視線を追跡した視線情報である第１視線情報及び第２ユーザの視線を追跡した視線情報である第２視線情報を生成することができる。

また、他の実施形態において、コンテンツ提供装置１００は、生成された複数の視線情報に基づいて第１関心領域及び第２関心領域を判断することができる（Ｓ３０７）。

このとき、別の実施形態において、コンテンツ提供装置１００は、生成された第１視線情報から第１関心領域を判断し、第２視線情報から第２関心領域を判断することができる。

すなわち、他の実施形態において、コンテンツ提供装置１００は、ユーザの数に比例する数の視線情報及び関心領域を生成することができる。

また、他の実施形態において、コンテンツ提供装置１００は、判断された複数の関心領域と一致率が高い第１画素面積及び第２画素面積を導出することができる（Ｓ３０９）。

このとき、他の実施形態においてコンテンツ提供装置１００は、導出された第１画素面積と第２画素面積が同一である場合、複数のユーザが凝視するアイテムが同一であると判断してＳ１１１及びＳ１１３と同様の方法でコンテンツディスプレイ（１７１－１）に１つのコンテンツのみを出力することができる。

言い換えれば、他の実施形態において、コンテンツ提供装置１００は、導出された第１画素面積と第２画素面積が異なる場合、複数のユーザが凝視するアイテムが異なると判断し、複数のコンテンツをコンテンツディスプレイ（１７１－１）に出力するためにステップＳ３１１を実行することができる。

また、他の実施形態において、コンテンツ提供装置１００は、導出された複数の画素面積にマッチングされた第１アイテム及び第２アイテムを検出することができる（Ｓ３１１）。

次いで、他の実施形態において、コンテンツ提供装置１００は、コンテンツディスプレイ１７１－１に出力画面を分割することができる（Ｓ３１３）。

このとき、コンテンツディスプレイ１７１－１の出力画面は、認識されたユーザの数に対応する数に分割することができる。

また、他の実施形態において、コンテンツ提供装置１００は、分割された出力画面にそれぞれ第１コンテンツ及び第２コンテンツを出力することができる（Ｓ３１５）。

さらに、他の実施形態において、コンテンツ提供装置１００は、各ユーザに近い位置の分割されたコンテンツディスプレイ１７１－１の出力画面にそれぞれ第１コンテンツ及び第２コンテンツを出力することができる。

図８は、本発明の他の実施形態に係る複数の視線認識ベースのカスタマイズされたコンテンツが出力される様子を示す一例である。

図８を参照すると、他の実施形態において、コンテンツ提供装置１００は、第１ユーザ１－Ａ及び第２ユーザ１－Ｂの視線をそれぞれ追跡してアイテムディスプレイ１７１－２に含まれた第１画素面積ＰＡ－Ａ及び第２画素面積ＰＡ－Ｂを導出することができる。

このとき、他の実施形態において、コンテンツ提供装置１００は、第１画素面積ＰＡ－Ａ及び第２画素面積ＰＡ－Ｂの位置に関係なく、第１ユーザ１－Ａ及び第２ユーザ１－Ｂの位置に基づいて各ユーザに近い分割出力画面にコンテンツを出力することができる。

例えば、コンテンツ提供装置１００は、第１ユーザ１－Ａが凝視する第１画素面積ＰＡ－Ａに該当するアイテムに対するコンテンツは第１ユーザに近いＡ’分割出力画面に出力することができ、第２ユーザ１－Ｂが凝視する第２画素面積ＰＡ－Ｂに対応するアイテムのコンテンツは、第２ユーザに近いＢ’分割出力画面に出力することができる。

そして、コンテンツ提供装置１００は、第２ユーザの第２視線情報がＡ’分割出力画面に所定時間以上固定されることを検知すると、Ｂ’分割出力画面に第２コンテンツ出力を停止し、第１コンテンツを出力することができる。このとき、コンテンツ提供装置１００は、第１コンテンツの再生時点をＡ’分割出力画面に出力された現在時点と一致させるように制御して第１コンテンツを出力することができる。そして、コンテンツ提供装置１００は、第２ユーザの第２視線情報が第１コンテンツを出力するように制御されたＢ’分割出力画面に対応するように変更されることを検知すると、第１コンテンツ出力を持続することができる。また、コンテンツ提供装置１００は、第２ユーザの第２視線情報が第１コンテンツを出力するように制御されたＢ’分割出力画面に変更されず、Ａ’分割出力画面に第１コンテンツに変更された時点から所定の時間が経過すると、Ａ’分割出力画面とＢ’分割出力画面を組み合わせてディスプレイ領域全体に第１コンテンツを出力することができる。このとき、第１コンテンツの出力方向は、第１ユーザの第１視線情報とマッチングするようにコンテンツ提供装置１００が制御することができる。また、コンテンツ提供装置１００は、分割出力画面結合時の異質感を低減するために、Ａ’分割出力画面の第１コンテンツが徐々に大きくなりながら、Ｂ’分割出力画面まで表示されるように制御することができる。そして、コンテンツ提供装置１００は、第２ユーザに第１コンテンツに対する情報要求／購入などの追加入力可能なインタラクション画面をＢ’分割出力画面内の所定の領域に表示するように制御することができる。そして、コンテンツ提供装置１００は、インタラクション画面を介した第２ユーザの入力を検知すると、再びＢ’分割出力画面とＡ’分割出力画面に分割した後、Ｂ’分割出力画面には第２ユーザの入力に応じてカスタマイズされたコンテンツを提供する画面を出力するように制御することができる。

一方、コンテンツ提供装置１００は、第１ユーザが第２ユーザによる分割出力画面変換に不便を感じないように、第１ユーザがＡ’分割出力画面のサイズを固定するロック（ｒｏｃｋ）モードを提供できる。第１ユーザがＡ’分割出力画面をロックモードに決定する場合、追加ユーザの検知、第２ユーザの位置や視線情報に関係なく現在の大きさと位置に固定された状態で第１ユーザの第１視線情報に応じたカスタマイズされたコンテンツを持続的に提供することができる。

また、他の実施形態においてコンテンツ提供装置１００は、ステップＳ３０１で認識したユーザ顔領域ＦＡの位置に対応して分割出力画面を指定することができる。

以上本発明の一実施形態に係る視線認識ベースのカスタマイズされたコンテンツを提供する装置及び方法は、ユーザの身体的特性に応じて装置に取り付けられたカメラの視野角をリアルタイムで自動的に調整することによってユーザが変わるたびにユーザに合う初期設定実行にかかる時間を短縮する効果がある。

さらに、本発明の実施形態に係る視線認識ベースのカスタマイズされたコンテンツを提供するための装置及び方法は、ユーザが凝視する商品のコンテンツを出力することによってユーザの関心の商品を直感的に把握し、コンテンツ露出によるユーザの満足度を向上させる効果がある。

また、本発明の実施形態に係る視線認識ベースのカスタマイズされたコンテンツを提供する装置及び方法は、複数のユーザ数に合うようにコンテンツ出力画面を分割することによってコンテンツ出力画面を効率的に使用して、各ユーザに広告及び情報の伝達能力を上昇させる効果がある。

以上説明された本発明に係る実施形態は、様々なコンピュータ構成要素を介して実行することができるプログラム命令語の形態で実現され、コンピュータ可読記録媒体に記録することができる。コンピュータ可読記録媒体は、プログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含むことができる。コンピュータ可読記録媒体に記録されるプログラム命令語は、本発明のために特別に設計及び構成されたものであるか、またはコンピュータソフトウェアの分野の当業者に公知されて使用可能なものであってもよい。コンピュータ可読記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ及びＤＶＤなどの光記録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気光媒体（ｍａｇｎｅｔｏ－ｏｐｔｉｃａｌｍｅｄｉｕｍ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令語を格納し実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作成されるもののような機械語コードだけでなく、インタプリタなどを使用してコンピュータによって実行することができる高級言語コードも含まれる。ハードウェア装置は、本発明に係る処理を実行するために１つ以上のソフトウェアモジュールに変更することができ、その逆も同様である。

Claims

コンテンツ提供装置の少なくとも１つのプロセッサによって実行される視線認識ベースのカスタマイズされたコンテンツを提供する方法において、
イメージセンサに基づいてユーザの顔認識映像を取得するステップと、
前記取得された顔認識映像に基づいて前記イメージセンサを制御して前記ユーザの顔の正面画像を取得するステップと、
前記取得された顔の正面画像に基づいて、前記ユーザの視線方向及び視線固定時間情報を含む視線情報を生成するステップと、
前記生成された視線情報に対応するディスプレイ領域を関心領域として決定するステップと、
前記決定された関心領域にマッチングするアイテムを検出するステップと、
前記検出されたアイテムの商品情報コンテンツを提供するステップを含む、
視線認識ベースのカスタマイズされたコンテンツを提供する方法。
前記取得された顔認識映像に基づいて前記イメージセンサを制御して前記ユーザの顔の正面画像を取得するステップは、
前記顔認識映像を予め学習されたディープラーニングニューラルネットワークの入力データとして提供するステップと、前記ディープラーニングニューラルネットワークの出力データで前記ユーザの顔ポーズ情報を取得するステップと、前記取得された顔ポーズ情報に基づく前記イメージセンサを制御するステップを含む、
請求項１に記載の視線認識ベースのカスタマイズされたコンテンツを提供する方法。
前記生成された視線情報に対応するディスプレイ領域を関心領域として決定するステップは、
前記ユーザの視線固定時間情報が予め設定された時間以上を満たす場合、前記ユーザの視線方向に対応するディスプレイ領域を前記関心領域として決定するステップを含む、
請求項１に記載の視線認識ベースのカスタマイズされたコンテンツを提供する方法。
前記決定された関心領域にマッチングするアイテムを検出するステップは、
前記ディスプレイ領域に基づいて出力されるアイテムページを選択するユーザ入力を取得するステップと、
前記選択されたアイテムページ内の前記関心領域にマッチングするアイテムを検出するステップを含む、
請求項１に記載の視線認識ベースのカスタマイズされたコンテンツを提供する方法。
前記視線情報に対応するディスプレイ領域を関心領域として決定するステップは、
前記視線情報が変更されると、前記変更された視線情報に対応するディスプレイ領域に前記関心領域をアップデートするステップを含む、
請求項１に記載の視線認識ベースのカスタマイズされたコンテンツを提供する方法。
前記決定された関心領域にマッチングするアイテムを検出するステップは、
前記関心領域にマッチングするディスプレイ領域内の少なくとも１つの画素を検出するステップと、
前記検出された少なくとも１つの画素に対して予め格納されたアイテムを検出するステップを含む、
請求項１に記載の視線認識ベースのカスタマイズされたコンテンツを提供する方法。
前記ディスプレイ領域内の少なくとも１つの画素を選択するユーザ入力を取得するステップと、前記選択された少なくとも１つの画素について予め格納されたアイテムを検出す
るステップと、前記検出されたアイテムの商品情報コンテンツを出力するステップをさらに含む、
請求項１に記載の視線認識ベースのカスタマイズされたコンテンツを提供する方法。
前記取得された顔の正面画像に基づいて前記ユーザの視線方向及び視線固定時間情報を含む視線情報を生成するステップは、
前記取得された顔認識映像において、第１ユーザの顔領域と第２ユーザの顔領域を検出するステップと、
前記検出された複数のユーザ顔領域を含むように前記イメージセンサを含むカメラアングルを制御するステップを含む、
請求項１に記載の視線認識ベースのカスタマイズされたコンテンツを提供する方法。
前記取得された顔の正面画像に基づいて前記ユーザの視線方向及び視線固定時間情報を含む視線情報を生成するステップは、
前記第１ユーザの顔領域に基づいて前記第１ユーザの第１視線情報を生成するステップと、前記第２ユーザの顔領域に基づいて前記第２ユーザの第２視線情報を生成するステップを含む、
請求項８に記載の視線認識ベースのカスタマイズされたコンテンツを提供する方法。
前記生成された視線情報に対応するディスプレイ領域を関心領域として決定するステップは、
前記生成した第１視線情報に対応する第１画素面積を決定するステップと、前記生成した第２視線情報に対応する第２画素面積を決定するステップを含む、
請求項９に記載の視線認識ベースのカスタマイズされたコンテンツを提供する方法。
前記決定された関心領域にマッチングするアイテムを検出するステップは、
前記決定された第１画素面積にマッチングされた第１アイテムを検出するステップと、前記決定された第２画素面積にマッチングされた第２アイテムを検出するステップとを含む、
請求項１０に記載の視線認識ベースのカスタマイズされたコンテンツを提供する方法。
前記検出されたアイテムの商品情報コンテンツを提供するステップは、
前記ディスプレイ領域を前記第１ユーザに対応する第１出力画面と、前記第２ユーザに対応する第２出力画面に分割するステップと、前記第１出力画面には、前記検出された第１アイテムに対応する第１コンテンツを出力し、前記第２出力画面には、前記第２アイテムに対応する第２コンテンツを出力するステップを含む、
請求項１１に記載の視線認識ベースのカスタマイズされたコンテンツを提供する方法。
ユーザの顔認識映像を取得する少なくとも１つのイメージセンサと、
前記取得された顔認識映像に基づいた商品情報コンテンツを出力する少なくとも１つのディスプレイと、
少なくとも１つのプロセッサとを含み、
前記プロセッサは、
前記顔認識映像に基づいて前記イメージセンサを制御して前記ユーザの顔の正面画像を取得し、前記取得された顔の正面画像に基づいて前記ユーザの視線方向及び視線固定時間情報を含む視線情報を生成し、前記生成された視線情報に対応するディスプレイ領域を関心領域として決定し、前記決定された関心領域にマッチングするアイテムを検出し、前記検出されたアイテムの商品情報コンテンツを提供するように制御する、視線認識ベースのカスタマイズされたコンテンツを提供する装置。
前記ディスプレイは、
少なくとも１つ以上の前記アイテムの代表画像を出力するアイテムディスプレイと、前記商品情報コンテンツを出力するコンテンツディスプレイを含む、請求項１３に記載の視線認識ベースのカスタマイズされたコンテンツを提供する装置。
前記プロセッサは、
前記顔認識映像に基づくディープラーニングに基づいて前記ユーザの顔ポーズ情報を取得し、
前記取得された顔ポーズ情報に基づいて前記イメージセンサを制御して前記ユーザの顔の正面画像を取得する、
請求項１３に記載の視線認識ベースのカスタマイズされたコンテンツを提供する装置。
前記プロセッサは、
前記顔認識映像を予め学習されたディープラーニングニューラルネットワークの入力データとして入力し、
前記ディープラーニングニューラルネットワークの出力データで前記ユーザの顔ポーズ情報を取得し、
前記取得された顔ポーズ情報に基づいてイメージセンサを制御する、
請求項１３に記載の視線認識ベースのカスタマイズされたコンテンツを提供する装置。
前記プロセッサは、
前記視線情報が変更されると、前記変更された視線情報に対応するディスプレイ領域に前記関心領域をアップデートするように前記ディスプレイを制御する、
請求項１３に記載の視線認識ベースのカスタマイズされたコンテンツを提供する装置。
前記プロセッサは、
前記関心領域にマッチングするディスプレイ領域内の少なくとも１つの画素を検出し、前記検出された少なくとも１つの画素に対して格納されたアイテムを検出するように制御する、
請求項１３に記載の視線認識ベースのカスタマイズされたコンテンツを提供する装置。
前記プロセッサは、
前記ディスプレイ領域内の少なくとも１つの画素を選択するユーザ入力を取得し、前記選択された少なくとも１つの画素に対して予め格納されたアイテムを検出し、前記検出されたアイテムの商品情報コンテンツを出力するように制御する、
請求項１３に記載の視線認識ベースのカスタマイズされたコンテンツを提供する装置。