JP7038218B2

JP7038218B2 - 代表イメージの生成

Info

Publication number: JP7038218B2
Application number: JP2020538507A
Authority: JP
Inventors: パク，ジウン
Original assignee: ネイバーウェブトゥーンリミテッド
Priority date: 2017-09-26
Filing date: 2018-07-25
Publication date: 2022-03-17
Anticipated expiration: 2038-07-25
Also published as: KR20190035351A; KR102035531B1; US20200226387A1; WO2019066231A1; JP2020535570A; US11462018B2

Description

以下の説明は、代表イメージの生成技術に関し、より詳細には、ウェブトゥーン（Ｗｅｂｔｏｏｎ）やイラスト、特定の商品と関連する複数のイメージ、またはユーザのフォトアルバムなどのように、少なくとも１つのイメージを含むコンテンツでオブジェクトを認識し、該当のコンテンツのための代表イメージを自動で生成することができる代表イメージ生成方法、前記代表イメージ生成方法を実行するコンピュータ装置、およびコンピュータと結合して代表イメージ生成方法をコンピュータに実行させるためにコンピュータ読み取り可能な記憶媒体に格納されたコンピュータプログラムとその記憶媒体に関する。

ウェブトゥーンとは、インターネットを意味するウェブ（ｗｅｂ）と漫画を意味するカートゥーン（ｃａｒｔｏｏｎ）を組み合わせた造語である。このようなウェブトゥーンは、ウェブサイトに掲載された縦長のイメージファイル形式の漫画だけでなく、画面に表示されるカット（ｃｕｔ）単位の場面を切り換えながら進んでいく形式の漫画など、多様な形式でサービスされている。

また、このようなウェブトゥーンをユーザにサービスするための多様な技術も存在する。例えば、特許文献１は、カートゥーン提供システム、カートゥーン提供装置、およびカートゥーン提供方法に関するものであって、カートゥーン（ｃａｒｔｏｏｎ）を構成する複数のカットイメージ（ｃｕｔｉｍａｇｅ）を提供する技術を開示している。

このとき、ウェブトゥーンをユーザにサービスするための技術の殆どは、ウェブトゥーンをユーザに紹介するために、ウェブトゥーンの代表イメージを生成して活用する。例えば、ウェブトゥーンは、多様な条件（一例として、掲載曜日、完結の可否、照会順位、タイトル順など）に基づいてウェブサイトやモバイルページなどでユーザに表示されるが、このとき、ウェブトゥーンは、それぞれ、ウェブトゥーンの代表イメージやウェブトゥーンのタイトルなどのような、該当のウェブトゥーンをユーザに識別させるための情報、および／または該当のウェブトゥーンに対してユーザの関心を誘発させるための情報を含んで表示されている。ここで、代表イメージは、１つのウェブトゥーン全体を代表するイメージと、該当のウェブトゥーン内の１つストーリを代表するイメージを含んでよい。

ウェブトゥーンをユーザに提供するサービス提供者は、サービスが提供するウェブトゥーンのそれぞれの代表イメージを生成しなければならない。このとき、サービスするウェブトゥーンの件数が多いほど、代表イメージの生成のために多くの費用がかかる。例えば、一日に数十件のウェブトゥーンの新たなストーリが登録されてこれをサービスする場合、サービス提供者は、数十件のウェブトゥーンのそれぞれのストーリ内容をすべて確認してそれぞれのストーリに適した代表イメージを生成しなければならないが、これは極めて多くの時間と労力を要する作業となる。さらに、多数のウェブトゥーンや多数のストーリなどの情報は１つの画面内に収めて表示しなければならないため、代表イメージのサイズは制限的であり、したがって、ウェブトゥーンのカットイメージをそのまま代表イメージとして活用するには無理がある。言い換えれば、代表イメージの生成は、多数のイメージのうちから１つのイメージを選択するという単純な作業ではなく、数多くのイメージから１つのイメージを選択し、さらに選択したイメージから主要部分を選定および抽出するための追加の費用を要する作業なのである。

また、ユーザの立場では、多様な特徴が含まれた代表イメージを期待しており、このような期待を満たすためにはさらに多くのリソースが必要となる。例えば、ウェブトゥーンは、掲載曜日やウェブトゥーンのランキング、ウェブトゥーンのジャンルなどのような、多様な条件によって分類されたリストの形態でユーザに表示されるが、上述したように、ウェブトゥーンやストーリごとに代表イメージを生成するだけでも極めて多くのリソースが必要となるため、リストおよび／またはユーザインタフェースごとに特色を考慮しながら多様な代表イメージを多様な比率および／またはサイズで生成したり活用したりするには困難がある。

さらに、上述したようなウェブトゥーンだけでなく、イラストやユーザのフォトアルバム、あるいは特定の商品に対して提供される複数のイメージなどのような、特定のコンテンツと関連して代表イメージを選択しなければならない必要も存在する。

韓国公開特許第１０－２０１４－００４０８７５号

ウェブトゥーンやイラスト、特定の商品と関連する複数のイメージ、またはユーザのフォトアルバムなどのような、少なくとも１つのイメージを含むコンテンツからオブジェクトを認識し、該当のコンテンツのための代表イメージを自動で生成することができる代表イメージ生成方法、前記代表イメージ生成方法を実行するコンピュータ装置、およびコンピュータと結合して代表イメージ生成方法をコンピュータに実行させるためにコンピュータ読み取り可能な記憶媒体に格納されたコンピュータプログラムとその記憶媒体を提供する。

イメージマッチングモデルを活用して代表イメージを自動で生成および管理可能なツールを提供することができる代表イメージ生成方法、前記代表イメージ生成方法を実行するコンピュータ装置、およびコンピュータと結合して代表イメージ生成方法をコンピュータに実行させるためにコンピュータ読み取り可能な記憶媒体に格納されたコンピュータプログラムとその記憶媒体を提供する。

コンテンツに含まれた少なくとも１つのイメージからオブジェクトを認識する段階、前記少なくとも１つのイメージから前記認識されたオブジェクトが含まれた領域を抽出して認識結果イメージを生成する段階、および前記生成された認識結果イメージに基づいて前記コンテンツと関連する代表イメージを生成する段階を含むことを特徴とする、代表イメージ生成方法を提供する。

コンピュータと結合して前記代表イメージ生成方法をコンピュータに実行させるためにコンピュータ読み取り可能な記憶媒体に格納された、コンピュータプログラムを提供する。

前記代表イメージ生成方法をコンピュータに実行させるためのプログラムが格納されていることを特徴とする、コンピュータ読み取り可能な記憶媒体を提供する。

コンピュータ装置であって、コンピュータ読み取り可能な命令を実行するように実現される少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサは、コンテンツに含まれた少なくとも１つのイメージからオブジェクトを認識し、前記少なくとも１つのイメージから前記認識されたオブジェクトが含まれた領域を抽出して認識結果イメージを生成し、前記生成された認識結果イメージに基づいて前記コンテンツと関連する代表イメージを生成することを特徴とする、コンピュータ装置を提供する。

ウェブトゥーンやイラスト、特定の商品と関連する複数のイメージ、またはユーザのフォトアルバムなどのような、少なくとも１つのイメージを含むコンテンツからオブジェクトを認識し、該当のコンテンツのための代表イメージを自動で生成することができる。

イメージマッチングモデルを活用して代表イメージを自動で生成および管理可能なツールを提供することができる。

本発明の一実施形態における、ネットワーク環境の例を示した図である。本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。本発明の一実施形態における、代表イメージ生成過程の例を示した図である。本発明の一実施形態における、対象イメージから最終イメージが出力される過程の例を示した図である。本発明の一実施形態における、代表イメージの生成および管理のためのツールの例を示した図である。本発明の一実施形態における、代表イメージの生成および管理のためのツールの例を示した図である。本発明の一実施形態における、代表イメージの生成および管理のためのツールの例を示した図である。本発明の一実施形態における、代表イメージの生成および管理のためのツールの例を示した図である。本発明の一実施形態における、代表イメージ生成方法の例を示したフローチャートである。

以下、実施形態について、添付の図面を参照しながら詳しく説明する。

本発明の実施形態に係る代表イメージ生成方法は、以下で説明するサーバのようなコンピュータ装置によって実行されてよい。このとき、コンピュータ装置においては、本発明の一実施形態に係るコンピュータプログラムがインストールされて実行されてよく、コンピュータ装置は、実行されるコンピュータプログラムの制御にしたがって本発明の実施形態に係る代表イメージ生成方法を実行してよい。上述したコンピュータプログラムは、コンピュータ装置と結合して代表イメージ生成方法をコンピュータに実行させるためにコンピュータ読み取り可能な記憶媒体に格納されてよい。

図１は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図１のネットワーク環境は、複数の電子機器１１０、１２０、１３０、１４０、複数のサーバ１５０、１６０、およびネットワーク１７０を含む例を示している。このような図１は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図１のように限定されることはない。

複数の電子機器１１０、１２０、１３０、１４０は、コンピュータ装置によって実現される固定端末や移動端末であってよい。複数の電子機器１１０、１２０、１３０、１４０の例としては、スマートフォン、携帯電話、ナビゲーション、ＰＣ（ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ）、ノート型ＰＣ、デジタル放送用端末、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ＰＭＰ（ＰｏｒｔａｂｌｅＭｕｌｔｉｍｅｄｉａＰｌａｙｅｒ）、タブレットなどがある。一例として、図１では、電子機器１（１１０）の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器１（１１０）は、実質的に無線または有線通信方式を利用し、ネットワーク１７０を介して他の電子機器１２０、１３０、１４０および／またはサーバ１５０、１６０と通信することのできる、多様な物理的なコンピュータ装置のうちの１つを意味してよい。

通信方式が限定されることはなく、ネットワーク１７０が含むことのできる通信網（一例として、移動通信網、有線インターネット、無線インターネット、放送網）を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク１７０は、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのネットワークのうちの１つ以上の任意のネットワークを含んでよい。さらに、ネットワーク１７０は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター－バスネットワーク、ツリーまたは階層的ネットワークなどを含む、ネットワークトポロジのうちの任意の１つ以上を含んでもよいが、これらに限定されることはない。

サーバ１５０、１６０は、それぞれ、複数の電子機器１１０、１２０、１３０、１４０とネットワーク１７０を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する１つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ１５０は、ネットワーク１７０を介して接続した複数の電子機器１１０、１２０、１３０、１４０と関連する第１サービスを提供するシステムであってよく、サーバ１６０もネットワーク１７０を介して接続した複数の電子機器１１０、１２０、１３０、１４０と関連する第２サービスを提供するシステムであってよい。より具体的な例として、サーバ１５０は、ウェブトゥーンサービスを第１サービスとして提供してよい。この場合、サーバ１５０は、本発明の実施形態に係る代表イメージ生成方法を利用してウェブトゥーンサービスによって表示されるウェブトゥーンの代表イメージを生成および活用してよい。

図２は、本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。図２では、電子機器に対する例として電子機器１（１１０）の内部構成およびサーバ１５０の内部構成について説明する。また、他の電子機器１２０、１３０、１４０やサーバ１６０も、上述した電子機器１（１１０）またはサーバ１５０と同一または類似の内部構成を有してよい。

電子機器１（１１０）およびサーバ１５０は、メモリ２１１、２２１、プロセッサ２１２、２２２、通信モジュール２１３、２２３、および入力／出力インタフェース２１４、２２４を含んでよい。メモリ２１１、２２１は、コンピュータ読み取り可能な記憶媒体であって、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、およびディスクドライブのような非一時的大容量記憶装置を含んでよい。ここで、ＲＯＭやディスクドライブのような非一時的大容量記憶装置は、メモリ２１１、２２１とは区分される別の非一時的記憶装置として電子機器１（１１０）やサーバ１５０に含まれてもよい。また、メモリ２１１、２２１には、オペレーティングシステムと、少なくとも１つのプログラムコード（一例として、電子機器１（１１０）においてインストールされて実行されるブラウザや、特定のサービスの提供のために電子機器１（１１０）にインストールされるアプリケーションなどのためのコード）が格納されてよい。このようなソフトウェア構成要素は、メモリ２１１、２２１とは別のコンピュータ読み取り可能な記憶媒体からロードされてよい。このような別のコンピュータ読み取り可能な記憶媒体は、フロッピードライブ、ディスク、テープ、ＤＶＤ／ＣＤ－ＲＯＭドライブ、メモリカードなどのコンピュータ読み取り可能な記憶媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記憶媒体ではない通信モジュール２１３、２２３を通じてメモリ２１１、２２１にロードされてもよい。例えば、少なくとも１つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システム（一例として、上述したサーバ１６０）がネットワーク１７０を介して提供するファイルによってインストールされるコンピュータプログラム（一例として、上述したアプリケーション）に基づいてメモリ２１１、２２１にロードされてよい。

プロセッサ２１２、２２２は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ２１１、２２１または通信モジュール２１３、２２３によって、プロセッサ２１２、２２２に提供されてよい。例えば、プロセッサ２１２、２２２は、メモリ２１１、２２１のような記憶装置に格納されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。

通信モジュール２１３、２２３は、ネットワーク１７０を介して電子機器１（１１０）とサーバ１５０とが互いに通信するための機能を提供してもよいし、電子機器１（１１０）および／またはサーバ１５０が他の電子機器（一例として、電子機器２（１２０））または他のサーバ（一例として、サーバ１６０）と通信するための機能を提供してもよい。一例として、電子機器１（１１０）のプロセッサ２１２がメモリ２１１のような記憶装置に格納されたプログラムコードにしたがって生成した要求が、通信モジュール２１３の制御にしたがってネットワーク１７０を介してサーバ１５０に伝達されてよい。これとは逆に、サーバ１５０のプロセッサ２２２の制御にしたがって提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール２２３とネットワーク１７０を経て電子機器１（１１０）の通信モジュール２１３を通じて電子機器１（１１０）に受信されてよい。例えば、通信モジュール２１３を通じて受信されたサーバ１５０の制御信号や命令、コンテンツ、ファイルなどは、プロセッサ２１２やメモリ２１１に伝達されてよく、コンテンツやファイルなどは、電子機器１（１１０）がさらに含むことのできる記憶媒体（上述した非一時的記憶装置）に格納されてよい。

入力／出力インタフェース２１４は、入力／出力装置２１５とのインタフェースのための手段であってよい。例えば、入力装置は、キーボードまたはマウスなどの装置を、出力装置は、ディスプレイまたはスピーカなどのような装置を含んでよい。他の例として、入力／出力インタフェース２１４は、タッチスクリーンのような入力と出力のための機能が１つに統合された装置とのインタフェースのための手段であってもよい。入力／出力装置２１５は、電子機器１（１１０）と１つの装置で構成されてもよい。また、サーバ１５０の入力／出力インタフェース２２４は、サーバ１５０に接続するかサーバ１５０が含むことのできる入力または出力のための装置（図示せず）とのインタフェースのための手段であってよい。より具体的な例として、電子機器１（１１０）のプロセッサ２１２がメモリ２１１にロードされたコンピュータプログラムの命令を処理するにあたり、サーバ１５０や電子機器２（１２０）が提供するデータを利用して構成されるサービス画面やコンテンツが、入力／出力インタフェース２１４を通じてディスプレイに表示されてよい。

また、他の実施形態において、電子機器１（１１０）およびサーバ１５０は、図２の構成要素よりも多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、電子機器１（１１０）は、上述した入力／出力装置２１５のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。より具体的な例として、電子機器１（１１０）がスマートフォンである場合、一般的にスマートフォンが含んでいる加速度センサやジャイロセンサ、カメラモジュール、物理的な各種ボタン、タッチパネルを利用したボタン、入力／出力ポート、振動のための振動器などのような多様な構成要素が、電子機器１（１１０）にさらに含まれるように実現されてよい。

図３は、本発明の一実施形態における、代表イメージ生成過程の例を示した図である。図３は、コンテンツとして１つのウェブトゥーンに対する代表イメージを生成する例について説明する。

対象コンテンツ入力過程３１０は、ウェブトゥーンに含まれた少なくとも１つの対象イメージが入力される過程の例であってよい。このとき、入力された対象イメージのそれぞれに対して次のオブジェクト認識過程３２０が実行されてよい。例えば、ウェブトゥーンは、１つのエピソードが１つの対象イメージで実現されることもあるし、カット別に区別された複数の対象イメージで実現されることもある。この場合、それぞれの対象イメージに対してオブジェクト認識過程３２０が実行されてよい。

オブジェクト認識過程３２０は、入力された対象イメージ内からオブジェクトを認識する過程の例であってよい。オブジェクト認識過程３２０は、オブジェクト認識器３２１によって実行されてよい。オブジェクト認識器３２１は、一例として、キャラクタ顔認識器３２２、吹き出し認識器３２３、およびテキスト認識器３２４を含んでよい。

キャラクタ顔認識器３２２は、対象イメージ内からオブジェクトとしてキャラクタの顔を認識してよく、吹き出し認識器３２３は、対象イメージ内からオブジェクトとして吹き出しを認識してよく、テキスト認識器３２４は、対象イメージ内からオブジェクトとしてテキストを認識してよい。本実施形態では、認識しようとするオブジェクトのパターンとして、キャラクタの顔、吹き出し、およびテキストを認識する例について説明しているが、オブジェクトのパターンは、人物や動物の形状、および／または自動車や飛行機などのような乗り物の形状などのように、必要によって多様に活用されてよい。

それぞれのパターンの認識のためにパターン別学習用データ３２５が活用されてよい。パターン別学習用データ３２５は、オブジェクト認識器３２１の学習のために活用されるか、および／またはイメージから抽出しようとするオブジェクトの基準データとしての役割として活用されてよい。

学習の例として、キャラクタ顔認識器３２２には、多様なキャラクタの顔が含まれたイメージが学習用データとして入力されてよく、吹き出し認識器３２３には多様な吹き出しが含まれたイメージが、テキスト認識器３２４にはテキストが、学習用データとしてそれぞれ入力されてよい。このとき、キャラクタ顔認識器３２２、吹き出し認識器３２３、およびテキスト認識器３２４のそれぞれは、入力された学習用データを利用した機械学習（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）により、それぞれ要求されたパターンの認識のための機能を学習してよい。このような機械学習による認識器の学習および学習された認識器の活用方法については、当業者であれば、機械学習と関連する周知の技術に基づいて容易に理解することができるであろう。

基準データの例として、キャラクタ顔認識器３２２には、認識しようとするオブジェクトの基準となるキャラクタの顔が含まれたイメージが基準データとして入力されてよい。この場合、キャラクタ顔認識器３２２は、学習用データとして入力されたイメージのキャラクタの顔を基準として対象イメージからキャラクタ顔を認識してよい。同じように、吹き出し認識器３２３には、認識しようとするオブジェクトの基準となる吹き出しが含まれたイメージが、テキスト認識器３２４には、認識しようとするオブジェクトの基準となるテキストが、基準データとしてそれぞれ入力されてよい。より具体的な例として、テキスト認識器３２４は、基準データとしてテキスト「自動車」が入力された場合、対象イメージからテキスト「自動車」が含まれているかを検索してよい。

上述したように、対象コンテンツ入力過程３１０で入力された対象イメージそれぞれに対してオブジェクト認識過程３２０が実行されてよい。このとき、複数の対象イメージが存在する場合、オブジェクトが認識される対象イメージが存在することもあるし、オブジェクトが認識されない対象イメージが存在することもある。さらに、１つの対象イメージから複数のオブジェクトが認識される場合もある。このとき、オブジェクト認識器３２１は、対象イメージから認識されたオブジェクトが含まれた領域を抽出し、認識されたオブジェクト別に認識結果イメージを生成してよい。例えば、キャラクタ顔認識器３２２は、対象イメージから認識されたキャラクタの顔が含まれる領域を抽出し、抽出された領域に対して予め設定されたサイズの認識結果イメージを生成してよい。

イメージサイズ選択過程３３０は、認識結果イメージから抽出しようとする代表イメージのサイズ（一例として、１２０ピクセル×１２０ピクセル、または９６ピクセル×９６ピクセル）を決定する過程の例であってよい。

サイズ別オブジェクト位置ガイド選択過程３４０は、代表イメージでオブジェクトの位置を決定する過程の例であってよい。例えば、図３では、代表イメージにおいてオブジェクトの位置を、代表イメージの左側、右側、およびセンターのうちの１つに整列してカットするための例３４１と、上段、中段、および下段のうちの１つに整列してカットするための例３４２、さらにオブジェクトの位置を拡大あるいは縮小してからカットするための例３４３を示している。実施形態によって、オブジェクトの位置は、左上段、右下段、左中段に整列してから拡大、右上段に整列してから縮小などのように、より多様なガイドによって決定されてもよい。

１次イメージ出力過程３５０は、認識結果イメージから抽出された代表イメージを出力する過程の例であってよく、運営者点検編集過程３６０は、出力された代表イメージを運営者が点検および／または編集する過程であってよい。さらに、最終イメージ出力過程３７０は、運営者が点検および／または編集した代表イメージを出力する過程であってよい。最終イメージは、ウェブトゥーンをユーザに提供するためのサイトで表示されてよい。このとき、１次イメージ出力過程３５０と運営者点検編集過程３６０は、実施形態によっては省略されてもよい。この場合、１次イメージ出力過程３５０は、最終イメージ出力過程３７０と同じように、認識結果イメージから抽出された代表イメージを、ウェブトゥーンをユーザに提供するためのサイトで表示する過程となってよい。例えば、オブジェクト認識過程３２０、イメージサイズ選択過程３３０、およびサイズ別オブジェクト位置ガイド選択過程３４０をサーバ１５０が自動で処理できるように学習するための期間が要求されてよい。言い換えれば、サーバ１５０が、入力される対象コンテンツに適した代表イメージを自動で生成するための学習期間が要求され、このような学習期間が終了する前までは、運営者が生成された代表イメージを直接に点検および／または編集する必要がある。または、運営者の点検および／または編集によって収集されたデータが、学習期間中にサーバ１５０の代表イメージ生成のための学習データとして活用されてもよい。

図４は、本発明の一実施形態における、対象イメージから最終イメージが出力される過程の例を示した図である。図４は、図３の対象コンテンツ入力過程３１０で入力される対象イメージ４１０の例を示しており、オブジェクト認識過程３２０において、キャラクタ顔認識器３２２が基準データとして入力されたイメージ４２０を利用して対象イメージ４１０からオブジェクトを認識する例を示している。このとき、図４の対象イメージ４１０内に表示された実線で示す円４３０は、対象イメージ４１０から認識されたオブジェクトの例を示している。

また、図４は、イメージサイズ選択過程３３０とサイズ別オブジェクト位置ガイド選択過程３４０で抽出された１次イメージ４４０の例を示している。このとき、１次イメージ４４０は「１２０ピクセル×１２０ピクセル」のサイズを有し、オブジェクトが１次イメージ４４０の上段センターに位置した例を示している。

さらに、図４は、１次イメージ４４０が運営者によって編集されて最終イメージ４５０が生成された例を示している。最終イメージ４５０は、運営者が１次イメージ４４０でオブジェクト部分を拡大することで生成された例を示している。生成された最終イメージ４５０は、対象コンテンツのための代表イメージとして活用されてよい。例えば、最終イメージ４５０がウェブトゥーンの特定のエピソード（特定のストーリ）と対応して出力されたものである場合、最終イメージ４５０は、該当のウェブトゥーンの特定のエピソード（特定のストーリ）のための代表イメージとして、ウェブトゥーンをサービスするためのサイトで表示されてよい。運営者による点検および／または編集が必要でない場合には最終イメージ４５０の生成がなされる必要はなく、１次イメージ４４０が代表イメージとしてウェブトゥーンをサービスするためのサイトで表示されてよい。

図５～８は、本発明の一実施形態における、代表イメージの生成および管理のためのツールの例を示した図である。図５～８は、代表イメージの生成および管理のためのツール（以下、イメージ生成管理ツール５００）の画面例を示している。このようなイメージ生成管理ツール５００は、運営者のために提供されるものであってよい。

図５の第１点線枠５１０は、代表イメージの生成のための段階を示しており、このとき、図５は「認識対象およびパターン選択」段階を示している。ここで、段階別自動設定ボタン５２０は、第１点線枠５１０に示された段階のうち、自動で処理するための段階を設定するための機能へのリンクが設定されたユーザインタフェースであってよい。例えば、運営者が段階別自動設定ボタン５２０を押すと、第１点線枠５１０に示された４つの段階（「認識対象およびパターン選択」段階、「認識結果選択」段階、「ガイド選択」段階、および「生成イメージ確認」段階）のそれぞれに対する自動処理を設定することのできるユーザインタフェースが運営者に提供されてよい。自動処理が設定された段階は、サーバ１５０により、学習された事項にしたがって該当の段階による処理が自動で実行されてよい。

イメージ生成管理ツール５００は、複数のウェブトゥーンのうちからいずれか１つのウェブトゥーンを選択するか、またはすべてのウェブトゥーンを選択するための作品選択ボタン５３１と、選択されたいずれか１つのウェブトゥーンのエピソード（または、ストーリ）を選択するためのエピソード選択ボタン５３２、さらに選択された作品やエピソードのプレビューのための第１プレビューウィンドウ５３３を含んでよい。また、イメージ生成管理ツール５００は、マッチング基準イメージの入力を受けるためのファイル選択および追加ボタン５４１と、選択されたファイルのイメージのプレビューのための第２プレビューウィンドウ５４２をさらに含んでよい。ここで、マッチング基準イメージは、上述した基準データの一例であってよい。

また、イメージ生成管理ツール５００は、認識パターンの選択を受けるためのボタン５５１、５５２、５５３、５５４を含んでよい。キャラクタボタン５５１は、図３を参照しながら説明したキャラクタ顔認識器３２２を選択するためのユーザインタフェースであってよく、吹き出しボタン５５２は、図３を参照しながら説明した吹き出し認識器３２３を選択するためのユーザインタフェースであってよい。また、テキストボタン５５３は、図３を参照しながら説明したテキスト認識器３２４を選択するためのユーザインタフェースであってよく、自動ボタン５５４は、サーバ１５０が学習された事項にしたがってパターンを自動で選択するように設定するためのユーザインタフェースであってよい。図５では、キャラクタボタン５５１が選択された例を示している。

また、イメージ生成管理ツール５００は、オブジェクトの認識を実行するためのパターン認識ボタン５６０を含んでよい。図５の実施形態では、運営者がパターン認識ボタン５６０を選択した場合、選択されたウェブトゥーン作品「ＡＡＡ」の対象イメージからキャラクタの顔を認識するための処理が行われてよい。このとき、サーバ１５０は、マッチング基準イメージ「ＡＡＡｔｉｔｌｅ．ｊｐｇ」を基準データとして利用して対象イメージからキャラクタの顔を認識してよい。

「認識対象およびパターン選択」段階に対して自動処理が設定されている場合、サーバ１５０は、学習された事項にしたがい、作品および／またはエピソード、パターン、および基準データを選択してオブジェクトの認識を自動で行ってよい。

図６は、「認識結果選択」段階のためのイメージ生成管理ツール５００の表示例を示している。このとき、第３プレビューウィンドウ６１０は、実線枠６１１、６１２、６１３のように、認識されたオブジェクトが表示された作品またはエピソードのプレビューを表示してよい。また、第４プレビューウィンドウ６２０は、認識されたオブジェクトのプレビューを表示してよい。このとき、第４プレビューウィンドウ６２０に表示されたオブジェクトのうちの少なくとも１つのオブジェクトを運営者が直接設定してよい。または、作品別イメージ自動選択ボタン６３０を利用して作品に対するオブジェクトを自動で設定するか、またはストーリ別イメージ自動選択ボタン６４０を利用してエピソード別のオブジェクトを自動で設定してもよい。例えば、ウェブトゥーン「ＡＡＡ」が対象コンテンツとして選択された場合、ウェブトゥーン「ＡＡＡ」からオブジェクトが認識されてよい。このとき、ストーリ別イメージ自動選択ボタン６４０が選択された場合、ウェブトゥーン「ＡＡＡ」が含むエピソードのそれぞれのためのオブジェクトが認識されたオブジェクトから選択されてよい。例えば、ウェブトゥーン「ＡＡＡ」においてエピソード別に選択されたオブジェクト「ＡＡＡ＿Ｅ１＿０１」、「ＡＡＡ＿Ｅ２＿０１」、「ＡＡＡ＿Ｅ３＿０１」が存在すると仮定するとき、サーバ１５０は、エピソード「ＡＡＡ＿Ｅ１」に対してはオブジェクト「ＡＡＡ＿Ｅ１＿０１」を、エピソード「ＡＡＡ＿Ｅ２」のためにはオブジェクト「ＡＡＡ＿Ｅ２＿０１」を、エピソード「ＡＡＡ＿Ｅ３」のためにはオブジェクト「ＡＡＡ＿Ｅ３＿０１」を、それぞれ自動で選択してよい。認識結果適用ボタン６５０は、作品やエピソードのために選択されたオブジェクトを適用するためのユーザインタフェースであってよい。ここで、オブジェクトの適用とは、作品やエピソードと選択されたオブジェクトのイメージとを関連付けることを意味してよい。

「認識結果選択」段階に対して自動処理が設定されている場合、サーバ１５０は、学習された事項にしたがい、作品および／またはエピソードに対するオブジェクトのイメージを自動で選択して適用してよい。

図７は、「ガイド選択」段階のためのイメージ生成管理ツール５００の表示例を示している。このとき、第５プレビューウィンドウ７１０は、図６の「認識結果選択」段階で選択および適用されたオブジェクトのイメージ７２０、７３０のプレビューを表示している。運営者は、このようなオブジェクトのイメージ７２０、７３０に対し、ガイドを利用して希望するイメージを抽出してよい。図７では、９６ピクセル×９６ピクセルのサイズを有する正方形ガイド７４０、７５０がオブジェクトのイメージ７２０、７３０のセンター上段に配置された例を示している。運営者は、「ガイド選択」段階により、ガイドの形状（正方形、横型、縦型など）、ガイドの大きさ（サイズ）、ガイドの認識領域整列の位置などを選択し、オブジェクトのイメージ７２０、７３０から希望する１次イメージを抽出してよい。例えば、運営者がガイドを選択した後、ガイドを適用してイメージ生成ボタン７６０を押すと、選択されたガイドが適用され、適用されたガイドにしたがって１次イメージが抽出および生成されてよい。

このような「ガイド選択」段階も、自動処理が設定されている場合、サーバ１５０は、学習された事項にしたがい、ガイドの形状やサイズ、位置などを自動で選択して１次イメージを生成してよい。

図８は、「生成イメージ確認」段階のためのイメージ生成管理ツール５００の表示例を示している。「生成イメージ確認」段階では、図７で生成された１次イメージが表示されてよい。図８は、基準イメージと１２０ピクセル×１２０ピクセルのサイズを有する正方形ガイドによって選択された１次イメージの例を示している。運営者が点検および／または編集後イメージ生成ボタン８１０を押すと、最終イメージ（代表イメージ）が生成されてよい。

図５～８では、運営者に提供されるイメージ生成管理ツール５００について説明しているが、これは各段階が実行される過程を説明するものであり、発明の理解を助けるための例に過ぎず、実質的に「認識対象およびパターン選択」段階、「認識結果選択」段階、および「ガイド選択」段階のうちの少なくとも１つは、機械学習（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）によって学習されたサーバ１５０によって自動で実行されてよい。

例えば、サーバ１５０は、認識されたオブジェクトのイメージのうちから基準データとのマッチング程度によって選択されるオブジェクトのイメージを利用して代表イメージを生成してよい。また、サーバ１５０は、ユーザ滞留時間、イメージクリック率、ユーザのコメントやおすすめなどのようなユーザの反応をさらに利用して代表イメージを生成してよい。例えば、サーバ１５０は、ウェブサイトに記載された縦長のイメージファイル形式のウェブトゥーンにおいて、ユーザの端末機の画面に表示される場面別の表示時間（上述した、ユーザ滞留時間）を測定および管理してよい。多数のユーザに対して測定されたユーザ滞留時間が長いほど該当の場面に対する人気が高いと判断してよく、該当の場面から抽出されたオブジェクトのイメージが選択される確率を高めてよい。また、カット単位の場面を切り換える形式のウェブトゥーンでは、カット単位でおすすめやコメントを付与することのできる機能が提供されてよい。この場合、カット単位別のおすすめ数やコメント数などを利用して人気の高いカットを設定してよく、該当のカットから抽出されたオブジェクトのイメージが選択される確率を高めてよい。さらに他の例として、ユーザがクリックを多く行った場面を人気の高い場面として決定してもよい。サーバ１５０は、このようなユーザの反応それぞれを定量化して場面別またはカット別の人気度を計算してよく、計算された人気度に基づき、オブジェクトのイメージを選択するときに、人気度の高い場面やカットから抽出されたオブジェクトのイメージに加重値を付与してよい。

以上の実施形態ではウェブトゥーンに対する代表イメージを生成する方法について説明したが、イラスト、特定の商品と関連する複数のイメージ、またはユーザのフォトアルバムなどのような、少なくとも１つのイメージを含むコンテンツであれば、上述した代表イメージ生成方法によって代表イメージを抽出することが可能であることは、当業者であれば容易に理解することができるであろう。

図９は、本発明の一実施形態における、代表イメージ生成方法の例を示したフローチャートである。本実施形態に係る代表イメージ生成方法は、上述したサーバ１５０のようなコンピュータ装置によって実行されてよい。このとき、サーバ１５０のプロセッサ２２２は、メモリ２２１が含むオペレーティングシステムのコードと、少なくとも１つのプログラムのコードとによる制御命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行するように実現されてよい。ここで、プロセッサ２２２は、サーバ１５０に格納されたコードが提供する制御命令にしたがってサーバ１５０が図９の代表イメージ生成方法に含まれる段階９１０～９５０を実行するように、サーバ１５０を制御してよい。

段階９１０で、サーバ１５０は、登録された複数のコンテンツのうちから選択された対象コンテンツの入力を受けてよい。一例として、登録された複数のコンテンツは、登録された複数のウェブトゥーンを含んでよく、対象コンテンツは、１つのウェブトゥーンまたは１つのウェブトゥーンが含む１つのエピソードを含んでよく、生成された代表イメージは、１つのウェブトゥーンの代表イメージまたは１つのエピソードの代表イメージを含んでよい。上述したように、コンテンツがウェブトゥーンに限定されることはなく、複数のイメージ（または複数の場面が連結する１つのイメージ）を含むコンテンツであれば、コンテンツの代表イメージを生成するために本実施形態に係る代表イメージ生成方法が利用されてよい。

段階９２０で、サーバ１５０は、入力を受けた対象コンテンツに含まれた少なくとも１つの対象イメージから予め設定されたパターンのオブジェクトを認識してよい。上述したように、予め設定されたパターンは、キャラクタの顔パターン、吹き出しパターン、およびテキストパターンのうちの少なくとも１つを含んでよい。また、実施形態によって、予め設定されたパターンは、人物や動物の形状、および／または自動車や飛行機などのような乗り物の形状などのように、必要によって多様に設定および／または学習されてよい。

テキストパターンとは、特定の台詞や特定のキーワードに該当するテキストを意味してよく、このようなテキストがオブジェクトとして認識されてよい。このようなテキスト認識は、以後に、コンテンツ内におけるテキスト検索やイメージ検索のために活用されてもよい。例えば、テキスト認識のために、対象コンテンツが含む対象イメージに含まれたテキストが、特定の台詞や特定のキーワードとの比較のためにすべて認識されてよい。このとき、認識されたテキストと該当の対象イメージとは関連付けて格納されてよく、格納されたデータがコンテンツ内におけるテキスト検索やイメージ検索に活用されてよい。より具体的な例として、ウェブトゥーンの場面Ａから「比率が違う」というテキストが認識されて場面Ａと関連付けて格納される場合が考えられる。この場合、「比率」というキーワードに基づいたテキスト検索により、コンテンツから「比率が違う」というテキストが検索されて提供されるか、または場面Ａに対するイメージが検索されて提供されてよい。あるいは、クエリとして入力されるイメージと類似のイメージを提供するために、互いに関連付けて格納されたテキストと対象イメージが活用されてもよい。例えば、比率と関連のあるイメージや、テキスト「比率」が含まれるイメージがクエリとして入力された場合に、場面Ａが類似イメージとして提供されてよい。さらに、認識されるテキストは、視覚障害者のためのサブテキスト（ｓｕｂｔｅｘｔ）を生成するために活用されてもよい。例えば、場面Ａから認識されたテキストを利用して視覚障害者に場面Ａを説明するためのサブテキストが生成されてよい。

また、サーバ１５０は、オブジェクトの認識のために基準データを活用してよい。例えば、サーバ１５０は、段階９２０で、予め設定されたパターン別の基準データの入力を受け、基準データとのマッチングに基づいて少なくとも１つの対象イメージからオブジェクトを認識してよい。複数のオブジェクトが認識される場合、基準データとのマッチング度が最も高いオブジェクトが選定および活用されてよい。

段階９３０で、サーバ１５０は、少なくとも１つの対象イメージから認識されたオブジェクトが含まれた、予め設定されたサイズの領域を抽出して認識結果イメージを生成してよい。このとき、予め設定されたサイズの領域は、多角形や円形、楕円形などのように多様な形状であってよい。

サーバ１５０は、少なくとも１つの対象イメージから複数の認識結果イメージが生成される場合、対象コンテンツの場面またはカットに対するユーザ反応に基づき、複数の認識結果イメージから少なくとも１つの認識結果イメージを選択してよい。ここで、ユーザ反応は、対象コンテンツの場面またはカットに対するユーザ滞留時間、クリック率、おすすめ数、およびコメント数のうちの少なくとも１つを含んでよい。

ユーザ滞留時間は、ユーザの端末に該当の場面やカットが表示される時間を測定して得られてよい。また、クリック率は、ユーザの端末で該当の場面やカットが選択される回数を測定して得られてよい。

段階９４０で、サーバ１５０は、生成された認識結果イメージに基づいて対象コンテンツと関連する代表イメージを生成してよい。例えば、サーバ１５０は、段階９４０で、ガイドの形状、サイズ、および整列位置を決定し、決定された形状および大きさのガイドを整列位置によって生成された認識結果イメージに反映し、反映されたガイドによって認識される認識領域を抽出し、抽出された認識領域を含むイメージを代表イメージとして生成してよい。このようなガイドの活用については、図７を参照しながら説明したとおりである。

段階９５０で、サーバ１５０は、対象コンテンツをユーザに提供するためのサイトにおいて、生成された代表イメージを表示してよい。図９では、１つの対象コンテンツに対して代表イメージを生成および表示する実施形態について説明したが、このような代表イメージの生成および表示を複数の対象コンテンツに対して実行することにより、多数の対象コンテンツ（一例として、本日アップロードされる複数のウェブトゥーンそれぞれのエピソード）それぞれに対して代表イメージが自動で生成および表示されることが可能であることは、当業者であれば容易に理解することができるであろう。

このように、本発明の実施形態によると、ウェブトゥーンやイラスト、特定の商品と関連する複数のイメージ、またはユーザの写真アルバムなどのような、少なくとも１つのイメージを含むコンテンツに対する代表イメージを自動で生成することが可能となる。また、イメージマッチングモデルを活用することで、代表イメージを自動で生成および管理可能なツールを提供することが可能となる。

上述したシステムまたは装置は、ハードウェア構成要素、ソフトウェア構成要素、またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のような、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）およびＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置、コンピュータ記憶媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記憶媒体に格納されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に格納されてよい。コンピュータ読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独または組み合わせて含んでよい。媒体は、コンピュータ実行可能なプログラムを継続して格納するものであっても、実行またはダウンロードのために一時記憶するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記憶手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピーディスク、および磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が格納されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記憶媒体または格納媒体が挙げられる。プログラム命令の例には、コンパイラによって生成されるもののような機械語コードだけでなく、インタプリタなどを使用してコンピュータによって実行されることのできる高級言語コードが含まれる。

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

Claims

コンテンツに含まれる少なくとも１つのイメージから、予め登録された基準データに含まれるキャラクタの顔パターンとのマッチング程度に基づいて、前記コンテンツに含まれる少なくとも１つのイメージ内のオブジェクトを認識する段階、
前記少なくとも１つのイメージから前記認識されるオブジェクトが含まれる領域を抽出して認識結果イメージを生成する段階、および
前記生成される認識結果イメージに基づいて前記コンテンツと関連する代表イメージを生成する段階
を含むことを特徴とする、
代表イメージ生成方法。
前記オブジェクトを認識する段階は、
前記少なくとも１つのイメージから少なくとも１つのパターンに対応するオブジェクトを認識し、
前記少なくとも１つのパターンは、キャラクタ顔パターン、吹き出しパターン、およびテキストパターンのうちの少なくとも１つを含むことを特徴とする、
請求項１に記載の代表イメージ生成方法。
前記オブジェクトを認識する段階は、
少なくとも１つのパターン別に前記基準データの入力を受ける段階、および
前記基準データとのマッチングに基づいて前記少なくとも１つのイメージからオブジェクトを認識する段階を含むことを特徴とする、
請求項１に記載の代表イメージ生成方法。
前記代表イメージを生成する段階は、
ガイドの形状、サイズ、および整列位置を決定する段階、
該決定される形状およびサイズのガイドを前記整列位置によって前記生成される認識結果イメージに反映し、前記反映されるガイドによって認識される認識領域を抽出する段階、および
前記抽出される認識領域を含むイメージを代表イメージとして生成する段階を含むことを特徴とする、
請求項１に記載の代表イメージ生成方法。
前記少なくとも１つのイメージから複数の認識結果イメージが生成される場合、前記コンテンツの場面またはカットに対するユーザ反応に基づいて前記複数の認識結果イメージのうちから少なくとも１つの認識結果イメージを選択する段階をさらに含むことを特徴とする、請求項１に記載の代表イメージ生成方法。
前記コンテンツの場面またはカットに対するユーザ反応の変化に基づいて前記代表イメージを再生成する段階をさらに含むことを特徴とする、請求項１に記載の代表イメージ生成方法。
前記ユーザ反応は、前記場面またはカットに対するユーザ滞留時間、クリック率、おすすめ数、およびコメント数のうちの少なくとも１つを含むことを特徴とする、請求項５または６に記載の代表イメージ生成方法。
前記コンテンツは、登録されるウェブトゥーンコンテンツまたは前記ウェブトゥーンコンテンツが含む少なくとも１つのエピソードを含み、
前記生成される代表イメージは、前記ウェブトゥーンコンテンツの代表イメージまたは前記エピソードの代表イメージを含むことを特徴とする、
請求項１に記載の代表イメージ生成方法。
前記コンテンツをユーザに提供するためのサイトにおいて、前記生成された代表イメージを表示する段階をさらに含むことを特徴とする、請求項１に記載の代表イメージ生成方法。
コンピュータと結合して請求項１～９のうちのいずれか一項に記載の方法をコンピュータに実行させるためにコンピュータ読み取り可能な記憶媒体に格納された、コンピュータプログラム。
請求項１～９のうちのいずれか一項に記載の方法をコンピュータに実行させるためのプログラムが格納されていることを特徴とする、コンピュータ読み取り可能な記憶媒体。
コンピュータ装置であって、
コンピュータ読み取り可能な命令を実行するように実現される少なくとも１つのプロセッサを含み、
該少なくとも１つのプロセッサは、
コンテンツに含まれる少なくとも１つのイメージから、予め登録された基準データに含まれるキャラクタの顔パターンとのマッチング程度に基づいて、前記コンテンツに含まれる少なくとも１つのイメージ内のオブジェクトを認識し、
前記少なくとも１つのイメージから前記認識されるオブジェクトが含まれる領域を抽出して認識結果イメージを生成し、
該生成される認識結果イメージに基づいて前記コンテンツと関連する代表イメージを生成するように構成されることを特徴とする、
コンピュータ装置。
前記オブジェクトを認識する段階は、
前記少なくとも１つのイメージから少なくとも１つのパターンに対応するオブジェクトを認識し、
前記少なくとも１つのパターンは、キャラクタ顔パターン、吹き出しパターン、およびテキストパターンのうちの少なくとも１つを含むことを特徴とする、
請求項１２に記載のコンピュータ装置。
前記少なくとも１つのプロセッサは、
前記オブジェクトを認識するために、少なくとも１つのパターン別に前記基準データの入力を受け、前記基準データとのマッチングに基づいて前記少なくとも１つの対象イメージからオブジェクトを認識するように構成されることを特徴とする、
請求項１２に記載のコンピュータ装置。
前記少なくとも１つのプロセッサは、
前記代表イメージを生成するために、ガイドの形状、サイズ、および整列位置を決定し、前記決定される形状およびサイズのガイドを前記整列位置によって前記生成される認識結果イメージに反映し、前記反映されるガイドによって認識される認識領域を抽出し、前記抽出される認識領域を含むイメージを代表イメージとして生成するように構成されることを特徴とする、
請求項１２に記載のコンピュータ装置。
前記少なくとも１つのプロセッサは、
前記少なくとも１つのイメージから複数の認識結果イメージが生成される場合、前記コンテンツの場面またはカットに対するユーザ反応に基づいて前記複数の認識結果イメージのうちから少なくとも１つの認識結果イメージを選択するように構成されることを特徴とする、
請求項１２に記載のコンピュータ装置。
前記少なくとも１つのプロセッサは、
前記コンテンツの場面またはカットに対するユーザ反応の変化に基づいて前記代表イメージを再生成するように構成されることを特徴とする、
請求項１２に記載のコンピュータ装置。