JP2021043969A

JP2021043969A - 合成画像生成方法、サーバー及びプログラム

Info

Publication number: JP2021043969A
Application number: JP2020149198A
Authority: JP
Inventors: ジェホンジョン; Jae-Hun Jung; ヘソンチェー; Hae Seong Choi
Original assignee: Line Plus Corp
Current assignee: Line Plus Corp
Priority date: 2019-09-05
Filing date: 2020-09-04
Publication date: 2021-03-18
Also published as: KR102354918B1; KR20220013445A; CN112446819A; KR20210028980A; US20210074044A1

Abstract

【課題】合成画像を生成する合成画像生成方法、サーバー及びプログラムが提供される。【解決手段】本発明の合成画像生成方法は、入力画像に含まれている合成対象オブジェクトを識別するステップと、前記識別されたオブジェクトに関連する挿入コンテンツを決定するステップと、前記入力画像内の前記オブジェクトの領域に前記挿入コンテンツを合成して出力画像を生成するステップとを含むことができる。【選択図】図２

Description

本発明は、入力画像に他のコンテンツを合成して合成画像を生成する方法、サーバー及びプログラムに関する。具体的に、本発明は、入力画像に含まれている一つ以上のオブジェクトを識別し、関連コンテンツを決定した後、関連コンテンツを当該オブジェクト領域に合成して合成画像を生成することにより、同じ入力画像からユーザーに、パーソナライズされた様々なカスタム画像を提供することができる方法、サーバー及びその方法を実行することが可能なプログラムに関する。

二つの画像を合成して新しい画像を生成する技術として、クロマキー（Ｃｈｒｏｍａｋｅｙ）技法が広く知られている。クロマキー技法は、単色ボードを背景にして、合成する被写体を撮影した後、その画面から背景色を除去すると、被写体だけが残るという原理を利用する。この時、背景となる単色ボードをクロマバック（ｃｈｒｏｍａｂａｃｋ）という。クロマバックは、通常、ＲＧＢ（赤、緑、青）のうちのいずれかを使用するが、主に青が多く使われる。しかし、必ずしも青又は緑のように決められた色のみを使用することができるのではなく、任意の色をクロマバックとして使用することができる。

従来のクロマキー技法によれば、クロマバックに該当して元の画像から除去又は透明処理される領域（以下、「クロマキー領域」という）とクロマキー領域に合成される挿入コンテンツ（以下、「合成される挿入コンテンツ」という）との間には関連性が存在しない。そのため、画像内に複数のクロマキー領域が存在しても、複数のクロマキー領域のそれぞれに異なる関連コンテンツを自由に合成するのには限界がある。

本発明は、入力画像から、パーソナライズされたカスタム出力画像を生成する合成画像生成方法を提供することを目的とする。

また、本発明は、入力画像に含まれている一つ以上のオブジェクトを識別し、関連コンテンツを用いて、識別されたオブジェクト領域を合成することにより、合成画像を生成する合成画像生成方法を提供することを目的とする。

また、本発明は、本発明による合成画像生成方法を行う合成画像生成装置としてのサーバー又はシステムを提供することを目的にする。

また、本発明は、本発明による合成画像生成方法を実行するためのプログラムを提供することを目的とする。

本発明の技術的課題は、上述した技術的課題に限定されず、上述していない別の技術的課題は、以降の記載から本開示の属する技術分野における通常の知識を有する者（以下、「通常の技術者」という）に明らかに理解できるだろう。

本発明の一態様による、少なくとも一つのプロセッサを含むコンピュータ装置によって行われる合成画像生成方法は、入力画像に含まれている合成対象オブジェクトを識別するステップと、前記識別されたオブジェクトに関連する挿入コンテンツを決定するステップと、前記入力画像内の前記オブジェクトの領域に前記挿入コンテンツを合成して出力画像を生成するステップとを含むことができる。

本発明の他の態様による、合成画像の生成を行うサーバーは、入力画像を取得する画像受信部と、前記入力画像に含まれている合成対象オブジェクトを識別するオブジェクト識別部と、前記識別されたオブジェクトに関連する挿入コンテンツを決定するコンテンツ決定部と、前記入力画像内の前記オブジェクトの領域に前記挿入コンテンツを合成して出力画像を生成するコンテンツ合成部と、前記出力画像をネットワークを介してユーザーデバイスに伝送する画像伝送部とを含むことができる。

本発明の別の態様によるプログラムは、本発明による合成画像生成方法をコンピュータ装置で実行させることができる。

本開示について簡略にまとめられた上記の特徴は、後述する本開示の詳細な説明の例示的な態様に過ぎず、本開示の範囲を限定するものではない。

本発明によれば、入力画像から、パーソナライズされたカスタム出力画像を生成することができる。

また、本発明によれば、入力画像に含まれている一つ以上のオブジェクトを識別し、関連コンテンツを用いて、識別されたオブジェクト領域を合成することにより、合成画像を生成することができる。

また、本発明による合成画像生成方法を行う合成画像生成装置としてのユーザーデバイス、サーバー又はシステムを提供することができる。

また、本発明による合成画像生成方法を実行するためのプログラムを提供することができる。

本開示から得られる効果は、上述した効果に限定されず、上述していない別の効果は、以降の記載から通常の技術者に明確に理解できるだろう。

本発明の一実施形態に係る合成画像生成方法が使用できるシステムを示す図である。本発明による合成画像生成方法を行う合成画像生成装置の一実施形態を示すブロック図である。本発明による入力画像の一例を示す図である。オブジェクト識別部で識別した入力画像内のオブジェクトを示す図である。入力画像内の識別されたそれぞれのオブジェクト領域に合成できる候補コンテンツを例示する図である。識別されたオブジェクト領域のそれぞれに、コンテンツ決定部で決定されたコンテンツを合成することにより生成された出力画像の一例である。本発明による合成画像生成方法を説明するための図である。

＜発明の概要＞
本発明の一態様による、少なくとも一つのプロセッサを含むコンピュータ装置によって行われる合成画像生成方法は、入力画像に含まれている合成対象オブジェクトを識別するステップと、前記識別されたオブジェクトに関連する挿入コンテンツを決定するステップと、前記入力画像内の前記オブジェクトの領域に前記挿入コンテンツを合成して出力画像を生成するステップとを含むことができる。

本発明による合成画像生成方法において、前記入力画像は、一つ以上のクロマキー領域を含み、前記合成対象オブジェクトを識別するステップは、前記クロマキー領域を検出するステップと、前記検出されたクロマキー領域に関連するオブジェクトを前記合成対象オブジェクトとして識別するステップとを含むことができる。

本発明による合成画像生成方法において、前記合成対象オブジェクトを識別するステップは、前記検出されたクロマキー領域のカラーキー、サイズ及び形状のうちの少なくとも一つに基づいて前記合成対象オブジェクトを識別することができる。

本発明による合成画像生成方法において、前記合成対象オブジェクトを識別するステップは、前記入力画像に含まれているオブジェクトに物体認識手法を適用して前記合成対象オブジェクトを識別することができる。

本発明による合成画像生成方法は、少なくとも一つのアクセス可能なコンテンツを対象オブジェクトに関連付けるステップと、前記アクセス可能なコンテンツのそれぞれに対して対象オブジェクトとの関連情報を含むコンテンツ情報を前記コンピュータ装置に保存するステップとをさらに含むことができる。

本発明による合成画像生成方法において、前記挿入コンテンツを決定するステップは、前記コンテンツ情報に基づいて、前記アクセス可能なコンテンツのうち、前記識別された合成対象オブジェクトに関連する少なくとも一つを候補コンテンツとして決定するステップと、ユーザープロファイル情報に基づいて前記候補コンテンツのうちのいずれか一つを前記挿入コンテンツとして決定するステップとを含むことができる。

本発明による合成画像生成方法において、前記ユーザープロファイル情報は、ユーザーの個人情報、選好度情報及びユーザーの履歴情報のうちの少なくとも一つを含むことができる。

本発明による合成画像生成方法において、前記挿入コンテンツを決定するステップは、前記コンテンツ情報に基づいて、前記アクセス可能なコンテンツのうち、前記識別された合成対象オブジェクトに関連する少なくとも一つを候補コンテンツとして決定するステップと、前記候補コンテンツを表示するステップと、前記コンピュータ装置のユーザーから前記候補コンテンツのうちのいずれか一つに対する選択を受信するステップと、前記受信された選択に基づいて前記いずれか一つの候補コンテンツを前記挿入コンテンツとして決定するステップとを含むことができる。

本発明による合成画像生成方法において、前記出力画像を生成するステップは、前記合成対象オブジェクトの領域に基づいて前記挿入コンテンツを変形させるステップと、前記合成対象オブジェクトの領域に前記変形させた挿入コンテンツを合成するステップとを含むことができる。

本発明による合成画像生成方法において、前記挿入コンテンツを変形させるステップは、前記合成対象オブジェクトの領域に前記挿入コンテンツがマッチングするように、前記挿入コンテンツのサイズ、傾き及び形状のうちの少なくとも一つを変形させることができる。

本発明によるサーバーにおいて、前記入力画像は、一つ以上のクロマキー領域を含み、前記オブジェクト識別部は、前記クロマキー領域を検出するステップと、前記検出されたクロマキー領域に関連するオブジェクトを前記合成対象オブジェクトとして識別するステップとを行うことができる。

本発明によるサーバーにおいて、前記オブジェクト識別部は、前記検出されたクロマキー領域のカラーキー、サイズ及び形状のうちの少なくとも一つに基づいて前記合成対象オブジェクトを識別することができる。

本発明によるサーバーにおいて、前記オブジェクト識別部は、前記入力画像に含まれているオブジェクトに物体認識手法を適用して前記合成対象オブジェクトを識別することができる。

本発明によるサーバーは、少なくとも一つのアクセス可能なコンテンツを対象オブジェクトに関連付け、前記アクセス可能なコンテンツのそれぞれに対して対象オブジェクトとの関連情報を含むコンテンツ情報を保存することができる。

本発明によるサーバーにおいて、前記コンテンツ決定部は、前記コンテンツ情報に基づいて、前記アクセス可能なコンテンツのうち、前記識別された合成対象オブジェクトに関連する少なくとも一つを候補コンテンツとして決定し、前記ユーザーデバイスのユーザープロファイル情報に基づいて前記候補コンテンツのうちのいずれか一つを前記挿入コンテンツとして決定することができる。

本発明によるサーバーにおいて、前記コンテンツ決定部は、前記コンテンツ情報に基づいて、前記アクセス可能なコンテンツのうち、前記識別された合成対象オブジェクトに関連する少なくとも一つを候補コンテンツとして決定し、前記候補コンテンツを前記ユーザーデバイスに伝送し、前記ユーザーデバイスのユーザーから前記候補コンテンツのうちのいずれか一つに対する選択を受信し、前記受信された選択に基づいて前記いずれか一つの候補コンテンツを前記挿入コンテンツとして決定することができる。

本発明によるサーバーにおいて、前記コンテンツ合成部は、前記合成対象オブジェクトの領域に基づいて前記挿入コンテンツを変形させ、前記合成対象オブジェクトの領域に前記変形させた挿入コンテンツを合成することができる。

本発明によるサーバーにおいて、前記コンテンツ合成部は、前記合成対象オブジェクトの領域に前記挿入コンテンツがマッチングするように、前記挿入コンテンツのサイズ、傾き及び形状のうちの少なくとも一つを変形させることができる。

＜発明の詳細＞
以下、添付図面を参照して、本開示の実施形態について、通常の技術者が容易に実施し得るように詳細に説明する。ところが、本開示は、様々な異なる形態で実現でき、ここで説明する実施形態に限定されない。

本開示の実施形態を説明するにあたり、公知の構成又は機能についての具体的な説明が本開示の要旨を不明瞭にするおそれがあると判断された場合には、それについての詳細な説明は省略する。そして、図面において、本開示に関する説明と関係のない部分は省略し、類似の部分には類似の符号を付した。

本開示において、ある構成要素が他の構成要素に「連結」、「結合」又は「接続」されているとするとき、これは、直接的な接続関係だけでなく、それらの間に別の構成要素が介在する間接的な接続関係も含むことができる。また、ある構成要素が他の構成要素を「含む」又は「有する」とするとき、これは、特に反対される記載がない限り、他の構成要素を排除するのではなく、別の構成要素をさらに含むことができることを意味する。

本開示において、「第１」、「第２」などの用語は、一つの構成要素を他の構成要素から区別する目的のみで使用され、特に記載されない限り、構成要素間の順序又は重要度などを限定しない。したがって、本開示の範囲内において、一実施形態における第１の構成要素を他の実施形態で第２の構成要素と呼ぶこともあり、同様に、一実施形態における第２の構成要素を他の実施形態で第１の構成要素と呼ぶこともある。

本開示において、互いに区別される構成要素は、それぞれの特徴を明確に説明するためであり、構成要素が必ずしも分離されることを意味するものではない。つまり、複数の構成要素が統合されて一つのハードウェア又はソフトウェア単位からなってもよく、一つの構成要素が分散されて複数のハードウェア又はソフトウェア単位からなってもよい。したがって、特に断りのない場合でも、このように統合又は分散された実施形態も、本開示の範囲に含まれる。

本開示において、様々な実施形態で説明する構成要素が、必ずしも必要不可欠な構成要素を意味するものではなく、その一部は選択的な構成要素であり得る。したがって、一実施形態で説明する構成要素の部分集合で構成される実施形態も、本開示の範囲に含まれる。また、様々な実施形態で説明する構成要素にさらに他の構成要素を含む実施形態も、本開示の範囲に含まれる。

また、本明細書において、ネットワークは、有線又は無線ネットワークを全て含む概念である。このとき、ネットワークは、デバイスとシステム間、及びデバイス相互間のデータ交換が行われるネットワークを意味することができ、特定のネットワークに限定されるものではない。

また、本明細書において、デバイスは、スマートフォン、タブレットＰＣ、ウェアラブルデバイス及びＨＭＤ（ＨｅａｄＭｏｕｎｔｅｄＤｉｓｐｌａｙ）などのモバイルデバイスだけでなく、ＰＣやディスプレイ機能付き家電などの固定デバイスを含むことができる。例えば、デバイスは、サーバーで動作可能なコンピューティングデバイス、車両又はＩｏＴ（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）デバイスであってもよい。つまり、本明細書において、デバイスは、本発明による合成画像生成方法を行うことができる機器を指し示すことができ、特定のタイプに限定されない。

また、本明細書において、「画像」は、静止画像だけでなく、動画像、ストリーミング画像など、ユーザーがデバイスのディスプレイを介して視覚的に認識することができる全種類の情報を含むことができる。

システム及び装置の構成
図１は本発明の一実施形態に係る合成画像生成方法が使用できるシステムを示す図である。

本発明によるシステムは、ネットワーク１０４を介して接続された一つ以上のユーザーデバイス１０１、１０２、１０３とサーバー１１０を含むことができる。

それぞれのユーザーデバイス１０１、１０２、１０３は、クライアントと呼ばれることもあり、ネットワーク１０４を介してサーバー１１０に接続して所望の画像又はコンテンツをダウンロードして出力することができる。

サーバー１１０は、サーバー１１０内のストレージ空間又は別のデータベースに膨大な量の画像及びコンテンツを保存することができる。また、サーバー１１０は、ユーザーを識別することができ、ユーザーに関する情報や、画像及びコンテンツに関する情報などの様々な情報を蓄積及び保存することができる。

例えば、ユーザーがユーザーデバイス１０１、１０２、１０３を介して所定の接続情報（ＩＤとパスワード）を入力してサーバー１１０に接続する場合、サーバー１１０は、ユーザーデバイス１０１、１０２、１０３から入力された接続情報を用いて、接続したユーザーを識別することができる。

識別されたユーザーがサーバー１１０に接続してサービスを利用した履歴は、ユーザー履歴情報としてサーバー１１０に保存できる。ユーザー履歴情報として、例えば、検索履歴、要求履歴、再生履歴、アップロード履歴などが含まれ得る。ユーザーは、サーバー１１０に接続して自分の性別、生年月日、年齢、健康状態、職業、住所などに関する情報を入力することができ、これらの情報は、ユーザーの個人情報としてサーバー１１０に保存できる。また、ユーザーは、自分の趣味、関心分野などもサーバー１１０に直接入力することができ、これらの情報は、選好度情報としてサーバー１１０に保存できる。

前記ユーザーの履歴情報、個人情報及び／又は選好度情報は、本明細書においてユーザープロファイル情報と総称できる。ユーザープロファイル情報の一部又は全部は、ユーザーデバイス１０１、１０２、１０３及び／又はサーバー１１０に保存でき、本発明による合成画像の生成方法に使用できる。

本発明による合成画像生成方法は、様々な種類の装置で行われ得る。例えば、サーバー１１０又はユーザーデバイス１０１、１０２、１０３で全てのステップが行われてもよく、一部のステップはサーバー１１０、一部のステップはユーザーデバイス１０１、１０２、１０３で行われてもよい。

本発明による合成画像生成方法は、サーバー１１０で行われ得る。

具体的に、サーバー１１０は、ユーザーに伝送する画像を決定することができる。ユーザーに伝送する画像は、ユーザーの要求によって決定できる。又は、サーバー１１０又はサービス提供者の要求によって決定できる。例えば、サービス提供者の要求により、特定の要件に該当する画像又は特定の画像が、ユーザーに伝送される画像として決定されることもある。サーバー１１０は、ユーザーに伝送する画像を入力画像として、本発明に係る合成画像生成方法を行うことにより、合成画像を生成することができる。サーバー１１０は、ネットワーク１０４を介して生成された合成画像をユーザーデバイス１０１、１０２、１０３に伝送し、ユーザーデバイス１０１、１０２、１０３は、伝送された合成画像を出力することができる。

合成画像を生成するために、ユーザーからの入力が必要であるか、或いはユーザーデバイス１０１、１０２、１０３に保存された情報を照会する必要がある場合、サーバー１１０は、ネットワーク１０４を介してユーザーデバイス１０１、１０２、１０３とデータをやりとりすることにより、必要な情報を取得することができる。例えば、画像内の合成対象オブジェクトに関連する少なくとも一つの候補コンテンツのうち、合成される一つの挿入コンテンツを決定するためにユーザーの選択が必要な場合、サーバー１１０は、ユーザーデバイス１０１、１０２、１０３に候補コンテンツを提供し、ユーザーの選択を受信することができる。サーバー１１０は、受信されたユーザーの選択に基づいて以降のステップを行うことができる。これに類似して、合成される挿入コンテンツの決定のために、ユーザープロファイル情報が必要であり、当該情報がユーザーデバイス１０１、１０２、１０３に保存されている場合にも、サーバー１１０は、必要な情報をユーザーデバイス１０１、１０２、１０３に要求して受信することにより、以降のステップを行うことができる。

本発明による合成画像生成方法は、クライアントで行われることも可能である。

具体的に、ユーザーデバイス１０１、１０２、１０３は、サーバー１１０から伝送された画像を受信することができる。前述したように、伝送された画像は、ユーザーの要求によって決定されてもよく、サーバー１１０又はサービス提供者の要求によって決定されることもあるが、前述した通りである。ユーザーデバイス１０１、１０２、１０３は、受信された画像を入力画像にして、本発明による合成画像生成方法を行うことにより、合成画像を生成することができる。ユーザーデバイス１０１、１０２、１０３は、表示部を介して生成された合成画像を表示することにより、ユーザーが合成画像を消費するようにすることができる。

合成画像を生成するために、サーバー１１０に保存された画像、コンテンツ又は情報が必要な場合、ユーザーデバイス１０１、１０２、１０３は、ネットワーク１０４を介してサーバー１１０とデータをやりとりすることにより、必要な画像、コンテンツ又は情報を取得することができる。例えば、画像内のオブジェクトに関連するコンテンツがサーバー１１０に保存されている場合、ユーザーデバイス１０１、１０２、１０３は、オブジェクトに関連するコンテンツの提供をサーバー１１０に要求して受信することができる。受信されたコンテンツが複数である場合には、ユーザーデバイス１０１、１０２、１０３は、複数のコンテンツを候補コンテンツとして表示部に表示し、ユーザーの選択に応じて、又はユーザーの履歴情報に基づいて、一つの候補コンテンツを合成される挿入コンテンツとして決定することができる。受信されたコンテンツが一つである場合、ユーザーデバイス１０１、１０２、１０３は、受信されたコンテンツを、合成される挿入コンテンツとして決定することができる。合成される挿入コンテンツが決定されると、ユーザーデバイス１０１、１０２、１０３は、これを用いて合成画像を生成することができる。これに類似して、合成される挿入コンテンツの決定のためにユーザープロファイル情報が必要であり、当該情報がサーバー１１０に保存されている場合にも、ユーザーデバイス１０１、１０２、１０３は、必要な情報をサーバー１１０に要求して受信することにより、以降のステップを行うことができる。

本発明による合成画像生成方法の一部のステップはサーバー１１０で行われ、残りのステップはユーザーデバイス１０１、１０２、１０３で行われることもできる。

例えば、本発明による合成画像生成方法のステップのうち、オブジェクト識別ステップは、サーバー１１０で行われ、コンテンツ決定ステップとコンテンツ合成ステップはユーザーデバイス１０１、１０２、１０３で行われ得る。又は、オブジェクト識別ステップとコンテンツ合成ステップはサーバー１１０で行われ、コンテンツ決定ステップはユーザーデバイス１０１、１０２、１０３で行われ得る。サーバー１１０とユーザーデバイス１０１、１０２、１０３のそれぞれで行われるステップは上記の例に限定されず、本発明による合成画像生成方法を構成する任意のステップがサーバー１１０又はユーザーデバイス１０１、１０２、１０３で行われてもよい。サーバー１１０又はユーザーデバイス１０１、１０２、１０３がそれぞれどのステップを行うかは、サーバー１１０又はユーザーデバイス１０１、１０２、１０３のコンピューティングパワー、データ容量、ネットワーク環境などを考慮して適応的に決定されてもよい。

図２は本発明による合成画像生成方法を行う合成画像生成装置の一実施形態を示すブロック図である。

前述したように、本発明による合成画像を生成する方法は、ユーザーデバイス又はサーバーで単独で行われ得るので、図２の合成画像生成装置２００は、ユーザーデバイス又はサーバー内に備えられてもよい。本発明による合成画像生成方法の一部のステップはサーバー、残りのステップはユーザーデバイスで行われてもよいので、図２の合成画像生成装置２００の一部はサーバー内、残りはユーザーデバイス内に備えられてもよい。

図２に示すように、本発明による合成画像生成装置２００は、画像受信部２１０、オブジェクト識別部２２０、コンテンツ決定部２３０、及びコンテンツ合成部２４０を含むことができる。合成画像生成装置２００が生成した合成画像は、出力画像として出力画像提供部２５０を介してユーザーに提供できる。合成画像がユーザーデバイス内で生成された場合には、出力画像提供部２５０は、出力画像を表示する表示部２６０であり得る。表示部２６０は、ユーザーデバイスに備えられた表示画面であり得る。合成画像がサーバー内で生成された場合には、出力画像提供部２５０は、出力画像をユーザーデバイスに伝送する画像伝送部２７０であり得る。画像伝送部２７０は、サーバーに備えられた通信モジュールであり得る。

画像受信部２１０は、合成の対象となる入力画像を受信することができる。ユーザーデバイス内に備えられた画像受信部２１０は、ネットワークを介してサーバー内のストレージ空間又は別のデータベースに保存された画像を入力画像として受信することができる。又は、ユーザーデバイスは、カメラなどの画像取得装置によって新たに取得された画像を入力画像として受信することもできる。サーバー内に備えられた場合にも同様に、画像受信部２１０は、サーバー内のストレージ空間又は別のデータベースに保存された画像を入力画像として受信することができる。

図３は本発明による入力画像の一例を示す図である。

図３に示すように、入力画像３００は、表示画面３１０、缶飲料３２０、自動車３３０、テーブル３４０、人間３５０などのさまざまなオブジェクトを含むことができる。入力画像３００は、メタデータであって、画像の種類に関する情報や画像内のオブジェクトに関する情報などを含むことができる。例えば、画像の種類に関する情報は、当該入力画像が合成対象となるオブジェクト（以下、「合成対象オブジェクト」という）を含むか否かを示す情報であり得る。例えば、入力画像がクロマキー領域を含むか否かに関する情報は、画像の種類に関する情報であり得る。画像の種類に関する情報に基づいて、入力画像に対して本発明の合成画像生成方法を行うか否かを決定することができる。また、例えば、画像内のオブジェクトに関する情報は、入力画像に含まれているオブジェクトの位置、種類、サイズ、領域などに関する情報を含むことができる。別の例として、入力画像にクロマキー領域に関する情報が画像情報の種類になくても、合成画像生成装置２００が合成画像を生成するために合成対象オブジェクトの識別を要求するメッセージをユーザーデバイス及び／又はサーバーの承認、要求などを介して受信すると、合成画像生成方法を行うこともできる。

再び図２を参照すると、オブジェクト識別部２２０は、入力画像に含まれている合成対象オブジェクトを識別することができる。例えば、入力画像に含まれている合成対象オブジェクトは、入力画像ごとに識別することができる。別の例として、入力画像が複数のフレームで構成された画像（例えば、動画、タイムラプス画像、その他の複数のイメージを含む画像など）である場合、合成対象オブジェクトを識別するための方法は、フレームごとに行われるか、所定のフレームグループごとに行われるか、或いは所定の時間間隔を置いて行われる。

このとき、入力画像に含まれている合成対象オブジェクトを入力画像単位又はフレーム単位で識別するために、様々な方法が適用できる。例えば、前述したように、入力画像内の合成対象オブジェクトに関する情報がメタデータとして含まれる場合、当該メタデータを用いて、入力画像に含まれている合成対象オブジェクトを識別することができる。

別の例として、入力画像を構成する各フレームに対するメタデータに、合成対象オブジェクトに関する情報が含まれてもよい。例えば、第１０フレームに表示画面が合成対象オブジェクトであることを示す情報が、第１０フレームに対するメタデータとして含まれてもよい。他の例として、合成対象オブジェクトの識別を要求するメッセージを受信すると、オブジェクト識別部２２０は、物体認識手法を用いて、第１０フレームのイメージに含まれている表示画面のイメージ領域を合成対象オブジェクトとして識別することができる。

合成対象オブジェクトを識別する物体認識手法は、入力画像３００から表示画面３１０、缶飲料３２０、自動車３３０、テーブル３４０、人間３５０などのさまざまなオブジェクトを認識してさまざまなオブジェクトの中から合成対象オブジェクトを識別する技術であり得る。具体的に、物体認識手法は、画像分類、オブジェクトローカライゼーション、オブジェクト検出、及び検出されたオブジェクトの合成対象オブジェクトであるかに対する判定を含むことができる。画像分類は、入力画像３００内のオブジェクトごとのカテゴリーリストに関連するクラスを予測して生成することができる。オブジェクトローカライゼーションは、入力画像３００のオブジェクトごとに、各オブジェクトのカテゴリーリストに該当する一つのインスタンスの位置とスケールを指示する境界ボックスを与えることができる。オブジェクト検出は、画像分類の結果とオブジェクトローカライゼーションによる情報に基づいて、入力画像３００内のすべてのオブジェクトに対して、各カテゴリーリストに該当するすべてのインスタンスの境界ボックスを与えるとともに、境界ボックスごとに、予測された詳細オブジェクト種類及び予測確率が含まれているラベルを生成することができる。合成対象オブジェクトであるかについての判定は、予め設定された条件に応じて、予測された詳細種類のオブジェクトを合成対象オブジェクトとして採用するかを判定することができる。例えば、入力画像３００内のオブジェクトが詳細種類として表示画面３１０、缶飲料３２０、自動車３３０、テーブル３４０、人間３５０と検出されると、人間３５０とテーブル３４０を除いた他のオブジェクトを合成対象オブジェクトとして採用する条件に応じて、表示画面３１０、缶飲料３２０、自動車３３０が合成対象オブジェクトとして判定できる。また、検出されたオブジェクトが占める入力画像３００内の位置、サイズ、モーションなどに応じて、所定の値又は所定の範囲を満足するオブジェクトが合成対象オブジェクトとして採用されてもよい。物体認識技術の少なくとも一部の過程は、ディープラーニングモデルが適用されて実現できる。ディープラーニングモデルが適用される物体認識技術は、Ｒ−ＣＮＮ（Ｒｅｇｉｏｎ−ＢａｓｅｄＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）モデル群及びＹＯＬＯモデル群などであり得る。Ｒ−ＣＮＮモデル群は、Ｒ−ＣＮＮ、ＦａｓｔＲ−ＣＮＮ及びＦａｓｔｅｒＲ−ＣＮＮのうちのいずれか一つであり得る。ＹＯＬＯモデル群は、ＹＯＬＯ、ＹＯＬＯｖ２及びＹＯＬＯｖ３のいずれか一つであり得る。オブジェクト検出に加えて、境界ボックスの代わりに、境界ボックスに関連するオブジェクトごとに、特定のピクセルで強調して指示されるインスタンスにオブジェクトを認識させるオブジェクト分割が行われ得る。

また、別の例として、オブジェクト識別部２２０は、入力画像に含まれているクロマキー領域を識別することにより、当該入力画像に含まれている合成対象オブジェクトを識別することができる。本発明の一実施形態によれば、各クロマキー領域は、合成対象オブジェクトに関連しており、クロマキー領域の識別によって、関連する合成対象オブジェクトを識別することができる。

クロマキー領域の識別は、様々な方法によって行われ得る。前述したように、クロマキー領域は、当該領域に他のコンテンツが合成される領域であって、容易に識別又は除去できるように特殊な形態で表現できる。例えば、クロマキー領域は、所定のカラーキーによって表現及び識別できる。通常、クロマキー領域は、青系の色で表現されるが、これに限定されず、緑系、赤系などの所定の色で表現できる。入力画像が複数のクロマキー領域を含む場合、複数のクロマキー領域のそれぞれは、互いに異なる色で表現できる。

例えば、入力画像３００に含まれている合成対象オブジェクトのうち、画像合成の対象となるクロマキー領域は、表示画面３１０、缶飲料３２０及び自動車３３０の３つのオブジェクト領域であってもよい。このとき、３つのクロマキー領域は、すべて同じ系列の色（例えば、青系）で表現され、当該カラーキーを用いてクロマキー領域を識別することができる。又は、３つのクロマキー領域は、二つ以上の異なる系列の色（例えば、青系と緑系）で表現され、それぞれのカラーキーを用いてクロマキー領域を識別することもできる。クロマキー領域がどの系の色で表現されたかに関する情報又はカラーキーに関する情報は、サーバーとデバイスで予め定義されてもよく、サーバーからデバイスに伝送されてもよく、入力画像３００のメタデータとして含まれてもよい。

クロマキー領域の識別に用いられるカラーキーは、一つの色だけを指示せず、当該色と類似の範囲で表現できる色の範囲を指示することができる。例えば、クロマバックとして青が使用された場合、カラーキーは、（Ｒ、Ｇ、Ｂ）＝（０、０、２５５）である場合だけを指示せず、（Ｒ、Ｇ、Ｂ）＝（０〜１０、０〜１０、２４５〜２５５）のように色の範囲を指示することができる。このようにして、より確実にクロマキー領域を識別し、除去することができる。しかし、色の範囲があまり広い場合、クロマキー領域ではない領域をクロマキー領域と識別し間違えるおそれがあるので、類似色の範囲は、これを考慮して決定できる。カラーキーを用いて画像内のクロマキー領域を識別した後、それぞれのクロマキー領域内のピクセルの数又は面積は、所定のしきい値と比較できる。例えば、クロマキー領域の面積が所定のしきい値よりも小さい場合、当該領域はクロマキー領域ではないと判定することができる。つまり、より正確にクロマキー領域を識別するために、カラーキーを用いて識別された複数のクロマキー領域のうち、所定のしきい値以上のサイズを有する領域のみをクロマキー領域と最終識別することができる。このとき、所定のしきい値に関する情報は、サーバーとデバイスで予め定義されてもよく、サーバーからデバイスへ伝送されてもよく、入力画像３００のメタデータとして含まれてもよい。

複数のクロマキー領域のそれぞれが互いに異なる系の色で表現される場合、クロマキー領域のそれぞれに対するカラーキーを用いて、該当クロマキー領域に関連する合成対象オブジェクトを識別することができる。例えば、表１に示すように、クロマキー領域を表現するカラーキー（色）とオブジェクトとを関連付け、これを用いて合成対象オブジェクトを識別することができる。

例えば、入力画像３００に青系の色で表現されたクロマキー領域が識別される場合には、該当クロマキー領域に該当する合成対象オブジェクトは、表示画面に関連するものと識別することができる。また、入力画像３００にカラーキーが緑を指示するクロマキー領域が識別される場合には、該当クロマキー領域は缶飲料に関連するものと判断することができる。同様に、赤のクロマバックを用いたクロマキー領域は、自動車に関連する領域と判断することができる。

本発明の他の実施形態によれば、識別されたクロマキー領域のサイズ及び形状を用いて、該当クロマキー領域に関連する合成対象オブジェクトを識別することができる。例えば、表２に示すように、識別されたクロマキー領域の形状とオブジェクトとを関連付け、これを用いて合成対象オブジェクトを識別することができる。

例えば、識別されたクロマキー領域の形状が四角形である場合、当該クロマキー領域は、表示画面に関連する領域と判断することができる。もし識別されたクロマキー領域が円筒形の形状を有する場合、当該クロマキー領域に関連するオブジェクトは缶飲料であると識別することができる。

また、表３に示すように、識別されたクロマキー領域のサイズとオブジェクトとを関連付け、これを用いて合成対象オブジェクトを識別することができる。

例えば、入力画像３００でサイズ３５０＊２００のピクセルであるクロマキー領域は、大型ＴＶの表示画面に関連すると判断することができる。また、入力画像３００でサイズ１００＊６０のピクセルであると識別される場合、当該クロマキー領域は、ノートパソコンの表示画面に関連付けることができる。入力画像３００でクロマキー領域がサイズ５０＊３０のピクセルであると識別される場合、当該クロマキー領域に関連するオブジェクトは、携帯電話の表示画面であると判断することができる。

又は、例えば、入力画像３００でサイズ３５０＊２００以上のピクセルであるクロマキー領域は、大型ＴＶの表示画面であると判断することができる。また、サイズ５０＊３０以下のピクセルであるクロマキー領域は、携帯電話の表示画面と判断することができる。また、その他のサイズを有するクロマキー領域は、ノートパソコンの表示画面と判断することができる。前記各オブジェクトに対するクロマキー領域のサイズは、前述した例に限定されず、様々なサイズ又はさまざまなサイズの範囲に設定できる。

表３を用いた実施形態において、クロマキー領域のサイズに対する判断は、クロマキー領域の実測サイズと所定のしきい値を用いて行われ得る。このとき、しきい値は、画像のメタデータとして提供されるか、予め定義されるか、或いは当該画像内の基準オブジェクトのサイズを考慮して計算できる。例えば、当該画像に人間が含まれる場合には、基準オブジェクトは人間であってもよい。

識別されたクロマキー領域に関連する合成対象オブジェクトを識別するための上記の方法は、二つ以上が互いに組み合わせられて行われてもよい。例えば、表４に示すように、カラーキー、サイズ及び形状の組み合わせと合成対象オブジェクトとを関連付け、これを用いて合成対象オブジェクトを識別することもできる。

つまり、クロマキー領域に対するカラーキーが青であり且つ四角形の形状を有する場合、クロマキー領域のサイズに基づいて、大型ＴＶ、ノートパソコン及び携帯電話のうちのいずれかの表示画面に関連すると判断することができる。クロマキー領域に対するカラーキーが青であり且つ円筒形の形状を有する場合には、当該クロマキー領域は缶飲料であると識別することができる。クロマキー領域に対するカラーキーが緑である場合には、該当クロマキー領域に関連するオブジェクトは自動車であると識別することができる。

前述した方法以外にも、画像でオブジェクトを識別するさまざまな方法が適用できる。例えば、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）などのディープラーニングベースの人工ニューラルネットワークを用いて、画像に含まれているオブジェクトを検出して分類する方法が利用されてもよい。

入力画像に含まれている合成対象オブジェクトは、入力画像に含まれる各フレームのイメージを分析することにより識別できる。このとき、入力画像に含まれている合成対象オブジェクトを識別するための上述した方法が、各フレームのイメージに含まれる合成対象オブジェクトを識別するためにも利用できる。

図４はオブジェクト識別部で識別した入力画像内の合成対象オブジェクトを示す図である。

例えば、入力画像４００は、複数のオブジェクトのうち、表示画面４１０、缶飲料４２０及び自動車４３０を合成対象オブジェクトとして含むことができる。図４は、入力画像４００内に含まれているオブジェクトのうち、合成対象オブジェクト４１０、４２０、４３０を識別した結果を示す。

再び図２を参照すると、コンテンツ決定部２３０は、識別された合成対象オブジェクトの領域に合成される挿入コンテンツを決定することができる。

このとき、挿入コンテンツは、合成画像生成装置２００からアクセス可能なコンテンツのうちのいずれかであり得る。本発明による合成画像生成装置２００は、合成画像生成装置２００からアクセス可能なコンテンツを対象オブジェクトに関連付けることができ、アクセス可能なコンテンツそれぞれに対して対象オブジェクトとの関連情報を含むコンテンツ情報を保存することができる。表５は保存されたコンテンツ情報の一例を示す。

前記表５において、ＣｏｎｔｅｎｔＩＤ（Ｉｄｅｎｔｉｆｉｅｒ）は、合成画像生成装置２００からアクセス可能なコンテンツの識別子であって、アクセス可能なコンテンツのそれぞれを識別するための用途に使用できる。

ＣｏｎｔｅｎｔＴｙｐｅは、当該コンテンツの種類に関する情報を含むことができる。例えば、ＣｏｎｔｅｎｔＴｙｐｅは、コンテンツが動画像であるか、イメージであるかを示す情報であり得る。又は、ＣｏｎｔｅｎｔＴｙｐｅは、当該コンテンツファイルの拡張子として表現できる。例えば、ＣｏｎｔｅｎｔＴｙｐｅとして、ｍｐ４、ａｖｉ、ｐｎｇ、ｊｐｅｇ、ｔｉｆなどのように当該コンテンツファイルの拡張子を保存することができる。この場合、ＣｏｎｔｅｎｔＴｙｐｅは、当該コンテンツファイルが動画像であるかイメージであるかだけでなく、当該コンテンツファイルのエンコード方法も示すことができる。

ＴａｒｇｅｔＯｂｊｅｃｔは、当該コンテンツに関連する対象オブジェクトを意味することができる。例えば、Ｃｏｎｔｅｎｔ１は、表示画面に関連するコンテンツであってもよい。また、ＣｏｎｔｅｎｔＰｒｏｖｉｄｅｒは、当該コンテンツの提供者を意味することができる。

ＣｏｎｔｅｎｔＲｏｕｔｅは、当該コンテンツの位置に関する情報を含むことができる。例えば、Ｃｏｎｔｅｎｔ１の場合には、ＣｏｎｔｅｎｔＲｏｕｔｅとしてＵＲＬ（ｕｎｉｖｅｒｓａｌｒｅｓｏｕｒｃｅｌｏｃａｔｏｒ）を含むことができる。表示画面に関連するＣｏｎｔｅｎｔ１は、当該ＵＲＬにアクセスすることにより提供を受けることができる。この場合、ＣｏｎｔｅｎｔＰｒｏｖｉｄｅｒは、当該ＵＲＬ位置のコンテンツを変更することにより、ユーザーに提供されるコンテンツを容易に更新することができ、Ｃｏｎｔｅｎｔ１は、合成画像生成装置２００に保存されなくてもよい。又は、例えば、Ｃｏｎｔｅｎｔ２又はＣｏｎｔｅｎｔ３の場合の如く、当該コンテンツは合成画像生成装置２００内の保存装置に保存できる。この場合、ＣｏｎｔｅｎｔＲｏｕｔｅは、当該コンテンツのストレージ装置内の保存経路を意味することができる。

コンテンツ情報は、前記表５に例示した情報以外に、コンテンツに関する様々な情報を含むことができる。例えば、動画像コンテンツの場合、解像度、フレームレート、再生時間などの情報を含むことができ、イメージコンテンツの場合には、解像度などに関する情報を含むことができる。

また、コンテンツ情報は、ユーザープロファイル情報に関連付けて挿入コンテンツを決定するときに用いられる項目として、コンテンツプロファイル情報を含むことができる。例えば、当該コンテンツを主に消費するユーザーに関する情報（年齢、性別、選好度、趣味、履歴など）、又は各コンテンツが主に消費される環境に関する情報（季節、天候、時間帯、地域など）などが当該コンテンツのコンテンツプロファイル情報として前記表５のコンテンツ情報に含まれ得る。コンテンツプロファイル情報は、追って、ユーザープロファイル情報などと比較されることにより、合成される挿入コンテンツの決定に使用できる。例えば、表５において、Ｃｏｎｔｅｎｔ１が子供を主消費者にしたアニメーション画像である場合、Ｃｏｎｔｅｎｔ１のコンテンツプロファイル情報として、主消費者を「子供」に設定して保存することができる。追って、ユーザープロファイル情報に基づいて合成画像の提供を受けるユーザーが「子供」と識別される場合、コンテンツプロファイル情報に基づいて、主消費者が「子供」であるＣｏｎｔｅｎｔ１が、合成される挿入コンテンツとして決定できる。同様に、Ｃｏｎｔｅｎｔ２の主に消費される時間帯が夜である場合、Ｃｏｎｔｅｎｔ２のコンテンツプロファイル情報として、主消費時間帯を「夜」に設定して保存することができる。追って、合成画像が提供される時点の時間帯が「夜」と識別された場合には、コンテンツプロファイル情報に基づいて、主消費時間帯が「夜」であるＣｏｎｔｅｎｔ２が、合成される挿入コンテンツとして決定できる。

前記表５には、対象オブジェクトごとに一つのコンテンツを例示したが、これに限定されず、対象オブジェクトごとに複数のコンテンツが提供できる。また、複数のコンテンツに関する前記情報は、同一であってもよく、一部又は全部が異なってもよい。合成される挿入コンテンツの決定に用いられるコンテンツプロファイル情報は、一つ以上であってもよく、コンテンツプロファイル情報に基づいて選択されたコンテンツは、候補コンテンツとしてユーザーに提供できる。

合成される挿入コンテンツは、識別された合成対象オブジェクトに関連する一つ以上の候補コンテンツから一つの候補コンテンツを選択することにより決定できる。例えば、識別された合成対象オブジェクトに関連する一つ以上の候補コンテンツをユーザーに表示することができる。ユーザーは、表示された候補コンテンツを見て、一つの候補コンテンツを選択することができる。ユーザーの選択を受信して、選択された候補コンテンツを、識別された合成対象オブジェクトの領域に合成される挿入コンテンツとして決定することができる。

ユーザーデバイス内に備えられたコンテンツ決定部２３０は、識別された合成対象オブジェクトに関連する複数の候補コンテンツをサーバーから受信した後、ユーザーに表示することができる。サーバー内に備えられたコンテンツ決定部２３０は、ユーザーデバイスに複数の候補コンテンツを伝送した後、候補コンテンツに対するユーザーの選択を受信することができる。

前記表示される候補コンテンツ又は合成される挿入コンテンツは、ユーザープロファイル情報に基づいて決定できる。例えば、缶飲料４２０に関連する候補コンテンツを決定するとき、ユーザーの年齢が考慮できる。つまり、ユーザーが未成年者である場合には、候補コンテンツは、非アルコール飲料に関するコンテンツのみに決定できる。合成される挿入コンテンツも同様に決定できる。例えば、缶飲料４２０に関連する候補コンテンツが缶ビールコンテンツと缶コーラコンテンツの２つであるとき、ユーザーが未成年者である場合には、合成される挿入コンテンツは缶コーラコンテンツと決定できる。ユーザーの年齢だけでなく、ユーザーの性別、住所などの個人情報、趣味、関心分野などの選好度情報、検索履歴、要求履歴、再生履歴などの履歴情報など、前述したユーザーに関するさまざまなユーザープロファイル情報が候補コンテンツの決定及び／又は合成される挿入コンテンツの決定に利用できる。例えば、ユーザーが再生した履歴のある画像に基づいて候補コンテンツ及び／又は合成される挿入コンテンツを決定することができる。このとき、前記再生履歴のある画像に関連する画像又はコンテンツが利用できる。具体例として、ユーザーが特定のジャンルの画像を最も多く再生した場合には、当該ジャンルに関連するコンテンツを挿入コンテンツとして決定することができる。

前記表示される候補コンテンツ又は合成される挿入コンテンツは、画像が提供される時間、場所、季節、天候などの環境情報に基づいて決定できる。例えば、季節が冬である場合には、缶飲料４２０に関連するコンテンツとして、統計的に冬に主に飲む飲料に関するコンテンツが選択できる。このとき、合成画像生成装置２００からアクセス可能なそれぞれのコンテンツに対して、コンテンツの属性がコンテンツ情報として保存でき、コンテンツの属性は、統計的に冬に主に飲む飲み物であるか否かの判断のために利用できる。

前記表示される候補コンテンツ又は合成される挿入コンテンツは、関連サービスを提供するサービス提供者の選択によって決定されることも可能である。

前記表示される候補コンテンツ又は合成される挿入コンテンツは、上記の方法のうちの二つ以上を組み合わせた方法によって決定されることも可能である。

図５は入力画像内の識別されたそれぞれのオブジェクト領域に合成できる候補コンテンツを例示する図である。

具体的に、図５の（ａ）は表示画面のオブジェクト領域４１０に合成できる候補コンテンツの例である。例えば、スポーツ画像５１１、公演画像５１２、アニメーション画像５１３などが候補コンテンツとして提供できる。

図５の（ｂ）は缶飲料のオブジェクト領域４２０に合成できる候補コンテンツの例である。例えば、缶ビールのイメージ５２１、缶コーラのイメージ５２２、缶コーヒーのイメージ５２３などが候補コンテンツとして提供できる。

図５の（ｃ）は自動車のオブジェクト領域４３０に合成できる候補コンテンツの例である。例えば、青４ドア自動車のイメージ５３１、シルバー２ドア自動車のイメージ５３２、赤４ドア自動車のイメージ５３３などが候補コンテンツとして提供できる。

例えば、コンテンツ決定部２３０は、前述した様々な方法と基準に基づいて、図５に示されている候補コンテンツからオブジェクト領域のそれぞれに対して合成される挿入コンテンツを決定することができる。

再び図２を参照すると、コンテンツ合成部２４０は、前記決定された挿入コンテンツを入力画像４００内の識別された各オブジェクト領域に合成することにより、出力画像を生成することができる。

図６は識別されたオブジェクト領域のそれぞれに、コンテンツ決定部２３０で決定された挿入コンテンツを合成することにより生成された出力画像の一例である。

図６の出力画像６００は、例えば、図５に示された例において、表示画面のオブジェクト領域４１０に対してスポーツ画像５１１、缶飲料のオブジェクト領域４２０に対して缶ビールのイメージ５２１、自動車のオブジェクト領域４３０に対してシルバー２ドア自動車のイメージ５３２が選択され、各オブジェクト領域に合成されることにより生成された画像である。例えば、表示画面のオブジェクト領域４１０に対しては、ユーザーの選好度情報を照会した結果、スポーツに対するユーザーの選好度が最も高いことを用いて、複数の候補コンテンツのうちスポーツ画像５１１が合成される挿入コンテンツとして決定できる。また、缶飲料のオブジェクト領域４２０に対しては、ユーザーの個人情報を照会した結果、ユーザーが成人男性であり、ビールを楽しむという点を利用して、缶ビールのイメージ５２１を合成される挿入コンテンツとして決定することができる。また、自動車のオブジェクト領域４３０に対しては、候補コンテンツとして青４ドア自動車のコンテンツ５３１、シルバー２ドア自動車のコンテンツ５３２、赤４ドア自動車のコンテンツ５３３などをユーザーに提供した後、ユーザーの選択に応じて、シルバー２ドア自動車のコンテンツ５３２を合成される挿入コンテンツとして決定することができる。

オブジェクト領域に挿入コンテンツを合成する方法はさまざまである。例えば、合成対象オブジェクトの輪郭線に基づいて、識別されたオブジェクトの領域を規定し、オブジェクト領域にマッチングするように挿入コンテンツを変形させることができる。例えば、合成される挿入コンテンツがオブジェクト領域にマッチングするように挿入コンテンツのサイズ、傾き、アスペクト比、形状などを変更することができる。オブジェクト領域にマッチングするように挿入コンテンツが変形すると、変形したコンテンツをオブジェクト領域の位置に合成することができる。

このとき、入力画像が複数のフレームからなる画像（例えば、動画像、タイムラプス画像、その他の複数のイメージを含む画像など）である場合には、合成対象オブジェクトの領域に合成される挿入コンテンツの決定は、フレームごとに行われるか、所定のフレームグループごとに行われるか、或いは所定の時間間隔を置いて行われ得る。例えば、合成対象オブジェクトが缶飲料である場合、挿入コンテンツは、フレームごとに異なるように決定できる。又は、１番目のフレームからｎ番目のフレームまで（第１フレームグループ）の挿入コンテンツは缶コーラのイメージであり、ｎ番目のフレームの後からｍ番目のフレームまで（第２フレームグループ）の挿入コンテンツは缶ビールのイメージであり得る。又は、例えば１秒間隔で挿入コンテンツが異なるように決定できる。

再び図２を参照すると、前述したように、出力画像がユーザーデバイス内で合成された場合には、ユーザーデバイスの表示部２６０に出力画像を表示することにより、ユーザーが生成された画像を消費するようにすることができる。出力画像がサーバー内で合成された場合、出力画像は、サーバーの画像伝送部２７０を介して、ネットワークに接続されたユーザーデバイスに伝送されることにより、ユーザーが当該画像を消費するようにすることができる。

合成画像生成方法
図７は本発明による合成画像生成方法を説明するための図である。

前述したように、本発明による合成画像生成方法は、ユーザーデバイス又はサーバーで単独で行われ得るので、図７の合成画像生成方法は、ユーザーデバイス又はサーバーが単独で行うことができる。また、本発明による合成画像生成方法の一部のステップはサーバー、残りのステップはユーザーデバイスで行われてもよい。また、図７に示されたステップのうちの少なくとも一つは、ユーザーデバイスとサーバー間のデータ交換によって行われてもよい。例えば、ユーザーの選択が必要な場合には、コンテンツ又はユーザープロファイル情報などがサーバー又はユーザーデバイスに保存されている場合、サーバーとユーザーデバイス間のデータ交換が行われ得るのは、前述したとおりである。

Ｓ７１０ステップで、合成の対象となる入力画像が受信できる。ユーザーデバイスは、ネットワークを介して、サーバー内のストレージ空間又は別のデータベースに保存された画像を入力画像として受信するか、或いはカメラなどの画像取得装置によって新たに画像を取得することにより、Ｓ７１０ステップを行うことができる。サーバーは、サーバー内のストレージ空間又は別のデータベースに保存された画像を読み込むことにより、Ｓ７１０ステップを行うことができる。本発明による合成画像生成方法の入力画像は、本発明による合成画像生成装置の入力画像と同様である。よって、以下、入力画像についての具体的な説明は省略する。

Ｓ７２０ステップで、入力画像に含まれている合成対象オブジェクトが識別できる。入力画像に含まれている合成対象オブジェクトを識別するための様々な方法は、オブジェクト識別部２２０に関連して既に説明されており、重複する説明は省略する。

Ｓ７３０ステップで、識別された合成対象オブジェクトの領域に合成される挿入コンテンツが決定できる。コンテンツ決定部２３０に関連して上述した内容は、Ｓ７３０ステップに同様に適用でき、重複する説明は省略する。

例えば、複数の候補コンテンツがサーバー内のストレージ空間又はサーバー側のデータベースに保存されており、合成される挿入コンテンツが複数の候補コンテンツからユーザーの選択によって決定される場合には、Ｓ７３０ステップは、次のとおりに行われ得る。

本発明による合成画像生成方法がユーザーデバイスで行われる場合、Ｓ７２０ステップで合成対象オブジェクトが識別されると、ユーザーデバイスは、識別された合成対象オブジェクトに関する情報をサーバーに伝送することができる。サーバーは、識別された合成対象オブジェクトに関する情報に基づいて複数の候補コンテンツを識別した後、ユーザーデバイスに提供することができる。その後、ユーザーデバイスは、複数の候補コンテンツから一つの候補コンテンツを選択することにより、Ｓ７３０ステップを行うことができる。

本発明による合成画像生成方法がサーバーで行われる場合、Ｓ７２０ステップで合成対象オブジェクトが識別されると、サーバーは、識別された合成対象オブジェクトに関する情報に基づいて複数の候補コンテンツを識別した後、ユーザーデバイスに提供することができる。その後、サーバーは、複数の候補コンテンツから一つの候補コンテンツを選択するユーザーの選択情報をユーザーデバイスから受信することにより、識別されたオブジェクト領域に合成される挿入コンテンツを決定する方式でＳ７３０ステップを行うことができる。

上記でユーザーの選択によって複数の候補コンテンツから一つの候補コンテンツが選択される場合を例示したが、これに限定されない。つまり、合成される挿入コンテンツの決定に用いられる様々な情報（ユーザーの選択情報、ユーザープロファイル情報、環境情報、サービス提供者からの情報など）の保存位置に応じて、サーバーとユーザーデバイス間のデータのやりとりによってＳ７３０ステップが行われ得る。

例えば、複数の候補コンテンツがサーバー内のストレージ空間又はサーバー側のデータベースに保存されており、合成される挿入コンテンツがユーザープロファイル情報に基づいて決定され、ユーザープロファイル情報がユーザーデバイスに保存される場合には、Ｓ７３０ステップは、次のとおりに行われる。

本発明による合成画像生成方法がユーザーデバイスで行われる場合、Ｓ７２０ステップで合成対象オブジェクトが識別されると、ユーザーデバイスは、識別された合成対象オブジェクトに関する情報に基づいてサーバーに伝送することができる。サーバーは、識別された合成対象オブジェクトに関する情報に基づいて複数の候補コンテンツを識別した後、ユーザーデバイスに提供することができる。その後、ユーザーデバイスは、ユーザープロファイル情報に基づいて複数の候補コンテンツから一つの候補コンテンツを選択することにより、識別されたオブジェクト領域に合成される挿入コンテンツを決定する方式でＳ７３０ステップを行うことができる。

本発明による合成画像生成方法がサーバーで行われる場合、Ｓ７２０ステップで合成対象オブジェクトが識別されると、サーバーは、識別された合成対象オブジェクトに関する情報に基づいて複数の候補コンテンツを識別した後、複数の候補コンテンツから一つの候補コンテンツを選択するためのユーザープロファイル情報をユーザーデバイスに要求して受信することにより、識別されたオブジェクト領域に合成される挿入コンテンツを決定する方式でＳ７３０ステップを行うことができる。

Ｓ７４０ステップで、入力画像内の識別された各オブジェクト領域に決定された挿入コンテンツを合成することにより、出力画像を生成することができる。コンテンツを合成するための様々な方法は、コンテンツ合成部２４０に関連して既に説明されており、重複する説明は省略する。

別の例として、本発明による合成画像生成方法は、サーバーで行われる場合、挿入コンテンツを含む合成画像を伝送するユーザーデバイスを特定するステップをさらに含んでもよい。ユーザーデバイスの特定は、Ｓ７１０ステップの前に行われてもよい。ユーザーの選択、デフォルトされた設定、挿入コンテンツの種類や内容などに基づくターゲティングされたユーザー、ユーザー以外の外部システムからの要求などによって、サーバーが合成画像を伝送するユーザーデバイスを特定することができる。また、ユーザーデバイスの特定は、Ｓ７１０〜Ｓ７４０ステップの間、或いはＳ７４０ステップの後に、上述したところと実質的に同様に行われてもよい。

本開示によれば、入力画像３００から合成対象オブジェクトごとに異なるコンテンツが合成されたさまざまな出力画像６００を生成することができる。前記合成される挿入コンテンツはユーザーごとに決定できる。つまり、すべてのユーザーに同一の画像を提供するのではなく、ユーザーの選択やユーザープロファイル情報など、ユーザーに起因する要因又はその他の様々な要因を考慮したユーザーカスタム出力画像を生成することができる。これにより、製作された画像がユーザーに及ぼす影響を極大化するか或いは一定のレベルに調節することが可能である。例えば、ユーザーカスタム画像の提供を介して、画像の教育効果や広告効果などの画像の効果を極大化することができる。

本開示の例示的な方法は、説明の明確性のために動作のシリーズで表現されているが、これは、ステップが行われる順序を制限するためのものではなく、必要な場合には、それぞれのステップが同時に又は異なる順序で行われてもよい。本開示による方法を実現するために、例示するステップにさらに他のステップを含んでもよく、一部のステップを除いて残りのステップを含んでもよく、一部のステップを除いて追加の他のステップを含んでもよい。

本開示の様々な実施形態は、すべての可能な組み合わせを羅列したものではなく、本開示の代表的な態様を説明するためのものであり、様々な実施形態で説明する事項は、独立して適用されてもよく、２つ以上の組み合わせで適用されてもよい。

また、本発明の一実施形態による方法は、様々なコンピュータ装置を介して実行できるプログラム命令の形で実現され、コンピュータ可読記録媒体に記録できる。前記コンピュータ可読記録媒体は、プログラム命令、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記媒体に記録されるプログラム命令は、本発明のために特別に設計及び構成されたもの、又はコンピュータソフトウェア分野の通常の技術者に公知されて使用可能なものである。コンピュータ可読記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープなどの磁気媒体）、ＣＤ−ＲＯＭ、ＤＶＤなどの光記録媒体、フロプティカルディスクなどの磁気−光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのプログラム命令を保存し実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例には、コンパイラによって作られる機械語コードだけでなく、インタプリターなどを用いてコンピュータによって実行できる高級言語コードも含まれる。前記ハードウェア装置は、本発明の動作を行うために一つ以上のソフトウェアモジュールとして作動するように構成でき、その逆も同様である。

また、本開示の様々な実施形態は、ハードウェア、ファームウェア、ソフトウェア、又はそれらの組み合わせなどによって実現できる。ハードウェアによる実現の場合、１つ又はそれ以上のＡＳＩＣｓ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｓ）、ＤＳＰｓ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒｓ）、ＤＳＰＤｓ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＤｅｖｉｃｅｓ）、ＰＬＤｓ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅｓ）、ＦＰＧＡｓ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙｓ）、汎用プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサなどによって実現できる。

本開示の範囲は、様々な実施形態の方法による動作が装置又はコンピュータ装置上で実行されるようにするソフトウェア又はマシンで実行可能な命令（たとえば、オペレーティングシステム、アプリケーション、ファームウェア、プログラムなど）、及びこのようなソフトウェア又は命令などが保存されて装置又はコンピュータ上で実行可能な非一時的コンピュータ可読媒体を含む。

本発明は、さらに以下の課題を有する。

本発明は、入力画像に含まれている一つ以上のクロマキー領域を識別し、前記クロマキー領域に関連するオブジェクトを識別し、前記オブジェクトに関連するコンテンツを用いて前記オブジェクト領域を合成することにより、合成画像を生成する合成画像生成方法を提供することを目的とする。

本発明は、さらに以下の効果を有する。

また、本発明によれば、入力画像に含まれている一つ以上のクロマキー領域を識別し、前記クロマキー領域に関連するオブジェクトを識別し、前記オブジェクトに関連するコンテンツを用いて前記オブジェクト領域を合成することにより、合成画像を生成することができる。

Claims

プログラムであって、少なくとも一つのプロセッサを含むコンピュータ装置に、
入力画像に含まれている合成対象オブジェクトを識別するステップと、
前記識別されたオブジェクトに関連する挿入コンテンツを決定するステップと、
前記入力画像内の前記識別されたオブジェクトの領域に前記挿入コンテンツを合成して出力画像を生成するステップと、
を実行させるプログラム。
前記入力画像は、一つ以上のクロマキー領域を含み、
前記合成対象オブジェクトを識別するステップは、
前記クロマキー領域を検出するステップと、
前記検出されたクロマキー領域に関連するオブジェクトを前記合成対象オブジェクトとして識別するステップとを含む、請求項１に記載のプログラム。
前記合成対象オブジェクトを識別するステップは、
前記検出されたクロマキー領域のカラーキー、サイズ及び形状のうちの少なくとも一つに基づいて前記合成対象オブジェクトを識別する、請求項２に記載のプログラム。
前記合成対象オブジェクトを識別するステップは、
前記入力画像に含まれているオブジェクトに物体認識手法を適用して前記合成対象オブジェクトを識別する、請求項１に記載のプログラム。
少なくとも一つのアクセス可能なコンテンツを対象オブジェクトに関連付けるステップと、
前記アクセス可能なコンテンツのそれぞれに対して対象オブジェクトとの関連情報を含むコンテンツ情報を前記コンピュータ装置に保存するステップとをさらに含む、請求項１乃至４のいずれか一項に記載のプログラム。
前記挿入コンテンツを決定するステップは、
前記コンテンツ情報に基づいて、前記アクセス可能なコンテンツのうち、前記識別された合成対象オブジェクトに関連する少なくとも一つを候補コンテンツとして決定するステップと、
ユーザープロファイル情報に基づいて前記候補コンテンツのうちのいずれか一つを前記挿入コンテンツとして決定するステップとを含む、請求項５に記載のプログラム。
前記ユーザープロファイル情報は、ユーザーの個人情報、選好度情報及びユーザーの履歴情報のうちの少なくとも一つを含む、請求項６に記載のプログラム。
前記挿入コンテンツを決定するステップは、
前記コンテンツ情報に基づいて、前記アクセス可能なコンテンツのうち、前記識別された合成対象オブジェクトに関連する少なくとも一つを候補コンテンツとして決定するステップと、
前記候補コンテンツを表示するステップと、
前記コンピュータ装置のユーザーから前記候補コンテンツのうちのいずれか一つに対する選択を受信するステップと、
前記受信された選択に基づいて前記いずれか一つの候補コンテンツを前記挿入コンテンツとして決定するステップとを含む、請求項５に記載のプログラム。
前記出力画像を生成するステップは、
前記合成対象オブジェクトの領域に基づいて前記挿入コンテンツを変形させるステップと、
前記合成対象オブジェクトの領域に前記変形させた挿入コンテンツを合成するステップとを含む、請求項１乃至８のいずれか一項に記載のプログラム。
前記挿入コンテンツを変形させるステップは、前記合成対象オブジェクトの領域に前記挿入コンテンツがマッチングするように、前記挿入コンテンツのサイズ、傾き及び形状のうちの少なくとも一つを変形させる、請求項９に記載のプログラム。
合成画像生成を行うサーバーであって、
入力画像を取得する画像受信部と、
前記入力画像に含まれている合成対象オブジェクトを識別するオブジェクト識別部と、
前記識別されたオブジェクトに関連する挿入コンテンツを決定するコンテンツ決定部と、
前記入力画像内の前記識別されたオブジェクトの領域に前記挿入コンテンツを合成して出力画像を生成するコンテンツ合成部と、
前記出力画像をネットワークを介してユーザーデバイスに伝送する画像伝送部とを含む、サーバー。
前記入力画像は、一つ以上のクロマキー領域を含み、
前記オブジェクト識別部は、
前記クロマキー領域を検出し、
前記検出されたクロマキー領域に関連するオブジェクトを前記合成対象オブジェクトとして識別する、請求項１１に記載のサーバー。
前記オブジェクト識別部は、
前記検出されたクロマキー領域のカラーキー、サイズ及び形状のうちの少なくとも一つに基づいて前記合成対象オブジェクトを識別する、請求項１２に記載のサーバー。
前記オブジェクト識別部は、
前記入力画像に含まれているオブジェクトに物体認識手法を適用して前記合成対象オブジェクトを識別する、請求項１１に記載のサーバー。
前記サーバーは、
少なくとも一つのアクセス可能なコンテンツを対象オブジェクトに関連付け、前記アクセス可能なコンテンツのそれぞれに対して対象オブジェクトとの関連情報を含むコンテンツ情報を保存する、請求項１１乃至１４のいずれか一項に記載のサーバー。
前記コンテンツ決定部は、
前記コンテンツ情報に基づいて、前記アクセス可能なコンテンツのうち、前記識別された合成対象オブジェクトに関連する少なくとも一つを候補コンテンツとして決定し、前記ユーザーデバイスのユーザープロファイル情報に基づいて前記候補コンテンツのうちのいずれか一つを前記挿入コンテンツとして決定する、請求項１５に記載のサーバー。
前記コンテンツ決定部は、
前記コンテンツ情報に基づいて、前記アクセス可能なコンテンツのうち、前記識別された合成対象オブジェクトに関連する少なくとも一つを候補コンテンツとして決定し、
前記候補コンテンツを前記ユーザーデバイスに伝送し、
前記ユーザーデバイスのユーザーから前記候補コンテンツのうちのいずれか一つに対する選択を受信し、
前記受信された選択に基づいて前記いずれか一つの候補コンテンツを前記挿入コンテンツとして決定する、請求項１５に記載のサーバー。
前記コンテンツ合成部は、
前記合成対象オブジェクトの領域に基づいて前記挿入コンテンツを変形させ、
前記合成対象オブジェクトの領域に前記変形させた挿入コンテンツを合成する、請求項１１に記載のサーバー。
前記コンテンツ合成部は、
前記合成対象オブジェクトの領域に前記挿入コンテンツがマッチングするように、前記挿入コンテンツのサイズ、傾き及び形状のうちの少なくとも一つを変形させる、請求項１１乃至１８のいずれか一項に記載のサーバー。