JP2020053081A

JP2020053081A - ユーザのための合成画像を生成するための情報処理装置、方法、プログラム

Info

Publication number: JP2020053081A
Application number: JP2019219782A
Authority: JP
Inventors: 千貴米倉; Kazutaka Yonekura
Original assignee: Alt Inc
Current assignee: Alt Inc
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2020-04-02

Abstract

【課題】ユーザの他人に成り代わってみたいという願望を叶えてくれるサービスを実現することが可能な情報処理装置等を提供すること。【解決手段】本発明は、ユーザのための合成画像を生成するための情報処理装置を提供し、前記情報処理装置は、少なくとも１つのユーザ画像を取得する第１の取得手段と、改変が許諾されている少なくとも１つのベース画像を取得する第２の取得手段と、前記少なくとも１つのベース画像と前記少なくとも１つのユーザ画像とに基づいて合成画像を生成する生成手段とを備える。【選択図】図４

Description

本発明は、ユーザのための合成画像を生成するための情報処理装置、方法、プログラムに関する。

人はだれしも他人に成り代わってみたいという願望を抱いている。例えば、映画の俳優に成り代わってみたい、広告の芸能人に成り代わってみたい等の願望を抱いている。このような願望を叶えてくれるサービスは存在していない。

本発明の発明者は、ユーザの他人に成り代わってみたいという願望を叶えてくれるサービスを実現することが新たなメディア体験につながると考えた。

本発明は、ユーザの他人に成り代わってみたいという願望を叶えてくれるサービスを実現することが可能な情報処理装置等を提供することを目的とする。

本発明は、例えば、以下の項目を提供する。
（項目１）
ユーザのための合成画像を生成するための情報処理装置であって、
少なくとも１つのユーザ画像を取得する第１の取得手段と、
改変が許諾されている少なくとも１つのベース画像を取得する第２の取得手段と、
前記少なくとも１つのベース画像と前記少なくとも１つのユーザ画像とに基づいて合成画像を生成する生成手段と
を備える情報処理装置。
（項目２）
前記合成画像をユーザに提供するための提供手段をさらに備える、項目１に記載の情報処理装置。
（項目３）
前記提供手段は、前記合成画像を提供することの要求を前記ユーザから受信することなしに、自動的に前記合成画像を前記ユーザに提供する、項目２に記載の情報処理装置。
（項目４）
前記提供手段は、
前記ユーザに前記合成画像を提供可能であることを通知することと、
前記合成画像を提供することの要求を前記ユーザから受信することと、
前記合成画像を提供することの要求を前記ユーザから受信することに応答して、前記合成画像を前記ユーザに提供することと
を行う、項目２に記載の情報処理装置。
（項目５）
前記第２の取得手段は、複数のベース画像を取得し、
前記提供手段は、
前記ユーザに前記複数のベース画像の選択肢を提供することと、
前記複数のベース画像のうちの少なくとも１つを選択する入力を前記ユーザから受信することと、
前記複数のベース画像のうちの少なくとも１つを選択する入力を前記ユーザから受信することに応答して、前記選択された少なくとも１つのベース画像と前記少なくとも１つのユーザ画像とに基づいて生成された合成画像を前記ユーザに提供することと
を行う、項目２に記載の情報処理装置。
（項目６）
前記少なくとも１つのベース画像内に複数の人物が写っており、
前記提供手段は、
前記ユーザに前記少なくとも１つのベース画像内の複数の人物の選択肢を提供することと、
前記少なくとも１つのベース画像内の複数の人物のうちの少なくとも１人を選択する入力を前記ユーザから受信することと、
前記少なくとも１つのベース画像内の複数の人物のうちの少なくとも１人を選択する入力を前記ユーザから受信することに応答して、前記合成画像を前記ユーザに提供することと
を行い、
前記合成画像は、前記少なくとも１つのベース画像内の前記選択された少なくとも１人の人物の少なくとも一部と前記少なくとも１つのユーザ画像内の人物の少なくとも一部とを変換した合成画像である、項目２、４〜５のいずれか一項に記載の情報処理装置。
（項目７）
前記生成手段は、
前記少なくとも１つのベース画像の少なくとも一部と前記少なくとも１つのユーザ画像内の人物の少なくとも一部とを変換した合成画像を生成することと
を行う、項目１〜６のいずれか一項に記載の情報処理装置。
（項目８）
前記生成手段は、
前記少なくとも１つのベース画像内の人物の顔と前記少なくとも１つのユーザ画像内の人物の顔とを変換した合成画像を生成することと
を行う、項目１〜７のいずれか一項に記載の情報処理装置。
（項目９）
前記ベース画像および前記ユーザ画像は音声を含み、
前記生成手段は、
前記少なくとも１つのベース画像内の人物の音声と前記少なくとも１つのユーザ画像内の人物の音声とを変換した合成画像を生成することと
を行う、項目１〜８に記載の情報処理装置。
（項目１０）
前記生成手段は、
前記少なくとも１つのベース画像内の人物の体型と前記少なくとも１つのユーザ画像内の人物の体型とを変換した合成画像を生成することと
を行う、項目１〜９のいずれか一項に記載の情報処理装置。
（項目１１）
前記第１の取得手段は、第１の人物および第２の人物を含む複数の人物のユーザ画像を取得し、
前記生成手段は、
前記少なくとも１つのベース画像内の第１の人物の少なくとも一部と前記ユーザ画像内の第１の人物の少なくとも一部とを変換し、前記少なくとも１つのベース画像内の第２の人物の少なくとも一部と前記ユーザ画像内の第２の人物の少なくとも一部とを変換した合成画像を生成することと
を行う、項目１〜１０のいずれか一項に記載の情報処理装置。
（項目１２）
前記生成手段は、
前記ユーザ画像内の第１の人物と前記ユーザ画像内の第２の人物との間の関係に基づいて、前記ユーザ画像内の第１の人物の少なくとも一部が合成されるべき前記少なくとも１つのベース画像内の第１の人物を決定し、前記ユーザ画像内の第２の人物の少なくとも一部が合成されるべき前記少なくとも１つのベース画像内の第２の人物を決定すること
をさらに行う、項目１１に記載の情報処理装置。
（項目１３）
前記少なくとも１つのベース画像の各々は、一組のサブベース画像を含み、各サブベース画像は、内容が同一であるが、写っている人物がそれぞれ異なっており、
前記生成手段は、
前記少なくとも１つのユーザ画像内の人物に最も類似する人物が写っているサブベース画像を決定することと、
前記決定されたサブベース画像内の前記人物の少なくとも一部と前記少なくとも１つのユーザ画像内の人物の少なくとも一部とを変換した合成画像を生成することと
を行う、項目１〜１２のいずれか一項に記載の情報処理装置。
（項目１４）
前記ユーザ画像は、ユーザ自身の画像である、項目１〜１３のいずれか一項に記載の情報処理装置。
（項目１５）
前記合成画像は、広告動画である、項目１〜１４のいずれか一項に記載の情報処理装置。
（項目１６）
ユーザのための合成画像を生成するためのプログラムであって、前記プログラムは、プロセッサ部を備える情報処理装置において実行され、前記プログラムは、
少なくとも１つのユーザ画像を取得することと、
改変が許諾されている少なくとも１つのベース画像を取得することと、
前記少なくとも１つのベース画像と前記少なくとも１つのユーザ画像とに基づいて合成画像を生成することと
を含む処理を実行することを前記プロセッサ部に行わせる、プログラム。
（項目１７）
ユーザのための合成画像を生成するための方法であって、前記方法は、プロセッサ部を備える情報処理装置において実行され、前記方法は、
前記プロセッサ部が、少なくとも１つのユーザ画像を取得することと、
前記プロセッサ部が、改変が許諾されている少なくとも１つのベース画像を取得することと、
前記プロセッサ部が、前記少なくとも１つのベース画像と前記少なくとも１つのユーザ画像とに基づいて合成画像を生成することと
を含む、方法。
（項目１８）
ユーザのための合成画像を提供するための端末装置であって、前記端末装置はサーバ装置と通信することが可能であり、前記端末装置は、
少なくとも１つのユーザ画像を取得する取得手段と、
前記サーバ装置に前記少なくとも１つのユーザ画像を送信する送信手段と、
前記サーバ装置から、改変が許諾されている少なくとも１つのベース画像と前記少なくとも１つのユーザ画像とに基づいて生成された合成画像を受信する受信手段と
前記合成画像を出力する出力手段と
を備える端末装置。
（項目１９）
合成画像を生成することの許可をユーザから受信する受信手段をさらに備える、項目１８に記載の端末装置。
（項目２０）
ユーザのための合成画像を提供するためのプログラムであって、前記プログラムは、プロセッサ部を備える端末装置において実行され、前記端末装置は、サーバ装置と通信することが可能であり、前記プログラムは、
少なくとも１つのユーザ画像を取得することと、
前記サーバ装置に前記少なくとも１つのユーザ画像を送信することと、
前記サーバ装置から、改変が許諾されている少なくとも１つのベース画像と前記少なくとも１つのユーザ画像とに基づいて生成された合成画像を受信することと
前記合成画像を出力することと
を含む処理を実行することを前記プロセッサ部に行わせる、プログラム。
（項目２１）
ユーザのための合成画像を提供するための方法であって、前記方法は、サーバ装置と通信することが可能な端末装置において実行され、前記方法は、
少なくとも１つのユーザ画像を取得することと、
前記サーバ装置に前記少なくとも１つのユーザ画像を送信することと、
前記サーバ装置から、改変が許諾されている少なくとも１つのベース画像と前記少なくとも１つのユーザ画像とに基づいて生成された合成画像を受信することと、
前記合成画像を出力することと
を含む処理を実行することを前記プロセッサ部に行わせる、プログラム。
（項目２２）
ユーザのための合成画像を生成するためのコンピュータシステムであって、前記コンピュータシステムは、サーバ装置と、前記サーバ装置と通信することが可能な少なくとも１つの端末装置とを備え、
前記端末装置は、
少なくとも１つのユーザ画像を取得することと、
前記サーバ装置に前記少なくとも１つのユーザ画像を送信することと
を行うように構成され、
前記サーバ装置は、
前記少なくとも１つのユーザ画像を取得する前記サーバ装置から受信することと、
改変が許諾されている少なくとも１つのベース画像を取得することと、
前記少なくとも１つのベース画像と前記少なくとも１つのユーザ画像とに基づいて合成画像を生成することと、
前記合成画像を前記端末装置に送信することと
を行うように構成され、
前記端末装置は、
前記サーバ装置から、前記合成画像を受信することと、
前記合成画像を出力することと
を行うようにさらに構成されている、コンピュータシステム。

本発明によれば、ユーザの他人に成り代わってみたいという願望を叶えてくれるサービスを実現することが可能なサーバ装置等を提供することが可能である。これにより、新たなメディア体験をユーザに提供することが可能である。

ユーザのための合成画像を提供するという新たなサービスのフローを概略的に示す図。変換される前の元画像を再生している様子および変換された後の合成画像を再生している様子を示す図。ベース画像をユーザに選択させるための選択画面１０の一例が表示された端末装置１００を示す図。成り代わりたい人物をユーザに選択させるための選択画面２０の一例が表示された端末装置１００を示す図。合成画像を視聴可能である旨の通知を表示する通知画面３０の一例が表示された端末装置１００を示す図。ユーザのための合成画像を提供するためのコンピュータシステム１０００の構成の一例を示す図。端末装置１００の構成の一例を示すブロック図。サーバ装置２００の構成の一例を示すブロック図。サーバ装置２００のプロセッサ部２３０の構成の一例を示すブロック図。ユーザのための合成画像を提供するためのコンピュータシステム１０００における処理の一例を示すフローチャート。ユーザのための合成画像を提供するためのコンピュータシステム１０００における処理の一例を示すフローチャート。ユーザのための合成画像を提供するためのコンピュータシステム１０００における処理の一例を示すフローチャート。ユーザのための合成画像を提供するためのコンピュータシステム１０００における処理の一例を示すフローチャート。

（定義）
本明細書において「画像」は、静止画および動画を含む。静止画および動画は、音声を含んでもよいし、含まなくてもよい。音声を含まない静止画または動画は、映像と呼ぶ。画像は、静止画よりも動画であることが好ましい。動画は静止画よりも情報量が多く、かつ、表現の幅が大きいからである。動画は、静止画に比べて、ユーザにとってより魅力的なコンテンツを表現することができる。

本明細書において「ユーザ画像」は、ユーザ本人が写っている画像、または、ユーザの家族、親族もしくは友人等のユーザに関連する人物が写っている画像を含む。ユーザに関連する人物は、例えば、ユーザと血縁関係または婚姻関係でつながりを持つ人物であり得る。ユーザに関連する人物は、例えば、ユーザがその人物の肖像権について責任を負うことができる人物を意味する。

本明細書において「ベース画像」は、合成画像のベースとなる画像を意味する。ベース画像は、例えば、映画、番組、広告等の企業が著作権を有する画像であり得る。ベース画像は、例えば、有名人自らが撮影した画像等の有名人自身が著作権を有する画像であり得る。ベース画像は、例えば、ユーザ画像であってもよい。

以下、図面を参照しながら、本発明の実施の形態を説明する。

１．ユーザのための合成画像を提供するという新たなサービス
本発明の発明者は、ユーザのための合成画像を提供するという新たなサービスを開発した。そのサービスとは、映画、番組、広告等に登場する人物の画像の少なくとも一部（例えば、顔の画像）および／またはその人物の音声をその人物とは異なるユーザの画像の少なくとも一部（例えば、顔の画像）および／またはそのユーザの音声に変換した合成画像をそのユーザに提供するというものである。この新たなサービスにより、ユーザは、あたかも自分がその映画、番組、広告等に出演したかのような画像を視聴することができるようになる。

上述したように、人はだれしも他人に成り代わってみたいという願望を抱いている。この新たなサービスによれば、映画の俳優に成り代わってみたい、広告の芸能人に成り代わってみたい等の願望を仮想的に画像上で叶えることができる。ユーザは、この新たなサービスにより、今までにない新たなメディア体験をすることができる。

図１Ａは、ユーザのための合成画像を提供するという新たなサービスのフローを概略的に示す図である。端末装置１００を使用するユーザが、このサービスを利用する場合を例に説明する。

まず、ステップＳ１において、ユーザは、ユーザのための合成画像を提供するという新たなサービスを利用するために、利用登録を行う。例えば、端末装置１００を用いて専用アプリケーションを起動し、必要情報を入力することによって利用登録をすることができる。利用登録の際、ユーザは、他人に成り代わりたい願望があることを表明することができる。これは、例えば、ユーザ画像に基づいて合成画像を生成することの許可として専用アプリケーションに入力されるようにしてもよい。このアプリケーションは、例えば、端末装置１００にインストールされているローカルアプリケーションであってもよいし、ウェブブラウザを介して利用可能なウェブアプリケーションであってもよい。端末装置１００は、スマートフォンとして描かれているが、タブレット、パーソナルコンピュータ、スマートグラス等のユーザと相互作用する任意の端末装置であり得る。

利用登録が完了すると、ステップＳ２において、ユーザは、自身が写っている画像をサーバ装置２００にアップロードする。画像は、例えば、過去に撮影した画像であってもよいし、アップロードに際して撮影した画像であってもよい。ユーザは、画像の他に、例えば、自身の音声もアップロードすることができる。音声は、例えば、過去に録音された音声であってもよいし、アップロードに際して録音された音声であってもよいし、画像に含まれる音声であってもよい。音声が画像に含まれる音声である場合は、音声付き画像をアップロードすることにより、画像および音声のアップロードが達成される。例えば、ユーザは、画像または音声をアップロードする代わりに、またはこれに加えて、Ｆａｃｅｂｏｏｋ、Ｉｎｓｔａｇｒａｍ等のＳＮＳ上に既にアップロードしてある画像または音声の所在を指定することによって、サーバ装置２００に画像または音声を取得させるようにしてもよい。

ユーザの画像（および音声）がサーバ装置２００にアップロードされた後、ステップＳ３において、サーバ装置２００が、ユーザのための合成画像を生成する。

ユーザのための合成画像が生成された後、ステップＳ４において、ユーザのための合成画像が端末装置１００に提供される。

ステップＳ５において、ユーザのための合成画像が、端末装置１００で再生される。

例えば、図１Ｂに示されるように、映画中の俳優Ａの顔の画像をユーザの顔の画像に変換した合成画像が端末装置１００で再生される。図１Ｂの左側の図が変換される前の元画像を再生している様子を示し、図１Ｂの右側の図が変換された後の合成画像を再生している様子を示している。例えば、映画中の俳優Ａの音声をユーザの音声に変換するようにしてもよい。これにより、ユーザは、自分が俳優Ａの代わりに登場する映画を端末装置１００において視聴することができる。

ステップＳ５では、例えば、ユーザが合成画像の元となる画像（ベース画像）を選択することに応答して、合成画像が提供されるようにしてもよい。

図１Ｃは、ベース画像をユーザに選択させるための選択画面１０の一例が表示された端末装置１００を示す。図１Ｃの選択画面１０では、ベース画像の選択肢として、複数の映画が表示されている。ユーザは、選択画面１０において、出演する俳優の代わりに登場してみたい映画を選択することができる。ユーザが登場したい映画を選択すると、その選択された映画中の俳優の顔の画像および／または音声をユーザの顔および／または音声に変換した合成画像が、端末装置１００で再生される。例えば、ユーザが選択画面の映画１１を選択すると、図１Ｂの右側の図に示されるように、映画中の俳優Ａの顔の画像および音声をユーザの顔の画像および音声に変換した合成画像が端末装置１００で再生される。

あるいは、ステップＳ５では、例えば、選択画面１０でベース画像を選択した後に、そのベース画像に出演する人物のうちの成り代わりたい人物を選択することに応答して、合成画像が提供されるようにしてもよい。

図１Ｄは、成り代わりたい人物をユーザに選択させるための選択画面２０の一例が表示された端末装置１００を示す。選択画面２０は、例えば、図１Ｃの選択画面１０から遷移した画面である。図１Ｄの選択画面２０では、成り代わることが可能な人物の選択肢として、複数の俳優が表示されている。ユーザは、選択画面２０において、成り代わりたい俳優を選択することができる。ユーザが図１Ｃの選択画面１０で登場したい映画を選択し、図１Ｄの選択画面２０で成り代わりたい俳優を選択すると、その選択された映画中の選択された俳優の顔の画像および／または音声をユーザの顔の画像および／または音声に変換した合成画像が、端末装置１００で再生される。例えば、ユーザが選択画面１０の映画１１を選択し、選択画面２０の俳優２１を選択すると、図１Ｂの右側の図に示されるように、映画中の俳優Ａの顔の画像および／または音声をユーザの顔の画像および／または音声に変換した合成画像が端末装置１００で再生される。

あるいは、ステップＳ５では、例えば、ベース画像を選択することなしに、成り代わりたい人物を選択することに応答して、合成画像が提供されるようにしてもよい。

例えば、図１Ｃの選択画面１０を経ることなく図１Ｄの選択画面２０を表示し、成り代わりたい俳優をユーザに選択させるようにすることができる。ユーザが選択画面２０で成り代わりたい俳優を選択すると、或る画像（例えば、映画）において選択された俳優の顔の画像および／または音声をユーザの顔の画像および／または音声に変換した合成画像が、端末装置１００で再生される。このとき、或る画像は、例えば、ランダムに決定されるベース画像であってもよいし、ベース画像提供者またはこのサービスの提供者による恣意的なベース画像であってもよい。例えば、ユーザが選択画面２０の俳優２１を選択すると、図１Ｂの右側の図に示されるように、映画中の俳優Ａの顔の画像および／または音声をユーザの顔の画像および／または音声に変換した合成画像が端末装置１００で再生される。

上記３つの例では、ユーザが登場したいベース画像および／またはユーザが成り代わりたい俳優をユーザが選択することにより、ユーザは自分の好みに応じたパーソナライズされた合成画像を見ることができ、これにより、ユーザは、新たなメディア体験をすることができる。

あるいは、ステップＳ５では、例えば、ユーザが端末装置１００で動画を視聴しているときに合成画像を視聴可能である旨の通知を受信し、ユーザがその通知に対して合成画像を提供する要求を送信したときに、合成画像が提供されるようにしてもよい。

図１Ｅは、合成画像を視聴可能である旨の通知を表示する通知画面３０の一例が表示された端末装置１００を示す。通知画面３０は、例えば、図１Ｂの左側に示される映画を視聴しているときに、映画の再生が休止されて表示される画面である。図１Ｅの通知画面３０では、「面白い広告を視聴することができます。視聴しますか？」というメッセージが表示されており、このメッセージに対して「はい」または「いいえ」で応答するようになっている。ユーザが通知画面３０で「はい」を選択すると、或る画像（例えば、広告）に登場する人物の顔の画像および／または音声をユーザの顔の画像および／または音声に変換した合成画像が、端末装置１００で再生される。ユーザが通知画面３０で「いいえ」を選択すると、休止されていた動画の再生が開始されるか、または、或る画像（例えば、広告）が変換されることなくそのまま端末装置１００で再生される。

あるいは、ステップＳ５では、例えば、ユーザが端末装置１００で動画を視聴しているときに、突然、或る画像（例えば、広告）に登場する人物の顔の画像および／または音声をユーザの顔の画像および／または音声に変換した合成画像が、端末装置１００で再生される。例えば、図１Ｂの左側に示される映画を視聴しているときに、突然、映画の再生が休止されて、広告に登場する人物の顔の画像および／または音声をユーザの顔の画像および音声に変換した合成画像が端末装置１００で再生される。合成画像の再生が終了すると、休止されていた動画の再生が開始される。

上記２つの例では、偶然にパーソナライズされた画像に出会うことができ、これにより、ユーザは、新たなメディア体験をすることができる。

図１Ａに示される例では、ユーザがログインした上で能動的に自身の画像をサーバ装置２００にアップロードしたが、例えば、端末装置１００のカメラ（例えばＷｅｂカメラ）が撮影した画像を自動的にサーバ装置２００にアップロードするようにしてもよい。これにより、演者の顔の画像および／または音声を自身の顔の画像および／または音声に変換した合成画像がユーザの意図とは無関係に生成されることになる。生成された合成画像は、例えば、リアルタイムで端末装置１００で再生されるようにしてもよいし、時間をずらして端末装置１００で再生されるようにしてもよい。これにより、ユーザは、まったく予期せずパーソナライズされた画像を見ることになり、ユーザは、新たなメディア体験をすることができる。

上述したユーザのための合成画像を提供するという新たなサービスは、例えば、以下に説明するユーザのための合成画像を提供するためのコンピュータシステム１０００によって実現されることができる。

２．ユーザのための合成画像を提供するためのコンピュータシステムの構成
図２は、ユーザのための合成画像を提供するためのコンピュータシステム１０００の構成の一例を示す。

コンピュータシステム１０００は、少なくとも１つの端末装置１００と、少なくとも１つの端末装置１００にネットワーク４００を介して接続されているサーバ装置２００と、サーバ装置２００に接続されているデータベース部３００とを含む。

端末装置１００は、スマートフォン、タブレット、パーソナルコンピュータ、スマートグラス等のユーザと相互作用する任意の端末装置であり得る。端末装置１００は、例えば、映画館、遊園地、商業施設、駅等の施設に設置されたカメラとそのカメラからの映像を投影するスクリーンとを備えるコンピュータシステムを含み得る。端末装置１００は、ネットワーク４００を介してサーバ装置１００と通信することができる。ここで、ネットワーク４００の種類は問わない。例えば、端末装置１００は、インターネットを介してサーバ装置２００と通信してもよいし、ＬＡＮを介してサーバ装置２００と通信してもよい。図２には３つの端末装置１００が描写されているが、端末装置１００の数はこれに限定されない。端末装置１００の数は、１以上の任意の数であり得る。

サーバ装置２００は、ネットワーク４００を介して少なくとも１つの端末装置１００と通信することができる。例えば、サーバ装置２００は、サーバ装置２００に接続されているデータベース部３００から画像を取得し、取得した画像を少なくとも１つの端末装置１００に送信することができる。例えば、サーバ装置２００は、ネットワーク４００を介してサーバ装置２００に接続され得るベース画像提供者の端末装置５００からベース画像を取得し、取得したベース画像をデータベース部３００に格納のために送信することができる。

サーバ装置２００に接続されているデータベース部３００には、例えば、少なくとも１つの端末装置１００のユーザのユーザ画像、ベース画像、サーバ装置２００によって生成された合成画像等が格納される。データベース部３００には、例えば、ユーザの身体的特徴を示す情報（例えば、身長、体重、胸囲、胴囲、腰囲、肌の質感、肌年齢等）、ユーザの属性（例えば、年齢、性別、国籍、出身地等）、ユーザの挙動の特徴（例えば、癖、仕草等）ユーザの人間関係における情報（例えば、恋人の情報（例えば、恋人の属性、身体的特徴、画像等）、配偶者の情報（例えば、配偶者の属性、身体的特徴、画像等）、両親の情報（例えば、両親の属性、身体的特徴、画像等）、兄弟の情報（例えば、兄弟の属性、身体的特徴、画像等）、親族の情報（例えば、親族の属性、身体的特徴、画像等）等）が格納され得る。データベース部３００には、例えば、ベース画像の改変が許諾されているか否かの情報、ベース画像の改変が許諾される期間の情報、ベース画像内の改変が許諾された人物の情報等がベース画像と関連付けられて格納され得る。データベース部３００は、任意の記憶手段によって実装され得る。

図３Ａは、端末装置１００の構成の一例を示す。

端末装置１００は、通信インターフェース部１１０と、入力部１２０と、表示部１３０と、メモリ部１４０と、プロセッサ部１５０とを備える。

通信インターフェース部１１０は、ネットワーク４００を介した通信を制御する。端末装置１００のプロセッサ部１５０は、通信インターフェース部１１０を介して、端末装置１００の外部から情報を受信することが可能であり、端末装置１００の外部に情報を送信することが可能である。通信インターフェース部１１０は、任意の方法で通信を制御し得る。

入力部１２０は、ユーザからの情報を端末装置１００に入力することを可能にする。入力部１２０は、例えば、ログインのためのアカウント名およびパスワード、ユーザの人間関係における情報、ユーザ画像に基づいて合成画像を生成することの許可等を端末装置１００に入力することを可能にする。入力部１２０がユーザからの情報をどのような態様で端末装置１００に入力することを可能にするかは問わない。例えば、入力部１２０がタッチパネルである場合には、ユーザがタッチパネルにタッチすることによって情報を入力するようにしてもよい。あるいは、入力部１２０がマウスである場合には、ユーザがマウスを操作することによって情報を入力するようにしてもよい。あるいは、入力部１２０がキーボードである場合には、ユーザがキーボードのキーを押下することによって情報を入力するようにしてもよい。あるいは、入力部１２０がマイクである場合には、ユーザがマイクに音声を入力することによって情報を入力するようにしてもよい。

表示部１３０は、情報を表示するための任意のディスプレイであり得る。

メモリ部１４０には、端末装置１００における処理を実行するためのプログラムやそのプログラムの実行に必要とされるデータ等が格納されている。メモリ部１４０には、例えば、ユーザのための合成画像を生成するためのプログラム（例えば、後述する図４に示される処理を実現するプログラム）またはユーザのための合成画像を提供するためのプログラム（例えば、後述する図５、図６、図７に示される処理を実現するプログラム）の一部または全部が格納されている。メモリ部１４０には、任意の機能を実装するアプリケーションが格納されていてもよい。ここで、プログラムをどのようにしてメモリ部１４０に格納するかは問わない。例えば、プログラムは、メモリ部１４０にプリインストールされていてもよい。あるいは、プログラムは、ネットワーク４００を経由してダウンロードされることによってメモリ部１４０にインストールされるようにしてもよい。メモリ部１４０は、任意の記憶手段によって実装され得る。

プロセッサ部１５０は、端末装置１００全体の動作を制御する。プロセッサ部１５０は、メモリ部１４０に格納されているプログラムを読み出し、そのプログラムを実行する。これにより、端末装置１００を所望のステップを実行する装置として機能させることが可能である。プロセッサ部１５０は、単一のプロセッサによって実装されてもよいし、複数のプロセッサによって実装されてもよい。

端末装置１００は、上記構成に加えて、例えば、画像を撮影可能である任意のカメラを備え得る。カメラは、端末装置１００に内蔵のカメラであってもよいし、端末装置１００に取り付けられる外部カメラであってもよい。

図３Ａに示される例では、端末装置１００の各構成要素が端末装置１００内に設けられているが、本発明はこれに限定されない。端末装置１００の各構成要素のいずれかが端末装置１００の外部に設けられることも可能である。例えば、表示部１３０を別個のハードウェア（例えば、テレビ）として構成することができる。例えば、入力部１２０、表示部１３０、メモリ部１４０、プロセッサ部１５０のそれぞれが別々のハードウェア部品で構成されている場合には、各ハードウェア部品が任意のネットワークを介して接続されてもよい。このとき、ネットワークの種類は問わない。各ハードウェア部品は、例えば、ＬＡＮを介して接続されてもよいし、無線接続されてもよいし、有線接続されてもよい。端末装置１００は、特定のハードウェア構成には限定されない。例えば、プロセッサ部１５０をデジタル回路ではなくアナログ回路によって構成することも本発明の範囲内である。端末装置１００の構成は、その機能を実現できる限りにおいて上述したものに限定されない。

図３Ｂは、サーバ装置２００の構成の一例を示す。

サーバ装置２００は、通信インターフェース部２１０と、メモリ部２２０と、プロセッサ部２３０とを備える。

通信インターフェース部２１０は、ネットワーク４００を介した通信を制御する。また、通信インターフェース部２１０は、データベース部３００との通信も制御する。サーバ装置２００のプロセッサ部２２０は、通信インターフェース部２１０を介して、サーバ装置２００の外部から情報を受信することが可能であり、サーバ装置２００の外部に情報を送信することが可能である。例えば、サーバ装置２００のプロセッサ部２２０は、少なくとも１つの端末装置１００からネットワーク４００を介して、ユーザ画像を受信する。例えば、サーバ装置２００のプロセッサ部２２０は、少なくとも１つの端末装置１００にネットワーク４００を介して合成画像を送信する。例えば、サーバ装置２００のプロセッサ部２２０は、ベース画像提供者の端末装置５００からネットワーク４００を介してベース画像を受信し得る。通信インターフェース部２１０は、任意の方法で通信を制御し得る。

例えば、通信インターフェース部２１０は、ベース画像提供者によって改変が許諾された画像のみを受信するように構成されてもよい。改変が許諾された画像は、例えば、改変が許諾された人物が写っている画像を含む。これは、例えば、ベース画像提供者の端末装置５００が画像をサーバ装置２００に送信するときに、ベース画像提供者が画像の改変を許諾したことを示す情報も共に送信させることによって達成され得る。改変を許諾したことを示す情報は、改変を許諾する期間、改変を許諾する人物の情報を含み得る。改変を許諾したことを示す情報の一例は、ベース動画内の人物Ａについて１年間改変を許諾する等の情報である。

メモリ部２２０には、サーバ装置２００の処理の実行に必要とされるプログラムやそのプログラムの実行に必要とされるデータ等が格納されている。例えば、ユーザのための合成画像を生成するためのプログラム（例えば、後述する図４に示される処理を実現するプログラム）またはユーザのための合成画像を生成するためのプログラム（例えば、後述する図５、図６、図７に示される処理を実現するプログラム）の一部または全部が格納されている。メモリ部２２０は、任意の記憶手段によって実装され得る。

プロセッサ部２３０は、サーバ装置２００全体の動作を制御する。プロセッサ部２３０は、メモリ部２２０に格納されているプログラムを読み出し、そのプログラムを実行する。これにより、サーバ装置２００を所望のステップを実行する装置として機能させることが可能である。プロセッサ部２３０は、単一のプロセッサによって実装されてもよいし、複数のプロセッサによって実装されてもよい。

図３Ｂに示される例では、サーバ装置２００の各構成要素がサーバ装置２００内に設けられているが、本発明はこれに限定されない。サーバ装置２００の各構成要素のいずれかがサーバ装置２００の外部に設けられることも可能である。例えば、メモリ部２２０、プロセッサ部２３０のそれぞれが別々のハードウェア部品で構成されている場合には、各ハードウェア部品が任意のネットワークを介して接続されてもよい。このとき、ネットワークの種類は問わない。各ハードウェア部品は、例えば、ＬＡＮを介して接続されてもよいし、無線接続されてもよいし、有線接続されてもよい。サーバ装置２００は、特定のハードウェア構成には限定されない。例えば、プロセッサ部２３０をデジタル回路ではなくアナログ回路によって構成することも本発明の範囲内である。サーバ装置２００の構成は、その機能を実現できる限りにおいて上述したものに限定されない。

図２、図３Ｂに示される例では、データベース部３００は、サーバ装置２００の外部に設けられているが、本発明はこれに限定されない。データベース部３００をサーバ装置２００の内部に設けることも可能である。このとき、データベース部３００は、メモリ部２２０を実装する記憶手段と同一の記憶手段によって実装されてもよいし、メモリ部２２０を実装する記憶手段とは別の記憶手段によって実装されてもよい。いずれにせよ、データベース部３００は、サーバ装置２００のための格納部として構成される。データベース部３００の構成は、特定のハードウェア構成に限定されない。例えば、データベース部３００は、単一のハードウェア部品で構成されてもよいし、複数のハードウェア部品で構成されてもよい。例えば、データベース部３００は、サーバ装置２００の外付けハードディスク装置として構成されてもよいし、ネットワークを介して接続されるクラウド上のストレージとして構成されてもよい。

図３Ｃは、サーバ装置２００のプロセッサ部２３０の構成の一例を示す。

プロセッサ部２３０は、ユーザ画像処理部２３１と、ベース画像処理部２３２と、顔変換モデル形成部２３３と、音声変換モデル形成部２３４と、顔コンバート部２３５と、音声コンバート部２３６と、映像音声結合部２３７とを含む。音声変換モデル形成部２３４、音声コンバート部２３６、映像音声結合部２３７は、図３Ｃにおいて破線で示されている。ユーザ画像およびベース画像が音声を含まない場合には、音声変換モデル形成部２３４、音声コンバート部２３６、映像音声結合部２３７は、不要であり、プロセッサ部２３０は、音声変換モデル形成部２３４、音声コンバート部２３６、映像音声結合部２３７を備える必要はない。

ユーザ画像処理部２３１は、ユーザ画像取得部２３１１と、映像処理に関連するブロック（映像切り出し部２３１３、顔切り出し部２３１５）と、音声処理に関連するブロック（音声切り出し部２３１４、音声調節部２３１６）とを含む。音声処理に関連するブロックは、図３Ｃにおいて破線で示されている。ユーザ画像が音声を含まない場合には、音声処理に関連するブロックは、不要であり、ユーザ画像処理部２３１は、音声処理に関連するブロックを備える必要はない。

ユーザ画像取得部２３１１は、ユーザ画像を取得する。ユーザ画像取得部２３１１は、例えば、少なくとも１つの端末装置１００から送信されたユーザ画像を取得してもよいし、データベース部３００に格納されているユーザ画像を取得してもよい。ベース画像取得部２３２２は、ベース画像に加えて、ベース画像に写っている人物の他の画像も取得するようにしてもよい。

映像切り出し部２３１３は、ユーザ画像取得部２３１１によって受信されたユーザ画像から映像を切り出す処理を行う一方、音声切り出し部２３１４は、ユーザ画像取得部２３１１によって受信されたユーザ画像から音声を切り出す処理を行う。これにより、後続の処理において、映像と音声とが別個に処理されるようになる。映像切り出し部２３１３および音声切り出し部２３１４は、例えば、ｆｆｍｐｅｇ等のソフトウェアによって実装され得る。

顔切り出し部２３１５は、映像に写っている人物の顔部分を切り出す処理を行う。例えば、ユーザ画像が動画である場合には、顔切り出し部２３１５は、動画映像から静止画映像を切り出す処理を行い、次いで、静止画映像から人物の顔部分を切り出す処理を行う。顔切り出し部２３１５によって切り出された顔部分は、顔変換モデル形成部２３３のための学習用データとして用いられる。顔切り出し部２３１５は、例えば、ｆａｃｅｓｗａｐ等のソフトウェアによって実装され得る。

音声調節部２３１６は、音声に含まれ得る音声以外の音を除去し、処理しやすい形式に調節する処理を行う。音声調節部２３１６は、例えば、音声のサンプルレートを調節する処理を行う。音声調節部２３１６はさらに、音声解析処理を行う。これにより、音声の特徴（例えば、周波数分布等）を抽出することができ、音声認識が可能になる。音声調節部２３１６によって抽出された音声の特徴は、音声変換モデル形成部２３４のための学習用データとして用いられる。音声調節部２３１６は、例えば、ｆｆｍｐｅｇ、ｃｙｃｌｅＧＡＮｖｏｉｃｅ等のソフトウェアによって実装され得る。

ベース画像処理部２３２は、ベース画像取得部２３２２と、映像処理に関連するブロック（映像切り出し部２３２３、顔切り出し部２３２５）と、音声処理に関連するブロック（音声切り出し部２３２４、音声調節部２３２６）とを含む。音声処理に関連するブロックは、図３Ｃにおいて破線で示されている。ベース画像が音声を含まない場合には音声処理に関連するブロックは、不要であり、ベース画像処理部２３２は、音声処理に関連するブロックを備える必要はない。ベース画像処理部２３２は、ベース画像に加えて、ベース画像に写っている人物の別の画像も、ベース画像と同様に処理することができる。ベース画像に加えて、ベース画像に写っている人物の別も処理することにより、後段の顔変換モデル形成部２３３または音声変換モデル形成部２３４で学習に用いられるデータ量が増加するため、形成される変換モデルの精度が向上する。

ベース画像取得部２３２２は、ベース画像を取得する。ベース画像取得部２３２２は、例えば、ベース画像提供者の端末装置５００から送信されたベース画像を取得してもよいし、データベース部３００に格納されているベース画像を取得してもよい。ベース画像取得部２３２２は、例えば、改変が許諾されたベース画像のみを取得するように構成され得る。例えば、ベース画像取得部２３２２は、ベース画像を取得する前に、そのベース画像の改変が許諾されているか否かを判定し、改変が許諾されている場合にのみそのベース画像を取得するようにすることができる。例えば、ベース画像取得部２３２２は、取得したベース画像の改変が許諾されているか否かを判定し、改変が許諾されている場合にのみそのベース画像を次の処理ブロックに渡すことができる。ベース画像の改変が許諾されているか否かを判定は、例えば、ベース画像に付されている情報を参照すること、ベース画像の権利を管理する権利管理団体のサーバ装置に問い合わせること、ベース画像提供者に改変の許諾の明示を要求すること等によって行われ得る。

映像切り出し部２３２３および音声切り出し部２３２４は、映像切り出し部２３１３および音声切り出し部２３１４と同様の処理を行う。映像切り出し部２３２３は、ベース画像取得部２３２１によって受信されたベース画像から映像を切り出す処理を行う一方、ベース画像取得部２３２１によって受信されたベース画像から音声を切り出す処理を行う。これにより、後続の処理において、映像と音声とが別個に処理されるようになる。映像切り出し部２３２３および音声切り出し部２３２４は、例えば、ｆｆｍｐｅｇ等のソフトウェアによって実装され得る。

顔切り出し部２３２５は、顔切り出し部２３１５と同様の処理を行う。顔切り出し部２３２５は、映像に写っている人物の顔を切り出す処理を行う。例えば、ベース画像が動画である場合には、顔切り出し部２３２５は、動画映像から静止画映像を切り出す処理を行い、次いで、静止画映像から人物の顔を切り出す処理を行う。顔切り出し部２３２５によって切り出された顔部分は、顔変換モデル形成部２３３のための学習用データとして用いられる。顔切り出し部２３２５は、例えば、ｆａｃｅｓｗａｐ等のソフトウェアによって実装され得る。

音声調節部２３２６は、音声調節部２３１６と同様の処理を行う。音声調節部２３２６は、音声に含まれ得る音声以外の音を除去し、処理しやすい形式に調節する処理を行う。音声調節部２３２６は、例えば、音声のサンプルレートを調節する処理を行う。音声調節部２３２６はさらに、音声解析処理を行う。これにより、音声の特徴（例えば、周波数分布等）を抽出することができ、音声認識が可能になる。音声調節部２３２６によって抽出された音声の特徴は、音声変換モデル形成部２３４のための学習用データとして用いられる。音声調節部２３２６は、例えば、ｆｆｍｐｅｇ、ｃｙｃｌｅＧＡＮｖｏｉｃｅ等のソフトウェアによって実装され得る。

顔変換モデル形成部２３３は、顔切り出し部２３１５によって切り出された顔部分と、顔切り出し部２３２５によって切り出された顔部分とを学習用データとして学習することにより、ベース画像に写っている人物の顔をユーザ画像に写っている人物の顔に変換するための顔変換モデルを形成する処理を行う。顔変換モデル形成部２３３は、例えば、多層ニューラルネットワークを用いたディープラーニング技術を利用する。このとき、学習用データを用いて学習する処理は、顔切り出し部２３１５によって切り出された顔部分と、顔切り出し部２３２５によって切り出された顔部分とを用いて、多層ニューラルネットワークの各隠れ層のノードの重み係数を調節する処理であり、これによって形成される顔変換モデルでは、ベース画像に写っている人物の顔映像を入力すると、ユーザ画像に写っている人物の顔に変換された顔映像（例えば、ベース画像に写っている人物の顔の表情をあたかもユーザ画像に写っている人物がしたかのような映像）が出力されるようになる。顔変換モデル形成部２３３は、学習に用いられる顔部分が多いほど、精度の高い顔変換モデルを形成することが可能である。顔変換モデル形成部２３３は、例えば、ｆａｃｅｓｗａｐ等のソフトウェアによって実装され得る。

顔コンバート部２３５は、顔変換モデル形成部２３３によって形成された顔変換モデルを用いて、ベース画像に写っている人物の顔をユーザ画像に写っている人物の顔に変換した顔映像を生成し、その顔映像をベース画像の映像に合成する。これにより、ベース画像に写っている人物があたかもユーザ画像に写っている人物であるかのような合成映像が生成される。ベース画像が動画である場合には、動画を構成する静止画の各々に対して、ベース画像に写っている人物の顔をユーザ画像に写っている人物の顔に変換した顔映像を生成し、その顔映像をベース画像の静止画映像に合成する。次いで、合成された静止画映像をつなぎ合わせることにより、動画映像を構築することができる。この動画映像は、ベース画像（動画）に写っている人物があたかもユーザ画像に写っている人物であるかのような動画となる。顔コンバート部２３５は、例えば、ｆａｃｅｓｗａｐ等のソフトウェアによって実装され得る。

音声変換モデル形成部２３４は、音声調節部２３１６によって抽出された音声の特徴と、音声調節部２３２６によって抽出された音声の特徴とを学習用データとして学習することにより、ベース画像に含まれる音声をユーザ画像に含まれる音声に変換するための音声変換モデルを形成する処理を行う。音声変換モデル形成部２３４は、例えば、多層ニューラルネットワークを用いたディープラーニング技術を利用する。このとき、学習用データを用いて学習する処理は、音声調節部２３１６によって抽出された音声の特徴と、音声調節部２３２６によって抽出された音声の特徴とを用いて、多層ニューラルネットワークの各隠れ層のノードの重み係数を調節する処理であり、これによって形成される音声変換モデルでは、ベース画像に含まれる音声を入力すると、ユーザ画像に含まれる音声に変換された音声（例えば、ベース画像に含まれる音声をあたかもユーザ画像内の人物が発したかのような音声）が出力されるようになる。音声変換モデル形成部２３４は、学習に用いられる音声の特徴が多いほど、精度の高い音声変換モデルを形成することが可能である。音声変換モデル形成部２３４は、例えば、ｃｙｃｌｅＧＡＮｖｏｉｃｅ等のソフトウェアによって実装され得る。

音声コンバート部２３６は、音声変換モデル形成部２３４によって形成された音声変換モデルを用いて、ベース画像に含まれる音声をユーザ画像に含まれる音声に変換した音声を生成する。これにより、ベース画像に含まれる音声があたかもユーザ画像に含まれる人物の音声であるかのような音声が生成される。音声コンバート部２３６は、例えば、ｃｙｃｌｅＧＡＮｖｏｉｃｅ等のソフトウェアによって実装され得る。

映像音声結合部２３７は、顔コンバート部２３５によって生成された合成映像と、音声コンバート部２３６によって生成された音声とを結合し、音声付きの合成画像を生成する。映像音声結合部２３７は、例えば、ｆｆｍｐｅｇ等のソフトウェアによって実装され得る。

映像音声結合部２３７によって生成された合成画像は、通信インターフェース部２１０を介してサーバ装置２００の外部（例えば、少なくとも１つの端末装置１００、データベース部３００）に出力される。

図３Ｃに示される例では、プロセッサ部２３０の各構成要素が同一のプロセッサ部２３０内に設けられているが、本発明はこれに限定されない。プロセッサ部２３０の各構成要素が、複数のプロセッサ部に分散される構成も本発明の範囲内である。

３．ユーザのための合成画像を提供するためのコンピュータシステムにおける処理
図４は、ユーザのための合成画像を提供するためのコンピュータシステム１０００における処理の一例を示す。図４に示される例では、コンピュータシステム１０００において合成画像を生成するための処理を説明する。以下では、ユーザ画像に写っている１人の人物の合成画像を生成することを例に説明する。

ステップＳ４０１において、端末装置１００のプロセッサ部１５０が、少なくとも１つのユーザ画像を取得する。プロセッサ部１５０は、例えば、端末装置１００が備え得るカメラを制御することによりユーザ画像を取得してもよいし、記憶手段（例えば、メモリ、ストレージ、外部記憶装置等）に記憶されたユーザ画像を取得してもよいし、通信インターフェース部１１０を介してネットワーク４００上のユーザ画像を取得してもよい。

ステップＳ４０２において、端末装置１００のプロセッサ部１５０が、通信インターフェース部１１０を介して、少なくとも１つのユーザ画像をサーバ装置２００に送信し、サーバ装置２００のプロセッサ部２３０が、通信インターフェース部２１０を介して、少なくとも１つのユーザ画像を受信する。好ましくは、端末装置１００のプロセッサ部１５０は、複数のユーザ画像をサーバ装置２００に送信し、サーバ装置２００のプロセッサ部２３０が、複数のユーザ画像を受信する。より多くのユーザ画像を受信することにより、後述する処理でより多くのユーザ画像を用いることができ、これにより、生成される合成画像の質が向上するからである。受信されたユーザ画像は、例えば、データベース部３００に格納されて後続の処理のために使用されてもよいし、メモリ部２２０に一時的に格納されて後続の処理のために使用されてもよい。

ステップＳ４０２において、端末装置１００のプロセッサ部１５０は、ユーザ画像をサーバ装置２００に送信する代わりに、または、ユーザ画像をサーバ装置２００に送信することに加えて、ユーザ画像のネットワーク上の所在（例えば、ＵＲＬ）を送信するようにしてもよい。サーバ装置２００がユーザ画像のネットワーク上の所在を受信すると、サーバ装置２００は、その所在にアクセスしてユーザ画像を取得する。

ステップＳ４０３において、プロセッサ部２３０のユーザ画像取得部２３１１が、少なくとも１つのユーザ画像を取得する。ユーザ画像取得部２３１１は、例えば、ステップＳ４０２で少なくとも１つの端末装置１００から受信されたユーザ画像を取得してもよいし、データベース部３００に格納されたユーザ画像をデータベース部３００から取得してもよい。

ユーザ画像を取得すると、ステップＳ４０４において、プロセッサ部２３０の映像切り出し部２３１３、音声切り出し部２３１４、顔切り出し部２３１５、音声調節部２３１６が、少なくとも１つのユーザ画像を処理する。例えば、映像切り出し部２３１３がユーザ画像から映像を切り出し、顔切り出し部２３１５が切り出された映像から顔部分を切り出し、次いで、音声切り出し部２３１４がユーザ画像から音声を切り出し、音声調節部２３１６が切り出された音声を調節しかつ音声の特徴を抽出する。

ステップＳ４０５において、サーバ装置２００のプロセッサ部２３０が、通信インターフェース部２１０を介して、ベース画像提供者の端末装置５００から送信された少なくとも１つのベース画像を受信する。受信されたベース画像は、例えば、データベース部３００に格納されて後続の処理のために使用されてもよいし、メモリ部２２０に一時的に格納されて後続の処理のために使用されてもよい。サーバ装置２００は、ベース画像に加えて、ベース画像に写っている人物の別の画像を受信してもよい。ベース画像に写っている人物の画像をより多く受信することにより、後述する処理でより多くのその人物の画像を用いることができ、これにより、生成される合成画像の質が向上するからである。受信されたベース画像に写っている人物の画像は、例えば、データベース部３００に格納されて後続の処理のために使用されてもよいし、メモリ部２２０に一時的に格納されて後続の処理のために使用されてもよい。

ステップＳ４０５では、サーバ装置２００のプロセッサ部２３０は、ベース画像提供者の端末装置５００から送信されたベース画像（およびベース画像に写っている人物の画像）を受信する代わりに、または、ベース画像提供者の端末装置５００から送信されたベース画像（およびベース画像に写っている人物の画像）を受信することに加えて、ベース画像（およびベース画像に写っている人物の画像）のネットワーク上の所在（例えば、ＵＲＬ）を受信してもよい。サーバ装置２００がベース画像（およびベース画像に写っている人物の画像）のネットワーク上の所在を受信すると、サーバ装置２００は、その所在にアクセスしてベース画像（およびベース画像に写っている人物の画像）を取得する。

ステップＳ４０５では、サーバ装置２００のプロセッサ部２３０は、改変が許諾されたベース画像のみを受信および／または取得するようにすることが好ましい。改変が許諾された画像は、例えば、ベース画像に写っている人物の改変が許諾された画像を含む。改変が許諾されたベース画像のみを受信または取得することにより、サーバ装置２００がベース画像に基づいて生成した合成画像が、ベース画像に付随し得る権利（例えば、著作権、肖像権等）を侵害する可能性を排除することができるようになるからである。

例えば、サーバ装置２００は、サーバ装置２００に送信されるベース画像は全て改変が許諾されている旨の同意をベース画像提供者から予め得ておいてもよいし、ベース画像提供者の端末装置５００からベース画像を受信するときに、ベース画像の改変が許諾されていることを示す情報も共に受信するようにしてもよい。このとき、ベース画像の改変が許諾されていることを示す情報は、ベース画像に関連付けられてデータベース部３００に格納され得る。

ステップＳ４０６において、プロセッサ部２３０のベース画像取得部２３２１が、少なくとも１つのベース画像を取得する。ベース画像取得部２３２１は、例えば、ステップＳ４０３でベース画像提供者の端末装置５００から受信されたベース画像を取得してもよいし、データベース部３００に格納されたベース画像をデータベース部３００から取得してもよい。

ステップＳ４０６は、例えば、プロセッサ部２３０のベース画像取得部２３２１が、取得されるベース画像の改変が許諾されているか否かを判定することを含み得る。ベース画像の改変が許諾されているか否かを判定は、例えば、プロセッサ部２３０のベース画像取得部２３２１が、ベース画像に付されている情報を参照すること、ベース画像に関連付けられてデータベース部３００に格納されている情報を参照すること、ベース画像の権利を管理する権利管理団体のサーバ装置に通信インターフェース部２１０を介して問い合わせを送信すること、ベース画像提供者の端末装置５００に改変の許諾の明示を要求するリクエストを通信インターフェース部２１０を介して送信すること等によって行われ得る。例えば、プロセッサ部２３０のベース画像取得部２３２１は、改変が許諾されている場合にのみそのベース画像を取得するようにしてもよいし、改変が許諾されている場合にのみステップＳ４０７に進むようにしてもよい。

ベース画像を取得すると、ステップＳ４０７において、プロセッサ部２３０の映像切り出し部２３２３、音声切り出し部２３２４、顔切り出し部２３２５、音声調節部２３２６が、少なくとも１つのベース画像を処理する。例えば、映像切り出し部２３２３がベース画像から映像を切り出し、顔切り出し部２３２５が切り出された映像から顔部分を切り出し、次いで、音声切り出し部２３２４がベース画像から音声を切り出し、音声調節部２３２６が切り出された音声を調節しかつ音声の特徴を抽出する。

少なくとも１つのユーザ画像および少なくとも１つのベース画像の処理が完了すると、ステップＳ４０８において、プロセッサ部２３０の顔変換モデル形成部２３３および音声変換モデル形成部２３４が、変換モデルを形成する。例えば、顔変換モデル形成部２３３が顔変換モデルを形成し、次いで、音声変換モデル形成部２３４が音声変換モデルを形成する。顔変換モデルおよび音声変換モデルは、例えば、ディープラーニング技術を利用して形成される。

顔変換モデルおよび音声変換モデルが形成されると、ステップＳ４０９において、プロセッサ部２３０の顔コンバート部２３５、音声コンバート部２３６、映像音声結合部２３７が、合成画像を生成する。例えば、顔コンバート部２３５が、ステップＳ４０８で形成された顔変換モデルを用いて、ベース画像に写っている人物の顔をユーザ画像に写っている人物の顔に変換した顔映像を生成し、その顔映像をベース画像の映像に合成する。例えば、音声コンバート部２３６が、ステップＳ４０８で形成された音声変換モデルを用いて、ベース画像に含まれる音声をユーザ画像に含まれる音声に変換した音声を生成する。例えば、映像音声結合部２３７が、生成された合成映像と、生成された音声とを結合することにより、音声付きの合成画像を生成する。

このようにして、サーバ装置２００において合成画像が生成される。

上述した例では、ステップＳ４０１でユーザ画像を取得することを説明したが、ステップＳ４０１は必ずしも必要ではない。ステップＳ４０２で上述したようにユーザ画像のネットワーク上の所在を送信する場合には、ユーザ装置１００がユーザ画像を保持する必要がないからである。

上述した例では、各ステップで映像と音声とを直列に処理することを説明したが、映像と音声とは並列に処理されるようにしてもよい。このとき、映像のための処理は、音声のための処理の完了を待って次のステップに進むようにしてもよいし、音声のための処理の完了を待つことなく次のステップに進むようにしてもよい。逆もまた同様である。

上述した例では、ステップＳ４０２〜ステップＳ４０４の後にステップＳ４０５〜ステップＳ４０７が行われる例を説明したが、ステップＳ４０２〜ステップＳ４０４とステップＳ４０５〜ステップＳ４０７との順序は問わない。例えば、ステップＳ４０５〜ステップＳ４０７の少なくとも１つの後にステップＳ４０２〜ステップＳ４０４が行われてもよいし、ステップＳ４０２〜ステップＳ４０４の少なくとも１つとステップＳ４０５〜ステップＳ４０７の少なくとも１つとが並列に行われてもよい。

例えば、ステップＳ４０９でサーバ装置２００が合成画像を生成する前のいずれかのタイミングで、端末装置１００のプロセッサ部１５０は、通信インターフェース部１１０を介して、ユーザ画像に基づいて合成画像を生成することの許可をサーバ装置２００に送信し、サーバ装置２００のプロセッサ部２３０がこれを受信するようにしてもよい。これにより、サーバ装置２００がユーザ画像に基づいて生成した合成画像が、ユーザ画像に付随し得る権利（例えば、著作権、肖像権等）を侵害する可能性を排除することができるようになるからである。例えば、ユーザ画像に基づいて合成画像を生成することの許可は、ユーザ画像をサーバ装置２００に送信する度になされるようにしてもよいし、所定のタイミング（例えば、１日１回、週１回、月１回、年１回等）になされるようにしてもよい。例えば、図１Ａを参照して上述したユーザのための合成画像を提供するためのサービスの利用登録を行ったことでもって、ユーザ画像に基づいて合成画像を生成することの許可がなされたものとみなしてもよい。このとき、ユーザ画像に基づいて合成画像を生成することの許可として利用登録情報がサーバ装置２００に送信される。

例えば、ベース画像に複数の人物が写っており、複数の人物のそれぞれが改変を許諾されているとき、ベース画像に写っている複数の人物のうちのいずれかの顔および音声とユーザ画像に写っている人物の顔および音声とを変換した合成画像を生成するようにしてもよい。ベース画像に写っている複数の人物のうちのどの人物の顔および音声と変換するかは、例えば、ユーザが設定できるようにしてもよいし、サーバ装置２００が自動的に決定するようにしてもよい。

例えば、ユーザが設定する場合、サーバ装置２００は、ベース画像に写っている複数の人物の選択肢を端末装置１００に提供し、ユーザは、ベース画像に写っている複数の人物のうちの１人を選択する入力を端末装置１００に行い、端末装置１００はその入力をサーバ装置２００に送信する。サーバ装置２００は、その入力に基づいて、ベース画像に写っている複数の人物のうちの選択された人物の顔および音声とユーザ画像に写っている人物の顔および音声とを変換した合成画像を生成する。

例えば、サーバ装置２００が自動的に決定する場合、ユーザ画像に写っている人物の属性（例えば、性別、年齢）、身体的特徴（例えば、身長、体型）等に基づいて、ベース画像に写っている複数の人物のうち、ユーザ画像に写っている人物により類似する人物、または、より類似しない人物を選択するようにしてもよいし、あるいは、ランダムに選択するようにしてもよい。例えば、ユーザ画像に写っている人物が男性であれば、ベース画像に写っている男性の顔および音声とユーザ画像に写っているその男性の顔および音声とを変換した合成画像を自動的に生成することができる。例えば、ユーザ画像に写っている人物が小太りの女性であれば、ベース画像に写っている細身の女性の顔および音声とユーザ画像に写っているその小太りの女性の顔および音声とを変換した合成画像を自動的に生成することができる。サーバ装置２００が自動的に変換対象の人物を決定することは、予期せぬ合成画像の創造につながり、新たなメディア体験をユーザに提供することにつながる。

上述した例では、ユーザ画像に写っている１人の人物の合成画像を生成することを例に説明したが、本発明はこれに限定されない。ユーザのための合成画像を提供するためのコンピュータシステム１０００における処理では、ユーザ画像に写っている複数の人物の合成画像を生成することが可能である。

例えば、図４の例において、ステップＳ４０２で複数の人物のユーザ画像（例えば、複数の人物が写っている少なくとも１つのユーザ画像、または、複数の人物のそれぞれが写っている複数のユーザ画像）を受信し、ステップＳ４０３〜ステップＳ４０４をユーザ画像に写っているそれぞれの人物について行う。ステップＳ４０５で、複数の人物が写っている少なくとも１つのベース画像を受信し、ステップＳ４０６〜ステップＳ４０７をベース画像に写っているそれぞれの人物について行う。次いで、ステップＳ４０８をユーザ画像に写っているそれぞれの人物およびベース画像に写っているそれぞれの人物について行う。

例えば、ユーザ画像に写っている第１の人物についてステップＳ４０３〜ステップＳ４０４を行い、ベース画像に写っている第１の人物についてステップＳ４０６〜ステップＳ４０７を行い、ユーザ画像に写っている第１の人物とベース画像に写っている第１の人物とについて、ステップＳ４０８を行うことにより、ベース画像に写っている第１の人物の顔をユーザ画像に写っている第１の人物の顔に変換するための顔変換モデルを形成し、ベース画像に写っている第１の人物の音声をユーザ画像に写っている第１の人物の音声に変換するための音声変換モデルを形成する。

例えば、ユーザ画像に写っている第２の人物についてステップＳ４０３〜ステップＳ４０４を行い、ベース画像に写っている第２の人物についてステップＳ４０６〜ステップＳ４０７を行い、ユーザ画像に写っている第２の人物とベース画像に写っている第２の人物とについて、ステップＳ４０８を行うことにより、ベース画像に写っている第２の人物の顔をユーザ画像に写っている第２の人物の顔に変換するための顔変換モデルを形成し、ベース画像に写っている第２の人物の音声をユーザ画像に写っている第２の人物の音声に変換するための音声変換モデルを形成する。

例えば、ユーザ画像に写っている第ｎの人物についてステップＳ４０３〜ステップＳ４０４を行い、ベース画像に写っている第ｎの人物についてステップＳ４０６〜ステップＳ４０７を行い、ユーザ画像に写っている第ｎの人物とベース画像に写っている第ｎの人物とについて、ステップＳ４０８を行うことにより、ベース画像に写っている第ｎの人物の顔をユーザ画像に写っている第ｎの人物の顔に変換するための顔変換モデルを形成し、ベース画像に写っている第ｎの人物の音声をユーザ画像に写っている第ｎの人物の音声に変換するための音声変換モデルを形成する（ｎは２以上の整数）。

このようにして形成された各人物の変換モデルを用いて、ステップＳ４０９において、ベース画像に写っている第１の人物の顔をユーザ画像に写っている第１の人物の顔に変換した顔映像をベース画像の映像に合成し、ベース画像に写っている第２の人物の顔をユーザ画像に写っている第２の人物の顔に変換した顔映像をベース画像の映像に合成し、・・・ベース画像に写っている第ｎの人物の顔をユーザ画像に写っている第ｎの人物の顔に変換した顔映像をベース画像の映像に合成する。また、ベース画像に写っている第１の人物の音声をユーザ画像に写っている第１の人物の音声に変換した音声を生成し、ベース画像に写っている第２の人物の音声をユーザ画像に写っている第２の人物の音声に変換した音声を生成し、・・・ベース画像に写っている第ｎの人物の音声をユーザ画像に写っている第ｎの人物の音声に変換した音声を生成する。そして、合成された映像と生成された音声とを結合することにより、音声付きの合成画像が生成される。

複数の人物の合成画像を生成するとき、ユーザ画像に写っている人物の顔および音声をベース画像に写っているどの人物の顔および音声と変換するかは、例えば、ユーザが設定できるようにしてもよいし、サーバ装置２００が自動的に決定するようにしてもよい。

例えば、ユーザが設定する場合、サーバ装置２００は、ベース画像に写っている複数の人物の選択肢を端末装置１００に提供し、ユーザは、ユーザ画像に写っている複数の人物のそれぞれとベース画像に写っている複数の人物のそれぞれとを対応付ける入力を端末装置１００に行い、端末装置１００はその入力をサーバ装置２００に送信する。サーバ装置２００は、その入力に基づいて、ベース画像およびユーザ画像の対応付けられた人物それぞれの顔および音声を変換した合成画像を生成する。

例えば、サーバ装置２００が自動的に決定する場合、ユーザ画像に写っている人物およびベース画像に写っている人物の属性（例えば、性別、年齢）、身体的特徴（例えば、身長、体型）等に基づいて、ベース画像に写っている複数の人物のうち、ユーザ画像に写っている人物により類似する人物、または、より類似しない人物を選択するようにしてもよいし、あるいは、ランダムに選択するようにしてもよい。ユーザ画像に写っている人物の属性および身体的特徴は、例えば、データベース部３００に格納されている情報を参照してもよいし、既存の画像認識技術を用いることにより、ユーザ画像から認識するようにしてもよい。ベース画像に写っている人物の属性および身体的特徴は、例えば、既存の画像認識技術を用いることにより、ユーザ画像から認識するようにしてもよい。例えば、ユーザ画像に写っている人物が男性であれば、ベース画像に写っている男性の顔および音声とユーザ画像に写っているその男性の顔および音声とを変換した合成画像を自動的に生成することができる。例えば、ユーザ画像に写っている人物が小太りの女性であれば、ベース画像に写っている細身の女性の顔および音声とユーザ画像に写っているその小太りの女性の顔および音声とを変換した合成画像を自動的に生成することができる。サーバ装置２００が自動的に変換対象の人物を決定することは、予期せぬ合成画像の創造につながり、面白く、新たなメディア体験をユーザに提供することにつながる。

例えば、サーバ装置２００が自動的に決定する場合、ユーザ画像に写っている複数の人物の間の人間関係（例えば、恋人、兄弟、親子等）およびベース画像に写っている複数の人物の間の人間関係に基づいて、ベース画像に写っている複数の人物のうち、ユーザ画像に写っている人物の人間関係により類似する人物、または、より類似しない人物を選択するようにしてもよい。ユーザ画像に写っている複数の人物の間の人間関係は、例えば、データベース部３００に格納されている情報を参照してもよいし、既存の画像認識技術を用いることにより、ユーザ画像から推定するようにしてもよい。例えば、同年代の男性と女性が笑顔で写っている画像から、その男性とその女性が恋人あるいは夫婦であると推定される。ベース画像に写っている複数の人物の間の人間関係は、例えば、既存の画像認識技術を用いることにより、ユーザ画像から認識するようにしてもよい。例えば、ユーザ画像に写っている二人の男女が夫婦であると推定された場合、ベース画像に写っているヒーローの顔および音声とユーザ画像に写っているその男性の顔および音声とを変換し、ベース画像に写っているヒロインの顔および音声とユーザ画像に写っているその女性の顔および音声とを変換した合成画像を自動的に生成することができる。例えば、ユーザ画像に写っている大人と子供が親子であると推定された場合、ベース画像に写っている大人の顔および音声とユーザ画像に写っているその大人の顔および音声とを変換し、ベース画像に写っている子供の顔および音声とユーザ画像に写っているその子供の顔および音声とを変換した合成画像を自動的に生成することができる。画像から推定される人間関係が実際の人間関係とは異なるものであったとしても、そのような異なる人間関係に基づいて生成された合成画像もやはり予期せぬ合成画像となり、面白く、これもまた、新たなメディア体験をユーザに提供することにつながる。

ベース画像は、俳優、芸能人、スポーツ選手等が出演する映画、番組、広告等であり得るが、ベース画像は、例えば、著作権フリーモデルを用いて撮影した画像であってもよい。著作権フリーモデルは、合成画像のために用いられるベース画像を撮影するためのモデルであり、言い換えると、著作権フリーモデルを用いて撮影した画像は、合成画像専用のベース画像となる。俳優、芸能人、スポーツ選手等であれば契約切れや犯罪等によってその人物の画像を企業が使用できなくなるおそれがあるが、著作権フリーモデルであれば、著作権フリーモデルの顔および音声がユーザ画像に写っている人物の顔および音声と変換されることが前提であるため、著作権フリーモデルの顔および音声がそのまま流通することはなく、契約切れや犯罪等によって画像を使用できなくなるリスクは極めて小さい。

著作権フリーモデルについて予め大量の画像を撮影しておき、ステップＳ４０６、ステップＳ４０７の処理を予め行っておくことにより、合成画像を生成する処理における負荷を軽減することができ、合成画像生成の速度を向上させることができる。また、大量の画像を用いて学習することができるようになるため、変換モデルの精度も向上する。

著作権フリーモデルの顔および音声が著作権フリーモデルを用いて撮影した画像の著作権は、テレビ局、映像制作会社、撮影者等に帰属し得るが、著作権フリーモデルを用いて撮影した画像は、改変が許諾されたものとみなされ得る。従って、権利の面からも扱いが容易である。

著作権フリーモデルは、例えば、平均的な顔および／または音声を有するモデルであることが好ましい。平均的な顔および／または音声であれば、変換モデルの精度が向上するからである。平均の定義は、例えば、ユーザによって変動し得る。例えば、ユーザの国籍に基づいて平均を定義してもよく、ユーザの国籍が日本である場合には日本人の平均的な顔および／または音声であり得、ユーザの国籍が中国である場合には中国人の平均的な顔および／または音声であり得る。例えば、ユーザの出身地に基づいて平均を定義してもよく、ユーザの出身地が関西地方である場合には関西地方出身の人の平均的な顔および／または音声であり得、ユーザの出身地が九州地方である場合には九州地方出身の人の平均的な顔および／または音声であり得る。

上述したステップＳ４０８で形成される変換モデルは、変換モデルを形成するために用いられるベース画像に写っている人物の顔または音声とユーザ画像に写っている人物の顔または音声とが類似している方が、精度が高くなる。従って、著作権フリーモデルの顔および／または、使用されるユーザ画像に写っている人物の顔および／または音声と類似していることが好ましい。例えば、１のベース画像に対して複数のサブベース画像を用意することによって、これを達成することができる。各サブベース画像は、内容が同一であるが、写っている人物がそれぞれ異なる画像である。例えば、各サブベース画像は、写っている人物のみが異なる画像である。例えば、各サブベース画像は、同一の脚本の映画または広告動画を異なる著作権フリーモデルを用いて撮影した画像である。例えば、各サブベース画像は、同一のコンセプトの画像を異なる著作権フリーモデルを用いて撮影した画像である。

例えば、平均的な顔および／または音声を有する複数の著作権フリーモデルを用いて各サブベース画像を撮影しておき、合成画像を生成する前に、ユーザ画像に写っている人物に最も類似する著作権フリーモデルが写っているサブベース画像を決定し、決定されたサブベース画像に基づいてステップＳ４０９で合成画像を生成するようにすることができる。これにより、精度の高い変換モデルに基づいた合成画像が生成され、合成画像の質が向上する。ユーザ画像に写っている人物に最も類似する著作権フリーモデルは、例えば、既知の画像認識技術を用いて、画像の類似度を算出することによって決定され得る。

上述した例では、顔および音声を変換した合成画像を生成することを説明したが、本発明はこれに限定されない。顔および音声に限られない、ベース画像に写っている人物の少なくとも一部とユーザ画像に写っている人物の少なくとも一部とを変換した合成画像を生成することも本願発明の範囲内である。これは、例えば、上述した顔変換モデルおよび音声変換モデルの代わりに、ベース画像に写っている人物の少なくとも一部とユーザ画像に写っている人物の少なくとも一部とを変換する変換モデルを構築することにより、図４を参照して上述した処理と同様の処理により達成され得る。ベース画像に写っている人物の少なくとも一部とユーザ画像に写っている人物の少なくとも一部とを変換する変換モデルは、例えば、ベース画像から得られたベース画像に写っている人物の少なくとも一部と、ユーザ画像から得られたユーザ画像に写っている人物の少なくとも一部とを用いて学習されたモデルである。

例えば、ベース画像およびユーザ画像に写っている人物の少なくとも一部は、写っている人物の体型であり得る。例えば、ベース画像に写っている人物の体型とユーザ画像に写っている人物の体型とを変換する変換モデルを構築するように、図４を参照して上述した処理と同様の処理を行うことにより、ベース画像に写っている人物の体型とユーザ画像に写っている人物の体型とを変換した合成画像を生成することができる。これにより、ベース画像（例えば、映画）に出演する俳優の体型をユーザ自身の体型に変換した合成画像を生成することができる。

例えば、ベース画像およびユーザ画像に写っている人物の少なくとも一部は、写っている人物の顔、音声、体型であり得る。これにより、ベース画像（例えば、映画）に出演する俳優の顔、音声、体型をユーザ自身の顔、音声体型に変換した合成画像を生成することができ、これは、あたかもユーザ自身が映画に出演したかのような合成画像を見るという新たなメディア体験をユーザに提供することにつながる。

上述した例では、ベース画像に写っている人物の顔をユーザ画像に写っている人物の顔に変換した顔映像を生成し、その顔映像をベース画像の映像に合成することにより合成画像を生成することを説明したが、本発明はこれに限定されない。ユーザ画像に写っている人物の顔をベース画像に写っている人物の顔に変換した顔映像を生成し、その顔映像をユーザ画像に合成することにより合成画像を生成することも本発明の範囲内である。

これは、例えば、ユーザが撮影した画像に、俳優、芸能人、スポーツ選手等の顔を合成した画像を生成することである。例えば、ダンスを踊っているユーザを撮影した画像に、俳優の顔を合成することにより、あたかもその俳優がダンスを踊っているかのような合成画像を生成することができる。例えば、漫才をしているユーザを撮影した画像に、芸能人の顔を合成することにより、あたかもその芸能人が漫才をしているかのような合成画像を生成することができる。これにより、俳優、芸能人、スポーツ選手等の個性が、時間および／またはフィジカルを超えて流通することが可能になり、新たなコンテンツが創造され、ユーザに新たなメディア体験を提供することができる。

上述した処理によって生成された合成画像は、以下に説明する処理によって、ユーザに提供される。

図５は、ユーザのための合成画像を提供するためのコンピュータシステム１０００における処理の一例を示す。図５に示される例では、コンピュータシステム１０００において合成画像を提供するための処理を説明する。図５に示される例は、合成画像を提供することについてユーザが何ら要求しなくとも自動的に合成画像が提供される場合である。

ステップＳ５０１において、サーバ装置２００のプロセッサ部２３０が、図４を参照して説明した処理によって生成された合成画像を通信インターフェース部２１０を介して端末装置１００に送信する。サーバ装置２００のプロセッサ部２３０は、合成画像を提供することの要求をユーザから受信することなし、自動的に合成画像を端末装置１００に送信する。端末装置１００は、通信インターフェース部１１０を介して合成画像を受信する。

例えば、ステップＳ５０１の前に、サーバ装置２００のプロセッサ部２３０が、合成画像を送信する相手先の端末装置１００を決定することを行ってもよい。例えば、サーバ装置２００のプロセッサ部２３０は、ランダムにまたは任意のルールに従って、合成画像を送信する相手先の端末装置１００を決定する。サーバ装置２００のプロセッサ部２３０は、例えば、所定のタイミングで決定された端末装置１００に合成画像を送信する。所定のタイミングは、例えば、端末装置１００が所定の画像を再生する直前、端末装置１００が所定の画像を再生した直後、所定の画像を再生している間等であり得る。

合成画像が受信されると、ステップＳ５０２において、端末装置１００のプロセッサ部１５０が表示部１３０を介して合成画像を出力する。

図５に示される処理を実現すると、例えば、ユーザがＹｏｕｔｕｂｅ等の動画投稿サイトで動画を視聴しているとき、突然、或る広告動画において演者の顔がユーザの顔に変換された合成広告動画が再生されることになる。これは、例えば、所定のタイミングでＹｏｕｔｕｂｅ等の動画投稿サイトから、サーバ装置２００が提供する合成広告動画を提供するサイトに移動させてそのサイト上で合成広告動画を提供することによって達成され得る。あるいは、例えば、後述する単一の情報処理装置である場合には、Ｙｏｕｔｕｂｅ等の動画投稿サイトから移動させることなく、情報処理装置がローカルで合成広告動画を生成して、それを再生することによって達成され得る。

図５に示される処理を実現すると、例えば、ユーザがＴＶ番組を視聴しているときに、突然、或る広告動画において演者の顔がユーザの顔に変換された合成広告動画が再生されることになる。これは、例えば、後述する単一の情報処理装置である場合に、放送された画像に基づいて情報処理装置がローカルで合成広告画像を作成して、それを再生することによって達成され得る。

これにより、端末装置１００のユーザは、予期せず突然パーソナライズされた画像に出会うことができ、これにより、ユーザは、新たなメディア体験をすることができる。さらに、或る広告動画において演者の顔がユーザの顔に変換されたパーソナライズされた広告動画を視聴することにより、ユーザは、例えば、その広告の商品（例えば、化粧品、整髪剤、服等）を自分が使用したらどのようになるか、その広告のサービス（例えば、エステ、トレーニングジム）を自分が利用したらどのようになるかを仮想的に体験することができる。これも新たなメディア体験につながる。

図６は、ユーザのための合成画像を提供するためのコンピュータシステム１０００における処理の一例を示す。図６に示される例では、コンピュータシステム１０００において合成画像を提供するための処理を説明する。図６に示される例は、ユーザが、合成画像を視聴可能であることの通知を受け、合成画像を提供することの要求をしたときに合成画像が提供される場合である。

ステップＳ６０１において、サーバ装置２００のプロセッサ部２３０が、合成画像を提供可能であることの通知を通信インターフェース部２１０を介して端末装置１００に送信する。端末装置１００は、その通知を通信インターフェース部１１０を介して受信する。合成画像を提供可能であることの通知は、例えば、サーバ装置２００から端末装置１００に、直接的に送信されるものであってもよいし、間接的に送信されるものであってもよい。間接的に送信されるものは、例えば、端末装置１００において再生されている画像または再生されようとしている画像内に埋め込まれた通知であり得る。例えば、サーバ装置２００は、その画像の提供者に通知を埋め込むことの要求を送信し、その画像の提供者がこれに応答して通知を画像に埋め込み、通知が埋め込まれた画像が、端末装置１００に送信される。

通知を受信すると、端末装置１００のプロセッサ部１５０が、表示部１３０を介して、ユーザが合成画像を提供することの要求を入力することを可能にするインターフェースを提供する。ユーザはこのインターフェースを介して合成画像を提供することの要求を入力することができる。

ステップＳ６０２において、端末装置１００のプロセッサ部１５０が、ユーザから合成画像を提供することの要求を受信すると、ステップＳ６０３において、端末装置１００のプロセッサ部１５０が、合成画像を提供することの要求を通信インターフェース部１１０を介してサーバ装置２００に送信する。サーバ装置２００のプロセッサ部２３０は、この要求を通信インターフェース部２１０を介して受信する。

合成画像を提供することの要求を受信すると、ステップＳ６０４において、サーバ装置２００のプロセッサ部２３０が、図４を参照して説明した処理によって生成された合成画像を通信インターフェース部２１０を介して端末装置１００に送信する。端末装置１００は、通信インターフェース部１１０を介して合成画像を受信する。

合成画像が受信されると、ステップＳ６０５において、端末装置１００のプロセッサ部１５０が表示部１３０を介して合成画像を出力する。

図６に示される処理を実現すると、例えば、ユーザがＹｏｕｔｕｂｅ等の動画投稿サイトで動画を視聴しているとき、合成画像を視聴可能であることを通知する画面が表示され、これに対して合成画像を提供することの要求を入力すると、或る広告動画において演者の顔がユーザの顔に変換された合成広告動画が再生されることになる。これは、例えば、Ｙｏｕｔｕｂｅ等の動画投稿サイト上に通知画面を表示させ、通知画面に応答すると、サーバ装置２００が提供する合成広告動画を提供するサイトに移動させてそのサイト上で合成広告動画を提供することによって達成され得る。あるいは、例えば、後述する単一の情報処理装置である場合には、Ｙｏｕｔｕｂｅ等の動画投稿サイトから移動させることなく、情報処理装置がローカルで合成広告動画を生成して、それを再生することによって達成され得る。

図６に示される処理を実現すると、例えば、ユーザがＴＶ番組を視聴しているときに、合成画像を視聴可能であることを通知する画面が表示され、これに対して合成画像を提供することの要求を入力すると、或る広告動画において演者の顔がユーザの顔に変換された合成広告動画が再生されることになる。これは、例えば、後述する単一の情報処理装置である場合に、データ放送等で通知画面を表示させ、通知画面に応答すると、放送された画像に基づいて情報処理装置がローカルで合成広告画像を作成して、それを再生することによって達成され得る。

これにより、端末装置１００のユーザは、予期せずパーソナライズされた画像に出会うことができ、これにより、ユーザは、新たなメディア体験をすることができる。さらに、或る広告動画において演者の顔がユーザの顔に変換されたパーソナライズされた広告動画を視聴することにより、ユーザは、例えば、その広告の商品（例えば、化粧品、整髪剤、服等）を自分が使用したらどのようになるか、その広告のサービス（例えば、エステ、トレーニングジム）を自分が利用したらどのようになるかを仮想的に体験することができる。これも新たなメディア体験につながる。

図６に示される例において、ステップＳ６０１の後、合成画像において成り代わることができるベース画像内の人物を選択することを可能にするインターフェースも提供するようにしてもよい。ユーザはこのインターフェースを介して、ベース画像内の成り代わりたい対象を選択することができる。このとき、ステップＳ６０４で端末装置１００に送信される合成画像は、ベース画像内の選択された人物の少なくとも一部をユーザ画像内の人物の少なくとも一部に変換した合成画像となる。この合成画像は、ステップＳ６０３の後に図４に示される処理の少なくとも一部を行うことにより生成されてもよいし、予め図４に示される処理を行うことにより生成されたものであってもよい。

図７は、ユーザのための合成画像を提供するためのコンピュータシステム１０００における処理の一例を示す。図７に示される例では、コンピュータシステム１０００において合成画像を提供するための処理を説明する。図７に示される例は、ユーザが、成り代わって登場したいベース画像を選択し、選択されたベース画像に基づいて生成された合成画像が提供される場合である。

ステップＳ７０１において、サーバ装置２００のプロセッサ部２３０が、合成画像を生成可能な複数のベース画像の選択肢を通信インターフェース部２１０を介して端末装置１００に送信する。端末装置１００は、その選択肢を通信インターフェース部１１０を介して受信する。

選択肢を受信すると、端末装置１００のプロセッサ部１５０が、表示部１３０を介して、ユーザが複数のベース画像の選択肢のうちの少なくとも１つを選択することを可能にするインターフェースを提供する。ユーザはこのインターフェースを介して複数のベース画像のうち、成り代わって登場したい少なくとも１つのベース画像を選択することができる。

ステップＳ７０２において、端末装置１００のプロセッサ部１５０が、ユーザからベース動画を選択する入力を受信すると、ステップＳ７０３において、端末装置１００のプロセッサ部１５０が、ベース動画を選択する入力を通信インターフェース部１１０を介してサーバ装置２００に送信する。サーバ装置２００のプロセッサ部２３０は、この入力を通信インターフェース部２１０を介して受信する。

ベース動画を選択する入力を受信すると、ステップＳ６０１において、サーバ装置２００のプロセッサ部２３０が、選択されたベース画像に基づいて生成された合成画像を通信インターフェース部２１０を介して端末装置１００に送信する。端末装置１００は、通信インターフェース部１１０を介して合成画像を受信する。この合成画像は、ステップＳ７０３の後に図４に示される処理の少なくとも一部を行うことにより生成されてもよいし、予め図４に示される処理を行うことにより生成されたものであってもよい。

合成画像が受信されると、ステップＳ７０５において、端末装置１００のプロセッサ部１５０が表示部１３０を介して合成画像を出力する。

図７に示される処理を実現すると、例えば、ユーザが登場することができる複数の映画の選択肢を提供され、ユーザが複数の映画のうちの１つを選択すると、選択された映画において演者の顔がユーザの顔に変換された合成映画が再生されることになる。

これにより、端末装置１００のユーザは、ユーザは自分の好みに応じたパーソナライズされた画像を見ることができ、これにより、ユーザは、新たなメディア体験をすることができる。

図７に示される例において、ステップＳ７０１の後、合成画像において成り代わることができるベース画像内の人物を選択することを可能にするインターフェースも提供するようにしてもよい。ユーザはこのインターフェースを介して、ベース画像内の成り代わりたい対象を選択することができる。このとき、ステップＳ７０４で端末装置１００に送信される合成画像は、選択されたベース画像内の選択された人物の少なくとも一部をユーザ画像内の人物の少なくとも一部に変換した合成画像となる。この合成画像は、ステップＳ７０３の後に図４に示される処理の少なくとも一部を行うことにより生成されてもよいし、予め図４に示される処理を行うことにより生成されたものであってもよい。

上述した例では、図４、図５、図６、図７に示される各ステップの処理の各ステップを端末装置１００またはサーバ装置２００において実行する例を説明したが、本発明は、これに限定されない。図４、図５、図６、図７に示される各ステップの処理の各ステップは、プロセッサ部を備える少なくとも１つの情報処理装置によって実行されることができる。すなわち、端末装置１００について上述したステップおよびサーバ装置２００について上述したステップの両方の処理を行うことができる単一の情報処理装置も本発明の範囲内である。

図４、図５、図６、図７を参照して上述した例では、図４、図５、図６、図７に示される各ステップの処理は、プロセッサ部１５０およびメモリ部１４０に格納されたプログラムまたは、プロセッサ部２３０およびメモリ部２２０に格納されたプログラムによって実現することが説明されたが、本発明はこれに限定されない。図４、図５、図６、図７に示される各ステップの処理のうちの少なくとも１つは、制御回路などのハードウェア構成によって実現されてもよい。

本発明は、上述した実施形態に限定されるものではない。本発明は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。当業者は、本発明の具体的な好ましい実施形態の記載から、本発明の記載および技術常識に基づいて等価な範囲を実施することができることが理解される。

本発明は、ユーザの他人に成り代わってみたいという願望を叶えてくれるサービスを実現することが可能なサーバ装置等を提供するものとして有用である。これにより、新たなメディア体験をユーザに提供することが可能である。

１００端末装置
２００サーバ装置
３００データベース部
４００ネットワーク
５００ベース画像提供者の端末装置
１０００コンピュータシステム

Claims

本明細書に記載の発明。