JP2020053081A - ユーザのための合成画像を生成するための情報処理装置、方法、プログラム - Google Patents
ユーザのための合成画像を生成するための情報処理装置、方法、プログラム Download PDFInfo
- Publication number
- JP2020053081A JP2020053081A JP2019219782A JP2019219782A JP2020053081A JP 2020053081 A JP2020053081 A JP 2020053081A JP 2019219782 A JP2019219782 A JP 2019219782A JP 2019219782 A JP2019219782 A JP 2019219782A JP 2020053081 A JP2020053081 A JP 2020053081A
- Authority
- JP
- Japan
- Prior art keywords
- image
- user
- unit
- person
- face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000002131 composite material Substances 0.000 title abstract description 183
- 230000010365 information processing Effects 0.000 title abstract description 34
- 238000000034 method Methods 0.000 title description 52
- 238000006243 chemical reaction Methods 0.000 description 70
- 238000012545 processing Methods 0.000 description 70
- 230000008569 process Effects 0.000 description 37
- 238000004891 communication Methods 0.000 description 35
- 230000004048 modification Effects 0.000 description 32
- 238000012986 modification Methods 0.000 description 32
- 238000003860 storage Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 238000005520 cutting process Methods 0.000 description 8
- 230000004044 response Effects 0.000 description 7
- 230000037237 body shape Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 3
- 230000004075 alteration Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000003796 beauty Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 239000002537 cosmetic Substances 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 239000004984 smart glass Substances 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000036548 skin texture Effects 0.000 description 1
Landscapes
- Image Processing (AREA)
- Editing Of Facsimile Originals (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
【課題】ユーザの他人に成り代わってみたいという願望を叶えてくれるサービスを実現することが可能な情報処理装置等を提供すること。【解決手段】本発明は、ユーザのための合成画像を生成するための情報処理装置を提供し、前記情報処理装置は、少なくとも1つのユーザ画像を取得する第1の取得手段と、改変が許諾されている少なくとも1つのベース画像を取得する第2の取得手段と、前記少なくとも1つのベース画像と前記少なくとも1つのユーザ画像とに基づいて合成画像を生成する生成手段とを備える。【選択図】図4
Description
本発明は、ユーザのための合成画像を生成するための情報処理装置、方法、プログラムに関する。
人はだれしも他人に成り代わってみたいという願望を抱いている。例えば、映画の俳優に成り代わってみたい、広告の芸能人に成り代わってみたい等の願望を抱いている。このような願望を叶えてくれるサービスは存在していない。
本発明の発明者は、ユーザの他人に成り代わってみたいという願望を叶えてくれるサービスを実現することが新たなメディア体験につながると考えた。
本発明は、ユーザの他人に成り代わってみたいという願望を叶えてくれるサービスを実現することが可能な情報処理装置等を提供することを目的とする。
本発明は、例えば、以下の項目を提供する。
(項目1)
ユーザのための合成画像を生成するための情報処理装置であって、
少なくとも1つのユーザ画像を取得する第1の取得手段と、
改変が許諾されている少なくとも1つのベース画像を取得する第2の取得手段と、
前記少なくとも1つのベース画像と前記少なくとも1つのユーザ画像とに基づいて合成画像を生成する生成手段と
を備える情報処理装置。
(項目2)
前記合成画像をユーザに提供するための提供手段をさらに備える、項目1に記載の情報処理装置。
(項目3)
前記提供手段は、前記合成画像を提供することの要求を前記ユーザから受信することなしに、自動的に前記合成画像を前記ユーザに提供する、項目2に記載の情報処理装置。
(項目4)
前記提供手段は、
前記ユーザに前記合成画像を提供可能であることを通知することと、
前記合成画像を提供することの要求を前記ユーザから受信することと、
前記合成画像を提供することの要求を前記ユーザから受信することに応答して、前記合成画像を前記ユーザに提供することと
を行う、項目2に記載の情報処理装置。
(項目5)
前記第2の取得手段は、複数のベース画像を取得し、
前記提供手段は、
前記ユーザに前記複数のベース画像の選択肢を提供することと、
前記複数のベース画像のうちの少なくとも1つを選択する入力を前記ユーザから受信することと、
前記複数のベース画像のうちの少なくとも1つを選択する入力を前記ユーザから受信することに応答して、前記選択された少なくとも1つのベース画像と前記少なくとも1つのユーザ画像とに基づいて生成された合成画像を前記ユーザに提供することと
を行う、項目2に記載の情報処理装置。
(項目6)
前記少なくとも1つのベース画像内に複数の人物が写っており、
前記提供手段は、
前記ユーザに前記少なくとも1つのベース画像内の複数の人物の選択肢を提供することと、
前記少なくとも1つのベース画像内の複数の人物のうちの少なくとも1人を選択する入力を前記ユーザから受信することと、
前記少なくとも1つのベース画像内の複数の人物のうちの少なくとも1人を選択する入力を前記ユーザから受信することに応答して、前記合成画像を前記ユーザに提供することと
を行い、
前記合成画像は、前記少なくとも1つのベース画像内の前記選択された少なくとも1人の人物の少なくとも一部と前記少なくとも1つのユーザ画像内の人物の少なくとも一部とを変換した合成画像である、項目2、4〜5のいずれか一項に記載の情報処理装置。
(項目7)
前記生成手段は、
前記少なくとも1つのベース画像の少なくとも一部と前記少なくとも1つのユーザ画像内の人物の少なくとも一部とを変換した合成画像を生成することと
を行う、項目1〜6のいずれか一項に記載の情報処理装置。
(項目8)
前記生成手段は、
前記少なくとも1つのベース画像内の人物の顔と前記少なくとも1つのユーザ画像内の人物の顔とを変換した合成画像を生成することと
を行う、項目1〜7のいずれか一項に記載の情報処理装置。
(項目9)
前記ベース画像および前記ユーザ画像は音声を含み、
前記生成手段は、
前記少なくとも1つのベース画像内の人物の音声と前記少なくとも1つのユーザ画像内の人物の音声とを変換した合成画像を生成することと
を行う、項目1〜8に記載の情報処理装置。
(項目10)
前記生成手段は、
前記少なくとも1つのベース画像内の人物の体型と前記少なくとも1つのユーザ画像内の人物の体型とを変換した合成画像を生成することと
を行う、項目1〜9のいずれか一項に記載の情報処理装置。
(項目11)
前記第1の取得手段は、第1の人物および第2の人物を含む複数の人物のユーザ画像を取得し、
前記生成手段は、
前記少なくとも1つのベース画像内の第1の人物の少なくとも一部と前記ユーザ画像内の第1の人物の少なくとも一部とを変換し、前記少なくとも1つのベース画像内の第2の人物の少なくとも一部と前記ユーザ画像内の第2の人物の少なくとも一部とを変換した合成画像を生成することと
を行う、項目1〜10のいずれか一項に記載の情報処理装置。
(項目12)
前記生成手段は、
前記ユーザ画像内の第1の人物と前記ユーザ画像内の第2の人物との間の関係に基づいて、前記ユーザ画像内の第1の人物の少なくとも一部が合成されるべき前記少なくとも1つのベース画像内の第1の人物を決定し、前記ユーザ画像内の第2の人物の少なくとも一部が合成されるべき前記少なくとも1つのベース画像内の第2の人物を決定すること
をさらに行う、項目11に記載の情報処理装置。
(項目13)
前記少なくとも1つのベース画像の各々は、一組のサブベース画像を含み、各サブベース画像は、内容が同一であるが、写っている人物がそれぞれ異なっており、
前記生成手段は、
前記少なくとも1つのユーザ画像内の人物に最も類似する人物が写っているサブベース画像を決定することと、
前記決定されたサブベース画像内の前記人物の少なくとも一部と前記少なくとも1つのユーザ画像内の人物の少なくとも一部とを変換した合成画像を生成することと
を行う、項目1〜12のいずれか一項に記載の情報処理装置。
(項目14)
前記ユーザ画像は、ユーザ自身の画像である、項目1〜13のいずれか一項に記載の情報処理装置。
(項目15)
前記合成画像は、広告動画である、項目1〜14のいずれか一項に記載の情報処理装置。
(項目16)
ユーザのための合成画像を生成するためのプログラムであって、前記プログラムは、プロセッサ部を備える情報処理装置において実行され、前記プログラムは、
少なくとも1つのユーザ画像を取得することと、
改変が許諾されている少なくとも1つのベース画像を取得することと、
前記少なくとも1つのベース画像と前記少なくとも1つのユーザ画像とに基づいて合成画像を生成することと
を含む処理を実行することを前記プロセッサ部に行わせる、プログラム。
(項目17)
ユーザのための合成画像を生成するための方法であって、前記方法は、プロセッサ部を備える情報処理装置において実行され、前記方法は、
前記プロセッサ部が、少なくとも1つのユーザ画像を取得することと、
前記プロセッサ部が、改変が許諾されている少なくとも1つのベース画像を取得することと、
前記プロセッサ部が、前記少なくとも1つのベース画像と前記少なくとも1つのユーザ画像とに基づいて合成画像を生成することと
を含む、方法。
(項目18)
ユーザのための合成画像を提供するための端末装置であって、前記端末装置はサーバ装置と通信することが可能であり、前記端末装置は、
少なくとも1つのユーザ画像を取得する取得手段と、
前記サーバ装置に前記少なくとも1つのユーザ画像を送信する送信手段と、
前記サーバ装置から、改変が許諾されている少なくとも1つのベース画像と前記少なくとも1つのユーザ画像とに基づいて生成された合成画像を受信する受信手段と
前記合成画像を出力する出力手段と
を備える端末装置。
(項目19)
合成画像を生成することの許可をユーザから受信する受信手段をさらに備える、項目18に記載の端末装置。
(項目20)
ユーザのための合成画像を提供するためのプログラムであって、前記プログラムは、プロセッサ部を備える端末装置において実行され、前記端末装置は、サーバ装置と通信することが可能であり、前記プログラムは、
少なくとも1つのユーザ画像を取得することと、
前記サーバ装置に前記少なくとも1つのユーザ画像を送信することと、
前記サーバ装置から、改変が許諾されている少なくとも1つのベース画像と前記少なくとも1つのユーザ画像とに基づいて生成された合成画像を受信することと
前記合成画像を出力することと
を含む処理を実行することを前記プロセッサ部に行わせる、プログラム。
(項目21)
ユーザのための合成画像を提供するための方法であって、前記方法は、サーバ装置と通信することが可能な端末装置において実行され、前記方法は、
少なくとも1つのユーザ画像を取得することと、
前記サーバ装置に前記少なくとも1つのユーザ画像を送信することと、
前記サーバ装置から、改変が許諾されている少なくとも1つのベース画像と前記少なくとも1つのユーザ画像とに基づいて生成された合成画像を受信することと、
前記合成画像を出力することと
を含む処理を実行することを前記プロセッサ部に行わせる、プログラム。
(項目22)
ユーザのための合成画像を生成するためのコンピュータシステムであって、前記コンピュータシステムは、サーバ装置と、前記サーバ装置と通信することが可能な少なくとも1つの端末装置とを備え、
前記端末装置は、
少なくとも1つのユーザ画像を取得することと、
前記サーバ装置に前記少なくとも1つのユーザ画像を送信することと
を行うように構成され、
前記サーバ装置は、
前記少なくとも1つのユーザ画像を取得する前記サーバ装置から受信することと、
改変が許諾されている少なくとも1つのベース画像を取得することと、
前記少なくとも1つのベース画像と前記少なくとも1つのユーザ画像とに基づいて合成画像を生成することと、
前記合成画像を前記端末装置に送信することと
を行うように構成され、
前記端末装置は、
前記サーバ装置から、前記合成画像を受信することと、
前記合成画像を出力することと
を行うようにさらに構成されている、コンピュータシステム。
(項目1)
ユーザのための合成画像を生成するための情報処理装置であって、
少なくとも1つのユーザ画像を取得する第1の取得手段と、
改変が許諾されている少なくとも1つのベース画像を取得する第2の取得手段と、
前記少なくとも1つのベース画像と前記少なくとも1つのユーザ画像とに基づいて合成画像を生成する生成手段と
を備える情報処理装置。
(項目2)
前記合成画像をユーザに提供するための提供手段をさらに備える、項目1に記載の情報処理装置。
(項目3)
前記提供手段は、前記合成画像を提供することの要求を前記ユーザから受信することなしに、自動的に前記合成画像を前記ユーザに提供する、項目2に記載の情報処理装置。
(項目4)
前記提供手段は、
前記ユーザに前記合成画像を提供可能であることを通知することと、
前記合成画像を提供することの要求を前記ユーザから受信することと、
前記合成画像を提供することの要求を前記ユーザから受信することに応答して、前記合成画像を前記ユーザに提供することと
を行う、項目2に記載の情報処理装置。
(項目5)
前記第2の取得手段は、複数のベース画像を取得し、
前記提供手段は、
前記ユーザに前記複数のベース画像の選択肢を提供することと、
前記複数のベース画像のうちの少なくとも1つを選択する入力を前記ユーザから受信することと、
前記複数のベース画像のうちの少なくとも1つを選択する入力を前記ユーザから受信することに応答して、前記選択された少なくとも1つのベース画像と前記少なくとも1つのユーザ画像とに基づいて生成された合成画像を前記ユーザに提供することと
を行う、項目2に記載の情報処理装置。
(項目6)
前記少なくとも1つのベース画像内に複数の人物が写っており、
前記提供手段は、
前記ユーザに前記少なくとも1つのベース画像内の複数の人物の選択肢を提供することと、
前記少なくとも1つのベース画像内の複数の人物のうちの少なくとも1人を選択する入力を前記ユーザから受信することと、
前記少なくとも1つのベース画像内の複数の人物のうちの少なくとも1人を選択する入力を前記ユーザから受信することに応答して、前記合成画像を前記ユーザに提供することと
を行い、
前記合成画像は、前記少なくとも1つのベース画像内の前記選択された少なくとも1人の人物の少なくとも一部と前記少なくとも1つのユーザ画像内の人物の少なくとも一部とを変換した合成画像である、項目2、4〜5のいずれか一項に記載の情報処理装置。
(項目7)
前記生成手段は、
前記少なくとも1つのベース画像の少なくとも一部と前記少なくとも1つのユーザ画像内の人物の少なくとも一部とを変換した合成画像を生成することと
を行う、項目1〜6のいずれか一項に記載の情報処理装置。
(項目8)
前記生成手段は、
前記少なくとも1つのベース画像内の人物の顔と前記少なくとも1つのユーザ画像内の人物の顔とを変換した合成画像を生成することと
を行う、項目1〜7のいずれか一項に記載の情報処理装置。
(項目9)
前記ベース画像および前記ユーザ画像は音声を含み、
前記生成手段は、
前記少なくとも1つのベース画像内の人物の音声と前記少なくとも1つのユーザ画像内の人物の音声とを変換した合成画像を生成することと
を行う、項目1〜8に記載の情報処理装置。
(項目10)
前記生成手段は、
前記少なくとも1つのベース画像内の人物の体型と前記少なくとも1つのユーザ画像内の人物の体型とを変換した合成画像を生成することと
を行う、項目1〜9のいずれか一項に記載の情報処理装置。
(項目11)
前記第1の取得手段は、第1の人物および第2の人物を含む複数の人物のユーザ画像を取得し、
前記生成手段は、
前記少なくとも1つのベース画像内の第1の人物の少なくとも一部と前記ユーザ画像内の第1の人物の少なくとも一部とを変換し、前記少なくとも1つのベース画像内の第2の人物の少なくとも一部と前記ユーザ画像内の第2の人物の少なくとも一部とを変換した合成画像を生成することと
を行う、項目1〜10のいずれか一項に記載の情報処理装置。
(項目12)
前記生成手段は、
前記ユーザ画像内の第1の人物と前記ユーザ画像内の第2の人物との間の関係に基づいて、前記ユーザ画像内の第1の人物の少なくとも一部が合成されるべき前記少なくとも1つのベース画像内の第1の人物を決定し、前記ユーザ画像内の第2の人物の少なくとも一部が合成されるべき前記少なくとも1つのベース画像内の第2の人物を決定すること
をさらに行う、項目11に記載の情報処理装置。
(項目13)
前記少なくとも1つのベース画像の各々は、一組のサブベース画像を含み、各サブベース画像は、内容が同一であるが、写っている人物がそれぞれ異なっており、
前記生成手段は、
前記少なくとも1つのユーザ画像内の人物に最も類似する人物が写っているサブベース画像を決定することと、
前記決定されたサブベース画像内の前記人物の少なくとも一部と前記少なくとも1つのユーザ画像内の人物の少なくとも一部とを変換した合成画像を生成することと
を行う、項目1〜12のいずれか一項に記載の情報処理装置。
(項目14)
前記ユーザ画像は、ユーザ自身の画像である、項目1〜13のいずれか一項に記載の情報処理装置。
(項目15)
前記合成画像は、広告動画である、項目1〜14のいずれか一項に記載の情報処理装置。
(項目16)
ユーザのための合成画像を生成するためのプログラムであって、前記プログラムは、プロセッサ部を備える情報処理装置において実行され、前記プログラムは、
少なくとも1つのユーザ画像を取得することと、
改変が許諾されている少なくとも1つのベース画像を取得することと、
前記少なくとも1つのベース画像と前記少なくとも1つのユーザ画像とに基づいて合成画像を生成することと
を含む処理を実行することを前記プロセッサ部に行わせる、プログラム。
(項目17)
ユーザのための合成画像を生成するための方法であって、前記方法は、プロセッサ部を備える情報処理装置において実行され、前記方法は、
前記プロセッサ部が、少なくとも1つのユーザ画像を取得することと、
前記プロセッサ部が、改変が許諾されている少なくとも1つのベース画像を取得することと、
前記プロセッサ部が、前記少なくとも1つのベース画像と前記少なくとも1つのユーザ画像とに基づいて合成画像を生成することと
を含む、方法。
(項目18)
ユーザのための合成画像を提供するための端末装置であって、前記端末装置はサーバ装置と通信することが可能であり、前記端末装置は、
少なくとも1つのユーザ画像を取得する取得手段と、
前記サーバ装置に前記少なくとも1つのユーザ画像を送信する送信手段と、
前記サーバ装置から、改変が許諾されている少なくとも1つのベース画像と前記少なくとも1つのユーザ画像とに基づいて生成された合成画像を受信する受信手段と
前記合成画像を出力する出力手段と
を備える端末装置。
(項目19)
合成画像を生成することの許可をユーザから受信する受信手段をさらに備える、項目18に記載の端末装置。
(項目20)
ユーザのための合成画像を提供するためのプログラムであって、前記プログラムは、プロセッサ部を備える端末装置において実行され、前記端末装置は、サーバ装置と通信することが可能であり、前記プログラムは、
少なくとも1つのユーザ画像を取得することと、
前記サーバ装置に前記少なくとも1つのユーザ画像を送信することと、
前記サーバ装置から、改変が許諾されている少なくとも1つのベース画像と前記少なくとも1つのユーザ画像とに基づいて生成された合成画像を受信することと
前記合成画像を出力することと
を含む処理を実行することを前記プロセッサ部に行わせる、プログラム。
(項目21)
ユーザのための合成画像を提供するための方法であって、前記方法は、サーバ装置と通信することが可能な端末装置において実行され、前記方法は、
少なくとも1つのユーザ画像を取得することと、
前記サーバ装置に前記少なくとも1つのユーザ画像を送信することと、
前記サーバ装置から、改変が許諾されている少なくとも1つのベース画像と前記少なくとも1つのユーザ画像とに基づいて生成された合成画像を受信することと、
前記合成画像を出力することと
を含む処理を実行することを前記プロセッサ部に行わせる、プログラム。
(項目22)
ユーザのための合成画像を生成するためのコンピュータシステムであって、前記コンピュータシステムは、サーバ装置と、前記サーバ装置と通信することが可能な少なくとも1つの端末装置とを備え、
前記端末装置は、
少なくとも1つのユーザ画像を取得することと、
前記サーバ装置に前記少なくとも1つのユーザ画像を送信することと
を行うように構成され、
前記サーバ装置は、
前記少なくとも1つのユーザ画像を取得する前記サーバ装置から受信することと、
改変が許諾されている少なくとも1つのベース画像を取得することと、
前記少なくとも1つのベース画像と前記少なくとも1つのユーザ画像とに基づいて合成画像を生成することと、
前記合成画像を前記端末装置に送信することと
を行うように構成され、
前記端末装置は、
前記サーバ装置から、前記合成画像を受信することと、
前記合成画像を出力することと
を行うようにさらに構成されている、コンピュータシステム。
本発明によれば、ユーザの他人に成り代わってみたいという願望を叶えてくれるサービスを実現することが可能なサーバ装置等を提供することが可能である。これにより、新たなメディア体験をユーザに提供することが可能である。
(定義)
本明細書において「画像」は、静止画および動画を含む。静止画および動画は、音声を含んでもよいし、含まなくてもよい。音声を含まない静止画または動画は、映像と呼ぶ。画像は、静止画よりも動画であることが好ましい。動画は静止画よりも情報量が多く、かつ、表現の幅が大きいからである。動画は、静止画に比べて、ユーザにとってより魅力的なコンテンツを表現することができる。
本明細書において「画像」は、静止画および動画を含む。静止画および動画は、音声を含んでもよいし、含まなくてもよい。音声を含まない静止画または動画は、映像と呼ぶ。画像は、静止画よりも動画であることが好ましい。動画は静止画よりも情報量が多く、かつ、表現の幅が大きいからである。動画は、静止画に比べて、ユーザにとってより魅力的なコンテンツを表現することができる。
本明細書において「ユーザ画像」は、ユーザ本人が写っている画像、または、ユーザの家族、親族もしくは友人等のユーザに関連する人物が写っている画像を含む。ユーザに関連する人物は、例えば、ユーザと血縁関係または婚姻関係でつながりを持つ人物であり得る。ユーザに関連する人物は、例えば、ユーザがその人物の肖像権について責任を負うことができる人物を意味する。
本明細書において「ベース画像」は、合成画像のベースとなる画像を意味する。ベース画像は、例えば、映画、番組、広告等の企業が著作権を有する画像であり得る。ベース画像は、例えば、有名人自らが撮影した画像等の有名人自身が著作権を有する画像であり得る。ベース画像は、例えば、ユーザ画像であってもよい。
以下、図面を参照しながら、本発明の実施の形態を説明する。
1.ユーザのための合成画像を提供するという新たなサービス
本発明の発明者は、ユーザのための合成画像を提供するという新たなサービスを開発した。そのサービスとは、映画、番組、広告等に登場する人物の画像の少なくとも一部(例えば、顔の画像)および/またはその人物の音声をその人物とは異なるユーザの画像の少なくとも一部(例えば、顔の画像)および/またはそのユーザの音声に変換した合成画像をそのユーザに提供するというものである。この新たなサービスにより、ユーザは、あたかも自分がその映画、番組、広告等に出演したかのような画像を視聴することができるようになる。
本発明の発明者は、ユーザのための合成画像を提供するという新たなサービスを開発した。そのサービスとは、映画、番組、広告等に登場する人物の画像の少なくとも一部(例えば、顔の画像)および/またはその人物の音声をその人物とは異なるユーザの画像の少なくとも一部(例えば、顔の画像)および/またはそのユーザの音声に変換した合成画像をそのユーザに提供するというものである。この新たなサービスにより、ユーザは、あたかも自分がその映画、番組、広告等に出演したかのような画像を視聴することができるようになる。
上述したように、人はだれしも他人に成り代わってみたいという願望を抱いている。この新たなサービスによれば、映画の俳優に成り代わってみたい、広告の芸能人に成り代わってみたい等の願望を仮想的に画像上で叶えることができる。ユーザは、この新たなサービスにより、今までにない新たなメディア体験をすることができる。
図1Aは、ユーザのための合成画像を提供するという新たなサービスのフローを概略的に示す図である。端末装置100を使用するユーザが、このサービスを利用する場合を例に説明する。
まず、ステップS1において、ユーザは、ユーザのための合成画像を提供するという新たなサービスを利用するために、利用登録を行う。例えば、端末装置100を用いて専用アプリケーションを起動し、必要情報を入力することによって利用登録をすることができる。利用登録の際、ユーザは、他人に成り代わりたい願望があることを表明することができる。これは、例えば、ユーザ画像に基づいて合成画像を生成することの許可として専用アプリケーションに入力されるようにしてもよい。このアプリケーションは、例えば、端末装置100にインストールされているローカルアプリケーションであってもよいし、ウェブブラウザを介して利用可能なウェブアプリケーションであってもよい。端末装置100は、スマートフォンとして描かれているが、タブレット、パーソナルコンピュータ、スマートグラス等のユーザと相互作用する任意の端末装置であり得る。
利用登録が完了すると、ステップS2において、ユーザは、自身が写っている画像をサーバ装置200にアップロードする。画像は、例えば、過去に撮影した画像であってもよいし、アップロードに際して撮影した画像であってもよい。ユーザは、画像の他に、例えば、自身の音声もアップロードすることができる。音声は、例えば、過去に録音された音声であってもよいし、アップロードに際して録音された音声であってもよいし、画像に含まれる音声であってもよい。音声が画像に含まれる音声である場合は、音声付き画像をアップロードすることにより、画像および音声のアップロードが達成される。例えば、ユーザは、画像または音声をアップロードする代わりに、またはこれに加えて、Facebook、Instagram等のSNS上に既にアップロードしてある画像または音声の所在を指定することによって、サーバ装置200に画像または音声を取得させるようにしてもよい。
ユーザの画像(および音声)がサーバ装置200にアップロードされた後、ステップS3において、サーバ装置200が、ユーザのための合成画像を生成する。
ユーザのための合成画像が生成された後、ステップS4において、ユーザのための合成画像が端末装置100に提供される。
ステップS5において、ユーザのための合成画像が、端末装置100で再生される。
例えば、図1Bに示されるように、映画中の俳優Aの顔の画像をユーザの顔の画像に変換した合成画像が端末装置100で再生される。図1Bの左側の図が変換される前の元画像を再生している様子を示し、図1Bの右側の図が変換された後の合成画像を再生している様子を示している。例えば、映画中の俳優Aの音声をユーザの音声に変換するようにしてもよい。これにより、ユーザは、自分が俳優Aの代わりに登場する映画を端末装置100において視聴することができる。
ステップS5では、例えば、ユーザが合成画像の元となる画像(ベース画像)を選択することに応答して、合成画像が提供されるようにしてもよい。
図1Cは、ベース画像をユーザに選択させるための選択画面10の一例が表示された端末装置100を示す。図1Cの選択画面10では、ベース画像の選択肢として、複数の映画が表示されている。ユーザは、選択画面10において、出演する俳優の代わりに登場してみたい映画を選択することができる。ユーザが登場したい映画を選択すると、その選択された映画中の俳優の顔の画像および/または音声をユーザの顔および/または音声に変換した合成画像が、端末装置100で再生される。例えば、ユーザが選択画面の映画11を選択すると、図1Bの右側の図に示されるように、映画中の俳優Aの顔の画像および音声をユーザの顔の画像および音声に変換した合成画像が端末装置100で再生される。
あるいは、ステップS5では、例えば、選択画面10でベース画像を選択した後に、そのベース画像に出演する人物のうちの成り代わりたい人物を選択することに応答して、合成画像が提供されるようにしてもよい。
図1Dは、成り代わりたい人物をユーザに選択させるための選択画面20の一例が表示された端末装置100を示す。選択画面20は、例えば、図1Cの選択画面10から遷移した画面である。図1Dの選択画面20では、成り代わることが可能な人物の選択肢として、複数の俳優が表示されている。ユーザは、選択画面20において、成り代わりたい俳優を選択することができる。ユーザが図1Cの選択画面10で登場したい映画を選択し、図1Dの選択画面20で成り代わりたい俳優を選択すると、その選択された映画中の選択された俳優の顔の画像および/または音声をユーザの顔の画像および/または音声に変換した合成画像が、端末装置100で再生される。例えば、ユーザが選択画面10の映画11を選択し、選択画面20の俳優21を選択すると、図1Bの右側の図に示されるように、映画中の俳優Aの顔の画像および/または音声をユーザの顔の画像および/または音声に変換した合成画像が端末装置100で再生される。
あるいは、ステップS5では、例えば、ベース画像を選択することなしに、成り代わりたい人物を選択することに応答して、合成画像が提供されるようにしてもよい。
例えば、図1Cの選択画面10を経ることなく図1Dの選択画面20を表示し、成り代わりたい俳優をユーザに選択させるようにすることができる。ユーザが選択画面20で成り代わりたい俳優を選択すると、或る画像(例えば、映画)において選択された俳優の顔の画像および/または音声をユーザの顔の画像および/または音声に変換した合成画像が、端末装置100で再生される。このとき、或る画像は、例えば、ランダムに決定されるベース画像であってもよいし、ベース画像提供者またはこのサービスの提供者による恣意的なベース画像であってもよい。例えば、ユーザが選択画面20の俳優21を選択すると、図1Bの右側の図に示されるように、映画中の俳優Aの顔の画像および/または音声をユーザの顔の画像および/または音声に変換した合成画像が端末装置100で再生される。
上記3つの例では、ユーザが登場したいベース画像および/またはユーザが成り代わりたい俳優をユーザが選択することにより、ユーザは自分の好みに応じたパーソナライズされた合成画像を見ることができ、これにより、ユーザは、新たなメディア体験をすることができる。
あるいは、ステップS5では、例えば、ユーザが端末装置100で動画を視聴しているときに合成画像を視聴可能である旨の通知を受信し、ユーザがその通知に対して合成画像を提供する要求を送信したときに、合成画像が提供されるようにしてもよい。
図1Eは、合成画像を視聴可能である旨の通知を表示する通知画面30の一例が表示された端末装置100を示す。通知画面30は、例えば、図1Bの左側に示される映画を視聴しているときに、映画の再生が休止されて表示される画面である。図1Eの通知画面30では、「面白い広告を視聴することができます。視聴しますか?」というメッセージが表示されており、このメッセージに対して「はい」または「いいえ」で応答するようになっている。ユーザが通知画面30で「はい」を選択すると、或る画像(例えば、広告)に登場する人物の顔の画像および/または音声をユーザの顔の画像および/または音声に変換した合成画像が、端末装置100で再生される。ユーザが通知画面30で「いいえ」を選択すると、休止されていた動画の再生が開始されるか、または、或る画像(例えば、広告)が変換されることなくそのまま端末装置100で再生される。
あるいは、ステップS5では、例えば、ユーザが端末装置100で動画を視聴しているときに、突然、或る画像(例えば、広告)に登場する人物の顔の画像および/または音声をユーザの顔の画像および/または音声に変換した合成画像が、端末装置100で再生される。例えば、図1Bの左側に示される映画を視聴しているときに、突然、映画の再生が休止されて、広告に登場する人物の顔の画像および/または音声をユーザの顔の画像および音声に変換した合成画像が端末装置100で再生される。合成画像の再生が終了すると、休止されていた動画の再生が開始される。
上記2つの例では、偶然にパーソナライズされた画像に出会うことができ、これにより、ユーザは、新たなメディア体験をすることができる。
図1Aに示される例では、ユーザがログインした上で能動的に自身の画像をサーバ装置200にアップロードしたが、例えば、端末装置100のカメラ(例えばWebカメラ)が撮影した画像を自動的にサーバ装置200にアップロードするようにしてもよい。これにより、演者の顔の画像および/または音声を自身の顔の画像および/または音声に変換した合成画像がユーザの意図とは無関係に生成されることになる。生成された合成画像は、例えば、リアルタイムで端末装置100で再生されるようにしてもよいし、時間をずらして端末装置100で再生されるようにしてもよい。これにより、ユーザは、まったく予期せずパーソナライズされた画像を見ることになり、ユーザは、新たなメディア体験をすることができる。
上述したユーザのための合成画像を提供するという新たなサービスは、例えば、以下に説明するユーザのための合成画像を提供するためのコンピュータシステム1000によって実現されることができる。
2.ユーザのための合成画像を提供するためのコンピュータシステムの構成
図2は、ユーザのための合成画像を提供するためのコンピュータシステム1000の構成の一例を示す。
図2は、ユーザのための合成画像を提供するためのコンピュータシステム1000の構成の一例を示す。
コンピュータシステム1000は、少なくとも1つの端末装置100と、少なくとも1つの端末装置100にネットワーク400を介して接続されているサーバ装置200と、サーバ装置200に接続されているデータベース部300とを含む。
端末装置100は、スマートフォン、タブレット、パーソナルコンピュータ、スマートグラス等のユーザと相互作用する任意の端末装置であり得る。端末装置100は、例えば、映画館、遊園地、商業施設、駅等の施設に設置されたカメラとそのカメラからの映像を投影するスクリーンとを備えるコンピュータシステムを含み得る。端末装置100は、ネットワーク400を介してサーバ装置100と通信することができる。ここで、ネットワーク400の種類は問わない。例えば、端末装置100は、インターネットを介してサーバ装置200と通信してもよいし、LANを介してサーバ装置200と通信してもよい。図2には3つの端末装置100が描写されているが、端末装置100の数はこれに限定されない。端末装置100の数は、1以上の任意の数であり得る。
サーバ装置200は、ネットワーク400を介して少なくとも1つの端末装置100と通信することができる。例えば、サーバ装置200は、サーバ装置200に接続されているデータベース部300から画像を取得し、取得した画像を少なくとも1つの端末装置100に送信することができる。例えば、サーバ装置200は、ネットワーク400を介してサーバ装置200に接続され得るベース画像提供者の端末装置500からベース画像を取得し、取得したベース画像をデータベース部300に格納のために送信することができる。
サーバ装置200に接続されているデータベース部300には、例えば、少なくとも1つの端末装置100のユーザのユーザ画像、ベース画像、サーバ装置200によって生成された合成画像等が格納される。データベース部300には、例えば、ユーザの身体的特徴を示す情報(例えば、身長、体重、胸囲、胴囲、腰囲、肌の質感、肌年齢等)、ユーザの属性(例えば、年齢、性別、国籍、出身地等)、ユーザの挙動の特徴(例えば、癖、仕草等)ユーザの人間関係における情報(例えば、恋人の情報(例えば、恋人の属性、身体的特徴、画像等)、配偶者の情報(例えば、配偶者の属性、身体的特徴、画像等)、両親の情報(例えば、両親の属性、身体的特徴、画像等)、兄弟の情報(例えば、兄弟の属性、身体的特徴、画像等)、親族の情報(例えば、親族の属性、身体的特徴、画像等)等)が格納され得る。データベース部300には、例えば、ベース画像の改変が許諾されているか否かの情報、ベース画像の改変が許諾される期間の情報、ベース画像内の改変が許諾された人物の情報等がベース画像と関連付けられて格納され得る。データベース部300は、任意の記憶手段によって実装され得る。
図3Aは、端末装置100の構成の一例を示す。
端末装置100は、通信インターフェース部110と、入力部120と、表示部130と、メモリ部140と、プロセッサ部150とを備える。
通信インターフェース部110は、ネットワーク400を介した通信を制御する。端末装置100のプロセッサ部150は、通信インターフェース部110を介して、端末装置100の外部から情報を受信することが可能であり、端末装置100の外部に情報を送信することが可能である。通信インターフェース部110は、任意の方法で通信を制御し得る。
入力部120は、ユーザからの情報を端末装置100に入力することを可能にする。入力部120は、例えば、ログインのためのアカウント名およびパスワード、ユーザの人間関係における情報、ユーザ画像に基づいて合成画像を生成することの許可等を端末装置100に入力することを可能にする。入力部120がユーザからの情報をどのような態様で端末装置100に入力することを可能にするかは問わない。例えば、入力部120がタッチパネルである場合には、ユーザがタッチパネルにタッチすることによって情報を入力するようにしてもよい。あるいは、入力部120がマウスである場合には、ユーザがマウスを操作することによって情報を入力するようにしてもよい。あるいは、入力部120がキーボードである場合には、ユーザがキーボードのキーを押下することによって情報を入力するようにしてもよい。あるいは、入力部120がマイクである場合には、ユーザがマイクに音声を入力することによって情報を入力するようにしてもよい。
表示部130は、情報を表示するための任意のディスプレイであり得る。
メモリ部140には、端末装置100における処理を実行するためのプログラムやそのプログラムの実行に必要とされるデータ等が格納されている。メモリ部140には、例えば、ユーザのための合成画像を生成するためのプログラム(例えば、後述する図4に示される処理を実現するプログラム)またはユーザのための合成画像を提供するためのプログラム(例えば、後述する図5、図6、図7に示される処理を実現するプログラム)の一部または全部が格納されている。メモリ部140には、任意の機能を実装するアプリケーションが格納されていてもよい。ここで、プログラムをどのようにしてメモリ部140に格納するかは問わない。例えば、プログラムは、メモリ部140にプリインストールされていてもよい。あるいは、プログラムは、ネットワーク400を経由してダウンロードされることによってメモリ部140にインストールされるようにしてもよい。メモリ部140は、任意の記憶手段によって実装され得る。
プロセッサ部150は、端末装置100全体の動作を制御する。プロセッサ部150は、メモリ部140に格納されているプログラムを読み出し、そのプログラムを実行する。これにより、端末装置100を所望のステップを実行する装置として機能させることが可能である。プロセッサ部150は、単一のプロセッサによって実装されてもよいし、複数のプロセッサによって実装されてもよい。
端末装置100は、上記構成に加えて、例えば、画像を撮影可能である任意のカメラを備え得る。カメラは、端末装置100に内蔵のカメラであってもよいし、端末装置100に取り付けられる外部カメラであってもよい。
図3Aに示される例では、端末装置100の各構成要素が端末装置100内に設けられているが、本発明はこれに限定されない。端末装置100の各構成要素のいずれかが端末装置100の外部に設けられることも可能である。例えば、表示部130を別個のハードウェア(例えば、テレビ)として構成することができる。例えば、入力部120、表示部130、メモリ部140、プロセッサ部150のそれぞれが別々のハードウェア部品で構成されている場合には、各ハードウェア部品が任意のネットワークを介して接続されてもよい。このとき、ネットワークの種類は問わない。各ハードウェア部品は、例えば、LANを介して接続されてもよいし、無線接続されてもよいし、有線接続されてもよい。端末装置100は、特定のハードウェア構成には限定されない。例えば、プロセッサ部150をデジタル回路ではなくアナログ回路によって構成することも本発明の範囲内である。端末装置100の構成は、その機能を実現できる限りにおいて上述したものに限定されない。
図3Bは、サーバ装置200の構成の一例を示す。
サーバ装置200は、通信インターフェース部210と、メモリ部220と、プロセッサ部230とを備える。
通信インターフェース部210は、ネットワーク400を介した通信を制御する。また、通信インターフェース部210は、データベース部300との通信も制御する。サーバ装置200のプロセッサ部220は、通信インターフェース部210を介して、サーバ装置200の外部から情報を受信することが可能であり、サーバ装置200の外部に情報を送信することが可能である。例えば、サーバ装置200のプロセッサ部220は、少なくとも1つの端末装置100からネットワーク400を介して、ユーザ画像を受信する。例えば、サーバ装置200のプロセッサ部220は、少なくとも1つの端末装置100にネットワーク400を介して合成画像を送信する。例えば、サーバ装置200のプロセッサ部220は、ベース画像提供者の端末装置500からネットワーク400を介してベース画像を受信し得る。通信インターフェース部210は、任意の方法で通信を制御し得る。
例えば、通信インターフェース部210は、ベース画像提供者によって改変が許諾された画像のみを受信するように構成されてもよい。改変が許諾された画像は、例えば、改変が許諾された人物が写っている画像を含む。これは、例えば、ベース画像提供者の端末装置500が画像をサーバ装置200に送信するときに、ベース画像提供者が画像の改変を許諾したことを示す情報も共に送信させることによって達成され得る。改変を許諾したことを示す情報は、改変を許諾する期間、改変を許諾する人物の情報を含み得る。改変を許諾したことを示す情報の一例は、ベース動画内の人物Aについて1年間改変を許諾する等の情報である。
メモリ部220には、サーバ装置200の処理の実行に必要とされるプログラムやそのプログラムの実行に必要とされるデータ等が格納されている。例えば、ユーザのための合成画像を生成するためのプログラム(例えば、後述する図4に示される処理を実現するプログラム)またはユーザのための合成画像を生成するためのプログラム(例えば、後述する図5、図6、図7に示される処理を実現するプログラム)の一部または全部が格納されている。メモリ部220は、任意の記憶手段によって実装され得る。
プロセッサ部230は、サーバ装置200全体の動作を制御する。プロセッサ部230は、メモリ部220に格納されているプログラムを読み出し、そのプログラムを実行する。これにより、サーバ装置200を所望のステップを実行する装置として機能させることが可能である。プロセッサ部230は、単一のプロセッサによって実装されてもよいし、複数のプロセッサによって実装されてもよい。
図3Bに示される例では、サーバ装置200の各構成要素がサーバ装置200内に設けられているが、本発明はこれに限定されない。サーバ装置200の各構成要素のいずれかがサーバ装置200の外部に設けられることも可能である。例えば、メモリ部220、プロセッサ部230のそれぞれが別々のハードウェア部品で構成されている場合には、各ハードウェア部品が任意のネットワークを介して接続されてもよい。このとき、ネットワークの種類は問わない。各ハードウェア部品は、例えば、LANを介して接続されてもよいし、無線接続されてもよいし、有線接続されてもよい。サーバ装置200は、特定のハードウェア構成には限定されない。例えば、プロセッサ部230をデジタル回路ではなくアナログ回路によって構成することも本発明の範囲内である。サーバ装置200の構成は、その機能を実現できる限りにおいて上述したものに限定されない。
図2、図3Bに示される例では、データベース部300は、サーバ装置200の外部に設けられているが、本発明はこれに限定されない。データベース部300をサーバ装置200の内部に設けることも可能である。このとき、データベース部300は、メモリ部220を実装する記憶手段と同一の記憶手段によって実装されてもよいし、メモリ部220を実装する記憶手段とは別の記憶手段によって実装されてもよい。いずれにせよ、データベース部300は、サーバ装置200のための格納部として構成される。データベース部300の構成は、特定のハードウェア構成に限定されない。例えば、データベース部300は、単一のハードウェア部品で構成されてもよいし、複数のハードウェア部品で構成されてもよい。例えば、データベース部300は、サーバ装置200の外付けハードディスク装置として構成されてもよいし、ネットワークを介して接続されるクラウド上のストレージとして構成されてもよい。
図3Cは、サーバ装置200のプロセッサ部230の構成の一例を示す。
プロセッサ部230は、ユーザ画像処理部231と、ベース画像処理部232と、顔変換モデル形成部233と、音声変換モデル形成部234と、顔コンバート部235と、音声コンバート部236と、映像音声結合部237とを含む。音声変換モデル形成部234、音声コンバート部236、映像音声結合部237は、図3Cにおいて破線で示されている。ユーザ画像およびベース画像が音声を含まない場合には、音声変換モデル形成部234、音声コンバート部236、映像音声結合部237は、不要であり、プロセッサ部230は、音声変換モデル形成部234、音声コンバート部236、映像音声結合部237を備える必要はない。
ユーザ画像処理部231は、ユーザ画像取得部2311と、映像処理に関連するブロック(映像切り出し部2313、顔切り出し部2315)と、音声処理に関連するブロック(音声切り出し部2314、音声調節部2316)とを含む。音声処理に関連するブロックは、図3Cにおいて破線で示されている。ユーザ画像が音声を含まない場合には、音声処理に関連するブロックは、不要であり、ユーザ画像処理部231は、音声処理に関連するブロックを備える必要はない。
ユーザ画像取得部2311は、ユーザ画像を取得する。ユーザ画像取得部2311は、例えば、少なくとも1つの端末装置100から送信されたユーザ画像を取得してもよいし、データベース部300に格納されているユーザ画像を取得してもよい。ベース画像取得部2322は、ベース画像に加えて、ベース画像に写っている人物の他の画像も取得するようにしてもよい。
映像切り出し部2313は、ユーザ画像取得部2311によって受信されたユーザ画像から映像を切り出す処理を行う一方、音声切り出し部2314は、ユーザ画像取得部2311によって受信されたユーザ画像から音声を切り出す処理を行う。これにより、後続の処理において、映像と音声とが別個に処理されるようになる。映像切り出し部2313および音声切り出し部2314は、例えば、ffmpeg等のソフトウェアによって実装され得る。
顔切り出し部2315は、映像に写っている人物の顔部分を切り出す処理を行う。例えば、ユーザ画像が動画である場合には、顔切り出し部2315は、動画映像から静止画映像を切り出す処理を行い、次いで、静止画映像から人物の顔部分を切り出す処理を行う。顔切り出し部2315によって切り出された顔部分は、顔変換モデル形成部233のための学習用データとして用いられる。顔切り出し部2315は、例えば、faceswap等のソフトウェアによって実装され得る。
音声調節部2316は、音声に含まれ得る音声以外の音を除去し、処理しやすい形式に調節する処理を行う。音声調節部2316は、例えば、音声のサンプルレートを調節する処理を行う。音声調節部2316はさらに、音声解析処理を行う。これにより、音声の特徴(例えば、周波数分布等)を抽出することができ、音声認識が可能になる。音声調節部2316によって抽出された音声の特徴は、音声変換モデル形成部234のための学習用データとして用いられる。音声調節部2316は、例えば、ffmpeg、cycleGANvoice等のソフトウェアによって実装され得る。
ベース画像処理部232は、ベース画像取得部2322と、映像処理に関連するブロック(映像切り出し部2323、顔切り出し部2325)と、音声処理に関連するブロック(音声切り出し部2324、音声調節部2326)とを含む。音声処理に関連するブロックは、図3Cにおいて破線で示されている。ベース画像が音声を含まない場合には音声処理に関連するブロックは、不要であり、ベース画像処理部232は、音声処理に関連するブロックを備える必要はない。ベース画像処理部232は、ベース画像に加えて、ベース画像に写っている人物の別の画像も、ベース画像と同様に処理することができる。ベース画像に加えて、ベース画像に写っている人物の別も処理することにより、後段の顔変換モデル形成部233または音声変換モデル形成部234で学習に用いられるデータ量が増加するため、形成される変換モデルの精度が向上する。
ベース画像取得部2322は、ベース画像を取得する。ベース画像取得部2322は、例えば、ベース画像提供者の端末装置500から送信されたベース画像を取得してもよいし、データベース部300に格納されているベース画像を取得してもよい。ベース画像取得部2322は、例えば、改変が許諾されたベース画像のみを取得するように構成され得る。例えば、ベース画像取得部2322は、ベース画像を取得する前に、そのベース画像の改変が許諾されているか否かを判定し、改変が許諾されている場合にのみそのベース画像を取得するようにすることができる。例えば、ベース画像取得部2322は、取得したベース画像の改変が許諾されているか否かを判定し、改変が許諾されている場合にのみそのベース画像を次の処理ブロックに渡すことができる。ベース画像の改変が許諾されているか否かを判定は、例えば、ベース画像に付されている情報を参照すること、ベース画像の権利を管理する権利管理団体のサーバ装置に問い合わせること、ベース画像提供者に改変の許諾の明示を要求すること等によって行われ得る。
映像切り出し部2323および音声切り出し部2324は、映像切り出し部2313および音声切り出し部2314と同様の処理を行う。映像切り出し部2323は、ベース画像取得部2321によって受信されたベース画像から映像を切り出す処理を行う一方、ベース画像取得部2321によって受信されたベース画像から音声を切り出す処理を行う。これにより、後続の処理において、映像と音声とが別個に処理されるようになる。映像切り出し部2323および音声切り出し部2324は、例えば、ffmpeg等のソフトウェアによって実装され得る。
顔切り出し部2325は、顔切り出し部2315と同様の処理を行う。顔切り出し部2325は、映像に写っている人物の顔を切り出す処理を行う。例えば、ベース画像が動画である場合には、顔切り出し部2325は、動画映像から静止画映像を切り出す処理を行い、次いで、静止画映像から人物の顔を切り出す処理を行う。顔切り出し部2325によって切り出された顔部分は、顔変換モデル形成部233のための学習用データとして用いられる。顔切り出し部2325は、例えば、faceswap等のソフトウェアによって実装され得る。
音声調節部2326は、音声調節部2316と同様の処理を行う。音声調節部2326は、音声に含まれ得る音声以外の音を除去し、処理しやすい形式に調節する処理を行う。音声調節部2326は、例えば、音声のサンプルレートを調節する処理を行う。音声調節部2326はさらに、音声解析処理を行う。これにより、音声の特徴(例えば、周波数分布等)を抽出することができ、音声認識が可能になる。音声調節部2326によって抽出された音声の特徴は、音声変換モデル形成部234のための学習用データとして用いられる。音声調節部2326は、例えば、ffmpeg、cycleGANvoice等のソフトウェアによって実装され得る。
顔変換モデル形成部233は、顔切り出し部2315によって切り出された顔部分と、顔切り出し部2325によって切り出された顔部分とを学習用データとして学習することにより、ベース画像に写っている人物の顔をユーザ画像に写っている人物の顔に変換するための顔変換モデルを形成する処理を行う。顔変換モデル形成部233は、例えば、多層ニューラルネットワークを用いたディープラーニング技術を利用する。このとき、学習用データを用いて学習する処理は、顔切り出し部2315によって切り出された顔部分と、顔切り出し部2325によって切り出された顔部分とを用いて、多層ニューラルネットワークの各隠れ層のノードの重み係数を調節する処理であり、これによって形成される顔変換モデルでは、ベース画像に写っている人物の顔映像を入力すると、ユーザ画像に写っている人物の顔に変換された顔映像(例えば、ベース画像に写っている人物の顔の表情をあたかもユーザ画像に写っている人物がしたかのような映像)が出力されるようになる。顔変換モデル形成部233は、学習に用いられる顔部分が多いほど、精度の高い顔変換モデルを形成することが可能である。顔変換モデル形成部233は、例えば、faceswap等のソフトウェアによって実装され得る。
顔コンバート部235は、顔変換モデル形成部233によって形成された顔変換モデルを用いて、ベース画像に写っている人物の顔をユーザ画像に写っている人物の顔に変換した顔映像を生成し、その顔映像をベース画像の映像に合成する。これにより、ベース画像に写っている人物があたかもユーザ画像に写っている人物であるかのような合成映像が生成される。ベース画像が動画である場合には、動画を構成する静止画の各々に対して、ベース画像に写っている人物の顔をユーザ画像に写っている人物の顔に変換した顔映像を生成し、その顔映像をベース画像の静止画映像に合成する。次いで、合成された静止画映像をつなぎ合わせることにより、動画映像を構築することができる。この動画映像は、ベース画像(動画)に写っている人物があたかもユーザ画像に写っている人物であるかのような動画となる。顔コンバート部235は、例えば、faceswap等のソフトウェアによって実装され得る。
音声変換モデル形成部234は、音声調節部2316によって抽出された音声の特徴と、音声調節部2326によって抽出された音声の特徴とを学習用データとして学習することにより、ベース画像に含まれる音声をユーザ画像に含まれる音声に変換するための音声変換モデルを形成する処理を行う。音声変換モデル形成部234は、例えば、多層ニューラルネットワークを用いたディープラーニング技術を利用する。このとき、学習用データを用いて学習する処理は、音声調節部2316によって抽出された音声の特徴と、音声調節部2326によって抽出された音声の特徴とを用いて、多層ニューラルネットワークの各隠れ層のノードの重み係数を調節する処理であり、これによって形成される音声変換モデルでは、ベース画像に含まれる音声を入力すると、ユーザ画像に含まれる音声に変換された音声(例えば、ベース画像に含まれる音声をあたかもユーザ画像内の人物が発したかのような音声)が出力されるようになる。音声変換モデル形成部234は、学習に用いられる音声の特徴が多いほど、精度の高い音声変換モデルを形成することが可能である。音声変換モデル形成部234は、例えば、cycleGANvoice等のソフトウェアによって実装され得る。
音声コンバート部236は、音声変換モデル形成部234によって形成された音声変換モデルを用いて、ベース画像に含まれる音声をユーザ画像に含まれる音声に変換した音声を生成する。これにより、ベース画像に含まれる音声があたかもユーザ画像に含まれる人物の音声であるかのような音声が生成される。音声コンバート部236は、例えば、cycleGANvoice等のソフトウェアによって実装され得る。
映像音声結合部237は、顔コンバート部235によって生成された合成映像と、音声コンバート部236によって生成された音声とを結合し、音声付きの合成画像を生成する。映像音声結合部237は、例えば、ffmpeg等のソフトウェアによって実装され得る。
映像音声結合部237によって生成された合成画像は、通信インターフェース部210を介してサーバ装置200の外部(例えば、少なくとも1つの端末装置100、データベース部300)に出力される。
図3Cに示される例では、プロセッサ部230の各構成要素が同一のプロセッサ部230内に設けられているが、本発明はこれに限定されない。プロセッサ部230の各構成要素が、複数のプロセッサ部に分散される構成も本発明の範囲内である。
3.ユーザのための合成画像を提供するためのコンピュータシステムにおける処理
図4は、ユーザのための合成画像を提供するためのコンピュータシステム1000における処理の一例を示す。図4に示される例では、コンピュータシステム1000において合成画像を生成するための処理を説明する。以下では、ユーザ画像に写っている1人の人物の合成画像を生成することを例に説明する。
図4は、ユーザのための合成画像を提供するためのコンピュータシステム1000における処理の一例を示す。図4に示される例では、コンピュータシステム1000において合成画像を生成するための処理を説明する。以下では、ユーザ画像に写っている1人の人物の合成画像を生成することを例に説明する。
ステップS401において、端末装置100のプロセッサ部150が、少なくとも1つのユーザ画像を取得する。プロセッサ部150は、例えば、端末装置100が備え得るカメラを制御することによりユーザ画像を取得してもよいし、記憶手段(例えば、メモリ、ストレージ、外部記憶装置等)に記憶されたユーザ画像を取得してもよいし、通信インターフェース部110を介してネットワーク400上のユーザ画像を取得してもよい。
ステップS402において、端末装置100のプロセッサ部150が、通信インターフェース部110を介して、少なくとも1つのユーザ画像をサーバ装置200に送信し、サーバ装置200のプロセッサ部230が、通信インターフェース部210を介して、少なくとも1つのユーザ画像を受信する。好ましくは、端末装置100のプロセッサ部150は、複数のユーザ画像をサーバ装置200に送信し、サーバ装置200のプロセッサ部230が、複数のユーザ画像を受信する。より多くのユーザ画像を受信することにより、後述する処理でより多くのユーザ画像を用いることができ、これにより、生成される合成画像の質が向上するからである。受信されたユーザ画像は、例えば、データベース部300に格納されて後続の処理のために使用されてもよいし、メモリ部220に一時的に格納されて後続の処理のために使用されてもよい。
ステップS402において、端末装置100のプロセッサ部150は、ユーザ画像をサーバ装置200に送信する代わりに、または、ユーザ画像をサーバ装置200に送信することに加えて、ユーザ画像のネットワーク上の所在(例えば、URL)を送信するようにしてもよい。サーバ装置200がユーザ画像のネットワーク上の所在を受信すると、サーバ装置200は、その所在にアクセスしてユーザ画像を取得する。
ステップS403において、プロセッサ部230のユーザ画像取得部2311が、少なくとも1つのユーザ画像を取得する。ユーザ画像取得部2311は、例えば、ステップS402で少なくとも1つの端末装置100から受信されたユーザ画像を取得してもよいし、データベース部300に格納されたユーザ画像をデータベース部300から取得してもよい。
ユーザ画像を取得すると、ステップS404において、プロセッサ部230の映像切り出し部2313、音声切り出し部2314、顔切り出し部2315、音声調節部2316が、少なくとも1つのユーザ画像を処理する。例えば、映像切り出し部2313がユーザ画像から映像を切り出し、顔切り出し部2315が切り出された映像から顔部分を切り出し、次いで、音声切り出し部2314がユーザ画像から音声を切り出し、音声調節部2316が切り出された音声を調節しかつ音声の特徴を抽出する。
ステップS405において、サーバ装置200のプロセッサ部230が、通信インターフェース部210を介して、ベース画像提供者の端末装置500から送信された少なくとも1つのベース画像を受信する。受信されたベース画像は、例えば、データベース部300に格納されて後続の処理のために使用されてもよいし、メモリ部220に一時的に格納されて後続の処理のために使用されてもよい。サーバ装置200は、ベース画像に加えて、ベース画像に写っている人物の別の画像を受信してもよい。ベース画像に写っている人物の画像をより多く受信することにより、後述する処理でより多くのその人物の画像を用いることができ、これにより、生成される合成画像の質が向上するからである。受信されたベース画像に写っている人物の画像は、例えば、データベース部300に格納されて後続の処理のために使用されてもよいし、メモリ部220に一時的に格納されて後続の処理のために使用されてもよい。
ステップS405では、サーバ装置200のプロセッサ部230は、ベース画像提供者の端末装置500から送信されたベース画像(およびベース画像に写っている人物の画像)を受信する代わりに、または、ベース画像提供者の端末装置500から送信されたベース画像(およびベース画像に写っている人物の画像)を受信することに加えて、ベース画像(およびベース画像に写っている人物の画像)のネットワーク上の所在(例えば、URL)を受信してもよい。サーバ装置200がベース画像(およびベース画像に写っている人物の画像)のネットワーク上の所在を受信すると、サーバ装置200は、その所在にアクセスしてベース画像(およびベース画像に写っている人物の画像)を取得する。
ステップS405では、サーバ装置200のプロセッサ部230は、改変が許諾されたベース画像のみを受信および/または取得するようにすることが好ましい。改変が許諾された画像は、例えば、ベース画像に写っている人物の改変が許諾された画像を含む。改変が許諾されたベース画像のみを受信または取得することにより、サーバ装置200がベース画像に基づいて生成した合成画像が、ベース画像に付随し得る権利(例えば、著作権、肖像権等)を侵害する可能性を排除することができるようになるからである。
例えば、サーバ装置200は、サーバ装置200に送信されるベース画像は全て改変が許諾されている旨の同意をベース画像提供者から予め得ておいてもよいし、ベース画像提供者の端末装置500からベース画像を受信するときに、ベース画像の改変が許諾されていることを示す情報も共に受信するようにしてもよい。このとき、ベース画像の改変が許諾されていることを示す情報は、ベース画像に関連付けられてデータベース部300に格納され得る。
ステップS406において、プロセッサ部230のベース画像取得部2321が、少なくとも1つのベース画像を取得する。ベース画像取得部2321は、例えば、ステップS403でベース画像提供者の端末装置500から受信されたベース画像を取得してもよいし、データベース部300に格納されたベース画像をデータベース部300から取得してもよい。
ステップS406は、例えば、プロセッサ部230のベース画像取得部2321が、取得されるベース画像の改変が許諾されているか否かを判定することを含み得る。ベース画像の改変が許諾されているか否かを判定は、例えば、プロセッサ部230のベース画像取得部2321が、ベース画像に付されている情報を参照すること、ベース画像に関連付けられてデータベース部300に格納されている情報を参照すること、ベース画像の権利を管理する権利管理団体のサーバ装置に通信インターフェース部210を介して問い合わせを送信すること、ベース画像提供者の端末装置500に改変の許諾の明示を要求するリクエストを通信インターフェース部210を介して送信すること等によって行われ得る。例えば、プロセッサ部230のベース画像取得部2321は、改変が許諾されている場合にのみそのベース画像を取得するようにしてもよいし、改変が許諾されている場合にのみステップS407に進むようにしてもよい。
ベース画像を取得すると、ステップS407において、プロセッサ部230の映像切り出し部2323、音声切り出し部2324、顔切り出し部2325、音声調節部2326が、少なくとも1つのベース画像を処理する。例えば、映像切り出し部2323がベース画像から映像を切り出し、顔切り出し部2325が切り出された映像から顔部分を切り出し、次いで、音声切り出し部2324がベース画像から音声を切り出し、音声調節部2326が切り出された音声を調節しかつ音声の特徴を抽出する。
少なくとも1つのユーザ画像および少なくとも1つのベース画像の処理が完了すると、ステップS408において、プロセッサ部230の顔変換モデル形成部233および音声変換モデル形成部234が、変換モデルを形成する。例えば、顔変換モデル形成部233が顔変換モデルを形成し、次いで、音声変換モデル形成部234が音声変換モデルを形成する。顔変換モデルおよび音声変換モデルは、例えば、ディープラーニング技術を利用して形成される。
顔変換モデルおよび音声変換モデルが形成されると、ステップS409において、プロセッサ部230の顔コンバート部235、音声コンバート部236、映像音声結合部237が、合成画像を生成する。例えば、顔コンバート部235が、ステップS408で形成された顔変換モデルを用いて、ベース画像に写っている人物の顔をユーザ画像に写っている人物の顔に変換した顔映像を生成し、その顔映像をベース画像の映像に合成する。例えば、音声コンバート部236が、ステップS408で形成された音声変換モデルを用いて、ベース画像に含まれる音声をユーザ画像に含まれる音声に変換した音声を生成する。例えば、映像音声結合部237が、生成された合成映像と、生成された音声とを結合することにより、音声付きの合成画像を生成する。
このようにして、サーバ装置200において合成画像が生成される。
上述した例では、ステップS401でユーザ画像を取得することを説明したが、ステップS401は必ずしも必要ではない。ステップS402で上述したようにユーザ画像のネットワーク上の所在を送信する場合には、ユーザ装置100がユーザ画像を保持する必要がないからである。
上述した例では、各ステップで映像と音声とを直列に処理することを説明したが、映像と音声とは並列に処理されるようにしてもよい。このとき、映像のための処理は、音声のための処理の完了を待って次のステップに進むようにしてもよいし、音声のための処理の完了を待つことなく次のステップに進むようにしてもよい。逆もまた同様である。
上述した例では、ステップS402〜ステップS404の後にステップS405〜ステップS407が行われる例を説明したが、ステップS402〜ステップS404とステップS405〜ステップS407との順序は問わない。例えば、ステップS405〜ステップS407の少なくとも1つの後にステップS402〜ステップS404が行われてもよいし、ステップS402〜ステップS404の少なくとも1つとステップS405〜ステップS407の少なくとも1つとが並列に行われてもよい。
例えば、ステップS409でサーバ装置200が合成画像を生成する前のいずれかのタイミングで、端末装置100のプロセッサ部150は、通信インターフェース部110を介して、ユーザ画像に基づいて合成画像を生成することの許可をサーバ装置200に送信し、サーバ装置200のプロセッサ部230がこれを受信するようにしてもよい。これにより、サーバ装置200がユーザ画像に基づいて生成した合成画像が、ユーザ画像に付随し得る権利(例えば、著作権、肖像権等)を侵害する可能性を排除することができるようになるからである。例えば、ユーザ画像に基づいて合成画像を生成することの許可は、ユーザ画像をサーバ装置200に送信する度になされるようにしてもよいし、所定のタイミング(例えば、1日1回、週1回、月1回、年1回等)になされるようにしてもよい。例えば、図1Aを参照して上述したユーザのための合成画像を提供するためのサービスの利用登録を行ったことでもって、ユーザ画像に基づいて合成画像を生成することの許可がなされたものとみなしてもよい。このとき、ユーザ画像に基づいて合成画像を生成することの許可として利用登録情報がサーバ装置200に送信される。
例えば、ベース画像に複数の人物が写っており、複数の人物のそれぞれが改変を許諾されているとき、ベース画像に写っている複数の人物のうちのいずれかの顔および音声とユーザ画像に写っている人物の顔および音声とを変換した合成画像を生成するようにしてもよい。ベース画像に写っている複数の人物のうちのどの人物の顔および音声と変換するかは、例えば、ユーザが設定できるようにしてもよいし、サーバ装置200が自動的に決定するようにしてもよい。
例えば、ユーザが設定する場合、サーバ装置200は、ベース画像に写っている複数の人物の選択肢を端末装置100に提供し、ユーザは、ベース画像に写っている複数の人物のうちの1人を選択する入力を端末装置100に行い、端末装置100はその入力をサーバ装置200に送信する。サーバ装置200は、その入力に基づいて、ベース画像に写っている複数の人物のうちの選択された人物の顔および音声とユーザ画像に写っている人物の顔および音声とを変換した合成画像を生成する。
例えば、サーバ装置200が自動的に決定する場合、ユーザ画像に写っている人物の属性(例えば、性別、年齢)、身体的特徴(例えば、身長、体型)等に基づいて、ベース画像に写っている複数の人物のうち、ユーザ画像に写っている人物により類似する人物、または、より類似しない人物を選択するようにしてもよいし、あるいは、ランダムに選択するようにしてもよい。例えば、ユーザ画像に写っている人物が男性であれば、ベース画像に写っている男性の顔および音声とユーザ画像に写っているその男性の顔および音声とを変換した合成画像を自動的に生成することができる。例えば、ユーザ画像に写っている人物が小太りの女性であれば、ベース画像に写っている細身の女性の顔および音声とユーザ画像に写っているその小太りの女性の顔および音声とを変換した合成画像を自動的に生成することができる。サーバ装置200が自動的に変換対象の人物を決定することは、予期せぬ合成画像の創造につながり、新たなメディア体験をユーザに提供することにつながる。
上述した例では、ユーザ画像に写っている1人の人物の合成画像を生成することを例に説明したが、本発明はこれに限定されない。ユーザのための合成画像を提供するためのコンピュータシステム1000における処理では、ユーザ画像に写っている複数の人物の合成画像を生成することが可能である。
例えば、図4の例において、ステップS402で複数の人物のユーザ画像(例えば、複数の人物が写っている少なくとも1つのユーザ画像、または、複数の人物のそれぞれが写っている複数のユーザ画像)を受信し、ステップS403〜ステップS404をユーザ画像に写っているそれぞれの人物について行う。ステップS405で、複数の人物が写っている少なくとも1つのベース画像を受信し、ステップS406〜ステップS407をベース画像に写っているそれぞれの人物について行う。次いで、ステップS408をユーザ画像に写っているそれぞれの人物およびベース画像に写っているそれぞれの人物について行う。
例えば、ユーザ画像に写っている第1の人物についてステップS403〜ステップS404を行い、ベース画像に写っている第1の人物についてステップS406〜ステップS407を行い、ユーザ画像に写っている第1の人物とベース画像に写っている第1の人物とについて、ステップS408を行うことにより、ベース画像に写っている第1の人物の顔をユーザ画像に写っている第1の人物の顔に変換するための顔変換モデルを形成し、ベース画像に写っている第1の人物の音声をユーザ画像に写っている第1の人物の音声に変換するための音声変換モデルを形成する。
例えば、ユーザ画像に写っている第2の人物についてステップS403〜ステップS404を行い、ベース画像に写っている第2の人物についてステップS406〜ステップS407を行い、ユーザ画像に写っている第2の人物とベース画像に写っている第2の人物とについて、ステップS408を行うことにより、ベース画像に写っている第2の人物の顔をユーザ画像に写っている第2の人物の顔に変換するための顔変換モデルを形成し、ベース画像に写っている第2の人物の音声をユーザ画像に写っている第2の人物の音声に変換するための音声変換モデルを形成する。
例えば、ユーザ画像に写っている第nの人物についてステップS403〜ステップS404を行い、ベース画像に写っている第nの人物についてステップS406〜ステップS407を行い、ユーザ画像に写っている第nの人物とベース画像に写っている第nの人物とについて、ステップS408を行うことにより、ベース画像に写っている第nの人物の顔をユーザ画像に写っている第nの人物の顔に変換するための顔変換モデルを形成し、ベース画像に写っている第nの人物の音声をユーザ画像に写っている第nの人物の音声に変換するための音声変換モデルを形成する(nは2以上の整数)。
このようにして形成された各人物の変換モデルを用いて、ステップS409において、ベース画像に写っている第1の人物の顔をユーザ画像に写っている第1の人物の顔に変換した顔映像をベース画像の映像に合成し、ベース画像に写っている第2の人物の顔をユーザ画像に写っている第2の人物の顔に変換した顔映像をベース画像の映像に合成し、・・・ベース画像に写っている第nの人物の顔をユーザ画像に写っている第nの人物の顔に変換した顔映像をベース画像の映像に合成する。また、ベース画像に写っている第1の人物の音声をユーザ画像に写っている第1の人物の音声に変換した音声を生成し、ベース画像に写っている第2の人物の音声をユーザ画像に写っている第2の人物の音声に変換した音声を生成し、・・・ベース画像に写っている第nの人物の音声をユーザ画像に写っている第nの人物の音声に変換した音声を生成する。そして、合成された映像と生成された音声とを結合することにより、音声付きの合成画像が生成される。
複数の人物の合成画像を生成するとき、ユーザ画像に写っている人物の顔および音声をベース画像に写っているどの人物の顔および音声と変換するかは、例えば、ユーザが設定できるようにしてもよいし、サーバ装置200が自動的に決定するようにしてもよい。
例えば、ユーザが設定する場合、サーバ装置200は、ベース画像に写っている複数の人物の選択肢を端末装置100に提供し、ユーザは、ユーザ画像に写っている複数の人物のそれぞれとベース画像に写っている複数の人物のそれぞれとを対応付ける入力を端末装置100に行い、端末装置100はその入力をサーバ装置200に送信する。サーバ装置200は、その入力に基づいて、ベース画像およびユーザ画像の対応付けられた人物それぞれの顔および音声を変換した合成画像を生成する。
例えば、サーバ装置200が自動的に決定する場合、ユーザ画像に写っている人物およびベース画像に写っている人物の属性(例えば、性別、年齢)、身体的特徴(例えば、身長、体型)等に基づいて、ベース画像に写っている複数の人物のうち、ユーザ画像に写っている人物により類似する人物、または、より類似しない人物を選択するようにしてもよいし、あるいは、ランダムに選択するようにしてもよい。ユーザ画像に写っている人物の属性および身体的特徴は、例えば、データベース部300に格納されている情報を参照してもよいし、既存の画像認識技術を用いることにより、ユーザ画像から認識するようにしてもよい。ベース画像に写っている人物の属性および身体的特徴は、例えば、既存の画像認識技術を用いることにより、ユーザ画像から認識するようにしてもよい。例えば、ユーザ画像に写っている人物が男性であれば、ベース画像に写っている男性の顔および音声とユーザ画像に写っているその男性の顔および音声とを変換した合成画像を自動的に生成することができる。例えば、ユーザ画像に写っている人物が小太りの女性であれば、ベース画像に写っている細身の女性の顔および音声とユーザ画像に写っているその小太りの女性の顔および音声とを変換した合成画像を自動的に生成することができる。サーバ装置200が自動的に変換対象の人物を決定することは、予期せぬ合成画像の創造につながり、面白く、新たなメディア体験をユーザに提供することにつながる。
例えば、サーバ装置200が自動的に決定する場合、ユーザ画像に写っている複数の人物の間の人間関係(例えば、恋人、兄弟、親子等)およびベース画像に写っている複数の人物の間の人間関係に基づいて、ベース画像に写っている複数の人物のうち、ユーザ画像に写っている人物の人間関係により類似する人物、または、より類似しない人物を選択するようにしてもよい。ユーザ画像に写っている複数の人物の間の人間関係は、例えば、データベース部300に格納されている情報を参照してもよいし、既存の画像認識技術を用いることにより、ユーザ画像から推定するようにしてもよい。例えば、同年代の男性と女性が笑顔で写っている画像から、その男性とその女性が恋人あるいは夫婦であると推定される。ベース画像に写っている複数の人物の間の人間関係は、例えば、既存の画像認識技術を用いることにより、ユーザ画像から認識するようにしてもよい。例えば、ユーザ画像に写っている二人の男女が夫婦であると推定された場合、ベース画像に写っているヒーローの顔および音声とユーザ画像に写っているその男性の顔および音声とを変換し、ベース画像に写っているヒロインの顔および音声とユーザ画像に写っているその女性の顔および音声とを変換した合成画像を自動的に生成することができる。例えば、ユーザ画像に写っている大人と子供が親子であると推定された場合、ベース画像に写っている大人の顔および音声とユーザ画像に写っているその大人の顔および音声とを変換し、ベース画像に写っている子供の顔および音声とユーザ画像に写っているその子供の顔および音声とを変換した合成画像を自動的に生成することができる。画像から推定される人間関係が実際の人間関係とは異なるものであったとしても、そのような異なる人間関係に基づいて生成された合成画像もやはり予期せぬ合成画像となり、面白く、これもまた、新たなメディア体験をユーザに提供することにつながる。
ベース画像は、俳優、芸能人、スポーツ選手等が出演する映画、番組、広告等であり得るが、ベース画像は、例えば、著作権フリーモデルを用いて撮影した画像であってもよい。著作権フリーモデルは、合成画像のために用いられるベース画像を撮影するためのモデルであり、言い換えると、著作権フリーモデルを用いて撮影した画像は、合成画像専用のベース画像となる。俳優、芸能人、スポーツ選手等であれば契約切れや犯罪等によってその人物の画像を企業が使用できなくなるおそれがあるが、著作権フリーモデルであれば、著作権フリーモデルの顔および音声がユーザ画像に写っている人物の顔および音声と変換されることが前提であるため、著作権フリーモデルの顔および音声がそのまま流通することはなく、契約切れや犯罪等によって画像を使用できなくなるリスクは極めて小さい。
著作権フリーモデルについて予め大量の画像を撮影しておき、ステップS406、ステップS407の処理を予め行っておくことにより、合成画像を生成する処理における負荷を軽減することができ、合成画像生成の速度を向上させることができる。また、大量の画像を用いて学習することができるようになるため、変換モデルの精度も向上する。
著作権フリーモデルの顔および音声が著作権フリーモデルを用いて撮影した画像の著作権は、テレビ局、映像制作会社、撮影者等に帰属し得るが、著作権フリーモデルを用いて撮影した画像は、改変が許諾されたものとみなされ得る。従って、権利の面からも扱いが容易である。
著作権フリーモデルは、例えば、平均的な顔および/または音声を有するモデルであることが好ましい。平均的な顔および/または音声であれば、変換モデルの精度が向上するからである。平均の定義は、例えば、ユーザによって変動し得る。例えば、ユーザの国籍に基づいて平均を定義してもよく、ユーザの国籍が日本である場合には日本人の平均的な顔および/または音声であり得、ユーザの国籍が中国である場合には中国人の平均的な顔および/または音声であり得る。例えば、ユーザの出身地に基づいて平均を定義してもよく、ユーザの出身地が関西地方である場合には関西地方出身の人の平均的な顔および/または音声であり得、ユーザの出身地が九州地方である場合には九州地方出身の人の平均的な顔および/または音声であり得る。
上述したステップS408で形成される変換モデルは、変換モデルを形成するために用いられるベース画像に写っている人物の顔または音声とユーザ画像に写っている人物の顔または音声とが類似している方が、精度が高くなる。従って、著作権フリーモデルの顔および/または、使用されるユーザ画像に写っている人物の顔および/または音声と類似していることが好ましい。例えば、1のベース画像に対して複数のサブベース画像を用意することによって、これを達成することができる。各サブベース画像は、内容が同一であるが、写っている人物がそれぞれ異なる画像である。例えば、各サブベース画像は、写っている人物のみが異なる画像である。例えば、各サブベース画像は、同一の脚本の映画または広告動画を異なる著作権フリーモデルを用いて撮影した画像である。例えば、各サブベース画像は、同一のコンセプトの画像を異なる著作権フリーモデルを用いて撮影した画像である。
例えば、平均的な顔および/または音声を有する複数の著作権フリーモデルを用いて各サブベース画像を撮影しておき、合成画像を生成する前に、ユーザ画像に写っている人物に最も類似する著作権フリーモデルが写っているサブベース画像を決定し、決定されたサブベース画像に基づいてステップS409で合成画像を生成するようにすることができる。これにより、精度の高い変換モデルに基づいた合成画像が生成され、合成画像の質が向上する。ユーザ画像に写っている人物に最も類似する著作権フリーモデルは、例えば、既知の画像認識技術を用いて、画像の類似度を算出することによって決定され得る。
上述した例では、顔および音声を変換した合成画像を生成することを説明したが、本発明はこれに限定されない。顔および音声に限られない、ベース画像に写っている人物の少なくとも一部とユーザ画像に写っている人物の少なくとも一部とを変換した合成画像を生成することも本願発明の範囲内である。これは、例えば、上述した顔変換モデルおよび音声変換モデルの代わりに、ベース画像に写っている人物の少なくとも一部とユーザ画像に写っている人物の少なくとも一部とを変換する変換モデルを構築することにより、図4を参照して上述した処理と同様の処理により達成され得る。ベース画像に写っている人物の少なくとも一部とユーザ画像に写っている人物の少なくとも一部とを変換する変換モデルは、例えば、ベース画像から得られたベース画像に写っている人物の少なくとも一部と、ユーザ画像から得られたユーザ画像に写っている人物の少なくとも一部とを用いて学習されたモデルである。
例えば、ベース画像およびユーザ画像に写っている人物の少なくとも一部は、写っている人物の体型であり得る。例えば、ベース画像に写っている人物の体型とユーザ画像に写っている人物の体型とを変換する変換モデルを構築するように、図4を参照して上述した処理と同様の処理を行うことにより、ベース画像に写っている人物の体型とユーザ画像に写っている人物の体型とを変換した合成画像を生成することができる。これにより、ベース画像(例えば、映画)に出演する俳優の体型をユーザ自身の体型に変換した合成画像を生成することができる。
例えば、ベース画像およびユーザ画像に写っている人物の少なくとも一部は、写っている人物の顔、音声、体型であり得る。これにより、ベース画像(例えば、映画)に出演する俳優の顔、音声、体型をユーザ自身の顔、音声体型に変換した合成画像を生成することができ、これは、あたかもユーザ自身が映画に出演したかのような合成画像を見るという新たなメディア体験をユーザに提供することにつながる。
上述した例では、ベース画像に写っている人物の顔をユーザ画像に写っている人物の顔に変換した顔映像を生成し、その顔映像をベース画像の映像に合成することにより合成画像を生成することを説明したが、本発明はこれに限定されない。ユーザ画像に写っている人物の顔をベース画像に写っている人物の顔に変換した顔映像を生成し、その顔映像をユーザ画像に合成することにより合成画像を生成することも本発明の範囲内である。
これは、例えば、ユーザが撮影した画像に、俳優、芸能人、スポーツ選手等の顔を合成した画像を生成することである。例えば、ダンスを踊っているユーザを撮影した画像に、俳優の顔を合成することにより、あたかもその俳優がダンスを踊っているかのような合成画像を生成することができる。例えば、漫才をしているユーザを撮影した画像に、芸能人の顔を合成することにより、あたかもその芸能人が漫才をしているかのような合成画像を生成することができる。これにより、俳優、芸能人、スポーツ選手等の個性が、時間および/またはフィジカルを超えて流通することが可能になり、新たなコンテンツが創造され、ユーザに新たなメディア体験を提供することができる。
上述した処理によって生成された合成画像は、以下に説明する処理によって、ユーザに提供される。
図5は、ユーザのための合成画像を提供するためのコンピュータシステム1000における処理の一例を示す。図5に示される例では、コンピュータシステム1000において合成画像を提供するための処理を説明する。図5に示される例は、合成画像を提供することについてユーザが何ら要求しなくとも自動的に合成画像が提供される場合である。
ステップS501において、サーバ装置200のプロセッサ部230が、図4を参照して説明した処理によって生成された合成画像を通信インターフェース部210を介して端末装置100に送信する。サーバ装置200のプロセッサ部230は、合成画像を提供することの要求をユーザから受信することなし、自動的に合成画像を端末装置100に送信する。端末装置100は、通信インターフェース部110を介して合成画像を受信する。
例えば、ステップS501の前に、サーバ装置200のプロセッサ部230が、合成画像を送信する相手先の端末装置100を決定することを行ってもよい。例えば、サーバ装置200のプロセッサ部230は、ランダムにまたは任意のルールに従って、合成画像を送信する相手先の端末装置100を決定する。サーバ装置200のプロセッサ部230は、例えば、所定のタイミングで決定された端末装置100に合成画像を送信する。所定のタイミングは、例えば、端末装置100が所定の画像を再生する直前、端末装置100が所定の画像を再生した直後、所定の画像を再生している間等であり得る。
合成画像が受信されると、ステップS502において、端末装置100のプロセッサ部150が表示部130を介して合成画像を出力する。
図5に示される処理を実現すると、例えば、ユーザがYoutube等の動画投稿サイトで動画を視聴しているとき、突然、或る広告動画において演者の顔がユーザの顔に変換された合成広告動画が再生されることになる。これは、例えば、所定のタイミングでYoutube等の動画投稿サイトから、サーバ装置200が提供する合成広告動画を提供するサイトに移動させてそのサイト上で合成広告動画を提供することによって達成され得る。あるいは、例えば、後述する単一の情報処理装置である場合には、Youtube等の動画投稿サイトから移動させることなく、情報処理装置がローカルで合成広告動画を生成して、それを再生することによって達成され得る。
図5に示される処理を実現すると、例えば、ユーザがTV番組を視聴しているときに、突然、或る広告動画において演者の顔がユーザの顔に変換された合成広告動画が再生されることになる。これは、例えば、後述する単一の情報処理装置である場合に、放送された画像に基づいて情報処理装置がローカルで合成広告画像を作成して、それを再生することによって達成され得る。
これにより、端末装置100のユーザは、予期せず突然パーソナライズされた画像に出会うことができ、これにより、ユーザは、新たなメディア体験をすることができる。さらに、或る広告動画において演者の顔がユーザの顔に変換されたパーソナライズされた広告動画を視聴することにより、ユーザは、例えば、その広告の商品(例えば、化粧品、整髪剤、服等)を自分が使用したらどのようになるか、その広告のサービス(例えば、エステ、トレーニングジム)を自分が利用したらどのようになるかを仮想的に体験することができる。これも新たなメディア体験につながる。
図6は、ユーザのための合成画像を提供するためのコンピュータシステム1000における処理の一例を示す。図6に示される例では、コンピュータシステム1000において合成画像を提供するための処理を説明する。図6に示される例は、ユーザが、合成画像を視聴可能であることの通知を受け、合成画像を提供することの要求をしたときに合成画像が提供される場合である。
ステップS601において、サーバ装置200のプロセッサ部230が、合成画像を提供可能であることの通知を通信インターフェース部210を介して端末装置100に送信する。端末装置100は、その通知を通信インターフェース部110を介して受信する。合成画像を提供可能であることの通知は、例えば、サーバ装置200から端末装置100に、直接的に送信されるものであってもよいし、間接的に送信されるものであってもよい。間接的に送信されるものは、例えば、端末装置100において再生されている画像または再生されようとしている画像内に埋め込まれた通知であり得る。例えば、サーバ装置200は、その画像の提供者に通知を埋め込むことの要求を送信し、その画像の提供者がこれに応答して通知を画像に埋め込み、通知が埋め込まれた画像が、端末装置100に送信される。
通知を受信すると、端末装置100のプロセッサ部150が、表示部130を介して、ユーザが合成画像を提供することの要求を入力することを可能にするインターフェースを提供する。ユーザはこのインターフェースを介して合成画像を提供することの要求を入力することができる。
ステップS602において、端末装置100のプロセッサ部150が、ユーザから合成画像を提供することの要求を受信すると、ステップS603において、端末装置100のプロセッサ部150が、合成画像を提供することの要求を通信インターフェース部110を介してサーバ装置200に送信する。サーバ装置200のプロセッサ部230は、この要求を通信インターフェース部210を介して受信する。
合成画像を提供することの要求を受信すると、ステップS604において、サーバ装置200のプロセッサ部230が、図4を参照して説明した処理によって生成された合成画像を通信インターフェース部210を介して端末装置100に送信する。端末装置100は、通信インターフェース部110を介して合成画像を受信する。
合成画像が受信されると、ステップS605において、端末装置100のプロセッサ部150が表示部130を介して合成画像を出力する。
図6に示される処理を実現すると、例えば、ユーザがYoutube等の動画投稿サイトで動画を視聴しているとき、合成画像を視聴可能であることを通知する画面が表示され、これに対して合成画像を提供することの要求を入力すると、或る広告動画において演者の顔がユーザの顔に変換された合成広告動画が再生されることになる。これは、例えば、Youtube等の動画投稿サイト上に通知画面を表示させ、通知画面に応答すると、サーバ装置200が提供する合成広告動画を提供するサイトに移動させてそのサイト上で合成広告動画を提供することによって達成され得る。あるいは、例えば、後述する単一の情報処理装置である場合には、Youtube等の動画投稿サイトから移動させることなく、情報処理装置がローカルで合成広告動画を生成して、それを再生することによって達成され得る。
図6に示される処理を実現すると、例えば、ユーザがTV番組を視聴しているときに、合成画像を視聴可能であることを通知する画面が表示され、これに対して合成画像を提供することの要求を入力すると、或る広告動画において演者の顔がユーザの顔に変換された合成広告動画が再生されることになる。これは、例えば、後述する単一の情報処理装置である場合に、データ放送等で通知画面を表示させ、通知画面に応答すると、放送された画像に基づいて情報処理装置がローカルで合成広告画像を作成して、それを再生することによって達成され得る。
これにより、端末装置100のユーザは、予期せずパーソナライズされた画像に出会うことができ、これにより、ユーザは、新たなメディア体験をすることができる。さらに、或る広告動画において演者の顔がユーザの顔に変換されたパーソナライズされた広告動画を視聴することにより、ユーザは、例えば、その広告の商品(例えば、化粧品、整髪剤、服等)を自分が使用したらどのようになるか、その広告のサービス(例えば、エステ、トレーニングジム)を自分が利用したらどのようになるかを仮想的に体験することができる。これも新たなメディア体験につながる。
図6に示される例において、ステップS601の後、合成画像において成り代わることができるベース画像内の人物を選択することを可能にするインターフェースも提供するようにしてもよい。ユーザはこのインターフェースを介して、ベース画像内の成り代わりたい対象を選択することができる。このとき、ステップS604で端末装置100に送信される合成画像は、ベース画像内の選択された人物の少なくとも一部をユーザ画像内の人物の少なくとも一部に変換した合成画像となる。この合成画像は、ステップS603の後に図4に示される処理の少なくとも一部を行うことにより生成されてもよいし、予め図4に示される処理を行うことにより生成されたものであってもよい。
図7は、ユーザのための合成画像を提供するためのコンピュータシステム1000における処理の一例を示す。図7に示される例では、コンピュータシステム1000において合成画像を提供するための処理を説明する。図7に示される例は、ユーザが、成り代わって登場したいベース画像を選択し、選択されたベース画像に基づいて生成された合成画像が提供される場合である。
ステップS701において、サーバ装置200のプロセッサ部230が、合成画像を生成可能な複数のベース画像の選択肢を通信インターフェース部210を介して端末装置100に送信する。端末装置100は、その選択肢を通信インターフェース部110を介して受信する。
選択肢を受信すると、端末装置100のプロセッサ部150が、表示部130を介して、ユーザが複数のベース画像の選択肢のうちの少なくとも1つを選択することを可能にするインターフェースを提供する。ユーザはこのインターフェースを介して複数のベース画像のうち、成り代わって登場したい少なくとも1つのベース画像を選択することができる。
ステップS702において、端末装置100のプロセッサ部150が、ユーザからベース動画を選択する入力を受信すると、ステップS703において、端末装置100のプロセッサ部150が、ベース動画を選択する入力を通信インターフェース部110を介してサーバ装置200に送信する。サーバ装置200のプロセッサ部230は、この入力を通信インターフェース部210を介して受信する。
ベース動画を選択する入力を受信すると、ステップS601において、サーバ装置200のプロセッサ部230が、選択されたベース画像に基づいて生成された合成画像を通信インターフェース部210を介して端末装置100に送信する。端末装置100は、通信インターフェース部110を介して合成画像を受信する。この合成画像は、ステップS703の後に図4に示される処理の少なくとも一部を行うことにより生成されてもよいし、予め図4に示される処理を行うことにより生成されたものであってもよい。
合成画像が受信されると、ステップS705において、端末装置100のプロセッサ部150が表示部130を介して合成画像を出力する。
図7に示される処理を実現すると、例えば、ユーザが登場することができる複数の映画の選択肢を提供され、ユーザが複数の映画のうちの1つを選択すると、選択された映画において演者の顔がユーザの顔に変換された合成映画が再生されることになる。
これにより、端末装置100のユーザは、ユーザは自分の好みに応じたパーソナライズされた画像を見ることができ、これにより、ユーザは、新たなメディア体験をすることができる。
図7に示される例において、ステップS701の後、合成画像において成り代わることができるベース画像内の人物を選択することを可能にするインターフェースも提供するようにしてもよい。ユーザはこのインターフェースを介して、ベース画像内の成り代わりたい対象を選択することができる。このとき、ステップS704で端末装置100に送信される合成画像は、選択されたベース画像内の選択された人物の少なくとも一部をユーザ画像内の人物の少なくとも一部に変換した合成画像となる。この合成画像は、ステップS703の後に図4に示される処理の少なくとも一部を行うことにより生成されてもよいし、予め図4に示される処理を行うことにより生成されたものであってもよい。
上述した例では、図4、図5、図6、図7に示される各ステップの処理の各ステップを端末装置100またはサーバ装置200において実行する例を説明したが、本発明は、これに限定されない。図4、図5、図6、図7に示される各ステップの処理の各ステップは、プロセッサ部を備える少なくとも1つの情報処理装置によって実行されることができる。すなわち、端末装置100について上述したステップおよびサーバ装置200について上述したステップの両方の処理を行うことができる単一の情報処理装置も本発明の範囲内である。
図4、図5、図6、図7を参照して上述した例では、図4、図5、図6、図7に示される各ステップの処理は、プロセッサ部150およびメモリ部140に格納されたプログラムまたは、プロセッサ部230およびメモリ部220に格納されたプログラムによって実現することが説明されたが、本発明はこれに限定されない。図4、図5、図6、図7に示される各ステップの処理のうちの少なくとも1つは、制御回路などのハードウェア構成によって実現されてもよい。
本発明は、上述した実施形態に限定されるものではない。本発明は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。当業者は、本発明の具体的な好ましい実施形態の記載から、本発明の記載および技術常識に基づいて等価な範囲を実施することができることが理解される。
本発明は、ユーザの他人に成り代わってみたいという願望を叶えてくれるサービスを実現することが可能なサーバ装置等を提供するものとして有用である。これにより、新たなメディア体験をユーザに提供することが可能である。
100 端末装置
200 サーバ装置
300 データベース部
400 ネットワーク
500 ベース画像提供者の端末装置
1000 コンピュータシステム
200 サーバ装置
300 データベース部
400 ネットワーク
500 ベース画像提供者の端末装置
1000 コンピュータシステム
Claims (1)
- 本明細書に記載の発明。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019219782A JP2020053081A (ja) | 2019-12-04 | 2019-12-04 | ユーザのための合成画像を生成するための情報処理装置、方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019219782A JP2020053081A (ja) | 2019-12-04 | 2019-12-04 | ユーザのための合成画像を生成するための情報処理装置、方法、プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018166814A Division JP6715524B2 (ja) | 2018-09-06 | 2018-09-06 | ユーザのための合成画像を生成するための情報処理装置、方法、プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020053081A true JP2020053081A (ja) | 2020-04-02 |
Family
ID=69997463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019219782A Pending JP2020053081A (ja) | 2019-12-04 | 2019-12-04 | ユーザのための合成画像を生成するための情報処理装置、方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020053081A (ja) |
-
2019
- 2019-12-04 JP JP2019219782A patent/JP2020053081A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10699482B2 (en) | Real-time immersive mediated reality experiences | |
US10225608B2 (en) | Generating a representation of a user's reaction to media content | |
TW544615B (en) | Secure uniform resource locator system | |
KR102027670B1 (ko) | 관람자 관계형 동영상 제작 장치 및 제작 방법 | |
JP2021513305A (ja) | ライブイベントの共有可能な視点をライブストリーミングすることによる、ローカル体験のシミュレーション | |
CN110959166B (zh) | 信息处理设备、信息处理方法、信息处理系统、显示设备和预订系统 | |
WO2015120413A1 (en) | Real-time imaging systems and methods for capturing in-the-moment images of users viewing an event in a home or local environment | |
WO2016072120A1 (ja) | 情報処理システム、制御方法、および記憶媒体 | |
CN110266968B (zh) | 一种共舞视频的制作方法和装置 | |
JP5964722B2 (ja) | カラオケシステム | |
CN110162667A (zh) | 视频生成方法、装置及存储介质 | |
WO2020050097A1 (ja) | ユーザのための合成画像を生成するための情報処理装置、方法、プログラム | |
JP4568211B2 (ja) | 感覚通信装置及び感覚通信方法 | |
JP2020013368A (ja) | メイクアップ支援システム、メイクアップ支援プログラム及びメイクアップ支援方法 | |
JP2021177362A (ja) | 情報処理装置、情報処理方法、情報処理プログラム及び端末装置 | |
KR101701807B1 (ko) | 사용자 얼굴 합성을 통한 광고 시스템 | |
US20220070066A1 (en) | Information processing apparatus and non-transitory computer readable medium storing program | |
JP2023153790A (ja) | プログラム | |
JP2020053081A (ja) | ユーザのための合成画像を生成するための情報処理装置、方法、プログラム | |
JP6431264B2 (ja) | 情報取得システム、情報取得方法及びコンピュータプログラム | |
US11593426B2 (en) | Information processing apparatus and information processing method | |
JP7360855B2 (ja) | 情報処理方法、プログラム及び情報処理装置 | |
JP2022018875A (ja) | コンピュータプログラム、情報処理方法及び情報処理装置 | |
JP7266356B1 (ja) | プログラム、情報処理装置、情報処理システム及び情報処理方法 | |
JP2020095634A (ja) | 情報処理装置、情報処理方法および情報処理プログラム |