JP2020177605A

JP2020177605A - 画像処理装置

Info

Publication number: JP2020177605A
Application number: JP2019088637A
Authority: JP
Inventors: 桃子廣田; Momoko Hirota
Original assignee: Hirota Momoko
Current assignee: Hirota Momoko
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2020-10-29

Abstract

【課題】写真中の人物の画像の頭部をユーザーの顔と置き換えた画像を作成する際に、人物の顔以外の部分に違和感なく適合するようにユーザーの顔の状態を調節するのを補助する。【解決手段】画像処理装置は、第一の人物を撮影した第一の画像における第一の人物の頭部を、第二の人物を撮影した第二の画像における第二の人物の頭部と置き換える。画像処理装置は、第一の画像を取得する第一の画像取得部２０１と、画像中の人物の顔の状態を検出する顔状態検出部２０２と、第二の画像を撮影して取得する第二の画像撮影部２０３と、第一の画像中の第一の人物の頭部を、第二の画像中の第二の人物の頭部と置換する頭部置換部２０８とを有する。さらに、第二の画像撮影部２０３は、顔状態検出部２０２が検出した第一の画像中の第一の人物の顔の状態と、被写体である第二の人物の顔の状態を合致させるための補助情報を出力する補助情報出力部２０５を有する。【選択図】図２

Description

本発明は、画像中の人物の頭部を置換する画像処理装置に関する。

近年、写真中の人物の頭部をユーザーの顔と置換した写真を作成する装置が開発されている。
非特許文献１ではキャラクターの頭部がくり抜かれた部分にユーザーの顔が埋め込まれた画像を作成する場合において、プレビュー画像で自分の顔の位置や向きを適宜調節してシャッターボタンを押すことで所望の画像を作成する方法が開示されている。

［平成３１年２月１８日検索］インターネット＜ＵＲＬ：ｈｔｔｐ：／／ｍａｈｏｕｎｏｈａｐｐｙｍｉｒｒｏｒ．ｂｎｅ−ｋｉｄｓ．ｃｏｍ／＞

しかしながら、非特許文献１に開示されている方法では、キャラクターの顔以外の部分に違和感なく適合するようにユーザーの顔の状態を上手に調整することが難しいという課題がある。
本発明は写真中の人物の画像の頭部をユーザーの顔と置き換えた画像を作成する際に、人物の顔以外の部分に違和感なく適合するようにユーザーの顔の状態を調節するのを補助することを目的とする。

上記課題を解決するために本発明の一様態に係る画像処理装置は、第一の人物を撮影した第一の画像における第一の人物の頭部を、第二の人物を撮影した第二の画像における第二の人物の頭部と置き換える画像処理装置であり、前記第一の画像を取得する第一の画像取得手段と、画像中の人物の顔の状態を検出する検出手段と、前記第二の画像を撮影して取得する第二の画像撮影手段と、前記第一の画像中の第一の人物の頭部を、前記第二の画像中の第二の人物の頭部と置換する置換手段とを有する装置であり、さらに前記第二の画像撮影手段は、前記検出手段が検出した第一の画像中の第一の人物の顔の状態と、被写体である第二の人物の顔の状態を合致させるための補助情報を出力する出力手段を有する。

本発明によれば、写真中の人物の画像の頭部をユーザーの頭部と置き換えた画像を作成する際に、人物の頭部以外の部分に違和感なく適合するようにユーザーの顔の状態を容易に調節することができる。

画像処理装置のハードウェア構成の一例を示す図である。画像処理装置の第一の実施形態に係る機能構成の一例を示す図である。画像処理装置の第一の実施形態に係る処理の一例を示すフローチャートである。画像処理装置の第一の実施形態に係る補助情報出力部が出力する補助情報出力の一例を示す図である。画像処理装置の第二の実施形態に係る機能構成の一例を示す図である。画像処理装置の第二の実施形態に係る補助情報出力部が出力する補助情報出力の一例を示す図である。画像処理装置の第二の実施形態に係る処理の一例を示すフローチャートである。画像処理装置の第二の実施形態に係る補助情報出力部が出力する補助情報出力の一例を示す図である。

＜第一の実施形態＞
第一の実施形態では画像処理装置をスマートフォンにおいて実現する一例を説明する。本実施形態では第二の人物（本実施形態においてはスマートフォンのユーザー）が、スマートフォンにあらかじめ保存されている第一の人物（本実施形態においては自分の顔を埋め込みたい対象の人物であり、例えばお気に入りのファッションモデルやキャラクターなど）が写っている第一の画像中の対象人物の頭部を、自分の頭部に置き換えた置換画像を生成する。違和感のない置換画像を生成する場合、撮影する第二の画像中の第二の人物の顔の状態は第一の画像中の第一の人物の顔の顔状態と可能な限り近い方が望ましい。そこで、本実施形態ではまず顔状態検出手段が第一の画像から第一の人物の顔状態として顔の方向、口の開閉状態、目の開閉状態、目線の方向を検出する。そして第二の画像撮影手段はスマートフォンに搭載されているカメラを用いて第二の人物の画像を撮影する際に、さらにスマートフォンに搭載されているディスプレイのプレビュー画面に第二の人物が取るべき顔の状態が分かる補助情報を出力する機能を持つ。第二の人物は補助情報に基づいてプレビュー画面上で自分の顔の状態を調節してからシャッターボタンを押すことで第二の画像を取得する。こうすることで第一の画像中の第一の人物の頭部を、第二の人物の頭部に置き換えた画像において第二の人物の頭部とその他の領域との適合度合いを向上させ、画像の違和感を軽減させることができる。以下、本発明の第一の実施形態について図面に基づいて説明する。

図１は、本実施形態に係る画像処理装置であるタブレットＰＣ１００のハードウェア構成の一例を示す図である。タブレットＰＣ１００は、ＣＰＵ１１０、内蔵ストレージ１２０、ランダムアクセスメモリ（ＲＡＭ）１３０、入力Ｉ／Ｆ１４０、出力Ｉ／Ｆ１５０を含む。ＣＰＵ１１０、内蔵ストレージ１２０、ランダムアクセスメモリ（ＲＡＭ）１３０、入力Ｉ／Ｆ１４０、出力Ｉ／Ｆ１５０、ネットワークＩ／Ｆ１６０は、システムバス１７０を介して、相互に接続されている。

ＣＰＵ１１０は、システムバス１７０を介して接続される各デバイスを統括的に制御する中央演算装置である。ＣＰＵ１１０は、内蔵ストレージ１２０に記憶された各種プログラムを読み出して実行する。内蔵ストレージ１２０は、オペレーティングシステム（ＯＳ）のプログラムをはじめ、本実施形態に係る各処理のプログラム、デバイスドライバのプログラム、各種設定情報等を記憶する記憶装置である。また、ＲＡＭ１３０は、ＣＰＵ１１０のワークエリアやデータの一時記憶領域として利用される記憶装置である。ＣＰＵ１１０は、内蔵ストレージ１２０から取得した各種プログラムを、ＲＡＭ１３０に一時記憶し、適宜実行する。入力Ｉ／Ｆ１４０はタッチパネルやカメラ２０４であり、ユーザーのタップ操作や周囲の光などを信号として入力する。出力Ｉ／Ｆ１５０はディスプレイ２０６やスピーカー２０７であり、画面表示や音声によりユーザーに情報を出力する。ネットワークＩ／Ｆ１６０はＬＴＥやＷｉ−Ｆｉを介してネットワークに接続して情報をやり取りする装置である。

図２は本実施形態に係る画像処理装置の機能構成の一例を示す図である。
第一の画像取得部２０１はあらかじめ内蔵ストレージ１２０に保存されている第一の人物が写っている第一の画像を取得する。

顔状態検出部２０２は画像から画像中にある顔の状態として顔の方向、口の開閉状態、目の開閉状態、目線の方向を検出する。

第二の画像撮影部２０３はスマートフォンのカメラ２０４を用いて第二の人物の写真を第二の画像として撮影する。

補助情報出力部２０５は第二の画像撮影部２０３が第二の画像を撮影する際に第二の人物が第一の人物の顔状態に近づけるための補助情報をディスプレイ２０６やスピーカー２０７に出力する。

ディスプレイ２０６は第二の画像撮影部２０３が撮影するときに補助情報を伴うプレビュー画像を出力するハードウェアである。また、この他にスマートフォンの操作画面を表示したり、撮影した画像や画像処理装置が生成した画像などを出力したりする。

スピーカー２０７は補助情報を音声やサウンドによって出力するハードウェアである。

頭部置換部２０８は第一の画像中の第一の人物の頭部を、第二の人物の顔に置き換えた画像を生成する。

本実施形態に係る処理が記述されたプログラムはスマートフォンにおいてアプリとして内蔵ストレージ１２０に格納されている。スマートフォンのユーザーがアプリを起動することで本実施形態の具体的な機能を使用することができる。

以降、本実施形態に係る処理が記述されたプログラムの具体的な処理内容を図３に示すフローチャートに沿って説明する。

ステップＳ３０１では、第一の画像取得部２０１が第一の人物が写っている第一の画像を取得する。具体的にはあらかじめ内蔵ストレージに保存されている複数の画像からユーザー（第二の人物）が自分の顔を置き換えたい画像を選択するためのＵＩを表示する。そしてＵＩから選択された画像を第一の画像として取得する。

ステップＳ３０２では、顔状態検出部２０２が第一の画像から画像中の第一の人物の顔状態として顔の方向、口の開閉状態、目の開閉状態、目線の方向を検出する。本実施形態では顔の方向、口の開閉状態、目の開閉状態、目線の方向を表す情報の一形態として顔の部位を表す複数の三次元キーポイントを用いる。さらに、顔の方向のもう一つの形態として画像座標系から顔の座標系への座標変換行列を算出する。

三次元キーポイントは顔の輪郭の右耳の付け根から左耳の付け根までの縁を等分に分割した点、左右の口角と上唇と下唇の縁をそれぞれ等分した点、両眼のそれぞれについて左右の目じりと上瞼と下瞼の縁をそれぞれ等分した点、左右の瞳の中心点、鼻根から鼻尖を等分に分割した点、左右の鼻翼で構成される。そして画像中から前記三次元キーポイントを検出する。具体的にはあらかじめ多数の人物頭部画像における三次元キーポイントを教示した深層学習モデルを使って検出する。さらに検出した三次元キーポイントに基づいて顔の方向を表す画像座標系から顔の座標系への座標変換を算出する。顔の座標系は両耳の付け根を結んだ方向をＸ方向、Ｘ方向と直交する方向で左右の瞳の中点を含む方向をＹ方向、ＸＹ平面に直交して頭上に向かう方向をＺ方向として定義する。

ステップＳ３０３では第二の画像撮影部２０３の補助情報出力部２０５が補助情報をディスプレイ２０６及びスピーカー２０７に出力する。

補助情報は第二の人物（ユーザー）が自分の画像を撮影する際に、第一の画像中の第一の人物の顔状態に可能な限り近い顔状態で撮影するのを補助する情報であり、ディスプレイ及びスピーカーにそれぞれ出力する。

ディスプレイには補助情報として第一の人物の顔の状態を表す図柄を表示する。図柄として、具体的にはステップＳ３０２で検出したキーポイントをそれぞれの部位グループ（顔輪郭、口、目、鼻）において直線で結合した線画を、第二の画像撮影部２０３がカメラ２０４を制御して仮撮影した第二の人物のプレビュー画像上に重畳して出力する。この時、線画の中心はディスプレイの中央と一致するように、また線画のサイズはディスプレイの所定の割合の大きさになるように調整して表示する。図４はスマートフォン４０１に補助情報を出力した様子の一例を表す図である。４０２は線画を重畳した第二の人物のプレビュー画像、４０３は第二の人物、４０４は重畳した線画像における顔輪郭に相当する部位グループ、４０５は重畳した線画像における目に相当する部位グループ、４０６は重畳した線画像における鼻に相当する部位グループ、４０７は重畳した線画像における口に相当する部位グループである。

スピーカーには補助情報として、画像中の第一の人物の顔の状態と、第二の人物の顔の状態との差を減らすために要する第二の人物の動作内容を音声で出力する。ここではステップＳ３０２で検出した第一の人物の顔状態と、第二の画像撮影部２０３が仮撮影した第二の人物のプレビュー画像からステップＳ３０２と同様の方法で顔状態検出部２０２がプレビュー画像から検出した第二の人物の顔状態とを近づけるために第二の人物が取るべき動作内容を出力する。具体的には第二の人物のプレビュー画像からステップＳ３０２と同様の方法で算出した画像座標系から第二の人物の顔座標系に変換する座標変換行列の逆行列に、ステップＳ３０２で算出した画像座標系から第一の人物の顔座標系に変換する座標変換行列を後ろから乗じることで、第一の人物の顔座標系から第二の人物の顔座標系に変換する座標変換行列を算出する。そして前記座標変換行列の回転成分をロール、ピッチ、ヨー形式に変換する。ロールの値が所定の値より大きいときは「もう少し顎を左に傾けてください」、所定の値より小さいときは「もう少し顎を右に傾けてください」という音声を出力する。ピッチの値が所定の値より大きいときは「もう少し下を向いてください」、所定の値より小さいときは「もう少し上を向いてください」という音声を出力する。ヨーの値が所定の値より大きいときは「もう少し左を向いてください」、所定の値より小さいときは「もう少し右を向いてください」という音声を出力する。４０８はスピーカーから出力される音声の一例である。

ステップＳ３０４では第二の画像撮影部２０３がカメラ２０４を制御して第二の画像を撮影する。具体的にはステップＳ３０３で出力された補助情報に基づいて第二の人物（ユーザー）が自分の顔の状態を第一の画像中の第一の人物の顔状態に可能な限り近い顔状態になるよう調整した上でカメラ２０４のシャッターボタンを押すと、これを検知した第二の画像撮影部２０３が第二の画像を取得する。

ステップＳ３０５では頭部置換部２０８が第一の画像中の第一の人物の頭部を、第二の画像中の第二の人物の顔に置き換えた置換画像を生成する。具体的には、まず、第一の画像中の第一の人物の頭部、及び第二の画像中の第二の人物の頭部を領域として抽出する。次に第一の画像中の第一の人物の頭部とその周辺領域を抜き取った上で、第二の画像中の第二の人物の頭部の色調を補正して重畳する。さらに、第一の画像で抜き取られた領域で、且つ第二の人物の頭部として重畳されなかった画素を補間する。画素の補間は、各画素について第一の画像で抜き取られていない領域から当該画素と最も近傍の画素を抽出してその画素の値で保管する。画像中からの頭部の領域抽出処理は例えば一般的なセマンティックセグメンテーション処理によって行うことができる。

以上、第一の人物が写っている第一の画像中の対象人物の頭部を、第二の人物の顔に置き換えた置換画像を生成する方法を説明した。説明した方法のように、第二の人物が自分の画像を撮影する際に、第一の画像中の第一の人物の顔状態に可能な限り近い顔状態で撮影するのを補助する情報を補助情報として出力することで、第二のユーザーは自分の顔の状態を適切に調節することができ、違和感の少ない置換画像を生成することができる。

本実施形態においては顔状態として顔の方向、口の開閉状態、目の開閉状態、目線の方向を検出したが、顔状態としては必ずしもこれら全てを検出する必要はなく、いずれか一つ以上であればよい。こうすることでいずれかの要素の検出が困難であっても、他の要素について顔状態を近づけるための補助情報を提示できる。

（変形例１−１）
本実施形態のステップＳ３０３では補助情報としてディスプレイにはステップＳ３０２で検出した第一の人物のキーポイントをそれぞれの部位グループ（顔輪郭、口、目、鼻）において直線で結合した線画をプレビュー画像に重畳して表示した。しかし、ディスプレイに補助情報として出力する図柄は上記線画に限らず、第二の人物の顔状態を第一の画像中の第一の人物の顔状態に近づけるのを補助する図柄であれば他の図柄を出力してもよい。

例えば補助情報として第二の画像を撮影する際のプレビュー画像上に第一の人物の線画だけではなく、プレビュー画像から検出した第二の人物の顔状態を表す線画も合わせて重畳してもよい。第二の人物の顔状態の検出も、第一の人物の顔状態の検出と同様にステップＳ３０２で説明した方法で行う。このように第一の人物と第二の人物の顔状態の線画をプレビュー画像に両方とも重畳することで顔状態の差異をより分かりやすく伝えることができる。

あるいは補助情報として第二の画像を撮影する際のプレビュー画像上に第一の画像をちょうどよい大きさにリサイズ・クロップして所定の透過度で重ね合わせた画像を補助情報の図柄として表示してもよい。具体的にはステップＳ３０２に説明した方法で第一の画像中から顔のキーポイントを検出して、キーポイントに基づいて第一の画像中の第一の人物の顔のサイズを算出し、第一の人物の顔がスマートフォンのディスプレイ上で７割ほどを占める大きさになる縮尺でリサイズする。さらに第一の人物の顔の中心がスマートフォンのディスプレイの中心になるようにクロップする。クロップした画像をアルファ値０．５で第二の画像のプレビュー画像に重ね合わせた画像を作成してディスプレイに出力する。こうすることでユーザー（第二の人物）は第一の人物の実写を参照しながら顔状態のより詳細なニュアンスも把握して、自分の顔状態を調整することができる。

なお、補助情報として表示する図柄は第二のプレビュー画像に重ね合わせずに０．１秒周期で交互に切り替えて表示してもよい。こうすることで重畳させたり、透過させて重ね合わせたりすると画像が見にくくなる場合に補助情報を見やすくすることができる。

（変形例１−２）
本実施形態のステップＳ３０３では補助情報としてスピーカーには第二の人物の顔の方向について第二の人物が取るべき動作を音声で出力した。しかし、スピーカーに出力する補助情報は顔の方向に限らず、第二の人物の顔状態を第一の画像中の第一の人物の顔状態に近づけるのを補助する情報であれば他の情報を出力してもよい。

例えば、目線の方向や目の開閉状態、口の開閉状態について第二の人物が取るべき動作を出力してもよい。具体的には、目線の方向についてはＳ３０２に説明した方法で顔状態検出部２０２が検出した第一の画像中の第一の人物の顔のキーポイントのうち、目に関係するキーポイントである左右の目じりと上瞼と下瞼の縁をそれぞれ等分した点、左右の瞳の中心点に基づいて目線の方向を算出する。さらに同様の方法で第二の人物のプレビュー画像から第二の人物の目線の方向を算出する。第一の人物の目線の方向が第二の人物の目線の方向よりも左を向いている場合は「もう少し目線を右に向けてください。」という音声を出力する。右を向いている場合は「もう少し目線を左に向けてください。」という音声を出力する。下を向いている場合は「もう少し目線を上に向けてください。」という音声を出力する。上を向いている場合は「もう少し目線を下に向けてください。」という音声を出力する。

目の開閉状態、口の開閉状態についても同様にそれぞれ目に関係するキーポイント、口に関係するキーポイントを取得する。そしてキーポイントの位置に基づいて第一の画像中の第一の人物、及び第二の人物の瞼の開き具合、口の開き具合を算出する。第一の人物の瞼の開き具合、口の開き具合と第二の人物の瞼の開き具合、口の開き具合の差異が所定の値よりも大きい場合はその差異を小さくするための動作（目を開く・閉じる、口を開く・閉じる）を音声で出力する。

このように顔の方向以外にも第二の人物の顔の様々な部位の状態を第一の人物の顔状態に近づけられるように音声を出力することで、第二の人物はディスプレイを見なくても音声のみで顔状態をより詳細に調節することができる。

（変形例１−３）
本実施形態のステップＳ３０４ではユーザー（第二の人物）が自分の顔の状態を第一の画像中の第一の人物の顔状態に可能な限り近い顔状態になるよう調整した上でカメラ２０４のシャッターボタンを押したが、シャッターボタンを押す動作は自動化されていてもよい。

その場合は、第二の画像を撮影する際のプレビュー画像において第二の人物の顔状態を検出し、第一の画像中の第一の人物の顔状態の差異を一定のサンプリング間隔で算出し、差異が所定の値を下回ったタイミングで自動的に第二の画像を撮影する。第一の人物の顔状態と第二の人物の顔状態の差異は、Ｓ３０２に説明した方法で顔状態検出部２０２が検出した第一の画像中の第一の人物の顔のキーポイント、及び第二の人物のプレビュー画像から検出した第二の人物の顔のキーポイントを比較して算出する。具体的には顔の方向についてはステップＳ３０３で説明した方法でそれぞれの人物の画像座標系からの座標変換行列を算出し、さらに座標変換行列の各々の回転成分の差異を顔方向差異角度として算出する。目線の方向については（変形例１−２）で説明した方法で算出し、それぞれの人物の目線方向の差異を目線方向差異角度として算出する。目の開き具合、口の開き具合も同様に差異を算出する。こうして算出した顔の各部位の差異がいずれも所定の値よりも小さくなった時に第二の画像を撮影する。

こうすることでユーザー（第二の人物）がシャッターボタンを押しにくいポーズをとっていても第二の画像を取得することができる。あるいは第二の画像の撮影を完全に自動化しなくても、第一の人物の顔状態と第二の人物の顔状態が所定の水準より合致している時にその旨を音声やフラッシュ光などで伝えてもよい。こうすることで第二の人物（ユーザー）は第二の画像のシャッターを押すタイミングを見逃しにくくすることができる。

（変形例１−４）
本実施形態ではすべての処理がネットワークを介さずに行われたが、第一の画像が保管されているストレージや頭部置換処理を行うＣＰＵはネットワーク上のサーバーに配置されているネットワークシステムとして実施してもよい。

例えば各画像の脇に「あなたの顔に置き換える」という文言の書かれたボタンが配置されたホームページを表示するウェブアプリケーションをサーバー上で起動し、ユーザーがスマートフォンのブラウザでボタンを押すと補助情報を出力するカメラアプリが起動し、補助情報を伴うプレビュー画像に基づいてユーザーが顔状態を調整してシャッターを押すと撮影された画像がスマートフォンからウェブアプリケーションにアップロードされる。ウェブアプリケーションはユーザーが押した「あなたの顔に置き換える」ボタンに対応する画像を第一の画像、スマートフォンからアップロードされた画像を第二の画像として頭部の置換処理を行い、生成された画像をブラウザに表示する。

こうすることでスマートフォンの内蔵ストレージやＣＰＵの性能に制限されずに画像の置換処理を行うことができる。

＜第二の実施形態＞
第二の実施形態では画像処理装置をゲームセンターなどで使用される設置型写真シール印刷装置（以降、シール印刷装置と呼ぶ）において実現する一例を説明する。

本実施形態では一人以上の第二の人物グループ（本実施形態においてはシール印刷装置のユーザー）が、シール印刷装置にあらかじめ保存されている第二の人物グループと同人数の第一の人物グループ（本実施形態においては自分の顔を埋め込みたい対象の人物グループであり、例えばお気に入りのアイドルグループなどが考えられる）が写っている第一の画像中の対象人物グループのそれぞれの頭部を、自グループの人物のそれぞれの頭部に置き換えた置換画像を生成する。人物グループ同士の顔について違和感のない置換画像を生成する場合、第一の人物グループの各人と、置換する第二の人物グループの各人を対応付けた上で第二の人物グループの各人の顔の状態を第一の画像中の第一の人物グループの各人の顔状態に近づける必要がある。

そこで、本実施形態ではまず顔状態検出手段が第一の画像から第一の人物グループの顔状態として顔の位置、方向、口の開閉状態、目の開閉状態、目線の方向を検出する。そして第二の画像撮影手段はシール印刷装置に搭載されているカメラを用いて第二の人物グループの画像を撮影する際に、さらにシール印刷装置に搭載されているディスプレイのプレビュー画面に第一の人物グループの各人と対応付けた第二の人物グループの各人それぞれが取るべき顔の状態が分かる補助情報を出力する機能を持つ。第二の人物グループの各人はタイマーの自動シャッターが発動する前に補助情報に基づいてプレビュー画面上で自分達の顔の状態を調節することで第二の画像を取得する。

こうすることで一人以上の第一の人物グループが写っている第一の画像中の各人の頭部を、第二の人物グループの各人の頭部に置き換えた画像を作成する場合においても、第二の人物グループの各人は迷うことなくそれぞれが対応する第一の人物グループの各人の顔状態に近づけるよう顔状態を調節することができる。以下、本発明の第二の実施形態について図面に基づいて説明する。

図５は、本実施形態に係る画像処理装置であるシール印刷装置５００のハードウェア構成の一例を示す図である。シール印刷装置５００は、ＣＰＵ５１０、内蔵ストレージ５２０、ランダムアクセスメモリ（ＲＡＭ）５３０、入力Ｉ／Ｆ５４０、出力Ｉ／Ｆ５５０を含む。ＣＰＵ５１０、内蔵ストレージ５２０、ランダムアクセスメモリ（ＲＡＭ）５３０、入力Ｉ／Ｆ５４０、出力Ｉ／Ｆ５５０は、ネットワークＩ／Ｆ５６０は、システムバス５７０を介して、相互に接続されている。

ＣＰＵ５１０は、システムバス５７０を介して接続される各デバイスを統括的に制御する中央演算装置である。ＣＰＵ５１０は、内蔵ストレージ５２０に記憶された各種プログラムを読み出して実行する。内蔵ストレージ５２０は、オペレーティングシステム（ＯＳ）のプログラムをはじめ、本実施形態に係る各処理のプログラム、デバイスドライバのプログラム、各種設定情報等を記憶する記憶装置である。また、ＲＡＭ５３０は、ＣＰＵ５１０のワークエリアやデータの一時記憶領域として利用される記憶装置である。ＣＰＵ５１０は、内蔵ストレージ５２０から取得した各種プログラムを、ＲＡＭ５３０に一時記憶し、適宜実行する。入力Ｉ／Ｆ５４０はタッチパネルやカメラ６０４であり、ユーザーのタップ操作や声などを信号として入力する。出力Ｉ／Ｆ５５０はディスプレイ６０７やスピーカー６０８であり、画面表示や音声によりユーザーに情報を出力する。ネットワークＩ／Ｆ５６０はＥｔｈｅｒｎｅｔやＷｉ−Ｆｉを介してネットワークに接続して情報をやり取りする装置である。

図６は本実施形態に係る画像処理装置の機能構成の一例を示す図である。
第一の画像取得部６０１はあらかじめ内蔵ストレージ５２０に保存されている第一の人物グループが写っている第一の画像を取得する。

顔状態検出部６０２は画像から画像中にある一つ以上の顔のそれぞれの顔の状態として顔の方向、口の開閉状態、目の開閉状態、目線の方向を検出する。

第二の画像撮影部６０３はシール印刷装置のカメラ２０４を用いて第二の人物グループの写真を第二の画像として撮影する。

補助情報出力部６０５は第二の画像撮影部６０３が第二の画像を撮影する際に第二の人物グループの各人が第一の人物グループの各人の顔状態に近づけるための補助情報をディスプレイ６０７やスピーカー６０８に出力する。

対応付け部６０６は二枚の画像に写っている人物グループの各人の顔を画像間でそれぞれ対応付ける。

ディスプレイ６０７は第二の画像撮影部６０３が撮影するときに補助情報を伴うプレビュー画像を出力するハードウェアである。また、この他にシール印刷装置の操作画面を表示したり、撮影した画像や画像処理装置が生成した画像などを出力したりする。

スピーカー６０８は補助情報を音声やサウンドによって出力するハードウェアである。

頭部置換部６０９は第一の画像中の第一の人物グループの各人の頭部を、第二の人物グループの各人の頭部に置き換えた画像を生成する。

本実施形態に係る処理が記述されたプログラムはシール印刷装置の内蔵ストレージ１２０に格納されている。シール印刷装置のユーザーがシール印刷装置に料金を投入することでプログラムが起動し、本実施形態の具体的な機能を使用することができる。

以降、本実施形態に係る処理が記述されたプログラムの具体的な処理内容を図７に示すフローチャートに沿って説明する。

ステップＳ７０１では、第一の画像取得部６０１が第一の人物グループが写っている第一の画像を取得する。具体的にはあらかじめ内蔵ストレージに保存されている複数の第一の画像候補からからユーザーら（第二の人物グループ）と人数が同じで、自分の顔と置き換えたい画像を選択するためのＵＩを表示する。そしてＵＩから選択された画像を第一の画像として取得する。

ステップＳ７０２では、顔状態検出部６０２が第一の画像から画像中の第一の人物グループの各人の顔状態としてそれぞれ顔の位置、顔の方向、口の開閉状態、目の開閉状態、目線の方向を検出する。本実施形態では顔の位置、顔の方向、口の開閉状態、目の開閉状態、目線の方向を表す情報の一形態として顔の部位を表す複数の三次元キーポイントを用いる。さらに、顔の方向のもう一つの形態として画像座標系から顔の座標系への座標変換行列を算出する。また、画像座標系における顔の座標系の原点を顔の位置とする。

ステップＳ７０３では、顔状態検出部６０２が第二の人物グループの各人の顔状態を検出する。具体的には第二の画像撮影部が本撮影に先立ちプレビュー画像を撮影する。そして顔状態検出部６０２がプレビュー画像から、ステップＳ７０２と同様の方法で画像中の第二の人物グループの各人の顔状態としてそれぞれ顔の位置、顔の方向、口の開閉状態、目の開閉状態、目線の方向を検出する。

ステップＳ７０４では対応付け部６０６が第一の画像に写っている第一の人物グループの各人の顔と第二の人物グループの各人の顔をそれぞれ対応付ける。具体的にはステップＳ７０２で検出した第一の人物グループの各人の顔状態から顔の位置を取得して、各人を顔位置のＸ座標昇順にソートしてリストを作成する。同様にステップＳ７０３で取得したプレビュー画像における第二の人物グループの各人の顔状態から顔の位置を取得して、各人を顔位置のＸ座標昇順にソートしてリストを作成する。こうしてできた第一の人物グループのリストと第二の人物グループのリストで同一のインデックスを持つ人物及び顔を対応付けられた人物及び顔とする。

ステップＳ７０５では第二の画像撮影部６０３の補助情報出力部６０５が補助情報をディスプレイ６０７及びスピーカー６０８に出力する。

補助情報はユーザーら（第二の人物グループ）が自分たちの画像を撮影する際に、第一の画像中の第一の人物グループの各人の顔状態に可能な限り近い顔状態で撮影するのを補助する情報であり、ディスプレイ６０７に出力する。

ディスプレイ６０７にはステップＳ７０３で取得したプレビュー画像上に補助情報を重畳した画像を出力する。ステップＳ７０２で検出した第一の人物グループの各人の顔のキーポイントをそれぞれの部位グループ（顔輪郭、口、目、鼻）において直線で結合した線画を顔毎に作成する。そして各線画をプレビュー画像上で、ステップＳ７０４で対応付けた第二の人物グループの各顔の上に重畳する。各線画を重畳するときの位置は各線画の中心がプレビュー画像における対応付けた人物の顔の位置になるようにする。サイズはプレビュー画像で検出した各人の顔状態の両耳の付け根を表す三次元キーポイント間の距離を第一の画像で検出した各人の顔状態の両耳の付け根を表す三次元キーポイント間の距離で除すことで算出した倍率を、各線画に乗じてリサイズすることで調整する。図８はシール印刷装置のディスプレイ８０１に補助情報を出力した様子の一例を表す図である。８０２、８０３はプレビュー画像に写っている、第二の人物グループ（この例では二人から構成される）の各人である。８０４は８０２に対応付けられた第一の人物グループの人物の顔状態を表す線画を位置とサイズを調整してプレビュー画像上に重畳したものである。８０５は８０３に対応付けられた第一の人物グループの人物の顔状態を表す線画を位置とサイズを調整してプレビュー画像上に重畳したものである。

ステップＳ７０６では第二の画像撮影部６０３がカメラ６０４を制御して第二の画像を撮影する。具体的にはあらかじめ設定された時間内にステップＳ７０５で出力された補助情報に基づいてユーザーら（第二の人物グループ）が自分の顔の状態を第一の画像中の第一の人物の顔状態に可能な限り近い顔状態になるよう調整した後に自動タイマーでカメラ２０４のシャッターを切る。こうして撮影された画像を第二の画像として取得する。

ステップＳ７０７では頭部置換部６０９が第一の画像中の第一の人物グループの各人の頭部を、第二の画像中の第二の人物グループの各人の顔に置き換えた置換画像を生成する。具体的には、まず、第一の画像中の第一の人物グループの各人の頭部、及び第二の画像中の第二の人物グループの各人の頭部をそれぞれ領域として抽出する。次に第一の画像中の第一の人物グループの各人の頭部とその周辺領域を抜き取った上で、第二の画像中の第二の人物グループの各人の頭部をステップＳ７０４の対応付け結果に従って色調を補正して重畳する。さらに、第一の画像で抜き取られた領域で、且つ第二の人物グループの各人の頭部として重畳されなかった画素を補間する。画素の補間は、各画素について第一の画像で抜き取られていない領域から当該画素と最も近傍の画素を抽出してその画素の値で保管する。画像中からの頭部の領域抽出処理は例えば一般的なセマンティックセグメンテーション処理によって行うことができる。

以上、第二の人物グループの各人が、各人の顔を第一の画像中の第一の人物グループの各人の顔状態に近づけるのを補助する情報を提示する方法を説明した。こうすることで一人以上の第一の人物グループが写っている第一の画像中の各人の頭部を、第二の人物グループの各人の頭部に置き換えた画像を作成する場合においても、第二の人物グループの各人は迷うことなくそれぞれが対応する第一の人物グループの各人の顔状態に近づけるよう顔状態を調節することができる。

２０１：第一の実施形態に係る第一の画像取得部（第一の画像取得機能）、２０２：第一の実施形態に係る顔状態検出部（顔状態検出機能）、２０３：第一の実施形態に係る第二の画像撮影部（第二の画像撮影機能）、２０５：第一の実施形態に係る補助情報出力部（補助情報出力機能）、６０１：第二の実施形態に係る第一の画像取得部（第一の画像取得機能）、６０２：第二の実施形態に係る顔状態検出部（顔状態検出機能）、６０３：第二の実施形態に係る第二の画像撮影部（第二の画像撮影機能）、６０５：第二の実施形態に係る補助情報出力部（補助情報出力機能）、６０６：第二の実施形態に係る対応付け部（対応付け機能）

Claims

第一の人物を撮影した第一の画像における第一の人物の頭部を、第二の人物を撮影した第二の画像における第二の人物の頭部と置き換える画像処理装置であり、
前記第一の画像を取得する第一の画像取得手段と、
画像中の人物の顔の状態を検出する検出手段と、
前記第二の画像を撮影して取得する第二の画像撮影手段と、
前記第一の画像中の第一の人物の頭部を、前記第二の画像中の第二の人物の頭部と置換する置換手段とを有する装置であり、
さらに前記第二の画像撮影手段は、前記検出手段が検出した第一の画像中の第一の人物の顔の状態と、被写体である第二の人物の顔の状態を合致させるための補助情報を出力する出力手段を有することを特徴とする画像処理装置。
前記出力手段は前記検出手段が検出した第一の画像中の第一の人物の顔の状態を表す図柄を前記第二の画像撮影手段が撮影した画像上に重畳したプレビュー画像を補助情報として出力することを特徴とする請求項１に記載の画像処理装置。
前記出力手段は前記検出手段が検出した第一の画像中の第一の人物の顔の状態を表す図柄と、前記検出手段が検出した第二の画像中の第二の人物の顔の状態を表す図柄とを前記第二の画像撮影手段が撮影した画像上に重畳したプレビュー画像を補助情報として出力することを特徴とする請求項１に記載の画像処理装置。
前記出力手段は前記検出手段が検出した第一の画像中の第一の人物の顔の状態と、前記検出手段が検出した第二の画像中の第二の人物の顔の状態との差を減らすために要する第二の人物の動作内容を補助情報として出力することを特徴とする請求項１に記載の画像処理装置。
さらに、前記出力手段は前記検出手段が検出した第一の画像中の第一の人物の顔の状態と、前記検出手段が検出した第二の画像中の第二の人物の顔の状態が所定の水準より合致しているときに、合致している旨を補助情報として出力することを特徴とする請求項１から請求項４に記載の画像処理装置。
さらに、前記置換手段は前記検出手段が検出した第一の画像中の第一の人物の顔の状態と、前記検出手段が検出した第二の画像中の第二の人物の顔の状態が所定の水準より合致しているときに前記抽出手段によって抽出された前記第一の画像中の第一の人物の頭部を、
前記抽出手段によって抽出された前記第二の画像中の第二の人物の頭部と置換することを特徴とする請求項１に記載の画像処理装置。
前記顔の状態とは顔の方向、口の開閉状態、目の開閉状態、目線の方向のいずれか一つ以上の情報であることを特徴とする請求項１から請求項６に記載の情報処理装置。
第一の人物を撮影した第一の画像における第一の人物の頭部を、第二の人物を撮影した第二の画像における第二の人物の頭部と置き換える画像処理システムであり、
前記第一の画像を取得する第一の画像取得部と、
画像中の人物の顔の状態を検出する検出部と、
前記第二の画像を撮影して取得する第二の画像撮影部と、
前記第一の画像中の第一の人物の頭部を、前記第二の画像中の第二の人物の頭部と置換する置換部とを有する装置であり、
さらに前記第二の画像撮影部は、前記検出部が検出した第一の画像中の第一の人物の顔の状態と、被写体である第二の人物の顔の状態を合致させるための補助情報を出力する出力部を有することを特徴とする画像処理システム。
第一の人物を撮影した第一の画像における第一の人物の頭部を、第二の人物を撮影した第二の画像における第二の人物の頭部と置き換える画像処理プログラムであり、
前記第一の画像を取得する第一の画像取得機能と、
画像中の人物の顔の状態を検出する検出機能と、
前記第二の画像を撮影して取得する第二の画像撮影機能と、
前記第一の画像中の第一の人物の頭部を、前記第二の画像中の第二の人物の頭部と置換する置換機能とを有する装置であり、
さらに前記第二の画像撮影機能は、前記検出機能が検出した第一の画像中の第一の人物の顔の状態と、被写体である第二の人物の顔の状態を合致させるための補助情報を出力する出力機能を有することを特徴とする画像処理プログラム。
一人以上の人物を含む第一の人物グループを撮影した第一の画像における第一の人物グループのそれぞれの頭部を、一人以上の人物を含む第二の人物グループを撮影した第二の画像における第二の人物グループのそれぞれの頭部と置き換える画像処理装置であり、
前記第一の画像を取得する第一の画像取得手段と、
画像中の人物の顔の状態を検出する検出手段と、
前記第二の画像を撮影して取得する第二の画像撮影手段と、
前記第一の画像中の第一の人物グループのそれぞれの頭部を、前記第二の画像中の第二の人物グループのそれぞれの頭部と置換する置換手段とを有する装置であり、
さらに前記第二の画像撮影手段は、前記検出手段が検出した第一の画像中の第一の人物グループの一つ以上の顔の状態と、被写体である第二の人物グループの一人以上の顔の状態を合致させるための補助情報を出力する出力手段を有することを特徴とする画像処理装置。
一人以上の人物を含む第一の人物グループを撮影した第一の画像における第一の人物グループのそれぞれの頭部を、一人以上の人物を含む第二の人物グループを撮影した第二の画像における第二の人物グループのそれぞれの頭部と置き換える画像処理システムであり、
前記第一の画像を取得する第一の画像取得部と、
画像中の人物の顔の状態を検出する検出部と、
前記第二の画像を撮影して取得する第二の画像撮影部と、
前記第一の画像中の第一の人物グループのそれぞれの頭部を、前記第二の画像中の第二の人物グループのそれぞれの頭部と置換する置換部とを有する装置であり、
さらに前記第二の画像撮影部は、前記検出部が検出した第一の画像中の第一の人物グループの一つ以上の顔の状態と、被写体である第二の人物グループの一人以上の顔の状態を合致させるための補助情報を出力する出力部を有することを特徴とする画像処理システム。
一人以上の人物を含む第一の人物グループを撮影した第一の画像における第一の人物グループのそれぞれの頭部を、一人以上の人物を含む第二の人物グループを撮影した第二の画像における第二の人物グループのそれぞれの頭部と置き換える画像処理装置であり、
前記第一の画像を取得する第一の画像取得機能と、
画像中の人物の顔の状態を検出する検出機能と、
前記第二の画像を撮影して取得する第二の画像撮影機能と、
前記第一の画像中の第一の人物グループのそれぞれの頭部を、前記第二の画像中の第二の人物グループのそれぞれの頭部と置換する置換機能とを有する装置であり、
さらに前記第二の画像撮影機能は、前記検出機能が検出した第一の画像中の第一の人物グループの一つ以上の顔の状態と、被写体である第二の人物グループの一人以上の顔の状態を合致させるための補助情報を出力する出力機能を有することを特徴とする画像処理装置。