JP7700951B2

JP7700951B2 - 画像変換装置、方法およびプログラム

Info

Publication number: JP7700951B2
Application number: JP2024502365A
Authority: JP
Inventors: 雄貴蔵内; 真奈笹川; 直紀萩山; 文香佐野; 隆二山本
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: NTT Inc; NTT Inc USA
Priority date: 2022-02-25
Filing date: 2022-02-25
Publication date: 2025-07-01
Anticipated expiration: 2042-02-25
Also published as: JPWO2023162132A1; WO2023162132A1

Description

本発明の実施形態は、画像変換装置、方法およびプログラムに関する。

非特許文献１は、リアルタイムな表情変形（表情変換）フィードバックによる感情体験の操作の可能性について開示している。非特許文献１では、被験者の顔をリアルタイムにトラッキング（tracking）して自然な表情変形処理を施している。非特許文献１では、画像変換法としてＲｉｇｉｄＭＬＳ（Moving Least Squares）法を使用して、顔画像における表情を変形している。ＲｉｇｉｄＭＬＳ法は、画像から認識した画像中の特徴点を認識して、これを移動させることで、画像を歪めるという手法である。このような手法は非特許文献２にも開示される。なお、顔画像とは、被験者の顔を撮影した画像、コンピュータが生成したアバターの顔を抽出した画像、などである。

吉田成朗（Shigeo Yoshida）ら，「リアルタイムな表情変形フィードバックによる感情体験の操作（Manipulation of Emotional Experience by Real-time Deformed Facial Feedback）」，ヒューマンインタフェース学会論文誌（The Transactions of Human Interface Society），Vol.17，No.1，2015 Tomas Jakab, et al., "Unsupervised Learning of Object Landmarks through Conditional Image Generation", NIPS, 2018.

しかしながら、被験者の顔の角度が変わったり、顔の一部が隠れたりすることで、上記の特徴点の認識ができなかった場合、不自然なタイミング（timing）にて表情変換が止まってしまうため、不自然な変換による顔画像しか得ることができない。すなわち、顔の画像に表れる表情をシームレス（seamless）に変換することができない。

この発明は、上記事情に着目してなされたもので、その目的とするところは、顔の画像に表れる表情をシームレスに変換することができるようにした画像変換装置、方法およびプログラムを提供することにある。

上記課題を解決するために、この発明の一態様に係る画像変換装置は、人の顔が含まれる画像から認識された顔パーツの特徴点を認識する特徴点認識部と、前記画像における顔が正面から認識できなくなる限界の角度に対する、正面からの前記顔の角度の比率と、前記顔の全体の領域に対する前記顔が物体で隠れている領域が除かれた領域の割合に基づいて、前記認識された顔の表情を変換するべき変換表情に変換するときの、前記変換表情に応じた前記顔パーツの特徴点のそれぞれについての変形量を表す変化量を補正する変化量補正部と、前記補正した変化量により前記特徴点を変形することで前記人の顔の表情を変換した変換画像を得る表情変換部と、を備える。

上記課題を解決するために、この一態様に係る画像変換方法は、人の顔の画像における表情を変換する画像変換装置により行われる方法であって、前記画像変換装置の特徴点認識部により、人の顔が含まれる画像から認識された顔パーツの特徴点を認識することと、前記画像変換装置の変化量補正部により、前記画像における顔が正面から認識できなくなる限界の角度に対する、正面からの前記顔の角度の比率と、前記顔の全体の領域に対する前記顔が物体で隠れている領域が除かれた領域の割合に基づいて、前記認識された顔の表情を変換するべき変換表情に変換するときの、前記変換表情に応じた前記顔パーツの特徴点のそれぞれについての変形量を表す変化量を補正することと、前記画像変換装置の表情変換部により、前記補正した変化量により前記特徴点を変形することで前記人の顔の表情を変換した変換画像を得ることと、を具備する。

本発明によれば、顔の画像に表れる表情をシームレスに変換することができる。

図１は、この発明の一実施形態に係る画像変換装置の構成の一例を示すブロック図（block diagram）である。図２は、画像変換装置のハードウェア（hardware）構成の一例を示す図である。図３は、顔の特徴点の一例を示す図である。図４は、特徴点の記憶形態の一例を示す図である。図５は、変化量の記憶形態の一例を示す図である。図６は、画像変換装置による画像変換処理動作の一例を示すフローチャート（flow chart）である。図７は、表示割合算出部により用いられるニューラルネットワーク（neural network）の一例を示す図である。図８は、表示割合算出部により処理されるグリッドセル（grid cell）（グリッド領域）の一例を示す図である。

［一実施形態］
以下、図面を参照して、この発明に係わる一実施形態を説明する。
（構成例）
図１は、この発明の一実施形態に係る画像変換装置の構成の一例を示すブロック図である。
図１に示される例では、この発明の一実施形態に係る画像変換装置１００は、画像取得部１１、特徴点認識部１２、顔角度算出部１３、表示割合算出部１４、変換表情入力部１５、変化量格納部１６、変化量補正部１７、表情変換部１８、及び画像出力部１９を有する。

画像取得部１１は、例えばｗｅｂカメラ（camera）により撮影された画像またはアバター（avatar）などからユーザ（user）の顔画像を取得する。画像取得部１１は、取得した顔画像を、特徴点認識部１２、表示割合算出部１４、及び表情変換部１８に出力する。

特徴点認識部１２は、画像取得部１１が取得した顔画像を入力とし、その顔画像から認識される顔パーツ（parts）の特徴点を認識する。この特徴点認識部１２における特徴点の認識手法については後述する。特徴点認識部１２は、認識した特徴点を顔角度算出部１３及び変化量補正部１７に出力する。

顔角度算出部１３は、特徴点認識部１２が認識した特徴点を入力とし、顔画像における顔の角度、例えば顔が正面を向いたときの位置を基準とした、顔の中心の現在の位置との間の角度（正面からの顔の角度と称することがある）を算出して、この算出した角度のデータ（data）を変化量補正部１７に出力する。

表示割合算出部１４は、画像取得部１１が取得した顔画像を入力とし、その顔画像に対して顔の全体のうち隠れている部分の割合を算出し、この算出した割合のデータを変化量補正部１７に出力する。

変換表情入力部１５は、キーボード（keyboard）などのユーザインタフェース（user interface）からユーザが指定入力した、笑顔などの変換したい先の表情である変換表情（変換するべき変換表情と称することがある）を取得する。変換表情入力部１５は、取得した変換表情を変化量補正部１７に出力する。

変化量格納部１６には、変換したい先の表情ごとに、各特徴点についての変形量（座標値の移動量）を表す変化量が予め格納（記憶）される。変化量は、変換したい先の表情に応じて各特徴点の座標値を、どの程度移動すべきかを示す情報である。変化量は、例えば、ユーザが特定の顔画像について無表情顔に表情変形処理を適用しながら、自然な表情となるように調整して、予め求めることができる。

変化量補正部１７は、特徴点認識部１２が認識した特徴点、顔角度算出部１３により算出した顔角度、及び表示割合算出部１４により算出した表示割合を入力する。
また、変化量補正部１７は、変換表情入力部１５から入力された変換表情で示される変換したい先の表情に応じた変化量を変化量格納部１６から読み出す。
変化量補正部１７は、これら入力した特徴点、顔角度、及び表示割合に基づいて、変換したい先の表情における変化量を後述する式によって補正した変化量を算出し、この算出した変化量のデータを表情変換部１８に出力する。

表情変換部１８は、変化量補正部１７が補正した変化量を入力とする。表情変換部１８は、上記補正した変化量、すなわち変換するべき変換表情に応じた変形量を表す変化量に基づいて、入力された顔画像における各特徴点を、入力した、その特徴点の補正した変化量である移動量に基づいて移動することで、顔画像の表情を変換した顔画像を得る。表情変換部１８は、変換後の顔画像を画像出力部１９に出力する。

画像出力部１９は、表情変換部１８からの変換後の顔画像を入力とし、入力された顔画像を出力する。ここで、出力とは、例えば、記憶媒体に記憶すること、ディスプレイ（display）で表示すること、通信ネットワークを介して他の機器へ送信すること、などを含む。

図２は、画像変換装置１００のハードウェア構成の一例を示す図である。
画像変換装置１００は、例えば、パーソナルコンピュータ（Personal computer）、スマートホン（smart phone）、サーバコンピュータ（server computer）、などのコンピュータにより構成される。画像変換装置１００は、図２に示すように、ＣＰＵ（Central Processing Unit）等のハードウェアプロセッサ（hardware processor）（単にプロセッサと称することがある）１１１Ａを有する。なお、ＣＰＵは、マルチコア（multi-core）及びマルチスレッド（multithread）のものを用いることで、同時に複数の情報処理を実行することができる。また、プロセッサ１１１Ａは、複数のＣＰＵを備えていても良い。そして、画像変換装置１００では、このプロセッサ１１１Ａに対し、プログラムメモリ（program memory）１１１Ｂと、データメモリ（data memory）１１２と、通信インタフェース１１４と、入出力インタフェース１１３とが、バス（bus）１１５を介して接続される。

通信インタフェース１１４は、例えば一つ以上の有線または無線の通信モジュールを含むことができる。通信インタフェース１１４は、ケーブル（cable）もしくはＬＡＮ（Local Area Network）またはインターネット（internet）等のネットワーク（ＮＷ）を介して接続される他のコンピュータおよびｗｅｂカメラ、などとの間で通信を行うことができる。

入出力インタフェース１１３には、入力デバイス（device）２００及び出力デバイス３００が接続されている。入力デバイス２００は、キーボード、マウス（mouse）などのポインティングデバイス（pointing device）、などの入力デバイス、カメラなどのセンサデバイス（sensor device）、などを含む。また、出力デバイス３００は、液晶ディスプレイ、ＣＲＴ（Cathode Ray Tube）ディスプレイ、などの表示デバイスである。入力デバイス２００及び出力デバイス３００は、いわゆるタブレット（tablet）型の入力・表示デバイスを用いたものが用いられることもできる。この種の入力・表示デバイスは、例えば液晶または有機ＥＬ（Electro Luminescence）を使用した表示デバイスの表示画面上に、静電方式または圧力方式を採用した入力検知シート（sheet）を配置して構成される。入出力インタフェース１１３は、上記入力デバイス２００において入力された操作情報をプロセッサ１１１Ａに入力すると共に、プロセッサ１１１Ａで生成された表示情報を出力デバイス３００に表示させる。

なお、入力デバイス２００及び出力デバイス３００は、入出力インタフェース１１３に接続されていなくても良い。入力デバイス２００及び出力デバイス３００は、通信インタフェース１１４と直接またはネットワークを介して接続するための通信ユニットを備えることで、プロセッサ１１１Ａとの間で情報の授受を行い得る。

また、入出力インタフェース１１３は、フラッシュメモリ（Flash memory）等の半導体メモリといった記録媒体のリード／ライト（read / write）機能を有しても良いし、あるいは、そのような記録媒体のリード／ライト機能を持ったリーダライタ（reader writer）との接続機能を有しても良い。さらに、入出力インタフェース１１３は、他の機器との接続機能を有して良い。

プログラムメモリ１１１Ｂは、非一時的な有形のコンピュータ可読記憶媒体として、随時書込み及び読出しが可能な不揮発性メモリ（non-volatile memory）と、随時読出しのみが可能な不揮発性メモリとが組み合わせて使用されたものである。随時書込み及び読出しが可能な不揮発性メモリは、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、などである。随時読出しのみが可能な不揮発性メモリは、例えば、ＲＯＭ（Read Only Memory）などである。このプログラムメモリ１１１Ｂには、プロセッサ１１１Ａが一実施形態に係る各種制御処理を実行するために必要なプログラム、例えば画像変換プログラムが格納されている。すなわち、上記の画像取得部１１、特徴点認識部１２、顔角度算出部１３、表示割合算出部１４、変換表情入力部１５、変化量補正部１７、表情変換部１８、及び画像出力部１９の各部における処理機能部は、何れも、プログラムメモリ１１１Ｂに格納された画像変換プログラムを上記プロセッサ１１１Ａにより読み出させて実行させることにより実現され得る。なお、これらの処理機能部の一部または全部は、特定用途向け集積回路（ＡＳＩＣ：Application Specific Integrated Circuit）またはＦＰＧＡ（field-programmable gate array）等の集積回路を含む、他の多様な形式によって実現されても良い。

データメモリ１１２は、有形のコンピュータ可読記憶媒体として、例えば、上記の不揮発性メモリと、ＲＡＭ（Random Access Memory）等の揮発性メモリ（volatile memory）とが組み合わせて使用されたものである。このデータメモリ１１２は、各種処理が行われる過程で取得及び作成された各種データが記憶されるために用いられる。すなわち、データメモリ１１２には、各種処理が行われる過程で、適宜、各種データを記憶するための領域が確保される。

図３は、顔の特徴点の一例を示す図である。図３中の星印が、プロセッサ１１１Ａが認識した特徴点であり、各特徴点の横に付された数字は各特徴点を識別するための一意な特徴点ＩＤ（IDentifier）である。特徴点ＩＤの数及び各特徴点ＩＤに対する顔の部分は、採用する特徴点認識手法により決まっている。例えば、特徴点ＩＤ「１８」の特徴点は向かって左の眉の左端、のように予め決まっている。

図４は、特徴点の記憶形態の一例を示す図である。図４に示すように、データメモリ１１２には、テーブル（table）形式で、特徴点ＩＤに対応付けて顔画像中の特徴点のｘ座標及びｙ座標が記憶される。座標の値はピクセル（pixel）である。従って、データメモリ１１２には、図３の例であれば、特徴点ＩＤ「１」～「６８」に係る特徴点について、そのｘｙ座標が記憶される。

データメモリ１１２には、プロセッサ１１１Ａが上記の変換表情入力部１５として動作したときに取得した、ユーザによって指定された変換表情が記憶される。
データメモリ１１２には、上記の変化量格納部１６に格納される変換量が格納され得る。

図５は、変化量の記憶形態の一例を示す図である。図５に示すように、データメモリ１１２には、変換表情ごとに、特徴点ＩＤに対応付けて、特徴点のｘ座標の変化量とｙ座標の変化量とが、被写体である人物によらない変化量として、テーブル形式で記憶される。変化量の値はピクセルである。変化量は、特徴点の移動方向と移動量によって表される。例えば、移動量「＋１」は、正方向に１ピクセル移動することを表す。

データメモリ１１２には、プロセッサ１１１Ａが上記の表情変換部１８として動作したときに変換した顔画像が記憶され得る。
また、データメモリ１１２には、プロセッサ１１１Ａが動作途中で発生する種々の中間データが記憶され得る。

（動作）
次に、画像変換装置１００の動作を説明する。
図６は、画像変換装置１００による画像変換処理動作の一例を示すフローチャートである。画像変換装置１００のプロセッサ１１１Ａは、プログラムメモリ１１１Ｂに記憶された画像変換プログラムを読み出して実行することで、このフローチャートに示す画像変換装置１００としての動作を開始する。プロセッサ１１１Ａでの画像変換プログラムの実行は、入力デバイス２００から、入出力インタフェース１１３を介して、あるいは、通信インタフェース１１４を介して、画像変換の実施を指示されることで開始される。

プロセッサ１１１Ａは、変換表情入力部１５として動作して、ユーザによる、笑顔などの変換したい先の表情である変換表情の指定入力を待つ（ステップＳ１）。例えば、プロセッサ１１１Ａは、入出力インタフェース１１３または通信インタフェース１１４を介した入力デバイス２００からの入力信号が変換表情の指定入力を含むか否かを判断する。変換表情の指定入力が有ったならば、プロセッサ１１１Ａは、ステップＳ２の処理へ移行する。

プロセッサ１１１Ａは、指定された変換表情を、データメモリ１１２に記憶させる（ステップＳ２）。

プロセッサ１１１Ａは、画像取得部１１として動作して、顔画像を取得する（ステップＳ３）。例えば、プロセッサ１１１Ａは、入力デバイス２００のカメラによる被験者の顔の撮影画像を入出力インタフェース１１３を介して取得する。あるいは、プロセッサ１１１Ａは、ネットワークに接続されたｗｅｂカメラにより撮影された顔画像または他のコンピュータが生成したアバターの顔を通信インタフェース１１４を介して取得する。プロセッサ１１１Ａは、取得した顔画像を、データメモリ１１２に記憶させる。

プロセッサ１１１Ａは、特徴点認識部１２として動作して、データメモリ１１２に記憶されている顔画像から特徴点を認識する（ステップＳ４）。プロセッサ１１１Ａは、例えば、ｄｌｉｂのｆａｃｅ＿ｌａｎｄｍａｒｋ＿ｄｅｔｅｃｔｉｏｎ関数（例えばhttp://dlib.net/face_landmark_detection.py.htmlを参照）などを利用して、顔画像に対して特徴点を認識する。具体的には、プロセッサ１１１Ａは、入力の顔画像に対して、ＨＯＧ（Histogram of Oriented Gradients）特徴と呼ばれる輝度の勾配方向の分布を抽出する。ＨＯＧ特徴と顔の特徴点の位置を紐付けたデータをもとに学習されたモデル（model）は一般的に提供されている。よって、プロセッサ１１１Ａは、抽出されたＨＯＧ特徴を、この学習モデルに入力し、顔の特徴点の位置を取得する。プロセッサ１１１Ａは、取得した特徴点の位置をデータメモリ１１２に記憶させる。

プロセッサ１１１Ａは、顔角度算出部１３として動作して、例えばopencvなどを利用して、顔画像における顔の角度を算出する（ステップＳ５）。
具体的には、プロセッサ１１１Ａは、顔が正面に向いているときの顔パーツの特徴点の３次元位置（P_3d）を予め計測して、これをデータメモリ１１２に保持する。
プロセッサ１１１Ａは、顔画像の顔パーツの現在の特徴点の２次元位置（P’_2d）を取得する。
プロセッサ１１１Ａは、上記３次元位置（P_3d）を回転または移動したときの顔パーツの特徴点の２次元位置（P_2d）を算出する。
プロセッサ１１１Ａは、例えばopencvのProjectPoints2関数（例えばhttp://opencv.jp/opencv-2svn/py/camera_calibration_and_3d_reconstruction.html#projectpoints2を参照）などを利用して、上記各２次元位置を算出する。

プロセッサ１１１Ａは、２次元位置（P_2d）と、２次元位置（P’_2d）の距離の二乗和（sum of squares）（Ｄ）を算出する。
プロセッサ１１１Ａは、この二乗和Ｄを最小化するような角度（および移動量）を大域的最適化（global optimization）により求める。

プロセッサ１１１Ａは、例えばopencvのsolvPnP関数（例えばhttp://opencv.jp/opencv-2svn/cpp/camera_calibration_and_3d_reconstruction.html#cv-solvepnpを参照）などを利用して、上記最小化するような角度（および移動量）を正面からの顔の角度（ａ）として算出部する。

プロセッサ１１１Ａは、顔認識ツールを起動しつつ顔を動かしながら、認識ができなくなった際の特徴点の位置を取得することにより、認識ができる限界の顔の角度（Ａ）を被写体の人物によらない角度として予め算出し、これをデータメモリ１１２に保持する。

次に、プロセッサ１１１Ａは、表示割合算出部１４として動作して、顔画像に対して顔の全体の領域のうち顔以外の物体で隠れている領域の割合である、顔の表示割合を算出する（ステップＳ６）。例えば顔の全体の１０％が顔以外の物体で隠れていれば、上記顔の表示割合は１０％となる。

ここで、表示割合算出部１４による算出の例を図７および図８を参照して説明する。

図７は、表示割合算出部により用いられるニューラルネットワークの一例を示す図である。図８は、表示割合算出部により処理されるグリッドセルの一例を示す図である。ここでは、動物および各種物体が含まれる入力画像に係る例を説明するが、これらが人の顔および顔を隠している物体、例えば手またはその他の物体であるときにも同様に適用が可能である。

図７および図８に示された例では、既知のYOLO (You Only Look Once)（ディープラーニング（deep learning）による一般物体検出手法）が用いられ得る。この手法は、例えば下記の資料に開示される。
「Joseph Redmon, et al., “YOLOv3: An Incremental Improvement”, arXiv preprint, arXiv:1804.02767, 2018.」

この手法では、プロセッサ１１１Ａは、顔画像を正方形にリサイズ（resize）し、これを図７に示されるような、画像処理の分野で数多く用いられるニューラルネットワークであるＣＮＮ（Convolutional Neural Network（畳み込みニューラルネットワーク））に入力する。プロセッサ１１１Ａは、図７に示されたＣＮＮにおける２４層の畳み込み層(Conv. Layer)および４層のpooling層（図７の符号ａ参照）を経て顔画像から特徴を抽出し、２層の全結合層(Conn. Layer)で（図７の符号ｂ参照）、画像における物体のBounding Box、および物体の種類の確率を推定することができる。畳み込み層の最終出力サイズ7×7はgrid cellの分割数と一致する。

上記入力された画像は、図８に示されるような、Ｓ×Ｓのgrid cellに分割される（図８の（ａ）参照）。
プロセッサ１１１Ａは、上記分割した各grid cellに対して、Ｂ個の物体のBounding Boxを推定する。プロセッサ１１１Ａは、１つのBounding Boxにつき、Bounding Boxの座標値、幅、高さ(x, y, w, h)と、そのBounding Boxが物体である信頼度(confidence)スコアでなる、計５つの値を出力する（図８の（ｂ）参照）。

座標値のx, yは、grid cellの境界を基準にしたBounding Boxの中心座標であり、幅wと高さhは画像全体のサイズに対する相対値であり、信頼度スコア（score）は、そのBounding Boxが物体か背景かの確率を表す。この確率は、物体なら「１」で背景であれば「０」である。

物体領域の推定精度を測る指標として、正解Bounding Boxと推定Bounding Boxの一致具合を表すIoU (Intersection over Union)がある。上記YOLOではBounding Boxの信頼度スコアがIoUを表す。

プロセッサ１１１Ａは、各grid cell単位で物体の種類の確率を推定する。例えば、プロセッサ１１１Ａは、Ｃ種類の分類クラス（classification class）で、grid cellが物体である場合に、どのクラスに属するかの確率、すなわち条件付き確率（conditional probability）を推定する（図８の（ｃ）参照）。

プロセッサ１１１Ａは、ここで推定したクラス確率を上記のBounding Boxと統合することで、何の物体であるかを示す複数のBounding Boxを得る（図８の（ｄ）参照）。

プロセッサ１１１Ａは、重複領域も含んだ、これらのBounding Boxを、信頼度スコアの高いBounding Boxを基準にＮＭＳ（(Non-Maximum Suppression）という手法で選別する（図８の（ｅ）参照）。NMSは、IoU値が大きい(重なり度合いの高い)領域をしきい値で抑制（suppression）する。これにより物体領域の検出結果が得られる。

プロセッサ１１１Ａは、顔領域と、この領域に重畳する物体領域があったときは、重畳している領域の面積を顔領域の面積で除することによって、上記の顔の表示割合を算出することができる。

次に、プロセッサ１１１Ａは、変化量補正部１７として動作して、変換したい先の表情に応じた変化量を変化量格納部１６から読み出し、Ｓ４で認識した特徴点、Ｓ５で算出した顔角度、及びＳ６で算出した表示割合に基づいて、変換したい先の表情に応じた、上記読み出した変化量を補正した変化量を算出する（ステップＳ７）。

具体的には、プロセッサ１１１Ａは、顔の角度、すなわち正面からの顔の角度aおよび認識ができる限界の顔の角度Ａと、顔全体の領域に対する顔が隠れている領域の割合Ｈを取得し、これらに応じて、下記の式（１）により、表情変換の変化量を減衰させる、すなわち変化量を補正し、この補正した結果をデータメモリ１１２に保持する。
ΔＰ_ｎｅｗ＝ΔＰ・（１－Ｈ）・ａ／А …式（１）
式（１）の左辺ΔＰ_ｎｅｗは、表情変換の減衰させた、すなわち補正後の変化量であり、右辺のΔＰは表情変換の補正前の変化量である。

すなわち、上記の例では、（１）正面からの顔の角度aおよび認識ができる限界の顔の角度Ａとの比率ａ／Аと、（２）顔全体の領域に対する顔が隠れている領域の割合Ｈと、に基づいて、補正後の変化量が算出される。
なお、この例に限らず、例えば、許容される精度の範囲内で、（１）正面からの顔の角度aおよび認識ができる限界の顔の角度Ａとの比率ａ／Аと、（２）顔全体の領域に対する顔が隠れている領域の割合Ｈと、の一方に基づいて補正後の変化量が算出されてもよい。

このようにして変化量を補正すれば、顔の角度が変わったり、顔の一部が隠れたりすることにより、特徴点の認識ができなかったとしても、自然でないタイミングで表情変換が止まることが無くなり、顔画像の表情を自然に変換することができる。

プロセッサ１１１Ａは、表情変換部１８として動作して、データメモリ１１２に記憶されている顔画像の表情を変換する（ステップＳ８）。すなわち、プロセッサ１１１Ａは、データメモリ１１２に記憶された、変換表情に応じた変化量が補正された結果に基づいて、顔画像を変換する。例えば、プロセッサ１１１Ａは、ＭＬＳの実装（例えばhttps://github.com/Jarvis73/Moving-Least-Squaresを参照）などを利用する。

具体的には、プロセッサ１１１Ａは、各特徴点について、データメモリ１１２に記憶された変換表情に応じた変化量の補正後の変化量分だけ移動させる。例えば、表情を笑顔に変換する場合には、特徴点ＩＤ「１」の制御点については、変換前のｘｙ座標が（２３，４５）であるので（図４参照）、プロセッサ１１１Ａは、ｘ座標を「＋１」、ｙ座標を「＋２」する（図５参照）ことで、当該特徴点の画素を（２４，４７）に移動するような変換を行う。

そして、特徴点については、プロセッサ１１１Ａは、下記の式（２）に示されるアフィン（Affine）変換（ヘルマート（Helmert）変換＝相似変換及びｒｉｇｉｄｄｅｆｏｒｍａｔｉｏｎ＝剛体変形を含む）を適用する。

ただし、上記式（２）のｘ，ｙは近傍の特徴点の座標であり、ｘ’，ｙ’は、その特徴点の座標に変化量を足した座標であり、ａ，ｂ，ｃ，ｄはパラメータ（parameter）であり、ｔ_x，ｔ_yは平行移動パラメータである。プロセッサ１１１Ａは、特徴点の座標ｘ，ｙと変化量を足した座標ｘ’，ｙ’の最小二乗平均（least square means）を算出し、これを最小化するようなパラメータａ，ｂ，ｃ，ｄ，ｔ_x，ｔ_yを大域的最適化により求める。そして、プロセッサ１１１Ａ変換するべき対象点の座標をｘ，ｙとして、これら求めたパラメータを用いて変換後の座標を求める。プロセッサ１１１Ａは、こうして求めたパラメータａ，ｂ，ｃ，ｄ，ｔ_x，ｔ_yを用いて、特徴点から上記アフィン変換により変換した後の座標を求める。

プロセッサ１１１Ａは、こうして変換した後の顔画像を変換画像としてデータメモリ１１２に記憶させる。

プロセッサ１１１Ａは、画像出力部１９として動作して、データメモリ１１２に記憶された変換画像を出力する（ステップＳ９）。例えば、プロセッサ１１１Ａは、入出力インタフェース１１３を介して出力デバイス３００に顔画像を表示させる。あるいは、プロセッサ１１１Ａは、通信インタフェース１１４によりネットワーク上に送信し、ネットワークに接続された表示デバイスに表示させたり、ネットワークに接続された他のコンピュータの表示部に表示させたりする。

プロセッサ１１１Ａは、図６のフローチャートに示す画像変換装置１００としての動作を終了するか否か判断する（ステップＳ１０）。例えば、プロセッサ１１１Ａは、入力デバイス２００から、入出力インタフェース１１３を介して、あるいは、通信インタフェース１１４を介して、ユーザから画像変換の終了を指示されたか否か確認する。ここで、上記動作を終了する場合には（ステップＳ１０のＹＥＳ）、プロセッサ１１１Ａは、図６のフローチャートに示す動作を終了する。

これに対して、未だ上記動作を終了しない場合には（ステップＳ１０のＮＯ）、プロセッサ１１１Ａは、変換表情入力部１５として動作して、ユーザによる変換表情の変更指定入力が有ったか否か判断する（ステップＳ１１）。変換表情の変更指定入力が無ければ（ステップＳ１１のＮＯ）、プロセッサ１１１Ａは、ステップＳ３の処理へ移行する。また、変換表情の変更指定入力が有った場合には（ステップＳ１０のＹＥＳ）、プロセッサ１１１Ａは、ステップＳ２の処理へ移行する。

以上に説明した一実施形態に係る画像変換装置１００は、顔角度算出部１３と、表示割合算出部１４と、変化量補正部１７と、表情変換部１８とを備える。表情変換部１８は、変換するべき変換表情に応じた変形量により特徴点を変換することで人の顔の表情を変換した変換画像を得る。
従って、一実施形態に係る画像変換装置１００は、顔の角度が変わったり、顔の一部が隠れたりすることにより、特徴点の認識ができなかったとしても、自然でないタイミングで表情変換が止まることが無くなり、顔画像の表情を自然に変換することができる。

［他の実施形態］
なお、この発明は上記一実施形態に限定されるものではない。
例えば、以上で説明した各処理の流れは、説明した手順に限定されるものではなく、いくつかのステップの順序が入れ替えられても良いし、いくつかのステップが同時並行で実施されても良い。

また、以上で説明した各処理の流れは、リアルタイムに取得する顔画像の表情をリアルタイムに変換していく場合であったが、リアルタイム処理ではなく、保存された顔画像の表情を変換する用途にも同様に適用できる。

また、各実施形態に記載された手法は、計算機（コンピュータ）に実行させることができるプログラム（ソフトウエア手段）として、例えば磁気ディスク（フロッピー（登録商標）ディスク（Floppy disk）、ハードディスク（hard disk）等）、光ディスク（optical disc）（ＣＤ－ＲＯＭ、ＤＶＤ、ＭＯ等）、半導体メモリ（ＲＯＭ、ＲＡＭ、フラッシュメモリ等）等の記録媒体に格納し、また通信媒体により伝送して頒布され得る。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウエア手段（実行プログラムのみならずテーブル、データ構造も含む）を計算機内に構成させる設定プログラムをも含む。本装置を実現する計算機は、記録媒体に記録されたプログラムを読み込み、また場合により設定プログラムによりソフトウエア手段を構築し、このソフトウエア手段によって動作が制御されることにより上述した処理を実行する。なお、本明細書でいう記録媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスク、半導体メモリ等の記憶媒体を含むものである。

なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。

１００…画像変換装置
１１…画像取得部
１２…特徴点認識部
１３…顔角度算出部
１４…表示割合算出部
１５…変換表情入力部
１６…変化量格納部
１７…変化量補正部
１８…表情変換部
１９…画像出力部
１１１Ａ…プロセッサ
１１１Ｂ…プログラムメモリ
１１２…データメモリ
１１３…入出力インタフェース
１１４…通信インタフェース
１１５…バス
２００…入力デバイス
３００…出力デバイス

Claims

人の顔が含まれる画像から認識された顔パーツの特徴点を認識する特徴点認識部と、
前記画像における顔が正面から認識できなくなる限界の角度に対する、正面からの前記顔の角度の比率と、前記顔の全体の領域に対する前記顔が物体で隠れている領域が除かれた領域の割合に基づいて、前記認識された顔の表情を変換するべき変換表情に変換するときの、前記変換表情に応じた前記顔パーツの特徴点のそれぞれについての変形量を表す変化量を補正する変化量補正部と、
前記補正した変化量により前記特徴点を変形することで前記人の顔の表情を変換した変換画像を得る表情変換部と、
を具備する、画像変換装置。
前記変化量補正部は、
前記画像における顔が正面から認識できなくなる限界の角度に対する、正面からの前記顔の角度の比率と、前記顔の全体の面積に対する前記顔が物体で隠れている面積を除いた面積の割合を、前記顔パーツの特徴点のそれぞれについての所定の変化量に乗じることで、前記変化量を補正する、
請求項１に記載の画像変換装置。
前記顔が正面を向いているときの前記顔パーツの特徴点の３次元位置を回転または移動したときの前記顔パーツの特徴点の２次元位置を算出し、前記算出した２次元位置と、現在の前記顔パーツの特徴点の２次元位置との距離の二乗和が最小になる角度を前記正面からの前記顔の角度として算出する、
請求項１に記載の画像変換装置。
前記変換するべき変換表情ごとに、前記特徴点それぞれについての変形量を表す変化量が予め記憶される記憶装置と、
前記変換するべき変換表情を入力する変換表情入力部と、
を更に具備し、
前記変化量補正部は、
前記入力された変換表情に応じた前記変化量を前記記憶装置から読み出し、この読み出した変化量を補正する、
請求項１乃至３の何れか１項に記載の画像変換装置。
人の顔の画像における表情を変換する画像変換装置により行われる方法であって、
前記画像変換装置の特徴点認識部により、人の顔が含まれる画像から認識された顔パーツの特徴点を認識することと、
前記画像変換装置の変化量補正部により、前記画像における顔が正面から認識できなくなる限界の角度に対する、正面からの前記顔の角度の比率と、前記顔の全体の領域に対する前記顔が物体で隠れている領域が除かれた領域の割合に基づいて、前記認識された顔の表情を変換するべき変換表情に変換するときの、前記変換表情に応じた前記顔パーツの特徴点のそれぞれについての変形量を表す変化量を補正することと、
前記画像変換装置の表情変換部により、前記補正した変化量により前記特徴点を変形することで前記人の顔の表情を変換した変換画像を得ることと、
を具備する画像変換方法。
請求項１乃至４のいずれか１項に記載の画像変換装置の各部としてプロセッサを機能させる画像変換処理プログラム。