JP2019087226A

JP2019087226A - 情報処理装置、情報処理システムおよび表情画像出力方法

Info

Publication number: JP2019087226A
Application number: JP2018101621A
Authority: JP
Inventors: 大輔中田; Daisuke Nakada; ジゲンジョウ; Jigen Zhou
Original assignee: Sony Interactive Entertainment Inc; Sony Interactive Entertainment LLC
Current assignee: Sony Interactive Entertainment Inc; Sony Interactive Entertainment LLC
Priority date: 2017-11-03
Filing date: 2018-05-28
Publication date: 2019-06-06
Also published as: US20190138796A1; US10896322B2

Abstract

【課題】プレイヤの表情を推定して、推定した表情に応じた表情画像を生成する技術を提供する。【解決手段】カメラ画像取得部２５０は、ＨＭＤを装着したユーザを撮影した撮影画像を取得する。位置特定部２５２は、撮影画像におけるＨＭＤの位置を特定し、特定したＨＭＤの位置から、口の画像を特定する。表情推定部２５４は、ユーザの口の画像から、ユーザの表情を推定する。表情画像生成部２５６は、推定したユーザの表情に応じた表情画像を生成する。出力部は、表情画像を含むライブ配信画像を共有サーバに出力する。【選択図】図８

Description

本発明は、顔の表情を推定する技術に関する。

ユーザがプレイ中のゲーム画像を、共有サイトを介して複数の視聴ユーザにブロードキャスト配信するサービスが普及している。特許文献１は、プレイ中のゲーム画像を含むライブ配信画像を、視聴ユーザにブロードキャスト配信する共有処理を開示する。プレイヤはゲーム画像とともに、自身がゲームをプレイしている様子を撮影したカメラ画像も配信できる。

国際公開第２０１４／０６８８０６号

ヘッドマウントディスプレイ（ＨＭＤ）はユーザの視野全体に画像を提供し、映像世界への没入感を高める。ヘッドトラッキング機能により映像世界への没入感をさらに高められることから、近年ではＨＭＤを用いたゲームプレイが人気を博している。

ＨＭＤは両眼と鼻を覆うように顔に装着されるため、プレイヤの撮影画像をライブ配信画像に含めても、プレイヤの顔の表情の大部分は隠れてしまう。ライブ配信画像にプレイヤの撮影画像が含まれている場合、プレイヤの表情を見ることも視聴ユーザの楽しみの一つであるため、プレイヤの表情を何らかの形で表現できることが好ましい。

そこで本発明は、プレイヤの表情を推定して、推定した表情に応じた表情画像を生成する技術を提供することを目的とする。

上記課題を解決するために、本発明のある態様の情報処理装置は、ヘッドマウントディスプレイを装着したユーザを撮像した撮影画像を取得する画像取得部と、撮影画像に含まれるユーザの口の画像から、ユーザの表情を推定する表情推定部と、推定したユーザの表情に応じた表情画像を生成する表情画像生成部と、表情画像を含む画像を出力する出力部とを備える。

本発明の別の態様は、端末装置とサーバ装置を含む情報処理システムである。この情報処理システムは、ヘッドマウントディスプレイを装着したユーザを撮像した撮影画像を取得する画像取得部と、撮影画像に含まれるユーザの口の画像から、ユーザの表情を推定する表情推定部と、推定したユーザの表情に応じた表情画像を生成する処理部と、表情画像を含む画像を出力する出力部とを備える。

本発明のさらに別の態様は、表情画像出力方法である。この方法は、ヘッドマウントディスプレイを装着したユーザを撮像した撮影画像を取得するステップと、撮影画像に含まれるユーザの口の画像から、ユーザの表情を推定するステップと、推定したユーザの表情に応じた表情画像を生成するステップと、表情画像を含む画像を出力するステップと、を備える。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

本発明によると、プレイヤの表情を推定して、推定した表情に応じた表情画像を生成する技術を提供する。

本発明の実施例にかかる情報処理システムを示す図である。ＨＭＤの外観形状の例を示す図である。情報処理装置の構成を示す図である。ＨＭＤに表示されるゲーム画面の一例を示す図である。共有処理の選択肢を示す入力画面の一例を示す図である。設定画面の一例を示す図である。ライブ配信画像の一例を示す図である。カメラ画像処理部の構成を示す図である。撮影画像の一例を示す図である。撮影画像に表情画像を合成した画像を示す図である。撮影画像に表情画像を合成した画像を示す図である。

図１は、本発明の実施例にかかる情報処理システム１を示す。情報処理システム１は、配信主となるユーザＡがプレイ中のゲーム画像とともに、ユーザＡを撮影した画像をもとに生成した画像（アバター画像）をライブ配信し、別の視聴ユーザがライブ配信画像を視聴する環境を実現する。情報処理システム１は、配信ユーザが利用する情報処理装置１０と、管理サーバ３と、共有サーバ４と、視聴ユーザが利用する各種の端末装置１８ａ、１８ｂを備え、これらはインターネットやＬＡＮ（Local Area Network）、電話網などのネットワーク２を介して接続している。アクセスポイント（以下、「ＡＰ」とよぶ）１７は、無線アクセスポイントおよびルータの機能を有し、情報処理装置１０は、無線または有線経由でＡＰ１７に接続して、ネットワーク２上の管理サーバ３、共有サーバ４と通信可能に接続する。端末装置１８ａはＡＰ５を介して共有サーバ４に接続し、端末装置１８ｂは基地局６を介して共有サーバ４に接続する。

管理サーバ３は情報処理装置１０のユーザＡに対してゲームのネットワークサービスを提供する。管理サーバ３はユーザを識別するネットワークアカウントを管理しており、ユーザＡは、ネットワークアカウントを用いて、管理サーバ３が提供するネットワークサービスにサインインする。ユーザＡは情報処理装置１０からネットワークサービスにサインインすることで、管理サーバ３に、ゲームのセーブデータや、またゲームプレイ中に獲得した仮想的な表彰品（トロフィ）を登録でき、また共有サーバ４にゲーム画像をストリーミング配信できるようになる。

実施例の情報処理システム１は、さらにヘッドマウントディスプレイ（ＨＭＤ）１００と、ユーザが手指で操作する入力装置１６と、ＨＭＤ１００を装着したユーザを撮影する撮像装置１４と、画像および音声を出力する出力装置１５を備える。出力装置１５はテレビであってよい。ＨＭＤ１００はユーザの頭部に装着されて仮想現実（ＶＲ）の映像世界をユーザに提供する。ＨＭＤ１００にヘッドトラッキング機能をもたせ、ユーザの頭部の動きに連動して表示画像を更新することで、映像世界への没入感を高められる。

情報処理装置１０は、処理装置１１、出力制御装置１２および記憶装置１３を備える。処理装置１１は、ユーザにより入力装置１６に入力された操作情報を受け付けて、ゲームなどのアプリケーションを実行する端末装置である。処理装置１１と入力装置１６とはケーブルで接続されてよく、また既知の無線通信プロトコルで接続されてもよい。出力制御装置１２は、処理装置１１で生成された画像データおよび音声データをＨＭＤ１００に出力する処理ユニットであり、出力制御装置１２とＨＭＤ１００とはケーブルで接続されてよく、また既知の無線通信プロトコルで接続されてもよい。

入力装置１６はゲームコントローラなど、ユーザの操作情報を処理装置１１に供給する機器である。入力装置１６は複数のプッシュ式の操作ボタンや、アナログ量を入力できるアナログスティック、回動式ボタンなどの複数の入力部を有する。実施例の入力装置１６は、共有処理を開始するための「ＳＨＡＲＥボタン」と呼ばれるプッシュ式操作ボタンを有して構成される。

撮像装置１４はステレオカメラであって、ＨＭＤ１００を装着したユーザを所定の周期で撮影し、撮影画像を処理装置１１に供給する。ＨＭＤ１００にはユーザ頭部をトラッキングするためのマーカ（トラッキング用ＬＥＤ）が設けられ、処理装置１１は、撮影画像に含まれるマーカの位置にもとづいてＨＭＤ１００の動きを検出する。なおＨＭＤ１００には姿勢センサ（加速度センサおよびジャイロセンサ）が搭載され、処理装置１１は、姿勢センサで検出されたセンサデータをＨＭＤ１００から取得することで、マーカの撮影画像の利用とあわせて、高精度のトラッキング処理を実施する。なおトラッキング処理については従来より様々な手法が提案されており、処理装置１１はＨＭＤ１００の動きを検出できるのであれば、どのようなトラッキング手法を採用してもよい。

ユーザＡはＨＭＤ１００で画像を見るため、ＨＭＤ１００を装着したユーザにとって出力装置１５は必ずしも必要ではないが、出力装置１５を用意することで、別のユーザが出力装置１５の表示画像を見ることができる。出力制御装置１２または処理装置１１は、ＨＭＤ１００を装着したユーザが見ている画像と同じ画像を出力装置１５に表示させてもよいが、別の画像を表示させてもよい。たとえばＨＭＤ１００を装着したユーザと、別のユーザとが一緒にゲームをプレイするような場合、出力装置１５からは、当該別のユーザのオブジェクト（キャラクタ）視点からのゲーム画像が表示されてもよい。

ＨＭＤ１００は、ユーザが頭部に装着することによりその眼前に位置する表示パネルに画像を表示する表示装置である。ＨＭＤ１００は、左目用表示パネルに左目用の画像を、右目用表示パネルに右目用の画像を、それぞれ別個に表示する。これらの画像は左右の視点から見た視差画像を構成し、立体視を実現する。なおユーザは光学レンズを通して表示パネルを見るため、情報処理装置１０は、レンズによる光学歪みを補正した視差画像データをＨＭＤ１００に供給する。この光学歪みの補正処理は、処理装置１１、出力制御装置１２のいずれが行ってもよい。

処理装置１１、記憶装置１３、出力装置１５、入力装置１６および撮像装置１４は、従来型のゲームシステムを構築してよい。この場合、処理装置１１はゲームを実行するゲーム装置であり、入力装置１６はゲームコントローラ、キーボード、マウス、ジョイスティックなど、処理装置１１にユーザによる操作情報を供給する機器である。記憶装置１３は、システムソフトウェアやゲームソフトウェアなどを記憶している。このゲームシステムの構成要素に、出力制御装置１２およびＨＭＤ１００を追加することで、仮想３次元空間のＶＲ画像をＨＭＤ１００に提供する情報処理システム１が構築される。

なお出力制御装置１２による機能は、処理装置１１に組み込まれてもよい。つまり情報処理装置１０の処理ユニットは、１台の処理装置１１から構成されても、また処理装置１１および出力制御装置１２から構成されてもよい。

情報処理装置１０は、ＨＭＤ１００の姿勢センサが検出したセンサデータから、ＨＭＤ１００の位置座標および姿勢を検出でき、さらに撮像装置１４で撮影したＨＭＤ１００のマーカ（トラッキング用ＬＥＤ）を画像解析することで、高精度にＨＭＤ１００の位置座標および姿勢を検出できる。たとえばユーザがゲーム空間内でプレイヤキャラクタを操作するゲームの場合、情報処理装置１０は、ＨＭＤ１００の位置情報をもとにプレイヤキャラクタの仮想３次元空間内の位置を算出し、ＨＭＤ１００の姿勢情報をもとにプレイヤキャラクタの視線方向を算出してもよい。なおＨＭＤ１００を装着したユーザは周囲の状況を目視できないため、基本的には移動しないことが好ましく、仮想３次元空間内におけるプレイヤキャラクタの移動は、入力装置１６の操作情報により行われてよい。

実施例の情報処理装置１０は、共有サーバ４にプレイ中のゲーム画音をストリーミング配信することで、共有サーバ４にアクセスする端末装置１８ａ、１８ｂがゲーム画音をライブ試聴できる。このように実施例における情報処理システム１は、ゲーム画音データの配信システムとして動作する。

図２は、ＨＭＤ１００の外観形状の例を示す。ＨＭＤ１００は、出力機構部１０２および装着機構部１０４から構成される。装着機構部１０４は、ユーザが被ることにより頭部を一周してＨＭＤ１００を頭部に固定する装着バンド１０６を含む。装着バンド１０６はユーザの頭囲に合わせて長さの調節が可能な素材または構造をもつ。

出力機構部１０２は、ＨＭＤ１００をユーザが装着した状態において左右の目を覆う形状の筐体１０８を含み、内部には装着時に目に正対する表示パネルを備える。表示パネルは液晶パネルや有機ＥＬパネルなどであってよい。筐体１０８内部にはさらに、表示パネルとユーザの目との間に位置し、ユーザの視野角を拡大する左右一対の光学レンズが備えられる。ＨＭＤ１００はさらに、ユーザの耳に対応する位置にスピーカーやイヤホンを備えてよく、外付けのヘッドホンが接続されるように構成されてもよい。

筐体１０８の外面には、発光マーカ１１０ａ、１１０ｂ、１１０ｃ、１１０ｄが備えられる。この例ではトラッキング用ＬＥＤが発光マーカ１１０を構成するが、その他の種類のマーカであってよく、いずれにしても撮像装置１４により撮影されて、情報処理装置１０がマーカ位置を画像解析できるものであればよい。発光マーカ１１０の数や配置は特に限定されないが、ＨＭＤ１００の姿勢を検出できるための数および配置である必要があり、図示した例では筐体１０８の前面の４隅に設けているが、さらに中央部分に設けてもよい。

ＨＭＤ１００は、情報処理装置１０にケーブルで接続されても、既知の無線通信プロトコルで接続されてもよい。ＨＭＤ１００は、姿勢センサが検出したセンサデータを情報処理装置１０に送信し、また情報処理装置１０で生成されたゲーム画音データを受信して、左目用表示パネルおよび右目用表示パネルに表示するとともに、イヤホンから音声出力する。

図３は、ストリーミングデータの配信装置として動作する情報処理装置１０の構成を示す。情報処理装置１０は、通信部１９０、受付部１９２および処理部２００を備え、処理部２００は、実行部２０２および共有処理部２１０を有する。共有処理部２１０は、設定画像生成部２１２、ゲーム画音取得部２１４、カメラ画像処理部２１６、表示画像生成部２１８、エンコード部２２０および出力部２２２を有する。

図３において、さまざまな処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、回路ブロック、メモリ、その他のＬＳＩで構成することができ、ソフトウェア的には、システムソフトウェアや、メモリにロードされたゲームプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。

実行部２０２はゲームソフトウェア（以下、単に「ゲーム」とも呼ぶこともある）を実行して、ゲームの画像データおよび音声データを生成する。上記したように実行部２０２として示す機能は、システムソフトウェア、ゲームソフトウェア、ＧＰＵなどのハードウェアなどにより実現される。なお実施例においてゲームは、アプリケーションの一例であり、実行部２０２は、ゲーム以外のアプリケーションを実行してもよい。

ユーザＡによるゲームプレイ中、実行部２０２は、ユーザＡにより入力装置１６に入力された操作情報をもとに、仮想空間においてゲームキャラクタを動かす演算処理を行う。実行部２０２は、レンダリング処理などを実行するＧＰＵ（Graphics Processing Unit）を含み、仮想空間における演算処理結果を受けて、仮想空間内の視点位置（仮想カメラ）からのゲーム画像データを生成する。また実行部２０２は、仮想空間内の視点位置におけるゲーム音声データを生成する。

図４は、ＨＭＤ１００に表示されるゲーム画面の一例を示す。ユーザＡのゲームプレイ中、実行部２０２が、ＨＭＤ１００に出力するゲーム画像データおよびゲーム音声データ（あわせて「ゲーム画音データ」と呼ぶ）を生成し、通信部１９０が、ゲーム画音データをＨＭＤ１００に送信し、ゲーム画音がＨＭＤ１００において出力される。

実施例の共有処理部２１０は、ユーザＡがプレイ中のゲームの画音データを他のユーザと共有するための処理を実施する。この共有処理は、ユーザＡが入力装置１６に設けられた特定の入力部（ＳＨＡＲＥボタン）を操作したことを契機として実行される。

ゲームプレイ中、受付部１９２が、ユーザＡの入力装置１６からＳＨＡＲＥボタンの操作情報を受け付けると、共有処理部２１０は、ゲーム画音データを共有サーバ４にストリーミング配信するための共有処理を開始する。まず最初に共有処理部２１０は、ゲーム画音データの共有に関する選択肢を示す入力画像を生成する。

図５は、共有処理の選択肢を示す入力画面の一例を示す。設定画像生成部２１２が、選択肢を示す入力画像を生成して、ＨＭＤ１００の表示パネルに表示させる。この入力画面において、画音データの共有に関する３つの選択肢が示される。“ビデオクリップをアップロードする”は、記憶装置１３に記録された画像を共有サーバ４にアップロードすることを指定するためのＧＵＩ、“スクリーンショットをアップロードする”は、スクリーンショットの画像を共有サーバ４にアップロードすることを指定するためのＧＵＩ、“ゲームプレイをブロードキャストする”は、ゲームの画音データを共有サーバ４を介してライブ中継することを指定するためのＧＵＩである。ユーザＡは入力装置１６を操作して枠１８０を動かし、いずれかのＧＵＩを選択して決定ボタンを押すことで、選択した共有処理が実行される。

図６は、“ゲームプレイをブロードキャストする”が選択された場合に表示される設定画面の一例を示す。この設定画面には、ブロードキャストの態様を設定するための項目が含まれる。実施例ではユーザＡが“カメラの映像をブロードキャストに含める”ことに同意し、したがってゲームの画音データとともに、撮像装置１４により撮影された映像データが配信される。“カメラの映像をブロードキャストに含める”のチェックボックスが選択されると、ユーザがＨＭＤ装着時に、ユーザの顔画像の代わりにアバターを表示することを設定するためのチェックボックスが表示される。

ユーザがＨＭＤ１００を装着していると、両眼と鼻は筐体１０８により覆われる。そこで実施例の情報処理装置１０では、ユーザＡが“ＨＭＤ装着時はアバターを表示する”のチェックボックスを選択すると、カメラ画像処理部２１６が、ＨＭＤ１００を装着したユーザの表情を推定して、推定した表情に応じたアバターの表情画像を生成し、カメラ映像に合成した映像を、ライブ配信画像に含めるようにする。以下では“ＨＭＤ装着時はアバターを表示する”が選択されたことを前提とするが、選択されなければ、ＨＭＤ１００を装着したユーザの撮影画像がライブ配信画像に含まれることになる。ユーザが枠１８２を“ブロードキャストをはじめる”に配置して入力装置１６の決定ボタンを押すと、受付部１９２が、ブロードキャストの開始を共有処理部２１０に通知する。

ブロードキャストが開始されると、ゲーム画音取得部２１４が、実行部２０２からゲーム画音データを取得する。またカメラ画像処理部２１６は、ＨＭＤ１００を装着したユーザの撮影画像をもとに、アバター画像を生成して、撮影画像に合成する処理を行う。なおブロードキャストが開始されると、表示画像生成部２１８が、設定画面で設定された情報にしたがった画面レイアウトで、ライブ配信画像を生成する。なおライブ配信画像は、ＨＭＤ１００にも供給され、したがって配信ユーザと視聴ユーザとは、同じライブ配信画像を視聴することになる。

図７は、ライブ配信画像の一例を示す。ストリーミング配信が開始されると、表示画像生成部２１８は、図７に示す画面レイアウトにしたがって表示画像を生成する。図７に示す画面例において、プレイ画像表示領域３００には、ゲームのプレイ画像が表示される。カメラ画像表示領域３０２には、撮像装置１４で撮影された撮影画像に、アバターの表情画像が合成された画像が表示される。

コメント表示領域３０４には、視聴ユーザからのコメントが表示される。なお視聴ユーザは、端末装置１８からコメントを入力でき、入力されたコメントは、共有サーバ４を経由して情報処理装置１０に送信されるようになっている。メッセージ表示領域３０６には、ユーザＡが視聴ユーザ宛に入力するメッセージが表示される。これによりユーザＡと視聴ユーザは、互いにコミュニケーションをとることが可能となる。

以下、カメラ画像表示領域３０２に表示する合成画像を生成する構成について説明する。
＜実施例１＞
図８は、カメラ画像処理部２１６の構成を示す。カメラ画像処理部２１６は、カメラ画像取得部２５０、位置特定部２５２、表情推定部２５４、表情画像生成部２５６、表情画像データベース（ＤＢ）２６０およびアバター画像ＤＢ２６２を有する。表情画像ＤＢ２６０は、ユーザの撮影画像とマッチング処理を行うための複数の表情画像データを記憶し、アバター画像ＤＢ２６２は、ユーザの撮影画像に合成するためのアバター画像を記憶する。表情画像ＤＢ２６０およびアバター画像ＤＢ２６２は、記憶装置１３に構成されてよい。

カメラ画像取得部２５０は、ＨＭＤ１００を装着したユーザを撮像した撮影画像を、撮像装置１４から取得する。
図９は、撮影画像の一例を示す。ＨＭＤ１００の前面において、トラッキング用に設けられた発光マーカ１１０ａ、１１０ｂ、１１０ｃ、１１０ｄが点灯している。位置特定部２５２は、撮影画像から所定色で発光する発光マーカ１１０ａ、１１０ｂ、１１０ｃ、１１０ｄを検出すると、ユーザがＨＭＤ１００を装着していることを判定するとともに、ＨＭＤ１００の位置を特定する。位置特定部２５２は、ＨＭＤ１００の位置を特定すると、特定したＨＭＤ１００の位置から、顔の位置および大きさを推定して、ユーザの口の画像を特定する。

実施例のＨＭＤ１００の筐体１０８は、ユーザの目と鼻を覆うように構成されており、したがって筐体１０８の下端の下側にはユーザの口が撮影されていることが予想される。そこで位置特定部２５２はＨＭＤ１００の位置を特定すると、その下側で口の画像を探索するようにプログラムされている。

表情推定部２５４は、撮影画像に含まれるユーザの口の画像から、ユーザの表情を推定する。表情画像ＤＢ２６０は、様々な口の形状の特徴点（口形状データ）と、感情データとを対応付けて記憶している。たとえば表情画像ＤＢ２６０は、口形状データと感情データとの対応関係を機械学習した結果を保持する。

なお感情データは、複数種類の感情を感情番号で表現したデータであってよい。たとえば感情番号１は喜び、感情番号２は怒り、感情番号３は哀しみ、感情番号４は楽しみ、感情番号５は愛しみ、感情番号６は憎しみ、感情番号７は驚き、などのように設定されていてよい。感情は表情に反映されるものであるため、感情番号を特定することは、ユーザの表情を推定することに等しい。

表情推定部２５４は、撮影画像に含まれる口の画像から、口の形状の特徴点を抽出し、表情画像ＤＢ２６０に記録された口形状データとマッチング処理を行う。表情推定部２５４は、表情画像ＤＢ２６０に記録された口形状データとのマッチングスコアを算出し、最も高いスコア値を導出した口形状データに対応付けられている感情番号を特定する。なおマッチング処理は、機械学習など、様々な手法を用いてよい。

アバター画像ＤＢ２６２は、感情番号ごとにアバターの表情画像を記憶する。表情画像は、静止画であってもよいが、動画像であってもよい。アバターは、ユーザが自由に選択できることが好ましい。表情画像生成部２５６は、表情推定部２５４が推定したユーザの表情（感情）に応じたアバターの表情画像をアバター画像ＤＢ２６２から読み出して、ユーザの表情画像を生成する。具体的に表情画像生成部２５６は、位置特定部２５２により推定されたユーザの顔の位置および大きさをもとに、アバターの表情画像を、ユーザの推定される顔の位置および大きさに合わせて撮影画像に重畳した合成画像を生成する。表情画像生成部２５６は、合成画像を表示画像生成部２１８に供給する。これにより表示画像生成部２１８は、図７に示すように、カメラ画像表示領域３０２に、合成画像をはめ込み、ライブ配信画像を生成する。エンコード部２２０は、ライブ配信画像をエンコードし、出力部２２２は、アバターの表情画像を含むライブ配信画像を、共有サーバ４に出力する。

以上の実施例１では、表情画像ＤＢ２６０が、様々な口形状データと感情データとを対応付けて記憶しており、表情推定部２５４が、撮影されたユーザの口の形状から、ユーザの表情を推定した。以下に示す実施例２，３では、マッチング処理における情報量を増やすことを目的として、口ではなく顔画像全体のマッチング処理を実施する。以下に示す実施例２，３において、表情画像ＤＢ２６０が少なくとも、顔全体画像から抽出した特徴点データ（顔表情画像データ）と感情データとを対応付けて記憶している。

＜実施例２＞
図１０は、図９に示す撮影画像に、表情画像３１０を合成した画像を示す。表情画像３１０は、所定の標準画像であって、顔の口より上側の画像である。表情画像３１０は、ユーザＡを事前に撮影した画像であってもよいが、システム側で用意した他人の画像であってよい。なお表情画像３１０は、可能な限り無表情な画像であることが好ましい。

表情推定部２５４は、位置特定部２５２により推定されたユーザの顔の位置および大きさをもとに、表情画像３１０を、ユーザの推定される顔の位置および大きさに合わせて撮影画像に重畳した合成画像を生成する。つまり表情推定部２５４は、ユーザの口を含む顔の下側の画像に、少なくとも目を含む顔の上側の所定の画像をつなぎあわせた合成画像を生成する。表情推定部２５４は、図１０に示す顔画像から、顔に含まれる目や口などのパーツや、顔の形などの特徴点を抽出し、表情画像ＤＢ２６０に含まれる複数の顔表情画像データとマッチング処理を行うことで、ユーザの表情を推定する。実施例２によれば、口の形状だけでなく、顔全体の特徴点を利用したマッチング処理を行うことで、マッチング精度を高めることができる。特に表情画像ＤＢ２６０が、顔全体の画像の機械学習結果を予め保持している場合には、表情画像３１０を合成した画像を用いることで、マッチング精度を飛躍的に高めることができる。

＜実施例３＞
図１１は、図９に示す撮影画像に、表情画像３１２を合成した画像を示す。表情画像３１２は、感情を表現した所定の標準画像であって、表情画像３１０と同じく、顔の口より上側の画像である。表情画像３１２は、ユーザＡの顔をそれぞれの感情を表現した状態で事前に撮影した画像であってもよいが、システム側で感情ごとに用意した他人の画像であってよい。

表情推定部２５４は、位置特定部２５２により推定されたユーザの顔の位置および大きさをもとに、表情画像３１２を、ユーザの推定される顔の位置および大きさに合わせて撮影画像に重畳した合成画像を生成する。実施例３で表情推定部２５４は、２段階の表情推定処理を実施する。１段階目は、実施例１で説明したように、口の形状の特徴点を用いてユーザの表情（感情）を推定する。表情推定部２５４は、このとき導出した感情番号をもとに、表情画像ＤＢ２６０に記憶されている、推定された感情を表現している表情画像３１２を読み出す。これにより表情推定部２５４は、図１１に示すように、ユーザの口を含む顔の下側の画像に、少なくとも目を含む顔の上側の表情画像３１２をつなぎあわせた合成画像を生成する。たとえば図１１に示す表情画像３１２は、驚きを表現する標準画像であるが、表情画像ＤＢ２６０は、他の感情を表現する標準画像も記憶しており、表情推定部２５４は、１段階目で推定される感情に応じた標準画像を、ユーザの口を含む下側の画像に組み合わせる。

次に２段階目として、表情推定部２５４は、図１１に示す顔画像から、顔に含まれる目や口などのパーツや、顔の形などの特徴点を抽出し、表情画像ＤＢ２６０に含まれる複数の顔表情画像データとマッチング処理を行うことで、ユーザの表情を推定する。実施例３によれば、表情推定部２５４は、２段階の表情推定を行うことで、マッチング精度を高められる。特に表情画像ＤＢ２６０が、顔全体の画像の機械学習結果を保持している場合には、表情画像３１２を合成した画像を用いることで、マッチング精度を飛躍的に高めることができる。

以上、本発明を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

実施例１〜３では、情報処理装置１０がユーザの表情を推定して、推定したユーザの表情に応じた表情画像を生成することを説明したが、この表示画像生成処理は、共有サーバ４において実施されてもよい。この場合は、共有サーバ４が情報処理装置として機能し、情報処理装置１０から取得した撮影画像をもとに、ユーザの表情画像を生成してよい。なお情報処理システム１は、共有サーバ４ないしは別のサーバ装置を備えて、情報処理装置１０とサーバ装置との間で、表示画像生成処理の作業を分担してもよい。たとえばマッチング処理はサーバ装置で行って、サーバ装置がマッチング結果を情報処理装置１０に返すようにしてもよい。

また実施例２，３において、表情推定部２５４が、他人の顔の上側を撮影した表情画像３１０、３１２を合成することを説明したが、ユーザＡの人種や性別などを基準として、表情画像３１０、３１２が表情画像ＤＢ２６０から選択されてもよい。

１・・・情報処理システム、４・・・共有サーバ、１０・・・情報処理装置、１１・・・処理装置、１２・・・出力制御装置、１３・・・記憶装置、１４・・・撮像装置、１５・・・出力装置、１６・・・入力装置、１００・・・ＨＭＤ、１１０・・・発光マーカ、１９０・・・通信部、１９２・・・受付部、２００・・・処理部、２０２・・・実行部、２１０・・・共有処理部、２１２・・・設定画像生成部、２１４・・・ゲーム画音取得部、２１６・・・カメラ画像処理部、２１８・・・表示画像生成部、２２０・・・エンコード部、２２２・・・出力部、２５０・・・カメラ画像取得部、２５２・・・位置特定部、２５４・・・表情推定部、２５６・・・表情画像生成部、２６０・・・表情画像ＤＢ、２６２・・・アバター画像ＤＢ。

Claims

ヘッドマウントディスプレイを装着したユーザを撮像した撮影画像を取得する画像取得部と、
撮影画像に含まれるユーザの口の画像から、ユーザの表情を推定する表情推定部と、
推定したユーザの表情に応じた表情画像を生成する表情画像生成部と、
表情画像を含む画像を出力する出力部と、
を備えることを特徴とする情報処理装置。
撮影画像から口の画像を特定する位置特定部をさらに備え、
前記位置特定部は、ヘッドマウントディスプレイの位置を特定し、特定したヘッドマウントディスプレイの位置から、口の画像を特定する、
ことを特徴とする請求項１に記載の情報処理装置。
前記表情推定部は、ユーザの口を含む顔の下側の画像に、少なくとも目を含む顔の上側の所定の画像を合成した合成画像を用いて、複数の顔表情画像データとマッチング処理を行うことで、ユーザの表情を推定する、
ことを特徴とする請求項１または２に記載の情報処理装置。
前記表情推定部は、ユーザの口を含む顔の下側の画像に、ユーザの口の画像から推定された表情に応じた顔の上側の画像を合成した合成画像を用いて、複数の顔表情画像データとマッチング処理を行うことで、ユーザの表情を推定する、
ことを特徴とする請求項１または２に記載の情報処理装置。
端末装置とサーバ装置を含む情報処理システムであって、
ヘッドマウントディスプレイを装着したユーザを撮像した撮影画像を取得する画像取得部と、
撮影画像に含まれるユーザの口の画像から、ユーザの表情を推定する表情推定部と、
推定したユーザの表情に応じた表情画像を生成する処理部と、
表情画像を含む画像を出力する出力部と、
を備えることを特徴とする情報処理システム。
ヘッドマウントディスプレイを装着したユーザを撮像した撮影画像を取得するステップと、
撮影画像に含まれるユーザの口の画像から、ユーザの表情を推定するステップと、
推定したユーザの表情に応じた表情画像を生成するステップと、
表情画像を含む画像を出力するステップと、
を備えることを特徴とする表情画像出力方法。
コンピュータに、
ヘッドマウントディスプレイを装着したユーザを撮像した撮影画像を取得する機能と、
撮影画像に含まれるユーザの口の画像から、ユーザの表情を推定する機能と、
推定したユーザの表情に応じた表情画像を生成する機能と、
表情画像を含む画像を出力する機能と、
を実現させるためのプログラム。