JP2019087226A - 情報処理装置、情報処理システムおよび表情画像出力方法 - Google Patents

情報処理装置、情報処理システムおよび表情画像出力方法 Download PDF

Info

Publication number
JP2019087226A
JP2019087226A JP2018101621A JP2018101621A JP2019087226A JP 2019087226 A JP2019087226 A JP 2019087226A JP 2018101621 A JP2018101621 A JP 2018101621A JP 2018101621 A JP2018101621 A JP 2018101621A JP 2019087226 A JP2019087226 A JP 2019087226A
Authority
JP
Japan
Prior art keywords
image
user
expression
facial expression
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018101621A
Other languages
English (en)
Inventor
大輔 中田
Daisuke Nakada
大輔 中田
ジゲン ジョウ
Jigen Zhou
ジゲン ジョウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Sony Interactive Entertainment LLC
Original Assignee
Sony Interactive Entertainment Inc
Sony Interactive Entertainment LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc, Sony Interactive Entertainment LLC filed Critical Sony Interactive Entertainment Inc
Publication of JP2019087226A publication Critical patent/JP2019087226A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/0138Head-up displays characterised by optical features comprising image capture systems, e.g. camera

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Optics & Photonics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

【課題】プレイヤの表情を推定して、推定した表情に応じた表情画像を生成する技術を提供する。【解決手段】カメラ画像取得部250は、HMDを装着したユーザを撮影した撮影画像を取得する。位置特定部252は、撮影画像におけるHMDの位置を特定し、特定したHMDの位置から、口の画像を特定する。表情推定部254は、ユーザの口の画像から、ユーザの表情を推定する。表情画像生成部256は、推定したユーザの表情に応じた表情画像を生成する。出力部は、表情画像を含むライブ配信画像を共有サーバに出力する。【選択図】図8

Description

本発明は、顔の表情を推定する技術に関する。
ユーザがプレイ中のゲーム画像を、共有サイトを介して複数の視聴ユーザにブロードキャスト配信するサービスが普及している。特許文献1は、プレイ中のゲーム画像を含むライブ配信画像を、視聴ユーザにブロードキャスト配信する共有処理を開示する。プレイヤはゲーム画像とともに、自身がゲームをプレイしている様子を撮影したカメラ画像も配信できる。
国際公開第2014/068806号
ヘッドマウントディスプレイ(HMD)はユーザの視野全体に画像を提供し、映像世界への没入感を高める。ヘッドトラッキング機能により映像世界への没入感をさらに高められることから、近年ではHMDを用いたゲームプレイが人気を博している。
HMDは両眼と鼻を覆うように顔に装着されるため、プレイヤの撮影画像をライブ配信画像に含めても、プレイヤの顔の表情の大部分は隠れてしまう。ライブ配信画像にプレイヤの撮影画像が含まれている場合、プレイヤの表情を見ることも視聴ユーザの楽しみの一つであるため、プレイヤの表情を何らかの形で表現できることが好ましい。
そこで本発明は、プレイヤの表情を推定して、推定した表情に応じた表情画像を生成する技術を提供することを目的とする。
上記課題を解決するために、本発明のある態様の情報処理装置は、ヘッドマウントディスプレイを装着したユーザを撮像した撮影画像を取得する画像取得部と、撮影画像に含まれるユーザの口の画像から、ユーザの表情を推定する表情推定部と、推定したユーザの表情に応じた表情画像を生成する表情画像生成部と、表情画像を含む画像を出力する出力部とを備える。
本発明の別の態様は、端末装置とサーバ装置を含む情報処理システムである。この情報処理システムは、ヘッドマウントディスプレイを装着したユーザを撮像した撮影画像を取得する画像取得部と、撮影画像に含まれるユーザの口の画像から、ユーザの表情を推定する表情推定部と、推定したユーザの表情に応じた表情画像を生成する処理部と、表情画像を含む画像を出力する出力部とを備える。
本発明のさらに別の態様は、表情画像出力方法である。この方法は、ヘッドマウントディスプレイを装着したユーザを撮像した撮影画像を取得するステップと、撮影画像に含まれるユーザの口の画像から、ユーザの表情を推定するステップと、推定したユーザの表情に応じた表情画像を生成するステップと、表情画像を含む画像を出力するステップと、を備える。
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
本発明によると、プレイヤの表情を推定して、推定した表情に応じた表情画像を生成する技術を提供する。
本発明の実施例にかかる情報処理システムを示す図である。 HMDの外観形状の例を示す図である。 情報処理装置の構成を示す図である。 HMDに表示されるゲーム画面の一例を示す図である。 共有処理の選択肢を示す入力画面の一例を示す図である。 設定画面の一例を示す図である。 ライブ配信画像の一例を示す図である。 カメラ画像処理部の構成を示す図である。 撮影画像の一例を示す図である。 撮影画像に表情画像を合成した画像を示す図である。 撮影画像に表情画像を合成した画像を示す図である。
図1は、本発明の実施例にかかる情報処理システム1を示す。情報処理システム1は、配信主となるユーザAがプレイ中のゲーム画像とともに、ユーザAを撮影した画像をもとに生成した画像(アバター画像)をライブ配信し、別の視聴ユーザがライブ配信画像を視聴する環境を実現する。情報処理システム1は、配信ユーザが利用する情報処理装置10と、管理サーバ3と、共有サーバ4と、視聴ユーザが利用する各種の端末装置18a、18bを備え、これらはインターネットやLAN(Local Area Network)、電話網などのネットワーク2を介して接続している。アクセスポイント(以下、「AP」とよぶ)17は、無線アクセスポイントおよびルータの機能を有し、情報処理装置10は、無線または有線経由でAP17に接続して、ネットワーク2上の管理サーバ3、共有サーバ4と通信可能に接続する。端末装置18aはAP5を介して共有サーバ4に接続し、端末装置18bは基地局6を介して共有サーバ4に接続する。
管理サーバ3は情報処理装置10のユーザAに対してゲームのネットワークサービスを提供する。管理サーバ3はユーザを識別するネットワークアカウントを管理しており、ユーザAは、ネットワークアカウントを用いて、管理サーバ3が提供するネットワークサービスにサインインする。ユーザAは情報処理装置10からネットワークサービスにサインインすることで、管理サーバ3に、ゲームのセーブデータや、またゲームプレイ中に獲得した仮想的な表彰品(トロフィ)を登録でき、また共有サーバ4にゲーム画像をストリーミング配信できるようになる。
実施例の情報処理システム1は、さらにヘッドマウントディスプレイ(HMD)100と、ユーザが手指で操作する入力装置16と、HMD100を装着したユーザを撮影する撮像装置14と、画像および音声を出力する出力装置15を備える。出力装置15はテレビであってよい。HMD100はユーザの頭部に装着されて仮想現実(VR)の映像世界をユーザに提供する。HMD100にヘッドトラッキング機能をもたせ、ユーザの頭部の動きに連動して表示画像を更新することで、映像世界への没入感を高められる。
情報処理装置10は、処理装置11、出力制御装置12および記憶装置13を備える。処理装置11は、ユーザにより入力装置16に入力された操作情報を受け付けて、ゲームなどのアプリケーションを実行する端末装置である。処理装置11と入力装置16とはケーブルで接続されてよく、また既知の無線通信プロトコルで接続されてもよい。出力制御装置12は、処理装置11で生成された画像データおよび音声データをHMD100に出力する処理ユニットであり、出力制御装置12とHMD100とはケーブルで接続されてよく、また既知の無線通信プロトコルで接続されてもよい。
入力装置16はゲームコントローラなど、ユーザの操作情報を処理装置11に供給する機器である。入力装置16は複数のプッシュ式の操作ボタンや、アナログ量を入力できるアナログスティック、回動式ボタンなどの複数の入力部を有する。実施例の入力装置16は、共有処理を開始するための「SHAREボタン」と呼ばれるプッシュ式操作ボタンを有して構成される。
撮像装置14はステレオカメラであって、HMD100を装着したユーザを所定の周期で撮影し、撮影画像を処理装置11に供給する。HMD100にはユーザ頭部をトラッキングするためのマーカ(トラッキング用LED)が設けられ、処理装置11は、撮影画像に含まれるマーカの位置にもとづいてHMD100の動きを検出する。なおHMD100には姿勢センサ(加速度センサおよびジャイロセンサ)が搭載され、処理装置11は、姿勢センサで検出されたセンサデータをHMD100から取得することで、マーカの撮影画像の利用とあわせて、高精度のトラッキング処理を実施する。なおトラッキング処理については従来より様々な手法が提案されており、処理装置11はHMD100の動きを検出できるのであれば、どのようなトラッキング手法を採用してもよい。
ユーザAはHMD100で画像を見るため、HMD100を装着したユーザにとって出力装置15は必ずしも必要ではないが、出力装置15を用意することで、別のユーザが出力装置15の表示画像を見ることができる。出力制御装置12または処理装置11は、HMD100を装着したユーザが見ている画像と同じ画像を出力装置15に表示させてもよいが、別の画像を表示させてもよい。たとえばHMD100を装着したユーザと、別のユーザとが一緒にゲームをプレイするような場合、出力装置15からは、当該別のユーザのオブジェクト(キャラクタ)視点からのゲーム画像が表示されてもよい。
HMD100は、ユーザが頭部に装着することによりその眼前に位置する表示パネルに画像を表示する表示装置である。HMD100は、左目用表示パネルに左目用の画像を、右目用表示パネルに右目用の画像を、それぞれ別個に表示する。これらの画像は左右の視点から見た視差画像を構成し、立体視を実現する。なおユーザは光学レンズを通して表示パネルを見るため、情報処理装置10は、レンズによる光学歪みを補正した視差画像データをHMD100に供給する。この光学歪みの補正処理は、処理装置11、出力制御装置12のいずれが行ってもよい。
処理装置11、記憶装置13、出力装置15、入力装置16および撮像装置14は、従来型のゲームシステムを構築してよい。この場合、処理装置11はゲームを実行するゲーム装置であり、入力装置16はゲームコントローラ、キーボード、マウス、ジョイスティックなど、処理装置11にユーザによる操作情報を供給する機器である。記憶装置13は、システムソフトウェアやゲームソフトウェアなどを記憶している。このゲームシステムの構成要素に、出力制御装置12およびHMD100を追加することで、仮想3次元空間のVR画像をHMD100に提供する情報処理システム1が構築される。
なお出力制御装置12による機能は、処理装置11に組み込まれてもよい。つまり情報処理装置10の処理ユニットは、1台の処理装置11から構成されても、また処理装置11および出力制御装置12から構成されてもよい。
情報処理装置10は、HMD100の姿勢センサが検出したセンサデータから、HMD100の位置座標および姿勢を検出でき、さらに撮像装置14で撮影したHMD100のマーカ(トラッキング用LED)を画像解析することで、高精度にHMD100の位置座標および姿勢を検出できる。たとえばユーザがゲーム空間内でプレイヤキャラクタを操作するゲームの場合、情報処理装置10は、HMD100の位置情報をもとにプレイヤキャラクタの仮想3次元空間内の位置を算出し、HMD100の姿勢情報をもとにプレイヤキャラクタの視線方向を算出してもよい。なおHMD100を装着したユーザは周囲の状況を目視できないため、基本的には移動しないことが好ましく、仮想3次元空間内におけるプレイヤキャラクタの移動は、入力装置16の操作情報により行われてよい。
実施例の情報処理装置10は、共有サーバ4にプレイ中のゲーム画音をストリーミング配信することで、共有サーバ4にアクセスする端末装置18a、18bがゲーム画音をライブ試聴できる。このように実施例における情報処理システム1は、ゲーム画音データの配信システムとして動作する。
図2は、HMD100の外観形状の例を示す。HMD100は、出力機構部102および装着機構部104から構成される。装着機構部104は、ユーザが被ることにより頭部を一周してHMD100を頭部に固定する装着バンド106を含む。装着バンド106はユーザの頭囲に合わせて長さの調節が可能な素材または構造をもつ。
出力機構部102は、HMD100をユーザが装着した状態において左右の目を覆う形状の筐体108を含み、内部には装着時に目に正対する表示パネルを備える。表示パネルは液晶パネルや有機ELパネルなどであってよい。筐体108内部にはさらに、表示パネルとユーザの目との間に位置し、ユーザの視野角を拡大する左右一対の光学レンズが備えられる。HMD100はさらに、ユーザの耳に対応する位置にスピーカーやイヤホンを備えてよく、外付けのヘッドホンが接続されるように構成されてもよい。
筐体108の外面には、発光マーカ110a、110b、110c、110dが備えられる。この例ではトラッキング用LEDが発光マーカ110を構成するが、その他の種類のマーカであってよく、いずれにしても撮像装置14により撮影されて、情報処理装置10がマーカ位置を画像解析できるものであればよい。発光マーカ110の数や配置は特に限定されないが、HMD100の姿勢を検出できるための数および配置である必要があり、図示した例では筐体108の前面の4隅に設けているが、さらに中央部分に設けてもよい。
HMD100は、情報処理装置10にケーブルで接続されても、既知の無線通信プロトコルで接続されてもよい。HMD100は、姿勢センサが検出したセンサデータを情報処理装置10に送信し、また情報処理装置10で生成されたゲーム画音データを受信して、左目用表示パネルおよび右目用表示パネルに表示するとともに、イヤホンから音声出力する。
図3は、ストリーミングデータの配信装置として動作する情報処理装置10の構成を示す。情報処理装置10は、通信部190、受付部192および処理部200を備え、処理部200は、実行部202および共有処理部210を有する。共有処理部210は、設定画像生成部212、ゲーム画音取得部214、カメラ画像処理部216、表示画像生成部218、エンコード部220および出力部222を有する。
図3において、さまざまな処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、回路ブロック、メモリ、その他のLSIで構成することができ、ソフトウェア的には、システムソフトウェアや、メモリにロードされたゲームプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。
実行部202はゲームソフトウェア(以下、単に「ゲーム」とも呼ぶこともある)を実行して、ゲームの画像データおよび音声データを生成する。上記したように実行部202として示す機能は、システムソフトウェア、ゲームソフトウェア、GPUなどのハードウェアなどにより実現される。なお実施例においてゲームは、アプリケーションの一例であり、実行部202は、ゲーム以外のアプリケーションを実行してもよい。
ユーザAによるゲームプレイ中、実行部202は、ユーザAにより入力装置16に入力された操作情報をもとに、仮想空間においてゲームキャラクタを動かす演算処理を行う。実行部202は、レンダリング処理などを実行するGPU(Graphics Processing Unit)を含み、仮想空間における演算処理結果を受けて、仮想空間内の視点位置(仮想カメラ)からのゲーム画像データを生成する。また実行部202は、仮想空間内の視点位置におけるゲーム音声データを生成する。
図4は、HMD100に表示されるゲーム画面の一例を示す。ユーザAのゲームプレイ中、実行部202が、HMD100に出力するゲーム画像データおよびゲーム音声データ(あわせて「ゲーム画音データ」と呼ぶ)を生成し、通信部190が、ゲーム画音データをHMD100に送信し、ゲーム画音がHMD100において出力される。
実施例の共有処理部210は、ユーザAがプレイ中のゲームの画音データを他のユーザと共有するための処理を実施する。この共有処理は、ユーザAが入力装置16に設けられた特定の入力部(SHAREボタン)を操作したことを契機として実行される。
ゲームプレイ中、受付部192が、ユーザAの入力装置16からSHAREボタンの操作情報を受け付けると、共有処理部210は、ゲーム画音データを共有サーバ4にストリーミング配信するための共有処理を開始する。まず最初に共有処理部210は、ゲーム画音データの共有に関する選択肢を示す入力画像を生成する。
図5は、共有処理の選択肢を示す入力画面の一例を示す。設定画像生成部212が、選択肢を示す入力画像を生成して、HMD100の表示パネルに表示させる。この入力画面において、画音データの共有に関する3つの選択肢が示される。“ビデオクリップをアップロードする”は、記憶装置13に記録された画像を共有サーバ4にアップロードすることを指定するためのGUI、“スクリーンショットをアップロードする”は、スクリーンショットの画像を共有サーバ4にアップロードすることを指定するためのGUI、“ゲームプレイをブロードキャストする”は、ゲームの画音データを共有サーバ4を介してライブ中継することを指定するためのGUIである。ユーザAは入力装置16を操作して枠180を動かし、いずれかのGUIを選択して決定ボタンを押すことで、選択した共有処理が実行される。
図6は、“ゲームプレイをブロードキャストする”が選択された場合に表示される設定画面の一例を示す。この設定画面には、ブロードキャストの態様を設定するための項目が含まれる。実施例ではユーザAが“カメラの映像をブロードキャストに含める”ことに同意し、したがってゲームの画音データとともに、撮像装置14により撮影された映像データが配信される。“カメラの映像をブロードキャストに含める”のチェックボックスが選択されると、ユーザがHMD装着時に、ユーザの顔画像の代わりにアバターを表示することを設定するためのチェックボックスが表示される。
ユーザがHMD100を装着していると、両眼と鼻は筐体108により覆われる。そこで実施例の情報処理装置10では、ユーザAが“HMD装着時はアバターを表示する”のチェックボックスを選択すると、カメラ画像処理部216が、HMD100を装着したユーザの表情を推定して、推定した表情に応じたアバターの表情画像を生成し、カメラ映像に合成した映像を、ライブ配信画像に含めるようにする。以下では“HMD装着時はアバターを表示する”が選択されたことを前提とするが、選択されなければ、HMD100を装着したユーザの撮影画像がライブ配信画像に含まれることになる。ユーザが枠182を“ブロードキャストをはじめる”に配置して入力装置16の決定ボタンを押すと、受付部192が、ブロードキャストの開始を共有処理部210に通知する。
ブロードキャストが開始されると、ゲーム画音取得部214が、実行部202からゲーム画音データを取得する。またカメラ画像処理部216は、HMD100を装着したユーザの撮影画像をもとに、アバター画像を生成して、撮影画像に合成する処理を行う。なおブロードキャストが開始されると、表示画像生成部218が、設定画面で設定された情報にしたがった画面レイアウトで、ライブ配信画像を生成する。なおライブ配信画像は、HMD100にも供給され、したがって配信ユーザと視聴ユーザとは、同じライブ配信画像を視聴することになる。
図7は、ライブ配信画像の一例を示す。ストリーミング配信が開始されると、表示画像生成部218は、図7に示す画面レイアウトにしたがって表示画像を生成する。図7に示す画面例において、プレイ画像表示領域300には、ゲームのプレイ画像が表示される。カメラ画像表示領域302には、撮像装置14で撮影された撮影画像に、アバターの表情画像が合成された画像が表示される。
コメント表示領域304には、視聴ユーザからのコメントが表示される。なお視聴ユーザは、端末装置18からコメントを入力でき、入力されたコメントは、共有サーバ4を経由して情報処理装置10に送信されるようになっている。メッセージ表示領域306には、ユーザAが視聴ユーザ宛に入力するメッセージが表示される。これによりユーザAと視聴ユーザは、互いにコミュニケーションをとることが可能となる。
以下、カメラ画像表示領域302に表示する合成画像を生成する構成について説明する。
<実施例1>
図8は、カメラ画像処理部216の構成を示す。カメラ画像処理部216は、カメラ画像取得部250、位置特定部252、表情推定部254、表情画像生成部256、表情画像データベース(DB)260およびアバター画像DB262を有する。表情画像DB260は、ユーザの撮影画像とマッチング処理を行うための複数の表情画像データを記憶し、アバター画像DB262は、ユーザの撮影画像に合成するためのアバター画像を記憶する。表情画像DB260およびアバター画像DB262は、記憶装置13に構成されてよい。
カメラ画像取得部250は、HMD100を装着したユーザを撮像した撮影画像を、撮像装置14から取得する。
図9は、撮影画像の一例を示す。HMD100の前面において、トラッキング用に設けられた発光マーカ110a、110b、110c、110dが点灯している。位置特定部252は、撮影画像から所定色で発光する発光マーカ110a、110b、110c、110dを検出すると、ユーザがHMD100を装着していることを判定するとともに、HMD100の位置を特定する。位置特定部252は、HMD100の位置を特定すると、特定したHMD100の位置から、顔の位置および大きさを推定して、ユーザの口の画像を特定する。
実施例のHMD100の筐体108は、ユーザの目と鼻を覆うように構成されており、したがって筐体108の下端の下側にはユーザの口が撮影されていることが予想される。そこで位置特定部252はHMD100の位置を特定すると、その下側で口の画像を探索するようにプログラムされている。
表情推定部254は、撮影画像に含まれるユーザの口の画像から、ユーザの表情を推定する。表情画像DB260は、様々な口の形状の特徴点(口形状データ)と、感情データとを対応付けて記憶している。たとえば表情画像DB260は、口形状データと感情データとの対応関係を機械学習した結果を保持する。
なお感情データは、複数種類の感情を感情番号で表現したデータであってよい。たとえば感情番号1は喜び、感情番号2は怒り、感情番号3は哀しみ、感情番号4は楽しみ、感情番号5は愛しみ、感情番号6は憎しみ、感情番号7は驚き、などのように設定されていてよい。感情は表情に反映されるものであるため、感情番号を特定することは、ユーザの表情を推定することに等しい。
表情推定部254は、撮影画像に含まれる口の画像から、口の形状の特徴点を抽出し、表情画像DB260に記録された口形状データとマッチング処理を行う。表情推定部254は、表情画像DB260に記録された口形状データとのマッチングスコアを算出し、最も高いスコア値を導出した口形状データに対応付けられている感情番号を特定する。なおマッチング処理は、機械学習など、様々な手法を用いてよい。
アバター画像DB262は、感情番号ごとにアバターの表情画像を記憶する。表情画像は、静止画であってもよいが、動画像であってもよい。アバターは、ユーザが自由に選択できることが好ましい。表情画像生成部256は、表情推定部254が推定したユーザの表情(感情)に応じたアバターの表情画像をアバター画像DB262から読み出して、ユーザの表情画像を生成する。具体的に表情画像生成部256は、位置特定部252により推定されたユーザの顔の位置および大きさをもとに、アバターの表情画像を、ユーザの推定される顔の位置および大きさに合わせて撮影画像に重畳した合成画像を生成する。表情画像生成部256は、合成画像を表示画像生成部218に供給する。これにより表示画像生成部218は、図7に示すように、カメラ画像表示領域302に、合成画像をはめ込み、ライブ配信画像を生成する。エンコード部220は、ライブ配信画像をエンコードし、出力部222は、アバターの表情画像を含むライブ配信画像を、共有サーバ4に出力する。
以上の実施例1では、表情画像DB260が、様々な口形状データと感情データとを対応付けて記憶しており、表情推定部254が、撮影されたユーザの口の形状から、ユーザの表情を推定した。以下に示す実施例2,3では、マッチング処理における情報量を増やすことを目的として、口ではなく顔画像全体のマッチング処理を実施する。以下に示す実施例2,3において、表情画像DB260が少なくとも、顔全体画像から抽出した特徴点データ(顔表情画像データ)と感情データとを対応付けて記憶している。
<実施例2>
図10は、図9に示す撮影画像に、表情画像310を合成した画像を示す。表情画像310は、所定の標準画像であって、顔の口より上側の画像である。表情画像310は、ユーザAを事前に撮影した画像であってもよいが、システム側で用意した他人の画像であってよい。なお表情画像310は、可能な限り無表情な画像であることが好ましい。
表情推定部254は、位置特定部252により推定されたユーザの顔の位置および大きさをもとに、表情画像310を、ユーザの推定される顔の位置および大きさに合わせて撮影画像に重畳した合成画像を生成する。つまり表情推定部254は、ユーザの口を含む顔の下側の画像に、少なくとも目を含む顔の上側の所定の画像をつなぎあわせた合成画像を生成する。表情推定部254は、図10に示す顔画像から、顔に含まれる目や口などのパーツや、顔の形などの特徴点を抽出し、表情画像DB260に含まれる複数の顔表情画像データとマッチング処理を行うことで、ユーザの表情を推定する。実施例2によれば、口の形状だけでなく、顔全体の特徴点を利用したマッチング処理を行うことで、マッチング精度を高めることができる。特に表情画像DB260が、顔全体の画像の機械学習結果を予め保持している場合には、表情画像310を合成した画像を用いることで、マッチング精度を飛躍的に高めることができる。
<実施例3>
図11は、図9に示す撮影画像に、表情画像312を合成した画像を示す。表情画像312は、感情を表現した所定の標準画像であって、表情画像310と同じく、顔の口より上側の画像である。表情画像312は、ユーザAの顔をそれぞれの感情を表現した状態で事前に撮影した画像であってもよいが、システム側で感情ごとに用意した他人の画像であってよい。
表情推定部254は、位置特定部252により推定されたユーザの顔の位置および大きさをもとに、表情画像312を、ユーザの推定される顔の位置および大きさに合わせて撮影画像に重畳した合成画像を生成する。実施例3で表情推定部254は、2段階の表情推定処理を実施する。1段階目は、実施例1で説明したように、口の形状の特徴点を用いてユーザの表情(感情)を推定する。表情推定部254は、このとき導出した感情番号をもとに、表情画像DB260に記憶されている、推定された感情を表現している表情画像312を読み出す。これにより表情推定部254は、図11に示すように、ユーザの口を含む顔の下側の画像に、少なくとも目を含む顔の上側の表情画像312をつなぎあわせた合成画像を生成する。たとえば図11に示す表情画像312は、驚きを表現する標準画像であるが、表情画像DB260は、他の感情を表現する標準画像も記憶しており、表情推定部254は、1段階目で推定される感情に応じた標準画像を、ユーザの口を含む下側の画像に組み合わせる。
次に2段階目として、表情推定部254は、図11に示す顔画像から、顔に含まれる目や口などのパーツや、顔の形などの特徴点を抽出し、表情画像DB260に含まれる複数の顔表情画像データとマッチング処理を行うことで、ユーザの表情を推定する。実施例3によれば、表情推定部254は、2段階の表情推定を行うことで、マッチング精度を高められる。特に表情画像DB260が、顔全体の画像の機械学習結果を保持している場合には、表情画像312を合成した画像を用いることで、マッチング精度を飛躍的に高めることができる。
以上、本発明を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
実施例1〜3では、情報処理装置10がユーザの表情を推定して、推定したユーザの表情に応じた表情画像を生成することを説明したが、この表示画像生成処理は、共有サーバ4において実施されてもよい。この場合は、共有サーバ4が情報処理装置として機能し、情報処理装置10から取得した撮影画像をもとに、ユーザの表情画像を生成してよい。なお情報処理システム1は、共有サーバ4ないしは別のサーバ装置を備えて、情報処理装置10とサーバ装置との間で、表示画像生成処理の作業を分担してもよい。たとえばマッチング処理はサーバ装置で行って、サーバ装置がマッチング結果を情報処理装置10に返すようにしてもよい。
また実施例2,3において、表情推定部254が、他人の顔の上側を撮影した表情画像310、312を合成することを説明したが、ユーザAの人種や性別などを基準として、表情画像310、312が表情画像DB260から選択されてもよい。
1・・・情報処理システム、4・・・共有サーバ、10・・・情報処理装置、11・・・処理装置、12・・・出力制御装置、13・・・記憶装置、14・・・撮像装置、15・・・出力装置、16・・・入力装置、100・・・HMD、110・・・発光マーカ、190・・・通信部、192・・・受付部、200・・・処理部、202・・・実行部、210・・・共有処理部、212・・・設定画像生成部、214・・・ゲーム画音取得部、216・・・カメラ画像処理部、218・・・表示画像生成部、220・・・エンコード部、222・・・出力部、250・・・カメラ画像取得部、252・・・位置特定部、254・・・表情推定部、256・・・表情画像生成部、260・・・表情画像DB、262・・・アバター画像DB。

Claims (7)

  1. ヘッドマウントディスプレイを装着したユーザを撮像した撮影画像を取得する画像取得部と、
    撮影画像に含まれるユーザの口の画像から、ユーザの表情を推定する表情推定部と、
    推定したユーザの表情に応じた表情画像を生成する表情画像生成部と、
    表情画像を含む画像を出力する出力部と、
    を備えることを特徴とする情報処理装置。
  2. 撮影画像から口の画像を特定する位置特定部をさらに備え、
    前記位置特定部は、ヘッドマウントディスプレイの位置を特定し、特定したヘッドマウントディスプレイの位置から、口の画像を特定する、
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記表情推定部は、ユーザの口を含む顔の下側の画像に、少なくとも目を含む顔の上側の所定の画像を合成した合成画像を用いて、複数の顔表情画像データとマッチング処理を行うことで、ユーザの表情を推定する、
    ことを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記表情推定部は、ユーザの口を含む顔の下側の画像に、ユーザの口の画像から推定された表情に応じた顔の上側の画像を合成した合成画像を用いて、複数の顔表情画像データとマッチング処理を行うことで、ユーザの表情を推定する、
    ことを特徴とする請求項1または2に記載の情報処理装置。
  5. 端末装置とサーバ装置を含む情報処理システムであって、
    ヘッドマウントディスプレイを装着したユーザを撮像した撮影画像を取得する画像取得部と、
    撮影画像に含まれるユーザの口の画像から、ユーザの表情を推定する表情推定部と、
    推定したユーザの表情に応じた表情画像を生成する処理部と、
    表情画像を含む画像を出力する出力部と、
    を備えることを特徴とする情報処理システム。
  6. ヘッドマウントディスプレイを装着したユーザを撮像した撮影画像を取得するステップと、
    撮影画像に含まれるユーザの口の画像から、ユーザの表情を推定するステップと、
    推定したユーザの表情に応じた表情画像を生成するステップと、
    表情画像を含む画像を出力するステップと、
    を備えることを特徴とする表情画像出力方法。
  7. コンピュータに、
    ヘッドマウントディスプレイを装着したユーザを撮像した撮影画像を取得する機能と、
    撮影画像に含まれるユーザの口の画像から、ユーザの表情を推定する機能と、
    推定したユーザの表情に応じた表情画像を生成する機能と、
    表情画像を含む画像を出力する機能と、
    を実現させるためのプログラム。
JP2018101621A 2017-11-03 2018-05-28 情報処理装置、情報処理システムおよび表情画像出力方法 Pending JP2019087226A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201762581187P 2017-11-03 2017-11-03
US62/581,187 2017-11-03

Publications (1)

Publication Number Publication Date
JP2019087226A true JP2019087226A (ja) 2019-06-06

Family

ID=66328601

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018101621A Pending JP2019087226A (ja) 2017-11-03 2018-05-28 情報処理装置、情報処理システムおよび表情画像出力方法

Country Status (2)

Country Link
US (1) US10896322B2 (ja)
JP (1) JP2019087226A (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11670059B2 (en) 2021-09-01 2023-06-06 Snap Inc. Controlling interactive fashion based on body gestures
US11673054B2 (en) 2021-09-07 2023-06-13 Snap Inc. Controlling AR games on fashion items
US11900506B2 (en) * 2021-09-09 2024-02-13 Snap Inc. Controlling interactive fashion based on facial expressions
US11734866B2 (en) 2021-09-13 2023-08-22 Snap Inc. Controlling interactive fashion based on voice
US11983826B2 (en) 2021-09-30 2024-05-14 Snap Inc. 3D upper garment tracking
US11636662B2 (en) 2021-09-30 2023-04-25 Snap Inc. Body normal network light and rendering control
US11651572B2 (en) 2021-10-11 2023-05-16 Snap Inc. Light and rendering of garments

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104756513A (zh) 2012-11-05 2015-07-01 索尼电脑娱乐公司 信息处理设备
US20180107275A1 (en) * 2015-04-13 2018-04-19 Empire Technology Development Llc Detecting facial expressions

Also Published As

Publication number Publication date
US20190138796A1 (en) 2019-05-09
US10896322B2 (en) 2021-01-19

Similar Documents

Publication Publication Date Title
US11504609B2 (en) Head mounted display
US11079999B2 (en) Display screen front panel of HMD for viewing by users viewing the HMD player
US10262461B2 (en) Information processing method and apparatus, and program for executing the information processing method on computer
JP2019087226A (ja) 情報処理装置、情報処理システムおよび表情画像出力方法
US10453248B2 (en) Method of providing virtual space and system for executing the same
US20180373413A1 (en) Information processing method and apparatus, and program for executing the information processing method on computer
US20180373328A1 (en) Program executed by a computer operable to communicate with head mount display, information processing apparatus for executing the program, and method executed by the computer operable to communicate with the head mount display
US10546407B2 (en) Information processing method and system for executing the information processing method
US20190026950A1 (en) Program executed on a computer for providing virtual space, method and information processing apparatus for executing the program
US11373379B2 (en) Image generation apparatus and image generation method for generating augmented reality images based on user interaction
WO2019039378A1 (ja) 情報処理装置および画像表示方法
JP6807455B2 (ja) 情報処理装置および画像生成方法
US20190005731A1 (en) Program executed on computer for providing virtual space, information processing apparatus, and method of providing virtual space
JP6298563B1 (ja) ヘッドマウントデバイスによって仮想空間を提供するためのプログラム、方法、および当該プログラムを実行するための情報処理装置
JP6615732B2 (ja) 情報処理装置および画像生成方法
US20180247453A1 (en) Information processing method and apparatus, and program for executing the information processing method on computer
JP6470859B1 (ja) ユーザの動きをアバタに反映するためのプログラム、当該プログラムを実行するための情報処理装置、およびアバタを含む映像を配信するための方法
US20190043263A1 (en) Program executed on a computer for providing vertual space, method and information processing apparatus for executing the program
US20180348531A1 (en) Method executed on computer for controlling a display of a head mount device, program for executing the method on the computer, and information processing apparatus therefor
US20180247454A1 (en) Unknown
US20240048677A1 (en) Information processing system, information processing method, and computer program
US11335071B2 (en) Image generation apparatus and image generation method for augmented reality images based on object interaction
JP2019046291A (ja) 情報処理装置および画像表示方法
JP2019128721A (ja) ユーザの動きをアバタに反映するためのプログラム、当該プログラムを実行するための情報処理装置、およびアバタを含む映像を配信するための方法
JP2020181320A (ja) 情報処理装置およびデバイス情報導出方法

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20200220