JP2023082998A - 表示制御装置 - Google Patents
表示制御装置 Download PDFInfo
- Publication number
- JP2023082998A JP2023082998A JP2021197063A JP2021197063A JP2023082998A JP 2023082998 A JP2023082998 A JP 2023082998A JP 2021197063 A JP2021197063 A JP 2021197063A JP 2021197063 A JP2021197063 A JP 2021197063A JP 2023082998 A JP2023082998 A JP 2023082998A
- Authority
- JP
- Japan
- Prior art keywords
- data
- model
- texture
- agent
- storage device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013507 mapping Methods 0.000 claims abstract description 38
- 210000004709 eyebrow Anatomy 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims description 76
- 230000008569 process Effects 0.000 claims description 70
- 230000036544 posture Effects 0.000 claims description 22
- 230000008921 facial expression Effects 0.000 claims description 16
- 230000003993 interaction Effects 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 abstract description 9
- 210000003128 head Anatomy 0.000 abstract description 4
- 239000003795 chemical substances by application Substances 0.000 description 71
- 230000009471 action Effects 0.000 description 10
- 230000007704 transition Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/04—Texture mapping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/04815—Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Graphics (AREA)
- Processing Or Creating Images (AREA)
- Image Generation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【課題】エージェントの表情をリアルタイムで変化させつつその表現力を高めることができるようにした表示制御装置を提供する。【解決手段】PU22は、表示部12にエージェント画像14を表示する制御を実行する。PU22は、エージェント画像14のうちの胴体および頭部については、2Dモデルに2D用テクスチャデータ24dをマッピングしたデータを用いる。PU22は、エージェント画像14の目、口、眉毛については、3Dモデルデータ24cによって規定される3Dモデルに、3D用テクスチャデータ24eをマッピングしたデータを用いる。【選択図】図1
Description
本発明は、表示制御装置に関する。
たとえば下記特許文献1には、バーチャルキャラクタを表示する表示制御装置が記載されている。この表示制御装置においては、「あ」、「い」、「う」、「え」、「お」の母音に一致するテクスチャがあらかじめメモリに記憶されている。そして表示制御装置は、入力音声から母音を抽出する。表示制御装置は、抽出した母音と一致する口形のテクスチャをバーチャルキャラクタの口形に貼り付けて変更する。
ところで、バーチャルキャラクタと人との対話において、バーチャルキャラクタのリップシンクをリアルタイムに行えない場合には、対話の遅延やすれ違いに繋がってしまう。しかし、高精細な3次元のキャラクタの描画をする場合、コンピュータの演算負荷が非常に大きくなる。そのため、リアルタイムで高精度な3次元のキャラクタを描画することは困難である。
以下、上記課題を解決するための手段およびその作用効果について記載する。
1.記憶装置と、実行装置と、を備え、前記記憶装置には、エージェントに関する複数のテクスチャデータである2D用テクスチャデータと、前記2D用テクスチャデータとは別のデータであって且つ前記エージェントの目、および口部分のテクスチャデータを含むデータである3D用テクスチャデータと、が記憶されており、前記エージェントは、ユーザと対話する人物であり、前記2D用テクスチャデータは、前記エージェントの互いに異なる姿勢を示す複数のデータを含み、前記3D用テクスチャデータは、前記エージェントの互いに異なる表情のそれぞれを示す目および口部分の複数のデータを含み、前記実行装置は、2Dマッピング処理、3Dマッピング処理、および表示処理を実行し、前記2Dマッピング処理は、前記2D用テクスチャデータに含まれる複数の姿勢のデータから選択された1つのデータを2Dモデルにマッピングする処理であり、前記3Dマッピング処理は、前記3D用テクスチャデータに含まれる複数の表情から選択された1つの表情のデータを3Dモデルにマッピングする処理であり、前記表示処理は、前記2Dマッピング処理がなされた画像データと、前記3Dマッピング処理がなされた画像データとが合成された画像データを表示部に表示する処理である表示制御装置である。
1.記憶装置と、実行装置と、を備え、前記記憶装置には、エージェントに関する複数のテクスチャデータである2D用テクスチャデータと、前記2D用テクスチャデータとは別のデータであって且つ前記エージェントの目、および口部分のテクスチャデータを含むデータである3D用テクスチャデータと、が記憶されており、前記エージェントは、ユーザと対話する人物であり、前記2D用テクスチャデータは、前記エージェントの互いに異なる姿勢を示す複数のデータを含み、前記3D用テクスチャデータは、前記エージェントの互いに異なる表情のそれぞれを示す目および口部分の複数のデータを含み、前記実行装置は、2Dマッピング処理、3Dマッピング処理、および表示処理を実行し、前記2Dマッピング処理は、前記2D用テクスチャデータに含まれる複数の姿勢のデータから選択された1つのデータを2Dモデルにマッピングする処理であり、前記3Dマッピング処理は、前記3D用テクスチャデータに含まれる複数の表情から選択された1つの表情のデータを3Dモデルにマッピングする処理であり、前記表示処理は、前記2Dマッピング処理がなされた画像データと、前記3Dマッピング処理がなされた画像データとが合成された画像データを表示部に表示する処理である表示制御装置である。
上記構成では、2Dモデルに2D用のテクスチャをマッピングすることによってエージェントの姿勢を表現することにより、3Dモデルにテクスチャをマッピングする場合と比較して、実行装置の演算負荷を軽減できる。一方、上記構成では、目および口部分については3Dモデルにテクスチャをマッピングした。これにより、目および口部分についても2Dモデルとする場合と比較して、エージェントの表情の表現力を高めることができる。
2.前記3D用テクスチャデータは、前記エージェントの互いに異なる表情のそれぞれを示す眉毛部分の複数のデータを含む上記1記載の表示制御装置である。
上記構成では、眉毛についても3Dモデルを用いることにより、2Dモデルを用いる場合と比較して、エージェントの表情の表現力を高めることができる。
上記構成では、眉毛についても3Dモデルを用いることにより、2Dモデルを用いる場合と比較して、エージェントの表情の表現力を高めることができる。
3.前記記憶装置には、前記3D用テクスチャデータがマッピングされる3Dモデルデータが記憶されており、前記3D用テクスチャデータのうちの口部分のデータは、顎部分のデータを含み、前記顎部分のデータは、口が閉じた状態のデータと口が開いた状態のデータとを含み、前記口が閉じた状態の前記顎部分のデータがマッピングされる前記3Dモデルと、前記口が開いた状態の前記顎部分のデータがマッピングされる前記3Dモデルとは、同一のモデルである上記1または2記載の表示制御装置である。
口が開いたときと閉じたときとでは、顎の先端部分の位置が異なる。しかし、上記構成では、あえて口が開いたときと閉じたときとで同一の3Dモデルを用いる。これにより、口の開閉に応じて3Dモデルを変形可能とする場合と比較して、表示のための演算負荷を軽減できる。しかも、3Dモデルを用いることにより、2Dモデルを用いる場合と比較して、口の周りの表現力を高めることができる。
4.前記記憶装置には、前記3Dモデルの位置および回転角を前記2D用テクスチャデータが示す前記エージェントの互いに異なる姿勢のそれぞれに対して規定するデータである規定データが記憶されており、前記3Dマッピング処理は、前記規定データに基づき前記3D用テクスチャデータを前記3Dモデルにマッピングする処理である上記1~3のいずれか1つに記載の表示制御装置である。
上記構成では、エージェントの姿勢毎に、3Dモデルの位置および回転角が規定された規定データを用いることにより、エージェントの姿勢が変化しても、3Dモデルを整合させることができる。そのため、3D用テクスチャデータのうちのマッピングされるデータを、エージェントの姿勢の変化に整合させることができる。
5.前記記憶装置に記憶された前記3D用テクスチャデータは、プリレンダリングされたデータである上記1~4のいずれか1つに記載の表示制御装置である。
上記構成では、プリレンダリングされたデータを記憶しておくことにより、エージェントの画像を表示する際、レンダリングに要する時間を節約できる。
上記構成では、プリレンダリングされたデータを記憶しておくことにより、エージェントの画像を表示する際、レンダリングに要する時間を節約できる。
6.前記記憶装置は、第1記憶装置と、第2記憶装置と、を備え、前記第1記憶装置には、前記3D用テクスチャデータが常時記憶されており、前記実行装置は、書き込み処理を実行し、前記書き込み処理は、前記第1記憶装置に記憶された前記3D用テクスチャデータを前記第2記憶装置に書き込む処理であり、前記3Dマッピング処理は、前記第2記憶装置に書き込まれた前記3D用テクスチャデータを用いて前記3Dモデルに前記3D用テクスチャデータをマッピングする処理である上記1~5のいずれか1つに記載の表示制御装置である。
上記構成では、第2記憶装置からのデータの読み出し処理に要する時間が短ければ、エージェントの迅速な表示が可能となる。したがって、3D用テクスチャデータを常時記憶しておく第1記憶装置の読み取り動作等に対する要求を軽減できる。
7.前記実行装置は、前記ユーザとの対話に応じて前記エージェントの互いに異なる姿勢を示す複数のデータのうちの前記2Dマッピング処理に利用するデータを選択する2D選択処理と、前記ユーザとの対話に応じて前記エージェントの互いに異なる表情のそれぞれを示す複数のデータのうちの前記3Dマッピング処理に利用するデータを選択する3D選択処理と、を実行する上記1~6のいずれか1つに記載の表示制御装置である。
上記構成によれば、エージェントの姿勢および表情をユーザとの対話に応じた適切なものとすることができる。
以下、一実施形態について図面を参照しつつ説明する。
図1に示す対話ユニット10は、表示部12を備えている。表示部12は、たとえばLCD,LED等にて構成された表示パネルである。表示部12には、ユーザと対話をする仮想の人物の画像であるエージェント画像14が表示される。
図1に示す対話ユニット10は、表示部12を備えている。表示部12は、たとえばLCD,LED等にて構成された表示パネルである。表示部12には、ユーザと対話をする仮想の人物の画像であるエージェント画像14が表示される。
表示制御装置20は、表示部12を操作することによって、表示部12に表示される画像を制御する。この際、表示制御装置20は、画像を制御するために、RGBカメラ30が出力するRGB画像データDrgbを参照する。RGBカメラ30は、ユーザが位置すると想定される方向に向けて配置されている。RGB画像データDrgbは、レッド、グリーン、ブルーの3原色のそれぞれの輝度データを含む。また、表示制御装置20は、画像を制御するために、赤外線カメラ32の出力する赤外線画像データDirを参照する。赤外線カメラ32も、ユーザが位置すると想定される方向に向けて配置されている。また、表示制御装置20は、画像を制御するために、マイク34の出力する音声信号Ssを参照する。マイク34は、ユーザの発生した音信号を感知するために設けられている。
表示制御装置20は、エージェント画像14の動作に合わせてスピーカ36を操作することによって、音声信号を出力する。
表示制御装置20は、PU22、記憶装置24、および記憶装置26を備えている。PU22は、CPU、GPU、およびTPU等の少なくとも1つを備えたソフトウェア処理装置である。記憶装置24には、表示制御プログラム24aおよびシナリオデータ24bが記憶されている。記憶装置26は、記憶装置24よりも動作速度が速い装置である。動作速度は、記憶されたデータの読み出し速度と、データの書き込み速度とを含む。
表示制御装置20は、PU22、記憶装置24、および記憶装置26を備えている。PU22は、CPU、GPU、およびTPU等の少なくとも1つを備えたソフトウェア処理装置である。記憶装置24には、表示制御プログラム24aおよびシナリオデータ24bが記憶されている。記憶装置26は、記憶装置24よりも動作速度が速い装置である。動作速度は、記憶されたデータの読み出し速度と、データの書き込み速度とを含む。
シナリオデータ24bは、有限オートマトンで構成されている。シナリオデータ24bは、エージェントの発話内容、および動作を規定する複数個の状態を定めるデータである。PU22は、シナリオデータ24bに従って、エージェントにユーザと対話させる。すなわち、PU22は、音声信号Ssを入力として音声認識を行い、ユーザの発話内容を示すテキストデータを生成する。また、PU22は、RGB画像データDrgbおよび赤外線画像データDirを用いて、ユーザの動作を認識する。そして、PU22は、テキストデータおよびユーザの動作の認識結果を入力として、シナリオデータ24bが規定する状態の遷移条件を満たすか否かを判定する。PU22は、遷移条件を満たすと判定する場合、遷移先の状態において規定されるエージェントの動作にしたがって、表示部12を操作する。これにより、エージェント画像14が制御される。また、PU22は、遷移先の状態において規定される発話内容に従って、スピーカ36を操作する。これにより、ユーザに対してエージェントが言葉を発することとなる。
エージェント画像14は、ユーザとの対話に応じて豊かな表情をリアルタイムで表現する。これは、「画像表示のための前処理」、および「画像表示に関する処理」によって実現される。以下では、これらを順に説明する。
「画像表示のための前処理」
図2に、画像表示のための前処理の手順を示す。図2に示す処理は、記憶装置24に記憶された表示制御プログラム24aをPU22がたとえば所定周期でくり返し実行することにより実現される。なお、以下では、先頭に「S」が付与された数字によって、各処理のステップ番号を表現する。
図2に、画像表示のための前処理の手順を示す。図2に示す処理は、記憶装置24に記憶された表示制御プログラム24aをPU22がたとえば所定周期でくり返し実行することにより実現される。なお、以下では、先頭に「S」が付与された数字によって、各処理のステップ番号を表現する。
図2に示す一連の処理において、PU22は、まず表示部12にエージェント画像14を表示するための描画用ウィンドウを作成する(S10)。次にPU22は、エージェント画像14を生成するための2Dモデルを記憶装置24から読み出す(S12)。この処理は、PU22が、2Dモデルを規定するデータを、記憶装置26に書き込む処理を含む。2Dモデルは、主に、エージェント画像14が示すエージェントの胴体および頭部等の表示に利用される2次元のモデルである。また、PU22は、記憶装置24から3Dモデルを規定する3Dモデルデータ24cを読み出す(S14)。この処理は、PU22が、3Dモデルデータ24cを、記憶装置26に書き込む処理を含む。3Dモデルは、エージェント画像14のうちの、エージェントの表情に特に影響する、目、口、眉毛部分の画像を生成するために利用される3次元のモデルである。図3に、3Dモデルデータ24cを例示する。
図3に示すように、3Dモデルデータ24cは、顔上部モデル60と、顔下部モデル62とを規定するデータである。顔上部モデル60は、エージェントの目および眉毛部分を表現するためのモデルである。顔下部モデル62は、エージェントの口を含む部分である。顔下部モデル62は、顎、頬部分を含む。3Dモデルデータ24cは、ポリゴンモデルである。図3においては、顔下部モデル62に、頂点が3点であるポリゴンを例示した。
なお、3Dモデルデータ24cは、エージェントの実際の形状をかたどったものではない。たとえば、顔下部モデル62は、エージェントが口を開いているときの顎の先端部分をも包含する。しかし、エージェントの口が閉じているときの画像データも、同じ顔下部モデル62を用いて生成される。
図2に戻り、PU22は、記憶装置24に記憶された2D用テクスチャデータ24dおよび3D用テクスチャデータ24eを読み出す(S16)。この処理は、PU22が、2D用テクスチャデータ24dおよび3D用テクスチャデータ24eを記憶装置26に書き込む処理を含む。2D用テクスチャデータ24dおよび3D用テクスチャデータ24eは、いずれも、プリレンダリングされたデータである。これは、レンダリング処理をPU22が実行するのに要する時間を削減することを狙ったものである。
2D用テクスチャデータ24dは、2Dモデルにマッピングされるデータである。図4に、2D用テクスチャデータ24dを例示する。
図4に示すように、2D用テクスチャデータ24dは、シナリオデータ24bによって規定される状態によって選択的に指定される複数個のデータを含む。それらデータの各々は、エージェントが所定の姿勢、動作をしているときのデータである。複数個のデータのそれぞれが規定するエージェントの姿勢、動作は、それらデータ同士で互いに異なる。
図4に示すように、2D用テクスチャデータ24dは、シナリオデータ24bによって規定される状態によって選択的に指定される複数個のデータを含む。それらデータの各々は、エージェントが所定の姿勢、動作をしているときのデータである。複数個のデータのそれぞれが規定するエージェントの姿勢、動作は、それらデータ同士で互いに異なる。
3D用テクスチャデータ24eは、3Dモデルデータ24cによって規定される3Dモデルにマッピングされるデータである。図5に、3D用テクスチャデータ24eを例示する。
図5に示すように、3D用テクスチャデータ24eは、目部データ70および顎部データ72を含む。目部データ70は、エージェントの目および眉毛を含むデータである。目部データ70は、シナリオデータ24bによって規定される状態によって選択的に指定される複数個のデータを含む。それらデータの各々は、エージェントが所定の表情をしているときのデータである。複数個のデータのそれぞれが規定するエージェントの表情は、それらデータ同士で互いに異なる。
顎部データ72は、エージェントの口、顎、および鼻の一部を含むデータである。顎部データ72は、シナリオデータ24bによって規定される状態によって選択的に指定される複数個のデータを含む。それらデータの各々は、エージェントが所定の表情をしているときのデータである。複数個のデータのそれぞれが規定するエージェントの表情は、それらデータ同士で互いに異なる。
図2に戻り、PU22は、記憶装置24に記憶された規定データ24fを読み出す(S18)。この処理は、PU22が、規定データ24fを記憶装置26に書き込む処理を含む。規定データ24fは、2D用テクスチャデータ24dに含まれる、エージェントの様々な姿勢、動作を規定するデータの各々について、3Dデータの位置、および回転角を規定するデータである。規定データ24fは、2D用テクスチャデータ24dが示すエージェントの姿勢と、3Dモデルとを整合させるためのデータである。これは、たとえばエージェントが斜めを向いている場合と正面を向いている場合とで3Dモデルの位置、回転角を固定する場合には、2D用テクスチャデータ24dが示すエージェントの姿勢と3Dモデルとが整合しないためである。
なお、PU22は、S18の処理を完了する場合、図2に示す一連の処理を一旦終了する。
「画像表示に関する処理」
図6に、画像表示に関する処理の手順を示す。図6に示す処理は、表示制御プログラム24aをPU22がたとえば所定周期でくり返し実行することにより実現される。
「画像表示に関する処理」
図6に、画像表示に関する処理の手順を示す。図6に示す処理は、表示制御プログラム24aをPU22がたとえば所定周期でくり返し実行することにより実現される。
図6に示す一連の処理において、PU22は、まず、シナリオデータ24bが示す状態のうちの現在の状態によって規定されるエージェントの姿勢、動作の指令を読み込む(S20)。次にPU22は、同指令に基づき、2D用テクスチャデータ24dのうちの表示に用いるデータと、3D用テクスチャデータ24eのうちの表示に用いるデータと、を記憶装置26から読み出す(S22)。
次に、PU22は、2Dモデルに、S22の処理によって読み出したテクスチャをマッピングする(S24)。そして、PU22は、マッピングされたテクスチャのデータを、記憶装置26に記憶する(S26)。ここで、データが記憶される記憶領域は、表示部12に表示される画像データを記憶する領域の一部である。
次に、PU22は、2D用テクスチャデータ24dのうちのS22の処理によって読み出されたデータと、規定データ24fとに基づき、3Dモデルの位置を設定する(S28)。そして、PU22は、S22の処理によって読み出された3D用テクスチャデータのうちの顎部データ72を、3Dモデルにマッピングする(S30)。次にPU22は、3Dモデルにマッピングされたテクスチャを2Dに投影する処理をした後、記憶装置26に記憶する(S32)。ここでは、S26の処理によってデータが記憶された領域のうちの一部の領域が、記憶の対象領域となる。S32の処理は、S26の処理によって対象領域に記憶されたデータに、投影処理によって生成されたデータを重畳する処理である。詳しくは、投影処理によって生成されたデータのうち境界部分に近いデータが記憶される領域ほど、S26の処理によって対象領域に記憶されたデータの寄与を大きくする処理である。これは、アルファブレンド処理等によって実現できる。
また、PU22は、3D用テクスチャデータ24eのうちのS22の処理によって読み出された目部データ70に規定される目の部分のデータを、3Dモデルにマッピングする(S34)。次にPU22は、3Dモデルにマッピングされたテクスチャを2Dに投影する処理をした後、記憶装置26に記憶する(S36)。S36の処理は、S32の処理と同様の処理である。
また、PU22は、3D用テクスチャデータ24eのうちのS22の処理によって読み出された目部データ70に規定される眉毛の部分のデータを、3Dモデルにマッピングする(S38)。次にPU22は、3Dモデルにマッピングされたテクスチャを2Dに投影する処理をした後、記憶装置26に記憶する(S40)。S40の処理は、S32の処理と同様の処理である。
そして、PU22は、S26,S32,S36,S40の処理によって記憶装置26に記憶されたデータを表示部12に表示すべく、表示部12を操作する(S42)。
なお、PU22は、S42の処理を完了する場合、図6に示す一連の処理を一旦終了する。
なお、PU22は、S42の処理を完了する場合、図6に示す一連の処理を一旦終了する。
ここで、本実施形態の作用および効果について説明する。
PU22は、シナリオデータ24bに規定された状態に従って、エージェントの姿勢および発話を制御する。
PU22は、シナリオデータ24bに規定された状態に従って、エージェントの姿勢および発話を制御する。
図7に、表情が互いに異なる5個のエージェント画像14の一部を例示する。図7(d)は、エージェントがユーザに目を合わせている状態を示す。これに対し、図7(a)~図7(c)および図7(e)は、エージェントがユーザから目をそらしている状態を示す。ただし、図7(a)~図7(c)および図7(e)は、互いに異なる視線を有する状態である。図7(a)~図7(e)に示すエージェント画像14は、シナリオデータ24bによって規定される表情の変化の一例である。
ここで、PU22は、エージェント画像14の全体を3Dモデルを用いて生成するのではなく、2Dモデルと3Dモデルとを併用する。すなわち、エージェントの表情に特に大きく影響する目、口、眉毛については、3Dモデルを用いてエージェント画像14を示す画像データを生成する。これにより、エージェントの頭部の全体、または頭部の全体および胴体を、専用の3Dモデルにテクスチャマッピングする場合と比較して、演算負荷を軽減できる。一方、仮に、口、目、および眉毛についても2Dモデルとする場合には、本実施形態と比較して、演算負荷を軽減できる。しかし、その場合には、エージェント画像14のリアリティが低下する。
したがって、本実施形態によれば、エージェント画像14をリアルタイムで更新することと、リアリティを高く保つこととの好適な折衷を図ることができる。
以上説明した本実施形態によれば、さらに以下に記載する作用および効果が得られる。
以上説明した本実施形態によれば、さらに以下に記載する作用および効果が得られる。
(1)3D用テクスチャデータ24eのうちの口が開いているときの顎部分のテクスチャと、口が閉じているときの顎部分のテクスチャとを、共通の顔下部モデル62にマッピングした。これにより、口の開閉に応じて3Dモデルを変形可能とする場合と比較して、表示のための演算負荷を軽減できる。
(2)PU22は、2D用テクスチャデータ24dのうちの選択されたテクスチャに応じて、規定データ24fに基づき、3Dモデルの位置および回転角を定めた。これにより、2D用テクスチャデータ24dによって表現されるエージェントの姿勢が変化しても、3Dモデルを整合させることができる。そのため、2D用テクスチャデータ24dによって表現されるエージェントの姿勢と、3D用テクスチャデータ24eのうちの表示に用いるデータとを整合させることができる。
(3)2D用テクスチャデータ24dおよび3D用テクスチャデータ24eを、プリレンダリングされたデータとした。これにより、表示部12にエージェント画像14を表示する際、レンダリングに要する時間を節約できる。
(4)PU22は、表示部12にエージェント画像14を表示するのに先立って、2D用テクスチャデータ24d、3D用テクスチャデータ24e、および規定データ24fを、記憶装置26に書き込んだ。記憶装置26の動作速度が記憶装置24の動作速度よりも高いため、上記処理によれば、エージェント画像14の表示および更新を迅速に行うことができる。
(5)ユーザとの対話に応じて、シナリオデータ24bによって、エージェントの異なる姿勢、動作を規定した。これにより、エージェントの姿勢および動作をユーザとの対話に応じた適切なものとすることができる。
<対応関係>
上記実施形態における事項と、上記「課題を解決するための手段」の欄に記載した事項との対応関係は、次の通りである。以下では、「課題を解決するための手段」の欄に記載した解決手段の番号毎に、対応関係を示している。[1,2]記憶装置は、記憶装置24,26に対応する。実行装置は、PU22に対応する。2D用テクスチャデータは、2D用テクスチャデータ24dに対応する。3D用テクスチャデータは、3D用テクスチャデータ24eに対応する。2Dマッピング処理は、S24の処理に対応する。3Dマッピング処理は、S30,S34,S38の処理に対応する。表示処理は、S26,S32,S36,S40,S42の処理に対応する。[3]3Dモデルデータは、3Dモデルデータ24cに対応する。図3に示す顔下部モデル62が1つのみであることに対応する。[4]規定データは、規定データ24fに対応する。[5]S16の処理において記憶装置24から読み出されるデータがプリレンダリングされたデータであることに対応する。[6]第1記憶装置は、記憶装置24に対応する。第2記憶装置は、記憶装置26に対応する。書き込み処理は、S12,S14の処理に対応する。[7]2D選択処理は、S22の処理に対応する。3D選択処理は、S22の処理に対応する。
上記実施形態における事項と、上記「課題を解決するための手段」の欄に記載した事項との対応関係は、次の通りである。以下では、「課題を解決するための手段」の欄に記載した解決手段の番号毎に、対応関係を示している。[1,2]記憶装置は、記憶装置24,26に対応する。実行装置は、PU22に対応する。2D用テクスチャデータは、2D用テクスチャデータ24dに対応する。3D用テクスチャデータは、3D用テクスチャデータ24eに対応する。2Dマッピング処理は、S24の処理に対応する。3Dマッピング処理は、S30,S34,S38の処理に対応する。表示処理は、S26,S32,S36,S40,S42の処理に対応する。[3]3Dモデルデータは、3Dモデルデータ24cに対応する。図3に示す顔下部モデル62が1つのみであることに対応する。[4]規定データは、規定データ24fに対応する。[5]S16の処理において記憶装置24から読み出されるデータがプリレンダリングされたデータであることに対応する。[6]第1記憶装置は、記憶装置24に対応する。第2記憶装置は、記憶装置26に対応する。書き込み処理は、S12,S14の処理に対応する。[7]2D選択処理は、S22の処理に対応する。3D選択処理は、S22の処理に対応する。
<その他の実施形態>
なお、本実施形態は、以下のように変更して実施することができる。本実施形態および以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。
なお、本実施形態は、以下のように変更して実施することができる。本実施形態および以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。
「3D用テクスチャデータについて」
・上記顎部データ72を、鼻部分のテクスチャを備えないデータとしてもよい。
・上記実施形態では、3D用テクスチャデータ24eを、目部データ70、および顎部データ72とから構成したが、これに限らない。たとえば、眉毛のテクスチャデータと目のテクスチャデータとを各別のデータとしてもよい。
・上記顎部データ72を、鼻部分のテクスチャを備えないデータとしてもよい。
・上記実施形態では、3D用テクスチャデータ24eを、目部データ70、および顎部データ72とから構成したが、これに限らない。たとえば、眉毛のテクスチャデータと目のテクスチャデータとを各別のデータとしてもよい。
・3D用テクスチャデータ24eが、眉毛、目、および口のそれぞれのテクスチャを備えることは必須ではない。たとえば、目および口のそれぞれのテクスチャを備えるものの、眉毛については備えないこととしてもよい。
「3Dモデルデータについて」
・上記実施形態では、3Dモデルデータ24cを、顔上部モデル60および顔下部モデル62によって構成したが、これに限らない。たとえば、眉毛部分のデータ、目部分のデータ、および顎部分のデータを備えて構成してもよい。またたとえば、上記「3D用テクスチャデータについて」の欄に記載したように、眉毛のテクスチャを備えないなら、眉毛部分のデータを削除してもよい。またたとえば、上記「3D用テクスチャデータについて」の欄に記載したように、鼻部分のテクスチャを備えないなら、鼻部分のデータを備えなくてもよい。
・上記実施形態では、3Dモデルデータ24cを、顔上部モデル60および顔下部モデル62によって構成したが、これに限らない。たとえば、眉毛部分のデータ、目部分のデータ、および顎部分のデータを備えて構成してもよい。またたとえば、上記「3D用テクスチャデータについて」の欄に記載したように、眉毛のテクスチャを備えないなら、眉毛部分のデータを削除してもよい。またたとえば、上記「3D用テクスチャデータについて」の欄に記載したように、鼻部分のテクスチャを備えないなら、鼻部分のデータを備えなくてもよい。
・3Dモデルデータ24cが顔の複数の領域のそれぞれに対応するデータを備えることは必須ではない。たとえば顔の一部の領域に関する単一のデータであってもよい。
・3Dモデルデータとしては、変形しないデータに限らない。たとえば、口の動きに応じて顎部が変形可能なデータであってもよい。またたとえば、2D用テクスチャデータ24dのいくつかのグループに応じた互いに異なるデータであってもよい。
・3Dモデルデータとしては、変形しないデータに限らない。たとえば、口の動きに応じて顎部が変形可能なデータであってもよい。またたとえば、2D用テクスチャデータ24dのいくつかのグループに応じた互いに異なるデータであってもよい。
・ポリゴンとしては、頂点が3個のものに限らない。
「ユーザとの対話について」
・ユーザとの対話を行う手法としては、シナリオデータ24bを用いる手法に限らない。たとえば、ユーザの発話内容等に関連するテキストデータを知識データベースから検索して出力する写像を用いてもよい。ここでの写像は、たとえば、エンコーダ・デコーダモデルを用いて構成してもよい。また、たとえば注意機構を備えたニューラルネットワークによって構成してもよい。
「ユーザとの対話について」
・ユーザとの対話を行う手法としては、シナリオデータ24bを用いる手法に限らない。たとえば、ユーザの発話内容等に関連するテキストデータを知識データベースから検索して出力する写像を用いてもよい。ここでの写像は、たとえば、エンコーダ・デコーダモデルを用いて構成してもよい。また、たとえば注意機構を備えたニューラルネットワークによって構成してもよい。
「2D選択処理、3D選択処理について」
・2D選択処理としては、2D用テクスチャデータ24dのうちのシナリオデータ24bによって指定されたデータを選択する処理に限らない。たとえば「ユーザとの対話について」の欄に記載したように、知識データベースから検索されたテキストデータをエージェントが発話する場合、その内容に応じてデータを選択する処理であってもよい。
・2D選択処理としては、2D用テクスチャデータ24dのうちのシナリオデータ24bによって指定されたデータを選択する処理に限らない。たとえば「ユーザとの対話について」の欄に記載したように、知識データベースから検索されたテキストデータをエージェントが発話する場合、その内容に応じてデータを選択する処理であってもよい。
・3D選択処理としては、3D用テクスチャデータ24eのうちのシナリオデータ24bによって指定されたデータを選択する処理に限らない。たとえば「ユーザとの対話について」の欄に記載したように、知識データベースから検索されたテキストデータをエージェントが発話する場合、その内容に応じてデータを選択する処理であってもよい。
「記憶装置について」
・上記実施形態では、テクスチャマッピング等の処理において記憶装置26に書き込まれた3D用テクスチャデータ24eを用いることとしたが、これに限らない。たとえば、記憶装置26を備えることなく、記憶装置24に記憶された3D用テクスチャデータ24eを用いてテクスチャマッピングをしてもよい。
・上記実施形態では、テクスチャマッピング等の処理において記憶装置26に書き込まれた3D用テクスチャデータ24eを用いることとしたが、これに限らない。たとえば、記憶装置26を備えることなく、記憶装置24に記憶された3D用テクスチャデータ24eを用いてテクスチャマッピングをしてもよい。
「表示制御装置について」
・表示制御装置が、3D用テクスチャデータ24eが記憶されている記憶装置を備えることは必須ではない。たとえば、記憶装置24には、3D用テクスチャデータ24eが記憶されておらず、S14の処理において、外部から3D用テクスチャデータ24eを受信して記憶装置26に記憶してもよい。
・表示制御装置が、3D用テクスチャデータ24eが記憶されている記憶装置を備えることは必須ではない。たとえば、記憶装置24には、3D用テクスチャデータ24eが記憶されておらず、S14の処理において、外部から3D用テクスチャデータ24eを受信して記憶装置26に記憶してもよい。
「実行装置について」
・実行装置としては、CPU,GPU,TPU等のソフトウェア処理を実行するものに限らない。たとえば、上記実施形態においてソフトウェア処理されたものの少なくとも一部を、ハードウェア処理する専用のハードウェア回路を備えてもよい。専用のハードウェア回路は、たとえばASIC等としてもよい。すなわち、実行装置は、以下の(a)~(c)のいずれかの構成であればよい。(a)上記処理の全てを、プログラムに従って実行する処理装置と、プログラムを記憶するプログラム格納装置とを備える。(b)上記処理の一部をプログラムに従って実行する処理装置およびプログラム格納装置と、残りの処理を実行する専用のハードウェア回路とを備える。(c)上記処理の全てを実行する専用のハードウェア回路を備える。ここで、処理装置およびプログラム格納装置を備えたソフトウェア実行装置、および専用のハードウェア回路の少なくとも一方は、複数であってもよい。
・実行装置としては、CPU,GPU,TPU等のソフトウェア処理を実行するものに限らない。たとえば、上記実施形態においてソフトウェア処理されたものの少なくとも一部を、ハードウェア処理する専用のハードウェア回路を備えてもよい。専用のハードウェア回路は、たとえばASIC等としてもよい。すなわち、実行装置は、以下の(a)~(c)のいずれかの構成であればよい。(a)上記処理の全てを、プログラムに従って実行する処理装置と、プログラムを記憶するプログラム格納装置とを備える。(b)上記処理の一部をプログラムに従って実行する処理装置およびプログラム格納装置と、残りの処理を実行する専用のハードウェア回路とを備える。(c)上記処理の全てを実行する専用のハードウェア回路を備える。ここで、処理装置およびプログラム格納装置を備えたソフトウェア実行装置、および専用のハードウェア回路の少なくとも一方は、複数であってもよい。
10…対話ユニット
12…表示部
14…エージェント画像
20…表示制御装置
24…記憶装置
26…記憶装置
60…顔上部モデル
62…顔下部モデル
70…目部データ
72…顎部データ
12…表示部
14…エージェント画像
20…表示制御装置
24…記憶装置
26…記憶装置
60…顔上部モデル
62…顔下部モデル
70…目部データ
72…顎部データ
Claims (7)
- 記憶装置と、実行装置と、を備え、
前記記憶装置には、エージェントに関する複数のテクスチャデータである2D用テクスチャデータと、前記2D用テクスチャデータとは別のデータであって且つ前記エージェントの目、および口部分のテクスチャデータを含むデータである3D用テクスチャデータと、が記憶されており、
前記エージェントは、ユーザと対話する人物であり、
前記2D用テクスチャデータは、前記エージェントの互いに異なる姿勢を示す複数のデータを含み、
前記3D用テクスチャデータは、前記エージェントの互いに異なる表情のそれぞれを示す目および口部分の複数のデータを含み、
前記実行装置は、2Dマッピング処理、3Dマッピング処理、および表示処理を実行し、
前記2Dマッピング処理は、前記2D用テクスチャデータに含まれる複数の姿勢のデータから選択された1つのデータを2Dモデルにマッピングする処理であり、
前記3Dマッピング処理は、前記3D用テクスチャデータに含まれる複数の表情から選択された1つの表情のデータを3Dモデルにマッピングする処理であり、
前記表示処理は、前記2Dマッピング処理がなされた画像データと、前記3Dマッピング処理がなされた画像データとが合成された画像データを表示部に表示する処理である表示制御装置。 - 前記3D用テクスチャデータは、前記エージェントの互いに異なる表情のそれぞれを示す眉毛部分の複数のデータを含む請求項1記載の表示制御装置。
- 前記記憶装置には、前記3D用テクスチャデータがマッピングされる3Dモデルデータが記憶されており、
前記3D用テクスチャデータのうちの口部分のデータは、顎部分のデータを含み、
前記顎部分のデータは、口が閉じた状態のデータと口が開いた状態のデータとを含み、
前記口が閉じた状態の前記顎部分のデータがマッピングされる前記3Dモデルと、前記口が開いた状態の前記顎部分のデータがマッピングされる前記3Dモデルとは、同一のモデルである請求項1または2記載の表示制御装置。 - 前記記憶装置には、前記3Dモデルの位置および回転角を前記2D用テクスチャデータが示す前記エージェントの互いに異なる姿勢のそれぞれに対して規定するデータである規定データが記憶されており、
前記3Dマッピング処理は、前記規定データに基づき前記3D用テクスチャデータを前記3Dモデルにマッピングする処理である請求項1~3のいずれか1項に記載の表示制御装置。 - 前記記憶装置に記憶された前記3D用テクスチャデータは、プリレンダリングされたデータである請求項1~4のいずれか1項に記載の表示制御装置。
- 前記記憶装置は、第1記憶装置と、第2記憶装置と、を備え、
前記第1記憶装置には、前記3D用テクスチャデータが常時記憶されており、
前記実行装置は、書き込み処理を実行し、
前記書き込み処理は、前記第1記憶装置に記憶された前記3D用テクスチャデータを前記第2記憶装置に書き込む処理であり、
前記3Dマッピング処理は、前記第2記憶装置に書き込まれた前記3D用テクスチャデータを用いて前記3Dモデルに前記3D用テクスチャデータをマッピングする処理である請求項1~5のいずれか1項に記載の表示制御装置。 - 前記実行装置は、
前記ユーザとの対話に応じて前記エージェントの互いに異なる姿勢を示す複数のデータのうちの前記2Dマッピング処理に利用するデータを選択する2D選択処理と、
前記ユーザとの対話に応じて前記エージェントの互いに異なる表情のそれぞれを示す複数のデータのうちの前記3Dマッピング処理に利用するデータを選択する3D選択処理と、
を実行する請求項1~6のいずれか1項に記載の表示制御装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021197063A JP2023082998A (ja) | 2021-12-03 | 2021-12-03 | 表示制御装置 |
PCT/JP2022/044554 WO2023101010A1 (ja) | 2021-12-03 | 2022-12-02 | 表示制御装置 |
CN202280077206.7A CN118284908A (zh) | 2021-12-03 | 2022-12-02 | 显示控制装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021197063A JP2023082998A (ja) | 2021-12-03 | 2021-12-03 | 表示制御装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023082998A true JP2023082998A (ja) | 2023-06-15 |
Family
ID=86612406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021197063A Pending JP2023082998A (ja) | 2021-12-03 | 2021-12-03 | 表示制御装置 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP2023082998A (ja) |
CN (1) | CN118284908A (ja) |
WO (1) | WO2023101010A1 (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6504546B1 (en) * | 2000-02-08 | 2003-01-07 | At&T Corp. | Method of modeling objects to synthesize three-dimensional, photo-realistic animations |
JP5639440B2 (ja) * | 2010-10-26 | 2014-12-10 | 日本放送協会 | Cgキャラクタ制作装置及びcgキャラクタ制作プログラム |
JP6291265B2 (ja) * | 2014-01-27 | 2018-03-14 | 日本放送協会 | 手話cg合成装置及びそのプログラム |
JP2020204790A (ja) * | 2017-08-31 | 2020-12-24 | らしさ・ドット・コム株式会社 | シミュレーション装置、シミュレーション方法、及びコンピュータプログラム |
JP6826645B1 (ja) | 2019-09-30 | 2021-02-03 | 株式会社コロプラ | プログラム、方法、および端末装置 |
-
2021
- 2021-12-03 JP JP2021197063A patent/JP2023082998A/ja active Pending
-
2022
- 2022-12-02 WO PCT/JP2022/044554 patent/WO2023101010A1/ja active Application Filing
- 2022-12-02 CN CN202280077206.7A patent/CN118284908A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
CN118284908A (zh) | 2024-07-02 |
WO2023101010A1 (ja) | 2023-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10489959B2 (en) | Generating a layered animatable puppet using a content stream | |
US11554315B2 (en) | Communication with augmented reality virtual agents | |
US10894211B2 (en) | Information processing method, apparatus, and system for executing the information processing method | |
CN113781610A (zh) | 一种虚拟人脸的生成方法 | |
KR20120130627A (ko) | 아바타를 이용한 애니메이션 생성 장치 및 방법 | |
WO2021196644A1 (zh) | 交互对象的驱动方法、装置、设备以及存储介质 | |
TWI736054B (zh) | 化身臉部表情產生系統及化身臉部表情產生方法 | |
US10825224B2 (en) | Automatic viseme detection for generating animatable puppet | |
CN115222856B (zh) | 表情动画生成方法及电子设备 | |
WO2023101010A1 (ja) | 表示制御装置 | |
WO2017002483A1 (ja) | プログラム、情報処理装置、深度定義方法及び記録媒体 | |
JP2006323512A (ja) | 画像生成システム、プログラム及び情報記憶媒体 | |
JP2011215709A (ja) | 漫画作成支援装置、漫画作成支援方法及びプログラム | |
JP2003346181A (ja) | アニメーション画像の生成プログラム | |
JP2003256866A (ja) | 画像生成情報、ゲーム情報、情報記憶媒体、画像生成装置、およびゲーム装置 | |
JP2010033299A (ja) | 画像生成システム、プログラム及び情報記憶媒体 | |
WO2024004609A1 (ja) | 情報処理装置、情報処理方法、および記録媒体 | |
EP4385592A1 (en) | Computer-implemented method for controlling a virtual avatar | |
JP7526874B2 (ja) | 画像生成システムおよび画像生成方法 | |
KR102595666B1 (ko) | 영상 생성 방법 및 장치 | |
US20240202984A1 (en) | Systems and methods for generating images to achieve a style | |
US20240221270A1 (en) | Computer-implemented method for controlling a virtual avatar | |
US20230017974A1 (en) | Voice user interface processing method and recording medium | |
Kato et al. | CV-Mora Based Lip Sync Facial Animations for Japanese Speech | |
US20240173620A1 (en) | Predicting the Appearance of Deformable Objects in Video Games |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20220209 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240529 |