JP4379616B2 - モーションキャプチャデータ補正装置、マルチモーダルコーパス作成システム、画像合成装置、及びコンピュータプログラム - Google Patents
モーションキャプチャデータ補正装置、マルチモーダルコーパス作成システム、画像合成装置、及びコンピュータプログラム Download PDFInfo
- Publication number
- JP4379616B2 JP4379616B2 JP2005056592A JP2005056592A JP4379616B2 JP 4379616 B2 JP4379616 B2 JP 4379616B2 JP 2005056592 A JP2005056592 A JP 2005056592A JP 2005056592 A JP2005056592 A JP 2005056592A JP 4379616 B2 JP4379616 B2 JP 4379616B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- speaker
- marker
- utterance
- feature point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
- Image Processing (AREA)
Description
本実施の形態では、音声及び顔の動画像に加えて、発話時の表情に関するデータを含むマルチモーダルコーパスを作成する。本実施の形態では、音声及び動画像の収録時に、顔の多数の部位について位置計測を併せて行なう。さらに当該位置の計測データから顔の各器官の変化を表すデータを取得し、表情に関する特徴量データとする。そして、当該顔器官の変化を表すデータ(以下、「顔器官変化量データ」と呼ぶ)と音声及び動画像のデータとを対応付けてデータベース化することにより、マルチモーダルコーパスを作成する。本実施の形態ではさらに、発話時の表情変化を表現するアニメーションを、マルチモーダルコーパスをもとに作成する。この際、顔の形状モデルに顔器官の変化を順次割り当てる。
図1に、本実施の形態に係るマルチモーダルコーパス作成システム100全体の構成を示す。図1を参照して、このマルチモーダルコーパス作成システム100は、発話者102の音声及び顔の動画像を収録すると同時に、発話者102の顔の各部位について位置計測を行なうための収録システム104と、収録システム104による位置の計測結果を基に顔器官変化量データを生成し、収録システム104による収録で得られる発話時の音声のデータ及び動画像のデータ、並びに当該顔器官変化量データを発話内容と対応付けることによりマルチモーダルコーパス106を作成するためのマルチモーダルコーパス作成装置108とを含む。
収録システム104は、発話時における発話者102の顔の各部位の位置及びその軌跡を計測しキャプチャデータとして出力するためのモーションキャプチャシステム120と、発話者102の音声を収録するための録音システム122と、発話時における発話者102の動画像を撮影するための撮影システム124と、発話者に発話すべき内容として提示される所定の文章、単語、文字、及び音節の記号等で構成された発話内容を格納する発話リスト126と、発話リスト126の発話内容のいずれかを発話者102に提示するためのテレプロンプタ128と、モーションキャプチャシステム120及び撮影システム124に対してタイムコードを供給するためのタイムコードジェネレータ130とを含む。
図2(A)及び図2(B)に、発話者102の首部より上へのマーカの装着例を示す。図2(A)は、発話者102の顔面及び首部の右半分の所定位置にマーカを装着した状態での、発話者102の頭部及び首部の外観を示す右側面図であり、図2(B)は、同状態での発話者102の頭部及び首部の外観を示す正面図である。
図3に、マルチモーダルコーパス作成装置108(図1参照)の機能的構成をブロック図で示す。図3を参照して、マルチモーダルコーパス作成装置108は、モーションキャプチャデータ160をデータ処理装置134から取込むためのモーションキャプチャデータ取込部180と、音声収録データ162を録音装置144から取込むための音声収録データ取込部182と、カムコーダ収録データ164をカムコーダ150から取込むためのカムコーダ収録データ取込部184と、取込まれたモーションキャプチャデータ160、音声収録データ162、及びカムコーダ収録データ164(以下、これらのデータをまとめて「収録データ」と呼ぶことがある。)を発話リスト126を構成する発話内容ごとに切出して、発話内容ごとの収録データのセット(以下、「発話別収録データセット」と呼ぶ。)200A,…,200L(以下これらをまとめて「発話別収録データセット200」と呼ぶことがある。)を生成するための切出処理部186と、発話別収録データセット200を記憶するための発話別収録データセット記憶部188とを含む。なお、カムコーダ収録データ164のうちの音声データよりも音声収録データ162の方が高音質であるため、本実施の形態では音声収録データ162を用いる。
本実施の形態に係るマルチモーダルコーパス作成システム100は以下のように動作する。まず、図1に示すマルチモーダルコーパス作成システム100の収録システム104を用いた、音声、動画像、及びモーションキャプチャデータの収録プロセスについて説明する。
図3を参照して、マルチモーダルコーパス作成装置108のモーションキャプチャデータ取込部180は、図1に示す収録システム104のデータ処理装置134よりモーションキャプチャデータ160を取込む。この際モーションキャプチャデータ取込部180は、モーションキャプチャデータ160を、3次元コンピュータグラフィックスを扱うソフトウェアで利用可能な形式で取込む。
次に、アニメーション作成装置114がアニメーション112を作成する動作について説明する。図6を参照して、アニメーション作成装置114に初期顔モデル110が与えられると、アニメーション作成装置114は、動作を開始する。図9に、初期顔モデル110の一例を示す。図9を参照して、この初期顔モデル110は、発話者102の顔の静止画像と所定のワイヤフレームモデルとを整合させることにより準備された形状モデルである。この顔モデルは、約750のポリゴンで構成されている。初期顔モデル110は、仮想マーカ設定部300と、マーカ対応顔モデル作成部302のノード選択部312及び選択マーカ検査部316とに与えられる。
[コンピュータによる実現及び動作]
なお、本実施の形態のマルチモーダルコーパス作成装置108及びアニメーション作成装置114は、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図12はこのコンピュータシステム500の外観を示し、図13はコンピュータシステム500の内部構成を示す。
104 収録システム
106 マルチモーダルコーパス
108 マルチモーダルコーパス作成装置
110 初期顔モデル
112 アニメーション
114 アニメーション作成装置
122 録音システム
124 撮影システム
134 データ処理装置
170A,…,170M マーカ
180 モーションキャプチャデータ取込部
182 音声収録データ取込部
184 カムコーダ収録データ取込部
186 切出処理部
188 発話別収録データセット記憶部
190 正規化処理部
192 発話別データセット生成部
200A,…,200L 発話別収録データセット
202A,…,202L 発話別データセット
212 発話別モーションキャプチャデータ
214 発話別音声データ
216 発話別動画像データ
220 顔器官変化量データ
230 モーションキャプチャデータ記憶部
232 音声収録データ記憶部
234 カムコーダ収録データ記憶部
240 動画像データ切出部
242 モーションキャプチャデータ切出部
244 同期処理部
246 音声データ切出部
248 データセット形成部
260 データ分類部
262 頭部補正用マーカデータ選択部
264 頭部アフィン行列算出部
266 頭部マーカデータ変換部
272 首部補正用マーカデータ選択部
274 首部アフィン行列算出部
276 首部マーカデータ変換部
278 データ統合部
300 仮想マーカ設定部
302 マーカ対応顔モデル作成部
304 発話別データセット取得部
306 顔モデル変形部
308 画像化部
Claims (8)
- 発話時の発話者の動画像から得られたモーションキャプチャデータを補正するためのモーションキャプチャデータ補正装置であって、前記モーションキャプチャデータは、複数フレームを含み、前記複数フレームの各々は、当該フレーム撮影時における前記発話者の頭部の複数個の特徴点の位置データを含み、前記複数個の特徴点は、前記発話者の首部より上であってかつ前記発話者の表情変化の影響を受けない所定箇所に配置された第1の種類の特徴点と、その他の特徴点とを含み、
前記複数フレームの各々に対する前記複数個の特徴点の位置データから、前記第1の種類の特徴点の位置データを選択するための選択手段と、
前記複数フレームの各々に対し、前記選択手段により選択された位置データを基準として、前記複数個の特徴点の各々の位置データを補正するための補正手段とを含み、
前記第1の種類の特徴点は、前記発話者の頭部であってかつ前記発話者の表情変化の影響を受けない所定箇所に配置された第1の基準特徴点と、前記発話者の首部であってかつ前記発話者の表情変化の影響を受けない所定箇所に配置された第2の基準特徴点とを含み、
前記選択手段は、
前記複数フレームの各々に対し、前記複数個の特徴点の位置データを、前記発話者の頭部の特徴点の位置データと、前記発話者の首部の特徴点の位置データとに分類するための分類手段と、
前記分類手段により分類された前記発話者の頭部の特徴点の位置データから、前記第1の基準特徴点のデータを選択するための頭部基準特徴点選択手段と、
前記頭部基準特徴点選択手段により選択された前記第1の基準特徴点のデータを基準に、同じフレームの前記頭部の特徴点の位置データを補正するための頭部補正式を算出するための頭部補正式算出手段と、
前記複数フレームの各々に対し、前記頭部の特徴点の位置データに前記頭部補正式算出手段により算出された頭部補正式を適用して補正するための頭部補正手段と、
前記分類手段により分類された前記発話者の首部の特徴点の位置データから、前記第2の基準特徴点のデータを選択するための首部基準特徴点選択手段と、
前記首部基準特徴点選択手段により選択された前記第2の基準特徴点のデータを基準に、同じフレームの前記首部の特徴点の位置データを補正するための首部補正式を算出するための首部補正式算出手段と、
前記複数フレームの各々に対し、前記首部の特徴点の位置データに前記首部補正式算出手段により算出された首部補正式を適用して補正するための首部補正手段とを含む、モーションキャプチャデータ補正装置。 - 前記第1の種類の特徴点は、前記発話者の額領域、こめかみ領域、及び鼻の先端領域のいずれかに配置される、請求項1に記載のモーションキャプチャデータ補正装置。
- 前記補正手段は、
前記複数フレームの各々に対し、前記選択手段により選択された前記第1の種類の特徴点の位置データを基準に、同じフレームの前記複数個の特徴点の位置データを補正するための補正式を算出するための補正式算出手段と、
前記複数フレームの各々に対し、前記複数個の特徴点の位置データに前記補正式算出手段により算出された補正式を適用して補正するための補正式適用手段とを含む、請求項1又は請求項2のいずれかに記載のモーションキャプチャデータ補正装置。 - 発話時の発話者の顔画像を含む動画像データと、当該発話時の音声の録音データと、発話時における前記発話者の顔の予め定める複数の特徴点に関するモーションキャプチャデータとを発話ごとにそれぞれ分離し、互いに対応付けて保存するための発話分離手段と、
前記発話分離手段により分離された各発話の前記モーションキャプチャデータを補正するための、請求項1〜請求項3のいずれかに記載のモーションキャプチャデータ補正装置とを含む、マルチモーダルコーパス作成システム。 - コンピュータにより実行されると、当該コンピュータを、請求項1〜請求項3のいずれかに記載のモーションキャプチャデータ補正装置として動作させる、コンピュータプログラム。
- 顔オブジェクトの形状を第1の座標空間における複数のノードの座標値を用いて定義した形状モデルと、所定の発話を行なっている発話者の顔画像から得られた、前記発話者の頭部の複数の特徴点の所定の第2の座標系における位置情報とを基に、前記所定の発話を行なう前記顔オブジェクトの表情を表す画像を合成するための画像合成装置であって、
前記発話者の頭部の複数の特徴点は、請求項1に記載のモーションキャプチャデータ補正装置により、各々の位置データが補正され、
前記複数の特徴点と、前記形状モデル内の任意の点との対応関係を定義することにより、前記形状モデル内に前記複数の特徴点にそれぞれ対応する複数の仮想特徴点を設定するための仮想特徴点設定手段と、
前記複数のノードの各々に対し、前記複数の仮想特徴点のうちで、当該ノードからの距離が小さいものから順番に、かつ当該ノードと仮想特徴点とを結ぶ線分が前記形状モデルに対し所定の制約条件を充足するものを所定個数だけ選定するための仮想特徴点選定手段と、
前記複数のノードの各々に対し、前記仮想特徴点選定手段により選定された所定個数の仮想特徴点の位置情報の間の内挿により算出される座標値を割当てることにより前記形状モデルを変形させるための形状モデル変形手段と、
前記形状モデル変形手段により得られた形状モデルに基づいて前記顔オブジェクトの画像を生成するための画像生成手段とを含む、画像合成装置。 - 前記仮想特徴点選定手段は、前記複数のノードの各々に対し、前記複数の仮想特徴点のうちで、当該ノードからの距離が小さいものから順番に、かつ当該ノードと仮想特徴点とを結ぶ線分が前記形状モデルの境界エッジを横切らないものを所定個数だけ選定するための手段を含む、請求項6に記載の画像合成装置。
- コンピュータにより実行されると、当該コンピュータを、請求項6又は請求項7に記載の画像合成装置として動作させる、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005056592A JP4379616B2 (ja) | 2005-03-01 | 2005-03-01 | モーションキャプチャデータ補正装置、マルチモーダルコーパス作成システム、画像合成装置、及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005056592A JP4379616B2 (ja) | 2005-03-01 | 2005-03-01 | モーションキャプチャデータ補正装置、マルチモーダルコーパス作成システム、画像合成装置、及びコンピュータプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006243975A JP2006243975A (ja) | 2006-09-14 |
JP2006243975A5 JP2006243975A5 (ja) | 2007-02-15 |
JP4379616B2 true JP4379616B2 (ja) | 2009-12-09 |
Family
ID=37050349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005056592A Expired - Fee Related JP4379616B2 (ja) | 2005-03-01 | 2005-03-01 | モーションキャプチャデータ補正装置、マルチモーダルコーパス作成システム、画像合成装置、及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4379616B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8014565B2 (en) * | 2005-08-26 | 2011-09-06 | Sony Corporation | Labeling used in motion capture |
JP2008299493A (ja) * | 2007-05-30 | 2008-12-11 | Kaoru Sumi | コンテンツ作成支援システム及びコンピュータプログラム |
CN101796545A (zh) * | 2007-09-04 | 2010-08-04 | 索尼公司 | 综合运动捕捉 |
US8390628B2 (en) * | 2007-09-11 | 2013-03-05 | Sony Computer Entertainment America Llc | Facial animation using motion capture data |
JPWO2009145071A1 (ja) * | 2008-05-28 | 2011-10-06 | 国立大学法人 東京大学 | 運動データベース構造、および当該運動データベース構造のための運動データ正規化方法、並びに当該運動データベース構造を用いた検索装置及び方法 |
CN108242007B (zh) * | 2016-12-26 | 2022-01-25 | 纳恩博(北京)科技有限公司 | 服务提供方法及装置 |
-
2005
- 2005-03-01 JP JP2005056592A patent/JP4379616B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006243975A (ja) | 2006-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cao et al. | Expressive speech-driven facial animation | |
US6654018B1 (en) | Audio-visual selection process for the synthesis of photo-realistic talking-head animations | |
JP5344358B2 (ja) | 演技から作り出される顔アニメーション | |
US9082400B2 (en) | Video generation based on text | |
JP4631078B2 (ja) | リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム | |
US7168953B1 (en) | Trainable videorealistic speech animation | |
JP4886645B2 (ja) | 仮想顔モデル変形装置及び仮想顔モデル変形プログラム | |
US6662161B1 (en) | Coarticulation method for audio-visual text-to-speech synthesis | |
US7990384B2 (en) | Audio-visual selection process for the synthesis of photo-realistic talking-head animations | |
US20020024519A1 (en) | System and method for producing three-dimensional moving picture authoring tool supporting synthesis of motion, facial expression, lip synchronizing and lip synchronized voice of three-dimensional character | |
US8078466B2 (en) | Coarticulation method for audio-visual text-to-speech synthesis | |
JP4543263B2 (ja) | アニメーションデータ作成装置及びアニメーションデータ作成プログラム | |
US20140210831A1 (en) | Computer generated head | |
JP2014519082A5 (ja) | ||
JP4379616B2 (ja) | モーションキャプチャデータ補正装置、マルチモーダルコーパス作成システム、画像合成装置、及びコンピュータプログラム | |
JP2009020761A (ja) | 画像処理装置及びその方法 | |
CN113228163A (zh) | 基于文本和音频的实时面部再现 | |
US7257538B2 (en) | Generating animation from visual and audio input | |
US7117155B2 (en) | Coarticulation method for audio-visual text-to-speech synthesis | |
Mattos et al. | Improving CNN-based viseme recognition using synthetic data | |
Železný et al. | Design, implementation and evaluation of the Czech realistic audio-visual speech synthesis | |
Mana et al. | An italian database of emotional speech and facial expressions | |
US7392190B1 (en) | Coarticulation method for audio-visual text-to-speech synthesis | |
Theobald et al. | 2.5 D Visual Speech Synthesis Using Appearance Models. | |
Graf et al. | Sample-based synthesis of talking heads |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061221 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061221 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090518 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090526 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090709 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090811 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090908 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121002 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131002 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |