JP2002108382A - リップシンクを行うアニメーション方法および装置 - Google Patents

リップシンクを行うアニメーション方法および装置

Info

Publication number
JP2002108382A
JP2002108382A JP2000294151A JP2000294151A JP2002108382A JP 2002108382 A JP2002108382 A JP 2002108382A JP 2000294151 A JP2000294151 A JP 2000294151A JP 2000294151 A JP2000294151 A JP 2000294151A JP 2002108382 A JP2002108382 A JP 2002108382A
Authority
JP
Japan
Prior art keywords
animation
phoneme
generating
data
phoneme data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000294151A
Other languages
English (en)
Inventor
Yasunori Oto
康紀 大戸
Yuichi Ueda
裕一 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2000294151A priority Critical patent/JP2002108382A/ja
Publication of JP2002108382A publication Critical patent/JP2002108382A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 リップシンク・アニメーションを簡易に生成
する。 【解決手段】 音声データを受けとって音素解析を行
い、時間軸に沿って音素イベントを生成する(31)。
1または複数の音素に対応した口形状アニメーションを
重み付け加算して明瞭な、あるいは、あいまいな音素に
対応した明瞭な口形状、あるいは、あいまいな口形状の
アニメーションを生成する(32)。口の動きのほうが
発声より早い音素の場合には音素イベントを音声データ
タイミングより早めにする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、二次元あるいは三
次元形状のモデルにおいて、音声データに同期して、口
となる部分のアニメーションを生成する技術に関する。
本発明の技術はアニメーションの作成時あるいは実行時
に使用され、ゲームや映像コンテンツなどで活用され
る。
【0002】
【従来の技術】従来のリップシンクアニメーションで
は、音声データを記録した後、そのデータに合わせてリ
ップアニメーションを作成する必要があった。もしく
は、予めあたりをつけておいた口のアニメーションに対
して音声データを当てていく必要があった。
【0003】
【発明が解決しようとする課題】従来のリップシンクア
ニメーションでは、音声データを見ながらアニメーショ
ンを作成していく場合、かなりの入力が必要であった。
また、この場合、音声データとアニメーションとを分離
することが難しく、リップアニメーションの再利用性も
ほとんどなかった。また、音声データを追加する場合、
新たにリップアニメーションを作成したり、前に作成し
たアニメーションを修正する必要があった。
【0004】また、アテレコによって音声データをアニ
メーションに付加していく場、アニメーションと音声の
間に明確な対応関係がなく、声優の経験によるところが
大きかった。
【0005】本発明は上述の事情を考慮してなされたも
のであり、音声データ等に基づいて自動的に口の部分を
含むアニメーションを自動的に生成することができるア
ニメーション技術を提供することを目的としている。
【0006】
【課題を解決するための手段】本発明によれば、上述の
目的を達成するために、特許請求の範囲に記載のとおり
の構成を採用している。ここでは、本発明について若干
補充的な説明を行う。
【0007】本発明の原理的な構成例によれば、音声デ
ータの音素解析を行った後、解析で得られた音素の種類
に対する重みを計算し、あいまいな口形状を示すデータ
を作成する。次に、音素間の形状変化アニメーションの
作成を行い、音声データに対してイベント作成した口形
状アニメーションをマッピングする。この際、破裂音
(/p/や/b/)などにおいて口形状の変化が音素の
発音以前に行われるため、イベントを前方に修正する。
口形状のアニメーションを行う時点で、音声データを再
生し、これと同時に、イベントに基づいてアニメーショ
ン合成を行うことにより、同期の取れたアニメーション
の表示を行う。
【0008】このような構成によれば、二次元あるいは
三次元モデルのアニメーションの作成とは別に、音声デ
ータのみを後から独立して追加することが可能であり、
モデル設計時においてリップシンクアニメーションを個
々に作成する必要がなくなる。さらに、音声データに対
して、インタラクティブにリップアニメーションを生成
することができる。また、/a/と/e/の中間などの
あいまいな発音に対して、あいまいな口の動きを実現す
ることができる。また、子音に対して、有声音と無声音
(/z/と/s/なと)や、破裂音と摩擦音(/p/と
/z/)など、発音状態として同時にその状態を取り得
ない場合や、音素間の連続性として、/y,a/、/
y,y/、/y,o/などが許されるのに対して、/
y,i/、/y,e/が許されないなどといった制約を
盛り込むことが可能になる。
【0009】なお、音素としては、子音、母音単位であ
つかってもよいし、より大きな単位例えば音節のシンボ
ルとして扱ってもよい。要するに口形状とマッピング可
能な単位のものであればどのような音素を用いてもよ
い。
【0010】また、本発明は方法としても装置としても
実現可能である。また、そのような方法をコンピュータ
で実現するために用いるプログラムを記録したコンピュ
ータ読取り可能な記録媒体も本発明の技術的な範囲に含
まれる。
【0011】
【発明の実施の形態】ここでは、本発明におけるリップ
シンクアニメーション生成およびその表示を実現するた
めの装置の説明をした後、音声データの解析方法と、あ
いまいな発音に対する、口のあいまいなアニメーション
の生成方法について説明を行う。
【0012】図1は、本発明の実施例のアニメーション
生成装置を全体として示しており、この図において、ア
ニメーション生成装置1は、音素イベント生成部(アプ
リケーション)2、アニメーション処理部(アプリケー
ション)3、オペレーティングシステム4、入力装置
5、出力装置6、その他のリソース(ハードウェア、ソ
フトウェア)7等を含んで構成されている。アニメーシ
ョン生成装置1は、実際には、ゲーム機、マルチメディ
アキオスク、パーソナルコンピュータ等に実装される。
アニメーション編集装置として構成してもよい。オペレ
ーティングシステム4は、実装環境に応じたものであ
り、パーソナルコンピュータ用の汎用のオペレーティン
グシステムでもよいし、機器独自の組み込みオペレーテ
ィングシステムでもよい。音素イベント生成部2は、入
力音声データを解析してアニメーション生成の音素イベ
ントを生成するものである。詳細については図4を参照
して後に説明する。アニメーション処理部3は、音素イ
ベント生成部2から音素イベントを受けとってリップシ
ンクのアニメーションを合成して画像データを生成する
ものである。図示しないが、画像生成の一部を、専用の
ハードウェアを用いて行ってもよい。
【0013】図2は、図1の音素イベントおよびアニメ
ーション処理の関係を説明するものである。図1におい
て、音声データを解析して音素データ21(「ko」、
「nn」、「ni」、「ti」、「wa」)が生成さ
れ、音素データの出現タイミングに応じて対応するアニ
メーション22、23、24が生成される。各アニメー
ション22、23、24は音素に応じた口形状をしてお
り、音素イベントの出現に応じて対応するアニメーショ
ンを起動することによりリップシンクを実現できる。
【0014】図3は、本実施例の動作を概要を示してお
り、この図に示すように、本実施例では、音声データに
対する前処理を行って音素イベントを生成し(31)、
この後、音声データに同期した口のアニメーションを行
っている(32)。もちろん、音声データに対する前処
理は逐次処理が可能であり、音声データをストリーミン
グ入力しながら、アニメーションを生成することも可能
となっている。これらの処理31および32は図1の音
素イベント生成部2およびアニメーション処理部3にそ
れぞれ対応しており、それぞれ後に詳述する。
【0015】図4は、音声データに対して行う前処理の
流れを示す。図4において、音声データをシステムに入
力し(401)、音素解析を行った後(402)、状態
遷移を通すことによってその候補を制限する(40
3)。同時に複数の音素が候補として残る場合には、こ
れによって得られた複数の音素分に対して口形状の重み
割合を計算し、口形状の合成情報を作成する(40
4)。この後、音素遷移におけるアニメーションを作成
し(405)、音素データに対してイベントとアニメー
ションの登録を行う(406)。
【0016】次に、これらの処理について一つずつ説明
を行う。
【0017】図5に音声データの入力ソース(506)
の一例を示す。インターネットにおけるストリーミング
データ(501)や放送(502)、マイクによる直接
入力(503)や、CD(504)、MD(505)な
どの記録媒体からの入力が可能となっている。
【0018】次に、音素解析について説明する。最初に
図6に示すように音声の波形データ(602)におい
て、ゼロに交わる点(601)を抽出し、その周期性を
調べる。子音が過渡的であるのに対し、母音部における
周期性が揃っていることから、解析フレームを適宜作成
していくことにより、母音・子音の分離と、スペクトル
解析の精度を向上させることができる。ここで、603
は波形の周期を示している。また604で示す部分は、
波形の周期が過渡的であることから子音フレームとして
判断されている。また、605で示す部分は波形の周期
が揃っていることから、母音フレームと判断されてい
る。
【0019】次に、図7に示すように、入力された音声
データ(a)において、図6で判断した解析フレームご
とに周波数スペクトル(b)、(c)を求める。
【0020】なお、周波数スペクトルの求め方としては
FET(高速フーリエ変換)やMEM(最大エントロピ
ー法)などがある。これらの手法は周知であるのでとく
に説明は行わない。詳細については例えば「時系列解析
プログラム」(北川源四郎著、岩波書店発行)を参照さ
れたい。
【0021】取得した周波数スペクトルはいくつかの主
要となる周波数成分を持っており、図8(a)に示すよ
うに、低周波数側から、第一フォルマント(801)、
第二フォルマント(802)、第三フォルマント(80
3)と言われている。本実施例ではこれらのフォルマン
ト間の関係を用いて音素解析を行う。なお、フォルマン
トに関しては、「フーリエの冒険」(トランスナショナ
ルカレッジオブブックス編集、ヒッポファミリークラブ
発行)等を参照されたい。
【0022】ここで、リップシンクアニメーションにお
いては、同一モデルに対して一人の音声データ提供者が
担当することが普通であり、この実施例では、特定話者
を想定することにする。なお、不特定話者の場合に対し
ても、音素解析の手法が変化するだけであり、全体とし
ては同一の構成となる。
【0023】そして、特定話者を想定することから、図
8(b)に示すように、フォルマントと音素の関係につ
いてキャリブレーションを行っておく。ここで、804
〜808は、各母音の位置を示している。また、これは
話者の音質が変化しない限りにおいて、再度取り直す必
要がない。
【0024】図9(a)に示すように、音声データに対
して設定した解析フレーム毎のフォルマントデータ91
を取得し、図8(b)において行った、キャリブレーシ
ョンしたフォルマント位置との関係を取得する。
【0025】次に、図10に示すような音素間の状態遷
移を考慮し、音素候補の絞込みを行う。図10(a)の
状態遷移では、1001は音素/k/を表し、すべての
母音(図1002〜1006)への変化が可能であるこ
とを示している。一方、図10(b)の状態遷移では、
1007は音素/y/を表し、/a/(1008)、/
u/(1009)、/o/(1010)の母音へのみの
状態遷移が許されていることを示している。
【0026】また、図11における、図1101から1
102の遷移と、1103から1104への遷移によっ
て生成されるアニメーション(1105から1106へ
の変化)が同じものについては、一つにまとめて扱うこ
とができる。
【0027】次に、図12に示すように、音素候補(1
202,1203,1205,1206,1207)に
おけるフォルマント位置と計測されたフォルマント位置
(図1204)の距離を計算し、各音素候補毎の重みを
計算する。重み計算例を図1201に示す。この際、人
間の耳は実際の周波数より、オクターブとして認識する
ことから、各成分に対して対数を取った上で扱ってい
る。
【0028】また、図13に示すように、第三フォルマ
ントを用いる場合も、距離の計算方法(1301)が変
化する以外は、音素候補(1302,1303,130
5,1306)におけるフォルマント位置と計測された
フォルマント位置(1304)から、同様に計算するこ
とができる。
【0029】次に、図14に示すように、各音素フレー
ムにおける口形状を各音素に対応する口形状の重み付け
合成として表現する。ここで、1401〜1403は各
フレームにおける音素毎の重み配分を示している。ま
た、図1404〜1406は、各々の重み付け合成によ
って生成される口形状を示している。
【0030】また、図15に示すように、子音発音時に
おいて、前後の口形状(1401、1503)から、音
素間のアニメーション(1502)を作成する。このと
き、破裂音など、音素が実際に発音される前に口形状が
変化しているものに関しては、イベントを前に移動(1
504)しておく。また、アニメーション時間として、
移動後のフレーム時間を用いるとする。ここで、図15
05は/p/の発音イベントを示しており、この時、ア
ニメーション(1502)に割り振っておく。また、図
1506は/a/の発音イベントを示している。
【0031】図16に示すように、図15において作成
した音素アニメーションとイベントデータの発生(16
01)に従って、口形状のアニメーションを起動してい
く(1602)。次に、移動中のアニメーションの合成
(1603)したあと、画面への表示(1604)を行
う。
【0032】なお、アニメーションの合成に関しては、
例えば、複数の基本のアニメーションを所定の係数で線
形加算して目的のアニメーションを合成することができ
る。線形加算による合成する手法は、周知の手法を採用
できる。例えば、特開平2000−11199号公報
「アニメーションの自動生成方法」を採用してもよい。
【0033】アニメーション表示の様子を図17に示
す。まず、音声データ(1713)の再生を行い、これ
にマッピングされているイベント(1710,171
1,1712)とアニメーションを起動していく。次
に、起動したアニメーションの合成を行い(1708)
最終的に口形状のアニメーションを表示する(170
1,1702,1703)。ここで、1709はイベン
トデータを示しており、また1705,1706,17
07は各アニメーションを示している。
【0034】なお、ストリーミングによって音声データ
が配信される場合には、音素解析が行われている時間分
バッファリング(遅れ)が生じるが、これは計算機の能
力向上に伴って遅れ時間を短くすることが可能である。
【0035】
【発明の効果】前記のように、本発明によれば、音素デ
ータに対するリップシンクアニメーションを予め作成し
ておくのではなく、音声データから適宜、合成によって
生成するために、後から音声データを作成し、追加する
ことが容易になる。また、音素解析におけるあいまいさ
に対してあいまいな口表現を行うという意味を付けるこ
とによって、より自然な口の表現が可能になる。
【図面の簡単な説明】
【図1】 本発明の実施例の実現例を全体として示す図
である。
【図2】 上述実施例の概要を説明する図である。
【図3】 上実施例の動作の流れの概要を示す図であ
る。
【図4】 上述実施例の音素イベントの生成を説明する
図である。
【図5】 上述実施例における音声データの入力ソース
を説明する図である。
【図6】 上述実施例における音素解析用の解析フレー
ムを説明する図である。
【図7】 上述実施例の解析フレーム単位の周波数スペ
クトルの取得を説明する図である。
【図8】 周波数スペクトルのフォルマント位置のキャ
リブレーションを説明する図である。
【図9】 解析フレーム単位でフォルマントを取り出す
ことを説明する図である。
【図10】 音素間の状態遷移図を説明する図である。
【図11】 同じ口のアニメーションとして集約できる
状態遷移を一つにまとめる態様を説明する図である。
【図12】 計測されたフォルマントと、キャリブレー
ションとの関係から重みを計算する態様を説明する図で
ある。
【図13】 子音に関して重み計算を行う態様を説明す
る図である。
【図14】 音素に対応した口の形状の合成状態として
あいまいな口を表現することを示す図である。
【図15】 音素間における口形状のアニメーションを
作成することを示す図である。
【図16】 くりアニメーションの合成と表示の流れを
説明する図である。
【図17】 音声データの再生に合わせて口形状を表す
アニメーションを合成していく様子を説明する図であ
る。
【符号の説明】
1 アニメーション生成装置 2 音素イベント生成部 3 アニメーション処理部 4 オペレーティングシステム 5 入力装置 6 出力装置
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 21/06 G10L 3/00 S 15/22 561C Fターム(参考) 5B050 BA08 BA12 EA19 EA24 FA10 5D015 AA05 BB02 CC03 CC04 DD02 KK01 LL12 5D045 AB01 AB11

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 音声データから音素データを生成するス
    テップと、 上記音素データに基づいて二次元ないし三次元のモデル
    の口の部分のアニメーションを生成するステップとを有
    することを特徴とするアニメーション生成方法。
  2. 【請求項2】 上記口の部分のアニメーションを生成す
    るステップは、音素データの組合せによりあいまいな音
    声を表し、この組合せに含まれる音素データにそれぞれ
    対応する口の部分のアニメーションを重み付け合成する
    請求項1記載のアニメーション生成方法。
  3. 【請求項3】 所定の音素データについては、音素デー
    タのタイミングより、対応する口の部分のアニメーショ
    ンの生成のタイミングが所定時間早くする請求項1記載
    のアニメーション生成方法。
  4. 【請求項4】 音素データの生成を有限状態オートマト
    ンを参照して行い音素間の遷移に所定の制約を設ける請
    求項1記載のアニメーション生成方法。
  5. 【請求項5】 音声データから音素データを生成するス
    テップと、 上記音素データに基づいて二次元ないし三次元のモデル
    の口の部分のアニメーションを生成するステップと、 上記音素データを基準にして上記音声データと上記アニ
    メーションとを同期させて再生するステップとを有する
    ことを特徴とするアニメーション生成方法。
  6. 【請求項6】 音素データに基づいて二次元ないし三次
    元のモデルの口の部分のアニメーションを生成し、さら
    に、音素データの組合せによりあいまいな音声を表し、
    この組合せに含まれる音素データにそれぞれ対応する口
    の部分のアニメーションを重み付け合成することを特徴
    とするアニメーション生成方法。
  7. 【請求項7】 音素データに基づいて二次元ないし三次
    元のモデルの口の部分のアニメーションを生成し、さら
    に、所定の音素データについては、音素データのタイミ
    ングより、対応する口の部分のアニメーションの生成の
    タイミングが所定時間早くすることを特徴とするアニメ
    ーション生成方法。
  8. 【請求項8】 音素データの組合せによりあいまいな音
    声を表し、この組合せに含まれる音素データにそれぞれ
    対応する口の部分のアニメーションを重み付け合成する
    請求項7記載のアニメーション生成方法。
  9. 【請求項9】 音声データから音素データを生成する手
    段と、 上記音素データに基づいて二次元ないし三次元のモデル
    の口の部分のアニメーションを生成する手段とを有する
    ことを特徴とするアニメーション生成装置。
  10. 【請求項10】 音声データから音素データを生成する
    手段と、 上記音素データに基づいて二次元ないし三次元のモデル
    の口の部分のアニメーションを生成する手段と、 上記音素データを基準にして上記音声データと上記アニ
    メーションとを同期させて再生する手段とを有すること
    を特徴とするアニメーション生成装置。
  11. 【請求項11】 音声データから音素データを生成する
    ステップと、 上記音素データに基づいて二次元ないし三次元のモデル
    の口の部分のアニメーションを生成するステップと、 上記音素データを基準にして上記音声データと上記アニ
    メーションとを同期させて再生するステップとをコンピ
    ュータに実行させるために用いるコンピュータプログラ
    ムをコンピュータ読取り可能に記録するアニメーション
    生成用の記録媒体。
JP2000294151A 2000-09-27 2000-09-27 リップシンクを行うアニメーション方法および装置 Pending JP2002108382A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000294151A JP2002108382A (ja) 2000-09-27 2000-09-27 リップシンクを行うアニメーション方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000294151A JP2002108382A (ja) 2000-09-27 2000-09-27 リップシンクを行うアニメーション方法および装置

Publications (1)

Publication Number Publication Date
JP2002108382A true JP2002108382A (ja) 2002-04-10

Family

ID=18776814

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000294151A Pending JP2002108382A (ja) 2000-09-27 2000-09-27 リップシンクを行うアニメーション方法および装置

Country Status (1)

Country Link
JP (1) JP2002108382A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005241997A (ja) * 2004-02-26 2005-09-08 Sega Corp 音声解析装置、音声解析方法及び音声解析プログラム
JP2006292930A (ja) * 2005-04-08 2006-10-26 Yamaha Corp 音声合成装置および音声合成プログラム
JP2008241772A (ja) * 2007-03-26 2008-10-09 Konami Digital Entertainment:Kk 音声画像処理装置、音声画像処理方法、ならびに、プログラム
JP2011070623A (ja) * 2009-08-31 2011-04-07 Sony Corp 画像処理装置および画像処理方法、並びにプログラム
JP2011164763A (ja) * 2010-02-05 2011-08-25 Yamaha Corp 制御情報生成装置および形状制御装置
JP2011203761A (ja) * 2011-07-12 2011-10-13 Yamaha Corp 音声合成装置および音声合成プログラム
CN102819856A (zh) * 2012-07-10 2012-12-12 广东工业大学 一种根据中文对白生成连贯嘴型动画的方法
CN109326151A (zh) * 2018-11-01 2019-02-12 北京智能优学科技有限公司 基于语义驱动虚拟形象的实现方法、客户端和服务器
JP2019533255A (ja) * 2016-10-24 2019-11-14 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited ページリダイレクトループを検出する方法及び装置
CN110853614A (zh) * 2018-08-03 2020-02-28 Tcl集团股份有限公司 虚拟对象口型驱动方法、装置及终端设备
JP7194371B1 (ja) 2022-06-29 2022-12-22 カバー株式会社 プログラム、方法、情報処理装置
CN117275485A (zh) * 2023-11-22 2023-12-22 翌东寰球(深圳)数字科技有限公司 一种音视频的生成方法、装置、设备及存储介质

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005241997A (ja) * 2004-02-26 2005-09-08 Sega Corp 音声解析装置、音声解析方法及び音声解析プログラム
US7680660B2 (en) 2004-02-26 2010-03-16 Sega Corporation Voice analysis device, voice analysis method and voice analysis program
JP2006292930A (ja) * 2005-04-08 2006-10-26 Yamaha Corp 音声合成装置および音声合成プログラム
JP2008241772A (ja) * 2007-03-26 2008-10-09 Konami Digital Entertainment:Kk 音声画像処理装置、音声画像処理方法、ならびに、プログラム
JP2011070623A (ja) * 2009-08-31 2011-04-07 Sony Corp 画像処理装置および画像処理方法、並びにプログラム
JP2011164763A (ja) * 2010-02-05 2011-08-25 Yamaha Corp 制御情報生成装置および形状制御装置
JP2011203761A (ja) * 2011-07-12 2011-10-13 Yamaha Corp 音声合成装置および音声合成プログラム
CN102819856A (zh) * 2012-07-10 2012-12-12 广东工业大学 一种根据中文对白生成连贯嘴型动画的方法
JP2019533255A (ja) * 2016-10-24 2019-11-14 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited ページリダイレクトループを検出する方法及び装置
CN110853614A (zh) * 2018-08-03 2020-02-28 Tcl集团股份有限公司 虚拟对象口型驱动方法、装置及终端设备
CN109326151A (zh) * 2018-11-01 2019-02-12 北京智能优学科技有限公司 基于语义驱动虚拟形象的实现方法、客户端和服务器
JP7194371B1 (ja) 2022-06-29 2022-12-22 カバー株式会社 プログラム、方法、情報処理装置
JP2024005034A (ja) * 2022-06-29 2024-01-17 カバー株式会社 プログラム、方法、情報処理装置
CN117275485A (zh) * 2023-11-22 2023-12-22 翌东寰球(深圳)数字科技有限公司 一种音视频的生成方法、装置、设备及存储介质
CN117275485B (zh) * 2023-11-22 2024-03-12 翌东寰球(深圳)数字科技有限公司 一种音视频的生成方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US20190196666A1 (en) Systems and Methods Document Narration
US8793133B2 (en) Systems and methods document narration
US8364488B2 (en) Voice models for document narration
JP5143569B2 (ja) 音響的特徴の同期化された修正のための方法及び装置
JPH10153998A (ja) 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
US20160365087A1 (en) High end speech synthesis
US9997153B2 (en) Information processing method and information processing device
JPH10312467A (ja) 像合成のための自動スピーチ整列方法
Umbert et al. Expression control in singing voice synthesis: Features, approaches, evaluation, and challenges
US20220392430A1 (en) System Providing Expressive and Emotive Text-to-Speech
GB2422755A (en) Audio signal processing
JP2002108382A (ja) リップシンクを行うアニメーション方法および装置
JP2008052628A (ja) アニメーションデータ作成装置及びアニメーションデータ作成プログラム
KR100710600B1 (ko) 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동동기 생성/재생 방법 및 그 장치
Brooke et al. Two-and three-dimensional audio-visual speech synthesis
JP7069386B1 (ja) 音声変換装置、音声変換方法、プログラム、および記録媒体
Minnis et al. Modeling visual coarticulation in synthetic talking heads using a lip motion unit inventory with concatenative synthesis
Mattheyses et al. On the importance of audiovisual coherence for the perceived quality of synthesized visual speech
JP2009216724A (ja) 音声生成装置及びコンピュータプログラム
Loscos Spectral processing of the singing voice.
Pan et al. VOCAL: Vowel and Consonant Layering for Expressive Animator-Centric Singing Animation
JP2009216723A (ja) 類似音声選択装置、音声生成装置及びコンピュータプログラム
JPH1165597A (ja) 音声合成装置、音声合成及びcg合成出力装置、ならびに対話装置
JP2006162760A (ja) 語学学習装置
JP4563418B2 (ja) 音声処理装置、音声処理方法、ならびに、プログラム