JPH11231899A

JPH11231899A - 音声・動画像合成装置及び音声・動画像データベース

Info

Publication number: JPH11231899A
Application number: JP10029437A
Authority: JP
Inventors: Katsuyoshi Yamagami; 勝義山上; Kenji Matsui; 謙二松井
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1998-02-12
Filing date: 1998-02-12
Publication date: 1999-08-27

Abstract

(57)【要約】【課題】合成音声に同期した顔の動画像が違和感があ
り不自然である。【解決手段】多数のテキスト例に対して構文解析を行
い、入力テキスト中の単語の読み、アクセント位置、ポ
ーズ位置などの言語情報から決定された音韻列と、各音
韻列の基本周波数パターン、パワー、スペクトルなどの
韻律情報と、各音韻列に対応する音声単位波形列とを格
納する音声データベース１０５と、所定の入力テキスト
に対して構文解析を行い、その入力テキスト中の単語の
読み、アクセント位置、ポーズ位置などの言語情報を決
定する言語解析手段１０１と、言語解析手段から言語情
報を受け取り、入力テキストに対応した、少なくとも、
音韻列、基本周波数パターンを決定する音韻パラメータ
生成手段と１０２、音声データベース１０５に格納され
た音韻列、韻律情報を参照しながら、音韻パラメータ生
成部の決定した音韻列、基本周波数パターンに適合する
音声単位波形の波形を、音声データベース１０５から選
択し、各接続することにより合成音声を生成する音声単
位接続手段１０３とを備える。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、入力したテキストを合
成音で読み上げ、かつ、音声に同期した動画像を生成す
る音声・動画像合成装置に関するものである。

【０００２】

【従来の技術】任意の文章からそれに対応した合成音声
を自由に生成する技術は、規則音声合成と呼ばれ、これ
を実現する規則音声合成装置はすでに実用化されてお
り、機械から人間への自然な出力チャネルとして、様々
な分野で応用されている。一方、音声の合成と同様に、
任意の文章からそれを読み上げた時の口の動きを含む人
物の動画像を合成する技術が開発されており、これを、
音声合成技術と組み合わせることで、音声と動画が同期
した形で提供されるより自然なインターフェースを実現
することができる。

【０００３】従来、このような音声と動画像を同時に提
供する装置を実現する試みが、いくつかあった。例え
ば、音韻の種類ごとに口の部分の画像を保持し、読み上
げるテキストの発音に対応して口の部分の画像を切り替
える方法が行われていた（方式１）。また、顔の画像の
各部の変化の度合いを音韻の種類ごとにパラメータ化
し、音声合成時に発音系列に対応するパラメータ系列に
従って、顔の画像を変化させることによって、顔の動画
像を生成する方法があった（方式２）。

【０００４】

【発明が解決しようとする課題】しかし、方法１では、
顔の口以外の部分は変化せず、かえって不自然な印象を
与えてしまうという課題があった。また、前後の発音の
種類とは関係なく、１つの発音については、同じ口の動
画像を用いるため、各発音に対応する動画像の接続部分
において違和感なく接続することが難しいという課題が
あった。また、方式２においては、あらかじめ顔の各部
の変化をパラメータ化するといったコストのかかる作業
を伴うという課題があった。さらに、同じ発音部分でも
声の大きさ、ピッチ、一発話における当該発音部分の位
置などによって、口の形状、それに付随する表情が微妙
に異なり、限られたパラメータの変化では、その詳細な
再現が不可能であるといった課題があった。

【０００５】本発明は、従来のこのような画像・音声合
成装置の課題を考慮し、合成音声に同期した違和感のな
い自然な動画像を生成する画像・音声合成装置を提供す
ることを目的とするものである。

【０００６】

【課題を解決するための手段】本発明は、多数のテキス
ト例に対して構文解析を行い、入力テキスト中の単語の
読み、アクセント位置、ポーズ位置などの言語情報から
決定された音韻列と、各音韻列の基本周波数パターン、
パワー、スペクトルなどの韻律情報と、各音韻列に対応
する音声単位波形列とを格納する音声データベースと、
所定の入力テキストに対して構文解析を行い、その入力
テキスト中の単語の読み、アクセント位置、ポーズ位置
などの言語情報を決定する言語解析手段と、前記言語解
析手段から言語情報を受け取り、前記入力テキストに対
応した、少なくとも、音韻列、基本周波数パターンを決
定する音韻パラメータ生成手段と、前記音声データベー
スに格納された音韻列、韻律情報を参照しながら、前記
音韻パラメータ生成部の決定した音韻列、基本周波数パ
ターンに適合する音声単位波形の波形を、前記音声デー
タベースから選択し、各接続することにより合成音声を
生成する音声単位接続手段と、を備えたことを特徴とす
る音声合成装置である。

【０００７】前記音声データベースは、人間の発話して
いる音声の音声データから構成し、前記動画像データベ
ースは、発話の様子の録画データから構成し、音声デー
タベース中の音声データと動画像データベース中の動画
像データは、互いに時間軸上で対応がとれており、同期
した状態で、音声データと画像データを取り出すことが
できることが好ましい。

【０００８】前記動画像単位接続手段は、前記音声単位
選択手段で選択された音声データベースの音声単位の時
間軸上において対応する動画像単位を動画像データベー
スから選択し、前記音声単位接続手段が音声単位を接続
するのと同じタイミングで動画像単位を接続して得られ
る合成動画像を合成音声と同期させて出力できることが
好ましい。

【０００９】かかる構成によれば、動画像接続手段は、
顔全体の画像単位を接続して合成動画像を生成するの
で、発音する際の顔全体の表情の変化を伴った自然な顔
画像を生成できる。

【００１０】また、動画像接続手段は、音声単位接続手
段が選択した音声単位を発音している部分に対応する顔
画像の動画像単位を選択し、接続するので連続に変化す
る自然な顔の動画像を生成することができる。

【００１１】さらに、互いのデータが時間的に同期して
いる音声データベース、動画像データベースを用いてい
るため、顔画像を生成するための特別な作業を行う必要
がないという特徴を有す。

【００１２】そして、ある程度の量の音声データ、動画
像データがあれば、同じ発音に対しても微妙に表情の異
なる顔の動画像単位が動画像データベース内に複数存在
し、それらと対応する音声単位には、それぞれ、異なる
ピッチ、パワー、スペクトルなどの音韻パラメータが付
与されており、音韻パラメータ生成手段が生成する音韻
パラメータの変化に応じて、最適な音声単位と動画像単
位を選択することができるので、表情の変化・差異をよ
り詳細に忠実に再現した合成動画像を生成することがで
きる。

【００１３】

【発明の実施の形態】本発明の実施の形態を図面にもと
づいて説明する。

【００１４】図１は、本実施の形態の音声合成・動画像
合成の機能を持った音声・動画像合成装置の構成図であ
る。以下にその構成を動作とともに説明する。

【００１５】まず、音声・動画像データベース１０５の
内容について説明する。

【００１６】音韻インデックス１０５ａについて説明す
る。あらかじめ、例えば５００個のテキスト文につい
て、順にデータＩＤを１から５００まで付す。そして、
各テキスト文について、言語解析手段が、入力テキスト
文に対して形態素解析を行い、テキストを構成する単語
列、および、その読みを決定する。さらに、単語列を文
節にまとめ、アクセント位置、アクセント句を決定、ポ
ーズ位置を決定する。図２はその様子を示す。２０１が
テキスト文であり、その言語解析結果が２０２である。
２０２ａはアクセント位置の情報が付与された読みであ
る。２０２ｂはアクセント区の区切りの位置を示す記号
である。２０２ｃはポーズの位置を示す記号である。ア
クセントの区切り記号２０２ｂあるいはポーズの位置の
記号２０２ｃで挟まれた読みの列が１つのアクセント区
である。

【００１７】さらに、韻律パラメータ生成手段が、上記
言語解析手段が決定した単語の読み、アクセント句、ア
クセント位置、ポーズ位置から、出力する音声を構成す
る音韻列を生成する。図３は、その韻律パラメータ生成
手段が生成する音韻列の例を示す。３０１は、言語解析
手段が出力した読み、アクセント句、アクセント位置、
ポーズ位置の情報である。３０２ａは、音韻パラメータ
生成手段が生成した音韻列である。本実施の形態では、
音韻の単位を「母音−子音−母音」（以後ＶＣＶと記
す）としており、各音韻記号は、母音、子音、母音の並
びで表されている。‘＃’は、発音の始め、発音の終わ
りに相当する記号で、‘＃ｋａ’は、その音韻がアクセ
ント句の始めに現れることを、‘ｉ＃’は、その音韻が
アクセント句の最後に現れることを示す。

【００１８】このようにして、ＩＤ１〜ＩＤ５００のテ
キスト文について、それぞれその構成する音韻列４０
１、ができる。さらに個々の音韻４０１に対して、前後
の前音韻４０２、後音韻４０３が付与される。

【００１９】さらに、それらの５００のテキスト文を例
えばアナウンサーによって読み上げてもらい、それを録
音してサンプリングした音声データに対してそれぞれの
音韻４０１の発音と対応する音声データの部分の時間区
間（t1〜t2等）を格納する。

【００２０】このようにして生成された、これら音韻４
０１、前音韻４０２、後音韻４０３、データＩＤ４０
４、時間区間４０５を図１の音韻インデックス１０５ａ
にあらかじめ格納しておく。

【００２１】また、図１の音声データベース１０５ｃに
は、音韻インデックス１０５ａのデータＩＤ４０４、時
間区間４０５によって指定される音声単位が取り出し可
能な形式で音声データを保持する。

【００２２】また、図１の韻律情報データベース１０５
ｂには、音声データベース１０５ｃの音声データに対し
て、データＩＤ４０４、時間区間４０５に対応して、基
本周波数、パワー、スペクトルについてあらかじめ分析
した結果を保持する。

【００２３】また、図１の動画像データベース１０５ｄ
は、音韻インデックス１０５ａのデータＩＤ４０４、時
間区間４０５によって指定される動画像単位が取り出し
可能な形式で動画像データを保持する。

【００２４】以上のデータベース１０５の内容を図５に
示す。

【００２５】５０１は音韻インデックス１０５ａの音韻
４０１であり、対応する時間区間４０５（t1,t2,t
3,....等）が付与されている。５０２は音声データベー
ス１０５ｃの音声波形である。５０３と５０４は、それ
ぞれ、韻律情報データベース１０５ｂに記録されている
基本周波数とパワーのデータである。５０５は、動画像
データベース１０５ｂに記録されている顔動画像であ
る。

【００２６】次に、図１の言語解析部１０１、韻律パラ
メータ生成部１０２、音声単位接続部１０３、動画像単
位接続部１０４についてその動作とともに説明する。

【００２７】１０１は、言語解析部であり、未知の入力
テキストに対して形態素解析を行い、テキストを構成す
る単語列、および、その読みを決定する。さらに、単語
列を文節にまとめ、アクセント位置、アクセント句を決
定、ポーズ位置を決定する。図２に、言語解析部１０１
が入力テキストから読み、アクセント句、アクセント位
置、ポーズ位置を決定した例を示す。便宜上上述したデ
ータベース１０５の説明で利用したテキストを利用する
が実際はもちろん異なる未知の文章である。２０１は、
その入力テキストである。入力テキスト２０１を言語処
理部１０２が処理した結果が、２０２である。読みは、
ローマ字で表している。‘ｐｏｓ’はポーズの挿入位置
を表す記号である。‘／’ はアクセント句の区切りを
示す記号であり、‘／’あるいは‘ｐｏｓ’で区切られ
た読みの列のひとかたまりが１アクセント句に相当す
る。アクセント句‘ｋａ１ｓｕｋａｎｉ’の最初
の読みに付された‘１’はその読みの位置にアクセント
があることを示す。１０２は、韻律パラメータ生成部で
あり、言語解析部１０１が決定した単語の読み、アクセ
ント句、アクセント位置、ポーズ位置から、出力する音
声を構成する音韻列、基本周波数パターンを生成する。
図３に、韻律パラメータ生成部１０２が生成する音韻
列、基本周波数パターンの例を示す。３０１は、言語解
析部１０１が出力した読み、アクセント句、アクセント
位置、ポーズ位置の情報である。３０２ａは、音韻パラ
メータ生成手段１０２が生成した音韻列である。本実施
の形態では、音韻の単位を「母音−子音−母音」として
おり、各音韻記号は、母音、子音、母音の並びで表され
ている。‘＃’は、発音の始め、発音の終わりに相当す
る記号で、‘＃ｋａ’は、その音韻がアクセント句の始
めに現れることを、‘ｉ＃’は、その音韻がアクセント
句の最後に現れることを示す。さらに、３０２ｂは、基
本周波数パターンであり、音韻列３０２ａを発音する際
の声の高さの時間変化のパターンを表す。

【００２８】１０３は音声単位接続部であり、韻律パラ
メータ生成部１０２から受け取った音韻列に適合する音
声単位とその韻律情報を音声・動画像データベース１０
５から探索する。

【００２９】すなわち、音声・動画像データベース１０
５は、上述したように、音韻インデックス１０５ａと、
韻律情報データベース１０５ｂと、音声データベース１
０５ｃ、動画像データベース１０５ｄから構成される。

【００３０】上述したことと重複する部分も含めて、こ
れらデータベースを説明する。音韻インデックス１０５
ａは、音声単位接続部１０３が目的の音韻を探し、その
音韻の韻律情報、音声単位、動画像単位にアクセスする
ために設けてある。図４は、音韻インデックス１０５ａ
の内容の一例を示す図である。音韻４０１は、音声デー
タベース１０５ｃの音声単位列データに対応する音韻ラ
ベルであり、これを手がかりに、音声単位接続部１０３
は、韻律パラメータ生成部１０２から受け取った音韻列
に適合する音声単位とその韻律情報を探索する。前音韻
４０２、後音韻４０３は、音声データベース１０５ｃに
おいて、音韻４０１が存在する位置の前後の音声単位に
付与された音韻ラベルである。４０４は、データＩＤで
あり、韻律情報データベース１０５ｂ、音声データベー
ス１０５ｃ、動画像データベース１０５ｄに含まれるデ
ータを識別するための識別子である。３つのデータベー
ス内で同一のデータＩＤ番号が付与されたデータは、互
いに対応しているデータである。４０５は、時間区間で
あり、データＩＤ４０４から特定される、３つのデータ
ベースのデータの中から取り出すべき、音韻情報デー
タ、音声データ、動画像データの時間位置を指定するも
のである。

【００３１】韻律情報データベース１０５ｂは、音声デ
ータベース１０５ｃの音声データに対して、基本周波
数、パワー、スペクトルについてあらかじめ分析した結
果を保持する。本実施の形態では、基本周波数について
は、基本周波数ｆ０と基本周波数の時間変化率Ｐ０’、
パワーについてはパワーＰ、パワーの時間変化率Ｐ’、
スペクトルについては、１０次のＬＰＣケプストラムと
して保持する。

【００３２】音声データベース１０５ｃは、音韻インデ
ックス１０５ａのデータＩＤ４０４、時間区間４０５に
よって指定される音声単位が取り出し可能な形式で音声
データを保持する。

【００３３】動画像データベース１０５ｄは、音韻イン
デックス１０５ａのデータＩＤ４０４、時間区間４０５
によって指定される動画像単位が取り出し可能な形式で
動画像データを保持する。

【００３４】そこで、音声単位接続部１０３は、韻律パ
ラメータ生成部１０２からの音韻列、基本周波数パター
ンに従って、音声データベース１０５ｃから、最適な音
声単位を選択し、接続する。その際の音声単位列選択の
手続きは、以下の通りである。ＳＴＥＰ１：韻律パラメータ生成部１０２の決定した音
韻列Ｐｉ（ｉ＝１，２，…，ｎ）中の各音韻Ｐｉについ
て音韻インデックス１０５ａ中の音韻４０１を参照し、
該当する候補音韻について、韻律情報データを韻律情報
データベース１０５ｂより取り出す。ＳＴＥＰ２：各候補の音声単位の前後に位置する音声単
位の音韻ラベルが韻律パラメータ生成部１０２の決定し
た音韻列の対応する位置にある音韻と一致するかどうか
を調べ、各音声単位候補に対して次のようなスコアＬｉ
を与える。Ｌｉ＝ｉｆ前の音韻ラベルが一致ｔｈｅｎ０ｅｌｓｅ１＋ｉｆ後ろの音韻ラベルが一致ｔｈｅｎ０ｅｌｓｅ１ＳＴＥＰ３：各音声単位候補の韻律情報データに対して
音声単位区間での平均基本周波数を求め、韻律パラメー
タ生成部１０２の決定した基本周波数パターンの対応す
る区間での平均基本周波数との差Ｆａｖｇｄｉｆｆ＿ｉ
（値の差の絶対値）を求める。ＳＴＥＰ４：各音声単位候補の隣り合う音声単位に関し
て、接続位置における韻律情報データから基本周波数の差：Ｆ０ｄｉｆｆ＿ｉ，ｉ＋１、基本周波数変化率の差：Ｆ０’ｄｉｆｆ＿ｉ，ｉ＋１パワーの差：Ｐｄｉｆｆ＿ｉ，ｉ＋１パワー変化率の差：Ｐ’ｄｉｆｆ＿ｉ，ｉ＋１１０次のＬＰＣケプストラムのユークリッド距離：Ｃｄ
ｉｓ＿ｉ，ｉ＋１を求める。ＳＴＥＰ５：各音声単位候補の音声単位のあらゆる組み
合わせに対して、ＳＴＥＰ２，ＳＴＥＰ３、ＳＴＥＰ４
で求めた値から、総コスト＝ｗ１×Σ（ｉ＝１…ｎ）Ｌ＿ｉ＋ｗ２×Σ（ｉ＝１…ｎ）Ｆａｖｇｄｉｆｆ＿ｉ＋ｗ３×Σ（ｉ＝１…ｎ−１）Ｆ０ｄｉｆｆ＿ｉ，ｉ＋１＋ｗ４×Σ（ｉ＝１…ｎ−１）Ｆ０’ｄｉｆｆ＿ｉ，ｉ＋１＋ｗ５×Σ（ｉ＝１…ｎ−１）Ｐｄｉｆｆ＿ｉ，ｉ＋１＋ｗ６×Σ（ｉ＝１…ｎ−１）Ｐ’ｄｉｆｆ＿ｉ，ｉ＋１＋ｗ７×Σ（ｉ＝１…ｎ−１）Ｃｄｉｓ＿ｉ，ｉ＋１を計算し、各音韻に対する音声単位候補から総コストが
最小となる音声単位の列を選択する。ｗｉ（ｉ＝１…
７）は、各値の差、あるいは、距離に対する総コストへ
の重みである。

【００３５】ＳＴＥＰ２では、韻律パラメータ生成部１
０２が生成した音韻列の各音韻列に対して前後の音韻が
与えられたものに近いか、すなわち、前後の音韻環境が
与えられたものに近いかどうかという基準を考慮してい
る。音声データベースの連続する音声単位に付与された
音韻ラベルが与えられた音韻列に一致する長さが長いほ
ど、この基準のコストが小さくなり、与えられた音韻列
に対してそれを満たす連続した音声単位をデータベース
から選ぶように働く。

【００３６】ＳＴＥＰ３では、韻律パラメータ生成部１
０２が生成した基本周波数パターンに近いかどうかとい
う基準を考慮している。

【００３７】ＳＴＥＰ４では、前後する音声単位の接続
点での基本周波数、パワー、スペクトルの変化のなめら
かさという基準を考慮している。これらの基準は、たと
えば、ＳＴＥＰ２で考慮している基準を満たさない、す
なわち、前後の音韻が一致しない音声単位の候補しか得
られなかった場合に、なるべく前後の音声単位と音響的
になめらかに接続するものを選ぶように働く。これらの
基準で音声単位を選択し、接続することにより、可能な
限り人間の発話した音声に近い合成音声生成することが
できる。

【００３８】つぎに、１０４は、動画像接続部であり、
音声単位接続部１０３において選択された音声単位に対
応する動画像単位を、動画像データベース１０５ｄより
選択し、接続する。音声単位接続部１０３が選択した音
声単位は、上記の基準に従って選択されるので、動画像
接続部１０４から生成される動画像も、可能な限り連続
する動画像単位から構成された自然な合成動画像とな
る。

【００３９】なお、上記実施の形態では、入力テキスト
の言語を日本語としたが、これは、他の言語でもよい。
他の言語の場合は、言語処理部１０１を当該言語に応じ
たものとし、音声単位を当該言語の発音に応じて割り当
てることで、上記実施の形態と同じ構成で、音声合成、
動画像合成が可能である。

【００４０】上記実施の形態では、前後の音韻の一致・
不一致を基にコストを与えが、これは、前後ｎ個の音韻
の一致・不一致でもよい。また、韻律情報としては、基
本周波数、基本周波数の時間変化、パワー、パワーの時
間変化、１０次のＬＰＣケプストラムとしたが、他の音
響的パラメータを韻律情報として用いてもよい。

【００４１】

【発明の効果】以上のように本発明の音声・動画像合成
装置によれば、顔全体の画像を接続して合成画像を生成
するので、発音する際の顔全体の表情の変化を伴った自
然な顔の動画像を生成できる。また、音声データベース
からなるべく連続する音声単位を選び、それに対応する
連続した動画像単位を接続して動画像を生成するので、
連続に変化する自然な顔の動画像を生成することができ
る。さらに、音声データベースと動画像データベースを
用意するだけで、動画像生成のための特別の作業を必要
としない。そして、ある程度の音声データ、動画像デー
タを集めれば、同じ音韻に対しても微妙に音韻情報の異
なる音声単位が複数存在し、その音声単位に対応して微
妙に異なる動画像単位も動画像データベースに複数存在
する。そして、それらを発音の音韻列に応じて使い分け
ることが可能なので、表情の変化・差異をより忠実に再
現した合成動画像を生成することができる。

【図面の簡単な説明】

【図１】本発明の一実施の形態である音声・動画像合成
装置の構成を示すブロック図である。

【図２】本発明の一実施の形態の言語解析部の解析例を
示す図である。

【図３】本発明の一実施の形態の韻律パラメータ生成部
が生成する音韻列と基本周波数パターンの例である。

【図４】本発明の一実施の形態の韻律インデックスの内
容の一例を示す図である。

【図５】本発明の一実施の形態の音声波形列と、基本周
波数パターンと、パワーとを示す波形図である。

【符号の説明】１０１言語解析部１０２韻律パラメータ生成部１０３音声単位接続部１０４動画像単位接続部１０５音声・画像データベース１０５ａ音韻インデックス１０５ｂ韻律情報データベース１０５ｃ音声データベース１０５ｄ動画像データベース２０１入力テキスト３０２ａ音韻列３０２ｂ基本周波数パターン５０１音韻列と時間区間５０２音声波形５０３基本周波数５０４パワー５０５顔動画像

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号ＦＩＧ１０Ｌ 3/00 Ｇ０６Ｆ 15/62 ３４０Ａ // Ｇ０６Ｆ 17/30 15/40 ３７０Ｇ

Claims

【特許請求の範囲】

【請求項１】多数のテキスト例に対して構文解析を行
い、入力テキスト中の単語の読み、アクセント位置、ポ
ーズ位置などの言語情報から決定された音韻列と、各音
韻列の基本周波数パターン、パワー、スペクトルなどの
韻律情報と、各音韻列に対応する音声単位波形列とを格
納する音声データベースと、所定の入力テキストに対して構文解析を行い、その入力
テキスト中の単語の読み、アクセント位置、ポーズ位置
などの言語情報を決定する言語解析手段と、前記言語解析手段から言語情報を受け取り、前記入力テ
キストに対応した、少なくとも、音韻列、基本周波数パ
ターンを決定する音韻パラメータ生成手段と、前記音声データベースに格納された音韻列、韻律情報を
参照しながら、前記音韻パラメータ生成部の決定した音
韻列、基本周波数パターンに適合する音声単位波形の波
形を、前記音声データベースから選択し、各接続するこ
とにより合成音声を生成する音声単位接続手段と、を備えたことを特徴とする音声合成装置。
【請求項２】前記音声単位波形列に対応する動画単位
列を格納する動画像データベースをさらに備え、その動
画像データベースから、請求項１記載の音声単位接続手
段において選択された音声単位波形列に対応する動画像
単位列を選択し、接続することにより合成動画像を生成
する動画像単位接続手段とを備えたことを特徴とする音
声・動画像合成装置。
【請求項３】多数のテキスト例に対して構文解析を行
い、入力テキスト中の単語の読み、アクセント位置、ポ
ーズ位置等の言語情報から決定された音韻列と、各音韻
列の基本周波数パターン、パワー、スペクトルなどの韻
律情報と、各音韻列に対応する音声単位波形列と、それ
らの音声単位波形列に対応する、音声を発話する顔の動
きの動画像単位列を格納した音声・動画像データベー
ス。
【請求項４】人間の音声の録音データと、音声を発話
する顔の動きの録画データの２つから作成した時間的に
同期した音声・動画像データベース。