JPH11231899A - 音声・動画像合成装置及び音声・動画像データベース - Google Patents

音声・動画像合成装置及び音声・動画像データベース

Info

Publication number
JPH11231899A
JPH11231899A JP10029437A JP2943798A JPH11231899A JP H11231899 A JPH11231899 A JP H11231899A JP 10029437 A JP10029437 A JP 10029437A JP 2943798 A JP2943798 A JP 2943798A JP H11231899 A JPH11231899 A JP H11231899A
Authority
JP
Japan
Prior art keywords
voice
moving image
unit
phoneme
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10029437A
Other languages
English (en)
Inventor
Katsuyoshi Yamagami
勝義 山上
Kenji Matsui
謙二 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP10029437A priority Critical patent/JPH11231899A/ja
Publication of JPH11231899A publication Critical patent/JPH11231899A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

(57)【要約】 【課題】 合成音声に同期した顔の動画像が違和感があ
り不自然である。 【解決手段】 多数のテキスト例に対して構文解析を行
い、入力テキスト中の単語の読み、アクセント位置、ポ
ーズ位置などの言語情報から決定された音韻列と、各音
韻列の基本周波数パターン、パワー、スペクトルなどの
韻律情報と、各音韻列に対応する音声単位波形列とを格
納する音声データベース105と、所定の入力テキスト
に対して構文解析を行い、その入力テキスト中の単語の
読み、アクセント位置、ポーズ位置などの言語情報を決
定する言語解析手段101と、言語解析手段から言語情
報を受け取り、入力テキストに対応した、少なくとも、
音韻列、基本周波数パターンを決定する音韻パラメータ
生成手段と102、音声データベース105に格納され
た音韻列、韻律情報を参照しながら、音韻パラメータ生
成部の決定した音韻列、基本周波数パターンに適合する
音声単位波形の波形を、音声データベース105から選
択し、各接続することにより合成音声を生成する音声単
位接続手段103とを備える。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、入力したテキストを合
成音で読み上げ、かつ、音声に同期した動画像を生成す
る音声・動画像合成装置に関するものである。
【0002】
【従来の技術】任意の文章からそれに対応した合成音声
を自由に生成する技術は、規則音声合成と呼ばれ、これ
を実現する規則音声合成装置はすでに実用化されてお
り、機械から人間への自然な出力チャネルとして、様々
な分野で応用されている。一方、音声の合成と同様に、
任意の文章からそれを読み上げた時の口の動きを含む人
物の動画像を合成する技術が開発されており、これを、
音声合成技術と組み合わせることで、音声と動画が同期
した形で提供されるより自然なインターフェースを実現
することができる。
【0003】従来、このような音声と動画像を同時に提
供する装置を実現する試みが、いくつかあった。例え
ば、音韻の種類ごとに口の部分の画像を保持し、読み上
げるテキストの発音に対応して口の部分の画像を切り替
える方法が行われていた(方式1)。また、顔の画像の
各部の変化の度合いを音韻の種類ごとにパラメータ化
し、音声合成時に発音系列に対応するパラメータ系列に
従って、顔の画像を変化させることによって、顔の動画
像を生成する方法があった(方式2)。
【0004】
【発明が解決しようとする課題】しかし、方法1では、
顔の口以外の部分は変化せず、かえって不自然な印象を
与えてしまうという課題があった。また、前後の発音の
種類とは関係なく、1つの発音については、同じ口の動
画像を用いるため、各発音に対応する動画像の接続部分
において違和感なく接続することが難しいという課題が
あった。また、方式2においては、あらかじめ顔の各部
の変化をパラメータ化するといったコストのかかる作業
を伴うという課題があった。さらに、同じ発音部分でも
声の大きさ、ピッチ、一発話における当該発音部分の位
置などによって、口の形状、それに付随する表情が微妙
に異なり、限られたパラメータの変化では、その詳細な
再現が不可能であるといった課題があった。
【0005】本発明は、従来のこのような画像・音声合
成装置の課題を考慮し、合成音声に同期した違和感のな
い自然な動画像を生成する画像・音声合成装置を提供す
ることを目的とするものである。
【0006】
【課題を解決するための手段】本発明は、多数のテキス
ト例に対して構文解析を行い、入力テキスト中の単語の
読み、アクセント位置、ポーズ位置などの言語情報から
決定された音韻列と、各音韻列の基本周波数パターン、
パワー、スペクトルなどの韻律情報と、各音韻列に対応
する音声単位波形列とを格納する音声データベースと、
所定の入力テキストに対して構文解析を行い、その入力
テキスト中の単語の読み、アクセント位置、ポーズ位置
などの言語情報を決定する言語解析手段と、前記言語解
析手段から言語情報を受け取り、前記入力テキストに対
応した、少なくとも、音韻列、基本周波数パターンを決
定する音韻パラメータ生成手段と、前記音声データベー
スに格納された音韻列、韻律情報を参照しながら、前記
音韻パラメータ生成部の決定した音韻列、基本周波数パ
ターンに適合する音声単位波形の波形を、前記音声デー
タベースから選択し、各接続することにより合成音声を
生成する音声単位接続手段と、を備えたことを特徴とす
る音声合成装置である。
【0007】前記音声データベースは、人間の発話して
いる音声の音声データから構成し、前記動画像データベ
ースは、発話の様子の録画データから構成し、音声デー
タベース中の音声データと動画像データベース中の動画
像データは、互いに時間軸上で対応がとれており、同期
した状態で、音声データと画像データを取り出すことが
できることが好ましい。
【0008】前記動画像単位接続手段は、前記音声単位
選択手段で選択された音声データベースの音声単位の時
間軸上において対応する動画像単位を動画像データベー
スから選択し、前記音声単位接続手段が音声単位を接続
するのと同じタイミングで動画像単位を接続して得られ
る合成動画像を合成音声と同期させて出力できることが
好ましい。
【0009】かかる構成によれば、動画像接続手段は、
顔全体の画像単位を接続して合成動画像を生成するの
で、発音する際の顔全体の表情の変化を伴った自然な顔
画像を生成できる。
【0010】また、動画像接続手段は、音声単位接続手
段が選択した音声単位を発音している部分に対応する顔
画像の動画像単位を選択し、接続するので連続に変化す
る自然な顔の動画像を生成することができる。
【0011】さらに、互いのデータが時間的に同期して
いる音声データベース、動画像データベースを用いてい
るため、顔画像を生成するための特別な作業を行う必要
がないという特徴を有す。
【0012】そして、ある程度の量の音声データ、動画
像データがあれば、同じ発音に対しても微妙に表情の異
なる顔の動画像単位が動画像データベース内に複数存在
し、それらと対応する音声単位には、それぞれ、異なる
ピッチ、パワー、スペクトルなどの音韻パラメータが付
与されており、音韻パラメータ生成手段が生成する音韻
パラメータの変化に応じて、最適な音声単位と動画像単
位を選択することができるので、表情の変化・差異をよ
り詳細に忠実に再現した合成動画像を生成することがで
きる。
【0013】
【発明の実施の形態】本発明の実施の形態を図面にもと
づいて説明する。
【0014】図1は、本実施の形態の音声合成・動画像
合成の機能を持った音声・動画像合成装置の構成図であ
る。以下にその構成を動作とともに説明する。
【0015】まず、音声・動画像データベース105の
内容について説明する。
【0016】音韻インデックス105aについて説明す
る。あらかじめ、例えば500個のテキスト文につい
て、順にデータIDを1から500まで付す。そして、
各テキスト文について、言語解析手段が、入力テキスト
文に対して形態素解析を行い、テキストを構成する単語
列、および、その読みを決定する。さらに、単語列を文
節にまとめ、アクセント位置、アクセント句を決定、ポ
ーズ位置を決定する。図2はその様子を示す。201が
テキスト文であり、その言語解析結果が202である。
202aはアクセント位置の情報が付与された読みであ
る。202bはアクセント区の区切りの位置を示す記号
である。202cはポーズの位置を示す記号である。ア
クセントの区切り記号202bあるいはポーズの位置の
記号202cで挟まれた読みの列が1つのアクセント区
である。
【0017】さらに、韻律パラメータ生成手段が、上記
言語解析手段が決定した単語の読み、アクセント句、ア
クセント位置、ポーズ位置から、出力する音声を構成す
る音韻列を生成する。図3は、その韻律パラメータ生成
手段が生成する音韻列の例を示す。301は、言語解析
手段が出力した読み、アクセント句、アクセント位置、
ポーズ位置の情報である。302aは、音韻パラメータ
生成手段が生成した音韻列である。本実施の形態では、
音韻の単位を「母音−子音−母音」(以後VCVと記
す)としており、各音韻記号は、母音、子音、母音の並
びで表されている。‘#’は、発音の始め、発音の終わ
りに相当する記号で、‘#ka’は、その音韻がアクセ
ント句の始めに現れることを、‘i#’は、その音韻が
アクセント句の最後に現れることを示す。
【0018】このようにして、ID1〜ID500のテ
キスト文について、それぞれその構成する音韻列40
1、ができる。さらに個々の音韻401に対して、前後
の前音韻402、後音韻403が付与される。
【0019】さらに、それらの500のテキスト文を例
えばアナウンサーによって読み上げてもらい、それを録
音してサンプリングした音声データに対してそれぞれの
音韻401の発音と対応する音声データの部分の時間区
間(t1〜t2等)を格納する。
【0020】このようにして生成された、これら音韻4
01、前音韻402、後音韻403、データID40
4、時間区間405を図1の音韻インデックス105a
にあらかじめ格納しておく。
【0021】また、図1の音声データベース105cに
は、音韻インデックス105aのデータID404、時
間区間405によって指定される音声単位が取り出し可
能な形式で音声データを保持する。
【0022】また、図1の韻律情報データベース105
bには、音声データベース105cの音声データに対し
て、データID404、時間区間405に対応して、基
本周波数、パワー、スペクトルについてあらかじめ分析
した結果を保持する。
【0023】また、図1の動画像データベース105d
は、音韻インデックス105aのデータID404、時
間区間405によって指定される動画像単位が取り出し
可能な形式で動画像データを保持する。
【0024】以上のデータベース105の内容を図5に
示す。
【0025】501は音韻インデックス105aの音韻
401であり、対応する時間区間405(t1,t2,t
3,....等)が付与されている。502は音声データベー
ス105cの音声波形である。503と504は、それ
ぞれ、韻律情報データベース105bに記録されている
基本周波数とパワーのデータである。505は、動画像
データベース105bに記録されている顔動画像であ
る。
【0026】次に、図1の言語解析部101、韻律パラ
メータ生成部102、音声単位接続部103、動画像単
位接続部104についてその動作とともに説明する。
【0027】101は、言語解析部であり、未知の入力
テキストに対して形態素解析を行い、テキストを構成す
る単語列、および、その読みを決定する。さらに、単語
列を文節にまとめ、アクセント位置、アクセント句を決
定、ポーズ位置を決定する。図2に、言語解析部101
が入力テキストから読み、アクセント句、アクセント位
置、ポーズ位置を決定した例を示す。便宜上上述したデ
ータベース105の説明で利用したテキストを利用する
が実際はもちろん異なる未知の文章である。201は、
その入力テキストである。入力テキスト201を言語処
理部102が処理した結果が、202である。読みは、
ローマ字で表している。‘pos’はポーズの挿入位置
を表す記号である。‘/’ はアクセント句の区切りを
示す記号であり、‘/’あるいは‘pos’で区切られ
た読みの列のひとかたまりが1アクセント句に相当す
る。アクセント句‘ka1 su ka ni’の最初
の読みに付された‘1’はその読みの位置にアクセント
があることを示す。102は、韻律パラメータ生成部で
あり、言語解析部101が決定した単語の読み、アクセ
ント句、アクセント位置、ポーズ位置から、出力する音
声を構成する音韻列、基本周波数パターンを生成する。
図3に、韻律パラメータ生成部102が生成する音韻
列、基本周波数パターンの例を示す。301は、言語解
析部101が出力した読み、アクセント句、アクセント
位置、ポーズ位置の情報である。302aは、音韻パラ
メータ生成手段102が生成した音韻列である。本実施
の形態では、音韻の単位を「母音−子音−母音」として
おり、各音韻記号は、母音、子音、母音の並びで表され
ている。‘#’は、発音の始め、発音の終わりに相当す
る記号で、‘#ka’は、その音韻がアクセント句の始
めに現れることを、‘i#’は、その音韻がアクセント
句の最後に現れることを示す。さらに、302bは、基
本周波数パターンであり、音韻列302aを発音する際
の声の高さの時間変化のパターンを表す。
【0028】103は音声単位接続部であり、韻律パラ
メータ生成部102から受け取った音韻列に適合する音
声単位とその韻律情報を音声・動画像データベース10
5から探索する。
【0029】すなわち、音声・動画像データベース10
5は、上述したように、音韻インデックス105aと、
韻律情報データベース105bと、音声データベース1
05c、動画像データベース105dから構成される。
【0030】上述したことと重複する部分も含めて、こ
れらデータベースを説明する。音韻インデックス105
aは、音声単位接続部103が目的の音韻を探し、その
音韻の韻律情報、音声単位、動画像単位にアクセスする
ために設けてある。図4は、音韻インデックス105a
の内容の一例を示す図である。音韻401は、音声デー
タベース105cの音声単位列データに対応する音韻ラ
ベルであり、これを手がかりに、音声単位接続部103
は、韻律パラメータ生成部102から受け取った音韻列
に適合する音声単位とその韻律情報を探索する。前音韻
402、後音韻403は、音声データベース105cに
おいて、音韻401が存在する位置の前後の音声単位に
付与された音韻ラベルである。404は、データIDで
あり、韻律情報データベース105b、音声データベー
ス105c、動画像データベース105dに含まれるデ
ータを識別するための識別子である。3つのデータベー
ス内で同一のデータID番号が付与されたデータは、互
いに対応しているデータである。405は、時間区間で
あり、データID404から特定される、3つのデータ
ベースのデータの中から取り出すべき、音韻情報デー
タ、音声データ、動画像データの時間位置を指定するも
のである。
【0031】韻律情報データベース105bは、音声デ
ータベース105cの音声データに対して、基本周波
数、パワー、スペクトルについてあらかじめ分析した結
果を保持する。本実施の形態では、基本周波数について
は、基本周波数f0と基本周波数の時間変化率P0’、
パワーについてはパワーP、パワーの時間変化率P’、
スペクトルについては、10次のLPCケプストラムと
して保持する。
【0032】音声データベース105cは、音韻インデ
ックス105aのデータID404、時間区間405に
よって指定される音声単位が取り出し可能な形式で音声
データを保持する。
【0033】動画像データベース105dは、音韻イン
デックス105aのデータID404、時間区間405
によって指定される動画像単位が取り出し可能な形式で
動画像データを保持する。
【0034】そこで、音声単位接続部103は、韻律パ
ラメータ生成部102からの音韻列、基本周波数パター
ンに従って、音声データベース105cから、最適な音
声単位を選択し、接続する。その際の音声単位列選択の
手続きは、以下の通りである。 STEP1:韻律パラメータ生成部102の決定した音
韻列Pi(i=1,2,…,n)中の各音韻Piについ
て音韻インデックス105a中の音韻401を参照し、
該当する候補音韻について、韻律情報データを韻律情報
データベース105bより取り出す。 STEP2:各候補の音声単位の前後に位置する音声単
位の音韻ラベルが韻律パラメータ生成部102の決定し
た音韻列の対応する位置にある音韻と一致するかどうか
を調べ、各音声単位候補に対して次のようなスコアLi
を与える。 Li = if 前の音韻ラベルが一致 then 0 else 1 + if 後ろの音韻ラベルが一致 then 0 else 1 STEP3:各音声単位候補の韻律情報データに対して
音声単位区間での平均基本周波数を求め、韻律パラメー
タ生成部102の決定した基本周波数パターンの対応す
る区間での平均基本周波数との差Favgdiff_i
(値の差の絶対値)を求める。 STEP4:各音声単位候補の隣り合う音声単位に関し
て、接続位置における韻律情報データから 基本周波数の差:F0diff_i,i+1、 基本周波数変化率の差:F0’diff_i,i+1 パワーの差:Pdiff_i,i+1 パワー変化率の差:P’diff_i,i+1 10次のLPCケプストラムのユークリッド距離:Cd
is_i,i+1 を求める。 STEP5:各音声単位候補の音声単位のあらゆる組み
合わせに対して、STEP2,STEP3、STEP4
で求めた値から、 総コスト = w1×Σ(i=1…n)L_i +w2×Σ(i=1…n)Favgdiff_i +w3×Σ(i=1…n−1)F0diff_i,i+1 +w4×Σ(i=1…n−1)F0’diff_i,i+1 +w5×Σ(i=1…n−1)Pdiff_i,i+1 +w6×Σ(i=1…n−1)P’diff_i,i+1 +w7×Σ(i=1…n−1)Cdis_i,i+1 を計算し、各音韻に対する音声単位候補から総コストが
最小となる音声単位の列を選択する。wi(i=1…
7)は、各値の差、あるいは、距離に対する総コストへ
の重みである。
【0035】STEP2では、韻律パラメータ生成部1
02が生成した音韻列の各音韻列に対して前後の音韻が
与えられたものに近いか、すなわち、前後の音韻環境が
与えられたものに近いかどうかという基準を考慮してい
る。音声データベースの連続する音声単位に付与された
音韻ラベルが与えられた音韻列に一致する長さが長いほ
ど、この基準のコストが小さくなり、与えられた音韻列
に対してそれを満たす連続した音声単位をデータベース
から選ぶように働く。
【0036】STEP3では、韻律パラメータ生成部1
02が生成した基本周波数パターンに近いかどうかとい
う基準を考慮している。
【0037】STEP4では、前後する音声単位の接続
点での基本周波数、パワー、スペクトルの変化のなめら
かさという基準を考慮している。これらの基準は、たと
えば、STEP2で考慮している基準を満たさない、す
なわち、前後の音韻が一致しない音声単位の候補しか得
られなかった場合に、なるべく前後の音声単位と音響的
になめらかに接続するものを選ぶように働く。これらの
基準で音声単位を選択し、接続することにより、可能な
限り人間の発話した音声に近い合成音声生成することが
できる。
【0038】つぎに、104は、動画像接続部であり、
音声単位接続部103において選択された音声単位に対
応する動画像単位を、動画像データベース105dより
選択し、接続する。音声単位接続部103が選択した音
声単位は、上記の基準に従って選択されるので、動画像
接続部104から生成される動画像も、可能な限り連続
する動画像単位から構成された自然な合成動画像とな
る。
【0039】なお、上記実施の形態では、入力テキスト
の言語を日本語としたが、これは、他の言語でもよい。
他の言語の場合は、言語処理部101を当該言語に応じ
たものとし、音声単位を当該言語の発音に応じて割り当
てることで、上記実施の形態と同じ構成で、音声合成、
動画像合成が可能である。
【0040】上記実施の形態では、前後の音韻の一致・
不一致を基にコストを与えが、これは、前後n個の音韻
の一致・不一致でもよい。また、韻律情報としては、基
本周波数、基本周波数の時間変化、パワー、パワーの時
間変化、10次のLPCケプストラムとしたが、他の音
響的パラメータを韻律情報として用いてもよい。
【0041】
【発明の効果】以上のように本発明の音声・動画像合成
装置によれば、顔全体の画像を接続して合成画像を生成
するので、発音する際の顔全体の表情の変化を伴った自
然な顔の動画像を生成できる。また、音声データベース
からなるべく連続する音声単位を選び、それに対応する
連続した動画像単位を接続して動画像を生成するので、
連続に変化する自然な顔の動画像を生成することができ
る。さらに、音声データベースと動画像データベースを
用意するだけで、動画像生成のための特別の作業を必要
としない。そして、ある程度の音声データ、動画像デー
タを集めれば、同じ音韻に対しても微妙に音韻情報の異
なる音声単位が複数存在し、その音声単位に対応して微
妙に異なる動画像単位も動画像データベースに複数存在
する。そして、それらを発音の音韻列に応じて使い分け
ることが可能なので、表情の変化・差異をより忠実に再
現した合成動画像を生成することができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態である音声・動画像合成
装置の構成を示すブロック図である。
【図2】本発明の一実施の形態の言語解析部の解析例を
示す図である。
【図3】本発明の一実施の形態の韻律パラメータ生成部
が生成する音韻列と基本周波数パターンの例である。
【図4】本発明の一実施の形態の韻律インデックスの内
容の一例を示す図である。
【図5】本発明の一実施の形態の音声波形列と、基本周
波数パターンと、パワーとを示す波形図である。
【符号の説明】 101 言語解析部 102 韻律パラメータ生成部 103 音声単位接続部 104 動画像単位接続部 105 音声・画像データベース 105a 音韻インデックス 105b 韻律情報データベース 105c 音声データベース 105d 動画像データベース 201 入力テキスト 302a 音韻列 302b 基本周波数パターン 501 音韻列と時間区間 502 音声波形 503 基本周波数 504 パワー 505 顔動画像
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 FI G10L 3/00 G06F 15/62 340A // G06F 17/30 15/40 370G

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 多数のテキスト例に対して構文解析を行
    い、入力テキスト中の単語の読み、アクセント位置、ポ
    ーズ位置などの言語情報から決定された音韻列と、各音
    韻列の基本周波数パターン、パワー、スペクトルなどの
    韻律情報と、各音韻列に対応する音声単位波形列とを格
    納する音声データベースと、 所定の入力テキストに対して構文解析を行い、その入力
    テキスト中の単語の読み、アクセント位置、ポーズ位置
    などの言語情報を決定する言語解析手段と、 前記言語解析手段から言語情報を受け取り、前記入力テ
    キストに対応した、少なくとも、音韻列、基本周波数パ
    ターンを決定する音韻パラメータ生成手段と、 前記音声データベースに格納された音韻列、韻律情報を
    参照しながら、前記音韻パラメータ生成部の決定した音
    韻列、基本周波数パターンに適合する音声単位波形の波
    形を、前記音声データベースから選択し、各接続するこ
    とにより合成音声を生成する音声単位接続手段と、 を備えたことを特徴とする音声合成装置。
  2. 【請求項2】 前記音声単位波形列に対応する動画単位
    列を格納する動画像データベースをさらに備え、その動
    画像データベースから、請求項1記載の音声単位接続手
    段において選択された音声単位波形列に対応する動画像
    単位列を選択し、接続することにより合成動画像を生成
    する動画像単位接続手段とを備えたことを特徴とする音
    声・動画像合成装置。
  3. 【請求項3】 多数のテキスト例に対して構文解析を行
    い、入力テキスト中の単語の読み、アクセント位置、ポ
    ーズ位置等の言語情報から決定された音韻列と、各音韻
    列の基本周波数パターン、パワー、スペクトルなどの韻
    律情報と、各音韻列に対応する音声単位波形列と、それ
    らの音声単位波形列に対応する、音声を発話する顔の動
    きの動画像単位列を格納した音声・動画像データベー
    ス。
  4. 【請求項4】 人間の音声の録音データと、音声を発話
    する顔の動きの録画データの2つから作成した時間的に
    同期した音声・動画像データベース。
JP10029437A 1998-02-12 1998-02-12 音声・動画像合成装置及び音声・動画像データベース Pending JPH11231899A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10029437A JPH11231899A (ja) 1998-02-12 1998-02-12 音声・動画像合成装置及び音声・動画像データベース

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10029437A JPH11231899A (ja) 1998-02-12 1998-02-12 音声・動画像合成装置及び音声・動画像データベース

Publications (1)

Publication Number Publication Date
JPH11231899A true JPH11231899A (ja) 1999-08-27

Family

ID=12276121

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10029437A Pending JPH11231899A (ja) 1998-02-12 1998-02-12 音声・動画像合成装置及び音声・動画像データベース

Country Status (1)

Country Link
JP (1) JPH11231899A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001324991A (ja) * 2000-05-15 2001-11-22 Fujitsu Ten Ltd 音声合成装置、及び音声データ記憶媒体
JP2002287784A (ja) * 2001-03-28 2002-10-04 Nec Corp 音声合成用圧縮素片作成装置、音声規則合成装置及びそれらに用いる方法並びにそのプログラム
WO2014046401A1 (ko) * 2012-09-18 2014-03-27 Kim Sang Cheol 단어 자동 번역에 기초한 입술 모양 변경 장치 및 방법
JP2021168139A (ja) * 2020-12-30 2021-10-21 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド マンマシンインタラクションのための方法、装置、機器および媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001324991A (ja) * 2000-05-15 2001-11-22 Fujitsu Ten Ltd 音声合成装置、及び音声データ記憶媒体
JP2002287784A (ja) * 2001-03-28 2002-10-04 Nec Corp 音声合成用圧縮素片作成装置、音声規則合成装置及びそれらに用いる方法並びにそのプログラム
WO2014046401A1 (ko) * 2012-09-18 2014-03-27 Kim Sang Cheol 단어 자동 번역에 기초한 입술 모양 변경 장치 및 방법
US9372852B2 (en) 2012-09-18 2016-06-21 Sang Cheol KIM Device and method for changing lip shapes based on automatic word translation
JP2021168139A (ja) * 2020-12-30 2021-10-21 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド マンマシンインタラクションのための方法、装置、機器および媒体

Similar Documents

Publication Publication Date Title
CA2351842C (en) Synthesis-based pre-selection of suitable units for concatenative speech
EP0833304B1 (en) Prosodic databases holding fundamental frequency templates for use in speech synthesis
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
JPH10153998A (ja) 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
JP3587048B2 (ja) 韻律制御方法及び音声合成装置
JP5320363B2 (ja) 音声編集方法、装置及び音声合成方法
JP2761552B2 (ja) 音声合成方法
JPH11231899A (ja) 音声・動画像合成装置及び音声・動画像データベース
JPH08335096A (ja) テキスト音声合成装置
JP3109778B2 (ja) 音声規則合成装置
JP2000172289A (ja) 自然言語処理方法,自然言語処理用記録媒体および音声合成装置
EP0982684A1 (en) Moving picture generating device and image control network learning device
JP3060276B2 (ja) 音声合成装置
Pitrelli et al. Expressive speech synthesis using American English ToBI: questions and contrastive emphasis
JPH1165597A (ja) 音声合成装置、音声合成及びcg合成出力装置、ならびに対話装置
EP1589524B1 (en) Method and device for speech synthesis
JP6631186B2 (ja) 音声作成装置、方法、及びプログラム、音声データベース作成装置
JP3378448B2 (ja) 音声素片選択方法,音声合成装置,及び命令記憶媒体
JP3963141B2 (ja) 歌唱合成装置、歌唱合成用プログラム及び歌唱合成用プログラムを記録したコンピュータで読み取り可能な記録媒体
EP1640968A1 (en) Method and device for speech synthesis
JPH11161297A (ja) 音声合成方法及び装置
JP2001117577A (ja) 音声合成装置
JPH11352997A (ja) 音声合成装置およびその制御方法
JP2000322075A (ja) 音声合成装置および自然言語処理方法
JP2000250573A (ja) 音声素片データベース作成方法及びその装置並びにこの音声素片データベースを用いた音声合成方法及びその装置