JP2001013982A - 音声合成装置 - Google Patents

音声合成装置

Info

Publication number
JP2001013982A
JP2001013982A JP11219216A JP21921699A JP2001013982A JP 2001013982 A JP2001013982 A JP 2001013982A JP 11219216 A JP11219216 A JP 11219216A JP 21921699 A JP21921699 A JP 21921699A JP 2001013982 A JP2001013982 A JP 2001013982A
Authority
JP
Japan
Prior art keywords
speech
phoneme
unit
data
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11219216A
Other languages
English (en)
Inventor
Yuji Wada
祐司 和田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP11219216A priority Critical patent/JP2001013982A/ja
Publication of JP2001013982A publication Critical patent/JP2001013982A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声素片の接続部分のノイズを低減するとと
もに、録音された実音声の特徴を備えた高品質の合成音
出力が可能な音声合成装置を提供する。 【解決手段】 音素データ記憶部19の各保存領域に
は、「音素記号」、「所属音声素片データ名」、「直前
の音素」、「直後の音素」が予め登録され、実音声素片
記憶部17には、実音声を記憶した波形データが音声素
片データ名とともに蓄積して記憶される。音素データ特
定部9は、入力ブロック列のなかの互いに隣接する「入
力ブロック」の組と、音素データ記憶部19の「音素記
号」および「直前の音素」(あるいは、「直後の音
素」)とを照合することにより、各入力ブロックに対し
て隣接音声環境が最適な音素データを特定し、音声素片
抽出部11は特定音素データの「所属音声素片データ
名」を基に実音声素片記憶部17から音声素片を抽出
し、音声合成部15は抽出された音声素片を順次接続し
合成音を出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声素片の接続部
分のノイズを低減するとともに、録音された音声の特徴
を備えた高品質の合成音出力が可能な音声合成装置およ
び合成音に同期させて、顔画像における口の形状を変化
させることのできる音声合成装置に関する。
【0002】
【従来の技術】近年、人の実音声を録音して保存したも
のから合成音を生成する録音合成の技術が、音声の特徴
の再現性の点から注目されている。
【0003】従来の録音合成を利用した音声合成装置に
あっては、予め実音声を録音し、例えば、「あ」や
「い」等の50音を構成する音声等の所定の音声単位ご
とに区切って多数の音声素片としたものが用意され、こ
の各音声素片は、音声素片の種類を表す音素記号、音声
の高低を決める基本周波数および再生時間長が付与され
てデータベースとして蓄積保存される。
【0004】テキストから音声を合成する際には、入力
された日本語テキストは、先ず単語辞書を基にした音素
分解処理により音素記号に分解され、その得られた各音
素記号に対して、所定のアクセントパターン表および再
生時間長規則を基にした韻律処理により基本周波数と再
生時間長とが割り当てられる。そして、音素記号、基本
周波数および再生時間長と、上述のデータベースのなか
の音素記号、基本周波数および再生時間長とが照合さ
れ、音素分解処理により得られた音素記号に対して音声
素片が選択される。そして、選択された音声素片が入力
されたテキストの順番で接続されて合成音声が生成され
る。
【0005】また、音声合成の技術が注目されるなかに
あって、その一方では、音声解析やCG(Computer Gra
phics)の技術の加速的な進歩により、入力された音声
波形を解析しながら、実際に人が音声をしゃべっている
ように口の形状が変化する顔画像を生成する画像処理技
術が実現段階に入っている。このような技術は、例え
ば、事件の現場から電話により伝えられた言葉を、CG
で制作されたアナウンサにしゃべらせるというような用
途などに利用される。
【0006】このような用途において、顔画像における
口の形状をリアルタイムに変化させるためのパラメータ
を生成するためには、コンピュータシステムなどを利用
して、入力された音声波形の解析処理が行われる。
【0007】
【発明が解決しようとする課題】しかしながら、上記従
来の音声合成装置では、合成音声の生成のための音声素
片を記憶するにあたっては、実音声において隣接する音
声素片に関係なく互いに分離され、一方、音声素片を合
成するにあたっては、入力された音素記号等と、データ
ベースの各音声素片に対応づけられた音素記号等とを照
合することにより音声素片を選択し、その選択された音
声素片を単純に接続する方法が採られていたため、生成
される合成音は、音声素片の接続部分に生ずるノイズが
高く、録音された実音声の特徴が損われてしまう場合が
あった。
【0008】また、上記のように、顔画像における口の
形状を音声に同期して変化させるためには、処理能力の
高いコンピュータシステムによる複雑で膨大な音声解析
処理が必要であることから、このような音声解析処理を
行わずに、顔画像における口の形状を音声と同期したタ
イミングで変化させたいとの要望が多くなっている。
【0009】そこで本発明は、上記従来の問題点に鑑み
てなされたものであり、その目的とするところは、音声
素片の接続部分のノイズを低減するとともに、録音され
た実音声の特徴を備えた高品質の合成音出力が可能な音
声合成装置を提供することにある。
【0010】また、本発明の他の目的とするところは、
合成音に同期させて、顔画像における口の形状を変化さ
せることのできる音声合成装置を提供することにある。
【0011】
【課題を解決するための手段】本発明の請求項1に係る
音声合成装置は、音声波形が予め記憶された波形記憶手
段と、該波形記憶手段の音声波形に含まれる第1の音声
素片に対して付与された第1のラベルと、当該第1の音
声素片に隣接する音声素片に対して付与された第2のラ
ベルと、当該第1の音声素片の記憶場所情報とを含む音
素データが予め記憶される音素データ記憶手段と、音声
合成指令としての入力音素記号列と該入力音素記号列に
隣接する隣接入力音素記号列とからなる組と、前記音素
データに含まれる第1のラベルおよび第2のラベルの組
とを照合して、当該入力音素記号列に対する音素データ
を特定する音素データ特定手段と、前記波形記憶手段の
なかの前記特定された音素データの示す記憶場所に記憶
された音声素片を抽出する音声素片抽出手段と、該音声
素片抽出手段で抽出された音声素片を所定の順序で接続
し出力する音声合成手段とを有する。
【0012】本発明の請求項1に係る音声合成装置で
は、音声波形が予め記憶された波形記憶手段が設けら
れ、さらに、この波形記憶手段の音声波形に含まれる第
1の音声素片に対して付与された第1のラベルと、第1
の音声素片に隣接する音声素片に対して付与された第2
のラベルと、第1の音声素片の記憶場所情報とを含む音
素データが予め記憶される音素データ記憶手段が設けら
れ、音声合成指令として入力音素記号列が入力される
と、音素データ特定手段により、その入力音素記号列と
隣接入力音素記号列とからなる組と、音素データに含ま
れる第1のラベルおよび第2のラベルの組とが照合さ
れ、入力音素記号列に対する音素データが特定され、そ
の後、音声素片抽出手段により、波形記憶手段のなかの
特定された音素データの示す記憶場所から、逐次音声素
片が抽出され、音声合成手段により、適切な合成音とな
るような順序で、これら音声素片が接続され、合成音が
出力される。
【0013】また、本発明の請求項2に係る音声合成装
置は、請求項1記載の音声合成装置において、前記音素
データには、前記第1の音声素片と該第1の音声素片に
隣接する音声素片との間の状態に係る時間情報が付与さ
れ、該時間情報に基づいて音声素片の接続部分の状態を
設定する時間設定手段を有することを特徴とする。
【0014】本発明の請求項2に係る音声合成装置で
は、音素データには、第1の音声素片と、該第1の音声
素片との間の状態に係る時間情報が予め付与され、時間
設定手段が時間情報に基づいて、音声素片の接続部分の
状態を設定して、音声上の人の息継ぎ等の特徴が再現可
能となる。
【0015】また、本発明の請求項3に係る音声合成装
置は、請求項2記載の音声合成装置において、前記時間
設定手段は、前記音素データに、前記第1の音声素片と
該第1の音声素片の前後に隣接する各音声素片との間の
無音部分の時間情報がそれぞれ付与されているとき、前
記第1の音声素片の後の無音部分の時間情報と、当該第
1の音声素片の後に接続される音声素片の前の無音部分
の時間情報の少なくとも一方に対し重み付けを行って、
当該各音声素片を接続する部分に設ける無音時間を算出
することを特徴とする。
【0016】本発明の請求項3に係る音声合成装置で
は、音素データには、予め第1の音声素片と該第1の音
声素片の前後に隣接する各音声素片との間の無音部分の
時間情報がそれぞれ付与され、時間設定手段により、第
1の音声素片の後の無音部分の時間情報と、当該第1の
音声素片の後に接続される音声素片の前の無音部分の時
間情報の少なくとも一方に対して重み付けが行われて、
各音声素片を接続する部分に設ける無音時間が算出さ
れ、どちらか一方の音声素片の特徴に偏った無音時間が
設定されることが回避され、たとえ実音声上で隣接して
いない音声素片どうしを接続する際にあっても、自然な
合成音が得られる。
【0017】また、本発明の請求項4に係る音声合成装
置は、請求項1ないし請求項3のいずれかに記載の音声
合成装置において、前記入力音素記号列に対して特定さ
れた音素データが、当該入力音素記号列の前又は後ろに
隣接する入力音素記号列に対して特定されることを規制
する規制手段を有することを特徴とする。
【0018】本発明の請求項4に係る音声合成装置で
は、入力音素記号列に対して特定された音素データは、
当該入力音素記号列の前又は後ろに隣接する入力音素記
号列に対して特定されずに、実音声上では連続すること
が極めて希な同一の音声素片が特定されて合成音が不自
然となる不都合が回避される。
【0019】また、本発明の請求項5に係る音声合成装
置は、請求項1ないし請求項4のいずれかに記載の音声
合成装置において、前記音声合成手段により出力される
音声素片の出力タイミングに係る情報を生成するタイミ
ング情報生成手段を具備することを特徴とする。
【0020】本発明の請求項5に係る音声合成装置で
は、音声合成手段により出力される音声素片の出力タイ
ミングに係る情報が、タイミング情報生成手段によって
生成され、この情報によって、顔画像における口の形状
を変化させるタイミングを決定することができるように
している。
【0021】また、本発明の請求項6に係る音声合成装
置は、請求項5記載の音声合成装置において、前記タイ
ミング情報生成手段は、前記音声合成手段により出力さ
れる音声素片に当該音声素片よりも短い音声が含まれる
ときには、当該音声との同期をとるための情報を前記出
力タイミングに係る情報に含ませることを特徴とする。
【0022】本発明の請求項6に係る音声合成装置で
は、音声合成手段により出力される音声素片に、例えば
母音や子音などの音素や母音および子音からなる音節な
どの、当該音声素片よりも短い音声が含まれるときに
は、タイミング情報生成手段により、当該音声との同期
をとるための情報を出力タイミングに係る情報に含ませ
て、顔画像における口の形状を音声素片よりも短い音声
に同期させて変化させられるようにしている。
【0023】
【発明の実施の形態】以下、本発明に係る音声合成装置
の実施の形態を図1ないし図11を参照して説明する。
尚、以下の説明では、日本語テキストからの音声合成を
例にするが、音素分解処理部および韻律処理部を変えれ
ば、他の言語で入力されたテキストからの音声合成が可
能である。
【0024】図1は、本発明に係る音声合成装置の第1
の実施の形態を示す図である。
【0025】本実施の形態の音声合成装置には、キーボ
ードや、予め用意されたテキストデータを保存するハー
ドディスク装置等の外部記憶装置が接続される。そし
て、この音声合成装置には、所定の処理を実行する演算
部、および処理命令の記憶やデータの一時保存が可能な
主記憶部とが設けられており、この主記憶部や、外部記
憶装置に記憶された命令を逐次演算部に読み込ませ、実
行させることにより以下の音声合成のための処理が行わ
れる。また、以下に説明する各部間のデータの転送につ
いては、主記憶部に設けられた所定の保存領域、或いは
命令によって逐次設定される作業領域を介して行われ
る。
【0026】尚、必要に応じてマウス、ディスプレイ装
置等の入出力装置を接続してもよい。また、後述する実
音声波形記憶部17と音素データ記憶部とを、複数の端
末との通信が可能なコンピュータ等に配備して、ネット
ワーク型の音声合成装置を構成することも可能である。
【0027】本図に示すテキスト入力部1は、キーボー
ドや外部記憶装置等から、入力バッファを介して、日本
語テキストデータを入力し、そのデータを音素分解処理
部3、および韻律処理部5へと出力する。音素分解処理
部3は、テキスト入力部1から転送された日本語テキス
トデータに言語処理を行うとともに、音声素片(この音
声素片には、単音素および、単音素が複合された音素列
が含まれる)の種類を表し、予め後述する音素データ記
憶部19に登録されている音素記号あるいは音素記号列
に変換する。
【0028】以下の説明では、入力されたテキストデー
タを「入力テキスト」といい、この変換により得られた
各音素記号列(単一の音素記号を含む)を「入力ブロッ
ク」ないしは「入力音素記号列」という。例えば、入力
テキスト「おはようございます」は、この時点で8個の
入力ブロック/o/,/ha/,/yo/,/u/,/
go/,/zai/,/ma/,/su/からなる入力
ブロック列に変換される。
【0029】そして、音素分解処理部3は、各入力ブロ
ックを韻律処理部5および音素データ候補選定部7へと
送出する。韻律処理部5は、所定のアクセントパターン
表や再生時間長規則を基にした韻律処理を実行すること
により、音素分解処理部3から入力された各入力ブロッ
クに対して、テキスト入力部1から入力された入力テキ
ストを解析しながら、平均基本周波数fと再生時間長t
を決定する。そして、韻律処理部5は、各入力ブロック
に平均基本周波数fと再生時間長tとを対応づけて、音
素データ候補選定部7へと送出する。
【0030】音素データ候補選定部7は、入力された入
力ブロック、平均基本周波数fおよび再生時間長tと、
後述する音素データ記憶部19に記憶されたデータベー
スに含まれるデータとを照合して、各入力ブロックに対
する音素データの候補を選定する。そして、候補を表す
フラグを音素データに対応づけ、後述する音素データ特
定部9での処理において、候補とそうでないものの区別
を可能とする。
【0031】音素データ特定部9は、前記候補を表すフ
ラグに基づいて、各入力ブロックについての候補のなか
から、合成音生成のために最適な1つの音素データを最
終的に特定するまでの処理を行う。これ以降、特定され
た音素データを特定音素データという。この処理によ
り、各入力ブロックに対する、合成音生成のための音声
素片が抽出可能となる。そして、特定音素データを後述
する音声素片抽出部11および無音時間計算部13へと
出力する。
【0032】音声素片抽出部11は、特定音素データの
内容を解析して、合成音を生成するための音声素片を実
音声波形記憶部17から抽出する。そして音声素片を音
声合成部15へと出力する。
【0033】無音時間計算部13は、音素データ特定部
9から入力された特定音素データの内容を解析し、各入
力ブロックに対する音声素片を接続する際の、接続部分
に設ける無音時間を計算する。そして、無音時間計算部
13は、無音時間を示す無音時間データを音声合成部1
5に送出する。
【0034】音声合成部15は、無音時間計算部13か
ら入力された無音時間データに基づいて、無音時間を音
声素片波形データの接続部に設定して、音声素片抽出部
11から入力した各波形データと各無音時間を順次接続
することで、1つの合成音データを生成し、これを増幅
して出力する。
【0035】実音声波形記憶部17は、図1に示すよう
に、合成音生成の際に音声素片抽出部11により抽出さ
れる音声素片を含む波形データがデータベースとして蓄
積記憶された部分である。これら波形データは、例え
ば、小説等の所定の日本語長文を人間に読ませ、これを
録音して適当な長さに分割したものを符号化したもので
あり、様々な録音時間の波形データが含まれている。ま
た、同じ音声からのデータであっても、録音時の声の状
態や、読まれた文章の内容等により、その波形は異なっ
たものになる。
【0036】この実音声波形記憶部17は、各データ毎
に、2つの保存領域を有し、保存領域1「音声素片デー
タ名」には、検索用の名前が保存されている。図1の例
では、音声「おはようございます」に相当する名前「o
hayougozaimasu001」が保存されてい
る。また、保存領域2「波形データ」には、音声「おは
ようございます」に相当する波形データが保存されてい
る。
【0037】そして、本図に示す音素データ記憶部19
は、保存領域1から保存領域9までの9つの保存領域を
有する音素データのデータベースである。この音素デー
タ記憶部19は、音声素片に1対1に対応している(以
下、この音声素片を、各保存領域の説明において「当該
音声素片」という)。そして、音素分解処理の際には、
入力テキストに対して入力ブロックを決定(割り当て)
するために、音素分解処理部3によって参照される部分
であり、また、音素データ特定部9によって、最適な音
声素片を特定するために照合される部分でもある。
【0038】その保存領域1「音素記号」には、入力ブ
ロックと対比される音素記号(または音素記号列)が登
録保存される。本例では、音声「よ」に相当する音素記
号/yo/が保存されている。即ち、この音素記号また
は音素記号列が第1のラベルとしての機能を果す。
【0039】保存領域2「所属音声素片データ名」に
は、当該音声素片が、実音声波形記憶部17に生成され
たデータベースの中の、どのデータに所属するかを示す
名前が保存される。本図の例では、実音声「おはようご
ざいます」の波形データを保存した「ohayougo
zaimasu001」というデータの中に、音素記号
/yo/に相当する音声素片が含まれていることを示し
ている。
【0040】保存領域3「音素再生開始時間」には、当
該音声素片が、「所属音声素片データ名」の名前の示す
再生音声(以下、各保存領域の説明において「当該再生
音声」という)の、どの時点から開始される音声に相当
するものかを示すデータが保存される。このデータとし
ては、トータルの再生時間に対する相対的な開始時刻を
示す値等を使用すればよい。
【0041】一方保存領域4「音素再生終了時間」に
は、当該音声素片が、当該再生音声の、どの時点までの
音声に相当するものかを示すデータが保存される。この
「音素再生終了時間」にも「音素再生開始時間」と同様
に、トータルの再生時間に対する相対値等を使用すれば
よい。従って、「所属音声素片データ名」、「音素再生
開始時間」および「音素再生終了時間」により当該音声
素片の記憶場所が特定可能となっている。
【0042】そして、保存領域5「直前の音素」には、
当該再生音声のなかで、当該音声素片の直前の音声素片
を示す音素記号(または音素記号列)が登録保存され、
一方保存領域6「直後の音素」には、当該音声素片の直
後に再生される音声素片を示す音素記号(または音素記
号列)が登録保存される。即ち、これら保存領域「直前
の音素」または「直後の音素」に登録された音素記号
(または音素記号列)が第2のラベルとして機能する。
【0043】保存領域7「直前の無音部分長」には、当
該音声素片とその直前の音声素片とのとの間の無音部分
の長さを示すデータが保存され、一方保存領域8「直後
の無音部分長」には、当該音声素片とその直後の音声素
片とのとの間の無音部分の長さを示すデータが保存され
る。これら「直前の無音部分長」および「直後の無音部
分長」には、実際の時間情報を保存しても良いし、ま
た、当該音声素片の再生時間等に対する相対値を保存し
てもよい。尚、これら無音部分は、ポーズともいわれ
る。そして、音素データ記憶部19の保存領域9「平均
基本周波数」には、当該音声素片の平均基本周波数を示
す値が保存される。
【0044】次に、図2に示すフローチャートを参照し
て、本発明に係る音声合成装置の動作を実例をまじえて
説明する。本図に示す処理は、入力テキストが音声合成
装置の入力バッファ等に蓄えられている状態から、音声
合成の指令等によって開始するものである。尚、以下の
実施の形態の説明において、データベースの保存領域名
を鍵かっこで囲んだ表現を使用する場合は、データベー
スの保存領域に保存されたデータそのものを示すものと
する。
【0045】図2においては、先ず、ステップS1で、
例えば「おはようございます」等の入力テキストが、入
力バッファ等からテキスト入力部1へと入力される。入
力された文字列は、ステップS3において、音素分解処
理部3へと出力され、音素分解処理部3では、音素デー
タ記憶部19に保存された「音声」を参照することによ
り、入力テキストを複数の入力ブロックに変換する(こ
の変換処理を音素分解という)。
【0046】上記例示した入力テキスト「おはようござ
います」は、この時点で8個の入力ブロック/o/,/
ha/,/yo/,/u/,/go/,/zai/,/
ma/,/su/からなる入力ブロック列に変換され
る。尚、便宜上、得られた入力ブロックの数をn個と
し、各入力ブロックをそれぞれ、入力テキストの順に合
わせて、第1入力ブロックc1、第2入力ブロックc
2,…,第n入力ブロックcnというものとする。
【0047】韻律処理部5は、次のステップS5におい
て、各入力ブロックに対して、所定のアクセントパター
ン表や再生時間長規則に基づいて、音声再生時の音程を
決定する平均基本周波数fと音声の継続時間を決定する
再生時間長tとを割当てる。ここで、i番目の入力ブロ
ックに割当てられた平均基本周波数、音素再生長をそれ
ぞれfi、tiというものとする。尚、入力ブロックが
単一の音素記号の複合されたものである場合は、その音
素記号列の各音素記号に割当てられた基本周波数を平均
化したものが平均基本周波数fとなる。
【0048】そして、韻律処理部5は、平均基本周波数
fと再生時間長tとを入力ブロックに対応づけて、主記
憶部の所定の保存領域に保存する。尚、入力ブロック、
平均基本周波数および再生時間長を総称して入力データ
という。
【0049】そして、図2のステップS7においては、
音素データ候補選定部7は、第1入力データ、即ち、第
1入力ブロック、平均基本周波数f1および再生時間長
t1を読み込み、所定の作業領域に保存する。ステップ
S9においては、音素データ候補選定部7は、各入力デ
ータを音素データ記憶部19に記憶されたデータに対比
させて、音素データの候補を選定する。
【0050】ここで、図3に示すフローチャートを参照
して、音素データ候補選定部7にて各入力ブロックにつ
いて実行される、音素データの候補選定処理について説
明する。この候補選定処理は、最終的に、入力ブロック
に対して1つの音素データを特定するための前段階とし
て、実行されるものであり、先ず、「音声記号」が入力
ブロックに一致し、しかも「平均基本周波数」および音
声素片の再生時間が、入力ブロックに割り当てられたも
のに対して、所定の誤差範囲に含まれる音素データが候
補として選定される。選定にあたっては、候補を表すフ
ラグを音素データに対応づけ、後の処理のために、この
フラグをオン/オフいずれかの状態に設定する。
【0051】図3におけるステップS41では、音素デ
ータ候補選定部7は、入力ブロックciを検索パラメー
タとして音素データ記憶部19に記憶された全音素デー
タの保存領域1を検索し、入力ブロックと「音声記号」
が一致する音素データを候補として選定する。音素デー
タ記憶部19には、通常「音素記号」が同一である多数
の音素データが保存されているため、通常は、この時点
での候補数は比較的多い。
【0052】音素データ候補選定部7は、前述のフラグ
の状態をもとに、すべての候補について、順次に以下の
処理を行う。
【0053】先ずステップS43において、第1の候補
(音素データ)を読み込んで主記憶部の所定の作業領域
に保存する。そして、ステップS45においては、当該
入力ブロック(ci)に割当てられた平均基本周波数f
iと、当該音素データの「平均基本周波数」との差Δf
(偏差)が所定の周波数F以上であるか否かを判定す
る。このステップS45で、この偏差Δfが値F以上で
あると判定される(YES)と判定されると、ステップ
S47において、この音素データを候補から除外する処
理(以下、候補除外処理という)が行われる。即ち、
「平均基本周波数」が所定の誤差範囲にない音素データ
は、ここで候補から除外される。
【0054】一方、ステップS45で、偏差Δfが周波
数Fより小さい(NO)と判定されると、続くステップ
S49においては、当該対象となっている候補の「音素
再生開始時間」と「音素再生終了時間」との時間差、即
ち音声素片の再生時間長と、入力ブロックciに割当て
られた再生時間長tiとの偏差Δtが所定の時間値T以
上であるか否かを判定する。このステップS49におい
て、偏差Δtが値T以上である(YES)と判定される
と、ステップS47において、候補除外処理が行われ
る。即ち、再生時間長が所定の誤差範囲にない音素デー
タは、ここで候補から除外される。
【0055】一方、ステップS49において、偏差Δt
が値Tより小さい(NO)と判定された場合は、次にス
テップS51にて、その候補(音素データ)が当該入力
ブロックciの直前の入力ブロックci−1について特
定された音素データであるか否かが判定され、直前の入
力ブロックci−1について特定された音素データであ
る(YES)と判定されたときは、制御がステップS4
7に移行して、その候補について候補除外処理が行われ
る。即ち、実音声では、同一音が連続することが極めて
希であるため、音声合成装置がこのような誤った選定を
行い、合成音が不自然となるのを回避する効果がある。
【0056】ステップS51にて、直前の入力ブロック
ci−1について特定された音素データでない(NO)
と判定されたときは、その音素データは候補として残さ
れることとなる。そして、ステップS51にてNOと判
定された後、あるいは、ステップS47における候補除
外処理の終了後は、音素データ候補選定部7は、ステッ
プS53において、当該候補が最後の候補か否かを判定
する。ここで、最後の候補でない(NO)と判定される
と、音素データ候補選定部7は、ステップS55に制御
を移行させ、次の候補(音素データ)の内容を読み込
む。そして、音素データ候補選定部7は、ステップS4
5からステップS53までの一連の処理を、ステップS
53において、最後の候補である(YES)と判定され
るまで順次実行する。
【0057】音素データ候補選定部7が上記処理を行う
ことにより、後述する波形の抽出時において、同一の音
素記号で、しかも音声の平均基本周波数および再生時間
長の近い音声素片の抽出が可能となる。
【0058】そして、図2に示すしたステップS11に
おいては、例えば、図1に示したような1つの入力ブロ
ック「yo」に対して、ある程度絞り込まれた候補のな
かから最終的な1つの音素データを特定する処理を音素
データ特定部9が行う。特にこの実施の形態では、入力
ブロックの前後の関係を、波形データ記録時の音声素片
の前後関係に対比させることにより、隣接音声環境の最
適な音声素片を特定することを可能としている。
【0059】図4に示すフローチャートは、第1入力ブ
ロックに対して、音素データ特定部9が実行する処理を
説明するためのものであり、本図のステップS61にお
いては、第2入力ブロックを主記憶部の所定作業領域に
読み込む。そして、現在残っている候補のなかの最初の
候補(音素データ)につき、その「直後の音素」を読み
込む(ステップS63)。そして、ステップS61にて
読み込んだ入力ブロックc2とステップS63にて読み
込んだ「直後の音素」とが一致するか否かを、ステップ
S65にて判定し、ここで一致しない(NO)と判定さ
れた場合は、音素データ特定部9は、ステップS67に
おいて候補除外処理を行う。
【0060】一方、ステップS65にて、一致する(Y
ES)と判定されたときは、候補除外処理は行われな
い。ステップS65にて、一致する(YES)と判定さ
れた後、あるいは、ステップS67における候補除外処
理の終了後は、音素データ特定部9は、ステップS69
において、当該候補が最後の候補か否かを判定する。こ
こで、最後の候補でない(NO)と判定されると、ステ
ップS71に進んで、次の候補の「直後の音素」を読み
込み、そして、音素データ特定部9は、ステップS65
からステップS69までの一連の処理を、ステップS6
9において、最後の候補である(YES)であると判定
されるまで順次実行する。
【0061】このようにして、第1入力ブロックについ
ては、当該候補の「直後の音素」が第2入力ブロックと
一致するものだけが、候補として残されることとなる。
【0062】図5に示すフローチャートは、第1入力ブ
ロックおよび最後の入力ブロックを除く、任意の第i入
力ブロックに対して、音素データ特定部9が実行する処
理を説明するためのものである。
【0063】音素データ特定部9は、ステップS81に
おいて、当該入力ブロックciの直前の入力ブロックお
よび直後の入力ブロック、即ち、入力ブロックci−1
および入力ブロックci+1を主記憶部に読み込み、そ
の後、ステップS83において、最初の候補の「直前の
音素」および「直後の音素」を主記憶部に読み込む。そ
して、ステップS85においては、当該候補(音素デー
タ)が以下のどの条件を満たすかにより候補の分類を行
う。
【0064】先ず、当該候補の「直前の音素」と入力ブ
ロックci−1とが一致し、かつ、「直後の音素」と入
力ブロックci+1が一致する候補に対しては、優先し
て候補に残される可能性(優先度)が一番高いことを示
すデータP1が対応づけられる。図1に示す例では、入
力ブロック「yo」に対して、「直前の音素」が「h
a」であり、かつ、「直後の音素」が「u」であり、こ
の条件を満たすため、この音素データには、データP1
が対応づけられる。
【0065】そして、「直前の音素」と入力ブロックc
i−1が一致し、かつ、「直後の音素」と入力ブロック
ci+1が一致しない候補に対しては、データP1より
も優先度が低いことを示すデータP2が対応づけられ
る。
【0066】そして、さらに「直前の音素」と入力ブロ
ックci−1とが一致せず、かつ、「直後の音素」と入
力ブロックci+1が一致する候補対しては、データP
2よりもさらに優先度が低いことを示すデータP3が対
応づけられる。
【0067】最後に、「直前の音素」と入力ブロックc
i−1とが一致せず、かつ、「直後の音素」と入力ブロ
ックci+1とが一致しない候補に対しては、候補とし
て不適当であるため、いかなるデータの対応づけも行わ
ない。
【0068】上記の分類処理の終了後、音素データ特定
部9は、ステップS87において、当該候補が最後の候
補か否かを判定する。ここで、最後の候補でない(N
O)と判定されると、ステップS89に制御を移行さ
せ、次の候補の「直前の音素」と「直後の音素」とを読
み込み、その後、ステップS85へと制御を移行させ
る。これ以降、音素データ特定部9は、ステップS85
とステップ87の処理を、ステップS87にて、最後の
候補である(YES)と判定されるまで繰返し行う。
【0069】ステップS87において最後の候補である
と判定されると、次のステップS91においては、上記
優先度について分類された候補を次のような処理によっ
て絞り込む。
【0070】音素データ特定部9は、先ず、ステップS
91にて、データP1が対応づけられた候補があるか否
かを判定し、データP1が対応づけられた候補がある
(YES)場合は、ステップS93において、その他の
候補に対して候補除外処理を行う。一方、ステップS9
1において、データP1が対応づけられた候補がない
(NO)と判定された場合は、次のステップS95にお
いて、データP2が対応づけられた候補があるか否かを
判定する。データP2が対応づけられた候補がある(Y
ES)と判定された場合は、ステップS93において、
その他の候補に対して候補除外処理を行う。一方、ステ
ップS95にて、データP2が対応づけられた候補がな
い(NO)と判定された場合は、次のステップS97に
て、データP3が対応づけられた候補があるか否かを判
定する。ここで、データP3が対応づけられた候補があ
る(YES)と判定された場合は、ステップS93にお
いて、その他の候補に対して候補除外処理を行う。そし
て、ステップS97において、データP3が対応づけら
れた候補がない(NO)と判定された場合、即ち、全て
の候補に対し、データP1、P2およびP3のいずれの
データの対応づけもなされていない場合は、音素データ
特定部9は、ステップS99において、全ての候補につ
いて候補除外処理を行う。そして、ステップS99にお
ける処理、あるいは、ステップS93における処理の終
了により、当該入力ブロックciについての処理を終え
る。
【0071】図6に示すフローチャートは、最後の入力
ブロック、即ち入力ブロックcnに対して、音素データ
特定部9が実行する処理を説明するための図であり、本
図におけるステップS111においては、入力ブロック
cn−1を主記憶部に読み込む。そして、現在残ってい
る候補のなかの最初の候補(音素データ)の「直前の音
素」を読み込む(ステップS113)。そして、ステッ
プS111にて読み込んだ入力ブロックcn−1とステ
ップS113にて読み込んだ「直前の音素」とが一致す
るか否かをステップS115にて判定し、ここで一致し
ない(NO)と判定された場合は、音素データ特定部9
は、ステップS117において当該候補について候補除
外処理を行う。
【0072】一方、ステップS115にて、一致する
(YES)と判定された場合は、その候補は、候補とし
ての適格性があるので、候補除外処理は行われない。ス
テップS115にてYESと判定された後、あるいは、
ステップS117における候補除外処理の終了後は、音
素データ特定部9は、ステップS119において、当該
候補が最後の候補か否かを判定する。ここで、最後の候
補でない(NO)と判定されると、ステップS121に
移行して、次の候補の「直前の音素」を読み込み、そし
て、音素データ特定部9は、ステップS115からステ
ップS119までの一連の処理を、ステップS119に
おいて、最後の候補である(YES)であると判定され
るまで順次実行する。
【0073】従って、図4ないし図6を参照しながら説
明したように、この実施の形態の音声合成装置では、音
素データ特定部9は、互いに隣接する入力ブロックを、
音素データの「直前の音素」あるいは「直後の音素」に
対比させながら、候補を選定するため、隣接音声環境が
適切な音声素片を抽出することができ、音声素片の接続
部分のノイズを低減して、録音された実音声の特徴を備
え、連続性が良好な自然な合成音を得られるという効果
がある。
【0074】次に、音素データ特定部9は、上記のよう
に選定された候補を最終的に1つの音素データにまで特
定する処理を行う。
【0075】図7に示すフローチャートにおいて、音素
データ特定部9は、先ずステップS131で、現在残っ
ている候補の数を算出する。次のステップS133で
は、音素データ特定部9は、ステップS131での候補
数算出の結果によって、候補が存在するか否かを判定す
る。このステップにおいて、候補が存在しない(NO)
と判定された場合、即ち、候補がすべて候補除外処理に
より除外されていた場合は、入力ブロック、平均基本周
波数および再生時間長による候補の選定処理(図2のス
テップS9)が終了した時点で候補であったものを、再
び候補とする処理を行う(ステップS135)。
【0076】一方、ステップS133にて、候補が存在
すると判定された場合(YES)あるいは、ステップS
135での処理の終了後は、音素データ特定部9は、そ
の候補のなかで、入力ブロックに対して割り当てられた
平均基本周波数fと当該候補の「平均基本周波数」との
偏差Δfが最小となる音素データを最終的に特定する
(ステップS137)。
【0077】以上のような処理過程を経て、図2に示す
ステップS11では、各入力ブロックに対して、最終的
に1つの音素データが特定される。
【0078】そして、図2において、ステップS13で
は、現在処理を行っている入力ブロックが、最後の入力
ブロック(第n入力ブロック)であるか否かが判定さ
れ、ここで最後の入力ブロックでない(NO)と判定さ
れると、ステップS15において、次の入力データを主
記憶部に読み込む。そして、制御をステップS9に移行
させ、入力ブロックに対しての候補選定を行う。これ以
降は、ステップS13において、最後の入力ブロックで
ある(YES)と判定されるまで、上記処理を順次実行
する。
【0079】そして、ステップS13にて、最後の入力
ブロックであると判定されると、次に音声素片抽出部1
1により、音声素片の抽出が行われる(ステップS1
7)。
【0080】次に、音声素片の抽出過程を図8に示すフ
ローチャートを参照して説明する。このフローチャート
は、1つの入力ブロックについての音声素片の抽出過程
を示すものである。
【0081】本図におけるステップS141において、
入力ブロックに対応した特定音素データの「所属音声素
片データ名」、「音素再生開始時間」および「音素再生
終了時間」を読み込む。次に、ステップS143におい
ては、図1に示すように、実音声波形記憶部17に記憶
されたデータベースのなかの「所属音声素片データ名」
(ohayougozaimasu001)が示す波形
データの範囲において、特定音素データの「音素再生開
始時間」の示す時点(3000)から「音素再生終了時
間」の示す時点(4000)までの部分的な波形データ
(音声素片)を所定の作業領域に読み込み、このデータ
を合成音生成のための所定の保存領域に保存する。そし
て、音声素片抽出部11は、以上の処理をすべての入力
ブロックについて行う。尚、各入力ブロックに対して抽
出され保存された音声素片を、音声素片SU1,SU
2,…,SUnとする。
【0082】次に無音時間計算部13は、図2に示すよ
うに、全ての音声素片の抽出が終了すると、ステップS
19おいて、音声素片を接続する際の接続部分に設ける
無音時間を計算する。即ち、この実施の形態は、この無
音時間の設定により、音声上の人の息継ぎ等の特徴を再
現させようとするものである。
【0083】次に、この計算方法を図9に示すフローチ
ャートを参照して説明する。このフローチャートは、1
つの音声素片と、これと隣接する音声素片との間の接続
部分に設けられる無音時間の計算方法を示すものであ
る。
【0084】無音時間計算部13は、ステップS151
において、最後の入力ブロックを除いて、入力ブロック
に対応する特定音素データの「直後の無音部分長」を読
み込む(これをデータAとする)。次に、ステップS1
53において、当該入力ブロックciの直後の入力ブロ
ックci+1に対応する特定音素データの「直前の無音
部分長」を読み込む(これをデータBとする)。
【0085】次に、ステップS155では、条件とし
て、データA=0であり、かつ、データB=0であるか
否かが判定される。この条件を満たす(YES)とき
は、無音時間計算部13は、音声素片SUiと音声素片
SUi+1の接続部分の無音時間は0(ms)とする
(ステップS159)。一方、ステップS155の条件
を満たさない(NO)とき、即ち、データAおよびデー
タBのいずれか一方が0でないときは、ステップS15
7において、無音時間=(A+B)/2(ms)に設定
する。そして、これら無音時間をデータ(無音時間デー
タ)として所定の保存領域に保存する。
【0086】例えば、実音声「おはようございます(o
hayougozaimasu)」に対する波形データ
が実音声波形記憶部17に記憶され、音素記号/u/に
対する「直後の無音部分長」が150msである場合に
あって、入力テキスト「おはよう」に続いて入力された
「いいてんきですね」の「う」に対して、前記の音素記
号/u/が特定されると、前述の無音時間150msに
ついては、続く入力テキスト「いいてんきですね」に対
しては短すぎてしまうが、入力テキスト「い」に対する
特定音素データの「直前の無音部分長」が例えば500
msとすれば、上記の無音時間の設定方法により計算さ
れる平均、(150ms+500ms)/2=325m
sを設定することで、上述の不都合を回避することがで
きる。尚、この実施の形態では、平均を計算する方法を
採用したが、例えば、前の音声素片に対する「直後の無
音部分長」の方を重視する等の、状況に応じた重み付け
演算を行ってもよい。
【0087】以上の説明から明らかなように、この実施
の形態では、音声上の人の息継ぎ等の特徴が再現可能と
なる効果が得られる。加えて、無音時間を介して接続さ
れる、各音声素片を抽出するための各音素データの「直
前の無音部分長」、「直後の無音部分長」に重み付けを
行うことにより、偏った無音時間が設定されるのを回避
して、実音声上では前後しない音声素片どうしを接続す
る際にあっても、自然な合成音が得られる。
【0088】そして、無音時間計算部13は、最後の音
声素片SUnを除く全ての音声素片に対して上記処理を
行うことで、音声素片の接続部分に設ける無音時間を決
定し、これらデータを主記憶部の所定保存領域に記憶す
る。
【0089】最後に、音声合成部15は、図2のステッ
プS21において、主記憶部の所定領域に保存された各
音声素片と、接続部分に設ける無音時間を示す無音時間
データとを読み出し、これらを順次接続して1つの合成
音の波形データとする。そして、ステップS23におい
て、合成された波形データをA/D変換してアナログ信
号に変換し、そのアナログ信号を増幅して合成音として
出力する。
【0090】従って、本発明に係る音声合成装置の第1
の実施の形態によれば、音声波形が予め記憶された実音
声波形記憶部17が設けられ、さらに、音素データ記憶
部19には、実音声波形記憶部17の音声波形に含まれ
る音声素片(第1の音声素片)に対して付与され「保存
領域1」に保存された音素記号(第1の音素記号)と、
その第1の音声素片に隣接する音声素片に対して付与さ
れ「保存領域5」あるいは「保存領域6」に保存された
「直前の音素」あるいは「直後の音素」、即ち第2の音
素記号と、「保存領域2」の「所属音声素片データ
名」、「保存領域3」の「音素再生開始時間」並びに
「保存領域4」の「音素再生終了時間」からなる第1の
音声素片の記憶場所情報とを含む音素データが予め記憶
され、音声合成指令として入力音素記号列(入力ブロッ
ク)が入力されると、音素データ特定部9により、その
入力音素記号列とこれに隣接する入力音素記号列とから
なる組と、音素データ記憶部19における第1の音素記
号および第2の音素記号の組とが照合され、入力音素記
号列に対する音素データが特定され、その後、音声素片
抽出部11により、実音声波形記憶部17のなかの特定
された音素データの示す記憶場所から、逐次音声素片が
抽出され、音声合成部15により、所定の順序でこれら
音声素片が接続され、合成音が出力されるため、音声素
片の接続部分のノイズを低減するとともに、録音された
実音声の特徴を備えた高品質の合成音出力が可能とな
る。
【0091】次に、本発明に係る音声合成装置の第2の
実施の形態について説明する。
【0092】この実施の形態は、上記第1の実施の形態
と同様に高品質の合成音を得るとともに、合成音を構成
する音声素片の出力タイミングに係る情報を含む文字列
L(以下、リップシンク信号列Lという)を生成するこ
とを特徴とする。即ち、この実施の形態では、このリッ
プシンク信号列Lを、例えばCGを制作するための画像
処理装置などで解読して、顔画像における口の形状を変
化させるタイミングを決定することができるようにして
いる。
【0093】具体的には、第2の実施の形態の音声合成
装置には、タイミング情報生成部21が設けられ、この
タイミング情報生成部21においてリップシンク信号列
Lが生成される。
【0094】図10は、このリップシンク信号列Lを生
成するための処理を示すフローチャートであり、このフ
ローチャートを参照しながら、入力テキスト「こんにち
は」に係る処理を説明していく。
【0095】先ず、上記第1の実施の形態と同様に、入
力テキスト「こんにちは」は、図1に示す音素分解処理
部3によって、4個の入力ブロック/ko/,/n/,
/ni/,/tiwa/に変換される。そして、音素デ
ータ候補選定部7および音素データ特定部9によって、
音素データ記憶部19の中から、各入力ブロックに対し
て音素データが特定され、無音時間計算部13によっ
て、入力ブロック/ko/と/n/のそれぞれに対応す
る音声素片の接続部分の無音時間500msが決定され
る。
【0096】タイミング情報生成部21は、図10のス
テップS161において、各入力ブロックに対して特定
された音素データの「音素再生開始時間」と「音素再生
終了時間」との差を再生時間長として演算し、入力ブロ
ックと再生時間長とからなる組を再生される順序でメモ
リなどに保存することにより、表1に示すような「合成
音再生データ」を構築する。このとき、タイミング情報
生成部21は、無音時間500msを1つの音声素片の
再生時間長とみなし、これに「無音」を表す/q/を入
力ブロックとして対応づける。
【0097】
【表1】 表1においてiは、再生の順序を表す変数であり、この
実施の形態では、変換された4個の入力ブロックと前述
の/q/とを合わせて、その最大値n=5となってい
る。また、ciは各入力ブロックを示す変数であり、そ
して、tiは、各入力ブロックに対して抽出された音声
素片の再生時間長を示す変数であって、t2としての無
音時間500msが含まれている。
【0098】図10に戻り、タイミング情報生成部21
は、ステップS163において、リップシンク信号列L
の内容をクリアして、何も文字が含まれていない状態
(図中では、記号””で示す)とする。また、先頭の音
声素片の出力開始時からの累積経過時間を表す変数Tを
0(零)にリセットするとともに再生順序を表す変数i
を1とする。即ち、これらの処理が初期化動作として実
行される。
【0099】そして、タイミング情報生成部21は、ス
テップS165において、現在のリップシンク信号列L
に対して、入力ブロックciを右側から結合する(以
下、単に「右結合する」という)。尚、このステップS
165の処理が行われる前においては、L=””である
から、このステップS165の処理後において、L=”
ko”となる。尚、結合時には、入力ブロックの前後の
記号/は取除かれる。
【0100】続くステップS167では、i=1である
か否かが判定される。ここで、i=1(YES)と判定
された場合は、ステップS169にて、タイミング情報
生成部21は、リップシンク信号列Lに文字”0
(零)”を右結合する。
【0101】その後ステップS175へと進み、ここ
で、処理中の当該入力ブロックciが最後の入力ブロッ
クである(変数i=n)か否かが判定され、ここでNO
と判定されたときは、ステップS177にて、変数iが
1繰上げられ(i=i+1)、再びステップS165の
処理が行われる。
【0102】変数iが繰上げられてi=2となったとき
は、ステップS165にて入力ブロック/q/が右結合
され、リップシンク信号列L=”ko0q”となる。続
くステップS167では、i≠1(NO)と判定される
ため、ステップS171へと進む。
【0103】このステップS171では、タイミング情
報生成部21は、累積経過時間を表す変数Tに対して、
現在の変数iの1つ前のi−1に対応する再生時間長t
(i−1)を加算処理する。即ち、t1=2500が加
算され、変数T=2500となる。続いて、ステップS
173では、タイミング情報生成部21は、変数Tの内
容を文字列に変換する処理を行い、変換後の文字列ch
(T)をリップシンク信号列Lに対して右結合する。従
って、i=2のときは、ステップS173の処理後のリ
ップシンク信号列LはL=”ko0q2500”とな
る。
【0104】このようにして、タイミング情報生成部2
1は、リップシンク信号列Lを”ko0q2500”
→”ko0q2500n3000”→”ko0q250
0n3000ni4000”と生成していき、最終的に
リップシンク信号列L=”ko0q2500n3000
ni4000tiwa6000”を完成させる。そし
て、ステップS175において当該入力ブロックciが
最後の入力ブロックである(i=n)と判定されると、
このリップシンク信号列Lの生成処理が終了する。
【0105】こうして生成されたリップシンク信号列L
に含まれる各数値は、合成音における先頭の音声素片の
出力開始時間(0)と、これを基準とした2番目以降の
各音声素片の出力開始時間を表している。即ち、本例で
は、入力ブロックc1=/ko/に対応する音声素片
「こ」の出力開始時間を基準時とすると、2500ms
後に無音状態となり、基準時から3000ms後に音声
素片「ん」が出力され、基準時から4000ms後に音
声素片「に」が出力され、最後に音声素片「ちわ」が、
基準時から6000ms後に出力されることを示してい
る。
【0106】その後、生成されたリップシンク信号列L
は、画像処理装置などにて解読され、顔画像における口
の形状を変化させるタイミングが決定される。
【0107】従って、本発明に係る音声合成装置の第2
の実施の形態によれば、タイミング情報生成部21を設
けたことにより、音声素片の出力タイミングに係る情報
を含むリップシンク信号列Lを生成することができ、こ
のリップシンク信号列Lを利用して、音声波形を解析す
ることなく、顔画像における口の形状を最適なタイミン
グで変化させることができる。
【0108】尚、本例の音声素片「ちわ」のように、音
声素片が複数の音素からなる場合にあっては、その音声
素片に、最初の音素、本例でいえば、/t/に対する口
の形状を対応させるか、あるいは最後の音素、本例でい
えば、/a/に対する口の形状を対応させるかの2通り
の方法があるが、後者を選択することにより違和感の少
ない顔の表情を得ることができる。
【0109】また、上記のリップシンク信号列Lにおけ
る文字の並び方は、音声素片が出力されるタイミングを
判読しやすいものとしたが、必ずしもこの並び方に限定
されるものではなく、所定の規則により、音声素片が出
力されるタイミングを解読可能とさえすればよい。
【0110】ところで、上記第2の実施の形態では、リ
ップシンク信号列Lに含まれるタイミングに係る情報
を、各音声素片ごとに求めたが、音声素片よりも短い音
声ごとの再生時間長を所定の規則により求め、この再生
時間長を用いて、音声素片よりも短い音声との同期をと
るためのタイミング情報をリップシンク信号列Lに含ま
せることにより、このリップシンク信号列Lを用いて、
画像処理装置などにおいて、顔画像における口の形状を
より滑らかに変化させることができる。
【0111】そこで、音声素片よりも短い音声との同期
をとるための情報を含むリップシンク信号列Lを生成可
能とした本発明の音声合成装置の第3の実施の形態を説
明する。
【0112】図11は、第3の実施の形態の構成の一部
を示すブロック図である。
【0113】この実施の形態では、リップシンク信号生
成部21には、再生時間演算部21aが設けられ、ここ
には、予め、母音および子音それぞれの再生時間長を求
めるための比率xおよびyが設定されている。
【0114】次に、第3の実施の形態における音声合成
装置の動作を説明する。
【0115】タイミング情報生成部21は、先ず、前記
の表1に示すような合成音再生データをメモリなどから
読込み、この合成音再生データに含まれる入力ブロック
の中から、適宜、分解が必要な入力ブロックを選択し
て、音素分解処理部3へと供給する。
【0116】具体的には、例えば、再生時間長tiが長
い場合は、音声と画像の同期が不自然に感じられやすい
ため、所定の再生時間長以上のデータを選択して、音素
分解処理部3へと供給すればよい。前述の合成音「こん
にちは」を例にすると、音声素片「ちわ」の再生時間長
t5が比較的長いため、入力ブロック/tiwa/が音
素分解処理部3へと供給される。
【0117】音素分解処理部3は、供給された「分解前
の入力ブロック」を音素記号に分解する。この過程にお
いて、音素分解処理部3は、「分解前の入力ブロック」
から、母音と子音とからなる音節に相当する音節記号を
抽出し、さらに、音節記号を母音あるいは子音に相当す
る音素記号に分解する。
【0118】そして、音素分解処理部3は、この分解処
理によって得られた音素記号に、音節の区切を解析でき
るような音節区切データを付加して、タイミング情報生
成部21に返送する。この音節区切データは、例え
ば、”12,34”のようなデータに、「1番目と2番
目の音素記号が、母音および子音にそれぞれ相当する1
つの音節記号を構成し、これに対して,(カンマ)で区
切られた3番目と4番目の音素記号がもう1つの音節記
号を構成する」という意味をもたせることによって生成
することが可能である。
【0119】尚、音節とは、必ずしも母音と子音との組
合わせに限られるものではなく、例えば、音声「ん」に
相当する音素記号「n」を音節とすることもできる。本
例では、「分解前の入力ブロック」c5=/tiwa/
が、/t/,/i/,/w/,/a/の各音素記号に分
解され、前述の音節区切データ”12,34”とともに
タイミング情報生成部21へと返送される。
【0120】続いて、タイミング情報生成部21の再生
時間演算部21aは、音節区切データを解析し、音素分
解処理部3から返送された音素記号に複数の音節記号が
含まれるような場合にあっては、その各音節記号に対し
当該各音節記号に対応する音節の再生時間長を与える。
本例では、分解前の入力ブロックc5=/tiwa/に
は、/ti/および/wa/の2個の音節記号が含まれ
るので、これら各音節記号に対して、均等な音節の再生
時間長が与えられる。即ち、音節の再生時間長=(分解
前のt5)/(音節数)=4000/2=2000(m
s)となる。このようにして、本実施の形態では、音節
との同期をとるためのタイミング情報をリップシンク信
号列Lに含ませることができるようになっている。
【0121】そして、再生時間演算部21aは、各音節
記号の中の音素記号/t/,/i/,/w/,/a/の
うちの母音記号に対しては、音節の再生時間長に対する
母音の再生時間長の比率として設定された比率xを与え
る一方、子音記号に対しては、比率y(ただしy=1−
x)を与え、これら比率によって、音声素片に含まれる
母音/子音の再生時間長を演算することで、音素との同
期をとるためのタイミング情報をリップシンク信号列L
に含ませることができるようになっている。
【0122】具体的には、x=0.4とし、y=0.6
とした場合に、母音および子音の再生時間長は以下のよ
うに演算される。
【0123】母音の再生時間長=音節の再生時間×比率
x=2000×0.4=800(ms) 子音の再生時間長=音節の再生時間×比率y=2000
×0.6=1200(ms) タイミング情報生成部21は、演算された各再生時間長
と各音素記号とを互いに対応づけて、分解前の再生時間
長および入力ブロックに置換えることで、合成音再生デ
ータを再構築する。
【0124】具体的には、表2に示すような合成音再生
データが再構築される。即ち、表1に示した合成音再生
データにおける5番目の再生時間長および入力ブロック
が、表2に示す5番目ないし8番目の再生時間長および
その入力ブロックに置換えられる。
【0125】
【表2】 合成音再生データの再構築後は、上記第2の実施の形態
と同様に、タイミング情報生成部21によって、合成音
再生データからリップシンク信号列Lが生成される。表
2の再構築後の合成音再生データからは、リップシンク
信号列L=”ko0q2500n3000ni4000
t6000i6800w8000a8800”が生成さ
れる。そして、このリップシンク信号列Lが画像処理装
置などにて解読され、顔画像における口の形状を変化さ
せるための、より詳細なタイミングが決定される。尚、
「分解前の入力ブロック」を音素記号まで分解せずに、
音節記号までの分解にとどめることも勿論可能である。
【0126】以上説明したように、この第3の実施の形
態によれば、合成音として出力される音声素片に、母音
あるいは子音などの音素、あるいは母音および子音から
なる音節などの、音声素片よりも短い音声が含まれる場
合にあっては、再生時間演算部21aにより、その音声
ごとの再生時間長が演算され、タイミング情報生成部2
1によって、音声素片よりも短い音声との同期をとるた
めの情報を含むリップシンク信号列Lが生成されるた
め、画像処理装置などにおいて、顔画像における口の形
状をさらに細かく、滑らかに変化させることができる。
【0127】また、音声素片に母音および子音からなる
音節が含まれるときにあっては、予め設定された、音節
の再生時間長に対する母音および子音それぞれの再生時
間長の比率xおよびyによって、母音および子音のそれ
ぞれの再生時間長が演算され、母音あるいは子音と同期
をとるための情報がリップシンク信号列Lに含まれるこ
ととなるため、顔画像における口の形状を母音あるいは
子音と同期をとって変化させることができる。また、比
率x,yの設定を変えることによって、母音あるいは子
音と同期をとるための情報を調整することができる。
【0128】尚、本発明に係る音声合成装置は、上記実
施の形態に限るものではなく、ソフトウェアで構成され
た上記各処理を実行する部分を、機械読み取り可能な記
録媒体に記録することも可能である。また、上記実施の
形態は、音声合成の方法あるいはタイミングに係る情報
の生成方法などのアルゴリズムとしても優れたものであ
る。
【0129】そして、上記各機能を集積回路等のハード
ウェアで構成しても同様の効果を得ることができ、さら
に、単一のコンピュータ上でのみならず、ネットワーク
を構成する端末やサーバマシン、あるいは、画像処理装
置等に各機能を分散配備させてもよい。
【0130】
【発明の効果】以上説明したように、本発明の請求項1
に係る音声合成装置によれば、音素データ特定手段によ
り、入力音素記号列と隣接入力音素記号列とからなる組
と、音素データに含まれる第1のラベルおよび第2のラ
ベルの組とが照合され、入力音素記号列に対して、隣接
する音声環境の最適な音声データが特定されるため、音
声素片の接続部分のノイズが低減されるとともに、実音
声の特徴を備えた高品質の合成音出力が可能となる。
【0131】また、本発明の請求項2に係る音声合成装
置によれば、音声素片の接続部分の状態が、音素データ
に付与された時間情報に基づいて設定されるため、実音
声上の息継ぎ等の特徴が再現可能となる。
【0132】また、本発明の請求項3に係る音声合成装
置によれば、無音部分の時間情報に対して重み付けが行
われ、音声素片を接続する部分に設ける無音時間が算出
されるため、どちらか一方の音声素片の特徴に偏った無
音時間が設定されることが回避され、たとえ実音声上で
隣接していない音声素片どうしを接続する際にあって
も、自然な合成音が得られる。
【0133】また、本発明の請求項4に係る音声合成装
置によれば、実音声上では連続することが極めて希な同
一の音声素片の特定が規制されて、合成音が不自然にな
る不都合が回避される。
【0134】また、本発明の請求項5に係る音声合成装
置によれば、タイミング情報生成手段により音声素片の
出力タイミングに係る情報が生成されるため、音声波形
を解析することなく、顔画像の口の形状を合成音に同期
させて変化させることができる。
【0135】また、本発明の請求項6に係る音声合成装
置によれば、タイミング情報生成手段により、音声素片
よりも短い音声との同期をとるための情報が出力タイミ
ングに係る情報に含ませられるため、口の形状をより滑
らかに変化させることができる。
【図面の簡単な説明】
【図1】本発明に係る音声合成装置の第1の実施の形態
を示す図である。
【図2】図1に示した形態における音声合成に関する処
理過程を示したフローチャートである。
【図3】図1に示した形態における入力ブロック、平均
基本周波数および再生時間長に基づく音声データの候補
選定過程を示したフローチャートである。
【図4】図1に示した形態における第1入力ブロックに
ついての候補選定過程を示したフローチャートである。
【図5】図1に示した形態における第1入力ブロックお
よび最後の入力ブロックを除く入力ブロックについての
候補選定過程を示したフローチャートである。
【図6】図1に示した形態における最後の入力ブロック
についての候補選定過程を示したフローチャートであ
る。
【図7】図1に示した形態における入力ブロックについ
ての音素データの特定過程を示したフローチャートであ
る。
【図8】図1に示した形態における音声素片の抽出過程
を示したフローチャートである。
【図9】図1に示した形態における無音時間の計算過程
を示したフローチャートである。
【図10】本発明に係る音声合成装置の第2の実施の形
態の動作を示すフローチャートである。
【図11】本発明に係る音声合成装置の第3の実施の形
態の構成の一部を示すブロック図である。
【符号の説明】
1 テキスト入力部 3 音素分解処理部 5 韻律処理部 7 音素データ候補選定部 9 音素データ特定部 11 音声素片抽出部 13 無音時間計算部 15 音声合成部 17 実音声波形記憶部 19 音素データ記憶部 21 タイミング情報生成部 21a 再生時間演算部

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 音声波形が予め記憶された波形記憶手段
    と、 該波形記憶手段の音声波形に含まれる第1の音声素片に
    対して付与された第1のラベルと、当該第1の音声素片
    に隣接する音声素片に対して付与された第2のラベル
    と、当該第1の音声素片の記憶場所情報とを含む音素デ
    ータが予め記憶される音素データ記憶手段と、 音声合成指令としての入力音素記号列と該入力音素記号
    列に隣接する隣接入力音素記号列とからなる組と、前記
    音素データに含まれる第1のラベルおよび第2のラベル
    の組とを照合して、当該入力音素記号列に対する音素デ
    ータを特定する音素データ特定手段と、 前記波形記憶手段のなかの前記特定された音素データの
    示す記憶場所に記憶された音声素片を抽出する音声素片
    抽出手段と、 該音声素片抽出手段で抽出された音声素片を所定の順序
    で接続し出力する音声合成手段とを有する音声合成装
    置。
  2. 【請求項2】 請求項1記載の音声合成装置において、 前記音素データには、前記第1の音声素片と該第1の音
    声素片に隣接する音声素片との間の状態に係る時間情報
    が付与され、該時間情報に基づいて音声素片の接続部分
    の状態を設定する時間設定手段を有することを特徴とす
    る音声合成装置。
  3. 【請求項3】 請求項2記載の音声合成装置において、 前記時間設定手段は、前記音素データに、前記第1の音
    声素片と該第1の音声素片の前後に隣接する各音声素片
    との間の無音部分の時間情報がそれぞれ付与されている
    とき、前記第1の音声素片の後の無音部分の時間情報
    と、当該第1の音声素片の後に接続される音声素片の前
    の無音部分の時間情報の少なくとも一方に対し重み付け
    を行って、当該各音声素片を接続する部分に設ける無音
    時間を算出することを特徴とする音声合成装置。
  4. 【請求項4】 請求項1ないし請求項3のいずれかに記
    載の音声合成装置において、 前記入力音素記号列に対して特定された音素データが、
    当該入力音素記号列の前又は後ろに隣接する入力音素記
    号列に対して特定されることを規制する規制手段を有す
    ることを特徴とする音声合成装置。
  5. 【請求項5】 請求項1ないし請求項4のいずれかに記
    載の音声合成装置において、 前記音声合成手段により出力される音声素片の出力タイ
    ミングに係る情報を生成するタイミング情報生成手段を
    具備することを特徴とする音声合成装置。
  6. 【請求項6】 請求項5記載の音声合成装置において、 前記タイミング情報生成手段は、前記音声合成手段によ
    り出力される音声素片に当該音声素片よりも短い音声が
    含まれるときには、当該音声との同期をとるための情報
    を前記出力タイミングに係る情報に含ませることを特徴
    とする音声合成装置。
JP11219216A 1999-04-28 1999-08-02 音声合成装置 Pending JP2001013982A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11219216A JP2001013982A (ja) 1999-04-28 1999-08-02 音声合成装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP11-122718 1999-04-28
JP12271899 1999-04-28
JP11219216A JP2001013982A (ja) 1999-04-28 1999-08-02 音声合成装置

Publications (1)

Publication Number Publication Date
JP2001013982A true JP2001013982A (ja) 2001-01-19

Family

ID=26459789

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11219216A Pending JP2001013982A (ja) 1999-04-28 1999-08-02 音声合成装置

Country Status (1)

Country Link
JP (1) JP2001013982A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004004440A (ja) * 2002-03-22 2004-01-08 Yamaha Corp 歌唱合成装置、歌唱合成用プログラム及び歌唱合成用プログラムを記録したコンピュータで読み取り可能な記録媒体
WO2004109660A1 (ja) * 2003-06-04 2004-12-16 Kabushiki Kaisha Kenwood 音声データを選択するための装置、方法およびプログラム
JP2008191221A (ja) * 2007-02-01 2008-08-21 Oki Electric Ind Co Ltd 音声合成方法、音声合成プログラム、音声合成装置
CN111916054A (zh) * 2020-07-08 2020-11-10 标贝(北京)科技有限公司 基于唇形的语音生成方法、装置和系统及存储介质
CN112420015A (zh) * 2020-11-18 2021-02-26 腾讯音乐娱乐科技(深圳)有限公司 一种音频合成方法、装置、设备及计算机可读存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004004440A (ja) * 2002-03-22 2004-01-08 Yamaha Corp 歌唱合成装置、歌唱合成用プログラム及び歌唱合成用プログラムを記録したコンピュータで読み取り可能な記録媒体
WO2004109660A1 (ja) * 2003-06-04 2004-12-16 Kabushiki Kaisha Kenwood 音声データを選択するための装置、方法およびプログラム
JP2008191221A (ja) * 2007-02-01 2008-08-21 Oki Electric Ind Co Ltd 音声合成方法、音声合成プログラム、音声合成装置
CN111916054A (zh) * 2020-07-08 2020-11-10 标贝(北京)科技有限公司 基于唇形的语音生成方法、装置和系统及存储介质
CN111916054B (zh) * 2020-07-08 2024-04-26 标贝(青岛)科技有限公司 基于唇形的语音生成方法、装置和系统及存储介质
CN112420015A (zh) * 2020-11-18 2021-02-26 腾讯音乐娱乐科技(深圳)有限公司 一种音频合成方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
US7487093B2 (en) Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US8423367B2 (en) Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
US5940797A (en) Speech synthesis method utilizing auxiliary information, medium recorded thereon the method and apparatus utilizing the method
US8338687B2 (en) Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
JP4516863B2 (ja) 音声合成装置、音声合成方法及びプログラム
US20090254349A1 (en) Speech synthesizer
US6188977B1 (en) Natural language processing apparatus and method for converting word notation grammar description data
JP2003066991A (ja) 音声認識結果出力方法および音声認識結果出力装置ならびに音声認識結果出力処理プログラムを記録した記録媒体
JP2003271194A (ja) 音声対話装置及びその制御方法
JP4287785B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP2001013982A (ja) 音声合成装置
CN108922505B (zh) 信息处理方法及装置
KR100754430B1 (ko) 음성 기반 자동 립싱크 애니메이션 장치와 방법 및 기록매체
US20230317090A1 (en) Voice conversion device, voice conversion method, program, and recording medium
JPH08335096A (ja) テキスト音声合成装置
EP0982684A1 (en) Moving picture generating device and image control network learning device
JP2005018036A (ja) 音声合成装置、音声合成方法及びプログラム
JP2005242231A (ja) 音声合成装置、音声合成方法、及び音声合成プログラム
JP4563418B2 (ja) 音声処理装置、音声処理方法、ならびに、プログラム
Hill et al. Unrestricted text-to-speech revisited: rhythm and intonation.
JP4574333B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP3292218B2 (ja) 音声メッセージ作成装置
JP2003280680A (ja) 音声合成装置およびその方法およびそのプログラムならびに記憶媒体
CN116580696A (zh) 基于情感识别的语音流合成方法及装置