JP2001013982A

JP2001013982A - 音声合成装置

Info

Publication number: JP2001013982A
Application number: JP11219216A
Authority: JP
Inventors: Yuji Wada; 祐司和田
Original assignee: Victor Company of Japan Ltd
Current assignee: Victor Company of Japan Ltd
Priority date: 1999-04-28
Filing date: 1999-08-02
Publication date: 2001-01-19

Abstract

(57)【要約】【課題】音声素片の接続部分のノイズを低減するとと
もに、録音された実音声の特徴を備えた高品質の合成音
出力が可能な音声合成装置を提供する。【解決手段】音素データ記憶部１９の各保存領域に
は、「音素記号」、「所属音声素片データ名」、「直前
の音素」、「直後の音素」が予め登録され、実音声素片
記憶部１７には、実音声を記憶した波形データが音声素
片データ名とともに蓄積して記憶される。音素データ特
定部９は、入力ブロック列のなかの互いに隣接する「入
力ブロック」の組と、音素データ記憶部１９の「音素記
号」および「直前の音素」（あるいは、「直後の音
素」）とを照合することにより、各入力ブロックに対し
て隣接音声環境が最適な音素データを特定し、音声素片
抽出部１１は特定音素データの「所属音声素片データ
名」を基に実音声素片記憶部１７から音声素片を抽出
し、音声合成部１５は抽出された音声素片を順次接続し
合成音を出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声素片の接続部
分のノイズを低減するとともに、録音された音声の特徴
を備えた高品質の合成音出力が可能な音声合成装置およ
び合成音に同期させて、顔画像における口の形状を変化
させることのできる音声合成装置に関する。

【０００２】

【従来の技術】近年、人の実音声を録音して保存したも
のから合成音を生成する録音合成の技術が、音声の特徴
の再現性の点から注目されている。

【０００３】従来の録音合成を利用した音声合成装置に
あっては、予め実音声を録音し、例えば、「あ」や
「い」等の５０音を構成する音声等の所定の音声単位ご
とに区切って多数の音声素片としたものが用意され、こ
の各音声素片は、音声素片の種類を表す音素記号、音声
の高低を決める基本周波数および再生時間長が付与され
てデータベースとして蓄積保存される。

【０００４】テキストから音声を合成する際には、入力
された日本語テキストは、先ず単語辞書を基にした音素
分解処理により音素記号に分解され、その得られた各音
素記号に対して、所定のアクセントパターン表および再
生時間長規則を基にした韻律処理により基本周波数と再
生時間長とが割り当てられる。そして、音素記号、基本
周波数および再生時間長と、上述のデータベースのなか
の音素記号、基本周波数および再生時間長とが照合さ
れ、音素分解処理により得られた音素記号に対して音声
素片が選択される。そして、選択された音声素片が入力
されたテキストの順番で接続されて合成音声が生成され
る。

【０００５】また、音声合成の技術が注目されるなかに
あって、その一方では、音声解析やＣＧ（Computer Gra
phics）の技術の加速的な進歩により、入力された音声
波形を解析しながら、実際に人が音声をしゃべっている
ように口の形状が変化する顔画像を生成する画像処理技
術が実現段階に入っている。このような技術は、例え
ば、事件の現場から電話により伝えられた言葉を、ＣＧ
で制作されたアナウンサにしゃべらせるというような用
途などに利用される。

【０００６】このような用途において、顔画像における
口の形状をリアルタイムに変化させるためのパラメータ
を生成するためには、コンピュータシステムなどを利用
して、入力された音声波形の解析処理が行われる。

【０００７】

【発明が解決しようとする課題】しかしながら、上記従
来の音声合成装置では、合成音声の生成のための音声素
片を記憶するにあたっては、実音声において隣接する音
声素片に関係なく互いに分離され、一方、音声素片を合
成するにあたっては、入力された音素記号等と、データ
ベースの各音声素片に対応づけられた音素記号等とを照
合することにより音声素片を選択し、その選択された音
声素片を単純に接続する方法が採られていたため、生成
される合成音は、音声素片の接続部分に生ずるノイズが
高く、録音された実音声の特徴が損われてしまう場合が
あった。

【０００８】また、上記のように、顔画像における口の
形状を音声に同期して変化させるためには、処理能力の
高いコンピュータシステムによる複雑で膨大な音声解析
処理が必要であることから、このような音声解析処理を
行わずに、顔画像における口の形状を音声と同期したタ
イミングで変化させたいとの要望が多くなっている。

【０００９】そこで本発明は、上記従来の問題点に鑑み
てなされたものであり、その目的とするところは、音声
素片の接続部分のノイズを低減するとともに、録音され
た実音声の特徴を備えた高品質の合成音出力が可能な音
声合成装置を提供することにある。

【００１０】また、本発明の他の目的とするところは、
合成音に同期させて、顔画像における口の形状を変化さ
せることのできる音声合成装置を提供することにある。

【００１１】

【課題を解決するための手段】本発明の請求項１に係る
音声合成装置は、音声波形が予め記憶された波形記憶手
段と、該波形記憶手段の音声波形に含まれる第１の音声
素片に対して付与された第１のラベルと、当該第１の音
声素片に隣接する音声素片に対して付与された第２のラ
ベルと、当該第１の音声素片の記憶場所情報とを含む音
素データが予め記憶される音素データ記憶手段と、音声
合成指令としての入力音素記号列と該入力音素記号列に
隣接する隣接入力音素記号列とからなる組と、前記音素
データに含まれる第１のラベルおよび第２のラベルの組
とを照合して、当該入力音素記号列に対する音素データ
を特定する音素データ特定手段と、前記波形記憶手段の
なかの前記特定された音素データの示す記憶場所に記憶
された音声素片を抽出する音声素片抽出手段と、該音声
素片抽出手段で抽出された音声素片を所定の順序で接続
し出力する音声合成手段とを有する。

【００１２】本発明の請求項１に係る音声合成装置で
は、音声波形が予め記憶された波形記憶手段が設けら
れ、さらに、この波形記憶手段の音声波形に含まれる第
１の音声素片に対して付与された第１のラベルと、第１
の音声素片に隣接する音声素片に対して付与された第２
のラベルと、第１の音声素片の記憶場所情報とを含む音
素データが予め記憶される音素データ記憶手段が設けら
れ、音声合成指令として入力音素記号列が入力される
と、音素データ特定手段により、その入力音素記号列と
隣接入力音素記号列とからなる組と、音素データに含ま
れる第１のラベルおよび第２のラベルの組とが照合さ
れ、入力音素記号列に対する音素データが特定され、そ
の後、音声素片抽出手段により、波形記憶手段のなかの
特定された音素データの示す記憶場所から、逐次音声素
片が抽出され、音声合成手段により、適切な合成音とな
るような順序で、これら音声素片が接続され、合成音が
出力される。

【００１３】また、本発明の請求項２に係る音声合成装
置は、請求項１記載の音声合成装置において、前記音素
データには、前記第１の音声素片と該第１の音声素片に
隣接する音声素片との間の状態に係る時間情報が付与さ
れ、該時間情報に基づいて音声素片の接続部分の状態を
設定する時間設定手段を有することを特徴とする。

【００１４】本発明の請求項２に係る音声合成装置で
は、音素データには、第１の音声素片と、該第１の音声
素片との間の状態に係る時間情報が予め付与され、時間
設定手段が時間情報に基づいて、音声素片の接続部分の
状態を設定して、音声上の人の息継ぎ等の特徴が再現可
能となる。

【００１５】また、本発明の請求項３に係る音声合成装
置は、請求項２記載の音声合成装置において、前記時間
設定手段は、前記音素データに、前記第１の音声素片と
該第１の音声素片の前後に隣接する各音声素片との間の
無音部分の時間情報がそれぞれ付与されているとき、前
記第１の音声素片の後の無音部分の時間情報と、当該第
１の音声素片の後に接続される音声素片の前の無音部分
の時間情報の少なくとも一方に対し重み付けを行って、
当該各音声素片を接続する部分に設ける無音時間を算出
することを特徴とする。

【００１６】本発明の請求項３に係る音声合成装置で
は、音素データには、予め第１の音声素片と該第１の音
声素片の前後に隣接する各音声素片との間の無音部分の
時間情報がそれぞれ付与され、時間設定手段により、第
１の音声素片の後の無音部分の時間情報と、当該第１の
音声素片の後に接続される音声素片の前の無音部分の時
間情報の少なくとも一方に対して重み付けが行われて、
各音声素片を接続する部分に設ける無音時間が算出さ
れ、どちらか一方の音声素片の特徴に偏った無音時間が
設定されることが回避され、たとえ実音声上で隣接して
いない音声素片どうしを接続する際にあっても、自然な
合成音が得られる。

【００１７】また、本発明の請求項４に係る音声合成装
置は、請求項１ないし請求項３のいずれかに記載の音声
合成装置において、前記入力音素記号列に対して特定さ
れた音素データが、当該入力音素記号列の前又は後ろに
隣接する入力音素記号列に対して特定されることを規制
する規制手段を有することを特徴とする。

【００１８】本発明の請求項４に係る音声合成装置で
は、入力音素記号列に対して特定された音素データは、
当該入力音素記号列の前又は後ろに隣接する入力音素記
号列に対して特定されずに、実音声上では連続すること
が極めて希な同一の音声素片が特定されて合成音が不自
然となる不都合が回避される。

【００１９】また、本発明の請求項５に係る音声合成装
置は、請求項１ないし請求項４のいずれかに記載の音声
合成装置において、前記音声合成手段により出力される
音声素片の出力タイミングに係る情報を生成するタイミ
ング情報生成手段を具備することを特徴とする。

【００２０】本発明の請求項５に係る音声合成装置で
は、音声合成手段により出力される音声素片の出力タイ
ミングに係る情報が、タイミング情報生成手段によって
生成され、この情報によって、顔画像における口の形状
を変化させるタイミングを決定することができるように
している。

【００２１】また、本発明の請求項６に係る音声合成装
置は、請求項５記載の音声合成装置において、前記タイ
ミング情報生成手段は、前記音声合成手段により出力さ
れる音声素片に当該音声素片よりも短い音声が含まれる
ときには、当該音声との同期をとるための情報を前記出
力タイミングに係る情報に含ませることを特徴とする。

【００２２】本発明の請求項６に係る音声合成装置で
は、音声合成手段により出力される音声素片に、例えば
母音や子音などの音素や母音および子音からなる音節な
どの、当該音声素片よりも短い音声が含まれるときに
は、タイミング情報生成手段により、当該音声との同期
をとるための情報を出力タイミングに係る情報に含ませ
て、顔画像における口の形状を音声素片よりも短い音声
に同期させて変化させられるようにしている。

【００２３】

【発明の実施の形態】以下、本発明に係る音声合成装置
の実施の形態を図１ないし図１１を参照して説明する。
尚、以下の説明では、日本語テキストからの音声合成を
例にするが、音素分解処理部および韻律処理部を変えれ
ば、他の言語で入力されたテキストからの音声合成が可
能である。

【００２４】図１は、本発明に係る音声合成装置の第１
の実施の形態を示す図である。

【００２５】本実施の形態の音声合成装置には、キーボ
ードや、予め用意されたテキストデータを保存するハー
ドディスク装置等の外部記憶装置が接続される。そし
て、この音声合成装置には、所定の処理を実行する演算
部、および処理命令の記憶やデータの一時保存が可能な
主記憶部とが設けられており、この主記憶部や、外部記
憶装置に記憶された命令を逐次演算部に読み込ませ、実
行させることにより以下の音声合成のための処理が行わ
れる。また、以下に説明する各部間のデータの転送につ
いては、主記憶部に設けられた所定の保存領域、或いは
命令によって逐次設定される作業領域を介して行われ
る。

【００２６】尚、必要に応じてマウス、ディスプレイ装
置等の入出力装置を接続してもよい。また、後述する実
音声波形記憶部１７と音素データ記憶部とを、複数の端
末との通信が可能なコンピュータ等に配備して、ネット
ワーク型の音声合成装置を構成することも可能である。

【００２７】本図に示すテキスト入力部１は、キーボー
ドや外部記憶装置等から、入力バッファを介して、日本
語テキストデータを入力し、そのデータを音素分解処理
部３、および韻律処理部５へと出力する。音素分解処理
部３は、テキスト入力部１から転送された日本語テキス
トデータに言語処理を行うとともに、音声素片（この音
声素片には、単音素および、単音素が複合された音素列
が含まれる）の種類を表し、予め後述する音素データ記
憶部１９に登録されている音素記号あるいは音素記号列
に変換する。

【００２８】以下の説明では、入力されたテキストデー
タを「入力テキスト」といい、この変換により得られた
各音素記号列（単一の音素記号を含む）を「入力ブロッ
ク」ないしは「入力音素記号列」という。例えば、入力
テキスト「おはようございます」は、この時点で８個の
入力ブロック／ｏ／，／ｈａ／，／ｙｏ／，／ｕ／，／
ｇｏ／，／ｚａｉ／，／ｍａ／，／ｓｕ／からなる入力
ブロック列に変換される。

【００２９】そして、音素分解処理部３は、各入力ブロ
ックを韻律処理部５および音素データ候補選定部７へと
送出する。韻律処理部５は、所定のアクセントパターン
表や再生時間長規則を基にした韻律処理を実行すること
により、音素分解処理部３から入力された各入力ブロッ
クに対して、テキスト入力部１から入力された入力テキ
ストを解析しながら、平均基本周波数ｆと再生時間長ｔ
を決定する。そして、韻律処理部５は、各入力ブロック
に平均基本周波数ｆと再生時間長ｔとを対応づけて、音
素データ候補選定部７へと送出する。

【００３０】音素データ候補選定部７は、入力された入
力ブロック、平均基本周波数ｆおよび再生時間長ｔと、
後述する音素データ記憶部１９に記憶されたデータベー
スに含まれるデータとを照合して、各入力ブロックに対
する音素データの候補を選定する。そして、候補を表す
フラグを音素データに対応づけ、後述する音素データ特
定部９での処理において、候補とそうでないものの区別
を可能とする。

【００３１】音素データ特定部９は、前記候補を表すフ
ラグに基づいて、各入力ブロックについての候補のなか
から、合成音生成のために最適な１つの音素データを最
終的に特定するまでの処理を行う。これ以降、特定され
た音素データを特定音素データという。この処理によ
り、各入力ブロックに対する、合成音生成のための音声
素片が抽出可能となる。そして、特定音素データを後述
する音声素片抽出部１１および無音時間計算部１３へと
出力する。

【００３２】音声素片抽出部１１は、特定音素データの
内容を解析して、合成音を生成するための音声素片を実
音声波形記憶部１７から抽出する。そして音声素片を音
声合成部１５へと出力する。

【００３３】無音時間計算部１３は、音素データ特定部
９から入力された特定音素データの内容を解析し、各入
力ブロックに対する音声素片を接続する際の、接続部分
に設ける無音時間を計算する。そして、無音時間計算部
１３は、無音時間を示す無音時間データを音声合成部１
５に送出する。

【００３４】音声合成部１５は、無音時間計算部１３か
ら入力された無音時間データに基づいて、無音時間を音
声素片波形データの接続部に設定して、音声素片抽出部
１１から入力した各波形データと各無音時間を順次接続
することで、１つの合成音データを生成し、これを増幅
して出力する。

【００３５】実音声波形記憶部１７は、図１に示すよう
に、合成音生成の際に音声素片抽出部１１により抽出さ
れる音声素片を含む波形データがデータベースとして蓄
積記憶された部分である。これら波形データは、例え
ば、小説等の所定の日本語長文を人間に読ませ、これを
録音して適当な長さに分割したものを符号化したもので
あり、様々な録音時間の波形データが含まれている。ま
た、同じ音声からのデータであっても、録音時の声の状
態や、読まれた文章の内容等により、その波形は異なっ
たものになる。

【００３６】この実音声波形記憶部１７は、各データ毎
に、２つの保存領域を有し、保存領域１「音声素片デー
タ名」には、検索用の名前が保存されている。図１の例
では、音声「おはようございます」に相当する名前「ｏ
ｈａｙｏｕｇｏｚａｉｍａｓｕ００１」が保存されてい
る。また、保存領域２「波形データ」には、音声「おは
ようございます」に相当する波形データが保存されてい
る。

【００３７】そして、本図に示す音素データ記憶部１９
は、保存領域１から保存領域９までの９つの保存領域を
有する音素データのデータベースである。この音素デー
タ記憶部１９は、音声素片に１対１に対応している（以
下、この音声素片を、各保存領域の説明において「当該
音声素片」という）。そして、音素分解処理の際には、
入力テキストに対して入力ブロックを決定（割り当て）
するために、音素分解処理部３によって参照される部分
であり、また、音素データ特定部９によって、最適な音
声素片を特定するために照合される部分でもある。

【００３８】その保存領域１「音素記号」には、入力ブ
ロックと対比される音素記号（または音素記号列）が登
録保存される。本例では、音声「よ」に相当する音素記
号／ｙｏ／が保存されている。即ち、この音素記号また
は音素記号列が第１のラベルとしての機能を果す。

【００３９】保存領域２「所属音声素片データ名」に
は、当該音声素片が、実音声波形記憶部１７に生成され
たデータベースの中の、どのデータに所属するかを示す
名前が保存される。本図の例では、実音声「おはようご
ざいます」の波形データを保存した「ｏｈａｙｏｕｇｏ
ｚａｉｍａｓｕ００１」というデータの中に、音素記号
／ｙｏ／に相当する音声素片が含まれていることを示し
ている。

【００４０】保存領域３「音素再生開始時間」には、当
該音声素片が、「所属音声素片データ名」の名前の示す
再生音声（以下、各保存領域の説明において「当該再生
音声」という）の、どの時点から開始される音声に相当
するものかを示すデータが保存される。このデータとし
ては、トータルの再生時間に対する相対的な開始時刻を
示す値等を使用すればよい。

【００４１】一方保存領域４「音素再生終了時間」に
は、当該音声素片が、当該再生音声の、どの時点までの
音声に相当するものかを示すデータが保存される。この
「音素再生終了時間」にも「音素再生開始時間」と同様
に、トータルの再生時間に対する相対値等を使用すれば
よい。従って、「所属音声素片データ名」、「音素再生
開始時間」および「音素再生終了時間」により当該音声
素片の記憶場所が特定可能となっている。

【００４２】そして、保存領域５「直前の音素」には、
当該再生音声のなかで、当該音声素片の直前の音声素片
を示す音素記号（または音素記号列）が登録保存され、
一方保存領域６「直後の音素」には、当該音声素片の直
後に再生される音声素片を示す音素記号（または音素記
号列）が登録保存される。即ち、これら保存領域「直前
の音素」または「直後の音素」に登録された音素記号
（または音素記号列）が第２のラベルとして機能する。

【００４３】保存領域７「直前の無音部分長」には、当
該音声素片とその直前の音声素片とのとの間の無音部分
の長さを示すデータが保存され、一方保存領域８「直後
の無音部分長」には、当該音声素片とその直後の音声素
片とのとの間の無音部分の長さを示すデータが保存され
る。これら「直前の無音部分長」および「直後の無音部
分長」には、実際の時間情報を保存しても良いし、ま
た、当該音声素片の再生時間等に対する相対値を保存し
てもよい。尚、これら無音部分は、ポーズともいわれ
る。そして、音素データ記憶部１９の保存領域９「平均
基本周波数」には、当該音声素片の平均基本周波数を示
す値が保存される。

【００４４】次に、図２に示すフローチャートを参照し
て、本発明に係る音声合成装置の動作を実例をまじえて
説明する。本図に示す処理は、入力テキストが音声合成
装置の入力バッファ等に蓄えられている状態から、音声
合成の指令等によって開始するものである。尚、以下の
実施の形態の説明において、データベースの保存領域名
を鍵かっこで囲んだ表現を使用する場合は、データベー
スの保存領域に保存されたデータそのものを示すものと
する。

【００４５】図２においては、先ず、ステップＳ１で、
例えば「おはようございます」等の入力テキストが、入
力バッファ等からテキスト入力部１へと入力される。入
力された文字列は、ステップＳ３において、音素分解処
理部３へと出力され、音素分解処理部３では、音素デー
タ記憶部１９に保存された「音声」を参照することによ
り、入力テキストを複数の入力ブロックに変換する（こ
の変換処理を音素分解という）。

【００４６】上記例示した入力テキスト「おはようござ
います」は、この時点で８個の入力ブロック／ｏ／，／
ｈａ／，／ｙｏ／，／ｕ／，／ｇｏ／，／ｚａｉ／，／
ｍａ／，／ｓｕ／からなる入力ブロック列に変換され
る。尚、便宜上、得られた入力ブロックの数をｎ個と
し、各入力ブロックをそれぞれ、入力テキストの順に合
わせて、第１入力ブロックｃ１、第２入力ブロックｃ
２，…，第ｎ入力ブロックｃｎというものとする。

【００４７】韻律処理部５は、次のステップＳ５におい
て、各入力ブロックに対して、所定のアクセントパター
ン表や再生時間長規則に基づいて、音声再生時の音程を
決定する平均基本周波数ｆと音声の継続時間を決定する
再生時間長ｔとを割当てる。ここで、ｉ番目の入力ブロ
ックに割当てられた平均基本周波数、音素再生長をそれ
ぞれｆｉ、ｔｉというものとする。尚、入力ブロックが
単一の音素記号の複合されたものである場合は、その音
素記号列の各音素記号に割当てられた基本周波数を平均
化したものが平均基本周波数ｆとなる。

【００４８】そして、韻律処理部５は、平均基本周波数
ｆと再生時間長ｔとを入力ブロックに対応づけて、主記
憶部の所定の保存領域に保存する。尚、入力ブロック、
平均基本周波数および再生時間長を総称して入力データ
という。

【００４９】そして、図２のステップＳ７においては、
音素データ候補選定部７は、第１入力データ、即ち、第
１入力ブロック、平均基本周波数ｆ１および再生時間長
ｔ１を読み込み、所定の作業領域に保存する。ステップ
Ｓ９においては、音素データ候補選定部７は、各入力デ
ータを音素データ記憶部１９に記憶されたデータに対比
させて、音素データの候補を選定する。

【００５０】ここで、図３に示すフローチャートを参照
して、音素データ候補選定部７にて各入力ブロックにつ
いて実行される、音素データの候補選定処理について説
明する。この候補選定処理は、最終的に、入力ブロック
に対して１つの音素データを特定するための前段階とし
て、実行されるものであり、先ず、「音声記号」が入力
ブロックに一致し、しかも「平均基本周波数」および音
声素片の再生時間が、入力ブロックに割り当てられたも
のに対して、所定の誤差範囲に含まれる音素データが候
補として選定される。選定にあたっては、候補を表すフ
ラグを音素データに対応づけ、後の処理のために、この
フラグをオン／オフいずれかの状態に設定する。

【００５１】図３におけるステップＳ４１では、音素デ
ータ候補選定部７は、入力ブロックｃｉを検索パラメー
タとして音素データ記憶部１９に記憶された全音素デー
タの保存領域１を検索し、入力ブロックと「音声記号」
が一致する音素データを候補として選定する。音素デー
タ記憶部１９には、通常「音素記号」が同一である多数
の音素データが保存されているため、通常は、この時点
での候補数は比較的多い。

【００５２】音素データ候補選定部７は、前述のフラグ
の状態をもとに、すべての候補について、順次に以下の
処理を行う。

【００５３】先ずステップＳ４３において、第１の候補
（音素データ）を読み込んで主記憶部の所定の作業領域
に保存する。そして、ステップＳ４５においては、当該
入力ブロック（ｃｉ）に割当てられた平均基本周波数ｆ
ｉと、当該音素データの「平均基本周波数」との差Δｆ
（偏差）が所定の周波数Ｆ以上であるか否かを判定す
る。このステップＳ４５で、この偏差Δｆが値Ｆ以上で
あると判定される（ＹＥＳ）と判定されると、ステップ
Ｓ４７において、この音素データを候補から除外する処
理（以下、候補除外処理という）が行われる。即ち、
「平均基本周波数」が所定の誤差範囲にない音素データ
は、ここで候補から除外される。

【００５４】一方、ステップＳ４５で、偏差Δｆが周波
数Ｆより小さい（ＮＯ）と判定されると、続くステップ
Ｓ４９においては、当該対象となっている候補の「音素
再生開始時間」と「音素再生終了時間」との時間差、即
ち音声素片の再生時間長と、入力ブロックｃｉに割当て
られた再生時間長ｔｉとの偏差Δｔが所定の時間値Ｔ以
上であるか否かを判定する。このステップＳ４９におい
て、偏差Δｔが値Ｔ以上である（ＹＥＳ）と判定される
と、ステップＳ４７において、候補除外処理が行われ
る。即ち、再生時間長が所定の誤差範囲にない音素デー
タは、ここで候補から除外される。

【００５５】一方、ステップＳ４９において、偏差Δｔ
が値Ｔより小さい（ＮＯ）と判定された場合は、次にス
テップＳ５１にて、その候補（音素データ）が当該入力
ブロックｃｉの直前の入力ブロックｃｉ−１について特
定された音素データであるか否かが判定され、直前の入
力ブロックｃｉ−１について特定された音素データであ
る（ＹＥＳ）と判定されたときは、制御がステップＳ４
７に移行して、その候補について候補除外処理が行われ
る。即ち、実音声では、同一音が連続することが極めて
希であるため、音声合成装置がこのような誤った選定を
行い、合成音が不自然となるのを回避する効果がある。

【００５６】ステップＳ５１にて、直前の入力ブロック
ｃｉ−１について特定された音素データでない（ＮＯ）
と判定されたときは、その音素データは候補として残さ
れることとなる。そして、ステップＳ５１にてＮＯと判
定された後、あるいは、ステップＳ４７における候補除
外処理の終了後は、音素データ候補選定部７は、ステッ
プＳ５３において、当該候補が最後の候補か否かを判定
する。ここで、最後の候補でない（ＮＯ）と判定される
と、音素データ候補選定部７は、ステップＳ５５に制御
を移行させ、次の候補（音素データ）の内容を読み込
む。そして、音素データ候補選定部７は、ステップＳ４
５からステップＳ５３までの一連の処理を、ステップＳ
５３において、最後の候補である（ＹＥＳ）と判定され
るまで順次実行する。

【００５７】音素データ候補選定部７が上記処理を行う
ことにより、後述する波形の抽出時において、同一の音
素記号で、しかも音声の平均基本周波数および再生時間
長の近い音声素片の抽出が可能となる。

【００５８】そして、図２に示すしたステップＳ１１に
おいては、例えば、図１に示したような１つの入力ブロ
ック「ｙｏ」に対して、ある程度絞り込まれた候補のな
かから最終的な１つの音素データを特定する処理を音素
データ特定部９が行う。特にこの実施の形態では、入力
ブロックの前後の関係を、波形データ記録時の音声素片
の前後関係に対比させることにより、隣接音声環境の最
適な音声素片を特定することを可能としている。

【００５９】図４に示すフローチャートは、第１入力ブ
ロックに対して、音素データ特定部９が実行する処理を
説明するためのものであり、本図のステップＳ６１にお
いては、第２入力ブロックを主記憶部の所定作業領域に
読み込む。そして、現在残っている候補のなかの最初の
候補（音素データ）につき、その「直後の音素」を読み
込む（ステップＳ６３）。そして、ステップＳ６１にて
読み込んだ入力ブロックｃ２とステップＳ６３にて読み
込んだ「直後の音素」とが一致するか否かを、ステップ
Ｓ６５にて判定し、ここで一致しない（ＮＯ）と判定さ
れた場合は、音素データ特定部９は、ステップＳ６７に
おいて候補除外処理を行う。

【００６０】一方、ステップＳ６５にて、一致する（Ｙ
ＥＳ）と判定されたときは、候補除外処理は行われな
い。ステップＳ６５にて、一致する（ＹＥＳ）と判定さ
れた後、あるいは、ステップＳ６７における候補除外処
理の終了後は、音素データ特定部９は、ステップＳ６９
において、当該候補が最後の候補か否かを判定する。こ
こで、最後の候補でない（ＮＯ）と判定されると、ステ
ップＳ７１に進んで、次の候補の「直後の音素」を読み
込み、そして、音素データ特定部９は、ステップＳ６５
からステップＳ６９までの一連の処理を、ステップＳ６
９において、最後の候補である（ＹＥＳ）であると判定
されるまで順次実行する。

【００６１】このようにして、第１入力ブロックについ
ては、当該候補の「直後の音素」が第２入力ブロックと
一致するものだけが、候補として残されることとなる。

【００６２】図５に示すフローチャートは、第１入力ブ
ロックおよび最後の入力ブロックを除く、任意の第ｉ入
力ブロックに対して、音素データ特定部９が実行する処
理を説明するためのものである。

【００６３】音素データ特定部９は、ステップＳ８１に
おいて、当該入力ブロックｃｉの直前の入力ブロックお
よび直後の入力ブロック、即ち、入力ブロックｃｉ−１
および入力ブロックｃｉ＋１を主記憶部に読み込み、そ
の後、ステップＳ８３において、最初の候補の「直前の
音素」および「直後の音素」を主記憶部に読み込む。そ
して、ステップＳ８５においては、当該候補（音素デー
タ）が以下のどの条件を満たすかにより候補の分類を行
う。

【００６４】先ず、当該候補の「直前の音素」と入力ブ
ロックｃｉ−１とが一致し、かつ、「直後の音素」と入
力ブロックｃｉ＋１が一致する候補に対しては、優先し
て候補に残される可能性（優先度）が一番高いことを示
すデータＰ１が対応づけられる。図１に示す例では、入
力ブロック「ｙｏ」に対して、「直前の音素」が「ｈ
ａ」であり、かつ、「直後の音素」が「ｕ」であり、こ
の条件を満たすため、この音素データには、データＰ１
が対応づけられる。

【００６５】そして、「直前の音素」と入力ブロックｃ
ｉ−１が一致し、かつ、「直後の音素」と入力ブロック
ｃｉ＋１が一致しない候補に対しては、データＰ１より
も優先度が低いことを示すデータＰ２が対応づけられ
る。

【００６６】そして、さらに「直前の音素」と入力ブロ
ックｃｉ−１とが一致せず、かつ、「直後の音素」と入
力ブロックｃｉ＋１が一致する候補対しては、データＰ
２よりもさらに優先度が低いことを示すデータＰ３が対
応づけられる。

【００６７】最後に、「直前の音素」と入力ブロックｃ
ｉ−１とが一致せず、かつ、「直後の音素」と入力ブロ
ックｃｉ＋１とが一致しない候補に対しては、候補とし
て不適当であるため、いかなるデータの対応づけも行わ
ない。

【００６８】上記の分類処理の終了後、音素データ特定
部９は、ステップＳ８７において、当該候補が最後の候
補か否かを判定する。ここで、最後の候補でない（Ｎ
Ｏ）と判定されると、ステップＳ８９に制御を移行さ
せ、次の候補の「直前の音素」と「直後の音素」とを読
み込み、その後、ステップＳ８５へと制御を移行させ
る。これ以降、音素データ特定部９は、ステップＳ８５
とステップ８７の処理を、ステップＳ８７にて、最後の
候補である（ＹＥＳ）と判定されるまで繰返し行う。

【００６９】ステップＳ８７において最後の候補である
と判定されると、次のステップＳ９１においては、上記
優先度について分類された候補を次のような処理によっ
て絞り込む。

【００７０】音素データ特定部９は、先ず、ステップＳ
９１にて、データＰ１が対応づけられた候補があるか否
かを判定し、データＰ１が対応づけられた候補がある
（ＹＥＳ）場合は、ステップＳ９３において、その他の
候補に対して候補除外処理を行う。一方、ステップＳ９
１において、データＰ１が対応づけられた候補がない
（ＮＯ）と判定された場合は、次のステップＳ９５にお
いて、データＰ２が対応づけられた候補があるか否かを
判定する。データＰ２が対応づけられた候補がある（Ｙ
ＥＳ）と判定された場合は、ステップＳ９３において、
その他の候補に対して候補除外処理を行う。一方、ステ
ップＳ９５にて、データＰ２が対応づけられた候補がな
い（ＮＯ）と判定された場合は、次のステップＳ９７に
て、データＰ３が対応づけられた候補があるか否かを判
定する。ここで、データＰ３が対応づけられた候補があ
る（ＹＥＳ）と判定された場合は、ステップＳ９３にお
いて、その他の候補に対して候補除外処理を行う。そし
て、ステップＳ９７において、データＰ３が対応づけら
れた候補がない（ＮＯ）と判定された場合、即ち、全て
の候補に対し、データＰ１、Ｐ２およびＰ３のいずれの
データの対応づけもなされていない場合は、音素データ
特定部９は、ステップＳ９９において、全ての候補につ
いて候補除外処理を行う。そして、ステップＳ９９にお
ける処理、あるいは、ステップＳ９３における処理の終
了により、当該入力ブロックｃｉについての処理を終え
る。

【００７１】図６に示すフローチャートは、最後の入力
ブロック、即ち入力ブロックｃｎに対して、音素データ
特定部９が実行する処理を説明するための図であり、本
図におけるステップＳ１１１においては、入力ブロック
ｃｎ−１を主記憶部に読み込む。そして、現在残ってい
る候補のなかの最初の候補（音素データ）の「直前の音
素」を読み込む（ステップＳ１１３）。そして、ステッ
プＳ１１１にて読み込んだ入力ブロックｃｎ−１とステ
ップＳ１１３にて読み込んだ「直前の音素」とが一致す
るか否かをステップＳ１１５にて判定し、ここで一致し
ない（ＮＯ）と判定された場合は、音素データ特定部９
は、ステップＳ１１７において当該候補について候補除
外処理を行う。

【００７２】一方、ステップＳ１１５にて、一致する
（ＹＥＳ）と判定された場合は、その候補は、候補とし
ての適格性があるので、候補除外処理は行われない。ス
テップＳ１１５にてＹＥＳと判定された後、あるいは、
ステップＳ１１７における候補除外処理の終了後は、音
素データ特定部９は、ステップＳ１１９において、当該
候補が最後の候補か否かを判定する。ここで、最後の候
補でない（ＮＯ）と判定されると、ステップＳ１２１に
移行して、次の候補の「直前の音素」を読み込み、そし
て、音素データ特定部９は、ステップＳ１１５からステ
ップＳ１１９までの一連の処理を、ステップＳ１１９に
おいて、最後の候補である（ＹＥＳ）であると判定され
るまで順次実行する。

【００７３】従って、図４ないし図６を参照しながら説
明したように、この実施の形態の音声合成装置では、音
素データ特定部９は、互いに隣接する入力ブロックを、
音素データの「直前の音素」あるいは「直後の音素」に
対比させながら、候補を選定するため、隣接音声環境が
適切な音声素片を抽出することができ、音声素片の接続
部分のノイズを低減して、録音された実音声の特徴を備
え、連続性が良好な自然な合成音を得られるという効果
がある。

【００７４】次に、音素データ特定部９は、上記のよう
に選定された候補を最終的に１つの音素データにまで特
定する処理を行う。

【００７５】図７に示すフローチャートにおいて、音素
データ特定部９は、先ずステップＳ１３１で、現在残っ
ている候補の数を算出する。次のステップＳ１３３で
は、音素データ特定部９は、ステップＳ１３１での候補
数算出の結果によって、候補が存在するか否かを判定す
る。このステップにおいて、候補が存在しない（ＮＯ）
と判定された場合、即ち、候補がすべて候補除外処理に
より除外されていた場合は、入力ブロック、平均基本周
波数および再生時間長による候補の選定処理（図２のス
テップＳ９）が終了した時点で候補であったものを、再
び候補とする処理を行う（ステップＳ１３５）。

【００７６】一方、ステップＳ１３３にて、候補が存在
すると判定された場合（ＹＥＳ）あるいは、ステップＳ
１３５での処理の終了後は、音素データ特定部９は、そ
の候補のなかで、入力ブロックに対して割り当てられた
平均基本周波数ｆと当該候補の「平均基本周波数」との
偏差Δｆが最小となる音素データを最終的に特定する
（ステップＳ１３７）。

【００７７】以上のような処理過程を経て、図２に示す
ステップＳ１１では、各入力ブロックに対して、最終的
に１つの音素データが特定される。

【００７８】そして、図２において、ステップＳ１３で
は、現在処理を行っている入力ブロックが、最後の入力
ブロック（第ｎ入力ブロック）であるか否かが判定さ
れ、ここで最後の入力ブロックでない（ＮＯ）と判定さ
れると、ステップＳ１５において、次の入力データを主
記憶部に読み込む。そして、制御をステップＳ９に移行
させ、入力ブロックに対しての候補選定を行う。これ以
降は、ステップＳ１３において、最後の入力ブロックで
ある（ＹＥＳ）と判定されるまで、上記処理を順次実行
する。

【００７９】そして、ステップＳ１３にて、最後の入力
ブロックであると判定されると、次に音声素片抽出部１
１により、音声素片の抽出が行われる（ステップＳ１
７）。

【００８０】次に、音声素片の抽出過程を図８に示すフ
ローチャートを参照して説明する。このフローチャート
は、１つの入力ブロックについての音声素片の抽出過程
を示すものである。

【００８１】本図におけるステップＳ１４１において、
入力ブロックに対応した特定音素データの「所属音声素
片データ名」、「音素再生開始時間」および「音素再生
終了時間」を読み込む。次に、ステップＳ１４３におい
ては、図１に示すように、実音声波形記憶部１７に記憶
されたデータベースのなかの「所属音声素片データ名」
（ｏｈａｙｏｕｇｏｚａｉｍａｓｕ００１）が示す波形
データの範囲において、特定音素データの「音素再生開
始時間」の示す時点（３０００）から「音素再生終了時
間」の示す時点（４０００）までの部分的な波形データ
（音声素片）を所定の作業領域に読み込み、このデータ
を合成音生成のための所定の保存領域に保存する。そし
て、音声素片抽出部１１は、以上の処理をすべての入力
ブロックについて行う。尚、各入力ブロックに対して抽
出され保存された音声素片を、音声素片ＳＵ１，ＳＵ
２，…，ＳＵｎとする。

【００８２】次に無音時間計算部１３は、図２に示すよ
うに、全ての音声素片の抽出が終了すると、ステップＳ
１９おいて、音声素片を接続する際の接続部分に設ける
無音時間を計算する。即ち、この実施の形態は、この無
音時間の設定により、音声上の人の息継ぎ等の特徴を再
現させようとするものである。

【００８３】次に、この計算方法を図９に示すフローチ
ャートを参照して説明する。このフローチャートは、１
つの音声素片と、これと隣接する音声素片との間の接続
部分に設けられる無音時間の計算方法を示すものであ
る。

【００８４】無音時間計算部１３は、ステップＳ１５１
において、最後の入力ブロックを除いて、入力ブロック
に対応する特定音素データの「直後の無音部分長」を読
み込む（これをデータＡとする）。次に、ステップＳ１
５３において、当該入力ブロックｃiの直後の入力ブロ
ックｃi＋１に対応する特定音素データの「直前の無音
部分長」を読み込む（これをデータＢとする）。

【００８５】次に、ステップＳ１５５では、条件とし
て、データＡ＝０であり、かつ、データＢ＝０であるか
否かが判定される。この条件を満たす（ＹＥＳ）とき
は、無音時間計算部１３は、音声素片ＳＵiと音声素片
ＳＵi＋１の接続部分の無音時間は０（ｍｓ）とする
（ステップＳ１５９）。一方、ステップＳ１５５の条件
を満たさない（ＮＯ）とき、即ち、データＡおよびデー
タＢのいずれか一方が０でないときは、ステップＳ１５
７において、無音時間＝（Ａ＋Ｂ）／２（ｍｓ）に設定
する。そして、これら無音時間をデータ（無音時間デー
タ）として所定の保存領域に保存する。

【００８６】例えば、実音声「おはようございます（ｏ
ｈａｙｏｕｇｏｚａｉｍａｓｕ）」に対する波形データ
が実音声波形記憶部１７に記憶され、音素記号／ｕ／に
対する「直後の無音部分長」が１５０ｍｓである場合に
あって、入力テキスト「おはよう」に続いて入力された
「いいてんきですね」の「う」に対して、前記の音素記
号／ｕ／が特定されると、前述の無音時間１５０ｍｓに
ついては、続く入力テキスト「いいてんきですね」に対
しては短すぎてしまうが、入力テキスト「い」に対する
特定音素データの「直前の無音部分長」が例えば５００
ｍｓとすれば、上記の無音時間の設定方法により計算さ
れる平均、（１５０ｍｓ＋５００ｍｓ）／２＝３２５ｍ
ｓを設定することで、上述の不都合を回避することがで
きる。尚、この実施の形態では、平均を計算する方法を
採用したが、例えば、前の音声素片に対する「直後の無
音部分長」の方を重視する等の、状況に応じた重み付け
演算を行ってもよい。

【００８７】以上の説明から明らかなように、この実施
の形態では、音声上の人の息継ぎ等の特徴が再現可能と
なる効果が得られる。加えて、無音時間を介して接続さ
れる、各音声素片を抽出するための各音素データの「直
前の無音部分長」、「直後の無音部分長」に重み付けを
行うことにより、偏った無音時間が設定されるのを回避
して、実音声上では前後しない音声素片どうしを接続す
る際にあっても、自然な合成音が得られる。

【００８８】そして、無音時間計算部１３は、最後の音
声素片ＳＵｎを除く全ての音声素片に対して上記処理を
行うことで、音声素片の接続部分に設ける無音時間を決
定し、これらデータを主記憶部の所定保存領域に記憶す
る。

【００８９】最後に、音声合成部１５は、図２のステッ
プＳ２１において、主記憶部の所定領域に保存された各
音声素片と、接続部分に設ける無音時間を示す無音時間
データとを読み出し、これらを順次接続して１つの合成
音の波形データとする。そして、ステップＳ２３におい
て、合成された波形データをＡ／Ｄ変換してアナログ信
号に変換し、そのアナログ信号を増幅して合成音として
出力する。

【００９０】従って、本発明に係る音声合成装置の第１
の実施の形態によれば、音声波形が予め記憶された実音
声波形記憶部１７が設けられ、さらに、音素データ記憶
部１９には、実音声波形記憶部１７の音声波形に含まれ
る音声素片（第１の音声素片）に対して付与され「保存
領域１」に保存された音素記号（第１の音素記号）と、
その第１の音声素片に隣接する音声素片に対して付与さ
れ「保存領域５」あるいは「保存領域６」に保存された
「直前の音素」あるいは「直後の音素」、即ち第２の音
素記号と、「保存領域２」の「所属音声素片データ
名」、「保存領域３」の「音素再生開始時間」並びに
「保存領域４」の「音素再生終了時間」からなる第１の
音声素片の記憶場所情報とを含む音素データが予め記憶
され、音声合成指令として入力音素記号列（入力ブロッ
ク）が入力されると、音素データ特定部９により、その
入力音素記号列とこれに隣接する入力音素記号列とから
なる組と、音素データ記憶部１９における第１の音素記
号および第２の音素記号の組とが照合され、入力音素記
号列に対する音素データが特定され、その後、音声素片
抽出部１１により、実音声波形記憶部１７のなかの特定
された音素データの示す記憶場所から、逐次音声素片が
抽出され、音声合成部１５により、所定の順序でこれら
音声素片が接続され、合成音が出力されるため、音声素
片の接続部分のノイズを低減するとともに、録音された
実音声の特徴を備えた高品質の合成音出力が可能とな
る。

【００９１】次に、本発明に係る音声合成装置の第２の
実施の形態について説明する。

【００９２】この実施の形態は、上記第１の実施の形態
と同様に高品質の合成音を得るとともに、合成音を構成
する音声素片の出力タイミングに係る情報を含む文字列
Ｌ（以下、リップシンク信号列Ｌという）を生成するこ
とを特徴とする。即ち、この実施の形態では、このリッ
プシンク信号列Ｌを、例えばＣＧを制作するための画像
処理装置などで解読して、顔画像における口の形状を変
化させるタイミングを決定することができるようにして
いる。

【００９３】具体的には、第２の実施の形態の音声合成
装置には、タイミング情報生成部２１が設けられ、この
タイミング情報生成部２１においてリップシンク信号列
Ｌが生成される。

【００９４】図１０は、このリップシンク信号列Ｌを生
成するための処理を示すフローチャートであり、このフ
ローチャートを参照しながら、入力テキスト「こんにち
は」に係る処理を説明していく。

【００９５】先ず、上記第１の実施の形態と同様に、入
力テキスト「こんにちは」は、図１に示す音素分解処理
部３によって、４個の入力ブロック／ｋｏ／，／ｎ／，
／ｎｉ／，／ｔｉｗａ／に変換される。そして、音素デ
ータ候補選定部７および音素データ特定部９によって、
音素データ記憶部１９の中から、各入力ブロックに対し
て音素データが特定され、無音時間計算部１３によっ
て、入力ブロック／ｋｏ／と／ｎ／のそれぞれに対応す
る音声素片の接続部分の無音時間５００ｍｓが決定され
る。

【００９６】タイミング情報生成部２１は、図１０のス
テップＳ１６１において、各入力ブロックに対して特定
された音素データの「音素再生開始時間」と「音素再生
終了時間」との差を再生時間長として演算し、入力ブロ
ックと再生時間長とからなる組を再生される順序でメモ
リなどに保存することにより、表１に示すような「合成
音再生データ」を構築する。このとき、タイミング情報
生成部２１は、無音時間５００ｍｓを１つの音声素片の
再生時間長とみなし、これに「無音」を表す／ｑ／を入
力ブロックとして対応づける。

【００９７】

【表１】表１においてｉは、再生の順序を表す変数であり、この
実施の形態では、変換された４個の入力ブロックと前述
の／ｑ／とを合わせて、その最大値ｎ＝５となってい
る。また、ｃｉは各入力ブロックを示す変数であり、そ
して、ｔｉは、各入力ブロックに対して抽出された音声
素片の再生時間長を示す変数であって、ｔ２としての無
音時間５００ｍｓが含まれている。

【００９８】図１０に戻り、タイミング情報生成部２１
は、ステップＳ１６３において、リップシンク信号列Ｌ
の内容をクリアして、何も文字が含まれていない状態
（図中では、記号””で示す）とする。また、先頭の音
声素片の出力開始時からの累積経過時間を表す変数Ｔを
０（零）にリセットするとともに再生順序を表す変数ｉ
を１とする。即ち、これらの処理が初期化動作として実
行される。

【００９９】そして、タイミング情報生成部２１は、ス
テップＳ１６５において、現在のリップシンク信号列Ｌ
に対して、入力ブロックｃｉを右側から結合する（以
下、単に「右結合する」という）。尚、このステップＳ
１６５の処理が行われる前においては、Ｌ＝””である
から、このステップＳ１６５の処理後において、Ｌ＝”
ｋｏ”となる。尚、結合時には、入力ブロックの前後の
記号／は取除かれる。

【０１００】続くステップＳ１６７では、ｉ＝１である
か否かが判定される。ここで、ｉ＝１（ＹＥＳ）と判定
された場合は、ステップＳ１６９にて、タイミング情報
生成部２１は、リップシンク信号列Ｌに文字”０
（零）”を右結合する。

【０１０１】その後ステップＳ１７５へと進み、ここ
で、処理中の当該入力ブロックｃｉが最後の入力ブロッ
クである（変数ｉ＝ｎ）か否かが判定され、ここでＮＯ
と判定されたときは、ステップＳ１７７にて、変数ｉが
１繰上げられ（ｉ＝ｉ＋１）、再びステップＳ１６５の
処理が行われる。

【０１０２】変数ｉが繰上げられてｉ＝２となったとき
は、ステップＳ１６５にて入力ブロック／ｑ／が右結合
され、リップシンク信号列Ｌ＝”ｋｏ０ｑ”となる。続
くステップＳ１６７では、ｉ≠１（ＮＯ）と判定される
ため、ステップＳ１７１へと進む。

【０１０３】このステップＳ１７１では、タイミング情
報生成部２１は、累積経過時間を表す変数Ｔに対して、
現在の変数ｉの１つ前のｉ−１に対応する再生時間長ｔ
（ｉ−１）を加算処理する。即ち、ｔ１＝２５００が加
算され、変数Ｔ＝２５００となる。続いて、ステップＳ
１７３では、タイミング情報生成部２１は、変数Ｔの内
容を文字列に変換する処理を行い、変換後の文字列ｃｈ
（Ｔ）をリップシンク信号列Ｌに対して右結合する。従
って、ｉ＝２のときは、ステップＳ１７３の処理後のリ
ップシンク信号列ＬはＬ＝”ｋｏ０ｑ２５００”とな
る。

【０１０４】このようにして、タイミング情報生成部２
１は、リップシンク信号列Ｌを”ｋｏ０ｑ２５００”
→”ｋｏ０ｑ２５００ｎ３０００”→”ｋｏ０ｑ２５０
０ｎ３０００ｎｉ４０００”と生成していき、最終的に
リップシンク信号列Ｌ＝”ｋｏ０ｑ２５００ｎ３０００
ｎｉ４０００ｔｉｗａ６０００”を完成させる。そし
て、ステップＳ１７５において当該入力ブロックｃｉが
最後の入力ブロックである（ｉ＝ｎ）と判定されると、
このリップシンク信号列Ｌの生成処理が終了する。

【０１０５】こうして生成されたリップシンク信号列Ｌ
に含まれる各数値は、合成音における先頭の音声素片の
出力開始時間（０）と、これを基準とした２番目以降の
各音声素片の出力開始時間を表している。即ち、本例で
は、入力ブロックｃ１＝／ｋｏ／に対応する音声素片
「こ」の出力開始時間を基準時とすると、２５００ｍｓ
後に無音状態となり、基準時から３０００ｍｓ後に音声
素片「ん」が出力され、基準時から４０００ｍｓ後に音
声素片「に」が出力され、最後に音声素片「ちわ」が、
基準時から６０００ｍｓ後に出力されることを示してい
る。

【０１０６】その後、生成されたリップシンク信号列Ｌ
は、画像処理装置などにて解読され、顔画像における口
の形状を変化させるタイミングが決定される。

【０１０７】従って、本発明に係る音声合成装置の第２
の実施の形態によれば、タイミング情報生成部２１を設
けたことにより、音声素片の出力タイミングに係る情報
を含むリップシンク信号列Ｌを生成することができ、こ
のリップシンク信号列Ｌを利用して、音声波形を解析す
ることなく、顔画像における口の形状を最適なタイミン
グで変化させることができる。

【０１０８】尚、本例の音声素片「ちわ」のように、音
声素片が複数の音素からなる場合にあっては、その音声
素片に、最初の音素、本例でいえば、／ｔ／に対する口
の形状を対応させるか、あるいは最後の音素、本例でい
えば、／ａ／に対する口の形状を対応させるかの２通り
の方法があるが、後者を選択することにより違和感の少
ない顔の表情を得ることができる。

【０１０９】また、上記のリップシンク信号列Ｌにおけ
る文字の並び方は、音声素片が出力されるタイミングを
判読しやすいものとしたが、必ずしもこの並び方に限定
されるものではなく、所定の規則により、音声素片が出
力されるタイミングを解読可能とさえすればよい。

【０１１０】ところで、上記第２の実施の形態では、リ
ップシンク信号列Ｌに含まれるタイミングに係る情報
を、各音声素片ごとに求めたが、音声素片よりも短い音
声ごとの再生時間長を所定の規則により求め、この再生
時間長を用いて、音声素片よりも短い音声との同期をと
るためのタイミング情報をリップシンク信号列Ｌに含ま
せることにより、このリップシンク信号列Ｌを用いて、
画像処理装置などにおいて、顔画像における口の形状を
より滑らかに変化させることができる。

【０１１１】そこで、音声素片よりも短い音声との同期
をとるための情報を含むリップシンク信号列Ｌを生成可
能とした本発明の音声合成装置の第３の実施の形態を説
明する。

【０１１２】図１１は、第３の実施の形態の構成の一部
を示すブロック図である。

【０１１３】この実施の形態では、リップシンク信号生
成部２１には、再生時間演算部２１ａが設けられ、ここ
には、予め、母音および子音それぞれの再生時間長を求
めるための比率ｘおよびｙが設定されている。

【０１１４】次に、第３の実施の形態における音声合成
装置の動作を説明する。

【０１１５】タイミング情報生成部２１は、先ず、前記
の表１に示すような合成音再生データをメモリなどから
読込み、この合成音再生データに含まれる入力ブロック
の中から、適宜、分解が必要な入力ブロックを選択し
て、音素分解処理部３へと供給する。

【０１１６】具体的には、例えば、再生時間長ｔｉが長
い場合は、音声と画像の同期が不自然に感じられやすい
ため、所定の再生時間長以上のデータを選択して、音素
分解処理部３へと供給すればよい。前述の合成音「こん
にちは」を例にすると、音声素片「ちわ」の再生時間長
ｔ５が比較的長いため、入力ブロック／ｔｉｗａ／が音
素分解処理部３へと供給される。

【０１１７】音素分解処理部３は、供給された「分解前
の入力ブロック」を音素記号に分解する。この過程にお
いて、音素分解処理部３は、「分解前の入力ブロック」
から、母音と子音とからなる音節に相当する音節記号を
抽出し、さらに、音節記号を母音あるいは子音に相当す
る音素記号に分解する。

【０１１８】そして、音素分解処理部３は、この分解処
理によって得られた音素記号に、音節の区切を解析でき
るような音節区切データを付加して、タイミング情報生
成部２１に返送する。この音節区切データは、例え
ば、”１２，３４”のようなデータに、「１番目と２番
目の音素記号が、母音および子音にそれぞれ相当する１
つの音節記号を構成し、これに対して，（カンマ）で区
切られた３番目と４番目の音素記号がもう１つの音節記
号を構成する」という意味をもたせることによって生成
することが可能である。

【０１１９】尚、音節とは、必ずしも母音と子音との組
合わせに限られるものではなく、例えば、音声「ん」に
相当する音素記号「ｎ」を音節とすることもできる。本
例では、「分解前の入力ブロック」ｃ５＝／ｔｉｗａ／
が、／ｔ／，／ｉ／，／ｗ／，／ａ／の各音素記号に分
解され、前述の音節区切データ”１２，３４”とともに
タイミング情報生成部２１へと返送される。

【０１２０】続いて、タイミング情報生成部２１の再生
時間演算部２１ａは、音節区切データを解析し、音素分
解処理部３から返送された音素記号に複数の音節記号が
含まれるような場合にあっては、その各音節記号に対し
当該各音節記号に対応する音節の再生時間長を与える。
本例では、分解前の入力ブロックｃ５＝／ｔｉｗａ／に
は、／ｔｉ／および／ｗａ／の２個の音節記号が含まれ
るので、これら各音節記号に対して、均等な音節の再生
時間長が与えられる。即ち、音節の再生時間長＝（分解
前のｔ５）／（音節数）＝４０００／２＝２０００（ｍ
ｓ）となる。このようにして、本実施の形態では、音節
との同期をとるためのタイミング情報をリップシンク信
号列Ｌに含ませることができるようになっている。

【０１２１】そして、再生時間演算部２１ａは、各音節
記号の中の音素記号／ｔ／，／ｉ／，／ｗ／，／ａ／の
うちの母音記号に対しては、音節の再生時間長に対する
母音の再生時間長の比率として設定された比率ｘを与え
る一方、子音記号に対しては、比率ｙ（ただしｙ＝１−
ｘ）を与え、これら比率によって、音声素片に含まれる
母音／子音の再生時間長を演算することで、音素との同
期をとるためのタイミング情報をリップシンク信号列Ｌ
に含ませることができるようになっている。

【０１２２】具体的には、ｘ＝０．４とし、ｙ＝０．６
とした場合に、母音および子音の再生時間長は以下のよ
うに演算される。

【０１２３】母音の再生時間長＝音節の再生時間×比率
ｘ＝２０００×０．４＝８００（ｍｓ）子音の再生時間長＝音節の再生時間×比率ｙ＝２０００
×０．６＝１２００（ｍｓ）タイミング情報生成部２１は、演算された各再生時間長
と各音素記号とを互いに対応づけて、分解前の再生時間
長および入力ブロックに置換えることで、合成音再生デ
ータを再構築する。

【０１２４】具体的には、表２に示すような合成音再生
データが再構築される。即ち、表１に示した合成音再生
データにおける５番目の再生時間長および入力ブロック
が、表２に示す５番目ないし８番目の再生時間長および
その入力ブロックに置換えられる。

【０１２５】

【表２】合成音再生データの再構築後は、上記第２の実施の形態
と同様に、タイミング情報生成部２１によって、合成音
再生データからリップシンク信号列Ｌが生成される。表
２の再構築後の合成音再生データからは、リップシンク
信号列Ｌ＝”ｋｏ０ｑ２５００ｎ３０００ｎｉ４０００
ｔ６０００ｉ６８００ｗ８０００ａ８８００”が生成さ
れる。そして、このリップシンク信号列Ｌが画像処理装
置などにて解読され、顔画像における口の形状を変化さ
せるための、より詳細なタイミングが決定される。尚、
「分解前の入力ブロック」を音素記号まで分解せずに、
音節記号までの分解にとどめることも勿論可能である。

【０１２６】以上説明したように、この第３の実施の形
態によれば、合成音として出力される音声素片に、母音
あるいは子音などの音素、あるいは母音および子音から
なる音節などの、音声素片よりも短い音声が含まれる場
合にあっては、再生時間演算部２１ａにより、その音声
ごとの再生時間長が演算され、タイミング情報生成部２
１によって、音声素片よりも短い音声との同期をとるた
めの情報を含むリップシンク信号列Ｌが生成されるた
め、画像処理装置などにおいて、顔画像における口の形
状をさらに細かく、滑らかに変化させることができる。

【０１２７】また、音声素片に母音および子音からなる
音節が含まれるときにあっては、予め設定された、音節
の再生時間長に対する母音および子音それぞれの再生時
間長の比率ｘおよびｙによって、母音および子音のそれ
ぞれの再生時間長が演算され、母音あるいは子音と同期
をとるための情報がリップシンク信号列Ｌに含まれるこ
ととなるため、顔画像における口の形状を母音あるいは
子音と同期をとって変化させることができる。また、比
率ｘ，ｙの設定を変えることによって、母音あるいは子
音と同期をとるための情報を調整することができる。

【０１２８】尚、本発明に係る音声合成装置は、上記実
施の形態に限るものではなく、ソフトウェアで構成され
た上記各処理を実行する部分を、機械読み取り可能な記
録媒体に記録することも可能である。また、上記実施の
形態は、音声合成の方法あるいはタイミングに係る情報
の生成方法などのアルゴリズムとしても優れたものであ
る。

【０１２９】そして、上記各機能を集積回路等のハード
ウェアで構成しても同様の効果を得ることができ、さら
に、単一のコンピュータ上でのみならず、ネットワーク
を構成する端末やサーバマシン、あるいは、画像処理装
置等に各機能を分散配備させてもよい。

【０１３０】

【発明の効果】以上説明したように、本発明の請求項１
に係る音声合成装置によれば、音素データ特定手段によ
り、入力音素記号列と隣接入力音素記号列とからなる組
と、音素データに含まれる第１のラベルおよび第２のラ
ベルの組とが照合され、入力音素記号列に対して、隣接
する音声環境の最適な音声データが特定されるため、音
声素片の接続部分のノイズが低減されるとともに、実音
声の特徴を備えた高品質の合成音出力が可能となる。

【０１３１】また、本発明の請求項２に係る音声合成装
置によれば、音声素片の接続部分の状態が、音素データ
に付与された時間情報に基づいて設定されるため、実音
声上の息継ぎ等の特徴が再現可能となる。

【０１３２】また、本発明の請求項３に係る音声合成装
置によれば、無音部分の時間情報に対して重み付けが行
われ、音声素片を接続する部分に設ける無音時間が算出
されるため、どちらか一方の音声素片の特徴に偏った無
音時間が設定されることが回避され、たとえ実音声上で
隣接していない音声素片どうしを接続する際にあって
も、自然な合成音が得られる。

【０１３３】また、本発明の請求項４に係る音声合成装
置によれば、実音声上では連続することが極めて希な同
一の音声素片の特定が規制されて、合成音が不自然にな
る不都合が回避される。

【０１３４】また、本発明の請求項５に係る音声合成装
置によれば、タイミング情報生成手段により音声素片の
出力タイミングに係る情報が生成されるため、音声波形
を解析することなく、顔画像の口の形状を合成音に同期
させて変化させることができる。

【０１３５】また、本発明の請求項６に係る音声合成装
置によれば、タイミング情報生成手段により、音声素片
よりも短い音声との同期をとるための情報が出力タイミ
ングに係る情報に含ませられるため、口の形状をより滑
らかに変化させることができる。

【図面の簡単な説明】

【図１】本発明に係る音声合成装置の第１の実施の形態
を示す図である。

【図２】図１に示した形態における音声合成に関する処
理過程を示したフローチャートである。

【図３】図１に示した形態における入力ブロック、平均
基本周波数および再生時間長に基づく音声データの候補
選定過程を示したフローチャートである。

【図４】図１に示した形態における第１入力ブロックに
ついての候補選定過程を示したフローチャートである。

【図５】図１に示した形態における第１入力ブロックお
よび最後の入力ブロックを除く入力ブロックについての
候補選定過程を示したフローチャートである。

【図６】図１に示した形態における最後の入力ブロック
についての候補選定過程を示したフローチャートであ
る。

【図７】図１に示した形態における入力ブロックについ
ての音素データの特定過程を示したフローチャートであ
る。

【図８】図１に示した形態における音声素片の抽出過程
を示したフローチャートである。

【図９】図１に示した形態における無音時間の計算過程
を示したフローチャートである。

【図１０】本発明に係る音声合成装置の第２の実施の形
態の動作を示すフローチャートである。

【図１１】本発明に係る音声合成装置の第３の実施の形
態の構成の一部を示すブロック図である。

【符号の説明】

１テキスト入力部３音素分解処理部５韻律処理部７音素データ候補選定部９音素データ特定部１１音声素片抽出部１３無音時間計算部１５音声合成部１７実音声波形記憶部１９音素データ記憶部２１タイミング情報生成部２１ａ再生時間演算部

Claims

【特許請求の範囲】

【請求項１】音声波形が予め記憶された波形記憶手段
と、該波形記憶手段の音声波形に含まれる第１の音声素片に
対して付与された第１のラベルと、当該第１の音声素片
に隣接する音声素片に対して付与された第２のラベル
と、当該第１の音声素片の記憶場所情報とを含む音素デ
ータが予め記憶される音素データ記憶手段と、音声合成指令としての入力音素記号列と該入力音素記号
列に隣接する隣接入力音素記号列とからなる組と、前記
音素データに含まれる第１のラベルおよび第２のラベル
の組とを照合して、当該入力音素記号列に対する音素デ
ータを特定する音素データ特定手段と、前記波形記憶手段のなかの前記特定された音素データの
示す記憶場所に記憶された音声素片を抽出する音声素片
抽出手段と、該音声素片抽出手段で抽出された音声素片を所定の順序
で接続し出力する音声合成手段とを有する音声合成装
置。
【請求項２】請求項１記載の音声合成装置において、前記音素データには、前記第１の音声素片と該第１の音
声素片に隣接する音声素片との間の状態に係る時間情報
が付与され、該時間情報に基づいて音声素片の接続部分
の状態を設定する時間設定手段を有することを特徴とす
る音声合成装置。
【請求項３】請求項２記載の音声合成装置において、前記時間設定手段は、前記音素データに、前記第１の音
声素片と該第１の音声素片の前後に隣接する各音声素片
との間の無音部分の時間情報がそれぞれ付与されている
とき、前記第１の音声素片の後の無音部分の時間情報
と、当該第１の音声素片の後に接続される音声素片の前
の無音部分の時間情報の少なくとも一方に対し重み付け
を行って、当該各音声素片を接続する部分に設ける無音
時間を算出することを特徴とする音声合成装置。
【請求項４】請求項１ないし請求項３のいずれかに記
載の音声合成装置において、前記入力音素記号列に対して特定された音素データが、
当該入力音素記号列の前又は後ろに隣接する入力音素記
号列に対して特定されることを規制する規制手段を有す
ることを特徴とする音声合成装置。
【請求項５】請求項１ないし請求項４のいずれかに記
載の音声合成装置において、前記音声合成手段により出力される音声素片の出力タイ
ミングに係る情報を生成するタイミング情報生成手段を
具備することを特徴とする音声合成装置。
【請求項６】請求項５記載の音声合成装置において、前記タイミング情報生成手段は、前記音声合成手段によ
り出力される音声素片に当該音声素片よりも短い音声が
含まれるときには、当該音声との同期をとるための情報
を前記出力タイミングに係る情報に含ませることを特徴
とする音声合成装置。