JP2003091295A - 音声合成方法及びその装置並びに音声合成プログラム - Google Patents

音声合成方法及びその装置並びに音声合成プログラム

Info

Publication number
JP2003091295A
JP2003091295A JP2001282816A JP2001282816A JP2003091295A JP 2003091295 A JP2003091295 A JP 2003091295A JP 2001282816 A JP2001282816 A JP 2001282816A JP 2001282816 A JP2001282816 A JP 2001282816A JP 2003091295 A JP2003091295 A JP 2003091295A
Authority
JP
Japan
Prior art keywords
voice
information
synthesis unit
synthesis
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001282816A
Other languages
English (en)
Other versions
JP3892691B2 (ja
Inventor
Miki Hasebe
未来 長谷部
Masanobu Abe
匡伸 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2001282816A priority Critical patent/JP3892691B2/ja
Publication of JP2003091295A publication Critical patent/JP2003091295A/ja
Application granted granted Critical
Publication of JP3892691B2 publication Critical patent/JP3892691B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 放送のための十分な品質を持った音声合成シ
ステムを実現でき、コンテンツの作成や更新の自動化を
可能にする音声合成方法及びその装置並びに音声合成プ
ログラムを提供する。 【解決手段】 テキストデータ101で示される音素列の
一部と適合する合成単位の候補としての小音素列をデー
タベース20で検索し102、抽出された合成単位の候補1
04毎に、合成単位の候補同士の接続点における音声波形
の基本周波数の差に対して、フレーズの境界を示す情報
24と、単語の役割情報25、韻律パターン情報25の
うちの少なくとも1つを用いて評価値を求め、評価値が
最も高い合成単位の候補を合成単位として選択する絞り
込み105を行い、選択された合成単位106に対応した音声
波形をデータベースから抽出し、テキストデータ101で
示される音素列に対応させて、抽出した音声波形を接続
して107、合成音声108として出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、高品質な合成音声
を安定に得るための音声合成方法及びその装置並びに音
声合成プログラムに関するものである。
【0002】
【従来の技術】従来、ラジオや、テレビ、有線放送、イ
ンターネットなどのコンテンツ作成には膨大な労力が費
やされており、現在の有線放送やインターネットなどの
多チャンネル時代において、全てのコンテンツを人手で
作成すると多大なコストと労力が必要となる。このた
め、テキストデータから合成音声を生成する音声合成シ
ステムが注目されるようになってきた。
【0003】音声合成システムを利用すればコンテンツ
作成のためのコストを抑えることができ、短時間で大量
のコンテンツを作成することができる。
【0004】この種の音声合成システムとしては、例え
ばテキストコーパスを用いたコーパスベースの音声合成
システムが知られている。
【0005】上記コーパスベース音声合成に属する類の
音声合成システムは、低次の音響的情報や低次の物理的
情報をもとに、合成文に最適な合成単位をデータベース
から検索し、韻律の変形を行わずに接続することで合成
音声を作成している。このように韻律を変形しないこと
で肉声らしさを尊重した音声合成を行っている。
【0006】ここで、上記低次の情報とは、空気の振動
に近い物理的な情報を指している。例えば、音声波形か
ら直接数値化できる基本周波数やスペクトルなどの情報
である。
【0007】
【発明が解決しようとする課題】しかしながら、前述し
た従来の音声合成システムにおいては、韻律を変形しな
いことで肉声らしさを尊重しているが、ケプストラムや
音素など、文章としてのまとまりからは遠い低次のパラ
メータを元にして合成単位を選択しているため、文章全
体を考慮した整合性がなく、フレーズの内部で接続を行
ったり、文章本来の韻律パターンとは異なった音声にな
るなど、合成結果は不安定なものとなる。
【0008】即ち、低次の情報から得られるパラメータ
によって合成単位を選択するシステムにおいては、合成
音声の品質はデータベースの検索結果に大きく依存した
ものになる。このため、目標の文章との適合度の高い合
成単位を選択できたときは品質が良く、そうでなければ
品質は悪くなり、合成音声の品質は不安定である。
【0009】このため、従来の音声合成システムでは、
前述したラジオや、テレビ、有線放送、インターネット
などの放送に要求されるだけの十分な品質を実現できて
いるとは言い難い。
【0010】本発明の目的は上記の問題点に鑑み、放送
のための十分な品質を持った音声合成システムを実現で
き、コンテンツの作成や更新の自動化を可能にする音声
合成方法及びその装置並びに音声合成プログラムを提供
することである。
【0011】
【課題を解決するための手段】本発明は上記の目的を達
成するために、フレーズの境界を示す情報、フレーズが
強調音声か否かを示す単語の役割情報、音声の韻律パタ
ーン情報の3種類の情報のうちの少なくとも何れか1つ
と、音声波形、音素列データ、音素の境界を示すデータ
とが対応付けられて蓄積されているデータベースを用
い、前記データベースに記録された前記音素列のうちの
少なくとも一部からなる小音素列を合成単位の候補とし
て使用して合成音声を生成するようにした。
【0012】また、音声合成の際には、テキストデータ
で示される音素列の一部と適合する前記合成単位の候補
を前記データベースから検索し、前記検索された合成単
位の候補毎に、合成単位の候補同士の接続点における音
声波形の基本周波数の差に対して、前記フレーズの境界
を示す情報、前記単語の役割情報、前記韻律パターン情
報の3種類の情報のうちの少なくとも1つに対応する評
価値を求め、該評価値が最も高い合成単位の候補を合成
単位として選択する。このとき、前記3種類の情報の1
つだけを用いても良い。
【0013】さらに、前記選択された合成単位に対応し
た音声波形を前記データベースから抽出し、前記テキス
トデータで示される音素列に対応させて、前記抽出した
音声波形を接続している。
【0014】例えば、音声波形の断片同士の接続点がフ
レーズの境界にあるか否かで品質の劣化状態が異なった
ものとなる。また、強調されている単語は、文章中で重
要な意味を持つ単語であり、パワーやピッチが上がって
いることが多く、単語が強調されているか否かで品質の
劣化状態が異なったものとなる。
【0015】韻律パターン情報は、音声断片同士の接続
点における韻律パターンの連続性や整合性を判定するた
めに用いることができる。韻律パターンの連続性では、
例えば、末尾で基本周波数が緩やかに下がっている音声
断片の後に、先頭において基本周波数が高い音声断片を
接続すると、基本周波数が下がるはずのところが上がる
ため、品質が劣化しやすい。逆に、末尾で基本周波数が
緩やかに下がっている音声断片の後に、先頭において基
本周波数が低い音声断片を接続すると、下がり具合が大
きくなるだけなので、品質は劣化し難くなる。
【0016】韻律パターンの整合性としては、音声断片
同士の接続点における基本周波数の差の方向の±(プラ
ス・マイナス)を見て、それが文章の持つ連続した韻律
パターンの傾斜方向と整合しているか否かによって品質
の劣化状態が異なる。
【0017】このようにフレーズの境界を示す情報や、
単語の役割情報、韻律パターン情報等の高次の言語的情
報を用いて求めた評価値に基づいて合成単位を選択する
ことにより、従来のように合成単位の選択に低次の情報
を利用することによって生じる合成音声の品質の不安定
性という問題を解決することができる。
【0018】
【発明の実施の形態】以下、図面に基づいて本発明の一
実施形態を説明する。
【0019】図1は、本発明の一実施形態における音声
合成装置を示す構成図である。本実施形態では、コンピ
ュータに音声合成プログラムをインストールすることに
よって音声合成装置を構成している。
【0020】図1において、1はコンピュータで、CP
Uを主体として構成されている中央処理部11と、中央
処理部11に接続された記憶部12、表示部13、入力
部14、半導体素子から構成されるメモリ15、及び音
声発生器としてのディジタル/アナログ(D/A)変換
器やスピーカなどからなる音響部16等を備えた一般的
なコンピュータである。
【0021】記憶部12には、上記の音声合成プログラ
ム17と音声合成のためのテキスト解析辞書18、及び
評価値情報19が記憶されていると共に、音声合成に必
要な各種情報が音声合成データベース20として構築さ
れている。
【0022】入力部14は、音声合成対象となるテキス
トデータを入力する手段であり、例えばキーボード、マ
ウス、磁器フロッピーディスクやコンパクトディスクな
どの情報記録媒体へのインタフェース、ネットワーク通
信インタフェース等を含んでいる。
【0023】音声合成データベース20には、テキスト
音声合成に必要なデータベースとして、音声波形21
と、発声内容に対応する音素列データ22、音素の境界
を示すデータ23、フレーズの境界を示す情報24、フ
レーズが強調音声か否かを示す単語の役割情報25、音
声の韻律パターン情報26が対応付けられて蓄積されて
いる。音声波形21としては、例えば実際に人が発声し
た音声が収録されてこれが蓄積されている。
【0024】本実施形態では、上記音声合成プログラム
17によって中央処理部11を動作させて音声合成処理
を行わせる。この音声合成処理では、キーボードや情報
記録媒体或いはネットワークを介して入力されたかな漢
字混じり文のテキストデータに適合した合成音声を生成
する際に、上記音声合成データベース(以下、単にデー
タベースと称する)20から合成単位となる音声波形の
断片(以下、音声断片と称する)を選択する。この選択
の際に、高次の言語的情報からトップダウン的に合成単
位の候補を選択し、この合成単位に対応した音声断片を
選択する。
【0025】高次の言語的情報とは、人間が感知した物
理現象を解釈した意味内容を持つ情報を指し、空気の振
動等の物理的な情報を人間の言語能力によって解釈し、
意味を与えた情報である。例えば、フレーズ境界や、単
語の役割、韻律パターンの整合性といった、音声波形の
断片から直接数値化できず、何段階かの抽象化が必要な
情報である。本実施形態では、高次の言語的情報とし
て、フレーズ(ポーズで挟まれた一気に発声する音声区
間、呼気段落)の境界情報、単語の役割(単語の強調発
声など)情報、韻律パターン(接続点前の音声波形断片
末尾と接続点後の音声波形断片先頭における韻律パター
ンの連続性や整合性など。韻律パターンとはピッチやア
クセントなどの音素毎の変化)情報を用いている。尚、
韻律パターン情報には、基本周波数の変動パターンに関
する情報も含まれている。また、単語の役割情報として
は、強調発声の情報以外に、喜怒哀楽の情報や、驚嘆、
熱意、失望などの感情的表現を前後の文脈から判断して
得られた情報を用いることができる。
【0026】このような高次の言語的情報によって、低
次の情報のみを利用して合成単位を選択するよりも、高
品質な合成音声を安定して出力することができる。さら
に、高次の言語的情報を利用することで、選択した音声
断片同士の接続点における違和感や、文章の持つ意味と
異なった韻律パターンとなってしまうといった従来技術
の問題を解決することができる。
【0027】従って、本実施形態によれば、高次の言語
的情報を利用して合成単位を選択しているので、高品質
な合成音声を安定して得ることができる。その結果、放
送の分野で要求される品質を持った合成音声を作成で
き、有線放送やインターネットの多チャンネル時代にお
いてコンテンツの不足を補うために自動でコンテンツを
作成・更新することも可能になる。
【0028】図2は本実施形態における音声合成プログ
ラム17の処理を説明するフローチャート、図3は上記
音声合成プログラム17によって行う高次の言語的情報
用いた音声合成の流れを示す図である。これらを参照し
て具体的動作について説明する。
【0029】音声合成のためにワープロ等で作成された
かな漢字混じり文のテキストデータ101が入力される
(S1)と、このテキストデータ101の解析102を行う
(S2)。テキスト解析102では、テキスト解析辞書1
8を用いてテキストデータ101の解析を行い、例えば、
入力されたかな漢字混じり文のテキスト101に対して、
読み仮名、読み仮名に対応する音素列、各音素の継続時
間長、フレーズ毎のアクセント型、各フレーズの結合の
仕方、アクセント型と結合の仕方に対応した韻律パター
ンなどの情報を解析結果として出力する。
【0030】この後、上記テキスト解析結果を用いて合
成単位の検索103を行う。合成単位の検索103の処理で
は、テキストデータ101の音素列を複数の小音素列に分
割して、データベース20の中からテキストデータ101
に音素レベルで一致する小音素列を検索し(S3)、検
索によってデータベース20から抽出した小音素列を、
音声合成に用いる合成単位の候補104とする(S4)。
ここで、上記小音素列とは複数の音素からなる音素列中
の一部であり、1つ以上の音素から構成される音素列で
ある。
【0031】さらに、前述した高次の言語的情報を用い
て候補の絞り込み105を行い(S5)、テキストデータ1
01の各小音素列に対する候補として抽出した複数の合成
単位の候補104中から各小音素列毎に最適な合成単位を
1つ決定する(S6)。
【0032】候補の絞り込み105の処理では、合成単位
の検索103によって抽出された複数の合成単位の候補104
の中から、データベース20に蓄積されている高次の言
語的情報を用いて候補の絞り込み105を行い、絞り込ん
だ合成単位の候補106を出力する。さらに、絞り込まれ
た合成単位の候補106を再び合成単位の候補104として候
補の絞り込み105を行い、候補の合成単位を最後の1つ
まで絞り込むことで、最終的な合成単位を選択する。
【0033】本実施形態では、高次の言語的情報とし
て、フレーズの境界を示す情報24、フレーズが強調音
声か否かを示す単語の役割情報25、音声の韻律パター
ン情報26の3つの情報のうちの1つ以上の情報を用い
て合成単位の絞り込みを行っている。
【0034】次いで、選択した合成単位に対応付けされ
ている音声断片をデータベース20から取得し(S
7)、取得した音声断片をテキストデータ101の音素列
に対応するように順次接続し(S8)、この接続によっ
て得られた連続した音声波形を音響部16に送出し、音
声としてスピーカーから出力する(S9)。
【0035】尚、前記S8の処理において音声断片を接
続して得られた連続した音声波形をメモリや情報記憶媒
体に音声データとして一旦蓄積しておいても良い。ま
た、他の装置で作成された合成音声を上記のように音声
データとして入力してこれを音声として出力することも
容易に可能であることは言うまでもない。
【0036】次に、本実施形態における音声合成の要部
をさらに詳細に説明する。
【0037】図4は、本実施形態における音声合成の要
部を説明する図であり、上記検索された複数の合成単位
の候補104の中から最適な合成単位を、高次の言語的情
報に基づいて絞り込む流れを示している。
【0038】前記S3の処理によって検索された合成単
位の候補104とは、入力テキストデータ101を構成する小
音素列と合致する小音素列をデータベース20から抽出
したものであり、データベース20に蓄積されている音
素列を構成する小音素列と合致するものが通例合成単位
の候補104として複数選択される。
【0039】例えば、「明日は曇りのち雨でしょう」と
いうテキストデータ101から音声を合成しようとする場
合、データベース20に「明日は曇りです(ASITAWAKUM
ORIDESU)」というテキスト内容に対応する音声波形が
蓄積されていた場合、そのうちの「ASHITAWAKUMORI」と
いう部分が合成単位の候補として抽出される。
【0040】また、上記のうち「ASITAWAK」の部分を合
成単位の候補として抽出することも可能である。即ち、
本実施形態における合成単位は、モーラや、音節、文節
などの区切りとは無関係に抽出される。つまり、合成単
位は、目的のテキストを合成するために使用することが
可能な小音素列が、上述のデータベース20の中からマ
ッチングして抽出されたものであれば良い。
【0041】ここで、合成単位を選択する際に、「ASIT
AWAKUMORI」と、「NOTIAMEDESYOU」として使うこともで
き、また、「ASITAWA」と「KUMORINOTIAMEDESYOU」とし
て使うこともできる。このため、可変長の合成単位をど
のように選択するかということを決定する必要がある。
従来は、入力テキストとデータベース中のケプストラム
距離を求めたり、音韻環境や、基本周波数を比較してい
たが、本発明が従来技術と異なる点は、合成単位を選択
する際に、前述したフレーズ境界などの高次の言語的情
報を用いることである。但し、データベース20の構築
の際に、高次の言語的情報を抽出する技術としては、従
来からのテキスト解析技術などを用いているため、特に
従来技術との違いはない。本発明は、情報を抽出する部
分ではなく、抽出した高次の言語的情報を合成単位の選
択に利用する部分が従来技術との大きな違いとなってい
る。
【0042】次に、可変長の合成単位をどのように使用
するかを決定する方法に関して説明する。
【0043】本実施形態では、前述した合成単位の絞り
込み105処理において、フレーズの境界を示す情報2
4、フレーズが強調音声か否かを示す単語の役割情報2
5、音声の韻律パターン情報26の3つの情報を用いて
いる。尚、フレーズ境界情報24、単語の役割情報2
5、韻律パターン情報26のうちの1つの情報、或いは
任意の2つの情報を用いて合成単位を決定してもよい。
【0044】即ち、本実施形態では、これら3種類の情
報を、合成単位として選択した音声断片同士の接続点に
おける基本周波数の差(ギャップ)に対する品質劣化度
合いのパラメータ及び品質評価値(以下、単に評価値と
称する)を決定するために用いている。
【0045】一例として、品質劣化パターンのグラフを
図5に示す。このグラフは、横軸が音声断片同士の接続
点における合成単位の基本周波数の差を示し、縦軸が音
声断片同士を接続して合成したときの品質を示してい
る。品質評価を示す値は、合成音声を人が聞いたときの
主観評価値を元にして算出している。
【0046】図5では、音声断片同士の接続点がフレー
ズ境界にあるときの接続点における基本周波数の差に対
する評価値と、音声断片同士の接続点がフレーズ内にあ
るときの接続点における基本周波数の差に対する評価値
が表されている。
【0047】上記接続点がフレーズ境界にあるときは、
上記基本周波数の差が0,30,60,90,120,
150(Hz)のときの評価値がそれぞれ、98,10
0,93,85,93,87(%)である。また、上記
接続点がフレーズ内にあるときは、上記基本周波数の差
が0,30,60,90,120(Hz)のときの評価
値がそれぞれ、98,80,58,48,18(%)で
ある。
【0048】このように、接続点がフレーズ境界にある
ときは、接続点における基本周波数の差が大きくなって
も良好な評価値が得られる。また、接続点がフレーズ内
にあるときは、基本周波数の差が大きくなるにつれて評
価値が徐々に低下している。
【0049】図5のグラフから解るように、音声断片同
士の接続点における基本周波数の差(ギャップ)が大き
くなるに従って品質が劣化していき、その劣化度合いが
接続点の条件(ここではフレーズの境界かどうか)によ
って違ってくる。本実施形態では、そのことを「接続点
の条件から定まる品質劣化パターン」と称している。
【0050】上記品質劣化パターン(以下、劣化パター
ンと称する)から合成単位を絞り込む方法として、本実
施形態では、音声断片同士の接続点における基本周波数
の差と、接続点の条件から定まる劣化パターンをもとに
して、その基本周波数の差における品質評価値を算出す
ることで合成単位を絞り込んでいる。
【0051】即ち、本実施形態では、評価値として、予
め合成した音声波形を複数用意し、これらの音声波形に
よる音声を受聴者に評価してもらった値に基づいて設定
した値を用いている。例えば、フレーズ境界で接続し且
つ接続点前後の基本周波数の差が異なる複数の音声波形
による音声を受聴者が評価した値と、フレーズ内で接続
し且つ接続点前後の基本周波数の差が異なる複数の音声
波形による音声を受聴者が評価した値、及び接続点前後
の基本周波数の変動パターンが異なり且つ接続点前後の
基本周波数の差が異なる複数の音声波形による音声を受
聴者が評価した値に基づいて設定した値を用いている。
これらの評価値としては、例えば、2つの合成単位を接
続して得られた1つの音声に対して複数の受聴者が評価
した値を標準化した値(例えば平均値)を用いる。この
評価値も上記評価値情報19に含めて記憶部12に蓄積
されている。ここでは、評価値として百分率を用い、1
00%において肉声と変わらず、0%に近づくほど品質
が劣化しているという尺度を用いている。尚、受聴者が
評価した値に代えてコンピュータ処理によって評価した
値を用いても良い。
【0052】さらに、本実施形態では、目標のテキスト
に対応した音声を合成可能な全ての合成単位の組合せに
ついて総合評価値を算出し、その評価値が最大となるよ
うな合成単位の組合せを求めている。
【0053】即ち、合成単位の選択によって目標のテキ
ストを音声合成するための合成単位の数に違いが生じ
る。合成単位の数が多くなると劣化も大きくなるので、
例えば各接続点における評価値の平均値を総合評価値と
し、この総合評価値が最も高い合成単位を選択してい
る。尚、評価値の平均値以外の値を総合評価値として用
いても良いことは言うまでもない。
【0054】一方、高次の言語的情報として利用するフ
レーズ境界情報24としては、音声断片同士の接続点が
フレーズの境界なのか或いはフレーズの中(フレーズ
内)なのかを示す情報を用いている。音声断片同士の接
続点がフレーズの境界にあるか否かで、図5に示す劣化
パターンが異なったものとなる。例えば、上記接続点が
フレーズの境界に存在する場合はグラフの傾斜が緩やか
になり品質は余り劣化しないが、フレーズの中に存在す
る場合は逆に劣化しやすくなる。
【0055】フレーズの境界を用いて合成単位の候補を
絞り込む方法としては、例えば、「ASITAWAKUMORI」
と、「NOTIAMEDESYOU」という合成単位を抽出した場
合、前者の末尾と後者の先頭との間で基本周波数差が3
0Hzで、品質評価値が80%だったとする。この接続
点はフレーズの境界ではなく、フレーズの途中で接続し
ているため、接続したときの品質劣化を評価するため
に、フレーズ内部で接続したときの劣化パターンを用い
る。
【0056】その他の例として、「ASITAWA」と「KUMOR
INOTIAMEDESYOU」を合成単位として接続するときは、接
続点がフレーズの境界と判断される。フレーズ境界であ
るか否(フレーズの内部)かを判断するには、データベ
ース20に蓄積されいているフレーズ境界情報24を用
いている。
【0057】フレーズの境界で接続した場合の劣化パタ
ーンはフレーズの内部で接続した場合の劣化パターンよ
り緩やかであるため、例えばこのフレーズ境界における
2つの合成単位の間の基本周波数の差が90Hz以下で
あれば品質評価値は85%より大きくなり、従って前述
のフレーズ内部で接続するより品質評価値が高くなる。
また、フレーズ内で接続した場合における2つの合成単
位の間の基本周波数の差が90Hz以上であれば、品質
評価値が48%以下となるためフレーズ境界で接続した
方が品質が良くなる(図5参照)。例えば、「ASITAW
A」と「KUMORINOTIAMEDESYOU」の2つの合成単位の間の
接続点における基本周波数の差が90Hzであったら、
この評価値は100%(フレーズ境界)であるので、前
述した「ASITAWAKUMORI」と「NOTIAMEDESYOU」の評価値
が80%(フレーズ内)であるから、「ASITAWA」と「K
UMORINOTIAMEDESYOU」が合成単位として選択されること
になる。
【0058】単語の役割情報25としては、単語が強調
されているかどうかを表す情報を用いている。ここで、
単語の「強調」とは、「プロミネンス」或いは「対比強
調」とも称されるもので、文音声における強めや弱め
は、文中の他の部分との相対的な強弱によって行われ、
このように多の部分に対して相対的に引き立たせること
である。また、強調されている単語とは、文章中で重要
な意味を持つ単語であり、パワーやピッチが上がってい
ることが多い。このため、単語が強調されているか否か
で、前述したフレーズ境界の場合のように、2つの合成
単位の間の基本周波数の差に違いが生じるので、劣化パ
ターンが異なったものとなる。
【0059】韻律パターン情報は、音声断片同士の接続
点における韻律パターンの連続性や整合性及び基本周波
数の変動パターンを判定するために用いる。
【0060】韻律パターンの連続性では、例えば、末尾
で基本周波数が緩やかに下がっている音声断片の後に、
先頭において基本周波数が高い音声断片を接続すると、
基本周波数が下がるはずのところが上がるため、基本周
波数の変動パターンが大きく変化するので、品質が劣化
しやすい。逆に、末尾で基本周波数が緩やかに下がって
いる音声断片の後に、先頭において基本周波数が低い音
声断片を接続すると、下がり具合が大きくなるだけなの
で、品質は劣化し難くなる。
【0061】韻律パターンの整合性としては、音声断片
同士の接続点における基本周波数の差の方向の±(プラ
ス・マイナス)を見て、それが文章の持つ連続した韻律
パターンの傾斜方向(変化傾向)と整合しているか否か
によって、劣化パターンが異なる。
【0062】これら3種類の情報のうちの1つ以上を用
いて、最適な合成単位を絞り込む。複数の候補の中から
最後的に1つまで絞り込むと、それが選択された合成単
位となる。
【0063】また、上記フレーズ境界情報24、単語の
役割情報25、韻律パターン情報26の3種類全ての情
報を用いて合成単位の候補を選択する場合、例えば、2
つの合成単位「ASITAWA」と「KUMORINOTIAMEDESYOU」の
接続では、フレーズ境界での接続で、接続点前の合成単
位の末尾及び接続点後の先頭において、強調ではなく、
韻律パターンの方向性があっているという条件の劣化パ
ターンを用いて評価値を算出している。
【0064】尚、本実施形態では、接続点が1箇所のみ
の場合を例として説明したが、接続点が複数になって
も、上記の接続点が1箇所における場合と同様の選択処
理を繰り返して行い、最終的に評価値が最大になるよう
な合成単位を選択する。
【0065】また、本実施形態は、例えば音素の一つ一
つに対応する音声波形を接続して合成音声を生成する場
合にも適用可能であるが、接続点が増えるに従って、合
成された音声に対する品質評価値が相対的に低くなるの
で、品質が低下することは言うまでもない。従って、本
実施形態では、もし接続点が少なくてすむ合成単位が存
在し、それが抽出されれば、そちらが合成単位として選
択されることになる。
【0066】しかし、データベース20の中に音素毎に
音声波形が記憶されており、これらを接続せざるを得な
い状況においても、本発明の音声合成方法を用いること
により、従来例に比べて、可能な限り良い合成単位を選
択できるようになる。
【0067】また、上記音声合成プログラム17を光デ
ィスクや磁気ディスク、光磁気ディスク、半導体メモリ
などの情報記録媒体やネットワーク、その他の通信網を
介して配布することにより、多くのユーザーに容易に普
及させることができることは言うまでもない。
【0068】
【発明の効果】以上説明したように本発明の請求項1及
び請求項2に記載の音声合成方法によれば、高次の言語
的情報を利用して合成単位を選択しているので、高品質
な合成音声を安定して得ることができる。その結果、放
送の分野で要求される品質を持った合成音声を作成でき
るので、有線放送やインターネットの多チャンネル時代
においてコンテンツの不足を補うために自動でコンテン
ツを作成・更新することも可能になる。
【0069】また、請求項3及び請求項4に記載の音声
合成装置によれば、高次の言語的情報を利用して合成単
位を選択しているので、高品質な合成音声を安定して得
ることができる。その結果、放送の分野で要求される品
質を持った合成音声を作成でき、有線放送やインターネ
ットの多チャンネル時代においてコンテンツの不足を補
うために自動でコンテンツを作成・更新することも可能
になる。
【0070】また、請求項5乃至請求項6に記載の音声
合成プログラムによれば、情報記録媒体やネットワー
ク、その他の通信網を介してコンピュータにインストー
ルすることにより音声合成装置を容易に構成することが
できる。さらに、高次の言語的情報を利用して合成単位
を選択しているので、高品質な合成音声を安定して得る
ことができる。その結果、放送の分野で要求される品質
を持った合成音声を作成でき、有線放送やインターネッ
トの多チャンネル時代においてコンテンツの不足を補う
ために自動でコンテンツを作成・更新することも可能に
なる。
【図面の簡単な説明】
【図1】本発明の一実施形態における音声合成装置を示
す構成図
【図2】本発明の一実施形態における音声合成プログラ
ムの処理を説明するフローチャート
【図3】本発明の一実施形態における音声合成プログラ
ムによって行う高次の言語的情報用いた音声合成の流れ
を示す図
【図4】本発明の一実施形態における音声合成の要部を
説明する図
【図5】本発明の一実施形態における品質劣化パターン
のグラフの一例を示す図
【符号の説明】
1…コンピュータ、11…中央処理部、12…記憶部、
13…表示部、14…入力部、15…メモリ、16…音
響部、17…音声合成プログラム、18…テキスト解析
辞書、19…評価値情報、20…音声合成データベー
ス、21…音声波形、22…音素列、23…音素の境界
情報、24…フレーズの境界情報、25…単語の役割情
報、26…韻律パターン情報、101…テキスト、102…テ
キスト解析、103…合成単位の検索、104…合成単位の候
補、105…候補の絞り込み、106…合成単位の候補、107
…接続、108…合成音声。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 テキストデータに基づいてテキストを音
    声に変換する音声合成方法において、 フレーズの境界を示す情報、フレーズが強調音声か否か
    を示す単語の役割情報、音声の韻律パターン情報の3種
    類の情報のうちの少なくとも何れか1つと、音声波形、
    音素列データ、音素の境界を示すデータとが対応付けら
    れて蓄積されているデータベースを用い、 前記データベースに記録された前記音素列のうちの少な
    くとも一部からなる小音素列を合成単位の候補とし、 前記テキストデータで示される音素列の一部と適合する
    前記合成単位の候補を前記データベースから検索し、 前記検索された合成単位の候補毎に、合成単位の候補同
    士の接続点における音声波形の基本周波数の差に対し
    て、前記フレーズの境界を示す情報と、前記単語の役割
    情報、前記韻律パターン情報のうちの少なくとも1つに
    対応する評価値を求め、 前記評価値が最も高い合成単位の候補を合成単位として
    選択し、 前記選択された合成単位に対応した音声波形を前記デー
    タベースから抽出し、 前記テキストデータで示される音素列に対応させて、前
    記抽出した音声波形を接続することを特徴とする音声合
    成方法。
  2. 【請求項2】 前記評価値は、フレーズ境界で接続され
    且つ接続点前後の基本周波数の差が異なる複数の音声波
    形による評価値か、フレーズ内で接続され且つ接続点前
    後の基本周波数の差が異なる複数の音声波形による評価
    値か、前記接続点前後の基本周波数の変動パターンが異
    なり且つ前記接続点前後の基本周波数の差が異なる複数
    の音声波形による評価値のうちの少なくとも1つに基づ
    いて設定された値を用いることを特徴とする請求項1に
    記載の音声合成方法。
  3. 【請求項3】 テキストデータに基づいてテキストを音
    声に変換する音声合成装置において、 フレーズの境界を示す情報、フレーズが強調音声か否か
    を示す単語の役割情報、音声の韻律パターン情報の3種
    類の情報のうちの少なくとも何れか1つと、音声波形、
    音素列データ、音素の境界を示すデータとが対応付けら
    れて蓄積されているデータベースと、 前記データベースに記録された前記音素列のうちの少な
    くとも一部からなる小音素列を合成単位の候補とし、前
    記テキストデータで示される音素列の一部と適合する前
    記合成単位の候補を前記データベースで検索して抽出す
    る抽出手段と、 前記抽出手段によって抽出された合成単位の候補毎に、
    合成単位の候補同士の接続点における音声波形の基本周
    波数の差に対して、前記フレーズの境界を示す情報と、
    前記単語の役割情報、前記韻律パターン情報のうちの少
    なくとも1つに対応する評価値を求め、該評価値が最も
    高い合成単位の候補を合成単位として選択する選択手段
    と、 前記選択手段によって選択された合成単位に対応した音
    声波形を前記データベースから抽出し、前記テキストデ
    ータで示される音素列に対応させて前記抽出した音声波
    形を接続する接続手段とを備えたことを特徴とする音声
    合成装置。
  4. 【請求項4】 フレーズ境界で接続され且つ接続点前後
    の基本周波数の差が異なる複数の音声波形による評価値
    か、フレーズ内で接続され且つ接続点前後の基本周波数
    の差が異なる複数の音声波形による評価値か、前記接続
    点前後の基本周波数の変動パターンが異なり且つ前記接
    続点前後の基本周波数の差が異なる複数の音声波形によ
    る評価値のうちの少なくとも1つが情報として記録され
    ている記憶手段を備えていると共に、 前記選択手段は、前記記憶手段に記憶されている情報に
    基づいて前記評価値を決定する手段を有することを特徴
    とする請求項3に記載の音声合成装置。
  5. 【請求項5】 フレーズの境界を示す情報、フレーズが
    強調音声か否かを示す単語の役割情報、音声の韻律パタ
    ーン情報の3種類の情報のうちの少なくとも何れか1つ
    と、音声波形、音素列データ、音素の境界を示すデータ
    とが対応付けられて蓄積されているデータベースに接続
    可能なコンピュータに対して、テキストデータに基づい
    てテキストを音声に変換する音声合成処理を行わせる音
    声合成プログラムにおいて、 前記データベースに記録された前記音素列のうちの少な
    くとも一部からなる小音素列を合成単位の候補とし、前
    記テキストデータで示される音素列の一部と適合する前
    記合成単位の候補を前記データベースから検索するステ
    ップと、 前記検索された合成単位の候補毎に、合成単位の候補同
    士の接続点における音声波形の基本周波数の差に対し
    て、前記フレーズの境界を示す情報と、前記単語の役割
    情報、前記韻律パターン情報のうちの少なくとも1つに
    対応する評価値を求めるステップと、 前記評価値が最も高い合成単位の候補を合成単位として
    選択するステップと、 前記選択された合成単位に対応した音声波形を前記デー
    タベースから抽出するステップと、 前記テキストデータで示される音素列に対応させて、前
    記抽出した音声波形を接続するステップとを含むことを
    特徴とする音声合成プログラム。
  6. 【請求項6】 前記データベースには、フレーズ境界で
    接続され且つ接続点前後の基本周波数の差が異なる複数
    の音声波形による評価値か、フレーズ内で接続され且つ
    接続点前後の基本周波数の差が異なる複数の音声波形に
    よる評価値か、前記接続点前後の基本周波数の変動パタ
    ーンが異なり且つ前記接続点前後の基本周波数の差が異
    なる複数の音声波形による評価値のうちの少なくとも1
    つが評価情報として記憶されており、 前記評価値を求めるときに前記評価情報に基づいて評価
    値を決定するステップを含むことを特徴とする請求項5
    に記載の音声合成プログラム。
JP2001282816A 2001-09-18 2001-09-18 音声合成方法及びその装置並びに音声合成プログラム Expired - Fee Related JP3892691B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001282816A JP3892691B2 (ja) 2001-09-18 2001-09-18 音声合成方法及びその装置並びに音声合成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001282816A JP3892691B2 (ja) 2001-09-18 2001-09-18 音声合成方法及びその装置並びに音声合成プログラム

Publications (2)

Publication Number Publication Date
JP2003091295A true JP2003091295A (ja) 2003-03-28
JP3892691B2 JP3892691B2 (ja) 2007-03-14

Family

ID=19106416

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001282816A Expired - Fee Related JP3892691B2 (ja) 2001-09-18 2001-09-18 音声合成方法及びその装置並びに音声合成プログラム

Country Status (1)

Country Link
JP (1) JP3892691B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5062178B2 (ja) * 2006-11-06 2012-10-31 日本電気株式会社 音声収録システム、音声収録方法、および収録処理プログラム
CN109523988A (zh) * 2018-11-26 2019-03-26 安徽淘云科技有限公司 一种文本演绎方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5062178B2 (ja) * 2006-11-06 2012-10-31 日本電気株式会社 音声収録システム、音声収録方法、および収録処理プログラム
CN109523988A (zh) * 2018-11-26 2019-03-26 安徽淘云科技有限公司 一种文本演绎方法及装置
CN109523988B (zh) * 2018-11-26 2021-11-05 安徽淘云科技股份有限公司 一种文本演绎方法及装置

Also Published As

Publication number Publication date
JP3892691B2 (ja) 2007-03-14

Similar Documents

Publication Publication Date Title
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
US7143038B2 (en) Speech synthesis system
US7035794B2 (en) Compressing and using a concatenative speech database in text-to-speech systems
US7010488B2 (en) System and method for compressing concatenative acoustic inventories for speech synthesis
US7966186B2 (en) System and method for blending synthetic voices
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP2002530703A (ja) 音声波形の連結を用いる音声合成
JP2007140002A (ja) 音声合成装置,音声合成方法,およびコンピュータプログラム
JP2000509157A (ja) 音響要素・データベースを有する音声合成装置
JP2011186143A (ja) ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
JP2011028131A (ja) 音声合成装置
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP5545935B2 (ja) 音声変換装置および音声変換方法
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
WO2008056604A1 (fr) Système de collecte de son, procédé de collecte de son et programme de traitement de collecte
JP5320341B2 (ja) 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム
JP3892691B2 (ja) 音声合成方法及びその装置並びに音声合成プログラム
JPH08335096A (ja) テキスト音声合成装置
JP2008015424A (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
EP0982684A1 (en) Moving picture generating device and image control network learning device
JP3681111B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP5393546B2 (ja) 韻律作成装置及び韻律作成方法
EP1589524B1 (en) Method and device for speech synthesis
JP4414864B2 (ja) 録音編集・テキスト音声合成併用型音声合成装置、録音編集・テキスト音声合成併用型音声合成プログラム、記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060614

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061023

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061207

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101215

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101215

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111215

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees