JP2001092482A - 音声合成システム、および音声合成方法 - Google Patents
音声合成システム、および音声合成方法Info
- Publication number
- JP2001092482A JP2001092482A JP2000087173A JP2000087173A JP2001092482A JP 2001092482 A JP2001092482 A JP 2001092482A JP 2000087173 A JP2000087173 A JP 2000087173A JP 2000087173 A JP2000087173 A JP 2000087173A JP 2001092482 A JP2001092482 A JP 2001092482A
- Authority
- JP
- Japan
- Prior art keywords
- information
- speech
- speech synthesis
- synthesis system
- synthesized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
スト等に対応する発声内容が存在してもしなくても、同
様の音質の自然な合成音声を発声させる。 【解決手段】 韻律情報データベース130には、実際
の音声から抽出された韻律情報が、音素列やアクセント
位置などと対応して格納されている。韻律情報検索部1
40は、入力テキスト等に基づく言語処理部120の出
力である音素列等に基づいて、韻律情報データベース1
30から近似コストが最も小さい韻律情報を検索し、韻
律情報変形部150は、近似コストに応じて、韻律情報
変形規則記憶部160に保持された変形規則に基づき、
検索された韻律情報を変形し、これに基づいて電気音響
変換器180から合成音声が発声される。
Description
ト、または入力表音記号列等を合成音声に変換して出力
する音声合成システムに関するものである。
ョンシステム、携帯電話などの種々の電子機器におい
て、機器の状態や、操作などの指示、応答メッセージ等
のメッセージを発声させるために合成音声が多く用いら
れている。また、パーソナルコンピュータなどにおいて
は、音声インタフェイスによる操作や、光学文字認識
(OCR)による文字認識結果の確認などにも用いられ
つつある。
は、あらかじめ音声データを記憶させておいて、これを
再生させるような方法があり、限られたメッセージなど
を発声させる場合などに多く用いられているが、この方
法を用いて任意の音声を発声させるためには、大容量の
記憶装置を必要とし、高価なものとなりがちであるた
め、用途が限られたものとなっている。
声させる手法としては、入力されたテキストや表音記号
列の並びなどに基づいて、所定の音声データ生成規則を
用いて音声データを生成させるようにしたものがある。
しかし、このような音声データ生成規則を用いる方法で
は、多様な種々の表現に対して自然な音声を発声させる
ことは困難である。
報に開示されているように、データベースを用いた音声
情報の検索による合成音声の生成と、合成音声生成規則
による合成音声の生成とを併用する音声合成システムが
知られている。この種の装置は、より詳しくは、例えば
図13に示すように、文字列入力部910と、実音声を
分析して抽出した音声特徴量およびこれに対応する発声
内容を格納した音声情報データベース920と、音声情
報データベース920を検索する音声情報検索部930
と、音声波形を生成する合成音声生成部940と、入力
テキストまたは入力表音記号列から音声特徴量を生成す
る際の規則を含む合成音声生成規則950と、電気音響
変換器960とを備えて構成されている。この音声合成
システムでは、文字列入力部910にテキストまたは表
音記号列が入力されると、音声情報検索部930は、音
声情報データベース920から入力テキストまたは入力
表音記号列に一致する発声内容の音声情報を検索する。
一致する発声内容が存在する場合には、対応する音声情
報を合成音声生成部940へ渡す。一方、一致する発声
内容が存在しない場合には、音声情報検索部930は、
入力テキストまたは入力表音記号列をそのまま合成音声
生成部940へ渡す。合成音声生成部940は、検索さ
れた音声情報が入力された場合には、これに基づいて合
成音声を生成し、入力テキストあるいは入力表音記号列
が入力された場合には、これと合成音声生成規則950
とに基づいて音声特徴量を生成した後に、合成音声を生
成する。
生成規則とを用いることにより、任意の入力テキスト等
を合成音声に変換して出力することができるとともに、
一部の音声(検索がヒットした場合)については、自然
な音声を発声させることができる。
来の音声合成システムでは、検索がヒットした場合とヒ
ットしなかった場合と、すなわち、音声情報データベー
ス内に、入力テキスト等に対応する発声内容が存在する
場合と存在しない場合とで、音質の差が大きく、そのよ
うな音質の異なる音声をつなぎあわせることにより、か
えって不自然さが目立つことになるという問題点を有し
ていた。また、音声情報データベース920の検索を単
に入力表音記号列と格納されている発声内容との一致の
有無によって行っているために、一致する発声内容が存
在すれば、文の構成などに係らず、検索された音声情報
によって音声合成が行われ、やはり不自然な合成音声に
なるという問題点も有していた。
私は松下です」という文を音声合成する場合、固有名詞
「松下」がデータベースに存在しない場合には、その部
分だけ機械的な合成音声になったり、文末の発声内容と
して格納されている「大阪に住んでいる」の音声情報が
用いられて、「大阪に住んでいる」「私は松下です」と
いった2つの文が不自然に繋ぎ合わされたような合成音
声になったりしがちであった。
キスト等に応じて、自然な合成音声を発声させることが
でき、特に、音声情報(韻律情報)データベース内に、
入力テキスト等に対応する発声内容が存在してもしなく
ても、同様の音質で合成音声を発声させることができる
音声合成システムの提供を目的としている。
め、請求項1〜6の発明は、合成される音声を示す合成
音声情報に基づいて合成音声を出力する音声合成システ
ムにおいて、検索のキーとなるキー情報と対応して、音
声合成に用いられる韻律情報が格納されたデータベース
と、上記合成音声情報と、上記キー情報との一致程度に
応じて、上記韻律情報を検索する検索手段と、上記合成
音声情報と、上記キー情報との一致程度、および所定の
変形規則に基づいて、上記検索手段によって検索された
韻律情報に変形を施す変形手段と、上記合成音声情報、
および上記変形手段によって変形された韻律情報に基づ
いて、合成音声を出力する合成手段と、を備えたことを
特徴としている。
は、それぞれ、合成される音声の音声的属性を示す表音
記号列や、さらに、合成される音声の言語的属性を示す
言語情報を含んでいてもよく、上記表音記号列は、少な
くとも、合成される音声の音韻の列、アクセント位置、
およびポーズの有無または長さのうちの何れかを実質的
に示す情報を含んでいてもよい。また、上記言語情報
は、少なくとも、合成される音声の文法的情報、および
意味的情報の何れかを含んでいてもよい。
力されたテキスト情報を解析して、上記表音記号列、お
よび上記言語情報を生成する言語処理手段を備えたこと
を特徴としている。
完全に一致するような韻律情報がデータベースに格納さ
れていない場合でも、類似した韻律情報によって音声合
成が行われるので、任意の音声に対して、比較的適切、
かつ、むらのない自然な音声を発声させることができ
る。また、逆に、合成音声の自然さを損なうことなく、
データベースの記憶容量を低減することができる。さら
に、上記のように類似した韻律情報が用いられる場合
に、その類似の程度に応じて韻律情報が変形されるの
で、より適切な合成音声が発せられる。
の音声合成システムであって、上記合成音声情報、およ
び上記キー情報は、それぞれ、合成される音声の各音韻
が属する音韻カテゴリを示す音韻カテゴリ列を実質的に
含むことを特徴としている。
力された、上記合成音声情報に対応する情報、および上
記データベースに格納された、上記キー情報に対応する
情報の少なくとも何れかを音韻カテゴリ列に変換する変
換手段を備えたことを特徴としている。
調音方式、調音位置、および継続時間長のうちの何れか
を用いて音韻をグループ化したものや、韻律パタンを統
計的手法を用いてグループ化し、韻律パタンのグループ
を最も良く反映するように、音韻を多変量解析等の統計
的手法を用いてグループ化したもの、音韻どうしの異聴
表から多変量解析等の統計的手法を用いて決定した音韻
間の距離に従って音韻をグループ化したもの、音韻の、
音韻の基本周波数、強度、時間長、またはスペクトルな
どの物理特性の類似度に従って音韻をグループ化したも
のなどでもよい。
素列が一致していない場合でも、各音素の音韻カテゴリ
が一致している場合には、韻律情報を流用しても、多く
の場合、適切で自然な合成音声を発声させることができ
る。
声合成システムであって、上記データベースに格納され
る上記韻律情報は、同一の実音声から抽出された韻律的
特徴を示す情報を含むことを特徴としている。
音声合成システムであって、上記韻律的特徴を示す情報
は、少なくとも、基本周波数の時間的変化を示す基本周
波数パタン、音声強度の時間的変化を示す音声強度パタ
ン、音韻ごとの時間長を示す音韻時間長パタン、および
ポーズの有無または長さを示すポーズ情報の何れかを含
むことを特徴としている。
声合成システムであって、上記データベースは、上記韻
律情報を韻律制御単位ごとに格納することを特徴として
いる。
音声合成システムであって、上記韻律制御単位は、アク
セント句、1以上のアクセント句によって構成されるフ
レーズ、文節、1以上の文節によって構成されるフレー
ズ、単語、1以上の単語によって構成されるフレーズ、
ストレス句、および1以上のストレス句によって構成さ
れるフレーズのうちの何れかであることを特徴としてい
る。
に発声させることができる。
声合成システムであって、上記合成音声情報、および上
記キー情報は、それぞれ、合成される音声を決定する要
素である複数種類の音声指標情報を含み、上記合成音声
情報とキー情報との一致程度は、上記合成音声情報にお
ける各音声指標情報と、上記キー情報における各音声指
標情報との一致程度が、それぞれ重み付けされて合成さ
れたものであることを特徴としている。
音声合成システムであって、上記音声指標情報は、少な
くとも、合成される音声の音韻の列、アクセント位置、
ポーズの有無または長さ、および言語的属性を示す言語
情報のうちの何れかを実質的に示す情報を含むことを特
徴としている。
音声合成システムであって、上記音声指標情報は、合成
される音声の音韻の列を実質的に示す情報を含み、上記
合成音声情報における各音声指標情報と、上記キー情報
における各音声指標情報との一致程度は、上記音韻ごと
の音響的特徴長の類似程度を含むことを特徴としてい
る。
音声合成システムであって、上記音声指標情報は、合成
される音声の各音韻が属する音韻カテゴリを示す音韻カ
テゴリ列を実質的に含むことを特徴としている。
音声合成システムであって、上記合成音声情報における
各音声指標情報と、上記キー情報における各音声指標情
報との一致程度は、上記音韻ごとの音韻カテゴリの類似
程度を含むことを特徴としている。
変形を容易に行うことができる。
音声合成システムであって、上記韻律情報は、合成され
る音声を特徴づける複数種類の韻律特徴情報を含むこと
を特徴としている。
音声合成システムであって、上記複数種類の韻律特徴情
報は、組にされて、上記データベースに格納されている
ことを特徴としている。
音声合成システムであって、上記組にされる複数種類の
韻律特徴情報は、それぞれ、同一の実音声から抽出され
たものであることを特徴としている。
音声合成システムであって、上記韻律的特徴情報は、少
なくとも、基本周波数の時間的変化を示す基本周波数パ
タン、音声強度の時間的変化を示す音声強度パタン、音
韻ごとの時間長を示す音韻時間長パタン、およびポーズ
の有無または長さを示すポーズ情報の何れかを含むこと
を特徴としている。
音声合成システムであって、上記音韻時間長パタンは、
少なくとも、音素時間長パタン、モーラ時間長パタン、
および音節時間長パタンの何れかを含むことを特徴とし
ている。
音声合成システムであって、上記各種類の韻律特徴情報
は、それぞれ、異なる上記重み付けによる上記合成音声
情報とキー情報との一致程度に応じて検索、および変形
されることを特徴としている。
音声合成システムであって、上記検索手段による上記韻
律情報の検索と、上記変形手段による上記韻律情報の変
形とは、それぞれ、異なる上記重み付けによる上記合成
音声情報とキー情報との一致程度に応じて行われること
を特徴としている。
音声合成システムであって、上記検索手段による上記韻
律情報の検索と、上記変形手段による上記韻律情報の変
形とは、それぞれ、同一の上記重み付けによる上記合成
音声情報とキー情報との一致程度に応じて行われること
を特徴としている。
声合成システムであって、上記変形手段は、少なくと
も、音素ごと、モーラごと、音節ごと、上記合成手段に
おける音声波形の生成単位ごと、および音韻ごとの何れ
かの一致程度に基づいて、上記検索手段によって検索さ
れた上記韻律情報の変形を行うことを特徴としている。
音声合成システムであって、上記音素ごと、モーラご
と、音節ごと、上記合成手段における音声波形の生成単
位ごと、および音韻ごとの何れかの一致度は、少なくと
も、音響特性に基づく距離、調音方式、調音位置、およ
び継続時間長のうちの何れかにより求められた距離、お
よび聴取実験による異聴表に基づく距離の何れかに基づ
いて設定されることを特徴としている。
ができる。
音声合成システムであって、上記音響特性は、少なくと
も、基本周波数、強度、時間長、およびスペクトルのう
ちの何れかであることを特徴としている。
声合成システムであって、上記データベースは、複数種
類の言語について、上記キー情報および韻律情報が格納
されることを特徴としている。
声を容易に発声させることができる。
声を示す合成音声情報に基づいて合成音声を出力する音
声合成方法において、検索のキーとなるキー情報と対応
して、音声合成に用いられる韻律情報が格納されたデー
タベースから、上記合成音声情報と、上記キー情報との
一致程度に応じて、上記韻律情報を検索し、上記合成音
声情報と、上記キー情報との一致程度、および所定の変
形規則に基づいて、上記検索手段によって検索された韻
律情報に変形を施し、上記合成音声情報、および上記変
形手段によって変形された韻律情報に基づいて、合成音
声を出力することを特徴としている。
音声合成方法であって、上記合成音声情報、および上記
キー情報は、それぞれ、合成される音声を決定する要素
である複数種類の音声指標情報を含み、上記合成音声情
報とキー情報との一致程度は、上記合成音声情報におけ
る各音声指標情報と、上記キー情報における各音声指標
情報との一致程度が、それぞれ重み付けされて合成され
たものであることを特徴としている。
音声合成方法であって、上記韻律情報は、合成される音
声を特徴づける複数種類の韻律特徴情報を含むことを特
徴としている。
音声合成方法であって、上記各種類の韻律特徴情報は、
それぞれ、異なる上記重み付けによる上記合成音声情報
とキー情報との一致程度に応じて検索、および変形され
ることを特徴としている。
音声合成方法であって、上記検索手段による上記韻律情
報の検索と、上記変形手段による上記韻律情報の変形と
は、それぞれ、異なる上記重み付けによる上記合成音声
情報とキー情報との一致程度に応じて行われることを特
徴としている。
音声合成方法であって、上記検索手段による上記韻律情
報の検索と、上記変形手段による上記韻律情報の変形と
は、それぞれ、同一の上記重み付けによる上記合成音声
情報とキー情報との一致程度に応じて行われることを特
徴としている。
情報とが完全に一致するような韻律情報がデータベース
に格納されていない場合でも、類似した韻律情報によっ
て音声合成が行われるので、任意の音声に対して、比較
的適切、かつ、むらのない自然な音声を発声させること
ができる。また、逆に、合成音声の自然さを損なうこと
なく、データベースの記憶容量を低減することができ
る。さらに、上記のように類似した韻律情報が用いられ
る場合に、その類似の程度に応じて韻律情報が変形され
るので、より適切な合成音声が発せられる。
キストを合成音声に変換して出力する音声合成システム
において、上記入力されたテキストを解析して、表音記
号列と言語情報とを出力する言語処理手段と、実音声か
ら抽出された韻律的特徴量と、合成される音声に対応す
る表音記号列および言語情報とが、対応して格納された
韻律情報データベースと、上記言語処理手段から出力さ
れた上記表音記号列と上記言語情報とから成る検索項目
の少なくとも一部に対応する、上記韻律情報データベー
スに格納されている上記韻律的特徴量を検索する検索手
段と、上記検索項目と上記韻律情報データベースの格納
内容との一致の程度に応じて、上記韻律情報データベー
スから検索され、選択された韻律特徴量を所定の規則に
従って変形する韻律変形手段と、上記韻律変形手段から
出力される上記韻律特徴量と上記言語処理手段から出力
された上記表音記号列とに基づいて音声波形を生成する
波形生成手段とを備えたことを特徴としている。
に対して、比較的適切、かつ、むらのない自然な音声を
発声させることができる。
容を具体的に説明する。
音声合成システムの構成を示す機能ブロック図である。
図1において、文字列入力部110は、音声合成の対象
となる情報として、漢字かな交じり文字列や、かな文字
列などのテキストなどを入力するものである。この文字
列入力部110としては、具体的には、例えば、キーボ
ードのような入力装置などが用いられる。
ス検索などのための前処理を行うもので、入力されたテ
キストを解析し、例えば図2に示すように、アクセント
句ごとに、表音記号列、および言語情報を出力するもの
である。ここで、上記アクセント句は、便宜上、音声合
成のための処理単位となるもので、ほぼ文法上の文節に
相当するが、例えば2桁以上の数字は各桁の数字をそれ
ぞれ1つのアクセント句とするなど、音声合成処理に適
したように、入力テキストを区切ったものである。ま
た、上記表音記号列は、例えば英数記号から成る文字列
によって、音声の発声単位となる音素や、アクセントの
位置などを示すものである。また、上記言語情報は、例
えば、アクセント句の文法情報(品詞など)および意味
情報(意味の属性など)を示すものである。
3に示すように、アクセント句ごとに、実際の音声から
アクセント句ごとに抽出された韻律情報が、被検索キー
と対応して格納されたものである。同図に示す例では、
被検索キーとして、 (a)音素列 (b)アクセント位置 (c)モーラ(拍)数 (d)アクセント句の前後のポーズ長 (e)文法情報、および意味情報 が用いられている。また、韻律情報として、 (a)基本周波数パタン (b)音声強度パタン (c)音韻時間長パタン が用いられている。ここで、上記各韻律情報は、自然な
合成音声を発声させるためには、同一の実音声から抽出
したものであることが好ましい。なお、上記モーラ数
は、韻律情報データベース130にあらかじめ格納せず
に、検索の都度、上記音素列から数えるようにしてもよ
い。また、上記アクセント句の前後のポーズ長は、同図
の例ではアクセント句が文頭または文末であるかどうか
を示す情報を兼ねている。これによって、同一のアクセ
ント句が文中の位置によって発声強度などが異なる場合
でも、検索において区別されて、適切な音声を合成する
ことができるようになっているが、これに限らず、ポー
ズ長だけを含むものにしてもよいし、また、文頭、文末
を示す情報を別個の被検索キーとするようにしてもよ
い。
0の出力に基づいて、韻律情報データベース130の韻
律情報を検索して出力するものである。この検索におい
ては、いわゆるあいまい検索が行われる。すなわち、言
語処理部120からの出力に基づく音素列等の検索キー
が韻律情報データベース130中の被検索キーと完全に
一致しなくても、ある程度一致するものを検索候補と
し、その中から、例えば最小コスト法によって、最も一
致程度の高いもの(検索キーと被検索キーとの差に相当
する近似コストが小さいもの)を選択するようになって
いる。すなわち、検索キーと被検索キーとが完全に一致
しない場合でも、類似したアクセント句の韻律情報を用
いることにより、韻律情報を生成規則によって生成する
よりも自然な音声を発声させることができる。
140における検索時の近似コストと、後述する韻律情
報変形規則記憶部160に保持された変形規則とに基づ
いて、韻律情報検索部140によって検索された韻律情
報を変形するものである。すなわち、韻律情報検索部1
40での検索において、検索キーと被検索キーとが一致
する場合には、検索された韻律情報によって最も適切な
音声合成を行うことができるが、両キーが完全に一致し
ない場合には、上記のように類似したアクセント句の韻
律情報を用いるため、両キーの一致程度が低いほど(近
似コストが大きいほど)、合成音声が適切な音声からず
れたものになる可能性がある。そこで、上記近似コスト
に応じて、検索された韻律情報に所定の変形を施すこと
によって、より適切な合成音声が発せられるようになっ
ている。
似コストに応じた韻律情報の変形のための変形規則を保
持するものである。
ら出力された表音記号列と、韻律情報変形部150から
出力された韻律情報とに基づいて、音声波形を合成し、
アナログ音声信号を出力するものである。
やヘッドフォンなど、アナログ音声信号を音声に変換す
るものである。
ステムの音声合成動作を説明する。
されるべきテキストが入力されると、言語処理部120
は、入力されたテキストを解析し、アクセント句ごとに
分離して、図2に示すような表音記号列、および言語情
報を出力する。具体的には、例えば、漢字かな交じり文
字列が入力される場合には、図示しない漢字辞書などの
変換辞書などを用いて、アクセント句に分離するととも
に、読みに変換し、アクセント位置やポーズの有無、長
さなどを表す表音記号列を生成する。ここで、図2の表
音記号列の例では、英数記号によって次のような情報を
示すようになっている。
す。) (b)「'」 :アクセント位置 (c)「/」 :アクセント句の区切り (d)「cl」 :無音区間 (e)数字 :ポーズ長 なお、同図には示していないが、フレーズや文の区切り
を示す情報なども示すようにしてもよい。なお、表音記
号列の表記は上記のものに限るものではなく、また、音
素列やアクセント位置を示す数値などをそれぞれ別個の
情報として出力するなどしてもよい。また、言語情報
(文法情報、意味情報)としては、品詞や意味などのほ
か、活用形や、係り受けの有無、一般的な文中での重要
度などを含めるようにしてもよく、さらに、表記も同図
に示すような「名詞」や「連体形」などの文字列に限ら
ず、コード化した数字を用いるなどしてもよい。
理部120から出力されたアクセント句ごとの表音記号
列と言語情報に基づいて、韻律情報データベース130
の韻律情報を検索し、検索された韻律情報と、後に詳述
する近似コストとを出力する。より詳しくは、言語処理
部120から上記のような表記の表音記号列が出力され
る場合には、まず、この表音記号列から、音素列や、ア
クセント位置、モーラ数等を示す数値などを求め、これ
らを検索キーとして、韻律情報データベース130中の
韻律情報を検索する。この検索においては、上記検索キ
ーと完全に一致する被検索キーが韻律情報データベース
130中に存在する場合には、その被検索キーに対応す
る韻律情報を検索結果とすればよいが、存在しない場合
には、まず、ある程度一致するもの(例えば音素列は一
致するが意味情報は一致しないものや、音素列は一致し
ないが、アクセントおよびモーラ数は一致するものな
ど)を検索候補とし、それらのうち、検索キーと被検索
キーとの一致程度が最も高いものを選択して、検索結果
とする。
小コスト法によって行うことができる。具体的には、ま
ず、次のようにして近似コストCを求める。
+a4・D4+a5・D5+a6・D6+a7・D7 ここで、上記a1、D1等は、以下の通りである。
内か否か) D5:直後のポーズ長の一致の有無(被検索キーの範囲
内か否か) D6:文法情報の一致の有無または程度 D7:意味情報の一致の有無または程度 a1〜a7:上記D1〜D7の重みづけをする係数(こ
れらのD1〜D7が、適切な韻律情報の選択に寄与する
程度を、統計的手法や学習によって求めたもの)であ
る。
限らず、検索キーと被検索キーとの一致程度を表すもの
であれば、種々のものを用いることができる。例えば、
D1については、一致しない音素が互いに類似する音素
かどうかや、一致しない音素の位置、一致しない音素が
連続しているかどうかなどに応じて異なる値としたりし
てもよい。また、D4、D5については、ポーズ長が図
3に示すように長、短、無しなどの段階で示される場合
には、一致しているか否かを0、1で表したり、段階の
差を数値で表したりしてもよく、また、ポーズ長が時間
の数値で示される場合には、時間の差を用いたりしても
よい。また、D6、D7については、文法情報や意味情
報が一致しているか否かを0、1で表してもよいし、検
索キーと被検索キーとをパラメータとするテーブルを用
いて、両者の組み合わせに応じた一致の程度(例えば名
詞と動詞とでは一致の程度は低く、助詞と助動詞とでは
高いなど。)を示す数値を用いるようにしたり、類義語
辞書を用いて意味の類似の程度を求めるようにしたりし
てもよい。
に算出し、もっとも近似コストの小さいものを検索結果
として選択して検索結果とすることにより、検索キーと
被検索キーとが完全に一致するような韻律情報が韻律情
報データベース130に格納されていない場合でも、類
似した韻律情報によって、比較的適切、かつ自然な音声
を発声させることができる。
報検索部140から出力された近似コストに応じて、韻
律情報変形規則記憶部160に記憶されている規則を用
い、韻律情報検索部140から検索結果として出力され
た韻律情報(基本周波数パタン、音声強度パタン、音韻
時間長パタン)を変形する。具体的には、例えば、基本
周波数パタンのダイナミックレンジを圧縮する変形規則
が適用される場合には、図4に示すような基本周波数パ
タンの変形がなされる。
な意味を持っている。すなわち、例えば、図5に示すよ
うに、入力テキスト「門真市」に対して「名古屋市」の
韻律情報が検索されたとすると、これらの音素列は相違
するが、その他の検索項目は一致している(近似コスト
は小さい)ため、「名古屋市」の韻律情報をそのまま変
形せずに用いれば、適切な音声合成をすることができ
る。また、例えば、「5分です」に対して「なるんで
す」が検索されたとすると、「5分です」の適切な合成
音声を得るためには、一般に、品詞の相違を考慮すれ
ば、「なるんです」の音声強度パタンを多少減少させる
ことが望ましく、文節情報(例えば意味の重要度)を考
慮すれば、数字は発声強度の大きい場合が多いので、
「なるんです」の音声強度パタンをある程度増大させる
ことが望ましく、総合的には、「なるんです」の音声強
度パタンを多少増大させることが望ましい。このような
総合的な変形程度は、近似コストと相関関係を有してい
るため、近似コストに対応した変形程度(変形倍率等)
を変形規則として韻律情報変形規則記憶部160に記憶
させておくことにより、適切な合成音声を得ることがで
きる。なお、韻律情報の変形は、図4に示すように経過
時間の全体にわたって一様に変形するものに限らず、例
えば主として時間経過の中間付近を変形させるなどの変
形パターンによって、時間経過とともに変形程度を異な
らせるなどしてもよい。上記変形規則の具体的な記憶形
式としては、近似コストを変形倍率に変換するための係
数を変形規則とするものでもよいし、近似コストをパラ
メータとして変形倍率や変形パターンを対応させたテー
ブルを用いるなどしてもよい。なお、変形に用いる近似
コストとしては、上記のように検索に用いる近似コスト
と同じものに限らず、上記(数1)とは係数a1〜a7
が異なる式によって、より適切な変形が行われる値を得
るようにしてもよく、また、基本周波数パタン、音声強
度パタン、音韻時間長パタンでそれぞれ異なる値を用い
るようにしてもよい。また、例えば、(数1)の各項が
負の値を採り得るような場合には、各項の絶対値の和を
検索用の近似コスト(0または正)として用い、各項の
そのままの値の和を変形用の近似コスト(負もあり得
る)として用いるようにするなどしてもよい。
120から出力された表音記号列と、韻律情報変形部1
50によって変形された韻律情報とに基づいて、すなわ
ち、音素列およびポーズ長と、基本周波数パタン、音声
強度パタン、および音韻時間長パタンとに基づいて音声
波形を合成し、アナログ音声信号を出力する。このアナ
ログ音声信号により、電気音響変換器180から合成音
声が発せられる。
完全に一致するような韻律情報が韻律情報データベース
130に格納されていない場合でも、類似した韻律情報
によって音声合成が行われるので、比較的適切、かつ、
むらのない自然な音声を発声させることができる。ま
た、逆に、合成音声の自然さを損なうことなく、韻律情
報データベース130の記憶容量を低減することができ
る。さらに、上記のように類似した韻律情報が用いられ
る場合に、その類似の程度に応じて韻律情報が変形され
るので、より適切な合成音声が発せられる。
システムとして、アクセント句の前後のポーズ長も韻律
情報として韻律情報データベースに格納された音声合成
システムの例を説明する。なお、以下の実施の形態にお
いて、前記実施の形態1等と同様の機能を有する構成要
素については、同一または対応する符号を付して詳細な
説明を省略する。
の構成を示す機能ブロック図である。この音声合成シス
テムは、実施の形態1の音声合成システムと比べて、以
下の点が異なっている。
20と異なり、ポーズ情報が含まれない表音記号列を出
力するようになっている。
図7に示すように、韻律情報データベース130と異な
り、ポーズ情報が被検索キーとしてではなく韻律情報と
して格納されている。なお、実際には、韻律情報データ
ベース130と同じデータ構造のものを用いて、検索時
に、ポーズ長を韻律情報として取り扱うようにしてもよ
い。
報を含まない検索キー、被検索キーの照合によって検索
を行い、(基本周波数パタン、音声強度パタン、音韻時
間長パタンに加えて)ポーズ情報も韻律情報として出力
するようになっている。
報も、基本周波数パタン等と同様に、近似コストに応じ
て変形するようになっている。
基本周波数パタン変形規則等とともに、ポーズ長変更規
則も保持するようになっている。
0から検索されたポーズ情報を用いることによって、ポ
ーズ長がより自然な合成音声を発声させることができ
る。また、言語処理部220における入力テキスト解析
処理の負荷を軽減することもできる。
語処理部から出力されたポーズ情報も検索キーとして用
いるようにして、検索精度を容易に高め得るようにして
もよい。この場合、韻律情報データベースには、被検索
キーとしてのポーズ情報と韻律情報としてのポーズ情報
とを別個に格納するようにしてもよいし、兼用されるよ
うにしてもよい。また、このように、ポーズ情報が言語
処理部から出力されるとともに韻律情報データベースに
も格納されている場合、何れのポーズ情報を用いて音声
合成するかは、言語処理部による解析精度と、韻律情報
データベースから検索されるポーズ情報の信頼性とに応
じて選択すればよく、さらに、近似コスト(検索結果の
確からしさ)に応じて、何れを選択するかを決定するよ
うにしてもよい。
システムとして、韻律情報の検索および変形が、基本周
波数パタン等でそれぞれ別個の近似コストに基づいて行
われる音声合成システムの例を説明する。
の構成を示す機能ブロック図である。この音声合成シス
テムは、前記実施の形態1の音声合成システムと比べ
て、以下の点が異なっている。
本周波数パタン検索部341、音声強度パタン検索部3
42、および音韻時間長パタン検索部343が設けられ
ている。
本周波数パタン変形部351、音声強度パタン変形部3
52、および音韻時間長パタン変形部353が設けられ
ている。
形部351〜353は、それぞれ、以下の(数2)〜
(数4)により得られる近似コストを用いて、基本周波
数パタン、音声強度パタン、または音韻時間長パタンを
独立して検索(検索候補を選択)、または変形するよう
になっている。
+b5・D5+b6・D6+b7・D7
+c5・D5+c6・D6+c7・D7
+d5・D5+d6・D6+d7・D7 ここで、上記D1〜D7は、実施の形態1の(数1)と
同じであるが、重みづけの係数b1〜b7、c1〜c
7、d1〜d7は、(数1)のa1〜a7と異なり、そ
れぞれ、適切な基本周波数パタン、音声強度パタン、ま
たは音韻時間長パタンの選択が行われるように、統計的
手法や学習によって求めたものが用いられている。すな
わち、例えば、一般的に基本周波数パタンはアクセント
位置およびモーラ数が同じであれば、おおよそ類似した
ものであるため、係数b2、b3が(数1)の係数a
2、a3よりも大きく設定されている。また、音声強度
パタンはポーズの有無や長さの寄与程度が大きいため、
係数c4、c5が係数a4、a5よりも大きく設定され
ている。同様に、音韻時間長パタンは音素列の並びの寄
与程度が大きいため、係数d1が係数a1よりも大きく
設定されている。
索、変形を別個の近似コストを用いて独立して行うこと
により、バランスの良い検索および変形を行うことがで
き、それぞれ最適な基本周波数パタン等に基づいて音声
合成を行うことができる。また、韻律情報データベース
130には、基本周波数パタン、音声強度パタン、およ
び音韻時間長パタンを組にして格納する必要はなく、例
えばそれぞれのパタンごとの種類の数だけ格納すればよ
いので、比較的小さな記憶容量の韻律情報データベース
130で、良好な音質の合成音声を発声させることがで
きる。
システムについて説明する。
の構成を示す機能ブロック図である。この音声合成シス
テムは、主として、次のような特徴を有している。
律情報の検索や変形等の処理が、アクセント句単位では
なく、フレーズ単位で行われる。ここで、上記フレーズ
は、節または呼気段落などとも称され、通常、発声され
る際に(句点がある場合と同様に)区切りとなる、1ま
たは複数のアクセント句の集まりである。
が韻律情報として格納された韻律情報データベース43
0、および基本周波数パタン変形規則等とともにポーズ
長変更規則も格納された韻律情報変形規則記憶部460
が設けられている。ただし、これらは、図10に示すよ
うに、韻律情報や変形規則がフレーズ単位でも格納され
ている点で、実施の形態2の韻律情報データベース23
0、および韻律情報変形規則記憶部260と異なってい
る。
検索および変形は、基本周波数パタン等でそれぞれ別個
の近似コストに基づいて行われる。また、ポーズ情報の
検索およびポーズ長の変更も、同様に独立して行われ
る。
3と同様に、近似コストに応じて行われるとともに、さ
らに、検索キーと被検索キーとの音素列における音素ご
との一致度(一致の程度や有無)に応じても行われる点
が異なっている。
処理部120と同様に、文字列入力部110から入力さ
れたテキストを解析し、アクセント句ごとに分離した
後、所定のアクセント句のまとまりであるフレーズ単位
で、表音記号列、および言語情報を出力するようになっ
ている。
ように韻律情報がフレーズ単位で格納されているが、こ
れに伴って、さらに、図10に示すように各フレーズに
含まれるアクセント句の数も被検索キーとして格納され
ている。なお、韻律情報として格納されるポーズ情報
は、フレーズの前後のポーズ長に限らず、アクセント句
の前後のポーズ長も含めるようにしてもよい。
パタン検索部442、音韻時間長パタン検索部443、
およびポーズ情報検索部444は、フレーズ単位で韻律
情報の検索を行うために、近似コストとして、フレーズ
に含まれるアクセント句の数も考慮するようになってい
る。また、ポーズ情報検索部444以外は、検索された
基本周波数パタン等、および近似コストとともに、検索
キーと被検索キーとの音素列における音素ごとの一致度
も出力するようになっている一方、ポーズ情報検索部4
44は、ポーズ情報、および近似コストとともに、アク
セント句ごとのモーラ数やアクセント位置などの一致度
を出力するようになっている。
パタン変形部452、および音韻時間長パタン変形部4
53は、実施の形態1〜3の韻律情報変形部150等と
同様に、韻律情報変形規則記憶部460に保持されてい
る規則を用い、基本周波数パタン検索部441等から出
力された近似コストに応じて韻律情報の変形を行うとと
もに、さらに、検索キーと被検索キーとの音素列におけ
る音素ごとの一致度に応じても変形を行うようになって
いる。すなわち、例えば「たかな」に対して「さかな」
のように一部の音素だけが異なる言葉の韻律情報が用い
られる場合に、異なる音素についての音声強度パタン
を、図2に記号Pで示す部分のように弱くして、音素の
相違の影響が目立ちにくくなるような変形を容易にする
ことができる。なお、このような音素ごとの一致度に応
じた変形は必ずしもしなくてもよいし、また、近似コス
トに応じた変形を行わずに音素ごとの一致度に応じた変
形だけを行うなどしてもよい。
変形規則記憶部460に保持されている規則を用い、ポ
ーズ情報検索部444から出力された近似コストに応じ
て韻律情報の変形を行うとともに、さらに、アクセント
句ごとのモーラ数やアクセント位置などの一致度に応じ
て、ポーズ長の変更を行うようになっている。
検索や変形等を行うことによって、文の流れに沿った、
より自然な合成音声を発声させることができる。また、
実施の形態2と同様に、韻律情報データベース430か
ら検索されたポーズ情報を用いることによって、ポーズ
長がより自然な合成音声を発声させることができるとと
もに、実施の形態3と同様に、基本周波数パタン等の検
索、変形を別個の近似コストを用いて独立して行うこと
により、それぞれ最適な基本周波数パタン等に基づいて
音声合成を行うことができ、韻律情報データベース43
0の記憶容量を低減することも容易にできる。さらに、
音素ごとの一致度に応じた基本周波数パタン等の変形を
行うことによって、音素の相違の影響が目立ちにくくす
ることができるとともに、アクセント句ごとのモーラ数
やアクセント位置などの一致度に応じてもポーズ長の変
更等を行うことにより、ポーズ長がより自然な合成音声
を発声させることなどができる。
システムとして、韻律情報の検索に音韻カテゴリ列が用
いられる例を説明する。
ムの構成を示す機能ブロック図である。図12は、音韻
カテゴリの例を示す説明図である。
音韻間の音声学的特徴から求めた距離によって、すなわ
ち各音韻の調音方式、調音位置、継続時間長などによっ
てグループ化したものである。つまり、この音韻カテゴ
リを同じくする音素どうしは、類似した音響特性を有し
ているため、例えば、あるアクセント句と、そのうちの
一部の音素が、同じ音韻カテゴリの他の音素に入れ代わ
ったアクセント句とは、同一、または比較的類似した韻
律情報を有していることが多い。そこで、韻律情報の検
索において、音素列が一致していない場合でも、各音素
の音韻カテゴリが一致している場合には、韻律情報を流
用しても、多くの場合、適切な合成音声を発声させるこ
とができる。なお、音韻のグループ化は、上記に限ら
ず、例えば、図12に示すように、音韻どうしの異聴表
から多変量解析などを用いて決定した音韻間の距離(心
理距離)に従って音韻をグループ化したり、音韻の物理
特性(音韻の基本周波数、強度、時間長、およびスペク
トルなど)の類似度に従ってグループ化したり、また、
韻律パタンを多変量解析などの統計的手法を用いてグル
ープ化し、上記韻律パタンのグループを最も良く反映す
るように、音韻を統計的手法を用いてグループ化したり
してもよい。
5の音声合成システムは、実施の形態1の音声合成シス
テムに比べると、韻律情報データベース130に代えて
韻律情報データベース730を備えるとともに、さら
に、音韻カテゴリ列生成部790を備えている点が異な
る。
施の形態1の韻律情報データベース130の格納内容に
加えて、さらに、アクセント句の各音素が属する音韻カ
テゴリを示す音韻カテゴリ列が、被検索キーとして格納
されている。ここで、音韻カテゴリ列の具体的な表記と
しては、例えば、各音韻カテゴリに割り当てた番号や記
号の列として表したり、各音韻カテゴリ内の何れかの音
素を代表音素として、その代表音素の列として表したり
すればよい。
部120から出力されるアクセント句ごとの表音記号列
を音韻カテゴリ列に変換して出力するようになってい
る。
生成部790から出力された音韻カテゴリ列、および言
語処理部120から出力されたアクセント句ごとの表音
記号列と言語情報とに基づいて、韻律情報データベース
730の韻律情報を検索し、検索された韻律情報と、近
似コストとを出力するようになっている。上記近似コス
トは、音韻カテゴリ列の一致程度(例えば音韻ごとの音
韻カテゴリの類似程度)を含めることにより、例えば音
素列が一致しない場合でも、音韻カテゴリ列が一致して
いる場合には小さな値にすることができるため、より適
切な韻律情報が検索(選択)され、自然な合成音声が発
声される。また、例えば、まず検索候補を音韻カテゴリ
列が一致または類似するものに絞ることによって、検索
速度を向上させることなども容易になる。
ら出力された表音記号列を音韻カテゴリ列生成部790
によって音韻カテゴリ列に変換する例を示したが、これ
に限らず、言語処理部120に音韻カテゴリ列を生成さ
せる機能を持たせるようにしたり、韻律情報検索部74
0に、入力された表音記号列を音韻カテゴリ列に変換す
る機能を持たせるようにしてもよい。また、韻律情報検
索部740に、韻律情報データベースから読み出した音
素列を音韻カテゴリ列に変換する機能を持たせれば、実
施の形態1の韻律情報データベース130と同様の音韻
カテゴリ列が格納されていない韻律情報データベースを
用いることもできる。
索キーとして用いるものに限らず、音韻カテゴリ列だけ
を用いるようにしてもよい。この場合には、音素列だけ
が異なる韻律情報はまとめることができるので、データ
ベースの容量を低減したり、検索速度を向上させたりす
ることが容易にできる。
た構成要素は、種々組み合わせるなどしてもよい。具体
的には、例えば、実施の形態5で示した、音韻カテゴリ
列を韻律情報の検索等に用いる手法は、他の実施の形態
などに適用してもよい。
との一致度に応じた韻律情報の変形も、他の実施の形態
などにおいて、近似コストに応じた変形に代えて、また
はこれとともに用いることができる。なお、さらに、音
素ごとや、モーラごと、音節ごと、波形生成部における
音声波形の生成単位ごと、音韻ごとの一致度などを用い
て変形するようにしてもよい。また、変形する韻律情報
に応じて、用いる一致度を選択してもよい。具体的に
は、例えば基本周波数パタンの変形には、近似コストま
たは音素ごとなどの一致度の何れかを用い、音声強度パ
タンの変形には、双方を共に用いるなどしてもよい。こ
こで、上記音素等の一致度は、例えば基本周波数や、強
度、時間長、スペクトルなどの音響特性に基づく距離、
調音方式、調音位置、継続時間長などにより音声学的に
求められた距離、または聴取実験による異聴表に基づく
距離などに基づいて定めることができる。
を検索等に用いる方法も、他の実施の形態などにおいて
も、音素列を用いるのに代えて、またはこれとともに用
いることができる。
ポーズ情報が韻律情報として韻律情報データベースに格
納されて検索される構成も他の実施の形態などに適用し
てもよいし、逆に、実施の形態2、4などにおいてポー
ズ情報も検索に用いるようにしてもよい。
なく、直接、表音記号列などを外部から入力するように
してもよい。このような構成は、例えば携帯電話のよう
に小型の機器に適用する場合などに特に有用であり、装
置の小型化や通信データの圧縮などがより容易になる。
また、表音記号列と言語情報とを外部から入力するよう
にしてもよい。すなわち、例えば大規模なサーバを用い
て精度の高い言語処理を行い、その結果が入力されるよ
うにして、さらに適切な音声を発声させることもでき
る。一方、簡易に表音記号列などだけを用いるようにし
て構成の簡素化を図るようにしてもよい。
記のものに限るものではない。例えば、音韻時間長パタ
ンに代えて、音素時間長パタンや、モーラ時間長パタ
ン、音節時間長パタンなどを用いてもよい。また、上記
のような時間長パタンを含めて種々の韻律情報を組み合
わせてもよい。
格納、検索、変形などの単位は、アクセント句または1
以上のアクセント句から成るフレーズの何れでもよい
し、さらに、文節、単語、ストレス句単位や、1以上の
文節、単語、ストレス句から成るフレーズ単位などでも
よいし、これらを混在させてもよい。また、韻律制御単
位(例えば1以上のアクセント句から成るフレーズ)と
は別に、例えば韻律情報の変形等に他の単位(例えばア
クセント句)ごとのモーラ数やアクセント位置等の一致
度を用いるなどしてもよい。
限るものではない。すなわち、一般には検索キーの項目
は多い方が適切な候補が検索されやすいが、最適な候補
が検索されやすいように各項目の一致度の決定や重み付
けのし方などとともに最適化すればよい。また、検索精
度への寄与程度が小さい検索キーは省略して、構成の簡
素化、処理速度の向上を図るようにしてもよい。
説明したが、これに限らず、種々の言語に対しても、同
様に容易に応用することができる。その場合、それぞれ
の言語の特性に応じた変形、例えばモーラ単位の処理を
モーラまたはシラブル単位の処理とするなどの変形を加
えてもよい。また、韻律情報データベース130等に
は、複数の言語についての情報を格納するなどしてもよ
い。
(および周辺機器)とプログラムによって実装してもよ
いし、ハードウェアによって実装してもよい。
例えば実音声から抽出された基本周波数パタンや、音声
強度パタン、音素時間長パタン、ポーズ情報などの韻律
情報をデータベースとして保持し、テキストや表音記号
列などとして入力された発声目標に対して、例えば近似
コストが最小となるような韻律情報をデータベースより
検索して選択し、近似コストや一致度等に応じて、所定
の変形規則に基づき、選択された韻律情報を変形するこ
とにより、任意の入力テキスト等に応じた自然な合成音
声を発声させることができる。特に、音声情報データベ
ース内に、入力テキスト等に対応する発声内容が存在し
てもしなくても、同様の音質で、すなわち、全体として
実音声に近い自然な合成音声を発声させることができる
という効果を奏する。
カーナビゲーションシステム、携帯電話などの種々の電
子機器において、機器の状態や、操作などの指示、応答
メッセージ等のメッセージを発声させるため、また、パ
ーソナルコンピュータなどにおいて、音声インタフェイ
スによる操作や、光学文字認識(OCR)による文字認
識結果の確認などに用いることができ、上記のような分
野などにおいて有用である。
機能ブロック図である。
の例を示す説明図である。
ータベースの記憶内容を示す説明図である。
る。
機能ブロック図である。
ータベースの記憶内容を示す説明図である。
機能ブロック図である。
機能ブロック図である。
データベースの記憶内容を示す説明図である。
す機能ブロック図である。
ロック図である。
Claims (43)
- 【請求項1】合成される音声を示す合成音声情報に基づ
いて合成音声を出力する音声合成システムにおいて、 検索のキーとなるキー情報と対応して、音声合成に用い
られる韻律情報が格納されたデータベースと、 上記合成音声情報と、上記キー情報との一致程度に応じ
て、上記韻律情報を検索する検索手段と、 上記合成音声情報と、上記キー情報との一致程度、およ
び所定の変形規則に基づいて、上記検索手段によって検
索された韻律情報に変形を施す変形手段と、 上記合成音声情報、および上記変形手段によって変形さ
れた韻律情報に基づいて、合成音声を出力する合成手段
と、 を備えたことを特徴とする音声合成システム。 - 【請求項2】請求項1の音声合成システムであって、 上記合成音声情報、および上記キー情報は、それぞれ、
合成される音声の音声的属性を示す表音記号列を含むこ
とを特徴とする音声合成システム。 - 【請求項3】請求項2の音声合成システムであって、 上記合成音声情報、および上記キー情報は、さらに、そ
れぞれ、合成される音声の言語的属性を示す言語情報を
含むことを特徴とする音声合成システム。 - 【請求項4】請求項2の音声合成システムであって、 上記表音記号列は、少なくとも、合成される音声の音韻
の列、アクセント位置、およびポーズの有無または長さ
のうちの何れかを実質的に示す情報を含むことを特徴と
する音声合成システム。 - 【請求項5】請求項3の音声合成システムであって、 上記言語情報は、少なくとも、合成される音声の文法的
情報、および意味的情報の何れかを含むことを特徴とす
る音声合成システム。 - 【請求項6】請求項3の音声合成システムであって、 さらに、上記音声合成システムに入力されたテキスト情
報を解析して、上記表音記号列、および上記言語情報を
生成する言語処理手段を備えたことを特徴とする音声合
成システム。 - 【請求項7】請求項1の音声合成システムであって、 上記合成音声情報、および上記キー情報は、それぞれ、
合成される音声の各音韻が属する音韻カテゴリを示す音
韻カテゴリ列を実質的に含むことを特徴とする音声合成
システム。 - 【請求項8】請求項7の音声合成システムであって、 さらに、上記音声合成システムに入力された、上記合成
音声情報に対応する情報、および上記データベースに格
納された、上記キー情報に対応する情報の少なくとも何
れかを音韻カテゴリ列に変換する変換手段を備えたこと
を特徴とする音声合成システム。 - 【請求項9】請求項7の音声合成システムであって、 上記音韻カテゴリは、少なくとも、音韻の調音方式、調
音位置、および継続時間長のうちの何れかを用いて音韻
をグループ化したものであることを特徴とする音声合成
システム。 - 【請求項10】請求項7の音声合成システムであって、 上記音韻カテゴリは、韻律パタンを統計的手法を用いて
グループ化し、韻律パタンのグループを最も良く反映す
るように、音韻を統計的手法を用いてグループ化したも
のであることを特徴とする音声合成システム。 - 【請求項11】請求項10の音声合成システムであっ
て、 上記統計的手法は、多変量解析であることを特徴とする
音声合成システム。 - 【請求項12】請求項7の音声合成システムであって、 上記音韻カテゴリは、音韻どうしの異聴表から統計的手
法を用いて決定した音韻間の距離に従って音韻をグルー
プ化したものであることを特徴とする音声合成システ
ム。 - 【請求項13】請求項12の音声合成システムであっ
て、 上記統計的手法は、多変量解析であることを特徴とする
音声合成システム。 - 【請求項14】請求項7の音声合成システムであって、 上記音韻カテゴリは、音韻の物理特性の類似度に従って
音韻をグループ化したものであることを特徴とする音声
合成システム。 - 【請求項15】請求項14の音声合成システムであっ
て、 上記物理特性は、少なくとも、音韻の基本周波数、強
度、時間長、およびスペクトルのうちの何れかであるこ
とを特徴とする音声合成システム。 - 【請求項16】請求項1の音声合成システムであって、 上記データベースに格納される上記韻律情報は、同一の
実音声から抽出された韻律的特徴を示す情報を含むこと
を特徴とする音声合成システム。 - 【請求項17】請求項16の音声合成システムであっ
て、 上記韻律的特徴を示す情報は、少なくとも、 基本周波数の時間的変化を示す基本周波数パタン、 音声強度の時間的変化を示す音声強度パタン、 音韻ごとの時間長を示す音韻時間長パタン、およびポー
ズの有無または長さを示すポーズ情報の何れかを含むこ
とを特徴とする音声合成システム。 - 【請求項18】請求項1の音声合成システムであって、 上記データベースは、上記韻律情報を韻律制御単位ごと
に格納することを特徴とする音声合成システム。 - 【請求項19】請求項18の音声合成システムであっ
て、 上記韻律制御単位は、 アクセント句、 1以上のアクセント句によって構成されるフレーズ、 文節、 1以上の文節によって構成されるフレーズ、 単語、 1以上の単語によって構成されるフレーズ、 ストレス句、および1以上のストレス句によって構成さ
れるフレーズのうちの何れかであることを特徴とする音
声合成システム。 - 【請求項20】請求項1の音声合成システムであって、 上記合成音声情報、および上記キー情報は、それぞれ、
合成される音声を決定する要素である複数種類の音声指
標情報を含み、 上記合成音声情報とキー情報との一致程度は、上記合成
音声情報における各音声指標情報と、上記キー情報にお
ける各音声指標情報との一致程度が、それぞれ重み付け
されて合成されたものであることを特徴とする音声合成
システム。 - 【請求項21】請求項20の音声合成システムであっ
て、 上記音声指標情報は、少なくとも、合成される音声の音
韻の列、アクセント位置、ポーズの有無または長さ、お
よび言語的属性を示す言語情報のうちの何れかを実質的
に示す情報を含むことを特徴とする音声合成システム。 - 【請求項22】請求項21の音声合成システムであっ
て、 上記音声指標情報は、合成される音声の音韻の列を実質
的に示す情報を含み、上記合成音声情報における各音声
指標情報と、上記キー情報における各音声指標情報との
一致程度は、上記音韻ごとの音響的特徴長の類似程度を
含むことを特徴とする音声合成システム。 - 【請求項23】請求項20の音声合成システムであっ
て、 上記音声指標情報は、合成される音声の各音韻が属する
音韻カテゴリを示す音韻カテゴリ列を実質的に含むこと
を特徴とする音声合成システム。 - 【請求項24】請求項23の音声合成システムであっ
て、 上記合成音声情報における各音声指標情報と、上記キー
情報における各音声指標情報との一致程度は、上記音韻
ごとの音韻カテゴリの類似程度を含むことを特徴とする
音声合成システム。 - 【請求項25】請求項20の音声合成システムであっ
て、 上記韻律情報は、合成される音声を特徴づける複数種類
の韻律特徴情報を含むことを特徴とする音声合成システ
ム。 - 【請求項26】請求項25の音声合成システムであっ
て、 上記複数種類の韻律特徴情報は、組にされて、上記デー
タベースに格納されていることを特徴とする音声合成シ
ステム。 - 【請求項27】請求項26の音声合成システムであっ
て、 上記組にされる複数種類の韻律特徴情報は、それぞれ、
同一の実音声から抽出されたものであることを特徴とす
る音声合成システム。 - 【請求項28】請求項25の音声合成システムであっ
て、 上記韻律的特徴情報は、少なくとも、 基本周波数の時間的変化を示す基本周波数パタン、 音声強度の時間的変化を示す音声強度パタン、 音韻ごとの時間長を示す音韻時間長パタン、およびポー
ズの有無または長さを示すポーズ情報の何れかを含むこ
とを特徴とする音声合成システム。 - 【請求項29】請求項28の音声合成システムであっ
て、 上記音韻時間長パタンは、少なくとも、音素時間長パタ
ン、モーラ時間長パタン、および音節時間長パタンの何
れかを含むことを特徴とする音声合成システム。 - 【請求項30】請求項25の音声合成システムであっ
て、 上記各種類の韻律特徴情報は、それぞれ、異なる上記重
み付けによる上記合成音声情報とキー情報との一致程度
に応じて検索、および変形されることを特徴とする音声
合成システム。 - 【請求項31】請求項20の音声合成システムであっ
て、 上記検索手段による上記韻律情報の検索と、上記変形手
段による上記韻律情報の変形とは、それぞれ、異なる上
記重み付けによる上記合成音声情報とキー情報との一致
程度に応じて行われることを特徴とする音声合成システ
ム。 - 【請求項32】請求項20の音声合成システムであっ
て、 上記検索手段による上記韻律情報の検索と、上記変形手
段による上記韻律情報の変形とは、それぞれ、同一の上
記重み付けによる上記合成音声情報とキー情報との一致
程度に応じて行われることを特徴とする音声合成システ
ム。 - 【請求項33】請求項1の音声合成システムであって、 上記変形手段は、少なくとも、 音素ごと、 モーラごと、 音節ごと、 上記合成手段における音声波形の生成単位ごと、および
音韻ごとの何れかの一致程度に基づいて、上記検索手段
によって検索された上記韻律情報の変形を行うことを特
徴とする音声合成システム。 - 【請求項34】請求項33の音声合成システムであっ
て、 上記音素ごと、モーラごと、音節ごと、上記合成手段に
おける音声波形の生成単位ごと、および音韻ごとの何れ
かの一致度は、少なくとも、 音響特性に基づく距離、 調音方式、調音位置、および継続時間長のうちの何れか
により求められた距離、および聴取実験による異聴表に
基づく距離の何れかに基づいて設定されることを特徴と
する音声合成システム。 - 【請求項35】請求項34の音声合成システムであっ
て、 上記音響特性は、少なくとも、基本周波数、強度、時間
長、およびスペクトルのうちの何れかであることを特徴
とする音声合成システム。 - 【請求項36】請求項1の音声合成システムであって、 上記データベースは、複数種類の言語について、上記キ
ー情報および韻律情報が格納されることを特徴とする音
声合成システム。 - 【請求項37】合成される音声を示す合成音声情報に基
づいて合成音声を出力する音声合成方法において、 検索のキーとなるキー情報と対応して、音声合成に用い
られる韻律情報が格納されたデータベースから、 上記合成音声情報と、上記キー情報との一致程度に応じ
て、上記韻律情報を検索し、 上記合成音声情報と、上記キー情報との一致程度、およ
び所定の変形規則に基づいて、上記検索手段によって検
索された韻律情報に変形を施し、 上記合成音声情報、および上記変形手段によって変形さ
れた韻律情報に基づいて、合成音声を出力することを特
徴とする音声合成方法。 - 【請求項38】請求項37の音声合成方法であって、 上記合成音声情報、および上記キー情報は、それぞれ、
合成される音声を決定する要素である複数種類の音声指
標情報を含み、 上記合成音声情報とキー情報との一致程度は、上記合成
音声情報における各音声指標情報と、上記キー情報にお
ける各音声指標情報との一致程度が、それぞれ重み付け
されて合成されたものであることを特徴とする音声合成
方法。 - 【請求項39】請求項38の音声合成方法であって、 上記韻律情報は、合成される音声を特徴づける複数種類
の韻律特徴情報を含むことを特徴とする音声合成方法。 - 【請求項40】請求項39の音声合成方法であって、 上記各種類の韻律特徴情報は、それぞれ、異なる上記重
み付けによる上記合成音声情報とキー情報との一致程度
に応じて検索、および変形されることを特徴とする音声
合成方法。 - 【請求項41】請求項38の音声合成方法であって、 上記検索手段による上記韻律情報の検索と、上記変形手
段による上記韻律情報の変形とは、それぞれ、異なる上
記重み付けによる上記合成音声情報とキー情報との一致
程度に応じて行われることを特徴とする音声合成方法。 - 【請求項42】請求項38の音声合成方法であって、 上記検索手段による上記韻律情報の検索と、上記変形手
段による上記韻律情報の変形とは、それぞれ、同一の上
記重み付けによる上記合成音声情報とキー情報との一致
程度に応じて行われることを特徴とする音声合成方法。 - 【請求項43】入力されたテキストを合成音声に変換し
て出力する音声合成システムにおいて、 上記入力されたテキストを解析して、表音記号列と言語
情報とを出力する言語処理手段と、 実音声から抽出された韻律的特徴量と、合成される音声
に対応する表音記号列および言語情報とが、対応して格
納された韻律情報データベースと、 上記言語処理手段から出力された上記表音記号列と上記
言語情報とから成る検索項目の少なくとも一部に対応す
る、上記韻律情報データベースに格納されている上記韻
律的特徴量を検索する検索手段と、 上記検索項目と上記韻律情報データベースの格納内容と
の一致の程度に応じて、上記韻律情報データベースから
検索され、選択された韻律特徴量を所定の規則に従って
変形する韻律変形手段と、 上記韻律変形手段から出力される上記韻律特徴量と上記
言語処理手段から出力された上記表音記号列とに基づい
て音声波形を生成する波形生成手段とを備えたことを特
徴とする音声合成システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000087173A JP3576066B2 (ja) | 1999-03-25 | 2000-03-27 | 音声合成システム、および音声合成方法 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8112499 | 1999-03-25 | ||
JP11-81124 | 1999-07-19 | ||
JP11-204167 | 1999-07-19 | ||
JP20416799 | 1999-07-19 | ||
JP2000087173A JP3576066B2 (ja) | 1999-03-25 | 2000-03-27 | 音声合成システム、および音声合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001092482A true JP2001092482A (ja) | 2001-04-06 |
JP3576066B2 JP3576066B2 (ja) | 2004-10-13 |
Family
ID=27303499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000087173A Expired - Fee Related JP3576066B2 (ja) | 1999-03-25 | 2000-03-27 | 音声合成システム、および音声合成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3576066B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271172A (ja) * | 2002-03-15 | 2003-09-25 | Sony Corp | 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置 |
WO2008102710A1 (ja) * | 2007-02-20 | 2008-08-28 | Nec Corporation | 音声合成装置及び方法とプログラム |
WO2009044596A1 (ja) * | 2007-10-05 | 2009-04-09 | Nec Corporation | 音声合成装置、音声合成方法および音声合成プログラム |
JP2012237925A (ja) * | 2011-05-13 | 2012-12-06 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成装置とその方法とプログラム |
US10878803B2 (en) | 2017-02-21 | 2020-12-29 | Tencent Technology (Shenzhen) Company Limited | Speech conversion method, computer device, and storage medium |
CN113178197A (zh) * | 2021-04-27 | 2021-07-27 | 平安科技(深圳)有限公司 | 语音验证模型的训练方法、装置以及计算机设备 |
-
2000
- 2000-03-27 JP JP2000087173A patent/JP3576066B2/ja not_active Expired - Fee Related
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271172A (ja) * | 2002-03-15 | 2003-09-25 | Sony Corp | 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置 |
WO2008102710A1 (ja) * | 2007-02-20 | 2008-08-28 | Nec Corporation | 音声合成装置及び方法とプログラム |
US8630857B2 (en) | 2007-02-20 | 2014-01-14 | Nec Corporation | Speech synthesizing apparatus, method, and program |
JP5434587B2 (ja) * | 2007-02-20 | 2014-03-05 | 日本電気株式会社 | 音声合成装置及び方法とプログラム |
WO2009044596A1 (ja) * | 2007-10-05 | 2009-04-09 | Nec Corporation | 音声合成装置、音声合成方法および音声合成プログラム |
JP5387410B2 (ja) * | 2007-10-05 | 2014-01-15 | 日本電気株式会社 | 音声合成装置、音声合成方法および音声合成プログラム |
JP2012237925A (ja) * | 2011-05-13 | 2012-12-06 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成装置とその方法とプログラム |
US10878803B2 (en) | 2017-02-21 | 2020-12-29 | Tencent Technology (Shenzhen) Company Limited | Speech conversion method, computer device, and storage medium |
CN113178197A (zh) * | 2021-04-27 | 2021-07-27 | 平安科技(深圳)有限公司 | 语音验证模型的训练方法、装置以及计算机设备 |
CN113178197B (zh) * | 2021-04-27 | 2024-01-09 | 平安科技(深圳)有限公司 | 语音验证模型的训练方法、装置以及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
JP3576066B2 (ja) | 2004-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6823309B1 (en) | Speech synthesizing system and method for modifying prosody based on match to database | |
US10140973B1 (en) | Text-to-speech processing using previously speech processed data | |
JP4302788B2 (ja) | 音声合成用の基本周波数テンプレートを収容する韻律データベース | |
Dutoit | High-quality text-to-speech synthesis: An overview | |
US7460997B1 (en) | Method and system for preselection of suitable units for concatenative speech | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US10163436B1 (en) | Training a speech processing system using spoken utterances | |
US10713289B1 (en) | Question answering system | |
US10176809B1 (en) | Customized compression and decompression of audio data | |
EP1668628A1 (en) | Method for synthesizing speech | |
US8942983B2 (en) | Method of speech synthesis | |
JP2002530703A (ja) | 音声波形の連結を用いる音声合成 | |
JPH0916602A (ja) | 翻訳装置および翻訳方法 | |
US6477495B1 (en) | Speech synthesis system and prosodic control method in the speech synthesis system | |
JP5198046B2 (ja) | 音声処理装置及びそのプログラム | |
Dutoit | A short introduction to text-to-speech synthesis | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
JP3576066B2 (ja) | 音声合成システム、および音声合成方法 | |
JP2001272991A (ja) | 音声対話方法及び音声対話装置 | |
JP3059398B2 (ja) | 自動通訳装置 | |
JPH0887297A (ja) | 音声合成システム | |
JPH1152987A (ja) | 話者適応機能を持つ音声合成装置 | |
JP3366253B2 (ja) | 音声合成装置 | |
JP2003099089A (ja) | 音声認識・合成装置および方法 | |
US11393451B1 (en) | Linked content in voice user interface |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20031216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040309 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040706 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040706 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3576066 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070716 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080716 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090716 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090716 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100716 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110716 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110716 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120716 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120716 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130716 Year of fee payment: 9 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |