JP2003108170A

JP2003108170A - 音声合成学習方法および音声合成学習装置

Info

Publication number: JP2003108170A
Application number: JP2001294721A
Authority: JP
Inventors: Yoshiteru Uchiyama; 喜照内山
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2001-09-26
Filing date: 2001-09-26
Publication date: 2003-04-11

Abstract

(57)【要約】【課題】高品質な音声合成結果を得るために音声合成に
用いるパラメータを最適化する。【解決手段】テキストを入力してそのテキストを音声合
成処理して音声信号として出力する音声合成装置１と、
この音声合成装置１から出力される音声信号を音声認識
してその音声認識結果をテキストとして出力する音声認
識装置２と、音声認識結果としてのテキストと前記音声
合成装置１に入力されたテキストとを比較するテキスト
比較部３を有し、音声認識結果としてのテキストと音声
合成装置１に入力されたテキストとをテキスト比較部３
で比較し、その比較結果を前記音声合成装置１に与え、
音声合成装置１はテキスト比較部３から一致を示す信号
を受け取るまで音声合成を行うためのパラメータを変化
させることで最適なパラメータとする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はテキストから音声信
号を生成する音声合成において、音声合成結果の高品質
化を図るために音声合成処理の学習を行う音声合成学習
方法および音声合成学習装置に関する。

【０００２】

【従来の技術】与えられたテキストから音声信号を生成
する音声の規則合成は、音声を取り扱う情報処理技術で
従来から広く利用されている。ここでは、この音声規則
合成のことを単に音声合成と呼ぶことにする。

【０００３】最近では、音声合成手法の進歩によって、
より自然な合成音声の生成が可能となりつつあるが、テ
キストの内容やその場の状況を適切に表現し、かつ、人
間の肉声に近い合成音声を生成するには、なお改善の余
地がある。

【０００４】

【発明が解決しようとする課題】この音声合成は簡単に
言えば、入力されたテキストを言語辞書と言語パラメー
タを用いて言語処理して読みの情報（発音表記情報）に
変換し、さらに、その読みの情報を音韻辞書と韻律パラ
メータを用いて音韻処理して音声信号を生成するもので
あるが、生成された音声信号がテキストの内容を適正に
反映しない場合も多い。

【０００５】たとえば、入力されたテキストのなかに
「８００Ｆ」などという文字列（この場合、読みとして
は、「はっぴゃくえふ」であるとする）が存在した場
合、そのテキストを上述した手順で音声合成する際、
「８００Ｆ」の「Ｆ」を「階（かい）」と解釈して、
「はっぴゃくかい」といういような音声信号が出力され
る場合もある。また、アクセントを適正に判断できず
に、たとえば、「橋」を「箸」のアクセントの音声信号
として出力してしまうといった問題もある。

【０００６】このような問題に対処するには、音声合成
結果を自動的に評価し、その評価結果に基づいて適正な
音声合成結果が得られるような修正を加えるなどといっ
た方法も考えられているが、特に日本語の場合、その言
語処理が複雑であるので、音声合成結果を自動的にかつ
客観的に評価し、適正な音声合成結果を得るような修正
を施すことは難しい。

【０００７】そこで本発明は、テキストを音声合成処理
して音声信号を生成する際、最適な音声合成結果が得ら
れるような学習を可能とした音声合成学習方法およびそ
の装置を提供することを目的としている。

【０００８】

【課題を解決するための手段】上述の目的を達成するた
めに本発明の音声合成学習方法は、テキストを音声合成
手段に入力してそのテキストを音声合成に必要なパラメ
ータを用いて音声合成処理して音声信号として出力し、
その音声信号を音声認識し、その音声認識結果としての
テキストと前記音声合成手段に入力されたテキストを比
較し、その比較結果に基づいて前記パラメータをある値
に設定し、それを学習パラメータとするようにしてい
る。

【０００９】この音声合成学習方法において、前記比較
結果に基づいて前記パラメータをある値に設定し、それ
を学習パラメータとする処理は、前記音声認識結果とし
てのテキストが前記音声合成手段に入力されたテキスト
に一致するまで当該パラメータを変化させ、両者が一致
したときのパラメータを学習パラメータとする処理であ
る。また、前記学習パラメータは保存するようにしてい
る。

【００１０】また、本発明の音声合成学習方法は、テキ
ストを音声合成手段に入力してそのテキストを音声合成
に必要なパラメータを用いて音声合成処理する際、その
パラメータとして複数の候補が存在する場合、その複数
の候補のうちのあるパラメータを選択し、その選択され
たパラメータを用いて音声合成を行い、その音声合成結
果を音声認識し、その音声認識結果と前記音声合成手段
に入力されたテキストとの類似度を判定し、その類似度
判定結果に基づいて、前記複数の候補のいずれかのパラ
メータを選択し、その選択されたパラメータを学習パラ
メータとしている。

【００１１】この音声合成学習方法において、前記類似
度判定結果に基づいて前記複数の候補のいずれかのパラ
メータを選択し、その選択されたパラメータを学習パラ
メータとする処理は、前記類似度が予め定めた値以上と
なるまで、前記候補となったパラメータを順次選択して
行き、類似度が予め定めた値以上となったパラメータを
学習パラメータとする処理である。また、この場合も前
記学習パラメータは保存するようにしている。

【００１２】また、本発明の音声合成学習装置は、テキ
ストを入力してそのテキストを音声合成を行うに必要な
パラメータを用いて音声合成処理して音声信号として出
力する音声合成手段と、この音声合成手段から出力され
る音声信号を音声認識してその音声認識結果をテキスト
として出力する音声認識手段と、この音声認識手段によ
る認識結果としてのテキストと前記音声合成手段に入力
されたテキストを比較するテキスト比較手段とを有し、
前記音声合成手段は前記テキスト比較手段から出力され
る前記認識結果としてのテキストと前記音声合成手段に
入力されたテキストとの比較結果に基づいて前記パラメ
ータをある値に設定し、それを学習パラメータとしてい
る。

【００１３】この音声合成学習装置は、前記比較結果に
基づいて前記パラメータをある値に設定し、それを学習
パラメータとする処理は、前記テキスト比較手段から出
力される前記認識結果としてのテキストが前記音声合成
手段に入力されたテキストに一致するまで前記パラメー
タを変化させ、両者が一致したときのパラメータを学習
パラメータとする処理である。

【００１４】また、前記音声合成手段はパラメータ記憶
手段を有し、前記学習パラメータをこのパラメータ記憶
手段に保存するようにしている。

【００１５】本発明の音声合成学習装置は、テキストを
音声合成手段に入力してそのテキストを音声合成に必要
なパラメータを用いて音声合成処理する際、そのパラメ
ータとして複数の候補が存在した場合、その複数の候補
のうちのあるパラメータを選択し、その選択されたパラ
メータを用いて音声合成処理して音声信号として出力す
る音声合成手段と、この音声合成手段から出力される音
声信号を音声認識し、その認識結果と前記音声合成手段
に入力されたテキストとの類似度を判定してその類似度
判定結果を出力可能な音声認識手段とを有し、前記音声
合成手段は前記音声認識手段からの類似度判定結果に基
づいて、前記複数の候補のいずれかのパラメータを選択
し、その選択されたパラメータを学習パラメータとして
いる。

【００１６】この音声合成学習装置において、前記類似
度判定結果に基づいて前記複数の候補のいずれかのパラ
メータを選択し、その選択されたパラメータを学習パラ
メータとする処理は、前記類似度が予め定めた値以上と
なるまで、前記候補となったパラメータを順次選択して
行き、類似度が予め定めた値以上となったパラメータを
学習パラメータとする処理である。

【００１７】また、前記音声合成手段は、パラメータ記
憶手段を有し、前記学習パラメータをこのパラメータ記
憶手段に保存するようにしている。

【００１８】このように本発明は、テキストを音声合成
に必要なパラメータを用いて音声合成処理して音声信号
として出力し、その音声信号を音声認識し、その音声認
識結果としてのテキストと入力されたテキストを比較
し、その比較結果に基づいてパラメータの設定を行うよ
うにしているので、音声合成結果の適正さを自動的にか
つ客観的に評価することができる。また、このとき、音
声認識結果としてのテキストと前記音声合成手段に入力
されたテキストとが一致するまで当該パラメータを変化
させるので、その入力テキストに対し最適なパラメータ
を学習パラメータとして設定することができる。また、
そのときのパラメータを保存することによって、以降の
音声合成処理の際にはそれを参照するだけで最適な音声
合成を行うことができる。

【００１９】また、本発明は、パラメータとして複数の
候補が存在した場合、その複数の候補のうちのある１つ
のパラメータを選択し、その選択されたパラメータを用
いて音声合成を行う場合にも適用することができ、この
発明も上述同様、音声合成結果の適正さを自動的にかつ
客観的に評価することができる。この場合、複数の候補
のうちの最適なパラメータを選択する処理を行うので、
特に、読みやアクセントの確定がしにくい単語などを音
声合成する場合に大きな効果を発揮する。なお、この場
合も、最適なパラメータを保存するようにしているの
で、以降の音声合成処理の際にはそれを参照するだけで
適正な音声合成を行うことができる。

【００２０】

【発明の実施の形態】以下、本発明について実施の形態
について説明するが、ここでは以下に示す２つの実施の
形態について説明する。

【００２１】〔第１の実施の形態〕図１は本発明におけ
る音声合成学習方法および音声合成学習装置の第１の実
施の形態を説明する基本的な構成を示すもので、音声合
成装置１、音声認識装置２、テキスト比較部３で構成さ
れている。この第１の実施の形態における処理手順をお
おまかに説明すると、音声合成対象となるテキスト（入
力テキストと呼ぶ）を音声合成装置２で音声合成に必要
なパラメータを用いて音声合成処理し、その音声合成結
果である音声信号を出力する手順と、この音声信号を音
声認識装置２で音声認識してその認識結果としてのテキ
スト（出力テキストと呼ぶ）を出力する手順と、この認
識結果である出力テキストと入力テキストとをテキスト
比較部３で比較する手順と、この比較結果を音声合成装
置１にフィードバックし、音声合成装置１で、入力テキ
ストに対する出力テキストの異なる部分について、音声
合成を行うためのパラメータを変化させて再度音声合成
処理する手順とからなる。

【００２２】このような手順を、出力テキストが入力テ
キストに一致するまで行い、両者が一致したら、そのと
きのパラメータを学習結果として保存する。以下、さら
に詳細に説明する。

【００２３】図２は図１をより詳細に説明するもので、
音声合成装置１は、言語処理部１１、言語辞書部１２、
音韻処理部１３、音韻辞書部１４、パラメータ生成部１
５、パラメータ記憶部１６などを有している。なお、パ
ラメータ生成部１５で生成されるパラメータは、テキス
トを構成する文字列の読みや文の区切りなどを決める言
語パラメータと、アクセント、基本周波数、発話継続時
間長などを決める韻律パラメータなどが含まれ、言語パ
ラメータは言語処理部１１に与えられ、韻律パラメータ
は音韻処理部１３に与えられる。

【００２４】音声認識装置２は、音声認識処理部２１を
有し、入力された音声信号をテキストに変換して出力す
るもので、ここで用いられる音声認識処理部２１は本発
明独特の音声認識手法が用いられているものではない
が、入力された音声信号に対し理想的な認識を行うこと
ができる高い認識性能を持ったものであるとし、その認
識結果はテキスト（出力テキスト）としてテキスト比較
部３に与えられる。

【００２５】このような構成において、音声合成装置１
に入力テキストが与えられると、言語処理部１１では、
言語辞書１２を参照し、かつ、パラメータ生成部１５に
より生成された言語パラメータを用いて言語処理し、読
みの情報（発音表記情報）を出力し、その読みの情報
は、音韻処理部１３に与えられる。音韻処理部１３では
音韻辞書１４を参照し、かつ、パラメータ生成部１５に
より生成された韻律パラメータを用いた音韻処理を行っ
て音声信号を出力する。

【００２６】この音韻処理部１３から出力された音声信
号は、音声認識装置２に与えられ、音声認識処理部２１
によって音声認識処理がなされて、認識結果としてのテ
キスト（出力テキスト）が出力され、テキスト比較部３
に与えられる。

【００２７】なお、ここでの音声認識処理は、たとえ
ば、前後の文脈などを考慮するとともに音声認識辞書な
どを用いて音声認識処理し、その認識結果として、幾つ
かの認識候補が上位から順に幾つか出力され、その第１
位の認識候補が認識結果としてテキスト比較部３に与え
られ、その第１位の認識候補と入力テキストとの比較が
なされる。

【００２８】テキスト比較部３では、音声認識装置２か
ら出力される出力テキストと、音声合成装置１に入力さ
れた入力テキストとを文字列として比較し、異なる部分
があるか否かを判断し、異なる部分があれば、その異な
る部分を示す情報をパラメータ生成部１５に通知する。

【００２９】パラメータ生成部１５では、テキスト比較
部３から異なる部分を示す情報を受け取ると、前回とは
異なったパラメータを生成し、そのパラメータによって
音声合成処理を行い、その音声合成結果としての音声信
号を出力する。

【００３０】そして、この前回とは異なったパラメータ
によって生成された音声信号は音声認識装置２に入力さ
れ、再度、音声認識処理がなされ、認識結果としてのテ
キスト（出力テキスト）がテキスト比較部３に与えられ
る。テキスト比較部３では、この出力テキストを入力テ
キストと比較して、異なった部分があればその異なった
部分を示す情報をパラメータ生成部１５に与える。

【００３１】パラメータ生成部１５では、テキスト比較
部３から異なる部分を示す情報を受け取ると、前回とは
異なったパラメータを生成し、そのパラメータによって
音声合成処理を行い、その音声合成結果としての音声信
号を出力する。

【００３２】このような処理を繰り返し行い、音声認識
結果としての出力テキストと音声合成装置１に入力され
た入力テキストとの比較の結果、出力テキストが入力テ
キストに一致すると、テキスト比較部３から一致信号が
出力され、その一致信号がパラメータ生成部１５に与え
られる。パラメータ生成部１５はこの一致信号を受け取
ると、そのときのパラメータをパラメータ記憶部１６に
保存する。

【００３３】このパラメータ記憶部１６に保存されたパ
ラメータは、入力テキストに対し最適な音声合成を可能
とする学習済みのパラメータ（学習パラメータという）
となる。したがって、その入力テキストを音声合成する
際には、パラメータ記憶部１６に記憶された当該入力テ
キストに対応する学習パラメータを用いて音声合成処理
することで、その入力テキストに対し最適な音声合成結
果を得ることができる。

【００３４】このようにして、ある１つの入力テキスト
に対する学習パラメータがパラメータ記憶部１６に保存
されたら、テキストを変えてそれを入力テキストとし、
その新たな入力テキストに対して上述した処理を行い、
その入力テキストに対し、最適な音声合成を可能とする
学習パラメータを得て、その学習パラメータをパラメー
タ記憶部１６に記憶させる。

【００３５】このような処理を様々なテキストに対して
行うことによって、入力される様々なテキストを音声合
成する上で最適なパラメータが学習パラメータとしてパ
ラメータ記憶部１６に蓄積され、それによって、様々な
入力テキストに対して適切な音声合成を行うことができ
る。

【００３６】図３は入力テキストと出力テキストの一例
を示すもので、図３（ａ）に示すような入力テキストが
音声合成装置１に与えられ、音声合成装置１で音声合成
処理を行って、その入力テキストに対する音声合成結果
としての音声信号が出力され、その音声信号を音声認識
装置２で認識処理することによって図３（ｂ）に示すよ
うなテキスト（出力テキスト）が得られたとする。

【００３７】この図３（ｂ）に示す出力テキストにおい
て、アンダラインを施した部分が入力テキストと異なる
部分である。この図３の例では、「コンピュータに対し
て発せられた・・・」という入力テキストに対する出力
テキストは「コンピュータに対して８０００られた・・
・」となり、「発せられた」の部分が「８０００られ
た」となっている。

【００３８】つまり、この例は、「発せられた」の部分
が適正に音声合成されずに「はっせんられた」という音
声信号として出力されたために、音声認識装置２ではそ
の部分を「はっせんられた」とそのまま認識し、その認
識結果としてのテキストが「８０００られた」となった
ものである。

【００３９】したがって、テキスト比較部３では、この
異なった部分を示す情報をパラメータ生成部１５に通知
し、それによって、パラメータ生成部１５では、その部
分について、前回とは異なったパラメータ（読みに対す
る音素選択、基本周波数、アクセント、発話継続時間長
など）を生成して、そのパラメータを言語処理部１１や
韻律処理部１３に送る。

【００４０】これによって、「コンピュータに対して発
せられた・・・」という入力テキストの「発せられた」
の部分に対し、再度、新たなパラメータを用いて音声合
成処理がなされ、その音声合成結果としての音声信号が
出力される。この音声信号は音声認識装置２に入力さ
れ、認識結果としてのテキスト（出力テキスト）が出さ
れ、再度、テキスト比較部３で入力テキストとの比較が
行われる。

【００４１】そして、その比較の結果、両者が一致して
いると判定されたとすれば、その時のパラメータが学習
パラメータとしてパラメータ記憶部１６に記憶される。
これによって、「コンピュータに対して発せられた・・
・」という入力テキストに対し、最適な音声合成を可能
とするパラメータがパラメータ記憶部１６に保存され
る。

【００４２】以上のように、この第１の実施の形態によ
れば、テキスト（入力テキスト）を音声合成装置１で音
声合成処理して、その音声合成結果としての音声信号を
音声認識装置２に与えて音声認識し、その認識結果であ
るテキスト（出力テキスト）を、入力テキストと比較
し、入力テキストに対して出力テキストに異なる部分が
あれば、その部分を前回とは異なったパラメータを用い
て再度音声合成処理し、その音声合成結果である音声信
号を音声認識装置１に与えて音声認識して、その認識結
果であるテキスト（出力テキスト）と入力テキストとを
比較するという処理を、出力テキストが入力テキストに
一致するまで行う。

【００４３】そして、出力テキストが入力テキストに一
致したら、そのときのパラメータを学習結果として記録
しておく。このような処理を様々なテキストに対して行
うことによって、パラメータ記憶部１６には、様々なテ
キストに対し最適な音声合成結果を得ることができるパ
ラメータが蓄積され、そのパラメータを用いて音声合成
することによって、最適な音声合成結果を得ることがで
きるようになる。

【００４４】すなわち、音声合成装置１により音声合成
処理されて得られた音声信号を音声認識装置２で音声認
識し、その認識結果として出力されたテキストが、音声
合成装置１に入力されたテキストと同じものであるとい
うことは、適正な音声合成処理がなされたということが
でき、しかも、音声合成されて得られた合成音声が正し
く音声認識されるということは、その合成音声が人間の
聴覚にとっての明瞭度も高く、高品質な合成音声である
ことを意味している。

【００４５】〔第２の実施の形態〕図４は本発明の第２
の実施の形態を説明する構成図であり、この第２の実施
の形態も音声合成装置１と音声認識装置２を有している
点は上述の第１の実施の形態と同様である。

【００４６】音声合成装置１は図２と同様、言語処理部
１１、言語辞書部１２、音韻処理部１３、音韻辞書部１
４、パラメータ生成部１５、パラメータ記憶部１６を有
しており、この第２の実施の形態ではその他にパラメー
タ選択部１７を有している。

【００４７】また、音声認識装置２は第１の実施の形態
同様の音声認識処理部２１を有し、この音声認識処理部
２１によって音声認識を行って、認識結果を出力する
が、この第２の実施の形態では、この音声認識処理部２
１での認識結果と入力テキスト（音声合成装置１に入力
されるテキスト）との類似度を判定する類似度判定部２
２を有している。

【００４８】この第２の実施の形態は、音声合成装置１
が音声合成処理を行う際、音声合成を行うに必要なパラ
メータの候補が複数存在し、その複数のパラメータから
最適なパラメータを決定する手段として、音声認識装置
２の認識結果を用いるものである。なお、音声合成を行
うに必要なパラメータの候補が複数存在する例として
は、たとえば、入力テキストの読みやアクセントを確定
できない場合などがあり、以下、具体例を参照して説明
する。

【００４９】たとえば、「・・・社は新製品Ａ−８００
Ｆを開発した」といった入力テキストが音声合成装置１
に入力された場合を考える。ここで、音声合成装置１
は、音声合成を行うためのパラメータとして複数の候補
を順次選択可能なパラメータ選択部１７を有しており、
このパラメータ選択部１７でパラメータ生成部１５か
ら、たとえば、「８００Ｆ」の「Ｆ」の部分に対する読
みのパラメータの第１候補として「階（かい）」と言う
読みに対するパラメータを選択したとする。

【００５０】これによって、音声合成装置１から出力さ
れる合成音声は「はっぴゃくかい」となり、それに対応
する音声信号が音声認識装置２に与えられる。音声認識
装置２では、音声認識処理部２１により、その音声信号
に対し、前後の文脈などを考慮するとともに音声認識辞
書などを用いて音声認識処理し、その認識結果として、
上位から順に幾つかの認識候補とその類似度が出力され
る。

【００５１】図５（ａ）は「はっぴゃくかい」という音
声信号に対して得られた上位幾つかの認識候補とその類
似度の例を示すもので、この例では、第１位の認識候補
として「８００回」とその類似度「４３」、第２位の認
識候補として「８００階」とその類似度「３０」、第３
位の認識候補として「１００回」とその類似度「２２」
というように、第１位から順に認識候補とその類似度が
出力される。

【００５２】なお、ここでの類似度というのは、入力さ
れた音声信号に対して得られた認識候補がどの程度の確
からしさを有しているかを示す数値で、ここでは、「１
００」を最大としている。たとえば、「はっぴゃくか
い」という音声信号に対し、「８００回」という認識候
補は「４３」という確からしさを有しているということ
である。

【００５３】ところで、図５（ａ）で示したような音声
認識処理部２１での認識結果（上位幾つかの認識候補と
その類似度）は、類似度判定部２２に与えられ、この類
似度判定部２２には、音声合成装置１に入力された入力
テキストが与えられている。したがって、類似度判定部
２２は、その入力テキストに基づき前後の文脈などか
ら、上位の認識候補のうちのいずれかを選択し、選択し
た認識候補に対する類似度を類似度判定結果として出力
し、それをパラメータ選択部１７に与える。

【００５４】すなわち、この場合、入力テキストは「・
・・社は新製品Ａ−８００Ｆを開発した」であるので、
類似度判定部２２はそのテキストの「８００Ｆ」の部分
に対する認識候補として、前後の文脈などから、図５
（ａ）に示す上位の認識候補のうち、第２位の認識候補
である「８００階」を選択し、その類似度「３０」をパ
ラメータ選択部１７に与える。

【００５５】パラメータ選択部１７はその類似度が予め
定めた値に達しているかどうかを判定し、この場合、そ
の類似度は「３０」と低い値であるので、予め定めた大
きさに達していないと判定する。これによって、パラメ
ータ選択部１７は、「８００Ｆ」の部分に対する読みの
パラメータの第２候補を選択し、ここでは、第２候補と
して「はっぴゃくえふ」と言う合成音声を生成するため
のパラメータを選択したとする。

【００５６】これによって、音声合成装置１から出力さ
れる合成音声は「はっぴゃくえふ」となり、それに対応
する音声信号が音声認識装置２に与えられ、音声認識処
理部２１で音声認識される。そして、その認識結果とし
て図５（ｂ）に示すような上位幾つかの認識候補とその
類似度が出力され、その出力が類似度判定部２２に与え
られる。

【００５７】この図５（ｂ）の例では、第１位の認識候
補として「８００Ｆ」とその類似度「８０」、第２位の
認識候補として「１００Ｆ」とその類似度「２２」とい
うように、第１位から順に認識候補とその類似度が出力
され、類似度判定部２２に与えられる。

【００５８】類似度判定部２２では、音声合成装置１に
入力された入力テキストに基づき前後の文脈などから、
上位の認識候補のうちのいずれかを選択し、選択した認
識候補に対する類似度を類似度判定結果としてパラメー
タ選択部１７に与える。

【００５９】すなわち、この場合、入力テキストは「・
・・社は新製品Ａ−８００Ｆを開発した」であるので、
類似度判定部２２はそのテキストの「８００Ｆ」の部分
に対する認識結果として、前後の文脈などから、図５
（ｂ）に示す上位の認識候補のうち、第１位の認識候補
である「８００Ｆ」を選択し、その類似度「８０」をパ
ラメータ選択部１７に与える。

【００６０】パラメータ選択部１７はその類似度が予め
定めた値に達しているかどうかを判定し、この場合、類
似度は「８０」という高い値であり、予め定めた大きさ
に達しているとの判定がなされる。

【００６１】これによって、パラメータ選択部１７で
は、そのときのパラメータ（第２の候補）を正解として
そのパラメータを学習パラメータとしてパラメータ記憶
部１６に記憶させる。

【００６２】また、他の例として、たとえば、「・・・
川にかかる長い橋を・・・」というような入力テキスト
が音声合成装置１に与えられたとすると、音声合成装置
１では「橋」の部分に対するアクセントの位置を確定す
ることができず、「橋」の部分に対するアクセントを表
現するパラメータとして、複数の候補が出力される場合
について考える。

【００６３】まず、その第１候補として、「は」にアク
セントの存在するようなパラメータが与えられると、音
声合成結果としての音声信号は「は」にアクセントの存
在する「はし」に対応する音声信号が出力されることに
なる。

【００６４】この「は」にアクセントの存在する「は
し」に対応する音声信号を音声認識処理部２１によっ
て、前後の文脈などを考慮するとともに音声認識辞書な
どを用いて音声認識処理すると、その認識結果として、
上述した「はっぴゃくえふ」の例と同様に、上位幾つか
の認識候補とその類似度が出力される。この上位幾つか
の認識候補とその類似度は類似度判定部２２に与えら
れ、入力テキストに基づき上位認識候補のうちのいずれ
かが選択され、選択された認識候補に対する類似度が類
似度判定結果として出力される。

【００６５】ここでは、類似度判定部２２によって、入
力テキストに基づき、認識候補として上位幾つかの認識
候補の中から、「橋」が選択される。これによって、そ
の「橋」に対応する類似度（その類似度は「４０」であ
るとする）が類似度判定結果としてパラメータ選択部１
７に与えられる。

【００６６】パラメータ選択部１７では類似度判定部２
２から与えられた類似度判定結果としての類似度「４
０」が予め定めた値に達していないと判断し、他のパラ
メータを第２の候補として選択する。

【００６７】ここで、第２の候補として、「はし」の
「し」にアクセントの存在するようなパラメータが選択
されたとすると、この第２候補のパラメータによって音
声合成処理され、それによって生成された音声信号が音
声認識装置２に与えられる。

【００６８】つまり、この場合、音声合成結果としての
音声信号は「し」にアクセントのある「はし」に対応す
る音声信号となる。

【００６９】これを音声認識処理部２１で同様に音声認
識し、その認識結果として上位幾つかの認識候補とその
類似度が出力され、その出力は類似度判定部２２に与え
られる。類似度判定部２２は、入力テキストに基づき、
上位認識候補のうちのいずれかを選択し、選択した認識
候補に対する類似度を類似度判定結果として出力する。

【００７０】ここでは、類似度判定部２２によって、入
力テキストに基づき、認識候補として上位幾つかの認識
候補の中から、たとえば、「橋」が選択される。これに
よって、その「橋」に対応する類似度（その類似度は
「９０」であるとする）が類似度判定結果としてパラメ
ータ選択部１７に与えられる。

【００７１】パラメータ選択部１７では類似度判定部２
２から与えられた類似度判定結果としての類似度「９
０」が予め定めた値よりも高いと判断し、その第２候補
のパラメータを学習パラメータとしてパラメータ記憶部
１６に記憶させる。

【００７２】このように、第２の実施の形態では、音声
合成装置１で読みやアクセントの位置などを確定できな
いテキストが入力された場合、その確定できない部分に
対するパラメータを幾つかの候補として選択し、それぞ
れの候補ごとに音声合成を行い、その音声合成結果であ
る音声信号を音声認識処理して、その認識結果として上
位幾つかの認識候補とその類似度を出力し、その複数の
認識候補とそれに対応する類似度の中から類似度判定部
２２が入力テキストに基づいて、いずれかの認識候補に
対応する類似度を選択し、その類似度の大きさから最適
なパラメータを選択するようにしている。

【００７３】このように、音声合成装置１では、とりあ
えず、候補として選択されたパラメータで音声合成し、
その音声合成結果を音声認識装置２に与え、音声認識装
置２側から送られてくる類似度からそのパラメータが適
正であるか否かを判断するようにし、予め定めた値の類
似度が得られるまで、その処理を繰り返し行い、予め定
めた値の類似度が得られればそのパラメータを正解とし
て確定するようにしている。

【００７４】これによって、音声合成装置１にとって未
知語であっても、音声認識ができれば入力テキストに対
する適正な合成音声を生成することができるようにな
る。

【００７５】なお、本発明は以上説明した実施の形態に
限定されるものではなく、本発明の要旨を逸脱しない範
囲で種々変形実施可能となるものである。たとえば、前
述した第２の実施の形態においては、音声認識結果とし
て上位幾つかの認識候補とその類似度を出力し、その複
数の認識候補とそれに対応する類似度の中から類似度判
定部２２が入力テキストに基づいて、いずれかの認識候
補に対応する類似度を選択するようにしているが、入力
テキストを音声認識処理部２１に与えるようにすれば、
音声認識処理部２１では音声認識結果としての正解を知
ることができるので、入力音声信号に対し幾つもの認識
候補を得てその類似度を計算したり、類似度の上位から
並べるといった処理を省略することができる。これによ
って、音声認識に要する処理の簡略化が図れ高速な認識
処理が可能となり、全体的な処理の高速化も図れる。そ
の場合、類似度判定部２２も特に必要はなくなり、音声
認識結果としての類似度を直接パラメータ選択部１７に
与えることができる。

【００７６】また、本発明は音声合成学習方法および装
置の発明であるが、前述した処理によって、様々なテキ
ストに対するパラメータ学習が終了し、学習パラメータ
がパラメータ記憶部１６に蓄えられた状態となれば、入
力テキストが学習するために用いたテキストなど限られ
たテキストであれば、音声合成装置１のみによって、パ
ラメータ記憶部１６に蓄えられた学習パラメータを用い
た音声合成処理を行うことができる。しかも、それによ
って生成された合成音声は入力テキストに対して最適な
合成音声となる。

【００７７】また、本発明は、以上説明した本発明を実
現するための処理手順が記述された処理プログラムを作
成し、その処理プログラムをフロッピィディスク、光デ
ィスク、ハードディスクなどの記録媒体に記録させてお
くことができ、本発明はその処理プログラムが記録され
た記録媒体をも含むものである。また、ネットワークか
ら当該処理プログラムを得るようにしてもよい。

【００７８】

【発明の効果】以上説明したように本発明によれば、テ
キストを音声合成に必要なパラメータを用いて音声合成
処理して音声信号として出力し、その音声信号を音声認
識し、その音声認識結果としてのテキストと入力された
テキストを比較し、その比較結果に基づいてパラメータ
の設定を行うようにしているので、音声合成結果の適正
さを自動的にかつ客観的に評価することができる。この
とき、音声認識結果としてのテキストと前記音声合成手
段に入力されたテキストとが一致するまで当該パラメー
タを変化させるので、その入力テキストに対し最適なパ
ラメータを学習パラメータとして設定することができ
る。

【００７９】また、本発明は、パラメータとして複数の
候補が存在した場合、その複数の候補のうちのある１つ
のパラメータを選択し、その選択されたパラメータを用
いて音声合成を行う場合にも適用することができ、この
発明も上述同様、音声合成結果の適正さを自動的にかつ
客観的に評価することができる。この場合、複数の候補
のうちの最適なパラメータを選択する処理を行うので、
特に、読みやアクセントを確定しにくい単語などを音声
合成する場合に大きな効果を発揮する。

【図面の簡単な説明】

【図１】本発明における音声合成学習方法および装置の
第１の実施の形態を説明する基本的な構成図である。

【図２】図１の構成を詳細に説明する図である。

【図３】第１の実施の形態を説明するための入力テキス
トと出力テキストの一例を示す図である。

【図４】本発明における音声合成学習方法および装置の
第２の実施の形態を説明する構成図である。

【図５】第２の実施の形態における音声認識処理部２１
から出力された上位の認識候補とその類似度の例を示す
図であり、（ａ）は入力音声信号が「はっぴゃくかい」
である場合の上位幾つかの認識候補とその類似度の例を
示す図、（ｂ）は入力音声信号が「はっぴゃくえふ」で
ある場合の上位幾つかの認識候補とその類似度の例を示
す図である。

【符号の説明】

１音声合成装置２音声認識装置３テキスト比較部１１言語処理部１２言語辞書部１３音韻処理部１４音韻辞書部１５パラメータ生成部１６パラメータ記憶部１７パラメータ選択部２１音声認識処理部２２類似度判定部

フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 3/00 ５３７Ｃ

Claims

【特許請求の範囲】

【請求項１】テキストを音声合成手段に入力してその
テキストを音声合成に必要なパラメータを用いて音声合
成処理して音声信号として出力し、その音声信号を音声
認識し、その音声認識結果としてのテキストと前記音声
合成手段に入力されたテキストを比較し、その比較結果
に基づいて前記パラメータをある値に設定し、それを学
習パラメータとすることを特徴とする音声合成学習方
法。
【請求項２】前記比較結果に基づいて前記パラメータ
をある値に設定し、それを学習パラメータとする処理
は、前記音声認識結果としてのテキストが前記音声合成手段
に入力されたテキストに一致するまで当該パラメータを
変化させ、両者が一致したときのパラメータを学習パラ
メータとする処理であることを特徴とする請求項１記載
の音声合成学習方法。
【請求項３】前記学習パラメータを保存することを特
徴とする請求項１または２記載の音声合成学習方法。
【請求項４】テキストを音声合成手段に入力してその
テキストを音声合成に必要なパラメータを用いて音声合
成処理する際、そのパラメータとして複数の候補が存在
する場合、その複数の候補のうちのあるパラメータを選
択し、その選択されたパラメータを用いて音声合成を行
い、その音声合成結果を音声認識し、その音声認識結果
と前記音声合成手段に入力されたテキストとの類似度を
判定し、その類似度判定結果に基づいて、前記複数の候
補のいずれかのパラメータを選択し、その選択されたパ
ラメータを学習パラメータとすることを特徴とする音声
合成学習方法。
【請求項５】前記類似度判定結果に基づいて前記複数
の候補のいずれかのパラメータを選択し、その選択され
たパラメータを学習パラメータとする処理は、前記類似度が予め定めた値以上となるまで、前記候補と
なったパラメータを順次選択して行き、類似度が予め定
めた値以上となったパラメータを学習パラメータとする
処理であることを特徴とする請求項４記載の音声合成学
習方法。
【請求項６】前記学習パラメータを保存することを特
徴とする請求項４または５記載の音声合成学習方法。
【請求項７】テキストを入力してそのテキストを音声
合成を行うに必要なパラメータを用いて音声合成処理し
て音声信号として出力する音声合成手段と、この音声合成手段から出力される音声信号を音声認識し
てその音声認識結果をテキストとして出力する音声認識
手段と、この音声認識手段による認識結果としてのテキストと前
記音声合成手段に入力されたテキストを比較するテキス
ト比較手段と、を有し、前記音声合成手段は前記テキスト比較手段から
出力される前記認識結果としてのテキストと前記音声合
成手段に入力されたテキストとの比較結果に基づいて前
記パラメータをある値に設定し、それを学習パラメータ
とすることを特徴とする音声合成学習装置。
【請求項８】前記比較結果に基づいて前記パラメータ
をある値に設定し、それを学習パラメータとする処理
は、前記テキスト比較手段から出力される前記認識結果とし
てのテキストが前記音声合成手段に入力されたテキスト
に一致するまで前記パラメータを変化させ、両者が一致
したときのパラメータを学習パラメータとする処理であ
ることを特徴とする請求項７記載の音声合成学習装置。
【請求項９】前記音声合成手段はパラメータ記憶手段
を有し、前記学習パラメータをこのパラメータ記憶手段
に保存することを特徴とする請求項７または８記載の音
声合成学習装置。
【請求項１０】テキストを音声合成手段に入力してそ
のテキストを音声合成に必要なパラメータを用いて音声
合成処理する際、そのパラメータとして複数の候補が存
在した場合、その複数の候補のうちのあるパラメータを
選択し、その選択されたパラメータを用いて音声合成処
理して音声信号として出力する音声合成手段と、この音声合成手段から出力される音声信号を音声認識
し、その認識結果と前記音声合成手段に入力されたテキ
ストとの類似度を判定してその類似度判定結果を出力可
能な音声認識手段とを有し、前記音声合成手段は前記音声認識手段からの類似度判定
結果に基づいて、前記複数の候補のいずれかのパラメー
タを選択し、その選択されたパラメータを学習パラメー
タとすることを特徴とする音声合成学習装置。
【請求項１１】前記類似度判定結果に基づいて前記複
数の候補のいずれかのパラメータを選択し、その選択さ
れたパラメータを学習パラメータとする処理は、前記類似度が予め定めた値以上となるまで、前記候補と
なったパラメータを順次選択して行き、類似度が予め定
めた値以上となったパラメータを学習パラメータとする
処理であることを特徴とする請求項１０記載の音声合成
学習装置。
【請求項１２】前記音声合成手段は、パラメータ記憶
手段を有し、前記学習パラメータをこのパラメータ記憶
手段に保存することを特徴とする請求項１０または１１
記載の音声合成学習装置。