JP2003108170A - 音声合成学習方法および音声合成学習装置 - Google Patents

音声合成学習方法および音声合成学習装置

Info

Publication number
JP2003108170A
JP2003108170A JP2001294721A JP2001294721A JP2003108170A JP 2003108170 A JP2003108170 A JP 2003108170A JP 2001294721 A JP2001294721 A JP 2001294721A JP 2001294721 A JP2001294721 A JP 2001294721A JP 2003108170 A JP2003108170 A JP 2003108170A
Authority
JP
Japan
Prior art keywords
parameter
voice
text
learning
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001294721A
Other languages
English (en)
Inventor
Yoshiteru Uchiyama
喜照 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2001294721A priority Critical patent/JP2003108170A/ja
Publication of JP2003108170A publication Critical patent/JP2003108170A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】高品質な音声合成結果を得るために音声合成に
用いるパラメータを最適化する。 【解決手段】テキストを入力してそのテキストを音声合
成処理して音声信号として出力する音声合成装置1と、
この音声合成装置1から出力される音声信号を音声認識
してその音声認識結果をテキストとして出力する音声認
識装置2と、音声認識結果としてのテキストと前記音声
合成装置1に入力されたテキストとを比較するテキスト
比較部3を有し、音声認識結果としてのテキストと音声
合成装置1に入力されたテキストとをテキスト比較部3
で比較し、その比較結果を前記音声合成装置1に与え、
音声合成装置1はテキスト比較部3から一致を示す信号
を受け取るまで音声合成を行うためのパラメータを変化
させることで最適なパラメータとする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はテキストから音声信
号を生成する音声合成において、音声合成結果の高品質
化を図るために音声合成処理の学習を行う音声合成学習
方法および音声合成学習装置に関する。
【0002】
【従来の技術】与えられたテキストから音声信号を生成
する音声の規則合成は、音声を取り扱う情報処理技術で
従来から広く利用されている。ここでは、この音声規則
合成のことを単に音声合成と呼ぶことにする。
【0003】最近では、音声合成手法の進歩によって、
より自然な合成音声の生成が可能となりつつあるが、テ
キストの内容やその場の状況を適切に表現し、かつ、人
間の肉声に近い合成音声を生成するには、なお改善の余
地がある。
【0004】
【発明が解決しようとする課題】この音声合成は簡単に
言えば、入力されたテキストを言語辞書と言語パラメー
タを用いて言語処理して読みの情報(発音表記情報)に
変換し、さらに、その読みの情報を音韻辞書と韻律パラ
メータを用いて音韻処理して音声信号を生成するもので
あるが、生成された音声信号がテキストの内容を適正に
反映しない場合も多い。
【0005】たとえば、入力されたテキストのなかに
「800F」などという文字列(この場合、読みとして
は、「はっぴゃくえふ」であるとする)が存在した場
合、そのテキストを上述した手順で音声合成する際、
「800F」の「F」を「階(かい)」と解釈して、
「はっぴゃくかい」といういような音声信号が出力され
る場合もある。また、アクセントを適正に判断できず
に、たとえば、「橋」を「箸」のアクセントの音声信号
として出力してしまうといった問題もある。
【0006】このような問題に対処するには、音声合成
結果を自動的に評価し、その評価結果に基づいて適正な
音声合成結果が得られるような修正を加えるなどといっ
た方法も考えられているが、特に日本語の場合、その言
語処理が複雑であるので、音声合成結果を自動的にかつ
客観的に評価し、適正な音声合成結果を得るような修正
を施すことは難しい。
【0007】そこで本発明は、テキストを音声合成処理
して音声信号を生成する際、最適な音声合成結果が得ら
れるような学習を可能とした音声合成学習方法およびそ
の装置を提供することを目的としている。
【0008】
【課題を解決するための手段】上述の目的を達成するた
めに本発明の音声合成学習方法は、テキストを音声合成
手段に入力してそのテキストを音声合成に必要なパラメ
ータを用いて音声合成処理して音声信号として出力し、
その音声信号を音声認識し、その音声認識結果としての
テキストと前記音声合成手段に入力されたテキストを比
較し、その比較結果に基づいて前記パラメータをある値
に設定し、それを学習パラメータとするようにしてい
る。
【0009】この音声合成学習方法において、前記比較
結果に基づいて前記パラメータをある値に設定し、それ
を学習パラメータとする処理は、前記音声認識結果とし
てのテキストが前記音声合成手段に入力されたテキスト
に一致するまで当該パラメータを変化させ、両者が一致
したときのパラメータを学習パラメータとする処理であ
る。また、前記学習パラメータは保存するようにしてい
る。
【0010】また、本発明の音声合成学習方法は、テキ
ストを音声合成手段に入力してそのテキストを音声合成
に必要なパラメータを用いて音声合成処理する際、その
パラメータとして複数の候補が存在する場合、その複数
の候補のうちのあるパラメータを選択し、その選択され
たパラメータを用いて音声合成を行い、その音声合成結
果を音声認識し、その音声認識結果と前記音声合成手段
に入力されたテキストとの類似度を判定し、その類似度
判定結果に基づいて、前記複数の候補のいずれかのパラ
メータを選択し、その選択されたパラメータを学習パラ
メータとしている。
【0011】この音声合成学習方法において、前記類似
度判定結果に基づいて前記複数の候補のいずれかのパラ
メータを選択し、その選択されたパラメータを学習パラ
メータとする処理は、前記類似度が予め定めた値以上と
なるまで、前記候補となったパラメータを順次選択して
行き、類似度が予め定めた値以上となったパラメータを
学習パラメータとする処理である。また、この場合も前
記学習パラメータは保存するようにしている。
【0012】また、本発明の音声合成学習装置は、テキ
ストを入力してそのテキストを音声合成を行うに必要な
パラメータを用いて音声合成処理して音声信号として出
力する音声合成手段と、この音声合成手段から出力され
る音声信号を音声認識してその音声認識結果をテキスト
として出力する音声認識手段と、この音声認識手段によ
る認識結果としてのテキストと前記音声合成手段に入力
されたテキストを比較するテキスト比較手段とを有し、
前記音声合成手段は前記テキスト比較手段から出力され
る前記認識結果としてのテキストと前記音声合成手段に
入力されたテキストとの比較結果に基づいて前記パラメ
ータをある値に設定し、それを学習パラメータとしてい
る。
【0013】この音声合成学習装置は、前記比較結果に
基づいて前記パラメータをある値に設定し、それを学習
パラメータとする処理は、前記テキスト比較手段から出
力される前記認識結果としてのテキストが前記音声合成
手段に入力されたテキストに一致するまで前記パラメー
タを変化させ、両者が一致したときのパラメータを学習
パラメータとする処理である。
【0014】また、前記音声合成手段はパラメータ記憶
手段を有し、前記学習パラメータをこのパラメータ記憶
手段に保存するようにしている。
【0015】本発明の音声合成学習装置は、テキストを
音声合成手段に入力してそのテキストを音声合成に必要
なパラメータを用いて音声合成処理する際、そのパラメ
ータとして複数の候補が存在した場合、その複数の候補
のうちのあるパラメータを選択し、その選択されたパラ
メータを用いて音声合成処理して音声信号として出力す
る音声合成手段と、この音声合成手段から出力される音
声信号を音声認識し、その認識結果と前記音声合成手段
に入力されたテキストとの類似度を判定してその類似度
判定結果を出力可能な音声認識手段とを有し、前記音声
合成手段は前記音声認識手段からの類似度判定結果に基
づいて、前記複数の候補のいずれかのパラメータを選択
し、その選択されたパラメータを学習パラメータとして
いる。
【0016】この音声合成学習装置において、前記類似
度判定結果に基づいて前記複数の候補のいずれかのパラ
メータを選択し、その選択されたパラメータを学習パラ
メータとする処理は、前記類似度が予め定めた値以上と
なるまで、前記候補となったパラメータを順次選択して
行き、類似度が予め定めた値以上となったパラメータを
学習パラメータとする処理である。
【0017】また、前記音声合成手段は、パラメータ記
憶手段を有し、前記学習パラメータをこのパラメータ記
憶手段に保存するようにしている。
【0018】このように本発明は、テキストを音声合成
に必要なパラメータを用いて音声合成処理して音声信号
として出力し、その音声信号を音声認識し、その音声認
識結果としてのテキストと入力されたテキストを比較
し、その比較結果に基づいてパラメータの設定を行うよ
うにしているので、音声合成結果の適正さを自動的にか
つ客観的に評価することができる。また、このとき、音
声認識結果としてのテキストと前記音声合成手段に入力
されたテキストとが一致するまで当該パラメータを変化
させるので、その入力テキストに対し最適なパラメータ
を学習パラメータとして設定することができる。また、
そのときのパラメータを保存することによって、以降の
音声合成処理の際にはそれを参照するだけで最適な音声
合成を行うことができる。
【0019】また、本発明は、パラメータとして複数の
候補が存在した場合、その複数の候補のうちのある1つ
のパラメータを選択し、その選択されたパラメータを用
いて音声合成を行う場合にも適用することができ、この
発明も上述同様、音声合成結果の適正さを自動的にかつ
客観的に評価することができる。この場合、複数の候補
のうちの最適なパラメータを選択する処理を行うので、
特に、読みやアクセントの確定がしにくい単語などを音
声合成する場合に大きな効果を発揮する。なお、この場
合も、最適なパラメータを保存するようにしているの
で、以降の音声合成処理の際にはそれを参照するだけで
適正な音声合成を行うことができる。
【0020】
【発明の実施の形態】以下、本発明について実施の形態
について説明するが、ここでは以下に示す2つの実施の
形態について説明する。
【0021】〔第1の実施の形態〕図1は本発明におけ
る音声合成学習方法および音声合成学習装置の第1の実
施の形態を説明する基本的な構成を示すもので、音声合
成装置1、音声認識装置2、テキスト比較部3で構成さ
れている。この第1の実施の形態における処理手順をお
おまかに説明すると、音声合成対象となるテキスト(入
力テキストと呼ぶ)を音声合成装置2で音声合成に必要
なパラメータを用いて音声合成処理し、その音声合成結
果である音声信号を出力する手順と、この音声信号を音
声認識装置2で音声認識してその認識結果としてのテキ
スト(出力テキストと呼ぶ)を出力する手順と、この認
識結果である出力テキストと入力テキストとをテキスト
比較部3で比較する手順と、この比較結果を音声合成装
置1にフィードバックし、音声合成装置1で、入力テキ
ストに対する出力テキストの異なる部分について、音声
合成を行うためのパラメータを変化させて再度音声合成
処理する手順とからなる。
【0022】このような手順を、出力テキストが入力テ
キストに一致するまで行い、両者が一致したら、そのと
きのパラメータを学習結果として保存する。以下、さら
に詳細に説明する。
【0023】図2は図1をより詳細に説明するもので、
音声合成装置1は、言語処理部11、言語辞書部12、
音韻処理部13、音韻辞書部14、パラメータ生成部1
5、パラメータ記憶部16などを有している。なお、パ
ラメータ生成部15で生成されるパラメータは、テキス
トを構成する文字列の読みや文の区切りなどを決める言
語パラメータと、アクセント、基本周波数、発話継続時
間長などを決める韻律パラメータなどが含まれ、言語パ
ラメータは言語処理部11に与えられ、韻律パラメータ
は音韻処理部13に与えられる。
【0024】音声認識装置2は、音声認識処理部21を
有し、入力された音声信号をテキストに変換して出力す
るもので、ここで用いられる音声認識処理部21は本発
明独特の音声認識手法が用いられているものではない
が、入力された音声信号に対し理想的な認識を行うこと
ができる高い認識性能を持ったものであるとし、その認
識結果はテキスト(出力テキスト)としてテキスト比較
部3に与えられる。
【0025】このような構成において、音声合成装置1
に入力テキストが与えられると、言語処理部11では、
言語辞書12を参照し、かつ、パラメータ生成部15に
より生成された言語パラメータを用いて言語処理し、読
みの情報(発音表記情報)を出力し、その読みの情報
は、音韻処理部13に与えられる。音韻処理部13では
音韻辞書14を参照し、かつ、パラメータ生成部15に
より生成された韻律パラメータを用いた音韻処理を行っ
て音声信号を出力する。
【0026】この音韻処理部13から出力された音声信
号は、音声認識装置2に与えられ、音声認識処理部21
によって音声認識処理がなされて、認識結果としてのテ
キスト(出力テキスト)が出力され、テキスト比較部3
に与えられる。
【0027】なお、ここでの音声認識処理は、たとえ
ば、前後の文脈などを考慮するとともに音声認識辞書な
どを用いて音声認識処理し、その認識結果として、幾つ
かの認識候補が上位から順に幾つか出力され、その第1
位の認識候補が認識結果としてテキスト比較部3に与え
られ、その第1位の認識候補と入力テキストとの比較が
なされる。
【0028】テキスト比較部3では、音声認識装置2か
ら出力される出力テキストと、音声合成装置1に入力さ
れた入力テキストとを文字列として比較し、異なる部分
があるか否かを判断し、異なる部分があれば、その異な
る部分を示す情報をパラメータ生成部15に通知する。
【0029】パラメータ生成部15では、テキスト比較
部3から異なる部分を示す情報を受け取ると、前回とは
異なったパラメータを生成し、そのパラメータによって
音声合成処理を行い、その音声合成結果としての音声信
号を出力する。
【0030】そして、この前回とは異なったパラメータ
によって生成された音声信号は音声認識装置2に入力さ
れ、再度、音声認識処理がなされ、認識結果としてのテ
キスト(出力テキスト)がテキスト比較部3に与えられ
る。テキスト比較部3では、この出力テキストを入力テ
キストと比較して、異なった部分があればその異なった
部分を示す情報をパラメータ生成部15に与える。
【0031】パラメータ生成部15では、テキスト比較
部3から異なる部分を示す情報を受け取ると、前回とは
異なったパラメータを生成し、そのパラメータによって
音声合成処理を行い、その音声合成結果としての音声信
号を出力する。
【0032】このような処理を繰り返し行い、音声認識
結果としての出力テキストと音声合成装置1に入力され
た入力テキストとの比較の結果、出力テキストが入力テ
キストに一致すると、テキスト比較部3から一致信号が
出力され、その一致信号がパラメータ生成部15に与え
られる。パラメータ生成部15はこの一致信号を受け取
ると、そのときのパラメータをパラメータ記憶部16に
保存する。
【0033】このパラメータ記憶部16に保存されたパ
ラメータは、入力テキストに対し最適な音声合成を可能
とする学習済みのパラメータ(学習パラメータという)
となる。したがって、その入力テキストを音声合成する
際には、パラメータ記憶部16に記憶された当該入力テ
キストに対応する学習パラメータを用いて音声合成処理
することで、その入力テキストに対し最適な音声合成結
果を得ることができる。
【0034】このようにして、ある1つの入力テキスト
に対する学習パラメータがパラメータ記憶部16に保存
されたら、テキストを変えてそれを入力テキストとし、
その新たな入力テキストに対して上述した処理を行い、
その入力テキストに対し、最適な音声合成を可能とする
学習パラメータを得て、その学習パラメータをパラメー
タ記憶部16に記憶させる。
【0035】このような処理を様々なテキストに対して
行うことによって、入力される様々なテキストを音声合
成する上で最適なパラメータが学習パラメータとしてパ
ラメータ記憶部16に蓄積され、それによって、様々な
入力テキストに対して適切な音声合成を行うことができ
る。
【0036】図3は入力テキストと出力テキストの一例
を示すもので、図3(a)に示すような入力テキストが
音声合成装置1に与えられ、音声合成装置1で音声合成
処理を行って、その入力テキストに対する音声合成結果
としての音声信号が出力され、その音声信号を音声認識
装置2で認識処理することによって図3(b)に示すよ
うなテキスト(出力テキスト)が得られたとする。
【0037】この図3(b)に示す出力テキストにおい
て、アンダラインを施した部分が入力テキストと異なる
部分である。この図3の例では、「コンピュータに対し
て発せられた・・・」という入力テキストに対する出力
テキストは「コンピュータに対して8000られた・・
・」となり、「発せられた」の部分が「8000られ
た」となっている。
【0038】つまり、この例は、「発せられた」の部分
が適正に音声合成されずに「はっせんられた」という音
声信号として出力されたために、音声認識装置2ではそ
の部分を「はっせんられた」とそのまま認識し、その認
識結果としてのテキストが「8000られた」となった
ものである。
【0039】したがって、テキスト比較部3では、この
異なった部分を示す情報をパラメータ生成部15に通知
し、それによって、パラメータ生成部15では、その部
分について、前回とは異なったパラメータ(読みに対す
る音素選択、基本周波数、アクセント、発話継続時間長
など)を生成して、そのパラメータを言語処理部11や
韻律処理部13に送る。
【0040】これによって、「コンピュータに対して発
せられた・・・」という入力テキストの「発せられた」
の部分に対し、再度、新たなパラメータを用いて音声合
成処理がなされ、その音声合成結果としての音声信号が
出力される。この音声信号は音声認識装置2に入力さ
れ、認識結果としてのテキスト(出力テキスト)が出さ
れ、再度、テキスト比較部3で入力テキストとの比較が
行われる。
【0041】そして、その比較の結果、両者が一致して
いると判定されたとすれば、その時のパラメータが学習
パラメータとしてパラメータ記憶部16に記憶される。
これによって、「コンピュータに対して発せられた・・
・」という入力テキストに対し、最適な音声合成を可能
とするパラメータがパラメータ記憶部16に保存され
る。
【0042】以上のように、この第1の実施の形態によ
れば、テキスト(入力テキスト)を音声合成装置1で音
声合成処理して、その音声合成結果としての音声信号を
音声認識装置2に与えて音声認識し、その認識結果であ
るテキスト(出力テキスト)を、入力テキストと比較
し、入力テキストに対して出力テキストに異なる部分が
あれば、その部分を前回とは異なったパラメータを用い
て再度音声合成処理し、その音声合成結果である音声信
号を音声認識装置1に与えて音声認識して、その認識結
果であるテキスト(出力テキスト)と入力テキストとを
比較するという処理を、出力テキストが入力テキストに
一致するまで行う。
【0043】そして、出力テキストが入力テキストに一
致したら、そのときのパラメータを学習結果として記録
しておく。このような処理を様々なテキストに対して行
うことによって、パラメータ記憶部16には、様々なテ
キストに対し最適な音声合成結果を得ることができるパ
ラメータが蓄積され、そのパラメータを用いて音声合成
することによって、最適な音声合成結果を得ることがで
きるようになる。
【0044】すなわち、音声合成装置1により音声合成
処理されて得られた音声信号を音声認識装置2で音声認
識し、その認識結果として出力されたテキストが、音声
合成装置1に入力されたテキストと同じものであるとい
うことは、適正な音声合成処理がなされたということが
でき、しかも、音声合成されて得られた合成音声が正し
く音声認識されるということは、その合成音声が人間の
聴覚にとっての明瞭度も高く、高品質な合成音声である
ことを意味している。
【0045】〔第2の実施の形態〕図4は本発明の第2
の実施の形態を説明する構成図であり、この第2の実施
の形態も音声合成装置1と音声認識装置2を有している
点は上述の第1の実施の形態と同様である。
【0046】音声合成装置1は図2と同様、言語処理部
11、言語辞書部12、音韻処理部13、音韻辞書部1
4、パラメータ生成部15、パラメータ記憶部16を有
しており、この第2の実施の形態ではその他にパラメー
タ選択部17を有している。
【0047】また、音声認識装置2は第1の実施の形態
同様の音声認識処理部21を有し、この音声認識処理部
21によって音声認識を行って、認識結果を出力する
が、この第2の実施の形態では、この音声認識処理部2
1での認識結果と入力テキスト(音声合成装置1に入力
されるテキスト)との類似度を判定する類似度判定部2
2を有している。
【0048】この第2の実施の形態は、音声合成装置1
が音声合成処理を行う際、音声合成を行うに必要なパラ
メータの候補が複数存在し、その複数のパラメータから
最適なパラメータを決定する手段として、音声認識装置
2の認識結果を用いるものである。なお、音声合成を行
うに必要なパラメータの候補が複数存在する例として
は、たとえば、入力テキストの読みやアクセントを確定
できない場合などがあり、以下、具体例を参照して説明
する。
【0049】たとえば、「・・・社は新製品A−800
Fを開発した」といった入力テキストが音声合成装置1
に入力された場合を考える。ここで、音声合成装置1
は、音声合成を行うためのパラメータとして複数の候補
を順次選択可能なパラメータ選択部17を有しており、
このパラメータ選択部17でパラメータ生成部15か
ら、たとえば、「800F」の「F」の部分に対する読
みのパラメータの第1候補として「階(かい)」と言う
読みに対するパラメータを選択したとする。
【0050】これによって、音声合成装置1から出力さ
れる合成音声は「はっぴゃくかい」となり、それに対応
する音声信号が音声認識装置2に与えられる。音声認識
装置2では、音声認識処理部21により、その音声信号
に対し、前後の文脈などを考慮するとともに音声認識辞
書などを用いて音声認識処理し、その認識結果として、
上位から順に幾つかの認識候補とその類似度が出力され
る。
【0051】図5(a)は「はっぴゃくかい」という音
声信号に対して得られた上位幾つかの認識候補とその類
似度の例を示すもので、この例では、第1位の認識候補
として「800回」とその類似度「43」、第2位の認
識候補として「800階」とその類似度「30」、第3
位の認識候補として「100回」とその類似度「22」
というように、第1位から順に認識候補とその類似度が
出力される。
【0052】なお、ここでの類似度というのは、入力さ
れた音声信号に対して得られた認識候補がどの程度の確
からしさを有しているかを示す数値で、ここでは、「1
00」を最大としている。たとえば、「はっぴゃくか
い」という音声信号に対し、「800回」という認識候
補は「43」という確からしさを有しているということ
である。
【0053】ところで、図5(a)で示したような音声
認識処理部21での認識結果(上位幾つかの認識候補と
その類似度)は、類似度判定部22に与えられ、この類
似度判定部22には、音声合成装置1に入力された入力
テキストが与えられている。したがって、類似度判定部
22は、その入力テキストに基づき前後の文脈などか
ら、上位の認識候補のうちのいずれかを選択し、選択し
た認識候補に対する類似度を類似度判定結果として出力
し、それをパラメータ選択部17に与える。
【0054】すなわち、この場合、入力テキストは「・
・・社は新製品A−800Fを開発した」であるので、
類似度判定部22はそのテキストの「800F」の部分
に対する認識候補として、前後の文脈などから、図5
(a)に示す上位の認識候補のうち、第2位の認識候補
である「800階」を選択し、その類似度「30」をパ
ラメータ選択部17に与える。
【0055】パラメータ選択部17はその類似度が予め
定めた値に達しているかどうかを判定し、この場合、そ
の類似度は「30」と低い値であるので、予め定めた大
きさに達していないと判定する。これによって、パラメ
ータ選択部17は、「800F」の部分に対する読みの
パラメータの第2候補を選択し、ここでは、第2候補と
して「はっぴゃくえふ」と言う合成音声を生成するため
のパラメータを選択したとする。
【0056】これによって、音声合成装置1から出力さ
れる合成音声は「はっぴゃくえふ」となり、それに対応
する音声信号が音声認識装置2に与えられ、音声認識処
理部21で音声認識される。そして、その認識結果とし
て図5(b)に示すような上位幾つかの認識候補とその
類似度が出力され、その出力が類似度判定部22に与え
られる。
【0057】この図5(b)の例では、第1位の認識候
補として「800F」とその類似度「80」、第2位の
認識候補として「100F」とその類似度「22」とい
うように、第1位から順に認識候補とその類似度が出力
され、類似度判定部22に与えられる。
【0058】類似度判定部22では、音声合成装置1に
入力された入力テキストに基づき前後の文脈などから、
上位の認識候補のうちのいずれかを選択し、選択した認
識候補に対する類似度を類似度判定結果としてパラメー
タ選択部17に与える。
【0059】すなわち、この場合、入力テキストは「・
・・社は新製品A−800Fを開発した」であるので、
類似度判定部22はそのテキストの「800F」の部分
に対する認識結果として、前後の文脈などから、図5
(b)に示す上位の認識候補のうち、第1位の認識候補
である「800F」を選択し、その類似度「80」をパ
ラメータ選択部17に与える。
【0060】パラメータ選択部17はその類似度が予め
定めた値に達しているかどうかを判定し、この場合、類
似度は「80」という高い値であり、予め定めた大きさ
に達しているとの判定がなされる。
【0061】これによって、パラメータ選択部17で
は、そのときのパラメータ(第2の候補)を正解として
そのパラメータを学習パラメータとしてパラメータ記憶
部16に記憶させる。
【0062】また、他の例として、たとえば、「・・・
川にかかる長い橋を・・・」というような入力テキスト
が音声合成装置1に与えられたとすると、音声合成装置
1では「橋」の部分に対するアクセントの位置を確定す
ることができず、「橋」の部分に対するアクセントを表
現するパラメータとして、複数の候補が出力される場合
について考える。
【0063】まず、その第1候補として、「は」にアク
セントの存在するようなパラメータが与えられると、音
声合成結果としての音声信号は「は」にアクセントの存
在する「はし」に対応する音声信号が出力されることに
なる。
【0064】この「は」にアクセントの存在する「は
し」に対応する音声信号を音声認識処理部21によっ
て、前後の文脈などを考慮するとともに音声認識辞書な
どを用いて音声認識処理すると、その認識結果として、
上述した「はっぴゃくえふ」の例と同様に、上位幾つか
の認識候補とその類似度が出力される。この上位幾つか
の認識候補とその類似度は類似度判定部22に与えら
れ、入力テキストに基づき上位認識候補のうちのいずれ
かが選択され、選択された認識候補に対する類似度が類
似度判定結果として出力される。
【0065】ここでは、類似度判定部22によって、入
力テキストに基づき、認識候補として上位幾つかの認識
候補の中から、「橋」が選択される。これによって、そ
の「橋」に対応する類似度(その類似度は「40」であ
るとする)が類似度判定結果としてパラメータ選択部1
7に与えられる。
【0066】パラメータ選択部17では類似度判定部2
2から与えられた類似度判定結果としての類似度「4
0」が予め定めた値に達していないと判断し、他のパラ
メータを第2の候補として選択する。
【0067】ここで、第2の候補として、「はし」の
「し」にアクセントの存在するようなパラメータが選択
されたとすると、この第2候補のパラメータによって音
声合成処理され、それによって生成された音声信号が音
声認識装置2に与えられる。
【0068】つまり、この場合、音声合成結果としての
音声信号は「し」にアクセントのある「はし」に対応す
る音声信号となる。
【0069】これを音声認識処理部21で同様に音声認
識し、その認識結果として上位幾つかの認識候補とその
類似度が出力され、その出力は類似度判定部22に与え
られる。類似度判定部22は、入力テキストに基づき、
上位認識候補のうちのいずれかを選択し、選択した認識
候補に対する類似度を類似度判定結果として出力する。
【0070】ここでは、類似度判定部22によって、入
力テキストに基づき、認識候補として上位幾つかの認識
候補の中から、たとえば、「橋」が選択される。これに
よって、その「橋」に対応する類似度(その類似度は
「90」であるとする)が類似度判定結果としてパラメ
ータ選択部17に与えられる。
【0071】パラメータ選択部17では類似度判定部2
2から与えられた類似度判定結果としての類似度「9
0」が予め定めた値よりも高いと判断し、その第2候補
のパラメータを学習パラメータとしてパラメータ記憶部
16に記憶させる。
【0072】このように、第2の実施の形態では、音声
合成装置1で読みやアクセントの位置などを確定できな
いテキストが入力された場合、その確定できない部分に
対するパラメータを幾つかの候補として選択し、それぞ
れの候補ごとに音声合成を行い、その音声合成結果であ
る音声信号を音声認識処理して、その認識結果として上
位幾つかの認識候補とその類似度を出力し、その複数の
認識候補とそれに対応する類似度の中から類似度判定部
22が入力テキストに基づいて、いずれかの認識候補に
対応する類似度を選択し、その類似度の大きさから最適
なパラメータを選択するようにしている。
【0073】このように、音声合成装置1では、とりあ
えず、候補として選択されたパラメータで音声合成し、
その音声合成結果を音声認識装置2に与え、音声認識装
置2側から送られてくる類似度からそのパラメータが適
正であるか否かを判断するようにし、予め定めた値の類
似度が得られるまで、その処理を繰り返し行い、予め定
めた値の類似度が得られればそのパラメータを正解とし
て確定するようにしている。
【0074】これによって、音声合成装置1にとって未
知語であっても、音声認識ができれば入力テキストに対
する適正な合成音声を生成することができるようにな
る。
【0075】なお、本発明は以上説明した実施の形態に
限定されるものではなく、本発明の要旨を逸脱しない範
囲で種々変形実施可能となるものである。たとえば、前
述した第2の実施の形態においては、音声認識結果とし
て上位幾つかの認識候補とその類似度を出力し、その複
数の認識候補とそれに対応する類似度の中から類似度判
定部22が入力テキストに基づいて、いずれかの認識候
補に対応する類似度を選択するようにしているが、入力
テキストを音声認識処理部21に与えるようにすれば、
音声認識処理部21では音声認識結果としての正解を知
ることができるので、入力音声信号に対し幾つもの認識
候補を得てその類似度を計算したり、類似度の上位から
並べるといった処理を省略することができる。これによ
って、音声認識に要する処理の簡略化が図れ高速な認識
処理が可能となり、全体的な処理の高速化も図れる。そ
の場合、類似度判定部22も特に必要はなくなり、音声
認識結果としての類似度を直接パラメータ選択部17に
与えることができる。
【0076】また、本発明は音声合成学習方法および装
置の発明であるが、前述した処理によって、様々なテキ
ストに対するパラメータ学習が終了し、学習パラメータ
がパラメータ記憶部16に蓄えられた状態となれば、入
力テキストが学習するために用いたテキストなど限られ
たテキストであれば、音声合成装置1のみによって、パ
ラメータ記憶部16に蓄えられた学習パラメータを用い
た音声合成処理を行うことができる。しかも、それによ
って生成された合成音声は入力テキストに対して最適な
合成音声となる。
【0077】また、本発明は、以上説明した本発明を実
現するための処理手順が記述された処理プログラムを作
成し、その処理プログラムをフロッピィディスク、光デ
ィスク、ハードディスクなどの記録媒体に記録させてお
くことができ、本発明はその処理プログラムが記録され
た記録媒体をも含むものである。また、ネットワークか
ら当該処理プログラムを得るようにしてもよい。
【0078】
【発明の効果】以上説明したように本発明によれば、テ
キストを音声合成に必要なパラメータを用いて音声合成
処理して音声信号として出力し、その音声信号を音声認
識し、その音声認識結果としてのテキストと入力された
テキストを比較し、その比較結果に基づいてパラメータ
の設定を行うようにしているので、音声合成結果の適正
さを自動的にかつ客観的に評価することができる。この
とき、音声認識結果としてのテキストと前記音声合成手
段に入力されたテキストとが一致するまで当該パラメー
タを変化させるので、その入力テキストに対し最適なパ
ラメータを学習パラメータとして設定することができ
る。
【0079】また、本発明は、パラメータとして複数の
候補が存在した場合、その複数の候補のうちのある1つ
のパラメータを選択し、その選択されたパラメータを用
いて音声合成を行う場合にも適用することができ、この
発明も上述同様、音声合成結果の適正さを自動的にかつ
客観的に評価することができる。この場合、複数の候補
のうちの最適なパラメータを選択する処理を行うので、
特に、読みやアクセントを確定しにくい単語などを音声
合成する場合に大きな効果を発揮する。
【図面の簡単な説明】
【図1】本発明における音声合成学習方法および装置の
第1の実施の形態を説明する基本的な構成図である。
【図2】図1の構成を詳細に説明する図である。
【図3】第1の実施の形態を説明するための入力テキス
トと出力テキストの一例を示す図である。
【図4】本発明における音声合成学習方法および装置の
第2の実施の形態を説明する構成図である。
【図5】第2の実施の形態における音声認識処理部21
から出力された上位の認識候補とその類似度の例を示す
図であり、(a)は入力音声信号が「はっぴゃくかい」
である場合の上位幾つかの認識候補とその類似度の例を
示す図、(b)は入力音声信号が「はっぴゃくえふ」で
ある場合の上位幾つかの認識候補とその類似度の例を示
す図である。
【符号の説明】
1 音声合成装置 2 音声認識装置 3 テキスト比較部 11 言語処理部 12 言語辞書部 13 音韻処理部 14 音韻辞書部 15 パラメータ生成部 16 パラメータ記憶部 17 パラメータ選択部 21 音声認識処理部 22 類似度判定部
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/00 537C

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 テキストを音声合成手段に入力してその
    テキストを音声合成に必要なパラメータを用いて音声合
    成処理して音声信号として出力し、その音声信号を音声
    認識し、その音声認識結果としてのテキストと前記音声
    合成手段に入力されたテキストを比較し、その比較結果
    に基づいて前記パラメータをある値に設定し、それを学
    習パラメータとすることを特徴とする音声合成学習方
    法。
  2. 【請求項2】 前記比較結果に基づいて前記パラメータ
    をある値に設定し、それを学習パラメータとする処理
    は、 前記音声認識結果としてのテキストが前記音声合成手段
    に入力されたテキストに一致するまで当該パラメータを
    変化させ、両者が一致したときのパラメータを学習パラ
    メータとする処理であることを特徴とする請求項1記載
    の音声合成学習方法。
  3. 【請求項3】 前記学習パラメータを保存することを特
    徴とする請求項1または2記載の音声合成学習方法。
  4. 【請求項4】 テキストを音声合成手段に入力してその
    テキストを音声合成に必要なパラメータを用いて音声合
    成処理する際、そのパラメータとして複数の候補が存在
    する場合、その複数の候補のうちのあるパラメータを選
    択し、その選択されたパラメータを用いて音声合成を行
    い、その音声合成結果を音声認識し、その音声認識結果
    と前記音声合成手段に入力されたテキストとの類似度を
    判定し、その類似度判定結果に基づいて、前記複数の候
    補のいずれかのパラメータを選択し、その選択されたパ
    ラメータを学習パラメータとすることを特徴とする音声
    合成学習方法。
  5. 【請求項5】 前記類似度判定結果に基づいて前記複数
    の候補のいずれかのパラメータを選択し、その選択され
    たパラメータを学習パラメータとする処理は、 前記類似度が予め定めた値以上となるまで、前記候補と
    なったパラメータを順次選択して行き、類似度が予め定
    めた値以上となったパラメータを学習パラメータとする
    処理であることを特徴とする請求項4記載の音声合成学
    習方法。
  6. 【請求項6】 前記学習パラメータを保存することを特
    徴とする請求項4または5記載の音声合成学習方法。
  7. 【請求項7】 テキストを入力してそのテキストを音声
    合成を行うに必要なパラメータを用いて音声合成処理し
    て音声信号として出力する音声合成手段と、 この音声合成手段から出力される音声信号を音声認識し
    てその音声認識結果をテキストとして出力する音声認識
    手段と、 この音声認識手段による認識結果としてのテキストと前
    記音声合成手段に入力されたテキストを比較するテキス
    ト比較手段と、 を有し、前記音声合成手段は前記テキスト比較手段から
    出力される前記認識結果としてのテキストと前記音声合
    成手段に入力されたテキストとの比較結果に基づいて前
    記パラメータをある値に設定し、それを学習パラメータ
    とすることを特徴とする音声合成学習装置。
  8. 【請求項8】 前記比較結果に基づいて前記パラメータ
    をある値に設定し、それを学習パラメータとする処理
    は、 前記テキスト比較手段から出力される前記認識結果とし
    てのテキストが前記音声合成手段に入力されたテキスト
    に一致するまで前記パラメータを変化させ、両者が一致
    したときのパラメータを学習パラメータとする処理であ
    ることを特徴とする請求項7記載の音声合成学習装置。
  9. 【請求項9】 前記音声合成手段はパラメータ記憶手段
    を有し、前記学習パラメータをこのパラメータ記憶手段
    に保存することを特徴とする請求項7または8記載の音
    声合成学習装置。
  10. 【請求項10】 テキストを音声合成手段に入力してそ
    のテキストを音声合成に必要なパラメータを用いて音声
    合成処理する際、そのパラメータとして複数の候補が存
    在した場合、その複数の候補のうちのあるパラメータを
    選択し、その選択されたパラメータを用いて音声合成処
    理して音声信号として出力する音声合成手段と、 この音声合成手段から出力される音声信号を音声認識
    し、その認識結果と前記音声合成手段に入力されたテキ
    ストとの類似度を判定してその類似度判定結果を出力可
    能な音声認識手段とを有し、 前記音声合成手段は前記音声認識手段からの類似度判定
    結果に基づいて、前記複数の候補のいずれかのパラメー
    タを選択し、その選択されたパラメータを学習パラメー
    タとすることを特徴とする音声合成学習装置。
  11. 【請求項11】 前記類似度判定結果に基づいて前記複
    数の候補のいずれかのパラメータを選択し、その選択さ
    れたパラメータを学習パラメータとする処理は、 前記類似度が予め定めた値以上となるまで、前記候補と
    なったパラメータを順次選択して行き、類似度が予め定
    めた値以上となったパラメータを学習パラメータとする
    処理であることを特徴とする請求項10記載の音声合成
    学習装置。
  12. 【請求項12】 前記音声合成手段は、パラメータ記憶
    手段を有し、前記学習パラメータをこのパラメータ記憶
    手段に保存することを特徴とする請求項10または11
    記載の音声合成学習装置。
JP2001294721A 2001-09-26 2001-09-26 音声合成学習方法および音声合成学習装置 Withdrawn JP2003108170A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001294721A JP2003108170A (ja) 2001-09-26 2001-09-26 音声合成学習方法および音声合成学習装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001294721A JP2003108170A (ja) 2001-09-26 2001-09-26 音声合成学習方法および音声合成学習装置

Publications (1)

Publication Number Publication Date
JP2003108170A true JP2003108170A (ja) 2003-04-11

Family

ID=19116279

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001294721A Withdrawn JP2003108170A (ja) 2001-09-26 2001-09-26 音声合成学習方法および音声合成学習装置

Country Status (1)

Country Link
JP (1) JP2003108170A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013218095A (ja) * 2012-04-09 2013-10-24 Clarion Co Ltd 音声認識サーバ統合装置および音声認識サーバ統合方法
WO2020175810A1 (en) 2019-02-28 2020-09-03 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling thereof
CN114898733A (zh) * 2022-05-06 2022-08-12 深圳妙月科技有限公司 Ai语音数据的分析处理方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013218095A (ja) * 2012-04-09 2013-10-24 Clarion Co Ltd 音声認識サーバ統合装置および音声認識サーバ統合方法
WO2020175810A1 (en) 2019-02-28 2020-09-03 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling thereof
CN113498536A (zh) * 2019-02-28 2021-10-12 三星电子株式会社 电子装置及其控制方法
EP3857542A4 (en) * 2019-02-28 2021-11-24 Samsung Electronics Co., Ltd. ELECTRONIC DEVICE AND METHOD OF CONTROLLING THEREOF
US11587547B2 (en) 2019-02-28 2023-02-21 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling thereof
CN114898733A (zh) * 2022-05-06 2022-08-12 深圳妙月科技有限公司 Ai语音数据的分析处理方法及系统

Similar Documents

Publication Publication Date Title
US8566099B2 (en) Tabulating triphone sequences by 5-phoneme contexts for speech synthesis
US10140973B1 (en) Text-to-speech processing using previously speech processed data
US7013278B1 (en) Synthesis-based pre-selection of suitable units for concatenative speech
JP3913770B2 (ja) 音声合成装置および方法
US7603278B2 (en) Segment set creating method and apparatus
US7502739B2 (en) Intonation generation method, speech synthesis apparatus using the method and voice server
US20060041429A1 (en) Text-to-speech system and method
US11763797B2 (en) Text-to-speech (TTS) processing
JPH10116089A (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
Qian et al. A cross-language state sharing and mapping approach to bilingual (Mandarin–English) TTS
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
US10699695B1 (en) Text-to-speech (TTS) processing
JP5320363B2 (ja) 音声編集方法、装置及び音声合成方法
JPH0713594A (ja) 音声合成において音声の質を評価するための方法
Bettayeb et al. Speech synthesis system for the holy quran recitation.
Stöber et al. Speech synthesis using multilevel selection and concatenation of units from large speech corpora
JP3346671B2 (ja) 音声素片選択方法および音声合成装置
Abdelmalek et al. High quality Arabic text-to-speech synthesis using unit selection
JPH08335096A (ja) テキスト音声合成装置
JP2003108170A (ja) 音声合成学習方法および音声合成学習装置
JP2003108180A (ja) 音声合成方法および音声合成装置
EP1589524B1 (en) Method and device for speech synthesis
Dong et al. A Unit Selection-based Speech Synthesis Approach for Mandarin Chinese.
JP4287664B2 (ja) 音声合成装置
JPH07181995A (ja) 音声合成装置及び音声合成方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070402

A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20081202