JP2009271190A - 音声素片辞書作成装置及び音声合成装置 - Google Patents

音声素片辞書作成装置及び音声合成装置 Download PDF

Info

Publication number
JP2009271190A
JP2009271190A JP2008119758A JP2008119758A JP2009271190A JP 2009271190 A JP2009271190 A JP 2009271190A JP 2008119758 A JP2008119758 A JP 2008119758A JP 2008119758 A JP2008119758 A JP 2008119758A JP 2009271190 A JP2009271190 A JP 2009271190A
Authority
JP
Japan
Prior art keywords
speech
unit
synthesized
dictionary
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008119758A
Other languages
English (en)
Inventor
Satoshi Furuta
訓 古田
Takahiro Otsuka
貴弘 大塚
Tadashi Yamaura
正 山浦
Hirohisa Tazaki
裕久 田崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2008119758A priority Critical patent/JP2009271190A/ja
Publication of JP2009271190A publication Critical patent/JP2009271190A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】明瞭で自然性が高い合成音の生成を可能にする音声素片を音声素片辞書に登録することができるようにする。
【解決手段】入力テキスト及び韻律情報に基づき、音声素片辞書3に格納されている音声素片の中から対応する複数の音声素片を取り出し、複数の音声素片を組み合わせて複数の合成音を生成する合成音生成部6aと、合成音生成部6aにより生成された複数の合成音と入力テキストに基づく音声信号との間の誤差を評価し、当該評価結果に基づき代表音声素片を探索する音声素片探索部6bと、音声素片探索部6bにより探索された代表音声素片を音声素片辞書3に登録する音声素片登録部6cを備えた。
【選択図】図1

Description

この発明は、例えば、TV、ラジオ、ビデオレコーダ、携帯電話、PDA(Personal Digital Assistance)、パーソナルコンピュータ、ゲーム機、携帯オーディオなどの情報機器や、カーナビゲーションシステム、カーオーディオ機器、ETC(Electronic Toll Collection system)などの車載機器に搭載されて、任意の文章から人工的に音声信号を作り出す際に参照する音声素片を作成する音声素片辞書作成装置と、任意の文章から人工的に音声信号を作り出す音声合成装置とに関するものである。
任意の文章から人工的に音声信号を作り出すことを「テキスト音声合成」と呼ばれ、「テキスト音声合成」を実施する音声合成装置は、一般的に、言語処理部(テキスト解析)、音韻処理部(韻律設定)及び音声合成部の3つの処理部によって構成されている。即ち、音声合成装置の言語処理部が入力テキストに対する形態素解析や構文解析などを実施し、音韻処理部がアクセントやイントネーションに関する処理を実施することにより、例えば、音韻記号、ピッチ長、継続時間長などからなる韻律情報を生成する。そして、音声合成部が音声素片辞書に登録されている音声素片の中から、言語処理部により生成された韻律情報に対応する音声素片を選択し、その音声素片から合成音を生成する。
ここで、音声素片は、「CV」、「VC」、「VCV」などの音声合成単位(「V」は母音、「C」は子音を表す記号)、複数の音声合成単位からなる音素列単位、単語単位、あるいは、短文章単位で、音声信号中から切り出される素片であり、切り出された音声波形又は音声波形から何らかの方法で抽出されたパラメータ系列を表すものである。また、韻律情報は、音声素片の環境要因であり、例えば、音声素片の音素名、先行する音素、後続する音素、ピッチ周期、ピッチパターン、継続時間長、CとVの音素境界位置、パワー、モーラ数、アクセント位置などの要素が該当する。
例えば、以下の特許文献1には、波形歪が最小の音声素片を選択して、合成音を生成するようにしている音声合成装置が開示されている。この特許文献1に開示されている音声合成装置は、学習段階では、複数の第1の音声素片のピッチ(または、継続時間長)にしたがって複数の第2の音声素片のピッチ(または、継続時間長)を変更し、ピッチ変更後の第2の音声素片を組み合わせることにより複数の合成音声素片を生成する。その後、複数の合成音声素片と第1の音声素片との間の距離尺度に基づいて、第2の音声素片から複数の代表音声素片を選択して学習用辞書に登録する。一方、合成音の生成段階では、学習用辞書に登録されている代表音声素片の中から所定の代表音声素片を選択し、その代表音声素片から合成音を生成する。
特開平9−319391号公報(第4頁〜8頁、第1図)
従来の音声合成装置は以上のように構成されているので、学習用辞書に登録されている音声素片の単位(例えば、CVなどの素片単位)では、波形歪が最小化されている。しかし、最終的に生成される合成音(例えば、文章全体の合成音声)のレベルで、波形歪が最小化されるような音声素片を選択することができない。このため、音声素片単位の波形歪を最小化することができても、音声素片の個々の品質(音色)のバランスを改善することができず、また、音声素片の接続歪や音素素片接続後の補間処理による補間歪などを最小化することができず、明瞭で自然性が高い合成音を生成することが困難であるなどの課題があった。
この発明は上記のような課題を解決するためになされたもので、明瞭で自然性が高い合成音の生成を可能にする音声素片を音声素片辞書に登録することができる音声素片辞書作成装置を得ることを目的とする。また、明瞭で自然性が高い合成音を生成することができる音声合成装置を得ることを目的とする。
この発明に係る音声素片辞書作成装置は、音声素片を格納する音声素片辞書と、入力テキスト及び当該入力テキストに基づく音声信号の韻律情報に基づき、上記音声素片辞書から対応する複数の音声素片を取り出し、上記複数の音声素片を組み合わせて複数の合成音を生成する合成音生成手段と、上記合成音生成手段により生成された複数の合成音と上記入力テキストに基づく音声信号との間の誤差を評価し、当該評価結果に基づき代表音声素片を探索する音声素片探索手段と、上記音声素片探索手段により探索された代表音声素片を上記音声素片辞書に登録する音声素片登録手段とを備えるようにしたものである。
この発明によれば、音声素片を格納する音声素片辞書と、入力テキスト及び当該入力テキストに基づく音声信号の韻律情報に基づき、音声素片辞書から対応する複数の音声素片を取り出し、複数の音声素片を組み合わせて複数の合成音を生成する合成音生成手段と、合成音生成手段により生成された複数の合成音と入力テキストに基づく音声信号との間の誤差を評価し、当該評価結果に基づき代表音声素片を探索する音声素片探索手段と、音声素片探索手段により探索された代表音声素片を音声素片辞書に登録する音声素片登録手段とを備えように構成したので、明瞭で自然性が高い合成音の生成を可能にする音声素片を音声素片辞書に登録することができる効果がある。
実施の形態1.
図1はこの発明の実施の形態1による音声合成装置を示す構成図である。この音声合成装置は、テキスト入力端子1、言語辞書2、音声素片辞書3、言語処理部(テキスト解析手段)4、韻律分析部(韻律分析手段)5、素片評価部6、音声合成部(音声合成手段)7及び合成音声出力端子8で構成されている。また、言語辞書2、音声素片辞書3、言語処理部4、韻律分析部5及び素片評価部6により音声素片辞書作成装置が構成されている。
テキスト入力端子1は、事前学習時及び合成音生成時において、テキスト(例えば、日本語文章(漢字カナ混じり文、ひらがな、数字、アルファベット、記号などを含む文章)、単語など)を入力する端子である。言語辞書2は各文字に対応する読み方や品詞の種類などを格納している辞書である。音声素片辞書3は音声素片を格納している辞書である。
言語処理部4は、言語辞書2を参照して、テキスト入力端子1から入力されたテキストに対する形態素解析や構文解析を実施することにより、そのテキストの読み方や品詞の種類などを特定し、そのテキストの読み方や品詞の種類などを示すテキスト解析結果を出力
韻律分析部5は、言語処理部4が出力するテキスト解析結果とテキスト入力端子1から入力されたテキストの内容を示す事前学習用の音声信号を用いて韻律を分析(例えば、アクセント、イントネーション(ピッチ周期列(ピッチパターン)、音素の継続時間長)などを分析)し、音韻系列、アクセント及びイントネーションなどで表される韻律情報を生成し、出力する。なお、ピッチパターンと継続時間長の分析方法としては、例えば、自己相関法や、波形直接視察による方法などを用いることができる。
素片評価部6は、合成音生成部(合成音生成手段)6a、音声素片探索部(音声素片探索手段)6b及び音声素片登録部(音声素片登録手段)6cにより構成されている。合成音生成部6aは音声素片辞書3に格納されている音声素片の中から、韻律分析部5により生成された韻律情報に含まれている音韻系列に対応する複数の音声素片を取り出し、複数の音声素片を組み合わせて複数の合成音を生成する。
音声素片探索部6bは、合成音生成部6aにおいて生成された複数の合成音と事前学習用の音声信号との間の誤差を評価し、複数の合成音の中から、その誤差の評価結果に基づいて適正な合成音を構成している音声素片の組を探索する。即ち、複数の合成音の中で、その音声信号との誤差が最小の合成音を構成している音声素片の組を探索する。音声素片登録部6cは、音声素片探索部6bにおいて探索された音声素片の組を代表音声素片として音声素片辞書3に登録する。
音声合成部7は、合成音生成時に音声素片辞書3に格納されている代表音声素片の中から、韻律分析部5により生成された韻律情報に含まれている音韻系列に対応する代表音声素片を取り出し、その代表音声素片から合成音を生成する。合成音声出力端子8は、音声合成部7により生成された合成音を出力する端子である。なお、ピッチ周期及び音韻継続時間長を変更して音声を合成する方法としては、例えば、LSP(Line Spectral Pair)パラメータ上で合成する残差駆動LSP方法、スペクトルパラメータ上で合成するMBE(Multi Band Excitation)方法、2ピッチ長波形を重畳合成するピッチ波形重畳方法、音素単位等の信号波形を接続合成する波形編集方法などの手法を用いることができる。
図1では、音声合成装置の構成要素である言語処理部4、韻律分析部5、素片評価部6及び音声合成部7のそれぞれが専用のハードウェア(例えば、CPUを搭載している半導体集積回路基板)で構成されているものを想定しているが、音声合成装置がコンピュータで構成される場合には、言語処理部4、韻律分析部5、素片評価部6及び音声合成部7の処理内容を記述しているプログラムをコンピュータのメモリに格納し、当該コンピュータのCPUが当該メモリに格納されているプログラムを実行するようにしてもよい。
次に、この実施の形態1に係る音声合成装置の動作について説明する。図2は、この発明の実施の形態1に係る音声合成装置の素片評価部6の処理内容を示すフローチャートである。まず、事前に学習を行い、音声素片を音声素片辞書3に登録する、音声素片辞書作成動作について説明する。
言語処理部4は、テキスト入力端子1からテキスト(例えば、日本語文章(漢字カナ混じり文、ひらがな、数字、アルファベット、記号などを含む文章)、単語など)が入力されると、言語辞書2を参照して、そのテキストに対する形態素解析や構文解析を実施することにより、そのテキストの読み方や品詞の種類などを特定し、そのテキストの読み方や品詞の種類などを示すテキスト解析結果を韻律分析部5に出力する。
韻律分析部5は、テキスト入力端子1から入力されたテキストの内容を示す事前学習用の音声信号を受けると、その音声信号の韻律を分析(例えば、アクセント、イントネーション(ピッチ周期列(ピッチパターン)、音素の継続時間長)などを分析)し、音韻系列、アクセント及びイントネーションなどで表される韻律情報を生成する。
素片評価部6の合成音生成部6aは、韻律分析部5が韻律情報を生成すると、音声素片辞書3に格納されている音声素片の中から、その韻律情報に含まれている音韻系列に対応する複数の音声素片の取り出しを行う(ステップST1)。
例えば、素片単位がCVであって、音韻系列が示すテキストの内容が「雪(ユキ)」である場合、音声素片辞書3に格納されている音声素片の中から、読み方が「ユ」の音声素片“/yu/”と、読み方が「キ」の音声素片“/ki/”を取り出す。このとき、音声素片/yu/が音声素片辞書3に5個登録されており、音声素片/ki/が音声素片辞書3に2個登録されていれば、合計7(=5+2)個の音声素片を取り出す。ここでは、説明の簡単化のため、音韻系列に対応する音声素片を取り出すものについて示しているが、音韻系列だけでなく、ピッチパターンや継続時間長などに対応する音声素片を取り出すようにしてもよい。
素片評価部6の合成音生成部6aは、音声素片辞書3から複数の音声素片を取り出すと、韻律分析部5から出力された韻律情報に含まれているイントネーション(ピッチパターン、継続時間長など)と一致するように、複数の音声素片のピッチパターンや継続時間長などを変更する。そして、合成音生成部6aは、ピッチパターンや継続時間長などを変更した複数の音声素片を組み合わせて複数の合成音を生成する(ステップST2)。また、上述したステップST1及びステップST2の処理を音素系列に対応する音声素片の数だけ繰り返す(ステップST3)。
例えば、音声素片/yu/として5個の音声素片を取り出し、音声素片/ki/として2個の音声素片を取り出している場合、音声素片/yu/と音声素片/ki/の組み合わせ数が10個あるので、合計10個の合成音を生成する。なお、音声素片の組み合わせ数が大きくなる場合には、例えば、組み合わせる音声素片同士のピッチパターンの差や、音声素片の接続歪などを用いて、ピッチパターンの差や接続歪が大きい組み合わせに関しては、組み合わせ数から除外するなど、予備選択を行ってもよい。
素片評価部6の音声素片探索部6bは、合成音生成部6aが複数の合成音を生成すると、複数の合成音と事前学習用の音声信号との間の誤差を評価する(ステップST4)。複数の合成音と音声信号間の誤差評価手法として、例えば、時間波形レベルでの2乗誤差(ユークリッド距離)を用いることができる。また、その合成音及び音声信号をFFT(高速フーリエ変換)してパワースペクトルを求め、FFT窓の各フレームにおけるパワースペクトル間の距離を評価する方法を用いることができる。また、その合成音及び音声信号について、線形予測分析を実施することによりLSPパラメータ等を求め、各パラメータ間の距離を評価する方法を用いることができる。また、時間・周波数等に関連する公知の分析手法によるパラメータ分析を行った上で、誤差評価を行う手法でも構わない。
音声素片探索部6bは、複数の合成音と音声信号間の誤差を評価すると、複数の合成音の中で、その音声信号との誤差が最小の合成音を構成している音声素片の組を探索する。素片評価部6の音声素片登録部6cは、音声素片探索部6bが音声信号との誤差が最小の合成音を構成している音声素片の組を探索すると、その音声素片の組を代表音声素片として、音声素片辞書3に登録する(ステップST5)。ここでは、代表音声素片を音声素片辞書3に登録する構成を示したが、その代表音声素片を音声合成部7に直接出力するようにしてもよい。
次に、入力テキストから合成音を生成する音声合成動作について説明する。
言語処理部4は、テキスト入力端子1からテキストが入力されると、事前学習時と同様に、言語辞書2を参照して、そのテキストに対する形態素解析や構文解析を実施することにより、そのテキストの読み方や品詞の種類などを特定し、そのテキストの読み方や品詞の種類などを示すテキスト解析結果を韻律分析部5に出力する。韻律分析部5は、言語処理部4からテキスト解析結果を受けると、そのテキスト解析結果を用いて韻律情報を生成し、その韻律情報を音声合成部7に出力する。
音声合成部7は、韻律分析部5から韻律情報を受けると、音声素片辞書3に格納されている代表音声素片の中から、その韻律情報に含まれている音韻系列に対応する代表音声素片の取り出し、その代表音声素片のピッチ周期や音韻継続時間長を変更する。そして、音声合成部7は、その代表音声素片を構成している複数の音声素片を接続して合成音を生成し、その合成音を合成音声出力端子8に出力する。
以上で明らかなように、この実施の形態1によれば、音声素片辞書3に格納されている音声素片の中から、言語処理部4のテキスト解析結果である音韻系列に対応する複数の音声素片を取り出し、複数の音声素片を組み合わせて複数の合成音を生成する合成音生成部6aと、合成音生成部6aにより生成された複数の合成音と入力テキストの内容を示す事前学習用の音声信号との間の誤差を評価し、複数の合成音の中で、その音声信号との誤差が最小の合成音を構成している音声素片の組を探索する音声素片探索部6bとを設け、音声素片登録部6cが音声素片探索部6bにより探索された音声素片の組を代表音声素片として、音声素片辞書3に登録するように構成したので、明瞭で自然性が高い合成音の生成を可能にする音声素片を音声素片辞書3に登録することができる効果を奏する。
また、この実施の形態1によれば、音声合成部7が音声素片辞書3に格納されている代表音声素片の中から、韻律分析部5により生成された韻律情報に含まれている音韻系列に対応する代表音声素片を取り出し、その代表音声素片から合成音を生成するように構成したので、明瞭で自然性が高い合成音を生成することができる効果を奏する。即ち、最終出力結果である合成音声レベルで歪最小化するように音声素片の選択を行うことができるので、音声素片の波形変形歪だけでなく、素片個々の品質(音色)のバランス、音声素片接続歪や素片接続後の補間処理による補間歪も併せて総合評価することができるようになり、明瞭で自然性が高い合成音を得ることが可能となる。
また、この実施の形態1によれば、事前学習用の音声信号の韻律を分析する韻律分析部5を設け、合成音生成部6aが複数の合成音を生成する際、言語処理部4のテキスト解析結果を韻律分析部5の分析結果にしたがって変更し、韻律変更後の音声素片を組み合わせて複数の合成音を生成するように構成したので、複数の合成音の波形歪を抑制することができる効果を奏する。
なお、上記実施の形態1では、韻律分析部5及び素片評価部6が事前学習用の音声信号を入力するものについて示したが、その音声信号として、ナレータ等から収録した音声(自然音声)の他、例えば、コーパスベース方式等の波形接続法による高品質な音声合成方法によって生成された合成音を用いることも可能である。コーパスベース方式等による合成音を用いる場合のピッチパターンには、高品質な音声合成方法が生成するピッチパターンを直接用いることもできるし、合成音を分析してピッチパターンを抽出して用いることもできる。なお、当該音声信号は、品質の高い代表音声素片を選択できるように仮に用いられるデータ、即ち、音声素片辞書3の事前学習に用いられるデータ(トレーニングデータ)であって、実際の音声合成処理時には必要がないものである。
また、上記実施の形態1では、韻律分析部5が韻律情報を生成するものについて示したが、その韻律情報におけるピッチパターンは、物理量としてのピッチ周期列そのものである必要はなく、ピッチパターンに基づく韻律制御規則パラメータであってもよい。即ち、音声波形のピッチパターンに近似した韻律の制御点パラメータであってもよい。また、この実施の形態1では、入力テキストとして日本語文章を用いるものについて示したが、言語依存性はない。日本語以外の言語として、例えば、英語や中国語でも適用が可能である。その場合には、言語処理部、言語辞書及び音声素片辞書には対応する言語に応じた、例えば公知の処理手段を用いればよい。
実施の形態2.
図3は、この発明の実施の形態2による音声合成装置を示す構成図である。この音声合成装置は、実施の形態1に係る音声合成装置にインデックステーブル格納部を追加して構成している。以下では、実施の形態1に係る音声合成装置の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
この実施の形態2では、多量のテキストあるいは韻律情報と、これらに対応する音声信号を用いて例えば実施の形態1の素片評価部6における誤差評価手法や、音声信号と合成音信号との比較視聴などを用いてあらかじめ代表音素片を選択しておき、テキストそれぞれに代表音声素片を対応付けるインデックステーブル(テーブル)などを作成し、このインデックステーブルなどを格納するメモリであるインデックステーブル格納部9を設けて構成している。
素片評価部6の対応情報登録部(対応情報登録手段)6dは、音声素片探索部6bにより探索された音声素片の組である代表音声素片と言語処理部4のテキスト解析結果である音韻系列の対応情報をインデックステーブルに登録する。音声合成部(音声合成手段)10は、合成音生成時に、インデックステーブル格納部9に格納されているインデックステーブルを参照して、言語処理部4のテキスト解析結果である音韻系列に対応する代表音声素片を特定し、その代表音声素片から合成音を生成する。
図3では、音声合成装置の構成要素である言語処理部4、韻律分析部5、素片評価部6及び音声合成部10のそれぞれが専用のハードウェア(例えば、CPUを搭載している半導体集積回路基板)で構成されているものを想定しているが、音声合成装置がコンピュータで構成される場合には、言語処理部4、韻律分析部5、素片評価部6及び音声合成部10の処理内容を記述しているプログラムをコンピュータのメモリに格納し、当該コンピュータのCPUが当該メモリに格納されているプログラムを実行するようにしてもよい。
次に動作について説明する。
図4はこの発明の実施の形態2による音声合成装置の素片評価部6の処理内容を示すフローチャートである。まず、事前に学習し、代表音声素片と音韻系列の対応情報をインデックステーブルに登録する際の処理内容を説明する。
言語処理部4は、テキスト入力端子1からテキストが入力されると、上記実施の形態1と同様に、言語辞書2を参照して、そのテキストに対する形態素解析や構文解析を実施することにより、そのテキストの読み方や品詞の種類などを特定し、そのテキストの読み方や品詞の種類などを示すテキスト解析結果を韻律分析部5に出力する。
韻律分析部5は、テキスト入力端子1から入力されたテキストの内容を示す事前学習用の音声信号を受けると、上記実施の形態1と同様に、その音声信号の韻律を分析し、音韻系列、アクセント及びイントネーションなどからなる韻律情報を生成する。
素片評価部6の合成音生成部6aは、韻律分析部5が韻律情報を生成すると、上記実施の形態1と同様に、音声素片辞書3に格納されている音声素片の中から、その韻律情報に含まれている音韻系列に対応する複数の音声素片の取り出しを行う。合成音生成部6aは、音声素片辞書3から複数の音声素片を取り出すと、上記実施の形態1と同様に、韻律分析部5から出力された韻律情報に含まれているイントネーション(ピッチパターン、継続時間長など)と一致するように、複数の音声素片のピッチパターンや継続時間長などを変更し、変更後の複数の音声素片を組み合わせて複数の合成音を生成する。
素片評価部6の音声素片探索部6bは、合成音生成部6aが複数の合成音を生成すると、上記実施の形態1と同様に、複数の合成音と事前学習用の音声信号との間の誤差を評価する。音声素片探索部6bは、複数の合成音と音声信号間の誤差を評価すると、上記実施の形態1と同様に、複数の合成音の中で、その音声信号との誤差が最小の合成音を構成している音声素片の組を探索する。
素片評価部6の対応情報登録部6dは、音声素片探索部6bが音声信号との誤差が最小の合成音を構成している音声素片の組を探索すると、その音声素片の組である代表音声素片と言語処理部4のテキスト解析結果の対応情報をインデックステーブルに登録する。
例えば、音韻系列が示すテキストの内容が「雪(ユキ)」である場合、「雪(ユキ)」に対応する音声素片の組(音声信号との誤差が最小の合成音を構成している音声素片の組)は、音声素片辞書3に格納されている音声素片の中で、どの音声素片であるかを示す対応情報をインデックステーブルに登録する。
次に、入力テキストから合成音を生成する音声合成動作について説明する。
言語処理部4は、テキスト入力端子1からテキストが入力されると、事前学習時と同様に、言語辞書2を参照して、そのテキストに対する形態素解析や構文解析を実施することにより、そのテキストの読み方や品詞の種類などを特定し、そのテキストの読み方や品詞の種類などを示すテキスト解析結果を韻律分析部5に出力する。
韻律分析部5は、言語処理部4からテキスト解析結果を受けると、上記実施の形態1と同様に、そのテキスト解析結果を用いて韻律情報を生成し、その韻律情報を音声合成部10に出力する。
音声合成部10は、韻律分析部5から韻律情報を受けると、インデックステーブル格納部9に格納されているインデックステーブルを参照して(ステップST11)、その韻律情報に含まれている音韻系列に対応する代表音声素片を特定する(ステップST12,ST13)。ただし、その韻律情報に含まれている音韻系列に係る対応情報がインデックステーブルに登録されていない場合には(ステップST12)、音声素片辞書3に格納されている音声素片の頻度情報(インデックステーブルが参照されることにより、当該音声素片が代表音声素片として特定された回数を示す情報)を参照し(ステップST14)、頻度情報が最も高い音声素片を代表音声素片として特定する(ステップST15)。
音声合成部10は、代表音声素片を特定すると、音声素片辞書3から当該代表音声素片を取り出し、その代表音声素片のピッチ周期や音韻継続時間長を変更する。さらに音声合成部10は、上記実施の形態1と同様に、その代表音声素片を構成している複数の音声素片を接続して合成音を生成し、その合成音を合成音声出力端子8に出力する。なお、音声合成部10は、音韻系列に対応する代表音声素片を特定すると、その代表音声素片を構成している複数の音声素片の頻度情報を更新する。
以上で明らかなように、この実施の形態2によれば、音声素片辞書3に格納されている音声素片の中から、言語処理部4のテキスト解析結果である音韻系列に対応する複数の音声素片を取り出し、複数の音声素片を組み合わせて複数の合成音を生成する合成音生成部6aと、合成音生成部6aにより生成された複数の合成音と入力テキストの内容を示す事前学習用の音声信号との間の誤差を評価し、複数の合成音の中で、その音声信号との誤差が最小の合成音を構成している音声素片の組を探索する音声素片探索部6bとを設け、対応情報登録部6dが音声素片探索部6bにより探索された音声素片の組である代表音声素片と上記音韻系列の対応情報をインデックステーブルに登録するように構成したので、明瞭で自然性が高い合成音の生成を可能にする音声素片を特定することができる効果を奏する。
また、この実施の形態2によれば、音声合成部10がインデックステーブル格納部9に格納されているインデックステーブルを参照して、言語処理部4のテキスト解析結果である音韻系列に対応する代表音声素片を特定し、その代表音声素片から合成音を生成するように構成したので、明瞭で自然性が高い合成音を生成することができるほかに、上記実施の形態1よりも、代表音声素片の特定に要する処理量を削減することができる効果を奏する。
また、この実施の形態2によれば、韻律情報に含まれている音韻系列に係る対応情報がインデックステーブルに登録されていない場合、音声素片辞書3に格納されている音声素片の頻度情報を参照し、頻度情報が最も高い音声素片を代表音声素片として特定するように構成したので、対応情報がインデックステーブルに登録されていない音韻系列についても、明瞭で自然性が高い合成音を生成することができる効果を奏する。
なお、上記実施の形態2では、入力テキストとして日本語文章を用いるものについて示したが言語依存性はない。日本語以外の言語として、例えば、英語や中国語でも適用が可能である。その場合には、言語処理部、言語辞書及び音声素片辞書には対応する言語に応じた、例えば公知の処理手段及び辞書を用いればよい。
実施の形態3.
図5は、この発明の実施の形態3による音声合成装置を示す構成図である。この音声合成装置は、実施の形態1に係る音声合成装置に音声認識部と代表音声素片辞書を追加して構成している。この実施の形態3の音声合成装置では、入力された音声信号に対して音声認識処理を行い、音声信号に対応するテキストを分析して上述した実施の形態1の構成などを組み合わせることにより、新規な音声通話システム、あるいは音声蓄積システムを構築することが可能である。以下では、実施の形態1に係る音声合成装置の構成要素と同一または相当する部分には、実施の形態1で使用した符合と同一の符号を付して説明を省略または簡略化する。
音声認識部(音声認識手段)12は、音声入力端子から、例えば日本語で発話された音声信号が入力されると音声認識処理を行い、認識結果であるテキストを出力する。言語処理部4は、音声認識部12から入力されるテキストに対して言語辞書2を参照して形態素解析及び構文解析を行い、テキストの読みや品詞情報などのテキスト解析結果を出力する。
韻律分析部5は、言語処理部4から入力されるテキスト解析結果とテキストの内容に対応する音声信号に基づき、音韻系列、アクセント及びイントネーション(ピッチパターン、継続時間長)の制御情報である韻律情報を出力する。ここで、韻律情報のうちピッチパターン及び継続時間長の分析には、自己相関法など公知の手法や、波形直接視察などの手法を用いることができる。
素片評価部6は実施の形態1と同様に、合成音生成部6a、音声素片探索部6b及び音声素片登録部6cにより構成されている。音声素片探索部6bが音声素片の組を探索すると、音声素片登録部6cが当該音声素片の組を代表音声素片として、代表音声素片辞書13に登録する点で相違している。代表音声素片辞書13は代表音声素片を格納している辞書である。
音声合成部(音声合成手段)14は通信路15を介して素片評価部6と接続されており、代表音声素片辞書13に格納されている代表音声素片の中から、韻律分析部5により生成された韻律情報に含まれている音韻系列に対応する代表音声素片を取り出し、その代表音声素片から合成音を生成する処理を実施する。
上記実施の形態1と比較して、音声認識部12が音声素片辞書作成装置に実装されている点と、音声合成部14及び代表音声素片辞書13が通信路15を介して素片評価部6と接続され、代表音声素片が代表音声素片辞書13に登録される点において相違している。
音声認識部12が設けられていることにより、事前学習時において、テキストを入力することなく、事前学習用の音声信号からテキストを生成することができる。
素片評価部6の音声素片登録部6cが、通信路15を介して、代表音声素片を代表音声素片辞書13に登録するようにしているので、音声素片辞書作成装置と音声合成部14が遠隔に位置している場合でも、上記実施の形態1と同様に、音声合成部14が明瞭で自然性が高い合成音を生成することができる。なお、素片評価部6の音声素片登録部6cが代表音声素片や韻律情報を通信路15に出力する際、代表音声素片や韻律情報を圧縮あるいは符号化して送信するようにしてもよい。
以上で明らかなように、この実施の形態3によれば、音声認識部12を実装すると共に、音声合成部14及び代表音声素片辞書13が通信路を介して素片評価部6と接続され、代表音声素片が代表音声素片辞書13に登録されるように構成してので、明瞭で自然性の高い合成音で、極めて低ビットレートな音声通信システム、あるいは極めて省メモリな音声蓄積システムを構築することができる。
なお、この実施の形態3では、音声合成部14及び代表音声素片辞書13が通信路15を介して素片評価部6と接続されている極めて低ビットレートな音声通信システムを示したが、通信路15を省略して、音声合成部14及び代表音声素片辞書13が素片評価部6と直接的に接続されている極めて省メモリな音声蓄積システムであってもよい。
なお、この実施の形態3では、音声合成部14が素片評価部6と同じ内容の音声素片辞書を用いているが、音声合成部14が、例えば、別の音声素片辞書を用いることにより、ボイスチェンジャ(女声から男声、あるいは、男声から女声などに変換する装置)として用いることもできる。また、韻律情報を変更することでも可能である。
なお、上記実施の形態3では、入力テキストとして日本語文章を用いるものについて示したが言語依存性はない。日本語以外の言語として、例えば、英語や中国語でも適用が可能である。その場合には、音声認識部及び言語処理部には対応する言語に応じた、例えば公知の処理手段を用いればよい。
実施の形態4.
上記実施の形態1−3における形態素解析、構文解析及び韻律分析の全て、または、一部については、予め処理を行っておいて、その解析結果を例えばROM(Read Only Memory),RAM(Random Access Memory)、不揮発メモリ、磁気ディスクなどの記憶手段に蓄えておき、音声合成時に解析結果を記憶手段から読み出すことで省略することも可能である。また、例えば、LAN(Local Area Network)、インターネット、赤外線通信、携帯電話パケット通信などの通信手段経由で、サーバコンピュータ等の処理手段で解析された解析結果や韻律情報、あるいは、サーバコンピュータ上のハードディスク等の記憶手段に記憶されている解析結果や韻律情報を読み出すことでも省略することが可能である。
さらに、解析結果や韻律情報を、例えば、コンピュータのGUI(Graphical User Interface)、キーボード、押しボタン、1次元/2次元バーコードリーダ、OCR(Optical Character Reader)等の入力手段から直接入力するようにしてもよい。これは、カーナビゲーションシステム、携帯電話、PDA(Personal Digital Assistance)、ビデオレコーダ、監視システム、ゲーム機器、電子書籍、玩具等において決まった文章、例えば、カーナビの市町村名や操作案内(ガイダンス)文、防犯警告合成音声、ゲームのキャラクタ合成音、新聞の文章などを読み上げる場合に有効である。
上記実施の形態1−3における全ての機能あるいは一部の機能は、パーソナルコンピュータ等のソフトウエアとしてプログラムを実行したり、CPU等の組み込みソフトウエアやファームウエアとしてプログラムを実行することで達成できるものである。また、同様の動作をする回路、例えば、LSI(Large Scale IC)、FPGA(Field Programmable Gate Array)、論理IC等の集積回路で実現してもよいし、あるいは、ディスクリート素子を組み合わせて実現してもよい。
また、上記のソフトウエア等は、例えば、ROM、磁気ディスク(例えば、ハードディスク、リムーバブルディスクなど)、不揮発性半導体メモリ等の記憶手段に予め保持しておいたものであってもよいし、例えば、インターネット、LAN、赤外線通信、Bluetooth(登録商標)などの近距離無線通信、携帯電話のパケット通信等の有線・無線通信手段を用いて、サーバ上の記憶手段からダウンロードしたり、例えば、CD−ROM、CD−R、DVD(Digital Versatile Disk)、MOディスク、磁気ディスク、不揮発性の半導体メモリ、磁気テープ等の記憶媒体や、バーコード等が印刷されたカード等の印刷媒体より配布・提供されるものであってもよい。この場合、記憶媒体等から読み出された上記ソフトウエアのプログラムコードが、上記実施の形態1−3の機能を実現することになり、これら記憶媒体等は本発明を構成するものとなる。
上記実施の形態1−3においては、各処理部が同一の計算機上で構成する場合について説明したが、これに限定されるものではなく、例えば、ネットワーク上に分散された計算機や処理装置などに分かれて、各処理部が構成されていてもよい。また、上記実施の形態1〜3においては、1つ以上の複数の機器から構成されるシステムに適用してもよい。サーバコンピュータが上記実施の形態1〜3を実現するプログラム等をネットワーク等の通信手段を用いて配信するようにすれば、複数のクライアントコンピュータ、携帯電話、PDA等の携帯端末機器が配信されたプログラムを実行することができる。
上記実施の形態1−3で用いる音声素片は、人間が発声した自然音声に限るものではなく、自然音声から解析的に生成された音声波形、例えば、所定の基準(例えば、スペクトル上の相互距離が所定の閾値以下)の下に選択された波形の平均的な波形、準最適波形、パワー補正された音声波形などでもよい。また、人工的に生成された波形と自然音声の両者が混合された信号波形でも適用可能である。また、動物の鳴き声、楽器、電子音等の人以外から抽出された擬似的な音声信号波形でもよい。さらに、人工的に生成された音声波形等に雑音波形等が混入されていてもよい。
この発明の実施の形態1による音声合成装置を示す構成図である。 この発明の実施の形態1による音声合成装置の素片評価部6の処理内容を示すフローチャートである。 この発明の実施の形態2による音声合成装置を示す構成図である。 この発明の実施の形態2による音声合成装置の素片評価部6の処理内容を示すフローチャートである。 この発明の実施の形態3による音声合成装置を示す構成図である。
符号の説明
1 テキスト入力端子、2 言語辞書、3 音声素片辞書、4 言語処理部(テキスト解析手段)、5 韻律分析部(韻律分析手段)、6 素片評価部、6a 合成音生成部(合成音生成手段)、6b 音声素片探索部(音声素片探索手段)、6c 音声素片登録部(音声素片登録手段)、6d 対応情報登録部(対応情報登録手段)、7,10,14 音声合成部(音声合成手段)、8 合成音声出力端子、9 インデックステーブル格納部、11 音声入力端子、12 音声認識部(音声認識手段)、13 代表音声素片辞書、15 通信路。

Claims (14)

  1. 音声素片を格納する音声素片辞書と、
    入力テキスト及び当該入力テキストに基づく音声信号の韻律情報に基づき、上記音声素片辞書から対応する複数の音声素片を取り出し、上記複数の音声素片を組み合わせて複数の合成音を生成する合成音生成手段と、
    上記合成音生成手段により生成された複数の合成音と上記入力テキストに基づく音声信号との間の誤差を評価し、当該評価結果に基づき代表音声素片を探索する音声素片探索手段と、
    上記音声素片探索手段により探索された代表音声素片を上記音声素片辞書に登録する音声素片登録手段とを備えた音声素片辞書作成装置。
  2. 音声素片を格納する音声素片辞書と、
    入力テキスト及び当該入力テキストに基づく音声信号の韻律情報に基づき、上記音声素片辞書から対応する複数の音声素片を取り出し、上記複数の音声素片を組み合わせて複数の合成音を生成する合成音生成手段と、
    上記合成音生成手段により生成された複数の合成音と上記入力テキストに基づく音声信号との間の誤差を評価し、当該評価結果に基づき代表音声素片を探索する音声素片探索手段と、
    上記音声素片探索手段により探索された代表音声素片と上記入力テキストとの対応情報をテーブルに登録する対応情報登録手段とを備えた音声素片辞書作成装置。
  3. 音声素片辞書は、音声素片を格納する第1音声素片辞書と代表音声素片を格納する第2音声素片辞書を備えることを特徴とする請求項1記載の音声素片辞書作成装置。
  4. 音声素片探索手段は、複数の合成音の中で音声信号との誤差が最小の合成音を構成する代表音声素片を探索することを特徴とする請求項1から請求項3のうちのいずれか1項記載の音声素片辞書作成装置。
  5. 音声素片を格納する音声素片辞書と、
    入力テキスト及び当該入力テキストに基づく音声信号の韻律情報に基づき、上記音声素片辞書から対応する複数の音声素片を取り出し、上記複数の音声素片を組み合わせて複数の合成音を生成する合成音生成手段と、
    上記合成音生成手段により生成された複数の合成音と上記入力テキストに基づく音声信号との間の誤差を評価し、上記評価結果に基づき代表音声素片を探索する音声素片探索手段と、
    上記音声素片探索手段により探索された代表音声素片を上記音声素片辞書に登録する音声素片登録手段と、
    上記音声素片辞書に登録された上記代表音声素片、上記入力テキスト及び上記韻律情報に基づき合成音を生成する音声合成手段とを備えた音声合成装置。
  6. 音声素片を格納する音声素片辞書と、
    入力テキスト及び当該入力テキストに基づく音声信号の韻律情報に基づき、上記音声素片辞書から対応する複数の音声素片を取り出し、上記複数の音声素片を組み合わせて複数の合成音を生成する合成音生成手段と、
    上記合成音生成手段により生成された複数の合成音と上記入力テキストに基づく音声信号との間の誤差を評価し、当該評価結果に基づき代表音声素片を探索する音声素片探索手段と、
    上記音声素片探索手段により探索された代表音声素片と上記入力テキストとの対応情報をテーブルに登録する対応情報登録手段と、
    上記テーブルを参照して上記入力テキストに対応する代表素片を特定すると共に、当該代表音素片、上記入力テキスト及び上記韻律情報に基づき合成音を生成する音声合成手段とを備えた音声合成装置。
  7. 対応情報登録手段は、テーブルから参照された回数を示す頻度情報を各音声素片について記憶し、
    音声合成手段は、上記テーブルと対応しない入力テキストあるいは韻律情報について上記頻度情報が高い最も高い代表音声素片から合成音を生成することを特徴とする請求項6記載の音声合成装置。
  8. 音声素片辞書は、音声素片を格納する第1音声素片辞書と代表音声素片を格納する第2音声素片辞書を備えることを特徴とする請求項5記載の音声素片辞書作成装置。
  9. 入力テキスト及び当該入力テキストに基づく音声信号の韻律情報に基づき、音声素片を格納する音声素片辞書から対応する複数の音声素片を取り出し、上記複数の音声素片を組み合わせて複数の合成音を生成する合成音生成ステップと、
    上記合成音生成ステップにおいて生成された複数の合成音と上記入力テキストに基づく音声信号との間の誤差を評価し、当該評価結果に基づき代表音声素片を探索する音声素片探索ステップと、
    上記音声素片探索ステップにおいて探索された代表音声素片を上記音声素片辞書に登録する音声素片登録ステップとを備えた音声素片辞書作成方法。
  10. 入力テキスト及び当該入力テキストに基づく音声信号の韻律情報に基づき、音声素片を格納する音声素片辞書から対応する複数の音声素片を取り出し、上記複数の音声素片を組み合わせて複数の合成音を生成する合成音生成ステップと、
    上記合成音生成ステップにおいて生成された複数の合成音と上記入力テキストに基づく音声信号との間の誤差を評価し、当該評価結果に基づき代表音声素片を探索する音声素片探索ステップと、
    上記音声素片探索ステップにおいて探索された代表音声素片と上記入力テキストとの対応情報をテーブルに登録する対応情報登録ステップとを備えた音声素片辞書作成方法。
  11. 音声素片探索ステップは、複数の合成音の中で音声信号との誤差が最小の合成音を構成する代表音声素片を探索することを特徴とする請求項9または請求項10のうちのいずれか1項記載の音声素片辞書作成方法。
  12. 入力テキスト及び当該入力テキストに基づく音声信号の韻律情報に基づき、音声素片を格納する音声素片辞書から対応する複数の音声素片を取り出し、上記複数の音声素片を組み合わせて複数の合成音を生成する合成音生成ステップと、
    上記合成音生成ステップにおいて生成された複数の合成音と上記入力テキストに基づく音声信号との間の誤差を評価し、当該評価結果に基づき代表音声素片を探索する音声素片探索ステップと、
    上記音声素片探索ステップにおいて探索された代表音声素片を上記音声素片辞書に登録する音声素片登録ステップと、
    上記音声素片辞書に登録された上記代表音声素片、上記入力テキスト及び上記韻律情報に基づき合成音を生成する音声合成ステップとを備えた音声合成方法。
  13. 入力テキスト及び当該入力テキストに基づく音声信号の韻律情報に基づき、音声素片を格納する音声素片辞書から対応する複数の音声素片を取り出し、上記複数の音声素片を組み合わせて複数の合成音を生成する合成音生成ステップと、
    上記合成音生成ステップにおいて生成された複数の合成音と上記入力テキストに基づく音声信号との間の誤差を評価し、当該評価結果に基づき代表音声素片を探索する音声素片探索ステップと、
    上記音声素片探索手段により探索された代表音声素片と上記入力テキストとの対応情報をテーブルに登録する対応情報登録ステップと、
    上記テーブルを参照して上記入力テキストに対応する代表音素片を特定すると共に、当該代表音素片、上記入力テキスト及び上記韻律情報に基づき合成音を生成する音声合成ステップとを備えた音声合成方法。
  14. 対応情報登録ステップは、テーブルから参照された回数を示す頻度情報を各音声素片について記憶し、
    音声合成ステップは、上記テーブルと対応しない入力テキストあるいは韻律情報について上記頻度情報が高い最も高い代表音声素片から合成音を生成することを特徴とする請求項13記載の音声合成方法。
JP2008119758A 2008-05-01 2008-05-01 音声素片辞書作成装置及び音声合成装置 Pending JP2009271190A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008119758A JP2009271190A (ja) 2008-05-01 2008-05-01 音声素片辞書作成装置及び音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008119758A JP2009271190A (ja) 2008-05-01 2008-05-01 音声素片辞書作成装置及び音声合成装置

Publications (1)

Publication Number Publication Date
JP2009271190A true JP2009271190A (ja) 2009-11-19

Family

ID=41437817

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008119758A Pending JP2009271190A (ja) 2008-05-01 2008-05-01 音声素片辞書作成装置及び音声合成装置

Country Status (1)

Country Link
JP (1) JP2009271190A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011221486A (ja) * 2010-03-26 2011-11-04 Toshiba Corp 音声編集方法、装置及び音声合成方法
JP2013246742A (ja) * 2012-05-29 2013-12-09 Azone Co Ltd 受動型出力装置及び出力データ生成システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011221486A (ja) * 2010-03-26 2011-11-04 Toshiba Corp 音声編集方法、装置及び音声合成方法
JP2013246742A (ja) * 2012-05-29 2013-12-09 Azone Co Ltd 受動型出力装置及び出力データ生成システム

Similar Documents

Publication Publication Date Title
CN111566656B (zh) 利用多种语言文本语音合成模型的语音翻译方法及系统
US8015011B2 (en) Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases
US8825486B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US8949128B2 (en) Method and apparatus for providing speech output for speech-enabled applications
US8352270B2 (en) Interactive TTS optimization tool
US20190130894A1 (en) Text-based insertion and replacement in audio narration
US20060259303A1 (en) Systems and methods for pitch smoothing for text-to-speech synthesis
US8914291B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
KR20160058470A (ko) 음성 합성 장치 및 그 제어 방법
JP5411845B2 (ja) 音声合成方法、音声合成装置及び音声合成プログラム
Bettayeb et al. Speech synthesis system for the holy quran recitation.
Kayte et al. A Marathi Hidden-Markov Model Based Speech Synthesis System
JP2007086309A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2009271190A (ja) 音声素片辞書作成装置及び音声合成装置
JP4762553B2 (ja) テキスト音声合成方法及びその装置、並びにテキスト音声合成プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4150645B2 (ja) 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム
Gujarathi et al. Review on unit selection-based concatenation approach in text to speech synthesis system
Chen et al. A Mandarin Text-to-Speech System
EP1589524B1 (en) Method and device for speech synthesis
JP4805121B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
Khalil et al. Implementation of speech synthesis based on HMM using PADAS database
EP1640968A1 (en) Method and device for speech synthesis
Narvani et al. Text-to-Speech Conversion Using Concatenative Approach for Gujarati Language
Anilkumar et al. Building of Indian Accent Telugu and English Language TTS Voice Model Using Festival Framework