JP2006010849A - 音声合成装置 - Google Patents
音声合成装置 Download PDFInfo
- Publication number
- JP2006010849A JP2006010849A JP2004185157A JP2004185157A JP2006010849A JP 2006010849 A JP2006010849 A JP 2006010849A JP 2004185157 A JP2004185157 A JP 2004185157A JP 2004185157 A JP2004185157 A JP 2004185157A JP 2006010849 A JP2006010849 A JP 2006010849A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- speech unit
- compressed
- speed memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】
合成音声にかかる目標生成時間、音声合成装置の中央処理演算装置の負荷、又は合成音声に対する質等の動的な要求によってその要求を満たすような合成をする。
【解決手段】
圧縮音声素片と、圧縮音声素片に対応した非圧縮の音声素片、又は、圧縮音声素片と圧縮音声素片に対応した非圧縮の音声素片との差分に基づく差分音声素片と圧縮音声素片を格納したメモリと、メモリに格納された音声素片を選択する音声素片選択部と、音声素片選択部の選択に基づき、圧縮音声素片又は非圧縮音声素片の何れか一方を読み出す音声素片生成部からなる。
【選択図】 図1
合成音声にかかる目標生成時間、音声合成装置の中央処理演算装置の負荷、又は合成音声に対する質等の動的な要求によってその要求を満たすような合成をする。
【解決手段】
圧縮音声素片と、圧縮音声素片に対応した非圧縮の音声素片、又は、圧縮音声素片と圧縮音声素片に対応した非圧縮の音声素片との差分に基づく差分音声素片と圧縮音声素片を格納したメモリと、メモリに格納された音声素片を選択する音声素片選択部と、音声素片選択部の選択に基づき、圧縮音声素片又は非圧縮音声素片の何れか一方を読み出す音声素片生成部からなる。
【選択図】 図1
Description
本発明は、テキストを音声に変換して出力するテキスト音声合成装置に関する。
この種の音声合成装置は、音声素片を予めメモリに格納した音声素片辞書からテキストに記載された文字列に対応する音声素片を読み出し、合成音声の生成を行うものでカーナビゲーションや携帯電話などの情報端末に利用されている。このような音声合成装置では、合成音声の自然性を向上させるべく、多様な音声素片を備えた音声素片辞書を持たせる必要があり、このためメモリに格納した膨大な種類の音声素片の読み出しには時間がかかる。
そこで、このような読み出し時間を短縮する音声合成装置として、例えば文献特開2000−181491記載の「音声合成装置」(音声合成装置)(以下従来例と呼ぶ)が提案されている。
この従来例では、音声素片辞書を記憶する高速メモリ及び低速メモリを具備し、音声素片辞書が使用頻度に応じて複数のブロックに分割されて記憶されている。この音声合成装置では、あらかじめ音声素片辞書のうち頻繁に使用する高頻度の音声素片のみを高速メモリに展開しておくので、所望の音声素片が高速メモリ上にあるものは高速メモリから読み出し、所望の音声素片が高速メモリ上にないものは低速メモリから読み出すことにより、音声素片辞書の低価格化を図りつつ、音声素片の読み出し時間を短縮し、合成音声の生成を行うことができる。
しかし、この従来例では、音声素片の使用頻度で、音声素片のブロックを低速メモリ、高速メモリのいずれに配置するかを決定するため、読み出し時間はあくまで両メモリの性能に左右される。また、高速メモリにテキストに記載された文字列に対応する全ての種類の音声素片が格納されるわけではない。よって、一方のメモリだけで合成音声を生成できるわけではないので、任意のテキストに対して合成音声を生成する場合には、低速メモリ上の音声素片と高速メモリ上の音声素片の両方を使用する必要がある。このため、合成音声にかかる目標生成時間、音声合成装置の中央処理演算装置(CPU)の負荷、又は合成音声に対する質等の動的な要求によってその要求を満たすような合成(例えば、時間がかかっても良いから質の良い音声を合成したい場合、質が悪くても良いから短時間に音声を合成したい場合)をすることができないという課題があった。また、低速メモリが故障した場合(低速メモリとして主にハードディスクを使用するが、ハードディスクは、モータがディスクを回転させるという機械的構造を有するため故障しやすい)には、使用頻度の高い音声素片以外の素片を使用することができなくなるため、合成音声の生成が不可能になるという課題があった。
この発明は、上述のような課題を解決するためになされたもので、第1の目的は、合成音声にかかる目標生成時間、音声合成装置の中央処理演算装置(CPU)の負荷、又は合成音声に対する質等の動的な要求に対してその要求を満たすことのできる音声合成装置を得ることにある。
また、この発明の第2の目的は、複数あるメモリのうち特定のメモリが故障した場合でも合成音声が生成できる音声合成装置を得ることにある。
この発明に係る音声合成装置は、音声素片を圧縮してなる圧縮音声素片とこの圧縮音声素片に対応した非圧縮の音声素片、又は、圧縮音声素片と上記非圧縮の音声素片との差分に基づく差分音声素片と圧縮音声素片を格納したメモリと、このメモリに格納された音声素片を選択する音声素片選択部と、この音声素片選択部の選択に基づき、圧縮音声素片又は非圧縮音声素片の何れか一方を読み出す音声素片生成部とを備えたものである。
この発明に係る音声合成装置は、音声素片を圧縮してなる圧縮音声素片とこの圧縮音声素片に対応した非圧縮の音声素片、又は、圧縮音声素片と上記非圧縮の音声素片との差分に基づく差分音声素片と圧縮音声素片を格納したメモリと、このメモリに格納された音声素片を選択する音声素片選択部と、この音声素片選択部の選択に基づき、圧縮音声素片又は非圧縮音声素片の何れか一方を読み出す音声素片生成部とを備えたもので、合成音声の目標生成時間等の動的な要求に対してもその要求を満たすことができる音声合成装置を得ることができる。
実施の形態1
図1は、本発明の実施の形態1による音声合成装置の構成図である。図2は、後述する音声素片テーブル6の例であり、各音声素片名の高速メモリ上の圧縮音声素片のアドレス及び低速メモリ上の差分音声素片のアドレスから構成されている。図3は、後述する高速メモリ13上の圧縮音声素片辞書11の例であり、ヘッダ記憶部分とコードベクトルデータ記憶部分から構成されている。図4は、後述する低速メモリ14上の差分音声素片辞書12の例であり、圧縮音声素片辞書11に記憶されたコードベクトルと圧縮されていない音声素片、即ち非圧縮音声素片との差分に基づいたデータから構成されている。図6は、後述する非圧縮音声素片の波形(A)、高速メモリに格納されている圧縮音声素片の波形(a)、低速メモリに格納されている差分音声素片の波形(b)を示したものである。
図1は、本発明の実施の形態1による音声合成装置の構成図である。図2は、後述する音声素片テーブル6の例であり、各音声素片名の高速メモリ上の圧縮音声素片のアドレス及び低速メモリ上の差分音声素片のアドレスから構成されている。図3は、後述する高速メモリ13上の圧縮音声素片辞書11の例であり、ヘッダ記憶部分とコードベクトルデータ記憶部分から構成されている。図4は、後述する低速メモリ14上の差分音声素片辞書12の例であり、圧縮音声素片辞書11に記憶されたコードベクトルと圧縮されていない音声素片、即ち非圧縮音声素片との差分に基づいたデータから構成されている。図6は、後述する非圧縮音声素片の波形(A)、高速メモリに格納されている圧縮音声素片の波形(a)、低速メモリに格納されている差分音声素片の波形(b)を示したものである。
次に、図1、2、3、4及び図6を用いて本実施の形態における音声合成装置の構成を説明する。1は、文字列が記載された入力テキストである。入力テキスト1としては、例えば、文字列が記載されたデジタルデータである電子テキストがある。ここで、文字列とは、漢字、ひらがな、カタカナ等の文字が並んだ列をいい、例えば「私は学校に行った。」がある。入力テキスト1としては、紙文章を文章画像に変換した後、OCR技術を用いて文章画像から電子テキストを生成する場合もある。またカーナビゲーション、携帯電話においては、キーボード等から文章を入力した場合には、その文章が入力テキスト1に対応し、カーナビゲーション、携帯電話のマイクが音声を認識する場合にはその認識した音声に対応する文章が入力テキスト1に対応する。2は、入力テキスト1に記載された文字列に対して言語解析をし、音声素片の種類、モーラ数、アクセント句区切り情報を解析するテキスト解析部である。ここで、音声素片とは、音声を構成する要素であり、音声素片の単位としては音響的なデータでありCV(子音―母音)、VCV(母音―子音―母音)、CVC(子音―母音―子音)がある。モーラとは、かな文字単位に相当するものである。アクセント句とは、アクセントを形成する単位である。3は、テキスト解析部2で解析された入力テキスト1の解析結果であるテキスト解析結果である。
4は、音声素片の読み出し先を決定する制御情報である。制御情報4としては、例えば、低速メモリの故障情報、合成音声を生成するために要する目標時間の情報、合成音声に対して要求する質の情報、音声合成装置を動作させる図示していない中央処理演算装置(CPU)の負荷情報、に基づくものである。制御情報4は、本発明がカーナビゲーションに使用されている場合には、例えば、カーナビゲーションが音声合成と同時にルート検索をする場合は、中央処理演算装置(CPU)に負荷がかかるために、当該負荷情報が中央処理演算装置(CPU)から出力される。また、携帯電話に使用されている場合には、例えば携帯電話が音声合成と同時に音楽のダウンロードをしている場合は、中央処理演算装置(CPU)に負荷がかかるため、当該負荷情報が中央処理演算装置(CPU)から出力される。また、低速メモリ14が壊れている場合には、図示されていない、低速メモリ故障判別装置から当該故障の情報が出力される。
6は、音声素片テーブルである。音声素片テーブル6には、図2に示すように、テキスト解析部2により解析された各音声素片名(例えば「ka」)に対する、後述する高速メモリ13上に記憶されている圧縮音声素片のアドレスと、低速メモリ14上に記憶されている差分音声素片のアドレスが格納されている。ここで、圧縮音声素片および差分音声素片はフレーム単位(例えば、20msec)で構成され格納されており、圧縮音声素片は、圧縮されていない音声素片、即ち非圧縮音声素片の波形又は音声スペクトル等を離散的にベクトル量子化することによって得ている。具体的には上記圧縮することにより図6における波形(A)を波形(a)にすることをいう。
なお、図2では音声素片の単位をCV(子音―母音)としているが、VCV(母音―子音―母音)やCVC(子音―母音―子音)などとしても構わない。
7は、制御情報4に基づいて、音声素片の読み出し先を高速メモリ13単独にするか、又は高速メモリ13と低速メモリ14の両方にするかを決定し、音声素片テーブル6を参照して圧縮音声素片のアドレス又は圧縮音声素片のアドレス及び差分音声素片のアドレスを読みこむ音声素片選択部である。具体的には、制御情報4が「0」の場合(例えば、低速メモリの故障がある場合、合成音声を生成する目標時間が短い場合、音声合成装置を動作させる中央処理演算装置(CPU)の負荷が高い場合)には、図2の「高速メモリ上の圧縮音声素片のアドレス」に格納されている当該音声素片名に対応するアドレスを読み込む。一方、制御情報4が「1」の場合(例えば、合成音声を生成する目標時間が長い場合、合成音声に対する要求する質が高い場合、音声合成装置を動作させる中央処理演算装置(CPU)の負荷が低い場合)には、図2の「高速メモリ上の圧縮音声素片のアドレス」と「低速メモリ上の差分音声素片のアドレス」に格納されている当該音声素片名に対応するアドレスを読み込む。
8は、図2における音声素片テーブル6中の圧縮音声素片のアドレスや差分音声素片のアドレスの情報が付与された音声素片読出し信号である。
11は、音声合成をするために最低限必要な種類の圧縮音声素片を格納した圧縮音声素片辞書であり、高速メモリ13に記憶されている。具体的には圧縮音声素片辞書11は、図3に示すようにヘッダー記録部分とコードベクトルデータ記録部分から構成されている。
圧縮音声素片は、後述する音声波形又は音声スペクトル等をベクトル量子化し、フレーム(例えば20msec)毎に分けられた複数のコードベクトルから構成されているため、ヘッダ記憶部分には各音声素片名のフレーム毎に割り当てられたコードベクトルのアドレスが格納されている。例えば、音声素片を20msecのフレームに分ける場合、音声素片名「ka」は3つのコードベクトルから構成され、それらのコードベクトルはそれぞれアドレス101、103、153に記憶されている。これらコードベクトルのデータは、非圧縮音声素を圧縮し、圧縮後の音声素片をフレーム毎に分けたデータである。
なお、圧縮音声素片辞書11には音声合成をするために最低限必要な種類の圧縮音声素片が格納されているため、後述する差分音声素片辞書12を使用しなくても当該圧縮音声素片辞書のみで一通りの合成音声を生成することができる。ここで、最低限必要な音声素片とは、130種程度の基本的な音声素片である。基本的な音声素片の例として「ka」、「ki」、「ku」、「ke」、「ko」等がある。
12は、圧縮音声素片と非圧縮音声素片との差分である差分音声素片からなる差分音声素片辞書であり、低速メモリ14に記憶されている。具体的には図4が示すように、差分音声素片辞書12は、高速メモリ13上の圧縮音声素片辞書11に記憶されたコードベクトルと非圧縮音声素片との差分データが記憶されている。圧縮音声素片が複数フレームで構成されている場合には、差分データは、非圧縮音声素片と当該コードベクトルとの差分を複数個連結したものとなる。
ここで、差分音声素片について音声素片名「ka」を例にとって説明する。「ka」の非圧縮音声素片は、フレーム単位(例えば20msec)のベクトル列として、次のように表現できる。
A = X1 X2 X3…Xn
圧縮音声素片をベクトル列a、差分音声素片をベクトル列bとする。このとき、圧縮音声素片ベクトル列aは、全ての音声素片をフレーム単位でベクトルに量子化して得られたコードベクトルから選択した最近傍コードベクトルの列(連結)として、以下のように表すことができる。
a = x1 x2 x3…xn
よって、差分音声素片のベクトル列bは、Aとaの差分であるから、
b = (X1 −x1 ) (X2 −x2 ) (X3 −x3 )…(Xn −xn)
と表せる。このように、差分音声素片は、音声素片と圧縮音声素片との差分になる。音声素片名(例えば「ka」)の一部の圧縮されていない音声波形が図6の(A)に示すような場合、圧縮音声素片の波形(例えば、コードベクトルを波形化したもの)は図6に示す(a)になり、差分音声素片の波形は図6に示す(b)になる。14は、差分音声素片辞書12を搭載した低速メモリである。低速メモリ14の例として、例えば、ハードディスク又は着脱可能メモリがある。
A = X1 X2 X3…Xn
圧縮音声素片をベクトル列a、差分音声素片をベクトル列bとする。このとき、圧縮音声素片ベクトル列aは、全ての音声素片をフレーム単位でベクトルに量子化して得られたコードベクトルから選択した最近傍コードベクトルの列(連結)として、以下のように表すことができる。
a = x1 x2 x3…xn
よって、差分音声素片のベクトル列bは、Aとaの差分であるから、
b = (X1 −x1 ) (X2 −x2 ) (X3 −x3 )…(Xn −xn)
と表せる。このように、差分音声素片は、音声素片と圧縮音声素片との差分になる。音声素片名(例えば「ka」)の一部の圧縮されていない音声波形が図6の(A)に示すような場合、圧縮音声素片の波形(例えば、コードベクトルを波形化したもの)は図6に示す(a)になり、差分音声素片の波形は図6に示す(b)になる。14は、差分音声素片辞書12を搭載した低速メモリである。低速メモリ14の例として、例えば、ハードディスク又は着脱可能メモリがある。
15は、音声素片読出し信号8に基づいて、圧縮音声素片辞書11から圧縮音声素片を読出し、又は、圧縮音声素片辞書11から圧縮音声素片及び差分音声素片辞書12から差分音声素片を読出し、当該音声素片を入力テキスト1の文字列順に順次接続処理し合成パラメータを生成する音声合成生成部である。
17は、テキスト解析結果3に基づいて、合成音声を自然な音声にするためのアクセントやイントネーションである韻律情報が付与された韻律制御データ18を生成する韻律生成部である。19は、合成パラメータ及び韻律制御データ18に基づいて合成音声20を生成する音声合成部である。
次に、以上の構成からなる音声合成装置の動作について説明を行なう。テキスト解析部2は、入力テキスト1に記載された文章の解析を行ない、音声素片の種類、モーラ長、アクセント区切り位置を含むテキスト解析を行い、その結果であるテキスト解析結果3を出力する。
次に、音声素片選択部7は、上記テキスト解析結果3及び制御情報4を受け取る。ここで制御情報4は、例えば「0」又は「1」の信号である。中央処理演算装置(CPU)の負荷情報が高い場合、低速メモリ14が故障している場合、合成音声を作成する目標時間が短い場合、合成音声素片に対する質の要求が低い場合等、高速メモリを単独で使用すべきとの要件がある場合には制御情報4の信号は「0」である。一方、中央処理演算装置(CPU)の負荷情報が低い場合、低速メモリ13が正常な場合、合成音声を作成する目標時間が長い場合、合成音声素片に対する質の要求が高い場合等、高速メモリ、低速メモリの両方を使用すべきとの要件がある場合には制御情報4の信号は「1」である。
なお、中央処理演算装置(CPU)の負荷情報による要件、低速メモリ14の故障情報による要件、合成音声を作成する目標時間の情報による要件、合成音声素片に対する質の要求情報による要件、という要件が併合して起こる場合がある(例えば、質のよい音声で、音声合成時間が短い要求がある場合)。この場合は、当該音声合成装置のおかれた環境に依存する。
例えば、当該音声合成装置がカーナビゲーションに搭載された場合であって、当該カーナビゲーションが搭載された自動車が車線の変更が多い道を走行している場合には、図7が示すように要件の優先順位が決まる。すなわち、低速メモリが故障している場合には低速メモリの使用は不可能になるために、まず低速メモリ14が故障情報の優先度が高い。次に、車線の変更が多い道であるために次に曲がる道の情報を即座に入手する必要があるので、合成音声を作成する目標時間情報が次に優先度が高い。次に、当該カーナビゲーションが同時に他の処理をしている場合には、他の処理の速度が遅くなるために、中央処理演算装置(CPU)の負荷情報の優先度は次に高い。次に、曲がりくねった道等を走行している場合には必要な情報さえあれば良く、さほど合成音声の質を求めないために合成音声素片に対する質の要求情報の優先度は低い。以下、制御情報4が「0」の場合「1」の場合についてそれぞれ場合分けをして説明する。
制御情報4が「0」の場合、すなわち高速メモリを単独で使用する場合には、音声素片選択部7は、当該制御情報4に基づいて、図2に示される音声素片テーブル6から圧縮音声素片のアドレスのみを読みこむ。そして当該アドレスを音声素片読出し信号8として出力する。例えばテキスト解析結果により音声素片名が「ki」である場合には、音声素片選択部7は音声素片テーブル6から当該音声素片名「ki」に対応したアドレス2を読みこみ、それに基づいた信号を音声素片読出し信号8として出力する。
次に、音声素片生成部15では、音声素片読出し信号8を受信し、図2に示される当該アドレスに基づいて、図3に示される高速メモリ上の圧縮音声素片のコードベクトルデータのみを読みこむ。例えば、テキスト解析結果により音声素片名が「ki」である場合には、ヘッダ記憶部分のアドレス2に基づいて、フレーム毎に割り当てられたコードベクトルへのアドレスであるアドレス123、アドレス101を読み出し、当該アドレスに基づいて、コードベクトルデータ記憶部分のアドレス123、アドレス101に対応するコードベクトルのデータを読みこむ。そして、当該コードベクトルのデータを読み出してコードベクトルを順次接続し合成パラメータ16を生成し出力する。
一方、韻律生成部17では、テキスト解析結果3に基づいて、韻律制御データ18を生成する。
音声合成部19では、合成パラメータ16及び韻律制御データ18に基づいて、合成音声20を生成する。ここで高速メモリ13の圧縮音声素片辞書11には、合成音声に必要な音声素片に対する圧縮音声素片が一通り揃っているので、たとえ低速メモリ14に記録された差分音声素片を使用しなくても、音声合成部19では合成音声が生成される。
制御情報4が「1」の場合には、音声素片選択部7は、当該制御情報4に基づいて、音声素片テーブル6から高速メモリ上の圧縮音声素片のアドレス及び低速メモリ上の差分音声素片のアドレスを読みこむ。そして当該両アドレスに基づいた音声素片読出し信号8を出力する。例えばテキスト解析結果により音声素片名が「ki」である場合には、音声素片選択部7は音声素片テーブル6から図2に示すアドレス2及びアドレス1002を読みこみ、それに基づいた信号を音声素片読出し信号8として出力する。
次に、音声素片生成部15では、音声素片読出し信号8を受信し、当該信号に示されたアドレスに基づいて、図3及び図4に示す圧縮音声素片のコードベクトルデータ及びコードベクトルと非圧縮音声素片との差分である差分データを読みこむ。例えば、テキスト解析結果により音声素片名が「ki」である場合には、高速メモリのヘッダ記憶部分のアドレス2に基づいて、フレーム毎に割り当てられたコードベクトルへのアドレスであるアドレス123、アドレス101を読出し、当該アドレスに基づいて、コードベクトルデータ記憶部分のアドレス123、アドレス101に対応するコードベクトルのデータを読みこむ。一方、低速メモリアドレス1002にあるコードベクトルと非圧縮音声素片との差分である差分データ2を読みこむ。そして、当該コードベクトルのデータ及び差分データを読み出して加算して非圧縮音声素片を生成し、更には加算された波形を順次接続する事により合成パラメータ16を生成し出力する。
加算による合成パラメータ16の作成方法は、例えば単なるベクトルの加算がある。圧縮音声素片をベクトル列a、差分音声素片をベクトル列bとする。このとき、a は、全ての音声素片をフレーム単位でベクトル量子化して得られたコードベクトルから選択した最近傍コードベクトルの列(連結)として、以下のように表すことができる。
a = x1 x2 x3…xn
一方、b を
b = Y1 Y2 Y3…Yn
とすると、加算後のベクトル列cは、
c= (x 1 +Y1 ) (x 2 +Y2 ) (x 3 +Y3 )…(xn +Yn )
となる。
a = x1 x2 x3…xn
一方、b を
b = Y1 Y2 Y3…Yn
とすると、加算後のベクトル列cは、
c= (x 1 +Y1 ) (x 2 +Y2 ) (x 3 +Y3 )…(xn +Yn )
となる。
一方、韻律生成部17では、テキスト解析結果3に基づいて、韻律制御データ18を生成する。韻律制御データ18とは、音声合成部19において合成音声のイントネーションやアクセントを自然な音声とするための制御データである。
音声合成部19では、合成パラメータ16及び韻律制御データ18に基づいて、合成音声20を生成する。
以上のように、本実施の形態によれば、圧縮音声素片による音声合成を可能としているので、合成速度の早い音声合成が可能な圧縮音声素片のみの読み出しと合成速度は遅いが質の良い音声合成が可能な非圧縮音声素片(圧縮音声素片+差分音声素片)の読み出しとを選択して行えるため、音声合成装置の中央処理演算装置(CPU)の負荷値に基づく制御情報、合成音声に生成する目標である時間による制御情報、合成音声に対する要求する質による制御情報等、動的な要求に応じた音声合成ができる。
さらに本実施の形態によれば、上記圧縮音声素片を高速メモリに記憶させるようにしたので、圧縮音声素片による音声合成の速度が更に高まるとともに、低速メモリ14が故障した場合には、高速メモリの圧縮音声素片辞書のみを用いて、合成音声の生成を行うことができる。
また、高速メモリ13上の圧縮音声素片辞書11がコードベクトルで構成されているのに対して、低速メモリ14上の差分音声素片辞書12が差分データで構成されているので、通常は、差分音声素片辞書のデータサイズの方が大きい。本実施の形態では、高速メモリに合成音声の生成に必要な最低限の情報のみ記憶させ、その記憶は、圧縮した形でしているので、高速メモリに記憶される情報は、軽量となり、値段が高い高速メモリの使用を軽減する事ができる。
なお、本実施の形態では、低速メモリに差分音声素片を記憶させ、非圧縮音声素片の読み出しに際しては高速メモリと低速メモリの双方を用いるようにしたが、低速メモリに非圧縮音声素片そのものを記憶させ、非圧縮音声素片の読み出しに際しては低速メモリのみを用いて読み出すようにしても良い。
また、本実施の形態によれば、高速メモリ上の圧縮音声素片辞書は、音声波形又は音声スペクトル等を離散的にベクトル量子化することによって得られたコードベクトルからなり、低速メモリ上の差分音声素片辞書は、圧縮していない音声素片と前記コードベクトルとの差分データからなるとして説明したが、例えば圧縮音声素片辞書11には、音声波形又は音声スペクトルの低周波成分を格納し、差分音声素片辞書は、非圧縮音声素片と前記の音声素片の低周波成分との差分である高周波成分を格納するように構成してもよい。
更に、圧縮音声素片辞書は、音声波形もしくは音声スペクトルをカットオフ周波数が4kHzのローパスフィルタにかけることによって作成し、一方、差分音声素片辞書は、前記の音声波形もしくは音声スペクトルをカットオフ周波数が4kHzのハイパスフィルタにかけることによって作成するようにしても良い。このように構成することによって、圧縮音声素片辞書だけを用いて音声合成を行った場合でも、入力テキスト1に対応した任意の合成音声を生成することができる。
また、高速メモリとしてSRAM等のRAMを使用する場合には、RAMは揮発性であるために、当該音声合成装置がたちあがると同時に当該RAM以外のメモリからRAMによるメモリに対して圧縮音声素片のデータを転送するようにしても良い。
また、本実施の形態によれば、第一のメモリとして高速メモリ、第二のメモリとして低速メモリとして説明した。しかし、本実施の形態はそれに限定されることはない。例えば、第一のメモリと第二のメモリが同等の読み込み速度の場合も含まれる。
実施の形態2
実施の形態1において、高速メモリ13に格納されている圧縮音声素片及び低速メモリ14に格納されている差分音声素片は、音韻環境が考慮されていない。しかし本実施の形態では、高速メモリ13に格納されている圧縮音声素片及び低速メモリ14に格納されている差分音声素片は音声素片の直前直後の音韻環境を考慮して構成されている。ここで音韻環境を考慮するとは、音声素片の前後の連なりを考慮することである。音韻環境の違いによる音声素片の相違としては、「会社」における「ka」、「科学者」における「ka」がある。すなわち、同じ「ka」でもその前後の連なりにより音声素片が変わることである。
実施の形態1において、高速メモリ13に格納されている圧縮音声素片及び低速メモリ14に格納されている差分音声素片は、音韻環境が考慮されていない。しかし本実施の形態では、高速メモリ13に格納されている圧縮音声素片及び低速メモリ14に格納されている差分音声素片は音声素片の直前直後の音韻環境を考慮して構成されている。ここで音韻環境を考慮するとは、音声素片の前後の連なりを考慮することである。音韻環境の違いによる音声素片の相違としては、「会社」における「ka」、「科学者」における「ka」がある。すなわち、同じ「ka」でもその前後の連なりにより音声素片が変わることである。
本実施の形態では、同じ音声素片名であるが、前後の音韻環境が異なる複数の音声素片から平均的な音声素片を生成して圧縮音声素片とし圧縮音声素片辞書11に格納する。一方、上記圧縮音声素片と上記圧縮音声素片に対応した音声素片であって音声素片の音韻環境を考慮した音声素片との差分である差分音声素片を差分音声素片辞書12に格納する。
なお、圧縮音声素片として人が音として最低限必要な音声素片とは、先行する母音などを考慮した音声素片であれば800種程度である。
例えば、同じ「ka」の音声素片であるが、前後環境が異なる複数の音声素片から音声波形や音声スペクトル等の平均を求めてその平均である「ka」の音声素片を圧縮音声素片とする。一方、前後環境がともに「a」の「ka」(「(a)ka(a)」)の音声素片と上記「ka」の圧縮音声素片との差分を求めて、これを「ka」の音声素片の前後が(a)である場合の差分音声素片とする。
図5は、音声素片テーブル6の構成例であり、各音声素片に対して、圧縮音声素片のアドレスと、差分音声素片のアドレスが格納されている。例えば、前後環境がともに「a」である「ka」の高速メモリ13上の圧縮音声素片のアドレスは「アドレス201」であり、同様に、低速メモリ14上の差分音声素片のアドレスは「アドレス20101」である。
次に、以上の構成からなる音声合成装置の動作について説明を行なう。なお、実施の形態1と共通する部分については説明を省略する。
制御情報4が「0」の場合、すなわち高速メモリを単独で使用する場合には、音声素片選択部7は、当該制御情報4に基づいて、図5に示される音声素片テーブル6から圧縮音声素片のアドレスのみを読みこむ。そして当該アドレスを音声素片読出し信号8として出力する。例えばテキスト解析結果により音声素片名が「ki」である場合には、音声素片選択部7は音声素片テーブル6から当該音声素片名「ki」に対応したアドレス202を読みこみ、それに基づいた信号を音声素片読出し信号8として出力する。
次に、音声素片生成部15では、音声素片読出し信号8を受信し、図2に示される当該アドレスに基づいて、図7に示される高速メモリ上の圧縮音声素片のみを読みこむ。例えば、テキスト解析結果により音声素片名が「ki」である場合には、アドレス202に基づいて、圧縮音声素片を読みこむ。そして、当該圧縮音声素片を順次接続し合成パラメータ16を生成し出力する。
制御情報4が「1」の場合には、音声素片選択部7は、当該制御情報4に基づいて、図5に示す音声素片テーブル6から圧縮音声素片のアドレス及び差分音声素片のアドレスを読みこむ。そして当該両アドレスに基づいた音声素片読出し信号8を出力する。例えばテキスト解析結果により音声素片名が「(a)ki(a)」である場合には、音声素片選択部7は音声素片テーブル6からアドレス202及びアドレス20201を読みこみ、それに基づいた信号を音声素片読出し信号8として出力する。
次に、音声素片生成部15では、音声素片読出し信号8を受信し、当該信号に示されたアドレスに基づいて、圧縮音声素片及び差分音声素片を読みこむ。例えば、テキスト解析結果により音声素片名が「(a)ki(a)」である場合には、アドレス202に基づいて、圧縮音声素片を読みこみ、アドレス20201に基づいて差分音声素片を読みこむ。そして、圧縮音声素片及び差分音声素片を読み出して加算し、更には加算された波形を順次接続する事により合成パラメータ16を生成し出力する。
以上のように、この実施の形態2によれば、音声合成装置の中央処理演算装置(CPU)の負荷値に基づく制御情報によって、音声素片読出し信号を高速メモリ13とする場合と、高速メモリ13と低速メモリ14の両方とする場合を動的に制御しながら、合成音声を生成することが可能であり、低速メモリ14単独でも任意のテキストに対して合成音声を生成することが可能である。特に低速メモリが故障した場合には、高速メモリの圧縮音声素片辞書のみを用いて、合成音声の生成を行うことができる。
また、通常は、差分音声素片辞書のデータサイズの方が大きい。それに対して、本実施の形態では、差分音声素片を低速メモリに格納することで、高速メモリには軽い情報量のみを格納すれば良く、値段が高い高速メモリの使用を軽減する事ができる。
なお、本実施の形態では、低速メモリに差分音声素片を記憶させ、非圧縮音声素片の読み出しに際しては高速メモリと低速メモリの双方を用いるようにしたが、低速メモリに非圧縮音声素片そのものを記憶させ、非圧縮音声素片の読み出しに際しては低速メモリのみを用いて読み出すようにしても良い。
1 入力テキスト1
2 テキスト解析部
3 テキスト解析結果
4 制御情報
6 音声素片テーブル
7 音声素片選択部
8 音声素片読出し信号
11 圧縮音声素片辞書
12 差分音声素片辞書
13 高速メモリ
14 低速メモリ
15 音声素片生成部
16 合成パラメータ
17 韻律生成部
18 韻律制御データ
19 音声合成部
2 テキスト解析部
3 テキスト解析結果
4 制御情報
6 音声素片テーブル
7 音声素片選択部
8 音声素片読出し信号
11 圧縮音声素片辞書
12 差分音声素片辞書
13 高速メモリ
14 低速メモリ
15 音声素片生成部
16 合成パラメータ
17 韻律生成部
18 韻律制御データ
19 音声合成部
Claims (3)
- 音声素片を圧縮してなる圧縮音声素片とこの圧縮音声素片に対応した非圧縮の音声素片、
又は、上記圧縮音声素片と上記非圧縮の音声素片との差分に基づく差分音声素片と上記圧縮音声素片を格納したメモリと、
このメモリに格納された音声素片を選択する音声素片選択部と、
この音声素片選択部の選択に基づき、上記圧縮音声素片又は非圧縮音声素片の何れか一方を読み出す音声素片生成部と
を備えた音声合成装置。 - メモリは第一のメモリ及び第二のメモリからなり、上記第一のメモリには圧縮音声素片が、上記第二のメモリには非圧縮音声素片又は差分音声素片が記憶されていることを特徴とする請求項1に記載の音声合成装置。
- 第一のメモリは高速メモリであり、第二のメモリは低速メモリであることを特徴とする請求項2に記載の音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004185157A JP2006010849A (ja) | 2004-06-23 | 2004-06-23 | 音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004185157A JP2006010849A (ja) | 2004-06-23 | 2004-06-23 | 音声合成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006010849A true JP2006010849A (ja) | 2006-01-12 |
Family
ID=35778213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004185157A Pending JP2006010849A (ja) | 2004-06-23 | 2004-06-23 | 音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006010849A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007264503A (ja) * | 2006-03-29 | 2007-10-11 | Toshiba Corp | 音声合成装置及びその方法 |
JP2010140414A (ja) * | 2008-12-15 | 2010-06-24 | Hitachi Ltd | 電子メール音声読上げシステム |
JP2013003559A (ja) * | 2011-06-22 | 2013-01-07 | Hitachi Ltd | 音声合成装置、ナビゲーション装置および音声合成方法 |
US9224780B2 (en) | 2012-05-31 | 2015-12-29 | Samsung Electronics Co., Ltd. | Complementary metal-oxide-semiconductor (CMOS) image sensor including a junction field effect transistor |
-
2004
- 2004-06-23 JP JP2004185157A patent/JP2006010849A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007264503A (ja) * | 2006-03-29 | 2007-10-11 | Toshiba Corp | 音声合成装置及びその方法 |
JP2010140414A (ja) * | 2008-12-15 | 2010-06-24 | Hitachi Ltd | 電子メール音声読上げシステム |
JP2013003559A (ja) * | 2011-06-22 | 2013-01-07 | Hitachi Ltd | 音声合成装置、ナビゲーション装置および音声合成方法 |
US9224780B2 (en) | 2012-05-31 | 2015-12-29 | Samsung Electronics Co., Ltd. | Complementary metal-oxide-semiconductor (CMOS) image sensor including a junction field effect transistor |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4516863B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
EP1071074A2 (en) | Speech synthesis employing prosody templates | |
US10706837B1 (en) | Text-to-speech (TTS) processing | |
US10699695B1 (en) | Text-to-speech (TTS) processing | |
JP5198046B2 (ja) | 音声処理装置及びそのプログラム | |
US6424937B1 (en) | Fundamental frequency pattern generator, method and program | |
JP2003108178A (ja) | 音声合成装置及び音声合成用素片作成装置 | |
JP2006010849A (ja) | 音声合成装置 | |
JP3518898B2 (ja) | 音声合成装置 | |
JP2005018037A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JPH08335096A (ja) | テキスト音声合成装置 | |
JPH0419799A (ja) | 音声合成装置 | |
JP3109778B2 (ja) | 音声規則合成装置 | |
JP4751230B2 (ja) | 韻律素片辞書作成方法、並びに音声合成装置及びプログラム | |
JPH08248993A (ja) | 音韻時間長制御方法 | |
JPH11249679A (ja) | 音声合成装置 | |
JP2004516515A (ja) | 区別された音声出力のための装置及び方法 | |
JPH07200554A (ja) | 文章読み上げ装置 | |
JP3771565B2 (ja) | 基本周波数パタン生成装置、基本周波数パタン生成方法、及びプログラム記録媒体 | |
JPH11249676A (ja) | 音声合成装置 | |
JP2584236B2 (ja) | 規則音声合成装置 | |
JP2987089B2 (ja) | 音声素片作成方法および音声合成方法とその装置 | |
JP2003066983A (ja) | 音声合成装置および音声合成方法、並びに、プログラム記録媒体 | |
JP2001350490A (ja) | テキスト音声変換装置及び方法 |