JP2006126413A

JP2006126413A - 音声合成装置、音声合成方法及び音声合成プログラム

Info

Publication number: JP2006126413A
Application number: JP2004313621A
Authority: JP
Inventors: Hideyuki Mizuno; 秀之水野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-10-28
Filing date: 2004-10-28
Publication date: 2006-05-18
Anticipated expiration: 2024-10-28
Also published as: JP4441380B2

Abstract

【課題】入力されたテキストから生成される合成音声の品質を現実的に向上させる。
【解決手段】テキスト分類部４０が、入力テキストを所定のカテゴリに割り当て、サブコスト重み決定部５０が、このカテゴリに対応するサブコスト重みを決定する。また、音韻韻律抽出部６０が、入力テキストの読み情報及び韻律情報を抽出し、これらの組をキーとして、音声データベースメモリ２０から、これらの組の類似範囲に属する読み情報及び韻律情報の組を選択する。次に、サブコスト算出部８０が、入力テキストの読み情報及び韻律情報の組と、選択された読み情報及び韻律情報の組とを用い、サブコスト値を算出し、総合コスト計算部９０が、これをサブコスト重みで重み付け統合した総合コスト値を算出する。そして、音声素片選択部１００が、総合コスト値を最小値化する音声素片を選択し、音声素片接続部１１０が、これらを接続して合成音声を生成する。
【選択図】図１

Description

本発明は、テキスト内容から合成音声を生成する音声合成装置、音声合成方法及び音声合成プログラムに関する。

近年、大容量な記憶装置の使用コストの低下に伴い、数十分以上の大容量の音声データをそのまま大容量の記憶装置に蓄積し、入力されたテキスト及び韻律情報に応じて音声素片を適切に選択し、接続・変形することで高品質な音声を合成する波形接続型コーパスベース音声合成方法が提案されている（例えば、特許文献１、非特許文献１参照）。
この方法では、まず、音声デー夕ベースから、合成したい文字列に対応する音韻系列と部分的または完全に一致する音声素片をバイナリーツリー等で構成された音声素片辞書を用いて検索する。次に、音声素片の類似度を評価するための複数のパラメータに基づく評価尺度に従って、検索された多数の音声素片にコスト付けを行う。そして、DP（Dynamic Programming：動的計画法）等の方法によって、これらの音声素片の中から適切な音声素片の組み合わせを選択し、選択された音声素片を順に接続することで音声合成を行う（例えば、非特許文献２参照）。

このような方式によって、原理的には肉声同等の高品質な合成音声を生成することが可能になってきている。しかし、この方式で高品質な合成音声が生成できるのは、適切な音声素片が音声デー夕ベースに存在していることが前提であって、そもそも適切な音声素片が音声デー夕ベースに存在しない場合には、高品質な合成音声を生成することはできない。従って、様々なテキストを高品質に音声合成するためには、豊富な音声素片のバリエーションを含む音声データベースを用いることが必須である。そのため近年では、音声素片のバリエーションを増やし合成音声を高品質化するために、音声データベースの容量をより一層増加させる方向で開発が進んでいる。
特許２７６１５５２号公報 M. Beutnagel, A. Conkie, J. Schoroeter, Y. Stylianou, and A. Sydral, "Chose the best to modify the least: A new generation concatenative synthesis system", in Proc. Eurospeech'99, 1999, pp. 2291-2294 波形編集型規則合成法における波形選択法、広川他、電子情報通信学会音声研究会資料、SP89-114, pp.33-40(1990)

しかし、音声素片の音声データベースを大容量化することによって合成音声の高品質化を図る手法では、実際上、高品質な合成音声を生成できない場合があるという問題点がある。
すなわち、音声データベースを大容量化することで、ある程度の合成音声の品質は向上されてきたものの、時間的・費用的な問題から音声デー夕ベースに収録可能な音声情報の量には限界がある。そのため、事実上、日本語として想定できる全ての音声素片を音声デー夕ベースに収録しておくことは不可能である。

また、音声データベースに音声を収録するためには、予め読み上げるための文章（収録用テキスト）を用意する必要があるが、ここでも日本語として想定できる全てのテキストを集めることは不可能である。そのため、音声データベースへの音声収録の際には、ある程度限定された内容のテキストを読み上げることになり、その結果、音声デー夕ベースに収録される音声の内容には偏りが生じる。具体的には、例えば日常的な会話など音声としては一般的だが、それを書き起こしたテキストなどが通常は存在しない分野の場合にはテキストを集めることは困難であるし、医療や法律分野などの専門分野のように分野特有の専門用語が多数ある場合には、全ての分野の専門用語やそれを含むテキストを集めることは困難である。その結果、結果音声デー夕ベースに収録される音声は、新聞や小説等の簡単かつ大量に収集可能な分野のテキストを基本として生成された収録用テキストを読み上げたものが中心となる。そのため、基本となるテキストを十分収集できない分野では、他の分野のテキストを読み上げて収録した音声素片を用いて合成音声を作成せざるを得ない。

以上のような状況下、非特許文献２では、適切な音声素片を選択する手法として、単独又は複数の物理的なパラメー夕を組み合わせた物理的な尺度と、ピッチやパワー等の韻律的な尺度を組み合わせた評価尺度を設定し、それらの尺度に基づいて音声デー夕ベースから音声素片を選択する手法をとっている。具体的には、まず、物理的なパラメータから音声間の類似度を算出するサブコスト関数を音声の各物理パラメータに対して準備する。次に、このサブコスト関数に、合成音声を生成しようとする入力テキストから計算上求められた物理パラメータと、音声デー夕ベースの音声素片の物理パラメータとを代入し、入力テキストと音声素片とのサブコストを求める。なお、このサブコストは、物理パラメータごとに求められる。そして、先見的な知識に基づいてこれらのサブコストを重み付けし、それらを組み合わせて、入力テキストと音声素片との総合コストを求め、この総合コストに基づいて音声素片が適切であるか否かを判断する。

しかしながら、通常、適正なバランスをとってこのサブコストの重み付けを行うことは困難である。なぜなら、テキストの種類によって使用される言葉の頻度も異なり、最も良い合成音声が得られるサブコストの重み付けも異なってくるからである。そのため、従来は、多様なテキストを用いてそれらの音声合成を行い、その合成音声の品質が平均的に向上するようにサブコストの重み付けをチューニングする場合が多かった。
その結果、これにより決定される重み付けは、平均的なテキスト或いは音声データベースに多く収録されているような一般的な分野のテキストの合成に適したものとなる。従って、専門分野や音声デー夕ベースに収録されていないような分野のテキストを合成した場合には、音声デー夕ベースから最適な音声素片を選択することができず、より高品質な合成音声を生成できる可能性がありながら実際に合成された音声の品質は低いという課題が存在した。

本発明はこのような点に鑑みてなされたものであり、入力されたテキストから生成される合成音声の品質を現実的に向上させることが可能な技術を提供することを目的とする。

本発明では上記課題を解決するために、入力されたテキストの内容に基づいて、当該テキストを、予め決められたカテゴリのうちの少なくとも１つのカテゴリに割り当て、テキストが割り当てられたカテゴリに対応するサブコスト重みを決定する。また、入力されたテキストの読み情報及び韻律情報を抽出し、入力されたテキストの読み情報及び韻律情報の組をキーとして、音声素片、その読み情報及び韻律情報を対応付けた音声データベースから、これらの組の類似範囲に属する読み情報及び韻律情報の組を選択する。次に、入力されたテキストの読み情報及び韻律情報の組と、探索手段において選択された読み情報及び韻律情報の組とを用い、これらの音韻及び韻律要素ごとの類似度を示すサブコスト値を算出し、サブコスト値をサブコスト重みで重み付けして統合した総合コスト値を算出する。そして、総合コスト値を最小値化する音声素片を選択し、選択された音声素片を接続して合成音声を生成する。

ここで、入力されたテキストのカテゴリに対応するサブコスト重みを決定し、それをもとに総合コスト値を算出している。そのため、カテゴリごとに最適なサブコスト重みを用いて総合コストを算出することができる。その結果、全てのカテゴリに平均的に適しているサブコスト重みを用いて総合コストを算出する場合に比べ、より適した音声素片を選択することが可能となる。

以上のように、本発明では、入力されたテキストのカテゴリに対応するサブコスト重みを用いて総合コストを算出し、音声素片を選択することとしたため、合成音声の品質を現実的に向上させることが可能となる。

以下、本発明の実施の形態を図面を参照して説明する。
＜構成＞
図１は、本形態における音声合成装置１の概念的な構成図の例示である。
この図に例示するように、音声合成装置１は、入力部５、テキストメモリ１０、音声データベースメモリ２０、メモリ３０、テキスト分類部４０、サブコスト重み決定部５０、音韻韻律抽出部６０、探索部７０、サブコスト算出部８０、総合コスト計算部９０、音声素片選択部１００、音声素片接続部１１０及び制御部１２０を有している。

ここで、メモリ３０は、カテゴリ情報格納領域３１、サブコスト対応表格納領域３２、サブコスト重み情報格納領域３３、音律韻律格納領域３４、探索結果格納領域３５、サブコスト格納領域３６、総合コスト格納領域３７及び選択音声素片格納領域３８を有している。また、音韻韻律抽出部６０は、テキスト解析部６１及び韻律物理パラメータ抽出部６２を有している。
なお、本形態の音声合成装置１は、例えば、CPU（Central Processing Unit）、RAM（Random Access Memory）、ハードディスク装置等から構成される公知のコンピュータに所定のプログラム（音声合成プログラム）を実行させることにより構成されるものである。

＜前処理＞
次に、本形態の音声合成方法における前処理について説明する。
［音声データベース］
まず、音声データベースメモリ２０に、音声合成に必要な音声素片等を有する音声データベースを格納する。
図２は、本形態における音声データベース２００のデータ構成の例示である。
図２に例示するように、この例の音声データベース２００は、音韻列２２１（「読み情報」に相当）、韻律情報２２２及び音声素片データ（デジタル信号データであり「音声素片」に相当）が対応付けられて構成される。

この例の音韻列２２１は、テキストをローマ字表記した場合のローマ字（音韻）の列であり、この例では「Ａ」「Ａｉ」「Ａｕ」「Ｉ」等が音韻列として格納されている。
韻律情報２２２は、韻律指標２２２ａと韻律物理パラメータ２２２ｂから構成される。ここで、韻律指標２２２ａは、対応する音声素片の韻律の大まかな指標を示すデータであり、この例では、前音韻環境２２２ａａ、後音韻環境２２２ａｂ及びアクセント２２２ａｃが韻律指標２２２ａに相当する。また、この例の前音韻環境２２２ａａとは、対応する音韻列２２１に対し時系列的に前の音韻を示すデータであり、この例ではポーズ（無音状態）を示す「＃」が設定されている。さらに、この例の後音韻環境２２２ａｂとは、対応する音韻列２２１に対し時系列的に後の音韻を示すデータであり、この例ではポーズ（無音状態）を示す「＃」や音韻を示す「Ｓ」「Ｇ」「Ｎ」「Ｔ」「Ｒ」等が設定されている。また、この例のアクセント２２２ａｃとは、対応する音韻列２２１にアクセントがあるか、あるとすればどこにアクセントがあるかを示すデータである。この例では、「０」は対応する音韻列２２１にアクセントがないことを示し、「１」は対応する音韻列２２１の一音目にアクセントがあり、「２」は２音目にアクセントがあることを示している。

また、韻律物理パラメータ２２２ｂとは、対応する音声素片の韻律の物理量を示すデータであり、この例では、平均Ｆ０（基準周波数）（Ｈｚ）２２２ｂａ、Ｆ０の傾斜（Ｈｚ／ｍｓ）２２２ｂｂ、時間長（ｍｓ）２２２ｂｃ、パワー（ｄＢ）２２２ｂｄが韻律物理パラメータ２２２ｂに相当する。
［サブコスト対応表］
本形態では、メモリ３０のサブコスト対応表格納領域３２にサブコスト対応表を格納しておく。

図３は、本形態におけるサブコスト対応表３００のデータ構成の例示である。
この例のサブコスト対応表３００は、テキストのカテゴリとサブコストとを対応付けた表である。図３の例のサブコスト対応表３００は、N個のカテゴリ１〜ＮのカテゴリとM個のサブコストＡ〜Mとに対し、サブコスト重みを対応付けた表である。
この例の場合、「カテゴリ１」に対し、「サブコストA」「サブコストB」…「サブコストC」のサブコスト重み「W_1A」「W_1B」…「W_1M」が対応付けられ、「カテゴリ２」に対し、「サブコストA」「サブコストB」…「サブコストC」のサブコスト重み「W_2A」「W_2B」…「W_2M」が対応付けられ、「カテゴリN」に対し、「サブコストA」「サブコストB」…「サブコストC」のサブコスト重み「W_NA」「W_NB」…「W_NM」が対応付けられている。

ここで、「カテゴリ」とは、テキストの分野や種類を示す情報である。このカテゴリは事前に決定しておくが、そのカテゴリは、単一の分類基準をもとに分野や種類を分類したものであってもよく、また、複数の分類基準をもとに分野や種類を分類したものであってもよい。具体的には、例えば「媒体の種類」という単一の分類基準をもとに「辞書」「雑誌」「本」のようにカテゴリを設定してもよく、例えば「媒体の種類」「分野」という２つの分類基準をもとに「辞書」「雑誌」「本」というカテゴリと「自然科学」「文学」「法律」というカテゴリとを多次元的に設定してもよい。

また、この例の「サブコスト」とは、２つの音声間における、読み情報及び音韻情報の各要素の類似度を示す値である。すなわち、読み情報の類似度を示すサブコスト、音韻情報である平均F0の類似度を示すサブコスト、アクセントの類似度を示すサブコスト等を例示できる。なお、本形態の音声合成処理では、読み情報のみについてのサブコストを用いることとしてもよく、音韻情報のみのサブコストを用いることとしてもよく、音韻情報の一部に係るサブコストのみを用いることとしてもよいが、多くの種類のサブコストを用いたほうが高い品質の合成音声を生成できる。

さらに、「サブコスト重み」とは、複数のサブコストから総合コスト（２つの音声間における類似度を示すコスト）を算出する際に用いる、各サブコストの重み付け定数を意味する。例えば、サブコストA，B，Cに対するサブコスト重みがW_A，W_B，W_Cであった場合、W_A・AとW_B・BとW_C・Cとによって総合コストが決定される。
［サブコスト対応表の生成手法］
サブコスト対応表３００のカテゴリは、例えば、テキスト分類部４０が実行する手順（後述）によって、所定のテキストを、単一の分類基準或いは複数の分類基準をもとに設定された予備的なカテゴリに割り当て、当該テキストが複数の当該予備的なカテゴリに割り当てられることとなった場合に、当該複数の予備的なカテゴリを１つのカテゴリに統合するという処理により決定する。

すなわち、まず音声言語に関する先見的な知見に基づいてテキストが分類できそうなカテゴリを単一の分類基準をもとに予備的に決める。次に、音声デー夕ベース２００中に含まれる音声素片データ２２３を収録する時に読み上げた収録リスト（テキスト）を、これらの予備的なカテゴリに分類する。その結果、同じテキストが単一の予備的なカテゴリに分類された場合には、この予備的なカテゴリをサブコスト対応表３００のカテゴリとして決定し、同じテキストが複数の予備的なカテゴリに重複して分類された場合には、このテキストが分類された複数の予備的なカテゴリを１つのカテゴリとして新たに生成する。例えば、予備的なカテゴリとしてAからJまで１０のカテゴリを考えたとき、収録リスト（テキスト）が単一のカテゴリB、D、GとカテゴリAとカテゴリCの多重力テゴリ、カテゴリBとカテゴリDの多重力テゴリのように分類されたとする。この場合、カテゴリB、D、Gはそのまま単一のカテゴリとし、カテゴリAとカテゴリCの多重カテゴリをカテゴリKとし、カテゴリBとカテゴリDの多重力テゴリをカテゴリLとして新たに定義する。これは、実際には、カテゴリAの特徴とカテゴリCの特徴とを備えたテキスト（或いはカテゴリAとカテゴリCが本来１つのカテゴリであった）や、カテゴリBの特徴とカテゴリDの特徴とを備えたテキストが存在したため、これらのテキストのカテゴリK，Lを新たに設定したものである。また、例えば収録リスト（テキスト）が分類され無かったカテゴリC、E、F、H、T、Jを統合して、カテゴリMを新たに設けてもよい。これは、実際には、カテゴリC、E、F、H、T、Jに存在するテキストが存在しなかったため、これらのカテゴリをカテゴリMに統合したものである。この場合、結果的にカテゴリは、A、B、D、G、K、L、Mの7カテゴリとなる。こうすることで、単に先見的なテキストの種別だけでカテゴリを分けるより、実際に音声合成で用いる音声デー夕ベースに適合したカテゴリの設定が可能となる。

また、サブコスト対応表３００のサブコスト重みは、例えば、以下のように決定する。
すなわち、上述のようにカテゴリを決定した後、大量のテキストコーパスを新たに設定したカテゴリで分類し（後述）、カテゴリ毎に複数のテキスト抽出して、まずは初期値として適当なサブコスト重みでそれらのテキストに対応する合成音声を作成し聴取して品質を確認する。後はカテゴリ毎に適宜サブコスト値を調整しながら合成音の作成、聴取を繰り返すことで適切なサブコストを割り出し、各カテゴリに対応する各サブコストのサブコスト重みを決定する。以上により、サブコスト対応表３００が作成される。

［テキストの入力］
合成音声を生成しようとするテキストを入力部５に入力し、この入力されたテキストをテキストメモリ１０に格納しておく。
＜音声合成処理＞
次に、本形態における音声合成処理について説明する。なお、以下の処理は制御部１２０の制御のもと行われる。
［処理の概要］
まず、テキスト分類部４０において（図１）、入力テキストが少なくとも1つ以上のカテゴリに分類される。次に、サブコスト重み決定部５０で、分類されたカテゴリに基づいてサブコスト重み係数が決定される。また、音韻韻律抽出部６０のテキスト解析部６１において、入力テキストから読み情報と韻律指標を取得し、韻律物理パラメータ抽出部６２で、この韻律指標から韻律物理パラメータが計算される。次に、探索部７０で、読み情報及び韻律指標に対応する音声素片が探索された後、サブコスト算出部８０及び総合コスト計算部９０で、音韻韻律抽出部６０が抽出した読み情報及び韻律物理パラメー夕と、音声素片に対応する読み情報及び韻律物理パラメータとから、サブコスト関数及びサブコスト重み係数を用いて総合コストが計算される。そして最後に音声素片選択部１００及び音声素片接続部１１０で、計算された総合コスト値に基づいて音声素片を選択・接続することで音声が合成される。

［処理の詳細］
図４は、本形態における音声合成処理を説明するための流れ図である。
以下、この図に従って、本形態の音声合成処理の詳細を説明する。
まず、テキスト分類部４０が、テキストメモリ１０からテキスト（「入力されたテキスト」に相当）を読み出し（ステップＳ１）、この内容に基づいて、当該テキストを、予め決められたカテゴリのうちの少なくとも１つのカテゴリに割り当てる（ステップＳ２）。なお、この「予め決められたカテゴリ」は、前述したサブコスト対応表３００のカテゴリである。また、このテキストを予め決めておいたカテゴリヘ分類する方法は、これまで様々な方法が提案されてきたが、例えば、Joachims, T. "Text Categorization with Support Vector Machines: Learning with Many Relevant Features", Proc. of 10th European Conference on Machine Learning (ECML-98), pp.137-142(1998)を基本とした特願平１１−１９１０６４「テキスト分類学習方法及び装置及びテキスト分類学習プログラムを格納した記憶媒体」や、特願２００２−２０４４３４「テキストの多重トピックス抽出方法および装置、テキストの多量トピックス抽出プログラム、ならびに該プログラムを記録した記録媒体」などの方法により、比較的良好に分類することが可能である。

また、このカテゴリが単一の分類基準をもとに分類されたものであった場合（＜前処理＞参照）、テキスト分類部４０は、入力されたテキストを、いずれか１つのカテゴリに割り当てる。一方、このカテゴリが複数の分類基準をもとに分類されたものであった場合、テキスト分類部４０は、入力されたテキストを、複数のカテゴリに割り当てることもありうる。そして、以上のように割り当てられたカテゴリを特定するカテゴリ情報はメモリ３０に送られ、そのカテゴリ情報格納領域３１に格納される。
次に、サブコスト重み決定部５０が、カテゴリ情報格納領域３１からカテゴリ情報を読み出し、このカテゴリ情報をもとにサブコスト対応表格納領域３２のサブコスト対応表３００（図３）を参照し、テキストが割り当てられたカテゴリに対応するサブコスト重みを決定する（ステップS３）。

このサブコスト重みの決定方法は、入力されたテキストが１つのカテゴリのみに割り当てられた場合と複数のカテゴリに割り当てられた場合とで異なる。
［入力されたテキストが１つのカテゴリのみに割り当てられた場合］
この場合は、割り当てられた１つのカテゴリに対応するサブコスト重みをそのまま利用し、そのサブコスト重みを示すサブコスト重み情報をサブコスト重み情報格納領域３３に格納する。例えば、図３における「カテゴリ１」が割り当てられた場合には、サブコスト対応表３００において、「カテゴリ１」に対応付けられた「サブコストA」「サブコストB」…「サブコストC」のサブコスト重み「W_1A」「W_1B」…「W_1M」が特定され、これらの情報がサブコスト重み情報格納領域３３に格納する。

［入力されたテキストが複数のカテゴリに割り当てられた場合］
この場合は、これら複数のカテゴリに対応する予備サブコスト重みをそれぞれ決定し、当該予備サブコスト重みを、入力されたテキストと各カテゴリとの類似度（尤度を含む）をもとに重み付けして合計（サブコスト重みの重み付け和）し、この合計値を、カテゴリに対応するサブコスト重みとして決定する。

例えば入力されたテキストがN個のカテゴリに重複分類された場合に、以下のようにサブコスト重みＷを決定する。なお、ここではカテゴリｉのサブコスト重みをW_ｃｉ＝（w1_ｃｉ，w２_ｃｉ，w３_ｃｉ，…，wｍ_ｃｉ）、mをサブコスト数、Ｗｊをサブコストｊにおけるサブコスト重み、Ｐｉをカテゴリｉに対応する尤度または類似度とする。

以上のように決定されたサブコスト重みを示すサブコスト重み情報は、メモリ３０に送られ、そのサブコスト重み情報格納領域３３に格納される。

次に、音韻韻律抽出部６０は、テキストメモリ１０からステップＳ１で読み出したのと同じテキスト（「入力されたテキスト」に相当）を読み出し（ステップＳ４）、その読み情報及び韻律情報を抽出してメモリ３０の音韻韻律格納領域３４に格納する。この例の場合、まず、音韻韻律抽出部６０のテキスト解析部６１が、このテキストのテキスト解析処理を行い、読み情報と韻律指標とを抽出し、これらを音韻韻律格納領域３４に格納する（ステップＳ５）。この例のテキスト解析処理は、主に形態素解析処理と、読み・アクセント付与処理からなるが、これらの処理方法については、従来から様々な方法が存在し、例えば、特許３３７９６４３「形態素解析方法および形態素解析プログラムを記録した記録媒体」や、特許３５１８３４０「読み韻律情報設定方法及び装置及び読み韻律情報設定プログラムを格納した記録媒体」などの方法に基づいて処理を行うこともできる。

次に、韻律物理パラメータ抽出部６２において、メモリ３０の音韻韻律格納領域３４から、ステップＳ５で抽出された韻律指標を読み出し、この韻律指標に基づいて韻律物理パラメータを求めて音韻韻律格納領域３４に格納する（ステップＳ６）。ここで、韻律物理パラメータとしては、ピッチ（基本周波数）や音素継続時間長などがあるが、それらを求める方式も従来から存在する。例えば、特許３２４０６９１「ピッチパタン生成方法、その装置及びプログラム記録媒体」や、特許３３４４４８７「音声基本周波数パターン生成装置」の方法によってピッチ（基本周波数）を求めることが可能である。また、例えば、海木ら、「言語情報を利用した母音継続時間長の制御」vol. 75, No. 3 pp. 467-473、信学論や、M. D. Riley. "Tree-based modeling for speech synthesis." In G. Bailly, C. Benoit , and T. R. Sawallis, editors, Talking Machine: Theories, Models, and Designs, pages 265-273. Elsevier, 1992.などの方法で音素継続時間長を求めることができる。

次に、探索部７０が、メモリ３０の音韻韻律格納領域３４から読み情報及び韻律指標（ステップS５で格納されたものであり「入力されたテキストの読み情報及び韻律情報の組」に相当）を読み出し、この組をキーとして音声データベースメモリ２０の音声データベース２００（図２）を探索し、当該音声データベースから、これらの組の類似範囲に属する音韻列２２１（読み情報）及び韻律情報２２２（韻律指標２２２ａ＋韻律物理パラメータ２２２ｂ）の組と、それらに対応付けられている音声素片データ２２３を選択・抽出する。そして、抽出された音声素片データ２２３、音韻列２２１（読み情報）及び韻律情報２２２（韻律指標２２２ａ＋韻律物理パラメータ２２２ｂ）の探索結果は、メモリ３０の探索結果格納領域３５に格納される（ステップＳ７）。

なお、ここでいう「類似範囲」とは、例えば、読み情報及び韻律情報が完全一致するもの、一部一致するもの、コストによって特定される類似度が高いもの等を含む概念である。例えば、読み情報が「ア」であれば「ア」と発音されている音声素片、すなわち音声データベース２００の音韻列２２１が「A」である音声素片データ２２３や、韻律指標も用い、読みが「ア」、アクセント有りである音声素片、すなわち音声データベース２００の音韻列２２１が「A」であってアクセント２２２ａｃが「１」である音声素片データ２２３が類似範囲として探索されることになる。また、このステップで抽出される探索結果は１つに限られず、条件を満たすすべての音声素片データ２２３、音韻列２２１（読み情報）及び韻律情報２２２（韻律指標２２２ａ＋韻律物理パラメータ２２２ｂ）の抽出・格納が行われる。

次に、サブコスト算出部８０において、メモリ３０の音韻韻律格納領域３４から、入力テキストの読み情報（ステップＳ５で抽出）と韻律物理パラメータ（ステップＳ６で抽出）と（「入力されたテキストの読み情報及び韻律情報の組」に相当）を読み出し、探索結果格納領域３５から読み情報及び韻律物理パラメータ２２２ｂ（ステップＳ７で探索されたものであり「探索部７０において選択された読み情報及び韻律情報の組」に相当）を読み出す。そして、サブコスト算出部８０は、これらを用いて音韻及び韻律要素ごとの類似度を示すサブコストを算出し、算出されたサブコストを対応する音声素片データに対応付けてサブコスト格納領域３６に格納する（ステップＳ８）。

なお、このサブコストの計算は、例えば、以下のようにサブコスト関数を用いて行うことができる（「波形編集型合成方式におけるスペクトル連続性を考慮した波形選択法」、日本音響学会講演論文集、2-6-10、pp. 239-240、1990/9）。
［サブコスト関数］
以下にこの例のサブコスト関数を示す。
(1）読み情報に対応するサブコスト関数
Ｃ_１（ｎ）＝１／ｅ^ｎ
ただし、入力テキストの読み情報としての音韻系列と、音声素片の読み情報しての音韻系列（音声素片データに対応付けられた音韻系列）との間で一致する音韻数をｎとする。

(2)平均ピッチに対するサブコスト関数
Ｃ_２（Ｖｐ，Ｖｓ）＝｜Ｖｐ−Ｖｓ｜^２
ただし、入力テキストから抽出した音韻物理パラメータの平均ピッチをＶｐとし、音声素片の平均ピッチ（音声素片データに対応付けられた平均Ｆ０）をＶｓとする。
(3)ピッチ傾きに対するサブコスト関数
Ｃ_３（Ｆｐ，Ｆｓ）＝｜Ｆｐ−Ｆｓ｜^２
ただし、入力テキストから抽出した音韻物理パラメータのピッチ傾きをＦｐとし、音声素片のピッチ傾き（音声素片データに対応付けられたＦ０の傾斜）をＦｓとする。

(4)時間長に対するサブコスト関数
Ｃ_４（Ｔｐ，Ｔｓ）＝｜Ｔｐ−Ｔｓ｜^２
ただし、入力テキストから抽出した音韻物理パラメータの時間長をＴｐとし、音声素片の時間長（音声素片データに対応付けられた時間長）をＴｓとする。
(5)振幅に対するサブコスト関数
Ｃ_５（Ａｐ，Ａｓ）＝｜Ａｐ−Ａｓ｜^２
ただし、入力テキストから抽出した音韻物理パラメータの振幅をＡｐとし、音声素片の時間長（音声素片データに対応付けられたパワー）をＡｓとする。

以上のサブコスト関数にステップＳ８で読み出した各情報を代入することで各サブコスト値を求めることができる。なお、ステップS８の処理はステップS７で抽出された各データの組に対して行われ、それぞれに対して算出されたサブコストを対応する音声素片データに対応付けて格納する。
次に、総合コスト計算部９０が、メモリ３０のサブコスト重み情報格納領域３３からステップＳ３で算出されたサブコスト重み情報を読み出し、サブコスト格納領域３６からステップＳ８で算出された各サブコストを読み出し、これらを用いて、サブコスト値をサブコスト重みで重み付けして統合した総合コスト値を算出し、メモリ３０の総合コスト格納領域３７に格納する（ステップＳ９）。

この例の総合コストの算出は、音声素片ごとに行われる。例えば、サブコスト関数を上記の（１）〜（５）とした場合、以下のように総合コストが算出される。
［総合コスト］
(6)Ω＝ω_２・Ｃ_２＋ω_３・Ｃ_３＋ω_４・Ｃ_４＋ω_５・Ｃ_５を算出する。
(7) ω_１・Ｃ_１＋（１−ω_１）・Ωを算出する。
(8)総合コストPｎｅｗ＝（１＋G）・Pを算出する。
なお、Ｃ_１，Ｃ_２，Ｃ_３，Ｃ_４，Ｃ_５は、ステップＳ８で、サブコスト関数Ｃ_１（ｎ），Ｃ_２（Ｖｐ，Ｖｓ），Ｃ_３（Ｆｐ，Ｆｓ），Ｃ_４（Ｔｐ，Ｔｓ），Ｃ_５（Ａｐ，Ａｓ）に、それぞれｎ，Ｖｐ，Ｖｓ，Ｆｐ，Ｆｓ，Ｔｐ，Ｔｓ，Ａｐ，Ａｓを代入して算出されたサブコストを示す。また、ω_１，ω_２，ω_３，ω_４，ω_５は、サブコストＣ_１，Ｃ_２，Ｃ_３，Ｃ_４，Ｃ_５のサブコスト重みを示す。さらにＧは音響的な定数を示す。

なお、このステップはステップＳ８で算出された全てのデータの組に対して行われ、算出された各総合コストは、対応する音声素片データに関連付けられてメモリ３０の総合コスト格納領域３７に格納される。
次に、音声素片選択部１００が、メモリ３０の総合コスト格納領域３７から、ステップＳ９で格納された総合コストを抽出し、その最小値を求める。なお、この最小値の算出は、一般的なＤＰ法を用いることで容易に実現可能である。そして、音声素片選択部１００は、求めた最小の総合コストに対応付けられている音声素片データ（「総合コスト値を最小値化する音声素片」に相当）を総合コスト格納領域３７から読み出し（「選択」に相当）、それをメモリ３０の選択音声素片格納領域３８に格納する（ステップＳ１０）。

次に、制御部１２０が、テキストメモリ１０に格納されている１つのテキストについての全ての音声素片データが選択されたか否かを判断する（ステップＳ１１）。ここで、全ての音声素片データが選択されていなければステップＳ５に戻り、全ての音声素片データが選択されていればステップＳ１２に進む。
ステップＳ１２では、音声素片接続部１１０が、メモリ３０の選択音声素片格納領域３８から各音声素片データ（「音声素片選択手段が選択した音声素片」に相当）を読み出し、これらを順に接続して合成音声を生成して出力する（ステップＳ１２）。

なお、選択された音声素片データを単に時間的な順序で接続してもよいが、異なる音声素片データ間を時間的又は周波数的に補間することも容易である（特願平５−２１７３３７「音声合成方法および装置」）。また、韻律物理パラメータに基づいて選択された音声素片データに対して信号処理を施した後、これらを接続しても良い（Y. Stylianou, “Concatenative Speech Synthesis using a Harmonic plus Noise Model." In: The 3rd ESCA/COCOSDA Workshop on Speech Synthesis, Jenolan Caves, NSW, Australia, NOV. 1998, Paper H.1.）
＜本形態の特徴＞
以上のように、本形態では、入力されたテキストを、その内容に応じて予め決めておいたテキストカテゴリの少なくともどれか１つに分類し、そのカテゴリに基づいてサブコスト関数に対する重み付けであるサブコスト重みを変更し、結果として音声素片の選択において基本となる総合コストの計算方法を変更することとした。これにより、テキストの内容に応じた最適な合成音声を生成することが可能となる。

すなわち、前述したように、本形態では、予め様々なテキストを想定してその内容に応じた複数のカテゴリを設定し、分類されたカテゴリごとにそのカテゴリを代表するようなテキストをいくつか集める。そして、それらのテキストを実際に合成するとともにその合成音声の品質が最もよくなるように、サブコスト関数に対する重みであるサブコスト重みを調整することで、分類されたカテゴリ毎に最適なサブコスト重みを見つけ出しておく。そして、テキストのカテゴリに最適なサブコスト重みを用いて総合コストを計算し、それに基づいて音声素片を選択すする。その結果、従来、全ての入力テキストに対して同一の総合コストの計算方法に基づく音声素片選択が行われ、結果として音声デー夕ベースに多く存在するような一般的なテキスト以外の分野では高音質の合成音声が生成できないという問題を解決することができる。

＜ハードウェア構成＞
図５は、本形態における音声合成装置４００をノイマン型のコンピュータで実現する場合のブロック図である。
この図に例示するように、この例の音声合成装置４００は、入力部４１０、出力部４２０、ＣＰＵ４３０、ＲＡＭ４４０、ＲＯＭ４５０、ハードディスク装置４６０及びこれらを通信可能に接続するバス４７０を有している。
入力部４１０は、例えば、テキストデータ等の入力を受け付けるＵＳＢ（Universal Serial Bus）等のインタフェース或いはキーボード、マウス、タッチパネル等の入力デバイスである。また出力部４２０は、例えば、生成された合成音声データを出力するＵＳＢ等のインタフェース或いはスピーカ等の音声出力装置である。

また、ハードディスク装置４６０には、Microsoft社のWindows（登録商標）等のＯＳ（Operating System）プログラム４６１、音声合成プログラム４６２、音声データベース４６３、サブコスト対応表４６４及びテキスト情報４６５が格納される。
ここで、音声合成プログラム４６２は、上述した図４の処理を実行するアプリケーションソフトウェアである、また、音声データベース４６３は、図２の音声データベース２００と同様のデータベースであり、サブコスト対応表４６４は、図３のサブコスト対応表３００と同様なデータである。また、テキスト情報４６５は、入力部４１０から入力された合成音声が生成されるテキストである。

音声合成装置４００が、音声合成処理を実行する場合、まず、ＣＰＵ４３０は、ハードディスク装置４６０のＯＳプログラム４６１、音声合成プログラム４６２、音声データベース４６３、サブコスト対応表４６４及びテキスト情報４６５を一旦ＲＡＭ４４０に読み込む。そして、ＣＰＵ４３０は、このＲＡＭ４４０から読み込んだＯＳプログラム４６１を実行させた上で音声合成プログラム４６２を実行し、前述した図４の各処理を行う。なお、この場合、ＲＡＭ４４０が、テキストメモリ１０、音声データベースメモリ２０及びメモリ３０に相当することになる。また、ＣＰＵ４３０が、ハードディスク装置４６０のＯＳプログラム４６１、音声合成プログラム４６２、音声データベース４６３、サブコスト対応表４６４及びテキスト情報４６５の少なくとも一部をハードディスク装置４６０から直接読み込んで処理を行うこととしてもよいことは言うまでもない。

＜音声合成プログラム＞
また、前述の各処理内容を記述した音声合成プログラム４６２は、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータ（音声合成装置４００）は、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムをハードディスク装置４６０に格納し、それに沿った処理を上述のように実行することとなるが、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

＜変形例等＞
なお、本発明は上述の実施の形態に限定されるものではない。例えば、本形態では、ステップＳ７の音声素片データの探索に音韻指標を用い、ステップＳ８のサブコストの算出に音韻物理パラメータを用いることとしたが、ステップＳ７の音声素片データの探索に音韻物理パラメータ（「韻律情報」に相当）を用いることとしてもよく、また、ステップＳ８のサブコストの算出に音韻指標（「韻律情報」に相当）を用いることとしてもよい。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、処理ループの構成も説明したものに限定されない。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

本発明の利用分野としては音声合成分野が挙げられる。

本形態における音声合成装置の概念的な構成図の例示である。本形態における音声データベースのデータ構成の例示である。本形態におけるサブコスト対応表のデータ構成の例示である。本形態における音声合成処理を説明するための流れ図である。本形態における音声合成装置４００をノイマン型のコンピュータで実現する場合のブロック図である。

符号の説明

１，４００音声合成装置
２０音声データベースメモリ
４０テキスト分類部
５０サブコスト重み決定部
６０音韻韻律抽出部
６１テキスト解析部
６２音韻物理パラメータ抽出部
７０探索部
８０サブコスト算出部
９０総合コスト計算部
１００音声素片選択部

Claims

入力されたテキストに対応して、音声データベースから適切な音声素片を選択し合成する音声合成装置において、
音声素片、その読み情報及び韻律情報を対応付けた音声データベースを格納する音声データベースメモリと、
入力されたテキストの内容に基づいて、当該テキストを、予め決められたカテゴリのうちの少なくとも１つのカテゴリに割り当てるテキスト分類手段と、
前記テキストが割り当てられた前記カテゴリに対応するサブコスト重みを決定するサブコスト重み決定手段と、
前記入力されたテキストの読み情報及び韻律情報を抽出する音韻韻律抽出手段と、
前記入力されたテキストの読み情報及び韻律情報の組をキーとして前記音声データベースを探索し、当該音声データベースから、これらの組の類似範囲に属する読み情報及び韻律情報の組を選択する探索手段と、
前記入力されたテキストの読み情報及び韻律情報の組と、前記探索手段において選択された読み情報及び韻律情報の組とを用い、これらの音韻及び韻律要素ごとの類似度を示すサブコスト値を算出するサブコスト算出手段と、
前記サブコスト値を前記サブコスト重みで重み付けして統合した総合コスト値を算出する総合コスト計算手段と、
前記総合コスト値を最小値化する前記音声素片を選択する音声素片選択手段と、
前記音声素片選択手段が選択した前記音声素片を接続する音声素片接続手段と、
を有することを特徴とする音声合成装置。
請求項１記載の音声合成装置であって、
前記音声データベースの韻律情報は、
対応する音声素片の韻律の指標である韻律指標と、韻律の物理量である韻律物理パラメータと、によって構成され、
前記音韻韻律抽出手段が前記入力されたテキストから抽出する韻律情報は、
韻律指標及び韻律物理パラメータであり、
前記探索手段は、
前記入力されたテキストの読み情報及び韻律指標をキーとして前記音声データベースを探索し、当該音声データベースから、これらの組の類似範囲に属する読み情報及び韻律情報の組を選択する手段であり、
前記サブコスト算出手段がサブコスト値の算出に用いる韻律情報は、
韻律物理パラメータである、
ことを特徴とする音声合成装置。
請求項１記載の音声合成装置であって、
前記予め決められたカテゴリは、
単一の分類基準をもとに分類されたカテゴリであり、
前記テキスト分類手段は、
前記入力されたテキストを、いずれか１つのカテゴリに割り当てる手段であり、
前記サブコスト重み決定手段は、
前記テキストが割り当てられた１つのカテゴリに対応するサブコスト重みを決定する手段である、
ことを特徴とする音声合成装置。
請求項１記載の音声合成装置であって、
前記予め決められたカテゴリは、
複数の分類基準をもとに分類されたカテゴリであり、
前記サブコスト重み決定手段は、
前記入力されたテキストが１つのカテゴリのみに割り当てられた場合、この１つのカテゴリに対応するサブコスト重みを決定し、
前記入力されたテキストが複数のカテゴリに割り当てられた場合、これら複数のカテゴリに対応する予備サブコスト重みをそれぞれ決定し、当該予備サブコスト重みを、前記入力されたテキストと前記各カテゴリとの類似度をもとに重み付けして合計し、この合計値を、前記カテゴリに対応するサブコスト重みとして決定する手段である、
ことを特徴とする音声合成装置。
請求項１記載の音声合成装置であって、
前記予め決められたカテゴリは、
前記テキスト分類手段が実行する手順によって所定のテキストを予備的なカテゴリに割り当て、当該テキストが複数の当該予備的なカテゴリに割り当てられることとなった場合に、当該複数の予備的なカテゴリを１つのカテゴリに統合して生成されたカテゴリを有する、
ことを特徴とする音声合成装置。
入力されたテキストに対応して、音声データベースから適切な音声素片を選択し合成する音声合成方法において、
音声データベースメモリに、音声素片、その読み情報及び韻律情報を対応付けた音声データベースを格納しておき、
テキスト分類手段が、入力されたテキストの内容に基づいて、当該テキストを、予め決められたカテゴリのうちの少なくとも１つのカテゴリに割り当て、
サブコスト重み決定手段が、前記テキストが割り当てられた前記カテゴリに対応するサブコスト重みを決定し、
音韻韻律抽出手段が、前記入力されたテキストの読み情報及び韻律情報を抽出し、
探索手段が、前記入力されたテキストの読み情報及び韻律情報の組をキーとして前記音声データベースを探索し、当該音声データベースから、これらの組の類似範囲に属する読み情報及び韻律情報の組を選択し、
前記サブコスト算出手段が、前記入力されたテキストの読み情報及び韻律情報の組と、前記探索手段において選択された読み情報及び韻律情報の組とを用い、これらの音韻及び韻律要素ごとの類似度を示すサブコスト値を算出し、
総合コスト計算手段が、前記サブコスト値を前記サブコスト重みで重み付けして統合した総合コスト値を算出し、
音声素片選択手段が、前記総合コスト値を最小値化する前記音声素片を選択し、
音声素片接続手段が、前記音声素片選択手段が選択した前記音声素片を接続する、
ことを特徴とする音声合成方法。
請求項１から５の何れかに記載の音声合成装置としてコンピュータを機能させるための音声合成プログラム。