JP2007322835A - 音声データベースおよび音声合成装置 - Google Patents

音声データベースおよび音声合成装置 Download PDF

Info

Publication number
JP2007322835A
JP2007322835A JP2006153933A JP2006153933A JP2007322835A JP 2007322835 A JP2007322835 A JP 2007322835A JP 2006153933 A JP2006153933 A JP 2006153933A JP 2006153933 A JP2006153933 A JP 2006153933A JP 2007322835 A JP2007322835 A JP 2007322835A
Authority
JP
Japan
Prior art keywords
speech
information
voice
data
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006153933A
Other languages
English (en)
Inventor
Satoshi Watanabe
聡 渡辺
Tsutomu Kaneyasu
勉 兼安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2006153933A priority Critical patent/JP2007322835A/ja
Publication of JP2007322835A publication Critical patent/JP2007322835A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音声合成において、音声データを記憶する作業を事後的に行うことなく、音声データの容量を維持したまま、音質を向上することが可能な、音声データベースおよび音声合成装置を提供することを提供すること。
【解決手段】本発明による音声データベース100は、音声の波形データからなる音声データ110と、音声データから少なくとも1の素片を定義するラベル情報121、122、123とを記憶し、ラベル情報は、音声データを区分して各素片の区画を定義する境界情報および各素片の音素名を定義する音素情報を含む音声データベースであって、音声データには、複数のラベル情報が対応することを特徴とする。
【選択図】 図2

Description

本発明は、音声を合成する際に用いられる音声データベースおよび音声合成装置に関する。
音声合成とは、一般に、音声データベースに記憶された音声データを組合わせて、所望の音声を生成することをいう。音声合成の方式の一つである規則合成方式(TTS:Text To Speach)は、発声可能な音声の単位である音素の波形データに相当する素片を記憶した音声データベースを用い、音声データベースに記憶された素片を組合わせて所望の音声を得る方式である。
このような音声合成を行うには、音声合成装置が使用される。この装置は、まず、ユーザにより外部から連続音声の音素毎の継続時間やピッチ情報を示す音声情報が入力される。そして、各音素の音声情報に最も適合する素片を音声データベースからそれぞれ選択(検索)し、該選択された素片同士を接続することで音声を生成する。音声データベースに記憶される素片の種類を単純に増やすことより、音声データベース上から素片を選択する際の検索範囲が増加するので、生成する音声を所望する音声に近づけること(音質向上)ができる(特許文献1参照。)。この場合、音声データベースに素片を記憶するには、収録者が発声者に所望の素片を説明し、発声者が該説明を参考に繰返し発声し、収録者が該発声のうちから所望の素片に近いものを選択的に抽出していた。
特許第3050832号
しかし,従来の音声データベースから選択可能な素片の種類と,従来の音声データベースが記憶する音声データの容量とは比例関係にあったため,音声合成において生成する音声の音質向上を図るためには,音声データベースに膨大な音声データを記憶する必要がありった。したがって,発声者と収録者による音声データベースに音声データを記憶する作業工程が長期化し,煩雑であるという問題が生じていた。また,膨大な音声データを記憶するためには,大容量の音声データベースが不可欠であった。
即ち,音声データベース100のデータ構造について,図10を参照して説明する
図10は,従来の音声データベース300のデータ構造を示した説明図である。音声データベース300は,音声データ310と,ラベル情報320とを含む。
音声データ310は,人間が発した単語音声や連続音声などの音声のデータに相当する信号である。ラベル情報320は音素情報と境界情報を含み,各音声データ310には唯一のラベル情報320がそれぞれ対応付けられている。
ここで、音素情報とは,音声データ310を構成する各素片の音素名を時系列に示す情報である。境界情報は,音声データ310の音声区間の開始時点を0秒としたときの各素片の音声開始時点を記述している。
図示の例では,「多分,青いだろう。」という音声データ310に対応するラベル情報320の内容を示しており,音素情報は,「t/a/b/u/n/pau/a/o/i/d/a/r/oo/」という音素列からなる。ここで,「/」は,音素の区切りを示している。
そして,境界情報は各素片の音声開始時点を記述しているため,例えば,「青い」の/a/の部分に相当する素片の音声区間は,/a/の音声開始時点から/o/の音声開始時点までの,1.400秒〜1.500秒であることがわかる。
図11は,音声データ310の音声波形と境界情報の関係を示した模式図である。図示の例では,「多分,青いだろう。」という音声データ310の,「青い」の部分を抜き出して示している。音声データ310は,同一音素である期間はほぼ同じ波形を繰り返すが,音素の境界付近では徐々に波形が変化する。したがって,厳密な音素の境界時点を定義することは困難であるため,本発明においては、おおまかな境界位置を手動または音声認識などで決定することも定義と含むものとする。
しかし,音声データ310は情報量が大きいため,継続時間やピッチ情報の異なる素片をそれぞれ別個に記憶して合成音声の音質向上を図るには,大容量の音声データベースが不可欠であった。また,音声データベースに膨大な素片を記憶する作業は,収録者にとっても発声者にとっても煩雑であった。
そこで,本発明は,上記問題に鑑みてなされたものであり,本発明の目的とするところは,簡素な作業により選択可能な素片の種類を増加させることで,音声合成において生成する音声の音質を向上することが可能な,新規かつ改良された音声データベースおよび音声合成装置を提供することにある。
上記課題を解決するために、本発明のある観点によれば、音声の波形データに相当する音声データと、音声データから音素単位の波形データに相当する素片の音声区間を定義する境界情報および各素片の音素名を定義する音素情報を含むラベル情報と、を記憶する音声データベースであって、音声データには、複数の異なるラベル情報が対応することを特徴とする、音声データベースが提供される。
上記境界情報により音声データが区分され、素片が抽出され、上記音素情報により該抽出された素片の音素が定義される。これをふまえた上記の構成によれば、複数のラベル情報を音声データに対応させることにより、簡素に、より多様な素片を得ることができる。
複数のラベル情報は、境界情報がそれぞれ異なるとしてもよい。かかる構成によれば、ラベル情報毎に、音声区間および継続時間が異なる同一音素の素片を定義することができる。したがって、所望する多くの種類の素片を得るために音声データベースに記憶する音声データの容量を、従来より削減することができる。
境界情報は、音声データの音声区間の開始時点から、各素片の音声区間の開始時点までの時間で表されることとしてもよい。かかる構成によれば、任意の素片の音声区間を容易に導くことができ、また、任意の素片の継続時間も、該素片を区分する2つの境界情報の差分を計算して求めることができる。
複数のラベル情報は、音素情報がそれぞれ異なることとしてもよい。かかる構成によれば、ラベル情報毎に、音素が異なり、音声区間および継続時間が同一の素片を定義することができる。したがって、音声データの容量を増加しなくても、簡素に多様な音素の素片を得ることができる。
ラベル情報は、各素片の音声区間におけるピッチを示すピッチ情報をさらに含むとしてもよい。かかる構成によれば、ラベル情報に各素片のピッチ情報をあらかじめ保持しておくことにより、音声データベースが各素片のピッチ情報を要求された場合に、その都度ピッチ情報の計算をする必要がないため、迅速にピッチ情報を提供することができる。
また、本発明の別の観点によれば、音声の波形データを含む音声データと、音声データを区分して、音素単位の波形データに相当する素片の音声区間を定義する境界情報および各素片の音素名を定義する音素情報を含むラベル情報と、を記憶する音声データベースと、外部から入力される音声情報を外部から取得する音声情報入力部と、音声情報に基づき音声データベースから1または2以上の素片を選択する素片選択部と、選択部により選択された素片同士を接続する素片接続部と、を含み、音声データには、複数の異なるラベル情報が対応させることを特徴とする、音声合成装置が提供される。
かかる構成によれば、音声データベースは、実際に音声データベースが記憶している音声データの容量に、該音声データに対応付けられたラベル情報の数を乗じた容量の音声データを記憶しているのと同等の効果を得ることができる。したがって、素片選択部が音声データベースから素片を検索する際に、音声データの容量を増やさなくても素片の検索範囲を増加させることができるので、合成する音声の音質を簡素に向上させることが可能である。
複数のラベル情報は、境界情報がそれぞれ異なるとしてもよい。かかる構成によれば、ラベル情報毎に、音声区間および継続時間が異なる同一音素の素片を定義することができる。したがって、音声データの容量を増やすことなく、多様な音声区間および継続時間からなる同一音素の素片を得ることができる。
複数のラベル情報は、音素情報がそれぞれ異なることとしてもよい。かかる構成によれば、ラベル情報毎に、音素が異なり、音声区間および継続時間が同一の素片を定義することができる。したがって、音声データの容量を増やすことなく、多様な音素の素片を得ることができる。
以上説明したように、本発明にかかる音声データベースおよびこれを用いた音声合成装置によれば、簡素な作業により選択可能な素片の種類を増加させることで、音声合成において生成する音声の音質を向上することができる。
以下に図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより説明を省略する。
(第1の実施形態)
まず、本発明の第1の実施形態にかかる音声合成装置200について図1を用いて簡単に説明する。
図1は、本実施形態による音声合成装置200の信号の流れを示したブロック図である。音声合成装置200は、音声情報入力部210、素片選択部220、素片接続部230、合成音声出力部240および音声データベース(図1中では音声DBと記載、以下同様)100を含む。
ここで、音声情報入力部210は、外部から入力された音声情報を取得し、これを素片選択部220に出力する。音声情報は、合成して得ようとする音声の音素毎の維持時間やピッチ情報を含んでおり、これらの詳細については図2を用いて後述する。
素片選択部220は、音声情報入力部210から音声情報が入力されると、音声データ110が記憶された音声データベース100を検索し、上記音声情報に最も適合する素片および/または素片の組合わせを選択する。ここで素片とは、発声可能な音声の最小単位である音素のデータであり、音声データ110を音素単位に区分して得ることができる。素片選択部220の詳細については、図3を用いて後述する。
続いて、素片接続部230は、素片選択部220により音声データベース100から選択された素片同士を連結し、合成音声を生成する。最後に、合成音声出力部240に上記生成された合成音声が入力され、合成音声出力部240は合成音声を出力する。
本実施形態による音声データベース100は、音声合成において、音声データを記憶する作業を追加的に行うことなく、音声データの容量を維持したまま、音質を向上することができる。以下、本実施形態による音声データベース100について図2〜図4を参照して説明する。
図2は、本実施形態による音声データベース100の構成を示した説明図である。音声データベース100は、音声データ110と、第一ラベル情報121と、第二ラベル情報122と、第三ラベル情報123とを含む。
音声データベース100は、1つの音声データ110に、複数のラベル情報を対応させている点で従来の音声データベース300と異なる。なお、図示の例では、1つの音声データ110に、第一ラベル情報121と、第二ラベル情報122と、第三ラベル情報123の3つのラベル情報を対応させているが、対応させるラベル情報の数はこれに限られず、任意の情報数を採ることができる。
また、音声データベース100に記憶される音声データ110の形式を、サンプリング周波数48kHz、量子化16ビット、モノラルのPCM形式とすることができるが、サンプリング周波数や量子化ビットなどは任意であり、ADPCM(Adaptive Differential Pulse Code Modulation)によって圧縮された形式であってもよい。
図3は、音声データ110に対応するラベル情報121、122、123の内容を示した説明図である。図4は、音声データ110の波形とラベル情報121、122、123を示した模式図である。
ラベル情報121、122、123は、従来のラベル情報320と同様に、それぞれ音素情報および境界情報を含む。音素情報とは、音声データ110を構成する各素片の音素名を時系列に示す情報である。境界情報は、音声データ110の音声区間の開始時点を0.000としたときの各素片の音声開始時点を記述している。なお、音声データ110の最後の素片の音声区間を求めるために、ラベル情報121、122、123は、音声データ110の音声長さを含むとしてもよい。
かかる構成により、任意の素片の音声データ110における音声区間を容易に導くことができ、また、任意の素片の継続時間を、該素片の音声区間の開始時点と連続する次の素片の音声区間の開始時点との差をとることにより、容易に計算することができる。なお、境界情報の記述方法はこれに限られず、例えば、各素片の継続時間を直接記述することとしてもよい。
次に、それぞれ異なる境界情報を有するラベル情報121、122、123について説明する。
図示の例では、第一ラベル情報121による音素が/o/である素片の音声区間は、1.500秒〜1.600秒であり、継続時間は0.100秒である。また、第二ラベル情報122による音素が/o/である素片の音声区間は1.495秒〜1.597秒であり、継続時間は0.102秒である。また、第三ラベル情報123による音素が/o/である素片の音声区間は1.505秒〜1.603秒であり、継続時間は0.098秒である。
すなわち、複数の異なる境界情報を含むラベル情報121、122、123を音声データ110に対応付けることにより、一つの音声データ110から、同一音素であり、音声区間および継続時間の異なる素片を複数得ることができる。また、図4を参照すると、音素が/o/である各音素の音声区間が異なれば、その音声区間に含まれる音声データも異なるため、各素片のピッチ情報もそれぞれ異なることが予想される。
したがって、音声データ110の容量を維持したまま、音声データ110から得られる素片の種類を増加させることができるので、音声合成において、音声データベース100の記憶容量を抑制し、また、追加的に音声データ110の補充作業をしなくても合成音声の音質を向上することができる。
上記では音素が/o/である素片の境界情報のみを変更する例を説明したが、全ての素片の境界情報を変更することとしてもよい。かかる構成によれば、音声データベース100は、従来の音声データベース300と同一容量の音声データを記憶していたとしても、見かけ上、対応するラベル情報の数を乗じた容量の音声データを記憶しているのと同等の効果を得ることができる。
例えば、音声データの音声区間が2秒であり、16の素片から構成される場合、ラベル情報(テキスト形式)は約160バイトであり、音声データは12キロバイトである。したがって、上記の音声データにラベル情報を追加する場合は、ラベル情報は約160バイトにすぎないため、音声データベース100の記憶容量をほとんど増加させずに12キロバイトの音声データを追加したのと同等の効果を得ることができる。
なお、上述した、異なる境界情報を有するラベル情報121、122、123は、以下のようにして作成することができる。
第一ラベル情報121の境界情報を基準にして第二ラベル情報122および第三ラベル情報123を作成する場合は、まず、第一ラベル情報121の境界情報を、音声データ110に基づいて作成する。第一ラベル情報121の境界情報の各境界時点は、オペレータが音声データ110の波形を視察し予め定められたルールに従って決定することも、音声聴取したうえで自己の音感に基づいて決定することもできる。さらに、音声認識によって自動的に決定することもできる。
そして、第二ラベル情報122および第三ラベル情報123の境界情報は、コンピュータプログラムで自動的に第一ラベル情報121の境界情報を変更したり、オペレータが手動で変更することにより作成できる。境界情報をコンピュータプログラムで自動的に変更する際には、各素片の基本周期を自己相関関数等により求め、基本周期の定数倍だけ第一ラベル情報121の境界情報をずらすとしてもよい。
ラベル情報121、122、123の境界情報をそれぞれ独立して作成する場合は、上記第一ラベル121の作成方法と同様に、各境界時点を、オペレータが音声データ110の波形を視察しそれぞれのラベル情報で異なる基準に従って決定することも、音声聴取したうえで自己の音感に基づいて決定することもできる。さらに、音声認識によって、自動的にそれぞれのラベル情報の境界情報が異なるように決定するとしてもよい。
次に、本実施形態による音声データベース100を用いた音声合成装置200の動作を説明する。
図5は、音声情報入力部210に入力される音声情報の一例を示した説明図である。音声情報は、例えば連続音声を構成する各音素の種類(名前)を示す音素情報、境界情報およびピッチ情報などを含むことができる。なお、音声情報の生成方法は問わず、音声合成の前段、すなわちテキスト解析および韻律推定を行う方法や、人間の発声音から抽出する方法により生成することができる。
テキスト解析および韻律推定について簡単に説明すると、生成したい音声を文章で示したテキスト情報を、まずアクセント付きカナ文字列に変換し、アクセント付きカナ文字列から、各音素の継続時間やピッチなどの音声情報を推定することをいう。
図示の例では、「多分、青いだろう。」という連続音声の音声情報を示している。したがって、音素情報は「t/a/b/u/n/pau/a/o/i/d/a/r/oo/」という音素列を構成する。なお、音声の空白期間には「pau」を記述することとしている。また、理解の容易のためにアルファベットを用いて音素名を記しているが、発音記号により記述するとしてもよい。
境界情報は、ラベル情報121、122、123と同様に、音声情報の音声区間の開始時点を0としたときの各音素の音声開始時点を記述している。かかる構成により、任意の音素の継続時間を、連続する他の音素の開始時点から容易に計算することができる。なお、境界情報の記述方法はこれに限られず、例えば、各音素の継続時間を直接記述することとしてもよい。
ピッチ情報は、各音素の音声区間におけるピッチ(基本周波数)の平均値を示している。また、ピッチ情報は、各音素の音声区間の任意の時点におけるピッチであっても、所定間隔おきに各素片のピッチを抽出して得られるピッチ列であってもよい。図示の例では、声帯の振動を伴わない無声音については、ピッチ情報を省略している。
音声情報は、上述した音素情報、境界情報およびピッチ情報に限られず、必要に応じてメルケプストラムやスペクトル包絡などのスペクトル情報や、振幅情報を含むこととしてもよい。
図6は、素片選択部220の構成を示した説明図である。以下、素片選択部220における動作について図6を用いて説明する。
素片選択部220は、予備選択部222と、本選択部224とを含む。
予備選択部222は、音声情報入力部210から音声情報が入力されると、音声情報の各音素と同一音素である素片を音声データベース100からそれぞれ検索する。そして、音声情報の各音素と、音声データベース100から検索された全ての素片と音声情報の比較を行い、上記各音素の音声情報と類似性が高い候補素片をそれぞれ上位N個抽出する。ここでNは任意の正の整数であり、例えば3であってもよい。
本選択部224は、各音素に対してそれぞれN個選ばれた候補素片同士のピッチや振幅などの連続性を計算し、候補素片の類似性および連続性が最適となるような素片の組を決定する。
例えば、本実施形態による音声データベース100から、音素が/o/である素片を検索する場合は、ラベル情報121、122、123のそれぞれにより定義される、音素が/o/である3つの素片が比較の対象となる。各素片の継続時間およびピッチ情報は上述したようにそれぞれ異なるので、素片選択部220は、入力された音声情報により適合する素片を選択することができる。
なお、このような素片選択は、音声合成において一般的なコスト関数を用いて行うことができる。コスト関数を用いる方法とは、音声情報の各音素と音声データ110の各素片とを比較し、継続時間の差異、ピッチ情報の差異などに、所定の重み係数を乗じた値の和をとり、当該和が最小となる素片の組合せを探索する方法である。
素片接続部230は、素片選択部220によって音声データベース100から選択された素片同士を接続し、合成音声を得る。具体的には、隣接する2素片波形の相互相関などを用い、位相が同期する接続点を探索して接続を行う。そして、合成音声は合成音声出力部240を介して出力される。
以上説明したように、本発明の第1の実施形態によれば、音声データベース100は、実際に音声データベース100が記憶している音声データ110の容量に、該音声データ110に対応付けられたラベル情報の数を乗じた容量の音声データを記憶しているのと同等の効果を得ることができる。したがって、素片選択部220が音声データベース100から素片を検索する際に、音声データ110の容量を増やさずに素片の検索範囲を増加させ、合成する音声の音質を向上することができる。
(第2の実施形態)
次に、本発明の第2の実施形態にかかる音声データベース100について説明する。なお、データ構造は、第1の実施形態で図2に示して説明した構造と実質的に同一であるので説明を省略する。
例えば、「多分、青いだろう」という音声データ110が音声データベース100に記憶されえていたと仮定する。すると、「青い」の部分の素片は、「あおい」の他にも、「あおーい」や、「あおうい」という音素からなると捉えることもできる。すなわち、音素が/a/である素片と、音素が/i/である素片との間の区間を該当区間と定義すると、該当区間には/o/に限らず、/oo/または/o//u/の音素情報を付することができる。
そこで、本実施形態による音声データベース100は、複数の音素のいずれとも捉えることができる該当区間に着目し、音声データ100に対応する複数のラベル情報に、それぞれ異なる音素情報を付与している。
図7は、本実施形態による音声データベース100のラベル情報121、122、123の内容を示した説明図である。図示の例では、第一ラベル情報121の該当区間の音素を/o/とし、第二ラベル情報122の該当区間の音素を/oo/とし、第三ラベル情報123の該当区間の音素を/ou/としている。なお、/oo/は長音を表す1つの音素であるが、/ou/は短母音音素の/o/と/u/であるので、新たに/o/と/u/の間の境界情報を付加している。
図8は、音声データ110の波形と音素情報の関係を示した模式図である。図示の例のように、同一の音声データの同一区間から音素が異なる複数の素片を得ることができるので、音声合成において、音声データ100の容量および記憶作業を抑制しつつ、合成音声の音質を向上することができる。
なお、第1の実施形態および第2の実施形態においては、一つの「多分、青いだろう。」という音声データ110を音声データベース100が記憶している例をあげて説明したが、音声データベース100は複数の音声データを記録することもできる。
図9は、音声データベース100の他のデータ構造を示した説明図である。音声データベース100は、音声データA150、音声データB160および音声データC170と、さらに複数の音声データを含むこともできる。また、音声データA150には、第一ラベル情報A151、第二ラベル情報A152および第三ラベル情報A153と、さらに複数のラベル情報を含むことができる。音声データB160および音声データC170に対応するラベル情報についても同様である。
以上、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明は係る例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
例えば、ラベル情報121、122、123に、各素片のピッチ情報をあらかじめ計算して追加するとしてもよい。かかる構成により、素片選択部220が音声データベース100の素片を検索する際に、ピッチ情報を計算するための過程が省略されるため、検索速度の向上および計算量の低減を図ることができる。
また、第1の実施形態では異なる境界情報を有するラベル情報121、122、123を音声データ110に対応させる方法について説明し、第2の実施形態では異なる音素情報を有するラベル情報121、122、123を音声データ110に対応させる方法について説明したが、これらを複合的に適用することとしてもよい。
また、本実施形態では、音声情報の要素として音素情報、境界情報、ピッチ情報をあげて説明しているが、別のパラメータや表現方法を用いてもよい。例えば振幅情報やメルケプストラムなどのスペクトル情報を音声情報の要素として加えてもよく、またピッチ情報を平均ピッチでなく音素内のピッチを離散的に抽出したピッチ列(ピッチパターン)としてもよい
また、予備選択部222は、予備選択をする際に、素片の継続時間およびピッチ情報の他にも、前後の素片の音素も参照することとしてもよい。また、本選択部224は、振幅やピッチの連続性の他にも、スペクトル情報を利用することとしてもよい。
本実施形態による音声合成装置の信号の流れを示したブロック図である。 本実施形態による音声データベースの構成を示した説明図である。 音声データに対応するラベル情報の内容を示した説明図である。 音声データの音声波形とラベル情報を示した模式図である。 音声情報入力部に入力される音声情報の一例を示した説明図である。 素片選択部の構成を示した説明図である。 音声データに対応するラベル情報の内容を示した説明図である。 音声データの音声波形とラベル情報を示した模式図である。 音声データベースの他のデータ構造を示した説明図である。 従来の音声データベースのデータ構造を示した説明図である。 従来の音声データベースにおける音声データの音声波形と境界情報の関係を示した模式図である。
符号の説明
100 音声データベース
110 音声データ
121、122、123 ラベル情報
200 音声合成装置
210 音声情報入力部
220 素片選択部
230 素片接続部
240 合成音声出力部

Claims (6)

  1. 音声の波形データに相当する音声データと、前記音声データから音素単位の波形データに相当する素片の音声区間を定義する境界情報および前記各素片の音素名を定義する音素情報を含むラベル情報と、を記憶する音声データベースであって:
    前記音声データには、複数の異なるラベル情報が対応することを特徴とする、音声データベース。
  2. 前記複数のラベル情報は、境界情報および/または音素情報がそれぞれ異なることを特徴とする、請求項1に記載の音声データベース。
  3. 前記境界情報は、前記音声データの音声区間の開始時点から、前記各素片の音声区間の開始時点までの時間で表されることを特徴とする、請求項2に記載の音声データベース。
  4. 前記ラベル情報は、前記各素片の音声区間におけるピッチを示すピッチ情報をさらに含むことを特徴とする、請求項1〜3のいずれかに記載の音声データベース。
  5. 音声の波形データを含む音声データと、前記音声データを区分して、音素単位の波形データに相当する素片の音声区間を定義する境界情報および前記各素片の音素名を定義する音素情報を含むラベル情報と、を記憶する音声データベースと;
    外部から入力される音声情報を外部から取得する音声情報入力部と;
    前記音声情報に基づき前記音声データベースから1または2以上の前記素片を選択する素片選択部と;
    前記選択部により選択された素片同士を接続する素片接続部と;
    を含み、
    前記音声データには、複数の異なるラベル情報が対応させることを特徴とする、音声合成装置。
  6. 前記複数のラベル情報は、境界情報および/または音素情報がそれぞれ異なることを特徴とする、請求項5に記載の音声合成装置。





JP2006153933A 2006-06-01 2006-06-01 音声データベースおよび音声合成装置 Pending JP2007322835A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006153933A JP2007322835A (ja) 2006-06-01 2006-06-01 音声データベースおよび音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006153933A JP2007322835A (ja) 2006-06-01 2006-06-01 音声データベースおよび音声合成装置

Publications (1)

Publication Number Publication Date
JP2007322835A true JP2007322835A (ja) 2007-12-13

Family

ID=38855689

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006153933A Pending JP2007322835A (ja) 2006-06-01 2006-06-01 音声データベースおよび音声合成装置

Country Status (1)

Country Link
JP (1) JP2007322835A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015052748A (ja) * 2013-09-09 2015-03-19 株式会社日立超エル・エス・アイ・システムズ 音声データベース生成システム、音声データベース生成方法、及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63237098A (ja) * 1987-03-25 1988-10-03 株式会社 エイ・テイ・ア−ル自動翻訳電話研究所 多層ラベルを持つ音声データベース構成方法
JP2003186489A (ja) * 2001-12-14 2003-07-04 Omron Corp 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63237098A (ja) * 1987-03-25 1988-10-03 株式会社 エイ・テイ・ア−ル自動翻訳電話研究所 多層ラベルを持つ音声データベース構成方法
JP2003186489A (ja) * 2001-12-14 2003-07-04 Omron Corp 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015052748A (ja) * 2013-09-09 2015-03-19 株式会社日立超エル・エス・アイ・システムズ 音声データベース生成システム、音声データベース生成方法、及びプログラム

Similar Documents

Publication Publication Date Title
JP4516863B2 (ja) 音声合成装置、音声合成方法及びプログラム
US20080195391A1 (en) Hybrid Speech Synthesizer, Method and Use
JP4878538B2 (ja) 音声合成装置
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JP6561499B2 (ja) 音声合成装置および音声合成方法
JP2005018097A (ja) 歌唱合成装置
JP5320363B2 (ja) 音声編集方法、装置及び音声合成方法
JP6756151B2 (ja) 歌唱合成データ編集の方法および装置、ならびに歌唱解析方法
JP4533255B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
JP5819147B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP4287785B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP5062178B2 (ja) 音声収録システム、音声収録方法、および収録処理プログラム
JPH08263095A (ja) 音声素片選択方法および音声合成装置
JP4640063B2 (ja) 音声合成方法,音声合成装置,およびコンピュータプログラム
JP5360489B2 (ja) 音素符号変換装置および音声合成装置
JP2007322835A (ja) 音声データベースおよび音声合成装置
JP6252420B2 (ja) 音声合成装置、及び音声合成システム
JP2008015424A (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP2005018036A (ja) 音声合成装置、音声合成方法及びプログラム
JP4622356B2 (ja) 音声合成用スクリプト生成装置及び音声合成用スクリプト生成プログラム
JP2008046636A (ja) アクセント句マッチング事前選択を用いた日本語音声合成方法及びシステム
JPH06318094A (ja) 音声規則合成装置
JP2009025328A (ja) 音声合成装置
JP2011180194A (ja) 音素符号変換装置、音素符号データベース、および音声合成装置
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110301

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110913