JPH1185193A - 音声データベースにおける音素片情報最適化方法、及び音素片情報最適化装置 - Google Patents
音声データベースにおける音素片情報最適化方法、及び音素片情報最適化装置Info
- Publication number
- JPH1185193A JPH1185193A JP9248750A JP24875097A JPH1185193A JP H1185193 A JPH1185193 A JP H1185193A JP 9248750 A JP9248750 A JP 9248750A JP 24875097 A JP24875097 A JP 24875097A JP H1185193 A JPH1185193 A JP H1185193A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- information
- speech
- segment
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
ってクラスタリング処理して音素片情報を削減したとし
ても、コンテキストクラスタテーブルには音声合成に際
して全く使用されない音素片情報を多く含んだままの状
態であるといった問題があった。 【解決手段】 本発明は、文章発話から切り出した音素
片を接続することにより合成音を得る波形合成に適用さ
れる音声データベースにおける音素片情報最適化方法に
おいて、予め学習用テキスト情報を用いて合成し、その
合成結果に従って前記音声データベースを構成する各音
素片情報の使用頻度を求め、該使用頻度に基づいてクラ
スタリング処理を行うことにより、音声ファイルの音素
片情報を最適化する。
Description
切り出して蓄積した、音素片情報からなる音声データベ
ースから最適な音素片情報を選択し接続することにより
合成音を得る波形合成に適用される、音声データベース
における音素片情報最適化方法、及び音素片情報最適化
装置に関する。
波形合成に適用される音声データベースの音素片情報に
対してクラスタリングを行い、最適な音素片情報を音声
ファイルに登録する音声ファイル構成方式等が特開平8
―263520号公報に開示されている。
グの処理を示すフローチャートである。同図において、
音声データベース100内の音素ラベリングされた波形
データ中から同一の音素ラベルが付与されている波形デ
ータを全て取り出し、初期クラスタ110とする(ステ
ップ201)。
波形データ(要素)を特徴分析する(ステップ20
2)。この特徴分析においては、LPC(線形予測符号
化法)ケプストラム等の特徴パラメータの次数をnと
し、かつ、分析窓関数のフレーム周期を可変として、フ
レーム数がmフレームとなるように分析を行うことによ
り、各要素に対してn×m次元の特徴パラメータ行列を
得る。
ラスタ110のクラスタ歪を求める(ステップ20
3)。具体的には、特徴パラメータのベクトル空間にお
いて、初期クラスタ110の全ての要素と予め求めてお
いたセントロイドとの間の距離の2乗和を求めて、これ
を初期クラスタ110のクラスタ歪と定義する。
を求め、これをコンテキストクラスタテーブル208に
登録する。このコンテキストクラスタテーブル208に
は、図示のように、各クラスタ毎に、それに属するコン
テキストと、そのセントロイドと、そのクラスタ歪と、
それに含まれる要素波形の集合とが登録されている。
めた段階では、初期クラスタ100だけがコンテキスト
クラスタテーブル208に登録されていることになる。
中からクラスタ歪が最大となるクラスタを求め(ステッ
プ204)、この求めたクラスタを、コンテキストクラ
スタテーブル208中から取り出し、コンテキストによ
り更に2つのクラスタに分割する(ステップ205)。
だけがコンテキストクラスタテーブル208に登録され
ているので、この初期クラスタ110に対してクラスタ
分割が行われる。
割が行われた後、コンテキストクラスタテーブル208
において、初期クラスタ110が削除され、分割された
2つのクラスタが新たに登録される(ステップ20
6)。
繰り返すことにより、初期クラスタ110は次第に小さ
いクラスタに細分化されていく。そして、この各繰り返
しループ毎に、コンテキストクラスタリングの終了判定
が行われる(ステップ207)。
ータベース100の音素片情報を削減して音声ファイル
(データベース)を作成したとしても、音声データベー
ス100に含まれる文章と音声合成器に入力する文章と
では音素片の出現頻度が異なるため、コンテキストクラ
スタテーブル208には音声合成に際して全く使用され
ない音素片情報を多く含んだままの状態であるといった
問題が依然残っていた。
情報(文章)を予め用意し、それを全ての音素片を用い
た音声合成器で予め合成し、その結果から各音素片の使
用された回数(頻度情報)を求め、その分布にしたがっ
て距離の総和を計算し、クラスタリングを行うことを特
徴とする。
となっている音声データベースに様々な音素片情報が含
まれていたとしても、頻繁に使用される音声に対して多
くの音素片を割り当てた音声ファイル(データベース)
を構築することが可能となる。
スにおける音素片情報最適化方法は、文章発話から切り
出した音素片を接続することにより合成音を得る波形合
成に適用される音声データベースにおける音素片情報最
適化方法において、予め学習用テキスト情報を用いて合
成し、その合成結果に従って前記音声データベースを構
成する各音素片情報の使用頻度を求め、該使用頻度に基
づいてクラスタリング処理を行うことにより、音声ファ
イルの音素片情報を最適化することを特徴とする。
音素片情報最適化方法は、文章発話から切り出した音素
片を接続することにより合成音を得る波形合成に適用さ
れる音声データベースにおける音素片情報最適化方法に
おいて、音素選択部が、学習用テキスト情報を入力とし
て、前記文章発話から切り出した音素片を蓄積した音声
データベースから最適な音素片を選択する第1ステップ
と、選択確率計算部が、前記音素選択部によって選択さ
れた各音素片の選択確率を求める第2ステップと、クラ
スタリング処理部が、前記音声データベースに対し、所
定のパラメータ空間において、前記選択確率を音素片の
分布確率としてクラスタリング処理を行う第3ステップ
と、及び音素波形素片登録部が、前記クラスタリング処
理部によってクラスタリングされた、各クラスタの中か
ら代表音素片を選択する第4ステップ、からなることを
特徴とする。
情報最適化装置は、文章発話から切り出した音素片を接
続することにより合成音を得る波形合成に適用される音
声データベースにおける音素片情報最適化装置におい
て、前記文章発話から切り出した音素片を蓄積した音声
データベースと、学習用テキスト情報を入力として、前
記音声データベースからなる最適な音素片を選択する音
素選択部と、該音素選択部によって選択された、各音素
片の選択確率を求める選択確率計算部と、前記音声デー
タベースに対し、所定のパラメータ空間において、前記
選択確率を音素片の分布確率としてクラスタリング処理
を行うクラスタリング処理部と、該クラスタリング処理
部によってクラスタリング処理された、各クラスタの中
から代表音素片を選択する音素波形素片登録部と、を備
えることを特徴とする。
ラスタ内のセントロイドから前記クラスタ内に含まれる
全ての音素片までの距離が最小になるようにクラスタリ
ング処理することを特徴とする。
されていることを特徴とする。
から構成されていることを特徴とする。
を用いて説明する。
略構成図である。また、図2は、本発明における、音声
データベースにおける音素片情報最適化方法を実現する
ためのフローチャートである。
を説明する。
(文章)が言語処理部1に入力されると、言語処理部1
は、形態素解析、係り受け解析を行い、解析後の音素に
対して音素記号、品詞、及びアクセント記号列を付与す
る。
は音素記号、アクセント記号列、及び形態素解析の結果
より得られる入力テキストの品詞情報を用いて、音素中
心付近での基本周波数F0、パワー、音韻継続時間長を
推定する。
用いてコストを求め、音素を選択する。本ステップにお
ける具体的な音素片の選択は、ステップS3で推定され
た基本周波数F0、パワー、音韻継続時間長の推定値と
の非適合を表わすコスト、及び各音素片を接続するとき
のコストを計算し、その総和が最小になる音素片の組み
合わせをDP(ダイナミックプログラミング)法に従い
数1を用いることにより探索を行う。ここで、コストを
示すコスト関数D(F)を数1に示す。
での基本周波数、パワー、音韻継続時間長の推定値と合
成単位との差であり、 Dposiは、文中の位置(語頭、
語中、及び語尾)の違いを数値化した値である。
Dc F0、Dc pow、Dc cepは、接続する2つの合成単位の
接続点での基本周波数の差、パワーの差、ケプストラム
の差である。 Dc phは、発話環境を考慮して決定された
接続の行い易さ(接続優先順位)を示す歪である。ま
た、wx、wc xは、夫々のパラメータに乗ずる重み係数
である。
含む音声データベース7を用いて、学習用テキスト情報
(文章)を合成し、各音素片の選択された回数を計算す
る。具体的には、音声データベース7の全ての音素片
を、適当な音素単位に分割する。このとき、無声の子音
を含む場合には、CV、VCに分割し、有声の子音を含
む場合には、VCVに分割している。尚、「C」とは、
子音(Consonant)を表わし、また「V」とは、母音(V
owel)を表わす。
された回数を平均し、音素単位の選択回数とし、各音素
単位の選択確率を計算する。尚、本発明では、1度も選
択されなかった音素単位にも小さな確率を割り当てるこ
ととした。ステップS9においては、ステップS7で計
算された選択確率に基づいて、クラスタリング処理部5
は、分布が既知の場合のLBGアルゴリズムを用いて、
指定された個数にクラスタリング処理を行う。
に説明する。
数の初期代表ベクトルA0を任意に決定する。またイン
デックスm=0、平均歪みD-1=―∞とする。
全ての音素片を最も近い代表ベクトルAmが属するクラ
スタP(Am)に分割する。この時の距離の計算は数2を
用いる。
全ての音素片に関する重心(セントロイド)を計算し、
m+1の代表ベクトルとする。このセントロイドは、音
素片の音響パラメータのベクトルの各要素ごとの平均を
計算することで求められるが、この平均は、各音素の選
択確率を用いて計算される。
Am+1、クラスタP(Am+1)の時の平均歪みDm+1を計算
する。歪みは、前記数2を選択確率で平均した結果であ
る。
させる。
る。歪みの減少率を計算し一定量ε以下ならその時のク
ラスタP(Am)を出力として終了する。
S9で求められた各クラスタのセントロイドを計算し、
それに最も近い音素を選択音素として音声ファイル作成
部6が登録することによって、縮小(削減)された音声
ファイル(データベース)が新たに作成される。
価実験を行った。本実験では、地名の読み上げを行う合
成器の生成を目的とした。学習用文章には、新郵便番号
データのうち九州地方を除く全てを用いた。新郵便番号
データより、市・郡名称、区町村名称、町域名称を抽出
し、「ここは、X市、Y区、Z町、です。」という文章
に変換し合成を行った。
の部分を除き、残りの結果より各音素の選択確率を求め
た。求めた選択確率を用いてクラスタリングした縮小フ
ァイル(データベース)と、選択確率が一様としてクラ
スタリングした縮小ファイル(データベース)を用い
て、学習に用いた地名、学習に用いなかった地名(九州
地方) 、小説の3種類の文章を合成し評価した。
ベース)のサイズ、および実験結果を示す。
5文章を合成した時の数1の歪コストの合計を文章の総
音素数で割った1音素当りの平均歪である。また、図4
中の斜線は選択確率が一様として作成した音声ファイル
(データベース)による合成結果(conventional) 、ま
た交差線は提案方式による結果(proposed) 、更に縦線
は全ての音素片を含む音声ファイル(データベース)に
よる合成結果(all)である。
名、place-name (open)は学習に用いなかった地名(九州
地方) 、novelは全く環境の異なる文章である小説の結
果を示す。
が選択確率を一様とした場合と比較して歪が少なくなっ
ており、提案方式が有効であることがわかる。それぞれ
の文章の種類ごとに比較すると、proposedの歪は地名読
み上げではallに近いが、小説読み上げではconventiona
lに近い。これは、open-closedに関わらず言えること
で、地名読み上げという環境への最適化が行われている
ことがわかる。
によれば、文章発話から切り出した音素片を接続するこ
とにより合成音を得る波形合成に適用される音声データ
ベースにおける音素片情報最適化方法において、予め学
習用テキスト情報を用いて合成し、その合成結果に従っ
て前記音声データベースを構成する各音素片情報の使用
頻度を求め、該使用頻度に基づいてクラスタリング処理
を行うことにより、使用頻度の高い音素片情報からなる
音声ファイル(データベース)を作成することができる
効果を奏する。
音素片を接続することにより合成音を得る波形合成に適
用される音声データベースにおける音素片情報最適化装
置において、前記文章発話から切り出した音素片を蓄積
した音声データベースと、学習用テキストを入力とし
て、前記音声データベースからなる最適な音素片を選択
する音素選択部と、該音素選択部によって選択された、
各音素片の選択確率を求める選択確率計算部と、前記音
声データベースに対し、所定のパラメータ空間におい
て、前記選択確率を音素片の分布確率としてクラスタリ
ング処理を行うクラスタリング部と、該クラスタリング
部によってクラスタリングされた、各クラスタの中から
代表音素片を選択する音素波形素片登録部と、を備える
ことにより、使用頻度の高い音声には多くの音素片情報
を割り当てることが出来る効果を奏する。
る。
素片情報最適化方法を実現するためのフローチャートで
ある。
フローチャートである。
すフローチャートである。
Claims (9)
- 【請求項1】 文章発話から切り出した音素片を接続す
ることにより合成音を得る波形合成に適用される音声デ
ータベースにおける音素片情報最適化方法において、 予め学習用テキスト情報を用いて合成し、その合成結果
に従って前記音声データベースを構成する各音素片情報
の使用頻度を求め、該使用頻度に基づいてクラスタリン
グ処理を行うことにより、音声ファイルの音素片情報を
最適化することを特徴とする音声データベースにおける
音素片情報最適化方法。 - 【請求項2】 文章発話から切り出した音素片を接続す
ることにより合成音を得る波形合成に適用される音声デ
ータベースにおける音素片情報最適化方法において、 音素選択部が、学習用テキスト情報を入力として、前記
文章発話から切り出した音素片を蓄積した音声データベ
ースから最適な音素片を選択する第1ステップと、 選択確率計算部が、前記音素選択部によって選択された
各音素片の選択確率を求める第2ステップと、 クラスタリング処理部が、前記音声データベースに対
し、所定のパラメータ空間において、前記選択確率を音
素片の分布確率としてクラスタリング処理を行う第3ス
テップと、及び音素波形素片登録部が、前記クラスタリ
ング処理部によってクラスタリングされた、各クラスタ
の中から代表音素片を選択する第4ステップ、からなる
ことを特徴とする音声データベースにおける音素片情報
最適化方法。 - 【請求項3】 文章発話から切り出した音素片を接続す
ることにより合成音を得る波形合成に適用される音声デ
ータベースにおける音素片情報最適化装置において、 前記文章発話から切り出した音素片を蓄積した音声デー
タベースと、 学習用テキスト情報を入力として、前記音声データベー
スからなる最適な音素片を選択する音素選択部と、 該音素選択部によって選択された、各音素片の選択確率
を求める選択確率計算部と、 前記音声データベースに対し、所定のパラメータ空間に
おいて、前記選択確率を音素片の分布確率としてクラス
タリング処理を行うクラスタリング処理部と、該クラス
タリング処理部によってクラスタリング処理された、各
クラスタの中から代表音素片を選択する音素波形素片登
録部と、を備えることを特徴とする音声データベースに
おける音素片情報最適化装置。 - 【請求項4】 前記クラスタリング処理部は、各クラス
タ内のセントロイドから前記クラスタ内に含まれる全て
の音素片までの距離が最小になるようにクラスタリング
処理することを特徴とする請求項1、又は2記載の音声
データベースにおける音素片情報最適化方法。 - 【請求項5】 前記学習用テキスト情報は、文章から構
成されていることを特徴とする請求項1、又は2記載の
音声データベースにおける音素片情報最適化方法。 - 【請求項6】 前記音素片は、少なくとも波形情報から
構成されていることを特徴とする請求項1、又は2記載
の音声データベースにおける音素片情報最適化方法。 - 【請求項7】 前記クラスタリング処理部は、各クラス
タ内のセントロイドから前記クラスタ内に含まれる全て
の音素片までの距離が最小になるようにクラスタリング
処理することを特徴とする請求項3記載の音声データベ
ースにおける音素片情報最適化装置。 - 【請求項8】 前記学習用テキスト情報は、文章から構
成されていることを特徴とする請求項3記載の音声デー
タベースにおける音素片情報最適化装置。 - 【請求項9】 前記音素片は、少なくとも波形情報から
構成されていることを特徴とする請求項3記載の音声デ
ータベースにおける音素片情報最適化装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24875097A JP3505364B2 (ja) | 1997-09-12 | 1997-09-12 | 音声データベースにおける音素片情報最適化方法、及び音素片情報最適化装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24875097A JP3505364B2 (ja) | 1997-09-12 | 1997-09-12 | 音声データベースにおける音素片情報最適化方法、及び音素片情報最適化装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1185193A true JPH1185193A (ja) | 1999-03-30 |
JP3505364B2 JP3505364B2 (ja) | 2004-03-08 |
Family
ID=17182822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP24875097A Expired - Fee Related JP3505364B2 (ja) | 1997-09-12 | 1997-09-12 | 音声データベースにおける音素片情報最適化方法、及び音素片情報最適化装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3505364B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030060588A (ko) * | 2002-01-10 | 2003-07-16 | 주식회사 현대오토넷 | 코퍼스 기반 음성 합성용 녹음 문장 선정을 위한 방법 |
US7092878B1 (en) | 1999-08-03 | 2006-08-15 | Canon Kabushiki Kaisha | Speech synthesis using multi-mode coding with a speech segment dictionary |
JP2009080268A (ja) * | 2007-09-26 | 2009-04-16 | Kddi Corp | 種々の音声合成装置のための素片データベース生成装置、方法及びプログラム |
JP2009237015A (ja) * | 2008-03-26 | 2009-10-15 | Nippon Hoso Kyokai <Nhk> | 音声素片接続装置及びプログラム |
-
1997
- 1997-09-12 JP JP24875097A patent/JP3505364B2/ja not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7092878B1 (en) | 1999-08-03 | 2006-08-15 | Canon Kabushiki Kaisha | Speech synthesis using multi-mode coding with a speech segment dictionary |
KR20030060588A (ko) * | 2002-01-10 | 2003-07-16 | 주식회사 현대오토넷 | 코퍼스 기반 음성 합성용 녹음 문장 선정을 위한 방법 |
JP2009080268A (ja) * | 2007-09-26 | 2009-04-16 | Kddi Corp | 種々の音声合成装置のための素片データベース生成装置、方法及びプログラム |
JP2009237015A (ja) * | 2008-03-26 | 2009-10-15 | Nippon Hoso Kyokai <Nhk> | 音声素片接続装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP3505364B2 (ja) | 2004-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11735162B2 (en) | Text-to-speech (TTS) processing | |
US7603278B2 (en) | Segment set creating method and apparatus | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
US7035791B2 (en) | Feature-domain concatenative speech synthesis | |
US8321222B2 (en) | Synthesis by generation and concatenation of multi-form segments | |
JP2826215B2 (ja) | 合成音声生成方法及びテキスト音声合成装置 | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
WO2021061484A1 (en) | Text-to-speech processing | |
JP3910628B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
EP1668628A1 (en) | Method for synthesizing speech | |
US10699695B1 (en) | Text-to-speech (TTS) processing | |
JPH1195783A (ja) | 音声情報処理方法 | |
JP2005266349A (ja) | 声質変換装置および声質変換方法ならびに声質変換プログラム | |
Bettayeb et al. | Speech synthesis system for the holy quran recitation. | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
JPH05197398A (ja) | 音響単位の集合をコンパクトに表現する方法ならびに連鎖的テキスト−音声シンセサイザシステム | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JPH1185193A (ja) | 音声データベースにおける音素片情報最適化方法、及び音素片情報最適化装置 | |
JP4170819B2 (ja) | 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体 | |
Takaki et al. | Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012 | |
EP1589524B1 (en) | Method and device for speech synthesis | |
JPH10254471A (ja) | 音声合成装置 | |
EP1640968A1 (en) | Method and device for speech synthesis | |
Cahyaningtyas et al. | Under-Resourced Natural Bahasa Indonesia HMM-based Text-To-Speech System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20031202 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20031215 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081219 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081219 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091219 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101219 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101219 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111219 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121219 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131219 Year of fee payment: 10 |
|
LAPS | Cancellation because of no payment of annual fees |