JP3378448B2 - 音声素片選択方法,音声合成装置,及び命令記憶媒体 - Google Patents

音声素片選択方法,音声合成装置,及び命令記憶媒体

Info

Publication number
JP3378448B2
JP3378448B2 JP25003496A JP25003496A JP3378448B2 JP 3378448 B2 JP3378448 B2 JP 3378448B2 JP 25003496 A JP25003496 A JP 25003496A JP 25003496 A JP25003496 A JP 25003496A JP 3378448 B2 JP3378448 B2 JP 3378448B2
Authority
JP
Japan
Prior art keywords
speech
unit
synthesis
units
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP25003496A
Other languages
English (en)
Other versions
JPH1097289A (ja
Inventor
貴夫 小山
文徳 吉谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP25003496A priority Critical patent/JP3378448B2/ja
Publication of JPH1097289A publication Critical patent/JPH1097289A/ja
Application granted granted Critical
Publication of JP3378448B2 publication Critical patent/JP3378448B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えば規則音声合
成における合成単位(一または複数の音声素片)を効率
的に決定する技術に関する。
【0002】
【従来の技術】規則音声合成に用いられる音声素片を蓄
積した素片辞書装置ないし合成単位辞書装置(以下、素
片辞書)では、音声波形から切り出した複数の合成単位
と共に、各合成単位のピッチ周波数、経過時間、区間パ
ワ等の韻律情報と、各合成単位の前後の音韻環境情報と
を蓄積しているのが通常である。音声を合成する際に
は、上記韻律情報及び音韻環境をキー情報として所望の
合成単位候補を索出し、索出した合成単位候補から目標
とする韻律パタンとのパラメタ差を所定の評価式で評価
して特定の合成単位を決定している。
【0003】また、音声を合成する際の処理単位として
は、読点を単位として、一文章全体でスペクトル連続性
の評価を行う手法が知られている。この手法は、韻律目
標値に基づいて候補抽出した合成単位のすべてを対象と
して、スペクトルの連続性を動的計画法により評価する
ことを特徴とするものである。
【0004】
【発明が解決しようとする課題】しかし、上述のように
一文章を単位としてスペクトルの連続性評価を行うと、
文章が長い場合には、計算コストが増大し、実時間処理
が困難となるおそれがある。また、文章が長いことで、
スペクトルの連続性評価の範囲が広くなってしまい、そ
の結果、それぞれの合成単位が相互に与える影響範囲が
不当に広がる。本発明の課題は、音声合成の処理時間を
短くし、かつ、音声合成における各合成単位が相互に与
える影響範囲を小さく抑える技術を提供することにあ
る。
【0005】
【課題を解決するための手段】上記課題を解決するため
に、本発明は、改良された音声素片選択方法を提供す
る。この方法は、複数の音声素片を素片間ケプストラム
距離の特定情報、例えば該距離の代表値と共に蓄積した
素片辞書から合成対象音声の韻律パタンに類似する複数
の合成単位を選択する際に、前記合成対象音声に含まれ
る音節数が所定のしきい値よりも大きいときに前記合成
対象音声を複数区間に分割し、各分割区間毎に前記素片
間ケプストラム距離に基づく接続コストが最小となる合
成単位の組を特定する過程を含むことを特徴とする。こ
のような方法では、分割された短い区間を対象としてス
ペクトルの連続性を評価することができるため、従来よ
りも合成単位の組の特定に要する時間が短縮される。な
お、各分割区間内では、それぞれ独立処理を行うことが
できる。
【0006】本発明の方法では、合成対象音声を、例え
ば句読点で区切られるフレーズ区間毎に分割することが
有効である。一般に、句読点の位置では、比較的長いポ
ーズが挿入されることから、該位置は分割区間の分割位
置として好適である。また、句読点の有無によって無条
件に区間分割ができるため、特殊な処理が不要となり、
処理が簡略化される。
【0007】また、個々の合成単位の分割または結合処
理に伴うノイズの重畳が相対的に少ない音声素片を予め
格納しておき、前記合成対象音声の分割対象となる区間
内の構成音声素片のうち前記格納されている音声素片を
前記合成対象音声の分割位置となる音声素片として決定
するようにすることも有効である。このようにすれば、
音声素片の種類により区間分割の可否を判断するように
なるので、合成単位の分割・結合に伴うノイズ重畳を回
避することが可能となる。
【0008】さらに、好ましくは、前記分割対象となる
区間の中心位置に最も近い構成音声素片を、前記分割位
置となる音声素片として優先的に決定するようにする。
このようにすれば、分割区間長が平均化されて偏りが少
なくなる。従って、区間長の長さに起因する合成音声の
品質のばらつきが低減する。
【0009】本発明は、また、上記方法の実施に適した
音声合成装置をも提供する。この音声合成装置は、複数
の音声素片を素片間ケプストラム距離の特定情報と共に
蓄積した素片辞書と、合成対象音声の韻律パタンに類似
する複数の合成単位を選択する音声素片選択部と、前記
素片間ケプストラム距離に基づく接続コストが最小とな
る合成単位の組を選択して音声素片を合成する手段とを
有する音声合成装置において、前記合成対象音声に含ま
れる音節数を検出する手段と、検出した音節数が所定の
しきい値よりも大きいときに前記合成対象音声を複数区
間に分割する区間分割手段とを設け、前記素片間ケプス
トラム距離に基づく接続コストの大小を前記区間分割手
段で分割された区間毎に判定するように構成したことを
特徴とする。
【0010】前記区間分割手段は、例えば、個々の合成
単位の分割または結合処理に伴うノイズの重畳が相対的
に少ない音声素片を合成音声の分割位置に存在する可能
性のある音声素片として格納した音声素片テーブルと、
前記合成対象音声を構成する音声素片が前記音声素片テ
ーブルに格納されているか否かを判定するとともに、格
納されているときは当該音声素片の位置を分割位置とし
て特定する手段と、を備えて構成される。
【0011】なお、本発明の音声合成装置は、通常、命
令記憶手段に記憶された命令群に従って、コンピュータ
装置のマイクロプロセッサユニットが所要の処理を実行
することにより構築されるが、上述の命令群は、必ずし
もコンピュータ装置と一体不可分である必要はなく、該
コンピュータ装置から分離した存在であっても良い。但
し、この場合は、コンピュータ装置が読取可能で、かつ
コンピュータ装置によって実行可能な形態で、フレキシ
ブルディスクやCD−ROM(コンパクトディスク型R
OM)等の記憶媒体に物理的に実体化させる必要があ
る。また、始点と終点とが明確な態様で把握できる場合
は、上記命令群を通信媒体上で実体化させたものであっ
ても良い。
【0012】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を詳細に説明する。図1は、本発明を適用した
音声合成装置の概略構成図である。この音声合成装置1
01において音声を合成する場合は、入力端子102よ
りテキスト文字列、ここでは漢字かな交じりの日本語テ
キストを入力する。入力されたテキスト文字列は、テキ
スト解析部103へ送出される。テキスト解析部103
では、テキスト文字列を複数の文節に切り分け、それぞ
れの文節に対してローマ字表記の読み情報とアクセント
型情報とを付与する。これにより得られた各読み情報と
アクセント型情報は、韻律生成部104に送出される。
【0013】韻律生成部104では、各文節におけるロ
ーマ字表記の読み情報とアクセント型情報とに基づい
て、ピッチパタン、音韻継続時間長パタン、及びパワパ
タンの3種の韻律パタンを生成する。その後、区間分割
部105において、各読み情報に基づき、素片選択でス
ペクトル連続性を評価する区間を分割する処理を行う。
これについては後述する。
【0014】韻律生成部104で作成した韻律パタンと
ローマ字表記の読み情報は、区間分割部105で設定し
たスペクトル連続性評価区間に関する情報と共に素片選
択部106へ送出される。
【0015】素片選択部106では、与えられたローマ
字表記の読み情報及び韻律パタンを考慮して、素片辞書
部107から音声合成処理での使用に適した合成単位
(音声素片)を選択する。選択された合成単位は、素片
変形接続部108へと送出される。
【0016】素片変形接続部108では、素片選択部1
06で選択された合成単位を組み合わせることで得られ
る韻律パタンを、韻律生成部104で生成された韻律パ
タンに近くなるように変形処理を行い、変形後の素片同
士を接続する。以上の処理により得られたデータは、出
力端子109へ送出される。
【0017】なお、この実施形態に示す音声合成装置1
01では、VCV型の音声素片を用い、合成品質の向上
のために、各VCV型の種類毎に複数の合成単位を用意
している。この手法については、例えば本出願人による
特願平7−60962号明細書に詳細に記述されてい
る。
【0018】次に、上記区間分割部105の詳細処理内
容を図2〜図4を用いて説明する。区間分割部105
は、図2に示すように、フレーズ区間分割部201、文
節区間分割部202、音声素片依存区間分割部203よ
り構成される。フレーズ区間分割部201では、例えば
図3の最上段に示される入力音声(赤いチューリップの
花が、庭一面に咲きました。)の読み情報301からポ
ーズを特定し、この読み情報301を特定したポーズを
境に区間分割を行う。ポーズにより区切られた個々の区
間がフレーズである。図3において符号302はこのフ
レーズ区間分割部201による分割結果を表すものであ
る。
【0019】文節区間分割部202では、フレーズに分
割された各区間に対して、文節区切り位置の音声素片が
無声子音であるか否かを判定する。そして、無声子音で
ある場合は、区間分割を行い、無声子音以外の場合には
区間分割は行わない。図3における符号303は、文節
区間分割部202による分割結果を表すものである。
【0020】音声素片依存区間分割部203では、文節
区間分割部202による分割結果303のうち、区間内
に含まれる音節数が所定数よりも多い区間に対して、合
成単位種類による接続性評価と、分割区間長の偏りを少
なくするための区間長評価と、に基づいた区間分割処理
を行う。図3において符号304は、この分割結果を表
すものである。なお、区間内の音節数が所定数以下であ
る場合には、これを処理対象から外し、処理は行わない
ようにする。
【0021】音声素片依存区間分割部203における以
上の処理内容を図4及び図5により具体的に説明すると
以下のようになる。音声素片依存区間分割部203で
は、まず、区間長評価を行う。例えば図5に示される
「庭一面に(/ni/wa/i/chi/me/N/n
i/)」についての音節数としきい値との比較を行う。
このしきい値は処理用途に応じて任意に設定することが
できる。ここではしきい値を「4」と仮定する。
【0022】図5の例では区間内に含まれる音節数は
「7」であり、しきい値“4”よりも多いので、音声素
片依存区間分割部203は、区間内の各音節に探索順位
を設定する。具体的には、図5下段に示されるように、
区間中心に位置する音節「/chi/」を最高位「1」
と、区間中心から外れるに従って順位が低くなるよう
に、他の音節「/i/」,「/wa/」,・・・にそれ
ぞれ探索順位「2」,「3」・・・を設定する。このよ
うに各音節に探索順位を設定することで、区間の分割位
置が中心に近づくこととなり、区間長の偏りが小さく抑
えられる。なお、図5の例では、区間内の音節数が奇数
(「7」)であるので、最高位「1」となる音節は一つ
であるが、区間内の音節数が偶数である場合には、最高
位となる音節は二つとなる。
【0023】次に、最高位の音節、図5の例では中心部
の音節「/chi/」に対して以下のようにして接続性
評価を行う。ここでは図4に例示する内容の分割対象音
声素片テーブル401を用いる。この分割対象音声素片
テーブル401は、合成音声の分割位置に存在する可能
性のある音声素片を格納したものである。まず、当該最
高位の音節に含まれる子音の種類が分割対象音声素片テ
ーブル401にあるか否かを判定し、ある場合には、そ
の位置を分割位置と決定する。含まれない場合には、次
位の音節に対して上記判定を行う。
【0024】なお、分割対象音声素片テーブル401に
含まれる子音が、同じ順位の二つの音節に存在する場
合、分割対象音節テーブルに記してある係数と、正規化
頻度と、の積の値が大きい方を優先的に分割位置とし
て、分割位置を一つに特定する。更に、順位及び判定値
(係数×正規化頻度)が共に等しい場合には、文字列の
先頭に近い方を分割位置とする。分割位置が決まった後
に、更に分割が可能かどうかの判断を繰り返し、分割可
能な区間がなくなった時点で、次の選択処理へ移る。
【0025】次に、本発明のスペクトル連続性評価処理
に関して、図6及び図7を用いて詳細に説明する。図6
(a)の例では、/ni/、/iwa/、/ai/…の
各合成単位のそれぞれについて、素片辞書部107から
第一候補、第二候補、第三候補の各素片選択されてい
る。これら各候補は、目標韻律バタンと素片辞書部10
7内の対応する種類の素片を適当な評価式によって評価
し、最善の評価値のものを第一候補、次善のものを第二
候補として、評価の良いものから順に候補が選択され
る。
【0026】従来、「庭一面に(/niwaichim
enNni/)」という区間でスペクトル連続性を評価
する場合には、図6(a)に示すように、韻律要素で選
ばれたすべての合成単位について、素片間ケプストラム
距離を接続コストとし、素片間の接続コストが最小とな
るようにパスを選択することで合成単位の組を選択して
いた。図6(a)におけるパスの選択結果は図6(b)
に示す通りである。図示の例では、太線のパスの接続コ
ストが最小であり、合成単位/ni/、/iwa/…に
ついては、それぞれ第一候補、第二候補、…が選択され
ている。
【0027】この場合のパスの選択は、例えば動的計画
法(DP:Dynamic Programming)によりスペクトル連
続性を評価することにより可能となる。この手法におい
ては、パスの接続コストは、先頭からCD(ケプストラ
ム距離、以下同じ)1、CD2、CD3…CDnなる変
数で保持される。これに対し、区間を/niwai/と
/chimenNni/に分割して連続性を評価する場
合には、図7(a)に示されるように、韻律要素で選ば
れた合成単位/ichi/の部分で、/i/と/chi
/とに分割することで区間を分割する。
【0028】分割後は、それぞれの区間内で素片間のケ
プストラム距離が最小、つまりスペクトル連続性の最も
高い合成単位セットを一つに特定する。その結果を示し
たのが図7(b)である。各区間で選択した後に、図7
(c)、(d)に示されるように、先に分割した/i/
と/chi/の素片を結合し、次段の接続変形部へ処理
を移す。合成単位/ichi/における分割・結合処理
は、任意の手法を用いてよい。例えば、特願平7−60
962号明細書における代替素片生成処理を用いること
もできる。
【0029】
【発明の効果】以上の説明から明らかなように、本発明
によれば、合成対象音声が長い場合にこれを複数の短い
区間に分割し、各分割区間ごとにスペクトルの連続性評
価を行うことができるため、従来手法よりもスペクトル
の連続性評価に要する時間が短縮され、実時間処理も可
能となる。また、各分割区間内で独立に処理することが
可能なので、マルチプロセッサ環境で並列処理を行うこ
とで処理の高速化を図ることも可能となる。さらに、ス
ペクトル連続性の評価範囲が短くなるので、各合成単位
の素片同士の影響範囲の拡がりを抑制することも可能に
なり、自然性の高い合成音声を得ることが可能になる。
また、合成対象音声の長さに拘束されないので、合成単
位の適用可能範囲が拡大し、素片辞書の小型化も可能に
なる。
【図面の簡単な説明】
【図1】本発明を適用した音声合成装置の構成例を示す
ブロック図。
【図2】本実施形態による区間分割部の詳細ブロック図
【図3】区間分割結果の変遷を示す説明図。
【図4】分割対象音声素片テーブルの内容例を示す説明
図。
【図5】区間長評価の概要説明図。
【図6】(a),(b)はスペクトル連続性評価処理の
手順説明図。
【図7】(a)〜(d)はスペクトル連続性評価処理の
手順説明図。
【符号の説明】
101 音声合成装置 102 入力端子 103 テキスト解析部 104 韻律生成部 105 区間分割部 106 素片選択部 107 素片辞書部 108 素変変形接続部
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 13/06

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】複数の音声素片を素片間ケプストラム距離
    の特定情報と共に蓄積した素片辞書から合成対象音声の
    韻律パタンに類似する複数の合成単位を選択する方法で
    あって、 合成対象音声に含まれる音節数が所定のしきい値よりも
    大きいときに前記合成対象音声を複数区間に分割し、各
    分割区間毎に前記素片間ケプストラム距離に基づく接続
    コストが最小となる合成単位の組を特定する過程を含
    み、 個々の合成単位の分割または結合処理に伴うノイズの重
    畳が相対的に少ない音声素片を予め格納しておき、前記
    合成対象音声の分割対象となる区間内の構成音声素片の
    うち前記格納されている音声素片を前記合成対象音声の
    分割位置となる音声素片として決定するとともに、 前記分割対象となる区間の中心位置に最も近い構成音声
    素片を、前記分割位置となる音声素片として優先的に決
    定することを特徴とする音声素片選択方法。
  2. 【請求項2】前記合成対象音声の分割を、句読点で区切
    られるフレーズ区間毎に行うことを特徴とする請求項1
    記載の音声素片選択方法。
  3. 【請求項3】複数の音声素片を素片間ケプストラム距離
    の特定情報と共に蓄積した素片辞書と、合成対象音声の
    韻律パタンに類似する複数の合成単位を選択する音声素
    片選択部と、前記素片間ケプストラム距離に基づく接続
    コストが最小となる合成単位の組を選択して音声素片を
    合成する手段とを有する音声合成装置において、前記合
    成対象音声に含まれる音節数を検出する手段と、検出し
    た音節数が所定のしきい値よりも大きいときに前記合成
    対象音声を複数区間に分割する区間分割手段とを設け、
    前記素片間ケプストラム距離に基づく接続コストの大小
    を前記区間分割手段で分割された区間毎に判定するよう
    に構成されており、 前記区間分割手段は、個々の合成単位の分割または結合
    処理に伴うノイズの重畳が相対的に少ない音声素片を合
    成音声の分割位置に存在する可能性のある音声素片とし
    て格納した音声素片テーブルと、前記合成対象音声を構
    成する音声素片が前記音声素片テーブルに格納されてい
    るか否かを判定するとともに、格納されているときは当
    該音声素片の位置を分割位置として特定する手段と、を
    有し、 更に、前記分割位置として特定する手段は、前記合成対
    象音声の分割対象となる区間の中心位置に最も近い構成
    音声素片を、前記分割位置となる音声素片として優先的
    に決定するものであることを特徴とする音声合成装置。
JP25003496A 1996-09-20 1996-09-20 音声素片選択方法,音声合成装置,及び命令記憶媒体 Expired - Fee Related JP3378448B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25003496A JP3378448B2 (ja) 1996-09-20 1996-09-20 音声素片選択方法,音声合成装置,及び命令記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25003496A JP3378448B2 (ja) 1996-09-20 1996-09-20 音声素片選択方法,音声合成装置,及び命令記憶媒体

Publications (2)

Publication Number Publication Date
JPH1097289A JPH1097289A (ja) 1998-04-14
JP3378448B2 true JP3378448B2 (ja) 2003-02-17

Family

ID=17201853

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25003496A Expired - Fee Related JP3378448B2 (ja) 1996-09-20 1996-09-20 音声素片選択方法,音声合成装置,及び命令記憶媒体

Country Status (1)

Country Link
JP (1) JP3378448B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006337476A (ja) * 2005-05-31 2006-12-14 Canon Inc 音声合成方法および装置
JP5320363B2 (ja) * 2010-03-26 2013-10-23 株式会社東芝 音声編集方法、装置及び音声合成方法

Also Published As

Publication number Publication date
JPH1097289A (ja) 1998-04-14

Similar Documents

Publication Publication Date Title
US8566099B2 (en) Tabulating triphone sequences by 5-phoneme contexts for speech synthesis
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US5905972A (en) Prosodic databases holding fundamental frequency templates for use in speech synthesis
US6505158B1 (en) Synthesis-based pre-selection of suitable units for concatenative speech
US7454343B2 (en) Speech synthesizer, speech synthesizing method, and program
JP3587048B2 (ja) 韻律制御方法及び音声合成装置
US7069216B2 (en) Corpus-based prosody translation system
JPH1039895A (ja) 音声合成方法および装置
Bettayeb et al. Speech synthesis system for the holy quran recitation.
CN1787072B (zh) 基于韵律模型和参数选音的语音合成方法
JP4533255B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
JP3378448B2 (ja) 音声素片選択方法,音声合成装置,及び命令記憶媒体
JPH08263095A (ja) 音声素片選択方法および音声合成装置
KR100259777B1 (ko) 텍스트/음성변환기에서의최적합성단위열선정방법
Hwang et al. A Mandarin text-to-speech system
JPH08335096A (ja) テキスト音声合成装置
JP3109778B2 (ja) 音声規則合成装置
Pitrelli et al. Expressive speech synthesis using American English ToBI: questions and contrastive emphasis
Chen et al. A Mandarin Text-to-Speech System
EP1589524B1 (en) Method and device for speech synthesis
Carvalho et al. Automatic segment alignment for concatenative speech synthesis in portuguese
EP1640968A1 (en) Method and device for speech synthesis
JPH11231899A (ja) 音声・動画像合成装置及び音声・動画像データベース
JP2002049386A (ja) テキスト音声合成装置、テキスト音声合成方法及びその方法を記録した記録媒体
Heggtveit et al. Intonation Modelling with a Lexicon of Natural F0 Contours

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071206

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081206

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081206

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091206

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091206

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101206

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101206

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111206

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111206

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121206

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees