JPH06250691A - 音声合成装置 - Google Patents

音声合成装置

Info

Publication number
JPH06250691A
JPH06250691A JP5059385A JP5938593A JPH06250691A JP H06250691 A JPH06250691 A JP H06250691A JP 5059385 A JP5059385 A JP 5059385A JP 5938593 A JP5938593 A JP 5938593A JP H06250691 A JPH06250691 A JP H06250691A
Authority
JP
Japan
Prior art keywords
waveform
segment
parameter
phoneme
phonological
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5059385A
Other languages
English (en)
Inventor
Keiji Hayashi
慶士 林
Noriya Murakami
憲也 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP5059385A priority Critical patent/JPH06250691A/ja
Publication of JPH06250691A publication Critical patent/JPH06250691A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 ファイル作成に使用する話者データを意識す
ることなしに、音質劣化の少ない自然な合成音声を生成
する構成の音声合成装置を提供する。 【構成】 前処理部12で分割された音韻連接に基づ
き、選択基準パラメタ設定部13は、合成パラメタであ
る波形素片の選択に用いる選択基準パラメタとこの波形
素片の素片パラメタを設定する。素片選択部24では、
設定された選択基準パラメタと、素片パラメタテーブル
15から取り込んだ素片パラメタとの間でその2乗誤差
を算出し、この2乗誤差が最小となる波形素片を当該音
韻連接に対する最適素片として選択する。素片接続部1
7は選択された最適素片を素片ファイル16から抽出
し、音韻連接毎に素片接続部17で接続して合成音声と
なす。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、合成パラメタに、自然
音声から切り出された波形素片を用い、入力文字列から
合成音声を生成する音声合成装置に関する。
【0002】
【従来の技術】図6はこの種の従来の音声合成装置の構
成図であり、61は入力端子、62は前処理部、63は
選択基準パラメタ設定部、64は素片選択部、65は波
形辞書、66は波形ファイル、67は素片変形部、68
は素片接続部、69は出力端子を表す。
【0003】前処理部62は、入力端子61から入力さ
れた音素記号、アクセント情報(アクセント記号等)を
含む入力文字列を解析して音韻連接(音韻連鎖と同義、
以下同じ)に分解するものであり、選択基準パラメタ設
定部63は、音韻連接とアクセント記号から、合成パラ
メタである波形素片の選択基準となる選択基準パラメタ
と、選択対象となる波形素片を格納したファイルとを設
定するものである。素片選択部64は、音韻連接に対す
る最適素片を波形辞書65から選択するものである。具
体的には、上記設定された選択基準パラメタを用いて下
式により評価関数Pを算出し、その値が最小値となる波
形を選択する。
【0004】
【数1】 P=α×(n'-n)/σn+(1-α)×(W'-W)/σω ・・・・・・(1) 但し、 W=ωv×|(VtーVi)/σv|2+ωf×|(Ft-Fi)/σf|2 +ωt×|(TtーTi)/σt|2+ωa×|(AtーAi)/σa|2 n=1/eN
【0005】上式において、αは音韻環境と韻律特性に
関するバランス係数、nは音韻環境係数、Wは韻律特性
係数、n'及びW'は音韻環境係数n及び韻律特性係数W
の平均値、Nは最大一致音韻数、Vは平均ピッチ周波数
(HZ)、Fはピッチ傾斜、Tは継続時間、Aは平均パ
ワ値(RMS値)、σ,σv,σf,σt,σaは素片パラメタ
に対する平均ピッチ周波数等の分散値、ω,ωv,ωf,ω
t,ωaは平均ピッチ周波数等に関する重み係数、tは選
択基準パラメタを表す添字、iは素片パラメタを表す添
字を表す。なお、バランス係数α及び重み係数ω,ωv,
ωf,ωt,ωaは、経験的に設定される変数であり、一定
値ではない。
【0006】波形ファイル66は、小説・随筆等の文章
音声データを文書毎にファイル番号を付与してそのまま
格納しており、素片の集合という形態をとっていない。
また、素片変形部67では、前述の素片選択部64で選
択された最適素片を波形ファイル66より読み出し、前
記選択基準パラメタに一致するよう、選択基準パラメタ
毎に所定の変形処理を行っている。素片接続部68は、
変形された最適素片を音韻連接毎に順次接続して合成音
声を生成し、これを出力端子69に出力する。
【0007】
【発明が解決しようとする課題】ところで、前述のよう
に、素片選択部64の評価関数Pにおけるバランス係数
α及び重み係数ω,ωv,ωf,ωt,ωaは、経験的に設定さ
れており、波形ファイル66の作成に用いた特定話者
(以下第一の話者)用にチューニングされた数値であ
る。従って、この第一の話者と異なる第三者(以下、第
二の話者)用の波形ファイル66を新規に作成する場合
は、各係数α、ω,ωv,ωf,ωt,ωaを第二の話者用に再
チューニングしなければならないという第一の課題があ
った。
【0008】また、素片変形部67における変形処理
は、例えばピッチ変形処理の場合、前述の選択基準パラ
メタと素片選択部64で選択された最適素片との間でピ
ッチ変更比率を設定して行っている。しかし、その変更
比率が大きい場合は、元の最適素片の音質劣化を招く。
そのため、合成音声の自然性を向上させるには、素片変
形処理に対して高度な変形処理が要求されるという第二
の課題があった。この課題は、該当する音韻連接を含む
最適素片が波形ファイル66中に存在しないという、波
形ファイル66の構成にも関連している。
【0009】そこで、本発明は、上記課題に鑑み、ファ
イル作成に使用する話者データを意識することなしに、
音質劣化の少ない自然な合成音声を生成する構成の音声
合成装置を提供することを目的としている。
【0010】
【課題を解決するための手段】本発明では、音韻連接に
対する最適素片の選択尺度として、従来方式に代えて韻
律特性を重視し、選択基準パラメタからの誤差が最小と
なる韻律パラメタを特定し、この韻律パラメタに対応す
る素片を選択する方式とすることで前述の第一の課題の
解決を図る。また、自然音声中から切り出した波形素片
を用いる際に、切り出す音韻の音韻環境やアクセント情
報を考慮して複数個の波形素片を個別に管理することで
第二の課題の解決を図る。
【0011】具体的には、入力文字列を解析して音韻連
接に分解する前処理部と、複数の波形素片と各波形素片
の韻律パラメタとを格納する波形情報格納手段と、前記
音韻連接を含む波形素片の韻律パラメタを前記波形情報
格納手段より抽出するとともに、抽出した韻律パラメタ
のうち、波形素片の選択基準として設定した選択基準パ
ラメタからの誤差が最小となるものに対応する特定の波
形素片を選択する素片選択手段と、選択した波形素片を
音韻連接毎に順次接続して合成音声を生成する素片接続
部と、を備えた音声合成装置とする。
【0012】なお、前記波形情報格納手段は、前記音韻
連接と該音韻連接の中心音韻に対するアクセント情報と
を含む複数の音韻環境の波形素片を自然音声中から切り
出して個別に格納する素片格納手段と、各波形素片に対
応する韻律パラメタを格納した素片パラメタテーブルと
から成り、更に、前記誤差は、好ましくは、前記選択基
準パラメタと個々の韻律パラメタとの差分を各韻律パラ
メタの変動幅で除した値の2乗の和とする。
【0013】
【作用】波形情報格納手段から抽出した波形素片のう
ち、選択基準パラメタに対する韻律パラメタの誤差が最
小になるものを選択することにより、音韻連接毎に設定
値に最も近いものが得られる。特に、前記誤差として2
乗誤差を用いることで、誤差の方向を考慮した選択が可
能となり、波形素片の柔軟性がより向上する。これは話
者データが変わっても略同一結果となり、従来の第一の
課題が解決される。
【0014】また、波形情報格納手段には、音韻連接を
含む複数の波形素片が自然音声中から切り出される際
に、各韻律パラメタと共に個別に素片格納手段に格納さ
れる。従って、選択する波形素片のバリエーションが従
来に比べて格段に増え、複雑な素片変形処理が不要とな
るので、選択された波形素片(最適素片)の音質劣化も
無くなる。これにより、従来の第二の課題が解決され
る。
【0015】
【実施例】以下、図面を参照して本発明の実施例を説明
する。図1は本発明の一実施例に係る音声合成装置の構
成図であり、従来装置を表す図6に対応する。図1にお
いて、11は入力端子、12は前処理部、13は選択基
準パラメタ設定部、14は素片選択部、15は素片パラ
メタテーブル、16は素片ファイル、17は素片接続
部、18は出力端子を表す。
【0016】素片パラメタテーブル15は、予め自然音
声中から切り出した各波形素片の韻律パラメタ(以下、
素片パラメタ)を格納するものである。素片ファイル1
6は、音韻連接と各音韻連接の中心音韻に対するアクセ
ントの有無に従って、該当する波形素片を自然音声中か
ら切り出して個別に複数個格納するものである。
【0017】図2は、これら素片パラメタテーブル15
と素片ファイル16との相互関係を示す概念図である。
図2に示すように、素片パラメタテーブル15及び素片
ファイル16は、切り出した自然音声中の波形素片毎に
複数組準備され、音韻連接21とアクセントの有無を表
すアクセント記号に応じて特定のものが設定されるよう
になっている。
【0018】以下、図1を参照して各ブロックの処理を
説明する。まず、入力端子11から入力された文字列
を、前処理部12で音韻連接に分割する。この文字列に
は、音素記号やアクセント記号が含まれている。選択基
準パラメタ設定部13では、音韻連接とアクセント記号
から合成パラメタである波形素片の選択に用いる選択基
準パラメタ、即ち、平均ピッチ周波数Vt、ピッチ傾斜
Ft、時間長Tt、及び、平均パワ(RMS値)Atと、
前記波形素片を格納した素片ファイル(以下、選択ファ
イル)の素片パラメタ、即ち、平均ピッチ周波数Vi、
ピッチ傾斜Fi、時間長Ti、平均パワ(RMS値)Ai
とを設定する。
【0019】素片選択部24では、設定された選択基準
パラメタと選択ファイル中の素片パラメタとの間で2乗
誤差を算出し、この2乗誤差が最小となる波形素片を音
韻連接に対する最適素片として選択する。この動作原理
を図3及び図4を参照して説明する。
【0020】図3は、素片パラメタテーブル15の内容
説明図であり、31は素片パラメタテーブル名、32は
素片抽出環境、33は平均ピッチ周波数(HZ)V、3
4はピッチ傾斜F、35は継続時間T、36は平均パワ
値A、37は各パラメタ33〜36の夫々の最大値、3
8は各パラメタの夫々の最小値、39は素片選択部14
において選択の対称となるファイル番号を表す。
【0021】素片パラメタテーブル名称31は、例え
ば、素片抽出環境32のインデックスとして機能させ
る。図示の例では#furi#〜#furiikikk
u#を表出するための一例が記載されている。また、各
パラメタ33〜36及び最大値37等の数値は波形切り
出しの際に解析された値であり、固定的な数値である。
【0022】図4は、素片選択部14の詳細な動作原理
を示すフローチャートであり、Sは各処理のステップ番
号である。図4を参照すると、素片選択部14では、ま
ず、選択基準パラメタ設定部13で設定された選択基準
パラメタを読み込み(S41)、各パラメタ33〜36
及びこれらの最大値37及び最小値38を素片パラメタ
テーブル15より読み込む(S42)。そして、各最大
値37と最小値38との差分を算出し、これをパラメタ
変動幅として後段に出力する(S43)。次に、各選択
基準パラメタと選択ファイル中の素片パラメタとの差分
を当該パラメタの変動幅で除し、各々の2乗値の合計
(2乗誤差)を素片毎に算出する(S44)。この2乗
誤差を最適素片の選択抽出尺度SC(Selection Criter
ia)として用いる。この算出処理を数式で表すと下式の
ようになる。
【0023】
【数2】 SC=(VtーVi/wideV)2+(FtーFi/wideF)2 +(TtーTi/wideT)2+(AtーAi/wideA)2 ・・・・・・・・・(2) (2≦i≦10) ここで、変数名wideV、wideF、wideT、wideAは、夫
々S43で得られた平均ピッチ周波数V、ピッチ傾斜
F、継続時間T、平均パワ値Aのパラメタ変動幅であ
る。
【0024】また、音韻連接の中心音韻が無声化母音で
ある場合は、上記(2)式に示す2乗誤差のピッチ成分に
関する項を”0”とし、下式により算出する。
【0025】
【数3】 SC=(TtーTi/wideT)2+(AtーAi/wideA)2 ・・・・・・・・・(3) (2≦i≦10)
【0026】このようにして算出した2乗誤差の中で、
最小となる素片パラメタを有する波形素片を当該音韻連
接に対する最適素片として決定する(S45)。そし
て、決定した最適素片に対応するファイル番号39を後
続の素片接続部17に出力し(S46)、素片選択処理
を終える。
【0027】素片接続部17では、選択されたファイル
番号に従って素片ファイル16から該当する素片を取り
込んで接続し、入力文字列に対応した合成音声を出力端
子18に出力する。
【0028】なお、本実施例の音声合成装置は、波形素
片を合成結合単位とする従来装置と異なり、自然音声の
音韻環境やアクセント情報を個別に考慮した素片を合成
結合単位とするので、従来装置の素片変形部67(図6
参照)は不要となる。
【0029】図5は、この実施例に従って作成された合
成音声”振込:ふりこみ:furikomi”の波形例
である。この図5において、縦軸は音声波形の振幅(×
103)、横軸は時間(ms)を表しており、511〜514
は素片抽出環境、521〜524は音韻連接、531〜534は各音
韻連接の中心音韻、541〜544は各中心音韻に対する最適
素片の音声波形を示している。図5を参照すると、音韻
連接”fu”、”ri”、”ko”、”mi”毎に夫々
固有の音声波形を有する素片が接続され、自然音声によ
り近くなっていることがわかる。これら素片は、素片フ
ァイル16に格納された複数個の素片から、前述の2乗
誤差が最小値となるものが個別に抽出されているので、
話者が異なっても略同一の波形が得られ、従来のような
話者毎のチューニングが不要となる。
【0030】このように、本実施例によれば、従来装置
よりも極めて簡易な構成で、より明瞭性、自然性に優れ
た合成音声生成が可能になる。なお、本発明はこの実施
例の構成に限定されるものではなく、その要旨を逸脱し
ない範囲で任意に構成の変更が可能である。例えば、こ
の実施例では、最適素片の選択尺度SCとして、基準値
との最小2乗誤差を満たす形式について説明したが、こ
れは各誤差の方向を考慮する上で好適となる例であっ
て、必ずしもこの構成に拘束されるものではない。他の
構成として、各パラメタをその変動幅で除したものの合
計、あるいは2乗誤差よりも高次乗数誤差の合計が夫々
最小となるものを選択するようにしても良い。
【0031】
【発明の効果】以上説明したように、本発明の音声合成
装置は、分割された音韻連接毎に、選択基準パラメタに
対する韻律パラメタの誤差が最小になる波形素片を選択
し、これらを素片接続部で順次接合する構成なので、生
成される合成音声は、波形情報格納手段に格納された波
形素片のうち設定値(選択基準値)に最も近いものの結
合となる効果がある。これは、波形情報格納手段に格納
される波形素片に拘らず略同一となり、明瞭性に優れた
合成音声の生成が簡易な手段にて可能となる。特に、前
記誤差として2乗誤差を用いることで、誤差の方向を考
慮した選択が可能となり、上記効果がより顕著になる。
【0032】本発明では、また、音韻連接を含む複数の
音韻環境の波形素片を自然音声中から切り出して各韻律
パラメタと共に個別に格納するので、文書毎、あるいは
話者データ毎に格納する場合に比べて選択する波形素片
のバリエーションが格段に増え、複雑な素片変形処理が
不要となる効果がある。これにより、選択された波形素
片(最適素片)の音質劣化も無くなり、自然性に優れた
合成音声の生成が可能となる。
【図面の簡単な説明】
【図1】本発明の一実施例に係る音声合成装置のブロッ
ク図。
【図2】図1の構成による素片ファイルと素片パラメタ
テーブルとの概念構成図。
【図3】図1の構成による素片パラメタテーブルの内容
説明図。
【図4】図1の構成による素片選択部の処理手順を示す
フローチャート。
【図5】本実施例により生成された”ふりこみ”の合成
波形例を示す図。
【図6】従来の音声合成装置のブロック図。
【符号の説明】
12,62・・・前処理部 13,63・・・選択基準パラメタ設定部 14,64・・・素片選択部(素片選択手段) 15・・・素片パラメタテーブル(波形情報格納手段) 16・・・素片ファイル(波形情報格納手段) 17,67・・・素片接続部 511〜514・・・素片抽出環境 521〜524・・・音韻連接 531〜534・・・音韻連接の中心音韻 541〜544・・・各中心音韻に対する最適素片の音声波形
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成5年10月25日
【手続補正1】
【補正対象書類名】図面
【補正対象項目名】図6
【補正方法】変更
【補正内容】
【図6】

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 入力文字列を解析して音韻連接に分解す
    る前処理部と、 複数の波形素片と各波形素片の韻律パラメタとを格納す
    る波形情報格納手段と、 前記音韻連接を含む波形素片の韻律パラメタを前記波形
    情報格納手段より抽出するとともに、抽出した韻律パラ
    メタのうち、波形素片の選択基準として設定した選択基
    準パラメタからの誤差が最小となるものに対応する特定
    の波形素片を選択する素片選択手段と、 選択した波形素片を音韻連接毎に順次接続して合成音声
    を生成する素片接続部と、を有することを特徴とする音
    声合成装置。
  2. 【請求項2】 前記波形情報格納手段は、 前記音韻連接と該音韻連接の中心音韻に対するアクセン
    ト情報とを含む複数の音韻環境の波形素片を自然音声中
    から切り出して個別に格納する素片格納手段と、 各波形素片に対応する韻律パラメタを格納した素片パラ
    メタテーブルと、から成ることを特徴とする請求項1記
    載の音声合成装置。
  3. 【請求項3】 前記誤差は、前記選択基準パラメタと個
    々の韻律パラメタとの差分を各韻律パラメタの変動幅で
    除した値の2乗の和であることを特徴とする請求項1又
    は2記載の音声合成装置。
JP5059385A 1993-02-25 1993-02-25 音声合成装置 Pending JPH06250691A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5059385A JPH06250691A (ja) 1993-02-25 1993-02-25 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5059385A JPH06250691A (ja) 1993-02-25 1993-02-25 音声合成装置

Publications (1)

Publication Number Publication Date
JPH06250691A true JPH06250691A (ja) 1994-09-09

Family

ID=13111768

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5059385A Pending JPH06250691A (ja) 1993-02-25 1993-02-25 音声合成装置

Country Status (1)

Country Link
JP (1) JPH06250691A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5950152A (en) * 1996-09-20 1999-09-07 Matsushita Electric Industrial Co., Ltd. Method of changing a pitch of a VCV phoneme-chain waveform and apparatus of synthesizing a sound from a series of VCV phoneme-chain waveforms
US6035272A (en) * 1996-07-25 2000-03-07 Matsushita Electric Industrial Co., Ltd. Method and apparatus for synthesizing speech
US6125346A (en) * 1996-12-10 2000-09-26 Matsushita Electric Industrial Co., Ltd Speech synthesizing system and redundancy-reduced waveform database therefor
JP2006145848A (ja) * 2004-11-19 2006-06-08 Kenwood Corp 音声合成装置、音片記憶装置、音片記憶装置製造装置、音声合成方法、音片記憶装置製造方法及びプログラム
JP2011107408A (ja) * 2009-11-17 2011-06-02 Nippon Telegr & Teleph Corp <Ntt> 音声合成装置、方法及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6035272A (en) * 1996-07-25 2000-03-07 Matsushita Electric Industrial Co., Ltd. Method and apparatus for synthesizing speech
US5950152A (en) * 1996-09-20 1999-09-07 Matsushita Electric Industrial Co., Ltd. Method of changing a pitch of a VCV phoneme-chain waveform and apparatus of synthesizing a sound from a series of VCV phoneme-chain waveforms
US6125346A (en) * 1996-12-10 2000-09-26 Matsushita Electric Industrial Co., Ltd Speech synthesizing system and redundancy-reduced waveform database therefor
JP2006145848A (ja) * 2004-11-19 2006-06-08 Kenwood Corp 音声合成装置、音片記憶装置、音片記憶装置製造装置、音声合成方法、音片記憶装置製造方法及びプログラム
JP2011107408A (ja) * 2009-11-17 2011-06-02 Nippon Telegr & Teleph Corp <Ntt> 音声合成装置、方法及びプログラム

Similar Documents

Publication Publication Date Title
US7016841B2 (en) Singing voice synthesizing apparatus, singing voice synthesizing method, and program for realizing singing voice synthesizing method
US20050149330A1 (en) Speech synthesis system
EP0706170A2 (en) Method of speech synthesis by means of concatenation and partial overlapping of waveforms
US20080027727A1 (en) Speech synthesis apparatus and method
US20090048844A1 (en) Speech synthesis method and apparatus
JP4153220B2 (ja) 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
JP2623586B2 (ja) 音声合成におけるピッチ制御方式
US7765103B2 (en) Rule based speech synthesis method and apparatus
JPH06250691A (ja) 音声合成装置
US20010029454A1 (en) Speech synthesizing method and apparatus
JP4490818B2 (ja) 定常音響信号のための合成方法
JPH07319497A (ja) 音声合成装置
JPH09319394A (ja) 音声合成方法
JP3059751B2 (ja) 残差駆動型音声合成装置
JP2004354644A (ja) 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体
JP2615856B2 (ja) 音声合成方法とその装置
JP2703253B2 (ja) 音声合成装置
JPH09230893A (ja) 規則音声合成方法及び音声合成装置
JP2878483B2 (ja) 音声規則合成装置
JPH0772897A (ja) 音声合成方法および装置
JP2004347994A (ja) 音声合成装置、音声合成方法およびこの音声合成方法を実行するプログラム
JPH1097268A (ja) 音声合成装置
JP3310217B2 (ja) 音声合成方法とその装置
JP2001092481A (ja) 規則音声合成方法
JPH0836397A (ja) 音声合成装置