JPH09146576A - 原文対音声の人工的神経回路網にもとづく韻律の合成装置 - Google Patents

原文対音声の人工的神経回路網にもとづく韻律の合成装置

Info

Publication number
JPH09146576A
JPH09146576A JP7283573A JP28357395A JPH09146576A JP H09146576 A JPH09146576 A JP H09146576A JP 7283573 A JP7283573 A JP 7283573A JP 28357395 A JP28357395 A JP 28357395A JP H09146576 A JPH09146576 A JP H09146576A
Authority
JP
Japan
Prior art keywords
layer
storage unit
hidden layer
prosodic
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7283573A
Other languages
English (en)
Other versions
JP3270668B2 (ja
Inventor
Shin-Hoon Chien
シン−ホーン チェン
Sho Fuwa Fuwan
ショー−フワ フワン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NATL SCI KAUNSHIRU
National Science Council
Original Assignee
NATL SCI KAUNSHIRU
National Science Council
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NATL SCI KAUNSHIRU, National Science Council filed Critical NATL SCI KAUNSHIRU
Priority to JP28357395A priority Critical patent/JP3270668B2/ja
Publication of JPH09146576A publication Critical patent/JPH09146576A/ja
Application granted granted Critical
Publication of JP3270668B2 publication Critical patent/JP3270668B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 中国語の原文についての音声に関連して、原
文対音声(TTS)システムにおいて自然な音声を合成
するために、人工的神経回路網にもとづく韻律合成装置
を得ようとする。 【解決手段】 韻律合成装置は2つのかくれた層をもつ
4層の回帰神経回路網(RNN)を用いる。第1の部分
は韻律モデルであって、韻律発生に対する高レベルの言
語特徴からの影響のすべてを評価し、ワードについてク
ロック同期式に作動し、高レベルの言語特徴例えばワー
ドの音声の一部(POS)および句読法の記号を受理す
るものである。第2の部分は韻律パラメータ発生装置で
あって、音節とクロック同期して作動し、第1の部分で
発生する韻律状態の助けをかりて低レベルの言語特徴の
幾つかの追加入力を用いて所望の韻律パラメータのすべ
てを発生させる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は原文(テクスト)か
ら音声(スピーチ)への変換用の人工的な神経回路網に
もとづく韻律情報の合成装置に関する。
【0002】
【従来の技術】連続状の音声(スピーチ)は、話される
実際のワードのほかに、超分節的な(スープラセグメン
タル)情報、例えば、強勢、タイミング構造、基本周波
数(FO)のコンタ(輪郭)のパターン等、を包含す
る。これらの情報は一般的に音声の韻律と称され、これ
は文章形式、文章論的構造、意味論、話者の感情的状
態、等の影響を受ける。話者は通常、音声のリズム、語
句の強調、呼吸のための休止、等を伝えるために韻律を
用いる。韻律がないと、音声は平坦な音調を有するよう
になり、退屈に、不愉快に、またはほとんど判断できな
いようにひびくものになるであらう。したがって、適切
な韻律の情報を発生させることは、原文対音声(テクス
ト ツウ スピーチ、TTS)のシステムにおいて自然
の音声を合成するためには、最も重要な問題である。
【0003】
【発明が解決しようとする課題】一般的なTTSシステ
ムについて、発生が必要な韻律情報は、基本周波数(F
O)の輪郭、エネルギレベル、ワードの継続時間、およ
びワード間の休止期間、を包含する。これらの韻律情報
は一般的には入力される原文から抽出される言語特徴に
従って発生させられる。基本的には、言語特徴の相異な
るレベルであって、低レベルの語いの(lexica
l)特徴、例えばワードの音声的構造から高レベルの語
いの特徴、例えば文章論の境界、までにわたるもの、が
用いられることができる。
【0004】種々の言語のTTSについて、過去におい
て韻律発生に対する多くの研究法が提案されたが(Ca
rlson R,Granstrom B(1979)
による「規則に完全にもとづく、原文対音声のシステ
ム」Proc.ICASSP,pp686−688,1
976;L.S.Lee,C.Y.Tseng,M.O
uh−Young「中国の原文対音声のシステムにおけ
る合成の規則」IEEETrans.ASAP.Vo
l.37,pp.1309−1320;T.J.Sen
owski,C.R.Rosenberg「NETal
k、声を出して読むことを学習する並列の回路網」Jo
hn Hopkins University EEC
S Technical Report,1986)。
韻律の発生において高レベルの言語特徴を優雅に祈って
音声の高レベルの韻律構造を探究することは、一般的
に、依然として困難である。
【0005】したがって、結果として得られる合成され
た韻律情報は自然で流暢な音声を発生させるには充分に
は良好ではない。これは特にFO合成について真実であ
り、その理由はこれが合成された音声の自然さに影響を
及ぼす最も重要な韻律パラメータであるからである。従
来の規則準拠のFO合成の研究法は、幾つかの単純な抑
揚(イントネーション)のパターンを、高レベルの言語
特徴からの影響を評価するための、高レベルの韻律構造
であると考える。それは最初に文章論的な分析に依存
し、入力された原文から或る文章論的な境界を検出し、
次いで、種々の文章論的な成分からの影響を個別に考慮
することにより、FO輪郭を決定するための種々の規則
を用いる。
【0006】文章レベルの韻律構造をモデル化するため
に、わずかに幾つかの予め定められた抑揚パターンが用
いられる。例えば、よく知られた偏位作用(decli
nation effect)が宣言的文章用の下降状
FO輪郭を用いることを示唆する。明らかなことである
が、この研究法は、高性能のTTSシステムには充分に
良好なものではない。
【0007】標準中国語のTTSについて、韻律情報の
合成において、同様な状況に遭遇させられる。標準中国
語は音調的な言語である。各文字は音節として発音され
る。わずかに約1300の音韻論的に許容される音節が
存在するのみであり、これらの音節は411の基本音節
と5つの音調の適法なあらゆる組合せのセットである。
各基礎音節は選択的な子音の最初部分と母音の最終部分
で構成される。語(ワード)は、文章論的に意味をもつ
最小の単位であるが、1つまたは複数の音節からなる。
【0008】音節は標準中国語音声における基本的発音
単位であるという事実により、標準中国語TTSにおい
ても基本的合成単位として普通に選択される。したがっ
て、合成されることが必要である韻律情報は、ピッチ
(またはFO)コンタ(輪郭)、エネルギレベル、音節
の最終の継続時間、および音節間の休止期間を包含す
る。過去において、これらの韻律パラメータの幾つかま
たはすべてを合成するために幾つかの研究法が提案され
た。
【0009】これらは、規則準拠の研究法(J.Zha
ng“中国語用の原文対音声のシステムの音響パラメー
タおよび音韻論的規則”Proc.ICASSP.p
p.2023−2026,1986)、統計的方法
(S.H.Chen,S.G.Chang,S.M.L
ee”標準中国語の音声用の統計的モデル準拠の基本周
波数合成装置”J.Accoust.Soc.Am.9
2(1),pp.114−120,July 199
2)、線形回帰法(S.H.Hwang,S.H.Ch
en“標準中国語の原文対音声のシステム用の神経回路
網準拠のFO合成装置”IEE Proc.Vis.I
mage Signal Process.Vol.1
41 No.6,Dec.1994)、多重層知覚子
(MLP)準拠の研究法(Y.R.Wang.S.H.
Chen“韻律情報に援助される連続的な標準中国語の
音声の音調認識”J.Acoust.Soc.Am.V
ol.96,No.5,Ptl,pp2637−264
5,Nov,1994)、等を包含する。
【0010】幾らかの改良は達成されたにせよ、これら
の研究法は、任意の原文について自然な音声を合成する
ため適切な韻律情報を発生させる目標に到達することか
らは依然として遠く離れている。これらの研究法の主要
な欠点は、韻律情報の合成に向っての高レベルの言語特
徴を優雅に祈ることができないことにある。
【0011】
【課題を解決するための手段】本発明においては、人間
言語の原文対音声の変換用の人工的神経回路網にもとづ
く韻律情報の合成装置であって、該装置は、韻律モデル
であって、該人間言語の高レベルの言語特徴を受理し、
該人間言語のワードとクロック同期に従って作動し該ワ
ードの韻律構造の韻律状態をあらわす出力を供給するも
の、および、韻律パラメータの発生装置であって、該人
間言語の低レベルの言語特徴および該韻律モデルから供
給される該韻律状態の出力を受理し、音節とのクロック
同期に従って作動し、韻律パラメータを供給するもの、
を具備することを特徴とする韻律情報の合成装置、が提
供される。
【0012】好適には、本発明による人工的神経回路網
にもとづく韻律情報の合成装置における該韻律モデル
は、(a)該高レベルの言語特徴を記憶し該高レベルの
言語特徴の正規化された入力値を発生させる複数の記憶
ユニットを包含する入力層の第1の部分、および、
(b)複数の記憶ユニットを包含する第1のかくれた層
であって、該入力層の第1の部分から該正規化された高
レベルの言語特徴の入力値を受理し、該韻律状態の出力
を供給するものであり、その場合に、該入力層の第1の
部分の各記憶ユニットは記憶ユニットからなる人工的神
経回路網ファイバを有する第1のかくれた層の各記憶ユ
ニットに接続されているもの、を具備し、該韻律パラメ
ータの発生装置は、(c)複数の記憶ユニットを包含す
る第2のかくれた層であって、該入力層の第2の部分か
ら該低レベルの言語特徴を、該第1のかくれた層から韻
律状態の出力を受理し、出力を供給するものであり、そ
の場合に、該入力層の第2の部分の各記憶ユニットおよ
び第1のかくれた層の各記憶ユニットは記憶ユニットか
らなる人工的神経回路網ファイバを有する第2のかくれ
た層の各記憶ユニットに接続されているもの、および、
(d)第2のかくれた層から該出力を受理し、該韻律パ
ラメータを供給する出力層であって、複数の記憶ユニッ
トを包含し、第2のかくれた層の各記憶ユニットが記憶
ユニットからなる人工的神経回路網ファイバを有する出
力層の各記憶ユニットに接続されているもの、を具備す
る。
【0013】好適には、該韻律モデルにおいては、該第
1のかくれた層におけると同じ数の記憶ユニットを包含
する第1の反復式の層がさらに設けられ、該第1の反復
式の層の各記憶ユニットは、記憶ユニットからなる人工
的神経回路網ファイバを有する第1のかくれた層の各記
憶ユニットに接続され、該第1のかくれた層により非線
形の変換により発生する出力のすべては、該第1の反復
式の層を通る入力として、それ自身に返還供給されるよ
うになっている。
【0014】好適には該韻律パラメータ発生装置におい
ては、該第2のかくれた層におけると同じ数の記憶ユニ
ットを包含する第2の反復式の層がさらに設けられ、該
第2の反復式の層の各記憶ユニットは記憶ユニットから
なる人工的神経回路網のファイバを有する第2のかくれ
た層の各記憶ユニットに接続され、該第2のかくれた層
により非線形の変換により発生する出力のすべては、該
第2の反復式の層を通る入力として、それ自身に返還供
給されるようになっている。
【0015】好適には該韻律パラメータ発生装置におい
ては、複数の記憶ユニットを包含する第3の反復式の層
がさらに設けられ、第2のかくれた層の各記憶ユニット
は記憶ユニットからなる人工的神経回路網のファイバを
有する該第3の反復式の層の各記憶ユニットに接続さ
れ、該出力層により発生させられる出力の一部は非線形
に変換され、該変換された信号は該第3の反復式の層を
通る入力としてそれ自身に返還供給されるようになって
いる。
【0016】好適には、該入力層の第1の部分の各記憶
ユニットを第1のかくれた層の各記憶ユニットに接続す
る該人工的な神経回路網のファイバと、第1の反復式の
層の各記憶ユニットを第1のかくれた層の各記憶ユニッ
トに接続する該人工的な神経回路網のファイバは、単純
な反復式の神経回路網を構成するようになっている。
【0017】
【発明の実施の形態】本発明においては、高レベルの言
語特徴からの影響を適切に考慮するための、TTS用の
韻律の発生についての新規な研究法が提案される。基本
的な構想は、人工的な神経回路網(ANN)を用いて人
間の韻律発音の機構を模擬し、次いでそれを訓練して、
実際の音声から、人間の言語の韻律構造をモデルするこ
とである。入力としての訓練用原文から抽出された幾つ
かのワードレベルの特徴をとり、これらの訓練用原文に
関連する音声から抽出された韻律パラメータを出力目標
として設定することにより、われわれはANNを訓練し
て、音声の韻律構造と関連する原文の言語特徴のシーケ
ンスの間の関係を自動的に学習することができる。した
がって、よく訓練されたANNは、与えられた入力の原
文について適切な韻律情報を発生させるための韻律合成
装置であると考えることができる。
【0018】図1は人間の頭脳における韻律発音の過程
の概念的モデルを示す。入力された原文はまず、モデル
において、原文の分析により予行的に処理されて、幾ら
かの言語特徴が抽出される。次いで、これらの言語特徴
は韻律発音機構により解釈されて適切な韻律情報が発生
する。基本的には、低レベルの語彙の特徴、例えば音節
の音調から、高レベルの特徴、例えば文章論的境界、ま
でにわたる多様な言語特徴が、韻律の発生に影響を及ぼ
すために発音機構により用いられることができる。
【0019】高レベルの言語特徴からの影響がより広範
囲にわたるものであるという事実により、われわれは、
図2に示されるように2つの部分に分割することにより
モデルを精密化することを提案したい。第1の部分は韻
律のモデルであって、人間の音声の高レベルの言語特徴
からの影響を考慮するものである。これは韻律状態と称
される音韻論的状態を探究し、この音韻論的状態は音韻
発生の広範囲の動向を制御する。第2の部分は実際の音
韻パラメータ発生装置である。これは或る低レベルの語
彙の特徴を用い、音韻のモデルの助けをかりて音韻情報
を発生させる。
【0020】人間の発音機構の前記の精密化されたモデ
ルを模擬するために、本発明においては多層の回帰式の
神経回路網(RNN)の音韻合成装置が採用される。図
3はRNNのブロック線図をあらわす。図3に示される
ように、RNNは4層の回路網であって1つの入力層、
2つのかくれた層、および1つの出力層からなる。これ
の詳細な構築は図4に示される。これは2つの部分に機
能的に分割されることができる。
【0021】第1の部分は、入力層の第1の部分と第1
のかくれた層からなり、出力はすべてそれ自身の入力へ
帰還する。これは、入力された原文の或るワードレベル
の言語特徴のみを用いることにより、人間の言語の音声
の高レベルのワードレベルの韻律構造を探究するため
の、韻律モデルであると判断される。これは、ワードと
クロック同期して作動し、現在のワードの韻律構造の韻
律状態をあらわす或る出力を発生する。
【0022】入力の特徴は、現在のワードをWi 、後続
のワードをWi+1 について、発声の一部(詞類)である
POS(Wi )およびPOS(Wi+1 )、長さであるL
en(Wi )およびLen(Wi+1 )、および、2つのワー
ド間に存在する句読法記号(PM)の形式を示す指示子
であるPM(Wi ,Wi+1 )を包含する。標準中国語に
ついて、われわれは、実験において、POSの42の形
式およびPMの4つの形式を用いた。それらは表1およ
び表2にそれぞれ示される。
【表1】
【表2】
【0023】韻律モデルを実現するために或るワードレ
ベルの言語特徴をもつこの形式の回帰神経回路網を用い
る理由は下記のとおりである。第1に、自然な中国語の
非限定の入力原文について高レベルの文章論特徴を正確
に得ることが一般には容易でなく、また標準中国語の音
声は韻律構造と同形ではないという事実のために、韻律
モデルを実現しようとして高レベルの文章論特徴を入力
特徴として直接用いることは、実際上、不適切である。
第2に、ワードは発音の最小の有意味の単位であるか
ら、ワードはまた、標準中国語音声の韻律構造の基本構
築要素であるべきである。第3に、標準中国語の音声の
韻律構造は成分ワードの関係を叙述するモデルであると
判断されることができる。
【0024】第4に、この研究で用いられるRNNの最
初の部分は、単純なRNNであり、この単純なRNN
は、有限状態の機械を模擬するために、研究(R.P.
Lippmann“神経回路網を用いる計算の序論”I
EEE ASSP Mag.pp.4−22,198
7)において用いられている。したがってこれは、標準
中国語の音声におけるワードの関係を叙述するためにモ
デルとして用いられるに適切な動的なシステムである。
以上に述べられた見解から、われわれは、或るワードレ
ベルの言語特徴をもつRNNの最初の部分を韻律モデル
を実現するために用いることができることを信ずる。
【0025】RNNの第2の部分は、入力層の第2部
分、第2のかくれた層、および出力層からなる。これは
実際の韻律パラメータ発生装置である。これは、第2の
かくれた層へ直接に供給される或る低レベルの言語特徴
および韻律モデルから発生する韻律状態を用いることに
より、標準中国語TTSシステムで必要とされる韻律パ
ラメータのすべてを発生させるために音節にクロック同
期して作動する。第2のかくれた層の出力はすべてそれ
自身の入力へ返還供給される。それに加えて、ピッチ平
均とエネルギレベルの2つの出力韻律パラメータは出力
層の入力へ返還供給される。この配置により、韻律パラ
メータ発生装置は、動的なシステムになり、実際の発声
におけるこれらの時間的に変化する韻律パラメータを予
言することができる。
【0026】標準中国語について、本発明で用いられる
入力低レベル言語特徴は、音調T(Sj )、初期部の形
式I(Sj )、処理しつつある音節Sj の最終部F(S
j )の形式、および処理しつつある音節が現行のワード
i の最初の、最後の、または中間の音節のいずれであ
るかを示す指示子L(Sj /Wi )を包含する。われわ
れの経験によれば、子音の発音の態様にもとづき決定さ
れる初期部分の6つの幅の広い形式と成分母音と鼻音に
より最終的に分類される17の形式が用いられる。表3
および表4はこれらの初期および最終の形式を表にした
ものである。
【0027】出力韻律パラメータは、ピッチ輪郭、エネ
ルギレベル(すなわち最大のログエネルギ)、および処
理しつつある音節の最終の継続時間の4つの低次の直交
変換された係数を包含する。ここで、エネルギレベルと
最終の継続時間は処理しつつある音節の最終形式用に正
規化される。これらのパラメータの正規化は、語いの言
語特徴により生ずるこれらの韻律パラメータの変動可能
性からもたらされるシステムの複雑性を低減させるため
に行われる。ピッチ輪郭を直交変換するために用いられ
る基本的関数は下記で与えられる。
【数1】
【数2】
【数3】
【数4】
【0028】したがって、ピッチ輪郭の該4つの低次の
直交変換された係数の、最初のおよび他の3つの係数
は、処理しつつある音節のピッチ輪郭の平均および形状
をそれぞれあらわす。
【表3】
【表4】
【0029】RNN韻律合成装置は、実際の音声の発声
の大規模のセットを用いて誤り後方伝播(EBP)のア
ルゴリズムにより訓練することができる。入力原文から
抽出された言語特徴を入力として供給し対応する発声か
ら抽出された韻律パラメータを所望の出力の目標として
設定することにより、RNNは発声の韻律構造と入力原
文のワードレベルの言語特徴の間の関係を自動的に学習
することができる。適切に訓練を行った後に、われわれ
はRNNを標準中国語のTTS用の韻律合成装置である
と判断することができる。本発明において開示されるR
NN準拠の韻律合成装置が標準中国語に加えて、或る人
間の言語にも適していることは、当業者は容易に理解す
ることができる。
【0030】標準中国語用の韻律情報の合成の本発明に
おける新しい解決策の特性は、模擬(シミュレーショ
ン)により点検された。電気通信研究所により提供され
る連続的標準中国語の音声のデータベースであるMOT
C,ROCが用いられた。データベースは、655の、
文章の、およびパラグラフの発声を包含する。発声はす
べて唯一人の男性の話者により行われた。発声はすべて
1秒につき3.5ないし4.5の音節の割合の速度で自
然に行われた。データベースは2つの部分、訓練用セッ
トと外部試験セット、に分割された。これらの2つのセ
ットはそれぞれ、28191音節および7051音節か
らなる。
【0031】音声信号はすべて20kHz のサンプリング
速度でデジタル式に記録された。次いでそれは10msの
フレームに分割され、波形、エネルギ、零通過割合、L
PC係数、ケプストラム(Cepstrum)、および
デルタケプストラム(delta−cepstrum)
を包含する幾つかの音響特徴にもとづいて、静寂、無
声、および有声の部分に手動で区分される。次いで、下
降的にサンプリングされた10kHz の音声信号から、合
成に対する韻律パラメータが抽出された。韻律パラメー
タは、ピッチ輪郭の4つの直交変換された係数、正規化
された最大の言語エネルギ、および各音節の正規化され
た最終の継続時間を包含する。
【0032】ここで、ピッチ期間は、手動による誤り補
正をともなうSIFTアルゴリズム(J.D.Mark
el“基本周波数推算用のSIFTアルゴリズム”IE
EETrans.on Audio and Elec
troacousticsVol.AU−20,No.
5,pp.367−377,Dec.1972)により
検出される。ピッチ検出のフレーム長さは、10msのフ
レーム偏位をともない40msである。言語エネルギ分析
用のフレーム長さは、10msのフレーム偏位をともない
20msである。
【0033】次いで、約80000語を包含する中国語
の辞書を用いることにより、音声データベースにおける
発声に関連する原文のすべてを語いのワードのシーケン
スへ復号化するために、自動的な原文分析が用いられ
る。辞書における語いのワードの各個は1つないし5つ
の音節を包含する。適切なワードシーケンスのすべてを
得たのち、全部のワードのPOSは手動で決定された。
模擬において、表1にあらわされるPOSの42の形式
のセットが用いられた。次いで、用いられた高レベルの
言語特徴のすべてが抽出された。
【0034】表5は合成された韻律パラメータの平均二
乗の誤差をあらわす。この表から内側試験、外側試験の
それぞれにおけるピッチ輪郭合成について0.82ms/
フレーム、1.08ms/フレームのRMSEが達成されたこ
とを見出すことができる。ピッチ平均の合成の代表的な
例が図5に示される。この図において、合成されたピッ
チ平均の軌跡が、音節の大半についての原軌跡の対応部
分に極めて良好に符合していることをみることができ
る。エネルギレベルの合成について、内側の試験、外側
の試験それぞれにおいて、3.12dB、4.88dBのRMS
Eが得られた。図6は図5において用いられたと同じ入
力原文についてのエネルギレベル合成の結果を示す。こ
の図に示されるように、合成されたエネルギレベルの軌
跡が音節の大半についての原軌跡の対応部分に依然とし
て符合している。
【0035】最終の継続時間の合成について、内側試験
と外側試験において28.7ms、38.2msのRMSE
が得られた。図7は前に用いられたと同じ入力原文につ
いての音節の合成された最終の継続時間をあらわす。こ
の図において、われわれは再び、合成された最終の継続
時間の軌跡が音節の大半についての原軌跡の対応部分に
極めて良好に符合していることを見出す。
【0036】ピッチ輪郭合成の2つの代表的な例が図1
3、図14にそれぞれ示される。これらの2つの図から
われわれは、音節の合成されたピッチ輪郭の大半が、形
状とレベルの両方において、原の輪郭の対応部分に類似
することを見出す。図13において第4から第7までの
音節、ここにその語いの音調性はすべて音調3である
が、についての合成されたピッチ輪郭の形状が音調2、
音調3、音調2、および音調3の標準の形状と同様にみ
えることは、注意する価値がある。同様に、図14にお
いて、最後の2つの音節、ここにその語いの音調性はす
べて音調3であるが、についての合成されたピッチ輪郭
の形状は、音調2および音調3の標準のパターンと同様
にみえる。このことは、音調2が音調3に続くとき音調
3を音調2へ変化させるという有名な連声規則がここで
正確に実現していることを示す。
【0037】データベースにおける3−3の音調対およ
び3−3−3の音調系列をもつ音節系列のすべてについ
ての原のピッチ輪郭と合成されたピッチ間隔の両方を注
意深く聴き取り点検することにより、われわれは、発音
された真正の音調性に標識を付し、音調変化の数を計算
した。表6および表7は実験結果をあらわす。表に示さ
れるように、正確な合成の割合は、3−3の音調につい
ては86%であり、3−3−3の音調系列については7
7.4%である。
【0038】さらに誤差分析を行うことにより、われわ
れは誤差の大半は音調2または音調3として、発音され
ることが許容される音節において発生したことを見出し
た。したがって、音調3の迷惑な誤り発音は感知されな
かった。このことは、音調3の変化についての連声規則
がRNN韻律合成装置により自動的に学習され暗黙的に
記憶されたことを確認するものである。したがって、以
上に述べられた見解にもとづき、われわれは、提案され
たRNN韻律合成装置は極めて良好に作用すると結論づ
けることができる。
【表5】
【表6】
【表7】
【0039】音調モデルの特性をさらに点検することに
より、われわれは、RNN韻律合成装置の最初の部分の
出力を8つのクラスにベクトル量子化し、各クラスに8
状態の有限状態機械(FSM)からの状態を割当てた。
このFSMは、入力される原文のワードにクロック同期
して作動する。表8〜表11は、状態転移の確率、文章
およびパラグラフの原文の開始および終了のワードの分
布、PMの前および後におけるワードの分布、および種
々の長さをもつワードの分布を包含するFSMの或る統
計をあらわす。図15はFSMのトポロジーを図示する
が、この場合にわれわれは幾つかの最も重要な状態転移
のみを図示した。
【0040】表9および表10から、状態1と状態2は
1つの文章または1つのパラグラフの終了状態であるこ
とがわかる。状態4は1つの文章の開始状態である。表
11からわれわれは、状態7は非終了の単音節のワード
に関連することを見出す。状態0は3より大であるかま
たはそれに等しい長さをもつ複数音節のワードに関連す
る。代名詞はたいてい状態0にも関連する。幾つかの3
音節のワードは状態6に関連する。図15から、状態5
と状態7が高い確率をもって状態4に続くことを見出す
こともできる。したがって、それらは文章の開始部分に
極めてひんぱんにあらわれる。状態4は、通常PMを間
にはさんで、状態1と状態2に続く。状態7は常に状態
3に続き、形容句を形成する。
【0041】より多くの原文(および音声)とそれに対
応する符号化された状態の系列を用いて、状態と文章論
的構造(および韻律構造)の関係をさらに探究すること
により、FSMのより多くの解釈を行うことが可能であ
る。以上に述べた見解にもとづき、FSMは言語的に意
味深いことが確認される。したがって、提案される韻律
モデルはワードレベルの言語特徴の入力のみを用いるも
のであるが、これは中国語の高レベルの言語特徴の韻律
情報発生に及ぼす影響を評価するのに有効なモデルであ
る。したがって、これは韻律情報の合成を援助するため
には極めて有用である。
【表8】
【表9】
【表10】
【表11】
【0042】最後に、標準中国語のTTSシステムにも
とづくピッチ同期式重複加算(PSOLA)は、現在の
RNN準拠の韻律合成装置を主観的に試験するためにま
た、実行される。これは訓練用のデータのセットから抽
出された411の音節の波形のセットを、基本的な合成
単位として用いる。音節のピッチ輪郭、エネルギレベ
ル、および最終継続時間を包含する3つの韻律パラメー
タが現在のRNN準拠の韻律合成装置により発生させら
れる。その他の韻律パラメータ、すなわち音節間の休止
期間、は幾つかの簡単な規則により設定される。台湾居
住の固有の中国人の多数による非公式の聴き取り試験に
より、合成された音声はすべて極めて自然に発音される
ことが確認された。したがって、この試験にもとづき、
われわれは、現在のRNN準拠の韻律合成装置は極めて
良好に作用すると結論づけることができる。
【図面の簡単な説明】
【図1】人間の頭脳における韻律発音の過程の概念的モ
デルを示すブロック線図である。
【図2】図1の概念的モデルのより精密化されたものを
示すブロック線図である。
【図3】本発明におけるRNN韻律合成装置を示すブロ
ック線図である。
【図4】図3に示される、本発明におけるRNN韻律合
成装置の詳細な構築を示すブロック線図である。
【図5】合成シーケンスの一例として、ピッチ期間をあ
らわす図である。点線は合成シーケンスを、実線は原の
シーケンスをあらわす。
【図6】合成シーケンスの一例として、エネルギレベル
をあらわす図である。
【図7】合成シーケンスの一例として、音節の最終の継
続時間をあらわす図である。
【図8】図5、図6、および図7の結合をあらわす図で
ある。
【図9】合成シーケンスの一例として、ピッチ期間を示
す図である。点線は合成シーケンスを、実線は原のシー
ケンスをあらわす。
【図10】合成シーケンスの一例として、エネルギレベ
ルをあらわす図である。
【図11】合成シーケンスの一例として、音節の最終継
続時間をあらわす図である。
【図12】図9、図10、および図11の結合をあらわ
す図である。
【図13】音声の波形、音節の合成されたピッチの輪
郭、および原のピッチの輪郭をあらわす図である。点線
は合成されたピッチの輪郭を、実線は原のピッチの輪郭
をあらわす。
【図14】音声の波形、音節の合成されたピッチの輪
郭、および原のピッチの輪郭をあらわす図11と同様な
図である。
【図15】韻律モデルのFSMのトポロジイを示す図で
ある。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 人間言語の原文対音声の変換用の人工的
    神経回路網にもとづく韻律情報の合成装置であって、該
    装置は、 韻律モデルであって、該人間言語の高レベルの言語特徴
    を受理し、該人間言語のワードとクロック同期に従って
    作動し該ワードの韻律構造の韻律状態をあらわす出力を
    供給するもの、および、 韻律パラメータの発生装置であって、該人間言語の低レ
    ベルの言語特徴および該韻律モデルから供給される該韻
    律状態の出力を受理し、音節とのクロック同期に従って
    作動し、韻律パラメータを供給するもの、を具備するこ
    とを特徴とする韻律情報の合成装置。
  2. 【請求項2】 該韻律モデルは、(a)該高レベルの言
    語特徴を記憶し該高レベルの言語特徴の正規化された入
    力値を発生させる複数の記憶ユニットを包含する入力層
    の第1の部分、および、(b)複数の記憶ユニットを包
    含する第1のかくれた層であって、該入力層の第1の部
    分から該正規化された高レベルの言語特徴の入力値を受
    理し、該韻律状態の出力を供給するものであり、その場
    合に、該入力層の第1の部分の各記憶ユニットは記憶ユ
    ニットからなる人工的神経回路網ファイバを有する第1
    のかくれた層の各記憶ユニットに接続されているもの、
    を具備し、該韻律パラメータの発生装置は、(c)複数
    の記憶ユニットを包含する第2のかくれた層であって、
    該入力層の第2の部分から該低レベルの言語特徴を、該
    第1のかくれた層から韻律状態の出力を受理し、出力を
    供給するものであり、その場合に、該入力層の第2の部
    分の各記憶ユニットおよび第1のかくれた層の各記憶ユ
    ニットは記憶ユニットからなる人工的神経回路網ファイ
    バを有する第2のかくれた層の各記憶ユニットに接続さ
    れているもの、および、(d)第2のかくれた層から該
    出力を受理し、該韻律パラメータを供給する出力層であ
    って、複数の記憶ユニットを包含し、第2のかくれた層
    の各記憶ユニットが記憶ユニットからなる人工的神経回
    路網ファイバを有する出力層の各記憶ユニットに接続さ
    れているもの、を具備する、請求項1記載の韻律情報の
    合成装置。
  3. 【請求項3】 該第1のかくれた層におけると同じ数の
    記憶ユニットを包含する第1の反復式の層がさらに設け
    られ、該第1の反復式の層の各記憶ユニットは、記憶ユ
    ニットからなる人工的神経回路網ファイバを有する第1
    のかくれた層の各記憶ユニットに接続され、該第1のか
    くれた層により非線形の変換により発生する出力のすべ
    ては、該第1の反復式の層を通る入力として、それ自身
    に返還供給されるようになっている、請求項2記載の韻
    律情報の合成装置。
  4. 【請求項4】 該第2のかくれた層におけると同じ数の
    記憶ユニットを包含する第2の反復式の層がさらに設け
    られ、該第2の反復式の層の各記憶ユニットは記憶ユニ
    ットからなる人工的神経回路網のファイバを有する第2
    のかくれた層の各記憶ユニットに接続され、該第2のか
    くれた層により非線形の変換により発生する出力のすべ
    ては、該第2の反復式の層を通る入力として、それ自身
    に返還供給されるようになっている、請求項2記載の韻
    律情報の合成装置。
  5. 【請求項5】 複数の記憶ユニットを包含する第3の反
    復式の層がさらに設けられ、第2のかくれた層の各記憶
    ユニットは記憶ユニットからなる人工的神経回路網のフ
    ァイバを有する該第3の反復式の層の各記憶ユニットに
    接続され、該出力層により発生させられる出力の一部は
    非線形に変換され、該変換された信号は該第3の反復式
    の層を通る入力としてそれ自身に返還供給されるように
    なっている、請求項2記載の韻律情報の合成装置。
  6. 【請求項6】 該入力層の第1の部分の各記憶ユニット
    を第1のかくれた層の各記憶ユニットに接続する該人工
    的な神経回路網のファイバと、第1の反復式の層の各記
    憶ユニットを第1のかくれた層の各記憶ユニットに接続
    する該人工的な神経回路網のファイバは、単純な反復式
    の神経回路網を構成するようになっている、請求項3記
    載の韻律情報の合成装置。
JP28357395A 1995-10-31 1995-10-31 テキストからスピーチへの人工的ニューラルネットワークに基づく韻律の合成装置 Expired - Lifetime JP3270668B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP28357395A JP3270668B2 (ja) 1995-10-31 1995-10-31 テキストからスピーチへの人工的ニューラルネットワークに基づく韻律の合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP28357395A JP3270668B2 (ja) 1995-10-31 1995-10-31 テキストからスピーチへの人工的ニューラルネットワークに基づく韻律の合成装置

Publications (2)

Publication Number Publication Date
JPH09146576A true JPH09146576A (ja) 1997-06-06
JP3270668B2 JP3270668B2 (ja) 2002-04-02

Family

ID=17667281

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28357395A Expired - Lifetime JP3270668B2 (ja) 1995-10-31 1995-10-31 テキストからスピーチへの人工的ニューラルネットワークに基づく韻律の合成装置

Country Status (1)

Country Link
JP (1) JP3270668B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019532349A (ja) * 2016-09-06 2019-11-07 ディープマインド テクノロジーズ リミテッド ニューラルネットワークを使用したオーディオの生成
JP2020106643A (ja) * 2018-12-27 2020-07-09 株式会社エーアイ 言語処理装置、言語処理プログラムおよび言語処理方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6062882B2 (ja) 2014-04-25 2017-01-18 ファナック株式会社 台座を備える回転角度検出器及び回転機械

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH025098A (ja) * 1988-06-24 1990-01-09 Ricoh Co Ltd 韻律制御方式
JPH0272399A (ja) * 1988-09-07 1990-03-12 Hitachi Ltd 音声規則合成方式
JPH02304493A (ja) * 1989-05-19 1990-12-18 Hitachi Ltd 音声合成システム
JPH04298794A (ja) * 1991-01-28 1992-10-22 Matsushita Electric Works Ltd 音声データ修正システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH025098A (ja) * 1988-06-24 1990-01-09 Ricoh Co Ltd 韻律制御方式
JPH0272399A (ja) * 1988-09-07 1990-03-12 Hitachi Ltd 音声規則合成方式
JPH02304493A (ja) * 1989-05-19 1990-12-18 Hitachi Ltd 音声合成システム
JPH04298794A (ja) * 1991-01-28 1992-10-22 Matsushita Electric Works Ltd 音声データ修正システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019532349A (ja) * 2016-09-06 2019-11-07 ディープマインド テクノロジーズ リミテッド ニューラルネットワークを使用したオーディオの生成
JP2020106643A (ja) * 2018-12-27 2020-07-09 株式会社エーアイ 言語処理装置、言語処理プログラムおよび言語処理方法

Also Published As

Publication number Publication date
JP3270668B2 (ja) 2002-04-02

Similar Documents

Publication Publication Date Title
Chen et al. An RNN-based prosodic information synthesizer for Mandarin text-to-speech
Dutoit An introduction to text-to-speech synthesis
Klatt The Klattalk text-to-speech conversion system
Dutoit High-quality text-to-speech synthesis: An overview
US8219398B2 (en) Computerized speech synthesizer for synthesizing speech from text
Bellegarda et al. Statistical prosodic modeling: from corpus design to parameter estimation
Dutoit A short introduction to text-to-speech synthesis
Chen et al. Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features
Rashad et al. Diphone speech synthesis system for Arabic using MARY TTS
Mittrapiyanuruk et al. Issues in Thai text-to-speech synthesis: the NECTEC approach
Lobanov et al. Language-and speaker specific implementation of intonation contours in multilingual TTS synthesis
KR0146549B1 (ko) 한국어 텍스트/음성 변환 방법
Chen et al. A Mandarin Text-to-Speech System
JP3270668B2 (ja) テキストからスピーチへの人工的ニューラルネットワークに基づく韻律の合成装置
Sečujski et al. Learning prosodic stress from data in neural network based text-to-speech synthesis
Gu et al. Analysis of tones in Cantonese speech based on the command-response model
Ng Survey of data-driven approaches to Speech Synthesis
Adeyemo et al. Development and integration of Text to Speech Usability Interface for Visually Impaired Users in Yoruba language.
Kaur et al. BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE
IMRAN ADMAS UNIVERSITY SCHOOL OF POST GRADUATE STUDIES DEPARTMENT OF COMPUTER SCIENCE
Nandwani et al. Speech Synthesis for Punjabi Language Using Festival
Datta et al. Epoch Synchronous Overlap Add (ESOLA)
Thubthong et al. Stress and tone recognition of polysyllabic words in Thai speech
Sun et al. Generation of fundamental frequency contours for Mandarin speech synthesis based on tone nucleus model.
Khalifa et al. SMaTalk: Standard malay text to speech talk system

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080118

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090118

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100118

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100118

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120118

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120118

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140118

Year of fee payment: 12

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term