JPH02304493A

JPH02304493A - 音声合成システム

Info

Publication number: JPH02304493A
Application number: JP1124314A
Authority: JP
Inventors: Atsuo Hatono; 敦生鳩野
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1989-05-19
Filing date: 1989-05-19
Publication date: 1990-12-18

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、音声合成システムに係わり、特に文書を入力
し、構文解析処理後、その文書を音声により出力する文
書朗読システムに好適な文書台・成システムに関する。

〔従来の技術〕

従来の技術による音声合成の基本方式には、規則合成方
式と録音合成方式とがある。

規則合成方式は、文献［中田和男著　音声　音響工学講
座　日本音響学金偏ｐ１１３〜ｐ　１２４Ｊにおいて論
じられているように、声帯を音源、声道を音響フィルタ
ーとみなして、人間が音声を発生する動作を発振回路と
共振回路とを用いて電子的にシミュレートする方式であ
る。

録音合成方式は文献「中田和男著　音声　音響工学講座
　日本音響学金偏ｐ１２６〜ｐ１２９Ｊにおいて論じら
れているように、予め、必要となる単語の音声を録音し
、その録音した音声を切り貼りして、音声を合成する方
式である。

〔発明が解決しようとする課題〕

従来技術である音声の線形予測理論にもとづく規則合成
方式は１文献「中田和男著　音声　音響工学講座　日本
音響学金偏ｐ　ｌ　１７Ｊで論じられているように、声
帯を一定周期の鋸歯状波を生成する音源、声道を線形微
分方程式で近似可能な線形音響フィルターとみなしてい
る。ところが、イントネーションなどの韻律情報は音源
である声帯の振動の変化による寄与が多い。、また、子
音は、高レイノルズ数領域の乱流現象であり、線形微分
方程式では記述することができない。そのため、従来の
技術による音声合成システムは、平坦で単調な音声しか
合成することができなかった。

本発明の目的は、韻律情報にもとづいて、生成する波形
を変化させる音源を実現することと、声道の動作シミュ
レートする音響フィルターに非線形処理を導入すること
により、より人間の声道に近い音響フィルターを実現し
、より人間の音声に近い音声を合成可能なシステムを実
現することにある。

また、録音合成方式の場合には、疑問文、感喫文などの
文章の条件により、イントネーションなどの韻律情報が
異なり、同じ単語でも色々な音声が生じる。従来の技術
による録音合成方式では。

音声の切り貼り規則に韻律情報を取り込んでおらず、韻
律情報の相違にもとづいて複数の音声のなかから、最適
な音声を選択する処理は、人手によらなければならなか
った。

本発明の目的は、韻律情報を取り込んだ音声の切り貼り
処理を可能とすることにある。

〔課題を解決するための手段〕

ニューラルネットは、生物の神経細胞の動作を電子的に
シミュレートさせた電子回路である（第１図）、線形処
理は全てのパラメータを一様に拡大／縮小処理を行うの
に対して、ニューラルネットの特長は、ある特定のパラ
メータを強調するなどの非線形処理を行うことである。

線形処理を行うＰＡＣＯＲ型の規則合成装置は、素子と
してスレショルド（ｔｈｒｅｓｈｏｌｄ）型の一種、も
しくは、シグモイド（ｓｉｇｍｏｉｄ）型の特性を直線
にしたものを用いているとみなすことができる。

さらに、ニューラルネットを構成する各素子が入力デー
タの重みを変化させる学習機能を有している。この学習
では、出力とその出力に対する人間の評価値の入力を反
復しさえすればよく、入力と出力の因果関係を定式化す
る必要がない。従って、この学習機能を用いれば、これ
まで人間が因果関係を定式化することが難しかった情報
を取り込むことが可能となる。

韻律情報は、これまで人間が因果関係を定式化すること
が難しかった。この韻律情報をニューラルネットの学習
処理によって、取り込むことができる。

従って、規則合成方式の場合は、人間の声帯をシミュレ
ートする音源回路と音響フィルターを構成する素子をニ
ューロ素子により構成し、合成音声を人間が聞いて評価
し、その評価値の入力を十分な音質となるまで反復する
ことにより、上記目的を達成することができる。

また、録音合成方式の場合は、単語を録音すると同時に
、ストレスレベル、基本イントネーションのパワースペ
クトルなどの韻律情報（第８図）をも併せて登録する。

単語は同一ながら、韻律情報が異なる複数の音声のなか
から、韻律規則に応じた音声を選択する機能有する回路
をニューロ素子により構成し、追加する。それによる合
成音声を人間が聞いて評価し、その評価値の入力を十分
なｆ’ｆ質となるまで反復することにより、上記ト１的
を達成することができる。

〔作用〕

ニューラルネットは、生物の神経細胞の動作を電子的に
シミュレートさせた電子回路である。ニューラルネット
は、ある特定のパラメータを調調するなどの非線形処理
を行う（第２図）、さらに、ニューラルネットを構成す
る各素子が、入力データの重みを変化させる学習機能を
有している。

この学習処理は、出力とそれに対する人間の評価値の入
力を満足の行く出力かえられるまで反復しさえすればよ
く、入力と出力の因果関係を定式化する必要がない。従
って、この機能を用いれば、これまで人間が因果関係を
定式化することが難しかった情報を取り込むことが可能
となる。

規則合成方式の場合には、人間の声帯をシミュレートす
る発振回路と人間の声道の動作をシミュレートする共振
回路とをニューラルネットにより構成する。すると、シ
ステムにコード列として入力された文章から、発振回路
（音源）制御用のパラメータである韻律情報と、共振回
路（音響フィルター）の制御用のパラメータである音韻
情報とを決定し、これらのパラメータに基づく合成音声
を人間が評価し、合成された音声の音質が十分となるま
で反復する。これにより、規則合成方式の場合、ニュー
ラルネットから構成された発振／共振回路を用いた文書
朗読システムでは、平坦で金属的な音声から、より人間
の音声に近い音声を合成できるように調整することがで
きる。

また、録音合成方式の場合は、単語を録音すると同時に
、ストレスレベル、イントネーションなどの韻律情報を
も併せて登録する。そして、ニューラルネットを用いて
システムにコード列として（入力された文章から、韻律
情報を判定する機能を実現することにより、同じ単語の
音声でありながらも、韻律情報が異なった複数の音声の
なかから、合成する文章の韻律情報に適合した音声を選
びだす。これらの選びだされた音声に基づく合成音声を
人間が評価し、合成された音声の音質が十分となるまで
反復する。これにより１合成された音声を人間が文章を
朗読した音声に近づけることが可能である。

〔実施例〕

第１の実施例は本発明を文書朗読システムに応用したも
のである。本実施例では、声帯をシミュレートする発振
回路（音源）と声道の動作をシミュレートする共振回路
（音響フィルター）とにより音声を合成する規則合成方
式の音声合成を行うが、発振回路（音源）と共振回路（
音響フィルター）髪、第２図に示した特性を有するニュ
ーロ索子を多数結合したニューラルネットにより構成す
る。

人間は声帯を振るわせて声帯波を発する。この声帯波の
パワースペクトルは、三角波が鈍ったようなパワースペ
クトルである。声帯を電子的にシミュレートする第１図
の如きニューラルネットの発信回路１００では、線形発
振回路１１０が発振した三角波をニューラルネットの非
線形処理を用いて鈍らせる。

声帯波の鈍り方は、韻律情報によって変化する。

第４図は、合成した声帯波に韻律情報を与えて鈍らせる
方式の１例である。本方式では、単語ごとに文節アクセ
ント型に応じたストレスレベル１４０の値ａｔ　ｂ、ｃ
、・・・を単語辞書に登録しておき、基本イントネーシ
ョンのパラメータ１４１の値Ｘ。

ｙ、ｔをもとに生成された声帯波に、ニューラルネット
による発振回路１００が、単語ごとのストレスレベルの
値に準じて変調を施して、合成声帯波に韻律情報を与え
、実際の声帯波のパワースペクトルに準じた波形１４２
を生成する。

次に、人間は、声道の形状を変化して声帯波に変調を施
し、情報を載せる。そこで１人間の声道の動作をシミュ
レートする共振回路１５０が生成された波を声道に準じ
た変調を施す（第８図）。

第６図は人間の声道を示した図である１人間の声道は、
各部分で断面積が異なるなど均一の構成となっていない
共鳴器である。従って、共振回路が一段の回路で人間の
声道の共鳴作用を電子的にシミュレートすることは難し
く、性質がほぼ同じ部分を一段の回路でシミュレートし
、多段の回路で人間の声道全体をシミュレートする場合
が多い。

そこで、本実施例においても、多段の回路で人間の声道
の共鳴作用を電子的にシミュレートする。

人間が声道の形状を変化して声帯波に変調を与える方法
は、各音素（子音、母音）毎に変化する。

本実施例では、各音素（子音、母音）毎に各段階の回路
に対応した声道の形状の断面積の値、声道の吸収係数の
値、音響インピーダンスの値を音素＃ＩＦに登録してお
き、ニューラルネットによる共振回路３２０が、この値
に応じて声帯波に単語ごとに変調を施す。この変調を施
された波３２３が合成音声の波形となる。

次に、文書朗読システ１１の構成を説明する。第７図に
おいて、２０１は文書朗読システム全体を制御するプロ
セッサである。２０４は、本システム全体を制御するソ
フトウェアを格納しておくためのメモリである。２０２
は上位ホストへの人出力を制御する上位ホストインター
フェース回路である。２１０は入力された日本語文書か
ら単語を切りだし、漢字をカナに変換するために使用す
る単語辞書ファイルであり、２０９は単語辞書ファイル
との入出力を制御するための単１ｌｐＩ辞書インターフ
ェース回路である。２Ｊ２は入力された日本語文書を構
文解析するための文法辞書ファイルであり、２１１は１
文法辞書ファイルとの人出力を制御するためのインター
フェース回路である。

２１４は、各単語のアクセント型に応じて、ストレスレ
ベルの相対的値を登録しであるアクセス辞書である。２
１６は、各単語毎に共振回路の制御パラメータを登録し
である音素辞書である。２１５は、音素辞書との人出力
を制御するための音素辞書インターフェースである。２
１７は、各ニューロ素子の重み係数を登録するためのメ
モリである。

２０８は合成された音声を出力するためのスピーカ、１
００は１人間の声帯の動作を電子的にシミュレートする
発振回路、１５０は人間の声道の動作を電子的にシミュ
レートする共振回路であり、２０５は、これらの入出力
を制御するためのスピーカ制御インターフェースである
。

発振回路１００は、ニューラルネットによる非線形発振
回路である。この構成を第１図に示す。

第１図において１０１〜１０８は出力波形を制御するた
めの端子である。１０９は、発振波形の出力端子である
。１１０は、一定周期の三角波を発振する線形の発振回
路である。１１１〜１．２７はニューロ素子である。

本実施例では、ニューラルネットによる非線形発振回路
（第１図）において、制御パラメータとして第４図に示
したストレスレベルａ、ｂ、・・・ｇ。

と基本イントネーションのパラメータＸｔＹｐ　ｔと共
振回路１５０からの反射波を入力し、出力端子１０９に
人間が発する声帯波に近い出力波２２３を出力させる。

発振回路１５０もニューラルネットによる非線形共振回
路である。この構成を第５図に示す１人間の声道は、各
部分で口径が異なるなど均一の構成となっていない共鳴
器であるので、性質がほぼ同じ部分を一段の回路でシミ
ュレートし、多段の回路で人間の声道全体シミュレート
する。スピーカに接続する最終部分は、唇による開口端
をシミュレートする。

第５図において、第一段目の回路の端子１５１はこの共
振回路１５０への入射波用の入力端子である。この端子
には１発振回路１００からの出力信号を入力する。また
、１５２は、声道から声帯へもどる圧波をシミュレート
するための端子である。この端子１５２からの出力信号
を発振回路１００への入力信号とすることにより、声道
と声帯との相互作用をシミュレートする。１５６〜１５
９および１７６〜１７９，１８２は、第２図に示した特
性を持つニューロ素子である。

第二段目以降の回路の端子１７１は、声道中の進行波を
シミュレートするための端子であり、端子１７２は、声
道中の後退波をシミュレートするための端子である。各
段に共通した端子１５３゜１５４．１５５、および１７
３，１７４，１７５は、各段階の回路に対応した声道の
形状の断面積の値、声道の吸収係数の値、音響インピー
ダンスの値を入力するための端子である。

最終段の端子１８３はこの共振回路からの出力波を表す
出力端子である。実際の唇卆ら音声波が出たとき、一部
の波が声道に戻ってくる。最終段では、声道に戻ってく
る波をシミュレートするためにニューロ素子１８２を介
して出力波を後退波用の端子１８４入力する。端子１８
３は、本共振回路を制御するプロセッサなどが各ニュー
ロ素子１５６〜１５９および１７６〜１７９の入力の重
みを書き換えるための入力端子である。

引き続き本システムの動作を第９図、第１０図のＰＡＤ
図を用いて説明する。

上位ホストインターフェース回路２０２を介して、上位
ホスト２０３から音声合成を行うよう指令を受けると、
メモリ２０４中にある音声合成用ソフトウェアが起動さ
れる（ステップ２４０）。

音声合成ソフトウェアが起動されると、プロセッサ２０
１は、上位ホストインターフェース回路２０２を介して
合成出力する文章を読み込む（ステップ２４１）。

文章の読み込みを終えると、プロセッサ２０１は、単語
辞書インターフェース回路を介して、単語辞書２１０と
入力された文章とを照合し、単語を切り出す（ステップ
２４２）。単語の切り出しを終えると、プロセッサ２０
１は単語辞書インターフェースを介して単語辞書と１文
法辞書インターフェースを介して１文法辞書２１２と参
照し。

切り出された単語中にある漢字をカナに変換する（ステ
ップ２４３）、漢字カナ変換処理が終了すると、各音素
（子音、母音）毎に各段階の回路に対応した声道の形状
の断面積の値、声道の吸収係数の値、音響インピーダン
スの値を音素辞書インターフェース２１５を介して、音
素辞１７２１６から読み込む（ステップ２４４）、共振
回路１５０へ入力するパラメータを読み込むと、プロセ
ッサ２１０はその値をスピーカ制御インターフェース回
路２０５を介して、共振回路１５０に書き込む。

共振回路１５０へ入力するパラメータの値のつぎに、今
度は声帯の制御情報である韻律パラメータを生成する。

プロセッサ２０１は各単語のアクセント型に応じて、ス
トレスレベル１４０の相対的な値を登録しであるアクセ
ント辞書２１４にアクセント辞書インターフェースを介
して、ストレスレベル２３０を読みだし、該当する単語
のストレスレベルを設定する（ステップ２４５）、スト
レスレベル１４０の設定が終了すると、プロセッサ２０
１は、文法辞書２１２と照合し、該当する単語の基本イ
ントネーション１４１を定める（ステップ２４７）、基
本イントネーション１４１が定まると、それらのパラメ
ータの値をもとにして、該当する単語の発振パラメータ
を定める（ステップ２４８）、発振パラメータが定まる
と、プロセッサ２０１は、その値をスピーカ制御インタ
ーフェース回路２０５を介して、発振回路１００に書き
込む（ステップ２４９）。

共振回路１５０２発振回路１ｏｏへのパラメータの書き
込みが終了すると、プロセッサ２０１は、メモリ２１７
からニューロ素子の重み係数を読み込み、共振回路１５
０９発振回路１００に書き込む、すると２発振回路１０
０は声帯波１４２を発振する（ステップ２５０）。

線形発信回路１１０の三角波発振端子１０１に発振開始
信号を加えると線形発信回路１１０は一定周期の三角波
を出力する（第８図）この発振された一定周期の三角波
がニューロ素子（第２図）への入力信号Ｘの一つとなる
。すると、ニューロ素子（第２図）は、入力信号線ごと
に設定されていて重みを掛けて、アナログ信号として入
力された入力信号の総和をとり、素子の特性に従ってア
ナログ信号を出力信号線ｙに出力する。この出方された
アナログ信号が次のニューロ素子の入力信号となる。こ
の一連の非線形処理を最終の二二一口素子に至るまで反
復する。すると、ニューラルネットによる非線形発振回
路（第１図）において。

制御パラメータとして第４図に示したストレスレベルａ
、ｂｙ・・・ｇ、と基本イントネーションのパラメータ
Ｘ＃ｙ＃　ｔとに基づいて、出力端子１０９に人間が発
する声帯波に近い出力波１４２を出力させる。

次に、声帯波１４２を共振回路１５０が変調をかけて、
音声波２２３を生成する（ステップ２５１）。

出力端子１０９の出力波２２３をニューラルネットによ
る非線形共振回路（第４図）１５０に入力する。それに
加えて、各段階の回路に対応した声道の形状の断面積の
値、声道の吸収係数の値、音響インピーダンスの値をそ
れぞれの端子１５３〜１５５．１７３〜１７５から入力
する。すると、ニューロ素子１５６〜１５９，１７６〜
１７９゜１８２（第２図）は、入力信号線ごとに設定さ
れている重みを掛けて、アナログ信号として入力された
入力信号の総和をとり、素子の特性に従ってアナログ信
号を出力信号線ｙに出力する。この出力されたアナログ
信号が次のニューロ素子の入力信号となる。この一連の
非線形処理を最終のニューロ素子に至るまで反復する。

最終のニューロ素子の処理が終了すると、非線形共振回
路１５０は、変調を施し、最終的に人間が発する音声波
に近い出力波形２２３を端子１８３に出力する。

この合成された音声波形２２３は、スピーカ２０８から
出力される（ステップ２５２）。

次に学習処理の動作について第１，０図をもとに説明す
る。

上位ホスト２０３が上位ホストインターフェース２０２
を介して、学習処理要求を出すと、メモリ２０４中の学
習処理用のソフトウェアが起動される（ステップ２６０
）、学習処理用ソフトウェアが起動されると、上位ホス
トインターフェース２０２を介してテスト文章を読み込
む（ステップ２６１）、テスト文章を読み終えると、音
声合成処理要求の時と同様に、共振回路への入力パラメ
ータの生成（ステップ２６２）、韻律パラメータの生成
（ステップ２６３）の後、音声を合成出力する（ステッ
プ２６４）。

合成音声が出力されると、人間がこれを聞いて、この音
質を２値評価し、十分な音質となったと判断できたとき
に上位ホスト２０３のキーを叩く。

すると上位ホスト２０３は、終了フラグをＯＫと書き換
え１文書朗読システムに送り出す、すると、文書朗読シ
ステムは、上位ホスト２０３から上位ホストインターフ
ェース２０２を介して、終了フラグを読み込む（ステッ
プ２６５）、終了フラグがＯＫのときはｆｌａｇにＯＫ
を代入する（ステップ２６６．２６７）、そうでないと
きには、上位ホスト２０３が、各ニューロ素子の重み係
数を変更する。

上位ホスト２０３が各ニューロ素子の重み係数を変更す
ると、プロセッサ２０１は上位ホスト２０３から上位ホ
ストインターフェース２０２を介して、各ニューロ素子
の入力重み係数を読み込む（ステップ２６８）、７Ｒみ
係数の読み込みが終了すると、メモリ２１７中に登録さ
れている重み係数を書き換える（ステップ２６９）、こ
れら、一連の動作を終了フラグがＯＫとなるまで反復す
る。

以上述べたように１本実施例によれば、非線形処理を行
うニューラルネットから構成される発振回路と共振回路
を用いているので、合成音声の出力とそれに対する人間
の評価値の入力を反復しさえすれば、滑らかで抑揚の付
いたより人間の音声に近い音声を合成することが可能と
なる。

引き続き１本発明の第２の実施例を説明する。

本実施例は、録音合成方式による音声合成システムにニ
ューラルネットを適用し、韻律情報が異なった同じ単語
の複数の音声のなかから合成する文章の韻律情帽に適合
した音声を選びだすことを可能とする０本実施例では、
文章中の個々の単語の韻律パラメータは１文法パラメー
タおよび以前の単語列の韻律パラメータと相関関係があ
ると考え、ニューラルネットに文法パラメータとして、
文の種類２品詞２語の順番を、韻律パラメータとして、
ストレスレベルａ、ｂ、、ｃ・・・とイントネーション
Ｘ、ｙ、ｚの値をニューラルネットに入力し、韻律情報
に対する適合度を求める。

第１１図は１本実施例全体の構成図である。第１２図は
韻律パラメータにもとづいて、合成する文章の韻律情報
に対する適合度を求めるためのニューラルネットの一構
成例である。第１３図は音声ファイルのデータの構成例
である。第１４゜１５．１６図は１本実施例全体の動作
を表すＦＡＩ）図である。

第１１図において、３０１は本システム全体を制御する
プロセッサである。３０８は本システムに合成すべき文
章を入力してくる上位ホストである。３０２は、上位ホ
スト３０８との入出力を制御するインターフェース回路
である。３０９は本システムによって、切り貼り合成さ
れた音声を出力するためのスピーカである。３０３はス
ピーカ３０９どの人出力を制御するインターフェース回
路である。３１０は本システムで使用する音声を入力す
るためのマイクロフォンである。３ｏ４はマイクロフォ
ン３１０どの人出力を制御するためのインターフェース
回路である。３０５はプロセッサ３０１を制御するため
のソフトウェアを格納しておくためのメモリである。３
１１は本システムで使用する音声を登録しておくための
音声ファイルである。３０６は音声ファイルとの入出力
を制御するための音声ファイル制御インターフェースで
ある。３０７は同じ単語で、韻律情報の異なる複数の音
声のなかから合成する文章の韻律情報に適合する音声を
選びだす韻律情報判定回路である。３２１はバスから入
力されたデータを一時的に貯えておくための入力レジス
ターである。３２２はバス出力するデータを一時的に貯
えておくための出力レジスターである。３２３は文法パ
ラメータと韻律パラメータにもとづいて、合成出力する
文章の韻律情報の適合度を出力するニューラルネットで
ある。３１２は、各単語ごとにニューラルネット３２３
を構成するニューロ素子３３０の重み係数を登録するた
めのメモリである。

第１２図において３２３はニューラルネットであり、３
３０は第２図に示したニューロ素子である。３４１は、
文の種類を入力するための端子である。３４２は、該当
する単語の品詞を入力するための端子である。３４３は
、該当する単語の順番を入力するための端子である。３
４４〜３４６は、該当する単語の１つ手前の単語のスト
レスレベルを入力するための端子である。３４７〜３４
９は、該当する単語の１つ手前の単語の基本イントネー
ションを入力するための端子である。３５０〜３５２は
、該当する単語のストレスレベルを入力するための端子
である。３５３〜３５５は、該当する単語の基本イント
ネーションを入力するための端子である。３５７は、ニ
ューロ素子の重み係数を入力するための学習処理用端子
である。

第１３図において３６１は、本システムで使用する音声
データ、３６２は第４図に示したストレスレベルの値、
３６３は第４図に示した基本イントネーションの値を示
す、これらの韻律パラメータにもとづいて、ニューラル
ネットは１合成出力する文章の韻律情報の適合度を判定
することができる。

引き続き、本システムの動作を第１４図、第１５図、第
１６図のＰＡＤ図を用いて説明する。

まず、音声の登録処理の動作を説明する。上位ホスト３
０８から上位ホストインターフェース回路３０２を介し
て、音声登録要求割込みが発生するとプロセッサ３０１
はマイクロフォン３１０からの音声入力を受付は口■能
となる（ステップ３７０）。

マイクロフォン３１０から音声が入力されるとプロセッ
サ３０１はメモリ３０５中に登録されているソフトウェ
アに従ってストレスレベルのパラメータａ、ｂ、ｃ　（
ステップ３７２）と基本イントネーションのバラメー゛
夕Ｘ＋　ｙ＋ｊを抽出する（ステップ３７３）。このパ
ラメータの抽出処理が終Ｙすると音声ファイル制御イン
ターフェース３０６を介して音声を音声ファイルに容積
する（ステップ３７４．）。

次に、音声出力処理の動作を説明する。上位ホスト３０
８から上位ホストインターフェース３０６を介して文章
が送られてくると（ステップ３８０゜３８１）、プロセ
ッサ３０１は、その文章に対し構文解析処理を行い単語
の切り出しと、文法バラメータを決定する（ステップ３
８２）、単語の切り出しと、品詞１文の種類２語の順序
などの文法パラメータの決定が終了すると文の種類（平
叙文。

疑問文、感嘆文など）や品詞（名詞、動詞など）などの
文法パラメータを、それがとる値に数値を割当て、それ
を文法パラメータの信号レベルとする。さらに、音声制
御インターフェース３０６を介し音声ファイル３１１か
ら該当する単語の音声を読み出し、その中のストレスレ
ベルのパラメータａ、ｂ、Ｑと基本イントネーションの
パラメータＸｐ３’、ｊをその値をそのまま入力信号の
レベルとする。その後、それらのパラメータを韻律パラ
メータ判定回路３０７中の入力レジスター３２１に書き
込む（ステップ３８３）。

文法パラメータと韻律パラメータの書込みが終了すると
韻律パラメータ判定回路３０７では、該当する単語の１
つ手前の単語のストレスレベルの値を端子３４４〜３４
６から、また、基本イントネーションのパラメータの値
を端子３４７〜３４９から入力する。その後、該当する
単語の文法パラメータを端子３４１〜３４３から、また
、ストレスレベルの値を端子３５０〜３５２から、基本
イントネーションのパラメータの値を端子３５３〜３５
５からそれぞれ入力する。文法パラメータと韻律パラメ
ータの入力が終！すると、プロセッサ３０１は、メモリ
３１２にヘテ録しである各単語ごとのニューロ素子の重
み係数を読みだし、学習処理用端子３５７を介してニュ
ーラルネット３２３に書き込む。

するとニューロ素子（第２図）は、入力信号線毎に設定
されている重みを掛けて、アナログ信号として入力され
た入力信号の総和をとり、素子の特性に従ってアナログ
信号を出力信号線に出力する。この出力されたアナログ
信号が次のニューロ素子の入力信号となる。この、一連
の非線形処理を最終のニューロ素子に至るまで反復する
。最終のニューロ素子の処理が終了すると、その出力信
号のレベルを韻律情報の評価値として、その値を出力レ
ジスター３２２に書き込む。

出力レジスター３２２に評価値が書き込まれると、プロ
セッサ３０１は、メモリ３０５にこの値を移動する（ス
テップ３８４）、この一連の処理を同じ単語の音声が存
在するかぎり反復する。同一の単語の音声が尽きるとプ
ロセッサ３０１は、その最大値となる音声を捜し、それ
を切り貼り合成に用いる音声とする（ステップ３８５）
、これら。

一連の動作を単語の数だけ反復し、音声メツセージを構
成する。音声メツセージの構成が終了すると音声メツセ
ージをスピーカ制御インターフェース３０３を介して、
スピーカ３０９から出力する（ステップ３８６）。

次に学習処理の動作について説明する。

上位ホスト３０８が上位ホストインターフェース３０２
を介して、学習処理要求を出すと、メモリ３０５中の学
習処理要のソフトウェアが起動される（ステップ３９０
）、学習処理要ソフトウェアが起動されると、上位ホス
トインターフェース３０４を介してテスト文章を読み込
む（ステップ３９１）、テスト文章を読みおえると、ま
ず単語の切り出し処理を行なう（ステップ３９２）、単
語の切り出し処理を終えると、音声出力要求の場合と同
様、単語音声の選択（ステップ３９３）の後、音声メツ
セージを出力する（ステップ３９４）。

音声メツセージが出方されると、人間がこの音質を２値
評価し、音質が十分であると判断したときに上位ホスト
３０８にキー操作入力する。すると、上位ホスト３０８
は、終了フラグをＯＫと書き換えて、録音合成方式によ
る音声合成システムへ送り出す、すると、＠廿合成方式
による音声合成システムは、上位ホストインターフェー
ス３０２を介して、上位ホス＋−ａ　ＯＳから終了フラ
グを読み゛込む（ステップ３９５）、終了フラグがＯＫ
のときはフラグにＯＫを代入する（ステップ３９６゜３
９７）、そうでないときには、上位ホスト３０８が各ニ
ューロ素子の重み係数を変更する。

上位ホスト３０８が各ニューロ素子の重み係数を変更す
ると、プロセッサ３１０は、上位ホスト３０８から上位
ホストインターフェース３０２を介して、各ニューロ素
子の入力重み係数を読み込む（ステップ３９８）、重み
係数の読み込みが終了すると、メモリ３１２中に’Ｊ−
１６Ａされている重み係数を書き換える（ステップ３８
９）、これら、一連の動作を終了フラグがＯＫとなるま
で反復する。

以上述べたように、本実施例よれば、ニューラルネット
をもちいているので、合成音声の出力とそれに対する人
間の評価値の入力を満足の行く音質となるまで反復する
ことにより、同一の単語であっても韻律情報が異なる音
声を自動的に選択することができるように、調整するこ
とができる。

〔発明の効果〕

本発明によれば、規則合成方式による文書朗読システム
にこのニューラルネットから構成された共振／発振回路
を用いると、合成音声の出力とそれに対する人間の評価
値の入力を満足の行く音質となるまで反復することによ
り、より滑らかで抑揚の付いた人間の音声に近い音声を
合成することができるように調整することができる。

また１本発明を録音合成方式による音声合成システムに
おいて韻律を評価する回路に適用すると、合成音声の８
力とそれに対する人間の評価値の入力を満足の行く音質
と成るまで反復することにより、同一の単語で韻律情報
の異なる複数の音声から、合成する文章に適した音声を
選択することができるように調整することができる。

【図面の簡単な説明】

第１図は本発明の実施例に用いるニューラルネットワー
クによって構成された発振回路の回路図。第２図はニューロ素子の構成と動作原理の説明図、第３
図は線形発振回路およびニューラルネットワークを用い
た発振回路の出力波形図、第４図はニューラルネットワ
ーク回路に与える制御パラメータの説明図、第５図は本
発明の実施例に用いるニューラルネットワークによって
構成された共振回路の回路図、第６図は擬似声道を構成
する共振回路の説明図、第７図は本発明の実施例のニュ
ーラルネットワークによって構成された文書朗読システ
ムのブロック図、第８図は本発明の実施例における音声
波形の説明図、第９図ないし第１０図は本発明の実施例
における処理フロー図、第１１図は本発明の他の実施例
におけるニューラルネットワークを用いた音声合成シス
テムの構成を示すブロック図、第１２図は本発明の実施
例におけるニューラルネットワークによる音声合成回路
の構成例を示す回路図、第１３図は音声ファイルのデー
タ構成の一例を示すテーブル図、第１４図ないし第１６
図は本発明の実施例による音声合成システムにおける処
理フロー図である。１００・・・発振回路、１５０・・・共振回路、２００
・・・音声朗読システム、３００・・・録音合成方式に
よるｖ　ｚ　回Ｃつ／＋ａｒｔｔノ１ｍ１ｆ、ｅｒ　　　　ｔｈｒｅ４１！
！４−Ｃｓｔｌｑｙｔｏｉｃｌ第　６　Ｚ罵　９　図￥：ｊ　１０　口窩　１２　　図笑　１３　　団不　１４　　図不　１５　　図

Claims

【特許請求の範囲】１、人間が音源として使用している声帯と音響フィルタ
ーとして使用している声道を用いて音声を発する動作を
、発振回路（音源）および共振回路（音響フィルター）
を用いて電子的にシミユレートする規則合成方式による
音声合成システムにおいて、発振回路および共振回路に
、ニューロ素子を多数結合したニューラルネットを用い
ることにより、システムにコード列として入力された文
章から、発振回路制御用のパラメータである韻律情報と
、共振回路の制御用のパラメータである音韻情報とを決
定し、これらのパラメータに基づく合成音声を人間が聴
いて評価し、この評価値の入力と合成音声の出力とを満
足の行く音質となるまで反復することにより、合成され
た音声を人間が文章を朗読した音声に近づけることを特
徴とする音声合成システム。２、駅などの場内アナウンスなどに使用されている録音
合成方式による音声合成システムにおいて、文章をシス
テムにコード列として入力するだけで、韻律情報が異な
つた同じ単語の音声のなかから、合成する文章の韻律情
報に適合した音声を選びだす機能を、ニューロ素子を多
数結合したニューラルネットを用いて実現することによ
り、これらの選びだされた音声に基づく合成音声を人間
が聴いて評価し、この評価値の入力と合成音声の出力と
を満足の行く音質となるまで反復することにより、合成
された音声を人間が文章を朗読した音声に近づけること
を特徴とする音声合成システム。３、ニューロ素子を多数結合したニューラルネットを用
いて共振回路を構成することにより、出力波とそれに対
する人間の評価値の入力を反復することにより、共振特
性を変化させることが可能な共振回路。４、ニューロ素子を多数結合したニューラルネットを用
いて発振回路を構成することにより、出力波とそれに対
する人間の評価値の入力を反復することにより、発振特
性を変化させることが可能な共振回路。