JPH02304493A - 音声合成システム - Google Patents

音声合成システム

Info

Publication number
JPH02304493A
JPH02304493A JP1124314A JP12431489A JPH02304493A JP H02304493 A JPH02304493 A JP H02304493A JP 1124314 A JP1124314 A JP 1124314A JP 12431489 A JP12431489 A JP 12431489A JP H02304493 A JPH02304493 A JP H02304493A
Authority
JP
Japan
Prior art keywords
speech
human
circuit
neural network
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1124314A
Other languages
English (en)
Inventor
Atsuo Hatono
敦生 鳩野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP1124314A priority Critical patent/JPH02304493A/ja
Publication of JPH02304493A publication Critical patent/JPH02304493A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、音声合成システムに係わり、特に文書を入力
し、構文解析処理後、その文書を音声により出力する文
書朗読システムに好適な文書台・成システムに関する。
〔従来の技術〕
従来の技術による音声合成の基本方式には、規則合成方
式と録音合成方式とがある。
規則合成方式は、文献[中田和男著 音声 音響工学講
座 日本音響学金偏p113〜p 124Jにおいて論
じられているように、声帯を音源、声道を音響フィルタ
ーとみなして、人間が音声を発生する動作を発振回路と
共振回路とを用いて電子的にシミュレートする方式であ
る。
録音合成方式は文献「中田和男著 音声 音響工学講座
 日本音響学金偏p126〜p129Jにおいて論じら
れているように、予め、必要となる単語の音声を録音し
、その録音した音声を切り貼りして、音声を合成する方
式である。
〔発明が解決しようとする課題〕
従来技術である音声の線形予測理論にもとづく規則合成
方式は1文献「中田和男著 音声 音響工学講座 日本
音響学金偏p l 17Jで論じられているように、声
帯を一定周期の鋸歯状波を生成する音源、声道を線形微
分方程式で近似可能な線形音響フィルターとみなしてい
る。ところが、イントネーションなどの韻律情報は音源
である声帯の振動の変化による寄与が多い。、また、子
音は、高レイノルズ数領域の乱流現象であり、線形微分
方程式では記述することができない。そのため、従来の
技術による音声合成システムは、平坦で単調な音声しか
合成することができなかった。
本発明の目的は、韻律情報にもとづいて、生成する波形
を変化させる音源を実現することと、声道の動作シミュ
レートする音響フィルターに非線形処理を導入すること
により、より人間の声道に近い音響フィルターを実現し
、より人間の音声に近い音声を合成可能なシステムを実
現することにある。
また、録音合成方式の場合には、疑問文、感喫文などの
文章の条件により、イントネーションなどの韻律情報が
異なり、同じ単語でも色々な音声が生じる。従来の技術
による録音合成方式では。
音声の切り貼り規則に韻律情報を取り込んでおらず、韻
律情報の相違にもとづいて複数の音声のなかから、最適
な音声を選択する処理は、人手によらなければならなか
った。
本発明の目的は、韻律情報を取り込んだ音声の切り貼り
処理を可能とすることにある。
〔課題を解決するための手段〕
ニューラルネットは、生物の神経細胞の動作を電子的に
シミュレートさせた電子回路である(第1図)、線形処
理は全てのパラメータを一様に拡大/縮小処理を行うの
に対して、ニューラルネットの特長は、ある特定のパラ
メータを強調するなどの非線形処理を行うことである。
線形処理を行うPACOR型の規則合成装置は、素子と
してスレショルド(threshold)型の一種、も
しくは、シグモイド(sigmoid)型の特性を直線
にしたものを用いているとみなすことができる。
さらに、ニューラルネットを構成する各素子が入力デー
タの重みを変化させる学習機能を有している。この学習
では、出力とその出力に対する人間の評価値の入力を反
復しさえすればよく、入力と出力の因果関係を定式化す
る必要がない。従って、この学習機能を用いれば、これ
まで人間が因果関係を定式化することが難しかった情報
を取り込むことが可能となる。
韻律情報は、これまで人間が因果関係を定式化すること
が難しかった。この韻律情報をニューラルネットの学習
処理によって、取り込むことができる。
従って、規則合成方式の場合は、人間の声帯をシミュレ
ートする音源回路と音響フィルターを構成する素子をニ
ューロ素子により構成し、合成音声を人間が聞いて評価
し、その評価値の入力を十分な音質となるまで反復する
ことにより、上記目的を達成することができる。
また、録音合成方式の場合は、単語を録音すると同時に
、ストレスレベル、基本イントネーションのパワースペ
クトルなどの韻律情報(第8図)をも併せて登録する。
単語は同一ながら、韻律情報が異なる複数の音声のなか
から、韻律規則に応じた音声を選択する機能有する回路
をニューロ素子により構成し、追加する。それによる合
成音声を人間が聞いて評価し、その評価値の入力を十分
なf’f質となるまで反復することにより、上記ト1的
を達成することができる。
〔作用〕
ニューラルネットは、生物の神経細胞の動作を電子的に
シミュレートさせた電子回路である。ニューラルネット
は、ある特定のパラメータを調調するなどの非線形処理
を行う(第2図)、さらに、ニューラルネットを構成す
る各素子が、入力データの重みを変化させる学習機能を
有している。
この学習処理は、出力とそれに対する人間の評価値の入
力を満足の行く出力かえられるまで反復しさえすればよ
く、入力と出力の因果関係を定式化する必要がない。従
って、この機能を用いれば、これまで人間が因果関係を
定式化することが難しかった情報を取り込むことが可能
となる。
規則合成方式の場合には、人間の声帯をシミュレートす
る発振回路と人間の声道の動作をシミュレートする共振
回路とをニューラルネットにより構成する。すると、シ
ステムにコード列として入力された文章から、発振回路
(音源)制御用のパラメータである韻律情報と、共振回
路(音響フィルター)の制御用のパラメータである音韻
情報とを決定し、これらのパラメータに基づく合成音声
を人間が評価し、合成された音声の音質が十分となるま
で反復する。これにより、規則合成方式の場合、ニュー
ラルネットから構成された発振/共振回路を用いた文書
朗読システムでは、平坦で金属的な音声から、より人間
の音声に近い音声を合成できるように調整することがで
きる。
また、録音合成方式の場合は、単語を録音すると同時に
、ストレスレベル、イントネーションなどの韻律情報を
も併せて登録する。そして、ニューラルネットを用いて
システムにコード列として(入力された文章から、韻律
情報を判定する機能を実現することにより、同じ単語の
音声でありながらも、韻律情報が異なった複数の音声の
なかから、合成する文章の韻律情報に適合した音声を選
びだす。これらの選びだされた音声に基づく合成音声を
人間が評価し、合成された音声の音質が十分となるまで
反復する。これにより1合成された音声を人間が文章を
朗読した音声に近づけることが可能である。
〔実施例〕
第1の実施例は本発明を文書朗読システムに応用したも
のである。本実施例では、声帯をシミュレートする発振
回路(音源)と声道の動作をシミュレートする共振回路
(音響フィルター)とにより音声を合成する規則合成方
式の音声合成を行うが、発振回路(音源)と共振回路(
音響フィルター)髪、第2図に示した特性を有するニュ
ーロ索子を多数結合したニューラルネットにより構成す
る。
人間は声帯を振るわせて声帯波を発する。この声帯波の
パワースペクトルは、三角波が鈍ったようなパワースペ
クトルである。声帯を電子的にシミュレートする第1図
の如きニューラルネットの発信回路100では、線形発
振回路110が発振した三角波をニューラルネットの非
線形処理を用いて鈍らせる。
声帯波の鈍り方は、韻律情報によって変化する。
第4図は、合成した声帯波に韻律情報を与えて鈍らせる
方式の1例である。本方式では、単語ごとに文節アクセ
ント型に応じたストレスレベル140の値at b、c
、・・・を単語辞書に登録しておき、基本イントネーシ
ョンのパラメータ141の値X。
y、tをもとに生成された声帯波に、ニューラルネット
による発振回路100が、単語ごとのストレスレベルの
値に準じて変調を施して、合成声帯波に韻律情報を与え
、実際の声帯波のパワースペクトルに準じた波形142
を生成する。
次に、人間は、声道の形状を変化して声帯波に変調を施
し、情報を載せる。そこで1人間の声道の動作をシミュ
レートする共振回路150が生成された波を声道に準じ
た変調を施す(第8図)。
第6図は人間の声道を示した図である1人間の声道は、
各部分で断面積が異なるなど均一の構成となっていない
共鳴器である。従って、共振回路が一段の回路で人間の
声道の共鳴作用を電子的にシミュレートすることは難し
く、性質がほぼ同じ部分を一段の回路でシミュレートし
、多段の回路で人間の声道全体をシミュレートする場合
が多い。
そこで、本実施例においても、多段の回路で人間の声道
の共鳴作用を電子的にシミュレートする。
人間が声道の形状を変化して声帯波に変調を与える方法
は、各音素(子音、母音)毎に変化する。
本実施例では、各音素(子音、母音)毎に各段階の回路
に対応した声道の形状の断面積の値、声道の吸収係数の
値、音響インピーダンスの値を音素#IFに登録してお
き、ニューラルネットによる共振回路320が、この値
に応じて声帯波に単語ごとに変調を施す。この変調を施
された波323が合成音声の波形となる。
次に、文書朗読システ11の構成を説明する。第7図に
おいて、201は文書朗読システム全体を制御するプロ
セッサである。204は、本システム全体を制御するソ
フトウェアを格納しておくためのメモリである。202
は上位ホストへの人出力を制御する上位ホストインター
フェース回路である。210は入力された日本語文書か
ら単語を切りだし、漢字をカナに変換するために使用す
る単語辞書ファイルであり、209は単語辞書ファイル
との入出力を制御するための単1lpI辞書インターフ
ェース回路である。2J2は入力された日本語文書を構
文解析するための文法辞書ファイルであり、211は1
文法辞書ファイルとの人出力を制御するためのインター
フェース回路である。
214は、各単語のアクセント型に応じて、ストレスレ
ベルの相対的値を登録しであるアクセス辞書である。2
16は、各単語毎に共振回路の制御パラメータを登録し
である音素辞書である。215は、音素辞書との人出力
を制御するための音素辞書インターフェースである。2
17は、各ニューロ素子の重み係数を登録するためのメ
モリである。
208は合成された音声を出力するためのスピーカ、1
00は1人間の声帯の動作を電子的にシミュレートする
発振回路、150は人間の声道の動作を電子的にシミュ
レートする共振回路であり、205は、これらの入出力
を制御するためのスピーカ制御インターフェースである
発振回路100は、ニューラルネットによる非線形発振
回路である。この構成を第1図に示す。
第1図において101〜108は出力波形を制御するた
めの端子である。109は、発振波形の出力端子である
。110は、一定周期の三角波を発振する線形の発振回
路である。111〜1.27はニューロ素子である。
本実施例では、ニューラルネットによる非線形発振回路
(第1図)において、制御パラメータとして第4図に示
したストレスレベルa、b、・・・g。
と基本イントネーションのパラメータXtYp tと共
振回路150からの反射波を入力し、出力端子109に
人間が発する声帯波に近い出力波223を出力させる。
発振回路150もニューラルネットによる非線形共振回
路である。この構成を第5図に示す1人間の声道は、各
部分で口径が異なるなど均一の構成となっていない共鳴
器であるので、性質がほぼ同じ部分を一段の回路でシミ
ュレートし、多段の回路で人間の声道全体シミュレート
する。スピーカに接続する最終部分は、唇による開口端
をシミュレートする。
第5図において、第一段目の回路の端子151はこの共
振回路150への入射波用の入力端子である。この端子
には1発振回路100からの出力信号を入力する。また
、152は、声道から声帯へもどる圧波をシミュレート
するための端子である。この端子152からの出力信号
を発振回路100への入力信号とすることにより、声道
と声帯との相互作用をシミュレートする。156〜15
9および176〜179,182は、第2図に示した特
性を持つニューロ素子である。
第二段目以降の回路の端子171は、声道中の進行波を
シミュレートするための端子であり、端子172は、声
道中の後退波をシミュレートするための端子である。各
段に共通した端子153゜154.155、および17
3,174,175は、各段階の回路に対応した声道の
形状の断面積の値、声道の吸収係数の値、音響インピー
ダンスの値を入力するための端子である。
最終段の端子183はこの共振回路からの出力波を表す
出力端子である。実際の唇卆ら音声波が出たとき、一部
の波が声道に戻ってくる。最終段では、声道に戻ってく
る波をシミュレートするためにニューロ素子182を介
して出力波を後退波用の端子184入力する。端子18
3は、本共振回路を制御するプロセッサなどが各ニュー
ロ素子156〜159および176〜179の入力の重
みを書き換えるための入力端子である。
引き続き本システムの動作を第9図、第10図のPAD
図を用いて説明する。
上位ホストインターフェース回路202を介して、上位
ホスト203から音声合成を行うよう指令を受けると、
メモリ204中にある音声合成用ソフトウェアが起動さ
れる(ステップ240)。
音声合成ソフトウェアが起動されると、プロセッサ20
1は、上位ホストインターフェース回路202を介して
合成出力する文章を読み込む(ステップ241)。
文章の読み込みを終えると、プロセッサ201は、単語
辞書インターフェース回路を介して、単語辞書210と
入力された文章とを照合し、単語を切り出す(ステップ
242)。単語の切り出しを終えると、プロセッサ20
1は単語辞書インターフェースを介して単語辞書と1文
法辞書インターフェースを介して1文法辞書212と参
照し。
切り出された単語中にある漢字をカナに変換する(ステ
ップ243)、漢字カナ変換処理が終了すると、各音素
(子音、母音)毎に各段階の回路に対応した声道の形状
の断面積の値、声道の吸収係数の値、音響インピーダン
スの値を音素辞書インターフェース215を介して、音
素辞17216から読み込む(ステップ244)、共振
回路150へ入力するパラメータを読み込むと、プロセ
ッサ210はその値をスピーカ制御インターフェース回
路205を介して、共振回路150に書き込む。
共振回路150へ入力するパラメータの値のつぎに、今
度は声帯の制御情報である韻律パラメータを生成する。
プロセッサ201は各単語のアクセント型に応じて、ス
トレスレベル140の相対的な値を登録しであるアクセ
ント辞書214にアクセント辞書インターフェースを介
して、ストレスレベル230を読みだし、該当する単語
のストレスレベルを設定する(ステップ245)、スト
レスレベル140の設定が終了すると、プロセッサ20
1は、文法辞書212と照合し、該当する単語の基本イ
ントネーション141を定める(ステップ247)、基
本イントネーション141が定まると、それらのパラメ
ータの値をもとにして、該当する単語の発振パラメータ
を定める(ステップ248)、発振パラメータが定まる
と、プロセッサ201は、その値をスピーカ制御インタ
ーフェース回路205を介して、発振回路100に書き
込む(ステップ249)。
共振回路1502発振回路1ooへのパラメータの書き
込みが終了すると、プロセッサ201は、メモリ217
からニューロ素子の重み係数を読み込み、共振回路15
09発振回路100に書き込む、すると2発振回路10
0は声帯波142を発振する(ステップ250)。
線形発信回路110の三角波発振端子101に発振開始
信号を加えると線形発信回路110は一定周期の三角波
を出力する(第8図)この発振された一定周期の三角波
がニューロ素子(第2図)への入力信号Xの一つとなる
。すると、ニューロ素子(第2図)は、入力信号線ごと
に設定されていて重みを掛けて、アナログ信号として入
力された入力信号の総和をとり、素子の特性に従ってア
ナログ信号を出力信号線yに出力する。この出方された
アナログ信号が次のニューロ素子の入力信号となる。こ
の一連の非線形処理を最終の二二一口素子に至るまで反
復する。すると、ニューラルネットによる非線形発振回
路(第1図)において。
制御パラメータとして第4図に示したストレスレベルa
、by・・・g、と基本イントネーションのパラメータ
X#y# tとに基づいて、出力端子109に人間が発
する声帯波に近い出力波142を出力させる。
次に、声帯波142を共振回路150が変調をかけて、
音声波223を生成する(ステップ251)。
出力端子109の出力波223をニューラルネットによ
る非線形共振回路(第4図)150に入力する。それに
加えて、各段階の回路に対応した声道の形状の断面積の
値、声道の吸収係数の値、音響インピーダンスの値をそ
れぞれの端子153〜155.173〜175から入力
する。すると、ニューロ素子156〜159,176〜
179゜182(第2図)は、入力信号線ごとに設定さ
れている重みを掛けて、アナログ信号として入力された
入力信号の総和をとり、素子の特性に従ってアナログ信
号を出力信号線yに出力する。この出力されたアナログ
信号が次のニューロ素子の入力信号となる。この一連の
非線形処理を最終のニューロ素子に至るまで反復する。
最終のニューロ素子の処理が終了すると、非線形共振回
路150は、変調を施し、最終的に人間が発する音声波
に近い出力波形223を端子183に出力する。
この合成された音声波形223は、スピーカ208から
出力される(ステップ252)。
次に学習処理の動作について第1,0図をもとに説明す
る。
上位ホスト203が上位ホストインターフェース202
を介して、学習処理要求を出すと、メモリ204中の学
習処理用のソフトウェアが起動される(ステップ260
)、学習処理用ソフトウェアが起動されると、上位ホス
トインターフェース202を介してテスト文章を読み込
む(ステップ261)、テスト文章を読み終えると、音
声合成処理要求の時と同様に、共振回路への入力パラメ
ータの生成(ステップ262)、韻律パラメータの生成
(ステップ263)の後、音声を合成出力する(ステッ
プ264)。
合成音声が出力されると、人間がこれを聞いて、この音
質を2値評価し、十分な音質となったと判断できたとき
に上位ホスト203のキーを叩く。
すると上位ホスト203は、終了フラグをOKと書き換
え1文書朗読システムに送り出す、すると、文書朗読シ
ステムは、上位ホスト203から上位ホストインターフ
ェース202を介して、終了フラグを読み込む(ステッ
プ265)、終了フラグがOKのときはflagにOK
を代入する(ステップ266.267)、そうでないと
きには、上位ホスト203が、各ニューロ素子の重み係
数を変更する。
上位ホスト203が各ニューロ素子の重み係数を変更す
ると、プロセッサ201は上位ホスト203から上位ホ
ストインターフェース202を介して、各ニューロ素子
の入力重み係数を読み込む(ステップ268)、7Rみ
係数の読み込みが終了すると、メモリ217中に登録さ
れている重み係数を書き換える(ステップ269)、こ
れら、一連の動作を終了フラグがOKとなるまで反復す
る。
以上述べたように1本実施例によれば、非線形処理を行
うニューラルネットから構成される発振回路と共振回路
を用いているので、合成音声の出力とそれに対する人間
の評価値の入力を反復しさえすれば、滑らかで抑揚の付
いたより人間の音声に近い音声を合成することが可能と
なる。
引き続き1本発明の第2の実施例を説明する。
本実施例は、録音合成方式による音声合成システムにニ
ューラルネットを適用し、韻律情報が異なった同じ単語
の複数の音声のなかから合成する文章の韻律情帽に適合
した音声を選びだすことを可能とする0本実施例では、
文章中の個々の単語の韻律パラメータは1文法パラメー
タおよび以前の単語列の韻律パラメータと相関関係があ
ると考え、ニューラルネットに文法パラメータとして、
文の種類2品詞2語の順番を、韻律パラメータとして、
ストレスレベルa、b、、c・・・とイントネーション
X、y、zの値をニューラルネットに入力し、韻律情報
に対する適合度を求める。
第11図は1本実施例全体の構成図である。第12図は
韻律パラメータにもとづいて、合成する文章の韻律情報
に対する適合度を求めるためのニューラルネットの一構
成例である。第13図は音声ファイルのデータの構成例
である。第14゜15.16図は1本実施例全体の動作
を表すFAI)図である。
第11図において、301は本システム全体を制御する
プロセッサである。308は本システムに合成すべき文
章を入力してくる上位ホストである。302は、上位ホ
スト308との入出力を制御するインターフェース回路
である。309は本システムによって、切り貼り合成さ
れた音声を出力するためのスピーカである。303はス
ピーカ309どの人出力を制御するインターフェース回
路である。310は本システムで使用する音声を入力す
るためのマイクロフォンである。3o4はマイクロフォ
ン310どの人出力を制御するためのインターフェース
回路である。305はプロセッサ301を制御するため
のソフトウェアを格納しておくためのメモリである。3
11は本システムで使用する音声を登録しておくための
音声ファイルである。306は音声ファイルとの入出力
を制御するための音声ファイル制御インターフェースで
ある。307は同じ単語で、韻律情報の異なる複数の音
声のなかから合成する文章の韻律情報に適合する音声を
選びだす韻律情報判定回路である。321はバスから入
力されたデータを一時的に貯えておくための入力レジス
ターである。322はバス出力するデータを一時的に貯
えておくための出力レジスターである。323は文法パ
ラメータと韻律パラメータにもとづいて、合成出力する
文章の韻律情報の適合度を出力するニューラルネットで
ある。312は、各単語ごとにニューラルネット323
を構成するニューロ素子330の重み係数を登録するた
めのメモリである。
第12図において323はニューラルネットであり、3
30は第2図に示したニューロ素子である。341は、
文の種類を入力するための端子である。342は、該当
する単語の品詞を入力するための端子である。343は
、該当する単語の順番を入力するための端子である。3
44〜346は、該当する単語の1つ手前の単語のスト
レスレベルを入力するための端子である。347〜34
9は、該当する単語の1つ手前の単語の基本イントネー
ションを入力するための端子である。350〜352は
、該当する単語のストレスレベルを入力するための端子
である。353〜355は、該当する単語の基本イント
ネーションを入力するための端子である。357は、ニ
ューロ素子の重み係数を入力するための学習処理用端子
である。
第13図において361は、本システムで使用する音声
データ、362は第4図に示したストレスレベルの値、
363は第4図に示した基本イントネーションの値を示
す、これらの韻律パラメータにもとづいて、ニューラル
ネットは1合成出力する文章の韻律情報の適合度を判定
することができる。
引き続き、本システムの動作を第14図、第15図、第
16図のPAD図を用いて説明する。
まず、音声の登録処理の動作を説明する。上位ホスト3
08から上位ホストインターフェース回路302を介し
て、音声登録要求割込みが発生するとプロセッサ301
はマイクロフォン310からの音声入力を受付は口■能
となる(ステップ370)。
マイクロフォン310から音声が入力されるとプロセッ
サ301はメモリ305中に登録されているソフトウェ
アに従ってストレスレベルのパラメータa、b、c (
ステップ372)と基本イントネーションのバラメー゛
夕X+ y+jを抽出する(ステップ373)。このパ
ラメータの抽出処理が終Yすると音声ファイル制御イン
ターフェース306を介して音声を音声ファイルに容積
する(ステップ374.)。
次に、音声出力処理の動作を説明する。上位ホスト30
8から上位ホストインターフェース306を介して文章
が送られてくると(ステップ380゜381)、プロセ
ッサ301は、その文章に対し構文解析処理を行い単語
の切り出しと、文法バラメータを決定する(ステップ3
82)、単語の切り出しと、品詞1文の種類2語の順序
などの文法パラメータの決定が終了すると文の種類(平
叙文。
疑問文、感嘆文など)や品詞(名詞、動詞など)などの
文法パラメータを、それがとる値に数値を割当て、それ
を文法パラメータの信号レベルとする。さらに、音声制
御インターフェース306を介し音声ファイル311か
ら該当する単語の音声を読み出し、その中のストレスレ
ベルのパラメータa、b、Qと基本イントネーションの
パラメータXp3’、jをその値をそのまま入力信号の
レベルとする。その後、それらのパラメータを韻律パラ
メータ判定回路307中の入力レジスター321に書き
込む(ステップ383)。
文法パラメータと韻律パラメータの書込みが終了すると
韻律パラメータ判定回路307では、該当する単語の1
つ手前の単語のストレスレベルの値を端子344〜34
6から、また、基本イントネーションのパラメータの値
を端子347〜349から入力する。その後、該当する
単語の文法パラメータを端子341〜343から、また
、ストレスレベルの値を端子350〜352から、基本
イントネーションのパラメータの値を端子353〜35
5からそれぞれ入力する。文法パラメータと韻律パラメ
ータの入力が終!すると、プロセッサ301は、メモリ
312にヘテ録しである各単語ごとのニューロ素子の重
み係数を読みだし、学習処理用端子357を介してニュ
ーラルネット323に書き込む。
するとニューロ素子(第2図)は、入力信号線毎に設定
されている重みを掛けて、アナログ信号として入力され
た入力信号の総和をとり、素子の特性に従ってアナログ
信号を出力信号線に出力する。この出力されたアナログ
信号が次のニューロ素子の入力信号となる。この、一連
の非線形処理を最終のニューロ素子に至るまで反復する
。最終のニューロ素子の処理が終了すると、その出力信
号のレベルを韻律情報の評価値として、その値を出力レ
ジスター322に書き込む。
出力レジスター322に評価値が書き込まれると、プロ
セッサ301は、メモリ305にこの値を移動する(ス
テップ384)、この一連の処理を同じ単語の音声が存
在するかぎり反復する。同一の単語の音声が尽きるとプ
ロセッサ301は、その最大値となる音声を捜し、それ
を切り貼り合成に用いる音声とする(ステップ385)
、これら。
一連の動作を単語の数だけ反復し、音声メツセージを構
成する。音声メツセージの構成が終了すると音声メツセ
ージをスピーカ制御インターフェース303を介して、
スピーカ309から出力する(ステップ386)。
次に学習処理の動作について説明する。
上位ホスト308が上位ホストインターフェース302
を介して、学習処理要求を出すと、メモリ305中の学
習処理要のソフトウェアが起動される(ステップ390
)、学習処理要ソフトウェアが起動されると、上位ホス
トインターフェース304を介してテスト文章を読み込
む(ステップ391)、テスト文章を読みおえると、ま
ず単語の切り出し処理を行なう(ステップ392)、単
語の切り出し処理を終えると、音声出力要求の場合と同
様、単語音声の選択(ステップ393)の後、音声メツ
セージを出力する(ステップ394)。
音声メツセージが出方されると、人間がこの音質を2値
評価し、音質が十分であると判断したときに上位ホスト
308にキー操作入力する。すると、上位ホスト308
は、終了フラグをOKと書き換えて、録音合成方式によ
る音声合成システムへ送り出す、すると、@廿合成方式
による音声合成システムは、上位ホストインターフェー
ス302を介して、上位ホス+−a OSから終了フラ
グを読み゛込む(ステップ395)、終了フラグがOK
のときはフラグにOKを代入する(ステップ396゜3
97)、そうでないときには、上位ホスト308が各ニ
ューロ素子の重み係数を変更する。
上位ホスト308が各ニューロ素子の重み係数を変更す
ると、プロセッサ310は、上位ホスト308から上位
ホストインターフェース302を介して、各ニューロ素
子の入力重み係数を読み込む(ステップ398)、重み
係数の読み込みが終了すると、メモリ312中に’J−
16Aされている重み係数を書き換える(ステップ38
9)、これら、一連の動作を終了フラグがOKとなるま
で反復する。
以上述べたように、本実施例よれば、ニューラルネット
をもちいているので、合成音声の出力とそれに対する人
間の評価値の入力を満足の行く音質となるまで反復する
ことにより、同一の単語であっても韻律情報が異なる音
声を自動的に選択することができるように、調整するこ
とができる。
〔発明の効果〕
本発明によれば、規則合成方式による文書朗読システム
にこのニューラルネットから構成された共振/発振回路
を用いると、合成音声の出力とそれに対する人間の評価
値の入力を満足の行く音質となるまで反復することによ
り、より滑らかで抑揚の付いた人間の音声に近い音声を
合成することができるように調整することができる。
また1本発明を録音合成方式による音声合成システムに
おいて韻律を評価する回路に適用すると、合成音声の8
力とそれに対する人間の評価値の入力を満足の行く音質
と成るまで反復することにより、同一の単語で韻律情報
の異なる複数の音声から、合成する文章に適した音声を
選択することができるように調整することができる。
【図面の簡単な説明】
第1図は本発明の実施例に用いるニューラルネットワー
クによって構成された発振回路の回路図。 第2図はニューロ素子の構成と動作原理の説明図、第3
図は線形発振回路およびニューラルネットワークを用い
た発振回路の出力波形図、第4図はニューラルネットワ
ーク回路に与える制御パラメータの説明図、第5図は本
発明の実施例に用いるニューラルネットワークによって
構成された共振回路の回路図、第6図は擬似声道を構成
する共振回路の説明図、第7図は本発明の実施例のニュ
ーラルネットワークによって構成された文書朗読システ
ムのブロック図、第8図は本発明の実施例における音声
波形の説明図、第9図ないし第10図は本発明の実施例
における処理フロー図、第11図は本発明の他の実施例
におけるニューラルネットワークを用いた音声合成シス
テムの構成を示すブロック図、第12図は本発明の実施
例におけるニューラルネットワークによる音声合成回路
の構成例を示す回路図、第13図は音声ファイルのデー
タ構成の一例を示すテーブル図、第14図ないし第16
図は本発明の実施例による音声合成システムにおける処
理フロー図である。 100・・・発振回路、150・・・共振回路、200
・・・音声朗読システム、300・・・録音合成方式に
よるv z 回 Cつ /+arttノ1m1f、er    thre41!
!4−Cstlqytoicl第 6 Z 罵 9 図 ¥:j 10 口 窩 12  図 笑 13  団 不 14  図 不 15  図

Claims (1)

  1. 【特許請求の範囲】 1、人間が音源として使用している声帯と音響フィルタ
    ーとして使用している声道を用いて音声を発する動作を
    、発振回路(音源)および共振回路(音響フィルター)
    を用いて電子的にシミユレートする規則合成方式による
    音声合成システムにおいて、発振回路および共振回路に
    、ニューロ素子を多数結合したニューラルネットを用い
    ることにより、システムにコード列として入力された文
    章から、発振回路制御用のパラメータである韻律情報と
    、共振回路の制御用のパラメータである音韻情報とを決
    定し、これらのパラメータに基づく合成音声を人間が聴
    いて評価し、この評価値の入力と合成音声の出力とを満
    足の行く音質となるまで反復することにより、合成され
    た音声を人間が文章を朗読した音声に近づけることを特
    徴とする音声合成システム。 2、駅などの場内アナウンスなどに使用されている録音
    合成方式による音声合成システムにおいて、文章をシス
    テムにコード列として入力するだけで、韻律情報が異な
    つた同じ単語の音声のなかから、合成する文章の韻律情
    報に適合した音声を選びだす機能を、ニューロ素子を多
    数結合したニューラルネットを用いて実現することによ
    り、これらの選びだされた音声に基づく合成音声を人間
    が聴いて評価し、この評価値の入力と合成音声の出力と
    を満足の行く音質となるまで反復することにより、合成
    された音声を人間が文章を朗読した音声に近づけること
    を特徴とする音声合成システム。 3、ニューロ素子を多数結合したニューラルネットを用
    いて共振回路を構成することにより、出力波とそれに対
    する人間の評価値の入力を反復することにより、共振特
    性を変化させることが可能な共振回路。 4、ニューロ素子を多数結合したニューラルネットを用
    いて発振回路を構成することにより、出力波とそれに対
    する人間の評価値の入力を反復することにより、発振特
    性を変化させることが可能な共振回路。
JP1124314A 1989-05-19 1989-05-19 音声合成システム Pending JPH02304493A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1124314A JPH02304493A (ja) 1989-05-19 1989-05-19 音声合成システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1124314A JPH02304493A (ja) 1989-05-19 1989-05-19 音声合成システム

Publications (1)

Publication Number Publication Date
JPH02304493A true JPH02304493A (ja) 1990-12-18

Family

ID=14882265

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1124314A Pending JPH02304493A (ja) 1989-05-19 1989-05-19 音声合成システム

Country Status (1)

Country Link
JP (1) JPH02304493A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05216499A (ja) * 1992-02-07 1993-08-27 A T R Shichiyoukaku Kiko Kenkyusho:Kk 音声合成方式
JPH09146576A (ja) * 1995-10-31 1997-06-06 Natl Sci Council 原文対音声の人工的神経回路網にもとづく韻律の合成装置
WO2017168870A1 (ja) * 2016-03-28 2017-10-05 ソニー株式会社 情報処理装置及び情報処理方法
CN110779477A (zh) * 2019-09-16 2020-02-11 南京大学 一种用于实时识别物体形状的声学方法
JP2022516784A (ja) * 2019-01-11 2022-03-02 ネイバー コーポレーション 話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05216499A (ja) * 1992-02-07 1993-08-27 A T R Shichiyoukaku Kiko Kenkyusho:Kk 音声合成方式
JPH09146576A (ja) * 1995-10-31 1997-06-06 Natl Sci Council 原文対音声の人工的神経回路網にもとづく韻律の合成装置
WO2017168870A1 (ja) * 2016-03-28 2017-10-05 ソニー株式会社 情報処理装置及び情報処理方法
JPWO2017168870A1 (ja) * 2016-03-28 2019-02-07 ソニー株式会社 情報処理装置及び情報処理方法
JP2022516784A (ja) * 2019-01-11 2022-03-02 ネイバー コーポレーション 話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法
CN110779477A (zh) * 2019-09-16 2020-02-11 南京大学 一种用于实时识别物体形状的声学方法
CN110779477B (zh) * 2019-09-16 2020-10-27 南京大学 一种用于实时识别物体形状的声学方法

Similar Documents

Publication Publication Date Title
Gold et al. Speech and audio signal processing: processing and perception of speech and music
JP4363590B2 (ja) 音声合成
US7460997B1 (en) Method and system for preselection of suitable units for concatenative speech
CN110782870A (zh) 语音合成方法、装置、电子设备及存储介质
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JP2002530703A (ja) 音声波形の連結を用いる音声合成
US20040102975A1 (en) Method and apparatus for masking unnatural phenomena in synthetic speech using a simulated environmental effect
KR102072627B1 (ko) 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법
JP2003233388A (ja) 音声合成装置および音声合成方法、並びに、プログラム記録媒体
JPH02304493A (ja) 音声合成システム
KR102626618B1 (ko) 감정 추정 기반의 감정 음성 합성 방법 및 시스템
Lin et al. A novel prosodic-information synthesizer based on recurrent fuzzy neural network for the Chinese TTS system
O'Shaughnessy Design of a real-time French text-to-speech system
JP2910035B2 (ja) 音声合成装置
Govender et al. The CSTR entry to the 2018 Blizzard Challenge
KR100806287B1 (ko) 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템
EP1589524B1 (en) Method and device for speech synthesis
JPH05224688A (ja) テキスト音声合成装置
Morton Adding emotion to synthetic speech dialogue systems
KR102116014B1 (ko) 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템
JP2679623B2 (ja) テキスト音声合成装置
KR0173340B1 (ko) 텍스트/음성변환기에서 억양패턴 정규화와 신경망 학습을 이용한 억양 생성 방법
JP4441380B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
Haury et al. Optimization of a neural network for speaker and task dependent F/sub 0/-generation
Wang et al. A Natural Speech Synthesis Method Based on Vocal Action Sequence Analysis