JPH09198073A - 音声合成装置 - Google Patents

音声合成装置

Info

Publication number
JPH09198073A
JPH09198073A JP8002998A JP299896A JPH09198073A JP H09198073 A JPH09198073 A JP H09198073A JP 8002998 A JP8002998 A JP 8002998A JP 299896 A JP299896 A JP 299896A JP H09198073 A JPH09198073 A JP H09198073A
Authority
JP
Japan
Prior art keywords
phrase
accent
pattern
outline
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8002998A
Other languages
English (en)
Inventor
Tomoki Hamagami
知樹 濱上
Kenichi Magata
謙一 澗潟
Mitsuo Furumura
光夫 古村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Secom Co Ltd
Original Assignee
Secom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Secom Co Ltd filed Critical Secom Co Ltd
Priority to JP8002998A priority Critical patent/JPH09198073A/ja
Publication of JPH09198073A publication Critical patent/JPH09198073A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 ピッチパタン生成において深い言語情報の解
析や複雑な合成規則を前提としなければ精度のよい合成
ができなかった。 【解決手段】 テキスト解析部に、入力されるテキスト
をフレーズ76、78、80、アクセント句に区切ると
共に、フレーズ内のアクセントの並びを表すフレーズタ
イプ情報100等及びアクセント句の構成内容を示すア
クセント句タイプ情報110等を求める機能70を持た
せる。ピッチパタン生成部には、フレーズタイプ情報1
00等に基づいてフレーズ概形パタン124をデータベ
ース122から選択・出力するフレーズ概形パタン検索
処理部120、アクセント句タイプ情報110等に基づ
いてアクセント句概形パタン130をデータベース12
8から選択・出力するアクセント句概形パタン検索処理
部126、及び前記出力された2種類の概形パタン12
4、130を適合させてテキストピッチパタン134を
出力するパタン適合処理部132により構成される機能
72を持たせる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声を規則合成する
音声合成装置、特に自然な韻律(イントネーション)を
生成し合成音声の品質を向上する音声合成装置に関す
る。
【0002】
【従来の技術】音声合成の方式には、再生方式、分析合
成方式、及び規則合成方式がある。再生方式は、記録し
た音声波形を接続して再生する方式である。分析合成方
式は、例えば文や文節などのある程度まとまった音声単
位を予め分析し、音声の冗長性を取り除き、圧縮された
パラメータの形で蓄えておき、必要な時に合成器にて音
声を合成する方式である。規則合成方式は、単語構成、
文型などによって多様に変化する文の韻律的特徴を規則
により表現する高度な合成方式であり、この方式によれ
ば自然な韻律を有した高品質の合成音声を生成すること
ができる。
【0003】音声は、音色、基本周波数の高さ、及び強
度の3要素に分解して捉えることができる。つまり、こ
れら3要素を決定することにより音声を合成することが
できる。韻律を形成する声帯振動を伴った音声部分、特
に母音部においては、音声の周波数スペクトルは、基本
周波数とその逓倍周波数の音波成分によって構成され、
音色はこの周波数スペクトルの包絡形状に依存する。そ
の基本周波数で定まるピッチは音の高さに関連し、その
時間的変化はピッチパタンと呼ばれる。このピッチパタ
ンは、フレーズ単位のフレーズ成分とアクセント句単位
のアクセント成分とに分離される。
【0004】このピッチパタンの生成は、規則合成方式
における重要な技術の1つである。従来より、ピッチパ
タン生成は、テキスト(文字列)を言語解析して区切っ
たフレーズを単位として行われている。フレーズのピッ
チパタンは、その始まりから終わりに向けて概して低下
傾向を示す。図8は、従来のピッチパタン生成方法の一
例を説明する模式図である。上段に示す波形図の縦軸は
ピッチ周波数、横軸は時間を示している。従来より、実
際の音声のピッチパタン10は、下段に示す時間的にピ
ッチが降下する特性を有するフレーズ成分12に、中段
に示すフレーズ内の各アクセントごとのアクセント成分
14を重畳したものとして捉えられる。従って、フレー
ズ成分12にアクセント成分14を重畳すれば、ピッチ
パタンを生成できる。
【0005】図9(a)は、このように合成されたピッ
チパタンを示す模式図である。図の縦軸、横軸は図8と
同様である。図において、例えば「青森の姉は今日はい
ません。」という1つの文は、「青森の姉は」と「今日
はいません」という2つのフレーズ20に区切られ、各
フレーズ20の単調減少するフレーズ成分22に、複数
の線分のつながりとして構成されるアクセント成分24
を重畳することにより、ピッチパタン26が生成され
る。図9(b)は他の従来のピッチパタン生成方法を示
すものであり、同図(a)と同じ文に対し、他の基本関
数で表されたフレーズ成分を用いる場合である。この従
来方法では、フレーズを区切る境界の「深さ」に応じて
インパルス状のフレーズ指令30が発生され、その臨界
制動2次線形系の応答でフレーズ成分32が表されてい
る。またこの方法では、アクセント成分34についても
ステップ状のアクセント指令に対する臨界制動2次線形
系で表され、これをフレーズ成分32に重畳することに
より、ピッチパタン36が生成される(例えば「基本周
波数パターン生成過程モデルに基づく文章音声の合
成」,広瀬 他,電子情報通信学会論文誌A Vol.J72-A
No.1 pp.32-40 ,1989年1月を参照)。
【0006】上記のいずれのピッチパタンの生成方法に
おいても、自然な韻律を表現するピッチパタンを得るた
め、1フレーズ内に存在する複数のアクセント句のつな
がり方や全体のバランスを数多くの規則によって制御し
ている。
【0007】
【発明が解決しようとする課題】しかし、自然発声にみ
られる様々なピッチパタンをテキストから合成するため
には、一般に、テキストに対する正確かつ深い言語情報
の解析と、それを用いてピッチパタンを合成するための
極めて複雑な規則が必要である。すなわち、従来装置に
おいては、ピッチパタン生成のための複雑な規則が要求
され、それゆえピッチパタンの生成精度が言語解析の精
度に依存する度合が大きいという問題があった。精度の
良い言語解析は、文章の意味まで考慮しなければ行えな
い。例えば、上記従来技術で用いられるフレーズ境界の
「深さ」は、文の意味によって変わりうる。この文の意
味をテキストの表層上の構造から判断することは極めて
困難で、フレーズ境界の深さの決定などに誤差が多けれ
ば多いほどフレーズ成分が実際の成分と異なってしま
う。すなわち、従来の音声合成装置は正しい言語解析結
果に対しては自然な韻律を得られるが、誤った解析結果
に対してはその影響が増大されて韻律がより不自然にな
ってしまう問題点があった。
【0008】本発明は、複雑な規則を用いず、また言語
解析が完全でない場合であっても、合成音における韻律
の自然さを向上できる音声合成装置を提供することを目
的とする。
【0009】
【課題を解決するための手段】本発明に係る音声合成装
置は、入力されるテキストをフレーズごとに区切ると共
に各フレーズをアクセントを基準として1又は複数のア
クセント句に区切る言語解析手段と、少なくとも前記フ
レーズ内のアクセントの並びを表すフレーズタイプを求
めるフレーズ分類手段と、前記アクセント句の構成内容
を示すアクセント句タイプを求めるアクセント句分類手
段と、前記フレーズタイプに基づいて前記フレーズのピ
ッチパタンの概形であるフレーズ概形パタンを生成する
フレーズ概形生成手段と、前記アクセント句タイプに基
づいて前記アクセント句のピッチパタンの概形であるア
クセント句概形パタンを生成するアクセント句概形生成
手段と、前記フレーズ概形パタンに前記アクセント句概
形パタンを適合させて前記入力されたテキストに対応し
たテキストピッチパタンを合成するパタン適合手段とを
含み、このテキストピッチパタンを利用して音声合成す
ることを特徴とする。
【0010】本発明者による、特に感情を込めずに発声
した自然音声についての研究から、アクセントの並び方
が同じフレーズは、それらのピッチパタンの形状に関し
て共通性を有することが確かめられた。また、アクセン
ト句単位のピッチパタンも、そのアクセント句の構成内
容に応じた共通性を有する。そこで本発明では、上記フ
レーズ内のアクセントの並び方などを表すフレーズタイ
プごとに、上記共通性をもたらすピッチパタンの共通成
分を抽出し、これをフレーズ概形パタンとして類型化し
た。またアクセント句の構成内容を表すアクセント句タ
イプごとにピッチパタンの共通成分を抽出し、これをア
クセント句概形パタンとして類型化した。
【0011】このような前提の下で、テキスト解析によ
り、フレーズタイプ及びアクセント句タイプを判別する
ことにより、各フレーズ、各アクセント句ごとにそれぞ
れフレーズ概形パタン、アクセント句概形パタンを特定
する。これらの特定された両概形パタンは、例えばフレ
ーズ概形パタンが定めるピッチ範囲にアクセント句概形
パタンをスケーリングしてはめ込むような処理によって
合成され、目的のテキストにあったテキストピッチパタ
ンが生成される。
【0012】従来のフレーズ成分を表すための基本関数
にはある意味では画一性があり、これによるピッチパタ
ンの精度の不足を、複雑な合成規則などにより補うしか
なかった。これに対し本発明では、フレーズ概形パタン
自体にアクセント句ごとのピッチのダイナミックレンジ
やフレーズ内のアクセント句間のつながり情報などが予
め入っているので、複雑な合成規則を前提とせず、また
言語解析の精度にあまり依存しない。フレーズ概形パタ
ン、アクセント句概形パタンは多く持つ必要がなく、例
えば、これら概形生成手段をメモリなどの記憶装置で構
成するような場合にはその記憶容量を少なくすることが
できる。
【0013】なお、フレーズは従来同様に例えば呼気段
落に類するテキストの単位である。またアクセント句
は、テキストを言語解析してアクセントを基準にして区
切られる単位で、例えば文節に類するテキストの単位で
あり、その中に含まれるアクセントの数は0又は1であ
る。
【0014】本発明に係る音声合成装置においては、上
記フレーズタイプが、前記フレーズに含まれる各アクセ
ント句ごとのアクセントの有無を並べたアクセントコー
ドを表すものであることを特徴とする。フレーズタイプ
は望ましくはアクセントコードを記号列によって直接的
に表したものとして構成されるが、アクセントコードの
違いを識別可能な名称等であってもよい。
【0015】本発明に係る音声合成装置においては、上
記フレーズタイプが、上記アクセントコードと上記フレ
ーズの位置が文末であるか否かを示す文末コードとの組
合せで表されることを特徴とする。アクセントコードに
より分類されたフレーズ概形パタンは、フレーズの位置
が文末であるか否かにより差異を有することが認められ
たので、フレーズタイプを文末コードを含めて決定する
こととした。これにより本発明では、一層適切なフレー
ズ概形パタンを特定することができる。
【0016】本発明に係る音声合成装置においては、上
記アクセント句タイプが、上記アクセント句を構成する
モーラの数とアクセント位置との組合せで表されること
を特徴とする。アクセント位置ではピッチが高から低へ
と急激な変化を起こし、またモーラ数は一般にピッチパ
タンの時間軸方向の変化に関係するので、これら2つに
基づいてアクセント句タイプを決定することとした。
【0017】本発明に係る音声合成装置においては、上
記フレーズ概形パタンが上記フレーズ内の各アクセント
句ごとの最高ピッチ及び最低ピッチを表すものであり、
上記アクセント句概形パタンが上記アクセント句内のモ
ーラごとの相対ピッチを表すものであり、前記パタン適
合手段は、上記アクセント句ごとに上記フレーズ概形パ
タンを基準にして前記アクセント句概形パタンをスケー
リングすることを特徴とする。フレーズ概形パタンは望
ましくはピッチ周波数方向又は時間軸方向に規格化され
ている。
【0018】本発明に係る音声合成装置においては、上
記アクセント句概形パタンが、上記モーラごとの相対ピ
ッチを示す点の間を連結したパタンであることを特徴と
する。
【0019】本発明に係る音声合成装置においては、上
記フレーズ概形生成手段が、最大3つのアクセント句を
含む上記フレーズに対応したフレーズ概形パタンを生成
することを特徴とする。
【0020】フレーズに含まれるアクセント句の数が多
くなるとフレーズタイプが増加し、これに伴いフレーズ
概形パタンも増加する。しかし、日常的な文を比較的平
坦に、かつ不自然にならない程度に発声した場合ではア
クセント句の数が1から3の範囲のフレーズで自然な韻
律を表現できることが判明したので、本発明では、最大
3つのアクセント句を上限としてフレーズ概形パタンを
生成させている。これにより、例えば、フレーズ概形生
成手段を記憶装置により構成する場合における記憶容量
の増大や読み出し速度の低下といった問題を解消でき
る。本発明によれば、実用的、経済的な音声合成装置を
提供でき、フレーズ概形パタンを必要十分な数とし記憶
装置の容量の抑制などが図れる。
【0021】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。図1は本実施形態に係る日本語音
声合成装置のブロック構成図である。本音声合成装置は
従来同様に、電子化された日本語文の文字データから合
成音声を規則合成して出力するものである。
【0022】テキスト解析部52は、入力された日本語
文の言語解析結果を出力する。この解析結果には、音声
合成処理に必要なアクセントの情報、フレーズの境界、
ポーズ、母音の無声化といった発音情報を加えた音韻記
号列や、フレーズやアクセント句の分類結果が含まれて
いる。
【0023】この言語解析結果は音韻継続時間長生成部
54に入力される。音韻継続時間長生成部54は、従来
同様、目的の発話速度を実現する音韻の時間長情報を音
韻記号列の音素に付加し、このスペクトルパタン生成部
56、音源振幅パタン生成部58及びピッチパタン生成
部60に出力する。
【0024】スペクトルパタン生成部56は、音韻結合
規則により、母音・子音といった音韻の種類からデータ
ベースを検索し、各音韻の周波数スペクトルの包絡パタ
ンを結合しフォルマントパタンを生成して出力する。ス
ペクトルパタン生成部56の上記データベースには、従
来同様にVCV(母音−子音−母音)単位のスペクトル
パタンが蓄積されている。
【0025】音源振幅パタン生成部58は、音声のパワ
ー包絡をパワーに関する規則により決定する。本実施形
態の特徴的構成要素の1つであるピッチパタン生成部6
0は、韻律制御についての規則からピッチパタンを生成
するものであり、これについては後に詳述する。
【0026】音源生成部62は、音源振幅パタン生成部
58からのパワーパタンと、ピッチパタン生成部60か
らのピッチパタンとを入力とし、音源情報を生成する。
音声合成部64は、スペクトルパタン生成部56から入
力されるフォルマントパタンによって、音源生成部62
からの音源情報を変調して音色を付加し合成音声を生成
する。
【0027】図2は、テキスト解析部52とピッチパタ
ン生成部60の構成・機能を説明する模式図である。図
において機能70がテキスト解析部52に、また機能7
2がピッチパタン生成部60に係わる部分である。テキ
スト解析部52は、入力された日本語文をフレーズに区
切り、また各フレーズをアクセントを基準にして1又は
複数のアクセント句に区切る。アクセント句はアクセン
トを1つのみ含む句(有核アクセント句)か、全く含ま
ない句(無核アクセント句)のいずれかである。ここで
サンプルとする文は、「あらゆる現実を全て自分の方へ
ねじまげたのだ。」という文74である。この文は「あ
らゆる現実を」、「全て」、「自分の方へねじまげたの
だ」という3つのフレーズ76、78、80に区切ら
れ、フレーズ76は「あらゆる」、「現実を」の2つの
アクセント句、フレーズ78は「全て」の1つのアクセ
ント句、フレーズ80は「自分の方へ」、「ねじまげた
のだ」の2つのアクセント句にそれぞれ区切られる。ち
なみに、文74は音韻記号列で表現されており、音韻記
号列中、フレーズ境界は“/”、アクセント句の境界は
“+”、アクセントのあるモーラ位置はその直後の
“´”という記号で表されている。
【0028】またテキスト解析部52はフレーズタイ
プ、アクセント句タイプを決定する。フレーズタイプに
は、フレーズ成分の類型化されたパタン(フレーズ概形
パタン)が対応づけられ、またアクセント句タイプに
は、アクセント成分の類型化されたパタン(アクセント
句概形パタン)が対応づけられる。
【0029】以下にこれらフレーズタイプとフレーズ概
形パタンとの関係について説明する。本発明者の研究に
よれば、フレーズ成分はフレーズを構成するアクセント
句の有核、無核の並び方(以下、アクセントコードと称
する。)によって類型化できることが判明した。この類
型化されたフレーズ成分を示すパタンがフレーズ概形パ
タンである。これらはさらに当該フレーズが文末にある
か否か(これを示す情報を以下、文末コードと称す
る。)によっても異なる。
【0030】図3はフレーズ概形パタンを説明するため
の模式図である。図3(a)に示すように、以下、モデ
ル化されたピッチパタンとして、ピッチパタンを各母音
のエネルギー重心点(CEGV)においてサンプリング
し各サンプリング点間を直線補間した点ピッチパタンを
使用する(点ピッチパタンについては特開昭50−12
8404を参照)。図3(a)は3つのアクセント句を
含んだフレーズの点ピッチパタンであり、同図(b)は
これに対応するフレーズ概形パタンである。フレーズ概
形パタンは点ピッチパタンにおける各アクセント句82
ごとの最高ピッチ84、86、88、最低ピッチ90、
92、94を抽出したものである。これら抽出された点
が図(b)においてそれぞれ黒丸96で表されている。
黒丸96間を接続する線はその水平部分がピッチの最
高、最低の水準を模式的に示すものであり、垂直部分は
これら水準が同一フレーズに属することを示すためそれ
らの端と端とをつないだものである。このようにフレー
ズ概形パタンは、フレーズ内の各アクセント句の最高ピ
ッチ、最低ピッチを表すものであり、各アクセント句の
ダイナミックレンジを規定するモデルである。このよう
にフレーズ単位のピッチパタンの大まかな形状的特徴を
表すという点が、「概形」と呼ぶ理由である。なお、ア
クセント句が無核の場合には、最高ピッチは、そのアク
セント句の点ピッチパタンから抽出されるが、最低ピッ
チは、後続する有核アクセント句との連続性を保持する
規則により与えられる。
【0031】このフレーズ概形パタンは、様々なフレー
ズについての観測から分類できることが判った。図4は
それを示すものであり、3アクセント句のフレーズにつ
いてのピッチパタンの観測結果に見出された幾つかのフ
レーズ概形パタンの例である。ここで、発話者の感情や
強調、意味の受け止め方などの要因が変わると各アクセ
ント句の平均的な高さや、ダイナミックレンジ、つなが
り方などに影響が及び、フレーズ成分は多少変化する。
しかし、人はこれらの要因を考えずに発音しても、多く
の場合、コミュニケーション可能である。そこで、上記
観測は、話者に文章を特に感情を込めず不自然にならな
い程度に読ませ上記要因を捨象した音声について行っ
た。なお、図において縦軸はピッチの実測値であり、規
格化等はされていない。縦軸はピッチ周波数であり、横
軸は任意スケールの時間軸である。
【0032】同図(a)〜(d)はそれぞれ異なるアク
セントコードの場合である。図中の“AAA”、“NA
N”等がアクセントコードである。アクセントコード中
の記号“A”、“N”はそれぞれアクセント句が有核、
無核であることを表し、例えば、記号列“NAN”はフ
レーズを構成する3つのアクセント句の並びが“無核−
有核−無核”の順であることを表すものとする。また図
において、実線、点線は、それぞれフレーズが文末にな
い場合と、ある場合とに対応し、各場合を文末コード
“C”、“F”で表している。
【0033】以上のようにフレーズ概形パタンは、アク
セントコードと文末コードとの組合せによって分類され
ることが判り、この組合せをフレーズタイプとし、フレ
ーズ概形パタンの識別に用いることとした。フレーズタ
イプは、アクセントコードと文末コードの上記各記号列
の組合せにより、例えば、“NAN/C”と表すことに
する。
【0034】図2に戻って、テキスト解析部52が、各
フレーズ76、78、80のフレーズタイプをそれぞれ
AN/C、A/C、AA/Fと分類して、これらフレー
ズタイプをフレーズタイプ情報100、102、104
としてピッチパタン生成部60に出力する。
【0035】次に、アクセント句タイプとアクセント句
概形パタンの関係について説明する。アクセント成分の
点ピッチパタンの形状は、アクセント句のモーラ数(日
本語ではひらがな文字数にほぼ相当する。)とアクセン
トを有するモーラの位置とによってほぼ類型化できるこ
とが確認されている。そこで、これらアクセント句のモ
ーラ数とアクセント位置との組合せをアクセント句タイ
プとし、類型化されたアクセント成分であるアクセント
句概形パタンの識別に用いることとした。ここで、アク
セント句概形パタンはアクセント成分の標準形であり、
この意味で「概形」と呼んでいる。
【0036】すなわち図2において、テキスト解析部5
2が、フレーズ76、78、80内の各アクセント句を
分類して、それぞれについてアクセント句タイプ情報1
10、112、114をピッチパタン生成部60に出力
する。例えば、アクセント句タイプ情報110は、フレ
ーズ76を構成するアクセント句「あらゆる」、「現実
を」のアクセント句タイプがそれぞれ“4モーラ3
型”、“5モーラ0型”であることを表すものである。
ここで、“4モーラ3型”はモーラ数が4、アクセント
の位置が3モーラ目にあること、“5モーラ0型”はモ
ーラ数が5の無核アクセント句であることを表現するも
のとする。
【0037】以上のようにテキスト解析部52は言語解
析手段の他、フレーズ分類手段及びアクセント句分類手
段としての機能を有する。
【0038】図2においてピッチパタン生成部60内に
おいては、まずフレーズ概形パタン、アクセント句概形
パタンの検索が行われる。フレーズ概形パタンについて
の検索処理部120は、情報100、102、104中
のフレーズタイプをキーとして、フレーズ概形パタンを
格納するデータベース122を検索し、フレーズ概形パ
タン124を出力する。ここでは3つのフレーズタイプ
情報100、102、104に対応して3つのフレーズ
概形パタン124が出力される。アクセント句概形パタ
ンについての検索処理部126は、情報110、11
2、114中のアクセント句タイプをキーとしてアクセ
ント句概形パタンを格納するデータベース128を検索
し、アクセント句概形パタン130を出力する。ここで
は5つのアクセント句タイプに対応して5つのアクセン
ト句概形パタン130が出力される。本実施形態では、
両データベース122、128に格納されているのは、
それぞれ正規化されたフレーズ概形パタン、正規化され
たアクセント句概形パタンである。各概形パタンを正規
化して格納した理由は、次に行われる両概形パタンの適
合におけるスケーリング処理を定式的に実施できるよう
にするためである。
【0039】図5は、データベース122に格納されて
いる正規化されたフレーズ概形パタンを例示する図であ
る。正規化されたフレーズ概形パタンは、フレーズ内に
おける最高ピッチを1、この最高ピッチを含むアクセン
ト句の最低ピッチを0とするように規格化される。図の
表わし方は、図3(b)と同様である。図5には有核ア
クセント句が3つ連鎖する場合の正規化フレーズ概形パ
タンが例示されている。同図(a)は非文末のフレーズ
の場合、同図(b)は文末フレーズの場合であり、フレ
ーズが文末の場合には、最後尾のアクセント句のピッチ
が低くなる例が示されている。これは図4においても確
認される。
【0040】図6は、データベース128に格納されて
いる正規化されたアクセント句概形パタンを例示する図
である。正規化されたアクセント句概形パタンは、アク
セント句内のモーラごとのピッチの大小関係を表す相対
ピッチパタンにおいて、アクセント句内の最高ピッチを
1、最低ピッチを0とする規格化を行ったものである。
同図には、6モーラ3型の例が示されており、ここで丸
印140が各モーラの母音の前記エネルギー重心点(C
EGV)に対応したピッチの相対値を示し、各エネルギ
ー重心点間のピッチは直線補間により与えられる。な
お、ここでは、アクセント位置を、ピッチが高から低へ
と急激に変化する直前のモーラと定義している。
【0041】次に図2に戻ってピッチパタン生成部60
内では上記各々出力された両概形パタンの適合処理が行
われる。パタン適合手段であるパタン適合処理部132
は両概形パタンを適合し、音源生成部62で用いられる
テキストピッチパタン134を生成する。パタン適合処
理部132による処理は、大きくは、フレーズ概形パタ
ンの正規化を解除して実スケールに展開するスケーリン
グ処理と、アクセント句概形パタンの正規化を解除・展
開するスケーリング処理との2つからなる。フレーズ概
形パタンのスケーリング処理は、次式で表されるよう
に、正規化されたフレーズ概形パタン124を、予め与
えられた発声の高さBPとダイナミックレンジである抑
揚DRとを有するフレーズ概形パタンに変換する。ここ
でph(n)、Ph(n)はそれぞれ正規化フレーズ概
形パタン、スケーリング後のフレーズ概形パタンにおけ
る各点のピッチの値であり、nはそのフレーズ内の各ア
クセント句の最高ピッチ、最低ピッチに対応する各点を
示す。
【0042】
【数1】Ph(n)=DR・ph(n)+BP 次に、パタン適合処理部132は、アクセント句概形パ
タンのスケーリング処理を行う。これは、正規化された
アクセント句概形パタン130の最高ピッチと最低ピッ
チとがそれぞれフレーズ概形パタンの対応する点の値P
h(n)に等しくなるように、正規化されたアクセント
句概形パタン130をスケーリングして正規化を解除さ
れたフレーズ概形パタンPh(n)にはめ込む処理であ
り、これにより実スケールに対応したテキストピッチパ
タン134が生成される。なお、ここで、音韻継続時間
生成部54により音韻記号列に付加された音韻の時間長
に応じ、時間軸方向へのスケーリングも併せて行われ
る。
【0043】以上図2に示すテキスト解析部52とピッ
チパタン生成部60の構成・機能によって、テキストに
対応するピッチパタンが、フレーズ概形パタンとアクセ
ント句概形パタンという2種類のパタンから生成され
る。これら2種類のパタン自体は単純なものであるが、
フレーズ概形パタンがフレーズ内のアクセント句間のつ
ながり情報などを有している。そのため、従来と異な
り、複雑な合成規則を前提とせず、また言語解析の精度
に依存せずに、自然な韻律が得られる。
【0044】データベース122に登録されるフレーズ
概形パタンの数は、フレーズが含む最大アクセント句数
に伴い増大するであろう。しかし、特に感情を込めずに
発声した自然音声の観測から、フレーズ内に含まれるア
クセント句を最大3つとすれば、ほぼ自然な韻律の生成
に充分であることを確認した。よって、データベース1
22に、アクセント句数が1個から3個までに対応する
フレーズ概形パタンのみを登録した音声合成装置を実現
することができる。この場合、アクセントコード及び文
末コードからなるフレーズタイプの数はたかだか22
3 +24 =28個であり、つまりデータベース122
の容量を極めて小さく構成できる。また、アクセント句
概形パタンの数は、アクセント句のモーラ数の上限をい
くつに設定するかに依存するが、例えば10モーラを上
限とした場合55個となり、データベース128に必要
な容量も小さい。
【0045】図7は本音声合成装置による合成されたテ
キストピッチパタンと実測値との比較例である。同図
(a)は実測による自然音声のピッチパタンであり、同
図(b)は本装置により合成したピッチパタンである。
【0046】なお本装置、特に図2に示す機能を実現す
るテキスト解析部52及びピッチパタン生成部60は、
コンピュータ上のソフトウェアとして構成することもで
きるし、ハードウェア化も可能である。
【0047】また、フレーズ概形パタンは、例えばアク
セント句概形パタンが加算されるベースとなる連続的又
は離散的なピッチパタンとすることもできる。アクセン
ト句概形パタンは、その形状が離散的であるか連続的で
あるか、また滑らかであるか否かを問わない。また、パ
タン適合処理部132における処理は、例えば、フレー
ズ概形パタンとアクセント句概形パタンとをそれぞれ個
別にスケーリングした後、加算合成するような処理でも
よい。また、フレーズ概形生成手段及びアクセント句概
形生成手段を構成するデータベース84、86は例え
ば、半導体メモリ、磁気ディスクなどの記憶装置により
構築される。この記憶装置の代わりに、フレーズタイプ
やアクセント句タイプをパラメータとする演算によりパ
タンを生成するマイクロプロセッサなどの演算装置やそ
の他の波形発生装置を用いて各概形生成手段を構成する
こととしてもよい。
【0048】一般に、言語解析に要求される程度はその
結果を使用する音声合成装置の音声合成方法に依存す
る。例えば、文章の構造や掛かり受けの関係など深い解
析を行って、それを音声合成に反映する音声合成装置も
ある。しかし、深い言語解析ほど解析の負担が大きくな
ると共に、誤りを生じる可能性も多くなる。本音声合成
装置の特徴の1つは、この言語解析への依存を軽減でき
る点にあり、従ってテキスト解析部52は上記掛かり受
け等の複雑な解析まで行う必要はない。その一方、フレ
ーズ概形パタンに、ピッチパタンにおけるアクセント句
単位の特徴やアクセント句間のつながり情報や、フレー
ズの文中位置による差異を取り込んで音声合成に用いる
テキストピッチパタンを生成することとしたので、容易
な言語解析及び簡単な合成規則にも拘わらず、また言語
解析結果に依存せず安定に、自然な合成音声を生成する
ことができる。
【0049】
【発明の効果】本発明の音声合成装置によれば、フレー
ズ概形パタンにピッチパタンにおけるアクセント句単位
の特徴やアクセント句間のつながり情報や、フレーズの
文中位置による差異を取り込むことにより、簡易な言語
解析から得られる言語情報と簡単な規則とによって、破
綻がなく自然な韻律を得ることができるという効果があ
る。また、言語解析に高い精度が要求されないことによ
り、言語解析処理に対する負荷が軽減し、現実的な音声
合成装置の構成が可能になるという効果がある。さら
に、1フレーズを3アクセント句以下としてほぼ自然な
韻律の生成が可能であることから、この場合、フレーズ
概形パタンの種類は極めて少なくなり、その生成手段を
簡素化できるという効果、特に生成手段をデータベース
等記憶手段により構成する場合にはその容量が抑制され
るという効果がある。
【図面の簡単な説明】
【図1】 本実施形態に係る日本語音声合成装置のブロ
ック構成図。
【図2】 本実施形態に係るピッチパタン生成機能を説
明する模式図。
【図3】 フレーズ概形パタンを説明するための模式
図。
【図4】 観測に見出されたフレーズ概形パタンの例示
図。
【図5】 正規化フレーズ概形パタンの模式図。
【図6】 正規化アクセント句概形パタンの模式図。
【図7】 本実施形態によるテキストピッチパタンの合
成結果を示す図。
【図8】 従来のピッチパタン生成方法を説明する模式
図。
【図9】 従来方法により合成されたピッチパタンを示
す模式図。
【符号の説明】
52 テキスト解析部、54 音韻継続時間長生成部、
56 スペクトルパタン生成部、58 音源振幅パタン
生成部、60 ピッチパタン生成部、62 音源生成
部、64 音声合成部、120 フレーズ概形パタン検
索処理部、122正規化フレーズ概形パタンデータベー
ス、124 フレーズ概形パタン、126 アクセント
句概形パタン検索処理部、128 正規化アクセント句
概形パタンデータベース、130 アクセント句概形パ
タン、132 パタン適合処理部、134 テキストピ
ッチパタン。

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 テキストから音声を規則合成する音声合
    成装置において、 入力されるテキストをフレーズごとに区切ると共に、各
    フレーズをアクセントを基準として1又は複数のアクセ
    ント句に区切る言語解析手段と、 少なくとも前記フレーズ内のアクセントの並びを表すフ
    レーズタイプを求めるフレーズ分類手段と、 前記アクセント句の構成内容を示すアクセント句タイプ
    を求めるアクセント句分類手段と、 前記フレーズタイプに基づいて、前記フレーズのピッチ
    パタンの概形であるフレーズ概形パタンを生成するフレ
    ーズ概形生成手段と、 前記アクセント句タイプに基づいて、前記アクセント句
    のピッチパタンの概形であるアクセント句概形パタンを
    生成するアクセント句概形生成手段と、 前記フレーズ概形パタンに前記アクセント句概形パタン
    を適合させて前記入力されたテキストに対応したテキス
    トピッチパタンを合成するパタン適合手段と、 を含み、 このテキストピッチパタンを利用して音声合成すること
    を特徴とする音声合成装置。
  2. 【請求項2】 請求項1記載の音声合成装置において、 上記フレーズタイプは、前記フレーズに含まれる各アク
    セント句ごとのアクセントの有無を並べたアクセントコ
    ードを表すものであることを特徴とする音声合成装置。
  3. 【請求項3】 請求項2記載の音声合成装置において、 上記フレーズタイプは、上記アクセントコードと上記フ
    レーズの位置が文末であるか否かを示す文末コードとの
    組合せで表されることを特徴とする音声合成装置。
  4. 【請求項4】 請求項1記載の音声合成装置において、 上記アクセント句タイプは、上記アクセント句を構成す
    るモーラの数とアクセント位置との組合せで表されるこ
    とを特徴とする音声合成装置。
  5. 【請求項5】 請求項1から請求項4までのいずれかに
    記載の音声合成装置において、 上記フレーズ概形パタンは、上記フレーズ内の各アクセ
    ント句ごとの最高ピッチ及び最低ピッチを表すものであ
    り、 上記アクセント句概形パタンは、上記アクセント句内の
    モーラごとの相対ピッチを表すものであり、 前記パタン適合手段は、上記アクセント句ごとに上記フ
    レーズ概形パタンを基準にして前記アクセント句概形パ
    タンをスケーリングすること、 を特徴とする音声合成装置。
  6. 【請求項6】 請求項5記載の音声合成装置において、 上記アクセント句概形パタンは、上記モーラごとの相対
    ピッチを示す点の間を連結したパタンであることを特徴
    とする音声合成装置。
  7. 【請求項7】 請求項1から請求項6までのいずれかに
    記載の音声合成装置において、 上記フレーズ概形生成手段は、最大3つのアクセント句
    を含むフレーズに対応したフレーズ概形パタンを生成す
    ることを特徴とする音声合成装置。
JP8002998A 1996-01-11 1996-01-11 音声合成装置 Pending JPH09198073A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8002998A JPH09198073A (ja) 1996-01-11 1996-01-11 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8002998A JPH09198073A (ja) 1996-01-11 1996-01-11 音声合成装置

Publications (1)

Publication Number Publication Date
JPH09198073A true JPH09198073A (ja) 1997-07-31

Family

ID=11545055

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8002998A Pending JPH09198073A (ja) 1996-01-11 1996-01-11 音声合成装置

Country Status (1)

Country Link
JP (1) JPH09198073A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1169476A (ja) * 1997-08-26 1999-03-09 Secom Co Ltd 発声補助用人工喉頭
WO2015025788A1 (ja) * 2013-08-23 2015-02-26 独立行政法人情報通信研究機構 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
JP2015194781A (ja) * 2015-08-06 2015-11-05 国立研究開発法人情報通信研究機構 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1169476A (ja) * 1997-08-26 1999-03-09 Secom Co Ltd 発声補助用人工喉頭
WO2015025788A1 (ja) * 2013-08-23 2015-02-26 独立行政法人情報通信研究機構 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
JP2015041081A (ja) * 2013-08-23 2015-03-02 独立行政法人情報通信研究機構 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
CN105474307A (zh) * 2013-08-23 2016-04-06 国立研究开发法人情报通信研究机构 定量的f0轮廓生成装置及方法、以及用于生成f0轮廓的模型学习装置及方法
EP3038103A4 (en) * 2013-08-23 2017-05-31 National Institute of Information and Communication Technology Quantitative f0 pattern generation device and method, and model learning device and method for generating f0 pattern
JP2015194781A (ja) * 2015-08-06 2015-11-05 国立研究開発法人情報通信研究機構 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム

Similar Documents

Publication Publication Date Title
Black et al. Generating F/sub 0/contours from ToBI labels using linear regression
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
EP1005018B1 (en) Speech synthesis employing prosody templates
US8219398B2 (en) Computerized speech synthesizer for synthesizing speech from text
US20050119890A1 (en) Speech synthesis apparatus and speech synthesis method
US8775185B2 (en) Speech samples library for text-to-speech and methods and apparatus for generating and using same
US20040030555A1 (en) System and method for concatenating acoustic contours for speech synthesis
JP3587048B2 (ja) 韻律制御方法及び音声合成装置
JPH086591A (ja) 音声出力装置
Bellegarda et al. Statistical prosodic modeling: from corpus design to parameter estimation
JP2002258885A (ja) テキスト音声合成装置およびプログラム記録媒体
WO2016103652A1 (ja) 音声処理装置、音声処理方法、および記録媒体
US6829577B1 (en) Generating non-stationary additive noise for addition to synthesized speech
JP2003186489A (ja) 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法
JPH09198073A (ja) 音声合成装置
JP2001034284A (ja) 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体
JP2008191477A (ja) ハイブリッド型音声合成方法、及びその装置とそのプログラムと、その記憶媒体
JP3091426B2 (ja) 自然発話音声波形信号接続型音声合成装置
JPH10254471A (ja) 音声合成装置
Ng Survey of data-driven approaches to Speech Synthesis
JP2001100777A (ja) 音声合成方法及び装置
Narupiyakul et al. A stochastic knowledge-based Thai text-to-speech system
KR100608643B1 (ko) 음성 합성 시스템의 억양 모델링 장치 및 방법
Gu et al. Model spectrum-progression with DTW and ANN for speech synthesis
JPH11109992A (ja) 音声素片データベースの作成方法、音声合成方法、音声素片データベース、音声素片データベース作成装置および音声合成装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050121

A131 Notification of reasons for refusal

Effective date: 20050426

Free format text: JAPANESE INTERMEDIATE CODE: A131

A02 Decision of refusal

Effective date: 20050906

Free format text: JAPANESE INTERMEDIATE CODE: A02