JP3318290B2 - 音声合成方法および装置 - Google Patents

音声合成方法および装置

Info

Publication number
JP3318290B2
JP3318290B2 JP24391899A JP24391899A JP3318290B2 JP 3318290 B2 JP3318290 B2 JP 3318290B2 JP 24391899 A JP24391899 A JP 24391899A JP 24391899 A JP24391899 A JP 24391899A JP 3318290 B2 JP3318290 B2 JP 3318290B2
Authority
JP
Japan
Prior art keywords
speech
syllable
prosodic
same
synthesized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP24391899A
Other languages
English (en)
Other versions
JP2001067093A (ja
Inventor
利光 蓑輪
亮 望月
洋文 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP24391899A priority Critical patent/JP3318290B2/ja
Publication of JP2001067093A publication Critical patent/JP2001067093A/ja
Application granted granted Critical
Publication of JP3318290B2 publication Critical patent/JP3318290B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、カーナビゲーショ
ンやパーソナルコンピュータなどで使用される音声合成
方法およびその装置に関する。
【0002】
【従来の技術】従来、例えば特開平7-261778号公報に開
示されているように、音声のピッチ周波数やパワー等の
特徴量を音韻環境を考慮して統計処理することにより、
確率的に信頼度の高いピッチパターンを作成し、人間の
発声に近い合成音声を実現しようとする音声合成装置が
知られており、韻律制御のための具体的な構成としては
図11に示すように、音声データベースなどを格納する
音声ファイル1から特徴抽出部2を介してピッチ周波数
やその変化分、パワーやその変化分等の音声の特徴量を
抽出して作成した特徴量ファイル5と、各音素のラベル
を付与するラベル付与部3及びアクセント型、モーラ
数、音素カテゴリ等の音韻リストを作成する音韻リスト
作成部4を介して作成されたラベル毎のアクセント型、
モーラ数、モーラ位置、音素等の音韻環境を考慮したラ
ベルファイル6とを有し、これらファイルのデータを統
計処理し、特徴を抽出する統計処理部7と、統計処理し
た結果をもとに音韻環境を考慮したピッチパターンを作
成するピッチパターン作成部8を備えるようにされてい
る。
【0003】このように、従来の音声合成装置によって
も人間の発声に近い合成音声の韻律制御を行なうことは
可能である。
【0004】
【発明が解決しようとする課題】しかしながら、従来の
音声合成装置における韻律制御では、統計処理対象のデ
ータが充分でなければ自然性の高い合成音声を作成でき
ないという課題を有していた。
【0005】そこで本発明は、上記課題を解決するため
に、統計処理対象のデータを余り必要とせずに自然性の
高い合成音声を作成できるようにした音声合成方法およ
び装置を提供することを目的とする。
【0006】
【課題を解決するための手段】本発明の請求項1記載の
発明は、調音位置、調音方法によって分類した無声摩擦
や有声破裂毎に代表的な音節を持ち、この音節を連続的
に発声した音声からピッチ周期とパワー(振幅)から成
る韻律ベクトルを成分とするベクトル系列を抽出し、事
前に蓄積しておき、この蓄積されたデータから、合成し
ようとする音声の音節毎にモーラ数、アクセント型が同
じで、かつ音韻分類が同じものを選択し、前記韻律ベク
トル系列の当該位置の音節の韻律ベクトル系列に合あわ
せるように音声合成素片の変形を行ない、音声合成素片
同士を接続するようにした音声合成方法としたものであ
る。
【0007】また、請求項2記載の発明は、音韻の分類
基準を調音方法によって簡易化することを特徴とする請
求項1に記載の音声合成方法としたものである。
【0008】また、請求項3記載の発明は、合成音声が
韻律を参照するテンプレートの範囲を音節ではなく、母
音と子音との音韻連鎖とすることを特徴とする請求項1
又は請求項2に記載の音声合成方法としたものである。
【0009】また、請求項4記載の発明は、韻律ベクト
ル系列の選択条件として、合成しようとする音声の音節
毎にモーラ数、アクセント型が同じで、かつ音韻分類が
同じという条件に加え、前記音韻の最近傍特殊音韻が同
じ音韻分類であるものとすることを特徴とする請求項1
乃至請求項3のいずれかに記載の音声合成方法としたも
のである。
【0010】また、請求項5記載の発明は、音声合成の
ための音声合成素片を蓄積する手段と、合成しようとす
る音声の読み仮名とアクセント核位置の情報から、合成
すべき音声のモーラ数とアクセント型を決定する手段
と、合成すべき音声を作成するための音声合成素片を選
択する手段と、調音位置、調音方法によって分類した無
声摩擦や有声破裂毎に選ばれた代表音節を連続的に発声
した音声から抽出したピッチ周期とパワーを成分とする
韻律ベクトル系列を蓄積する手段と、これらの韻律ベク
トル系列から、合成しようとする音声の音節毎にモーラ
数、アクセント型が同じで、かつ音韻分類が同じものを
選択する手段と、このベクトル系列中の前記音節位置の
韻律ベクトル系列に音声合成素片の韻律ベクトル系列を
を合わせるように変形を行なう手段と、変形された音声
合成素片同士を接続する手段を備えた音声合成装置とし
たものである。
【0011】また、請求項6記載の発明は、調音方法で
分類された音節分類の一部分の音節を連続して発声した
音声の韻律ベクトル系列として持つようにした請求項4
に記載の音声合成装置としたものである。
【0012】また、請求項7記載の発明は、韻律を参照
するテンプレートの範囲を音節ではなく、母音と子音と
の音韻連鎖として、音声合成素片のピッチ周期とパワー
をこれに合わせて変形する手段を持つようにした請求項
4又は請求項5に記載の音声合成装置としたものであ
る。
【0013】また、請求項8記載の発明は、韻律ベクト
ル系列の選択手段として、合成しようとする音声の音節
毎にモーラ数、アクセント型が同じで、かつ音韻分類が
同じという条件に加え、前記音韻の最近傍特殊音韻が同
じ音韻分類であるものとする条件で選択する手段を持つ
ことを特徴とする請求項5乃至請求項7のいずれかに記
載の音声合成装置としたものである。
【0014】
【発明の実施の形態】以下、本発明の実施の形態につい
て、図面を用いて説明する。
【0015】(第1の実施の形態)図1は、本発明の第
1の実施の形態に係る音声合成処理全体のフローを示す
図である。図1においてまず調音位置、調音方法によっ
て分類した無声摩擦や有声破裂毎に代表的な音節を持
ち、この音節を連続的に発声した音声からピッチ周期と
パワー(振幅)から成る韻律ベクトルを成分とするベク
トル系列を抽出し、事前に韻律ベクトル系列データベー
ス10に格納しておく。
【0016】次に音声合成しようとする文字列が、言語
処理部14に入力される。次に言語処理部14に入力された
文字列に対して言語処理を施して文字から音声への読み
変換を行なう。この際、単語辞書及び文字を読みに変換
する読み変換規則(ルール)12が参照される。
【0017】次に言語処理により文字から音声への読み
変換がなされた文字列に対して、韻律選択部11における
韻律ベクトル系列の選択によって韻律設定15が行なわれ
る。この際、韻律選択部11によって前記した韻律ベクト
ル系列データベース10が参照される。
【0018】韻律選択部11における韻律ベクトル系列の
選択は、合成しようとする音声の音節又は音韻連鎖毎に
モーラ数、アクセント型が同じで、かつ音韻分類が同じ
ものに基づいて韻律選択が行なわれる。
【0019】一方、言語処理により文字から音声への読
み変換がなされた文字列に対して、素片選択部16により
素片選択が行なわれる。この際、音節や母音-子音-母音
(V-C-V)などを蓄積している音声波形素片データベ
ース13が参照される。
【0020】上記において韻律設定および素片選択がな
された文字から音声の読み変換がなされた文字列に対し
て、素片変形部17はアクセントや抑揚にしたがって素片
の基本周波数(ピッチ周波数または声の高さ)、振幅
(パワー)を変更する素片変形を行なう。
【0021】そして素片接続部18において素片変形が施
された素片を接続することでスピーカ19から自然性の高
い合成音声を発声させることができる。これにより統計
処理対象のデータを余り必要とせずに従来より自然性の
高い合成音声を作成することができる。
【0022】図2は、図1に示した韻律設定部11におけ
る韻律設定の具体的方法を示すフローチャートである。
図2では「緑ケ丘(ミドリ ガ オカ)」(6モーラ4
型)の例を示したもので、図2において、ステップ21で
は、モーラ数、アクセント型、合成しようとする音声中
の当該音節のカテゴリ、近傍特殊音韻が同じものを検索
する。この際、上記した韻律ベクトル系列データベース
(DB)10が参照される。
【0023】次にステップ22において、検索された音節
のピッチ波形毎のパワー(振幅)とパワーの韻律ベクト
ル系列を取得する。
【0024】因に、「緑ケ丘(ミドリ ガ オカ)」の韻
律ベクトル系列としては、「ミ」が有声通鼻音であるか
ら図3に示される音韻分類から「モ」が代表音節として
選ばれる。次いで、「ド」は有声破裂音であるから図3
に示される音韻分類から「ド」が代表音節として選ばれ
る。
【0025】「リ」は有声弾音であるから、図3に示さ
れる音韻分類から「ロ」が代表音節として選ばれる。さ
らに「ガ」は有声破裂音であるから、図3の音韻分類か
ら「ゴ」が代表音節として選ばれる。次に「カ」は無声
破裂音であるから図3に示される音韻分類から「コ」が
選ばれる。
【0026】そしてステップ23において、取得済みの韻
律ベクトル系列と接続を実施する。それが済むと、ステ
ップ24において、6音節全ての探索が終了したかどうか
がチェックされ、終了していなければステップ21〜23を
実行し、終了していれば処理を終える。
【0027】このように6モーラ4型について蓄積して
いる韻律ベクトル系列データベース(DB)10の中か
ら、「モモモモ’ーモ」のピッチ及びパワーパターン、
「ドドドド’ード」のピッチ及びパワーパターン、「ロ
ロロロ’ーロ」のピッチ及びパワーパターン、「ゴゴゴ
ゴ’ーゴ」のピッチ及びパワーパターン、および「ココ
ココ’ーコ」のピッチ及びパワーパターンが順次選ばれ
て、最終的には「モドロゴ’ーコ」に相当するものを繋
ぎ合わせて作り、これを韻律設定に使用する。
【0028】図3は音節をもとに作成した音韻分類表を
示しており、その分類表に代表音節が示されている。図
3の音韻分類表において縦方向には調音方法に基づく音
韻が分類され、その展開として、破裂音、通鼻音、摩擦
音、破擦音、弾音、流音が挙げられており、さらに各調
音には無声、有声に細分類されている。
【0029】また、図3の音韻分類表において横方向に
は調音位置に基づく音韻が分類され、その展開として、
両唇音、歯裏音、歯茎音、硬口蓋音、喉頭音が挙げられ
ている。
【0030】なお、図3の音韻分類表において母音だけ
の音節はオに、また長音節と連母音は子音部の後の母音
を伸ばしたもので代表させるようにする。
【0031】上記に示した分類方法自体は公知のもので
あるが、代表音節に何を選ぶかについては本願発明者ら
の知見に基づくものである。
【0032】図4は、韻律ベクトル系列を説明するため
の図である。図4において、音声がn個のピッチ波形か
らなる場合において、韻律ベクトル系列 U は式(1)
によって定義することができる。 U=(V1,V2,V3,・・・・Vn) (1) ただし、Viは韻律ベクトルで、つぎの式(2)によっ
て定義されるものである。 Vi=(P(i),A(i))T (2) ここにおいて、韻律ベクトルViは、2次元ベクトルで
あり、例えば音声3ピッチ分の波形例に示されるように
その第1成分は、i番目とi+1番目のピッチ波形の間
隔を示すP(i)として表されるように次のピッチ波形
とのピッチ周期で、その第2成分は、i番目波形の振幅
A(i)として表されるようにピッチ波形の最大振幅で
ある。
【0033】(第2の実施の形態)本発明の第2の実施
の形態は、上記した第1の実施の形態とほとんど同じ構
成であるが、図3に示す音節をもとに作成した音韻分類
表に代えて図5に示す子音を中心とする音節をもとに作
成した簡易な音韻分類表を使用する点のみが異なるもの
である。
【0034】(第3の実施の形態)本発明の第3の実施
の形態は、上記した第1の実施の形態とほとんど同じ構
成であるが、図6に示すように韻律ベクトル系列の選定
の際の規則において、特殊音韻が含まれるものを採用し
た点で異なるものである。
【0035】ここで、特殊音韻とは、 (1)撥音 ンの音 (2)促音 ッ(小文字のツ) (3)長音節 ー (4)連母音 アイ、エイ、アエ、オイ、オウ、アウ、
アオ、ウイ の4種類とするものである。
【0036】韻律ベクトル系列を抽出するために事前に
録音する音声は、これらを最大でも、これらを1種類し
か含まないようにする。例えば、5音節3型の有声破裂
音は、図3及び図5に示される音韻分類表から明らかな
ように、 ドドド’ドド であるが、これに撥音が入ったものとしては、ドンド’
ドド、(ドドン’ドド:これは発声できない)、ドド
ド’ンド、ドドド’ドン、をそれぞれ録音する。
【0037】したがって、「北海道(ホッカ’イド
ー)」という音声を合成しようとした場合、「北海道
(ホッカ’イドー)」には、ッカ(促音)とカイ(連母
音)とドー(長音節)の3種類の特殊音韻を含むが、韻
律ベクトル系列は、切り出そうとする音節に特殊音韻が
位置的に最も近いもの(前後では後を優先)を選ぶよう
にするとともに、「ホ」が無声摩擦音であるから図3及
び図5に示される音韻分類から「ソ」が代表音節として
選ばれる。次いで、「ッカ」と「カイ」は特殊音韻であ
り「カ」が無声破裂音であるから図3及び図5に示され
る音韻分類から「ト」が代表音節として選ばれる。「ド
ー」は特殊音韻であり「ド」が有声破裂音であるから図
3及び図5に示される音韻分類から「ド」が代表音節と
して選ばれる。
【0038】したがって、図6の下図に示されるよう
に、まず「ソッソ’ソソソ」から「ソッ」が、次いで
「トトト’ートト」から「ト’ー」が、最後に「ドド
ド’ドドー」から「ドー」が選ばれ、最終的には「ソッ
ト’ードー」に相当するものが繋ぎ合わせて作られ、こ
れを韻律設定に使用される。
【0039】(第4の実施の形態)本発明の第4の実施
の形態は、上記した第1の実施の形態とほとんど同じ構
成であるが、図7に示すように韻律ベクトル系列を作成
する方法において、音韻連鎖を含むようにした点で異な
るものである。
【0040】図7は音韻連鎖によって韻律ベクトル系列
を作成する方法を説明するための図であり、図7におい
ては、「鹿児島(カゴシマ)」の韻律ベクトル系列を母
音(Vowel)-子音(Consonant)-母音(Vowel)すなわちVC
V音韻連鎖で作成する例を示している。
【0041】すなわち「鹿児島(カゴシマ)」におい
て、上記したように「カ」は無声破裂音であるから図3
及び図5に示される音韻分類から「ト」が代表音節とし
て選ばれる。ついで「ゴ」は有声破裂音であるから図3
及び図5に示される音韻分類から「ド」が代表音節とし
て選ばれる。
【0042】「シ」は無声摩擦音であるから、図3及び
図5に示される音韻分類から「ソ」が代表音節として選
ばれる。最後に「マ」は有声通鼻音であるから、図3及
び図5に示される音韻分類から「ノ」が代表音節として
選ばれる。
【0043】更に、「ア」という母音が前後に、その間
に「ゴ」と「シ」という子音があるVCV音韻連鎖とし
て捉えることができる。
【0044】以上を纏めると、図7の下図のような韻律
ベクトル系列において、まず「トトトト」から「ト」
が、次いで「ドドドド」から「ド」が、更に「ソソソ
ソ」から「ソ」が、最後に「ノノノノ」から「ノ」が、
結合され、「トドソノ」という発声に相当するものを作
成し、鹿児島の韻律ベクトル系列として利用するもので
ある。
【0045】このように第4の実施の形態では、VCV
音韻連鎖によって韻律ベクトル系列を作成してこれを韻
律ベクトル系列として利用するようにする。
【0046】(第5の実施の形態)図8は、音節をもと
に作成した音韻分類表を持つ本発明の第5の実施の形態
に係る音声合成装置の構成を示す図である。音韻分類表
の具体例は図3に示すものと変わりがないので、ここで
は省略する。
【0047】図8において、まず調音位置、調音方法に
よって分類した無声摩擦や有声破裂毎に代表的な音節を
持ち、この音節を連続的に発声した音声からピッチ周期
とパワー(振幅)から成る韻律ベクトルを成分とするベ
クトル系列を抽出し、事前に韻律ベクトル系列蓄積手段
80に格納しておく。
【0048】次に音声合成しようとする文字列が、言語
処理手段84に入力される。言語処理手段84に入力された
文字列に対して言語処理を施して文字から音声の読み変
換を行なう。この際、単語辞書及び文字から音声の読み
の変換における規則(ルール)82が参照される。
【0049】次に言語処理により文字から音声の読み変
換がなされた文字列に対して、韻律ベクトル系列選択手
段81における韻律ベクトル系列の選択によって韻律設定
手段85において韻律設定が行なわれる。この際、韻律ベ
クトル系列選択手段81によって前記した韻律ベクトル系
列蓄積手段80が参照される。
【0050】韻律ベクトル系列選択手段81における韻律
ベクトル系列の選択は、合成しようとする音声の音節毎
にモーラ数、アクセント型が同じで、かつ音韻分類が同
じものに基づいて韻律ベクトル系列の選択が行なわれ
る。
【0051】一方、言語処理により文字から音声の読み
変換がなされた文字列に対して、素片選択手段86により
素片選択が行なわれる。この際、音節や母音-子音-母音
(V-C-V)などを蓄積している音声波形素片蓄積手段
83が参照される。
【0052】上記において韻律設定および素片選択がな
された文字から音声の読み変換がなされた文字列に対し
て、素片変形手段87はアクセントや抑揚にしたがって素
片の基本周波数(ピッチ周波数または声の高さ)、振幅
(パワー)を変更する素片変形を行なう。
【0053】そして素片接続手段88において素片変形が
施された素片を接続することでスピーカ89から自然性の
高い合成音声を発声させることができる。これにより統
計処理対象のデータを余り必要とせずに従来より自然性
の高い合成音声を作成することができる。
【0054】(第6の実施の形態)図9は、音節をもと
に作成した簡易な音韻分類表を持つ本発明の第6の実施
の形態に係る音声合成装置の構成を示す図である。音韻
分類表の具体例は図5に示すものと変わりがないので、
ここでは省略する。
【0055】図9において、まず調音位置、調音方法に
よって分類をした無声摩擦や有声破裂毎に一部分の音節
を持ち、この音節を連続的に発声した音声からピッチ周
期とパワー(振幅)から成る韻律ベクトルを成分とする
ベクトル系列を抽出し、事前に韻律ベクトル系列蓄積手
段90に格納しておく。
【0056】次に音声合成しようとする文字列が、言語
処理手段94に入力される。次に言語処理手段94に入力さ
れた文字列に対して言語処理を施して文字から音声の読
み変換を行なう。この際、単語辞書及び文字から音声の
読み変換における規則(ルール)92が参照される。
【0057】次に言語処理により文字から音声の読み変
換がなされた文字列に対して、韻律ベクトル系列選択手
段91における韻律ベクトル系列の選択によって韻律設定
手段95において韻律設定が行なわれる。この際、韻律ベ
クトル系列選択手段91によって前記した韻律ベクトル系
列蓄積手段90が参照される。
【0058】韻律ベクトル系列選択手段91における韻律
ベクトル系列の選択は、合成しようとする音声の音節毎
にモーラ数、アクセント型が同じで、かつ音韻分類が同
じものに基づいて韻律ベクトル系列の選択が行なわれ
る。
【0059】一方、言語処理により文字から音声の読み
変換がなされた文字列に対して、素片選択手段96により
素片選択が行なわれる。この際、音節や母音-子音-母音
(V-C-V)などを蓄積している音声波形素片蓄積手段
93が参照される。
【0060】上記において韻律設定および素片選択がな
された文字から音声の読み変換がなされた文字列に対し
て、素片変形手段97はアクセントや抑揚にしたがって素
片の基本周波数(ピッチ周波数または声の高さ)、振幅
(パワー)を変更する素片変形を行なう。
【0061】そして素片接続手段98において素片変形が
施された素片を接続することでスピーカ99から自然性の
高い合成音声を発声させることができる。これにより統
計処理対象のデータを余り必要とせずに従来より自然性
の高い合成音声を作成することができる。
【0062】(第7の実施の形態)図10は、音韻連鎖
を韻律ベクトル系列の取り出しの単位とする本発明の第
7の実施の形態に係る音声合成装置の構成を示す図であ
る。音韻分類表の具体例は図3に示すものと変わりがな
いので、ここでは省略する。
【0063】図10において、まず調音位置、調音方法
によって分類した無声摩擦や有声破裂毎に代表的な音節
を持ち、この音節を連続的に発声した音声からピッチ周
期とパワー(振幅)から成る韻律ベクトルを成分とする
ベクトル系列を抽出し、事前に韻律ベクトル系列蓄積手
段100に格納しておく。
【0064】次に音声合成しようとする文字列が、言語
処理手段104に入力される。次に言語処理手段104に入力
された文字列に対して言語処理を施して文字から音声の
読み変換を行なう。この際、単語辞書及び文字から音声
の読み変換における規則(ルール)102が参照される。
【0065】次に言語処理により文字から音声の読み変
換がなされた文字列に対して、韻律ベクトル系列選択手
段101における韻律ベクトル系列の選択によって韻律設
定手段105で韻律設定が行なわれる。この際、韻律ベク
トル系列選択手段101によって前記した韻律ベクトル系
列蓄積手段100が参照される。
【0066】韻律ベクトル系列選択手段101における韻
律ベクトル系列の選択は、合成しようとする音韻連鎖毎
にモーラ数、アクセント型が同じで、かつ音韻分類が同
じものに基づいて韻律ベクトル系列の選択が行なわれ
る。
【0067】一方、言語処理により文字から音声の読み
変換がなされた文字列に対して、素片選択手段106によ
り素片選択が行なわれる。この際、母音-子音-母音(V
-C-V)を蓄積している音声波形素片蓄積手段103が参
照される。
【0068】上記において韻律設定および素片選択がな
された文字から音声の読み変換がなされた文字列に対し
て、素片変形手段107はアクセントや抑揚にしたがって
素片の基本周波数(ピッチ周波数または声の高さ)、振
幅(パワー)を変更する素片変形を行なう。
【0069】そして、素片接続手段108において素片変
形が施された素片を接続することでスピーカ109から自
然性の高い合成音声を発声させることができる。これに
より統計処理対象のデータを余り必要とせずに従来より
自然性の高い合成音声を作成することができる。
【0070】
【発明の効果】以上のように本発明によれば、統計処理
対象のデータを余り必要とせずに自然性の高い合成音声
を作成できるという効果を奏するものである。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る音声合成処理
全体のフローを示す図、
【図2】本発明の第1の実施の形態に係る韻律設定の具
体的方法を示すフローチャート、
【図3】本発明の第1の実施の形態に係る音節をもとに
作成した音韻分類表の例、
【図4】本発明の第1の実施の形態に係る韻律ベクトル
系列を説明するための図
【図5】本発明の第2の実施の形態に係る子音を中心と
する音節をもとに作成した簡易な音韻分類表の例、
【図6】本発明の第3の実施の形態に係る特殊音韻が入
った場合の韻律ベクトル系列の選定規則を説明するため
の図、
【図7】本発明の第4の実施の形態に係る音韻連鎖によ
って韻律ベクトル系列を作成する方法を説明するための
図、
【図8】図3に示した音韻分類表を持つ本発明の第5の
実施の形態に係る音声合成装置の構成を示す図、
【図9】図5に示した音韻分類表を持つ本発明の第6の
実施の形態に係る音声合成装置の構成を示す図、
【図10】音韻連鎖を韻律ベクトル系列の取り出しの単
位とする本発明の第7の実施の形態に係る音声合成装置
の構成を示す図、
【図11】韻律制御が可能な従来の音声合成装置の構成
を示す図である。
【符号の説明】
1 音声ファイル 2 特徴量抽出部 3 ラベル付与部 4 音韻リスト作成部 5 特徴量ファイル 6 ラベルファイル 7 統計処理部 8 ピッチパターン作成部 10 韻律ベクトル系列データベース 11 韻律選択部 12 単語辞書&文字→読み変換ルール 13 音声波形素片データベース 14 言語処理部 15 韻律設定部 16 素片選択部 17 素片変形部 18 素片接続部 19、89、99、109 スピーカ 80、90、100 韻律ベクトル系列蓄積手段 81、91、101 韻律ベクトル系列選択手段 82、91、102 単語辞書&文字→読み変換ルール 83、93、103 音声波形素片蓄積手段 84、94、104 言語処理手段 85、95、105 韻律設定手段 86、96、106 素片選択手段 87、97、107 素片変形手段 88、98、108 素片接続手段
フロントページの続き (56)参考文献 特開 平9−34492(JP,A) 特開 平11−85192(JP,A) 特開 平11−161297(JP,A) 特開 平11−95783(JP,A) 特開2000−250570(JP,A) 特開 平7−261778(JP,A) 特開 平11−212586(JP,A) 望月亮、西村洋文、蓑輪利光、釜井孝 浩,韻律ベクトルを用いた高音質規則合 成方式,日本音響学会講演論文集,日 本,日本音響学会,1999年 9月,平成 11年秋季,227−228 蓑輪利光、望月亮、西村洋文、釜井孝 浩,韻律のベクトルを利用した音声合成 方式,電子通信学会技術研究報告,日 本,電子通信学会,2000年,SP2000− 4,25−31 (58)調査した分野(Int.Cl.7,DB名) G10L 13/06 G10L 13/08

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】 調音位置、調音方法によって分類した無
    声摩擦や有声破裂毎に代表的な音節を持ち、この音節を
    連続的に発声した音声からピッチ周期とパワー(振幅)
    から成る韻律ベクトルを成分とするベクトル系列を抽出
    し、事前に蓄積しておき、この蓄積されたデータから、
    合成しようとする音声の音節毎にモーラ数、アクセント
    型が同じで、かつ音韻分類が同じものを選択し、前記韻
    律ベクトル系列の当該位置の音節の韻律ベクトル系列に
    合あわせるように音声合成素片の変形を行ない、音声合
    成素片同士を接続するようにした音声合成方法。
  2. 【請求項2】 音韻の分類基準を調音方法によって簡易
    化することを特徴とする請求項1に記載の音声合成方
    法。
  3. 【請求項3】 合成音声が韻律を参照するテンプレート
    の範囲を音節ではなく、母音と子音との音韻連鎖とする
    ことを特徴とする請求項1又は請求項2に記載の音声合
    成方法。
  4. 【請求項4】 韻律ベクトル系列の選択条件として、合
    成しようとする音声の音節毎にモーラ数、アクセント型
    が同じで、かつ音韻分類が同じという条件に加え、前記
    音韻の最近傍特殊音韻が同じ音韻分類であるものとする
    ことを特徴とする請求項1乃至請求項3のいずれかに記
    載の音声合成方法。
  5. 【請求項5】 音声合成のための音声合成素片を蓄積す
    る手段と、合成しようとする音声の読み仮名とアクセン
    ト核位置の情報から、合成すべき音声のモーラ数とアク
    セント型を決定する手段と、合成すべき音声を作成する
    ための音声合成素片を選択する手段と、調音位置、調音
    方法によって分類した無声摩擦や有声破裂毎に選ばれた
    代表音節を連続的に発声した音声から抽出したピッチ周
    期とパワーを成分とする韻律ベクトル系列を蓄積する手
    段と、これらの韻律ベクトル系列から、合成しようとす
    る音声の音節毎にモーラ数、アクセント型が同じで、か
    つ音韻分類が同じものを選択する手段と、このベクトル
    系列中の前記音節位置の韻律ベクトル系列に音声合成素
    片の韻律ベクトル系列を合わせるように変形を行なう手
    段と、変形された音声合成素片同士を接続する手段を備
    えた音声合成装置。
  6. 【請求項6】 調音方法で分類された音節分類の一部分
    の音節を連続して発声した音声の韻律ベクトル系列とし
    て持つようにした請求項4に記載の音声合成装置。
  7. 【請求項7】 韻律を参照するテンプレートの範囲を音
    節ではなく、母音と子音との音韻連鎖として、音声合成
    素片のピッチ周期とパワーをこれに合わせて変形する手
    段を持つようにした請求項4又は請求項5に記載の音声
    合成装置。
  8. 【請求項8】 韻律ベクトル系列の選択手段として、合
    成しようとする音声の音節毎にモーラ数、アクセント型
    が同じで、かつ音韻分類が同じという条件に加え、前記
    音韻の最近傍特殊音韻が同じ音韻分類であるものとする
    条件で選択する手段を持つことを特徴とする請求項5乃
    至請求項7のいずれかに記載の音声合成装置。
JP24391899A 1999-08-30 1999-08-30 音声合成方法および装置 Expired - Fee Related JP3318290B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24391899A JP3318290B2 (ja) 1999-08-30 1999-08-30 音声合成方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24391899A JP3318290B2 (ja) 1999-08-30 1999-08-30 音声合成方法および装置

Publications (2)

Publication Number Publication Date
JP2001067093A JP2001067093A (ja) 2001-03-16
JP3318290B2 true JP3318290B2 (ja) 2002-08-26

Family

ID=17110961

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24391899A Expired - Fee Related JP3318290B2 (ja) 1999-08-30 1999-08-30 音声合成方法および装置

Country Status (1)

Country Link
JP (1) JP3318290B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9721569B2 (en) * 2015-05-27 2017-08-01 Intel Corporation Gaussian mixture model accelerator with direct memory access engines corresponding to individual data streams

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
望月亮、西村洋文、蓑輪利光、釜井孝浩,韻律ベクトルを用いた高音質規則合成方式,日本音響学会講演論文集,日本,日本音響学会,1999年 9月,平成11年秋季,227−228
蓑輪利光、望月亮、西村洋文、釜井孝浩,韻律のベクトルを利用した音声合成方式,電子通信学会技術研究報告,日本,電子通信学会,2000年,SP2000−4,25−31

Also Published As

Publication number Publication date
JP2001067093A (ja) 2001-03-16

Similar Documents

Publication Publication Date Title
JP3361066B2 (ja) 音声合成方法および装置
Isewon et al. Design and implementation of text to speech conversion for visually impaired people
US7953600B2 (en) System and method for hybrid speech synthesis
US6470316B1 (en) Speech synthesis apparatus having prosody generator with user-set speech-rate- or adjusted phoneme-duration-dependent selective vowel devoicing
US7856357B2 (en) Speech synthesis method, speech synthesis system, and speech synthesis program
US9666179B2 (en) Speech synthesis apparatus and method utilizing acquisition of at least two speech unit waveforms acquired from a continuous memory region by one access
WO2005059895A1 (en) Text-to-speech method and system, computer program product therefor
Rashad et al. An overview of text-to-speech synthesis techniques
Mukherjee et al. A bengali hmm based speech synthesis system
JP2761552B2 (ja) 音声合成方法
Mittrapiyanuruk et al. Issues in Thai text-to-speech synthesis: the NECTEC approach
JP2001265375A (ja) 規則音声合成装置
JP2009133890A (ja) 音声合成装置及びその方法
JP3318290B2 (ja) 音声合成方法および装置
JP5175422B2 (ja) 音声合成における時間幅を制御する方法
Furtado et al. Synthesis of unlimited speech in Indian languages using formant-based rules
JP3771565B2 (ja) 基本周波数パタン生成装置、基本周波数パタン生成方法、及びプログラム記録媒体
Datta et al. Epoch Synchronous Overlap Add (ESOLA)
JP2848604B2 (ja) 音声合成装置
Trinh et al. HMM-based Vietnamese speech synthesis
Balyan et al. Development and implementation of Hindi TTS
Breuer et al. Analysis of Polish Segmental duration with CART
Dessai et al. Syllabification: An effective approach for a TTS system for Konkani
Chowdhury Concatenative Text-to-speech synthesis: A study on standard colloquial bengali
JPH06149283A (ja) 音声合成装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees