JPH113096A - 音声合成方法及び音声合成システム - Google Patents
音声合成方法及び音声合成システムInfo
- Publication number
- JPH113096A JPH113096A JP9154678A JP15467897A JPH113096A JP H113096 A JPH113096 A JP H113096A JP 9154678 A JP9154678 A JP 9154678A JP 15467897 A JP15467897 A JP 15467897A JP H113096 A JPH113096 A JP H113096A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- pitch
- vowel
- consonant
- specified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【課題】 任意のピッチの音声を合成する音声合成方法
及び音声合成システムに関し、歌等を容易に合成再生出
力する。 【解決手段】 音素を分割した子音音素と母音音素とを
合成する音声合成方法及び音声合成システムであって、
音素の種類とピッチとを指定し、指定種類の音素の子音
音素を子音音素テーブル1から読出し、指定種類且つ指
定ピッチの音素の母音音素を母音音素テーブル2から読
出して中央処理装置3によって合成処理し、指定された
ピッチの音素を音声再生出力部4から再生出力する。
及び音声合成システムに関し、歌等を容易に合成再生出
力する。 【解決手段】 音素を分割した子音音素と母音音素とを
合成する音声合成方法及び音声合成システムであって、
音素の種類とピッチとを指定し、指定種類の音素の子音
音素を子音音素テーブル1から読出し、指定種類且つ指
定ピッチの音素の母音音素を母音音素テーブル2から読
出して中央処理装置3によって合成処理し、指定された
ピッチの音素を音声再生出力部4から再生出力する。
Description
【0001】
【発明の属する技術分野】本発明は、任意のピッチの音
声を再生出力する音声合成方法及び音声合成システムに
関する。音声合成の手段は既に各種提案され、自動応答
装置やアナウンスマシン等に適用されている。このよう
な音声合成の手段による音声は、通常のテキスト文の合
成出力であり、自然の発声に近づけるように各種の手段
が開発されている。
声を再生出力する音声合成方法及び音声合成システムに
関する。音声合成の手段は既に各種提案され、自動応答
装置やアナウンスマシン等に適用されている。このよう
な音声合成の手段による音声は、通常のテキスト文の合
成出力であり、自然の発声に近づけるように各種の手段
が開発されている。
【0002】
【従来の技術】音声合成方式は、例えば、録音編集方
式、パラメータ編集方式、規則合成方式等が知られてお
り、録音編集方式は、単語,文節,句等の単位音声とし
てアナログ録音又はディジタル録音しておき、入力文章
に従って単位音声を再生して組合せるもので、文節,句
等の長い単位音声の場合に再生音質が良い利点がある。
しかし、単位音声を長文化すると、任意の音声を合成出
力する為の記憶容量が膨大となる欠点がある。
式、パラメータ編集方式、規則合成方式等が知られてお
り、録音編集方式は、単語,文節,句等の単位音声とし
てアナログ録音又はディジタル録音しておき、入力文章
に従って単位音声を再生して組合せるもので、文節,句
等の長い単位音声の場合に再生音質が良い利点がある。
しかし、単位音声を長文化すると、任意の音声を合成出
力する為の記憶容量が膨大となる欠点がある。
【0003】又パラメータ編集方式は、音声のスペクト
ルパラメータと音源パラメータとを編集して合成するも
のであり、録音編集方式に比較して記憶容量を著しく削
減することが可能となる。又規則合成方式は、声道アナ
ログ方式,ホルマント合成方式,線形予測合成方式,ケ
プストラム合成方式等があり、声道アナログ方式は、声
帯と声道とを一体化したモデルに基づいて合成する方式
で、構成が複雑化する問題がある。又ホルマント合成方
式は、ホルマント周波数と帯域幅とによって表現したモ
デルを用いて合成するものであり、又線形予測合成方式
は、PARCOR係数又はLSP係数をパラメータとし
て合成処理するもので、音声分析によりパラメータを得
ることが容易であるが、再生音質に限界がある。又ケプ
ストラム合成方式は、音声の振幅スペクトルの対数の逆
フーリエ変換のケプストラム係数を用いて合成するもの
で、合成処理が複雑化する問題がある。
ルパラメータと音源パラメータとを編集して合成するも
のであり、録音編集方式に比較して記憶容量を著しく削
減することが可能となる。又規則合成方式は、声道アナ
ログ方式,ホルマント合成方式,線形予測合成方式,ケ
プストラム合成方式等があり、声道アナログ方式は、声
帯と声道とを一体化したモデルに基づいて合成する方式
で、構成が複雑化する問題がある。又ホルマント合成方
式は、ホルマント周波数と帯域幅とによって表現したモ
デルを用いて合成するものであり、又線形予測合成方式
は、PARCOR係数又はLSP係数をパラメータとし
て合成処理するもので、音声分析によりパラメータを得
ることが容易であるが、再生音質に限界がある。又ケプ
ストラム合成方式は、音声の振幅スペクトルの対数の逆
フーリエ変換のケプストラム係数を用いて合成するもの
で、合成処理が複雑化する問題がある。
【0004】又音素を子音音素Cと母音音素Vとに分割
し、この子音音素Cと母音音素Vとを結合して音素を合
成出力する音声合成方式も知られている。この従来例の
音声合成方式は、日本語の場合、濁音,半濁音,拗音,
撥音等を含めて約130の音素を、子音音素と母音音素
とに分割して記録することになる。又入力文章の意味解
析に基づいて合成音声の文節単位等毎のアクセント処理
を行う方式も知られている。
し、この子音音素Cと母音音素Vとを結合して音素を合
成出力する音声合成方式も知られている。この従来例の
音声合成方式は、日本語の場合、濁音,半濁音,拗音,
撥音等を含めて約130の音素を、子音音素と母音音素
とに分割して記録することになる。又入力文章の意味解
析に基づいて合成音声の文節単位等毎のアクセント処理
を行う方式も知られている。
【0005】
【発明が解決しようとする課題】従来例の音声合成方式
は、通常の文章を自然な発音で合成再生出力できるよう
に、多くの開発が行われている。しかし、歌唱音声のよ
うに、任意のピッチの音声を合成再生することは全く意
図されていないものである。又歌唱音声を単に合成再生
出力しようとすると、前述の各音声合成方式に於いて
は、ピッチ対応に記録し、或いはピッチ対応に合成処理
することになり、記憶容量が膨大となるか、或いは処理
量が膨大となる問題がある。本発明は、ピッチ変更処理
による子音の変質を惹起することなく、任意の音階を有
する音声を容易に合成再生出力することを目的とする。
は、通常の文章を自然な発音で合成再生出力できるよう
に、多くの開発が行われている。しかし、歌唱音声のよ
うに、任意のピッチの音声を合成再生することは全く意
図されていないものである。又歌唱音声を単に合成再生
出力しようとすると、前述の各音声合成方式に於いて
は、ピッチ対応に記録し、或いはピッチ対応に合成処理
することになり、記憶容量が膨大となるか、或いは処理
量が膨大となる問題がある。本発明は、ピッチ変更処理
による子音の変質を惹起することなく、任意の音階を有
する音声を容易に合成再生出力することを目的とする。
【0006】
【課題を解決するための手段】本発明の音声合成方法
は、(1)音素を分割した子音音素と母音音素とを合成
する音声合成方法に於いて、音素の種類とピッチとを指
定し、この音素の指定種類対応の子音音素と、指定種類
対応且つ指定ピッチ対応の母音音素とを合成する過程を
含むものである。音素のピッチは母音音素が決定し、子
音音素の関与は無視できるものである。又母音音素は個
人特有のものであり、子音音素の影響は殆ど無視できる
ものである。従って、指定種類且つ指定ピッチの音素
は、指定種類の子音音素と、指定種類で指定ピッチの母
音音素とを合成することによって再生出力することがで
きる。
は、(1)音素を分割した子音音素と母音音素とを合成
する音声合成方法に於いて、音素の種類とピッチとを指
定し、この音素の指定種類対応の子音音素と、指定種類
対応且つ指定ピッチ対応の母音音素とを合成する過程を
含むものである。音素のピッチは母音音素が決定し、子
音音素の関与は無視できるものである。又母音音素は個
人特有のものであり、子音音素の影響は殆ど無視できる
ものである。従って、指定種類且つ指定ピッチの音素
は、指定種類の子音音素と、指定種類で指定ピッチの母
音音素とを合成することによって再生出力することがで
きる。
【0007】又(2)複数種類の音素対応の子音音素を
格納した子音音素テーブル1と、複数種類の音素対応且
つ複数ピッチ対応の母音音素を格納した母音音素テーブ
ル2とを用い、音素の種類とピッチとを指定し、子音音
素テーブル1から読出した指定種類対応の子音音素と、
母音音素テーブル2から読出した指定種類対応且つ指定
ピッチ対応の母音音素とを合成する過程を含むことによ
り、指定種類で指定ピッチの音声を合成再生出力するこ
とができる。
格納した子音音素テーブル1と、複数種類の音素対応且
つ複数ピッチ対応の母音音素を格納した母音音素テーブ
ル2とを用い、音素の種類とピッチとを指定し、子音音
素テーブル1から読出した指定種類対応の子音音素と、
母音音素テーブル2から読出した指定種類対応且つ指定
ピッチ対応の母音音素とを合成する過程を含むことによ
り、指定種類で指定ピッチの音声を合成再生出力するこ
とができる。
【0008】又(3)母音音素テーブル2は、各種類対
応の母音音素を、複数ピッチを複数群に分割し、群内の
一つを代表母音音素として格納した構成を有し、この母
音音素テーブルから指定ピッチに近いピッチの代表母音
音素を読出し、指定ピッチとなるようにピッチシフト処
理を施して、子音音素と合成する過程を含むことができ
る。
応の母音音素を、複数ピッチを複数群に分割し、群内の
一つを代表母音音素として格納した構成を有し、この母
音音素テーブルから指定ピッチに近いピッチの代表母音
音素を読出し、指定ピッチとなるようにピッチシフト処
理を施して、子音音素と合成する過程を含むことができ
る。
【0009】又(4)音素の指定種類を文字情報として
入力して表示し、この音素のピッチを表示文字の位置に
より指定し、表示文字及び表示位置を音素の指定種類及
び指定ピッチとし、この指定種類及び指定ピッチに従っ
た子音音素と母音音素とを合成する過程を含むことがで
きる。即ち、入力文字を表示装置に表示し、その表示文
字の位置を移動して、その位置情報とピッチとをリンク
させることによって、所望のピッチの音声を合成再生す
ることができる。
入力して表示し、この音素のピッチを表示文字の位置に
より指定し、表示文字及び表示位置を音素の指定種類及
び指定ピッチとし、この指定種類及び指定ピッチに従っ
た子音音素と母音音素とを合成する過程を含むことがで
きる。即ち、入力文字を表示装置に表示し、その表示文
字の位置を移動して、その位置情報とピッチとをリンク
させることによって、所望のピッチの音声を合成再生す
ることができる。
【0010】又本発明の音声合成システムは、(5)音
素の種類及びピッチを指定するキーボード等の入力部や
伝送情報を受信して入力する入力部と、複数種類の音素
対応の子音音素を格納した子音音素テーブル1と、複数
種類且つ複数ピッチの音素対応の母音音素を格納した母
音音素テーブル2と、入力部による音素の種類及びピッ
チの指定入力に従って、子音音素テーブル1から子音音
素を読出し、且つ母音音素テーブル2から母音音素を読
出して合成処理する中央処理装置(CPU)3と、中央
処理装置3によって合成された音素を音声として再生出
力する音声再生出力部4とを備えている。
素の種類及びピッチを指定するキーボード等の入力部や
伝送情報を受信して入力する入力部と、複数種類の音素
対応の子音音素を格納した子音音素テーブル1と、複数
種類且つ複数ピッチの音素対応の母音音素を格納した母
音音素テーブル2と、入力部による音素の種類及びピッ
チの指定入力に従って、子音音素テーブル1から子音音
素を読出し、且つ母音音素テーブル2から母音音素を読
出して合成処理する中央処理装置(CPU)3と、中央
処理装置3によって合成された音素を音声として再生出
力する音声再生出力部4とを備えている。
【0011】
【発明の実施の形態】図1は本発明の実施の形態のシス
テム説明図であり、1は子音音素テーブル、2は母音音
素テーブル、3は中央処理装置(CPU)、4はスピー
カ等を含む音声再生出力部、5はDA変換器等を含む音
声処理部、6はキーボードやマウス等の入力部、7は通
信回線と接続された通信制御部、8〜10はインタフェ
ース部(IF)、11は液晶パネルや陰極線管等による
表示部、12はバスである。
テム説明図であり、1は子音音素テーブル、2は母音音
素テーブル、3は中央処理装置(CPU)、4はスピー
カ等を含む音声再生出力部、5はDA変換器等を含む音
声処理部、6はキーボードやマウス等の入力部、7は通
信回線と接続された通信制御部、8〜10はインタフェ
ース部(IF)、11は液晶パネルや陰極線管等による
表示部、12はバスである。
【0012】音素は、日本語の場合、いろは48文字と
「きゃ」,「きゅ」,「きょ」等の拗音と、語尾に現れ
る「ン」となる撥音と、「ッ」で表される促音等を含め
て、130程度の種類となる。本発明に於いては、音素
の種類対応に子音音素を格納して子音音素テーブル1を
構成し、又音素の種類対応に母音音素/a/,/i/,
/u/,/o/及び半母音音素/wa/,/wi/,/
we/,/wo/,/ya/,/yu/,/yo/等を
格納して母音音素テーブル2を構成する。
「きゃ」,「きゅ」,「きょ」等の拗音と、語尾に現れ
る「ン」となる撥音と、「ッ」で表される促音等を含め
て、130程度の種類となる。本発明に於いては、音素
の種類対応に子音音素を格納して子音音素テーブル1を
構成し、又音素の種類対応に母音音素/a/,/i/,
/u/,/o/及び半母音音素/wa/,/wi/,/
we/,/wo/,/ya/,/yu/,/yo/等を
格納して母音音素テーブル2を構成する。
【0013】この場合、子音音素テーブル1は、/k
/,/g/,/s/,/z/,/sh/等の18種類の
子音音素を格納し、母音音素テーブル2は、半母音を含
む12種類の合計約30種類程度の素材音素を相互に組
合せることによって、130種類程度の音素を合成する
ことができる。従って、音声合成の為の子音音素テーブ
ル1と母音音素テーブル2とは、小型のテーブルで済む
ことになる。又合成再生する音声を例えば2オクターブ
とすると、母音音素テーブル2には、その範囲内の音素
の種類対応且つ1オクターブの分割数に従ったピッチ種
類の母音音素を格納しておくことができる。又分割数が
多い場合は、複数の群に分けて、各群内の一つのピッチ
を代表ピッチとして母音音素を格納することもできる。
/,/g/,/s/,/z/,/sh/等の18種類の
子音音素を格納し、母音音素テーブル2は、半母音を含
む12種類の合計約30種類程度の素材音素を相互に組
合せることによって、130種類程度の音素を合成する
ことができる。従って、音声合成の為の子音音素テーブ
ル1と母音音素テーブル2とは、小型のテーブルで済む
ことになる。又合成再生する音声を例えば2オクターブ
とすると、母音音素テーブル2には、その範囲内の音素
の種類対応且つ1オクターブの分割数に従ったピッチ種
類の母音音素を格納しておくことができる。又分割数が
多い場合は、複数の群に分けて、各群内の一つのピッチ
を代表ピッチとして母音音素を格納することもできる。
【0014】例えば、入力部6から「か」,「わ」,
「の」を入力すると、中央処理装置3は、表示部11に
「か」,「わ」,「の」を表示する。このような処理は
ワープロやパソコン等に於いて知られている文字入力手
段及び文字表示手段を適用することができる。又表示さ
れた「か」,「わ」,「の」について、それぞれの位置
を図示のようにした場合に於いて、「か」の位置を、例
えば、音階「C」とすると、指定種類の音素「か」の指
定ピッチCに従って、中央処理装置3は、子音音素テー
ブル1からピッチと関係なく、音素「か」(〔ka〕)
を構成する子音音素/k/を読出し、母音音素テーブル
2から音素「か」(〔ka〕)の母音音素/a/を読出
し、この母音音素/a/を指定ピッチCとなるようにピ
ッチシフト処理を行って、子音音素/k/と合成する。
或いは母音音素/a/を、音階C,D,E,F,G,
A,B,C等に従ったピッチ対応に格納した場合は、指
定ピッチCの母音音素/a/を、母音音素テーブル2か
ら読出して合成する。
「の」を入力すると、中央処理装置3は、表示部11に
「か」,「わ」,「の」を表示する。このような処理は
ワープロやパソコン等に於いて知られている文字入力手
段及び文字表示手段を適用することができる。又表示さ
れた「か」,「わ」,「の」について、それぞれの位置
を図示のようにした場合に於いて、「か」の位置を、例
えば、音階「C」とすると、指定種類の音素「か」の指
定ピッチCに従って、中央処理装置3は、子音音素テー
ブル1からピッチと関係なく、音素「か」(〔ka〕)
を構成する子音音素/k/を読出し、母音音素テーブル
2から音素「か」(〔ka〕)の母音音素/a/を読出
し、この母音音素/a/を指定ピッチCとなるようにピ
ッチシフト処理を行って、子音音素/k/と合成する。
或いは母音音素/a/を、音階C,D,E,F,G,
A,B,C等に従ったピッチ対応に格納した場合は、指
定ピッチCの母音音素/a/を、母音音素テーブル2か
ら読出して合成する。
【0015】中央処理装置3は、合成された音素〔k
a〕のデータをインタフェース部9を介して音声処理部
5に転送する。音声処理部5は音素〔ka〕のデータを
アナログ信号に変換し、音声再生出力部4に転送する。
音声再生出力部4は、音声増幅器やスピーカを含み、音
素〔ka〕を「か」として再生出力する。又次の
「わ」,「の」についても同様に合成再生出力すること
ができる。この場合、「か」の位置より「わ」,「の」
の位置が高いから、「か」より高いピッチとして
「わ」,「の」を合成再生出力することになる。即ち、
任意の種類で且つ任意のピッチの音声を合成再生出力す
ることができるから、例えば、歌唱合成再生も容易とな
る。
a〕のデータをインタフェース部9を介して音声処理部
5に転送する。音声処理部5は音素〔ka〕のデータを
アナログ信号に変換し、音声再生出力部4に転送する。
音声再生出力部4は、音声増幅器やスピーカを含み、音
素〔ka〕を「か」として再生出力する。又次の
「わ」,「の」についても同様に合成再生出力すること
ができる。この場合、「か」の位置より「わ」,「の」
の位置が高いから、「か」より高いピッチとして
「わ」,「の」を合成再生出力することになる。即ち、
任意の種類で且つ任意のピッチの音声を合成再生出力す
ることができるから、例えば、歌唱合成再生も容易とな
る。
【0016】又通信回線を介して入力された文章や歌唱
内容については、通信制御部7を入力部として受信処理
し、前述の入力部6からの入力と同様な処理によって音
声合成を行うことができる。この場合、伝送情報は、例
えば、音素データとピッチデータとするか、又は子音音
素データと母音音素データとピッチデータとすることが
できる。又通信回線を介して他の子音音素テーブルと母
音音素テーブルとを備えた音声合成システムに伝送する
場合は、中央処理装置3又は通信制御部7に於ける処理
によって、音素データとピッチデータ或いは子音音素デ
ータと母音音素データとピッチデータとした伝送情報を
通信回線に送出することができる。
内容については、通信制御部7を入力部として受信処理
し、前述の入力部6からの入力と同様な処理によって音
声合成を行うことができる。この場合、伝送情報は、例
えば、音素データとピッチデータとするか、又は子音音
素データと母音音素データとピッチデータとすることが
できる。又通信回線を介して他の子音音素テーブルと母
音音素テーブルとを備えた音声合成システムに伝送する
場合は、中央処理装置3又は通信制御部7に於ける処理
によって、音素データとピッチデータ或いは子音音素デ
ータと母音音素データとピッチデータとした伝送情報を
通信回線に送出することができる。
【0017】図2は子音音素と母音音素との合成の説明
図であり、波形編集ツール等によるディジタル処理によ
って、音素〔ka〕を子音音素/k/と母音音素/a/
とに分割し、それを合成した場合を示し、波形をアナロ
グ波形として図示しているが、実際の合成処理はディジ
タル処理により行うものである。
図であり、波形編集ツール等によるディジタル処理によ
って、音素〔ka〕を子音音素/k/と母音音素/a/
とに分割し、それを合成した場合を示し、波形をアナロ
グ波形として図示しているが、実際の合成処理はディジ
タル処理により行うものである。
【0018】音素〔ka〕を分割した子音音素/k/と
母音音素/a/とをそれぞれ子音音素テーブル1と母音
音素テーブル2とに格納しておき、音素として「か」が
入力された時、指定種類対応の音素〔ka〕の子音音素
/k/を子音音素テーブル1から読出し、又母音音素/
a/を母音音素テーブル2とから読出して、音素〔k
a〕を合成再生出力するものである。この場合、或るピ
ッチの母音音素を代表母音音素して格納した場合は、読
出した母音音素/a/を指定ピッチとなるように、ピッ
チシフト処理を施した後、子音音素/k/と合成するも
のである。
母音音素/a/とをそれぞれ子音音素テーブル1と母音
音素テーブル2とに格納しておき、音素として「か」が
入力された時、指定種類対応の音素〔ka〕の子音音素
/k/を子音音素テーブル1から読出し、又母音音素/
a/を母音音素テーブル2とから読出して、音素〔k
a〕を合成再生出力するものである。この場合、或るピ
ッチの母音音素を代表母音音素して格納した場合は、読
出した母音音素/a/を指定ピッチとなるように、ピッ
チシフト処理を施した後、子音音素/k/と合成するも
のである。
【0019】又母音音素が個人特有な要素を含むことか
ら、発声音声をディジタル録音し、例えば、波形編集ツ
ールを用いて子音音素と母音音素とに分割し、母音音素
のみを個人対応の母音音素テーブル2に格納し、子音音
素は共通の子音音素テーブル1とすることができる。又
複数の音階についての発声音声についてディジタル録音
して、子音音素と母音音素とに分割し、母音音素のみを
ピッチ対応に母音音素テーブル2に格納し、子音音素は
各ピッチに対して共通の子音音素テーブル1に格納す
る。即ち、母音音素テーブル2は、個人特有又はピッチ
特有としての母音音素を格納して、複数種類の母音音素
テーブル2とすることができる。その場合、子音音素テ
ーブル1は、複数種類の母音音素テーブル2に対して共
通化することができる。
ら、発声音声をディジタル録音し、例えば、波形編集ツ
ールを用いて子音音素と母音音素とに分割し、母音音素
のみを個人対応の母音音素テーブル2に格納し、子音音
素は共通の子音音素テーブル1とすることができる。又
複数の音階についての発声音声についてディジタル録音
して、子音音素と母音音素とに分割し、母音音素のみを
ピッチ対応に母音音素テーブル2に格納し、子音音素は
各ピッチに対して共通の子音音素テーブル1に格納す
る。即ち、母音音素テーブル2は、個人特有又はピッチ
特有としての母音音素を格納して、複数種類の母音音素
テーブル2とすることができる。その場合、子音音素テ
ーブル1は、複数種類の母音音素テーブル2に対して共
通化することができる。
【0020】又ピッチシフト処理は、所望のピッチに対
するピッチ差が小さい場合、合成再生出力の音声の品質
の劣化が少ないが、ピッチ差が大きい場合、合成再生出
力の音声の品質に劣化が生じる可能性が高くなる。そこ
で、各ピッチの発声音声についてディジタル録音し、子
音音素と母音音素とに分割し、母音音素のみをピッチ対
応に母音音素テーブル2に格納する。この場合、複数ピ
ッチを複数の群に分割し、各群内の一つを代表母音音素
として格納し、指定ピッチに近い代表母音音素を母音音
素テーブル2から読出し、その代表母音音素を指定ピッ
チにシフト処理して合成することができる。
するピッチ差が小さい場合、合成再生出力の音声の品質
の劣化が少ないが、ピッチ差が大きい場合、合成再生出
力の音声の品質に劣化が生じる可能性が高くなる。そこ
で、各ピッチの発声音声についてディジタル録音し、子
音音素と母音音素とに分割し、母音音素のみをピッチ対
応に母音音素テーブル2に格納する。この場合、複数ピ
ッチを複数の群に分割し、各群内の一つを代表母音音素
として格納し、指定ピッチに近い代表母音音素を母音音
素テーブル2から読出し、その代表母音音素を指定ピッ
チにシフト処理して合成することができる。
【0021】図3は本発明の実施の形態の音声合成の説
明図であり、例えば、音階「C」の「か」が入力された
場合、指定種類の音素〔ka〕の子音音素データを基に
子音音素テーブル1から子音音素/k/を読出し、指定
種類の音素〔ka〕で指定ピッチCに対応した母音音素
/a/Cを母音音素テーブル2から読出して合成し、音
階「C」の音素〔ka〕Cを出力することがきる。
明図であり、例えば、音階「C」の「か」が入力された
場合、指定種類の音素〔ka〕の子音音素データを基に
子音音素テーブル1から子音音素/k/を読出し、指定
種類の音素〔ka〕で指定ピッチCに対応した母音音素
/a/Cを母音音素テーブル2から読出して合成し、音
階「C」の音素〔ka〕Cを出力することがきる。
【0022】この場合、発声を長くするデータが付加さ
れていると、母音音素テーブル2から繰り返し母音音素
/a/を読出して合成するか、或いは中央処理装置3に
於いて、指定された長さに母音音素/a/を子音音素/
k/に付加して、音階「C」の音素「かー」を〔ka
a〕Cとして示すように合成再生出力することができ
る。又音階「B」が指定された場合は、母音音素テーブ
ル2から母音音素/a/Bを読出して、子音音素/k/
と合成することにより、音階「B」の音素〔ka〕Bを
出力することができる。
れていると、母音音素テーブル2から繰り返し母音音素
/a/を読出して合成するか、或いは中央処理装置3に
於いて、指定された長さに母音音素/a/を子音音素/
k/に付加して、音階「C」の音素「かー」を〔ka
a〕Cとして示すように合成再生出力することができ
る。又音階「B」が指定された場合は、母音音素テーブ
ル2から母音音素/a/Bを読出して、子音音素/k/
と合成することにより、音階「B」の音素〔ka〕Bを
出力することができる。
【0023】図4は表示画面の説明図であり、(A),
(B)は、図1に於ける入力部6からの入力により、音
量の情報等を含めて表示部11に表示した場合の一例を
示す。「わたしだってうた」が入力されて表示され、
「わ」は、母音音素テーブル2から半母音音素/wa/
として読出されて再生処理され、又「た」は、子音音素
テーブル1から子音音素/t/と、母音音素テーブル2
から母音音素/a/とが読出されて合成再生処理され
る。この時、「わ」より「た」の位置が高いことによ
り、その位置情報によって、「わ」より「た」のピッチ
を、母音音素/a/のピッチシフト処理により高くする
か、又は「わ」に対応した半母音音素/wa/のピッチ
より高く、「た」の表示の位置情報に対応したピッチの
母音音素/a/を読出して合成する。
(B)は、図1に於ける入力部6からの入力により、音
量の情報等を含めて表示部11に表示した場合の一例を
示す。「わたしだってうた」が入力されて表示され、
「わ」は、母音音素テーブル2から半母音音素/wa/
として読出されて再生処理され、又「た」は、子音音素
テーブル1から子音音素/t/と、母音音素テーブル2
から母音音素/a/とが読出されて合成再生処理され
る。この時、「わ」より「た」の位置が高いことによ
り、その位置情報によって、「わ」より「た」のピッチ
を、母音音素/a/のピッチシフト処理により高くする
か、又は「わ」に対応した半母音音素/wa/のピッチ
より高く、「た」の表示の位置情報に対応したピッチの
母音音素/a/を読出して合成する。
【0024】又「し」については、「た」より更に高い
位置に表示されているから、子音音素/s/と、「た」
より高いピッチの母音音素/i/とを合成することにな
る。それによって、「わたし」は、順次ピッチが高くな
る音声として合成再生出力される。又(A)に於いて
は、「わ」の表示文字より「た」,「し」の表示文字が
大きいことにより、音量が大きいことを示し、「だ」は
更に大きい音量であることを示す。又(B)に於いて
は、縦線を音量、横線を長さとして表示する場合を示
し、(A)と同様に、「わ」より「た」,「し」の音量
が大きく、「だ」は更に音量が大きいことを示してい
る。
位置に表示されているから、子音音素/s/と、「た」
より高いピッチの母音音素/i/とを合成することにな
る。それによって、「わたし」は、順次ピッチが高くな
る音声として合成再生出力される。又(A)に於いて
は、「わ」の表示文字より「た」,「し」の表示文字が
大きいことにより、音量が大きいことを示し、「だ」は
更に大きい音量であることを示す。又(B)に於いて
は、縦線を音量、横線を長さとして表示する場合を示
し、(A)と同様に、「わ」より「た」,「し」の音量
が大きく、「だ」は更に音量が大きいことを示してい
る。
【0025】又表示文字の間隔を休止期間として指定す
ることができる。又長音として例えば「てーー」又は
(B)のように横線の長さを長くして表示した場合、子
音音素/t/と、その表示位置に対応したピッチの母音
音素/e/とを合成し、引き続き、母音音素/e/を繰
り返し母音音素テーブル2から読出して再生出力するこ
とができる。或いは、母音音素については予めループ再
生としてプログラムし、表示文字間隔等に対応した長さ
でその母音音素の再生を中止する処理を行うことによ
り、所望の長さで音声合成再生することもできる。
ることができる。又長音として例えば「てーー」又は
(B)のように横線の長さを長くして表示した場合、子
音音素/t/と、その表示位置に対応したピッチの母音
音素/e/とを合成し、引き続き、母音音素/e/を繰
り返し母音音素テーブル2から読出して再生出力するこ
とができる。或いは、母音音素については予めループ再
生としてプログラムし、表示文字間隔等に対応した長さ
でその母音音素の再生を中止する処理を行うことによ
り、所望の長さで音声合成再生することもできる。
【0026】又合成再生出力の速さを指定することも可
能であり、その指定速度に対応した速度で、子音音素テ
ーブル1から子音音素を読出し、且つ母音音素テーブル
2から母音音素を読出して合成することになる。合成再
生出力の音声の強弱については、強弱の制御情報を付加
するか、或いは図4の(A)又は(B)に示すように、
表示文字の大小又は縦線等によって指定することができ
る。その場合の強弱の制御情報又は表示文字の大小又は
縦線の長さに従って、音声再生出力部4からの再生出力
音声の増幅度を制御することによって、容易に合成再生
出力音声の音量を制御することができる。又歌唱内容の
みでなく、他の文章内容を合成再生出力する場合のイン
トネーションを容易に付加することができるから、自然
な会話形式の合成再生出力も可能となる。
能であり、その指定速度に対応した速度で、子音音素テ
ーブル1から子音音素を読出し、且つ母音音素テーブル
2から母音音素を読出して合成することになる。合成再
生出力の音声の強弱については、強弱の制御情報を付加
するか、或いは図4の(A)又は(B)に示すように、
表示文字の大小又は縦線等によって指定することができ
る。その場合の強弱の制御情報又は表示文字の大小又は
縦線の長さに従って、音声再生出力部4からの再生出力
音声の増幅度を制御することによって、容易に合成再生
出力音声の音量を制御することができる。又歌唱内容の
みでなく、他の文章内容を合成再生出力する場合のイン
トネーションを容易に付加することができるから、自然
な会話形式の合成再生出力も可能となる。
【0027】
【発明の効果】以上説明したように、本発明は、音素を
子音音素と母音音素とに分割し、指定種類の音素対応の
子音音素と、指定種類の音素の指定ピッチの母音音素と
を合成し、ピッチ変更処理による子音の変質を惹起する
ことなく、任意の音階の音声を合成再生出力することが
できる利点がある。又子音音素テーブル1と母音音素テ
ーブル2とは、多種類の音素を合成再生出力する場合で
も比較的記憶容量を少なくすることができ、且つ音声合
成処理の簡単化を図ることができる利点がある。又母音
音素によりピッチや個人別を決定できることから、特定
個人の歌唱の再生に適用することも可能となる。又ピッ
チシフト処理を行う場合も母音音素に対してのみ行うか
ら、合成処理が容易となる利点がある。
子音音素と母音音素とに分割し、指定種類の音素対応の
子音音素と、指定種類の音素の指定ピッチの母音音素と
を合成し、ピッチ変更処理による子音の変質を惹起する
ことなく、任意の音階の音声を合成再生出力することが
できる利点がある。又子音音素テーブル1と母音音素テ
ーブル2とは、多種類の音素を合成再生出力する場合で
も比較的記憶容量を少なくすることができ、且つ音声合
成処理の簡単化を図ることができる利点がある。又母音
音素によりピッチや個人別を決定できることから、特定
個人の歌唱の再生に適用することも可能となる。又ピッ
チシフト処理を行う場合も母音音素に対してのみ行うか
ら、合成処理が容易となる利点がある。
【図1】本発明の実施の形態のシステム説明図である。
【図2】子音音素と母音音素との合成説明図である。
【図3】本発明の実施の形態の音声合成の説明図であ
る。
る。
【図4】表示画面の説明図である。
1 子音音素テーブル 2 母音音素テーブル 3 中央処理装置(CPU) 4 音声再生出力部 5 音声処理部 6 入力部 7 通信制御部 8〜10 インタフェース部(IF) 11 表示部
Claims (5)
- 【請求項1】 音素を分割した子音音素と母音音素とを
合成する音声合成方法に於いて、 音素の種類とピッチとを指定し、該音素の指定種類対応
の子音音素と、該指定種類対応且つ指定ピッチ対応の母
音音素とを合成する過程を含むことを特徴とする音声合
成方法。 - 【請求項2】 複数種類の音素対応の子音音素を格納し
た子音音素テーブルと、複数種類の音素対応且つ複数ピ
ッチ対応の母音音素を格納した母音音素テーブルとを用
い、音素の種類とピッチとを指定し、前記子音音素テー
ブルから読出した指定種類対応の子音音素と、前記母音
音素テーブルから読出した指定種類対応且つ指定ピッチ
対応の母音音素とを合成する過程を含むことを特徴とす
る音声合成方法。 - 【請求項3】 前記母音音素テーブルは、各種類対応の
母音音素を、複数ピッチを複数群に分割し、該群内の一
つを代表母音音素として格納した構成を有し、該母音音
素テーブルから指定ピッチに近いピッチの代表母音音素
を読出し、指定ピッチとなるようにピッチシフト処理を
施して、前記子音音素と合成する過程を含むことを特徴
とする請求項2記載の音声合成方法。 - 【請求項4】 音素の指定種類を文字情報として入力し
て表示し、該音素のピッチを表示文字の位置により指定
し、表示文字及び表示位置を音素の指定種類及び指定ピ
ッチとし、該指定種類及び指定ピッチに従った子音音素
と母音音素とを合成する過程を含むことを特徴とする請
求項2又は3記載の音声合成方法。 - 【請求項5】 音素の種類及びピッチを指定する入力部
と、 複数種類の音素対応の子音音素を格納した子音音素テー
ブルと、 前記複数種類且つ複数ピッチの音素対応の母音音素を格
納した母音音素テーブルと、 前記入力部による音素の種類及びピッチの指定入力に従
って前記子音音素テーブルから子音音素を読出し、且つ
前記母音音素テーブルから母音音素を読出して合成処理
する中央処理装置と、 該中央処理装置によって合成された音素を音声として再
生出力する音声再生出力部とを備えたことを特徴とする
音声合成システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9154678A JPH113096A (ja) | 1997-06-12 | 1997-06-12 | 音声合成方法及び音声合成システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9154678A JPH113096A (ja) | 1997-06-12 | 1997-06-12 | 音声合成方法及び音声合成システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH113096A true JPH113096A (ja) | 1999-01-06 |
Family
ID=15589530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9154678A Pending JPH113096A (ja) | 1997-06-12 | 1997-06-12 | 音声合成方法及び音声合成システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH113096A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1239457A2 (en) * | 2001-03-09 | 2002-09-11 | Yamaha Corporation | Voice synthesizing apparatus |
KR100363027B1 (ko) * | 2000-07-12 | 2002-12-05 | (주) 보이스웨어 | 음성 합성 또는 음색 변환을 이용한 노래 합성 방법 |
JP2011128186A (ja) * | 2009-12-15 | 2011-06-30 | Yamaha Corp | 音声合成装置 |
-
1997
- 1997-06-12 JP JP9154678A patent/JPH113096A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100363027B1 (ko) * | 2000-07-12 | 2002-12-05 | (주) 보이스웨어 | 음성 합성 또는 음색 변환을 이용한 노래 합성 방법 |
EP1239457A2 (en) * | 2001-03-09 | 2002-09-11 | Yamaha Corporation | Voice synthesizing apparatus |
EP1239457A3 (en) * | 2001-03-09 | 2003-11-12 | Yamaha Corporation | Voice synthesizing apparatus |
US7065489B2 (en) | 2001-03-09 | 2006-06-20 | Yamaha Corporation | Voice synthesizing apparatus using database having different pitches for each phoneme represented by same phoneme symbol |
JP2011128186A (ja) * | 2009-12-15 | 2011-06-30 | Yamaha Corp | 音声合成装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5704007A (en) | Utilization of multiple voice sources in a speech synthesizer | |
US5930755A (en) | Utilization of a recorded sound sample as a voice source in a speech synthesizer | |
EP0831460B1 (en) | Speech synthesis method utilizing auxiliary information | |
US7890330B2 (en) | Voice recording tool for creating database used in text to speech synthesis system | |
HU176776B (en) | Method and apparatus for synthetizing speech | |
US8775185B2 (en) | Speech samples library for text-to-speech and methods and apparatus for generating and using same | |
JP2006501509A (ja) | 個人適応音声セグメントを備える音声合成装置 | |
CN111477210A (zh) | 语音合成方法和装置 | |
JP3518898B2 (ja) | 音声合成装置 | |
US20070219799A1 (en) | Text to speech synthesis system using syllables as concatenative units | |
JPH113096A (ja) | 音声合成方法及び音声合成システム | |
JPH03273280A (ja) | 発声練習用音声合成方式 | |
JPH07200554A (ja) | 文章読み上げ装置 | |
JPH11249679A (ja) | 音声合成装置 | |
JP3081300B2 (ja) | 残差駆動型音声合成装置 | |
US20070203705A1 (en) | Database storing syllables and sound units for use in text to speech synthesis system | |
KR940011871B1 (ko) | Midi와 pcm음원장치를 이용한 음성발생장치 | |
JPH09179576A (ja) | 音声合成方法 | |
JP3034554B2 (ja) | 日本語文章読上げ装置及び方法 | |
Campbell | A step in the direction of synthesising natural-sounding speech | |
JPH06131148A (ja) | 音声合成装置 | |
Butler et al. | Articulatory constraints on vocal tract area functions and their acoustic implications | |
JPH0997093A (ja) | 合成音のアクセント変更方法および旅客案内用自動放送装置 | |
May et al. | Speech synthesis using allophones | |
JPH01119822A (ja) | 文章読み上げ装置 |