JPH113096A

JPH113096A - 音声合成方法及び音声合成システム

Info

Publication number: JPH113096A
Application number: JP9154678A
Authority: JP
Inventors: Tsuchihiro Kouno; 土洋河野
Original assignee: BAAZU JOHO KAGAKU KENKYUSHO KK
Current assignee: BAAZU JOHO KAGAKU KENKYUSHO KK
Priority date: 1997-06-12
Filing date: 1997-06-12
Publication date: 1999-01-06

Abstract

(57)【要約】【課題】任意のピッチの音声を合成する音声合成方法
及び音声合成システムに関し、歌等を容易に合成再生出
力する。【解決手段】音素を分割した子音音素と母音音素とを
合成する音声合成方法及び音声合成システムであって、
音素の種類とピッチとを指定し、指定種類の音素の子音
音素を子音音素テーブル１から読出し、指定種類且つ指
定ピッチの音素の母音音素を母音音素テーブル２から読
出して中央処理装置３によって合成処理し、指定された
ピッチの音素を音声再生出力部４から再生出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、任意のピッチの音
声を再生出力する音声合成方法及び音声合成システムに
関する。音声合成の手段は既に各種提案され、自動応答
装置やアナウンスマシン等に適用されている。このよう
な音声合成の手段による音声は、通常のテキスト文の合
成出力であり、自然の発声に近づけるように各種の手段
が開発されている。

【０００２】

【従来の技術】音声合成方式は、例えば、録音編集方
式、パラメータ編集方式、規則合成方式等が知られてお
り、録音編集方式は、単語，文節，句等の単位音声とし
てアナログ録音又はディジタル録音しておき、入力文章
に従って単位音声を再生して組合せるもので、文節，句
等の長い単位音声の場合に再生音質が良い利点がある。
しかし、単位音声を長文化すると、任意の音声を合成出
力する為の記憶容量が膨大となる欠点がある。

【０００３】又パラメータ編集方式は、音声のスペクト
ルパラメータと音源パラメータとを編集して合成するも
のであり、録音編集方式に比較して記憶容量を著しく削
減することが可能となる。又規則合成方式は、声道アナ
ログ方式，ホルマント合成方式，線形予測合成方式，ケ
プストラム合成方式等があり、声道アナログ方式は、声
帯と声道とを一体化したモデルに基づいて合成する方式
で、構成が複雑化する問題がある。又ホルマント合成方
式は、ホルマント周波数と帯域幅とによって表現したモ
デルを用いて合成するものであり、又線形予測合成方式
は、ＰＡＲＣＯＲ係数又はＬＳＰ係数をパラメータとし
て合成処理するもので、音声分析によりパラメータを得
ることが容易であるが、再生音質に限界がある。又ケプ
ストラム合成方式は、音声の振幅スペクトルの対数の逆
フーリエ変換のケプストラム係数を用いて合成するもの
で、合成処理が複雑化する問題がある。

【０００４】又音素を子音音素Ｃと母音音素Ｖとに分割
し、この子音音素Ｃと母音音素Ｖとを結合して音素を合
成出力する音声合成方式も知られている。この従来例の
音声合成方式は、日本語の場合、濁音，半濁音，拗音，
撥音等を含めて約１３０の音素を、子音音素と母音音素
とに分割して記録することになる。又入力文章の意味解
析に基づいて合成音声の文節単位等毎のアクセント処理
を行う方式も知られている。

【０００５】

【発明が解決しようとする課題】従来例の音声合成方式
は、通常の文章を自然な発音で合成再生出力できるよう
に、多くの開発が行われている。しかし、歌唱音声のよ
うに、任意のピッチの音声を合成再生することは全く意
図されていないものである。又歌唱音声を単に合成再生
出力しようとすると、前述の各音声合成方式に於いて
は、ピッチ対応に記録し、或いはピッチ対応に合成処理
することになり、記憶容量が膨大となるか、或いは処理
量が膨大となる問題がある。本発明は、ピッチ変更処理
による子音の変質を惹起することなく、任意の音階を有
する音声を容易に合成再生出力することを目的とする。

【０００６】

【課題を解決するための手段】本発明の音声合成方法
は、（１）音素を分割した子音音素と母音音素とを合成
する音声合成方法に於いて、音素の種類とピッチとを指
定し、この音素の指定種類対応の子音音素と、指定種類
対応且つ指定ピッチ対応の母音音素とを合成する過程を
含むものである。音素のピッチは母音音素が決定し、子
音音素の関与は無視できるものである。又母音音素は個
人特有のものであり、子音音素の影響は殆ど無視できる
ものである。従って、指定種類且つ指定ピッチの音素
は、指定種類の子音音素と、指定種類で指定ピッチの母
音音素とを合成することによって再生出力することがで
きる。

【０００７】又（２）複数種類の音素対応の子音音素を
格納した子音音素テーブル１と、複数種類の音素対応且
つ複数ピッチ対応の母音音素を格納した母音音素テーブ
ル２とを用い、音素の種類とピッチとを指定し、子音音
素テーブル１から読出した指定種類対応の子音音素と、
母音音素テーブル２から読出した指定種類対応且つ指定
ピッチ対応の母音音素とを合成する過程を含むことによ
り、指定種類で指定ピッチの音声を合成再生出力するこ
とができる。

【０００８】又（３）母音音素テーブル２は、各種類対
応の母音音素を、複数ピッチを複数群に分割し、群内の
一つを代表母音音素として格納した構成を有し、この母
音音素テーブルから指定ピッチに近いピッチの代表母音
音素を読出し、指定ピッチとなるようにピッチシフト処
理を施して、子音音素と合成する過程を含むことができ
る。

【０００９】又（４）音素の指定種類を文字情報として
入力して表示し、この音素のピッチを表示文字の位置に
より指定し、表示文字及び表示位置を音素の指定種類及
び指定ピッチとし、この指定種類及び指定ピッチに従っ
た子音音素と母音音素とを合成する過程を含むことがで
きる。即ち、入力文字を表示装置に表示し、その表示文
字の位置を移動して、その位置情報とピッチとをリンク
させることによって、所望のピッチの音声を合成再生す
ることができる。

【００１０】又本発明の音声合成システムは、（５）音
素の種類及びピッチを指定するキーボード等の入力部や
伝送情報を受信して入力する入力部と、複数種類の音素
対応の子音音素を格納した子音音素テーブル１と、複数
種類且つ複数ピッチの音素対応の母音音素を格納した母
音音素テーブル２と、入力部による音素の種類及びピッ
チの指定入力に従って、子音音素テーブル１から子音音
素を読出し、且つ母音音素テーブル２から母音音素を読
出して合成処理する中央処理装置（ＣＰＵ）３と、中央
処理装置３によって合成された音素を音声として再生出
力する音声再生出力部４とを備えている。

【００１１】

【発明の実施の形態】図１は本発明の実施の形態のシス
テム説明図であり、１は子音音素テーブル、２は母音音
素テーブル、３は中央処理装置（ＣＰＵ）、４はスピー
カ等を含む音声再生出力部、５はＤＡ変換器等を含む音
声処理部、６はキーボードやマウス等の入力部、７は通
信回線と接続された通信制御部、８〜１０はインタフェ
ース部（ＩＦ）、１１は液晶パネルや陰極線管等による
表示部、１２はバスである。

【００１２】音素は、日本語の場合、いろは４８文字と
「きゃ」，「きゅ」，「きょ」等の拗音と、語尾に現れ
る「ン」となる撥音と、「ッ」で表される促音等を含め
て、１３０程度の種類となる。本発明に於いては、音素
の種類対応に子音音素を格納して子音音素テーブル１を
構成し、又音素の種類対応に母音音素／ａ／，／ｉ／，
／ｕ／，／ｏ／及び半母音音素／ｗａ／，／ｗｉ／，／
ｗｅ／，／ｗｏ／，／ｙａ／，／ｙｕ／，／ｙｏ／等を
格納して母音音素テーブル２を構成する。

【００１３】この場合、子音音素テーブル１は、／ｋ
／，／ｇ／，／ｓ／，／ｚ／，／ｓｈ／等の１８種類の
子音音素を格納し、母音音素テーブル２は、半母音を含
む１２種類の合計約３０種類程度の素材音素を相互に組
合せることによって、１３０種類程度の音素を合成する
ことができる。従って、音声合成の為の子音音素テーブ
ル１と母音音素テーブル２とは、小型のテーブルで済む
ことになる。又合成再生する音声を例えば２オクターブ
とすると、母音音素テーブル２には、その範囲内の音素
の種類対応且つ１オクターブの分割数に従ったピッチ種
類の母音音素を格納しておくことができる。又分割数が
多い場合は、複数の群に分けて、各群内の一つのピッチ
を代表ピッチとして母音音素を格納することもできる。

【００１４】例えば、入力部６から「か」，「わ」，
「の」を入力すると、中央処理装置３は、表示部１１に
「か」，「わ」，「の」を表示する。このような処理は
ワープロやパソコン等に於いて知られている文字入力手
段及び文字表示手段を適用することができる。又表示さ
れた「か」，「わ」，「の」について、それぞれの位置
を図示のようにした場合に於いて、「か」の位置を、例
えば、音階「Ｃ」とすると、指定種類の音素「か」の指
定ピッチＣに従って、中央処理装置３は、子音音素テー
ブル１からピッチと関係なく、音素「か」（〔ｋａ〕）
を構成する子音音素／ｋ／を読出し、母音音素テーブル
２から音素「か」（〔ｋａ〕）の母音音素／ａ／を読出
し、この母音音素／ａ／を指定ピッチＣとなるようにピ
ッチシフト処理を行って、子音音素／ｋ／と合成する。
或いは母音音素／ａ／を、音階Ｃ，Ｄ，Ｅ，Ｆ，Ｇ，
Ａ，Ｂ，Ｃ等に従ったピッチ対応に格納した場合は、指
定ピッチＣの母音音素／ａ／を、母音音素テーブル２か
ら読出して合成する。

【００１５】中央処理装置３は、合成された音素〔ｋ
ａ〕のデータをインタフェース部９を介して音声処理部
５に転送する。音声処理部５は音素〔ｋａ〕のデータを
アナログ信号に変換し、音声再生出力部４に転送する。
音声再生出力部４は、音声増幅器やスピーカを含み、音
素〔ｋａ〕を「か」として再生出力する。又次の
「わ」，「の」についても同様に合成再生出力すること
ができる。この場合、「か」の位置より「わ」，「の」
の位置が高いから、「か」より高いピッチとして
「わ」，「の」を合成再生出力することになる。即ち、
任意の種類で且つ任意のピッチの音声を合成再生出力す
ることができるから、例えば、歌唱合成再生も容易とな
る。

【００１６】又通信回線を介して入力された文章や歌唱
内容については、通信制御部７を入力部として受信処理
し、前述の入力部６からの入力と同様な処理によって音
声合成を行うことができる。この場合、伝送情報は、例
えば、音素データとピッチデータとするか、又は子音音
素データと母音音素データとピッチデータとすることが
できる。又通信回線を介して他の子音音素テーブルと母
音音素テーブルとを備えた音声合成システムに伝送する
場合は、中央処理装置３又は通信制御部７に於ける処理
によって、音素データとピッチデータ或いは子音音素デ
ータと母音音素データとピッチデータとした伝送情報を
通信回線に送出することができる。

【００１７】図２は子音音素と母音音素との合成の説明
図であり、波形編集ツール等によるディジタル処理によ
って、音素〔ｋａ〕を子音音素／ｋ／と母音音素／ａ／
とに分割し、それを合成した場合を示し、波形をアナロ
グ波形として図示しているが、実際の合成処理はディジ
タル処理により行うものである。

【００１８】音素〔ｋａ〕を分割した子音音素／ｋ／と
母音音素／ａ／とをそれぞれ子音音素テーブル１と母音
音素テーブル２とに格納しておき、音素として「か」が
入力された時、指定種類対応の音素〔ｋａ〕の子音音素
／ｋ／を子音音素テーブル１から読出し、又母音音素／
ａ／を母音音素テーブル２とから読出して、音素〔ｋ
ａ〕を合成再生出力するものである。この場合、或るピ
ッチの母音音素を代表母音音素して格納した場合は、読
出した母音音素／ａ／を指定ピッチとなるように、ピッ
チシフト処理を施した後、子音音素／ｋ／と合成するも
のである。

【００１９】又母音音素が個人特有な要素を含むことか
ら、発声音声をディジタル録音し、例えば、波形編集ツ
ールを用いて子音音素と母音音素とに分割し、母音音素
のみを個人対応の母音音素テーブル２に格納し、子音音
素は共通の子音音素テーブル１とすることができる。又
複数の音階についての発声音声についてディジタル録音
して、子音音素と母音音素とに分割し、母音音素のみを
ピッチ対応に母音音素テーブル２に格納し、子音音素は
各ピッチに対して共通の子音音素テーブル１に格納す
る。即ち、母音音素テーブル２は、個人特有又はピッチ
特有としての母音音素を格納して、複数種類の母音音素
テーブル２とすることができる。その場合、子音音素テ
ーブル１は、複数種類の母音音素テーブル２に対して共
通化することができる。

【００２０】又ピッチシフト処理は、所望のピッチに対
するピッチ差が小さい場合、合成再生出力の音声の品質
の劣化が少ないが、ピッチ差が大きい場合、合成再生出
力の音声の品質に劣化が生じる可能性が高くなる。そこ
で、各ピッチの発声音声についてディジタル録音し、子
音音素と母音音素とに分割し、母音音素のみをピッチ対
応に母音音素テーブル２に格納する。この場合、複数ピ
ッチを複数の群に分割し、各群内の一つを代表母音音素
として格納し、指定ピッチに近い代表母音音素を母音音
素テーブル２から読出し、その代表母音音素を指定ピッ
チにシフト処理して合成することができる。

【００２１】図３は本発明の実施の形態の音声合成の説
明図であり、例えば、音階「Ｃ」の「か」が入力された
場合、指定種類の音素〔ｋａ〕の子音音素データを基に
子音音素テーブル１から子音音素／ｋ／を読出し、指定
種類の音素〔ｋａ〕で指定ピッチＣに対応した母音音素
／ａ／Ｃを母音音素テーブル２から読出して合成し、音
階「Ｃ」の音素〔ｋａ〕Ｃを出力することがきる。

【００２２】この場合、発声を長くするデータが付加さ
れていると、母音音素テーブル２から繰り返し母音音素
／ａ／を読出して合成するか、或いは中央処理装置３に
於いて、指定された長さに母音音素／ａ／を子音音素／
ｋ／に付加して、音階「Ｃ」の音素「かー」を〔ｋａ
ａ〕Ｃとして示すように合成再生出力することができ
る。又音階「Ｂ」が指定された場合は、母音音素テーブ
ル２から母音音素／ａ／Ｂを読出して、子音音素／ｋ／
と合成することにより、音階「Ｂ」の音素〔ｋａ〕Ｂを
出力することができる。

【００２３】図４は表示画面の説明図であり、（Ａ），
（Ｂ）は、図１に於ける入力部６からの入力により、音
量の情報等を含めて表示部１１に表示した場合の一例を
示す。「わたしだってうた」が入力されて表示され、
「わ」は、母音音素テーブル２から半母音音素／ｗａ／
として読出されて再生処理され、又「た」は、子音音素
テーブル１から子音音素／ｔ／と、母音音素テーブル２
から母音音素／ａ／とが読出されて合成再生処理され
る。この時、「わ」より「た」の位置が高いことによ
り、その位置情報によって、「わ」より「た」のピッチ
を、母音音素／ａ／のピッチシフト処理により高くする
か、又は「わ」に対応した半母音音素／ｗａ／のピッチ
より高く、「た」の表示の位置情報に対応したピッチの
母音音素／ａ／を読出して合成する。

【００２４】又「し」については、「た」より更に高い
位置に表示されているから、子音音素／ｓ／と、「た」
より高いピッチの母音音素／ｉ／とを合成することにな
る。それによって、「わたし」は、順次ピッチが高くな
る音声として合成再生出力される。又（Ａ）に於いて
は、「わ」の表示文字より「た」，「し」の表示文字が
大きいことにより、音量が大きいことを示し、「だ」は
更に大きい音量であることを示す。又（Ｂ）に於いて
は、縦線を音量、横線を長さとして表示する場合を示
し、（Ａ）と同様に、「わ」より「た」，「し」の音量
が大きく、「だ」は更に音量が大きいことを示してい
る。

【００２５】又表示文字の間隔を休止期間として指定す
ることができる。又長音として例えば「てーー」又は
（Ｂ）のように横線の長さを長くして表示した場合、子
音音素／ｔ／と、その表示位置に対応したピッチの母音
音素／ｅ／とを合成し、引き続き、母音音素／ｅ／を繰
り返し母音音素テーブル２から読出して再生出力するこ
とができる。或いは、母音音素については予めループ再
生としてプログラムし、表示文字間隔等に対応した長さ
でその母音音素の再生を中止する処理を行うことによ
り、所望の長さで音声合成再生することもできる。

【００２６】又合成再生出力の速さを指定することも可
能であり、その指定速度に対応した速度で、子音音素テ
ーブル１から子音音素を読出し、且つ母音音素テーブル
２から母音音素を読出して合成することになる。合成再
生出力の音声の強弱については、強弱の制御情報を付加
するか、或いは図４の（Ａ）又は（Ｂ）に示すように、
表示文字の大小又は縦線等によって指定することができ
る。その場合の強弱の制御情報又は表示文字の大小又は
縦線の長さに従って、音声再生出力部４からの再生出力
音声の増幅度を制御することによって、容易に合成再生
出力音声の音量を制御することができる。又歌唱内容の
みでなく、他の文章内容を合成再生出力する場合のイン
トネーションを容易に付加することができるから、自然
な会話形式の合成再生出力も可能となる。

【００２７】

【発明の効果】以上説明したように、本発明は、音素を
子音音素と母音音素とに分割し、指定種類の音素対応の
子音音素と、指定種類の音素の指定ピッチの母音音素と
を合成し、ピッチ変更処理による子音の変質を惹起する
ことなく、任意の音階の音声を合成再生出力することが
できる利点がある。又子音音素テーブル１と母音音素テ
ーブル２とは、多種類の音素を合成再生出力する場合で
も比較的記憶容量を少なくすることができ、且つ音声合
成処理の簡単化を図ることができる利点がある。又母音
音素によりピッチや個人別を決定できることから、特定
個人の歌唱の再生に適用することも可能となる。又ピッ
チシフト処理を行う場合も母音音素に対してのみ行うか
ら、合成処理が容易となる利点がある。

【図面の簡単な説明】

【図１】本発明の実施の形態のシステム説明図である。

【図２】子音音素と母音音素との合成説明図である。

【図３】本発明の実施の形態の音声合成の説明図であ
る。

【図４】表示画面の説明図である。

【符号の説明】

１子音音素テーブル２母音音素テーブル３中央処理装置（ＣＰＵ）４音声再生出力部５音声処理部６入力部７通信制御部８〜１０インタフェース部（ＩＦ）１１表示部

Claims

【特許請求の範囲】

【請求項１】音素を分割した子音音素と母音音素とを
合成する音声合成方法に於いて、音素の種類とピッチとを指定し、該音素の指定種類対応
の子音音素と、該指定種類対応且つ指定ピッチ対応の母
音音素とを合成する過程を含むことを特徴とする音声合
成方法。
【請求項２】複数種類の音素対応の子音音素を格納し
た子音音素テーブルと、複数種類の音素対応且つ複数ピ
ッチ対応の母音音素を格納した母音音素テーブルとを用
い、音素の種類とピッチとを指定し、前記子音音素テー
ブルから読出した指定種類対応の子音音素と、前記母音
音素テーブルから読出した指定種類対応且つ指定ピッチ
対応の母音音素とを合成する過程を含むことを特徴とす
る音声合成方法。
【請求項３】前記母音音素テーブルは、各種類対応の
母音音素を、複数ピッチを複数群に分割し、該群内の一
つを代表母音音素として格納した構成を有し、該母音音
素テーブルから指定ピッチに近いピッチの代表母音音素
を読出し、指定ピッチとなるようにピッチシフト処理を
施して、前記子音音素と合成する過程を含むことを特徴
とする請求項２記載の音声合成方法。
【請求項４】音素の指定種類を文字情報として入力し
て表示し、該音素のピッチを表示文字の位置により指定
し、表示文字及び表示位置を音素の指定種類及び指定ピ
ッチとし、該指定種類及び指定ピッチに従った子音音素
と母音音素とを合成する過程を含むことを特徴とする請
求項２又は３記載の音声合成方法。
【請求項５】音素の種類及びピッチを指定する入力部
と、複数種類の音素対応の子音音素を格納した子音音素テー
ブルと、前記複数種類且つ複数ピッチの音素対応の母音音素を格
納した母音音素テーブルと、前記入力部による音素の種類及びピッチの指定入力に従
って前記子音音素テーブルから子音音素を読出し、且つ
前記母音音素テーブルから母音音素を読出して合成処理
する中央処理装置と、該中央処理装置によって合成された音素を音声として再
生出力する音声再生出力部とを備えたことを特徴とする
音声合成システム。