JP3283657B2 - 音声規則合成装置 - Google Patents

音声規則合成装置

Info

Publication number
JP3283657B2
JP3283657B2 JP24659093A JP24659093A JP3283657B2 JP 3283657 B2 JP3283657 B2 JP 3283657B2 JP 24659093 A JP24659093 A JP 24659093A JP 24659093 A JP24659093 A JP 24659093A JP 3283657 B2 JP3283657 B2 JP 3283657B2
Authority
JP
Japan
Prior art keywords
formant
spectrum
information
speech
synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP24659093A
Other languages
English (en)
Other versions
JPH07104795A (ja
Inventor
俊一 矢島
隆 遠藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP24659093A priority Critical patent/JP3283657B2/ja
Publication of JPH07104795A publication Critical patent/JPH07104795A/ja
Application granted granted Critical
Publication of JP3283657B2 publication Critical patent/JP3283657B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声処理装置に関し、
特に自然でなめらかな合成音質を得るための音声規則合
成装置に関する。
【0002】
【従来の技術】音声規則合成装置は、任意文章に対応す
る音声を規則により合成する装置である。音声規則合成
装置では音声素片(音声単位)といった名称の基本デー
タを保有し、これらを接続することで、所定の音声を合
成している。
【0003】従来の代表的な音声合成方式は、ホルマン
ト合成方式である。この合成方式では音声を数個の共振
(ホルマント)周波数で表現し、これを音声単位として
おく。音声単位を接続するには、ホルマント周波数間を
補間することで対応している。この方式の利点は合成音
声の滑らかさが得られる点である。一方、音声を幾つか
のホルマント情報に凝縮してしまうことから、複雑なス
ペクトル包絡情報の表現精度が不十分で、望む合成音質
を実現できないといった問題点がある。
【0004】最近、新たな音声合成方式として、波形重
畳法が検討されている。この方式はPSE(パワースペ
クトル包絡)分析合成法に代表され、音声のスペクトル
を正確に抽出し、その抽出結果を逆フーリェ変換した波
形を重畳して音声波形を合成する方式である。この合成
音はもとになる音声に対して忠実性が高く、高品質であ
る。なお、この方式の詳細については、中島他著、「パ
ワースペクトル包絡(PSE)音声分析・合成系」(日
本音響学会誌44巻11号、昭和63−11)を参照す
ることができる。
【0005】この分析合成方式を、規則合成に適用する
際には、肉声を幾つかの区分に分け予め本方式で分析し
ておき、これを音声単位としておく。所望の音声を合成
するには音声単位を接続することで対応している。この
方式はホルマント合成とは逆に、良質な合成音質を得ら
れる反面、音声単位の接続部での不連続さが残るといっ
た問題点がある。この理由は、異なる区分のスペクトル
包絡の補間処理が難しいからである。
【0006】
【発明が解決しようとする課題】ホルマント合成方式の
利点は合成音声の滑らかさが得られる点である。一方、
音声を数個のホルマント情報に凝縮してしまうことか
ら、複雑なスペクトル包絡情報の表現精度が不十分で、
望む合成音質を実現できないといった問題点がある。
また波形重畳方式ではホルマント合成とは逆に、良質な
合成音質を得られる反面、補間がうまくできないため、
音声単位の接続部での不連続さが残るといった問題点が
ある。
【0007】本発明の目的とするところは、従来の技術
における上述の如き問題を解消し、滑らかで高品質な規
則合成音声が得られる音声規則合成装置を提供すること
にある。
【0008】
【課題を解決するための手段】そのために本発明では、
音声単位情報としてスペクトル包絡情報とそれに対応す
るホルマント周波数情報との両者を記憶しておく。また
2つの時点のホルマントを補間する手段と、それに対応
するスペクトル包絡を求める手段とを有する。
【0009】
【作用】本発明に係る音声合成装置においては、前述の
ごとく従来手法の問題点が、ホルマント合成において
は、複雑なスペクトル包絡情報の表現精度が不十分で、
望む合成音質を実現できないといった点にあり、また波
形重畳方式ではスペクトル補間がうまく行なわれないた
め、音声単位の接続部での不連続さが残るといった点に
ある一方、両方式の特長がその逆であることに鑑み、各
々の特長で各々の問題点を解消しうるような構成にした
ものである。この結果、良好な規則合成音質が得られ
る。
【0010】
【実施例】以下、本発明の実施例を図面に基いて詳細に
説明する。図1は本発明の一実施例を示す音声規則合成
装置のブロック構成図である。図1において、101は
言語処理部、102は韻律制御部、103は音声合成
部、104はスペクトル制御部、105はスペクトルフ
ァイル、106はホルマントファイルを示している。
【0011】このように構成された本実施例の音声規則
合成装置の動作のあらましは次の通りである。101の
言語処理部では入力された文章に対して、その読み(音
韻系列)とアクセント位置、イントネーション、フレー
ズ間のポーズ情報を出力する。102の韻律制御部では
これらの情報を受けて出力すべき音声波形の各時点での
音の高さ(ピッチ周波数)、各音韻の時間長を計算す
る。104のスペクトル制御部では読み情報とにもとづ
き、スペクトルファイル105とホルマントファイル1
06から該当する単位データを読み込み、一周期分の音
声波形データを生成し合成部に出力する。この出力時間
長は韻律制御部から入力された音韻の時間長情報であ
る。103の音声合成部では一周期波形データをピッチ
周波数に対応する時間間隔で重畳加算し、音声バッファ
メモリに蓄えておき、音声出力する。
【0012】101の言語処理部に関しては、例えば国
分著「規則合成システムでコンピュータに日本語をしゃ
べらせる」日経バイト(1988年6月)に詳しい。ま
た102の韻律制御部に関しては、例えば箱田著「文音
声における音調規則」電子情報通信学会誌(D)(19
80年9月)に詳しい。また103の音声合成部に関し
ては中島著、「パワースペクトル包絡(PSE)音声分
析・合成系」(日本音響学会誌44巻11号、昭和63
−11)に詳しい。これらの実装は当業者にとっては容
易である。
【0013】次に図2〜図5によりスペクトル制御部の
詳細な説明を行う。図2において、201は単位読みだ
し部、202はホルマント補間部、203はスペクトル
補正部、204は逆FFT処理部を示している。
【0014】スペクトル制御部で、2つの時点の音声単
位を補間し対応する一周期波形を生成する際には次のよ
うな処理を行う。201の単位読み出し部では、まず出
力すべき音韻に対応して、2つの時点t1,t2のスペ
クトル単位S1とS2を読み出す。次に202のホルマ
ント補間部では、既に読み出されているスペクトルに対
応するホルマントF1、F2を読みだす。
【0015】ここでS1,S2はスペクトル包絡情報
で、これは例えば0から4kHzまでの音声帯域におけ
る、各周波数での音圧レベル値である。またF1,F2
はホルマント周波数である。肉声のホルマントは通常3
ケ存在するため、通常は3次元のベクトルで表わされ
る。
【0016】これらのスペクトル、ホルマント形状の模
式図を図3に示す。図3では本処理の内容を平易に説明
する目的でスペクトル形状を単純化し、単一のホルマン
トからなるスペクトルで示している。
【0017】2ケのホルマントを補間するには、例えば
線形補間を行なえば良い。図3の例では時刻tのホルマ
ントFは、式1で計算できる。例えばtがt1とt2の
中心に位置する時には(F1+F2)/2が補間ホルマ
ントとなる。
【0018】
【数1】
【0019】次に補間ホルマントに対応するスペクトル
包絡の求めかたについて述べる。所定のホルマントに対
応するスペクトルの算定法としては、たとえば線形予測
分析法がある。この方式に関しては、斎藤著「音声情報
処理の基礎」オーム社(1981)などに詳しい。ホル
マントからのスペクトル情報抽出法に関しては、本著作
のP90に記載されている。具体的な手順は以下の通り
である。
【0020】まず各ホルマントのバンド幅をBとし、標
本化周波数をFsとする。
【0021】
【数2】
【0022】として、これが線形予測方程式の根になれ
ば良い。従って
【0023】
【数3】
【0024】を分母とする伝達関数で表わされる系が、
所望の共振周波数Fで共振特性を持つことになる。従っ
て、この共振系のスペクトルHは、
【0025】
【数4】
【0026】で表わされる。ただこのスペクトルでは微
細なスペクトル構造が消失しており、これを回復する必
要がある。次にこの微細スペクトル構造の回復手順を説
明する。
【0027】まず各時点t1、t2のホルマント周波数
F1、F2を数2に代入して数3、数4から得られた各
々のスペクトルをH1、H2とする。
【0028】
【数5】
【0029】数5は原スペクトルS1,S2を、線形予
測法により得られたスペクトルH1,H2で除したスペ
クトルである。このスペクトルM1,M2は微細なスペ
クトル構造のみを表わしている。
【0030】時点tでの微細なスペクトルMはM1,M
2を線形補間し次のような式で表わされる。
【0031】
【数6】
【0032】この微細な構造を持つスペクトルMに、数
4で求めたHを乗ずると、ホルマント構造が明確でかつ
微細構造が保存されたスペクトルSが得られる。
【0033】
【数7】
【0034】以上の手順で微細な構造を保持し、かつホ
ルマント消失のないスペクトルが得られる。これまでの
手順でホルマントの個数は1つであったが、複数個のホ
ルマントにすることは容易で、ホルマント個数分に応じ
て数3を乗じ、数4により複数ホルマントに対応するス
ペクトルが求められる。
【0035】このようにして求められたスペクトル包絡
Sを204により逆フーリェ変換すると、音声の一周期
波形が求められる。以上のような処理により、精細なス
ペクトル構造の欠落無く、かつまたホルマント部の消失
のないスペクトル包絡が得られる。因みに図4は単純に
スペクトル包絡S1とS2を線形補間して得られるスペ
クトル包絡の模式図である。このスペクトル包絡に基づ
き合成した音声では、ホルマントがあいまいで不明瞭な
音質になる。この問題は上述した如く本発明により解消
される。
【0036】補間ホルマントに対応するスペクトル包絡
を、線形予測分析を用いず、より処理量が少なく簡単に
求める方法について述べる。これはスペクトル包絡をホ
ルマント位置で区分けし、区分化されたスペクトル包絡
を線形伸縮することにより、補間ホルマントに対応する
スペクトル包絡を求めるものである。以下図5を用いて
詳細に説明する。
【0037】時点t1のホルマント周波数を(F11,
F12)、スペクトルをS1とし、時点t2のホルマン
ト周波数を(F21,F22)、スペクトルをS2とし
て、時刻tのスペクトルSを求める。この2ケのホルマ
ント周波数を上下限とする周波数区間のスペクトルのな
かで周波数fでのスペクトルS(f)は以下のようにし
て求められる。
【0038】まず時点tの、t1,t2からの比例配分
位置αは次の式で求められる。
【0039】
【数8】
【0040】このαを用いてF1,F2,fは次の式で
求められる。
【0041】
【数9】
【0042】
【数10】
【0043】
【数11】
【0044】また区分された周波数区間での比例配分位
置βはf,f1,f2に関して同一であるから、
【0045】
【数12】
【0046】が得られる。数12に数11を代入して次
の式が得られる。
【0047】
【数13】
【0048】
【数14】
【0049】従って周波数fでのスペクトルS(f)は
次の数15から求められる。
【0050】
【数15】
【0051】ここでf1,f2は数13、数14で与え
られている。
【0052】このようにして、ホルマント周波数を上下
限としたスペクトルを求められる。次に周波数ゼロから
第1ホルマントまでの処理であるが、これも周波数ゼロ
を下限周波数として同様にスペクトルが求められる。ま
た逆に上側の周波数帯域の処理も最高周波数のホルマン
トから、Fs/2までの周波数区間に対し同様な線形伸
縮処理を行なってスペクトルが得られる。
【0053】このようにして求められたスペクトル包絡
Sを逆フーリェ変換すると、音声の一周期波形が求めら
れる。本スペクトル包絡算定方式は、線形予測分析を用
いた場合に比べ演算量が軽減され、若干スペクトル包絡
の形状が異なるものの、ホルマント部が消失しないスペ
クトル包絡が得られる。
【0054】次に本発明の他の実施例の説明を行なう。
人間が発声した音声においては、その音の高さに応じて
ホルマント周波数の異なることが知られている。この現
象に関しては、例えば電子情報通信学会編「聴覚と音
声」(コロナ社)に詳しい。良質な合成音を得ようとす
ると、この人間の発声形態と同様に音の高さに対応して
スペクトルを変更して音声を合成しなければならない。
この合成系を実現するために、単純にあらゆる音の高さ
に対応するスペクトル包絡を用意しようとすると、これ
は極めて大量の記憶容量を必要とし実現は困難である。
【0055】本発明の他の実施例はこれに対し、特定ピ
ッチのスペクトル包絡を別ピッチのスペクトル包絡に変
換することで、所要メモリの増大を招くことなく、ピッ
チ対応で異なるスペクトル包絡を用いた規則合成を実現
するものである。
【0056】前記文献「聴覚と音声」によれば、ピッチ
周波数とホルマント周波数とは、ほぼ一次の正相関の関
係にある。この係数行列をAとすると、ピッチ周波数P
0で観測したホルマントf0から換算した、ピッチ周波
数P1でのホルマントf1は次の数16であたえられ
る。
【0057】
【数16】
【0058】この係数行列Aは、音韻の種類によって異
なる。前記文献「聴覚と音声」とから読み取った係数行
列を図6に示す。
【0059】実際の処理は次の通りである。スペクトル
情報やホルマント情報は、肉声波形を分析して求められ
る。予め各ホルマントファイルにはそのデータを分析し
た際のピッチ周波数も格納しておく。そしてホルマント
情報を読み込む際には同時にその分析時のピッチ周波数
も読み込み、また合成すべきピッチ周波数も読み込む。
【0060】2ケのホルマントの補間時には、先ず時点
t1,t2でのホルマントF1,F2を、合成すべきピ
ッチ周波数のホルマントF1’,F2’に変換する。こ
の変換は式16により行なう。そして時点tでのホルマ
ントF’は、F1’,F2’から次の数17により求め
られる。
【0061】
【数17】
【0062】次に線形予測分析により得られた、各時点
t1、t2のホルマントF1、F2に対応するスペクト
ル情報をH1、H2とし、時点tでのピッチ修正を施し
たホルマントF’に対応するスペクトル情報をH’とし
て、時点tでのピッチ修正を施したスペクトル包絡は次
の数18で求められる。
【0063】
【数18】
【0064】このようにして求められたスペクトル包絡
S’を逆フーリェ変換すると、音声の一周期波形が求め
られる。以上のような処理により、ピッチ周波数に追従
したスペクトル包絡が得られ、高品質の合成音が得られ
る。
【0065】上記実施例は本発明の一例を示したもの
で、本発明はこれに限定されるべきものではないことは
言うまでもない。
【0066】
【発明の効果】以上、詳細に説明した如く、本発明によ
れば、人間の音声に近いスペクトル包絡が得られ、その
結果高品質の規則合成音声が得られる。
【図面の簡単な説明】
【図1】本発明の一実施例を示す音声規則合成装置のブ
ロック図である。
【図2】スペクトル制御部の詳細なブロック図である。
【図3】ホルマント補間にもとづくスペクトル包絡の補
間処理の模式図である。
【図4】スペクトル包絡の単純な補間処理の模式図であ
る。
【図5】もう1つのスペクトル包絡の補間処理の説明図
である。
【図6】ピッチ周波数によるホルマント周波数の変換係
数を示す図である。
【符号の説明】
101 .. 言語処理部,102 .. 韻律制御
部,103 .. 音声合成部,104 .. スペク
トル制御部,105 .. スペクトルファイル,10
6 .. ホルマントファイル,201 .. 単位読
みだし部,202.. ホルマント補間部,203
.. スペクトル補正部,204 ..逆FFT処理
部。
フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 13/04 G10L 13/08

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】文字列もしくは記号列を入力するテキスト
    入力手段と、前記入力手段から入力されたテキストを解
    析するテキスト解析手段と、前記テキスト解析手段で得
    られた解析結果に従って韻律パラメーターを作成する韻
    律パラメーター作成手段と、合成パラメーターを作成す
    る合成パラメーター作成手段と、前記合成パラメータか
    ら音声を合成する音声合成手段とから成る音声規則合成
    装置において、各音韻の特徴点ごとにスペクトル包絡情
    報とホルマント情報とを格納する手段と、前記テキスト
    解析手段による解析結果から前記格納手段のスペクトル
    包絡情報とホルマント情報とを読み出す手段と、ホルマ
    ント情報に基づきスペクトル包絡情報を区分けし線形伸
    縮によりスペクトル包絡情報を補間する手段とを有する
    ことを特徴とする音声規則合成装置。
  2. 【請求項2】文字列もしくは記号列を入力するテキスト
    入力手段と、前記入力手段から入力されたテキストを解
    析するテキスト解析手段と、前記テキスト解析手段で得
    られた解析結果に従って韻律パラメーターを作成する韻
    律パラメーター作成手段と、合成パラメーターを作成す
    る合成パラメーター作成手段と、前記合成パラメータか
    ら音声を合成する音声合成手段とから成る音声規則合成
    装置において、各音韻の特徴点ごとにスペクトル包絡情
    報とピッチ周波数情報を含むホルマント情報とを格納す
    る手段と、前記テキスト解析手段による解析結果から前
    記格納手段のスペクトル包絡情報とホルマント情報とを
    読み出す手段と、該ホルマント情報に基づきスペクトル
    包絡情報をピッチ修正しスペクトル包絡情報を補間する
    手段とを有することを特徴とする音声規則合成装置。
JP24659093A 1993-10-01 1993-10-01 音声規則合成装置 Expired - Fee Related JP3283657B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24659093A JP3283657B2 (ja) 1993-10-01 1993-10-01 音声規則合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24659093A JP3283657B2 (ja) 1993-10-01 1993-10-01 音声規則合成装置

Publications (2)

Publication Number Publication Date
JPH07104795A JPH07104795A (ja) 1995-04-21
JP3283657B2 true JP3283657B2 (ja) 2002-05-20

Family

ID=17150685

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24659093A Expired - Fee Related JP3283657B2 (ja) 1993-10-01 1993-10-01 音声規則合成装置

Country Status (1)

Country Link
JP (1) JP3283657B2 (ja)

Also Published As

Publication number Publication date
JPH07104795A (ja) 1995-04-21

Similar Documents

Publication Publication Date Title
JP3294604B2 (ja) 波形の加算重畳による音声合成のための処理装置
KR100385603B1 (ko) 음성세그먼트작성방법,음성합성방법및그장치
US7035791B2 (en) Feature-domain concatenative speech synthesis
JP4705203B2 (ja) 声質変換装置、音高変換装置および声質変換方法
JPS62160495A (ja) 音声合成装置
JPS63285598A (ja) 音素接続形パラメ−タ規則合成方式
JPH031200A (ja) 規則型音声合成装置
JP2001282278A (ja) 音声情報処理装置及びその方法と記憶媒体
JP3732793B2 (ja) 音声合成方法、音声合成装置及び記録媒体
JP3450237B2 (ja) 音声合成装置および方法
US7089187B2 (en) Voice synthesizing system, segment generation apparatus for generating segments for voice synthesis, voice synthesizing method and storage medium storing program therefor
EP0829849B1 (en) Method and apparatus for speech synthesis and medium having recorded program therefor
EP1369846B1 (en) Speech synthesis
JP4247289B1 (ja) 音声合成装置、音声合成方法およびそのプログラム
JP3283657B2 (ja) 音声規則合成装置
WO2001078064A1 (fr) Dispositif de conversion de caractere vocal
JPH09319391A (ja) 音声合成方法
JP2612867B2 (ja) 音声ピッチ変換方法
JP4468506B2 (ja) 音声データ作成装置および声質変換方法
JP3444396B2 (ja) 音声合成方法、その装置及びプログラム記録媒体
JP2987089B2 (ja) 音声素片作成方法および音声合成方法とその装置
JPH11249676A (ja) 音声合成装置
JPH07261798A (ja) 音声分析合成装置
JPH0756590A (ja) 音声合成装置、音声合成方法及び記録媒体
JPH0632037B2 (ja) 音声合成装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080301

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090301

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees