JPH03105400A - 音声合成方式 - Google Patents

音声合成方式

Info

Publication number
JPH03105400A
JPH03105400A JP1241996A JP24199689A JPH03105400A JP H03105400 A JPH03105400 A JP H03105400A JP 1241996 A JP1241996 A JP 1241996A JP 24199689 A JP24199689 A JP 24199689A JP H03105400 A JPH03105400 A JP H03105400A
Authority
JP
Japan
Prior art keywords
speech
voice
formant
synthesis
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1241996A
Other languages
English (en)
Inventor
Eiji Ohira
栄二 大平
Akio Komatsu
小松 昭男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP1241996A priority Critical patent/JPH03105400A/ja
Publication of JPH03105400A publication Critical patent/JPH03105400A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は音声合威装置における音声合戊方法に関する。
〔従来の技術〕
規則による音声合成の品質を決定するものの1つが,こ
の合成するための種となる音声パターンをどのように作
成し、そして合成する文に最適な音声パターンをどのよ
うにして選びだすかという点にある。従来,音声パター
ンとして、母音(Vowel)一子音(Consona
nt )一母音からなるvCv音節やCv音節を用いて
いたが,音声パターンの接続歪みや、音声パターンの抽
出環境と使用環境との不一致などの問題から、良好む合
成音が得られなかった.このため、例えば,「挿々の複
合音声単位からの跨声合成、日本tfW学会秋季研究発
表会講演論文集I、第173頁から第174頁(昭和6
2年)」において論じられているように、発声環境等が
異なる複合の音声データを用いた音声合成手法が採られ
ている.すなわち、音声パターンとして、ある工つの音
韻に対しても、文中位置や音声速度の違う複数のパタン
を登録する.さらに、vCvやCv音節といった固定の
単位で登録するのではなく,例えば、Cv音節、VCV
音節,単語というような種々の単位で登録する。
豊録された音声は,音K<arxskなどの単位)単位
にゼグメンテーションし,ラベル付けする.そして,合
成時には、互いに接続性の良い各単語の一部分の音韻を
取り出し、それを接続することにより、合成音を作成す
る方式である。音声データの例としては、例えば、文頭
の/a/,文中の/a/,文末の/ a /をイ2録し
ておき,合成時に、/ a /の合成7’fを作成する
時、/ a /が文頭,文中、文末のどこかによって、
それに該当する音声パタンを用いて合成を行なう。
〔発明が解決しようとする課題〕
−ヒ記従来技術は,文頭,文中,文末などに異なった複
数の音声バタンををもたせている。しかし、我々の話す
、自然な音声を合成するためには、種類が不充分である
.すなわち、自然でスムーズな合成音を生或するために
は、このような局所的な情報のみではなく、合成する文
阜全体のけ韻情報(スペクトル周波数など)の変化やピ
ッチバタン、発声速度などの韻律情報の変化に応じて,
それに適した音声バタンを選択・接続する必要がある。
このためには,より多くの種類の音声パタンを登録し、
合成時には,これらの複数の音声バタンから、合成する
文に応じて、合成に最適な音声パタンを選択する必要が
ある. 本発明の目的は、複数の音声バタンから,合成する文に
最適な音声バタンを自動的に選択することにより,品質
のよい音声を合成することにあり,さらに、音声データ
の収録や結合方法の開発に要する労力を低減させること
にある. 〔課題を解決するための手段〕 上記目的を達或するために,周波数スペクトラム構造の
補正,修正の容易なホルマント形音声合成方式を用いて
,中間の合成音のためのスペクトラム周波数バタンやピ
ツチ周波数パタンを作成する手段と,あらかじめPAR
COR方式に代表される,音声のスペクトル形状の近似
度の高い分析方法とホルマント形分析方法の両者により
分析され、かつ音韻単位で分割ラベル付けされた音声デ
ータを格納する手段と、生威された中間の合成音に最も
類似した音声データをパタンマッチング手法により選択
し、伸縮の整合を行なう手段と、選択された音声データ
のPARCOR形パラメータを接続し、合成器を通じて
音声として出力する手段により、良好な音声を合成する
ものである。
ここでPARCOR方式に代表される分析方式は,L 
S P (line spectrum pair)方
式やP S E (Powerspectrum en
velope)方式,波形編集方式なども含んでいる. さらに、効率良く、適切なh声パタンの豊録を可能にす
るため、パタンマッチングの結果、類似した音声が得ら
れなかった場合、中間の合成音のホルマント周波数など
の音韻情報やピッチ周波数などの韻律情報および文字列
を利用者に表示する手段と、その表示のうち、エラーと
なった区間をマークする手段を有し,音声データの追加
登録時に,入力音声を一時保持する手段と、エラーとな
った中間の合成音区間と入力音声の類似度を求める手段
と,一定閾値以上の類似度を示すとき、その音声入力を
音声バタンとして登録する手段を設けたものである. 〔作用〕 中間合成音はホルマント形で合成されるため、時間伸縮
や発声のなまけをも反映した自然なスペクトル遷移を実
現することが容易である。また、最終的な合成音は,中
間合成音に最も良く類似した音声データを用いるため、
結合する音声データ間の不連続性は少なく、大きな補間
処理なしでスペクトルの近似度の高い音声データによる
合成音を生成できる. 〔実施例〕 以下、本発明の一実施例を第1図により説明する。本実
施例では、ホルマント形合成の特徴としては、ホルマン
ト周波数とそのバンド幅、PARCOR形合成の特徴と
しては. PARCORパラメータを用いた場合につい
て示す。また、図1の入力文は、文節や単語への分割、
単語アクセントやイントネーション記号の付与が終了し
ているとして説明する.まず,音声データ作成について
説明する。発声された音声は、特徴抽出部1において.
 PARCOR係数、ホルマント周波数,バンド幅,音
声パワー有声/無声、ピッチ周波数が抽出される。この
特徴は,例えば10msec間隔(これを1フレームと
呼ぶ)で抽出される。この特徴に、文字記号列を見出し
諸として付加し、ラベル付したものを音声データファイ
ル2に格納する.ここで音声データの単位は別にこだわ
らない.すなわち音節単位でも,単語単位でもよい。
次に、音声合成時について説明する、合成のための入力
文が与えられると、ホルマント合成部3は、vCvホル
マントファイル4と,ホルマント形合成規則5を用いて
、中間合成音声を生成する6vCvホルマントファイル
4には、例えばVCv音節(母音十子音+母音から成る
音節)単位でホルマント形特徴が格納されている。ホル
マント形特徴は,1フレーム単位に、ホルマント周波数
、バンド幅音声パワー、有声/無声の特徴を抽出したも
のであり,各■Cv音節には名称(例えば「aka』)
が見出し語として登録されている。
ホルマント合成部3は、まず入力文字列から、VCvホ
ルマントファイル4のvCVの音節を取り出し、ホルマ
ント周波数,バンド幅、音声パワーの補間を行なう,例
えば,「あきたJという文字列に対しては、rakiJ
.rj.taJの2つのvCv音節が読み出され,両者
の間の補間を行なう。更に、ホルマント合戒部3は,入
力文の構ノ 造から,ホルマント形合成規則4を用いて継続時間や音
声パワーの変更を行なう.継続時間を変化させる場合、
特に、短かくする場合には、ホルマント周波数の遷移が
変化する.このような規則がホルマント形合戒規則5に
は格納されており、これに基づいてホルマント周波数の
遷移の修正も行なう。更に、ここでは入力文字列の単語
アクセント、イントネーション情報を用いて基本周波数
を求める.この結果得られるパラメータは、ホルマント
形合成装置に入力することにより,合成音が得られるも
のである.これをここでは,中間合成斤と呼ぶ。
ホルマント周波数の遷移の修正には,例えば,「周波数
領域における調音結合のモデルとその連続音声認識への
適用 日本音響学会講演論文集2−1−2  1973
)のモデルを用いることにより実現可能である. このように、ホルマント合成手法を用いることにより,
より自然な合成音の枠組みを、柔軟に作ル2の音声デー
タを標準バタンとし、中間合成音を入力バタンとして両
者のマッチングを行なう。
具体的には,第2図において、音声データ選択部6aは
,入力された文字列を入力とし,その文字列の一部に対
応する音声データを検出し、入力文字列と対応させる。
例えば入力がrakitaJ(秋田)」であり、音声デ
ータにfame(雨) J.  rakai (赤い)
 J t  rakiraka(明らか)』が登録され
ている場合,秋田の先頭の/ a /には、3つの音声
データの先頭の部分バタン/ a /が秋田の/aki
/には、「明らか」の部分バタン/aki/が対応して
検索される.これは従来の技術により容易に実現できる
.次に,距離計算部66は、中間合成音を入力とし,対
応のとられた音声データとのスペク]〜ラム距離を求め
る.そして、DPマッチング部6cで、両者のマッチン
グを行なう。距離計算部66,DPマッチング部6cは
,従来の詐声認識技術で容易に実現可能である。
判定部6dでは、マッチングの結果、類似度が一定閾値
以上のもののみ取り出し,その音声データのラテイスを
作成する.そして、マッチングの類似度、隣接するラテ
イス間のスペクトルの特徴の差(ホルマント周波数やバ
ンド幅),ピッチ周波数形状、ピッチ周波数の平均値及
び音声パワーなどを用いて、最も中間合成音に類似し、
かつ、隣接する音声バタン間の特徴の差の少ないものを
総合的に選択する.また,選択された音声パタンは.D
Pマッチング結果に基づいて,第3図のように伸縮処理
を行なう.ピッチ周波数形状としては,例えば、第4図
に示すような特徴により判断する.マッチング部6は,
このようにして得られた音声データ列をPARCOR合
戒部7に転送する.音声データ列としては, PARC
OR係数,ピッチ周波数等が送られる。
P^I1COR合威部7は、音声データ列の間の補間を
行なった後、合成器を通して合成音を生威し,これがス
ビーカ8を通じて出力される. このように、!!識におけるマッチング技術を用いるこ
とにより、意図した自然な合成音を生成するための音声
データを自動検出可能となる.また,これにより、隣接
する音声データのスペクトラムの変化が少ない音声デー
タを自動検出可能となるため,スムーズな補間が可能と
なり、接続歪の少ない、自然な合成音が生或できる。
また,第2図の判定部6dにおいて,類似度が一定閾値
以上の音声データが存在しない部分列があった時、また
は、隣接する音声データのスベク1−ラム等の特徴が一
致しない場合が生じた時、そのエラー原因をグラフィッ
クに示す,例えば,中間合成音のフオルマント周波数、
バンド幅、ピッチ周波数及び入力文字列を表示すると共
に、入力文字列のうち、エラーとなった文字列をマーク
して表示する.更に,エラーとなった文字列に対応する
中間合成音位置をマークして表示する。
このエラーとなった箇所の音声データを追加登録する場
合について説明する。登録しようとする音声は、第5図
において特徴抽出部1で特徴抽出された後、バツファ9
に登録される.マッチング部6は、このバツファ9に登
録された音声と、マークされた中間合成音とのマッチン
グを行ない、マッチングが取れた場合は、音声データフ
ァイル2に登録する.これにより、音声データの収集作
業を効率良く行なうことが可能となる.但し、この場合
は,バツファ9に9.録された音声パタンを入力バタン
、マークされた中間合成音の部分区間を標準バタンとし
てマッチングを行なう.〔発明の効果〕 本発明によれば、ホルマント形合成手法とPARCOR
形合成手法を組合せた構成をとっているので,自然で,
品質の良い合成音声が生成できる.また,音声データの
収集が容易に行なうことができる.さらに,文字列から
合成音への変換部(ホルマント形合成部)と、実際に波
形を生或する処理部(PARCOR形合成部)を分離し
たことにより、両者の開発を独立して行なうことが可能
となり,開発効率を向上することができる.
【図面の簡単な説明】
第1図は本発明の一実施例のブロック図,第2図は,第
1図のマッチング部の詳細ブロック図,第3TyAは,
音声パタンの伸縮処理を説明する図、第4図は、ピッチ
周波数バタンを判定するための形状の例を示す図,第5
図は、音声の追加収録を行なう場合の一実施例のブロッ
ク図である。 1・・・特徴抽出部、2・・・音声データファイル、3
・・・ホルマント合成部、4・・・vC■ホルマントフ
ァイル、5・・・ホルマント形合成規則、6・・・マッ
チング部、7・・・PARCOR形合成部、8・・・ス
ピーカ、9・・・バツファ. 第 ! 図 猶 2 図 第 3 凹 第 4 図 笛 5 図

Claims (1)

  1. 【特許請求の範囲】 1、入力された文字列を音声に変換する規則による音声
    合成装置において、ホルマント周波数を中心として中間
    の合成音のためのスペクトル周波数パタンやピッチ周波
    数パタンを作成する手段と、あらかじめ音声のスペクト
    ル形状の近似度の高い分析方法で、分析され、かつ音韻
    などの単位でセグメンテーシヨンされ、ラベル付けされ
    た音声データを格納する手段と、中間の合成音に類似し
    た音声データをパタンマッチング手法により選択する手
    段と、選択された音声データを接続し、合成器を通じて
    音声として出力する手段を設けたことを特徴とする音声
    合成方式。 2、請求項1記載の音声合成方式において、パタンマッ
    チングの結果、類似した音声が得られなかつた場合、中
    間の合成音のホルマント周波数などの音韻情報やピッチ
    周波数のような韻律情報および文字列を利用者に表示す
    る手段と、その表示のうち、エラーとなつた区間をマー
    クする手段を有し、音声データの追加登録時に、入力音
    声を一時保持する手段と、エラーとなつた中間の合成音
    区間と入力音声との類似度を求める手段と、一定以上の
    類似度を示すとき、その入力音声を音声データとして登
    録する手段を設けたことを特徴とする合成用音声の収集
    方式。
JP1241996A 1989-09-20 1989-09-20 音声合成方式 Pending JPH03105400A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1241996A JPH03105400A (ja) 1989-09-20 1989-09-20 音声合成方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1241996A JPH03105400A (ja) 1989-09-20 1989-09-20 音声合成方式

Publications (1)

Publication Number Publication Date
JPH03105400A true JPH03105400A (ja) 1991-05-02

Family

ID=17082701

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1241996A Pending JPH03105400A (ja) 1989-09-20 1989-09-20 音声合成方式

Country Status (1)

Country Link
JP (1) JPH03105400A (ja)

Similar Documents

Publication Publication Date Title
US8719030B2 (en) System and method for speech synthesis
EP0831460B1 (en) Speech synthesis method utilizing auxiliary information
US7953600B2 (en) System and method for hybrid speech synthesis
US8886538B2 (en) Systems and methods for text-to-speech synthesis using spoken example
US5400434A (en) Voice source for synthetic speech system
JP2000172285A (ja) フィルタパラメ―タとソ―ス領域において独立にクロスフェ―ドを行う半音節結合型のフォルマントベ―スのスピ―チシンセサイザ
JPS62160495A (ja) 音声合成装置
JPH031200A (ja) 規則型音声合成装置
US20040030555A1 (en) System and method for concatenating acoustic contours for speech synthesis
JPH1091183A (ja) 言語合成のためのランタイムアコースティックユニット選択方法及び装置
JP3450237B2 (ja) 音声合成装置および方法
JP3281266B2 (ja) 音声合成方法及び装置
US6829577B1 (en) Generating non-stationary additive noise for addition to synthesized speech
JPH01284898A (ja) 音声合成方法
JPH0887297A (ja) 音声合成システム
JP3109778B2 (ja) 音声規則合成装置
JPH08335096A (ja) テキスト音声合成装置
JPH03105400A (ja) 音声合成方式
JP2900454B2 (ja) 音声合成装置の音節データ作成方式
JP3081300B2 (ja) 残差駆動型音声合成装置
JPH11231899A (ja) 音声・動画像合成装置及び音声・動画像データベース
JP2577372B2 (ja) 音声合成装置および方法
JPH0756590A (ja) 音声合成装置、音声合成方法及び記録媒体
JPH0358100A (ja) 規則型音声合成装置
JP3241582B2 (ja) 韻律制御装置及び方法