JP3283657B2

JP3283657B2 - 音声規則合成装置

Info

Publication number: JP3283657B2
Application number: JP24659093A
Authority: JP
Inventors: 俊一矢島; 隆遠藤
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1993-10-01
Filing date: 1993-10-01
Publication date: 2002-05-20
Anticipated expiration: 2017-05-20
Also published as: JPH07104795A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声処理装置に関し、
特に自然でなめらかな合成音質を得るための音声規則合
成装置に関する。

【０００２】

【従来の技術】音声規則合成装置は、任意文章に対応す
る音声を規則により合成する装置である。音声規則合成
装置では音声素片（音声単位）といった名称の基本デー
タを保有し、これらを接続することで、所定の音声を合
成している。

【０００３】従来の代表的な音声合成方式は、ホルマン
ト合成方式である。この合成方式では音声を数個の共振
（ホルマント）周波数で表現し、これを音声単位として
おく。音声単位を接続するには、ホルマント周波数間を
補間することで対応している。この方式の利点は合成音
声の滑らかさが得られる点である。一方、音声を幾つか
のホルマント情報に凝縮してしまうことから、複雑なス
ペクトル包絡情報の表現精度が不十分で、望む合成音質
を実現できないといった問題点がある。

【０００４】最近、新たな音声合成方式として、波形重
畳法が検討されている。この方式はＰＳＥ（パワースペ
クトル包絡）分析合成法に代表され、音声のスペクトル
を正確に抽出し、その抽出結果を逆フーリェ変換した波
形を重畳して音声波形を合成する方式である。この合成
音はもとになる音声に対して忠実性が高く、高品質であ
る。なお、この方式の詳細については、中島他著、「パ
ワースペクトル包絡（ＰＳＥ）音声分析・合成系」（日
本音響学会誌４４巻１１号、昭和６３−１１）を参照す
ることができる。

【０００５】この分析合成方式を、規則合成に適用する
際には、肉声を幾つかの区分に分け予め本方式で分析し
ておき、これを音声単位としておく。所望の音声を合成
するには音声単位を接続することで対応している。この
方式はホルマント合成とは逆に、良質な合成音質を得ら
れる反面、音声単位の接続部での不連続さが残るといっ
た問題点がある。この理由は、異なる区分のスペクトル
包絡の補間処理が難しいからである。

【０００６】

【発明が解決しようとする課題】ホルマント合成方式の
利点は合成音声の滑らかさが得られる点である。一方、
音声を数個のホルマント情報に凝縮してしまうことか
ら、複雑なスペクトル包絡情報の表現精度が不十分で、
望む合成音質を実現できないといった問題点がある。
また波形重畳方式ではホルマント合成とは逆に、良質な
合成音質を得られる反面、補間がうまくできないため、
音声単位の接続部での不連続さが残るといった問題点が
ある。

【０００７】本発明の目的とするところは、従来の技術
における上述の如き問題を解消し、滑らかで高品質な規
則合成音声が得られる音声規則合成装置を提供すること
にある。

【０００８】

【課題を解決するための手段】そのために本発明では、
音声単位情報としてスペクトル包絡情報とそれに対応す
るホルマント周波数情報との両者を記憶しておく。また
２つの時点のホルマントを補間する手段と、それに対応
するスペクトル包絡を求める手段とを有する。

【０００９】

【作用】本発明に係る音声合成装置においては、前述の
ごとく従来手法の問題点が、ホルマント合成において
は、複雑なスペクトル包絡情報の表現精度が不十分で、
望む合成音質を実現できないといった点にあり、また波
形重畳方式ではスペクトル補間がうまく行なわれないた
め、音声単位の接続部での不連続さが残るといった点に
ある一方、両方式の特長がその逆であることに鑑み、各
々の特長で各々の問題点を解消しうるような構成にした
ものである。この結果、良好な規則合成音質が得られ
る。

【００１０】

【実施例】以下、本発明の実施例を図面に基いて詳細に
説明する。図１は本発明の一実施例を示す音声規則合成
装置のブロック構成図である。図１において、１０１は
言語処理部、１０２は韻律制御部、１０３は音声合成
部、１０４はスペクトル制御部、１０５はスペクトルフ
ァイル、１０６はホルマントファイルを示している。

【００１１】このように構成された本実施例の音声規則
合成装置の動作のあらましは次の通りである。１０１の
言語処理部では入力された文章に対して、その読み（音
韻系列）とアクセント位置、イントネーション、フレー
ズ間のポーズ情報を出力する。１０２の韻律制御部では
これらの情報を受けて出力すべき音声波形の各時点での
音の高さ（ピッチ周波数）、各音韻の時間長を計算す
る。１０４のスペクトル制御部では読み情報とにもとづ
き、スペクトルファイル１０５とホルマントファイル１
０６から該当する単位データを読み込み、一周期分の音
声波形データを生成し合成部に出力する。この出力時間
長は韻律制御部から入力された音韻の時間長情報であ
る。１０３の音声合成部では一周期波形データをピッチ
周波数に対応する時間間隔で重畳加算し、音声バッファ
メモリに蓄えておき、音声出力する。

【００１２】１０１の言語処理部に関しては、例えば国
分著「規則合成システムでコンピュータに日本語をしゃ
べらせる」日経バイト（１９８８年６月）に詳しい。ま
た１０２の韻律制御部に関しては、例えば箱田著「文音
声における音調規則」電子情報通信学会誌（Ｄ）（１９
８０年９月）に詳しい。また１０３の音声合成部に関し
ては中島著、「パワースペクトル包絡（ＰＳＥ）音声分
析・合成系」（日本音響学会誌４４巻１１号、昭和６３
−１１）に詳しい。これらの実装は当業者にとっては容
易である。

【００１３】次に図２〜図５によりスペクトル制御部の
詳細な説明を行う。図２において、２０１は単位読みだ
し部、２０２はホルマント補間部、２０３はスペクトル
補正部、２０４は逆ＦＦＴ処理部を示している。

【００１４】スペクトル制御部で、２つの時点の音声単
位を補間し対応する一周期波形を生成する際には次のよ
うな処理を行う。２０１の単位読み出し部では、まず出
力すべき音韻に対応して、２つの時点ｔ１，ｔ２のスペ
クトル単位Ｓ１とＳ２を読み出す。次に２０２のホルマ
ント補間部では、既に読み出されているスペクトルに対
応するホルマントＦ１、Ｆ２を読みだす。

【００１５】ここでＳ１，Ｓ２はスペクトル包絡情報
で、これは例えば０から４ｋＨｚまでの音声帯域におけ
る、各周波数での音圧レベル値である。またＦ１，Ｆ２
はホルマント周波数である。肉声のホルマントは通常３
ケ存在するため、通常は３次元のベクトルで表わされ
る。

【００１６】これらのスペクトル、ホルマント形状の模
式図を図３に示す。図３では本処理の内容を平易に説明
する目的でスペクトル形状を単純化し、単一のホルマン
トからなるスペクトルで示している。

【００１７】２ケのホルマントを補間するには、例えば
線形補間を行なえば良い。図３の例では時刻ｔのホルマ
ントＦは、式１で計算できる。例えばｔがｔ１とｔ２の
中心に位置する時には（Ｆ１＋Ｆ２）／２が補間ホルマ
ントとなる。

【００１８】

【数１】

【００１９】次に補間ホルマントに対応するスペクトル
包絡の求めかたについて述べる。所定のホルマントに対
応するスペクトルの算定法としては、たとえば線形予測
分析法がある。この方式に関しては、斎藤著「音声情報
処理の基礎」オーム社（１９８１）などに詳しい。ホル
マントからのスペクトル情報抽出法に関しては、本著作
のＰ９０に記載されている。具体的な手順は以下の通り
である。

【００２０】まず各ホルマントのバンド幅をＢとし、標
本化周波数をＦｓとする。

【００２１】

【数２】

【００２２】として、これが線形予測方程式の根になれ
ば良い。従って

【００２３】

【数３】

【００２４】を分母とする伝達関数で表わされる系が、
所望の共振周波数Ｆで共振特性を持つことになる。従っ
て、この共振系のスペクトルＨは、

【００２５】

【数４】

【００２６】で表わされる。ただこのスペクトルでは微
細なスペクトル構造が消失しており、これを回復する必
要がある。次にこの微細スペクトル構造の回復手順を説
明する。

【００２７】まず各時点ｔ１、ｔ２のホルマント周波数
Ｆ１、Ｆ２を数２に代入して数３、数４から得られた各
々のスペクトルをＨ１、Ｈ２とする。

【００２８】

【数５】

【００２９】数５は原スペクトルＳ１，Ｓ２を、線形予
測法により得られたスペクトルＨ１，Ｈ２で除したスペ
クトルである。このスペクトルＭ１，Ｍ２は微細なスペ
クトル構造のみを表わしている。

【００３０】時点ｔでの微細なスペクトルＭはＭ１，Ｍ
２を線形補間し次のような式で表わされる。

【００３１】

【数６】

【００３２】この微細な構造を持つスペクトルＭに、数
４で求めたＨを乗ずると、ホルマント構造が明確でかつ
微細構造が保存されたスペクトルＳが得られる。

【００３３】

【数７】

【００３４】以上の手順で微細な構造を保持し、かつホ
ルマント消失のないスペクトルが得られる。これまでの
手順でホルマントの個数は１つであったが、複数個のホ
ルマントにすることは容易で、ホルマント個数分に応じ
て数３を乗じ、数４により複数ホルマントに対応するス
ペクトルが求められる。

【００３５】このようにして求められたスペクトル包絡
Ｓを２０４により逆フーリェ変換すると、音声の一周期
波形が求められる。以上のような処理により、精細なス
ペクトル構造の欠落無く、かつまたホルマント部の消失
のないスペクトル包絡が得られる。因みに図４は単純に
スペクトル包絡Ｓ１とＳ２を線形補間して得られるスペ
クトル包絡の模式図である。このスペクトル包絡に基づ
き合成した音声では、ホルマントがあいまいで不明瞭な
音質になる。この問題は上述した如く本発明により解消
される。

【００３６】補間ホルマントに対応するスペクトル包絡
を、線形予測分析を用いず、より処理量が少なく簡単に
求める方法について述べる。これはスペクトル包絡をホ
ルマント位置で区分けし、区分化されたスペクトル包絡
を線形伸縮することにより、補間ホルマントに対応する
スペクトル包絡を求めるものである。以下図５を用いて
詳細に説明する。

【００３７】時点ｔ１のホルマント周波数を（Ｆ１１，
Ｆ１２）、スペクトルをＳ１とし、時点ｔ２のホルマン
ト周波数を（Ｆ２１，Ｆ２２）、スペクトルをＳ２とし
て、時刻ｔのスペクトルＳを求める。この２ケのホルマ
ント周波数を上下限とする周波数区間のスペクトルのな
かで周波数ｆでのスペクトルＳ（ｆ）は以下のようにし
て求められる。

【００３８】まず時点ｔの、ｔ１，ｔ２からの比例配分
位置αは次の式で求められる。

【００３９】

【数８】

【００４０】このαを用いてＦ１，Ｆ２，ｆは次の式で
求められる。

【００４１】

【数９】

【００４２】

【数１０】

【００４３】

【数１１】

【００４４】また区分された周波数区間での比例配分位
置βはｆ，ｆ１，ｆ２に関して同一であるから、

【００４５】

【数１２】

【００４６】が得られる。数１２に数１１を代入して次
の式が得られる。

【００４７】

【数１３】

【００４８】

【数１４】

【００４９】従って周波数ｆでのスペクトルＳ（ｆ）は
次の数１５から求められる。

【００５０】

【数１５】

【００５１】ここでｆ１，ｆ２は数１３、数１４で与え
られている。

【００５２】このようにして、ホルマント周波数を上下
限としたスペクトルを求められる。次に周波数ゼロから
第１ホルマントまでの処理であるが、これも周波数ゼロ
を下限周波数として同様にスペクトルが求められる。ま
た逆に上側の周波数帯域の処理も最高周波数のホルマン
トから、Ｆｓ／２までの周波数区間に対し同様な線形伸
縮処理を行なってスペクトルが得られる。

【００５３】このようにして求められたスペクトル包絡
Ｓを逆フーリェ変換すると、音声の一周期波形が求めら
れる。本スペクトル包絡算定方式は、線形予測分析を用
いた場合に比べ演算量が軽減され、若干スペクトル包絡
の形状が異なるものの、ホルマント部が消失しないスペ
クトル包絡が得られる。

【００５４】次に本発明の他の実施例の説明を行なう。
人間が発声した音声においては、その音の高さに応じて
ホルマント周波数の異なることが知られている。この現
象に関しては、例えば電子情報通信学会編「聴覚と音
声」（コロナ社）に詳しい。良質な合成音を得ようとす
ると、この人間の発声形態と同様に音の高さに対応して
スペクトルを変更して音声を合成しなければならない。
この合成系を実現するために、単純にあらゆる音の高さ
に対応するスペクトル包絡を用意しようとすると、これ
は極めて大量の記憶容量を必要とし実現は困難である。

【００５５】本発明の他の実施例はこれに対し、特定ピ
ッチのスペクトル包絡を別ピッチのスペクトル包絡に変
換することで、所要メモリの増大を招くことなく、ピッ
チ対応で異なるスペクトル包絡を用いた規則合成を実現
するものである。

【００５６】前記文献「聴覚と音声」によれば、ピッチ
周波数とホルマント周波数とは、ほぼ一次の正相関の関
係にある。この係数行列をＡとすると、ピッチ周波数Ｐ
０で観測したホルマントｆ０から換算した、ピッチ周波
数Ｐ１でのホルマントｆ１は次の数１６であたえられ
る。

【００５７】

【数１６】

【００５８】この係数行列Ａは、音韻の種類によって異
なる。前記文献「聴覚と音声」とから読み取った係数行
列を図６に示す。

【００５９】実際の処理は次の通りである。スペクトル
情報やホルマント情報は、肉声波形を分析して求められ
る。予め各ホルマントファイルにはそのデータを分析し
た際のピッチ周波数も格納しておく。そしてホルマント
情報を読み込む際には同時にその分析時のピッチ周波数
も読み込み、また合成すべきピッチ周波数も読み込む。

【００６０】２ケのホルマントの補間時には、先ず時点
ｔ１，ｔ２でのホルマントＦ１，Ｆ２を、合成すべきピ
ッチ周波数のホルマントＦ１’，Ｆ２’に変換する。こ
の変換は式１６により行なう。そして時点ｔでのホルマ
ントＦ’は、Ｆ１’，Ｆ２’から次の数１７により求め
られる。

【００６１】

【数１７】

【００６２】次に線形予測分析により得られた、各時点
ｔ１、ｔ２のホルマントＦ１、Ｆ２に対応するスペクト
ル情報をＨ１、Ｈ２とし、時点ｔでのピッチ修正を施し
たホルマントＦ’に対応するスペクトル情報をＨ’とし
て、時点ｔでのピッチ修正を施したスペクトル包絡は次
の数１８で求められる。

【００６３】

【数１８】

【００６４】このようにして求められたスペクトル包絡
Ｓ’を逆フーリェ変換すると、音声の一周期波形が求め
られる。以上のような処理により、ピッチ周波数に追従
したスペクトル包絡が得られ、高品質の合成音が得られ
る。

【００６５】上記実施例は本発明の一例を示したもの
で、本発明はこれに限定されるべきものではないことは
言うまでもない。

【００６６】

【発明の効果】以上、詳細に説明した如く、本発明によ
れば、人間の音声に近いスペクトル包絡が得られ、その
結果高品質の規則合成音声が得られる。

【図面の簡単な説明】

【図１】本発明の一実施例を示す音声規則合成装置のブ
ロック図である。

【図２】スペクトル制御部の詳細なブロック図である。

【図３】ホルマント補間にもとづくスペクトル包絡の補
間処理の模式図である。

【図４】スペクトル包絡の単純な補間処理の模式図であ
る。

【図５】もう１つのスペクトル包絡の補間処理の説明図
である。

【図６】ピッチ周波数によるホルマント周波数の変換係
数を示す図である。

【符号の説明】

１０１．．言語処理部，１０２．．韻律制御
部，１０３．．音声合成部，１０４．．スペク
トル制御部，１０５．．スペクトルファイル，１０
６．．ホルマントファイル，２０１．．単位読
みだし部，２０２．．ホルマント補間部，２０３
．．スペクトル補正部，２０４．．逆ＦＦＴ処理
部。

フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 13/04 G10L 13/08

Claims

(57)【特許請求の範囲】

【請求項１】文字列もしくは記号列を入力するテキスト
入力手段と、前記入力手段から入力されたテキストを解
析するテキスト解析手段と、前記テキスト解析手段で得
られた解析結果に従って韻律パラメーターを作成する韻
律パラメーター作成手段と、合成パラメーターを作成す
る合成パラメーター作成手段と、前記合成パラメータか
ら音声を合成する音声合成手段とから成る音声規則合成
装置において、各音韻の特徴点ごとにスペクトル包絡情
報とホルマント情報とを格納する手段と、前記テキスト
解析手段による解析結果から前記格納手段のスペクトル
包絡情報とホルマント情報とを読み出す手段と、ホルマ
ント情報に基づきスペクトル包絡情報を区分けし線形伸
縮によりスペクトル包絡情報を補間する手段とを有する
ことを特徴とする音声規則合成装置。
【請求項２】文字列もしくは記号列を入力するテキスト
入力手段と、前記入力手段から入力されたテキストを解
析するテキスト解析手段と、前記テキスト解析手段で得
られた解析結果に従って韻律パラメーターを作成する韻
律パラメーター作成手段と、合成パラメーターを作成す
る合成パラメーター作成手段と、前記合成パラメータか
ら音声を合成する音声合成手段とから成る音声規則合成
装置において、各音韻の特徴点ごとにスペクトル包絡情
報とピッチ周波数情報を含むホルマント情報とを格納す
る手段と、前記テキスト解析手段による解析結果から前
記格納手段のスペクトル包絡情報とホルマント情報とを
読み出す手段と、該ホルマント情報に基づきスペクトル
包絡情報をピッチ修正しスペクトル包絡情報を補間する
手段とを有することを特徴とする音声規則合成装置。