JP2002091475A

JP2002091475A - 音声合成方法

Info

Publication number: JP2002091475A
Application number: JP2000281683A
Authority: JP
Inventors: Akira Mochizuki; 亮望月; Toshiyuki Isono; 敏幸礒野; Hirofumi Nishimura; 洋文西村
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2000-09-18
Filing date: 2000-09-18
Publication date: 2002-03-27
Also published as: EP1195743A3; DE60120585D1; ES2266063T3; CN1345028A; US7016840B2; US20020052733A1; EP1195743B1; DE60120585T2; CN1243340C; EP1195743A2; TW525145B

Abstract

(57)【要約】【課題】音声素片を変形、接続して音声を合成する
際、大幅なデータ圧縮をすることができ、しかも、音質
の劣化を小さくすることができる音声合成方法を提供す
ること。【解決手段】音声素片の有声部分をピッチ波形３０１
単位に分解し、ピッチ波形３０１の位相特性３０３を特
定の代表位相特性３０５に置き換え、位相特性が置き換
えられたピッチ波形３０７を似通ったピッチ波形同士に
グループ化し、グループ毎に代表ピッチ波形を決定し、
この代表ピッチ波形を用いて音声を合成するよう構成し
た。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声素片を変形、
接続して音声を合成する波形重畳方式の音声合成方法に
関し、特に、音声素片の有声部分をピッチ波形単位に分
解して加工する音声合成方法に関するものである。

【０００２】

【従来の技術】従来、音声素片を変形、接続して音声を
合成する波形重畳型の音声合成方法（特開平１０−１７
１４８４号公報に記載）は、使用するメモリ容量が少な
くて済むように、音声素片をピッチ波形単位に分解し、
このピッチ波形の中から冗長と思われるピッチ波形を省
き、代表となるピッチ波形を用いて音声を合成するよう
になっていた。

【０００３】

【発明が解決しようとする課題】しかしながら、このよ
うな従来の音声合成方法では、位相特性の相違によって
ピッチ波形の形状が様々であるため、類似度の高いピッ
チ波形をまとめあげて代表ピッチ波形に置き換えたとし
ても、大幅なデータ削減にはつながらないという問題が
あった。

【０００４】本発明はこのような問題を解決するために
なされたもので、音声素片を変形、接続して音声を合成
する際、大幅なデータ圧縮をすることができ、しかも、
音質の劣化を小さくすることができる音声合成方法を提
供するものである。

【０００５】

【課題を解決するための手段】本発明の音声合成方法
は、音声素片を変形、接続して音声を合成する波形重畳
方式の音声合成方法において、音声素片の有声部分をピ
ッチ波形単位に分解し、前記ピッチ波形の位相特性を特
定の代表位相特性に置き換え、前記ピッチ波形を似通っ
たピッチ波形同士にグループ化し、グループ毎に代表ピ
ッチ波形を決定し、前記代表ピッチ波形を用いて音声を
合成する構成を有している。この構成により、ピッチ波
形の位相特性の不一致によるピッチ波形の形状の違いを
取り除いた後、ピッチ波形をグループ化して代表ピッチ
波形を選択するため、多数のピッチ波形をひとつの代表
ピッチ波形に置き換えることができるようになり、大幅
なデータ圧縮をすることができることとなる。また、ピ
ッチ波形単位の位相特性は変更しても合成した音声の音
質にほとんど影響を与えないため、音質劣化が少ない音
声合成をすることができることとなる。

【０００６】本発明の音声合成方法は、前記代表位相特
性を、前記音声素片の有声部分を分解して得た複数のピ
ッチ波形から求める構成を有している。この構成によ
り、もととなる音声素片の有声部分を分解して得た複数
のピッチ波形から代表位相特性を求めるので、ピッチ波
形の位相特性の置き換えに伴うピッチ波形の形状の変更
を小さくすることができ、音質劣化がさらに少ない音声
を合成することができることとなる。

【０００７】本発明の音声合成方法は、前記代表位相特
性を、前記複数のピッチ波形の位相特性を平均して求め
る構成を有している。この構成により、もととなる音声
素片の有声部分を分解して得た複数のピッチ波形の位相
特性を平均して求めるので、ピッチ波形の位相特性の置
き換えに伴うピッチ波形の形状の変更を小さくすること
ができ、音質劣化がさらに少ない音声を合成することが
できることとなる。

【０００８】本発明の音声合成方法は、予め音素の種別
毎に前記ピッチ波形を分類する構成を有している。この
構成により、グループ分けにかかる演算量を大幅に省け
るとともに、音素の種別が異なるピッチ波形同士が同一
グループに振り分けられることを防ぐことができ、安定
した音質の音声を合成することができることとなる。

【０００９】本発明の音声合成方法は、前記ピッチ波形
をグループ化する際、前記ピッチ波形の振幅特性に対し
て周波数毎に重み付けして生成した類似度評価用のピッ
チ波形同士を比較する構成を有している。この構成によ
り、各周波数帯域における振幅特性が合成音声の音質に
与える影響を考慮することができ、音質との整合性がと
れた類似度評価が可能となり、安定した音質の音声を合
成することができることとなる。

【００１０】本発明の音声合成方法は、合成時に隣接し
て用いる代表ピッチ波形同士を比較し、前記比較の結果
が所定の条件を満たさないとき、代表ピッチ波形を決定
し直す構成を有している。この構成により、音声素片を
代表ピッチ波形によって再構成する際に、隣接する代表
ピッチ波形間の連続性が考慮され、音質の劣化をさらに
小さくすることができることとなる。

【００１１】

【発明の実施の形態】以下、本発明の実施の形態につい
て、図面を用いて説明する。

【００１２】（第１の実施の形態）図１は音声素片から
抽出したピッチ波形をグループ分けして代表ピッチ波形
を決定する例を示した図である。図１において、音声素
片１０１〜１０４は、ＣＶ（子音・母音）、ＶＣＶ（母
音・子音・母音）といった単位からなり、合成時に韻律
変形を施して接続する。ピッチ波形データベース１１１
は音声素片の有声部分から抽出したピッチ波形を格納す
るものである。類似したピッチ波形を集めたグループ１
２２、１２３は、位相特性が統一されたピッチ波形につ
いて、類似度を評価関数にして振り分けたものである。
代表ピッチ波形１３２、１３３は各グループ１２２、１
２３から選出された代表となるピッチ波形である。代表
ピッチ波形データベース１３１は代表ピッチ波形１３
２、１３３を格納するものである。

【００１３】図２は音声素片の一部分からピッチ波形を
抽出する例を示した図である。図２において、ピッチ波
形２１１〜２１７は原音声からハニング窓によって抽出
される。ピッチマーク位置２２１〜２２７はピッチ波形
抽出の基準であり、予め自動または手動で付与してあ
る。

【００１４】図３はピッチ波形の位相特性を特定の位相
特性（代表位相特性）に置き換える例を示した図であ
る。図３において、まず、音声素片から抽出した時間軸
のピッチ波形３０１に対してフーリエ変換処理３０２を
行い、周波数軸の位相特性３０３および振幅特性３０４
を得る。ここで、位相特性３０３を、予め選定または生
成された代表位相特性３０５に置き換える。図４はピッ
チ波形の位相特性（または代表位相特性）の例を示した
図であり、位相は各周波数毎に異なっている。なお、振
幅特性３０４については置き換えを行わない。次に、代
表位相特性３０５と振幅特性３０４とに対して逆フーリ
エ変換処理３０６を行い、位相特性が代表位相特性に置
き換えられた時間軸のピッチ波形３０７を得る。

【００１５】図５は代表ピッチ波形を用いて音声素片を
再構成する例を示した図である。図５において、代表ピ
ッチ波形５１１〜５１３はピッチ波形の代替として使用
される。代表ピッチ波形５１１〜５１３を配列して再構
成された音声素片５２１を得る。

【００１６】本実施の形態は、まず、図１に示すよう
に、音声素片１０１〜１０４の有声部分をピッチ波形単
位に分解し、各ピッチ波形をピッチ波形データベース１
１１に格納する。ピッチ波形は、図２に示すように予め
音声波形に付与されたピッチマーク位置２２１〜２２７
を基準に、ハニング窓を用いて抽出する。続いて、ピッ
チ波形データベース１１１に格納されたピッチ波形につ
いて、図３に示すように、位相特性を統一する。ピッチ
波形の位相特性は、変更しても合成音声の音質にほとん
ど影響を与えないため、あるひとつの位相特性（代表位
相特性）に置きかえる。位相特性を統一することで、位
相特性の違いによって生じる波形形状の不一致を取り除
き、ピッチ波形間の類似性を高めることができる。続い
て、図１に示すように、位相特性を統一したピッチ波形
データベース１１１内で、類似度が高いピッチ波形同士
をグループにまとめあげる。ピッチ波形間の類似度は、
距離（ユークリッド距離）や相関、尤度によって定義で
きる。ここでは類似度を表す指標として相関係数を用い
る。あるふたつのピッチ波形S_mおよびS_nの相関係数Ｍ _mn
は下記数１から求める。

【数１】ここで、l はピッチ波形長を表し、ふたつのピッチ波形
の波形長のうち、短い方に合わせる。続いて、図１に示
すように、各グループ１２２、１２３において、それぞ
れ代表ピッチ波形１３２、１３３を選定する。各グルー
プにおける代表ピッチ波形の選定は、ベクトル量子化に
よってコードブックを作成する要領でセントロイドを求
め、このセントロイドの最近傍にあるピッチ波形を代表
ピッチ波形として選定し、代表ピッチ波形データベース
１３１に格納する。そして、図５に示すように、代表ピ
ッチ波形５１１〜５１３によって音声素片５２１を再構
成する。なお、もとの音声素片を構成するピッチ波形と
代表ピッチ波形５１１〜５１３との対応関係は、音声素
片を再構成するための情報として保存する。合成時に
は、この対応関係を示す情報を参照することで必要な音
声素片５２１を再構成する。

【００１７】以上のように本実施の形態によれば、ピッ
チ波形を共有化することにより冗長なデータの削減が可
能であり、特に位相特性を統一することで、位相特性の
不一致によって生じる波形形状のばらつきを取り除くこ
とができ、ピッチ波形間の類似度が高まることから、飛
躍的にデータベースを縮小することが可能である。

【００１８】なお、前記説明では、ＣＶ単位、ＶＣＶ単
位の音声素片からピッチ波形を抽出した場合を例に説明
したが、当然、その他の単位の音声素片や、任意の自然
発声音声から抽出したピッチ波形に対して処理すること
も可能である。

【００１９】また、前記説明では、ピッチ波形間の類似
度を時間軸で評価する場合を例に示したが、周波数軸に
おいて振幅スペクトルの距離を用いて評価する方法で
も、ほぼ同等の効果が得られる。

【００２０】尚、上記説明では、各グループ分けされた
ピッチ波形の中から代表ピッチ波形を選定する方法を例
に示したが、各グループ分けされたピッチ波形の中で、
セントロイド（重心）を代表ピッチ波形として用いるこ
とも可能である。

【００２１】（第２の実施の形態）第２の実施の形態
は、音声合成に利用する音声素片の有声部分を分解して
得たピッチ波形から、統計的な手法によって、代表ピッ
チ波形を求めるようになっている。また、代表位相特性
を複数用意して選択するようになっている。その他の処
理は、第１の実施形態と同じであり、詳細な説明を省略
する。

【００２２】図６は代表位相特性を決定する例を示した
図である。図６において、ピッチ波形６０１は代表位相
特性を決定するための分析対象である。フーリエ変換処
理６０２はピッチ波形６０１を周波数分析する処理であ
る。位相特性６０３はピッチ波形６０１からフーリエ変
換処理６０２によって得られる。代表位相特性生成処理
６０４は統計的な手法によって代表位相特性を生成する
方法である。代表位相特性データベース６０５は代表位
相特性を格納するものである。なお、ピッチ波形データ
ベース１１１は、図１に示したピッチ波形データベース
１１１であって、音声合成に利用する音声素片の有声部
分を分解して得た複数のピッチ波形を格納したものであ
る。

【００２３】ここで、代表位相特性を求める統計的な手
法の例を説明する。フーリエ変換処理６０２の結果、ピ
ッチ波形の周波数軸における振幅特性Ａ（ｗ）および位
相特性Ｐ（ｗ）は、実部Ｒ（ｗ）と虚部Ｉ（ｗ）を用い
て、それぞれ、Ａ（ｗ）＝（Ｒ（ｗ）²＋Ｉ（ｗ）²）^1/2 Ｐ（ｗ）＝ｔａｎ^-1（Ｉ（ｗ）／Ｒ（ｗ））によって求められる。なお、ｗは周波数［Ｈｚ］を表
し、離散値である。ここで、ピッチ波形データベース１
１１内のＮ個のピッチ波形について、位相特性の平均
Ｐ’（ｗ）を下記数２によって求め、このＰ’（ｗ）を
代表位相特性とする。すなわち、複数のピッチ波形につ
いて周波数毎の位相の平均を代表位相特性とする。

【数２】

【００２４】図７は代表位相特性を選択して位相特性を
置き換える例を示した図である。図７において、ピッチ
波形７０１は音声合成に利用する音声素片の有声部分を
分解して得たピッチ波形である。フーリエ変換処理７０
２はピッチ波形７０１を周波数分析する処理である。振
幅特性７０３および位相特性７０４は、フーリエ変換処
理７０２によって得られる周波数軸におけるピッチ波形
７０１の特性である。代表位相特性７０５は位相特性７
０４の代わりに使用される位相特性である。逆フーリエ
変換処理７０６は周波数軸から時間軸に戻す処理であ
る。逆フーリエ変換処理７０６によって、位相特性が置
き換えられたピッチ波形７０７が得られる。代表位相特
性選択処理７０８は代表位相特性データベース６０５か
ら適切な代表位相特性を選択する処理である。

【００２５】本実施の形態では、図６に示すように、ピ
ッチ波形データベース１１１に格納されているすべての
ピッチ波形について、フーリエ変換処理を施し、周波数
軸の位相特性を求める。ここで求まった複数のピッチ波
形の位相特性について類似度を基準にグループ分けを行
ない、複数の代表位相特性を求める。各グループの代表
位相特性は、グループ内の位相特性の平均を用いるか、
または、グループ分けされた位相特性の中から最もセン
トロイドに近い位相特性を選定する。このように求めた
代表位相特性を代表位相特性データベース６０５に格納
する。続いて、図７に示すように、ピッチ波形の位相特
性を代表位相特性に置き換える。まず位相操作の対象で
あるピッチ波形７０１にフーリエ変換処理７０２を施
し、振幅特性７０３と位相特性７０４を抽出する。抽出
された位相特性７０４を、代表位相特性７０５に置き換
える。代表位相特性データベース６０５に代表位相特性
が複数ある場合は、もとの位相特性７０４との類似度が
最も高い代表位相特性を選択する（代表位相特性の選択
処理７０８）。選択された代表位相特性７０５と振幅特
性７０３に対して逆フーリエ変換処理７０６を行い、位
相特性が置き換えられたピッチ波形７０７を得る。

【００２６】以上のように本実施の形態によれば、ピッ
チ波形の位相特性を、音声合成に利用する音声素片の有
声部分を分解して得たピッチ波形から統計的な手法によ
って求めた代表位相特性に置き換えることにより、ピッ
チ波形間の位相特性の不一致を回避でき、また、零位相
化のようにエネルギーが集中する不自然なピッチ波形に
なることが避けられ、音質が安定した音声合成をするこ
とができる。

【００２７】（第３の実施の形態）第３の実施の形態
は、予め音素の種別毎にピッチ波形を分類しておくよう
になっている。その他の処理は、第１または第２の実施
の形態と同じであり、詳細な説明を省略する。

【００２８】図８は音声素片から抽出したピッチ波形を
音素カテゴリ（音素の種別）に基づいて分類する例を示
した図である。図８において、ＶＣＶ単位の音声素片８
０１〜８０４はピッチ波形の抽出もとであり、ピッチ波
形データベース８１１〜８１３は音素の種別毎にグルー
プ分けされたピッチ波形をそれぞれ格納する。

【００２９】音声素片から抽出したすべてのピッチ波形
をひとつの集合として、この中から類似度の高いピッチ
波形同士をグループ化することは可能であるが、すべて
のピッチ波形を一度に取り扱う場合、ピッチ波形数が多
大になるためグループ分け処理に時間がかかり、作業効
率が良くない。そこで、音声素片から抽出したピッチ波
形をひとつのピッチ波形データベースに格納するのでは
なく、予め音素の種別毎にピッチ波形データベースを作
成する。音声素片８０１〜８０４は予め音素境界がラベ
リングされており、抽出したピッチ波形が属す音素の種
別に基づき、ピッチ波形は、音素の種別毎に分類されて
ピッチ波形データベース８１１〜８１３に格納される。
ここで音素の種別は、母音/a/、/i/、/u/、/e/、/o/、
撥音/n/、半母音/w/、/y/、有声子音/m/、/n/、/r/、/z
/、/j/、/b/、/d/、/g/、/v/といった音素の種別であ
る。続いて音素の種別毎にピッチ波形の位相特性を代表
位相特性に置き換え、グループ分けを行う。なお、代表
位相特性は、音素の種別毎に各ピッチ波形データベース
８１１〜８１３内で決定する。以降、各グループから代
表ピッチ波形を選定または生成し、この代表ピッチ波形
を用いて、音声素片を再構成する。

【００３０】以上のように、本実施の形態によれば、ピ
ッチ波形を予め音素の種別に基づいて分類することで、
グループ化処理にかかる計算の手間が大幅に省けるとと
もに、音素の種別が異なるピッチ波形同士が同一グルー
プにグループ分けされることを防げるため、音質が安定
した音声合成をすることができる。

【００３１】尚、前記説明では、ＶＣＶ単位の音声素片
からピッチ波形を抽出した場合を例に説明したが、当
然、その他の単位の音声素片や、任意の自然発声音声か
ら抽出したピッチ波形に対して処理することも可能であ
る。

【００３２】尚、前記説明では、各ピッチ波形データベ
ース毎に代表位相特性を決定する例を説明したが、すべ
てのピッチ波形データベースで同一の代表位相特性を決
定するようにしてもよい。

【００３３】（第４の実施の形態）第４の実施の形態
は、ピッチ波形をグループ化する際、ピッチ波形の振幅
特性に対して周波数毎に重み付けして生成した類似度評
価用のピッチ波形同士を比較するようになっている。そ
の他の処理は、第１、第２、または第３の実施の形態と
同じであり、詳細な説明を省略する。

【００３４】図９はピッチ波形間の類似度を評価するた
めの前処理の例を示した図である。図９において、もと
のピッチ波形９０１は重み付け処理を行う前のピッチ波
形である。振幅特性９１１は、ピッチ波形９０１に対し
てフーリエ変換処理を行って得られた周波数軸の振幅特
性である。振幅特性９１１に対して周波数帯域毎に設定
する振幅利得（重み）９２１は、周波数帯域毎の重要性
に応じて任意に決められている。前処理フィルタ９０２
は、ピッチ波形９０１に対してフーリエ変換処理を行っ
て得られた振幅特性９１１に対して、周波数帯域毎に振
幅利得９２１を設定する。この周波数帯域毎に振幅利得
が設定された振幅特性と、代表位相特性とによって逆フ
ーリエ変換が行われ、この逆フーリエ変換によって得ら
れた類似度評価用のピッチ波形９０３、すなわち振幅利
得９２１が設定されたピッチ波形９０３によって、ピッ
チ波形同士の類似度の評価を行う。

【００３５】ピッチ波形間の類似度は、ピッチ波形間の
相関係数によって評価する。この相関係数が１に近いほ
どピッチ波形間の類似度が高いことを示し、類似度が高
いピッチ波形同士は音声素片を再構成する際に相互に置
き換えを行なっても歪みが少ない。すなわち、代表ピッ
チ波形とそのグループに属すピッチ波形との相関係数が
高ければ、代表ピッチ波形を用いることによって音質劣
化が生じることはない。

【００３６】音声波形間の類似度を定義するにあたり、
低域における振幅特性は音声の連続性を保持するために
極めて高い類似度を必要とするが、高域における振幅特
性の類似度はそれほど気にしなくても良い場合がある。
このように周波数帯域毎に振幅特性の重要度が違ってく
る。ここでは低域の振幅特性に重みを置いた場合を例に
して説明すると、類似度の評価対象となるピッチ波形の
振幅特性９１１に対して、周波数帯域に応じた振幅利得
９２１をかけあわせる。このように、帯域毎に重み付け
されたピッチ波形を用いて類似度の評価を行なう。これ
はピッチ波形９０１を低域通過フィルタに通し、高域成
分の影響を抑えたピッチ波形９０３を用いて類似度を評
価する処理と等化である。尚、類似度の評価にはこのフ
ィルタリングをしたピッチ波形を用いるが、実際にグル
ープ分けされ、代表ピッチ波形として選定されるのは、
フィルタ処理を行なわないピッチ波形である。すなわ
ち、本処理は類似度の評価を行うための処理である。

【００３７】以上のように、本実施の形態によれば、類
似度評価を行なう前処理として、ピッチ波形に対して周
波数帯域毎に重み付けをすることで、各周波数帯域の振
幅特性が合成音声の音質に与える影響を考慮した上で類
似度を評価することができるため、音質と類似度との関
係の整合性がとれたピッチ波形削減が可能である。

【００３８】尚、類似度評価用のピッチ波形同士による
類似度の評価は、周波数軸におけるピッチ波形の振幅特
性に基づいて類似度を評価するようにしてもよく、ま
た、時間軸でフィルタリングされたピッチ波形を用いて
類似度を評価するようにしてもよい。

【００３９】（第５の実施の形態）第５の実施の形態
は、隣接して用いる代表ピッチ波形同士の類似度を評価
するようになっている。

【００４０】図１０は隣接して用いる代表ピッチ波形の
類似度を評価する例を示した図である。図１０におい
て、初期の代表ピッチ波形を選定する処理１００１、ピ
ッチ波形のグループ分け処理１００２、各グループにお
ける代表ピッチ波形の選定処理１００３、各代表ピッチ
波形が条件を満たしているかどうかの判定処理１００
４、１００５、および、代表ピッチ波形の選定処理１０
０６は、本処理の各構成要素である。図１１は連続する
ピッチ波形間の類似度と代表ピッチ波形の類似度との関
係を説明する図である。図１１において、ピッチ波形１
１０１、１１０２は音声素片内の隣り合うピッチ波形で
あり、代表ピッチ波形１１１１、１１１２は、ピッチ波
形１１０１、１１０２の代わりに使用される波形であ
る。

【００４１】図１０において、まず、ピッチ波形データ
ベース内において全てのピッチ波形の中から、任意のピ
ッチ波形を初期の代表ピッチ波形に選定する（１００
１）。続いてすべてのピッチ波形について、代表ピッチ
波形との類似度を計算し、最も類似度が高くなる代表ピ
ッチ波形のグループに各ピッチ波形を割り振る（１００
２）。ここで代表ピッチ波形の数だけグループが作成さ
れることになる。全てのピッチ波形をグループ分けした
ら、各グループ毎に新たに代表ピッチ波形を選定し直す
（１００３）。代表ピッチ波形は各グループ内で最も重
心近傍にあるピッチ波形を採用する。この新たに選定さ
れた代表ピッチ波形が条件を満たしているかどうか判断
する。ここで条件は２つあり、１つは代表ピッチ波形と
そのグループに属すすべてのピッチ波形との類似度が定
められた閾値を満たしていること（１００４）、もう１
つは代表ピッチ波形によって音声素片を再構成した際
に、隣接して用いる代表ピッチ波形同士の類似度が代表
ピッチ波形に置きかえられる前のピッチ波形同士の類似
度で決まる閾値を満たしていること（１００５）であ
る。もし、条件が満たされないときは、このグループを
２つのグループに分割し、各グループにそれぞれ代表ピ
ッチ波形を選定する（１００６）。このように各代表ピ
ッチ波形について、グループ内のすべてのピッチ波形と
の類似度、および、隣接して用いる代表ピッチ波形との
類似度が、所定の条件を満たすまで一連の処理を繰り返
し、最終の代表ピッチ波形を決定する。

【００４２】ピッチ波形のグループ化処理において、新
たに代表ピッチ波形を作成するかどうかの判断は、各代
表ピッチ波形とグループ内のピッチ波形との類似度が所
定の条件を満たしているかどうかで決定されるが、本実
施の形態ではこれに加え、選定された代表ピッチ波形間
の類似度も判断材料として用いている。図１１におい
て、音声素片内の連続する２つのピッチ波形（１１０
１、１１０２）間の類似度に対して、それぞれの代用と
して使用される代表ピッチ波形（１１１１、１１１２）
間の類似度が、ある一定以上の類似度を満たすか否か判
定している。例えば、類似度として相関係数を用い、も
との連続するピッチ波形（１１０１、１１０２）間の相
関係数が０．９であった場合、この代用として使われる
代表ピッチ波形（１１１１、１１１２）間の相関係数
は、０．９α以上であることを条件とする。ここでαは
閾値を決定する所定の係数で、０＜α＜１である。この
条件が満たされるまで、一連のグループ分け処理を繰り
返し行なう。

【００４３】以上のように、本実施の形態によれば、各
グループ内のピッチ波形間の類似度だけでなく、音声素
片を代表ピッチ波形で再現した際に隣接して用いる代表
ピッチ波形間の類似度も考慮することで、連続性の良い
音声素片を再構成することができ、音質劣化の少ない音
声合成が可能となる。

【００４４】尚、前記説明では、ピッチ波形間の類似度
として相関係数を用いる例を示したが、スペクトル距離
を用いて評価しても、ほぼ同等の効果が得られる。

【００４５】

【発明の効果】本発明は、音声素片を変形、接続して音
声を合成する際、大幅なデータ圧縮をすることができ、
しかも、音質の劣化を小さくすることができるという優
れた効果を有する音声合成方法を提供することができる
ものである。

【図面の簡単な説明】

【図１】本発明に係る音声合成方法において代表ピッチ
波形を決定する例を示した図

【図２】本発明に係る音声合成方法においてピッチ波形
を抽出する例を示した図

【図３】本発明に係る音声合成方法において位相特性を
特定の代表位相特性に置き換える例を示した図

【図４】本発明に係る音声合成方法において位相特性の
例を示した図

【図５】本発明に係る音声合成方法において音声素片を
再構成する例を示した図

【図６】本発明に係る音声合成方法において代表位相特
性を決定する例を示した図

【図７】本発明に係る音声合成方法において代表位相特
性を選択して位相特性を置き換える例を示した図

【図８】本発明に係る音声合成方法においてピッチ波形
を音素の種別に基づいて分類する例を示した図

【図９】本発明に係る音声合成方法においてピッチ波形
間の類似度を評価するための前処理の例を示した図

【図１０】本発明に係る音声合成方法において隣接して
用いる代表ピッチ波形の類似度を評価する例を示した図

【図１１】本発明に係る音声合成方法において隣接して
用いる代表ピッチ波形間の類似度の関係を示した図

【符号の説明】

１０１〜１０４もとの音声素片１１１ピッチ波形データベース１２２、１２３ピッチ波形のグループ１３１代表ピッチ波形データベース１３２、１３３、５１１〜５１３代表ピッチ波形２１１〜２１７、３０１抽出したピッチ波形５２１再構成された音声素片

───────────────────────────────────────────────────── フロントページの続き (72)発明者西村洋文神奈川県横浜市港北区綱島東四丁目３番１号松下通信工業株式会社内Ｆターム(参考） 5D045 AA07

Claims

【特許請求の範囲】

【請求項１】音声素片を変形、接続して音声を合成す
る波形重畳方式の音声合成方法において、音声素片の有
声部分をピッチ波形単位に分解し、前記ピッチ波形の位
相特性を特定の代表位相特性に置き換え、前記ピッチ波
形を似通ったピッチ波形同士にグループ化し、グループ
毎に代表ピッチ波形を決定し、前記代表ピッチ波形を用
いて音声を合成することを特徴とする音声合成方法。
【請求項２】前記代表位相特性は、前記音声素片の有
声部分を分解して得た複数のピッチ波形から求めること
を特徴とする請求項１に記載の音声合成方法。
【請求項３】前記代表位相特性は、前記複数のピッチ
波形の位相特性を平均して求めることを特徴とする請求
項２に記載の音声合成方法。
【請求項４】予め音素の種別毎に前記ピッチ波形を分
類することを特徴とする請求項１乃至請求項３いずれか
に記載の音声合成方法。
【請求項５】前記ピッチ波形をグループ化する際、前
記ピッチ波形の振幅特性に対して周波数毎に重み付けし
て生成した類似度評価用のピッチ波形同士を比較するこ
とを特徴とする請求項１乃至請求項４いずれかに記載の
音声合成方法。
【請求項６】合成時に隣接して用いる代表ピッチ波形
同士を比較し、前記比較の結果が所定の条件を満たさな
いとき、代表ピッチ波形を決定し直すことを特徴とする
請求項１乃至請求項５いずれかに記載の音声合成方法。