JP2002091475A - 音声合成方法 - Google Patents
音声合成方法Info
- Publication number
- JP2002091475A JP2002091475A JP2000281683A JP2000281683A JP2002091475A JP 2002091475 A JP2002091475 A JP 2002091475A JP 2000281683 A JP2000281683 A JP 2000281683A JP 2000281683 A JP2000281683 A JP 2000281683A JP 2002091475 A JP2002091475 A JP 2002091475A
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- representative
- waveform
- waveforms
- pitch waveform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 42
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 14
- 230000015572 biosynthetic process Effects 0.000 claims description 11
- 238000003786 synthesis reaction Methods 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 10
- 230000001131 transforming effect Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000006866 deterioration Effects 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 22
- 238000012545 processing Methods 0.000 description 16
- 238000007619 statistical method Methods 0.000 description 4
- 238000013144 data compression Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
(57)【要約】
【課題】 音声素片を変形、接続して音声を合成する
際、大幅なデータ圧縮をすることができ、しかも、音質
の劣化を小さくすることができる音声合成方法を提供す
ること。 【解決手段】 音声素片の有声部分をピッチ波形301
単位に分解し、ピッチ波形301の位相特性303を特
定の代表位相特性305に置き換え、位相特性が置き換
えられたピッチ波形307を似通ったピッチ波形同士に
グループ化し、グループ毎に代表ピッチ波形を決定し、
この代表ピッチ波形を用いて音声を合成するよう構成し
た。
際、大幅なデータ圧縮をすることができ、しかも、音質
の劣化を小さくすることができる音声合成方法を提供す
ること。 【解決手段】 音声素片の有声部分をピッチ波形301
単位に分解し、ピッチ波形301の位相特性303を特
定の代表位相特性305に置き換え、位相特性が置き換
えられたピッチ波形307を似通ったピッチ波形同士に
グループ化し、グループ毎に代表ピッチ波形を決定し、
この代表ピッチ波形を用いて音声を合成するよう構成し
た。
Description
【0001】
【発明の属する技術分野】本発明は、音声素片を変形、
接続して音声を合成する波形重畳方式の音声合成方法に
関し、特に、音声素片の有声部分をピッチ波形単位に分
解して加工する音声合成方法に関するものである。
接続して音声を合成する波形重畳方式の音声合成方法に
関し、特に、音声素片の有声部分をピッチ波形単位に分
解して加工する音声合成方法に関するものである。
【0002】
【従来の技術】従来、音声素片を変形、接続して音声を
合成する波形重畳型の音声合成方法(特開平10−17
1484号公報に記載)は、使用するメモリ容量が少な
くて済むように、音声素片をピッチ波形単位に分解し、
このピッチ波形の中から冗長と思われるピッチ波形を省
き、代表となるピッチ波形を用いて音声を合成するよう
になっていた。
合成する波形重畳型の音声合成方法(特開平10−17
1484号公報に記載)は、使用するメモリ容量が少な
くて済むように、音声素片をピッチ波形単位に分解し、
このピッチ波形の中から冗長と思われるピッチ波形を省
き、代表となるピッチ波形を用いて音声を合成するよう
になっていた。
【0003】
【発明が解決しようとする課題】しかしながら、このよ
うな従来の音声合成方法では、位相特性の相違によって
ピッチ波形の形状が様々であるため、類似度の高いピッ
チ波形をまとめあげて代表ピッチ波形に置き換えたとし
ても、大幅なデータ削減にはつながらないという問題が
あった。
うな従来の音声合成方法では、位相特性の相違によって
ピッチ波形の形状が様々であるため、類似度の高いピッ
チ波形をまとめあげて代表ピッチ波形に置き換えたとし
ても、大幅なデータ削減にはつながらないという問題が
あった。
【0004】本発明はこのような問題を解決するために
なされたもので、音声素片を変形、接続して音声を合成
する際、大幅なデータ圧縮をすることができ、しかも、
音質の劣化を小さくすることができる音声合成方法を提
供するものである。
なされたもので、音声素片を変形、接続して音声を合成
する際、大幅なデータ圧縮をすることができ、しかも、
音質の劣化を小さくすることができる音声合成方法を提
供するものである。
【0005】
【課題を解決するための手段】本発明の音声合成方法
は、音声素片を変形、接続して音声を合成する波形重畳
方式の音声合成方法において、音声素片の有声部分をピ
ッチ波形単位に分解し、前記ピッチ波形の位相特性を特
定の代表位相特性に置き換え、前記ピッチ波形を似通っ
たピッチ波形同士にグループ化し、グループ毎に代表ピ
ッチ波形を決定し、前記代表ピッチ波形を用いて音声を
合成する構成を有している。この構成により、ピッチ波
形の位相特性の不一致によるピッチ波形の形状の違いを
取り除いた後、ピッチ波形をグループ化して代表ピッチ
波形を選択するため、多数のピッチ波形をひとつの代表
ピッチ波形に置き換えることができるようになり、大幅
なデータ圧縮をすることができることとなる。また、ピ
ッチ波形単位の位相特性は変更しても合成した音声の音
質にほとんど影響を与えないため、音質劣化が少ない音
声合成をすることができることとなる。
は、音声素片を変形、接続して音声を合成する波形重畳
方式の音声合成方法において、音声素片の有声部分をピ
ッチ波形単位に分解し、前記ピッチ波形の位相特性を特
定の代表位相特性に置き換え、前記ピッチ波形を似通っ
たピッチ波形同士にグループ化し、グループ毎に代表ピ
ッチ波形を決定し、前記代表ピッチ波形を用いて音声を
合成する構成を有している。この構成により、ピッチ波
形の位相特性の不一致によるピッチ波形の形状の違いを
取り除いた後、ピッチ波形をグループ化して代表ピッチ
波形を選択するため、多数のピッチ波形をひとつの代表
ピッチ波形に置き換えることができるようになり、大幅
なデータ圧縮をすることができることとなる。また、ピ
ッチ波形単位の位相特性は変更しても合成した音声の音
質にほとんど影響を与えないため、音質劣化が少ない音
声合成をすることができることとなる。
【0006】本発明の音声合成方法は、前記代表位相特
性を、前記音声素片の有声部分を分解して得た複数のピ
ッチ波形から求める構成を有している。この構成によ
り、もととなる音声素片の有声部分を分解して得た複数
のピッチ波形から代表位相特性を求めるので、ピッチ波
形の位相特性の置き換えに伴うピッチ波形の形状の変更
を小さくすることができ、音質劣化がさらに少ない音声
を合成することができることとなる。
性を、前記音声素片の有声部分を分解して得た複数のピ
ッチ波形から求める構成を有している。この構成によ
り、もととなる音声素片の有声部分を分解して得た複数
のピッチ波形から代表位相特性を求めるので、ピッチ波
形の位相特性の置き換えに伴うピッチ波形の形状の変更
を小さくすることができ、音質劣化がさらに少ない音声
を合成することができることとなる。
【0007】本発明の音声合成方法は、前記代表位相特
性を、前記複数のピッチ波形の位相特性を平均して求め
る構成を有している。この構成により、もととなる音声
素片の有声部分を分解して得た複数のピッチ波形の位相
特性を平均して求めるので、ピッチ波形の位相特性の置
き換えに伴うピッチ波形の形状の変更を小さくすること
ができ、音質劣化がさらに少ない音声を合成することが
できることとなる。
性を、前記複数のピッチ波形の位相特性を平均して求め
る構成を有している。この構成により、もととなる音声
素片の有声部分を分解して得た複数のピッチ波形の位相
特性を平均して求めるので、ピッチ波形の位相特性の置
き換えに伴うピッチ波形の形状の変更を小さくすること
ができ、音質劣化がさらに少ない音声を合成することが
できることとなる。
【0008】本発明の音声合成方法は、予め音素の種別
毎に前記ピッチ波形を分類する構成を有している。この
構成により、グループ分けにかかる演算量を大幅に省け
るとともに、音素の種別が異なるピッチ波形同士が同一
グループに振り分けられることを防ぐことができ、安定
した音質の音声を合成することができることとなる。
毎に前記ピッチ波形を分類する構成を有している。この
構成により、グループ分けにかかる演算量を大幅に省け
るとともに、音素の種別が異なるピッチ波形同士が同一
グループに振り分けられることを防ぐことができ、安定
した音質の音声を合成することができることとなる。
【0009】本発明の音声合成方法は、前記ピッチ波形
をグループ化する際、前記ピッチ波形の振幅特性に対し
て周波数毎に重み付けして生成した類似度評価用のピッ
チ波形同士を比較する構成を有している。この構成によ
り、各周波数帯域における振幅特性が合成音声の音質に
与える影響を考慮することができ、音質との整合性がと
れた類似度評価が可能となり、安定した音質の音声を合
成することができることとなる。
をグループ化する際、前記ピッチ波形の振幅特性に対し
て周波数毎に重み付けして生成した類似度評価用のピッ
チ波形同士を比較する構成を有している。この構成によ
り、各周波数帯域における振幅特性が合成音声の音質に
与える影響を考慮することができ、音質との整合性がと
れた類似度評価が可能となり、安定した音質の音声を合
成することができることとなる。
【0010】本発明の音声合成方法は、合成時に隣接し
て用いる代表ピッチ波形同士を比較し、前記比較の結果
が所定の条件を満たさないとき、代表ピッチ波形を決定
し直す構成を有している。この構成により、音声素片を
代表ピッチ波形によって再構成する際に、隣接する代表
ピッチ波形間の連続性が考慮され、音質の劣化をさらに
小さくすることができることとなる。
て用いる代表ピッチ波形同士を比較し、前記比較の結果
が所定の条件を満たさないとき、代表ピッチ波形を決定
し直す構成を有している。この構成により、音声素片を
代表ピッチ波形によって再構成する際に、隣接する代表
ピッチ波形間の連続性が考慮され、音質の劣化をさらに
小さくすることができることとなる。
【0011】
【発明の実施の形態】以下、本発明の実施の形態につい
て、図面を用いて説明する。
て、図面を用いて説明する。
【0012】(第1の実施の形態)図1は音声素片から
抽出したピッチ波形をグループ分けして代表ピッチ波形
を決定する例を示した図である。図1において、音声素
片101〜104は、CV(子音・母音)、VCV(母
音・子音・母音)といった単位からなり、合成時に韻律
変形を施して接続する。ピッチ波形データベース111
は音声素片の有声部分から抽出したピッチ波形を格納す
るものである。類似したピッチ波形を集めたグループ1
22、123は、位相特性が統一されたピッチ波形につ
いて、類似度を評価関数にして振り分けたものである。
代表ピッチ波形132、133は各グループ122、1
23から選出された代表となるピッチ波形である。代表
ピッチ波形データベース131は代表ピッチ波形13
2、133を格納するものである。
抽出したピッチ波形をグループ分けして代表ピッチ波形
を決定する例を示した図である。図1において、音声素
片101〜104は、CV(子音・母音)、VCV(母
音・子音・母音)といった単位からなり、合成時に韻律
変形を施して接続する。ピッチ波形データベース111
は音声素片の有声部分から抽出したピッチ波形を格納す
るものである。類似したピッチ波形を集めたグループ1
22、123は、位相特性が統一されたピッチ波形につ
いて、類似度を評価関数にして振り分けたものである。
代表ピッチ波形132、133は各グループ122、1
23から選出された代表となるピッチ波形である。代表
ピッチ波形データベース131は代表ピッチ波形13
2、133を格納するものである。
【0013】図2は音声素片の一部分からピッチ波形を
抽出する例を示した図である。図2において、ピッチ波
形211〜217は原音声からハニング窓によって抽出
される。ピッチマーク位置221〜227はピッチ波形
抽出の基準であり、予め自動または手動で付与してあ
る。
抽出する例を示した図である。図2において、ピッチ波
形211〜217は原音声からハニング窓によって抽出
される。ピッチマーク位置221〜227はピッチ波形
抽出の基準であり、予め自動または手動で付与してあ
る。
【0014】図3はピッチ波形の位相特性を特定の位相
特性(代表位相特性)に置き換える例を示した図であ
る。図3において、まず、音声素片から抽出した時間軸
のピッチ波形301に対してフーリエ変換処理302を
行い、周波数軸の位相特性303および振幅特性304
を得る。ここで、位相特性303を、予め選定または生
成された代表位相特性305に置き換える。図4はピッ
チ波形の位相特性(または代表位相特性)の例を示した
図であり、位相は各周波数毎に異なっている。なお、振
幅特性304については置き換えを行わない。次に、代
表位相特性305と振幅特性304とに対して逆フーリ
エ変換処理306を行い、位相特性が代表位相特性に置
き換えられた時間軸のピッチ波形307を得る。
特性(代表位相特性)に置き換える例を示した図であ
る。図3において、まず、音声素片から抽出した時間軸
のピッチ波形301に対してフーリエ変換処理302を
行い、周波数軸の位相特性303および振幅特性304
を得る。ここで、位相特性303を、予め選定または生
成された代表位相特性305に置き換える。図4はピッ
チ波形の位相特性(または代表位相特性)の例を示した
図であり、位相は各周波数毎に異なっている。なお、振
幅特性304については置き換えを行わない。次に、代
表位相特性305と振幅特性304とに対して逆フーリ
エ変換処理306を行い、位相特性が代表位相特性に置
き換えられた時間軸のピッチ波形307を得る。
【0015】図5は代表ピッチ波形を用いて音声素片を
再構成する例を示した図である。図5において、代表ピ
ッチ波形511〜513はピッチ波形の代替として使用
される。代表ピッチ波形511〜513を配列して再構
成された音声素片521を得る。
再構成する例を示した図である。図5において、代表ピ
ッチ波形511〜513はピッチ波形の代替として使用
される。代表ピッチ波形511〜513を配列して再構
成された音声素片521を得る。
【0016】本実施の形態は、まず、図1に示すよう
に、音声素片101〜104の有声部分をピッチ波形単
位に分解し、各ピッチ波形をピッチ波形データベース1
11に格納する。ピッチ波形は、図2に示すように予め
音声波形に付与されたピッチマーク位置221〜227
を基準に、ハニング窓を用いて抽出する。続いて、ピッ
チ波形データベース111に格納されたピッチ波形につ
いて、図3に示すように、位相特性を統一する。ピッチ
波形の位相特性は、変更しても合成音声の音質にほとん
ど影響を与えないため、あるひとつの位相特性(代表位
相特性)に置きかえる。位相特性を統一することで、位
相特性の違いによって生じる波形形状の不一致を取り除
き、ピッチ波形間の類似性を高めることができる。続い
て、図1に示すように、位相特性を統一したピッチ波形
データベース111内で、類似度が高いピッチ波形同士
をグループにまとめあげる。ピッチ波形間の類似度は、
距離(ユークリッド距離)や相関、尤度によって定義で
きる。ここでは類似度を表す指標として相関係数を用い
る。あるふたつのピッチ波形SmおよびSnの相関係数M mn
は下記数1から求める。
に、音声素片101〜104の有声部分をピッチ波形単
位に分解し、各ピッチ波形をピッチ波形データベース1
11に格納する。ピッチ波形は、図2に示すように予め
音声波形に付与されたピッチマーク位置221〜227
を基準に、ハニング窓を用いて抽出する。続いて、ピッ
チ波形データベース111に格納されたピッチ波形につ
いて、図3に示すように、位相特性を統一する。ピッチ
波形の位相特性は、変更しても合成音声の音質にほとん
ど影響を与えないため、あるひとつの位相特性(代表位
相特性)に置きかえる。位相特性を統一することで、位
相特性の違いによって生じる波形形状の不一致を取り除
き、ピッチ波形間の類似性を高めることができる。続い
て、図1に示すように、位相特性を統一したピッチ波形
データベース111内で、類似度が高いピッチ波形同士
をグループにまとめあげる。ピッチ波形間の類似度は、
距離(ユークリッド距離)や相関、尤度によって定義で
きる。ここでは類似度を表す指標として相関係数を用い
る。あるふたつのピッチ波形SmおよびSnの相関係数M mn
は下記数1から求める。
【数1】 ここで、l はピッチ波形長を表し、ふたつのピッチ波形
の波形長のうち、短い方に合わせる。続いて、図1に示
すように、各グループ122、123において、それぞ
れ代表ピッチ波形132、133を選定する。各グルー
プにおける代表ピッチ波形の選定は、ベクトル量子化に
よってコードブックを作成する要領でセントロイドを求
め、このセントロイドの最近傍にあるピッチ波形を代表
ピッチ波形として選定し、代表ピッチ波形データベース
131に格納する。そして、図5に示すように、代表ピ
ッチ波形511〜513によって音声素片521を再構
成する。なお、もとの音声素片を構成するピッチ波形と
代表ピッチ波形511〜513との対応関係は、音声素
片を再構成するための情報として保存する。合成時に
は、この対応関係を示す情報を参照することで必要な音
声素片521を再構成する。
の波形長のうち、短い方に合わせる。続いて、図1に示
すように、各グループ122、123において、それぞ
れ代表ピッチ波形132、133を選定する。各グルー
プにおける代表ピッチ波形の選定は、ベクトル量子化に
よってコードブックを作成する要領でセントロイドを求
め、このセントロイドの最近傍にあるピッチ波形を代表
ピッチ波形として選定し、代表ピッチ波形データベース
131に格納する。そして、図5に示すように、代表ピ
ッチ波形511〜513によって音声素片521を再構
成する。なお、もとの音声素片を構成するピッチ波形と
代表ピッチ波形511〜513との対応関係は、音声素
片を再構成するための情報として保存する。合成時に
は、この対応関係を示す情報を参照することで必要な音
声素片521を再構成する。
【0017】以上のように本実施の形態によれば、ピッ
チ波形を共有化することにより冗長なデータの削減が可
能であり、特に位相特性を統一することで、位相特性の
不一致によって生じる波形形状のばらつきを取り除くこ
とができ、ピッチ波形間の類似度が高まることから、飛
躍的にデータベースを縮小することが可能である。
チ波形を共有化することにより冗長なデータの削減が可
能であり、特に位相特性を統一することで、位相特性の
不一致によって生じる波形形状のばらつきを取り除くこ
とができ、ピッチ波形間の類似度が高まることから、飛
躍的にデータベースを縮小することが可能である。
【0018】なお、前記説明では、CV単位、VCV単
位の音声素片からピッチ波形を抽出した場合を例に説明
したが、当然、その他の単位の音声素片や、任意の自然
発声音声から抽出したピッチ波形に対して処理すること
も可能である。
位の音声素片からピッチ波形を抽出した場合を例に説明
したが、当然、その他の単位の音声素片や、任意の自然
発声音声から抽出したピッチ波形に対して処理すること
も可能である。
【0019】また、前記説明では、ピッチ波形間の類似
度を時間軸で評価する場合を例に示したが、周波数軸に
おいて振幅スペクトルの距離を用いて評価する方法で
も、ほぼ同等の効果が得られる。
度を時間軸で評価する場合を例に示したが、周波数軸に
おいて振幅スペクトルの距離を用いて評価する方法で
も、ほぼ同等の効果が得られる。
【0020】尚、上記説明では、各グループ分けされた
ピッチ波形の中から代表ピッチ波形を選定する方法を例
に示したが、各グループ分けされたピッチ波形の中で、
セントロイド(重心)を代表ピッチ波形として用いるこ
とも可能である。
ピッチ波形の中から代表ピッチ波形を選定する方法を例
に示したが、各グループ分けされたピッチ波形の中で、
セントロイド(重心)を代表ピッチ波形として用いるこ
とも可能である。
【0021】(第2の実施の形態)第2の実施の形態
は、音声合成に利用する音声素片の有声部分を分解して
得たピッチ波形から、統計的な手法によって、代表ピッ
チ波形を求めるようになっている。また、代表位相特性
を複数用意して選択するようになっている。その他の処
理は、第1の実施形態と同じであり、詳細な説明を省略
する。
は、音声合成に利用する音声素片の有声部分を分解して
得たピッチ波形から、統計的な手法によって、代表ピッ
チ波形を求めるようになっている。また、代表位相特性
を複数用意して選択するようになっている。その他の処
理は、第1の実施形態と同じであり、詳細な説明を省略
する。
【0022】図6は代表位相特性を決定する例を示した
図である。図6において、ピッチ波形601は代表位相
特性を決定するための分析対象である。フーリエ変換処
理602はピッチ波形601を周波数分析する処理であ
る。位相特性603はピッチ波形601からフーリエ変
換処理602によって得られる。代表位相特性生成処理
604は統計的な手法によって代表位相特性を生成する
方法である。代表位相特性データベース605は代表位
相特性を格納するものである。なお、ピッチ波形データ
ベース111は、図1に示したピッチ波形データベース
111であって、音声合成に利用する音声素片の有声部
分を分解して得た複数のピッチ波形を格納したものであ
る。
図である。図6において、ピッチ波形601は代表位相
特性を決定するための分析対象である。フーリエ変換処
理602はピッチ波形601を周波数分析する処理であ
る。位相特性603はピッチ波形601からフーリエ変
換処理602によって得られる。代表位相特性生成処理
604は統計的な手法によって代表位相特性を生成する
方法である。代表位相特性データベース605は代表位
相特性を格納するものである。なお、ピッチ波形データ
ベース111は、図1に示したピッチ波形データベース
111であって、音声合成に利用する音声素片の有声部
分を分解して得た複数のピッチ波形を格納したものであ
る。
【0023】ここで、代表位相特性を求める統計的な手
法の例を説明する。フーリエ変換処理602の結果、ピ
ッチ波形の周波数軸における振幅特性A(w)および位
相特性P(w)は、実部R(w)と虚部I(w)を用い
て、それぞれ、 A(w)=(R(w)2+I(w)2)1/2 P(w)=tan-1(I(w)/R(w)) によって求められる。なお、wは周波数[Hz]を表
し、離散値である。ここで、ピッチ波形データベース1
11内のN個のピッチ波形について、位相特性の平均
P’(w)を下記数2によって求め、このP’(w)を
代表位相特性とする。すなわち、複数のピッチ波形につ
いて周波数毎の位相の平均を代表位相特性とする。
法の例を説明する。フーリエ変換処理602の結果、ピ
ッチ波形の周波数軸における振幅特性A(w)および位
相特性P(w)は、実部R(w)と虚部I(w)を用い
て、それぞれ、 A(w)=(R(w)2+I(w)2)1/2 P(w)=tan-1(I(w)/R(w)) によって求められる。なお、wは周波数[Hz]を表
し、離散値である。ここで、ピッチ波形データベース1
11内のN個のピッチ波形について、位相特性の平均
P’(w)を下記数2によって求め、このP’(w)を
代表位相特性とする。すなわち、複数のピッチ波形につ
いて周波数毎の位相の平均を代表位相特性とする。
【数2】
【0024】図7は代表位相特性を選択して位相特性を
置き換える例を示した図である。図7において、ピッチ
波形701は音声合成に利用する音声素片の有声部分を
分解して得たピッチ波形である。フーリエ変換処理70
2はピッチ波形701を周波数分析する処理である。振
幅特性703および位相特性704は、フーリエ変換処
理702によって得られる周波数軸におけるピッチ波形
701の特性である。代表位相特性705は位相特性7
04の代わりに使用される位相特性である。逆フーリエ
変換処理706は周波数軸から時間軸に戻す処理であ
る。逆フーリエ変換処理706によって、位相特性が置
き換えられたピッチ波形707が得られる。代表位相特
性選択処理708は代表位相特性データベース605か
ら適切な代表位相特性を選択する処理である。
置き換える例を示した図である。図7において、ピッチ
波形701は音声合成に利用する音声素片の有声部分を
分解して得たピッチ波形である。フーリエ変換処理70
2はピッチ波形701を周波数分析する処理である。振
幅特性703および位相特性704は、フーリエ変換処
理702によって得られる周波数軸におけるピッチ波形
701の特性である。代表位相特性705は位相特性7
04の代わりに使用される位相特性である。逆フーリエ
変換処理706は周波数軸から時間軸に戻す処理であ
る。逆フーリエ変換処理706によって、位相特性が置
き換えられたピッチ波形707が得られる。代表位相特
性選択処理708は代表位相特性データベース605か
ら適切な代表位相特性を選択する処理である。
【0025】本実施の形態では、図6に示すように、ピ
ッチ波形データベース111に格納されているすべての
ピッチ波形について、フーリエ変換処理を施し、周波数
軸の位相特性を求める。ここで求まった複数のピッチ波
形の位相特性について類似度を基準にグループ分けを行
ない、複数の代表位相特性を求める。各グループの代表
位相特性は、グループ内の位相特性の平均を用いるか、
または、グループ分けされた位相特性の中から最もセン
トロイドに近い位相特性を選定する。このように求めた
代表位相特性を代表位相特性データベース605に格納
する。続いて、図7に示すように、ピッチ波形の位相特
性を代表位相特性に置き換える。まず位相操作の対象で
あるピッチ波形701にフーリエ変換処理702を施
し、振幅特性703と位相特性704を抽出する。抽出
された位相特性704を、代表位相特性705に置き換
える。代表位相特性データベース605に代表位相特性
が複数ある場合は、もとの位相特性704との類似度が
最も高い代表位相特性を選択する(代表位相特性の選択
処理708)。選択された代表位相特性705と振幅特
性703に対して逆フーリエ変換処理706を行い、位
相特性が置き換えられたピッチ波形707を得る。
ッチ波形データベース111に格納されているすべての
ピッチ波形について、フーリエ変換処理を施し、周波数
軸の位相特性を求める。ここで求まった複数のピッチ波
形の位相特性について類似度を基準にグループ分けを行
ない、複数の代表位相特性を求める。各グループの代表
位相特性は、グループ内の位相特性の平均を用いるか、
または、グループ分けされた位相特性の中から最もセン
トロイドに近い位相特性を選定する。このように求めた
代表位相特性を代表位相特性データベース605に格納
する。続いて、図7に示すように、ピッチ波形の位相特
性を代表位相特性に置き換える。まず位相操作の対象で
あるピッチ波形701にフーリエ変換処理702を施
し、振幅特性703と位相特性704を抽出する。抽出
された位相特性704を、代表位相特性705に置き換
える。代表位相特性データベース605に代表位相特性
が複数ある場合は、もとの位相特性704との類似度が
最も高い代表位相特性を選択する(代表位相特性の選択
処理708)。選択された代表位相特性705と振幅特
性703に対して逆フーリエ変換処理706を行い、位
相特性が置き換えられたピッチ波形707を得る。
【0026】以上のように本実施の形態によれば、ピッ
チ波形の位相特性を、音声合成に利用する音声素片の有
声部分を分解して得たピッチ波形から統計的な手法によ
って求めた代表位相特性に置き換えることにより、ピッ
チ波形間の位相特性の不一致を回避でき、また、零位相
化のようにエネルギーが集中する不自然なピッチ波形に
なることが避けられ、音質が安定した音声合成をするこ
とができる。
チ波形の位相特性を、音声合成に利用する音声素片の有
声部分を分解して得たピッチ波形から統計的な手法によ
って求めた代表位相特性に置き換えることにより、ピッ
チ波形間の位相特性の不一致を回避でき、また、零位相
化のようにエネルギーが集中する不自然なピッチ波形に
なることが避けられ、音質が安定した音声合成をするこ
とができる。
【0027】(第3の実施の形態)第3の実施の形態
は、予め音素の種別毎にピッチ波形を分類しておくよう
になっている。その他の処理は、第1または第2の実施
の形態と同じであり、詳細な説明を省略する。
は、予め音素の種別毎にピッチ波形を分類しておくよう
になっている。その他の処理は、第1または第2の実施
の形態と同じであり、詳細な説明を省略する。
【0028】図8は音声素片から抽出したピッチ波形を
音素カテゴリ(音素の種別)に基づいて分類する例を示
した図である。図8において、VCV単位の音声素片8
01〜804はピッチ波形の抽出もとであり、ピッチ波
形データベース811〜813は音素の種別毎にグルー
プ分けされたピッチ波形をそれぞれ格納する。
音素カテゴリ(音素の種別)に基づいて分類する例を示
した図である。図8において、VCV単位の音声素片8
01〜804はピッチ波形の抽出もとであり、ピッチ波
形データベース811〜813は音素の種別毎にグルー
プ分けされたピッチ波形をそれぞれ格納する。
【0029】音声素片から抽出したすべてのピッチ波形
をひとつの集合として、この中から類似度の高いピッチ
波形同士をグループ化することは可能であるが、すべて
のピッチ波形を一度に取り扱う場合、ピッチ波形数が多
大になるためグループ分け処理に時間がかかり、作業効
率が良くない。そこで、音声素片から抽出したピッチ波
形をひとつのピッチ波形データベースに格納するのでは
なく、予め音素の種別毎にピッチ波形データベースを作
成する。音声素片801〜804は予め音素境界がラベ
リングされており、抽出したピッチ波形が属す音素の種
別に基づき、ピッチ波形は、音素の種別毎に分類されて
ピッチ波形データベース811〜813に格納される。
ここで音素の種別は、母音/a/、/i/、/u/、/e/、/o/、
撥音/n/、半母音/w/、/y/、有声子音/m/、/n/、/r/、/z
/、/j/、/b/、/d/、/g/、/v/といった音素の種別であ
る。続いて音素の種別毎にピッチ波形の位相特性を代表
位相特性に置き換え、グループ分けを行う。なお、代表
位相特性は、音素の種別毎に各ピッチ波形データベース
811〜813内で決定する。以降、各グループから代
表ピッチ波形を選定または生成し、この代表ピッチ波形
を用いて、音声素片を再構成する。
をひとつの集合として、この中から類似度の高いピッチ
波形同士をグループ化することは可能であるが、すべて
のピッチ波形を一度に取り扱う場合、ピッチ波形数が多
大になるためグループ分け処理に時間がかかり、作業効
率が良くない。そこで、音声素片から抽出したピッチ波
形をひとつのピッチ波形データベースに格納するのでは
なく、予め音素の種別毎にピッチ波形データベースを作
成する。音声素片801〜804は予め音素境界がラベ
リングされており、抽出したピッチ波形が属す音素の種
別に基づき、ピッチ波形は、音素の種別毎に分類されて
ピッチ波形データベース811〜813に格納される。
ここで音素の種別は、母音/a/、/i/、/u/、/e/、/o/、
撥音/n/、半母音/w/、/y/、有声子音/m/、/n/、/r/、/z
/、/j/、/b/、/d/、/g/、/v/といった音素の種別であ
る。続いて音素の種別毎にピッチ波形の位相特性を代表
位相特性に置き換え、グループ分けを行う。なお、代表
位相特性は、音素の種別毎に各ピッチ波形データベース
811〜813内で決定する。以降、各グループから代
表ピッチ波形を選定または生成し、この代表ピッチ波形
を用いて、音声素片を再構成する。
【0030】以上のように、本実施の形態によれば、ピ
ッチ波形を予め音素の種別に基づいて分類することで、
グループ化処理にかかる計算の手間が大幅に省けるとと
もに、音素の種別が異なるピッチ波形同士が同一グルー
プにグループ分けされることを防げるため、音質が安定
した音声合成をすることができる。
ッチ波形を予め音素の種別に基づいて分類することで、
グループ化処理にかかる計算の手間が大幅に省けるとと
もに、音素の種別が異なるピッチ波形同士が同一グルー
プにグループ分けされることを防げるため、音質が安定
した音声合成をすることができる。
【0031】尚、前記説明では、VCV単位の音声素片
からピッチ波形を抽出した場合を例に説明したが、当
然、その他の単位の音声素片や、任意の自然発声音声か
ら抽出したピッチ波形に対して処理することも可能であ
る。
からピッチ波形を抽出した場合を例に説明したが、当
然、その他の単位の音声素片や、任意の自然発声音声か
ら抽出したピッチ波形に対して処理することも可能であ
る。
【0032】尚、前記説明では、各ピッチ波形データベ
ース毎に代表位相特性を決定する例を説明したが、すべ
てのピッチ波形データベースで同一の代表位相特性を決
定するようにしてもよい。
ース毎に代表位相特性を決定する例を説明したが、すべ
てのピッチ波形データベースで同一の代表位相特性を決
定するようにしてもよい。
【0033】(第4の実施の形態)第4の実施の形態
は、ピッチ波形をグループ化する際、ピッチ波形の振幅
特性に対して周波数毎に重み付けして生成した類似度評
価用のピッチ波形同士を比較するようになっている。そ
の他の処理は、第1、第2、または第3の実施の形態と
同じであり、詳細な説明を省略する。
は、ピッチ波形をグループ化する際、ピッチ波形の振幅
特性に対して周波数毎に重み付けして生成した類似度評
価用のピッチ波形同士を比較するようになっている。そ
の他の処理は、第1、第2、または第3の実施の形態と
同じであり、詳細な説明を省略する。
【0034】図9はピッチ波形間の類似度を評価するた
めの前処理の例を示した図である。図9において、もと
のピッチ波形901は重み付け処理を行う前のピッチ波
形である。振幅特性911は、ピッチ波形901に対し
てフーリエ変換処理を行って得られた周波数軸の振幅特
性である。振幅特性911に対して周波数帯域毎に設定
する振幅利得(重み)921は、周波数帯域毎の重要性
に応じて任意に決められている。前処理フィルタ902
は、ピッチ波形901に対してフーリエ変換処理を行っ
て得られた振幅特性911に対して、周波数帯域毎に振
幅利得921を設定する。この周波数帯域毎に振幅利得
が設定された振幅特性と、代表位相特性とによって逆フ
ーリエ変換が行われ、この逆フーリエ変換によって得ら
れた類似度評価用のピッチ波形903、すなわち振幅利
得921が設定されたピッチ波形903によって、ピッ
チ波形同士の類似度の評価を行う。
めの前処理の例を示した図である。図9において、もと
のピッチ波形901は重み付け処理を行う前のピッチ波
形である。振幅特性911は、ピッチ波形901に対し
てフーリエ変換処理を行って得られた周波数軸の振幅特
性である。振幅特性911に対して周波数帯域毎に設定
する振幅利得(重み)921は、周波数帯域毎の重要性
に応じて任意に決められている。前処理フィルタ902
は、ピッチ波形901に対してフーリエ変換処理を行っ
て得られた振幅特性911に対して、周波数帯域毎に振
幅利得921を設定する。この周波数帯域毎に振幅利得
が設定された振幅特性と、代表位相特性とによって逆フ
ーリエ変換が行われ、この逆フーリエ変換によって得ら
れた類似度評価用のピッチ波形903、すなわち振幅利
得921が設定されたピッチ波形903によって、ピッ
チ波形同士の類似度の評価を行う。
【0035】ピッチ波形間の類似度は、ピッチ波形間の
相関係数によって評価する。この相関係数が1に近いほ
どピッチ波形間の類似度が高いことを示し、類似度が高
いピッチ波形同士は音声素片を再構成する際に相互に置
き換えを行なっても歪みが少ない。すなわち、代表ピッ
チ波形とそのグループに属すピッチ波形との相関係数が
高ければ、代表ピッチ波形を用いることによって音質劣
化が生じることはない。
相関係数によって評価する。この相関係数が1に近いほ
どピッチ波形間の類似度が高いことを示し、類似度が高
いピッチ波形同士は音声素片を再構成する際に相互に置
き換えを行なっても歪みが少ない。すなわち、代表ピッ
チ波形とそのグループに属すピッチ波形との相関係数が
高ければ、代表ピッチ波形を用いることによって音質劣
化が生じることはない。
【0036】音声波形間の類似度を定義するにあたり、
低域における振幅特性は音声の連続性を保持するために
極めて高い類似度を必要とするが、高域における振幅特
性の類似度はそれほど気にしなくても良い場合がある。
このように周波数帯域毎に振幅特性の重要度が違ってく
る。ここでは低域の振幅特性に重みを置いた場合を例に
して説明すると、類似度の評価対象となるピッチ波形の
振幅特性911に対して、周波数帯域に応じた振幅利得
921をかけあわせる。このように、帯域毎に重み付け
されたピッチ波形を用いて類似度の評価を行なう。これ
はピッチ波形901を低域通過フィルタに通し、高域成
分の影響を抑えたピッチ波形903を用いて類似度を評
価する処理と等化である。尚、類似度の評価にはこのフ
ィルタリングをしたピッチ波形を用いるが、実際にグル
ープ分けされ、代表ピッチ波形として選定されるのは、
フィルタ処理を行なわないピッチ波形である。すなわ
ち、本処理は類似度の評価を行うための処理である。
低域における振幅特性は音声の連続性を保持するために
極めて高い類似度を必要とするが、高域における振幅特
性の類似度はそれほど気にしなくても良い場合がある。
このように周波数帯域毎に振幅特性の重要度が違ってく
る。ここでは低域の振幅特性に重みを置いた場合を例に
して説明すると、類似度の評価対象となるピッチ波形の
振幅特性911に対して、周波数帯域に応じた振幅利得
921をかけあわせる。このように、帯域毎に重み付け
されたピッチ波形を用いて類似度の評価を行なう。これ
はピッチ波形901を低域通過フィルタに通し、高域成
分の影響を抑えたピッチ波形903を用いて類似度を評
価する処理と等化である。尚、類似度の評価にはこのフ
ィルタリングをしたピッチ波形を用いるが、実際にグル
ープ分けされ、代表ピッチ波形として選定されるのは、
フィルタ処理を行なわないピッチ波形である。すなわ
ち、本処理は類似度の評価を行うための処理である。
【0037】以上のように、本実施の形態によれば、類
似度評価を行なう前処理として、ピッチ波形に対して周
波数帯域毎に重み付けをすることで、各周波数帯域の振
幅特性が合成音声の音質に与える影響を考慮した上で類
似度を評価することができるため、音質と類似度との関
係の整合性がとれたピッチ波形削減が可能である。
似度評価を行なう前処理として、ピッチ波形に対して周
波数帯域毎に重み付けをすることで、各周波数帯域の振
幅特性が合成音声の音質に与える影響を考慮した上で類
似度を評価することができるため、音質と類似度との関
係の整合性がとれたピッチ波形削減が可能である。
【0038】尚、類似度評価用のピッチ波形同士による
類似度の評価は、周波数軸におけるピッチ波形の振幅特
性に基づいて類似度を評価するようにしてもよく、ま
た、時間軸でフィルタリングされたピッチ波形を用いて
類似度を評価するようにしてもよい。
類似度の評価は、周波数軸におけるピッチ波形の振幅特
性に基づいて類似度を評価するようにしてもよく、ま
た、時間軸でフィルタリングされたピッチ波形を用いて
類似度を評価するようにしてもよい。
【0039】(第5の実施の形態)第5の実施の形態
は、隣接して用いる代表ピッチ波形同士の類似度を評価
するようになっている。
は、隣接して用いる代表ピッチ波形同士の類似度を評価
するようになっている。
【0040】図10は隣接して用いる代表ピッチ波形の
類似度を評価する例を示した図である。図10におい
て、初期の代表ピッチ波形を選定する処理1001、ピ
ッチ波形のグループ分け処理1002、各グループにお
ける代表ピッチ波形の選定処理1003、各代表ピッチ
波形が条件を満たしているかどうかの判定処理100
4、1005、および、代表ピッチ波形の選定処理10
06は、本処理の各構成要素である。図11は連続する
ピッチ波形間の類似度と代表ピッチ波形の類似度との関
係を説明する図である。図11において、ピッチ波形1
101、1102は音声素片内の隣り合うピッチ波形で
あり、代表ピッチ波形1111、1112は、ピッチ波
形1101、1102の代わりに使用される波形であ
る。
類似度を評価する例を示した図である。図10におい
て、初期の代表ピッチ波形を選定する処理1001、ピ
ッチ波形のグループ分け処理1002、各グループにお
ける代表ピッチ波形の選定処理1003、各代表ピッチ
波形が条件を満たしているかどうかの判定処理100
4、1005、および、代表ピッチ波形の選定処理10
06は、本処理の各構成要素である。図11は連続する
ピッチ波形間の類似度と代表ピッチ波形の類似度との関
係を説明する図である。図11において、ピッチ波形1
101、1102は音声素片内の隣り合うピッチ波形で
あり、代表ピッチ波形1111、1112は、ピッチ波
形1101、1102の代わりに使用される波形であ
る。
【0041】図10において、まず、ピッチ波形データ
ベース内において全てのピッチ波形の中から、任意のピ
ッチ波形を初期の代表ピッチ波形に選定する(100
1)。続いてすべてのピッチ波形について、代表ピッチ
波形との類似度を計算し、最も類似度が高くなる代表ピ
ッチ波形のグループに各ピッチ波形を割り振る(100
2)。ここで代表ピッチ波形の数だけグループが作成さ
れることになる。全てのピッチ波形をグループ分けした
ら、各グループ毎に新たに代表ピッチ波形を選定し直す
(1003)。代表ピッチ波形は各グループ内で最も重
心近傍にあるピッチ波形を採用する。この新たに選定さ
れた代表ピッチ波形が条件を満たしているかどうか判断
する。ここで条件は2つあり、1つは代表ピッチ波形と
そのグループに属すすべてのピッチ波形との類似度が定
められた閾値を満たしていること(1004)、もう1
つは代表ピッチ波形によって音声素片を再構成した際
に、隣接して用いる代表ピッチ波形同士の類似度が代表
ピッチ波形に置きかえられる前のピッチ波形同士の類似
度で決まる閾値を満たしていること(1005)であ
る。もし、条件が満たされないときは、このグループを
2つのグループに分割し、各グループにそれぞれ代表ピ
ッチ波形を選定する(1006)。このように各代表ピ
ッチ波形について、グループ内のすべてのピッチ波形と
の類似度、および、隣接して用いる代表ピッチ波形との
類似度が、所定の条件を満たすまで一連の処理を繰り返
し、最終の代表ピッチ波形を決定する。
ベース内において全てのピッチ波形の中から、任意のピ
ッチ波形を初期の代表ピッチ波形に選定する(100
1)。続いてすべてのピッチ波形について、代表ピッチ
波形との類似度を計算し、最も類似度が高くなる代表ピ
ッチ波形のグループに各ピッチ波形を割り振る(100
2)。ここで代表ピッチ波形の数だけグループが作成さ
れることになる。全てのピッチ波形をグループ分けした
ら、各グループ毎に新たに代表ピッチ波形を選定し直す
(1003)。代表ピッチ波形は各グループ内で最も重
心近傍にあるピッチ波形を採用する。この新たに選定さ
れた代表ピッチ波形が条件を満たしているかどうか判断
する。ここで条件は2つあり、1つは代表ピッチ波形と
そのグループに属すすべてのピッチ波形との類似度が定
められた閾値を満たしていること(1004)、もう1
つは代表ピッチ波形によって音声素片を再構成した際
に、隣接して用いる代表ピッチ波形同士の類似度が代表
ピッチ波形に置きかえられる前のピッチ波形同士の類似
度で決まる閾値を満たしていること(1005)であ
る。もし、条件が満たされないときは、このグループを
2つのグループに分割し、各グループにそれぞれ代表ピ
ッチ波形を選定する(1006)。このように各代表ピ
ッチ波形について、グループ内のすべてのピッチ波形と
の類似度、および、隣接して用いる代表ピッチ波形との
類似度が、所定の条件を満たすまで一連の処理を繰り返
し、最終の代表ピッチ波形を決定する。
【0042】ピッチ波形のグループ化処理において、新
たに代表ピッチ波形を作成するかどうかの判断は、各代
表ピッチ波形とグループ内のピッチ波形との類似度が所
定の条件を満たしているかどうかで決定されるが、本実
施の形態ではこれに加え、選定された代表ピッチ波形間
の類似度も判断材料として用いている。図11におい
て、音声素片内の連続する2つのピッチ波形(110
1、1102)間の類似度に対して、それぞれの代用と
して使用される代表ピッチ波形(1111、1112)
間の類似度が、ある一定以上の類似度を満たすか否か判
定している。例えば、類似度として相関係数を用い、も
との連続するピッチ波形(1101、1102)間の相
関係数が0.9であった場合、この代用として使われる
代表ピッチ波形(1111、1112)間の相関係数
は、0.9α以上であることを条件とする。ここでαは
閾値を決定する所定の係数で、0<α<1である。この
条件が満たされるまで、一連のグループ分け処理を繰り
返し行なう。
たに代表ピッチ波形を作成するかどうかの判断は、各代
表ピッチ波形とグループ内のピッチ波形との類似度が所
定の条件を満たしているかどうかで決定されるが、本実
施の形態ではこれに加え、選定された代表ピッチ波形間
の類似度も判断材料として用いている。図11におい
て、音声素片内の連続する2つのピッチ波形(110
1、1102)間の類似度に対して、それぞれの代用と
して使用される代表ピッチ波形(1111、1112)
間の類似度が、ある一定以上の類似度を満たすか否か判
定している。例えば、類似度として相関係数を用い、も
との連続するピッチ波形(1101、1102)間の相
関係数が0.9であった場合、この代用として使われる
代表ピッチ波形(1111、1112)間の相関係数
は、0.9α以上であることを条件とする。ここでαは
閾値を決定する所定の係数で、0<α<1である。この
条件が満たされるまで、一連のグループ分け処理を繰り
返し行なう。
【0043】以上のように、本実施の形態によれば、各
グループ内のピッチ波形間の類似度だけでなく、音声素
片を代表ピッチ波形で再現した際に隣接して用いる代表
ピッチ波形間の類似度も考慮することで、連続性の良い
音声素片を再構成することができ、音質劣化の少ない音
声合成が可能となる。
グループ内のピッチ波形間の類似度だけでなく、音声素
片を代表ピッチ波形で再現した際に隣接して用いる代表
ピッチ波形間の類似度も考慮することで、連続性の良い
音声素片を再構成することができ、音質劣化の少ない音
声合成が可能となる。
【0044】尚、前記説明では、ピッチ波形間の類似度
として相関係数を用いる例を示したが、スペクトル距離
を用いて評価しても、ほぼ同等の効果が得られる。
として相関係数を用いる例を示したが、スペクトル距離
を用いて評価しても、ほぼ同等の効果が得られる。
【0045】
【発明の効果】本発明は、音声素片を変形、接続して音
声を合成する際、大幅なデータ圧縮をすることができ、
しかも、音質の劣化を小さくすることができるという優
れた効果を有する音声合成方法を提供することができる
ものである。
声を合成する際、大幅なデータ圧縮をすることができ、
しかも、音質の劣化を小さくすることができるという優
れた効果を有する音声合成方法を提供することができる
ものである。
【図1】本発明に係る音声合成方法において代表ピッチ
波形を決定する例を示した図
波形を決定する例を示した図
【図2】本発明に係る音声合成方法においてピッチ波形
を抽出する例を示した図
を抽出する例を示した図
【図3】本発明に係る音声合成方法において位相特性を
特定の代表位相特性に置き換える例を示した図
特定の代表位相特性に置き換える例を示した図
【図4】本発明に係る音声合成方法において位相特性の
例を示した図
例を示した図
【図5】本発明に係る音声合成方法において音声素片を
再構成する例を示した図
再構成する例を示した図
【図6】本発明に係る音声合成方法において代表位相特
性を決定する例を示した図
性を決定する例を示した図
【図7】本発明に係る音声合成方法において代表位相特
性を選択して位相特性を置き換える例を示した図
性を選択して位相特性を置き換える例を示した図
【図8】本発明に係る音声合成方法においてピッチ波形
を音素の種別に基づいて分類する例を示した図
を音素の種別に基づいて分類する例を示した図
【図9】本発明に係る音声合成方法においてピッチ波形
間の類似度を評価するための前処理の例を示した図
間の類似度を評価するための前処理の例を示した図
【図10】本発明に係る音声合成方法において隣接して
用いる代表ピッチ波形の類似度を評価する例を示した図
用いる代表ピッチ波形の類似度を評価する例を示した図
【図11】本発明に係る音声合成方法において隣接して
用いる代表ピッチ波形間の類似度の関係を示した図
用いる代表ピッチ波形間の類似度の関係を示した図
101〜104 もとの音声素片 111 ピッチ波形データベース 122、123 ピッチ波形のグループ 131 代表ピッチ波形データベース 132、133、511〜513 代表ピッチ波形 211〜217、301 抽出したピッチ波形 521 再構成された音声素片
───────────────────────────────────────────────────── フロントページの続き (72)発明者 西村 洋文 神奈川県横浜市港北区綱島東四丁目3番1 号 松下通信工業株式会社内 Fターム(参考) 5D045 AA07
Claims (6)
- 【請求項1】 音声素片を変形、接続して音声を合成す
る波形重畳方式の音声合成方法において、音声素片の有
声部分をピッチ波形単位に分解し、前記ピッチ波形の位
相特性を特定の代表位相特性に置き換え、前記ピッチ波
形を似通ったピッチ波形同士にグループ化し、グループ
毎に代表ピッチ波形を決定し、前記代表ピッチ波形を用
いて音声を合成することを特徴とする音声合成方法。 - 【請求項2】 前記代表位相特性は、前記音声素片の有
声部分を分解して得た複数のピッチ波形から求めること
を特徴とする請求項1に記載の音声合成方法。 - 【請求項3】 前記代表位相特性は、前記複数のピッチ
波形の位相特性を平均して求めることを特徴とする請求
項2に記載の音声合成方法。 - 【請求項4】 予め音素の種別毎に前記ピッチ波形を分
類することを特徴とする請求項1乃至請求項3いずれか
に記載の音声合成方法。 - 【請求項5】 前記ピッチ波形をグループ化する際、前
記ピッチ波形の振幅特性に対して周波数毎に重み付けし
て生成した類似度評価用のピッチ波形同士を比較するこ
とを特徴とする請求項1乃至請求項4いずれかに記載の
音声合成方法。 - 【請求項6】 合成時に隣接して用いる代表ピッチ波形
同士を比較し、前記比較の結果が所定の条件を満たさな
いとき、代表ピッチ波形を決定し直すことを特徴とする
請求項1乃至請求項5いずれかに記載の音声合成方法。
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000281683A JP2002091475A (ja) | 2000-09-18 | 2000-09-18 | 音声合成方法 |
TW090122653A TW525145B (en) | 2000-09-18 | 2001-09-12 | Apparatus and method for speech synthesis |
ES01121912T ES2266063T3 (es) | 2000-09-18 | 2001-09-12 | Dispositivo y procedimiento de sintesis del habla. |
DE60120585T DE60120585T2 (de) | 2000-09-18 | 2001-09-12 | Anordnung und Verfahren zur Sprachsynthese |
US09/953,989 US7016840B2 (en) | 2000-09-18 | 2001-09-12 | Method and apparatus for synthesizing speech and method apparatus for registering pitch waveforms |
EP01121912A EP1195743B1 (en) | 2000-09-18 | 2001-09-12 | Apparatus and method for speech synthesis |
CN01140652.6A CN1243340C (zh) | 2000-09-18 | 2001-09-17 | 语音合成装置和方法以及音调波形记录装置和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000281683A JP2002091475A (ja) | 2000-09-18 | 2000-09-18 | 音声合成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002091475A true JP2002091475A (ja) | 2002-03-27 |
Family
ID=18766302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000281683A Pending JP2002091475A (ja) | 2000-09-18 | 2000-09-18 | 音声合成方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7016840B2 (ja) |
EP (1) | EP1195743B1 (ja) |
JP (1) | JP2002091475A (ja) |
CN (1) | CN1243340C (ja) |
DE (1) | DE60120585T2 (ja) |
ES (1) | ES2266063T3 (ja) |
TW (1) | TW525145B (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100477224B1 (ko) * | 2002-09-28 | 2005-03-17 | 에스엘투 주식회사 | 위상 정보 저장 및 검색 방법 및 이를 이용한 단위 음소코딩 방법 |
US7089187B2 (en) | 2001-09-27 | 2006-08-08 | Nec Corporation | Voice synthesizing system, segment generation apparatus for generating segments for voice synthesis, voice synthesizing method and storage medium storing program therefor |
JP2012088555A (ja) * | 2010-10-20 | 2012-05-10 | Mitsubishi Electric Corp | 音声合成システム、音声素片辞書作成方法、音声素片辞書作成プログラム、及び、音声素片辞書作成プログラム記録媒体 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040220801A1 (en) * | 2001-08-31 | 2004-11-04 | Yasushi Sato | Pitch waveform signal generating apparatus, pitch waveform signal generation method and program |
WO2004027754A1 (en) * | 2002-09-17 | 2004-04-01 | Koninklijke Philips Electronics N.V. | A method of synthesizing of an unvoiced speech signal |
US20060074675A1 (en) * | 2002-09-17 | 2006-04-06 | Koninklijke Philips Electronics N.V. | Method of synthesizing creaky voice |
AU2003284654A1 (en) * | 2002-11-25 | 2004-06-18 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis method and speech synthesis device |
JP4407305B2 (ja) * | 2003-02-17 | 2010-02-03 | 株式会社ケンウッド | ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム |
CN101510424B (zh) * | 2009-03-12 | 2012-07-04 | 孟智平 | 基于语音基元的语音编码与合成方法及系统 |
JP6415929B2 (ja) * | 2014-10-30 | 2018-10-31 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
CN110444190A (zh) * | 2019-08-13 | 2019-11-12 | 广州国音智能科技有限公司 | 语音处理方法、装置、终端设备及存储介质 |
CN112820267B (zh) * | 2021-01-15 | 2022-10-04 | 科大讯飞股份有限公司 | 波形生成方法以及相关模型的训练方法和相关设备、装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60205500A (ja) * | 1984-03-29 | 1985-10-17 | 松下電器産業株式会社 | 音声合成用駆動信号生成方法 |
JPS6228800A (ja) * | 1985-07-31 | 1987-02-06 | 松下電器産業株式会社 | 規則音声合成用駆動信号生成方法 |
JPH03233500A (ja) * | 1989-12-22 | 1991-10-17 | Oki Electric Ind Co Ltd | 音声合成方式およびこれに用いる装置 |
JPH04196724A (ja) * | 1990-11-27 | 1992-07-16 | Matsushita Electric Ind Co Ltd | 音声符号化復号化装置 |
JPH06318094A (ja) * | 1993-05-07 | 1994-11-15 | Sharp Corp | 音声規則合成装置 |
JPH0764599A (ja) * | 1993-08-24 | 1995-03-10 | Hitachi Ltd | 線スペクトル対パラメータのベクトル量子化方法とクラスタリング方法および音声符号化方法並びにそれらの装置 |
JPH08137498A (ja) * | 1994-11-04 | 1996-05-31 | Matsushita Electric Ind Co Ltd | 音声符号化装置 |
JPH09258796A (ja) * | 1996-03-25 | 1997-10-03 | Toshiba Corp | 音声合成方法 |
JPH09319394A (ja) * | 1996-03-12 | 1997-12-12 | Toshiba Corp | 音声合成方法 |
JPH10171484A (ja) * | 1996-12-10 | 1998-06-26 | Matsushita Electric Ind Co Ltd | 音声合成方法および装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3242331B2 (ja) * | 1996-09-20 | 2001-12-25 | 松下電器産業株式会社 | Vcv波形接続音声のピッチ変換方法及び音声合成装置 |
-
2000
- 2000-09-18 JP JP2000281683A patent/JP2002091475A/ja active Pending
-
2001
- 2001-09-12 ES ES01121912T patent/ES2266063T3/es not_active Expired - Lifetime
- 2001-09-12 TW TW090122653A patent/TW525145B/zh not_active IP Right Cessation
- 2001-09-12 DE DE60120585T patent/DE60120585T2/de not_active Expired - Fee Related
- 2001-09-12 US US09/953,989 patent/US7016840B2/en not_active Expired - Lifetime
- 2001-09-12 EP EP01121912A patent/EP1195743B1/en not_active Expired - Lifetime
- 2001-09-17 CN CN01140652.6A patent/CN1243340C/zh not_active Expired - Fee Related
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60205500A (ja) * | 1984-03-29 | 1985-10-17 | 松下電器産業株式会社 | 音声合成用駆動信号生成方法 |
JPS6228800A (ja) * | 1985-07-31 | 1987-02-06 | 松下電器産業株式会社 | 規則音声合成用駆動信号生成方法 |
JPH03233500A (ja) * | 1989-12-22 | 1991-10-17 | Oki Electric Ind Co Ltd | 音声合成方式およびこれに用いる装置 |
JPH04196724A (ja) * | 1990-11-27 | 1992-07-16 | Matsushita Electric Ind Co Ltd | 音声符号化復号化装置 |
JPH06318094A (ja) * | 1993-05-07 | 1994-11-15 | Sharp Corp | 音声規則合成装置 |
JPH0764599A (ja) * | 1993-08-24 | 1995-03-10 | Hitachi Ltd | 線スペクトル対パラメータのベクトル量子化方法とクラスタリング方法および音声符号化方法並びにそれらの装置 |
JPH08137498A (ja) * | 1994-11-04 | 1996-05-31 | Matsushita Electric Ind Co Ltd | 音声符号化装置 |
JPH09319394A (ja) * | 1996-03-12 | 1997-12-12 | Toshiba Corp | 音声合成方法 |
JPH09258796A (ja) * | 1996-03-25 | 1997-10-03 | Toshiba Corp | 音声合成方法 |
JPH10171484A (ja) * | 1996-12-10 | 1998-06-26 | Matsushita Electric Ind Co Ltd | 音声合成方法および装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7089187B2 (en) | 2001-09-27 | 2006-08-08 | Nec Corporation | Voice synthesizing system, segment generation apparatus for generating segments for voice synthesis, voice synthesizing method and storage medium storing program therefor |
KR100477224B1 (ko) * | 2002-09-28 | 2005-03-17 | 에스엘투 주식회사 | 위상 정보 저장 및 검색 방법 및 이를 이용한 단위 음소코딩 방법 |
JP2012088555A (ja) * | 2010-10-20 | 2012-05-10 | Mitsubishi Electric Corp | 音声合成システム、音声素片辞書作成方法、音声素片辞書作成プログラム、及び、音声素片辞書作成プログラム記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
DE60120585D1 (de) | 2006-07-27 |
EP1195743A2 (en) | 2002-04-10 |
US7016840B2 (en) | 2006-03-21 |
US20020052733A1 (en) | 2002-05-02 |
TW525145B (en) | 2003-03-21 |
CN1243340C (zh) | 2006-02-22 |
CN1345028A (zh) | 2002-04-17 |
EP1195743B1 (en) | 2006-06-14 |
DE60120585T2 (de) | 2007-05-31 |
EP1195743A3 (en) | 2003-04-09 |
ES2266063T3 (es) | 2007-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0718820B1 (en) | Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus | |
JP3475446B2 (ja) | 符号化方法 | |
DE69332991T2 (de) | Verfahren zur Grundfrequenz-Extraktion | |
JP2002091475A (ja) | 音声合成方法 | |
WO1993018505A1 (en) | Voice transformation system | |
JP3189598B2 (ja) | 信号合成方法および信号合成装置 | |
JPH09101798A (ja) | 音声帯域拡大方法および音声帯域拡大装置 | |
US20050065781A1 (en) | Method for analysing audio signals | |
EP1141939A1 (en) | System and method for segmentation and recognition of speech signals | |
US20090157397A1 (en) | Voice Rule-Synthesizer and Compressed Voice-Element Data Generator for the same | |
WO2022078634A1 (en) | Audio generator and methods for generating an audio signal and training an audio generator | |
US20240127832A1 (en) | Decoder | |
Hsu et al. | Revise: Self-supervised speech resynthesis with visual input for universal and generalized speech regeneration | |
JP2013109274A (ja) | 目標話者学習方法、その装置及びプログラム | |
EP2087485B1 (en) | Multicodebook source -dependent coding and decoding | |
KR100527002B1 (ko) | 음성 신호의 에너지 분포 특성을 고려한 쉐이핑 장치 및 방법 | |
JP3281266B2 (ja) | 音声合成方法及び装置 | |
JP4766559B2 (ja) | 音楽信号の帯域拡張方式 | |
JP3282693B2 (ja) | 声質変換方法 | |
Yağli et al. | Artificial bandwidth extension of spectral envelope with temporal clustering | |
JP3230782B2 (ja) | 広帯域音声信号復元方法 | |
JP3444396B2 (ja) | 音声合成方法、その装置及びプログラム記録媒体 | |
JP2973805B2 (ja) | 標準パターン作成装置 | |
WO2004040553A1 (ja) | 帯域拡張装置及び方法 | |
JP2002091486A (ja) | 音声認識装置、音声認識方法、および音声認識プログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070912 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100519 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100525 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101005 |