JP2002091475A - 音声合成方法 - Google Patents

音声合成方法

Info

Publication number
JP2002091475A
JP2002091475A JP2000281683A JP2000281683A JP2002091475A JP 2002091475 A JP2002091475 A JP 2002091475A JP 2000281683 A JP2000281683 A JP 2000281683A JP 2000281683 A JP2000281683 A JP 2000281683A JP 2002091475 A JP2002091475 A JP 2002091475A
Authority
JP
Japan
Prior art keywords
pitch
representative
waveform
waveforms
pitch waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000281683A
Other languages
English (en)
Inventor
Akira Mochizuki
亮 望月
Toshiyuki Isono
敏幸 礒野
Hirofumi Nishimura
洋文 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2000281683A priority Critical patent/JP2002091475A/ja
Priority to TW090122653A priority patent/TW525145B/zh
Priority to ES01121912T priority patent/ES2266063T3/es
Priority to DE60120585T priority patent/DE60120585T2/de
Priority to US09/953,989 priority patent/US7016840B2/en
Priority to EP01121912A priority patent/EP1195743B1/en
Priority to CN01140652.6A priority patent/CN1243340C/zh
Publication of JP2002091475A publication Critical patent/JP2002091475A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

(57)【要約】 【課題】 音声素片を変形、接続して音声を合成する
際、大幅なデータ圧縮をすることができ、しかも、音質
の劣化を小さくすることができる音声合成方法を提供す
ること。 【解決手段】 音声素片の有声部分をピッチ波形301
単位に分解し、ピッチ波形301の位相特性303を特
定の代表位相特性305に置き換え、位相特性が置き換
えられたピッチ波形307を似通ったピッチ波形同士に
グループ化し、グループ毎に代表ピッチ波形を決定し、
この代表ピッチ波形を用いて音声を合成するよう構成し
た。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声素片を変形、
接続して音声を合成する波形重畳方式の音声合成方法に
関し、特に、音声素片の有声部分をピッチ波形単位に分
解して加工する音声合成方法に関するものである。
【0002】
【従来の技術】従来、音声素片を変形、接続して音声を
合成する波形重畳型の音声合成方法(特開平10−17
1484号公報に記載)は、使用するメモリ容量が少な
くて済むように、音声素片をピッチ波形単位に分解し、
このピッチ波形の中から冗長と思われるピッチ波形を省
き、代表となるピッチ波形を用いて音声を合成するよう
になっていた。
【0003】
【発明が解決しようとする課題】しかしながら、このよ
うな従来の音声合成方法では、位相特性の相違によって
ピッチ波形の形状が様々であるため、類似度の高いピッ
チ波形をまとめあげて代表ピッチ波形に置き換えたとし
ても、大幅なデータ削減にはつながらないという問題が
あった。
【0004】本発明はこのような問題を解決するために
なされたもので、音声素片を変形、接続して音声を合成
する際、大幅なデータ圧縮をすることができ、しかも、
音質の劣化を小さくすることができる音声合成方法を提
供するものである。
【0005】
【課題を解決するための手段】本発明の音声合成方法
は、音声素片を変形、接続して音声を合成する波形重畳
方式の音声合成方法において、音声素片の有声部分をピ
ッチ波形単位に分解し、前記ピッチ波形の位相特性を特
定の代表位相特性に置き換え、前記ピッチ波形を似通っ
たピッチ波形同士にグループ化し、グループ毎に代表ピ
ッチ波形を決定し、前記代表ピッチ波形を用いて音声を
合成する構成を有している。この構成により、ピッチ波
形の位相特性の不一致によるピッチ波形の形状の違いを
取り除いた後、ピッチ波形をグループ化して代表ピッチ
波形を選択するため、多数のピッチ波形をひとつの代表
ピッチ波形に置き換えることができるようになり、大幅
なデータ圧縮をすることができることとなる。また、ピ
ッチ波形単位の位相特性は変更しても合成した音声の音
質にほとんど影響を与えないため、音質劣化が少ない音
声合成をすることができることとなる。
【0006】本発明の音声合成方法は、前記代表位相特
性を、前記音声素片の有声部分を分解して得た複数のピ
ッチ波形から求める構成を有している。この構成によ
り、もととなる音声素片の有声部分を分解して得た複数
のピッチ波形から代表位相特性を求めるので、ピッチ波
形の位相特性の置き換えに伴うピッチ波形の形状の変更
を小さくすることができ、音質劣化がさらに少ない音声
を合成することができることとなる。
【0007】本発明の音声合成方法は、前記代表位相特
性を、前記複数のピッチ波形の位相特性を平均して求め
る構成を有している。この構成により、もととなる音声
素片の有声部分を分解して得た複数のピッチ波形の位相
特性を平均して求めるので、ピッチ波形の位相特性の置
き換えに伴うピッチ波形の形状の変更を小さくすること
ができ、音質劣化がさらに少ない音声を合成することが
できることとなる。
【0008】本発明の音声合成方法は、予め音素の種別
毎に前記ピッチ波形を分類する構成を有している。この
構成により、グループ分けにかかる演算量を大幅に省け
るとともに、音素の種別が異なるピッチ波形同士が同一
グループに振り分けられることを防ぐことができ、安定
した音質の音声を合成することができることとなる。
【0009】本発明の音声合成方法は、前記ピッチ波形
をグループ化する際、前記ピッチ波形の振幅特性に対し
て周波数毎に重み付けして生成した類似度評価用のピッ
チ波形同士を比較する構成を有している。この構成によ
り、各周波数帯域における振幅特性が合成音声の音質に
与える影響を考慮することができ、音質との整合性がと
れた類似度評価が可能となり、安定した音質の音声を合
成することができることとなる。
【0010】本発明の音声合成方法は、合成時に隣接し
て用いる代表ピッチ波形同士を比較し、前記比較の結果
が所定の条件を満たさないとき、代表ピッチ波形を決定
し直す構成を有している。この構成により、音声素片を
代表ピッチ波形によって再構成する際に、隣接する代表
ピッチ波形間の連続性が考慮され、音質の劣化をさらに
小さくすることができることとなる。
【0011】
【発明の実施の形態】以下、本発明の実施の形態につい
て、図面を用いて説明する。
【0012】(第1の実施の形態)図1は音声素片から
抽出したピッチ波形をグループ分けして代表ピッチ波形
を決定する例を示した図である。図1において、音声素
片101〜104は、CV(子音・母音)、VCV(母
音・子音・母音)といった単位からなり、合成時に韻律
変形を施して接続する。ピッチ波形データベース111
は音声素片の有声部分から抽出したピッチ波形を格納す
るものである。類似したピッチ波形を集めたグループ1
22、123は、位相特性が統一されたピッチ波形につ
いて、類似度を評価関数にして振り分けたものである。
代表ピッチ波形132、133は各グループ122、1
23から選出された代表となるピッチ波形である。代表
ピッチ波形データベース131は代表ピッチ波形13
2、133を格納するものである。
【0013】図2は音声素片の一部分からピッチ波形を
抽出する例を示した図である。図2において、ピッチ波
形211〜217は原音声からハニング窓によって抽出
される。ピッチマーク位置221〜227はピッチ波形
抽出の基準であり、予め自動または手動で付与してあ
る。
【0014】図3はピッチ波形の位相特性を特定の位相
特性(代表位相特性)に置き換える例を示した図であ
る。図3において、まず、音声素片から抽出した時間軸
のピッチ波形301に対してフーリエ変換処理302を
行い、周波数軸の位相特性303および振幅特性304
を得る。ここで、位相特性303を、予め選定または生
成された代表位相特性305に置き換える。図4はピッ
チ波形の位相特性(または代表位相特性)の例を示した
図であり、位相は各周波数毎に異なっている。なお、振
幅特性304については置き換えを行わない。次に、代
表位相特性305と振幅特性304とに対して逆フーリ
エ変換処理306を行い、位相特性が代表位相特性に置
き換えられた時間軸のピッチ波形307を得る。
【0015】図5は代表ピッチ波形を用いて音声素片を
再構成する例を示した図である。図5において、代表ピ
ッチ波形511〜513はピッチ波形の代替として使用
される。代表ピッチ波形511〜513を配列して再構
成された音声素片521を得る。
【0016】本実施の形態は、まず、図1に示すよう
に、音声素片101〜104の有声部分をピッチ波形単
位に分解し、各ピッチ波形をピッチ波形データベース1
11に格納する。ピッチ波形は、図2に示すように予め
音声波形に付与されたピッチマーク位置221〜227
を基準に、ハニング窓を用いて抽出する。続いて、ピッ
チ波形データベース111に格納されたピッチ波形につ
いて、図3に示すように、位相特性を統一する。ピッチ
波形の位相特性は、変更しても合成音声の音質にほとん
ど影響を与えないため、あるひとつの位相特性(代表位
相特性)に置きかえる。位相特性を統一することで、位
相特性の違いによって生じる波形形状の不一致を取り除
き、ピッチ波形間の類似性を高めることができる。続い
て、図1に示すように、位相特性を統一したピッチ波形
データベース111内で、類似度が高いピッチ波形同士
をグループにまとめあげる。ピッチ波形間の類似度は、
距離(ユークリッド距離)や相関、尤度によって定義で
きる。ここでは類似度を表す指標として相関係数を用い
る。あるふたつのピッチ波形SmおよびSnの相関係数M mn
は下記数1から求める。
【数1】 ここで、l はピッチ波形長を表し、ふたつのピッチ波形
の波形長のうち、短い方に合わせる。続いて、図1に示
すように、各グループ122、123において、それぞ
れ代表ピッチ波形132、133を選定する。各グルー
プにおける代表ピッチ波形の選定は、ベクトル量子化に
よってコードブックを作成する要領でセントロイドを求
め、このセントロイドの最近傍にあるピッチ波形を代表
ピッチ波形として選定し、代表ピッチ波形データベース
131に格納する。そして、図5に示すように、代表ピ
ッチ波形511〜513によって音声素片521を再構
成する。なお、もとの音声素片を構成するピッチ波形と
代表ピッチ波形511〜513との対応関係は、音声素
片を再構成するための情報として保存する。合成時に
は、この対応関係を示す情報を参照することで必要な音
声素片521を再構成する。
【0017】以上のように本実施の形態によれば、ピッ
チ波形を共有化することにより冗長なデータの削減が可
能であり、特に位相特性を統一することで、位相特性の
不一致によって生じる波形形状のばらつきを取り除くこ
とができ、ピッチ波形間の類似度が高まることから、飛
躍的にデータベースを縮小することが可能である。
【0018】なお、前記説明では、CV単位、VCV単
位の音声素片からピッチ波形を抽出した場合を例に説明
したが、当然、その他の単位の音声素片や、任意の自然
発声音声から抽出したピッチ波形に対して処理すること
も可能である。
【0019】また、前記説明では、ピッチ波形間の類似
度を時間軸で評価する場合を例に示したが、周波数軸に
おいて振幅スペクトルの距離を用いて評価する方法で
も、ほぼ同等の効果が得られる。
【0020】尚、上記説明では、各グループ分けされた
ピッチ波形の中から代表ピッチ波形を選定する方法を例
に示したが、各グループ分けされたピッチ波形の中で、
セントロイド(重心)を代表ピッチ波形として用いるこ
とも可能である。
【0021】(第2の実施の形態)第2の実施の形態
は、音声合成に利用する音声素片の有声部分を分解して
得たピッチ波形から、統計的な手法によって、代表ピッ
チ波形を求めるようになっている。また、代表位相特性
を複数用意して選択するようになっている。その他の処
理は、第1の実施形態と同じであり、詳細な説明を省略
する。
【0022】図6は代表位相特性を決定する例を示した
図である。図6において、ピッチ波形601は代表位相
特性を決定するための分析対象である。フーリエ変換処
理602はピッチ波形601を周波数分析する処理であ
る。位相特性603はピッチ波形601からフーリエ変
換処理602によって得られる。代表位相特性生成処理
604は統計的な手法によって代表位相特性を生成する
方法である。代表位相特性データベース605は代表位
相特性を格納するものである。なお、ピッチ波形データ
ベース111は、図1に示したピッチ波形データベース
111であって、音声合成に利用する音声素片の有声部
分を分解して得た複数のピッチ波形を格納したものであ
る。
【0023】ここで、代表位相特性を求める統計的な手
法の例を説明する。フーリエ変換処理602の結果、ピ
ッチ波形の周波数軸における振幅特性A(w)および位
相特性P(w)は、実部R(w)と虚部I(w)を用い
て、それぞれ、 A(w)=(R(w)2+I(w)21/2 P(w)=tan-1(I(w)/R(w)) によって求められる。なお、wは周波数[Hz]を表
し、離散値である。ここで、ピッチ波形データベース1
11内のN個のピッチ波形について、位相特性の平均
P’(w)を下記数2によって求め、このP’(w)を
代表位相特性とする。すなわち、複数のピッチ波形につ
いて周波数毎の位相の平均を代表位相特性とする。
【数2】
【0024】図7は代表位相特性を選択して位相特性を
置き換える例を示した図である。図7において、ピッチ
波形701は音声合成に利用する音声素片の有声部分を
分解して得たピッチ波形である。フーリエ変換処理70
2はピッチ波形701を周波数分析する処理である。振
幅特性703および位相特性704は、フーリエ変換処
理702によって得られる周波数軸におけるピッチ波形
701の特性である。代表位相特性705は位相特性7
04の代わりに使用される位相特性である。逆フーリエ
変換処理706は周波数軸から時間軸に戻す処理であ
る。逆フーリエ変換処理706によって、位相特性が置
き換えられたピッチ波形707が得られる。代表位相特
性選択処理708は代表位相特性データベース605か
ら適切な代表位相特性を選択する処理である。
【0025】本実施の形態では、図6に示すように、ピ
ッチ波形データベース111に格納されているすべての
ピッチ波形について、フーリエ変換処理を施し、周波数
軸の位相特性を求める。ここで求まった複数のピッチ波
形の位相特性について類似度を基準にグループ分けを行
ない、複数の代表位相特性を求める。各グループの代表
位相特性は、グループ内の位相特性の平均を用いるか、
または、グループ分けされた位相特性の中から最もセン
トロイドに近い位相特性を選定する。このように求めた
代表位相特性を代表位相特性データベース605に格納
する。続いて、図7に示すように、ピッチ波形の位相特
性を代表位相特性に置き換える。まず位相操作の対象で
あるピッチ波形701にフーリエ変換処理702を施
し、振幅特性703と位相特性704を抽出する。抽出
された位相特性704を、代表位相特性705に置き換
える。代表位相特性データベース605に代表位相特性
が複数ある場合は、もとの位相特性704との類似度が
最も高い代表位相特性を選択する(代表位相特性の選択
処理708)。選択された代表位相特性705と振幅特
性703に対して逆フーリエ変換処理706を行い、位
相特性が置き換えられたピッチ波形707を得る。
【0026】以上のように本実施の形態によれば、ピッ
チ波形の位相特性を、音声合成に利用する音声素片の有
声部分を分解して得たピッチ波形から統計的な手法によ
って求めた代表位相特性に置き換えることにより、ピッ
チ波形間の位相特性の不一致を回避でき、また、零位相
化のようにエネルギーが集中する不自然なピッチ波形に
なることが避けられ、音質が安定した音声合成をするこ
とができる。
【0027】(第3の実施の形態)第3の実施の形態
は、予め音素の種別毎にピッチ波形を分類しておくよう
になっている。その他の処理は、第1または第2の実施
の形態と同じであり、詳細な説明を省略する。
【0028】図8は音声素片から抽出したピッチ波形を
音素カテゴリ(音素の種別)に基づいて分類する例を示
した図である。図8において、VCV単位の音声素片8
01〜804はピッチ波形の抽出もとであり、ピッチ波
形データベース811〜813は音素の種別毎にグルー
プ分けされたピッチ波形をそれぞれ格納する。
【0029】音声素片から抽出したすべてのピッチ波形
をひとつの集合として、この中から類似度の高いピッチ
波形同士をグループ化することは可能であるが、すべて
のピッチ波形を一度に取り扱う場合、ピッチ波形数が多
大になるためグループ分け処理に時間がかかり、作業効
率が良くない。そこで、音声素片から抽出したピッチ波
形をひとつのピッチ波形データベースに格納するのでは
なく、予め音素の種別毎にピッチ波形データベースを作
成する。音声素片801〜804は予め音素境界がラベ
リングされており、抽出したピッチ波形が属す音素の種
別に基づき、ピッチ波形は、音素の種別毎に分類されて
ピッチ波形データベース811〜813に格納される。
ここで音素の種別は、母音/a/、/i/、/u/、/e/、/o/、
撥音/n/、半母音/w/、/y/、有声子音/m/、/n/、/r/、/z
/、/j/、/b/、/d/、/g/、/v/といった音素の種別であ
る。続いて音素の種別毎にピッチ波形の位相特性を代表
位相特性に置き換え、グループ分けを行う。なお、代表
位相特性は、音素の種別毎に各ピッチ波形データベース
811〜813内で決定する。以降、各グループから代
表ピッチ波形を選定または生成し、この代表ピッチ波形
を用いて、音声素片を再構成する。
【0030】以上のように、本実施の形態によれば、ピ
ッチ波形を予め音素の種別に基づいて分類することで、
グループ化処理にかかる計算の手間が大幅に省けるとと
もに、音素の種別が異なるピッチ波形同士が同一グルー
プにグループ分けされることを防げるため、音質が安定
した音声合成をすることができる。
【0031】尚、前記説明では、VCV単位の音声素片
からピッチ波形を抽出した場合を例に説明したが、当
然、その他の単位の音声素片や、任意の自然発声音声か
ら抽出したピッチ波形に対して処理することも可能であ
る。
【0032】尚、前記説明では、各ピッチ波形データベ
ース毎に代表位相特性を決定する例を説明したが、すべ
てのピッチ波形データベースで同一の代表位相特性を決
定するようにしてもよい。
【0033】(第4の実施の形態)第4の実施の形態
は、ピッチ波形をグループ化する際、ピッチ波形の振幅
特性に対して周波数毎に重み付けして生成した類似度評
価用のピッチ波形同士を比較するようになっている。そ
の他の処理は、第1、第2、または第3の実施の形態と
同じであり、詳細な説明を省略する。
【0034】図9はピッチ波形間の類似度を評価するた
めの前処理の例を示した図である。図9において、もと
のピッチ波形901は重み付け処理を行う前のピッチ波
形である。振幅特性911は、ピッチ波形901に対し
てフーリエ変換処理を行って得られた周波数軸の振幅特
性である。振幅特性911に対して周波数帯域毎に設定
する振幅利得(重み)921は、周波数帯域毎の重要性
に応じて任意に決められている。前処理フィルタ902
は、ピッチ波形901に対してフーリエ変換処理を行っ
て得られた振幅特性911に対して、周波数帯域毎に振
幅利得921を設定する。この周波数帯域毎に振幅利得
が設定された振幅特性と、代表位相特性とによって逆フ
ーリエ変換が行われ、この逆フーリエ変換によって得ら
れた類似度評価用のピッチ波形903、すなわち振幅利
得921が設定されたピッチ波形903によって、ピッ
チ波形同士の類似度の評価を行う。
【0035】ピッチ波形間の類似度は、ピッチ波形間の
相関係数によって評価する。この相関係数が1に近いほ
どピッチ波形間の類似度が高いことを示し、類似度が高
いピッチ波形同士は音声素片を再構成する際に相互に置
き換えを行なっても歪みが少ない。すなわち、代表ピッ
チ波形とそのグループに属すピッチ波形との相関係数が
高ければ、代表ピッチ波形を用いることによって音質劣
化が生じることはない。
【0036】音声波形間の類似度を定義するにあたり、
低域における振幅特性は音声の連続性を保持するために
極めて高い類似度を必要とするが、高域における振幅特
性の類似度はそれほど気にしなくても良い場合がある。
このように周波数帯域毎に振幅特性の重要度が違ってく
る。ここでは低域の振幅特性に重みを置いた場合を例に
して説明すると、類似度の評価対象となるピッチ波形の
振幅特性911に対して、周波数帯域に応じた振幅利得
921をかけあわせる。このように、帯域毎に重み付け
されたピッチ波形を用いて類似度の評価を行なう。これ
はピッチ波形901を低域通過フィルタに通し、高域成
分の影響を抑えたピッチ波形903を用いて類似度を評
価する処理と等化である。尚、類似度の評価にはこのフ
ィルタリングをしたピッチ波形を用いるが、実際にグル
ープ分けされ、代表ピッチ波形として選定されるのは、
フィルタ処理を行なわないピッチ波形である。すなわ
ち、本処理は類似度の評価を行うための処理である。
【0037】以上のように、本実施の形態によれば、類
似度評価を行なう前処理として、ピッチ波形に対して周
波数帯域毎に重み付けをすることで、各周波数帯域の振
幅特性が合成音声の音質に与える影響を考慮した上で類
似度を評価することができるため、音質と類似度との関
係の整合性がとれたピッチ波形削減が可能である。
【0038】尚、類似度評価用のピッチ波形同士による
類似度の評価は、周波数軸におけるピッチ波形の振幅特
性に基づいて類似度を評価するようにしてもよく、ま
た、時間軸でフィルタリングされたピッチ波形を用いて
類似度を評価するようにしてもよい。
【0039】(第5の実施の形態)第5の実施の形態
は、隣接して用いる代表ピッチ波形同士の類似度を評価
するようになっている。
【0040】図10は隣接して用いる代表ピッチ波形の
類似度を評価する例を示した図である。図10におい
て、初期の代表ピッチ波形を選定する処理1001、ピ
ッチ波形のグループ分け処理1002、各グループにお
ける代表ピッチ波形の選定処理1003、各代表ピッチ
波形が条件を満たしているかどうかの判定処理100
4、1005、および、代表ピッチ波形の選定処理10
06は、本処理の各構成要素である。図11は連続する
ピッチ波形間の類似度と代表ピッチ波形の類似度との関
係を説明する図である。図11において、ピッチ波形1
101、1102は音声素片内の隣り合うピッチ波形で
あり、代表ピッチ波形1111、1112は、ピッチ波
形1101、1102の代わりに使用される波形であ
る。
【0041】図10において、まず、ピッチ波形データ
ベース内において全てのピッチ波形の中から、任意のピ
ッチ波形を初期の代表ピッチ波形に選定する(100
1)。続いてすべてのピッチ波形について、代表ピッチ
波形との類似度を計算し、最も類似度が高くなる代表ピ
ッチ波形のグループに各ピッチ波形を割り振る(100
2)。ここで代表ピッチ波形の数だけグループが作成さ
れることになる。全てのピッチ波形をグループ分けした
ら、各グループ毎に新たに代表ピッチ波形を選定し直す
(1003)。代表ピッチ波形は各グループ内で最も重
心近傍にあるピッチ波形を採用する。この新たに選定さ
れた代表ピッチ波形が条件を満たしているかどうか判断
する。ここで条件は2つあり、1つは代表ピッチ波形と
そのグループに属すすべてのピッチ波形との類似度が定
められた閾値を満たしていること(1004)、もう1
つは代表ピッチ波形によって音声素片を再構成した際
に、隣接して用いる代表ピッチ波形同士の類似度が代表
ピッチ波形に置きかえられる前のピッチ波形同士の類似
度で決まる閾値を満たしていること(1005)であ
る。もし、条件が満たされないときは、このグループを
2つのグループに分割し、各グループにそれぞれ代表ピ
ッチ波形を選定する(1006)。このように各代表ピ
ッチ波形について、グループ内のすべてのピッチ波形と
の類似度、および、隣接して用いる代表ピッチ波形との
類似度が、所定の条件を満たすまで一連の処理を繰り返
し、最終の代表ピッチ波形を決定する。
【0042】ピッチ波形のグループ化処理において、新
たに代表ピッチ波形を作成するかどうかの判断は、各代
表ピッチ波形とグループ内のピッチ波形との類似度が所
定の条件を満たしているかどうかで決定されるが、本実
施の形態ではこれに加え、選定された代表ピッチ波形間
の類似度も判断材料として用いている。図11におい
て、音声素片内の連続する2つのピッチ波形(110
1、1102)間の類似度に対して、それぞれの代用と
して使用される代表ピッチ波形(1111、1112)
間の類似度が、ある一定以上の類似度を満たすか否か判
定している。例えば、類似度として相関係数を用い、も
との連続するピッチ波形(1101、1102)間の相
関係数が0.9であった場合、この代用として使われる
代表ピッチ波形(1111、1112)間の相関係数
は、0.9α以上であることを条件とする。ここでαは
閾値を決定する所定の係数で、0<α<1である。この
条件が満たされるまで、一連のグループ分け処理を繰り
返し行なう。
【0043】以上のように、本実施の形態によれば、各
グループ内のピッチ波形間の類似度だけでなく、音声素
片を代表ピッチ波形で再現した際に隣接して用いる代表
ピッチ波形間の類似度も考慮することで、連続性の良い
音声素片を再構成することができ、音質劣化の少ない音
声合成が可能となる。
【0044】尚、前記説明では、ピッチ波形間の類似度
として相関係数を用いる例を示したが、スペクトル距離
を用いて評価しても、ほぼ同等の効果が得られる。
【0045】
【発明の効果】本発明は、音声素片を変形、接続して音
声を合成する際、大幅なデータ圧縮をすることができ、
しかも、音質の劣化を小さくすることができるという優
れた効果を有する音声合成方法を提供することができる
ものである。
【図面の簡単な説明】
【図1】本発明に係る音声合成方法において代表ピッチ
波形を決定する例を示した図
【図2】本発明に係る音声合成方法においてピッチ波形
を抽出する例を示した図
【図3】本発明に係る音声合成方法において位相特性を
特定の代表位相特性に置き換える例を示した図
【図4】本発明に係る音声合成方法において位相特性の
例を示した図
【図5】本発明に係る音声合成方法において音声素片を
再構成する例を示した図
【図6】本発明に係る音声合成方法において代表位相特
性を決定する例を示した図
【図7】本発明に係る音声合成方法において代表位相特
性を選択して位相特性を置き換える例を示した図
【図8】本発明に係る音声合成方法においてピッチ波形
を音素の種別に基づいて分類する例を示した図
【図9】本発明に係る音声合成方法においてピッチ波形
間の類似度を評価するための前処理の例を示した図
【図10】本発明に係る音声合成方法において隣接して
用いる代表ピッチ波形の類似度を評価する例を示した図
【図11】本発明に係る音声合成方法において隣接して
用いる代表ピッチ波形間の類似度の関係を示した図
【符号の説明】
101〜104 もとの音声素片 111 ピッチ波形データベース 122、123 ピッチ波形のグループ 131 代表ピッチ波形データベース 132、133、511〜513 代表ピッチ波形 211〜217、301 抽出したピッチ波形 521 再構成された音声素片
───────────────────────────────────────────────────── フロントページの続き (72)発明者 西村 洋文 神奈川県横浜市港北区綱島東四丁目3番1 号 松下通信工業株式会社内 Fターム(参考) 5D045 AA07

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 音声素片を変形、接続して音声を合成す
    る波形重畳方式の音声合成方法において、音声素片の有
    声部分をピッチ波形単位に分解し、前記ピッチ波形の位
    相特性を特定の代表位相特性に置き換え、前記ピッチ波
    形を似通ったピッチ波形同士にグループ化し、グループ
    毎に代表ピッチ波形を決定し、前記代表ピッチ波形を用
    いて音声を合成することを特徴とする音声合成方法。
  2. 【請求項2】 前記代表位相特性は、前記音声素片の有
    声部分を分解して得た複数のピッチ波形から求めること
    を特徴とする請求項1に記載の音声合成方法。
  3. 【請求項3】 前記代表位相特性は、前記複数のピッチ
    波形の位相特性を平均して求めることを特徴とする請求
    項2に記載の音声合成方法。
  4. 【請求項4】 予め音素の種別毎に前記ピッチ波形を分
    類することを特徴とする請求項1乃至請求項3いずれか
    に記載の音声合成方法。
  5. 【請求項5】 前記ピッチ波形をグループ化する際、前
    記ピッチ波形の振幅特性に対して周波数毎に重み付けし
    て生成した類似度評価用のピッチ波形同士を比較するこ
    とを特徴とする請求項1乃至請求項4いずれかに記載の
    音声合成方法。
  6. 【請求項6】 合成時に隣接して用いる代表ピッチ波形
    同士を比較し、前記比較の結果が所定の条件を満たさな
    いとき、代表ピッチ波形を決定し直すことを特徴とする
    請求項1乃至請求項5いずれかに記載の音声合成方法。
JP2000281683A 2000-09-18 2000-09-18 音声合成方法 Pending JP2002091475A (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP2000281683A JP2002091475A (ja) 2000-09-18 2000-09-18 音声合成方法
TW090122653A TW525145B (en) 2000-09-18 2001-09-12 Apparatus and method for speech synthesis
ES01121912T ES2266063T3 (es) 2000-09-18 2001-09-12 Dispositivo y procedimiento de sintesis del habla.
DE60120585T DE60120585T2 (de) 2000-09-18 2001-09-12 Anordnung und Verfahren zur Sprachsynthese
US09/953,989 US7016840B2 (en) 2000-09-18 2001-09-12 Method and apparatus for synthesizing speech and method apparatus for registering pitch waveforms
EP01121912A EP1195743B1 (en) 2000-09-18 2001-09-12 Apparatus and method for speech synthesis
CN01140652.6A CN1243340C (zh) 2000-09-18 2001-09-17 语音合成装置和方法以及音调波形记录装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000281683A JP2002091475A (ja) 2000-09-18 2000-09-18 音声合成方法

Publications (1)

Publication Number Publication Date
JP2002091475A true JP2002091475A (ja) 2002-03-27

Family

ID=18766302

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000281683A Pending JP2002091475A (ja) 2000-09-18 2000-09-18 音声合成方法

Country Status (7)

Country Link
US (1) US7016840B2 (ja)
EP (1) EP1195743B1 (ja)
JP (1) JP2002091475A (ja)
CN (1) CN1243340C (ja)
DE (1) DE60120585T2 (ja)
ES (1) ES2266063T3 (ja)
TW (1) TW525145B (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100477224B1 (ko) * 2002-09-28 2005-03-17 에스엘투 주식회사 위상 정보 저장 및 검색 방법 및 이를 이용한 단위 음소코딩 방법
US7089187B2 (en) 2001-09-27 2006-08-08 Nec Corporation Voice synthesizing system, segment generation apparatus for generating segments for voice synthesis, voice synthesizing method and storage medium storing program therefor
JP2012088555A (ja) * 2010-10-20 2012-05-10 Mitsubishi Electric Corp 音声合成システム、音声素片辞書作成方法、音声素片辞書作成プログラム、及び、音声素片辞書作成プログラム記録媒体

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040220801A1 (en) * 2001-08-31 2004-11-04 Yasushi Sato Pitch waveform signal generating apparatus, pitch waveform signal generation method and program
WO2004027754A1 (en) * 2002-09-17 2004-04-01 Koninklijke Philips Electronics N.V. A method of synthesizing of an unvoiced speech signal
US20060074675A1 (en) * 2002-09-17 2006-04-06 Koninklijke Philips Electronics N.V. Method of synthesizing creaky voice
AU2003284654A1 (en) * 2002-11-25 2004-06-18 Matsushita Electric Industrial Co., Ltd. Speech synthesis method and speech synthesis device
JP4407305B2 (ja) * 2003-02-17 2010-02-03 株式会社ケンウッド ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム
CN101510424B (zh) * 2009-03-12 2012-07-04 孟智平 基于语音基元的语音编码与合成方法及系统
JP6415929B2 (ja) * 2014-10-30 2018-10-31 株式会社東芝 音声合成装置、音声合成方法およびプログラム
CN110444190A (zh) * 2019-08-13 2019-11-12 广州国音智能科技有限公司 语音处理方法、装置、终端设备及存储介质
CN112820267B (zh) * 2021-01-15 2022-10-04 科大讯飞股份有限公司 波形生成方法以及相关模型的训练方法和相关设备、装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60205500A (ja) * 1984-03-29 1985-10-17 松下電器産業株式会社 音声合成用駆動信号生成方法
JPS6228800A (ja) * 1985-07-31 1987-02-06 松下電器産業株式会社 規則音声合成用駆動信号生成方法
JPH03233500A (ja) * 1989-12-22 1991-10-17 Oki Electric Ind Co Ltd 音声合成方式およびこれに用いる装置
JPH04196724A (ja) * 1990-11-27 1992-07-16 Matsushita Electric Ind Co Ltd 音声符号化復号化装置
JPH06318094A (ja) * 1993-05-07 1994-11-15 Sharp Corp 音声規則合成装置
JPH0764599A (ja) * 1993-08-24 1995-03-10 Hitachi Ltd 線スペクトル対パラメータのベクトル量子化方法とクラスタリング方法および音声符号化方法並びにそれらの装置
JPH08137498A (ja) * 1994-11-04 1996-05-31 Matsushita Electric Ind Co Ltd 音声符号化装置
JPH09258796A (ja) * 1996-03-25 1997-10-03 Toshiba Corp 音声合成方法
JPH09319394A (ja) * 1996-03-12 1997-12-12 Toshiba Corp 音声合成方法
JPH10171484A (ja) * 1996-12-10 1998-06-26 Matsushita Electric Ind Co Ltd 音声合成方法および装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3242331B2 (ja) * 1996-09-20 2001-12-25 松下電器産業株式会社 Vcv波形接続音声のピッチ変換方法及び音声合成装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60205500A (ja) * 1984-03-29 1985-10-17 松下電器産業株式会社 音声合成用駆動信号生成方法
JPS6228800A (ja) * 1985-07-31 1987-02-06 松下電器産業株式会社 規則音声合成用駆動信号生成方法
JPH03233500A (ja) * 1989-12-22 1991-10-17 Oki Electric Ind Co Ltd 音声合成方式およびこれに用いる装置
JPH04196724A (ja) * 1990-11-27 1992-07-16 Matsushita Electric Ind Co Ltd 音声符号化復号化装置
JPH06318094A (ja) * 1993-05-07 1994-11-15 Sharp Corp 音声規則合成装置
JPH0764599A (ja) * 1993-08-24 1995-03-10 Hitachi Ltd 線スペクトル対パラメータのベクトル量子化方法とクラスタリング方法および音声符号化方法並びにそれらの装置
JPH08137498A (ja) * 1994-11-04 1996-05-31 Matsushita Electric Ind Co Ltd 音声符号化装置
JPH09319394A (ja) * 1996-03-12 1997-12-12 Toshiba Corp 音声合成方法
JPH09258796A (ja) * 1996-03-25 1997-10-03 Toshiba Corp 音声合成方法
JPH10171484A (ja) * 1996-12-10 1998-06-26 Matsushita Electric Ind Co Ltd 音声合成方法および装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7089187B2 (en) 2001-09-27 2006-08-08 Nec Corporation Voice synthesizing system, segment generation apparatus for generating segments for voice synthesis, voice synthesizing method and storage medium storing program therefor
KR100477224B1 (ko) * 2002-09-28 2005-03-17 에스엘투 주식회사 위상 정보 저장 및 검색 방법 및 이를 이용한 단위 음소코딩 방법
JP2012088555A (ja) * 2010-10-20 2012-05-10 Mitsubishi Electric Corp 音声合成システム、音声素片辞書作成方法、音声素片辞書作成プログラム、及び、音声素片辞書作成プログラム記録媒体

Also Published As

Publication number Publication date
DE60120585D1 (de) 2006-07-27
EP1195743A2 (en) 2002-04-10
US7016840B2 (en) 2006-03-21
US20020052733A1 (en) 2002-05-02
TW525145B (en) 2003-03-21
CN1243340C (zh) 2006-02-22
CN1345028A (zh) 2002-04-17
EP1195743B1 (en) 2006-06-14
DE60120585T2 (de) 2007-05-31
EP1195743A3 (en) 2003-04-09
ES2266063T3 (es) 2007-03-01

Similar Documents

Publication Publication Date Title
EP0718820B1 (en) Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
JP3475446B2 (ja) 符号化方法
DE69332991T2 (de) Verfahren zur Grundfrequenz-Extraktion
JP2002091475A (ja) 音声合成方法
WO1993018505A1 (en) Voice transformation system
JP3189598B2 (ja) 信号合成方法および信号合成装置
JPH09101798A (ja) 音声帯域拡大方法および音声帯域拡大装置
US20050065781A1 (en) Method for analysing audio signals
EP1141939A1 (en) System and method for segmentation and recognition of speech signals
US20090157397A1 (en) Voice Rule-Synthesizer and Compressed Voice-Element Data Generator for the same
WO2022078634A1 (en) Audio generator and methods for generating an audio signal and training an audio generator
US20240127832A1 (en) Decoder
Hsu et al. Revise: Self-supervised speech resynthesis with visual input for universal and generalized speech regeneration
JP2013109274A (ja) 目標話者学習方法、その装置及びプログラム
EP2087485B1 (en) Multicodebook source -dependent coding and decoding
KR100527002B1 (ko) 음성 신호의 에너지 분포 특성을 고려한 쉐이핑 장치 및 방법
JP3281266B2 (ja) 音声合成方法及び装置
JP4766559B2 (ja) 音楽信号の帯域拡張方式
JP3282693B2 (ja) 声質変換方法
Yağli et al. Artificial bandwidth extension of spectral envelope with temporal clustering
JP3230782B2 (ja) 広帯域音声信号復元方法
JP3444396B2 (ja) 音声合成方法、その装置及びプログラム記録媒体
JP2973805B2 (ja) 標準パターン作成装置
WO2004040553A1 (ja) 帯域拡張装置及び方法
JP2002091486A (ja) 音声認識装置、音声認識方法、および音声認識プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070912

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100525

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101005