JP3263136B2 - 信号のピッチ同期位置抽出方式及び信号合成方式 - Google Patents

信号のピッチ同期位置抽出方式及び信号合成方式

Info

Publication number
JP3263136B2
JP3263136B2 JP20129092A JP20129092A JP3263136B2 JP 3263136 B2 JP3263136 B2 JP 3263136B2 JP 20129092 A JP20129092 A JP 20129092A JP 20129092 A JP20129092 A JP 20129092A JP 3263136 B2 JP3263136 B2 JP 3263136B2
Authority
JP
Japan
Prior art keywords
power spectrum
signal
pitch
distortion
analyzing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP20129092A
Other languages
English (en)
Other versions
JPH0651796A (ja
Inventor
充 海老原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP20129092A priority Critical patent/JP3263136B2/ja
Publication of JPH0651796A publication Critical patent/JPH0651796A/ja
Application granted granted Critical
Publication of JP3263136B2 publication Critical patent/JP3263136B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、例えば、文字で与えら
れた文章を音声合成する規則合成や、ピッチ等を制御し
て蓄積された音声データを接続合成する編集合成に適用
される、音声の分析方式と合成方式に関するものであ
る。
【0002】
【従来の技術】所望のピッチ周期及び時間長の合成音声
を得る方式としては、分析合成方式と、波形編集型音声
合成方式がある。 分析合成方式は、例えば、文献1 ”ディジタル音声処理”古井貞煕 東海大学出版 に示されているように、音声信号を分析により音源情報
と声道情報に分離して合成音声を得る方式であり、所望
のピッチ周期の合成音声を比較的容易に得ることができ
るが、音声を簡単なモデルで表現するために合成音声の
品質は劣化するという欠点がある。
【0003】一方、音声波形を切り出して加算すること
により、所望のピッチ周期及び時間長の合成音声を得る
波形編集型音声合成方式は、文献2 ”波形編集型音声合成法におけるピッチ制御法の検討” 広川智久、箱田和雄(NTTヒューマンインターフェー
ス研究所) 日本音響学会講演会論文集、1ー4ー7(1990.
3) により報告されている。
【0004】図8は従来の波形編集型音声合成方式の一
構成例を示す構成図である。切り出し中心位置分析手段
19のうち、有声無声判別手段3は、入力音声1を分析
して有声無声情報4を求め、ピッチ周期分析手段5は、
入力音声1を分析してピッチ周期6を抽出し、ローカル
ピーク抽出手段20は、有声無声情報3とピッチ周期6
に基づいて有声音区間内の入力音声1のピッチ周期間隔
毎のローカルピーク位置21を抽出する。音声合成方式
については、窓関数乗算手段16は、ローカルピーク位
置21を中心とする入力音声1に、合成ピッチ周期15
の長さの窓関数を乗じ、入力波形1の切り出しを行う。
波形加算手段17は、切り出された音声波形を合成ピッ
チ周期15に基づいて配置して加算を行うことで、合成
音声18を出力する。
【0005】
【発明が解決しようとする課題】上記のような波形編集
型音声合成方式は、入力音声波形の切り出しおよび加算
によってピッチ制御を行うことにより、分析合成方式で
得られる合成音声に比べ極めて自然性に優れた合成音声
を得ることができる。しかし、音声波形のローカルピー
クの間隔は必ずしも実際のピッチ周期6とは同期してお
らず、図9の説明図に示すようにローカルピーク間隔が
ピッチ周期6とずれてしまう場合には、得られる合成音
声に著しい品質劣化が生ずるという欠点がある。高品質
の合成音を得るために正しいピッチ間隔のピッチ同期点
を抽出する必要があり、これを視察によって行った場合
には、著しい手間がかかる。また、所望の合成ピッチ周
期15が入力音声のピッチ周期6に比べて短いときに
は、ローカルピークを中心とする波形の切り出し長が短
くなることにより入力音声の持つ情報が失われ、入力音
声と合成音声の間のスペクトル歪が増加することになる
が、前述したような波形のローカルピーク位置を波形切
り出しの中心位置に選ぶ方式においてはスペクトル歪に
対する考慮はなされていないため、得られる合成音声の
品質は劣化するという問題がある。
【0006】この発明は、このような問題を解決するた
めになされたものであり、ピッチ同期点の抽出誤りを減
少させるとともに、合成音声のスペクトル歪を減少させ
高品質な合成音声を得ることを目的としている。
【0007】
【課題を解決するための手段】この発明の請求項1にお
けるピッチ同期位置抽出方式は、例えば、入力音声を分
析して一定時間パワースペクトルを出力する一定時間パ
ワースペクトル分析手段、入力音声から短時間パワース
ペクトルを得る短時間パワースペクトル分析手段、前記
一定時間パワースペクトルと短時間パワースペクトルと
の間のスペクトル歪を求め、ピッチ周期間隔毎にそのス
ペクトル歪が極小となる位置をピッチ同期位置として出
力する抽出手段を備えるものであり、以下の要素を有す
るものである。 (a)信号を入力し、入力した信号の所定の時間長のパ
ワースペクトルを分析する一定時間パワースペクトル分
析手段、 (b)上記一定時間パワースペクトル分析手段が使用す
る所定の時間長よりも短い時間長で、上記入力した信号
のパワースペクトルを分析する短時間パワースペクトル
分析手段、 (c)上記一定時間パワースペクトル分析手段と短時間
パワースペクトル分析手段の分析により求められたパワ
ースペクトルの歪の変化を求め、入力された信号のピッ
チ同期位置を抽出する抽出手段。
【0008】また、この発明の請求項2における音声合
成方式は、例えば、上記ピッチ同期位置を中心にして入
力音声に窓関数を乗じて切り出し、合成ピッチ周期に基
づいて加算することで合成を行うものであり、以下の要
素を有するものである。 (a)長短2種類の時間長で信号のパワースペクトルを
分析し、得られたパワースペクトルの歪の変化から信号
のピッチ同期位置を抽出する同期位置抽出手段、 (b)上記同期位置抽出手段により抽出した同期位置に
基づいて信号を切り出す信号切り出し手段、 (c)上記信号切り出し手段により切り出した信号に基
づいて信号を合成する合成手段。
【0009】
【作用】本発明の請求項1におけるピッチ同期位置抽出
方式において、一定時間パワースペクトル分析手段は、
入力音声等の入力信号を例えば、少なくとも複数のピッ
チ周期を含む時間長で分析し、一定時間パワースペクト
ルを求める。短時間パワースペクトル分析手段は、入力
音声等の入力信号を例えば、ピッチ周期より短い時間長
で分析し、短時間パワースペクトルを出力する。抽出手
段は、前記一定時間パワースペクトルと短時間パワース
ペクトルとの間のスペクトル歪を求め、有声音区間内で
ピッチ周期に基づいてスペクトル歪極小位置を求め、ピ
ッチ同期位置として出力する。すなわち、信号波形を短
い区間で切り出したときのパワースペクトルと長い区間
で切り出したときのパワースペクトルとのスペクトル歪
を抽出するものであり、それは間接的に短く切り出した
波形の相関を見ていることと同義であることから、その
スペクトル歪のピッチ周期間隔毎の極小位置をピッチ周
期同期位置とすることで、波形のローカルピーク位置よ
り正しいピッチ同期点を得ることができる。
【0010】また、本発明の請求項2における信号合成
方式は、切り出し手段が上記ピッチ同期位置を中心とす
る入力信号に窓関数を乗じること等により入力信号を切
り出す。合成手段は、切り出された波形の配置並びに加
算等を行い、合成音声を出力する。このように、信号合
成時の信号波形の切り出しを得られたピッチ同期位置を
中心にして行うことで、切り出し位置の抽出誤りを無く
し、入力信号のピッチ周期より短い合成ピッチ周期の合
成信号のスペクトル歪を減少させる。
【0011】
【実施例】実施例1. 図1は請求項1の発明の一実施例として、ピッチ同期位
置抽出方式の構成を示す構成図であり、1、3、4、
5、6は従来例と同一のものである。2はピッチ同期位
置抽出手段、3は入力音声における有声音区間と無声音
区間の判別を行う有声無声判別手段、5は入力音声のピ
ッチ周期を求めるピッチ周期分析手段、7は入力音声の
少なくとも複数のピッチ周期を含む時間長のパワースペ
クトルを分析する一定時間パワースペクトル分析手段、
9は入力音声のピッチ周期長より短い時間長のパワース
ペクトルを分析する短時間パワースペクトル分析手段、
11は求められた短時間パワースペクトルと前記一定時
間パワースペクトルとの間のスペクトル歪を求めるスペ
クトル歪抽出手段、13はスペクトル歪が有声音区間内
でピッチ周期間隔毎に極小となる位置をピッチ同期位置
として抽出するスペクトル歪極小位置抽出手段、30は
抽出手段である。また、8は一定時間パワースペクト
ル、10は短時間パワースペクトル、12はスペクトル
歪、14はピッチ同期位置である。
【0012】以下、図1に示した本発明の一実施例の動
作について説明する。有声無声判別手段3は、入力音声
1を分析して有声無声情報4を出力する。ピッチ周期分
析手段5は、ピッチ周期6を出力する。一定時間パワー
スペクトル分析手段7は入力音声1を分析して、入力音
声の少なくとも複数のピッチ周期を含む時間長のパワー
スペクトルを一定時間パワースペクトル8として抽出す
る。短時間パワースペクトル分析手段9は入力音声1を
分析して入力音声のピッチ周期長より短い時間長のパワ
ースペクトルを短時間パワースペクトル10として抽出
する。スペクトル歪抽出手段11は、一定時間パワース
ペクトル8と短時間パワースペクトル10との間のスペ
クトル歪12を求める。スペクトル歪極小位置抽出手段
13は、有声無声情報4で判別される有声音区間につい
て、ピッチ周期6に基づいてスペクトル歪12が極小と
なる位置を抽出し、ピッチ同期位置14として出力す
る。このように、スペクトル歪抽出手段11と、スペク
トル歪極小位置抽出手段13から構成される抽出手段
は、スペクトル歪の極小位置を求めることで、信号波形
の相関を見ることと同等の効果が得られることに基づい
ピッチ同期位置14を抽出するものである。上記で述
べた、従来用いられる波形の相関は、図2(a)に示す
ように、入力音声信号をXnとし、Nを時間の長さとす
ると、長さNの区間の波形の類似性をみる尺度である。
具体的には、図2(b)の式の値r(m)に示される。
以上説明したように本実施例は、音声のピッチ周期の数
倍以上の区間でのパワースペクトルと、ピッチ周期より
短い区間でのパワースペクトルとの間のスペクトル歪を
求めその極小位置を抽出する抽出手段を備えているが、
それは間接的に短く切り出した波形の相関を見ているこ
とと同等の効果が得られる。すなわち、スペクトル歪極
小位置を求めることは、図3に示すような、短区間Xの
波形と長区間Yの波形との類似性をみていることであ
り、間接的に短区間波形同志の類似性をみていることと
なり、図2に示したような相関に基づいて類似性をみる
のと同等の効果が得られる。
【0013】さらに、動作について詳述する。図4は一
定時間パワースペクトル分析手段7が出力する一定時間
パワースペクトル8の一例を示す図である。図のよう
に、パワースペクトルは時間及び周波数を変数とする二
次元的な値である。A1,A2,A3…はそれぞれある
一定時間のパワースペクトルである。また、図5は音声
信号の波形図であり、Tは音声信号1のピッチ周期、Y
1,Y2,Y3…は少なくともピッチ周期Tよりも数倍
長い時間長Yをもつ区間、X1,X2,X3…はピッチ
周期Tよりも短い時間長Xをもつ区間である。A1,A
2,A3,…は図5に示すような各区間Y1,Y2,Y
3…(Y=Y1=Y2=Y3=…)における信号をそれ
ぞれフーリエ変換して得られたパワースペクトルであ
る。
【0014】また、同様に、図5に示した各区間X1,
X2,X3,…(X=X1=X2=X3=…)について
も図示しないが、図4に示すようなパワースペクトル
(例えば、区間X1,X2,X3,…に対応してパワー
スペクトルB1,B2,B3,…)を得ることができ
る。このパワースペクトルB1,B2,B3,…が短時
間パワースペクトル分析手段9が出力する短時間パワー
スペクトル10である。
【0015】スペクトル歪抽出手段11はこのパワース
ペクトルA1とB1を入力し、例えばユークリッド距離
を距離尺度とする、その時点におけるスペクトル歪12
を出力する。次にA2とB2からもその時点におけるパ
ワースペクトル歪12を出力する、このような動作を繰
り返すことにより、スペクトル歪抽出手段11は図6に
示したようなスペクトル歪波形12をスペクトル歪極小
位置抽出手段13に出力する。
【0016】スペクトル歪極小位置抽出手段13がスペ
クトル極小位置を抽出する例としては、以下のような方
法がある。図6に示すようにスペクトル歪をd(k)、
ピッチ周期6をT、直前に得られたスペクトル歪極小位
置をIとすると、ある時刻nについて、n≦k≦n+T
の範囲で、 d(k−1)>d(k)かつd(k)<d(k+1) を満たす時間kの中で、時間(I+T)に最も近いもの
をスペクトル歪極小位置として抽出する。そして、スペ
クトル歪極小位置抽出手段13はこのスペクトル歪極小
位置をピッチ同期位置14として出力する。
【0017】実施例2.図7は請求項2の発明の一実施
例として、音声合成方式の構成を示す構成図である。1
5、16、17、18は従来例と同一のものであり、そ
の他は実施例1と同一のものである。また、40は上記
同期位置抽出手段により抽出した同期位置に基づいて信
号を切り出す信号切り出し手段、50は上記信号切り出
し手段により切り出した信号に基づいて信号を合成する
合成手段である。
【0018】以下、図7に示した本発明の一実施例の動
作について説明する。窓関数乗算手段17は、請求項1
で得られたピッチ同期位置14を中心に入力音声1に窓
関数を乗じて切り出す。波形加算手段18は、切り出さ
れた音声波形の合成ピッチ周期15毎の配置及び加算を
行い、合成音声16を出力する。以上のように、この実
施例は、音声波形を切り出して加算することにより、所
望のピッチ周期の合成音声を得る波形編集型音声合成方
式において、上記実施例1により得られるピッチ同期位
置を中心にした入力音声に窓関数を乗じて入力音声を切
り出す窓関数乗算手段と、切り出された波形を合成ピッ
チ周期に基づいて配置及び加算する波形加算手段からな
る音声合成方式を説明した。
【0019】実施例3. 上記実施例1においては、一定時間パワースペクトル分
析手段7が音声のピッチ周期の数倍以上の区間について
パワースペクトルを分析を示す場合を示したが、一定時
間パワースペクトル分析手段が用いる時間長はピッチ周
期の整数倍の区間に限らずある所定の時間長を有してい
る場合であればよい。また、短時間パワースペクトル分
析手段9は音声のピッチ周期よりも短い区間でパワース
ペクトルを分析する場合を示したが、音声のピッチ周期
よりも短い区間に限らず、前述した一定時間パワースペ
クトル分析手段7が分析に用いる所定の時間と比べて短
い時間でパワースペクトルを分析するような場合であれ
ばよい。
【0020】実施例4. 上記実施例1においては、抽出手段30が長短2種類の
時間長から分析されたパワースペクトルからユークリッ
ド距離によりスペクトル歪を抽出する場合を示したが、
抽出手段30において長短2種類の時間長から求められ
たパワースペクトルの歪を計算するスペクトル歪抽出手
段11では最尤スペクトル距離、LPCケプストラム距
離等の他の距離尺度を用いて、スペクトル歪を抽出する
ことも可能である。
【0021】実施例5.上記実施例1〜4においては、
入力信号が音声信号である場合を示したが、この発明は
入力信号が音声信号である場合に限らず、動物の発生す
る鳴き声や楽器の発生する楽器音やその他の音信号であ
る場合でもかまわない。同様にこの発明は人間の耳に聞
こえる音声や音信号に限らず、電波や光信号等のその他
のアナログ信号のピッチ同期位置を抽出したり、信号を
合成したりする方式として用いることが可能である。
【0022】
【発明の効果】以上説明したように請求項1記載の発明
によれば、従来用いられた波形のローカルピーク位置よ
り正しいピッチ同期点を得ることができる。
【0023】また、請求項2の発明によれば、信号合成
時の信号波形の切り出しを、請求項1記載の発明により
得られたピッチ同期位置を中心にして行うことで、切り
出し位置の自動抽出誤りを無くし、入力信号のピッチ周
期より短い合成ピッチ周期を用いた合成信号のスペクト
ル歪を減少させる効果がある。
【図面の簡単な説明】
【図1】この発明の実施例1を示す構成図である。
【図2】この発明の実施例1における波形の相関を説明
するための図である。
【図3】この発明の実施例1における動作原理を説明す
るための図である。
【図4】この発明の実施例1におけるパワースペクトル
の一例を示す図である。
【図5】この発明の実施例1における一定時間パワース
ペクトル分析手段と短時間パワースペクトル分析手段の
動作を説明するための図である。
【図6】この発明の実施例1におけるスペクトル歪抽出
手段とスペクトル歪極小位置抽出手段の動作を説明する
ための図である。
【図7】この発明の実施例2を示す構成図である。
【図8】従来の波形編集型音声合成方式の一構成例を示
す構成図である。
【図9】従来および本発明における切り出し中心位置の
抽出例を示す図である。
【符号の説明】 1 入力音声 2 ピッチ同期位置抽出手段 3 有声無声判別手段 4 有声無声情報 5 ピッチ周期分析手段 6 ピッチ周期 7 一定時間パワースペクトル分析手段 8 一定時間パワースペクトル 9 短時間パワースペクトル分析手段 10 短時間パワースペクトル 11 スペクトル歪抽出手段 12 スペクトル歪 13 スペクトル歪極小位置抽出手段 14 ピッチ同期位置 15 合成ピッチ周期 16 窓関数乗算手段 17 波形加算手段 18 合成音声 19 切り出し中心位置抽出手段 20 ローカルピーク抽出手段 21 ローカルピーク位置 30 抽出手段 40 切り出し手段 50 合成手段
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 11/04,13/00

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 以下の要素を有する信号のピッチ同期位
    置抽出方式 (a)信号を入力し、入力した信号の所定の時間長のパ
    ワースペクトルを分析する一定時間パワースペクトル分
    析手段、 (b)上記一定時間パワースペクトル分析手段が使用す
    る所定の時間長よりも短い時間長で、上記入力した信号
    のパワースペクトルを分析する短時間パワースペクトル
    分析手段、 (c)上記一定時間パワースペクトル分析手段と短時間
    パワースペクトル分析手段の分析により求められたパワ
    ースペクトルの歪の変化を求め、パワースペクトルの歪
    が極小となる位置を、入力された信号のピッチ同期位置
    として抽出する抽出手段。
  2. 【請求項2】 以下の要素を有する信号合成方式 (a)長短2種類の時間長で信号のパワースペクトルを
    分析し、得られたパワースペクトルの歪の変化を求め、
    パワースペクトルの歪が極小となる位置を、信号のピッ
    チ同期位置として抽出する同期位置抽出手段、 (b)上記同期位置抽出手段により抽出した同期位置に
    基づいて信号を切り出す信号切り出し手段、 (c)上記信号切り出し手段により切り出した信号に基
    づいて信号を合成する合成手段。
JP20129092A 1992-07-28 1992-07-28 信号のピッチ同期位置抽出方式及び信号合成方式 Expired - Fee Related JP3263136B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20129092A JP3263136B2 (ja) 1992-07-28 1992-07-28 信号のピッチ同期位置抽出方式及び信号合成方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20129092A JP3263136B2 (ja) 1992-07-28 1992-07-28 信号のピッチ同期位置抽出方式及び信号合成方式

Publications (2)

Publication Number Publication Date
JPH0651796A JPH0651796A (ja) 1994-02-25
JP3263136B2 true JP3263136B2 (ja) 2002-03-04

Family

ID=16438530

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20129092A Expired - Fee Related JP3263136B2 (ja) 1992-07-28 1992-07-28 信号のピッチ同期位置抽出方式及び信号合成方式

Country Status (1)

Country Link
JP (1) JP3263136B2 (ja)

Also Published As

Publication number Publication date
JPH0651796A (ja) 1994-02-25

Similar Documents

Publication Publication Date Title
US6349277B1 (en) Method and system for analyzing voices
JP3078205B2 (ja) 波形の連結及び部分的重複化による音声合成方法
EP1793370A2 (en) Apparatus and method for creating pitch wave signals and apparatus and method for compressing, expanding and synthesizing speech signals using these pitch wave signals
Bonada et al. Expressive singing synthesis based on unit selection for the singing synthesis challenge 2016
JPH06266390A (ja) 波形編集型音声合成装置
US5452398A (en) Speech analysis method and device for suppyling data to synthesize speech with diminished spectral distortion at the time of pitch change
EP0191531B1 (en) A method and an arrangement for the segmentation of speech
JP4564416B2 (ja) 音声合成装置および音声合成プログラム
US6594631B1 (en) Method for forming phoneme data and voice synthesizing apparatus utilizing a linear predictive coding distortion
JP3263136B2 (ja) 信号のピッチ同期位置抽出方式及び信号合成方式
US7822599B2 (en) Method for synthesizing speech
JP4128848B2 (ja) 音高音価決定方法およびその装置と、音高音価決定プログラムおよびそのプログラムを記録した記録媒体
Bosch On the automatic classification of pitch movements
JP2536169B2 (ja) 規則型音声合成装置
KR100359988B1 (ko) 실시간 화속 변환 장치
JPS62102294A (ja) 音声符号化方式
JPH0736119B2 (ja) 区分的最適関数近似方法
JP3030869B2 (ja) 音声合成装置の音源データ生成方法
JP2862306B2 (ja) 音声認識装置
US20110153316A1 (en) Acoustic Perceptual Analysis and Synthesis System
JPH0754438B2 (ja) 音声処理装置
Resch et al. Time synchronization of speech.
Faycal et al. Pitch modification of speech signal using source filter model by linear prediction for prosodic transformations
Chou et al. High‐resolution and efficient multiple‐string hypothesization using interword models
JPH08166798A (ja) 音素辞書作成装置および方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20011211

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040520

LAPS Cancellation because of no payment of annual fees