JPH0981188A - 音声分析システム及び音声波形のピッチの時間的基準位置付与方法 - Google Patents

音声分析システム及び音声波形のピッチの時間的基準位置付与方法

Info

Publication number
JPH0981188A
JPH0981188A JP7235419A JP23541995A JPH0981188A JP H0981188 A JPH0981188 A JP H0981188A JP 7235419 A JP7235419 A JP 7235419A JP 23541995 A JP23541995 A JP 23541995A JP H0981188 A JPH0981188 A JP H0981188A
Authority
JP
Japan
Prior art keywords
pitch
reference position
waveform
temporal
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7235419A
Other languages
English (en)
Inventor
Shigenobu Seto
重宣 瀬戸
Hiroyuki Tsuboi
宏之 坪井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP7235419A priority Critical patent/JPH0981188A/ja
Publication of JPH0981188A publication Critical patent/JPH0981188A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

(57)【要約】 【課題】原音声波形のピッチのゆらぎの影響を受けにく
いピッチの時間的基準位置の付与を可能とする。 【解決手段】入力音声波形をピッチ分析部111にて分
析して、任意の各時間的位置における当該音声波形のピ
ッチを抽出する。ピッチ基準位置系列候補生成部12で
は、ピッチ分析部111のピッチ分析結果をもとに、隣
接するピッチ基準点との時間間隔がその近傍の時間的位
置のピッチと等しくなるように定められたピッチ基準位
置系列の候補を、位相が互いに相異なるように複数生成
する。ピッチ基準位置系列決定部13では、このように
して生成された各ピッチ基準位置系列候補をそれぞれ構
成する各ピッチ基準点近傍の音声波形の振幅の大きさを
もとに当該各候補のスコアを決定し、そのスコアをもと
に音声波形のピッチの時間的基準位置の系列とする候補
を選択する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声信号のピッチ
同期の波形処理を行う際の時間的基準位置を決めるのに
好適な音声分析システム及び音声波形のピッチの時間的
基準位置付与方法に関する。
【0002】
【従来の技術】音声のピッチ同期波形処理は、スペクト
ル分析や声帯音源波形の抽出分析などの音声分析を高精
度に行う一般的な方法である。この音声のピッチ同期波
形処理における分析位置を定めるためのピッチの時間的
基準位置の付与は、一般的な高精度の音声分析システム
のみならず、音声合成システム用の蓄積データ作成を行
う音声分析システムや、音声分析機能と音声合成機能を
組み合わせて話速変換や韻律変換を行うシステムなどに
応用されている技術であり、音声信号伝送における信号
圧縮への応用も試みられている。とりわけ、波形素片編
集型音声合成用の蓄積データを作成する際には、ピッチ
波形の時間的基準点(いわゆるピッチマーク)を付与す
る処理は必須である他、同様に、分析パラメータ編集方
式の音声合成においても、きめの細かい時間変化の制御
を行い高品質の合成音声を生成するためには、ピッチ同
期の音声分析処理を行い蓄積データを作成することが望
ましい。このように、ピッチ同期波形処理のための時間
的基準位置の付与は音声信号処理の基本的技術として広
い分野において利用されている。
【0003】さて、音声波形に対してピッチ同期の波形
処理を行うためのピッチの時間的基準位置は、一般に、
あらかじめ音声波形の有声区間とそれ以外の区間を分け
ると共に有声区間のピッチを抽出しておき、求まったピ
ッチの間隔に近くなるような波形の特徴点の系列を選択
することにより決められる。ここで波形の特徴点とし
て、波形の零交差位置や波形のローカルピークのような
振幅の特徴点が利用されるのが一般的である。
【0004】このような特徴点は、局所的な音声波形の
高い周波数成分の影響を受けやすいため、従来、特徴点
の抽出が容易になるように、一旦フィルタリングによっ
て滑らかな基本波を求めてから特徴点抽出を行う方法が
採られることが多かった。具体的には、あらかじめ求め
たピッチによって決めたカットオフ周波数を持つ低域通
過型フィルタを通して、得られる滑らかな基本波の波形
のピークを検出し、その近傍の原波形の零交差点あるい
は原波形の振幅のローカルピーク位置をもってピッチの
時間的基準位置とする。
【0005】この方法を用いた例として、例えば、都木
他:“ピッチ同期音声処理のためのピッチ区間自動区分
法の一手法,”日本音響学会講演論文集,1-8-8 ,pp.1
59-160 (1993年 3月) や、河井他:“波形素片接続型音
声合成システムの検討,”電子情報通信学会技術研究報
告,SP93-9,pp.49-54 (1993年 5月) などがある。
【0006】また、局所的な特徴点に着目しながらも、
特徴点の系列としては連続する有声区間全域に対して最
適になるように特徴点の組合せを選択する方法も提案さ
れている。具体的には、連続した有声区間全体にわたり
適切なピッチの基準位置の付与を効率的に行うため、原
波形の短時間パワーのピークをピッチの基準位置候補と
なる特徴点として定め、ピッチ周期と基準位置候補間の
間隔にスコアをつけることによるDTW(Dynamic Time
Warping)法によって基準位置を決定する。河井他:
“波形素片接続型音声合成システムのための波形素片デ
ータベースの作成,”日本音響学会講演論文集,3-5-5
,pp.325-326 (1994年11月) がその例である。
【0007】ところで、ピッチ波形素片編集方式や分析
合成方式の音声合成では、ピッチの時間的基準位置を基
準として原波形を切り出し、得られた波形あるいは得ら
れた波形を分析して得たパラメータを、スペクトルの時
間変化を崩さないように配慮しながら所望のピッチ間隔
でピッチ波形が繰り返すように再配置する処理が行われ
る。このピッチ間隔は、ピッチの時間変化パターンのモ
デルによって決められる。このようなモデルとして、藤
崎・須藤:“日本語単語アクセントの基本周波数パタン
とその生成機構のモデル,”日本音響学会誌,Vol.34,
No.9,pp.445-453 (1971年) や箱田・佐藤:“文音声合
成における音調規則,”電子通信学会論文誌D,Vol.J6
3-D ,No.9,pp.715-722 (1970年 9月) などが広く知ら
れている。
【0008】
【発明が解決しようとする課題】しかしながら、自然音
声の波形は、特徴点の抽出の容易な周期性の安定した区
間だけでなく、周期性の不安定な区間を多く含んでい
る。このような周期性が不安定になる原因は、ピッチの
急激な変化や子音調音に伴う振幅と位相の変化、周期的
な有声音源に重畳する無声音源の強弱変化、有声音源の
励振の強弱変化などである。これらの周期性の安定した
区間と不安定な区間との境界位置は必ずしも明確ではな
い。
【0009】このような周期性の不安定さは、当然、波
形の零交差やローカルピークなどの特徴点抽出に影響を
与える。特に子音調音に伴う位相の変化は、人間の目視
によっても波形の周期性を認めることが困難になる場合
もある。このような周期性の低下した区間を除外しよう
としても、周期性の安定した区間と不安定な区間との間
の変化は連続的であるため、これらを明確に区別する合
理的な基準は存在しない。
【0010】したがって、波形の振幅の局所的な特徴点
だけに頼る方法では、自然音声波形の時間的基準位置の
付与は難しくなる。また、原音声波形の局所的な特徴点
を基本とする上述した方法はいずれも、最終的にこれら
の特徴点の中から時間的基準位置の系列を選択するた
め、周期性の不安定な区間では、ピッチに対応する間隔
になるような特徴点が得られない場合もある。
【0011】このような問題の本質は、周期性の低下す
る区間を含み得る波形の局所的な特徴点を基本として時
間的基準位置を決定していることにある。ところで、ピ
ッチ波形素片編集方式の音声合成では、このように付与
したピッチの時間的基準位置を基準に原音声波形を切り
出し、その基準位置の間隔がピッチの時間変化パターン
モデルにより生成したピッチの時間間隔になるように、
切り出した波形を再配置している。分析合成方式の音声
合成でも、同様に切り出した波形の分析パラメータから
再合成した波形の位相を合わせる際に、ピッチの時間変
化パターンモデルにより生成したピッチの時間間隔を利
用している。
【0012】しかしながら、これらのピッチの時間変化
パターンモデルは、大局的な概形を表現するモデルであ
り、子音調音等に起因する微細なピッチのゆらぎはモデ
ルに考慮していない。このため、原波形と同一のピッチ
の変化をするような合成音声を生成しようとしても、モ
デルで表現していない微細なピッチのゆらぎは表現でき
ず、原波形中にゆらぎの存在した部分はモデルによる滑
らかなピッチ概形に合うような伸縮が行われてしまう。
【0013】子音調音に伴うピッチの微細なゆらぎを積
極的にモデルに取り入れて規則化する試みとして、例え
ば、武田:“音素による変化を考慮した基本周波数パタ
ーン生成モデルと音声合成規則,”電子情報通信学会論
文誌A,Vol.73-A,No.3,pp.379-386 (1990年 3月) が
あるが、もともと子音調音はごく短時間であることが多
く、ゆらぎの大きさも個々の子音内でばらつきが大きい
ため、必ずしも見通しが良いモデル化にはなっていな
い。
【0014】本発明は上記事情を考慮してなされたもの
でその目的は、音声信号のピッチ同期の波形処理を行う
際に、有声区間の境界付近や遷移的な調音に伴う周期性
の低下およびピッチのゆらぎの影響や、必ずしも基準が
明確でない有声区間の始終端の境界決定の影響を抑え、
周期性の高い区間の全域において大局的に妥当な時間的
な基準位置を決定することができる音声分析システム及
び音声波形のピッチの時間的基準位置付与方法を提供す
ることにある。
【0015】
【課題を解決するための手段】このような課題を解決す
るため、本発明の第1の観点に係る構成は、入力音声波
形を分析して任意の各時間的位置における当該音声波形
のピッチを抽出するピッチ分析手段と、このピッチ分析
手段の分析結果をもとに、隣接するピッチ基準点との時
間間隔がその近傍の上記時間的位置のピッチと等しくな
るように定められたピッチ基準位置系列の候補を、位相
が互いに相異なるように複数生成するピッチ基準位置系
列候補生成手段と、このピッチ基準位置系列候補生成手
段によって生成された各ピッチ基準位置系列候補をそれ
ぞれ構成する各ピッチ基準点近傍の上記音声波形の振幅
の大きさをもとに当該各候補のスコアを決定し、そのス
コアをもとに上記音声波形のピッチの時間的基準位置の
系列とする候補を選択するピッチ基準位置系列決定手段
とを備えたことを特徴とするものである。
【0016】また、本発明の第2の観点に係る構成は、
上記第1の観点に係る構成に、上記音声波形に対して、
上記ピッチ分析手段によって得られたピッチの時間変化
のパターンをピッチの時間変化パターンモデルによって
近似して、所望の各時間的位置におけるピッチ近似値を
求めるピッチパターン近似手段を追加し、隣接するピッ
チ基準点との時間間隔が当該ピッチパターン近似手段に
よって求められた対応する時間的位置におけるピッチ近
似値に等しくなるように定められたピッチ基準位置系列
の候補を、位相が互いに相異なるように上記ピッチ基準
位置系列候補生成手段にて複数生成するようにしたこと
を特徴とする。
【0017】また、本発明の第3の観点に係る構成は、
上記第1または第2の観点に係る構成に、上記音声波形
の上記各時間的位置における周期性を求める周期性分析
手段および上記音声波形の上記各時間的位置におけるス
ペクトル特徴パラメータを求めるスペクトル分析手段の
少なくとも一方を追加し、上記ピッチ基準位置系列決定
手段において上記各ピッチ基準位置系列候補のスコアを
決定する際には、当該候補を構成する各ピッチ基準点近
傍の上記音声波形の振幅の大きさに対し、上記周期性分
析手段によって求められる上記各時間的位置における周
期性および上記スペクトル分析手段によって求められる
上記各時間的位置におけるスペクトル特徴パラメータの
少なくとも一方に応じた重みづけをするようにしたこと
を特徴とする。
【0018】上記第1の観点に係る構成においては、音
声波形に対するピッチ分析によって得られたピッチをも
とに隣接するピッチ基準点間の時間間隔が決定されたピ
ッチ基準位置系列(ピッチ基準点の系列)であって、そ
の位相が音声波形の振幅が大きいところ(即ち音声波形
の特徴点)に合うように決められたピッチ基準位置系列
が、音声波形のピッチの時間的基準位置の系列として決
定される。
【0019】このように第1の観点に係る構成において
は、音声波形に対するピッチ分析によって得られたピッ
チをもとにピッチの時間的基準位置の系列が決定される
ため、音声波形のピッチ同期の波形処理を行うための時
間的基準点を決める際に、原音声波形の持つ連続的なピ
ッチ時間変化パターンを再現する時間的基準位置を付与
することができる。また、従来のように原音声波形の局
所的な特徴点の中から時間的基準位置の系列を選択する
方式とは異なり、原音声波形に周期性の不安定な区間が
存在したりピッチがゆらいでも、特に周期性の高い全域
において、そのような影響を受けにくいピッチの時間的
基準位置を付与することができる。また、このようにし
て付与されたピッチの時間的基準位置に従うピッチ同期
の波形処理により作成した蓄積データを用いる音声合成
方式や、ピッチ同期の波形処理による音声合成技術を応
用した発話速度変換方式の音声合成システムでは、出力
された合成音声に原音声波形の有する周期性低下やピッ
チのゆらぎを保持させて自然性を高めることができる。
【0020】上記第2の観点に係る構成においては、原
音声波形のピッチ分析を行って得られたピッチの時間変
化パターン(ピッチの概形)が、ピッチの時間変化パタ
ーンのモデルを用いて近似され、この近似パターンを用
いて隣接するピッチ基準点間の時間間隔が定められるた
め、音声波形の再合成に用いるのと同じピッチ時間変化
パターンのモデルを適用することで、原音声波形に含ま
れるピッチのゆらぎを反映したピッチの時間的基準位置
を付与することが可能となる。特に、音声合成時に用い
るピッチの時間変化パターンモデルがピッチの微細なゆ
らぎを除いた大局的なモデルであることから、蓄積デー
タ作成時に与えるピッチの時間的基準位置を付与するこ
とにより、合成音声においても、このようなピッチのゆ
らぎを保持させて自然性を高めることができる。
【0021】上記第3の観点に係る構成においては、各
ピッチ基準位置系列候補のスコアを決定する際に、当該
候補を構成する各ピッチ基準点近傍の音声波形の振幅だ
けでなく、周期性およびスペクトル特徴パラメータの少
なくとも一方が加味されるため、従来のように波形の振
幅の特徴点に着目した方式と異なり、ピッチの微細なゆ
らぎの影響を極めて受けにくいピッチの時間的基準位置
を付与することが可能となる。
【0022】
【発明の実施の形態】以下、本発明の実施の形態につき
図面を参照して説明する。 [第1の実施形態]図1は、本発明の第1の実施形態に
係る音声分析システムの本発明に直接関係する部分の構
成を示すブロック図である。
【0023】同図において、音声波形分析部11は、分
析の対象となる音声波形の任意の分析位置(時間的位
置)におけるピッチを求めるピッチ分析部111を有し
ている。このピッチ分析部111は、ピッチ基準位置系
列候補生成部12から分析位置が指定されるとその分析
位置におけるピッチの値を出力する。なお、ピッチ分析
部111は、計算の簡略化のために、音声波形のピッチ
に対して十分短い間隔(の時間的位置)で連続的にピッ
チを抽出しておき、指定された分析位置に最も近い位置
におけるピッチ値を出力するものであっても構わない。
【0024】ピッチ分析部111でのピッチの分析方法
としては、一例として、藤崎他:“分析窓位置による誤
りの少ない音声ピッチ抽出方式,”電子情報通信学会技
術研究報告,SP89-69 (1989年) 等が利用でき、任意の
時間的位置におけるピッチ分析を高精度に行うことがで
きる。但し、ピッチ分析方法は、音声波形のピッチより
十分短い任意の間隔で高精度にピッチが抽出できるなら
ばどんな方法でもよく、上述した自己相関法に基づく方
法の他、例えば、W.Hess:“Pitch Determintion of Sp
eech Signals,”Springer-Verlag ,Berlin (1983) あ
るいは、L.R.Rabiner ,M.j.Cheng ,A.E.Rosenberg ,
and C.A.McGonegal :“A ComparativeStudy of Severa
l Pitch Detection Algolithms ,”IEEE Trans.Acous
t.,Speech,and Signal Processing ,V0l.ASSP-24 ,
pp.399-417 (1976) にあるようによく知られているAM
DF(Average Magnitude Difference Function) 法やケ
プストラム法なども利用できる。
【0025】ピッチ基準位置系列候補生成部12内の基
準位置系列生成部121は、ピッチ分析部111によっ
て得られたピッチの時間変化パターンをもとに、任意の
時間的位置における隣り合うピッチの時間的基準位置の
間隔(時間間隔)を決める。ここで、ピッチの時間変化
パターンと隣り合う時間的基準位置の間隔の対応の方法
は複数考えられるが、最もよく一致する対応方法の例に
つき図2を参照して述べる。
【0026】本実施形態における基準位置系列生成部1
21は、lつの時間的基準位置t0を固定した状態で
(ステップS1)、隣接するもうlつの時間的基準位置
t1 を少しずつ移動させながら(ステップS2)、それ
ぞれについて2つの時間的基準位置t0 ,t1 間のピッ
チの時間変化パターンの平均値(平均ピッチ)Tm を求
める処理(ステップS3)を繰り返す。この繰り返し
は、例えば2つの基準位置t0 ,t1 の間隔(t1 −t
0 )が、基準位置t0 におけるピッチT、即ちT(t0
)を基準とするあるピッチ範囲、例えば0.5T(t0
)<(t1 −t0 )<1.7T(t0 )の範囲内で行
われる。なお、時間的基準位置t1 の移動間隔は、あら
かじめ定められる一定時間ごとであっても、逐次設定さ
れる時間ごとであっても構わない。
【0027】基準位置系列生成部121は、上記のステ
ップS2,S3の繰り返しにより求めた2つの時間的基
準位置t0 ,t1 間のピッチの時間変化パターンの平均
値(平均ピッチ)Tm とその基準位置t0 ,t1 の間隔
(t1 −t0 )との差の絶対値|(t1 −t0 )−Tm
|が最も小さくなるような組合せをもって、2つの基準
位置の間隔とする(ステップS4)。この結果、|(t
1 −t0 )−Tm |を最小にする基準位置t0 ,t1 の
うちのt1が、t0 の次の基準位置とされて、今度は当
該時間的位置t1 における隣り合うピッチの時間的基準
位置t2 の間隔を決める処理が上記と同様にして行われ
る。必要ならば、図2中のステップS1〜S4における
t0 をt1 に、t1 をt2 に読み替えられたい。
【0028】このようにして、時間的基準位置の1つの
系列が求められる。あとは原音声波形との位相関係が決
まれば、ピッチの時間的基準位置系列(の候補)を確定
させることができる。
【0029】そこで、ピッチ基準位置系列候補生成部1
2内の基準位置系列候補生成制御部122は、基準位置
系列生成部121に原音声波形との位相関係を指定し、
時間的基準位置系列を生成させる。ここで指定する位相
関係は、理論上は互いに相異なる無限の位相関係を考え
ることができるが、サンプリング周期やその整数倍の間
隔でシフトさせた有限個の位相関係を考慮すれば十分で
ある。
【0030】基準位置系列候補生成制御部122は、こ
の有限個のそれぞれの位相関係を基準位置系列生成部1
21に対して指定し、各位相関係に対応する時間的基準
位置系列候補を当該生成部121により生成させる。こ
のようにして生成される位相の相異なる有限個の時間的
基準位置系列候補の時間的位置関係を図3に示す。な
お、計算時間を削減したいならば、周期性の安定した短
い部分区間で予備的な位相を決めておき、その区間で最
適であった位相に近い候補で比較すればよい。
【0031】ピッチ基準位置系列決定部13内の基準位
置系列候補選択部131は、基準位置系列生成部121
の生成した有限個の時間的基準位置系列候補のそれぞれ
について評価値(スコア)を求める。ピッチの時間的基
準位置の系列候補の適切さは使用目的によって変わり、
評価値の定義は、時間的基準位置と原音声波形との対応
関係をどうしたいかによって自由に決めることができ
る。
【0032】例えば、ピッチの1周期内の最も顕著なロ
ーカルピーク位置に基準位置を定めたいならば、波形の
ローカルピークに各基準位置が位置したときに評価値が
大きくなるようにすればよく、また、零交差位置に基準
位置を定めたいならば、零交差位置に各基準位置が位置
したときに評価値が大きくなるようにすればよい。両者
は、時間的基準位置系列候補の評価値の算出に、各時間
基準位置近傍の音声波形の振幅の特徴点を用いている点
で共通している。前者の一例としては、基準位置系列候
補を構成する各基準位置について、その近傍に1msec程
度の長さのハニング(Hanning) 窓をかけて求めた短時間
パワーの累積をもって評価値と定義することが考えられ
る。
【0033】基準位置系列候補選択部131は、各基準
位置系列候補についてこのような評価値(スコア)を求
め、最も評価値の高い候補を選択し、これを最終的に基
準位置系列として決定する。なお、零交差位置近傍に基
準位置を定めたいならば、系列候補を構成する各時間基
準位置と近傍にある零交差位置との距離を累積した値を
その候補の評価値(スコア)として算出し、最も小さな
評価値になる候補を選択すればよい。
【0034】このように本実施形態においては、ピッチ
分析部111でのピッチ分析結果をもとに得られたピッ
チ間隔で、且つ位相は波形の振幅が大きいところに合う
ように決定されたピッチ基準点を付与することができる
ため、原音声波形に周期性の不安定な区間が存在したり
ピッチがゆらいでも、そのような影響を抑えることがで
きる。 [第2の実施形態]図4は、本発明の第2の実施形態に
係る音声分析システムの本発明に直接関係する部分の構
成を示すブロック図である。なお、図1と同一部分には
同一符号を付してある。
【0035】以下、図4の構成が図1と異なる点を中心
に説明する。まず図4の構成の特徴は、図1中の音声波
形分析部11に代えて、音声波形の周期性分析機能を持
つ音声波形分析部21が設けられていることと、図1中
のピッチ基準位置系列決定部13に代えて、音声波形の
周期性ピッチ情報を加味した基準位置系列候補選択を行
うピッチ基準位置系列決定部23が設けられていること
である。
【0036】音声波形分析部21は、音声波形分析部1
1が有していたのと同じピッチ分析部111の他に、周
期性分析部210を有する。周期性分析部210は、ピ
ッチ分析部111によるピッチ分析の対象となっている
音声波形の指定された時間的位置の近傍の周期性を算出
する。この時間的位置は、連続的に求めるピッチの分析
位置と一致するようピッチ分析部111が指定してもよ
いし、生成した基準位置と一致するように基準位置系列
生成部121が指定してもよい。
【0037】周期性分析部210によって算出される周
期性を示すパラメータは何でもよいが、例えば、藤崎
他:“分析窓位置による誤りの少ない音声ピッチ抽出方
式,”電子情報通信学会技術研究報告,SP89-69 (1989
年) 等で示されている正規化自己相関関数の、ピッチ周
期に等しい遅れ時間の相関値を使えば、ピッチの分析時
の分析位置と原波形の位相関係の違いに起因する相関値
のゆらぎの抑えられた、波形の周期性を示すパラメータ
が得られる。この正規化自己相関関数から周期性の大き
さ(を示すパラメータ)への変換例を図5に示す。
【0038】ピッチ基準位置系列決定部23内の基準位
置系列候補選択部231は、図1中の基準位置系列候補
選択部131と同様にして、基準位置系列生成部121
の生成した各基準位置系列候補の評価値(スコア)をそ
れぞれ算出するが、その評価値算出の際に、周期性分析
部210によって算出された各基準位置近傍の周期性を
加味する。具体的方法は幾通りかあるが、例えば、各基
準位置の評価値に対して、周期性が高くなるに従い単調
増加するような重みwを掛け合わせる重みづけを行い、
これを累積する方法が考えられる。そこで本実施形態で
は、上述した正規化自己相関関数をφとして、w=(φ
の3乗)を用いた重みづけを行うようにしている。
【0039】このように、各基準位置系列候補の評価値
(スコア)の算出の際に、各基準位置近傍の周期性を加
味することで、ピッチの微細なゆらぎの影響を一層抑え
たピッチの時間的基準位置付与が実現できる。 [第3の実施形態]図6は、本発明の第3の実施形態に
係る音声分析システムの本発明に直接関係する部分の構
成を示すブロック図である。なお、図1と同一部分には
同一符号を付してある。
【0040】以下、図6の構成が図1と異なる点を中心
に説明する。まず図6の構成の特徴は、図1中の音声波
形分析部11に代えて、音声波形のスペクトル分析機能
を持つ音声波形分析部31が設けられていることと、図
1中のピッチ基準位置系列決定部13に代えて音声波形
のスペクトル情報を加味した基準位置系列候補選択を行
うピッチ基準位置系列決定部33が設けられていること
である。
【0041】音声波形分析部31は、音声波形分析部1
1が有していたのと同じピッチ分析部111の他に、ス
ペクトル分析部310を有する。スペクトル分析部31
0は、ピッチ分析部111によるピッチ分析の対象とな
っている音声波形の指定された時間的位置の近傍のスペ
クトルの特徴パラメータを算出する。この時間的位置
は、連続的に求めるピッチの分析位置と一致するようピ
ッチ分析部111が指定してもよいし、生成した基準位
置と一致するように基準位置系列生成部121が指定し
てもよい。
【0042】スペクトル分析部310の算出する特徴パ
ラメータとして、嵯峨山他:“音声の動的尺度に含まれ
る個人性情報”,日本音響学会講演論文集,3-2-7 ,p
p.589-590 (1979年 6月) の動的特徴量が利用できる。
このパラメータ(動的特徴パラメータ)は、スぺクトル
変化の大きいところで大きな値をとる。
【0043】ピッチ基準位置系列決定部33内の基準位
置系列候補選択部331は、図1中の基準位置系列候補
選択部131と同様にして、基準位置系列生成部121
の生成した各基準位置系列候補の評価値(スコア)をそ
れぞれ算出するが、その評価値算出の際に、スペクトル
分析部310によって算出された各基準位置近傍のスペ
クトルの特徴パラメータの値を加味する。このスペクト
ルの特徴パラメータの値を加味する方法として、本実施
形態では、各基準位置の評価値に対して、スペクトル変
化が大きくなるに従い単調減少するような重みwを掛け
合わせる重みづけを行い、これを累積する方法を適用す
る。
【0044】このように本実施形態においては、各基準
位置系列候補の評価値(スコア)の算出の際に、各基準
位置近傍のスペクトルの特徴パラメータの値を加味し、
特にスペクトルの特徴パラメータの大きなところで、即
ちスペクトル変化の大きいところで重みづけを小さくす
ることにより、さらに具体的に述べるならば、周期性で
安定していても位相の変化するところで重みづけを小さ
くすることにより、ピッチの微細なゆらぎの影響を一層
抑えたピッチの時間的基準位置付与が実現できる。 [第4の実施形態]図7は、本発明の第4の実施形態に
係る音声分析システムの本発明に直接関係する部分の構
成を示すブロック図である。なお、図1と同一部分には
同一符号を付してある。
【0045】以下、図7の構成が図1と異なる点を中心
に説明する。まず図7の構成の特徴は、図1中の音声波
形分析部11に代えて、ピッチ分析によって得たピッチ
の時間変化のパターン(ピッチ概形)をピッチの時間変
化パターンモデル(ピッチ概形モデル)を用いて近似す
るピッチパターン近似機能を持つ音声波形分析部41が
設けられていることである。
【0046】音声波形分析部41は、音声波形分析部1
1が有していたのと同じピッチ分析部111の他に、ピ
ッチパターン近似部410を有する。さて、図7の構成
において、音声波形分析部41内のピッチ分析部111
は、音声波形に対して連続的にピッチを抽出する。一
方、音声波形分析部41内のピッチパターン近似部41
0は、このピッチ分析部111によって連続的に抽出さ
れるピッチの時間変化パターンをピッチの時間変化パタ
ーンのモデルで近似する。即ちピッチパターン近似部4
10は、ピッチ分析部111によって得られたピッチの
時間変化パターンに対して、音声波形の再合成に用いる
のと同じピッチ時間変化パターンの制御モデルの描く時
間変化パターンで近似する。このモデルには、音声合成
に利用されるモデルを利用する。例えば、藤崎・須藤:
“日本語単語アクセントの基本周波数パタンとその生成
機構のモデル”,日本音響学会誌,Vol.34,No.9,pp.4
45-453 (1971年) に記載されているような、ピッチパタ
ーンの生成過程のモデルが利用できる。図8に、ピッチ
分析部111によって連続的に抽出されるピッチの時間
変化パターン(ピッチパターン)と、ピッチパターン近
似部410によって近似されるピッチの時間変化パター
ン(ピッチパターン)の一例を示す。
【0047】基準位置系列生成部121は、ピッチパタ
ーン近似部410にて近似したピッチの時間変化パター
ンによって定まるピッチの間隔に等しくなるように、任
意の時間的位置における隣り合うピッチの時間的基準位
置の間隔を決める。ここで、ピッチの時間変化パターン
と隣り合う時間的基準位置の間隔の対応の方法は複数考
えられるが、前記第1の実施形態で述べたのと同様の方
法をとることができる。但し、本実施形態においては、
ピッチ基準位置系列候補生成部12から所望の時間的位
置が指定された場合に、その時間的位置(の近傍)にお
けるピッチの値がピッチ分析部111により返されるの
ではなく、その時間的位置におけるピッチの近似値が、
上記近似されたピッチの時間変化パターンをもとにピッ
チパターン近似部410により返される。
【0048】このように本実施形態においては、ピッチ
の時間変化パターンのモデルを用いて近似した近似値を
もとに基準位置系列を求めているため、当該モデルに音
声波形の再合成に用いるのと同じピッチ時間変化パター
ンのモデルを用いてピッチの時間的基準位置の付与を行
い合成用の蓄積データを作成し、この蓄積データを用い
て再合成することにより、原音声波形に含まれるピッチ
のゆらぎを保持した合成音声を生成することができる。
【0049】なお、本発明は以上に述べた実施形態に限
定されるものではない。例えば、図4中の音声波形分析
部21内に図6中のスペクトル分析部310を付加し、
基準位置系列決定部23内の基準位置系列候補選択部2
31における各基準位置系列候補の評価値(スコア)の
算出の際に、周期性分析部210によって算出された各
基準位置近傍の周期性と、スペクトル分析部310によ
って算出された各基準位置近傍のスペクトルの特徴パラ
メータの値の両者を加味するようにしてもよい。この場
合、各基準位置の評価値に対して、周期性が高くなるに
従い単調増加するような重みw1 と、スペクトル変化が
大きくなるに従い単調減少するような重みw2 との乗算
値w1 ・w2 を掛け合わせる重みづけを行い、これを累
積するといった方法が適用可能である。
【0050】また、図7中の音声波形分析部41内に図
4中の周期性分析部210及び図6中のスペクトル分析
部310のうちの少なくとも一方を付加するようにして
も構わない。
【0051】また、ピッチ分析部111によるピッチ分
析、およびピッチパターン近似部410によるピッチの
時間変化パターンの近似は、音声波形の全区間に対して
連続的に行っても、一部区間(例えば有声区間)毎に逐
次行っても構わない。この他、本発明はその要旨を逸脱
しない範囲で、種々変形して実施することができる。
【0052】
【発明の効果】以上詳述したように本発明によれば、原
音声波形のピッチのゆらぎの影響を受けにくいピッチの
時間的基準位置の付与が可能となり、ピッチ同期の波形
処理が容易になる。
【0053】また、本発明によって付与したピッチの時
間的基準位置をもとにして区間を定めた波形データ、あ
るいは、本発明によって付与したピッチの時間的基準位
置をもとにして切り出した波形の分析に基づくパラメー
タを、音声合成用の蓄積データとして利用すれば、自然
音声に含まれるピッチのゆらぎを保存した自然性の高い
合成音声を生成することが可能になる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る音声分析システ
ムの本発明に直接関係する部分の構成を示すブロック
図。
【図2】図1中の基準位置系列生成部121における基
準位置系列の1候補の生成アルゴリズムを説明するため
の図。
【図3】図1中の基準位置系列生成部121により生成
される位相の相異なる有限個の時間的基準位置系列候補
の時間的位置関係を示す図。
【図4】本発明の第2の実施形態に係る音声分析システ
ムの本発明に直接関係する部分の構成を示すブロック
図。
【図5】図4中の周期性分析部210での正規化自己相
関関数から周期性の大きさ(を示すパラメータ)への変
換例を示す図。
【図6】本発明の第3の実施形態に係る音声分析システ
ムの本発明に直接関係する部分の構成を示すブロック
図。
【図7】本発明の第4の実施形態に係る音声分析システ
ムの本発明に直接関係する部分の構成を示すブロック
図。
【図8】図7中のピッチ分析部111によって連続的に
抽出されるピッチの時間変化パターン(ピッチパター
ン)と、ピッチパターン近似部410によって近似され
るピッチの時間変化パターン(ピッチパターン)の一例
を示す図。
【符号の説明】
11,21,31,41…音声波形分析部、 12…ピッチ基準位置系列候補生成部、 13,23,33…ピッチ基準位置系列決定部、 111…ピッチ分析部、 121…基準位置系列生成部、 122…基準位置系列候補生成制御部、 131,231,331…基準位置系列候補選択部、 210…周期性分析部、 310…スペクトル分析部、 410…ピッチパターン近似部。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 音声のピッチ同期波形処理を行う音声分
    析システムにおいて、 入力音声波形を分析して任意の各時間的位置における当
    該音声波形のピッチを抽出するピッチ分析手段と、 前記ピッチ分析手段の分析結果をもとに、隣接するピッ
    チ基準点との時間間隔がその近傍の前記時間的位置のピ
    ッチと等しくなるように定められたピッチ基準点の系列
    であるピッチ基準位置系列の候補を、位相が互いに相異
    なるように複数生成するピッチ基準位置系列候補生成手
    段と、 前記ピッチ基準位置系列候補生成手段によって生成され
    た前記各ピッチ基準位置系列候補をそれぞれ構成する各
    ピッチ基準点近傍の前記音声波形の振幅の大きさをもと
    に当該各候補のスコアを決定し、そのスコアをもとに前
    記音声波形のピッチの時間的基準位置の系列とする候補
    を選択するピッチ基準位置系列決定手段とを具備するこ
    とを特徴とする音声分析システム。
  2. 【請求項2】 音声のピッチ同期波形処理を行う音声分
    析システムにおいて、 入力音声波形を分析して任意の各時間的位置における当
    該音声波形のピッチを抽出するピッチ分析手段と、 前記音声波形に対して、前記ピッチ分析手段によって得
    られたピッチの時間変化のパターンをピッチの時間変化
    パターンモデルによって近似し、所望の各時間的位置に
    おけるピッチ近似値を求めるピッチパターン近似手段
    と、 隣接するピッチ基準点との時間間隔が前記ピッチパター
    ン近似手段によって求められた対応する時間的位置にお
    けるピッチ近似値に等しくなるように定められたピッチ
    基準点の系列であるピッチ基準位置系列の候補を、位相
    が互いに相異なるように複数生成するピッチ基準位置系
    列候補生成手段と、 前記ピッチ基準位置系列候補生成手段によって生成され
    た前記各ピッチ基準位置系列候補をそれぞれ構成する各
    ピッチ基準点近傍の前記音声波形の振幅の大きさをもと
    に当該各候補のスコアを決定し、そのスコアをもとに前
    記音声波形のピッチの時間的基準位置の系列とする候補
    を選択するピッチ基準位置系列決定手段とを具備するこ
    とを特徴とする音声分析システム。
  3. 【請求項3】 前記音声波形の前記各時間的位置におけ
    る周期性を求める周期性分析手段をさらに具備し、 前記ピッチ基準位置系列決定手段は、前記ピッチ基準位
    置系列候補生成手段によって生成された前記各ピッチ基
    準位置系列候補をそれぞれ構成する各ピッチ基準点近傍
    の前記音声波形の振幅の大きさに対し、前記周期性分析
    手段によって求められた周期性に応じた重みづけをする
    ことにより当該各候補のスコアを決定することを特徴と
    する請求項1または請求項2記載の音声分析システム。
  4. 【請求項4】 前記音声波形の前記各時間的位置におけ
    るスペクトル特徴パラメータを求めるスペクトル分析手
    段をさらに具備し、 前記ピッチ基準位置系列決定手段は、前記ピッチ基準位
    置系列候補生成手段によって生成された前記各ピッチ基
    準位置系列候補をそれぞれ構成する各ピッチ基準点近傍
    の前記音声波形の振幅の大きさに対し、前記スペクトル
    分析手段によって求められたスペクトル特徴パラメータ
    に応じた重みづけをすることにより当該各候補のスコア
    を決定することを特徴とする請求項1または請求項2記
    載の音声分析システム。
  5. 【請求項5】 前記音声波形の前記各時間的位置におけ
    る周期性を求める周期性分析手段と、 前記音声波形の前記各時間的位置におけるスペクトル特
    徴パラメータを求めるスペクトル分析手段とをさらに具
    備し、 前記ピッチ基準位置系列決定手段は、前記ピッチ基準位
    置系列候補生成手段によって生成された前記各ピッチ基
    準位置系列候補をそれぞれ構成する各ピッチ基準点近傍
    の前記音声波形の振幅の大きさに対し、前記周期性分析
    手段によって求められた周期性および前記スペクトル分
    析手段によって求められたスペクトル特徴パラメータに
    応じた重みづけをすることにより当該各候補のスコアを
    決定することを特徴とする請求項1または請求項2記載
    の音声分析システム。
  6. 【請求項6】 入力音声波形を分析して任意の各時間的
    位置における当該音声波形のピッチを抽出するピッチ分
    析を行い、 このピッチ分析結果をもとに、隣接するピッチ基準点と
    の時間間隔がその近傍の前記時間的位置のピッチと等し
    くなるように定められたピッチ基準点の系列であるピッ
    チ基準位置系列の候補を、位相が互いに相異なるように
    複数生成し、 この生成した各ピッチ基準位置系列候補をそれぞれ構成
    する各ピッチ基準点近傍の前記音声波形の振幅の大きさ
    をもとに当該各候補のスコアを決定して、そのスコアを
    もとに前記音声波形のピッチの時間的基準位置の系列と
    する候補を選択することを特徴とする音声波形のピッチ
    の時間的基準位置付与方法。
  7. 【請求項7】 入力音声波形を分析して任意の各時間的
    位置における当該音声波形のピッチを抽出するピッチ分
    析を行い、 前記音声波形に対して、前記ピッチ分析によって得られ
    たピッチの時間変化のパターンをピッチの時間変化パタ
    ーンモデルによって近似することで、所望の各時間的位
    置におけるピッチ近似値を求めるピッチパターン近似を
    行い、 隣接するピッチ基準点との時間間隔が前記ピッチパター
    ン近似によって求められた対応する時間的位置における
    ピッチ近似値に等しくなるように定められたピッチ基準
    点の系列であるピッチ基準位置系列の候補を、位相が互
    いに相異なるように複数生成し、 この生成した各ピッチ基準位置系列候補をそれぞれ構成
    する各ピッチ基準点近傍の前記音声波形の振幅の大きさ
    をもとに当該各候補のスコアを決定し、そのスコアをも
    とに前記音声波形のピッチの時間的基準位置の系列とす
    る候補を選択することを特徴とする音声波形のピッチの
    時間的基準位置付与方法。
  8. 【請求項8】 前記音声波形の前記各時間的位置におけ
    る周期性を求める周期性分析および前記音声波形の前記
    各時間的位置におけるスペクトル特徴パラメータを求め
    るスペクトル分析の少なくとも一方をさらに行い、 前記各ピッチ基準位置系列候補のスコアを決定する際に
    は、当該候補を構成する各ピッチ基準点近傍の前記音声
    波形の振幅の大きさに対し、前記周期性およびスペクト
    ル特徴パラメータの少なくとも一方に応じた重みづけを
    することを特徴とする請求項6または請求項7記載の音
    声波形のピッチの時間的基準位置付与方法。
JP7235419A 1995-09-13 1995-09-13 音声分析システム及び音声波形のピッチの時間的基準位置付与方法 Pending JPH0981188A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7235419A JPH0981188A (ja) 1995-09-13 1995-09-13 音声分析システム及び音声波形のピッチの時間的基準位置付与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7235419A JPH0981188A (ja) 1995-09-13 1995-09-13 音声分析システム及び音声波形のピッチの時間的基準位置付与方法

Publications (1)

Publication Number Publication Date
JPH0981188A true JPH0981188A (ja) 1997-03-28

Family

ID=16985830

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7235419A Pending JPH0981188A (ja) 1995-09-13 1995-09-13 音声分析システム及び音声波形のピッチの時間的基準位置付与方法

Country Status (1)

Country Link
JP (1) JPH0981188A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7630883B2 (en) 2001-08-31 2009-12-08 Kabushiki Kaisha Kenwood Apparatus and method for creating pitch wave signals and apparatus and method compressing, expanding and synthesizing speech signals using these pitch wave signals

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7630883B2 (en) 2001-08-31 2009-12-08 Kabushiki Kaisha Kenwood Apparatus and method for creating pitch wave signals and apparatus and method compressing, expanding and synthesizing speech signals using these pitch wave signals
US7647226B2 (en) 2001-08-31 2010-01-12 Kabushiki Kaisha Kenwood Apparatus and method for creating pitch wave signals, apparatus and method for compressing, expanding, and synthesizing speech signals using these pitch wave signals and text-to-speech conversion using unit pitch wave signals

Similar Documents

Publication Publication Date Title
JP5038995B2 (ja) 声質変換装置及び方法、音声合成装置及び方法
JP4469883B2 (ja) 音声合成方法及びその装置
Bonada et al. Expressive singing synthesis based on unit selection for the singing synthesis challenge 2016
JPH08110789A (ja) 波形の連結及び部分的重複化による音声合成方法
JP3340748B2 (ja) 音響要素・データベースを有する音声合成装置
JP2010230699A (ja) 音声合成装置、プログラム、及び方法
JP4533255B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
JP4999757B2 (ja) 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体
JP5983604B2 (ja) 素片情報生成装置、音声合成装置、音声合成方法および音声合成プログラム
JP4469986B2 (ja) 音響信号分析方法および音響信号合成方法
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
US7822599B2 (en) Method for synthesizing speech
JPH09319391A (ja) 音声合成方法
JPH0981188A (ja) 音声分析システム及び音声波形のピッチの時間的基準位置付与方法
JP6683103B2 (ja) 音声合成方法
Youcef et al. A tutorial on speech synthesis models
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2004233774A (ja) 音声合成方法及び装置、並びに音声合成プログラム
JP3576792B2 (ja) 音声情報処理方法
KR100641347B1 (ko) 코퍼스 기반 음성합성에서 섭동을 이용한 합성단위 탐색방법
JP2018077281A (ja) 音声合成方法
JP3495275B2 (ja) 音声合成装置
Thomas et al. Synthesizing intonation for Malayalam TTS
JP2001282273A (ja) 音声情報処理装置とその方法と記憶媒体
Visagie et al. Sinusoidal Modelling in Speech Synthesis, A Survey.