JP2003122380A

JP2003122380A - ピッチマーク付与装置およびその処理方法ならびに記憶媒体

Info

Publication number: JP2003122380A
Application number: JP2001311953A
Authority: JP
Inventors: Shinji Hisamoto; 慎二久本; Yasuo Okuya; 泰夫奥谷
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2001-10-09
Filing date: 2001-10-09
Publication date: 2003-04-25

Abstract

(57)【要約】【課題】一定幅のフレームごと有声無声判別を行なう
ことで精度良く自動的にピッチマークを付与する装置を
提供する。【解決手段】音声合成において、音声波形を所望のピ
ッチで接続するためのピッチマークを付与するピッチマ
ーク付与装置であって、前記音声波形の一フレームを抽
出し、該フレームにおける該音声波形のパワーを算出す
る波形パワー計算部４０１と、前記音声波形の一フレー
ムを抽出し、該フレームにおける該音声波形のゼロクロ
スを求める波形ゼロクロス計算部４０３と、前記パワー
と前記ゼロクロスとに基づいて前記フレームが有声であ
るか無声であるかを判断する有声無声判別部４０６と、
前記有声無声判別部４０６において有声と判断されたフ
レームに対して、前記音声波形のウェーブレット変換に
おけるローカルピークを求め、該ローカルピークに基づ
いてピッチマークを付与する付与手段とを備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声合成で利用さ
れる音声データベースの作成過程において、自動的にピ
ッチマークを付与することができる装置に関する発明で
ある。

【０００２】

【従来の技術】近年の音声合成方式では、音声素片を１
ピッチ波形単位で複製、削除を行ないながら所望のピッ
チ間隔で貼り合わせて編集し、それらの音声素片を接続
する合成方式（ＰＳＯＬＡ：ピッチ同期波形重畳法）が
主流となっている。この合成方式の場合、あらかじめデ
ータベースに音声の最小繰り返し単位（ピッチ波形）ご
とにピッチマークを付与しておくことが一般的である。
ピッチマークの位置としては、ピッチ波形の声門閉鎖点
とする場合が多い。このピッチマークを正確に付与する
ことは音質を向上させるうえで非常に重要である。

【０００３】また、ピッチマークの付与過程としては、
（１）コンピュータなどによる自動付与、（２）人手に
よる誤り修正、の順序となることが一般的である。そし
て、自動付与の精度が、その後の人手による作業量の増
減に大きな影響を与えることになる。

【０００４】ピッチマークを自動的に付与する方法とし
ては、Shubha Kadambe、 G. Faye Boudreaux-Bartels、
"Application of the Wavelet Transform for Pitch D
etection of Speech Signals"、 IEEE Transactions on
Information Theory、 Vol38、 No.2、pp.917-924、 1
992 において、音声波形が声門閉鎖点において急峻に変
化することに着目して、音声波形のDyadic Wavelet変換
のローカルピークを抽出し、その中から声門閉鎖点を推
定する方法が提案されている。また、この方法を改良し
たものとして、特許第３０９３１１３号（出願人：日本
アイ・ビー・エム株式会社）によるものが提案されてい
る。

【０００５】そして、これらウェーブレットを利用した
声門閉鎖点の抽出方法では、複数のスケールからなるウ
ェーブレットに局在する多数のローカルピークの中から
いかにして声門閉鎖点だけを選択するかがポイントとな
る。

【０００６】また、ウェーブレットのほかに音素ラベル
や波形のゼロクロス、パワーなどの情報を総合的に用い
ることによって、精度良く自動的にピッチマークを付与
する装置およびその方法が提案されている。

【０００７】

【発明が解決しようとする課題】しかし上記ウェーブレ
ットのみを利用する２方式は、２つ以上のスケールのロ
ーカルピーク位置が一致することを声門閉鎖点であるた
めの必要条件としている。確かに２つ以上のローカルピ
ーク位置が一致する場合は、声門閉鎖点である可能性は
高い。しかしながら、この条件はかなり厳しい条件であ
るため、逆にピッチマーク（以下、声門閉鎖点の位置を
ピッチマークと呼ぶ）の脱落を生じやすくなる。

【０００８】また、ウェーブレットのほかに音素ラベル
や波形のゼロクロス、パワーなどの情報を用いた上記方
式は、ピッチマークを付与する区間と付与しない区間、
すなわち有声区間と無声区間の判別を音素ラベルにより
音素単位で行なっている。そのため、音素単位内で有声
区間と無声区間が共存する場合に適切なピッチマークが
付与できず、音質の劣化を生じる。

【０００９】本発明は上記課題に鑑みてなされたもの
で、有声無声判別に音素ラベルを用いず、一定幅のフレ
ームごとに波形のゼロクロスとパワーを入力とした統計
的手法である判別分析法を用いて有声無声判別を行なう
ことで精度良く自動的にピッチマークを付与する装置お
よびその処理方法ならびにその処理方法を実現するプロ
グラムを記憶した記憶媒体を提供することを目的とす
る。

【００１０】

【課題を解決するための手段】かかる課題を解決するた
め、例えば本発明のピッチマーク付与装置は以下の構成
を備える。すなわち、音声合成において、音声波形を所
望のピッチで接続するためのピッチマークを付与するピ
ッチマーク付与装置であって、前記音声波形の一フレー
ムを抽出し、該フレームにおける該音声波形のパワーを
算出する音声波形パワー計算手段と、前記音声波形の一
フレームを抽出し、該フレームにおける該音声波形のゼ
ロクロスを求める音声波形ゼロクロス計算手段と、前記
パワーと前記ゼロクロスとに基づいて前記フレームが有
声であるか無声であるかを判断する有声無声判別手段
と、前記有声無声判別手段において有声と判断されたフ
レームに対して、前記音声波形のウェーブレット変換に
おけるローカルピークを求め、該ローカルピークに基づ
いてピッチマークを付与する付与手段とを備える。

【００１１】

【発明の実施の形態】以下、図面を参照して本発明の好
適な実施形態を詳細に説明する。

【００１２】（第１の実施形態）図１は、本実施形態に
おけるピッチマーク付与装置のハードウエア構成を示す
ブロック図である。なお、本実施形態では、一般的なパ
ーソナルコンピュータをピッチマーク付与装置として用
いる場合について説明するが、本発明は専用のピッチマ
ーク付与装置であっても、また他の形態の装置であって
もよい。

【００１３】図１において、１０１は制御メモリ（ＲＯ
Ｍ）、１０２は中央処理装置、１０３はメモリ（ＲＡ
Ｍ）、１０４は外部記憶装置、１０５はバスである。本
実施形態のピッチマーク付与装置を実現するための制御
プログラムやその制御プログラムで用いるデータは、制
御メモリ１０１に記憶される。これらの制御プログラム
やデータは、中央処理装置１０２の制御のもと、バス１
０５を通じて適宜メモリ１０３に取り込まれ、中央処理
装置１０２によって実行される。

【００１４】図２は、本実施形態におけるピッチマーク
付与装置のモジュール構成を示すブロック図である。図
２において、波形保持部２０１は、音声波形を保持して
いるものとする。ウェーブレット変換部２０２は、波形
保持部２０１が保持する音声波形データに対しウェーブ
レット変換を行ない、変換結果をウェーブレット保持部
２０３に保持する。ローカルピーク抽出部２０４は、ウ
ェーブレット保持部２０３が保持するウェーブレットか
らローカルピークを求め、ローカルピークの位置をロー
カルピーク保持部２０５に保持する。音素ラベル保持部
２０６は、波形保持部２０１に保持されている音声波形
の音素情報とその時間情報を保持する。有声無声判別部
２０７は、波形パワー、波形ゼロクロスの情報からある
区間が有声音であるか無声音を判別する。有声無声判別
結果保持部２０８は、判別結果を保持する。ピッチマー
ク推定部２０９は、有声区間と判別された区間につい
て、ローカルピーク保持部２０５が保持するローカルピ
ーク情報やその音素ラベルを用いて、声門閉鎖点すなわ
ちピッチマークの推定を行なう。ピッチマーク保持部２
１４は、推定結果であるピッチマークを保持する。

【００１５】図３は、本実施形態におけるピッチマーク
付与装置の処理の流れを示すフローチャートである。

【００１６】ステップＳ３０１では、波形保持部２０１
が保持する音声波形に対してウェーブレット変換を行な
う。本実施形態では、２進ウェーブレット変換を用いた
場合について説明するものとする。２進ウェーブレット
変換の一般式を下記に示す。

【００１７】

【数１】

【００１８】上式中、bはトランスレート（シフト）、1
/2^jはスケール（伸縮）をあらわす。また、Ψ(ω)はマ
ザーウェーブレットをあらわす。スケールjのとりうる
範囲としては、人間の基本周波数の変化範囲をカバーす
るに十分な範囲、例えば、サンプリングレートが２２ｋ
Ｈｚの場合の男性音声であれば２〜４、女性であれば１
〜３が適当である。

【００１９】このようにして、求めた複数スケールのウ
ェーブレットをウェーブレット保持部２０３に保持し
て、ステップＳ３０２に移る。

【００２０】ステップＳ３０２では、ウェーブレット保
持部２０３に保持されている各スケールのウェーブレッ
トそれぞれについて、ローカルピーク抽出部２０４がロ
ーカルピークを求め、その位置と大きさをローカルピー
ク保持部２０５に保持してステップＳ３０３に移る。こ
こでいうローカルピークとは、正の極大値、負の極小値
をさす。負の極小値とは、絶対値が局所的に最大になる
点を意味している。ステップＳ３０３では、有声無声判
別部２０７が一定幅のフレームごとに有声無声判別を行
なう。有声無声判別には、波形のパワー、波形のゼロク
ロスなどの情報を用いるが、これについては図４、５で
詳細に記述する。有声無声の判別結果を有声無声判別結
果保持部２０８に保持して、ステップＳ３０４に移る。

【００２１】ステップＳ３０４以降は、有声無声判別結
果保持部２０８に保持されている有声無声区間判別結果
を参照して、連続する有声フレームまたは連続する無声
フレームを一区間として、区間ごとに順次処理が行われ
る。ステップＳ３０４では、未処理の区間が存在するか
どうかを判定する。未処理の区間が存在しない場合は、
終了する。未処理の区間が存在する場合は、ステップＳ
３０５に移る。ステップＳ３０５では、有声無声判別部
２０７が当該区間の有声無声判別を行なう。ステップＳ
３０５では、当該区間が有声区間でない場合は、ステッ
プＳ３０６に移る。有声区間の場合は、ステップＳ３０
７に移る。ステップＳ３０６では、有声無声判別結果保
持部２０６から次の区間を設定してステップＳ３０４に
移る。

【００２２】ステップＳ３０７では、ピッチマーク推定
部２０９が、ローカルピークの中からピッチマークを決
定し、ピッチマーク保持部２１０に保持して、ステップ
Ｓ３０６に戻る。ステップＳ３０７の詳細については、
図６〜図８で説明する。

【００２３】図４は、本実施形態の図３におけるステッ
プＳ３０３の詳細なモジュール構成を示すブロック図で
ある。図４において、波形保持部２０１、有声無声判別
結果保持部２０８は、図２に記載したものであり、点線
で囲まれた部分が図２記載の有声無声判別部２０７に相
当する。波形パワー計算部４０１は、一定幅に決められ
たフレームごとにパワーを計算し、波形パワー保持部４
０２は、その計算結果を保持する。波形ゼロクロス計算
部４０３は、フレームごとにゼロクロスを計算し、波形
ゼロクロス保持部４０４は、その計算結果を保持する。
判別ルール保持部４０５は、有声無声を判別するための
ルールを保持する。有声無声判別部４０６は、パワー、
ゼロクロスを用いて、判別ルール保持部４０５が保持す
るルールに従ってフレームの有声無声を判別し、判別結
果を有声無声判別結果保持部２０８に保持する。

【００２４】図５は、本実施形態の図３におけるステッ
プＳ３０３の詳細な処理の流れを示すフローチャートで
ある。なお、図４で示した有声、無声の判断基準は一例
であり、他の規則によって有声無声の判別を行なっても
よい。

【００２５】ステップＳ５０１では、図４記載の波形パ
ワー計算部４０１が、波形保持部２０１の保持する音声
波形の一フレーム分を抽出し、当該フレームのパワーを
求める。一フレームの幅は、女性ならば５msec、男性な
らば１０msec程度が好ましい。求めたパワーを波形パワ
ー保持部４０２に保持してステップＳ５０２に移る。

【００２６】ステップＳ５０２では、図４記載の波形ゼ
ロクロス計算部４０３が、波形保持部２０１の保持する
音声波形の一フレーム分を抽出し、当該フレームのゼロ
クロスを求める。ゼロクロスは、波形の振幅の正負反転
回数から求める。求めたゼロクロスを波形ゼロクロス保
持部４０４に保持して、ステップＳ５０３に移る。

【００２７】ステップＳ５０３では、パワーとゼロクロ
スの情報を使って、当該フレームが有声フレームである
か無声フレームであるかを統計的手法である判別分析に
より判別する。判別分析法については、脇本和昌、田中
豊「多変量統計解析法」現代数学社、pp101-136を参照
されたい。

【００２８】ステップＳ５０４では、判別分析により有
声フレームと判別されたらステップＳ５０５に移り、無
声フレームと判別されたらステップＳ５０７に移る。ス
テップＳ５０５では、図２記載の有声無声判別結果保持
部２０８にそのフレームが有声フレームであることを記
録してステップＳ５０６に移る。ステップＳ５０５で
は、図２記載の有声無声判別結果保持部２０８にそのフ
レームが無声フレームであることを記録してステップＳ
５０６に移る。

【００２９】ステップＳ５０６では、判別する次のフレ
ームがあればステップＳ５０８に移り、なければ終了す
る。ステップＳ５０８では、波形保持部２０１の保持す
る次のフレームの音声波形を設定してステップＳ５０１
に移る。

【００３０】図６と図７は、本実施形態の図３における
ステップＳ３０７のピッチマーク決定処理の流れを示し
たフローチャートである。図６ではピッチマークを決め
るウェーブレットの基準スケールを決定する処理の流れ
を示す。また、図７では基準スケールの各ローカルピー
クから処理を開始して、ピッチマークを選択、決定する
処理の流れを示す。

【００３１】図６において、ステップＳ６０１では、図
２記載のウェーブレット保持部２０３が保持する各スケ
ールj(女性の場合１〜３)のウェーブレットについて、
当該区間に対応する音素情報と時間情報を図２記載の音
素ラベル保持部２０６から抽出し、当該音素における単
位時間ゼロクロスzcr[j]と単位時間パワーpwr[j]を計算
し、ステップＳ６０２に移る。

【００３２】ステップＳ６０２では、ゼロクロスの値が
一番小さいスケールを基準スケール候補jbaseとして保
持し、ステップＳ６０３に移る。通常は最大スケールの
ゼロクロスが一番小さくなることが多い。ステップＳ６
０３では、jbaseが最小スケールjmin（女性の場合は
１）と等しい場合もしくは、パワーに関する次式の条件
を満足する場合にステップＳ６０５に移る。0.2 * pwr
[jbase-1] &lt pwr[jbase]それ以外の場合は、ステップ
Ｓ６０４に移る。ステップＳ６０４では、ゼロクロスに
関する次式の条件を満足する場合にステップＳ６０６に
移り、それ以外の場合はステップＳ６０５に移る。| zc
r[jbase-1] - zcr[jbase] | &lt | zcr[jbase-1] - 2 *
zcr[jbase] |ステップＳ６０５では、jbaseをピッチマ
ーク決定のための基準スケールとして、終了する。ステ
ップＳ６０６では、jbase-1を基準スケールとして終了
する。

【００３３】図７は、基準スケールjbaseのウェーブレ
ットに関する正のローカルピーク集合に含まれる個々の
ローカルピークの処理を示したフローチャートである。
ステップＳ７０１では、基準スケールjbaseのウェーブ
レットのあるローカルピークpeakN1をピッチマーク候補
として、ステップＳ７０２に移る。ステップＳ７０２で
は、当該音素が母音の場合はステップＳ７０３に移る。
それ以外の場合は、ステップＳ７０６に移る。

【００３４】ステップＳ７０３では、最小スケールjmin
のウェーブレットに関して、peakN1に対応する正のロー
カルピークpeakN2を決定し、ステップＳ７０４に移る。
peakN1に対応するpeakN2の決定方法について補足する。
スケールjminのウェーブレットに関して、peakN1の位置
と同じ位置から逆方向にウェーブレットの値が負になる
までの間、正のピークで最大のピークを探索し、最大の
ピークをpeakN2とする。

【００３５】ステップＳ７０４では、peakN1とpeakN2の
ピーク値を比較し、peakN1よりもpeakN2が大きい場合は
ステップＳ７０５に移り、それ以外の場合はステップＳ
７０６に移る。該当するpeakN2がステップＳ７０３で見
つからなかった場合もステップＳ７０６に移る。ステッ
プＳ７０５では、peakN2をピッチマーク候補として、ス
テップＳ７０６に移る。ステップＳ７０６では、当該音
素がaの場合はステップＳ７０７に移り、それ以外の場
合はステップＳ７０８に移る。

【００３６】ステップＳ７０７では、最小スケールjmin
のウェーブレットに関して、peakN1に対応する正のロー
カルピークpeakN2を決定する際に、２度負になるまでの
間で最大となる正のローカルピークを探索しpeakN2とす
る。peakN2が見つかった場合は、それをピッチマーク候
補として、ステップＳ７０８に移る。ステップＳ７０８
では、ピッチマーク候補をピッチマークとし、図２記載
のピッチマーク保持部２１０に保持して終了する。

【００３７】図８は、図７記載のステップＳ７０３にお
けるpeakN2の探索処理の模式図である。上下の波形は、
それぞれ、スケールjbaseのウェーブレットとjminのウ
ェーブレットをあらわしている。

【００３８】（第２の実施形態）上記実施形態において
は、有声無声判別部は判別分析による結果をそのままフ
レームの有声無声判別結果としたが、有声フレームと判
別された場合でも、当該フレームの前後のフレームがど
ちらも無声フレームであれば無声フレームとして判別し
（判別結果を補正し）、逆に、無声フレームと判別され
た場合でも、当該フレームの前後のフレームがどちらも
有声フレームであれば有声フレームとして判別する（判
別結果を補正する）工程を備えていてもよい。

【００３９】（第３の実施形態）上記実施形態において
は、有声無声判別部は音声波形の波形パワー、波形ゼロ
クロスを使って判別分析する場合を説明したが、音声波
形をウェーブレット変換し、ウェーブレット変換された
波形の波形パワー、波形ゼロクロスを使って判別分析を
行なってもよい。

【００４０】（第４の実施形態）上記実施形態において
は、各部を同一の計算機上で構成する場合について説明
したが、これに限定されるものではなく、ネットワーク
上に分散した計算機や処理装置などに分かれて各部を構
成してもよい。

【００４１】（第５の実施形態）上記実施形態において
は、プログラムを制御メモリ(ROM)に保持する場合につ
いて説明したが、これに限定されるものではなく、外部
記憶など任意の記憶媒体を用いて実現してもよい。ま
た、同様の動作をする回路で実現してもよい。

【００４２】（第６の実施形態）なお、本発明は、複数
の機器から構成されるシステムに適用しても、１つの機
器からなる装置に適用してもよい。前述した実施形態の
機能を実現するソフトウェアのプログラムコードを記録
した記録媒体を、システムあるいは装置に供給し、その
システムあるいは装置のコンピュータ（またはＣＰＵや
ＭＰＵ）が記録媒体に格納されたプログラムコードを読
み出し実行することによっても、達成されることはいう
までもない。

【００４３】この場合、記録媒体から読み出されたプロ
グラムコード自体が前述した実施形態の機能を実現する
ことになり、そのプログラムコードを記録した記録媒体
は本発明を構成することになる。

【００４４】（第７の実施形態）プログラムコードを供
給するための記録媒体としては、例えば、フロッピー
（登録商標）ディスク、ハードディスク、光ディスク、
光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テー
プ、不揮発性のメモリカード、ＲＯＭなどを用いること
ができる。

【００４５】（第８の実施形態）また、コンピュータが
読み出したプログラムコードを実行することにより、前
述した実施形態の機能が実現されるだけでなく、そのプ
ログラムコードの指示に基づき、コンピュータ上で稼働
しているＯＳなどが実際の処理の一部または全部を行
い、その処理によって前述した実施形態の機能が実現さ
れる場合も含まれることはいうまでもない。

【００４６】（第９の実施形態）更に、記録媒体から読
み出されたプログラムコードが、コンピュータに挿入さ
れた機能拡張ボードやコンピュータに接続された機能拡
張ユニットに備わるメモリに書き込まれた後、そのプロ
グラムコードの指示に基づき、その機能拡張ボードや機
能拡張ユニットに備わるＣＰＵなどが実際の処理の一部
または全部を行い、その処理によって前述した実施形態
の機能が実現される場合も含まれることはいうまでもな
い。

【００４７】

【発明の効果】以上説明したように、本発明によれば、
ウェーブレットおよび波形のパワーやゼロクロスを用
い、統計的手法である判別分析を使って有声無声判別を
行なうことにより高精度のピッチマークを付与すること
が可能なピッチマーク付与装置およびその処理方法なら
びにその処理方法を実現するプログラムを記憶した記憶
媒体を提供することができる。

【図面の簡単な説明】

【図１】本発明の第１の実施形態にかかるピッチマーク
付与装置のハードウエア構成を示すブロック図である。

【図２】本発明の第１の実施形態にかかるピッチマーク
付与装置のモジュール構成を示すブロック図である。

【図３】本発明の第１の実施形態にかかるピッチマーク
付与装置の処理の流れを示すフローチャートである。

【図４】本発明の第１の実施形態にかかるピッチマーク
付与装置の詳細なモジュール構成を示すブロック図であ
る。

【図５】本発明の第１の実施形態にかかるピッチマーク
付与装置の詳細な処理の流れを示すフローチャートであ
る。

【図６】本発明の第１の実施形態にかかるピッチマーク
付与装置のピッチマーク決定処理の流れを示したフロー
チャートである。

【図７】本発明の第１の実施形態にかかるピッチマーク
付与装置のピッチマーク決定処理の流れを示したフロー
チャートである。

【図８】本発明の第１の実施形態にかかるピッチマーク
付与装置におけるpeakN2の探索処理の模式図である。

【符号の説明】

１０１制御メモリ１０２中央処理装置１０３メモリ１０４外部記憶装置１０５バス２０１波形保持部２０２ウェーブレット変換部２０３ウェーブレット保持部２０４ローカルピーク抽出部２０５ローカルピーク保持部２０６音素ラベル保持部２０７音素の有声無声判別部２０８有声無声判別結果保持部２０９音素のピッチマーク推定部２１０ピッチマーク保持部４０１波形パワー計算部４０２波形パワー保持部４０３波形ゼロクロス計算部４０４波形ゼロクロス保持部４０５判別ルール保持部４０６有声無声判別部

Claims

【特許請求の範囲】

【請求項１】音声合成において、音声波形を所望のピ
ッチで接続するためのピッチマークを付与するピッチマ
ーク付与装置であって、前記音声波形の一フレームを抽出し、該フレームにおけ
る該音声波形のパワーを算出する音声波形パワー計算手
段と、前記音声波形の一フレームを抽出し、該フレームにおけ
る該音声波形のゼロクロスを求める音声波形ゼロクロス
計算手段と、前記パワーと前記ゼロクロスとに基づいて前記フレーム
が有声であるか無声であるかを判断する有声無声判別手
段と、前記有声無声判別手段において有声と判断されたフレー
ムに対して、前記音声波形のウェーブレット変換におけ
るローカルピークを求め、該ローカルピークに基づいて
ピッチマークを付与する付与手段とを備えることを特徴
とするピッチマーク付与装置。
【請求項２】音声合成において、音声波形を所望のピ
ッチで接続するためのピッチマークを付与するピッチマ
ーク付与装置であって、前記音声波形の一フレームを抽出し、該フレームにおけ
る該音声波形のウェーブレット変換後の波形のパワーを
算出するウェーブレット波形パワー計算手段と、前記音声波形の一フレームを抽出し、該フレームにおけ
る該音声波形のウェーブレット変換後の波形のゼロクロ
スを求めるウェーブレット波形ゼロクロス計算手段と、前記パワーと前記ゼロクロスとに基づいて前記フレーム
が有声であるか無声であるかを判断する有声無声判別手
段と、前記有声無声判別手段において有声と判断されたフレー
ムに対して、前記音声波形のウェーブレット変換におけ
るローカルピークを求め、該ローカルピークにに基づい
てピッチマークを付与する付与手段とを備えることを特
徴とするピッチマーク付与装置。
【請求項３】前記有声無声判別手段は、所定のフレー
ムの前後のフレームの有声無声判別結果に基づいて該所
定のフレームの有声無声の判断を補正する判別結果補正
手段を更に備えることを特徴とする請求項１または２に
記載のピッチマーク付与装置。
【請求項４】音声合成において、音声波形を所望のピ
ッチで接続するためのピッチマークを付与するピッチマ
ーク付与装置における処理方法であって、前記音声波形の一フレームを抽出し、該フレームにおけ
る該音声波形のパワーを算出する音声波形パワー計算工
程と、前記音声波形の一フレームを抽出し、該フレームにおけ
る該音声波形のゼロクロスを求める音声波形ゼロクロス
計算工程と、前記パワーと前記ゼロクロスとに基づいて前記フレーム
が有声であるか無声であるかを判断する有声無声判別工
程と、前記有声無声判別工程において有声と判断されたフレー
ムに対して、前記音声波形のウェーブレット変換におけ
るローカルピークを求め、該ローカルピークに基づいて
ピッチマークを付与する付与工程とを備えることを特徴
とするピッチマーク付与装置における処理方法。
【請求項５】音声合成において、音声波形を所望のピ
ッチで接続するためのピッチマークを付与するピッチマ
ーク付与装置における処理方法であって、前記音声波形の一フレームを抽出し、該フレームにおけ
る該音声波形のウェーブレット変換後の波形のパワーを
算出するウェーブレット波形パワー計算工程と、前記音声波形の一フレームを抽出し、該フレームにおけ
る該音声波形のウェーブレット変換後の波形のゼロクロ
スを求めるウェーブレット波形ゼロクロス計算工程と、前記パワーと前記ゼロクロスとに基づいて前記フレーム
が有声であるか無声であるかを判断する有声無声判別工
程と、前記有声無声判別工程において有声と判断されたフレー
ムに対して、前記音声波形のウェーブレット変換におけ
るローカルピークを求め、該ローカルピークに基づいて
ピッチマークを付与する付与工程とを備えることを特徴
とするピッチマーク付与装置における処理方法。
【請求項６】前記有声無声判別工程は、所定のフレー
ムの前後のフレームの有声無声判別結果に基づいて該所
定のフレームの有声無声の判断を補正する判別結果補正
工程を更に備えることを特徴とする請求項４または５に
記載のピッチマーク付与装置における処理方法。
【請求項７】請求項４乃至６のいずれか１つに記載の
処理方法をコンピュータによって実現させるための制御
プログラムを格納した記憶媒体。
【請求項８】請求項４乃至６のいずれか１つに記載の
処理方法をコンピュータによって実現させるための制御
プログラム。