JP2003150181A - ピッチマーク付与装置および方法、ならびにプログラム - Google Patents

ピッチマーク付与装置および方法、ならびにプログラム

Info

Publication number
JP2003150181A
JP2003150181A JP2001350604A JP2001350604A JP2003150181A JP 2003150181 A JP2003150181 A JP 2003150181A JP 2001350604 A JP2001350604 A JP 2001350604A JP 2001350604 A JP2001350604 A JP 2001350604A JP 2003150181 A JP2003150181 A JP 2003150181A
Authority
JP
Japan
Prior art keywords
phoneme
wavelet
pitch mark
scale
waveform data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001350604A
Other languages
English (en)
Inventor
Yasuo Okuya
泰夫 奥谷
Shinji Hisamoto
慎二 久本
Mitsuru Otsuka
充 大塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2001350604A priority Critical patent/JP2003150181A/ja
Publication of JP2003150181A publication Critical patent/JP2003150181A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

(57)【要約】 【課題】 精度よくピッチマークを自動的に付与するこ
と。 【解決手段】 ウェーブレットのローカルピークの中か
ら声門閉鎖点を特定する処理において、パワー、ゼロク
ロス等の音声特徴量および音素ラベルを用いて、ローカ
ルピークを探すウェーブレットの基準スケールを決定す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声合成に利用さ
れる音声データベースの作成過程において、自動的にピ
ッチマークを付与する装置に関する。
【0002】
【従来の技術】近年の音声合成方式は、音声素片を1ピ
ッチ波形単位で複製、削除を行ないながら所望のピッチ
間隔で貼り合わせて編集し、それらの音声素片を接続す
る合成方式(PSOLA:ピッチ同期波形重畳法)が主
流となっている。この合成方式の場合、あらかじめデー
タベースに音声の最小繰り返し単位(ピッチ波形)ごと
にピッチマークを付与しておくことが一般的である。ピ
ッチマークの位置としては、ピッチ波形の声門閉鎖点と
する場合が多い。ピッチマークを正確に付与することは
音質を向上させるうえで非常に重要である。
【0003】また、ピッチマークの付与過程としては、
(1)コンピュータなどによる自動付与、(2)人手に
よる誤り修正、の順序となることが一般的である。よっ
て、自動付与の精度が、その後の人手による作業量の増
減に大きな影響を与える。
【0004】ピッチマークを自動的に付与する方法とし
ては、例えば、Shubha Kadambe, G.Faye Boudreaux-Bar
tels, ”Application of the Wavelet Transform for P
itch Detection of Speech Signals”, IEEE Transacti
ons on Information Theory, Vol38, No.2,pp.917-924,
1992 において、音声波形が声門閉鎖点において急峻に
変化することに着目して、音声波形のDyadic Wavelet変
換のローカルピークを抽出し、その中から声門閉鎖点を
推定する方法が提案されている。また、この方法を改良
したものが、特許第3093113号に開示されてい
る。
【0005】そして、これらウェーブレットを利用した
声門閉鎖点の抽出方法では、複数のスケールからなるウ
ェーブレットに局在する多数のローカルピーク位置の中
から、いかにして声門閉鎖点だけを選択するかがポイン
トとなる。
【0006】
【発明が解決しようとする課題】上記いずれの方式にお
いても、2つ以上のスケールのローカルピーク位置が一
致することを、声門閉鎖点であるための必要条件として
いる。確かに、2つ以上のローカルピーク位置が一致す
る場合は声門閉鎖点である可能性は高い。
【0007】しかしながら、この条件では厳すぎるため
に、逆に声門閉鎖点が特定されずにピッチマークの脱落
を生じやすくなるという問題がある。ピッチマークの脱
落は、ピッチマークが入りすぎる場合(過剰ピッチマー
ク)に比べて、その後の人手によるピッチマークの修正
作業量を増大させる。なぜなら、過剰ピッチマークは、
それを選択して削除すればよいのだが、欠落した個所に
ピッチマークを挿入するためには、波形を時間伸張して
表示し、注意深く場所を特定する必要があるからであ
る。
【0008】したがって、本発明の目的は、上記問題点
に鑑みてなされたものであり、精度よくピッチマークを
自動的に付与することである。
【0009】
【課題を解決するための手段】上記の目的を達成するた
めに、例えば本発明のピッチマーク付与装置は、以下の
構成を備える。すなわち、音声合成のためのデータベー
スとして蓄積される音素ラベリングされた音声波形デー
タに、声門閉鎖点に対応するピッチマークを付与するピ
ッチマーク付与装置であって、前記音声波形データに対
しウェーブレット変換を行う変換手段と、各スケールの
ウェーブレットについてローカルピークおよびその位置
を抽出する抽出手段と、前記音声波形データの音素ごと
に有声/無声を判別する判別手段と、有声音と判別され
た前記音素に係る前記各スケールのウェーブレットのゼ
ロクロスおよびパワーを計算する計算手段と、計算され
た前記ゼロクロス、パワー、および、当該音素に係る前
記各スケールのウェーブレットの前記ローカルピークに
基づいて声門閉鎖点を推定する推定手段と、を備えるこ
とを特徴とする。
【0010】
【発明の実施の形態】以下、図面を参照して本発明の好
適な実施形態について詳細に説明する。
【0011】図1は、実施形態におけるピッチマーク付
与装置のハードウエア構成を示すブロック図である。
【0012】同図において、101はブートプログラム
等を記憶するROM、102は本装置全体の制御処理を
つかさどる中央処理装置(CPU)、103は主記憶装
置として機能するRAMである。
【0013】また、104は外部記憶装置であり、図示
の如く、OS110の他、ピッチマークを付与するため
のピッチマーク付与プログラム111がインストールさ
れている。
【0014】そして、上記した各部101〜104は、
バス105に接続されている。
【0015】上記した構成はパーソナルコンピュータ等
のコンピュータ装置で実現されうる。なお、後ほど、実
施形態におけるピッチマーク付与処理をフローチャート
を用いて詳しく説明するが、そのフローチャートに対応
するプログラムが外部記憶装置104にインストールさ
れているピッチマーク付与プログラムであり、本装置の
電源投入後、RAM103にロードされ、CPU102
によって実行されるものである。
【0016】図2は、実施形態におけるピッチマーク付
与装置の機能構成を示すブロック図である。同図におけ
る各ブロックの機能概要を示すと、次のとおりである。
【0017】波形保持部201は、音声波形を保持す
る。ウェーブレット変換部202は、波形保持部201
が保持している音声波形データに対しウェーブレット変
換を行なう。ウェーブレット保持部203は、ウェーブ
レット変換部202で行われた変換結果を保持する。ロ
ーカルピーク抽出部204は、ウェーブレット保持部2
03が保持するウェーブレットからローカルピークを抽
出する。ローカルピーク保持部205は、ローカルピー
ク抽出部204で抽出されたローカルピークおよびその
位置を保持する。音素ラベル保持部206は、波形保持
部201に保持されている音声波形の音素情報およびそ
の時間情報を保持する。有声無声判別部207は、音素
ラベル、波形パワー、波形ゼロクロスの情報からその音
素が有声音であるか無声音を判別する。有声無声判別結
果保持部208は、有声無声判別部207で行われた判
別結果を保持する。ピッチマーク推定部209は、有声
音と判別された音素について、ローカルピーク保持部2
05が保持するローカルピーク情報およびその音素ラベ
ルを用いて、声門閉鎖点、すなわち、ピッチマーク位置
の推定を行なう。ピッチマーク保持部210は、ピッチ
マーク推定部209での推定結果であるピッチマークを
保持する。
【0018】このうち、ウェーブレット変換部202、
ローカルピーク抽出部204、有声無声判別部207、
および、ピッチマーク推定部209の機能はそれぞれ、
ピッチマーク付与プログラム111を構成するプログラ
ムモジュールとして実現される。また、波形保持部20
1、ウェーブレット保持部203、ローカルピーク保持
部205、有声無声判別結果保持部208、そして、ピ
ッチマーク保持部210はそれぞれ、外部記憶装置10
4によって実現されることになる。
【0019】図3は、実施形態におけるピッチマーク付
与処理の流れを示すフローチャートである。
【0020】まず、ステップS301で、ウェーブレッ
ト変換202により、波形保持部201が保持する音声
波形に対してウェーブレット変換を行なう。ここでは、
ウェーブレット関数として4階のカーディナルBスプラ
インの一次導関数を利用した、2進ウェーブレット変換
を行なう場合について説明する。4階のカーディナルB
スプライン関数の式を以下に示す。
【0021】
【0022】さらに、平滑化関数として、 θ(t) = N4(t) とすると、この平滑化関数の一次導関数は以下のように
なる。
【0023】
【0024】ここで、ウェーブレット関数を、
【0025】
【0026】とすると、t を時間軸(単位:秒)とみな
した場合1周期が1/1,024秒(1,024Hz)に相当する。
【0027】離散信号を x(n), (0≦n≦N)、サンプリン
グ周波数を fsとすると、ウェーブレット関数は下記の
ようになる。
【0028】
【0029】よって、離散信号に対する2進ウエーブレ
ット変換は、下記のように定義できる。
【0030】
【0031】式中1/2jはスケール(伸縮)をあらわす。
スケールj のとりうる範囲としては、人間の声の基本周
波数の変化範囲をカバーするに十分な範囲、例えば、サ
ンプリングレートが22kHzの場合の男性音声であれば2
〜4、女性音声であれば1〜3が適当である。
【0032】このようにして、求めた複数スケールのウ
ェーブレットをウェーブレット保持部203に保持し
て、ステップS302に進む。
【0033】ステップS302では、ウェーブレット保
持部203に保持されている各スケールのウェーブレッ
トそれぞれについて、ローカルピーク抽出部204にお
いてローカルピークを求め、その位置および大きさをロ
ーカルピーク保持部205に保持して、ステップS30
3に進む。ここでいうローカルピークとは、正の極大
値、負の極小値をさす。負の極小値とは、絶対値が局所
的に最大になる点を意味する。
【0034】さて、先に述べたとおり、各スケールのウ
ェーブレットに局在する多数のローカルピークの中か
ら、いかにして声門閉鎖点だけを選択するかがポイント
となる。従来は、以降の処理において、複数のスケール
のローカルピーク位置が一致するところを探索すること
で声門閉鎖点を特定することにしていた。しかし、この
方法ではピッチマークの脱落が生じやすくなるという問
題を抱えていた。
【0035】これに対し、本発明者は、所定の音声特徴
量を用いて精度よく声門閉鎖点を特定することに成功し
た。以下、説明する。
【0036】ステップS303以降は、音素ラベル保持
部206に保持されている音素ラベルを参照して、音素
ごとに順次処理が行なわれる。
【0037】ステップS303では、未処理の音素が存
在するかどうかを判定する。未処理の音素が存在しない
場合は、終了する。未処理の音素が存在する場合はステ
ップS304に進む。
【0038】ステップS304では、有声無声判別部2
07において、当該音素の有声無声判別を行なう。有声
無声判別には、例えば、波形のパワー、波形のゼロクロ
スなどの情報を用いるが、これについては後述する。有
声無声の判別結果を有声無声判別結果保持部208に保
持して、ステップS305に進む。
【0039】ステップS305では、当該音素が有声音
である否かを判定する。ここで、当該音素が有声音でな
い場合はステップS306に進み、当該音素が有声音で
あると判定された場合にはステップS307に進む。ス
テップS306では、音素ラベル保持部206の音素ラ
ベル情報から次の音素を設定してステップS303に戻
る。ステップS307では、音素のピッチマーク推定部
209において、ローカルピークの中からピッチマーク
を決定し、ピッチマーク保持部210に保持して、ステ
ップS306に戻る。このステップS307の詳細につ
いては後ほど説明する。
【0040】図4は、有声無声判別部207の詳細な機
能構成を示すブロック図である。
【0041】同図において、点線で囲まれた部分が有声
無声判別部207に相当する。各ブロックの機能概要は
次のとおりである。
【0042】波形パワー計算部401は、音素ラベルご
とにその音素区間における単位パワーを計算する。波形
パワー保持部402は、波形パワー計算部401での計
算結果を保持する。波形ゼロクロス計算部403は、音
素ラベルごとにその区間における単位ゼロクロスを計算
する。波形ゼロクロス保持部404は、波形ゼロクロス
計算部403での計算結果を保持する。判別ルール保持
部405は、有声無声を判別するためのルールを保持す
る。有声無声判別部406は、パワー、ゼロクロス、音
素ラベル情報を用いて、判別ルール保持部405が保持
するルールに従って音素の有声無声を判別し、判別結果
を有声無声判別結果保持部208に出力する。
【0043】図5は、図3におけるステップS304
の、有声無声判別処理の詳細な処理の流れを示すフロー
チャートである。なお、ここで示す有声/無声の判断基
準は一例であり、他の規則によって有声無声の判別を行
なってもよい。また、上記した処理においては有声無声
を判別するための適切なパワーとゼロクロスの閾値POW,
ZCRをあらかじめ予備実験などで求めておくこととした
がこれに限定されるものではない。
【0044】まず、ステップS501では、波形パワー
計算部401において、音素ラベル保持部206に保持
される音素の時間情報を用いて波形保持部201に保持
される音声波形の該当部分を抽出し、当該音素区間の単
位時間パワーPowを求める。単位時間パワーは、例え
ば、振幅の2乗和の平均で定義される。求めた単位時間
パワーを波形パワー保持部402に保持してステップS
502に進む。
【0045】ステップS502では、波形ゼロクロス計
算部403において、音素ラベル保持部206に保持さ
れる音素の時間情報を用いて波形保持部201に保持さ
れる音声波形の該当部分を抽出し、当該音素区間の単位
時間ゼロクロスZcrを求める。単位時間ゼロクロスは、
波形の振幅の正負反転回数から求める。求めた単位時間
ゼロクロスを波形ゼロクロス保持部404に保持して、
ステップS503に進む。
【0046】ステップS503では、音素ラベルと単位
時間パワーPowと単位時間ゼロクロスZcrの情報を用い
て、当該音素が有声音であるか無声音であるかを判別す
る。判別には、判別ルール保持部405が保持する判別
ルール(詳しくは後述)を用いる。そして、有声無声の
判別結果を有声無声判別結果保持部208に保持させ
て、このステップS304の処理を抜ける。
【0047】図6は、判別ルール保持部405に保持さ
れる有声無声判別ルールの一例を示すフローチャートで
ある。図中、POWとZCRはそれぞれ、パワーPowとゼロク
ロスZcrに対する所定のしきい値である。
【0048】まず、ステップS601では、PowがPOWよ
り小さく、かつ、ZcrがZCRより大きいか否かを判定す
る。ここで、この条件を満足する場合はステップS60
5に進み、それ以外の場合にはステップS602に進
む。
【0049】ステップS602では、ZcrがZCRの2倍よ
り小さいか否かを判定する。ZcrがZCRの2倍より小さけ
ればステップS603に進み、それ以外の場合はステッ
プS605に進む。
【0050】ステップS603では、音素ラベルが、p,
t,k,Q(無音)であるか否かを判定する。音素ラベル
が、p,t,k,Q(無音)の場合はステップS605に進
み、それ以外の場合はステップS604に進む。
【0051】ステップS604では、有声無声判別結果
保持部208にその音素が有声音であることを記録して
終了する。
【0052】ステップS605では、有声無声判別結果
保持部208にその音素が無声音であることを記録して
終了する。
【0053】図7および図8は、図3におけるステップ
S307のピッチマーク決定処理の流れを示すフローチ
ャートである。図7に示すフローチャートではピッチマ
ークを求める基準となるスケール(基準スケール)を決
定する。また、図8では基準スケールの各ローカルピー
クから処理を開始して、ピッチマークを選択、決定す
る。
【0054】まず、図7において、ステップS701
で、ウェーブレット保持部203が保持する各スケール
j (女性の場合1〜3)のウェーブレットについて、
当該音素区間の単位時間ゼロクロスzcr[j]および単位時
間パワーpwr[j]を計算する。
【0055】ステップS702では、ゼロクロスの値が
一番小さいスケールを基準スケール候補jbase とする。
通常は最大スケールのゼロクロスが一番小さくなること
が多い。
【0056】ステップS703では、jbaseが最小スケ
ールjmin(女声の場合は1、男声の場合は2)と等しい
か、または、パワーに関する次式の条件を満足するか否
かを判定する。
【0057】0.2 * pwr [jbase-1] < pwr [jbase]
【0058】上記判定条件を満たす場合にはステップS
705に進み、そうでなければステップS704に進
む。なお、パワーに関するルールは一例にすぎず、これ
に類する別のルールであってもよいものとする。
【0059】ステップS704では、ゼロクロスに関す
る次式の条件を満足するか否かを判定する。
【0060】| zcr[jbase-1] - zcr[jbase] | < | zcr
[jbase-1] - 2 * zcr[jbase] |
【0061】上記判定条件を満たす場合はステップS7
06に進み、それ以外の場合はステップS705に進
む。なお、ゼロクロスに関するルールは一例にすぎず、
これに類する別のルールであってもよいものとする。
【0062】ステップS705では、jbase をピッチマ
ーク決定のための基準スケールとして設定し、その後、
図8のステップS801に進む。
【0063】ステップS706では、jbase-1 を基準ス
ケールとして設定し、その後、図8のステップS801
に進む。
【0064】続いて、図8のステップS801で、基準
スケールjbaseのウェーブレットのあるローカルピークp
eakN1をピッチマーク候補として設定する。
【0065】ステップS802では、当該音素が母音で
あるか否かを判定し、母音である場合はステップS80
3に進む。それ以外の場合は、ステップS806に進
む。
【0066】ステップS803では、最小スケールjmin
のウェーブレットに関して、peakN1に対応する正のロー
カルピークpeakN2を決定する。具体的を、図9の模式図
を用いて説明する。
【0067】図9は、上記ステップS803におけるpe
akN2の探索処理を説明する模式図である。上下の波形
は、それぞれ、スケールjbaseのウェーブレットとjmin
のウェーブレットをあらわしている。
【0068】例えば、スケールjmin のウェーブレット
に関して、peakN1の位置と同じ位置から逆方向(図面に
おいて左方向)にウェーブレットの値が負になるまでの
間、正のピークで最大のピークを探索し、最大のピーク
をpeakN2とする。
【0069】説明を図8のフローチャートに戻す。
【0070】ステップS804では、ピーク値がpeakN1
<peakN2であるかどうかを判定し、yesの場合はステッ
プS805に進み、noの場合はステップS806に進
む。ここで、該当するpeakN2がステップS803で見つ
からなかった場合もステップS806に進む。
【0071】ステップS805では、peakN2をピッチマ
ーク候補として設定する。ステップS806では、当該
音素が a であるか否かを判定する。当該音素がaの場
合はステップS807に進み、それ以外の場合はステッ
プS808に進む。
【0072】ステップS807では、最小スケールjmin
のウェーブレットに関して、peakN1に対応する正のロー
カルピークpeakN2を決定する際に、2度負になるまでの
間で最大となる正のローカルピークを探索しpeakN2とす
る。peakN2が見つかった場合は、それをピッチマーク候
補とする。そして、ステップS808で、ピッチマーク
候補をピッチマークとし、ピッチマーク保持部210に
保持して終了する。波形との対応関係を保持するピッチ
マークのデータ構造の表現方法としては、波形と同じポ
イント数のデータでピッチマークが立つ位置のみ値が1
で他は0とする方法、ピッチマークが立つ位置の時間情
報をすべて保持する方法などがある。前者の方法では、
さらにランレングス符号化などによりデータの圧縮が可
能である。言うまでもないことではあるが、ピッチマー
クのデータ構造としてはこれ以外のものであってもよ
い。以上の処理によってピッチマーク保持部210にピ
ッチマークを保持することで、波形保持部201に保持
されているデータベースとしての音声波形にピッチマー
クが付与されたことになる。
【0073】以上説明したように、実施形態によれば、
パワー、ゼロクロス等の音声特徴量および音素ラベルを
用いて、ピッチマーク脱落の生じにくい声門閉鎖点の特
定処理を実現することができた。
【0074】
【他の実施形態】なお、上述した実施形態においては、
各部を同一の計算機上で構成する場合について説明した
が、これに限定されるものではなく、例えばネットワー
ク上に分散した計算機や処理装置などに分かれて各部を
構成してもよい。
【0075】以上、本発明の実施形態を詳述したが、本
発明は、複数の機器(例えばホストコンピュータ、イン
タフェイス機器、リーダ、プリンタ等)から構成される
システムに適用しても、1つの機器からなる装置(例え
ば、複写機、ファクシミリ装置等)に適用してもよい。
【0076】なお、本発明は、前述した実施形態の機能
を実現するソフトウェアのプログラム(図3ならびに図
5〜図8に示すフローチャートに対応したプログラム)
を、システムあるいは装置に直接あるいは遠隔から供給
し、そのシステムあるいは装置のコンピュータがその供
給されたプログラムを読み出して実行することによって
も達成される場合を含む。
【0077】したがって、本発明の機能処理をコンピュ
ータで実現するために、そのコンピュータにインストー
ルされるプログラムコード自体も本発明を実現するもの
である。つまり、本発明の特許請求の範囲には、本発明
の機能処理を実現するためのコンピュータプログラム自
体も含まれる。
【0078】その場合、プログラムの機能を有していれ
ば、オブジェクトコード、インタプリタにより実行され
るプログラム、OSに供給するスクリプトデータ等、プ
ログラムの形態を問わない。
【0079】プログラムを供給するための記憶媒体とし
ては、例えば、フロッピー(登録商標)ディスク、光デ
ィスク(CD-ROM、CD-R、CD-RW、DVD等)、光磁気ディス
ク、磁気テープ、メモリカード等がある。
【0080】その他、プログラムの供給方法としては、
インターネットを介して本発明のプログラムをファイル
転送によって取得する態様も含まれる。
【0081】また、本発明のプログラムを暗号化してCD
-ROM等の記憶媒体に格納してユーザに配布し、所定の条
件をクリアしたユーザに対し、インターネットを介して
暗号化を解く鍵情報を取得させ、その鍵情報を使用する
ことで暗号化されたプログラムを実行してコンピュータ
にインストールさせて実現することも可能である。
【0082】また、コンピュータが、読み出したプログ
ラムを実行することによって、前述した実施形態の機能
が実現される他、そのプログラムの指示に基づき、コン
ピュータ上で稼働しているOS等が実際の処理の一部ま
たは全部を行い、その処理によって前述した実施形態の
機能が実現され得る。
【0083】さらに、記憶媒体から読み出されたプログ
ラムが、コンピュータに挿入された機能拡張ボードやコ
ンピュータに接続された機能拡張ユニットに備わるメモ
リに書き込まれた後、そのプログラムの指示に基づき、
その機能拡張ボードや機能拡張ユニットに備わるCPU
等が実際の処理の一部または全部を行い、その処理によ
っても前述した実施形態の機能が実現される。
【0084】
【発明の効果】以上説明したように、本発明によれば、
ウェーブレットおよび音素ラベル、波形のパワーやゼロ
クロスを用いることにより高精度のピッチマークを付与
することが可能なピッチマーク付与装置およびその制御
方法ならびにその制御方法を実現するプログラムを記憶
した記憶媒体を提供することができる。
【図面の簡単な説明】
【図1】実施形態におけるピッチマーク付与装置のハー
ドウエア構成を示すブロック図である。
【図2】実施形態におけるピッチマーク付与装置の機能
構成を示すブロック図である。
【図3】実施形態におけるピッチマーク付与処理の流れ
を示すフローチャートである。
【図4】実施形態における有声無声判別部の詳細な機能
構成を示すブロック図である。
【図5】実施形態における有声無声判別処理の詳細な処
理の流れを示すフローチャートである。
【図6】実施形態における有声無声判別ルールの一例を
示すフローチャートである。
【図7】実施形態におけるピッチマーク決定処理の流れ
を示すフローチャートである。
【図8】実施形態におけるピッチマーク決定処理の流れ
を示すフローチャートである。
【図9】実施形態におけるpeakN2の探索処理を説明する
模式図である。
フロントページの続き (72)発明者 大塚 充 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 音声合成のためのデータベースとして蓄
    積される音素ラベリングされた音声波形データに、声門
    閉鎖点に対応するピッチマークを付与するピッチマーク
    付与装置であって、 前記音声波形データに対しウェーブレット変換を行う変
    換手段と、 各スケールのウェーブレットについてローカルピークお
    よびその位置を抽出する抽出手段と、 前記音声波形データの音素ごとに有声/無声を判別する
    判別手段と、 有声音と判別された前記音素に係る前記各スケールのウ
    ェーブレットのゼロクロスおよびパワーを計算する計算
    手段と、 計算された前記ゼロクロス、パワー、および、当該音素
    に係る前記各スケールのウェーブレットの前記ローカル
    ピークに基づいて声門閉鎖点を推定する推定手段と、 を備えることを特徴とするピッチマーク付与装置。
  2. 【請求項2】 前記推定手段は、 前記計算手段で計算された前記ゼロクロスと前記パワー
    とに基づいて前記各スケールから基準スケールを決定す
    る決定手段を含み、 決定された前記基準スケールのウェーブレットにおける
    ローカルピークの位置を声門閉鎖点の候補とすることを
    特徴とする請求項1に記載のピッチマーク付与装置。
  3. 【請求項3】 音声合成のためのデータベースとして蓄
    積される音素ラベリングされた音声波形データに、声門
    閉鎖点に対応するピッチマークを付与するピッチマーク
    付与方法であって、 前記音声波形データに対しウェーブレット変換を行う変
    換ステップと、 各スケールのウェーブレットについてローカルピークお
    よびその位置を抽出する抽出ステップと、 前記音声波形データの音素ごとに有声/無声を判別する
    判別ステップと、 有声音と判別された前記音素について、その音素に係る
    前記各スケールのウェーブレットのゼロクロス、パワ
    ー、および、前記ローカルピークに基づいて声門閉鎖点
    を推定する推定ステップと、 を有することを特徴とするピッチマーク付与方法。
  4. 【請求項4】 前記推定ステップは、 前記ゼロクロスと前記パワーとに基づいて前記各スケー
    ルから基準スケールを決定する決定ステップを含み、 決定された前記基準スケールのウェーブレットにおける
    ローカルピークの位置を声門閉鎖点の候補とすることを
    特徴とする請求項3に記載のピッチマーク付与方法。
  5. 【請求項5】 音声合成のために音素ラベリングされた
    音声波形データを記憶するコンピュータに、当該音声波
    形データに声門閉鎖点に対応するピッチマークを付与さ
    せるためのプログラムであって、 前記音声波形データに対しウェーブレット変換を行う変
    換ステップと、 各スケールのウェーブレットについてローカルピークお
    よびその位置を抽出する抽出ステップと、 前記音声波形データの音素ごとに有声/無声を判別する
    判別ステップと、 有声音と判別された前記音素について、その音素に係る
    前記各スケールのウェーブレットのゼロクロス、パワ
    ー、および、前記ローカルピークに基づいて声門閉鎖点
    を推定する推定ステップと、 を実行させるプログラム。
JP2001350604A 2001-11-15 2001-11-15 ピッチマーク付与装置および方法、ならびにプログラム Withdrawn JP2003150181A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001350604A JP2003150181A (ja) 2001-11-15 2001-11-15 ピッチマーク付与装置および方法、ならびにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001350604A JP2003150181A (ja) 2001-11-15 2001-11-15 ピッチマーク付与装置および方法、ならびにプログラム

Publications (1)

Publication Number Publication Date
JP2003150181A true JP2003150181A (ja) 2003-05-23

Family

ID=19163073

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001350604A Withdrawn JP2003150181A (ja) 2001-11-15 2001-11-15 ピッチマーク付与装置および方法、ならびにプログラム

Country Status (1)

Country Link
JP (1) JP2003150181A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007068847A (ja) * 2005-09-08 2007-03-22 Advanced Telecommunication Research Institute International 声門閉鎖区間検出装置および声門閉鎖区間検出方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007068847A (ja) * 2005-09-08 2007-03-22 Advanced Telecommunication Research Institute International 声門閉鎖区間検出装置および声門閉鎖区間検出方法
JP4568826B2 (ja) * 2005-09-08 2010-10-27 株式会社国際電気通信基礎技術研究所 声門閉鎖区間検出装置および声門閉鎖区間検出プログラム

Similar Documents

Publication Publication Date Title
US10074363B2 (en) Method and apparatus for keyword speech recognition
JP6777768B2 (ja) 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム
US7177810B2 (en) Method and apparatus for performing prosody-based endpointing of a speech signal
US8626510B2 (en) Speech synthesizing device, computer program product, and method
CN105654940B (zh) 一种语音合成方法和装置
JP2003150187A (ja) スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法
JP2001100781A (ja) 音声処理装置および音声処理方法、並びに記録媒体
JP2003518266A (ja) 音声認識システムのテキスト編集用音声再生
JPH0922297A (ja) 音声‐テキスト変換のための方法および装置
JP2002132287A (ja) 音声収録方法および音声収録装置および記憶媒体
CN111599339B (zh) 具有高自然度的语音拼接合成方法、系统、设备及介质
CN113658577A (zh) 一种语音合成模型训练方法、音频生成方法、设备及介质
CN113327574A (zh) 一种语音合成方法、装置、计算机设备和存储介质
JP4344418B2 (ja) 音声要約装置及び音声要約プログラムを記録した記録媒体
Zhang et al. Anchoring hypothesis and its application to tone recognition of Chinese continuous speech
JP5334716B2 (ja) 文字情報提示制御装置及びプログラム
JP2003150181A (ja) ピッチマーク付与装置および方法、ならびにプログラム
CN115527551A (zh) 语音标注质量评价方法、装置、电子设备和存储介质
JP2003122380A (ja) ピッチマーク付与装置およびその処理方法ならびに記憶媒体
Laprie et al. Cooperation of regularization and speech heuristics to control automatic formant tracking
CN115700871A (zh) 模型训练和语音合成方法、装置、设备及介质
EP0987681B1 (en) Speech recognition method and apparatus
Martens et al. Word Segmentation in the Spoken Dutch Corpus.
JP7035476B2 (ja) 音声処理プログラム、音声処理装置、及び音声処理方法
CN117275458B (zh) 智能客服的语音生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050201