JP2003122380A - ピッチマーク付与装置およびその処理方法ならびに記憶媒体 - Google Patents

ピッチマーク付与装置およびその処理方法ならびに記憶媒体

Info

Publication number
JP2003122380A
JP2003122380A JP2001311953A JP2001311953A JP2003122380A JP 2003122380 A JP2003122380 A JP 2003122380A JP 2001311953 A JP2001311953 A JP 2001311953A JP 2001311953 A JP2001311953 A JP 2001311953A JP 2003122380 A JP2003122380 A JP 2003122380A
Authority
JP
Japan
Prior art keywords
waveform
voiced
frame
voice
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001311953A
Other languages
English (en)
Inventor
Shinji Hisamoto
慎二 久本
Yasuo Okuya
泰夫 奥谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2001311953A priority Critical patent/JP2003122380A/ja
Publication of JP2003122380A publication Critical patent/JP2003122380A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Auxiliary Devices For Music (AREA)

Abstract

(57)【要約】 【課題】 一定幅のフレームごと有声無声判別を行なう
ことで精度良く自動的にピッチマークを付与する装置を
提供する。 【解決手段】 音声合成において、音声波形を所望のピ
ッチで接続するためのピッチマークを付与するピッチマ
ーク付与装置であって、前記音声波形の一フレームを抽
出し、該フレームにおける該音声波形のパワーを算出す
る波形パワー計算部401と、前記音声波形の一フレー
ムを抽出し、該フレームにおける該音声波形のゼロクロ
スを求める波形ゼロクロス計算部403と、前記パワー
と前記ゼロクロスとに基づいて前記フレームが有声であ
るか無声であるかを判断する有声無声判別部406と、
前記有声無声判別部406において有声と判断されたフ
レームに対して、前記音声波形のウェーブレット変換に
おけるローカルピークを求め、該ローカルピークに基づ
いてピッチマークを付与する付与手段とを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声合成で利用さ
れる音声データベースの作成過程において、自動的にピ
ッチマークを付与することができる装置に関する発明で
ある。
【0002】
【従来の技術】近年の音声合成方式では、音声素片を1
ピッチ波形単位で複製、削除を行ないながら所望のピッ
チ間隔で貼り合わせて編集し、それらの音声素片を接続
する合成方式(PSOLA:ピッチ同期波形重畳法)が
主流となっている。この合成方式の場合、あらかじめデ
ータベースに音声の最小繰り返し単位(ピッチ波形)ご
とにピッチマークを付与しておくことが一般的である。
ピッチマークの位置としては、ピッチ波形の声門閉鎖点
とする場合が多い。このピッチマークを正確に付与する
ことは音質を向上させるうえで非常に重要である。
【0003】また、ピッチマークの付与過程としては、
(1)コンピュータなどによる自動付与、(2)人手に
よる誤り修正、の順序となることが一般的である。そし
て、自動付与の精度が、その後の人手による作業量の増
減に大きな影響を与えることになる。
【0004】ピッチマークを自動的に付与する方法とし
ては、Shubha Kadambe、 G. Faye Boudreaux-Bartels、
"Application of the Wavelet Transform for Pitch D
etection of Speech Signals"、 IEEE Transactions on
Information Theory、 Vol38、 No.2、pp.917-924、 1
992 において、音声波形が声門閉鎖点において急峻に変
化することに着目して、音声波形のDyadic Wavelet変換
のローカルピークを抽出し、その中から声門閉鎖点を推
定する方法が提案されている。また、この方法を改良し
たものとして、特許第3093113号(出願人:日本
アイ・ビー・エム株式会社)によるものが提案されてい
る。
【0005】そして、これらウェーブレットを利用した
声門閉鎖点の抽出方法では、複数のスケールからなるウ
ェーブレットに局在する多数のローカルピークの中から
いかにして声門閉鎖点だけを選択するかがポイントとな
る。
【0006】また、ウェーブレットのほかに音素ラベル
や波形のゼロクロス、パワーなどの情報を総合的に用い
ることによって、精度良く自動的にピッチマークを付与
する装置およびその方法が提案されている。
【0007】
【発明が解決しようとする課題】しかし上記ウェーブレ
ットのみを利用する2方式は、2つ以上のスケールのロ
ーカルピーク位置が一致することを声門閉鎖点であるた
めの必要条件としている。確かに2つ以上のローカルピ
ーク位置が一致する場合は、声門閉鎖点である可能性は
高い。しかしながら、この条件はかなり厳しい条件であ
るため、逆にピッチマーク(以下、声門閉鎖点の位置を
ピッチマークと呼ぶ)の脱落を生じやすくなる。
【0008】また、ウェーブレットのほかに音素ラベル
や波形のゼロクロス、パワーなどの情報を用いた上記方
式は、ピッチマークを付与する区間と付与しない区間、
すなわち有声区間と無声区間の判別を音素ラベルにより
音素単位で行なっている。そのため、音素単位内で有声
区間と無声区間が共存する場合に適切なピッチマークが
付与できず、音質の劣化を生じる。
【0009】本発明は上記課題に鑑みてなされたもの
で、有声無声判別に音素ラベルを用いず、一定幅のフレ
ームごとに波形のゼロクロスとパワーを入力とした統計
的手法である判別分析法を用いて有声無声判別を行なう
ことで精度良く自動的にピッチマークを付与する装置お
よびその処理方法ならびにその処理方法を実現するプロ
グラムを記憶した記憶媒体を提供することを目的とす
る。
【0010】
【課題を解決するための手段】かかる課題を解決するた
め、例えば本発明のピッチマーク付与装置は以下の構成
を備える。すなわち、音声合成において、音声波形を所
望のピッチで接続するためのピッチマークを付与するピ
ッチマーク付与装置であって、前記音声波形の一フレー
ムを抽出し、該フレームにおける該音声波形のパワーを
算出する音声波形パワー計算手段と、前記音声波形の一
フレームを抽出し、該フレームにおける該音声波形のゼ
ロクロスを求める音声波形ゼロクロス計算手段と、前記
パワーと前記ゼロクロスとに基づいて前記フレームが有
声であるか無声であるかを判断する有声無声判別手段
と、前記有声無声判別手段において有声と判断されたフ
レームに対して、前記音声波形のウェーブレット変換に
おけるローカルピークを求め、該ローカルピークに基づ
いてピッチマークを付与する付与手段とを備える。
【0011】
【発明の実施の形態】以下、図面を参照して本発明の好
適な実施形態を詳細に説明する。
【0012】(第1の実施形態)図1は、本実施形態に
おけるピッチマーク付与装置のハードウエア構成を示す
ブロック図である。なお、本実施形態では、一般的なパ
ーソナルコンピュータをピッチマーク付与装置として用
いる場合について説明するが、本発明は専用のピッチマ
ーク付与装置であっても、また他の形態の装置であって
もよい。
【0013】図1において、101は制御メモリ(RO
M)、102は中央処理装置、103はメモリ(RA
M)、104は外部記憶装置、105はバスである。本
実施形態のピッチマーク付与装置を実現するための制御
プログラムやその制御プログラムで用いるデータは、制
御メモリ101に記憶される。これらの制御プログラム
やデータは、中央処理装置102の制御のもと、バス1
05を通じて適宜メモリ103に取り込まれ、中央処理
装置102によって実行される。
【0014】図2は、本実施形態におけるピッチマーク
付与装置のモジュール構成を示すブロック図である。図
2において、波形保持部201は、音声波形を保持して
いるものとする。ウェーブレット変換部202は、波形
保持部201が保持する音声波形データに対しウェーブ
レット変換を行ない、変換結果をウェーブレット保持部
203に保持する。ローカルピーク抽出部204は、ウ
ェーブレット保持部203が保持するウェーブレットか
らローカルピークを求め、ローカルピークの位置をロー
カルピーク保持部205に保持する。音素ラベル保持部
206は、波形保持部201に保持されている音声波形
の音素情報とその時間情報を保持する。有声無声判別部
207は、波形パワー、波形ゼロクロスの情報からある
区間が有声音であるか無声音を判別する。有声無声判別
結果保持部208は、判別結果を保持する。ピッチマー
ク推定部209は、有声区間と判別された区間につい
て、ローカルピーク保持部205が保持するローカルピ
ーク情報やその音素ラベルを用いて、声門閉鎖点すなわ
ちピッチマークの推定を行なう。ピッチマーク保持部2
14は、推定結果であるピッチマークを保持する。
【0015】図3は、本実施形態におけるピッチマーク
付与装置の処理の流れを示すフローチャートである。
【0016】ステップS301では、波形保持部201
が保持する音声波形に対してウェーブレット変換を行な
う。本実施形態では、2進ウェーブレット変換を用いた
場合について説明するものとする。2進ウェーブレット
変換の一般式を下記に示す。
【0017】
【数1】
【0018】上式中、bはトランスレート(シフト)、1
/2jはスケール(伸縮)をあらわす。また、Ψ(ω)はマ
ザーウェーブレットをあらわす。スケールjのとりうる
範囲としては、人間の基本周波数の変化範囲をカバーす
るに十分な範囲、例えば、サンプリングレートが22k
Hzの場合の男性音声であれば2〜4、女性であれば1
〜3が適当である。
【0019】このようにして、求めた複数スケールのウ
ェーブレットをウェーブレット保持部203に保持し
て、ステップS302に移る。
【0020】ステップS302では、ウェーブレット保
持部203に保持されている各スケールのウェーブレッ
トそれぞれについて、ローカルピーク抽出部204がロ
ーカルピークを求め、その位置と大きさをローカルピー
ク保持部205に保持してステップS303に移る。こ
こでいうローカルピークとは、正の極大値、負の極小値
をさす。負の極小値とは、絶対値が局所的に最大になる
点を意味している。ステップS303では、有声無声判
別部207が一定幅のフレームごとに有声無声判別を行
なう。有声無声判別には、波形のパワー、波形のゼロク
ロスなどの情報を用いるが、これについては図4、5で
詳細に記述する。有声無声の判別結果を有声無声判別結
果保持部208に保持して、ステップS304に移る。
【0021】ステップS304以降は、有声無声判別結
果保持部208に保持されている有声無声区間判別結果
を参照して、連続する有声フレームまたは連続する無声
フレームを一区間として、区間ごとに順次処理が行われ
る。ステップS304では、未処理の区間が存在するか
どうかを判定する。未処理の区間が存在しない場合は、
終了する。未処理の区間が存在する場合は、ステップS
305に移る。ステップS305では、有声無声判別部
207が当該区間の有声無声判別を行なう。ステップS
305では、当該区間が有声区間でない場合は、ステッ
プS306に移る。有声区間の場合は、ステップS30
7に移る。ステップS306では、有声無声判別結果保
持部206から次の区間を設定してステップS304に
移る。
【0022】ステップS307では、ピッチマーク推定
部209が、ローカルピークの中からピッチマークを決
定し、ピッチマーク保持部210に保持して、ステップ
S306に戻る。ステップS307の詳細については、
図6〜図8で説明する。
【0023】図4は、本実施形態の図3におけるステッ
プS303の詳細なモジュール構成を示すブロック図で
ある。図4において、波形保持部201、有声無声判別
結果保持部208は、図2に記載したものであり、点線
で囲まれた部分が図2記載の有声無声判別部207に相
当する。波形パワー計算部401は、一定幅に決められ
たフレームごとにパワーを計算し、波形パワー保持部4
02は、その計算結果を保持する。波形ゼロクロス計算
部403は、フレームごとにゼロクロスを計算し、波形
ゼロクロス保持部404は、その計算結果を保持する。
判別ルール保持部405は、有声無声を判別するための
ルールを保持する。有声無声判別部406は、パワー、
ゼロクロスを用いて、判別ルール保持部405が保持す
るルールに従ってフレームの有声無声を判別し、判別結
果を有声無声判別結果保持部208に保持する。
【0024】図5は、本実施形態の図3におけるステッ
プS303の詳細な処理の流れを示すフローチャートで
ある。なお、図4で示した有声、無声の判断基準は一例
であり、他の規則によって有声無声の判別を行なっても
よい。
【0025】ステップS501では、図4記載の波形パ
ワー計算部401が、波形保持部201の保持する音声
波形の一フレーム分を抽出し、当該フレームのパワーを
求める。一フレームの幅は、女性ならば5msec、男性な
らば10msec程度が好ましい。求めたパワーを波形パワ
ー保持部402に保持してステップS502に移る。
【0026】ステップS502では、図4記載の波形ゼ
ロクロス計算部403が、波形保持部201の保持する
音声波形の一フレーム分を抽出し、当該フレームのゼロ
クロスを求める。ゼロクロスは、波形の振幅の正負反転
回数から求める。求めたゼロクロスを波形ゼロクロス保
持部404に保持して、ステップS503に移る。
【0027】ステップS503では、パワーとゼロクロ
スの情報を使って、当該フレームが有声フレームである
か無声フレームであるかを統計的手法である判別分析に
より判別する。判別分析法については、脇本和昌、田中
豊「多変量統計解析法」現代数学社、pp101-136を参照
されたい。
【0028】ステップS504では、判別分析により有
声フレームと判別されたらステップS505に移り、無
声フレームと判別されたらステップS507に移る。ス
テップS505では、図2記載の有声無声判別結果保持
部208にそのフレームが有声フレームであることを記
録してステップS506に移る。ステップS505で
は、図2記載の有声無声判別結果保持部208にそのフ
レームが無声フレームであることを記録してステップS
506に移る。
【0029】ステップS506では、判別する次のフレ
ームがあればステップS508に移り、なければ終了す
る。ステップS508では、波形保持部201の保持す
る次のフレームの音声波形を設定してステップS501
に移る。
【0030】図6と図7は、本実施形態の図3における
ステップS307のピッチマーク決定処理の流れを示し
たフローチャートである。図6ではピッチマークを決め
るウェーブレットの基準スケールを決定する処理の流れ
を示す。また、図7では基準スケールの各ローカルピー
クから処理を開始して、ピッチマークを選択、決定する
処理の流れを示す。
【0031】図6において、ステップS601では、図
2記載のウェーブレット保持部203が保持する各スケ
ールj(女性の場合1〜3)のウェーブレットについて、
当該区間に対応する音素情報と時間情報を図2記載の音
素ラベル保持部206から抽出し、当該音素における単
位時間ゼロクロスzcr[j]と単位時間パワーpwr[j]を計算
し、ステップS602に移る。
【0032】ステップS602では、ゼロクロスの値が
一番小さいスケールを基準スケール候補jbaseとして保
持し、ステップS603に移る。通常は最大スケールの
ゼロクロスが一番小さくなることが多い。ステップS6
03では、jbaseが最小スケールjmin(女性の場合は
1)と等しい場合もしくは、パワーに関する次式の条件
を満足する場合にステップS605に移る。0.2 * pwr
[jbase-1] &lt pwr[jbase]それ以外の場合は、ステップ
S604に移る。ステップS604では、ゼロクロスに
関する次式の条件を満足する場合にステップS606に
移り、それ以外の場合はステップS605に移る。| zc
r[jbase-1] - zcr[jbase] | &lt | zcr[jbase-1] - 2 *
zcr[jbase] |ステップS605では、jbaseをピッチマ
ーク決定のための基準スケールとして、終了する。ステ
ップS606では、jbase-1を基準スケールとして終了
する。
【0033】図7は、基準スケールjbaseのウェーブレ
ットに関する正のローカルピーク集合に含まれる個々の
ローカルピークの処理を示したフローチャートである。
ステップS701では、基準スケールjbaseのウェーブ
レットのあるローカルピークpeakN1をピッチマーク候補
として、ステップS702に移る。ステップS702で
は、当該音素が母音の場合はステップS703に移る。
それ以外の場合は、ステップS706に移る。
【0034】ステップS703では、最小スケールjmin
のウェーブレットに関して、peakN1に対応する正のロー
カルピークpeakN2を決定し、ステップS704に移る。
peakN1に対応するpeakN2の決定方法について補足する。
スケールjminのウェーブレットに関して、peakN1の位置
と同じ位置から逆方向にウェーブレットの値が負になる
までの間、正のピークで最大のピークを探索し、最大の
ピークをpeakN2とする。
【0035】ステップS704では、peakN1とpeakN2の
ピーク値を比較し、peakN1よりもpeakN2が大きい場合は
ステップS705に移り、それ以外の場合はステップS
706に移る。該当するpeakN2がステップS703で見
つからなかった場合もステップS706に移る。ステッ
プS705では、peakN2をピッチマーク候補として、ス
テップS706に移る。ステップS706では、当該音
素がaの場合はステップS707に移り、それ以外の場
合はステップS708に移る。
【0036】ステップS707では、最小スケールjmin
のウェーブレットに関して、peakN1に対応する正のロー
カルピークpeakN2を決定する際に、2度負になるまでの
間で最大となる正のローカルピークを探索しpeakN2とす
る。peakN2が見つかった場合は、それをピッチマーク候
補として、ステップS708に移る。ステップS708
では、ピッチマーク候補をピッチマークとし、図2記載
のピッチマーク保持部210に保持して終了する。
【0037】図8は、図7記載のステップS703にお
けるpeakN2の探索処理の模式図である。上下の波形は、
それぞれ、スケールjbaseのウェーブレットとjminのウ
ェーブレットをあらわしている。
【0038】(第2の実施形態)上記実施形態において
は、有声無声判別部は判別分析による結果をそのままフ
レームの有声無声判別結果としたが、有声フレームと判
別された場合でも、当該フレームの前後のフレームがど
ちらも無声フレームであれば無声フレームとして判別し
(判別結果を補正し)、逆に、無声フレームと判別され
た場合でも、当該フレームの前後のフレームがどちらも
有声フレームであれば有声フレームとして判別する(判
別結果を補正する)工程を備えていてもよい。
【0039】(第3の実施形態)上記実施形態において
は、有声無声判別部は音声波形の波形パワー、波形ゼロ
クロスを使って判別分析する場合を説明したが、音声波
形をウェーブレット変換し、ウェーブレット変換された
波形の波形パワー、波形ゼロクロスを使って判別分析を
行なってもよい。
【0040】(第4の実施形態)上記実施形態において
は、各部を同一の計算機上で構成する場合について説明
したが、これに限定されるものではなく、ネットワーク
上に分散した計算機や処理装置などに分かれて各部を構
成してもよい。
【0041】(第5の実施形態)上記実施形態において
は、プログラムを制御メモリ(ROM)に保持する場合につ
いて説明したが、これに限定されるものではなく、外部
記憶など任意の記憶媒体を用いて実現してもよい。ま
た、同様の動作をする回路で実現してもよい。
【0042】(第6の実施形態)なお、本発明は、複数
の機器から構成されるシステムに適用しても、1つの機
器からなる装置に適用してもよい。前述した実施形態の
機能を実現するソフトウェアのプログラムコードを記録
した記録媒体を、システムあるいは装置に供給し、その
システムあるいは装置のコンピュータ(またはCPUや
MPU)が記録媒体に格納されたプログラムコードを読
み出し実行することによっても、達成されることはいう
までもない。
【0043】この場合、記録媒体から読み出されたプロ
グラムコード自体が前述した実施形態の機能を実現する
ことになり、そのプログラムコードを記録した記録媒体
は本発明を構成することになる。
【0044】(第7の実施形態)プログラムコードを供
給するための記録媒体としては、例えば、フロッピー
(登録商標)ディスク、ハードディスク、光ディスク、
光磁気ディスク、CD−ROM、CD−R、磁気テー
プ、不揮発性のメモリカード、ROMなどを用いること
ができる。
【0045】(第8の実施形態)また、コンピュータが
読み出したプログラムコードを実行することにより、前
述した実施形態の機能が実現されるだけでなく、そのプ
ログラムコードの指示に基づき、コンピュータ上で稼働
しているOSなどが実際の処理の一部または全部を行
い、その処理によって前述した実施形態の機能が実現さ
れる場合も含まれることはいうまでもない。
【0046】(第9の実施形態)更に、記録媒体から読
み出されたプログラムコードが、コンピュータに挿入さ
れた機能拡張ボードやコンピュータに接続された機能拡
張ユニットに備わるメモリに書き込まれた後、そのプロ
グラムコードの指示に基づき、その機能拡張ボードや機
能拡張ユニットに備わるCPUなどが実際の処理の一部
または全部を行い、その処理によって前述した実施形態
の機能が実現される場合も含まれることはいうまでもな
い。
【0047】
【発明の効果】以上説明したように、本発明によれば、
ウェーブレットおよび波形のパワーやゼロクロスを用
い、統計的手法である判別分析を使って有声無声判別を
行なうことにより高精度のピッチマークを付与すること
が可能なピッチマーク付与装置およびその処理方法なら
びにその処理方法を実現するプログラムを記憶した記憶
媒体を提供することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態にかかるピッチマーク
付与装置のハードウエア構成を示すブロック図である。
【図2】本発明の第1の実施形態にかかるピッチマーク
付与装置のモジュール構成を示すブロック図である。
【図3】本発明の第1の実施形態にかかるピッチマーク
付与装置の処理の流れを示すフローチャートである。
【図4】本発明の第1の実施形態にかかるピッチマーク
付与装置の詳細なモジュール構成を示すブロック図であ
る。
【図5】本発明の第1の実施形態にかかるピッチマーク
付与装置の詳細な処理の流れを示すフローチャートであ
る。
【図6】本発明の第1の実施形態にかかるピッチマーク
付与装置のピッチマーク決定処理の流れを示したフロー
チャートである。
【図7】本発明の第1の実施形態にかかるピッチマーク
付与装置のピッチマーク決定処理の流れを示したフロー
チャートである。
【図8】本発明の第1の実施形態にかかるピッチマーク
付与装置におけるpeakN2の探索処理の模式図である。
【符号の説明】
101 制御メモリ 102 中央処理装置 103 メモリ 104 外部記憶装置 105 バス 201 波形保持部 202 ウェーブレット変換部 203 ウェーブレット保持部 204 ローカルピーク抽出部 205 ローカルピーク保持部 206 音素ラベル保持部 207 音素の有声無声判別部 208 有声無声判別結果保持部 209 音素のピッチマーク推定部 210 ピッチマーク保持部 401 波形パワー計算部 402 波形パワー保持部 403 波形ゼロクロス計算部 404 波形ゼロクロス保持部 405 判別ルール保持部 406 有声無声判別部

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 音声合成において、音声波形を所望のピ
    ッチで接続するためのピッチマークを付与するピッチマ
    ーク付与装置であって、 前記音声波形の一フレームを抽出し、該フレームにおけ
    る該音声波形のパワーを算出する音声波形パワー計算手
    段と、 前記音声波形の一フレームを抽出し、該フレームにおけ
    る該音声波形のゼロクロスを求める音声波形ゼロクロス
    計算手段と、 前記パワーと前記ゼロクロスとに基づいて前記フレーム
    が有声であるか無声であるかを判断する有声無声判別手
    段と、 前記有声無声判別手段において有声と判断されたフレー
    ムに対して、前記音声波形のウェーブレット変換におけ
    るローカルピークを求め、該ローカルピークに基づいて
    ピッチマークを付与する付与手段とを備えることを特徴
    とするピッチマーク付与装置。
  2. 【請求項2】 音声合成において、音声波形を所望のピ
    ッチで接続するためのピッチマークを付与するピッチマ
    ーク付与装置であって、 前記音声波形の一フレームを抽出し、該フレームにおけ
    る該音声波形のウェーブレット変換後の波形のパワーを
    算出するウェーブレット波形パワー計算手段と、 前記音声波形の一フレームを抽出し、該フレームにおけ
    る該音声波形のウェーブレット変換後の波形のゼロクロ
    スを求めるウェーブレット波形ゼロクロス計算手段と、 前記パワーと前記ゼロクロスとに基づいて前記フレーム
    が有声であるか無声であるかを判断する有声無声判別手
    段と、 前記有声無声判別手段において有声と判断されたフレー
    ムに対して、前記音声波形のウェーブレット変換におけ
    るローカルピークを求め、該ローカルピークにに基づい
    てピッチマークを付与する付与手段とを備えることを特
    徴とするピッチマーク付与装置。
  3. 【請求項3】 前記有声無声判別手段は、所定のフレー
    ムの前後のフレームの有声無声判別結果に基づいて該所
    定のフレームの有声無声の判断を補正する判別結果補正
    手段を更に備えることを特徴とする請求項1または2に
    記載のピッチマーク付与装置。
  4. 【請求項4】 音声合成において、音声波形を所望のピ
    ッチで接続するためのピッチマークを付与するピッチマ
    ーク付与装置における処理方法であって、 前記音声波形の一フレームを抽出し、該フレームにおけ
    る該音声波形のパワーを算出する音声波形パワー計算工
    程と、 前記音声波形の一フレームを抽出し、該フレームにおけ
    る該音声波形のゼロクロスを求める音声波形ゼロクロス
    計算工程と、 前記パワーと前記ゼロクロスとに基づいて前記フレーム
    が有声であるか無声であるかを判断する有声無声判別工
    程と、 前記有声無声判別工程において有声と判断されたフレー
    ムに対して、前記音声波形のウェーブレット変換におけ
    るローカルピークを求め、該ローカルピークに基づいて
    ピッチマークを付与する付与工程とを備えることを特徴
    とするピッチマーク付与装置における処理方法。
  5. 【請求項5】 音声合成において、音声波形を所望のピ
    ッチで接続するためのピッチマークを付与するピッチマ
    ーク付与装置における処理方法であって、 前記音声波形の一フレームを抽出し、該フレームにおけ
    る該音声波形のウェーブレット変換後の波形のパワーを
    算出するウェーブレット波形パワー計算工程と、 前記音声波形の一フレームを抽出し、該フレームにおけ
    る該音声波形のウェーブレット変換後の波形のゼロクロ
    スを求めるウェーブレット波形ゼロクロス計算工程と、 前記パワーと前記ゼロクロスとに基づいて前記フレーム
    が有声であるか無声であるかを判断する有声無声判別工
    程と、 前記有声無声判別工程において有声と判断されたフレー
    ムに対して、前記音声波形のウェーブレット変換におけ
    るローカルピークを求め、該ローカルピークに基づいて
    ピッチマークを付与する付与工程とを備えることを特徴
    とするピッチマーク付与装置における処理方法。
  6. 【請求項6】 前記有声無声判別工程は、所定のフレー
    ムの前後のフレームの有声無声判別結果に基づいて該所
    定のフレームの有声無声の判断を補正する判別結果補正
    工程を更に備えることを特徴とする請求項4または5に
    記載のピッチマーク付与装置における処理方法。
  7. 【請求項7】 請求項4乃至6のいずれか1つに記載の
    処理方法をコンピュータによって実現させるための制御
    プログラムを格納した記憶媒体。
  8. 【請求項8】 請求項4乃至6のいずれか1つに記載の
    処理方法をコンピュータによって実現させるための制御
    プログラム。
JP2001311953A 2001-10-09 2001-10-09 ピッチマーク付与装置およびその処理方法ならびに記憶媒体 Withdrawn JP2003122380A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001311953A JP2003122380A (ja) 2001-10-09 2001-10-09 ピッチマーク付与装置およびその処理方法ならびに記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001311953A JP2003122380A (ja) 2001-10-09 2001-10-09 ピッチマーク付与装置およびその処理方法ならびに記憶媒体

Publications (1)

Publication Number Publication Date
JP2003122380A true JP2003122380A (ja) 2003-04-25

Family

ID=19130687

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001311953A Withdrawn JP2003122380A (ja) 2001-10-09 2001-10-09 ピッチマーク付与装置およびその処理方法ならびに記憶媒体

Country Status (1)

Country Link
JP (1) JP2003122380A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007068847A (ja) * 2005-09-08 2007-03-22 Advanced Telecommunication Research Institute International 声門閉鎖区間検出装置および声門閉鎖区間検出方法
JP2008145685A (ja) * 2006-12-08 2008-06-26 Mitsubishi Electric Corp 音声合成装置及び音声合成方法
US20130262096A1 (en) * 2011-09-23 2013-10-03 Lessac Technologies, Inc. Methods for aligning expressive speech utterances with text and systems therefor
JP2017015821A (ja) * 2015-06-29 2017-01-19 日本電信電話株式会社 音声合成装置、音声合成方法、およびプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007068847A (ja) * 2005-09-08 2007-03-22 Advanced Telecommunication Research Institute International 声門閉鎖区間検出装置および声門閉鎖区間検出方法
JP4568826B2 (ja) * 2005-09-08 2010-10-27 株式会社国際電気通信基礎技術研究所 声門閉鎖区間検出装置および声門閉鎖区間検出プログラム
JP2008145685A (ja) * 2006-12-08 2008-06-26 Mitsubishi Electric Corp 音声合成装置及び音声合成方法
US20130262096A1 (en) * 2011-09-23 2013-10-03 Lessac Technologies, Inc. Methods for aligning expressive speech utterances with text and systems therefor
US10453479B2 (en) * 2011-09-23 2019-10-22 Lessac Technologies, Inc. Methods for aligning expressive speech utterances with text and systems therefor
JP2017015821A (ja) * 2015-06-29 2017-01-19 日本電信電話株式会社 音声合成装置、音声合成方法、およびプログラム

Similar Documents

Publication Publication Date Title
CN109065031B (zh) 语音标注方法、装置及设备
JP4202090B2 (ja) スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法
JP4354653B2 (ja) ピッチ追跡方法および装置
EP1970895A1 (en) Speech synthesis apparatus and method
JP2005535915A (ja) 可変長さ合成と相関度計算減縮技法を利用したオーディオ信号の時間スケール修正方法
WO2003042974A1 (en) Method and system for chinese speech pitch extraction
WO2019065263A1 (ja) 発音誤り検出装置、発音誤り検出方法、プログラム
JP2001282277A (ja) 音声情報処理装置及びその方法と記憶媒体
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
JP2019139010A (ja) 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム
JP2001282278A (ja) 音声情報処理装置及びその方法と記憶媒体
Yarra et al. A mode-shape classification technique for robust speech rate estimation and syllable nuclei detection
JPS61219099A (ja) 音声認識装置
JP2003122380A (ja) ピッチマーク付与装置およびその処理方法ならびに記憶媒体
WO2020162238A1 (ja) 音声認識装置、音声認識方法、プログラム
JP2008191334A (ja) 音声合成方法、音声合成プログラム、音声合成装置、音声合成システム
Martens et al. Word Segmentation in the Spoken Dutch Corpus.
JPH11202886A (ja) 音声認識装置、単語認識装置、単語認識方法、及び単語認識プログラムを記録した記憶媒体
Seman et al. Hybrid methods of Brandt’s generalised likelihood ratio and short-term energy for Malay word speech segmentation
JP2003150181A (ja) ピッチマーク付与装置および方法、ならびにプログラム
JP4621936B2 (ja) 音声合成装置、学習データ生成装置、ポーズ予測装置およびプログラム
JP6193737B2 (ja) ポーズ推定装置、方法、プログラム
CN110600005B (zh) 语音识别纠错方法及装置、计算机设备和记录介质
JPH0731504B2 (ja) ピツチ抽出装置
JPH0713598A (ja) 特定タスク音声データベース生成装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050104