JP3358139B2 - 音声ピッチマーク設定方法 - Google Patents

音声ピッチマーク設定方法

Info

Publication number
JP3358139B2
JP3358139B2 JP33385295A JP33385295A JP3358139B2 JP 3358139 B2 JP3358139 B2 JP 3358139B2 JP 33385295 A JP33385295 A JP 33385295A JP 33385295 A JP33385295 A JP 33385295A JP 3358139 B2 JP3358139 B2 JP 3358139B2
Authority
JP
Japan
Prior art keywords
pitch
voice
waveform
pitch mark
maximum value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP33385295A
Other languages
English (en)
Other versions
JPH09179586A (ja
Inventor
幸雄 田部井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP33385295A priority Critical patent/JP3358139B2/ja
Publication of JPH09179586A publication Critical patent/JPH09179586A/ja
Application granted granted Critical
Publication of JP3358139B2 publication Critical patent/JP3358139B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力音声の波形に
対してピッチマークを設定する音声ピッチマーク設定方
法に関する。
【0002】
【従来の技術】従来、テキスト文章を音声として出力す
ることができるテキスト音声変換装置は、入力されるテ
キスト文章を解析するテキスト解析部と、韻律制御部
と、音声合成部とから構成されている。
【0003】このテキスト解析部では、キーボード等に
より入力された漢字かな混じりのテキスト文章を形態素
解析し、読み、アクセント、イントネーションを決定し
て中間言語(発音記号列)として出力している。
【0004】また、韻律制御部では、ピッチ周波数パタ
ーンや音韻継続時間等の設定を行っている。さらに、音
声合成部では、線形予測法や波形を使用する方法等を適
用し中間言語、ピッチ周波数パターンおよび音韻継続時
間等に基づく音声合成を行って出力している。
【0005】線形予測法は、声道情報と音源情報とを分
離して扱うことが可能であり、制御が容易であることか
ら盛んに適用されている。しかし、音声の声道情報と音
源情報との間には本来相互関係がある。線形予測法で
は、音源情報をインパルスと白色雑音とでモデル化して
いるため、合成音の劣化の要因となっている。
【0006】近年では、音源情報として残差等を用いて
改善することが考えられているが、声道情報と音源情報
との間の相互関係によって残差とスペクトルとの不整合
が生じ、これも合成音の劣化の要因となっている。
【0007】そこで、声道情報と音源情報とを分離せ
ず、さらに合成時に原音声波形をそのまま利用して合成
音声が劣化しないようにする方法が考えられている。図
4は原音声波形を利用する従来の音声合成方法を説明す
るフローチャートである。
【0008】すなわち、ステップS401において原音
声の入力を行い、次いでステップS402でそのA/D
変換を行った後、ステップS403において原音声波形
の極大値位置にピッチマークを目視または自動で設定し
ておく。そして、ステップS404でこのピッチマーク
の付された原音声を音素片波形としてファイルに格納し
ておく。
【0009】次に、音声合成を行う場合、目標となるピ
ッチ周波数パターンを入力し、ステップS405におい
て波形素片ファイルに格納されている音素片波形に時間
窓掛けを施し、ステップS406で窓掛けして成る波形
との重畳を行う。重畳は、合成目標のピッチ周期に合う
ような時間窓関数を用い、音素片波形のピッチマーク位
置が時間窓の中心となるようにして乗ずることによって
波形を切り出し、目標ピッチ周波数パターンに合わせて
波形を重畳していくことにより行う。
【0010】その後、ステップS407において重畳後
の合成波形に対するD/A変換を行い、アナログ信号と
してステップS408で合成音声を出力する。
【0011】このステップS403で行った原音声波形
の極大値を設定するにあたり、自動で設定する技術とし
ては、特開平5−217337号公報に記載される音声
合成方法および装置がある。この技術では、基本周波数
以上すなわち256Hz程度のカットオフ周波数を有す
る低域通過フィルタに原音声波形を通し、通過後の波形
の極大値をピッチマークとして設定するようにしてい
る。
【0012】
【発明が解決しようとする課題】しかしながら、原音声
波形の極大値を抽出してピッチマークを設定するにあた
り、目視で行う場合には数量的に多大な労力を必要とす
るとともに、一定の基準を保ってピッチマークを設定す
るのが非常に困難である。つまり、ピッチ周期は女性音
で3〜4msec、男性音で6〜10msec程度であ
るため、その周期毎に極大値を正確に抽出してピッチマ
ークを設定するのは非常に困難である。
【0013】また、特開平5−217337号公報に記
載される技術においてピッチマークを自動設定する場合
には、低域通過フィルタを通した後の波形の極大値が必
ずしも原音声波形の極大値とは一致せず、この不一致に
基づく合成音のごろつきやノイズが生じ、合成音の劣化
の原因となっている。
【0014】
【課題を解決するための手段】本発明は、このような課
題を解決するために成された音声ピッチマーク設定方法
である。すなわち、本発明の音声ピッチマーク設定方法
では、先ず、入力音声の有声音波形のフレーム毎にピッ
チ周期を検出し、次いで、検出したピッチ周期の逆数を
所定の定数倍した値をカットオフ周波数とする低域通過
フィルタに有声音波形を通過させ、基本波成分を抽出す
る。次に、この基本波成分の極大値に対応する時間値を
算出するとともに、その時間値に対して低帯域通過フィ
ルタの群遅延分補正を行い、ピッチマーク候補点を算出
する。そして、このピッチマーク候補点の近傍にある有
声音波形の極大値を算出し、この極大値に対応する時間
値をピッチマークとして設定している。
【0015】このような音声ピッチマーク設定方法で
は、入力音声における基本波成分を抽出するための低域
通過フィルタのカットオフ周波数を、有声音波形のフレ
ーム毎に変化させていることから、ピッチ周波数の変化
に追随して安定に基本波成分を抽出できるようになる。
また、低域通過フィルタの群遅延分補正を行うととも
に、基本波成分の極大値と入力音声の有声音波形におけ
る極大値との双方を考慮していることから、基本波成分
に基づく有声音波形の正確な極大値をピッチマークとし
て設定できるようになる。
【0016】
【発明の実施の形態】以下に、本発明の音声ピッチマー
ク設定方法における実施の形態を図に基づいて説明す
る。図1は本発明の音声ピッチマーク設定方法における
第1実施形態を説明するフローチャートである。第1実
施形態は、主として音声合成等の音声出力で使用される
音素片波形をファイルに格納するにあたり、原音声波形
の最大値位置にピッチマークを設定する際に適用され
る。第1実施形態では、入力する原音声の有声音波形部
分にのみピッチマークを設定する場合に適用される。
【0017】先ず、ステップS101に示す原音声の入
力を行った後、ステップS102に示すように、入力し
た原音声の有声音波形のフレーム毎にピッチ周期を抽出
する処理を行う。ピッチ周期の抽出は、図2に示すケプ
ストラム法を用いる。
【0018】ケプストラム法は、先ず図2のステップS
201に示すように、時間波形を入力し、ステップS2
02に示す窓掛けを行う。次いで窓掛けを行った時間波
形に対してステップS203に示す離散フーリエ変換
(DFT)を施し、ステップS204においてその実部
と虚部との自乗和の平方根を対数変換する。その後、ス
テップS205に示す逆離散フーリエ変換(IDFT)
を施すことでステップS206に示すケプストラム成分
を出力できることになる。
【0019】すなわち、ケプストラム法は、畳み込み演
算を加法的な演算に変換するものである。入力音声の波
形が有声音波形の場合、ピッチ周期をT0 とすれば、音
源成分はT0 の近傍の成分として現れ、また声道成分は
短時間領域の成分として現れることになる。
【0020】本実施形態では、予め、男性音の場合には
5.0〜11.67msec、女性音の場合には2.5
〜5.83msecのピッチ周期の範囲を設定してお
き、この区間にあるケプストラム成分のピーク値におけ
る時間値を抽出し、この時間値をピッチ周期T0 として
いる。
【0021】このピッチ周期T0 を抽出する場合には、
ケプストラム成分のピーク値と、その両脇の点の合わせ
て3点で2次曲線近似を行ってから求めるようにする。
なお、この近似を行う場合には3点より多くの点を用い
てもよい。
【0022】次に、図1のステップS103に示すよう
に、フレーム毎にピッチ周期T0 の逆数を所定の定数
(c)倍し、カットオフ周波数fc =c/T0 となる低
域通過フィルタを設定し、この低域通過フィルタに有声
音波形を通して基本波成分を抽出する。なお、この際の
定数cとしては、1以上2未満の値で設定するが、1.
1程度が望ましい。また、低域通過フィルタとしては、
波形の時間変形のない直線位相が可能なFIRフィルタ
を用いるのがよい。
【0023】次に、ステップS104に示すローカルピ
ーク時点抽出として、低域通過フィルタを通過した後の
基本波成分の中から極大値を求め、対応する時間値を算
出する。次いで、ステップS105に示すように、ステ
ップS104で求めた基本波成分の極大値に対して、低
域通過フィルタの群遅延分補正を施し、補正後の時間値
をピッチマーク候補点とする処理を行う。
【0024】このピッチマーク候補点は、そのままでは
揺れがあるため必ずしも原音声波形の極大値と対応して
いない場合もある。そこで、ステップS106におい
て、このピッチマーク候補点を表す時間値の近傍にある
有声音波形(原音声波形)の極大値を抽出し、ステップ
S107に示すようにこの極大値を最終的なピッチマー
クとして決定する。これにより、ピッチマーク候補点の
揺れを解消でき、有声音波形の正確なピッチマークの設
定を行うことができるようになる。
【0025】次に、本発明の音声ピッチマーク設定方法
における第2実施形態を説明する。図3は第2実施形態
を説明するフローチャートである。第2実施形態は、主
として音声合成等の音声出力で使用される音素片波形を
ファイルに格納するにあたり、原音声波形の最大値位置
にピッチマークを設定する際に適用される点で第1実施
形態と同様であるが、入力する原音声の中から有声音波
形と無声音波形とを判別して処理を行う点で相違する。
【0026】特に第2実施形態では、ピッチ周期を抽出
する際に算出されるケプストラム成分において、無声音
成分の音源のランダム性からピッチに対応する鋭いピー
クがそのケプストラム成分に現れないという性質を利用
して有声音成分と無声音成分との判別を行う点に特徴が
ある。
【0027】先ず、ステップS301に示す原音声の入
力を行った後、ステップS302に示すように、入力し
た原音声のフレーム毎にピッチ周期を抽出する処理を行
う。このピッチ周期の抽出は第1実施形態と同様に図2
に示すようなケプストラム法を用いる。
【0028】次に、ステップS303に示すように、ケ
プストラム成分を用いて原音声が有声音成分であるか否
かの判別を行う。例えば、ケプストラム成分のピークが
ある閾値以上となっている場合にはそのフレームは有声
音成分であると判定し、ピークがある閾値未満となって
いる場合にはそのフレームは無声音成分であると判定す
る。
【0029】つまり、無声音成分ではその音源のランダ
ム性によってケプストラム成分のピッチに対応する鋭い
ピークが現れず、有声音成分では鋭いピークが現れるこ
とを利用し、ピークに対する所定の閾値判定を行うこと
で対象となるフレームが有声音成分であるか無声音成分
であるかを判断する。
【0030】フレームが無声音成分であると判断された
場合にはステップS303の判断でNoとなりステップ
S301へ戻る。一方、フレームが有声音成分であると
判断された場合にはステップS303の判断でYesと
なりステップS304へ進む。ステップS304以降の
処理は第1実施形態と同様である。
【0031】すなわち、ステップS304では、フレー
ム毎にピッチ周期T0 の逆数を所定の定数(c)倍し、
カットオフ周波数fc =c/T0 となる低域通過フィル
タを設定し、この低域通過フィルタに有声音波形を通し
て基本波成分を抽出する。なお、この際の定数cとして
は、1以上2未満の値で設定するが、1.1程度が望ま
しい。また、低域通過フィルタとしては、波形の時間変
形のない直線位相が可能なFIRフィルタを用いるのが
よい。
【0032】また、ステップS305に示すローカルピ
ーク時点抽出として、低域通過フィルタを通過した後の
基本波成分の中から極大値を求め、対応する時間値を算
出し、ステップS306ではステップS305で求めた
基本波成分の極大値に対して、低域通過フィルタの群遅
延分補正を施し、補正後の時間値をピッチマーク候補点
とする処理を行う。
【0033】さらに、ステップS307において、この
ピッチマーク候補点を表す時間値の近傍にある有声音波
形(原音声波形)の極大値を抽出してピッチマーク候補
点の揺れを解消し、ステップS308に示すようにこの
極大値を最終的なピッチマークとして決定する。
【0034】このような第2実施形態では、原音声入力
において予め有声音成分と無声音成分とを分けておく必
要がないため、音素片波形ファイルの作成処理を効率よ
く行うことが可能となる。
【0035】なお、いずれの実施形態における音声ピッ
チマーク設定方法は、テキスト音声変換装置の音声合成
部で行われるピッチマークの設定方法として適用できる
他、原音声のピッチを変化させる音声ピッチ変換装置で
のピッチマーク設定等の種々の音声出力装置での処理に
適用することが可能である。
【0036】
【発明の効果】以上説明したように、本発明の音声ピッ
チマーク設定方法によれば次のような効果がある。すな
わち、基本波抽出にあたり低域通過フィルタのカットオ
フ周波数をフレーム毎に変化させているため、ピッチ周
波数の変化に追随して安定した基本波成分を抽出でき、
正確に極大値を検出できるようになる。また、基本波成
分の極大値と原音声波形の極大値との双方を考慮して有
声音波形の正確な極大値を検出していることから、自動
的に正確なピッチマークを設定できるようになる。これ
により、波形レベルで高品質な合成音声を出力すること
が可能となる。
【図面の簡単な説明】
【図1】本発明の第1実施形態を説明するフローチャー
トである。
【図2】ケプストラム法を説明するフローチャートであ
る。
【図3】本発明の第2実施形態を説明するフローチャー
トである。
【図4】従来例を説明するフローチャートである。
フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 11/04 G10L 13/06

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力音声の有声音波形のフレーム毎にピ
    ッチ周期を検出する工程と、 検出した前記ピッチ周期の逆数を所定の定数倍した値を
    カットオフ周波数とする低域通過フィルタに前記有声音
    波形を通過させ、基本波成分を抽出する工程と、 前記基本波成分の極大値に対応する時間値を算出すると
    ともに、該時間値に対して前記低帯域通過フィルタの群
    遅延分補正を行い、ピッチマーク候補点を算出する工程
    と、 前記ピッチマーク候補点の近傍にある前記有声音波形の
    極大値を算出し、該極大値に対応する時間値をピッチマ
    ークとして設定する工程とから成ることを特徴とする音
    声ピッチマーク設定方法。
  2. 【請求項2】 入力音声のフレーム毎にピッチ周期を検
    出するとともに、該ピッチ周期の検出の際に該入力音声
    の有声音波形と無声音波形とを判別する工程と、 有声音波形として判別した場合、検出した前記ピッチ周
    期の逆数を所定の定数倍した値をカットオフ周波数とす
    る低域通過フィルタに該有声音波形を通過させ、基本波
    成分を抽出する工程と、 前記基本波成分の極大値に対応する時間値を算出すると
    ともに、該時間値に対して前記低帯域通過フィルタの群
    遅延分補正を行い、ピッチマーク候補点を算出する工程
    と、 前記ピッチマーク候補点の近傍にある前記有声音波形の
    極大値を算出し、該極大値に対応する時間値をピッチマ
    ークとして設定する工程とから成ることを特徴とする音
    声ピッチマーク設定方法。
  3. 【請求項3】 前記入力音声の有声音波形と無声音波形
    との判別を、該入力音声の波形におけるケプストラム成
    分と、所定の閾値との比較に基づいて行うことを特徴と
    する請求項2記載の音声ピッチマーク設定方法。
  4. 【請求項4】 前記フレーム毎のピッチ周期を検出する
    にあたり、前記入力音声の波形におけるケプストラム成
    分のピーク値と、該ピーク値の周囲の値とによる補間を
    用いることを特徴とする請求項1から3のうちいずれか
    1項に記載の音声ピッチマーク設定方法。
JP33385295A 1995-12-22 1995-12-22 音声ピッチマーク設定方法 Expired - Fee Related JP3358139B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33385295A JP3358139B2 (ja) 1995-12-22 1995-12-22 音声ピッチマーク設定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33385295A JP3358139B2 (ja) 1995-12-22 1995-12-22 音声ピッチマーク設定方法

Publications (2)

Publication Number Publication Date
JPH09179586A JPH09179586A (ja) 1997-07-11
JP3358139B2 true JP3358139B2 (ja) 2002-12-16

Family

ID=18270670

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33385295A Expired - Fee Related JP3358139B2 (ja) 1995-12-22 1995-12-22 音声ピッチマーク設定方法

Country Status (1)

Country Link
JP (1) JP3358139B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100554165B1 (ko) * 2003-07-15 2006-02-22 한국전자통신연구원 피치 지연값의 배수에 의한 영향 제거가 가능한 celp기반 음성부호화기 및 피치 지연값의 배수에 의한 영향제거 방법
JP4869898B2 (ja) * 2006-12-08 2012-02-08 三菱電機株式会社 音声合成装置及び音声合成方法
EP2881947B1 (en) * 2012-08-01 2018-06-27 National Institute Of Advanced Industrial Science Spectral envelope and group delay inference system and voice signal synthesis system for voice analysis/synthesis

Also Published As

Publication number Publication date
JPH09179586A (ja) 1997-07-11

Similar Documents

Publication Publication Date Title
Morise et al. WORLD: a vocoder-based high-quality speech synthesis system for real-time applications
Rao et al. Prosody modification using instants of significant excitation
US9368103B2 (en) Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system
Bonada et al. Expressive singing synthesis based on unit selection for the singing synthesis challenge 2016
CN107851444A (zh) 用于将声学信号分解为声音对象的方法和系统、声音对象及其使用
Hosom et al. Intelligibility of modifications to dysarthric speech
KR20180078252A (ko) 성문 펄스 모델 기반 매개 변수식 음성 합성 시스템의 여기 신호 형성 방법
Huber et al. On glottal source shape parameter transformation using a novel deterministic and stochastic speech analysis and synthesis system
Adiga et al. Significance of epoch identification accuracy for prosody modification
JP3358139B2 (ja) 音声ピッチマーク設定方法
Babacan et al. Parametric representation for singing voice synthesis: A comparative evaluation
Kafentzis et al. Pitch modifications of speech based on an adaptive harmonic model
JP2904279B2 (ja) 音声合成方法および装置
JP2940835B2 (ja) ピッチ周波数差分特徴量抽出法
JP2010060846A (ja) 合成音声評価システム及び合成音声評価方法
Arroabarren et al. Glottal spectrum based inverse filtering.
US20050131679A1 (en) Method for synthesizing speech
JP4223416B2 (ja) F0輪郭を合成する方法及びコンピュータプログラム
JP6213217B2 (ja) 音声合成装置及び音声合成用コンピュータプログラム
JP3532064B2 (ja) 音声合成方法及び音声合成装置
Kasi Yet another algorithm for pitch tracking:(yaapt)
JP3294192B2 (ja) 音声変換装置及び音声変換方法
Alcaraz Meseguer Speech analysis for automatic speech recognition
JPH0358100A (ja) 規則型音声合成装置
JP3030869B2 (ja) 音声合成装置の音源データ生成方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081011

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees