JP2007047673A - 素片選択装置及び素片選択方法 - Google Patents

素片選択装置及び素片選択方法 Download PDF

Info

Publication number
JP2007047673A
JP2007047673A JP2005234447A JP2005234447A JP2007047673A JP 2007047673 A JP2007047673 A JP 2007047673A JP 2005234447 A JP2005234447 A JP 2005234447A JP 2005234447 A JP2005234447 A JP 2005234447A JP 2007047673 A JP2007047673 A JP 2007047673A
Authority
JP
Japan
Prior art keywords
segment
pitch
composite
value
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005234447A
Other languages
English (en)
Inventor
Yasuo Okuya
泰夫 奥谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005234447A priority Critical patent/JP2007047673A/ja
Publication of JP2007047673A publication Critical patent/JP2007047673A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】合成音声の音質を劣化させる不適切なピッチ波形やピッチ周期の乱れを持つ合成素片を素片セットから除外する。
【解決手段】合成素片に属するピッチ波形のピッチ周期を基に隣接するピッチ波形のピッチ周期の比を算出するピッチ周期比算出手段と、前記ピッチ周期比算出手段が算出したピッチ周期比を基にその合成素片を合成素片セットから除外する素片フィルタ手段とを備える。
【選択図】図3

Description

本発明は、ピッチ波形のピッチ周期比を基に合成素片を選択する素片選択装置及びその方法及びそのプログラムならびに記憶媒体に関する発明である。
近年、音声素片を1ピッチ波形単位で複製及び、或いは削除しながら所望のピッチ間隔で貼り合わせて編集し(PSOLA:ピッチ同期波形重畳法)、それらの音声素片を接続する波形編集方式の音声合成方法が主流となっている。
このような波形編集方式の音声合成方法では、ひとつひとつのピッチ波形の良し悪しが合成音声の音質に大きく影響する。特に、無音の直前はピッチ波形が不安定になることが多く、ピッチ周期も乱れる傾向が強い。また、英語等の欧州言語では、無音を伴なわない単語境界でも、ピッチ波形が不安定となったり、ピッチ周期の乱れが観測されることがある。このようなピッチ波形を含む合成素片を音声合成に使うと、不適切なピッチ波形の複製などが影響して、合成音声の音質が劣化する。
図5は、音声合成に適する合成素片と不適切な合成素片の一例を示した図である。501および502は波形、503および504はピッチマークである。図中、便宜的に波形の上にピッチマークを重ねて表示している。適切な合成素片はピッチ波形が均一で、ピッチ周期がほぼ等間隔になっていることがわかる。
合成素片の良し悪しが合成音声の音質に大きく影響する波形編集方式の音声合成方法では、特に、合成素片の選択に十分な注意を払う必要がある。特許文献1は、合成素片のスペクトル情報に着目して、不適切な合成素片が素片辞書に登録されることを防止する方法である。
特開2001-282277号公報
しかしながら、特許文献1の発明では、スペクトル情報に着目して不適切な合成素片を取り除くことが可能であるが、ピッチ情報に関知しないため、合成素片の中に不適切なピッチ波形やピッチ周期の乱れが存在しても、それを検出することは困難である。
本発明は上記の課題に鑑みてなされたものであり、合成素片に属するピッチ波形のピッチ周期を基に隣接するピッチ波形のピッチ周期比を算出するピッチ周期比算出手段と、合成素片の適正条件を少なくともピッチ周期比を基に記述した素片フィルタルールと、前記ピッチ周期比算出手段が算出したピッチ周期比を基に前記素片フィルタルールに従って不適切な合成素片を合成素片セットから除外する素片フィルタ手段とを備える。
本発明は隣接するピッチ波形間のピッチ周期の比を基にピッチ波形の良し悪しを判定でき、不適切なピッチ波形を含む合成素片を合成素片セットから除外することによって、高品質な合成音声を生成することができる。
以下、図面を参照しながら本発明の好適な実施例について説明していく。
図1は、本実施例における素片選択装置のハードウエア構成を示すブロック図である。本実施例では、合成素片を選択する素片選択装置を一般的なパーソナルコンピュータ上で実現する場合について説明するが、本発明は専用の素片選択装置であっても、また他の形態の装置であってもよい。
図1において、101は制御メモリ(ROM)、102は中央処理装置、103はメモリ(RAM)、104は外部記憶装置、105はバスである。本実施形態の素片選択装置を実現するための制御プログラムやその制御プログラムで用いるデータは、制御メモリ101に記憶される。これらの制御プログラムやデータは、中央処理装置102の制御のもと、バス105を通じて適宜メモリ103に取り込まれ、中央処理装置102によって実行される。
図2は、本実施例における素片選択装置のモジュール構成を示すブロック図である。合成素片セット201は、合成素片を保持する。具体的には、合成素片の波形情報、ピッチマーク情報、音韻環境情報などを保持する。ピッチ周期比算出部202は、合成素片に含まれるピッチ波形間のピッチ周期の比を算出する。ピッチ周期比保持部203は、ピッチ周期比を保持する。素片フィルタルール204は、ピッチ周期や音韻環境に基づいて合成素片を除外するかどうかを決定するためのルールである。素片フィルタ処理部205は、素片フィルタルール204にしたがい合成素片を合成素片セットから除外するかどうかを決定する。
図3は、本実施例における素片選択装置における処理の流れを示すフローチャートである。
ステップS301では、合成素片セット201の中に素片フィルタ処理を行っていない合成素片が存在するかどうかを判定し、未処理の合成素片が存在する場合はステップS302に移る。未処理の合成素片が存在しない場合は、終了する。
ステップS302では、ピッチ周期比算出部202が、合成素片セット201に含まれる未処理の合成素片をひとつ取り出し、合成素片内に含まれるピッチ波形のピッチ周期を基に隣接ピッチ波形間のピッチ周期比を算出し、ピッチ周期比保持部203に保持して、ステップS303に移る。なお、ピッチ周期比については後述する。
ステップS303では、素片フィルタ処理部205が、ピッチ周期比保持部203が保持する当該合成素片内のピッチ周期比を基に、素片フィルタルール204にしたがって合成素片としての適正を判断する。適正と判断した場合は当該合成素片に処理済み情報を付与して、ステップS301に戻る。適正でないと判断した場合はステップS304に移る。なお、素片フィルタルールについては後述する。
ステップS304では、素片フィルタ処理部205が、当該合成素片を合成素片セット201から除外して、ステップS301に戻る。なお、除外する方法としては、合成素片セット201から合成素片自体を削除してもよいし、合成素片に不適合情報を付与するだけで実際に合成素片セット201から削除しなくてもよい。後者の場合は、処理済み情報も併せて付与する。
図4は、本実施例におけるピッチ周期比の算出方法を合成素片のピッチ波形とピッチマーク情報を使って説明するための図である。401は波形、402はピッチマークである。便宜上、波形の上にピッチマークを重ねて表示している。ここでは、2本の隣接するピッチマークで挟まれた波形をピッチ波形と呼ぶことにする。各ピッチ波形のピッチ周期(以下 p(n) : n=1,2,...)は、図中 p1 〜 p11で表されている。これより、本実施例におけるピッチ周期比r(n)を以下のように定義する。
r(n) = p(n+1) / p(n) : n = 1,2,...
ピッチ周期比r(n)は、図中 r1 〜 r10 で表されている。
次に、素片フィルタルールについて説明する。前述したように、無音の直前はピッチ波形が不安定になることが多く、ピッチ周期も乱れる傾向にある。また、英語等の欧州言語では、無音がない単語境界でも、ピッチ波形が不安定となったり、ピッチ周期の乱れが観測される。このようなピッチ波形を含む合成素片を波形編集方式の音声合成に使うと、良くないピッチ波形を複製利用することなどによる影響で、合成音声の音質を劣化させてしまう。このような劣化を回避するためには、ピッチ波形が不安定なものやピッチ周期が乱れた合成素片を音声合成の合成素片として選択しない必要がある。通常発声の場合、経験的にピッチ周期比はおよそ1.3倍以下であると言える。そして、変化が1.3倍以下の合成素片を使用して生成した合成音声は、これを考慮しない場合に比べてより良い音質となる。これをルール化すると次のように記述することができる。
合成素片に含まれる少なくともひとつ以上のピッチ周期比r(n) (n=1,2,...)が 1.3より大きい場合もしくは1/1.3より小さくなる場合、その合成素片を合成素片セットから除外する。
言うまでもないことであるが、上記の1.3という数字は一例であってそれに近い値であれば1.3でなくてもよい。さらには、上限値と下限値の逆数の値が同じである必要性もない。
上記素片フィルタルールの例では、ピッチ周期比だけを用いた場合について説明したが、これに限定されるものではなく、音韻環境や言語情報などをルールに用いてもよい。例えば、音韻環境として無音直前の合成素片だけに適用するルールを定義することも可能である。
また、無音直前では通常ピッチ周期が徐々に増加する傾向がみられる。
そこで、ピッチ周期が増加する傾向には寛大に、そして、ピッチ周期が減少する傾向には厳しいルールを定義すると次のようになる。
音韻環境が無音直前である合成素片の場合、少なくともひとつ以上のピッチ周期比r(n) (n=1,2,...)が 1.3より大きい場合もしくは0.9より小さくなる場合、その合成素片を合成素片セットから除外する。
実施例1では、合成素片セットに含まれるすべての合成素片に対して、素片フィルタ処理を行う場合について説明したが、これに限定されるものではなく、音声合成の実行時に合成素片を選択する際に、接続歪最小基準などのルールに従って合成素片セットから取り出された合成素片候補に対して素片フィルタ処理を行う場合もよいものとする。
実施例1では、合成素片に対して素片フィルタ処理を行う場合について説明したが、これに限定されるものではなく、音声データベースに対してあらかじめ素片フィルタ処理を行う場合もよいものとする。
実施例1では、素片選択の一部として素片フィルタ処理を行う場合について説明したが、これに限定されるものではなく、音声合成用の合成素片辞書に合成素片を登録する際に素片フィルタ処理を行う場合もよいものとする。
実施例1では、ピッチ周期の比に基づく場合について説明したが、これに限定されるものではなく、隣接するピッチ周期の差を基に素片フィルタ処理を行う場合もよいものとする。この場合、ピッチ周期比算出部202はピッチ周期の差を算出し、素片フィルタルール204は、ピッチ周期の差に関するルールを持つものとする。
なお、本発明の目的は、前述した実施例の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても達成されることは言うまでもない。
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,磁気テープ,不揮発性のメモリカード,ROMなどを用いることができる。
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
実施例1における素片選択装置のハードウエア構成を示すブロック図である。 実施例1における素片選択装置のモジュール構成を示すブロック図である。 実施例1における素片選択装置の処理の流れを示すフローチャートである。 実施例1におけるピッチ周期比の定義を説明する図である。 音声合成に適する合成素片と不適切な合成素片の一例を示す図である。
符号の説明
101 制御メモリ(ROM)
102 中央処理装置
103 メモリ(RAM)
104 外部記憶装置
105 バス
201 合成素片セット
202 ピッチ周期比算出部
203 ピッチ周期比保持部
204 素片フィルタルール
205 素片フィルタ処理部
401 波形
402 ピッチマーク
501 波形
502 波形
503 ピッチマーク
504 ピッチマーク

Claims (11)

  1. 音声合成のための素片選択装置において、
    合成素片に属するピッチ波形のピッチ周期を基に隣接するピッチ波形のピッチ周期比あるいは差を算出するピッチ周期比算出手段と、
    合成素片の適正条件を少なくともピッチ周期比あるいは差を基に記述した素片フィルタルールと、
    前記ピッチ周期比算出手段が算出したピッチ周期比あるいは差を基に前記素片フィルタルールに従って不適切な合成素片を合成素片セットから除外する素片フィルタ手段と、
    を備えることを特徴とする素片選択装置。
  2. 前記素片フィルタルールにおいて、
    ピッチ周期比あるいは差が値1以下、乃至、値2以上である合成素片を不適切な合成素片と判定する、
    ことを特徴とする請求項1記載の素片選択装置。
  3. 前記素片フィルタルールにおいて、
    前記値1が1.3またはその近傍の値、乃至、前記値2が1/1.3であることを特徴とする請求項2記載の素片選択装置。
  4. 前記素片フィルタルールにおいて、
    合成素片の音韻環境が無音直前である場合、
    ピッチ周期比あるいは差の満足すべき最低値条件をより厳しくする
    ことを特徴とする請求項2記載の素片選択装置。
  5. 請求項1記載の素片選択装置を有することを特徴とする音声合成装置。
  6. 音声合成のための素片選択方法において、
    合成素片に属するピッチ波形のピッチ周期を基に隣接するピッチ波形のピッチ周期比あるいは差を算出するピッチ周期比算出工程と、
    合成素片の適正条件を少なくともピッチ周期比あるいは差を基に記述した素片フィルタルールと、
    前記ピッチ周期比算出工程が算出したピッチ周期比あるいは差を基に前記素片フィルタルールに従って不適切な合成素片を合成素片セットから除外する素片フィルタ工程と、
    を備えることを特徴とする素片選択方法。
  7. 前記素片フィルタルールにおいて、
    ピッチ周期比あるいは差が値1以下、乃至、値2以上である合成素片を不適切な合成素片と判定する、
    ことを特徴とする請求項6記載の素片選択方法。
  8. 前記素片フィルタルールにおいて、
    前記値1が1.3またはその近傍の値、乃至、前記値2が1/1.3であることを特徴とする請求項7記載の素片選択方法。
  9. 前記素片フィルタルールにおいて、
    合成素片の音韻環境が無音直前である場合、
    ピッチ周期比あるいは差の満足すべき最低値条件をより厳しくする
    ことを特徴とする請求項7記載の素片選択方法。
  10. 請求項6記載の素片選択方法を有することを特徴とする音声合成方法。
  11. 請求項6乃至請求項9記載のいずれかに素片選択方法をコンピュータに実行させるための制御プログラム。
JP2005234447A 2005-08-12 2005-08-12 素片選択装置及び素片選択方法 Withdrawn JP2007047673A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005234447A JP2007047673A (ja) 2005-08-12 2005-08-12 素片選択装置及び素片選択方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005234447A JP2007047673A (ja) 2005-08-12 2005-08-12 素片選択装置及び素片選択方法

Publications (1)

Publication Number Publication Date
JP2007047673A true JP2007047673A (ja) 2007-02-22

Family

ID=37850525

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005234447A Withdrawn JP2007047673A (ja) 2005-08-12 2005-08-12 素片選択装置及び素片選択方法

Country Status (1)

Country Link
JP (1) JP2007047673A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010145794A (ja) * 2008-12-19 2010-07-01 Casio Computer Co Ltd 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010145794A (ja) * 2008-12-19 2010-07-01 Casio Computer Co Ltd 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム

Similar Documents

Publication Publication Date Title
JP4946293B2 (ja) 音声強調装置、音声強調プログラムおよび音声強調方法
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
US20150213836A1 (en) Apparatus and method for editing
JP2008225254A (ja) 音声合成装置及び方法並びにプログラム
JP4632384B2 (ja) 音声情報処理装置及びその方法と記憶媒体
JPWO2012063424A1 (ja) 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム
JP2019148681A (ja) テキスト修正装置、テキスト修正方法およびテキスト修正プログラム
JP2001282278A (ja) 音声情報処理装置及びその方法と記憶媒体
JP2008139631A (ja) 音声合成方法、装置、プログラム
JP4639932B2 (ja) 音声合成装置
JP6669081B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP3728173B2 (ja) 音声合成方法、装置および記憶媒体
US20150051911A1 (en) Method for dividing letter sequences into pronunciation units, method for representing tones of letter sequences using same, and storage medium storing video data representing the tones of letter sequences
JP2007047673A (ja) 素片選択装置及び素片選択方法
JP2006337476A (ja) 音声合成方法および装置
JP2011242637A (ja) 音声編集装置
JP4525162B2 (ja) 音声合成装置及びそのプログラム
JP6472342B2 (ja) 音声合成装置、音声合成方法、およびプログラム
JP2002287785A (ja) 音声セグメンテーション装置及びその方法並びにその制御プログラム
CN109389969B (zh) 语料库优化方法及装置
WO2011030424A1 (ja) 音声合成装置およびプログラム
JP2006243104A (ja) 音声合成方法
US11830481B2 (en) Context-aware prosody correction of edited speech
JP2007127994A (ja) 音声合成方法及び音声合成装置並びにプログラム
WO2017028003A1 (zh) 基于隐马尔科夫模型的语音单元拼接方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20081104