JP4267954B2 - 概周期信号生成方法、装置、それを用いた音声合成方法、装置、音声合成プログラムおよびその記録媒体 - Google Patents

概周期信号生成方法、装置、それを用いた音声合成方法、装置、音声合成プログラムおよびその記録媒体 Download PDF

Info

Publication number
JP4267954B2
JP4267954B2 JP2003109809A JP2003109809A JP4267954B2 JP 4267954 B2 JP4267954 B2 JP 4267954B2 JP 2003109809 A JP2003109809 A JP 2003109809A JP 2003109809 A JP2003109809 A JP 2003109809A JP 4267954 B2 JP4267954 B2 JP 4267954B2
Authority
JP
Japan
Prior art keywords
speech
periodic signal
amplitude
period
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003109809A
Other languages
English (en)
Other versions
JP2004317694A (ja
Inventor
健太郎 石塚
清明 相川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003109809A priority Critical patent/JP4267954B2/ja
Publication of JP2004317694A publication Critical patent/JP2004317694A/ja
Application granted granted Critical
Publication of JP4267954B2 publication Critical patent/JP4267954B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、雑音下でも聴き取りやすい母音および有声子音の音声合成方法、その装置、音声合成プログラムおよびその記録媒体に関し、特に、母音および有声子音を合成する際に用いられる概周期信号の生成に関する。
【0002】
【従来の技術】
現在主流となっている音声合成方式を大別すると2種類に分類することができる。一つは、有声音(母音および有声子音)/無声音(無声子音)を決定する駆動音源と、音韻性を決定する調音フィルタを用い、駆動音源を調音フィルタによってフィルタリングすることで音声合成を行う音源−フィルタ方式の音声合成方法である(非特許文献1 参照)。もう一方は、録音された実際の音声を短い時間単位で素片に分割してデータベースに蓄積し、その素片を適切に連結することによって音声合成を行う波形接続方式の音声合成方法である(非特許文献2 参照)。
【0003】
人間の音声のうち有声音部分においては、音声を自然に発声した場合、または発声音が一定の音高となるよう発声した場合でも、その音声の基本周波数は決して一定ではなく、必ず平均基本周波数の3%前後に相当する狭い帯域幅を持つ、不規則で微細な基本周波数の時間変動(周期波形の繰り返し周期の時間伸縮)が発生している。この音声の性質は従来知られており、一般にジッタ(jitter)と呼ばれ、声帯振動の不規則性に由来する(非特許文献3 参照)。
通常、人間の聴覚はジッタを基本周波数の変動として明確には知覚できないが、音声合成技術においては、合成音声の有声音部分に対し人工的なジッタを与えることで、与えない場合に比べ合成音声の自然性や明瞭度が向上することが従来知られている(非特許文献1 参照)。そのため、多くの音声合成方式では合成音声の有声音部分の品質向上のために、人間の聴覚ではほぼ知覚されない範囲で、すなわち自然発声母音と同等の帯域幅に相当する平均基本周波数の3%以下の帯域幅を持つジッタを与えて音声合成を行っている。
【0004】
また、ジッタ以外にも音声の基本周波数が時間変動する現象として、歌唱音声の有声音部分において、6.6Hz程度の周波数を持つ正弦波に従って音声の基本周波数をその平均基本周波数の3%から6%程度周波数変調する歌唱技術があり、これはビブラートと呼ばれている。ビブラートはプロの歌唱者の歌唱時にのみ観察され、その点でいかなる話者のいかなる有声音部分でも自然に発生しているジッタとは異なる。ビブラートを含む歌唱音声の合成方法は種々提案されている(特許文献1 参照)が、元来人間が自然音声にビブラートをつけることがないため、歌唱音声の合成以外の目的で音声合成に適用された例はない。また一般には、歌唱音声においてビブラートがあった場合でも、静かな環境における母音の明瞭度の向上には寄与しないとされている。
一方、合成音声の利用場面において、周囲環境に雑音が存在した場合でも聴取者が合成音声を聴き取ることができるようにするために、周囲環境の雑音のパワースペクトルを解析し、そのスペクトル形状に応じて合成音声のパワースペクトルを強調するよう制御し、合成音声の音の大きさを特定の周波数帯域において周囲環境の雑音に対し相対的に上昇させることによって、雑音下でも聴取者に聴き取り易い音声を合成する方法が提案されている(特許文献2 参照)。
【0005】
【非特許文献1】
D.H.Klatt and L.C. Klatt,“Analysis, synthesis, and perception of voice quality variations among female and male talkers, ”The Journal of the Acoustical Society of America, Vol.87,pp.820-857,1990
【非特許文献2】
F.Chanpentier and M. Stella,“Diphone synthesis using an overlap-add technique for speech waveform concatenation, ”Proceedings of IEEE International Conference on Acoustic, Speech and Signal Processing, pp.2015-2018,1986
【非特許文献3】
Y.Horii,“Fundamental frequency perturbation observed in sustained phonation,”The Journal of Speech and Hearing Research, Vol.22,pp.5-19, 1979
【特許文献1】
特開平10−319984号公報
【特許文献2】
特開平5−307395号公報
【0006】
【発明が解決しようとする課題】
従来のジッタあるいはビブラートを付加した音声合成方法では、周囲が静かな環境で合成音声を聴く場合での合成音声の自然性や明瞭度の向上を目指したものが多く、その利用に際し、周囲環境に雑音がある場合の聴き取り易さは考慮されておらず、ジッタあるいはビブラートを付加しない合成音声と比べて平均母音識別率は同程度であった。また、周囲環境の雑音を解析して合成音声のパワースペクトルを強調することで合成音声を聴き取り易くする方法においては、周囲環境の雑音を計測するために必ずマイクなどの集音機器が必要であり、加えて周囲環境の雑音の時間的な変化に応じて合成音声の音の大きさが変化することで不自然さが増し、かえって合成音声そのものの聴き取りを妨げる可能性もある。
この発明の目的は、周囲環境に雑音が存在する場合に、合成音声の音の大きさそのものを変化させることなく、合成音声の有声音に与えるジッタの帯域幅が平均基本周波数の4%以上となるように、その周期を不規則に時間伸縮することにより、人間の聴覚特性上、聴取者が雑音下でも聴き取り易い音声を合成する技術を提供することにある。特に、有声音を合成する際に必要となる駆動音源あるいは音声波形素片の接続周期として用いられる概周期信号の生成方法、それを適用した音声合成方法、その装置、プログラムおよびその記録媒体を提供する。
【0007】
【課題を解決するための手段】
請求項1の発明では、平均基本周期の4%以上に相当する伸縮幅で周期長が不規則に時間伸縮しその時間伸縮幅の周波数スペクトルが周波数に反比例する周波数特性を持つ概周期信号を用いた、雑音下でも聴き取りやすい有声音声合成のために用いられる概周期信号の生成方法を提案する。
請求項2の発明では、請求項1に記載の概周期信号生成方法で生成された概周期信号を用いた、音源−フィルタ方式の音声合成方法を提案する。
請求項3の発明では、請求項1に記載の概周期信号生成方法で生成された概周期信号を用いた、波形接続方式の音声合成方法を提案する。
【0008】
請求項4の発明では、平均基本周期の4%以上に相当する伸縮幅で周期長が不規則に時間伸縮しその時間伸縮幅の周波数スペクトルが周波数に反比例する周波数特性を持つ概周期信号を用いた、雑音下でも聴き取りやすい有声音声合成のために用いられる概周期信号の生成装置を提案する。
請求項5の発明では、請求項4に記載の概周期信号生成装置で生成された概周期信号を用いた、音源−フィルタ方式の音声合成装置を提案する。
請求項6の発明では、請求項4に記載の概周期信号生成装置で生成された概周期信号を用いた、波形接続方式の音声合成装置を提案する。
【0009】
請求項7の発明では、請求項4から6のいずれかに記載された装置としてコンピュータを機能させるためのプログラムを提案する。
請求項8の発明では、請求項7記載のプログラムを記録したコンピュータ読み取り可能な記録媒体を提案する。
【0010】
【発明の実施の形態】
(概周期信号)
自然発声された有声音の波形を観測すると、短時間内ではほぼ同一の形状を持つ波形の周期的な繰り返しを観測することができる。この繰り返し周期は短時間内でほぼ一定とみなすことができるが、実際は1周期ごとにその時間長が不規則かつ微細に伸縮している。このような性質を持つ信号を一般に概周期信号と呼ぶ。有声音を合成する際には、その周期を与えるために、上述の性質を持つ概周期信号を与える必要がある。本発明ではこの概周期信号を生成する。
合成音声の基本的な音の高さやイントネーションに係わる、有声音の平均基本周期を入力として周期信号を生成し、その各周期に対して不規則信号を元に時間伸縮を与え、結果得られた概周期信号を出力とする。その時間伸縮を与えるために、周波数に反比例する周波数特性、すなわち低周波数帯域のパワーが強く高周波数帯域のパワーが低い周波数特性を持つ不規則信号を用いる。
【0011】
図1を参照して概周期信号生成装置及び方法を説明する。
不規則信号生成部11において、この性質を持つ不規則信号を生成する。この不規則信号はfBm法(S.P.V.Pallati and E.A.Yfantis,“A Fast Fourier Method for Mountain Generation,”Intelligent Systems, Kluwer Academic Publishers, pp.885-895,1995 )によって人工的に生成することができる。また、自然発声された音声の有声音部分にピークピッキング法(Y.Horii,“Fundamental frequency perturbation observed in sustained phonation,”Journal of Speech and Hearing Research, Vol.22,pp5-19, 1979)を用いた場合でも、同様の性質の不規則信号を得ることができる。fBm法によって得られた不規則信号の波形とその周波数スペクトルを図2に示す。
最大時間伸縮幅の算出部12では、入力として与えられた有声音の平均基本周期に4%以上の数を乗ずることにより、概周期信号の各周期の最大時間伸縮幅を得る。
振幅の正規化部13では、不規則信号生成部11で得られた不規則信号の振幅幅(最大振幅と最小振幅の差)が、最大時間伸縮幅の算出部12で得られた最大時間伸縮幅と等しくなるよう正規化を行う。
不規則信号系列をr、その振幅幅をWr、最大時間伸縮幅の算出部12で得られた最大時間伸縮幅をWtとすると、次式に従い正規化された不規則信号系列R(0を基準とした+,−信号系列)を得る。
R=r×Wt/Wr
このようにして得られた不規則信号系列Rと入力である平均基本周期を基に、概周期信号生成部14において概周期信号を生成する。概周期信号生成部14では、まず、不規則信号系列Rに平均基本周期を合算し(すなわち、不規則信号を元に平均基本周期の時間軸に対する位置を変化させる)、概周期信号列Tを得る。すなわち、概周期信号列Tの各周期が不規則信号の各振幅値に対応した周期幅を持つパルス信号列を生成する。こうして得られたパルス信号列は、各周期の周期幅が不規則で微細に時間伸縮する、所望の概周期信号となる。概周期信号列Tの振幅値から得られた、概周期信号の性質を持つパルス信号列を図3に示す。
【0012】
(音声合成)
上述のようにして得られた概周期信号の性質を持つパルス列は音声合成に用いることができる。この概周期信号を音源−フィルタ方式の音声合成方法の駆動音源に用いる、もしくは波形接続方式の音声合成方法の音声波形素片の接続周期に用いるなど、所望の合成音声を得るために有声音部分の基本周期の情報を用いる音声合成法に対して適用可能である。この概周期信号を用いて生成される、通常よりも大きな帯域幅を持つ合成音声の有声音は、ジッタやビブラートを持たない合成音声と同じ音の大きさであっても、人間の聴覚特性上、周囲環境に雑音がある場合でも聴き取り易い音声となる。
図4にこの発明による一実施例である音源−フィルタ方式の音声合成方式による音声合成装置を参照して音声合成装置及び方法を説明する。
図中21は駆動音源装置として概周期信号を用いた場合の概周期信号生成装置を表す。この発明による音声合成装置は概周期信号生成装置21と、白色雑音生成装置22と、信号切替器23と、フィルタリング処理部24によって構成される。
概周期信号生成装置21では、前記した概周期信号生成方法を元に、入力となる平均基本周期と不規則信号から概周期信号を生成して出力する。
白色雑音生成装置22では、白色雑音(振幅が正規分布に従いランダムに決定される信号系列)を生成する。
信号切替器23では、所望の合成音声の有声/無声に従い、有声音の場合は概周期信号を選択して出力し、無声子音などの無声音の場合は白色雑音を選択して出力する。
フィルタリング処理手段24では、信号切替器23の出力に対し、所望の合成音声を得るために必要な調音フィルタを用いてフィルタリングを行う。所望の合成音の調音フィルタは事前にデータベースなどに蓄積しておき、合成時に適切な調音フィルタが選択されるようにしておく。このフィルタリング処理の結果、出力として所望の合成音声を得ることができる。
上述した例はこの発明による概周期信号に基づく有声音の駆動音源装置を用いた、音源−フィルタ方式の音声合成装置である。
【0013】
また、波形接続方式の音声合成において、波形選択部により素片辞書から取り出した音声波形素片の接続周期として、不規則信号生成部において生成された不規則信号を元に時間軸の伸縮を行い音声の単位波形とし、波形接続部により適切に連結することにより所望の合成音声を得ることができる。
【0014】
上述したこの発明による概周期信号生成方法、およびそれを用いた音声合成法は、コンピュータが読み取り可能な符号によって記述されたプログラムをコンピュータに実行させることによって実現される。これらのプログラムは例えば磁気ディスクあるいはCD-ROMのようなコンピュータが読み取り可能な記憶媒体に記憶され、記憶媒体からコンピュータにインストールするか或いは通信回線を通じてインストールされて実行される。
【0015】
【発明の効果】
調波複合音を妨害音とし、例示した概周期信号に基づく駆動音源装置を用いた音源−フィルタ方式による音声合成装置により生成された、日本語の合成母音「あ」「い」「う」「え」「お」を目的音として、妨害音と目的音の信号対雑音比が−10dBとなるよう調整した条件下において、日本人の被験者20名に単母音の識別を行ってもらった場合の平均母音識別率を図5に示す。調波複合音とはある周波数を持つ正弦波とその周波数の整数倍の周波数を持つ正弦波から構成される音を指し、ここでは実世界における音声や楽器音などと類似した性質を持つ人工音である。ここで用いた調波複合音の基本周波数は、目的音の合成母音の平均基本周波数と同じものを用いた。図5の横軸は合成母音のジッタの帯域幅が平均基本周波数の0%の場合、すなわちジッタを全く持たない合成母音を目的音とした場合と、この発明で提案する、平均基本周波数の4%以上の帯域幅である4.3%の帯域幅ののジッタを持つ合成母音を目的音とした場合を示し、縦軸は日本語5母音の被験者全員についての平均識別率を示している。合成母音の音の大きさは全て等しい。帯域幅が合成母音の平均基本周波数の0%である場合には、平均母音識別率は38.8%であるが4.3%の場合は55.0%にまで改善する。
図5に示されたとおり、妨害音が目的音である合成音声に対して10倍のパワーを持つような、かなり強い雑音下においても、本発明の手法により、合成音声の音の大きさを変えることなく、人間の聴覚特性上聴き取り易い音声を合成する効果が得られる。
【図面の簡単な説明】
【図1】本発明の実施例を示す概周期信号生成装置の構成図。
【図2】概周期信号生成に用いる不規則信号の波形とその周波数スペクトルを示す図。
【図3】本発明により生成される概周期信号の性質を持つパルス列の例を示す図。
【図4】本発明の実施例を示す音源ーフィルタ方式を用いた音声合成装置の構成図。
【図5】本発明の効果検証のための被験者実験の結果を示すグラフ。
【符号の説明】
11・・・不規則信号生成部、12・・・最大時間伸縮幅の算出部、13・・・振幅の正規化部、14・・・概周期信号生成部、21・・・概周期信号生成装置、22・・・白色雑音生成装置、23・・・信号切替器、24・・・フィルタリング処理部

Claims (8)

  1. 母音および有声子音の平均基本周期を生成する手順と、
    周波数に反比例する周波数特性を持つ不規則信号を生成する手順と、
    前記平均基本周期に4%以上の数を乗ずることにより、平均基本周期に対して付与する時間伸縮幅の最大値を算出する手順と、
    前記不規則信号の最大振幅と最少振幅との差である振幅幅が前記時間伸縮幅の最大値と等しくなるよう不規則信号の振幅を正規化する手順と、
    前記振幅を正規化した不規則信号の系列の各値に前記平均基本周期を加算した系列の各値に対応した周期幅を持つパルス信号列を概周期信号として生成する手順と、
    を備えたことを特徴とする概周期信号生成方法。
  2. 有声音/無声音を決定する駆動音源と音韻性を決定する調音フィルタを用い、駆動音源を調音フィルタによってフィルタリングすることにより音声合成を行う音声合成方法において、
    駆動音源として請求項1に記載の概周期信号の生成方法により生成された概周期信号を用いることを特徴とする音声合成方法。
  3. 音声を分割した音声波形素片を選択して適切に連結することにより音声合成を行う音声合成方法において、
    音声波形素片の接続周期として請求項1に記載の概周期信号の生成方法により生成された概周期信号を用いることを特徴とする音声合成方法。
  4. 母音および有声子音の平均基本周期を生成する平均基本周期生成部と、
    周波数に反比例する周波数特性を持つ不規則信号を生成する不規則信号生成部と、
    前記平均基本周期に4%以上の数を乗ずることにより、平均基本周期に対して付与する時間伸縮幅の最大値を算出する最大時間伸縮幅の算出部と、
    前記不規則信号の最大振幅と最少振幅との差である振幅幅が前記時間伸縮幅の最大値と等しくなるよう不規則信号の振幅を正規化する振幅の正規化部と、
    前記振幅を正規化した不規則信号の系列の各値に前記平均基本周期を加算した系列の各値に対応した周期幅を持つパルス信号列を概周期信号として生成する概周期信号生成部と、
    を備えたことを特徴とする概周期信号生成装置。
  5. 有声音/無声音を決定する駆動音源と音韻性を決定する調音フィルタを用い、駆動音源を音韻性を決定する調音フィルタによってフィルタリングすることにより音声合成を行う音声合成装置において、
    駆動音源として請求項4に記載の概周期信号の生成装置により生成された概周期信号を用いることを特徴とする音声合成装置。
  6. 音声を音声波形素片に分割した音声波形素片を選択して適切に連結することにより音声合成を行う音声合成装置において、
    音声波形素片の接続周期として請求項1に記載の概周期信号の生成方法により生成された概周期信号を用いることを特徴とする音声合成装置。
  7. 請求項4から6のいずれかに記載された装置としてコンピュータを機能させるためのプログラム。
  8. 請求項7記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2003109809A 2003-04-15 2003-04-15 概周期信号生成方法、装置、それを用いた音声合成方法、装置、音声合成プログラムおよびその記録媒体 Expired - Fee Related JP4267954B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003109809A JP4267954B2 (ja) 2003-04-15 2003-04-15 概周期信号生成方法、装置、それを用いた音声合成方法、装置、音声合成プログラムおよびその記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003109809A JP4267954B2 (ja) 2003-04-15 2003-04-15 概周期信号生成方法、装置、それを用いた音声合成方法、装置、音声合成プログラムおよびその記録媒体

Publications (2)

Publication Number Publication Date
JP2004317694A JP2004317694A (ja) 2004-11-11
JP4267954B2 true JP4267954B2 (ja) 2009-05-27

Family

ID=33470834

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003109809A Expired - Fee Related JP4267954B2 (ja) 2003-04-15 2003-04-15 概周期信号生成方法、装置、それを用いた音声合成方法、装置、音声合成プログラムおよびその記録媒体

Country Status (1)

Country Link
JP (1) JP4267954B2 (ja)

Also Published As

Publication number Publication date
JP2004317694A (ja) 2004-11-11

Similar Documents

Publication Publication Date Title
EP2264696B1 (en) Voice converter with extraction and modification of attribute data
Saitou et al. Speech-to-singing synthesis: Converting speaking voices to singing voices by controlling acoustic features unique to singing voices
Cooke et al. Evaluating the intelligibility benefit of speech modifications in known noise conditions
JP4705203B2 (ja) 声質変換装置、音高変換装置および声質変換方法
JP5103974B2 (ja) マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム
EP1612770A1 (en) Voice processing apparatus and program
JP4516157B2 (ja) 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
US11727949B2 (en) Methods and apparatus for reducing stuttering
Bangayan et al. Analysis by synthesis of pathological voices using the Klatt synthesizer
Raitio et al. Phase perception of the glottal excitation and its relevance in statistical parametric speech synthesis
JP2002268658A (ja) 音声分析及び合成装置、方法、プログラム
JP2012208177A (ja) 帯域拡張装置及び音声補正装置
Ruinskiy et al. Stochastic models of pitch jitter and amplitude shimmer for voice modification
JP4267954B2 (ja) 概周期信号生成方法、装置、それを用いた音声合成方法、装置、音声合成プログラムおよびその記録媒体
JP4349316B2 (ja) 音声分析及び合成装置、方法、プログラム
JP4963345B2 (ja) 音声合成方法及び音声合成プログラム
JP6834370B2 (ja) 音声合成方法
Stables et al. Fundamental frequency modulation in singing voice synthesis
Anikin Package ‘soundgen’
JP5745453B2 (ja) 音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム
Aoki et al. Enhancing the naturalness of synthesized speech by using the random fractalness of vowel source signals
JP2004258422A (ja) 音源情報を用いた音源分離・抽出方法および装置
JP2000099100A (ja) 音声変換装置
JP2000242287A (ja) 発声補助装置およびプログラム記録媒体
Clements et al. Talker-to-Listener Distance Effects on Speech Production and Perception

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050725

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20050725

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090210

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090219

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120227

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130227

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees