JP2008165113A - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
JP2008165113A
JP2008165113A JP2007000173A JP2007000173A JP2008165113A JP 2008165113 A JP2008165113 A JP 2008165113A JP 2007000173 A JP2007000173 A JP 2007000173A JP 2007000173 A JP2007000173 A JP 2007000173A JP 2008165113 A JP2008165113 A JP 2008165113A
Authority
JP
Japan
Prior art keywords
vowel
speech
waveform
noise
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007000173A
Other languages
English (en)
Inventor
Kazuhide Okada
一秀 岡田
Hiroshi Kurita
洋 栗田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2007000173A priority Critical patent/JP2008165113A/ja
Publication of JP2008165113A publication Critical patent/JP2008165113A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 合成音の質を向上させることができる音声合成装置を提供する。
【解決手段】 音声合成装置1は、入力音声信号をフィルタリング処理し、線形予測残差信号を得る分析フィルタ2と、線形予測残差の自己相関関数(残差相関関数)の波形信号を分析する音源特性分析器3と、残差相関関数の雑音比に基づいて母音波形であるかどうかを判断する母音検出部4と、母音波形の極の尖頭度や母音波形におけるフレーム区間内のゼロクロス数から、母音波形の母音種を特定する母音種抽出部5と、母音種に応じた周期パターンを発生させる周期信号発生器9及び雑音パターンを発生させる雑音信号発生器10とを有する音源部6と、雑音パターンをフィルタリング処理する合成フィルタ7と、合成フィルタ7をバイパスした周期パターンと合成フィルタ7を通過した雑音パターンとを合成して、合成音を生成する音声合成部8とを備えている。
【選択図】 図1

Description

本発明は、音声を人工的に作り出す音声合成装置に関するものである。
従来の音声合成装置としては、例えば特許文献1に記載されているものが知られている。特許文献1に記載の音声合成装置は、パルス発生器及び雑音発生器を有する音源モジュールと、この音源モジュールから供給された周波数信号に対してフィルタリング処理を施して音声波形信号を生成する声道フィルタと、この音声波形信号の振幅を調整して出力する振幅調整回路とを備えている。
特開2001−117576号公報
しかしながら、上記従来技術においては、以下の問題点が存在する。即ち、音源モジュールのパルス発生器からはピッチ周波数(母音)に応じたインパルス信号(周期関数)が出力されるが、声道フィルタのフィルタリング処理によって当該周期関数の変形が生じ、この変形が合成音の質を低下させてしまう。
本発明の目的は、合成音の質を向上させることができる音声合成装置を提供することである。
本発明の音声合成装置は、音声波形信号から母音波形信号を検出する母音検出手段と、母音波形信号の母音種を抽出する母音種抽出手段と、母音種に応じた周期パターンを発生させる周期パターン発生手段と、音声波形信号のうち母音波形信号以外の信号に対応する雑音パターンを発生させる雑音パターン発生手段と、雑音パターンをフィルタリング処理するフィルタ手段と、フィルタ手段を通過した雑音パターンと周期パターンとを合成して、合成音を生成する手段とを備えることを特徴とするものである。
このような本発明の音声合成装置においては、母音検出手段によって音声波形信号から母音波形信号が検出されると、その母音波形信号の母音種を抽出し、当該母音種に応じた周期パターンを発生させる。一方、音声波形信号から母音波形信号以外の信号が検出されたときは、雑音パターンを発生させ、更にその雑音パターンをフィルタ手段に通してフィルタリング処理する。そして、そのフィルタ手段を通過した雑音パターンと周期パターンとを合成して、合成音を生成する。このように本発明では、母音波形信号の母音種に応じた周期パターンを直接発生させるので、周期パターンを発生させる際に、固定された三角波等で近似する必要がない。これに加え、周期パターン発生手段で発生した周期パターンについては、フィルタ手段を通さずにバイパスするので、母音種に応じた周期パターンがフィルタリング処理による変形を受けることが無い。これにより、最終的に生成される合成音の質が向上する。
好ましくは、フィルタ手段が格子型フィルタである。例えば音声分析合成系で使用されるフィルタ手段としては、安定性の良い格子型フィルタが好適である。
また、好ましくは、母音検出手段は、音声波形信号の雑音比に基づいて母音波形信号を検出する。この場合、例えば音声波形信号の雑音比が所定値より低いときに、周期性の高い母音波形と判断することができる。従って、音声波形信号から母音波形信号を簡単な手法で且つ確実に検出することが可能となる。
さらに、母音種抽出手段は、母音波形信号の極の尖頭度及び母音波形信号において所定時間内に振幅0の基線をクロスする数の少なくとも一方に基づいて、母音種を抽出する。母音波形の極の尖頭度及び母音波形において所定時間内に振幅0の基線をクロスする数(ゼロクロス数)は、いずれも5つの母音種毎に異なっている。従って、そのような極の尖頭度やゼロクロス数を検出することで、母音波形信号の母音種を母音波形信号から直接的に簡単に抽出することができる。
本発明によれば、音声合成装置により得られる合成音の質を向上させることができる。これにより、品質の良い音声合成装置を提供することが可能となる。
以下、本発明に係わる音声合成装置の好適な実施形態について、図面を参照して詳細に説明する。
図1は、本発明に係わる音声合成装置の一実施形態を示す概略構成図である。同図において、本実施形態の音声合成装置1は、音声分析合成系(ここではPARCOR分析合成系)を有するパラメータ編集方式の音声合成装置であり、例えばナビゲーション端末等に適用される。
音声合成装置1は、分析フィルタ2と、音源特性分析器3と、母音検出部4と、母音種抽出部5と、音源部6と、合成フィルタ7と、音声合成部8とを備えている。ここで、分析フィルタ2、音源特性分析器3、母音検出部4及び母音種抽出部5は、音声合成装置1の分析系を構成し、音源部6及び合成フィルタ7は、音声合成装置1の合成系を構成している。なお、音声合成装置1の合成系において、音源部6が人間の口の中の声帯(声門)に相当し、合成フィルタ7が人間の口の中の声道に相当している。
分析フィルタ2には、例えば人間の音声が入力される。分析フィルタ2は、複数の相関器を有する格子型フィルタで構成されている。分析フィルタ2は、入力された音声信号のスペクトルをフィルタリング(平滑化)処理し、線形予測残差信号を得る。また、分析フィルタ2は、音声の源波形に含まれる相関性を表現するための複数のPARCOR係数(線形予測係数)を10〜40msに1回ずつ抽出する。なお、PARCOR係数は、声道の節ごとの断面積比の関数に相当する。
分析フィルタ2では、音声信号が各相関器を通過する過程で、音声信号に含まれる声道特性が除去されるため、最終段の出力つまり線形予測残差信号としては音源特性のみが残ることになる。従って、この線形予測残差信号を分析することで、音源に関する音声パラメータ(後述)を抽出することができる。なお、分析フィルタ2を構成する格子型フィルタは、線形予測残差を求めるのに最適なフィルタである。
分析フィルタ2により得られた線形予測残差信号は、音源特性分析器3に送られる。音源特性分析器3は、線形予測残差の自己相関関数(残差相関関数)を求める自己相関器を有し、残差相関関数の波形信号を分析して、音声合成に必要な特徴要素である音声パラメータ(振幅及びピッチ等)を例えば30msのフレーム毎に抽出する。残差相関関数は、音源特性分析器3の自己相関器によって得られた音声波形信号である。
残差相関関数の一例を図2に示す。残差相関関数ACFεは、下記式で表される。
ACFε=X(t)-(X(t-1)*A0+X(t-2)*A1+X(t-3)*A2+… +X(t-p)*Ap-1)
X(t):時刻tにおけるサンプリング値
An:n次目の線形予測係数(LPC係数)
音源特性分析器3で求められた残差相関関数は、母音検出部4に送られる。母音検出部4は、残差相関関数の正規化極の振幅比(雑音比)を求め、この雑音比に基づいて母音であるかどうかを判断する。この処理は、上記音声パラメータの抽出と同様に、例えば30msのフレーム毎に行われる。
残差相関関数の雑音比は、図2に示すように、残差相関関数の極大値rと所定時間経過後の残差相関関数の振幅値NACFεとの比(NACFε/r)で表される。ここで、母音波形は、図3に示すように、雑音成分が少なく周期性の高い音声波形である。図3(a)は、「a」発話時の音声波形例であり、図3(b)は、「u」発話時の音声波形例であり、図3(c)は、「o」発話時の音声波形例である。なお、各図において、上の音声波形は女性が発話したものであり、下の音声波形は男性が発話したものである。
具体的には、母音検出部4は、残差相関関数の雑音比が所定値よりも小さい(例えば0に近い)ときは、周期性の高い母音(有声音)であると判定し、残差相関関数の雑音比が所定値よりも大きいときは、雑音成分が多い無声音であると判定する。
このような母音検出部4による判別結果は、母音種抽出部5及び音源部6に送られる。母音種抽出部5は、母音検出部4により母音波形と判定されたときに、その母音波形が5つの母音の何れの波形であるかを特定する。なお、日本語では、各単音の後ろ半分は必ず母音となる。そこで、母音種の特定処理は、音声波形の振幅励起区間の後ろ半分に対して行われる。
ここで、図4に示すような母音波形において、極Pの尖頭度(尖り具合)や、フレームF区間内において振幅0の基線Qをクロスする数(ゼロクロス数)は、5つの母音によって異なっている。例えば図4に示すものでは、ゼロクロス数は6である。そこで、母音種抽出部5は、母音波形の極Pの尖頭度及び母音波形におけるフレームF区間内のゼロクロス数の少なくとも一方に基づいて、母音波形の母音種を同定する。このような手法を用いれば、母音波形から直接的に簡単に母音種を抽出することができる。
また、母音種の同定は、音素を特徴づける優勢な周波数成分(フォルマント周波数)の分布に基づいて行うこともできる。図5(a)〜図5(e)は、「a」、「i」、「u」、「e」、「o」について、第1フォルマント周波数(F1)と第2フォルマント周波数(F2)との分布の一例を示したものである。
音源部6は、有声(母音)音源である周期信号発生器9と、無声音源である雑音信号発生器10と、増幅器11,12とを有している。
周期信号発生器9は、母音種抽出部5で抽出された母音種に応じた周波数(ピッチ)の周期パターン(周期信号)を発生させる。この周期パターンとしては、三角波や矩形波等が用いられる。このとき、母音種に応じた周波数の周期パターンを直接生成しても良いし、音源特性分析器3で抽出したピッチに応じて周波数を逓倍して周期パターンを生成しても良い。
雑音信号発生器10は、母音検出部4により無声音と判定されたときに、雑音パターン(雑音信号)として白色雑音を発生させる。増幅器11は、音源特性分析器3で抽出した振幅に応じて周期パターンを増幅させ、増幅器12は、音源特性分析器3で抽出した振幅に応じて雑音パターンを増幅させる。
音源部6により得られた雑音パターンは、合成フィルタ7に入力される。合成フィルタ7は、分析フィルタ2と同様に格子型フィルタで構成されている。合成フィルタ7は、分析フィルタ2で抽出されたPARCOR係数を用いて、分析の逆過程によってフィルタリング処理する。このフィルタリング処理された雑音パターンは、音声合成部8に供給される。
音源部6により得られた周期パターンは、合成フィルタ7をバイパスして音声合成部8に供給される。そして、音声合成部8において、その周期パターンと合成フィルタ7を通過した雑音パターンとが合成されてなる合成音が生成(再生)され、出力音声となる。
ところで、母音を主体とする周期性の高い音声波形が入力されたときに、固定化した三角波等で近似(モデル化)した周期関数(周期パターン)を発生させると、音声合成を行う際の精度が低下する。これを回避するには、母音種に応じた周期関数を発生させれば良い。しかし、このような周期関数でも、格子型フィルタに通すと、フィルタリングによる変形を受けてしまう。この周期関数の変形は、合成音の質の低下につながる。
これに対し本実施形態では、入力音声を分析して残差相関関数を求め、この残差相関関数の雑音比に基づいて母音波形かどうかを判定する。そして、音声波形が母音波形と判定されたときは、母音波形の母音種を特定し、この母音種に応じた周期パターンを発生させ、この周期パターンを合成フィルタ7に通さずに直接音声として出力する。一方、音声波形が母音波形でないと判定されたときは、雑音パターンを発生させ、この雑音パターンを合成フィルタ7に通して出力音声とする。
このように本実施形態によれば、母音波形を一定の三角波等で近似してなる周期パターンを発生させるのではなく、母音波形から抽出された母音種に応じた周期パターンを発生させるので、固定化された三角波等による近似に起因した音声合成精度の低下を避けることができる。また、母音種に応じた周期パターンについては、合成フィルタ7に通さないので、フィルタリングによる周期パターンの変形の発生を防止することができる。以上により、パラメータ編集による合成音の質を向上させ、明瞭な音声出力を得ることが可能となる。
なお、本発明は、上記実施形態に限定されるものではない。例えば上記実施形態は、音声分析合成系を有する音声合成装置についてであるが、本発明の音声合成装置は、それ以外の構成、例えば規則により音声合成を行うもの等にも適用可能である。
本発明に係わる音声合成装置の一実施形態を示す概略構成図である。 残差相関関数の一例を示すグラフである。 母音発話時の音声波形例を示すグラフである。 音声波形における極の尖頭度及びゼロクロス数を示すグラフである。 各母音種のフォルマント周波数の分布を示すグラフである。
符号の説明
1…音声合成装置、4…母音検出部(母音検出手段)、5…母音種抽出部(母音種抽出手段)、7…合成フィルタ(フィルタ手段)、8…音声合成部、9…周期信号発生器(周期パターン発生手段)、10…雑音信号発生器(雑音パターン発生手段)。

Claims (4)

  1. 音声波形信号から母音波形信号を検出する母音検出手段と、
    前記母音波形信号の母音種を抽出する母音種抽出手段と、
    前記母音種に応じた周期パターンを発生させる周期パターン発生手段と、
    前記音声波形信号のうち前記母音波形信号以外の信号に対応する雑音パターンを発生させる雑音パターン発生手段と、
    前記雑音パターンをフィルタリング処理するフィルタ手段と、
    前記フィルタ手段を通過した雑音パターンと前記周期パターンとを合成して、合成音を生成する手段とを備えることを特徴とする音声合成装置。
  2. 前記フィルタ手段が格子型フィルタであることを特徴とする請求項1記載の音声合成装置。
  3. 前記母音検出手段は、前記音声波形信号の雑音比に基づいて前記母音波形信号を検出することを特徴とする請求項1または2記載の音声合成装置。
  4. 前記母音種抽出手段は、前記母音波形信号の極の尖頭度及び前記母音波形信号において所定時間内に振幅0の基線をクロスする数の少なくとも一方に基づいて、前記母音種を抽出することを特徴とする請求項1〜3のいずれか一項記載の音声合成装置。


JP2007000173A 2007-01-04 2007-01-04 音声合成装置 Pending JP2008165113A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007000173A JP2008165113A (ja) 2007-01-04 2007-01-04 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007000173A JP2008165113A (ja) 2007-01-04 2007-01-04 音声合成装置

Publications (1)

Publication Number Publication Date
JP2008165113A true JP2008165113A (ja) 2008-07-17

Family

ID=39694674

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007000173A Pending JP2008165113A (ja) 2007-01-04 2007-01-04 音声合成装置

Country Status (1)

Country Link
JP (1) JP2008165113A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012027114A (ja) * 2010-07-21 2012-02-09 Toa Corp 音声検出装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012027114A (ja) * 2010-07-21 2012-02-09 Toa Corp 音声検出装置

Similar Documents

Publication Publication Date Title
Zhang et al. Analysis and classification of speech mode: whispered through shouted.
JP4624552B2 (ja) 狭帯域言語信号からの広帯域言語合成
WO2004111996A1 (ja) 音響区間検出方法および装置
EP1850328A1 (en) Enhancement and extraction of formants of voice signals
JP3006677B2 (ja) 音声認識装置
US9390728B2 (en) Voice analysis apparatus, voice synthesis apparatus, voice analysis synthesis system
US20100204990A1 (en) Speech analyzer and speech analysys method
JP2010210758A (ja) 音声を含む信号の処理方法及び装置
JP2005157363A (ja) フォルマント帯域を利用したダイアログエンハンシング方法及び装置
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
Duxans et al. Voice conversion of non-aligned data using unit selection
KR100738332B1 (ko) 성대신호 인식 장치 및 그 방법
JP6087731B2 (ja) 音声明瞭化装置、方法及びプログラム
JP4999757B2 (ja) 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体
Prica et al. Recognition of vowels in continuous speech by using formants
JP2006017946A (ja) 音声処理装置およびプログラム
JP2007292940A (ja) 音声識別装置及び音声識別方法
Babacan et al. Parametric representation for singing voice synthesis: A comparative evaluation
JP4839970B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP2008165113A (ja) 音声合成装置
JPH0229232B2 (ja)
JP5075865B2 (ja) 音声処理装置、方法、及びプログラム
JPH07191696A (ja) 音声認識装置
Sawusch Acoustic analysis and synthesis of speech
Singh et al. A comparative study on feature extraction techniques for language identification