JP5106274B2 - 音声処理装置、音声処理方法及びプログラム - Google Patents

音声処理装置、音声処理方法及びプログラム Download PDF

Info

Publication number
JP5106274B2
JP5106274B2 JP2008170973A JP2008170973A JP5106274B2 JP 5106274 B2 JP5106274 B2 JP 5106274B2 JP 2008170973 A JP2008170973 A JP 2008170973A JP 2008170973 A JP2008170973 A JP 2008170973A JP 5106274 B2 JP5106274 B2 JP 5106274B2
Authority
JP
Japan
Prior art keywords
unit
speech
segment
fusion
formant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008170973A
Other languages
English (en)
Other versions
JP2010008922A (ja
Inventor
眞弘 森田
岳彦 籠嶋
剛 平林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008170973A priority Critical patent/JP5106274B2/ja
Publication of JP2010008922A publication Critical patent/JP2010008922A/ja
Application granted granted Critical
Publication of JP5106274B2 publication Critical patent/JP5106274B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Description

本発明は、音声処理装置、音声処理方法及びプログラムに関する。
任意の文章から人工的に音声信号を作り出すことを、テキスト音声合成という。テキスト音声合成は、一般的に、言語処理部、韻律処理部及び音声合成部の3つ段階によって行われる。
入力されたテキストは、まず言語処理部において、形態素解析や構文解析が行われ、次に韻律処理部において、アクセントやイントネーションの処理が行われて、音韻系列・韻律情報(基本周波数、音韻継続時間長、パワーなど)が出力される。最後に、音声合成部において、音韻系列・韻律情報から音声信号を合成する。そこで、音声合成部に用いる音声合成方法は、韻律処理部で生成される任意の音韻系列を、任意の韻律で音声合成することが可能な方法でなければならない。
従来、このような音声合成方法として、入力の音韻系列を分割して得られる複数の合成単位(合成単位列)のそれぞれに対して、入力された音韻系列・韻律情報を目標にして、予め記憶された大量の音声素片の中から音声素片を選択し、選択した音声素片を合成単位間で接続することによって、音声を合成する、音声合成方法(素片選択型の音声合成方法)が知られている。例えば、特許文献1に開示された素片選択型の音声合成方法では、音声を合成することで生じる音声合成の劣化の度合いを、コストで表すこととし、予め定義されたコスト関数を用いて計算されるコストが小さくなるように、音声素片を選択する。例えば、音声素片を編集・接続することで生じる変形歪み及び接続歪みを、コストを用いて数値化し、このコストに基づいて、音声合成に使用する音声素片系列を選択し、選択した音声素片系列に基づいて、合成音声を生成する。
特許文献1に開示された音声合成方法のように、音声を合成することで生じる音声合成の劣化の度合いを考慮して、大量の音声素片の中から適切な音声素片系列を選択することによって、音声素片の編集及び接続による音質の劣化を抑えた合成音声を生成することができる。
しかしながら、特許文献1に開示された素片選択型の音声合成方法には、部分的に合成音の音質が劣化する問題点がある。この理由は次のようなものである。
第1の理由は、予め記憶された音声素片が非常に多い場合であっても、様々な音韻・韻律環境に対して適切な音声素片が存在するとは限らないことである。
第2の理由は、人が実際に感じる合成音声の劣化の度合いをコスト関数が完全に表現できないため、必ずしも最適な素片系列が選ばれない場合があるからである。
第3の理由は、音声素片が非常に多いために予め不良な音声素片を排除しておくことが困難であり、また不良な音声素片を取り除くためのコスト関数の設計も難しいため、選択された音声素片系列中に、突発的に不良な音声素片が混入する場合があるからである。
そこで、合成単位当たり1つずつの音声素片を選ぶのではなく、合成単位当たり複数個の音声素片を選択し、これを融合することによって新たな音声素片を生成し、こうして生成された音声素片を使って音声を合成する方法が開示されている(特許文献2参照)。以下、この方法を「複数素片選択融合型の音声合成方法」と呼ぶ。
特許文献2に開示された複数素片選択融合型の音声合成方法では、合成単位毎に複数の音声素片を融合することによって、目標とする音韻・韻律環境に合う適切な音声素片が存在しない場合や、最適な音声素片が選択されない場合、不良素片が選択されてしまった場合でも、高品質な音声素片を新たに生成することができ、さらに、この新たに生成した音声素片を使用して音声合成を行うことで、前述した素片選択型の音声合成方法の問題点を改善することができ、より安定性を増した高音質の音声合成を実現することができる。
この複数素片選択融合型の音声合成方法においては、音声素片の融合による平均化の副作用によってスペクトル包絡が原音に比べて若干鈍る傾向があり、その結果、こもり感やブザー感が生じる場合がある。こうしたこもり感やブザー感の主観的な改善には、音声符号化や音声合成でよく用いられるようなフォルマント強調フィルタを、融合された素片に対して適用することが効果的である。
フォルマント強調フィルタは、入力音声波形のスペクトル包絡のフォルマントによる山・谷を強調したような音声波形を出力するフィルタで、適度な度合いでフォルマントを強調できれば、スペクトル包絡が鈍ったことによって生じるこもり感やブザー感を改善できる。一般的に、フォルマント強調フィルタは入力波形のスペクトル特性に応じてフィルタ特性を変える点では適応的だが、どの程度フォルマントを強調するかについては、適切な強調度合いを決めるための客観尺度が存在しないため、主観評価などによって実験的に決めるしかなく、ハイパーパラメータなどの値を外部から指定することによって制御することが多い。
そのため、複数素片選択型の音声合成方法で用いる場合には、フォルマントの強調度合いは、合成音声の主観的な音質が総合的に良くなるように、主観評価などによって実験的に決める。すなわち、フォルマントの強調度合いは、融合されたあらゆる素片に対して共通のものが適用される。
特開2001−282278公報 特開2005−164749公報
しかしながら、音声素片の融合によるスペクトル包絡の鈍り具合は、通常、合成単位によって異なり、一様ではない。例えば、合成単位に対して選ばれた複数の素片が類似のスペクトル包絡を持つ場合は、融合してもさほどスペクトル包絡は鈍らないと考えられるが、フォルマントの位置が素片間で大きく異なるなど、選ばれた音声素片のスペクトル包絡がそれぞれ異なる特徴を持つ場合には、融合するとスペクトル包絡が鈍ってしまう可能性が高い。
このような状況において、全音声素片に対して同じ強調度合いのフォルマント強調フィルタを一様に適用すると、融合によってスペクトル包絡が大きく鈍った箇所にはフォルマント強調の程度が不十分であるのに対し、逆に融合によるスペクトル包絡の鈍りが小さい箇所はフォルマントが強調されすぎて人工的な音になる問題がある。
本発明は、上記事情を考慮してなされたもので、こもり感やブザー感が少なく、かつ人工的でない高音質な合成音声を生成できる音声処理装置、音声処理方法及びプログラムを提供することを目的とする。
本発明に係る音声処理装置は、目標音声に対応する音韻系列を合成単位で区切って得られる複数のセグメントを取得する第1の取得部と、前記目標音声に対応する各々の前記セグメントの韻律情報を取得する第2の取得部と、各々の前記セグメントごとに、当該セグメントに対し、当該セグメントの前記韻律情報に基づいて、予め用意された複数の音声素片のうちから、複数個の音声素片を選択する選択部と、各々の前記セグメントごとに、当該セグメントに対して選択された複数個の前記音声素片を融合することによって、融合素片を生成する融合部と、各々の前記セグメントごとに、前記選択部により選択された複数個の前記音声素片に関する特徴量と、前記融合部により生成された前記融合素片に関する特徴量との少なくとも一方を用いて、当該セグメントに係る前記融合素片に対して行うべきフォルマント強調における強調度合いを推定する推定部と、各々の前記セグメントごとに、当該セグメントに係る前記融合素片に対して、前記推定部が推定した前記強調度合い基づくフォルマント強調を行うフォルマント強調フィルタ部とを備えたことを特徴とする。
本発明によれば、こもり感やブザー感が少なく、かつ人工的でない高音質な合成音声を生成できる。
以下、図面を参照しながら本発明の実施形態について説明する。
(第1の実施形態)
本発明の第1の実施形態に係るテキスト音声合成装置(音声処理装置)について説明する。
図1に、本実施形態に係るテキスト音声合成を行うテキスト音声合成装置(音声処理装置)の全体構成例を示す。
図1に示されるように、本実施形態のテキスト音声合成装置は、テキスト入力部1、言語処理部2、韻律処理部3、音声合成部4を備えている。
テキスト入力部1は、テキストを入力する。
言語処理部2は、テキスト入力部1から入力されるテキストの形態素解析・構文解析を行い、これら言語解析により得られた言語解析結果を韻律処理部3へ出力する。
韻律制御部3は、該言語解析結果を入力し、該言語解析結果からアクセントやイントネーションの処理を行って、音韻系列及び韻律情報を生成し、生成した音韻系列及び韻律情報を音声合成部へ出力する。
音声合成部4は、該音韻系列及び韻律情報を入力し、該音韻系列及び韻律情報から音声波形を生成して出力する。
以下、音声合成部4を中心に、その構成及び動作について詳細に説明する。
図2に、本実施形態の音声合成部4の構成例を示す。
図2に示されるように、音声合成部4は、音韻系列・韻律情報入力部41、音声素片記憶部42、素片選択部43、素片融合部44、フォルマント強調フィルタ部45、フォルマント強調度合い推定部46、素片編集・接続部47、音声波形出力部48を備えている。
音韻系列・韻律情報入力部(以下、情報入力部と略記する。)41は、音声合成部4への入力として、韻律制御部3から音韻系列・韻律情報を受理する。
音声素片記憶部(以下、素片記憶部と略記する。)42は、大量の音声素片を蓄積している。また、素片記憶部42は、それら蓄積されている音声素片の全てについて、それぞれ、当該音声素片に対する音韻・韻律環境を併せて蓄積している。
素片選択部43は、素片記憶部42に蓄積された音声素片の中から、複数の音声素片を選択する。
素片融合部44は、素片選択部43により選択された複数の音声素片を融合して、新たな音声素片(以下、「融合素片」とも呼ぶ。)を生成する。
フォルマント強調フィルタ部45は、(次のフォルマント強調度合い推定部46により推定された、強調の程度に応じて)素片融合部44により生成された音声素片に対して、フォルマント強調を行う(すなわち、フォルマント強調された融合素片を生成する)。
フォルマント強調度合い推定部46は、フォルマント強調フィルタ部45においてフォルマントを強調する程度を推定する。
素片編集・接続部47は、フォルマント強調フィルタ部45から得られた音声素片を韻律変形及び接続して、合成音声の音声波形を生成する。
音声波形出力部48は、素片編集・接続部47で生成した音声波形を出力する。
なお、情報入力部41〜音声波形出力部48の各部の機能は、コンピュータに格納されたプログラムに実現できる。
次に、図2の音声合成部4の各ブロックについて詳しく説明する。
<情報入力部>
まず、情報入力部41は、韻律制御部3から入力された音韻系列・韻律情報を、素片選択部44へ出力する。音韻系列は、例えば、音韻記号の系列である。また、韻律情報は、例えば、基本周波数、音韻継続時間長、パワーなどである。
以下、情報入力部41に入力される音韻系列、韻律情報を、それぞれ、入力音韻系列、入力韻律情報と呼ぶ。
<素片記憶部>
次に、素片記憶部42には、合成音声を生成するときに用いられる音声の単位(以下、「合成単位」と称する。)で、音声素片が大量に蓄積されている。
ここで、「合成単位」とは、音素あるいは音素を分割したもの(例えば、半音素など)の組み合わせ、例えば、半音素、音素(C、V)、ダイフォン(CV、VC、VV)、トライフォン(CVC、VCV)、音節(CV、V)、などであり(ここで、Vは母音、Cは子音を表す。)、また、これらが混在しているなど可変長であってもよい。
また、「音声素片」は、合成単位に対応する音声信号の波形もしくはその特徴を表すパラメータ系列などを表すものとする。
図3に、素片記憶部42に蓄積される音声素片の例を示す。図3に示すように、素片記憶部42には、各音素の音声信号の波形である音声素片が、当該音声素片を識別するための素片番号とともに記憶されている。これらの音声素片は、別途収録された多数の音声データに対して音素毎にラベル付けし、ラベルにしたがって音素毎に音声波形を切り出したものである。
また、素片記憶部42には、大量の音声素片とともに、各音声素片に対応した音韻・韻律環境が蓄積されている。
ここで、「音韻・韻律環境」とは、対応する音声素片にとって環境となる要因の組み合わせである。要因としては、例えば、当該音声素片の音素名、先行音素、後続音素、後々続音素、基本周波数、音韻継続時間長、パワー、ストレスの有無、アクセント核からの位置、息継ぎからの時間、発声速度、感情などがある。
また、素片記憶部42には、上記の他、音声素片の始端・終端でのケプストラム係数など、音声素片の音響特徴のうち音声素片の選択に用いる情報も蓄積されている。
以下では、素片記憶部42に蓄積される音声素片の音韻・韻律環境と音響特徴量とを総称して、「素片環境」と呼ぶ。
図4に、素片記憶部42に蓄積される素片環境の例を示す。図4に示す環境記憶部43には、素片記憶部42に蓄積される各音声素片の素片番号に対応して素片環境が記憶されている。ここでは、音韻・韻律環境として、音声素片に対応した音韻(音素名)、隣接音韻(この例では、当該音韻の前後それぞれ2音素ずつ)、基本周波数、音韻継続時間長が記憶され、音響特徴量として、音声素片始終端のケプストラム係数が記憶されている。
なお、これらの素片環境は、音声素片を切り出す元になった音声データを分析して抽出することによって得られる。また、図4では、音声素片の合成単位が音素である場合を示しているが、半音素、ダイフォン、トライフォン、音節、あるいはこれらの組み合わせや可変長であってもよい。
<素片選択部>
次に、図2の音声合成部4の動作を詳しく説明する。
図2において、情報入力部41を介して素片選択部43に入力された音韻系列は、素片選択部47において、合成単位毎に区切られる。以下、この区切られた合成単位を、「セグメント」と呼ぶ。
素片選択部43は、入力された入力音韻系列と入力韻律情報を基に、素片記憶部42を参照し、各セグメントに対して、それぞれ、融合する複数個の音声素片の組み合わせを選択する。
このとき素片選択部43は、各音声素片候補を用いて音声を合成した場合の合成音声と目標音声との歪みができるだけ小さくなるように、融合する音声素片の組み合わせを選択する。ここでは、素片選択部43は、一般の素片選択型音声合成方法や従来の複数素片選択融合型音声合成方法と同様に、音声素片の選択の尺度として、各音声素片候補を用いて音声を合成した場合の合成音声と目標音声との歪みの大きさを間接的に表すコストを用い、このコストができるだけ小さくなるように、融合する音声素片の組み合わせを選択する。
ここで、「目標音声」とは、音声を合成する際の目標となる(仮想的な)音声、すなわち、入力された音韻の並びと韻律を実現し、かつ、理想的に自然な音声をいう。
最初に、コストについて説明する。
合成音声の目標音声に対する歪みの度合いを表すコストには、大きく分けて、目標コストと接続コストの2種類のコストがある。
目標コストは、コストの算出対象である音声素片(対象素片)を目標の音韻・韻律環境で使用することによって生じるコストである。
接続コストは、対象素片を隣接する音声素片と接続したときに生じるコストである。
具体的には、次の通りである。
目標コストとしては、音声素片が持つ基本周波数と目標の基本周波数の違い(差)によって生じる歪み(基本周波数コスト)、音声素片の音韻継続時間長と目標の音韻継続時間長の違い(差)によって生じる歪み(継続時間長コスト)、音声素片が属していた音韻環境と目標の音韻環境の違いによって生じる歪み(音韻環境コスト)などがある。 接続コストとしては、音声素片境界でのスペクトルの違い(差)によって生じる歪み(スペクトル接続コスト)や、音声素片境界での基本周波数の違い(差)によって生じる歪み(基本周波数接続コスト)などがある。
コストを用いて、一セグメント当たり複数個の音声素片を選択する方法については、どのような方法を用いても構わない。
例えば、特許文献2に開示された方法を用いても良い。ここでは、この選択方法の概要について、図5の処理手順例を参照しながら、一セグメント当たりM個の音声素片を選ぶ場合について説明する。
まず、ステップS101において、素片選択部43は、入力された音韻系列を、合成単位毎のセグメントに分割する。ここで、分割されたセグメントの数をNとする。
次に、ステップS102において、素片記憶部42に記憶されている音声素片群の中から、各セグメントにつき1つずつの音声素片の系列を選択する。このときの選択においては、入力された目標の音韻系列・韻律情報と、素片記憶部42の音声素片環境の情報を基に、系列としてのコストの総和(トータルコスト)が最小となるような音声素片の系列(最適素片系列)を求める。この最適素片系列の探索は、動的計画法(DP(dynamic programming))を用いることで、効率的に行うことができる。
次に、ステップS103において、セグメント番号を表すカウンターiに、初期値「1」をセットする。
次に、ステップS104において、セグメントiに対する複数の音声素片候補の各々に対してコストを算出する。このときに用いるコストには、当該音声素片候補での目標コストと、当該音声素片候補の前後のセグメントの最適音声素片(最適素片系列に含まれる音声素片)と当該音声素片候補との接続コストとの和を用いる。
次に、ステップS105において、ステップS104で算出したコストを用いて、セグメントiについて、コストの小さい上位M個の音声素片を選択する。
次に、ステップS106において、カウンターiがN以下かどうかを判定する。
カウンターiがN以下である場合(ステップS106のYES)には、ステップS107に進んで、カウンターiの値を1つ増やした後に、ステップS104に進んで、次のセグメントに係る処理を行う。
カウンターiがNに達した場合(ステップS106のNO)には、この素片選択の処理を終了する。
このように、素片選択部44は、各セグメントに対してM個ずつの音声素片を選択し、選択した音声素片を分離部45に出力する。
素片選択部44においてセグメント当たり複数個の音声素片を選択する方法は、上記した方法に限定する必要はなく、コストであっても、コスト以外であっても、何らかの評価尺度の下で、適切な音声素片の組を選べる方法であれば、いかなる方法を用いても良い。
<素片融合部>
素片融合部44は、それぞれのセグメント毎に、素片選択部43から入力された複数個の音声素片を融合して、新たな音声素片を生成する。
音声素片を融合する方法については、どのような方法を用いても構わない。
例えば、特許文献2に開示された方法を用いても良い。ここでは、この方法について図6及び図7を参照しながら説明する。
図6は、一つのセグメントに対する複数個の音声素片の波形を融合して、新たな音声波形を生成する手順を示すフローチャートである。図7は、あるセグメントに対して選択された3つの音声素片からなる素片組み合わせ候補(図中、60)を融合して、新たな音声素片(図中、63)を生成する例を示す図である。
まず、ステップS201において、(ある一つのセグメントについて)選択されたそれぞれの音声素片からピッチ波形を切り出す。
ここで、「ピッチ波形」とは、その長さが音声の基本周期の数倍程度で、それ自身は基本周期を持たない比較的短い波形であって、そのスペクトルが音声信号のスペクトル包絡を表すものである。
このようなピッチ波形を抽出する方法には、どのような方法が用いられても良いが、その一つの方法として、基本周期同期窓を用いる方法があり、ここでは、この方法が用いられる場合を例にとって説明する。
具体的には、それぞれの音声素片の音声波形に対して基本周期間隔毎にマーク(ピッチマーク)を付し、このピッチマークを中心にして、窓長が基本周期の2倍のハニング窓で窓掛けすることによって、ピッチ波形を切り出す。図7のピッチ波形系列61は、素片組み合わせ候補60の各音声素片から切り出して得られたピッチ波形の系列の例を示している。
次に、ステップS202において、それぞれの音声素片に対するピッチ波形の個数が、音声素片間で同一になるように、ピッチ波形の数を揃える。
このときに、揃える対象となるピッチ波形の数は、目標の音韻継続時間長の合成音声を生成するために必要なピッチ波形数とするが、例えば、最もピッチ波形数の多いものに揃えても良い。
ピッチ波形の少ない系列は、系列に含まれるいくつかのピッチ波形を複製することによってピッチ波形数を増やし、ピッチ波形の多い系列は、系列中のいくつかのピッチ波形を間引くことによってピッチ波形数を減らす。図7のピッチ波形系列62は、ピッチ波形の数を6つに揃えた例を示している。
次に、ステップS203において、ピッチ波形数を揃えた後、それぞれの音声素片に対応するピッチ波形系列中のピッチ波形を、その位置毎に融合することによって、新たなピッチ波形系列を生成する。
例えば、図7で生成された新たなピッチ波形63に含まれるピッチ波形63aは、ピッチ波形系列62のうち、6番目のピッチ波形62a,62b,62cを融合することによって得られる。このようにして生成された新たなピッチ波形系列63を、融合された音声素片とする。
ここで、ピッチ波形を融合する方法としては、例えば、次のような方法がある。
第1の方法は、単純にピッチ波形の平均を計算する方法である。
第2の方法は、ピッチ波形間の相関が最大になるよう時間方向に各ピッチ波形の位置を補正してから平均化する方法である。
第3の方法は、ピッチ波形を帯域分割して、帯域毎にピッチ波形間の相関が最大になるようピッチ波形の位置を補正して平均化した結果を、帯域間で足し合わせる方法である。
いずれの方法を用いても良いが、本実施形態では、最後に説明した第3の方法を用いる場合を例にとって説明する。
素片融合部44は、上記した方法を用いて、各セグメントについて、複数の音声素片を融合して新たな音声素片を生成し、フォルマント強調フィルタ部45に出力する。
<フォルマント強調フィルタ部>
さて、上記のように融合によって生成された音声素片の音声波形は、融合の影響によって、融合元の音声素片の波形よりもスペクトル包絡がなまってしまい、いくつかのフォルマントが弱められてしまった結果、明瞭感が下がってしまうことが多い。そこで、フォルマント強調フィルタ部45は、素片融合部44から入力された融合素片に対して、フォルマントを強調するためのフィルタリングを行い、素片編集・接続部47に出力する。
ここで用いるフォルマント強調フィルタとしては、例えば、J. Chenらの文献(J. Chen, etc., 「Adaptive Postfiltering for Quality Enhancement of Coded Speech」, IEEE Trans. Speech and Audio Processing, vol. 3, Jan 1995)(以下、文献3と呼ぶ。)によって開示されているものを、用いることができる。
こうしたフォルマント強調フィルタを、融合素片の音声波形に対して適用することによって、スペクトル包絡中のフォルマントを強調し、融合による明瞭性の低下を補償することが可能である。
フォルマント強調フィルタの概要を、文献3で開示されているフォルマント強調フィルタを例に用いて説明する。文献3で開示されているフォルマント強調フィルタは、数式(1)のような伝達関数を持つフィルタである。
Figure 0005106274
ただし、P(z)は、数式(2)で表される。ここで、aは入力波形を線形予測分析したときのi番目の線形予測係数(LPC)を表し、Mは線形予測次数である。
Figure 0005106274
数式(1)における1/[1−P(z/α)]は、α=1の場合は、線形予測フィルタを表し、入力波形のLPCスペクトルと同じ周波数応答を持つ。αを小さくすると、LPCスペクトルを鈍らせたような周波数応答になり、0に近づくにつれ、フラットな周波数応答になる。よって、入力波形のスペクトル中のパワーの大きい周波数成分は、より大きくなり、パワーの小さい周波数成分は、より小さくなるため、スペクトル中の山・谷を強調する効果を持つ。また、一般的な音声のスペクトル包絡には、低域から高域に向かって負の傾斜が見られるため、1/[1−P(z/α)]の周波数応答は、全体的に、同様の負の傾斜を持つ。すなわち、スペクトルの山・谷を強調する効果に加え、副作用としてローパス特性を持っている。そこで、[1−P(z/β)]および[1−μz−1]の項によって、このローパス特性を補正する。[1−P(z/β)]は、LPCスペクトルの極と同じ周波数に零点を持つフィルタであり、1/[1−P(z/α)]でのスペクトルの傾斜を補償する効果を持つ。一方、[1−μz−1]は、単純なハイパスフィルタで、残っているスペクトルの傾きを無くすよう調整するための項である。なお、Gは、フィルタリング前後でパワーが変化するのを防ぐためのパワー調整用のゲインであり、文献3で開示されている方法により、入力波形に応じて自動で決めることができる。
このフォルマント強調フィルタでは、パラメータαを変えることによって、フォルマント強調の度合いを変えることができる(ただし、αの値に応じて、ローパス特性を補償するような適切なβ、μも決める必要がある)。αが1に近いほど強調の度合いが強く、αが小さくなるにつれ強調の度合いが弱まり、αが0.5以下になるとほとんど強調されない。どの程度フォルマントを強調すべきかは音声波形の特徴によって異なるが、これを決めるための客観尺度が存在しないため、通常、音声符号化や音声合成においてフォルマント強調フィルタを用いる場合には、フォルマント強調の度合いは主観評価などによって実験的に求める。
しかしながら、複数素片選択融合型の合成方法においては、融合によるスペクトル包絡の鈍り具合がセグメントごとに大きく変わり得るため、1文など全体に対して同じパラメータを適用すると、融合によってスペクトル包絡が大きく鈍った箇所にはフォルマント強調の程度が不十分であるのに対し、逆に融合によるスペクトル包絡の鈍りが小さい箇所はフォルマントが強調されすぎて人工的な音になるという問題がある。
そこで、本実施形態では、融合されてできたそれぞれの音声素片に対し(あるいは、それぞれの融合素片の各ピッチ波形に対し)、適切なフォルマント強調の度合いをフォルマント強調度合い推定部46で推定し、フォルマント強調フィルタ部45は、推定されたフォルマント強調度合いに応じてフォルマント強調フィルタの係数を変える。すなわち、融合素片ごとに(あるいは、融合素片のピッチ波形ごとに)、フォルマント強調度合いを適応的に制御する。ここで、フォルマント強調度合い推定部46から与えられるフォルマント強調度合いは、例えば、0(強調無し)から100(フォルマント強調フィルタの制御可能な範囲で最も強い強調)まで連続的に変化するようなものでもよいし、また、例えば、0(強調無し)から4(非常に強く強調)までの5段階で指定できるような離散的なものであってもよい。上述の文献3で開示されているフォルマント強調フィルタを用いる場合は、フォルマント強調度合い推定部46で推定されたフォルマント強調度合いが大きい場合はαの値を1に近づけ、逆にフォルマント度合いが小さい場合はαを0.5に近づける。βおよびμの値もαの値に応じて変えるが、各αの値に対して適切なβとμの値は、実験的に求めることが可能である。
また、フォルマント強調度合い推定部46で推定されたフォルマント強調度合いを、フィルタ係数に具体的に反映するためのマッピングは、主観評価などによって実験的に得ることができる。
本実施形態においては、文献3で開示されているフォルマント強調フィルタを用いる場合について説明したが、フォルマントが強調でき、フォルマントの強調度合いがパラメータなどで制御できるフォルマント強調フィルタであれば、いかなるものでも用いることができる。
<フォルマント強調度合い推定部>
フォルマント強調度合い推定部46は、素片選択部43や素片融合部44から与えられた融合素片や融合元の複数の音声素片の情報を元に、融合素片に対して適切なフォルマント強調度合いを推定し、推定したフォルマント強調度合いをフォルマント強調フィルタ部45に出力する。
前述のように、ある波形に対して適切なフォルマント強調度合いを決めるような客観尺度は存在しないが、融合素片と融合元の複数の音声素片の間でスペクトル包絡に関する特徴量を比較することによって、音声素片の融合によってどの程度スペクトル包絡が鈍ったかをある程度見積もることは可能である。そこで、フォルマント強調度合い推定部46では、融合によるスペクトル包絡の鈍り具合を以下のような方法で推定し、これに基づいてフォルマントの強調度合いを決める。
融合によるスペクトル包絡の鈍りが大きいほど、融合元の各音声素片と融合素片との間でスペクトル包絡の形状の差が大きくなると考えられる。そこで、融合元の各音声素片と融合素片との間でのスペクトル包絡の形状の差を見積もることができれば、音声素片の融合によるスペクトル包絡の鈍り具合を推定できると考えられる。
スペクトル包絡の特徴を表すパラメータとしては、ケプストラムやLSP(線スペクトル対)などがある。以下では、ケプストラムの一つであるメル周波数ケプストラム係数(MFCC)を用いて、融合元の各音声素片と融合素片の間でのスペクトル包絡の形状の差を間接的に見積もる場合を例によって説明する。
MFCCは、音声認識の分野で広く用いられている音響特徴量で、音声合成においても上述の「スペクトル接続コスト」の評価尺度としてよく用いられる。MFCCは、人間の聴覚特性を考慮した特徴量で、低い次元でもスペクトル包絡の特徴を良く表せる利点も持つ。MFCCの低次の係数はスペクトル包絡の慨形を、高次の係数はスペクトル包絡の細部を表現する。素片1と素片2のi次のMFCCをそれぞれc1i、c2iとすると、数式(3)により、素片1と素片2との間のMFCC距離が算出できる。
Figure 0005106274
ただし、pはMFCCの次元を表す。
なお、本例においては、MFCCの次元は20次程度とする。
次に、このMFCC距離を使って、音声素片の融合によるスペクトル包絡の鈍り具合を推定する方法について説明する。
図8に、この場合の処理手順の一例を示す。
ここで、融合素片の元になった融合元の素片数はNとする。
まず、融合素片のMFCC(c0)を算出する(ステップS301)。
次に、カウンターiを1に、Dsumを0に初期化して(ステップS302、ステップS303)、ステップS304に進む。
ステップS304では、融合元のN個の音声素片のうち、i番目の音声素片のMFCC(ci)を算出する。
次に、cとcとの間のMFCC距離(D)を、数式(3)を用いて算出する(ステップS304)。
次のステップS305では、算出されたDをDsumに加算して、ステップS307に進む。
ステップS307では、カウンターiがN以下であるかを判定する。
カウンターiがN以下である場合(ステップS307のYES)には、ステップS308に進んで、カウンターiの値を1つ増やした後に、ステップS304に進んで、次の音声素片に係る処理を行う。
カウンターiがNに達した場合(ステップS307のNO)には、ループ処理を終了し、ステップS309に進む。
ステップS309では、DsumをNで割ることによって、平均MFCC距離(Dmean)を求め、全ての処理を終了する。
本実施形態では、このようにして求めた平均MFCC距離を、融合によるスペクトル包絡の鈍り具合を反映する評価尺度として用いる。すなわち、平均MFCC距離が小さいほどスペクトル包絡の鈍り具合が小さく、平均MFCC距離が大きいほどスペクトル包絡の鈍り具合が大きいとして、平均MFCC距離をそのままスペクトル包絡の鈍り具合とするか、平均MFCC距離の分布などに基づいて何らかの変換を行って得た値をスペクトル包絡の鈍り具合とする。
次に、このようにして得たスペクトル包絡の鈍り具合に基づいて、フォルマント強調度合いを求める必要があるが、スペクトル包絡の鈍り具合が大きいほど強いフォルマント強調を施すべきと考えられるため、ここでは、スペクトル包絡の鈍り具合が増すとともに単調増加するような関数(ただし、フォルマント強調度合いが離散値の場合は、階段状に変化)を用いてフォルマント強調度合いに変換する。関数の形状については、例えば、スペクトル包絡の鈍り具合に対して途中まで線形に増加し、ある閾値を超えるとフォルマント強調度合いの上限値をとるようなものであっても良いし、シグモイド関数のように増加率がスペクトル包絡の鈍り具合に応じて変化するような形状のものであっても良く、それらの関数のパラメータ(傾き、など)は実験的に適切なものを得れば良い。
なお、本実施形態においては、融合によるスペクトル包絡の鈍り具合を推定する方法の一例として、上記のMFCCを用いる方法を例にとって説明したが、スペクトル包絡の形状の差を適切に見積もれる音響パラメータであれば、どのようなものを用いてもよい。例えば、LSP係数の二乗誤差を用いても良いし、FFT(高速フーリエ変換)によって得られたFFTスペクトルを確率分布のように見なすことによって、確率分布の差を計算するのによく用いられるKL距離(Kullback-Leibler距離)を算出して、これを用いても良い。
また、融合によるスペクトル包絡の鈍り具合を推定する方法として、素片選択部43で算出された目標コストを用いる方法も考えられる。融合元の複数の音声素片がいずれも適切な音韻・韻律環境から選ばれた場合、目標コストは小さくなり、かつ、融合によるスペクトル包絡の鈍り具合も小さくなると考えられる。逆に、目標の音韻・韻律環境と異なる音声素片ばかりが選ばれた場合、目標コストは大きくなり、融合によるスペクトル包絡の鈍り具合も大きくなると考えられる。そこで、融合によるスペクトル包絡の鈍り具合を表す一つの指標として、融合元の音声素片が選ばれた際の目標コストを用いてもよいと考えられる。この方法は、前述の音響パラメータを用いる方法よりは間接的だが、非常に単純である。
フォルマント強調度合い推定部46は、上述のようにして推定した、融合によるスペクトル包絡の鈍り具合を、フォルマント強調フィルタ部45に出力する。
<素片編集・接続部>
素片編集・接続部47は、フォルマント強調部45から渡されたセグメント毎の音声素片を、入力韻律情報に従って変形して接続することによって、合成音声の音声波形を生成する。
図9は、素片編集・接続部47での処理を説明するための図である。図9には、フォルマント強調部45から入力された、音素「a」「N」「s」「a」「a」の各合成単位に対する音声素片を、変形・接続して、「aNsaa」という音声波形を生成する場合を示している。
この例では、有声音の音声素片はピッチ波形の系列で表現されている。一方、無声音の音声素片は、フレーム毎の波形として表現されている。
図9の点線は、目標の音韻継続時間長に従って分割した音素毎のセグメントの境界を表し、白い三角は、目標の基本周波数に従って配置した各ピッチ波形を重畳する位置(ピッチマーク)を示している。
図9のように、有声音については音声素片のそれぞれのピッチ波形を対応するピッチマーク上の重畳し、無声音については各フレームの波形をセグメント中の各フレームに対応する部分に貼り付けることによって、所望の韻律(ここでは、基本周波数、音韻継続時間長)を持った音声波形を生成する。
以上のように本実施形態によれば、素片融合によるフォルマントの鈍り具合に応じて、セグメントごとに適切な強さのフォルマント強調を行うので、こもり感やブザー感が少なく、かつ人工的でない高音質な合成音声を生成できる。
(第2の実施形態)
本発明の第2の実施形態に係るテキスト音声合成を行うテキスト音声合成装置(音声処理装置)について説明する。
第1の実施形態では、音声素片の融合処理およびフォルマント強調の処理に大きな計算量を要するため、CPUスペックが比較的低いミドルウェア向けの応用などには適用が向かないこともあり得る。
そこで、本実施形態では、音声素片の融合およびフォルマント強調の処理を予め行った音声素片をオフラインで作成しておき、実際の動作時には、こうして作成された音声素片から適切な音声素片を選択して接続するだけの処理で合成波形を生成する。
本実施形態に係るテキスト音声合成装置の全体構成例は、図1と同様であり、テキスト入力部1、言語処理部2、韻律処理部3、音声合成部4を備えている。
図10に、本実施形態の音声合成部4の構成例を示す。
以下、図10を参照しながら、本実施形態について、第1の実施形態と相違する点を中心に説明する。
図10に示されるように、本実施形態の音声合成部4は、情報入力部41、素片記憶部42、素片選択部43、素片編集・接続部47、音声波形出力部48を備えている。
第1の実施形態(図2)と比較すると、本実施形態の音声合成部4は、図2の素片融合部44、フォルマント強調フィルタ部45、フォルマント強調度合い推定部46が省かれている。
また、本実施形態の素片記憶部42には、後述の方法によって生成された融合済みの音声素片が格納されている。
第1の実施形態の素片選択部44が各セグメントに対して複数個ずつの音声素片を選択するのに対し、本実施形態の素片選択部44は、各セグメントに対して1つずつの融合済み音声素片の最適系列を選択する。
素片選択部44の動作としては、例えば第1の実施形態で図5のフローチャートを用いる場合と比較すると、本実施形態では、図5のフローチャートのうち、ステップS101とステップS102だけを実行すればよい。もちろん、各セグメントに対して1つずつの融合済み音声素片の最適系列を選択する方法は、これに限られるものではなく、種々の方法が可能である。
なお、素片編集・接続部47および音声波形出力部48の動作は、第1の実施形態のものと同様である。
次に、音声素片記憶部42に格納する融合済みの音声素片を学習する方法について、図11及び図12を参照しながら説明する。
本実施形態では、融合済みの音声素片を作成する融合済み音声素片作成部5を用いる。融合済み音声素片作成部5は、図10のテキスト音声合成装置に含まれても良い。この場合、テキスト音声合成に供するための「フォルマント強調された融合素片」の生成時には、図1の音声合成部4を融合済み音声素片作成部5に置き換えた構成で用いれば良い。
また、融合済み音声素片作成部5は、テキスト音声合成装置に含まれなくても良い。この場合、例えば、融合済み音声素片作成部5を、独立した音声処理装置(テキスト音声合成に供するための「フォルマント強調された融合素片」を生成する音声処理装置)として構成しても良い。この場合、独立した音声処理装置は、図1の音声合成部4を融合済み音声素片作成部5に置き換えた構成にすれば良い。
図11に、融合済み音声素片作成部5の構成例を示す。
融合済み音声素片作成部5の構成は、第1の実施形態の音声合成部4の構成とほとんど同じであるため、ここでは相違する点について説明する。
融合済み音声素片作成部5は、第1の実施形態の音声合成部4の素片編集・接続部47および音声波形出力部48の代わりに、音声素片出力部49を持つ。第1の実施形態の音声合成部4の素片編集・接続部47および音声波形出力部48は、フォルマント強調部45から入力された各セグメントに対する音声素片を接続して、入力テキストに対する合成波形を生成するのに対し、音声素片出力部49は、フォルマント強調部45から入力された音声素片をそのまま出力する。
すなわち、融合済み音声素片作成部5は、音声素片(フォルマント強調された融合素片)を、図10のテキスト音声合成装置の音声素片記憶部42へ出力し、音声素片(フォルマント強調された融合素片)は、音声素片記憶部42に記憶される。
次に、音声素片記憶部42に格納する融合済みの音声素片を学習する手順について説明する。
図12に、この場合の処理手順の一例を示す。
まず、ステップS501において、融合済み音声素片作成部5を備えたテキスト音声合成装置又は独立した音声処理装置に対して、大量の文を入力する。
次に、ステップS502において、入力された各文の各セグメントに対して生成された融合済み音声素片が、融合済み音声素片生成部5から出力される。
次に、ステップS503において、外部から指定された音声素片記憶部42に格納する音声素片の総数のうち、それぞれの素片種別に対して幾つずつ配分するかを決める。
ここで、素片種別とは、音声素片の音韻環境などで分類された種別を指す。例えば、素片種別/a/は、音素/a/に対応する音声素片のこととする。
各素片種別に何個ずつ素片を配分するかは、各素片種別の音声素片の出現頻度などに応じて決める。例えば、素片種別/a/の素片が素片種別/u/の素片よりも出現頻度が高い場合は、素片種別/a/に多めの素片を配分することとする。
素片種別iに配分する音声素片の個数をNとする。
次に、ステップS504において、素片種別番号iに初期値1をセットする。
次に、ステップS505において、素片種別iの融合済み音声素片を、ステップS502で出力された素片種別iの音声素片の中から、出現頻度が上位のものをNずつ抽出する。
次に、ステップS506において、iと素片種別数を比較する。
iが素片種別数以下である場合(ステップS506のYES)には、ステップS507に進んで、iの値を1つ増やし、そして、ステップS505〜ステップS506を繰り返す。
iが素片種別数を超えている場合(すなわち、全ての素片種別に対する処理が完了している場合)(ステップS506のNO)には、全ての処理を終了する。
上記のようにして抽出した融合済み音声素片を、音声素片記憶部42に格納する。
ここで、音声素片記憶部42に格納するために選択する音声素片の個数は、トータルでの音声素片サイズと合成音声の音質とのトレードオフで、任意に決めることができる。より多くの音声素片を選択して格納すれば、サイズは大きくなるが、合成音声の音質を高くすることができ、音声素片の数を減らせば、合成音声の音質は犠牲になるが、サイズを小さくすることができる。
なお、上記では出現頻度の高い素片を抽出する方法を説明したが、音声素片の両端で算出したメルケプストラムなどの音声素片の特徴量を用いて抽出しても良い。
この場合、各素片種別に対して出力された融合済み音声素片をそれぞれ、音声素片の特徴量を用いてクラスタリングし、分割された各クラスタの中心(セントロイド)に最も近い素片を抽出する。クラスタリングにおけるクラスタ数は、各素片種別に配分する素片数に応じて決める。
出現頻度に基づいて素片を抽出する場合は、出現頻度が低いコンテキストに対して適切な素片が抽出されない可能性があり、入力テキストによっては音質が大きく劣化してしまう可能性があるが、本方法によって素片を抽出した場合、特徴量空間をできるだけ広く覆うような音声素片のセットが抽出できるため、出現頻度に基づいて抽出した場合より安定した合成音が生成できる。
以上のように本実施形態によれば、複数の音声素片を融合する処理とフォルマント強調の処理を予めオフラインで行うので、第1の実施形態よりも少ない計算量で実現でき、CPUスペックが比較的低いミドルウェア向けなどの応用にも適用可能である。
また、合成音声の音質とのトレードオフで、格納する音声素片のトータルのサイズもスケーラブルに決めることができる。
(第3の実施形態)
本発明の第3の実施形態に係るテキスト音声合成装置について説明する。
本実施形態は、フォルマント強調度合い推定部46の推定方法が、第1の実施形態で説明した例とは相違するものであり、以下、この相違点を中心に説明する。
第1の実施形態では、フォルマント強調度合い推定部46でフォルマント強調度合いを推定する方法として、融合元の各音声素片と融合素片の間でのスペクトル包絡の差を算出することによって推定する方法を説明したが、融合元の各音声素片と融合素片との間でのスペクトル包絡の差と、融合によるスペクトル包絡の鈍り具合の間には、高い相関はあると考えられるものの、直接的な関係があるわけではない。そこで、スペクトル包絡の鈍り具合を、より直接的に求められる方法があれば、より確度の高い推定を行うことが可能と考えられる。
その一つの方法として、線形予測極(LP極)を用いる方法が考えられる。LP極は、数式(2)のP(z)について(1−P(z))を=0とおいたときに得られる解(複素数)のことで、この解のz平面上での位置と単位円との関係から、各フォルマントの周波数とバンド幅を推定することができる。それぞれの極が各フォルマントに対応すると考えられ、i番目の極に関して、極と原点を結ぶ線の角度をθ、極と原点の距離をrとした場合、i番目のフォルマントの周波数Fおよびバンド幅BWは、数式(4)のように推定できる。
Figure 0005106274
このようにして推定した各フォルマントの周波数とバンド幅を用いれば、スペクトル包絡のうち、特にフォルマントに関する鈍り具合がより正確に推定できると考えられる。
以下、LP極から推定される各フォルマントのバンド幅を用いて、スペクトル包絡の鈍り具合を推定する方法の一例を、図13を参照しながら説明する。
図13に、LP極から推定される各フォルマントのバンド幅を用いてスペクトル包絡の鈍り具合を推定する手順の一例を示す。
まず、ステップS601において、融合素片のLP極を算出する。具体的には、融合素片の音声波形に対してLPC分析を行い、得られた線形予測係数を係数に持つ数式(2)のP(z)について、(1−P(z))=0とおいたときの解を得る。
次のステップS602では、融合元の音声素片それぞれに対するLP極を、ステップS601と同様の方法で算出する。
次に、ステップS603では、フォルマントバンド幅比率の和Rsumを0に、ステップS604では、用いたLP極の個数NLPを0に、ステップS605では、カウンターiを1に、それぞれ初期化して、ステップS606に進む。
ステップS606では、融合素片のi番目のLP極が実軸上(すなわち虚数項が0)かどうかを判定し、実軸上である場合(ステップS506のYES)には、ステップS620に進んで、カウンターiの値を1つ増やした後に、再びS606に進む。
これは、実軸上のLP極がフォルマントには対応しない(スペクトル包絡全体の形状に寄与)ため、実軸上である場合については、ステップS607以降の処理をスキップし、フォルマントに対応したLP極のみを考慮するためのものである。
LP極が実軸上でない場合(ステップS606のNO)には、ステップS607に進む。
ステップS607では、NLPの値を1つ増やした後に、ステップS608に進む。
ステップS608では、融合素片のi番目のLP極に対するフォルマントのバンド幅BWiを、数式(4)を用いて算出する。
次のステップS609では、融合元の音声素片のフォルマントに関するバンド幅の和BWi_org_sumを0に初期化し、ステップS610に進む。
ステップS610では、カウンターkを1に初期化して、ステップS611に進む。
ステップS611では、融合元の音声素片(計Nfused個)のうちk番目の音声素片(「音声素片k」と呼ぶ。)について、この音声素片のLP極の中で、融合素片のi番目のLP極が表すフォルマントに対応するようなLP極を選択する。具体的には、音声素片kのLP極の中で、融合素片のi番目のLP極に最も近いものを選択する。LP極の間の距離については、例えば数式(5)(文献“Goncharoff, etc., 「Interplation of LPC spectra via pole shifting.」, IEEE ICASSP, Detroit, MI, Vol.1, pp.780-783, 1995”参照)を用いて算出できる。ただし、pはLP極の複素数表現、rはLP極と原点の距離を表し、D(p0,p1)がLP極pとpの距離を表す。
Figure 0005106274
この数式(5)によって、融合素片のi番目のLP極との距離を、融合元の音声素片のLP極のそれぞれについて算出し、最も距離が小さいLP極を選択する。
次のステップS612では、ステップS611で選択されたLP極に対するバンド幅BWi_org_kを、数式(4)を用いて算出する。
次に、ステップS613において、ステップS612で算出したBWi_org_kをBWi_org_sumに加算する。
続いて、ステップS613において、カウンターkが融合元の音声素片数Nfused以下かどうかを判定する。
カウンターkがNfused以下である場合(ステップS613のYES)には、ステップS619に進んで、カウンターkの値を1つ増やした後に、ステップS611からのステップを繰り返す。一方、カウンターkがNfusedを超える場合(ステップS613のNO)には、ステップS615に進む。
ステップS615では、BWi_org_sumをNfusedで割ることによって、融合素片のi番目のLP極に対応するような、融合元の各音声素片のLP極についての、フォルマントのバンド幅の平均値BWi_org_meanを算出する。
次のステップS616では、ステップS615で算出したBWi_org_meanに対する、融合素片のi番目のLP極のバンド幅BWiの比率を、フォルマントバンド幅比率の和Rsumに加算する。
続いて、ステップS617では、カウンターiが、NmaxLPという設定値以下かどうかを判定する。
ここで、NmaxLPは、フォルマントの鈍り具合を推定するのに用いるLP極の個数の最大値を表す。
この値は、例えば、LPC分析での分析次数の1/2などに設定する。
カウンターiがNmaxLP以下である場合(ステップS617のYES)には、ステップS620に進んで、カウンターiの値を1つ増やした後に、ステップS606からの処理を繰り返す。一方、カウンターiがNmaxLPを越える場合(ステップS617のNO)には、ステップS618に進む。
ステップS618では、フォルマントバンド幅比率の和Rsumを、用いたNP極の個数NLPで割ることによって、フォルマントバンド幅比率の平均値Rmeanを算出し、全ての処理を終了する。
本実施形態では、上記のような方法で算出したフォルマントバンド幅比率の平均値Rmeanを、音声素片の融合によるスペクトル包絡の鈍り具合を表す尺度として用いる。この値は、フォルマントのバンド幅がほぼ変わらずスペクトル包絡がほとんど鈍らなかった場合には1に近い値、フォルマントのバンド幅が融合元の音声素片より広がってスペクトル包絡が鈍った場合には1より大きい値となり、スペクトル包絡の鈍り具合が大きければ大きいほど大きな値になると考えられる。そこで、本実施形態においては、Rmeanが1以下の場合は強調無しで、1より大きい場合は強調度合いが単調増加するような何らかの関数を用いることによって、このRmeanからフォルマント強調度合いを算出することとする。
このように、融合素片と融合元の各音声素片に対して推定されたフォルマントのバンド幅を用いることによって、スペクトル包絡形状の差を用いる場合よりも、融合によるスペクトル包絡の鈍り具合をより直接的に求められるので、フォルマント強調度合いをより高い確度で推定することが可能である。
(第4の実施形態)
本発明の第4の実施形態に係るテキスト音声合成装置について説明する。
本実施形態は、フォルマント強調度合い推定部46の推定方法が、第1、第3の実施形態で説明した例とは相違するものであり、以下、この相違点を中心に説明する。
第3の実施形態においては、融合素片の各LP極に対して求めたフォルマントバンド幅比率を平均化することによって、スペクトル包絡全体での鈍り具合を推定しているが、実際にはスペクトルの鈍り具合がフォルマント毎で異なる場合も考えられる。そこで、各LP極に対して求めたフォルマントバンド幅比率(以下、Rとする。)をそのまま用いることによって、フォルマントごとに強調度合いが異なるようなフォルマント強調を行うことも可能である。
ここで、融合素片のi番目のLP極をpとすると、数式(2)のP(z)に関して、数式(6)のように表せる。
Figure 0005106274
H(z)=1/(1−P(z))という伝達関数を持つフィルタ(線形予測フィルタ)に、LPC分析したときの予測残差を入力すると完全に元の波形が再現できるが、上記のpをz平面上の単位円に近づくように変更したフィルタに予測残差を入力すると、i番目のLP極に対応するフォルマントのバンド幅が狭まり、結果的に、このフォルマントを強調することができる。すなわち、Rに応じて適切にpを変更したフィルタをフォルマント強調フィルタとして用いれば、フォルマントごとに適切なフォルマント強調を行うことができる。
図14に、本実施形態のフォルマント強調フィルタ部45の構成例を示す。
LPC分析部451は、入力された波形に対してLPC分析を行い、算出されたLPCをLPC変形部452に、予測残差を線形予測フィルタ部453に出力する。
LPC変形部452では、フォルマント強調度合い推定部46から入力された各LP極に対するフォルマントバンド幅比率Rに応じてLPC係数を変形し、この変形されたLPC係数を線形予測フィルタ部453に与える。
線形予測フィルタ部453では、LPC変形部452から与えられたLPC係数をフィルタ係数に用いて、LPC分析部451から入力された予測残差をフィルタリングすることによって、フォルマント強調された波形を出力する。
なお、LPC変形部452においては、まず、入力されたLPC係数から数式P(z)を得た後、(1−P(z))を数式(6)のように因数分解することによってLP極pを得る。
次に、LP極pをRに応じて変更する。
例えば、数式(7)のように変更すれば、フォルマントのバンド幅は1/R倍となり、融合元の音声素片での平均的なフォルマントのバンド幅に近づくようバンド幅を狭めることが可能である。
Figure 0005106274
このような方法でRに応じて変更したLP極pを数式(6)に代入して、この数式を展開することによって、変形されたLPC係数を得ることができる。
本実施形態においては、融合素片および融合元の各音声素片に対して求めたLP極を用いてフォルマントごとに強調度合いを変える方法を説明したが、この方法以外にも、フォルマントごとあるいは周波数帯域によって強調度合いが変わるようなフォルマント強調を行うことも可能である。
例えば、フォルマント強調度合い推定部46において、融合素片および融合元の各音声素片の波形を複数の周波数帯域に分割し、それぞれの帯域においてスペクトル包絡の鈍り具合を推定することによって、それぞれの帯域でのフォルマント強調度合いを推定する。そして、フォルマント強調フィルタ部45において、融合素片の波形を帯域分割して得た各周波数帯域の波形に対し、フォルマント強調度合い推定部46から入力された各帯域の強調度合いに従ってフォルマント強調した後、周波数帯域間で波形を足し合わせれば、各周波数帯域でのスペクトル包絡の鈍り具合に応じたスペクトル強調を行うことが可能である。
なお、以上の各機能は、ソフトウェアとして記述し適当な機構をもったコンピュータに処理させても実現可能である。
また、本実施形態は、コンピュータに所定の手順を実行させるための、あるいはコンピュータを所定の手段として機能させるための、あるいはコンピュータに所定の機能を実現させるためのプログラムとして実施することもできる。加えて該プログラムを記録したコンピュータ読取り可能な記録媒体として実施することもできる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の一実施形態に係るテキスト音声合成装置の構成例を示すブロック図 同実施形態に係る音声合成部の構成例を示すブロック図 同実施形態に係る音声素片記憶部に蓄積される音声素片の例を示す図 同実施形態に係る音声素片記憶部に蓄積される素片属性情報の例を示す図 音声素片の選択手順の一例を示すフローチャート 音声波形を融合して新たな音声波形を生成する手順の一例を示すフローチャート 選択された3つの音声素片からなる素片組み合わせ候補を融合して新たな音声素片を生成する例について説明するための図 音声素片の融合によるスペクトル包絡の鈍り具合を推定する手順の一例を示すフローチャート 同実施形態に係る素片編集・接続部での処理を説明するための図 同実施形態に係る音声合成部の他の構成例を示すブロック図 同実施形態に係る融合済み音声素片作成部の構成例を示すブロック図 融合済みの音声素片を学習する手順の一例を示すフローチャート フォルマント強調度合いを推定する手順の一例を示すフローチャート 同実施形態に係るフォルマント強調フィルタ部の構成例を示すブロック図
符号の説明
1…テキスト入力部、2…言語処理部、3…韻律処理部、4…音声合成部、41…音韻系列・韻律情報入力部、42…音声素片記憶部、43…素片選択部、44…素片融合部、45…フォルマント強調フィルタ部、46…フォルマント強調度合い推定部、47…素片編集・接続部、48…音声波形出力部、49…音声素片出力部、5…融合済み音声素片作成部、451…LPC分析部、452…LPC変形部、453…線形予測フィルタ部

Claims (18)

  1. 目標音声に対応する音韻系列を合成単位で区切って得られる複数のセグメントを取得する第1の取得部と、
    前記目標音声に対応する各々の前記セグメントの韻律情報を取得する第2の取得部と、
    各々の前記セグメントごとに、当該セグメントに対し、当該セグメントの前記韻律情報に基づいて、予め用意された複数の音声素片のうちから、複数個の音声素片を選択する選択部と、
    各々の前記セグメントごとに、当該セグメントに対して選択された複数個の前記音声素片を融合することによって、融合素片を生成する融合部と、
    各々の前記セグメントごとに、前記選択部により選択された複数個の前記音声素片のスペクトル包絡に関する特徴量と、前記融合部により生成された前記融合素片のスペクトル包絡に関する特徴量とに基づいて、前記融合によるスペクトル包絡の鈍化の程度を推定し、該推定したスペクトル包絡の鈍化の程度に応じて、当該セグメントに係る前記融合素片に対して行うべきフォルマント強調における強調度合いを決定する推定部と、
    各々の前記セグメントごとに、当該セグメントに係る前記融合素片に対して、前記推定部が決定した前記強調度合い基づくフォルマント強調を行うフォルマント強調フィルタ部とを備えたことを特徴とする音声処理装置。
  2. 前記推定部は、各々の前記セグメントごとに、前記融合部により生成された前記融合素片のスペクトル包絡が、前記選択部により選択された前記音声素片のスペクトル包絡から、どの程度鈍ったかを推定し、推定されたスペクトル包絡の鈍り具合が大きいセグメントほど、強めのフォルマント強調度合いになるように、前記決定を行うことを特徴とする請求項1に記載の音声処理装置。
  3. 前記推定部は、各々の前記セグメントごとに、前記融合部により生成された前記融合素片のスペクトル包絡と、前記選択部により選択された前記音声素片のスペクトル包絡の形状との差を推定し、推定されたスペクトル包絡の形状の差が大きいセグメントほど、強めのフォルマント強調度合いになるように、前記決定を行うことを特徴とする請求項1に記載の音声処理装置。
  4. 前記推定部は、前記複数のセグメントのそれぞれに対して、フォルマントごと又は複数に分割した周波数帯域ごとにフォルマント強調度合いを求め
    前記フォルマント強調フィルタ部は、それぞれのフォルマント又は周波数帯域に対して求められたフォルマント強調度合いに従って、フォルマント又は周波数帯域間で異なる強さのフォルマント強調を行うことを特徴とする請求項1に記載の音声処理装置。
  5. 目標音声に対応する音韻系列を合成単位で区切って得られる複数のセグメントを取得する第1の取得部と、
    前記目標音声に対応する各々の前記セグメントの韻律情報を取得する第2の取得部と、
    各々の前記セグメントごとに、当該セグメントに対し、当該セグメントの前記韻律情報に基づいて、予め用意された複数の音声素片のうちから、複数個の音声素片を選択する選択部と、
    各々の前記セグメントごとに、当該セグメントに対して選択された複数個の前記音声素片を融合することによって、融合素片を生成する融合部と、
    各々の前記セグメントごとに、目標音声に対する前記融合部により生成された前記融合素片による音声の歪みの度合いを用いて、前記融合によるスペクトル包絡の鈍化の程度を推定し、該推定したスペクトル包絡の鈍化の程度に応じて、当該セグメントに係る前記融合素片に対して行うべきフォルマント強調における強調度合いを決定する推定部と、
    各々の前記セグメントごとに、当該セグメントに係る前記融合素片に対して、前記推定部が決定した前記強調度合い基づくフォルマント強調を行うフォルマント強調フィルタ部とを備えたことを特徴とする音声処理装置。
  6. 前記推定部は、各々の前記セグメントごとに、前記歪みの度合いを、当該セグメントの目標音声に対応する韻律情報と前記選択部により選択された前記音声素片の韻律情報とから推定し、該歪みの度合いが大きいセグメントほど、強めのフォルマント強調度合いになるように、前記決定を行うことを特徴とする請求項5に記載の音声処理装置。
  7. 各々の前記セグメントについて前記フォルマント強調フィルタ部によりそれぞれ得られたフォルマント強調された前記融合素片に係る音声波形をもとにして、合成音声を生成する生成部を更に備えたことを特徴とする請求項1ないし6のいずれか1項に記載の音声処理装置。
  8. 各々の前記セグメントについて前記フォルマント強調フィルタ部によりそれぞれ得られたフォルマント強調された前記融合素片をそのまま出力する出力部を更に備えたことを特徴とする請求項1ないし6のいずれか1項に記載の音声処理装置。
  9. 前記出力部は、前記融合素片を、テキスト音声合成に供するための音声素片を記憶する記憶部に出力することを特徴とする請求項に記載の音声処理装置。
  10. 前記予め用意された複数の音声素片を記憶する音声素片記憶部を更に備えたことを特徴とする請求項1ないしいずれか1項に記載の音声処理装置。
  11. 第1の取得部、第2の取得部、選択部、融合部、推定部及びフォルマント強調フィルタ部を備えた音声処理装置の音声処理方法であって、
    前記第1の取得部が、目標音声に対応する音韻系列を合成単位で区切って得られる複数のセグメントを取得するステップと、
    前記第2の取得部が、前記目標音声に対応する各々の前記セグメントの韻律情報を取得するステップと、
    前記選択部が、各々の前記セグメントごとに、当該セグメントに対し、当該セグメントの前記韻律情報に基づいて、予め用意された複数の音声素片のうちから、複数個の音声素片を選択するステップと、
    前記融合部が、各々の前記セグメントごとに、当該セグメントに対して選択された複数個の前記音声素片を融合することによって、融合素片を生成するステップと、
    前記推定部が、各々の前記セグメントごとに、前記選択部により選択された複数個の前記音声素片のスペクトル包絡に関する特徴量と、前記融合部により生成された前記融合素片のスペクトル包絡に関する特徴量とに基づいて、前記融合によるスペクトル包絡の鈍化の程度を推定し、該推定したスペクトル包絡の鈍化の程度に応じて、当該セグメントに係る前記融合素片に対して行うべきフォルマント強調における強調度合いを決定するステップと、
    前記フォルマント強調フィルタ部が、各々の前記セグメントごとに、当該セグメントに係る前記融合素片に対して、前記推定部が決定した前記強調度合い基づくフォルマント強調を行うステップとを有することを特徴とする音声処理方法。
  12. 第1の取得部、第2の取得部、選択部、融合部、推定部及びフォルマント強調フィルタ部を備えた音声処理装置の音声処理方法であって、
    前記第1の取得部が、目標音声に対応する音韻系列を合成単位で区切って得られる複数のセグメントを取得するステップと、
    前記第2の取得部が、前記目標音声に対応する各々の前記セグメントの韻律情報を取得するステップと、
    前記選択部が、各々の前記セグメントごとに、当該セグメントに対し、当該セグメントの前記韻律情報に基づいて、予め用意された複数の音声素片のうちから、複数個の音声素片を選択するステップと、
    前記融合部が、各々の前記セグメントごとに、当該セグメントに対して選択された複数個の前記音声素片を融合することによって、融合素片を生成するステップと、
    前記推定部が、各々の前記セグメントごとに、目標音声に対する前記融合部により生成された前記融合素片による音声の歪みの度合いを用いて、前記融合によるスペクトル包絡の鈍化の程度を推定し、該推定したスペクトル包絡の鈍化の程度に応じて、当該セグメントに係る前記融合素片に対して行うべきフォルマント強調における強調度合いを決定するステップと、
    前記フォルマント強調フィルタ部が、各々の前記セグメントごとに、当該セグメントに係る前記融合素片に対して、前記推定部が決定した前記強調度合い基づくフォルマント強調を行うステップとを有することを特徴とする音声処理方法。
  13. 前記音声処理装置は、生成部を更に備えるものであり、
    前記音声処理方法は、前記生成部が、各々の前記セグメントについて前記フォルマント強調フィルタ部によりそれぞれ得られたフォルマント強調された前記融合素片に係る音声波形をもとにして、合成音声を生成するステップを更に含むことを特徴とする請求項11または12に記載の音声処理方法。
  14. 前記音声処理装置は、出力部を更に備えるものであり、
    前記音声処理方法は、前記出力部が、各々の前記セグメントについて前記フォルマント強調フィルタ部によりそれぞれ得られたフォルマント強調された前記融合素片をそのまま出力するステップを更に含むことを特徴とする請求項11または12に記載の音声処理方法。
  15. 第1の取得部、第2の取得部、選択部、融合部、推定部及びフォルマント強調フィルタ部を備えた音声処理装置としてコンピュータを機能させるためのプログラムであって、
    前記第1の取得部が、目標音声に対応する音韻系列を合成単位で区切って得られる複数のセグメントを取得するステップと、
    前記第2の取得部が、前記目標音声に対応する各々の前記セグメントの韻律情報を取得するステップと、
    前記選択部が、各々の前記セグメントごとに、当該セグメントに対し、当該セグメントの前記韻律情報に基づいて、予め用意された複数の音声素片のうちから、複数個の音声素片を選択するステップと、
    前記融合部が、各々の前記セグメントごとに、当該セグメントに対して選択された複数個の前記音声素片を融合することによって、融合素片を生成するステップと、
    前記推定部が、各々の前記セグメントごとに、前記選択部により選択された複数個の前記音声素片のスペクトル包絡に関する特徴量と、前記融合部により生成された前記融合素片のスペクトル包絡に関する特徴量とに基づいて、前記融合によるスペクトル包絡の鈍化の程度を推定し、該推定したスペクトル包絡の鈍化の程度に応じて、当該セグメントに係る前記融合素片に対して行うべきフォルマント強調における強調度合いを決定するステップと、
    前記フォルマント強調フィルタ部が、各々の前記セグメントごとに、当該セグメントに係る前記融合素片に対して、前記推定部が決定した前記強調度合い基づくフォルマント強調を行うステップとをコンピュータに実行させるためのプログラム。
  16. 第1の取得部、第2の取得部、選択部、融合部、推定部及びフォルマント強調フィルタ部を備えた音声処理装置としてコンピュータを機能させるためのプログラムであって、
    前記第1の取得部が、目標音声に対応する音韻系列を合成単位で区切って得られる複数のセグメントを取得するステップと、
    前記第2の取得部が、前記目標音声に対応する各々の前記セグメントの韻律情報を取得するステップと、
    前記選択部が、各々の前記セグメントごとに、当該セグメントに対し、当該セグメントの前記韻律情報に基づいて、予め用意された複数の音声素片のうちから、複数個の音声素片を選択するステップと、
    前記融合部が、各々の前記セグメントごとに、当該セグメントに対して選択された複数個の前記音声素片を融合することによって、融合素片を生成するステップと、
    前記推定部が、各々の前記セグメントごとに、目標音声に対する前記融合部により生成された前記融合素片による音声の歪みの度合いを用いて、前記融合によるスペクトル包絡の鈍化の程度を推定し、該推定したスペクトル包絡の鈍化の程度に応じて、当該セグメントに係る前記融合素片に対して行うべきフォルマント強調における強調度合いを決定するステップと、
    前記フォルマント強調フィルタ部が、各々の前記セグメントごとに、当該セグメントに係る前記融合素片に対して、前記推定部が決定した前記強調度合い基づくフォルマント強調を行うステップとをコンピュータに実行させるためのプログラム。
  17. 前記音声処理装置は、生成部を更に備えるものであり、
    前記プログラムは、前記生成部が、各々の前記セグメントについて前記フォルマント強調フィルタ部によりそれぞれ得られたフォルマント強調された前記融合素片に係る音声波形をもとにして、合成音声を生成するステップを更にコンピュータに実行させることを特徴とする請求項15または16に記載のプログラム
  18. 前記音声処理装置は、出力部を更に備えるものであり、
    前記プログラムは、前記出力部が、各々の前記セグメントについて前記フォルマント強調フィルタ部によりそれぞれ得られたフォルマント強調された前記融合素片をそのまま出力するステップを更にコンピュータに実行させることを特徴とする請求項15または16に記載のプログラム
JP2008170973A 2008-06-30 2008-06-30 音声処理装置、音声処理方法及びプログラム Expired - Fee Related JP5106274B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008170973A JP5106274B2 (ja) 2008-06-30 2008-06-30 音声処理装置、音声処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008170973A JP5106274B2 (ja) 2008-06-30 2008-06-30 音声処理装置、音声処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2010008922A JP2010008922A (ja) 2010-01-14
JP5106274B2 true JP5106274B2 (ja) 2012-12-26

Family

ID=41589465

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008170973A Expired - Fee Related JP5106274B2 (ja) 2008-06-30 2008-06-30 音声処理装置、音声処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5106274B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7496559B2 (ja) 2022-07-11 2024-06-07 株式会社ユニテック 鋼管部材の連結構造および鋼管部材の連結方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170261A (ja) * 2010-02-22 2011-09-01 Oki Electric Industry Co Ltd 音声強調装置及び音声強調プログラム
WO2012001457A1 (en) * 2010-06-28 2012-01-05 Kabushiki Kaisha Toshiba Method and apparatus for fusing voiced phoneme units in text-to-speech

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06208395A (ja) * 1992-10-30 1994-07-26 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho ホルマント検出装置及び音声加工装置
JP3321971B2 (ja) * 1994-03-10 2002-09-09 ソニー株式会社 音声信号処理方法
JP3281281B2 (ja) * 1996-03-12 2002-05-13 株式会社東芝 音声合成方法及び装置
JP2008033133A (ja) * 2006-07-31 2008-02-14 Toshiba Corp 音声合成装置、音声合成方法および音声合成プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7496559B2 (ja) 2022-07-11 2024-06-07 株式会社ユニテック 鋼管部材の連結構造および鋼管部材の連結方法

Also Published As

Publication number Publication date
JP2010008922A (ja) 2010-01-14

Similar Documents

Publication Publication Date Title
JP5159325B2 (ja) 音声処理装置及びそのプログラム
JP4551803B2 (ja) 音声合成装置及びそのプログラム
JP4080989B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP4469883B2 (ja) 音声合成方法及びその装置
JP3913770B2 (ja) 音声合成装置および方法
EP2881947B1 (en) Spectral envelope and group delay inference system and voice signal synthesis system for voice analysis/synthesis
JP2008033133A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JPH031200A (ja) 規則型音声合成装置
CN114464208A (zh) 语音处理装置、语音处理方法以及存储介质
WO2011151956A1 (ja) 声質変換装置及びその方法、母音情報作成装置並びに声質変換システム
JP2008249808A (ja) 音声合成装置、音声合成方法及びプログラム
US20110046957A1 (en) System and method for speech synthesis using frequency splicing
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP5106274B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP4225128B2 (ja) 規則音声合成装置及び規則音声合成方法
JP2009133890A (ja) 音声合成装置及びその方法
JP2904279B2 (ja) 音声合成方法および装置
JP3281266B2 (ja) 音声合成方法及び装置
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP5075865B2 (ja) 音声処理装置、方法、及びプログラム
JP4476855B2 (ja) 音声合成装置及びその方法
JP2003208188A (ja) 日本語テキスト音声合成方法
JP5275470B2 (ja) 音声合成装置およびプログラム
JP3727885B2 (ja) 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120802

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120904

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121002

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151012

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees