JP4223783B2 - 音声合成装置、音声合成方法、音声合成プログラム、および、プログラム記録媒体 - Google Patents

音声合成装置、音声合成方法、音声合成プログラム、および、プログラム記録媒体 Download PDF

Info

Publication number
JP4223783B2
JP4223783B2 JP2002302032A JP2002302032A JP4223783B2 JP 4223783 B2 JP4223783 B2 JP 4223783B2 JP 2002302032 A JP2002302032 A JP 2002302032A JP 2002302032 A JP2002302032 A JP 2002302032A JP 4223783 B2 JP4223783 B2 JP 4223783B2
Authority
JP
Japan
Prior art keywords
speech
pitch pattern
unit
synthesis
prosody
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002302032A
Other languages
English (en)
Other versions
JP2004138728A5 (ja
JP2004138728A (ja
Inventor
一浩 三木
治 木村
智一 森尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2002302032A priority Critical patent/JP4223783B2/ja
Publication of JP2004138728A publication Critical patent/JP2004138728A/ja
Publication of JP2004138728A5 publication Critical patent/JP2004138728A5/ja
Application granted granted Critical
Publication of JP4223783B2 publication Critical patent/JP4223783B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
この発明は、自然なピッチパターンで高音質の音声を出力することができる音声合成装置,音声合成方法,音声合成プログラムおよびプログラム記録媒体に関する。
【0002】
【従来の技術】
音声合成時には、音声を構成する音声素片を指定されたピッチパターンに従って接続することによって、定められたピッチパターンで合成音声が作成される。通常、上記音声素片は上記ピッチパターンに従うように信号処理によって変形されて接続されるのであるが、上記音声素片のピッチを大きく変形すると音質の劣化が大きくなって合成音声全体に音質の劣化が生ずることになる。
【0003】
この音質劣化に対応するために、モデル等によって作成された音声素片の基本のピッチパターンに対してピッチパターンが不自然にならない程度の変形可能範囲を設ける。そして、その範囲内で基本ピッチパターンの変形を行うことによって、音声素片の変形率を小さくして音質劣化を軽減する音声素片データベース作成方法がある(例えば、特許文献1参照)。
【0004】
図6に、上記音声素片データベース作成方法が適用された従来のテキスト音声合成装置の一例を示す。言語処理部1は、入力されたテキストデータから読みの情報,品詞の情報,係り受け情報等の言語関連情報を抽出する。韻律作成部2は、言語処理部1によって与えられた各種の情報から、予め設定されている規則に基づいて基本の韻律情報を作成する。素片選択部3は、得られた上記言語情報や韻律情報に基づいて、所持している音声素片から最適な音声素片を選択する。韻律変形部4は、上述のごとく得られた上記韻律情報の一部であるピッチパターンに対して、予め設定されたピッチパターンが不自然にならないピッチパターン変形可能範囲内において、上記得られた音声素片の基本周波数を変形させて、上記音声素片の変形量が少なくてすむピッチパターンに変形する。こうして、音質劣化を軽減するようにしている。
【0005】
上記韻律変形部4による処理を、図7に従って説明する。基本のピッチパターン11は規則等によって作成される。そして、この基本のピッチパターン11に対して、ピッチパターンが不自然にならない変形可能範囲(図7中の範囲(A))を設定し、選択された音声素片のピッチ(以下、単に音声素片と言う)12〜15に対する変形量が小さくなるように基本のピッチパターン11を変形可能範囲(A)内で変形することによって、変形ピッチパターン16を決定するのである。
【0006】
以後、音声合成部5は、上述のようにして韻律変形部4で決定された変形ピッチパターン16に基づいて、上記選択された音声素片を変形して接続することによって、合成音声音を作成するのである。
【0007】
【特許文献1】
特開2000-194390号公報
【0008】
【発明が解決しようとする課題】
しかしながら、上記従来の特許文献1に開示された音声素片データベース作成方法においては、以下のような問題がある。すなわち、
(1)ピッチパターン制御を実現する方法が具体的に示されてはいない。上記音声素片データベース作成方法では、ピッチパターンは「自然性を保ったまま」、「接続部では同じピッチになるように」、「素片の変形量を小さくなるように」変形することを条件としている。しかしながら、これらの条件は曖昧ものであり、実際のピッチパターン変形方法については具体的に述べられてはいない。また、上記条件を満たすように、手作業で最適にピッチパターンの変形を行ったとしても、次の(2),(3)に示すような問題が発生する。
【0009】
(2)一つの合成単位に対して複数の候補が存在する場合には、最適な音声素片が選ばれず、音質を悪くする可能性がある。例えば、図8に示すように、基本のピッチパターン11に対して音声素片を選択する場合、時点T2〜T3間の音声素片として音声素片14が選択される。ところが、不自然なピッチパターンにならないことを考慮した上で、基本のピッチパターン11を変形ピッチパターン16に変形した場合には、実際に存在する変形ピッチパターン16に対して変形量が小さい音声素片は音声素片17であるにも拘わらず、上記選択された音声素片14を変形して合成音声が作成してしまう。したがって、合成音の一部に大きな音質劣化を及ぼすことになってしまう。
【0010】
(3)ピッチパターンが不自然にならない変形可能範囲(A)を設定することが困難である。例えば、図9に示すように、選択された音声素片12〜15が基本のピッチパターン11の上下に存在するような場合には、各音声素片の変形量が小さくなるように基本のピッチパターン11を変形すると、ピッチパターン18で示すように、変形可能範囲(A)の上部と下部とに配置されるような不自然な変形ピッチパターンが得られてしまう。
【0011】
したがって、上記基本のピッチパターン11の上下に音声素片が存在する場合等は、自然性の劣化を回避するためには、ピッチパターンの変形可能範囲(A)を小さく設定する必要がある。一方、音声素片が全て基本のピッチパターン11の上部または下部に存在する場合等は、ピッチパターンの変形可能範囲(A)を大きくしてもピッチパターンの自然性を保ったまま音質の改善を行うことができる。したがって、一意に変形可能範囲(A)を設定することができないのである。
【0012】
以上のように、上記従来の方法においては、上記ピッチパターンの最適な変形可能範囲(A)を設定することが困難なのである。
【0013】
そこで、この発明の目的は、自然なピッチパターンで高音質の音声を出力することができる音声合成装置,音声合成方法,音声合成プログラムおよびプログラム記録媒体を提供することにある。
【0014】
【課題を解決するための手段】
上記目的を達成するため、この発明の音声合成装置は、言語情報および韻律情報が入力されると共に、上記韻律情報に従って音声素片を変形・接続して合成音声を生成する音声合成手段を含んでおり、上記韻律情報の1つである基本ピッチパターンをその概形を保持したまま周波数方向に平行移動させながら、移動後の変形ピッチパターンおよび上記言語情報に適合する音声素片列を選択し、上記選択された音声素片列のうち最も適合する音声素片列に係る変形ピッチパターンと上記最も適合した音声素片列とを、上記合成音声時に用いる韻律情報および音声素片として上記音声合成手段に送出する素片・韻律制御手段を備えている。
【0015】
上記構成によれば、素片・韻律制御手段によって、基本ピッチパターンをその概形を保持したまま周波数方向に平行移動させながら、適合する音声素片列が選択される。そして、音声合成手段によって、上記最も適合する音声素片列に係る変形ピッチパターンに従って、上記最も適合する音声素片列が変形・接続されて合成音声が生成される。
【0016】
こうして、最適変形ピッチパターンに対して変形量が最も小さい音声素片列が選択されるため、合成単位での大きな音質劣化が無い合成音声が生成される。さらに、上記基本ピッチパターンは、ピッチパターンの変形可能範囲に捕われることなく、その概形を保ったままで周波数変形される。したがって、自然なピッチパターンで合成音声が生成される。
【0017】
また、1実施例の音声合成装置では、上記素片・韻律制御手段による上記基本ピッチパターンの平行移動を、選択の対象となる音声素片が存在する周波数帯域の全域に対して行うようにしている。
【0018】
この実施例によれば、選択の対象となる音声素片が存在する周波数帯域の全域に対して、上記適合する音声素片の選択が行われる。したがって、選択の対象となる音声素片の総ての中から、上記基本ピッチパターンの概形に最も近いピッチ概形を有する音声素片列が選出される。こうして、聞き取り易く音質のよい合成音声が作成される。
【0019】
また、1実施例の音声合成装置では、上記素片・韻律制御手段を、上記変形ピッチパターンに適合する音声素片を選択する際における上記適合の判定基準として、各合成単位毎に求められる上記変形ピッチパターンに対する音声素片のピッチの変形量を用い、上記最も適合した音声素片列の判定基準として、上記変形ピッチパターンの全合成単位に関する上記変形量の総和を用いるようにしている。
【0020】
この実施例によれば、上記変形ピッチパターンに適合する音声素片の選択や、最も適合する音声素片列に係る変形ピッチパターンの抽出が、上記変形ピッチパターンに対する音声素片のピッチの変形量に基づいて容易に行われる。
【0021】
また、1実施例の音声合成装置では、上記素片・韻律制御手段を、上記変形ピッチパターンに適合する音声素片を選択する際における上記適合の判定基準として、各合成単位毎に求められる上記変形ピッチパターンに対する音声素片のピッチの変形量を用い、上記最も適合した音声素片列の判定基準としては、上記変形ピッチパターンの全合成単位に関する上記変形量の最大値を用いるようにしている。
【0022】
この実施例によれば、上記最も適合する音声素片列に係る変形ピッチパターンの抽出が、上記変形ピッチパターンの全合成単位に関する上記変形量の最大値に基づいて行われる。したがって、上記最大値が最小を呈する場合の音声素片列およびそれに係る変形ピッチパターンを音声合成用に用いることによって、選択の対象となる音声素片の数が十分でない場合であっても、急激な音質劣化のない比較的聞き取り易い合成音声が作成される。
【0023】
また、1実施例の音声合成装置では、上記素片・韻律制御手段を、上記基本ピッチパターンまたは変形ピッチパターンにおける各合成単位毎の評価値に基づく音声素片の選択と、この選択された全音声素片に関する上記評価値に基づく上記基本ピッチパターンまたは変形ピッチパターンの周波数方向への平行移動とを、選択すべき音声素片が無くなるまで繰り返して行い、最終的に得られた変形ピッチパターンと最終的に選択された全音声素片とを上記音声合成手段に送出するようになっている。
【0024】
この実施例によれば、上記基本ピッチパターンまたは変形ピッチパターンは、各合成単位毎の評価値に基づいて選択された全音声素片の上記評価値に基づいて周波数方向へ平行移動される。したがって、最終的に得られる変形ピッチパターンは、基本ピッチパターンに対して大きな周波数変形が行われてはいない。したがって、上記最終的に得られた変形ピッチパターンを用いて音声合成が行われることによって、合成音声作成者の意図した基本ピッチに近い合成音声が生成される。
【0025】
また、1実施例の音声合成装置では、上記素片・韻律制御手段を、上記音声素片を選択する際の評価値として、上記変形ピッチパターンに対する音声素片のピッチの変形量を用いると共に、上記基本ピッチパターンまたは変形ピッチパターンの周波数方向への平行移動を、上記選択された全音声素片に関する変形量の総和が最小となる位置まで行うようにしている。
【0026】
この実施例によれば、各合成単位毎の音声素片の選択や、選択された全音声素片に関する上記基本ピッチパターンまたは変形ピッチパターンの周波数方向への平行移動が、上記変形ピッチパターンに対する音声素片のピッチの変形量に基づいて容易に行われる。
【0027】
また、1実施例の音声合成装置では、上記素片・韻律制御手段を、上記音声素片を選択する際の評価値として、上記変形ピッチパターンに対する音声素片のピッチの変形量を用いると共に、上記基本ピッチパターンまたは変形ピッチパターンの周波数方向への平行移動を、上記選択された全音声素片に関する変形量の最大値が最小となる位置まで行うようにしている。
【0028】
この実施例によれば、選択された全音声素片に関する上記基本ピッチパターンまたは変形ピッチパターンの周波数方向への平行移動が、上記選択された全音声素片に関する上記変形量の最大値が最小となる位置まで行われる。したがって、選択の対象となる音声素片の数が十分でない場合であっても、急激な音質劣化のない比較的聞き取り易い合成音声が作成される。
【0029】
また、1実施例の音声合成装置では、少なくとも音質を重視した音声合成と韻律を重視した音声合成との何れかを切り換え選択する選択手段を備えると共に、上記素片・韻律制御手段を、選択の対象となる音声素片が存在する全周波数領域に亙って上記基本ピッチパターンを平行移動させて上記音声素片の選択を行う第1制御部と、上記基本ピッチパターン近傍の周波数領域内で上記基本ピッチパターンを平行移動させて上記音声素片の選択を行う第2制御部とを有して、上記選択手段によって音質を重視した音声合成が選択された場合には上記第1制御部による処理を行う一方、上記選択手段によって韻律を重視した音声合成が選択された場合には上記第2制御部による処理を行うようにしている。
【0030】
この実施例によれば、選択手段によって音質を重視した音声合成が選択されると、上記素片・韻律制御手段によって第1制御部による処理が行われる。一方、韻律を重視した音声合成が選択されると、第2制御部による処理が行われる。こうして、上記音質を重視した音声合成と韻律を重視した音声合成とが、1つの音声合成装置によって実行される。
【0031】
また、この発明の音声合成方法は、入力された言語情報および韻律情報に基づいて、合成音声を生成する音声合成方法であって、記韻律情報の1つである基本ピッチパターンを,その概形を保持したままの状態で周波数方向に平行移動させながら,移動後の変形ピッチパターンおよび上記言語情報に適合する音声素片列を選択する韻律変形・素片選択ステップと、上記選択された音声素片列のうちの最も適合する音声素片列に係る変形ピッチパターンを含む韻律情報に従って、上記最も適合した音声素片列を変形・接続して合成音声を生成する音声合成ステップを備えている。
【0032】
上記構成によれば、最も適合する音声素片列に係る最適変形ピッチパターンに対して変形量が最も小さい音声素片列が選択されるため、合成単位での大きな音質劣化が無い合成音声が生成される。さらに、上記基本ピッチパターンは、ピッチパターンの変形可能範囲に捕われることなく、その概形を保ったままで周波数変形される。したがって、自然なピッチパターンで合成音声が生成される。
【0033】
また、この発明の音声合成プログラムは、コンピュータを、上記音声合成装置における素片・韻律制御手段および音声合成手段として機能させる。
【0034】
また、この発明のプログラム記録媒体は、上記音声合成プログラムが記録されている。
【0035】
上記各構成によれば、上記音声合成プログラムが記録されたプログラム記録媒体がコンピュータに装着されて実行されることによって、最も適合する音声素片列に係る最適変形ピッチパターンに対して変形量が最も小さい音声素片列が選択されるために、合成単位での大きな音質劣化が無い合成音声が生成される。さらに、上記基本ピッチパターンは、ピッチパターンの変形可能範囲に捕われることなく、その概形を保ったままで周波数変形される。したがって、自然なピッチパターンで合成音声が生成される。
【0036】
【発明の実施の形態】
以下、この発明を図示の実施の形態により詳細に説明する。
【0037】
・第1実施の形態
図1は、本実施の形態の音声合成装置としてのテキスト音声合成装置におけるブロック図である。本テキスト音声合成装置においては、音声素片の情報を考慮しつつ基本のピッチパターンを平行移動することによって、様々な状況において基本のピッチパターンのパターン形状を保ったまま音声素片の変形量を調整し、最適な音声素片およびピッチパターンを選択するのである。
【0038】
図1において、テキスト情報は言語処理部21に入力され、言語処理部21によって、入力されたテキストデータから読みの情報,品詞の情報,係り受け情報等の言語関連情報が抽出される。韻律作成部22は、言語処理部21によって与えられた各種の情報から、予め設定されている規則に基づいて基本の韻律情報を作成する。素片・韻律制御部23は、韻律作成部22によって作成された韻律情報を用いて、音声素片の選択と韻律の変形とを選択の対象となる総ての音声素片に関して行う。音声合成部24は、素片・韻律制御部23によって得られた最適な音声素片を用いて最適な韻律に基づいて合成音声を作成して出力するのである。
【0039】
以下、上記素片・韻律制御部23によって実行される音声素片の選択と韻律の変形とについて、図2に従って説明する。図2中における時点T0,…,時点T4は合成単位の切れ目であり、各音声素片の接続位置でもある。また、25は、韻律作成部22によって作成された基本の韻律情報の1つである基本ピッチパターンである。
【0040】
上記素片・韻律制御部23は、この基本ピッチパターン25の概形を保持したまま、周波数方向に対して音声素片が存在する全領域をサーチして評価値の計算を行う。本実施の形態においては、選択の対象となる音声素片(つまり、上記言語関連情報に適合する音声素片)が存在する最高周波数から最低周波数まで、定められた周波数毎に基本ピッチパターン25の全体を平行移動させる。そして、各周波数毎に、各合成単位での最適な音声素片を評価値に基づいて選択し、その周波数における総評価値を求めて記憶しておく。そして、最終的には、最も総評価値の良い周波数でのピッチパターンを合成時に用いる変形ピッチパターンであるとして音声合成を行うのである。
【0041】
図2において、全周波数領域において、基本ピッチパターン25を、その概形を保った状態で所定周波数だけ周波数方向に平行に変形した際に、ピッチパターン26になったとする。その場合、時点T0〜時点T1の合成単位では、音声素片のピッチ(以下、単に音声素片と言う)27,28のうち最適な音声素片28を評価値に基づいて選択する。同様に、時点T1〜時点T2の合成単位では最適な音声素片29を選択し、時点T2〜時点T3の合成単位では最適な音声素片30を選択し、時点T3〜時点T4の合成単位では最適な音声素片31を選択する。そして、選択された全音声素片の評価値に基づいて、変形ピッチパターン26の総評価値を算出して記憶しておく。尚、音声素片32,33,34,35は、選択されなかった音声素片である。
【0042】
以後、上記所定周波数だけ基本ピッチパターン25を周波数方向に平行に変形する毎に総評価値を算出して記憶し、最も良い総評価値を呈する変形ピッチパターンを求める。その結果、例えば平均周波数Bにおける変形ピッチパターン26の総評価値が最良である場合には、音声合成用のピッチパターンとして変形ピッチパターン26を選択するのである。
【0043】
尚、その場合における上記総評価値の算出方法としては、例えば、各合成単位において各音声素片の変形ピッチパターンまでの変形量(周波数移動量)を評価値として最適な音声素片を選択し、この選択された音声素片の変形量を当該合成単位の評価値とする。そして、全合成単位の評価値の合計を以って総評価値とするのである。あるいは、上述のようにして求めた全合成単位の評価値のうちの最大値を以って総評価値としても差し支えない。
【0044】
上記音声素片の数が豊富に揃っている場合等は、前者の方法を用いて音声合成時に用いるピッチパターンを得ることで、高音質の合成音声を作成することができる。一方、音声素片の数が十分でない場合には、前者の方法では変形量が大きく音質の悪い部分が突然生ずる可能性もある。そのような場合には、後者の方法を用いることによって、急激な音質劣化のない、比較的聞き取り易い合成音声を作成することができるのである。尚、各合成単位での評価値の算出方法は上述の方法に限定されるものではなく、状況に応じて設定すればよい。
【0045】
上記音声合成部24は、以上の様にして得られた最適な変形ピッチパターン26と、変形ピッチパターン26を得る際に選択された音声素片28,29,30,31とを用いて、合成音声を作成するのである。
【0046】
尚、本実施の形態におけるテキスト音声合成装置による基本的な音声合成処理動作のフローチャートを図3に示す。
【0047】
以上のごとく、本実施の形態においては、基本の韻律情報を作成する韻律作成部22と合成音声を作成する音声合成部24との間に、素片・韻律制御部23を設ける。そして、この素片・韻律制御部23によって、韻律作成部22で作成された基本のピッチパターン25の概形を保持したまま所定周波数毎に周波数軸方向に平行移動させ、合成単位毎に音声素片をサーチして評価値を計算し、変形ピッチパターン全体の総評価値を求める。そして、最良の総評価値を呈する変形ピッチパターンを音声合成の際に用いるピッチパターンとし、当該総評価値の基となる評価値算出時に用いた選択音声素片を音声合成の際に用いる音声素片とするようにしている。
【0048】
したがって、上記最良の総評価値を呈する最適変形ピッチパターンに対して変形量が小さい音声素片を選択することができ、各合成単位において大きな音質劣化が無い合成音声を生成することができる。
【0049】
さらに、本実施の形態においては、ピッチパターンの変形可能範囲を設定する必要が無いので、変形可能範囲に捕われることなく最適に変形ピッチパターンを設定し、最適な音声素片を選択することができる。また、変形ピッチパターンを設定する際に、規則に従って設定された基本のピッチパターンの概形を保ったままで周波数変形するようにしている。したがって、自然なピッチパターンで合成音声を生成できる。
【0050】
すなわち、本実施の形態によれば、自然なピッチパターンで高音質の音声を出力することができるのである。
【0051】
・第2実施の形態
上記第1実施の形態においては、変形ピッチパターンを得る方法として、周波数方向に対して音声素片が存在する全領域をサーチすることによって最終的な変形ピッチパターンを決定している。ところが、第1実施の形態のような方法を用いた場合には、聞き取り易く音質のよい合成音声が作成できるのではあるが、最終的に得られた変形ピッチパターンは、基本ピッチパターンに対して平均ピッチが大きく変形されている場合がある。その場合には、合成音声作成者の意図した音質の合成音を作成できない可能性がある。
【0052】
本実施の形態は、予め与えられた基本ピッチパターン近傍において最適な変形ピッチパターンを設定することができるテキスト音声合成装置に関するものである。尚、本テキスト音声合成装置の構成は、上記第1実施の形態において、図1に示す音声合成装置と同じであり、素片・韻律制御部23の動作のみが上記第1実施の形態とはことなる。
【0053】
以下、本実施の形態における素片・韻律制御部23によって実行される音声素片の選択と韻律の変形との方法について、図4に従って説明する。本実施の形態においては、韻律作成部22によって作成された基本ピッチパターン41をその近傍において周波数方向に平行移動することによって、ピッチパターンを可能な限り変化させずに音質の改善を行うのである。
【0054】
上記素片・韻律制御部23による具体的な処理の手順は、以下のようである。先ず、与えられた基本ピッチパターン41に対して、近傍の音声素片の中から評価値に基づいて最適な音声素片を決定する。本実施の形態においては、一例として各音声素片の基本ピッチパターン41への変形量を以って上記評価値とする。この場合、与えられた基本ピッチパターン41に対する最適な音声素片として、音声素片42,43,44,45が選択されたとする。こうして選択された各音声素片に関して、各音声素片の総変形量(総評価値)が最小になるように基本ピッチパターン41を周波数方向に移動させる。尚、上記変形量が最小になるような変形は、最小二乗法等の方法を用いることによって容易に行うことができる。
【0055】
その結果、例えば、上記基本ピッチパターン41は、上記選択された音声素片42,43,44,45への総変形量が最小になるように矢印(C)のように変形が行われ、変形ピッチパターン46が得られる。選択の対象となる音声素片が各合成単位に関して一つしか存在しない場合は、以上の処理を一度行うだけで最適な変形ピッチパターンを得ることができる。ところが、各合成単位に関して複数の音声素片が存在する場合には、さらに上述の処理を行うのである。
【0056】
図4に示す例の場合には、上記基本ピッチパターン41が変形ピッチパターン46に変形されたため、時点T2〜時点T3間の合成単位における最適な音声素片が音声素片44から音声素片47に変化する。したがって、再度、変形ピッチパターン46に関して最適な音声素片の選択を行うと、最適な音声素片として音声素片42,43,47,45が選択されることになる。その結果、再度、選択された各音声素片に関して、各音声素片の総変形量が最小になるように変形ピッチパターン46を周波数方向に移動させると、矢印(D)のように変形が行われて変形ピッチパターン48が得られる。
【0057】
本例の場合には、こうして得られた変形ピッチパターン48に関して、再々度最適な音声素片の選択を行っても新たな最適音声素片は選択されない。したがって、それ以上のピッチパターンの変形は行われない。このように、最終的に最適音声素片の選択とピッチパターンの変形とが行われなくなるまで上述の処理を繰り返して行うことによって、予め与えられた基本ピッチパターン41の近傍で最適な変形ピッチパターン48を選択することができる。したがって、最終的に得られる変形ピッチパターン48は、基本ピッチパターン41に対して平均ピッチが大きくずれることはないのである。
【0058】
すなわち、本実施の形態のごとく設定された最適な変形ピッチパターン48を音声合成時に用いれば、合成音声作成者の意図したピッチパターンの合成音を作成することができるのである。
【0059】
尚、以上の説明においては、音声素片の選択時に用いる評価値として音声素片の変形量を用いたが、上記評価値の決定方法は一意に決める必要がなく、状況に応じて設定すればよい。
【0060】
・第3実施の形態
上述したように、上記第1実施の形態におけるピッチパターン変形方法では、高音質の合成音声を作成することができるという特長を有する。一方、上記第2実施の形態におけるピッチパターン変形方法では、基本の韻律に比較的近い平均ピッチで音質が改善されるという特長を有する。ところが、実際に音声合成装置を使用する際には、音質が重要な場合や基本の韻律に近い発話が必要な場合等、様々な状況が考えられる。そこで、本実施の形態においては、処理の中で自動的に得られる情報や外部から任意に与えられる情報に基づいて、ピッチパターン変形方法を切り換え選択することによって、韻律と音質とを制御するのである。
【0061】
図5は、本実施の形態における音声合成装置のブロック図である。図5において、言語処理部51,韻律作成部52および音声合成部54は、上記第1実施の形態において図1に示す言語処理部21,韻律作成部22および音声合成部24と同じであり、詳細な説明は省略する。
【0062】
韻律・音質制御部53は、上記韻律作成部52によって作成された韻律情報に基づいて、上記第1実施の形態および上記第2実施の形態の場合と同じ韻律・音声素片変形方法に従って韻律(基本ピッチパターン)の変形を行う。その際に、様々な情報に従って韻律・素片の変形方法を切り換えることによって、最終的に生成される韻律および音質を制御するのである。
【0063】
例えば、高音質の合成音声が必要な場合には、スイッチ等による選択手段55によって第1制御部56を切り換え選択する。そうすると、第1制御部56によって、上記第1実施の形態における韻律・音質制御部23の処理と同様に、音声素片が存在する全領域をサーチするフルサーチによって音質重視による基本ピッチパターンの変形と音声素片の選択とが行われる。
【0064】
また、与えられた基本ピッチパターンの近傍において音質の改善を行いたい場合には、選択手段55によって、第2制御部57を切り換え選択する。そうすると、第2制御部57によって、上記第2実施の形態における韻律・音質制御部処理と同様に、基本ピッチパターンの近傍領域をサーチする部分サーチによって基本ピッチパターンの変形量を抑えて音声素片の選択が行われる。
【0065】
また、与えられた基本ピッチパターンで発話を行いたい場合には、選択手段55によって、第3制御部58を切り換え選択する。そうすると、第3制御部58によって、基本ピッチパターンを変形させないで音声素片の選択が行われるのである。
【0066】
尚、上記選択手段55を切り換えるための情報としては、予めテキスト文章中に基本ピッチパターンの変形量を制御するための読み上げテキスト以外のコマンドを挿入しても良い。また、文章の重要度等を表す言語情報から得られる情報を用いることもできる。さらには、音声素片の数を用いることも可能である。
【0067】
このようにして韻律・音質制御部53によって得られた音声素片と韻律情報とを用いて、音声合成部54によって合成音声が作成される。こうすることによって、最適な音質・韻律の合成音声を作成することができるのである。
【0068】
ここで、上記機能的構成を有するテキスト音声合成装置の具体的ハードウェア構成は、上述した各種処理を実行するプログラムを含む各種プログラムを記憶するプログラムメモリ、各種情報を記憶するデータメモリ、入力装置、出力装置、表示装置、外部記録媒体がセットされてこの外部記録媒体をアクセスする外部補助記憶装置、プログラムメモリ,データメモリ,入力装置,出力装置,表示装置および外部補助記憶装置等を制御して、音声合成処理動作等を実行するCPU(中央演算処理装置)等で成るものとする。
【0069】
ところで、上記各実施の形態における言語処理部21・51,韻律作成部22・52,素片・韻律制御部23・53および音声合成部24・54による上記言語処理手段,韻律作成手段,素片・韻律制御手段および音声合成手段としての機能は、プログラム記録媒体に記録された音声合成プログラムによって実現される。上記各実施の形態における上記プログラム記録媒体は、ROM(リード・オンリ・メモリ)でなるプログラムメディア(上記プログラムメモリに相当)である。あるいは、上記外部補助記憶装置に装着されて読み出されるプログラムメディア(上記外部記録媒体に相当)であってもよい。尚、何れの場合においても、上記プログラムメディアから音声合成プログラムを読み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み出す構成を有していてもよいし、RAM(ランダム・アクセス・メモリ)に設けられたプログラム記憶エリア(図示せず)にダウンロードし、上記プログラム記憶エリアにアクセスして読み出す構成を有していてもよい。尚、上記プログラムメディアから上記RAMプログラム記憶エリアにダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。
【0070】
ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピーディスク,ハードディスク等の磁気ディスクやCD(コンパクトディスク)‐ROM,MO(光磁気)ディスク,MD(ミニディスク),DVD(ディジタル多用途ディスク)等の光ディスクのディスク系、IC(集積回路)カードや光カード等のカード系、マスクROM,EPROM(紫外線消去型ROM),EEPROM(電気的消去型ROM),フラッシュROM等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。
【0071】
また、上記実施の形態におけるテキスト音声合成装置がインターネットを含む通信ネットワークと通信I/Fを介して接続可能な構成を有している場合には、上記プログラムメディアは、上記通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。あるいは、別の記録媒体からインストールされるものとする。
【0072】
尚、上記記録媒体に記録されるものはプログラムのみに限定されるものではなく、データも記録することが可能である。
【0073】
【発明の効果】
以上より明らかなように、この発明によれば、基本ピッチパターンをその概形を保持したまま周波数方向に平行移動させながら適合する音声素片列を選択し、上記選択された音声素片列のうち最も適合する音声素片列に係る変形ピッチパターンに従って、上記最も適合する音声素片列を変形・接続して合成音声を生成するので、最適変形ピッチパターンに対して変形量が最も小さい音声素片列を音声合成用に選択することができる。したがって、上記選択された音声素片のピッチ変形量を小さく抑えて、急激な音質劣化の無い高音質の合成音声を作成することができる。
【0074】
さらに、上記基本ピッチパターンを、ピッチパターンの変形可能範囲に捕われることなく、その概形を保ったまま周波数変形するので、自然なピッチパターンで合成音声を生成することができる。
【0075】
すなわち、この発明によれば、自然なピッチパターンで高音質の音声を出力することができるのである。
【図面の簡単な説明】
【図1】 この発明の音声合成装置としてのテキスト音声合成装置におけるブロック図である。
【図2】 図1における素片・韻律制御部で行われる音声素片の選択と韻律の変形との説明図である。
【図3】 図1に示すテキスト音声合成装置による音声合成処理動作のフローチャートである。
【図4】 図2とは異なる音声素片の選択と韻律の変形との説明図である。
【図5】 図1とは異なるテキスト音声合成装置のブロック図である。
【図6】 従来のテキスト音声合成装置のブロック図である。
【図7】 図6における韻律変形部による韻律変形の説明図である。
【図8】 図7に示す従来の韻律変形における問題の説明図である。
【図9】 図8とは異なる問題の説明図である。
【符号の説明】
21,51…言語処理部、
22,52…韻律作成部、
23,53…素片・韻律制御部、
24,54…音声合成部、
25,41…基本ピッチパターン、
26,46,48…変形ピッチパターン、
27〜35,42〜45,47…音声素片、
55…選択手段、
56…第1制御部、
57…第2制御部、
58…第3制御部。

Claims (11)

  1. 語情報および韻律情報が入力されると共に、上記韻律情報に従って音声素片を変形・接続して合成音声を生成する音声合成手段を含む音声合成装置において、
    記韻律情報の1つである基本ピッチパターンをその概形を保持したまま周波数方向に平行移動させながら、移動後の変形ピッチパターンおよび上記言語情報に適合する音声素片列を選択し、
    上記選択された音声素片列のうち最も適合する音声素片列に係る変形ピッチパターンと上記最も適合した音声素片列とを、上記合成音声時に用いる韻律情報および音声素片として上記音声合成手段に送出する素片・韻律制御手段
    を備えたことを特徴とする音声合成装置。
  2. 請求項1に記載の音声合成装置において、
    上記素片・韻律制御手段による上記基本ピッチパターンの平行移動は、選択の対象となる音声素片が存在する周波数帯域の全域に対して行うことを特徴とする音声合成装置。
  3. 請求項2に記載の音声合成装置において、
    上記素片・韻律制御手段は、
    上記変形ピッチパターンに適合する音声素片を選択する際における上記適合の判定基準として、各合成単位毎に求められる上記変形ピッチパターンに対する音声素片のピッチの変形量を用い、
    上記最も適合した音声素片列の判定基準として、上記変形ピッチパターンの全合成単位に関する上記変形量の総和を用いる
    ことを特徴とする音声合成装置。
  4. 請求項2に記載の音声合成装置において、
    上記素片・韻律制御手段は、
    上記変形ピッチパターンに適合する音声素片を選択する際における上記適合の判定基準として、各合成単位毎に求められる上記変形ピッチパターンに対する音声素片のピッチの変形量を用い、
    上記最も適合した音声素片列の判定基準として、上記変形ピッチパターンの全合成単位に関する上記変形量の最大値を用いる
    ことを特徴とする音声合成装置。
  5. 請求項1に記載の音声合成装置において、
    上記素片・韻律制御手段は、
    上記基本ピッチパターンまたは変形ピッチパターンにおける各合成単位毎の評価値に基づく音声素片の選択と、この選択された全音声素片に関する上記評価値に基づく上記基本ピッチパターンまたは変形ピッチパターンの周波数方向への平行移動とを、選択すべき音声素片が無くなるまで繰り返して行い、
    最終的に得られた変形ピッチパターンと最終的に選択された全音声素片とを上記音声合成手段に送出するようになっていることを特徴とする音声合成装置。
  6. 請求項5に記載の音声合成装置において、
    上記素片・韻律制御手段は、
    上記音声素片を選択する際の評価値として、上記変形ピッチパターンに対する音声素片のピッチの変形量を用いると共に、
    上記基本ピッチパターンまたは変形ピッチパターンの周波数方向への平行移動を、上記選択された全音声素片に関する変形量の総和が最小となる位置まで行う
    ようになっていることを特徴とする音声合成装置。
  7. 請求項5に記載の音声合成装置において、
    上記素片・韻律制御手段は、
    上記音声素片を選択する際の評価値として、上記変形ピッチパターンに対する音声素片のピッチの変形量を用いると共に、
    上記基本ピッチパターンまたは変形ピッチパターンの周波数方向への平行移動を、上記選択された全音声素片に関する変形量の最大値が最小となる位置まで行う
    ようになっていることを特徴とする音声合成装置。
  8. 請求項1に記載の音声合成装置において、
    少なくとも音質を重視した音声合成と韻律を重視した音声合成との何れかを切り換え選択する選択手段を備えると共に、
    上記素片・韻律制御手段は、
    選択の対象となる音声素片が存在する全周波数領域に亙って上記基本ピッチパターンを平行移動させて上記音声素片の選択を行う第1制御部と、
    上記基本ピッチパターン近傍の周波数領域内で上記基本ピッチパターンを平行移動させて上記音声素片の選択を行う第2制御部とを有して、
    上記選択手段によって音質を重視した音声合成が選択された場合には上記第1制御部による処理を行う一方、上記選択手段によって韻律を重視した音声合成が選択された場合には上記第2制御部による処理を行うようになっていることを特徴とする音声合成装置。
  9. 入力された言語情報および韻律情報に基づいて、合成音声を生成する音声合成方法であって、
    記韻律情報の1つである基本ピッチパターンを、その概形を保持したままの状態で周波数方向に平行移動させながら、移動後の変形ピッチパターンおよび上記言語情報に適合する音声素片列を選択する韻律変形・素片選択ステップと、
    上記選択された音声素片列のうち最も適合する音声素片列に係る変形ピッチパターンを含む韻律情報に従って、上記最も適合した音声素片列を変形・接続して合成音声を生成する音声合成ステップ
    を備えたことを特徴とする音声合成方法。
  10. コンピュータを、
    請求項1における素片・韻律制御手段および音声合成手段
    として機能させることを特徴とする音声合成プログラム。
  11. 請求項10に記載の音声合成プログラムが記録されたことを特徴とするコンピュータ読出し可能なプログラム記録媒体。
JP2002302032A 2002-10-16 2002-10-16 音声合成装置、音声合成方法、音声合成プログラム、および、プログラム記録媒体 Expired - Fee Related JP4223783B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002302032A JP4223783B2 (ja) 2002-10-16 2002-10-16 音声合成装置、音声合成方法、音声合成プログラム、および、プログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002302032A JP4223783B2 (ja) 2002-10-16 2002-10-16 音声合成装置、音声合成方法、音声合成プログラム、および、プログラム記録媒体

Publications (3)

Publication Number Publication Date
JP2004138728A JP2004138728A (ja) 2004-05-13
JP2004138728A5 JP2004138728A5 (ja) 2005-11-04
JP4223783B2 true JP4223783B2 (ja) 2009-02-12

Family

ID=32450221

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002302032A Expired - Fee Related JP4223783B2 (ja) 2002-10-16 2002-10-16 音声合成装置、音声合成方法、音声合成プログラム、および、プログラム記録媒体

Country Status (1)

Country Link
JP (1) JP4223783B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8407054B2 (en) 2007-05-08 2013-03-26 Nec Corporation Speech synthesis device, speech synthesis method, and speech synthesis program
JP5512597B2 (ja) * 2011-05-13 2014-06-04 日本電信電話株式会社 音声合成装置とその方法とプログラム

Also Published As

Publication number Publication date
JP2004138728A (ja) 2004-05-13

Similar Documents

Publication Publication Date Title
JP3913770B2 (ja) 音声合成装置および方法
JP4241762B2 (ja) 音声合成装置、その方法、及びプログラム
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP4632384B2 (ja) 音声情報処理装置及びその方法と記憶媒体
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JPH1195783A (ja) 音声情報処理方法
JPWO2006134736A1 (ja) 音声合成装置、音声合成方法およびプログラム
JP2006309162A (ja) ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
US11170755B2 (en) Speech synthesis apparatus and method
JP4639932B2 (ja) 音声合成装置
JP4223783B2 (ja) 音声合成装置、音声合成方法、音声合成プログラム、および、プログラム記録媒体
JP3728173B2 (ja) 音声合成方法、装置および記憶媒体
US20080177548A1 (en) Speech Synthesis Method and Apparatus
JP4648878B2 (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP4829605B2 (ja) 音声合成装置および音声合成プログラム
JP2006337476A (ja) 音声合成方法および装置
JPH0419799A (ja) 音声合成装置
JP3737788B2 (ja) 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム
JP2004226505A (ja) ピッチパタン生成方法、音声合成方法とシステム及びプログラム
JP2005321520A (ja) 音声合成装置及びそのプログラム
JP5387410B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2004354644A (ja) 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体
JP4454780B2 (ja) 音声情報処理装置とその方法と記憶媒体
JP2003330482A (ja) 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成方法、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム
JP4414864B2 (ja) 録音編集・テキスト音声合成併用型音声合成装置、録音編集・テキスト音声合成併用型音声合成プログラム、記録媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050914

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050914

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080402

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081111

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081120

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111128

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111128

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121128

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121128

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131128

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees