JP4282609B2 - 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム - Google Patents

基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム Download PDF

Info

Publication number
JP4282609B2
JP4282609B2 JP2005002920A JP2005002920A JP4282609B2 JP 4282609 B2 JP4282609 B2 JP 4282609B2 JP 2005002920 A JP2005002920 A JP 2005002920A JP 2005002920 A JP2005002920 A JP 2005002920A JP 4282609 B2 JP4282609 B2 JP 4282609B2
Authority
JP
Japan
Prior art keywords
pattern
accent
fundamental frequency
text
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005002920A
Other languages
English (en)
Other versions
JP2006189723A (ja
Inventor
伸晃 水谷
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2005002920A priority Critical patent/JP4282609B2/ja
Publication of JP2006189723A publication Critical patent/JP2006189723A/ja
Application granted granted Critical
Publication of JP4282609B2 publication Critical patent/JP4282609B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、音声合成のための基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラムに関する。
近年、任意の文章から人口的に音声を生成するテキスト音声合成システムが開発されている。通常、このテキスト音声合成システムは、言語処理部、音韻継続時間長生成部、イントネーション生成部、音声信号処理部といったモジュールから構成される。言語処理部は、テキストを入力とし、形態素解析・構文解析等の言語処理を行い、音韻記号列、アクセント型、品詞などの言語情報を出力する。音韻継続時間長生成部は、言語情報を入力とし、各音素の音韻継続時間長を生成し出力する。イントネーション生成部(基本周波数パターン生成部)は、言語情報と音韻継続時間長を入力とし、声の高さの変化のパターンに相当する基本周波数パターン(F0パターン)を出力する。音声信号処理部は、言語情報と音韻継続時間長、そして、基本周波数パターンを入力とし、音声信号を合成し、出力する。なお、単に音声合成システムと言う場合は、通常、テキスト音声合成システムから言語処理部を省いた形態を指すものとされる。
イントネーション生成部(基本周波数パターン生成部)の性能は、音声合成システムから出力される合成音声の自然性に関して、とりわけ抑揚といった声の高さの変化のパターンの自然性に関して大きく影響を与える。
従来の音声合成における基本周波数パターン生成方法は、比較的単純なモデルを用いて基本周波数パターンの生成を行っていたため、抑揚が不自然で機械的な合成音声となっていた。
こうした問題を解決するために、後掲の特許文献1に示されるような装置が提案されている。この文献では、アクセント型、モーラ数、モーラ位置、品詞などを考慮し、アクセント句、単語、フレーズ、文などを単位として、基本周波数パターンのモデルを構築しておき、文章合成時にその一つの基本周波数パターンのモデルに基づいて、基本周波数パターンを生成する音声情報処理装置が提案されており、この音声情報処理装置では、文章全体としての抑揚が自然となるような基本周波数パターンを生成することを意図している。
特開2001−282282公報
このように、特許文献1に示されている装置では、自然音声に近い合成音を得ることを意図している。しかしながら、より自然で詳細なモデルを構築するためには、アクセント型、モーラ数、モーラ位置、品詞などを考慮する必要があるため、各基本周波数パターンモデルを学習する際に割り当てられる学習データ数が少なくなり、音声合成時に生成される基本周波数パターンの頑健さが失われてしまう問題があった。
本発明は、上記事情を考慮してなされたもので、従来と比べて頑健かつ表現豊かであり抑揚の際立ったより自然な基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラムを提供することを目的とする。
本発明に係る基本周波数パターン生成装置は、複数の音声データから抽出されるアクセント句単位の複数の基本周波数パターンを、同一クラスタ内においてモーラ数にかかわらずに少なくともアクセント型が同じになるようにクラスタリングして得られた、クラスタ毎の代表パターンを記憶する第1のパターン記憶手段と、複数の音声データから抽出されるアクセント句単位の複数の基本周波数パターンを、同一クラスタ内において少なくともアクセント型が同じになり且つモーラ数が同じになる又は同じ範囲に属するようにクラスタリングして得られた、クラスタ毎の代表パターンを記憶する第2のパターン記憶手段と、音声合成対象となるテキストを解析することにより得られるアクセント句毎の言語情報であって少なくともアクセント型及びモーラ数を含むものに基づいて、該テキストのアクセント句毎に、前記第1のパターン記憶手段及び前記第2のパターン記憶手段からそれぞれ1又は複数ずつ代表パターンを選択するパターン選択手段と、前記テキストのアクセント句毎に、選択された前記代表パターンをそれぞれ当該テキストのアクセント句に対応するように配置する配置手段と、前記テキストのアクセント句毎に、配置された複数の前記代表パターンから1つの基本周波数パターンを生成するパターン融合生成手段と、前記テキストのアクセント句毎に生成された前記基本周波数パターンを接続して、前記テキストに対応する一つの基本周波数パターンを生成するパターン接続手段とを備えたことを特徴とする。
本発明によれば、従来と比べて頑健かつ表現豊かであり抑揚の際立ったより自然な基本周波数パターンを生成することができる。例えば、人の発声した音声の基本周波数パターンに近い、とりわけアクセント句頭・句末・アクセント核付近の変化をよりよく表現できた音声の基本周波数パターンの生成が可能となる。また、規則合成のような任意の音声を合成する装置への適用にも適している。
また、本発明によれば、少なくとも、アクセント型、アクセント型/モーラ数によりそれぞれクラスタリングされたアクセント句単位の代表パターンの各時系列点を、基本周波数および基本周波数の変化を表す動的特徴の統計量によって表現し、これらの統計量に基づき、テキストに対応する尤もらしい音声の基本周波数パターンを推定し生成することで、頑健かつ自然音声に近い正確で滑らかな基本周波数パターンを生成することができる。
なお、装置に係る本発明は方法に係る発明としても成立し、方法に係る本発明は装置に係る発明としても成立する。
また、装置または方法に係る本発明は、コンピュータに当該発明に相当する手順を実行させるための(あるいはコンピュータを当該発明に相当する手段として機能させるための、あるいはコンピュータに当該発明に相当する機能を実現させるための)プログラムとしても成立し、該プログラムを記録したコンピュータ読み取り可能な記録媒体としても成立する。
本発明によれば、従来と比べて頑健かつ表現豊かであり抑揚の際立ったより自然な基本周波数パターンを生成することができる。
以下、図面を参照しながら本発明の実施形態について説明する。
図1に、本発明の一実施形態に係る基本周波数パターン生成装置の構成例を示す。
図1に示されるように、本基本周波数パターン生成装置は、第1のパターン記憶部1−1、第2のパターン記憶部1−2、パターン選択部2、パターン配置部3、パターン融合生成部4、パターン接続部5を備えている。
第1のパターン記憶部(以下、アクセント型毎パターン記憶部)1−1は、複数の第1の代表パターンを記憶する。第1の代表パターンは、自然音声の基本周波数パターンを、クラスタ内においてモーラ数にかかわらずに少なくともアクセント型が同一になるようクラスタリングすることによって作成されたものである。
第2のパターン記憶部(以下、モーラ数毎パターン記憶部)1−2は、複数の第2の代表パターンを記憶する。第2の代表パターンは、前記自然音声の基本周波数パターンを、クラスタ内において少なくともアクセント型及びモーラ数が同一になるようクラスタリングすることによって作成されたものである。
本実施形態では、アクセント型毎パターン記憶部1−1に記憶された各クラスタの代表パターンは、当該クラスタに属する複数の基本周波数パターンに対して統計的な処理を行うことによって生成されたものであり、時系列点での特徴量が統計量で表現されているものである。モーラ数毎パターン記憶部1−2に記憶された各クラスタの代表パターンについても同様である。
なお、第1の代表パターン及び第2の代表パターンのクラスタリングは、上記の他に、アクセント句毎の(アクセント型及びモーラ数以外の)言語情報、及び又は、アクセント句毎若しくはフレーズ等の他の単位毎の属性情報にも基づいて行うことも可能である。
パターン選択部2は、音声合成の対象となるテキスト(入力テキスト)を解析し、これによって得られるアクセント句毎の言語情報(又は、アクセント句毎言語情報、及びアクセント句毎若しくはフレーズ等の他の単位毎の属性情報)に基づいて、該入力テキストを構成する各々のアクセント句に適合する代表パターンを、それぞれ、アクセント型毎パターン記憶部1−1から1又は複数選択するとともに、モーラ数毎パターン記憶部1−2から1又は複数選択する。
なお、第1の代表パターン及び第2の代表パターンのクラスタリングに用いられた情報に応じて、代表パターンの選択は、上記の他に、アクセント句毎の(アクセント型及びモーラ数以外の)言語情報、及び又は、アクセント句毎若しくはフレーズ等の他の単位毎の属性情報にも基づいて行うことも可能である。
アクセント句毎のアクセント型及びモーラ数以外の言語情報としては、例えば品詞などである。
属性情報は、テキストを解析することにより得られるアクセント句毎の言語情報からは得られない情報もしくは外部から指定する情報であって、例えば、プロミネンスに関する情報、発話スタイルの情報、質問・断定・強調といった意図を表す情報、疑い・関心・落胆・感心といった心的態度を表す情報などがある。プロミネンスは、文中・アクセント句中でのある部分が際立っていることを表すものであって、その尺度は、長さ、高さ、大きさ、強さ、聞こえのうちいずれであってもよい。発話スタイルは、文全体若しくは複数の文を跨いだ発話全体に関する発話の調子を表すものであって、読み上げ調、対話調、講義・講演調などであってもよい。
パターン配置部3は、パターン選択部2によりアクセント句毎にそれぞれ複数ずつ選択された代表パターンを、入力テキストの各々のアクセント句に対応するように配置する。
パターン融合生成部4は、パターン配置部3により各々のアクセント句に対応するように配置された各複数の代表パターンから、各アクセント句毎の基本周波数パターンを生成する。
パターン接続部5は、時間軸上に一列に配置された各アクセント句毎の基本周波数パターンを接続して一連のフレーズの基本周波数パターンを生成する。
ここで、パターン記憶部1(アクセント型毎パターン記憶部1−1、第2のパターン記憶部)に記憶される代表パターンは、例えば、自然音声の基本周波数パターンから図2に示すような方法により、アクセント型毎、モーラ数毎に切り出された後、図3に示すような各時系列点での特徴量が統計量で表現されている代表パターンとして記憶される。図3は、代表パターンを表現する特徴量の統計量として、各点における対数基本周波数の平均値と標準偏差値(分散値の平方根)を用い、1モーラを3点で表現するように正規化されている例である。
図2に例示した方法では、まず、文章単位の自然音声の基本周波数パターンが保存されているデータベース11から、基本周波数パターンアクセント型クラスタリング部101により、複数のアクセント型毎の基本周波数パターンクラスタ(0型:CLA0、1型:CLA1、…)を含む、アクセント型クラスタ集合12が作成される。
次に、アクセント型クラスタ集合12内の各基本周波数パターンクラスタ(CLA0、CLA1、…)から、基本周波数パターンモーラ数クラスタリング部102により、それぞれ複数のモーラ数毎の基本周波数パターンクラスタ(1モーラ0型:CLA0−1、2モーラ0型:CLA0−2、…、2モーラ1型:CLA1−2、3モーラ1型:CLA1−3、…)を含む、モーラ数クラスタ集合13が作成される。ここで、モーラ数クラスタは、対応するアクセント型クラスタからそれぞれ作成される。例えば、モーラ数クラスタ(CLA0−1、CLA0−2、…)は、アクセント型クラスタ(CLA0)から作成されたクラスタであり、モーラ数クラスタ(CLA1−2、CLA1−3、…)は、アクセント型クラスタ(CLA1)から作成されたクラスタである。
そして、代表パターン推定部103により、アクセント型クラスタ集合12からアクセント型毎にクラスタリングされた複数の代表パターンが、モーラ数クラスタ集合13からアクセント型毎モーラ数毎にクラスタリングされた複数の代表パターンが、それぞれパターン記憶部1(アクセント型毎パターン記憶部1−1、第2のパターン記憶部)に記憶される。代表パターン推定部103では、例えば、クラスタリングされた自然音声の基本周波数パターンを観測系列として観測系列の時間長に合致するよう代表パターンを伸縮させながらGMMによるモデル化が行われ、得られた特徴量の統計量を代表パターンとして保存する。
これらのようにして、パターン記憶部1(アクセント型毎パターン記憶部1−1、第2のパターン記憶部)には、複数の代表パターンが記憶されており、実際の基本周波数パターン生成処理を始めることができる。
以下、本実施形態に係る基本周波数パターン生成装置の動作についてより詳しく説明する。
図4に、本基本周波数パターン生成装置の処理手順の一例を示す。
本基本周波数パターン生成装置では、まず、音声合成の対象となるテキストを解析することにより得られるアクセント句毎の言語情報(又は、アクセント句毎の言語情報及び前述の属性情報)を入力として受理する(ステップS1)。
このようにして、入力を受理した後、入力として受理されたアクセント句毎の言語情報(又は、アクセント句毎の言語情報及び前述の属性情報)に適合した代表パターンが、パターン選択部2によりアクセント型毎パターン記憶部1−1、モーラ数毎パターン記憶部1−2からそれぞれ1又は複数選択される(ステップS2)。
ここで、パターン選択部2でのパターン選択方法としては、例えば、図5に示すように、パターン記憶部1に記憶されている代表パターンの作成に用いられた基本周波数パターンを切り出す際の言語情報(又は、アクセント句毎の言語情報及びクラスタリングに用いるべき属性情報)を付加しておき、入力情報に最も類似する情報が付加された代表パターンを選択するという方法を用いることができる。
言語情報としては、前述のように、第1のパターンのクラスタリング及び選択については、少なくともアクセント型が用いられ(ただし、モーラ数は用いられないものとする。)、第2のパターンのクラスタリング及び選択については、少なくともアクセント型及びモーラ数が用いられる。また、これに加えて、規則合成器に用いられるような情報のうち抑揚に影響を与えると考えられる情報、例えば、音韻の種類、文中でのアクセント句の位置といった情報を適宜用いるようにしてもよい。
また、前述のように、代表パターンのクラスタリング及び選択に属性情報をも用いる場合に、該属性情報としては、例えば、アクセントの高さなどの変化に影響を与えると考えられるプロミネンスに関する情報、発声全体における基本周波数パターンの変化に影響を与えると考えられる抑揚・発話スタイルといった情報、質問・断定・強調といった意図を表す情報、疑い・関心・落胆・感心といった心的態度を表す情報の全部又は一部を適宜用いることができる。
図5では、第1のパターンをアクセント型及び品詞でクラスタリングし、第2のパターンをアクセント型及びモーラ数並びに品詞でクラスタリングし、言語情報に含まれるアクセント型及び品詞に基づいて第1のパターンを選択し、言語情報に含まれるアクセント型及びモーラ数並びに品詞に基づいて第2のパターンを選択する場合を例示している。また、記憶部1の内容は第2のパターンを例示している。
このようにして、最適な代表パターンが選択された後、パターン配置部3では、図6に例示すように、選択されたアクセント句単位の複数の代表パターンをテキストに対応させるような配置が行われる(ステップS3)。すなわち、パターン配置部3では、パターン選択部2により該アクセント句毎に選択された各代表パターンをテキスト中での出現位置に合致するよう配置する。
なお、図6では、各アクセント句毎に、それぞれ、アクセント型毎パターン記憶部1−1及びモーラ数毎パターン記憶部1−2から第1のパターン及び第2のパターンを1つずつ選択して配置される場合を例示している。
また、各代表パターンは、各点における対数基本周波数の平均値と標準偏差値(分散値の平方根)の一例を挙げている。
このようにして、テキストに合致するよう各アクセント句毎に複数の代表パターンが配置された後、パターン融合生成部4において、各アクセント句毎に、配置された複数の代表パターンを適切な時間長に伸縮させた後、それらの特徴量をもとに尤度最大化基準に基づく推定を行って基本周波数パターンを生成した後、当該アクセント句について生成された複数の基本周波数パターンを時間軸上で位置を揃えて重み付け加算することにより、当該アクセント句の1つの基本周波数パターンを生成する(ステップS4)。
なお、各基本周波数パターンを推定する際の基準としては、上記の尤度最大化基準の他に、エントロピー(もしくはエントロピー最大)、AIC(赤池情報量基準)(もしくはAIC最小)、BIC(Schwarz’s Bayesian情報量基準)(もしくはBIC最小)、BIC*(もしくはBIC*最小)、HQ(Hunnan and Quinn)(もしくはHQ最小)、MDL(記述長最小化)基準などの基準(例えば、文献「小西貞則、北川源四郎、“情報量基準 シリーズ・予測と発見の科学” 、朝倉書店、2004」を参照)を用いることもできる。これらの基準を用いることにより、モデルの詳細さと頑健さを兼ね備えた基本周波数パターン生成装置が構築できる。
また、この重み付け方法としては、例えば、各基本周波数パターン全てに等しい重みを付加する方法を用いてもよいし、各基本周波数を生成する基となった各代表パターンを作成する際に用いられた自然音声の基本周波数パターンから切り出されたアクセント句単位の基本周波数パターンの数により重みを付加する方法を用いてもよい。
また、基本周波数パターンの推定は、選択された代表パターンを複数個接続したパターンに対して行ってもよい。
このようにして、テキスト中の各アクセント句に対応するそれぞれ1つの基本周波数パターンが生成された後、パターン接続部5では、パターン融合生成部4による各アクセント句に対応するそれぞれ1つの基本周波数パターンを各アクセント句境界において接続し、1つの文章単位基本周波数パターンを生成する(ステップS5)。
以上のように、本実施形態によれば、アクセント型が陽に表現されているアクセント句を韻律制御単位としていることにより、アクセント位置の正しい滑らかで自然な基本周波数パターンの生成が可能であり、かつ、アクセント句毎に作成された代表パターンとモーラ数毎に作成された代表パターンから生成されたそれぞれの基本周波数パターンを融合することにより、アクセント句毎に作成された代表パターンから基本周波数パターンを生成する場合の頑健さを保ちつつも、さらに句頭・句末・アクセント核付近の変化をよりよく表現できる基本周波数パターンを生成可能である。
ここで、代表パターンの時系列点での特徴量としては、基本周波数、一次動的特徴量、二次動的特徴量などを用いることが考えられる。基本周波数は、基本周波数そのもの、若しくは、対数基本周波数を用いることが考えられる。動的特徴量は、基本周波数の変化の特徴を表すものである。一次動的特徴量は、時系列点の当該点とその前後にある点(例えば、隣接する点)の変化の特徴(例えば、差分、回帰係数、多項式展開係数など)であり、基本周波数パターンの当該点における傾きに相当する。また、二次動的特徴量は、一時動的特徴量の時系列点の当該店とその前後にある点の変化の特徴であり、基本周波数パターンの当該点における加速度に相当する。なお、一次、二次までに限らず、三次、四次などの高次の動的特徴量を用いてもよい。
また、代表パターンの時系列点の特徴量の統計量は、基本周波数パターンの時系列点での特徴量に対して統計的な処理を行うことによって得られるものであって、該特徴量の平均値、分散値、標準偏差値のうち少なくとも1つ用いることが考えられる。統計量は、分散値、標準偏差値を一定と仮定した場合や、分散値、標準偏差値そのものを扱っていない場合などであれば、平均値若しくは平均値に相当する値のみという場合も考えられる。
また、これまでの説明では、モーラ数毎パターン記憶部1−2に記憶する代表パターンを、自然音声の基本周波数パターンを、クラスタ内のモーラ数が同一になるようにクラスタリングして作成したが、モーラ数があらかじめ定めた範囲となるようにクラスタリングしてもよい。例えば、各基本周波数パターンのモーラ数を説明属性とし、決定木による分類モデルを作成し、得られた結果属性(つまり、あるモーラ数の組)に基づいて自然音声の基本周波数パターンをクラスタリングする方法も考えられる。こうすることで、学習データ量を考慮したクラスタリングが可能となり、学習データ量が少なく信頼性の低かった代表パターンが選択されることにより生じていた基本周波数パターン生成装置の不安定さが解消され頑健さが向上されるという利点がある。
同様に、代表パターンを属性情報にも基づいて得る場合にも、同一クラスタ内においてアクセント句に係る属性情報も同じになるようにクラスタリングして得る方法の他に、同一クラスタ内においてアクセント句に係る属性情報も同じ範囲に属するようにクラスタリングして得る方法もある。
また、アクセント型毎のクラスタリング方法およびモーラ数毎のクラスタリング方法としては、基本周波数パターンの特徴量を用いて類似度を計算し、その類似度を基にグループ化する方法も考えられる。さらに、非階層的なクラスタリングは、最終的な分割が初期分割の影響を受けやすく、しかも、分割が局所最適な分割になりやすいという欠点があることから、k−means法、LBG法、二分木探索法といった階層的なクラスタリング方法なども考えられる。
また、代表パターン選択方法としては、自然音声の基本周波数パターンからアクセント句単位に切り出された基本周波数パターンと各代表パターンにより生成された基本周波数パターンとの誤差を従属変数とし、自然音声の基本周波数パターンからアクセント句単位に切り出す際のテキストを解析することにより得られる言語情報(又は言語情報及び属性情報)を説明変数として作成された数量化I類モデルに、言語情報(又は言語情報及び属性情報)を入力して推定誤差が最小となる代表パターンを選択する方法も考えられる。さらに、代表パターンの作成に用いられた基本周波数パターンの言語情報(又は言語情報及び属性情報)を説明属性とし、各代表パターンを結果属性として作成された決定木による分類モデルに、言語情報(又は言語情報及び属性情報)を入力して結果属性として得られた代表パターンを選択する方法も考えられる。
また、パターン選択部2がアクセント型毎パターン記憶部1−1及びモーラ数毎パターン記憶部1−2から選択するパターン数は1つずつでなくてもよい。例えば、各代表パターンを作成する際用いられた基本周波数パターンの学習データ数に応じて変化させるようにしてもよい。これにより選択するパターン数が1つずつである場合と比べ、生成される基本周波数パターンの不安定さが解消され、基本周波数パターン生成装置としての頑健さが向上するという利点がある。
また、パターン融合生成部4における処理は、代表パターンから基本周波数パターンを生成し、それらをアクセント句毎に重み付け加算し融合する方法でなくてもよい。例えば、アクセント句毎に配置された代表パターンの特徴量を混合し、この混合特徴量から尤度最大化基準に基づいて、該アクセント句に対応する1つの基本周波数パターンを生成する方法も考えられる。ここで、代表パターンの特徴量が正規分布に従うとすれば、混合特徴量としては、混合正規分布などを扱うことが考えられる。これにより前述方法と比べ、尤度最大化基準の上で大域的に最適な基本周波数パターンが生成されるという利点がある。
また、本実施形態では、自然音声の基本周波数パターンを、クラスタ内においてモーラ数にかかわらずに少なくともアクセント型が同一になるようクラスタリングすることによって作成された第1の代表パターン(第1のパターン記憶部1−1)と、自然音声の基本周波数パターンを、クラスタ内において少なくともアクセント型及びモーラ数が同一になるようクラスタリングすることによって作成された第2の代表パターン(第2のパターン記憶部)とを用いたが、
(1)第1の代表パターンと、自然音声の基本周波数パターンを、クラスタ内においてアクセント型にかかわらずに少なくともモーラ数が同一になるようクラスタリングすることによって作成された第3の代表パターンとを用いる構成や、
(2)第2の代表パターンと、第3の代表パターンとを用いる構成や、
(3)第1の代表パターンと、第2の代表パターンと、第3の代表パターンとを用いる構成も可能である。
これらの場合にも、代表パターンのクラスタリングや選択に、上記の他に、アクセント句毎の(アクセント型及びモーラ数以外の)言語情報、及び又は、アクセント句毎若しくはフレーズ等の他の単位毎の属性情報にも基づいて行うことも可能である。
なお、以上の各機能は、ハードウェアとしても実現可能である。
また、本実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD−ROM、DVD−ROMなど)、半導体メモリなどの記録媒体に格納して頒布することも可能である。
また、以上の各機能は、ソフトウェアとして記述し適当な機構をもったコンピュータに処理させても実現可能である。例えば、図1において、パターン選択部2、パターン配置部3、パターン生成部4、パターン融合部5、パターン接続部6の上記処理動作をプログラムとして記述し、それをコンピュータに実行させることもできる。
また、本実施形態は、コンピュータに所定の手順を実行させるための、あるいはコンピュータを所定の手段として機能させるための、あるいはコンピュータに所定の機能を実現させるためのプログラムとして実施することもできる。加えて該プログラムを記録したコンピュータ読取り可能な記録媒体として実施することもできる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の一実施形態に係る基本周波数パターン生成装置の構成例を示す図 パターン記憶部に記憶される代表パターンの一作成例について説明するための図 パターン記憶部に記憶される代表パターンの一例について説明するための図 同実施形態に係る基本周波数パターン生成装置の処理手順の一例を示すフローチャート パターン選択部による代表パターン選択の一例について説明するための図 パターン配置部による代表パターンの一配置例について説明するための図
符号の説明
1…パターン記憶部、1−1…第1のパターン記憶部(アクセント型毎パターン記憶部)、1−2…第2のパターン記憶部(モーラ数毎パターン記憶部)、2…パターン選択部、3…パターン配置部、4…パターン融合生成部、5…パターン接続部、101…基本周波数パターンアクセント型クラスタリング部、102…基本周波数パターンモーラ数クラスタリング部、103…代表パターン推定部

Claims (11)

  1. 複数の音声データから抽出されるアクセント句単位の複数の基本周波数パターンを、同一クラスタ内においてモーラ数にかかわらずに少なくともアクセント型が同じになるようにクラスタリングして得られた、クラスタ毎の代表パターンを記憶する第1のパターン記憶手段と、
    複数の音声データから抽出されるアクセント句単位の複数の基本周波数パターンを、同一クラスタ内において少なくともアクセント型が同じになり且つモーラ数が同じになる又は同じ範囲に属するようにクラスタリングして得られた、クラスタ毎の代表パターンを記憶する第2のパターン記憶手段と、
    音声合成対象となるテキストを解析することにより得られるアクセント句毎の言語情報であって少なくともアクセント型及びモーラ数を含むものに基づいて、該テキストのアクセント句毎に、前記第1のパターン記憶手段及び前記第2のパターン記憶手段からそれぞれ1又は複数ずつ代表パターンを選択するパターン選択手段と、
    前記テキストのアクセント句毎に、選択された前記代表パターンをそれぞれ当該テキストのアクセント句に対応するように配置する配置手段と、
    前記テキストのアクセント句毎に、配置された複数の前記代表パターンから1つの基本周波数パターンを生成するパターン融合生成手段と、
    前記テキストのアクセント句毎に生成された前記基本周波数パターンを接続して、前記テキストに対応する1つの基本周波数パターンを生成するパターン接続手段とを備えたことを特徴とする基本周波数パターン生成装置。
  2. 前記第1のパターン記憶手段に記憶された前記代表パターン及び前記第2のパターン記憶手段に記憶された前記代表パターンは、同一クラスタ内において前記アクセント句に係る属性情報も同じになる又は同じ範囲に属するようにクラスタリングして得られたものであり、
    前記パターン選択手段は、前記アクセント句に係る属性情報にも基づいて、前記選択を行うことを特徴とする請求項1に記載の基本周波数パターン生成装置。
  3. 前記属性情報は、プロミネンスに関する情報、発話スタイルの情報、意図を表す情報、心的態度を表す情報のうち少なくとも1つを含むものであることを特徴とする請求項2に記載の基本周波数パターン生成装置。
  4. 前記第1のパターン記憶手段に記憶された各クラスタの前記代表パターン及び前記第2のパターン記憶手段に記憶された各クラスタの前記代表パターンは、当該クラスタに属する複数の基本周波数パターンに対して統計的な処理を行うことによって生成されたものであり、時系列点での特徴量が統計量で表現されているものであることを特徴とする請求項1に記載の基本周波数パターン生成装置。
  5. 前記パターン融合生成手段は、前記テキストのアクセント句毎に、配置された複数の前記代表パターンの前記特徴量からそれぞれ基本周波数パターンを生成するパターン生成手段と、前記テキストのアクセント句毎に、生成された複数の前記基本周波数パターンを時間軸上で位置を揃えて重み付け加算することにより、当該アクセント句に対応する1つの基本周波数パターンを生成するパターン融合手段とを含むものであることを特徴とする請求項4に記載の基本周波数パターン生成装置。
  6. 前記特徴量は、基本周波数、基本周波数の変化の特徴を表す一次動的特徴量又はこの一次動的特徴量の変化の特徴を表す二次動的特徴量のうちの少なくとも1つを含むものであることを特徴とする請求項4または5に記載の基本周波数パターン生成装置。
  7. 前記動的特徴量は、基本周波数の差分、回帰係又は多項式展開係数であることを特徴とする請求項6に記載の基本周波数パターン生成装置。
  8. 前記パターン生成手段は、前記特徴量をもとに、エントロピー、尤度最大化、AIC、BIC、BIC*、HQ又は記述長最小化のうちの少なくとも1つの基準を用いた推定を行うことによって、前記基本周波数パターンを生成するものであることを特徴とする請求項4ないし7のいずれか1項に記載の基本周波数パターン生成装置。
  9. 前記統計量は、平均値、分散値又は標準偏差値のうちの少なくとも1つを含むものであることを特徴とする請求項4ないし8のいずれか1項に記載の基本周波数パターン生成装置。
  10. 複数の音声データから抽出されるアクセント句単位の複数の基本周波数パターンを、同一クラスタ内においてモーラ数にかかわらずに少なくともアクセント型が同じになるようにクラスタリングして得られた、クラスタ毎の代表パターンを第1のパターン記憶手段に記憶するステップと、
    複数の音声データから抽出されるアクセント句単位の複数の基本周波数パターンを、同一クラスタ内において少なくともアクセント型が同じになり且つモーラ数が同じになる又は同じ範囲に属するようにクラスタリングして得られた、クラスタ毎の代表パターンを第2のパターン記憶手段に記憶するステップと、
    音声合成対象となるテキストを解析することにより得られるアクセント句毎の言語情報であって少なくともアクセント型及びモーラ数を含むものに基づいて、該テキストのアクセント句毎に、前記第1のパターン記憶手段及び前記第2のパターン記憶手段からそれぞれ1又は複数ずつ代表パターンを選択するステップと、
    前記テキストのアクセント句毎に、選択された前記代表パターンをそれぞれ当該テキストのアクセント句に対応するように配置するステップと、
    前記テキストのアクセント句毎に、配置された複数の前記代表パターンから1つの基本周波数パターンを生成するステップと、
    前記テキストのアクセント句毎に生成された前記基本周波数パターンを接続して、前記テキストに対応する1つの基本周波数パターンを生成するステップとを有することを特徴とする基本周波数パターン生成方法。
  11. 基本周波数パターン生成装置としてコンピュータを機能させるためのプログラムにおいて、
    前記プログラムは、
    複数の音声データから抽出されるアクセント句単位の複数の基本周波数パターンを、同一クラスタ内においてモーラ数にかかわらずに少なくともアクセント型が同じになるようにクラスタリングして得られた、クラスタ毎の代表パターンを第1のパターン記憶手段に記憶するステップと、
    複数の音声データから抽出されるアクセント句単位の複数の基本周波数パターンを、同一クラスタ内において少なくともアクセント型が同じになり且つモーラ数が同じになる又は同じ範囲に属するようにクラスタリングして得られた、クラスタ毎の代表パターンを第2のパターン記憶手段に記憶するステップと、
    音声合成対象となるテキストを解析することにより得られるアクセント句毎の言語情報であって少なくともアクセント型及びモーラ数を含むものに基づいて、該テキストのアクセント句毎に、前記第1のパターン記憶手段及び前記第2のパターン記憶手段からそれぞれ1又は複数ずつ代表パターンを選択するステップと、
    前記テキストのアクセント句毎に、選択された前記代表パターンをそれぞれ当該テキストのアクセント句に対応するように配置するステップと、
    前記テキストのアクセント句毎に、配置された複数の前記代表パターンから1つの基本周波数パターンを生成するステップと、
    前記テキストのアクセント句毎に生成された前記基本周波数パターンを接続して、前記テキストに対応する1つの基本周波数パターンを生成するステップとをコンピュータに実行させることを特徴とするプログラム。
JP2005002920A 2005-01-07 2005-01-07 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム Active JP4282609B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005002920A JP4282609B2 (ja) 2005-01-07 2005-01-07 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005002920A JP4282609B2 (ja) 2005-01-07 2005-01-07 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2006189723A JP2006189723A (ja) 2006-07-20
JP4282609B2 true JP4282609B2 (ja) 2009-06-24

Family

ID=36796989

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005002920A Active JP4282609B2 (ja) 2005-01-07 2005-01-07 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4282609B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5025550B2 (ja) * 2008-04-01 2012-09-12 株式会社東芝 音声処理装置、音声処理方法及びプログラム

Also Published As

Publication number Publication date
JP2006189723A (ja) 2006-07-20

Similar Documents

Publication Publication Date Title
JP5768093B2 (ja) 音声処理システム
Morgan Deep and wide: Multiple layers in automatic speech recognition
JP4328698B2 (ja) 素片セット作成方法および装置
JP6523893B2 (ja) 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム
US10140972B2 (en) Text to speech processing system and method, and an acoustic model training system and method
JP5457706B2 (ja) 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
US20200410981A1 (en) Text-to-speech (tts) processing
JP4738057B2 (ja) ピッチパターン生成方法及びその装置
US11763797B2 (en) Text-to-speech (TTS) processing
US8942983B2 (en) Method of speech synthesis
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
JP5929909B2 (ja) 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム
JP4632384B2 (ja) 音声情報処理装置及びその方法と記憶媒体
JPWO2016042659A1 (ja) 音声合成装置、音声合成方法およびプログラム
JP2006309162A (ja) ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
US10157608B2 (en) Device for predicting voice conversion model, method of predicting voice conversion model, and computer program product
JP2016151736A (ja) 音声加工装置、及びプログラム
JP2018084604A (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP4282609B2 (ja) 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
JP6314828B2 (ja) 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム
JP2011197124A (ja) データ作成システム及びプログラム
JP6523423B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP2004226505A (ja) ピッチパタン生成方法、音声合成方法とシステム及びプログラム
JP4787769B2 (ja) F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体
JP2004272134A (ja) 音声認識装置及びコンピュータプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090303

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090317

R151 Written notification of patent or utility model registration

Ref document number: 4282609

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120327

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130327

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130327

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140327

Year of fee payment: 5