JP4387822B2 - 韻律正規化システム - Google Patents

韻律正規化システム Download PDF

Info

Publication number
JP4387822B2
JP4387822B2 JP2004029853A JP2004029853A JP4387822B2 JP 4387822 B2 JP4387822 B2 JP 4387822B2 JP 2004029853 A JP2004029853 A JP 2004029853A JP 2004029853 A JP2004029853 A JP 2004029853A JP 4387822 B2 JP4387822 B2 JP 4387822B2
Authority
JP
Japan
Prior art keywords
prosody
series data
parameter
data
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004029853A
Other languages
English (en)
Other versions
JP2005221785A (ja
Inventor
健太郎 村瀬
伸之 片江
一宏 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2004029853A priority Critical patent/JP4387822B2/ja
Publication of JP2005221785A publication Critical patent/JP2005221785A/ja
Application granted granted Critical
Publication of JP4387822B2 publication Critical patent/JP4387822B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

本発明は、音声データや合成音声を作成するために用いる音声または韻律データの正規化システムに関し、特に、銀行のATMや音声ポータルなどの自動音声応答システムにおいて一群のメッセージに用いる音声データや合成音声の作成に有効な、音声または韻律データの正規化システムに関する。
近年、省力化・機械化によるコスト削減の要請が強まり、銀行の現金預け払い業務や、電話による各種問い合わせの一次受付、チケット予約業務などに対して、既に自動音声応答システムを利用したサービスが普及している。
従来、これらの応答メッセージには録音再生音が使われており、予めプロナレーターがサービスの全メッセージを読み上げて録音しておき、必要なメッセージのみ再生するものであった。
また最近では、合成音声を利用する場合もある。従来、合成音声は音質面で肉声に及ばなかったが、特許文献1、特許文献2には、固定メッセージに対して予め人間が発声した音声から抽出した韻律データを利用して、質のよい合成音声を生成する方法が示されている。
例えば、特許文献1には、定型文音声を合成するための音声合成装置に関し、聞き取りやすく、自然な韻律をもつ音声を合成することを目的として、合成すべき一群のメッセージのすべてに共通する固定情報である定型部と該一群のメッセージ毎に異なる可変の情報である非定型部からなる文を、音節、音素等の合成単位を滑らかにつなぎ合わせて合成する音声合成装置が開示されている。この装置は、有声音の音声が包含する最低周波数である基本周波数の時間変化パターンであるF0パターンの生成にあたって、定型部のF0パターンを生成する第1のF0パターン生成手段と、非定型部のF0パターンを生成する第2のF0パターン生成手段と、当該各生成手段により生成したF0パターンを順次接続して文のF0パターンを生成する手段と、該F0パターンを用いて音声信号を合成する手段とを備えている。
特開平8−63187号公報 特開平11−338488号公報
対話サービスに使われる一群のメッセージは、全メッセージを通して話す速さ、声の高さ、声の大きさといった韻律的特徴が統一していることが重要である。収録したメッセージの韻律にムラがあると、前後のメッセージで話す速さが急に変化するなど不自然な印象を与える。
しかし、実際のナレーター収録では、収録の後半ほど喋る速さが速くなるなどの傾向がり、韻律的特徴を厳密に統一するのは難しい。また、収録後、追加や修正のために後日再収録を行なう場合にも、前回の音声を聞きなおして、それにあわせるように発声する必要があり、手間がかかる。このように、一群の多数のメッセージに対して、韻律的に質のそろったメッセージを用意するのは非常に困難で時間とコストのかかるものであった。
また、合成音声を利用する場合、特許文献2には、1文章内の部分的な箇所に対してピッチパタンを調整して自然性を高める方法が開示されているが、他の合成音声との韻律的整合性に関しては記述がない。特許文献2に記載された技術のように、肉声の韻律データを抽出して合成音声を作成する場合には、様々な人から抽出した韻律データを組み合わせて一つのサービスのメッセージ群を作成する場合もあり、その場合、それぞれのデータの話す速さ、声の高さ、抑揚の大きさを一致させないと、不自然な印象を与えてしまう。
また、声の高さや抑揚、話す速さといった韻律的特徴は、同一人物でも文章毎に、また、1文章内でもダイナミックに変化しており、特許文献2に記載された技術のように部分的な特徴だけで整合性を調整しても、一群のメッセージ全体としてバランスのとれた自然な音声メッセージを作成することはできない。
本発明は、上記問題点を解決するべく、韻律的特徴のそろった一群の音声メッセージを自動的に低コストで生成することを目的とする。
上記の目的を達成するために、本発明にかかる韻律正規化システムは、 音声データから抽出された変換前の韻律の時系列データを入力する韻律時系列データ入力手段と、
入力された韻律の時系列データから、その韻律の特徴を表す代表パラメータを計算する代表パラメータ計算手段と、
入力された韻律の時系列データの種類に応じて、変換目標となる韻律を決める目標パラメータを入力する目標パラメータ入力手段と、
前記代表パラメータと前記目標パラメータから韻律の変化率を計算し、前記韻律時系列データを該変化率に基づいて正規化する韻律変換手段と、
前記韻律変換手段により正規化された後の韻律時系列データを出力する変換データ出力手段とを備えることを特徴とする。
上記の構成にかかる本発明の韻律正規化システムにおいて、前記韻律時系列データ入力手段から入力された韻律の時系列データが、(1)ピッチの時系列データ、(2)音声パワーの時系列データ、(3)各発声音素の音素種別と音素長のデータの少なくとも一つを含み、前記韻律の時系列データがピッチの時系列データを含む場合、前記代表パラメータ計算手段が、(a)ピッチの時系列データから、声の高さを表すパラメータを計算する声の高さ計算部、(b)ピッチの時系列データから、声のダイナミックレンジを表すパラメータを計算する抑揚計算部、の少なくとも一つを含み、前記韻律変換手段が、前記韻律時系列データ入力手段から入力されたピッチの時系列データを変換するピッチパタン変換部を含み、前記韻律の時系列データが音声パワーの時系列データを含む場合、前記代表パラメータ計算手段が、音声パワーの時系列データから声の大きさを表す音量パラメータを計算する音量計算部を含み、前記韻律変換手段が、前記韻律時系列データ入力手段から入力された音声パワーの時系列データを変換するパワーパタン変換部を含み、前記韻律の時系列データが各発声音素の音素種別と音素長のデータを含む場合、前記代表パラメータ計算手段が、各発声音素の音素種別と音素長のデータから、話す速さを表す話速パラメータを計算する話速計算部を含み、前記韻律変換手段が、前記韻律時系列データ入力手段から入力された音素長データを変換する話速変換部を含む構成とすることが好ましい。かかる構成により、それぞれ、入力された韻律時系列データの声の高さと抑揚の度合い、話す速さ、声の大きさを目標の値に変換することができるからである。
本発明の韻律正規化システムにおいて、目標となる韻律の時系列データを入力とし、目標となる韻律時系列データからその韻律の特徴を表す代表パラメータを計算し、計算結果の代表パラメータを前記目標パラメータとして前記目標パラメータ入力手段へ与える目標パラメータ計算手段を、前記目標パラメータ入力手段の前段にさらに備え、前記目標パラメータ計算手段が、(1)ピッチの時系列データから声の高さを表すパラメータを計算する声の高さ計算部、(2)ピッチの時系列データから声のダイナミックレンジを表すパラメータを計算する抑揚計算部、(3)各発声音素の音素種別と音素長のデータから、話す速さを表す話速パラメータを計算する話速計算部、(4)音声パワーの時系列データから声の大きさを表す音量パラメータを計算する音量計算部、のうち少なくとも一つを備えることが好ましい。
かかる構成により、目標となる音声の韻律の時系列データを予め抽出しておけば、入力された韻律の時系列データを韻律的質のそろった韻律に変換できるからである。
本発明の韻律正規化システムにおいて、前記代表パラメータ計算手段または前記目標パラメータ計算手段に含まれる声の高さ計算部および抑揚計算部が、有声音のピッチの平均値に基づいて、または、有声音のピッチデータの分布特性に基づいて、声の高さを表すパラメータまたは声のダイナミックレンジを表すパラメータを計算することが好ましい。ピッチ抽出の乱れがあったり、長短の文章が入り混じり、ピッチの分布が部分的に大きく異なる場合においても、安定した声の高さパラメータの抽出と正規化ができるからである。
本発明の韻律正規化システムにおいて、前記代表パラメータ計算手段または前記目標パラメータ計算手段に含まれる話速計算部が、発声区間とポーズ区間に対してそれぞれ話速を求め、それぞれの話速と区間長に応じて、話速パラメータを補正するポーズ長話速パラメータ補正部を有することが好ましい。ポーズの多い音声とポーズの少ない音声では、発声部分の物理的な音素長が同じでも、ポーズを含めた全体の話速は、ポーズが多いほうがゆっくり聞こえるため、ポーズを考慮した補正手段を有することで、ポーズの異なる他人の韻律データや、規則合成による韻律データが混在する場合でも、感覚的な話速の速さをそろえることができるからである。
本発明によれば、韻律の時系列データから、韻律的特徴を表す代表パラメータを求めることが可能になり、求められた代表パラメータと目標とする韻律を決める目標パラメータとを対比させることにより、もとの韻律を目標とする韻律へ変換し、韻律的特徴をそろえることができる。これにより、韻律的特徴のそろった一群の音声メッセージを自動的に低コストで生成することが可能となる。
以下、本発明のより具体的な実施形態について、図面を参照しながら説明する。
最初に、本発明の原理を、図1に示す。本発明の韻律正規化システム100には、変換元の韻律データである入力韻律時系列データと、正規化で目標とする韻律を指定する目標パラメータが入力される。韻律正規化システム100は、入力韻律時系列データが目標パラメータの韻律となるように正規化し、正規化した韻律時系列データを出力する。
ここで、入力される韻律時系列データは、声の高さを表すピッチの時系列データ(ピッチパタン)、音声パワーの時系列変化を表すパワーパタン、声のダイナミックレンジを表す抑揚パターン、あるいは、発声音素の種別とその時間長を表す音素長データのように、時系列にダイナミックに変化するデータであり、予め音声から抽出されたものである。
一方、正規化後の韻律を指定する目標パラメータは、声の高さ“4”、話速8モーラ/秒、抑揚200Hz、音量“7”といった、時系列データではない抽象的なパラメータで与えられる。従って、入力された韻律時系列データを直接変換することができない。
そこで、本発明の一実施形態にかかる韻律正規化システム100は、入力の韻律時系列データから、韻律の特徴を表す代表パラメータを計算する代表パラメータ計算手段2を備えることによって、時系列データをパラメータ化し、韻律変換手段4で、目標パラメータと入力データの代表パラメータから韻律の変化率を計算し、該変化率に基づき、入力韻律時系列データの正規化を行い、入力された韻律時系列データを目標パラメータで表される韻律に正規化された韻律時系列データを出力する。
なお、本発明にかかる韻律正規化システムにおいて、変換元となる入力データ、変換目標を決める目標パラメータ、そして韻律の変換処理のそれぞれについて、以下の態様が考えられる。
例えば、変換元となる入力データとしては、(1)韻律の時系列データを入力する方法、(2)生の音声データを与え、そこから韻律の時系列データを抽出する方法、がある。
目標パラメータの与え方としては、(1)目標パラメータを直接指定する方法、(2)生の音声データから抽出された時系列の韻律データを与える方法、または、(3)目標の韻律で発声された音声データを与えて、そこから目標となるパラメータを抽出する方法、がある。
韻律の変換処理としては、(1)韻律の時系列データを変換し、後に続く音声合成や合成用の韻律データベースの作成処理に備える場合、(2)目的の韻律になるように生の音声データを直接信号処理により韻律変換する場合、の2つの方法がある。
本発明の実施形態としては、上記のそれぞれの組み合わせが考えられ、これらを以下に述べる。
(第1の実施形態)
本発明の第1の実施形態の構成図を図2〜4に示す。本実施形態は、韻律の時系列データを入力とし、目標パラメータを直接与え、韻律時系列データを直接変換して正規化する場合の構成例である。
図2において、100は本実施形態の韻律正規化システム、1は韻律時系列データ入力手段、2は入力された韻律時系列データの代表パラメータを計算する代表パラメータ計算手段、3は目標とする韻律を表すパラメータ(目標パラメータ)を入力する目標パラメータ入力手段、4は韻律変換手段、5は変換データ出力手段を示す。
さらに、入力データの代表パラメータ計算手段2は、図3に示すように、声の高さ計算部21、抑揚計算部22、話速計算部23、音量計算部24から成り、また、韻律変換手段4は、同じく図3に示すように、ピッチパタン変換部41、音素長変換部42、パワーパタン変換部43から成る。
韻律時系列データ入力手段1には、正規化前の韻律時系列データが入力される。入力された韻律時系列データは、代表パラメータ計算手段2と韻律変換手段4へ出力される。韻律時系列データ入力手段1は、図2に示すように直接韻律時系列データを入力する場合の他に、図4に示すように韻律時系列データDB(データベース)12とデータ選択部11で構成してもよい。この場合、正規化を行いたい韻律時系列データを示すデータIDをデータ選択部11に入力し、データ選択部11では、複数の音声の韻律時系列データが登録された韻律時系列データDB12から指定されたデータIDに対応する韻律時系列データを選択し、出力する構成にする。
本実施形態における韻律時系列データとしては、(1)声の高さと抑揚の度合いを表すピッチパタン(ピッチの時系列データ)、(2)発声した各音素の音素種別とその音素長を表す音素長データ、(3)音声のパワーの時系列変化を表すパワーパタンの3種類である。
入力データの代表パラメータ計算手段2には、韻律時系列データ入力手段1から、上記3種類の韻律時系列データの少なくとも1種類が入力され、対応する代表パラメータを計算する。
図3の声の高さ計算部21には、韻律の時系列データのうち、ピッチパタンが入力され、入力された韻律データの声の高さを表す声の高さパラメータを計算する。本パラメータを計算する際は、ピッチの揺らぎやピッチ抽出誤りの影響を軽減するために、ピッチパタンの統計値を用いるのが好ましく、ピッチの平均値や、ピッチの分布の中で最低ピッチまたは最高ピッチの値、あるいは、その付近の分布の平均値を、声の高さを規定するパラメータとして用いればよい。
以下に、平均値を用いて声の高さを計算する場合の1例を示す。まず、入力データをポーズ箇所で区切り、ポーズに挟まれた複数の連続発声区間に分割する。それぞれの連続発声区間をSk(k=1,2,…,M)とする。次に各区間Sk毎に、その区間に含まれるピッチデータ数NSkとその平均ピッチPAve(Sk)を求める。最終的な声の高さパラメータは、各連続発声区間のピッチ平均値PAve(Sk)を各区間のデータ数の2乗で重み付けをした平均値として次式で求める。
Figure 0004387822
このように、各連続発声区間に区切って重み付け平均をとることによって、一連の文章の中でも、発声区間の長い主要な発声部分の声の高さに近いパラメータ値を計算することができる。
抑揚計算部22にもピッチパタン(必要な場合は音素長データも)が入力され、入力の韻律データの声のダイナミックレンジを表す抑揚パラメータを計算する。本パラメータを計算する際は、ピッチの揺らぎやピッチ抽出誤りの影響を軽減するためにピッチパタンの統計値を用いるのが好ましく、例えば、ピッチの分散値や、ピッチデータの分布の分布幅を用いて声のダイナミックレンジを表す抑揚パラメータを計算すればよい。
以下に、ピッチデータの分布を用いて声の抑揚パラメータを計算する場合の1例を示す。まず、入力のピッチの全時系列データに対して、そのピッチデータの分布を求める。次に、ピッチデータの分布のうち最低ピッチからの分布の一定割合(例えば全データの10%)に属するピッチデータを抽出し、それらの平均値を声の高さの最低値を表すベースピッチとする。同様に、ピッチデータの分布のうち、最高ピッチからの分布の一定割合(例えば全データの10%)に属するピッチデータを抽出し、それらの平均値を声の高さの最高値を表すトップピッチとする。最後に、ベースピッチとトップピッチの差分値を求め、これを入力韻律データの声のダイナミックレンジを表す抑揚パラメータとして用いる。
話速計算部23には、韻律の時系列データのうち、音素長種別と音素長データが入力され、入力の韻律データの話す速さを表す話速パラメータを計算する。話速の計算は、例えば、入力のデータの総音素長をモーラ数で割った値の逆数を、1秒間に発声されるモーラ数として求め、話速パラメータとして用いればよい。以下に、その計算例を示す。
まず、入力データをポーズ箇所で区切り、ポーズに挟まれた複数の連続発声区間に分割する。それぞれの連続発声区間をSk(k=1,2,…,M)とする。次に各区間Sk毎に、その区間に含まれるモーラ数NSkと、その区間の総音素長をモーラ数NSkで割った平均音素長LAve(Sk)を求める。最終的な話速パラメータSPAve[モーラ/sec]は、各連続発声区間の平均音素長LAve(Sk)を各区間のモーラ数の2乗で重み付けをした全平均音素長の逆数として次式で求める。
Figure 0004387822
このように、各連続発声区間に区切って重み付け平均をとることによって、一連の文章の中でも、発声区間の長い主要な発声部分の話速に近いパラメータ値を計算することができる。
さらに、話速パラメータ計算の際には、発声区間とポーズ区間の話速を別々に計算し、ポーズ区間の話速を使って発声区間の話速を補正することが望ましい。人は、発声区間の話速が同じでも、ポーズ区間の長さが長いほうが、話速が遅いと感じるため、例えば、ポーズ区間が長い場合には、求めた発声区間の話速をポーズ区間の長さに反比例して遅めに補正すればよい。
音量計算部24には、韻律の時系列データのうち、音声のパワーパタンが入力され、声の大きさを規定する音量パラメータを計算する。例えば、パワーパタンとしては、各時刻における音声データの振幅の絶対値や2乗値を用いればよく、音量パラメータはその平均値として求めればよい。
一方、目標パラメータ入力手段3には、正規化の目標となる韻律を決める目標パラメータが入力され、韻律変換手段4に出力される。本実施例で扱う目標パラメータとしては、入力データの代表パラメータ計算手段2で計算したパラメータに対応して、(1)声の高さパラメータ、(2)抑揚パラメータ、(3)話速パラメータ、(4)音量パラメータの4種類である。
韻律変換手段4には、入力データの代表パラメータ計算手段2で計算した4つの入力代表パラメータと、目標パラメータ入力手段3から出力される4つの目標パラメータと、さらに、韻律時系列データ入力部1から変換対象となる正規化前の韻律時系列データが与えられる。韻律変換手段4は、入力と目標の代表パラメータから韻律の変換率を計算し、入力韻律時系列データを変換率に基づいて正規化し、正規化した正規化韻律時系列データを変換データ出力手段5へ出力する。
図3に示すピッチパタン変換部41には、入力データの代表パラメータ計算手段2と目標パラメータ入力手段3から、それぞれ入力と目標の声の高さ/抑揚パラメータが入力され、目標のパラメータに正規化したピッチパタンを出力する。例えば、声の高さを入力のA[Hz]から目標のB[Hz]に変換する場合は、ピッチパタンを一律にB/A倍すればよい。
音素長変換部42には、入力データの代表パラメータ計算手段2と目標パラメータ入力手段3から、それぞれ入力と目標の話速パラメータが入力され、目標のパラメータに合うよう正規化した音素長データを出力する。
パワーパタン変換部43には、入力データの代表パラメータ計算手段2と目標パラメータ入力手段3から、それぞれ入力と目標のパワーパタンが入力され、目標のパラメータに変換したパワーパタンを出力する。
これらの変換時には、音素長、パワーパタンもピッチパタンと同様に、目標と入力のパラメータの比率で、それぞれ音素長、パワーを定数倍すればよい。
(第2の実施形態)
本発明の第2の実施形態を図5および図6に示す。本実施形態は、入力として、韻律の時系列データと目標パラメータを直接入力するのではなく、それぞれ生の音声データを入力する場合である。
本実施形態の韻律正規化システム101は、第1の実施形態で図2に示した構成の他に、入力音声データの韻律時系列データ抽出手段6(入力韻律時系列データ抽出手段)、目標音声データの韻律時系列データ抽出手段60(目標韻律時系列データ抽出手段)、目標データの代表パラメータ計算手段20(目標パラメータ計算手段)を備える。韻律時系列データ入力手段1、入力データの代表パラメータ計算手段2、目標パラメータ入力手段3、韻律変換手段4、変換データ出力手段5については、その構成と動作が第1の実施形態(図2)と同様であるため、説明を省略する。
入力音声データの韻律時系列データ抽出手段6は、さらに図6に示すように、読み情報入力部61、音声データ入力部62、韻律時系列データ計算部63から成り、韻律時系列データ計算部63はさらに、ピッチパタン計算部631、音素長計算部632、パワーパタン計算部633から成る。
音声データ入力部62と読み情報入力部61には、それぞれ正規化前の入力音声データとその読み情報が入力され、韻律時系列データ計算部63に出力される。韻律時系列データ63のピッチ抽出部631では、音声データ入力部62から入力される音声データからピッチを抽出し、ピッチの時系列データであるピッチパタンを出力する。ピッチパタンの抽出には、自己相関関数を用いる方法を利用すればよい。
音素境界検出部632には、音声データとその発声内容を表す読み情報が、それぞれ音声データ入力部62、読み情報入力部61から入力され、各音素の境界を検出し、音素境界間の時間間隔を各音素と対応付けて、音素長データとして出力する。音素境界の検出には、音声認識で用いられているHMM(Hidden Markov Model)による音素境界検出などを用いればよい。
パワーパタン計算部633は、音声データ入力部62から入力される音声データの各時刻における瞬時パワーを計算し、その時系列データをパワーパタンとして出力する。瞬時パワーとしては、振幅の絶対値や、2乗値を用いればよい。
韻律時系列データ計算部63で計算されたこれら3種類の韻律時系列データは、韻律時系列データ入力手段1へ出力される。
目標音声データの韻律時系列データ抽出手段60は、入力音声データの韻律時系列データ抽出手段6と比較して、入力データが、目標音声データとその読み情報に置き換わる点、出力データが目標音声データの韻律時系列データに置き換わる点、出力先が目標データの代表パラメータ計算手段20に置き換わる点を除けば、各部の構成と動作は入力音声データの韻律時系列データ抽出手段6と同様なので、詳細の図示、説明は省略する。
また、目標データの代表パラメータ計算手段20も、入力データの代表パラメータ抽出手段2と比較して、目標音声データの韻律時系列データ抽出手段60から目標韻律データが入力される点、出力データが目標パラメータで目標パラメータ入力手段3に出力する点を除けば、各部の構成と動作は入力データの代表パラメータ抽出手段2と同様なので、詳細の図示、説明は省く。
(第3の実施形態)
本発明の第3の実施形態の構成図を図7に示す。第3の実施形態は、本発明にかかる韻律正規化システムを用いた合成音声生成システムの一例である。
本実施形態の合成音声生成システム102は、第1の実施形態で図2に示した構成の他に、音声合成に関連する言語処理部71、韻律生成部72、波形辞書73、音響処理部74、音韻情報入力部75と、肉声から抽出した韻律データベース8、目標データの代表パラメータ計算手段20を備える。
韻律時系列データ入力手段1、入力データの代表パラメータ計算手段2、目標パラメータ入力手段3、韻律変換手段4、変換データ出力手段5については、その構成と動作が図2の第1の実施形態と同様であるため、説明を省略する。
本実施形態では、言語処理部71と韻律生成部72は音声合成の音韻情報と韻律情報を生成する部分に相当し、言語処理部71は入力されたテキストを解析して読み情報を出力する。読み情報は音韻情報入力部75と韻律生成部72へ出力される。韻律生成部72は生成された読み情報をもとに韻律情報を生成する。韻律生成部72で生成された韻律データは、入力データの代表パラメータ計算部2と韻律変換手段4へ入力される。
代表パラメータ計算手段2は、他の実施例と同様、韻律データから代表パラメータを計算する。本実施形態では、目標となる韻律は、肉声から抽出され、既に正規化された韻律の時系列データが格納されている韻律データベース8と、データベースに登録されている全てのデータの韻律を代表するパラメータを計算する目標データの代表パラメータ計算手段20で構成される。目標データの代表パラメータ計算手段20の構成と動作は第2の実施形態と同じである。
音韻情報入力部75では読み情報から音韻情報を作成し、音韻情報を音響処理部74へ出力する。音響処理部74では、音韻情報入力部75から得られる音韻情報、韻律生成手段72で生成された韻律データを韻律変換手段4で変換して正規化された韻律時系列データに従って、波形辞書に格納されている音声波形を信号処理し、接続しながら、合成音声を出力する。
(第4の実施形態)
本発明の第4の実施形態の構成図を、図8に示す。
本実施形態の韻律正規化システム(音声データ生成システム)103は、第1の実施形態で図2に示した構成の他に、入力音声データの韻律時系列データ抽出手段6を備え、韻律変換手段40、変換データ出力手段50が扱うデータが、第1の実施形態(図2)の韻律変換手段4、変換データ出力手段5と異なる。また、入力音声データの韻律時系列データ抽出手段6の構成と動作は、第2の実施形態と同様なので説明を省略する。
本実施形態の韻律変換手段40の構成を図9に示す。韻律変換手段40は、音声データ入力部410、目標ピッチパタン生成部4210とピッチ変換部4220からなる声の高さ変換部420、話速変換部430、音量変換部440で構成される。
本実施形態の韻律変換手段40は、第1の実施形態の韻律変換手段4のように韻律時系列データを変換するのではなく、音声データ入力部410で入力される生の音声データに対する信号処理によって、韻律特徴を変換する。
声の高さ・抑揚変換部420では、まず、目標ピッチパタン生成部4210が、目標とする音声データと入力された声の高さパラメータの比率で、ピッチを一律に拡大縮小することにより、ピッチパタンを変換する。抑揚パラメータも同様に、ベースピッチ(ピッチの最低部分)からの変動幅を一律に拡大縮小することにより、ピッチパタンを変更する。
次に、ピッチ変換部4220で、目標のピッチパタンになるように音声データのピッチを変換する。変換には例えばPSOLA(Pitch Synchronous OverLap Add)法を用いればよい。
話速変換部430では、入力の話速パラメータが目標の話速パラメータになるように音声データを信号処理する。話速変換は、例えば、音声データを小規模なフレーム単位に分割し、当該フレームの終端部分と次フレームの開始部分を重ねる(話速を早くする場合)あるいは、繰り返す(話速を遅くする場合)ことにより実現すればよい。
音量変換部440では、入力の音量パラメータが目標の音量パラメータと成るように一律に振幅を定数倍すればよい。
なお、声の高さ・抑揚変換部420、話速変換部430、音量変換部440の順番は順不同でよい。
以上、4つの実施形態を挙げたが、変換元となる入力データ、変換目標を決める目標パラメータ、そして韻律の変換処理のそれぞれについて、実施形態の冒頭で述べた組み合わせが考えられ、上記第1〜第4の実施形態の韻律時系列データを提供する部分、目標パラメータを提供する部分、韻律変換手段を組み合わせて、図示していない組み合わせの構成をとってもよい。
また、上述の4つの実施形態では、入力データの代表パラメータ計算手段が、声の高さ計算部、抑揚計算部、話速計算部、音量計算部の全てを備えた構成を例示したが、入力データの代表パラメータ計算手段は、声の高さ計算部、抑揚計算部、話速計算部、音量計算部のうち少なくとも1つを備えた構成であっても良い。また、入力データの代表パラメータ計算手段が、声の高さ計算部および抑揚計算部のいずれも備えていない場合は、韻律変化手段のピッチパタン変換部は不要である。同様に、入力データの代表パラメータ計算手段が話速計算部を備えていない場合は、韻律変化手段の音素長変換部は不要である。また、入力データの代表パラメータ計算手段が音量計算部を備えていない場合は、韻律変化手段のパワーパタン変換部は不要である。
なお、特許請求の範囲に記載した事項の他、以下の付記事項も、本発明の一側面である。
(付記1)
音声データから抽出された変換前の韻律の時系列データを入力する韻律時系列データ入力手段と、
入力された韻律の時系列データから、その韻律の特徴を表す代表パラメータを計算する代表パラメータ計算手段と、
入力された韻律の時系列データの種類に応じて、変換目標となる韻律を決める目標パラメータを入力する目標パラメータ入力手段と、
前記代表パラメータと前記目標パラメータから韻律の変化率を計算し、前記韻律時系列データを該変化率に基づいて正規化する韻律変換手段と、
前記韻律変換手段により正規化された後の韻律時系列データを出力する変換データ出力手段とを備えることを特徴とする韻律正規化システム。
(付記2)
前記韻律時系列データ入力手段から入力された韻律の時系列データが、
(1)ピッチの時系列データ、
(2)音声パワーの時系列データ、
(3)各発声音素の音素種別と音素長のデータ、
の少なくとも一つを含み、
前記韻律の時系列データがピッチの時系列データを含む場合、
前記代表パラメータ計算手段が、
(a)ピッチの時系列データから、声の高さを表すパラメータを計算する声の高さ計算部、
(b)ピッチの時系列データから、声のダイナミックレンジを表すパラメータを計算する抑揚計算部、
の少なくとも一つを含み、
前記韻律変換手段が、
前記韻律時系列データ入力手段から入力されたピッチの時系列データを変換するピッチパタン変換部を含み、
前記韻律の時系列データが音声パワーの時系列データを含む場合、
前記代表パラメータ計算手段が、
音声パワーの時系列データから声の大きさを表す音量パラメータを計算する音量計算部を含み、
前記韻律変換手段が、
前記韻律時系列データ入力手段から入力された音声パワーの時系列データを変換するパワーパタン変換部を含み、
前記韻律の時系列データが各発声音素の音素種別と音素長のデータを含む場合、
前記代表パラメータ計算手段が、
各発声音素の音素種別と音素長のデータから、話す速さを表す話速パラメータを計算する話速計算部を含み、
前記韻律変換手段が、
前記韻律時系列データ入力手段から入力された音素長データを変換する話速変換部を含む、付記1に記載の韻律正規化システム。
(付記3)
目標となる韻律の時系列データを入力とし、目標となる韻律時系列データからその韻律の特徴を表す代表パラメータを計算し、計算結果の代表パラメータを前記目標パラメータとして前記目標パラメータ入力手段へ与える目標パラメータ計算手段を、前記目標パラメータ入力手段の前段にさらに備え、
前記目標パラメータ計算手段が、(1)ピッチの時系列データから声の高さを表すパラメータを計算する声の高さ計算部、(2)ピッチの時系列データから声のダイナミックレンジを表すパラメータを計算する抑揚計算部、(3)各発声音素の音素種別と音素長のデータから、話す速さを表す話速パラメータを計算する話速計算部、(4)音声パワーの時系列データから声の大きさを表す音量パラメータを計算する音量計算部、のうち少なくとも一つを備える、付記1または2に記載の韻律正規化システム。
(付記4)
前記代表パラメータ計算手段または前記目標パラメータ計算手段に含まれる声の高さ計算部および抑揚計算部が、有声音のピッチの平均値に基づいて、または、有声音のピッチデータの分布特性に基づいて、声の高さを表すパラメータまたは声のダイナミックレンジを表すパラメータを計算する、付記2または3に記載の韻律正規化システム。
(付記5)
前記代表パラメータ計算手段または前記目標パラメータ計算手段に含まれる話速計算部が、発声区間とポーズ区間に対してそれぞれ話速を求め、それぞれの話速と区間長に応じて、話速パラメータを補正するポーズ長話速パラメータ補正部を有する、付記2または3に記載の韻律正規化システム。
(付記6)
目標とする音声データを入力し、入力された目標音声データから韻律時系列データを抽出する目標韻律時系列データ抽出手段を、前記目標パラメータ計算手段の前段に備え、
前記目標韻律時系列データ抽出手段は、(1)前記目標音声データから各時刻におけるピッチの値を求める、ピッチパタン計算手段、(2)前記目標音声データから各発声音素の音素境界を検出し、音素長を求める音素長計算手段、(3)前記目標音声データから音声パワーの時系列データを求めるパワーパタン計算手段、のうち少なくとも一つを備えることを特徴とする、付記1〜5のいずれか一項に記載の韻律正規化システム。
(付記7)
音声データを入力し、入力音声データから韻律時系列データを抽出する入力韻律時系列データ抽出手段を、前記韻律時系列データ入力手段の前段に備え、
前記入力韻律時系列データ抽出手段は、(1)入力音声データから各時点におけるピッチの値を求めるピッチパタン計算手段、(2)入力音声データから各発声音素の音素境界を検出し、音素長を求める音素長計算手段、(3)入力音声データから音声パワーの時系列データを求めるパワーパタン計算手段、のうち少なくとも一つを備えることを特徴とする付記1〜6のいずれか一項に記載の韻律正規化システム。
この構成は、韻律時系列データが得られていない生の肉声音声データに対しても、それぞれ、声の高さと抑揚の度合い、話す速さ、声の大きさを目標の値に変換することができる点で好ましい。
(付記8)
テキストを入力とし、入力されたテキストの読み情報を解析する言語処理部と、
前記言語処理部から出力される読み情報に基づいて時系列韻律データを生成する韻律生成部を、前記韻律時系列データ入力手段の前段にさらに備える、付記1〜7のいずれか一項に記載の韻律正規化システム。この構成は、音声合成用の正規化された韻律データを生成することができる点で好ましい。
(付記9)
前記韻律変換手段が、
前記入力韻律時系列データ抽出手段へ入力される音声データを入力とし、
(1)入力された音声データのピッチを変換するピッチ変換手段、(2)入力された音声データの話速を変換する話速変換手段、(3)入力された音声データの音声のパワーを変換するパワー変換手段、のうち少なくとも一つを備え、
前記変換データ出力手段へ、変換後の音声データを出力する、付記7に記載の韻律正規化システム。
この構成は、入力音声データに対して直接信号処理を行なうことが可能で、品質を落とさずに、それぞれ、目的とする声の高さ、抑揚の度合い、話す速さ、声の大きさの音声データを作成することができる点で好ましい。
(付記10)
前記代表パラメータ計算手段または前記目標パラメータ計算手段に含まれる上記抑揚計算部が、有声音のピッチの分散の値に基づいて、または、ピッチデータの分布幅に基づいて、抑揚パラメータを計算する、付記2または3に記載の韻律正規化システム。この構成は、ピッチ抽出の乱れがある場合や、長短の文章が入り混じった場合においても、安定した抑揚の度合いの抽出とその正規化ができる点で好ましい。
(付記11)
前記代表パラメータ計算手段または前記目標パラメータ計算手段に含まれる音量計算部が、有声音のパワーの平均値により音量パラメータを計算する、付記2または3に記載の韻律正規化システム。この構成は、部分的な強調によって、音声パワーがゆらいでいる場合でも、揺らぎの影響を軽減し、安定した正規化を行なうことができる点で好ましい。
本発明にかかる韻律正規化システムの原理を示す概念図である。 本発明の一実施形態にかかる韻律正規化システムの構成を示すブロック図である。 図2の代表パラメータ計算手段および韻律変換手段の内部構成を示すブロック図である。 図2の韻律時系列データ入力手段の内部構成を示すブロック図である。 本発明の他の実施形態にかかる韻律正規化システムの構成を示すブロック図である。 図5の韻律時系列データ抽出手段の内部構成を示すブロック図である。 本発明の韻律正規化システムを用いた合成音声生成システムの一実施形態の構成を示すブロック図である。 本発明の他の実施形態にかかる韻律正規化システム(音声メッセージ作成システム)の構成を示すブロック図である。 図8に示す韻律変換手段の内部構成を示すブロック図である。
符号の説明
100 韻律正規化システム
1 韻律時系列データ入力手段
2 代表パラメータ計算手段
3 目標パラメータ入力手段
4 韻律変換手段
5 変換データ出力手段
11 データ選択部
12 韻律時系列データDB
21 声の高さ計算部
22 抑揚計算部
23 話速計算部
24 音量計算部
41 ピッチパタン変換部
42 音素長変換部
43 パワーパタン変換部

Claims (5)

  1. 音声データから抽出された正規化前の韻律の時系列データを入力する韻律時系列データ入力手段と、
    入力された韻律の時系列データから、当該韻律の時系列データの種類に対応する代表パラメータであって、前記韻律の特徴を表す代表パラメータを計算する代表パラメータ計算手段と、
    正規化の目標となる韻律を決めるために、前記代表パラメータの種類に応じた目標パラメータを入力する目標パラメータ入力手段と、
    前記代表パラメータと前記目標パラメータから韻律の変化率を計算し、前記韻律時系列データを該変化率に基づいて正規化する韻律変換手段と、
    正規化後の韻律時系列データを出力する変換データ出力手段とを備えることを特徴とする韻律正規化システム。
  2. 前記韻律時系列データ入力手段から入力される韻律の時系列データが、
    (1)ピッチの時系列データ、
    (2)音声パワーの時系列データ、
    (3)各発声音素の音素種別と音素長のデータ、
    の少なくとも一つを含み、
    前記韻律の時系列データがピッチの時系列データを含む場合、
    前記代表パラメータ計算手段が、
    (a)ピッチの時系列データから、声の高さを表すパラメータを計算する声の高さ計算部、
    (b)ピッチの時系列データから、声のダイナミックレンジを表すパラメータを計算する抑揚計算部、
    の少なくとも一つを含み、
    前記韻律変換手段が、
    前記韻律時系列データ入力手段から入力されたピッチの時系列データを変換するピッチパタン変換部を含み、
    前記韻律の時系列データが音声パワーの時系列データを含む場合、
    前記代表パラメータ計算手段が、
    音声パワーの時系列データから声の大きさを表す音量パラメータを計算する音量計算部を含み、
    前記韻律変換手段が、
    前記韻律時系列データ入力手段から入力された音声パワーの時系列データを変換するパワーパタン変換部を含み、
    前記韻律の時系列データが各発声音素の音素種別と音素長のデータを含む場合、
    前記代表パラメータ計算手段が、
    各発声音素の音素種別と音素長のデータから、話す速さを表す話速パラメータを計算する話速計算部を含み、
    前記韻律変換手段が、
    前記韻律時系列データ入力手段から入力された音素長データを変換する話速変換部を含む、
    請求項1記載の韻律正規化システム。
  3. 目標となる韻律の時系列データを入力とし、目標となる韻律時系列データからその韻律の特徴を表す代表パラメータを計算し、計算結果の代表パラメータを前記目標パラメータとして前記目標パラメータ入力手段へ与える目標パラメータ計算手段を、前記目標パラメータ入力手段の前段にさらに備え、
    前記目標パラメータ計算手段が、
    (1)ピッチの時系列データから声の高さを表すパラメータを計算する声の高さ計算
    部、
    (2)ピッチの時系列データから声のダイナミックレンジを表すパラメータを計算する抑揚計算部、
    (3)各発声音素の音素種別と音素長のデータから、話す速さを表す話速パラメータを計算する話速計算部、
    (4)音声パワーの時系列データから声の大きさを表す音量パラメータを計算する音量計算部、
    のうち少なくとも一つを備える、請求項1または2に記載の韻律正規化システム。
  4. 前記代表パラメータ計算手段または前記目標パラメータ計算手段に含まれる声の高さ計算部および抑揚計算部が、連続発生区間に含まれるピッチの平均値に基づいて、または、連続発生区間に含まれるピッチデータの分布特性に基づいて、声の高さを表すパラメータまたは声のダイナミックレンジを表すパラメータを計算する、請求項2または3に記載の韻律正規化システム。
  5. 前記代表パラメータ計算手段または前記目標パラメータ計算手段に含まれる話速計算部が、発声区間の話速とポーズ区間の区間長を別々に求め、それぞれの話速と区間長に応じて、話速パラメータを補正するポーズ長話速パラメータ補正部を有する、請求項2または3に記載の韻律正規化システム。
JP2004029853A 2004-02-05 2004-02-05 韻律正規化システム Expired - Fee Related JP4387822B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004029853A JP4387822B2 (ja) 2004-02-05 2004-02-05 韻律正規化システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004029853A JP4387822B2 (ja) 2004-02-05 2004-02-05 韻律正規化システム

Publications (2)

Publication Number Publication Date
JP2005221785A JP2005221785A (ja) 2005-08-18
JP4387822B2 true JP4387822B2 (ja) 2009-12-24

Family

ID=34997461

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004029853A Expired - Fee Related JP4387822B2 (ja) 2004-02-05 2004-02-05 韻律正規化システム

Country Status (1)

Country Link
JP (1) JP4387822B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4826493B2 (ja) * 2007-02-05 2011-11-30 カシオ計算機株式会社 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム
JP4455610B2 (ja) 2007-03-28 2010-04-21 株式会社東芝 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法
JP6446993B2 (ja) 2014-10-20 2019-01-09 ヤマハ株式会社 音声制御装置およびプログラム

Also Published As

Publication number Publication date
JP2005221785A (ja) 2005-08-18

Similar Documents

Publication Publication Date Title
US20200410981A1 (en) Text-to-speech (tts) processing
US9147392B2 (en) Speech synthesis device and speech synthesis method
Liu et al. High quality voice conversion through phoneme-based linear mapping functions with straight for mandarin
JPH031200A (ja) 規則型音声合成装置
US10553240B2 (en) Conversation evaluation device and method
JP5039865B2 (ja) 声質変換装置及びその方法
Erro et al. Weighted frequency warping for voice conversion.
US20110046957A1 (en) System and method for speech synthesis using frequency splicing
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
Přibilová et al. Non-linear frequency scale mapping for voice conversion in text-to-speech system with cepstral description
JP4387822B2 (ja) 韻律正規化システム
JP2904279B2 (ja) 音声合成方法および装置
JP3706112B2 (ja) 音声合成装置及びコンピュータプログラム
JPH08335096A (ja) テキスト音声合成装置
JP5175422B2 (ja) 音声合成における時間幅を制御する方法
JP2002525663A (ja) ディジタル音声処理装置及び方法
Bae et al. Enhancement of Pitch Controllability using Timbre-Preserving Pitch Augmentation in FastPitch
JP2013033103A (ja) 声質変換装置および声質変換方法
Gutiérrez-Arriola et al. A new multi-speaker formant synthesizer that applies voice conversion techniques
US7130799B1 (en) Speech synthesis method
JP2536169B2 (ja) 規則型音声合成装置
PATIL A wavelet based concatenation algorithm for Gujarati speech synthesis
JPH0580791A (ja) 音声規則合成装置および方法
JP3575919B2 (ja) テキスト音声変換装置
JP3967571B2 (ja) 音源波形生成装置、音声合成装置、音源波形生成方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060404

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090929

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091001

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121009

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121009

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131009

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees