JPH11507740A

JPH11507740A - 言語合成

Info

Publication number: JPH11507740A
Application number: JP9502810A
Authority: JP
Inventors: ブリーン、アンドリュー・ポール
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1995-06-13
Filing date: 1996-06-13
Publication date: 1999-07-06
Also published as: US6330538B1; AU6231196A; DE69620399D1; CA2221762A1; AU713208B2; CA2221762C; EP0832481B1; WO1996042079A1; DE69620399T2; EP0832481A1

Abstract

(57)【要約】入力テキストをシラブルまたはその他のフォネティックユニットの表示のシーケンスに変換し、記憶したデータ部分を検索して、シラブルに対応する波形を生成する。シラブルの音長を判断するために、規則正しいビート期間に対応する一定の音長を定め、シーケンス内のシラブルおよび／またはその前後関係の特色にしたがって調節する。

Description

【発明の詳細な説明】言語合成本発明は、言語合成、とくに、これのみに限定しないが、記憶した言語波形のセグメントを連結することによって動作する、テキスト（文書）から言語への合成器に関する。本発明にしたがって、言語合成器として、とくに、フォネティックユニット(phonetic unit)表示のシーケンスを供給する手段と、データの記憶した部分を検索して、フォネティックユニットに対応する波形を生成する手段と、フォネティックユニットの音長(duration:継続期間の意)を判断する手段と、データ部分を処理して、判断した音長にしたがって波形の時間的継続期間を調節する手段とを含み、判断手段が規則正しいビート期間に対応する一定の期間を定めて、シーケンス内のフォネティックユニットおよび／またはその前後関係の特色に依存してその音長を調節するように動作する言語合成器を提供する。好ましくは、記憶したデータはそれら自身がデジタルの言語波形である（しかしながら、これは絶対的ではなく、本発明は他の形式の合成器、例えばフォルマント合成器に応用することもできる）。したがって好ましい構成では、合成器は、音声サブユニットに対応する波形を表わすデータ項目を含むメモリ、各フォネティックユニットに対して、１または複数のデータ部分（１データ部分はサブユニットに対応する）を検索するように動作する検索手段、および各サブユニットにおいて、最大値および最小値を含む統計的音長のデータを含む別のメモリを含み、判断手段は、その構成要素のサブユニットに対して最小音長値の和と最大音長値の和を計算し、前記一定の音長を調節し、最小値の和よりも小さくなったり、最大値の和よりも大きくなったりしないように動作する。好ましい実施形態では、フォネティックユニットはシラブルであり、サブユニットはフォニームである。ここで本発明の１実施形態を添付の図面に示した言語合成器のブロック図を引用して記載する。図１の言語構成器は、コード形式の入力テキスト、例えばアスキー（ＡＳＣＩＩ）コードを受信する入力１を有する。テキスト正規化ユニット２はテキストを力すると“百ポンド(one hundred pound)”と変換される。テキスト正規化ユニット２からの出力は発音ユニット３へ送られ、このテキストはディクショナリまたは１組の規則、あるいは一層好ましくは両者を使用することによって音声表示に変換される。発音ユニット３はさらに各シラブルに対して、このシラブルの代りに辞書的ストレス(lexical stress)を示すパラメータを生成する。パーサ４は各センテンス(sentence)を解析して、言語(speech)の部分（形容詞、名詞、動詞、など）に関してセンテンスの構造を判断し、言語運用構造、例えば主フレーズ(major phrase)（主フレーズは単語および沈黙(silence)によって境界を定められた１纏まりの単語）および副フレーズを生成する。ピッチ割当てユニット５は、ユニット３および４の出力に基いて各シラブルに対する“特徴(s ailence)”値を計算する。この値は、辞書的ストレス、主フレーズと副フレーズとの間の境界、言語の部分、およびその他の要素の機能として各シラブルに与えられた相対的ストレスを示している。一般的に相対的ストレスを使用して、合成された言語の基本的なピッチを制御する（しかし、相対的ストレスの構成は図に示されていない）。音声表示はユニット３から、さらに選択ユニット６へ送られ、データベース７へアクセスする。データベース７は言語波形のデジタルセグメントを含み、各セグメントは各フォニームに対応する。好ましくは（本発明に不可欠というわけではない）、データベースは各フォニームの多数の例を含み、（ヒューマンスピーカによって）異なる前後関係（コンテキスト）で記録され、選択ユニットはフォニームの例を選択するように動作し、この例となるフォニームの前後関係が最もよく整合する前後関係を有していて、生成されたフォニームが（このフォニームに隣接するフォニーム間の整合という点で）入力テキストに実際に現れるようにする。この選択に対する構成は々の同時出願である欧州特許出願第93306219.2号に記載されている。波形セグメント（以下で一層詳細に記載する）を連結して、デジタル波形サンプルの連続するシーケンスを生成する。このサンプルは入力１で受信したテキストに対応する。上記のユニットは、従来のユニットのように動作する。しかしながら装置はさらに音長計算ユニット８を含む。音長計算ユニット８は、各フォニームにおいて、ミリ秒の音長（または、その他の好都合な仮の測定単位）を示す出力を生成するように動作する。この動作は規則正しいビートレート、すなわちシラブルの生成レートが一定である、または言語の一部では少なくとも一定であるという発想に基いている。このビートによって、シラブルが可能な限り適合していなければならない一定の期間を定められるとみることができるが、実際の音長は時々この期間から逸脱することが分かるであろう。図示された装置は、固定された基本のビートレートを仮定しているが、ユーザはこの設定を修正することができる。一般的なレートは０．０１５ビート／ｍ（すなわち、６６．７ｍｓのビート期間である）であってもよい。音長ユニット８は、データベース９へアクセスし、データベース９は各フォニームにおいて次のような統計的情報を含んでいる。 −フォニームの最小セグメント音長Ｐ_i,min −フォニームの最大セグメント音長Ｐ_i,max −フォニームの平均または最頻数（並数）セグメントの音長Ｐ_i,M 全ての論理フォニームの組Ｐの各フォニーム（ｉ＝１，…，ｎ）に対して、これらの値を記憶していることが分かる。最頻数音長は、フォニーム長を分配するときに最も頻繁に発生する値であり、この値は平均値であることが好ましい。これらの値は、注釈付きの言語サンプルのデータベースから判断することができる。未処理の統計値はデータを使用するか、または平滑化(smooth)して、ガンマモデルの音長のようなデータを使用することができる。最良の結果を得るには、この統計的情報は合成されるフォニームと同じ形式の言語から導き出すべきである。事実、データベース７が各フォニームｐ_iの多数の例を含むとき、統計的情報はデータベース７それ自身の情報から生成することができる。なお、これらの値を１回だけで判断することも記載しておく。音長ユニット８は各シラブルｊに対して以下のように処理を進める。この記法は各シラブルはＬ個のフォニーム（Ｌは明らかに各シラブル毎に変化する）を含み、１番目のフォニームは指標i(1)として識別される−すなわち、フォニームｐ₃ がシラブル内の位置２にあるとき、ｉ(2)＝３と表すことができる。（１）シラブルの最小および最大の可能な音長を判断する−すなわち、最大値および最小値は、シラブル音長の第１の組の境界を表わしている。（２）各シラブルと関係しているものは特徴の程度を表わしている要素であり、これはユニット５から得られ；上述のように、シラブルが単語内にあることがどの程度明らかであるか、およびシラブルがセンテンス内にあることがどの程度明らかであるかを示す情報から判断される。したがってこの要素を使用して、所定のシラブルを時間内にどの程度多く押込むことができるかを判断する。特徴要素 Sal_j（ｊ番目のシラブル）は０乃至１００の範囲を有すると仮定される。０の特徴要素はシラブルを最小の音長にＳｙｌ_j.minに押込むことができることを示し、一方で１００の特徴要素は最大の音長Ｓｙｌ_j,maxを有することを示している。したがって修正した最大音長は次のように算出される。Ｓｙｌ´_j,min＝Ｓｙｌ_j,min＋（Ｓｙｌ_j,max−Ｓｙｌ_j,min）Ｓａｌ_j／１００（３）ビート期間Ｔが修正した最小音長および最大音長によって定められる範囲内にあるときはこれを使用し、そうでないときは修正した最小の音長または最大の音長を使用して所望の音長Ｓｙｌ_j,cを計算する。Ｔ＜Ｓｙｌ´_j,minであるとき、Ｓｙｌ_j,c＝Ｓｙｌ´_j,minである。さもなければ、Ｔ＜Ｓｙｌ´_j,maxであるとき、Ｓｙｌ_j,c＝Ｓｙｌ_j,maxである。さもなければ、Ｓｙｌ_j,c＝Ｔである。（４）シラブルの音長を判断するとき、シラブル内の個々のフォニームの音長が判断されるはずである。これは、最頻数音長の相対的な重み付けにしたがって有効時間Ｓｙｌ_j,cをＬのフォニーム間で割当てることによって達成される。 −第１に、シラブルの比ｒ₁は１番目のフォニームによって占められることが分かる。次の式からｊ番目のシラブルの１番目の算出された音長が得られる。Ｐ_i(1),c＝ｒ₁・Ｓｙｌ_j.c 一般的に、人は一定の速度で話しをしない。とくに、多数の単語を含む発話(u tterance)は、小数の単語を含む発話よりも速い。したがって、本発明の好ましい実施形態では、問題となっているフォニームを含む主フレーズの長さに依存してフォニームの音長Ｐ_i(r)cに対してさらに修正を加える。この修正を計算するとき、フォニームの音長の増減率を、７つのシラブルでカットオフをもつ主フレーズ内のシラブル数の簡単な線形関数として算出する。主フレーズの中に１つだけのシラブルがあるときに、フォニームの音長の増加率は最大であり、この修正ではシラブル数が７に増加するまで線形に減少する。主フレーズに含まれるフォニームの音長へ加えられる修正は、主フレーズが７より多くのシラブルを有していても、７のシラブルを有するものと同じやり方で行なわれる。ある状況では、７よりも多いかまたは少ないシラブルで分割する分割点が好ましいことが分かることもある。加えて、非線形関数から主フレーズ内のシラブル数と主フレーズ内のシラブルの音長との関係のより良いモデルを得られることが分かる。さらに、主フレーズ以外の単語群を使用することもできる。フォニームの音長が算出されると（好ましい実施形態の場合は、修正されると）、次にユニット６から各フォニームごとに対応する波形セグメントを実現ユニット10が受取り、その長さを調節して、オーバーラップおよび加算方法を使用して算出した（および、修正する場合もある）音長に対応させる。これは言語波形セグメントの長さを調節する既知の方法であり、これによって言語のピッチ期間に対応する部分はオーバーラッピング窓関数を使用して分割され、（発声した言語に関して）ピッチマーク（データベース７に波形それ自身と一緒に記憶されている）と同期し、ピッチマークは元の話者の声門励起(glottal excitation)に対応している。これらの部分を削除することによって、または場合によってはこれらの部分を付加して元に戻す前にこれらの部分を反復することによって音長を増減させるのは簡単なことである。オーバーラップ−加算処理で、１つのフォニームを次のフォニームと連結させることもできる。すなわち所望であれば、これに我々の同時出願の欧州特許出願第95302474.2号明細書に記載した改良したオーバーラップ−加算方法を使用することもできる。代りに、本発明の好ましい実施形態に対して記載された修正を使用して、シラブルの音長を計算せずにフォニームの最頻数音長を得ることができる。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＺ，ＵＧ)，ＵＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＥ，ＨＵ，ＩＬ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ

Claims

【特許請求の範囲】１．フォネティックユニットの表示のシーケンスを供給する手段と、データの記憶した部分を検索して、フォネティックユニットに対応する波形を発生する手段と、フォネティックユニットの音長を判断する手段と、データの一部分を処理して、判断された音長にしたがって波形の時間的継続期間を調節する手段とを含み、判断手段が規則正しいビート期間に対応する一定の音長を定め、シーケンス内のフォネティックユニットおよび／またはその前後関係の特色に依存して音長を調節するように動作する言語合成器。２．前記シーケンス内で単語群を識別する手段とをさらに含み、判断手段がさらに、対応する単語群内に含まれるフォネティックユニット数に依存してフォネティックユニットに対する前記音長を調節する請求項１記載の言語合成器。３．前記単語群が主フレーズである請求項２記載の言語合成器。４．フォネティックユニットがシラブルである請求項１乃至３の何れか１項記載の言語合成器。５．音声サブユニットに対応する波形を表わすデータ項目を含むメモリ、各フォネティックユニットにおいて音声サブユニットに対応する１以上のデータ部分を検索する検索手段、および各サブユニットにおいて最大値および最小値を含む統計的音長データを含む別のメモリを含み、判断手段が、各フォネティックユニットにおいてその構成構成のサブユニットの最小音長値の和と最大音長値の和とを計算し、前記一定の音長を調節し、この一定の音長が最小値の和よりも小さくなったり、または最大値の和よりも大きくなったりしないように動作する請求項１乃至４の何れか１項記載の言語合成器。６．サブユニットがフォニームである請求項５記載の言語合成器。７．判断手段が前記一定の音長の値を調節するように動作して、前記一定の音長値が修正した最小値より小さくならず、前記一定の音長値がこの最小値よりもフォネティックユニットの前後関係によって判断される範囲だけ大きい請求項５または６記載の言語合成器。８．統計的音長データが各サブユニットの中心値を含んでおり、フォネティックユニットの各サブユニットを音長に割当てる手段において、この音長がフォネティックユニットの調節された一定の値の一部であり、このサブユニットの中心値と、フォネティックユニットの構成要素のサブユニットの中心値の和との比に比例する手段を具備する請求項５乃至７の何れか１項記載の言語合成器。９．処理手段がその動作において、オーバーラップ−加算方法を使用して波形部分の音長を調節するように構成されている請求項１乃至８の何れか１項記載の言語合成器。１０．添付の図面を引用し、それに図示されているように実質的に記載された言語合成器。１１．フォネティックユニットの表示のシーケンスを供給する手段と、記憶したデータ部分を検索して、フォネティックユニットに対応する波形を発生する手段と、前記シーケンス内の単語群を識別する手段と、フォネティックユニットを含む単語群内のフォネティックユニット数に依存してフォネティックユニットの音長を判断する手段と、データの一部分を処理して、判断した音長にしたがって波形の時間的音長を調節する手段とを含む言語合成器。１２．前記単語群が主フレーズである請求項１１記載の言語合成器。１３．フォネティックユニットがシラブルである請求項１１または１２記載の言語合成器。