JPH06167989A - 音声合成装置 - Google Patents
音声合成装置Info
- Publication number
- JPH06167989A JPH06167989A JP4321626A JP32162692A JPH06167989A JP H06167989 A JPH06167989 A JP H06167989A JP 4321626 A JP4321626 A JP 4321626A JP 32162692 A JP32162692 A JP 32162692A JP H06167989 A JPH06167989 A JP H06167989A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- character string
- synthesis
- phoneme
- synthesis unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【目的】 高品質で任意性の高い音声合成方法を実現す
る。 【構成】 入力文字列に対して適当な文字列及び韻律パ
ラメータを有する合成単位を選択し、該合成単位を接続
して、音声合成を行う音声合成装置において、大量の合
成単位中から適当な合成単位を決定する際に、文字情報
から文字列の各音素表記に重み付けを行う重み関数生成
部303と、照合する音素表記間の類似度を評価するた
めにケプストラム距離等を基に設定された音素間評価値
テーブルと、当該重み関数と音素間評価値の双方を用い
て合成単位に評価ポイントを決定する評価ポイント算出
部305とを有し、各文字の評価値と文字列の重みを用
いて完全に一致する文字列及び検索文字列に類似する文
字列を検索する辞書内データ探索部206を備えた。
る。 【構成】 入力文字列に対して適当な文字列及び韻律パ
ラメータを有する合成単位を選択し、該合成単位を接続
して、音声合成を行う音声合成装置において、大量の合
成単位中から適当な合成単位を決定する際に、文字情報
から文字列の各音素表記に重み付けを行う重み関数生成
部303と、照合する音素表記間の類似度を評価するた
めにケプストラム距離等を基に設定された音素間評価値
テーブルと、当該重み関数と音素間評価値の双方を用い
て合成単位に評価ポイントを決定する評価ポイント算出
部305とを有し、各文字の評価値と文字列の重みを用
いて完全に一致する文字列及び検索文字列に類似する文
字列を検索する辞書内データ探索部206を備えた。
Description
【0001】
【産業上の利用分野】本発明は、大量の音声データとラ
ベル情報を有するデータベース等の中から所望の文字列
及び類似文字列を検索し評価する手段を有する音声合成
装置に関し、特に、発声様式の類似性を考慮した音声の
規則合成方式における合成単位検索装置に関するもので
ある。
ベル情報を有するデータベース等の中から所望の文字列
及び類似文字列を検索し評価する手段を有する音声合成
装置に関し、特に、発声様式の類似性を考慮した音声の
規則合成方式における合成単位検索装置に関するもので
ある。
【0002】また、誤り傾向を評価値として用い、重み
関数とともに文章中の綴り誤りの検出等に適用すること
が可能な文字列検索装置に関するものである。
関数とともに文章中の綴り誤りの検出等に適用すること
が可能な文字列検索装置に関するものである。
【0003】
【従来の技術】従来の音声合成装置の規則合成方式にお
いては、合成に用いる合成単位は文字列に対して一意に
決定され、長いレンジでの音韻環境の類似性を考慮して
いない。
いては、合成に用いる合成単位は文字列に対して一意に
決定され、長いレンジでの音韻環境の類似性を考慮して
いない。
【0004】また、パラメータ量を少なくするためにC
V・VC,CVC,VCV等(Vはvowel(母音)Cはc
onsonant(子音))の短い単位で蓄積されているため、
合成音声の連続性(自然性)が自然音声に比べて劣る。
また、録音編集合成においては、予め接続できる合成単
位のパターンが決定されるため、合成できる音声の自由
度が低いことが指摘される。また、音素単位での録音編
集合成では、自由度が高くかなり良質の音声が得られる
が、適当な合成単位を選択する手段が複雑である。
V・VC,CVC,VCV等(Vはvowel(母音)Cはc
onsonant(子音))の短い単位で蓄積されているため、
合成音声の連続性(自然性)が自然音声に比べて劣る。
また、録音編集合成においては、予め接続できる合成単
位のパターンが決定されるため、合成できる音声の自由
度が低いことが指摘される。また、音素単位での録音編
集合成では、自由度が高くかなり良質の音声が得られる
が、適当な合成単位を選択する手段が複雑である。
【0005】従来の合成単位選択方式に関する方式につ
いては、例えば、「広川,箱田,中津、波形編集型規則
合成法における波形選択法、1990年1月、電子情報
通信学会技術研究報告 SP89−114」において開
示されている。
いては、例えば、「広川,箱田,中津、波形編集型規則
合成法における波形選択法、1990年1月、電子情報
通信学会技術研究報告 SP89−114」において開
示されている。
【0006】
【発明が解決しようとする課題】しかしながら、前記従
来の技術では、音韻環境によって一意に合成パラメータ
が決定されるので、高品質で任意性の高い音声合成方法
を実現することは難しいという問題があった。また、合
成パラメータをCV・VC等の全ての同一パターンで保
持する必要があるという問題があった。
来の技術では、音韻環境によって一意に合成パラメータ
が決定されるので、高品質で任意性の高い音声合成方法
を実現することは難しいという問題があった。また、合
成パラメータをCV・VC等の全ての同一パターンで保
持する必要があるという問題があった。
【0007】本発明は、前記問題点を解決するためにな
されたものであり、本発明の目的は、高品質で任意性の
高い音声合成方法を実現することが可能な技術を提出す
ることにある。
されたものであり、本発明の目的は、高品質で任意性の
高い音声合成方法を実現することが可能な技術を提出す
ることにある。
【0008】本発明の前記ならびにその他の目的及び新
規な特徴は、本明細書の記述及び添付図面によって明ら
かにする。
規な特徴は、本明細書の記述及び添付図面によって明ら
かにする。
【0009】
【課題を解決するための手段】前記目的を達成するため
に、本発明は、入力されたかな漢字混じりの文字列を単
語単位又はアクセント句に区切り、該単語単位又はアク
セント句の規則により韻律形状を付与し、単語単位に区
切られたかな漢字文字をかな漢字表記の1文字単位まで
解析し、該解析結果にローマ字による音素表記を付与し
て合成単位とし、かな漢字表記とローマ字表記を基に、
韻律情報及び文字列情報が付加された大量の音声データ
から、入力文字列に対して適当な文字列及び韻律パラメ
ータを有する合成単位を選択し、該合成単位を接続し
て、音声合成を行う音声合成装置において、大量の合成
単位中から適当な合成単位を決定する際に、文字情報か
ら文字列の各音素表記に重み付けを行う重み関数生成部
と、照合する音素表記間の類似度を評価するためにケプ
ストラム距離等を基に設定された音素間評価値テーブル
と、該重み関数と音素間評価値の双方を用いて合成単位
に評価ポイントを決定する評価ポイント算出部と、各文
字の評価値と文字列の重みを用いて完全に一致する文字
列及び検索文字列に類似する文字列を検索する辞書内デ
ータ探索部を備えたことを特徴とする。
に、本発明は、入力されたかな漢字混じりの文字列を単
語単位又はアクセント句に区切り、該単語単位又はアク
セント句の規則により韻律形状を付与し、単語単位に区
切られたかな漢字文字をかな漢字表記の1文字単位まで
解析し、該解析結果にローマ字による音素表記を付与し
て合成単位とし、かな漢字表記とローマ字表記を基に、
韻律情報及び文字列情報が付加された大量の音声データ
から、入力文字列に対して適当な文字列及び韻律パラメ
ータを有する合成単位を選択し、該合成単位を接続し
て、音声合成を行う音声合成装置において、大量の合成
単位中から適当な合成単位を決定する際に、文字情報か
ら文字列の各音素表記に重み付けを行う重み関数生成部
と、照合する音素表記間の類似度を評価するためにケプ
ストラム距離等を基に設定された音素間評価値テーブル
と、該重み関数と音素間評価値の双方を用いて合成単位
に評価ポイントを決定する評価ポイント算出部と、各文
字の評価値と文字列の重みを用いて完全に一致する文字
列及び検索文字列に類似する文字列を検索する辞書内デ
ータ探索部を備えたことを特徴とする。
【0010】
【作用】前述の手段によれば、合成単位選択のために重
み関数及び音素間評価値を用い、前記重み関数は、完全
一致領域及び類似度評価領域を有し、類似度評価領域に
おいて音素間の発声様式の類似性を反映することができ
る。
み関数及び音素間評価値を用い、前記重み関数は、完全
一致領域及び類似度評価領域を有し、類似度評価領域に
おいて音素間の発声様式の類似性を反映することができ
る。
【0011】また、重み関数により合成単位近傍の音素
類似性に重点を置いて評価し、接続される合成単位間の
連続性を保ち、合成単位間のパラメータ内挿等を極力押
さえることができる。
類似性に重点を置いて評価し、接続される合成単位間の
連続性を保ち、合成単位間のパラメータ内挿等を極力押
さえることができる。
【0012】また、該音素間評価値は、発声様式の類似
性を表現することが可能となるように、ケプストラム
(音声認識などに有効)の低次の項を用いた距離計算結
果により実現する発声様式を加味し、比較的単純な検索
方法を用いることにより、システム等が持つ合成単位の
中から音声合成に適したものを選択し、しかも、姓名等
の任意性の高い音声合成を実現することができる。
性を表現することが可能となるように、ケプストラム
(音声認識などに有効)の低次の項を用いた距離計算結
果により実現する発声様式を加味し、比較的単純な検索
方法を用いることにより、システム等が持つ合成単位の
中から音声合成に適したものを選択し、しかも、姓名等
の任意性の高い音声合成を実現することができる。
【0013】
【実施例】以下、本発明の一実施例を図面に基づいて詳
細に説明する。
細に説明する。
【0014】図10は、本発明の音声合成原理を説明す
るための図であり、Aは合成単位蓄積部の内容構成、B
は合成音声文字列である。図10においては、保持して
いる合成単位中から音の一致するものを選び出し、韻律
情報等を基に選択された結果、合成に用いる合成単位を
決定する際の概念を示している。
るための図であり、Aは合成単位蓄積部の内容構成、B
は合成音声文字列である。図10においては、保持して
いる合成単位中から音の一致するものを選び出し、韻律
情報等を基に選択された結果、合成に用いる合成単位を
決定する際の概念を示している。
【0015】本発明の音声合成は、図10に示すよう
に、発声された音声を音響的分析パラメータ、またはP
CM(pulsecode modulation)データとして保持し、ま
た、保持した音声を記述するかな漢字文字列、ローマ字
表記文字列、発声された音声の韻律情報及び本発明で規
定する合成単位毎で時間情報(ラベル情報)を持ち、後
に規定する合成単位番号により他の合成単位と区別す
る。
に、発声された音声を音響的分析パラメータ、またはP
CM(pulsecode modulation)データとして保持し、ま
た、保持した音声を記述するかな漢字文字列、ローマ字
表記文字列、発声された音声の韻律情報及び本発明で規
定する合成単位毎で時間情報(ラベル情報)を持ち、後
に規定する合成単位番号により他の合成単位と区別す
る。
【0016】音声合成を行いたい任意の漢字文字列が入
力されたとき、合成するのに適当な合成単位を決定し、
該合成単位を接続することにより音声合成を実現する。
合成単位を決定するには、入力された文字列をテキスト
解析辞書等により解析しアクセント句に韻律形状を辞書
的に設定する。
力されたとき、合成するのに適当な合成単位を決定し、
該合成単位を接続することにより音声合成を実現する。
合成単位を決定するには、入力された文字列をテキスト
解析辞書等により解析しアクセント句に韻律形状を辞書
的に設定する。
【0017】また、解析結果を更に分解することにより
合成単位のかな漢字表記及びローマ字表記を決定し、ロ
ーマ字表記が一致する合成単位、つまり音が一致する合
成単位を検索し、全ての合成単位中から候補たる合成単
位に評価ポイントを与える。該評価ポイントと先に決定
した韻律形状を基に合成単位候補中から必要な合成単位
を決定する。ここで、決定された合成単位を内挿等によ
り合成単位境界を滑らかに接続することにより合成パラ
メータを生成する。
合成単位のかな漢字表記及びローマ字表記を決定し、ロ
ーマ字表記が一致する合成単位、つまり音が一致する合
成単位を検索し、全ての合成単位中から候補たる合成単
位に評価ポイントを与える。該評価ポイントと先に決定
した韻律形状を基に合成単位候補中から必要な合成単位
を決定する。ここで、決定された合成単位を内挿等によ
り合成単位境界を滑らかに接続することにより合成パラ
メータを生成する。
【0018】図1は、本発明の音声合成単位選択方式を
用いた音声合成装置の一実施例の概略構成を示すブロッ
ク構成図であり、図2は、本実施例の音声合成装置の機
能を示すブロック構成図である。
用いた音声合成装置の一実施例の概略構成を示すブロッ
ク構成図であり、図2は、本実施例の音声合成装置の機
能を示すブロック構成図である。
【0019】本実施例の音声合成装置は、図1に示すよ
うに、中央演算処理装置(CPU)からなる装置本体1
1に、文字列を入力する入力装置12と、入力された文
字列を表示するディスプレイ13と、合成音声を出力す
るスピーカ14がそれぞれ接続されている。
うに、中央演算処理装置(CPU)からなる装置本体1
1に、文字列を入力する入力装置12と、入力された文
字列を表示するディスプレイ13と、合成音声を出力す
るスピーカ14がそれぞれ接続されている。
【0020】前記装置本体11は、図2に示すように、
かな漢字文字列を入力する入力端子201と、入力文字
列を解析する文字列解析部202と、テキストを解析す
るためのテキスト解析用辞書部203と、解析された文
字列に韻律付与部204と、本発明の特徴とする合成単
位を決定するための文字列分解部205と、当該合成単
位文字列から音声セグメントをテキスト解析用辞書部2
03内から検索する辞書内データ探索(検索)部206
と、合成単位データと該合成単位の韻律情報と検索効率
を向上するためのテーブルを蓄積する合成単位蓄積部
(合成単位データベース部)207と、合成単位の文字
列レベルの適合ポイントと韻律情報から合成に用いる合
成単位を決定する合成単位決定部208と、当該合成単
位を滑らかに接続するためのデータ内挿を行うための合
成単位接続部209と、フィルタリング処理等を行う音
声出力部210と、出力端子211により構成されてい
る。
かな漢字文字列を入力する入力端子201と、入力文字
列を解析する文字列解析部202と、テキストを解析す
るためのテキスト解析用辞書部203と、解析された文
字列に韻律付与部204と、本発明の特徴とする合成単
位を決定するための文字列分解部205と、当該合成単
位文字列から音声セグメントをテキスト解析用辞書部2
03内から検索する辞書内データ探索(検索)部206
と、合成単位データと該合成単位の韻律情報と検索効率
を向上するためのテーブルを蓄積する合成単位蓄積部
(合成単位データベース部)207と、合成単位の文字
列レベルの適合ポイントと韻律情報から合成に用いる合
成単位を決定する合成単位決定部208と、当該合成単
位を滑らかに接続するためのデータ内挿を行うための合
成単位接続部209と、フィルタリング処理等を行う音
声出力部210と、出力端子211により構成されてい
る。
【0021】次に、本実施例の音声合成装置の動作を説
明する。
明する。
【0022】まず、入力端子201からかな漢字文字列
が文字列解析部202に入力されると、文字列解析部2
02ではテキスト解析用辞書部203に格納されている
解析辞書を用い、入力文字列を単語単位に分解し単語境
界を設定する。
が文字列解析部202に入力されると、文字列解析部2
02ではテキスト解析用辞書部203に格納されている
解析辞書を用い、入力文字列を単語単位に分解し単語境
界を設定する。
【0023】次に、韻律付与部204において、各単語
及び文章に対し、ピッチパターン及び継続時間長等の韻
律情報を単語情報等から与え合成単位決定部208へ出
力する。一方、文字列分解部205においては、文字列
解析部202で単語レベルにまで分解された文字列を更
に合成単位のレベルまで分解を行う。更に合成単位を検
索するために、かな漢字文字列に対応するローマ字表記
等の付加情報を生成し、辞書内データ探索部206に出
力する。
及び文章に対し、ピッチパターン及び継続時間長等の韻
律情報を単語情報等から与え合成単位決定部208へ出
力する。一方、文字列分解部205においては、文字列
解析部202で単語レベルにまで分解された文字列を更
に合成単位のレベルまで分解を行う。更に合成単位を検
索するために、かな漢字文字列に対応するローマ字表記
等の付加情報を生成し、辞書内データ探索部206に出
力する。
【0024】辞書内データ探索部206では、付加情報
を利用して検索文字列を生成し、検索文字列に対する重
み関数と、予め音素間のケプストラム距離(d)を基に
生成された評価値(e)から合成単位蓄積部207中の
対象となる合成単位を評価する。該評価結果を評価ポイ
ント(P)と称し、合成単位候補テーブルに合成単位番
号及び対応する評価ポイント(P)として書き込む。ま
た、前記候補テーブルの合成単位対応タグに入力文字列
(解析結果)との対応情報を書き込む。
を利用して検索文字列を生成し、検索文字列に対する重
み関数と、予め音素間のケプストラム距離(d)を基に
生成された評価値(e)から合成単位蓄積部207中の
対象となる合成単位を評価する。該評価結果を評価ポイ
ント(P)と称し、合成単位候補テーブルに合成単位番
号及び対応する評価ポイント(P)として書き込む。ま
た、前記候補テーブルの合成単位対応タグに入力文字列
(解析結果)との対応情報を書き込む。
【0025】前記合成単位に評価ポイントを与える処理
を入力文字列全てに対して同様に繰り返し、文字列分解
部205で解析された各合成単位全てに対して処理を終
了したところで合成単位候補テーブルを合成単位決定部
208に出力する。合成単位決定部208では、入力さ
れた文字列の韻律情報と合成単位候補テーブルを基に最
適な合成単位を1つ選択し、文字列全てに対する合成単
位を決定する。
を入力文字列全てに対して同様に繰り返し、文字列分解
部205で解析された各合成単位全てに対して処理を終
了したところで合成単位候補テーブルを合成単位決定部
208に出力する。合成単位決定部208では、入力さ
れた文字列の韻律情報と合成単位候補テーブルを基に最
適な合成単位を1つ選択し、文字列全てに対する合成単
位を決定する。
【0026】合成単位接続部209では、合成単位決定
部208において決定された合成単位間で、隣り合う合
成単位が滑らかに接続することを目的とし、合成パラメ
ータの内挿及び間引き等の処理を行い、音声出力部21
0へ出力する。音声出力部210では接続されたパラメ
ータを合成フィルター又はディジタル・アナログ変換器
を通し出力端子211へ出力する。
部208において決定された合成単位間で、隣り合う合
成単位が滑らかに接続することを目的とし、合成パラメ
ータの内挿及び間引き等の処理を行い、音声出力部21
0へ出力する。音声出力部210では接続されたパラメ
ータを合成フィルター又はディジタル・アナログ変換器
を通し出力端子211へ出力する。
【0027】次に、前記辞書内データ探索部206につ
いて図3を用いて説明する。
いて図3を用いて説明する。
【0028】図3は、本実施例の辞書内データ探索部2
06の機能を示すブロック構成図である。
06の機能を示すブロック構成図である。
【0029】本実施例の辞書内データ探索部206(3
01)は、図3に示すように、検索文字列生成を行う検
索文字列生成部302、重み関数生成部303、辞書内
探索範囲しぼり込み部304、候補セグメントの評価ポ
イント算出部305、候補テーブルへ書き込み部306
で構成されている。図3において、307は合成単位候
補テーブル、308は合成単位対応タブ情報部、309
は合成単位番号フィールド部、310は評価ポイント
(P)フィールド部である。
01)は、図3に示すように、検索文字列生成を行う検
索文字列生成部302、重み関数生成部303、辞書内
探索範囲しぼり込み部304、候補セグメントの評価ポ
イント算出部305、候補テーブルへ書き込み部306
で構成されている。図3において、307は合成単位候
補テーブル、308は合成単位対応タブ情報部、309
は合成単位番号フィールド部、310は評価ポイント
(P)フィールド部である。
【0030】本実施例の辞書内データ探索部301にお
いては、文字列分解部205で送出される合成単位境界
情報及びローマ字列が入力され、検索文字列生成部30
2で検索文字列生成を行う。検索文字列生成部302で
は、入力されたかな漢字文字列の1文字と対応している
合成単位を完全一致領域とする。
いては、文字列分解部205で送出される合成単位境界
情報及びローマ字列が入力され、検索文字列生成部30
2で検索文字列生成を行う。検索文字列生成部302で
は、入力されたかな漢字文字列の1文字と対応している
合成単位を完全一致領域とする。
【0031】この検索文字列生成部302の完全一致領
域は、実際に重みを与えるローマ字表記の数では可変長
(D’)である。当該完全一致領域の前後に、発声様式
の類似性を評価するために類似検索領域を設け、合成単
位接続を行う際のスペクトル連続性を考慮する。この類
似検索領域は、完了一致領域の前後で一致判定領域長を
対称にする必要はなく、ローマ字表記による1音素を中
心からの距離(K)とし、重み関数生成部303で本発
明の特徴とする重み生成式により類似判定領域での重み
(W)を決定する。ここで生成された重み関数及び文字
列情報を辞書内探索範囲しぼり込み部304へ送出す
る。辞書内探索範囲しぼり込み部304では、完全一致
領域の合成単位の種類により合成単位蓄積部207に記
憶されている探索範囲しぼり込みテーブル207Aを参
照し、データベースの持つ合成単位内から評価ポイント
(P)を算出する範囲を決定し、候補セグメントの評価
ポイント算出部305に出力する。候補合成単位の評価
ポイント算出部305では、与えられた探索範囲内全て
の合成単位に対し評価ポイント(P)を算出し、この評
価ポイント計算結果を、合成単位番号と共に合成単位候
補テーブル307へ出力する。該合成単位候補テーブル
307には、合成文字列と対応する合成単位を表すタグ
を持っており該合成単位候補テーブル307と合成単位
を表す文字列との対応が付けられている。
域は、実際に重みを与えるローマ字表記の数では可変長
(D’)である。当該完全一致領域の前後に、発声様式
の類似性を評価するために類似検索領域を設け、合成単
位接続を行う際のスペクトル連続性を考慮する。この類
似検索領域は、完了一致領域の前後で一致判定領域長を
対称にする必要はなく、ローマ字表記による1音素を中
心からの距離(K)とし、重み関数生成部303で本発
明の特徴とする重み生成式により類似判定領域での重み
(W)を決定する。ここで生成された重み関数及び文字
列情報を辞書内探索範囲しぼり込み部304へ送出す
る。辞書内探索範囲しぼり込み部304では、完全一致
領域の合成単位の種類により合成単位蓄積部207に記
憶されている探索範囲しぼり込みテーブル207Aを参
照し、データベースの持つ合成単位内から評価ポイント
(P)を算出する範囲を決定し、候補セグメントの評価
ポイント算出部305に出力する。候補合成単位の評価
ポイント算出部305では、与えられた探索範囲内全て
の合成単位に対し評価ポイント(P)を算出し、この評
価ポイント計算結果を、合成単位番号と共に合成単位候
補テーブル307へ出力する。該合成単位候補テーブル
307には、合成文字列と対応する合成単位を表すタグ
を持っており該合成単位候補テーブル307と合成単位
を表す文字列との対応が付けられている。
【0032】次に、本実施例における合成単位音声デー
タ蓄積方法について図4及び図5を用いて説明する。
タ蓄積方法について図4及び図5を用いて説明する。
【0033】図4は、本実施例の音声の合成単位境界付
与を説明するための図であり、400はセグメント領
域、401は合成単位番号情報、402は漢字表記情
報、403はローマ字表記情報、404は音声波形であ
る。PAUは、文章中のポーズを意味し、PAUに関し
ては時間長を有する音素として扱うものとする。
与を説明するための図であり、400はセグメント領
域、401は合成単位番号情報、402は漢字表記情
報、403はローマ字表記情報、404は音声波形であ
る。PAUは、文章中のポーズを意味し、PAUに関し
ては時間長を有する音素として扱うものとする。
【0034】図5は、本実施例の合成単位情報テーブル
を説明するための図である。
を説明するための図である。
【0035】図4に示すように、視察等により音声波形
を本発明で規定する合成単位にセグメントを行う。この
際、文章中のポーズにおいても1音素として扱うものと
する。
を本発明で規定する合成単位にセグメントを行う。この
際、文章中のポーズにおいても1音素として扱うものと
する。
【0036】セグメント領域400には、合成単位番号
情報401、漢字表記情報402、ローマ字表記情報4
03等が付与される。
情報401、漢字表記情報402、ローマ字表記情報4
03等が付与される。
【0037】本実施例では、これらの合成単位を蓄積す
るための合成単位蓄積部207を有し、この合成単位蓄
積部207には、探索範囲しぼり込みテーブル207
A、合成単位情報テーブル207B及び実データ部20
7Cが格納されている。実データ部207Cでは、前述
の音声波形404を音響分析により得られたパラメー
タ、またはPCM等の音声を復元できる特徴量により表
現されたデータを蓄積し、同時に各合成単位の先頭を表
すポインタアドレスを合成単位テーブルに記述する。
るための合成単位蓄積部207を有し、この合成単位蓄
積部207には、探索範囲しぼり込みテーブル207
A、合成単位情報テーブル207B及び実データ部20
7Cが格納されている。実データ部207Cでは、前述
の音声波形404を音響分析により得られたパラメー
タ、またはPCM等の音声を復元できる特徴量により表
現されたデータを蓄積し、同時に各合成単位の先頭を表
すポインタアドレスを合成単位テーブルに記述する。
【0038】また、図5に示す合成単位情報テーブル2
07Bでは、図4のようにして決定された各合成単位に
唯一の合成単位番号情報401、漢字表記情報402、
ローマ字表記情報403、合成単位の継続時間長情報、
合成単位区間平均パワー、振幅形状情報、基本周波数形
状パターン情報、等を記述する。該合成単位番号情報4
01においては、上位桁に文章番号、下位桁にシリアル
番号を付与することで、合成単位の連続性を表現する。
前記検索文字列生成部302では、該文章番号情報及び
シリアル番号を元に合成単位の前後の音韻系列を判断す
ることを可能とする。
07Bでは、図4のようにして決定された各合成単位に
唯一の合成単位番号情報401、漢字表記情報402、
ローマ字表記情報403、合成単位の継続時間長情報、
合成単位区間平均パワー、振幅形状情報、基本周波数形
状パターン情報、等を記述する。該合成単位番号情報4
01においては、上位桁に文章番号、下位桁にシリアル
番号を付与することで、合成単位の連続性を表現する。
前記検索文字列生成部302では、該文章番号情報及び
シリアル番号を元に合成単位の前後の音韻系列を判断す
ることを可能とする。
【0039】次に、本実施例における重み関数の生成方
法について図6を用いて説明する。
法について図6を用いて説明する。
【0040】図6は、本実施例の重み関数の生成方法を
説明するための図であり、601は重み関数、602は
類似検索領域、603は完全一致領域、604は完全一
致領域定数(D)、605は位置表示軸(K)、606
は重み軸(W)、607は重み決定一般式である。
説明するための図であり、601は重み関数、602は
類似検索領域、603は完全一致領域、604は完全一
致領域定数(D)、605は位置表示軸(K)、606
は重み軸(W)、607は重み決定一般式である。
【0041】重み関数601においては、完全一致領域
603の重みを1.0とし、完全一致領域603に該当
する合成単位が含む音素数をD’としたとき重み決定一
般式607におけるDの値は、次式、D=(D’−1)
/2で規定する、重み決定一般式607のMは類似領域
の対象方向数により規定され、本実施例の場合、完全一
致領域603の前後つまり2方向であるからM=2とな
る。重み関数601は、左右対称形である必要はなく、
類似度判定領域中で完全一致領域603により近い音韻
系列の一致状況を重視するものであり、発声様式の等価
性を重視するために、後述する図8及び図9で示す方法
によって算出される音素間距離による評価値を導入して
いる。
603の重みを1.0とし、完全一致領域603に該当
する合成単位が含む音素数をD’としたとき重み決定一
般式607におけるDの値は、次式、D=(D’−1)
/2で規定する、重み決定一般式607のMは類似領域
の対象方向数により規定され、本実施例の場合、完全一
致領域603の前後つまり2方向であるからM=2とな
る。重み関数601は、左右対称形である必要はなく、
類似度判定領域中で完全一致領域603により近い音韻
系列の一致状況を重視するものであり、発声様式の等価
性を重視するために、後述する図8及び図9で示す方法
によって算出される音素間距離による評価値を導入して
いる。
【0042】次に、本実施例における評価ポイント計算
方法について図7を用いて説明する。
方法について図7を用いて説明する。
【0043】図7は、本実施例の重み関数生成及びポイ
ント計算方法を説明するための図であり、図7の(a)
はポイント計算例を示す図、図7の(b)は評価ポイン
ト計算式(式701)、図7の(c)は評価ポイント計
算例(グラフ)である。
ント計算方法を説明するための図であり、図7の(a)
はポイント計算例を示す図、図7の(b)は評価ポイン
ト計算式(式701)、図7の(c)は評価ポイント計
算例(グラフ)である。
【0044】本実施例では、評価ポイントをPとし、評
価値と重み関数で得られる値の積を類似度検索領域及び
完全一致領域の全ての音素についての和で定義し、式7
01のように例示される。音素表記において、図7中の
“#”は、文頭文字前もしくは、文末以後つまり無音区
間を意味する。図7の例では、検索する文字列/##a
rata/に対し辞書中に/##arashi/という
合成単位を評価する場合の評価ポイントを計算する例で
ある。この例では、/ara/が完全一致領域であり、
該完全一致領域が文頭であるため、/#/が付与されて
いる。
価値と重み関数で得られる値の積を類似度検索領域及び
完全一致領域の全ての音素についての和で定義し、式7
01のように例示される。音素表記において、図7中の
“#”は、文頭文字前もしくは、文末以後つまり無音区
間を意味する。図7の例では、検索する文字列/##a
rata/に対し辞書中に/##arashi/という
合成単位を評価する場合の評価ポイントを計算する例で
ある。この例では、/ara/が完全一致領域であり、
該完全一致領域が文頭であるため、/#/が付与されて
いる。
【0045】また、類似度判定領域を2音素分と設定し
ている。図7中のE1は、検索対象と合成単位が一致し
ているため実際には1.0である。また、E2は、/t
/と/sh/、E3は/a/と/i/のそれぞれケプス
トラム距離を0から1の間に正規化した値である。
ている。図7中のE1は、検索対象と合成単位が一致し
ているため実際には1.0である。また、E2は、/t
/と/sh/、E3は/a/と/i/のそれぞれケプス
トラム距離を0から1の間に正規化した値である。
【0046】また、Wn(n=1,2)は、図7中のグ
ラフに示される重み関数によるものである。重み関数
は、図6によるものである。このようにして得られた値
を、図7中の式701のように適用し評価ポイントを算
出し、合成単位候補テーブル307に書き込む。
ラフに示される重み関数によるものである。重み関数
は、図6によるものである。このようにして得られた値
を、図7中の式701のように適用し評価ポイントを算
出し、合成単位候補テーブル307に書き込む。
【0047】次に、本実施例のケプストラム距離テーブ
ル及び評価値テーブルについて図8及び図9を用いて説
明する。
ル及び評価値テーブルについて図8及び図9を用いて説
明する。
【0048】図8は、本実施例のケプストラム距離テー
ブルを説明するための図であり、801は音素間距離テ
ーブルの構成を示す図である。図9は、本実施例の音素
間距離評価値テーブルを説明するための図であり、
(a)は音素間距離評価値を算出する計算式(式90
1)、(b)は音素間距離評価値テーブル(902)の
構成を示す図である。
ブルを説明するための図であり、801は音素間距離テ
ーブルの構成を示す図である。図9は、本実施例の音素
間距離評価値テーブルを説明するための図であり、
(a)は音素間距離評価値を算出する計算式(式90
1)、(b)は音素間距離評価値テーブル(902)の
構成を示す図である。
【0049】合成単位蓄積部207に含まれる全ての音
素において、ケプストラムを分析し該ケプストラムの低
次項を用いて各音素間全てのケプストラム距離を計算し
て得られた結果をマトリクスで示したものが図8であ
る。
素において、ケプストラムを分析し該ケプストラムの低
次項を用いて各音素間全てのケプストラム距離を計算し
て得られた結果をマトリクスで示したものが図8であ
る。
【0050】音声をケプストラム分析を行った場合、そ
の低次の項に声道モデルが、また、高次には声帯音源波
モデルを特徴付けるパラメータが得られ、前者は音声認
識に、後者はピッチ抽出等音声処理に一般に用いられる
ものである。本実施例では、ケプストラムの低次を用
い、より発声様式の類似した音素環境を選択することが
可能である。つまり、ケプストラム距離が近ければ音韻
が類似していると言う特徴を用いている。
の低次の項に声道モデルが、また、高次には声帯音源波
モデルを特徴付けるパラメータが得られ、前者は音声認
識に、後者はピッチ抽出等音声処理に一般に用いられる
ものである。本実施例では、ケプストラムの低次を用
い、より発声様式の類似した音素環境を選択することが
可能である。つまり、ケプストラム距離が近ければ音韻
が類似していると言う特徴を用いている。
【0051】音素間距離評価値は、図9に示される式9
01に基づき、ある音素の最短距離、つまり、その音素
自体に対する評価値を1.0、最長距離の音素を0と
し、その間に分布する音素に関しては、評価値を線形に
割り振る。また、前記音素間評価値はテーブルとして蓄
積し、すべての音素の評価値マトリクスとする。本実施
例では、全て音素についてマトリクスを作成した場合を
示しているが、各音素を発声様式等により分類し、カテ
ゴリ間距離として蓄積することにより、蓄積効率を向上
させることも考えられる。
01に基づき、ある音素の最短距離、つまり、その音素
自体に対する評価値を1.0、最長距離の音素を0と
し、その間に分布する音素に関しては、評価値を線形に
割り振る。また、前記音素間評価値はテーブルとして蓄
積し、すべての音素の評価値マトリクスとする。本実施
例では、全て音素についてマトリクスを作成した場合を
示しているが、各音素を発声様式等により分類し、カテ
ゴリ間距離として蓄積することにより、蓄積効率を向上
させることも考えられる。
【0052】前記音素間距離評価値テーブル902は、
縦軸を検索側の文字列に対し横軸を被検索側、つまり評
価される側の音素表記とし、該評価マトリクス値を参照
するものである。
縦軸を検索側の文字列に対し横軸を被検索側、つまり評
価される側の音素表記とし、該評価マトリクス値を参照
するものである。
【0053】以上、本発明を実施例に基づき具体的に説
明したが、本発明は、前記実施例に限定されるものでは
なく、その要旨を逸脱しない範囲において、種々変更し
得ることはいうまでもない。
明したが、本発明は、前記実施例に限定されるものでは
なく、その要旨を逸脱しない範囲において、種々変更し
得ることはいうまでもない。
【0054】
【発明の効果】以上、説明したように、本発明によれ
ば、発声様式を反映し、比較的単純な検索方法を用いる
ことにより、合成単位の中から音声合成に適したものを
選択するので、姓名等の任意性の高い音声合成を実現す
ることができる。
ば、発声様式を反映し、比較的単純な検索方法を用いる
ことにより、合成単位の中から音声合成に適したものを
選択するので、姓名等の任意性の高い音声合成を実現す
ることができる。
【図1】 本発明の音声合成単位選択方式を用いた音声
合成装置の一実施例の概略構成を示すブロック構成図、
合成装置の一実施例の概略構成を示すブロック構成図、
【図2】 本実施例の音声合成装置の機能を示すブロッ
ク構成図、
ク構成図、
【図3】 本実施例の辞書内データ探索部206の機能
を示すブロック構成図、
を示すブロック構成図、
【図4】 本実施例の音声の合成単位境界付与を説明す
るための図、
るための図、
【図5】 本実施例の合成単位情報テーブルを説明する
ための図、
ための図、
【図6】 本実施例の重み関数の生成方法を説明するた
めの図、
めの図、
【図7】 本実施例の重み関数生成及びポイント計算方
法を説明するための図、
法を説明するための図、
【図8】 本実施例のケプストラム距離テーブルを説明
するための図、
するための図、
【図9】 本実施例の音素間距離評価値テーブルを説明
するための図、
するための図、
【図10】 本発明の音声合成原理を説明するための
図。
図。
11…装置本体、12…入力装置、13…ディスプレ
イ、14…スピーカ、201…入力端子、202…文字
列解析部、203…テキスト解析用辞書部、204…韻
律付与部、205…文字列分解部、206,301…辞
書内データ探索部、207…合成単位データベース部
(合成単位蓄積部)、208…合成単位決定部、209
…合成単位接続部、210…音声出力部、211…出力
端子、302…検索文字列生成部、303…重み関数生
成部、304…辞書内探索範囲しぼり込み部、305…
候補セグメントの評価ポイント算出部、306…候補テ
ーブルへ書き込み部、307…合成単位候補テーブル、
308…合成単位対応タブ情報部、309…合成単位番
号フィールド部、310…評価ポイント(P)フィール
ド部、401…合成単位番号情報、402…漢字表記情
報、403…ローマ字表記情報、404…音声波形、6
01…重み関数、602…類似検索領域、603…完全
一致領域、604…完全一致領域定数(D)、605…
位置表示軸(K)、606…重み軸(W)、607…重
み決定一般式、701…評価ポイント計算例、801…
音素間距離テーブル、901…音素間距離評価値計算
式、902…音素間距離評価値テーブル、A…合成単位
蓄積部の内容構成、B…合成音声文字列、W…重み値、
M…文字列照合方法数、D…完全一致領域定数、D’…
合成単位が含む音素数、K…文字照合位置表示変数、E
…適当な評価値、P…評価ポイント値、d…ケプストラ
ム距離を示す定数、e…音素関評価値を示す定数、n…
音素数を示す定数。
イ、14…スピーカ、201…入力端子、202…文字
列解析部、203…テキスト解析用辞書部、204…韻
律付与部、205…文字列分解部、206,301…辞
書内データ探索部、207…合成単位データベース部
(合成単位蓄積部)、208…合成単位決定部、209
…合成単位接続部、210…音声出力部、211…出力
端子、302…検索文字列生成部、303…重み関数生
成部、304…辞書内探索範囲しぼり込み部、305…
候補セグメントの評価ポイント算出部、306…候補テ
ーブルへ書き込み部、307…合成単位候補テーブル、
308…合成単位対応タブ情報部、309…合成単位番
号フィールド部、310…評価ポイント(P)フィール
ド部、401…合成単位番号情報、402…漢字表記情
報、403…ローマ字表記情報、404…音声波形、6
01…重み関数、602…類似検索領域、603…完全
一致領域、604…完全一致領域定数(D)、605…
位置表示軸(K)、606…重み軸(W)、607…重
み決定一般式、701…評価ポイント計算例、801…
音素間距離テーブル、901…音素間距離評価値計算
式、902…音素間距離評価値テーブル、A…合成単位
蓄積部の内容構成、B…合成音声文字列、W…重み値、
M…文字列照合方法数、D…完全一致領域定数、D’…
合成単位が含む音素数、K…文字照合位置表示変数、E
…適当な評価値、P…評価ポイント値、d…ケプストラ
ム距離を示す定数、e…音素関評価値を示す定数、n…
音素数を示す定数。
Claims (1)
- 【請求項1】 入力文字列に対して適当な文字列及び韻
律パラメータを有する合成単位を選択し、該合成単位を
接続して、音声合成を行う音声合成装置において、大量
の合成単位中から適当な合成単位を決定する際に、文字
情報から文字列の各音素表記に重み付けを行う重み関数
生成部と、照合する音素表記間の類似度を評価するため
にケプストラム距離等を基に設定された音素間評価値テ
ーブルと、該重み関数と音素間評価値の双方を用いて合
成単位に評価ポイントを決定する評価ポイント算出部
と、各文字の評価値と文字列の重みを用いて完全に一致
する文字列及び検索文字列に類似する文字列を検索する
辞書内データ探索部を備えたことを特徴とする音声合成
装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4321626A JPH06167989A (ja) | 1992-12-01 | 1992-12-01 | 音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4321626A JPH06167989A (ja) | 1992-12-01 | 1992-12-01 | 音声合成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH06167989A true JPH06167989A (ja) | 1994-06-14 |
Family
ID=18134612
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4321626A Pending JPH06167989A (ja) | 1992-12-01 | 1992-12-01 | 音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH06167989A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008129382A (ja) * | 2006-11-22 | 2008-06-05 | Oki Electric Ind Co Ltd | 音声合成装置 |
JP2008180750A (ja) * | 2007-01-23 | 2008-08-07 | Oki Electric Ind Co Ltd | 音声ラベリング支援システム |
JP2011242465A (ja) * | 2010-05-14 | 2011-12-01 | Nippon Telegr & Teleph Corp <Ntt> | 音声素片データベース作成装置、代替音声モデル作成装置、音声合成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム |
-
1992
- 1992-12-01 JP JP4321626A patent/JPH06167989A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008129382A (ja) * | 2006-11-22 | 2008-06-05 | Oki Electric Ind Co Ltd | 音声合成装置 |
JP2008180750A (ja) * | 2007-01-23 | 2008-08-07 | Oki Electric Ind Co Ltd | 音声ラベリング支援システム |
JP2011242465A (ja) * | 2010-05-14 | 2011-12-01 | Nippon Telegr & Teleph Corp <Ntt> | 音声素片データベース作成装置、代替音声モデル作成装置、音声合成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
US8219398B2 (en) | Computerized speech synthesizer for synthesizing speech from text | |
JP4054507B2 (ja) | 音声情報処理方法および装置および記憶媒体 | |
US7454343B2 (en) | Speech synthesizer, speech synthesizing method, and program | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
JPH10116089A (ja) | 音声合成用の基本周波数テンプレートを収容する韻律データベース | |
US8626510B2 (en) | Speech synthesizing device, computer program product, and method | |
JP2008134475A (ja) | 入力された音声のアクセントを認識する技術 | |
US7069216B2 (en) | Corpus-based prosody translation system | |
JP3587048B2 (ja) | 韻律制御方法及び音声合成装置 | |
JPWO2016103652A1 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP2004109535A (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JPH06167989A (ja) | 音声合成装置 | |
Chen et al. | A Mandarin Text-to-Speech System | |
JP4542400B2 (ja) | 韻律生成装置及び韻律生成プログラム | |
JPH06318094A (ja) | 音声規則合成装置 | |
JPH0962286A (ja) | 音声合成装置および音声合成方法 | |
JP2000056788A (ja) | 音声合成装置の韻律制御方法 | |
JP3279261B2 (ja) | 定型文コーパス作成装置、方法及び記録媒体 | |
JP2003005776A (ja) | 音声合成装置 | |
Narupiyakul et al. | A stochastic knowledge-based Thai text-to-speech system | |
JPH09198073A (ja) | 音声合成装置 | |
JP4603290B2 (ja) | 音声合成装置および音声合成プログラム | |
JP3034911B2 (ja) | テキスト音声合成装置 | |
JP2003308084A (ja) | 音声合成方法および音声合成装置 |