JPH04281495A

JPH04281495A - 音声波形ファイル装置

Info

Publication number: JPH04281495A
Application number: JP3045151A
Authority: JP
Inventors: Keiji Hayashi; 慶士林; Noriya Murakami; 村上　憲也
Original assignee: N T T DATA TSUSHIN KK; NTT Data Communications Systems Corp
Current assignee: N T T DATA TSUSHIN KK; NTT Data Group Corp
Priority date: 1991-03-11
Filing date: 1991-03-11
Publication date: 1992-10-07

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、入力文字列から音声を
生成する規則合成法において、合成単位となる波形素片
を蓄積する音声波形ファイル装置に関するものである。

【０００２】

【従来の技術】入力カナ文字列から音声を合成する規則
合成法において、入力文字列から該当する音声データを
出力する従来法の一例を図８に示す。まず、入力端子１
１からカナ文字列が入力され、前処理部１２において、
前記カナ文字列を音韻記号列に変換し、アクセント辞書
１３を用いて前記カナ文字列の単語単位のアクセント位
置などを推定する。韻律パラメタ設定部１４において、
母音中心点におけるピッチ周波数、前記母音中心点にお
けるパワ、音韻時間長などを格納した韻律情報テーブル
１５を元に前記前処理部１２の出力である音韻記号列に
対応した韻律パラメタを設定する。また、前記処理部１
２〜韻律パラメタ設定部１４の処理とは別に、音韻記号
→ＣＶＣ（子音−母音−子音）変換部１７において、前
記処理部１２の出力である音韻記号をＣＶＣセグメント
に分割し、音声パラメタファイルのメモリアドレスを格
納しているＣＶＣテーブル１６を用いて、音声パラメー
タファイル１５中の、前記音韻記号→ＣＶＣ変換部１７
の出力であるＣＶＣセグメントに対応した音声データ（
ＬＳＰパラメタ）が出力される。従って、出力端子１８
には、前記前処理部１２の出力に対応した韻律パラメタ
及び音声データが出力される。図８では、文字列から音
声データにアクセスする処理と文字列から韻律成分を求
める処理が独立している。また、アクセントについての
情報は、前処理部１２において設定されるが、実際のア
クセント制御は、図８の後段の処理において行われてい
る。

【０００３】

【発明が解決しようとする課題】しかしながら、前述し
た音声パラメタファイルには、アクセントなどの韻律情
報は考慮されていないため、これらの情報は、アクセン
ト辞書の中に格納されている。このように音声情報と言
語情報が別々の辞書として構成されていることにより、
入力文字列からアクセント推定規則によって最適なアク
セント位置を推定した後、後段の処理において音声デー
タと韻律パラメタを用いてアクセント制御を行わねばな
らない。アクセント位置の推定には、アクセント辞書中
に格納されている単語固有のアクセント型、或いは自立
語に付属語がついた場合や複合語については、「結合ア
クセント価」と「アクセント結合様式」を用いたアクセ
ント変化規則に基づいて行われている。また、後段のア
クセント制御は、母音のエネルギ重心点におけるピッチ
周波数を線形補間した点ピッチパターンモデルにおいて
、前記点ピッチパターンに、アクセント位置のある点で
、アクセント成分という数値を重畳させ、その位置での
ピッチ周波数を上昇させることで行っている。

【０００４】従って、こうした従来法では、以下の問題
点があった。

【０００５】（１）前記のアクセント変化規則では、対
象が文章レベルになると文構造が複雑になり、正確なア
クセント位置を推定することが難しくなる。

【０００６】（２）点ピッチパターンに重畳するアクセ
ント成分の値によって合成音声の品質が左右されるため
、最適値決定に韻律制御を緻密化する必要がある。

【０００７】本発明の目的は、合成音声の自然性を向上
させることが可能な技術を提供することにある。

【０００８】本発明の前記ならびにその他の目的と新規
な特徴は、本明細書の記述及び添付図面によって明らか
になるであろう。

【０００９】

【課題を解決するための手段】前記目的を達成するため
に、本発明においては、入力文字列から一定の単位に分
割された文字列を出力する前処理手段と、該前処理手段
によって分割された分割文字列に関する情報を格納する
文字列情報テーブルと、原音声から切り出された波形を
格納する音声波形ファイルと、該音声波形ファイルのメ
モリアドレスを格納するインデックステーブルと、前記
文字列情報テーブルを元に、前記分割文字列の該当音韻
に対応した前記インデックステーブル及び前記音声波形
ファイルを選択する合成単位選択手段を備えたことを最
も主要な特徴とする。

【００１０】前記インデックステーブルを単語中の音韻
位置（語頭・語中・語尾）に対応させて準備し、さらに
、前記各インデックステーブルを各音韻毎、各音韻のア
クセントの有無に分類して個別に準備し、前記各インデ
ックステーブルを、音響パラメタの中で相互関係の強い
ピッチ周波数と平均パワを要素とするマトリクス状に構
成する手段と、前記語頭及び語中及び語尾用各インデッ
クステーブルに対応して前記音声波形ファイルをそれぞ
れ準備し、前記各音声波形ファイルに、該当音韻が母音
または有声子音である場合には、波形定常部における１
ピッチ波形を格納し、無声子音である場合には、音素長
程度の波形を格納し、前記文字列情報テーブルに、前記
分割文字列の中心音韻の波形定常部でのピッチ周波数、
平均パワ、前記中心音韻のアクセントの有無、単語中で
の音韻位置を格納する手段と、前記文字列情報テーブル
を元に分割文字列に対応した前記インデックステーブル
及び音声波形ファイルを選択する手段を備えたことを特
徴とする。

【００１１】

【作用】前述した手段によれば、音声ファイルとして、
合成単位に原音声から切り出した波形素片を用いて音声
波形ファイルを構成するものとして、入力文字列の前処
理結果である分割文字列に対するピッチ周波数などの情
報を格納した文字列情報テーブルと、前記音声波形ファ
イルのメモリアドレスを格納した、単語中の音韻位置な
どの分類条件に対応して準備された語頭及び語中及び語
尾用の各インデックステーブルと、該インデックステー
ブルに対応した語頭及び語中及び語尾用の各音声波形フ
ァイルと、前記分割文字列から、前記文字列情報テーブ
ルを元に、最適な前記インデックステーブル及び前記音
声波形ファイルを選択する合成単位選択部とを備えてい
るので、入力文字列からアクセント情報を含んだ音声波
形データにアクセスできるため、従来法で行われていた
アクセント辞書を用いた単語レベルのアクセント位置の
推定を省略でき、また、従来音声データ及び韻律パタメ
タが選択された後に行われていたアクセント制御を簡略
化できる。これにより、従来法に比べ自然性に富んだ合
成音声の生成が可能である。

【００１２】

【実施例】以下、本発明の実施例を図面を用いて具体的
に説明する。

【００１３】図１は、図２の要部の機能構成を示すブロ
ック図、図２は、本発明の音声波形ファイル装置の一実
施例の概略構成を示すブロック図である。

【００１４】本実施例の音声波形ファイル装置は、図２
に示すように、データ入力装置１、電子計算機（コンピ
ュータ）２、スピーカ等からなる音声出力装置を備えて
いる。前記電子計算機２は、中央演算処理装置２Ａ及び
ファイルメモリ２Ｂを備えている。

【００１５】前記中央演算処理装置２Ａは、前処理部２
２、合成単位選択部２３を備えており、ファイルメモリ
２Ｂは、文字列情報テーブル２４、音声波形ファイル２
５、インデックステーブル２６を備えている。

【００１６】本実施例の動作原理を図１を用いて説明す
る。

【００１７】入力端子２１からローマ字記号などの文字
記号列が入力され、これが前処理部２２に入力される。前処理部２２では、入力された記号列をある一定の単位
の文字列に分割する。合成単位選択部２３では、前記前
処理部２２の出力である分割文字列のピッチ周波数、平
均パワ、単語中の音韻位置、アクセントの有無を格納し
た文字列情報テーブル２４から、該当音韻に対応した最
適な前記音声波形ファイル２５及び前記インデックステ
ーブル２６を選択する。

【００１８】図３は、前記合成単位選択部以降の詳細な
動作原理をするためのフローチャート、図４は、前記イ
ンデックステーブル及び前記音声波形ファイルの詳細を
説明するための説明図である。図４中、４１は入力端子
、４２は語頭用音声波形ファイル、４３は語中用音声波
形ファイル、４４は語尾用音声波形ファイル、４５は語
頭用インデックステーブル、４６は語中用インデックス
テーブル、４７は語尾用インデックステーブル、４８は
出力端子である。

【００１９】合成単位選択部以降の詳細な動作は、図３
及び図４に示すように、入力端子４１には、前記文字列
情報テーブル２４を用いて前記合成単位選択部２３より
出力された前記分割文字列の中心音韻に対応する波形定
常部のピッチ周波数、平均パワ、該当音韻のアクセント
の有無、単語中の音韻位置が入力される。図３のステッ
プ３１において、まず、前記各入力の内、単語中の音韻
位置によって前記波形ファイル４２〜４４、前記インデ
ックステーブル４５〜４７のいずれかを選択する。次に
、ステップ３２において、アクセントの有無と該当音韻
の種類により選択された前記インデックステーブル４５
〜４７の中から最適なテーブルを選択する。最後に、ス
テップ３３において、波形定常部のピッチ周波数及び平
均パワを用いて、３２において選択されたインデックス
テーブルから該当音韻の音声波形ファイルのメモリアド
レスを決定する。前記動作原理に従って出力端子４８に
は、前記動作原理に基づいた該当音韻に対応する音声波
形ファイルのメモリアドレスが出力される。

【００２０】次に、図４に示す各音声波形ファイル４２
〜４４及び各インデックステーブル４５〜４７の構成方
法について、図５（フローチャート）を用いて説明する
。まず、ステップ５１において、演算処理装置（電子計
算機）２のディスプレイ上に前記音声波形ファイル４２
〜４４に格納するデータの波形定常部を拡大表示し、試
聴を行いながら目視により１ピッチ波形を切り出す。１ピッチ波形を扱う場合は、ピツチ構造を有する５母音
と「ｂ」、「ｄ」、「ｇ」などの有声子音であるが、ピ
ッチ構造のない無声子音については音素長単位で切り出
しを行う。ステップ５１において切り出された波形を、
ステップ５２においてアクセントの有無で分類し、ステ
ップ５３において音韻別に分類し、ステップ５４におい
て単語中でのアクセント位置（語頭・語中・語尾）によ
り分類する。アクセントが音韻“た（ｔａ）”などの子
音（Ｃ）−母音（Ｖ）対にある場合には、音素ｔとａ両
方にアクセントがあると考え、それぞれアクセントのあ
るｔ、ａに分類する。

【００２１】前記ステップ５２〜５４の処理において分
類されたクラス内の１ピッチサンプルに対し、ステップ
５５においてそれらのサンプルについてピッチ周波数と
１ピッチ波形内での平均パワを算出する。ステップ５５
の計算結果に基づいて、ステップ５６においてそれぞれ
のパラメタについて、最大・最小値を算出する。ステッ
プ５７において、ステップ５６で算出されたそれぞれの
パラメタの最大・最小値から、それぞれのパラメタの分
布区間を算出し、これを適当な単位で分割することで、
構成するインデックステーブルのサイズ（＝要素数）を
決定する。ステップ５７において、あるクラスのサンプ
ルについてピッチ周波数がｍ個、平均パワがｎ個に分割
できたとすると、そのインデックステーブルの要素数は
ｍ×ｎ個になる。つまり、ステップ５７においては、１
つのサンプル集合をｍ×ｎ行列に分割している。ピッチ
周波数及び平均パワの分布は、各音韻によって異なるた
め、１つのクラスについてのインデックステーブルの要
素数は、均一ではない。ステップ５８において、前記ス
テップ５７で決定されたインデックステーブルの各要素
に各サンプルをクラスタリングする。図６は、図５の処
理によって構成された音韻“あ”が語頭にある場合のイ
ンデックステーブルと前記インデックステーブルに対応
する音声波形ファイルとの関係を示す図である。

【００２２】図６において、６１は語頭インデックステ
ーブル、６２は音韻“あ”のインデックステーブル（ア
クセント有）、６３はピッチ周波数１２５Ｈｚ，パワ７
０ｄＢクラス、６４は前記クラス６３の音声波形ファイ
ル中のメモリアドレス、６５は語頭用音声波形ファイル
、６６は前記メモリアドレス６４に格納されている波形
データである。

【００２３】図７は、前記文字列情報テーブル２４の一
実施例を示す図である。同図中、（７１）は中心音韻が
ａであり、前に音韻がなく、後の音韻がｉである文字列
、（７２）は中心音韻であるａにアクセントがあること
を示す記号、（７３）は中心音韻が語頭にあることを示
す記号、（７４）は中心音韻であるａにアクセントがな
いことを示す記号、（７５）は中心音韻が語中にあるこ
とを示す記号、（７６）は中心音韻が語尾中にあること
を示す記号である。

【００２４】以上の説明からわかるように、本実施例に
よれば、音声ファイルとして、合成単位に原音声から切
り出した波形素片を用いて音声波形ファイル２５を構成
するものとして、入力文字列の前処理結果である分割文
字列に対するピッチ周波数などの情報を格納した文字列
情報テーブル２４と、前記音声波形ファイル２５のメモ
リアドレスを格納した、単語中の音韻位置などの分類条
件に対応して準備された語頭及び語中及び語尾用の各イ
ンデックステーブル４５，４６，４７と、該インデック
ステーブル４５，４６，４７に対応した語頭及び語中及
び語尾用の各音声波形ファイル４２，４３，４４と、前
記分割文字列から、前記文字列情報テーブル２４を元に
、最適な前記インデックステーブル及び前記音声波形フ
ァイルを選択する合成単位選択部２３とを備えている。このことによって入力文字列からアクセント情報を含ん
だ音声波形データにアクセスできるため、従来法で行わ
れていたアクセント辞書を用いた単語レベルのアクセン
ト位置の推定を省略でき、また、従来音声データ及び韻
律パラメタが選択された後に行われていたアクセント制
御を簡略化できる。

【００２５】つまり、切り出された原波形をデータとし
てファイルに持つことで従来の分析合成音に比べ、合成
音声の自然性向上を図れるだれでなく、アクセントに関
する各種情報を考慮してファイルを構成することにより
、韻律制御の柔軟性、或いは入力文字列のテキスト解析
の簡素化が可能となる。これにより、従来法に比べ自然
性に富んだ合成音声の生成が可能となる。

【００２６】例えば、本実施例において、ピッチ周波数
及び平均パワの分割幅は、図６に示すようにそれぞれ５
Ｈｚ、２ｄＢであるが、この分割幅は任意であり、該当
音韻の前後の音韻環境なども考慮して、より細分化する
ことで上記音声波形データファイルの高精度化が可能で
ある。また、ピッチ周波数を人間の聴覚特性に基づいた
メル尺度を用いて分割することで同様の高精度化が期待
できる。

【００２７】以上、本発明を実施例にもとづき具体的に
説明したが、本発明は、前記実施例に限定されるもので
はなく、その要旨を逸脱しない範囲において種々変更可
能であることは言うまでもない。

【００２８】

【発明の効果】本発明によれば、韻律制御の柔軟性、或
いは入力文字列のテキスト解析の簡素化が可能となる。これにより、従来法に比べ自然性に富んだ合成音声の生
成が可能となる。

【図面の簡単な説明】

【図１】図２の要部の機能構成を示すブロック図である
。

【図２】本発明の音声波形ファイル装置の一実施例の概
略構成を示すブロック図である。

【図３】本実施例における合成単位選択部の詳細な動作
原理を説明するためのフローチャートである。

【図４】本実施例における音声波形ファイル及びインデ
ックステーブルの詳細を説明するための説明図である。

【図５】本実施例におけるインデックステーブルの作成
方法を説明するためのフローチャートである。

【図６】本実施例における音韻“あ”にアクセントがあ
る場合のインデックステーブルと対応する音声波形ファ
イルの関係を示す図である。

【図７】本実施例における文字列情報テーブルの一例の
構成を示す図である。

【図８】従来の音声波形ファイル装置の問題点を説明す
るための図である。

【符号の説明】

１…データ入力装置、２…電子計算機、２Ａ…中央演算
処理装置、２Ｂ…ファイルメモリ、３…音声出力装置、
２１…入力端子、２２…前処理部、２３…合成単位選択
部、２４…文字列情報テーブル、２５…音声波形ファイ
ル、２６…インデックステーブル、２７…出力端子、４
１は入力端子、４２…語頭用音声波形ファイル、４３…
語中用音声波形ファイル、４４…語尾用音声波形ファイ
ル、４５…語頭用インデックステーブル、４６…語中用
インデックステーブル、４７…語尾用インデックステー
ブル、４８…出力端子。

Claims

【特許請求の範囲】

【請求項１】　　入力文字列から一定の単位に分割され
た文字列を出力する前処理手段と、該前処理手段によっ
て分割された分割文字列に関する情報を格納する文字列
情報テーブルと、原音声から切り出された波形を格納す
る音声波形ファイルと、該音声波形ファイルのメモリア
ドレスを格納するインデックステーブルと、前記文字列
情報テーブルを元に、前記分割文字列の該当音韻に対応
した前記インデックステーブル及び前記音声波形ファイ
ルを選択する合成単位選択手段を備えたことを特徴とす
る音声波形ファイル装置。
【請求項２】　　請求項１に記載の音声波形ファイル装
置であって、前記インデックステーブルを単語中の音韻
位置（語頭・語中・語尾）に対応させて準備し、さらに
、前記各インデックステーブルを各音韻毎、各音韻のア
クセントの有無に分類して個別に準備し、前記各インデ
ックステーブルを、音響パラメタの中で相互関係の強い
ピッチ周波数と平均パワを要素とするマトリクス状に構
成する手段と、前記語頭及び語中及び語尾用各インデッ
クステーブルに対応して前記音声波形ファイルをそれぞ
れ準備し、前記各音声波形ファイルに、該当音韻が母音
または有声子音である場合には、波形定常部における１
ピッチ波形を格納し、無声子音である場合には、音素長
程度の波形を格納し、前記文字列情報テーブルに、前記
分割文字列の中心音韻の波形定常部でのピッチ周波数、
平均パワ、前記中心音韻のアクセントの有無、単語中で
の音韻位置を格納する手段と、前記文字列情報テーブル
を元に分割文字列に対応した前記インデックステーブル
及び音声波形ファイルを選択する手段を備えたことを特
徴とする音声波形ファイル装置。