JPH04281495A - 音声波形ファイル装置 - Google Patents

音声波形ファイル装置

Info

Publication number
JPH04281495A
JPH04281495A JP3045151A JP4515191A JPH04281495A JP H04281495 A JPH04281495 A JP H04281495A JP 3045151 A JP3045151 A JP 3045151A JP 4515191 A JP4515191 A JP 4515191A JP H04281495 A JPH04281495 A JP H04281495A
Authority
JP
Japan
Prior art keywords
character string
word
phoneme
index table
accent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3045151A
Other languages
English (en)
Inventor
Keiji Hayashi
慶士 林
Noriya Murakami
村上 憲也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Group Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP3045151A priority Critical patent/JPH04281495A/ja
Publication of JPH04281495A publication Critical patent/JPH04281495A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、入力文字列から音声を
生成する規則合成法において、合成単位となる波形素片
を蓄積する音声波形ファイル装置に関するものである。
【0002】
【従来の技術】入力カナ文字列から音声を合成する規則
合成法において、入力文字列から該当する音声データを
出力する従来法の一例を図8に示す。まず、入力端子1
1からカナ文字列が入力され、前処理部12において、
前記カナ文字列を音韻記号列に変換し、アクセント辞書
13を用いて前記カナ文字列の単語単位のアクセント位
置などを推定する。韻律パラメタ設定部14において、
母音中心点におけるピッチ周波数、前記母音中心点にお
けるパワ、音韻時間長などを格納した韻律情報テーブル
15を元に前記前処理部12の出力である音韻記号列に
対応した韻律パラメタを設定する。また、前記処理部1
2〜韻律パラメタ設定部14の処理とは別に、音韻記号
→CVC(子音−母音−子音)変換部17において、前
記処理部12の出力である音韻記号をCVCセグメント
に分割し、音声パラメタファイルのメモリアドレスを格
納しているCVCテーブル16を用いて、音声パラメー
タファイル15中の、前記音韻記号→CVC変換部17
の出力であるCVCセグメントに対応した音声データ(
LSPパラメタ)が出力される。従って、出力端子18
には、前記前処理部12の出力に対応した韻律パラメタ
及び音声データが出力される。図8では、文字列から音
声データにアクセスする処理と文字列から韻律成分を求
める処理が独立している。また、アクセントについての
情報は、前処理部12において設定されるが、実際のア
クセント制御は、図8の後段の処理において行われてい
る。
【0003】
【発明が解決しようとする課題】しかしながら、前述し
た音声パラメタファイルには、アクセントなどの韻律情
報は考慮されていないため、これらの情報は、アクセン
ト辞書の中に格納されている。このように音声情報と言
語情報が別々の辞書として構成されていることにより、
入力文字列からアクセント推定規則によって最適なアク
セント位置を推定した後、後段の処理において音声デー
タと韻律パラメタを用いてアクセント制御を行わねばな
らない。アクセント位置の推定には、アクセント辞書中
に格納されている単語固有のアクセント型、或いは自立
語に付属語がついた場合や複合語については、「結合ア
クセント価」と「アクセント結合様式」を用いたアクセ
ント変化規則に基づいて行われている。また、後段のア
クセント制御は、母音のエネルギ重心点におけるピッチ
周波数を線形補間した点ピッチパターンモデルにおいて
、前記点ピッチパターンに、アクセント位置のある点で
、アクセント成分という数値を重畳させ、その位置での
ピッチ周波数を上昇させることで行っている。
【0004】従って、こうした従来法では、以下の問題
点があった。
【0005】(1)前記のアクセント変化規則では、対
象が文章レベルになると文構造が複雑になり、正確なア
クセント位置を推定することが難しくなる。
【0006】(2)点ピッチパターンに重畳するアクセ
ント成分の値によって合成音声の品質が左右されるため
、最適値決定に韻律制御を緻密化する必要がある。
【0007】本発明の目的は、合成音声の自然性を向上
させることが可能な技術を提供することにある。
【0008】本発明の前記ならびにその他の目的と新規
な特徴は、本明細書の記述及び添付図面によって明らか
になるであろう。
【0009】
【課題を解決するための手段】前記目的を達成するため
に、本発明においては、入力文字列から一定の単位に分
割された文字列を出力する前処理手段と、該前処理手段
によって分割された分割文字列に関する情報を格納する
文字列情報テーブルと、原音声から切り出された波形を
格納する音声波形ファイルと、該音声波形ファイルのメ
モリアドレスを格納するインデックステーブルと、前記
文字列情報テーブルを元に、前記分割文字列の該当音韻
に対応した前記インデックステーブル及び前記音声波形
ファイルを選択する合成単位選択手段を備えたことを最
も主要な特徴とする。
【0010】前記インデックステーブルを単語中の音韻
位置(語頭・語中・語尾)に対応させて準備し、さらに
、前記各インデックステーブルを各音韻毎、各音韻のア
クセントの有無に分類して個別に準備し、前記各インデ
ックステーブルを、音響パラメタの中で相互関係の強い
ピッチ周波数と平均パワを要素とするマトリクス状に構
成する手段と、前記語頭及び語中及び語尾用各インデッ
クステーブルに対応して前記音声波形ファイルをそれぞ
れ準備し、前記各音声波形ファイルに、該当音韻が母音
または有声子音である場合には、波形定常部における1
ピッチ波形を格納し、無声子音である場合には、音素長
程度の波形を格納し、前記文字列情報テーブルに、前記
分割文字列の中心音韻の波形定常部でのピッチ周波数、
平均パワ、前記中心音韻のアクセントの有無、単語中で
の音韻位置を格納する手段と、前記文字列情報テーブル
を元に分割文字列に対応した前記インデックステーブル
及び音声波形ファイルを選択する手段を備えたことを特
徴とする。
【0011】
【作用】前述した手段によれば、音声ファイルとして、
合成単位に原音声から切り出した波形素片を用いて音声
波形ファイルを構成するものとして、入力文字列の前処
理結果である分割文字列に対するピッチ周波数などの情
報を格納した文字列情報テーブルと、前記音声波形ファ
イルのメモリアドレスを格納した、単語中の音韻位置な
どの分類条件に対応して準備された語頭及び語中及び語
尾用の各インデックステーブルと、該インデックステー
ブルに対応した語頭及び語中及び語尾用の各音声波形フ
ァイルと、前記分割文字列から、前記文字列情報テーブ
ルを元に、最適な前記インデックステーブル及び前記音
声波形ファイルを選択する合成単位選択部とを備えてい
るので、入力文字列からアクセント情報を含んだ音声波
形データにアクセスできるため、従来法で行われていた
アクセント辞書を用いた単語レベルのアクセント位置の
推定を省略でき、また、従来音声データ及び韻律パタメ
タが選択された後に行われていたアクセント制御を簡略
化できる。これにより、従来法に比べ自然性に富んだ合
成音声の生成が可能である。
【0012】
【実施例】以下、本発明の実施例を図面を用いて具体的
に説明する。
【0013】図1は、図2の要部の機能構成を示すブロ
ック図、図2は、本発明の音声波形ファイル装置の一実
施例の概略構成を示すブロック図である。
【0014】本実施例の音声波形ファイル装置は、図2
に示すように、データ入力装置1、電子計算機(コンピ
ュータ)2、スピーカ等からなる音声出力装置を備えて
いる。前記電子計算機2は、中央演算処理装置2A及び
ファイルメモリ2Bを備えている。
【0015】前記中央演算処理装置2Aは、前処理部2
2、合成単位選択部23を備えており、ファイルメモリ
2Bは、文字列情報テーブル24、音声波形ファイル2
5、インデックステーブル26を備えている。
【0016】本実施例の動作原理を図1を用いて説明す
る。
【0017】入力端子21からローマ字記号などの文字
記号列が入力され、これが前処理部22に入力される。 前処理部22では、入力された記号列をある一定の単位
の文字列に分割する。合成単位選択部23では、前記前
処理部22の出力である分割文字列のピッチ周波数、平
均パワ、単語中の音韻位置、アクセントの有無を格納し
た文字列情報テーブル24から、該当音韻に対応した最
適な前記音声波形ファイル25及び前記インデックステ
ーブル26を選択する。
【0018】図3は、前記合成単位選択部以降の詳細な
動作原理をするためのフローチャート、図4は、前記イ
ンデックステーブル及び前記音声波形ファイルの詳細を
説明するための説明図である。図4中、41は入力端子
、42は語頭用音声波形ファイル、43は語中用音声波
形ファイル、44は語尾用音声波形ファイル、45は語
頭用インデックステーブル、46は語中用インデックス
テーブル、47は語尾用インデックステーブル、48は
出力端子である。
【0019】合成単位選択部以降の詳細な動作は、図3
及び図4に示すように、入力端子41には、前記文字列
情報テーブル24を用いて前記合成単位選択部23より
出力された前記分割文字列の中心音韻に対応する波形定
常部のピッチ周波数、平均パワ、該当音韻のアクセント
の有無、単語中の音韻位置が入力される。図3のステッ
プ31において、まず、前記各入力の内、単語中の音韻
位置によって前記波形ファイル42〜44、前記インデ
ックステーブル45〜47のいずれかを選択する。次に
、ステップ32において、アクセントの有無と該当音韻
の種類により選択された前記インデックステーブル45
〜47の中から最適なテーブルを選択する。最後に、ス
テップ33において、波形定常部のピッチ周波数及び平
均パワを用いて、32において選択されたインデックス
テーブルから該当音韻の音声波形ファイルのメモリアド
レスを決定する。前記動作原理に従って出力端子48に
は、前記動作原理に基づいた該当音韻に対応する音声波
形ファイルのメモリアドレスが出力される。
【0020】次に、図4に示す各音声波形ファイル42
〜44及び各インデックステーブル45〜47の構成方
法について、図5(フローチャート)を用いて説明する
。まず、ステップ51において、演算処理装置(電子計
算機)2のディスプレイ上に前記音声波形ファイル42
〜44に格納するデータの波形定常部を拡大表示し、試
聴を行いながら目視により1ピッチ波形を切り出す。 1ピッチ波形を扱う場合は、ピツチ構造を有する5母音
と「b」、「d」、「g」などの有声子音であるが、ピ
ッチ構造のない無声子音については音素長単位で切り出
しを行う。ステップ51において切り出された波形を、
ステップ52においてアクセントの有無で分類し、ステ
ップ53において音韻別に分類し、ステップ54におい
て単語中でのアクセント位置(語頭・語中・語尾)によ
り分類する。アクセントが音韻“た(ta)”などの子
音(C)−母音(V)対にある場合には、音素tとa両
方にアクセントがあると考え、それぞれアクセントのあ
るt、aに分類する。
【0021】前記ステップ52〜54の処理において分
類されたクラス内の1ピッチサンプルに対し、ステップ
55においてそれらのサンプルについてピッチ周波数と
1ピッチ波形内での平均パワを算出する。ステップ55
の計算結果に基づいて、ステップ56においてそれぞれ
のパラメタについて、最大・最小値を算出する。ステッ
プ57において、ステップ56で算出されたそれぞれの
パラメタの最大・最小値から、それぞれのパラメタの分
布区間を算出し、これを適当な単位で分割することで、
構成するインデックステーブルのサイズ(=要素数)を
決定する。ステップ57において、あるクラスのサンプ
ルについてピッチ周波数がm個、平均パワがn個に分割
できたとすると、そのインデックステーブルの要素数は
m×n個になる。つまり、ステップ57においては、1
つのサンプル集合をm×n行列に分割している。ピッチ
周波数及び平均パワの分布は、各音韻によって異なるた
め、1つのクラスについてのインデックステーブルの要
素数は、均一ではない。ステップ58において、前記ス
テップ57で決定されたインデックステーブルの各要素
に各サンプルをクラスタリングする。図6は、図5の処
理によって構成された音韻“あ”が語頭にある場合のイ
ンデックステーブルと前記インデックステーブルに対応
する音声波形ファイルとの関係を示す図である。
【0022】図6において、61は語頭インデックステ
ーブル、62は音韻“あ”のインデックステーブル(ア
クセント有)、63はピッチ周波数125Hz,パワ7
0dBクラス、64は前記クラス63の音声波形ファイ
ル中のメモリアドレス、65は語頭用音声波形ファイル
、66は前記メモリアドレス64に格納されている波形
データである。
【0023】図7は、前記文字列情報テーブル24の一
実施例を示す図である。同図中、(71)は中心音韻が
aであり、前に音韻がなく、後の音韻がiである文字列
、(72)は中心音韻であるaにアクセントがあること
を示す記号、(73)は中心音韻が語頭にあることを示
す記号、(74)は中心音韻であるaにアクセントがな
いことを示す記号、(75)は中心音韻が語中にあるこ
とを示す記号、(76)は中心音韻が語尾中にあること
を示す記号である。
【0024】以上の説明からわかるように、本実施例に
よれば、音声ファイルとして、合成単位に原音声から切
り出した波形素片を用いて音声波形ファイル25を構成
するものとして、入力文字列の前処理結果である分割文
字列に対するピッチ周波数などの情報を格納した文字列
情報テーブル24と、前記音声波形ファイル25のメモ
リアドレスを格納した、単語中の音韻位置などの分類条
件に対応して準備された語頭及び語中及び語尾用の各イ
ンデックステーブル45,46,47と、該インデック
ステーブル45,46,47に対応した語頭及び語中及
び語尾用の各音声波形ファイル42,43,44と、前
記分割文字列から、前記文字列情報テーブル24を元に
、最適な前記インデックステーブル及び前記音声波形フ
ァイルを選択する合成単位選択部23とを備えている。 このことによって入力文字列からアクセント情報を含ん
だ音声波形データにアクセスできるため、従来法で行わ
れていたアクセント辞書を用いた単語レベルのアクセン
ト位置の推定を省略でき、また、従来音声データ及び韻
律パラメタが選択された後に行われていたアクセント制
御を簡略化できる。
【0025】つまり、切り出された原波形をデータとし
てファイルに持つことで従来の分析合成音に比べ、合成
音声の自然性向上を図れるだれでなく、アクセントに関
する各種情報を考慮してファイルを構成することにより
、韻律制御の柔軟性、或いは入力文字列のテキスト解析
の簡素化が可能となる。これにより、従来法に比べ自然
性に富んだ合成音声の生成が可能となる。
【0026】例えば、本実施例において、ピッチ周波数
及び平均パワの分割幅は、図6に示すようにそれぞれ5
Hz、2dBであるが、この分割幅は任意であり、該当
音韻の前後の音韻環境なども考慮して、より細分化する
ことで上記音声波形データファイルの高精度化が可能で
ある。また、ピッチ周波数を人間の聴覚特性に基づいた
メル尺度を用いて分割することで同様の高精度化が期待
できる。
【0027】以上、本発明を実施例にもとづき具体的に
説明したが、本発明は、前記実施例に限定されるもので
はなく、その要旨を逸脱しない範囲において種々変更可
能であることは言うまでもない。
【0028】
【発明の効果】本発明によれば、韻律制御の柔軟性、或
いは入力文字列のテキスト解析の簡素化が可能となる。 これにより、従来法に比べ自然性に富んだ合成音声の生
成が可能となる。
【図面の簡単な説明】
【図1】図2の要部の機能構成を示すブロック図である
【図2】本発明の音声波形ファイル装置の一実施例の概
略構成を示すブロック図である。
【図3】本実施例における合成単位選択部の詳細な動作
原理を説明するためのフローチャートである。
【図4】本実施例における音声波形ファイル及びインデ
ックステーブルの詳細を説明するための説明図である。
【図5】本実施例におけるインデックステーブルの作成
方法を説明するためのフローチャートである。
【図6】本実施例における音韻“あ”にアクセントがあ
る場合のインデックステーブルと対応する音声波形ファ
イルの関係を示す図である。
【図7】本実施例における文字列情報テーブルの一例の
構成を示す図である。
【図8】従来の音声波形ファイル装置の問題点を説明す
るための図である。
【符号の説明】
1…データ入力装置、2…電子計算機、2A…中央演算
処理装置、2B…ファイルメモリ、3…音声出力装置、
21…入力端子、22…前処理部、23…合成単位選択
部、24…文字列情報テーブル、25…音声波形ファイ
ル、26…インデックステーブル、27…出力端子、4
1は入力端子、42…語頭用音声波形ファイル、43…
語中用音声波形ファイル、44…語尾用音声波形ファイ
ル、45…語頭用インデックステーブル、46…語中用
インデックステーブル、47…語尾用インデックステー
ブル、48…出力端子。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】  入力文字列から一定の単位に分割され
    た文字列を出力する前処理手段と、該前処理手段によっ
    て分割された分割文字列に関する情報を格納する文字列
    情報テーブルと、原音声から切り出された波形を格納す
    る音声波形ファイルと、該音声波形ファイルのメモリア
    ドレスを格納するインデックステーブルと、前記文字列
    情報テーブルを元に、前記分割文字列の該当音韻に対応
    した前記インデックステーブル及び前記音声波形ファイ
    ルを選択する合成単位選択手段を備えたことを特徴とす
    る音声波形ファイル装置。
  2. 【請求項2】  請求項1に記載の音声波形ファイル装
    置であって、前記インデックステーブルを単語中の音韻
    位置(語頭・語中・語尾)に対応させて準備し、さらに
    、前記各インデックステーブルを各音韻毎、各音韻のア
    クセントの有無に分類して個別に準備し、前記各インデ
    ックステーブルを、音響パラメタの中で相互関係の強い
    ピッチ周波数と平均パワを要素とするマトリクス状に構
    成する手段と、前記語頭及び語中及び語尾用各インデッ
    クステーブルに対応して前記音声波形ファイルをそれぞ
    れ準備し、前記各音声波形ファイルに、該当音韻が母音
    または有声子音である場合には、波形定常部における1
    ピッチ波形を格納し、無声子音である場合には、音素長
    程度の波形を格納し、前記文字列情報テーブルに、前記
    分割文字列の中心音韻の波形定常部でのピッチ周波数、
    平均パワ、前記中心音韻のアクセントの有無、単語中で
    の音韻位置を格納する手段と、前記文字列情報テーブル
    を元に分割文字列に対応した前記インデックステーブル
    及び音声波形ファイルを選択する手段を備えたことを特
    徴とする音声波形ファイル装置。
JP3045151A 1991-03-11 1991-03-11 音声波形ファイル装置 Pending JPH04281495A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3045151A JPH04281495A (ja) 1991-03-11 1991-03-11 音声波形ファイル装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3045151A JPH04281495A (ja) 1991-03-11 1991-03-11 音声波形ファイル装置

Publications (1)

Publication Number Publication Date
JPH04281495A true JPH04281495A (ja) 1992-10-07

Family

ID=12711277

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3045151A Pending JPH04281495A (ja) 1991-03-11 1991-03-11 音声波形ファイル装置

Country Status (1)

Country Link
JP (1) JPH04281495A (ja)

Similar Documents

Publication Publication Date Title
US6499014B1 (en) Speech synthesis apparatus
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
US6470316B1 (en) Speech synthesis apparatus having prosody generator with user-set speech-rate- or adjusted phoneme-duration-dependent selective vowel devoicing
US8340967B2 (en) Speech samples library for text-to-speech and methods and apparatus for generating and using same
JPH086591A (ja) 音声出力装置
US20010029454A1 (en) Speech synthesizing method and apparatus
US6829577B1 (en) Generating non-stationary additive noise for addition to synthesized speech
Kasparaitis Diphone Databases for Lithuanian Text‐to‐Speech Synthesis
van Rijnsoever A multilingual text-to-speech system
JP3094622B2 (ja) テキスト音声合成装置
Sudhakar et al. Development of Concatenative Syllable-Based Text to Speech Synthesis System for Tamil
JPH06318094A (ja) 音声規則合成装置
JPH04281495A (ja) 音声波形ファイル装置
Dessai et al. Development of Konkani TTS system using concatenative synthesis
JP3397406B2 (ja) 音声合成装置及び音声合成方法
Kaur et al. BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE
JP6159436B2 (ja) 読み記号列編集装置および読み記号列編集方法
JP3310217B2 (ja) 音声合成方法とその装置
JP2995814B2 (ja) 音声合成方法
JP3297221B2 (ja) 音韻継続時間長制御方式
JPH09292897A (ja) 音声合成装置
Kayte et al. Artificially Generatedof Concatenative Syllable based Text to Speech Synthesis System for Marathi
JPH08160983A (ja) 音声合成装置
Heggtveit et al. Intonation Modelling with a Lexicon of Natural F0 Contours
Ahmad et al. Towards designing a high intelligibility rule based standard malay text-to-speech synthesis system