JPH06161485A - 合成音声ポーズ設定方式 - Google Patents

合成音声ポーズ設定方式

Info

Publication number
JPH06161485A
JPH06161485A JP4313780A JP31378092A JPH06161485A JP H06161485 A JPH06161485 A JP H06161485A JP 4313780 A JP4313780 A JP 4313780A JP 31378092 A JP31378092 A JP 31378092A JP H06161485 A JPH06161485 A JP H06161485A
Authority
JP
Japan
Prior art keywords
speech
section
probability
pause
accent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4313780A
Other languages
English (en)
Inventor
Koji Matsuoka
浩司 松岡
Hisashi Obara
永 小原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP4313780A priority Critical patent/JPH06161485A/ja
Publication of JPH06161485A publication Critical patent/JPH06161485A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 本発明の目的は、ポーズの挿入間隔や個数を
適切に設定できるようになり、より自然な合成音声を出
力することができる合成音声ポーズ設定方式を提供する
ことを目的とする。 【構成】 本発明は、様々な品詞に対してモーラ数の統
計的な分布を調べておくことにより、アクセント句境界
にポーズを設定するか否かの判定を行い、ポーズを挿入
する品詞別ポーズ区間推定方式と、品詞による影響を無
視した無ポーズ区間の分布を用いることでポーズを挿入
するする平均化無ポーズ区間推定方式とがある。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、合成音声ポーズ設定方
式に係り、特に、漢字かな混じり文を入力して、アクセ
ント、ポーズ情報を付加した韻律情報列に変換後、合成
音声として出力する合成音声出力装置の合成音声ポーズ
設定方式に関する。
【0002】
【従来の技術】漢字かな混じり文を入力して、アクセン
ト、ポーズ情報を付加した韻律情報列に変換後、合成音
声として出力する合成音声出力装置が既に実用化されて
いる。また、これらの装置を用いて電子メールや、新聞
記事の内容を電話を通して音声で聴くことのできるサー
ビスが既に実施されている。しかし、現在の技術レベル
では、人間の発話音声と比較して読み、アクセント、ポ
ーズともに誤りや不自然さが残るため、適用範囲が限定
される。これにより利用者数の伸びが低迷しているとい
った問題がある。
【0003】日本語の漢字かな混じり文を入力して合成
音声を出力するには、形態素解析(入力された文を単語
単位に分割する解析)を行い、個々の単語に対する読み
を決める。この読みが単なる棒読みにならないように、
どこにアクセントとポーズを付ければよいかを決める。
【0004】日本語を自然に話すときには、いくつかの
単語をひとまとまりにして発生する。ひとまとまりとし
て発生され、アクセント核(ピッチ周波数のピーク部
分)を1個持つ単語列をアクセント句と呼ぶ。アクセン
ト句では、単語に固有のアクセントが変化する。このた
め、アクセント結合規則を用いてアクセント位置を調整
する。
【0005】ポーズは、適度な間隔をおいて、文の内容
が理解し易いような文法上、意味上の切れ目に適切な長
さで設定する。このため、隣接するアクセントの句間の
結合の強さ、アクセント句のモーラ数、句読点を調べて
ポーズを設定するか否かを決める。ここで、モーラ数
は、読みをカナ文字で表したときのカナ数に相当する。
但し、促音、長音は1モーラとカウントし、濁音、半濁
音、拗音はカウントしない。
【0006】以下に、従来のポーズ設定方法として、2
つの方法を挙げて説明する。
【0007】係り受け解析を用いたポーズ設定方法
[箱田、佐藤:「文音声合成における音調規則」電子情
報学会論文誌Vol. 63-D, No9, pp. 715-722 ]は、係り
受け解析により、アクセント句の修飾・被修飾の関係を
求める。この関係から入力文の全てのアクセント句につ
いて、分離度Dを求める方法である。ここで、分離度D
とは、着目するアクセント句から修飾先のアクセント句
に至るアクセント句数と定義する。一般に、分離度Dが
大きい程、隣接するアクセント句間の結合が弱くなるの
で、ポーズが発生し易くなる。
【0008】また、肺の呼気圧に基づく生理的制約か
ら、概ね一定のモーラ数(平均呼気段落内モーラ数)毎
にポーズが挿入される。アクセント句の長さLをアクセ
ント句境界を挟む2つのアクセント句のモーラ数の和と
定義する。アクセント句の長さLが大きいほど、ポーズ
が発生し易くなる。
【0009】分離度Dとアクセント句の長さLとの両方
の影響を考慮し、ポーズを設定する指標として、D×L
を用いる。分離度Dの小さい境界を挟む隣接する2つの
アクセント句から出発して、再帰的にアクセント句同士
の統合を繰り返す。最終的に一番切れ目の大きい境界に
至るまで順にD×Lを計算し、閾値を越えたアクセント
句境界にポーズを設定する。
【0010】形態素解析によるポーズ設定方法[岩田
他:「残差制御型音声合成方式を用いた日本語テキスト
音声音声変換システム」電子情報通信学会音声研究会資
料、SP90−56,pp15−22]は、形態素解析
により得られる単語の品詞情報を用いる方法である。こ
の方法は、係り受け解析が不要であるので、上記の問題
を回避できる。また、この方法は、大量の文章音声デー
タベースにおいて、単語の直前と直後にそれぞれポーズ
がどの程度挿入されやすいかを単語の品詞毎に調べる。
ポーズの挿入し易さの指標として、ポーズ挿入確率を導
入する。
【0011】ここで、ポーズ挿入確率は、データベース
中のある品詞の全出現数に対するポーズを伴ったその品
詞の出現数の割合と定義する。アクセント句境界の直前
にある品詞he の単語の後にポーズが置かれるポーズ挿
入確率Pe (he )と、アクセント句境界の直後にある
品詞hb の単語の前にポーズが置かれるポーズ挿入確率
b (hb )とを音声データベースから予め求めてお
く。
【0012】合成する文のモーラ数と、上記音声データ
ベースから求めた平均呼気段落内モーラ数からポーズを
いくつ挿入するかを決める。次に、各アクセント句の前
後の単語の品詞he とhb からポーズ挿入確率Pe (h
e )+Pb (hb )を求める。この値が大きいアクセン
ト句の境界から順に必要な数だけポーズを設定する。
【0013】
【発明が解決しようとする課題】しかしながら、従来の
係り受け解析によるポーズ設定方法では、文の構造から
適切なポーズ位置を決定しているので、ポーズ設定精度
が高いが、その前提となる係り受け解析には、かなりの
計算量を必要とする。また、現状では、係り受け構造を
常に正確に解析することは難しく、解析精度の点で問題
がある。
【0014】また、形態素解析によるポーズ設定方法で
は、文の長さから決まる一定の個数のポーズをその間隔
(平均呼気段落内モーラ数)を考慮せずに挿入してい
る。このため、連続するアクセント句境界に、ポーズ
挿入確率が高い(低い)品詞が存在すると、平均呼気段
落内モーラ数より小さい(大きい)間隔で、ポーズが挿
入される。また、本来、ポーズの個数は文に現れる品詞
に依存するが、文の長さから一意に決まるといった欠点
がある。従って、計算量や解析精度の観点から実用レベ
ルに達している形態素解析を利用しているが、ポーズの
挿入間隔や個数を適切に設定できないためにポーズ設定
精度が低い。
【0015】本発明は上記の点に鑑みなされたもので、
上記問題を解決し、ポーズの挿入間隔や個数を適切に設
定できるようになり、より自然な合成音声を出力するこ
とができる合成音声ポーズ設定方式を提供することを目
的とする。
【0016】
【課題を解決するための手段】図1は本発明の第1の原
理構成図を示す。
【0017】本発明の合成音声ポーズ設定方式は、漢字
かな混じり文100を入力して、形態素解析を行い、各
単語の品詞を求めることにより、アクセント句単位にア
クセントを付与して、アクセント句境界にポーズを付与
した読みかな列を作成して、読みかな列を音声合成装置
で音声に変換する音声合成装置内のアクセント句境界に
ポーズを付与する処理において、漢字かな混じり文の各
アクセント句境界について、直前の単語の品詞he と直
後の単語の品詞hb を導出する品詞導出手段101と、
ポーズがあるアクセント境界までのモーラ数が属する前
置品詞区間ie と後置品詞区間ib を導出する品詞区間
導出手段102と、直前の単語が品詞he であるアクセ
ント句境界の集合に対して、ポーズがあるアクセント境
界までのモーラ数に応じて、区間1〜区間ne に分類し
た前置品詞区間ie を設定し、モーラ数が区間1〜区間
e (1≦ie ≦ne )のいずれかの前置品詞区間に属
する前置品詞累積確率Pe (he ,ie )を記録する前
置品詞累積確率テーブル103と、直後の単語が品詞h
b であるアクセント句境界の集合に対してポーズがある
アクセント境界までのモーラ数に応じて、区間1〜区間
b に分類した後置品詞区間設定し、モーラ数が区間1
〜区間ib (1≦ib ≦nb )のいずれかの後置品詞区
間に属する後置品詞累積確率Pb (hb ,ib )を記録
する後置品詞累積確率テーブル104と、品詞導出手段
101により導出された直前の単語の品詞he と直後の
単語の品詞hb を用いて、前置品詞累積確率テーブル1
03と後置品詞累積確率テーブル104からそれぞれ前
置品詞累積確率Pe (he ,ie )と後置品詞累積確率
b (hb ,ib )を検索する累積確率検索手段105
と、累積確率検索手段105により検索された前置品詞
累積確率Pe (he ,ie)と後置品詞累積確率P
b (hb ,ib )を用いて、 線形識別関数 G=C1 ×Pe (he ,ie )+C2 ×Pb (hb ,i
b )+C3 (但し、C1 ,C2 ,C3 は定数)を計算し、線形識別
関数G≧0であるときに、各アクセント句境界にポーズ
を挿入するポーズ挿入手段106とを含む。
【0018】また、本発明の合成音声ポーズ設定方式
は、漢字かな混じり文100を入力して、形態素解析を
行い、各単語の品詞を求めることにより、アクセント句
単位にアクセントを付与して、アクセント句境界にポー
ズを付与した読みかな列を作成して、読みかな列を音声
合成装置で音声に変換する音声合成装置内のアクセント
句境界にポーズを付与する処理において、漢字かな混じ
り文の各アクセント句境界について、直前の単語の品詞
e と直後の単語の品詞hb を導出する品詞導出手段1
01と、ポーズがあるアクセント境界までのモーラ数が
属する区間ip を導出する区間導出手段102と、品詞
導出手段101により直前の単語が品詞he であるアク
セント句境界の集合に対してポーズが置かれる確率を記
録する前置品詞確率テーブル201と、品詞導出手段1
01により直後の単語が品詞hb であるアクセント句境
界の集合に対してポーズが置かれる確率を記録する後置
品詞確率テーブル202と、区間導出手段102で導出
された区間ip を用いて、ポーズがあるアクセント句境
界までのモーラ数に応じて区間1〜区間np に分類した
区間を設定し、モーラ数が区間1〜区間ip (1≦ip
≦np )のいずれかの区間に属する累積確率P
p (ip )を記録する累積確率テーブル203と、前置
品詞確率テーブル201、後置品詞確率テーブル202
及び、累積確率テーブル203、からそれぞれ累積確率
p (ip ),前置品詞確率Pe (he )、及び後置品
詞確率Pb (hb )を検索する確率検索手段204と、
確率検索手段204で検索された累積確率P
p (ip ),前置品詞確率Pe (he )、及び後置品詞
確率Pb (hb )を用いて、 線形識別関数 G=C1 ×Pe (he )+C2 ×Pb (hb )+C3 ×
p (ip )+C4 (但し、C1 ,C2 ,C3 ,C4 は定数) を計算し、線
形識別関数G≧0であるときに、各アクセント句境界に
ポーズを挿入するポーズ挿入手段205とを含む。
【0019】
【作用】本発明の第1の方式である品詞別無ポーズ区間
推定方式は、様々な品詞に対してモーラ数の統計的な分
布を調べておくことにより、アクセント句境界にポーズ
を設定するか否かを判定して、アクセント句境界直前の
単語の品詞と無ポーズ区間のモーラ数が属する前置品詞
区間とに対応して、ポーズが置かれる確率と、アクセン
ト句境界の直後の単語の品詞と無ポーズ区間モーラ数が
属する後置品詞区間とに対応してポーズが置かれる確率
による線形識別関数により、ポーズを挿入するか否かを
判定している。これにより、様々な品詞に対して個別に
無ポーズ区間の分布を求めることができる。
【0020】また、本発明の第2の方式である平均化無
ポーズ区間推定方式は、信頼できる無ポーズ区間分布を
求めるためには大量の音声データベースが必要となるた
め、用意できる音声データベースが小さい場合を考慮し
て、品詞による影響を無視した無ポーズ区間の分布を用
いて近似させることにより、無ポーズ区間のモーラ数が
属する区間に応じてポーズが置かれる確率による線形識
別関数を用いて、ポーズを挿入するか否かを判定してい
る。これにより、用意できる音声データベースが小さい
場合に、品詞によるばらつきを平均化した無ポーズ区間
の分布を求めることができる。
【0021】
【実施例】本発明は、品詞別無ポーズ区間推定方式と平
均化無ポーズ区間推定方式がある。最初に本発明の前提
条件及び、両方式の共通部分について説明し、その後
に、品詞別無ポーズ区間推定方式を第1の実施例とし、
平均化無ポーズ区間推定方式を第2の実施例として説明
する。
【0022】図3は本発明で対象とする合成音声出力装
置の構成例を示す。
【0023】同図に示す合成音声出力装置は、合成音声
として出力対象となる漢字かな混じり文1を単語単位に
分割する形態素解析処理2に入力し、形態素解析処理2
により単語単位に分割した分かち書き単語列3が生成さ
れ、読み付与処理4−1、アクセント付与処理4−2、
アクセント情報付きカナ列4−3、ポーズ付与処理4−
4の各処理を行う韻律付与処理4に入力される。韻律付
与処理4からアクセント句として適切な読み、アクセン
ト、ポーズが設定されたアクセント・ポーズ情報付カナ
列5が出力され、アクセント・ポーズ情報付きカナ列5
は、合成音声出力装置6に入力され、合成音声出力装置
6は、合成音声を出力する。
【0024】図4は、形態素解析処理の処理例を示すフ
ローチャートである。
【0025】形態素解析処理は、まず、漢字かな混じり
文1を入力して(ステップ1)、形態素解析処理を行い
(ステップ2)、分割された各単語に単語品詞、単語読
み、単語アクセントが付与された文法情報付分かち書き
単語列3を出力する(ステップ3)。この処理は、既存
技術であり、実用に耐え得る技術として確立されてい
る。
【0026】図5は読み付与処理とアクセント付与処理
の処理例のフローチャートである。
【0027】まず、文法情報付き分かち書き単語列3が
入力され(ステップ4)、読み付与処理4−1では、読
みが付与され(ステップ5)、韻律付与処理4のアクセ
ント付与処理4−2によりアクセント句単位にそれぞれ
読み、アクセントを設定し(ステップ6)、アクセント
情報付きカナ列を出力する(ステップ7)。なお、アク
セント情報付きカナ列において、“/”はアクセント句
境界を表し、
【数1】 はアクセント位置を表す。
【0028】ステップ5の読み付与処理4−1では、同
図中に下線で示される通り、濁音化(“ケンキュウ”→
“ケンキュウ ジョ”)や促音化(“イチカイ”→“イ
ッカイ”)となる処理が行われる。
【0029】また、ステップ6のアクセント句付与処理
4−2では、同図中に下線で示される通り、
【数2】 のように単語単位のアクセント位置を修正する。
【0030】(1)品詞別無ポーズ区間推定方式 次に、本発明の第1の実施例として品詞別無ポーズ区間
推定方式の概要を説明する。
【0031】品詞別ポーズ区間推定方式は、様々な品詞
に対してモーラ数mの統計的な分布を調べておくことに
より、アクセント句境界にポーズを設定するか否かを判
定する方法である。
【0032】単語の品詞情報に着目すると、その単語の
前後にポーズが挿入されやすい品詞とそうでない品詞が
ある。例えば、読点「、」や、係り助詞「は」の直後に
ポーズが挿入されやすく、補助動詞「おく」の直前には
ポーズが挿入されにくい。
【0033】品詞別無ポーズ区間推定方式では、大量の
音声データベースを予め用意して、品詞と平均呼気段落
内モーラ数との相互の影響によるポーズの発生しやすさ
を定量化する。このため、アクセント句境界aに対し
て、無ポーズ区間モーラ数mという指標を導入する。ア
クセント句境界aから文頭方向に順にアクセント句境界
を調べ、 ポーズが設定されたアクセント句境界が見つかる場合
には、最初にポーズが設定されたアクセント句境界まで
のモーラ数をmとする。ここで、アクセント句境界a自
身にポーズが設定されるときには、m=0とする。
【0034】ポーズが設定されたアクセント句境界が
ない場合には、文頭までのモーラ数をmとする。
【0035】品詞別無ポーズ区間推定方式は、前準備と
して、音声データベースに対して以下の統計データを抽
出する。
【0036】前置品詞累積確率Pe (he ,ie ) アクセント句境界の直前の単語(前のアクセント句の末
尾の単語)の品詞の影響を調べる。直前の単語の品詞が
e であるアクセント句境界ae の集合についての無ポ
ーズ区間のモーラ数me を測定する。
【0037】この無ポーズ区間のモーラ数me を区間1
〜区間ne に分類した前置品詞区間を設ける。区間iの
範囲を me (i−1)≦me <me (i) と定義する。ここで、i=1,2,…,ne とし、モー
ラ数me (i)は前置品詞区間の境界であり、m
e (0)=0とし、me (ne )は測定されるme の最
大値より大きな値とする。区間iに属するアクセント句
境界の個数fe (i)を集計する。アクセント句境界a
e から文頭方向に向かって区間1〜区間ie (1≦ie
≦ne )のいずれかの区間にポーズが挿入される確率を
前置品詞累積確率Pe (he ,ie )と呼び、次式で定
義する。
【数3】 音声データベースから得たPe (he ,ie )を前置品
詞累積確率テーブルに記録する。
【0038】後置品詞累積確率Pb (hb ,ib ) アクセント句境界の直後の単語(後ろのアクセント句の
先頭の単語)の品詞の影響を調べる。直後の単語の品詞
がhb であるアクセント句境界ab の集合についての無
ポーズ区間モーラ数mb を測定する。
【0039】この無ポーズ区間モーラ数mb に分類した
後置品詞区間を設ける。区間iの範囲を mb (i−1)≦mb <mb (i) と定義する。ここで、i=1,2,…,nb とする。無
ポーズ区間モーラ数mb(i)は後置品詞区間の境界で
あり、mb (0)=0とし、mb (nb )は測定される
無ポーズ区間モーラ数mb の最大値より大きな値とす
る。区間iに属するアクセント句境界の個数fb (i)
を集計する。アクセント句境界ab から文頭方向に向か
って、区間1〜区間ib (1≦ib ≦nb )にいずれか
の区間にポーズが挿入される確率を後置品詞累積確率P
b (hb ,ib )と呼び、次式で定義する。
【数4】 音声データベースから得たPb (hb ,ib )を後置品
詞累積テーブルに記録する。
【0040】入力部の各アクセント句境界aについて、
次の線形識別関数Gを計算して、ポーズを挿入するか否
かを判定する。 G=C1 ×Pe (he ,ie )+C2 ×Pb (hb ,ib )+C3 (3) 線形識別関数G≧0となるアクセント句境界にはポーズ
を挿入し、G<0となるアクセント句境界にはポーズを
挿入しない。
【0041】ここで、C1 ,C2 ,C3 は予め設定した
定数である。着目するアクセント句境界に対する無ポー
ズ区間モーラ数をmとする。この無ポーズ区間モーラ数
mが属する前置品詞区間と後置品詞区間をそれぞれ
e 、ib とする。アクセント句境界aの前後の単語の
品詞をそれぞれhe とhb とする。上記の前置品詞累積
確率Pe (he ,ie )と後置品詞累積確率P
b (hb ,ib )は、それぞれ前置品詞累積確率テーブ
ルと後置品詞累積確率テーブルから求める。
【0042】なお、(3) 式の定数C1 ,C2 ,C3 は、
統計処理の一手法である判別分析を適用して、誤判定を
小さくする方法が既に確立している。音声データベース
のアクセント句境界をポーズがある集合S1 とポーズが
ない集合S2 に分類し、それぞれの集合に属する前置品
詞累積確率Pe (he ,ie )と後置品詞累積確率P b
(hb ,ib )を測定すれば、定数C1 ,C2 ,C3
決定できる。前置品詞累積確率Pe (he ,ie )と後
置品詞累積確率Pb (hb ,ib )が正規分布であると
きには、文献:[河口:「多変量解析入門I」森北出
版,pp.83-87]に解析的な方法が記述されている。ま
た、一般の分布であるときには、[長尾他:「パターン
認識と図形処理」岩波書店、pp.23-26]に学習による方
法が記述されている。また、定数C1 =0、又はC2
0とすることにより、それぞれ前置品詞累積確率P
e (he ,ie )と後置品詞累積確率Pb (hb
b )を無視して処理量を削減した簡便な方法をとるこ
ともできる。
【0043】上記のことから、品詞別無ポーズ区間推定
方式によるポーズ設定手順は次の通りである。 入力部のすべてのアクセント句境界について無ポーズ
区間モーラ数mを求める。 アクセント句境界の前後の品詞he 、hb を求める。 無ポーズ区間モーラ数mが属する前置品詞区間ie
後置品詞区間ib を求める。 前置品詞区間ie と品詞he により前置品詞累積確率
テーブルを検索し、前置品詞累積確率Pe (he
e )を求める。また、後置品詞区間ib と品詞h b
よる後置品詞累積確率テーブルを検索し、後置品詞累積
確率Pb (hb ,i b )を求める。 線形識別関数Gを計算する。線形識別関数G≧0であ
るアクセント句境界にポーズを設定する。
【0044】図6は、本発明の第1の実施例の品詞別無
ポーズ区間設定方式の構成を示す。同図は、図3の韻律
付与処理4のポーズ付与処理4−4の詳細な構成を示
す。
【0045】ポーズ付与処理44は、アクセント情報付
きカナ列4−3を入力して、各アクセント句境界の前後
の品詞he 、hb を導出する品詞抽出処理11、アクセ
ント情報付きカナ列4−3から前置品詞区間ie と後置
品詞区間ib を導出する区間抽出処理12、前置品詞区
間ie と後置品詞区間ib 、前置品詞累積確率Pe (h
e ,ie )を記録する前置品詞累積確率テーブル14
と、後置品詞累積確率P b (hb ,ib )を記録する後
置品詞累積確率テーブル15を有し、品詞he 、hb
入力して、前置品詞累積確率Pe (he ,ie )、後置
品詞累積確率Pb(hb ,ib )を検索する確率テーブ
ル検索処理13、及び前置品詞累積確率P e (he ,i
e )と後置品詞累積確率Pb (hb ,ib )から線形識
別関数Gを計算することによりアクセント・ポーズ情報
付きカナ列5を出力する線形識別関数演算処理16より
構成される。
【0046】図7は、本発明の第1の実施例の確率テー
ブル検索処理の構成例を示し、図8は、本発明の第1の
実施例の品詞別無ポーズ区間推定方式によるテーブルの
具体例を示す。図7において、aは、前置品詞累積テー
ブルの内容を示し、bは、後置品詞累積テーブルの内容
を示す。
【0047】図7は、図6の確率テーブル検索処理13
の前置品詞累積確率テーブル14と、後置品詞累積確率
テーブル15構成を示す。
【0048】図7において、前置品詞累積確率テーブル
14は、品詞he (he =h1 ,h 2,…,hr )と前
置品詞区間ie (ie =1,2,…,ne )との組み合
わせに対する前置品詞累積確率Pe (he ,ie )を検
索できる。
【0049】また、後置品詞累積確率テーブル15は、
品詞hb (hb =h1 ,h2 ,…,hb )と前置品詞区
間ib (ib =1,2,…,nb )との組み合わせに対
する後置品詞累積確率Pb (hb ,ib )を記録し、区
間抽出処理12で導出した後置品詞区間ib から後置品
詞累積確率Pb (hb ,ib )を決定する。
【0050】なお、上記の前置品詞累積確率テーブル1
4と、後置品詞累積確率テーブル15は、品詞による分
類を採用したが、単語あるいは、意味カテゴリによる分
類にも容易に拡張できる。
【0051】図9は、本発明のポーズ付与処理の具体例
を示す。アクセント情報付きカナ列4−3の具体例とし
て“カナダグランプリデ/ツカウ/エンジンヲ、/ケン
キュウジョデ/アラタメテ/モウ/イッカイ/ミタ”
(アクセント句境界は“/”で表している)に対して、
ポーズを設定する方法を説明する。
【0052】同図において、アクセント情報付きカナ列
4−3が入力され(ステップ8)、ポーズ付与処理4−
4が行われる(ステップ9)、ポーズ付与処理4−4に
よりアクセント・ポーズ情報付きカナ列5が出力される
(ステップ10)。
【0053】同図において、アクセント・ポーズ情報付
きカナ列5のカナ列の上の数値は、アクセント句境界を
示す。
【0054】ここで、次の前提条件を仮定する。 即ち、前置品詞区間は、 区間1 … 0≦m<5 区間2 … 5≦m<10 後置品詞区間は、 区間1 … 0≦m<4 区間2 … 4≦m<7 区間3 … 7≦m<10 に分割する。
【0055】・(3) 式の線形識別関数は、 G=Pe (he ,ie )+Pb (hb ,ib )−0.5 とする。
【0056】図10は、本発明の第1の実施例の品詞別
無ポーズ区間推定方式によるポーズ付与処理仮定例を示
す。
【0057】アクセント情報付きカナ列4−3の例にお
いて、先頭のアクセント句境界に対して、ポーズの判定
を行う。同図は、アクセント句境界が1である行に相当
する。 無ポーズ区間モーラ数mは、文頭からのモーラ数9で
ある。 アクセント句境界の前後の品詞は、それぞれ品詞he
=助詞、品詞hb =動詞である。 前置品詞区間は、区間ie =2であり、後置品詞区間
は区間ib =3である。 前置品詞累積確率テーブルから前置品詞累積確率Pe
(助詞、2)=0.3を、後置品詞累積確率テーブルか
ら後置品詞累積確率Pb (動詞、3)=0.3を得る。 線形識別関数G=0.3+0.3−0.5=0.1≧
0であるので、ポーズを設定する。
【0058】他のアクセント句境界についても同様にポ
ーズの有無を判定する。その結果、図8に示すアクセン
ト・ポーズ情報付きカナ列を導出できる。
【0059】(2)平均化無ポーズ区間推定方式 次に、本発明の第2の実施例の平均化無ポーズ区間推定
方式について説明する。まず、平均化無ポーズ区間推定
方式の概要を説明する。
【0060】上記の品詞別無ポーズ区間推定方式では、
様々な品詞に対して個別に無ポーズ区間の分布を求め
た。信頼できる分布を求めるには、大量の音声データベ
ースが必要となる。平均化ポーズ区間推定方式は、容易
できる音声データベースが小さい場合を考慮して、品詞
による影響を無視した(品詞によるばらつきを平均化し
た)無ポーズ区間の分布を用いることで近似する。但
し、品詞によるポーズの挿入し易さのばらつきは、既に
述べた従来の技術の形態素解析によるポーズ設定法と同
様にアクセント句境界の前後の品詞に対応したポーズ挿
入確率Pe (he )、Pb (hb )を用いる。
【0061】本方式では、前準備として、音声データベ
ースから以下の統計データを抽出する 累積確率Pp (ip ) 平均呼気段落内モーラ数によるポーズの発生しやすさを
ポーズ間隔モーラ数m p という指標により定量化する。
この間隔モーラ数mp は、音声データベースのすべての
文に対して次の手順で求める。・文頭から文末方向にア
クセント句境界を調べ、ポーズが設定された最初のアク
セント句境界までのモーラ数をmp とする。・ポーズが
見つかったアクセント句境界から、さらに文末方向にア
クセント句境界を調べ、ポーズが設定された次のアクセ
ント句境界までのモーラ数をmp とする。文末まで、こ
の処理を繰り返す。
【0062】以上で求めたモーラ数をmp の分布を測定
する。このモーラ数をmp を区間1〜区間nに分割す
る。区間iの範囲を mp (i−1)≦mp <mp と定義する。ここで、i=1,2,…,nとする。mp
(i)は、区間の境界であり、モーラ数をmp (0)=
0とし、モーラ数をmp (n)は測定されるモーラ数を
p の最大値より大きな値とする。区間iに属するモー
ラ数の個数f(i)を集計する。あるアクセント句境界
について、文頭方向に向かって、区間1〜区間ip のい
ずれかの区間ip (1≦ip ≦n)にポーズが挿入され
る確率を累積確率Pp (ip )と呼び、次式で定義す
る。
【数5】 累積確率Pp (ip )は、アクセント句境界の前後の品
詞による無ポーズ区間のばらつきを平均化した確率とな
っている。Pp (ip )を累積確率テーブルに記録す
る。
【0063】前置品詞確率Pe (he ) 音声データベースのすべてのアクセント句境界を直前の
単語の品詞he により分類する。品詞he に対するアク
セント句境界にポーズが挿入される確率を前置品詞確率
e (he )と呼ぶ。音声データベースから求めた前置
品詞確率Pe (he )を前置品詞確率テーブルに記録す
る。
【0064】後置品詞確率Pb (hb ) 音声データベースのすべてのアクセント句境界を直後の
単語の品詞hb により分類する。品詞hb に対するアク
セント句境界にポーズが挿入される確率を後置品詞確率
b (hb )と呼ぶ。音声データベースから求めたPb
(hb )を後置品詞確率テーブルに記録する。
【0065】入力文の各アクセント句境界aについて、
次の線形識別関数Gを計算して、ポーズを挿入するか否
かを判定する。 G=C1 ×Pe (he )+C2 ×Pb (hb )+C3 p (ip )+C4 (5) 線形識別関数GがG≧0となるアクセント句境界には、
ポーズを挿入し、線形識別関数GがG<0となるアクセ
ント句境界にはポーズを挿入しない。
【0066】ここで、C1 ,C2 ,C3 ,C4 は予め設
定した定数である。he とhb はそれぞれ、アクセント
句境界の前後の単語の品詞である。Pe (he )、Pb
(h b )は、それぞれ前置品詞確率テーブル、後置品詞
確率テーブルから求める。i p は、アクセント句境界a
に対する無ポーズ区間モーラ数m(品詞別無ポーズ区間
推定方式で既に述べたものと同一である)が属する区間
である。累積確率Pp(ip )は、累積確率テーブルか
ら求める。
【0067】なお、品詞別無ポーズ区間推定方式と同様
に、(5) 式の定数C1 ,C2 ,C3,C4 は、判別分析
を適用して誤判定を小さくするように決定できる。
【0068】上記のことから、平均化無ポーズ区間推定
方式によるポーズ設定手順は次の通りである。 入力文のすべてのアクセント句境界について無ポーズ
区間モーラ数mを求める アクセント句境界の前後の品詞he 、hb を求める。 モーラ数mが属する区間ip を求める。 区間ip により前置品詞累積確率テーブルを検索し、
前置品詞確率Pe (he)を求める。品詞hb により後
置品詞確率テーブルを検索し、後置品詞確率P
b(hb )を求める。 線形識別関数Gを計算する。線形識別関数GがG≧0
であるアクセント句境界にポーズを設定する。
【0069】次に、本発明の第2の実施例について詳細
に説明する。
【0070】図11は、本発明の第2の実施例の平均化
無ポーズ区間推定方式によるポーズ付与処理の構成例を
示す。同図中、図6と同一構成部分には同一符号を付
し、その説明を省略する。
【0071】同図は、図3のポーズ付与処理4−4の詳
細であり、本発明で対象とする平均化無ポーズ区間推定
方式による構成例である。
【0072】品詞抽出処理21は、アクセント情報付き
カナ列を入力して、各アクセント句境界の品詞he 、h
b を導出する。区間抽出処理22は、このアクセント情
報付きカナ列4−3から区間ip を導出する。確率テー
ブル検索処理23は、品詞h e 、hb 、区間ip を入力
して、前置品詞確率Pe (he )、後置品詞確率P
b(hb )、累積確率Pp (ip )を検索する。前置品
詞確率テーブル24は、前置確率Pe (he )を記録す
る。後置品詞確率テーブル25は、後置品詞確率P
b (hb )を記録する。累積確率テーブル26は、累積
確率Pp (ip )を記録する。線形識別関数演算処理2
7は、前置品詞確率Pe (he )、後置品詞確率P
b (hb )、累積確率Pp (ip )から線形識別関数G
を計算することにより、アクセント・ポーズ情報付きカ
ナ列5を出力する。
【0073】図12は、本発明の第2の実施例の平均化
無ポーズ推定方式における確率テーブル検索処理の構成
例を示す。
【0074】前置品詞確率テーブル24は、品詞h
e (he =1,2,…,r)に対する前置品詞確率Pe
(he )を記録し、品詞抽出処理21で指定された品詞
e から前置品詞確率Pe (he )を検索できる。
【0075】後置品詞確率テーブル25は、品詞h
b (hb =1,2,…,r)に対する後置確率Pb (h
b )を記録し、品詞抽出処理21で指定された品詞hb
から後置品詞確率Pb (hb )を検索できる。
【0076】累積確率テーブル26は、区間ip (ip
=1,2,…,np )に対する累積確率Pp (ip )を
記録し、区間抽出処理22で指定された区間ip から累
積確率Pp (ip )を検索できる。
【0077】なお、上記の前置品詞確率テーブル24と
後置品詞確率テーブル25は、品詞による分類を採用し
たが、単語あるいは、意味カテゴリによる分類にも容易
に拡張できる。
【0078】図13は、本発明の第2の実施例の平均化
無ポーズ推定方式におけるテーブルの具体例を示す。同
図により、品詞別無ポーズ区間推定方式で用いた図9の
ポーズ付与処理の具体例に対して、次の前提条件を仮定
する。ここでは、図13の前置品詞確率テーブル24、
後置品詞確率テーブル25及び累積確率テーブル26を
適用する。区間は、 区間1 … 0≦m<4 区間2 … 4≦m<7 区間3 … 7≦m<10 に分割する。 ・(5) 式の線形識別関数Gは、 G=Pe (he )+Pb (hb )+Pp (ip )−0.
5 とする。
【0079】図14は、本発明の第2の実施例の平均化
無ポーズ区間推定方式によるポーズ付与処理仮定の例を
示す。
【0080】同図、図9の具体例に対するポーズの処理
仮定を示す。先頭のアクセント句境界に対してポーズの
判定をする。図14ではアクセント句境界が1の行に相
当する。 無ポーズ区間モーラ数は、文頭からのモーラ数であ
り、モーラ数mはm=9である。 アクセント句境界の前後の品詞は、それぞれ品詞he
=助詞、品詞hb =動詞である。 区間は、ip =3である。 前置品詞確率テーブル24から前置品詞確率Pe (助
詞)=0.3を、後置品詞確率テーブル25から後置品
詞確率Pb (動詞)=0.2を、累積確率テーブル26
から累積確率Pp (3)=0.2を得る。 線形識別関数Gについて、 G=0.3+0.2+0.2−0.5=0.2≧0 であるので、ポーズを設定する。
【0081】他のアクセント句境界についても同様にポ
ーズの有無を判定する。その結果、品詞別無ポーズ区間
推定方式と同一の図9のアクセント・ポーズ情報付きカ
ナ列5を導出できる。
【0082】
【発明の効果】上述のように、本発明の品詞別無ポーズ
区間推定方式によれば、アクセント句境界の直前の単語
の品詞と無ポーズ区間モーラ数が属する前置品詞区間と
に対応してポーズが置かれる確率と、アクセント句境界
の直後の単語の品詞と無ポーズ区間モーラ数が属する後
置品詞区間とに対応してポーズが置かれる確率による線
形識別関数により、ポーズを挿入するか否かを判定して
いる。
【0083】また、本発明の平均化無ポーズ区間推定方
式によれば、無ポーズ区間モーラ数が属する区間に対応
してポーズが置かれる確率と、アクセント句境界の前後
の単語の品詞に応じてポーズが置かれる確率による線形
識別関数により、ポーズを挿入するか否かを判定してい
る。
【0084】このため、ポーズの挿入間隔や、個数を適
切に設置できるようになり、より自然な合成音声を出力
することができる。
【図面の簡単な説明】
【図1】本発明の第1の原理構成図である。
【図2】本発明の第2の原理構成図である。
【図3】本発明で対象とする合成音声出力装置の構成例
を示す図である。
【図4】形態素解析処理の処理例を示すフローチャート
である。
【図5】読み付与処理とアクセント付与処理の処理例の
フローチャートである。
【図6】本発明の第1の実施例の品詞別無ポーズ区間推
定方式の構成を示す図である。
【図7】本発明の第1の実施例の確率テーブルの検索処
理の構成例を示す図である。
【図8】本発明の第1の実施例の品詞別無ポーズ区間推
定方式によるテーブルの具体例を示す図である。
【図9】本発明のポーズ付与処理の具体例を示すフロー
チャートである。
【図10】本発明の第1の実施例の品詞別無ポーズ区間
推定方式によるポーズ付与処理の過程例を示す図であ
る。
【図11】本発明の第2の実施例の平均化無ポーズ区間
推定方式によるポーズ付与処理の構成例を示す図であ
る。
【図12】本発明の第2の実施例の平均化無ポーズ推定
方式における確率テーブル検索処理の構成例を示す図で
ある。
【図13】本発明の第2の実施例の平均化無ポーズ推定
方式におけるテーブルの具体例を示す図である。
【図14】本発明の第2の実施例の平均化無ポーズ区間
推定方式によるポーズ付与処理過程例を示す図である。
【符号の説明】
1 漢字かな混じり文 2 形態素解析処理 3 文法情報付き分かち書き単語列 4 韻律付与処理 4−1 読み付与処理 4−2 アクセント付与処理 4−3 アクセント情報付きカナ列 4−4 ポーズ付与処理 5 アクセント・ポーズ情報付きカナ列 6 合成音声出力処理 11,21 品詞抽出処理 12,22 区間抽出処理 13,23 確率テーブル検索処理 14 前置品詞累積確率テーブル 15 後置品詞累積確率テーブル 16 線形識別関数演算処理 24 前置品詞確率テーブル 25 後置品詞確率テーブル 26 累積確率テーブル 27 線形識別関数演算処理 100 漢字かな混じり分 101 品詞導出手段 102 品詞区間導出手段 103 前置品詞累積テーブル 104 後置品詞累積テーブル 105 累積確率検索手段 106 ポーズ挿入手段 201 前置品詞確率テーブル 202 後置品詞確率テーブル 203 累積確率テーブル 204 確率検索手段 205 ポーズ挿入手段

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 漢字かな混じり文を入力して、形態素解
    析を行い、各単語の品詞を求めることにより、アクセン
    ト句単位にアクセントを付与して、アクセント句境界に
    ポーズを付与した読みかな列を作成して、該読みかな列
    を音声合成装置で音声に変換する音声合成装置内のアク
    セント句境界にポーズを付与する処理において、 該漢字かな混じり文の各アクセント句境界について、直
    前の単語の品詞he と直後の単語の品詞hb を導出する
    品詞導出手段と、 ポーズがあるアクセント境界までのモーラ数が属する該
    前置品詞区間ie と後置品詞区間ib を導出する品詞区
    間導出手段と、 直前の単語が品詞he であるアクセント句境界の集合に
    対して、ポーズがあるアクセント境界までのモーラ数に
    応じて、区間1〜区間ne に分類した前置品詞区間ie
    を設定し、該モーラ数が区間1〜区間ie (1≦ie
    e )のいずれかの前置品詞区間に属する前置品詞累積
    確率Pe (he ,ie )を記録する前置品詞累積確率テ
    ーブルと、 直後の単語が品詞hb であるアクセント句境界の集合に
    対してポーズがあるアクセント境界までのモーラ数に応
    じて、区間1〜区間nb に分類した後置品詞区間設定
    し、該モーラ数が区間1〜区間ib (1≦ib ≦nb
    のいずれかの後置品詞区間に属する後置品詞累積確率P
    b (hb ,ib )を記録する後置品詞累積確率テーブル
    と、 該品詞導出手段により導出された該直前の単語の品詞h
    e と該直後の単語の品詞hb を用いて、該前置品詞累積
    確率テーブルと該後置品詞累積確率テーブルからそれぞ
    れ前置品詞累積確率Pe (he ,ie )と後置品詞累積
    確率Pb (hb,ib )を検索する累積確率検索手段
    と、 該累積確率検索手段により検索された該前置品詞累積確
    率Pe (he ,ie )と該後置品詞累積確率P
    b (hb ,ib )を用いて、 線形識別関数 G=C1 ×Pe (he ,ie )+C2 ×Pb (hb ,i
    b )+C3 (但し、C1 ,C2 ,C3 は定数)を計算し、該線形識
    別関数G≧0であるときに、各アクセント句境界にポー
    ズを挿入するポーズ挿入手段とを含むことを特徴とする
    合成音声ポーズ設定方式。
  2. 【請求項2】 漢字かな混じり文を入力して、形態素解
    析を行い、各単語の品詞を求めることにより、アクセン
    ト句単位にアクセントを付与して、アクセント句境界に
    ポーズを付与した読みかな列を作成して、該読みかな列
    を音声合成装置で音声に変換する音声合成装置内のアク
    セント句境界にポーズを付与する処理において、 該漢字かな混じり文の各アクセント句境界について、直
    前の単語の品詞he と直後の単語の品詞hb を導出する
    品詞導出手段と、 ポーズがあるアクセント境界までのモーラ数が属する該
    区間ip を導出する区間導出手段と、 該品詞導出手段により該直前の単語が品詞he であるア
    クセント句境界の集合に対してポーズが置かれる確率を
    記録する前置品詞確率テーブルと、 該品詞導出手段により該直後の単語が品詞hb であるア
    クセント句境界の集合に対してポーズが置かれる確率を
    記録する後置品詞確率テーブルと、 該区間導出手段で導出された該区間ip を用いて、ポー
    ズがあるアクセント句境界までのモーラ数に応じて区間
    1〜区間np に分類した区間を設定し、該モーラ数が区
    間1〜区間ip (1≦ip ≦np )のいずれかの区間に
    属する累積確率Pp (ip )を記録する累積確率テーブ
    ルと、 該累積確率テーブル、該前置品詞確率テーブル及び、該
    後置品詞確率テーブルからそれぞれ累積確率P
    p (ip ),前置品詞確率Pe (he )、及び後置品詞
    確率Pb (hb )を検索する確率検索手段と、 該確率検索手段で検索された該累積確率Pp (ip ),
    該前置品詞確率Pe (he )、及び該後置品詞確率Pb
    (hb )を用いて、 線形識別関数 G=C1 ×Pe (he )+C2 ×Pb (hb )+C3 ×
    p (ip )+C4 (但し、C1 ,C2 ,C3 ,C4 は定数) を計算し、該
    線形識別関数G≧0であるときに、該各アクセント句境
    界にポーズを挿入するポーズ挿入手段とを含むことを特
    徴とする合成音声ポーズ設定方式。
JP4313780A 1992-11-24 1992-11-24 合成音声ポーズ設定方式 Pending JPH06161485A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4313780A JPH06161485A (ja) 1992-11-24 1992-11-24 合成音声ポーズ設定方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4313780A JPH06161485A (ja) 1992-11-24 1992-11-24 合成音声ポーズ設定方式

Publications (1)

Publication Number Publication Date
JPH06161485A true JPH06161485A (ja) 1994-06-07

Family

ID=18045440

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4313780A Pending JPH06161485A (ja) 1992-11-24 1992-11-24 合成音声ポーズ設定方式

Country Status (1)

Country Link
JP (1) JPH06161485A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007114507A (ja) * 2005-10-20 2007-05-10 Toshiba Corp 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム
CN113516994A (zh) * 2021-04-07 2021-10-19 北京大学深圳研究院 实时语音识别方法、装置、设备及介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007114507A (ja) * 2005-10-20 2007-05-10 Toshiba Corp 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム
JP4559950B2 (ja) * 2005-10-20 2010-10-13 株式会社東芝 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム
CN113516994A (zh) * 2021-04-07 2021-10-19 北京大学深圳研究院 实时语音识别方法、装置、设备及介质
CN113516994B (zh) * 2021-04-07 2022-04-26 北京大学深圳研究院 实时语音识别方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US8209169B2 (en) Synchronization of an input text of a speech with a recording of the speech
JP4038211B2 (ja) 音声合成装置,音声合成方法および音声合成システム
US8892435B2 (en) Text data processing apparatus, text data processing method, and recording medium storing text data processing program
Wu et al. Automatic generation of synthesis units and prosodic information for Chinese concatenative synthesis
JPH08248971A (ja) テキスト朗読読み上げ装置
Pandit et al. Feature selection for a DTW-based speaker verification system
Heeringa et al. Measuring Norwegian dialect distances using acoustic features
CN113327574A (zh) 一种语音合成方法、装置、计算机设备和存储介质
JP2000284793A (ja) 音声要約装置及び音声要約プログラムを記録した記録媒体
JP3071804B2 (ja) 音声合成装置
JPH06161485A (ja) 合成音声ポーズ設定方式
JP5294700B2 (ja) 音声認識及び合成システム、プログラム及び方法
US7292983B2 (en) Voice synthesis apparatus
JP4218075B2 (ja) 音声合成装置およびそのテキスト解析方法
JP3142160B2 (ja) 発音記号生成装置
JP3141912B2 (ja) 音声合成用韻律情報決定方法
KR100959494B1 (ko) 미등록어 합성 기능을 이용한 음성합성기 및 그 방법
JPH05134691A (ja) 音声合成方法および装置
JPH0415503B2 (ja)
JP2892031B2 (ja) テキスト音声合成装置
JPH08185197A (ja) 日本語解析装置、及び日本語テキスト音声合成装置
JP4635384B2 (ja) 音声合成システム、音声合成方法および音声合成用プログラム
JP2002311982A (ja) 韻律情報設定方法及び装置並びにプログラム及び記録媒体
JP2655711B2 (ja) 同形語読み分け方式
Gan et al. Research on text analysis for Tibetan statistical parametric speech synthesis