JPH056191A - 音声合成装置 - Google Patents
音声合成装置Info
- Publication number
- JPH056191A JPH056191A JP3156545A JP15654591A JPH056191A JP H056191 A JPH056191 A JP H056191A JP 3156545 A JP3156545 A JP 3156545A JP 15654591 A JP15654591 A JP 15654591A JP H056191 A JPH056191 A JP H056191A
- Authority
- JP
- Japan
- Prior art keywords
- pose
- mora
- text
- time length
- giving
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】
【目的】 本発明は、ポーズの付与の仕方を工夫するこ
とによって、より一層了解性・自然性の高い合成音声を
提供する音声合成装置の提供を目的とする。 【構成】 時間長付与手段4cにより各音素の時間長を設
定し、時間長累計部4bにより、発話全体の総時間長を計
算し、ポーズ付与手段4aで、その総時間長に応じてポー
ズ時間長、ポーズ回数、ポーズ位置を決定する。
とによって、より一層了解性・自然性の高い合成音声を
提供する音声合成装置の提供を目的とする。 【構成】 時間長付与手段4cにより各音素の時間長を設
定し、時間長累計部4bにより、発話全体の総時間長を計
算し、ポーズ付与手段4aで、その総時間長に応じてポー
ズ時間長、ポーズ回数、ポーズ位置を決定する。
Description
【0001】
【産業上の利用分野】本発明は、音声合成装置に関する
ものであり、特にポーズ付与の出来る音声合成装置に関
するものである。
ものであり、特にポーズ付与の出来る音声合成装置に関
するものである。
【0002】
【従来の技術】従来の音声合成装置としては、例えば、
古井:ディジタル音声処理 p.146(東海大学出版会198
5)に示されている。図5はこの従来の音声合成装置の
構成を示すブロック図である。1は文字列入力端で漢字
かな混じり文が入力される。2はテキスト解析部で、入
力された漢字かな混じり文を辞書3を用いて単語に分割
し、各々の読み・アクセント型・品詞等が付与される。
4は韻律制御部で、ポーズ付与部4a・時間長制御部4c・
F0(基本周波数)設定部4dから構成され、ポーズ位置
やポーズ長、音素単位の継続時間長、F0の値を決定す
る。5は合成パラメータ作成部で、合成に必要な合成パ
ラメータ列を得る。ここで合成パラメータとは、音声の
大きさを決める振幅、声道の状態を決める声道記述パラ
メータ(PARCOR係数やホルマント周波数など)、
声帯の状態を決める有声/無声判定フラグ等があり、パ
ラメータテーブル6に格納されている。ここでは、従来
例・実施例ともに、基本周波数付与には藤崎モデル、合
成器として、直・並列型ホルマント合成器を用いる。藤
崎モデルについては、例えば、藤崎他:音響学会誌vol.
27 no.9 pp.445-pp456(1971)に解説されている。ま
た、直・並列型ホルマント合成器については、例えばアレ
ン エト アル著 フロム テキスト トゥ スヒ゜ーチ : サ゛ エムアイ トーク システム(ケン
フ゛リッシ゛ ユニハ゛ーシティ フ゜レス 1987)(Allen et al著 From Te
xt to Speech: TheMITalk system 第12章( CambridgeUn
ivercity Press 1987 ))に解説されている。7はパラ
メータ補間部で合成パラメータ作成部5で得られた各音
素毎のパラメータを補間して一定時間毎の合成パラメー
タ列を得る。8は音声合成部で、パラメータ補間部7で
得られた合成パラメータ列から実際の音声を合成し、合
成音声出力端9に音声波形を得る。ポーズ付与部4cで用
いられる規則は、 規則1 「、」があれば、ポーズ長500msec 規則2 「。」があれば、ポーズ長1000msec といった簡単なものである。
古井:ディジタル音声処理 p.146(東海大学出版会198
5)に示されている。図5はこの従来の音声合成装置の
構成を示すブロック図である。1は文字列入力端で漢字
かな混じり文が入力される。2はテキスト解析部で、入
力された漢字かな混じり文を辞書3を用いて単語に分割
し、各々の読み・アクセント型・品詞等が付与される。
4は韻律制御部で、ポーズ付与部4a・時間長制御部4c・
F0(基本周波数)設定部4dから構成され、ポーズ位置
やポーズ長、音素単位の継続時間長、F0の値を決定す
る。5は合成パラメータ作成部で、合成に必要な合成パ
ラメータ列を得る。ここで合成パラメータとは、音声の
大きさを決める振幅、声道の状態を決める声道記述パラ
メータ(PARCOR係数やホルマント周波数など)、
声帯の状態を決める有声/無声判定フラグ等があり、パ
ラメータテーブル6に格納されている。ここでは、従来
例・実施例ともに、基本周波数付与には藤崎モデル、合
成器として、直・並列型ホルマント合成器を用いる。藤
崎モデルについては、例えば、藤崎他:音響学会誌vol.
27 no.9 pp.445-pp456(1971)に解説されている。ま
た、直・並列型ホルマント合成器については、例えばアレ
ン エト アル著 フロム テキスト トゥ スヒ゜ーチ : サ゛ エムアイ トーク システム(ケン
フ゛リッシ゛ ユニハ゛ーシティ フ゜レス 1987)(Allen et al著 From Te
xt to Speech: TheMITalk system 第12章( CambridgeUn
ivercity Press 1987 ))に解説されている。7はパラ
メータ補間部で合成パラメータ作成部5で得られた各音
素毎のパラメータを補間して一定時間毎の合成パラメー
タ列を得る。8は音声合成部で、パラメータ補間部7で
得られた合成パラメータ列から実際の音声を合成し、合
成音声出力端9に音声波形を得る。ポーズ付与部4cで用
いられる規則は、 規則1 「、」があれば、ポーズ長500msec 規則2 「。」があれば、ポーズ長1000msec といった簡単なものである。
【0003】音声合成装置は、WP文章の読み合わせや
公共案内放送等いろいろな分野で利用されつつある。合
成された音声の個々の音節が理解できるという明瞭性の
観点からは、かなり実用レベルに迫ってきているが、合
成内容に関する文字情報がなくても内容が理解できるか
という了解性といった観点からはまだまだレベルは低い
といわざるを得ない。ところで、我々が音声内容を理解
する際、ポーズが非常に重要な役割をしている。また、
ポーズ長やポーズ挿入回数、位置などは文章全体と構造
と非常に深い関わりを持っている。
公共案内放送等いろいろな分野で利用されつつある。合
成された音声の個々の音節が理解できるという明瞭性の
観点からは、かなり実用レベルに迫ってきているが、合
成内容に関する文字情報がなくても内容が理解できるか
という了解性といった観点からはまだまだレベルは低い
といわざるを得ない。ところで、我々が音声内容を理解
する際、ポーズが非常に重要な役割をしている。また、
ポーズ長やポーズ挿入回数、位置などは文章全体と構造
と非常に深い関わりを持っている。
【0004】
【発明が解決しようとする課題】しかしながら、現在の
音声合成装置では、ポーズ長は2、3種類しかなく、ま
た文章の部分的な構造に従ってポーズ位置等が決定され
ており、不十分である。
音声合成装置では、ポーズ長は2、3種類しかなく、ま
た文章の部分的な構造に従ってポーズ位置等が決定され
ており、不十分である。
【0005】本発明は、かかる従来の音声合成装置の課
題に鑑みてなされたもので、ポーズ長やポーズ挿入回
数、位置などを文章全体の構造と関連させて決定するこ
とにより、より了解性のよい自然な規則合成音を提供す
ることを目的としている。
題に鑑みてなされたもので、ポーズ長やポーズ挿入回
数、位置などを文章全体の構造と関連させて決定するこ
とにより、より了解性のよい自然な規則合成音を提供す
ることを目的としている。
【0006】
【課題を解決するための手段】本発明は、合成すべき音
声の時間長を設定する時間長付与手段と、発話全体の時
間長の総和を計算する時間長累計手段と、ポーズを与え
るポーズ付与手段を有し、時間長累計手段で得られる総
時間長に従って、ポーズを決定することを特徴とする音
声合成装置である。
声の時間長を設定する時間長付与手段と、発話全体の時
間長の総和を計算する時間長累計手段と、ポーズを与え
るポーズ付与手段を有し、時間長累計手段で得られる総
時間長に従って、ポーズを決定することを特徴とする音
声合成装置である。
【0007】
【作用】本発明は前記した構成により、入力されたテキ
ストの1文章分全体の総時間長、に関連させてポーズ率
(ポーズの割合)を制御し、ポーズ回数、ポーズ時間
長、ポーズ位置を決定することにより、了解性・自然性
の高い合成音を提供する。
ストの1文章分全体の総時間長、に関連させてポーズ率
(ポーズの割合)を制御し、ポーズ回数、ポーズ時間
長、ポーズ位置を決定することにより、了解性・自然性
の高い合成音を提供する。
【0008】また総モーラ数に関連させてポーズ率(ポ
ーズの割合)を制御する。
ーズの割合)を制御する。
【0009】また、実際の総時間長、総モーラ数が決定
してから合成パラメータを作成するのでは、最初の1文
章のテキスト解析部、韻律処理部がすべて終了してから
合成パラメータ作成処理、合成処理が行われ、文章が入
力されてから合成音が出力されるまでの遅れ時間が長く
なる。そこで、実際の総モーラ数の代わりに、入力テキ
ストから予測される予測モーラ数を用いて前記の制御を
行う事により、出力遅れを生じることなく了解性・自然
性の高い合成音を提供する。
してから合成パラメータを作成するのでは、最初の1文
章のテキスト解析部、韻律処理部がすべて終了してから
合成パラメータ作成処理、合成処理が行われ、文章が入
力されてから合成音が出力されるまでの遅れ時間が長く
なる。そこで、実際の総モーラ数の代わりに、入力テキ
ストから予測される予測モーラ数を用いて前記の制御を
行う事により、出力遅れを生じることなく了解性・自然
性の高い合成音を提供する。
【0010】また、必要に応じて予測モーラ数と実際の
モーラ数とを補正することにより、了解性・自然性の高
い合成音を提供する。
モーラ数とを補正することにより、了解性・自然性の高
い合成音を提供する。
【0011】
【実施例】以下、本発明の実施例について図面を参照し
て説明する。
て説明する。
【0012】図1は、本発明の請求項1の音声合成装置
の一実施例の構成を示すブロック図である。1は文字列
入力端で、漢字かな混じり文が入力される。2はテキス
ト解析部で、入力された漢字かな混じり文を辞書3を用
いて単語に分割し、各々の読み・アクセント型・品詞等
を付与する。4は韻律制御部で、ポーズ付与部4a・時間
長累計部4b・時間長制御部4c・F0(基本周波数)設定
部4dから構成され、ポーズ位置やポーズ長、音素単位の
継続時間長、F0の値を決定する。5は合成パラメータ
作成部で、合成に必要な合成パラメータ列を得る。6
は、パラメータテーブルで、基本となる音素単位の合成
パラメータが格納されている。7はパラメータ補間部で
パラメータテーブル6で得られた各音素毎のパラメータ
を補間して一定時間毎の合成パラメータ列を得る。8は
音声合成部で、パラメータ補間部7で得られた合成パラ
メータ列から実際の音声を合成し、合成音声出力端9に
音声波形を得る。
の一実施例の構成を示すブロック図である。1は文字列
入力端で、漢字かな混じり文が入力される。2はテキス
ト解析部で、入力された漢字かな混じり文を辞書3を用
いて単語に分割し、各々の読み・アクセント型・品詞等
を付与する。4は韻律制御部で、ポーズ付与部4a・時間
長累計部4b・時間長制御部4c・F0(基本周波数)設定
部4dから構成され、ポーズ位置やポーズ長、音素単位の
継続時間長、F0の値を決定する。5は合成パラメータ
作成部で、合成に必要な合成パラメータ列を得る。6
は、パラメータテーブルで、基本となる音素単位の合成
パラメータが格納されている。7はパラメータ補間部で
パラメータテーブル6で得られた各音素毎のパラメータ
を補間して一定時間毎の合成パラメータ列を得る。8は
音声合成部で、パラメータ補間部7で得られた合成パラ
メータ列から実際の音声を合成し、合成音声出力端9に
音声波形を得る。
【0013】次に、このような各処理の詳細について例
をあげて説明する。
をあげて説明する。
【0014】「これは、音声合成装置です。」という文
章が入力された場合について考える。テキスト解析部2
により入力文章は以下のように分割され、アクセントや
読みの情報を得る。
章が入力された場合について考える。テキスト解析部2
により入力文章は以下のように分割され、アクセントや
読みの情報を得る。
【0015】
(入力文章) 「これは、音声合成装置です。」
(単語分割) これ/は/、/音声/合成/装置で
す。
す。
【0016】
(読み) コレ ワ オンセー コ゛ーセー ソーチ テ゛ス
(アクセント) 0 D 1 0 0 b
(品詞) 代名 係助 名 名 名 助動
ここで、「は」「です」に対して与えられているアクセ
ント型Dやbは、NHKアクセント辞典・解説付録(日
本放送出版会 1985年)に記載されているもので、自立
語と結合して文節を構成する際の結合アクセント型を示
したものである。また、各単語のアクセント型は、アク
セントのある音節位置を示したものである。次に韻律処
理部4における、時間長設定部4aで各音素の時間長を、
F0設定部4dでF0を決定する。結果の一部を次に示
す。
ント型Dやbは、NHKアクセント辞典・解説付録(日
本放送出版会 1985年)に記載されているもので、自立
語と結合して文節を構成する際の結合アクセント型を示
したものである。また、各単語のアクセント型は、アク
セントのある音節位置を示したものである。次に韻律処
理部4における、時間長設定部4aで各音素の時間長を、
F0設定部4dでF0を決定する。結果の一部を次に示
す。
【0017】
音素 k o r e w a (ポーズ) o N s
時間長 60 80 30 110 40 135 75 150 100 (msec)
F0 121 124 132 140 142 129 129 170 172 (Hz)
また、時間長累計部4cで総時間長(ポーズ分を除く)2
280msecを得る。ポーズ付与部4cでは、以下のように
この総時間長を用いてポーズ長を決定する。総時間長を
DSとした時、ポーズ率R、ポーズ回数N、ポーズ総時
間長DPは以下の次式で得られる。kはポーズ率を得る
ための係数である。
280msecを得る。ポーズ付与部4cでは、以下のように
この総時間長を用いてポーズ長を決定する。総時間長を
DSとした時、ポーズ率R、ポーズ回数N、ポーズ総時
間長DPは以下の次式で得られる。kはポーズ率を得る
ための係数である。
【0018】R = k*DS/1000
( 但し 0<DS/1000<5 ならば k=0.0
5) DP = DS*R DS/2000 < N < DS/1000 この例では、DS=2280なので、R=0.114、DP
=260、0<N<2となる。そこで、ポーズ回数は1
回、そのポーズ長は260msecとなる。従来のように、
「、」に対して一律ポーズ長500msecを付与する方法
では、発声時間が2280msecに対し、比較的長いポーズが
付与され不自然な音声となる。
5) DP = DS*R DS/2000 < N < DS/1000 この例では、DS=2280なので、R=0.114、DP
=260、0<N<2となる。そこで、ポーズ回数は1
回、そのポーズ長は260msecとなる。従来のように、
「、」に対して一律ポーズ長500msecを付与する方法
では、発声時間が2280msecに対し、比較的長いポーズが
付与され不自然な音声となる。
【0019】次にパラメータ作成部5でホルマント値や
振幅といった合成パラメータを得る。パラメータ補間部
7では、こうして得られた各音素のパラメータ値を補間
し、10msec毎のパラメータ列を得、音声合成部8
でホルマント型の合成器を用いて合成する。
振幅といった合成パラメータを得る。パラメータ補間部
7では、こうして得られた各音素のパラメータ値を補間
し、10msec毎のパラメータ列を得、音声合成部8
でホルマント型の合成器を用いて合成する。
【0020】このように本実施例によれば、発話全体の
時間長に対して、ポーズ時間長を決定することが出来、
了解性の高い音声を提供することが出来る。
時間長に対して、ポーズ時間長を決定することが出来、
了解性の高い音声を提供することが出来る。
【0021】なお、本実施例では、規則合成装置を用い
て説明を行ったが、本発明は、単語や文節単位で音声波
形、もしくは合成パラメータを蓄積し、必要に応じてそ
れらを結合して出力するような録音再生装置、または分
析パラメータによる音声合成装置においても、各単語、
文節間を接続する際のポーズ長制御としても利用するこ
とが出来る。
て説明を行ったが、本発明は、単語や文節単位で音声波
形、もしくは合成パラメータを蓄積し、必要に応じてそ
れらを結合して出力するような録音再生装置、または分
析パラメータによる音声合成装置においても、各単語、
文節間を接続する際のポーズ長制御としても利用するこ
とが出来る。
【0022】図2は、請求項3記載の本発明に関する一
実施例の構成を示したブロック図である。なお図1の実
施例と共通する要素には同一番号をつけている。図1の
実施例における時間長累計部4bにかえて、モーラ数カウ
ント部10を備えている。モーラ数カウント部10で
は、テキスト解析部2の解析結果からモーラ数を計算す
る。例えば、「これは、音声合成装置です。」の例で
は、16モーラとなる。ポーズ付与部4cでは、以下のよ
うにこの総モーラ数を用いてポーズ長を決定する。総モ
ーラ数をMとした時、ポーズ率R、ポーズ回数N、ポー
ズ総時間長DPは以下の式で得られる。
実施例の構成を示したブロック図である。なお図1の実
施例と共通する要素には同一番号をつけている。図1の
実施例における時間長累計部4bにかえて、モーラ数カウ
ント部10を備えている。モーラ数カウント部10で
は、テキスト解析部2の解析結果からモーラ数を計算す
る。例えば、「これは、音声合成装置です。」の例で
は、16モーラとなる。ポーズ付与部4cでは、以下のよ
うにこの総モーラ数を用いてポーズ長を決定する。総モ
ーラ数をMとした時、ポーズ率R、ポーズ回数N、ポー
ズ総時間長DPは以下の式で得られる。
【0023】R = k*M( 但し 0<M<=4
0 ならば k=1 ) DP = M*R M/20 < N < M/10 この例では、M=16なので、R=16、DP=25
6、0<N<1.2となり、ポーズ回数は1回、ポーズ
長は260msecとなる。
0 ならば k=1 ) DP = M*R M/20 < N < M/10 この例では、M=16なので、R=16、DP=25
6、0<N<1.2となり、ポーズ回数は1回、ポーズ
長は260msecとなる。
【0024】図3は、請求項3記載の本発明に関する一
実施例の構成を示したブロック図である。なお図1、図
2の各実施例と共通する要素には同一番号をつけてい
る。図2の実施例におけるモーラ数カウント部10に代
えて、モーラ数予測部11を備えている。テキスト入力
端1から入力されたテキストは、テキスト解析部2とモ
ーラ数予測部11に送られる。モーラ数予測部11で
は、入力されたテキストの総モーラ数を予測する。本実
施例では、平仮名1モーラ、漢字2モーラとして予測を
行うこととする。例えば、「これは、音声合成装置で
す。」の例では、17モーラとなる。ポーズ付与部4cで
用いられる式は図2の実施例と同様で以下のようにな
る。予測された総モーラ数をM’とした時、ポーズ率
R、ポーズ回数N、ポーズ総時間長DPは以下の式で得
られる。
実施例の構成を示したブロック図である。なお図1、図
2の各実施例と共通する要素には同一番号をつけてい
る。図2の実施例におけるモーラ数カウント部10に代
えて、モーラ数予測部11を備えている。テキスト入力
端1から入力されたテキストは、テキスト解析部2とモ
ーラ数予測部11に送られる。モーラ数予測部11で
は、入力されたテキストの総モーラ数を予測する。本実
施例では、平仮名1モーラ、漢字2モーラとして予測を
行うこととする。例えば、「これは、音声合成装置で
す。」の例では、17モーラとなる。ポーズ付与部4cで
用いられる式は図2の実施例と同様で以下のようにな
る。予測された総モーラ数をM’とした時、ポーズ率
R、ポーズ回数N、ポーズ総時間長DPは以下の式で得
られる。
【0025】R = k*M’( 但し 0<M’<
=40 ならば k=1) DP = M’*R M’/20 < N < M’/10 この例では、M’=17なので、R=17、DP=28
9、0<N<1.2となり、ポーズ回数は1回、ポーズ
長は290msecとなる。
=40 ならば k=1) DP = M’*R M’/20 < N < M’/10 この例では、M’=17なので、R=17、DP=28
9、0<N<1.2となり、ポーズ回数は1回、ポーズ
長は290msecとなる。
【0026】図1、図2の実施例のように実際の総時間
長、総モーラ数が決定してから合成パラメータを作成す
るのでは、最初の1文章のテキスト解析部2、韻律処理
部4がすべてを終了してから合成パラメータ作成処理、
合成処理が行われ、最初の文章が入力されてから合成音
が出力されるまでの遅れ時間が長くなる。そこで、本実
施例のように、実際の総モーラ数の代わりに、入力テキ
ストから予測される予測モーラ数を用いて前記の制御を
行う事により、出力が遅れることなく了解性・自然性の
高い合成音を提供することができる。
長、総モーラ数が決定してから合成パラメータを作成す
るのでは、最初の1文章のテキスト解析部2、韻律処理
部4がすべてを終了してから合成パラメータ作成処理、
合成処理が行われ、最初の文章が入力されてから合成音
が出力されるまでの遅れ時間が長くなる。そこで、本実
施例のように、実際の総モーラ数の代わりに、入力テキ
ストから予測される予測モーラ数を用いて前記の制御を
行う事により、出力が遅れることなく了解性・自然性の
高い合成音を提供することができる。
【0027】図4は、請求項4記載の本発明に関する一
実施例の構成を示したブロック図である。図3の実施例
のブロック図に加えて、モーラ数補正部12から構成さ
れる。テキスト入力端1から入力されたテキストは、テ
キスト解析部2とモーラ数予測部11に送られる。モー
ラ数予測部11では、入力されたテキストの総モーラ数
を予測する。本実施例では、平仮名1モーラ、漢字2モ
ーラとして予測を行うこととする。例えば、「この黄色
い花は、いい匂いだ。」という文章が入力されたとする
と、予測モーラ数は、16モーラとなる。ポーズ付与部
4cで用いられる式は図2の実施例と同様で以下のように
なる。予測された総モーラ数をM’とした時、ポーズ率
R、ポーズ回数N、ポーズ総時間長DPは実施例3と同
様の式で得られる。
実施例の構成を示したブロック図である。図3の実施例
のブロック図に加えて、モーラ数補正部12から構成さ
れる。テキスト入力端1から入力されたテキストは、テ
キスト解析部2とモーラ数予測部11に送られる。モー
ラ数予測部11では、入力されたテキストの総モーラ数
を予測する。本実施例では、平仮名1モーラ、漢字2モ
ーラとして予測を行うこととする。例えば、「この黄色
い花は、いい匂いだ。」という文章が入力されたとする
と、予測モーラ数は、16モーラとなる。ポーズ付与部
4cで用いられる式は図2の実施例と同様で以下のように
なる。予測された総モーラ数をM’とした時、ポーズ率
R、ポーズ回数N、ポーズ総時間長DPは実施例3と同
様の式で得られる。
【0028】R = k*M’
( 但し 0<M’<=40 ならば k=1 )
DP = M’*R
M’/20 < N < M’/10
この例では、M’=16なので、R=16、DP=25
6、0<N<1.6となり、ポーズ回数は1回、ポーズ長
は260となる。ポーズ位置は、読点とし、260msec
のポーズが設定される。モーラ数補正部12では、予測
による総モーラ数と実際のモーラ数の比較を行い、ポー
ズ長を調整する。例えば、「この黄色い花は」の時点で
は、処理終了したモーラ数は9モーラ、予測モーラ数は
10モーラと1モーラ分の差が生じる。そこで、M’=
16−1とおいて再度ポーズ長を計算する。ポーズ長は
225msecとなり、最初の設定値との差31msecが補正
され、ポーズ長は、230msecとなる。
6、0<N<1.6となり、ポーズ回数は1回、ポーズ長
は260となる。ポーズ位置は、読点とし、260msec
のポーズが設定される。モーラ数補正部12では、予測
による総モーラ数と実際のモーラ数の比較を行い、ポー
ズ長を調整する。例えば、「この黄色い花は」の時点で
は、処理終了したモーラ数は9モーラ、予測モーラ数は
10モーラと1モーラ分の差が生じる。そこで、M’=
16−1とおいて再度ポーズ長を計算する。ポーズ長は
225msecとなり、最初の設定値との差31msecが補正
され、ポーズ長は、230msecとなる。
【0029】このように予測モーラ数と実際のモーラ数
との差を用いて、ポーズ長を補正することにより、出力
が遅れる事なく了解性・自然性の高い合成音を提供する
ことができる。
との差を用いて、ポーズ長を補正することにより、出力
が遅れる事なく了解性・自然性の高い合成音を提供する
ことができる。
【0030】本発明の各手段は、コンピュータを用いて
ソフトウェア的に実現しても、それら各手段の機能を備
えた専用のハード回路を用いて実現してもかまわない。
ソフトウェア的に実現しても、それら各手段の機能を備
えた専用のハード回路を用いて実現してもかまわない。
【0031】
【発明の効果】以上のように本発明によれば、ポーズの
付与の仕方を、全体の発話総時間長や総モーラ数、予測
モーラ数等により制御することにより、了解性・自然性
の高い効果的な合成音を提供することが出来る。
付与の仕方を、全体の発話総時間長や総モーラ数、予測
モーラ数等により制御することにより、了解性・自然性
の高い効果的な合成音を提供することが出来る。
【図1】第1の本発明の実施例の音声合成装置の構成を
示すブロック図である。
示すブロック図である。
【図2】第2の本発明の実施例の音声合成装置の構成を
示すブロック図である。
示すブロック図である。
【図3】第3の本発明の実施例の音声合成装置の構成を
示すブロック図である。
示すブロック図である。
【図4】第4の本発明の実施例の音声合成装置の構成を
示すブロック図である。
示すブロック図である。
【図5】従来例の音声合成装置の構成を示すブロック図
である。
である。
1 文字列入力端
2 テキスト解析部
3 辞書
4 韻律処理部
4a ポーズ付与部
4b 時間長累積部
4c 時間長付与部
4d F0設定部
5 合成パラメータ作成部
6 パラメータテーブル
7 パラメータ補間部
8 音声合成部
9 合成音声出力端
10 総モーラ数カウント部
11 総モーラ数予測部
12 モーラ数補正部
Claims (4)
- 【請求項1】 合成すべき音声の時間長を設定する時間
長付与手段と、その時間長付与手段より、所定の量の話
の音声時間長の総和を計算する時間長累計手段と、ポー
ズを与えるポーズ付与手段を備え、前記時間長累計手段
で得られる時間長に従って、前記ポーズ付与手段が付与
すべきポーズを決定することを特徴とする音声合成装
置。 - 【請求項2】 テキストを解析するテキスト解析手段
と、前記テキスト解析手段で参照する辞書情報格納手段
と、前記テキスト解析手段の解析結果に従ってモーラ数
を計算するモーラ数計算手段と、ポーズを与えるポーズ
付与手段を有し、前記モーラ数計算手段で得られるモー
ラ数に従って、前記ポーズ付与手段はポーズを決定する
事を特徴とする音声合成装置。 - 【請求項3】 テキストを入力するテキスト入力手段
と、前記入力手段から入力されたテキストを解析するテ
キスト解析手段と、前記テキスト解析手段で参照する辞
書情報格納手段と、前記入力手段から入力されたテキス
トに従って総モーラ数を予測するモーラ数予測手段と、
ポーズを与えるポーズ付与手段を有し、前記モーラ数予
測手段で得られるモーラ数に従って、前記ポーズ付与手
段はポーズを決定する事を特徴とする音声合成装置。 - 【請求項4】 テキストを入力するテキスト入力手段
と、前記入力手段から入力されたテキストを解析するテ
キスト解析手段と、前記テキスト解析手段で参照する辞
書情報格納手段と、前記入力手段から入力されたテキス
トに従って総モーラ数を予測するモーラ数予測手段と、
前記テキスト解析手段の結果に従って計算したモーラ数
と予測されたモーラ数の差を補正するモーラ数補正手段
と、ポーズを与えるポーズ付与手段を有し、前記モーラ
数補正手段で得られる補正モーラ数に従って、前記ポー
ズ付与手段はポーズを決定する事を特徴とする音声合成
装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP03156545A JP3124791B2 (ja) | 1991-06-27 | 1991-06-27 | 音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP03156545A JP3124791B2 (ja) | 1991-06-27 | 1991-06-27 | 音声合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH056191A true JPH056191A (ja) | 1993-01-14 |
JP3124791B2 JP3124791B2 (ja) | 2001-01-15 |
Family
ID=15630143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP03156545A Expired - Fee Related JP3124791B2 (ja) | 1991-06-27 | 1991-06-27 | 音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3124791B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08146994A (ja) * | 1994-11-15 | 1996-06-07 | Nec Corp | 音声合成装置 |
JP2013160973A (ja) * | 2012-02-07 | 2013-08-19 | Mitsubishi Electric Corp | 中間言語情報生成装置、音声合成装置、および中間言語情報生成方法 |
JP2014219635A (ja) * | 2013-05-10 | 2014-11-20 | 日本電信電話株式会社 | ポーズ付与装置とその方法とプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2748445B2 (ja) | 1988-10-25 | 1998-05-06 | 日本電気株式会社 | ポーズ挿入位置決定方式 |
-
1991
- 1991-06-27 JP JP03156545A patent/JP3124791B2/ja not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08146994A (ja) * | 1994-11-15 | 1996-06-07 | Nec Corp | 音声合成装置 |
JP2013160973A (ja) * | 2012-02-07 | 2013-08-19 | Mitsubishi Electric Corp | 中間言語情報生成装置、音声合成装置、および中間言語情報生成方法 |
JP2014219635A (ja) * | 2013-05-10 | 2014-11-20 | 日本電信電話株式会社 | ポーズ付与装置とその方法とプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP3124791B2 (ja) | 2001-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6561499B2 (ja) | 音声合成装置および音声合成方法 | |
JPH0632020B2 (ja) | 音声合成方法および装置 | |
JPH056191A (ja) | 音声合成装置 | |
JPH0580791A (ja) | 音声規則合成装置および方法 | |
JP2848604B2 (ja) | 音声合成装置 | |
JP2703253B2 (ja) | 音声合成装置 | |
JP3515268B2 (ja) | 音声合成装置 | |
JPH0836397A (ja) | 音声合成装置 | |
JP3284634B2 (ja) | 規則音声合成装置 | |
JPH01321496A (ja) | 音声合成装置 | |
JP4207237B2 (ja) | 音声合成装置およびその合成方法 | |
JPH06149283A (ja) | 音声合成装置 | |
JPH09292897A (ja) | 音声合成装置 | |
JPH06250685A (ja) | 音声合成方式および規則合成装置 | |
JPH1011083A (ja) | テキスト音声変換装置 | |
JPH06138894A (ja) | 音声合成装置及び音声合成方法 | |
JP2573587B2 (ja) | ピッチパタン生成装置 | |
JPH0242496A (ja) | 音声合成装置 | |
JPH0572599B2 (ja) | ||
JPH0439698A (ja) | 音声合成装置 | |
O’Shaughnessy | Approaches to improve automatic speech synthesis | |
Morris et al. | Speech Generation | |
JPH0553595A (ja) | 音声合成装置 | |
JPH0363696A (ja) | テキスト音声合成装置 | |
JPH0756599B2 (ja) | 音声フアイル作成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |