JP3094622B2 - テキスト音声合成装置 - Google Patents
テキスト音声合成装置Info
- Publication number
- JP3094622B2 JP3094622B2 JP04027006A JP2700692A JP3094622B2 JP 3094622 B2 JP3094622 B2 JP 3094622B2 JP 04027006 A JP04027006 A JP 04027006A JP 2700692 A JP2700692 A JP 2700692A JP 3094622 B2 JP3094622 B2 JP 3094622B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- sentence
- unit
- pattern
- paragraph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
イントネーションやリズムなどの韻律パタンを生成し、
音声で読み上げられるテキスト音声合成装置に関する。
力された文に基づいて生成するテキスト音声合成装置で
は、従来、複数の文からなるテキストを読み上げる場
合、テキスト内のどの文でも、一定のイントネーショ
ン、一定のリズムやテンポで読み上げられていた。この
ような従来技術を用いたテキスト音声合成装置について
は、電子情報通信学会技術研究報告SP90−56(1
990−11)「残差制御型音声合成方式を用いた日本
語テキスト音声変換システム」などに詳述されている。
成装置では、文を読み上げる際の韻律的特徴は常に一定
となっている。ここで言う韻律的特徴とは、読み上げる
速さ、声の高さ、声の大きさなどの値や、それらの変化
のパタンを指す。1つ1つの文は自然に発声することが
できるような装置であっても、どのような文でも常に一
定のイントネーションやリズム、テンポで発声したので
は、利用者は単調さを感じてしまう。これに対して人間
が読み上げを行う場合は、テキストの流れに沿って韻律
的特徴を変化させる。例えば、聞き手の注意や興味を引
くために、テキストの始めではゆっくりとした速度で読
み始め、徐々に速度を速め、最後には再びゆっくりと読
むといったような読み方をする。また、重要な語句が含
まれている文や段落では、声の調子を高めたり、ゆっく
り読んだりするなどして、他の文は段落から際立たせる
などの工夫をする。
は、文や段落の流れは考慮されず、常に一定の韻律的特
徴を持った音声を合成していた。異なる韻律的特徴を持
った音声で読み上げさせたい場合には、テキスト音声合
成装置に対して利用者が、なんらかの指示を出さなけれ
ばならなかった。
れに沿って自動的に各文の韻律的特徴を変化させること
で、人間が行うのにより近い読み上げを可能にするテキ
スト音声合成装置を提供することにある。
声合成装置は、複数の文からなるテキストを入力する手
段と、前記テキストを文に分割する手段と、予め定めら
れた基準に基づいて前記分割された文ごとの韻律パタン
を生成する手段と、前記韻律パタンにしたがって音声を
合成する手段とを有し、 前記韻律パタンを生成する手段
は、分割された文ごとの韻律パタンを生成する際に、当
該文のテキスト内での位置に基づいて当該文の韻律パタ
ンを生成することを特徴とする。
数の文からなるテキストを入力する手段と、前記テキス
トを段落に分割する手段と、予め定められた基準に基づ
いて前記分割された段落ごとの標準韻律パタンを生成す
る手段と、前記段落を文に分割する手段と、前記分割さ
れた文ごとに当該文が含まれる段落の前記標準韻律パタ
ンを予め定められた基準に基づいて変形して、当該文の
韻律パタンを生成する手段と、前記韻律パタンにしたが
って音声を合成する手段とを有し、 前記韻律パタンを生
成する手段は、分割された段落ごとの韻律パタンを生成
する際に、当該段落のテキスト内での位置に基づいて当
該段落の韻律パタンを生成することを特徴とする。
ータとしては、ピッチ周波数パタン、継続時間長、振幅
パタンなどが挙げられる。人間は、テキストの流れに沿
ってこれらの韻律的特徴を様々に変化させて読み上げを
行う。本発明では、以下のようにして複数の文からなる
テキストにおいて、文または段落ごとの韻律的特徴を変
更することにより、人間が行うのに近い読み上げを実現
する。
トを構成する各文は、一定のイントネーション、一定の
リズムやテンポで読み上げられていた。これは、文単位
での韻律的特徴を決定づけるパラメータ(以後、韻律特
徴量と呼ぶことにする)の値として、常に一定の値が用
いられていたからである。
文からなるテキストを、1つ1つの文に分割する。次
に、各文の持つ特徴にしたがって、韻律特徴量を決定
し、決定された韻律特徴量に基づいて当該文の韻律パタ
ンを生成する。この文の持つ特徴として、各文のテキス
ト全体における位置の情報を用いるものである。位置の
情報とは、例えば、当該文がテキスト全体の何%の位置
にあるかで表すことができる。例えば、8文からなるテ
キストの2番目の文は、このテキストの始めから25%
の位置にあることになる。この値に応じて各文の韻律特
徴量を決定する。
くつかの段落からなるとき、まず、テキストを段落に分
割する。各段落の持つ特徴にしたがって、段落全体を通
しての標準の韻律特徴量を決定する。次に、段落を、そ
れを構成する文に分割する。各文の持つ特徴にしたがっ
て段落全体を通しての標準の韻律特徴量を変更し、変更
された韻律特徴量に基づいて当該文の韻律パタンを生成
する。このような方法により、段落ごとにまとまりを持
った韻律パタンを生成することができる。この段落の持
つ特徴として、各段落のテキスト全体における位置の情
報を用いるものである。位置の情報とは、例えば、当該
段落がテキスト全体の何%の位置にあるかで表すことが
できる。例えば、8段落からなるテキストの2番目の段
落は、このテキストの始めから25%の位置にあること
になる。この値に応じて各段落の韻律特徴量を決定す
る。
キストの流れに沿って、自動的に種々の韻律特徴量を変
化させる。これにより、従来の装置のように単調な読み
上げになることなく、自然な朗読に近い音声を出力する
ことが可能となる。
装置の一実施例を示すブロック図である。まず、複数の
文からなるテキストがテキスト入力端子101から入力
される。入力されたテキストは文切出部102、及びテ
キスト内位置判定部103に送られる。文切出部102
は、テキストをそれを構成する各文に分解し、テキスト
内位置判定部103、キーワード検出部104、韻律生
成部106、及び音声合成部107に送る。テキスト内
位置判定部103は、テキスト入力端子101を通して
入力された全テキストにおける、文切出部102から送
られてくる各文の位置を判定し、韻律特徴量決定部10
5に送る。一方、キーワード検出部104は、文切出部
102から送られてくる各文中に予め定められた語句が
存在するかどうかを判定し、結果を韻律特徴量決定部1
05に送る。韻律特徴量決定部105は、テキスト内位
置判定部103で判定された当該文の入力テキストにお
ける位置の情報、及びキーワード検出部104で判定さ
れた特定の語句の有無の情報を用いて、作用の項で説明
したような方法によって当該文の韻律特徴量を決定し、
韻律生成部106に送る。韻律生成部106は、韻律特
徴量決定部105で決定された韻律特徴量に基づいて韻
律パタンを生成し、音声合成部107に送る。音声合成
部107は、文切出部102から送られてきた文、及び
韻律生成部106で生成された韻律パタンにしたがって
音声波形を合成し、合成音声出力端子108に出力す
る。
03、及びキーワード検出部104による判定結果に基
づいて韻律を生成する場合の構成を例に説明したが、こ
のうちのどちらか一方だけを用いる装置を構成すること
も可能である。図1のブロック図からキーワード検出部
104を取り除いたものが第3の発明の構成であり、テ
キスト内位置判定部103を取り除いたものが第4の発
明の構成である。
成装置の一実施例を示すブロック図である。まず、複数
の文からなるテキストがテキスト入力端子201から入
力される。入力されたテキストは段落切出部202、及
びテキスト内位置判定部203に送られる。段落切出部
202は、テキストをそれを構成する段落に分解し、テ
キスト内位置判定部203、文切出部205及び段落内
位置判定部206に送る。テキスト内位置判定部203
は、テキスト入力端子201を通して入力された全テキ
ストにおける、段落切出部202から送られてくる各段
落の位置を判定し、段落内韻律特徴量決定部204に送
る。段落内韻律特徴量決定部204は、テキスト内位置
判定部203で判定された全テキストにおける当該段落
の位置から、当該段落の標準の韻律特徴量を決定し、韻
律特徴量決定部208に送る。また、段落切出部202
と段落内韻律特徴量決定部204の間にキーワード検出
部207を設け、段落内に予め定められた語句が存在す
るかどうかを、当該段落の標準の韻律特徴量を決定する
際に用いることも有効である。文切出部205は、段落
切出部202から送られてくる段落をそれを構成する文
に分解し、段落内位置判定部206、キーワード検出部
207、韻律生成部209、及び音声合成部210に送
る。段落内位置判定部206は、段落切出部202で切
り出された段落における、文切出部205から送られて
くるその段落を構成する各文の位置を判定し、韻律特徴
量決定部208に送る。一方、キーワード検出部207
は、文切出部205から送られてくる各文中に予め定め
られた語句が存在するかどうかを判定し、結果を韻律特
徴量決定部208に送る。韻律特徴量決定部208は、
段落内韻律特徴量決定部204で決定された当該段落の
標準の韻律特徴量、段落内位置判定部206で判定され
た当該段落内における位置の情報、及びキーワード検出
部207で判定された特定の語句の有無の情報を用い
て、作用の項で説明したような方法によって、その文の
韻律特徴量を決定し、韻律生成部209に送る。韻律生
成部209は、韻律特徴量決定部208で決定された韻
律特徴量に基づいて韻律パタンを生成し、音声合成部2
10に送る。音声合成部210は、文切出部205から
送られてきた文、及び韻律生成部209で生成された韻
律パタンにしたがって音声波形を合成し、合成音声出力
端子211に出力する。
成装置の一実施例を示すブロック図である。図1の韻律
特徴量決定部105を、特にピッチ周波数パタン特徴量
決定部305とした構成である。テキスト入力端子30
1、文切出部302、テキスト内位置判定部303、キ
ーワード検出部304、韻律生成部306、音声合成部
307、合成音声出力端子308は、図1のものと同じ
である。
は、作用の項で説明したような、平均ピッチ周波数、文
の始端(話し始め)のピッチ周波数、文の終端(話し終
り)のピッチ周波数、ピッチ周波数変化幅などの特徴量
を決定し、韻律生成部306に送る。韻律生成部306
では、ピッチ周波数パタンや継続時間長、振幅パタンな
どが生成されるが、このうちピッチ周波数パタンは、ピ
ッチ周波数パタン特徴量決定部305で決定されたピッ
チ周波数パタンの特徴量に基づいて生成される。また、
第5の発明によるテキスト音声合成装置の他の実施例と
しては、図2の韻律特徴量決定部208を、ピッチ周波
数パタン特徴量決定部に置き換えたものが考えられる。
成装置の一実施例を示すブロック図である。図1の韻律
特徴量決定部105を、特に継続時間長特徴量決定部4
05とした構成である。テキスト入力端子401、文切
出部402、テキスト内位置判定部403、キーワード
検出部404、韻律生成部406、音声合成部407、
合成音声出力端子408は、図1のものと同じである。
項で説明したような、発声速度などの特徴量を決定し、
韻律生成部406に送る。韻律生成部406では、ピッ
チ周波数パタンや継続時間長、振幅パタンなどが生成さ
れるが、このうち継続時間長は、継続時間長特徴量決定
部405で決定された継続時間長の特徴量に基づいて生
成される。また、第6の発明によるテキスト音声合成装
置の他の実施例としては、図2の韻律特徴量決定部20
8を、継続時間長特徴量決定部に置き換えたものが考え
られる。
成装置の一実施例を示すブロック図である。図1の韻律
特徴量決定部105を、特に振幅パタン特徴量決定部5
05とした構成である。テキスト入力端子501、文切
出部502、テキスト内位置判定部503、キーワード
検出部504、韻律生成部506、音声合成部507、
合成音声出力端子508は、図1のものと同じである。
項で説明したような、平均振幅、振幅変化幅などの特徴
量を決定し、韻律生成部506に送る。韻律生成部50
6では、ピッチ周波数パタンや継続時間長、振幅パタン
などが生成されるが、このうち振幅パタンは、振幅パタ
ン特徴量決定部505で決定された振幅パタンの特徴量
に基づいて生成される。また、第7の発明によるテキス
ト音声合成装置の他の実施例としては、図2の韻律特徴
量決定部208を、振幅パタン特徴量決定部に置き換え
たものが考えられる。
ば、複数の文からなるテキストが入力された場合でも、
そのテキストの流れに沿ってイントネーションやリズ
ム、テンポなどの韻律的な特徴を自動的に変化させて読
み上げることが可能である。したがって、例えば、読書
器などのように大量のテキストを読み上げる必要がある
テキスト音声合成装置などを実現するのに非常に有効で
ある。
施例を示すブロック図である。
施例を示すブロック図である。
施例を示すブロック図である。
施例を示すブロック図である。
施例を示すブロック図である。
Claims (2)
- 【請求項1】複数の文からなるテキストを入力する手段
と、 前記テキストを文に分割する手段と、 予め定められた基準に基づいて前記分割された文ごとの
韻律パタンを生成する手段と、 前記韻律パタンにしたがって音声を合成する手段とを有
し、 前記韻律パタンを生成する手段は、分割された文ごとの
韻律パタンを生成する際に、当該文のテキスト内での位
置に基づいて当該文の韻律パタンを生成 することを特徴
とするテキスト音声合成装置。 - 【請求項2】複数の文からなるテキストを入力する手段
と、 前記テキストを段落に分割する手段と、 予め定められた基準に基づいて前記分割された段落ごと
の標準韻律パタンを生成する手段と、 前記段落を文に分割する手段と、 前記分割された文ごとに当該文が含まれる段落の前記標
準韻律パタンを予め定められた基準に基づいて変形し
て、当該文の韻律パタンを生成する手段と、 前記韻律パタンにしたがって音声を合成する手段とを有
し、 前記韻律パタンを生成する手段は、分割された段落ごと
の韻律パタンを生成する際に、当該段落のテキスト内で
の位置に基づいて当該段落の韻律パタンを生成 すること
を特徴とするテキスト音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04027006A JP3094622B2 (ja) | 1992-02-14 | 1992-02-14 | テキスト音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04027006A JP3094622B2 (ja) | 1992-02-14 | 1992-02-14 | テキスト音声合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH05224688A JPH05224688A (ja) | 1993-09-03 |
JP3094622B2 true JP3094622B2 (ja) | 2000-10-03 |
Family
ID=12209035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP04027006A Expired - Fee Related JP3094622B2 (ja) | 1992-02-14 | 1992-02-14 | テキスト音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3094622B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9322112D0 (en) * | 1993-10-27 | 1993-12-15 | El Houssaini Talal A | Language analysis instrument |
JP2679623B2 (ja) * | 1994-05-18 | 1997-11-19 | 日本電気株式会社 | テキスト音声合成装置 |
JPH11161298A (ja) * | 1997-11-28 | 1999-06-18 | Toshiba Corp | 音声合成方法及び装置 |
JPH11224095A (ja) * | 1998-02-06 | 1999-08-17 | Fujitsu Ten Ltd | 音声再生システム |
EP3499501A4 (en) * | 2016-08-09 | 2019-08-07 | Sony Corporation | DEVICE AND INFORMATION PROCESSING |
-
1992
- 1992-02-14 JP JP04027006A patent/JP3094622B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH05224688A (ja) | 1993-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
US7010489B1 (en) | Method for guiding text-to-speech output timing using speech recognition markers | |
JP2000206982A (ja) | 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体 | |
JP3673471B2 (ja) | テキスト音声合成装置およびプログラム記録媒体 | |
Browman | Rules for demisyllable synthesis using LINGUA, a language interpreter | |
JP3094622B2 (ja) | テキスト音声合成装置 | |
JP3518898B2 (ja) | 音声合成装置 | |
AU769036B2 (en) | Device and method for digital voice processing | |
JP5360489B2 (ja) | 音素符号変換装置および音声合成装置 | |
JPH08335096A (ja) | テキスト音声合成装置 | |
JP2740510B2 (ja) | テキスト音声合成方式 | |
Lobanov et al. | TTS-Synthesizer as a Computer Means for Personal Voice Cloning (On the example of Russian) | |
JP3233036B2 (ja) | 歌唱音合成装置 | |
JP2894447B2 (ja) | 複合音声単位を用いた音声合成装置 | |
JP3081300B2 (ja) | 残差駆動型音声合成装置 | |
JPH05224689A (ja) | 音声合成装置 | |
JP3397406B2 (ja) | 音声合成装置及び音声合成方法 | |
JP2987089B2 (ja) | 音声素片作成方法および音声合成方法とその装置 | |
JPH11296193A (ja) | 音声合成装置 | |
JP3853923B2 (ja) | 音声合成装置 | |
JP2910587B2 (ja) | 音声合成装置 | |
JPH11161297A (ja) | 音声合成方法及び装置 | |
JP3297221B2 (ja) | 音韻継続時間長制御方式 | |
Eady et al. | Pitch assignment rules for speech synthesis by word concatenation | |
JPH0990987A (ja) | 音声合成方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070804 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080804 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080804 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090804 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090804 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100804 Year of fee payment: 10 |
|
LAPS | Cancellation because of no payment of annual fees |