JP3241582B2 - 韻律制御装置及び方法 - Google Patents
韻律制御装置及び方法Info
- Publication number
- JP3241582B2 JP3241582B2 JP05315996A JP5315996A JP3241582B2 JP 3241582 B2 JP3241582 B2 JP 3241582B2 JP 05315996 A JP05315996 A JP 05315996A JP 5315996 A JP5315996 A JP 5315996A JP 3241582 B2 JP3241582 B2 JP 3241582B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- prosody
- sentence
- speech
- range
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
に関わり、特に、システム応答文のように定型文であっ
てその中の特定の単語だけが取り替えられるような類い
の文の自然な発声音を合成するのに適した韻律制御の技
術に関する。
で用いられる文章は一般にシステム応答文と呼ばれ、そ
の中の特定の単語だけが取り替え得る定型文であること
が多い。例えば、「ABC銀行から振込がございまし
た」なるシステム応答文では、銀行名の単語が「AB
C」や「CDF」等の異なるものに取り替えられる。
合、従来は編集合成法により単語と文章とを繋げてい
る。編集合成法とは、例えば上記において「○○銀行か
ら振込がございました」という定型的な文章の単語部分
「○○」に、「ABC」や「CDF」等の任意の単語を
貼り付けて合成する方法である。
来の音声合成処理では、「ABC」のような単語の音声
と、文章の「銀行から振込がございました」のような定
型部分の音声とを単純に繋げている。しかし、同じ文章
又は単語でも、異なる発話様式で発声されたものは韻律
が微妙に異なるため、聴覚的に異なった感覚を与える。
例えば、複数人による会話の音声と、一人による朗読の
音声とを聞き比べると、同じ文章であっても話し方つま
り発話様式が異なるために、異なった感じに聞こえる。
また、単独に発声された単語の音声と、文章に組込まれ
て発声された同じ単語の音声とを聞き比べても、やはり
異なった感じに聞こえる。通常、音声合成システムに登
録されている個々の単語や文章の音声は異なる発話様式
で発声されたものであるから、従来のようにその単語と
文章の音声を単純に繋げると、文章全体の音声は不自然
に聞こえてしまう。
つ応答文を自然に聞こえるように作るためには、各単語
毎に多様な登録文に適合した韻律をもった他種類の音声
を登録しておく必要がある。しかし、特に小さいシステ
ムではデータベースの容量制限から他種類の音声を各登
録語毎に用意することができない。また、音声収録の面
でも、あらゆる韻律で単語を発声することは困難であ
る。
る文章の音声と単語の音声とを結合して音声を合成する
場合、合成結果が自然な音声に聞こえるようにすること
にある。
定型部分の音声と単語の音声とを繋げて完全な文章の音
声を合成する場合に、その単語の音声の韻律がその文章
に適合するように制御される。この韻律制御では、ま
ず、その単語の音声がもつ韻律を示すデータと、その文
章の単語部分がもつ韻律範囲を示すデータとが取得さ
れ、そして、それらのデータが比較される。次に、その
比較の結果に基づいて、その単語の音声の韻律が上記単
語部分の韻律範囲内に入るように、その単語の音声が調
節される。このように韻律が制御された単語の音声を、
文章の定型部分の音声に繋げれば、自然に聞こえる完全
な文章の音声が得られる。
ピッチ周波数、振幅、及び時間長の3種類のパラメータ
を採用することができる。韻律制御法には、ピッチ同期
波形重畳法を用いることができる。
れた単語の音声を、多様な発話様式で発声された種々の
文章の各々に適合する韻律をもった音声に変換できるの
で、各単語について多様な韻律をもつ他種類の音声を用
意する必要がない。よって、データベース容量の小さい
小システムでも、自然な音声をもった文章が合成でき
る。
る音声合成装置の構成を示す。この装置は実際には、本
発明に従う音声合成処理のためのアプリケーションプロ
グラムがインストールされたコンピュータシステムであ
る。
内に、単語データベース1、単語韻律テーブル3、文章
データベース5、及び文中韻律テーブル7が用意されて
いる。単語データベース1には、種々の単語の単語番号
と、それらの単語の実際の発声から得られた音声データ
とが格納されている。単語韻律テーブル3には、上記種
々の単語の実際の発声から測定された韻律のデータが、
単語番号と共に格納されている。ここで、各単語の韻律
データは、各単語の音声区間で測定されたピッチ周波
数、振幅及び時間長という3種類の韻律パラメータの平
均値から構成される。
章番号と、それらの文章の実際の発声から得られた各文
章の定型部分(つまり、取り替え可能な単語の部分を抜
いた残り部分)の音声データとが格納されている。文中
韻律テーブル7には、上記種々の文章の取り替え可能な
単語部分がもつ韻律の範囲を示すデータが格納されてい
る。各文章の韻律範囲データは、各文章の上記単語部分
がもつ上記3種の韻律パラメータの平均値と標準偏差と
から構成され、それは次の様にして作成されたものであ
る。すなわち、各文章について、上記単語部分だけを種
々の単語に入れ替えた多数の文章を実際に発声して、そ
れらの単語部分の韻律(上記3種の韻律パラメータの
値)を測定し、そして、各パラメータについて測定値の
平均値と標準偏差とを求める。発明者が行った実験によ
れば、個々の文章毎に単語部分のピッチ周波数、振幅及
び時間長に特有の範囲が存在することが分った。従っ
て、上記の様にして作成された各文章の韻律範囲データ
は、各文章の単語部分がもつ各文章に特有の韻律範囲を
示している。このことは、各文章を発声する時、その韻
律範囲データ内の韻律で単語部分を発声すれば、その単
語は各文章の定型部分と聴覚的に整合して、文章全体が
自然に聞こえることを意味する。
を実行することにより、単語検索処理11、文章検索処
理13、韻律生成処理15、韻律制御処理17、および
編集合成処理19という5つのプロセスを行う。CPU
9への入力は、所望のシステム応答文を構成する単語と
文章の単語番号と文章番号である。
理11が行われる。この処理11では、単語データベー
ス1及び単語韻律テーブル3から、入力された単語番号
により識別される単語の音声データ21及び韻律データ
23が検索される。検索された単語の音声データ21は
韻律制御処理17へ渡され、韻律データ23は韻律生成
処理15へ渡される。
理13が行われる。この処理13では、文章データベー
ス5及び文中韻律テーブル7から、入力された文章番号
により識別される文章の定型部分の音声データ25及び
単語部分の韻律範囲データ27が検索される。検索され
た定型部分の音声データ25は編集合成処理19へ渡さ
れ、単語部分の韻律範囲データ27は韻律生成処理15
へ渡される。
23と、文章の単語部分の韻律範囲データ27とが比較
され、両者の差分29が計算される。例えば、韻律デー
タ23の示すピッチ周波数が277[Hz]であり、韻
律範囲データ27の示すピッチ周波数の平均が325
[Hz]かつ標準偏差が34[Hz]である場合、韻律
範囲データ27が示すピッチ周波数の範囲は291〜3
59[Hz]であるから、周波数についての差分29は
291−277=14[Hz]である。他の韻律パラメ
ータについても、同様の方法で差分29が計算される。
これら3種の韻律パラメータの差分29は韻律制御処理
17へ渡される。尚、単語の韻律データ23の示す3種
のパラメータ値の内のいずれかが、韻律範囲データ27
の示すそのパラメータの範囲内に収っている場合は、そ
のパラメータについての差分29はゼロである。
21に対して韻律の差分29に基づいた韻律制御が行わ
れる。韻律制御方法には、例えばピッチ同期波形重畳法
が用いられる。韻律制御処理17の結果、元の音声デー
タ21は、韻律範囲データ27の示す韻律範囲内に入る
韻律を有した音声データ31に変換される。尚、差分2
9がゼロであるパラメータについては、制御が行われな
いから元の音声データ21の値がそのまま維持される。
この処理17により得られた制御された韻律をもつ音声
データ31は、編集合成処理19へ渡される。
もつ単語の音声データ31が、文章の定型部分の音声デ
ータ25の空白な単語部分に組込まれて、完全なシステ
ム応答文の音声データ33が生成される。この音声デー
タ33はスピーカのような音声出力装置によって音声に
再生される。
重畳法は、制御結果の合成音が高品質である、及びピッ
チ波形単位の容易な処理であるという特長を有する。こ
の方法の詳細は例えばE.Moulines及びF. Charpentierに
よる“Pitch-Syncronous Waveform Processing Techniq
ues for Text-to-Speech Synthesis using Diphones,”
Speech Communication, Vol.9, pp.453-467, Dec. 199
0に説明されている。
御の流れを示し、図3はこの韻律制御の各段階における
音声波形を示している。
す元の音声データ21に窓関数をかけて、図3Bに示す
ように個々のピッチ波形を取り出す(S1)。次に、各
ピッチ波形に対し振幅の差分で決まる重み関数をかけ
て、図3Cに示すように各ピッチ波形の振幅を調節する
(S2)。次に、音声区間内に存在するピッチ波形の個
数を時間長の差分に応じて加減することにより、図3D
に示すように時間長を調節する(S3)。次に、ピッチ
波形の間隔(周期)をピッチ周波数の差分に応じて変更
してピッチ周波数を調節し、そして、それらのピッチ波
形を結合することにより、図3Eに示すような制御され
た韻律をもつ音声波形を表した音声データ31を作成す
る(S4)。
の韻律が、組込まれるべき文章に適した韻律範囲内のも
のに修正されるから、その単語音声を組込んだ文章全体
の音声は自然に聞こえる。従って、1単語当たり1つの
音声データを、発話様式の異なる多様な文章に適合させ
て用いることができる。
図。
を示したフローチャート。
した波形図。
Claims (6)
- 【請求項1】 単語部分と定型部分とを有する文章の前
記定型部分の音声と、前記単語部分に入るべき単語の音
声とを結合して、前記文章の全体の音声を合成するシス
テムのための、前記単語の韻律を前記文章に適合するよ
うに制御する装置において、 前記単語の音声と韻律を取得する単語取得手段と、 前記文章の単語部分の韻律範囲を取得する韻律範囲取得
手段と、 取得された前記単語の韻律と前記単語部分の韻律範囲と
を比較する韻律比較手段と、 取得された前記単語の音声に対し、前記韻律比較手段か
らの比較結果に基づく韻律制御を行い、それにより、前
記単語の音声を、前記韻律範囲に存在する韻律をもった
制御された単語の音声に変換する韻律制御手段と、を備
えたことを特徴とする韻律制御装置。 - 【請求項2】 請求項1記載の装置において、 前記単語の韻律が、前記単語の音声がもつピッチ周波
数、振幅及び時間長という3種の韻律パラメータの値を
含み、 前記単語部分の韻律範囲が、前記単語部分がもつ前記3
種の韻律パラメータの値の範囲を含むことを特徴とする
韻律制御装置。 - 【請求項3】 請求項1記載の装置において、 前記韻律制御手段が、ピッチ同期波形重畳法を用いた韻
律制御を行うことを特徴とする韻律制御装置。 - 【請求項4】 請求項1記載の装置において、 前記単語取得手段が、複数の単語の音声を格納した単語
データベースと、前記複数の単語の韻律を格納した単語
韻律テーブルと、選択された単語の音声と韻律を前記単
語データベース及び単語韻律テーブルから検索する手段
とを有し、 前記韻律範囲取得手段が、複数の文章の単語部分の韻律
範囲を格納した文中韻律テーブルと、選択された文章の
単語部分の韻律範囲を前記文中韻律テーブルから検索す
る手段とを有することを特徴とする韻律制御装置。 - 【請求項5】 単語部分と定型部分とを有する文章の前
記定型部分の音声と、前記単語部分に入るべき単語の音
声とを結合して、前記文章の全体の音声を合成するシス
テムのための、前記単語の韻律を前記文章に適合するよ
うに制御する方法において、 前記単語の音声と韻律を取得する過程と、 前記文章の単語部分の韻律範囲を取得する過程と、 取得された前記単語の韻律と前記単語部分の韻律範囲と
を比較する過程と、 取得された前記単語の音声に対し、前記比較過程からの
比較結果に基づく韻律制御を行い、それにより、前記単
語の音声を、前記韻律範囲に存在する韻律をもった制御
された単語の音声に変換する過程と、を備えたことを特
徴とする韻律制御方法。 - 【請求項6】 単語部分と定型部分とを有する文章の前
記定型部分の音声と、前記単語部分に入るべき単語の音
声とを結合して、前記文章の全体の音声を合成するシス
テムにおいて、 前記単語の音声と韻律を取得する単語取得手段と、 前記文章の定型部分の音声と単語部分の韻律範囲とを取
得する文章取得手段と、 取得された前記単語の韻律と前記単語部分の韻律範囲と
を比較する韻律比較手段と、 取得された前記単語の音声に対し、前記韻律比較手段か
らの比較結果に基づく韻律制御を行い、それにより、前
記単語の音声を、前記韻律範囲に存在する韻律をもった
制御された単語の音声に変換する韻律制御手段と、 前記韻律制御手段からの前記制御された単語の音声と、
前記文章取得手段からの前記定型部分の音声とを結合し
て、前記文章の全体の音声を作成する編集合成手段と、
を備えたことを特徴とする音声合成システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05315996A JP3241582B2 (ja) | 1996-03-11 | 1996-03-11 | 韻律制御装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05315996A JP3241582B2 (ja) | 1996-03-11 | 1996-03-11 | 韻律制御装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09244680A JPH09244680A (ja) | 1997-09-19 |
JP3241582B2 true JP3241582B2 (ja) | 2001-12-25 |
Family
ID=12935078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP05315996A Expired - Fee Related JP3241582B2 (ja) | 1996-03-11 | 1996-03-11 | 韻律制御装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3241582B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11237971A (ja) * | 1998-02-23 | 1999-08-31 | Nippon Telegr & Teleph Corp <Ntt> | 音声応答装置 |
JP2009282236A (ja) * | 2008-05-21 | 2009-12-03 | Mitsubishi Electric Corp | 音声合成装置 |
-
1996
- 1996-03-11 JP JP05315996A patent/JP3241582B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH09244680A (ja) | 1997-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7565291B2 (en) | Synthesis-based pre-selection of suitable units for concatenative speech | |
JPH031200A (ja) | 規則型音声合成装置 | |
US20040030555A1 (en) | System and method for concatenating acoustic contours for speech synthesis | |
CA2222582C (en) | Speech synthesizer having an acoustic element database | |
US6832192B2 (en) | Speech synthesizing method and apparatus | |
US20040122668A1 (en) | Method and apparatus for using computer generated voice | |
JP3518898B2 (ja) | 音声合成装置 | |
JP3241582B2 (ja) | 韻律制御装置及び方法 | |
JP4451665B2 (ja) | 音声を合成する方法 | |
JP2002525663A (ja) | ディジタル音声処理装置及び方法 | |
JPH08335096A (ja) | テキスト音声合成装置 | |
JP5175422B2 (ja) | 音声合成における時間幅を制御する方法 | |
US7130799B1 (en) | Speech synthesis method | |
JPH11249679A (ja) | 音声合成装置 | |
JP2001034284A (ja) | 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体 | |
JPH0580791A (ja) | 音声規則合成装置および方法 | |
JPH09179576A (ja) | 音声合成方法 | |
JP2577372B2 (ja) | 音声合成装置および方法 | |
JP3310217B2 (ja) | 音声合成方法とその装置 | |
JP2001100777A (ja) | 音声合成方法及び装置 | |
JP2809769B2 (ja) | 音声合成装置 | |
JPH11109992A (ja) | 音声素片データベースの作成方法、音声合成方法、音声素片データベース、音声素片データベース作成装置および音声合成装置 | |
JPH1097268A (ja) | 音声合成装置 | |
JP3297221B2 (ja) | 音韻継続時間長制御方式 | |
JPH04369693A (ja) | 音声規則合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071019 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081019 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091019 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101019 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111019 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121019 Year of fee payment: 11 |
|
LAPS | Cancellation because of no payment of annual fees |