JP3241582B2 - 韻律制御装置及び方法 - Google Patents

韻律制御装置及び方法

Info

Publication number
JP3241582B2
JP3241582B2 JP05315996A JP5315996A JP3241582B2 JP 3241582 B2 JP3241582 B2 JP 3241582B2 JP 05315996 A JP05315996 A JP 05315996A JP 5315996 A JP5315996 A JP 5315996A JP 3241582 B2 JP3241582 B2 JP 3241582B2
Authority
JP
Japan
Prior art keywords
word
prosody
sentence
speech
range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP05315996A
Other languages
English (en)
Other versions
JPH09244680A (ja
Inventor
貴彦 新村
慶士 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP05315996A priority Critical patent/JP3241582B2/ja
Publication of JPH09244680A publication Critical patent/JPH09244680A/ja
Application granted granted Critical
Publication of JP3241582B2 publication Critical patent/JP3241582B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の技術分野】本発明は、一般には音声合成の技術
に関わり、特に、システム応答文のように定型文であっ
てその中の特定の単語だけが取り替えられるような類い
の文の自然な発声音を合成するのに適した韻律制御の技
術に関する。
【0002】
【従来の技術】普及している自動音声応答装置の構成音
で用いられる文章は一般にシステム応答文と呼ばれ、そ
の中の特定の単語だけが取り替え得る定型文であること
が多い。例えば、「ABC銀行から振込がございまし
た」なるシステム応答文では、銀行名の単語が「AB
C」や「CDF」等の異なるものに取り替えられる。
【0003】このようなシステム応答文を合成する場
合、従来は編集合成法により単語と文章とを繋げてい
る。編集合成法とは、例えば上記において「○○銀行か
ら振込がございました」という定型的な文章の単語部分
「○○」に、「ABC」や「CDF」等の任意の単語を
貼り付けて合成する方法である。
【0004】
【発明が解決しようとする課題】編集合成法を用いた従
来の音声合成処理では、「ABC」のような単語の音声
と、文章の「銀行から振込がございました」のような定
型部分の音声とを単純に繋げている。しかし、同じ文章
又は単語でも、異なる発話様式で発声されたものは韻律
が微妙に異なるため、聴覚的に異なった感覚を与える。
例えば、複数人による会話の音声と、一人による朗読の
音声とを聞き比べると、同じ文章であっても話し方つま
り発話様式が異なるために、異なった感じに聞こえる。
また、単独に発声された単語の音声と、文章に組込まれ
て発声された同じ単語の音声とを聞き比べても、やはり
異なった感じに聞こえる。通常、音声合成システムに登
録されている個々の単語や文章の音声は異なる発話様式
で発声されたものであるから、従来のようにその単語と
文章の音声を単純に繋げると、文章全体の音声は不自然
に聞こえてしまう。
【0005】この従来技術の下で、多様な発話様式をも
つ応答文を自然に聞こえるように作るためには、各単語
毎に多様な登録文に適合した韻律をもった他種類の音声
を登録しておく必要がある。しかし、特に小さいシステ
ムではデータベースの容量制限から他種類の音声を各登
録語毎に用意することができない。また、音声収録の面
でも、あらゆる韻律で単語を発声することは困難であ
る。
【0006】従って、本発明の目的は、発話様式が異な
る文章の音声と単語の音声とを結合して音声を合成する
場合、合成結果が自然な音声に聞こえるようにすること
にある。
【0007】
【課題を解決するための手段】本発明に従えば、文章の
定型部分の音声と単語の音声とを繋げて完全な文章の音
声を合成する場合に、その単語の音声の韻律がその文章
に適合するように制御される。この韻律制御では、ま
ず、その単語の音声がもつ韻律を示すデータと、その文
章の単語部分がもつ韻律範囲を示すデータとが取得さ
れ、そして、それらのデータが比較される。次に、その
比較の結果に基づいて、その単語の音声の韻律が上記単
語部分の韻律範囲内に入るように、その単語の音声が調
節される。このように韻律が制御された単語の音声を、
文章の定型部分の音声に繋げれば、自然に聞こえる完全
な文章の音声が得られる。
【0008】韻律制御で操作する韻律パラメータには、
ピッチ周波数、振幅、及び時間長の3種類のパラメータ
を採用することができる。韻律制御法には、ピッチ同期
波形重畳法を用いることができる。
【0009】本発明によれば、一つの発話様式で発声さ
れた単語の音声を、多様な発話様式で発声された種々の
文章の各々に適合する韻律をもった音声に変換できるの
で、各単語について多様な韻律をもつ他種類の音声を用
意する必要がない。よって、データベース容量の小さい
小システムでも、自然な音声をもった文章が合成でき
る。
【0010】
【発明の実施の形態】図1は本発明の一実施形態にかか
る音声合成装置の構成を示す。この装置は実際には、本
発明に従う音声合成処理のためのアプリケーションプロ
グラムがインストールされたコンピュータシステムであ
る。
【0011】磁気ディスク装置の様な適当なストレージ
内に、単語データベース1、単語韻律テーブル3、文章
データベース5、及び文中韻律テーブル7が用意されて
いる。単語データベース1には、種々の単語の単語番号
と、それらの単語の実際の発声から得られた音声データ
とが格納されている。単語韻律テーブル3には、上記種
々の単語の実際の発声から測定された韻律のデータが、
単語番号と共に格納されている。ここで、各単語の韻律
データは、各単語の音声区間で測定されたピッチ周波
数、振幅及び時間長という3種類の韻律パラメータの平
均値から構成される。
【0012】文章データベース5には、種々の文章の文
章番号と、それらの文章の実際の発声から得られた各文
章の定型部分(つまり、取り替え可能な単語の部分を抜
いた残り部分)の音声データとが格納されている。文中
韻律テーブル7には、上記種々の文章の取り替え可能な
単語部分がもつ韻律の範囲を示すデータが格納されてい
る。各文章の韻律範囲データは、各文章の上記単語部分
がもつ上記3種の韻律パラメータの平均値と標準偏差と
から構成され、それは次の様にして作成されたものであ
る。すなわち、各文章について、上記単語部分だけを種
々の単語に入れ替えた多数の文章を実際に発声して、そ
れらの単語部分の韻律(上記3種の韻律パラメータの
値)を測定し、そして、各パラメータについて測定値の
平均値と標準偏差とを求める。発明者が行った実験によ
れば、個々の文章毎に単語部分のピッチ周波数、振幅及
び時間長に特有の範囲が存在することが分った。従っ
て、上記の様にして作成された各文章の韻律範囲データ
は、各文章の単語部分がもつ各文章に特有の韻律範囲を
示している。このことは、各文章を発声する時、その韻
律範囲データ内の韻律で単語部分を発声すれば、その単
語は各文章の定型部分と聴覚的に整合して、文章全体が
自然に聞こえることを意味する。
【0013】CPU9は、アプリケーションプログラム
を実行することにより、単語検索処理11、文章検索処
理13、韻律生成処理15、韻律制御処理17、および
編集合成処理19という5つのプロセスを行う。CPU
9への入力は、所望のシステム応答文を構成する単語と
文章の単語番号と文章番号である。
【0014】入力された単語番号に応答して単語検索処
理11が行われる。この処理11では、単語データベー
ス1及び単語韻律テーブル3から、入力された単語番号
により識別される単語の音声データ21及び韻律データ
23が検索される。検索された単語の音声データ21は
韻律制御処理17へ渡され、韻律データ23は韻律生成
処理15へ渡される。
【0015】入力された文章番号に応答して文章検索処
理13が行われる。この処理13では、文章データベー
ス5及び文中韻律テーブル7から、入力された文章番号
により識別される文章の定型部分の音声データ25及び
単語部分の韻律範囲データ27が検索される。検索され
た定型部分の音声データ25は編集合成処理19へ渡さ
れ、単語部分の韻律範囲データ27は韻律生成処理15
へ渡される。
【0016】韻律生成処理15では、単語の韻律データ
23と、文章の単語部分の韻律範囲データ27とが比較
され、両者の差分29が計算される。例えば、韻律デー
タ23の示すピッチ周波数が277[Hz]であり、韻
律範囲データ27の示すピッチ周波数の平均が325
[Hz]かつ標準偏差が34[Hz]である場合、韻律
範囲データ27が示すピッチ周波数の範囲は291〜3
59[Hz]であるから、周波数についての差分29は
291−277=14[Hz]である。他の韻律パラメ
ータについても、同様の方法で差分29が計算される。
これら3種の韻律パラメータの差分29は韻律制御処理
17へ渡される。尚、単語の韻律データ23の示す3種
のパラメータ値の内のいずれかが、韻律範囲データ27
の示すそのパラメータの範囲内に収っている場合は、そ
のパラメータについての差分29はゼロである。
【0017】韻律制御処理17では、単語の音声データ
21に対して韻律の差分29に基づいた韻律制御が行わ
れる。韻律制御方法には、例えばピッチ同期波形重畳法
が用いられる。韻律制御処理17の結果、元の音声デー
タ21は、韻律範囲データ27の示す韻律範囲内に入る
韻律を有した音声データ31に変換される。尚、差分2
9がゼロであるパラメータについては、制御が行われな
いから元の音声データ21の値がそのまま維持される。
この処理17により得られた制御された韻律をもつ音声
データ31は、編集合成処理19へ渡される。
【0018】編集合成処理19では、制御された韻律を
もつ単語の音声データ31が、文章の定型部分の音声デ
ータ25の空白な単語部分に組込まれて、完全なシステ
ム応答文の音声データ33が生成される。この音声デー
タ33はスピーカのような音声出力装置によって音声に
再生される。
【0019】因みに、韻律制御で用いるピッチ同期波形
重畳法は、制御結果の合成音が高品質である、及びピッ
チ波形単位の容易な処理であるという特長を有する。こ
の方法の詳細は例えばE.Moulines及びF. Charpentierに
よる“Pitch-Syncronous Waveform Processing Techniq
ues for Text-to-Speech Synthesis using Diphones,”
Speech Communication, Vol.9, pp.453-467, Dec. 199
0に説明されている。
【0020】図2はピッチ同期波形重畳法による韻律制
御の流れを示し、図3はこの韻律制御の各段階における
音声波形を示している。
【0021】まず、図3Aに示すような原音声波形を表
す元の音声データ21に窓関数をかけて、図3Bに示す
ように個々のピッチ波形を取り出す(S1)。次に、各
ピッチ波形に対し振幅の差分で決まる重み関数をかけ
て、図3Cに示すように各ピッチ波形の振幅を調節する
(S2)。次に、音声区間内に存在するピッチ波形の個
数を時間長の差分に応じて加減することにより、図3D
に示すように時間長を調節する(S3)。次に、ピッチ
波形の間隔(周期)をピッチ周波数の差分に応じて変更
してピッチ周波数を調節し、そして、それらのピッチ波
形を結合することにより、図3Eに示すような制御され
た韻律をもつ音声波形を表した音声データ31を作成す
る(S4)。
【0022】このような韻律制御により、単語の原音声
の韻律が、組込まれるべき文章に適した韻律範囲内のも
のに修正されるから、その単語音声を組込んだ文章全体
の音声は自然に聞こえる。従って、1単語当たり1つの
音声データを、発話様式の異なる多様な文章に適合させ
て用いることができる。
【図面の簡単な説明】
【図1】 本発明の一実施形態の構成を示すブロック
図。
【図2】 ピッチ同期波形重畳法による韻律制御の流れ
を示したフローチャート。
【図3】 韻律制御の各ステップにおける音声波形を示
した波形図。
【符号の説明】
1 単語データベース 3 単語韻律テーブル 5 文章データベース 7 文中韻律テーブル 9 CPU 11 単語検索処理 13 文章検索処理 15 韻律生成処理 17 韻律制御処理 19 編集合成処理 21 単語の音声データ 23 単語の韻律データ 25 文章の定型部分の音声データ 27 文章の単語部分の韻律範囲データ 29 韻律の差分 31 制御された韻律をもつ単語の音声データ 33 合成されたシステム応答文
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平8−63187(JP,A) 特開 平1−182899(JP,A) 特開 平2−222300(JP,A) 特開 平9−34490(JP,A) 特開 平7−210194(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 13/08

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 単語部分と定型部分とを有する文章の前
    記定型部分の音声と、前記単語部分に入るべき単語の音
    声とを結合して、前記文章の全体の音声を合成するシス
    テムのための、前記単語の韻律を前記文章に適合するよ
    うに制御する装置において、 前記単語の音声と韻律を取得する単語取得手段と、 前記文章の単語部分の韻律範囲を取得する韻律範囲取得
    手段と、 取得された前記単語の韻律と前記単語部分の韻律範囲と
    を比較する韻律比較手段と、 取得された前記単語の音声に対し、前記韻律比較手段か
    らの比較結果に基づく韻律制御を行い、それにより、前
    記単語の音声を、前記韻律範囲に存在する韻律をもった
    制御された単語の音声に変換する韻律制御手段と、を備
    えたことを特徴とする韻律制御装置。
  2. 【請求項2】 請求項1記載の装置において、 前記単語の韻律が、前記単語の音声がもつピッチ周波
    数、振幅及び時間長という3種の韻律パラメータの値を
    含み、 前記単語部分の韻律範囲が、前記単語部分がもつ前記3
    種の韻律パラメータの値の範囲を含むことを特徴とする
    韻律制御装置。
  3. 【請求項3】 請求項1記載の装置において、 前記韻律制御手段が、ピッチ同期波形重畳法を用いた韻
    律制御を行うことを特徴とする韻律制御装置。
  4. 【請求項4】 請求項1記載の装置において、 前記単語取得手段が、複数の単語の音声を格納した単語
    データベースと、前記複数の単語の韻律を格納した単語
    韻律テーブルと、選択された単語の音声と韻律を前記単
    語データベース及び単語韻律テーブルから検索する手段
    とを有し、 前記韻律範囲取得手段が、複数の文章の単語部分の韻律
    範囲を格納した文中韻律テーブルと、選択された文章の
    単語部分の韻律範囲を前記文中韻律テーブルから検索す
    る手段とを有することを特徴とする韻律制御装置。
  5. 【請求項5】 単語部分と定型部分とを有する文章の前
    記定型部分の音声と、前記単語部分に入るべき単語の音
    声とを結合して、前記文章の全体の音声を合成するシス
    テムのための、前記単語の韻律を前記文章に適合するよ
    うに制御する方法において、 前記単語の音声と韻律を取得する過程と、 前記文章の単語部分の韻律範囲を取得する過程と、 取得された前記単語の韻律と前記単語部分の韻律範囲と
    を比較する過程と、 取得された前記単語の音声に対し、前記比較過程からの
    比較結果に基づく韻律制御を行い、それにより、前記単
    語の音声を、前記韻律範囲に存在する韻律をもった制御
    された単語の音声に変換する過程と、を備えたことを特
    徴とする韻律制御方法。
  6. 【請求項6】 単語部分と定型部分とを有する文章の前
    記定型部分の音声と、前記単語部分に入るべき単語の音
    声とを結合して、前記文章の全体の音声を合成するシス
    テムにおいて、 前記単語の音声と韻律を取得する単語取得手段と、 前記文章の定型部分の音声と単語部分の韻律範囲とを取
    得する文章取得手段と、 取得された前記単語の韻律と前記単語部分の韻律範囲と
    を比較する韻律比較手段と、 取得された前記単語の音声に対し、前記韻律比較手段か
    らの比較結果に基づく韻律制御を行い、それにより、前
    記単語の音声を、前記韻律範囲に存在する韻律をもった
    制御された単語の音声に変換する韻律制御手段と、 前記韻律制御手段からの前記制御された単語の音声と、
    前記文章取得手段からの前記定型部分の音声とを結合し
    て、前記文章の全体の音声を作成する編集合成手段と、
    を備えたことを特徴とする音声合成システム。
JP05315996A 1996-03-11 1996-03-11 韻律制御装置及び方法 Expired - Fee Related JP3241582B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05315996A JP3241582B2 (ja) 1996-03-11 1996-03-11 韻律制御装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05315996A JP3241582B2 (ja) 1996-03-11 1996-03-11 韻律制御装置及び方法

Publications (2)

Publication Number Publication Date
JPH09244680A JPH09244680A (ja) 1997-09-19
JP3241582B2 true JP3241582B2 (ja) 2001-12-25

Family

ID=12935078

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05315996A Expired - Fee Related JP3241582B2 (ja) 1996-03-11 1996-03-11 韻律制御装置及び方法

Country Status (1)

Country Link
JP (1) JP3241582B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11237971A (ja) * 1998-02-23 1999-08-31 Nippon Telegr & Teleph Corp <Ntt> 音声応答装置
JP2009282236A (ja) * 2008-05-21 2009-12-03 Mitsubishi Electric Corp 音声合成装置

Also Published As

Publication number Publication date
JPH09244680A (ja) 1997-09-19

Similar Documents

Publication Publication Date Title
US7565291B2 (en) Synthesis-based pre-selection of suitable units for concatenative speech
JPH031200A (ja) 規則型音声合成装置
US20040030555A1 (en) System and method for concatenating acoustic contours for speech synthesis
CA2222582C (en) Speech synthesizer having an acoustic element database
US6832192B2 (en) Speech synthesizing method and apparatus
US20040122668A1 (en) Method and apparatus for using computer generated voice
JP3518898B2 (ja) 音声合成装置
JP3241582B2 (ja) 韻律制御装置及び方法
JP4451665B2 (ja) 音声を合成する方法
JP2002525663A (ja) ディジタル音声処理装置及び方法
JPH08335096A (ja) テキスト音声合成装置
JP5175422B2 (ja) 音声合成における時間幅を制御する方法
US7130799B1 (en) Speech synthesis method
JPH11249679A (ja) 音声合成装置
JP2001034284A (ja) 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体
JPH0580791A (ja) 音声規則合成装置および方法
JPH09179576A (ja) 音声合成方法
JP2577372B2 (ja) 音声合成装置および方法
JP3310217B2 (ja) 音声合成方法とその装置
JP2001100777A (ja) 音声合成方法及び装置
JP2809769B2 (ja) 音声合成装置
JPH11109992A (ja) 音声素片データベースの作成方法、音声合成方法、音声素片データベース、音声素片データベース作成装置および音声合成装置
JPH1097268A (ja) 音声合成装置
JP3297221B2 (ja) 音韻継続時間長制御方式
JPH04369693A (ja) 音声規則合成装置

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071019

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081019

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091019

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101019

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111019

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121019

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees