JP3241582B2

JP3241582B2 - 韻律制御装置及び方法

Info

Publication number: JP3241582B2
Application number: JP05315996A
Authority: JP
Inventors: 貴彦新村; 慶士林
Original assignee: NTT Data Corp
Current assignee: NTT Data Corp
Priority date: 1996-03-11
Filing date: 1996-03-11
Publication date: 2001-12-25
Anticipated expiration: 2016-03-11
Also published as: JPH09244680A

Description

【発明の詳細な説明】

【０００１】

【発明の技術分野】本発明は、一般には音声合成の技術
に関わり、特に、システム応答文のように定型文であっ
てその中の特定の単語だけが取り替えられるような類い
の文の自然な発声音を合成するのに適した韻律制御の技
術に関する。

【０００２】

【従来の技術】普及している自動音声応答装置の構成音
で用いられる文章は一般にシステム応答文と呼ばれ、そ
の中の特定の単語だけが取り替え得る定型文であること
が多い。例えば、「ＡＢＣ銀行から振込がございまし
た」なるシステム応答文では、銀行名の単語が「ＡＢ
Ｃ」や「ＣＤＦ」等の異なるものに取り替えられる。

【０００３】このようなシステム応答文を合成する場
合、従来は編集合成法により単語と文章とを繋げてい
る。編集合成法とは、例えば上記において「○○銀行か
ら振込がございました」という定型的な文章の単語部分
「○○」に、「ＡＢＣ」や「ＣＤＦ」等の任意の単語を
貼り付けて合成する方法である。

【０００４】

【発明が解決しようとする課題】編集合成法を用いた従
来の音声合成処理では、「ＡＢＣ」のような単語の音声
と、文章の「銀行から振込がございました」のような定
型部分の音声とを単純に繋げている。しかし、同じ文章
又は単語でも、異なる発話様式で発声されたものは韻律
が微妙に異なるため、聴覚的に異なった感覚を与える。
例えば、複数人による会話の音声と、一人による朗読の
音声とを聞き比べると、同じ文章であっても話し方つま
り発話様式が異なるために、異なった感じに聞こえる。
また、単独に発声された単語の音声と、文章に組込まれ
て発声された同じ単語の音声とを聞き比べても、やはり
異なった感じに聞こえる。通常、音声合成システムに登
録されている個々の単語や文章の音声は異なる発話様式
で発声されたものであるから、従来のようにその単語と
文章の音声を単純に繋げると、文章全体の音声は不自然
に聞こえてしまう。

【０００５】この従来技術の下で、多様な発話様式をも
つ応答文を自然に聞こえるように作るためには、各単語
毎に多様な登録文に適合した韻律をもった他種類の音声
を登録しておく必要がある。しかし、特に小さいシステ
ムではデータベースの容量制限から他種類の音声を各登
録語毎に用意することができない。また、音声収録の面
でも、あらゆる韻律で単語を発声することは困難であ
る。

【０００６】従って、本発明の目的は、発話様式が異な
る文章の音声と単語の音声とを結合して音声を合成する
場合、合成結果が自然な音声に聞こえるようにすること
にある。

【０００７】

【課題を解決するための手段】本発明に従えば、文章の
定型部分の音声と単語の音声とを繋げて完全な文章の音
声を合成する場合に、その単語の音声の韻律がその文章
に適合するように制御される。この韻律制御では、ま
ず、その単語の音声がもつ韻律を示すデータと、その文
章の単語部分がもつ韻律範囲を示すデータとが取得さ
れ、そして、それらのデータが比較される。次に、その
比較の結果に基づいて、その単語の音声の韻律が上記単
語部分の韻律範囲内に入るように、その単語の音声が調
節される。このように韻律が制御された単語の音声を、
文章の定型部分の音声に繋げれば、自然に聞こえる完全
な文章の音声が得られる。

【０００８】韻律制御で操作する韻律パラメータには、
ピッチ周波数、振幅、及び時間長の３種類のパラメータ
を採用することができる。韻律制御法には、ピッチ同期
波形重畳法を用いることができる。

【０００９】本発明によれば、一つの発話様式で発声さ
れた単語の音声を、多様な発話様式で発声された種々の
文章の各々に適合する韻律をもった音声に変換できるの
で、各単語について多様な韻律をもつ他種類の音声を用
意する必要がない。よって、データベース容量の小さい
小システムでも、自然な音声をもった文章が合成でき
る。

【００１０】

【発明の実施の形態】図１は本発明の一実施形態にかか
る音声合成装置の構成を示す。この装置は実際には、本
発明に従う音声合成処理のためのアプリケーションプロ
グラムがインストールされたコンピュータシステムであ
る。

【００１１】磁気ディスク装置の様な適当なストレージ
内に、単語データベース１、単語韻律テーブル３、文章
データベース５、及び文中韻律テーブル７が用意されて
いる。単語データベース１には、種々の単語の単語番号
と、それらの単語の実際の発声から得られた音声データ
とが格納されている。単語韻律テーブル３には、上記種
々の単語の実際の発声から測定された韻律のデータが、
単語番号と共に格納されている。ここで、各単語の韻律
データは、各単語の音声区間で測定されたピッチ周波
数、振幅及び時間長という３種類の韻律パラメータの平
均値から構成される。

【００１２】文章データベース５には、種々の文章の文
章番号と、それらの文章の実際の発声から得られた各文
章の定型部分（つまり、取り替え可能な単語の部分を抜
いた残り部分）の音声データとが格納されている。文中
韻律テーブル７には、上記種々の文章の取り替え可能な
単語部分がもつ韻律の範囲を示すデータが格納されてい
る。各文章の韻律範囲データは、各文章の上記単語部分
がもつ上記３種の韻律パラメータの平均値と標準偏差と
から構成され、それは次の様にして作成されたものであ
る。すなわち、各文章について、上記単語部分だけを種
々の単語に入れ替えた多数の文章を実際に発声して、そ
れらの単語部分の韻律（上記３種の韻律パラメータの
値）を測定し、そして、各パラメータについて測定値の
平均値と標準偏差とを求める。発明者が行った実験によ
れば、個々の文章毎に単語部分のピッチ周波数、振幅及
び時間長に特有の範囲が存在することが分った。従っ
て、上記の様にして作成された各文章の韻律範囲データ
は、各文章の単語部分がもつ各文章に特有の韻律範囲を
示している。このことは、各文章を発声する時、その韻
律範囲データ内の韻律で単語部分を発声すれば、その単
語は各文章の定型部分と聴覚的に整合して、文章全体が
自然に聞こえることを意味する。

【００１３】ＣＰＵ９は、アプリケーションプログラム
を実行することにより、単語検索処理１１、文章検索処
理１３、韻律生成処理１５、韻律制御処理１７、および
編集合成処理１９という５つのプロセスを行う。ＣＰＵ
９への入力は、所望のシステム応答文を構成する単語と
文章の単語番号と文章番号である。

【００１４】入力された単語番号に応答して単語検索処
理１１が行われる。この処理１１では、単語データベー
ス１及び単語韻律テーブル３から、入力された単語番号
により識別される単語の音声データ２１及び韻律データ
２３が検索される。検索された単語の音声データ２１は
韻律制御処理１７へ渡され、韻律データ２３は韻律生成
処理１５へ渡される。

【００１５】入力された文章番号に応答して文章検索処
理１３が行われる。この処理１３では、文章データベー
ス５及び文中韻律テーブル７から、入力された文章番号
により識別される文章の定型部分の音声データ２５及び
単語部分の韻律範囲データ２７が検索される。検索され
た定型部分の音声データ２５は編集合成処理１９へ渡さ
れ、単語部分の韻律範囲データ２７は韻律生成処理１５
へ渡される。

【００１６】韻律生成処理１５では、単語の韻律データ
２３と、文章の単語部分の韻律範囲データ２７とが比較
され、両者の差分２９が計算される。例えば、韻律デー
タ２３の示すピッチ周波数が２７７［Ｈｚ］であり、韻
律範囲データ２７の示すピッチ周波数の平均が３２５
［Ｈｚ］かつ標準偏差が３４［Ｈｚ］である場合、韻律
範囲データ２７が示すピッチ周波数の範囲は２９１〜３
５９［Ｈｚ］であるから、周波数についての差分２９は
２９１−２７７＝１４［Ｈｚ］である。他の韻律パラメ
ータについても、同様の方法で差分２９が計算される。
これら３種の韻律パラメータの差分２９は韻律制御処理
１７へ渡される。尚、単語の韻律データ２３の示す３種
のパラメータ値の内のいずれかが、韻律範囲データ２７
の示すそのパラメータの範囲内に収っている場合は、そ
のパラメータについての差分２９はゼロである。

【００１７】韻律制御処理１７では、単語の音声データ
２１に対して韻律の差分２９に基づいた韻律制御が行わ
れる。韻律制御方法には、例えばピッチ同期波形重畳法
が用いられる。韻律制御処理１７の結果、元の音声デー
タ２１は、韻律範囲データ２７の示す韻律範囲内に入る
韻律を有した音声データ３１に変換される。尚、差分２
９がゼロであるパラメータについては、制御が行われな
いから元の音声データ２１の値がそのまま維持される。
この処理１７により得られた制御された韻律をもつ音声
データ３１は、編集合成処理１９へ渡される。

【００１８】編集合成処理１９では、制御された韻律を
もつ単語の音声データ３１が、文章の定型部分の音声デ
ータ２５の空白な単語部分に組込まれて、完全なシステ
ム応答文の音声データ３３が生成される。この音声デー
タ３３はスピーカのような音声出力装置によって音声に
再生される。

【００１９】因みに、韻律制御で用いるピッチ同期波形
重畳法は、制御結果の合成音が高品質である、及びピッ
チ波形単位の容易な処理であるという特長を有する。こ
の方法の詳細は例えばE.Moulines及びF. Charpentierに
よる“Pitch-Syncronous Waveform Processing Techniq
ues for Text-to-Speech Synthesis using Diphones,”
Speech Communication, Vol.9, pp.453-467, Dec. 199
0に説明されている。

【００２０】図２はピッチ同期波形重畳法による韻律制
御の流れを示し、図３はこの韻律制御の各段階における
音声波形を示している。

【００２１】まず、図３Ａに示すような原音声波形を表
す元の音声データ２１に窓関数をかけて、図３Ｂに示す
ように個々のピッチ波形を取り出す（Ｓ１）。次に、各
ピッチ波形に対し振幅の差分で決まる重み関数をかけ
て、図３Ｃに示すように各ピッチ波形の振幅を調節する
（Ｓ２）。次に、音声区間内に存在するピッチ波形の個
数を時間長の差分に応じて加減することにより、図３Ｄ
に示すように時間長を調節する（Ｓ３）。次に、ピッチ
波形の間隔（周期）をピッチ周波数の差分に応じて変更
してピッチ周波数を調節し、そして、それらのピッチ波
形を結合することにより、図３Ｅに示すような制御され
た韻律をもつ音声波形を表した音声データ３１を作成す
る（Ｓ４）。

【００２２】このような韻律制御により、単語の原音声
の韻律が、組込まれるべき文章に適した韻律範囲内のも
のに修正されるから、その単語音声を組込んだ文章全体
の音声は自然に聞こえる。従って、１単語当たり１つの
音声データを、発話様式の異なる多様な文章に適合させ
て用いることができる。

【図面の簡単な説明】

【図１】本発明の一実施形態の構成を示すブロック
図。

【図２】ピッチ同期波形重畳法による韻律制御の流れ
を示したフローチャート。

【図３】韻律制御の各ステップにおける音声波形を示
した波形図。

【符号の説明】

１単語データベース３単語韻律テーブル５文章データベース７文中韻律テーブル９ＣＰＵ１１単語検索処理１３文章検索処理１５韻律生成処理１７韻律制御処理１９編集合成処理２１単語の音声データ２３単語の韻律データ２５文章の定型部分の音声データ２７文章の単語部分の韻律範囲データ２９韻律の差分３１制御された韻律をもつ単語の音声データ３３合成されたシステム応答文

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平８−63187（ＪＰ，Ａ) 特開平１−182899（ＪＰ，Ａ) 特開平２−222300（ＪＰ，Ａ) 特開平９−34490（ＪＰ，Ａ) 特開平７−210194（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 13/08

Claims

(57)【特許請求の範囲】

【請求項１】単語部分と定型部分とを有する文章の前
記定型部分の音声と、前記単語部分に入るべき単語の音
声とを結合して、前記文章の全体の音声を合成するシス
テムのための、前記単語の韻律を前記文章に適合するよ
うに制御する装置において、前記単語の音声と韻律を取得する単語取得手段と、前記文章の単語部分の韻律範囲を取得する韻律範囲取得
手段と、取得された前記単語の韻律と前記単語部分の韻律範囲と
を比較する韻律比較手段と、取得された前記単語の音声に対し、前記韻律比較手段か
らの比較結果に基づく韻律制御を行い、それにより、前
記単語の音声を、前記韻律範囲に存在する韻律をもった
制御された単語の音声に変換する韻律制御手段と、を備
えたことを特徴とする韻律制御装置。
【請求項２】請求項１記載の装置において、前記単語の韻律が、前記単語の音声がもつピッチ周波
数、振幅及び時間長という３種の韻律パラメータの値を
含み、前記単語部分の韻律範囲が、前記単語部分がもつ前記３
種の韻律パラメータの値の範囲を含むことを特徴とする
韻律制御装置。
【請求項３】請求項１記載の装置において、前記韻律制御手段が、ピッチ同期波形重畳法を用いた韻
律制御を行うことを特徴とする韻律制御装置。
【請求項４】請求項１記載の装置において、前記単語取得手段が、複数の単語の音声を格納した単語
データベースと、前記複数の単語の韻律を格納した単語
韻律テーブルと、選択された単語の音声と韻律を前記単
語データベース及び単語韻律テーブルから検索する手段
とを有し、前記韻律範囲取得手段が、複数の文章の単語部分の韻律
範囲を格納した文中韻律テーブルと、選択された文章の
単語部分の韻律範囲を前記文中韻律テーブルから検索す
る手段とを有することを特徴とする韻律制御装置。
【請求項５】単語部分と定型部分とを有する文章の前
記定型部分の音声と、前記単語部分に入るべき単語の音
声とを結合して、前記文章の全体の音声を合成するシス
テムのための、前記単語の韻律を前記文章に適合するよ
うに制御する方法において、前記単語の音声と韻律を取得する過程と、前記文章の単語部分の韻律範囲を取得する過程と、取得された前記単語の韻律と前記単語部分の韻律範囲と
を比較する過程と、取得された前記単語の音声に対し、前記比較過程からの
比較結果に基づく韻律制御を行い、それにより、前記単
語の音声を、前記韻律範囲に存在する韻律をもった制御
された単語の音声に変換する過程と、を備えたことを特
徴とする韻律制御方法。
【請求項６】単語部分と定型部分とを有する文章の前
記定型部分の音声と、前記単語部分に入るべき単語の音
声とを結合して、前記文章の全体の音声を合成するシス
テムにおいて、前記単語の音声と韻律を取得する単語取得手段と、前記文章の定型部分の音声と単語部分の韻律範囲とを取
得する文章取得手段と、取得された前記単語の韻律と前記単語部分の韻律範囲と
を比較する韻律比較手段と、取得された前記単語の音声に対し、前記韻律比較手段か
らの比較結果に基づく韻律制御を行い、それにより、前
記単語の音声を、前記韻律範囲に存在する韻律をもった
制御された単語の音声に変換する韻律制御手段と、前記韻律制御手段からの前記制御された単語の音声と、
前記文章取得手段からの前記定型部分の音声とを結合し
て、前記文章の全体の音声を作成する編集合成手段と、
を備えたことを特徴とする音声合成システム。