JP3282151B2

JP3282151B2 - 音声制御方式

Info

Publication number: JP3282151B2
Application number: JP05366493A
Authority: JP
Inventors: 洋浜田; 克彦小川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1993-03-15
Filing date: 1993-03-15
Publication date: 2002-05-13
Anticipated expiration: 2017-05-13
Also published as: JPH06266382A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、分析音声合成や規則音
声合成（テキスト音声合成）において出力する音声を目
的に合わせて制御するための音声制御方式に関するもの
である。

【０００２】

【従来の技術】音声は、人間と人間、或いは、人間と機
械のインタフェースを担い、情報を伝えるメディアとし
て重要なメディアの１つである。従来、人間と機械の間
の情報伝達やガイダンスの音声出力には、予めアナウン
サーなどが発声した音声を録音しておき、必要に応じて
録音した音声を再生する分析音声合成方式と、出力する
音声に相当するテキストを蓄えておき、必要に応じてそ
のテキストを音声に変換して出力する規則音声合成（テ
キスト音声合成）方式とが利用されている。一般的に、
出力する音声の種類が予め決まっており、また、出力す
る種類が少ない場合には分析音声合成方式が利用され、
これに対し、出力する音声が頻繁に変化し、また、出力
する種類が多い場合には規則音声合成方式が利用されて
いる。

【０００３】分析音声合成方式による場合は、予め決め
られた文章をアナウンサーなどに読ませ、それをＰＣＭ
又は帯域圧縮した形でコンピュータ内に蓄積し、必要に
応じて出力することが行われる。この場合の音声は、ア
ナウンサーなどが発声した音声の特徴（話す速さや抑
揚）がそのまま出力される。これに対し、規則音声合成
方式による場合は、まず、予め音声を構成する音声の素
片（音素や音節など）をアナウンサーなどの発声した音
声から切り取り、蓄積しておく。次に、出力する音声の
テキストが入力された場合、そのテキストの読みを漢字
かな変換辞書等を用いて与え、与えられた読みに従って
予め蓄えた音声の素片を結合する。さらに、単語アクセ
ント変換辞書を用いて単語毎のアクセントを決めるとと
もに構文解析の技術などを用いて入力されたテキストに
相当する音声の抑揚を決める。最終的に、結合された音
声の素片に求めたアクセントや抑揚に従って音の強さや
高低を与え、音声として出力する。

【０００４】

【発明が解決しようとする課題】上記いずれの方法によ
る場合も、出力される音声は場面に応じて変化せず、同
じ文章であれば、必ず同じ音声が出力される。即ち、分
析音声合成方式の場合には、元の音声をアナウンサーな
どが発声したときの特徴で常に音声が再生される。一
方、規則音声合成方式の場合には、テキストから音声に
変換する際に用いる漢字かな変換辞書や単語アクセント
変換辞書、さらに、文全体の抑揚を決定する構文解析や
抑揚決定の規則に従って音声が生成されるため、同じテ
キストが入力されれば必ず同じ音声が出力される。ま
た、このとき、辞書や規則は平均的なものを用いるた
め、単調である音声の場合が多い。

【０００５】実際に利用する場面では、文の内容や利用
目的に応じて、話す速さを変化させたり、ある特定の部
分を強調することにより、音声の質を変化させたい場合
が多く、また、それにより相手に与える印象が異なった
り、意味が変わったりすることも少なくない。オーディ
オアンプなどにおいては、出力する音の音色や音量を制
御するためにトーンコントロールやグラフィックイコラ
イザなどが提供されており、ユーザが自由に出力する音
を変化させることができる。

【０００６】しかしながら、音声の場合、一部の規則合
成装置で提供されている音声の制御機能（発話速度や音
量、抑揚の制御機能）は音声処理技術の専門家のための
ものであり、特別な知識を持たないユーザがこれらの機
能を十分に活かして音声を制御することは不可能であっ
た。また、分析音声合成方式の場合はオーディオアンプ
と同様の音質や音量を制御することはできても、音声特
有の発話の速さや抑揚などの音声の特徴を変化させるこ
とはできなかった。

【０００７】本願発明による音声制御方式は、ディスプ
レイ上に表示されたテキストのうち、特定部分を指定す
る特定部分指定手段と、特定部分と特定部分以外の部分
の音声特徴量、又は特定部分の複数の音声特徴量を座標
軸とする座標を表示し、座標入力手段で入力された座標
上の位置に対する特定部分と特定部分以外の部分の音声
特徴量、又は特定部分の複数の音声特徴の音声特徴量を
指定する音声変形指定手段と、それぞれ指定された音声
特徴量と音声合成に用いる物理量の対応関係を記憶する
特徴量−物理量変換テーブルと、特徴量−物理量変換テ
ーブルを参照して特定部分と特定部分以外の部分の音声
特徴量をそれぞれ対応する物理量に変換して、対応する
テキストの部分に挿入して出力するパラメータ変換部
と、物理量の挿入されたテキストについて物理量を用い
て音声を合成する出力音声生成部とを備える。

【０００８】

【作用】本発明の音声制御方式によれば、出力する音声
の特徴をディスプレイ上で指示することにより変化させ
ながら所望の音声を作成することができるため、人間と
機械のインタフェースとして用いる音声に様々な表情を
与えることができ、結果として意味を明確に伝える音
声、意図を明確に伝える音声、感情を明確に伝える音声
を実現することが可能となる。

【０００９】

【実施例】以下、本発明の実施例について図面を参照し
て詳細に説明する。図１は本発明を規則音声合成方式に
適用した場合の一実施例を示すブロック図である。特定
部分指定部１では、コンピュータのディスプレイ（表示
装置）１１上に表示された音声に変換するテキストのう
ち、変形を加えたい部分のテキストを、キーボードやマ
ウス等の入力装置１２を用いて指定する。この変形を加
えたい特定部分の指定方法は種々考えられるが、変形を
加えたい部分の始端と終端をマウスで指定する方法や、
キーボードのカーソルキーとコマンドで指定する方法な
ど、テキストの変形を加えたい部分の始端と終端が確定
できる方法であればどのような方法でも良い。

【００１０】変形指定入力部２では、特定部分指定部１
で指定された部分のテキストに相当する音声の変形方法
（態様）を各種入力手段により指定する。音声の特徴を
変形するためには、変形を加えたい部分を相対的に制御
する必要がある。例えば、音声のある特定部分の音量を
大きくするためには、その部分の音量を大きくするか、
或いは、それ以外の部分の音量を小さくすることによっ
て実現できる。このような変形を指定するためには、変
形したい部分とそれ以外の部分の制御値を同時に指定で
きる方法が望ましい。

【００１１】一例として、２次元座標系とマウスを用い
て音量の変化方法を入力する例を図２に示す。この図２
は音量を２次元座標系で入力する例であり、例えば、
「これは私の本です」という音声を出力する際に「私
の」の部分を変化させる場合、水平方向の座標で「私
の」以外の部分（即ち、「これは」と「本です」の部
分）の音量を変化させる。また、垂直方向の座標で「私
の」の部分の音量を変化させる。この座標上の１点をマ
ウスで指定することにより音量の制御方法を決める。こ
れにより「私の」の部分で相対的に音量が変化するよう
な「これは私の本です」の音声を作成することができ
る。そして、座標上の位置を読み取ることにより、指定
部分以外の音量、及び、指定部分の音量が、（指定部分
以外の音量、指定部分の音量）＝（ａ、ｂ）のように得
られる。例えば、図２の例では、音量の最大を１０、最
小を−１０とすると、（３、−４）が得られる。

【００１２】また、「これは私の本です」全体の音量の
大きさを水平方向で、「私の」の部分の全体の音量から
の変化量を垂直方向で表す方法や、水平と垂直を逆にし
て表す方法など種々の方法が考えられる。図２の例では
１つの物理量を指定部分と指定部分以外に分けて水平及
び垂直のそれぞれの座標軸で与えたが、２つの物理量を
水平及び垂直のそれぞれの座標軸で指定する方法もあ
る。図３に一例として、水平軸（横軸）で指定部分の音
量を表し、垂直軸（縦軸）で指定部分の発話速度を表し
た場合を示す。

【００１３】この場合には、例えば「私の」の部分のみ
の変化量が指定できる。この結果、指定部分の音量、及
び、指定部分の発話速度が、（指定部分の音量、指定部
分の発話速度）＝（ｃ、ｄ）のように与えられる。例え
ば図３の例では、音量及び発話速度の最大をそれぞれ１
０、最小をそれぞれ−１０とすると、（−５、４）が得
られる。

【００１４】以上の２つの例は変化させるパラメータと
して音声の物理量の１つである音量を用いた場合であ
る。他に変化させるパラメータとしては、声の高さに相
当するピッチ周波数の平均的な高さ、声の抑揚の大きさ
に相当するピッチ周波数のダイナミックレンジなどがあ
る。一方、音声の特徴を表す言葉を用いた場合の例とし
ては「明るい声」、「暗い声」、「めりはりのある
声」、「生き生きした声」、「くだけた話し方の声」な
どがある。上記音量の例と同様に、音声のある特定部分
を「明るい」声で出力するためには、その部分の声を
「明るい」声で出力するか、或いは、それ以外の部分の
声を「暗い」声で出力することにより実現できる。この
場合も上記例と同様に２次元座標上の点を指定すること
によって入力する方法が適用可能である。

【００１５】次に、音声の特徴を表す言葉のうちで３つ
の特徴を表す言葉を使用して３次元座標を用いて音声を
制御する例を図４に示す。図４の例はｘ座標方向で指定
部分の「明るさ」を、ｙ座標方向で指定部分の「めりは
り」を、ｚ座標方向で話す速さをそれぞれ制御する場合
である。この例では特定部分指定部１で指定された部分
の明るさ、めりはり、発話速度を３次元空間内の座標を
指定することにより指示する。３次元座標の入力はキー
ボードにより行うこともできるが、グラフィックディス
プレイ上に表示した３次元空間上の点をデータグローブ
などの３次元のポインティング装置で指定する手法が有
効である。３次元座標系を用いた入力では、指定された
座標に基づいて各パラメータの値が得られる。例えば図
４の例では、（明るさ、めりはり、発話速度）＝（３、
６、４）のように得られる。

【００１６】ここまで述べた例は、文中の一部、即ち
「これは私の本です」の「私の」の部分を変化させる例
であったが、本発明はこれ以外の制御にも勿論適用でき
る。一例をあげれば、文章毎の制御にも適用でき、例え
ば「今朝は晴れていた。そこで東京まで出掛けた。する
と昼から突然雨になった。」という文章の「そこで東京
まで出掛けた。」の部分を上記例と同様に変形部分とし
て指定すれば、「そこで東京まで出掛けた。」の部分の
み「明るく」読み上げたり、「ゆっくり」読み上げたり
することが実現できる。

【００１７】以上、２次元座標系と３次元座標系を用い
た例で示したが、他に１次元座標を複数設ける、値をキ
ーボードで入力する、ボリュームで入力するなど、値が
入力できる手法であれば他の手法も利用可能である。再
び図１に戻って説明すると、パラメータ変換部３では、
変形指定入力部２で入力された変形に従って規則音声合
成の制御を行うためのパラメータを作成する。例えば２
次元座標系で（ａ、ｂ）と指定された場合、この値を変
形部分の前に制御記号として〔音量ｂ〕のように付与す
る。例えば、上述した例のように「これは私の本です」
の文章中の「私の」の部分に相当する音量を大きくする
場合、座標入力された制御に従って、『〔音量３〕これ
が〔音量４〕私の〔音量３〕本です』のように出力する
テキストに制御記号を付与する（〔〕内が制御記号）。
また、「明るい声」のような制御を行う場合には、ま
ず、『〔明るさ４〕これが〔明るさ７〕私の〔明るさ
４〕本です』のようなテキストが生成される。

【００１８】次に、特徴量−物理量変換テーブル４を参
照して〔明るさ値〕と物理量との変換を行う。変形指定
入力の際に音声の物理量を用いた場合には、変形指定入
力部２で用いた座標系と、音声合成に用いる物理量との
対応を特徴量−物理量変換テーブル４を参照して求め
る。図５に音量を用いた場合の特徴量−物理量変換テー
ブルの例を示す。このテーブルにおいて物理量は平均的
な音量からの差を示している。例えば、変形部分の音量
が〔音量８〕と指定された場合、合成音声では変形指定
された部分のみ４．０ｄｂ大きな音量で出力することを
表している。このテーブルを参照しながら、座標系の値
から得た制御記号を物理量に変換する。

【００１９】また、変形指定入力の際に音声の特徴を表
す言葉を用いた場合には、特徴量を表す言葉が必ずしも
１つの物理量に対応するとは限らない。従って、この場
合には特徴を表す言葉と物理量との関係を予め求めてお
く必要がある。図６に音声の特徴を表す言葉として「明
るさ」を用いた場合の特徴量−物理量変換テーブルの例
を示す。このテーブル例では「明るさ」に対応して音
量、平均ピッチ周波数、ピッチ周波数変化幅を用いてい
る。音量は平均的な音量からの偏差を表しており、平均
ピッチ周波数及びピッチ周波数変化幅については平均的
な値との比を表している。例えば〔明るさ７〕の場合に
は、変形部分の音量を他と比較して３．５ｄｂ大きくす
るとともに、ピッチ周波数を標準的な値から１．１４
倍、ピッチ周波数の変化幅（ダイナミックレンジ）を
１．３倍にすることを意味する。

【００２０】以上の例はテーブルを利用した例である
が、関係を表す式を用いる手法などによっても実現でき
る。その他の音声の特徴を表す言葉に関する特徴量−物
理量変換テーブルは、予め物理量を様々に変化させるこ
とにより作成した音声を被験者に聞かせることによる心
理実験によって音声の特徴を表す言葉と物理特徴量の関
係を求め、作成することができる。

【００２１】次に、上述のようにして得られた値を実際
に合成する際に用いる値に変換する。これは、規則音声
合成において自動的に規則で決められる音量やピッチ周
波数などに、パラメータ変換部で求めた係数を掛け合わ
せる、偏差を足す、ことにより求められ、最終的に
『〔ピッチ周波数１３０Ｈｚ〕〔ピッチ周波数レンジ６
０Ｈｚ〕これが〔ピッチ周波数１５０Ｈｚ〕〔ピッチ周
波数レンジ８０Ｈｚ〕私の〔ピッチ周波数１２０Ｈｚ〕
〔ピッチ周波数レンジ４５Ｈｚ〕本です』のように物理
量に変換した制御記号の挿入されたテキストが出力され
る。

【００２２】出力音声生成部５では、パラメータ変換部
３で生成された制御記号の付与された出力テキストに従
って音量や発話速度、ピッチ周波数の高さなどを変化さ
せながら音声を出力する。規則音声合成には音声の物理
的なパラメータを制御することができる一般的な手法を
用いれば良く、既に市販されている規則音声合成装置
（例えば、ＮＴＴインテリジェントテクノロジ社の「し
ゃべりん坊ＨＧ」など）でも、実現可能である。

【００２３】上記実施例は本発明を規則音声合成方式に
適用した場合であるが、分析音声合成方式に本発明を適
用する場合には、まず、アナウンサー等が発声した音声
とこの音声の各部分に対応する文字との対応を求めてお
く必要がある。音声の各部分、例えば、音素や音節と文
字との対応を求めるためには音声認識の手法を利用する
ことができる。次に、音声の分析を行い、基本周波数、
スペクトル情報などのパラメータを求めて蓄積してお
く。このときのパラメータとしては、後で音声を再生す
ることが可能であること、音量やピッチ周波数などの音
声の物理的特徴量を制御できること、を満たしていれば
どのような手法でも良い。代表的な例としてはＰＡＲＣ
ＯＲ分析合成方式がある。ここまでの処理を行えば、規
則音声合成方式に適用する場合と同様の処理により、音
声の制御が可能となる。なお、パラメータを変化させな
がら滑らかに音声を再生する方法については、音声強調
装置（特願平３−１８０８１２号）に示されている手法
などを用いれば良い。

【００２４】また、上記実施例は本発明の単なる例示に
過ぎず、従って、必要に応じて種々の変形及び変更がな
し得ることは言うまでもない。

【００２５】

【発明の効果】以上説明したように、本発明の音声制御
方式によれば、ディスプレイ上で指定したテキストの特
定部分の音声の変形をこのディスプレイ上で指示し、こ
の指示された音声の変形に従って特定部分の音声を変形
するものであるから、出力する音声の特徴をディスプレ
イ上で指示することにより変化させながら所望の音声を
作成することができる。このため、人間と機械のインタ
フェースとして用いる音声に様々な表情を与えることが
でき、結果として意味を明確に伝える音声、意図を明確
に伝える音声、感情を明確に伝える音声などを実現する
ことが可能となるという顕著な効果がある。

【図面の簡単な説明】

【図１】本発明による音声制御方式の一実施例を示すブ
ロック図である。

【図２】２次元座標系による音量の制御例を説明するた
めの図である。

【図３】２次元座標系による音量と発話速度の制御例を
説明するための図である。

【図４】３次元座標系による明るさとめりはり、発話速
度の制御例を説明するための図である。

【図５】特徴量に音量を用いた場合の特徴量−物理量変
換テーブルの一例を示す図である。

【図６】特徴量に音声の特徴を表す言葉を用いた場合の
特徴量−物理量変換テーブルの一例を示す図である。

【符号の説明】

１特定部分指定部２変形指定入力部３パラメータ変換部４特徴量−物理量変換テーブル５出力音声生成部

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平４−312169（ＪＰ，Ａ) 特開昭61−100799（ＪＰ，Ａ) 特開平４−66998（ＪＰ，Ａ) 特開平５−289688（ＪＰ，Ａ) 特開平６−202685（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 13/00 - 13/08 G10L 21/06 G06F 3/16,17/28

Claims

(57)【特許請求の範囲】

【請求項１】ディスプレイ上に表示されたテキストの
うち、特定部分を指定する特定部分指定手段と、前記特定部分と前記特定部分以外の部分とのそれぞれの
音声特徴量を座標軸とする座標を表示し、座標入力手段
で入力された座標上の位置に対する前記特定部分と前記
特定部分以外の部分の音声特徴量を指定する音声変形指
定手段と、それぞれ指定された前記音声特徴量と音声合成に用いる
物理量の対応関係を記憶する特徴量−物理量変換テーブ
ルと、前記特徴量−物理量変換テーブルを参照して前記特定部
分と前記特定部分以外の部分の音声特徴量をそれぞれ対
応する物理量に変換して、対応するテキストの部分に挿
入して出力するパラメータ変換部と、前記物理量の挿入されたテキストについて前記物理量を
用いて音声を合成する出力音声生成部とを備えることを
特徴とする音声制御方式。
【請求項２】ディスプレイ上に表示されたテキストの
うち、特定部分を指定する特定部分指定手段と、複数の音声特徴量をそれぞれ対応した座標軸とする座標
を表示し、座標入力手段で入力された座標上の位置に対
する前記特定部分のそれぞれの音声特徴量を指定する音
声変形指定手段と、それぞれ指定された前記音声特徴量と音声合成に用いる
物理量の対応関係を記憶する特徴量−物理量変換テーブ
ルと、前記特徴量−物理量変換テーブルを参照して前記特定部
分の音声特徴量に対応する物理量に変換して、対応する
テキストの部分に挿入して出力するパラメータ変換部
と、前記物理量の挿入されたテキストについて前記物理量を
用いて音声を合成する出力音声生成部とを備えることを
特徴とする音声制御方式。