JP3282151B2 - 音声制御方式 - Google Patents

音声制御方式

Info

Publication number
JP3282151B2
JP3282151B2 JP05366493A JP5366493A JP3282151B2 JP 3282151 B2 JP3282151 B2 JP 3282151B2 JP 05366493 A JP05366493 A JP 05366493A JP 5366493 A JP5366493 A JP 5366493A JP 3282151 B2 JP3282151 B2 JP 3282151B2
Authority
JP
Japan
Prior art keywords
speech
physical quantity
voice
feature
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP05366493A
Other languages
English (en)
Other versions
JPH06266382A (ja
Inventor
洋 浜田
克彦 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP05366493A priority Critical patent/JP3282151B2/ja
Publication of JPH06266382A publication Critical patent/JPH06266382A/ja
Application granted granted Critical
Publication of JP3282151B2 publication Critical patent/JP3282151B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、分析音声合成や規則音
声合成(テキスト音声合成)において出力する音声を目
的に合わせて制御するための音声制御方式に関するもの
である。
【0002】
【従来の技術】音声は、人間と人間、或いは、人間と機
械のインタフェースを担い、情報を伝えるメディアとし
て重要なメディアの1つである。従来、人間と機械の間
の情報伝達やガイダンスの音声出力には、予めアナウン
サーなどが発声した音声を録音しておき、必要に応じて
録音した音声を再生する分析音声合成方式と、出力する
音声に相当するテキストを蓄えておき、必要に応じてそ
のテキストを音声に変換して出力する規則音声合成(テ
キスト音声合成)方式とが利用されている。一般的に、
出力する音声の種類が予め決まっており、また、出力す
る種類が少ない場合には分析音声合成方式が利用され、
これに対し、出力する音声が頻繁に変化し、また、出力
する種類が多い場合には規則音声合成方式が利用されて
いる。
【0003】分析音声合成方式による場合は、予め決め
られた文章をアナウンサーなどに読ませ、それをPCM
又は帯域圧縮した形でコンピュータ内に蓄積し、必要に
応じて出力することが行われる。この場合の音声は、ア
ナウンサーなどが発声した音声の特徴(話す速さや抑
揚)がそのまま出力される。これに対し、規則音声合成
方式による場合は、まず、予め音声を構成する音声の素
片(音素や音節など)をアナウンサーなどの発声した音
声から切り取り、蓄積しておく。次に、出力する音声の
テキストが入力された場合、そのテキストの読みを漢字
かな変換辞書等を用いて与え、与えられた読みに従って
予め蓄えた音声の素片を結合する。さらに、単語アクセ
ント変換辞書を用いて単語毎のアクセントを決めるとと
もに構文解析の技術などを用いて入力されたテキストに
相当する音声の抑揚を決める。最終的に、結合された音
声の素片に求めたアクセントや抑揚に従って音の強さや
高低を与え、音声として出力する。
【0004】
【発明が解決しようとする課題】上記いずれの方法によ
る場合も、出力される音声は場面に応じて変化せず、同
じ文章であれば、必ず同じ音声が出力される。即ち、分
析音声合成方式の場合には、元の音声をアナウンサーな
どが発声したときの特徴で常に音声が再生される。一
方、規則音声合成方式の場合には、テキストから音声に
変換する際に用いる漢字かな変換辞書や単語アクセント
変換辞書、さらに、文全体の抑揚を決定する構文解析や
抑揚決定の規則に従って音声が生成されるため、同じテ
キストが入力されれば必ず同じ音声が出力される。ま
た、このとき、辞書や規則は平均的なものを用いるた
め、単調である音声の場合が多い。
【0005】実際に利用する場面では、文の内容や利用
目的に応じて、話す速さを変化させたり、ある特定の部
分を強調することにより、音声の質を変化させたい場合
が多く、また、それにより相手に与える印象が異なった
り、意味が変わったりすることも少なくない。オーディ
オアンプなどにおいては、出力する音の音色や音量を制
御するためにトーンコントロールやグラフィックイコラ
イザなどが提供されており、ユーザが自由に出力する音
を変化させることができる。
【0006】しかしながら、音声の場合、一部の規則合
成装置で提供されている音声の制御機能(発話速度や音
量、抑揚の制御機能)は音声処理技術の専門家のための
ものであり、特別な知識を持たないユーザがこれらの機
能を十分に活かして音声を制御することは不可能であっ
た。また、分析音声合成方式の場合はオーディオアンプ
と同様の音質や音量を制御することはできても、音声特
有の発話の速さや抑揚などの音声の特徴を変化させるこ
とはできなかった。
【0007】本願発明による音声制御方式は、ディスプ
レイ上に表示されたテキストのうち、特定部分を指定す
る特定部分指定手段と、特定部分と特定部分以外の部分
の音声特徴量、又は特定部分の複数の音声特徴量を座標
軸とする座標を表示し、座標入力手段で入力された座標
上の位置に対する特定部分と特定部分以外の部分の音声
特徴量、又は特定部分の複数の音声特徴の音声特徴量を
指定する音声変形指定手段と、それぞれ指定された音声
特徴量と音声合成に用いる物理量の対応関係を記憶する
特徴量−物理量変換テーブルと、特徴量−物理量変換テ
ーブルを参照して特定部分と特定部分以外の部分の音声
特徴量をそれぞれ対応する物理量に変換して、対応する
テキストの部分に挿入して出力するパラメータ変換部
と、物理量の挿入されたテキストについて物理量を用い
て音声を合成する出力音声生成部とを備える。
【0008】
【作用】本発明の音声制御方式によれば、出力する音声
の特徴をディスプレイ上で指示することにより変化させ
ながら所望の音声を作成することができるため、人間と
機械のインタフェースとして用いる音声に様々な表情を
与えることができ、結果として意味を明確に伝える音
声、意図を明確に伝える音声、感情を明確に伝える音声
を実現することが可能となる。
【0009】
【実施例】以下、本発明の実施例について図面を参照し
て詳細に説明する。図1は本発明を規則音声合成方式に
適用した場合の一実施例を示すブロック図である。特定
部分指定部1では、コンピュータのディスプレイ(表示
装置)11上に表示された音声に変換するテキストのう
ち、変形を加えたい部分のテキストを、キーボードやマ
ウス等の入力装置12を用いて指定する。この変形を加
えたい特定部分の指定方法は種々考えられるが、変形を
加えたい部分の始端と終端をマウスで指定する方法や、
キーボードのカーソルキーとコマンドで指定する方法な
ど、テキストの変形を加えたい部分の始端と終端が確定
できる方法であればどのような方法でも良い。
【0010】変形指定入力部2では、特定部分指定部1
で指定された部分のテキストに相当する音声の変形方法
(態様)を各種入力手段により指定する。音声の特徴を
変形するためには、変形を加えたい部分を相対的に制御
する必要がある。例えば、音声のある特定部分の音量を
大きくするためには、その部分の音量を大きくするか、
或いは、それ以外の部分の音量を小さくすることによっ
て実現できる。このような変形を指定するためには、変
形したい部分とそれ以外の部分の制御値を同時に指定で
きる方法が望ましい。
【0011】一例として、2次元座標系とマウスを用い
て音量の変化方法を入力する例を図2に示す。この図2
は音量を2次元座標系で入力する例であり、例えば、
「これは私の本です」という音声を出力する際に「私
の」の部分を変化させる場合、水平方向の座標で「私
の」以外の部分(即ち、「これは」と「本です」の部
分)の音量を変化させる。また、垂直方向の座標で「私
の」の部分の音量を変化させる。この座標上の1点をマ
ウスで指定することにより音量の制御方法を決める。こ
れにより「私の」の部分で相対的に音量が変化するよう
な「これは私の本です」の音声を作成することができ
る。そして、座標上の位置を読み取ることにより、指定
部分以外の音量、及び、指定部分の音量が、(指定部分
以外の音量、指定部分の音量)=(a、b)のように得
られる。例えば、図2の例では、音量の最大を10、最
小を−10とすると、(3、−4)が得られる。
【0012】また、「これは私の本です」全体の音量の
大きさを水平方向で、「私の」の部分の全体の音量から
の変化量を垂直方向で表す方法や、水平と垂直を逆にし
て表す方法など種々の方法が考えられる。図2の例では
1つの物理量を指定部分と指定部分以外に分けて水平及
び垂直のそれぞれの座標軸で与えたが、2つの物理量を
水平及び垂直のそれぞれの座標軸で指定する方法もあ
る。図3に一例として、水平軸(横軸)で指定部分の音
量を表し、垂直軸(縦軸)で指定部分の発話速度を表し
た場合を示す。
【0013】この場合には、例えば「私の」の部分のみ
の変化量が指定できる。この結果、指定部分の音量、及
び、指定部分の発話速度が、(指定部分の音量、指定部
分の発話速度)=(c、d)のように与えられる。例え
ば図3の例では、音量及び発話速度の最大をそれぞれ1
0、最小をそれぞれ−10とすると、(−5、4)が得
られる。
【0014】以上の2つの例は変化させるパラメータと
して音声の物理量の1つである音量を用いた場合であ
る。他に変化させるパラメータとしては、声の高さに相
当するピッチ周波数の平均的な高さ、声の抑揚の大きさ
に相当するピッチ周波数のダイナミックレンジなどがあ
る。一方、音声の特徴を表す言葉を用いた場合の例とし
ては「明るい声」、「暗い声」、「めりはりのある
声」、「生き生きした声」、「くだけた話し方の声」な
どがある。上記音量の例と同様に、音声のある特定部分
を「明るい」声で出力するためには、その部分の声を
「明るい」声で出力するか、或いは、それ以外の部分の
声を「暗い」声で出力することにより実現できる。この
場合も上記例と同様に2次元座標上の点を指定すること
によって入力する方法が適用可能である。
【0015】次に、音声の特徴を表す言葉のうちで3つ
の特徴を表す言葉を使用して3次元座標を用いて音声を
制御する例を図4に示す。図4の例はx座標方向で指定
部分の「明るさ」を、y座標方向で指定部分の「めりは
り」を、z座標方向で話す速さをそれぞれ制御する場合
である。この例では特定部分指定部1で指定された部分
の明るさ、めりはり、発話速度を3次元空間内の座標を
指定することにより指示する。3次元座標の入力はキー
ボードにより行うこともできるが、グラフィックディス
プレイ上に表示した3次元空間上の点をデータグローブ
などの3次元のポインティング装置で指定する手法が有
効である。3次元座標系を用いた入力では、指定された
座標に基づいて各パラメータの値が得られる。例えば図
4の例では、(明るさ、めりはり、発話速度)=(3、
6、4)のように得られる。
【0016】ここまで述べた例は、文中の一部、即ち
「これは私の本です」の「私の」の部分を変化させる例
であったが、本発明はこれ以外の制御にも勿論適用でき
る。一例をあげれば、文章毎の制御にも適用でき、例え
ば「今朝は晴れていた。そこで東京まで出掛けた。する
と昼から突然雨になった。」という文章の「そこで東京
まで出掛けた。」の部分を上記例と同様に変形部分とし
て指定すれば、「そこで東京まで出掛けた。」の部分の
み「明るく」読み上げたり、「ゆっくり」読み上げたり
することが実現できる。
【0017】以上、2次元座標系と3次元座標系を用い
た例で示したが、他に1次元座標を複数設ける、値をキ
ーボードで入力する、ボリュームで入力するなど、値が
入力できる手法であれば他の手法も利用可能である。再
び図1に戻って説明すると、パラメータ変換部3では、
変形指定入力部2で入力された変形に従って規則音声合
成の制御を行うためのパラメータを作成する。例えば2
次元座標系で(a、b)と指定された場合、この値を変
形部分の前に制御記号として〔音量b〕のように付与す
る。例えば、上述した例のように「これは私の本です」
の文章中の「私の」の部分に相当する音量を大きくする
場合、座標入力された制御に従って、『〔音量3〕これ
が〔音量4〕私の〔音量3〕本です』のように出力する
テキストに制御記号を付与する(〔〕内が制御記号)。
また、「明るい声」のような制御を行う場合には、ま
ず、『〔明るさ4〕これが〔明るさ7〕私の〔明るさ
4〕本です』のようなテキストが生成される。
【0018】次に、特徴量−物理量変換テーブル4を参
照して〔明るさ値〕と物理量との変換を行う。変形指定
入力の際に音声の物理量を用いた場合には、変形指定入
力部2で用いた座標系と、音声合成に用いる物理量との
対応を特徴量−物理量変換テーブル4を参照して求め
る。図5に音量を用いた場合の特徴量−物理量変換テー
ブルの例を示す。このテーブルにおいて物理量は平均的
な音量からの差を示している。例えば、変形部分の音量
が〔音量8〕と指定された場合、合成音声では変形指定
された部分のみ4.0db大きな音量で出力することを
表している。このテーブルを参照しながら、座標系の値
から得た制御記号を物理量に変換する。
【0019】また、変形指定入力の際に音声の特徴を表
す言葉を用いた場合には、特徴量を表す言葉が必ずしも
1つの物理量に対応するとは限らない。従って、この場
合には特徴を表す言葉と物理量との関係を予め求めてお
く必要がある。図6に音声の特徴を表す言葉として「明
るさ」を用いた場合の特徴量−物理量変換テーブルの例
を示す。このテーブル例では「明るさ」に対応して音
量、平均ピッチ周波数、ピッチ周波数変化幅を用いてい
る。音量は平均的な音量からの偏差を表しており、平均
ピッチ周波数及びピッチ周波数変化幅については平均的
な値との比を表している。例えば〔明るさ7〕の場合に
は、変形部分の音量を他と比較して3.5db大きくす
るとともに、ピッチ周波数を標準的な値から1.14
倍、ピッチ周波数の変化幅(ダイナミックレンジ)を
1.3倍にすることを意味する。
【0020】以上の例はテーブルを利用した例である
が、関係を表す式を用いる手法などによっても実現でき
る。その他の音声の特徴を表す言葉に関する特徴量−物
理量変換テーブルは、予め物理量を様々に変化させるこ
とにより作成した音声を被験者に聞かせることによる心
理実験によって音声の特徴を表す言葉と物理特徴量の関
係を求め、作成することができる。
【0021】次に、上述のようにして得られた値を実際
に合成する際に用いる値に変換する。これは、規則音声
合成において自動的に規則で決められる音量やピッチ周
波数などに、パラメータ変換部で求めた係数を掛け合わ
せる、偏差を足す、ことにより求められ、最終的に
『〔ピッチ周波数130Hz〕〔ピッチ周波数レンジ6
0Hz〕これが〔ピッチ周波数150Hz〕〔ピッチ周
波数レンジ80Hz〕私の〔ピッチ周波数120Hz〕
〔ピッチ周波数レンジ45Hz〕本です』のように物理
量に変換した制御記号の挿入されたテキストが出力され
る。
【0022】出力音声生成部5では、パラメータ変換部
3で生成された制御記号の付与された出力テキストに従
って音量や発話速度、ピッチ周波数の高さなどを変化さ
せながら音声を出力する。規則音声合成には音声の物理
的なパラメータを制御することができる一般的な手法を
用いれば良く、既に市販されている規則音声合成装置
(例えば、NTTインテリジェントテクノロジ社の「し
ゃべりん坊HG」など)でも、実現可能である。
【0023】上記実施例は本発明を規則音声合成方式に
適用した場合であるが、分析音声合成方式に本発明を適
用する場合には、まず、アナウンサー等が発声した音声
とこの音声の各部分に対応する文字との対応を求めてお
く必要がある。音声の各部分、例えば、音素や音節と文
字との対応を求めるためには音声認識の手法を利用する
ことができる。次に、音声の分析を行い、基本周波数、
スペクトル情報などのパラメータを求めて蓄積してお
く。このときのパラメータとしては、後で音声を再生す
ることが可能であること、音量やピッチ周波数などの音
声の物理的特徴量を制御できること、を満たしていれば
どのような手法でも良い。代表的な例としてはPARC
OR分析合成方式がある。ここまでの処理を行えば、規
則音声合成方式に適用する場合と同様の処理により、音
声の制御が可能となる。なお、パラメータを変化させな
がら滑らかに音声を再生する方法については、音声強調
装置(特願平3−180812号)に示されている手法
などを用いれば良い。
【0024】また、上記実施例は本発明の単なる例示に
過ぎず、従って、必要に応じて種々の変形及び変更がな
し得ることは言うまでもない。
【0025】
【発明の効果】以上説明したように、本発明の音声制御
方式によれば、ディスプレイ上で指定したテキストの特
定部分の音声の変形をこのディスプレイ上で指示し、こ
の指示された音声の変形に従って特定部分の音声を変形
するものであるから、出力する音声の特徴をディスプレ
イ上で指示することにより変化させながら所望の音声を
作成することができる。このため、人間と機械のインタ
フェースとして用いる音声に様々な表情を与えることが
でき、結果として意味を明確に伝える音声、意図を明確
に伝える音声、感情を明確に伝える音声などを実現する
ことが可能となるという顕著な効果がある。
【図面の簡単な説明】
【図1】本発明による音声制御方式の一実施例を示すブ
ロック図である。
【図2】2次元座標系による音量の制御例を説明するた
めの図である。
【図3】2次元座標系による音量と発話速度の制御例を
説明するための図である。
【図4】3次元座標系による明るさとめりはり、発話速
度の制御例を説明するための図である。
【図5】特徴量に音量を用いた場合の特徴量−物理量変
換テーブルの一例を示す図である。
【図6】特徴量に音声の特徴を表す言葉を用いた場合の
特徴量−物理量変換テーブルの一例を示す図である。
【符号の説明】
1 特定部分指定部 2 変形指定入力部 3 パラメータ変換部 4 特徴量−物理量変換テーブル 5 出力音声生成部
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平4−312169(JP,A) 特開 昭61−100799(JP,A) 特開 平4−66998(JP,A) 特開 平5−289688(JP,A) 特開 平6−202685(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 13/00 - 13/08 G10L 21/06 G06F 3/16,17/28

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 ディスプレイ上に表示されたテキストの
    うち、特定部分を指定する特定部分指定手段と 前記特定部分と前記特定部分以外の部分とのそれぞれの
    音声特徴量を座標軸とする座標を表示し、座標入力手段
    で入力された座標上の位置に対する前記特定部分と前記
    特定部分以外の部分の音声特徴量を指定する音声変形指
    定手段と、 それぞれ指定された前記音声特徴量と音声合成に用いる
    物理量の対応関係を記憶する特徴量−物理量変換テーブ
    ルと、 前記特徴量−物理量変換テーブルを参照して前記特定部
    分と前記特定部分以外の部分の音声特徴量をそれぞれ対
    応する物理量に変換して、対応するテキストの部分に挿
    入して出力するパラメータ変換部と、 前記物理量の挿入されたテキストについて前記物理量を
    用いて音声を合成する出力音声生成部とを備える ことを
    特徴とする音声制御方式。
  2. 【請求項2】 ディスプレイ上に表示されたテキストの
    うち、特定部分を指定する特定部分指定手段と、 複数の音声特徴量をそれぞれ対応した座標軸とする座標
    を表示し、座標入力手段で入力された座標上の位置に対
    する前記特定部分のそれぞれの音声特徴量を指定する音
    声変形指定手段と、 それぞれ指定された前記音声特徴量と音声合成に用いる
    物理量の対応関係を記憶する特徴量−物理量変換テーブ
    ルと、 前記特徴量−物理量変換テーブルを参照して前記特定部
    分の音声特徴量に対応する物理量に変換して、対応する
    テキストの部分に挿入して出力するパラメータ変換部
    と、 前記物理量の挿入されたテキストについて前記物理量を
    用いて音声を合成する出力音声生成部とを備える ことを
    特徴とする音声制御方式。
JP05366493A 1993-03-15 1993-03-15 音声制御方式 Expired - Fee Related JP3282151B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05366493A JP3282151B2 (ja) 1993-03-15 1993-03-15 音声制御方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05366493A JP3282151B2 (ja) 1993-03-15 1993-03-15 音声制御方式

Publications (2)

Publication Number Publication Date
JPH06266382A JPH06266382A (ja) 1994-09-22
JP3282151B2 true JP3282151B2 (ja) 2002-05-13

Family

ID=12949126

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05366493A Expired - Fee Related JP3282151B2 (ja) 1993-03-15 1993-03-15 音声制御方式

Country Status (1)

Country Link
JP (1) JP3282151B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5634455B2 (ja) * 2012-08-16 2014-12-03 株式会社東芝 音声学習装置、方法およびプログラム
JP2014038282A (ja) * 2012-08-20 2014-02-27 Toshiba Corp 韻律編集装置、方法およびプログラム
JP5608843B1 (ja) * 2013-06-25 2014-10-15 純一 角元 音楽再生機能の操作画面
JP5813844B2 (ja) * 2014-10-14 2015-11-17 株式会社東芝 音声学習装置、方法およびプログラム

Also Published As

Publication number Publication date
JPH06266382A (ja) 1994-09-22

Similar Documents

Publication Publication Date Title
EP0880127B1 (en) Method and apparatus for editing synthetic speech messages and recording medium with the method recorded thereon
US8065150B2 (en) Application of emotion-based intonation and prosody to speech in text-to-speech systems
JP3450411B2 (ja) 音声情報処理方法及び装置
EP1490861B1 (en) Method, apparatus and computer program for voice synthesis
JP2006227589A (ja) 音声合成装置および音声合成方法
JP2623586B2 (ja) 音声合成におけるピッチ制御方式
JP3282151B2 (ja) 音声制御方式
AU769036B2 (en) Device and method for digital voice processing
JP4409279B2 (ja) 音声合成装置及び音声合成プログラム
JPH08335096A (ja) テキスト音声合成装置
Gahlawat et al. Integrating human emotions with spatial speech using optimized selection of acoustic phonetic units
JPH05224689A (ja) 音声合成装置
KR0134707B1 (ko) 다이폰 단위를 이용한 엘에스피(lsp)방식의 음성 합성 방법
JP2001242881A (ja) 音声合成方法及び装置
JP3575919B2 (ja) テキスト音声変換装置
JP2002268664A (ja) 音声変換装置及びプログラム
JP2002311979A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP3292218B2 (ja) 音声メッセージ作成装置
JPH06214585A (ja) 音声合成装置
JPH01216399A (ja) 音声合成装置
Raman Nuts and Bolts of Auditory Interfaces
JPH037994A (ja) 歌音声合成データの作成装置
JPH04243299A (ja) 音声出力装置
JPS62215299A (ja) 文章読み上げ装置
JPS63208098A (ja) 音声合成装置および方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees