JP3292218B2

JP3292218B2 - 音声メッセージ作成装置

Info

Publication number: JP3292218B2
Application number: JP21733693A
Authority: JP
Inventors: 智久広川; 憲三伊藤; 和雄箱田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1993-09-01
Filing date: 1993-09-01
Publication date: 2002-06-17
Anticipated expiration: 2017-06-17
Also published as: JPH0772889A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、音声メッセージ作成
装置に関し、特に所望の韻律特性を有する音声メッセー
ジを容易に作成することができる音声メッセージ作成装
置に関する。

【０００２】

【従来の技術】この種の音声合成方法の従来例について
説明する。従来、音声を使用するサービスにおいては、
予め決められた既に記憶されている音声断片を使用し、
これらを編集して音声メッセージを作成する「編集によ
る音声合成方法」が開発されている。しかし、この「編
集による音声合成方法」はサービスの種類、内容が自ず
と限定され、また音声応答用の音声メッセージの作成に
も、音声収録からメッセージ作成に到るまで多大の労力
を必要とし、更に、同一のアナウンサーに依らなければ
ならないという欠点を有していた。これらの問題を解決
するために、日本語文章を音声に変換する「規則による
音声合成方法」が提案されている。この方法によれば、
出力音声に制限はなく、同一アナウンサーを確保しなけ
ればならないという問題は解決されるが、規則に基づい
て音声を合成しているため、イントネーション、音声合
成に使用する単位音声のパワー、時間長その他の韻律特
性を任意に修正することが難しく、合成された音声の不
自然に聞こえるところの韻律特性の修正、所望する韻律
特性を有する音声メッセージを得ることは困難であっ
た。

【０００３】ここで、上述の韻律特性の修正を容易にす
るために、この韻律特性をディスプレイ上に図形の形で
表示し、マウスその他のポインティング機器により視覚
的に修正変更作業を行い、合成音声による確認を行いな
がら音声メッセージを作成するという提案もなされてい
る。しかし、この作業は聴覚的に不自然な箇所を見い出
し、図形上において視覚的に韻律特性に修正を加えると
いうものであるところから、経験と音声学的な知見とを
必要とされる作業であり、通常のオペレータには困難な
作業であった。そして、合成音声の不自然さは知覚でき
るものの修正パラメータ、修正箇所を明確に指摘するこ
とができない場合が生じたり、或は適用されるサービス
によっては独特なイントネーションにより発声させたい
場合も生ずる。この様な場合、韻律特性相互間の関連性
もあるため、ディスプレイ上における韻律特性の修正は
殆ど不可能であった。

【０００４】

【発明が解決しようとする課題】この発明は、音声メッ
セージを作成するオペレータが、所望の韻律特性を有す
る音声メッセージを容易に作成することができる音声メ
ッセージ作成装置を提供するものである。

【０００５】

【課題を解決するための手段】入力される日本語文章に
対応する音声メッセージを規則により作成する音声メッ
セージ作成装置において、音声入力部７を具備し、入力
された音声について短時間パワー、零交差数、分析残差
信号相関係数、ケプストラム係数差分、高域／低域周波
数成分比を一定時間毎に計算分析し、これら音声属性に
従って当該入力音声を区分化する音声分析・区分化部９
を具備し、区分化された音声から合成音声の韻律特性を
修正するのに使用する韻律特性を抽出する韻律特性抽出
部１０を具備し、抽出された韻律特性に従って規則によ
り設定されている合成音声情報を修正する音声合成情報
修正部５を具備し、音声合成情報から音声を合成する音
声合成部６を具備する音声メッセージ作成装置を構成し
た。

【０００６】

【実施例】この発明の音声メッセージ作成装置の実施例
を図１を参照して説明する。先ず、音声メッセージに変
換されるべき漢字カナ混じり文字情報である日本語テキ
ストが日本語入力部１に入力される。この入力情報は主
制御部２を介して音声合成情報変換部３に送りこまれ
る。音声合成情報変換部３に送り込まれた入力情報は、
ここにおいて文節の区切り記号情報、カナ読み列情報、
アクセント情報に変換される。ここで、区切り記号とは
文節間の結合度合を示す記号であり、強結合（＊）、弱
結合（／）、短ポーズ（- ）、中ポーズ（、）、長ポー
ズ（。）その他のものがある。カナ読み列とは発声され
るべき音声に対応するカナ列であって、通常カタカナ文
字列により表現する。アクセント情報とは文節内のアク
セントの位置を示すものであり、先頭から付された音節
番号により表現する。

【０００７】カタカナ列は、更に音声合成に使用する単
位音声を表す記号列に分解され、またアクセント情報、
区切り情報から規則により各単位音声の時間長、パワ
ー、ピッチ周波数その他の韻律特性が設定される。音声
合成に使用する単位音声、韻律特性は音声合成情報保存
部４に蓄えられ、必要に応じて音声合成情報修正部５に
送られる。音声合成情報修正部５においては、上述の音
声合成情報を音声合成部６に送り出し、オペレータが合
成音声を試聴しながらその韻律特性を修正する。

【０００８】この発明の音声メッセージ作成装置は、合
成音声の韻律特性の修正にオペレータ自身の発声による
音声の韻律特性を使用する。ここで、オペレータ自身の
発声自体をそのまま使用することも考えられるが、この
様にすると音声メッセージに対する違和感を増し、サー
ビス性の低下につながる。従って、オペレータの発声し
た音声の内の韻律特性のみに着目してこれを使用する。
以下、これについて説明する。

【０００９】オペレータは、作成しようとする音声メッ
セージと同一の音声を所望の韻律により音声入力部７に
実音声入力する。音声入力部７に入力された実音声は音
声信号バッファ部８に蓄えられ、次いで音声分析・区分
化部９において音声分析されて、音声の分析属性に従っ
てカテゴリー別に区分化される。音声分析・区分化部９
における処理は音声区間抽出処理および音声分析処理の
２つの処理に分けられる。音声区間抽出処理において
は、音声信号バッファ部８に蓄えられた音声信号に対し
てバッファの先頭から短時間パワーを計算し、このパワ
ーが閾値を超えればここを音声の先頭と判断し、そして
バッファの後尾から同様に短時間パワーを計算し、この
パワーが閾値を超えたところを音声の終端と判断して音
声信号を抽出する。音声分析処理においては、音声区分
化に必要なパラメータである、短時間パワー、零交差
数、分析残差信号相関係数、ケプストラム係数差分、高
域／低域周波数成分比を一定時間毎に計算する。この一
定時間をフレーム長と呼び、通常一定の波形が保たれて
いると考えられる３０ｍｓｅｃで分析する。この様な音
声分析を一定時間毎、シフトしながら抽出音声区間全体
に対して実行する。この一定時間の時間的シフトをフレ
ームシフトと呼び、通常５ｍｓｅｃに設定している。音
声区分化においては、上述の分析パラメータを参照し
て、入力音声を複数種のカテゴリーに区分化する。フレ
ームシフトが５ｍｓｅｃの場合、区分化精度は５ｍｓｅ
ｃになるが、抽出した韻律特性による音声合成を考えれ
ば、５ｍｓｅｃの精度は聴覚的に充分満足するものであ
る。区分化カテゴリーは大まかな分類から微細な分類ま
で幾通りかの分類分けが考えられるが、区分化カテゴリ
ー種別と音声合成に使用する単位音声種別が一致してい
れば、韻律特性の修正には都合がよい。即ち、区分化単
位音声毎にパワー、時間長その他の韻律特性を抽出し、
対応する単位音声の韻律特性の修正を行えばよい。音声
区分化は入力音声が既知であるので、音声の物理的特
徴、先見的知識を充分に利用することができ、未知音声
を対象とする音声認識において使用されている音声セグ
メント技術と比較して格段に高い区分化精度が期待され
る。

【００１０】韻律特性抽出部１０においては、区分化さ
れた単位音声から合成音声の修正に使用する韻律特性を
抽出する処理を行う。この処理は音声区分化が適切に行
なわれていれば比較的に容易な処理である。即ち、区分
化音声の時間長は区分境界から容易に算出することがで
き、また、パワー情報は区分境界内の音声サンプルのパ
ワ値より容易に算出することができ、ピッチ周波数につ
いても分析残差相関値から計算することができる。この
様にして得られた区分化音声毎の韻律特性は、合成音声
の韻律特性の修正に使用される。この際、修正に使用す
る韻律特性を選択する様にすることもできる。即ち、合
成音声の試聴の結果、時間長情報のみを修正したい場
合、入力音声の分析・区分化から得られた時間長情報の
みを使用すればよい。これらの修正すべき韻律特性の選
択も、合成音の試聴を行いながら決定することができ
る。韻律特性、音声合成に使用する単位音声その他の音
声合成情報の修正作業、およびその試聴により所望の音
声が確認された場合は、この音声に対応する音声合成情
報は音声合成情報保存部４に保存されて操作はすべて完
了する。

【００１１】

【発明の効果】以上の通りであって、この発明の音声メ
ッセージ作成装置によれば、「規則による合成」音が不
自然であって、しかもその韻律特性の修正が困難である
場合、或は規則により設定した韻律特性と大きく異なる
韻律特性により合成音声を作成したい場合、オペレータ
は自身の発声音声の韻律特性を使用することにより、音
質を変えずに自然で、しかも所望の韻律特性を有する合
成音を容易に作成することができ、音声メッセージ作成
作業に必要とされた労力を大幅に軽減することができ
る。そして、この発明の音声メッセージ作成装置は、格
別の音声学的専門知識を必要とはしないので、一般のユ
ーザによっても容易に所望の音声メッセージを作成する
ことができる。ここで、区分化カテゴリー種別と音声合
成に使用する単位音声種別が一致していれば、韻律特性
の修正には都合がよい。即ち、区分化単位音声毎にパワ
ー、時間長その他の韻律特性を抽出し、対応する単位音
声の韻律特性の修正を行えばよい。音声区分化は入力音
声が既知であるので、音声の物理的特徴、先見的知識を
充分に利用することができ、未知音声を対象とする音声
認識において使用されている音声セグメント技術と比較
して格段に高い区分化精度が期待される。更に、韻律特
性抽出部１０における韻律特性抽出処理は、音声区分化
が適切に行なわれていれば比較的に容易な処理である。
即ち、区分化音声の時間長は区分境界から容易に算出す
ることができ、また、パワー情報は区分境界内の音声サ
ンプルのパワ値より容易に算出することができ、ピッチ
周波数についても分析残差相関値から計算することがで
きる。

【図面の簡単な説明】

【図１】この発明の実施例のブロック図。

【符号の説明】

１日本語入力部２主制御部３音声合成情報変換部４音声合成情報保存部５音声合成情報修正部６音声合成部７音声入力部８音声信号バッファ部９音声分析・区分化部１０韻律特性抽出部

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平４−167000（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 13/04

Claims

(57)【特許請求の範囲】

【請求項１】入力される日本語文章に対応する音声メ
ッセージを規則により作成する音声メッセージ作成装置
において、音声入力部を具備し、入力された音声につい
て短時間パワー、零交差数、分析残差信号相関係数、ケ
プストラム係数差分、高域／低域周波数成分比を一定時
間毎に計算分析し、これら音声属性に従って当該入力音
声を区分化する音声分析・区分化部を具備し、区分化さ
れた音声から合成音声の韻律特性を修正するのに使用す
る韻律特性を抽出する韻律特性抽出部を具備し、抽出さ
れた韻律特性に従って規則により設定されている合成音
声情報を修正する音声合成情報修正部を具備し、音声合
成情報から音声を合成する音声合成部を具備することを
特徴とする音声メッセージ作成装置。