JPS5977496A

JPS5977496A - 音声セグメントのイントネ−シヨンを変化する方法及び装置

Info

Publication number: JPS5977496A
Application number: JP58125637A
Authority: JP
Inventors: フオレスト・シユラゴ・モザ
Original assignee: Individual
Current assignee: Individual
Priority date: 1982-07-12
Filing date: 1983-07-12
Publication date: 1984-05-02
Also published as: CA1181859A; GB8313384D0; GB2124455A; DE3314674A1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は、音声及び同様の可聴情報の合成に関し、更に
詳細には、音声セグメントのイントネーションを変化す
る方法及び装置に関する。本発明は、単語または句の認
識度を変化せず、かつ単語または句を合成するのに必要
な情報以上に他の情報を必要とすることなく、−反復か
ら次の反復址で合成単語または句のピッチ周波数（すな
わちイントネーション）を変化する方法及び装置に関す
る。

普通の音声″！、たけ同様の可聴音は、１秒当り約１０
０．０００ピツトの情報を含んでいる。これら大量の情
報を記憶したりまた伝送することは、コスト的及び記憶
空間的にも困難なことでるる。従って、経済的な音声シ
ンセサイザ全実現するには、音声データを記憶する前に
これらデータを圧縮しかつ合成する必要がるる。

圧縮及び合成技術は、通常２つの種類すなわち周波数領
域技術と時間領域技術とに分れている。

これら技術は、記憶されているデータの種類と、データ
の利用方法とＸにより区別されている。周波数領域合成
技術は、各セグメントすなわちピッチ期間における重要
な周波数で情報を記憶することＫより、圧縮を行なって
いる。フォルマントと呼ばれているこれら周波数は、の
ど９口、唇、舌、鼻腔等から成る機械的構造の共鳴であ
る。これら共振周波数は、パワスペクトルラベルを音声
の連続時間セグメントに割り当てることにより情報圧縮
が行なえるよう、ゆっくりと時間につれて変化する。

周波数領域音声シンセサイザは、ディジタルまたはアナ
ログフィルタをノイズ波形が通過することにより動作す
る。」二記フィルタのパラメータは、メモリに配憶され
たラベル情報により制御され、目標波形のピークに相当
するピークを、そのパワスペクトルに有する波形を発生
する。一方、時間領域合成技術は、情報に関する時間の
関数として波形の振幅の圧縮、記憶、再生を行っている
。

ディジタル音声シンセサイザは、オリジナルすなわち源
音の量より数段に少ない情報量で人工音声及び同様の可
聴音を発生することができる。音声情報を記憶するのに
必要な記憶場所の量には、多大な割増しが設けられてい
た。情報記憶場所金側増すことにより、各反復において
全く同じように正確に人工音声を合成することができる
。しかし単語または句の正確な機械的反復は、人間の耳
には不快で機械的に聞こえる。このため所定のメツセー
ジの一反復から次の反復まで心地よいバリエーションを
有する人工音声を発生する技術が必要となってくる。

音声信号等の圧縮及び合成について、数十年にもわたっ
て研究されている（たとえば、Ｆｌ　ａｎａｇａｎによ
り１９７２年Ｓｐｒｉｎｇｅｒ　−Ｖｅｒｌａｇ　　に
おいて発表された音声分析１合成及び認識を参照）。こ
の論題に対する関心に伴い、大規模集積技術を用いて単
一集積回路に複雑な電子回路を製造する技術が著しく促
進されてきた。

周波数領域シンセサイザの例としては、米国特許第３，
５７５，５５５号及び第３，５８８，３５３号がろり、
これら技術を用いた装置は、テキサスインスツルメント
、ゼネラルインスツルメントヤ多くの日本の会社で販売
されている。選択されたディジタル時間領域圧縮技術は
、米国特許第３，６４１，４９６号及び第４，２１４，
１２５号に示されており２１時間領域圧縮技術を用いた
装置は、テレセンンリー・システムズ、ナショナルセミ
コンダクタ、シャープ等の会社で開発及び販売されてい
る。

［従来技術］現在の科学技術では、２つまたはそれ以上の異なるイン
トネーションの単語または句を発生するのに必要な情報
を、シンセサイザのメモリに記憶する仁とにより同じ単
語または句において全く同じイントネーションが、反復
されるという問題を克服することは可能である。しかし
、それにはメモリ寸法がかなり大きくなり、それにつれ
てコストも高くなってしまう。

従って、メモリ寸法及びコストを大幅に増加することな
く反復単語または句のイントネーションを変化すること
ができる音声圧縮技術が必要とされている。

［発明の概要〕本発明では、ピッチ周波数は単語または句のフォルマン
トに全く関係していないので、単語または句の再生とは
別に、ピッチの制御によシイントネーションを制御する
ことができる。特に、時間領域または周波数領域技術の
いずれかによりピッチ期間に既に分類されている単語ま
たは句は、様々な速度で再生される。この速度は、各ピ
ッチ期間の開始を制御する表により、または擬似クロッ
ク信号により制御できる。イントネーションは、現在の
ピッチ期間の発生を終了する前に、次のデータのピッチ
期間の発生を開始することによって生じる。イントネー
ションは、可聴信号を発生する際、連続的なピッチ期間
の間に、余分の、短い一定振幅時間セグメン）ｆ挿入す
ることにより低くすることができる。

イントネーション制御表を擬似ランダム的に参照して、
所定のメツセージの一反復から次の反復まで比較的滑ら
かな転移でイントネーションを変えることができる。こ
の付加制御表用には最小量の記憶空間しか必要としない
。またイントネーションの変化に関係する情報なしで、
基本的語いを記憶することができる。

以下、添付の図面に基づいて、本発明の実施例について
説明する。

［実施例］本発明を理解する上で、有声波形のピッチ周波数カバワ
スペクトルのフォルマント周波数に無関係でるるという
ことを認識することが重要である。

ピッチ、すなわち声帯の振動周波数は、イントネーショ
ン及び意味を口語句に与えているが、同じ句の連続的反
復における変化紘、同じ単語として感知される音声の認
識を変えることはない。この現象は、第１図（ａ）の波
形１０及び第１図（ｂ）の波形１２により示されている
。これら波形は、それぞれ約８０Ｈｚ及び約１２０Ｈｚ
のピッチ周波数における母音◆アー″の波形でめる。こ
れら２つの波形は、単周期に見えるが、波形の反復度は
異なっている。それにもかかわらず、２つの波形１０゜
１２を比較すれば、これら波形は時間ペースが異なるが
、波形の形はほとんど同じである。２つの波形１０．１
２は、波形１２の方が速いピッチで話しているが、両方
ともｌブー１という音なので同じ形のパワスペクトルを
有している。

第２Ａ図及び第２Ｂ図には、ピッチ及びフォルマント周
波数のインピーダンスがより明らかに示されている。波
形１４は有声音素の一ピツチ期間である。第２Ｂ図のパ
ワスペクトル１６において番号顎３″が付けられた点は
、全波形１４のパワスペクトルでるり、番号略２Ｎ　　
、　１１　ｒ′、　％　Ｏ＃が付けられた点は、それぞ
れ波形１４の最初の７５％、５０％、２５チのパワスペ
クトルでめる。

全パワスペクトルのピークは同じ周波数にめるので、波
形１４のフォルマント周波数は分析されたセグメントの
継続期間に無関係である。従って、たとえば波形１４の
最初の半分、続いて現われる第１ピッチ期間の最初の半
分、さらに次の続いて現われるピッチ期間の最初の半分
などと再生してオリジナルの音素と同じに了解され、オ
リジナルの波形の２倍のピッチ周波数を有している音声
を作ることができる。

第３図は、本発明による時間領域音声シンセサイザ２１
を示している。シンセサイザ２１は、メモリ装置１８、
中間制御装＃２０、ディジタル−アナログ変換器２２、
スピーカ２４を有している。

制御回路２６は、単語選択及び開始命令に応じてメモリ
装Ｍ１８及び中間制御装ｗ２０の動作を管理する。音声
シンセサイザ２１の構造の詳細は、ここでは関係ないの
で省略する。メモリ装置１８は、圧縮された時間領域波
形を記憶する。中間制御装［２０は、制御回路２６の動
作のもとで、メモリ装置１８に記憶された圧縮時間領域
波形全ディジタル波列に拡張する。中間制御装置２０か
らのディジタル波列は、ディジタル−アナログ変換器２
２によりアナログ信号に変換され、可聴波形としてスピ
ーカ２４により再生される。

本発明の一実施例において、制御回路２６により中間プ
ロセッサは、データの現在のピッチ期間の発生を停止し
、かつ現在のピッチ期間の公称終了前にランダムまたは
擬似ランダム時間で次に続くピッチ期間の発生を開始す
る。各ピッチ期間の発生開始時間は、ピッチ期間からピ
ッチ期間まで滑らかに変化し、公称ピッチ周波数より高
い周波数を再生音声として発生する。各ピッチ期間を再
生するのに使用される情報は基本的には変化しガいので
、メツセージにおける単語は、単にイントネーションが
増加したぐらいにしか認識されない。

寸だ、制御回路２６により、中間プロセッサは各ピッチ
期間の終端に一定振幅の時間セグメントを付加するので
、出力波形は、公称波形よりもピッチ及びイントネーシ
ョンとも低くなる１）それでも、了解度は変化しない６
．これら２つの技術′ｆｔ組み合わせて使用することに
より、メツセージの連続的反復間に、同じ公称ピッチで
、イントネーションが変化した句を発生する。制御回路
２６は、擬似乱数発生器を内蔵し、制御信号を発生して
イントネーションを変化する。このような装置によれば
、どのような種類のメモリも、更に必要とすることなく
イントネーションを変化することができる。

しかし、句の連続反復における被制御ピッチ周波数の変
化は、メモリ装置１８において、時間の関数としてピッ
チ周波数の表を記憶することにより行なうことができる
。各反復において、制御回路２６は異なる表を呼び出し
、これに応じて制御回路２６は中間制御装置２０に対し
て、イントネーションに所定の変化がある同じ句を反復
するよう指示する。ピッチ周波数変化をプログラムする
表を使用する場合、音声データの記憶に必要なメモリ箭
の他、少量のメモリヲ必要とする。

第４図は、本発明による周波数領域シンセサイザ３１を
示している。通常、周波数領域シンセサイザは、中間制
御装置３８の制御下にある有声励起源２８と、無声励起
源３０と、入力として、有声励起源２８または無声励起
源３０の出力を有しかつスイッチ３３に接続した制御ラ
イン４４を介して中間制御装置３８の制御下にるるディ
ジタルフィルタ３２とを有している３、ディジタルフィ
ルタ３２は、中間制御装置３８から制御ライン４２によ
りプログラム可能でろる。メモリ装置４０は中間制御装
置３Ｂに接続している。ディジタルフィルタ３２は、デ
ィジタル−アナログコンバータ３４に接続し、さらにス
ピーカ３６に接続している。

ディジタル周波数領域音声シンセサイザ３１において、
有声励起源２８は、中間制御装置３８からの信号ライン
４６により制御されるピッチ周波数で周期的パルスを発
生する。中間制御装置３８は、メモリ装置４０かものデ
ータを使用することにより、ピッチ周波数を決定する。

有声または無声のいずれかの適当な励起源は、制御ライ
ン４２０制御下にわるディジタルフィルタ３２に接続し
制御ライン４２からの化量によジデイジタルフィルタ３
２のフィルタパラメータを決定する。中間制御装Ｗ３８
は、メモリ装置４０からの記憶データに従って、時間の
関数として、ディジタルフィルタ３２のフィルタパラメ
ータを指定する。ディジタルフィルタ３２の出力は、デ
ィジタル−アナログコンバータ３４に送られ、この出力
はスピーカ３６によｐ１可聴信号に変換される。

メモリ装置４０の一セグメントには、合成されるべき句
の７オルマント周波数の情報が記憶されている。ピッチ
周波数は、同じメモリ装置４０の他のセグメントにおけ
る完全に無関係なデータにより決定される。ピッチ周波
数とイントネーションは、任意に変（ヒされるか、また
は中間制御装置３８を介してメモリ４０のデータにより
指定される。中間制御装置３８は、ピッチ期間からピッ
チ期間まで有声励起源２８のパルス速度を変化する。

この変化は、目標反復度でデータ全記憶している表に従
ってろらかしめプログラムされているか、オたは擬似ラ
ンダムである。

本発明について特定の実施例に基づいて説明してきたが
、他の実施例も可能であり、本発明は、これら記載に限
定されない。

【図面の簡単な説明】

第１図（ａ）は８０Ｈｚのピッチ周波数における男声１
７−″の振幅対時間をプロットしたグラフ、第１図（ｂ
）は１２０Ｈｚのピッチ周波数における男性珍アー″の
振幅対時間をプロットしたグラフ、第２Ａ図は音声の単
一ピッチ期間の振幅対時間をプロットしたグラフ、第２
Ｂ図Ｆｉ第２Ａ図の時間領域波形の種々のセグメントの
パワスペクトルをコンピュータがプロットしたグラフ、
第３図は本発明による時間領域音声シンセサイザのブロ
ック図、第４図は本発明による周波数領域音声シンセサ
イザのブロック図である。１８．４０−−−−メモリ装置、２Ｇ、３Ｂ−・・・中
間制御装置、２２．３４・・・・ディジタル−アナログ
コンバータ、２４．３６−・・争スピーカ、２８・・・
・有声励起源、３ｏ・・・無声励起源、３２・・・・デ
ィジタルフィルタ。特許出願人　フオレスト・シュラゴーモザ代理人山川政
樹（ほか１名）ＦＩＧ、　　　７ＦＩＧ、　　　ＪＦＩＧ、　　２Ａ　　　　　　４】旬ｃｍｓｅｃ）ＦＩ
Ｇ、　　２Ｂ　　　　　　　　ＩＵ５支１校（＋４ｚ）
手続補正書（方却１．事件の表示昭和５８年　特　許　願第１２５６３７号２°発明）名
称　　音声セグメントのイントネーションを変化する方
法及び装置３、補正をする者事件との関係　　　　特　　　許　出願人名称（氏名）
　　　フオレスト・シュラボ・モザ５、垢シ轟ぶ−の［
１イ・］　　昭和５８　年１０月２５　日補−正にオ→
−増加す÷発男σ重−−−−・−一−６・　補正の対象図　　　面

Claims

【特許請求の範囲】（１）音声シンセサイザにおいて、記憶装置に記憶され
た連続的なピッチ期間から成る音声セグメントのイント
ネーションを変化する方法であって、音声セグメントが
再生される複数の公称ピッチ期間を表わす信号を発生す
る過程と、合成音声を発生するよう、上記公称ピッチ期
間の継続期間に関係なく制御される期間でそれぞれ関係
した公称ピッチ期間を可聴再生する過程とから成ること
を特徴とする音声セグメントのイントネーションを変化
する方法。（２、特許請求の範囲第１項記載の方法において、各公
称ピッチ期間は、擬似乱数方法で変化する反復度で再生
され、ピッチ周波数に変化を生ずることを特徴とする、
音声セグメントのイントネーションを変化する方法。（３）特許請求の範囲第１項記載の方法において、各公
称ピッチ期間は、あらかじめプログラムさ扛た方法で滑
らかに変化する反復度で再生され、ピッチ周波数に所定
の変化を生ずることを特徴とする、音声セグメントのイ
ントネーションを変化する方法。（４）公称ピッチ期間を記憶する装置を有する時間領域
音声シンセサイザにおいて、上記ピッチ期間とは無関係
にピッチ期間の反復度における変化に関係した情報を確
立する装置と、上記情報確立装置に接続しかつこれに応
答して、上記ピッチ期間の反復度情報に従って各連続ピ
ッチ期間の反復度を変化する装置とから成ることを特徴
とする、音声セグメントのイントネーションを変化する
装置。（５）特許請求の範囲第４項記載の装置において、情報
確立装置は擬似乱数発生器であることを特徴とする、音
声セグメントのイントネーションを変化する装置。（６）特許請求の範囲第４項記載の装置において、情報
確立装置は、連続ピッチ周波数の表を記憶する装置であ
ること’（ｚ％徴とする。音声セグメントのイントネー
ションを変化する装置。（７）周波数領域シンセサイザにおいて、合成音声のピ
ッチ期間のフォルマント周波数に関係なく合成音声のピ
ッチ周波数を確立する装置と、上記ピッチ周波数に従っ
である速度で上記フォルマン１周波数を再生する装置と
から成ることを特徴とする、音声セグメントのイントネ
ーションを変化する装置。（８）特許請求の範囲第７項記載の装置において、情報
確立装置は、擬似乱数発生器であることを特徴とする、
音声セグメントのイントネーションを変化する装置。（９）特許請求の範囲第７項記載の装置において、情報
確立装置は、選択された７オルマント周波数のピッチ期
間の連続的ピッチ周波数を指定する表を記憶する装置で
ろることを特徴とする、音声セグメントのイントネーシ
ョンを変化する装置。