JPS5977496A - 音声セグメントのイントネ−シヨンを変化する方法及び装置 - Google Patents

音声セグメントのイントネ−シヨンを変化する方法及び装置

Info

Publication number
JPS5977496A
JPS5977496A JP58125637A JP12563783A JPS5977496A JP S5977496 A JPS5977496 A JP S5977496A JP 58125637 A JP58125637 A JP 58125637A JP 12563783 A JP12563783 A JP 12563783A JP S5977496 A JPS5977496 A JP S5977496A
Authority
JP
Japan
Prior art keywords
pitch
intonation
frequency
speech
pitch period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58125637A
Other languages
English (en)
Inventor
フオレスト・シユラゴ・モザ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of JPS5977496A publication Critical patent/JPS5977496A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は、音声及び同様の可聴情報の合成に関し、更に
詳細には、音声セグメントのイントネーションを変化す
る方法及び装置に関する。本発明は、単語または句の認
識度を変化せず、かつ単語または句を合成するのに必要
な情報以上に他の情報を必要とすることなく、−反復か
ら次の反復址で合成単語または句のピッチ周波数(すな
わちイントネーション)を変化する方法及び装置に関す
る。
普通の音声″!、たけ同様の可聴音は、1秒当り約10
0.000ピツトの情報を含んでいる。これら大量の情
報を記憶したりまた伝送することは、コスト的及び記憶
空間的にも困難なことでるる。従って、経済的な音声シ
ンセサイザ全実現するには、音声データを記憶する前に
これらデータを圧縮しかつ合成する必要がるる。
圧縮及び合成技術は、通常2つの種類すなわち周波数領
域技術と時間領域技術とに分れている。
これら技術は、記憶されているデータの種類と、データ
の利用方法とXにより区別されている。周波数領域合成
技術は、各セグメントすなわちピッチ期間における重要
な周波数で情報を記憶することKより、圧縮を行なって
いる。フォルマントと呼ばれているこれら周波数は、の
ど9口、唇、舌、鼻腔等から成る機械的構造の共鳴であ
る。これら共振周波数は、パワスペクトルラベルを音声
の連続時間セグメントに割り当てることにより情報圧縮
が行なえるよう、ゆっくりと時間につれて変化する。
周波数領域音声シンセサイザは、ディジタルまたはアナ
ログフィルタをノイズ波形が通過することにより動作す
る。」二記フィルタのパラメータは、メモリに配憶され
たラベル情報により制御され、目標波形のピークに相当
するピークを、そのパワスペクトルに有する波形を発生
する。一方、時間領域合成技術は、情報に関する時間の
関数として波形の振幅の圧縮、記憶、再生を行っている
ディジタル音声シンセサイザは、オリジナルすなわち源
音の量より数段に少ない情報量で人工音声及び同様の可
聴音を発生することができる。音声情報を記憶するのに
必要な記憶場所の量には、多大な割増しが設けられてい
た。情報記憶場所金側増すことにより、各反復において
全く同じように正確に人工音声を合成することができる
。しかし単語または句の正確な機械的反復は、人間の耳
には不快で機械的に聞こえる。このため所定のメツセー
ジの一反復から次の反復まで心地よいバリエーションを
有する人工音声を発生する技術が必要となってくる。
音声信号等の圧縮及び合成について、数十年にもわたっ
て研究されている(たとえば、Fl anaganによ
り1972年Springer −Verlag  に
おいて発表された音声分析1合成及び認識を参照)。こ
の論題に対する関心に伴い、大規模集積技術を用いて単
一集積回路に複雑な電子回路を製造する技術が著しく促
進されてきた。
周波数領域シンセサイザの例としては、米国特許第3,
575,555号及び第3,588,353号がろり、
これら技術を用いた装置は、テキサスインスツルメント
、ゼネラルインスツルメントヤ多くの日本の会社で販売
されている。選択されたディジタル時間領域圧縮技術は
、米国特許第3,641,496号及び第4,214,
125号に示されており21時間領域圧縮技術を用いた
装置は、テレセンンリー・システムズ、ナショナルセミ
コンダクタ、シャープ等の会社で開発及び販売されてい
る。
[従来技術] 現在の科学技術では、2つまたはそれ以上の異なるイン
トネーションの単語または句を発生するのに必要な情報
を、シンセサイザのメモリに記憶する仁とにより同じ単
語または句において全く同じイントネーションが、反復
されるという問題を克服することは可能である。しかし
、それにはメモリ寸法がかなり大きくなり、それにつれ
てコストも高くなってしまう。
従って、メモリ寸法及びコストを大幅に増加することな
く反復単語または句のイントネーションを変化すること
ができる音声圧縮技術が必要とされている。
[発明の概要〕 本発明では、ピッチ周波数は単語または句のフォルマン
トに全く関係していないので、単語または句の再生とは
別に、ピッチの制御によシイントネーションを制御する
ことができる。特に、時間領域または周波数領域技術の
いずれかによりピッチ期間に既に分類されている単語ま
たは句は、様々な速度で再生される。この速度は、各ピ
ッチ期間の開始を制御する表により、または擬似クロッ
ク信号により制御できる。イントネーションは、現在の
ピッチ期間の発生を終了する前に、次のデータのピッチ
期間の発生を開始することによって生じる。イントネー
ションは、可聴信号を発生する際、連続的なピッチ期間
の間に、余分の、短い一定振幅時間セグメン)f挿入す
ることにより低くすることができる。
イントネーション制御表を擬似ランダム的に参照して、
所定のメツセージの一反復から次の反復まで比較的滑ら
かな転移でイントネーションを変えることができる。こ
の付加制御表用には最小量の記憶空間しか必要としない
。またイントネーションの変化に関係する情報なしで、
基本的語いを記憶することができる。
以下、添付の図面に基づいて、本発明の実施例について
説明する。
[実施例] 本発明を理解する上で、有声波形のピッチ周波数カバワ
スペクトルのフォルマント周波数に無関係でるるという
ことを認識することが重要である。
ピッチ、すなわち声帯の振動周波数は、イントネーショ
ン及び意味を口語句に与えているが、同じ句の連続的反
復における変化紘、同じ単語として感知される音声の認
識を変えることはない。この現象は、第1図(a)の波
形10及び第1図(b)の波形12により示されている
。これら波形は、それぞれ約80Hz及び約120Hz
のピッチ周波数における母音◆アー″の波形でめる。こ
れら2つの波形は、単周期に見えるが、波形の反復度は
異なっている。それにもかかわらず、2つの波形10゜
12を比較すれば、これら波形は時間ペースが異なるが
、波形の形はほとんど同じである。2つの波形10.1
2は、波形12の方が速いピッチで話しているが、両方
ともlブー1という音なので同じ形のパワスペクトルを
有している。
第2A図及び第2B図には、ピッチ及びフォルマント周
波数のインピーダンスがより明らかに示されている。波
形14は有声音素の一ピツチ期間である。第2B図のパ
ワスペクトル16において番号顎3″が付けられた点は
、全波形14のパワスペクトルでるり、番号略2N  
、 11 r′、 % O#が付けられた点は、それぞ
れ波形14の最初の75%、50%、25チのパワスペ
クトルでめる。
全パワスペクトルのピークは同じ周波数にめるので、波
形14のフォルマント周波数は分析されたセグメントの
継続期間に無関係である。従って、たとえば波形14の
最初の半分、続いて現われる第1ピッチ期間の最初の半
分、さらに次の続いて現われるピッチ期間の最初の半分
などと再生してオリジナルの音素と同じに了解され、オ
リジナルの波形の2倍のピッチ周波数を有している音声
を作ることができる。
第3図は、本発明による時間領域音声シンセサイザ21
を示している。シンセサイザ21は、メモリ装置18、
中間制御装#20、ディジタル−アナログ変換器22、
スピーカ24を有している。
制御回路26は、単語選択及び開始命令に応じてメモリ
装M18及び中間制御装w20の動作を管理する。音声
シンセサイザ21の構造の詳細は、ここでは関係ないの
で省略する。メモリ装置18は、圧縮された時間領域波
形を記憶する。中間制御装[20は、制御回路26の動
作のもとで、メモリ装置18に記憶された圧縮時間領域
波形全ディジタル波列に拡張する。中間制御装置20か
らのディジタル波列は、ディジタル−アナログ変換器2
2によりアナログ信号に変換され、可聴波形としてスピ
ーカ24により再生される。
本発明の一実施例において、制御回路26により中間プ
ロセッサは、データの現在のピッチ期間の発生を停止し
、かつ現在のピッチ期間の公称終了前にランダムまたは
擬似ランダム時間で次に続くピッチ期間の発生を開始す
る。各ピッチ期間の発生開始時間は、ピッチ期間からピ
ッチ期間まで滑らかに変化し、公称ピッチ周波数より高
い周波数を再生音声として発生する。各ピッチ期間を再
生するのに使用される情報は基本的には変化しガいので
、メツセージにおける単語は、単にイントネーションが
増加したぐらいにしか認識されない。
寸だ、制御回路26により、中間プロセッサは各ピッチ
期間の終端に一定振幅の時間セグメントを付加するので
、出力波形は、公称波形よりもピッチ及びイントネーシ
ョンとも低くなる1)それでも、了解度は変化しない6
.これら2つの技術′ft組み合わせて使用することに
より、メツセージの連続的反復間に、同じ公称ピッチで
、イントネーションが変化した句を発生する。制御回路
26は、擬似乱数発生器を内蔵し、制御信号を発生して
イントネーションを変化する。このような装置によれば
、どのような種類のメモリも、更に必要とすることなく
イントネーションを変化することができる。
しかし、句の連続反復における被制御ピッチ周波数の変
化は、メモリ装置18において、時間の関数としてピッ
チ周波数の表を記憶することにより行なうことができる
。各反復において、制御回路26は異なる表を呼び出し
、これに応じて制御回路26は中間制御装置20に対し
て、イントネーションに所定の変化がある同じ句を反復
するよう指示する。ピッチ周波数変化をプログラムする
表を使用する場合、音声データの記憶に必要なメモリ箭
の他、少量のメモリヲ必要とする。
第4図は、本発明による周波数領域シンセサイザ31を
示している。通常、周波数領域シンセサイザは、中間制
御装置38の制御下にある有声励起源28と、無声励起
源30と、入力として、有声励起源28または無声励起
源30の出力を有しかつスイッチ33に接続した制御ラ
イン44を介して中間制御装置38の制御下にるるディ
ジタルフィルタ32とを有している3、ディジタルフィ
ルタ32は、中間制御装置38から制御ライン42によ
りプログラム可能でろる。メモリ装置40は中間制御装
置3Bに接続している。ディジタルフィルタ32は、デ
ィジタル−アナログコンバータ34に接続し、さらにス
ピーカ36に接続している。
ディジタル周波数領域音声シンセサイザ31において、
有声励起源28は、中間制御装置38からの信号ライン
46により制御されるピッチ周波数で周期的パルスを発
生する。中間制御装置38は、メモリ装置40かものデ
ータを使用することにより、ピッチ周波数を決定する。
有声または無声のいずれかの適当な励起源は、制御ライ
ン420制御下にわるディジタルフィルタ32に接続し
制御ライン42からの化量によジデイジタルフィルタ3
2のフィルタパラメータを決定する。中間制御装W38
は、メモリ装置40からの記憶データに従って、時間の
関数として、ディジタルフィルタ32のフィルタパラメ
ータを指定する。ディジタルフィルタ32の出力は、デ
ィジタル−アナログコンバータ34に送られ、この出力
はスピーカ36によp1可聴信号に変換される。
メモリ装置40の一セグメントには、合成されるべき句
の7オルマント周波数の情報が記憶されている。ピッチ
周波数は、同じメモリ装置40の他のセグメントにおけ
る完全に無関係なデータにより決定される。ピッチ周波
数とイントネーションは、任意に変(ヒされるか、また
は中間制御装置38を介してメモリ40のデータにより
指定される。中間制御装置38は、ピッチ期間からピッ
チ期間まで有声励起源28のパルス速度を変化する。
この変化は、目標反復度でデータ全記憶している表に従
ってろらかしめプログラムされているか、オたは擬似ラ
ンダムである。
本発明について特定の実施例に基づいて説明してきたが
、他の実施例も可能であり、本発明は、これら記載に限
定されない。
【図面の簡単な説明】
第1図(a)は80Hzのピッチ周波数における男声1
7−″の振幅対時間をプロットしたグラフ、第1図(b
)は120Hzのピッチ周波数における男性珍アー″の
振幅対時間をプロットしたグラフ、第2A図は音声の単
一ピッチ期間の振幅対時間をプロットしたグラフ、第2
B図Fi第2A図の時間領域波形の種々のセグメントの
パワスペクトルをコンピュータがプロットしたグラフ、
第3図は本発明による時間領域音声シンセサイザのブロ
ック図、第4図は本発明による周波数領域音声シンセサ
イザのブロック図である。 18.40−−−−メモリ装置、2G、3B−・・・中
間制御装置、22.34・・・・ディジタル−アナログ
コンバータ、24.36−・・争スピーカ、28・・・
・有声励起源、3o・・・無声励起源、32・・・・デ
ィジタルフィルタ。 特許出願人 フオレスト・シュラゴーモザ代理人山川政
樹(ほか1名) FIG、   7 FIG、   J FIG、  2A      4】旬cmsec)FI
G、  2B        IU5支1校(+4z)
手続補正書(方却 1.事件の表示 昭和58年 特 許 願第125637号2°発明)名
称  音声セグメントのイントネーションを変化する方
法及び装置 3、補正をする者 事件との関係    特   許 出願人名称(氏名)
   フオレスト・シュラボ・モザ5、垢シ轟ぶ−の[
1イ・]  昭和58 年10月25 日補−正にオ→
−増加す÷発男σ重−−−−・−一−6・ 補正の対象 図   面

Claims (1)

  1. 【特許請求の範囲】 (1)音声シンセサイザにおいて、記憶装置に記憶され
    た連続的なピッチ期間から成る音声セグメントのイント
    ネーションを変化する方法であって、音声セグメントが
    再生される複数の公称ピッチ期間を表わす信号を発生す
    る過程と、合成音声を発生するよう、上記公称ピッチ期
    間の継続期間に関係なく制御される期間でそれぞれ関係
    した公称ピッチ期間を可聴再生する過程とから成ること
    を特徴とする音声セグメントのイントネーションを変化
    する方法。 (2、特許請求の範囲第1項記載の方法において、各公
    称ピッチ期間は、擬似乱数方法で変化する反復度で再生
    され、ピッチ周波数に変化を生ずることを特徴とする、
    音声セグメントのイントネーションを変化する方法。 (3)特許請求の範囲第1項記載の方法において、各公
    称ピッチ期間は、あらかじめプログラムさ扛た方法で滑
    らかに変化する反復度で再生され、ピッチ周波数に所定
    の変化を生ずることを特徴とする、音声セグメントのイ
    ントネーションを変化する方法。 (4)公称ピッチ期間を記憶する装置を有する時間領域
    音声シンセサイザにおいて、上記ピッチ期間とは無関係
    にピッチ期間の反復度における変化に関係した情報を確
    立する装置と、上記情報確立装置に接続しかつこれに応
    答して、上記ピッチ期間の反復度情報に従って各連続ピ
    ッチ期間の反復度を変化する装置とから成ることを特徴
    とする、音声セグメントのイントネーションを変化する
    装置。 (5)特許請求の範囲第4項記載の装置において、情報
    確立装置は擬似乱数発生器であることを特徴とする、音
    声セグメントのイントネーションを変化する装置。 (6)特許請求の範囲第4項記載の装置において、情報
    確立装置は、連続ピッチ周波数の表を記憶する装置であ
    ること’(z%徴とする。音声セグメントのイントネー
    ションを変化する装置。 (7)周波数領域シンセサイザにおいて、合成音声のピ
    ッチ期間のフォルマント周波数に関係なく合成音声のピ
    ッチ周波数を確立する装置と、上記ピッチ周波数に従っ
    である速度で上記フォルマン1周波数を再生する装置と
    から成ることを特徴とする、音声セグメントのイントネ
    ーションを変化する装置。 (8)特許請求の範囲第7項記載の装置において、情報
    確立装置は、擬似乱数発生器であることを特徴とする、
    音声セグメントのイントネーションを変化する装置。 (9)特許請求の範囲第7項記載の装置において、情報
    確立装置は、選択された7オルマント周波数のピッチ期
    間の連続的ピッチ周波数を指定する表を記憶する装置で
    ろることを特徴とする、音声セグメントのイントネーシ
    ョンを変化する装置。
JP58125637A 1982-07-12 1983-07-12 音声セグメントのイントネ−シヨンを変化する方法及び装置 Pending JPS5977496A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US39737782A 1982-07-12 1982-07-12
US397377 1982-07-12

Publications (1)

Publication Number Publication Date
JPS5977496A true JPS5977496A (ja) 1984-05-02

Family

ID=23570940

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58125637A Pending JPS5977496A (ja) 1982-07-12 1983-07-12 音声セグメントのイントネ−シヨンを変化する方法及び装置

Country Status (4)

Country Link
JP (1) JPS5977496A (ja)
CA (1) CA1181859A (ja)
DE (1) DE3314674A1 (ja)
GB (1) GB2124455A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2595235B2 (ja) * 1987-03-18 1997-04-02 富士通株式会社 音声合成装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4076958A (en) * 1976-09-13 1978-02-28 E-Systems, Inc. Signal synthesizer spectrum contour scaler
JPS57125999A (en) * 1981-01-29 1982-08-05 Seiko Instr & Electronics Voice synthesizer
US4658424A (en) * 1981-03-05 1987-04-14 Texas Instruments Incorporated Speech synthesis integrated circuit device having variable frame rate capability

Also Published As

Publication number Publication date
GB2124455A (en) 1984-02-15
DE3314674A1 (de) 1984-01-12
CA1181859A (en) 1985-01-29
GB8313384D0 (en) 1983-06-22

Similar Documents

Publication Publication Date Title
US4624012A (en) Method and apparatus for converting voice characteristics of synthesized speech
US8326613B2 (en) Method of synthesizing of an unvoiced speech signal
Macon et al. A singing voice synthesis system based on sinusoidal modeling
JPH06110498A (ja) 音声合成システムの音声断片コーディングおよびそのピッチ調節方法とその有声音合成装置
US8103505B1 (en) Method and apparatus for speech synthesis using paralinguistic variation
US4384170A (en) Method and apparatus for speech synthesizing
JPH02201500A (ja) 音声合成装置
Dutilleux et al. Time‐segment Processing
EP1543497B1 (en) Method of synthesis for a steady sound signal
JPS5977496A (ja) 音声セグメントのイントネ−シヨンを変化する方法及び装置
JP3233036B2 (ja) 歌唱音合成装置
JP3394281B2 (ja) 音声合成方式および規則合成装置
JP2004061753A (ja) 歌唱音声を合成する方法および装置
JPS58168097A (ja) 音声合成装置
JP3081300B2 (ja) 残差駆動型音声合成装置
JP3130305B2 (ja) 音声合成装置
JPS587197A (ja) 歌声発生装置
JPS5914752B2 (ja) 音声合成方式
Lawlor A novel efficient algorithm for voice gender conversion
JPH02153397A (ja) 音声収録装置
JPS58129500A (ja) 歌声合成装置
JP3284634B2 (ja) 規則音声合成装置
JPS63199400A (ja) 音声合成装置
Siivola A survey of methods for the synthesis of the singing voice
JP2989615B2 (ja) 音声合成歌唱器