JPS58117599A - 時間領域情報信号の圧縮方法及び装置 - Google Patents
時間領域情報信号の圧縮方法及び装置Info
- Publication number
- JPS58117599A JPS58117599A JP57234869A JP23486982A JPS58117599A JP S58117599 A JPS58117599 A JP S58117599A JP 57234869 A JP57234869 A JP 57234869A JP 23486982 A JP23486982 A JP 23486982A JP S58117599 A JPS58117599 A JP S58117599A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- amplitude
- time
- information
- power spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 38
- 238000001228 spectrum Methods 0.000 claims description 31
- 230000006835 compression Effects 0.000 claims description 21
- 238000007906 compression Methods 0.000 claims description 21
- 230000015572 biosynthetic process Effects 0.000 claims description 16
- 238000003786 synthesis reaction Methods 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 claims 6
- 230000001105 regulatory effect Effects 0.000 claims 1
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 7
- 230000000737 periodic effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000000638 stimulation Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔発明の分野〕
本発明は、可聴音に適用できる情報圧縮技術、特に音声
圧縮、記憶、伝送及び合成技術に関し、更に詳細には、
時間領域音声圧縮・合成方法及びその装置に関する。な
お、本発明は、情報内容が信号の位相成分ではなくパワ
ースペクトルに存在する分野において使用し得る。
圧縮、記憶、伝送及び合成技術に関し、更に詳細には、
時間領域音声圧縮・合成方法及びその装置に関する。な
お、本発明は、情報内容が信号の位相成分ではなくパワ
ースペクトルに存在する分野において使用し得る。
通常の音声及び同様の可聴音は1秒当り約100.0ω
ピントの情報を含んでいる。このような多量の情報を記
憶及び伝送することは、コスト、帯域幅及び記憶容量の
関係上不可能である。従って、音声及び同1の可聴信号
における冗長なまたは不要な情報の記憶及び伝送をなく
す必要がある。音声圧縮及び合成技術は、情報の記憶及
び伝送におけるこの問題点を解決するため開発されてき
た。
ピントの情報を含んでいる。このような多量の情報を記
憶及び伝送することは、コスト、帯域幅及び記憶容量の
関係上不可能である。従って、音声及び同1の可聴信号
における冗長なまたは不要な情報の記憶及び伝送をなく
す必要がある。音声圧縮及び合成技術は、情報の記憶及
び伝送におけるこの問題点を解決するため開発されてき
た。
音声及び同様の可聴音は、冗長な情報を最小にしても基
本的な音質特性を保持して所定の性質を示し得ることが
わかっている。たとえば、エネルギ源は有声音刺激また
は無声音刺激のいずれかである。音声においては、ピン
チ周期と呼ばれる最小期間にピンチ周波数と呼ばれる周
波数で声帯を周期的に振動することにより有声音刺激を
行う。
本的な音質特性を保持して所定の性質を示し得ることが
わかっている。たとえば、エネルギ源は有声音刺激また
は無声音刺激のいずれかである。音声においては、ピン
チ周期と呼ばれる最小期間にピンチ周波数と呼ばれる周
波数で声帯を周期的に振動することにより有声音刺激を
行う。
母音は、通常このような有声音刺激により生じる。
無声音刺激は、声帯を振動させることなく声帯を空気が
通過することにより行なわれる。無声音刺激には、たと
えば、(“pow”における) lpl 、(“tal
l”における) ltl、(“ark”における) l
klのような破裂音や、(“5even”における月s
1、(“fourにおける) lfl、(“three
”における)Ithl。
通過することにより行なわれる。無声音刺激には、たと
えば、(“pow”における) lpl 、(“tal
l”における) ltl、(“ark”における) l
klのような破裂音や、(“5even”における月s
1、(“fourにおける) lfl、(“three
”における)Ithl。
(“bight”における)Ihl、(“ahsll”
における)18h1、(独語の“acht”における)
1.hlのような摩擦音や、ささやき音声樽がある。
における)18h1、(独語の“acht”における)
1.hlのような摩擦音や、ささやき音声樽がある。
有声音は、時間に関する概周期的振幅変化がある。しか
し、破裂音や摩擦音や、移動空気音、ドアの閉じる音、
衝突音、シェド機の音等他の可聴信号のような無声音は
、上記のような概周期的振幅構造を有して音素や無声音
の了解度は、時間領域信号の位相角ではなく、パワース
ペクトルにより決定されることは周知である。パワース
ペクトルは、10ミリ秒のオーダの時間にわたる信号平
均値に基づいて人間の脳によって解析される。
し、破裂音や摩擦音や、移動空気音、ドアの閉じる音、
衝突音、シェド機の音等他の可聴信号のような無声音は
、上記のような概周期的振幅構造を有して音素や無声音
の了解度は、時間領域信号の位相角ではなく、パワース
ペクトルにより決定されることは周知である。パワース
ペクトルは、10ミリ秒のオーダの時間にわたる信号平
均値に基づいて人間の脳によって解析される。
時間領域振幅情報の記憶に関する問題点は、比較的高い
分解能の振幅記憶能力を必要とすることである。たとえ
ば、1シーケンスにおける各サンプルの振幅を正確に類
別するには8〜12ビツトの振幅精度を必要とする。各
振幅レベルは、符号によって決まる2つの可能なディジ
タル化数を表わしている。振幅レベルの数が減少すると
信号の分解能が減少し、したがって了解度は低下する。
分解能の振幅記憶能力を必要とすることである。たとえ
ば、1シーケンスにおける各サンプルの振幅を正確に類
別するには8〜12ビツトの振幅精度を必要とする。各
振幅レベルは、符号によって決まる2つの可能なディジ
タル化数を表わしている。振幅レベルの数が減少すると
信号の分解能が減少し、したがって了解度は低下する。
それ故、この場合、可聴信号の了解度を減少することな
く、波形の分解能を減少する技術を必要とする。
く、波形の分解能を減少する技術を必要とする。
音声信号及び同様の信号の圧縮及び合成については、何
十年にもわたって研究されている。(たとえば、197
2年にSpringnr−V@r1mg発刊のFlan
agan著の[5peech Analysis、5y
nthesis andPerceptionJ)
これは、大規模集積技術により、複雑な電子回路を単一
の集積回路に形成するためのものである。
十年にもわたって研究されている。(たとえば、197
2年にSpringnr−V@r1mg発刊のFlan
agan著の[5peech Analysis、5y
nthesis andPerceptionJ)
これは、大規模集積技術により、複雑な電子回路を単一
の集積回路に形成するためのものである。
圧縮及び合成技術は、周波゛数領域技術と時間領域技術
の2つの種類に通常分けられている。これら技術は、記
憶されかつ利用されるデータの種類によって分類されて
いる。周波数領域の合成は、各音声セグメン)−またけ
ピッチ周期における重要な周波数の情報を記憶すること
により圧縮を行なう。
の2つの種類に通常分けられている。これら技術は、記
憶されかつ利用されるデータの種類によって分類されて
いる。周波数領域の合成は、各音声セグメン)−またけ
ピッチ周期における重要な周波数の情報を記憶すること
により圧縮を行なう。
周波数領域合成装置の例には、米国特許第3.575,
555号及び第3,588,353号がある。
555号及び第3,588,353号がある。
これとは逆に、時間領域合成装置は、時間の関数として
、信号波形の振幅値を記憶する。
、信号波形の振幅値を記憶する。
周知のディジタル時間領域圧縮技術には、発明者51a
vinによる米国特許第3,641,496号、発明者
Ichikawaによる米国特許第3,892,919
号及び発明者Mozer他による米国特許第4,214
..125号がある。
vinによる米国特許第3,641,496号、発明者
Ichikawaによる米国特許第3,892,919
号及び発明者Mozer他による米国特許第4,214
..125号がある。
1975年には、米国特許第4,214,125号に記
載されている圧縮技術を用いて、最初のLSI時間領域
音声合成装置が製造された。時間領域音声合成装置の導
入以来、種々の形式のLSI音声合成装置が用途、特に
消費者市場の変化に対応して設計及び市販されている。
載されている圧縮技術を用いて、最初のLSI時間領域
音声合成装置が製造された。時間領域音声合成装置の導
入以来、種々の形式のLSI音声合成装置が用途、特に
消費者市場の変化に対応して設計及び市販されている。
容易に識別し得る周期性という特徴を有する音楽波形を
記憶及び読出す方法は、発明者Deutsch他による
米国特許第3,763,364号に示されている。
記憶及び読出す方法は、発明者Deutsch他による
米国特許第3,763,364号に示されている。
この特許と米国特許第4,214,125号には、時間
対称性という特徴を有する等側波形を得る位相調整技術
が示されている。しかし、これら特許のいずれにも、無
声音の固有周期性を除去する技術や、または振幅分解能
を最適化するような位相調整を行なう技術は示されてい
ない。
対称性という特徴を有する等側波形を得る位相調整技術
が示されている。しかし、これら特許のいずれにも、無
声音の固有周期性を除去する技術や、または振幅分解能
を最適化するような位相調整を行なう技術は示されてい
ない。
十分にセグメント化した音声の情報が位相にではなくパ
ワースペクトルに主に存在するような時間領域信号の情
報は、位相が異なるが同じパワースペクトルの等価離散
振幅レベル信号を誘導することによシ、分解能の低下を
最小限におさえてデイジタル的に振幅圧縮することがで
きる。
ワースペクトルに主に存在するような時間領域信号の情
報は、位相が異なるが同じパワースペクトルの等価離散
振幅レベル信号を誘導することによシ、分解能の低下を
最小限におさえてデイジタル的に振幅圧縮することがで
きる。
等価信号は、音源信号の調波成分の位相を調整すること
によって誘導され、この結果、予め定めた時間間隔にお
いて選択され制限された離散レベル数に最も良く整合さ
せることが出来る。調波成分の分析は、時間領域原信号
のサンプルしたセグメントのフーリエ変換の分析を行う
ことによって得られる。本発明は、有声(概周期性)音
及び無声(非周期性)音の両者から成る、音声のような
可聴音信号の圧縮及び合成に関する。
によって誘導され、この結果、予め定めた時間間隔にお
いて選択され制限された離散レベル数に最も良く整合さ
せることが出来る。調波成分の分析は、時間領域原信号
のサンプルしたセグメントのフーリエ変換の分析を行う
ことによって得られる。本発明は、有声(概周期性)音
及び無声(非周期性)音の両者から成る、音声のような
可聴音信号の圧縮及び合成に関する。
圧縮技術を単独に使用して、または他の時間領域圧縮及
び合成技術とともに使用することにより、記憶容量及び
帯域幅を最小にするのに必要な出力を得ることが出来る
。
び合成技術とともに使用することにより、記憶容量及び
帯域幅を最小にするのに必要な出力を得ることが出来る
。
本発明の主な目的は、音声合成装置のコスト及び寸法を
減少するため、合成音の音質をほとんど低下することな
く音声信号及び同様の可聴波形の情報内容を圧縮する方
法を提供する仁とでおり、特に、時間領域合成に適用し
得る圧縮方法を提供することである。
減少するため、合成音の音質をほとんど低下することな
く音声信号及び同様の可聴波形の情報内容を圧縮する方
法を提供する仁とでおり、特に、時間領域合成に適用し
得る圧縮方法を提供することである。
イジタル情報の量を減少し、それによってアナログ出力
信号装置に要する帯域幅及びメモリ寸法を減少すること
である。
信号装置に要する帯域幅及びメモリ寸法を減少すること
である。
し発明の概斐〕
種′々の有声音及び無声音の了解度は、位相角ではなく
パワースペクトルに含まれているので、非周期振動(無
声)音及び概周期振動(有声)音の位相特性には、ある
程度の自由度がある。たとえば、音のフーリエ解析の結
果、原信号とは位相だけが異なるが、等しいパワースペ
クトルを有する等価信号が外見上の無限数が存在するこ
とが明らかになっている。たとえば、時間F(t)の関
数としての波形振幅は次のように表わすことができる。
パワースペクトルに含まれているので、非周期振動(無
声)音及び概周期振動(有声)音の位相特性には、ある
程度の自由度がある。たとえば、音のフーリエ解析の結
果、原信号とは位相だけが異なるが、等しいパワースペ
クトルを有する等価信号が外見上の無限数が存在するこ
とが明らかになっている。たとえば、時間F(t)の関
数としての波形振幅は次のように表わすことができる。
2πnt
F(tl=ΣAn cos (□+φn ) t
l)T ここで、Tは波形の持続時間、An、φnは、式1がサ
ンプリング精度内で原波形を正確に再生するように決定
された定数である。
l)T ここで、Tは波形の持続時間、An、φnは、式1がサ
ンプリング精度内で原波形を正確に再生するように決定
された定数である。
たとえば、128個にディジタル化された波形について
考えると、ディジタル化した個々の波形は一つの解とし
ての未知のパラメータをし、このパラメータは上式(1
)で与えられる。したがって波形は128個の上式(1
)を有し、この式(1)は、これら128個の値を与え
る。これら未知のパラメータの半分は、振幅Anで、も
う一方の半分は、位相角φnである。人間の耳は位相関
係にほとんど無感覚であるので、振幅Anだけが、可聴
情報における原波形に等しければよい。
考えると、ディジタル化した個々の波形は一つの解とし
ての未知のパラメータをし、このパラメータは上式(1
)で与えられる。したがって波形は128個の上式(1
)を有し、この式(1)は、これら128個の値を与え
る。これら未知のパラメータの半分は、振幅Anで、も
う一方の半分は、位相角φnである。人間の耳は位相関
係にほとんど無感覚であるので、振幅Anだけが、可聴
情報における原波形に等しければよい。
本発明によれば、有声音及び無声音の情報内容は、等価
信号の振幅が選択された離散的最大数に制限されるよう
に、原信号と等価な信号のパワースペクトルを位相調整
することにより緻適化される。このような方法は第1図
乃至第5図において示されている。
信号の振幅が選択された離散的最大数に制限されるよう
に、原信号と等価な信号のパワースペクトルを位相調整
することにより緻適化される。このような方法は第1図
乃至第5図において示されている。
第1図は、音素1.1の波形10の振幅を表わした図で
ある。第2図は、第1図に示す10ミリ秒間隔の音素を
128個にサンプルしたのち、これを12ピントの精度
でディジタル化した波形10′を示している。従って、
128個の各サンプルは、4 、096の振幅レベルを
とることが可能である。
ある。第2図は、第1図に示す10ミリ秒間隔の音素を
128個にサンプルしたのち、これを12ピントの精度
でディジタル化した波形10′を示している。従って、
128個の各サンプルは、4 、096の振幅レベルを
とることが可能である。
128個のサンプルのセグメントの了解度は、式(11
の64個の振幅値Anと関係しているが、64個の位相
値φnとは関係していない。よって、たとえ位相処理が
時間の関数である振幅値を実質的に変化させたとしても
、波形の了解度を変えることなく、64個の位相値のす
べてまたはいくつかを任意に変化させることができる。
の64個の振幅値Anと関係しているが、64個の位相
値φnとは関係していない。よって、たとえ位相処理が
時間の関数である振幅値を実質的に変化させたとしても
、波形の了解度を変えることなく、64個の位相値のす
べてまたはいくつかを任意に変化させることができる。
第3図は、第2図の波形1σのパワースペクトルと等し
いパワースペクトルを有する多くの波形のうちの一波形
12を示している。波形12は、第2図のサンプルした
波形1σを形成する式+1)のフーリエ成分の位相φn
を選択的に調整することにより得られる。第3図の波形
12は、128個のディジタル化したサンプルが約16
個の振幅レベルに集まるという興味深い特性を有してい
る。この16個の振幅レベルは、4−ビットでそのレベ
ルを表現することができる。従って原信号10の12−
ビット振幅ディジタル化と比較すると、圧縮係数は3と
々る。
いパワースペクトルを有する多くの波形のうちの一波形
12を示している。波形12は、第2図のサンプルした
波形1σを形成する式+1)のフーリエ成分の位相φn
を選択的に調整することにより得られる。第3図の波形
12は、128個のディジタル化したサンプルが約16
個の振幅レベルに集まるという興味深い特性を有してい
る。この16個の振幅レベルは、4−ビットでそのレベ
ルを表現することができる。従って原信号10の12−
ビット振幅ディジタル化と比較すると、圧縮係数は3と
々る。
しかし、時間領域振幅波形のサンプルが、8または少い
場合4つの振幅レベルのあたりに集まるように、位相成
分を調節することによって、信号品質が極端に低下する
ことなくさらに圧縮を行なうことができる。第4図は、
第2図の波形1σと同じフーリエ振幅成分を有する波形
14を時間の関数として示している。波形14は、その
サンプル値が約4つの明確に区別できる振幅値の近辺に
集まる特性を有している。したがって、波形14は、2
ピント情報/サンプルだけで、良好にその振幅近似値を
表現できる。なお原12ピント振幅ディジタル化サンプ
ルと比較すると、波形14の圧縮係数は6となる。
場合4つの振幅レベルのあたりに集まるように、位相成
分を調節することによって、信号品質が極端に低下する
ことなくさらに圧縮を行なうことができる。第4図は、
第2図の波形1σと同じフーリエ振幅成分を有する波形
14を時間の関数として示している。波形14は、その
サンプル値が約4つの明確に区別できる振幅値の近辺に
集まる特性を有している。したがって、波形14は、2
ピント情報/サンプルだけで、良好にその振幅近似値を
表現できる。なお原12ピント振幅ディジタル化サンプ
ルと比較すると、波形14の圧縮係数は6となる。
第5図は第4図の波形を正確に4つのディジタル化レベ
ルに最もよく適合するように再編成したサンプル化波形
16を示している。すなわち、第4図の波形14の各サ
ンプルを解析し、これが最も近い4つのレベルの1つに
対応させて表示している。なお、この再編成時の信号の
主な変化は調可聴目的に適している。
ルに最もよく適合するように再編成したサンプル化波形
16を示している。すなわち、第4図の波形14の各サ
ンプルを解析し、これが最も近い4つのレベルの1つに
対応させて表示している。なお、この再編成時の信号の
主な変化は調可聴目的に適している。
最小振幅レベルのセグメントを得る技術は、次のとおり
である。第6図において、主にコンピュータを使用して
行なわれる第1段階(段階21)は、時間領域波形の調
波成分の振幅と位相を得るためのものである。調波成分
は好ましくは問題にしているタイムセグメントのフーリ
エ解析により得られ、この解析によって一組の振幅係数
と位相係数とが各次数の三角関数として得られる。理論
的には、振幅成分と位相成分とを分離できるならば、調
波成分を再構成するのに如何なる超越関数も使用できる
。次の段階(段階23)では、位相成分のすべてまたは
いくつかを、任意にまたは何らかの一定の方法で変化さ
せ、これによって同じパワースペクトルを有する新しい
時間領域波形を得る。また、上記フーリエ解析によって
得られた6値は先づ逆変換され、変更しない位相を有す
る原振幅から時間領域波形を得る(段階25)。上記の
変更した位相を有する原振幅の時間領域波形を得る(段
階27)。
である。第6図において、主にコンピュータを使用して
行なわれる第1段階(段階21)は、時間領域波形の調
波成分の振幅と位相を得るためのものである。調波成分
は好ましくは問題にしているタイムセグメントのフーリ
エ解析により得られ、この解析によって一組の振幅係数
と位相係数とが各次数の三角関数として得られる。理論
的には、振幅成分と位相成分とを分離できるならば、調
波成分を再構成するのに如何なる超越関数も使用できる
。次の段階(段階23)では、位相成分のすべてまたは
いくつかを、任意にまたは何らかの一定の方法で変化さ
せ、これによって同じパワースペクトルを有する新しい
時間領域波形を得る。また、上記フーリエ解析によって
得られた6値は先づ逆変換され、変更しない位相を有す
る原振幅から時間領域波形を得る(段階25)。上記の
変更した位相を有する原振幅の時間領域波形を得る(段
階27)。
次に、上記のようにして得られた2つの時間領域波形(
段階25.27の出力)を、予め決定した許容される時
間領域振幅値と比較し、どちらの波形が、上記許容振幅
値により良く近似されているかを決定する(段階29)
。段階23において変化された波形がたとえば16レベ
ルに、より良く近似しているとすると、変更された波形
の位相値は調波の周波数領域の各式(1)の変更されて
いない波形の位相値のかわりに記憶される(段階31゜
ルー)Aを介して)。しかし、変更された波形が原波形
よりも上記許容振幅値に対して近似してない場合、それ
に対応する周波数領域の式(1)の位相成分を、もう一
度変化させ(段階23.ルー)Bを介して)、これに対
応した許容時間領域振幅値と比較するため(段階29)
、変更した位相で新しい時間領域波形を再構成する(段
階27)。最終的には、パワースペクトルが許容振幅値
内にお9且つ最初の時間領域波形と等価の希望する時間
領域波形が得られる。
段階25.27の出力)を、予め決定した許容される時
間領域振幅値と比較し、どちらの波形が、上記許容振幅
値により良く近似されているかを決定する(段階29)
。段階23において変化された波形がたとえば16レベ
ルに、より良く近似しているとすると、変更された波形
の位相値は調波の周波数領域の各式(1)の変更されて
いない波形の位相値のかわりに記憶される(段階31゜
ルー)Aを介して)。しかし、変更された波形が原波形
よりも上記許容振幅値に対して近似してない場合、それ
に対応する周波数領域の式(1)の位相成分を、もう一
度変化させ(段階23.ルー)Bを介して)、これに対
応した許容時間領域振幅値と比較するため(段階29)
、変更した位相で新しい時間領域波形を再構成する(段
階27)。最終的には、パワースペクトルが許容振幅値
内にお9且つ最初の時間領域波形と等価の希望する時間
領域波形が得られる。
このような処理のために、ディジタルコンピュータに使
用し得る種々の最適な数学的技術が知られている。たと
えば、比較は、所定の波形の各点と、これに対応する許
容振幅値の各点との間の差の自乗値の合計を計算するこ
とを含んでいる。この技術は、最小自乗差の算出に最適
である。
用し得る種々の最適な数学的技術が知られている。たと
えば、比較は、所定の波形の各点と、これに対応する許
容振幅値の各点との間の差の自乗値の合計を計算するこ
とを含んでいる。この技術は、最小自乗差の算出に最適
である。
前述の例は、−例として無声音を含んでいたが、上記技
術は、情報が信号の位相情報ではなく、パワースペクト
ルに主に存在するような時間領域情報信号であればどれ
にも等しく適用することができる。たとえば、振幅技術
によシー義的にgRされる有声音を含むすべての形態の
音声も本発明に基づいて分析されかつ圧縮することがで
きる。
術は、情報が信号の位相情報ではなく、パワースペクト
ルに主に存在するような時間領域情報信号であればどれ
にも等しく適用することができる。たとえば、振幅技術
によシー義的にgRされる有声音を含むすべての形態の
音声も本発明に基づいて分析されかつ圧縮することがで
きる。
本発明は、時間領域音声合成の原理に基づいてカリフォ
ルニア州、サンタクララ所在のNationalSem
iconductor社により製造された小屋の音声合
成装置において使用することができる。第7図は、本発
明に基づいた装置40の一例を示している。
ルニア州、サンタクララ所在のNationalSem
iconductor社により製造された小屋の音声合
成装置において使用することができる。第7図は、本発
明に基づいた装置40の一例を示している。
メモリ装置42は、処理されかつ圧縮されたデータを記
憶する。このメモリ装置42は、制御回路44によりア
ドレスされ、データを出力し、この出力データは、ディ
ジタル形式の所定の出力信号に再構成する中間プロセッ
サ46に送られる。制御回路44は、中間プロセッサ4
6に指令を送る。
憶する。このメモリ装置42は、制御回路44によりア
ドレスされ、データを出力し、この出力データは、ディ
ジタル形式の所定の出力信号に再構成する中間プロセッ
サ46に送られる。制御回路44は、中間プロセッサ4
6に指令を送る。
中間プロセッサ46のディジタル出力は、ディジタル−
アナログ変換器48に送られる。この変換器は、スピー
カ52を駆動する増幅器50を付勢するのに使用される
。
アナログ変換器48に送られる。この変換器は、スピー
カ52を駆動する増幅器50を付勢するのに使用される
。
以上のように、本発明は、音声分析、圧縮及び合成に使
用する可聴信号の最適化に関する。また、本発明は、情
報内容が信号の位相ではなく、スペクトル特性に制限さ
れる他の情報にも等しく適用できる。
用する可聴信号の最適化に関する。また、本発明は、情
報内容が信号の位相ではなく、スペクトル特性に制限さ
れる他の情報にも等しく適用できる。
第1図は時間の関数として信号の振幅の波形を表わしだ
グラフ、第2図は第1図の信号の128個のサンプルか
ら再構成された、時間の関数として振1嶋の波形を表わ
したグラフ、第3図は第2図の波形と同じパワースペク
トルを有し且つ振幅が約16個の離散的振幅値に集まる
ように調整した時間の関数として振幅波形を表わした一
グラフ、第4図は第2図の波形と同じパワースペクトル
を有し且つ振幅サンプルが約4個の離散的振幅値に集ま
るように調整した時間の関数として振幅の波形を表わし
たグラフ、第5図は信号が正確に4つの振幅値にさせら
れた、時間の関数として振幅の波形を表わしたグラフ、
第6図は片時間領域信号に等しいパワースペクトルを有
する許容振幅の制限された組を用いた時間領域信号を作
る過程を示したブロック図、第7図は本発明に基づいた
時間領域音声合成装置のブロック図である。 42・・・・メモリ装置、44・・・・制御回路、46
・・・・中間プロセッサ、48・・・・ディジタル−ア
ナログ変換器。 特許出願人 フオレスト・ニス・モザ代理人 山川政
樹(tυ・1名)
グラフ、第2図は第1図の信号の128個のサンプルか
ら再構成された、時間の関数として振1嶋の波形を表わ
したグラフ、第3図は第2図の波形と同じパワースペク
トルを有し且つ振幅が約16個の離散的振幅値に集まる
ように調整した時間の関数として振幅波形を表わした一
グラフ、第4図は第2図の波形と同じパワースペクトル
を有し且つ振幅サンプルが約4個の離散的振幅値に集ま
るように調整した時間の関数として振幅の波形を表わし
たグラフ、第5図は信号が正確に4つの振幅値にさせら
れた、時間の関数として振幅の波形を表わしたグラフ、
第6図は片時間領域信号に等しいパワースペクトルを有
する許容振幅の制限された組を用いた時間領域信号を作
る過程を示したブロック図、第7図は本発明に基づいた
時間領域音声合成装置のブロック図である。 42・・・・メモリ装置、44・・・・制御回路、46
・・・・中間プロセッサ、48・・・・ディジタル−ア
ナログ変換器。 特許出願人 フオレスト・ニス・モザ代理人 山川政
樹(tυ・1名)
Claims (1)
- 【特許請求の範囲】 tl)時間領域情報信号を受信する過程と、上記受信1
ご号の調波成分の位相を調整して等画信号を発生する過
程とから成り;上記等価信号は選択されたサンプル時間
においてサンプルした振幅値を有し、上記振幅値は、上
記選択されたサンプル時間において上記情報1ご号を形
成するのに使用する振幅レベルの数より小さい振幅レベ
ルの選択された最大数に制限されており、かつ上記等価
(8号は上記情報信号とほぼ同じパワースペクトルを有
することを特徴とする時間領域情報信号の圧縮方法。 (2、特許請求の範囲第1項記載の方法において、許容
ピーク非−ゼロ振幅値の数は2つの振幅レベルより犬で
ないことを特徴とする時間領域情報信号の圧縮方法。 (3)特許請求の範囲第1項または第2項のいずれかに
記載の方法において、許容ビーク非−ゼロ振幅値は、ゼ
ロ基準レベルに関して対称的であることを特徴とする時
間領域情報信号の圧縮方法。 (4)主としてパワースペクトルに情報内容を有する時
間領域情報信号の圧縮方法であって、上記圧縮方法は、
時間領域情報信号の有限セグメントをディジタル化する
過程と;上記ディジタル化波形を分析して振幅及び位相
パラメータを調波的関係にある超越関数形式で決定する
過程と;上記振幅パラメータを変化することなく上記位
相パラメータの選択されたパラメータの符号と振幅を変
化して等何時間領域信号を得る過程とから成り、上記等
価時間領域信号の時間領域振幅は前記情報信号のディジ
タル化に必要とした振幅値の数より少い有限振幅値の選
択され制限された最大数によって再構成されることを特
徴とする圧縮方法。 (5)特許請求の範囲第4項記載の方法において、上記
位相パラメータを変化する過程は、情報信号の周波数及
び位相成分を決定するよう、時間領域情報信号を周波数
領域にフーリエ変換する過程から成ることを特徴とする
時間領域情報信号の圧縮方法。 i6)主としてパワースペクトルに情報内容を有する原
時間領域1河号とはソ等価の出力信号を、圧縮された情
報から合成する方法であって、圧縮された時間領域信号
のセグメントを上記出力信号に相関させるインストラク
ション信号の表示とともに該セグメントの振幅のディジ
タル値を記憶する過程と;上記インストラクション信号
に応じて上記セグメントから上記出力信号を構成する過
程とから成シ、上記セグメントは選択されたサンプル時
間において有限振幅値の制限された最大数を有すると共
に上記出力信号は原信号にほぼ等しいパワースペクトル
を有するが上記原信号とは異なる位相成分を有すること
を特徴とする圧縮信号から情報を合成する方法。 (7)時間領域情報信号を受信する装置と;上記受信し
た信号の調波成分の位相を調整して上記情報信号と実質
的に同じパワースペクトルを有する等価信号を発生する
装置とから成り;上記調整装置は、選択されたサンプル
時間におけるサンプルされた一連の振幅値として上記等
価1g号を発生する手段を更に有し、上記振幅値は上記
選択されたサンプル時間において上記情報信号を決定す
るのに使用する振幅レベルの数より少い選択した振幅レ
ベルの最大数に制限されていることを特徴とする時間領
域情報信号の圧縮装置。 (8)時間領域情報信号を受信する装置と;上記受信し
た信号の調波成分の位相を調整して上記情報信号と実質
的に同じパワースペクトルを有する等価信号を発生する
装置と;振幅レベル制限装置とから成り;上記調整装置
は、選択されたサンプル時間におけるサンプルされた一
連の振幅値として上記等価信号を発生する手段を更に有
し、上記振幅値は上記選択されたサンプル時間において
上記情報信号を決定するのに使用する振幅レベルの数よ
り少い選択した振幅レベルの最大数に制限されており、
上記振幅レベル制限装置は選択されたサンプル時間にお
ける許容弁−ゼロ振幅値の数を2つの振幅レベルより大
でない範囲に制限することを特徴゛とする時間領域情報
信号の圧縮装置。 (9)時間領域情報イg号を受信する装置と;上記受信
した信号の調波成分の位相を調整して上記情報信号と実
質的に同じパワースペクトルを有する等価16号を発生
する装置と;振幅レベル制限装置とから成り;上記調整
装置は、選択されたサンプル時間におけるサンプルされ
た一連の振幅値として上記等価信号を発生する手段を史
に有し、上記振幅値は上記選択されたサンプル時間にお
いて上記情報信号を決定するのに使用する振幅レベルの
数より少い選択した振幅レベルの最大数に制限されてお
り、上記振幅レベル制限装置は選択されたサンプル時間
における許容弁−ゼロ振幅値を、ゼロ基準レベルに関し
て対称的な値に制限することを特徴とする時間領域情報
信号の圧縮装置。 (10)時間領域情報信号を受信する装置と;上記受信
した16号の調波成分の位相を調整して上記情報信号と
実質的に同じパワースペクトルを有する等価1g号を発
生する装置と;第1の振幅レベル制限装置と;第2の振
幅レベル制限装置から成9;上記調整装置は、選択され
たサンプル時間におけるサンプルされた一連の振幅値と
して上記等価信号を発生する手段を更に有し、上記振幅
値は上記選択されたサンプル時間において上記情@1i
号を決定するのに使用する振幅レベルの数より少い選択
した振幅レベルの最大数に制限されており、上記第1の
振幅レベル制限装置は選択されたサンプル時間における
許容弁−ゼロ振幅値の数を2つの振幅レベルより大でな
い範囲に制限する装置であり、前記第2の振幅レベル制
限装置は選択されたサンプル時間における許容弁−ゼロ
振幅値を、ゼロ基準レベルに関して対称的な値に制限す
る装置であることを特徴とする時間領域情報信号の圧縮
装置。 (11)主としてパワースペクトルに情報内容を有する
原時間領域信7号にほぼ等価の出力信号を、圧縮された
情報から合成する装置であって、該装置は圧縮された時
間領域信号のセグメントの振幅のディジタル値を記憶し
かつ上記セグメントを前記出力4M号に相関させるイン
ストラクションを記憶するメモリ装置と;上記ディジタ
ル値と上記インストラクション信号に応答して上記セグ
メントから前記出力16号を構成する装置とから成り;
上記セグメントは、選択されたサンプル時間において有
限振幅値の制限された最大数を有し、かつ前記出力46
号は原信号にほぼ等しいパワースペクトルを有するが該
原信号とは異なる位相成分を有することを特徴とする合
成装置。 (12)主としてパワースペクトルに情報内容を有する
片時間領域信号にほぼ等価の出力信号を、圧縮された情
報から合成する装置であって、該装置は圧β6された時
間領域信号のセグメントの振幅のディジタル値を記憶し
かつ上記セグメントを前記出カイg号に相関させるイン
ストラクションを記憶するメモリ装置と;上記ディジタ
ル値と上記インストラクション信号に応答して上記セグ
メントからンプル時間において有限振幅値の制限された
最大数を有し、かつ前記出力信号は原信号にほぼ等しい
パワースペクトルを有するが該原信号とは異なる位相成
分を有しており、上記振幅レベル制限装置は選択された
サンプル時間における非−ゼロ振幅値の数を2つの振幅
レベルより多くない範囲に制限する装置であることを特
徴とする情報合成装置。 (13)主としてパワースペクトルに情報内容を有する
片時間領域信号にほぼ等価の出力信号を、圧縮された情
報から合成する装置であって、該装置は圧縮された時間
領域信号のセグメントの振幅のディジタル値を記憶しか
つ上記セグメントを前記出力信号に相関させるインスト
ラクションを記憶するメモリ装置と;上記ディジタル値
と上記インストラクション信号に応答して上記セグメン
トから前記出力信号を構成する装置と;振幅レベル制限
装置とから成り、;上記セグメントは、選択されたサン
プル時間において有限振幅値の制限された最大数を有し
、かつ前記出力信号は、原信号にほぼ等しいパワースペ
クトルを有するが該原信号とは異なる位相成分を有して
おり、前記振幅レベル制限装置はゼロ基準レベルに関し
て対称的な許容弁−ゼロ振幅値を制限する装置をさらに
有することを特徴とする情報合成装置。 (14)主としてパワースペクトルに情報内容を有する
片時間領域信号にほぼ等価の出力信号を、圧縮された情
報から合成する装置であって、該装置は圧縮された時間
領域信号のセグメントの振幅のディジタル値を記憶しか
つ上記セグメントを前記出力信号に相関させるインスト
ラクションを記憶するメモリ装置と;上記ディジタル値
と上記インストラクション信号に応答して上記セグメン
トから前記出力信号を構成する装置と;第1の振幅レベ
ル制御装置と;第2の振幅レベル制御装置とから成り;
上記セグメントは、選択されたサンプル時間において有
限振幅値の制限された最大数を有し、かつ前記出力信号
は、原信号にほぼ等しいパワースペクトルを有するが該
原信号とは異なる位相成分を有しており、前記第1の振
幅レベル制御装置は選択されたサンプル時間における非
−ゼロ振幅値の数を2つの振幅レベルより多くな、い範
囲に制限する装置であり、且つ前記第2の振幅レベル制
限装置はゼロ基準レベルに関して対称的な許容非−ゼロ
振幅値を制限する装置であることを特徴とする情報合成
装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US335312 | 1981-12-28 | ||
US06/335,312 US4433434A (en) | 1981-12-28 | 1981-12-28 | Method and apparatus for time domain compression and synthesis of audible signals |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS58117599A true JPS58117599A (ja) | 1983-07-13 |
Family
ID=23311245
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP57234869A Pending JPS58117599A (ja) | 1981-12-28 | 1982-12-28 | 時間領域情報信号の圧縮方法及び装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US4433434A (ja) |
JP (1) | JPS58117599A (ja) |
DE (1) | DE3228757A1 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6145297A (ja) * | 1984-08-09 | 1986-03-05 | カシオ計算機株式会社 | 電子楽器 |
JP2547549B2 (ja) * | 1986-10-04 | 1996-10-23 | 株式会社河合楽器製作所 | 電子楽器 |
JPH0727397B2 (ja) * | 1988-07-21 | 1995-03-29 | シャープ株式会社 | 音声合成装置 |
AU6877791A (en) * | 1989-10-25 | 1991-05-31 | Motorola, Inc. | Speech waveform compression technique |
US5248845A (en) * | 1992-03-20 | 1993-09-28 | E-Mu Systems, Inc. | Digital sampling instrument |
US5384893A (en) * | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
US5217378A (en) * | 1992-09-30 | 1993-06-08 | Donovan Karen R | Painting kit for the visually impaired |
US5787387A (en) * | 1994-07-11 | 1998-07-28 | Voxware, Inc. | Harmonic adaptive speech coding method and system |
US5692098A (en) * | 1995-03-30 | 1997-11-25 | Harris | Real-time Mozer phase recoding using a neural-network for speech compression |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
US5803748A (en) | 1996-09-30 | 1998-09-08 | Publications International, Ltd. | Apparatus for producing audible sounds in response to visual indicia |
US5899974A (en) * | 1996-12-31 | 1999-05-04 | Intel Corporation | Compressing speech into a digital format |
US6754265B1 (en) * | 1999-02-05 | 2004-06-22 | Honeywell International Inc. | VOCODER capable modulator/demodulator |
GB2398981B (en) * | 2003-02-27 | 2005-09-14 | Motorola Inc | Speech communication unit and method for synthesising speech therein |
JP6345780B2 (ja) * | 2013-11-22 | 2018-06-20 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | ハイバンドコーディングにおける選択的位相補償 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB1463980A (en) * | 1973-10-17 | 1977-02-09 | Gen Electric Co Ltd | Electrical filters |
US4214125A (en) * | 1977-01-21 | 1980-07-22 | Forrest S. Mozer | Method and apparatus for speech synthesizing |
US4194427A (en) * | 1978-03-27 | 1980-03-25 | Kawai Musical Instrument Mfg. Co. Ltd. | Generation of noise-like tones in an electronic musical instrument |
US4327419A (en) * | 1980-02-22 | 1982-04-27 | Kawai Musical Instrument Mfg. Co., Ltd. | Digital noise generator for electronic musical instruments |
US4395703A (en) * | 1981-06-29 | 1983-07-26 | Motorola Inc. | Precision digital random data generator |
-
1981
- 1981-12-28 US US06/335,312 patent/US4433434A/en not_active Expired - Lifetime
-
1982
- 1982-08-02 DE DE19823228757 patent/DE3228757A1/de not_active Withdrawn
- 1982-12-28 JP JP57234869A patent/JPS58117599A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
DE3228757A1 (de) | 1983-07-07 |
US4433434A (en) | 1984-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Klatt | Software for a cascade/parallel formant synthesizer | |
JP3266819B2 (ja) | 周期信号変換方法、音変換方法および信号分析方法 | |
US5485543A (en) | Method and apparatus for speech analysis and synthesis by sampling a power spectrum of input speech | |
Quatieri et al. | Speech transformations based on a sinusoidal representation | |
Holmes | The influence of glottal waveform on the naturalness of speech from a parallel formant synthesizer | |
JPS58117599A (ja) | 時間領域情報信号の圧縮方法及び装置 | |
JP5275612B2 (ja) | 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法 | |
EP1422693B1 (en) | Pitch waveform signal generation apparatus; pitch waveform signal generation method; and program | |
EP0865028A1 (en) | Waveform interpolation speech coding using splines functions | |
WO1993004467A1 (en) | Audio analysis/synthesis system | |
JPH0677200B2 (ja) | デジタル化テキストの音声合成用デジタルプロセッサ | |
Quatieri et al. | Phase coherence in speech reconstruction for enhancement and coding applications | |
EP1454312A1 (en) | Method and system for real time speech synthesis | |
RU2296377C2 (ru) | Способ анализа и синтеза речи | |
WO2010032405A1 (ja) | 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム | |
Allen et al. | A model for the synthesis of natural sounding vowels | |
US5381514A (en) | Speech synthesizer and method for synthesizing speech for superposing and adding a waveform onto a waveform obtained by delaying a previously obtained waveform | |
Serra | Introducing the phase vocoder | |
Manley | Analysis‐Synthesis of Connected Speech in Terms of Orthogonalized Exponentially Damped Sinusoids | |
JPH05307395A (ja) | 音声合成装置 | |
Arakawa et al. | High quality voice manipulation method based on the vocal tract area function obtained from sub-band LSP of STRAIGHT spectrum | |
Greenberg et al. | The analysis and representation of speech | |
Sun | Voice quality conversion in TD-PSOLA speech synthesis | |
JPH07261798A (ja) | 音声分析合成装置 | |
JP3302075B2 (ja) | 合成パラメータ変換方法および装置 |