JP2759646B2 - Sound waveform processing - Google Patents

Sound waveform processing

Info

Publication number
JP2759646B2
JP2759646B2 JP61501779A JP50177986A JP2759646B2 JP 2759646 B2 JP2759646 B2 JP 2759646B2 JP 61501779 A JP61501779 A JP 61501779A JP 50177986 A JP50177986 A JP 50177986A JP 2759646 B2 JP2759646 B2 JP 2759646B2
Authority
JP
Japan
Prior art keywords
frequency
phase
frame
waveform
series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61501779A
Other languages
Japanese (ja)
Other versions
JPS62502572A (en
Inventor
ジエイ マコーリー,ロバート
エフ.,ジユニア クウオテイエリ,トマス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Massachusetts Institute of Technology
Original Assignee
Massachusetts Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Massachusetts Institute of Technology filed Critical Massachusetts Institute of Technology
Publication of JPS62502572A publication Critical patent/JPS62502572A/en
Application granted granted Critical
Publication of JP2759646B2 publication Critical patent/JP2759646B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Description

【発明の詳細な説明】 米国政府は、空軍省(Department of the Air Forc
e)契約第F19−028−80−C−0002に従つて、この発明
での権利を有する。 技術分野 本発明の分野は一般的には音声技術であり、特に、音
声または他の音響波形の分析とデイジタル形符合化と修
正および合成のための方法および装置である。 発明の背景 標準的には、音声信号を表現することの問題は、声門
音の励起波形が時間変化する線形フイルターを通じた結
果として音声が考察され音道の共鳴特性をモデル化する
ところの音声生成モデルを使うことにより着手される。
種々の音声応用において、声門音の励起は、有声または
無声音に対応する2つの可能な状態の一つにあることが
できると仮定することで十分である。有声音状態におい
て、励起は、分析フレームレート(標準的には10〜20m
s)に対して、時間に関してゆつくりと変化することが
許容される周期と共に周期的である。無声音状態につい
て、声門音の励起は、平坦なスペクトルと共にランダム
ノイズとしてモデル化される。両方の場合において、励
起でのパワーレベルもまたゆつくりと時間変化すると考
えられる。 この2進モデルは、狭帯域ボコーダおよび音声合成シ
ステムを設計するのに有効に使用されてきたが、その限
界がよく知られている。例えば、励起は、有声および無
声成分の両方を同時に有して混合されることが多くまた
しばしばスペクトルの一部のみが実際に調波的(ハーモ
ニツク)である。さらに、2進モデルは、データの各フ
レームが有声または無声のいずれかとして分類されるこ
とを必要とするが、その決定は、もし音声にもまた付加
的な音響雑音が課されているならば、行うことが特に困
難である。 従来の伝送線路と両立する(コンパチブル)レート
(すなわち2.4〜9.6キロビツト/秒)での音声コーダは
相当なニーズに出会うであろう。この種のレートでは、
2進モデルは符号化応用に不適当である。さらに、使用
者が、波形を再構成する場合に種々のパラメータを修正
することを許容する音声処理装置および方法が相当に有
用である。たとえば、(ピツチ変更なしの)時間スケー
ル修正が、種々の音声応用(すなわち、翻訳目的のため
に音声を遅くすることまた走査目的のために音声を速く
すること)ならびに音楽的な合成または分析のために非
常に有用な特徴となろう。残念なことに、時間スケール
(および他のパラメータ)修正もまた2進モデルを採用
する装置によつては、高品質をもつて実現されない。 かくして、可聴波形を処理するためのより良好な方法
および装置に対する必要性がある。特に、音声の知覚品
質を維持し同時に調音作用のレートを変えることがで
き、シンセサイザー(音声合成器)と同様に中範囲レー
トでまた雑音環境において動作可能な音声コーダが、長
い間の懸案の必要性を満足しかつ技術分野に相当な寄与
を提供しよう。 発明の要約 音声分析および合成ならびに符号化および時間スケー
ル修正とが、音声状態に無関係である音声波形の時間−
周波数表現を採用することにより、簡単にまた効果的に
実現されることが発見された。明確にいうと、音声波形
のための正弦モデルが新規な分析/合成技術を増進する
のに使用される。 本発明の基本方法は、 (a)サンプルのフレーム(すなわち約20〜40msの窓)
を波形から選択し、 (b)一組の周波数成分を抽出するためにサンプルの各
フレームを分析し、 (c)〜フレームから次のフレームへと成分をトラツキ
ング(追跡)し、 (d)波形のパラメトリツク表現を得るために、一フレ
ームから次のフレームへと成分の値を補間する諸段階を
備える。 次に、合成波形が、パラメトリツク表現に対応する一
連の正弦波を発生することにより構成される。 本発明の一つの簡単な実施例では、波形を表現するの
に、成分正弦波の振幅および周波数だけを使用する装置
が開示される。このいわゆる「マグニチユード(大き
さ)だけ」のシステムにおいて、位相連続性が、位相を
瞬間周波数の積分ないし複合であると定義することによ
り維持される。より応用力のある実施例において、被測
定位相ならびに成分の振幅および周波数が明確に利用さ
れる。 本発明は特に音声符号化および時間スケール修正に有
用でありまたこれらの応用の両方で有効性が立証され
た。付加的な音響雑音の環境において動作するよう、耐
久性のある装置が本発明により製造される。本発明はま
た単一および複数の話者信号または音楽の音響または生
物学的音響でさえも分析するのに使用できる。本発明は
また、たとえば盲人のための読取り機械および放送ジヤ
ーナリズム編集および遠隔の演奏装置などへの伝送での
応用を見出す。 本発明の一例示の実施例において、上に要約される基
本方法は、音声状態と独立に、被測定信号のペリオドグ
ラム(Periodgram)でのもつとも大きなピークに対応す
る振幅と周波数と位相とを選択するよう使用される。一
フレームで評価される複数の正弦波の振幅と周波数と位
相は、音声波形を再構成するために、整合(マツチ)さ
れまた次のフレームで設定される対応するパラメータに
連続的に展開することが許容される。評価される複数の
ピークは一定でなくまたゆつくりと変化しているので、
マツチング処理は簡単ではない。たとえば、無声/有声
変化などの音声の急速に変化する領域が、ピークの位置
および数の両方で大きな変化を結果し得る。スペクトル
エネルギーでのこの種の急速な動きを考慮するために、
正弦的成分の「バース(birth)」および「デス(deat
h)」の概念が、各フレームで評価される周波数に基づ
く最近接隣同士式マツチング方法で使用される。もし、
新しいピークが出現するならば、「バース」が生ずるよ
う宣言されまた新しいトラツクが開始される。もし、古
いピークが整合されないならば、「デス」が生ずるよう
宣言されまた対応するトラツクはゼロへ減退するような
される。連続フレームでのパラメータがいつたん整合さ
れると、各正弦的成分の位相連続性が、位相を展開する
(unwrapping)ことにより保証される。好ましい一実施
例において、位相は、フレーム境界で被測定位相および
周波数制約を満足するよう選択されるパラメータ値をも
つ3次位相補間関数を用いて展開されると同時にフレー
ム期間にわたりできるだけ大きな滑らかさ(スムースネ
ス)を維持する。最後に、対応する正弦的振幅は、各フ
レームを横切つて線形態様で簡単に補間される。 音声符号化応用において、ピツチ評価が、周波数成分
の割り当てられる一組の調波(ハーモニツク)周波数ビ
ンを設定するのに使用される。(ピツチはここでは、話
者の声帯が振動しているところの基本レートを意味する
よう使用されている。)成分の振幅は、周波数を横切つ
て適応性パルス符号変調(ADPCM)を使用して直接的に
符号化されるかまたは線形予測符号化を使用して間接的
に符号化される。各調波周波数ビンでは、もつとも大き
い振幅をもつピークが選択されまたビンの中央で周波数
に割り当てられる。これは、符号化されるピツチ周期に
基づく調和級数を結果する。次に位相は、フレームの終
わりで位相を予測するために周波数を用いて符号化さ
れ、被測定位相をこの予測に関して展開しそして次に4
ビツト/位相ピークを用いて位相残差を符号化する。も
し位相ピークのすべてを符号化できるのに十分なビツト
数がないならば(たとえばローピツチの話者の場合)、
高周波数ピークのための位相トラツクが人工的に発生さ
れる。好ましい一実施例では、これは、ベースバンドピ
ークの周波数トラツクを符号化されない位相ピークの高
周波数に変換することにより行われる。この新規な符号
化計画は、各話者ごとにビツトを適応的に割り当てると
いう重要な特性を有し、それゆえローピツチおよびハイ
ピツチの話者の両方に自己同調である。ピツチは、サイ
ド情報を符号化アルゴリズムに提供するのに使用される
けれども、音声のための標準的なボイス励起モデルは使
用されない。これは、遡求(recourse)が有声/無声決
定について決して行われないことを意味する。結果とし
て、本発明は雑音での耐久性がありまた単にビツト割当
てのための規則を変えることにより種々のデータ伝送レ
ートで応用できる。 本発明はまた時間スケール修正に良好に適合される。
これは、周波数変動が維持されるように、振幅および位
相を時間スケール処理することにより実現される。音声
が再生ないし返送される時間スケールは、整合されるピ
クが補間されるレートを変えることにより簡単に制御さ
れる。これは、時間スケールがいずれかの因子により速
くまたは遅くできることを意味する。このレートは、操
作者に時間スケールを変化させるのに完全な融通性を許
容するパネルノブにより制御される。時間スケール処理
を遂行するのに知覚遅れはない。 本発明は、一定の例示の実施例に関連して以下で開示
される。しかし、本発明の技術思想から逸脱することな
く、種々の変更および修正が、当技術分野に精通した者
によつてなされることは明らかである。たとえば、別の
サンプリング技術が、可変フレーム長およびハミング窓
の使用に置き換えられる。さらに、この種のフレームお
よび窓の長さは、特定の応用に応じて変化できる。同様
に、周波数マツチングが種々の手段により達成できる。
種々の市販装置が、フーリエ分析を遂行するのに利用可
能である。この種の分析もまたカスタムハードウエアま
たは特別に設計されるプログラムにより遂行される。 ピツチ情報を抽出するのに種々の技術が採用される。
たとえば、ピツチ周期はフーリエ変換から導出される。
たとえばゴールド・マーパス(Gold−Malpass)技術も
また使用できる。一般的には、M.L.Malpassによるプロ
シーデイングスオブエアスコン1975(Proc.of EASCON 1
975、9月、1975年)の“The Gold Pitch Detector in
a Real Time Environmet"およびB.Goldによるフオース
インターナシヨナルコングレスオンアコーステイツクス
Fourth International Congress on Acousticks、コ
ペンハーゲン、8月21日〜28日、1962年)の“Descript
ion of a Computer Program for Pitch Detection"およ
びB.Goldによる、ジヤーナル オブ ザ アコーステイ
カル ソサイエテイ オブ アメリカ(J.Acoust.Soc.A
mer.365巻、1659〜1661ページ(1964))の“Note on B
uzz−Hiss Detection"を参照されたい。これらはすべ
て、参考文献としてここに合体されるものである。 種々の符合化技術が、以下に開示せるものと共に交換
して使用することもできる。チヤネル符号化技術が、J.
N.Holmesによるアイイーイー ピーアールオーシー(IE
E PROC、27巻、p.53〜60、1980年)の“The JSRU Chann
el Vocoder"に開示されている。適応性パルス符号変調
が、L.R.RabinerとR.W.Shafer著、「デイジタル プロ
セシング オブ シグナル(Digital Processing of Si
gnal,Prentice Hall,1978年)」に開示される。線形予
測符号化が、J.D.Markel著、「リニア プレデイクシヨ
ン オブ スピーチ(Linear Prediction of Speec
h)、Springer−Verlog、1967年)に開示されている。
これらの技術もまた参考用に合体される。 「補間(interpolation)」という言葉は、本出願で
はフレーム境界で測定されるデータ値間でデータ値を補
充するための種々の技術を含むよう広く使用されてい
る。マグニチユードのみの系では、線形補間が、振幅お
よび周波数の値を補充するために使用される。この簡単
な系では、位相値は、まず一フレームから次のフレーム
へと整合される周波数成分の補間により一連の瞬間周波
数値を画定し次に一連の補間される位相値を得るために
一連の瞬間周波数値を積分ないし複合することにより得
られる。より応用力のある系では、各フレームの位相値
は直接的に導出されまた3次多項式が、フレームからフ
レームへとできるだけ大きく滑らかな位相補間を得るの
に使用される。 同様の目的を実現する別の技術もまた本出願で補間技
術として言及される。たとえば、データ値を補充するい
わゆる「重複および加算」技術(“Overlap and add"me
thod)もまた使用される。この方法では、加重重復関数
が、各フレーム中に発生される正弦波の結果に付加され
次に重復値は、フレーム境界で測定されるそれらの間で
値を補充するために加算される。 図面の簡単な説明 第1図は、成分のマグニチユードおよび周波数だけ
が、サンプルされる波形を再構成するのに使用される本
発明の一実施例の模式ブロツク図である。 第2図は本発明によりサンプルされる波形の抽出され
た振幅および周波数成分の実例である。 第3図は本発明の周波数マツチング方法の一般的例示
である。 第4図は、本発明による周波数マツチング方法の詳細
な模式的例示である。 第5図は、模範的な音声パターンのトラツクされた周
波数成分の例示である。 第6図は、周波数成分の位相およびマグニチユード
が、サンプルされる波形を再構成するために使用される
本発明の別の実施例の模式ブロツク図である。 第7図は、「できるだけ大きく滑らかな」位相関数が
選択される第6図の実施例と関連して有用な位相関数の
平滑化のための3次位相補間関数の組の例示である。 第8図は、時間スケール修正に特に有用な本発明の別
の実施例の模式ブロツク図である。 第9図は、第8図のシステム評価関数の実施例を示す
模式ブロツク図である。 第10図は本発明の一つの実時間実行のブロツク図であ
る。 詳細な説明 本発明において、音声波形は正弦波の和としてモデル
化される。もしs(n)がサンプルされる音声波形を表
わすならば、 s(n)=Σai(n)sin〔φi(n)〕 (1) である。ここで、ai(n)およびφi(n)は、i番目
の音調(tone)の時間変化する振幅および位相である。 簡便な実施例において、位相は瞬間の周波数fi(n)
の積分ないし複合であるよう画成されそれゆえ、漸化式 φi(n)=φi(n−1)+2πfi(n)/fs (2) を満足する。 ここで、fsはサンプリング周波数である。もし、音調
が調波関係にあるならば、 fi(n)=i*f0(n) (3) である。ここでf0(n)は時間nでの基本周波数を表わ
す。上のモデルの一つの特に興味ある特性は、位相の連
続性それゆえ波形の連続性が瞬間周波数の点からの位相
の定義の結果として保証されているという事実である。 これは、高分解能式のスペクトル分析が成分正弦波の
振幅および周波数を明らかにするので、波形の再構成が
マグニチユード(大きさ)だけのスペクトルから可能で
あることを意味する。 本発明による分析/合成システムのブロツク図が第1
図に示されている。窓処理波形の離散形フーリエ変換
(DFT,discrete Fourier transform)の大きさのピーク
は、(下に凹の)傾きの変化の場所を決定することによ
り簡単に見出される。さらにピークの全体数は制限で
き、この制限は予想される話し手の平均ピツチに適合さ
れる。 簡単な実施例において、音声波形は10kHzのサンプリ
ングレートでデイジタル化でき、5kHzで低周波ろ波さ
れ、20msのハミング(Hamming)窓と一緒に20msのフレ
ーム間隔で分析される。本発明による音声表現は、可変
時間の分析窓を採用することによつても得られる。ある
種の応用に関して、分析窓の幅に、たとえば20msの最小
幅と共に平均ピツチ周期の2.5倍で設定されるよう、ピ
ツチ適応性をもたせることが好ましい。 第2図にプロツトされたものは、先の手続きを用いて
評価される振幅および周波数に沿う音声フレームのため
の標準的なペリオドグラム(周期図)である。離散形フ
ーリエ変換DFTは512ポイント式の高速フーリエ変換(FF
T、fast Fourier trans form)を用いて計算された。こ
れらのパラメータの種々の組が各分析フレームごとに得
られる。 第3図は周波数成分マツチングの基本処理を例示す
る。もし仮にピークの数が一定かつフレームからフレー
ムへと緩慢に変化すると仮定するならば、一フレームで
評価されるパラメータを次のフレームでのパラメータと
マツチングすることの問題は、単にピークの周波数順序
割当てを要求することとなろう。しかし、実際には、サ
イドローブ相互作用の影響により変動するスプリアスピ
ークがあり、ピークの場所は、ピツチが変化するにつれ
て変化しまた、たとえば有声/無声転換でのように、音
声の急速な変化領域に対応して、ピークの場所および数
の両方の急速な変化がある。この種のスペクトルピーク
での急激な動きを考慮するために、本発明では、マツチ
ング処理の部分として、正弦的成分の「バース(birt
h)」および「デス(death)」の概念を使用する。 マツチング処理はさらに第4図の考えにより説明され
る。フレームkまでのピークはマツチングされまたフレ
ームk+1のために設定される新しいパラメータが発生
されると仮定する。フレームkおよびk+1で選択され
る周波数を各々▲ω0 k、▼▲ω1 k、▼…▲ωk N-1▼およ
び▲ω0 k+1▼、▲ω1 k+1▼、…▲ωk+1 M-1▼〔ここでN
およびMは各フレームで選択されるピークの全体数を表
わす(一般にN≠Mである)〕で表示する。フレームk
での周波数(▲ωk n▼)をフレームk+1でのある周波
数(▲ωk+1 m▼)にマツチングする一つのプロセスは次
の3つのステツプで与えられる。 ステツプ1 周波数▲ω0 k▼、▲ω1 k▼、…▲ωk n-1▼について一
つの整合(マツチ)が見出されると仮定する。いま、整
合が周波数ωn kについて企図される。第4(a)図は、
フレームk+1でのすべての周波数▲ωk+1 m▼が、▲ω
n k▼の「マツチング間隔」Δの外側にある場合を示す。
すなわちすべてのmについて、 である。この場合、▲ωk n▼に関連される周波数トラツ
クは、フレームk+1に入る際に「デツド(dead)と宣
言され、また▲ωk n▼はフレームk+1でそれ自身にし
かしゼロ振幅と一緒に整合される。その後、周波数▲ω
k n▼はこれ以上考えに入れられることなく、ステツプ1
がリストでの次の周波数▲ωk n+1▼について繰り返され
る。 他方、もしフレームk+1に、マツチング間隔内にて
▲ωn k▼近傍にあり、この種の周波数−すなわち、mに
等しくないすべてのiについて、 に最も近接している周波数▲ωk+1 m▼が存在するなら
ば、▲ωk+1 m▼は▲ωk n▼に候補整合(candidate matc
h)であると宣言される。確定整合(definitive matc
h)がまだ行われていない。なぜなら周波数▲ωk+1 m
に対してフレームkでのより良好な整合、ステツプ2で
考慮される不確定性が存在するかもしれないからであ
る。 ステツプ2 このステツプにおいて、ステツプ1からの候補整合が
確認される。フレームkの周波数▲ωn k▼がフレームk
+1の周波数▲ωk+1 m▼に試験的に整合されたと仮定す
る。もし▲ωm k+1▼がフレームkの残りの不整合周波数
に対してより良好な整合を有さないならば、候補整合は
確定整合であると宣言される。第4(c)図に例示のこ
の条件はによつて与えられる。これが生ずるときに、周波数▲ω
k n▼および▲ωk+1 m▼はそれ以上の考察から外されまた
ステツプ1がリストでの次の周波数▲ωk n+1▼について
繰り返される。 もし条件(6)が満足されないならば、フレームk+
1での周波数▲ωk+1 m▼は、試験周波数▲ωk n▼に対し
てよりも、フレームkの周波数▲ωk n+1▼に対してより
良好に整合される。2つの追加のケースが次に考察され
る。第4(d)図に例示される第1のケースにおいて、
隣りの残りの低い方の周波数▲ωk+1 m+1▼(もし存在す
るならば)は、マツチング間隔よりも下にあるので、何
ら整合は行われない。その結果、▲ωk n▼に関連される
周波数トラツクはフレームk+1に入る際に「デツド」
と宣言されまた▲ωk n▼はゼロ振幅と一緒にそれ自身に
整合される。第4(c)図に例示される第2のケースに
おいて、周波数▲ωk m-1▼は、マツチング間隔内にて▲
ωk n▼近傍にあり、確定整合が行われる。いずれかのケ
ースの後に、ステツプ1がフレームkでの次の周波数ω
n-1を使つて繰り返される。このステツプでは、他の多
くの状況が可能であるが、トラツカの代替物をできるだ
け簡単にしておくために、2つのケースのみ論述してあ
る。 ステツプ3 フレームkのすべての周波数が試験されまた継続する
トラツクまたは死んでいる(dying)トラツクに割り当
てられたとき、フレームk+1には何の整合も行われて
いない周波数が残存し得る。▲ωk+1 m▼がこの種の周波
数であると仮定すると、▲ωk+1 m▼はフレームkで「生
れた(born)」と結論されまたその整合(新しい周波
数)▲ωk+1 m▼がゼロの大きさと一緒にフレームkで発
生される。これは、この種の不整合周波数すべてに関し
て行われる。この最後のステツプは第4(f)図に例示
される。 トラツカを実際の音声のセグメントに応用することに
よる結果が第5図に示され、これはたとえば有声/無声
転換および有声/無声混合領域などの一時的な音声の振
舞いを通じてすばやく適合するトラツカの能力を証明す
る。 簡単なマグニチユード(大きさ)だけのシステムにお
いて、合成が、回りくどくならない方法で実現される。
各一対の整合周波数(およびそれらの対応するマグニチ
ユード)が、連続的なフレーム境界を横切つて線形補間
される。上に述べたように、マグニチユードだけのシス
テムでは位相の連続性が、瞬間の周波数の点からの位相
の定義により保証される。補間値は、次に、第1図に図
示の合成波形を生ずる正弦波発生器をドライブするのに
使用される。パフオーマンスが、高い方の周波数で相関
窓の大きさΔを減ずることにより改善されることに注意
されたい。 第1図に例示される(また以下に詳細に議論される)
さらに別の特徴が、本発明は時間スケール修正に理論上
適合されることである。第3図から、時間スケールを単
に拡張または圧縮することにより、場所およびマグニチ
ユードは保持されたままそれらの時間変化レートを修正
することが理解されよう。変化レートbに影響を与える
ために、音声合成器補間レートR′(第1図を参照され
たい)はR′=bRによつて与えられる。さらに、このシ
ステムと一緒に、時間変化する変化レートを招来するこ
とは簡単である。なぜなら、周波数は、時間で補間レー
トを変化することにより引き伸ばされるかまたは圧縮さ
れようからである。 第6図は、位相が直接的に測定されるより一層包容力
のあるシステムのブロツク図を示す。このシステムで
は、周波数成分およびそれらの振幅は、先に説明されま
た第1図に例示のマグニチユードだけのシステムと同様
の方法で決定される。しかし、位相測定値は、評価され
る周波数ピークで逆正接を計算することにより、離散形
フーリエ変換から直接に導出される。 第6図の包容力のあるシステムにおいて、一組の振幅
および周波数および位相が各フレームごとに評価される
ので、kN<n(k+1)Nについて、式 を使用して合成音声を発生することにより、k番目のフ
レームでの元の音声波形を評価することは合理的であろ
うと思われる。しかし、パラメータの時間変化性によ
り、この回りくどい方法は、合成音声の質をひどく損う
フレーム境界での非連続性へと導く。それゆえ、一つフ
レームから測定されるパラメータを、次に得られるパラ
メータに滑らかに補間するための方法が見出されねばな
らない。 先の段落で説明された周波数マツチングアルゴリズム
の結果として、任意のフレームkについて測定されるす
べてのパラメータは、フレームk+1に関するパラメー
タの対応組に関連される。〔▲Ak l▼、▲ωk l▼、▲θk
l▼〕および〔▲Ak+1 l▼、▲ωk+1 l▼、▲θk+1 l▼〕
が、l番目の周波数トラツクについてのパラメータの連
続組を示すことにすると、振幅補間問題に対する解法
は、 (ここで、n=1、2、…、Nはk番目のフレームでの
時間サンプルである)を行うことである。(トラツクの
下付き記号「l」は便宜のために省略された)。 残念なことにこの種の簡単な方法は、測定される位相
θkは2πを法として(modulo 2π)得られるので、周
波数および位相を補間するのに使用できない。それゆ
え、位相のunwrapping(展開)が、周波数トラツクがフ
レーム境界を横切つて「できるだけ最大に滑らか」であ
ることを保証するために遂行されねばならない。この問
題を解決する第1のステツプは、3次の多孔式すなわち θ(t)=ξ+γt+αt2+βt3 (9) である位相補間関数を仮定することである。位相補間関
数があたかも連続時間変数tの関数のごとく、フレーム
kに対応してt=0およびフレームk+1に対応してt
=Tと一緒に、位相関係を取り扱うことが便利である。
多孔式のパラメータは、フレーム境界で得られる周波数
および位相測定値を満足するように選択されねばならな
い。瞬間の周波数は位相の導関数であるので、 (t)=γ+2αt+3βt2 (10) でありまた始点t=0で、 θ(0)=ξ=θk (0)=γ=ωk (11) となり、また終点t=Tで θ(T)=θk+ωkT+αT2+βT3=θk+1+2πM (T)=θk+2αT+3βT2+ωk+1 (12) となる。ここで再び、トラツクの下付き記号「l」は便
宜のため省略されている。 終点の位相θk+1は2πを法として測定されるので、
結果として得られる周波数関数を「できるだけ最大に滑
らかに」するために、項2πM(Mは整数)だけそれを
増加することが必要である。この時点で、Mは未知であ
るが、各Mの値ごとに、それがどんな値であろうと、式
(12)はα(M)およびβ(M)について解くことがで
きる(Mへの依存性はここに明瞭に示された)。解は、
マトリクス式 を満足するように容易に示される。 Mおよび位相展開(unwrapping)問題に対する解を究
極的に決定するために、「できるだけ大きく滑らかな」
標準(criterion)を定量化する追加の制約が課される
ことを必要とする。第7図は、複数のMの値ごとの3次
の位相補間関数の標準的な組を例示する。直観的基礎に
基づいて、選ぶのに最もよい位相関数は、できるだけ少
ない変動をもつものである。これは、できるだけ大きく
滑らかな周波数トラツクにより意味されることである。
実際、もしかりに周波数が一定でありまた声道(vocal
tract)が不動である仮定するならば、真実の位相は線
形(linear)となろう。それゆえ、「滑らかさ」のため
の合理的な標準が (ここでθ(t;M)は時間変数tに関するθ(t;M)の2
階導関数を示す)が最小となるようMを選択することで
ある。 Mは整数と評価されるけれども、f(M)はMにおい
て2次であるので、問題は、連続変数xに関してf
(x)を最小とすることによりまた次にxにもつとも近
い整数となるようMを選択することによりもつとも容易
に解かれる。回りくどくないが退屈な代数の数、xの最
小値は、 であることが示され、これからM*が決定されまた式(1
3)で使用して、α(M*)およびβ(M*)を計算し次に
展開された(unwrapped)位相補間関数は θ(t)=θk+ωk t+α(M*)t2+β(M*)t3 (16) となる。この位相関数は、測定される位相および周波数
の終点制約のすべてを満足するだけでなく、θ(t)が
できるだけ最大に滑らかであるような仕方で位相を展開
する。 上の分析は、フレームkの始点での周波数ωkに対応
する初期展開位相θkの仮定と共に始まつたので、フレ
ーム補間手続きの初期化を明記することが必要である。
これは、任意の時点で考察下のトラツクが生じた(bor
n)ことを注意することにより行われる。この事象が起
きた時に、振幅と周波数と位相とがフレームk+1で測
定され、これらの測定値が対応するフレームkでのパラ
メータは振幅をゼロに設定(すなわちAk=0)し同時に
同様の周波数を維持する(すなわちωk=ωk+1)ことに
より画定される。位相補間制約が初期的に満足されるこ
とを保証するために、展開位相は測定される位相θk+1
となるよう画定されまた開始位相は、 θk=θk+1−ωk+1N (17) (ここでNは、フレームk+1からフレームkへと戻る
場合に横断されるサンプルの数である)となるよう画定
される。 上に述べた位相展開手続の結果として、各周波数トラ
ツクは、各正弦成分の周波数による急速な位相変化と声
門音のパルスおよびvocal trackの伝達関数による緩慢
に変化する位相変化との両方を考慮に入れる瞬間の展開
位相をそれに関連してもつこととなる。θl(t)がl
番目のトラツクに関する展開位相関数を示すとすると、
最終的な合成波形は (ここで、kN<n(k+1)N、Al(n)は(8)に
より与えられ、θl(n)は式(16)のサンプルデータ
変形であり、L(k)はk番目のフレームについて評価され
る正弦波の数である。 第6図に結合して説明される本発明は、8キロビツト
/秒での動作のために、音声符合化(コーデイング)シ
ステムを発展させるのに使用された。このレートでは、
高品質の音声は、位相測定に大いに依存するので、位相
符合化は高い優先順位である。正弦的表示はまた振幅お
よび周波数の特定を要求するので、利用可能な複数ビツ
トのすべてが使用されるよりも前に、相当に少ないピー
クが符号化されることは明らかである。それゆえ、第1
のステツプは、符合付されねばならない複数のパラメー
タを大幅に減ずるべきである。これを行うための一つの
方法は、すべての周波数を調波せしめることである。 有声音の間、すべてのピークが調波的に関係されるこ
とを期待しようそれゆえ基本を符号化することにより、
すべての周波数の位置はレシーバで利用可能である。無
声音声の間、ピークの周波数位置はこの場合に調波でな
い。しかし、ランダムプロセス理論から、ノイズ様の波
形は、隣接の調波間の間隔が、パワースペクトルのエン
ロープにごくわずかの変化がある(すなわち約100Hz以
下の間隔)よう十分小さいならば、正弦波の調波拡張の
点から(全体的平均2乗誤差の意味において)表現でき
る。この表現は、振幅および位相がフレームからフレー
ムへとランダムに変化しているならば、入力の音声の統
計学的特性を保持する。振幅および位相は符合化される
べきであるので、測定変数に固有のこのランダムな変化
は合成波形で保持される。 実際上、各フレームでの周波数の組を特性付ける基本
周波数を評価することが好ましく、これは次にピツチ抽
出に関係する。たとえば、ピツチ抽出は、知覚の標準に
応じて入力音声への最も良好な適合を発生するために、
一組の調波正弦波の基本周波数を選択することにより実
現される。他のピツチ抽出技術もまた採用できる。 調波周波数モデルを使用することの即座の結果とし
て、符号化されるべき正弦波成分の数は基本により除算
される符号化音声の帯域幅となる。測定されるピークの
数はこの調波数に等しいとする保証はなにもないので、
符合化されるべきピークの数を調節するために、対策が
なされるべきである。基本に基づいて、一組の調波周波
数のビン(bin)が設定されまた各ビンにあるピークの
数は検査される。もし1以上のピークが見出されるなら
ば、最も大きなピークに対応する振幅および位相だけが
符号化のために保持される。もし、所与のビンにピーク
がないならば、ビンの中央に対応する周波数で短時間の
フーリエ変換をサンプルすることにより得られる振幅お
よび位相をもつ仮想のピークが生成される。 振幅は次に、チヤネルボコーダーで使用されると同様
の技術を応用することにより符号化される。すなわち、
たとえば、第1のピーク(すなわち300Hz以上の第1の
ピーク)の振幅を符合化するのに2デシベル/レベルと
共に5ビツトを用いることにより、ゲインレベルが設定
される。次のピークは、周波数を横切つてデルタ変調技
術を使用することにより、対数的に符号化される。一シ
ミユレーシヨンにおいて、3.6kbpsが、50Hzのフレーム
レートで振幅を符号化するのに割り当てられた。追加の
ビツト割当て規則が、ピークに複数ビツトを割当てるの
に使用できる。たとえば、もしピツチが高いならば、符
号化するのに相当に少ないピークがありまたピークあた
りよく多くのビツトがある。反対に、ピツチが低いと
き、ピークあたり相当に少ないビツトがあり、しかし、
ピークは共に接近するので、それらの値はより相関さ
れ、それゆえADPCMコーダはそれらを良好にトラツクで
きるようにされるべきである。 位相を符号化するために、ピークあたり固定数のビツ
ト(標準的には4または5)が使用される。位相を符号
化するための一つの方法は、測定される位相を、一πか
らπの範囲の2″(秒)等間隔の一つに割り当てること
であり、ここでn=4または5である。別の方法は、現
在のフレームの端部で位相を予想し、値を展開し、次に
位相ピークあたり4または5ビツトと一緒にADPCM技術
を使用して位相の残りを符号化するために、(符号化さ
れる)位相に対応する周波数トラツクを使用する。位相
および基本(7ビツトが使用される)を符号化するのに
4.4kbpsだけが残つているので、50Hzのフレームレート
で、せいぜい16ピークが符合化できることとなる。4kHz
の音声帯域幅および1位相あたり4ビツトで、ピツチが
250Hzよりも大きい場合に、すべての位相が符合化され
る。もしピツチが250Hz以下ならば、符合化されない高
周波数ピークのために、位相トラツクを再発生するため
に対策がなされねばならない。これは、瞬間の3次位相
の導関数とこのトラツクのための終点の周波数の線形補
間との間の差である差分周波数を計算することにより行
われる。差分周波数は、それを符合化されない位相のト
ラツクに対応する終点周波数の線形補間に付加すること
により、高周波数領域に変換される。得られる瞬間周波
数関数は次に、正弦波発生器に付加される瞬間位相関数
を与えるために積分ないし複合される。このようにし
て、有声音に内在の位相コヒーレンスおよび無声音の位
相の非コヒーレンス特性は非符号化周波数領域に効果的
に変換される。 第8図には、特に時間スケール修正に適合するような
された本発明の他の実施例が例示される。この例示にお
いて、表示の正弦波はシステム貢献度(すなわち声道か
らの)と励起貢献度(すなわち声帯からの)とを備える
ようさらに画定される。励起位相貢献度は3次補間のた
めに選定される。手続は、他の実施例に関係して先に述
べられたものにほぼ従うが、さらに別のステツプにおい
て、測定される振幅▲Ak l▼および位相▲θk l▼は声道
成分および励起成分に分解される。方法は第1に、各分
析フレームで周波数の関数として(すなわちM(ω、k
R)およびφ(ω、kR))の声道振幅および位相の評価
を形成することである。選択される周波数▲ωk l▼での
システム振幅および位相評価は次に、 および によつて与えられる。 最後に、各分析フレーム境界での励起パラメータ評価
は、 および として得られる。 分解の問題はそれからM(ω、kR)およびφ(ω、k
R)を高分解能スペクトルX(ω、kR)から周波数の関
数として評価することの問題となる。(もちろん実際上
は、均等に離間される周波数サンプルはDFTから利用可
能である。)たとえば全極形モデル化および準同形デコ
ンボルーシヨンなどの高分解能スペクトルからシステム
マグニチユードを識別するための複数の確立された方法
がある。もし声道伝達関数が最小位相であると仮定され
るならば、システム位相およびシステムマグニチユード
の対数はヒルベルト(Hilbert)変換対を形成する。こ
の条件のもとで、位相評価φ(ω、kR)はヒルベルト変
換を通じて、システム関数の大きさ評価M(ω、kR)の
対数から導出される。さらに、得られる位相評価は周波
数の関数として滑らかでありまた展開される。 システムマグニチユードの評価の一方法およびヒルベ
ルト変換の使用を通じるシステム位相の対応する評価は
第9図に例示されまた準同形変換に基づく。この技術で
は、高分解能スペクトルからのシステム振幅の識別およ
びこの振幅評価のヒルベルト変換の計算は実際上同時に
遂行される。高分解能マグニチユードの対数のフーリエ
変換は、「ケプストラム(cepstrum)」を得るために第
1に計算される。右側窓が、平均ビツチ期間に比例する
時間と一緒に、次に付加される。得られる逆フーリエ変
換の虚数成分は所望の位相であり、実数部分は滑らかな
対数マグニチユードである。実際には、フーリエ変換の
均等に離間されるサンプルがFFTと一緒に計算される。F
FTの長さは、ケプストラムでのaliasingを避けるのに十
分大きかつた512で選択された。かくして、正弦波周波
数を評価するのに使用される高分解能スペクトルは、声
道システム関数を評価するのにも使用される。 第8図の時間スケール修正システムでの残余の分析ス
テツプは、他の実施例に関連して先に開示されるステツ
プに類似である。マツチングアルゴリズムの結果とし
て、任意のフレームkについて測定される励起成分およ
びシステム成分の振幅および位相のすべてはフレームk
+1についての対応する組のパラメータに関連される。
合成での次のステツプは、フレーム境界を横切つて整合
される励起パラメータおよびシステムパラメータを補間
することである。補間手続きは、励起関数およびシステ
ム関数はフレーム境界を横切つて緩慢に変化していると
いう仮定に基づく。これは、モデルパラメータが声道イ
ンパルス応答の時間に比して緩慢に変化しているという
仮定と首尾一貫している。この緩慢変化の制約は緩慢変
化の励振およびシステム振幅に写像(map)するので、
それは、これらの関数を線形に補間することを満足す
る。 声道システムは、連続的なフレームにわたり、緩慢に
変化していると仮定されるので、その位相も緩慢に変化
していると仮定することは合理的であり、かくして、位
相サンプルの線形補間もまた満足する。しかし、「緩慢
な変化」の特性は、システムマグニチユードについてよ
りもシステム位相について実現するのにより困難であ
る。これは、追加の制約が測定される位相に賦課されね
ばならない−すなわち、位相は各フレーム境界で周波数
の関数として滑らかかつ展開される−という理由によ
る。ここに、もしシステム位相が2πを法として得られ
るならば、線形補間が、フレーム境界間に、(不当に)
急速に変化するシステム位相を結果することができるこ
とが示される。第9図の準同形分析器(アナライザー)
の使用の重要性がここに明らかである。準同形分析から
導出されるシステム位相評価は周波数で展開されまたか
くしてシステム振幅(これからそれが導出された)が緩
慢に変化している時に緩慢に変化している。この関数の
サンプルの線形補間は次に、基礎となる声道運動を映す
位相軌跡を結果する。この位相関数は、φl(0)が式
(22)の▲φk l▼に対応するところのφl(t)として
言及される。最後に、前のように、3次多項式が励起位
相および周波数を補間するのに使用される。これは、Ω
l(0)が式(22)の▲Ωk l▼に対応するところのΩ
l(t)に帰せられる。 時間スケール修正の目的は、調音の見掛け速度(レー
ト)を変化すると同時に、もとの音声の知覚品質を維持
することである。これは、励起の周波数軌跡(したがつ
てピツチイントネーシヨン曲線(contour))は時間で
伸長または圧縮されまた声道は、ゆつくりとまたは速い
レートで変化することを意味する。先の合成方法は、明
確な関数表現がそのために導出されたところの声帯励起
および声道システム貢献度から構成される正弦波の和を
それは含むので、この変換に申し分なく適合する。 新しい時間スケールにより時間t0で起こる音声事象
は、もとの時間スケールでのρ-1t0で起こる。上の正弦
波モデルを時間スケール修正に適用するために、時間ス
ケール化した「事象」は、各周波数トラツクに沿うシス
テム振幅および位相ならびに励起振幅および位相であ
る。非修正合成のパラメータ評価は時間の連続関数とし
て利用でき、それで理論において、いずれのレート変化
も可能である。式(19)〜式(22)と共に、時間スケー
ル化される合成波形は (ここで、L(n)は時間nで評価される正弦波の数で
ある)のように表現できる。式(23)で要求される値
は、時間ρ-1nでAl(t)とΩl(t)とφl(t)をス
ケールし(scaling)また得られる励起位相をρ-1によ
りシールする(sealing)だけで得られる。 提案される時間修正システムと一緒に、時間変化する
レート変動を付加することも簡単である。ここに、時間
歪曲変換は、 (ここで、ρ(T)は所望の時間変化レート変動であ
る)により与えられる。この一般化では、各時間微分dT
は、異なる因子ρ(T)によりスケールされる。新しい
時間スケール時間t0で起こる音声事象は、もとの時間ス
ケールで時間t0=W-1(t0)で起こる。もし、t0がt0
へ戻り写像するならば、一つの近似が、 t1′t0′+ρ-1(t0′) (25) により与えられる。 正弦成分のパラメータは時間の連続関数として利用で
きるので、それらはつねに、要求されるt1′で見出され
る。 tnが時間tn=nの反転を示すとすると、合成波形は により与えられる。ここで、 Ωl′(n)=Ωl′(n−1)+ωl(tn′) (27) および tn′=tn-1′+ρ-1(tn-1′) (28) であり、ωl(t)は3次の位相関数Ωl(t)の1次導
関数により与えられる2次関数でありまた t0=0 (29) である。 特定のトラツクが生ずる(born)時間に、3次の位相
関数Ωl′(n)はρ(tn′)Ωl(tn′)値により初期
化される。ここでΩl(tn′)は式(17)を使用して得
られる初期励起位相である。 本発明は、周波数およびピツチスケーリングを遂行す
るのに使用できることも評価されるべきである。合成波
形の短時間スペクトル包絡(エンベロープ)は各周波数
成分をスケールすることにより変化されまた合成波形の
ピツチは励起貢献される周波数成分をスケールすること
により変えられる。 第10図では、実時間で動作および実行された本発明の
最終の実施例が例示される。例示の実施例は、4つのリ
ンカーンデイジタルシグナルプロセツサ(LDSP)を使用
して、16ビツト固定小数点演算で実行される。フオアグ
ラウンドプログラムは、100入力音声サンプルを10msバ
ツフアに集めて、入力A/Dサンプルごとに動作する。同
様の時間に、合成される音声の10msバツフアはD/Aコン
バータを通じて出力される。各フレームの終りに、最近
の音声のほとんどは600msバツフアにプツシユダウン
(後入れ先出し)される。ピツチ適応性ハミング(Hamm
ing)窓のためのデータが引き出されまた512ポイント高
速クーリエ変換(FFT)が適用されるのはこのバツフア
からである。次に、一組の振幅および位相が、FFTのマ
グニチユードのピークを捜し出すことにより得られる。
データは、ピツチ適応窓を制御するピツチ評価値が発生
されるピツチ抽出モジユールに供給される。このパラメ
ータはまた、データ圧縮応用で符合化モジユールに供給
される。いつたんピツチが評価されると、別のピツチ適
応性ハミング窓が、並列計算のために、バツフアに入れ
られまた別のLDSPに転送される。符号化および音声修正
方法が適用される別の512ポイントFFTが振幅と、周波数
と位相を評価する目的のために用いられる。いつたんこ
れらのピークが決定されると、周波数トラツキングおよ
び位相補間方法が実行される。応用に応じて、これらの
パラメータは音声変換を実効ならしめるよう、符合化ま
たは修正されまた正弦波の加算が実行される別の一対の
LDSPに転送されよう。得られる合成波形は次に、それが
D/A出力のためにフオアグラウンドプログラムによりア
クセスされるべき適当なバツフアに入力されるところの
マスターLDSPへ戻り転送される。
DETAILED DESCRIPTION OF THE INVENTION   The U.S. Government has established the Department of the Air Forc
e) In accordance with Contract F19-028-80-C-0002, this invention
You have rights in. Technical field   The field of the invention is generally speech technology, and in particular
Analysis of voice or other acoustic waveforms and digital coding and repair
Methods and apparatus for positive and synthetic. Background of the Invention   Typically, the problem of representing audio signals is the glottis
The sound excitation waveform is filtered through a time-varying linear filter.
The sound is considered as a result and the resonance characteristics of the sound path are modeled.
It is started by using the speech generation model.
In various speech applications, glottal excitation can be voiced or
Being in one of two possible states corresponding to unvoiced sounds
It is sufficient to assume that you can. Smells voiced
Excitation is performed at the analysis frame rate (typically 10-20 m
For s), it can change slowly with respect to time.
Periodic with the allowed period. About unvoiced sound
Glottal excitation is random with a flat spectrum
Modeled as noise. In both cases,
The power level in Ki is also considered to change slowly and over time.
available.   This binary model uses a narrowband vocoder and speech synthesis system.
It has been used effectively to design stems,
The world is well known. For example, excitation can be voiced and
Often mixed with both voice components simultaneously
Often only a portion of the spectrum is actually harmonic (harmonic
Nick). In addition, the binary model has
If the frame is classified as either voiced or unvoiced
But the decision is also made if
Is particularly difficult to perform if typical acoustic noise is imposed.
It is difficult.   Rate compatible with conventional transmission lines
(Ie 2.4 to 9.6 kbit / s)
Will meet considerable needs. At this rate,
Binary models are unsuitable for coding applications. In addition, use
Modify various parameters when reconstructing waveform
Audio processing devices and methods that allow
It is for. For example, time scale (without pitch change)
File modification can be used for various audio applications (ie for translation purposes)
To slow down the audio and also to speed up the audio for scanning purposes
For music synthesis or analysis)
It will always be a useful feature. Unfortunately, the time scale
Modifications (and other parameters) also use the binary model
Some devices do not provide high quality.   Thus, a better way to process audible waveforms
And the need for equipment. In particular, speech perception products
To maintain quality and at the same time change the rate of articulation.
, Like a synthesizer (speech synthesizer)
Voice coder that can operate
Satisfies the need for immediate concerns and makes a significant contribution to the technical field
Let's offer. Summary of the Invention   Speech analysis and synthesis and coding and time scale
Is the time of the audio waveform that is independent of the audio state-
Easy and effective by using frequency expression
It was found to be realized. To be clear, the audio waveform
Sine model for advancing new analysis / synthesis techniques
Used for   The basic method of the present invention is: (A) Sample frame (ie, about 20-40 ms window)
From the waveform, (B) each of the samples to extract a set of frequency components
Analyze the frame, (C)-Track components from one frame to the next
(Tracking) (D) To obtain a parametric representation of the waveform,
Steps to interpolate component values from one frame to the next
Prepare.   Next, the synthesized waveform corresponds to the parametric representation.
It is configured by generating a series of sine waves.   In one simple embodiment of the present invention,
Using only the amplitude and frequency of the component sine wave
Is disclosed. This so-called “magnitude”
Phase), the phase continuity is the phase
By defining it as an integral or complex of the instantaneous frequency
Is maintained. In a more applicable embodiment, the
Clear use of constant phase and component amplitude and frequency
It is.   The invention is particularly useful for speech coding and time scale correction.
And has been validated in both of these applications.
Was. To operate in environments with additional acoustic noise,
A permanent device is manufactured according to the invention. The present invention
Single or multiple speaker signals or music sound or live
Even physical sound can be used to analyze. The present invention
Also, for example, reading machines and broadcast jars for the blind
For editing and transmission to remote performance devices
Find applications.   In one exemplary embodiment of the present invention, the groups summarized above
The method uses a periodogram of the signal under test independent of the audio state.
Corresponds to the largest peak in the gram (Periodgram)
Used to select the amplitude, frequency, and phase. one
The amplitude, frequency and position of the multiple sine waves evaluated in the frame
The phases are matched to reconstruct the speech waveform.
To the corresponding parameters set in the next frame
Continuous deployment is allowed. Multiple rated
Since the peaks are not constant and change slowly,
The matching process is not easy. For example, unvoiced / voiced
The rapidly changing area of the sound, such as changes, is the peak position
And numbers can result in large changes. Spectrum
To account for this kind of rapid movement in energy,
The sinusoidal components "birth" and "death"
h) is based on the frequency evaluated in each frame.
Used in the closest neighbor matching method. if,
If a new peak appears, a "berth" will occur
A new track is started. If old
If the peaks are not matched, a "death"
Declared and corresponding tracks are likely to decline to zero
Is done. Parameters consistently in successive frames
The phase continuity of each sinusoidal component evolves the phase
(Unwrapping). One preferred implementation
In the example, the phase is the measured phase and the
Parameter values selected to satisfy frequency constraints
While using the third-order phase interpolation function
As smooth as possible over a period of time
Su). Finally, the corresponding sinusoidal amplitude is
It is simply interpolated in a linear manner across the frames.   In speech coding applications, the pitch evaluation is
A set of harmonic (harmonic) frequency
Used to set the option. (Pitch is here to talk
Means the base rate where the vocal cords of the person are vibrating
Is used as ) Component amplitude crosses frequency
Directly using adaptive pulse code modulation (ADPCM)
Coded or indirect using linear predictive coding
Is encoded. At each harmonic frequency bin,
Peak with the highest amplitude is selected and the frequency in the center of the bin
Assigned to. This corresponds to the pitch period to be encoded.
Results in a harmonic series based on Then the phase is the end of the frame.
Instead, it is encoded using frequency to predict the phase.
And expand the measured phase with respect to this prediction and then
Encode the phase residual using the bit / phase peak. Also
Enough bits to encode all of the phase peaks
If there are no numbers (for example, a low pitch speaker)
Phase tracks for high frequency peaks are artificially generated.
It is. In a preferred embodiment, this is the baseband
The peak frequency of the uncoded phase peak
This is done by converting to frequency. This new code
The optimization plan is to assign bits to each speaker adaptively.
Important properties, hence low pitch and high
It is self-tuning to both pitchers. Pitch is a rhino
Used to provide code information to the encoding algorithm
However, standard voice excitation models for speech are not used.
Not used. This means that recourse is voiced / unvoiced
Means never to be done. As a result
Thus, the present invention is robust in noise and simply bit allocation.
Different data transmission levels by changing the rules for
It can be applied at the site.   The invention is also well adapted for time scale correction.
This is done so that the amplitude variation and
This is achieved by time-scaling the phases. voice
The time scale at which music is played or returned is
Is easily controlled by changing the rate at which the
It is. This is due to the fact that the time scale is
Means you can do it later or later. This rate is
Allows the author full flexibility to change the time scale
Is controlled by a panel knob. Time scale processing
There is no perceptual delay in performing.   The present invention is disclosed below in connection with certain exemplary embodiments.
Is done. However, do not depart from the technical idea of the present invention.
Various changes and modifications may occur to those skilled in the art.
It is clear that this is done by For example, another
Sampling technology uses variable frame length and hamming window
Replaced by the use of Furthermore, this kind of frame
And the length of the window can vary depending on the particular application. As well
In addition, frequency matching can be achieved by various means.
A variety of commercially available instruments are available to perform Fourier analysis
Noh. This type of analysis is also custom hardware or
Or by a specially designed program.   Various techniques are employed to extract pitch information.
For example, the pitch period is derived from a Fourier transform.
For example, Gold-Malpass technology
Also available. Generally, professionals by M.L.Malpass
Seedings of Airscon 1975 (Proc.of EASCON 1
975, September, 1975) “The Gold Pitch Detector in
a Real Time Environmet "and B. Gold
International Congress on Acoustic Tex
(Fourth International Congress on Acousticks,
Penhagen, August 21-28, 1962)
ion of a Computer Program for Pitch Detection "and
And B.Gold, Journal of the Acoustic
Cal Society of America (J.Acoust.Soc.A
mer.365, 1659-1661 (1964))
uzz-Hiss Detection ".
And is hereby incorporated by reference.   Various coding techniques interchanged with those disclosed below
It can also be used. Channel encoding technology
I.E.R.P.R.O.C. by N.HolmesIE
E PROC, Vol. 27, pp. 53-60, 1980).
el Vocoder ". Adaptive pulse code modulation.
By L.R.Rabiner and R.W.Shafer, "Digital Pro
Processing of Signal (Digital Processing of Si)
gnal, Prentice Hall, 1978). Linear
Measurement coding is described by J.D.Markel, "Linear Prediction
Linear Prediction of Speec
h), Springer-Verlog, 1967).
These techniques are also incorporated for reference.   The term "interpolation" is used in this application.
Complements data values between data values measured at frame boundaries.
Widely used to include various techniques for charging
You. In a magnitude-only system, linear interpolation is
And used to supplement frequency values. This easy
In such a system, the phase value is calculated from one frame to the next frame.
Series of instantaneous frequencies by interpolation of frequency components matched to
To define a number and then obtain a series of interpolated phase values
Obtained by integrating or combining a series of instantaneous frequency values.
Can be For more advanced systems, the phase value of each frame
Is directly derived and a third-order polynomial is
To get as large and smooth phase interpolation as possible into the frame
Used for   Other techniques to accomplish the same purpose are also described in this application as interpolation techniques.
Referred to as art. For example, if you want to replenish data values
"Overlap and add" me
thod) is also used. In this method, the weighted decimation function
Is added to the result of the sine wave generated during each frame.
Then the repetition values are between those measured at frame boundaries
Added to supplement the value. BRIEF DESCRIPTION OF THE FIGURES   Fig. 1 shows only the magnitude and frequency of the components
Is the book used to reconstruct the sampled waveform
FIG. 1 is a schematic block diagram of one embodiment of the present invention.   FIG. 2 shows the extracted waveforms sampled according to the present invention.
5 is an example of amplitude and frequency components.   FIG. 3 shows a general example of the frequency matching method of the present invention.
It is.   FIG. 4 shows details of the frequency matching method according to the present invention.
It is a typical example.   FIG. 5 shows a tracked track of an exemplary voice pattern.
It is an illustration of a wave number component.   Figure 6 shows the phase and magnitude of the frequency component.
Is used to reconstruct the sampled waveform
FIG. 4 is a schematic block diagram of another embodiment of the present invention.   FIG. 7 shows that the phase function “as large and smooth as possible”
A useful phase function in connection with the embodiment of FIG.
5 is an example of a set of third-order phase interpolation functions for smoothing.   FIG. 8 illustrates another embodiment of the invention particularly useful for time scale correction.
FIG. 6 is a schematic block diagram of the embodiment of FIG.   FIG. 9 shows an embodiment of the system evaluation function of FIG.
It is a schematic block diagram.   FIG. 10 is a block diagram of one real-time execution of the present invention.
You. Detailed description   In the present invention, the speech waveform is modeled as a sum of sine waves.
Be transformed into If s (n) represents the sampled speech waveform
If I do, s (n) = Σai(N) sin [φi(N)] (1) It is. Where ai(N) and φi(N) is the i-th
Is the time-varying amplitude and phase of the tone.   In a simple embodiment, the phase is the instantaneous frequency fi(N)
Is defined to be the integral or compound of φi(N) = φi(N-1) + 2πfi(N) / fs  (2) To be satisfied.   Where fsIs the sampling frequency. If the tone
Are harmonically related, fi(N) = i*f0(N) (3) It is. Where f0(N) represents the fundamental frequency at time n
You. One particularly interesting property of the above model is the phase sequence.
Continuity and therefore continuity of the waveform is the phase from the instantaneous frequency point
Is the fact that it is guaranteed as a result of the definition.   This is because high-resolution spectral analysis is
The amplitude and frequency are revealed so that the waveform reconstruction
It is possible from only the magnitude (magnitude) spectrum.
It means there is.   The block diagram of the analysis / synthesis system according to the present invention is first.
It is shown in the figure. Discrete Fourier transform of windowed waveform
(DFT, discrete Fourier transform) size peak
By determining the location of the change in slope (concave down)
It is easily found. Furthermore, the total number of peaks is limited
This limit is consistent with the average pitch of the expected speaker.
It is.   In a simple embodiment, the audio waveform is a 10 kHz sampler.
Digitalization at low rate and low frequency filtering at 5kHz
20ms frame with 20ms Hamming window
Analyzed at the same time interval. The speech expression according to the invention is variable
It can also be obtained by employing a time analysis window. is there
For certain applications, the width of the analysis window may be
The pitch is set to 2.5 times the average pitch period along with the width.
It is preferable to have tsuchi adaptability.   The one plotted in Fig. 2 uses the previous procedure
For voice frames along the rated amplitude and frequency
Is a standard periodogram (periodic diagram). Discrete form
The Fourier transform DFT is a 512-point fast Fourier transform (FF
T, fast Fourier transform). This
Different sets of these parameters are obtained for each analysis frame.
Can be   FIG. 3 shows an example of basic processing of frequency component matching.
You. If the number of peaks is constant and the frame
Assuming a slow change to
The parameters to be evaluated are
The problem of matching is simply the frequency order of the peaks
Would require an assignment. However, in practice,
Spurious spin that fluctuates due to the influence of idrobe interaction
And the location of the peaks will change as the pitch changes.
And change the sound, such as in a voiced / unvoiced transition.
The location and number of peaks, corresponding to areas of rapid voice change
There are both rapid changes. This kind of spectral peak
In order to take into account the sudden movement in
As part of the binning process, the sine component "birt (birt
h) ”and“ death ”concepts.   The matching process is further explained by the idea of FIG.
You. The peak up to frame k is matched and
New parameter set for arm k + 1 occurs
Assume that Selected at frames k and k + 1
▲ ω0 k, ▼ ▲ ω1 k, ▼… ▲ ωk N-1▼ and
And ▲ ω0 k + 1▼, ▲ ω1 k + 1▼,… ▲ ωk + 1 M-1▼ [N here
And M represent the total number of peaks selected in each frame.
(In general, N ≠ M)]. Frame k
Frequency (▲ ωk n▼) is a certain frequency at frame k + 1
Number (▲ ωk + 1 mOne process to match on ▼) is as follows
Is given in three steps. Step 1   Frequency ▲ ω0 k▼, ▲ ω1 k▼,… ▲ ωk n-1About ▼
Suppose two matches are found. Right now
If the frequency ωn kIs contemplated. FIG. 4 (a)
All frequencies ▲ ω at frame k + 1k + 1 m▼, ▲ ω
n kThe case where the position is outside the “matching interval” Δ of ▼ is shown.
That is, for all m It is. In this case, ▲ ωk n▼ frequency frequency related to
When entering frame k + 1, the "dead is declared.
Said ▲ ωk n▼ makes itself at frame k + 1
But matched with zero amplitude. Then, the frequency ▲ ω
k n▼ Step 1 without any further consideration
Is the next frequency in the list ▲ ωk n + 1Repeated for ▼
You.   On the other hand, if at frame k + 1, within the matching interval
▲ ωn k▼ nearby, this kind of frequency-i.e.
For all unequal i, Frequency ω closest tok + 1 mIf ▼ exists
If ▲ ωk + 1 m▼ is ▲ ωk nCandidate matc
h) is declared. Definitive matching (definitive matc
h) has not been done yet. Because frequency ▲ ωk + 1 m
Better match at frame k, in step 2
Because there may be uncertainties considered.
You. Step 2   In this step, the candidate match from step 1 is
It is confirmed. Frequency of frame k ▲ ωn k▼ is frame k
+1 frequency ▲ ωk + 1 mAssume experimentally matched to ▼
You. If ▲ ωm k + 1▼ is the remaining mismatch frequency of frame k
If we do not have a better match for
Declared to be deterministic. This is illustrated in FIG. 4 (c).
The condition isGiven by When this occurs, the frequency ▲ ω
k n▼ and ▲ ωk + 1 m▼ has been removed from further consideration
Step 1 is the next frequency in the list ▲ ωk n + 1About ▼
Repeated.   If the condition (6) is not satisfied, the frame k +
Frequency at 1 ▲ ωk + 1 m▼ is the test frequency ▲ ωk nFor ▼
Than the frequency of frame k ▲ ωk n + 1▼ against
Good alignment. Two additional cases are considered next
You. In the first case illustrated in FIG. 4 (d),
Neighboring remaining lower frequency ▲ ωk + 1 m + 1▼ (if it exists
) Is below the matching interval, so what
No matching is performed. As a result, ▲ ωk nRelated to ▼
The frequency track is "dead" when entering frame k + 1.
It is declared ▲ ωk n▼ on itself with zero amplitude
Be aligned. In the second case illustrated in FIG. 4 (c)
And the frequency ▲ ωk m-1▼ within the matching interval ▲
ωk n▼ It is near, and definite matching is performed. One of
After that, step 1 is the next frequency ω in frame k.
n-1Is repeated using. In this step, many other
Many situations are possible, but there are alternatives to Tratka
For simplicity, only two cases are discussed.
You. Step 3   All frequencies in frame k are tested and continue
Assigned to trucks or dying tracks
No match is made to frame k + 1
Frequency may remain. ▲ ωk + 1 m▼ is this kind of frequency
Assuming it is a number, ▲ ωk + 1 m▼ is frame k
(Born) "
Number) ▲ ωk + 1 m▼ starts at frame k with zero size
Be born. This is true for all such mismatch frequencies.
Done. This last step is illustrated in FIG. 4 (f).
Is done.   To apply Trakka to actual speech segments
The result is shown in FIG. 5, which is for example voiced / unvoiced
Temporary audio shaking such as transitions and mixed voiced / unvoiced areas
Demonstrate Tratka's ability to quickly adapt through dance
You.   For simple magnitude-only systems
And the composition is realized in a non-destructive way.
Each pair of matched frequencies (and their corresponding magnitudes
Ude) but linear interpolation across successive frame boundaries
Is done. As mentioned above, the magnitude-only system
In systems, the continuity of the phase is the phase from the instantaneous frequency point.
Is guaranteed by the definition of The interpolated values are then shown in FIG.
To drive a sine wave generator that produces the composite waveform shown
used. Performance is correlated at higher frequencies
Note that it can be improved by reducing the window size Δ
I want to be.   Illustrated in FIG. 1 (and discussed in detail below)
Yet another feature is that the present invention provides
To be adapted. From Fig. 3, the time scale is simply
Location and magnificence by expanding or compressing to
Fixed their time change rates while retaining their Eud
It will be understood that. Affects change rate b
For this purpose, the speech synthesizer interpolation rate R '(see FIG. 1)
) Is given by R '= bR. In addition,
Together with the stem, can introduce a time-varying rate of change.
Is easy. Because the frequency is interpolated
Stretched or compressed by changing the
Because it is.   FIG. 6 shows that the phase capacity is directly measured
FIG. 2 shows a block diagram of a system with the above. With this system
The frequency components and their amplitudes are described earlier
Same as the magnitude-only system shown in FIG.
Is determined in the following manner. However, the phase measurements are evaluated
By calculating the arc tangent at the frequency peak
Derived directly from the Fourier transform.   In the tolerable system of FIG. 6, a set of amplitudes
And frequency and phase are evaluated for each frame
Therefore, for kN <n (k + 1) N, the expression To generate the synthesized speech using
It may be reasonable to evaluate the original speech waveform at the frame
I think. However, the time variation of the parameters
This roundabout method severely degrades the quality of synthesized speech
Leads to discontinuities at frame boundaries. Therefore, one
Parameters measured from the frame
Meters need to find a way to interpolate smoothly
No.   Frequency matching algorithm described in the previous paragraph
As a result of
All parameters are the parameters for frame k + 1.
Associated with the corresponding set of data. [▲ Ak l▼, ▲ ωk l▼, ▲ θk
l▼) and [▲ Ak + 1 l▼, ▲ ωk + 1 l▼, ▲ θk + 1 l▼)
Is the sequence of parameters for the l-th frequency track.
The solution to the amplitude interpolation problem is
Is (Where n = 1, 2,..., N is the k-th frame
Is a time sample). (Truck's
The subscript "l" has been omitted for convenience).   Unfortunately, this kind of simple method requires that the phase
θkIs obtained modulo 2π modulo 2π.
Cannot be used to interpolate wavenumber and phase. Soy sauce
For example, phase unwrapping (expansion)
"Maximum smoothness possible" across frame boundaries
Must be carried out to ensure that This question
The first step in solving the problem is a third order porous system, θ (t) = ξ + γt + αtTwo+ ΒtThree              (9) Is to assume a phase interpolation function Phase interpolation function
If the number is a frame like a function of a continuous time variable t
t = 0 for k and t for frame k + 1
It is convenient to handle the phase relationship with = T.
The porous parameter is the frequency obtained at the frame boundary
And must be selected to satisfy the phase measurements
No. Since the instantaneous frequency is a derivative of the phase, (T) = γ + 2αt + 3βtTwo                (Ten) And the starting point t = 0, θ (0) = ξ = θk (0) = γ = ωk                           (11) And at the end point t = T θ (T) = θk+ ΩkT+ ΑTTwo+ ΒTThree= Θk + 1+ 2πM (T) = θk+ 2αT + 3βTTwo+ Ωk + 1        (12) Becomes Here again, the track subscript "l" is
It is omitted for convenience.   End point phase θk + 1Is measured modulo 2π, so
Let the resulting frequency function be
To make it “clear,” we add it by the term 2πM (M is an integer)
It is necessary to increase. At this point, M is unknown
However, for each value of M, whatever the value,
(12) can be solved for α (M) and β (M).
(Dependence on M is clearly shown here). The solution is
Matrix type Is easily shown to satisfy.   Find solutions to M and unwrapping problems
"As big and smooth as possible" to make the ultimate decision
Additional constraints are imposed to quantify criteria
Need that. FIG. 7 shows the third order for each of a plurality of M values.
Exemplifies a standard set of phase interpolation functions. On an intuitive basis
The best phase function to choose based on
With no fluctuations. This should be as large as possible
What is meant by a smooth frequency track.
In fact, if the frequency is constant and the vocal tract (vocal
tract) is assumed to be immobile, the true phase is a line
It will be linear. Therefore, for "smoothness"
A reasonable standard of (Where θ (t; M) is 2 of θ (t; M) related to time variable t.
(Denoting the first derivative) is minimized by choosing M
is there.   M evaluates to an integer, but f (M)
Is quadratic, so the problem is that f
By minimizing (x) and also having next to x
Easy to choose by choosing M to be a large integer
Is solved. The number of awkward but boring algebras, the maximum of x
The small value is , And M*Is also determined by the equation (1
3), use α (M*) And β (M*) And then calculate
The unwrapped phase interpolation function is θ (t) = θk+ Ωk t+ Α (M*) TTwo+ Β (M*) TThree (16) Becomes This phase function is the measured phase and frequency
Not only satisfy all of the endpoint constraints of
Unwrap the phase in a way that is as smooth as possible
I do.   The above analysis shows that the frequency ω at the start of frame kkCompatible with
Initial development phase θkStarted with the assumption of
It is necessary to specify the initialization of the frame interpolation procedure.
This resulted in the track under consideration at any point (bor
n) It is done by paying attention. This event occurs
The amplitude, frequency and phase are measured at frame k + 1
And these measured values are the parameters at the corresponding frame k.
The meter sets the amplitude to zero (ie, Ak= 0) and at the same time
Maintain a similar frequency (ie, ωk= Ωk + 1)
More defined. The phase interpolation constraint is initially satisfied.
To ensure that the unfolded phase is the measured phase θk + 1
And the starting phase is θk= Θk + 1−ωk + 1N (17) (Where N returns from frame k + 1 to frame k
Is the number of samples traversed in the case)
Is done.   As a result of the phase expansion procedure described above,
Tsuku shows the rapid phase change and voice due to the frequency of each sine component.
Slowness due to gated pulse and vocal track transfer function
Of the moment that takes into account both phase changes
It will have a phase associated with it. θl(T) is l
Denote the expanded phase function for the th track,
The final composite waveform is (Where kN <n (k + 1) N, Al(N) becomes (8)
Given by θl(N) is the sample data of equation (16)
Deformation and L(k)Is evaluated for the kth frame
Number of sine waves.   The invention described in conjunction with FIG.
/ Speech encoding
Used to develop the stem. At this rate,
High quality speech depends heavily on phase measurements, so phase
Encoding is a high priority. The sinusoidal representation also
And frequency identification, so multiple available bits
Considerably less peaks before all of the
It is clear that the loop is encoded. Therefore, the first
The steps in this section have several parameters that must be signed.
Data should be significantly reduced. One to do this
The method is to make all frequencies harmonic.   During voiced sounds, make sure that all peaks are harmonically related.
And by encoding the basics,
All frequency locations are available at the receiver. Nothing
During voice speech, the peak frequency position is not harmonic in this case.
No. However, from random process theory, noise-like waves
The shape is determined by the spacing between adjacent harmonics,
There is only a slight change in the rope (i.e.
If the interval is small enough, the harmonic extension of the sine wave
From a point (in the sense of overall mean squared error)
You. This representation implies that the amplitude and phase are
If it changes randomly to the
Retains metrological properties. Amplitude and phase are encoded
This random change inherent to the measured variable should be
Are held in a composite waveform.   In practice, the basics that characterize the set of frequencies in each frame
It is preferable to evaluate the frequency, which in turn
Related to out. For example, pitch extraction is a standard for perception
To produce the best fit to the input speech accordingly
By selecting the fundamental frequency of a set of harmonic sine waves,
Will be revealed. Other pitch extraction techniques can also be employed.   As an immediate consequence of using the harmonic frequency model
The number of sinusoidal components to be encoded is divided by the basic
To be encoded. Of the measured peak
There is no guarantee that the number will be equal to this harmonic number,
Measures are taken to adjust the number of peaks to be encoded.
Should be done. Based on the basics, a set of harmonic frequencies
A number of bins are set and the peaks in each bin
The numbers are checked. If one or more peaks are found
Only the amplitude and phase corresponding to the largest peak
Retained for encoding. If the peak in a given bin
If there is no short time at the frequency corresponding to the center of the bin
The amplitude and the amplitude obtained by sampling the Fourier transform
A virtual peak having a phase and a phase is generated.   The amplitude is then similar to that used in the channel vocoder
It is encoded by applying the technique of. That is,
For example, the first peak (ie, the first peak above 300 Hz)
2dB / level to encode the amplitude of the peak)
Gain level is set by using 5 bits for both
Is done. The next peak crosses the frequency and the delta modulation technique
It is encoded logarithmically by using the technique. One
3.6 kbps at 50 Hz frame rate
Assigned to encode amplitude at rate. Additional
The bit allocation rule is used to assign multiple bits to peaks.
Can be used for For example, if the pitch is high,
There are considerably fewer peaks to encode and
There are many bits. Conversely, if the pitch is low
There are considerably less bits per peak, but
As the peaks come closer together, their values are more correlated.
ADPCM coder therefore keeps them in good track
Should be able to.   To encode the phase, a fixed number of bits per peak
(Typically 4 or 5) is used. Sign phase
One way to achieve this is to change the measured phase by
2 ”(seconds) in the range of π to π
Where n = 4 or 5. Another method is
Predict the phase at the end of the current frame, expand the value, then
ADPCM technology with 4 or 5 bits per phase peak
To encode the rest of the phase using
Use the frequency track corresponding to the phase). phase
And encoding the base (7 bits are used)
50Hz frame rate since only 4.4kbps remains
Thus, at most 16 peaks can be encoded. 4kHz
Voice bandwidth and 4 bits per phase, pitch is
If greater than 250Hz, all phases are encoded
You. If the pitch is below 250Hz, uncoded high
To regenerate phase tracks due to frequency peaks
Measures must be taken. This is the instantaneous third phase
And the linear complement of the endpoint frequency for this track.
By calculating the difference frequency, which is the difference between
Will be The difference frequency is the phase to which it is encoded.
Add to linear interpolation of end frequency corresponding to rack
Is converted to a high frequency region. Instantaneous frequency obtained
The number function is then the instantaneous phase function added to the sine wave generator
Are integrated or combined to give Like this
The phase coherence and the unvoiced
Phase non-coherence properties are effective in uncoded frequency domain
Is converted to   FIG. 8 shows that it is particularly suitable for time scale correction.
Another embodiment of the present invention is illustrated. In this example
The sine wave on the display is the system contribution (ie
And excitation contribution (ie from vocal cords)
It is further defined as follows. Excitation phase contribution is based on cubic interpolation
Selected for The procedure is described above in relation to the other embodiments.
Almost follow what is said, but in another step
And the measured amplitude ▲ Ak l▼ and phase ▲ θk l▼ is the vocal tract
Decomposed into components and excited components. First, the method
In the analysis frame as a function of frequency (ie, M (ω, k
R) and φ (ω, kR)) vocal tract amplitude and phase evaluation
Is to form Selected frequency ▲ ωk lIn ▼
The system amplitude and phase evaluation is then and Given by   Finally, evaluation of excitation parameters at each analysis frame boundary
Is and Is obtained as   The problem of decomposition is then M (ω, kR) and φ (ω, k
R) from the high-resolution spectrum X (ω, kR)
It becomes a problem to evaluate as a number. (Of course in practice
Means that equally spaced frequency samples are available from the DFT
Noh. ) For example, all-pole modeling and homomorphic deco
System from high resolution spectrum such as evolution
Multiple established methods for identifying magnitude
There is. If the vocal tract transfer function is assumed to be minimum phase
System phase and system magnitude
Form the Hilbert transform pair. This
Under the condition, the phase estimation φ (ω, kR) is
Through the commutation, the magnitude evaluation of the system function M (ω, kR)
Derived from the logarithm. In addition, the resulting phase estimate is
Smooth and expanded as a function of number.   A method for evaluating system magnitude and Hilbe
The corresponding evaluation of the system phase through the use of the default transform is
It is illustrated in FIG. 9 and is based on a homomorphic transformation. With this technology
Identifies and identifies system amplitudes from high-resolution spectra.
The calculation of the Hilbert transform for evaluating the amplitude of
Will be performed. Logarithmic Fourier of high-resolution magnitude
Transformation is performed to obtain a "cepstrum"
Calculated to 1. Right window is proportional to average bite period
Along with time, it is added next. Inverse Fourier transformation obtained
The imaginary component of the permutation is the desired phase and the real part is
It is log magnitude. In fact, the Fourier transform
Evenly spaced samples are calculated together with the FFT. F
The length of the FT is sufficient to avoid aliasing in the cepstrum.
The size was selected at 512. Thus, the sine wave frequency
The high-resolution spectrum used to evaluate the number
Also used to evaluate road system functions.   Analysis of the residuals in the time scale correction system of FIG.
The steps correspond to those disclosed above in connection with other embodiments.
Is similar to As a result of the matching algorithm
The excitation component measured for any frame k and
And the magnitude and phase of all system components
Associated with a corresponding set of parameters for +1.
The next step in compositing is to align across frame boundaries
Interpolated excitation and system parameters
It is to be. The interpolation procedure depends on the excitation function and the system.
Function slowly changes across frame boundaries
Based on this assumption. This is because the model parameters are
It is said that it changes slowly compared to the time of the impulse response
Be consistent with assumptions. This slow change constraint is slow change
Map to the excitation and system amplitude of the
It satisfies to interpolate these functions linearly
You.   The vocal tract system is slow over successive frames
It is assumed that it is changing, so its phase also changes slowly
It is reasonable to assume that
Linear interpolation of the phase samples is also satisfactory. However, "slow
The characteristic of “change” is about system magnitude.
Is more difficult to achieve for system phases.
You. This does not impose any additional constraints on the phase being measured.
Must be-the phase is the frequency at each frame boundary
Is smooth and expanded as a function of
You. Here, if the system phase is obtained modulo 2π,
Linear interpolation between frame boundaries (unreasonably)
Be able to result in rapidly changing system phases
Is shown. Fig. 9 Homomorphic analyzer (analyzer)
The importance of the use is obvious here. From homomorphic analysis
Derived system phase estimates are unfolded or expanded in frequency
The system amplitude (which it is derived from)
It changes slowly when it changes slowly. Of this function
Linear interpolation of the samples then mirrors the underlying vocal tract movement
Result in phase trajectory. This phase function is φl(0) is the formula
▲ φ of (22)k lΦ corresponding to ▼l(T)
Mentioned. Finally, as before, the third order polynomial is
Used to interpolate phase and frequency. This is Ω
l(0) is ▲ Ω in equation (22)k lΩ corresponding to ▼
l(T).   The purpose of the time scale correction is to adjust the apparent
Change) while maintaining the perceived quality of the original speech
It is to be. This is the frequency trajectory of the excitation (according to
The pitch contour (contour) is in time
Stretched or compressed and the vocal tract is loose or fast
It means changing at a rate. The previous synthesis method is clear
Vocal fold excitation for which a precise functional representation has been derived
And the sum of sinusoids composed of vocal tract system contributions
As it includes, it fits perfectly with this transformation.   Time t with new time scale0Audio events that occur in
Is ρ on the original time scale-1t0Happens in. Upper sine
To apply the wave model to the time scale correction,
The scaled "event" is a system along each frequency track.
System amplitude and phase and excitation amplitude and phase
You. Parameter estimation for uncorrected synthesis is a continuous function of time.
Available, so in theory, any rate change
Is also possible. Together with Equations (19) and (22),
The synthesized waveform is (Where L (n) is the number of sine waves evaluated at time n
Can be expressed as: Value required by equation (23)
Is the time ρ-1A at nl(T) and Ωl(T) and φl(T)
Scaling and the resulting excitation phase is ρ-1By
It can be obtained only by sealing.   Time-varying with the proposed time correction system
It is also easy to add rate fluctuations. Where time
The distortion transformation is (Where ρ (T) is the desired time rate variation
). In this generalization, each time derivative dT
Is scaled by different factors ρ (T). new
Time scale time t0The audio event that occurs in
Time t in kale0= W-1(T0). If t0Is t0
If we map back to t1′ T0'+ Ρ-1(T0') (twenty five) Given by   The parameters of the sine component can be used as a continuous function of time.
So they are always required t1
You.   tnIs time tn= N, the composite waveform is Given by here, Ωl'(N) = Ωl'(N-1) + ωl(Tn') (27) and tn'= Tn-1'+ Ρ-1(Tn-1') (28) And ωl(T) is a third-order phase function ΩlFirst derivative of (t)
A quadratic function given by the function t0= 0 (29) It is.   At the time when a particular track is born, the third phase
Function Ωl'(N) is ρ (tn') Ωl(Tn') Initial by value
Be transformed into Where Ωl(Tn') Is obtained using equation (17).
Initial excitation phase.   The present invention performs frequency and pitch scaling.
It should also be appreciated that it can be used to Synthetic wave
The short-term spectral envelope of the shape is at each frequency
Is changed by scaling the components and
Pitch scales frequency components contributed by excitation
Can be changed by   FIG. 10 shows the present invention operated and executed in real time.
A final example is illustrated. The illustrated embodiment has four resources.
Uses the Khan Digital Signal Processor (LDSP)
Then, it is executed by 16-bit fixed-point arithmetic. Huoag
The round program uses 100 input audio samples for 10 ms
It works on each input A / D sample. same
At a similar time, the 10ms buffer of the synthesized voice
Output through the barter. At the end of each frame,
Most of the voice is pushed down to 600ms buffer
(Last in, first out). Pitch adaptive humming (Hamm
ing) Data for windows is pulled out and also 512 points higher
The fast Courier transform (FFT) is applied to this buffer.
Because. Next, a set of magnitudes and phases are
Obtained by finding the peak of the magnitude.
Data generates pitch evaluation values that control the pitch adaptive window
Is supplied to the extracted pitch extraction module. This parame
Data also supplied to the encoding module for data compression applications
Is done. Once the pitch is evaluated, another pitch
Responsive Humming window is buffered for parallel computation
And transferred to another LDSP. Coding and speech correction
Another 512 point FFT to which the method is applied is amplitude and frequency
And used for the purpose of evaluating the phase. When
Once these peaks have been determined, frequency tracking and
And a phase interpolation method is performed. Depending on the application, these
The parameters are coded or encoded so that the audio conversion can be performed.
Or another pair of modified or sinusoidal summations are performed.
Will be forwarded to LDSP. The resulting composite waveform is then
Foreground program for D / A output
To be entered in the appropriate buffer to be accessed
It is transferred back to the master LDSP.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 クウオテイエリ,トマス エフ.,ジユ ニア アメリカ合衆国 02165 マサチユ−セ ツツ,ウエスト ニユートン,モスマン ストリート 74 (56)参考文献 特開 昭57−197600(JP,A) 特開 昭60−88326(JP,A)   ────────────────────────────────────────────────── ─── Continuation of front page    (72) Inventors Kuoteieri, Thomas F. , Jiyu               near               United States 02165 Masachiyu Se               Tutu, West Newton, Mossman                 Street 74                (56) References JP-A-57-197600 (JP, A)                 JP-A-60-88326 (JP, A)

Claims (1)

(57)【特許請求の範囲】 1.一連の離散サンプルを得るために波形をサンプリン
グし、それから、複数のサンプルにまたがる各一連のフ
レームを構成し、声門音励起に対応しそして個々の振幅
を持つ一組の可変周波数成分を抽出するためにサンプル
の各フレームを分析する諸段階から構成される音響波形
処理方法において、 前記可変周波数成分を一フレームから次のフレームへと
整合し、一フレーム中の成分が引き続くフレーム中の成
分と整合されるようにし、フレーム境界で抽出された可
変周波数成分の位相および周波数と整合しかつフレーム
境界の抽出された可変周波数成分位相を2πを法として
実現する位相展開において滑らかな位相補間関数を使用
し、一フレームから次のフレームへと振幅、周波数およ
び位相の整合値を補間することによって特徴付けられる
音響波形処理方法。 2.サンプリングの段階は、ピッチ周期に応じて変化
し、波形のピッチ周期の少なくとも2倍である可変長さ
をもつフレームを構成することを含む請求の範囲第1項
記載の方法。 3.サンプリングの段階は、ハミング窓に応じて波形を
サンプリングすることを含む請求の範囲第1項記載の方
法。 4.分析の段階は、フーリエ分析により各フレームを分
析することを含む請求の範囲第1項記載の方法。 5.分析の段階は、周波数成分に接近するために調和級
数を選択することを含む請求の範囲第1項記載の方法。 6.調和級数での周波数成分の数は、波形のピッチ周期
に応じて変化する請求の範囲第5項記載の方法。 7.トラッキングの段階は、一フレームからの周波数成
分を同様の値をもつ次のフレームでの成分と整合するこ
とを含む請求の範囲第1項記載の方法。 8.前記整合は、新しい周波数成分のバースおよび古い
周波数成分のデスを提供する請求の範囲第7項記載の方
法。 9.値を補間することの段階は、一フレームから次のフ
レームへ整合される周波数成分を補間することにより一
連の瞬間周波数値を画定し次に一連の被補間位相値を得
るために一連の瞬間周波数値を複合することを含む請求
の範囲第1項記載の方法。 10.補間の段階は、各フレームで得られる周波数およ
び位相測定から位相値を導出し次に位相測定を補間する
ことを含む請求の範囲第1項記載の方法。 11.補間の段階は重複および加算関数により達成され
る請求の範囲第1項記載の方法。 12.ディジタル伝送のために周波数成分を符合化する
ことを備える請求の範囲第1項記載の方法。 13.周波数成分は、複数の調波周波数ビンにより画定
される予め決められた数に制限される請求の範囲第12項
記載の方法。 14.前記成分の一つだけの振幅はゲインのために符号
化されまた他のものの振幅は次の最も低い周波数で隣接
する成分に関して符号化される請求の範囲第13項記載の
方法。 15.位相は、パルス符合変調技術を予測される位相残
差に適用することにより符合化される請求の範囲第12項
記載の方法。 16.高周波再生が付加される請求の範囲第12項記載の
方法。 17.抽出される成分に周波数および振幅で対応する一
連の成分正弦波を発生することにより合成波形を構成す
ることを備える請求の範囲第1項記載の方法。 18.前記の再構成される波形の時間スケールは、前記
一連の成分正弦波が補間されるレートを変えることによ
り変化される請求の範囲第17項記載の方法。 19.時間スケールは、ある画定される範囲にわたり連
続的に可変である請求の範囲第18項記載の方法。 20.抽出される成分に周波数と振幅と位相とで対応す
る一連の成分正弦波を発生することにより、合成波形を
構成することを備える請求の範囲第1項記載の方法。 21.前記再構成される波形の時間スケールは、前記一
連の成分正弦波が補間されるレートを変えることにより
変化される請求の範囲第20項記載の方法。 22.時間スケールは、ある画定される範囲にわたり連
続的に可変である請求の範囲第21項記載の方法。 23.成分正弦波は、システム貢献度および励起貢献度
によりさらに画定されまたここで、前記再構成される波
形の時間スケールは、正弦波のシステム貢献度を画定す
るパラメータが補間されるレートを変えることにより変
化される請求の範囲第20項記載の方法。 24.合成波形の短時間スペクトル包絡(エンベロー
プ)は各周波数成分をスケール処理することにより変化
される請求の範囲第17項記載の方法。 25.合成波形のピッチは、励起貢献周波数成分をスケ
ール処理することにより変更される請求の範囲第23項記
載の方法。 26.音響波形を処理するための装置において、 a.一連の離散サンプルを得るために波形をサンプリング
し、それから、複数のサンプルにまたがる各一連のフレ
ームを構成するためのサンプリング手段と、 b.個々の振幅をもつ一組の周波数成分を抽出するために
サンプルの各フレームを分析するための分析手段と、 c.一フレームから次のフレームへと前記成分値を補間し
波形表現を得、合成波形が、フレーム境界で抽出された
可変周波数成分の位相および周波数と整合しかつフレー
ム境界のサンプル波形の位相を実現する位相展開におい
て滑らかな位相補間関数を使用し、被補間値に対応する
一組の正弦波を発生することにより構成されるようにす
る補間手段とを備える音響波形処理装置。 27.サンプリング手段は、ピッチ周期に応じて変化
し、波形のピッチ周期の少なくとも2倍である可変長さ
をもつフレームを構成するための手段を含む請求の範囲
第26項記載の装置。 28.サンプリング手段は、ハミング窓に応じてサンプ
リングするための手段を含む請求の範囲第26項記載の装
置。 29.分析手段は、フーリエ分析により各フレームを分
析するための手段を含む請求の範囲第26項記載の装置。 30.分析手段は、周波数成分に接近するために調和級
数を選択するための手段を含む請求の範囲第26項記載の
装置。 31.調和級数での周波数成分の数は、波形のピッチ周
期に応じて変化する請求の範囲第30項記載の装置。 32.トラッキング手段は、一フレームからの周波数成
分を同様の値をもつ次のフレームでの成分と整合するた
めの手段を含む請求の範囲第26項記載の装置。 33.前記整合手段は、新しい周波数成分のバースおよ
び古い周波数成分のデスを提供する請求の範囲第32項記
載の装置。 34.補間手段は、一フレームから次のフレームへ、整
合される周波数成分を補間することにより一連の瞬間周
波数値を画定する手段と一連の被補間位相値を得るため
に一連の瞬間周波数値を複合するための手段を含む請求
の範囲第26項記載の装置。 35.補間手段は、各フレームで得られる周波数および
位相測定から位相値を導出し次に位相測定を補間するた
めの手段を含む請求の範囲第26項記載の装置。 36.補間手段は重複および加算関数を遂行するための
手段を含む請求の範囲第26項記載の装置。 37.ディジタル伝送のために周波数成分を符合化する
ための符合化手段を含む請求の範囲第26項記載の装置。 38.周波数成分は、複数の調波周波数ビンにより画定
される予じめ決められた数に制限される請求の範囲第32
項記載の装置。 39.前記成分の一つだけの振幅はゲインのために符号
化されまた他のものの振幅は次の最も低い周波数の隣接
する成分に関して符号化される請求の範囲第38項記載の
装置。 40.符合化手段は、パルス符合変調技術を予測される
位相残差に適用するための手段を備える請求の範囲第37
項記載の装置。 41.符合化手段は、高周波成分を発生するための手段
を備える請求の範囲第37項記載の装置。 42.抽出される成分に周波数および振幅で対応する一
連の成分正弦波を発生することにより合成波形を構成す
るための手段を備える請求の範囲第37項記載の装置。 43.前記の再構成される波形の時間スケールは、前記
一連の成分正弦波が補間されるレートを変えることによ
り変化される請求の範囲第42項記載の装置。 44.時間スケールは、ある画定される範囲にわたり連
続的に可変である請求の範囲第43項記載の装置。 45.抽出される成分に周波数と振幅と位相とで対応す
る一連の成分正弦波を発生することにより、合成波形を
構成するための手段を備える請求の範囲第26項記載の装
置。 46.前記再構成される波形の時間スケールは、前記一
連の成分正弦波が補間されるレートを変えることにより
変化される請求の範囲第45項記載の装置。 47.時間スケールは、ある画定される範囲にわたり連
続的に可変である請求の範囲第46項記載の装置。 48.成分正弦波は、システム貢献度および励起貢献度
によりさらに画定されまたここで、前記再構成される波
形の時間スケールは、正弦波のシステム貢献度を画定す
るパラメータが補間されるレートを変えることにより変
化される請求の範囲第42項記載の装置。 49.周波数成分をスケール処理するためのスケール処
理手段を含む請求の範囲第48項記載の装置。 50.励起貢献周波数成分をスケール処理するためのス
ケール処理手段を含む請求の範囲第48項記載の装置。
(57) [Claims] To sample the waveform to obtain a series of discrete samples, and then construct each series of frames spanning multiple samples to extract a set of variable frequency components corresponding to glottal excitation and having individual amplitudes An acoustic waveform processing method comprising the steps of analyzing each frame of a sample, wherein the variable frequency components are matched from one frame to the next frame, and components in one frame are matched with components in a subsequent frame Using a smooth phase interpolation function in phase expansion to match the phase and frequency of the variable frequency component extracted at the frame boundary and to realize the extracted variable frequency component phase at the frame boundary modulo 2π, A sound characterized by interpolating amplitude, frequency and phase match values from one frame to the next Waveform processing method. 2. The method of claim 1, wherein the step of sampling comprises constructing a frame having a variable length that varies with the pitch period and is at least twice the pitch period of the waveform. 3. The method of claim 1, wherein the step of sampling comprises sampling the waveform according to a Hamming window. 4. The method of claim 1, wherein the step of analyzing comprises analyzing each frame by Fourier analysis. 5. The method of claim 1, wherein the step of analyzing comprises selecting a harmonic series to approach the frequency component. 6. 6. The method according to claim 5, wherein the number of frequency components in the harmonic series changes according to the pitch period of the waveform. 7. The method of claim 1, wherein the step of tracking comprises matching frequency components from one frame with components in a next frame having similar values. 8. The method of claim 7, wherein the matching provides a berth of a new frequency component and a death of an old frequency component. 9. The step of interpolating the values comprises defining a series of instantaneous frequency values by interpolating frequency components that are matched from one frame to the next, and then a series of instantaneous frequency values to obtain a series of interpolated phase values. The method of claim 1 including combining values. 10. The method of claim 1, wherein the step of interpolating comprises deriving a phase value from the frequency and phase measurements obtained at each frame and then interpolating the phase measurement. 11. The method of claim 1 wherein the step of interpolating is accomplished by an overlap and add function. 12. The method of claim 1, comprising encoding frequency components for digital transmission. 13. 13. The method of claim 12, wherein the frequency components are limited to a predetermined number defined by a plurality of harmonic frequency bins. 14. 14. The method of claim 13, wherein the amplitude of only one of the components is encoded for gain and the amplitude of the other is encoded with respect to the next lowest frequency adjacent component. 15. 13. The method of claim 12, wherein the phase is encoded by applying a pulse code modulation technique to the predicted phase residual. 16. 13. The method according to claim 12, wherein high-frequency reproduction is added. 17. The method of claim 1 comprising constructing a composite waveform by generating a series of component sine waves corresponding in frequency and amplitude to the components to be extracted. 18. 18. The method of claim 17, wherein the time scale of the reconstructed waveform is changed by changing a rate at which the series of component sine waves is interpolated. 19. 19. The method of claim 18, wherein the time scale is continuously variable over a defined range. 20. The method of claim 1, comprising constructing a composite waveform by generating a series of component sine waves corresponding in frequency, amplitude, and phase to the components to be extracted. 21. 21. The method of claim 20, wherein the time scale of the reconstructed waveform is changed by changing a rate at which the series of component sine waves is interpolated. 22. 22. The method of claim 21 wherein the time scale is continuously variable over a defined range. 23. The component sine wave is further defined by the system contribution and the excitation contribution, wherein the time scale of the reconstructed waveform is determined by changing the rate at which the parameters defining the sine wave system contribution are interpolated. 21. The method of claim 20, wherein said method is varied. 24. 18. The method according to claim 17, wherein the short-time spectral envelope of the composite waveform is changed by scaling each frequency component. 25. 24. The method according to claim 23, wherein the pitch of the synthesized waveform is changed by scaling the excitation contributing frequency component. 26. An apparatus for processing an acoustic waveform, comprising: a. Sampling a waveform to obtain a series of discrete samples, and then constructing each series of frames spanning a plurality of samples; b. Individual amplitudes Analysis means for analyzing each frame of the sample to extract a set of frequency components having, c. Interpolating said component values from one frame to the next frame to obtain a waveform representation, wherein the composite waveform is A set of sine waves corresponding to the interpolated value using a smooth phase interpolation function in phase expansion that matches the phase and frequency of the variable frequency component extracted at the frame boundary and realizes the phase of the sample waveform at the frame boundary And an interpolation means configured to generate the sound waveform. 27. 27. The apparatus of claim 26, wherein the sampling means includes means for constructing a frame having a variable length that varies with the pitch period and is at least twice the pitch period of the waveform. 28. 27. The apparatus of claim 26, wherein said sampling means includes means for sampling according to a Hamming window. 29. 27. The apparatus according to claim 26, wherein the analyzing means includes means for analyzing each frame by Fourier analysis. 30. 27. The apparatus according to claim 26, wherein the analyzing means includes means for selecting a harmonic series to approach the frequency component. 31. 31. The apparatus according to claim 30, wherein the number of frequency components in the harmonic series changes according to a pitch period of the waveform. 32. 27. The apparatus of claim 26, wherein the tracking means includes means for matching frequency components from one frame with components in a next frame having similar values. 33. 33. The apparatus of claim 32, wherein said matching means provides a berth of a new frequency component and a death of an old frequency component. 34. The interpolating means combines the series of instantaneous frequency values to obtain a series of interpolated phase values with means for defining a series of instantaneous frequency values by interpolating the matched frequency components from one frame to the next. 27. The apparatus of claim 26 including means for: 35. 27. The apparatus according to claim 26, wherein the interpolation means includes means for deriving a phase value from the frequency and phase measurements obtained in each frame and then interpolating the phase measurement. 36. 27. The apparatus of claim 26, wherein said interpolating means includes means for performing an overlap and add function. 37. 27. The apparatus according to claim 26, including encoding means for encoding frequency components for digital transmission. 38. 32. The method of claim 32, wherein the frequency components are limited to a predetermined number defined by a plurality of harmonic frequency bins.
Item. 39. 39. The apparatus of claim 38, wherein the amplitude of only one of said components is encoded for gain and the amplitude of the other is encoded with respect to the next lowest frequency neighboring component. 40. Claim 37. The encoding means comprising means for applying a pulse code modulation technique to the predicted phase residual.
Item. 41. 38. The apparatus of claim 37, wherein the encoding means comprises means for generating a high frequency component. 42. 38. The apparatus of claim 37, further comprising means for constructing a composite waveform by generating a series of component sine waves corresponding in frequency and amplitude to the components to be extracted. 43. 43. The apparatus of claim 42, wherein the time scale of the reconstructed waveform is changed by changing a rate at which the series of component sine waves is interpolated. 44. 44. The apparatus of claim 43, wherein the time scale is continuously variable over a defined range. 45. 27. The apparatus of claim 26, further comprising means for composing a composite waveform by generating a series of component sine waves corresponding in frequency, amplitude, and phase to the components to be extracted. 46. 46. The apparatus of claim 45, wherein the time scale of the reconstructed waveform is changed by changing a rate at which the series of component sine waves is interpolated. 47. 47. The apparatus of claim 46, wherein the time scale is continuously variable over a defined range. 48. The component sine wave is further defined by the system contribution and the excitation contribution, wherein the time scale of the reconstructed waveform is determined by changing the rate at which the parameters defining the sine wave system contribution are interpolated. 43. The apparatus of claim 42, wherein said apparatus is varied. 49. 49. The apparatus according to claim 48, further comprising scale processing means for performing scale processing on the frequency component. 50. 49. The apparatus according to claim 48, further comprising a scale processing means for scaling an excitation contributing frequency component.
JP61501779A 1985-03-18 1986-03-14 Sound waveform processing Expired - Lifetime JP2759646B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US71286685A 1985-03-18 1985-03-18
US712866 1985-03-18

Publications (2)

Publication Number Publication Date
JPS62502572A JPS62502572A (en) 1987-10-01
JP2759646B2 true JP2759646B2 (en) 1998-05-28

Family

ID=24863876

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61501779A Expired - Lifetime JP2759646B2 (en) 1985-03-18 1986-03-14 Sound waveform processing

Country Status (5)

Country Link
EP (1) EP0215915A4 (en)
JP (1) JP2759646B2 (en)
AU (1) AU597573B2 (en)
CA (1) CA1243122A (en)
WO (1) WO1986005617A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003525473A (en) * 2000-02-29 2003-08-26 クゥアルコム・インコーポレイテッド Closed-loop multimode mixed-domain linear prediction speech coder
JP2004502203A (en) * 2000-02-29 2004-01-22 クゥアルコム・インコーポレイテッド Method and apparatus for tracking the phase of a quasi-periodic signal

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4937873A (en) * 1985-03-18 1990-06-26 Massachusetts Institute Of Technology Computationally efficient sine wave synthesis for acoustic waveform processing
US4856068A (en) * 1985-03-18 1989-08-08 Massachusetts Institute Of Technology Audio pre-processing methods and apparatus
US4797926A (en) * 1986-09-11 1989-01-10 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech vocoder
US4771465A (en) * 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
CA1332982C (en) * 1987-04-02 1994-11-08 Robert J. Mcauley Coding of acoustic waveforms
US5029509A (en) * 1989-05-10 1991-07-09 Board Of Trustees Of The Leland Stanford Junior University Musical synthesizer combining deterministic and stochastic waveforms
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
JP3212785B2 (en) * 1993-12-22 2001-09-25 防衛庁技術研究本部長 Signal detection device
DE4425767C2 (en) * 1994-07-21 1997-05-28 Rainer Dipl Ing Hettrich Process for the reproduction of signals with changed speed
US5812737A (en) * 1995-01-09 1998-09-22 The Board Of Trustees Of The Leland Stanford Junior University Harmonic and frequency-locked loop pitch tracker and sound separation system
JP3262204B2 (en) * 1996-03-25 2002-03-04 日本電信電話株式会社 Frequency component extraction device
US6266003B1 (en) * 1998-08-28 2001-07-24 Sigma Audio Research Limited Method and apparatus for signal processing for time-scale and/or pitch modification of audio signals
JP3404350B2 (en) * 2000-03-06 2003-05-06 パナソニック モバイルコミュニケーションズ株式会社 Speech coding parameter acquisition method, speech decoding method and apparatus
SE517026C2 (en) * 2000-11-17 2002-04-02 Forskarpatent I Syd Ab Method and apparatus for speech analysis
US20040054525A1 (en) * 2001-01-22 2004-03-18 Hiroshi Sekiguchi Encoding method and decoding method for digital voice data
AU2003291862A1 (en) * 2003-12-01 2005-06-24 Aic A highly optimized method for modelling a windowed signal
US8027242B2 (en) 2005-10-21 2011-09-27 Qualcomm Incorporated Signal coding and decoding based on spectral dynamics
US8392176B2 (en) 2006-04-10 2013-03-05 Qualcomm Incorporated Processing of excitation in audio coding and decoding
KR101080421B1 (en) * 2007-03-16 2011-11-04 삼성전자주식회사 Method and apparatus for sinusoidal audio coding
US8428957B2 (en) 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
MX350686B (en) * 2012-01-20 2017-09-13 Fraunhofer Ges Forschung Apparatus and method for audio encoding and decoding employing sinusoidal substitution.
EP3430620B1 (en) 2016-03-18 2020-03-25 Fraunhofer Gesellschaft zur Förderung der Angewand Encoding by reconstructing phase information using a structure tensor on audio spectrograms

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3360610A (en) * 1964-05-07 1967-12-26 Bell Telephone Labor Inc Bandwidth compression utilizing magnitude and phase coded signals representative of the input signal
US4058676A (en) * 1975-07-07 1977-11-15 International Communication Sciences Speech analysis and synthesis system
US4076958A (en) * 1976-09-13 1978-02-28 E-Systems, Inc. Signal synthesizer spectrum contour scaler
JPS6017120B2 (en) * 1981-05-29 1985-05-01 松下電器産業株式会社 Phoneme piece-based speech synthesis method
JPS6040631B2 (en) * 1981-12-08 1985-09-11 松下電器産業株式会社 Phoneme editing type speech synthesis method
JPS592033A (en) * 1982-06-28 1984-01-07 Hitachi Ltd Rear projection screen
JPS597399A (en) * 1982-07-02 1984-01-14 松下電器産業株式会社 Monosyllable voice recognition equipment
JPS5942598A (en) * 1982-09-03 1984-03-09 日本電信電話株式会社 Rule synthesization/connection circuit
JPS6088326A (en) * 1983-10-19 1985-05-18 Kawai Musical Instr Mfg Co Ltd Sound analyzer
JPS6097398A (en) * 1983-11-01 1985-05-31 株式会社河合楽器製作所 Sound analyzer
JPH079591B2 (en) * 1983-11-01 1995-02-01 株式会社河合楽器製作所 Instrument sound analyzer

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003525473A (en) * 2000-02-29 2003-08-26 クゥアルコム・インコーポレイテッド Closed-loop multimode mixed-domain linear prediction speech coder
JP2004502203A (en) * 2000-02-29 2004-01-22 クゥアルコム・インコーポレイテッド Method and apparatus for tracking the phase of a quasi-periodic signal

Also Published As

Publication number Publication date
EP0215915A4 (en) 1987-11-25
EP0215915A1 (en) 1987-04-01
JPS62502572A (en) 1987-10-01
AU597573B2 (en) 1990-06-07
CA1243122A (en) 1988-10-11
WO1986005617A1 (en) 1986-09-25
AU5620886A (en) 1986-10-13

Similar Documents

Publication Publication Date Title
JP2759646B2 (en) Sound waveform processing
US4885790A (en) Processing of acoustic waveforms
US4937873A (en) Computationally efficient sine wave synthesis for acoustic waveform processing
Agiomyrgiannakis Vocaine the vocoder and applications in speech synthesis
McAulay et al. Pitch estimation and voicing detection based on a sinusoidal speech model
McAulay et al. Speech analysis/synthesis based on a sinusoidal representation
US6377916B1 (en) Multiband harmonic transform coder
KR960002387B1 (en) Voice processing system and method
US6541691B2 (en) Generation of a note-based code
EP0745971A2 (en) Pitch lag estimation system using linear predictive coding residual
JPH02204800A (en) Speech processing and synthesization method and apparatus
JP3191926B2 (en) Sound waveform coding method
McAulay et al. Mid-rate coding based on a sinusoidal representation of speech
US6456965B1 (en) Multi-stage pitch and mixed voicing estimation for harmonic speech coders
Ferreira Combined spectral envelope normalization and subtraction of sinusoidal components in the ODFT and MDCT frequency domains
Cavaliere et al. Granular synthesis of musical signals
Ahmadi et al. A new phase model for sinusoidal transform coding of speech
Tabet et al. Speech analysis and synthesis with a refined adaptive sinusoidal representation
Zivanovic et al. Single and piecewise polynomials for modeling of pitched sounds
Stylianou On the implementation of the harmonic plus noise model for concatenative speech synthesis
Parikh et al. Frame erasure concealment using sinusoidal analysis-synthesis and its application to MDCT-based codecs
Sercov et al. An improved speech model with allowance for time-varying pitch harmonic amplitudes and frequencies in low bit-rate MBE coders.
Ahmadi et al. New techniques for sinusoidal coding of speech at 2400 bps
Molyneux et al. Robust application of discrete all-pole modeling to sinusoidal transform coding
Zubrycki et al. Analysis/synthesis speech model based on the pitch-tracking periodic-aperiodic decomposition

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term