JP2002515610A - 位相変化からの雑音寄与度の決定に基づく音声符号化 - Google Patents

位相変化からの雑音寄与度の決定に基づく音声符号化

Info

Publication number
JP2002515610A
JP2002515610A JP2000548870A JP2000548870A JP2002515610A JP 2002515610 A JP2002515610 A JP 2002515610A JP 2000548870 A JP2000548870 A JP 2000548870A JP 2000548870 A JP2000548870 A JP 2000548870A JP 2002515610 A JP2002515610 A JP 2002515610A
Authority
JP
Japan
Prior art keywords
signal
frequency
segment
value
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000548870A
Other languages
English (en)
Inventor
エフ ジジ,エルカン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Electronics NV filed Critical Philips Electronics NV
Publication of JP2002515610A publication Critical patent/JP2002515610A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 オーディオ等価信号は高調波周波数に対する雑音値を決定することによって符号化される。雑音値は信号の連続的なセグメント内の高調波の位相の変化によって決定される。高調波周波数に対する雑音値は、周期的成分及び非周期的成分のその高調波周波数でのセグメントへの寄与度を表現する。このため、信号のピッチの進みが決定され、信号は、例えば、1乃至2ピッチ周期の幅のセグメントに分割される。分析セグメント毎に、振幅値及び位相値が高調波周波数に対し決定される。各高調波に対する雑音値は、セグメントの高調波に対する位相値を、少なくとも1個の先行又は後続のセグメントに対する対応した位相値と比較することにより決定される。各セグメントは、各高調波に対する振幅値及び雑音値として符号化される。この方法は、好ましくは、音声合成に使用される。

Description

【発明の詳細な説明】
【0001】 本発明は、オーディオ等価信号を符号化する方法に関する。本発明は、また、
符号化された信号断片部分からオーディオ等価信号を合成する方法に関する。
【0002】 本発明は、更に、符号化されたオーディオ等価入力信号断片部分からオーディ
オ等価信号を合成するシステムに関する。本発明は、合成器に関する。
【0003】 本発明は、オーディオ等価信号を符号化するパラメトリック・プロダクション
・モデルに関する。パラメトリック・プロダクション・モデルに基づき、普及し
ている符号化技術は、線形予測符号化(LPC)技術である。この技術は、特に、
音声符号化に使用される。符号化された信号は、例えば、電気通信ネットワーク
を介して転送され、受信局で復号化(再合成)され、或いは、例えば、テキスト
型入力を表現する音声出力を合成するため音声合成システムで使用される。LPC
モデルによれば、オーディオ等価信号のスペクトルエネルギー包絡は、最適全極
フィルタと、入力レベルに対するフィルタ出力に一致する利得係数を用いて記述
される。音声の場合に、有声無声の2分決定法は、周期的インパルス列又は白色
雑音がLPC合成フィルタを励起するかどうかを決定する。変化する音声に対し、
モデルパラメータ、すなわち、声紋、ピッチ周期、利得及びフィルタ係数は、典
型的に10ミリ秒間隔のフレーム毎に更新される。これにより、ビットレートは
著しく減少する。典型的なLPCボコーダは、明瞭な音声を生成することができる
が、屡々、煩い音を伴う。LPCは、自己相関分析に基づき、位相スペクトルを単
純に無視する。この合成法は最小位相法である。従来のLPCの限界は、周期的成
分源、又は、雑音源の二者択一的なことである。自然音声の場合、両方の励振源
は同時に作用する。有声摩擦音だけではなく、殆どの他の有声音にも同じことが
いえる。改良型LPC符号化技術は、文献:McCree & Barnwell, “A mixed excita
tion LPC vocoder model for low bit rate speech coding”, IEEE Transactio
ns on speech and audio processing, Vol.3, No.4, July 1995に記載されてい
る。この符号化技術によれば、フィルタバンクは、入力信号を多数の、たとえば
、5個の周波数帯域に分割するため使用される。各帯域毎に、相対的なパルス及
び雑音パワーが入力音声中のその周波数における有声パワー強度の推定により決
定される。各周波数帯域での有声強度は、帯域通過除波された入力信号と帯域通
過除波された音声の最大の相関として選択される。LPC合成フィルタは、パルス
列と白色雑音の周波数加重和によって励起される。
【0004】 一般的に、LPCによって獲得される品質は相対的に低いので、LPCは主として低
ビットレート(例えば、2400/4800bps)の通信目的に使用される。
改良型LPC符号化方式でさえ、高品質出力が求められる音声合成(テキストから
音声)のようなシステムに適当でない。LPC符号化方式を使用することにより、
大部分の自然さが失われる。このため、例えば、自動車内の電話サービス若しく
は自動交通情報システムにおける合成音声の殆どのアプリケーションは阻害され
る。
【0005】 本発明の目的は、従来よりも自然な音声を生成し得るパラメトリック符号化/
合成方法及びシステムを提供することである。
【0006】 上記目的を達成するため、本発明によるオーディオ等価信号を符号化する方法
は、 信号内の連続的なピッチ周期/周波数を決定するステップと、 時間窓の列を上記信号に対し配置し、それぞれの時間窓の関連した窓関数に応
じて上記信号を重み付けすることにより、相互に重なり合い、若しくは、隣接し
た分析セグメントの系列を形成するステップと、 上記各分析セグメント毎に、 上記分析セグメントに対応したピッチ周波数の複数個の高調波周波数を含む上
記分析セグメントの複数の周波数成分に対する振幅値及び位相値を決定するステ
ップと、 上記分析セグメントの上記周波数成分を、少なくとも1個の先行又は後続の分
析セグメントに対する対応した位相値と比較することにより、上記各周波数成分
に対し、上記周波数における周期的成分及び非周期的成分の上記分析セグメント
に対する寄与度を表現する雑音値を決定するステップと、 上記各周波数成分に対する上記振幅値及び上記雑音値を用いて上記分析セグメ
ントを表現するステップとを有する。
【0007】 発明者は、雑音と周期的成分の比の正確な推定は、信号の振幅の進みを分析す
るのではなく、或いは、振幅の進みの分析に付け加えて、信号の位相の進みをピ
ッチ同期式に分析することにより達成されることを見出した。この雑音寄与度の
改良された検出法は従来技術のLPC符号化を改良するため使用することができる
。有利的には、この符号化が音声合成システムに使用される。
【0008】 従属請求項2に係る発明の一実施例によれば、分析窓は非常に狭い。このため
、音成中に発生し得る比較的に速い「雑音度」の変化が正確に検出され得る。
【0009】 従属請求項3に係る発明の一実施例によれば、ピッチの進みは、2段階のアプ
ローチを用いて正確に決定される。ピッチの粗い推定量を獲得した後、信号は検
出されたピッチ周波数付近の周波数成分を取り出すために除波される。実際のピ
ッチはピッチフィルタ処理された信号中で検出される。
【0010】 従属請求項4に係る発明の一実施例によれば、フィルタ処理はセグメント内の
サイン/コサイン対による畳み込みに基づいて行われ、これにより、セグメント
内のピッチ周波数成分の正確な決定が可能になる。
【0011】 従属請求項5に係る発明の一実施例によれば、サンプリングされた信号の解像
度を上げるため補間が使用される。
【0012】 従属請求項6に係る発明の一実施例によれば、周波数成分の振幅値及び/又は
位相値は、正確に決定されたピッチ周波数を変換の基本周波数として使用した周
波数域への変換によって決定される。これにより、信号の周期的部分の正確な記
述が行えるようになる。
【0013】 従属請求項7に係る発明の一実施例によれば、雑音値は、分析セグメントの周
波数成分に対する位相値と、少なくとも1個の先行又は後続の分析セグメントの
対応した位相値との差から獲得される。これは、信号中の周波数に存在する雑音
の量に対する測定量を獲得するための簡単な方法である。信号が雑音寄与度の非
常に小さい周期的信号により著しく支配されている場合、位相は実質的に同一で
ある。これに対し、雑音によって支配された信号の場合に、位相はランダムに変
化する。かくして、位相の比較は周期的成分及び非周期的成分の入力信号に対す
る寄与度の指標を与える。この測定量も3個以上のセグメントからの位相情報に
基づいていることが解る(例えば、両方の隣接セグメントからの位相情報が現在
セグメントの位相と比較される)。
【0014】 従属請求項8に係る発明の一実施例によれば、雑音値は、分析セグメントの周
波数成分に対する位相値の微係数と、少なくとも1個の先行又は後続の分析セグ
メントの対応した位相値の微係数との差に基づく。これにより、一層ロバスト性
のある測定が行われる。
【0015】 上記本発明の目的を達成するため、本発明による複数音、すなわち、複音(dip
hones)のような符号化されたオーディオ等価入力信号断片部分からオーディオ等
価信号を合成する方法は、 上記本発明によるオーディオ等価信号を符号化する方法に従って符号化された
符号化信号断片部分から選択された1個の符号化信号断片部分を獲得するステッ
プと、 上記獲得された符号化信号断片部分毎に、信号断片部分を時間域に変換するこ
とにより対応した信号断片部分を作成するステップとを有し、符号化された周波
数成分毎に、非周期的信号成分が上記周波数成分に対するそれぞれの雑音値に応
じて加算される。
【0016】 かくして、高品質合成信号が獲得され得る。従来、妥当な品質の合成音声は、
複音のような記録された実際の音声断片部分を連結することにより獲得されてい
た。これらの技術を用いる場合、自然さのレベルの高い出力が断片部分内で獲得
され得る。これらの音声断片部分は、所望の出力を生成するため順番に選択され
、連結される。例えば、テキスト入力(文)は、複数音の系列に書き換えられ、続
いて、この書き換えに対応した音声断片部分(複数音)が獲得される。一般的に
、記録された音声断片部分は、発話されるべき文の所望の韻律に対応したピッチ
周波数及び/又は間隔をもたない。この操作は、基本音声信号をセグメントに分
割することにより行われる。セグメントは、窓の列を信号に沿って配置すること
により形成される。連続的な窓は、一般的に、局部ピッチ周期に類似した間隔に
亘り移動させられる。欧州特許出願EP-A 0527527及びEP-A 0527529に記載された
PIOLAシステムと称されるシステムの場合、局部ピッチ周期は自動的に検出され
、窓は検出されたピッチ間隔に応じて移動する。欧州特許出願EP-A 0363233に記
載されたいわゆるPSOLAシステムの場合、窓は、手動で決定された場所、いわゆ
るボイスマーカーの周辺に中心が配置される。ボイスマーカーは、声帯の最強度
の励振の周期的な時点に対応する。音声信号は、セグメントを獲得するためそれ
ぞれの窓の窓関数に応じて重み付けされる。出力信号は信号セグメントを連結す
ることにより生成される。拡張された出力信号はセグメントを繰り返す(例えば
、25%延長された信号を獲得するため4個のセグメント中の1個のセグメント
を繰り返す)ことにより獲得される。同様に、短縮された出力信号はセグメント
を抑止することにより得ることができる。出力信号のピッチは、セグメント間の
重なり合いを増大又は減少させることにより、上昇又は下降させられる。継続中
の音声に適用した場合、ピッチ変化の範囲があまり広くない限り、上記の方法で
操作された音声の品質は非常に高い。しかし、音声が複音のようなかなり短い音
声断片部分から構築される場合には複雑化する。有声音声部分の高調波位相の挙
動は非常に異なり、連続した断片部分の間の境界で滑らかな推移を生じさせるこ
とは困難であり、合成された音声の自然さが失われる。このようなシステムの場
合に、本発明による符号化技術は有利的に適用することができる。制御できない
位相を備えた実際のオーディオ等価断片部分に基づいて動作させないことにより
、代わりの断片部分が本発明に従って符号化された断片部分から作成される。任
意の適当な技術を使用して、断片部分が復号化され、次に、PISOLA/PSOLA技術に
よるセグメント的な操作が行われる。適当な復号化技術を使用することにより、
当該周波数成分の位相は完全に制御することが可能であり、その結果として、断
片部分境界での制御できない位相推移は、回避され得る。好ましくは、三角関数
的統合が符号化された断片部分を復号化するため使用される。
【0017】 本発明の上記局面及び他の局面は、添付図面に記載された実施例を参照して、
明瞭にされ、解明される。
【0018】 [概略説明] 本発明による符号化方法の概略は図1に示されている。ステップ10において
、オーディオ等価入力信号のピッチ周期の進み(又は、等価的にピッチ周波数)
が検出される。この信号は、例えば、例えば、複数音の音声合成に使用されるよ
うな音声信号、又は、音声信号断片部分を表現する。この技術は音声信号を目的
としているが、音楽のようなその他のオーディオ等価信号にも適用される。この
ような信号の場合に、ピッチ周波数は支配的な周期的周波数成分と関連する。以
下では、音声信号に絞って説明する。
【0019】 ステップ12において、信号は、相互に重なり合う分析セグメント又は隣接し
た分析セグメントの系列に分割される。このセグメントを形成するため、時間窓
の列は入力信号に対し配置される。各時間窓は、以下に詳細に説明するように窓
関数と関連付けられる。それぞれの窓の窓関数に応じて信号を重み付けすること
により、セグメントが作成される。
【0020】 以下のステップでは、各分析セグメントは、セグメント内の複数の高調波周波
数の位相値を(好ましくは、振幅値と同時に)決定するため同期的に分析される
。高調波周波数は、1次高調波と称されるピッチ周波数を含む。このセグメント
に関連したピッチ周波数は、ステップ10で既に決定されている。位相は、セグ
メント内の所定の時点(例えば、セグメントの開始又は中心)に対して決定され
る。最高品質の符号化を実現するため、できるだけ多数の高調波が(信号の帯域
幅内で)分析される。しかし、例えば、帯域フィルタ処理された信号は、所望の
周波数範囲内の高調波を考慮すべき場合に限り必要とされる。同様に、より低品
質の出力信号が許容される場合、一部の高調波は無視してもよい。また、一部の
高調波に対し、雑音値が高調波の部分集合に対し決定されている場合には、振幅
だけが決定される。特に、下方の高調波の場合に、信号は主として周期的になる
傾向があり、これらの高調波に対する推定雑音値を使用することが可能である。
その上、雑音値は振幅よりも緩やかに変化する。このため、高調波の部分集合だ
けに対し(例えば、連続した高調波の一つ置きに)雑音値を決定できるようにな
る。雑音値が決定されていないこれらの高調波に対し、(例えば、補間により)
雑音値が推定され得る。高品質符号化を実現するため、雑音値が所望の周波数範
囲内の全ての高調波に対し計算される。全ての雑音値を表現するため非常に多量
の記憶容量又は伝送能力が必要とされる場合、雑音値は、相対的に遅い雑音値の
変化に基づいて効率的に圧縮され得る。任意の適当な圧縮技術が使用される。
【0021】 ステップ14において、1番目のセグメントが選択され、セグメントポインタ
(S-PTR=0)により指定される。セグメントは、ステップ16において、(例えば、
主記憶装置又は補助記憶装置から)獲得される。ステップ18において、分析さ
れるべき1次高調波が選択される(h=1)。ステップ20において、高調波の位
相(並びに、好ましくは、振幅)が決定される。原理的に、位相を決定する任意
の方法が使用され得る。次のステップ22において、選択された高調波周波数に
対し、周期的信号成分及び非周期的信号成分(雑音)の、その周波数で選択され
た分析セグメントに対する寄与度を示す測定量(雑音値)が決定される。この測定
量は、成分又はその他の適当な測定量(例えば、一方又は両方の成分の絶対値)の
間の比でも構わない。この測定量は、関連した周波数毎に、セグメント内の周波
数の位相を後続セグメント(又は、交互に先行セグメント)内の同じ周波数の位
相と比較することにより決定される。信号が雑音の寄与度の非常に少ない周期的
信号によって著しく支配されている場合、位相は実質的に同一である。これに対
し、雑音によって支配された信号の場合、位相はランダム(不規則)に変化する
。そのため、位相の比較によって、周期的成分及び非周期的成分の入力信号に対
する寄与度の指標が得られる。この測定量も3個以上のセグメントからの位相情
報に基づいていることが解る(例えば、両方の隣接セグメントからの位相情報が
現在セグメントの位相と比較される)。また、周波数成分の振幅のような他の情
報を、隣接した高調波の情報と共に考慮してもよい。
【0022】 ステップ24において、選択された分析セグメントの符号化は、選択された各
周波数成分毎に、振幅値及び雑音値(雑音係数と呼ばれる場合もある)を記憶す
ることにより行われる。雑音値は位相値から獲得されるので、雑音値を記憶する
代わりに位相値を記憶してもよいことが解る。
【0023】 ステップ26において、全ての所望の高調波が符号化されたかどうかが検査さ
れ、未だ検査されていないものがある場合、符号化されるべき次の高調波がステ
ップ28で選択される。全ての高調波が符号化された後、ステップ30において
、全ての分析セグメントが処理されたかどうかが検査される。未だ処理されてい
ない分析セグメントがある場合、ステップ32において、次のセグメントNEXT S
EGMENTが符号化のため選択される。
【0024】 符号化されたセグメントは後段で使用される。例えば、符号化されたセグメン
トは、元の入力信号を再生するため、電気通信ネットワークを介して転送され、
復号化される。このような転送は符号化中に実時間で行われる。符号化されたセ
グメントは、好ましくは、音声合成(テキストから音声への変換)システムで使
用される。このようなアプリケーションの場合に、符号化されたセグメントは、
例えば、ハードディスク若しくはCD-ROMのような補助記憶装置に記憶される。音
声合成の場合に、典型的に、文は、連結されるべき音声断片部分(例えば、複数
音)と、連結の系列とを示す表現に変換される。また、この表現は、文の望まし
い韻律を示す。記憶された符号化セグメントに対し得られる間隔及びピッチのよ
うな情報に対し、この表現は、関連したセグメントのピッチ及び間隔が操作され
るべき態様を指定する。関連した断片部分は、記憶装置から獲得され、復号化さ
れる(すなわち、典型的にはデジタル形式の音声信号に変換される)。ピッチ及
び/又は間隔は、適当な技術(例えば、PSOLA/PIOLA操作技術)を用いて操作さ
れる。
【0025】 本発明による符号化は音声合成システム(テキストから音声への変換)に使用
される。このようなシステムでは、符号化された断片部分の復号化に続いて、PS
OLA又はPIOLAのようなセグメンテーション技術を用いて出力信号断片部分の更な
る操作が行われる。これらの技術は、局部ピッチ周期の実質的に2倍の間隔をも
つ重なり合う窓を使用する。符号化がこのようなアプリケーションにおいて後段
で使用するため行われる場合に、好ましくは、音声合成中に音声の韻律を操作す
るため使用される窓と同じ窓が予めこの段で使用される。かくして、復号化によ
り得られた信号セグメントはそのまま保たれ、付加的なセグメンテーションを韻
律操作のため行う必要が無い。
【0026】 [セグメンテーション] 分析セグメントのシーケンスは、相互に重なり合う、或いは、隣接した時間窓
の列を信号に対して配置することにより形成される。各時間窓はそれぞれの窓関
数と関連付けられる。信号は、窓の列中のそれぞれの窓の関連した窓関数に応じ
て重み付けされる。このように、各窓は対応したセグメントを作成する。原理的
に、窓関数は矩形状でも構わない。これにより、入力信号は重なり合わない近傍
セグメントに効率的に切り分けられる。このために、セグメントを形成するため
使用される窓関数は、直線的な矩形波であり、 W(t)=1 0≦t<Lの場合 W(t)=0 それ以外の場合 と表わされる。窓の変位(すなわち、窓の重なり合い)よりも幅が広い窓を使用
することが好ましい。好ましくは、各窓は次の窓の中心まで延びる。かくして、
音声信号の各時点は、(典型的に)2個の窓で覆われる。窓関数は、窓内で位置
の関数として変化し、窓の縁付近で零に漸近する。好ましくは、窓関数は、信号
内の同じ点を覆う2個の窓関数の和が時点とは無関係であるという意味で「自己
相補的」である。このような窓の一例が図2に示されている。この窓関数は、重
なり合う窓関数の和が時間とは独立しているという意味で自己相補的である点が
有利である。
【0027】 W(t)+W(t−L)=一定 0≦t<Lの場合 この条件は、例えば、 W(t)=1/2−A(t)cos[2πt/L+Φ(t)] の場合に成立し、式中、A(t)及びΦ(t)はtの周期関数であり、その周期
はLである。典型的な窓関数は、 A(t)=1/2 かつ Φ(t)=0 のときに獲得される。このような自己相補的な窓関数の周知例は、ハミング若し
くはハニング窓である。変位よりも幅の広い窓を使用することにより、重なり合
うセグメントが得られる。
【0028】 好ましくは、窓は局部ピッチ周期の範囲で移動する。この場合、「狭い」分析
セグメントが得られる(矩形状窓の場合に、セグメントの幅は局部ピッチ周期に
実質的に一致し、重なり合うセグメントの場合に、セグメントの幅は局部ピッチ
周期の2倍でもよい)。「雑音の度合い」は急速に変化するので、狭い分析セグ
メントを使用することにより、雑音値の正確な検出が可能になる。要求次第で、
窓は(時間的に)より長い距離を移動してもよいが、符号化の品質は低下する。
【0029】 図2には、オーディオ等価信号10の周期的区分に対するセグメンテーション
技術が例示されている。この区分内で、信号は、間隔L(ピッチ周期)の連続的
な周期11a、11b、11cの後に繰り返し現れる。音声信号の場合に、この
間隔は、女声に対して平均的に約5ミリ秒、男声に対して平均的に約10ミリ秒
である。時間窓の列12a、12b、12cは、信号10に対して配置される。
図2において、重なり合う時間窓が使用され、時間窓の中心は時点ti(i=1
,2,3,...)に置かれる。図示された各窓は、先行の窓の中心から始まり
、後続の窓の中心で終わる2周期Lに亘り広がる。その結果として、各時点は2
個の窓により覆われる。各時間窓12a、12b、12cは、それぞれの窓関数
W(t) 13a、13b、13cと関連する。信号セグメントの1番目の列1
4a、14b、14cは、それぞれの窓12a、12b、12cの窓関数に応じ
て信号10を重み付けすることにより形成される。この重み付けは、各窓内のオ
ーディオ等価信号100を、その窓の窓関数によって乗算することを意味する。
セグメント信号Si(t)は次式によって獲得される。
【0030】 Si(t)=W(t)X(t−ti) このようにして獲得された各セグメントは、ピッチ周期を決定する好ましい方
法の説明に続いて以下に詳細に説明されるように分析、復号化される。 [ピッチ決定] 本発明によるピッチ同期分析は、入力信号のピッチの正確な推定を必要とする
。原理的に、任意の適当なピッチ検出技術が使用され、ピッチ値の合理的な正確
な推定が行われる。要求された周波数帯域内の最大高調波の所定の瞬間(例えば
、ゼロ交差)は、サンプルの約10分の1の精度で検出され得る。
【0031】 ピッチを正確に決定する好ましい方法は、図3に示されたステップにより構成
される。ステップ310において、このピッチの未加工値が得られる。原理的に
、適当な技術を用いてこの未加工値が獲得される。好ましくは、同じ技術が2分
有声決定を行うため使用され、この2分有声決定は、音声信号の中の有声部分(
すなわち、識別可能な周期的信号を有する部分)と、無声のセグメントとを示す
。有声セグメントだけが更に分析されるべきである。ピッチは、例えば、ボイス
マークを信号に付加することによって手動で示される。好ましくは、局部周期長
、すなわち、ピッチ値は、自動的に決定される。従来の殆どの自動ピッチ検出方
法は、例えば、文献:D.J.Hermes, “Measurement of pitch by subharmonic su
mmation”, Journal of the Acoustical Society of America, Vol.83(1988), N
o.1, pages 257-264に記載されているような信号のスペクトル内のピーク間の距
離の決定に基づく。この技術は、例えば、100Hzのフレームレートで動作する
。他の方法は、連続的な周期間で信号の変化を最小限に抑える周期を選択する。
これらの技術の中の殆どは、ステップ310で必要とされるようなピッチの未加
工指標を獲得するため適当であるが、雑音値を決定する分析の基礎としてそのま
ま使用できる程度に高精度ではない。
【0032】 したがって、未加工ピッチ値に基づいて、より正確な決定が行われる。ステッ
プ320において、入力信号は、ピッチ検出セグメントと呼ばれるセグメントの
系列に分割される。上記の説明と同様に、このセグメントの系列は、時間窓の列
を信号に対して配置し、この信号をそれぞれの時間窓の窓関数を用いて重み付け
することにより得られる。重なり合う窓又は重なり合わない窓は、共に使用され
る。好ましくは、ハミング又はハニング窓のような重なり合う窓が使用される。
時間窓の信号に対する変位及び位置は、それほど重要ではない。例えば、窓は、
10ミリ秒の固定時間オフセットに亘って移動すれば十分である。重なり合う窓
が使用される場合、このような窓は信号の20ミリ秒に亘り延びる。要求次第で
、窓は信号の局部ピッチ周期に亘り移動する。
【0033】 ステップ330において、各ピッチ検出セグメントは、そのセグメント中の(
1次高調波とも称される)基本周波数成分を獲得するためフィルタ処理される。
フィルタリングは、例えば、1次高調波付近の帯域通過フィルタを使用して行わ
れる。好ましくは、フィルタリングは、入力信号のサイン/コサイン対との畳み
込みによって行われる。サイン/コサイン対の変調周波数は未加工ピッチ値に設
定される。畳み込み技術は信号処理の分野で周知である。簡単に説明すると、サ
イン及びコサインは、セグメントに関して配置される。セグメント中の各サンプ
ルに対し、サンプルの値は対応した時間におけるサインの値によって乗算される
。全ての獲得された積(乗算結果)は相互に減算され、周波数域でのピッチ周波
数成分の虚数部が得られる。同様に、セグメント中の各サンプルに対し、サンプ
ルの値が対応した時間でのコサインの値によって乗算される。全ての獲得された
積(乗算結果)は相互に加算され、周波数域でのピッチ周波数成分の実数部が得
られる。ピッチ周波数成分の振幅は、実数部と虚数部の平方和の平方根として与
えられる。位相は、虚数部を実数部で除算した値のアークタンジェント(位相が
所望のレンジ内に収まり、かつ、実数部が零に一致する場合にも処理できるよう
な補正が加えられた)として与えられる。
【0034】 以下のC言語のコードは畳み込みを実現するコードである。 void CalculateAmplitudeAndPhase(double pitchFreq, double sampleRate, dou
ble samples[], long numSamples, double *ampl, double *phase) { double a = 2.0 * PI / (sanpleRate / pitchFreq); double real = 0.0; double imag = 0.0; unsigned i; for (i=0; i<numSamples; i++){ real += samples[i] * cos(i*a); imag -= samples[i] * sin(i*a); } *ampl = sqrt( real * real + imag * imag ); *phase = real > 0.0 ? atan( imag / real ): real < 0.0 ? atan ( imag / re
al ) + PI : imag >= 0.0 ? 0.5 * PI : 1.5 * PI; } ステップ340において、フィルタ処理されたピッチ検出セグメントの連結が
行われる。セグメントがサイン/コサイン対との畳み込みを用いてフィルタ処理
された場合、最初に、フィルタ処理されたセグメントが決定された位相及び振幅
に基づいて作成される。これは、未加工ピッチ値に設定された変調周波数と、所
望の位相及び振幅とを用いてコサイン(又はサイン)生成することにより行われる
。コサインは、フィルタ処理されたピッチ検出セグメントを窓処理するため、そ
れぞれの窓に加重される。フィルタ処理されたピッチ検出セグメントは、各セグ
メントを元の時点に配置し、セグメントを足し合わせることにより連結される(
セグメントは重なり合うかもしれない)。この連結によって、フィルタ処理され
た信号が獲得される。ステップ350において、ピッチ周期/周波数に対する正
確な値がフィルタ処理された信号から獲得される。原理的に、ピッチ周期は、フ
ィルタ処理された信号の最大振幅及び/又は最小振幅の間の時間間隔として決定
され得る。ゼロ交差を決定する方が簡単であるため、ピッチ間隔はフィルタ処理
された信号の連続的なゼロ交差に基づいて決定される点が有利である。一般的に
、フィルタ処理された信号は、例えば、8又は16KHzでサンプリングされた
デジタルサンプルにより形成される。好ましくは、所望の振幅(例えば、最大振
幅又はゼロ交差)が信号中に発生する時点を決定する精度は、補間により高めら
れる。任意の従来の補間技術(例えば、最大振幅を決定するための放物線補間、
または、ゼロ交差の時点を決定するための線形補間)が使用される。このように
して、サンプリングレートを上回る精度が達成される。
【0035】 本発明による1次高調波フィルタリングの結果が図4に示されている。図4A
には、女性により発声された単語”(t)went(y)”の入力信号波形の一部が示され
ている。図4Bには畳み込み技術を用いて測定された未加工ピッチ値が示されて
いる。図4C及び4Dは、それぞれ、図4Aの入力信号の1次高調波フィルタリ
ングを実行した後の波形及びスペクトル線が示されている。
【0036】 上記のような正確なピッチを決定する方法は、オーディオ等価信号を符号化す
る他の方法、或いは、このような信号を操作する他の方法のため使用され得るこ
とが解る。例えば、ピッチ検出は、特に、東洋の言語用の音声認識システム、或
いは、ピッチ同期操作(例えば、ピッチ調節又は延長)が行える音声合成システ
ムで使用される。
【0037】 [高調波の雑音値の決定] 正確なピッチ周波数が決定された後、正確に決定されたピッチ周期から獲得さ
れるような基本周波数(ピッチ周波数)の複数の高調波に対し位相値が決定され
る。好ましくは、離散フーリエ変換(DFT)のような周波数域への変換は、高
調波の位相を決定するため使用され、正確に決定されたピッチ周波数は変換用の
基本周波数として使用される。この変換によって高調波に対する振幅値が得られ
、後段の合成/復号化のため使用される点が有利である。位相値は各高調波に対
する雑音値を推定するため使用される。入力信号が周期的又は略周期的であると
き、各高調波は連続的な周期の間で小さい位相差又は位相差ゼロを示す。入力信
号が非周期的であるとき、所定の高調波に対する連続的な周期間の位相差は不規
則である。かくして、位相差は、入力信号中に出現する周期的成分及び非周期的
成分の測定量である。信号の実質的に非周期的な部分に関し、位相差のランダム
な挙動に起因して、雑音成分の絶対測定量は個別の高調波に対し獲得されない。
例えば、所定の高調波周波数で、信号が非周期的成分によって支配されている場
合、2個の連続した周期の位相は略一致する。しかし、数個の高調波を平均的に
考慮した場合、非常に周期的な信号は殆ど位相差を生じないが、非常に非周期的
な信号は非常に大きい位相差(平均として、位相差π)を示す。好ましくは、位
相差の絶対値を獲得し、2πで除算することによって、1〜0の雑音係数が各高
調波に対し得られる。有声音(非常に周期的な信号)の場合に、この係数は、微
少又は0であり、有声摩擦音のような周期性の少ない信号の場合、雑音係数は0
よりもはるかに大きい。好ましくは、雑音係数は、周波数の関数として、位相差
の1次又は2次微係数のような微係数に依存して決定される。かくして、非常に
ロバスト性のある結果が獲得される。位相の微分成分を用いることによって雑音
による影響を受けないスペクトルが除去される。雑音係数は識別性を高めるため
スケーリングされる。
【0038】 図5には、有声音フレーム中の全ての高調波に対する(2次微係数に基づく)
雑音係数の一例が示されている。この有声音フレームは、男性によって発声され
、16KHzでサンプリングされた単語”(kn)o(w)”を記録したものである。図
5Aには、個々の高調波の振幅を表現するスペクトルが示されている。このスペ
クトルは、本発明による正確なピッチ周波数決定方法によって決定された135
.41Hzの基本周波数のDFTで決定される。16KHzのサンプリングレー
トが使用され、59個の高調波が得られる。35番目から38番目まで一部の高
調波の振幅値は非常に小さいことがわかる。図5Bには、本発明による方法を用
いて各高調波に対し見つけられた雑音係数が示されている。相対的に高い雑音度
が32番目の高調波と39番目の高調波の間の領域で生じることが非常に明瞭に
示されている。このように、本発明の方法によれば、入力信号中の雑音を含む成
分と殆ど雑音を含まない成分とを明瞭に識別される。また、雑音係数は、周波数
に依存して著しく変化することもわかる。要求に応じて、識別性は、高調波の振
幅を考慮することによって更に高められ、ここで、高調波の比較的小さい振幅は
高レベルの雑音度を表わす。例えば、ある高調波に対し、2個の連続した周期の
間の差が、その周波数で顕著な雑音のランダムな挙動に起因して小さい場合、雑
音係数は、振幅が小さいときには、好ましくは、0付近から、例えば、0.5(
若しくは、それ以上)までの範囲に補正される。その理由は、小さい振幅は、そ
の周波数で、非周期的成分の寄与度が周期的成分の寄与度と同等、或いは、それ
以上であることを意味するからである。
【0039】 上記の分析は、好ましくは、信号の有声音部分(すなわち、識別可能な周期的
成分を備えた有声音部分)だけに対して行われる。無声音部分では、雑音係数は
全ての周波数成分に対し1に設定され、この値1は最大雑音寄与度を意味する。
出力信号を合成するため使用される合成のタイプに依存して、入力信号の無声音
部分に対する情報を取得することも要求される。好ましくは、これは、有声音部
分に関して説明した分析方法と同じ分析方法を用いて行われ、例えば、5ミリ秒
の固定長の分析窓が使用され、信号はDFTを用いて分析される。無声音部分の
合成のためには、振幅だけを計算すればよく、雑音値が固定されているので、位
相情報は必要とされない。
【0040】 [合成] 好ましくは、信号セグメントは、各高周波の分析中に獲得された振幅情報から
作成される。これは、離散フーリエ逆変換(逆DFT)のような周波数域から時
間域への適当な変換を用いることにより行われる。本技術によれば、所定の振幅
を有するサインが高調波毎に発生させられ、全てのサインは一つに加算される。
これは、一般的に、各高調波毎に、その高調波の周波数とその高調波に対し決定
された振幅とをもつ1個ずつのサインを加算することによってデジタル的に行わ
れることに注意する必要がある。並列アナログ信号を発生させ、それらのアナロ
グ信号を加算する必要がない。分析により獲得されるような各高調波に対する振
幅は、その周波数での周期的成分と非周期的成分の結合強度を表現する。かくし
て、再合成信号は、両方の成分の強度を表現する。
【0041】 周期的成分に対し、原理的に、位相は高調波毎に自由に選択することができる
。本発明によれば、一定の高調波に対し、セグメントが(以下に詳述するように
、必要であるならば重なり合う形で)連結された場合に、制御できない位相ジャ
ンプが出力信号に発生しないように、連続的な信号セグメントのための初期位相
が選択される。例えば、セグメントは、ピッチ周期の複数倍(例えば、2倍)に
対応した区間を有し、セグメントの開始時(並びに、セグメントは高調波周期の
整数倍だけ持続するので、セグメントの終了時)、所定の高調波の位相が一致す
るよう選択される。連続したセグメントの連結中に位相ジャンプを回避すること
により、出力信号の自然さが改善される。
【0042】 1個のセグメント内で、全ての高調波が同じ位相で始まる必要はない。実際上
、多数の高調波の初期位相は、0から2πまでの範囲に適度に分布することが好
ましい。例えば、初期値は、以下のような(きわめて任意的な)値: 2π(k−0.5)/k に設定され、式中、kは高調波番号であり、時点ゼロは窓の中間で選択される。
スペクトル全体への非零値の分布は、合成された信号のエネルギーを時間的に拡
散し、合成された波形に高ピークが生じることを防止する。
【0043】 非周期的成分は、高調波の初期位相の所望の初期値に加算された乱数部分を用
いて表現される。高調波毎に、不規則性の量は分析によって決定されたような高
調波に対する雑音係数により決定される。顕著な非周期的成分が観察されない場
合、雑音は加算されず(すなわち、乱数部分は使用されない)、一方、非周期的
成分が支配的であるならば、高調波の初期位相は、(完全に非周期的信号の場合
に、−πから+πまでの範囲内の最大位相変化まで)不規則な変化の影響を著し
く受ける。0は雑音無しを表わし、1は完全に非周期的を表わす上記のような不
規則な雑音係数が定義された場合、乱数部分は、不規則な雑音係数を−πから+
πまでの範囲内の乱数で乗算することにより得られる。繰り返し性の無い雑音信
号の発生は、発生された音声の認知される自然さを著しく改善する。変化中の音
声入力信号が本発明に従って分析、再合成される試験によって、元の入力信号と
出力信号との間で殆ど差が検出できないことが判明した。この試験において、信
号のピッチ又は間隔の操作は行われていない。
【0044】 [間隔又はピッチの操作] 図2において、分析セグメントSi(t)は、信号10をそれぞれの窓関数W
(t)を用いて重み付けすることにより獲得された。分析セグメントは、符号化
形式で記憶された。合成の場合に、分析セグメントは上述の通り再作成される。
復号化されたセグメントをそのまま重ね合わせることにより、元の入力信号と類
似した信号が制御された位相挙動を伴って再作成される。好ましくは、セグメン
トは、後述の重ね合わせ及び加算技術を用いて復号化された音声断片部分の系列
の間隔又はピッチの操作が行えるように保たれる。
【0045】 図6には、各信号セグメントを系統的に持続若しくは繰り返すことにより、延
長されたオーディオ信号を形成することが示されている。信号セグメントは、好
ましくは、図1のステップ10で獲得されたものと同じセグメントである(符号
化と復号化が行われている)。図6Aには、信号セグメント14a乃至14fか
らなる1番目の系列14が示されている。図6Bは、間隔が1.5倍に延長され
た信号を示す図である。これは、1番目のシーケンス14の全てのセグメントを
持続し、系列中の一つおきのセグメント(例えば、奇数セグメント又は偶数セグ
メント)を系統的に繰り返すことにより獲得される。図6Cの信号は、シーケン
ス14の各セグメントを3回ずつ繰り返すことによって3倍に延長されている。
信号は逆の技術(すなわち、系統的にセグメントを抑制/飛び越しする技術)を
用いて短縮され得ることがわかる。
【0046】 延長技術は、識別可能な周期的成分を含まないオーディオ等価入力信号の一部
分を延長するため使用することが可能である。音声信号の場合に、このような一
部分の一例は無声音区間(ストレッチ)、すなわち、”ssss”のような摩擦音を
含む区間であり、この区間では、声帯は励振されない。音楽の場合に、非周期的
部分の一例は雑音部分である。周期的部分と同じような方法で実質的に非周期的
部分の間隔を延長するため、窓が信号に関して漸進的に配置される。窓は手動で
決められた位置に配置してもよい。或いは、連続的な窓が、非周期的部分を囲む
周期的部分のピッチ周期から獲得された時間的距離の全体を移動する。例えば、
最後の周期的セグメントに対し使用された変位と同じ変位(すなわち、最後のセ
グメントの周期に対応する変位)を選択してもよい。この変位は、最後の先行の
周期的セグメントと最初の後続の周期的セグメントの変位を補間することにより
決めても構わない。或いは、音声の場合には、好ましくは、性別に応じた一定変
位を選択してもよく、例えば、男声に対し10ミリ秒の変位を使用し、女声に対
し5ミリ秒の変位を使用する。
【0047】 信号を延長する場合、原理的に、窓を重なり合わない形で互いに隣接させて配
置することにより作成された重なり合いの無いセグメントを使用することができ
る。同じ技術が信号のピッチを変更するためにも使用される場合、例えば、図2
に示された窓のように、重なり合う窓を使用する方が好ましい。窓関数は自己相
補的である点が有利である。窓関数の自己相補的な特性は、獲得されたときと同
じ時間的関係でセグメントを重ね合わせることにより、確実に元の信号が得られ
ることである。出力信号Y(t)を得るため、復号化されたセグメントSi(t
)が重ね合わされる。(例えば、有声音の会話又は音楽のような)局部的に周期
的な信号のピッチ変化は、セグメントを重ね合わせる前に、元の位置ti(i=
1,2,3..)とは異なる新しい位置Tiにセグメントを配置することにより
獲得できる。例えば、ピッチが増大した出力信号を形成するため、セグメントは
、元の信号から獲得されたようなセグメントの距離よりも相互の中心間距離が圧
縮されるように重ね合わされる。セグメントの長さは同じ長さに保たれる。最後
に、セグメント信号は重ね合わされた出力信号Yを獲得すべく加算される。
【0048】 Y(t)=Σii(t−Ti) (図2の例の場合に、窓が2周期の幅であるとき、和は −L<t−Ti<L
であるインデックスiに制限される。)この構造の性質によって、出力信号Y(
t)は、入力信号10が周期的である場合に周期的になるが、出力の周期は、以
下の倍率だけ、すなわち、重ね合わせのため配置されたセグメント間の相互圧縮
/拡張距離と同じ量だけ入力周期と異なる。
【0049】 (ti−ti−1)/(Ti−Ti−1) セグメント距離が変化しない場合、出力信号Y(t)は、入力オーディオ等価
信号X(t)を生成する。セグメントの時間的位置を変更することにより、異な
る局部周期を有するという点で入力信号とは異なる出力信号が得られるが、スペ
クトルの包絡は略同一に保たれる。認知実験は、ピッチが1オクターブ以上変更
されても、非常に優れた認知音声品質が得られることを示した。
【0050】 ピッチを上昇させることの副作用として信号が短くなることがわかった。これ
は、上述の通り信号を延長することにより補償される。
【0051】 間隔/ピッチ操作方法は、周期的信号を、異なる周期と略同じスペクトル包絡
とを備えた新しい周期的信号に変換する。この方法は、例えば、有声音会話信号
又は音楽信号のような局部的に決定された周期を有する信号に均等に好適である
。これらの信号に対し、周期長Lは時間的に変化し、すなわち、i番目の周期は
周期固有の長さLiを有する。この場合、窓の長さは、周期長が変化すると共に
、時間的に変更されるべきであり、窓関数W(t)は、このような窓を覆うため
局部周期に対応した倍率Liによって時間的に伸長されるべきである。
【0052】 Si(t)=W(t/Li)X(t−ti) 自己相補的な重なり合う窓の場合に、窓関数の自己相補性を保存することが望ま
しい。これは、別々に伸長された左右の部分(左部分はt<0、右部分はt>0
)を備えた窓関数を使用することにより実現され得る。
【0053】 Si(t)=W(t/Li)X(t+ti) (−Li<t<0) Si(t)=W(t/Li+1)X(t+ti) (0<t<Li+1) 式中、各部は固有の倍率Li並びにLi+1によって伸長される。これらの倍率は
、対応した左側の重なり合い窓及び右側の重なり合い窓の係数に固有である。
【0054】 実験によって、上記の方法で操作された局部的に周期的な入力オーディオ等価
信号断片部分は、人間の聴覚には入力オーディオ等価信号と同じ品質であり、か
つ、入力オーディオ等価信号とは異なるピッチ及び/又は間隔を有する出力信号
を生じることがわかった。ここで、本発明の符号化方法を適用することにより、
位相ジャンプは、音声断片部分間で変化が生じる高調波周波数に対し発生しない
ことが保証される。かくして、特に、比較的短い音声断片部分の連結に基づく音
声合成の場合に、品質が改良される。試験を行うことによって、高調波に対する
位相が制御されたセグメントを使用することに起因した音声合成の改良は、信号
を伸長するためセグメントが繰り返されるときに、より一層顕著であることがわ
かった。セグメントの繰り返しは、たとえセグメント自体が非常に非周期的であ
るとしても、周期的な要素を含むように観察される信号を発生させる。非周期的
セグメントに対し、連続的なセグメントの位相が実質的に不規則に変化すること
を保証することにより、繰り返しは回避される。
【0055】 図2に示された窓12は、声帯が励振された時点の中心に配置されている。こ
のような時点の周辺、特に、先鋭的に画成された終端点では、信号振幅が(特に
、高い周波数側で)より大きくなる傾向がある。強度が周期の短い区間に集中し
ている信号の場合、このような区間の周辺に窓の中心を配置することにより、信
号が最も忠実に再生される。殆どの場合に、音声再生に優れた知覚的品質を得る
ために、声帯の励振の瞬間に対応した時点の周辺に、或いは、音声信号中でその
事について検出可能な場所に窓を配置する必要が無いことは、欧州特許出願EP-A
0527527及び欧州特許出願EP-A 0527529により公知である。むしろ、優れた結果
は、適切な窓の幅と、規則的な隙間とを用いることによって得られる。窓が声帯
の励振の時点に関して任意のところに配置され、連続的な窓の位置が緩やかに変
化されるとしても、良質の可聴信号が得られる。このような技術に対し、窓は、
絶対的な位相基準を用いることなく、局部的な周期長さずつ離間させて漸進的に
配置される。
【0056】 符号化及び合成方法の完全な実装が実現され、数通りの他のボコーダー実現例
、特に、典型的なLPCボコーダーと比較された。ピッチ及び間隔を操作する場合
に、新規の合成技術の優位性が示された。試験システムによって、元のピッチ及
び間隔の輪郭形状を操作することができた。新規の方法に従って新しいピッチ列
を用いて合成された音声は、最初に記録された音声断片部分にそのまま作用する
従来のPSOLA操作後の音声よりも非常に良質に聞こえる。また、無声音会話部分
を実質的に伸長させることによって、新規の方法を適用する際により良好な結果
が得られる。これらの試験中に、繰り返された各セグメントは新しい乱数を用い
て合成され、雑音信号に周期性を導入するアーティファクトが回避される。
【0057】 上記の符号化及び合成方法は、適当な装置及びシステムに組み込まれ得る。か
かる装置は、従来のコンピュータ技術を用いて構築され、本発明による方法のス
テップを実行するようにプログラミングされる。典型的に、本発明による符号器
は、アナログオーディオ入力信号をデジタル信号に変換するA/D変換器を具備
する。デジタル信号は、主記憶装置若しくは補助記憶装置に保存される。DSP
のようなプロセッサは、符号化を行うようにプログラミングされる。このように
プログラミングされたプロセッサは、信号中の連続的なピッチ周期/周波数を決
定する役割を果たす。また、プロセッサは、時間窓の列を信号に関して配置し、
それぞれの時間窓の関連した窓関数に応じて信号を重み付けすることによって、
相互に重なり合い、或いは、隣接した分析セグメントの系列を形成する。プロセ
ッサは、各分析セグメントの複数の周波数成分に対し振幅値及び位相値を決定す
るようプログラミングしてもよく、ここで、この周波数成分には、分析セグメン
トに対応したピッチ周波数の複数の高調波周波数が含まれる。符号器のプロセッ
サは、分析セグメントの周波数成分に対する位相値を、少なくとも1個の先行又
は後続の分析セグメントに対する対応した位相値と比較することにより、その周
波数で周期的成分及び非周期的成分が分析セグメントに寄与する度合いを表現す
る各周波数成分に対する雑音値を決定する。最後に、プロセッサは、各分析セグ
メント毎の各周波数成分に対する振幅値及び雑音値を用いてオーディオ等価信号
を表現する。プロセッサは、符号化された信号を符号器の記憶媒体(例えば、ハ
ードディスク、CD−ROM、若しくは、フロッピーディスク)に保存し、又は
、符号化された信号を、モデムのような符号器の通信手段を用いて他の装置に転
送する。符号化された信号は、復号器によって取得若しくは受信され、この復号
器は(典型的に、プロセッサの制御下で)信号を復号化する。復号器は、選択さ
れた符号化信号断片部分毎に、符号化信号断片部分を時間域に変換することによ
って、対応した信号断片部分を作成する。ここで、符号化された周波数成分毎に
、非周期的信号成分は、周波数成分に対するそれぞれの雑音値に従って加算され
る。信号を再生するため、復号器は、D/A変換器及び増幅器を具備する。復号
器は、音声合成器のような合成器(シンセサイザ)の一部分でもよい。合成器は
、例えば、テキスト的に表現された文を再生するため必要とされるような符号化
された音声断片部分を選択し、断片部分を復号化し、断片部分を連結する。また
、信号の間隔及び韻律が操作され得る。
【図面の簡単な説明】
【図1】 本発明による符号化方法の概要図である。
【図2】 信号のセグメンテーションを表わす図である。
【図3】 本発明による1次高調波フィルタリング技術を用いてピッチ値を正確に決定す
る方法を説明する図である。
【図4】 1次高調波フィルタリングの結果を示す図である。
【図5】 本発明による分析を用いて雑音値を示す図である。
【図6】 合成された信号の拡張を説明する図である。
───────────────────────────────────────────────────── フロントページの続き (71)出願人 Groenewoudseweg 1, 5621 BA Eindhoven, Th e Netherlands

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 信号の連続的なピッチ周期/周波数を決定するステップと、 時間窓の列を上記信号に関して配置し、それぞれの時間窓の関連した窓関数に
    応じて上記信号を重み付けすることにより、相互に重なり合い、若しくは、隣接
    した分析セグメントの系列を形成するステップと、 上記各分析セグメント毎に、 上記分析セグメントに対応したピッチ周波数の複数個の高調波周波数を含む上
    記分析セグメントの複数の周波数成分に対する振幅値及び位相値を決定するステ
    ップと、 上記分析セグメントの上記周波数成分を、少なくとも1個の先行又は後続の分
    析セグメントに対する対応した位相値と比較することにより、上記各周波数成分
    に対し、上記周波数における周期的成分及び非周期的成分の上記分析セグメント
    に対する寄与度を表現する雑音値を決定するステップと、 上記各周波数成分に対する上記振幅値及び上記雑音値を用いて上記分析セグメ
    ントを表現するステップとを有する、オーディオ等価信号を符号化する方法。
  2. 【請求項2】 上記時間窓の列の配置は、連続した各時間窓を直前の時間窓
    に関して実質的に局部ピッチ周期の量ずつ移動させることにより行われることを
    特徴とする請求項1記載のオーディオ等価信号を符号化する方法。
  3. 【請求項3】 信号の連続的なピッチ周期/周波数を決定するステップは、 上記信号に関して配置された時間窓の列の中の各時間窓の関連した窓関数に応
    じて上記信号を重み付けすることにより、相互に重なり合い、若しくは、隣接し
    たピッチ検出セグメントを形成するステップと、 上記ピッチ検出セグメント毎に、上記ピッチ検出セグメントの上記ピッチ周波
    数/周期の初期値を推定し、上記推定されたピッチ周波数の初期値に実質的に対
    応する周波数をもつ周波数成分を獲得するため上記ピッチ検出セグメントをフィ
    ルタ処理することによってフィルタ処理された信号を形成するステップと、 上記フィルタ処理された信号から上記連続的なピッチ周期/周波数を決定する
    ステップとを有することを特徴とする請求項1記載のオーディオ等価信号を符号
    化する方法。
  4. 【請求項4】 上記フィルタ処理された信号を形成するステップは、 同一の変調周波数を備えたサイン関数とコサイン関数に振幅値及び位相値を与
    えて、上記推定されたピッチ周波数の初期値に実質的に対応した変調周波数を備
    えたサイン関数とコサイン関数の対を用いて上記ピッチ検出セグメントを畳み込
    むステップと、 決定された振幅及び位相を備えた窓型にされたサイン関数とコサイン関数を発
    生させることにより、フィルタ処理されたピッチ検出セグメントを形成するステ
    ップと、 上記フィルタ処理されたピッチ検出セグメントの系列を連結するステップとを
    有することを特徴とする請求項3記載のオーディオ等価信号を符号化する方法。
  5. 【請求項5】 上記フィルタ処理された信号はデジタルサンプルの時系列と
    して表現され、 上記フィルタ処理された信号の連続的なピッチ周期/周波数を決定するステッ
    プは、 上記デジタルサンプルの時系列が、極大値若しくは極小値であるか、又は、零
    値と交差するような所定の条件を満たす連続的な時点を推定するステップと、 上記推定された時点の周辺で複数のサンプルを補間することにより上記各時点
    をより正確に決定するステップとを有することを特徴とする請求項3記載のオー
    ディオ等価信号を符号化する方法。
  6. 【請求項6】 上記振幅値及び/又は位相値を決定するステップにおいて、
    上記ピッチ周波数を変換の基本周波数として用いて上記分析セグメントを周波数
    域に変換することを特徴とする請求項1記載のオーディオ等価信号を符号化する
    方法。
  7. 【請求項7】 上記雑音値を決定するステップにおいて、上記分析セグメン
    トの上記周波数成分に対する上記位相値と、少なくとも1個の先行又は後続の分
    析セグメントの対応した位相値との差を計算することを特徴とする請求項1記載
    のオーディオ等価信号を符号化する方法。
  8. 【請求項8】 上記雑音値を決定するステップにおいて、上記分析セグメン
    トの上記周波数成分に対する上記位相値の微係数と、少なくとも1個の先行又は
    後続の分析セグメントの対応した位相値の微係数との差を計算することを特徴と
    する請求項1記載のオーディオ等価信号を符号化する方法。
  9. 【請求項9】 信号の連続的なピッチ周期/周波数を決定する手段と、 時間窓の列を上記信号に関して配置し、それぞれの時間窓の関連した窓関数に
    応じて上記信号を重み付けすることにより、相互に重なり合い、若しくは、隣接
    した分析セグメントの系列を形成する手段と、 上記各分析セグメント毎に、上記分析セグメントに対応したピッチ周波数の複
    数個の高調波周波数を含む上記分析セグメントの複数の周波数成分に対する振幅
    値及び位相値を決定する手段と、 上記各分析セグメント毎に、上記分析セグメントの上記周波数成分を、少なく
    とも1個の先行又は後続の分析セグメントに対する対応した位相値と比較するこ
    とにより、上記各周波数成分に対し、上記周波数における周期的成分及び非周期
    的成分の上記分析セグメントに対する寄与度を表現する雑音値を決定する手段と
    、 上記各分析セグメント毎に、上記各周波数成分に対する上記振幅値及び上記雑
    音値を用いて上記分析セグメントを表現する手段とを有する、オーディオ等価信
    号を符号化する装置。
  10. 【請求項10】 複数音のような符号化されたオーディオ等価入力信号断片
    部分からオーディオ等価信号を合成する方法であって、 請求項1記載のオーディオ等価信号を符号化する方法に従って符号化された符
    号化信号断片部分から選択された1個の符号化信号断片部分を獲得するステップ
    と、 上記獲得された符号化信号断片部分毎に、信号断片部分を時間域に変換するこ
    とにより対応した信号断片部分を作成するステップとを有し、符号化された周波
    数成分毎に、非周期的信号成分が上記周波数成分に対するそれぞれの雑音値に応
    じて加算されることを特徴とする方法。
  11. 【請求項11】 上記時間域への変換において、三角関数的な統合が行われ
    ることを特徴とする請求項10記載の方法。
  12. 【請求項12】 複数音のような符号化されたオーディオ等価入力信号断片
    部分からオーディオ等価信号を合成するシステムであって、 上記オーディオ等価信号の符号化表現を記憶媒体に保存する手段を備えた請求
    項9記載のオーディオ等価信号を符号化する装置と、合成器とにより構成され、 上記合成器は、 上記記憶媒体から、上記符号化する装置によって符号化された信号断片部分の
    中から選択された符号化信号断片部分を獲得する手段と、 上記選択された符号化信号断片部分毎に、上記符号化信号断片を時間域に変換
    することにより対応した信号断片部分を作成する手段とを具備し、符号化された
    周波数成分毎に、非周期的信号成分が上記周波数成分に対するそれぞれの雑音値
    に従って加算されることを特徴とするシステム。
  13. 【請求項13】 請求項12記載の合成器。
JP2000548870A 1998-05-11 1999-04-30 位相変化からの雑音寄与度の決定に基づく音声符号化 Withdrawn JP2002515610A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP98201525 1998-05-11
EP98201525.7 1998-06-30
PCT/IB1999/000790 WO1999059139A2 (en) 1998-05-11 1999-04-30 Speech coding based on determining a noise contribution from a phase change

Publications (1)

Publication Number Publication Date
JP2002515610A true JP2002515610A (ja) 2002-05-28

Family

ID=8233703

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000548870A Withdrawn JP2002515610A (ja) 1998-05-11 1999-04-30 位相変化からの雑音寄与度の決定に基づく音声符号化

Country Status (5)

Country Link
US (1) US6453283B1 (ja)
EP (1) EP0995190B1 (ja)
JP (1) JP2002515610A (ja)
DE (1) DE69926462T2 (ja)
WO (1) WO1999059139A2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006196978A (ja) * 2005-01-11 2006-07-27 Kddi Corp ビーム制御装置、アレーアンテナシステムおよび無線装置
WO2013176177A1 (ja) * 2012-05-23 2013-11-28 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム、および記録媒体
JP2017504054A (ja) * 2013-12-16 2017-02-02 サムスン エレクトロニクス カンパニー リミテッド オーディオ信号の符号化方法、復号方法及びその装置
JP7509417B2 (ja) 2020-09-25 2024-07-02 株式会社エヌエフホールディングス 高調波計測装置とそれを用いた単独運転検出方式

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7035794B2 (en) * 2001-03-30 2006-04-25 Intel Corporation Compressing and using a concatenative speech database in text-to-speech systems
GB2375027B (en) * 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
JP4451665B2 (ja) * 2002-04-19 2010-04-14 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声を合成する方法
US7024358B2 (en) * 2003-03-15 2006-04-04 Mindspeed Technologies, Inc. Recovering an erased voice frame with time warping
US7558389B2 (en) * 2004-10-01 2009-07-07 At&T Intellectual Property Ii, L.P. Method and system of generating a speech signal with overlayed random frequency signal
US8073042B1 (en) * 2005-04-13 2011-12-06 Cypress Semiconductor Corporation Recursive range controller
US8000958B2 (en) * 2006-05-15 2011-08-16 Kent State University Device and method for improving communication through dichotic input of a speech signal
JP5141688B2 (ja) 2007-09-06 2013-02-13 富士通株式会社 音信号生成方法、音信号生成装置及びコンピュータプログラム
EP2116999B1 (en) * 2007-09-11 2015-04-08 Panasonic Corporation Sound determination device, sound determination method and program therefor
US8155346B2 (en) 2007-10-01 2012-04-10 Panasonic Corpration Audio source direction detecting device
WO2010038385A1 (ja) * 2008-09-30 2010-04-08 パナソニック株式会社 音判定装置、音判定方法、及び、音判定プログラム
WO2010038386A1 (ja) * 2008-09-30 2010-04-08 パナソニック株式会社 音判定装置、音検知装置及び音判定方法
US9947340B2 (en) 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
GB2466201B (en) * 2008-12-10 2012-07-11 Skype Ltd Regeneration of wideband speech
GB0822537D0 (en) * 2008-12-10 2009-01-14 Skype Ltd Regeneration of wideband speech
WO2011013244A1 (ja) 2009-07-31 2011-02-03 株式会社東芝 音声処理装置
EP2302845B1 (en) 2009-09-23 2012-06-20 Google, Inc. Method and device for determining a jitter buffer level
EP2360680B1 (en) * 2009-12-30 2012-12-26 Synvo GmbH Pitch period segmentation of speech signals
US8630412B2 (en) 2010-08-25 2014-01-14 Motorola Mobility Llc Transport of partially encrypted media
US8477050B1 (en) * 2010-09-16 2013-07-02 Google Inc. Apparatus and method for encoding using signal fragments for redundant transmission of data
US8856212B1 (en) 2011-02-08 2014-10-07 Google Inc. Web-based configurable pipeline for media processing
FR2977969A1 (fr) * 2011-07-12 2013-01-18 France Telecom Adaptation de fenetres de ponderation d'analyse ou de synthese pour un codage ou decodage par transformee
KR102413692B1 (ko) * 2015-07-24 2022-06-27 삼성전자주식회사 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
US10382143B1 (en) * 2018-08-21 2019-08-13 AC Global Risk, Inc. Method for increasing tone marker signal detection reliability, and system therefor
CN111025015B (zh) * 2019-12-30 2023-05-23 广东电网有限责任公司 一种谐波检测方法、装置、设备和存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4797926A (en) * 1986-09-11 1989-01-10 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech vocoder
AT389235B (de) 1987-05-19 1989-11-10 Stuckart Wolfgang Verfahren zur reinigung von fluessigkeiten mittels ultraschall und vorrichtungen zur durchfuehrung dieses verfahrens
US5095904A (en) * 1989-09-08 1992-03-17 Cochlear Pty. Ltd. Multi-peak speech procession
JP3038755B2 (ja) * 1990-01-22 2000-05-08 株式会社明電舎 音声合成装置の音源データ生成方法
EP0527529B1 (en) 1991-08-09 2000-07-19 Koninklijke Philips Electronics N.V. Method and apparatus for manipulating duration of a physical audio signal, and a storage medium containing a representation of such physical audio signal
US5189701A (en) * 1991-10-25 1993-02-23 Micom Communications Corp. Voice coder/decoder and methods of coding/decoding
FR2687496B1 (fr) * 1992-02-18 1994-04-01 Alcatel Radiotelephone Procede de reduction de bruit acoustique dans un signal de parole.
US5809459A (en) * 1996-05-21 1998-09-15 Motorola, Inc. Method and apparatus for speech excitation waveform coding using multiple error waveforms
US5903866A (en) * 1997-03-10 1999-05-11 Lucent Technologies Inc. Waveform interpolation speech coding using splines
US6055499A (en) * 1998-05-01 2000-04-25 Lucent Technologies Inc. Use of periodicity and jitter for automatic speech recognition
US6067511A (en) * 1998-07-13 2000-05-23 Lockheed Martin Corp. LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech
US6119082A (en) * 1998-07-13 2000-09-12 Lockheed Martin Corporation Speech coding system and method including harmonic generator having an adaptive phase off-setter
US6081776A (en) * 1998-07-13 2000-06-27 Lockheed Martin Corp. Speech coding system and method including adaptive finite impulse response filter

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006196978A (ja) * 2005-01-11 2006-07-27 Kddi Corp ビーム制御装置、アレーアンテナシステムおよび無線装置
WO2013176177A1 (ja) * 2012-05-23 2013-11-28 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム、および記録媒体
CN104321814A (zh) * 2012-05-23 2015-01-28 日本电信电话株式会社 编码方法、解码方法、编码装置、解码装置、程序以及记录介质
JP2017504054A (ja) * 2013-12-16 2017-02-02 サムスン エレクトロニクス カンパニー リミテッド オーディオ信号の符号化方法、復号方法及びその装置
JP7509417B2 (ja) 2020-09-25 2024-07-02 株式会社エヌエフホールディングス 高調波計測装置とそれを用いた単独運転検出方式

Also Published As

Publication number Publication date
DE69926462D1 (de) 2005-09-08
WO1999059139A3 (en) 2000-02-17
EP0995190A2 (en) 2000-04-26
WO1999059139A2 (en) 1999-11-18
DE69926462T2 (de) 2006-05-24
EP0995190B1 (en) 2005-08-03
US6453283B1 (en) 2002-09-17
WO1999059139A8 (en) 2000-03-30

Similar Documents

Publication Publication Date Title
JP4641620B2 (ja) ピッチ検出の精密化
JP2002515610A (ja) 位相変化からの雑音寄与度の決定に基づく音声符号化
Rao et al. Prosody modification using instants of significant excitation
US8280738B2 (en) Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method
JP2787179B2 (ja) 音声合成システムの音声合成方法
US8280724B2 (en) Speech synthesis using complex spectral modeling
JP2001522471A (ja) 特定の声を目標とする音声変換
US8370153B2 (en) Speech analyzer and speech analysis method
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
KR100457414B1 (ko) 음성합성방법, 음성합성장치 및 기록매체
US6208960B1 (en) Removing periodicity from a lengthened audio signal
US7822599B2 (en) Method for synthesizing speech
US10354671B1 (en) System and method for the analysis and synthesis of periodic and non-periodic components of speech signals
JP2612867B2 (ja) 音声ピッチ変換方法
Gigi et al. A mixed-excitation vocoder based on exact analysis of harmonic components
JP3321933B2 (ja) ピッチ検出方法
JPH07261798A (ja) 音声分析合成装置
JP3398968B2 (ja) 音声分析合成方法
JPH09510554A (ja) 言語合成
Gupta et al. Efficient frequency-domain representation of LPC excitation
JP3967571B2 (ja) 音源波形生成装置、音声合成装置、音源波形生成方法およびプログラム
Vijayan et al. Prosody Modification Using Allpass Residual of Speech Signals.
Lavner et al. Voice morphing using 3D waveform interpolation surfaces and lossless tube area functions
Min et al. A hybrid approach to synthesize high quality Cantonese speech
JP2000330582A (ja) 音声変形方法、その装置、及びプログラム記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060427

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20070823