JP4641620B2 - ピッチ検出の精密化 - Google Patents
ピッチ検出の精密化 Download PDFInfo
- Publication number
- JP4641620B2 JP4641620B2 JP2000548869A JP2000548869A JP4641620B2 JP 4641620 B2 JP4641620 B2 JP 4641620B2 JP 2000548869 A JP2000548869 A JP 2000548869A JP 2000548869 A JP2000548869 A JP 2000548869A JP 4641620 B2 JP4641620 B2 JP 4641620B2
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- frequency
- segment
- signal
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims description 54
- 238000000034 method Methods 0.000 claims description 56
- 230000006870 function Effects 0.000 claims description 49
- 238000001914 filtration Methods 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 9
- 230000000737 periodic effect Effects 0.000 description 42
- 239000012634 fragment Substances 0.000 description 27
- 238000004458 analytical method Methods 0.000 description 25
- 238000006073 displacement reaction Methods 0.000 description 20
- 230000015572 biosynthetic process Effects 0.000 description 17
- 238000003786 synthesis reaction Methods 0.000 description 17
- 230000005236 sound signal Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 230000001419 dependent effect Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 210000001260 vocal cord Anatomy 0.000 description 5
- 230000005284 excitation Effects 0.000 description 4
- 230000001788 irregular Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000001149 cognitive effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000695 excitation spectrum Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
本発明は、オーディオ等価信号の連続的なピッチ周期/周波数を決定する方法であって、
上記オーディオ等価信号を相互に重なり合い、若しくは、隣接したピッチ検出セグメントに分割するステップと、
上記ピッチ検出セグメント毎に、上記ピッチ周期/周波数の初期値を決定するステップと、
上記決定された初期値に基づいて、上記ピッチ周期/周波数の正確な値を決定するステップとを有する方法に関する。
【0002】
本発明は、相互に重なり合い、若しくは、隣接したピッチ検出セグメントの系列を形成するセグメンテーション手段と、
上記ピッチ検出セグメント毎に、ピッチ周期/周波数の初期値を決定するピッチ検出手段と、
上記決定された初期値に基づいて、上記ピッチ周期/周波数の正確な値を決定するピッチ精密化手段とを有し、オーディオ等価信号の連続的なピッチ周期/周波数を決定する装置に関する。
【0003】
本発明は、未加工初期ピッチ値を精密化することにより、オーディオ等価信号のピッチ周期/周波数を正確に決定することに関する。正確に決定されたピッチ値は、音声符号化、音声分析及び音声合成のような種々のアプリケーションに使用される。ピッチ精密化方法自体は、文献:Daniel W. Griffin and Jae S. Lim, “Mixed Excitation Vocoder”, IEEE Transactions on Acoustics, Speech and Signal Processing, Vol.36, No.8, August 1988, pages 1223-1235によって公知である。この方法によれば、音声信号は、時間窓で信号を重み付けし、所望のセグメントを選択するため上記時間窓を移動させることにより、ピッチ検出セグメントの系列に分割される。セグメントは、約10乃至40ミリ秒の間隔を有する。ピッチ検出セグメントのフーリエ変換は、スペクトル包絡と励振スペクトルの積としてモデル化される。励振スペクトルは、基本周波数と、周波数依存型の2分有声音/無声音混合関数とによって指定される。ピッチ検出セグメントの初期ピッチ周期は、10kHzサンプリングレートに対し20乃至100サンプルの全ての整数ピッチ周期について誤差規準を計算することによって決定される。誤差条件は、モデル化された合成スペクトルを実際のセグメントのスペクトルとの比較を含む。誤差規準を最小化するピッチ周期は初期ピッチ周期として選択される。精密化された正確なピッチ値は、最良整数ピッチ周期推定値を初期の粗いピッチ周期推定値として使用することによって決定される。次に、誤差規準は、連続的な精密評価グリッドを用いてこの推定値に局所最小化される。最終的なピッチ周期推定値は、この局所最小化の際に最小誤差を生ずるピッチ周期として選択される。
【0004】
ピッチの正確な推定値を得るため、連続的に精密化されるグリッドに基づく数回の反復が必要とされる。その上、誤差条件の計算は計算量が膨大である。従来の方法は、粗い評価と精密な評価の両方で同一の固定的に選択された検出セグメントの間隔を使用する。セグメントの間隔は、特に、高いピッチの声の場合に、数ピッチ周期に達する。その結果として、このような間隔内でのピッチの変化はにじみ、或いは、平均化され、ピッチが検出できる正確さが制限される。
【0005】
本発明の目的は、オーディオ等価信号の連続的なピッチ周期/周波数を決定する上記のタイプの方法及び装置であって、妥当な計算量でピッチを正確に決定することができる方法及び装置を提供することである。
【0006】
上記目的を達成するため、本発明の方法は、上記ピッチ周期/周波数の正確な値を決定するステップは、
上記オーディオ等価信号に関して時間窓の列を配置し、
上記各時間窓の関連した窓関数に応じて上記信号を重み付けすることにより、
各ピッチ精密化セグメントが少なくとも1個のピッチ検出セグメントと関連しているピッチ精密化セグメントの系列を形成するステップと、
関連したピッチ検出セグメントの初期的に決定されたピッチ周波数に実質的に対応した周波数をもつ周波数成分を抽出するため各ピッチ精密化セグメントをフィルタリングすることによりフィルタ処理された信号を形成するステップと、
上記フィルタ処理された信号から上記連続的なピッチ周期/周波数を決定するステップとを有する。
【0007】
本発明によれば、ピッチの粗い推定値を決定するため適当な技術が使用される。初期推定値を作成した後、信号は、信号に出現する最低の高調波を抽出するためフィルタ処理される。このフィルタ処理は、決定された粗いピッチ値に追従する。例えば、帯域通過フィルタは、信号がフィルタを通過するときに、信号の対応した部分のピッチ周波数周辺の帯域を通すため絶えず調整される。かくして、フィルタ処理された信号が獲得され、この信号ではピッチ周波数成分が非常に支配的である。適当な技術を用いることにより、ピッチの正確な推定値がフィルタ処理された信号に基づいて作成される。ピッチ検出の推定は、それ自体は簡単であり、例えば、ピーク検出又はゼロ交差検出に基づいて行われる。
【0008】
初期の粗い推定は、あらゆるピッチ周波数を検出することができるように、かなり大きいピッチ検出セグメント、例えば、40ミリ秒のピッチ検出セグメントを用いて行われる。粗い推定の後に続く精密化の一部として、新しいピッチ精密化セグメントが作成される。精密化セグメントの間隔は、原理的に、粗い推定を行うため使用されたピッチ検出セグメントの間隔とは無関係である。特に、ピッチ検出セグメントが非常に大きい場合、ピッチ精密化セグメントの間隔は、ピッチの著しいボケ/平均化を回避するように選択される。かくして、フィルタ処理は、ピッチの進みを正確に追うように調整され、その結果として、正確にフィルタ処理された信号が得られる。
【0009】
従属請求項2に記載された本発明の一実施例によれば、フィルタ処理は、初期的に推定されたピッチ周波数でのサイン関数/コサイン関数の対による畳み込みに基づいて行われ、フィルタ処理されたセグメントは初期的に推定されたピッチ周波数を用いて作成されたサイン関数又はコサイン関数によって表現される。かくして、雑音のような望ましくない信号成分は伝搬されない。
【0010】
従属請求項3に記載された本発明の一実施例によれば、補間がサンプリングされた信号の解像度を高めるため使用される。
【0011】
従属請求項4に記載された本発明の一実施例によれば、ピッチ精密化セグメントは、粗いピッチ推定値に依存する周期に亘り時間窓を移動させることにより作成される。例えば、ピッチ精密化セグメントを形成するための時間窓の変位は、初期推定値を用いて測定された最低ピッチに対応し、一方、ピッチ検出セグメントは、例えば、40ミリ秒の固定変位で選択された。このようにして、特に、高いピッチの声の場合に、ピッチの進みは非常に正確に追従され得る。
【0012】
従属請求項5に記載された本発明の一実施例によれば、変位は、信号の一部に対し初期的に決定されたピッチ周期に対応する。初期ピッチ値の変化が出現するとき、非対称性窓が使用される。或いは、計算オーバーヘッドを回避するため、対称性窓が、例えば、関連した初期ピッチ周期の平均に亘って移動させられてもよい。
【0013】
上記目的を達成するため、本発明による装置は、上記ピッチ精密化手段が、
上記オーディオ等価信号に関して時間窓の列を配置し、上記各時間窓の関連した窓関数に応じて上記信号を重み付けすることにより、各ピッチ精密化セグメントが少なくとも1個のピッチ検出セグメントと関連しているピッチ精密化セグメントの系列を形成するセグメンテーション手段と、
関連したピッチ検出セグメントの初期的に決定されたピッチ周波数に実質的に対応した周波数をもつ周波数成分を抽出するため各ピッチ精密化セグメントをフィルタリングすることによりフィルタ処理された信号を形成するフィルタリング手段と、
上記フィルタ処理された信号から上記連続的なピッチ周期/周波数を決定する手段とを有することを特徴とする。
【0014】
本発明の上記局面及び他の局面は、添付図面に記載された実施例を参照して、明瞭にされ、解明される。
【0015】
[ピッチ精密化]
図1には、本発明に従ってピッチを正確に決定する方法が示されている。ステップ110において、このピッチの未加工値が得られる。原理的に、適当な技術を用いてこの未加工値が獲得される。好ましくは、同じ技術が2分有声決定を行うため使用され、この2分有声決定は、音声信号の中の有声部分(すなわち、識別可能な周期的信号を有する部分)と、無声のセグメントとを示す。有声セグメントだけが更に分析されるべきである。ピッチは、例えば、ボイスマークを信号に付加することによって手動で示される。好ましくは、局部周期長、すなわち、ピッチ値は、自動的に決定される。従来の殆どの自動ピッチ検出方法は、例えば、文献:D.J.Hermes, “Measurement of pitch by subharmonic summation”, Journal of the Acoustical Society of America, Vol.83(1988), No.1, pages 257-264に記載されているような信号のスペクトル内のピーク間の距離の決定に基づく。典型的に、従来のピッチ検出アルゴリズムは、約20乃至50ミリ秒のセグメントを分析する。これらのセグメントは、ピッチ検出セグメントと称される。
【0016】
未加工ピッチ値に基づいて、より正確な決定が行われる。ステップ120において、入力信号は、ピッチ精密化セグメントと呼ばれるセグメントの系列に分割される。後で詳述するように、このセグメントの系列は、時間窓の列を信号に関して配置し、この信号をそれぞれの時間窓の窓関数を用いて重み付けすることにより得られる。
【0017】
ステップ130において、各ピッチ検出セグメントは、そのセグメント中の(1次高調波とも称される)基本周波数成分を獲得するためフィルタ処理される。フィルタリングは、例えば、1次高調波付近の帯域通過フィルタを使用して行われる。信号に1次高調波が存在しない場合(例えば、信号が電話回線を経由して供給され、最低周波数が失われた場合)、出現した最初の高調波が抽出され、ピッチの表現を検出するために使用される。殆どのアプリケーションにおいて、1個の高調波、好ましくは、より低い高調波の中の1個の高調波を正確に検出するだけで十分である。好ましくは、フィルタリングは、後述するように、入力信号のサイン/コサイン対との畳み込みによって行われる。
【0018】
ステップ140において、フィルタ処理されたピッチ精密化セグメントの連結が行われる。フィルタ処理されたピッチ検出セグメントは、各セグメントを元の時点に配置し、セグメントを足し合わせることにより連結される(セグメントは重なり合うかもしれない)。この連結によって、フィルタ処理された信号が獲得される。ステップ150において、ピッチ周期/周波数に対する正確な値がフィルタ処理された信号から獲得される。原理的に、ピッチ周期は、フィルタ処理された信号の最大振幅及び/又は最小振幅の間の時間間隔として決定され得る。ゼロ交差を決定する方が簡単であるため、ピッチ間隔はフィルタ処理された信号の連続的なゼロ交差に基づいて決定される点が有利である。一般的に、フィルタ処理された信号は、例えば、8又は16KHzでサンプリングされたデジタルサンプルにより形成される。好ましくは、所望の振幅(例えば、最大振幅又はゼロ交差)が信号中に発生する時点を決定する精度は、補間により高められる。任意の従来の補間技術(例えば、最大振幅を決定するための放物線補間、または、ゼロ交差の時点を決定するための線形補間)が使用される。このようにして、サンプリングレートを上回る精度が達成される。
【0019】
上記のような正確なピッチを決定する方法は、オーディオ等価信号を符号化する他の方法、或いは、このような信号を操作する他の方法のため使用され得ることが解る。例えば、ピッチ検出は、特に、東洋の言語用の音声認識システム、或いは、ピッチ同期操作(例えば、ピッチ調節又は延長)が行える音声合成システムで使用される。
【0020】
[セグメンテーション]
分析セグメントのシーケンスは、相互に重なり合う、或いは、隣接した時間窓の列を信号に関して配置することにより形成される。各時間窓はそれぞれの窓関数と関連付けられる。信号は、窓の列中のそれぞれの窓の関連した窓関数に応じて重み付けされる。このように、各窓は対応したセグメントを作成する。原理的に、窓関数は矩形状でも構わない。これにより、入力信号は重なり合わない近傍セグメントに効率的に切り分けられる。このために、セグメントを形成するため使用される窓関数は、直線的な矩形波であり、
W(t)=1 0≦t<Lの場合
W(t)=0 それ以外の場合
と表わされる。窓の変位(すなわち、窓の重なり合い)よりも幅が広い窓を使用することが好ましい。好ましくは、各窓は次の窓の中心まで延びる。かくして、音声信号の各時点は、(典型的に)2個の窓で覆われる。窓関数は、窓内で位置の関数として変化し、窓の縁付近で零に漸近する。好ましくは、窓関数は、信号内の同じ点を覆う2個の窓関数の和が時点とは無関係であるという意味で「自己相補的」である。このような窓の一例が図2に示されている。自己相補的関数は以下の式で記述することができる。
【0021】
W(t)+W(t−L)=一定 0≦t<Lの場合
この条件は、例えば、
W(t)=1/2−A(t)cos[2πt/L+Φ(t)]
の場合に成立し、式中、A(t)及びΦ(t)はtの周期関数であり、その周期はLである。典型的な窓関数は、
A(t)=1/2 かつ Φ(t)=0
のときに獲得される。このような自己相補的な窓関数の周知例は、ハミング若しくはハニング窓である。変位よりも幅の広い窓を使用することにより、重なり合うセグメントが得られる。
【0022】
図2には、オーディオ等価信号10の周期的区分に対するセグメンテーション技術が例示されている。この区分内で、信号は、間隔L(ピッチ周期)の連続的な周期11a、11b、11cの後に繰り返し現れる。音声信号の場合に、この間隔は、女声に対して平均的に約5ミリ秒、男声に対して平均的に約10ミリ秒である。時間窓の列12a、12b、12cは、信号10に対して配置される。図2において、重なり合う時間窓が使用され、時間窓の中心は時点ti(i=1,2,3,...)に置かれる。図示された各窓は、先行の窓の中心から始まり、後続の窓の中心で終わる2周期Lに亘り広がる。その結果として、各時点は2個の窓により覆われる。各時間窓12a、12b、12cは、それぞれの窓関数W(t) 13a、13b、13cと関連する。信号セグメントの1番目の列14a、14b、14cは、それぞれの窓12a、12b、12cの窓関数に応じて信号10を重み付けすることにより形成される。この重み付けは、各窓内のオーディオ等価信号100を、その窓の窓関数によって乗算することを意味する。セグメント信号Si(t)は次式によって獲得される。
【0023】
Si(t)=W(t)X(t−ti)
図2に示された窓12は、声帯が励振された時点の中心に配置されている。このような時点の周辺、特に、先鋭的に画成された終端点では、信号振幅が(特に、高い周波数側で)より大きくなる傾向がある。後で詳述するように、ピッチ精密化セグメントは、ピッチ及び/又は間隔操作のために使用してもよい。強度が周期の短い区間に集中している信号の場合、このような区間の周辺に窓の中心を配置することにより、信号が最も忠実に再生される。殆どの場合に、音声再生に優れた知覚的品質を得るために、声帯の励振の瞬間に対応した時点の周辺に、或いは、音声信号中でその事について検出可能な場所に窓を配置する必要が無いことは、欧州特許出願EP-A 0527527及び欧州特許出願EP-A 0527529により公知である。むしろ、優れた結果は、適切な窓の幅と、規則的な隙間とを用いることによって得られる。窓が声帯の励振の時点に関して任意のところに配置され、連続的な窓の位置が緩やかに変化されるとしても、良質の可聴信号が得られる。このような技術に対し、窓は、絶対的な位相基準を用いることなく、局部的な周期長さずつ離間させて漸進的に配置される。
【0024】
簡単なシステムの場合、時間窓は一定時間オフセットを用いて移動させてもよい。このようなオフセットは、好ましくは、ピッチ変化のボケを防止するため十分に短くなるように選択される。殆どの音声の場合に、実質的に10ミリ秒の固定変位は、多量にボケを生じさせること無く、セグメントを正確にフィルタ処理させることができる。有利的には、未加工ピッチ検出の結果は、ピッチ精密化セグメントに対する固定変位を決定するため使用される。好ましくは、この変位は、実質的に、検出された最低ピッチ周期に対応する。そこで、検出された最低ピッチが10ミリ秒のピッチ周期に対応した100Hzである男声の場合に、10ミリ秒の固定変位が使用される。最低ピッチが180Hzの女声の場合に、この変位は約5.6ミリ秒である。かくして、各ピッチ精密化セグメントは、重なり合うセグメントの2個のピッチ周期を十分に覆うことができる最小固定サイズに保たれ、同時に、セグメントが3個以上のピッチ周期を不必要に覆うことを防ぐ。
【0025】
好ましくは、窓は局部ピッチ周期の範囲で移動する。この場合、「狭い」ピッチ精密化セグメントが得られる(矩形状窓の場合に、セグメントの幅は局部ピッチ周期に実質的に一致し、重なり合うセグメントの場合に、セグメントの幅は局部ピッチ周期の2倍でもよい)。かくして、ピッチ精密化セグメントの間隔はピッチ同期的であり、セグメント間隔はピッチ周期に追従する。信号のピッチと、信号の周期的部分と非周期的部分の間の比のようなその他の面は、急速に変化するので、狭いピッチ精密化セグメントを使用することにより、正確なピッチ検出が可能になる。
【0026】
所望のタイプの重なり合う時間窓を使用することにより、例えば、10ミリ秒の固定変位は、セグメントを2倍の長さ(例えば、20ミリ秒以上の信号)に伸長させる。
【0027】
好ましくは、ピッチ精密化セグメントが、以下に詳述するように、間隔又はピッチ操作のような他の演算のために使用される場合、窓関数の自己相補性を保存することが望ましい。ピッチ精密化セグメントの変位が未加工ピッチ周期に追従する場合、自己相補性の保存は、別々に伸長された左右の部分(左部分はt<0、右部分はt>0)を備えた窓関数を使用することにより実現され得る。
【0028】
Si(t)=W(t/Li)X(t+ti) (−Li<t<0)
Si(t)=W(t/Li+1)X(t+ti) (0<t<Li+1)
好ましくは、ピッチ検出セグメントがピッチ精密化セグメントよりも長い場合、ピッチ精密化セグメントが2個のピッチ検出セグメントに重なるときに、別々の伸長が行われる。このような時点で、別々の伸長は、最適な結果を得るため使用される。しかし、さらに簡単なシステムの場合に、(窓の伸長に関連した)変位は、関連した未加工ピッチ周期の平均に対応するように選択される。好ましくは、このような状況において、加重平均が使用され、関連したピッチ周期の重みは、関連したピッチ検出セグメントとの重なり合いに対応する。
【0029】
[フィルタリング]
好ましい一実施例において、ピッチ検出セグメントは、入力信号のサイン/コサイン対との畳み込みを用いてフィルタ処理される。サイン/コサイン対の変調周波数は、信号の対応した部分の未加工ピッチ値に設定される。畳み込み技術は信号処理の分野で周知である。簡単に説明すると、サイン及びコサインは、セグメントに関して配置される。セグメント中の各サンプルに対し、サンプルの値は対応した時間におけるサインの値によって乗算される。全ての獲得された積(乗算結果)は相互に減算され、周波数域でのピッチ周波数成分の虚数部が得られる。同様に、セグメント中の各サンプルに対し、サンプルの値が対応した時間でのコサインの値によって乗算される。全ての獲得された積(乗算結果)は相互に加算され、周波数域でのピッチ周波数成分の実数部が得られる。ピッチ周波数成分の振幅は、実数部と虚数部の平方和の平方根として与えられる。位相は、虚数部を実数部で除算した値のアークタンジェント(位相が所望のレンジ内に収まり、かつ、実数部が零に一致する場合にも処理できるような補正が加えられた)として与えられる。
【0030】
以下のC言語のコードは畳み込みを実現するコードである。
void CalculateAmplitudeAndPhase(double pitchFreq, double sampleRate, double samples[], long numSamples, double *ampl, double *phase)
{
double a = 2.0 * PI / (sanpleRate / pitchFreq);
double real = 0.0; double imag = 0.0;
unsigned i;
for (i=0; i<numSamples; i++){
real += samples[i] * cos(i*a);
imag -= samples[i] * sin(i*a);
}
*ampl = sqrt( real * real + imag * imag );
*phase = real > 0.0 ? atan( imag / real ): real < 0.0 ? atan ( imag / real ) + PI :
imag >= 0.0 ? 0.5 * PI : 1.5 * PI;
}
畳み込み演算の結果に基づいて、ピッチ精密化セグメントに対応したフィルタ処理されたピッチ精密化セグメントが作成される。これは、未加工ピッチ値に設定された変調周波数と、決定された位相及び振幅とを用いてコサイン(又はサイン)生成することにより行われる。コサインは、フィルタ処理されたピッチ検出セグメントを窓処理するため、それぞれの窓に加重される。
【0031】
本発明による1次高調波フィルタリングの結果が図3に示されている。図3Aには、女性により発声された単語”(t)went(y)”の入力信号波形の一部が示されている。図3Bには畳み込み技術を用いて測定された未加工ピッチ値が示されている。図3C及び3Dは、それぞれ、図3Aの入力信号の1次高調波フィルタリングを実行した後の波形及びスペクトル線が示されている。
【0032】
本発明のピッチ精密化技術は、ピッチの正確な測定を必要とする種々のアプリケーションに使用される。図4には、オーディオ等価信号を符号化するためこの技術が使用されている一例が示されている。ステップ410において、オーディオ等価入力信号のピッチ周期の進み(又は、等価的にピッチ周波数)が検出される。この信号は、例えば、例えば、複数音の音声合成に使用されるような音声信号、又は、音声信号断片部分を表現する。この技術は音声信号を目的としているが、音楽のようなその他のオーディオ等価信号にも適用される。このような信号の場合に、ピッチ周波数は支配的な周期的周波数成分と関連する。以下では、音声信号に絞って説明する。
【0033】
ステップ412において、信号は、相互に重なり合う分析セグメント又は隣接した分析セグメントの系列に分割される。この分析セグメントは上述のピッチ精密化セグメントと対応している点が有利である。このセグメントを形成するため、時間窓の列は入力信号に関して配置される。各時間窓は、窓関数と関連付けられる。それぞれの窓の窓関数に応じて信号を重み付けすることにより、セグメントが作成される。
【0034】
以下のステップでは、各分析セグメントは、セグメント内の複数の高調波周波数の位相値を(好ましくは、振幅値と同時に)決定するため同期的に分析される。高調波周波数は、1次高調波と称されるピッチ周波数を含む。このセグメントに関連したピッチ周波数は、ステップ410で既に決定されている。位相は、セグメント内の所定の時点(例えば、セグメントの開始又は中心)に対して決定される。最高品質の符号化を実現するため、できるだけ多数の高調波が(信号の帯域幅内で)分析される。しかし、例えば、帯域フィルタ処理された信号は、所望の周波数範囲内の高調波を考慮すべき場合に限り必要とされる。同様に、より低品質の出力信号が許容される場合、一部の高調波は無視してもよい。また、一部の高調波に対し、雑音値が高調波の部分集合に対し決定されている場合には、振幅だけが決定される。特に、下方の高調波の場合に、信号は主として周期的になる傾向があり、これらの高調波に対する推定雑音値を使用することが可能である。その上、雑音値は振幅よりも緩やかに変化する。このため、高調波の部分集合だけに対し(例えば、連続した高調波の一つ置きに)雑音値を決定できるようになる。雑音値が決定されていないこれらの高調波に対し、(例えば、補間により)雑音値が推定され得る。高品質符号化を実現するため、雑音値が所望の周波数範囲内の全ての高調波に対し計算される。全ての雑音値を表現するため非常に多量の記憶容量又は伝送能力が必要とされる場合、雑音値は、相対的に遅い雑音値の変化に基づいて効率的に圧縮され得る。任意の適当な圧縮技術が使用される。
【0035】
ステップ414において、1番目のセグメントが選択され、セグメントポインタ(S-PTR=0)により指定される。セグメントは、ステップ416において、(例えば、主記憶装置又は補助記憶装置から)獲得される。ステップ418において、分析されるべき1次高調波が選択される(h=1)。ステップ420において、高調波の位相(並びに、好ましくは、振幅)が決定される。原理的に、位相を決定する任意の方法が使用され得る。次のステップ422において、選択された高調波周波数に対し、周期的信号成分及び非周期的信号成分(雑音)の、その周波数で選択された分析セグメントに対する寄与度を示す測定量(雑音値)が決定される。この測定量は、成分又はその他の適当な測定量(例えば、一方又は両方の成分の絶対値)の間の比でも構わない。この測定量は、関連した周波数毎に、セグメント内の周波数の位相を後続セグメント(又は、交互に先行セグメント)内の同じ周波数の位相と比較することにより決定される。信号が雑音の寄与度の非常に少ない周期的信号によって著しく支配されている場合、位相は実質的に同一である。これに対し、雑音によって支配された信号の場合、位相はランダム(不規則)に変化する。そのため、位相の比較によって、周期的成分及び非周期的成分の入力信号に対する寄与度の指標が得られる。この測定量も3個以上のセグメントからの位相情報に基づいていることが解る(例えば、両方の隣接セグメントからの位相情報が現在セグメントの位相と比較される)。また、周波数成分の振幅のような他の情報を、隣接した高調波の情報と共に考慮してもよい。
【0036】
ステップ424において、選択された分析セグメントの符号化は、選択された各周波数成分毎に、振幅値及び雑音値(雑音係数と呼ばれる場合もある)を記憶することにより行われる。雑音値は位相値から獲得されるので、雑音値を記憶する代わりに位相値を記憶してもよいことが解る。
【0037】
ステップ426において、全ての所望の高調波が符号化されたかどうかが検査され、未だ検査されていないものがある場合、符号化されるべき次の高調波がステップ428で選択される。全ての高調波が符号化された後、ステップ430において、全ての分析セグメントが処理されたかどうかが検査される。未だ処理されていない分析セグメントがある場合、ステップ432において、次のセグメントNEXT SEGMENTが符号化のため選択される。
【0038】
符号化されたセグメントは後段で使用される。例えば、符号化されたセグメントは、元の入力信号を再生するため、電気通信ネットワークを介して転送され、復号化される。このような転送は符号化中に実時間で行われる。符号化されたセグメントは、好ましくは、音声合成(テキストから音声への変換)システムで使用される。このようなアプリケーションの場合に、符号化されたセグメントは、例えば、ハードディスク若しくはCD-ROMのような補助記憶装置に記憶される。音声合成の場合に、典型的に、文は、連結されるべき音声断片部分(例えば、複数音)と、連結の系列とを示す表現に変換される。また、この表現は、文の望ましい韻律を示す。記憶された符号化セグメントに対し得られる間隔及びピッチのような情報に対し、この表現は、関連したセグメントのピッチ及び間隔が操作されるべき態様を指定する。関連した断片部分は、記憶装置から獲得され、復号化される(すなわち、典型的にはデジタル形式の音声信号に変換される)。ピッチ及び/又は間隔は、適当な技術(例えば、PSOLA/PIOLA操作技術)を用いて操作される。
【0039】
本発明による符号化は音声合成システム(テキストから音声への変換)に使用される。このようなシステムでは、符号化された断片部分の復号化に続いて、PSOLA又はPIOLAのようなセグメンテーション技術を用いて出力信号断片部分の更なる操作が行われる。これらの技術は、局部ピッチ周期の実質的に2倍の間隔をもつ重なり合う窓を使用する。符号化がこのようなアプリケーションにおいて後段で使用するため行われる場合に、好ましくは、音声合成中に音声の韻律を操作するため使用される窓と同じ窓が予めこの段で使用される。かくして、復号化により得られた信号セグメントはそのまま保たれ、付加的なセグメンテーションを韻律操作のため行う必要が無い。
【0040】
[高調波の雑音値の決定]
正確なピッチ周波数が決定された後、正確に決定されたピッチ周期から獲得されるような基本周波数(ピッチ周波数)の複数の高調波に対し位相値が決定される。好ましくは、離散フーリエ変換(DFT)のような周波数域への変換は、高調波の位相を決定するため使用され、正確に決定されたピッチ周波数は変換用の基本周波数として使用される。この変換によって高調波に対する振幅値が得られ、後段の合成/復号化のため使用される点が有利である。位相値は各高調波に対する雑音値を推定するため使用される。入力信号が周期的又は略周期的であるとき、各高調波は連続的な周期の間で小さい位相差又は位相差ゼロを示す。入力信号が非周期的であるとき、所定の高調波に対する連続的な周期間の位相差は不規則である。かくして、位相差は、入力信号中に出現する周期的成分及び非周期的成分の測定量である。信号の実質的に非周期的な部分に関し、位相差のランダムな挙動に起因して、雑音成分の絶対測定量は個別の高調波に対し獲得されない。例えば、所定の高調波周波数で、信号が非周期的成分によって支配されている場合、2個の連続した周期の位相は略一致する。しかし、数個の高調波を平均的に考慮した場合、非常に周期的な信号は殆ど位相差を生じないが、非常に非周期的な信号は非常に大きい位相差(平均として、位相差π)を示す。好ましくは、位相差の絶対値を獲得し、2πで除算することによって、1〜0の雑音係数が各高調波に対し得られる。有声音(非常に周期的な信号)の場合に、この係数は、微少又は0であり、有声摩擦音のような周期性の少ない信号の場合、雑音係数は0よりもはるかに大きい。好ましくは、雑音係数は、周波数の関数として、位相差の1次又は2次微係数のような微係数に依存して決定される。かくして、非常にロバスト性のある結果が獲得される。位相の微分成分を用いることによって雑音による影響を受けないスペクトルが除去される。雑音係数は識別性を高めるためスケーリングされる。
【0041】
図5には、有声音フレーム中の全ての高調波に対する(2次微係数に基づく)雑音係数の一例が示されている。この有声音フレームは、男性によって発声され、16KHzでサンプリングされた単語”(kn)o(w)”を記録したものである。図5Aには、個々の高調波の振幅を表現するスペクトルが示されている。このスペクトルは、本発明による正確なピッチ周波数決定方法によって決定された135.41Hzの基本周波数のDFTで決定される。16KHzのサンプリングレートが使用され、59個の高調波が得られる。35番目から38番目まで一部の高調波の振幅値は非常に小さいことがわかる。図5Bには、本発明による方法を用いて各高調波に対し見つけられた雑音係数が示されている。相対的に高い雑音度が32番目の高調波と39番目の高調波の間の領域で生じることが非常に明瞭に示されている。このように、本発明の方法によれば、入力信号中の雑音を含む成分と殆ど雑音を含まない成分とを明瞭に識別される。また、雑音係数は、周波数に依存して著しく変化することもわかる。要求に応じて、識別性は、高調波の振幅を考慮することによって更に高められ、ここで、高調波の比較的小さい振幅は高レベルの雑音度を表わす。例えば、ある高調波に対し、2個の連続した周期の間の差が、その周波数で顕著な雑音のランダムな挙動に起因して小さい場合、雑音係数は、振幅が小さいときには、好ましくは、0付近から、例えば、0.5(若しくは、それ以上)までの範囲に補正される。その理由は、小さい振幅は、その周波数で、非周期的成分の寄与度が周期的成分の寄与度と同等、或いは、それ以上であることを意味するからである。
【0042】
上記の分析は、好ましくは、信号の有声音部分(すなわち、識別可能な周期的成分を備えた有声音部分)だけに対して行われる。無声音部分では、雑音係数は全ての周波数成分に対し1に設定され、この値1は最大雑音寄与度を意味する。出力信号を合成するため使用される合成のタイプに依存して、入力信号の無声音部分に対する情報を取得することも要求される。好ましくは、これは、有声音部分に関して説明した分析方法と同じ分析方法を用いて行われ、例えば、5ミリ秒の固定長の分析窓が使用され、信号はDFTを用いて分析される。無声音部分の合成のためには、振幅だけを計算すればよく、雑音値が固定されているので、位相情報は必要とされない。
【0043】
[合成]
好ましくは、信号セグメントは、各高周波の分析中に獲得された振幅情報から作成される。これは、離散フーリエ逆変換(逆DFT)のような周波数域から時間域への適当な変換を用いることにより行われる。好ましくは、いわゆる三角関数合成が使用される。本技術によれば、所定の振幅を有するサインが高調波毎に発生させられ、全てのサインは一つに加算される。これは、一般的に、各高調波毎に、その高調波の周波数とその高調波に対し決定された振幅とをもつ1個ずつのサインを加算することによってデジタル的に行われることに注意する必要がある。並列アナログ信号を発生させ、それらのアナログ信号を加算する必要がない。分析により獲得されるような各高調波に対する振幅は、その周波数での周期的成分と非周期的成分の結合強度を表現する。かくして、再合成信号は、両方の成分の強度を表現する。
【0044】
周期的成分に対し、原理的に、位相は高調波毎に自由に選択することができる。本発明によれば、一定の高調波に対し、セグメントが(以下に詳述するように、必要であるならば重なり合う形で)連結された場合に、制御できない位相ジャンプが出力信号に発生しないように、連続的な信号セグメントのための初期位相が選択される。例えば、セグメントは、ピッチ周期の複数倍(例えば、2倍)に対応した区間を有し、セグメントの開始時(並びに、セグメントは高調波周期の整数倍だけ持続するので、セグメントの終了時)、所定の高調波の位相が一致するよう選択される。連続したセグメントの連結中に位相ジャンプを回避することによって、従来のPIOLA/PSOLA技術に基づく複数音の音声合成よりも出力信号の自然さが改善される。これらの技術を用いると、複音のような記録された実際の音声断片部分を連結することにより妥当な品質の合成音声が獲得される。これらの技術を用いる場合、自然さのレベルの高い出力が断片部分内で獲得され得る。これらの音声断片部分は、所望の出力を生成するため順番に選択され、連結される。例えば、テキスト入力(文)は、複数音の系列に書き換えられ、続いて、この書き換えに対応した音声断片部分(複数音)が獲得される。一般的に、記録された音声断片部分は、発話されるべき文の所望の韻律に対応したピッチ周波数及び/又は間隔をもたない。この操作は、基本音声信号をセグメントに分割することにより行われる。セグメントは、窓の列を信号に沿って配置することにより形成される。連続的な窓は、一般的に、局部ピッチ周期に類似した間隔に亘り移動させられる。欧州特許出願EP-A 0527527及びEP-A 0527529に記載されたPIOLAシステムと称されるシステムの場合、局部ピッチ周期は自動的に検出され、窓は検出されたピッチ間隔に応じて移動する。欧州特許出願EP-A 0363233に記載されたいわゆるPSOLAシステムの場合、窓は、手動で決定された場所、いわゆるボイスマーカーの周辺に中心が配置される。ボイスマーカーは、声帯の最強度の励振の周期的な時点に対応する。出力信号は信号セグメントを連結することにより生成される。拡張された出力信号はセグメントを繰り返すことにより獲得され、短縮された出力信号はセグメントを抑止することにより得ることができる。出力信号のピッチは、セグメント間の重なり合いを増大又は減少させることにより、上昇又は下降させられる。継続中の音声に適用した場合、ピッチ変化の範囲があまり広くない限り、上記の方法で操作された音声の品質は非常に高い。しかし、音声が複音のようなかなり短い音声断片部分から構築される場合には複雑化する。有声音声部分の高調波位相の挙動は非常に異なり、連続した断片部分の間の境界で滑らかな推移を生じさせることは困難であり、合成された音声の自然さが失われる。このようなシステムの場合に、本発明による符号化技術は有利的に適用することができる。制御できない位相を備えた実際のオーディオ等価断片部分に基づいて動作させないことにより、代わりの断片部分が本発明に従って符号化された断片部分から作成される。上記の三角関数合成のような任意の適当な技術を使用して、当該周波数成分の位相は完全に制御することが可能であり、その結果として、断片部分境界での制御できない位相推移は、回避され得る。
【0045】
1個のセグメント内で、全ての高調波が同じ位相で始まる必要はない。実際上、多数の高調波の初期位相は、0から2πまでの範囲に適度に分布することが好ましい。例えば、初期値は、以下のような(きわめて任意的な)値:
2π(k−0.5)/k
に設定され、式中、kは高調波番号であり、時点ゼロは窓の中間で選択される。スペクトル全体への非零値の分布は、合成された信号のエネルギーを時間的に拡散し、合成された波形に高ピークが生じることを防止する。
【0046】
非周期的成分は、高調波の初期位相の所望の初期値に加算された乱数部分を用いて表現される。高調波毎に、不規則性の量は分析によって決定されたような高調波に対する雑音係数により決定される。顕著な非周期的成分が観察されない場合、雑音は加算されず(すなわち、乱数部分は使用されない)、一方、非周期的成分が支配的であるならば、高調波の初期位相は、(完全に非周期的信号の場合に、−πから+πまでの範囲内の最大位相変化まで)不規則な変化の影響を著しく受ける。0は雑音無しを表わし、1は完全に非周期的を表わす上記のような不規則な雑音係数が定義された場合、乱数部分は、不規則な雑音係数を−πから+πまでの範囲内の乱数で乗算することにより得られる。繰り返し性の無い雑音信号の発生は、発生された音声の認知される自然さを著しく改善する。変化中の音声入力信号が本発明に従って分析、再合成される試験によって、元の入力信号と出力信号との間で殆ど差が検出できないことが判明した。この試験において、信号のピッチ又は間隔の操作は行われていない。
【0047】
[間隔又はピッチの操作]
図2において、分析セグメントSi(t)は、信号10をそれぞれの窓関数W(t)を用いて重み付けすることにより獲得された。分析セグメントは、符号化形式で記憶された。合成の場合に、分析セグメントは上述の通り再作成される。復号化されたセグメントをそのまま重ね合わせることにより、元の入力信号と類似した信号が制御された位相挙動を伴って再作成される。好ましくは、セグメントは、後述の重ね合わせ及び加算技術を用いて復号化された音声断片部分の系列の間隔又はピッチの操作が行えるように保たれる。
【0048】
図6には、各信号セグメントを系統的に持続若しくは繰り返すことにより、延長されたオーディオ信号を形成することが示されている。信号セグメントは、好ましくは、図4のステップ412で獲得されたものと同じセグメントである(符号化と復号化が行われている)。図6Aには、信号セグメント14a乃至14fからなる1番目の系列14が示されている。図6Bは、間隔が1.5倍に延長された信号を示す図である。これは、1番目のシーケンス14の全てのセグメントを持続し、系列中の一つおきのセグメント(例えば、奇数セグメント又は偶数セグメント)を系統的に繰り返すことにより獲得される。図6Cの信号は、シーケンス14の各セグメントを3回ずつ繰り返すことによって3倍に延長されている。信号は逆の技術(すなわち、系統的にセグメントを抑制/飛び越しする技術)を用いて短縮され得ることがわかる。
【0049】
延長技術は、識別可能な周期的成分を含まないオーディオ等価入力信号の一部分を延長するため使用することが可能である。音声信号の場合に、このような一部分の一例は無声音区間(ストレッチ)、すなわち、”ssss”のような摩擦音を含む区間であり、この区間では、声帯は励振されない。音楽の場合に、非周期的部分の一例は雑音部分である。周期的部分と同じような方法で実質的に非周期的部分の間隔を延長するため、窓が信号に関して漸進的に配置される。窓は手動で決められた位置に配置してもよい。或いは、連続的な窓が、非周期的部分を囲む周期的部分のピッチ周期から獲得された時間的距離の全体を移動する。例えば、最後の周期的セグメントに対し使用された変位と同じ変位(すなわち、最後のセグメントの周期に対応する変位)を選択してもよい。この変位は、最後の先行の周期的セグメントと最初の後続の周期的セグメントの変位を補間することにより決めても構わない。或いは、音声の場合には、好ましくは、性別に応じた一定変位を選択してもよく、例えば、男声に対し10ミリ秒の変位を使用し、女声に対し5ミリ秒の変位を使用する。
【0050】
信号を延長する場合、原理的に、窓を重なり合わない形で互いに隣接させて配置することにより作成された重なり合いの無いセグメントを使用することができる。同じ技術が信号のピッチを変更するためにも使用される場合、例えば、図2に示された窓のように、重なり合う窓を使用する方が好ましい。窓関数は自己相補的である点が有利である。窓関数の自己相補的な特性は、獲得されたときと同じ時間的関係でセグメントを重ね合わせることにより、確実に元の信号が得られることである。出力信号Y(t)を得るため、復号化されたセグメントSi(t)が重ね合わされる。(例えば、有声音の会話又は音楽のような)局部的に周期的な信号のピッチ変化は、セグメントを重ね合わせる前に、元の位置ti(i=1,2,3..)とは異なる新しい位置Tiにセグメントを配置することにより獲得できる。例えば、ピッチが増大した出力信号を形成するため、セグメントは、元の信号から獲得されたようなセグメントの距離よりも相互の中心間距離が圧縮されるように重ね合わされる。セグメントの長さは同じ長さに保たれる。最後に、セグメント信号は重ね合わされた出力信号Yを獲得すべく加算される。
【0051】
Y(t)=ΣiSi(t−Ti)
(図2の例の場合に、窓が2周期の幅であるとき、和は −L<t−Ti<L であるインデックスiに制限される。)この構造の性質によって、出力信号Y(t)は、入力信号10が周期的である場合に周期的になるが、出力の周期は、以下の倍率だけ、すなわち、重ね合わせのため配置されたセグメント間の相互圧縮/拡張距離と同じ量だけ入力周期と異なる。
【0052】
(ti−ti−1)/(Ti−Ti−1)
セグメント距離が変化しない場合、出力信号Y(t)は、入力オーディオ等価信号X(t)を生成する。セグメントの時間的位置を変更することにより、異なる局部周期を有するという点で入力信号とは異なる出力信号が得られるが、スペクトルの包絡は略同一に保たれる。認知実験は、ピッチが1オクターブ以上変更されても、非常に優れた認知音声品質が得られることを示した。
【0053】
ピッチを上昇させることの副作用として信号が短くなることがわかった。これは、上述の通り信号を延長することにより補償される。
【0054】
間隔/ピッチ操作方法は、周期的信号を、異なる周期と略同じスペクトル包絡とを備えた新しい周期的信号に変換する。この方法は、例えば、有声音会話信号又は音楽信号のような局部的に決定された周期を有する信号に均等に好適である。これらの信号に対し、周期長Lは時間的に変化し、すなわち、i番目の周期は周期固有の長さLiを有する。この場合、窓の長さは、周期長が変化すると共に、時間的に変更されるべきであり、窓関数W(t)は、このような窓を覆うため局部周期に対応した倍率Liによって時間的に伸長されるべきである。
【0055】
Si(t)=W(t/Li)X(t−ti)
自己相補的な重なり合う窓の場合に、窓関数の自己相補性を保存することが望ましい。これは、別々に伸長された左右の部分(左部分はt<0、右部分はt>0)を備えた窓関数を使用することにより実現され得る。
【0056】
Si(t)=W(t/Li)X(t+ti) (−Li<t<0)
Si(t)=W(t/Li+1)X(t+ti) (0<t<Li+1)
式中、各部は固有の倍率Li並びにLi+1によって伸長される。これらの倍率は、対応した左側の重なり合い窓及び右側の重なり合い窓の係数に固有である。
【0057】
実験によって、上記の方法で操作された局部的に周期的な入力オーディオ等価信号断片部分は、人間の聴覚には入力オーディオ等価信号と同じ品質であり、かつ、入力オーディオ等価信号とは異なるピッチ及び/又は間隔を有する出力信号を生じることがわかった。ここで、本発明の符号化方法を適用することにより、位相ジャンプは、音声断片部分間で変化が生じる高調波周波数に対し発生しないことが保証される。かくして、特に、比較的短い音声断片部分の連結に基づく音声合成の場合に、品質が改良される。試験を行うことによって、高調波に対する位相が制御されたセグメントを使用することに起因した音声合成の改良は、信号を伸長するためセグメントが繰り返されるときに、より一層顕著であることがわかった。セグメントの繰り返しは、たとえセグメント自体が非常に非周期的であるとしても、周期的な要素を含むように観察される信号を発生させる。非周期的セグメントに対し、連続的なセグメントの位相が実質的に不規則に変化することを保証することにより、繰り返しは回避される。
【0058】
符号化及び合成方法の完全な実装が実現され、数通りの他のボコーダー実現例、特に、典型的なLPCボコーダーと比較された。ピッチ及び間隔を操作する場合に、新規の合成技術の優位性が示された。試験システムによって、元のピッチ及び間隔の輪郭形状を操作することができた。新規の方法に従って新しいピッチ列を用いて合成された音声は、最初に記録された音声断片部分にそのまま作用する従来のPSOLA操作後の音声よりも非常に良質に聞こえる。また、無声音会話部分を実質的に伸長させることによって、新規の方法を適用する際により良好な結果が得られる。これらの試験中に、繰り返された各セグメントは新しい乱数を用いて合成され、雑音信号に周期性を導入するアーティファクトが回避される。
【0059】
上記の符号化及び合成方法は、適当な装置及びシステムに組み込まれ得る。かかる装置は、従来のコンピュータ技術を用いて構築され、本発明による方法のステップを実行するようにプログラミングされる。典型的に、本発明による符号器は、アナログオーディオ入力信号をデジタル信号に変換するA/D変換器を具備する。デジタル信号は、主記憶装置若しくは補助記憶装置に保存される。DSPのようなプロセッサは、符号化を行うようにプログラミングされる。このようにプログラミングされたプロセッサは、信号中の連続的なピッチ周期/周波数を決定する役割を果たす。また、プロセッサは、時間窓の列を信号に関して配置し、それぞれの時間窓の関連した窓関数に応じて信号を重み付けすることによって、相互に重なり合い、或いは、隣接した精密化/分析セグメントの系列を形成する。プロセッサは、セグメントに対応した信号部分に対し検出されたピッチ周期に対応する周波数成分を抽出するため、各精密化セグメントをフィルタ処理する。好ましくは、プロセッサは、サイン/コサイン関数の対による畳み込みを用いてフィルタリングを行い、対応した窓化処理されたサイン/コサイン関数を再作成するようプログラミングされる。必要に応じて、別個のデジタル又はアナログ帯域通過フィルタを用いてもよい。符号化のため、プロセッサは、各精密化セグメントの複数の周波数成分に対し振幅値及び位相値を決定するようプログラミングしてもよく、ここで、この周波数成分には、分析セグメントに対応したピッチ周波数の複数の高調波周波数が含まれる。符号器のプロセッサは、分析セグメントの周波数成分に対する位相値を、少なくとも1個の先行又は後続の分析セグメントに対する対応した位相値と比較することにより、その周波数で周期的成分及び非周期的成分が分析セグメントに寄与する度合いを表現する各周波数成分に対する雑音値を決定する。最後に、プロセッサは、各分析セグメント毎の各周波数成分に対する振幅値及び雑音値を用いてオーディオ等価信号を表現する。プロセッサは、符号化された信号を符号器の記憶媒体(例えば、ハードディスク、CD−ROM、若しくは、フロッピーディスク)に保存し、又は、符号化された信号を、モデムのような符号器の通信手段を用いて他の装置に転送する。符号化された信号は、復号器によって取得若しくは受信され、この復号器は(典型的に、プロセッサの制御下で)信号を復号化する。復号器は、選択された符号化信号断片部分毎に、符号化信号断片部分を時間域に変換することによって、対応した信号断片部分を作成する。ここで、符号化された周波数成分毎に、非周期的信号成分は、周波数成分に対するそれぞれの雑音値に従って加算される。信号を再生するため、復号器は、D/A変換器及び増幅器を具備する。復号器は、音声合成器のような合成器(シンセサイザ)の一部分でもよい。合成器は、例えば、テキスト的に表現された文を再生するため必要とされるような符号化された音声断片部分を選択し、断片部分を復号化し、断片部分を連結する。また、信号の間隔及び韻律が操作され得る。
【図面の簡単な説明】
【図1】 本発明による1次高調波フィルタリング技術を用いてピッチ値を正確に決定する方法を説明する図である。
【図2】 信号のセグメンテーションを表わす図である。
【図3】 1次高調波フィルタリングの結果を示す図である。
【図4】 本発明による符号化方法の概要図である。
【図5】 本発明による分析を用いて雑音値を示す図である。
【図6】 合成された信号の拡張を説明する図である。
Claims (5)
- オーディオ等価信号を相互に重なり合い、若しくは、隣接したピッチ検出セグメントに分割するステップと、
上記ピッチ検出セグメント毎に、ピッチ周期/周波数の初期値を決定するステップと、
上記決定された初期値に基づいて、上記ピッチ周期/周波数の正確な値を決定するステップとを有し、オーディオ等価信号の連続的なピッチ周期/周波数を決定する方法であって、
上記ピッチ周期/周波数の正確な値を決定するステップは、
上記オーディオ等価信号に関して時間窓の列を配置し、上記各時間窓の関連した窓関数に応じて上記信号を重み付けすることにより、各ピッチ精密化セグメントが少なくとも1個のピッチ検出セグメントと関連しているピッチ精密化セグメントの系列を形成するステップと、
関連したピッチ検出セグメントの初期的に決定されたピッチ周波数に実質的に対応した周波数をもつ周波数成分を抽出するため各ピッチ精密化セグメントをフィルタリングすることによりフィルタ処理された信号を形成するステップと、
上記フィルタ処理された信号から上記連続的なピッチ周期/周波数を決定するステップとを有し、
上記ピッチ精密化セグメントをフィルタリングするステップは、
同一の変調周波数を備えたサイン関数とコサイン関数に振幅値及び位相値を与えて、初期的に推定された上記ピッチ周波数に実質的に対応した変調周波数を備えたサイン関数とコサイン関数の対を用いて上記ピッチ検出セグメントを畳み込むステップと、
決定された振幅及び位相を備えた窓型にされたサイン関数とコサイン関数を発生させることにより、フィルタ処理されたピッチ検出セグメントを形成するステップとを有し、
上記フィルタ処理されたピッチ検出セグメントを形成するステップは、上記フィルタ処理されたピッチ検出セグメントの系列を連結するステップを有する
ことを特徴とする連続的なピッチ周期/周波数を決定する方法。 - 上記フィルタ処理された信号はデジタルサンプルの時系列として表現され、
上記フィルタ処理された信号の連続的なピッチ周期/周波数を決定するステップは、
上記デジタルサンプルの時系列が、極大値若しくは極小値であるか、又は、零値と交差するような所定の条件を満たす連続的な時点を推定するステップと、
上記推定された時点の周辺で複数のサンプルを補間することにより上記各時点をより正確に決定するステップとを有することを特徴とする請求項1記載の連続的なピッチ周期/周波数を決定する方法。 - 上記オーディオ等価信号に関して時間窓の列を配置するステップは、直前の時間窓に関して、実質的に、上記関連したピッチ検出セグメントの初期的に決定されたピッチ周波数に応じた時間間隔を有する各時間窓を移動させるステップを有することを特徴とする請求項1記載の連続的なピッチ周期/周波数を決定する方法。
- 上記連続した各時間窓を移動させるステップは、実質的に、上記関連したピッチ検出セグメントの初期的に決定されたピッチ周期の量だけ上記時間窓を移動させることを特徴とする請求項3記載の連続的なピッチ周期/周波数を決定する方法。
- 相互に重なり合い、若しくは、隣接したピッチ検出セグメントの系列を形成するセグメンテーション手段と、
上記ピッチ検出セグメント毎に、ピッチ周期/周波数の初期値を決定するピッチ検出手段と、
上記決定された初期値に基づいて、上記ピッチ周期/周波数の正確な値を決定するピッチ精密化手段とを有し、オーディオ等価信号の連続的なピッチ周期/周波数を決定する装置であって、
上記ピッチ精密化手段は、
上記オーディオ等価信号に関して時間窓の列を配置し、上記各時間窓の関連した窓関数に応じて上記信号を重み付けすることにより、各ピッチ精密化セグメントが少なくとも1個のピッチ検出セグメントと関連しているピッチ精密化セグメントの系列を形成するセグメンテーション手段と、
関連したピッチ検出セグメントの初期的に決定されたピッチ周波数に実質的に対応した周波数をもつ周波数成分を抽出するため各ピッチ精密化セグメントをフィルタリングすることによりフィルタ処理された信号を形成するフィルタリング手段と、
上記フィルタ処理された信号から上記連続的なピッチ周期/周波数を決定する手段とを有し、
上記フィルタリング手段は、
同一の変調周波数を備えたサイン関数とコサイン関数に振幅値及び位相値を与えて、初期的に推定された上記ピッチ周波数に実質的に対応した変調周波数を備えたサイン関数とコサイン関数の対を用いて上記ピッチ検出セグメントを畳み込む手段と、
決定された振幅及び位相を備えた窓型にされたサイン関数とコサイン関数を発生させることにより、フィルタ処理されたピッチ検出セグメントを形成する手段とを有し、
上記フィルタ処理されたピッチ検出セグメントを形成する手段は、上記フィルタ処理されたピッチ検出セグメントの系列を連結する手段とを有する
することを特徴とする装置。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP98201525.7 | 1998-05-11 | ||
EP98201525 | 1998-05-11 | ||
EP98202195 | 1998-06-30 | ||
EP98202195.8 | 1998-06-30 | ||
PCT/IB1999/000778 WO1999059138A2 (en) | 1998-05-11 | 1999-04-29 | Refinement of pitch detection |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002515609A JP2002515609A (ja) | 2002-05-28 |
JP4641620B2 true JP4641620B2 (ja) | 2011-03-02 |
Family
ID=26150322
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000548869A Expired - Fee Related JP4641620B2 (ja) | 1998-05-11 | 1999-04-29 | ピッチ検出の精密化 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6885986B1 (ja) |
EP (1) | EP0993674B1 (ja) |
JP (1) | JP4641620B2 (ja) |
DE (1) | DE69932786T2 (ja) |
WO (1) | WO1999059138A2 (ja) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6917912B2 (en) | 2001-04-24 | 2005-07-12 | Microsoft Corporation | Method and apparatus for tracking pitch in audio analysis |
CN100568343C (zh) * | 2001-08-31 | 2009-12-09 | 株式会社建伍 | 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法 |
DE60232560D1 (de) | 2001-08-31 | 2009-07-16 | Kenwood Hachioji Kk | Vorrichtung und Verfahren zur Erzeugung eines Signals mit konstanten Grundfrequenz und Vorrichtung sowie Verfahren zum Synthetisieren von Sprachsignalen unter Verwendung dieser Signals mit konstanten Grundfrequenz. |
TW589618B (en) * | 2001-12-14 | 2004-06-01 | Ind Tech Res Inst | Method for determining the pitch mark of speech |
USH2172H1 (en) * | 2002-07-02 | 2006-09-05 | The United States Of America As Represented By The Secretary Of The Air Force | Pitch-synchronous speech processing |
DE602005006412T2 (de) | 2004-02-20 | 2009-06-10 | Sony Corp. | Verfahren und Vorrichtung zur Grundfrequenzbestimmung |
JP2005266797A (ja) * | 2004-02-20 | 2005-09-29 | Sony Corp | 音源信号分離装置及び方法、並びにピッチ検出装置及び方法 |
KR100590561B1 (ko) * | 2004-10-12 | 2006-06-19 | 삼성전자주식회사 | 신호의 피치를 평가하는 방법 및 장치 |
GB2433150B (en) | 2005-12-08 | 2009-10-07 | Toshiba Res Europ Ltd | Method and apparatus for labelling speech |
US8010350B2 (en) * | 2006-08-03 | 2011-08-30 | Broadcom Corporation | Decimated bisectional pitch refinement |
CA2657087A1 (en) * | 2008-03-06 | 2009-09-06 | David N. Fernandes | Normative database system and method |
EP2107556A1 (en) * | 2008-04-04 | 2009-10-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio transform coding using pitch correction |
JP4547042B2 (ja) * | 2008-09-30 | 2010-09-22 | パナソニック株式会社 | 音判定装置、音検知装置及び音判定方法 |
WO2010038385A1 (ja) * | 2008-09-30 | 2010-04-08 | パナソニック株式会社 | 音判定装置、音判定方法、及び、音判定プログラム |
US8666734B2 (en) | 2009-09-23 | 2014-03-04 | University Of Maryland, College Park | Systems and methods for multiple pitch tracking using a multidimensional function and strength values |
EP2302845B1 (en) | 2009-09-23 | 2012-06-20 | Google, Inc. | Method and device for determining a jitter buffer level |
US8457771B2 (en) | 2009-12-10 | 2013-06-04 | At&T Intellectual Property I, L.P. | Automated detection and filtering of audio advertisements |
US8606585B2 (en) * | 2009-12-10 | 2013-12-10 | At&T Intellectual Property I, L.P. | Automatic detection of audio advertisements |
EP2360680B1 (en) * | 2009-12-30 | 2012-12-26 | Synvo GmbH | Pitch period segmentation of speech signals |
US8630412B2 (en) | 2010-08-25 | 2014-01-14 | Motorola Mobility Llc | Transport of partially encrypted media |
US8477050B1 (en) * | 2010-09-16 | 2013-07-02 | Google Inc. | Apparatus and method for encoding using signal fragments for redundant transmission of data |
US8751565B1 (en) | 2011-02-08 | 2014-06-10 | Google Inc. | Components for web-based configurable pipeline media processing |
US8645128B1 (en) * | 2012-10-02 | 2014-02-04 | Google Inc. | Determining pitch dynamics of an audio signal |
US9240193B2 (en) * | 2013-01-21 | 2016-01-19 | Cochlear Limited | Modulation of speech signals |
ES2883848T3 (es) | 2014-05-01 | 2021-12-09 | Nippon Telegraph & Telephone | Codificador, descodificador, método de codificación, método de descodificación, programa de codificación, programa de descodificación y soporte de registro |
US9554207B2 (en) | 2015-04-30 | 2017-01-24 | Shure Acquisition Holdings, Inc. | Offset cartridge microphones |
US9565493B2 (en) | 2015-04-30 | 2017-02-07 | Shure Acquisition Holdings, Inc. | Array microphone system and method of assembling the same |
US10431236B2 (en) * | 2016-11-15 | 2019-10-01 | Sphero, Inc. | Dynamic pitch adjustment of inbound audio to improve speech recognition |
US10367948B2 (en) | 2017-01-13 | 2019-07-30 | Shure Acquisition Holdings, Inc. | Post-mixing acoustic echo cancellation systems and methods |
EP3669356B1 (en) * | 2017-08-17 | 2024-07-03 | Cerence Operating Company | Low complexity detection of voiced speech and pitch estimation |
JP6891736B2 (ja) | 2017-08-29 | 2021-06-18 | 富士通株式会社 | 音声処理プログラム、音声処理方法および音声処理装置 |
JP7422685B2 (ja) | 2018-05-31 | 2024-01-26 | シュアー アクイジッション ホールディングス インコーポレイテッド | 自動ミキシング用のインテリジェント音声起動のためのシステムおよび方法 |
US11523212B2 (en) | 2018-06-01 | 2022-12-06 | Shure Acquisition Holdings, Inc. | Pattern-forming microphone array |
US11297423B2 (en) | 2018-06-15 | 2022-04-05 | Shure Acquisition Holdings, Inc. | Endfire linear array microphone |
US10382143B1 (en) * | 2018-08-21 | 2019-08-13 | AC Global Risk, Inc. | Method for increasing tone marker signal detection reliability, and system therefor |
CN112889296A (zh) | 2018-09-20 | 2021-06-01 | 舒尔获得控股公司 | 用于阵列麦克风的可调整的波瓣形状 |
US10732789B1 (en) | 2019-03-12 | 2020-08-04 | Bottomline Technologies, Inc. | Machine learning visualization |
CN113841419A (zh) | 2019-03-21 | 2021-12-24 | 舒尔获得控股公司 | 天花板阵列麦克风的外壳及相关联设计特征 |
US11558693B2 (en) | 2019-03-21 | 2023-01-17 | Shure Acquisition Holdings, Inc. | Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality |
JP2022526761A (ja) | 2019-03-21 | 2022-05-26 | シュアー アクイジッション ホールディングス インコーポレイテッド | 阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置 |
WO2020237206A1 (en) | 2019-05-23 | 2020-11-26 | Shure Acquisition Holdings, Inc. | Steerable speaker array, system, and method for the same |
US11302347B2 (en) | 2019-05-31 | 2022-04-12 | Shure Acquisition Holdings, Inc. | Low latency automixer integrated with voice and noise activity detection |
JP2022545113A (ja) | 2019-08-23 | 2022-10-25 | シュアー アクイジッション ホールディングス インコーポレイテッド | 指向性が改善された一次元アレイマイクロホン |
US12028678B2 (en) | 2019-11-01 | 2024-07-02 | Shure Acquisition Holdings, Inc. | Proximity microphone |
US11552611B2 (en) | 2020-02-07 | 2023-01-10 | Shure Acquisition Holdings, Inc. | System and method for automatic adjustment of reference gain |
US11941064B1 (en) | 2020-02-14 | 2024-03-26 | Bottomline Technologies, Inc. | Machine learning comparison of receipts and invoices |
US11706562B2 (en) | 2020-05-29 | 2023-07-18 | Shure Acquisition Holdings, Inc. | Transducer steering and configuration systems and methods using a local positioning system |
WO2022165007A1 (en) | 2021-01-28 | 2022-08-04 | Shure Acquisition Holdings, Inc. | Hybrid audio beamforming system |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4797926A (en) * | 1986-09-11 | 1989-01-10 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech vocoder |
DE3783905T2 (de) * | 1987-03-05 | 1993-08-19 | Ibm | Verfahren zur grundfrequenzbestimmung und sprachkodierer unter verwendung dieses verfahrens. |
DE69228211T2 (de) | 1991-08-09 | 1999-07-08 | Koninkl Philips Electronics Nv | Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals |
EP0527529B1 (en) | 1991-08-09 | 2000-07-19 | Koninklijke Philips Electronics N.V. | Method and apparatus for manipulating duration of a physical audio signal, and a storage medium containing a representation of such physical audio signal |
US5189701A (en) * | 1991-10-25 | 1993-02-23 | Micom Communications Corp. | Voice coder/decoder and methods of coding/decoding |
IT1270438B (it) * | 1993-06-10 | 1997-05-05 | Sip | Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce |
JP3440500B2 (ja) * | 1993-07-27 | 2003-08-25 | ソニー株式会社 | デコーダ |
US5781880A (en) * | 1994-11-21 | 1998-07-14 | Rockwell International Corporation | Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual |
US5799276A (en) * | 1995-11-07 | 1998-08-25 | Accent Incorporated | Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals |
KR100217372B1 (ko) * | 1996-06-24 | 1999-09-01 | 윤종용 | 음성처리장치의 피치 추출방법 |
JP4121578B2 (ja) * | 1996-10-18 | 2008-07-23 | ソニー株式会社 | 音声分析方法、音声符号化方法および装置 |
-
1999
- 1999-04-29 JP JP2000548869A patent/JP4641620B2/ja not_active Expired - Fee Related
- 1999-04-29 EP EP99914710A patent/EP0993674B1/en not_active Expired - Lifetime
- 1999-04-29 DE DE69932786T patent/DE69932786T2/de not_active Expired - Lifetime
- 1999-04-29 WO PCT/IB1999/000778 patent/WO1999059138A2/en active IP Right Grant
- 1999-05-07 US US09/306,960 patent/US6885986B1/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
WO1999059138A8 (en) | 2000-03-30 |
EP0993674B1 (en) | 2006-08-16 |
WO1999059138A2 (en) | 1999-11-18 |
WO1999059138A3 (en) | 2000-02-17 |
EP0993674A2 (en) | 2000-04-19 |
DE69932786D1 (de) | 2006-09-28 |
DE69932786T2 (de) | 2007-08-16 |
US6885986B1 (en) | 2005-04-26 |
JP2002515609A (ja) | 2002-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4641620B2 (ja) | ピッチ検出の精密化 | |
US6453283B1 (en) | Speech coding based on determining a noise contribution from a phase change | |
Rao et al. | Prosody modification using instants of significant excitation | |
US8280724B2 (en) | Speech synthesis using complex spectral modeling | |
EP2264696B1 (en) | Voice converter with extraction and modification of attribute data | |
US8280738B2 (en) | Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method | |
US20090076822A1 (en) | Audio signal transforming | |
US8370153B2 (en) | Speech analyzer and speech analysis method | |
Syrdal et al. | TD-PSOLA versus harmonic plus noise model in diphone based speech synthesis | |
US20100217584A1 (en) | Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program | |
US5787398A (en) | Apparatus for synthesizing speech by varying pitch | |
EP2517197B1 (en) | Coding, modification and synthesis of speech segments | |
US6208960B1 (en) | Removing periodicity from a lengthened audio signal | |
WO2001004873A1 (fr) | Procede d'extraction d'information de source sonore | |
Govind et al. | Improving the flexibility of dynamic prosody modification using instants of significant excitation | |
US7822599B2 (en) | Method for synthesizing speech | |
US10354671B1 (en) | System and method for the analysis and synthesis of periodic and non-periodic components of speech signals | |
Edgington et al. | Residual-based speech modification algorithms for text-to-speech synthesis | |
CN112420062A (zh) | 一种音频信号处理方法及设备 | |
JP3321933B2 (ja) | ピッチ検出方法 | |
JP3398968B2 (ja) | 音声分析合成方法 | |
JPH07261798A (ja) | 音声分析合成装置 | |
WO1995026024A1 (en) | Speech synthesis | |
Gupta et al. | Efficient frequency-domain representation of LPC excitation | |
Dhiman | Prosody Modifications for Voice Conversion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060427 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20070313 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20080424 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090901 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101102 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101130 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131210 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |