JP2001022369A - 音源情報の抽出方法 - Google Patents

音源情報の抽出方法

Info

Publication number
JP2001022369A
JP2001022369A JP11192437A JP19243799A JP2001022369A JP 2001022369 A JP2001022369 A JP 2001022369A JP 11192437 A JP11192437 A JP 11192437A JP 19243799 A JP19243799 A JP 19243799A JP 2001022369 A JP2001022369 A JP 2001022369A
Authority
JP
Japan
Prior art keywords
frequency
filter
instantaneous
noise ratio
carrier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11192437A
Other languages
English (en)
Other versions
JP3417880B2 (ja
Inventor
Hidenori Kawahara
英紀 河原
Toshio Irino
俊夫 入野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR NINGEN JOHO TSUSHIN KENKYU
Japan Science and Technology Agency
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR NINGEN JOHO TSUSHIN KENKYU
ATR Advanced Telecommunications Research Institute International
Japan Science and Technology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR NINGEN JOHO TSUSHIN KENKYU, ATR Advanced Telecommunications Research Institute International, Japan Science and Technology Corp filed Critical ATR NINGEN JOHO TSUSHIN KENKYU
Priority to JP19243799A priority Critical patent/JP3417880B2/ja
Priority to US09/786,642 priority patent/US7085721B1/en
Priority to PCT/JP2000/004455 priority patent/WO2001004873A1/ja
Priority to EP00944252A priority patent/EP1113415B1/en
Priority to DE60024403T priority patent/DE60024403T2/de
Publication of JP2001022369A publication Critical patent/JP2001022369A/ja
Application granted granted Critical
Publication of JP3417880B2 publication Critical patent/JP3417880B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Abstract

(57)【要約】 【課題】 フィルタ中心周波数から出力の瞬時周波数へ
の不動点の性質を瞬時のデータから定量的に解釈の明瞭
な量として検出することができる音源情報の抽出方法を
提供する。 【解決手段】 周波数から瞬時周波数への写像の不動点
を用いた音源情報の抽出方法において、各フィルタ2,
9について、瞬時周波数周波数微分回路3,10により
得られる瞬時周波数の周波数方向の偏微分と、瞬時周波
数時間周波数微分回路4,11により得られる各フィル
タ出力の周波数方向の偏微分を時間方向に偏微分した値
に適切な加重をかけて、時間方向に短時間の加重付きの
積分を行うことにより、各フィルタについての搬送波対
雑音比の推定値を搬送波対雑音比計算回路5,12によ
り計算し、搬送波対雑音比を求め、評価量の推定値を得
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音源情報の抽出方
法に関するものである。
【0002】
【従来の技術】瞬時周波数は時間変化信号に対する周波
数概念を自然に拡大した概念である。瞬時周波数は音声
のような非定常信号を表すために適した性質を多く有す
る。これは種々の信号処理課題に応用された;正弦波
モデルに基づいた音声符号化、フォルマント抽出及び
バンド幅推定、有声音の調波構造の抽出、基本周波
数(F0)の抽出、また、聴覚情報処理の興味深い計
算モデル等である。以下では正弦波モデルの成分正弦波
の周波数、位相情報、基本周波数、およびそれらの周期
性の強さ(あるいは周期成分と非周期成分の割合)等を
音源情報と総称することにする。しかし、この概念に潜
在する重要な可能性、特に、音声の音源情報の抽出につ
いてはまだ十分には研究されていない。これらの側面に
関する最近の研究により、瞬時周波数を利用すれば非常
に優れた音源情報の抽出方法が導かれることが明らかと
なった。
【0003】複数の帯域通過型フィルタの共通する通過
帯域に顕著な正弦波成分がある場合、帯域通過型フィル
タ出力の瞬時周波数は、中心周波数の異なったフィルタ
にわたって実質的には一定値をとるということが知られ
ていた。換言すれば、フィルタ中心の周波数から瞬時出
力周波数までの写像は、顕著な信号周波数の近くに不動
点を有する。この性質は、複合音の調波成分及び音声の
フォルマントのような顕著な共振を抽出するのに用いら
れる。また、これらの性質と、異なった聴覚神経間の同
期発火現象とが関連するであろうことが指摘されてお
り、対応する聴覚的実体を表すものとして『音縒り(s
ynchrony strand)』によるモデル化が
行われている。しかし、これらの考えを一貫性のあるF
0抽出方法としてどのようにまとめたら良いかは、明確
ではなかった。
【0004】本願発明者は、近年、STRAIGHTと
呼ばれる高品質の音声分析、変換、合成システムを提案
している。STRAIGHTは、古典的なチャネルボコ
ーダの概念を一般化されたピッチ同期分析に基づいて洗
練したものである。ここでは、従来から用いられている
述語として『ピッチ同期分析』という用語を踏襲して用
いた。このように、音声情報処理の分野では、ピッチと
いう用語が基本周波数(F0)と同じ意味で用いられて
いる。しかし、これは、不正確な言葉の使用法である。
物理的な属性を表すF0と心理的属性を表すピッチは本
来別のものである。本明細書では、特に心理的属性に言
及するのではない限り、『ピッチ』という用語を用いな
いこととする。STRAIGHT法では、F0に適応し
た分析が行われているため、声門の一開閉サイクルとし
て定義される有音声の基本周期毎に、正確でかつ信頼性
のあるF0情報が必要となる。従来から提案されている
様々なF0抽出方法を適用して検討した結果、従来の方
法では時間分解能についての要求条件と周波数の精度に
ついての要求条件とを共に満たすことができないことが
明らかになった。また、抽出されたF0に高速に変化す
る成分や不連続を含む場合には、それらの絶対値が小さ
くてもそのF0情報に基づいて合成された音声の知覚的
品質が劣化することが分かった。さらに、知覚的に高品
質な音声の合成には、無声/有声の判定が非常に大きな
影響を及ぼすことが示され、数ミリ秒以内の時間的正確
さが求められる場合のあることが分かった。また、逆
に、特定の方向への偏りが無いのであれば、F0をゆっ
くりと変化させるトレンド成分には、合成された音声に
対する知覚的な悪影響が無いことがわかった。
【0005】
【発明が解決しようとする課題】現在まで、多くのF0
抽出方法がある;間隔測定に基づいた時間領域アルゴリ
ズム、スペクトルに基づいた周波数領域の方法、自己相
関及びharmonicsieve(調波成分を取り出
す篩い)、それらを組み合わせた方法及び生物学的に動
機づけがされた方法などがある。これらの方法では、分
析対象とする信号が数学的な意味での周期的信号である
ことを仮定している。数学的な意味での周期性に基づい
て導出されたこれらの方法による推定値は、F0が時間
的に一定であるような信号については、正しいF0の推
定値を与える。しかし、F0が時間的に変化するような
現実の音声や、複合音を構成する成分正弦波の周波数が
調波性から少しだけ外れたような音を分析する場合に、
従来の方法が適切なF0の推定値をあたえるかどうかは
明らかではない。
【0006】提案した高品質の音声変換システムでは、
原音声の音源についての正確な情報に基づいて音声を変
換し再合成することが必要である。したがって、この方
法を改良するには、F0が時間的に変化したり調波性か
ら外れた成分を含む信号についても合理的に適用するこ
とのできるF0抽出方法が必要となる。こうした観察
が、基本成分の瞬時周波数を用いた高い時間分解能を有
する正確なF0軌跡を生み出す新しいF0抽出方法の動
機づけとなった。
【0007】STRAIGHT法では、基本波成分を含
むフィルタが最小のAM変調およびFM変調となること
を仮定して瞬時周波数に基づいたF0抽出方法を導出
し、用いていた。STRAIGHTで用いていたF0抽
出方法は、音声と同時に記録されたEGG(Elect
ro Glotto Graph)信号を参照信号とし
た評価テストにおいて、妥当な性能を示した。例えば、
女性話者による100文章の分析では、音声から求めら
れたF0とEGGから求められたF0の誤差が20%以
上の値を示したのは、全分析フレームの1.4%であっ
た。また、全分析フレームの53%で、音声から求めら
れたF0は、EGGから求められたF0の0.3%以内
に入っていた。しかし、上記の最小のAM,FM変調の
仮定はあいまいに定式化されており、数学的には有効で
ない。また、この方法では、男性の音声についてのF0
の誤差の標準偏差が女性の音声の場合の2倍程度になる
という問題があった。
【0008】本発明は、必要な数学的基礎を提供し、上
記した方法の拡張である新たなF0抽出方法を導くこと
である。不動点におけるフィルタ中心周波数と出力瞬時
周波数との関係の偏微分についての詳細な検討は、必要
な数学的基礎を提供する重要な鍵であった。これによ
り、瞬時周波数概念の非定常的な側面を利用する新しい
一貫したF0及び音源情報抽出方法へと導かれる。
【0009】本発明は、フィルタ中心周波数から出力の
瞬時周波数への不動点の性質を瞬時のデータから定量的
に解釈の明瞭な量として検出することができる音源情報
の抽出方法を提供することを目的とする。
【0010】
【課題を解決するための手段】〔1〕周波数から瞬時周
波数への写像の不動点を用いた音源情報の抽出方法にお
いて、各フィルタについての瞬時周波数の周波数方向の
偏微分と、各フィルタ出力の周波数方向の偏微分を時間
方向に偏微分した値に適切な加重をかけて、時間方向に
短時間の加重付きの積分を行うことにより、各フィルタ
についての搬送波対雑音比の推定値を計算し、搬送波対
雑音比を求め、評価量の推定値を得るようにしたもので
ある。
【0011】〔2〕上記〔1〕記載の音源情報の抽出方
法において、前記搬送波対雑音比による評価量の推定値
に基づいて、対数周波数軸上相似フィルタを基本周波数
に対応する不動点の選択に用い、基本周波数についての
事前情報無しに基本周波数を抽出するようにしたもので
ある。
【0012】〔3〕上記〔2〕記載の音源情報の抽出方
法において、前記対数周波数軸上相似フィルタと線形周
波数軸上相似適応チャープフィルタとを組み合わせるこ
とにより基本周波数についての事前情報無しに基本周波
数を抽出するとともに、この抽出された基本周波数の精
度を改良するようにしたものである。
【0013】
【発明の実施の形態】以下、本発明の実施の形態につい
て詳細に説明する。
【0014】図1は本発明の実施例を示す音源情報の抽
出を行うための基本周波数抽出装置のブロック図であ
る。
【0015】この図に示すように、入力回路1は、分析
の対象となる信号x(t)を増幅、変換、分配などする
ために用いられる。この入力回路1において、例えば、
マイクで収録された音声信号は適切なレベルに増幅され
た後、適切な標本化周波数でディジタル化される。ディ
ジタル化された信号は、対数周波数軸上相似フィルタ2
により分析される。対数周波数軸上相似フィルタ2と
は、周波数軸を対数周波数に変換してフィルタ特性を表
した場合、軸上の位置のみが異なり、形状が同一のフィ
ルタを複数、中心周波数を応用目的により定まる下限か
ら上限まで組織的に配置したフィルタ群である。組織的
な配置としては、対数周波数軸上で等間隔になるように
することが普通である。しかし、それ以外の配置でも構
わない。本発明の実験では、中心周波数を40Hzから
800Hzまで、2の24乗根(約3%の増加に相当)
づつ等比的に変化させた。それぞれのフィルタは、詳細
に後述する式(8)(9)(10)により求められる複
素数のインパルス応答を有するフィルタである。その対
数周波数軸上相似フィルタ2の出力は、瞬時周波数周波
数微分回路3と不動点抽出回路6とに送られる。
【0016】瞬時周波数周波数微分回路3においては、
フィルタの出力から各フィルタ出力の瞬時周波数を計算
し、さらに、隣接するフィルタの出力の瞬時周波数とそ
れぞれのフィルタの中心周波数に基づいて、各フィルタ
について瞬時周波数の周波数方向の偏微分が計算され
る。これは、詳細に後述する式(20)に相当する。こ
の計算結果は、瞬時周波数時間周波数微分回路4と搬送
波対雑音比計算回路5とに送られる。
【0017】瞬時周波数時間周波数微分回路4において
は、瞬時周波数周波数微分回路3において求められた各
フィルタについて瞬時周波数の周波数方向の偏微分の時
間方向の微分を計算することにより、各フィルタ出力の
瞬時周波数の周波数方向の偏微分を時間方向に偏微分し
た値が求められる。これは、詳細に後述する式(22)
に相当する。
【0018】搬送波対雑音比計算回路5は、各フィルタ
についての瞬時周波数の周波数方向の偏微分と、各フィ
ルタ出力の周波数方向の偏微分を時間方向に偏微分した
値に適切な加重をかけて、時間方向に短時間の加重付き
の積分を行うことにより、各フィルタについての搬送波
対雑音比の推定値を計算する。それぞれの偏微分に掛け
る適切な重みは、それぞれのフィルタ形状とそれぞれの
フィルタの中心周波数から詳細に後述する式(12)に
より求められる。この加重は、分析中に変化するもので
はない。したがって、フィルタを設計した時点で決定す
ることができる。こうして決定した加重の値を搬送波対
雑音比計算回路5に組み込んでおけば良い。
【0019】搬送波対雑音比計算回路5の働きについて
は、後述する図3に具体的に例が挙げられている。ある
信号に対してその中の一つの正弦波成分を含むようなフ
ィルタおよびその周辺のフィルタの出力から求められた
量を例示している。瞬時周波数周波数微分回路3の出力
は、図3の実線で表されている。瞬時周波数時間周波数
微分回路4の出力は、図3の破線で示されている。これ
らのそれぞれを自乗し、平均して平方根を求めたものが
図3の一点鎖線である。この一点鎖線は、瞬時周波数周
波数微分回路3の出力と瞬時周波数時間周波数微分回路
4の出力の全体的な傾向(振幅包絡)を表しているが、
細かな振動と135ms付近で0に非常に近くなるため
実用上は使用し難い。この一点鎖線の信号を注目してい
るフィルタのインパルス応答の包絡により時間的に平滑
化することにより、図3の中の点線の信号を得る。こう
して求められた信号は、搬送波対雑音比の良い推定値と
なる。
【0020】不動点抽出回路6は、各フィルタの中心周
波数と各フィルタ出力の瞬時周波数の対応関係から不動
点として安定な性質を持つものを選択し、その周波数を
求める回路である。不動点の選択は、詳細に後述する式
(11)による。この回路自体は本発明の特徴ではな
い。
【0021】基本周波数成分選択回路7は、それぞれの
不動点に対応する搬送波対雑音比を比較し、最も高い搬
送波対雑音比に対応する不動点を基本周波数成分として
選択する。搬送波対雑音比という周波数依存性の無い客
観的な尺度が推定できるようになったことにより、対数
周波数軸上相似フィルタのように線形周波数軸上での形
状が異なるとともに中心周波数が異なるようなフィルタ
間の合理的な比較が可能になった。
【0022】周期性評価回路8は、基本周波数成分選択
回路7で選択された基本周波数成分の周期性の度合い
を、搬送波対雑音比計算回路5で求められた基本周波数
成分に対応する搬送波対雑音比の値に基づいて評価する
回路である。ここには、3種類の評価基準を用いること
ができ、それぞれ異なった3種類の実施例に対応する。
【0023】第一の評価基準は、搬送波対雑音比をその
まま用いるものである。信号対雑音比がそのまま周期成
分と非周期成分の相対的振幅を反映していると解釈する
ものである。
【0024】第二の評価基準は、求められた搬送波対雑
音比の値をそのまま用いるのではなく、抽出された基本
周波数成分の周波数の変動と振幅の変動による影響を推
定して補正してから評価基準として用いる方法である。
【0025】第三の評価基準は、求められた搬送波対雑
音比の値から、求められた基本周波数成分の情報に基づ
いて基本波だけからなる信号を作成し、その作成した信
号を元の信号を分析したものと同じ方法で分析して求め
た作成信号の搬送波対雑音比を引いたものを、非周期成
分として評価する方法である。
【0026】以上説明した部分、つまり図1の破線Aで
囲まれた部分だけでも、高精度の音源情報分析装置とし
て十分に利用することができる。
【0027】しかし、以下の部分、つまり図1の破線B
で囲まれた部分を追加することにより、さらに高精度の
音源情報分析装置として利用することができる。
【0028】線形周波数軸上相似適応チャープフィルタ
9では、後述する図8に示される、基本波成分選択回路
により求められた基本周波数成分の基本周波数の値、周
期性評価回路により求められた周期性の度合いに基づい
て、周期成分が顕著な場合には、基本周波数に適応した
周波数分析が行われる。ここでは、フィルタは中心周波
数が線形周波数軸上で等間隔にならび、フィルタ形状も
線形周波数軸上で平行移動により重なるような同じ形状
を有している。このようなフィルタは、等価的に高速フ
ーリエ変換により実現できる。また、後述する図8に示
される、基本波成分選択回路により求められた基本周波
数成分の時間微分により求められる基本周波数の瞬時周
波数の変動速度に基づいて分析に先立って信号の時間軸
が放物線状に変換される。この変換自体は、既に提案さ
れている変換であるが、この変換をこの構成の下で用い
ることは新しい。
【0029】瞬時周波数周波数微分回路10において
は、フィルタの出力から各フィルタ出力の瞬時周波数を
計算し、さらに、隣接するフィルタの出力の瞬時周波数
とそれぞれのフィルタの中心周波数に基づいて、各フィ
ルタについて瞬時周波数の周波数方向の偏微分が計算さ
れる。これは、詳細に後述する式(20)に相当する。
この計算結果は、瞬時周波数時間周波数微分回路11と
搬送波対雑音比計算回路12とに送られる。
【0030】瞬時周波数時間周波数微分回路11におい
ては、瞬時周波数周波数微分回路10において求められ
た各フィルタについて瞬時周波数の周波数方向の偏微分
の時間方向の微分を計算することにより、各フィルタ出
力の瞬時周波数の周波数方向の偏微分を時間方向に偏微
分した値が求められる。これは、後述する式(22)に
相当する。
【0031】搬送波対雑音比計算回路12は、各フィル
タについての瞬時周波数の周波数方向の偏微分と、各フ
ィルタ出力の周波数方向の偏微分を時間方向に偏微分し
た値に適切な加重をかけて、時間方向に短時間の加重付
きの積分を行うことにより、各フィルタについての搬送
波対雑音比の推定値を計算する。それぞれの偏微分に掛
ける適切な重みは、それぞれのフィルタ形状とそれぞれ
のフィルタの中心周波数から、後述する式(12)によ
り求められる。この加重は、分析中に変化するものでは
ない。したがって、フィルタを設計した時点で決定する
ことができる。こうして決定した加重の値を搬送波対雑
音比計算回路12に組み込んでおけば良い。
【0032】不動点抽出回路13は、各フィルタの中心
周波数と各フィルタ出力の瞬時周波数の対応関係から不
動点として安定な性質を持つものを選択し、その周波数
を求める回路である。不動点の選択は、後述する式(1
1)による。この回路自体は、本発明の特徴ではない。
【0033】帯域別周期性評価回路14では、それぞれ
のフィルタの受け持つ周波数帯域について搬送波対雑音
比の値に基づいて周期性の程度を求め、それぞれの帯域
の特徴を表す情報とする。
【0034】基本周波数改良回路15では、不動点抽出
回路13で求められた不動点の周波数の情報と、搬送波
対雑音比計算回路12で求められた搬送波対雑音比の値
を基本周波数成分選択回路7で求められた基本周波数の
粗い推定値を参照することにより、最終的な基本周波数
の推定値の平均的な誤差の期待値が最も小さくなるよう
に統合して改良された基本周波数が求められる。
【0035】なお、これらの処理と同等の処理をアナロ
グ回路を用いて行うこともできる。その場合、入力回路
1は、増幅ならびに分配の機能のみを有する。
【0036】以下、本発明の実施例である周波数から瞬
時周波数への写像の不動点及びF0抽出方法について詳
細に説明する。
【0037】ここでは、フィルタ中心周波数から出力の
瞬時周波数(F−IF写像)への不動点における特徴に
基づいて、信頼性のあるF0抽出方法を説明する。フィ
ルタ包絡線のインパルス応答がガウス形の信号と2次の
カーディナル・Bスプライン(cardinal B−
spline)基底関数の畳み込みとして設定される
と、不動点におけるF−IF写像の周波数方向の偏微
分、時間周波数方向の偏微分により、顕著な正弦波上の
成分(搬送波成分)とそれ以外の成分との比率(搬送波
対雑音比)の推定値が分かる。対数周波数軸上で同じ
形、また同じ間隔を有するフィルタ群を用いれば、搬送
波対雑音比を基準とすることで、基本波成分を含むフィ
ルタを選択することができる。すると信号の基本周波数
は、フィルタ出力の瞬時周波数として算定される。提案
した方法を音声と対応するEGG信号とを同時に記録し
たデータベースを用いて評価したところ、基準となるF
0からの誤差が20%以上となるフレーム数は、全分析
フレーム数の1%未満であることが分かった。本発明に
より、基本周期と同程度の時間分解能でのF0軌跡の追
跡が可能になる。
【0038】以下、本発明の音源情報の抽出方法につい
て詳細に述べる。
【0039】〔1〕まず、このセクションでは、後のセ
クションで論じるために必要な概念を導入する。まず、
瞬時周波数について概観する。次に、音声の駆動機構を
概観した後、音声を分析するときの概念として瞬時周波
数の概念が非常に優れたものであることについて述べ
る。
【0040】〔1−1〕瞬時周波数 信号x(t)の瞬時周波数ω(t)を、信号のヒルベル
ト変換H[x(t)]を用いて定義する。
【0041】
【数1】
【0042】
【数2】
【0043】ここで、s(t)は解析信号であり、j=
√−1である。この定義を直接応用するには、位相の2
nπの不定性に伴う不連続を取り除くために位相のアン
ラップ操作が必要となる。位相を直接用いる必要のない
方法も、こうした困難を回避するために数多く提案され
た。
【0044】
【数3】
【0045】位相成分φ(t)は、対応する瞬時周波数
ω(t)との以下の関係を持つ
【0046】
【数4】
【0047】ここで、φ(t0 )はt=t0 における初
期位相である。
【0048】瞬時周波数ω(t)がゆっくりと変化し、
信号のサンプリング間隔以下の時間内では、定数として
近似することが可能であると仮定する。信号の短時間の
フーリエ変換、つまりX(λ,t)は、以下のように定
義される。
【0049】
【数5】
【0050】ここで、ω(t)は時間窓を表す。各周波
数地点における瞬時周波数を、2つの隣接する短時間フ
ーリエ変換を用いて表す。
【0051】
【数6】
【0052】実際は、Flanaganによる方法が計
算の効率は良い。一方、上記の方程式は、離散時間信号
の瞬時周波数について、概念的に簡単な解釈を提供す
る。この方程式においてω(λ,t)を、インパルス応
答w(t)exp(jλt)を有するフィルタ出力の瞬
時周波数として解釈することも可能である。 〔1−2〕音声の信号モデル 有声音は、周期的構造を持つと見なされる。しかし、音
声信号の基本周波数の変化は、韻律的情報を表す上で重
要な役割を果たしており、高速の動きを含んでいるため
厳密には周期的ではない。さらに、調波成分においてよ
り複雑な構造が存在する。
【0053】声門の周期的振動は、呼気流を変調して音
源信号を作り出す。通常の有声音の場合には、変調され
た呼気流の波形には、一次導関数に周期的に不連続が生
ずる。これらの不連続は、声帯の動きの開閉(時に転換
点)に対応する。この不連続は高い周波数領域において
高いエネルギーを有するため、こうした領域における励
起の主な源となる。気流が通過することに伴って声帯の
表面のリップルが移動するため、声門の閉止及び開き始
めの時刻は、声帯の振動に完全に同期した一定の位相に
おいて生ずるとは限らない。変調された気流の波形では
エネルギーが低域に集中しているため、声門の動きは低
周波領域における主な励起源である。これらの点によ
り、調波成分の瞬時周波数は、基本周波数の正確な整数
の倍数ではない。
【0054】こうした観察によって、正弦波モデルの基
本となる式として知られる以下のような有声音のモデル
が導かれる。
【0055】
【数7】
【0056】ここで、ω0 (t)は共通の基本周波数を
表し、ωk (t)はk番目の成分の調波からの外れを表
す。φ(t)は初期位相を表す。
【0057】この方程式は、基本周波数として様々な異
なったものがあり得ることを示唆している。なぜなら、
どの高調波成分を基準として基本周波数を計算しても構
わないからである。しかし、第一の成分とより高い周波
数領域の成分との間には大きな差異が存在する。低い周
波数領域における主な励起源が声帯の動きのみであると
き、高周波数領域における主な励起源は、声帯の動きと
その表面上の動く波動の両方に依存する不連続の瞬間で
ある。従って、音声信号の基本波成分を表すための基本
波成分の瞬時周波数に依存することは、より簡単なモデ
ルに対応し、かつ実際に基本的であるため、合理的なこ
とであろう。
【0058】〔2〕F−IF写像の不動点を用いた基本
周波数推定 主要な成分以外の成分によって生じる干渉が瞬時周波数
算定において主な誤差の原因であるため、正確に基本周
波数を推定するために、基本波成分を分離しておくこと
が必要である。そうしたフィルタは、フィルタリングに
よる周波数及び時間方向の滲みをできるだけ避けるよう
に設計することが必要である。
【0059】ガウス包絡線及び2次のcardinal
B−spline関数の基底関数より設計されたフィ
ルタインパルス応答により、この目的のために有用なフ
ィルタのセットが提供される。
【0060】〔2−1〕フィルタ設計 フィルタを用いることによるスペクトルならびに時間の
歪みを回避するためには、フィルタは高い時間分解能と
ともに隣接する調波からの干渉を十分に排除する能力を
持つことが必要である。この点は、音声信号は本質的に
非定常であるため、音声信号にとって不可欠である。下
記のガウス包絡線より成る等方的Gabor関数は、時
間周波数領域では不確定性が最小であり、時間分解能と
周波数分解能の間のトレードオフの関係に関して適当な
妥協点を与えるものである。“等方的”という語は、搬
送波の波長及び搬送波の周波数のそれぞれについて、関
数の時間周波数表示が同等の時間分解能及び周波数分解
能を有するということを表している。
【0061】
【数8】
【0062】
【数9】
【0063】ここで、W(ω)はインパルス応答ω
(t)のフーリエ変換、またω0 =2πf0 はフィルタ
の中心周波数である。
【0064】2次のcardinal B−splin
e関数の基底関数を等方的ガウス包絡線関数で畳み込む
ことにより、隣接する調波成分によって生ずる干渉を抑
制するために隣接調波の周波数の付近に2次の零点が加
えられる。
【0065】
【数10】
【0066】ここで*は畳み込みを表す。
【0067】〔2−2〕正弦波状の成分の抽出 支配的な正弦波状信号のみがフィルタの実効的な通過域
の中にあると仮定しよう。この時、フィルタ出力の瞬時
周波数は周波数、つまり支配的正弦波状の成分のωd
よって決定される。換言すれば、フィルタ出力の瞬時周
波数は、そうしたフィルタが共通の支配的正弦波状の成
分を共有するとき、ほとんど同一である。正弦波状の成
分の周波数をωS (t)で表す。これによって、ω
S (t)の近傍に不動点が存在するようになる。ω
S (t)より低い中心周波数を持つフィルタの出力の瞬
時周波数は、その中心周波数よりも高い。その一方、ω
S (t)より高い中心周波数を持つフィルタの出力の瞬
時周波数は、その中心周波数よりも低い。中心周波数が
これら2つの中心周波数の間で変化するときに出力瞬時
周波数は連続的に変化するため、フィルタ出力の瞬時周
波数がその中心周波数と一致する地点が存在するが、こ
れが不動点である。不動点の上側のフィルタと下側のフ
ィルタの中心周波数の不動点の周波数からのずれは任意
に小さくできるので、結局、不動点の周波数はω
S (t)と一致する。
【0068】フィルタの中心周波数をλで表し、またω
i (λ,t)でフィルタ出力の瞬時周波数を表す。この
ようにすると、次の式で定義された不動点の集合は、信
号に含まれる正弦波状の成分の候補を与える。
【0069】
【数11】
【0070】ここで、εは任意の小さな定数を表す。
【0071】〔3−3〕搬送波対雑音比の推定 支配的な正弦波状の成分のみが実効的な通過域に存在す
るとき、出力瞬時周波数は、正弦波状の成分の周波数と
全く同じである。背景雑音が支配的正弦波状の成分に関
して十分に小さい場合、不動点の近くのフィルタ出力の
瞬時周波数の誤差は、正弦波状の成分として表された背
景雑音の加重和によって近似される。この雑音成分が不
動点のまわりのフィルタの実効的な通過域において均一
に分布していると仮定するならば、支配的な正弦波状の
成分の周波数とフィルタ出力の瞬時周波数の誤差の分散
は、背景雑音の相対的な誤差の分散に比例する。なお、
相対的な誤差の分散を平均自乗誤差として表したものの
逆数が搬送波対雑音比である。背景雑音の相対的な誤差
の分散は、以下の式を用いて、不動点におけるF−IF
写像の周波数偏微分及び時間周波数偏微分から推定する
ことができる。
【0072】相対的誤差分散をσ2 で表す。
【0073】
【数12】
【0074】ここで、Wp (ω)はフィルタ応答ω
p (t)のフーリエ変換を表す。実際には、相対的誤差
分散の確かな推定値を求めるためには時間的平滑化を取
り入れることが必要である。
【0075】〔2−4〕基本波成分の選択 システムが時間分解能と周波数分解能の間の最良の妥協
点を実現するためには、目的とする主要な正弦波状の成
分に関する情報を用いてフィルタを設計することが必要
である。基本周波数抽出のそれを設計するには、基本周
波数についての事前の情報がまた必要とされる。しか
し、そのような情報は、分析するために予め利用するこ
とはできない。こうした困難を回避する一つの方法とし
て、体系的に設計された形状と中心周波数を持つ一連の
フィルタを用いる方法がある。
【0076】一連のフィルタが対数周波数軸上に等しい
周波数間隔を持ち、対数周波数軸上に同じ形状を持つと
仮定する。フィルタの間隔が十分に密であれば、事実
上、あらゆる不動点はフィルタ中心に位置する。する
と、基本周波数に対応する不動点から構成されるフィル
タが最小の相対的誤差分散を有する。これは、他のフィ
ルタが実効的な通過域の中に必然的に複数の調波成分や
雑音成分を含んでしまうからである。換言すれば、相対
的誤差分散が最小であることは、不動点が基本波成分を
表すという証拠である。この議論の進め方は、本願発明
者が以前の発明で用いた『基本波らしさ』の概念を導い
た時と同様である。しかし、以前の考えは、FMとAM
の大きさの合計を測定する、直観的に取り入れた方法に
基づいたものであり、確実な数学的基礎に基づいたもの
ではない。また、相対的誤差分散は、周波数の推定誤差
と直接的に対応していることもあって、より適切であ
る。
【0077】以上の検討に基づき、F0の事前情報に依
存しない基本波成分の選択手続きは、以下のようにまと
められる。
【0078】●ステップ1:対数関数軸上に等間隔に置
かれた中心周波数を持つ一連のフィルタを用意する。中
心周波数はF0の存在しうる範囲を覆わなければならな
い(すなわち40Hz〜800Hz)。間隔は十分に密
でなくてはならない(すなわち1オクターブにつき24
フィルタ)。
【0079】●ステップ2:分析対象の信号を用意した
フィルタへ送り込む。
【0080】●ステップ3:各フィルタ出力につき瞬時
周波数を算定する。
【0081】●ステップ4:選択基準を用いて不動点を
抽出する〔式(11)〕。
【0082】●ステップ5:各不動点につき相対的誤差
分散を算定する〔式(12)〕。
【0083】●ステップ6:各分析フレームにおいて、
最小の相対的誤差分散を有する不動点を選択する。こう
して選択された不動点は、基本波成分の最も有力な候補
である。
【0084】基本周波数は、抽出した基本波成分の瞬時
周波数として推定される。
【0085】実際には、基本波成分を選択する最終ステ
ップは、録音の時の環境騒音等の影響を防ぐために挿入
される高域通過フィルタの影響や低い周波数における信
号対雑音比の劣化の影響によって、基本波成分に対応す
る相対的誤差分散の大きさが十分に小さくならないた
め、失敗することがある。この問題の影響は、相対的誤
差分散が十分に小さな部分から求められるF0軌跡を、
その前後に連続性を追跡しながら探索して延長すること
によって軽減することができる。
【0086】〔2−5〕余分の正弦波状の成分によって
生じた干渉 顕著な正弦波状の成分の一つに中心を置くフィルタ出力
信号を、下記の方程式によって近似することができる。
ε≪1と仮定する。
【0087】
【数13】
【0088】
【数14】
【0089】g(ω)は、ω=1において最大値1を持
つとする。周波数領域の重み関数g(ω)は滑らかな連
続関数であり、ω=0の周辺には特異点がないものとす
る。この時、0付近のg(ω)のTaylor展開は、
ω≪1なら、g(ω)≒1であることが分かる。これら
の仮定を用いれば、上記(14)式は次のように近似さ
れる。
【0090】
【数15】
【0091】ここで、瞬時周波数を調べるためには、こ
の方程式を極形式に書き換える必要がある。
【0092】
【数16】
【0093】条件をω≪1及びε≪1と仮定するので、
その方程式はさらに近似される。
【0094】
【数17】
【0095】信号s(t)の位相関数φ(t)を下記の
ように近似する。
【0096】
【数18】
【0097】これは、干渉信号により位相変調が生ずる
ことを示している。
【0098】信号s(t)の瞬時周波数ωi (t)は位
相関数の時間導関数より導かれる。それは下記のように
なる。
【0099】
【数19】
【0100】〔2−6〕搬送波対雑音比の実際的な推定
方法 ここで求めたいのは、問題の正弦波状の成分に対する搬
送波対雑音比である。それを瞬時値だけに基づいて計算
できることが望ましい。換言すれば、特定の帯域通過フ
ィルタの通過域内でのεの平均を求めるのである。つま
り、基本的な考えは、sin2 +cos2 =1の関係を
用いて、ωi (t)における正弦波状の変動を除去する
方法を導くことである。不動点における幾何学的属性
は、これを達成する鍵になる。
【0101】〔2−6−1〕周波数偏微分 瞬時周波数ωi (t)の周波数に関する偏微分から次式
が得られる。
【0102】
【数20】
【0103】干渉する成分が一つだけの場合、t0 =2
π/δで決まる一周期分を観測するだけでεの値を推定
することが可能である。しかし、一般に、同時に複数の
成分が存在し得る。
【0104】〔2−6−2〕時間周波数偏微分 時間に関する偏微分を求めることにより、前の余弦波位
相を有する信号に対応する正弦波位相の対応物を求める
のは、もっともと思われる。
【0105】
【数21】
【0106】求める正弦波位相変数を第3項で得る。し
かし、音声のような信号は基本周波数が高速に変化し、
その変化についての事前情報も得られないため、初めの
2項を除去することはできない。
【0107】次の段階は、方程式(21)の周波数に関
する偏微分を導くことである。これは、以下のようにな
る。
【0108】
【数22】
【0109】これは、正弦波位相で変化する成分のみか
ら成る。
【0110】〔3〕以下、具体的数値例について述べ
る。
【0111】人工的信号及び実際の音声試料を用いた分
析例について述べる。
【0112】〔3−1〕付加的な白色雑音を持つインパ
ルス列 図2にフィルタ中心周波数から出力瞬時周波数への写像
を示す。200Hzパルス列と白色雑音(S/Nは20
dB)との合成信号を、対数周波数軸上で等間隔に配置
したフィルタを用いて分析する。200Hzに対応する
不動点付近の瞬時周波数は均一のままである点に注意さ
れたい。他の不動点は、このような安定性を示していな
い。
【0113】図3に搬送波対雑音比の計算に用いられる
様々な中間的な変数の値と最終的に得られた結果の例を
示す。この図において、それらの平方根の値を図3上に
記入する。実線で示される周波数偏微分の系列と破線の
時間周波数偏微分との間にπ/2の位相差がうまく導入
されていることに注意されたい。また、135ms付近
の点において、周波数偏微分と時間周波数偏微分の重み
付き自乗平均値に、成分正弦波の間の干渉に起因する鋭
い窪みが生じていることが分かる。この重み付き自乗平
均値に前述の平滑化を適用することにより、滑らかな搬
送波対雑音比の推定値が求められる。
【0114】図4に搬送波対雑音比の時間−周波数(時
間−チャネル番号)表示を画像として表示する。また、
図4では求められた不動点をその上に重ねて表示してい
る。図では暗さが搬送波対雑音比の大きさに対応してお
り、暗いほど搬送波対雑音比が大きい。
【0115】200Hz付近の抽出した不動点のほぼ全
ては、基本波成分に対応する。他の不動点の中には20
0Hz付近に位置するものはない。100Hz未満の領
域では抽出した不動点が無作為に分布しているが、それ
が互いに近づく傾向は弱い。より周波数の高い領域で
は、不動点は調波周波数付近にとどまる傾向がある。
【0116】図5に瞬時周波数と搬送波対雑音比によっ
て張られる平面上での不動点の分布を示す。基本成分に
対応する不動点は、明らかに別個のものである。調波周
波数付近の不動点の搬送波対雑音比は、調波周波数にお
いて最大値を示すという点に注意されたい。このような
現象が生ずるのは、隣接する調波成分が同程度の大きさ
で混合される場合に相互の干渉が非常に大きくなるから
である。
【0117】図6に最小点と残りの点の搬送波対雑音比
の分布を示す。基本波成分に対応する不動点は、はっき
りと区別できる分布を有することが分かる。
【0118】〔3−2〕持続母音 図7に男性の話者による持続した日本語の母音/a/を
入力信号とした場合の、中心周波数から瞬時周波数への
写像を示す。話者には、持続母音の発声に際しては一定
(約130Hz)の基本周波数を保つよう指示した。信
号の標本化周波数は22050Hz、量子化ビット数は
16bitであった。パルス列の場合のように、基本周
波数に対応する不動点付近では、写像は実質的には平坦
である。
【0119】図8に瞬時周波数と搬送波対雑音比によっ
て張られる平面上での不動点の分布を示す。基本波成分
に対応する不動点は、130Hz付近に位置する。
【0120】図9に瞬時周波数と搬送波対雑音比の散布
図を示す。この図から基本波成分付近の不動点が非常に
小さな搬送波対雑音比を有することは明らかである。パ
ルス列の場合のように、調波成分付近の不動点は、調波
周波数において最大の搬送波対雑音比を示す。基本波成
分についての搬送波対雑音比は約40dBであり、持続
母音のF0が非常に安定していることを示す。
【0121】図10に度数分布表示における同じデータ
を示す。この図から分布が分離していることは明らかで
ある。
【0122】〔3−3〕自然な韻律を有する母音連鎖 図11に男性話者による、連続的に発音された母音連鎖
より抽出した不動点の時間周波数散布図を示す。以前の
結果と同様、この図に基本波成分に対応する軌跡が滑ら
かに連続する不動点の集まりとしてはっきり見える。第
一のフォルマントに対応する不動点は、500msから
700msのあたりにはっきりと見える。図12に不動
点の搬送波対雑音比の時間経過を示す。この図では、有
声音の部分が明瞭に分かる。有声部分では、基本波成分
のみが十分に大きな搬送波対雑音比を示している。
【0123】図13に瞬時周波数と搬送波対雑音比の分
布を示す。この図13と図11とを併せて考えれば、先
読み用のバッファを用いることで、信頼性の高いF0追
跡アルゴリズムを容易に実現することができる。
【0124】〔3−4〕同時EGG記録を用いたセンテ
ンス(文)データベース 図14に基本周波数推定における誤差分布を示す。図の
横軸は、音声信号から求められたF0とEEG信号から
求められたF0の周波数の比を百分率で表したものであ
る。横軸上の100%の位置は、誤差が0である場合に
対応している。図14(a)は男性話者による基本周波
数推定における誤差を、図14(b)は女性話者による
基本周波数推定における誤差をそれぞれ示している。こ
れらの図によると、男性話者の誤差は、女性話者のそれ
よりも大きいことが分かる。
【0125】
【表1】
【0126】表1に基本周波数抽出における誤差の統計
を示す。 結果の中にはEGG信号の分析の誤差も含ま
れていることに注意する必要があるものの、これは非常
に良い結果である。この結果は、不動点に基づいたF0
推定法において基本波成分のみを用いた場合の性能の上
限であるとみなすことができる。女性のデータはほぼ満
足の行くものであるとの結論が出せるが、男性のデータ
はさらに改善が必要であると言える。図1の破線Bの部
分は、このような場合の推定結果を改良するために用い
られる。
【0127】なお、本発明は上記実施例に限定されるも
のではなく、本発明の趣旨に基づいて種々の変形が可能
であり、これらを本発明の範囲から排除するものではな
い。
【0128】
【発明の効果】以上、詳細に説明したように、本発明に
よれば、以下のような効果を奏することができる。
【0129】(A)信号の中にある正弦波成分を精度よ
く確実に抽出することができるとともに、抽出された成
分の影響を短時間の観測値から定量的に求めることがで
きる。
【0130】(B)分析合成音声を合成するための高品
質の音源情報(基本周波数及び周期性についての情報)
の抽出を行うことができる。
【0131】(C)楽器音などの周期性を有する音の分
析においても、周期性の確からしさを客観的な指標とし
て求めることができため、分析結果に基づいて楽器音を
変換・再合成する場合の、高品質の音源情報として用い
ることができる。また、汎用の分析装置として一般の信
号の周期性の分析にも用いることができる。
【0132】(D)定量的に解釈の明確な量が求められ
るため、対数周波数軸上相似フィルタと線形周波数軸上
相似適応チャープフィルタのように構造の異なったフィ
ルタによる結果を有効に統合することができる。
【0133】(E)搬送波対雑音比の推定値は、そのま
まで、帯域フィルタあるいは周波数分析結果の評価に用
いることができる。
【図面の簡単な説明】
【図1】本発明の実施例を示す音源情報の抽出を行うた
めの基本周波数抽出装置のブロック図である。
【図2】本発明の実施例を示すフィルタ中心周波数から
出力瞬時周波数への写像を示す図である。
【図3】本発明の実施例を示す搬送波対雑音比を計算す
る過程の中間結果及び最終結果を示す図である。
【図4】本発明の実施例を示す時間−チャネル平面にお
ける搬送波対雑音比と不動点の分布を示す図である。
【図5】本発明の実施例を示すフィルタ出力の瞬時周波
数と搬送波対雑音比の分布を示す図である。
【図6】本発明の実施例を示す搬送波対雑音比の度数分
布を示す図である。
【図7】本発明の実施例を示すフィルタの中心周波数か
ら出力の瞬時周波数への写像を示す図である。
【図8】本発明の実施例を示す時間−チャネル平面にお
ける搬送波対雑音比と不動点の分布を示す図である。
【図9】本発明の実施例を示すフィルタ出力の瞬時周波
数と搬送波対雑音比の分布を示す図である。
【図10】本発明の実施例を示す搬送波対雑音比の度数
分布を示す図である。
【図11】本発明の実施例を示す時間−チャネル平面に
おける搬送波対雑音比と不動点の分布を示す図である。
【図12】本発明の実施例を示す搬送波に対する相対的
雑音振幅の時間的分布を示す図である。
【図13】本発明の実施例を示すフィルタ出力の瞬時周
波数と搬送波対雑音比の分布を示す図である。
【図14】本発明の実施例を示すF0推定誤差の分布を
示す図である。
【符号の説明】
1 入力回路 2 対数周波数軸上相似フィルタ 3,10 瞬時周波数周波数微分回路 4,11 瞬時周波数時間周波数微分回路 5,12 搬送波対雑音比計算回路 6,13 不動点抽出回路 7 基本周波数成分選択回路 8 周期性評価回路 9 線形周波数軸上相似適応チャープフィルタ 14 帯域別周期性評価回路 15 基本周波数改良回路
───────────────────────────────────────────────────── フロントページの続き (72)発明者 入野 俊夫 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール人間情 報通信研究所内

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 周波数から瞬時周波数への写像の不動点
    を用いた音源情報の抽出方法において、 各フィルタについての瞬時周波数の周波数方向の偏微分
    と、各フィルタ出力の周波数方向の偏微分を時間方向に
    偏微分した値に適切な加重をかけて、時間方向に短時間
    の加重付きの積分を行うことにより、各フィルタについ
    ての搬送波対雑音比の推定値を計算し、搬送波対雑音比
    を求め、評価量の推定値を得ることを特徴とする音源情
    報の抽出方法。
  2. 【請求項2】 請求項1記載の音源情報の抽出方法にお
    いて、前記搬送波対雑音比による評価量の推定値に基づ
    いて、対数周波数軸上相似フィルタを基本周波数に対応
    する不動点の選択に用い、基本周波数についての事前情
    報無しに基本周波数を抽出することを特徴とする音源情
    報の抽出方法。
  3. 【請求項3】 請求項2記載の音源情報の抽出方法にお
    いて、前記対数周波数軸上相似フィルタと線形周波数軸
    上相似適応チャープフィルタとを組み合わせることによ
    り基本周波数についての事前情報無しに基本周波数を抽
    出するとともに、該抽出された基本周波数の精度を改良
    することを特徴とする音源情報の抽出方法。
JP19243799A 1999-07-07 1999-07-07 音源情報の抽出方法及び装置 Expired - Fee Related JP3417880B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP19243799A JP3417880B2 (ja) 1999-07-07 1999-07-07 音源情報の抽出方法及び装置
US09/786,642 US7085721B1 (en) 1999-07-07 2000-07-05 Method and apparatus for fundamental frequency extraction or detection in speech
PCT/JP2000/004455 WO2001004873A1 (fr) 1999-07-07 2000-07-05 Procede d'extraction d'information de source sonore
EP00944252A EP1113415B1 (en) 1999-07-07 2000-07-05 Method of extracting sound source information
DE60024403T DE60024403T2 (de) 1999-07-07 2000-07-05 Verfahren zur extraktion von klangquellen-informationen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP19243799A JP3417880B2 (ja) 1999-07-07 1999-07-07 音源情報の抽出方法及び装置

Publications (2)

Publication Number Publication Date
JP2001022369A true JP2001022369A (ja) 2001-01-26
JP3417880B2 JP3417880B2 (ja) 2003-06-16

Family

ID=16291300

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19243799A Expired - Fee Related JP3417880B2 (ja) 1999-07-07 1999-07-07 音源情報の抽出方法及び装置

Country Status (5)

Country Link
US (1) US7085721B1 (ja)
EP (1) EP1113415B1 (ja)
JP (1) JP3417880B2 (ja)
DE (1) DE60024403T2 (ja)
WO (1) WO2001004873A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011096156A1 (ja) * 2010-02-08 2011-08-11 パナソニック株式会社 音識別装置及び音識別方法
JP2014512022A (ja) * 2011-03-25 2014-05-19 ジ インテリシス コーポレーション スペクトル挙動の変換を実行する音響信号処理システム及び方法

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7565213B2 (en) * 2004-05-07 2009-07-21 Gracenote, Inc. Device and method for analyzing an information signal
JP2008537600A (ja) * 2005-03-14 2008-09-18 ボクソニック, インコーポレイテッド 音声変換のための自動的ドナーランキングおよび選択システムおよび方法
US7492814B1 (en) * 2005-06-09 2009-02-17 The U.S. Government As Represented By The Director Of The National Security Agency Method of removing noise and interference from signal using peak picking
US7457756B1 (en) * 2005-06-09 2008-11-25 The United States Of America As Represented By The Director Of The National Security Agency Method of generating time-frequency signal representation preserving phase information
DE102007006084A1 (de) 2007-02-07 2008-09-25 Jacob, Christian E., Dr. Ing. Verfahren zum zeitnahen Ermitteln der Kennwerte, Harmonischen und Nichtharmonischen von schnell veränderlichen Signalen mit zusätzlicher Ausgabe davon abgeleiteter Muster, Steuersignale, Ereignisstempel für die Nachverarbeitung sowie einer Gewichtung der Ergebnisse
US8311812B2 (en) * 2009-12-01 2012-11-13 Eliza Corporation Fast and accurate extraction of formants for speech recognition using a plurality of complex filters in parallel
US9311929B2 (en) * 2009-12-01 2016-04-12 Eliza Corporation Digital processor based complex acoustic resonance digital speech analysis system
US8370046B2 (en) * 2010-02-11 2013-02-05 General Electric Company System and method for monitoring a gas turbine
US8775179B2 (en) 2010-05-06 2014-07-08 Senam Consulting, Inc. Speech-based speaker recognition systems and methods
US9484044B1 (en) * 2013-07-17 2016-11-01 Knuedge Incorporated Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms
US9530434B1 (en) 2013-07-18 2016-12-27 Knuedge Incorporated Reducing octave errors during pitch determination for noisy audio signals

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
US5054072A (en) * 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
US5214708A (en) * 1991-12-16 1993-05-25 Mceachern Robert H Speech information extractor
CA2108103C (en) * 1993-10-08 2001-02-13 Michel T. Fattouche Method and apparatus for the compression, processing and spectral resolution of electromagnetic and acoustic signals
JP2906968B2 (ja) * 1993-12-10 1999-06-21 日本電気株式会社 マルチパルス符号化方法とその装置並びに分析器及び合成器
US5563556A (en) * 1994-01-24 1996-10-08 Quantum Optics Corporation Geometrically modulated waves
US5812737A (en) * 1995-01-09 1998-09-22 The Board Of Trustees Of The Leland Stanford Junior University Harmonic and frequency-locked loop pitch tracker and sound separation system
JP3112654B2 (ja) * 1997-01-14 2000-11-27 株式会社エイ・ティ・アール人間情報通信研究所 信号分析方法
US6185309B1 (en) * 1997-07-11 2001-02-06 The Regents Of The University Of California Method and apparatus for blind separation of mixed and convolved sources
US6098036A (en) * 1998-07-13 2000-08-01 Lockheed Martin Corp. Speech coding system and method including spectral formant enhancer
US6119082A (en) * 1998-07-13 2000-09-12 Lockheed Martin Corporation Speech coding system and method including harmonic generator having an adaptive phase off-setter
US6067511A (en) * 1998-07-13 2000-05-23 Lockheed Martin Corp. LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech
US6078880A (en) * 1998-07-13 2000-06-20 Lockheed Martin Corporation Speech coding system and method including voicing cut off frequency analyzer
US6081776A (en) * 1998-07-13 2000-06-27 Lockheed Martin Corp. Speech coding system and method including adaptive finite impulse response filter
US6138092A (en) * 1998-07-13 2000-10-24 Lockheed Martin Corporation CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency
JP3251555B2 (ja) * 1998-12-10 2002-01-28 科学技術振興事業団 信号分析装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011096156A1 (ja) * 2010-02-08 2011-08-11 パナソニック株式会社 音識別装置及び音識別方法
JP4891464B2 (ja) * 2010-02-08 2012-03-07 パナソニック株式会社 音識別装置及び音識別方法
CN102473410A (zh) * 2010-02-08 2012-05-23 松下电器产业株式会社 声音识别装置以及声音识别方法
JP2014512022A (ja) * 2011-03-25 2014-05-19 ジ インテリシス コーポレーション スペクトル挙動の変換を実行する音響信号処理システム及び方法

Also Published As

Publication number Publication date
EP1113415A4 (en) 2001-10-10
EP1113415B1 (en) 2005-11-30
JP3417880B2 (ja) 2003-06-16
WO2001004873A8 (fr) 2001-03-22
EP1113415A1 (en) 2001-07-04
DE60024403T2 (de) 2006-08-24
US7085721B1 (en) 2006-08-01
DE60024403D1 (de) 2006-01-05
WO2001004873A1 (fr) 2001-01-18

Similar Documents

Publication Publication Date Title
JP5275612B2 (ja) 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法
Nakatani et al. Robust and accurate fundamental frequency estimation based on dominant harmonic components
Kawahara et al. Restructuring speech representations using a pitch-adaptive time–frequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a repetitive structure in sounds
JP5958866B2 (ja) 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム
EP1005021B1 (en) Method and apparatus to extract formant-based source-filter data for coding and synthesis employing cost function and inverse filtering
Degottex et al. Phase minimization for glottal model estimation
JPH1097287A (ja) 周期信号変換方法、音変換方法および信号分析方法
Sukhostat et al. A comparative analysis of pitch detection methods under the influence of different noise conditions
Kawahara et al. An instantaneous-frequency-based pitch extraction method for high-quality speech transformation: revised TEMPO in the STRAIGHT-suite
Khanagha et al. Detection of glottal closure instants based on the microcanonical multiscale formalism
D’ALESSANDRO et al. Glottal closure instant and voice source analysis using time-scale lines of maximum amplitude
JP3417880B2 (ja) 音源情報の抽出方法及び装置
Owren et al. Some analysis methods that may be useful to acoustic primatologists
Cabral et al. Glottal spectral separation for parametric speech synthesis.
d'Alessandro et al. Effectiveness of a periodic and aperiodic decomposition method for analysis of voice sources
Hansen et al. Robust estimation of speech in noisy backgrounds based on aspects of the auditory process
Prasad et al. Speech features extraction techniques for robust emotional speech analysis/recognition
Richard et al. Analysis/synthesis and modification of the speech aperiodic component
Kawahara et al. Higher order waveform symmetry measure and its application to periodicity detectors for speech and singing with fine temporal resolution
Kadiri et al. Determination of glottal closure instants from clean and telephone quality speech signals using single frequency filtering
Babacan et al. Parametric representation for singing voice synthesis: A comparative evaluation
Sousa et al. The harmonic and noise information of the glottal pulses in speech
Ewender et al. Nearly perfect detection of continuous f_0 contour and frame classification for tts synthesis
Chowdhury et al. Formant estimation from speech signal using the magnitude spectrum modified with group delay spectrum
Tabet et al. Speech analysis and synthesis with a refined adaptive sinusoidal representation

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030325

R150 Certificate of patent or registration of utility model

Ref document number: 3417880

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090411

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100411

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110411

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120411

Year of fee payment: 9

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130411

Year of fee payment: 10

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140411

Year of fee payment: 11

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees