JP4444254B2 - スペクトル自己相関値を用いたピッチ検出方法およびピッチ検出装置 - Google Patents

スペクトル自己相関値を用いたピッチ検出方法およびピッチ検出装置 Download PDF

Info

Publication number
JP4444254B2
JP4444254B2 JP2006234171A JP2006234171A JP4444254B2 JP 4444254 B2 JP4444254 B2 JP 4444254B2 JP 2006234171 A JP2006234171 A JP 2006234171A JP 2006234171 A JP2006234171 A JP 2006234171A JP 4444254 B2 JP4444254 B2 JP 4444254B2
Authority
JP
Japan
Prior art keywords
autocorrelation value
pitch
spectrum
spectral
pitch detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006234171A
Other languages
English (en)
Other versions
JP2007199662A (ja
Inventor
光哲 呉
宰燻 鄭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2007199662A publication Critical patent/JP2007199662A/ja
Application granted granted Critical
Publication of JP4444254B2 publication Critical patent/JP4444254B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B66HOISTING; LIFTING; HAULING
    • B66BELEVATORS; ESCALATORS OR MOVING WALKWAYS
    • B66B9/00Kinds or types of lifts in, or associated with, buildings or other structures
    • B66B9/02Kinds or types of lifts in, or associated with, buildings or other structures actuated mechanically otherwise than by rope or cable
    • CCHEMISTRY; METALLURGY
    • C08ORGANIC MACROMOLECULAR COMPOUNDS; THEIR PREPARATION OR CHEMICAL WORKING-UP; COMPOSITIONS BASED THEREON
    • C08LCOMPOSITIONS OF MACROMOLECULAR COMPOUNDS
    • C08L23/00Compositions of homopolymers or copolymers of unsaturated aliphatic hydrocarbons having only one carbon-to-carbon double bond; Compositions of derivatives of such polymers
    • C08L23/02Compositions of homopolymers or copolymers of unsaturated aliphatic hydrocarbons having only one carbon-to-carbon double bond; Compositions of derivatives of such polymers not modified by chemical after-treatment
    • C08L23/04Homopolymers or copolymers of ethene

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Organic Chemistry (AREA)
  • Polymers & Plastics (AREA)
  • Mechanical Engineering (AREA)
  • Medicinal Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Structural Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

本発明は、スペクトル自己相関値を用いて入力音声信号に対するピッチを検出する方法および装置に関する。
音声認識、合成および分析のような音声信号処理分野において、基本周波数、すなわちピッチ周期を正確に検出することは重要である。万一、音声信号の基本周波数を正確に検出することができると、音声認識において話し手による影響を減らすことができるため認識の正確度を高めることができ、音声合成時に自然性や個性を容易に変更したり維持することができる。また、音声分析時にピッチに同期させて分析すると、声紋の影響が除去された正確な声道パラメータを得ることができる。
このように、音声信号からピッチ検出を遂行することは重要な作業であるため、このための方法が多様に提案された。これは、時間領域検出方法、周波数領域検出方法、時間−周波数混成領域検出方法に区分することができる。
時間領域検出方法は、波形の周期性を強調した後に決定論理によってピッチを検出する方法であって、並列処理法、平均振幅差関数(Average Magnitude Difference Function:AMDF)、自己相関法(Auto−Correlation Method:ACM)などがある。このような方法は、通常、時間領域で遂行されるため領域の変換が不必要であり、合、差、比較論理などの簡単な演算のみが必要となる。しかし、音素が遷移区間に渡っている場合には、フレーム内のレベル変化が激しくてピッチ周期が変動するためにピッチ検出が困難であり、フォルマント(formant)によって多くの影響を受けるようになる。特に、雑音が混ざった音声の場合には、ピッチ検出のための決定論理が複雑になり検出エラーが増加するという短所がある。
周波数領域検出方法は、音声スペクトラムの高調波間隔を測定して有声音の基本周波数を検出する方法であって、高調波分析法、リフター(Lifter)法、コームフィルタリング(Comb−filtering)法などが提案されている。一般的に、スペクトラムは一フレーム単位で求められるため、この区間で音素の遷移や変動が起きたり背景雑音が発生しても平均化されるため、その影響は少ない。しかし、処理過程上、周波数領域への変換過程が必要であるため計算が複雑であり、基本周波数の精密性を高めるためにFFTのポインタ数を増やすと、それだけ時間が長くなり変化特性に鈍くなる。
時間−周波数混成領域検出方法は、時間領域法の計算時間節減とピッチの精密性、そして周波数領域法の背景雑音や音素変化に対してもピッチを正確に求めることができるという長所を取り上げたものである。このような方法としては、ケプストラム(Cepstrum)法、スペクトラム比較法などがある。この方法は、時間と周波数領域を往復する時、誤差が加重されて現われるためピッチ抽出の影響を受けたり、また、時間と周波数領域を同時に適用するため計算過程が複雑であるという短所がある。
本発明は、スペクトル差およびそのスペクトル自己相関値を時間領域の信号でのように用いて入力音声信号に対するピッチを検出する方法と、スペクトラムの正規化局所重心およびそのスペクトル自己相関値を時間領域の信号でのように用いて入力音声信号に対するピッチを検出する方法、そして前記方法を遂行するピッチ検出装置を提供することを目的とする。
上記の技術的課題を達成するために、本発明の一実施形態によるピッチ検出装置は、入力された音声信号を前処理する前処理部と、前処理された音声信号に対してフーリエ変換を遂行するフーリエ変換部と、変換された音声信号に対して補間(interpolation)を遂行する補間部と、変換および補間された音声信号のスペクトラムの差異によってスペクトル差(spectral difference)を計算するスペクトル差計算部と、計算されたスペクトル差を用いてスペクトル自己相関値(auto−correlation)を計算するスペクトル自己相関値計算部と、計算されたスペクトル自己相関値に基づいて有声音(voicing)区間を決定する有声音区間決定部および有声音区間に該当するスペクトル自己相関値を用いてピッチを検出するピッチ検出部とを含む。
本発明の他の実施形態によるピッチ検出装置は、入力された音声信号を前処理する前処理部と、前処理された音声信号に対してフーリエ変換を遂行するフーリエ変換部と、変換された音声信号に対して補間を遂行する補間部と、変換および補間された音声信号のスペクトラムに対して正規化局所重心(Normalized Local Center of Gravity:NLCG)を計算する正規化局所重心計算部と、計算された正規化局所重心を用いてスペクトル自己相関値を計算するスペクトル自己相関値計算部と、計算されたスペクトル自己相関値に基づいて有声音区間を決定する有声音区間決定部および有声音区間に該当するスペクトル自己相関値を用いてピッチを検出するピッチ検出部とを含む。
本発明の更に他の実施形態によるピッチ検出方法は、入力された音声信号を前処理してフーリエ変換を遂行する段階と、変換された音声信号に対して補間を遂行する段階と、変換および補間された音声信号のスペクトラムの差異によってスペクトル差を計算する段階と、計算されたスペクトル差を用いてスペクトル自己相関値を計算する段階と、計算されたスペクトル自己相関値に基づいて有声音区間を決定する段階と、有声音区間に該当するスペクトル自己相関値を用いてピッチを検出する段階とを含む。
本発明の更に他の実施形態によるピッチ検出方法は、入力された音声信号を前処理してフーリエ変換を遂行する段階と、変換された音声信号に対して補間を遂行する段階と、変換および補間された音声信号のスペクトラムに対して正規化局所重心を計算する段階と、計算された正規化局所重心を用いてスペクトル自己相関値を計算する段階と、計算されたスペクトル自己相関値に基づいて有声音区間を決定する段階と、有声音区間に該当するスペクトル自己相関値を用いてピッチを検出する段階とを含む。
また、前記方法は、コンピュータで実行させるためのプログラムが記録されていることを特徴とするコンピュータで読み取り可能な記録媒体として具現される。
本発明によると、スペクトル差およびそのスペクトル自己相関値を時間領域の信号でのように用いて入力音声信号に対するピッチを検出する方法と、スペクトラムの正規化局所重心およびそのスペクトル自己相関値を時間領域の信号でのように用いて入力音声信号に対するピッチを検出する方法、および前記方法を遂行するピッチ検出装置が提供される。
本発明によると、各周期間の偏差が最小化されて雑音環境においても大きな影響を受けず、ピッチ検出の正確度を大きく向上させることができる新しいピッチ検出方法おびピッチ検出装置が提供される。
以下、添付の図面を参照して、本発明の実施形態に対して詳細に説明することにする。
図1は、本発明の一実施形態によるピッチ検出装置を示したブロック図である。
図1に示したように、本実施形態によるピッチ検出装置(100)は、前処理部(101)、フーリエ変換部(102)、補間部(103)、スペクトル差計算部(104)、スペクトル自己相関値計算部(105)、有声音区間決定部(106)およびピッチ検出部(107)を含む。
本実施形態によるピッチ検出装置(100)は、スペクトル差およびそのスペクトル自己相関値を用いて入力音声信号に対するピッチを検出し、前記スペクトル差の波形は時間領域の波形と類似した形態で現われ、前記スペクトル差を用いて計算したスペクトル自己相関値のグラフにおいてはピッチ周波数に対応するピークが現われる。
図2は、図1のピッチ検出装置が遂行するピッチ検出方法を示した流れ図である。
段階(S201)で、前処理部(101)は、入力された音声信号を前処理(pre−processing)し、段階(S202)で、フーリエ変換部(102)は、前処理された音声信号に対して下記[数1]のようにフーリエ変換(Fourier Transform)を遂行する。
段階(S203)で、補間部(103)は、変換された音声信号に対して下記[数2]のように補間(interpolation)を遂行する。
段階(S203)で、補間部(103)は、所定の低域周波数範囲(例:0〜1.5kHz)に該当する振幅(amplitudes)に対して低域通過補間(low−pass interpolation)を遂行し、[数2]のように最初のサンプルレートのR(Li/Lk)倍に該当するようにシーケンスをリサンプリング(resample)することができる。このような補間によって、サンプル間隔が狭くて解像度(resolution)が下がる現状を緩和し、周波数の解像度を向上させることができる。
段階(S204)で、スペクトル差計算部(104)は、変換および補間された音声信号のスペクトラムの周波数間の差異によってスペクトル差(spectral difference)を計算する。これは下記[数3]のように現わすことができる。
段階(S204)で、スペクトル差計算部(104)は、正の値を有する(positive)スペクトラムの差異によって前記スペクトル差を計算することができ、前記計算されたスペクトル差の波形は、時間領域の波形と類似した形態で現われる。
段階(S205)で、スペクトル自己相関値計算部(105)は、計算されたスペクトル差を用いてスペクトル自己相関値(auto−correlation)を計算する。この場合、スペクトル自己相関値計算部(105)は、下記[数4]のように、計算されたスペクトル差を用い、正規化処理(normalization)を遂行して前記スペクトル自己相関値を計算する。
段階(S206)で、有声音区間決定部(106)は、計算されたスペクトル自己相関値の周波数成分によって有声音(voicing)区間を決定する。この場合、有声音区間決定部(106)は、下記[数5]のように、計算されたスペクトル自己相関値中の最大スペクトル自己相関値と所定の臨界値を比較し、前記最大スペクトル自己相関値が前記臨界値より大きい区間を前記有声音区間として決定することができる。
段階(S207)で、ピッチ検出部(107)は、下記[数6]のように、有声音区間に該当するスペクトル自己相関値を用いてピッチを検出する。
段階(S207)で、ピッチ検出部(107)は、有声音区間に該当するスペクトル自己相関値に放物線補間(parabolic interpolation)またはsinc関数補間(sinc function interpolation)を遂行して前記ピッチを検出することができる。すなわち、ピッチ検出部(107)は、前記補間されたスペクトル自己相関値中の最大スペクトル自己相関値に対応する局所ピークの位置を前記ピッチとして検出することができる。
図3は、上述した図2のピッチ検出方法を実験的に遂行して現われた結果波形を示した図である。
図3において、(a)は入力信号を示すものであり、(a)の丸1は男性音声の信号を、(a)の丸2は男性音声と白色雑音(white noise)が混ざった信号を、(a)の丸3は男性音声と飛行機の騷音が混ざった信号をそれぞれ現わしており、(a)の丸4は女性音声の信号を、(a)の丸5は女性音声と白色雑音が混ざった信号を、(a)の丸6は女性音声と飛行機の騷音が混ざった信号をそれぞれ現わしている。
また、図3において、(b)、(c)は、このように入力された入力信号を図2のように処理して現われた波形を示したものであって、(b)は計算されたスペクトル自己相関値と臨界値(Tsa)を用いて有声音区間を決定する様子を、(c)は有声音区間に該当するスペクトル自己相関値を用いてピッチを検出した結果をそれぞれ現わしたものである。
図4は、本発明の他の実施形態によるピッチ検出装置を示したブロック図である。
図4に示したように、本実施形態によるピッチ検出装置(400)は、前処理部(401)、フーリエ変換部(402)、補間部(403)、正規化局所重心計算部(404)、スペクトル自己相関値計算部(405)、有声音区間決定部(406)およびピッチ検出部(407)を含む。
本実施形態によるピッチ検出装置(400)は、正規化局所重心およびそのスペクトル自己相関値を用いて入力音声信号に対するピッチを検出し、前記正規化局所重心の波形は、時間領域の波形と類似した形態で現われ、前記の実施形態に比べて高調波(harmonics)の周期的な構造がより効果的に保存され、前記正規化局所重心を用いて計算したスペクトル自己相関値のグラフにおいては、ピッチ周波数に対応するピークが現われる。
図5は、図4のピッチ検出装置が遂行するピッチ検出方法を示した流れ図である。
段階(S501)で、前処理部(401)は、入力された音声信号を前処理し、段階(S502)で、フーリエ変換部(402)は、前処理された音声信号に対して既に説明した[数1]のようにフーリエ変換を遂行する。
段階(S503)で、補間部(403)は、変換された音声信号に対して既に説明した[数2]のように補間を遂行する。この場合、補間部(403)は、所定の低域周波数範囲(例:0〜1.5kHz)に該当する振幅に対して低域通過補間を遂行し、[数2]のように最初のサンプルレートのR(Li/Lk)倍に該当するようにシーケンスをリサンプリング(resample)することができる。このような補間によって、サンプル間隔が狭くて解像度(resolution)が下がる現状を緩和し、周波数の解像度を向上させることができる。
段階(S504)で、正規化局所重心計算部(404)は、変換および補間された音声信号のスペクトラムに対して正規化局所重心(Normalized Local Center of Gravity:NLCG)を計算する。これは、下記[数7]のように現わすことができる。
ここで、Uはローカル領域を現わす。前記計算された正規化局所重心の波形は、時間領域の波形と類似した形態で現われ、前記の実施形態に比べて高調波の周期的な構造がより効果的に保存される。
段階(S505)で、スペクトル自己相関値計算部(405)は、計算された正規化局所重心を用いてスペクトル自己相関値(auto−correlation)を計算する。これは、下記[数8]のように現わすことができる。
この場合、スペクトル自己相関値計算部(405)は、前記の実施形態とは異なり正規化処理(normalization)を別途で遂行しない。これは、前記正規化局所重心の計算時に正規化処理が既に遂行されたためである。
段階(S506)で、有声音区間決定部(406)は、計算されたスペクトル自己相関値に基づいて有声音区間を決定する。この場合、有声音区間決定部(406)は、既に説明した[数5]のように、計算されたスペクトル自己相関値中の最大スペクトル自己相関値と所定の臨界値を比較し、前記最大スペクトル自己相関値が前記臨界値より大きい区間を前記有声音区間として決定することができる。
段階(S507)で、ピッチ検出部(407)は、既に説明した[数6]のように、有声音区間に該当するスペクトル自己相関値を用いてピッチを検出する。この場合、ピッチ検出部(407)は、有声音区間に該当するスペクトル自己相関値に放物線補間またはsinc関数補間を遂行して前記ピッチを検出することができる。すなわち、ピッチ検出部(407)は、前記補間されたスペクトル自己相関値中の最大スペクトル自己相関値に対応する局所ピークの位置を前記ピッチとして検出することができる。
図6は、上述した図5のピッチ検出方法を実験的に遂行して現われた結果波形を示した図である。
図6において、(a)は入力信号を示すものであり、(a)の丸1は男性音声の信号を、(a)の丸2は男性音声と白色雑音(white noise)が混ざった信号を、(a)の丸3は男性音声と飛行機の騷音が混ざった信号をそれぞれ現わしており、(a)の丸4は女性音声の信号を、(a)の丸5は女性音声と白色雑音が混ざった信号を、(a)の丸6は女性音声と飛行機の騷音が混ざった信号をそれぞれ現わしている。
また、図6において、(b)、(c)は、このように入力された入力信号を図5のように処理して現われた波形を示したものであり、(b)は計算されたスペクトル自己相関値と臨界値(Tsa)を用いて有声音区間を決定する様子を、(c)は有声音区間に該当するスペクトル自己相関値を用いてピッチを検出する様子をそれぞれ現わしたものである。
図7は、スペクトル差の波形と正規化局所重心の波形を簡略に比較するための図である。
図7には、雑音での男性声音の一つのフレームのスペクトラム(1.5kHz)に対して補間を遂行した後、スペクトル差および正規化局所重心をそれぞれ計算した波形が示されている。
図7において、前記波形にそれぞれマーク(mark)したように、正規化局所重心の波形は、スペクトル差の波形より高調波(harmonic)成分をより強調することで高調波の周期的な構造がより効果的に保存される。
本発明によるピッチ検出方法は、多様なコンピュータ手段を介して遂行されるプログラム命令形態で具現されてコンピュータ読み取り可能媒体に記録される。前記コンピュータ読み取り可能媒体は、プログラム命令、データファイル、データ構造などを単独または組み合わせて含むことができる。前記媒体に記録されるプログラム命令は、本発明のために特別に設計されて構成されたものであったり、コンピュータソフトウェア当業者に公知されて使用可能なものであったりする。コンピュータ読み取り可能記録媒体の例としては、ハードディスク、フロッピィーディスクおよび磁気テープのような磁気媒体(magnetic media)、CD−ROM、DVDのような光記録媒体(optical media)、フロプティカルディスク(floptical disk)のような磁気−光媒体(magneto−optical media)、およびロム(ROM)、ラム(RAM)、フラッシュメモリなどのようなプログラム命令を格納して遂行するように特別に構成されたハードウェア装置が含まれる。前記媒体は、プログラム命令、データ構造などを指定する信号を送信する搬送波を含む光または金属線、導波管などの送信媒体であったりもする。プログラム命令の例としては、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。前記したハードウェア装置は、本発明の動作を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成されることができ、その逆も同様である。
以上のように、本発明は限定された実施形態と図面によって説明されたが、本発明は前記の実施形態に限定されるものではなく、本発明が属する分野において通常の知識を有する者にとっては、このような記載から多様な修正および変形が可能である。
よって、本発明の範囲は、説明された実施形態に局限されて定められてはならず、添付の特許請求の範囲だけでなく、この特許請求の範囲と均等なものによって定められなければならない。
本発明の一実施形態によるピッチ検出装置を示したブロック図である。 図1のピッチ検出装置が遂行するピッチ検出方法を示した流れ図である。 図2のピッチ検出方法を実験的に遂行して現われた結果波形を示した図である。 本発明の他の実施形態によるピッチ検出装置を示したブロック図である。 図4のピッチ検出装置が遂行するピッチ検出方法を示した流れ図である。 図5のピッチ検出方法を実験的に遂行して現われた結果波形を示した図である。 スペクトル差の波形と正規化局所重心の波形を簡略に比較するための図である。
符号の説明
100 ピッチ検出装置
101 前処理部
102 フーリエ変換部
103 補間部
104 スペクトル差計算部
105 スペクトル自己相関値計算部
106 有声音区間決定部
107 ピッチ検出部

Claims (21)

  1. 入力音声信号に対するピッチ検出方法において、
    入力された音声信号を前処理してフーリエ変換を遂行する段階と、
    変換された音声信号に対して補間を遂行する段階と、
    変換および補間された音声信号のスペクトラムの差異によってスペクトル差を計算する段階と、
    計算されたスペクトル差を用いてスペクトル自己相関値を計算する段階と、
    計算されたスペクトル自己相関値に基づいて有声音区間を決定する段階と、
    有声音区間に該当するスペクトル自己相関値を用いてピッチを検出する段階と、
    を含むことを特徴とするピッチ検出方法。
  2. 変換された音声信号に対して補間を遂行する前記段階は、
    所定の低域周波数範囲に該当する振幅に対して低域通過補間を遂行する段階と、
    最初のサンプルレートのR倍に該当するようにシーケンスをリサンプリングする段階と、
    を含むことを特徴とする請求項1に記載のピッチ検出方法。
  3. 変換および補間された音声信号のスペクトラムの差異によってスペクトル差を計算する前記段階は、
    正の値を有するスペクトラムに対する差異によって前記スペクトル差を計算することを特徴とする請求項1に記載のピッチ検出方法。
  4. 計算されたスペクトル差を用いてスペクトル自己相関値を計算する前記段階は、
    計算されたスペクトル差を用い、正規化処理を遂行して前記スペクトル自己相関値を計算することを特徴とする請求項1に記載のピッチ検出方法。
  5. 計算されたスペクトル自己相関値に基づいて有声音区間を決定する前記段階は、
    計算されたスペクトル自己相関値の周波数成分によって前記有声音区間を決定することを特徴とする請求項1に記載のピッチ検出方法。
  6. 計算されたスペクトル自己相関値に基づいて有声音区間を決定する前記段階は、
    計算されたスペクトル自己相関値中の最大スペクトル自己相関値と所定の臨界値を比較する段階と、
    前記最大スペクトル自己相関値が前記臨界値より大きい区間を前記有声音区間として決定する段階と、
    を含むことを特徴とする請求項1に記載のピッチ検出方法。
  7. 有声音区間に該当するスペクトル自己相関値を用いてピッチを検出する前記段階は、
    有声音区間に該当するスペクトル自己相関値に放物線補間またはsinc関数補間を遂行して前記ピッチを検出することを特徴とする請求項1に記載のピッチ検出方法。
  8. 有声音区間に該当するスペクトル自己相関値を用いてピッチを検出する前記段階は、
    前記補間されたスペクトル自己相関値中の最大スペクトル自己相関値に対応する局所ピークの位置を前記ピッチとして検出することを特徴とする請求項7に記載のピッチ検出方法。
  9. 入力音声信号に対するピッチ検出方法において、
    入力された音声信号を前処理してフーリエ変換を遂行する段階と、
    変換された音声信号に対して補間を遂行する段階と、
    変換および補間された音声信号のスペクトラムに対して正規化局所重心を計算する段階と、
    計算された正規化局所重心を用いてスペクトル自己相関値を計算する段階と、
    計算されたスペクトル自己相関値に基づいて有声音区間を決定する段階と、
    有声音区間に該当するスペクトル自己相関値を用いてピッチを検出する段階と、
    を含むことを特徴とするピッチ検出方法。
  10. 変換された音声信号に対して補間を遂行する前記段階は、
    所定の低域周波数範囲に該当する振幅に対して低域通過補間を遂行する段階と、
    最初のサンプルレートのR倍に該当するようにシーケンスをリサンプリングする段階と、
    を含むことを特徴とする請求項9に記載のピッチ検出方法。
  11. 計算されたスペクトル自己相関値に基づいて有声音区間を決定する前記段階は、
    計算されたスペクトル自己相関値中の最大スペクトル自己相関値と所定の臨界値を比較する段階と、
    前記最大スペクトル自己相関値が前記臨界値より大きい区間を前記有声音区間として決定する段階と、
    を含むことを特徴とする請求項9に記載のピッチ検出方法。
  12. 有声音区間に該当するスペクトル自己相関値を用いてピッチを検出する前記段階は、
    有声音区間に該当するスペクトル自己相関値に放物線補間またはsinc関数補間を遂行して前記ピッチを検出することを特徴とする請求項9に記載のピッチ検出方法。
  13. 有声音区間に該当するスペクトル自己相関値を用いてピッチを検出する前記段階は、
    前記補間されたスペクトル自己相関値中の最大スペクトル自己相関値に対応する局所ピークの位置を前記ピッチとして検出することを特徴とする請求項12に記載のピッチ検出方法。
  14. 請求項1ないし13のいずれか一項の方法を実行するためのプログラムが記録されていることを特徴とするコンピュータで読み取り可能な記録媒体。
  15. 入力音声信号に対するピッチ検出装置において、
    入力された音声信号を前処理する前処理部と、
    前処理された音声信号に対してフーリエ変換を遂行するフーリエ変換部と、
    変換された音声信号に対して補間を遂行する補間部と、
    変換および補間された音声信号のスペクトラムの差異によってスペクトル差を計算するスペクトル差計算部と、
    計算されたスペクトル差を用いてスペクトル自己相関値を計算するスペクトル自己相関値計算部と、
    計算されたスペクトル自己相関値に基づいて有声音区間を決定する有声音区間決定部と、
    有声音区間に該当するスペクトル自己相関値を用いてピッチを検出するピッチ検出部と、
    を含むことを特徴とするピッチ検出装置。
  16. 前記補間部は、所定の低域周波数範囲に該当する振幅に対して低域通過補間を遂行し、最初のサンプルレートのR倍に該当するようにシーケンスをリサンプリングすることを特徴とする請求項15に記載のピッチ検出装置。
  17. 前記スペクトル自己相関値計算部は、計算されたスペクトル差を用い、正規化処理を遂行して前記スペクトル自己相関値を計算することを特徴とする請求項15に記載のピッチ検出装置。
  18. 前記有声音区間決定部は、計算されたスペクトル自己相関値中の最大スペクトル自己相関値と所定の臨界値を比較し、前記最大スペクトル自己相関値が前記臨界値より大きい区間を前記有声音区間として決定することを特徴とする請求項15に記載のピッチ検出装置。
  19. 前記ピッチ検出部は、有声音区間に該当するスペクトル自己相関値に放物線補間またはsinc関数補間を遂行して前記ピッチを検出することを特徴とする請求項15に記載のピッチ検出装置。
  20. 前記ピッチ検出部は、前記補間されたスペクトル自己相関値中の最大スペクトル自己相関値に対応する局所ピークの位置を前記ピッチとして検出することを特徴とする請求項19に記載のピッチ検出装置。
  21. 入力音声信号に対するピッチ検出装置において、
    入力された音声信号を前処理する前処理部と、
    前処理された音声信号に対してフーリエ変換を遂行するフーリエ変換部と、
    変換された音声信号に対して補間を遂行する補間部と、
    変換および補間された音声信号のスペクトラムに対して正規化局所重心を計算する正規化局所重心計算部と、
    計算された正規化局所重心を用いてスペクトル自己相関値を計算するスペクトル自己相関値計算部と、
    計算されたスペクトル自己相関値に基づいて有声音区間を決定する有声音区間決定部と、
    有声音区間に該当するスペクトル自己相関値を用いてピッチを検出するピッチ検出部と、
    を含むことを特徴とするピッチ検出装置。
JP2006234171A 2006-01-26 2006-08-30 スペクトル自己相関値を用いたピッチ検出方法およびピッチ検出装置 Expired - Fee Related JP4444254B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060008161A KR100724736B1 (ko) 2006-01-26 2006-01-26 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치

Publications (2)

Publication Number Publication Date
JP2007199662A JP2007199662A (ja) 2007-08-09
JP4444254B2 true JP4444254B2 (ja) 2010-03-31

Family

ID=38286595

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006234171A Expired - Fee Related JP4444254B2 (ja) 2006-01-26 2006-08-30 スペクトル自己相関値を用いたピッチ検出方法およびピッチ検出装置

Country Status (3)

Country Link
US (1) US8315854B2 (ja)
JP (1) JP4444254B2 (ja)
KR (1) KR100724736B1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8093484B2 (en) * 2004-10-29 2012-01-10 Zenph Sound Innovations, Inc. Methods, systems and computer program products for regenerating audio performances
US7598447B2 (en) * 2004-10-29 2009-10-06 Zenph Studios, Inc. Methods, systems and computer program products for detecting musical notes in an audio signal
WO2008111158A1 (ja) * 2007-03-12 2008-09-18 Fujitsu Limited 音声波形補間装置および方法
KR101336203B1 (ko) * 2007-09-28 2013-12-05 삼성전자주식회사 전자기기에서 음성 검출 방법 및 장치
US8666734B2 (en) * 2009-09-23 2014-03-04 University Of Maryland, College Park Systems and methods for multiple pitch tracking using a multidimensional function and strength values
JP2011123529A (ja) * 2009-12-08 2011-06-23 Sony Corp 情報処理装置、情報処理方法、およびプログラム
GB2493470B (en) * 2010-04-12 2017-06-07 Smule Inc Continuous score-coded pitch correction and harmony generation techniques for geographically distributed glee club
CN103165133A (zh) * 2011-12-13 2013-06-19 联芯科技有限公司 一种最大相关系数的优化方法及其装置
CN103426441B (zh) 2012-05-18 2016-03-02 华为技术有限公司 检测基音周期的正确性的方法和装置
JP6904198B2 (ja) * 2017-09-25 2021-07-14 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
CN112017639B (zh) * 2020-09-10 2023-11-07 歌尔科技有限公司 语音信号的检测方法、终端设备及存储介质

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4935963A (en) * 1986-01-24 1990-06-19 Racal Data Communications Inc. Method and apparatus for processing speech signals
US5121428A (en) * 1988-01-20 1992-06-09 Ricoh Company, Ltd. Speaker verification system
US5086475A (en) * 1988-11-19 1992-02-04 Sony Corporation Apparatus for generating, recording or reproducing sound source data
US5764779A (en) * 1993-08-25 1998-06-09 Canon Kabushiki Kaisha Method and apparatus for determining the direction of a sound source
JP3402748B2 (ja) 1994-05-23 2003-05-06 三洋電機株式会社 音声信号のピッチ周期抽出装置
KR970011729B1 (en) * 1994-11-16 1997-07-14 Lg Electronics Inc Pitch searching method of celp encoder
WO1997027578A1 (en) * 1996-01-26 1997-07-31 Motorola Inc. Very low bit rate time domain speech analyzer for voice messaging
JP3840684B2 (ja) 1996-02-01 2006-11-01 ソニー株式会社 ピッチ抽出装置及びピッチ抽出方法
JP3266819B2 (ja) * 1996-07-30 2002-03-18 株式会社エイ・ティ・アール人間情報通信研究所 周期信号変換方法、音変換方法および信号分析方法
KR100194953B1 (ko) * 1996-11-21 1999-06-15 정선종 유성음 구간에서 프레임별 피치 검출 방법
KR100291584B1 (ko) * 1997-12-12 2001-06-01 이봉훈 피치 구간별 fo/f1률의 유사성에 의한 음성파형 압축방법
KR100269216B1 (ko) * 1998-04-16 2000-10-16 윤종용 스펙트로-템포럴 자기상관을 사용한 피치결정시스템 및 방법
US6188979B1 (en) * 1998-05-28 2001-02-13 Motorola, Inc. Method and apparatus for estimating the fundamental frequency of a signal
US7423983B1 (en) * 1999-09-20 2008-09-09 Broadcom Corporation Voice and data exchange over a packet based network
JP2000305599A (ja) * 1999-04-22 2000-11-02 Sony Corp 音声合成装置及び方法、電話装置並びにプログラム提供媒体
US6453284B1 (en) * 1999-07-26 2002-09-17 Texas Tech University Health Sciences Center Multiple voice tracking system and method
US6124544A (en) * 1999-07-30 2000-09-26 Lyrrus Inc. Electronic music system for detecting pitch
US6772126B1 (en) * 1999-09-30 2004-08-03 Motorola, Inc. Method and apparatus for transferring low bit rate digital voice messages using incremental messages
US6418407B1 (en) * 1999-09-30 2002-07-09 Motorola, Inc. Method and apparatus for pitch determination of a low bit rate digital voice message
NL1013500C2 (nl) * 1999-11-05 2001-05-08 Huq Speech Technologies B V Inrichting voor het schatten van de frequentie-inhoud of het spectrum van een geluidssignaal in een ruizige omgeving.
US6587816B1 (en) * 2000-07-14 2003-07-01 International Business Machines Corporation Fast frequency-domain pitch estimation
KR100388488B1 (ko) * 2000-12-27 2003-06-25 한국전자통신연구원 유성음 구간에서의 고속 피치 탐색 방법
US7013267B1 (en) * 2001-07-30 2006-03-14 Cisco Technology, Inc. Method and apparatus for reconstructing voice information
US7398204B2 (en) * 2002-08-27 2008-07-08 Her Majesty In Right Of Canada As Represented By The Minister Of Industry Bit rate reduction in audio encoders by exploiting inharmonicity effects and auditory temporal masking
KR100516678B1 (ko) * 2003-07-05 2005-09-22 삼성전자주식회사 음성 코덱의 음성신호의 피치검출 장치 및 방법
GB2405949A (en) * 2003-09-12 2005-03-16 Canon Kk Voice activated device with periodicity determination
SG120121A1 (en) * 2003-09-26 2006-03-28 St Microelectronics Asia Pitch detection of speech signals
FI20045315A (fi) * 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
KR100653643B1 (ko) * 2006-01-26 2006-12-05 삼성전자주식회사 하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및피치 검출 장치

Also Published As

Publication number Publication date
US8315854B2 (en) 2012-11-20
US20070174048A1 (en) 2007-07-26
JP2007199662A (ja) 2007-08-09
KR100724736B1 (ko) 2007-06-04

Similar Documents

Publication Publication Date Title
JP4444254B2 (ja) スペクトル自己相関値を用いたピッチ検出方法およびピッチ検出装置
JP4435127B2 (ja) ハーモニックとサブハーモニックの比率を用いたピッチ検出方法およびピッチ検出装置
JP4264841B2 (ja) 音声認識装置および音声認識方法、並びに、プログラム
US20170287507A1 (en) Pitch detection algorithm based on pwvt
KR100717625B1 (ko) 음성 인식에서의 포먼트 주파수 추정 방법 및 장치
US20030093265A1 (en) Method and system of chinese speech pitch extraction
JP4516157B2 (ja) 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
US8086449B2 (en) Vocal fry detecting apparatus
Alku et al. The linear predictive modeling of speech from higher-lag autocorrelation coefficients applied to noise-robust speaker recognition
US20140200889A1 (en) System and Method for Speech Recognition Using Pitch-Synchronous Spectral Parameters
Laskowski et al. A Snack Implementation and Tcl/Tk Interface to the Fundamental Frequency Variation Spectrum Algorithm.
Bouzid et al. Voice source parameter measurement based on multi-scale analysis of electroglottographic signal
JP4999757B2 (ja) 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体
Yadav et al. Epoch detection from emotional speech signal using zero time windowing
JP4469986B2 (ja) 音響信号分析方法および音響信号合成方法
US9196263B2 (en) Pitch period segmentation of speech signals
JP2011150232A (ja) Lpc分析装置、lpc分析方法、音声分析合成装置、音声分析合成方法及びプログラム
Kawahara et al. Analysis and synthesis of strong vocal expressions: Extension and application of audio texture features to singing voice
Park et al. Pitch detection based on signal-to-noise-ratio estimation and compensation for continuous speech signal
Loweimi et al. On the usefulness of the speech phase spectrum for pitch extraction
Park et al. Improving pitch detection through emphasized harmonics in time-domain
KR100194953B1 (ko) 유성음 구간에서 프레임별 피치 검출 방법
JP2019032400A (ja) 発話判定プログラム、発話判定方法、及び発話判定装置
Park et al. Pitch Gross Error Compensation in Continuous Speech
Pawi et al. Pitch extraction using modified higher order moments

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070731

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070904

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091215

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100113

R150 Certificate of patent or registration of utility model

Ref document number: 4444254

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130122

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees