JP2015516597A - ピッチ周期の正確性を検出するための方法および装置 - Google Patents

ピッチ周期の正確性を検出するための方法および装置 Download PDF

Info

Publication number
JP2015516597A
JP2015516597A JP2015511902A JP2015511902A JP2015516597A JP 2015516597 A JP2015516597 A JP 2015516597A JP 2015511902 A JP2015511902 A JP 2015511902A JP 2015511902 A JP2015511902 A JP 2015511902A JP 2015516597 A JP2015516597 A JP 2015516597A
Authority
JP
Japan
Prior art keywords
parameter
pitch period
pitch
accuracy
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015511902A
Other languages
English (en)
Other versions
JP6023311B2 (ja
Inventor
峰岩 ▲斉▼
峰岩 ▲斉▼
磊 苗
磊 苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2015516597A publication Critical patent/JP2015516597A/ja
Application granted granted Critical
Publication of JP6023311B2 publication Critical patent/JP6023311B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本発明の諸実施形態では、ピッチ周期の正確性を検出するための方法および装置を提供する。ピッチ周期の正確性を検出するための方法は、時間領域における入力信号の初期ピッチ周期に従って、当該入力信号のピッチ周波数ビンを決定するステップであって、当該初期ピッチ周期は開ループ検出を当該入力信号に対して行うことによって取得されるステップと、周波数領域における当該入力信号の振幅スペクトルに基づいて、当該ピッチ周波数ビンに関連付けられた当該入力信号のピッチ周期正確性判定パラメータを決定するステップと、当該ピッチ周期正確性判定パラメータに従って、当該初期ピッチ周期の正確性を決定するステップとを含む。本発明の諸実施形態に従うピッチ周期の正確性を検出するための方法と装置は、比較的複雑でないアルゴリズムに基づいて、ピッチ周期の正確性を検出する精度を高めることができる。

Description

本発明は、オーディオ技術の分野に関し、特に、ピッチ周期の正確性を検出するための方法および装置に関する。
会話信号と音声信号の処理においては、ピッチ検出が様々な実際の会話およびオーディオ・アプリケーションにおける主要な技術の1つである。例えば、ピッチ検出は、会話エンコーディング、会話認識、カラオケ等のアプリケーションにおける主要な技術である。ピッチ検出技術は、携帯電話、無線装置、携帯情報端末(PDA)、ハンドヘルドまたはポータブル・コンピュータ、GPS受信器/ナビゲータ、カメラ、オーディオ/ビデオ・プレイヤ、ビデオ・カメラ、ビデオ・レコーダ、および監視装置のような様々な電子装置に広く適用されている。したがって、ピッチ検出の正確性と検出効率が様々な実際の会話およびオーディオ・アプリケーションに直接影響を及ぼす。
現在のピッチ検出は基本的に時間領域で実施され、一般に、ピッチ検出アルゴリズムは時間領域自己相関方法である。しかし、実際のアプリケーションでは、時間領域で実施されるピッチ検出はしばしば周波数逓倍現象につながり、時間領域における周波数逓倍現象を望ましく解決するのは困難である。なぜならば、実際のピッチ周期と当該実際のピッチ周期の逓倍周波数の両方に対して大きな自己相関係数が得られ、さらに、バックグラウンド雑音がある場合には、時間領域で開ループ検出により得られた初期ピッチ周期が不正確でない可能性があるからである。ここで、実際のピッチ周期とは、会話における実際のピッチ周期、即ち、正確なピッチ周期である。ピッチ周期とは、会話における最小の反復可能な時間間隔をいう。
時間領域における初期ピッチ周期の検出を1例として使用する。ITU−T(国際電気通信連合電気通信標準化部門、International Telecommunication Union Telecommunication Standardization Sector)の大抵の会話符号化標準ではピッチ検出の実施が必要であるが、ピッチ検出のほぼ全ては同じ領域(時間領域または周波数領域)で実施される。例えば、認識可能な重み付け領域でのみ実施される開ループ・ピッチ検出方法が会話符号化標準G729で適用されている。
この開ループ・ピッチ検出方法では、初期ピッチ周期を時間領域における開ループ検出で取得した後、初期ピッチ周期の正確性は実施されないが、閉ループ精密検出が初期ピッチ周期に対して直接実施される。閉ループ精密検出は、開ループ検出により得られた初期ピッチ周期を含む区間で実施され、その結果、開ループ検出で得られた初期ピッチ周期が不正確である場合には、最後の閉ループ精密検出で得られたピッチ周期も不正確である。換言すれば、時間領域で開ループ検出により得られた初期ピッチ周期が完全に正確であるのを保証するのは非常に困難であるので、不正確な初期ピッチ周期を後続の処理に適用する場合に、最終的なオーディオ品質が悪化しうる。
さらに、先行技術では、時間領域で実施されるピッチ周期検出を周波数領域で実施されるピッチ周期精密検出に変更することも提案されているが、周波数領域で実施されるピッチ周期精密検出は極めて複雑である。当該精密検出では、さらに、初期ピッチ周期に従って時間領域または周波数領域で入力信号に対して、短ピッチ検出、部分ピッチ検出、または逓倍周波数ピッチ検出を含むピッチ検出が実施されることがある。
本発明の諸実施形態では、初期ピッチ周期の正確性を時間領域または周波数領域で検出するときに正確性が低く複雑度が比較的高いという先行技術の問題を解決するための、ピッチ周期の正確性を検出するための方法および装置を提供する。
1態様によれば、時間領域における入力信号の初期ピッチ周期に従って、当該入力信号のピッチ周波数ビンを決定するステップであって、初期ピッチ周期は開ループ検出を当該入力信号に対して行うことによって取得されるステップと、周波数領域における当該入力信号の振幅スペクトルに基づいて、当該ピッチ周波数ビンに関連付けられた当該入力信号のピッチ周期正確性判定パラメータを決定するステップと、ピッチ周期正確性判定パラメータに従って、初期ピッチ周期の正確性を決定するステップと、を含むピッチ周期の正確性を検出するための方法を提供する。
別の態様によれば、時間領域における入力信号の初期ピッチ周期に従って、当該入力信号のピッチ周波数ビンを決定するように構成されたピッチ周波数ビン決定ユニットであって、初期ピッチ周期は開ループ検出を当該入力信号に対して行うことによって取得されるピッチ周波数ビン決定ユニットと、周波数領域における当該入力信号の振幅スペクトルに基づいて、当該ピッチ周波数ビンに関連付けられた当該入力信号のピッチ周期正確性判定パラメータを決定するように構成されたパラメータ生成ユニットと、ピッチ周期正確性判定パラメータに従って、初期ピッチ周期の正確性を決定するように構成された正確性判定ユニットとを備えたピッチ周期の正確性を検出するための装置を提供する。
本発明の諸実施形態に従うピッチ周期の正確性を検出するための方法と装置は、比較的複雑でないアルゴリズムに基づいて、ピッチ周期の正確性を検出する精度を高めることができる。
本発明の諸実施形態の技術的解決策をより分かりやすく説明するために、以下では当該諸実施形態または先行技術を説明するのに必要な添付図面を簡単に説明する。明らかに、以下の説明における添付図面は本発明の諸実施形態の一部を説明するにすぎず、当業者は創造的作業なしにこれらの添付図面から他の図面を導出することができる。
本発明の1実施形態に従う、ピッチ周期の正確性を検出するための方法の流れ図である。 本発明の1実施形態に従う、ピッチ周期の正確性を検出するための装置の略構造図である。 本発明の1実施形態に従う、ピッチ周期の正確性を検出するための装置の略構造図である。 本発明の1実施形態に従う、ピッチ周期の正確性を検出するための装置の略構造図である。 本発明の1実施形態に従う、ピッチ周期の正確性を検出するための装置の略構造図である。
以下では本発明の諸実施形態の添付図面を参照して本発明の技術的解決策を明確かつ十分に説明する。明らかに、説明する諸実施形態は本発明の諸実施形態の一部にすぎず全部ではない。創造的作業なしに本発明の諸実施形態に基づいて当業者が得た他の全ての実施形態は本発明の保護範囲に入る。
本発明の諸実施形態によれば、時間領域で開ループ検出により得られた初期ピッチ周期の正確性が周波数領域で検出され、不正確な初期ピッチ周期が後続の処理に適用されることが回避される。
本発明の諸実施形態の目的は、時間領域で開ループ検出により得られた初期ピッチ周期に対してさらなる正確性検出を実施して、周波数領域で有効なパラメータを抽出しこれらのパラメータを結合することで判断することにより、ピッチ検出の正確性と安定性を大幅に高めることである。
本発明の1実施形態に従うピッチ周期の正確性を検出するための方法は、図1に示すように、以下のステップを含む。
11では、時間領域における入力信号の初期ピッチ周期に従って、当該入力信号のピッチ周波数ビンを決定する。初期ピッチ周期は開ループ検出を当該入力信号に対して行うことによって取得される。
一般に、当該入力信号の当該ピッチ周波数ビンは当該入力信号の初期ピッチ周期に反比例し、当該入力信号に対して実施されたFFT(Fast Fourier Transform、高速フーリエ変換)変換の点の数に直接比例する。
12では、周波数領域における入力信号の振幅スペクトルに基づいて、当該ピッチ周波数ビンに関連付けられた当該入力信号のピッチ周期正確性判定パラメータを決定する。
ピッチ周期正確性判定パラメータは、スペクトル差分パラメータDiff_sm、平均スペクトル振幅パラメータSpec_sm、および差分振幅比パラメータDiff_ratioを含む。スペクトル差分パラメータDiff_smは、ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル差分の和Diff_sumまたは当該ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル差分の和Diff_sumの重み付き平滑化値である。平均スペクトル振幅パラメータSpec_smは、当該ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル振幅の和平均(sum average)Spec_avg、または、当該ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル振幅の和平均Spec_avgの重み付き平滑化値である。差分振幅比パラメータDiff_ratioは、当該ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル差分の和Diff_sumの、当該ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル振幅の和平均Spec_avgに対する比率である。
13では、ピッチ周期正確性判定パラメータに従って、初期ピッチ周期の正確性を決定する。
例えば、ピッチ周期正確性判定パラメータが正確性判定条件を満たすとき、初期ピッチ周期が正確であると判定され、ピッチ周期正確性判定パラメータが不正確性判定条件を満たすとき、初期ピッチ周期が不正確であると判定される。
特に、不正確性判定条件は、スペクトル差分パラメータDiff_smが第1の差分パラメータ閾値より小さいこと、平均スペクトル振幅パラメータSpec_smが第1のスペクトル振幅パラメータ閾値より小さいこと、および、差分振幅比パラメータDiff_ratioが第1の比率因子パラメータ閾値より小さいことのうち少なくとも1つを満たす。正確性判定条件は、スペクトル差分パラメータDiff_smが第2の差分パラメータ閾値より大きいこと、平均スペクトル振幅パラメータSpec_smが第2のスペクトル振幅パラメータ閾値より大きいこと、および差分振幅比パラメータDiff_ratioが第2の比率因子パラメータ閾値より大きいこと、のうち少なくとも1つを満たす。
例えば、不正確性判定条件が、スペクトル差分パラメータDiff_smが第1の差分パラメータ閾値より小さいということであり、正確性判定条件が、スペクトル差分パラメータDiff_smが第2の差分パラメータ閾値より大きいということである場合には、当該第2の差分パラメータ閾値は当該第1の差分パラメータ閾値より大きい。あるいは、不正確性判定条件が、平均スペクトル振幅パラメータSpec_smが第1のスペクトル振幅パラメータ閾値より小さいとうことであり、正確性判定条件が、平均スペクトル振幅パラメータSpec_smが第2のスペクトル振幅パラメータ閾値より大きいということである場合には、当該第2のスペクトル振幅パラメータ閾値は当該第1のスペクトル振幅パラメータ閾値より大きい。あるいは、不正確性判定条件が、差分振幅比パラメータDiff_ratioが第1の比率因子パラメータ閾値より小さいということであり、正確性判定条件が、差分振幅比パラメータDiff_ratioが第2の比率因子パラメータ閾値より大きいということである場合には、当該第2の比率因子パラメータ閾値は当該第1の比率因子パラメータ閾値より大きい。
一般に、時間領域で検出された初期ピッチ周期が正確である場合には、初期ピッチ周期に対応する周波数ビンにはピークが存在するはずであり、エネルギは大きい。時間領域で検出された初期ピッチ周期が不正確である場合には、精密検出を当該周波数領域で実施して正確なピッチ周期を決定してもよい。
換言すれば、ピッチ周期正確性判定パラメータに従って初期ピッチ周期の正確性を検出している間に、初期ピッチ周期が不正確であることが検出されたとき、精密検出が初期ピッチ周期に対して実施される。
あるいは、ピッチ周期正確性判定パラメータに従って初期ピッチ周期の正確性を検出している間に、初期ピッチ周期が不正確であることが検出されたとき、初期ピッチ周期のエネルギが低周波数範囲において検出される。当該エネルギが低周波数エネルギ判定条件を満たすときには、短ピッチ検出(精密検出の方式)を実施する。
したがって、本発明の当該実施形態に従うピッチ周期の正確性を検出するための方法では、比較的複雑でないアルゴリズムに基づいて、ピッチ周期の正確性を検出する精度を高めることができることが分かる。
以下では具体的な実施形態を詳細に説明する。当該実施形態は以下のステップを含む。
1. N点のFFT変換を入力信号s(n)に対して実施して、時間領域の入力信号を周波数領域の入力信号に変換して、当該周波数領域における対応する振幅スペクトルS(k)を取得する。ここでN=256、512等である。特に、振幅スペクトルS(k)を以下のステップで取得してもよい。
ステップA1. 入力信号s(n)を前処理して前処理入力信号spre(n)を取得する。ここで、当該前処理が、ハイパス・フィルタリング、再サンプリング、または事前重み付けのような処理であってもよい。ここでは、事前重み付け処理のみを1例として用いて説明する。入力信号s(n)が1次ハイパス・フィルタを通過した後に、前処理入力信号spre(n)が得られる。ここで、当該ハイパス・フィルタは、フィルタ因子Hpre-emph(z)=1-0.68z-1を有する。
ステップA2. FFT変換を前処理入力信号spre(n)に対して実施する。1実施形態では、FFT変換を前処理入力信号spre(n)に対して二度実施する。ここで、1回目ではFFT変換を現在のフレームの前処理入力信号に対して実施し、2回目では、現在のフレームの後半と将来のフレームの前半を含む前処理入力信号に対してFFT変換を実施する。FFT変換を実施する前に、前処理入力信号をウィンドウ化によって処理する必要がある。ここで、ウィンドウ関数は、
Figure 2015516597
である。LFFTはFFT変換の長さである。
第1の分析ウィンドウと第2の分析ウィンドウを前処理入力信号に追加した後のウィンドウ化信号は、
Figure 2015516597
である。ここで、当該第1の分析ウィンドウは現在のフレームに対応し、当該第2の分析ウィンドウは現在のフレームの後半と将来のフレームの前半に対応する。
FFT変換をウィンドウ化信号に対して実施してスペクトル係数を取得する。即ち、
Figure 2015516597
である。ここで、K≦LFFT/2である。将来のフレームの前半は時間領域でエンコードした次のフレーム(先読み)信号からのものであり、当該入力信号を次のフレーム信号の量に従って調節してもよい。FFT変換を2回実施する目的は、より正確な周波数領域情報を取得することである。別の実施形態では、FFT変換を前処理入力信号spre(n)に対して1度実施してもよい。
ステップA3. 当該スペクトル係数に基づいてエネルギ・スペクトルを計算する。
Figure 2015516597
ここで、XR(k)とXI(k)は、それぞれ、k番目の周波数ビンの実部と虚部を表し、ηは定数であり、例えば、4/(LFFT/*LFFT)であってもよい。
ステップA4. 重み付け処理を当該エネルギ・スペクトルに対して実施する。
Figure 2015516597
ここで、E[0](k)は、ステップA3の式に従って計算したスペクトル係数X[0](k)のエネルギ・スペクトルであり、E[1](k)は、ステップA3の式に従って計算したスペクトル係数X[1](k)のエネルギ・スペクトルである。
ステップA5. 対数領域の振幅スペクトルを計算する。
Figure 2015516597
ここで、θは定数であり例えば2であってもよい。εは、対数値がオーバフローするのを防ぐための相対的に小さい正の数である。あるいは、実際の実施では、log10をlogeで置き換えてもよい。
2. 時間領域において入力信号の開ループ検出を行って初期ピッチ周期Topを取得する。その諸ステップは以下の通りである。
ステップB1. 入力信号s(n)を知覚重み付け信号(perceivable weighted signal)に変換する。即ち、
Figure 2015516597
である。ここで、αiはLP(Linear Prediction、線形予測)係数であり、γ1とγ2は知覚重み付け因子であり、pは知覚フィルタの次元であり、Nはフレーム長である。
ステップB2. 相関関数を用いることによって3つの候補検出範囲の各々で最大値を探索し(例えば、低サンプリング領域では、当該3つの候補検出範囲が[62 115];[32 61];および[17 31]であってもよい)、当該最大値を候補ピッチとして用いる。
Figure 2015516597
である。ここで、kはピッチ周期の候補検出範囲における値であり、例えば、kが3つの候補検出範囲における値であってもよい。
ステップB3. 3つの候補ピッチの正規化相関係数を別々に計算する。
Figure 2015516597
ステップB4. 当該範囲の正規化相関係数を比較することによって開ループ初期ピッチ周期Topを選択する。即ち、先ず、第1の候補ピッチの周期を初期ピッチ周期として使用する。次に、第2の候補ピッチの正規化相関係数が初期ピッチ周期の正規化相関係数と固定比率因子の積以上である場合には、第2の候補の周期を初期ピッチ周期の周期として使用する。そうでない場合には、初期ピッチ周期は変化しない。最後に、第3の候補ピッチの正規化相関係数が初期ピッチ周期の正規化相関係数と固定比率因子の積以上である場合には、第3の候補の周期を初期ピッチ周期として使用する。そうでない場合には、初期ピッチ周期は変化しない。次のプログラム表現を参照されたい。
Figure 2015516597
振幅スペクトルS(k)と初期ピッチ周期Topを取得する上述のステップのシーケンスには限定は課されていないことは理解される。当該ステップを同時に実施してもよく、または何れかのステップを最初に実施してもよい。
3. FFT変換の点の数Nと初期ピッチ周期T_opに従ってピッチ周波数ビンF_opを取得する。即ち、
F_op=N/Top
4. ピッチ周波数ビンF_opの両側での所定数の周波数ビンのスペクトル振幅の和Spec_sumとスペクトル振幅差分の和Diff_sumを計算する。ここで、ピッチ周波数ビンF_opの両側での周波数ビンの量を事前に設定してもよい。
ここで、当該スペクトル振幅の和Spec_sumは、当該ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル振幅の和であり、スペクトル振幅差分の和Diff_sumは、当該ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル差分の和である。ここで、スペクトル差分とは、ピッチ周波数ビンF_opの両側での所定数の周波数ビンのスペクトル振幅と当該ピッチ周波数ビンのスペクトル振幅の差をいう。スペクトル振幅の和Spec_sumとスペクトル振幅差分の和Diff_sumを以下のプログラム表現で表してもよい。
Spec_sum[0]=0;
Diff_sum[0]=0;
for (i=1; i < 2*F_op; i++){
Spec_sum[i] = Spec_sum[i-1] + S[i];
Diff_sum[i] = Diff_sum[i-1] + (S[F_op] - S[i]);
},
ここで、iは周波数ビンのシーケンス番号である。実際の実施では、最小の係数の低周波数干渉を回避するために、iの初期値を2に設定してもよい。
5. 平均スペクトル振幅パラメータSpec_sm、スペクトル差分パラメータDiff_sm、および差分振幅比パラメータDiff_ratioを決定する。
平均スペクトル振幅パラメータSpec_smは、ピッチ周波数ビンF_opの両側での所定数の周波数ビンの平均スペクトル振幅Spec_avg、即ち、スペクトル振幅の和Spec_sumを、ピッチ周波数ビンF_opの両側での所定数の周波数ビンの全ての周波数ビンの数で除したものであってもよい。即ち、
Spec_avg=Spec_sum/(2*F_op-1)
さらに、平均スペクトル振幅パラメータSpec_smは、ピッチ周波数ビンF_opの両側での所定数の周波数ビンの平均スペクトル振幅Spec_avgの重み付き平滑化値であってもよい。即ち、
Spec_sm=0.2*Spec_sm_pre+0.8*Spec_avg
ここで、Spec_sm_preは、過去のフレームのスペクトル差分の重み付き平滑化値であるパラメータである。このケースでは、0.2と0.8は重み付け係数および平滑化係数である。異なる重み付け係数および平滑化係数を、様々な入力信号の特徴に従って選択してもよい。
スペクトル差分パラメータDiff_smは、スペクトル振幅差分の和Diff_sum、または、スペクトル振幅差分の和Diff_sumの重み付き平滑化値であってもよい。即ち、
Diff_sm=0.4*Diff_sm_pre+0.6*Diff_sum
ここで、Diff_sm_preは、過去のフレームのスペクトル差分の重み付き平滑化値であるパラメータである。ここで、0.4と0.6は重み付け係数および平滑化係数である。異なる重み付け係数および平滑化係数を、様々な入力信号の特徴に従って選択してもよい。
上から分かるように、一般に、現在のフレームの平均スペクトル振幅パラメータの重み付き平滑化値Spec_smは、過去のフレームの平均スペクトル振幅パラメータの重み付き平滑化値Spec_sm_preに基づいて決まり、現在のフレームのスペクトル差分パラメータの重み付き平滑化値Diff_smは、過去のフレームのスペクトル差分パラメータの重み付き平滑化値Diff_sm_preに基づいて決まる。
差分振幅比パラメータDiff_ratioは、スペクトル振幅差分和Diff_sumの平均スペクトル振幅Spec_avgに対する比率である。即ち、
Diff_ratio=Diff_sum/Spec_avg
平滑化平均スペクトル振幅パラメータSpec_smとスペクトル差分パラメータDiff_sm
6. 平均スペクトル振幅パラメータSpec_sm、スペクトル差分パラメータDiff_sm、および差分振幅比パラメータDiff_ratioに従って、初期ピッチ周期Topが正確であるかどうかを判定し、決定フラグT_flagを変更するかどうかを判定する。
例えば、スペクトル差分パラメータDiff_smが第1の差分パラメータ閾値Diff_thr1より小さく、平均スペクトル振幅パラメータSpec_smが第1のスペクトル振幅パラメータ閾値Spec_thr1より小さく、差分振幅比パラメータDiff_ratioが第1の比率因子パラメータ閾値ratio_thr1より小さいとき、正確性フラグT_flagが1であると判定され、当該正確性フラグに従って初期ピッチ周期が不正確であると判定される。別の例として、スペクトル差分パラメータDiff_smが第2の差分パラメータ閾値Diff_thr2より大きく、平均スペクトル振幅パラメータSpec_smが第2のスペクトル振幅パラメータ閾値Spec_thr2より大きく、差分振幅比パラメータDiff_ratioが第2の比率因子パラメータ閾値ratio_thr2より大きいとき、正確性フラグT_flagが0であると判定され、当該正確性フラグに従って初期ピッチ周期が正確であると判定される。全ての正確性判定条件が満たされているわけではなく、全ての不正確性判定条件が満たされているわけではない場合には、もとのフラグT_flagは不変のままである。
第1の差分パラメータ閾値Diff_thr1、第1のスペクトル振幅パラメータ閾値Spec_thr1、第1の比率因子パラメータ閾値ratio_thr1、第2の差分パラメータ閾値Diff_thr2、第2のスペクトル振幅パラメータ閾値Spec_thr2、および第2の比率因子パラメータ閾値ratio_thr2を要件に応じて選択してもよいことは理解される。
上述の方法に従って検出した不正確な初期ピッチ周期に関して、精密検出を上述の検出結果に対して行って、上述の方法の検出誤りを回避してもよい。
さらに、低周波数範囲におけるエネルギをさらに検出して、初期ピッチ周期の正確性をさらに検出してもよい。さらに、短ピッチ検出を検出した不正確なピッチ周期に対して行ってもよい。
7.1. 初期ピッチ周期のエネルギが低周波数範囲で非常に小さいかどうかを初期ピッチ周期に対してさらに検出してもよい。検出されたエネルギが低周波数エネルギ判定条件をみたすとき、短ピッチ検出を実施する。特に、低周波数エネルギ判定条件は、低周波数エネルギが相対的に非常に小さいことと低周波数エネルギが相対的に大きいことを表す2つの低周波数エネルギの相対値を規定する。したがって、低周波数エネルギが相対的に非常に小さいことを検出されたエネルギが満たすときには、正確性フラグT_flagが1に設定される。低周波数エネルギが相対的に大きいことを検出されたエネルギが満たすときには、正確性フラグT_flagは0に設定される。検出されたエネルギが低周波数エネルギ判定条件を満たさない場合には、元のフラグT_flagは不変のままである。正確性フラグT_flagが1に設定されるときには、短ピッチ検出が実施される。低周波数エネルギ相対値を規定することに加えて、低周波数エネルギ判定条件が低周波数エネルギ判定条件の堅牢性を高めるための別の条件の組合せを規定してもよい。
例えば、2つの周波数ビンf_low1およびf_low2が第1の組であり、0とf_low1の間の範囲およびf_low1とf_low2の間の範囲にある初期ピッチ周期のエネルギ1およびエネルギ2であるエネルギを別々に計算し、次いで、エネルギ1およびエネルギ2の間のエネルギ差を計算する。即ち、energy_diff=energy2-energy1である。さらに、当該エネルギ差を重み付けてもよく、重み付け因子が音声規模因子voice_factorであってもよい。即ち、energy_diff_w=energy_diff*voice_factor。一般に、重み付けエネルギ差をさらに平滑化してもよく、平滑化の結果を事前設定された閾値と比較して、低周波数範囲の初期ピッチ周期のエネルギが失われているかどうかを判定する。
あるいは、上述のアルゴリズムを簡略化して、或る範囲の初期ピッチ周期の低周波数エネルギが直接取得されるようにし、次いで、低周波数エネルギが重み付け、平滑化され、当該平滑化の結果を事前設定閾値と比較する。
7.2. 短ピッチ検出を実施し、正確性フラグT_flagに従ってまたは別の条件との組合せで正確性フラグT_flagに従って、初期ピッチ周期Topを短ピッチ検出の結果で置き換えるかどうかを判定する。あるいは、短ピッチ周期を実施する前に、短ピッチ検出を実施する必要があるかどうかを最初に、正確性フラグT_flagに従ってまたは別の条件との組合せで正確性フラグT_flagに従って判定してもよい。
短ピッチ検出を周波数領域で実施してもよく、または、時間領域で実施してもよい。
例えば、時間領域では、ピッチ周期の検出範囲は一般に34から231であり、短ピッチ検出を実施することは、34未満の範囲でピッチ周期を探索することであり、使用する方法が時間領域自己相関関数方法であってもよい。即ち、
Figure 2015516597
R(T)が初期ピッチ周期に対応する自己相関値の事前設定閾値より大きい場合には、T_flagが1であるとき(別の条件をここで追加してもよい)、Tを検出された短ピッチ周期とみなしてもよい。
短ピッチ検出に加えて、逓倍周波数検出を実施してもよい。正確性フラグT_flagが1である場合、これは初期ピッチ周期Topが不正確であることを示し、したがって、逓倍周波数ピッチ検出を初期ピッチ周期Topの逓倍周波数位置で実施してもよい。ここで、逓倍周波数ピッチ周期は、初期ピッチ周期Topの完全倍数(integral multiple)、または、初期ピッチ周期Topの部分倍数(fractional multiple)であってもよい。
ステップ7.1とステップ7.2に関して、ステップ7.2のみを実施して精密実施のプロセスを簡略化してもよい。
8. ステップ1乃至7.2の全てを現在のフレームに対して実施する。現在のフレームを処理した後、次のフレームを処理する必要がある。したがって、次のフレームに対して、現在のフレームの平均スペクトル振幅パラメータSpec_smとスペクトル差分パラメータDiff_smを、過去のフレームの平均スペクトル振幅の重み付き平滑化値であるパラメータSpec_sm_pre、過去のフレームのスペクトル差分の重み付き平滑化値であるパラメータDiff_sm_preとして使用し一時的に格納して次のフレームのパラメータ平滑化を実現する。
したがって、本発明の当該実施形態では、初期ピッチ周期が開ループ検出中に取得され初期ピッチ周期の正確性が周波数領域で検出された後に、初期ピッチ周期が不正確であることが検出された場合に、初期ピッチ周期が精密検出を用いて補正され、初期ピッチ周期の正確性が保証されることが分かる。初期ピッチ周期の正確性を検出するための方法では、ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル差分パラメータ、平均スペクトル振幅(またはスペクトルエネルギ)パラメータおよび差分振幅比パラメータを抽出する必要がある。これらのパラメータを抽出する複雑度は低いので、本発明の当該実施形態では、比較的正確性が高いピッチ周期があまり複雑でないアルゴリズムに基づいて出力されることを保証することができる。纏めると、本発明の当該実施形態に従うピッチ周期の正確性を検出するための方法は、比較的複雑でないアルゴリズムに基づいて、ピッチ周期の正確性を検出する精度を高めることができる。
以下では、本発明の諸実施形態に従うピッチ周期の正確性を検出するための装置を、図2乃至4を参照して詳細に説明する。
図2では、ピッチ周期の正確性を検出するための装置20が、ピッチ周波数ビン決定ユニット21、パラメータ生成ユニット22、および正確性判定ユニット23を備える。
ピッチ周波数ビン決定ユニット21は、時間領域における入力信号の初期ピッチ周期に従って、当該入力信号のピッチ周波数ビンを決定するように構成される。初期ピッチ周期は開ループ検出を当該入力信号に対して行うことによって取得される。特に、ピッチ周波数ビン決定ユニット21は、当該入力信号のピッチ周波数ビンが初期ピッチ周期に反比例し、当該入力信号に対して実施したFFT変換の点の数に直接比例することに基づいて、当該ピッチ周波数ビンを決定する。
パラメータ生成ユニット22は、周波数領域における入力信号の振幅スペクトルに基づいて、当該ピッチ周波数ビンに関連付けられた当該入力信号のピッチ周期正確性判定パラメータを決定するように構成される。パラメータ生成ユニット22により生成されたピッチ周期正確性判定パラメータは、スペクトル差分パラメータDiff_sm、平均スペクトル振幅パラメータSpec_sm、および差分振幅比パラメータDiff_ratioを含む。スペクトル差分パラメータDiff_smは、当該ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル差分の和Diff_sumまたは当該ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル差分の和Diff_sumの重み付き平滑化値である。平均スペクトル振幅パラメータSpec_smは、当該ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル振幅の和平均Spec_avgまたは当該ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル振幅の和平均Spec_avgの重み付き平滑化値である。差分振幅比パラメータDiff_ratioは、当該ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル差分の和Diff_sumの、当該ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル振幅の和平均Spec_avgに対する比率である。
正確性判定ユニット23は、ピッチ周期正確性判定パラメータに従って、初期ピッチ周期の正確性を決定するように構成される。
特に、ピッチ周期正確性判定パラメータが正確性判定条件を満たすと正確性判定ユニット23が判定したとき、正確性判定ユニット23は初期ピッチ周期が正確であると判定する。または、ピッチ周期正確性判定パラメータが不正確性判定条件を満たすと正確性判定ユニット23が判定したとき、正確性判定ユニット23は初期ピッチ周期が不正確であると判定する。
ここで、不正確性判定条件は、スペクトル差分パラメータDiff_smが第1の差分パラメータ閾値以下であること、平均スペクトル振幅パラメータSpec_smが第1のスペクトル振幅パラメータ閾値以下であること、および、差分振幅比パラメータDiff_ratioが第1の比率因子パラメータ閾値以下であること、のうち少なくとも1つを満たす。
正確性判定条件は、スペクトル差分パラメータDiff_smが第2の差分パラメータ閾値より大きいこと、平均スペクトル振幅パラメータSpec_smが第2のスペクトル振幅パラメータ閾値より大きいこと、および差分振幅比パラメータDiff_ratioが第2の比率因子パラメータ閾値より大きいこと、のうち少なくとも1つを満たす。
場合によっては、図3に示すように、装置20と比較して、ピッチ周期の正確性を検出するための装置30がさらに、ピッチ周期正確性判定パラメータに従って初期ピッチ周期の正確性を検出している間に、初期ピッチ周期が不正確であることが検出されたとき、精密検出を入力信号に対して実施するように構成された精密検出ユニット24を備える。
場合によっては、図4に示すように、装置30と比較して、ピッチ周期の正確性を検出するための装置40がさらに、ピッチ周期正確性判定パラメータに従って初期ピッチ周期の正確性を検出している間に、不正確な初期ピッチ周期が検出されたとき、低周波数範囲において初期ピッチ周期のエネルギを検出するように構成されたエネルギ検出ユニット25を備えてもよい。次いで、エネルギ検出ユニット24が、当該エネルギが低周波数エネルギ判定条件を満たすことを検出したとき、精密検出ユニット25が、短ピッチ検出を入力信号に対して実施する。
したがって、本発明の当該実施形態に従うピッチ周期の正確性を検出するための装置は、比較的複雑でないアルゴリズムに基づいて、ピッチ周期の正確性を検出する精度を高めることができることが分かる。
図5を参照すると、別の実施形態では、ピッチ周期の正確性を検出するための装置は、入力信号を受信するように構成された受信器と、時間領域における当該入力信号の初期ピッチ周期に従って当該入力信号のピッチ周波数ビンを決定し、周波数領域における当該入力信号の振幅スペクトルに基づいて、当該ピッチ周波数ビンに関連付けられた当該入力信号のピッチ周期正確性判定パラメータを決定し、ピッチ周期正確性判定パラメータに従って、初期ピッチ周期の正確性を決定するように構成されたプロセッサであって、初期ピッチ周期は開ループ検出を当該入力信号に対して行うことによって取得される、プロセッサと、を備える。
プロセッサが上述の方法の実施形態の各ステップを実装してもよいことは理解される。
本明細書で開示した諸実施形態で説明した例の組合せにおいて、ユニットおよびアルゴリズムのステップを、電子ハードウェアまたはコンピュータ・ソフトウェアと電子ハードウェアの組合せで実装してもよいことは当業者には理解される。機能をハードウェアで実施するかソフトウェアで実施するかは、技術的解決策の具体的な適用と設計上の制約条件に依存する。当業者は、様々な方法を使用して、説明した機能を具体的な適用ごとに実装してもよいが、その実装は本発明の範囲を超えるとは考えるべきではない。
説明の都合および簡単さのため、上述のシステム、装置、およびユニットの詳細な動作プロセスについては、上述の方法の実施形態における対応するプロセスを参照できることは当業者には明らかに理解され、ここでは詳細を再度説明することはしない。
本願で提供した幾つかの実施形態において、開示したシステム、装置、および方法を他の方式で実装してもよいことは理解される。例えば、説明した装置の実施形態は例にすぎない。例えば、ユニット分割は論理的な機能分割にすぎず、実際の実装では他の分割であってもよい。例えば、複数のユニットまたはコンポーネントを別のシステムに組み合せるかまたは統合してもよく、または、幾つかの機能を無視するかまたは実施しなくともよい。さらに、表示または論じた相互結合または直接結合または通信接続を幾つかのインタフェースを介して実装してもよい。装置またはユニットの間の間接接続または通信接続を電子的、機械的、または他の形態で実装してもよい。
別個の部分として説明したユニットが物理的に別個であってもなくてもよく、ユニットとして表示した部分が物理的なユニットであってもなくてもよく、1つの位置に配置してもよく、または、複数のネットワーク・ユニットに分散してもよい。当該ユニットの一部または全部を当該実施形態の解決策の目的を実現するための実際のニーズに従って選択してもよい。
さらに、本発明の諸実施形態の機能ユニットを1つの処理ユニットに統合してもよく、または、当該ユニットの各々が物理的に存在してもよく、または、複数のユニットが1つのユニットに統合される。
上記機能をソフトウェア機能ユニットの形で実装し独立した製品として販売または使用するときには、当該機能をコンピュータ可読媒体に格納してもよい。かかる理解のもと、本発明の技術的解決策を本質的に、または、先行技術に貢献する部分、または当該技術的解決策の一部をソフトウェア製品の形で実装してもよい。当該ソフトウェア製品は記憶媒体に格納され、本発明の諸実施形態で説明した方法の諸ステップの全てまたは一部を実施するように(パーソナル・コンピュータ、サーバ、またはネットワーク装置であってもよい)コンピュータ装置に指示するための幾つかの命令を含む。当該上述の記憶媒体には、USBフラッシュ・ドライブ、取外し可能ハード・ドライブ、読取専用メモリ(ROM、 Read−Only Memory)、ランダム・アクセス・メモリ(RAM、 Random Access Memory)、磁気ディスク、または光ディスクのようなプログラム・コードを格納できる任意の媒体が含まれる。
以上の説明は本発明の具体的な実装形態にすぎず、本発明の保護範囲を限定しようとするものではない。本発明で開示した技術的範囲において当業者が容易に想到する任意の変形または置換は本発明の保護範囲に入る。したがって、本発明の保護範囲は諸請求項の保護範囲の支配を受ける。
21 ピッチ周波数決定ユニット
22 パラメータ生成ユニット
23 正確性判定ユニット
24 精密検出ユニット
25 エネルギ検出ユニット
ピッチ周期正確性判定パラメータは、スペクトル差分パラメータDiff_sm、平均スペクトル振幅パラメータSpec_sm、および差分振幅比パラメータDiff_ratioを含む。スペクトル差分パラメータDiff_smは、ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル差分の和Diff_sumまたは当該ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル差分の和Diff_sumの重み付き平滑化値である。平均スペクトル振幅パラメータSpec_smは、当該ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル振幅の平均Spec_avg、または、当該ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル振幅の平均Spec_avgの重み付き平滑化値である。差分振幅比パラメータDiff_ratioは、当該ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル差分の和Diff_sumの、当該ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル振幅の平均Spec_avgに対する比率である。
パラメータ生成ユニット22は、周波数領域における入力信号の振幅スペクトルに基づいて、当該ピッチ周波数ビンに関連付けられた当該入力信号のピッチ周期正確性判定パラメータを決定するように構成される。パラメータ生成ユニット22により生成されたピッチ周期正確性判定パラメータは、スペクトル差分パラメータDiff_sm、平均スペクトル振幅パラメータSpec_sm、および差分振幅比パラメータDiff_ratioを含む。スペクトル差分パラメータDiff_smは、当該ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル差分の和Diff_sumまたは当該ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル差分の和Diff_sumの重み付き平滑化値である。平均スペクトル振幅パラメータSpec_smは、当該ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル振幅の平均Spec_avgまたは当該ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル振幅の平均Spec_avgの重み付き平滑化値である。差分振幅比パラメータDiff_ratioは、当該ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル差分の和Diff_sumの、当該ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル振幅の平均Spec_avgに対する比率である。
場合によっては、図4に示すように、装置30と比較して、ピッチ周期の正確性を検出するための装置40がさらに、ピッチ周期正確性判定パラメータに従って初期ピッチ周期の正確性を検出している間に、不正確な初期ピッチ周期が検出されたとき、低周波数範囲において初期ピッチ周期のエネルギを検出するように構成されたエネルギ検出ユニット25を備えてもよい。次いで、エネルギ検出ユニット25が、当該エネルギが低周波数エネルギ判定条件を満たすことを検出したとき、精密検出ユニット24が、短ピッチ検出を入力信号に対して実施する。

Claims (14)

  1. ピッチ周期の正確性を検出するための方法であって、
    時間領域における入力信号の初期ピッチ周期に従って、前記入力信号のピッチ周波数ビンを決定するを決定するステップであって、前記初期ピッチ周期は開ループ検出を前記入力信号に対して行うことによって取得されるステップと、
    周波数領域における前記入力信号の振幅スペクトルに基づいて、前記ピッチ周波数ビンに関連付けられた前記入力信号のピッチ周期正確性判定パラメータを決定するステップと、
    前記ピッチ周期正確性判定パラメータに従って、前記初期ピッチ周期の正確性を決定するステップと、
    を含む、方法。
  2. 前記ピッチ周期正確性判定パラメータはスペクトル差分パラメータ、平均スペクトル振幅パラメータ、および差分振幅比パラメータを含み、前記スペクトル差分パラメータは、前記ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル差分の和または前記ピッチ周波数ビンの両側での前記所定数の周波数ビンの前記スペクトル差分の和の重み付き平滑化値であり、前記平均スペクトル振幅パラメータは、前記ピッチ周波数ビンの両側での前記所定数の周波数ビンのスペクトル振幅の和平均または前記ピッチ周波数ビンの両側での前記所定数の周波数ビンのスペクトル振幅の前記和平均の重み付き平滑化値であり、前記差分振幅比パラメータは、前記ピッチ周波数ビンの両側での前記所定数の周波数ビンの前記スペクトル差分の和の、前記ピッチ周波数ビンの両側での前記所定数の周波数ビンのスペクトル振幅の和平均に対する比率である、請求項1に記載の方法。
  3. 前記ピッチ周期正確性判定パラメータに従って、前記初期ピッチ周期の正確性を決定するステップは、
    前記ピッチ周期正確性判定パラメータが正確性判定条件を満たすとき、前記初期ピッチ周期が正確であると判定するステップと、
    前記ピッチ周期正確性判定パラメータが不正確性判定条件を満たすとき、前記初期ピッチ周期が不正確であると判定するステップと、
    を含む、請求項2に記載の方法。
  4. 前記正確性判定条件は、前記スペクトル差分パラメータが第2の差分パラメータ閾値より大きいこと、前記平均スペクトル振幅パラメータが第2のスペクトル振幅パラメータ閾値より大きいこと、および、前記差分振幅比パラメータは第2の比率因子パラメータ閾値より大きいこと、のうち少なくとも1つを満たし、
    前記不正確性判定条件は、前記スペクトル差分パラメータが第1の差分パラメータ閾値より小さいこと、前記平均スペクトル振幅パラメータが第1のスペクトル振幅パラメータ閾値より小さいこと、および前記差分振幅比パラメータが第1の比率因子パラメータ閾値より小さいこと、のうち少なくとも1つを満たす、
    請求項3に記載の方法。
  5. 前記ピッチ周期正確性判定パラメータに従って前記初期ピッチ周期の正確性を検出している間に、前記初期ピッチ周期が不正確であることが検出されたとき、精密検出を前記入力信号に対して実施する、請求項1乃至4の何れか1項に記載の方法。
  6. 前記ピッチ周期正確性判定パラメータに従って、前記初期ピッチ周期の正確性を決定した後に、
    低周波数範囲でエネルギを検出するステップと、
    前記エネルギが低周波数エネルギ判定条件を満たすとき、短ピッチ検出を前記入力信号に対して実施するステップと、
    をさらに含む、請求項1乃至4の何れか1項に記載の方法。
  7. 時間領域における入力信号の初期ピッチ周期に従って、前記入力信号のピッチ周波数ビンを決定するステップは、
    前記入力信号の前記ピッチ周波数ビンは前記初期ピッチ周期に逆比例し、前記入力信号に対して行った高速フーリエ変換の点の数に直接比例すること
    を含む、請求項1乃至6の何れか1項に記載の方法。
  8. ピッチ周期の正確性を検出するための装置であって、
    時間領域における入力信号の初期ピッチ周期に従って、前記入力信号のピッチ周波数ビンを決定するように構成されたピッチ周波数ビン決定ユニットであって、前記初期ピッチ周期は開ループ検出を前記入力信号に対して行うことによって取得されるピッチ周波数ビン決定ユニットと、
    周波数領域における前記入力信号の振幅スペクトルに基づいて、前記ピッチ周波数ビンに関連付けられた前記入力信号のピッチ周期正確性判定パラメータを決定するように構成されたパラメータ生成ユニットと、
    前記ピッチ周期正確性判定パラメータに従って、前記初期ピッチ周期の正確性を決定するように構成された正確性判定ユニットと、
    を備えた、装置。
  9. 前記パラメータ生成ユニットにより生成された前記ピッチ周期正確性判定パラメータはスペクトル差分パラメータ、平均スペクトル振幅パラメータ、および差分振幅比パラメータを含み、前記スペクトル差分パラメータは、前記ピッチ周波数ビンの両側での所定数の周波数ビンのスペクトル差分の和または前記ピッチ周波数ビンの両側での前記所定数の周波数ビンの前記スペクトル差分の和の重み付き平滑化値であり、前記平均スペクトル振幅パラメータは、前記ピッチ周波数ビンの両側での前記所定数の周波数ビンのスペクトル振幅の和平均または前記ピッチ周波数ビンの両側での前記所定数の周波数ビンのスペクトル振幅の前記和平均の重み付き平滑化値であり、前記差分振幅比パラメータは、前記ピッチ周波数ビンの両側での前記所定数の周波数ビンの前記スペクトル差分の和の、前記ピッチ周波数ビンの両側での前記所定数の周波数ビンのスペクトル振幅の和平均に対する比率である、請求項8に記載の装置。
  10. 前記正確性判定ユニットは特に、
    前記ピッチ周期正確性判定パラメータが正確性判定条件を満たすと判定されたとき、前記初期ピッチ周期が正確であると判定し、
    前記ピッチ周期正確性判定パラメータが不正確性判定条件を満たすと判定されたとき、前記初期ピッチ周期が不正確であると判定する、
    ように構成された、請求項9に記載の装置。
  11. 前記正確性判定条件は、前記スペクトル差分パラメータが第2の差分パラメータ閾値より大きいこと、前記平均スペクトル振幅パラメータが第2のスペクトル振幅パラメータ閾値より大きいこと、および、前記差分振幅比パラメータは第2の比率因子パラメータ閾値より大きいこと、のうち少なくとも1つを満たし、
    前記不正確性判定条件は、前記スペクトル差分パラメータが第1の差分パラメータ閾値以下であること、前記平均スペクトル振幅パラメータが第1のスペクトル振幅パラメータ閾値以下であること、および、前記差分振幅比パラメータが第1の比率因子パラメータ閾値以下であること、のうち少なくとも1つを満たす、
    請求項10に記載の装置。
  12. 前記ピッチ周期正確性判定パラメータに従って前記初期ピッチ周期の正確性を検出している間に、前記初期ピッチ周期が不正確であることが検出されたとき、精密検出を前記入力信号に対して実施するように構成された精密検出ユニットをさらに備える、請求項8乃至11の何れか1項に記載の装置。
  13. 前記ピッチ周期正確性判定パラメータに従って前記初期ピッチ周期の正確性を検出している間に、不正確な初期ピッチ周期が検出されたとき、低周波数範囲において前記初期ピッチ周期のエネルギを検出するように構成されたエネルギ検出ユニットと、
    前記エネルギが低周波数エネルギ判定条件を満たすとき、短ピッチ検出を前記入力信号に対して実施するように構成された精密検出ユニットと、
    をさらに備える、請求項8乃至11の何れか1項に記載の装置。
  14. 前記ピッチ周波数ビン決定ユニットは、前記入力信号の前記ピッチ周波数ビンは前記初期ピッチ周期に逆比例し、前記入力信号に対して行った高速フーリエ変換の点の数に直接比例することに基づいて、前記ピッチ周波数ビンを決定するように構成された、請求項8乃至13の何れか1項に記載の装置。
JP2015511902A 2012-05-18 2012-12-26 ピッチ周期の正確性を検出するための方法および装置 Active JP6023311B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201210155298.4 2012-05-18
CN201210155298.4A CN103426441B (zh) 2012-05-18 2012-05-18 检测基音周期的正确性的方法和装置
PCT/CN2012/087512 WO2013170610A1 (zh) 2012-05-18 2012-12-26 检测基音周期的正确性的方法和装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2016197932A Division JP6272433B2 (ja) 2012-05-18 2016-10-06 ピッチ周期の正確性を検出するための方法および装置

Publications (2)

Publication Number Publication Date
JP2015516597A true JP2015516597A (ja) 2015-06-11
JP6023311B2 JP6023311B2 (ja) 2016-11-09

Family

ID=49583070

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2015511902A Active JP6023311B2 (ja) 2012-05-18 2012-12-26 ピッチ周期の正確性を検出するための方法および装置
JP2016197932A Active JP6272433B2 (ja) 2012-05-18 2016-10-06 ピッチ周期の正確性を検出するための方法および装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2016197932A Active JP6272433B2 (ja) 2012-05-18 2016-10-06 ピッチ周期の正確性を検出するための方法および装置

Country Status (10)

Country Link
US (5) US9633666B2 (ja)
EP (2) EP2843659B1 (ja)
JP (2) JP6023311B2 (ja)
KR (2) KR101649243B1 (ja)
CN (1) CN103426441B (ja)
DK (1) DK2843659T3 (ja)
ES (2) ES2627857T3 (ja)
HU (1) HUE034664T2 (ja)
PL (1) PL2843659T3 (ja)
WO (1) WO2013170610A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103426441B (zh) * 2012-05-18 2016-03-02 华为技术有限公司 检测基音周期的正确性的方法和装置
CN106373594B (zh) * 2016-08-31 2019-11-26 华为技术有限公司 一种音调检测方法及装置
US10217448B2 (en) 2017-06-12 2019-02-26 Harmony Helper Llc System for creating, practicing and sharing of musical harmonies
US11282407B2 (en) 2017-06-12 2022-03-22 Harmony Helper, LLC Teaching vocal harmonies
CN110600060B (zh) * 2019-09-27 2021-10-22 云知声智能科技股份有限公司 一种硬件音频主动探测hvad系统
CN111223491B (zh) * 2020-01-22 2022-11-15 深圳市倍轻松科技股份有限公司 一种提取音乐信号主旋律的方法、装置及终端设备
US11335361B2 (en) * 2020-04-24 2022-05-17 Universal Electronics Inc. Method and apparatus for providing noise suppression to an intelligent personal assistant

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10124094A (ja) * 1996-10-18 1998-05-15 Sony Corp 音声分析方法、音声符号化方法および装置

Family Cites Families (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8400552A (nl) * 1984-02-22 1985-09-16 Philips Nv Systeem voor het analyseren van menselijke spraak.
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
CA1245363A (en) * 1985-03-20 1988-11-22 Tetsu Taguchi Pattern matching vocoder
US4776014A (en) * 1986-09-02 1988-10-04 General Electric Company Method for pitch-aligned high-frequency regeneration in RELP vocoders
US5054072A (en) * 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
US4809334A (en) 1987-07-09 1989-02-28 Communications Satellite Corporation Method for detection and correction of errors in speech pitch period estimates
US5127053A (en) 1990-12-24 1992-06-30 General Electric Company Low-complexity method for improving the performance of autocorrelation-based pitch detectors
US7171016B1 (en) * 1993-11-18 2007-01-30 Digimarc Corporation Method for monitoring internet dissemination of image, video and/or audio files
US6463406B1 (en) 1994-03-25 2002-10-08 Texas Instruments Incorporated Fractional pitch method
CA2154911C (en) * 1994-08-02 2001-01-02 Kazunori Ozawa Speech coding device
JP3528258B2 (ja) * 1994-08-23 2004-05-17 ソニー株式会社 符号化音声信号の復号化方法及び装置
US6136548A (en) * 1994-11-22 2000-10-24 Rutgers, The State University Of New Jersey Methods for identifying useful T-PA mutant derivatives for treatment of vascular hemorrhaging
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US5864795A (en) 1996-02-20 1999-01-26 Advanced Micro Devices, Inc. System and method for error correction in a correlation-based pitch estimator
US5774836A (en) 1996-04-01 1998-06-30 Advanced Micro Devices, Inc. System and method for performing pitch estimation and error checking on low estimated pitch values in a correlation based pitch estimator
US6226604B1 (en) 1996-08-02 2001-05-01 Matsushita Electric Industrial Co., Ltd. Voice encoder, voice decoder, recording medium on which program for realizing voice encoding/decoding is recorded and mobile communication apparatus
US6014622A (en) * 1996-09-26 2000-01-11 Rockwell Semiconductor Systems, Inc. Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
JPH10105195A (ja) * 1996-09-27 1998-04-24 Sony Corp ピッチ検出方法、音声信号符号化方法および装置
US6456965B1 (en) 1997-05-20 2002-09-24 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
US6438517B1 (en) 1998-05-19 2002-08-20 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
US6188980B1 (en) * 1998-08-24 2001-02-13 Conexant Systems, Inc. Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients
DE69939086D1 (de) * 1998-09-17 2008-08-28 British Telecomm Audiosignalverarbeitung
US6233549B1 (en) * 1998-11-23 2001-05-15 Qualcomm, Inc. Low frequency spectral enhancement system and method
US6496797B1 (en) * 1999-04-01 2002-12-17 Lg Electronics Inc. Apparatus and method of speech coding and decoding using multiple frames
AU3651200A (en) 1999-08-17 2001-03-13 Glenayre Electronics, Inc Pitch and voicing estimation for low bit rate speech coders
US6151571A (en) * 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
US6418405B1 (en) 1999-09-30 2002-07-09 Motorola, Inc. Method and apparatus for dynamic segmentation of a low bit rate digital voice message
US6704711B2 (en) * 2000-01-28 2004-03-09 Telefonaktiebolaget Lm Ericsson (Publ) System and method for modifying speech signals
AU2001260162A1 (en) 2000-04-06 2001-10-23 Telefonaktiebolaget Lm Ericsson (Publ) Pitch estimation in a speech signal
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
WO2002029782A1 (en) * 2000-10-02 2002-04-11 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
SE522553C2 (sv) 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
US6917912B2 (en) * 2001-04-24 2005-07-12 Microsoft Corporation Method and apparatus for tracking pitch in audio analysis
GB2375028B (en) * 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
AU2001270365A1 (en) * 2001-06-11 2002-12-23 Ivl Technologies Ltd. Pitch candidate selection method for multi-channel pitch detectors
US6871176B2 (en) * 2001-07-26 2005-03-22 Freescale Semiconductor, Inc. Phase excited linear prediction encoder
KR100393899B1 (ko) 2001-07-27 2003-08-09 어뮤즈텍(주) 2-단계 피치 판단 방법 및 장치
JP3888097B2 (ja) 2001-08-02 2007-02-28 松下電器産業株式会社 ピッチ周期探索範囲設定装置、ピッチ周期探索装置、復号化適応音源ベクトル生成装置、音声符号化装置、音声復号化装置、音声信号送信装置、音声信号受信装置、移動局装置、及び基地局装置
WO2003019527A1 (fr) 2001-08-31 2003-03-06 Kabushiki Kaisha Kenwood Procede et appareil de generation d'un signal affecte d'un pas et procede et appareil de compression/decompression et de synthese d'un signal vocal l'utilisant
US7657427B2 (en) * 2002-10-11 2010-02-02 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US7233894B2 (en) 2003-02-24 2007-06-19 International Business Machines Corporation Low-frequency band noise detection
SG120121A1 (en) * 2003-09-26 2006-03-28 St Microelectronics Asia Pitch detection of speech signals
ATE457512T1 (de) 2004-05-17 2010-02-15 Nokia Corp Audiocodierung mit verschiedenen codierungsrahmenlängen
KR100724736B1 (ko) * 2006-01-26 2007-06-04 삼성전자주식회사 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치
KR100770839B1 (ko) 2006-04-04 2007-10-26 삼성전자주식회사 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치
CN100541609C (zh) * 2006-09-18 2009-09-16 华为技术有限公司 一种实现开环基音搜索的方法和装置
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
US9142221B2 (en) * 2008-04-07 2015-09-22 Cambridge Silicon Radio Limited Noise reduction
CN101556795B (zh) * 2008-04-09 2012-07-18 展讯通信(上海)有限公司 计算语音基音频率的方法及设备
US9336785B2 (en) * 2008-05-12 2016-05-10 Broadcom Corporation Compression for speech intelligibility enhancement
US9197181B2 (en) * 2008-05-12 2015-11-24 Broadcom Corporation Loudness enhancement system and method
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
WO2010031049A1 (en) * 2008-09-15 2010-03-18 GH Innovation, Inc. Improving celp post-processing for music signals
CN101354889B (zh) * 2008-09-18 2012-01-11 北京中星微电子有限公司 一种语音变调方法及装置
CN101599272B (zh) 2008-12-30 2011-06-08 华为技术有限公司 基音搜索方法及装置
EP2211335A1 (en) * 2009-01-21 2010-07-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for obtaining a parameter describing a variation of a signal characteristic of a signal
WO2010091554A1 (zh) * 2009-02-13 2010-08-19 华为技术有限公司 一种基音周期检测方法和装置
CN101814291B (zh) * 2009-02-20 2013-02-13 北京中星微电子有限公司 在时域提高语音信号信噪比的方法和装置
US8718804B2 (en) * 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
US8620672B2 (en) 2009-06-09 2013-12-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
JP5433696B2 (ja) * 2009-07-31 2014-03-05 株式会社東芝 音声処理装置
WO2012131438A1 (en) * 2011-03-31 2012-10-04 Nokia Corporation A low band bandwidth extender
CN102231274B (zh) * 2011-05-09 2013-04-17 华为技术有限公司 基音周期估计值修正方法、基音估计方法和相关装置
CN102842305B (zh) * 2011-06-22 2014-06-25 华为技术有限公司 一种基音检测的方法和装置
EP2795613B1 (en) * 2011-12-21 2017-11-29 Huawei Technologies Co., Ltd. Very short pitch detection and coding
CN103426441B (zh) * 2012-05-18 2016-03-02 华为技术有限公司 检测基音周期的正确性的方法和装置
CN105976830B (zh) * 2013-01-11 2019-09-20 华为技术有限公司 音频信号编码和解码方法、音频信号编码和解码装置
CN104217727B (zh) * 2013-05-31 2017-07-21 华为技术有限公司 信号解码方法及设备
CN104517610B (zh) * 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10124094A (ja) * 1996-10-18 1998-05-15 Sony Corp 音声分析方法、音声符号化方法および装置

Also Published As

Publication number Publication date
CN103426441B (zh) 2016-03-02
KR101762723B1 (ko) 2017-07-28
EP3246920B1 (en) 2020-10-28
US10249315B2 (en) 2019-04-02
EP3246920A1 (en) 2017-11-22
US20190180766A1 (en) 2019-06-13
JP2017027076A (ja) 2017-02-02
KR101649243B1 (ko) 2016-08-18
US10984813B2 (en) 2021-04-20
US20210335377A1 (en) 2021-10-28
KR20150014492A (ko) 2015-02-06
US9633666B2 (en) 2017-04-25
US20170194016A1 (en) 2017-07-06
EP2843659A1 (en) 2015-03-04
KR20160099729A (ko) 2016-08-22
EP2843659A4 (en) 2015-07-15
WO2013170610A1 (zh) 2013-11-21
JP6272433B2 (ja) 2018-01-31
US20230402048A1 (en) 2023-12-14
ES2847150T3 (es) 2021-08-02
EP2843659B1 (en) 2017-04-05
CN103426441A (zh) 2013-12-04
DK2843659T3 (en) 2017-07-03
ES2627857T3 (es) 2017-07-31
US20150073781A1 (en) 2015-03-12
JP6023311B2 (ja) 2016-11-09
HUE034664T2 (hu) 2018-02-28
US11741980B2 (en) 2023-08-29
PL2843659T3 (pl) 2017-10-31

Similar Documents

Publication Publication Date Title
JP6272433B2 (ja) ピッチ周期の正確性を検出するための方法および装置
CN106486131B (zh) 一种语音去噪的方法及装置
EP2828856B1 (en) Audio classification using harmonicity estimation
KR100744352B1 (ko) 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
US20150081287A1 (en) Adaptive noise reduction for high noise environments
CN103117067B (zh) 一种低信噪比下语音端点检测方法
US9058821B2 (en) Computer-readable medium for recording audio signal processing estimating a selected frequency by comparison of voice and noise frame levels
CN110890087A (zh) 一种基于余弦相似度的语音识别方法和装置
de Fréin Power-weighted LPC formant estimation
CN111108551B (zh) 一种声纹鉴定方法和相关装置
CN112201279B (zh) 一种基音检测方法及装置
US20150162014A1 (en) Systems and methods for enhancing an audio signal
KR101671305B1 (ko) 입력 신호의 특징 파라미터 추출 장치 및 그를 이용한 화자 인식 장치
CN112397087A (zh) 共振峰包络估计、语音处理方法及装置、存储介质、终端
CN116884438B (zh) 基于声学特征的练琴音准检测方法及系统
CN117935789A (zh) 语音识别方法及系统、设备、存储介质
Hsieh et al. A study on the application of an average energy entropy method for the endpoint extraction of frog croak syllables
Shahnaz et al. A cepstral-domain algorithm for pitch estimation from noise-corrupted speech

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141127

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160906

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161006

R150 Certificate of patent or registration of utility model

Ref document number: 6023311

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250