JP2014507689A - ピッチ検出方法及び装置 - Google Patents
ピッチ検出方法及び装置 Download PDFInfo
- Publication number
- JP2014507689A JP2014507689A JP2013556963A JP2013556963A JP2014507689A JP 2014507689 A JP2014507689 A JP 2014507689A JP 2013556963 A JP2013556963 A JP 2013556963A JP 2013556963 A JP2013556963 A JP 2013556963A JP 2014507689 A JP2014507689 A JP 2014507689A
- Authority
- JP
- Japan
- Prior art keywords
- frequency point
- amplitude
- pitch
- frequency
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 133
- 238000001228 spectrum Methods 0.000 claims abstract description 175
- 239000000284 extract Substances 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 34
- 238000004458 analytical method Methods 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000009499 grossing Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000003595 spectral effect Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Electrophonic Musical Instruments (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本発明は、スピーチ及びオーディオの分野に属する、ピッチ検出方法及び装置を開示する。ピッチ検出方法は、時間領域においてスピーチ信号に対してピッチ検出を実行して、初期ピッチ周期を取得し、スピーチ信号を周波数領域に変換して、スピーチ信号の周波数スペクトルを取得し(ここで、周波数スペクトルは周波数スペクトルの振幅スペクトルを含み)、初期ピッチ周期とスピーチ信号の周波数スペクトルとに従って、特徴パラメータを抽出し、初期ピッチ周期と特徴パラメータとに従って、ファインピッチ周期検出を実行して、ファインピッチ周期を取得することを含む。
Description
本出願は、2011年6月22日に中国専利局に出願された、「PITCH DETECTION METHOD AND APPARATUS(ピッチ検出方法及び装置)」と題された、中国特許出願第201110170075.0号の優先権を主張するものであり、当該出願はその全体が参照によって本明細書中に援用される。
本発明は、ピッチ検出方法及び装置に関し、特に、精度が高く、演算量が少ない、ピッチ検出方法及び装置に関する。
デジタル通信の分野では、スピーチ、イメージ、オーディオ、及びビデオの伝送が、携帯電話の通話、オーディオ/ビデオ会議、放送及びテレビ、並びにマルチメディアエンターテインメントなどの適用例において広く要求されている。オーディオ/ビデオ信号を記憶又は伝送するために占有されるリソースを減少させるために、オーディオ/ビデオ圧縮符号化技術が出現した。スピーチ及びオーディオ信号の処理に際して、ピッチ検出は、様々な実際的なスピーチ及びオーディオ適用例における主要技術のうちの1つであり、ピッチは、スピーチ符号化、スピーチ認識、及びトーン回復(tone retrieval)における重要な抽出パラメータであり、ピッチ検出の精度は、最終的な符号化の性能に直接影響を及ぼす。従来技術では、ピッチ周期検出のために、通常、2つの方法が採用される。
1つの方法は時間領域方法であり、スピーチ信号が前処理された後、入力信号が時間領域において解析及び計算されて、ピッチ周期が判定される。
スピーチ信号については、関連する関数方法は、ほとんどが、時間領域においてスピーチ信号に対してピッチ検出を実行するために採用され、検出は、時間領域においてのみ、スピーチ信号の関連する値に関して実行される。しかし、実際のピッチ周期の整数倍における、スピーチ信号の関連する値は、全て非常に大きく、それらは正確に区別及び検出されることが非常に困難であり、倍数ピッチエラーが容易に発生し、これにより、ピッチパラメータ検出の精度は減少する。
もう1つの方法は周波数領域方法であり、これは、時間領域信号を周波数領域に変換し、周波数領域においてピーク検出を実行し、検出されたピークとピッチ追跡アルゴリズムとに従ってピッチ周波数を取得し、ピッチ周波数に対して対応する変換を実行して、ピッチ周期を取得するというものである。
このプロセスでは、時間領域信号から周波数領域への変換、及び周波数領域におけるピッチ探索は、演算量が多く、従って、実際の適用例で採用されることが困難である。
本発明の実施形態は、精度が高く、演算量が少ない、ピッチ検出方法及び装置を提供する。
上記の目的を達成するために、本発明の実施形態は、以下の技術的解決法を採用する。
ピッチ検出方法は、
時間領域においてスピーチ信号に対してピッチ検出を実行して、初期ピッチ周期を取得し、
スピーチ信号を周波数領域に変換して、スピーチ信号の周波数スペクトルを取得し、ここで、周波数スペクトルは周波数スペクトルの振幅スペクトルを含み、
初期ピッチ周期とスピーチ信号の周波数スペクトルとに従って、特徴パラメータを抽出し、
初期ピッチ周期と特徴パラメータとに従って、ファインピッチ周期検出を実行して、ファインピッチ周期を取得することを含む。
時間領域においてスピーチ信号に対してピッチ検出を実行して、初期ピッチ周期を取得し、
スピーチ信号を周波数領域に変換して、スピーチ信号の周波数スペクトルを取得し、ここで、周波数スペクトルは周波数スペクトルの振幅スペクトルを含み、
初期ピッチ周期とスピーチ信号の周波数スペクトルとに従って、特徴パラメータを抽出し、
初期ピッチ周期と特徴パラメータとに従って、ファインピッチ周期検出を実行して、ファインピッチ周期を取得することを含む。
ピッチ検出装置は、
時間領域においてスピーチ信号に対してピッチ検出を実行して、初期ピッチ周期を取得するように構成された、初期ピッチ周期取得モジュールと、
スピーチ信号を周波数領域に変換して、スピーチ信号の周波数スペクトルを取得するように構成された、時間周波数変換モジュールと(ここで、周波数スペクトルは周波数スペクトルの振幅スペクトルを含み)、
初期ピッチ周期とスピーチ信号の周波数スペクトルとに従って、特徴パラメータを抽出するように構成された、特徴パラメータ抽出モジュールと、
初期ピッチ周期と特徴パラメータとに従って、ファインピッチ周期検出を実行して、ファインピッチ周期を取得するように構成された、ファインピッチ周期取得モジュールとを含む。
時間領域においてスピーチ信号に対してピッチ検出を実行して、初期ピッチ周期を取得するように構成された、初期ピッチ周期取得モジュールと、
スピーチ信号を周波数領域に変換して、スピーチ信号の周波数スペクトルを取得するように構成された、時間周波数変換モジュールと(ここで、周波数スペクトルは周波数スペクトルの振幅スペクトルを含み)、
初期ピッチ周期とスピーチ信号の周波数スペクトルとに従って、特徴パラメータを抽出するように構成された、特徴パラメータ抽出モジュールと、
初期ピッチ周期と特徴パラメータとに従って、ファインピッチ周期検出を実行して、ファインピッチ周期を取得するように構成された、ファインピッチ周期取得モジュールとを含む。
本発明の実施形態で提供されるピッチ検出方法及び装置では、時間領域において取得された初期ピッチ周期と、周波数領域において抽出された特徴パラメータとに従って、ピッチ周期についての検出を実行することによって、倍数ピッチエラーの発生が回避され、ピッチ周期検出の精度が向上する。
デジタル信号処理の分野では、オーディオコーデック及びビデオコーデックが、携帯電話、無線装置、パーソナルデータアシスタント(PDA)、ハンドヘルド又はポータブルコンピュータ、GPSレシーバ/ナビゲータ、カメラ、オーディオ/ビデオプレーヤ、ビデオカメラ、ビデオレコーダ、及び監視装置などの、様々な電子装置に広く適用される。一般に、このタイプの電子装置は、オーディオエンコーダ又はオーディオデコーダを含み、オーディオエンコーダ又はデコーダは、デジタル回路によって、又はDSP(デジタル信号プロセッサ)などのチップによって直接実装されてもよく、あるいは、ソフトウェアコード内の手順を実行するためにプロセッサを駆動する、ソフトウェアコードによって実装されてもよい。一般に、オーディオエンコーダ内にはピッチ検出手順が存在する。本発明の一実施形態によるピッチ検出方法について、添付の図面を参照して以下に詳細に説明する。
実施形態1
ピッチ検出方法は、図1に示すように、以下を含む。
ピッチ検出方法は、図1に示すように、以下を含む。
ステップ100:時間領域においてスピーチ信号に対してピッチ検出を実行して、初期ピッチ周期を取得する。
時間領域において、知覚重み付けを経たスピーチ信号に従って、開ループピッチ検出が実行されて、初期ピッチ周期T’が取得されてもよい。
ステップ101:スピーチ信号に対して前処理を実行する。
スピーチ信号s(n)に対して前処理が実行され、例えば、スピーチ信号内の高周波成分を強調し、スピーチ符号化の精度を向上させるために、プリエンファシス処理が実行される。スピーチ信号のための前処理が完了した後、前処理されたスピーチ信号spre(n)が取得される。スピーチ信号を周波数領域に変換し、ピッチ検出をより高精度にするために、スピーチ信号に対して初期段階処理が実行される必要がある。
ステップ102:前処理されたフレーム信号に解析ウィンドウを適用する。
前処理されたスピーチ信号spre(n)に従って、前処理されたフレーム信号に解析ウィンドウが適用され、解析ウィンドウの関数は、
WFFT(n)=√(0.5−0.5cos(2πn/LFFT))=sin(πn/LFFT), n=0,1,2,...,LFFT−1
であり、上式で、LFFTは解析ウィンドウの長さである。
WFFT(n)=√(0.5−0.5cos(2πn/LFFT))=sin(πn/LFFT), n=0,1,2,...,LFFT−1
であり、上式で、LFFTは解析ウィンドウの長さである。
図2に示すように、第1の解析ウィンドウが、現在のフレームに適用され、第2の解析ウィンドウが、現在のフレームの後半フレームと、次のフレームの前半フレームとに適用される。
第1の解析ウィンドウの関数は、
s[0] wnd(n)=wFFT(n)spre(n), n=0,1,2,...,LFFT−1
である。
s[0] wnd(n)=wFFT(n)spre(n), n=0,1,2,...,LFFT−1
である。
第2の解析ウィンドウの関数は、
s[1] wnd(n)=wFFT(n)spre(n+LFFT/2), n=0,1,2,...,LFFT−1
である。
s[1] wnd(n)=wFFT(n)spre(n+LFFT/2), n=0,1,2,...,LFFT−1
である。
ステップ103:スピーチ信号を周波数領域に変換して、スピーチ信号の周波数スペクトルを取得し、ここで、周波数スペクトルは周波数スペクトルの振幅スペクトルを含む。
周波数領域においてスピーチ信号に対して検出を実行するためには、周波数領域における、スピーチ信号の周波数スペクトルが取得される必要があり、周波数スペクトルは周波数スペクトルの振幅スペクトルを含む。図3に示すように、このステップの一実施形態は、以下を含む。
ステップ300:解析ウィンドウが適用されたスピーチ信号に対して、周波数領域変換を実行して、周波数スペクトル係数を取得する。
周波数スペクトル係数を取得するために、ウィンドウが適用されたスピーチ信号のフレームに対して、フーリエ変換が実行され、例えば、フレーム長LFFTは256である。実際の適用例では、256点のフーリエ変換が実行されて、対応する周波数スペクトル係数が取得されてもよく、周波数スペクトル係数の関数は、
上式で、K<=LFFT/2、N=LFFTであり、周波数スペクトル係数は複素数であり、実数部と虚数部とを含む。
上式で、K<=LFFT/2、N=LFFTであり、周波数スペクトル係数は複素数であり、実数部と虚数部とを含む。
ステップ301:周波数スペクトル係数に従って、エネルギースペクトルを計算する。
周波数スペクトル係数内の、実数部及び虚数部の平方和を計算して、エネルギースペクトルを計算し、エネルギースペクトルの関数E(k)は、
E(k)=X2 R(k)+X2 I(k), k=0,1,2,...,K−1
であり、上式で、XR(k)及びXI(k)は、それぞれ、実数部及び虚数部を示す。
E(k)=X2 R(k)+X2 I(k), k=0,1,2,...,K−1
であり、上式で、XR(k)及びXI(k)は、それぞれ、実数部及び虚数部を示す。
ステップ302:現在のフレームと前のフレームとに従って、エネルギースペクトルに対して重み付け処理を実行して、エネルギースペクトルを平滑化する。
ピッチ周期検出の精度を更に向上させるために、現在のフレームと前のフレームとに従って、エネルギースペクトルが重み付けされて、平滑なエネルギースペクトルが取得されてもよく、平滑なエネルギースペクトルの関数は、
であり、上式で、E[0](k)は、第1の解析ウィンドウに従って生成されたエネルギースペクトルであり、E[1](k)は、第2の解析ウィンドウに従って生成されたエネルギースペクトルであり、αの値は、E〜(k)内でE[0](k)及びE[1](k)が占める割合を表し、これは経験に従って選択され、例えば0.5に設定されてもよい。
であり、上式で、E[0](k)は、第1の解析ウィンドウに従って生成されたエネルギースペクトルであり、E[1](k)は、第2の解析ウィンドウに従って生成されたエネルギースペクトルであり、αの値は、E〜(k)内でE[0](k)及びE[1](k)が占める割合を表し、これは経験に従って選択され、例えば0.5に設定されてもよい。
ステップ303:エネルギースペクトルに従って、周波数スペクトルの振幅スペクトルを計算する。
エネルギースペクトルの関数に対して開平演算が実行されて、振幅スペクトルの関数が取得される。振幅スペクトルの関数を計算するプロセスにおいて、振幅スペクトルの関数の値が過度に大きくなるのを防止するために、振幅スペクトルの関数に対して対数演算が実行され、振幅範囲が圧縮される。平滑なエネルギースペクトルの関数の値が0である場合、その対数値は負の無限大に近付き、演算中にオーバフロー現象が発生する可能性があり、従って、比較的小さな正数εが、対数値のオーバフローを防止するために設定される。振幅スペクトルの関数は、
であり、上式で、θ及びηは定数であり、周波数スペクトルの振幅範囲は、定数を設定することによって調節されてもよく、例えば、定数は、θ=2、η=log10(4/L2 FFT)に設定されてもよい。
ステップ104:初期ピッチ周期とスピーチ信号の周波数スペクトルとに従って、特徴パラメータを抽出する。
初期ピッチ周期T’に対して逆数演算が実行されて、基本周波数f’が取得される。基本周波数f’に対して乗算演算が実行されて、倍数ピッチ周波数、例えば、2f’及びf’/2が取得される。
特徴パラメータは、平均振幅パラメータ、平均振幅と周波数点振幅との比率パラメータ、及びピーク位置パラメータを含む。
ファインピッチ周期についての検出を実行して、倍数ピッチエラーの発生を回避するために、振幅スペクトルの振幅及び変動特性を、ファインピッチ周期を判定するために取得する関数が設定される必要があり、例えば、関数は、
に設定され、上式で、Sv(k)は、平均振幅の関数であり、S(k)は、振幅スペクトルの関数であり、f’は、周波数領域における、初期ピッチ周期T’の対応する周波数点であり、検出の間、Sv(k)の値は、2f’−1の範囲内の、かつ、測定される周波数点kを中心とする、周波数点の平均振幅を表し、r(k)は、平均振幅と、測定される周波数点の振幅との比率関数である。
検出の間、基本周波数、2倍ピッチ周波数、及び3倍ピッチ周波数の値が関数内に代入されて、基本周波数特徴パラメータSv(f’)及びr(f’)、2倍ピッチ周波数特徴パラメータSv(2f’)及びr(2f’)、並びに3倍ピッチ周波数特徴パラメータSv(3f’)及びr(3f’)が取得される。
ステップ105:初期ピッチ周期と特徴パラメータとに従って、ファインピッチ周期検出を実行して、ファインピッチ周期を取得する。
初期ピッチ周期と特徴パラメータとに従って、スピーチ信号に対して倍数ピッチ周波数検出が実行される。実際の検出では、ほとんどの倍数ピッチエラーは、周波数領域における基本周波数点、2倍ピッチ周波数点、及び3倍ピッチ周波数点の位置において発生し、従って、必要とされる検出精度が高くない場合、検出の複雑さを減らすために、検出は、基本周波数、2倍ピッチ周波数、及び3倍ピッチ周波数についてのみ実行されてもよい。
周波数点平均振幅と周波数点振幅との比率パラメータ値と、平均振幅パラメータ値とに従って、3倍ピッチ周波数について検出が実行される場合、図4に示すように、以下が含まれる。
ステップ400:基本周波数点平均振幅と周波数点振幅との比率パラメータ値の、3倍ピッチ周波数点平均振幅と周波数点振幅との比率パラメータ値に対する比率が、第1のデフォルト値より大きいかどうかを判定する。
平均振幅値Sv(k)と、平均振幅と周波数点振幅との比率パラメータr(k)とによれば、検出される周波数点の振幅値が平均振幅パラメータSv(k)に対して相対的に大きければ大きいほど、r(k)の値は小さく、これはこの周波数点においてピークが発生することを示し、振幅スペクトルの変動特性は明らかである、ということがわかる。
検出の間、実際のピッチ周波数の位置において、ピークが発生する。この時、この周波数点における振幅値S(k)は、周波数点の周囲の範囲2f’−1内で、平均振幅パラメータSv(k)の値より大きく、従って、平均振幅と周波数点振幅との比率パラメータの値r(k)は小さい。これにより、基本周波数点、2倍ピッチ周波数点、及び3倍ピッチ周波数点の、Sv(k)とr(k)とに従って、取得されたピッチ周期内で倍数ピッチエラーが発生するかどうかが判定されてもよい。
倍数ピッチ周波数検出の間、3f’の位置がファインピッチ周波数におけるものであってもよいかどうかが最初に判定される。倍数ピッチ周波数検出をより正確にするために、第1のデフォルト値δ1が設定され、r(f’)のr(3f’)に対する比率がδ1より大きい場合のみ、3f’の位置はファインピッチ周波数におけるものであってもよく、第1のデフォルト値δ1は、経験に従って1.22に設定されてもよい。
ステップ401:基本周波数点平均振幅と周波数点振幅との比率パラメータ値の、3倍ピッチ周波数点平均振幅と周波数点振幅との比率パラメータ値に対する比率が、第1のデフォルト値より大きい場合、2倍ピッチ周波数点平均振幅と周波数点振幅との比率パラメータ値の、3倍ピッチ周波数点平均振幅と周波数点振幅との比率パラメータ値に対する比率が、第2のデフォルト値より大きいかどうかを判定する。
r(f’)のr(3f’)に対する比率が、第1のデフォルト値δ1より大きい場合、r(2f’)のr(3f’)に対する比率が、第2のデフォルト値λ1より大きいかどうかが判定され、第2のデフォルト値λ1は、経験に従って1.22に設定されてもよい。
ステップ402:2倍ピッチ周波数点平均振幅と周波数点振幅との比率パラメータ値の、3倍ピッチ周波数点平均振幅と周波数点振幅との比率パラメータ値に対する比率が、第2のデフォルト値より大きい場合、3倍ピッチ周波数点平均振幅のパラメータ値と、基本周波数点平均振幅のパラメータ値との間の差が、第3のデフォルト値より大きいかどうかを判定する。
r(2f’)のr(3f’)に対する比率が、第2のデフォルト値λ1より大きい場合、Sv(3f’)と、Sv(f’)との間の差が、第3のデフォルト値γ1より大きいかどうかが判定され、第3のデフォルト値γ1は、経験に従って0.6に設定されてもよい。
ステップ403:3倍ピッチ周波数点平均振幅のパラメータ値と、基本周波数点平均振幅のパラメータ値との間の差が、第3のデフォルト値より大きい場合、3倍ピッチ周波数が、必要とされるファインピッチ周波数であると判定する。
上記の3つの条件が同時に満たされた場合、基本周波数、2倍ピッチ周波数、及び3倍ピッチ周波数のうち、3倍ピッチ周波数がファインピッチ周波数であると判定されてもよく、そして、必要とされるファインピッチ周期は、ファインピッチ周波数に従って決定されてもよい。
3倍ピッチ周波数が、必要とされるファインピッチ周波数ではない場合、周波数点平均振幅と周波数点振幅との比率パラメータ値と、平均振幅パラメータ値とに従って、2倍ピッチ周波数について検出が実行される。図5に示すように、以下が含まれる。
ステップ500:基本周波数点平均振幅と周波数点振幅との比率パラメータ値の、2倍ピッチ周波数点平均振幅と周波数点振幅との比率パラメータ値に対する比率が、第7のデフォルト値より大きいかどうかを判定する。
3倍ピッチエラーの検出と同様に、r(f’)のr(2f’)に対する比率がδ2より大きいかどうかが判定され、第7のデフォルト値δ2は、経験に従って1.22に設定されてもよい。
ステップ501:基本周波数点平均振幅と周波数点振幅との比率パラメータ値の、2倍ピッチ周波数点平均振幅と周波数点振幅との比率パラメータ値に対する比率が、第7のデフォルト値より大きい場合、3倍ピッチ周波数点平均振幅と周波数点振幅との比率パラメータ値の、2倍ピッチ周波数点平均振幅と周波数点振幅との比率パラメータ値に対する比率が、第8のデフォルト値より大きいかどうかを判定する。
r(f’)のr(2f’)に対する比率が、第7のデフォルト値δ2より大きい場合、r(3f’)のr(2f’)に対する比率が、第8のデフォルト値λ2より大きいかどうかが判定され、第8のデフォルト値λ2は、経験に従って1.22に設定されてもよい。
ステップ502:3倍ピッチ周波数点平均振幅と周波数点振幅との比率パラメータ値の、2倍ピッチ周波数点平均振幅と周波数点振幅との比率パラメータ値に対する比率が、第8のデフォルト値より大きい場合、2倍ピッチ周波数点平均振幅のパラメータ値と、基本周波数点平均振幅のパラメータ値との間の差が、第9のデフォルト値より大きいかどうかを判定する。
r(3f’)のr(2f’)に対する比率が、第8のデフォルト値λ2より大きい場合、Sv(2f’)と、Sv(f’)との間の差が、第9のデフォルト値γ2より大きいかどうかが更に判定され、第9のデフォルト値γ2は、経験に従って0.4に設定されてもよい。
ステップ503:2倍ピッチ周波数点平均振幅のパラメータ値と、基本周波数点平均振幅のパラメータ値との間の差が、第9のデフォルト値より大きい場合、2倍ピッチ周波数が、必要とされるファインピッチ周波数であると判定する。
上記の3つの条件が同時に満たされた場合、基本周波数、2倍ピッチ周波数、及び3倍ピッチ周波数のうち、2倍ピッチ周波数がファインピッチ周波数であると判定されてもよく、そして、必要とされるファインピッチ周期は、ファインピッチ周波数に従って決定されてもよい。
実施形態2
倍数ピッチ周波数検出の間、周波数点平均振幅と周波数点振幅との比率パラメータ値と、キャッシュ内に記憶された、現在のフレームより前の倍数ピッチ周波数の判定結果とに従って、更なる判定が実行されてもよい。図6に示すように、3倍ピッチ周波数の検出は、以下を含む。
倍数ピッチ周波数検出の間、周波数点平均振幅と周波数点振幅との比率パラメータ値と、キャッシュ内に記憶された、現在のフレームより前の倍数ピッチ周波数の判定結果とに従って、更なる判定が実行されてもよい。図6に示すように、3倍ピッチ周波数の検出は、以下を含む。
ステップ600:基本周波数点平均振幅と周波数点振幅との比率パラメータ値の、3倍ピッチ周波数点平均振幅と周波数点振幅との比率パラメータ値に対する比率が、第4のデフォルト値より大きいかどうかを判定する。
r(f’)のr(3f’)に対する比率がδ3より大きいかどうかが判定され、第4のデフォルト値δ3は、経験に従って1.05に設定されてもよい。
ステップ601:基本周波数点平均振幅と周波数点振幅との比率パラメータ値の、3倍ピッチ周波数点平均振幅と周波数点振幅との比率パラメータ値に対する比率が、第4のデフォルト値より大きい場合、2倍ピッチ周波数点平均振幅と周波数点振幅との比率パラメータ値の、3倍ピッチ周波数点平均振幅と周波数点振幅との比率パラメータ値に対する比率が、第5のデフォルト値より大きいかどうかを判定する。
r(f’)のr(3f’)に対する比率が、第4のデフォルト値δ3より大きい場合、r(2f’)のr(3f’)に対する比率が、第5のデフォルト値λ3より大きいかどうかが判定され、第5のデフォルト値λ3は、経験に従って1.05に設定されてもよい。
ステップ602:2倍ピッチ周波数点平均振幅と周波数点振幅との比率パラメータ値の、3倍ピッチ周波数点平均振幅と周波数点振幅との比率パラメータ値に対する比率が、第5のデフォルト値より大きい場合、3倍ピッチエラーが前のフレーム内で発生したかどうかを判定する。
2倍ピッチ周波数点平均振幅と周波数点振幅との比率パラメータ値の、3倍ピッチ周波数点平均振幅と周波数点振幅との比率パラメータ値に対する比率が、第5のデフォルト値λ3より大きい場合、キャッシュ内に記憶された、前のフレームのマークに従って、3倍ピッチエラーが前のフレーム内ですでに発生したかどうかが判定される。
ステップ603:3倍ピッチエラーが前のフレーム内で発生した場合、現在のフレームより前に3倍ピッチエラーが発生した回数が、第6のデフォルト値より大きいかどうかを判定する。
3倍ピッチエラーが前のフレーム内ですでに発生したと判定された場合、現在のフレームより前に3倍ピッチエラーが発生した回数が、第6のデフォルト値c1より大きいかどうかが更に判定される。例えば、3倍ピッチエラーが連続的に発生した回数が、第6のデフォルト値c1より大きいかどうかが、現在のフレームの前の10フレームについて判定される。第6のデフォルト値c1がフレーム全体に従って判定される場合、これは3に設定されてもよく、第6のデフォルト値c1がハーフフレームに従って判定される場合、これは6に設定されてもよい。
ステップ604:現在のフレームより前に3倍ピッチエラーが発生した回数が、第6のデフォルト値より大きい場合、3倍ピッチ周波数が、必要とされるファインピッチ周期であると判定する。
3倍ピッチエラーが、周波数点3f’が存在するフレームの前のフレーム内で、及び周波数点3f’が存在するフレームの前の10フレーム内で発生した場合、3倍ピッチエラーが3回連続的に発生したとキャッシュ内に記録されており、従って、3倍ピッチエラーが発生したと判定される。実際のピッチ周波数は3f’の付近で発生し、3f’が、必要とされるファインピッチ周波数である。
3倍ピッチ周波数が、必要とされるファインピッチ周波数ではない場合、周波数点平均振幅と周波数点振幅との比率パラメータ値と、キャッシュデータとに従って、2倍ピッチ周波数について検出が実行される。図7に示すように、以下が含まれる。
ステップ700:基本周波数点平均振幅と周波数点振幅との比率パラメータ値の、2倍ピッチ周波数点平均振幅と周波数点振幅との比率パラメータ値に対する比率が、第10のデフォルト値より大きいかどうかを判定する。
r(f’)のr(2f’)に対する比率がδ4より大きいかどうかが判定され、第10のデフォルト値δ4は、経験に従って1.05に設定されてもよい。
ステップ701:基本周波数点平均振幅と周波数点振幅との比率パラメータ値の、2倍ピッチ周波数点平均振幅と周波数点振幅との比率パラメータ値に対する比率が、第10のデフォルト値より大きい場合、3倍ピッチ周波数点平均振幅と周波数点振幅との比率パラメータ値の、2倍ピッチ周波数点平均振幅と周波数点振幅との比率パラメータ値に対する比率が、第11のデフォルト値より大きいかどうかを判定する。
r(f’)のr(2f’)に対する比率が、第10のデフォルト値δ4より大きい場合、r(3f’)のr(2f’)に対する比率が、第11のデフォルト値λ4より大きいかどうかが判定され、第11のデフォルト値λ4は、経験に従って1.05に設定されてもよい。
ステップ702:3倍ピッチ周波数点平均振幅と周波数点振幅との比率パラメータ値の、2倍ピッチ周波数点平均振幅と周波数点振幅との比率パラメータ値に対する比率が、第11のデフォルト値より大きい場合、2倍ピッチエラーが前のフレーム内で発生したかどうかを判定する。
3倍ピッチ周波数点平均振幅と周波数点振幅との比率パラメータ値の、2倍ピッチ周波数点平均振幅と周波数点振幅との比率パラメータ値に対する比率が、第11のデフォルト値λ4より大きい場合、キャッシュ内に記憶された、前のフレームのマークに従って、2倍周期倍数エラーが前のフレーム内ですでに発生したかどうかが判定される。
ステップ703:2倍ピッチエラーが前のフレーム内で発生した場合、現在のフレームより前に2倍ピッチエラーが発生した回数が、第12のデフォルト値より大きいかどうかを判定する。
3倍ピッチエラーが前のフレーム内ですでに発生したと判定された場合、現在のフレームより前に2倍ピッチエラーが発生した回数が、第12のデフォルト値より大きいかどうかが更に判定される。例えば、2倍ピッチエラーが連続的に発生した回数が、第12のデフォルト値c2より大きいかどうかが、現在のフレームの前の10フレームについて判定される。第12のデフォルト値c2がフレーム全体に従って判定される場合、これは3に設定されてもよく、第12のデフォルト値c2がハーフフレームに従って判定される場合、これは6に設定されてもよい。
ステップ704:現在のフレームより前に2倍ピッチエラーが発生した回数が、第12のデフォルト値より大きい場合、2倍ピッチ周波数が、検出される必要があるファインピッチ周波数であると判定する。
2倍ピッチエラーが、周波数点2f’が存在するフレームの前のフレーム内で、及び周波数点2f’が存在するフレームの前の10フレーム内で発生した場合、2倍ピッチエラーが3回連続的に発生したとキャッシュ内に記録されており、従って、2倍ピッチエラーが発生したと判定される。実際のピッチ周波数は2f’の付近で発生し、2f’が、必要とされるファインピッチ周波数である。
倍数ピッチ周波数検出が完了した後、検出結果が、キャッシュ内の、前のフレームのマーク内に保存される。例えば、現在のフレーム内で2倍ピッチエラーが発生したと判定された場合、前のフレームのマーク内に、2倍ピッチエラーが発生したと記録され、かつ、これが連続的に発生した回数が記録され、これは次のフレームについてのデータ検出のために使用される。
実施形態3
ピッチ周期についての倍数ピッチ周波数検出の間、実施形態1及び実施形態2で説明したように、周波数点平均振幅と周波数点振幅との比率パラメータ値と、平均振幅パラメータ値とに従って判定を実行すること、及び、周波数点平均振幅と周波数点振幅との比率パラメータ値と、キャッシュデータとに従って判定を実行することという、2つの手法で、ファインピッチ周波数が判定されてもよい。実際には、判定の間、2つの判定手法の判定条件がOR論理に従って結合される。手法のうちの一方の判定条件が満たされた場合、周波数点は、必要とされるファインピッチ周波数であると判定されてもよい。
ピッチ周期についての倍数ピッチ周波数検出の間、実施形態1及び実施形態2で説明したように、周波数点平均振幅と周波数点振幅との比率パラメータ値と、平均振幅パラメータ値とに従って判定を実行すること、及び、周波数点平均振幅と周波数点振幅との比率パラメータ値と、キャッシュデータとに従って判定を実行することという、2つの手法で、ファインピッチ周波数が判定されてもよい。実際には、判定の間、2つの判定手法の判定条件がOR論理に従って結合される。手法のうちの一方の判定条件が満たされた場合、周波数点は、必要とされるファインピッチ周波数であると判定されてもよい。
例えば、3倍ピッチエラーの判定の間、周波数点平均振幅と周波数点振幅との比率パラメータ値と、平均振幅パラメータ値とに従って判定を実行することの、判定条件が満たされる限り、3倍ピッチ周波数が、必要とされるファインピッチ周波数であると判定されてもよく、又は、平均振幅と周波数点振幅との比率パラメータ値と、キャッシュ内に記憶された、現在のフレームより前の倍数ピッチ周波数の判定結果とに従って判定を実行することの、判定条件が満たされる限り、やはり、3倍ピッチ周波数が、必要とされるファインピッチ周波数であると判定されてもよい。
実施形態4
倍数ピッチ周波数検出をより高精度にするために、周波数領域における高密度振幅スペクトルが取得される必要がある。例えば、256の周波数点が、元の振幅スペクトル内に存在し、振幅スペクトルの高密度振幅スペクトルが、周波数点の間に周波数点を挿入することによって取得されてもよい。
倍数ピッチ周波数検出をより高精度にするために、周波数領域における高密度振幅スペクトルが取得される必要がある。例えば、256の周波数点が、元の振幅スペクトル内に存在し、振幅スペクトルの高密度振幅スペクトルが、周波数点の間に周波数点を挿入することによって取得されてもよい。
ステップ303の後、取得された振幅スペクトルに従って、補間が実行される。図8に示すように、このステップは以下を含む。
ステップ800:周波数スペクトルの振幅スペクトルに対して補間を実行して、スピーチ信号の高密度振幅スペクトルを取得する。
補間アルゴリズムに従って、周波数領域における既存の周波数点の間で補間が実行される。本発明では、キュービックBスプライン補間が採用され、すなわち、元のK個の周波数点に基づいて、周波数点はmK個の周波数点に拡張され、ここで、mは正の整数である。キュービックBスプライン補間は、境界においていくらかの偏差を有する。エラーを減らすために、補間が実行される前に、いくつかの疑似データが、データの2つの端において手動で拡張され、すなわち、振幅スペクトルに対してL点の拡張が実行され、これにより、境界条件は、実際のデータの補間の精度に影響を及ぼさなくなる。拡張される値は、周波数スペクトルの2つの端における値と等しく、拡張される振幅スペクトルは、
である。
c(k)は、キュービックBスプライン補間の係数であり、c−(k)=c(k)/6と定義され、所与のK次元の入力ベクトルy={y(0),...,y(K−1)}に対して、c−(k)は、以下の2つの式の回帰方程式
c+(k)=y(k)+ac+(k−1) k=1,2,3,...,K−1(これは因果フィルタと同等である)、及び
c−(k)=a(c−(k+1)−c+(k)) k=K−2,K−3,K−4,...,0(これは反因果フィルタと同等である)
を介して取得されてもよく、上式で、a=√3−2であり、2つの回帰方程式の初期値c+(0)及びc−(K−1)は、それぞれ、
及び、
c−(K−1)=(a/(1−a2))(c+(k−1)+ac+(k−2))
であり、上式で、k0>logλ/log|a|であり、λは、精度要求を満たすために設定される定数である。最後に、キュービックBスプライン補間の解かれた係数c(k)は、式c+(k)=y(k)+ac+(k−1) k=1,2,3,...,K−1内に代入され、補間されるシーケンスが取得されることが可能であり、補間された振幅スペクトルは、S’(i),i=0,1,2,...,mK−1である。
c+(k)=y(k)+ac+(k−1) k=1,2,3,...,K−1(これは因果フィルタと同等である)、及び
c−(k)=a(c−(k+1)−c+(k)) k=K−2,K−3,K−4,...,0(これは反因果フィルタと同等である)
を介して取得されてもよく、上式で、a=√3−2であり、2つの回帰方程式の初期値c+(0)及びc−(K−1)は、それぞれ、
c−(K−1)=(a/(1−a2))(c+(k−1)+ac+(k−2))
であり、上式で、k0>logλ/log|a|であり、λは、精度要求を満たすために設定される定数である。最後に、キュービックBスプライン補間の解かれた係数c(k)は、式c+(k)=y(k)+ac+(k−1) k=1,2,3,...,K−1内に代入され、補間されるシーケンスが取得されることが可能であり、補間された振幅スペクトルは、S’(i),i=0,1,2,...,mK−1である。
ステップ801:現在のフレームと前のフレームとに従って、高密度振幅スペクトルに対して重み付け処理を実行して、高密度スペクトルを平滑化する。
補間が完了した後、高密度振幅スペクトルに対して平滑化処理が実行されて、高密度振幅スペクトルの不連続性が減少させられ、平滑化された高密度周波数スペクトルの関数は、
であり、上式で、S’[−1](i)は、前のフレームの高密度周波数スペクトルであり、S〜(i)内でS’[−1](i)及びS’[0](i)が占める割合は、β(例えば、0.4に設定されてもよい)を介して設定される。
であり、上式で、S’[−1](i)は、前のフレームの高密度周波数スペクトルであり、S〜(i)内でS’[−1](i)及びS’[0](i)が占める割合は、β(例えば、0.4に設定されてもよい)を介して設定される。
S〜(i)は、必要とされる高密度振幅スペクトルであり、高密度振幅スペクトルに従って、ファインピッチ周波数についての検出が実行される。
平滑化された高密度振幅スペクトルが取得された後、ファインピッチ周期についての検出が実行される。検出の間、周波数点の数が増加しているため、平均振幅Sv(k)の精度が向上し、周波数点振幅のジャンプによって発生する、検出への影響が減少する。検出ステップは、実施形態1及び実施形態2におけるものと同じであり、これらが繰り返される。
実施形態5
振幅スペクトルに対するキュービックBスプライン補間に加えて、時間領域におけるスピーチ信号に対するゼロパディング補間も実行されてもよい。図9に示すように、以下が含まれる。
振幅スペクトルに対するキュービックBスプライン補間に加えて、時間領域におけるスピーチ信号に対するゼロパディング補間も実行されてもよい。図9に示すように、以下が含まれる。
ステップ900:スピーチ信号のテールに対してゼロパディング補間が実行された後、スピーチ信号を周波数領域に変換して、スピーチ信号の高密度振幅スペクトルを取得する。
スピーチ信号のテールにおいて、振幅値が0である点がパディングされ、ゼロパディングされたスピーチ信号は、周波数領域に変換される。時間周波数変換を介して、元のスピーチ信号内の周波数点と、スピーチ信号のテールにおける、振幅値がゼロパディングされた点とが、周波数領域に変換される、すなわち、元の周波数領域における振幅スペクトルの周波数点の間に、周波数点が挿入されてもよい。
時間領域から周波数領域への変換の間、振幅スペクトルにおける元の周波数点の振幅値は、ゼロパディング点によって影響を及ぼされない、すなわち、振幅スペクトルにおいて、元の周波数点、及び周波数点に対応する振幅値は維持され、これにより、周波数領域における、時間領域信号に対応する高密度振幅スペクトルが取得される。
ステップ901:現在のフレームと前のフレームとに従って、高密度振幅スペクトルに対して重み付け処理を実行して、高密度振幅スペクトルを平滑化する。
時間周波数変換が完了して、必要とされる高密度振幅スペクトルが取得された後、高密度振幅スペクトルのジャンプを減少させるために、平滑化処理がそれに対して実行され、平滑化された高密度振幅スペクトルの関数は、
であり、上式で、S’[−1](i)は、前のフレームの高密度振幅スペクトルであり、S〜(i)内でS’[−1](i)及びS’[0](i)が占める割合は、β(例えば、0.4に設定されてもよい)を介して設定される。
S〜(i)は、必要とされる高密度振幅スペクトルであり、高密度振幅スペクトルに従って、ファインピッチ周波数についての検出が実行される。
平滑化された高密度振幅スペクトルが取得された後、ファインピッチ周期についての検出が実行される。検出プロセスの間、周波数点の数が増加しているため、平均振幅Sv(k)の精度が向上し、周波数点振幅のジャンプによって発生する、検出への影響が減少する。検出ステップは、実施形態1及び実施形態2におけるものと同じであり、これらについてはもはや繰り返さない。
実施形態6
高密度振幅スペクトルに対して倍数ピッチ周波数検出が実行される場合、取得されるファインピッチ周波数は、初期ピッチ周波数の倍数であり、探索範囲は、基本周波数、2倍ピッチ周波数、及び3倍ピッチ周波数の位置においてのみであり、検出は、全周波数領域については実行されず、これは十分に高精度ではない。より高い精度を有するファインピッチ周期を取得するために、スピーチ信号の高密度振幅スペクトルが取得された後、振幅ピーク探索が、高密度振幅スペクトルに対して更に実行されてもよく、そして、ファインピッチ周期は、対応する特徴パラメータに従って決定されてもよい。
高密度振幅スペクトルに対して倍数ピッチ周波数検出が実行される場合、取得されるファインピッチ周波数は、初期ピッチ周波数の倍数であり、探索範囲は、基本周波数、2倍ピッチ周波数、及び3倍ピッチ周波数の位置においてのみであり、検出は、全周波数領域については実行されず、これは十分に高精度ではない。より高い精度を有するファインピッチ周期を取得するために、スピーチ信号の高密度振幅スペクトルが取得された後、振幅ピーク探索が、高密度振幅スペクトルに対して更に実行されてもよく、そして、ファインピッチ周期は、対応する特徴パラメータに従って決定されてもよい。
初期ピッチ周期と特徴パラメータとに従って、ファインピッチ周期の検出を実行して、ファインピッチ周期を取得することは、図10に示すように、以下を更に含む。
ステップ1000:高密度振幅スペクトルにおいて、基本周波数点及び倍数ピッチ周波数点の付近の一定範囲内で振幅値を比較し、基本周波数点及び倍数ピッチ周波数点の付近の一定範囲内でのピーク位置を判定する。
周波数スペクトルの振幅スペクトルに対して補間が実行された後、高密度振幅スペクトルが取得される。高密度振幅スペクトルにおいて、基本周波数点及び倍数ピッチ周波数点の付近の一定範囲内で(例えば、基本周波数点f’を中心とする2f’−1の範囲内で)、振幅値のピーク探索が実行されて、基本周波数点及び倍数ピッチ周波数点の付近の一定範囲内でのピーク位置が判定され、ここで、基本周波数点及び各倍数ピッチ周波数点は、それぞれ1つのピーク位置に対応する。加えて、基本周波数点及び倍数ピッチ周波数点に対応する、振幅のピークが取得されてもよい。
ステップ1001:基本周波数点及び倍数ピッチ周波数点のうち、周波数点の、平均振幅と周波数点振幅との比率パラメータ値の、他の周波数点のそれぞれの、平均振幅と周波数点振幅との比率パラメータ値に対する比率が、第13のデフォルト値より大きい周波数点が存在するかどうかを判定し、この周波数点は、ターゲット周波数点と呼ばれる。
基本周波数点及び倍数ピッチ周波数点の、平均振幅と周波数点振幅との比率パラメータ値に従って、比較が実行され、周波数点の、平均振幅と周波数点振幅との比率パラメータ値の、全ての他の周波数点のそれぞれの、平均振幅と周波数点振幅との比率パラメータ値に対する比率が、第13のデフォルト値δより大きいかどうかが判定され、第13のデフォルト値δは、経験に従って、例えば1.22に設定されてもよい。
ステップ1002:基本周波数点及び倍数ピッチ周波数点のうち、周波数点の、平均振幅と周波数点振幅との比率パラメータ値の、他の周波数点のそれぞれの、平均振幅と周波数点振幅との比率パラメータ値に対する比率が、第13のデフォルト値より大きい周波数点が存在する場合、ターゲット周波数点から、ターゲット周波数点に対応するピーク位置までの距離が、他の周波数点から、他の周波数点に対応するピーク位置までの距離より小さいかどうかを判定する。
基本周波数点及び倍数ピッチ周波数点のうち、周波数点の、平均振幅と周波数点振幅との比率パラメータ値の、他の周波数点のそれぞれの、平均振幅と周波数点振幅との比率パラメータ値に対する比率が、第13のデフォルト値δより大きい周波数点が存在する場合、ターゲット周波数点から、ターゲット周波数点に対応するピーク位置までの距離が、他の周波数点から、他の周波数点に対応するピーク位置までの距離より小さいかどうかが判定される、すなわち、ターゲット周波数点から、ターゲット周波数点に対応するピーク位置までの距離が、全ての周波数点から、全ての周波数点に対応するピーク位置までの距離のうち、最小であるかどうかが判定される。
ステップ1003:ターゲット周波数点から、ターゲット周波数点に対応するピーク位置までの距離が、他の周波数点から、他の周波数点に対応するピーク位置までの距離より小さい場合、ターゲット周波数点に対応する周期がファインピッチ周期であると判定する。
上記の2つの条件が満たされた場合、ターゲット周波数点が、必要とされるファインピッチ周波数であると判定されてもよい。ファインピッチ周波数に対して逆数演算が実行されて、ファインピッチ周期が取得される。
実施形態7
実施形態1、実施形態2、及び実施形態6で説明したように、高密度振幅スペクトルに対して倍数ピッチ周波数検出が実行される場合、判定されるファインピッチ周波数は、基本周波数又は倍数ピッチ周波数点であり、精度は比較的低い。より高い精度を有するファインピッチ周期が必要とされる場合、実施形態1、実施形態2、及び実施形態6で検出された周波数点に従って、更なる探索が実行されてもよい。
実施形態1、実施形態2、及び実施形態6で説明したように、高密度振幅スペクトルに対して倍数ピッチ周波数検出が実行される場合、判定されるファインピッチ周波数は、基本周波数又は倍数ピッチ周波数点であり、精度は比較的低い。より高い精度を有するファインピッチ周期が必要とされる場合、実施形態1、実施形態2、及び実施形態6で検出された周波数点に従って、更なる探索が実行されてもよい。
倍数ピッチエラーの検出ステップは、実施形態1、実施形態2、及び実施形態6におけるものと同じであり、これらが繰り返される。
検出が完了した後、係数が整数倍である倍数ピッチ周波数点(例えば、3倍ピッチ周波数点3f’)が判定される。高密度周波数スペクトルに対して、3倍ピッチ周波数点3f’を中心とする一定範囲(例えば、2倍ピッチ周波数点2f’と4倍ピッチ周波数点4f’との間の2f’−2)内で、ピーク探索を実行するように設定される。判定される倍数ピッチ周波数点の係数が、分数倍の半ピッチ周波数点f’/2である場合、ピーク探索範囲が、f’/2を中心とする2k−2(kは探索される周波数点の周波数)の範囲内のピークであるように設定されてもよく、最後に、ピーク位置がファインピッチ周波数であると判定されてもよい。ファインピッチ周波数に対して逆数演算が実行され、必要とされるファインピッチ周期が決定されてもよい。
範囲内の、取得されたピークに対応する周波数点が、必要とされるファインピッチ周波数である。
上記のピッチ検出方法に対応して、本発明は、ピッチ検出装置を更に提供する。
ピッチ検出装置は、図11に示すように、
時間領域においてスピーチ信号に対してピッチ検出を実行して、初期ピッチ周期を取得するように構成された、初期ピッチ周期取得モジュールと、
スピーチ信号を周波数領域に変換して、スピーチ信号の周波数スペクトルを取得するように構成された、時間周波数変換モジュールと(ここで、周波数スペクトルは周波数スペクトルの振幅スペクトルを含み)、
初期ピッチ周期とスピーチ信号の周波数スペクトルとに従って、特徴パラメータを抽出するように構成された、特徴パラメータ抽出モジュールと、
初期ピッチ周期と特徴パラメータとに従って、ファインピッチ周期検出を実行して、ファインピッチ周期を取得するように構成された、ファインピッチ周期取得モジュールとを含む。
時間領域においてスピーチ信号に対してピッチ検出を実行して、初期ピッチ周期を取得するように構成された、初期ピッチ周期取得モジュールと、
スピーチ信号を周波数領域に変換して、スピーチ信号の周波数スペクトルを取得するように構成された、時間周波数変換モジュールと(ここで、周波数スペクトルは周波数スペクトルの振幅スペクトルを含み)、
初期ピッチ周期とスピーチ信号の周波数スペクトルとに従って、特徴パラメータを抽出するように構成された、特徴パラメータ抽出モジュールと、
初期ピッチ周期と特徴パラメータとに従って、ファインピッチ周期検出を実行して、ファインピッチ周期を取得するように構成された、ファインピッチ周期取得モジュールとを含む。
特徴パラメータは、平均振幅パラメータ、平均振幅と周波数点振幅との比率パラメータ、及びピーク位置パラメータを含む。
ファインピッチ周期取得モジュールは、
基本周波数点及び倍数ピッチ周波数点の特徴パラメータを比較し、ファインピッチ周波数を判定するように構成された、倍数ピッチ周波数検出モジュールを更に含む。
基本周波数点及び倍数ピッチ周波数点の特徴パラメータを比較し、ファインピッチ周波数を判定するように構成された、倍数ピッチ周波数検出モジュールを更に含む。
倍数ピッチ周波数検出モジュールは、
ファインピッチ周波数の付近の一定範囲内で振幅ピークを探索し、ピークに対応する周波数点に対して逆数演算を実行して、ファインピッチ周期を取得するように構成された、ピーク探索モジュールを更に含む。
ファインピッチ周波数の付近の一定範囲内で振幅ピークを探索し、ピークに対応する周波数点に対して逆数演算を実行して、ファインピッチ周期を取得するように構成された、ピーク探索モジュールを更に含む。
ピッチ検出装置は、
スピーチ信号に対して前処理を実行するように構成された、前処理モジュールと、
前処理されたフレーム信号に解析ウィンドウを適用するように構成された、ウィンドウ処理モジュールとを更に含む。
スピーチ信号に対して前処理を実行するように構成された、前処理モジュールと、
前処理されたフレーム信号に解析ウィンドウを適用するように構成された、ウィンドウ処理モジュールとを更に含む。
時間周波数変換モジュールは、図12に示すように、
解析ウィンドウが適用されたスピーチ信号に対して、周波数領域変換を実行して、周波数スペクトル係数を取得するように構成された、周波数スペクトル係数取得モジュールと、
周波数スペクトル係数に従って、エネルギースペクトルを計算するように構成された、エネルギースペクトル取得モジュールとを更に含む。
解析ウィンドウが適用されたスピーチ信号に対して、周波数領域変換を実行して、周波数スペクトル係数を取得するように構成された、周波数スペクトル係数取得モジュールと、
周波数スペクトル係数に従って、エネルギースペクトルを計算するように構成された、エネルギースペクトル取得モジュールとを更に含む。
ピッチ検出装置は、
現在のフレームと前のフレームとに従って、エネルギースペクトルに対して重み付け処理を実行して、エネルギースペクトルを平滑化するように構成された、エネルギースペクトル平滑化モジュールを更に含む。
現在のフレームと前のフレームとに従って、エネルギースペクトルに対して重み付け処理を実行して、エネルギースペクトルを平滑化するように構成された、エネルギースペクトル平滑化モジュールを更に含む。
ピッチ検出装置は、
エネルギースペクトルに従って、周波数スペクトルの振幅スペクトルを計算するように構成された、振幅スペクトル取得モジュールを更に含む。
エネルギースペクトルに従って、周波数スペクトルの振幅スペクトルを計算するように構成された、振幅スペクトル取得モジュールを更に含む。
ピッチ検出装置は、
周波数スペクトルの振幅スペクトルに対して補間を実行して、スピーチ信号の高密度振幅スペクトルを取得するように構成された、振幅スペクトル補間モジュールを更に含む。
周波数スペクトルの振幅スペクトルに対して補間を実行して、スピーチ信号の高密度振幅スペクトルを取得するように構成された、振幅スペクトル補間モジュールを更に含む。
時間周波数変換モジュールは、図13に示すように、
スピーチ信号のテールに対してゼロパディング補間が実行された後、スピーチ信号を周波数領域に変換して、スピーチ信号の高密度振幅スペクトルを取得するように構成された、スピーチ信号補間モジュールを更に含む。
スピーチ信号のテールに対してゼロパディング補間が実行された後、スピーチ信号を周波数領域に変換して、スピーチ信号の高密度振幅スペクトルを取得するように構成された、スピーチ信号補間モジュールを更に含む。
ピッチ検出装置は、
現在のフレームと前のフレームとに従って、高密度振幅スペクトルに対して重み付け処理を実行して、高密度振幅スペクトルを平滑化するように構成された、高密度振幅スペクトル平滑化モジュールを更に含む。
現在のフレームと前のフレームとに従って、高密度振幅スペクトルに対して重み付け処理を実行して、高密度振幅スペクトルを平滑化するように構成された、高密度振幅スペクトル平滑化モジュールを更に含む。
本発明の実施形態で提供されるピッチ検出方法及び装置では、時間領域において取得された初期ピッチ周期と、周波数領域において抽出された特徴パラメータとに従って、ピッチ周期についての検出を実行することによって、倍数ピッチエラーの発生が回避され、ピッチ周期検出の精度が向上する。
前述の説明は、本発明の特定の実施形態にすぎず、本発明の保護範囲を限定することを意図するものではない。当業者によって、本発明において開示された技術的範囲内で容易に考え出されるいかなる変形又は置換も、本発明の保護範囲内に入る。従って、本発明の保護範囲は、特許請求の範囲の保護範囲によって決まる。
Claims (29)
- 時間領域においてスピーチ信号に対してピッチ検出を実行して、初期ピッチ周期を取得し、
前記スピーチ信号を周波数領域に変換して、前記スピーチ信号の、振幅スペクトルを含む周波数スペクトルを取得し、
前記初期ピッチ周期と前記スピーチ信号の前記周波数スペクトルとに従って、特徴パラメータを抽出し、
前記初期ピッチ周期と前記特徴パラメータとに従って、ファインピッチ周期検出を実行して、ファインピッチ周期を取得すること
を含む、ピッチ検出方法。 - 前記特徴パラメータは、平均振幅パラメータ、平均振幅と周波数点振幅との比率パラメータ、及びピーク位置パラメータを含む、請求項1に記載のピッチ検出方法。
- 前記初期ピッチ周期と前記特徴パラメータとに従って、ファインピッチ周期検出を実行して、ファインピッチ周期を取得することは、平均振幅と周波数点振幅との比率パラメータ値と、平均振幅パラメータ値とに従って、判定を実行すること、又は、平均振幅と周波数点振幅との比率パラメータ値と、キャッシュ内に記憶された、現在のフレームより前の倍数ピッチ周波数の判定結果とに従って、判定を実行することを更に含む、請求項1に記載のピッチ検出方法。
- 平均振幅と周波数点振幅との比率パラメータ値と、平均振幅パラメータ値とに従って、判定を実行することは、
基本周波数点平均振幅と前記周波数点振幅との比率パラメータ値の、3倍ピッチ周波数点平均振幅と前記周波数点振幅との比率パラメータ値に対する比率が、第1のデフォルト値より大きいかどうかを判定し、
前記基本周波数点平均振幅と前記周波数点振幅との前記比率パラメータ値の、前記3倍ピッチ周波数点平均振幅と前記周波数点振幅との前記比率パラメータ値に対する前記比率が、前記第1のデフォルト値より大きい場合、2倍ピッチ周波数点平均振幅と前記周波数点振幅との比率パラメータ値の、前記3倍ピッチ周波数点平均振幅と前記周波数点振幅との前記比率パラメータ値に対する比率が、第2のデフォルト値より大きいかどうかを判定し、
前記2倍ピッチ周波数点平均振幅と前記周波数点振幅との前記比率パラメータ値の、前記3倍ピッチ周波数点平均振幅と前記周波数点振幅との前記比率パラメータ値に対する前記比率が、前記第2のデフォルト値より大きい場合、前記3倍ピッチ周波数点平均振幅のパラメータ値と、前記基本周波数点平均振幅のパラメータ値との間の差が、第3のデフォルト値より大きいかどうかを判定し、
前記3倍ピッチ周波数点平均振幅の前記パラメータ値と、前記基本周波数点平均振幅の前記パラメータ値との間の前記差が、前記第3のデフォルト値より大きい場合、3倍ピッチ周波数が、必要とされるファインピッチ周波数であると判定すること
を含む、請求項3に記載のピッチ検出方法。 - 平均振幅と周波数点振幅との比率パラメータ値と、キャッシュ内に記憶された、現在のフレームより前の倍数ピッチ周波数の判定結果とに従って、判定を実行することは、
基本周波数点平均振幅と前記周波数点振幅との比率パラメータ値の、3倍ピッチ周波数点平均振幅と前記周波数点振幅との比率パラメータ値に対する比率が、第4のデフォルト値より大きいかどうかを判定し、
前記基本周波数点平均振幅と前記周波数点振幅との前記比率パラメータ値の、前記3倍ピッチ周波数点平均振幅と前記周波数点振幅との前記比率パラメータ値に対する前記比率が、前記第4のデフォルト値より大きい場合、2倍ピッチ周波数点平均振幅と前記周波数点振幅との比率パラメータ値の、前記3倍ピッチ周波数点平均振幅と前記周波数点振幅との前記比率パラメータ値に対する比率が、第5のデフォルト値より大きいかどうかを判定し、
前記2倍ピッチ周波数点平均振幅と前記周波数点振幅との前記比率パラメータ値の、前記3倍ピッチ周波数点平均振幅と前記周波数点振幅との前記比率パラメータ値に対する前記比率が、前記第5のデフォルト値より大きい場合、3倍ピッチエラーが前のフレーム内で発生したかどうかを判定し、
前記3倍ピッチエラーが前記前のフレーム内で発生した場合、前記現在のフレームより前に前記3倍ピッチエラーが発生した回数が、第6のデフォルト値より大きいかどうかを判定し、
前記現在のフレームより前に前記3倍ピッチエラーが発生した前記回数が、前記第6のデフォルト値より大きい場合、3倍ピッチ周波数が、必要とされるファインピッチ周期であると判定すること
を含む、請求項3に記載のピッチ検出方法。 - 平均振幅と周波数点振幅との比率パラメータ値と、平均振幅パラメータ値とに従って、判定を実行することは、
基本周波数点平均振幅と前記周波数点振幅との比率パラメータ値の、2倍ピッチ周波数点平均振幅と前記周波数点振幅との比率パラメータ値に対する比率が、第7のデフォルト値より大きいかどうかを判定し、
前記基本周波数点平均振幅と前記周波数点振幅との前記比率パラメータ値の、前記2倍ピッチ周波数点平均振幅と前記周波数点振幅との前記比率パラメータ値に対する前記比率が、前記第7のデフォルト値より大きい場合、3倍ピッチ周波数点平均振幅と前記周波数点振幅との比率パラメータ値の、前記2倍ピッチ周波数点平均振幅と前記周波数点振幅との前記比率パラメータ値に対する比率が、第8のデフォルト値より大きいかどうかを判定し、
前記3倍ピッチ周波数点平均振幅と前記周波数点振幅との前記比率パラメータ値の、前記2倍ピッチ周波数点平均振幅と前記周波数点振幅との前記比率パラメータ値に対する前記比率が、前記第8のデフォルト値より大きい場合、前記2倍ピッチ周波数点平均振幅のパラメータ値と、前記基本周波数点平均振幅のパラメータ値との間の差が、第9のデフォルト値より大きいかどうかを判定し、
前記2倍ピッチ周波数点平均振幅の前記パラメータ値と、前記基本周波数点平均振幅の前記パラメータ値との間の前記差が、前記第9のデフォルト値より大きい場合、2倍ピッチ周波数が、必要とされるファインピッチ周波数であると判定すること
を更に含む、請求項3に記載のピッチ検出方法。 - 平均振幅と周波数点振幅との比率パラメータ値と、キャッシュ内に記憶された、現在のフレームより前の倍数ピッチ周波数の判定結果とに従って、判定を実行することは、
基本周波数点平均振幅と前記周波数点振幅との比率パラメータ値の、2倍ピッチ周波数点平均振幅と前記周波数点振幅との比率パラメータ値に対する比率が、第10のデフォルト値より大きいかどうかを判定し、
前記基本周波数点平均振幅と前記周波数点振幅との前記比率パラメータ値の、前記2倍ピッチ周波数点平均振幅と前記周波数点振幅との前記比率パラメータ値に対する前記比率が、前記第10のデフォルト値より大きい場合、3倍ピッチ周波数点平均振幅と前記周波数点振幅との比率パラメータ値の、前記2倍ピッチ周波数点平均振幅と前記周波数点振幅との前記比率パラメータ値に対する比率が、第11のデフォルト値より大きいかどうかを判定し、
前記3倍ピッチ周波数点平均振幅と前記周波数点振幅との前記比率パラメータ値の、前記2倍ピッチ周波数点平均振幅と前記周波数点振幅との前記比率パラメータ値に対する前記比率が、前記第11のデフォルト値より大きい場合、2倍ピッチエラーが前のフレーム内で発生したかどうかを判定し、
前記2倍ピッチエラーが前記前のフレーム内で発生した場合、前記現在のフレームより前に前記2倍ピッチエラーが発生した回数が、第12のデフォルト値より大きいかどうかを判定し、
前記現在のフレームより前に前記2倍ピッチエラーが発生した前記回数が、前記第12のデフォルト値より大きい場合、2倍ピッチ周波数が、検出される必要があるファインピッチ周波数であると判定すること
を更に含む、請求項3に記載のピッチ検出方法。 - 前記初期ピッチ周期と前記スピーチ信号の前記周波数スペクトルとに従って、特徴パラメータを抽出することの前に、前記方法は、
前記周波数スペクトルの前記振幅スペクトルに対して補間を実行して、前記スピーチ信号の高密度振幅スペクトルを取得すること
を含む、請求項1に記載のピッチ検出方法。 - 前記キュービックBスプライン補間の前に、前記方法は、
前記振幅スペクトルの前部及び後部端点のそれぞれにおいて、L個の拡張点を挿入すること
を更に含み、ここで、前記拡張点の値は、前記前部及び後部端点の値にそれぞれ等しい、請求項9に記載のピッチ検出方法。 - 前記スピーチ信号を周波数領域に変換して、前記スピーチ信号の、振幅スペクトルを含む周波数スペクトルを取得することは、
前記スピーチ信号のテールに対してゼロパディングが実行された後、前記スピーチ信号を前記周波数領域に変換して、前記スピーチ信号の高密度振幅スペクトルを取得すること
を更に含む、請求項1に記載のピッチ検出方法。 - 前記スピーチ信号の前記高密度振幅スペクトルが取得された後に、前記方法は、
現在のフレームと前のフレームとに従って、前記高密度振幅スペクトルに対して重み付け処理を実行して、前記高密度振幅スペクトルを平滑化すること
を含む、請求項8又は11に記載のピッチ検出方法。 - 前記初期ピッチ周期と前記特徴パラメータとに従って、ファインピッチ周期検出を実行して、ファインピッチ周期を取得することは、
高密度振幅スペクトルにおいて、基本周波数点及び倍数ピッチ周波数点の付近の一定範囲内で振幅値を比較し、前記基本周波数点及び前記倍数ピッチ周波数点の付近の前記一定範囲内で、ピーク位置を判定し、
前記基本周波数点及び前記倍数ピッチ周波数点のうち、周波数点の、平均振幅と周波数点振幅との比率パラメータ値の、他の周波数点のそれぞれの、平均振幅と周波数点振幅との比率パラメータ値に対する比率が、第13のデフォルト値より大きい前記周波数点が存在するかどうかを判定し、ここで、前記周波数点は、ターゲット周波数点と呼ばれ、
前記基本周波数点及び前記倍数ピッチ周波数点のうち、周波数点の、前記平均振幅と周波数点振幅との前記比率パラメータ値の、前記他の周波数点のそれぞれの、前記平均振幅と周波数点振幅との前記比率パラメータ値に対する前記比率が、前記第13のデフォルト値より大きい前記周波数点が存在する場合、前記ターゲット周波数点から、前記ターゲット周波数点に対応するピーク位置までの距離が、前記他の周波数点から、前記他の周波数点に対応するピーク位置までの距離より小さいかどうかを判定し、
前記ターゲット周波数点から、前記ターゲット周波数点に対応する前記ピーク位置までの前記距離が、前記他の周波数点から、前記他の周波数点に対応する前記ピーク位置までの前記距離より小さい場合、前記ターゲット周波数点に対応する周期がファインピッチ周期であると判定すること
を更に含む、請求項12に記載のピッチ検出方法。 - 前記初期ピッチ周期と前記特徴パラメータとに従って、ファインピッチ周期検出を実行して、ファインピッチ周期を取得することは、
ファインピッチ周波数の付近の一定範囲内で振幅ピークを探索し、前記ピークに対応する周波数点に対して逆数演算を実行して、前記ファインピッチ周期を取得すること
を更に含む、請求項1に記載のピッチ検出方法。 - 前記スピーチ信号を周波数領域に変換して、前記スピーチ信号の周波数スペクトルを取得することの前に、
前記スピーチ信号に対して前処理を実行し、
前処理されたフレーム信号に解析ウィンドウを適用すること
を含む、請求項1に記載のピッチ検出方法。 - 前記スピーチ信号を周波数領域に変換することは、
前記解析ウィンドウが適用された前記スピーチ信号に対して、周波数領域変換を実行して、周波数スペクトル係数を取得し、
前記周波数スペクトル係数に従って、エネルギースペクトルを計算すること
を含む、請求項15に記載のピッチ検出方法。 - 前記エネルギースペクトルに従って、振幅スペクトルを計算することの前に、前記方法は、
現在のフレームと前のフレームとに従って、前記エネルギースペクトルに対して重み付け処理を実行して、前記エネルギースペクトルを平滑化すること
を含む、請求項16に記載のピッチ検出方法。 - 前記エネルギースペクトルに対して平滑化処理を実行して、平滑なエネルギースペクトルを取得した後に、前記方法は、
前記エネルギースペクトルに従って、前記周波数スペクトルの前記振幅スペクトル
S(k)=η+θlog10(√(ε+E(k)), k=0,...,K−1
を計算することを含み、上式で、S(k)は、前記振幅スペクトルの関数である、請求項17に記載のピッチ検出方法。 - 時間領域においてスピーチ信号に対してピッチ検出を実行して、初期ピッチ周期を取得するように構成された、初期ピッチ周期取得モジュールと、
前記スピーチ信号を周波数領域に変換して、前記スピーチ信号の、振幅スペクトルを含む周波数スペクトルを取得するように構成された、時間周波数変換モジュールと、
前記初期ピッチ周期と前記スピーチ信号の前記周波数スペクトルとに従って、特徴パラメータを抽出するように構成された、特徴パラメータ抽出モジュールと、
前記初期ピッチ周期と前記特徴パラメータとに従って、ファインピッチ周期検出を実行して、ファインピッチ周期を取得するように構成された、ファインピッチ周期取得モジュールと
を備える、ピッチ検出装置。 - 前記特徴パラメータは、平均振幅パラメータ、平均振幅と周波数点振幅との比率パラメータ、及びピーク位置パラメータを含む、請求項19に記載のピッチ検出装置。
- 前記ファインピッチ周期取得モジュールは、
基本周波数点及び倍数ピッチ周波数点の特徴パラメータを比較し、ファインピッチ周波数を判定し、前記ファインピッチ周波数に対して逆数演算を実行して、前記ファインピッチ周期を取得するように構成された、倍数ピッチ周波数検出モジュール
を更に備える、請求項19に記載のピッチ検出装置。 - 前記倍数ピッチ周波数検出モジュールは、
ファインピッチ周波数の付近の一定範囲内で振幅ピークを探索し、前記ピークに対応する周波数点に対して逆数演算を実行して、前記ファインピッチ周期を取得するように構成された、ピーク探索モジュール
を更に備える、請求項19に記載のピッチ検出装置。 - 前記スピーチ信号に対して前処理を実行するように構成された、前処理モジュールと、
前処理されたフレーム信号に解析ウィンドウを適用するように構成された、ウィンドウ処理モジュールと
を備える、請求項19に記載のピッチ検出装置。 - 前記時間周波数変換モジュールは、
解析ウィンドウが適用された前記スピーチ信号に対して、周波数領域変換を実行して、周波数スペクトル係数を取得するように構成された、周波数スペクトル係数取得モジュールと、
前記周波数スペクトル係数に従って、エネルギースペクトルを計算するように構成された、エネルギースペクトル取得モジュールと
を更に備える、請求項19に記載のピッチ検出装置。 - 現在のフレームと前のフレームとに従って、前記エネルギースペクトルに対して重み付け処理を実行して、前記エネルギースペクトルを平滑化するように構成された、エネルギースペクトル平滑化モジュール
を更に備える、請求項24に記載のピッチ検出装置。 - 前記エネルギースペクトルに従って、前記周波数スペクトルの前記振幅スペクトルを計算するように構成された、振幅スペクトル取得モジュール
を更に備える、請求項25に記載のピッチ検出装置。 - 前記周波数スペクトルの前記振幅スペクトルに対して補間を実行して、前記スピーチ信号の高密度振幅スペクトルを取得するように構成された、振幅スペクトル補間モジュール
を更に備える、請求項26に記載のピッチ検出装置。 - 前記時間周波数変換モジュールは、
前記スピーチ信号のテールに対してゼロパディング補間が実行された後、前記スピーチ信号を前記周波数領域に変換して、前記スピーチ信号の高密度振幅スペクトルを取得するように構成された、スピーチ信号補間モジュール
を更に備える、請求項19に記載のピッチ検出装置。 - 現在のフレームと前のフレームとに従って、前記高密度振幅スペクトルに対して重み付け処理を実行して、前記高密度振幅スペクトルを平滑化するように構成された、高密度振幅スペクトル平滑化モジュール
を更に備える、請求項27又は28に記載のピッチ検出装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110170075.0 | 2011-06-22 | ||
CN201110170075.0A CN102842305B (zh) | 2011-06-22 | 2011-06-22 | 一种基音检测的方法和装置 |
PCT/CN2012/077456 WO2012175054A1 (zh) | 2011-06-22 | 2012-06-25 | 一种基音检测的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014507689A true JP2014507689A (ja) | 2014-03-27 |
Family
ID=47369591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013556963A Pending JP2014507689A (ja) | 2011-06-22 | 2012-06-25 | ピッチ検出方法及び装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20140142931A1 (ja) |
EP (1) | EP2662854A1 (ja) |
JP (1) | JP2014507689A (ja) |
KR (1) | KR20130117855A (ja) |
CN (1) | CN102842305B (ja) |
WO (1) | WO2012175054A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017027076A (ja) * | 2012-05-18 | 2017-02-02 | ▲ホア▼▲ウェイ▼技術有限公司Huawei Technologies Co.,Ltd. | ピッチ周期の正確性を検出するための方法および装置 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103915099B (zh) * | 2012-12-29 | 2016-12-28 | 北京百度网讯科技有限公司 | 语音基音周期检测方法和装置 |
CN105338148B (zh) * | 2014-07-18 | 2018-11-06 | 华为技术有限公司 | 一种根据频域能量对音频信号进行检测的方法和装置 |
CN105448297A (zh) * | 2014-08-28 | 2016-03-30 | 中国移动通信集团公司 | 一种获取基音周期的方法及装置 |
CN104599682A (zh) * | 2015-01-13 | 2015-05-06 | 清华大学 | 电话线质量语音的基音周期提取方法 |
JP6904198B2 (ja) * | 2017-09-25 | 2021-07-14 | 富士通株式会社 | 音声処理プログラム、音声処理方法および音声処理装置 |
CN109243479B (zh) * | 2018-09-20 | 2022-06-28 | 广州酷狗计算机科技有限公司 | 音频信号处理方法、装置、电子设备及存储介质 |
CN110176242A (zh) * | 2019-07-10 | 2019-08-27 | 广州荔支网络技术有限公司 | 一种音色的识别方法、装置、计算机设备和存储介质 |
CN110379438B (zh) * | 2019-07-24 | 2020-05-12 | 山东省计算中心(国家超级计算济南中心) | 一种语音信号基频检测与提取方法及系统 |
CN110728990B (zh) * | 2019-09-24 | 2022-04-05 | 维沃移动通信有限公司 | 基音检测方法、装置、终端设备和介质 |
CN110853671B (zh) * | 2019-10-31 | 2022-05-06 | 普联技术有限公司 | 一种音频特征提取方法和装置、训练方法及音频分类方法 |
CN111223491B (zh) * | 2020-01-22 | 2022-11-15 | 深圳市倍轻松科技股份有限公司 | 一种提取音乐信号主旋律的方法、装置及终端设备 |
CN113096670B (zh) * | 2021-03-30 | 2024-05-14 | 北京字节跳动网络技术有限公司 | 音频数据的处理方法、装置、设备及存储介质 |
CN113113052B (zh) * | 2021-04-08 | 2024-04-05 | 深圳市品索科技有限公司 | 一种离散点的语音基音识别装置及计算机存储介质 |
CN114299994B (zh) * | 2022-01-04 | 2024-06-18 | 中南大学 | 激光多普勒远距离侦听语音的爆音检测方法、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60194499A (ja) * | 1984-02-22 | 1985-10-02 | エヌ・ベー・フイリツプス・フルーイランペンフアブリケン | 音声分析方式 |
JP2004325744A (ja) * | 2003-04-24 | 2004-11-18 | Kawai Musical Instr Mfg Co Ltd | 音程判定装置 |
JP2006523331A (ja) * | 2003-03-31 | 2006-10-12 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声信号に関する周波数領域および時間領域の複合ピッチ抽出のためのシステムおよび方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4696038A (en) * | 1983-04-13 | 1987-09-22 | Texas Instruments Incorporated | Voice messaging system with unified pitch and voice tracking |
CN1151490C (zh) * | 2000-09-13 | 2004-05-26 | 中国科学院自动化研究所 | 用于语音识别的高精度高分辨率基频提取方法 |
KR100590561B1 (ko) * | 2004-10-12 | 2006-06-19 | 삼성전자주식회사 | 신호의 피치를 평가하는 방법 및 장치 |
CN101325631B (zh) * | 2007-06-14 | 2010-10-20 | 华为技术有限公司 | 一种估计基音周期的方法和装置 |
CN102016530B (zh) * | 2009-02-13 | 2012-11-14 | 华为技术有限公司 | 一种基音周期检测方法和装置 |
-
2011
- 2011-06-22 CN CN201110170075.0A patent/CN102842305B/zh active Active
-
2012
- 2012-06-25 JP JP2013556963A patent/JP2014507689A/ja active Pending
- 2012-06-25 EP EP12802425.4A patent/EP2662854A1/en not_active Withdrawn
- 2012-06-25 KR KR1020137021767A patent/KR20130117855A/ko not_active Application Discontinuation
- 2012-06-25 WO PCT/CN2012/077456 patent/WO2012175054A1/zh active Application Filing
-
2013
- 2013-12-20 US US14/136,130 patent/US20140142931A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60194499A (ja) * | 1984-02-22 | 1985-10-02 | エヌ・ベー・フイリツプス・フルーイランペンフアブリケン | 音声分析方式 |
JP2006523331A (ja) * | 2003-03-31 | 2006-10-12 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声信号に関する周波数領域および時間領域の複合ピッチ抽出のためのシステムおよび方法 |
JP2004325744A (ja) * | 2003-04-24 | 2004-11-18 | Kawai Musical Instr Mfg Co Ltd | 音程判定装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017027076A (ja) * | 2012-05-18 | 2017-02-02 | ▲ホア▼▲ウェイ▼技術有限公司Huawei Technologies Co.,Ltd. | ピッチ周期の正確性を検出するための方法および装置 |
US10249315B2 (en) | 2012-05-18 | 2019-04-02 | Huawei Technologies Co., Ltd. | Method and apparatus for detecting correctness of pitch period |
US10984813B2 (en) | 2012-05-18 | 2021-04-20 | Huawei Technologies Co., Ltd. | Method and apparatus for detecting correctness of pitch period |
US11741980B2 (en) | 2012-05-18 | 2023-08-29 | Huawei Technologies Co., Ltd. | Method and apparatus for detecting correctness of pitch period |
Also Published As
Publication number | Publication date |
---|---|
CN102842305B (zh) | 2014-06-25 |
EP2662854A1 (en) | 2013-11-13 |
US20140142931A1 (en) | 2014-05-22 |
WO2012175054A1 (zh) | 2012-12-27 |
KR20130117855A (ko) | 2013-10-28 |
CN102842305A (zh) | 2012-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2014507689A (ja) | ピッチ検出方法及び装置 | |
TWI480855B (zh) | 聲音訊號之特徵指紋擷取與匹配 | |
EP2828856B1 (en) | Audio classification using harmonicity estimation | |
JP6272433B2 (ja) | ピッチ周期の正確性を検出するための方法および装置 | |
CN112399247B (zh) | 一种音频处理方法、音频处理设备及可读存储介质 | |
CN106788876B (zh) | 一种语音丢包补偿的方法及系统 | |
US9997168B2 (en) | Method and apparatus for signal extraction of audio signal | |
CN107293306A (zh) | 一种基于输出的客观语音质量的评估方法 | |
US20070011001A1 (en) | Apparatus for predicting the spectral information of voice signals and a method therefor | |
CN111260776A (zh) | 一种自适应正态分析的三维形貌重建方法 | |
Deng et al. | Selection of optimal wavelet basis for signal denoising | |
CN112201279B (zh) | 一种基音检测方法及装置 | |
Sun et al. | An adaptive speech endpoint detection method in low SNR environments | |
CN116484184A (zh) | 一种电力设备局部放电缺陷样本增强方法及装置 | |
CN116189700A (zh) | 一种通信系统啸叫检测方法和装置 | |
WO2003017250A1 (en) | 2-phase pitch detection method and appartus | |
Wang et al. | Audio fingerprint based on spectral flux for audio retrieval | |
US11004463B2 (en) | Speech processing method, apparatus, and non-transitory computer-readable storage medium for storing a computer program for pitch frequency detection based upon a learned value | |
Wang et al. | Parametric vector quantization for coding percussive sounds in music | |
CN116055004B (zh) | 基于同步挤压小波变换的通信信号码元速率盲估计方法 | |
CN110244291B (zh) | 基于无线电信号处理的测速方法及装置 | |
US11069373B2 (en) | Speech processing method, speech processing apparatus, and non-transitory computer-readable storage medium for storing speech processing computer program | |
CN114448443A (zh) | 一种cdn监控数据的压缩方法、装置和电子设备 | |
CN117459157A (zh) | 一种端到端的微弱卫星信号智能检测方法 | |
CN117727311A (zh) | 音频处理方法及装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130904 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130904 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140624 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20141118 |