JP2010156975A - ピッチ検索のための方法及び装置 - Google Patents

ピッチ検索のための方法及び装置 Download PDF

Info

Publication number
JP2010156975A
JP2010156975A JP2009298386A JP2009298386A JP2010156975A JP 2010156975 A JP2010156975 A JP 2010156975A JP 2009298386 A JP2009298386 A JP 2009298386A JP 2009298386 A JP2009298386 A JP 2009298386A JP 2010156975 A JP2010156975 A JP 2010156975A
Authority
JP
Japan
Prior art keywords
pitch
signal
value
target window
input audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009298386A
Other languages
English (en)
Other versions
JP5506032B2 (ja
Inventor
▲徳▼▲軍▼ ▲張▼
Dejun Zhang
▲剣▼峰 ▲許▼
Jianfeng Xu
Miao Lei
磊 苗
峰岩 ▲斉▼
Fengyan Qi
清 ▲張▼
Qing Zhang
Lixiong Li
立雄 李
付▲偉▼ ▲馬▼
Fuwei Ma
Yang Gao
▲揚▼ 高
Herve Marcel Taddei
エルヴェ・マルセル・タッディ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2010156975A publication Critical patent/JP2010156975A/ja
Application granted granted Critical
Publication of JP5506032B2 publication Critical patent/JP5506032B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Abstract

【課題】フレーム全体における入力音声信号の相関関数値を計算することなく、ピッチ検索を行うための方法及び装置を提供する。
【解決手段】1つの方法には、入力音声信号から長期予測(LTP)寄与信号を除去した結果である残差信号の特性関数値を得る段階と、残差信号の特性関数値に応じてピッチを得る段階と、が含まれる。ピッチ検索のための他の方法には、入力音声信号において最大振幅のパルスを検索する段階と、最大振幅のパルスの位置に応じて入力音声信号用の対象窓を設定する段階と、対象窓をスライドして引窓を得て、引窓及び対象窓における入力音声信号の相関係数を計算して相関係数の最大値を得る段階と、相関係数の最大値に応じてピッチを得る段階と、が含まれる。
【選択図】図1

Description

本出願は、2008年12月30日に出願した中国特許出願第200810247031.1に対する優先権を主張するものであり、その全体を本明細書に引用・参照する。
発明の分野
本発明は、音声符号化技術及び音声復号化技術の分野に関し、特に、ピッチ検索のための方法及び装置に関する。
一般的に、音声及びオーディオ信号は、ある程度周期的である。音声及びオーディオ信号における長期周期性は、長期予測(LTP)法により除去し得る。LTP予測の前に、まずピッチを検索する必要がある。ピッチ検索のための従来の方法は、自己相関関数に基づき実施する。MPEG_ALS(Moving_Pictures_Experts_Group_Audio_Lossless_Coding)装置では、バッファ内の履歴データを励振信号として用いて、現フレームの信号を予測する。開ループピッチ解析を例として、本方法について以下に述べる。
まず、元の音声信号を知覚的重み付けフィルタに入力して、重み付き音声信号S(n)を得る。知覚的重み付けフィルタ関数の式は、
Figure 2010156975
であり、上式において、
Figure 2010156975
であり、また、β1=0.68である。各サブフレームについて、サブフレーム長(L)は、64であり、重み付き音声信号S(n)の式は、
Figure 2010156975
である。上式において、s(n)は、元の音声信号であり、aは、LP係数であり、また、
Figure 2010156975
は、知覚的重み付け係数である。
四次有限インパルス応答(FIR)フィルタHdecim2(z)は、重み付き音声信号に2分の1のダウンサンプリングを実施して、Swd(n)を得る。重み付き相関関数は、
Figure 2010156975
である。
取得するピッチは、C(d)を最大にするピッチ遅延dである。上式において、w(d)は、重み付け関数であり、低遅延重み付け関数w(d)と、先行フレーム遅延重み付け関数w(d)と、を含み、式(3)のように示される。
Figure 2010156975
低遅延重み付け関数w(d)の式は、
Figure 2010156975
である。上式において、cw(d)は、プログラムのタブファイルに存在し、先行フレーム遅延重み付け関数w(d)は、先行フレームのピッチ遅延に依存する。先行フレーム遅延重み付け関数の式w(d)は、
Figure 2010156975
である。上式において、Toldは、初めの5フレームのピッチ遅延の平均であり、vは、適応係数である。開ループピッチ利得(g)が0.6より大きい場合、フレームを有声フレームと見なし、次フレームの「v」を1に設定する。そうでない場合、v=0.9vとする。開ループピッチ利得(g)の式は、
Figure 2010156975
である。
本ピッチ遅延は、C(d)を最大にするピッチ遅延である。中間値フィルタは、有声フレームにおいて更新する。先行フレームが無声又は無音音声を含む場合、重み付け関数は、パラメータ「v」によって減衰される。
上述したように、従来技術では、長期周期性を解決するために、フレームの入力音声信号に関して自己相関関数を計算してピッチを得る。
幾つかの本発明の実施形態は、フレーム全体における入力音声信号の相関関数値を計算することなく、ピッチ検索を行うための方法及び装置を提供する。
ピッチ検索のための方法には、
残差信号の特性関数値を得る段階であって、残差信号は、入力音声信号からLTP寄与信号を除去した結果である段階と、
残差信号の特性関数値に応じてピッチを得る段階と、が含まれる。
ピッチ検索のための他の方法には、
入力音声信号において最大振幅のパルスを検索する段階と、
最大振幅のパルスの位置に応じて入力音声信号用の対象窓を設定する段階と、
対象窓をスライドして引窓を得て、引窓及び対象窓における入力音声信号の相関係数を計算して相関係数の最大値を得る段階と、
相関係数の最大値に応じてピッチを得る段階と、が含まれる。
ピッチ検索のための装置には、
残差信号の特性関数値を得るように構成された特性値取得モジュールであって、残差信号は、入力音声信号からLTP寄与信号を除去した結果である上記特性値取得モジュールと、
残差信号の特性関数値に応じてピッチを得るように構成されたピッチ取得モジュールと、が含まれる。
ピッチ検索のための他の装置には、
入力音声信号において最大振幅のパルスを検索するように構成された検索モジュールと、
最大振幅のパルスの位置に応じて入力音声信号用の対象窓を設定するように構成された対象窓モジュールと、
計算モジュールであって、対象窓をスライドし引窓を得て、引窓及び対象窓における入力音声信号の相関係数を計算して相関係数の最大値を得るように構成された前記計算モジュールと、
相関係数の最大値に応じてピッチを得るように構成されたピッチ取得モジュールと、が含まれる。
本発明の実施形態におけるピッチ検索のための方法及び装置では、フレーム全体における入力音声信号の相関関数値を計算することなく、残差信号の特性関数値を得て、残差信号の特性関数値に応じてピッチを得る。
本発明の一実施形態によるピッチ検索の方法を示すフローチャート。 本発明の他の実施形態によるピッチ検索の方法を示すフローチャート。 本発明の更に他の実施形態によるピッチ検索の方法を示すフローチャート。 本発明の更に他の実施形態によるピッチ検索の方法を示すフローチャート。 本発明の更に他の実施形態によるピッチ検索の方法を示すフローチャート。 本発明の一実施形態によるピッチ検索のための装置を示す概略構造図。 本発明の他の実施形態によるピッチ検索のための装置を示す概略構造図。
以下、本発明について添付図面及び代表的実施形態を参照して詳細に述べる。
図1は、本発明の一実施形態によるピッチ検索のための方法を示すフローチャートである。本方法には、以下のステップが含まれる。
ステップ101:残差信号の特性関数値を得る。ここで、残差信号は、入力音声信号からLTP寄与信号を除去した結果である。
ステップ102:残差信号の特性関数値に応じてピッチを得る。
本実施形態による方法では、残差信号の特性関数値を得る。また、ピッチは、フレーム全体における入力音声信号の相関関数値を計算することなく、残差信号の特性関数値に応じて取得する。
図2は、本発明の他の実施形態によるピッチ検索のための方法を示すフローチャートである。本方法には、以下のステップが含まれる。
ステップ201:入力音声信号を前処理する。
この前処理は、低域通過フィルタ処理もしくはダウンサンプリングであってよく、又はダウンサンプリング処理を伴う低域通過フィルタ処理であってよい。一実施形態では、低域通過フィルタ処理は、平均値フィルタ処理であってよい。パルス符号変調(PCM)信号を例にとると、y(n)が、入力音声信号を表し、入力音声信号のフレーム長Lが、160である(即ち、1つのフレームは、160個のサンプルを含む)。y2(n)が、ダウンサンプリングされた入力音声信号を表し、以下、ダウンサンプリング信号と称する。本実施形態における2分の1のダウンサンプリングを例にとると、以下の式が成立する。
Figure 2010156975
上式において、Mは、平均値フィルタの次数であり、y2(n)のサンプル範囲は、[0,79]である。
このステップは、任意である。ステップ202実行前、前処理は省略してよい。
ステップ202:入力音声信号において最大振幅のパルスを検索する。
パルスは、フレーム全体又はフレームの設定範囲内で検索し得る。フレームの設定範囲でのパルスの検索を例として、そのプロセスについて以下に詳述する。
まず、入力音声信号y(n)の場合、そのピッチ範囲は、フレーム長に応じて予め設定する。ピッチ範囲は、フレーム長を基準として設定し、また、ピッチは、高過ぎてはならない。ピッチが高過ぎる場合、フレームの信号のサンプルは、LTP演算に殆ど関与せず、LTP性能が低下する。例えば、フレーム長Lが160に等しい場合、y(n)のピッチ範囲は、[20,83]に設定し得る。一実施形態では、2分の1のダウンサンプリングをステップ202で適用する。ダウンサンプリング信号y2(n)のピッチ範囲は、[10,41]、即ち、[PMIN,PMAX]であってよく、この場合、PMIN=10及びPMAX=41である。ピッチが最大である時に確実にそのピッチを見つけるためには、検索するパルスのサンプル範囲を[41,79]に設定し得る。
その後、サンプル範囲[41,79]内において、y2(n)における最大振幅のパルスを見つける。最大振幅のパルスに対応するサンプルをp0とすると(41<=p0<=79)、以下の不等式が成り立つ。
Figure 2010156975
本実施形態では、y2(n)の振幅は、実数であってよく、y2(n)の振幅値は、y2(n)の絶対値であって、負でない数である。
ステップ203:入力音声信号における最大振幅のパルスp0の位置に応じて対象窓を設定する。
具体的には、対象窓は、パルスp0周辺に付加し、信号の一部を選択すると、この対象窓が、パルスp0を網羅する。対象窓の範囲は、[smin,smax]であり、対象窓の長さは、len=smax−sminである。「len」の範囲は、[1,L]である。即ち、対象窓は、フレームの全信号を網羅し得る。
例えば、
Figure 2010156975
であり、上式において、dは、対象窓の長さを制限するために用いる。本実施形態では、d=15である。s_max(p0−d,41)は、p0−dと41との間で大きい方の値を取得することを意味する。s_max(p0+d,79)は、p0+dと79との間で小さい方の値を取得することを意味する。
ステップ204:予め設定したピッチ範囲の各ピッチに対応する入力音声信号(即ち、本実施形態では、ダウンサンプリング信号)の残差信号を計算する。残差信号は、入力音声信号からLTP寄与信号を除去した結果であるが、LTP寄与信号x(i)は、LTP励振信号及びピッチ利得により求める。
Figure 2010156975
上式において、kは、ピッチを表し、gは、ピッチ利得を表す。gは、固定の経験値、又は、予め設定したピッチ範囲のピッチに応じて適応して求める値であってよい。即ち、異なるピッチ(k)は、同じgを有し得る。他の選択肢として、ピッチkとピッチ利得gとの間のマッピングの表を予め設定してもよく、この場合、gは、kに伴って変動する。
ステップ205:各ピッチに対応する残差信号のエネルギを計算する。
Figure 2010156975
上式において、[k,k]は、ピッチ範囲を表す。一実施形態では、k=10、k=41であり、E(i)は、kに対応する残差信号のエネルギを表す。
ステップ206:計算した残差信号エネルギ値の中の最小値E(P)を選択する。E(P)は、範囲[k,k]内のピッチPに対応するダウンサンプリング信号y2(n)の最小残差信号エネルギである。
ステップ207:y(n)のピッチを得る。このピッチは、y2(n)がy(n)から2分の1のダウンサンプリングにより得られることから、2Pである。
更に、二倍のピッチをピッチと錯誤しないように、本実施形態による方法には、ピッチ2Pを得た後、更に以下のプロセスを含み得る。
音声信号領域では、取得したピッチに対応する相関関数を計算し、二倍ピッチの相関関数を計算する。このステップでは、以下の式に従って、2Pの相関関数nor_cor[2P]、及び2Pの相関関数、即ち、nor_cor[P]を計算する。
Figure 2010156975
計算した相関関数の最大値に対応するピッチは、最終的なピッチと見なす。即ち、nor_cor[2P]の値をnor_cor[P]の値と比較する。nor_cor[2P]>nor_cor[P]の場合、2Pを音声信号の最終的なピッチとして用いる。nor_cor[2P]<=nor_cor[P]の場合、Pを音声信号の最終的なピッチとして用いる。
本実施形態では、フレーム全体における信号の相関関数値を計算することなく、対象窓を設定して、フレームの残差信号のエネルギを計算し、こうしてピッチ検索が大幅に簡素化される。更に、本実施形態では、ピッチの相関関数を二倍ピッチの相関関数と比較し、二倍ピッチをピッチと錯誤することを回避して、ピッチ検索の精度を保証している。
図3は、本発明の更に他の実施形態によるピッチ検索のための方法を示すフローチャートである。この実施形態は、次の点において第2実施形態と異なる。即ち、ステップ205及びステップ206が、ステップ305及びステップ306で置き換えられ、また、本実施形態の残差信号の特性関数値は、後述するように、残差信号の絶対値の和である。
ステップ305:ピッチ範囲内のピッチに対応するダウンサンプリング信号の残差信号の絶対値の和を計算する。
Figure 2010156975
上式において、E(k)は、kに対応する残差信号の絶対値の和である。
ステップ306:計算した残差信号の絶対値の和において、最小和E(P)を選択する。これは、範囲[k,k]内のピッチPに対応するダウンサンプリング信号の残差信号の絶対値の最小和である。
本実施形態は、フレーム全体における信号の相関関数値を計算することなく、対象窓を設定して、フレームにおける信号の残差信号の絶対値の和を計算し、これによりピッチ検索が大幅に簡素化される。
第2実施形態及び第3実施形態は、フレームにおける信号の先行部分を用いて、そのフレームにおける信号の最後の部分を予測する場面に適用可能である。本発明は、この場面に限定されるものではなく、先行フレームの信号を用いて、現フレームの信号を予測する場面にも適用可能である。この場面では、フレーム全体の残差信号の特性関数値をまず取得し、そして、ピッチは、フレーム全体の残差信号の特性関数値に基づき取得してよい。
図4は、本発明の更に他の実施形態によるピッチ検索のための方法を示すフローチャートである。本方法には、以下のステップが含まれる。
ステップ401:入力音声信号において最大振幅のパルスを検索する。
ステップ402:最大振幅のパルスの位置に応じて入力音声信号用の対象窓を設定する。
ステップ403:対象窓をスライドして複数の引窓を取得し、各引窓及び対象窓における入力音声信号の相関係数を計算し、相関係数の最大値を得る。
ステップ404:相関係数の最大値に応じてピッチを得る。
本実施形態は、対象窓を設定し、対象窓をスライドし、各引窓及び対象窓における信号の相関係数を計算して相関係数の最大値を得て、そして相関係数の最大値に応じたピッチを得る。このことは、フレーム全体の入力音声信号の相関関数値を計算することなく行われ、これによりピッチ検索が大幅に簡素化される。
図5は、本発明の更に他の実施形態によるピッチ検索のための方法を示すフローチャートである。本方法には、以下のステップが含まれる。
ステップ501:入力音声信号を前処理する。
更に、前処理は、低域通過フィルタ処理又はダウンサンプリングであってよく、又は、ダウンサンプリング処理を伴う低域通過フィルタ処理であってよい。具体的には、低域通過フィルタ処理は、平均値フィルタ処理であってよい。PCM信号を例にとると、y(n)は、入力音声信号を表し、入力音声信号のフレーム長Lは、160である(即ち、1つのフレームが、160サンプルを含む)。y2(n)は、ダウンサンプリングした入力音声信号を表し、以下、ダウンサンプリング信号と称する。一実施形態において、2分の1のダウンサンプリングを例にとると、以下の式が成り立つ。
Figure 2010156975
上式において、Mは、平均値フィルタの次数であり、y2(n)のサンプル範囲は、[0,79]である。
このステップは、任意である。ステップ502実行前の前処理は、省略し得る。
ステップ502:入力音声信号において最大振幅のパルスを検索する。
パルスは、フレーム全体において又はフレームの設定範囲内で探し出し得る。パルスがフレームの設定範囲内で探し出されると仮定して、そのプロセスについて以下に詳述する。
まず、入力音声信号y(n)について、そのピッチ範囲は、フレーム長に応じて予め設定する。ピッチ範囲は、フレーム長を基準として設定し、また、ピッチは、高過ぎてはならない。ピッチが高過ぎると、フレームの信号のサンプルは、LTP計算に殆ど関与せず、LTP性能が、低下する。例えば、フレーム長Lが160に等しい場合、y(n)のピッチ範囲は、[20,83]に設定し得る。一実施形態では、2分の1のダウンサンプリングをステップ202で適用する。ダウンサンプリング信号y2(n)のピッチ範囲は、[10,41]、即ち、[PMIN,PMAX]であってよく、ここで、PMIN=10及びPMAX=41である。ピッチが最大である時にピッチを確実に発見できるように、検索されるパルスのサンプル範囲は、[41,79]に設定し得る。
その後、サンプル範囲[41,79]内において、y2(n)における最大振幅のパルスを見つける。最大振幅のパルスに対応するサンプルをp0とすると(41<=p0<=79)、以下の不等式が成り立つ。
Figure 2010156975
本実施形態では、y2(n)の振幅は、実数であってよく、また、y2(n)の振幅値は、y2(n)の絶対値であり、負でない数である。
ステップ503:入力音声信号における最大振幅のパルスp0の位置に応じて入力音声信号用の対象窓を設定する。
具体的には、対象窓は、パルスp0周辺に付加し、信号の一部を選択すると、この対象窓が、パルスp0を網羅する。対象窓の範囲は、[smin,smax]であり、対象窓の長さは、len=smax−sminである。「len」の範囲は、[1,L]である。即ち、対象窓は、フレームの全信号を網羅し得る。
例えば、
Figure 2010156975
であり、上式において、dは、対象窓の長さを制限するために用いる。一実施形態では、d=15である。s_max(p0−d,41)は、p0−dと41との間で大きい方の値を得ることを意味する。s_min(p0+d,79)は、p0+dと79との間で小さい方の値を得ることを意味する。
ステップ504:対象窓をスライドして複数の引窓を得て、各引窓及び対象窓における信号の相関係数を計算する。
Figure 2010156975
上式において、kは、ピッチを表し、[k,k]は、ピッチ範囲を表す。一実施形態では、k=10、k=41である。また、corr[k]は、kに対応する相関係数を表す。
ステップ505:計算した相関係数の中で最大の相関係数corr[P]を選択する。corr[P]は、範囲[k,k]内のピッチPに対応するダウンサンプリング信号の最大相関係数である。
ステップ506:y(n)のピッチを得る。y2(n)がy(n)から2分の1のダウンサンプリングにより得られることから、このピッチは、2Pである。
更に、二倍のピッチをピッチと錯誤しないために、本実施形態による方法には、ピッチ2Pを得た後に以下のプロセスを更に含み得る。
音声信号領域では、得られたピッチの相関関数を計算し、また、得られたピッチの二倍の周波数の相関関数を計算する。このステップは、以下の式により、2Pの相関関数nor_cor[2P]と、2Pの二倍の周波数(P)の相関関数、即ち、nor_cor[P]を計算する。
Figure 2010156975
計算した相関関数の最大値に対応するピッチは、最終的なピッチとして用いる。即ち、nor_cor[2P]の値をnor_cor[P]の値と比較する。nor_cor[2P]>nor_cor[P]の場合、2Pを音声信号の最終的なピッチとして用いる。nor_cor[2P]<=nor_cor[P]の場合、Pを音声信号の最終的なピッチとして用いる。
本実施形態は、対象窓を設定して、その対象窓をスライドし、各引窓及び対象窓における信号の相関係数を計算する。そして、相関係数の最大値に応じたピッチを取得する。このことは、フレーム全体の信号の相関関数値を計算することなく行われ、このため、ピッチ検索が大幅に簡素化される。更に、本実施形態は、ピッチの相関関数を二倍ピッチの相関関数と比較して、二倍ピッチをピッチと錯誤することを回避し、ピッチ検索の精度を保証する。
図6は、本発明の一実施形態によるピッチ検索のための装置の概略構造図を示す。本装置には、残差信号の特性関数値を得るように構成された特性値取得モジュール11が含まれる。ここで、残差信号は、入力音声信号からLTP寄与信号を除去した結果である。また、本装置には、残差信号の特性関数値に応じてピッチを取得するように構成されたピッチ取得モジュール12が含まれる。
具体的には、特性値取得モジュール11は、フレーム全体の残差信号の特性関数値を計算し得る。特性値取得モジュール11には、対象窓ユニット13及び特性値取得ユニット14を含み得る。対象窓ユニット13は、入力音声信号用の対象窓を設定し、特性値取得ユニット14は、対象窓の残差信号の特性値を得る。
更に、本実施形態による装置には、検索モジュール15を含み得る。検索モジュール15は、入力音声信号において最大振幅のパルスを検索する。対象窓ユニット13は、入力音声信号における最大振幅のパルスの位置に応じて対象窓を設定する。
本実施形態による装置には、更に、前処理モジュール16を含み得る。前処理モジュール16は、入力音声信号を前処理する。具体的には、前処理モジュール16は、低域通過フィルタ処理又はダウンサンプリング処理を実施し、そして、前処理した入力音声信号を対象窓ユニット13及び特性値取得ユニット14に送信する。
特性値取得モジュール11には、更に、第1計算ユニット及び第2計算ユニットを含み得る。第1計算ユニットは、予め設定したピッチ範囲内の各ピッチに対応する残差信号を計算する。第2計算ユニットは、各ピッチに対応する残差信号の特性関数値を計算し、特性関数値の最小値を得る。ピッチ取得モジュール12は、特性関数値の最小値に対応するピッチを取得ピッチとして用いる。
本実施形態は、フレーム全体の信号の相関関数値を計算することなく、対象窓を設定してフレームにおける信号の残差信号の特性関数値を計算し、こうして、ピッチ検索が大幅に簡素化される。
図7は、本発明の他の実施形態によるピッチ検索のための装置の構造図を示す。本装置には、検索モジュール21、対象窓モジュール22、計算モジュール23、及びピッチ取得モジュール24が含まれる。検索モジュール21は、入力音声信号において最大振幅のパルスを検索する。対象窓モジュール22は、最大振幅のパルスの位置に応じて入力音声信号用の対象窓を設定する。対象窓がスライドする時、計算モジュール23は、各引窓及び対象窓における入力音声信号の相関係数を計算して、相関係数の最大値を得る。ピッチ取得モジュール24は、相関係数の最大値に応じてピッチを得る。
一実施形態による装置には、更に、前処理モジュール25を含み得る。前処理モジュール25は、入力音声信号を前処理する。具体的には、前処理モジュール25は、低域通過フィルタ処理又はダウンサンプリング処理を実施し、そして、前処理した入力音声信号を検索モジュール21、対象窓モジュール22、及び計算モジュール23に送信する。
本実施形態は、対象窓を設定し、その対象窓をスライドし、各引窓及び対象窓における信号の相関係数を計算して相関係数の最大値を得て、相関係数の最大値に応じてピッチを得る。このことは、フレーム全体における入力音声信号の相関関数値を計算することなく行われ、これにより、ピッチ検索が大幅に簡素化される。
当業者にとって理解可能なように、上記方法実施形態の全ての又は一部のステップは、プログラムによって指示されるハードウェアで実現し得る。そのプログラムは、コンピュータ判読可能記憶媒体に記憶し得る。実行時、プログラムは、上記方法実施形態のステップを実施する。記憶媒体は、プログラムコードの記憶に適した任意の媒体であってよく、例えば、読み出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク、又はコンパクトディスクであってよい。
幾つかの代表的実施形態を通して本発明について述べたが、本発明は、そのような実施形態に限定されない。当業者が、本発明の精神及び範囲から逸脱することなく、本発明に対して修正や変更を行い得ることは、明らかである。本発明は、修正及び変更が、以下の請求項又はそれらの等価物によって定義される保護の範囲内にあることを前提に、それらを網羅しようとするものである。
11 特性値取得モジュール
12 ピッチ取得モジュール
13 対象窓ユニット
14 特性値取得ユニット
15 検索モジュール
16 前処理モジュール
21 検索モジュール
22 対象窓モジュール
23 計算モジュール
24 ピッチ取得モジュール
25 前処理モジュール

Claims (16)

  1. ピッチ検索のための方法であって、
    入力音声信号からLTP寄与信号を除去した結果である残差信号の特性関数値を得る段階と、
    前記残差信号の前記特性関数値に応じてピッチを得る段階と、
    が含まれる方法。
  2. 請求項1に記載の方法であって、残差信号の特性関数値を得る前記プロセスには、
    前記入力音声信号用の対象窓を設定し、前記対象窓の中の前記残差信号の前記特性関数値を得る段階が含まれる方法。
  3. 請求項1に記載の方法であって、前記入力音声信号用の対象窓を設定する前記プロセスには、
    前記入力音声信号において最大振幅のパルスを検索する段階と、
    前記パルスの位置に応じて前記対象窓を設定する段階と、
    が含まれる方法。
  4. 請求項1又は2又は3に記載の方法であって、残差信号の特性関数値を得る前記プロセスには、
    予め設定したピッチ範囲の各ピッチに対応する前記残差信号を計算する段階と、
    各ピッチに対応する前記残差信号の前記特性関数値を計算する段階と、
    が含まれ、前記残差信号の前記特性関数値に応じてピッチを得る前記プロセスには、
    前記計算した残差信号エネルギ値の中の最小値を選択し、前記最小値に対応するピッチを前記ピッチとして設定する段階が含まれる方法。
  5. 請求項4に記載の方法であって、
    前記残差信号の前記特性関数値は、前記残差信号エネルギ値であるか、又は前記残差信号の絶対値の和である方法。
  6. 請求項1に記載の方法であって、残差信号の特性関数値を得る前記プロセスの前に、
    前記入力音声信号を低域通過フィルタ処理又はダウンサンプリングする段階が更に含まれる方法。
  7. 請求項1に記載の方法であって、
    LTP寄与信号は、LTP励振信号及びピッチ利得に基づき決定され、前記ピッチ利得は、固定値であるか、又は前記予め設定したピッチ範囲の前記ピッチに応じて適応して決定された値である方法。
  8. ピッチ検索のための方法であって、
    入力音声信号において最大振幅のパルスを検索する段階と、
    前記パルスの位置に応じて前記入力音声信号用の対象窓を設定する段階と、
    前記対象窓をスライドさせ複数の引窓を得て、各引窓及び前記対象窓における前記入力音声信号の相関係数を計算し、前記相関係数の最大値を得る段階と、
    前記相関係数の前記最大値に応じてピッチを得る段階と、
    が含まれる方法。
  9. 請求項8に記載の方法であって、
    前記入力音声信号において前記最大振幅のパルスを検索する前記プロセスの前に、
    前記入力音声信号を低域通過フィルタ処理又はダウンサンプリングする段階が更に含まれる方法。
  10. ピッチ検索のための装置であって、
    残差信号の特性関数値を得るように構成された特性値取得モジュール11であって、前記残差信号は、入力音声信号からLTP寄与信号を除去した結果である前記特性値取得モジュール11と、
    前記残差信号の前記特性関数値に応じてピッチを得るように構成されたピッチ取得モジュール12と、
    が含まれる装置。
  11. 請求項10に記載の装置であって、
    前記特性値取得モジュール11は、フレーム全体の前記残差信号の前記特性関数値を計算するように構成されるか、又は、
    前記特性値取得モジュール11には、
    前記入力音声信号用の対象窓を設定するように構成された対象窓ユニット13と、
    前記対象窓における前記残差信号の前記特性値を得るように構成された特性値取得ユニット14と、
    が含まれる装置。
  12. 請求項11に記載の装置であって、更に、
    前記入力音声信号において最大振幅のパルスを検索するように構成された検索モジュール15と、
    更に、前記入力音声信号における前記最大振幅の前記パルスの位置に応じて前記対象窓を設定するように構成された前記対象窓ユニット13と、
    が含まれる装置。
  13. 請求項10又は11又は12に記載の装置であって、前記特性値取得モジュール11には、
    予め設定したピッチ範囲内の各ピッチに対応する前記残差信号を計算するように構成された第1計算ユニットと、
    各ピッチに対応する前記残差信号の前記特性関数値を計算し、前記特性関数値の最小値を得るように構成された第2計算ユニットが含まれ、前記ピッチ取得モジュール12が、前記特性関数値の前記最小値に対応する前記ピッチを前記取得されるピッチとして用いる装置。
  14. 請求項11に記載の装置であって、更に、
    入力音声信号に低域通過フィルタ処理又はダウンサンプリング処理を実施するように構成された理モジュール16が含まれる装置。
  15. ピッチ検索のための装置であって、
    入力音声信号において最大振幅のパルスを検索するように構成された検索モジュール21と、
    前記最大振幅を有する前記パルスの位置に応じて前記入力音声信号用の対象窓を設定するように構成された対象窓モジュール22と、
    前記対象窓をスライドし、各引窓及び前記対象窓における前記入力音声信号の相関係数を計算して前記相関係数の最大値を得るように構成された計算モジュール23と、
    前記相関係数の前記最大値に応じてピッチを得るように構成されたピッチ取得モジュール24と、
    が含まれる装置。
  16. 請求項15に記載の装置であって、更に、
    入力音声信号に低域通過フィルタ処理又はダウンサンプリング処理を実施するように構成された前処理モジュール25が含まれる装置。
JP2009298386A 2008-12-30 2009-12-28 ピッチ検索のための方法及び装置 Active JP5506032B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2008102470311A CN101599272B (zh) 2008-12-30 2008-12-30 基音搜索方法及装置
CN200810247031.1 2008-12-30

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2013012618A Division JP5904469B2 (ja) 2008-12-30 2013-01-25 ピッチ検索のための方法及び装置

Publications (2)

Publication Number Publication Date
JP2010156975A true JP2010156975A (ja) 2010-07-15
JP5506032B2 JP5506032B2 (ja) 2014-05-28

Family

ID=41420686

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2009298386A Active JP5506032B2 (ja) 2008-12-30 2009-12-28 ピッチ検索のための方法及び装置
JP2013012618A Active JP5904469B2 (ja) 2008-12-30 2013-01-25 ピッチ検索のための方法及び装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2013012618A Active JP5904469B2 (ja) 2008-12-30 2013-01-25 ピッチ検索のための方法及び装置

Country Status (6)

Country Link
US (1) US20100169084A1 (ja)
EP (2) EP2420999A3 (ja)
JP (2) JP5506032B2 (ja)
KR (1) KR101096540B1 (ja)
CN (1) CN101599272B (ja)
AT (1) ATE533146T1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4871894B2 (ja) * 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
JP5992427B2 (ja) * 2010-11-10 2016-09-14 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 信号におけるピッチおよび/または基本周波数に関するパターンを推定する方法および装置
CN104115220B (zh) 2011-12-21 2017-06-06 华为技术有限公司 非常短的基音周期检测和编码
CN103426441B (zh) 2012-05-18 2016-03-02 华为技术有限公司 检测基音周期的正确性的方法和装置
KR101850523B1 (ko) * 2014-01-24 2018-04-19 니폰 덴신 덴와 가부시끼가이샤 선형 예측 분석 장치, 방법, 프로그램 및 기록 매체
US9928850B2 (en) * 2014-01-24 2018-03-27 Nippon Telegraph And Telephone Corporation Linear predictive analysis apparatus, method, program and recording medium
CN105513604B (zh) * 2016-01-05 2022-11-18 浙江诺尔康神经电子科技股份有限公司 一种基频轮廓提取的人工耳蜗言语处理方法和系统
CN113129913B (zh) * 2019-12-31 2024-05-03 华为技术有限公司 音频信号的编解码方法和编解码装置

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58140798A (ja) * 1982-02-15 1983-08-20 株式会社日立製作所 音声ピツチ抽出方法
JPS622300A (ja) * 1985-06-27 1987-01-08 松下電器産業株式会社 音声ピツチ抽出装置
JPH0679237B2 (ja) * 1985-07-05 1994-10-05 シャープ株式会社 音声ピツチ周波数抽出装置
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
IT1270438B (it) * 1993-06-10 1997-05-05 Sip Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce
JP3500690B2 (ja) * 1994-03-28 2004-02-23 ソニー株式会社 オーディオピッチ抽出装置及びオーディオ処理装置
JP3468862B2 (ja) * 1994-09-02 2003-11-17 株式会社東芝 音声符号化装置
JPH08263099A (ja) * 1995-03-23 1996-10-11 Toshiba Corp 符号化装置
EP0763818B1 (en) * 1995-09-14 2003-05-14 Kabushiki Kaisha Toshiba Formant emphasis method and formant emphasis filter device
US5867814A (en) * 1995-11-17 1999-02-02 National Semiconductor Corporation Speech coder that utilizes correlation maximization to achieve fast excitation coding, and associated coding method
JPH09258796A (ja) * 1996-03-25 1997-10-03 Toshiba Corp 音声合成方法
JPH10105195A (ja) * 1996-09-27 1998-04-24 Sony Corp ピッチ検出方法、音声信号符号化方法および装置
JP3575967B2 (ja) * 1996-12-02 2004-10-13 沖電気工業株式会社 音声通信システムおよび音声通信方法
US6470309B1 (en) * 1998-05-08 2002-10-22 Texas Instruments Incorporated Subframe-based correlation
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
JP4505899B2 (ja) * 1999-10-26 2010-07-21 ソニー株式会社 再生速度変換装置及び方法
GB2357683A (en) * 1999-12-24 2001-06-27 Nokia Mobile Phones Ltd Voiced/unvoiced determination for speech coding
US7171355B1 (en) * 2000-10-25 2007-01-30 Broadcom Corporation Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals
US6889187B2 (en) * 2000-12-28 2005-05-03 Nortel Networks Limited Method and apparatus for improved voice activity detection in a packet voice network
US6766289B2 (en) * 2001-06-04 2004-07-20 Qualcomm Incorporated Fast code-vector searching
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
CA2392640A1 (en) * 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
KR100711280B1 (ko) * 2002-10-11 2007-04-25 노키아 코포레이션 소스 제어되는 가변 비트율 광대역 음성 부호화 방법 및장치
US7155386B2 (en) * 2003-03-15 2006-12-26 Mindspeed Technologies, Inc. Adaptive correlation window for open-loop pitch
EP1513137A1 (en) * 2003-08-22 2005-03-09 MicronasNIT LCC, Novi Sad Institute of Information Technologies Speech processing system and method with multi-pulse excitation
KR100552693B1 (ko) * 2003-10-25 2006-02-20 삼성전자주식회사 피치검출방법 및 장치
CN1998045A (zh) * 2004-07-13 2007-07-11 松下电器产业株式会社 音调频率估计装置以及音调频率估计方法
US7752039B2 (en) * 2004-11-03 2010-07-06 Nokia Corporation Method and device for low bit rate speech coding
KR100744352B1 (ko) * 2005-08-01 2007-07-30 삼성전자주식회사 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
WO2007087824A1 (de) * 2006-01-31 2007-08-09 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und anordnungen zur audiosignalkodierung
US7925502B2 (en) * 2007-03-01 2011-04-12 Microsoft Corporation Pitch model for noise estimation
CN101030374B (zh) * 2007-03-26 2011-02-16 北京中星微电子有限公司 基音周期提取方法及装置
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6012004024; 小池 恒彦,筧 一彦,古井 貞熙,北脇 信彦,東倉 洋一: '音声情報工学' 音声情報工学 , 1987, 55-60, NTTアドバンステクノロジ株式会社 *

Also Published As

Publication number Publication date
JP5506032B2 (ja) 2014-05-28
EP2204795A1 (en) 2010-07-07
JP5904469B2 (ja) 2016-04-13
EP2420999A3 (en) 2013-10-30
CN101599272A (zh) 2009-12-09
KR101096540B1 (ko) 2011-12-20
EP2204795B1 (en) 2011-11-09
JP2013068977A (ja) 2013-04-18
US20100169084A1 (en) 2010-07-01
EP2420999A2 (en) 2012-02-22
CN101599272B (zh) 2011-06-08
KR20100080457A (ko) 2010-07-08
ATE533146T1 (de) 2011-11-15

Similar Documents

Publication Publication Date Title
JP5904469B2 (ja) ピッチ検索のための方法及び装置
US8386246B2 (en) Low-complexity frame erasure concealment
TWI582758B (zh) 藉由使用諧波抑制而從ㄧ第一編碼演算法以及ㄧ第二編碼演算法中選擇其中之一之裝置與方法
JP6153661B2 (ja) 改善されたパルス再同期化を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法
WO2010091554A1 (zh) 一种基音周期检测方法和装置
JP5521097B2 (ja) 信号を符号化する方法および信号を復号する方法
JP6482540B2 (ja) 改善されたピッチラグ推定を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法
JP2010170124A (ja) 信号圧縮方法及び装置
KR20040042903A (ko) 일반화된 분석에 의한 합성 스피치 코딩 방법 및 그방법을 구현하는 코더
JP3806344B2 (ja) 定常雑音区間検出装置及び定常雑音区間検出方法
JP5142727B2 (ja) 音声復号装置および音声復号方法
KR20230129581A (ko) 음성 정보를 갖는 개선된 프레임 손실 보정
EP1103953A2 (en) Method for concealing erased speech frames
US20090055171A1 (en) Buzz reduction for low-complexity frame erasure concealment
US8566085B2 (en) Preprocessing method, preprocessing apparatus and coding device
CA2910878C (en) Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
KR100554165B1 (ko) 피치 지연값의 배수에 의한 영향 제거가 가능한 celp기반 음성부호화기 및 피치 지연값의 배수에 의한 영향제거 방법
WO2020223797A1 (en) Methods and devices for detecting an attack in a sound signal to be coded and for coding the detected attack
JP2002244700A (ja) 音声符号化装置、音声符号化方法および記憶素子

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120501

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120925

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130125

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130213

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20130315

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130716

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130719

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130816

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130821

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130917

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130920

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140123

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140314

R150 Certificate of patent or registration of utility model

Ref document number: 5506032

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250