JP2013068977A - ピッチ検索のための方法及び装置 - Google Patents

ピッチ検索のための方法及び装置 Download PDF

Info

Publication number
JP2013068977A
JP2013068977A JP2013012618A JP2013012618A JP2013068977A JP 2013068977 A JP2013068977 A JP 2013068977A JP 2013012618 A JP2013012618 A JP 2013012618A JP 2013012618 A JP2013012618 A JP 2013012618A JP 2013068977 A JP2013068977 A JP 2013068977A
Authority
JP
Japan
Prior art keywords
pitch
signal
residual signal
range
target window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013012618A
Other languages
English (en)
Other versions
JP5904469B2 (ja
Inventor
▲徳▼▲軍▼ ▲張▼
Dejun Zhang
▲剣▼峰 ▲許▼
Jianfeng Xu
Miao Lei
磊 苗
峰岩 ▲斉▼
Fengyan Qi
清 ▲張▼
Qing Zhang
Lixiong Li
立雄 李
付▲偉▼ ▲馬▼
Fuwei Ma
Yang Gao
▲揚▼ 高
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2013068977A publication Critical patent/JP2013068977A/ja
Application granted granted Critical
Publication of JP5904469B2 publication Critical patent/JP5904469B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Complex Calculations (AREA)
  • Measuring Frequencies, Analyzing Spectra (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】本発明は、ピッチ検索のための方法及び装置に関する。
【解決手段】ピッチ検索のための方法であって、入力音声信号をダウンサンプリングする(201)段階と、予め設定されたピッチ範囲の各ピッチに対応する前記ダウンサンプリングされた入力音声信号の残差信号を計算する(204)段階と、前記予め設定されたピッチ範囲の各ピッチに対応する残差信号の残差信号エネルギ値を計算する(205)段階と、ここに、前記残差信号は、前記ダウンサンプリングされた入力音声信号からLTP(長期予測)寄与信号を除去した結果であり、前記計算された残差信号エネルギ値の中の最小値を選択し(206)、該最小値に対応するピッチをピッチとして設定する段階と、
を含む方法。
【選択図】図1

Description

本出願は、2008年12月30日に出願した中国特許出願第200810247031.1に対する優先権を主張するものであり、その全体を本明細書に引用・参照する。
発明の分野
本発明は、音声符号化技術及び音声復号化技術の分野に関し、特に、ピッチ検索のための方法及び装置に関する。
一般的に、音声及びオーディオ信号は、ある程度周期的である。音声及びオーディオ信号における長期周期性は、長期予測(LTP)法により除去し得る。LTP予測の前に、まずピッチを検索する必要がある。ピッチ検索のための従来の方法は、自己相関関数に基づき実施する。MPEG_ALS(Moving_Pictures_Experts_Group_Audio_Lossless_Coding)装置では、バッファ内の履歴データを励振信号として用いて、現フレームの信号を予測する。開ループピッチ解析を例として、本方法について以下に述べる。
まず、元の音声信号を知覚的重み付けフィルタに入力して、重み付き音声信号S(n)を得る。知覚的重み付けフィルタ関数の式は、
Figure 2013068977
であり、上式において、
Figure 2013068977
であり、また、β1=0.68である。各サブフレームについて、サブフレーム長(L)は、64であり、重み付き音声信号S(n)の式は、
Figure 2013068977
である。上式において、s(n)は、元の音声信号であり、aは、LP係数であり、また、
Figure 2013068977
は、知覚的重み付け係数である。
四次有限インパルス応答(FIR)フィルタHdecim2(z)は、重み付き音声信号に2分の1のダウンサンプリングを実施して、Swd(n)を得る。重み付き相関関数は、
Figure 2013068977
である。
取得するピッチは、C(d)を最大にするピッチ遅延dである。上式において、w(d)は、重み付け関数であり、低遅延重み付け関数w(d)と、先行フレーム遅延重み付け関数w(d)と、を含み、式(3)のように示される。
Figure 2013068977
低遅延重み付け関数w(d)の式は、
Figure 2013068977
である。上式において、cw(d)は、プログラムのタブファイルに存在し、先行フレーム遅延重み付け関数w(d)は、先行フレームのピッチ遅延に依存する。先行フレーム遅延重み付け関数の式w(d)は、
Figure 2013068977
である。上式において、Toldは、初めの5フレームのピッチ遅延の平均であり、vは、適応係数である。開ループピッチ利得(g)が0.6より大きい場合、フレームを有声フレームと見なし、次フレームの「v」を1に設定する。そうでない場合、v=0.9vとする。開ループピッチ利得(g)の式は、
Figure 2013068977
である。
本ピッチ遅延は、C(d)を最大にするピッチ遅延である。中間値フィルタは、有声フレームにおいて更新する。先行フレームが無声又は無音音声を含む場合、重み付け関数は、パラメータ「v」によって減衰される。
上述したように、従来技術では、長期周期性を解決するために、フレームの入力音声信号に関して自己相関関数を計算してピッチを得る。
幾つかの本発明の実施形態は、フレーム全体における入力音声信号の相関関数値を計算することなく、ピッチ検索を行うための方法及び装置を提供する。
ピッチ検索のための方法には、
残差信号の特性関数値を得る段階であって、残差信号は、入力音声信号からLTP寄与信号を除去した結果である段階と、
残差信号の特性関数値に応じてピッチを得る段階と、が含まれる。
ピッチ検索のための他の方法には、
入力音声信号において最大振幅のパルスを検索する段階と、
最大振幅のパルスの位置に応じて入力音声信号用の対象窓を設定する段階と、
対象窓をスライドして引窓を得て、引窓及び対象窓における入力音声信号の相関係数を計算して相関係数の最大値を得る段階と、
相関係数の最大値に応じてピッチを得る段階と、が含まれる。
ピッチ検索のための装置には、
残差信号の特性関数値を得るように構成された特性値取得モジュールであって、残差信号は、入力音声信号からLTP寄与信号を除去した結果である上記特性値取得モジュールと、
残差信号の特性関数値に応じてピッチを得るように構成されたピッチ取得モジュールと、が含まれる。
ピッチ検索のための他の装置には、
入力音声信号において最大振幅のパルスを検索するように構成された検索モジュールと、
最大振幅のパルスの位置に応じて入力音声信号用の対象窓を設定するように構成された対象窓モジュールと、
計算モジュールであって、対象窓をスライドし引窓を得て、引窓及び対象窓における入力音声信号の相関係数を計算して相関係数の最大値を得るように構成された前記計算モジュールと、
相関係数の最大値に応じてピッチを得るように構成されたピッチ取得モジュールと、が含まれる。
本発明の実施形態におけるピッチ検索のための方法及び装置では、フレーム全体における入力音声信号の相関関数値を計算することなく、残差信号の特性関数値を得て、残差信号の特性関数値に応じてピッチを得る。
本発明の一実施形態によるピッチ検索の方法を示すフローチャート。 本発明の他の実施形態によるピッチ検索の方法を示すフローチャート。 本発明の更に他の実施形態によるピッチ検索の方法を示すフローチャート。 本発明の更に他の実施形態によるピッチ検索の方法を示すフローチャート。 本発明の更に他の実施形態によるピッチ検索の方法を示すフローチャート。 本発明の一実施形態によるピッチ検索のための装置を示す概略構造図。 本発明の他の実施形態によるピッチ検索のための装置を示す概略構造図。
以下、本発明について添付図面及び代表的実施形態を参照して詳細に述べる。
図1は、本発明の一実施形態によるピッチ検索のための方法を示すフローチャートである。本方法には、以下のステップが含まれる。
ステップ101:残差信号の特性関数値を得る。ここで、残差信号は、入力音声信号からLTP寄与信号を除去した結果である。
ステップ102:残差信号の特性関数値に応じてピッチを得る。
本実施形態による方法では、残差信号の特性関数値を得る。また、ピッチは、フレーム全体における入力音声信号の相関関数値を計算することなく、残差信号の特性関数値に応じて取得する。
図2は、本発明の他の実施形態によるピッチ検索のための方法を示すフローチャートである。本方法には、以下のステップが含まれる。
ステップ201:入力音声信号を前処理する。
この前処理は、低域通過フィルタ処理もしくはダウンサンプリングであってよく、又はダウンサンプリング処理を伴う低域通過フィルタ処理であってよい。一実施形態では、低域通過フィルタ処理は、平均値フィルタ処理であってよい。パルス符号変調(PCM)信号を例にとると、y(n)が、入力音声信号を表し、入力音声信号のフレーム長Lが、160である(即ち、1つのフレームは、160個のサンプルを含む)。y2(n)が、ダウンサンプリングされた入力音声信号を表し、以下、ダウンサンプリング信号と称する。本実施形態における2分の1のダウンサンプリングを例にとると、以下の式が成立する。
Figure 2013068977
上式において、Mは、平均値フィルタの次数であり、y2(n)のサンプル範囲は、[0,79]である。
このステップは、任意である。ステップ202実行前、前処理は省略してよい。
ステップ202:入力音声信号において最大振幅のパルスを検索する。
パルスは、フレーム全体又はフレームの設定範囲内で検索し得る。フレームの設定範囲でのパルスの検索を例として、そのプロセスについて以下に詳述する。
まず、入力音声信号y(n)の場合、そのピッチ範囲は、フレーム長に応じて予め設定する。ピッチ範囲は、フレーム長を基準として設定し、また、ピッチは、高過ぎてはならない。ピッチが高過ぎる場合、フレームの信号のサンプルは、LTP演算に殆ど関与せず、LTP性能が低下する。例えば、フレーム長Lが160に等しい場合、y(n)のピッチ範囲は、[20,83]に設定し得る。一実施形態では、2分の1のダウンサンプリングをステップ202で適用する。ダウンサンプリング信号y2(n)のピッチ範囲は、[10,41]、即ち、[PMIN,PMAX]であってよく、この場合、PMIN=10及びPMAX=41である。ピッチが最大である時に確実にそのピッチを見つけるためには、検索するパルスのサンプル範囲を[41,79]に設定し得る。
その後、サンプル範囲[41,79]内において、y2(n)における最大振幅のパルスを見つける。最大振幅のパルスに対応するサンプルをp0とすると(41<=p0<=79)、以下の不等式が成り立つ。
Figure 2013068977
本実施形態では、y2(n)の振幅は、実数であってよく、y2(n)の振幅値は、y2(n)の絶対値であって、負でない数である。
ステップ203:入力音声信号における最大振幅のパルスp0の位置に応じて対象窓を設定する。
具体的には、対象窓は、パルスp0周辺に付加し、信号の一部を選択すると、この対象窓が、パルスp0を網羅する。対象窓の範囲は、[smin,smax]であり、対象窓の長さは、len=smax−sminである。「len」の範囲は、[1,L]である。即ち、対象窓は、フレームの全信号を網羅し得る。
例えば、
Figure 2013068977
であり、上式において、dは、対象窓の長さを制限するために用いる。本実施形態では、d=15である。s_max(p0−d,41)は、p0−dと41との間で大きい方の値を取得することを意味する。s_max(p0+d,79)は、p0+dと79との間で小さい方の値を取得することを意味する。
ステップ204:予め設定したピッチ範囲の各ピッチに対応する入力音声信号(即ち、本実施形態では、ダウンサンプリング信号)の残差信号を計算する。残差信号は、入力音声信号からLTP寄与信号を除去した結果であるが、LTP寄与信号x(i)は、LTP励振信号及びピッチ利得により求める。
Figure 2013068977
上式において、kは、ピッチを表し、gは、ピッチ利得を表す。gは、固定の経験値、又は、予め設定したピッチ範囲のピッチに応じて適応して求める値であってよい。即ち、異なるピッチ(k)は、同じgを有し得る。他の選択肢として、ピッチkとピッチ利得gとの間のマッピングの表を予め設定してもよく、この場合、gは、kに伴って変動する。
ステップ205:各ピッチに対応する残差信号のエネルギを計算する。
Figure 2013068977
上式において、[k,k]は、ピッチ範囲を表す。一実施形態では、k=10、k=41であり、E(i)は、kに対応する残差信号のエネルギを表す。
ステップ206:計算した残差信号エネルギ値の中の最小値E(P)を選択する。E(P)は、範囲[k,k]内のピッチPに対応するダウンサンプリング信号y2(n)の最小残差信号エネルギである。
ステップ207:y(n)のピッチを得る。このピッチは、y2(n)がy(n)から2分の1のダウンサンプリングにより得られることから、2Pである。
更に、二倍のピッチをピッチと錯誤しないように、本実施形態による方法には、ピッチ2Pを得た後、更に以下のプロセスを含み得る。
音声信号領域では、取得したピッチに対応する相関関数を計算し、二倍ピッチの相関関数を計算する。このステップでは、以下の式に従って、2Pの相関関数nor_cor[2P]、及び2Pの相関関数、即ち、nor_cor[P]を計算する。
Figure 2013068977
計算した相関関数の最大値に対応するピッチは、最終的なピッチと見なす。即ち、nor_cor[2P]の値をnor_cor[P]の値と比較する。nor_cor[2P]>nor_cor[P]の場合、2Pを音声信号の最終的なピッチとして用いる。nor_cor[2P]<=nor_cor[P]の場合、Pを音声信号の最終的なピッチとして用いる。
本実施形態では、フレーム全体における信号の相関関数値を計算することなく、対象窓を設定して、フレームの残差信号のエネルギを計算し、こうしてピッチ検索が大幅に簡素化される。更に、本実施形態では、ピッチの相関関数を二倍ピッチの相関関数と比較し、二倍ピッチをピッチと錯誤することを回避して、ピッチ検索の精度を保証している。
図3は、本発明の更に他の実施形態によるピッチ検索のための方法を示すフローチャートである。この実施形態は、次の点において第2実施形態と異なる。即ち、ステップ205及びステップ206が、ステップ305及びステップ306で置き換えられ、また、本実施形態の残差信号の特性関数値は、後述するように、残差信号の絶対値の和である。
ステップ305:ピッチ範囲内のピッチに対応するダウンサンプリング信号の残差信号の絶対値の和を計算する。
Figure 2013068977
上式において、E(k)は、kに対応する残差信号の絶対値の和である。
ステップ306:計算した残差信号の絶対値の和において、最小和E(P)を選択する。これは、範囲[k,k]内のピッチPに対応するダウンサンプリング信号の残差信号の絶対値の最小和である。
本実施形態は、フレーム全体における信号の相関関数値を計算することなく、対象窓を設定して、フレームにおける信号の残差信号の絶対値の和を計算し、これによりピッチ検索が大幅に簡素化される。
第2実施形態及び第3実施形態は、フレームにおける信号の先行部分を用いて、そのフレームにおける信号の最後の部分を予測する場面に適用可能である。本発明は、この場面に限定されるものではなく、先行フレームの信号を用いて、現フレームの信号を予測する場面にも適用可能である。この場面では、フレーム全体の残差信号の特性関数値をまず取得し、そして、ピッチは、フレーム全体の残差信号の特性関数値に基づき取得してよい。
図4は、本発明の更に他の実施形態によるピッチ検索のための方法を示すフローチャートである。本方法には、以下のステップが含まれる。
ステップ401:入力音声信号において最大振幅のパルスを検索する。
ステップ402:最大振幅のパルスの位置に応じて入力音声信号用の対象窓を設定する。
ステップ403:対象窓をスライドして複数の引窓を取得し、各引窓及び対象窓における入力音声信号の相関係数を計算し、相関係数の最大値を得る。
ステップ404:相関係数の最大値に応じてピッチを得る。
本実施形態は、対象窓を設定し、対象窓をスライドし、各引窓及び対象窓における信号の相関係数を計算して相関係数の最大値を得て、そして相関係数の最大値に応じたピッチを得る。このことは、フレーム全体の入力音声信号の相関関数値を計算することなく行われ、これによりピッチ検索が大幅に簡素化される。
図5は、本発明の更に他の実施形態によるピッチ検索のための方法を示すフローチャートである。本方法には、以下のステップが含まれる。
ステップ501:入力音声信号を前処理する。
更に、前処理は、低域通過フィルタ処理又はダウンサンプリングであってよく、又は、ダウンサンプリング処理を伴う低域通過フィルタ処理であってよい。具体的には、低域通過フィルタ処理は、平均値フィルタ処理であってよい。PCM信号を例にとると、y(n)は、入力音声信号を表し、入力音声信号のフレーム長Lは、160である(即ち、1つのフレームが、160サンプルを含む)。y2(n)は、ダウンサンプリングした入力音声信号を表し、以下、ダウンサンプリング信号と称する。一実施形態において、2分の1のダウンサンプリングを例にとると、以下の式が成り立つ。
Figure 2013068977
上式において、Mは、平均値フィルタの次数であり、y2(n)のサンプル範囲は、[0,79]である。
このステップは、任意である。ステップ502実行前の前処理は、省略し得る。
ステップ502:入力音声信号において最大振幅のパルスを検索する。
パルスは、フレーム全体において又はフレームの設定範囲内で探し出し得る。パルスがフレームの設定範囲内で探し出されると仮定して、そのプロセスについて以下に詳述する。
まず、入力音声信号y(n)について、そのピッチ範囲は、フレーム長に応じて予め設定する。ピッチ範囲は、フレーム長を基準として設定し、また、ピッチは、高過ぎてはならない。ピッチが高過ぎると、フレームの信号のサンプルは、LTP計算に殆ど関与せず、LTP性能が、低下する。例えば、フレーム長Lが160に等しい場合、y(n)のピッチ範囲は、[20,83]に設定し得る。一実施形態では、2分の1のダウンサンプリングをステップ202で適用する。ダウンサンプリング信号y2(n)のピッチ範囲は、[10,41]、即ち、[PMIN,PMAX]であってよく、ここで、PMIN=10及びPMAX=41である。ピッチが最大である時にピッチを確実に発見できるように、検索されるパルスのサンプル範囲は、[41,79]に設定し得る。
その後、サンプル範囲[41,79]内において、y2(n)における最大振幅のパルスを見つける。最大振幅のパルスに対応するサンプルをp0とすると(41<=p0<=79)、以下の不等式が成り立つ。
Figure 2013068977
本実施形態では、y2(n)の振幅は、実数であってよく、また、y2(n)の振幅値は、y2(n)の絶対値であり、負でない数である。
ステップ503:入力音声信号における最大振幅のパルスp0の位置に応じて入力音声信号用の対象窓を設定する。
具体的には、対象窓は、パルスp0周辺に付加し、信号の一部を選択すると、この対象窓が、パルスp0を網羅する。対象窓の範囲は、[smin,smax]であり、対象窓の長さは、len=smax−sminである。「len」の範囲は、[1,L]である。即ち、対象窓は、フレームの全信号を網羅し得る。
例えば、
Figure 2013068977
であり、上式において、dは、対象窓の長さを制限するために用いる。一実施形態では、d=15である。s_max(p0−d,41)は、p0−dと41との間で大きい方の値を得ることを意味する。s_min(p0+d,79)は、p0+dと79との間で小さい方の値を得ることを意味する。
ステップ504:対象窓をスライドして複数の引窓を得て、各引窓及び対象窓における信号の相関係数を計算する。
Figure 2013068977
上式において、kは、ピッチを表し、[k,k]は、ピッチ範囲を表す。一実施形態では、k=10、k=41である。また、corr[k]は、kに対応する相関係数を表す。
ステップ505:計算した相関係数の中で最大の相関係数corr[P]を選択する。corr[P]は、範囲[k,k]内のピッチPに対応するダウンサンプリング信号の最大相関係数である。
ステップ506:y(n)のピッチを得る。y2(n)がy(n)から2分の1のダウンサンプリングにより得られることから、このピッチは、2Pである。
更に、二倍のピッチをピッチと錯誤しないために、本実施形態による方法には、ピッチ2Pを得た後に以下のプロセスを更に含み得る。
音声信号領域では、得られたピッチの相関関数を計算し、また、得られたピッチの二倍の周波数の相関関数を計算する。このステップは、以下の式により、2Pの相関関数nor_cor[2P]と、2Pの二倍の周波数(P)の相関関数、即ち、nor_cor[P]を計算する。
Figure 2013068977
計算した相関関数の最大値に対応するピッチは、最終的なピッチとして用いる。即ち、nor_cor[2P]の値をnor_cor[P]の値と比較する。nor_cor[2P]>nor_cor[P]の場合、2Pを音声信号の最終的なピッチとして用いる。nor_cor[2P]<=nor_cor[P]の場合、Pを音声信号の最終的なピッチとして用いる。
本実施形態は、対象窓を設定して、その対象窓をスライドし、各引窓及び対象窓における信号の相関係数を計算する。そして、相関係数の最大値に応じたピッチを取得する。このことは、フレーム全体の信号の相関関数値を計算することなく行われ、このため、ピッチ検索が大幅に簡素化される。更に、本実施形態は、ピッチの相関関数を二倍ピッチの相関関数と比較して、二倍ピッチをピッチと錯誤することを回避し、ピッチ検索の精度を保証する。
図6は、本発明の一実施形態によるピッチ検索のための装置の概略構造図を示す。本装置には、残差信号の特性関数値を得るように構成された特性値取得モジュール11が含まれる。ここで、残差信号は、入力音声信号からLTP寄与信号を除去した結果である。また、本装置には、残差信号の特性関数値に応じてピッチを取得するように構成されたピッチ取得モジュール12が含まれる。
具体的には、特性値取得モジュール11は、フレーム全体の残差信号の特性関数値を計算し得る。特性値取得モジュール11には、対象窓ユニット13及び特性値取得ユニット14を含み得る。対象窓ユニット13は、入力音声信号用の対象窓を設定し、特性値取得ユニット14は、対象窓の残差信号の特性値を得る。
更に、本実施形態による装置には、検索モジュール15を含み得る。検索モジュール15は、入力音声信号において最大振幅のパルスを検索する。対象窓ユニット13は、入力音声信号における最大振幅のパルスの位置に応じて対象窓を設定する。
本実施形態による装置には、更に、前処理モジュール16を含み得る。前処理モジュール16は、入力音声信号を前処理する。具体的には、前処理モジュール16は、低域通過フィルタ処理又はダウンサンプリング処理を実施し、そして、前処理した入力音声信号を対象窓ユニット13及び特性値取得ユニット14に送信する。
特性値取得モジュール11には、更に、第1計算ユニット及び第2計算ユニットを含み得る。第1計算ユニットは、予め設定したピッチ範囲内の各ピッチに対応する残差信号を計算する。第2計算ユニットは、各ピッチに対応する残差信号の特性関数値を計算し、特性関数値の最小値を得る。ピッチ取得モジュール12は、特性関数値の最小値に対応するピッチを取得ピッチとして用いる。
本実施形態は、フレーム全体の信号の相関関数値を計算することなく、対象窓を設定してフレームにおける信号の残差信号の特性関数値を計算し、こうして、ピッチ検索が大幅に簡素化される。
図7は、本発明の他の実施形態によるピッチ検索のための装置の構造図を示す。本装置には、検索モジュール21、対象窓モジュール22、計算モジュール23、及びピッチ取得モジュール24が含まれる。検索モジュール21は、入力音声信号において最大振幅のパルスを検索する。対象窓モジュール22は、最大振幅のパルスの位置に応じて入力音声信号用の対象窓を設定する。対象窓がスライドする時、計算モジュール23は、各引窓及び対象窓における入力音声信号の相関係数を計算して、相関係数の最大値を得る。ピッチ取得モジュール24は、相関係数の最大値に応じてピッチを得る。
一実施形態による装置には、更に、前処理モジュール25を含み得る。前処理モジュール25は、入力音声信号を前処理する。具体的には、前処理モジュール25は、低域通過フィルタ処理又はダウンサンプリング処理を実施し、そして、前処理した入力音声信号を検索モジュール21、対象窓モジュール22、及び計算モジュール23に送信する。
本実施形態は、対象窓を設定し、その対象窓をスライドし、各引窓及び対象窓における信号の相関係数を計算して相関係数の最大値を得て、相関係数の最大値に応じてピッチを得る。このことは、フレーム全体における入力音声信号の相関関数値を計算することなく行われ、これにより、ピッチ検索が大幅に簡素化される。
当業者にとって理解可能なように、上記方法実施形態の全ての又は一部のステップは、プログラムによって指示されるハードウェアで実現し得る。そのプログラムは、コンピュータ判読可能記憶媒体に記憶し得る。実行時、プログラムは、上記方法実施形態のステップを実施する。記憶媒体は、プログラムコードの記憶に適した任意の媒体であってよく、例えば、読み出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク、又はコンパクトディスクであってよい。
幾つかの代表的実施形態を通して本発明について述べたが、本発明は、そのような実施形態に限定されない。当業者が、本発明の精神及び範囲から逸脱することなく、本発明に対して修正や変更を行い得ることは、明らかである。本発明は、修正及び変更が、以下の請求項又はそれらの等価物によって定義される保護の範囲内にあることを前提に、それらを網羅しようとするものである。
11 特性値取得モジュール
12 ピッチ取得モジュール
13 対象窓ユニット
14 特性値取得ユニット
15 検索モジュール
16 前処理モジュール
21 検索モジュール
22 対象窓モジュール
23 計算モジュール
24 ピッチ取得モジュール
25 前処理モジュール

Claims (8)

  1. ピッチ検索のための方法であって、
    入力音声信号をダウンサンプリングする(201)段階と、
    予め設定されたピッチ範囲の各ピッチに対応する前記ダウンサンプリングされた入力音声信号の残差信号を計算する(204)段階と、
    前記予め設定されたピッチ範囲の各ピッチに対応する残差信号の残差信号エネルギ値を計算する(205)段階と、ここに、前記残差信号は、前記ダウンサンプリングされた入力音声信号からLTP(長期予測)寄与信号を除去した結果であり、
    前記計算された残差信号エネルギ値の中の最小値を選択し(206)、該最小値に対応するピッチをピッチとして設定する段階と、
    を含む方法。
  2. 前記残差信号の残差信号エネルギ値を計算する前記段階は、
    前記ダウンサンプリングされた入力音声信号用の対象窓を設定し(203)、前記対象窓の中の前記残差信号の前記残差信号エネルギ値を得る段階
    を含む請求項1に記載の方法。
  3. 前記ダウンサンプリングされた入力音声信号用の対象窓を設定する(203)前記段階は、
    前記入力音声信号において最大振幅のパルスを検索する段階と、
    前記パルスの位置に応じて前記対象窓を設定する段階と、
    を含む請求項2に記載の方法。
  4. 前記予め設定されたピッチ範囲の各ピッチに対応する残差信号の残差信号エネルギ値を計算する(205)前記段階は、
    Figure 2013068977
    に従って計算する段階を含み、ここに、[k1,k2] は、ピッチ範囲を表し、xk(i) は、予め設定されたピッチ範囲の各ピッチに対応する残差信号を表し、そして Ek(i) は、k に対応する残差信号のエネルギを表す、請求項1乃至3のいずれか一項に記載の方法。
  5. LTP寄与信号は、LTP励振信号 y2(i-k) 及びピッチ利得に基づき決定され、y2(n) は、ダウンサンプリングされた入力音声信号を表し、k は、前記ピッチ範囲の各ピッチを表す、請求項1乃至4のいずれか一項に記載の方法。
  6. 前記ピッチ利得は、固定値であるか、又は前記予め設定されたピッチ範囲の前記ピッチに応じて適応して決定された値である請求項5に記載の方法。
  7. 前記予め設定されたピッチ範囲の各ピッチに対応する前記残差信号は、
    Figure 2013068977
    に従って計算され、ここに、xk(i) は、前記予め設定されたピッチ範囲の各ピッチに対応する残差信号を表し、y2(n) は、前記ダウンサンプリングされた入力音声信号を表し、k は、前記ピッチ範囲の各ピッチを表し、対象窓の範囲は、[s min, s max] であり、Lは、前記入力音声信号の長さである、請求項2乃至6のいずれか一項に記載の方法。
  8. コンピュータプロセッサによって実行されるとき、請求項1乃至7のいずれか一項に記載の段階を該コンピュータプロセッサに実行させるコンピュータプログラムコードを含むコンピュータ判読可能記憶媒体。
JP2013012618A 2008-12-30 2013-01-25 ピッチ検索のための方法及び装置 Active JP5904469B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN200810247031.1 2008-12-30
CN2008102470311A CN101599272B (zh) 2008-12-30 2008-12-30 基音搜索方法及装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2009298386A Division JP5506032B2 (ja) 2008-12-30 2009-12-28 ピッチ検索のための方法及び装置

Publications (2)

Publication Number Publication Date
JP2013068977A true JP2013068977A (ja) 2013-04-18
JP5904469B2 JP5904469B2 (ja) 2016-04-13

Family

ID=41420686

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2009298386A Active JP5506032B2 (ja) 2008-12-30 2009-12-28 ピッチ検索のための方法及び装置
JP2013012618A Active JP5904469B2 (ja) 2008-12-30 2013-01-25 ピッチ検索のための方法及び装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2009298386A Active JP5506032B2 (ja) 2008-12-30 2009-12-28 ピッチ検索のための方法及び装置

Country Status (6)

Country Link
US (1) US20100169084A1 (ja)
EP (2) EP2204795B1 (ja)
JP (2) JP5506032B2 (ja)
KR (1) KR101096540B1 (ja)
CN (1) CN101599272B (ja)
AT (1) ATE533146T1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4871894B2 (ja) * 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
CN103189916B (zh) * 2010-11-10 2015-11-25 皇家飞利浦电子股份有限公司 估计信号模式的方法和设备
CN104115220B (zh) 2011-12-21 2017-06-06 华为技术有限公司 非常短的基音周期检测和编码
CN103426441B (zh) 2012-05-18 2016-03-02 华为技术有限公司 检测基音周期的正确性的方法和装置
KR101832368B1 (ko) * 2014-01-24 2018-02-26 니폰 덴신 덴와 가부시끼가이샤 선형 예측 분석 장치, 방법, 프로그램 및 기록 매체
CN106415718B (zh) * 2014-01-24 2019-10-25 日本电信电话株式会社 线性预测分析装置、方法以及记录介质
CN105513604B (zh) * 2016-01-05 2022-11-18 浙江诺尔康神经电子科技股份有限公司 一种基频轮廓提取的人工耳蜗言语处理方法和系统
CN113129913B (zh) * 2019-12-31 2024-05-03 华为技术有限公司 音频信号的编解码方法和编解码装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58140798A (ja) * 1982-02-15 1983-08-20 株式会社日立製作所 音声ピツチ抽出方法
JPS622300A (ja) * 1985-06-27 1987-01-08 松下電器産業株式会社 音声ピツチ抽出装置
JPS629399A (ja) * 1985-07-05 1987-01-17 シャープ株式会社 音声ピツチ周波数抽出装置
JPH07271393A (ja) * 1994-03-28 1995-10-20 Sony Corp オーディオピッチ抽出装置及びオーディオ処理装置
JPH0876793A (ja) * 1994-09-02 1996-03-22 Toshiba Corp 音声符号化装置及び音声符号化方法
JPH09258796A (ja) * 1996-03-25 1997-10-03 Toshiba Corp 音声合成方法
JP2001125600A (ja) * 1999-10-26 2001-05-11 Sony Corp 再生速度変換装置及び方法

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
IT1270438B (it) * 1993-06-10 1997-05-05 Sip Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce
JPH08263099A (ja) * 1995-03-23 1996-10-11 Toshiba Corp 符号化装置
US6064962A (en) * 1995-09-14 2000-05-16 Kabushiki Kaisha Toshiba Formant emphasis method and formant emphasis filter device
US5867814A (en) * 1995-11-17 1999-02-02 National Semiconductor Corporation Speech coder that utilizes correlation maximization to achieve fast excitation coding, and associated coding method
JPH10105195A (ja) * 1996-09-27 1998-04-24 Sony Corp ピッチ検出方法、音声信号符号化方法および装置
JP3575967B2 (ja) * 1996-12-02 2004-10-13 沖電気工業株式会社 音声通信システムおよび音声通信方法
US6470309B1 (en) * 1998-05-08 2002-10-22 Texas Instruments Incorporated Subframe-based correlation
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
GB2357683A (en) * 1999-12-24 2001-06-27 Nokia Mobile Phones Ltd Voiced/unvoiced determination for speech coding
US7171355B1 (en) * 2000-10-25 2007-01-30 Broadcom Corporation Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals
US6889187B2 (en) * 2000-12-28 2005-05-03 Nortel Networks Limited Method and apparatus for improved voice activity detection in a packet voice network
US6766289B2 (en) * 2001-06-04 2004-07-20 Qualcomm Incorporated Fast code-vector searching
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
CA2392640A1 (en) * 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
WO2004034379A2 (en) * 2002-10-11 2004-04-22 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
WO2004084179A2 (en) * 2003-03-15 2004-09-30 Mindspeed Technologies, Inc. Adaptive correlation window for open-loop pitch
EP1513137A1 (en) * 2003-08-22 2005-03-09 MicronasNIT LCC, Novi Sad Institute of Information Technologies Speech processing system and method with multi-pulse excitation
KR100552693B1 (ko) * 2003-10-25 2006-02-20 삼성전자주식회사 피치검출방법 및 장치
US20070299658A1 (en) * 2004-07-13 2007-12-27 Matsushita Electric Industrial Co., Ltd. Pitch Frequency Estimation Device, and Pich Frequency Estimation Method
US7752039B2 (en) * 2004-11-03 2010-07-06 Nokia Corporation Method and device for low bit rate speech coding
KR100744352B1 (ko) * 2005-08-01 2007-07-30 삼성전자주식회사 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
EP1979901B1 (de) * 2006-01-31 2015-10-14 Unify GmbH & Co. KG Verfahren und anordnungen zur audiosignalkodierung
US7925502B2 (en) * 2007-03-01 2011-04-12 Microsoft Corporation Pitch model for noise estimation
CN101030374B (zh) * 2007-03-26 2011-02-16 北京中星微电子有限公司 基音周期提取方法及装置
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58140798A (ja) * 1982-02-15 1983-08-20 株式会社日立製作所 音声ピツチ抽出方法
JPS622300A (ja) * 1985-06-27 1987-01-08 松下電器産業株式会社 音声ピツチ抽出装置
JPS629399A (ja) * 1985-07-05 1987-01-17 シャープ株式会社 音声ピツチ周波数抽出装置
JPH07271393A (ja) * 1994-03-28 1995-10-20 Sony Corp オーディオピッチ抽出装置及びオーディオ処理装置
JPH0876793A (ja) * 1994-09-02 1996-03-22 Toshiba Corp 音声符号化装置及び音声符号化方法
JPH09258796A (ja) * 1996-03-25 1997-10-03 Toshiba Corp 音声合成方法
JP2001125600A (ja) * 1999-10-26 2001-05-11 Sony Corp 再生速度変換装置及び方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6012004024; 小池 恒彦,筧 一彦,古井 貞熙,北脇 信彦,東倉 洋一: '音声情報工学' 音声情報工学 , 1987, 55-60, NTTアドバンステクノロジ株式会社 *

Also Published As

Publication number Publication date
CN101599272A (zh) 2009-12-09
EP2420999A2 (en) 2012-02-22
CN101599272B (zh) 2011-06-08
JP5506032B2 (ja) 2014-05-28
KR101096540B1 (ko) 2011-12-20
EP2204795B1 (en) 2011-11-09
EP2420999A3 (en) 2013-10-30
KR20100080457A (ko) 2010-07-08
JP5904469B2 (ja) 2016-04-13
US20100169084A1 (en) 2010-07-01
ATE533146T1 (de) 2011-11-15
JP2010156975A (ja) 2010-07-15
EP2204795A1 (en) 2010-07-07

Similar Documents

Publication Publication Date Title
JP5904469B2 (ja) ピッチ検索のための方法及び装置
US8386246B2 (en) Low-complexity frame erasure concealment
TWI582758B (zh) 藉由使用諧波抑制而從ㄧ第一編碼演算法以及ㄧ第二編碼演算法中選擇其中之一之裝置與方法
KR101350285B1 (ko) 신호를 부호화 및 복호화하는 방법, 장치 및 시스템
WO2010091554A1 (zh) 一种基音周期检测方法和装置
JP2005208648A (ja) スイッチング状態空間モデルによるマルチモーダル的変分推論を使用して音声を認識する方法
EP2593937A1 (en) Audio encoder and decoder and methods for encoding and decoding an audio signal
KR20040042903A (ko) 일반화된 분석에 의한 합성 스피치 코딩 방법 및 그방법을 구현하는 코더
KR100463417B1 (ko) 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치
KR20230129581A (ko) 음성 정보를 갖는 개선된 프레임 손실 보정
EP1103953A2 (en) Method for concealing erased speech frames
US20090055171A1 (en) Buzz reduction for low-complexity frame erasure concealment
US8831961B2 (en) Preprocessing method, preprocessing apparatus and coding device
CN115101088A (zh) 音频信号恢复方法、装置、电子设备及介质
JP4691079B2 (ja) 音声信号区間推定装置、方法、プログラムおよびこれを記録した記録媒体
JP4690973B2 (ja) 信号区間推定装置、方法、プログラム及びその記録媒体
JP2008058901A (ja) 音響信号区間検出方法、装置、プログラム及びその記録媒体
JPH08211895A (ja) ピッチラグを評価するためのシステムおよび方法、ならびに音声符号化装置および方法
KR100554165B1 (ko) 피치 지연값의 배수에 의한 영향 제거가 가능한 celp기반 음성부호화기 및 피치 지연값의 배수에 의한 영향제거 방법
CN115862685A (zh) 一种实时语音活动的检测方法、装置和电子设备
JP4653673B2 (ja) 信号判定装置、信号判定方法、信号判定プログラムおよび記録媒体
WO2020223797A1 (en) Methods and devices for detecting an attack in a sound signal to be coded and for coding the detected attack
KR20200137900A (ko) 음성 인식률을 향상시키기 위한 타겟 음성 신호 출력 장치 및 방법
JP2002366172A (ja) ピッチ成分を抑圧した線形予測分析方法及び線形予測分析回路
JP2002244700A (ja) 音声符号化装置、音声符号化方法および記憶素子

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130709

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130927

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151027

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160307

R150 Certificate of patent or registration of utility model

Ref document number: 5904469

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250