JP7202161B2 - 改善されたピッチラグ推定を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法 - Google Patents

改善されたピッチラグ推定を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法 Download PDF

Info

Publication number
JP7202161B2
JP7202161B2 JP2018228601A JP2018228601A JP7202161B2 JP 7202161 B2 JP7202161 B2 JP 7202161B2 JP 2018228601 A JP2018228601 A JP 2018228601A JP 2018228601 A JP2018228601 A JP 2018228601A JP 7202161 B2 JP7202161 B2 JP 7202161B2
Authority
JP
Japan
Prior art keywords
pitch
frame
lag
samples
reconstructed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018228601A
Other languages
English (en)
Other versions
JP2019066867A (ja
Inventor
ジェレミー ルコント、
ミヒャエル シュナーベル、
ゴーラン マールコヴィッチ、
マルティン デイツ、
ベルンハルト ノイゲバウア、
Original Assignee
フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. filed Critical フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.
Publication of JP2019066867A publication Critical patent/JP2019066867A/ja
Priority to JP2021049334A priority Critical patent/JP2021103325A/ja
Application granted granted Critical
Publication of JP7202161B2 publication Critical patent/JP7202161B2/ja
Priority to JP2023040193A priority patent/JP2023072050A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/107Sparse pulse excitation, e.g. by using algebraic codebook
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0003Backward prediction of gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation
    • G10L2019/0008Algebraic codebooks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

本発明は、オーディオ信号処理、詳細には、音声処理に関し、かつより詳細には、ACELP型封じ込め(ACELP(Algebraic Code Excited Linear Prediction)=代数符号励振線形予測)における適応型コードブックの改善された封じ込めのための装置および方法に関する。
オーディオ信号処理は、ますます重要度が増している。オーディオ信号処理の分野では、封じ込め技術が重要な役割を果たす。フレームが失われたり破損された場合、その失われたり破損されたフレームからの失われた情報を置換する必要がある。音声信号処理においては、特に、ACELPまたはACELP型音声コーデックを考慮する場合、ピッチ情報が非常に重要である。ピッチ予測技術およびパルス再同期化技術が必要とされる。
ピッチの再構成に関して、様々なピッチ外挿技術が先行技術には存在する。
これらの技術の1つが、繰り返しによる技術である。前提技術のコーデックのほとんどが単純な繰り返しによる封じ込めのアプローチを適用しており、これは、良好なフレームが到着して新しいピッチ情報をビットストリームから復号化できるまで、パケット損失前に最後に正確に受信されたピッチ周期を繰り返すことを意味する。あるいは、パケットの損失時よりもう少し前に受信されたピッチ値を選択することによるピッチ安定性論理を適用する。繰り返しによるアプローチに従うコーデックは、例えば、G.719(非特許文献9[ITU08b、8.6]を参照)、G.729(非特許文献10[ITU12、4.4]を参照)、AMR(非特許文献2[3GP12a、6.2.3.1]、非特許文献4[ITU03]を参照)、AMR-WB(非特許文献3[3GP12b、6.2.3.4.2]を参照)およびAMR-WB+(ACELPおよびTCX20(ACELP型)封じ込め)、(非特許文献1[3GP09]を参照) (AMR=適応型マルチレート(Adaptive Multi‐Rate)、AMR‐WB=適応型マルチレートワイドバンド(Adaptive Multi‐Rate‐Wideband)である。
先行技術の他のピッチ再構成技術は、時間領域からのピッチの生成である。いくつかのコーデックについては、ピッチは、封じ込めのため必要だが、ビットストリームには埋め込まれない。したがって、ピッチ周期を計算するため、前のフレームの時間領域信号に基づいてピッチを計算して、次いでこれを封じ込め中、一定に保つ。このアプローチに従うコーデックは、たとえばG.722であり、特に、G.722補遺3(非特許文献5[ITU06a、III.6.6およびIII.6.7]を参照)およびG.722補遺4(非特許文献7[ITU07、 IV.6.1.2.5]を参照)を参照。
先行技術の他のピッチ再構成技術は、外挿によるものである。いくつかの前提技術のコーデックは、ピッチ外挿アプローチを適用し、かつ、応じてパケット損失中に、外挿されたピッチ推定値にピッチを変更する特定のアルゴリズムを実行する。こられのアプローチについては、以下にG.718およびG.729.1を参照してより詳細に説明する。
まず、G.718を考察する(非特許文献8[ITU08a]を参照)。未来のピッチの推定は、声門パルス再同期化モジュールを支持するために、外挿により実行される。可能な将来のピッチ値についてのこの情報は、封じ込められた励振の声門パルスを同期するために使用される。
最後の良好なフレームが、「無声」ではない場合にのみピッチ外挿が行われる。G.718のピッチ外挿は、エンコーダがスムーズなピッチ輪郭を有するという仮定に基づく。前記外挿は、消失前の最後の7つのサブフレームのピッチラグd[i] frに基づき実行される。
G.718においては、フレームが正しく受け取られるたびに浮動ピッチ値の履歴更新が行われる。この目的で、ピッチ値は、コアモードが「無声」以外の場合にのみ更新される。損失フレームの場合には、浮動ピッチラグ間の差d[i] dfrが以下の式により計算される。
Figure 0007202161000001
式(1)において、d[-1] frは、前のフレームの最後の(すなわち、第4の)サブフレームのピッチラグを示し、d[-2] frは、前のフレームの第3のサブフレームのピッチラグを示す等である。
G.718によれば、差d[i] frの和は、以下のように計算される。
Figure 0007202161000002
値Δ[i] dfrは、正または負が可能なので、Δ[i] dfrの符号の反転回数が合計され、かつ第1の反転の位置が、メモリに保存されるパラメータにより示される。
パラメータfcorrは、以下の式により得られる。
Figure 0007202161000003
ここで、dmax=231は、最大想定ピッチラグである。
G.718において、最大の絶対差を示す位置imaxは、以下の定義により得られる。
Figure 0007202161000004
この最大差についての比は、以下のように計算される。
Figure 0007202161000005
この比が5以上の場合、最後に正しく受け取られたフレームの4番目のサブフレームのピッチが、封じ込められるべき全サブフレームについて使用される。この比が5以上の場合、これは、アルゴリズムがこのピッチを外挿するのに十分に確実ではなく、かつ声門パルス再同期化が行われないことを意味する。
maxが、5未満の場合、できる限り良好な外挿が行えるよう、さらなる処理が行われる。未来のピッチを外挿するために3つの異なる方法が利用される。可能なピッチ外挿アルゴリズムから選択を行うため、偏差パラメータfcоrr2を計算するが、これは、ファクタfcоrr、および最大ピッチ変化の位置imaxに依存する。しかしながら、まず、平均から大きすぎるピッチ差を除去するために、平均浮動ピッチ差を修正する。
cоrr<0.98であり、imax=3の場合、2つのフレーム間の遷移に関連するピッチ差を除くために、平均分数ピッチ差/Δdfrが以下の式により決定される。
Figure 0007202161000006
fcorr≧0.98またはimax≠3の場合、平均小数ピッチ差/Δdfrは、以下のとおり計算され、
Figure 0007202161000007
かつ最大浮動ピッチ差は、この新しい平均値により置き換えられる。
Figure 0007202161000008
浮動ピッチ差のこの新しい平均で、正規化された偏差fcоrr2は、以下のとおり計算される。
Figure 0007202161000009
ここで、Isfは、第1のケースにおいては4であり、第2のケースでは6である。
この新しいパラメータに依拠して、未来のピッチを外挿する3つの方法の中から選択を行う。
・Δ[i] dfrが2回を上回って符号を変え(高いピッチ変化を意味する)、第1の符号反転が、最後の良好なフレーム(i<3について)におけるものであり、かつfcоrr2>0.945の場合、外挿されるピッチdext(外挿されるピッチはTextとも表す)を以下のとおり計算する。
Figure 0007202161000010
・0.945<fcоrr2<0.99で、かつ、Δ dfrが1回以上符号を変える場合には、ピッチを外挿するために分数ピッチ差の重み付き平均が採用される。平均差の重み付けfは、正規化された偏差fcоrr2に関連し、かつ第1の符号の反転の位置は以下のとおり規定される。
Figure 0007202161000011
この式のパラメータimemは、Δ dfrの第1の符号反転の位置に依存するので、第1の符号反転が過去のフレームの最後の2つのサブフレーム間で起こっていれば、imem=0となり、第1の符号反転が過去のフレームの第2および第3のサブフレーム間で起こっていれば、imem=1となり、以下同様である。第1の符号反転が、最後のフレームの終りに近ければ、これは、ピッチの変化が損失フレームのすぐ前では、より安定していなかったことを意味する。したがって、平均に適用される重み付けファクタは、0に近くなり、外挿されたピッチdextは、最後の良好なフレームの第4のサブフレームのピッチに近くなる。
Figure 0007202161000012
・さもなければ、ピッチの展開は、安定していると考えられ、外挿されたピッチdextは、以下のとおり決定される。
Figure 0007202161000013
この処理の後、ピッチラグは、34から231の範囲に制限される(これらの値は、最小および最大許容ピッチラグを示す)。
ここで、ピッチ再構成技術に基づく外挿の他の例を示すため、G.729.1を考える(非特許文献6[ITU06b]を参照)。
G.729.1は、復号化可能な前方誤り封じ込め情報(フェーズ情報等)がない場合のピッチ外挿アプローチ(特許文献1[Gaо]を参照)を特徴とする。これは、たとえば、2つの連続するフレームが失われた場合に起こる(1つのスーパーフレームが、ACELPまたはTCX20いずれかが可能な4つのフレームからなる)。また、可能なTCX40またはTCX80フレームおよびそのほとんどすべての組み合わせが存在する。
有声領域で1以上のフレームが失われた場合、つねに前のピッチ情報を使用して現在失われているフレームを再構成する。現在の推定されるピッチの精度は、オリジナル信号の位相整合に直接影響を与える可能性があり、現在の損失フレームおよび損失フレーム後に受信されたフレームの再構成品質には決定的である。前のピッチラグを単にコピーするのではなく、いくつかの過去のピッチラグを使うことで、統計的により良いピッチ推定が得られると考えられる。G.729.1のコーダにおいて、FEC(FEC=前方誤り訂正)のためのピッチ外挿は、過去の5つのピッチ値に基づく線形外挿から構成される。過去の5つのピッチ値は、P(i)(i=0、1、2、3、4)で、P(4)が最も最近のピッチ値である。外挿モデルは、以下のとおり規定される。
Figure 0007202161000014
損失フレームにおける、第1のサブフレームについての外挿されたピッチ値は、以下のとおり規定される。
Figure 0007202161000015
係数aおよびbを決定するために、誤差Eを最小化する。誤差Eは、以下のとおり規定される。
Figure 0007202161000016
以下のとおり設定することで、
Figure 0007202161000017
aおよびbは、以下のとおりになる。
Figure 0007202161000018
以下では、非特許文献11([MCZ11])に提示されるようなAMR-WBコーデックのための先行技術のフレーム消失封じ込めコンセプトについて説明する。このフレーム消失封じ込めコンセプトは、ピッチおよびゲイン線形予測に基づく。前記論文では、フレームの損失の場合に、最小二乗平均誤差基準(Minimum Mean Square Error Criterion)に基づいた線形ピッチ内挿/外挿アプローチを提案する。
このフレーム消失封じ込めコンセプトによれば、デコーダで、消失したフレームの前の最後の有効なフレーム(過去のフレーム)のタイプが、消失フレーム後の最も早いフレーム(未来のフレーム)のタイプと同じ場合、ピッチP(i)が規定され、i=-N,-N+1、...、0、1、...、N+4、N+5であり、かつ、Nは、消失したフレームの過去および未来のサブフレームの数である。P(1)、P(2)、P(3)、P(4)が、消失したフレームにおける4つのサブフレームの4つのピッチであり、P(0)、(-1)、...P(-N)が、過去のサブフレームのピッチであり、かつ、P(5)、P(6)、...、P(N+5)が未来のサブフレームのピッチである。線形予測モデルP’(i)=a+b・iが採用される。i=1、2、3、4で、P’(1)、P’(2)、P’(3)、P’(4)は、消失したフレームについての予測ピッチである。MMS基準(MMS=最小二乗平均(Minimum Mean Square))を考慮して、内挿アプローチにより、2つの予測される係数aおよびbの値を生成する。このアプローチによれば、誤差Eは、以下のとおり規定される。
Figure 0007202161000019
次に、係数aおよびbは、以下を計算することにより得ることができる。
Figure 0007202161000020
消失フレームの最後の4つのサブフレームについてのピッチラグは、以下のとおり計算できる。
Figure 0007202161000021
N=4で、最良の結果が得られることがわかる。N=4とは、過去の5つのサブフレームと未来の5つのサブフレームを内挿に使用することを意味する。
しかしながら、過去のフレームのタイプが未来のフレームのタイプと異なる場合、例えば、過去のフレームが有声で、未来のフレームが無声の場合、上記の外挿アプローチを使用して、消失フレームのピッチを予測するために、過去または未来のフレームの有声のピッチだけが使用される。
ここで、特にG.718およびG.729.1を参照して、先行技術のパルス再同期化を考える。パルス再同期化のためのアプローチは、特許文献2([VJGS12])に記載される。
まず、励振の周期的部分を構成することについて説明する。
「無声」以外の正しく受信されたフレームに続く消失したフレームを封じ込めるため、励振の周期的部分を、前のフレームのローパスフィルタ処理した最後のピッチ周期を繰り返すことにより構成する。
周期的部分の構成は、前のフレームの終りから励振信号のローパスフィルタ処理されたセグメントの単純なコピーを使用することによって行う。
ピッチ周期長さは、最も近い整数に丸められる。
Figure 0007202161000022
最後のピッチ周期の長さがTであると考えれば、コピーされたセグメントの長さTは、たとえば以下のように規定され得る。
Figure 0007202161000023
周期的な部分は、1つのフレームおよび1つの追加サブフレームについて構成される。
たとえば、フレームにおいてM個のサブフレームがあれば、サブフレームの長さはL_subfr=L/Mであり、ここで、Lは、フレームの長さであり、Lframeとしても示される(L=Lframe)。
図3は、音声信号の構成された周期的部分を示す。
T[0]は、励振の構成された周期的部分における第1の最大パルスの場所である。他のパルスの位置は、以下の式により与えられる。
Figure 0007202161000024
これは、以下の式に対応する。
Figure 0007202161000025
励振の周期的部分の構成の後、損失フレーム(P)における最後のパルスの推定されるターゲット位置と励振の構成された周期的部分におけるその実際の位置(T[k])との間の差を修正するために、声門パルス再同期化が行われる。
ピッチラグ展開は、損失フレームの前の最後の7つのサブフレームのピッチラグに基づいて外挿される。各サブフレームにおける展開ピッチラグは、以下のとおりである。
Figure 0007202161000026
ここで
Figure 0007202161000027
であり、かつ、Text(dextとも呼ぶ)は、dextについての上に記載する外挿ピッチである。
一定ピッチ(T)のピッチサイクル内のサンプルの合計数の和と、展開するピッチp[i]のピッチサイクル内のサンプルの合計数の和との間のdで示す差は、フレーム長さの範囲内でみつかる。dを見つける方法について文献には記載がない。
G.718(非特許文献8[ITU08a]を参照)のソースコードでは、dは、以下のアルゴリズムを用いて見つけられる(ここで、Mは、フレームにおけるサブフレームの数)。
Figure 0007202161000028
フレーム長さの範囲で構成される周期的部分のパルス+未来のフレームにおける第1パルスの数はNである。Nを見つける方法について文献には記載がない。
G.718(非特許文献[ITU08a]を参照)のソースコードにおいて、Nは以下のとおり見つけられる。
Figure 0007202161000029
損失フレームに属する励振の構成された周期的部分における最後のパルスT[n]の位置は、以下の式により決定される。
Figure 0007202161000030
推定される最後のパルス位置Pは、
Figure 0007202161000031
である。
最後のパルス位置の実際の位置T[k]は、推定されるターゲット位置Pに最も近い励振(サーチにおける現在のフレームの後の最初のパルスを含む)の構成された周期的部分のパルスの位置である。
Figure 0007202161000032
声門パルス再同期化は、フルピッチサイクルの最小エネルギ領域においてサンプルを加えたり除いたりすることにより行われる。加えたり除いたりするサンプルの数は、以下の差により決定される。
Figure 0007202161000033
最小エネルギ領域は、スライドする5サンプルのウィンドウを使用して決定される。最小エネルギ位置は、エネルギが最小のウィンドウの中央に設定される。T[i]+Tc/8~T[i+1]-Tc/4からの2つのピッチパルス間でサーチが行われる。Nmin=n-1の最小エネルギ領域が存在する。
min=1の場合、最小エネルギ領域は、1つしかなく、diffサンプルがその位置で挿入されるかまたは削除される。
min>1については、最初に加えられるかまたは除かれるサンプルは、より少なく、フレームの終りに向かって多くなる。パルスT[i]とT[i+1]との間で除かれるかまたは加えられるサンプルの数は、以下の再帰関係に従って見つけられる。
Figure 0007202161000034
R[i]<R[i-1]の場合、R[i]およびR[i-1]の値が交換される。
ヨーロッパ特許第2002427B1号([Gao] Yang Gao, Pitch prediction for packet loss concealment, European Patent 2 002 427 B1) 米国特許第8255207B2号([VJGS12] Tommy Vaillancourt, Milan Jelinek, Philippe Gournay, and Redwan Salami, Method and device for efficient frame erasure concealment in speech codecs, US 8,255,207 B2, 2012)
[3GP09] 3GPP; Technical Specification Group Services and System Aspects, Extended adaptive multi-rate - wideband (AMR-WB+) codec, 3GPP TS 26.290, 3rd Generation Partnership Project, 2009 [3GP12a] , Adaptive multi-rate (AMR) speech codec; error concealment of lost frames (release 11), 3GPP TS 26.091, 3rd Generation Partnership Project, Sep 2012 [3GP12b] , Speech codec speech processing functions; adaptive multi-rate - wideband (AMRWB) speech codec; error concealment of erroneous or lost frames, 3GPP TS 26.191, 3rd Generation Partnership Project, Sep 2012 [ITU03] ITU-T, Wideband coding of speech at around 16 kbit/s using adaptive multi-rate wideband (amr-wb), Recommendation ITU-T G.722.2, Telecommunication Standardization Sector of ITU, Jul 2003 [ITU06a] , G.722 Appendix III: A high-complexity algorithm for packet loss concealment for G.722, ITU-T Recommendation, ITU-T, Nov 2006 [ITU06b] , G.729.1: G.729-based embedded variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with g.729, Recommendation ITU-T G.729.1, Telecommunication Standardization Sector of ITU, May 2006 [ITU07] , G.722 Appendix IV: A low-complexity algorithm for packet loss concealment with G.722, ITU-T Recommendation, ITU-T, Aug 2007 [ITU08a] , G.718: Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s, Recommendation ITU-T G.718, Telecommunication Standardization Sector of ITU, Jun 2008 [ITU08b] , G.719: Low-complexity, full-band audio coding for high-quality, conversational applications, Recommendation ITU-T G.719, Telecommunication Standardization Sector of ITU, Jun 2008 [ITU12] , G.729: Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear prediction (cs-acelp), Recommendation ITU-T G.729, Telecommunication Standardization Sector of ITU, June 2012 [MCZ11] Xinwen Mu, Hexin Chen, and Yan Zhao, A frame erasure concealment method based on pitch and gain linear prediction for AMR-WB codec, Consumer Electronics (ICCE), 2011 IEEE International Conference on, Jan 2011, pp. 815-816 [MTTA90] J.S. Marques, I. Trancoso, J.M. Tribolet, and L.B. Almeida, Improved pitch prediction with fractional delays in celp coding, Acoustics, Speech, and Signal Processing, 1990. ICASSP-90., 1990 International Conference on, 1990, pp. 665-668 vol.2
本発明の目的は、オーディオ信号処理についての改善されたコンセプトを提供することであり、特に、音声処理についての改善されたコンセプトを提供することであり、かつより詳細には、改善された封じ込めのコンセプトを提供することである。
本発明の目的は、請求項1に記載の装置、請求項15に記載の方法および請求項16に記載のコンピュータプログラムにより解決される。
推定されるピッチラグを決定するための装置が提供される。この装置は、複数のオリジナルピッチラグ値を受けるための入力インターフェースと、推定ピッチラグを推定するためのピッチラグ推定器とを含む。ピッチラグ推定器が、複数のオリジナルピッチラグ値および複数の情報値に依拠して、推定ピッチラグを推定するよう構成され、複数のオリジナルピッチラグ値の各々のオリジナルピッチラグ値について、複数の情報値のうちの1つの情報値が、前記オリジナルピッチラグ値に割り当てられる。
実施形態によれば、ピッチラグ推定器が、たとえば複数のオリジナルピッチラグ値と、複数の情報値としての複数のピッチゲイン値とに依拠して、推定ピッチラグを推定するよう構成されることが可能で、複数のオリジナルピッチラグ値の各々のオリジナルピッチラグ値について、複数のピッチゲイン値のうちの1つのピッチゲイン値が、前記オリジナルピッチラグ値に割り当てられる。
特定の実施形態において、複数のピッチゲイン値の各々が、たとえば適応型コードブックゲインであり得る。
ある実施形態において、ピッチラグ推定器が、たとえば誤差関数を最小化することにより推定ピッチラグを推定するよう構成され得る。
ある実施形態によれば、ピッチラグ推定器が、たとえば以下の誤差関数を最小化することにより、2つのパラメータa、bを決定して、推定ピッチラグを推定するよう構成されることが可能で、
Figure 0007202161000035
ここで、aは実数であり、bは実数であり、kは、k≧2の整数であり、P(i)は、i番目のオリジナルピッチラグ値であり、g(i)が、i番目のピッチラグ値P(i)に割り当てられるi番目のピッチゲイン値である。
ある実施形態において、ピッチラグ推定器を、たとえば以下の誤差関数を最小化することにより2つのパラメータa、bを決定して、推定ピッチラグを推定するよう構成することが可能で、
Figure 0007202161000036
ここで、aは実数であり、bは実数であり、P(i)はi番目のオリジナルピッチラグ値であり、g(i)は、i番目のピッチラグ値P(i)に割り当てられるi番目のピッチゲイン値である。
ある実施形態によれば、ピッチラグ推定器は、たとえばp=a・i+bに従って推定ピッチラグpを決定するよう構成され得る。
ある実施形態において、ピッチラグ推定器を、たとえば複数のオリジナルピッチラグ値と、複数の情報値としての複数の時間値とに依拠して、推定ピッチラグを推定するよう構成することが可能で、複数のオリジナルピッチラグ値の各々のオリジナルピッチラグ値について、複数の時間値のうちの1つの時間値が前記オリジナルピッチラグ値に割り当てられる。
ある実施形態によれば、ピッチラグ推定器が、たとえば誤差関数を最小化することにより推定ピッチラグを推定するよう構成され得る。
ある実施形態において、ピッチラグ推定器を、たとえば以下の誤差関数を最小化することにより2つのパラメータa、bを決定して、推定ピッチラグを推定するよう構成することが可能で、
Figure 0007202161000037
ここで、aは実数であり、bは実数であり、kはk≧2の整数であり、かつp(i)はi番目のオリジナルピッチラグ値であり、timepassed(i)は、i番目のピッチラグ値P(i)に割り当てられたi番目の時間値である。
ある実施形態によれば、ピッチラグ推定器は、たとえば以下の誤差関数を最小化することにより2つのパラメータa、bを決定して、推定ピッチラグを推定するよう構成することが可能で、
Figure 0007202161000038
ここで、aは実数であり、bは実数であり、p(i)はi番目のオリジナルピッチラグ値であり、timepassed(i)が、i番目のピッチラグ値P(i)に割り当てられるi番目の時間値である。
ある実施形態において、ピッチラグ推定器が、p=a・i+bに従って推定ピッチラグpを決定するよう構成される。
また、推定ピッチラグを決定するための方法が提供される。この方法は、以下のステップを含む。
・複数のオリジナルピッチラグ値を受けるステップ
・推定ピッチラグを推定するステップ。
推定ピッチラグを推定するステップは、複数のオリジナルピッチラグ値と、複数の情報値とに依拠して行われ、複数のオリジナルピッチラグ値の各々のオリジナルピッチラグ値について、複数の情報値のうちの1つの情報値が、前記オリジナルピッチラグ値に割り当てられる。
さらに、コンピュータまたは信号プロセッサ上で実行されて、上記の方法を実現するためのコンピュータプログラムが提供される。
また、再構成されたフレームとして音声信号を含むフレームを再構成するための装置が提供され、前記再構成されたフレームが、1以上の入手可能なフレームと関連し、前記1以上の入手可能なフレームが、再構成されたフレームの1以上の先行フレームおよび再構成されたフレームの1以上の後続フレームのうちの1以上のフレームであり、1以上の入手可能なフレームが、1以上の入手可能なピッチサイクルとして、1以上のピッチサイクルを含む。この装置は、1以上の入手可能なピッチサイクルのうちの1つのサンプルの数と再構成されるべき第1のピッチサイクルのサンプルの数との差を示すサンプル数の差を決定するための決定部を含む。また、この装置は、サンプル数の差と、1以上の入手可能なピッチサイクルのうちの前記1つのサンプルとに依拠して、第1の再構成ピッチサイクルとして再構成されるべき第1のピッチサイクルを再構成することにより再構成フレームを再構成するためのフレーム再構成部を含む。フレーム再構成部は、再構成フレームを再構成するように構成され、それにより再構成フレームが完全にまたは部分的に第1の再構成ピッチサイクルを含み、再構成フレームが完全にまたは部分的に第2の再構成ピッチサイクルを含み、かつ第1の再構成ピッチサイクルのサンプル数が第2の再構成ピッチサイクルのサンプル数とは異なるようになっている。
ある実施形態によれば、決定部は、たとえば、再構成対象の複数のピッチサイクルの各々についてサンプル数の差を決定して、それによりピッチサイクルの各々のサンプル数の差が、1以上の入手可能なピッチサイクルのうちの前記1つのサンプルの数と、再構成対象の前記ピッチサイクルのサンプル数との差を示すようになっている。フレーム再構成部は、たとえば、再構成対象の前記ピッチサイクルのサンプル数の差および1以上の入手可能なピッチサイクルの前記1つのサンプルに依拠して、再構成対象の複数のピッチサイクルの各ピッチサイクルを再構成して、再構成フレームを再構成するよう構成され得る。
ある実施形態においては、フレーム再構成部は、たとえば、1以上の入手可能なピッチサイクルのうちの前記1つに依拠して中間フレームを生成するよう構成され得る。フレーム再構成部は、たとえば、再構成フレームを得るために、中間フレームを修正するよう構成され得る。
実施形態によれば、決定部は、たとえば、いくつのサンプルを中間フレームから取り除くかまたはいくつのサンプルを中間フレームに加えるかを示すフレーム差値(d;s)を決定するよう構成され得る。また、フレーム再構成部は、たとえば、フレーム差値が、第1のサンプルがフレームから除去されることを示す場合、再構成フレームを得るために中間フレームから第1のサンプルを除去するよう構成され得る。さらに、フレーム再構成部は、たとえば、フレーム差値(d;s)が、第2のサンプルがフレームに加えられることを示す場合、再構成フレームを得るために中間フレームに第2のサンプルを加えるよう構成され得る。
ある実施形態において、フレーム再構成部は、たとえば、フレーム差値が、第1のサンプルがフレームから除去されるべきことを示す場合、中間フレームから第1のサンプルを除去するよう構成することが可能で、中間フレームから除去される第1のサンプルの数がフレーム差値により示されるようになっている。また、フレーム再構成部は、たとえば、フレーム差値が、第2のサンプルがフレームに加えられるべきことを示す場合、中間フレームに第2のサンプルを加えるよう構成することが可能で、中間フレームに加えられる第2のサンプルの数がフレーム差値により示されるようになっている。
ある実施形態によれば、決定部は、たとえば、以下の式が真であるように、フレーム差数sを決定するように構成され得る。
Figure 0007202161000039
ここで、Lは、再構成フレームのサンプルの数を表し、Mは、再構成フレームのサブフレームの数を表し、Tは、1以上の入手可能なピッチサイクルの前記1つの丸められたピッチ周期長さを示し、p[i]は、再構成フレームのi番目のサブフレームの再構成されたピッチサイクルのピッチ周期長さを示す。
ある実施形態において、フレーム再構成部は、たとえば、1以上の入手可能なピッチサイクルの前記1つに依拠して中間フレームを生成するようになっていてもよい。また、フレーム再構成部は、たとえば、中間フレームが、第1の部分中間ピッチサイクル、1以上のさらなる中間ピッチサイクルおよび第2の部分中間ピッチサイクルを含むように中間フレームを生成するようにされてもよい。さらに、第1の部分中間ピッチサイクルは、たとえば、1以上の入手可能なピッチサイクルのうちの前記1つのサンプルのうちの1以上に依拠することが可能で、1以上のさらなる中間ピッチサイクルの各々が、1以上の入手可能なピッチサイクルの前記1つのサンプルの全部に依拠し、かつ第2の部分中間ピッチサイクルが、1以上の入手可能なピッチサイクルの前記1つのサンプルのうちの1以上に依拠する。また、決定部は、たとえば、第1の部分中間ピッチサイクルからいくつのサンプルを除くかまたは加えるかを示す開始部差数を決定するよう構成することができ、かつフレーム再構成部は、開始部差数に依拠して、第1の部分中間ピッチサイクルから1以上の第1のサンプルを除去するよう構成されるか、または第1の部分中間ピッチサイクルに1以上の第1のサンプルを加えるよう構成される。さらに、決定部は、たとえば、さらなる中間ピッチサイクルの前記1つから除くかまたは加えるサンプルの数を表すピッチサイクル差数を、さらなる中間ピッチサイクルの各々について決定するよう構成され得る。また、フレーム再構成部は、たとえば、前記ピッチサイクル差数に依拠して、さらなる中間ピッチサイクルの前記1つから1以上の第2のサンプルを除去するよう構成され得るか、または、さらなる中間ピッチサイクルの前記1つに1以上の第2のサンプルを加えるよう構成され得る。さらに、決定部は、たとえば、第2の部分中間ピッチサイクルから除くかまたは加えるサンプルの数を示す終了部差数を決定するよう構成することができ、かつフレーム再構成部は、終了部差数に依拠して、第2の部分中間ピッチサイクルから1以上の第3のサンプルを除去するよう構成される、かまたは第2の部分中間ピッチサイクルに1以上の第3のサンプルを加えるよう構成される。
ある実施形態によれば、フレーム再構成部は、たとえば、1以上の入手可能なピッチサイクルの前記1つに依拠して中間フレームを生成するよう構成され得る。また、決定部は、たとえば、中間フレームにより含まれる音声信号の1以上の低エネルギ信号部を決定するようにされてもよく、1以上の低エネルギ信号部の各々が、中間フレーム内の音声信号の第1の信号部であり、音声信号のエネルギが、中間フレームにより含まれる音声信号の第2の信号部におけるエネルギより低い。さらに、フレーム再構成部は、たとえば、再構成されたフレームを得るために、音声信号の1以上の低エネルギ信号部の1以上から1以上のサンプルを除去するか、または音声信号の1以上の低エネルギ信号部分の1以上へ1以上のサンプルを加えるよう構成され得る。
特定の実施形態において、フレーム再構成部は、たとえば、中間フレームを生成するよう構成されることが可能で、それにより中間フレームが1以上の再構成されたピッチサイクルを含み、1以上の再構成されたピッチサイクルの各々が、1以上の入手可能なピッチサイクルの前記1つに依拠するようになっている。また、決定部は、たとえば、1以上の再構成ピッチサイクルの各々から除去するサンプルの数を決定するように構成され得る。さらに、決定部は、たとえば、1以上の低エネルギ信号部の各々について、前記低エネルギ信号部のサンプルの数が、1以上の再構成ピッチサイクルの1つから除去されるサンプル数に依拠するように、1以上の低エネルギ信号部の各々を決定するように構成することが可能で、前記低エネルギ信号部が、1以上の再構成ピッチサイクルの前記1つ内に位置する。
ある実施形態において、決定部は、たとえば、再構成フレームとして再構成されるべきフレームの音声信号の1以上のパルスの位置を決定するよう構成され得る。また、フレーム再構成部は、たとえば、音声信号の1以上のパルスの位置に依拠して再構成フレームを再構成するよう構成され得る。
ある実施形態によれば、決定部は、たとえば、再構成フレームとして再構成されるべきフレームの音声信号の2以上のパルスの位置を決定するよう構成することが可能で、T[0]は、再構成フレームとして再構成されるべきフレームの音声信号の2以上のパルスのうちの1つの位置であり、かつ決定部は、以下の式に従う音声信号の2以上のパルスのうちのさらなるパルスの位置(T[i])を決定するよう構成される。
Figure 0007202161000040
ここで、Tは、1以上の入手可能なピッチサイクルの前記1つの丸められた長さを示し、かつiは整数である。
ある実施形態によれば、決定部は、たとえば、以下の式のように、再構成フレームとして再構成されるべきフレームの音声信号の最後のパルスのインデクスkを決定するよう構成され得る。
Figure 0007202161000041
ここで、Lは、再構成フレームのサンプルの数を示し、sは、フレーム差値を示し、T[0]は、音声信号の最後のパルスとは異なる再構成フレームとして再構成されるべきフレームの音声信号のパルスの位置を示し、Tは、1以上の入手可能なピッチサイクルの前記1つの丸められた長さを示す。
ある実施形態において、決定部は、たとえば、パラメータδを決定することにより再構成フレームとして再構成されるべきフレームを再構成するよう構成することが可能で、δは以下の式により規定される。
Figure 0007202161000042
ここで、再構成フレームとして再構成されるべきフレームは、M個のサブフレームを含み、Tは、1以上の入手可能なピッチサイクルの前記1つの長さを示し、Textは、再構成フレームとして再構成されるべきフレームの再構成されるべきピッチサイクルのうちの1つの長さを示す。
ある実施形態によれば、決定部は、たとえば、以下の式に基づき1以上の入手可能なピッチサイクルの前記1つの丸められた長さTを決定することにより再構成フレームを再構成するよう構成され得る。
Figure 0007202161000043
ここで、Tは、1以上の入手可能なピッチサイクルの前記1つの長さを示す。
ある実施形態において、決定部は、たとえば以下の式を適用することにより再構成フレームを再構成するよう構成され得る。
Figure 0007202161000044
ここで、Tは、1以上の入手可能なピッチサイクルの前記1つの長さを示し、Tは、1以上の入手可能なピッチサイクルの前記1つの丸められた長さを示し、再構成フレームとして再構成されるべきフレームは、M個のサブフレームを含み、再構成フレームとして再構成されるべきフレームは、L個のサンプルを含み、δが1以上の入手可能なピッチサイクルのうちの前記1つのサンプルの数と、再構成されるべき1以上のピッチサイクルの1つのサンプルの数との差を表す実数である。
また、音声信号を含むフレームを、再構成されたフレームとして再構成するための方法が提供され、前記再構成されたフレームが、1以上の入手可能なフレームと関連し、前記1以上の入手可能なフレームが、再構成されたフレームの1以上の先行フレームおよび再構成されたフレームの1以上の後続フレームのうちの1以上のフレームであり、1以上の入手可能なフレームが、1以上の入手可能なピッチサイクルとして、1以上のピッチサイクルを含み、この方法は、以下のステップを含む。
・1以上の入手可能なピッチサイクルのうちの1つのサンプルの数と再構成されるべき第1のピッチサイクルのサンプルの数との差を示すサンプル数の差(Δ ;Δ;Δ k+1)を決定するステップ。
・サンプル数の差(Δ ;Δ;Δ k+1)および1以上の入手可能なピッチサイクルのうちの前記1つのサンプルに依拠して、第1の再構成ピッチサイクルとして再構成されるべき第1のピッチサイクルを再構成することにより再構成フレームを再構成するステップ。
再構成フレームの再構成が行われ、それにより再構成フレームが完全にまたは部分的に第1の再構成ピッチサイクルを含み、再構成フレームが完全にまたは部分的に第2の再構成ピッチサイクルを含み、かつ第1の再構成ピッチサイクルのサンプル数が第2の再構成ピッチサイクルのサンプル数とは異なるようになっている。
さらに、コンピュータまたは信号プロセッサ上で実行されて、上記の方法を実現するためのコンピュータプログラムが提供される。
また、音声信号を含むフレームを再構成するためのシステムが提供される。このシステムは、上記および後述の実施形態の1つに従う推定ピッチラグを決定するための装置と、フレームを再構成するための装置とを含み、フレームを再構成するための装置が、推定ピッチラグに依拠してフレームを再構成するよう構成される。推定ピッチラグは、音声信号のピッチラグである。
ある実施形態において、再構成されたフレームが、たとえば、1以上の入手可能なフレームと関連し、前記1以上の入手可能なフレームが、再構成されたフレームの1以上の先行フレームおよび再構成されたフレームの1以上の後続フレームのうちの1以上のフレームであり、1以上の入手可能なフレームが、1以上の入手可能なピッチサイクルとして、1以上のピッチサイクルを含む。フレームを再構成するための装置は、たとえば、上記または後述の実施形態の1つに従ってフレームを再構成するための装置であってもよい。
本発明は、先行技術が大きな欠点を有するとする所見に基づく。G.718(非特許文献8[ITU08a]を参照)およびG.729.1(非特許文献6[ITU06b]を参照)の双方とも、フレーム損失の場合にピッチ外挿を用いる。これが必要なのは、フレーム損失時には、ピッチラグも失われるからである。G.718およびG.729.1によれば、ピッチは、最後の2つのフレームの間のピッチの展開を考慮に入れることにより外挿される。しかしながら、G.718およびG.729.1により再構成されるピッチラグは、あまり正確ではなく、たとえば、実際のピッチラグから大きく異なる再構成ピッチラグが得られる場合が多い。
本発明の実施形態により、より正確なピッチラグ再構成が提供される。この目的で、G.718およびG.729.1とは対照的に、いくつかの実施形態では、ピッチ情報の信頼性に関する情報を考慮する。
先行技術では、外挿が基礎とするピッチ情報は、最後に正確に受信された8つのピッチラグを含み、これらについては、符号化モードは「無声」とは異なっていた。しかしながら、先行技術では、低いピッチゲイン(低い予測ゲインに対応する)により示される有声特性が非常に弱いかもしれない。先行技術では、外挿が、異なるピッチゲインを有するピッチラグに基づく場合、外挿が、妥当な結果をもたらさないか、または、全くうまくいかず、再び単純なピッチラグ繰り返しのアプローチに戻ることになる。
実施形態は、先行技術のこれらの欠点の原因が、エンコーダ側で、適応型コードブックの符号化ゲインを最大化するため、ピッチゲインを最大化することに関してピッチラグを選択するが、音声特性が弱い場合には、音声信号における雑音でピッチラグ推定が不正確になるため、ピッチラグが基本周波数を正確に表示しない可能性があると言う点にあるとする所見に基づく。
したがって、実施形態によれば、封じ込め中に、ピッチラグ外挿の適用は、この外挿について使用した前に受信したラグの信頼性に依拠して重み付けが行われる。
いくつかの実施形態によれば、過去の適応型コードブックゲイン(ピッチゲイン)を、信頼性の尺度として採用し得る。
本発明の他のいくつかの実施形態によれば、ピッチラグがどこまで過去に受信されたかによる重み付けが信頼性の尺度として使用される。たとえば、より最近のラグには高い重み付けがされ、より後に受けられたラグにはより低い重み付けがされる。
実施形態によれば、重み付けピッチ予測のコンセプトが提供される。先行技術とは対照的に、本発明の実施形態により提供されるピッチ予測は、基礎とするピッチラグの各々についての信頼性の尺度を使用し、予測結果をより有効で安定したものにする。特に、ピッチゲインを信頼性の指標として使用することができる。代替的にまたは付加的に、いくつかの実施形態によれば、たとえば、ピッチラグを正しく受け取った後に経過した時間を、指標として使用することができる。
パルス再同期化については、本発明は、声門パルス再同期化に関する先行技術の欠点の1つは、ピッチ外挿が封じ込められたフレームにおいて構成すべきパルス(ピッチサイクル)の数を考慮しない点にあるとする所見に基づく。
先行技術によれば、ピッチにおける変化がサブフレームの境界でのみ予測されるようにピッチ外挿が行われる。
実施形態によれば、声門パルス再同期化を実行する際は、連続するピッチ変化とは異なるピッチ変化を考慮に入れることができる。
本発明の実施形態は、G.718およびG.729.1が以下の欠点を有するとする所見に基づく。
まず、先行技術では、dを計算する際に、フレーム内に整数個のピッチサイクルが存在すると仮定する。dが、封じ込めフレームにおける最後のパルスの場所を規定するので、非整数のピッチサイクルがフレーム内に存在する場合には、最後のパルスの位置は、正確にならない。これを、図6および図7に示す。図6は、サンプル除去前の音声信号を示す。図7は、サンプル除去後の音声信号を示す。さらに、dを計算するために先行技術が採用するアルゴリズムは非効率である。
また、先行技術の計算では、励振の構成された周期的部分において、パルス数Nが必要である。これが、不必要な計算の複雑さを増大させる。
さらに、先行技術においては、励振の構成された周期的部分におけるパルス数Nの計算は、第1のパルスの場所を考慮に入れない。
図4および図5において提示される信号は、長さTの同じピッチ周期を有する。
図4は、フレーム内に3つのパルスを有する音声信号を示す。
対照的に、図5は、フレーム内に2つのパルスのみを有する音声信号を示す。
図4および図5が示すこれらの例は、パルスの数が第1のパルスの位置に依拠することを示す。
また、先行技術によれば、Nが、後続のフレームにおける第1のパルスを含むと規定されても、励振の構成された周期的部分におけるN番目のパルスの場所であるT[N-1]が、フレーム長さの範囲内にあるかどうかをチェックする。
さらに、先行技術によれば、最初のパルスの前および最後のパルスの後には、サンプルが加えられたり除去されたりしない。本発明の実施形態は、このことが、第1のフルピッチサイクルの長さにおける突然の変化が起こる可能性があるという欠点につながり、これが、また、ピッチラグが減少している場合でさえ、最後のパルス後のピッチサイクルの長さが、最後のパルスの前の最後のフルピッチサイクルの長さより大きくなり得るという欠点につながるとする所見に基づく(図6および図7参照)。
実施形態は、パルスT[k]=P‐diffおよびT[n]=P-dが以下の場合等しくないという所見に基づく。
・d>[T/2]の場合。この場合、diff=T-dであり、かつ除去されたサンプルの数がdではなくdiffになる。
・T[k]が、未来のフレーム内にあり、かつdサンプルを除いて初めて現在のフレームに移動する場合。
・T[n]が、‐dサンプル(d<0)を加えた後に未来のフレームに移動する場合。
これが、封じ込められたフレームにおけるパルスの間違った位置につながる。
また、実施形態は、先行技術において、dの最大値が符号化されたピッチラグの最小許容値に制限されるという所見に基づく。これは、他の問題の発生を制限する制約だが、ピッチにおいて可能な変化も制限し、かつパルス再同期化も制限する。
さらに、実施形態は、先行技術において、周期的部分が整数ピッチラグを用いて構成され、かつこれが高調波の周波数シフトおよび一定のピッチでの音信号の封じ込めにおける大きな劣化を作り出すとする所見に基づく。この劣化については、丸められたピッチラグを用いるときに再同期化される音声信号の時間‐周波数表現を示す図8に見ることができる。
また、実施形態は、先行技術の問題の殆どが、dサンプルが除去される図6および図7の例が示すような状況で発生するという所見に基づく。ここでは、問題をより簡単に可視化するため、dの最大値についての制約はないと考える。問題は、dに限度があるがあまり明確に可視化されない場合にも生じる。連続して増加するピッチではなく、ピッチが突然増大した後に突然減少することも考えられる。実施形態は、これが、最後のパルスの前後でサンプルが除去されないこと、間接的にはパルスT[2]が、dサンプル除去の後のフレーム内で移動することを考慮に入れないことにより起こるとする所見に基づく。この例では、Nの計算の誤りも発生する。
実施形態によれば、改善されたパルス再同期化のコンセプトが提供される。実施形態は、音声を含むモノラルの信号の改善された封じ込めを提供し、これは、標準G.718(非特許文献8[ITU08a]を参照)およびG.729.1(非特許文献6[ITU06b]を参照)に記載の既存技術に比べて有利である。本件の実施形態は、一定のピッチの信号およびピッチが変化する信号両方に適している。
とりわけ、実施形態によれば3つの技術が提供される。
ある実施形態が提供する第1の技術によれば、G.718およびG.729.1とは対照的に、Nで表す構成された周期的部分におけるパルスの数の計算において、第1のパルスの場所を考慮に入れる、パルスについてのサーチコンセプトが提供される。
他の実施形態により提供される第2の技術によれば、G.718およびG.729.1とは対照的に、Nで示す、構成された周期的部分におけるパルスの数を必要とせず、第1のパルスの場所を考慮に入れ、かつkで示す封じ込めフレームにおける最後のパルスインデクスを直接的に計算するパルスをサーチするためのアルゴリズムが提供される。
他の実施形態により提供される第3の技術によれば、パルスサーチは不要である。この第3の技術によれば、周期的部分の構成とサンプルの除去または付加を組み合わせることにより、以前の技術よりも複雑さが抑えられる。
付加的または代替的に、いくつかの実施形態は、上記の技術ならびにG.718およびG.729.1の技術について以下の変更を提供する。
・ピッチラグの小数部分は、たとえば、一定ピッチの信号について周期的部分を構成するために使用できる。
・封じ込めフレームにおける最後のパルスの予測される場所のオフセットが、たとえば、フレーム内の非整数のピッチサイクルについて計算され得る。
・たとえば、最初のパルスの前と最後のパルスの後にもサンプルを加えたり除いたりできる。
・たとえば、パルスが1つしかない場合にも、サンプルを加えたり除いたりできる。
・除くかまたは加えるべきサンプルの数は、たとえば、ピッチにおける予測線形変化に従って線形に変更できる。
以下に、図面を参照して本発明の実施形態についてより詳細に説明する。
図1は、実施形態による推定ピッチラグを決定するための装置を示す図である。 図2Aは、実施形態による再構成フレームとして音声信号を含むフレームを再構成するための装置を示す図である。 図2Bは、複数のパルスを含む音声信号を示す図である。 図2Cは、実施形態による音声信号を含むフレームを再構成するためのシステムを示す図である。 図3は、音声信号の構成された周期的部分を示す図である。 図4は、フレーム内に3つのパルスを有する音声信号を示す図である。 図5は、フレーム内に2つのパルスを有する音声信号を示す図である。 図6は、サンプルの除去前の音声信号を示す図である。 図7は、サンプルの除去後の図6の音声信号を示す図である。 図8は、丸められたピッチラグを用いて再同期化された音声信号の時間―周波数表現を示す図である。 図9は、小数部分を有する非丸めピッチラグを用いて再同期化された音声信号の時間‐周波数表現を示す図である。 図10は、ピッチラグが前提技術のコンセプトを採用して再構成されるピッチラグ図を示す図である。 図11は、実施形態によりピッチラグが再構成されるピッチラグ図を示す図である。 図12は、サンプルを除去する前の音声信号を示す図である。 図13は、ΔからΔを付加的に示す図12の音声信号を示す図である。
図1は、実施形態による推定ピッチラグを決定するための装置を示す。この装置は、複数のオリジナルピッチラグ値を受けるための入力インターフェース110と、推定ピッチラグを推定するためのピッチラグ推定器120とを含む。ピッチラグ推定器120は、複数のオリジナルピッチラグ値および複数の情報値に依拠して推定ピッチラグを推定するよう構成され、複数のオリジナルピッチラグ値の各オリジナルピッチラグ値について、複数の情報値のうちの1つの情報値が前記オリジナルピッチラグ値に割り当てられる。
実施形態によれば、ピッチラグ推定器120は、たとえば、複数のオリジナルピッチラグ値と、複数の情報値としての複数のピッチゲイン値とに依拠して推定ピッチラグを推定するよう構成することが可能で、複数のオリジナルピッチラグ値の各オリジナルピッチラグ値について、複数のピッチゲイン値のうちの1つのピッチゲイン値が前記オリジナルピッチラグ値に割り当てられる。
特定の実施形態において、複数のピッチゲイン値の各々は、たとえば、適応型コードブックゲインでもよい。
ある実施形態において、ピッチラグ推定器120は、たとえば、誤差関数を最小化することにより推定ピッチラグを推定するよう構成され得る。
ある実施形態によれば、ピッチラグ推定器120は、たとえば、以下の誤差関数を最小化して、2つのパラメータa,bを決定することにより推定ピッチラグを推定するよう構成され得る。
Figure 0007202161000045
ここで、aは実数であり、bは実数であり、kはk≧2の整数であり、P(i)はi番目のオリジナルピッチラグ値であり、g(i)はi番目のピッチラグ値P(i)に割り当てられるi番目のピッチゲイン値である。
ある実施形態において、ピッチラグ推定器120は、たとえば、以下の誤差関数を最小化して、2つのパラメータa、bを決定することにより、推定ピッチラグを推定するよう構成され得る。
Figure 0007202161000046
ここで、aは実数であり、bは実数であり、P(i)はi番目のオリジナルピッチラグ値であり、g(i)はi番目のピッチラグ値P(i)に割り当てられるi番目のピッチゲイン値である。
ある実施形態によれば、ピッチラグ推定器120は、たとえば、p=a・i+bに従って推定ピッチラグpを決定するよう構成され得る。
ある実施形態において、ピッチラグ推定器120は、たとえば、複数のオリジナルピッチラグ値と、複数の情報値としての複数の時間値とに依拠して推定ピッチラグを推定するよう構成されることが可能で、複数のオリジナルピッチラグ値のうちの各オリジナルピッチラグ値について、複数の時間値のうちの1つの時間値が前記オリジナルピッチラグ値に割り当てられる。
ある実施形態によれば、ピッチラグ推定器120は、たとえば、誤差関数を最小化することにより推定ピッチラグを推定するよう構成され得る。
ある実施形態において、ピッチラグ推定器120は、たとえば、以下の誤差関数を最小化して、2つのパラメータa、bを決定することにより、推定ピッチラグを推定するよう構成され得る。
Figure 0007202161000047
ここで、aは実数であり、bは実数であり、kは、k≧2の整数であり、かつP(i)はi番目のオリジナルピッチラグ値であり、timepassed(i)は、i番目のピッチラグ値P(i)に割り当てられるi番目の時間値である。
ある実施形態によれば、ピッチラグ推定器120は、たとえば、以下の誤差関数を最小化して、2つのパラメータa、bを決定することにより、推定ピッチラグを推定するよう構成され得る。
Figure 0007202161000048
ここで、aは、実数であり、bは実数であり、P(i)は、i番目のオリジナルピッチラグ値であり、timepassed(i)は、i番目のピッチラグ値P(i)に割り当てられるi番目の時間値である。
ある実施形態において、ピッチラグ推定器120は、p=a・i+bに従って推定ピッチラグpを決定するよう構成される。
以下に、重み付けピッチ予測を行う実施形態を、式(20)から式(24b)を参照して記載する。
まず、ピッチゲインによる重み付けを採用する重み付けピッチ予測の実施形態について式(20)から式(22c)を参照して説明する。これらの実施形態のいくつかは、先行技術の欠点を克服するため、ピッチラグをピッチゲインで重み付けしてピッチ予測を行う。
いくつかの実施形態において、ピッチゲインは、標準G.729において規定される適応型コードブックゲインgが可能である(非特許文献10[ITU12]、特に3.7.3章、より詳細には式(43)を参照)。G.729においては、適応型コードブックゲインは、以下に従って決定される。
Figure 0007202161000049
ここで、x(n)は、ターゲット信号であり、かつy(n)は、以下のとおり、v(n)をh(n)と畳み込むことにより得られる。
Figure 0007202161000050
ここで、v(n)は、適応型コードブックベクトルであり、y(n)は、フィルタ化された適応型コードブックベクトルであり、かつh(n-i)は、G.729に規定される重み付合成フィルタのインパルス応答である(非特許文献10[ITU12]を参照)。
同様に、いくつかの実施形態において、ピッチゲインは、標準G.718において規定される適応型コードブックゲインgであることが可能である(非特許文献8[ITU08a]、特に6.8.4.1.4.1章、より詳細には式(170)を参照)。G.718においては、適応型コードブックゲインが以下のとおり決定される。
Figure 0007202161000051
ここで、x(n)はターゲット信号であり、かつy(n)は、遅延kでの過去のフィルタ化された励振である。
たとえば、定義について、y(n)がいかに規定できるかは、非特許文献8([ITU08a])、6.8.4.1.4.1章、式(171)を参照。
同様に、いくつかの実施形態では、ピッチゲインは、AMR標準で規定される適応型コードブックゲインg(非特許文献3[3GP12b]を参照)が可能で、ピッチゲインとしての適応型コードブックゲインgは、以下のとおり規定される。
Figure 0007202161000052
ここで、y(n)は、フィルタ化された適応型コードブックベクトルである。
いくつかの実施形態において、ピッチラグは、たとえば、ピッチ予測を行う前にピッチゲインで重み付けすることが可能である。
この目的で、ある実施形態によれば、たとえば、ピッチラグと同じサブフレームで取られたピッチゲインを保持する、長さ8の第2のバッファを導入してもよい。ある実施形態では、バッファは、ピッチラグの更新と全く同じルールを使用して更新され得る。1つの可能な実現例は、そのフレームに誤差がないかまたは誤差がありがちかにかかわらず、各フレームの終りに両方のバッファ(最後の8つのサブフレームのピッチラグとピッチゲインを保持)を更新することである。
先行技術から2つの異なる予測戦略が知られており、重み付けピッチ予測を使用するためにこれらを強化することができる。
いくつかの実施形態は、G.718標準の予測戦略に対し大きな発明的改善をもたらす。G.718において、パケットが失われる場合において、関連するピッチゲインが高い場合、高いファクタでピッチラグを重み付けし、かつ関連するピッチゲインが低い場合には、低いファクタでこれを重み付けするために、バッファが要素ごとに相互に乗算され得る。その後、G.718に従って、ピッチ予測が通常通り行われる(G.718に関する詳細については、非特許文献8[ITU08a、セクション7.11.1.3]を参照)。
いくつかの実施形態は、G.729.1標準の予測戦略に対し大きな発明的改善をもたらす。ピッチを予測するためのG.729.1において使用されるアルゴリズム(G.729.1に関する詳細については、非特許文献6[ITU06b]を参照)が、重み付け予測を用いるために、実施形態に従って修正される。
いくつかの実施形態によれば、目標は、以下の誤差関数を最小化することである。
Figure 0007202161000053
ここで、g(i)は、過去のサブフレームからのピッチゲインを保持し、かつ、P(i)は、対応のピッチラグを保持する。
本発明の式(20)では、g(i)が、重み付けファクタを表す。上記の例では、各g(i)が、過去のサブフレームの1つからのピッチゲインを表す。
以下に、実施形態による等式を記述するが、これらは、a+i・b(iが予測対象のサブフレームのサブフレーム番号)によってピッチラグを予測するために使用できるファクタaおよびbを生成する方法を記述する。
たとえば、最後の5つのサブフレームP(0)、...、P(4)に関する予測に基づき第1の予測サブフレームを得るために、予測ピッチ値P(5)は、以下のようになると考えられる。
Figure 0007202161000054
係数aおよびbを生成するために、たとえば、誤差関数を生成し(導き)、かつゼロに設定することができる。
Figure 0007202161000055
先行技術は、実施形態により提供される本発明の重み付けを採用することについて開示してない。特に、先行技術は、重み付けファクタg(i)を採用していない。
このように、重み付けファクタg(i)を採用しない先行技術においては、誤差関数を生成して、誤差関数の導関数をゼロに設定すると、以下のようになると考えられる。
Figure 0007202161000056
(非特許文献6[ITU06b、7.6.5を参照])。
対照的に、実施形態の重み付け予測アプローチ、たとえば、重み付けファクタg(i)での式(20)の重み付け予測アプローチを用いれば、aおよびbは、以下のようになる。
Figure 0007202161000057
特定の実施形態によれば、A、C、D;E、F、G、H、I、JおよびKは、たとえば以下の値を有し得る。
Figure 0007202161000058
図10および図11は、提案されるピッチ外挿のより優れた性能を示す。
ここで、図10は、ピッチラグが前提技術のコンセプトを採用して再構成される場合のピッチラグ図を示す。対照的に、図11は、ピッチラグが実施形態に従って再構成される場合のピッチラグ図を示す。
詳細には、図10は、先行技術の標準G.718およびG729.1の性能を示し、図11は、実施形態により提供されるコンセプトの性能を示す。
横軸がサブフレーム番号を表す。実線1010が、ビットストリームに埋め込まれ、かつ、グレイのセグメント1030の領域で失われるエンコーダピッチラグを示す。左側の縦軸は、ピッチラグ軸を表す。右側の縦軸は、ピッチゲイン軸を表す。実線1010は、ピッチラグを示し、破線1021、1022、1023はピッチゲインを示す。
グレイの矩形1030は、フレーム損失を示す。グレイのセグメント1030の領域で生じたフレーム損失のため、この領域におけるピッチラグおよびピッチゲインについての情報は、デコーダ側で入手できず、再構成する必要がある。
図10において、G.718標準を使用して封じ込められるピッチラグは、一点鎖線部1011により示される。G.729.1標準を使用して封じ込められるピッチラグは、実線部1012により示される。提供されるピッチ予測(図11、実線部1013)を使用することは、本質的に、失われたエンコーダピッチラグに対応し、かつ、G.718およびG729.1の技術により有利であることがはっきりわかる。
以下では、経過時間に依拠する重み付けを採用する実施形態について、式(23a)から式(24b)を参照して説明する。
先行技術の欠点を克服するため、いくつかの実施形態は、ピッチ予測を行う前に、ピッチラグに対し時間重み付けを適用する。時間重み付けの適用は、以下の誤差関数を最小化することにより実行され得る。
Figure 0007202161000059
ここで、timepassed(i)は、ピッチラグを正しく受信した後に経過した時間の量の逆数を表し、かつ、P(i)は、対応するピッチラグを保持する。
いくつかの実施形態は、たとえば、より最近のラグに対して高い重みを付け、より以前に受信されたラグに対しては低い重みを付け得る。
次いで、いくつかの実施形態によれば、式(21a)を採用して、aおよびbを生成することができる。
第1の予測されたサブフレームを得るため、いくつかの実施形態では、たとえば、最後の5つのサブフレームP(0)、...P(4)に基づいて予測を行い得る。次いで、たとえば、予測ピッチ値P(5)は、以下のとおり得ることができる。
Figure 0007202161000060
たとえば、以下のとおりであれば、
Figure 0007202161000061
(サブフレーム遅延に従う時間重み付け)、以下のようになると考えられる。
Figure 0007202161000062
以下では、パルス再同期化を提供する実施形態を説明する。
図2aは、実施形態に従う再構成されたフレームとして音声信号を含むフレームを再構成するための装置を示す。前記再構成されたフレームは、1以上の入手可能なフレームに関連し、前記1以上の入手可能なフレームは、再構成されたフレームの1以上の先行フレームおよび再構成されたフレームの1以上の後続のフレームのうちの少なくとも1つであり、1以上の入手可能なフレームが1以上の入手可能なピッチサイクルとして1以上のピッチサイクルを含む。
装置は、1以上の入手可能なピッチサイクルのうちの1つのサンプルの数と、再構成されるべき第1のピッチサイクルのサンプルの数との差を示すサンプル数の差(Δ ;Δ;Δ k+1)を決定するための決定部210を含む。
また、装置は、サンプル数の差(Δ ;Δ;Δ k+1)および1以上の入手可能なピッチサイクルのうちの前記1つのサンプルに依拠して第1の再構成ピッチサイクルとして再構成されるべき第1のピッチサイクルを再構成することにより再構成フレームを再構成するためのフレーム再構成部を含む。
フレーム再構成部220は、再構成フレームを再構成するよう構成され、それにより再構成されたフレームが、完全にまたは部分的に第1の再構成されたピッチサイクルを含み、再構成されたフレームが、完全にまたは部分的に第2の再構成されたピッチサイクルを含み、かつ第1の再構成されたピッチサイクルのサンプル数が、第2の再構成されたピッチサイクルのサンプル数とは異なるようになっている。
ピッチサイクルの再構成は、再構成するピッチサイクルのサンプルの一部または全部を再構成することにより行われる。再構成されるべきピッチサイクルが、失われたフレームに完全に含まれる場合には、たとえば、ピッチサイクルのサンプルのすべてを、再構成する必要があるかもしれない。再構成されるべきピッチサイクルが、一部のみ失われたフレームにより含まれ、かつ他のフレームに含まれる場合など、ピッチサイクルのサンプルのいくつかが入手可能な場合、ピッチサイクルを再構成するために、失われたフレームにより含まれるピッチサイクルのサンプルを再構成するだけで十分かもしれない。
図2bは、図2aの装置の機能性を示す。図2bは、特に、パルス211、212、213、214、215、216および217を含む音声信号222を示す。
音声信号222の第1の部分は、フレームn-1により含まれる。音声信号222の第2の部分は、フレームnにより含まれる。音声信号222の第3の部分は、フレームn+1により含まれる。
図2bにおいて、フレームn-1は、フレームnに先行し、かつフレームn+1は、フレームnの後に続く。これは、フレームn-1がフレームnの音声信号の部分に比べて時間的により早く生じた音声信号の部分を含み、かつフレームn+1が、フレームnの音声信号の部分に比べて時間的により遅く生じた音声信号の部分を含むことを意味する。
図2bの例では、フレームnが失われたか、または破損されていると仮定するので、フレームnに先行するフレーム(「先行フレーム」)およびフレームnに後続するフレーム(「後続フレーム」)のみが入手可能である(「入手可能フレーム」)。
たとえば、ピッチサイクルを以下のように規定することができる。ピッチサイクルは、音声信号において、パルス211、212、213他のうちの1つで開始され、直後に続くパルスで終了する。たとえば、パルス211および212がピッチサイクル201を規定する。パルス212および213がピッチサイクル202を規定する。パルス213および214は、ピッチサイクル203を規定する等である。
ピッチサイクルの他の開始および終了点を採用する、当業者に周知の他のピッチサイクルの定義についても、代替的に考慮してもよい。
図2bの例では、フレームnは、受信部で入手可能ではないか破損されている。したがって、受信部は、フレームn-1のパルス211および212ならびにピッチサイクル201について認識する。さらに、受信部は、フレームn+1のパルス216および217ならびにピッチサイクル206についても認識する。しかしながら、パルス213、214および215を含み、ピッチサイクル203および204を完全に含み、かつ、ピッチサイクル204および205を部分的に含むフレームnを再構成する必要がある。
いくつかの実施形態によれば、フレームnは、入手可能フレーム(たとえば、先行フレームn-1または後続フレームn+1)の1以上のピッチサイクル(「入手可能ピッチサイクル」)のサンプルに依拠して再構成され得る。たとえば、フレームn-1のピッチサイクル201のサンプルは、失われたか、または破損されたフレームのサンプルを再構成するために周期的にに繰り返しコピーされ得る。ピッチサイクルのサンプルを周期的に繰り返しコピーすることで、ピッチサイクル自体がコピーされ、たとえばピッチサイクルがcの場合、以下のようになる。
Figure 0007202161000063
実施形態においては、フレームn-1の終りからのサンプルがコピーされる。n‐1番目のフレームのコピーされる部分の長さが、ピッチサイクル201の長さに等しい(またはほとんど等しい)。しかしながら、201および202双方からのサンプルがコピーに使用される。これは、n-1番目のフレームにパルスが1つしかない場合には、特に慎重に考慮する必要がある。
いくつかの実施形態においては、コピーされたサンプルは修正される。
本発明は、また、失われたフレーム(n)により(完全にまたは部分的に)含まれるピッチサイクル(ピッチサイクル202、203、204および205)のサイズが、コピーされた入手可能なピッチサイクル(ここでは、ピッチサイクル201)のサイズと異なる場合には、ピッチサイクルのサンプルを周期的に繰り返しコピーすることにより、失われたフレームnのパルス213、214および215が間違った位置に移動するという所見に基づく。
たとえば、図2bでは、ピッチサイクル201とピッチサイクル202との差は、Δで示され、ピッチサイクル201とピッチサイクル203との差は、Δで示され、ピッチサイクル201とピッチサイクル204との差は、Δで示され、かつピッチサイクル201とピッチサイクル205との差は、Δで示される。
図2bにおいて、フレームn-1のピッチサイクル201が、ピッチサイクル206よりかなり大きいことがわかる。また、フレームnに(一部または完全に)含まれるピッチサイクル202、203、204および205は、各々ピッチサイクル201より小さく、かつ、ピッチサイクル206より大きい。さらに、大きいピッチサイクル201により近いピッチサイクル(たとえば、ピッチサイクル202)は、小さいピッチサイクル206により近いピッチサイクル(たとえば、ピッチサイクル205)より大きい。
本発明のこれらの所見に基づいて、実施形態によれば、フレーム再構成部220は、第1の再構成されたピッチサイクルのサンプル数が、再構成されたフレームに部分的にまたは完全に含まれる第2の再構成されたピッチサイクルのサンプル数と異なるように、再構成フレームを再構成するよう構成される。
たとえば、いくつかの実施形態によれば、フレームの再構成は、1以上の入手可能なピッチサイクル(ピッチサイクル201等)のうちの1つのサンプル数と、再構成される第1のピッチサイクル(ピッチサイクル202、203、204、205等)のサンプル数との差を示すサンプル数の差に依拠する。
たとえば、ある実施形態によれば、ピッチサイクル201のサンプルは、たとえば、周期的に繰り返しコピーされ得る。
そこで、サンプル数の差は、再構成されるべき第1のピッチサイクルに対応する周期的に繰り返されたコピーからいくつのサンプルを削除するか、または再構成されるべき第1のピッチサイクルに対応する周期的に繰り返されたコピーにいくつのサンプルを加えるかを示す。
図2bにおいて、各サンプル数は、周期的に繰り返されたコピーからいくつのサンプルを削除するかを示す。しかしながら、他の例では、サンプル数は、周期的に繰り返されたコピーにいくつのサンプルを加えるかを示し得る。たとえば、いくつかの実施形態では、振幅ゼロのサンプルを対応のピッチサイクルに加えることにより、サンプルを加えることができる。他の実施形態では、たとえば、ピッチサイクルの他のサンプルをコピーすることによって、たとえば、加えるべきサンプルの位置に隣接するサンプルをコピーすることによって、ピッチサイクルにサンプルを加え得る。
上記では、失われたかまたは破損されたフレームに先行するフレームのピッチサイクルのサンプルが周期的に繰り返しコピーされている実施形態について説明したが、他の実施形態では、失われたかまたは破損されたフレームの後続のフレームのピッチサイクルのサンプルを、周期的に繰り返しコピーして失われたフレームを再構成する。上記および後述の同じ原則が同様に当てはまる。
このようなサンプル数の差を再構成対象の各ピッチサイクルについて決定し得る。次いで、各ピッチサイクルのサンプル数の差が、再構成対象の対応のピッチサイクルに対応する周期的に繰り返されるコピーからいくつのサンプルを削除するか、または再構成対象の対応するピッチサイクルに対応する周期的に繰り返されるコピーにいくつのサンプルを加えるかを示す。
ある実施形態によれば、決定部210は、たとえば、再構成対象の複数のピッチサイクルの各々についてサンプル数の差を決定して、それによりピッチサイクルの各々のサンプル数の差が、1以上の入手可能なピッチサイクルのうちの前記1つのサンプルの数と、再構成対象の前記ピッチサイクルのサンプル数との差を示すように構成され得る。フレーム再構成部220は、再構成フレームを再構成するために、たとえば、再構成対象の前記ピッチサイクルのサンプル数の差および1以上の入手可能なピッチサイクルの前記1つのサンプルに依拠して、再構成対象の複数のピッチサイクルの各ピッチサイクルを再構成するよう構成され得る。
ある実施形態においては、フレーム再構成部220は、たとえば、1以上の入手可能なピッチサイクルのうちの前記1つに依拠して中間フレームを生成するよう構成され得る。フレーム再構成部220は、たとえば、再構成フレームを得るために、中間フレームを修正するよう構成され得る。
実施形態によれば、決定部210は、たとえば、いくつのサンプルを中間フレームから除くか、またはいくつのサンプルを中間フレームに加えるかを示すフレーム差値(d;s)を決定するよう構成され得る。また、フレーム再構成部220は、たとえば、フレーム差値が、第1のサンプルがフレームから除去されることを示す場合、再構成フレームを得るために中間フレームから第1のサンプルを除去するよう構成され得る。さらに、フレーム再構成部220は、たとえば、フレーム差値(d;s)が、第2のサンプルがフレームに加えられることを示す場合、再構成フレームを得るために中間フレームに第2のサンプルを加えるよう構成され得る。
ある実施形態において、フレーム再構成部220は、たとえば、フレーム差値が、第1のサンプルが中間フレームから除去されるべきであることを示す場合、中間フレームから第1のサンプルを除去するよう構成することが可能で、それにより、中間フレームから除去される第1のサンプルの数がフレーム差値により示されるようになっている。また、フレーム再構成部220は、たとえば、フレーム差値が、第2のサンプルがフレームに加えられるべきであることを示す場合、中間フレームに第2のサンプルを加えるよう構成することが可能で、それにより、中間フレームに加えられる第2のサンプルの数がフレーム差値により示されるようになっている。
ある実施形態によれば、決定部210は、たとえば、以下の式が真であるように、フレーム差数sを決定するように構成され得る。
Figure 0007202161000064
ここで、Lは、再構成フレームのサンプルの数を表し、Mは、再構成フレームのサブフレームの数を表し、Tは、1以上の入手可能なピッチサイクルの前記1つの丸められたピッチ周期長さを示し、p[i]は、再構成フレームのi番目のサブフレームの再構成されたピッチサイクルのピッチ周期長さを示す。
ある実施形態において、フレーム再構成部220は、たとえば、1以上の入手可能なピッチサイクルの前記1つに依拠して中間フレームを生成するようになっていてもよい。また、フレーム再構成部220は、たとえば、中間フレームが、第1の部分中間ピッチサイクル、1以上のさらなる中間ピッチサイクルおよび第2の部分中間ピッチサイクルを含むように中間フレームを生成するようにされてもよい。さらに、第1の部分中間ピッチサイクルは、たとえば、1以上の使用可能なピッチサイクルのうちの前記1つのサンプルのうちの1以上に依拠することが可能で、1以上のさらなる中間ピッチサイクルの各々が、1以上の入手可能なピッチサイクルの前記1つのサンプルの全部に依拠し、かつ第2の部分中間ピッチサイクルが、1以上の入手可能なピッチサイクルの前記1つのサンプルのうちの1以上に依拠する。また、決定部210は、たとえば、第1の部分中間ピッチサイクルからいくつのサンプルを除去するかまたは加えるかを示す開始部差数を決定するよう構成することができ、かつフレーム再構成部220は、開始部差数に依拠して、第1の部分中間ピッチサイクルから1以上の第1のサンプルを除去するよう構成されるかまたは第1の部分中間ピッチサイクルに1以上の第1のサンプルを加えるよう構成される。さらに、決定部210は、たとえば、さらなる中間ピッチサイクルの前記1つからいくつのサンプルを除去するまたは加えるかを示すピッチサイクル差数を、さらなる中間ピッチサイクルの各々について決定するよう構成され得る。また、フレーム再構成部220は、たとえば、前記ピッチサイクル差数に依拠して、さらなる中間ピッチサイクルの前記1つから1以上の第2のサンプルを除去するよう構成され得るか、または、さらなる中間ピッチサイクルの前記1つに1以上の第2のサンプルを加えるよう構成される。さらに、決定部210は、たとえば、第2の部分中間ピッチサイクルからいくつのサンプルを除去するかまたは加えるかを表す終了部差数を決定するよう構成することができ、かつフレーム再構成部220は、終了部差数に依拠して、第2の部分中間ピッチサイクルから1以上の第3のサンプルを除去するよう構成されるか、または第2の部分中間ピッチサイクルに1以上の第3のサンプルを加えるよう構成される。
ある実施形態により、フレーム再構成部220は、たとえば、1以上の入手可能なピッチサイクルの前記1つに依拠して中間フレームを生成するよう構成され得る。また、決定部210は、たとえば、中間フレームにより含まれる音声信号の1以上の低エネルギ信号部を決定するようにされてもよく、1以上の低エネルギ信号部の各々が、中間フレーム内の音声信号の第1の信号部であり、音声信号のエネルギが、中間フレームにより含まれる音声信号の第2の信号部におけるエネルギより低い。さらに、フレーム再構成部220は、たとえば、再構成フレームを得るために、音声信号の1以上の低エネルギ信号部の1以上から1以上のサンプルを除去するか、または音声信号の1以上の低エネルギ信号部分の1以上へ1以上のサンプルを加えるよう構成され得る。
特定の実施形態において、フレーム再構成部220は、たとえば、中間フレームを生成するよう構成されることが可能で、それにより中間フレームが1以上の再構成ピッチサイクルを含み、1以上の再構成ピッチサイクルの各々が、1以上の入手可能なピッチサイクルの前記1つに依拠するようになっている。また、決定部210は、たとえば、1以上の再構成ピッチサイクルの各々から除去するサンプルの数を決定するように構成され得る。さらに、決定部210は、たとえば、1以上の低エネルギ信号部の各々について、前記低エネルギ信号部のサンプルの数が、1以上の再構成ピッチサイクルの1つから除去されるべきサンプル数に依拠するように、1以上の低エネルギ信号部の各々を決定するように構成することが可能で、前記低エネルギ信号部が、1以上の再構成ピッチサイクルの前記1つ内に位置する。
ある実施形態において、決定部210は、たとえば、再構成フレームとして再構成されるべきフレームの音声信号の1以上のパルスの位置を決定するよう構成され得る。また、フレーム再構成部220は、たとえば、音声信号の1以上のパルスの位置に依拠して再構成フレームを再構成するよう構成され得る。
ある実施形態によれば、決定部210は、たとえば、再構成フレームとして再構成されるべきフレームの音声信号の2以上のパルスの位置を決定するよう構成することが可能で、T[0]は、再構成フレームとして再構成されるべきフレームの音声信号の2以上のパルスのうちの1つの位置であり、かつ決定部210は、以下の式に従う音声信号の2以上のパルスのうちのさらなるパルスの位置(T[i])を決定するよう構成される。
Figure 0007202161000065
ここで、Tは、1以上の入手可能なピッチサイクルの前記1つの丸められた長さを示し、かつiは整数である。
ある実施形態によれば、決定部210は、たとえば、以下の式のように、再構成フレームとして再構成されるべきフレームの音声信号の最後のパルスのインデクスkを決定するよう構成され得る。
Figure 0007202161000066
ここで、Lは、再構成フレームのサンプルの数を示し、sは、フレーム差値を示し、T[0]は、音声信号の最後のパルスとは異なる、再構成フレームとして再構成されるべきフレームの音声信号のパルスの位置を示し、Tは、1以上の入手可能なピッチサイクルの前記1つの丸められた長さを示す。
ある実施形態において、決定部210は、たとえば、パラメータδを決定することにより再構成フレームとして再構成されるべきフレームを再構成するよう構成することが可能で、δは以下の式により規定される。
Figure 0007202161000067
ここで、再構成フレームとして再構成されるべきフレームは、M個のサブフレームを含み、Tは、1以上の入手可能なピッチサイクルの前記1つの長さを示し、Textは、再構成フレームとして再構成されるべきフレームの再構成されるべきピッチサイクルのうちの1つの長さを示す。
ある実施形態によれば、決定部210は、たとえば、以下の式に基づき1以上の入手可能なピッチサイクルの前記1つの丸められた長さTを決定することにより再構成フレームを再構成するよう構成され得る。
Figure 0007202161000068
ここで、Tは、1以上の入手可能なピッチサイクルの前記1つの長さを示す。
ある実施形態において、決定部210は、たとえば以下の式を適用することにより再構成フレームを再構成するよう構成され得る。
Figure 0007202161000069
ここで、Tは、1以上の入手可能なピッチサイクルの前記1つの長さを示し、Tは、1以上の入手可能なピッチサイクルの前記1つの丸められた長さを示し、再構成フレームとして再構成されるべきフレームは、M個のサブフレームを含み、再構成フレームとして再構成されるべきフレームは、L個のサンプルを含み、δが1以上の入手可能なピッチサイクルのうちの前記1つのサンプルの数と、再構成されるべき1以上のピッチサイクルの1つのサンプルの数との差を表す実数である。
ここで、実施形態についてより詳細に説明する。
以下では、パルス再同期化の実施形態の第1のグループについて式(25)から(63)を参照して説明する。
これらの実施形態では、ピッチに変化がない場合、最後のピッチラグを、丸めずに小数部分を維持したまま使用する。周期的な部分は、たとえば非特許文献12([MTTA90])にあるような非整数ピッチおよび内挿を用いて構成される。これにより、丸めたピッチラグを使用する場合に比べて高調波の周波数シフトが減じられるので、一定のピッチの音または有声信号の封じ込めが大きく改善する。
この効果は、図8および図9により示され、フレームの損失を伴うピッチパイプを表す信号が、それぞれ丸めおよび非丸め小数ピッチラグを用いて封じ込められる。ここで、図8は、丸められたピッチラグを使用する再同期化された音声信号の時間-周波数表現を示す。対照的に、図9は、小数部分を伴う非丸めピッチラグを使用して再同期化された音声信号の時間-周波数表現を示す。
ピッチの小数部分を使用する場合、計算の複雑さが増大することになる。声門パルス再同期の必要はないので、これが最悪計算量に影響することはないはずである。
予測されるピッチの変更がない場合には、以下に説明する処理を行う必要はない。
ピッチの変化が予測される場合、式(25)から(63)を参照して説明する実施形態は、一定ピッチ(T)を伴うピッチサイクル内の合計サンプル数の和と、展開ピッチp[i]を伴うピッチサイクル内の合計サンプル数の和との間の差であるdを決定するためのコンセプトを提供する。
以下において、Tは、式(15a)のように規定される。すなわち、T=round(last_pitch)。
実施形態によれば、以下に説明するとおり、差dをより高速でかつより正確なアルゴリズムを使用して決定することができる(dを決定するための高速アルゴリズムのアプローチ)。
このようなアルゴリズムは、たとえば、以下の原則に基づくことができる。
・各サブフレームiにおいて、(長さTの)各ピッチサイクルについて、T-p[i]サンプルを除去する必要がある(またはT-p[i]<0の場合、p[i]-Tを加える必要がある)。
・各サブフレームには、(L_subfr)/Tピッチサイクルが存在する。
・したがって、各サブフレーム(T-p[i])について、(L_subfr)/Tサンプルを除去する必要がある。
Figure 0007202161000070
いくつかの他の実施形態によれば、丸めが行われる。整数ピッチについては(Mはフレームにおけるサブフレームの数である。)、dは以下のとおり規定される。
Figure 0007202161000071
ある実施形態によれば、応じてdを計算するためのアルゴリズムが提供される。
Figure 0007202161000072
他の実施形態では、アルゴリズムの最後の行を以下と置換する。
d=(short)floor(L_frame-ftmp*(float)L_subfr/T+0.5);
実施形態によれば、最後のパルスT[n]は、以下の式に従って見つけられる。
Figure 0007202161000073
ある実施形態によれば、Nを計算する式が採用される。この式は、以下に従って式(26)から得られ、
Figure 0007202161000074
かつ最後のパルスは、インデクスN-1を有する。
この式によれば、図4および図5に示す例についてNを計算できる。
以下において、最後のパルスについて明示的サーチを伴わないが、パルスの位置を考慮に入れるコンセプトについて説明する。このコンセプトは、構成された周期的部分における最後のパルスインデクスのNを必要としない。
励振の構成された周期的部分における実際の最後のパルスの位置(T[k])がフルピッチサイクルkの数を決定し、サンプルが除去される(または加えられる)。
図12は、d個のサンプルを除去する前の最後のパルスの位置T[2]を示す。式(25)から式(63)を参照して説明する実施形態については、参照番号1210がdを示す。
図12の例では、最後のパルスkのインデクスは2であり、サンプルを除去すべき2つのフルピッチサイクルが存在する。
信号長さL_frame+dの信号からd個のサンプルを除去した後は、L_frame+d個のサンプルを超えるオリジナル信号からのサンプルは存在しない。したがって、T[k]は、L_frame+dサンプルの範囲内であり、かつ、従って、kは以下により決定される。
Figure 0007202161000075
式(17)および式(28)から、以下のとおりになる。
Figure 0007202161000076
すなわち、以下のとおりである。
Figure 0007202161000077
式(30)から、以下のとおりになる。
Figure 0007202161000078
たとえば、20ms以上のフレームを使用するコーデックにおいて、音声の最低基本周波数が、たとえば、40Hz以上なら、多くの場合、「無声」以外に、封じ込められたフレームに、1以上のパルスが存在する。
以下において、式(32)から式(46)を参照して、2以上のパルス(k≧1)の場合について説明する。
パルス間の各フルのi番目のピッチサイクルにおいて、Δサンプルが除去されると仮定するが、ここで、Δは、以下のとおり規定される。
Figure 0007202161000079
ここで、aは、既知の変数で表現する必要がある未知の変数である。
第1のパルスの前でΔサンプルが除去されると仮定するが、ここで、Δは、以下のとおり規定される。
Figure 0007202161000080
Δk+1サンプルが、最後のパルスの後に除去されると仮定するが、ここで、Δk+1は、以下のとおり規定される。
Figure 0007202161000081
最後の2つの仮定は、部分的な最初と最後のピッチサイクルの長さを考慮に入れる式(32)と合致する。
Δ値の各々がサンプル数の差である。また、Δは、サンプル数の差である。さらに、Δk+1は、サンプル数の差である。
図13は、図12の音声信号の図であって、ΔからΔを追加して示す。各ピッチサイクルにおいて除去すべきサンプルの数を、図13の例では模式的に示し、k=2である。式(25)から(63)を参照して記載する実施形態に関しては、参照番号1210がdを示す。
除去するサンプルの合計数dは、以下のとおりΔに関連する。
Figure 0007202161000082
式(32)~式(35)から、dは、以下のとおり求めることができる。
Figure 0007202161000083
式(36)は、以下の式と等価である。
Figure 0007202161000084
封じ込められたフレームにおける最後のフルピッチサイクルがp[M-1]の長さを有すると仮定する。すなわち、以下のとおりである。
Figure 0007202161000085
式(32)および式(38)から、以下のとおりである。
Figure 0007202161000086
また、式(37)および式(39)から、以下のとおりである。
Figure 0007202161000087
式(40)は、以下の式と等価である。
Figure 0007202161000088
式(17)および式(41)から、以下のとおりである。
Figure 0007202161000089
式(42)は、以下の式と等価である。
Figure 0007202161000090
さらに、式(43)から、以下のとおりである。
Figure 0007202161000091
式(44)は、以下の式と等価である。
Figure 0007202161000092
また、式(45)は、以下の式と等価である。
Figure 0007202161000093
実施形態によれば、ここで、式(32)から式(34)、式(39)および式(46)に基づいて、第1のパルスの前および/またはパルスの間および/または最後のパルスの後に除去するかまたは加えるサンプルの数を計算する。
実施形態において、サンプルは、最小エネルギ領域において除去されるかまたは加えられる。
実施形態によれば、除去されるサンプルの数は、たとえば、以下を使用して丸めることができる。
Figure 0007202161000094
以下では、1つのパルス(k=0)の場合について、式(47)から(55)を参照して記載する。
封じ込められたフレーム内に1つのパルスしかなければ、そのパルスの前のΔのサンプルが除去されることになる。
Figure 0007202161000095
ここで、Δおよびaは、既知の変数で表現する必要がある未知の変数である。Δ個のサンプルが、このパルスの後、除去されることになる。ここで、
Figure 0007202161000096
である。
そして、除去されるべきサンプルの合計数は、以下のとおり与えられる。
Figure 0007202161000097
式(47)から式(49)より、以下のとおりである。
Figure 0007202161000098
式(50)は、以下の式と等価である。
Figure 0007202161000099
パルスの前のピッチサイクルのパルス後のピッチサイクルに対する比は、前に受信されたフレームにおける最後のサブフレームと最初のサブフレームにおけるピッチラグの比と同じであると仮定する。
Figure 0007202161000100
式(52)から、以下のとおりである。
Figure 0007202161000101
また、式(51)と式(53)から、以下のとおりである。
Figure 0007202161000102
式(54)は、以下の式と等価である。
Figure 0007202161000103
除去すべきまたは加えるべき[Δ-a]個のサンプルが、上記パルスの前の最小エネルギ領域に存在し、同パルスの後にd-[Δ-a]個のサンプルが存在する。
以下では、パルス(の場所)のサーチを必要としない、実施形態による簡素化されたコンセプトについて、式(56)から式(63)を参照して説明する。
t[i]は、i番目のピッチサイクルの長さを示す。信号からd個のサンプルを除去した後、k個のフルピッチサイクルおよび1つの部分(フルまでの)ピッチサイクルを入手する。したがって、以下のとおりである。
Figure 0007202161000104
長さt[i]のピッチサイクルを、いくつかのサンプルを除去した後に長さTのピッチサイクルから得て、除去されたサンプルの合計数がdなので、以下のとおりになる。
Figure 0007202161000105
したがって、以下のとおりになる。
Figure 0007202161000106
また、以下のとおりになる。
Figure 0007202161000107
実施形態によれば、ピッチラグにおいて線形の変化を想定し得る。
Figure 0007202161000108
実施形態では、(k+1)Δ個のサンプルを、k番目のピッチサイクルにおいて除去する。
実施形態によれば、サンプルを除去した後もフレームにとどまるk番目のピッチサイクルの部分において、
Figure 0007202161000109
個のサンプルが除去される。
したがって、除去されるサンプルの合計数は、以下のとおりである。
Figure 0007202161000110
式(60)は以下の式と等価である。
Figure 0007202161000111
また、式(61)は、以下の式と等価である。
Figure 0007202161000112
さらに、式(62)は、以下の式と等価である。
Figure 0007202161000113
実施形態によれば、(i+1)Δ個のサンプルが、最小エネルギの位置で除去される。1ピッチサイクルを保持する環状バッファにおいて、最小エネルギ位置のサーチが行われるので、パルスの場所を知る必要はない。
最小エネルギ位置が、第1のパルスの後であり、かつ第1のパルスの前のサンプルが除去されない場合、ピッチラグが、(T+Δ)、Tc、、(T-Δ)、(T-2Δ)(最後に受信したフレームにおける2つピッチサイクルおよび封じ込められたフレームにおける3つのピッチサイクル)として展開する状況が発生し得る。したがって、不連続性が存在し得る。同様の不連続性については、最後のパルスの後に生じ得るが、第1のパルスの前に発生する場合と同じ時には生じない。
他方、パルスが封じ込められたフレームの開始に近いほど、最小エネルギ領域が第1のパルスの後に現れる可能性が高い。第1のパルスが、封じ込められたフレームの開始に近いほど、最後に受信したフレームにおける最後のピッチサイクルがTより大きくなる可能性が高くなる。ピッチ変化における不連続性の可能性を減じるため、重み付けを用いてピッチサイクルの開始または終了により近い最小領域を有利にする。
実施形態によれば、以下の方法ステップの1以上または全部を実現する、提供されるコンセプトの実現例について説明する。
1.最小エネルギ領域について並列でサーチし、最後に受信したフレームの終わりからローパスフィルタ処理したT個のサンプルを一時バッファBに格納する。一時バッファは、最小エネルギ領域のサーチの際には環状バッファとして考えられる(これは、最小エネルギ領域が、ピッチサイクルの始まりからの数サンプルと終わりからの数サンプルから構成され得るということを意味し得る)。最小エネルギ領域は、たとえば、長さが[(k+1)Δ]のサンプルのスライディングウィンドウについて最小の場所でもよい。たとえば重み付けを使用して、ピッチサイクルの開始により近い最小領域を有利にすることができる。
2.最小エネルギ領域の[Δ]個のサンプルをスキップして、フレームに一時バッファBからのサンプルをコピーする。したがって、長さt[0]のピッチサイクルが作られる。δ=Δ-[Δ]を設定。
3.i番目のピッチサイクル(0<i<k)について、最小エネルギ領域の[Δ]+[δi-1]個のサンプルをスキップして、(i-1)番目のピッチサイクルからのサンプルをコピーする。δ=δi-1-[δi-1]+Δ-[Δ]を設定する。このステップをk-1回繰り返す。
4.k番目のピッチサイクルについて、ピッチサイクルの終りに近い最小領域ほど有利になる重み付けを用いて、(k-1)番目のピッチサイクルにおける新たな最小領域をサーチする。次いで、最小エネルギ領域において以下の式で表す個数のサンプルをスキップして、(k-1)番目のピッチサイクルからのサンプルをコピーする。
Figure 0007202161000114
サンプルを加える必要がある場合には、d<0でかつΔ<0であり、かつ合計|d|個のサンプルを加えるということを考慮に入れることにより、等価な手順を用いることができ、すなわち(k+1)|Δ|個のサンプルが、k番目のサイクルにおいて、最小エネルギの位置に加えられる。
いずれにしても、近似化したピッチサイクル長さを用いるので、「dを決定するための高速アルゴリズムアプローチ」に関して、上記のdを生成するため、サブフレームレベルで小数ピッチを使用することができる。
以下で、パルス再同期化の実施形態の第2のグループについて、式(64)から(113)を参照して説明する。第1のグループのこれらの実施形態は、式(15b)の定義を採用する。
Figure 0007202161000115
ここで、最後のピッチ周期長さは、Tであり、かつコピーされたセグメントの長さは、Tである。
パルス再同期化実施形態の第2のグループにより使用されるいくつかのパラメータが以下に規定されない場合は、本発明の実施形態は、上に規定したパルス再同期化実施形態の第1のグループに関してこれらのパラメータについて与えられた定義を採用し得る(式(25)から(63)を参照)。
パルス再同期化実施形態の第2のグループの式(64)から(113)のいくつかは、パルス再同期化実施形態の第1のグループに関して既に使用されたパラメータのいくつかを再定義し得る。この場合、与えられる再定義された定義が、第2のパルス再同期化の実施形態に適用される。
上記のとおり、いくつかの実施形態によれば、周期的部分は、たとえば、1つのフレームおよび1つの追加のサブフレームについて構成することができ、ここで、フレーム長さはL=Lframeとして示される。
たとえば、フレームにM個のサブフレームがある場合、サブフレームの長さは、L_subfr=L/Mである。
上記のとおり、T[0]は、励振の構成された周期的部分における第1の最大パルスの場所である。他のパルスの位置は、以下の式により与えられる。
Figure 0007202161000116
実施形態によれば、励振の周期的部分の構成に依拠して、たとえば励振の周期的部分の構成後、声門パルス再同期化を行って、失われたフレーム(P)の最後のパルスの推定目標位置と、励振の構成された周期的部分におけるその実際の位置(T[k])との差を訂正する。
失われたフレーム(P)における最後のパルスの推定目標位置は、たとえば、ピッチラグ展開の推定により間接的に決定され得る。ピッチラグ展開は、たとえば、失われたフレームの前の最後の7つのサブフレームのピッチラグに基づいて外挿される。各サブフレームにおける展開ピッチラグは、以下のとおりである。
Figure 0007202161000117
ここで、以下のとおりであり、
Figure 0007202161000118
かつTextは、外挿されたピッチであり、かつiは、サブフレームインデクスである。ピッチ外挿は、たとえば、重み付線形フィッティングまたはG.718からの方法もしくはG.729.1からの方法またはたとえば未来のフレームからの1以上のピッチを考慮するピッチ内挿のための他の方法を用いて行うことができる。ピッチ外挿は、非線形でも可能である。実施形態では、Textは、上記でTextが決定されるのと同じ方法で決定され得る。
展開ピッチ(p[i])を伴うピッチサイクル内の合計サンプル数の和と、一定ピッチ(T)を伴うピッチサイクル内の合計サンプル数の和との間のフレーム長内の差をsで示す。
実施形態によれば、Text>Tなら、s個のサンプルをフレームに加える必要があり、かつText<Tなら、-s個のサンプルをフレームから除去する必要がある。|s|個のサンプルを追加または除去した後、封じ込められたフレームにおける最後のパルスは、推定目標位置(P)にあることになる。
ext=Tなら、フレーム内にサンプルを加えたり除去したりする必要はない。
いくつかの実施形態によれば、声門パルス再同期化は、全てのピッチサイクルの最小エネルギ領域において、サンプルを加えるかまたは除去することにより行われる。
以下では、実施形態によるパラメータsの計算について、式(66)から(69)を参照して説明する。
いくつかの実施形態によれば、差sは、たとえば、以下の原則に基づいて計算され得る。
・各サブフレームiにおいて、(長さTの)ピッチサイクルごとにp[i]-T個のサンプルを加える必要がある(p[i]-T>0の場合)(さもなくばp[i]-T<0の場合、T-p[i]個のサンプルを除く必要がある)。

・各サブフレームには、(L_subfr)/T=L/(MT)のピッチサイクルが存在する。
・したがって、i番目のサブフレームにおいて(p[i]-T)L/(MT)個のサンプルを除去する必要がある。
したがって、式(64)に従って、実施形態により、sは、たとえば式(66)に従って計算され得る。
Figure 0007202161000119
式(66)は、以下の式と等価である。
Figure 0007202161000120
ここで、式(67)は、以下の式と等価である。
Figure 0007202161000121
式(68)は、以下の式と等価である。
Figure 0007202161000122
なお、Text>Tなら、sは正であり、サンプルを加える必要があり、Text<Tなら、sは負であり、サンプルを除去する必要がある。したがって、除去または追加するべきサンプルの数は、|s|として示すことができる。
以下では、実施形態による最後のパルスのインデクスの計算について式(70)から式(73)を参照して説明する。
励振の構成された周期的部分における実際の最後のパルス位置(T[k])は、サンプルが除去される(または加えられる)フルピッチサイクルの数kを決定する。
図12は、サンプルを除去する前の音声信号を示す。
図12が示す例においては、最後のパルスkのインデクスが2であり、サンプルを除去すべき2つのフルピッチサイクルが存在する。式(64)から(113)を参照して説明する実施形態に関しては、参照番号1210が|s|を示す。
|s|個のサンプルを長さL-sの信号から除去した後(L=L_frame)または|s|個のサンプルを長さL-sの信号に加えた後、L-s個のサンプルを超えるオリジナル信号からのサンプルは存在しない。なお、サンプルが加えられる場合、sは正であり、サンプルが除去される場合、sは負である。したがって、サンプルが加えられるなら、L-s<Lであり、かつサンプルが除去されるなら、L-s>Lである。したがって、T[k]は、L-sサンプルの範囲内でなければならず、かつkは以下のとおり決定される。
Figure 0007202161000123
式(15b)および式(70)から、以下のとおりになる。
Figure 0007202161000124
すなわち、以下のとおりである。
Figure 0007202161000125
ある実施形態によれば、kは、たとえば式(72)に基づき以下のとおり決定され得る。
Figure 0007202161000126
たとえば、20ms以上のフレームおよび40Hz以上の音声の最低基本周波数を採用するコーデックにおいては、多くの場合、「無声」以外に封じ込められたフレームにおいて1以上のパルスが存在する。
以下では、実施形態に従って、最小領域において除去されるべきサンプルの数の計算について、式(74)から(99)を参照して説明する。
たとえば、パルス間の各フルのi番目のピッチサイクルにおいてΔ個のサンプルを除去(または追加)するものと仮定することができ、ここで、Δは、以下のとおり定義される。
Figure 0007202161000127
ここで、aは、たとえば既知の変数で表現され得る未知の変数である。
また、たとえば第1のパルスの前に、Δ 個のサンプルを除去(または追加)すると仮定することができ、ここでΔ は、以下のとおり規定される。
Figure 0007202161000128
さらに、たとえば、最後のパルスの後にΔ k+1個のサンプルを除去(または追加)すると仮定することができ、ここでΔ k+1は、以下のとおり規定される。
Figure 0007202161000129
最後の2つの仮定は、部分的な最初と最後のピッチサイクルの長さを考慮に入れる式(74)に合致する。
各ピッチサイクルにおいて除去される(または加えられる)サンプルの数を図13の例に模式的に示し、ここで、k=2である。図13は、各ピッチサイクルにおいて除去されるサンプルを模式的に示す図である。式(64)から(113)を参照して説明した実施形態については、参照番号1210が|s|を示す。
除去すべき(または加えるべき)サンプルの合計数sは、以下に従ってΔに関連する。
Figure 0007202161000130
式(74)~式(77)から、以下のとおりである。
Figure 0007202161000131
式(78)は、以下の式と等価である。
Figure 0007202161000132
また、式(79)は、以下の式と等価である。
Figure 0007202161000133
さらに、式(80)は、以下の式と等価である。
Figure 0007202161000134
また、式(16b)を考慮して、式(81)は、以下の式と等価である。
Figure 0007202161000135
実施形態に従って、最後のパルスの後の完全なピッチサイクルにおいて除去(または追加)するべきサンプルの数が以下の式により与えられると仮定し得る。
Figure 0007202161000136
式(74)および式(83)から、以下のとおりである。
Figure 0007202161000137
式(82)および式(84)から、以下のとおりである。
Figure 0007202161000138
式(85)は、以下の式と等価である。
Figure 0007202161000139
また、式(86)は、以下の式と等価である。
Figure 0007202161000140
さらに、式(87)は、以下の式と等価である。
Figure 0007202161000141
式(16b)および式(88)から、以下のようになる。
Figure 0007202161000142
式(89)は、以下の式と等価である。
Figure 0007202161000143
また、式(90)は以下の式と等価である。
Figure 0007202161000144
さらに、式(91)は、以下の式と等価である。
Figure 0007202161000145
また、式(92)は、以下の式と等価である。
Figure 0007202161000146
式(93)から、以下のとおりである。
Figure 0007202161000147
このように、たとえば、式(94)に基づき、実施形態に従えば、以下のとおりである。
・第1のパルスの前で除去されるべきかつ/または加えられるべきサンプルの数が計算され、かつ/または
・パルス間で除去されるべきかつ/または加えられるべきサンプルの数が計算されかつ/または
・最後のパルスの後で除去されるべきかつ/または加えられるべきサンプルの数が計算される。
いくつかの実施形態によれば、サンプルは、たとえば、最小エネルギ領域において除去されるかまたは加えられ得る。
式(85)および式(94)から、以下のとおりになる。
Figure 0007202161000148
式(95)は、以下の式と等価である。
Figure 0007202161000149
また、式(84)および式(94)から、以下のとおりである。
Figure 0007202161000150
式(97)は、以下の式と等価である。
Figure 0007202161000151
ある実施の形態によれば、最後のパルスの後に除去されるべきサンプルの数は、以下の式に従って、式(97)に基づいて計算することができる。
Figure 0007202161000152
なお、実施形態によれば、Δ 、ΔおよびΔ k+1は正で、かつsの符号が、サンプルが加えられるか除去されるかを決定する。
複雑さを理由に、いくつかの実施形態では、整数個のサンプルを加えるかまたは除去することが望ましく、そのような実施形態においては、Δ 、ΔおよびΔ k+1が、たとえば、丸められ得る。他の実施形態では、たとえば波形内挿を用いる他のコンセプトも代替的または付加的に使用して、丸めを回避できるが、複雑さは増大する。
以下では、実施形態に従うパルス再同期化のためのアルゴリズムについて式(100)から式(113)を参照して説明する。
実施形態によれば、このようなアルゴリズムの入力パラメータは、たとえば以下のとおりである。
L フレーム長さ
M サブフレームの数
最後に受信したフレームの終りのピッチサイクル長さ
ext 封じ込められたフレームの終りのピッチサイクル長さ
src_exc 上記のとおり最後に受信したフレームの終りから励振信号のローパスフィルタ処理された最後のピッチサイクルをコピーして作られた入力励振信号
dst_exc パルス再同期化についてここに記載のアルゴリズムを使用してsrc_excから作られる出力励振信号。
実施形態によれば、このようなアルゴリズムは、以下のステップの1以上または全部を含み得る。
・式(65)に基づいて、サブフレーム当たりのピッチの変化を計算する。
Figure 0007202161000153
・式(15b)に基づき、丸められた開始ピッチを計算する。
Figure 0007202161000154
・式(69)に基づき、加えられるべき(負の場合には除去すべき)サンプルの数を計算する。
Figure 0007202161000155
・励振src_excの構成された周期的部分における第1のT個のサンプルから、第1の最大パルスT[0]の場所を見つける。
・式(73)に基づき再同期化されたフレームdst_excにおける最後のパルスのインデクスを取得する。
Figure 0007202161000156
・式(94)に基づいて、連続するサイクルの間で加えるかまたは除去すべきサンプルのa-Δを計算する。
Figure 0007202161000157
・式(96)に基づいて第1のパルスの前に加えるかまたは除去すべきサンプルの数を計算する。
Figure 0007202161000158
・第1のパルスの前に加えるかまたは除去すべきサンプルの数を丸めて、小数部分をメモリに維持する。
Figure 0007202161000159
・2つのパルス間の各領域について、式(98)に基づいて加えるかまたは除去すべきサンプルの数を計算する。
Figure 0007202161000160
・前回の丸めの時の残余の小数部分を考慮に入れて、2つのパルス間で加えるかまたは除去すべきサンプルの数を丸める。
Figure 0007202161000161
・いくつかのiについて、加えられたFにより、Δ >Δ i-1となる場合、これらの値をΔ およびΔ i-1に交換する。
・式(99)に基づいて、最後のパルス後に加えられるかまたは除去されるべきサンプルの数を計算する。
Figure 0007202161000162
・次いで、最小エネルギ領域の間で加えられるまたは除去されるべきサンプルの最大数を計算する。
Figure 0007202161000163
・長さΔ maxのsrc_excにおける最初の2つのパルスの間の最小エネルギセグメントPmin[1]の場所を見つける。2つのパルスの間のすべての連続する最小エネルギセグメントについて、位置を以下の式により計算する。
Figure 0007202161000164
・Pmin[1]>Tなら、Pmin[0]=Pmin[1]-Tを用いて、src_excにおける最初のパルスの前の最小エネルギセグメントの場所を計算する。さもなければ、長さΔ を有するsrc_excにおける最初のパルスの前の最小エネルギセグメントPmin[0]の場所を見つける。
・Pmin[1]+kT<L-sならば、Pmin[k+1]=Pmin[1]+kTを用いて、src_excにおける最後のパルス後の最小エネルギセグメントの場所を計算する。さもなければ、長さΔ’k+1を有するsrc_excにおける最後のパルス後の最小エネルギセグメントPmin[k+1]の場所を見つける。
・封じ込められた励振信号dst_excにおいてパルスが1つしか存在しない場合には、すなわちk=0の場合、Pmin[1]のサーチをL-sに限定する。その場合、Pmin[1]は、src_excにおける最後のパルス後の最小エネルギセグメントの場所を指す。
s>0の場合、場所Pmin[i](0≦i≦k+1)で、信号src_excにΔ’個のサンプルを追加し、それをdst_excに格納し、さもなければ、s<0の場合、場所Pmin[i](0≦i≦k+1)でΔ’個のサンプルを信号src_excから除去して、それをdst_extに格納する。サンプルが加えられたり除去されるk+2の領域が存在する。
図2cは、実施形態に従って音声信号を含むフレームを再構成するためのシステムを示す図である。このシステムは、上記の実施形態の1つに従って、推定ピッチラグを決定するための装置100およびフレームを再構成するための装置200を含み、フレームを再構成するための装置が、推定ピッチラグに依拠してフレームを再構成するよう構成される。推定ピッチラグは、音声信号のピッチラグである。
ある実施形態において、再構成されたフレームは、たとえば、1以上の入手可能なフレームと関連し得るが、前記1以上の入手可能なフレームは、再構成されたフレームの1以上の先行フレームおよび再構成されたフレームの1以上の後続フレームのうちの1以上のフレームであり、1以上の入手可能なフレームは、1以上の入手可能なピッチサイクルとして1以上のピッチサイクルを含む。フレームを再構成するための装置200は、たとえば、上記実施形態の1つによるフレームを再構成するための装置であり得る。
いくつかの態様について、装置に関連して説明したが、これらの態様が対応する方法の説明も表すことは明らかであり、その場合、ブロックまたは装置が方法ステップまたは方法ステップの特徴に相当する。同様に、方法ステップに関連して説明した態様も、対応の装置の対応のブロックもしくはアイテムまたは特徴の説明を表す。
発明の分解された信号は、デジタル記憶媒体に記憶されるかまたは無線送信媒体またはインターネット等の有線送信媒体等の送信媒体で送信され得る。
特定の実装要件に依拠して、発明の実施形態を、ハードウェアまたはソフトウェアで実装することができる。実装は、それぞれの方法が実行されるように、プログラマブルコンピュータシステムと協働する(または協働することができる)電子的に可読な制御信号を記憶した、フロッピー(登録商標)ディスク、DVD,CD,ROM,PROM,EPROM,EEPROMまたはフラッシュメモリ等のデジタル記憶媒体を用いて行うことができる。
発明によるいくつかの実施形態は、本件明細書に記載の方法の1つを実行するように、プログラマブルコンピュータシステムと協働することができる、電子的に可読な制御信号を有する非一時的データキャリアを含む。
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実現することが可能で、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されると、方法の1つを実行するように動作する。プログラムコードは、たとえば、機械可読なキャリア上に記憶することができる。
他の実施形態は、機械可読なキャリア上に記憶される、本件明細書に記載の方法の1つを実行するためのコピュータプログラムを含む。
したがって、言い換えれば、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行された時に、本件明細書に記載の方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、本発明の方法の他の実施形態は、本件明細書中に記載の方法の1つを実行するためのコンピュータプログラムを記録するデータキャリア(またはデジタル記憶媒体またはコンピュータ可読媒体)である。
したがって、本発明の方法の他の実施形態は、本件明細書に記載の方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、たとえば、インターネットを経由する等データ通信接続を経由して転送されるように構成され得る。
他の実施形態は、たとえば、本件明細書に記載の方法の1つを実行するよう構成または適合されたコンピュータまたはプログラマブル論理装置等の処理手段を含む。
他の実施形態は、本件明細書に記載の方法の1つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。
いくつかの実施形態において、プログラマブル論理装置(フィールドプログラマブルゲートアレイ等)を使用して、本件明細書に記載の方法の機能の一部または全部を実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイが、本件明細書に記載の方法の1つを実行するために、マイクロプロセッサと協働し得る。一般に、方法は、なんらかのハードウェア装置により実行されることが好ましい。
上記の実施形態は、本発明の原則を説明するに過ぎない。当業者には、本件明細書に記載の構成および詳細の変形例および修正例が明らかになることは当然である。したがって、特許請求の範囲によってのみ限定され、本件明細書における実施形態の記載および説明により提示される特定の詳細によっては限定されないことを意図する。

Claims (8)

  1. 推定ピッチラグを決定するための装置であって、
    複数のオリジナルピッチラグ値を受けるための入力インターフェース(110)と、
    推定ピッチラグを推定するためのピッチラグ推定器(120)とを備え、
    ピッチラグ推定器(120)は、ピッチラグを正しく受信した後に経過した経過時間に依拠する重み付けを採用する誤差関数を最小化することにより推定ピッチラグを推定するよう構成され、
    ピッチラグ推定器(120)が、複数のオリジナルピッチラグ値および複数の情報値としての複数の時間値に依拠して、推定ピッチラグを推定するよう構成され、
    複数のオリジナルピッチラグ値の各々のオリジナルピッチラグ値について、複数の時間値のうちの1つの時間値が、前記オリジナルピッチラグ値に割り当てられる、装置。
  2. ピッチラグ推定器が、以下の誤差関数を最小化することにより2つのパラメータa、bを決定して、推定ピッチラグを推定するよう構成され、
    Figure 0007202161000165
    ここで、aは実数であり、bは実数であり、kはk≧2の整数であり、P(i)はi番目のオリジナルピッチラグ値であり、timepassed(i)は、ピッチラグを正しく受信した後に経過した時間の量の逆数を表し、i番目のピッチラグ値P(i)に割り当てられるi番目の時間値である、請求項に記載の装置。
  3. ピッチラグ推定器が、以下の誤差関数を最小化することにより前記2つのパラメータa、bを決定して、推定ピッチラグを推定するよう構成される、請求項に記載の装置。
    Figure 0007202161000166
  4. ピッチラグ推定器が、以下の式によって推定ピッチラグpを決定するよう構成される、請求項に記載の装置。
    p=a+b・i
  5. 音声信号を含むフレームを再構成するためのシステムであって、
    請求項1に記載の推定ピッチラグを決定するための装置と、
    フレームを再構成するための装置とを備え、フレームを再構成するための装置が、推定ピッチラグに依拠してフレームを再構成するよう構成され、
    推定ピッチラグが、音声信号のピッチラグである、システム。
  6. 再構成されたフレームが、1以上の入手可能なフレームと関連し、前記1以上の入手可能なフレームが、再構成されたフレームの1以上の先行フレームおよび再構成されたフレームの1以上の後続フレームのうちの1以上のフレームであり、
    1以上の入手可能なフレームが、1以上の入手可能なピッチサイクルとして、1以上のピッチサイクルを含み、かつ
    フレームを再構成するための装置が、
    1以上の入手可能なピッチサイクルのうちの1つのサンプルの数と再構成されるべき第1のピッチサイクルのサンプルの数との差を示すサンプル数の差を決定するための決定部(210)と、
    サンプル数の差および1以上の入手可能なピッチサイクルのうちの前記1つのサンプルに依拠して第1の再構成ピッチサイクルとして再構成されるべき第1のピッチサイクルを再構成することにより再構成フレームを再構成するためのフレーム再構成部(220)とを含み、
    フレーム再構成部(220)が、再構成フレームを再構成するように構成され、それにより再構成フレームが完全にまたは部分的に第1の再構成ピッチサイクルを含み、再構成フレームが完全にまたは部分的に第2の再構成ピッチサイクルを含み、かつ第1の再構成ピッチサイクルのサンプル数が第2の再構成ピッチサイクルのサンプル数とは異なるようになっており、
    決定部(210)が、推定ピッチラグに依拠してサンプル数の差を決定するよう構成される、請求項に記載のフレームを再構成するためのシステム。
  7. 推定ピッチラグを決定するための方法であって、
    複数のオリジナルピッチラグ値を受けるステップと、
    推定ピッチラグを推定するステップとを備え、
    推定ピッチラグを推定するステップは、ピッチラグを正しく受信した後に経過した経過時間に依拠する重み付けを採用する誤差関数を最小化することにより実行され、
    推定ピッチラグを推定するステップは、複数のオリジナルピッチラグ値および複数の情報値としての複数の時間値に依拠して行われ、複数のオリジナルピッチラグ値の各々のオリジナルピッチラグ値について、複数の時間値のうちの1つの時間値が、前記オリジナルピッチラグ値に割り当てられる、方法。
  8. コンピュータまたは信号プロセッサ上で実行されるとき、請求項に記載の方法を実現するためのコンピュータプログラム。
JP2018228601A 2013-06-21 2018-12-06 改善されたピッチラグ推定を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法 Active JP7202161B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021049334A JP2021103325A (ja) 2013-06-21 2021-03-24 改善されたピッチラグ推定を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法
JP2023040193A JP2023072050A (ja) 2013-06-21 2023-03-15 改善されたピッチラグ推定を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP13173157.2 2013-06-21
EP13173157 2013-06-21
EP14166990 2014-05-05
EP14166990.3 2014-05-05

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2016520421A Division JP6482540B2 (ja) 2013-06-21 2014-06-16 改善されたピッチラグ推定を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021049334A Division JP2021103325A (ja) 2013-06-21 2021-03-24 改善されたピッチラグ推定を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法

Publications (2)

Publication Number Publication Date
JP2019066867A JP2019066867A (ja) 2019-04-25
JP7202161B2 true JP7202161B2 (ja) 2023-01-11

Family

ID=50942300

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2016520421A Active JP6482540B2 (ja) 2013-06-21 2014-06-16 改善されたピッチラグ推定を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法
JP2018228601A Active JP7202161B2 (ja) 2013-06-21 2018-12-06 改善されたピッチラグ推定を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法
JP2021049334A Pending JP2021103325A (ja) 2013-06-21 2021-03-24 改善されたピッチラグ推定を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法
JP2023040193A Pending JP2023072050A (ja) 2013-06-21 2023-03-15 改善されたピッチラグ推定を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2016520421A Active JP6482540B2 (ja) 2013-06-21 2014-06-16 改善されたピッチラグ推定を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2021049334A Pending JP2021103325A (ja) 2013-06-21 2021-03-24 改善されたピッチラグ推定を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法
JP2023040193A Pending JP2023072050A (ja) 2013-06-21 2023-03-15 改善されたピッチラグ推定を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法

Country Status (18)

Country Link
US (3) US10381011B2 (ja)
EP (2) EP3011554B1 (ja)
JP (4) JP6482540B2 (ja)
KR (2) KR102120073B1 (ja)
CN (2) CN105408954B (ja)
AU (2) AU2014283393A1 (ja)
BR (1) BR112015031181A2 (ja)
CA (1) CA2915805C (ja)
ES (1) ES2746322T3 (ja)
HK (1) HK1224427A1 (ja)
MX (1) MX371425B (ja)
MY (1) MY177559A (ja)
PL (1) PL3011554T3 (ja)
PT (1) PT3011554T (ja)
RU (1) RU2665253C2 (ja)
SG (1) SG11201510463WA (ja)
TW (2) TWI613642B (ja)
WO (1) WO2014202539A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL3011554T3 (pl) * 2013-06-21 2019-12-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Szacowanie opóźnienia wysokości tonu
CN110931025A (zh) 2013-06-21 2020-03-27 弗朗霍夫应用科学研究促进协会 利用改进的脉冲再同步化的似acelp隐藏中的自适应码本的改进隐藏的装置及方法
ES2760573T3 (es) 2013-10-31 2020-05-14 Fraunhofer Ges Forschung Decodificador de audio y método para proveer una información de audio decodificada usando un ocultamiento de error que modifica una señal de excitación de dominio de tiempo
EP3285255B1 (en) 2013-10-31 2019-05-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal
RU2714365C1 (ru) 2016-03-07 2020-02-14 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Способ гибридного маскирования: комбинированное маскирование потери пакетов в частотной и временной области в аудиокодеках
WO2017153299A2 (en) 2016-03-07 2017-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Error concealment unit, audio decoder, and related method and computer program fading out a concealed audio frame out according to different damping factors for different frequency bands
MX2018010756A (es) 2016-03-07 2019-01-14 Fraunhofer Ges Forschung Unidad de ocultamiento de error, decodificador de audio, y método relacionado y programa de computadora que usa características de una representación decodificada de una trama de audio decodificada apropiadamente.

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070219788A1 (en) 2006-03-20 2007-09-20 Mindspeed Technologies, Inc. Pitch prediction for packet loss concealment
JP6153661B2 (ja) 2013-06-21 2017-06-28 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 改善されたパルス再同期化を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法
JP6482540B2 (ja) 2013-06-21 2019-03-13 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 改善されたピッチラグ推定を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法

Family Cites Families (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5179594A (en) * 1991-06-12 1993-01-12 Motorola, Inc. Efficient calculation of autocorrelation coefficients for CELP vocoder adaptive codebook
US5187745A (en) * 1991-06-27 1993-02-16 Motorola, Inc. Efficient codebook search for CELP vocoders
US5621852A (en) * 1993-12-14 1997-04-15 Interdigital Technology Corporation Efficient codebook structure for code excited linear prediction coding
KR960009530B1 (en) 1993-12-20 1996-07-20 Korea Electronics Telecomm Method for shortening processing time in pitch checking method for vocoder
ATE218741T1 (de) 1994-02-01 2002-06-15 Qualcomm Inc Lineare vorhersage durch impulsanregung
US5792072A (en) * 1994-06-06 1998-08-11 University Of Washington System and method for measuring acoustic reflectance
US5781880A (en) * 1994-11-21 1998-07-14 Rockwell International Corporation Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual
US5751905A (en) * 1995-03-15 1998-05-12 International Business Machines Corporation Statistical acoustic processing method and apparatus for speech recognition using a toned phoneme system
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
US5946650A (en) * 1997-06-19 1999-08-31 Tritech Microelectronics, Ltd. Efficient pitch estimation method
US6556966B1 (en) * 1998-08-24 2003-04-29 Conexant Systems, Inc. Codebook structure for changeable pulse multimode speech coding
US6449590B1 (en) 1998-08-24 2002-09-10 Conexant Systems, Inc. Speech encoder using warping in long term preprocessing
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6507814B1 (en) * 1998-08-24 2003-01-14 Conexant Systems, Inc. Pitch determination using speech classification and prior pitch estimation
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6584438B1 (en) * 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
EP1796083B1 (en) * 2000-04-24 2009-01-07 Qualcomm Incorporated Method and apparatus for predictively quantizing voiced speech
US6760698B2 (en) * 2000-09-15 2004-07-06 Mindspeed Technologies Inc. System for coding speech information using an adaptive codebook with enhanced variable resolution scheme
SE519976C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
US7590525B2 (en) 2001-08-17 2009-09-15 Broadcom Corporation Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
JP2003140699A (ja) * 2001-11-07 2003-05-16 Fujitsu Ltd 音声復号化装置
WO2003079330A1 (en) * 2002-03-12 2003-09-25 Dilithium Networks Pty Limited Method for adaptive codebook pitch-lag computation in audio transcoders
CA2388439A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
US6781880B2 (en) * 2002-07-19 2004-08-24 Micron Technology, Inc. Non-volatile memory erase circuitry
US7137626B2 (en) 2002-07-29 2006-11-21 Intel Corporation Packet loss recovery
AU2003278013A1 (en) 2002-10-11 2004-05-04 Voiceage Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US7613607B2 (en) * 2003-12-18 2009-11-03 Nokia Corporation Audio enhancement in coded domain
CA2457988A1 (en) 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
EP1775717B1 (en) * 2004-07-20 2013-09-11 Panasonic Corporation Speech decoding apparatus and compensation frame generation method
US7860710B2 (en) * 2004-09-22 2010-12-28 Texas Instruments Incorporated Methods, devices and systems for improved codebook search for voice codecs
CN101171626B (zh) 2005-03-11 2012-03-21 高通股份有限公司 通过修改残余对声码器内的帧进行时间扭曲
RU2376657C2 (ru) * 2005-04-01 2009-12-20 Квэлкомм Инкорпорейтед Системы, способы и устройства для высокополосного предыскажения шкалы времени
TWI317933B (en) * 2005-04-22 2009-12-01 Qualcomm Inc Methods, data storage medium,apparatus of signal processing,and cellular telephone including the same
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
WO2008007699A1 (en) 2006-07-12 2008-01-17 Panasonic Corporation Audio decoding device and audio encoding device
US8532984B2 (en) * 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
KR101008508B1 (ko) * 2006-08-15 2011-01-17 브로드콤 코포레이션 패킷 손실 후의 디코더 상태의 리페이징
FR2907586A1 (fr) 2006-10-20 2008-04-25 France Telecom Synthese de blocs perdus d'un signal audionumerique,avec correction de periode de pitch.
DK2102619T3 (en) 2006-10-24 2017-05-15 Voiceage Corp METHOD AND DEVICE FOR CODING TRANSITION FRAMEWORK IN SPEECH SIGNALS
CN101046964B (zh) 2007-04-13 2011-09-14 清华大学 基于重叠变换压缩编码的错误隐藏帧重建方法
WO2008151408A1 (en) 2007-06-14 2008-12-18 Voiceage Corporation Device and method for frame erasure concealment in a pcm codec interoperable with the itu-t recommendation g.711
JP4928366B2 (ja) * 2007-06-25 2012-05-09 日本電信電話株式会社 ピッチ探索装置、パケット消失補償装置、それらの方法、プログラム及びその記録媒体
US8527265B2 (en) 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
US8515767B2 (en) 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
CN101261833B (zh) 2008-01-24 2011-04-27 清华大学 一种使用正弦模型进行音频错误隐藏处理的方法
CN101335000B (zh) 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
AU2009256551B2 (en) 2008-06-13 2015-08-13 Nokia Technologies Oy Method and apparatus for error concealment of encoded audio data
US8768690B2 (en) 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
US8428938B2 (en) 2009-06-04 2013-04-23 Qualcomm Incorporated Systems and methods for reconstructing an erased speech frame
US8415911B2 (en) * 2009-07-17 2013-04-09 Johnson Electric S.A. Power tool with a DC brush motor and with a second power source
EP2460158A4 (en) 2009-07-27 2013-09-04 METHOD AND APPARATUS FOR PROCESSING AUDIO SIGNAL
CN102648493B (zh) * 2009-11-24 2016-01-20 Lg电子株式会社 音频信号处理方法和设备
US8428936B2 (en) 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
JP5981913B2 (ja) 2010-07-08 2016-08-31 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ フォワードエイリアシング消去を用いた符号器
US9082416B2 (en) * 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
CN103688306B (zh) 2011-05-16 2017-05-17 谷歌公司 对被编码为连续帧序列的音频信号进行解码的方法和装置
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
WO2013184667A1 (en) * 2012-06-05 2013-12-12 Rank Miner, Inc. System, method and apparatus for voice analytics of recorded audio
CN103714821A (zh) 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
CN103272418B (zh) 2013-05-28 2015-08-05 佛山市金凯地过滤设备有限公司 一种压滤机

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070219788A1 (en) 2006-03-20 2007-09-20 Mindspeed Technologies, Inc. Pitch prediction for packet loss concealment
JP6153661B2 (ja) 2013-06-21 2017-06-28 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 改善されたパルス再同期化を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法
JP6482540B2 (ja) 2013-06-21 2019-03-13 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 改善されたピッチラグ推定を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ITU-T G.729.1、「G.729-based embedded variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with G.729」、ITU-T Recommendation G.729.1、SERIES G: TRANSMISSION SYSTEMS AND MEDIA,DIGITAL SYSTEMS AND NETWORKS、Digital terminal equipments - Coding of analog signals by methods other than PCM、2007年、64~68頁、https://www.itu.int/rec/T-REC-G.729.1-200605-I/en
山本祥弘、「修正最小2乗法による適応アルゴリズム」、計測自動制御学会論文集、Vol.26、No.12、1990年12月、22~27頁

Also Published As

Publication number Publication date
PL3011554T3 (pl) 2019-12-31
CN105408954B (zh) 2020-07-17
US20190304473A1 (en) 2019-10-03
AU2014283393A1 (en) 2016-02-04
US11410663B2 (en) 2022-08-09
RU2016101599A (ru) 2017-07-26
TW201812743A (zh) 2018-04-01
PT3011554T (pt) 2019-10-24
BR112015031824A2 (pt) 2017-07-25
TWI711033B (zh) 2020-11-21
MX2015017833A (es) 2016-04-15
MX371425B (es) 2020-01-29
ES2746322T3 (es) 2020-03-05
WO2014202539A1 (en) 2014-12-24
JP2016525220A (ja) 2016-08-22
JP2021103325A (ja) 2021-07-15
RU2665253C2 (ru) 2018-08-28
HK1224427A1 (zh) 2017-08-18
TWI613642B (zh) 2018-02-01
EP3540731A2 (en) 2019-09-18
CN105408954A (zh) 2016-03-16
CA2915805C (en) 2021-10-19
KR20180042468A (ko) 2018-04-25
MY177559A (en) 2020-09-18
JP2019066867A (ja) 2019-04-25
AU2018200208B2 (en) 2020-01-02
KR102120073B1 (ko) 2020-06-08
JP2023072050A (ja) 2023-05-23
KR20160022382A (ko) 2016-02-29
US20160118053A1 (en) 2016-04-28
CN111862998A (zh) 2020-10-30
EP3011554A1 (en) 2016-04-27
US10381011B2 (en) 2019-08-13
EP3540731A3 (en) 2019-10-30
BR112015031181A2 (pt) 2017-07-25
CA2915805A1 (en) 2014-12-24
TW201517020A (zh) 2015-05-01
JP6482540B2 (ja) 2019-03-13
SG11201510463WA (en) 2016-01-28
US20220343924A1 (en) 2022-10-27
EP3011554B1 (en) 2019-07-03
AU2018200208A1 (en) 2018-02-01

Similar Documents

Publication Publication Date Title
JP6153661B2 (ja) 改善されたパルス再同期化を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法
JP7202161B2 (ja) 改善されたピッチラグ推定を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法
KR20040042903A (ko) 일반화된 분석에 의한 합성 스피치 코딩 방법 및 그방법을 구현하는 코더
JP2017527843A (ja) Lpd/fd移行フレームエンコードのためのバジェットの決定
AU2018363670A1 (en) Selecting pitch lag
BR112015031824B1 (pt) Aparelho e método para uma ocultação melhorada do livro do código adaptativo na ocultação tipo acelp utilizando uma estimativa melhorada de atraso de pitch
BR112015031603B1 (pt) Aparelho e método para reconstrução de uma estrutura

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181206

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200225

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200519

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200825

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20201124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210324

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20210324

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20210517

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20210518

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20210618

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20210622

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20211214

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20220208

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220502

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220804

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20221031

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20221108

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20221206

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20221206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221223

R150 Certificate of patent or registration of utility model

Ref document number: 7202161

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150