JP2004518162A - パラメトリック符号化における信号成分の連結 - Google Patents

パラメトリック符号化における信号成分の連結 Download PDF

Info

Publication number
JP2004518162A
JP2004518162A JP2002556879A JP2002556879A JP2004518162A JP 2004518162 A JP2004518162 A JP 2004518162A JP 2002556879 A JP2002556879 A JP 2002556879A JP 2002556879 A JP2002556879 A JP 2002556879A JP 2004518162 A JP2004518162 A JP 2004518162A
Authority
JP
Japan
Prior art keywords
components
segment
similarity
extended
similarity matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002556879A
Other languages
English (en)
Inventor
ブリンケル,アルベルテュス セー デン
ウェー イェー オーメン,アルノルデュス
ボント,フランシスキュス エム イェー デ
ヘー ペー スハイエルス,エリク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2004518162A publication Critical patent/JP2004518162A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)

Abstract

本発明は、連結ユニット(100)と、パラメトリック・エンコーダ(400)と、正弦波トラックを形成するため一つに連結される連続的に拡張されたセグメントsp及びscの成分を表す連結情報Lを生成する方法とに関する。セグメントsp及びscは、正弦波オーディオ若しくはスピーチ信号sの連続的なセグメントを近似する。連結ユニットは、受信した正弦波符号データに応じて類似度マトリックスS(m,n)を生成する計算ユニット(120)と、類似度が極大である成分のペアm,nを選択することにより上記連結情報を生成するため、上記類似度マトリックスSを受信し評価する評価ユニット(140)と、を有する。本発明によれば、計算ユニット(120)は、拡張された先行セグメントspの成分と拡張された現在セグメントscの成分の間の位相整合性に関する情報を更に考慮することによって、類似度マトリックスSを計算するように適応させられている。このようにして、一つに連結されるのに適した成分の選択は、改良され、正しいトラックを定義できるようになる。

Description

【0001】
本発明は、請求項1の前提部分に記載されているような連結ユニットに関する。連結(リンキング)ユニットは、正弦波(シヌソイド)トラックを形成するために一つに連結される連続的な(典型的に重なり合っている)拡張セグメントsp及びscの成分を表す連結情報を生成する役目を果たす。セグメントsp及びscは、正弦波オーディオ若しくはスピーチ信号(音声信号)sの連続的なセグメントを近似するセグメントである。
【0002】
本発明は、更に、請求項8の前提部分に記載されたパラメトリック・エンコーダと、請求項9の前提部分に記載された連結情報を生成する方法とに関する。
【0003】
従来技術では、連続的なセグメントに正弦波トラックを定めるため使用される連結情報Lを提供する二つの実質的に異なる解決手法が知られている。WO 00/79519(PHN 017502EP.P)に記載されている第1の解決手法によれば、元のオーディオ若しくはスピーチ信号の部分信号は、振幅、先行セグメント及び現在セグメントからの周波数及び位相情報を含む正弦波入力データに基づいて再構成される。再構成された部分信号は、元のオーディオ信号若しくはスピーチ信号と比較される。重み付き平均2乗誤差信号は、関連したリンクを選択するため、即ち、連結情報Lを生成するため、規準として提案されている。
【0004】
第1の解決手法は、連続的なセグメントを最適に連結するため振幅及び周波数情報を考慮に入れるだけではなく、先行セグメント及び現在セグメントの成分の位相情報も考慮に入れる。しかし、この第1の解決手法の欠点は、その計算負荷、並びに、連結情報を生成するため元の信号が必要となる点である。
【0005】
従来技術で知られている第2の解決手法によれば、連結情報は、現在セグメント及び先行セグメントからの正弦波符号から、位相情報ではなく、振幅及び周波数情報だけを考慮することによって生成される。次に、図5を参照して、第2の解決手法を説明する。
【0006】
図5には、請求項1の前提部分に記載されているような、受信した正弦波符号データDp’、Dc’に応答して、類似度マトリックスS(m,n)を生成する計算ユニット520を含む連結ユニット500が示されている。上記背正弦波符号データは、mが1からMまでの整数(m=1...M)を表すとき、拡張された先行セグメントspのM個の成分xの振幅及び周波数と、nが1からNまでの整数(n=1...N)を表すとき、拡張された現在セグメントscのN個の成分yの振幅及び周波数とに関する情報を含む。この類似度マトリックスS(m,n)は、m=1...M並びにn=1...Nの場合に、拡張された先行セグメントspのm番目の成分xと、拡張された現在セグメントscのn番目の成分yの間の類似度を表現する。この類似度マトリックスS(m,n)は、評価ユニット540へ入力され、評価ユニットは、類似度が極大である成分のペアm、nを選択することにより、連結情報Lを生成するため、この類似度マトリックスを評価する。
【0007】
この結果として、連結情報Lは、オーディオ若しくはスピーチ信号の連続的なセグメント若しくは成分の間の変化ができる限り滑らかになるように、蓄積又は伝送後にオーディオ若しくはスピーチ信号sを復元する際に一つに連結される連続的な拡張セグメントの成分のペアを表す。滑らかな変化は、復元された信号の品質を改良する。
【0008】
以下の説明では、連続的なセグメントの間で継続する連結された成分は、たとえ、別個の成分が僅かな変動、例えば、振幅変動若しくは周波数変動を含むとしても、正弦波トラックと呼ぶ。
【0009】
第2の解決手法の有利なアプリケーションは、文献:B. Elder, H. Purnhagen, and C. Ferekidis, ”ASAC−Analysis/synthesis codec for very low bit rates”, Preprint 4176 (F−6) 100th AES Convention, Copenhagen, 11−14 May, 1996に記載されている。
【0010】
この論文で、著者は、連結情報を生成するための付加的な規準として周波数及び振幅の相対距離の組み合わせを提案している。換言すると、連結情報は、先行セグメントと現在セグメントの中に、同じ正弦波トラックに属するローカル評価であるとみなされる成分が存在するか、及び、どの成分がローカル評価であるとみなされるかを示す。
【0011】
有利的には、第2の解決手法によれば、連結情報の生成は、元のオーディオ若しくはスピーチ信号を考慮することなく行われる。しかし、第2の解決手法による連結情報の生成は評価された正弦波符号データだけに基づいているので、生成された連結情報に間違いがあり、不正確なトラックが得られる場合がある。
【0012】
第2の解決手法に鑑みて、本発明の目的は、連結ユニット、パラメトリック・エンコーダ、及び、一つに連結するのに適した連続的なセグメントの成分の選択が改良され、正確な正弦波トラックが定義されるように、連結情報を生成する方法を開発することである。
【0013】
この目的は、請求項1に記載された内容によって解決される。請求項1の特徴部分によれば、拡張された正弦波符号データは、振幅及び周波数情報だけではなく、M個の成分xの少なくとも一部とN個の成分yの少なくとも一部の位相に関する情報を含む。更に、連結ユニットの計算ユニットは、拡張された先行セグメントspのm番目の成分xと拡張された現在セグメントscのn番目の成分yとの間の位相整合性を更に考慮することによって類似度マトリックスS(m,n)を計算するため適応している。
【0014】
有利的には、提案された連結ユニットは、連結情報を生成するため、評価された正弦波符号データだけを使用する。位相情報を更に考慮することによって、従来技術における第2の解決手法と比べると、元のオーディオ若しくはスピーチ信号sを考慮することなく、類似度マトリックスをより正確に決定できるようになり、より信頼性の高い連結情報を決定できるようになる。
【0015】
第1の実施例によれば、計算ユニットは、拡張された先行セグメントspのM個の複素成分x(t)を生成する第1のパターン発生ユニットと、拡張された現在セグメントscのN個の複素成分y(t)を生成する第2のパターン発生ユニットと、を含む。これらの時間依存性の複素成分の明示的な計算は、先行セグメントと現在セグメントの成分間の位相整合性を評価できるようにするため、本発明によって要求されている。
【0016】
有利的には、計算モジュールは、成分mと成分nの間で、形状に関する類似度を表す第1の類似度マトリックスS1(m,n)と、振幅に関する類似度を表す第2の類似度マトリックスS2(m,n)の積として、類似度マトリックスS(m,n)を計算するように適応している。更に、連結ユニットの有利な実施例は、従属請求項4乃至7の内容である。
【0017】
本発明の目的は、請求項8に記載されたパラメトリック・エンコーダと、請求項9に記載された連結情報を生成する方法とによって解決される。このパラメトリック・エンコーダと方法の利点は、連結ユニットに関して説明した利点と実質的に一致する。
【0018】
添付図面を参照して本発明の好ましい実施例を説明する前に、一般的に信号セグメントの正弦波モデリングに関する背景情報を提示する予備的な説明を行う。
【0019】
正弦波モデリングにおいて、モデルは、典型的に、次の形式:
【0020】
【数9】
Figure 2004518162
の形式であり(或いは、このような形式で記述することが可能であり)、式中、segは、正弦波信号sを近似若しくはモデル化するセグメントを表す。このようなモデルにおいて、セグメントsegは、式(1)の右辺に与えられるような拡張子によって表現され、ここで、
【0021】
【外1】
Figure 2004518162
は、複素変数の実部を表し、uは、セグメントsegのK個の基礎となる正弦波若しくは正弦波のような成分である。
【0022】
特に、純粋な第1の正弦波モデル(拡張子)の場合、このセグメントの成分は、
【0023】
【数10】
Figure 2004518162
と表され、式中、A、ω及びμは、それぞれ、(実数値の)振幅、周波数及び位相を表し、jは、
j=√(−1)
である。
【0024】
第2のモデルによれば、セグメントの成分は、
【0025】
【数11】
Figure 2004518162
のように定義される。式中、A、ω及びμは、純粋な正弦波モデルの場合と同じであり、付加パラメータσが現れている。σは、セグメント内の振幅変化を捉える実数パラメータである。
【0026】
多項式に基づくより複雑な第3のモデルは、
【0027】
【数12】
Figure 2004518162
であり、bk,m及びφk,nは実数パラメータであり、複素数振幅Bk,mは、
【0028】
【数13】
Figure 2004518162
である。
【0029】
最後に、第4のモデルによれば、セグメントの成分は、
【0030】
【数14】
Figure 2004518162
のように定義される。ここで、θk,nは実数パラメータであり、Ck,mは複素数パラメータである。
【0031】
2個の連続的な信号セグメントs(先行セグメント)及びs(現在セグメント)を考慮すると、典型的に、それらのサポートする範囲には重なり合いがある。以下、先行セグメントのuはx(m=1,...,M)によって表され、現在セグメントのuはy(n=1,...,N)によって表される。(符号化の意味で)有利なリンクを確立するため、x(t)とy(t)がオーバーラップ領域内で類似している場合に限り、sからの成分mとsからの成分nの間のリンクについて考慮するのが合理的であると思われる。
【0032】
次に、図1乃至4を参照して、本発明の好ましい実施例を説明する。
【0033】
図1には、本発明による連結ユニット100が示されている。連結ユニット100は、類似度マトリックスS(m,n)を生成する計算ユニット120と、連結情報Lを生成する評価ユニット140と、を含む。計算ユニット120の動作は、図5を参照して説明した技術的に公知である計算ユニット520の動作と実質的に対応し、評価ユニット140の動作は、評価ユニット540の動作と実質的に対応する。しかし、本発明による連結ユニット100の動作と技術的に公知である連結ユニット500の動作との間には、以下の相違点がある。
【0034】
計算ユニット120は、先行セグメント及び現在セグメントの振幅及び周波数データの形式の正弦波符号データだけを受信するのではなく、先行セグメントspのすべての成分xの位相と現在セグメントscのN個の各成分yの位相に関する情報を更に含む拡張された正弦波符号データを受信する。
【0035】
その結果として、計算ユニット120は、振幅及び周波数データを考慮するだけではなく、m=1...M、n=1...Nとして、拡張された先行セグメントspのm番目の成分xと、拡張された現在セグメントscのn番目の成分yの間で位相整合性を更に考慮することによって、類似度マトリックスS(m,n)を計算するように適応している。評価ユニット140は、類似度が極大である成分のペア(m,n)を選択することにより、連結情報を生成するため、計算ユニット120から出力された類似度マトリックスS(m,n)を受信し、評価する。
【0036】
図2は、本発明による計算ユニット120の詳細構成図である。計算ユニット120は、先行セグメントの拡張された正弦波符号データ(D)に応答して、m=1...Mの場合に、拡張された先行セグメントspのM個の成分x(t)を生成する第1のパターン発生ユニット122を含む。更に、計算ユニット120は、現在セグメントの拡張された正弦波符号データ(D)に応答して、n=1...Nの場合に、拡張された現在セグメントscのN個の成分y(t)を生成する第2のパターン発生ユニット124を更に含む。最終的に、計算ユニット120は、受信したM個の成分x(t)及び受信したN個の成分y(t)に基づいて、予め決められた類似度指標に従って、類似度マトリックスS(m,n)を計算する計算モジュール126を含む。
【0037】
成分x(t)及びy(t)は、2個の成分mとnの間で位相整合性を判定し、類似度マトリックスを計算する際にその位相整合性を使用するため、明示的に生成され、計算モジュール126に入力される。
【0038】
次に、類似度マトリックスS(m,n)を計算する本発明の二つの実施例を説明する。両方の実施例に共通した事項として、類似度マトリックスは、好ましくは、2個の成分mとnの間の形状の類似度を表現する第1の類似度マトリックスS(m,n)に、成分mとnの間の振幅の類似度を表現する第2の類似度マトリックスS(m,n)を乗算することによって計算されるが、必ずしもこのように計算しなくてもよい。次に、類似度マトリックスは、
S(m,n)=S(m,n)S(m,n) (5)
に従って計算される。
【0039】
S(m,n)=0はリンクが存在しないことを表し、S(m,n)が大きくなると、正弦波符号化の仕組みのリンクとして有利に利用される可能性が高くなる。
【0040】
類似度マトリックスSを計算する第1の実施例は、完全なオーバーラップ領域内で先行セグメントと現在セグメントを考慮する点に基づいている。この第1の実施例の目的は、類似している先行セグメント及び現在セグメントの成分を識別することである。これは、相関法によって行われる。かくして、第1の実施例によれば、相関係数ρm,nは、
【0041】
【数15】
Figure 2004518162
によって定義され、式中、x(m=[1,M])は、先行セグメントsの成分xの集合を表現し、y(y=[1,n])は、現在セグメントsの成分yの集合を表現する。更に、w(t)は窓関数を表し、Exmは、信号xのエネルギーを、
【0042】
【数16】
Figure 2004518162
によって表現する。
【0043】
同様に、Eynは、成分yにおけるエネルギーを、
【0044】
【数17】
Figure 2004518162
に従って表現する。
【0045】
この結果として、ρm,nは、リンクに対して、1に接近すべき複素数である。従って、第1の類似度マトリックスS(m,n)は、
【0046】
【数18】
Figure 2004518162
によって、(部分)類似度指標として構築される。但し、0<D<1である。
【0047】
更に、振幅の等価性(或いは、特に、エネルギーの等価性)は、
【0048】
【数19】
Figure 2004518162
を判断することによって考慮される。
【0049】
リンクに対し、Rは、1に近い値をとるべきであり(ρm,nに対して、Rm,nは実数値であり)、
【0050】
【数20】
Figure 2004518162
によって定義されたS(m,n)は、類似度指標の機能を果たし得る。但し、0<D<1である。
【0051】
先行セグメントspがM個の成分によって表現され、現在セグメントscがN個の成分によって表現される場合、第1のマトリックスS及び第2のマトリックスSと、全体的な類似度マトリックスSは、M行N列のマトリックスである。このマトリックスSのエントリーは、もし存在するならば、リンクを規定し、もしそうであるならば、そのリンクは最も有利なリンクである。この類似度マトリックスS(m,n)の評価は評価ユニット140で行われる。
【0052】
類似度マトリックスSを計算する本発明の第2の実施例は、第1の実施例の簡略化を表す。より詳細には、連続したセグメントの間の重なり合う領域全体ではなく、この領域の中間点だけが考慮される。ここで、
【0053】
【数21】
Figure 2004518162
をサンプルtと呼ぶ。
【0054】
第2の実施例において、tの近傍では、両方の成分は同様に一致していると考えられる。これは、成分における進行(前進)が(ほとんど)一致している場合に実現される。これは、好ましくは、
【0055】
【数22】
Figure 2004518162
に従って2個の連続的なセグメントsとsの成分の比によって評価される。
【0056】
リンクを選択するため、第1の(部分)類似度マトリックスは、
【0057】
【数23】
Figure 2004518162
のように定義される。但し、0<D<1である。
【0058】
振幅類似度は、相対的な形で組み込まれる。これは、心理音響的な妥当性及び距離規準と合致する。
【0059】
第2の部分類似度マトリックスSは、
【0060】
【数24】
Figure 2004518162
のように定義される。但し、0<D<1である。
【0061】
全体的な類似度マトリックスSを計算する第2の実施例は、成分x及びyが特定の時点、即ち、t及びtだけで生成すればよい、という点で第1の実施例と相違する。
【0062】
図3には、本発明の連結ユニットの動作が示されている。同図には、先行セグメントsの成分x(t)は、オーバーラップ領域ORで、連続的な現在セグメントsの成分y(t)と少なくとも部分的に重なり合うことが示されている。計算ユニット120と、特に、計算モジュール126は、オーバーラップ領域内でこれらの二つの成分の間で類似度を解析するように適合させられている。図3に示されているように、二つの成分が少なくともオーバーラップ領域内で一致するならば、類似マトリックスS(m,n)の対応したエントリーは、1、又は、少なくとも1に近い値にセットされるであろう。振幅、周波数及び位相類似度は、評価ユニット140によって、認識され評価され、その結果として、図1において評価ユニット140によって生成された連結情報は、これらの二つの成分が同じ正弦波トラックに属するローカル評価であることを示すであろう。
【0063】
図4には、本発明によるパラメトリック・エンコーダ400が示されている。このエンコーダは、オーディオ及び/又はスピーチ信号sを、正弦波符号データ及び連結情報を含むデータストリームdsに符号化する機能を果たす。エンコーダ400は、信号sを少なくとも先行セグメントsp’及び連続的な現在セグメントsc’に分割するセグメンテーション・ユニット(SU)410を含む。エンコーダ400は、m=1...M並びにn=1...Nのとき、セグメントsp’を近似する拡張された先行セグメントspのM個の成分xと、セグメントsc’を近似する拡張された現在セグメントのN個の成分yの周波数、振幅及び位相データの形式で上記正弦波符号データを生成する正弦波評価ユニット(SE)420を更に含む。正弦波評価ユニット420から出力された正弦波符号データは、図1を参照して説明したように、連結情報を生成する連結ユニット100へ入力される。この連結情報は、適切に配列するか、若しくは、混合することによって、例えば、正弦波評価ユニット420から出力された正弦波符号データを連結情報と多重化することによって、データストリームを生成する配列ユニット430(MUX)へ入力される。この配列ユニット430は、好ましくは、マルチプレクサとして具体化される。
【0064】
実際のオーディオ信号の場合、位相情報を取り入れることにより、符号化された素材の品質が改良されることに注意する必要がある。しかし、エンコーダ400において、位相情報は、トラック・パラメトリックの継続性が探される場合に限り使用される。前のフレームのデータからの周波数に後方向のコネクションが無い場合(即ち、前のフレームのデータが未だトラックではなく、現在のフレームデータと連結された後にトラックの始まりになる場合)、位相情報は使用されるが、しかし、位相情報は周波数及び振幅データだけに基づいて先行の連結処理で中継される。なぜならば、トラックの始まりでは、通常、位相は明確ではないからである。即ち、先行セグメントspの連結情報は、操作目的のため図2の計算モジュール126に入力される。
【0065】
複素数値xとyの(相対的な)差を調べる代わりに、振幅と位相の実部及び虚部を観察し、類似度規準を構築するため使用してもよい。これは、上記の所定の類似度指標を制御する2個のパラメータの代わりに、考慮されている変数毎に1個以上のパラメータを受け取るという利点がある。したがって、複素数パラメータではなく、実数パラメータで表現した場合、最終的にはパラメータの個数は2倍になる。例えば、複素信号を振幅及び位相に分離することによって、位相に対する類似度指標を周波数依存性にすることができるという、興味深い性質が得られる。
【0066】
上記の実施例は、本発明を限定するのではなく、本発明を例示するものであり、当業者は、請求項に係る発明の範囲を逸脱することなく、代替的な実施例を設計することが可能であろう。請求項の記載中、括弧付きの参照符号は、請求項に係る発明を限定するものとして解釈されるべきではない。「含む」、「有する」のような語は、請求項に列挙されていない他の要素或いは手順を除外するものではない。本発明は、幾つかの別々の要素を含むハードウェア、並びに、適切にプログラミングされたコンピュータを用いて実施することが可能である。幾つかの手段を列挙する装置クレームにおいて、それらの手段のうちの幾つかは全く同一のハードウェアによって具現化し得る。ある種の手段が相互に異なる従属請求項に記載されているという単なる事実は、これらの手段を組み合わせて使用しても有利ではない、ということを示すものではない。
【図面の簡単な説明】
【図1】
本発明による連結ユニットの構成図である。
【図2】
図1による連結ユニットの計算ユニットの詳細構成図である。
【図3】
2個の連続的なセグメントの二つの成分の類似度を説明する図である。
【図4】
本発明によるパラメトリック・エンコーダの構成図である。
【図5】
従来技術における連結ユニットの構成図である。

Claims (9)

  1. 部分的に重なり合い、一つに連結されて正弦波トラックを形成する2個の連続的な拡張セグメントsp及びscの成分を表す連結情報Lを生成する連結ユニットであって、
    セグメントsp及びscは、正弦波オーディオ若しくはスピーチ信号sの連続的なセグメントを近似するセグメントであり、
    mが1からMの整数を表し、nが1からNの整数を表すとき、
    拡張された先行セグメントspのM個の成分xの振幅及び周波数、並びに、拡張された現在セグメントscのN個の成分yの振幅及び周波数に関する情報を含む受信した正弦波符号データに応じて、類似度マトリックスS(m,n)を生成する計算ユニットが設けられ、
    該類似度マトリックスの値は、該拡張された先行セグメントspのm番目の成分xと該拡張された現在セグメントのn番目の成分yの間の類似度を表現し、
    少なくとも重なり合う領域内で類似度が極大になる成分のペア(m,n)を選択することにより該連結情報を生成するため、該類似度マトリックスS(m,n)を受信し評価する評価ユニットが設けられ、
    正弦波符号データ(Dp,Dc)は、M個の成分xのうちの少なくとも一部の成分及びN個の成分yのうちの少なくとも一部の成分の位相に関する情報を更に含むことにより拡張され、
    計算ユニットは、拡張された先行セグメントspのm番目の成分xと拡張された現在セグメントscのn番目の成分yの間の位相整合性を更に評価することにより、類似度マトリックスS(m,n)を計算するように適応している、
    ことを特徴とする連結ユニット。
  2. 計算ユニットは、
    先行セグメントの拡張された正弦波符号データ(Dp)に応じて、拡張された先行セグメントspの該M個の成分x(t)を生成する第1のパターン発生ユニットと、
    現在セグメントの拡張された正弦波符号データ(Dc)に応じて、拡張された現在セグメントscの該N個の成分y(t)を生成する第2のパターン発生ユニットと、
    所定の類似度指標に従って、受信した該M個の成分x(t)及び受信した該N個の成分y(t)に基づいて、類似度マトリックスS(m,n)を計算する計算モジュールと、
    を有する、
    ことを特徴とする請求項1記載の連結ユニット。
  3. 第1の類似度マトリックスS(m,n)が成分mと成分nの間の形状の類似度を表現し、第2の類似度マトリックスS(m,n)が成分mと成分nの間の振幅若しくはエネルギーの類似度を表現する場合に、
    計算モジュールは、
    S(m,n)=S(m,n)S(m,n)
    に従って全体的な類似度マトリックスS(m,n)を計算するように適合している、
    ことを特徴とする請求項2記載の連結ユニット。
  4. 第1の類似度マトリックスS(m,n)は、
    Figure 2004518162
    によって定義され、但し、
    0<D<1
    かつ、
    Figure 2004518162
    であり、式中、
    ρm,nは、成分x(t)と成分y(t)の間の形状の類似度を表現する相互相関係数である類似度指標を表し、
    w(t)は窓関数を表し、
    (t)は複素共役成分y(t)を表し、
    xmは信号xのエネルギーを表し、
    Figure 2004518162
    であり、
    ynは信号yのエネルギーを表し、
    Figure 2004518162
    である、
    ことを特徴とする請求項3記載の連結ユニット。
  5. 第2の類似度マトリックスS(m,n)は、
    Figure 2004518162
    によって定義され、但し、
    0<D<1
    かつ、
    Figure 2004518162
    である、
    ことを特徴とする請求項4記載の連結ユニット。
  6. 計算モジュールは、
    0<D<1であるとき、
    Figure 2004518162
    によって第1の類似度マトリックスS(m,n)を計算するように適応している、
    ことを特徴とする請求項3記載の連結ユニット。
  7. 計算モジュールは、
    0<D<1であるとき、
    Figure 2004518162
    によって第2の類似度マトリックスS(m,n)を計算するように適応している、
    ことを特徴とする請求項6記載の連結ユニット。
  8. オーディオとスピーチのうちの少なくとも一方の信号sを正弦波符号データ及び連結情報Lを含むデータストリームに符号化するパラメトリック・エンコーダであって、
    該信号sを、少なくとも先行セグメントsp’及び連続的な重なり合う現在セグメントsc’に分割するセグメンテーション・ユニットが設けられ、
    mが1からMの整数を表し、nが1からNの整数を表すとき、
    該セグメントsp’を近似する拡張された先行セグメントspのM個の成分xの振幅及び周波数、並びに、該セグメントsc’を近似する拡張された現在セグメントscのN個の成分yの振幅及び周波数の形式で該正弦波符号データを生成する正弦波評価ユニットが設けられ、
    受信した正弦波符号データに応じて、類似度マトリックスS(m,n)を生成する計算ユニットが設けられ、
    該類似度マトリックスの値は、該拡張された先行セグメントspのm番目の成分xと、連続的な該拡張された現在セグメントscのn番目の成分yとの間の類似度を表現し、
    類似度が極大になる成分のペアm,nを表す該連結情報Lを生成するため、該類似度マトリックスを受信し評価する評価ユニットが設けられ、
    該振幅、該周波数及び該連結情報を適切に配列することにより、元のオーディオ又はスピーチ信号を表現するデータストリームを生成する配列ユニットが設けられ、
    正弦波符号データ評価ユニットは、M個の成分xのうちの少なくとも一部の成分及びN個の成分yのうちの少なくとも一部の成分の位相に関する情報を更に生成するように適応し、
    計算ユニットは、拡張された先行セグメントspのm番目の成分xと拡張された現在セグメントscのn番目の成分yの間の位相整合性を更に考慮することにより、類似度マトリックスS(m,n)を計算するように適応している、
    ことを特徴とするパラメトリック・エンコーダ。
  9. 部分的に重なり合い、一つに連結されて正弦波トラックを形成する連続的な拡張セグメントsp及び拡張セグメントscの成分を表す連結情報Lを生成する方法であって、
    セグメントsp及びscは、正弦波オーディオ若しくはスピーチ信号sの連続的なセグメントを近似するセグメントであり、
    mが1からMの整数を表し、nが1からNの整数を表すとき、
    拡張された先行セグメントspのM個の成分xの振幅及び周波数、並びに、拡張された現在セグメントscのN個の成分yの振幅及び周波数に関する情報を含む正弦波符号データを準備する手順と、
    所定の類似度指標に従って、該拡張された先行セグメントspのm番目の成分xと該拡張された現在セグメントのn番目の成分yの間の類似度を表現する類似度マトリックスS(m,n)を計算する手順と、
    類似度が極大になる成分のペアm及びnを選択することにより該連結情報を生成するため、該類似度マトリックスS(m,n)を評価する手順と、
    を有し、
    正弦波符号データを準備する手順は、M個の成分xのうちの少なくとも一部の成分及びN個の成分yのうちの少なくとも一部の成分の位相に関する情報を更に準備し、
    類似度マトリックスS(m,n)は、拡張された先行セグメントspのm番目の成分xと拡張された現在セグメントscのn番目の成分yの間の位相整合性を更に考慮することにより計算される、
    ことを特徴とする方法。
JP2002556879A 2001-01-16 2001-12-20 パラメトリック符号化における信号成分の連結 Pending JP2004518162A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP01200144 2001-01-16
EP01202613 2001-07-06
PCT/IB2001/002694 WO2002056298A1 (en) 2001-01-16 2001-12-20 Linking of signal components in parametric encoding

Publications (1)

Publication Number Publication Date
JP2004518162A true JP2004518162A (ja) 2004-06-17

Family

ID=26076812

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002556879A Pending JP2004518162A (ja) 2001-01-16 2001-12-20 パラメトリック符号化における信号成分の連結

Country Status (7)

Country Link
US (1) US7085724B2 (ja)
JP (1) JP2004518162A (ja)
KR (2) KR20080099326A (ja)
CN (1) CN1213403C (ja)
AT (1) ATE330309T1 (ja)
DE (1) DE60120771T2 (ja)
WO (1) WO2002056298A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2298568T3 (es) * 2002-11-29 2008-05-16 Koninklijke Philips Electronics N.V. Descodificacion de audio.
KR20050085761A (ko) * 2002-12-19 2005-08-29 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 인코딩에서의 사인곡선 선택
CN1826634B (zh) * 2003-07-18 2010-12-01 皇家飞利浦电子股份有限公司 低比特率音频编码
JP2009501353A (ja) 2005-07-14 2009-01-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号合成
KR101380170B1 (ko) * 2007-08-31 2014-04-02 삼성전자주식회사 미디어 신호 인코딩/디코딩 방법 및 장치
TWI412019B (zh) * 2010-12-03 2013-10-11 Ind Tech Res Inst 聲音事件偵測模組及其方法
CN106653010B (zh) * 2015-11-03 2020-07-24 络达科技股份有限公司 电子装置及其透过语音辨识唤醒的方法
CN111735443B (zh) * 2020-06-18 2022-04-08 中山大学 一种基于赋值矩阵的密集目标航迹关联方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10214100A (ja) * 1997-01-31 1998-08-11 Sony Corp 音声合成方法
JPH11194796A (ja) * 1997-10-31 1999-07-21 Matsushita Electric Ind Co Ltd 音声再生装置
JP2001005500A (ja) * 1999-06-22 2001-01-12 Yamaha Corp ステレオ信号の時間軸圧伸方法及び装置
JP2002534922A (ja) * 1999-01-06 2002-10-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチメディア信号を伝送する伝送システム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4937873A (en) * 1985-03-18 1990-06-26 Massachusetts Institute Of Technology Computationally efficient sine wave synthesis for acoustic waveform processing
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
US5504833A (en) * 1991-08-22 1996-04-02 George; E. Bryan Speech approximation using successive sinusoidal overlap-add models and pitch-scale modifications
WO2000079519A1 (en) * 1999-06-18 2000-12-28 Koninklijke Philips Electronics N.V. Audio transmission system having an improved encoder

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10214100A (ja) * 1997-01-31 1998-08-11 Sony Corp 音声合成方法
JPH11194796A (ja) * 1997-10-31 1999-07-21 Matsushita Electric Ind Co Ltd 音声再生装置
JP2002534922A (ja) * 1999-01-06 2002-10-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチメディア信号を伝送する伝送システム
JP2001005500A (ja) * 1999-06-22 2001-01-12 Yamaha Corp ステレオ信号の時間軸圧伸方法及び装置

Also Published As

Publication number Publication date
US7085724B2 (en) 2006-08-01
CN1213403C (zh) 2005-08-03
KR20020084199A (ko) 2002-11-04
DE60120771T2 (de) 2007-05-31
ATE330309T1 (de) 2006-07-15
DE60120771D1 (de) 2006-07-27
CN1418362A (zh) 2003-05-14
WO2002056298A1 (en) 2002-07-18
KR20080099326A (ko) 2008-11-12
US20020133358A1 (en) 2002-09-19

Similar Documents

Publication Publication Date Title
Marafioti et al. A context encoder for audio inpainting
Choi et al. Investigating U-Nets with various intermediate blocks for spectrogram-based singing voice separation
US7606709B2 (en) Voice converter with extraction and modification of attribute data
NL1023560C2 (nl) Audio decodeermethode en inrichting welke hoogfrequente componenten met kleine berekeningen herstellen.
Gray et al. Non-intrusive speech-quality assessment using vocal-tract models
JPH01500463A (ja) スピーチ信号データの圧縮方法及びその装置
CN101281744A (zh) 语音分析方法和装置以及语音合成方法和装置
CN111091800A (zh) 歌曲生成方法和装置
Mullen et al. Waveguide physical modeling of vocal tract acoustics: flexible formant bandwidth control from increased model dimensionality
CN112133278B (zh) 一种个性化语音合成模型网络训练及个性化语音合成方法
JP2004518162A (ja) パラメトリック符号化における信号成分の連結
Marafioti et al. Audio inpainting of music by means of neural networks
JPH10319996A (ja) 雑音の効率的分解と波形補間における周期信号波形
US20220156552A1 (en) Data conversion learning device, data conversion device, method, and program
CN1383546A (zh) 正弦编码
CN104036781B (zh) 语音信号带宽扩展装置及方法
JP3576800B2 (ja) 音声分析方法、及びプログラム記録媒体
JPH10268898A (ja) 音声・楽音符号化及び復号化装置
JP2798003B2 (ja) 音声帯域拡大装置および音声帯域拡大方法
Narayanaswamy et al. Audio source separation via multi-scale learning with dilated dense u-nets
CN114842859A (zh) 一种基于in和mi的语音转换方法、系统、终端及存储介质
EP1356456B1 (en) Linking of signal components in parametric encoding
JP2004518163A (ja) オーディオ又は音声信号のパラメトリック符号化
Shih et al. Generative modeling for low dimensional speech attributes with neural spline flows
Mancusi et al. Unsupervised source separation via Bayesian inference in the latent domain

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070904

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080708