JP2004518162A - パラメトリック符号化における信号成分の連結 - Google Patents
パラメトリック符号化における信号成分の連結 Download PDFInfo
- Publication number
- JP2004518162A JP2004518162A JP2002556879A JP2002556879A JP2004518162A JP 2004518162 A JP2004518162 A JP 2004518162A JP 2002556879 A JP2002556879 A JP 2002556879A JP 2002556879 A JP2002556879 A JP 2002556879A JP 2004518162 A JP2004518162 A JP 2004518162A
- Authority
- JP
- Japan
- Prior art keywords
- components
- segment
- similarity
- extended
- similarity matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000011159 matrix material Substances 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 11
- 238000011156 evaluation Methods 0.000 claims description 18
- 102000005717 Myeloma Proteins Human genes 0.000 claims description 10
- 108010045503 Myeloma Proteins Proteins 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000011157 data evaluation Methods 0.000 claims 1
- 230000004044 response Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/093—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
Abstract
本発明は、連結ユニット(100)と、パラメトリック・エンコーダ(400)と、正弦波トラックを形成するため一つに連結される連続的に拡張されたセグメントsp及びscの成分を表す連結情報Lを生成する方法とに関する。セグメントsp及びscは、正弦波オーディオ若しくはスピーチ信号sの連続的なセグメントを近似する。連結ユニットは、受信した正弦波符号データに応じて類似度マトリックスS(m,n)を生成する計算ユニット(120)と、類似度が極大である成分のペアm,nを選択することにより上記連結情報を生成するため、上記類似度マトリックスSを受信し評価する評価ユニット(140)と、を有する。本発明によれば、計算ユニット(120)は、拡張された先行セグメントspの成分と拡張された現在セグメントscの成分の間の位相整合性に関する情報を更に考慮することによって、類似度マトリックスSを計算するように適応させられている。このようにして、一つに連結されるのに適した成分の選択は、改良され、正しいトラックを定義できるようになる。
Description
【0001】
本発明は、請求項1の前提部分に記載されているような連結ユニットに関する。連結(リンキング)ユニットは、正弦波(シヌソイド)トラックを形成するために一つに連結される連続的な(典型的に重なり合っている)拡張セグメントsp及びscの成分を表す連結情報を生成する役目を果たす。セグメントsp及びscは、正弦波オーディオ若しくはスピーチ信号(音声信号)sの連続的なセグメントを近似するセグメントである。
【0002】
本発明は、更に、請求項8の前提部分に記載されたパラメトリック・エンコーダと、請求項9の前提部分に記載された連結情報を生成する方法とに関する。
【0003】
従来技術では、連続的なセグメントに正弦波トラックを定めるため使用される連結情報Lを提供する二つの実質的に異なる解決手法が知られている。WO 00/79519(PHN 017502EP.P)に記載されている第1の解決手法によれば、元のオーディオ若しくはスピーチ信号の部分信号は、振幅、先行セグメント及び現在セグメントからの周波数及び位相情報を含む正弦波入力データに基づいて再構成される。再構成された部分信号は、元のオーディオ信号若しくはスピーチ信号と比較される。重み付き平均2乗誤差信号は、関連したリンクを選択するため、即ち、連結情報Lを生成するため、規準として提案されている。
【0004】
第1の解決手法は、連続的なセグメントを最適に連結するため振幅及び周波数情報を考慮に入れるだけではなく、先行セグメント及び現在セグメントの成分の位相情報も考慮に入れる。しかし、この第1の解決手法の欠点は、その計算負荷、並びに、連結情報を生成するため元の信号が必要となる点である。
【0005】
従来技術で知られている第2の解決手法によれば、連結情報は、現在セグメント及び先行セグメントからの正弦波符号から、位相情報ではなく、振幅及び周波数情報だけを考慮することによって生成される。次に、図5を参照して、第2の解決手法を説明する。
【0006】
図5には、請求項1の前提部分に記載されているような、受信した正弦波符号データDp’、Dc’に応答して、類似度マトリックスS(m,n)を生成する計算ユニット520を含む連結ユニット500が示されている。上記背正弦波符号データは、mが1からMまでの整数(m=1...M)を表すとき、拡張された先行セグメントspのM個の成分xmの振幅及び周波数と、nが1からNまでの整数(n=1...N)を表すとき、拡張された現在セグメントscのN個の成分ynの振幅及び周波数とに関する情報を含む。この類似度マトリックスS(m,n)は、m=1...M並びにn=1...Nの場合に、拡張された先行セグメントspのm番目の成分xmと、拡張された現在セグメントscのn番目の成分ynの間の類似度を表現する。この類似度マトリックスS(m,n)は、評価ユニット540へ入力され、評価ユニットは、類似度が極大である成分のペアm、nを選択することにより、連結情報Lを生成するため、この類似度マトリックスを評価する。
【0007】
この結果として、連結情報Lは、オーディオ若しくはスピーチ信号の連続的なセグメント若しくは成分の間の変化ができる限り滑らかになるように、蓄積又は伝送後にオーディオ若しくはスピーチ信号sを復元する際に一つに連結される連続的な拡張セグメントの成分のペアを表す。滑らかな変化は、復元された信号の品質を改良する。
【0008】
以下の説明では、連続的なセグメントの間で継続する連結された成分は、たとえ、別個の成分が僅かな変動、例えば、振幅変動若しくは周波数変動を含むとしても、正弦波トラックと呼ぶ。
【0009】
第2の解決手法の有利なアプリケーションは、文献:B. Elder, H. Purnhagen, and C. Ferekidis, ”ASAC−Analysis/synthesis codec for very low bit rates”, Preprint 4176 (F−6) 100th AES Convention, Copenhagen, 11−14 May, 1996に記載されている。
【0010】
この論文で、著者は、連結情報を生成するための付加的な規準として周波数及び振幅の相対距離の組み合わせを提案している。換言すると、連結情報は、先行セグメントと現在セグメントの中に、同じ正弦波トラックに属するローカル評価であるとみなされる成分が存在するか、及び、どの成分がローカル評価であるとみなされるかを示す。
【0011】
有利的には、第2の解決手法によれば、連結情報の生成は、元のオーディオ若しくはスピーチ信号を考慮することなく行われる。しかし、第2の解決手法による連結情報の生成は評価された正弦波符号データだけに基づいているので、生成された連結情報に間違いがあり、不正確なトラックが得られる場合がある。
【0012】
第2の解決手法に鑑みて、本発明の目的は、連結ユニット、パラメトリック・エンコーダ、及び、一つに連結するのに適した連続的なセグメントの成分の選択が改良され、正確な正弦波トラックが定義されるように、連結情報を生成する方法を開発することである。
【0013】
この目的は、請求項1に記載された内容によって解決される。請求項1の特徴部分によれば、拡張された正弦波符号データは、振幅及び周波数情報だけではなく、M個の成分xmの少なくとも一部とN個の成分ynの少なくとも一部の位相に関する情報を含む。更に、連結ユニットの計算ユニットは、拡張された先行セグメントspのm番目の成分xmと拡張された現在セグメントscのn番目の成分ynとの間の位相整合性を更に考慮することによって類似度マトリックスS(m,n)を計算するため適応している。
【0014】
有利的には、提案された連結ユニットは、連結情報を生成するため、評価された正弦波符号データだけを使用する。位相情報を更に考慮することによって、従来技術における第2の解決手法と比べると、元のオーディオ若しくはスピーチ信号sを考慮することなく、類似度マトリックスをより正確に決定できるようになり、より信頼性の高い連結情報を決定できるようになる。
【0015】
第1の実施例によれば、計算ユニットは、拡張された先行セグメントspのM個の複素成分xm(t)を生成する第1のパターン発生ユニットと、拡張された現在セグメントscのN個の複素成分yn(t)を生成する第2のパターン発生ユニットと、を含む。これらの時間依存性の複素成分の明示的な計算は、先行セグメントと現在セグメントの成分間の位相整合性を評価できるようにするため、本発明によって要求されている。
【0016】
有利的には、計算モジュールは、成分mと成分nの間で、形状に関する類似度を表す第1の類似度マトリックスS1(m,n)と、振幅に関する類似度を表す第2の類似度マトリックスS2(m,n)の積として、類似度マトリックスS(m,n)を計算するように適応している。更に、連結ユニットの有利な実施例は、従属請求項4乃至7の内容である。
【0017】
本発明の目的は、請求項8に記載されたパラメトリック・エンコーダと、請求項9に記載された連結情報を生成する方法とによって解決される。このパラメトリック・エンコーダと方法の利点は、連結ユニットに関して説明した利点と実質的に一致する。
【0018】
添付図面を参照して本発明の好ましい実施例を説明する前に、一般的に信号セグメントの正弦波モデリングに関する背景情報を提示する予備的な説明を行う。
【0019】
正弦波モデリングにおいて、モデルは、典型的に、次の形式:
【0020】
【数9】
の形式であり(或いは、このような形式で記述することが可能であり)、式中、segは、正弦波信号sを近似若しくはモデル化するセグメントを表す。このようなモデルにおいて、セグメントsegは、式(1)の右辺に与えられるような拡張子によって表現され、ここで、
【0021】
【外1】
は、複素変数の実部を表し、ukは、セグメントsegのK個の基礎となる正弦波若しくは正弦波のような成分である。
【0022】
特に、純粋な第1の正弦波モデル(拡張子)の場合、このセグメントの成分は、
【0023】
【数10】
と表され、式中、Ak、ωk及びμkは、それぞれ、(実数値の)振幅、周波数及び位相を表し、jは、
j=√(−1)
である。
【0024】
第2のモデルによれば、セグメントの成分は、
【0025】
【数11】
のように定義される。式中、Ak、ωk及びμkは、純粋な正弦波モデルの場合と同じであり、付加パラメータσkが現れている。σkは、セグメント内の振幅変化を捉える実数パラメータである。
【0026】
多項式に基づくより複雑な第3のモデルは、
【0027】
【数12】
であり、bk,m及びφk,nは実数パラメータであり、複素数振幅Bk,mは、
【0028】
【数13】
である。
【0029】
最後に、第4のモデルによれば、セグメントの成分は、
【0030】
【数14】
のように定義される。ここで、θk,nは実数パラメータであり、Ck,mは複素数パラメータである。
【0031】
2個の連続的な信号セグメントsp(先行セグメント)及びsc(現在セグメント)を考慮すると、典型的に、それらのサポートする範囲には重なり合いがある。以下、先行セグメントのukはxm(m=1,...,M)によって表され、現在セグメントのukはyn(n=1,...,N)によって表される。(符号化の意味で)有利なリンクを確立するため、xm(t)とyn(t)がオーバーラップ領域内で類似している場合に限り、spからの成分mとscからの成分nの間のリンクについて考慮するのが合理的であると思われる。
【0032】
次に、図1乃至4を参照して、本発明の好ましい実施例を説明する。
【0033】
図1には、本発明による連結ユニット100が示されている。連結ユニット100は、類似度マトリックスS(m,n)を生成する計算ユニット120と、連結情報Lを生成する評価ユニット140と、を含む。計算ユニット120の動作は、図5を参照して説明した技術的に公知である計算ユニット520の動作と実質的に対応し、評価ユニット140の動作は、評価ユニット540の動作と実質的に対応する。しかし、本発明による連結ユニット100の動作と技術的に公知である連結ユニット500の動作との間には、以下の相違点がある。
【0034】
計算ユニット120は、先行セグメント及び現在セグメントの振幅及び周波数データの形式の正弦波符号データだけを受信するのではなく、先行セグメントspのすべての成分xmの位相と現在セグメントscのN個の各成分ynの位相に関する情報を更に含む拡張された正弦波符号データを受信する。
【0035】
その結果として、計算ユニット120は、振幅及び周波数データを考慮するだけではなく、m=1...M、n=1...Nとして、拡張された先行セグメントspのm番目の成分xmと、拡張された現在セグメントscのn番目の成分ynの間で位相整合性を更に考慮することによって、類似度マトリックスS(m,n)を計算するように適応している。評価ユニット140は、類似度が極大である成分のペア(m,n)を選択することにより、連結情報を生成するため、計算ユニット120から出力された類似度マトリックスS(m,n)を受信し、評価する。
【0036】
図2は、本発明による計算ユニット120の詳細構成図である。計算ユニット120は、先行セグメントの拡張された正弦波符号データ(Dp)に応答して、m=1...Mの場合に、拡張された先行セグメントspのM個の成分xm(t)を生成する第1のパターン発生ユニット122を含む。更に、計算ユニット120は、現在セグメントの拡張された正弦波符号データ(Dc)に応答して、n=1...Nの場合に、拡張された現在セグメントscのN個の成分yn(t)を生成する第2のパターン発生ユニット124を更に含む。最終的に、計算ユニット120は、受信したM個の成分xm(t)及び受信したN個の成分yn(t)に基づいて、予め決められた類似度指標に従って、類似度マトリックスS(m,n)を計算する計算モジュール126を含む。
【0037】
成分xm(t)及びyn(t)は、2個の成分mとnの間で位相整合性を判定し、類似度マトリックスを計算する際にその位相整合性を使用するため、明示的に生成され、計算モジュール126に入力される。
【0038】
次に、類似度マトリックスS(m,n)を計算する本発明の二つの実施例を説明する。両方の実施例に共通した事項として、類似度マトリックスは、好ましくは、2個の成分mとnの間の形状の類似度を表現する第1の類似度マトリックスS1(m,n)に、成分mとnの間の振幅の類似度を表現する第2の類似度マトリックスS2(m,n)を乗算することによって計算されるが、必ずしもこのように計算しなくてもよい。次に、類似度マトリックスは、
S(m,n)=S1(m,n)S2(m,n) (5)
に従って計算される。
【0039】
S(m,n)=0はリンクが存在しないことを表し、S(m,n)が大きくなると、正弦波符号化の仕組みのリンクとして有利に利用される可能性が高くなる。
【0040】
類似度マトリックスSを計算する第1の実施例は、完全なオーバーラップ領域内で先行セグメントと現在セグメントを考慮する点に基づいている。この第1の実施例の目的は、類似している先行セグメント及び現在セグメントの成分を識別することである。これは、相関法によって行われる。かくして、第1の実施例によれば、相関係数ρm,nは、
【0041】
【数15】
によって定義され、式中、xm(m=[1,M])は、先行セグメントspの成分xmの集合を表現し、yn(y=[1,n])は、現在セグメントscの成分ynの集合を表現する。更に、w(t)は窓関数を表し、Exmは、信号xmのエネルギーを、
【0042】
【数16】
によって表現する。
【0043】
同様に、Eynは、成分ynにおけるエネルギーを、
【0044】
【数17】
に従って表現する。
【0045】
この結果として、ρm,nは、リンクに対して、1に接近すべき複素数である。従って、第1の類似度マトリックスS1(m,n)は、
【0046】
【数18】
によって、(部分)類似度指標として構築される。但し、0<D1<1である。
【0047】
更に、振幅の等価性(或いは、特に、エネルギーの等価性)は、
【0048】
【数19】
を判断することによって考慮される。
【0049】
リンクに対し、Rは、1に近い値をとるべきであり(ρm,nに対して、Rm,nは実数値であり)、
【0050】
【数20】
によって定義されたS2(m,n)は、類似度指標の機能を果たし得る。但し、0<D2<1である。
【0051】
先行セグメントspがM個の成分によって表現され、現在セグメントscがN個の成分によって表現される場合、第1のマトリックスS1及び第2のマトリックスS2と、全体的な類似度マトリックスSは、M行N列のマトリックスである。このマトリックスSのエントリーは、もし存在するならば、リンクを規定し、もしそうであるならば、そのリンクは最も有利なリンクである。この類似度マトリックスS(m,n)の評価は評価ユニット140で行われる。
【0052】
類似度マトリックスSを計算する本発明の第2の実施例は、第1の実施例の簡略化を表す。より詳細には、連続したセグメントの間の重なり合う領域全体ではなく、この領域の中間点だけが考慮される。ここで、
【0053】
【数21】
をサンプルt0と呼ぶ。
【0054】
第2の実施例において、t0の近傍では、両方の成分は同様に一致していると考えられる。これは、成分における進行(前進)が(ほとんど)一致している場合に実現される。これは、好ましくは、
【0055】
【数22】
に従って2個の連続的なセグメントspとscの成分の比によって評価される。
【0056】
リンクを選択するため、第1の(部分)類似度マトリックスは、
【0057】
【数23】
のように定義される。但し、0<D3<1である。
【0058】
振幅類似度は、相対的な形で組み込まれる。これは、心理音響的な妥当性及び距離規準と合致する。
【0059】
第2の部分類似度マトリックスS2は、
【0060】
【数24】
のように定義される。但し、0<D4<1である。
【0061】
全体的な類似度マトリックスSを計算する第2の実施例は、成分xm及びynが特定の時点、即ち、t0及びt1だけで生成すればよい、という点で第1の実施例と相違する。
【0062】
図3には、本発明の連結ユニットの動作が示されている。同図には、先行セグメントspの成分xm(t)は、オーバーラップ領域ORで、連続的な現在セグメントscの成分yn(t)と少なくとも部分的に重なり合うことが示されている。計算ユニット120と、特に、計算モジュール126は、オーバーラップ領域内でこれらの二つの成分の間で類似度を解析するように適合させられている。図3に示されているように、二つの成分が少なくともオーバーラップ領域内で一致するならば、類似マトリックスS(m,n)の対応したエントリーは、1、又は、少なくとも1に近い値にセットされるであろう。振幅、周波数及び位相類似度は、評価ユニット140によって、認識され評価され、その結果として、図1において評価ユニット140によって生成された連結情報は、これらの二つの成分が同じ正弦波トラックに属するローカル評価であることを示すであろう。
【0063】
図4には、本発明によるパラメトリック・エンコーダ400が示されている。このエンコーダは、オーディオ及び/又はスピーチ信号sを、正弦波符号データ及び連結情報を含むデータストリームdsに符号化する機能を果たす。エンコーダ400は、信号sを少なくとも先行セグメントsp’及び連続的な現在セグメントsc’に分割するセグメンテーション・ユニット(SU)410を含む。エンコーダ400は、m=1...M並びにn=1...Nのとき、セグメントsp’を近似する拡張された先行セグメントspのM個の成分xmと、セグメントsc’を近似する拡張された現在セグメントのN個の成分ynの周波数、振幅及び位相データの形式で上記正弦波符号データを生成する正弦波評価ユニット(SE)420を更に含む。正弦波評価ユニット420から出力された正弦波符号データは、図1を参照して説明したように、連結情報を生成する連結ユニット100へ入力される。この連結情報は、適切に配列するか、若しくは、混合することによって、例えば、正弦波評価ユニット420から出力された正弦波符号データを連結情報と多重化することによって、データストリームを生成する配列ユニット430(MUX)へ入力される。この配列ユニット430は、好ましくは、マルチプレクサとして具体化される。
【0064】
実際のオーディオ信号の場合、位相情報を取り入れることにより、符号化された素材の品質が改良されることに注意する必要がある。しかし、エンコーダ400において、位相情報は、トラック・パラメトリックの継続性が探される場合に限り使用される。前のフレームのデータからの周波数に後方向のコネクションが無い場合(即ち、前のフレームのデータが未だトラックではなく、現在のフレームデータと連結された後にトラックの始まりになる場合)、位相情報は使用されるが、しかし、位相情報は周波数及び振幅データだけに基づいて先行の連結処理で中継される。なぜならば、トラックの始まりでは、通常、位相は明確ではないからである。即ち、先行セグメントspの連結情報は、操作目的のため図2の計算モジュール126に入力される。
【0065】
複素数値xmとymの(相対的な)差を調べる代わりに、振幅と位相の実部及び虚部を観察し、類似度規準を構築するため使用してもよい。これは、上記の所定の類似度指標を制御する2個のパラメータの代わりに、考慮されている変数毎に1個以上のパラメータを受け取るという利点がある。したがって、複素数パラメータではなく、実数パラメータで表現した場合、最終的にはパラメータの個数は2倍になる。例えば、複素信号を振幅及び位相に分離することによって、位相に対する類似度指標を周波数依存性にすることができるという、興味深い性質が得られる。
【0066】
上記の実施例は、本発明を限定するのではなく、本発明を例示するものであり、当業者は、請求項に係る発明の範囲を逸脱することなく、代替的な実施例を設計することが可能であろう。請求項の記載中、括弧付きの参照符号は、請求項に係る発明を限定するものとして解釈されるべきではない。「含む」、「有する」のような語は、請求項に列挙されていない他の要素或いは手順を除外するものではない。本発明は、幾つかの別々の要素を含むハードウェア、並びに、適切にプログラミングされたコンピュータを用いて実施することが可能である。幾つかの手段を列挙する装置クレームにおいて、それらの手段のうちの幾つかは全く同一のハードウェアによって具現化し得る。ある種の手段が相互に異なる従属請求項に記載されているという単なる事実は、これらの手段を組み合わせて使用しても有利ではない、ということを示すものではない。
【図面の簡単な説明】
【図1】
本発明による連結ユニットの構成図である。
【図2】
図1による連結ユニットの計算ユニットの詳細構成図である。
【図3】
2個の連続的なセグメントの二つの成分の類似度を説明する図である。
【図4】
本発明によるパラメトリック・エンコーダの構成図である。
【図5】
従来技術における連結ユニットの構成図である。
本発明は、請求項1の前提部分に記載されているような連結ユニットに関する。連結(リンキング)ユニットは、正弦波(シヌソイド)トラックを形成するために一つに連結される連続的な(典型的に重なり合っている)拡張セグメントsp及びscの成分を表す連結情報を生成する役目を果たす。セグメントsp及びscは、正弦波オーディオ若しくはスピーチ信号(音声信号)sの連続的なセグメントを近似するセグメントである。
【0002】
本発明は、更に、請求項8の前提部分に記載されたパラメトリック・エンコーダと、請求項9の前提部分に記載された連結情報を生成する方法とに関する。
【0003】
従来技術では、連続的なセグメントに正弦波トラックを定めるため使用される連結情報Lを提供する二つの実質的に異なる解決手法が知られている。WO 00/79519(PHN 017502EP.P)に記載されている第1の解決手法によれば、元のオーディオ若しくはスピーチ信号の部分信号は、振幅、先行セグメント及び現在セグメントからの周波数及び位相情報を含む正弦波入力データに基づいて再構成される。再構成された部分信号は、元のオーディオ信号若しくはスピーチ信号と比較される。重み付き平均2乗誤差信号は、関連したリンクを選択するため、即ち、連結情報Lを生成するため、規準として提案されている。
【0004】
第1の解決手法は、連続的なセグメントを最適に連結するため振幅及び周波数情報を考慮に入れるだけではなく、先行セグメント及び現在セグメントの成分の位相情報も考慮に入れる。しかし、この第1の解決手法の欠点は、その計算負荷、並びに、連結情報を生成するため元の信号が必要となる点である。
【0005】
従来技術で知られている第2の解決手法によれば、連結情報は、現在セグメント及び先行セグメントからの正弦波符号から、位相情報ではなく、振幅及び周波数情報だけを考慮することによって生成される。次に、図5を参照して、第2の解決手法を説明する。
【0006】
図5には、請求項1の前提部分に記載されているような、受信した正弦波符号データDp’、Dc’に応答して、類似度マトリックスS(m,n)を生成する計算ユニット520を含む連結ユニット500が示されている。上記背正弦波符号データは、mが1からMまでの整数(m=1...M)を表すとき、拡張された先行セグメントspのM個の成分xmの振幅及び周波数と、nが1からNまでの整数(n=1...N)を表すとき、拡張された現在セグメントscのN個の成分ynの振幅及び周波数とに関する情報を含む。この類似度マトリックスS(m,n)は、m=1...M並びにn=1...Nの場合に、拡張された先行セグメントspのm番目の成分xmと、拡張された現在セグメントscのn番目の成分ynの間の類似度を表現する。この類似度マトリックスS(m,n)は、評価ユニット540へ入力され、評価ユニットは、類似度が極大である成分のペアm、nを選択することにより、連結情報Lを生成するため、この類似度マトリックスを評価する。
【0007】
この結果として、連結情報Lは、オーディオ若しくはスピーチ信号の連続的なセグメント若しくは成分の間の変化ができる限り滑らかになるように、蓄積又は伝送後にオーディオ若しくはスピーチ信号sを復元する際に一つに連結される連続的な拡張セグメントの成分のペアを表す。滑らかな変化は、復元された信号の品質を改良する。
【0008】
以下の説明では、連続的なセグメントの間で継続する連結された成分は、たとえ、別個の成分が僅かな変動、例えば、振幅変動若しくは周波数変動を含むとしても、正弦波トラックと呼ぶ。
【0009】
第2の解決手法の有利なアプリケーションは、文献:B. Elder, H. Purnhagen, and C. Ferekidis, ”ASAC−Analysis/synthesis codec for very low bit rates”, Preprint 4176 (F−6) 100th AES Convention, Copenhagen, 11−14 May, 1996に記載されている。
【0010】
この論文で、著者は、連結情報を生成するための付加的な規準として周波数及び振幅の相対距離の組み合わせを提案している。換言すると、連結情報は、先行セグメントと現在セグメントの中に、同じ正弦波トラックに属するローカル評価であるとみなされる成分が存在するか、及び、どの成分がローカル評価であるとみなされるかを示す。
【0011】
有利的には、第2の解決手法によれば、連結情報の生成は、元のオーディオ若しくはスピーチ信号を考慮することなく行われる。しかし、第2の解決手法による連結情報の生成は評価された正弦波符号データだけに基づいているので、生成された連結情報に間違いがあり、不正確なトラックが得られる場合がある。
【0012】
第2の解決手法に鑑みて、本発明の目的は、連結ユニット、パラメトリック・エンコーダ、及び、一つに連結するのに適した連続的なセグメントの成分の選択が改良され、正確な正弦波トラックが定義されるように、連結情報を生成する方法を開発することである。
【0013】
この目的は、請求項1に記載された内容によって解決される。請求項1の特徴部分によれば、拡張された正弦波符号データは、振幅及び周波数情報だけではなく、M個の成分xmの少なくとも一部とN個の成分ynの少なくとも一部の位相に関する情報を含む。更に、連結ユニットの計算ユニットは、拡張された先行セグメントspのm番目の成分xmと拡張された現在セグメントscのn番目の成分ynとの間の位相整合性を更に考慮することによって類似度マトリックスS(m,n)を計算するため適応している。
【0014】
有利的には、提案された連結ユニットは、連結情報を生成するため、評価された正弦波符号データだけを使用する。位相情報を更に考慮することによって、従来技術における第2の解決手法と比べると、元のオーディオ若しくはスピーチ信号sを考慮することなく、類似度マトリックスをより正確に決定できるようになり、より信頼性の高い連結情報を決定できるようになる。
【0015】
第1の実施例によれば、計算ユニットは、拡張された先行セグメントspのM個の複素成分xm(t)を生成する第1のパターン発生ユニットと、拡張された現在セグメントscのN個の複素成分yn(t)を生成する第2のパターン発生ユニットと、を含む。これらの時間依存性の複素成分の明示的な計算は、先行セグメントと現在セグメントの成分間の位相整合性を評価できるようにするため、本発明によって要求されている。
【0016】
有利的には、計算モジュールは、成分mと成分nの間で、形状に関する類似度を表す第1の類似度マトリックスS1(m,n)と、振幅に関する類似度を表す第2の類似度マトリックスS2(m,n)の積として、類似度マトリックスS(m,n)を計算するように適応している。更に、連結ユニットの有利な実施例は、従属請求項4乃至7の内容である。
【0017】
本発明の目的は、請求項8に記載されたパラメトリック・エンコーダと、請求項9に記載された連結情報を生成する方法とによって解決される。このパラメトリック・エンコーダと方法の利点は、連結ユニットに関して説明した利点と実質的に一致する。
【0018】
添付図面を参照して本発明の好ましい実施例を説明する前に、一般的に信号セグメントの正弦波モデリングに関する背景情報を提示する予備的な説明を行う。
【0019】
正弦波モデリングにおいて、モデルは、典型的に、次の形式:
【0020】
【数9】
の形式であり(或いは、このような形式で記述することが可能であり)、式中、segは、正弦波信号sを近似若しくはモデル化するセグメントを表す。このようなモデルにおいて、セグメントsegは、式(1)の右辺に与えられるような拡張子によって表現され、ここで、
【0021】
【外1】
は、複素変数の実部を表し、ukは、セグメントsegのK個の基礎となる正弦波若しくは正弦波のような成分である。
【0022】
特に、純粋な第1の正弦波モデル(拡張子)の場合、このセグメントの成分は、
【0023】
【数10】
と表され、式中、Ak、ωk及びμkは、それぞれ、(実数値の)振幅、周波数及び位相を表し、jは、
j=√(−1)
である。
【0024】
第2のモデルによれば、セグメントの成分は、
【0025】
【数11】
のように定義される。式中、Ak、ωk及びμkは、純粋な正弦波モデルの場合と同じであり、付加パラメータσkが現れている。σkは、セグメント内の振幅変化を捉える実数パラメータである。
【0026】
多項式に基づくより複雑な第3のモデルは、
【0027】
【数12】
であり、bk,m及びφk,nは実数パラメータであり、複素数振幅Bk,mは、
【0028】
【数13】
である。
【0029】
最後に、第4のモデルによれば、セグメントの成分は、
【0030】
【数14】
のように定義される。ここで、θk,nは実数パラメータであり、Ck,mは複素数パラメータである。
【0031】
2個の連続的な信号セグメントsp(先行セグメント)及びsc(現在セグメント)を考慮すると、典型的に、それらのサポートする範囲には重なり合いがある。以下、先行セグメントのukはxm(m=1,...,M)によって表され、現在セグメントのukはyn(n=1,...,N)によって表される。(符号化の意味で)有利なリンクを確立するため、xm(t)とyn(t)がオーバーラップ領域内で類似している場合に限り、spからの成分mとscからの成分nの間のリンクについて考慮するのが合理的であると思われる。
【0032】
次に、図1乃至4を参照して、本発明の好ましい実施例を説明する。
【0033】
図1には、本発明による連結ユニット100が示されている。連結ユニット100は、類似度マトリックスS(m,n)を生成する計算ユニット120と、連結情報Lを生成する評価ユニット140と、を含む。計算ユニット120の動作は、図5を参照して説明した技術的に公知である計算ユニット520の動作と実質的に対応し、評価ユニット140の動作は、評価ユニット540の動作と実質的に対応する。しかし、本発明による連結ユニット100の動作と技術的に公知である連結ユニット500の動作との間には、以下の相違点がある。
【0034】
計算ユニット120は、先行セグメント及び現在セグメントの振幅及び周波数データの形式の正弦波符号データだけを受信するのではなく、先行セグメントspのすべての成分xmの位相と現在セグメントscのN個の各成分ynの位相に関する情報を更に含む拡張された正弦波符号データを受信する。
【0035】
その結果として、計算ユニット120は、振幅及び周波数データを考慮するだけではなく、m=1...M、n=1...Nとして、拡張された先行セグメントspのm番目の成分xmと、拡張された現在セグメントscのn番目の成分ynの間で位相整合性を更に考慮することによって、類似度マトリックスS(m,n)を計算するように適応している。評価ユニット140は、類似度が極大である成分のペア(m,n)を選択することにより、連結情報を生成するため、計算ユニット120から出力された類似度マトリックスS(m,n)を受信し、評価する。
【0036】
図2は、本発明による計算ユニット120の詳細構成図である。計算ユニット120は、先行セグメントの拡張された正弦波符号データ(Dp)に応答して、m=1...Mの場合に、拡張された先行セグメントspのM個の成分xm(t)を生成する第1のパターン発生ユニット122を含む。更に、計算ユニット120は、現在セグメントの拡張された正弦波符号データ(Dc)に応答して、n=1...Nの場合に、拡張された現在セグメントscのN個の成分yn(t)を生成する第2のパターン発生ユニット124を更に含む。最終的に、計算ユニット120は、受信したM個の成分xm(t)及び受信したN個の成分yn(t)に基づいて、予め決められた類似度指標に従って、類似度マトリックスS(m,n)を計算する計算モジュール126を含む。
【0037】
成分xm(t)及びyn(t)は、2個の成分mとnの間で位相整合性を判定し、類似度マトリックスを計算する際にその位相整合性を使用するため、明示的に生成され、計算モジュール126に入力される。
【0038】
次に、類似度マトリックスS(m,n)を計算する本発明の二つの実施例を説明する。両方の実施例に共通した事項として、類似度マトリックスは、好ましくは、2個の成分mとnの間の形状の類似度を表現する第1の類似度マトリックスS1(m,n)に、成分mとnの間の振幅の類似度を表現する第2の類似度マトリックスS2(m,n)を乗算することによって計算されるが、必ずしもこのように計算しなくてもよい。次に、類似度マトリックスは、
S(m,n)=S1(m,n)S2(m,n) (5)
に従って計算される。
【0039】
S(m,n)=0はリンクが存在しないことを表し、S(m,n)が大きくなると、正弦波符号化の仕組みのリンクとして有利に利用される可能性が高くなる。
【0040】
類似度マトリックスSを計算する第1の実施例は、完全なオーバーラップ領域内で先行セグメントと現在セグメントを考慮する点に基づいている。この第1の実施例の目的は、類似している先行セグメント及び現在セグメントの成分を識別することである。これは、相関法によって行われる。かくして、第1の実施例によれば、相関係数ρm,nは、
【0041】
【数15】
によって定義され、式中、xm(m=[1,M])は、先行セグメントspの成分xmの集合を表現し、yn(y=[1,n])は、現在セグメントscの成分ynの集合を表現する。更に、w(t)は窓関数を表し、Exmは、信号xmのエネルギーを、
【0042】
【数16】
によって表現する。
【0043】
同様に、Eynは、成分ynにおけるエネルギーを、
【0044】
【数17】
に従って表現する。
【0045】
この結果として、ρm,nは、リンクに対して、1に接近すべき複素数である。従って、第1の類似度マトリックスS1(m,n)は、
【0046】
【数18】
によって、(部分)類似度指標として構築される。但し、0<D1<1である。
【0047】
更に、振幅の等価性(或いは、特に、エネルギーの等価性)は、
【0048】
【数19】
を判断することによって考慮される。
【0049】
リンクに対し、Rは、1に近い値をとるべきであり(ρm,nに対して、Rm,nは実数値であり)、
【0050】
【数20】
によって定義されたS2(m,n)は、類似度指標の機能を果たし得る。但し、0<D2<1である。
【0051】
先行セグメントspがM個の成分によって表現され、現在セグメントscがN個の成分によって表現される場合、第1のマトリックスS1及び第2のマトリックスS2と、全体的な類似度マトリックスSは、M行N列のマトリックスである。このマトリックスSのエントリーは、もし存在するならば、リンクを規定し、もしそうであるならば、そのリンクは最も有利なリンクである。この類似度マトリックスS(m,n)の評価は評価ユニット140で行われる。
【0052】
類似度マトリックスSを計算する本発明の第2の実施例は、第1の実施例の簡略化を表す。より詳細には、連続したセグメントの間の重なり合う領域全体ではなく、この領域の中間点だけが考慮される。ここで、
【0053】
【数21】
をサンプルt0と呼ぶ。
【0054】
第2の実施例において、t0の近傍では、両方の成分は同様に一致していると考えられる。これは、成分における進行(前進)が(ほとんど)一致している場合に実現される。これは、好ましくは、
【0055】
【数22】
に従って2個の連続的なセグメントspとscの成分の比によって評価される。
【0056】
リンクを選択するため、第1の(部分)類似度マトリックスは、
【0057】
【数23】
のように定義される。但し、0<D3<1である。
【0058】
振幅類似度は、相対的な形で組み込まれる。これは、心理音響的な妥当性及び距離規準と合致する。
【0059】
第2の部分類似度マトリックスS2は、
【0060】
【数24】
のように定義される。但し、0<D4<1である。
【0061】
全体的な類似度マトリックスSを計算する第2の実施例は、成分xm及びynが特定の時点、即ち、t0及びt1だけで生成すればよい、という点で第1の実施例と相違する。
【0062】
図3には、本発明の連結ユニットの動作が示されている。同図には、先行セグメントspの成分xm(t)は、オーバーラップ領域ORで、連続的な現在セグメントscの成分yn(t)と少なくとも部分的に重なり合うことが示されている。計算ユニット120と、特に、計算モジュール126は、オーバーラップ領域内でこれらの二つの成分の間で類似度を解析するように適合させられている。図3に示されているように、二つの成分が少なくともオーバーラップ領域内で一致するならば、類似マトリックスS(m,n)の対応したエントリーは、1、又は、少なくとも1に近い値にセットされるであろう。振幅、周波数及び位相類似度は、評価ユニット140によって、認識され評価され、その結果として、図1において評価ユニット140によって生成された連結情報は、これらの二つの成分が同じ正弦波トラックに属するローカル評価であることを示すであろう。
【0063】
図4には、本発明によるパラメトリック・エンコーダ400が示されている。このエンコーダは、オーディオ及び/又はスピーチ信号sを、正弦波符号データ及び連結情報を含むデータストリームdsに符号化する機能を果たす。エンコーダ400は、信号sを少なくとも先行セグメントsp’及び連続的な現在セグメントsc’に分割するセグメンテーション・ユニット(SU)410を含む。エンコーダ400は、m=1...M並びにn=1...Nのとき、セグメントsp’を近似する拡張された先行セグメントspのM個の成分xmと、セグメントsc’を近似する拡張された現在セグメントのN個の成分ynの周波数、振幅及び位相データの形式で上記正弦波符号データを生成する正弦波評価ユニット(SE)420を更に含む。正弦波評価ユニット420から出力された正弦波符号データは、図1を参照して説明したように、連結情報を生成する連結ユニット100へ入力される。この連結情報は、適切に配列するか、若しくは、混合することによって、例えば、正弦波評価ユニット420から出力された正弦波符号データを連結情報と多重化することによって、データストリームを生成する配列ユニット430(MUX)へ入力される。この配列ユニット430は、好ましくは、マルチプレクサとして具体化される。
【0064】
実際のオーディオ信号の場合、位相情報を取り入れることにより、符号化された素材の品質が改良されることに注意する必要がある。しかし、エンコーダ400において、位相情報は、トラック・パラメトリックの継続性が探される場合に限り使用される。前のフレームのデータからの周波数に後方向のコネクションが無い場合(即ち、前のフレームのデータが未だトラックではなく、現在のフレームデータと連結された後にトラックの始まりになる場合)、位相情報は使用されるが、しかし、位相情報は周波数及び振幅データだけに基づいて先行の連結処理で中継される。なぜならば、トラックの始まりでは、通常、位相は明確ではないからである。即ち、先行セグメントspの連結情報は、操作目的のため図2の計算モジュール126に入力される。
【0065】
複素数値xmとymの(相対的な)差を調べる代わりに、振幅と位相の実部及び虚部を観察し、類似度規準を構築するため使用してもよい。これは、上記の所定の類似度指標を制御する2個のパラメータの代わりに、考慮されている変数毎に1個以上のパラメータを受け取るという利点がある。したがって、複素数パラメータではなく、実数パラメータで表現した場合、最終的にはパラメータの個数は2倍になる。例えば、複素信号を振幅及び位相に分離することによって、位相に対する類似度指標を周波数依存性にすることができるという、興味深い性質が得られる。
【0066】
上記の実施例は、本発明を限定するのではなく、本発明を例示するものであり、当業者は、請求項に係る発明の範囲を逸脱することなく、代替的な実施例を設計することが可能であろう。請求項の記載中、括弧付きの参照符号は、請求項に係る発明を限定するものとして解釈されるべきではない。「含む」、「有する」のような語は、請求項に列挙されていない他の要素或いは手順を除外するものではない。本発明は、幾つかの別々の要素を含むハードウェア、並びに、適切にプログラミングされたコンピュータを用いて実施することが可能である。幾つかの手段を列挙する装置クレームにおいて、それらの手段のうちの幾つかは全く同一のハードウェアによって具現化し得る。ある種の手段が相互に異なる従属請求項に記載されているという単なる事実は、これらの手段を組み合わせて使用しても有利ではない、ということを示すものではない。
【図面の簡単な説明】
【図1】
本発明による連結ユニットの構成図である。
【図2】
図1による連結ユニットの計算ユニットの詳細構成図である。
【図3】
2個の連続的なセグメントの二つの成分の類似度を説明する図である。
【図4】
本発明によるパラメトリック・エンコーダの構成図である。
【図5】
従来技術における連結ユニットの構成図である。
Claims (9)
- 部分的に重なり合い、一つに連結されて正弦波トラックを形成する2個の連続的な拡張セグメントsp及びscの成分を表す連結情報Lを生成する連結ユニットであって、
セグメントsp及びscは、正弦波オーディオ若しくはスピーチ信号sの連続的なセグメントを近似するセグメントであり、
mが1からMの整数を表し、nが1からNの整数を表すとき、
拡張された先行セグメントspのM個の成分xmの振幅及び周波数、並びに、拡張された現在セグメントscのN個の成分ynの振幅及び周波数に関する情報を含む受信した正弦波符号データに応じて、類似度マトリックスS(m,n)を生成する計算ユニットが設けられ、
該類似度マトリックスの値は、該拡張された先行セグメントspのm番目の成分xmと該拡張された現在セグメントのn番目の成分ynの間の類似度を表現し、
少なくとも重なり合う領域内で類似度が極大になる成分のペア(m,n)を選択することにより該連結情報を生成するため、該類似度マトリックスS(m,n)を受信し評価する評価ユニットが設けられ、
正弦波符号データ(Dp,Dc)は、M個の成分xmのうちの少なくとも一部の成分及びN個の成分ynのうちの少なくとも一部の成分の位相に関する情報を更に含むことにより拡張され、
計算ユニットは、拡張された先行セグメントspのm番目の成分xmと拡張された現在セグメントscのn番目の成分ynの間の位相整合性を更に評価することにより、類似度マトリックスS(m,n)を計算するように適応している、
ことを特徴とする連結ユニット。 - 計算ユニットは、
先行セグメントの拡張された正弦波符号データ(Dp)に応じて、拡張された先行セグメントspの該M個の成分xm(t)を生成する第1のパターン発生ユニットと、
現在セグメントの拡張された正弦波符号データ(Dc)に応じて、拡張された現在セグメントscの該N個の成分yn(t)を生成する第2のパターン発生ユニットと、
所定の類似度指標に従って、受信した該M個の成分xm(t)及び受信した該N個の成分yn(t)に基づいて、類似度マトリックスS(m,n)を計算する計算モジュールと、
を有する、
ことを特徴とする請求項1記載の連結ユニット。 - 第1の類似度マトリックスS1(m,n)が成分mと成分nの間の形状の類似度を表現し、第2の類似度マトリックスS2(m,n)が成分mと成分nの間の振幅若しくはエネルギーの類似度を表現する場合に、
計算モジュールは、
S(m,n)=S1(m,n)S2(m,n)
に従って全体的な類似度マトリックスS(m,n)を計算するように適合している、
ことを特徴とする請求項2記載の連結ユニット。 - オーディオとスピーチのうちの少なくとも一方の信号sを正弦波符号データ及び連結情報Lを含むデータストリームに符号化するパラメトリック・エンコーダであって、
該信号sを、少なくとも先行セグメントsp’及び連続的な重なり合う現在セグメントsc’に分割するセグメンテーション・ユニットが設けられ、
mが1からMの整数を表し、nが1からNの整数を表すとき、
該セグメントsp’を近似する拡張された先行セグメントspのM個の成分xmの振幅及び周波数、並びに、該セグメントsc’を近似する拡張された現在セグメントscのN個の成分ynの振幅及び周波数の形式で該正弦波符号データを生成する正弦波評価ユニットが設けられ、
受信した正弦波符号データに応じて、類似度マトリックスS(m,n)を生成する計算ユニットが設けられ、
該類似度マトリックスの値は、該拡張された先行セグメントspのm番目の成分xmと、連続的な該拡張された現在セグメントscのn番目の成分ynとの間の類似度を表現し、
類似度が極大になる成分のペアm,nを表す該連結情報Lを生成するため、該類似度マトリックスを受信し評価する評価ユニットが設けられ、
該振幅、該周波数及び該連結情報を適切に配列することにより、元のオーディオ又はスピーチ信号を表現するデータストリームを生成する配列ユニットが設けられ、
正弦波符号データ評価ユニットは、M個の成分xmのうちの少なくとも一部の成分及びN個の成分ynのうちの少なくとも一部の成分の位相に関する情報を更に生成するように適応し、
計算ユニットは、拡張された先行セグメントspのm番目の成分xmと拡張された現在セグメントscのn番目の成分ynの間の位相整合性を更に考慮することにより、類似度マトリックスS(m,n)を計算するように適応している、
ことを特徴とするパラメトリック・エンコーダ。 - 部分的に重なり合い、一つに連結されて正弦波トラックを形成する連続的な拡張セグメントsp及び拡張セグメントscの成分を表す連結情報Lを生成する方法であって、
セグメントsp及びscは、正弦波オーディオ若しくはスピーチ信号sの連続的なセグメントを近似するセグメントであり、
mが1からMの整数を表し、nが1からNの整数を表すとき、
拡張された先行セグメントspのM個の成分xmの振幅及び周波数、並びに、拡張された現在セグメントscのN個の成分ynの振幅及び周波数に関する情報を含む正弦波符号データを準備する手順と、
所定の類似度指標に従って、該拡張された先行セグメントspのm番目の成分xmと該拡張された現在セグメントのn番目の成分ynの間の類似度を表現する類似度マトリックスS(m,n)を計算する手順と、
類似度が極大になる成分のペアm及びnを選択することにより該連結情報を生成するため、該類似度マトリックスS(m,n)を評価する手順と、
を有し、
正弦波符号データを準備する手順は、M個の成分xmのうちの少なくとも一部の成分及びN個の成分ynのうちの少なくとも一部の成分の位相に関する情報を更に準備し、
類似度マトリックスS(m,n)は、拡張された先行セグメントspのm番目の成分xmと拡張された現在セグメントscのn番目の成分ynの間の位相整合性を更に考慮することにより計算される、
ことを特徴とする方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP01200144 | 2001-01-16 | ||
EP01202613 | 2001-07-06 | ||
PCT/IB2001/002694 WO2002056298A1 (en) | 2001-01-16 | 2001-12-20 | Linking of signal components in parametric encoding |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004518162A true JP2004518162A (ja) | 2004-06-17 |
Family
ID=26076812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002556879A Pending JP2004518162A (ja) | 2001-01-16 | 2001-12-20 | パラメトリック符号化における信号成分の連結 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7085724B2 (ja) |
JP (1) | JP2004518162A (ja) |
KR (2) | KR20080099326A (ja) |
CN (1) | CN1213403C (ja) |
AT (1) | ATE330309T1 (ja) |
DE (1) | DE60120771T2 (ja) |
WO (1) | WO2002056298A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2298568T3 (es) * | 2002-11-29 | 2008-05-16 | Koninklijke Philips Electronics N.V. | Descodificacion de audio. |
KR20050085761A (ko) * | 2002-12-19 | 2005-08-29 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 인코딩에서의 사인곡선 선택 |
CN1826634B (zh) * | 2003-07-18 | 2010-12-01 | 皇家飞利浦电子股份有限公司 | 低比特率音频编码 |
JP2009501353A (ja) | 2005-07-14 | 2009-01-15 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ信号合成 |
KR101380170B1 (ko) * | 2007-08-31 | 2014-04-02 | 삼성전자주식회사 | 미디어 신호 인코딩/디코딩 방법 및 장치 |
TWI412019B (zh) * | 2010-12-03 | 2013-10-11 | Ind Tech Res Inst | 聲音事件偵測模組及其方法 |
CN106653010B (zh) * | 2015-11-03 | 2020-07-24 | 络达科技股份有限公司 | 电子装置及其透过语音辨识唤醒的方法 |
CN111735443B (zh) * | 2020-06-18 | 2022-04-08 | 中山大学 | 一种基于赋值矩阵的密集目标航迹关联方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10214100A (ja) * | 1997-01-31 | 1998-08-11 | Sony Corp | 音声合成方法 |
JPH11194796A (ja) * | 1997-10-31 | 1999-07-21 | Matsushita Electric Ind Co Ltd | 音声再生装置 |
JP2001005500A (ja) * | 1999-06-22 | 2001-01-12 | Yamaha Corp | ステレオ信号の時間軸圧伸方法及び装置 |
JP2002534922A (ja) * | 1999-01-06 | 2002-10-15 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | マルチメディア信号を伝送する伝送システム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4937873A (en) * | 1985-03-18 | 1990-06-26 | Massachusetts Institute Of Technology | Computationally efficient sine wave synthesis for acoustic waveform processing |
US4885790A (en) * | 1985-03-18 | 1989-12-05 | Massachusetts Institute Of Technology | Processing of acoustic waveforms |
US5504833A (en) * | 1991-08-22 | 1996-04-02 | George; E. Bryan | Speech approximation using successive sinusoidal overlap-add models and pitch-scale modifications |
WO2000079519A1 (en) * | 1999-06-18 | 2000-12-28 | Koninklijke Philips Electronics N.V. | Audio transmission system having an improved encoder |
-
2001
- 2001-12-20 JP JP2002556879A patent/JP2004518162A/ja active Pending
- 2001-12-20 KR KR1020087022327A patent/KR20080099326A/ko not_active Application Discontinuation
- 2001-12-20 DE DE60120771T patent/DE60120771T2/de not_active Expired - Fee Related
- 2001-12-20 CN CNB018066267A patent/CN1213403C/zh not_active Expired - Fee Related
- 2001-12-20 WO PCT/IB2001/002694 patent/WO2002056298A1/en active IP Right Grant
- 2001-12-20 AT AT01273160T patent/ATE330309T1/de not_active IP Right Cessation
- 2001-12-20 KR KR1020027012149A patent/KR20020084199A/ko not_active Application Discontinuation
-
2002
- 2002-01-14 US US10/046,634 patent/US7085724B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10214100A (ja) * | 1997-01-31 | 1998-08-11 | Sony Corp | 音声合成方法 |
JPH11194796A (ja) * | 1997-10-31 | 1999-07-21 | Matsushita Electric Ind Co Ltd | 音声再生装置 |
JP2002534922A (ja) * | 1999-01-06 | 2002-10-15 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | マルチメディア信号を伝送する伝送システム |
JP2001005500A (ja) * | 1999-06-22 | 2001-01-12 | Yamaha Corp | ステレオ信号の時間軸圧伸方法及び装置 |
Also Published As
Publication number | Publication date |
---|---|
US7085724B2 (en) | 2006-08-01 |
CN1213403C (zh) | 2005-08-03 |
KR20020084199A (ko) | 2002-11-04 |
DE60120771T2 (de) | 2007-05-31 |
ATE330309T1 (de) | 2006-07-15 |
DE60120771D1 (de) | 2006-07-27 |
CN1418362A (zh) | 2003-05-14 |
WO2002056298A1 (en) | 2002-07-18 |
KR20080099326A (ko) | 2008-11-12 |
US20020133358A1 (en) | 2002-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Marafioti et al. | A context encoder for audio inpainting | |
Choi et al. | Investigating U-Nets with various intermediate blocks for spectrogram-based singing voice separation | |
US7606709B2 (en) | Voice converter with extraction and modification of attribute data | |
NL1023560C2 (nl) | Audio decodeermethode en inrichting welke hoogfrequente componenten met kleine berekeningen herstellen. | |
Gray et al. | Non-intrusive speech-quality assessment using vocal-tract models | |
JPH01500463A (ja) | スピーチ信号データの圧縮方法及びその装置 | |
CN101281744A (zh) | 语音分析方法和装置以及语音合成方法和装置 | |
CN111091800A (zh) | 歌曲生成方法和装置 | |
Mullen et al. | Waveguide physical modeling of vocal tract acoustics: flexible formant bandwidth control from increased model dimensionality | |
CN112133278B (zh) | 一种个性化语音合成模型网络训练及个性化语音合成方法 | |
JP2004518162A (ja) | パラメトリック符号化における信号成分の連結 | |
Marafioti et al. | Audio inpainting of music by means of neural networks | |
JPH10319996A (ja) | 雑音の効率的分解と波形補間における周期信号波形 | |
US20220156552A1 (en) | Data conversion learning device, data conversion device, method, and program | |
CN1383546A (zh) | 正弦编码 | |
CN104036781B (zh) | 语音信号带宽扩展装置及方法 | |
JP3576800B2 (ja) | 音声分析方法、及びプログラム記録媒体 | |
JPH10268898A (ja) | 音声・楽音符号化及び復号化装置 | |
JP2798003B2 (ja) | 音声帯域拡大装置および音声帯域拡大方法 | |
Narayanaswamy et al. | Audio source separation via multi-scale learning with dilated dense u-nets | |
CN114842859A (zh) | 一种基于in和mi的语音转换方法、系统、终端及存储介质 | |
EP1356456B1 (en) | Linking of signal components in parametric encoding | |
JP2004518163A (ja) | オーディオ又は音声信号のパラメトリック符号化 | |
Shih et al. | Generative modeling for low dimensional speech attributes with neural spline flows | |
Mancusi et al. | Unsupervised source separation via Bayesian inference in the latent domain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070904 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080708 |