JP2006510938A - 音声符号化における正弦波の選択 - Google Patents
音声符号化における正弦波の選択 Download PDFInfo
- Publication number
- JP2006510938A JP2006510938A JP2004561746A JP2004561746A JP2006510938A JP 2006510938 A JP2006510938 A JP 2006510938A JP 2004561746 A JP2004561746 A JP 2004561746A JP 2004561746 A JP2004561746 A JP 2004561746A JP 2006510938 A JP2006510938 A JP 2006510938A
- Authority
- JP
- Japan
- Prior art keywords
- sine wave
- candidate
- phase
- frequency band
- local frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 claims abstract description 58
- 230000005236 sound signal Effects 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims description 14
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 3
- 230000002349 favourable effect Effects 0.000 abstract description 5
- 230000001052 transient effect Effects 0.000 description 19
- 238000001228 spectrum Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/093—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
Abstract
音声信号(x(t))の少なくとも一部を複数の正弦波で表す(12)ことによって前記音声信号を符号化(1)する方法であって、前記音声信号の第1セグメントに対して解析を行い、前記解析に基づいて候補正弦波を選択し、前記候補正弦波のうち少なくとも1つの候補正弦波について当該候補正弦波の周波数の周辺におけるローカル周波数帯域を定義し、前記ローカル周波数帯域における候補正弦波のうち少なくとも1つの候補正弦波を除外して前記ローカル周波数帯域における周波数成分の振幅を組み合わせ、前記振幅の組み合わせに基づいて前記候補正弦波を選択正弦波として選択する工程から構成されることを特徴とする方法。本発明による正弦波の選択により、所定の音質について符号化されるべき正弦波の数を低減することが可能であり、よって所定の音質に対応するビットレートに関して好適な効果が得られる。
Description
本発明は音声信号の符号化において音声信号の再生に関連するいくつかの正弦波が選択され、これらのパラメータが符号化される技術に関する。
正弦波音声符号器では、音声信号の少なくとも一部が複数の正弦波によって表される。これらの正弦波はそれぞれの周波数、振幅、及び随意に位相によって表される。符号化処理において、音声信号は時間セグメントに分割され、これらのセグメントはそれぞれの周波数成分に関して解析される。音声符号器において典型的に適用されるセグメントの大きさは5〜60msの範囲内にある。そして各セグメントについていくつかの正弦波が選択され、これら各セグメントのパラメータが後に符号化される。ある音質に対するビットレートを最小化するためには、関連する正弦波だけを選択してこれらを符号化すればよい。すなわち符号化された音声信号を視覚上適切な音質で再生するのに必要とされる正弦波だけを選択して符号化すればよい。
非特許文献1にはピークピッキングと呼ばれる正弦波の選択法が開示される。ピークピッキング法は振幅スペクトルにおいてピークを有する周波数を選択する工程を含む。また非特許文献2にはマッチング追跡と呼ばれる逐次処理がまた別の正弦波の選択法として開示される。ここでは各逐次処理ステップで、振幅スペクトルにおいて最高のピークを有する周波数が選択され、その後音声信号から差し引かれる。そしてここで得られる残留信号が次の逐次処理ステップにおいて用いられる。このような処理は典型的には正弦波が一定の数だけ選択された時点で終了される。
ピークピッキング法では、全てのピークが選択されるため予めいくつの正弦波が推定されるかが把握できないという欠点がある。特に振幅スペクトルのノイズが大きい場合選択される正弦波の数が多すぎる場合がある。ピークピッキングに対してマッチング追跡法においては、選択される正弦波の数が一定である。よって関連する正弦波が全て選択されることを保証するためにこの一定の数は高く設定する必要がある。したがってこの方法でも多くの正弦波が選択されることとなる。多くの正弦波が選択されると、これら全ての正弦波が符号化される必要があるため高ビットレートとなる。また、処理コストが余計にかかるという欠点もある。例えば知覚モデリングは人間に認知可能な音声信号を符号化するための処理として多くの音声符号器に適用されているが、このモデリング処理の処理コストは高く、よって解析される正弦波が多いことは望まれない。
"Speech analysis/synthesis based on sinusoidal representation", R. McAulay and T. Quartieri, IEEE Transactions on Acoustics, Speech and Signal Processing, 1986, 43: 744-754. "Rate-distortion optimal sinusoidal modeling of audio and speech using psychoacoustical matching pursuits", R. Heusdens and S. van de Par, Proc. IEEE Int. Conf. Acoust. Speech and Signal Proc., Orlando (U.S.A.), 2002.
"Speech analysis/synthesis based on sinusoidal representation", R. McAulay and T. Quartieri, IEEE Transactions on Acoustics, Speech and Signal Processing, 1986, 43: 744-754. "Rate-distortion optimal sinusoidal modeling of audio and speech using psychoacoustical matching pursuits", R. Heusdens and S. van de Par, Proc. IEEE Int. Conf. Acoust. Speech and Signal Proc., Orlando (U.S.A.), 2002.
そこで本発明は、所定の音質に対応するビットレートに関して好適な音声符号化技術を提供することを目的とする。
この目的を達成するために本発明は本願中の独立請求項に記載される符号化方法、音声符号器、及び音声システムを提供する。なお、本発明の好適な実施形態は従属請求項に記載される。
本発明はその第1仕様において、音声信号の少なくとも一部を複数の正弦波で表すことによって前記音声信号を符号化する方法であって、前記音声信号の第1セグメントに対して解析を行い、前記解析に基づいて候補正弦波を選択し、前記候補正弦波のうち少なくとも1つの候補正弦波について当該候補正弦波の周波数の周辺におけるローカル周波数帯域を定義し、前記ローカル周波数帯域における候補正弦波のうち少なくとも1つの候補正弦波を除外して前記ローカル周波数帯域における周波数成分の振幅を組み合わせ、前記振幅の組み合わせに基づいて前記候補正弦波を選択正弦波として選択する工程から構成されることを特徴とする方法を提供する。なお、候補正弦波を選択するために実施される上記解析は通常周波数解析に相当する。このような周波数解析は例えばピークピッキングやマッチング追跡などの一般的な正弦波選択技術において適用される。この候補正弦波に対して適用される選択処理においては、音声信号の第2セグメントに対して解析が行われる。通常この第2セグメントは候補正弦波を選択する際に適用される第1セグメントと同等であるが、これに限定されない。前記ローカル周波数帯域における候補正弦波のうち少なくとも1つの候補正弦波を除外して前記ローカル周波数帯域における周波数成分の振幅を組み合わせることによって、前記ローカル周波数帯域における背景周波数成分に対する計測値が得られる。この計測値を適用することによってより好適な選択処理が実現可能である。そしてここで選択された正弦波のみが符号化される。したがってこのような選択処理を適用することによって所定の音質について符号化される正弦波の数を低減することが可能であり、所定の音質に対応するビットレートに関して好適な効果が得られる。
本発明の更なる実施形態によると、前記候補正弦波の周波数周辺におけるローカル周波数帯域の帯域幅は前記候補正弦波の周波数に依存する。前記候補正弦波の周波数へ依存することによって、前記選択処理は各種異なる周波数に応じて、適切にチューニングされることが可能である。
また、本発明の更なる実施形態によると、前記候補正弦波の周波数への依存性は人間の音声知覚能に基づく。このような依存性は例えばてバーク帯域幅によって定義される。バークとは周知の知覚周波数を示す単位である。他の周知例として、メルスケール(Mel scale)やERBスケールなどが挙げられる。人間の音声に対する知覚度を考慮することによって候補正弦波を選択正弦波として選択するに当たってより好適な選択が実現されうる。
本発明の一実施形態によると、前記候補正弦波の振幅が前記振幅の組み合わせに対して重要であるとされた場合当該候補正弦波は選択正弦波として選択され、前記重要性は前記候補正弦波のローカル周波数帯域における候補正弦波のうち少なくとも1つの候補正弦波が除外された前記ローカル周波数帯域における周波数成分の加重平均振幅と前記候補正弦波の振幅との差に対して閾値を設定することによって評価される。上記鎖に対して閾値を設定することによって候補正弦波のピーク特性を把握するのに適切な方法が実現されうる。
本発明の更なる実施形態によると、前記候補正弦波の振幅が前記振幅の組み合わせに対して重要であるとされた場合当該候補正弦波は選択正弦波として選択され、前記重要性は、前記候補正弦波のローカル周波数帯域における候補正弦波のうち少なくとも1つの候補正弦波が除外された前記ローカル周波数帯域における周波数成分の加重平均振幅と前記候補正弦波の振幅との差と、前記候補正弦波のローカル周波数帯域における候補正弦波のうち少なくとも1つの候補正弦波が除外された前記ローカル周波数帯域における周波数成分の振幅の加重偏差と、の比に対して閾値を設定することによって評価される。この偏差としては例えば標準偏差の定義が適用されうる。前記比に対して閾値を設定することによって候補正弦波のピーク特性を把握するのに適切な更なる方法が実現されうる。
また、本発明の更なる実施形態によると、前記選択正弦波に対して更なる選択処理を実行する工程を有し、前記更なる選択処理工程は、前記選択正弦波のうちの少なくとも1つの選択正弦波について、所定の時点における当該選択正弦波の位相が別の時点における当該選択正弦波の位相から予測されうる程度として定義される前記選択正弦波の位相一貫性を確定し、前記選択正弦波の位相一貫性が所定の閾値を上回る場合、前記選択正弦波を更に厳選された正弦波として選択する工程から構成される。ある時点における選択正弦波の位相はまた別の時点における当該選択正弦波の位相から予測可能である。これはこの選択正弦波の周波数及び位相の予測時点と確定時点との時間差が知られているためである。本発明は、符号化音声信号を再生するために正弦波が復号器において合成される際これら正弦波の位相が一貫しているという実態に基づく。したがって符号化される正弦波として位相が一貫する正弦波を選択することによってより適切な選択が実現されうる。この更なる選択処理は正弦波の位相に基づくものであり、これはその振幅とは独立している。したがってこの更なる選択により前回の選択処理によって選択された選択正弦波から更に厳選された正弦波が選択され、これらの更に厳選された正弦波のみが符号化されることとなる。よって所定の音質について符号化される正弦波の数が更に低減され、所定の音質に対応するビットレートに関して好適な効果が得られる。また、振幅に基づく異選択処理と位相一貫性に基づく更なる選択処理との間の独立性により、これらの処理を並行に行うことも可能である。この場合、各々の選択処理において候補正弦波から選択正弦波が選択され、その後これらの処理結果が組み合わせられる。
また、本発明の更なら実施形態によると、前記選択正弦波の位相一貫性の確定工程は、前記音声信号の第3セグメントを少なくとも第1部分と第2部分とに分割し、少なくとも前記第1部分及び前記第2部分において前記選択正弦波の実質位相を確定し、前記第1部分における実質位相を前記第2部分の実質位相を予測するための入力として用いて、前記第2部分の実質位相と予測位相との差による予測エラーに基づいて前記選択正弦波の位相一貫性を確定する工程から構成される。通常第3セグメントは前回の選択処理において適用される第2セグメントと同等であるが、本発明はこのような場合に限定されることはない。本実施形態の利点としては、例えばFFT処理などの周波数解析を実施することによって選択正弦波の実質位相が容易に把握されうる。なお、この解析は入力として音声信号の一部を要する。
本発明の上記又は他の仕様は、限定的ではない例として挙げられる本発明の実施例の説明によって明らかになるであろう。
図1は本発明の一実施例による音声符号器1を示す。図示される音声符号器1は入力信号x(t)を得るための入力部10を有する。この音声符号器1は入力信号を3つの成分、すなわち過渡信号成分と、正弦波信号成分と、ノイズ信号成分とに分ける。また、音声符号器1は過渡符号器11、正弦波符号器12、及びノイズ解析器13を有する。
過渡符号器11は過渡検出器(TD)110、過渡解析器(TA)111、及び過渡合成器(TS)112を有する。まず、信号x(t)は過渡検出器110、過渡解析器111、及び減算器15に入力される。過渡検出器110は過と信号成分の存在の有無、及びその位置を検出する。この情報は過渡解析器111に供給される。また、この情報は好適な信号誘発セグメント分割を実現するために正弦波解析器(SA)120又はノイズ解析器(NA)13においても適用されうる。過渡解析器111は過渡信号成分(この主要部分)の抽出を図る。これは例えば形状関数と信号セグメントとを一致させてこの形状関数下のコンテンツ(例えばいくつかの(少数の)正弦波など)を把握することによって実現されうる。この情報は過渡符号CTに含まれる。この過渡符号CTは過渡合成器112及びマルチプレクサ14に供給される。合成された過渡信号成分は減算器15において入力信号x(t)から減算され、これにより信号x1が得られる。この信号x1は正弦波解析器120及び更なる減算器16に供給される。正弦波解析器120は正弦波信号成分を把握する。この情報は正弦波符号CSに含まれて正弦波合成器121及びマルチプレクサ14に供給される。正弦波合成器121によって正弦波符号CSから正弦波成分が再構築される。この合成信号は減算器16において入力信号x1から減算される。ここから得られた残留信号x2は(大きな)過渡信号成分及び(主要な)正弦波信号成分を除かれた信号であるため、主にノイズから構成される信号に相当する。この信号x2はノイズ解析器13に供給され、ここでそのスペクトル及び時間的エンベロープについて解析される。この情報はノイズ符号CNに含まれる。マルチプレクサ14では、符号CT、CS、及びCNから構成される音声ストリームASが生成される。この音声ストリームASは例えばデータバス、アンテナシステム、又は記憶媒体などに供給される。
以下において本発明の一実施例による正弦波解析器120における正弦波の選択について説明する。なお、この正弦波の選択処理は過渡解析器111においても適用されうるが、ここでは解析される正弦波の数が少ないため実際にこの選択処理が
過渡解析器111で適用される事例は少ない。
過渡解析器111で適用される事例は少ない。
実際に正弦波の選択が行われる前に、まずいくつかの正弦波の候補が選択される。音声信号の第1セグメントに対して解析が行われ、ここから解析対象候補の正弦波が選択される。この選択では例えばピークピッキングやマッチング追跡などの周知の技術によってこの第1セグメントに対して周波数解析が行われる。この結果いくつかの正弦波の候補が得られ、これらに対して更に厳密な正弦波の選択処理が行われる。図2は本発明による正弦波の候補に対して適用される選択処理手順を示すブロック図である。これら正弦波の候補の周波数はFq=(f1,f2,…,fR)に記憶される。ここでRは正弦波の候補の数を表し、周波数fiはヘルツ(Hz)単位で表される。音声信号の第2セグメントは周波数解析に適するようにウィンドウィングされることができ、これによってウィンドウ・セグメントxwが得られる。なお、第2セグメントは通常正弦波の候補の選択に適用される第1セグメントと同等であるが、第2セグメントとして第1セグメントとは異なるものが採用されることも可能である。ここではまず予備処理段階(PP)が実施される。(I)の工程でFqにおける各周波数fiについて、正弦波の候補が合成され、ウィンドウ・セグメントxwから減算されセグメントxwsが得られる。(II)の工程において、このセグメントxwsは長さPにゼロパッド処理され、例えばFFT処理などによってその周波数成分について解析される。なお、これによって得られる振幅スペクトルを|XS|とする。次に、工程(III)でセグメントxwが長さPにゼロパッド処理され、周波数を減算することなくその周波数成分について解析され、これによって振幅スペクトル|X|が得られる。このような予備処理段階の後、工程(IV)によってFqのうちの周波数fiを有する少なくとも1つの選択された正弦波に対して選択処理が行われる。工程(V)においてこの周波数fi周辺のローカル周波数帯域が確定される。このローカル周波数帯域の定義としては様々なものが適用されうるが、この例では、以下に示されるような臨界周波数によって定義される帯域幅バーク帯域を適用する。
また本発明の一実施形態によると、更なる正弦波の選択が行われる。よって以前の選択処理によって選択された正弦波の周波数はF=(f1,f2,…,fL)に保持され、ここでLは選択された正弦波の数を表し、fiはヘルツ(Hz)単位で定義される各周波数を表す。なお、上述の選択正弦波のうち少なくとも1つの選択正弦波に対してこの更なる選択処理が適用される。なお、この更なる選択処理は選択正弦波の位相の一貫性に基づく選択処理であり、選択正弦波の位相の一貫性は、ある一定の時点におけるこの選択正弦波の位相がまた別の時点におけるこの選択正弦波の位相からどの程度予測可能であるかによって定義される。次にこの選択正弦波の位相の一貫性が所定の閾値を上回る場合、この選択正弦波が更なる選択処理によって選択される。
また、本発明の一実施形態によると、選択正弦波の位相の一貫性は、まず音声信号の第3セグメントを更に細かくセグメント分割することによって確定される。通常この第3セグメントは前回の選択処理において適用された第2セグメントと同等であるが、本発明はこのような実施例に限定されることはなく、第3セグメントとして第2セグメントとは異なるものが適用されることも可能である。選択正弦波の位相の一貫性を把握するには2つ以上の細分化されたセグメント部分が要される。これらのセグメント部分は相互重複しうるが、このような場合に限定されることはない。例えば第3セグメントxsは図3に示されるように3つの重複する細分化部分に分割されうる。Nが第3セグメントのサンプル数を示し、このNの値が偶数である場合、この細分化部分は以下のように定義される。
なお、上述の実施例は本発明による実施形態を例示的に示すものであって、本発明の請求範囲を限定するものではない。そして同業者であれば上記実施例から本発明の請求範囲を逸脱することなくさまざまな変形例を構想することが可能であろう。なお、請求項において「構成する(される)」という表現は、この請求項で挙げられるもの以外の構成要素や工程の存在を否定する意味合いは含まない。また本発明はいくつかの独立した構成要素からなるハードウェア及び/又は適正にプログラミングされたコンピュータによって実現されうる。なお、請求項で複数の手段によって特徴付けられる装置において、これらの手段は1つの同一のハードウェアアイテムによって実現可能である。また、それぞれ別々の従属請求項に記載される本発明の特徴であってもこれらが組み合わさることによって本発明の更に好適な実施形態が実現されうる可能性は否定されない。
要するに、本発明は音声信号の少なくとも一部を複数の正弦波によって表すことによって前記音声信号を符号化する方法であって、前記音声信号の第1セグメントに対して解析を行い、前記解析に基づいて候補正弦波を選択し、前記候補正弦波のうちの少なくとも1つの候補正弦波について当該候補正弦波の周波数の周辺周波数帯域を含むローカル周波数帯域を定義し、前記ローカル周波数帯域における周波数成分の振幅を組み合わせて前記ローカル周波数帯域における候補正弦波のうち少なくとも1つの候補正弦波を除外し、前記振幅の組み合わせに基づいて前記候補正弦波を選択正弦波として選択する工程を含むことを特徴とする方法を提供する。本発明による正弦波の選択によって、所定の音質について符号化される正弦波の数が低減され、よって所定の音質に対応するビットレートに関して好適な効果が得られる。
Claims (10)
- 音声信号の少なくとも一部を複数の正弦波で表すことによって前記音声信号を符号化する方法であって、
前記音声信号の第1セグメントに対して解析を行い、
前記解析に基づいて候補正弦波を選択し、
前記候補正弦波のうち少なくとも1つの候補正弦波について当該候補正弦波の周波数の周辺におけるローカル周波数帯域を定義し、
前記ローカル周波数帯域における候補正弦波のうち少なくとも1つの候補正弦波を除外して前記ローカル周波数帯域における周波数成分の振幅を組み合わせ、
前記振幅の組み合わせに基づいて前記候補正弦波を選択正弦波として選択する工程から構成されることを特徴とする方法。 - 前記候補正弦波の周波数周辺におけるローカル周波数帯域の帯域幅は前記候補正弦波の周波数に依存することを特徴とする請求項1記載の方法。
- 前記候補正弦波の周波数への依存性は人間の音声知覚能に基づくことを特徴とする請求項2に記載の方法。
- 前記候補正弦波の振幅が前記振幅の組み合わせに対して重要であるとされた場合当該候補正弦波は選択正弦波として選択され、前記重要性は前記候補正弦波のローカル周波数帯域における候補正弦波のうち少なくとも1つの候補正弦波が除外された前記ローカル周波数帯域における周波数成分の加重平均振幅と前記候補正弦波の振幅との差に対して閾値を設定することによって評価されることを特徴とする請求項1記載の方法。
- 前記候補正弦波の振幅が前記振幅の組み合わせに対して重要であるとされた場合当該候補正弦波は選択正弦波として選択され、前記重要性は
前記候補正弦波のローカル周波数帯域における候補正弦波のうち少なくとも1つの候補正弦波が除外された前記ローカル周波数帯域における周波数成分の加重平均振幅と前記候補正弦波の振幅との差と、
前記候補正弦波のローカル周波数帯域における候補正弦波のうち少なくとも1つの候補正弦波が除外された前記ローカル周波数帯域における周波数成分の振幅の加重偏差と、の比に対して閾値を設定することによって評価されることを特徴とする請求項1記載の方法。 - 前記選択正弦波に対して更なる選択処理を実行する工程を有し、前記更なる選択処理工程は、
前記選択正弦波のうちの少なくとも1つの選択正弦波について、所定の時点における当該選択正弦波の位相が別の時点における当該選択正弦波の位相から予測されうる程度として定義される前記選択正弦波の位相一貫性を確定し、
前記選択正弦波の位相一貫性が所定の閾値を上回る場合、前記選択正弦波を更に厳選された正弦波として選択する工程から構成されることを特徴とする請求項1記載の方法。 - 前記選択正弦波の位相一貫性の確定工程は、
前記音声信号の第3セグメントを少なくとも第1部分と第2部分とに分割し、
少なくとも前記第1部分及び前記第2部分において前記選択正弦波の実質位相を確定し、
前記第1部分における実質位相を前記第2部分の実質位相を予測するための入力として用いて、
前記第2部分の実質位相と予測位相との差による予測エラーに基づいて前記選択正弦波の位相一貫性を確定する工程から構成されることを特徴とする請求項6記載の方法。 - 音声信号の少なくとも一部を複数の正弦波で表すことによって前記音声信号を符号化する音声符号器であって、
前記音声信号の第1セグメントに対して解析を行う手段、
前記解析に基づいて候補正弦波を選択する手段、
前記候補正弦波のうち少なくとも1つの候補正弦波について当該候補正弦波の周波数の周辺におけるローカル周波数帯域を定義し、
前記ローカル周波数帯域における候補正弦波のうち少なくとも1つの候補正弦波を除外して前記ローカル周波数帯域における周波数成分の振幅を組み合わせる手段、及び
前記振幅の組み合わせに基づいて前記候補正弦波を選択正弦波として選択する手段から構成されることを特徴とする音声符号器。 - 前記音声信号は前記選択正弦波に対して更なる選択処理を実行するように設計され、
前記選択正弦波のうちの少なくとも1つの選択正弦波について、所定の時点における当該選択正弦波の位相が別の時点における当該選択正弦波の位相から予測されうる程度として定義される前記選択正弦波の位相一貫性を確定する手段、及び
前記選択正弦波の位相一貫性が所定の閾値を上回る場合、前記選択正弦波を更に厳選された正弦波として選択する手段から構成されることを特徴とする請求項8記載の音声符号器。 - 音声信号を取得する手段、前記音声信号を符号化して符号化音声信号を取得するための請求項8又は9に記載の音声符号器、及び前記符号化音声信号を記憶及び/又は伝送に適したフォーマットにフォーマット化するフォーマット部から構成される音声システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP02080420 | 2002-12-19 | ||
PCT/IB2003/005346 WO2004057575A2 (en) | 2002-12-19 | 2003-11-20 | Sinusoid selection in audio encoding |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006510938A true JP2006510938A (ja) | 2006-03-30 |
Family
ID=32668778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004561746A Withdrawn JP2006510938A (ja) | 2002-12-19 | 2003-11-20 | 音声符号化における正弦波の選択 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20070112573A1 (ja) |
EP (1) | EP1576583A2 (ja) |
JP (1) | JP2006510938A (ja) |
KR (1) | KR101008529B1 (ja) |
CN (1) | CN100559468C (ja) |
AU (1) | AU2003295178A1 (ja) |
WO (1) | WO2004057575A2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101790129B (zh) * | 2004-08-05 | 2013-04-24 | Lg电子株式会社 | 用于多媒体广播/组播业务的频率选择方法及其移动终端 |
ES2383217T3 (es) | 2006-12-12 | 2012-06-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador, descodificador y métodos para codificar y descodificar segmentos de datos que representan una corriente de datos de dominio de tiempo |
KR101413967B1 (ko) * | 2008-01-29 | 2014-07-01 | 삼성전자주식회사 | 오디오 신호의 부호화 방법 및 복호화 방법, 및 그에 대한 기록 매체, 오디오 신호의 부호화 장치 및 복호화 장치 |
KR101441898B1 (ko) * | 2008-02-01 | 2014-09-23 | 삼성전자주식회사 | 주파수 부호화 방법 및 장치와 주파수 복호화 방법 및 장치 |
US9055374B2 (en) * | 2009-06-24 | 2015-06-09 | Arizona Board Of Regents For And On Behalf Of Arizona State University | Method and system for determining an auditory pattern of an audio segment |
US9020080B2 (en) * | 2011-06-16 | 2015-04-28 | Lockheed Martin Corporation | Method and system to adaptively cancel sinusoidal interference from a signal processing system |
US9672833B2 (en) * | 2014-02-28 | 2017-06-06 | Google Inc. | Sinusoidal interpolation across missing data |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5054072A (en) * | 1987-04-02 | 1991-10-01 | Massachusetts Institute Of Technology | Coding of acoustic waveforms |
JP3134455B2 (ja) * | 1992-01-29 | 2001-02-13 | ソニー株式会社 | 高能率符号化装置及び方法 |
CN1038089C (zh) * | 1993-05-31 | 1998-04-15 | 索尼公司 | 信号编码或译码装置及信号编码或译码方法 |
DE60113034T2 (de) * | 2000-06-20 | 2006-06-14 | Koninkl Philips Electronics Nv | Sinusoidale kodierung |
EP1576584A1 (en) * | 2002-12-19 | 2005-09-21 | Koninklijke Philips Electronics N.V. | Sinusoid selection in audio encoding |
-
2003
- 2003-11-20 AU AU2003295178A patent/AU2003295178A1/en not_active Abandoned
- 2003-11-20 WO PCT/IB2003/005346 patent/WO2004057575A2/en not_active Application Discontinuation
- 2003-11-20 EP EP03786180A patent/EP1576583A2/en not_active Withdrawn
- 2003-11-20 JP JP2004561746A patent/JP2006510938A/ja not_active Withdrawn
- 2003-11-20 KR KR1020057011277A patent/KR101008529B1/ko not_active IP Right Cessation
- 2003-11-20 US US10/539,318 patent/US20070112573A1/en not_active Abandoned
- 2003-11-20 CN CNB2003801068251A patent/CN100559468C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP1576583A2 (en) | 2005-09-21 |
US20070112573A1 (en) | 2007-05-17 |
AU2003295178A8 (en) | 2004-07-14 |
KR20050085744A (ko) | 2005-08-29 |
AU2003295178A1 (en) | 2004-07-14 |
WO2004057575A2 (en) | 2004-07-08 |
CN1729509A (zh) | 2006-02-01 |
CN100559468C (zh) | 2009-11-11 |
KR101008529B1 (ko) | 2011-01-14 |
WO2004057575A3 (en) | 2004-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100742443B1 (ko) | 손실 프레임을 처리하기 위한 음성 통신 시스템 및 방법 | |
US5781880A (en) | Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual | |
Hardwick | A 4.8 kbps multi-band excitation speech coder | |
US9613629B2 (en) | Correction of frame loss during signal decoding | |
EP0995190B1 (en) | Audio coding based on determining a noise contribution from a phase change | |
US20110016077A1 (en) | Audio signal classifier | |
EP2492911B1 (en) | Audio encoding apparatus, decoding apparatus, method, circuit and program | |
US6138092A (en) | CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency | |
JPH05346797A (ja) | 有声音判別方法 | |
EP1527441A2 (en) | Audio coding | |
US7197454B2 (en) | Audio coding | |
US20050091041A1 (en) | Method and system for speech coding | |
US5839102A (en) | Speech coding parameter sequence reconstruction by sequence classification and interpolation | |
JP2008518264A (ja) | 振幅の包絡線を有するパラメトリックオーディオコーディング | |
JP2006510938A (ja) | 音声符号化における正弦波の選択 | |
US6115685A (en) | Phase detection apparatus and method, and audio coding apparatus and method | |
JP2001177416A (ja) | 音声符号化パラメータの取得方法および装置 | |
JP2006510937A (ja) | オーディオ符号化における正弦波選択 | |
JP3559485B2 (ja) | 音声信号の後処理方法および装置並びにプログラムを記録した記録媒体 | |
EP0933757A2 (en) | Phase detection for an audio signal | |
EP0713208B1 (en) | Pitch lag estimation system | |
KR102424897B1 (ko) | 상이한 손실 은닉 도구들의 세트를 지원하는 오디오 디코더 | |
JPH0235994B2 (ja) | ||
JP2000132195A (ja) | 信号符号化装置及び方法 | |
JPH07104793A (ja) | 音声信号の符号化装置及び復号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061117 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20070510 |