JP5063363B2 - 音声合成方法 - Google Patents

音声合成方法 Download PDF

Info

Publication number
JP5063363B2
JP5063363B2 JP2007554693A JP2007554693A JP5063363B2 JP 5063363 B2 JP5063363 B2 JP 5063363B2 JP 2007554693 A JP2007554693 A JP 2007554693A JP 2007554693 A JP2007554693 A JP 2007554693A JP 5063363 B2 JP5063363 B2 JP 5063363B2
Authority
JP
Japan
Prior art keywords
sine wave
wave component
parameter
sinusoidal
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007554693A
Other languages
English (en)
Other versions
JP2008530607A (ja
Inventor
アンドレアス ジェイ ヒェリツ
アルノルドゥス ダブリュ ジェイ オーメン
ミッデリンク マルク クレイン
マレク シュチェルバ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2008530607A publication Critical patent/JP2008530607A/ja
Application granted granted Critical
Publication of JP5063363B2 publication Critical patent/JP5063363B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/02Instruments in which the tones are synthesised from a data store, e.g. computer organs in which amplitudes at successive sample points of a tone waveform are stored in one or more memories
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/08Instruments in which the tones are synthesised from a data store, e.g. computer organs by calculating functions or polynomial approximations to evaluate amplitudes at successive sample points of a tone waveform
    • G10H7/10Instruments in which the tones are synthesised from a data store, e.g. computer organs by calculating functions or polynomial approximations to evaluate amplitudes at successive sample points of a tone waveform using coefficients or parameters stored in a memory, e.g. Fourier coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2230/00General physical, ergonomic or hardware implementation of electrophonic musical tools or instruments, e.g. shape or architecture
    • G10H2230/025Computing or signal processing architecture features
    • G10H2230/041Processor load management, i.e. adaptation or optimization of computational load or data throughput in computationally intensive musical processes to avoid overload artifacts, e.g. by deliberately suppressing less audible or less relevant tones or decreasing their complexity
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/031Spectrum envelope processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/471General musical sound synthesis principles, i.e. sound category-independent synthesis methods

Description

本発明は、音声の合成方法に関する。より特には、本発明は、パラメータの群によって表される音声を合成する装置及び方法に関し、各群は、前記音声の正弦波成分(sinusoidal components)を表す正弦波パラメータと、他の成分を表す他のパラメータと、を含む。
音声を、パラメータの群によって表現することは周知である。音声を、一連のパラメータによって表す、いわゆるパラメトリック符号化技法が、音声を効率的に符号化するために用いられる。適した復号器は、元の音声を、前記一連のパラメータを用いてほぼ再構築することが可能である。前記一連のパラメータは、複数の群に分割され得、各群は、例えば(人間の)話者又は楽器などの個別の音源(音声チャネル)に対応する。
普及しているMIDI(Musical Instrument Digital Interface)プロトコルは、音楽が、楽器用の機材の群によって表現されることを可能にする。それぞれの機材は、特定の機材に割り当てられる。それぞれの機材は、(MIDIにおいて「ボイス」と呼ばれる)1つ又は複数の音声チャネルを使用し得る。同時に使用され得る音声チャネルの数は、多声(polyphony)レベル又は多声と呼ばれる。MIDI楽器は、効率的に伝送及び/又は記憶され得る。
合成器は、通常、例えば音声バンク又はパッチデータなどの、所定の音声定義データを使用する。楽器の音声のサンプルは、音声バンクにおいて、音声データとして記憶される一方で、パッチデータは、音声発生器に関する制御パラメータを規定する。
MIDI楽器は、合成器に、音声バンクから音声データを取得するようにさせ、当該データによって表現される音声を合成させるようにする。これらの音声データは、従来のwave-table合成の場合のように、デジタル化された音声(波形)である、実際の音声サンプルであり得る。しかし、音声サンプルは、通常、多量のメモリを必要とし、このような多量のメモリは、特に携帯電話等のハンドヘルド型民生装置などの、比較的小型な装置においては実現可能でない。
代替的には、音声サンプルは、パラメータによって表現され得、前記パラメータは、振幅、周波数、位相、及び/又は方形型パラメータを含み得、音声サンプルが再構築されるのを可能にする。音声サンプルのパラメータを記憶するのには、通常、実際の音声サンプルを記憶するよりも遥かに少ないメモリを必要とする。しかし、音声の合成は、計算的に負荷の大きいものであり得る。これは、特に、異なる音声チャネル(MIDIにおける「ボイス」)を表すパラメータの異なる群が、同時に合成される(多音)である必要がある場合に該当することである。計算的な負荷は、通常、合成されるべきチャネル(「ボイス」)の数に比例して増加する。このことは、斯様な技法がハンドヘルド装置で用いられることを困難にする。
論文である"Parametric Audio Coding Based Wavetable Synthesis" by M. Szczerba, W. Oomen and M. Klein Middelink, Audio Engineering Society Convention Paper No. 6063, Berlin (Germany), May 2004は、SSC(SinusSoidal Coding) wavetable合成器を開示している。SSC符号化器は、音声入力を、過渡変動、正弦波、及び雑音成分に分解し、これらの成分のそれぞれに関するパラメータ的表現を生成する。これらのパラメータ的表現は、音声バンクに記憶される。SSC復号器(合成器)は、このパラメータ的表現を、元の音声入力を再構築するために使用する。正弦波成分を再構築するために、前記論文は、各正弦波のエネルギスペクトルを信号のスペクトルイメージに収集し、単一の逆フーリエ変換を用いて正弦波を合成することを提案している。この種類の再構築に含まれる計算的負荷は、なお相当なものであり、特に、多数のチャネルの正弦波が同時に合成される必要がある場合には、そのようになる。
多くの最新の音声システムにおいて、64音声チャネルが用いられ得、更に多くの数の音声チャネルが想定される。このことは、既知の装置を、制限された計算処理能力を有する比較的小型な装置において使用するのを不適にする。
一方で、携帯電話などのハンドヘルド型民生装置において音声合成に関する需要は増加している。現代の消費者は、自身のハンドヘルド装置が、様々な呼び出し音などの広範囲の音声を生成することを期待している。
したがって、本発明の目的は、従来技術のこれら及び他の問題を解決すること、並びに、音声の正弦波成分を合成する装置及び方法であって、より効率的で計算負荷を低減する装置及び方法を提供することである。
したがって、本発明は、正弦波成分を含む音声を合成する装置であって、
−知覚的関連性値を用いて、ある数の周波数帯域のそれぞれから、制限された数の正弦波成分を選択する選択手段と、
−前記選択された正弦波成分のみを合成する合成手段と、
を備える装置を提供する。
選択された正弦波成分のみを合成することによって、計算負荷のかなりの低減が達成され得る一方で、合成音声の品質をほぼ維持している。選択及び合成される正弦波成分の制限された数は、好ましくは、例えば1600のうちの110など、入手可能な数よりも相当少ないが、選択される実際の数は、装置の計算処理能力、所望の音声品質、及び/又は、関連する帯域における利用可能な正弦波成分の数に通常依存する。
選択が適用される周波数帯域の数も、変化し得る。好ましくは、選択の処理は、全ての利用可能な周波数帯域において実行され、これにより、可能な最大の低減が達成され得る。しかし、1つ又はいくつかの周波数帯域のみにおいて正弦波成分の制限された数を選択することも可能である。周波数帯域の幅は、数ヘルツから数千ヘルツの間でも変化し得る。
知覚的関連性値は、好ましくは、それぞれの正弦波成分の振幅及び/又はエネルギを含む。いかなる知覚的関連性値も、人間の耳に対する(振幅、エネルギ、及び/又は位相)パラメータの知覚される関連性を考慮する心理的音響モデルに基づき得る。斯様な心理的音響モデルは、それ自体既知であり得る。
知覚的関連性値は、それぞれの正弦波成分の位置も含み得る。平面(2次元)又は空間(3次元)における音源の位置を表現する位置情報は、特定の又は全ての正弦波成分と関連付けられ得、また選択決定ステップにおいて含まれ得る。位置情報は、周知の技術を用いて収集され得、一群の座標(X,Y)又は(A,L)を含み得、ここで、Aは角度、Lは距離である。3次元位置情報は、当然一群の座標(X,Y,Z)又は(A1,A2,L)を含み得る。
周波数帯域は、例えば線形スケール又はバーク(Bark)スケールなどの他のスケールも可能であるものの、好ましくは、例えばERBスケールに基づく。
本発明の装置において、前記正弦波成分は、パラメータによって表現され得る。これらのパラメータは、振幅、周波数、及び/又は位相情報を含み得る。特定の実施例において、例えば過渡変動及び雑音などの他の成分もパラメータによって表現される。
前記パラメータは、振幅パラメータ及び/又は周波数パラメータを含み得、また量子化された値に基づき得る。すなわち、量子化された振幅及び/又は周波数値は、パラメータとして用いられ得る、又はパラメータを導出するのに用いられ得る。このことは、いずれの量子化された値をも逆量子化する必要を除外する。
全ての活動中の音声のパラメータが同時に考慮されることが更に好ましい。全ての活動中の音声に関する全ての正弦波は、選択処理によって考慮される。(従来技術の合成器において行われるように)音声を選択する代わりに、選択するステップは、正弦波成分に実行される。有利な点は、何の音声も失われる必要がないこと、また計算負荷を増加させることなく高い多音が達成されることである。
当該装置は、パラメータの群を、前記パラメータの群に含まれる知覚的関連性値に基づき選択する選択部を備え得る。このことは、関連性パラメータが所定である、すなわち符号化器で決定される場合、特に有用である。斯様な実施例において、符号化器は、知覚的関連性値が挿入されるビットストリームを生成し得る。好ましくは、知覚的関連性値は、ビットストリームとして伝送され得るそれぞれのパラメータの群において含まれる。
代替的に、又は追加的に、装置は、パラメータの群を、当該装置の決定部によって発生される知覚的関連性値に基づき選択する選択部を含み得、前記決定部は、前記知覚的関連性値を、前記群に含まれるパラメータに基づき生成する。
本発明は、上述の合成する装置を含む民生機器も提供する。本発明の民生機器は、必ずしもそうである必要はないが好ましくは、携帯型で、より一層好ましくはハンドヘルド型であり、また携帯(セルラー)電話、CDプレーヤ、DVDプレーヤ、(MP3プレーヤ等の)ソリッドステートプレーヤ、PDA(Personal Digital Assistant)、又はいかなる他の適した機器により構成され得る。
本発明は、更に、正弦波成分を含む音声を合成する方法であって、
−知覚的関連性値を用いて、ある数の周波数帯域のそれぞれから、制限された数の正弦波成分を選択するステップと、
−前記選択された正弦波成分のみを合成するステップと、
を含む方法を提供する。
前記知覚的関連性値が、該それぞれの正弦波成分の振幅、位相、及び/又はエネルギを含み得る。
本発明の方法は、却下される正弦波成分のエネルギ損失に関して、前記選択された正弦波成分の利得を補償するステップを更に含み得る。
本発明は、追加的に、上述の方法を実行する計算機プログラムを提供する。計算機プログラムは、CD又はDVDなどの光学又は磁気担体に記憶された、又は例えばインターネット等の遠隔サーバに記憶されそこからダウンロード可能な一群の計算機実行可能な命令を含み得る。
本発明は、添付の図面に例示される例証的な実施例を参照にして以下に更に説明される。
図1において非制限的例のみとして示される正弦波成分合成装置1は、選択ユニット2及び合成ユニット3を備える。本発明に従うと、選択ユニット2は、正弦波成分パラメータSPを受信し、制限された数の正弦波成分パラメータを選択し、これらの選択されたパラメータSP'を合成ユニット3へ渡す。合成ユニット3は、従来技術の手法で正弦波成分を合成するために、該選択された正弦波成分パラメータSP'のみを用いる。
正弦波成分パラメータSPは、図2に示されるように、音声パラメータの群S1,S2,…,SNの一部であり得る。群Si(i=1…N)は、例示される例において、過渡変動音声成分を表現する過渡変動パラメータTP、正弦波音声成分を表現する正弦波パラメータSP、及び雑音音声成分を表現する雑音パラメータNP、を含む。群Siは、上述のSSC符号化器又はいかなる他の適した符号化器を用いて生成されてあり得る。特定の符号化器は、過渡変動パラメータ(TP)又は雑音パラメータ(NP)を生成し得ないことを理解され得る。
それぞれの群Siは、単一の活動中の音声チャネル(又はMIDIにおける(ボイス))を表現し得る。
正弦波成分パラメータの選択するステップは、図3により詳細に例示されており、図3は、装置1の選択ユニット2の実施例を概略的に示す。図3の例証的な選択ユニット2は、決定部21及び選択部22を備える。決定部21及び選択部22の両方は、正弦波パラメータSPを受信する。しかし、決定部21は、選択決定ステップが基づかれるべき適切な構成パラメータのみを受信する必要がある。
適切な構成パラメータは、利得giである。好ましい実施例において、giは、群Si(図2参照)によって表現される正弦波成分の利得(振幅)である。各利得giは、組み合わせられた(チャネル毎の)利得を生成するために対応するMIDI利得と乗算され得、そして組み合わせられた(チャネル毎の)利得は、選択決定ステップが基づかれるべきパラメータとして用いられ得る。しかし、利得の代わりに、パラメータから導出されるエネルギ値も用いられ得る。
決定部21は、正弦波成分合成に関してどのパラメータが用いられ得るかを決定する。決定は、最適化規準を用いて行われ、例えば5つの最高利得giを見つけ、5つの正弦波の最大値が選択されるべきであると仮定する。周波数帯域語毎に選択されるべき正弦波の実際の数は、所定であり得る、又は完全な帯域における正弦波の総数若しくは全体帯域エネルギに基づく他の因数によって決定され得る。例えば、1つの帯域において所定数の制限より少なく存在する場合、他の帯域は、より転送可能な成分を使用し得る。選択された群に対応する群の数(例えば、2、3、12、23及び41)は、選択部22に供給される。
選択部22は、決定部21によって示される群の正弦波成分パラメータを選択するように構成される。残りの群の正弦波成分パラメータは、無視される。結果として、制限された数の正弦波成分パラメータのみが合成ユニット(図1における3)に渡され、結果として合計される。したがって、合成ユニットの計算負荷は、全ての正弦波成分を合成することに比べて相当低減される。
発明者は、合成に関して用いられる正弦波成分パラメータの数が、音声品質のいかなる大幅な損失もすることなく劇的に低減され得るという洞察を得ていた。選択される群の数は、比較的小さくあり得、例えば全体で1600個のうちの110個(25個の正弦波のそれぞれの64チャネル)、すなわち、約6.9%である。一般的に、選択される群の数は、少なくとも6.0%が好ましいものの、音声品質のいかなる知覚的な損失を防ぐために、全体数の約5.0%であるべきである。選択される群の数が更に低減される場合、合成音声の品質は、徐々に低下するが、特定のアプリケーションに関しては、なお許容され得る。
決定部21によってなされる、どの群を含めるのか又はどれを含めないのかについての決定は、例えば正弦波成分の振幅(レベル)などの知覚値に基づきなされる。例えば、エネルギ値及び/又は包絡線値等の、他の知覚的、すなわち音声の知覚に影響を及ぼす値も利用され得る。位置情報も使用され得、これにより、正弦波成分がその(相対的)位置に基づき選択されるのを可能にされる。
したがって、正弦波成分を選択するステップは、対応する正弦波成分の例えば振幅及びエネルギなどを表現する知覚的関連性値に加えて、(空間)位置情報を含み得る(位置情報は、追加的な知覚的関連性値としてみなされ得ることを特記される)。位置情報は、周知の技術を用いて収集され得る。特定のしかし全てではない正弦波成分が、関連付けられた位置情報を有することが可能であり、「中立」位置情報が、位置情報を有さない成分に割り当てられ得る。
知覚的関連性値を決定するために、周波数、振幅、及び/又は他のパラメータの量子化されたものが用いられ得、これにより、逆量子化に関する必要性を除外し得る。このことは、以下に更に詳細に説明され得る。
群Si(図2)及び正弦波成分の選択するステップ及び合成は、通常、例えば時間フレーム又はサブフレーム毎などの、単位時間毎に実行されることを理解される。正弦波成分パラメータ、及び他のパラメータは、したがって、特定の単位時間のみを参照し得る。時間フレーム等の単位時間は、部分的に重複し得る。
図4に示される例証的なグラフ40は、合成されるべき音声チャネル(又は「ボイス」)の周波数分布を概略的に例示する。正弦波成分の振幅Aは、周波数fの関数として示される。3つの正弦波成分(f1、f2及びf3において)のみ例証の簡略化のために示されるが、実際には、正弦波成分の数は、より多くあり得、通常いかなる所定の時間においてもチャネル毎に25個である。特定のアプリケーションにおいて64チャネルが存在し得るので、このことにより、64×25=1600個の正弦波成分の合成が必要となり、この数は、ハンドヘルド型民生装置などの比較的小さく高価でない装置に関して明らかに実現可能でない。
本発明に従い、周波数分布は、周波数帯域41に再分割される。本例において、6つの周波数帯域が示されるが、例えば、単一の周波数帯域、2つの周波数帯域、3つ、10つ、又は20個など、(6つ)より多い及びより少ない周波数帯域の両方が可能であることを理解され得る。
いくつかの帯域41は全く正弦波成分を含み得ない一方で、他の帯域は50又はより多い正弦波成分を含み得るものの、各周波数帯域41は、元々、ある数の正弦波成分、例えば10又は20個の正弦波成分を含む。本発明に従い、帯域毎の正弦波成分の数は、特定の制限された数、例えば3、4、又は5などに低減される。実際の選択される数は、帯域に元々存在する正弦波成分の数、帯域の幅(周波数範囲)、周波数帯域の総数、及び/又は帯域における正弦波成分の知覚的関連性値に依存し得る。
図4の例において、元々3つより多い正弦波成分が各帯域に存在していたこと、及び3つの最も関連する(すなわち最高知覚的関連性値を有する)ものが選択されるべきであることを仮定される。図4における1つの例証的な周波数帯域において、選択された正弦波成分42が周波数f1,f2及びf3に示される。本発明に従い、これら3つの正弦波成分のみが、音声を合成するために選択及び使用される。関わる周波数帯域におけるいかなる残りの正弦波成分も合成に関して使用されず、廃棄され得る。
しかし、却下された正弦波成分は、利得補償に関して使用され得る。すなわち、正弦波成分を廃棄することによるエネルギ損失が、選択された正弦波成分のエネルギを増加するために、計算及び使用され得る。このエネルギ補償の結果として、音声の全体エネルギは、選択処理によって実質的に影響を受けない。
エネルギ補償は、以下のように実施され得る。始めに、周波数帯域41における全ての(選択された及び却下された)正弦波成分のエネルギが計算される。合成されるべき正弦波成分(図4の例における周波数f1,f2及びf3における正弦波成分)を選択した後で、却下される正弦波成分及び選択される正弦波成分のエネルギ比率が計算される。このエネルギ比率は、この場合、選択された正弦波成分のエネルギを比例して増加させるのに用いられる。結果として、周波数帯域の総エネルギは、選択するステップにおいて影響されない。
したがって、図3の選択部22に組み込まれ得る利得補償手段は、例えば、却下された正弦波成分及び選択された正弦波成分のそれぞれエネルギ値を加算する第1および第2加算ユニット、却下された正弦波成分及び選択された正弦波成分のエネルギ比率を決定する比率ユニット、及び選択された正弦波成分のエネルギ又は振幅値をスケーリングするスケーリングユニット、を備え得る。
上述のように、周波数帯域41の数は変化し得る。好ましい実施例において、周波数帯域は、ERB(Equivalent Regular Bandwidth)スケールに基づく。ERBスケールは、当該分野において周知であることを特記される。ERBスケールの代わりに、Barkスケール又は類似のスケールが使用され得る。このことは、ERB帯域毎に制限された数の正弦波が選択されることを意味する。
上述のように、周波数及び振幅の量子化が符号化器において実行され得、前記符号化器は音声を正弦波成分に分解し、そして前記正弦波成分はパラメータによって表現され得る。例えば、浮動小数点値として利用可能な周波数は、以下の数式:
Figure 0005063363
を用いてERB(Equivalent Rectangular Bandwidth)値に変換され得、ここで、fはチャネルchのサブフレームsfにおけるn番目の正弦波の(ラジアンの)周波数であり、frl[sf][ch][n]は、ERB毎に91.2表現レベルを有するERBスケールの(整数)表現レベル(rl)であり(括弧
Figure 0005063363
及び
Figure 0005063363
は、切り捨て演算を示すことを特記される)、またここで、
Figure 0005063363
である。
値saが、チャネルchのサブフレームsfにおけるn番目の正弦波の振幅を維持し、表現レベルへ変換する場合、符号化器は、浮動小数点振幅を、0.1875dBの最大振幅エラーで対数スケールに量子化する。(整数)表現レベルsarl[sf][ch][n]は、
Figure 0005063363
によって計算され、ここで、sab=1.0218である。上で使用された値91.2と同様にこの値及び他の値も、実験的に決定され、本発明が、これらの特定の値に制限されず、他の値も代わりに使用され得ることを特記される。
量子化された値frl及びarlは、本発明の合成装置によって合成されるために、伝送及び/又は記憶される。本発明に従い、これらの量子化された値は、正弦波成分の選択に関して使用され得る。
これらの量子化された値の逆量子化は、以下のように達成され得る。量子化された周波数は、以下の数式:
Figure 0005063363
を用いて、逆量子化された(ラジアンの)(絶対値の)周波数fqに変換され得、ここで、
Figure 0005063363
である。
復号化された値は、
Figure 0005063363
に従い、逆量子化された(線形)振幅値saqに変換され、ここで、sab=1.0218は、0.1875dBの最大エラーに対応する対数量子化基底である。
全ての周波数及び振幅の逆量子化を避けることは、合成装置の計算複雑性を相当低減する。したがって、本発明の有利な実施例において、選択手段(図1の選択部22及び/又は決定部21)は、量子化された正弦波成分を選択するように構成される。選択ステップを量子化された値に実行することによって、選択された値のみが逆量子化される必要があり、逆量子化の演算の数は、相当低減される。
本発明が用いられ得る音声合成器は、図5に概略的に示される。合成器5は、雑音合成器51、正弦波合成器52、及び過渡変動合成器53、を備える。出力信号(合成された過渡変動、正弦波、及び雑音)は、合成された音声出力信号を形成するために加算器54によって加算される。正弦波合成器52は、有利には、上述の装置を備える。合成器5は、音声品質を妥協することなく制限された数の正弦波成分のみを合成するので、従来技術よりも効率的である。例えば、正弦波の最大数を1600から110に制限することは音声品質に影響を与えないことが分かっている。
合成器5は、オーディオ(音声)復号器(図示せず)の一部であり得る。オーディオ復号器は、入力ビットストリームをデマルチプレクスするとともに、過渡変動パラメータ(TP)、正弦波パラメータ(SP)、及び雑音パラメータ(NP)、の群を分離させるデマルチプレクサを備え得る。
図6において非制限的な例としてのみ示されるオーディオ符号化装置6は、オーディオ信号を3つの段階で符号化する。
第1段階において、オーディオ信号s(n)におけるいかなる過渡変動信号成分も、過渡変動パラメータ抽出(TPE)ユニット61を用いて符号化される。パラメータは、マルチプレクス(MUX)ユニット68及び過渡変動合成(TS)ユニット62の両方に供給される。マルチプレクスユニット68は、図5の装置5などの復号器へ伝送するためのパラメータを適切に組合せ及びマルチプレクスを行う一方で、過渡変動合成ユニット62は、符号化された過渡変動を再構築する。これらの再構築された過渡変動は、過渡変動がほぼ除去される中間信号を形成するために、第1組合せユニット63において元のオーディオ信号s(n)から減算される。
第2段階において、中間信号におけるいかなる正弦波信号成分(すなわち、正弦及び余弦)は、正弦波パラメータ抽出(SPE)ユニット64によって符号化される。生じるパラメータは、マルチプレクスユニット68へ及び正弦波合成(SS)ユニット65へ供給される。正弦波合成ユニット65によって再構築される正弦波は、残余信号を生じさせるために、第2組合せユニット66において中間信号から減算される。
第3段階において、残余信号は、時間/周波数包絡線データ抽出(TFE)ユニット67を用いて符号化される。残余信号は、過渡変動及び正弦波が第1及び第2段階で除去されるので、雑音信号であると仮定されることを特記される。したがって、時間/周波数包絡線データ抽出(TFE)ユニット67は、適切な雑音パラメータによって残余雑音を表現する。
従来技術による雑音モデリング及び符号化技術の概要は、Chapter 5 of the dissertation "Audio Representations for Data Compression and Compressed Domain Processing", by S.N. Levine, Stanford University, USA, 1999において提示され、当該文書の内容の全体は、本文書において組み込まれる。
全ての3つの段階から生じるパラメータは、マルチプレクス(MUX)ユニット68によって適切に組合せ及びマルチプレクスされ、また前記マルチプレクス(MUX)ユニット68は、伝送用に必要とされる帯域幅を低減するために、例えばハフマン符号化又は時間差分符号化などの、パラメータの追加的な符号化をも実行し得る。
パラメータ抽出(すなわち、符号化)ユニット61、64、及び67は、抽出されたパラメータの量子化を実行し得ることを特記される。代替的及び追加的に、量子化は、マルチプレクス(MUX)ユニット68において実行され得る。更に、s(n)は、デジタル信号であり、nはサンプル数を表し、群Si(n)はデジタル信号として伝送されることを特記される。しかし、同一の概念は、アナログ信号にも適用され得る。
MUXユニット68において組合せ及びマルチプレクス(および任意選択的に符号化及び/又は量子化)された後に、パラメータは、衛星接続、グラスファイバケーブル、銅ケーブル、及び/又は他のいずれかの適した媒体などの、伝送媒体を介して伝送される。
オーディオ符号化装置6は、関連性検出器(RD)69を更に備える。関連性検出器69は、(図3に例示されるような)正弦波利得giなどの所定のパラメータを受信し、これらの音響(知覚的)関連性を決定する。生じる関連性値は、マルチプレクサ68へ供給されて戻されて、マルチプレクサ68において、前記値は、出力ビットストリームを形成する群Si(n)に挿入される。前記群に含まれる関連性値は、その後、知覚的関連性を決定する必要なく適切な正弦波パラメータを選択するために、復号器によって用いられ得る。結果として、復号器は、より簡単で高速であり得る。
関連性検出器(RD)69は図6においてマルチプレクサ68に接続されるように示されるが、代わりに、関連性検出器69は、正弦波パラメータ抽出(SPE)64に直接接続され得る。関連性検出器69の動作は、図3に例示される決定部21の動作と類似であり得る。
図6のオーディオ符号化装置6は、3つの段階を有するように示される。しかし、オーディオ符号化装置6は、3つよりも少ないの段階から構成され得、例えば、正弦波及び雑音パラメータのみを生成する2つの段階、又は追加的なパラメータを生成する3つより多い段階から構成され得る。したがって、ユニット61、62、及び63が存在しない実施例は想定され得る。図6のオーディオ符号化装置6は、有利には、図1に示される合成装置によって復号(合成)され得るオーディオパラメータを生成するように構成され得る。
本発明の合成装置は、携帯型装置において、特に、携帯電話、PDA(Personal Digital Assistant)、時計、ゲーム装置、ソリッドステートプレーヤ、電子楽器、デジタル留守番電話機、携帯型CDプレーヤ及び/又はDVDプレーヤなどハンドヘルド型民生装置において活用され得る。
本発明は、合成されるべき正弦波成分の数が、音声品質を妥協することなく劇的に低減され得るという洞察に基づく。本発明は、知覚的関連性値が選択の規準として用いられる場合に、最も効率的な正弦波成分の選択が達成されるという更なる洞察から恩恵を受ける。
本文書におけるいかなる用語も本発明の請求の範囲を制限するように解釈されてはならないことを特記される。特に、「有する」という動詞及びその活用形の使用は、具体的に記載される以外のいかなる要素の存在も排除しないことを意図される。単数形の(回路)構成要素は、複数個の斯様な(回路)構成要素又はそれらの等価物によって置換され得る。
本発明は、上述の実施例に制限されず、添付の請求項に記載の発明の精神及び範囲から逸脱することなく、多数の変更態様及び追加態様がなされ得ることを当業者により理解され得る。
図1は、本発明に従う正弦波合成装置を概略的に示す。 図2は、本発明で用いられる音声を表現するパラメータの群を概略的に示す。 図3は、より詳細に図1の装置の選択部を概略的に示す。 図4は、本発明に従う正弦波成分の選択するステップを概略的に示す。 図5は、本発明の装置を組み込む音声合成装置を概略的に示す。 図6は、音声符号化装置を概略的に示す。

Claims (13)

  1. 振幅パラメータ及び/又は周波数パラメータを含むパラメータであって、量子化された値に基づくパラメータによって表現される正弦波成分を含む音声を合成する装置であり
    −知覚的関連性値を用いて、多数の周波数帯域のそれぞれから、制限された数の正弦波成分を選択する選択手段と、
    −前記選択された正弦波成分のみを合成する合成手段と、
    を備える装置であって、
    前記合成手段が、前記合成の一部として前記選択された正弦波成分のみの前記パラメータを逆量子化するよう構成され、
    前記選択手段が、前記合成手段による逆量子化の前に、前記パラメータの前記量子化された値に基づいて、前記制限された数の正弦波成分を選択するよう構成されることを特徴とする装置
  2. 前記知覚的関連性値が、該それぞれの正弦波成分の振幅、エネルギ及び/又は空間位置を含む、請求項1に記載の装置。
  3. 前記正弦波成分が、複数の音声チャネルのうちの1つとそれぞれ関連付けられ、前記知覚的関連性値が、前記それぞれのチャネルの包絡線を含む、請求項1に記載の装置。
  4. 前記周波数帯域が、ERBスケール等の知覚的関連性値に基づく、請求項1に記載の装置。
  5. いずれの却下される正弦波成分のいずれのエネルギ損失に関しても、前記選択された正弦波成分の利得を補償する利得補償手段を更に備える、請求項1に記載の装置。
  6. 請求項1乃至5の何れか一項に記載の合成する装置を含む、携帯電話、ゲーム機、オーディオプレーヤ、又は留守番電話機などの、民生装置。
  7. 振幅パラメータ及び/又は周波数パラメータを含むパラメータであって、量子化された値に基づくパラメータによって表現される正弦波成分を含む音声を合成する方法であり
    −知覚的関連性値を用いて、多数の周波数帯域のそれぞれから、制限された数の正弦波成分を選択するステップと、
    −前記選択された正弦波成分のみを合成するステップと、
    を含む方法であって、
    前記合成するステップが、前記合成の一部として前記選択された正弦波成分のみの前記パラメータの逆量子化を含み、
    前記選択するステップが、前記合成するステップによる逆量子化の前に、前記パラメータの前記量子化された値に基づく、前記制限された数の正弦波成分の選択を含むことを特徴とする方法
  8. 前記知覚的関連性値が、該それぞれの正弦波成分の振幅、エネルギ及び/又は空間位置を含む、請求項7に記載の方法。
  9. 前記正弦波成分が、複数の音声チャネルのうちの1つとそれぞれ関連付けられ、前記知覚的関連性値が、前記それぞれのチャネルの包絡線を含む、請求項7に記載の方法。
  10. いずれの却下される正弦波成分のいずれのエネルギ損失に関しても、前記選択された正弦波成分の利得を補償するステップを更に備える、請求項7に記載の方法。
  11. 請求項7乃至10の何れか一項に記載の方法を実行する計算機プログラム。
  12. 正弦波成分を含む音声を合成する装置であり、
    −知覚的関連性値を用いて、多数の周波数帯域のそれぞれから、制限された数の正弦波成分を選択する選択手段と、
    −前記選択された正弦波成分のみを合成する合成手段と、
    を備える装置であって、
    いずれの却下される正弦波成分のいずれのエネルギ損失に関しても、前記選択された正弦波成分の利得を補償する利得補償手段を更に備えることを特徴とする装置。
  13. 正弦波成分を含む音声を合成する方法であり、
    −知覚的関連性値を用いて、多数の周波数帯域のそれぞれから、制限された数の正弦波成分を選択するステップと、
    −前記選択された正弦波成分のみを合成するステップと、
    を含む方法であって、
    いずれの却下される正弦波成分のいずれのエネルギ損失に関しても、前記選択された正弦波成分の利得を補償するステップを更に含むことを特徴とする方法。
JP2007554693A 2005-02-10 2006-02-01 音声合成方法 Expired - Fee Related JP5063363B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP05100945 2005-02-10
EP05100945.4 2005-02-10
PCT/IB2006/050337 WO2006085243A2 (en) 2005-02-10 2006-02-01 Sound synthesis

Publications (2)

Publication Number Publication Date
JP2008530607A JP2008530607A (ja) 2008-08-07
JP5063363B2 true JP5063363B2 (ja) 2012-10-31

Family

ID=36686032

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007554693A Expired - Fee Related JP5063363B2 (ja) 2005-02-10 2006-02-01 音声合成方法

Country Status (6)

Country Link
US (1) US7649135B2 (ja)
EP (1) EP1851760B1 (ja)
JP (1) JP5063363B2 (ja)
KR (1) KR101315075B1 (ja)
CN (1) CN101116136B (ja)
WO (1) WO2006085243A2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1851760B1 (en) 2005-02-10 2015-10-07 Koninklijke Philips N.V. Sound synthesis
EP2038882A2 (en) * 2006-06-29 2009-03-25 Nxp B.V. Decoding sound parameters
US20080184872A1 (en) * 2006-06-30 2008-08-07 Aaron Andrew Hunt Microtonal tuner for a musical instrument using a digital interface
CN101606192B (zh) 2007-02-06 2014-10-08 皇家飞利浦电子股份有限公司 低复杂度参数化立体声解码器
KR20080073925A (ko) * 2007-02-07 2008-08-12 삼성전자주식회사 파라메트릭 부호화된 오디오 신호를 복호화하는 방법 및장치
US7718882B2 (en) * 2007-03-22 2010-05-18 Qualcomm Incorporated Efficient identification of sets of audio parameters
US7678986B2 (en) * 2007-03-22 2010-03-16 Qualcomm Incorporated Musical instrument digital interface hardware instructions
US8489403B1 (en) * 2010-08-25 2013-07-16 Foundation For Research and Technology—Institute of Computer Science ‘FORTH-ICS’ Apparatuses, methods and systems for sparse sinusoidal audio processing and transmission
JP5561497B2 (ja) * 2012-01-06 2014-07-30 ヤマハ株式会社 波形データ生成装置及び波形データ生成プログラム
CN103811011B (zh) * 2012-11-02 2017-05-17 富士通株式会社 音频弦波检测方法和装置
JP6284298B2 (ja) * 2012-11-30 2018-02-28 Kddi株式会社 音声合成装置、音声合成方法および音声合成プログラム
CN110010140B (zh) 2013-04-05 2023-04-18 杜比国际公司 立体声音频编码器和解码器
CN104347082B (zh) * 2013-07-24 2017-10-24 富士通株式会社 弦波帧检测方法和设备以及音频编码方法和设备
CN103854642B (zh) * 2014-03-07 2016-08-17 天津大学 基于物理的火焰声音合成方法
JP6410890B2 (ja) * 2017-07-04 2018-10-24 Kddi株式会社 音声合成装置、音声合成方法および音声合成プログラム

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5029509A (en) * 1989-05-10 1991-07-09 Board Of Trustees Of The Leland Stanford Junior University Musical synthesizer combining deterministic and stochastic waveforms
US5220629A (en) * 1989-11-06 1993-06-15 Canon Kabushiki Kaisha Speech synthesis apparatus and method
US5248845A (en) * 1992-03-20 1993-09-28 E-Mu Systems, Inc. Digital sampling instrument
US5763800A (en) * 1995-08-14 1998-06-09 Creative Labs, Inc. Method and apparatus for formatting digital audio data
FR2738099B1 (fr) * 1995-08-25 1997-10-24 France Telecom Procede de simulation de la qualite acoustique d'une salle et processeur audio-numerique associe
DE69629486T2 (de) * 1995-10-23 2004-06-24 The Regents Of The University Of California, Oakland Kontrollstruktur für klangsynthesierung
US5686683A (en) * 1995-10-23 1997-11-11 The Regents Of The University Of California Inverse transform narrow band/broad band sound synthesis
US5689080A (en) * 1996-03-25 1997-11-18 Advanced Micro Devices, Inc. Computer system and method for performing wavetable music synthesis which stores wavetable data in system memory which minimizes audio infidelity due to wavetable data access latency
US5920843A (en) * 1997-06-23 1999-07-06 Mircrosoft Corporation Signal parameter track time slice control point, step duration, and staircase delta determination, for synthesizing audio by plural functional components
US7756892B2 (en) * 2000-05-02 2010-07-13 Digimarc Corporation Using embedded data with file sharing
US5900568A (en) * 1998-05-15 1999-05-04 International Business Machines Corporation Method for automatic sound synthesis
US6298322B1 (en) * 1999-05-06 2001-10-02 Eric Lindemann Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal
JP3707300B2 (ja) * 1999-06-02 2005-10-19 ヤマハ株式会社 楽音発生装置用拡張ボード
JP2002140067A (ja) * 2000-11-06 2002-05-17 Casio Comput Co Ltd 電子楽器および電子楽器のレジストレーション方法
SG118122A1 (en) * 2001-03-27 2006-01-27 Yamaha Corp Waveform production method and apparatus
US7136418B2 (en) * 2001-05-03 2006-11-14 University Of Washington Scalable and perceptually ranked signal coding and decoding
AUPR647501A0 (en) * 2001-07-19 2001-08-09 Vast Audio Pty Ltd Recording a three dimensional auditory scene and reproducing it for the individual listener
CN1288624C (zh) * 2001-11-23 2006-12-06 皇家飞利浦电子股份有限公司 感觉噪声替换的方法和装置
US20040002859A1 (en) * 2002-06-26 2004-01-01 Chi-Min Liu Method and architecture of digital conding for transmitting and packing audio signals
WO2004021331A1 (en) 2002-09-02 2004-03-11 Telefonaktiebolaget Lm Ericsson (Publ) Sound synthesiser
US7650277B2 (en) * 2003-01-23 2010-01-19 Ittiam Systems (P) Ltd. System, method, and apparatus for fast quantization in perceptual audio coders
CN100508030C (zh) * 2003-06-30 2009-07-01 皇家飞利浦电子股份有限公司 一种编码/解码音频信号的方法及相应设备
ES2322264T3 (es) 2003-07-18 2009-06-18 Koninklijke Philips Electronics N.V. Codificacion de audio de baja tasa de transmision de bits.
JP5238256B2 (ja) * 2004-11-04 2013-07-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 多チャンネル音声信号の符号化及び復号化
BRPI0517949B1 (pt) * 2004-11-04 2019-09-03 Koninklijke Philips Nv dispositivo de conversão para converter um sinal dominante, método de conversão de um sinal dominante, e meio não transitório legível por computador
US7676362B2 (en) * 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
KR101207325B1 (ko) * 2005-02-10 2012-12-03 코닌클리케 필립스 일렉트로닉스 엔.브이. 음성 합성 장치 및 방법
EP1851760B1 (en) 2005-02-10 2015-10-07 Koninklijke Philips N.V. Sound synthesis
US7885809B2 (en) * 2005-04-20 2011-02-08 Ntt Docomo, Inc. Quantization of speech and audio coding parameters using partial information on atypical subsequences
US8046218B2 (en) * 2006-09-19 2011-10-25 The Board Of Trustees Of The University Of Illinois Speech and method for identifying perceptual features

Also Published As

Publication number Publication date
JP2008530607A (ja) 2008-08-07
US7649135B2 (en) 2010-01-19
WO2006085243A3 (en) 2006-11-09
WO2006085243A2 (en) 2006-08-17
KR101315075B1 (ko) 2013-10-08
KR20070107117A (ko) 2007-11-06
US20080250913A1 (en) 2008-10-16
CN101116136B (zh) 2011-05-18
EP1851760B1 (en) 2015-10-07
EP1851760A2 (en) 2007-11-07
CN101116136A (zh) 2008-01-30

Similar Documents

Publication Publication Date Title
JP5063363B2 (ja) 音声合成方法
JP6386634B2 (ja) オーディオ信号の符号化及び復号化方法並びにその装置
JP5063364B2 (ja) 音声合成方法
US20120134511A1 (en) Multichannel audio coder and decoder
KR20100039433A (ko) 디코딩 장치
KR20080096998A (ko) 고주파수 영역 부호화 및 복호화 방법 및 장치
JP5651980B2 (ja) 復号装置、復号方法、およびプログラム
KR20120095920A (ko) 최적의 저-스루풋 파라메트릭 코딩/디코딩
JP2006171751A (ja) 音声符号化装置及び方法
JPWO2011155144A1 (ja) 復号装置、符号化装置及びこれらの方法
JP3191257B2 (ja) 音響信号符号化方法、音響信号復号化方法、音響信号符号化装置、音響信号復号化装置
JP2009500669A (ja) パラメトリック・マルチチャンネル復号化
JP2796408B2 (ja) 音声情報圧縮装置
JP4403721B2 (ja) ディジタルオーディオデコーダ
JP5188913B2 (ja) 量子化装置、量子化方法、逆量子化装置、逆量子化方法、音声音響符号化装置および音声音響復号装置
JP2002076904A (ja) 符号化されたオーディオ信号の復号化方法、及び符号化されたオーディオ信号の復号化装置
JPH07295593A (ja) 音声符号化装置
JP2014240974A (ja) 符号化装置、符号化方法、およびプログラム
KR20080033841A (ko) 믹스 신호 처리 방법 및 장치
JP2001265366A (ja) オーディオ信号の符号化方法、オーディオ信号の符号化装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111102

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120710

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120807

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150817

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees