JP2008530608A - 音声合成方法 - Google Patents

音声合成方法 Download PDF

Info

Publication number
JP2008530608A
JP2008530608A JP2007554694A JP2007554694A JP2008530608A JP 2008530608 A JP2008530608 A JP 2008530608A JP 2007554694 A JP2007554694 A JP 2007554694A JP 2007554694 A JP2007554694 A JP 2007554694A JP 2008530608 A JP2008530608 A JP 2008530608A
Authority
JP
Japan
Prior art keywords
parameters
group
noise
speech
noise component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007554694A
Other languages
English (en)
Other versions
JP5063364B2 (ja
Inventor
マレク シュチェルバ
ブリンケル アルベルトゥス シー デン
アンドレアス ジェイ ヒェリツ
アルノルドゥス ダブリュ ジェイ オーメン
ミッデリンク マルク クレイン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2008530608A publication Critical patent/JP2008530608A/ja
Application granted granted Critical
Publication of JP5063364B2 publication Critical patent/JP5063364B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/18Selecting circuits
    • G10H1/22Selecting circuits for suppressing tones; Preference networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2230/00General physical, ergonomic or hardware implementation of electrophonic musical tools or instruments, e.g. shape or architecture
    • G10H2230/025Computing or signal processing architecture features
    • G10H2230/041Processor load management, i.e. adaptation or optimization of computational load or data throughput in computationally intensive musical processes to avoid overload artifacts, e.g. by deliberately suppressing less audible or less relevant tones or decreasing their complexity
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/471General musical sound synthesis principles, i.e. sound category-independent synthesis methods
    • G10H2250/481Formant synthesis, i.e. simulating the human speech production mechanism by exciting formant resonators, e.g. mimicking vocal tract filtering as in LPC synthesis vocoders, wherein musical instruments may be used as excitation signal to the time-varying filter estimated from a singer's speech
    • G10H2250/495Use of noise in formant synthesis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

装置1は、パラメータの群によって表現される音声を合成するように構成され、各群は、前記音声の雑音成分を表す雑音パラメータNP、並びに任意選択的に過渡変動及び正弦波などの他の成分を表す他のパラメータを含む。それぞれのパラメータの群は、MIDIボイスなどの音声チャネルに対応し得る。計算負荷を低減するために、前記装置は、振幅又はエネルギ等の知覚的関連性値に基づいて、前記群の総数から、制限された群を選択する選択ユニット2を備える。前記装置は、更に、前記選択された群の雑音パラメータのみを用いて前記雑音成分を合成する合成ユニット3を備える。

Description

本発明は、音声の合成方法に関する。より特には、本発明は、パラメータの群によって表される音声を合成する装置及び方法に関し、各群は、前記音声の雑音成分を表す雑音パラメータと、他の成分を表す他のパラメータと、を含む。
音声を、パラメータの群によって表現することは周知である。音声を、一連のパラメータによって表す、いわゆるパラメトリック符号化技法が、音声を効率的に符号化するために用いられる。適した復号器は、元の音声を、前記一連のパラメータを用いてほぼ再構築することが可能である。前記一連のパラメータは、複数の群に分割され得、各群は、例えば(人間の)話者又は楽器などの個別の音源(音声チャネル)に対応する。
普及しているMIDI(Musical Instrument Digital Interface)プロトコルは、音楽が、楽器用の機材の群によって表現されることを可能にする。それぞれの機材は、特定の機材に割り当てられる。それぞれの機材は、(MIDIにおいて「ボイス」と呼ばれる)1つ又は複数の音声チャネルを使用し得る。同時に使用され得る音声チャネルの数は、多声(polyphony)レベル又は多声と呼ばれる。MIDI楽器は、効率的に伝送及び/又は記憶され得る。
合成器は、通常、例えば音声バンク又はパッチデータなどの、音声定義データを含む。楽器の音声のサンプルは、音声バンクにおいて、音声データとして記憶される一方で、パッチデータは、音声発生器に関する制御パラメータを規定する。
MIDI楽器は、合成器に、音声バンクから音声データを取得するようにさせ、当該データによって表現される音声を合成させるようにする。これらの音声データは、従来のwave-table合成の場合のように、デジタル化された音声(波形)である、実際の音声サンプルであり得る。しかし、音声サンプルは、通常、多量のメモリを必要とし、このような多量のメモリは、特に携帯電話等のハンドヘルド型民生装置などの、比較的小型な装置においては実現可能でない。
代替的には、音声サンプルは、パラメータによって表現され得、前記パラメータは、振幅、周波数、位相、及び/又は方形型パラメータを含み得、音声サンプルが再構築されるのを可能にする。音声サンプルのパラメータを記憶するのには、通常、実際の音声サンプルを記憶するよりも遥かに少ないメモリを必要とする。しかし、音声の合成は、計算的に負荷の大きいものであり得る。これは、特に、異なる音声チャネル(MIDIにおける「ボイス」)を表すパラメータの多くの群が、同時に合成される(高度の多音)である必要がある場合に該当することである。計算的な負荷は、通常、高度な多音で合成されるべきチャネル(「ボイス」)の数に比例して増加する。このことは、斯様な技法がハンドヘルド装置で用いられることを困難にする。
論文である"Parametric Audio Coding Based Wavetable Synthesis" by M. Szczerba, W. Oomen and M. Klein Middelink, Audio Engineering Society Convention Paper No. 6063, Berlin (Germany), May 2004は、SSC(SinusSoidal Coding) wavetable合成器を開示している。SSC符号化器は、音声入力を、過渡変動、正弦波、及び雑音成分に分解し、これらの成分のそれぞれに関するパラメータ的表現を生成する。これらのパラメータ的表現は、音声バンクに記憶される。SSC復号器(合成器)は、このパラメータ的表現を、元の音声入力を再構築するために使用する。雑音成分を再構築するために、個別の音声チャネルの時間的包絡線は、それぞれの利得と組み合わせられて加算され、その後、白色雑音は、時間的に形成された雑音信号を生成するために、この組み合わせられた時間的包絡線と混合される。個別のチャネルのスペクトル包絡線パラメータは、時間的及びスペクトル的の両方に形成される雑音信号を生成するように、時間的に形成される雑音信号をフィルタリングするフィルタ係数を生成するのに用いられる。
この既知の装置は非常に効果的であるものの、多くの音声チャネルに関して時間的包絡線及びスペクトル包絡線の両方を決定することは、相当の計算負荷を含む。多くの最新の音声システムにおいて、64音声チャネルが用いられ得、更に多くの数の音声チャネルが想定される。このことは、既知の装置を、制限された計算処理能力を有する比較的小型な装置において使用するのを不適にする。
一方で、携帯電話などのハンドヘルド型民生装置において音声合成に関する需要は増加している。現代の消費者は、自身のハンドヘルド装置が、様々な呼び出し音などの広範囲の音声を生成することを期待している。
したがって、本発明の目的は、従来技術のこれら及び他の問題を解決すること、並びに、音声の雑音成分を合成する装置及び方法であって、より効率的で計算負荷を低減する装置及び方法を提供することである。
したがって、本発明は、パラメータの群によって表現される音声を合成する装置であって、各群は、前記音声の雑音成分を表す雑音パラメータを含み、
−知覚的関連性値に基づいて、前記群の総数から、制限された群を選択する選択手段と、
−前記選択された群の雑音パラメータのみを用いて前記雑音成分を合成する合成手段と、
を備える装置を提供する。
制限された数のパラメータの群を選択すること、及び合成に関してこの制限されたパラメータの群のみを使用することによって、有効に残りの群を無視し、合成の計算負荷が、相当低減され得る。特定のパラメータの群を使用しないことの知覚的な効果は、知覚的関連性値を用いて群を選択することによって、驚くほどに小さくなる。
例えばパラメータの64個の群から5個のみを使用することにより、再構築される(すなわち、合成される)音声の知覚される品質は深刻に影響し得ることが予想され得る。しかし、本発明者は、本発明の例のように適切に5個の群を選択することによって、音声品質は影響されないことを発見していた。群の数が更に低減される場合、音声品質の劣化が生じる。しかし、この低下は、緩やかなものであり、3つの選択される群の数は、なお許容され得る。
パラメータの群は、音声の雑音成分を表現する雑音パラメータに加えて、音声の他の成分を表現する他のパラメータも備える。したがって、それぞれのパラメータの群は、雑音パラメータ、並びに正弦波及び/又は過渡変動パラメータなどの他のパラメータを備え得る。しかし、群が、雑音パラメータのみを含むことも可能であり得る。
雑音パラメータの群の選択は、正弦波及び/又は過渡変動パラメータなどのいかなる他のパラメータとは独立であることが好ましいことが特記される。しかし、特定の実施例において、前記選択する手段が、制限された数の群を、他の音声成分を表現する1つ又は複数の他のパラメータに基づいて、前記群の総数から選択するようにも構成される。すなわち、ある群のいずれの正弦波及び/又は過渡変動パラメータも、含まれ得、したがって、群の雑音パラメータの選択に影響を与える。
好ましい実施例において、前記装置は、どのパラメータの群を選択するかを決定する決定部、及び前記決定部によって提供される情報に基づきパラメータの群を選択する選択部、を備える。しかし、決定部および選択部が単一の一体型ユニットを構成する実施例も想定され得る。代替的に、装置は、パラメータの群を、当該パラメータの群に含まれる知覚的関連性値に基づき選択する選択部を含み得る。知覚的関連性値、又はいかなる更なる決定処理を必要としない選択を決定し得るいかなる他の値が、パラメータの群に含まれる場合、決定部は、もはや必要とされない。
本発明の前記合成装置は、全ての選択された群の雑音をスペクトル的に形成する単一のフィルタと、前記フィルタのフィルタパラメータを決定するLevinson-Durbinユニットと、を備え、前記単一のフィルタが、好ましくは、Laguerreフィルタによって構成される。斯様にして、非常に効率的な合成が達成される。
有利には、本発明の装置は、いずれの却下される雑音成分によるいずれのエネルギ損失に関しても、前記選択された雑音成分の利得を補償する利得補償手段を更に備え得る。利得補償手段は、雑音の総エネルギが選択処理によってほぼ影響を受けていないままにされることを可能にするが、これは、いかなる却下される雑音成分のエネルギも選択される雑音成分に対して分配されるからである。
加えて、本発明は、パラメータの群によって音声を表現する符号化装置であって、各群は、前記音声の雑音成分を表す雑音パラメータを含み、当該装置は、それぞれの雑音パラメータの知覚的関連性を表現する関連性値を提供する関連性検出器を備える。関連性パラメータは、好ましくは、それぞれの群に加えられ、知覚性モデルに基づき決定され得る。生じるパラメータの群は、上述の合成する装置によって音声へと再変換され得る。
本発明は、上述の合成する装置を含む民生装置も提供する。本発明の民生装置は、必ずしもそうである必要はないが好ましくは、携帯型で、より一層好ましくはハンドヘルド型であり、また携帯(セルラー)電話、CDプレーヤ、DVDプレーヤ、(MP3プレーヤ等の)ソリッドステートプレーヤ、PDA(Personal Digital Assistant)、又はいかなる他の適した機器により構成され得る。
本発明は、更に、パラメータの群によって表現される音声を合成する方法であって、各群は、前記音声の雑音成分を表す雑音パラメータを含み、
−知覚的関連性値に基づいて、前記群の総数から、制限された群を選択するステップと、
−前記選択された群の雑音パラメータのみを用いて前記雑音成分を合成するステップと、
を含む方法を提供する。
本発明の方法において、前記知覚的関連性値が、前記雑音の振幅、及び/又は前記雑音のエネルギを示し得る。
前記パラメータの群は、雑音パラメータのみを含み得るが、正弦波及び/又は過渡変動などの、音声の他の成分を表現する他のパラメータも含み得る。
本発明の方法は、いずれの却下される雑音成分によるいずれのエネルギ損失に関しても、前記選択された雑音成分の利得を補償する更なるステップを含み得る。このステップを適用することによって、雑音の総エネルギは、選択する過程によってほぼ影響されていない。
本発明は、追加的に、上述の方法を実行する計算機プログラムを提供する。計算機プログラムは、CD又はDVDなどの光学又は磁気担体に記憶された、又は例えばインターネット等の遠隔サーバに記憶されそこからダウンロード可能な一群の計算機実行可能な命令を含み得る。
本発明は、添付の図面に例示される例証的な実施例を参照にして以下に更に説明される。
図1において非制限的例のみとして示される雑音成分合成装置1は、選択ユニット(選択手段)2及び合成ユニット(合成手段)3を備える。本発明に従うと、選択ユニット2は、雑音成分パラメータNPを受信し、制限された数の雑音成分パラメータを選択し、これらの選択されたパラメータNP'を合成ユニット3へ渡す。合成ユニット3は、形成された雑音、すなわち時間及び/又はスペクトル包絡線が形成されている雑音を合成するために、該選択された雑音成分パラメータNP'のみを用いる。合成ユニット3の例証的な実施例は、図4を参照にしてさらに詳細に以下に説明される。
雑音成分パラメータNPは、図2に示されるように、音声パラメータの群S1,S2,…,SNの一部であり得る。群Si(i=1…N)は、例示される例において、過渡変動音声成分を表現する過渡変動パラメータTP、正弦波音声成分を表現する正弦波パラメータSP、及び雑音音声成分を表現する雑音パラメータNP、を含む。群Siは、上述のSSC符号化器又はいかなる他の適した符号化器を用いて生成されてあり得る。特定の符号化器は、過渡変動パラメータ(TP)を生成し得ない一方で、他の符号化器は正弦波パラメータ(SP)を生成し得ないことを理解され得る。パラメータはMIDIフォーマットに準じてもよいし又は準じなくてもよい。
それぞれの群Siは、単一の活動中の音声チャネル(又はMIDIにおける(ボイス))を表現し得る。
雑音成分パラメータを選択するステップは、図3により詳細に例示されており、図3は、装置1の選択ユニット2の実施例を概略的に示す。図3の例証的な選択ユニット2は、決定部21及び選択部22を備える。決定部21及び選択部22の両方は、雑音パラメータNPを受信する。しかし、決定部21は、選択決定ステップが基づかれるべき適切な構成パラメータのみを必要とする。
適切な構成パラメータは、利得giである。好ましい実施例において、giは、群Si(図2参照)の雑音の時間的包絡線の利得である。しかし、個別の雑音成分の振幅も用いられ得る、又はエネルギ値がパラメータから導出され得る。振幅及びエネルギが雑音の知覚を表すこと、またしたがって、これらの大きさが知覚的関連性値を構成することは明らかである。有利には、知覚的モデル(例えば、人間の耳の音響的及び心理的知覚を含むもの)が、適切なパラメータを決定及び(任意選択的に)重み付けるために用いられる。
決定部21は、雑音合成に関してどの雑音パラメータが用いられ得るかを決定する。決定は、知覚的関連性値に適用される最適化規準を用いて行われ、例えば入手可能な利得giのうちから5つの最高利得giを見つけるなどである。対応する群の数(例えば、2、3、12、23及び41)は、選択部22に供給される。特定の実施例において、選択パラメータ(すなわち、関連性値)は、雑音パラメータNPに既に含まれ得る。斯様な実施例において、決定部21は、省略され得る。
選択部22は、決定部21によって示される群の雑音パラメータを選択するように構成される。残りの群の雑音パラメータは、無視される。結果として、制限された数の雑音パラメータのみが合成ユニット(図1における3)に渡され、結果として合計される。したがって、合成ユニットの計算負荷は、相当低減される。
発明者は、合成に関して用いられる雑音パラメータの数が、いかなる大幅な音声品質の損失も生じることなく劇的に低減され得るという洞察を得ていた。選択される群の数は、比較的小さくあり得、例えば全体で64個のうちの5個(7.8%)であり得る。一般的に、選択される群の数は、少なくとも10%が好ましいものの、音声品質のいかなる知覚的な損失を防ぐために、全体数の約4.5%であるべきである。選択される群の数が約4.5%より下に更に低減される場合、合成音声の品質は、徐々に低下するが、特定のアプリケーションに関しては、なお許容され得る。15%、20%、30%、又は40%などのより高いパーセンテージも用いられ得るが、これらの数字は、計算負荷を増加し得ることを理解される。
決定部21によってなされる、どの群を含めるのか又はどれを含めないのかについての決定は、例えば雑音成分の振幅(レベル)、(包絡線発生器、及び低周波数発振器などを制御する)音声バンクからの調音データ、及びMIDIデータからの情報などの知覚的関連性値であって、例えばノートオン速度及び調音に関する制御器などに基づきなされる。他の知覚的関連性値も活用され得る。通常、例えば最高雑音振幅(又は利得)などの、最大知覚的値を有するM個の群のある数が選択される。
追加的に又は代替的に、各群からの他のパラメータが、決定部21によって用いられ得る。例えば、正弦波パラメータが、雑音パラメータの数を減らすのに用いられ得る。正弦波(及び/又は過渡変動)パラメータを用いて、マスキング曲線が、当該マスキング曲線よりも低い振幅を有する雑音パラメータが省略され得るように、描かれ得る。ある群の雑音パラメータは、したがって、マスキング曲線と比較され得る。これらが該曲線よりも下に当てはまる場合、当該群の雑音パラメータは、却下され得る。
群Si(図2)及び雑音選択ステップ及び合成ステップは、通常、例えば時間フレームなどの、単位時間毎に実行されることを理解される。雑音パラメータ、及び他のパラメータは、したがって、特定の単位時間のみを参照し得る。時間フレーム等の単位時間は、部分的に重複し得る。
図1の合成ユニット3の例示的な実施例が、図4により詳細に示される。この実施例において、雑音は、時間的(時間ドメイン)包絡線及びスペクトル(周波数ドメイン)包絡線の両方を用いて生成される。
時間的包絡線発生器311、312及び313は、選択された群Siのそれぞれに対応する包絡線パラメータbi(i=1…M)を受信する。本発明に従うと、選択された群の数のM個は、利用可能な群の数のN個より小さい。時間的包絡線パラメータbiは、発生器311〜313によって出力される時間的包絡線を規定する。乗算器331、332、及び333は、時間的包絡線を、それぞれの利得giによって乗算する。生じる利得が調整された時間的包絡線は、加算器341によって加算され、更なる乗算器339へ供給され、前記包絡線は、雑音発生器350によって発生される(白色)雑音と乗算される。時間的に形成されているが通常実質的に一様なスペクトルを有する生じる雑音信号は、(任意選択的な)重複・加算回路360へ供給される。この回路において、後続の時間フレームの雑音セグメントは、フィルタ390へ供給される連続的な信号を形成するために合成される。
上述のように、g1からgMまでの利得は、選択される群に対応する。N個の利用可能な群が存在するので、gM+1からgNまでの利得は、却下される群に対応する。図4の好ましい実施例において、gM+1からgNまでの利得は、破棄されておらず、g1からgMの利得を調整するために用いられる。この利得補償は、合成される雑音のレベル(すなわち、振幅)に対する雑音パラメータの選択の効果を低減又は更には除外するように作用する。
したがって、図4の実施例は、加算器343及びスケーリングユニット349を追加的に備える。加算器343は、gM+1からgNまでの利得を加算し、生じる累積利得をスケーリングユニット349へ供給し、スケーリングユニット349では、スケーリング因数1/Mが補償利得gcを提供するために適用され、Mは上述のように選択される群の数である。この補償利得gcは、その後、加算器334、335、…等によって、g1からgMの利得のそれぞれに加算され、加算器の数はMに等しい。却下される成分の累積利得を選択される成分に分配することによって、雑音のエネルギは、ほぼ一定に維持し、雑音成分の選択による音声レベルの変化は避けられる。
加算器343、スケーリングユニット349、及び加算器334、335、…が任意選択的であり、他の実施例においてはこれらのユニットが存在し得ないことを理解され得る。スケーリングユニット349は、もし存在する場合、代替的に加算器341及び乗算器339の間に配置され得る。
好ましい実施例においてLaguerreフィルタであるフィルタ390は、雑音信号をスペクトル的に形成するように作用する。選択された群Siから導出されるスペクトル包絡線パラメータaiは、これらのパラメータの自己相関を計算する自己相関ユニット321へ供給する。生じる自己相関は、加算器342によって加算され、スペクトル形成フィルタ390のフィルタ係数を決定するために、ユニット370へ供給される。好ましい実施例において、ユニット370は、周知のLevinson-Durbinアルゴリズムに従いフィルタ係数を決定するように構成される。その後、生じる線形フィルタ係数は、変換ユニット380によってLaguerreフィルタ係数へ変換される。Laguerreフィルタ390は、その後、(白色)雑音のスペクトル包絡線を形成するのに用いられる。
パラメータaiの各グループの自己相関関数を決定する代わりに、より効率的な方法が使用される。選択される群の(すなわち、選択される活動中のチャネル又は「ボイス」の)パワースペクトルが計算され、その後、自己相関関数は、合計されたパワースペクトルを逆フーリエ変換することによって計算される。その後、生じる自己相関関数は、Levinson-Durbinユニット370へ供給される。
パラメータai,bi,gi及びλは、図1及び2においてNPで記される雑音パラメータの全ての部分であることを理解される。図3の選択ユニットの実施例において、決定部22は、利得パラメータgiのみを使用する。しかし、パラメータai,bi,gi及びλのいくつか又は全て、及び可能であれば(例えば、正弦波成分及び/又は過渡変動に関する)他のパラメータが決定部22によって使用される実施例も想定され得る。パラメータλは、定数であり得、雑音パラメータNPの一部である必要がないことを特記される。
本発明が用いられ得る音声合成器は、図5に概略的に示される。合成器5は、雑音合成器51、正弦波合成器52、及び過渡変動合成器53、を備える。出力信号(合成された過渡変動、正弦波、及び雑音)は、合成された音声出力信号を形成するために加算器54によって加算される。雑音合成器51は、有利には、上述の装置(図1の1)を備える。
合成器5は、オーディオ(音声)復号器(図示せず)の一部であり得る。オーディオ復号器は、入力ビットストリームをデマルチプレクスするとともに、過渡変動パラメータ(TP)、正弦波パラメータ(SP)、及び雑音パラメータ(NP)、の群を分離させるデマルチプレクサを備え得る。
図6において非制限的な例としてのみ示されるオーディオ符号化装置6は、オーディオ信号を3つの段階で符号化する。
第1段階において、オーディオ信号s(n)におけるいかなる過渡変動信号成分も、過渡変動パラメータ抽出(TPE)ユニット61を用いて符号化される。パラメータは、マルチプレクス(MUX)ユニット68及び過渡変動合成(TS)ユニット62の両方に供給される。マルチプレクスユニット68は、図5の装置5などの復号器へ伝送するためのパラメータを適切に組合せ及びマルチプレクスを行う一方で、過渡変動合成ユニット62は、符号化された過渡変動を再構築する。これらの再構築された過渡変動は、過渡変動がほぼ除去される中間信号を形成するために、第1組合せユニット63において元のオーディオ信号s(n)から減算される。
第2段階において、中間信号におけるいかなる正弦波信号成分(すなわち、正弦及び余弦)は、正弦波パラメータ抽出(SPE)ユニット64によって符号化される。生じるパラメータは、マルチプレクスユニット68へ及び正弦波合成(SS)ユニット65へ供給される。正弦波合成ユニット65によって再構築される正弦波は、残余信号を生じさせるために、第2組合せユニット66において中間信号から減算される。
第3段階において、残余信号は、時間/周波数包絡線データ抽出(TFE)ユニット67を用いて符号化される。残余信号は、過渡変動及び正弦波が第1及び第2段階で除去されるので、雑音信号であると仮定されることを特記される。したがって、時間/周波数包絡線データ抽出(TFE)ユニット67は、適切な雑音パラメータによって残余雑音を表現する。
従来技術による雑音モデリング及び符号化技術の概要は、Chapter 5 of the dissertation "Audio Representations for Data Compression and Compressed Domain Processing", by S.N. Levine, Stanford University, USA, 1999において提示され、当該文書の内容の全体は、本文書において組み込まれる。
全ての3つの段階から生じるパラメータは、マルチプレクス(MUX)ユニット68によって適切に組合せ及びマルチプレクスされ、また前記マルチプレクス(MUX)ユニット68は、伝送用に必要とされる帯域幅を低減するために、例えばハフマン符号化又は時間差分符号化などの、パラメータの追加的な符号化をも実行し得る。
パラメータ抽出(すなわち、符号化)ユニット61、64、及び67は、抽出されたパラメータの量子化を実行し得ることを特記される。代替的及び追加的に、量子化は、マルチプレクス(MUX)ユニット68において実行され得る。更に、s(n)は、デジタル信号であり、nはサンプル数を表し、群Si(n)はデジタル信号として伝送されることを特記される。しかし、アナログ信号にも適用され得る。
MUXユニット68において組合せ及びマルチプレクス(および任意選択的に符号化及び/又は量子化)された後に、パラメータは、衛星接続、グラスファイバケーブル、銅ケーブル、及び/又は他のいずれかの適した媒体などの、伝送媒体を介して伝送される。
オーディオ符号化装置6は、関連性検出器(RD)69を更に備える。関連性検出器69は、(図3に例示されるような)雑音利得giなどの所定のパラメータを受信し、これらの音響(知覚的)関連性を決定する。生じる関連性値は、マルチプレクサ68へ供給されて戻されて、マルチプレクサ68において、前記値は、出力ビットストリームを形成する群Si(n)に挿入される。前記群に含まれる関連性値は、その後、知覚的関連性を決定する必要なく適切な雑音パラメータを選択するために、復号器によって用いられ得る。結果として、復号器は、より簡単で高速であり得る。
関連性検出器(RD)69は図6においてマルチプレクサ68に接続されるように示されるが、代わりに、関連性検出器69は、時間/周波数包絡線データ抽出(TFE)67に直接接続され得る。関連性検出器69の動作は、図3に例示される決定部21の動作と類似であり得る。
図6のオーディオ符号化装置6は、3つの段階を有するように示される。しかし、オーディオ符号化装置6は、3つよりも少ないの段階から構成され得、例えば、正弦波及び雑音パラメータのみを生成する2つの段階、又は追加的なパラメータを生成する3つより多い段階から構成され得る。したがって、ユニット61、62、及び63が存在しない実施例は想定され得る。図6のオーディオ符号化装置6は、有利には、図1に示される合成装置によって復号(合成)され得るオーディオパラメータを生成するように構成され得る。
本発明の合成装置は、携帯型装置において、特に、携帯電話、PDA(Personal Digital Assistant)、時計、ゲーム装置、ソリッドステートプレーヤ、電子楽器、デジタル留守番電話機、携帯型CDプレーヤ及び/又はDVDプレーヤなどハンドヘルド型民生装置において活用され得る。
上述から、本発明は、パラメータの群によって表現される音声を合成する方法も提供し、各パラメータの群は、前記音声の雑音成分を表す雑音パラメータ、並びに任意選択的に過渡変動及び/又は正弦波などの、他の成分を表現する他のパラメータの両方をも含む。本発明の方法は、本質的に、
−知覚的関連性値に基づいて、群の総数から、制限された群を選択するステップと、
−前記選択された群の雑音パラメータのみを用いて雑音成分を合成するステップと、
を含む。
本発明の方法は、追加的に、却下される雑音成分により生じさせられるいずれのエネルギ損失に関しても、選択された雑音成分の利得を補償する任意選択的なステップを含み得る。
追加的に、本発明は、パラメータの群によって音声を表現する符号化装置を提供し、各パラメータの群は、前記音声の雑音成分を表す雑音パラメータ、並びに好ましくは、前記音声の過渡変動成分及び/又は正弦波成分を表現する他のパラメータを含み、また前記装置は、それぞれの雑音パラメータの知覚的関連性を表す関連性値を提供する関連性検出器を備える。
本発明は、音声の雑音成分を合成するときに制限された数の音声チャネルを選択することが、合成される音声の劣化を実質的に生じさせ得ないという洞察に基づく。本発明は、知覚的関連性値に基づき音声チャネルを選択することが、合成される音声のいかなる歪みも最小化又は除去するという更なる洞察から恩恵を受ける。
本文書におけるいかなる用語も本発明の請求の範囲を制限するように解釈されてはならないことを特記される。特に、「有する」という動詞及びその活用形の使用は、具体的に記載される以外のいかなる要素の存在も排除しないことを意図される。単数形の(回路)構成要素は、複数個の斯様な(回路)構成要素又はそれらの等価物によって置換され得る。
本発明は、上述の実施例に制限されず、添付の請求項に記載の発明の精神及び範囲から逸脱することなく、多数の変更態様及び追加態様がなされ得ることを当業者により理解され得る。
図1は、本発明に従う雑音合成装置を概略的に示す。 図2は、本発明で用いられる音声を表現するパラメータの群を概略的に示す。 図3は、より詳細に図1の装置の選択部を概略的に示す。 図4は、より詳細に図1の装置の合成部を概略的に示す。 図5は、本発明の装置を組み込む音声合成装置を概略的に示す。 図6は、音声符号化装置を概略的に示す。

Claims (22)

  1. パラメータの群によって表現される音声を合成する装置であって、各群は、前記音声の雑音成分を表す雑音パラメータを含み、
    −知覚的関連性値に基づいて、前記群の総数から、制限された群を選択する選択手段と、
    −前記選択された群の雑音パラメータのみを用いて前記雑音成分を合成する合成手段と、
    を備える装置。
  2. 前記知覚的関連性値が、前記雑音成分の振幅及び/又はエネルギを示す、請求項1に記載の装置。
  3. パラメータの群が、更に、前記音声の過渡変動成分及び/又は正弦波成分を表現する他のパラメータを含む、請求項1に記載の装置。
  4. 前記選択する手段が、前記音声の他の成分を表現する前記他のパラメータのうちの1つ又は複数に基づいて、前記群の総数から制限された数の群を選択するようにも構成される、請求項3に記載の装置。
  5. 前記雑音パラメータが、前記雑音の時間的包絡線及び/又はスペクトル的包絡線を規定する、請求項1に記載の装置。
  6. それぞれのパラメータの群が、音声チャネル、好ましくはMIDIボイスに対応する、請求項1に記載の装置。
  7. どのパラメータの群が選択されるかを決定する決定部、及び前記決定部によって提供される情報に基づきパラメータの群を選択する選択部を備える、請求項1に記載の装置。
  8. パラメータの群を、前記パラメータの群に含まれる知覚的関連性値に基づき選択する選択部を備える、請求項1に記載の装置。
  9. 前記合成手段が、全ての選択された群の雑音をスペクトル的に形成する単一のフィルタと、前記フィルタのフィルタパラメータを決定するLevinson-Durbinユニットと、を備え、前記単一のフィルタが、好ましくは、Laguerreフィルタによって構成される、請求項1に記載の装置。
  10. いずれの却下される雑音成分によるいずれのエネルギ損失に関しても、前記選択された雑音成分の利得を補償する利得補償手段を更に備える、請求項1に記載の装置。
  11. 請求項1に記載の合成する装置を備える、MIDI合成器等の、音声合成器。
  12. 請求項1に記載の合成する装置を含む、携帯電話などの、民生装置。
  13. パラメータの群によって表現される音声を合成する方法であって、各群は、前記音声の雑音成分を表す雑音パラメータを含み、
    −知覚的関連性値に基づいて、前記群の総数から、制限された群を選択するステップと、
    −前記選択された群の雑音パラメータのみを用いて前記雑音成分を合成するステップと、
    を含む方法。
  14. 前記知覚的関連性値が、前記雑音成分の振幅及び/又はエネルギを示す、請求項13に記載の方法。
  15. パラメータの群が、更に、前記音声の過渡変動成分及び/又は正弦波成分を表現する他のパラメータを含む、請求項13に記載の方法。
  16. 前記群の総数から制限された数の群を選択するステップが、前記音声の他の成分を表現する前記他のパラメータのうちの1つ又は複数にも基づいて実行される、請求項15に記載の方法。
  17. 前記雑音パラメータが、前記雑音の時間的包絡線及び/又はスペクトル的包絡線を規定する、請求項13に記載の方法。
  18. それぞれのパラメータの群が、音声チャネル、好ましくはMIDIボイスに対応する、請求項13に記載の方法。
  19. いずれの却下される雑音成分によるいずれのエネルギ損失に関しても、前記選択された雑音成分の利得を補償するステップを更に含む、請求項13に記載の方法。
  20. それぞれのパラメータの群が、音声チャネル、好ましくはMIDIボイスに対応する、請求項13に記載の方法。
  21. それぞれのパラメータの群が、知覚的関連性値を含む、請求項13に記載の方法。
  22. 請求項13乃至21の何れか一項に記載の方法を実行する計算機プログラム。
JP2007554694A 2005-02-10 2006-02-01 音声合成方法 Expired - Fee Related JP5063364B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP05100948.8 2005-02-10
EP05100948 2005-02-10
PCT/IB2006/050338 WO2006085244A1 (en) 2005-02-10 2006-02-01 Sound synthesis

Publications (2)

Publication Number Publication Date
JP2008530608A true JP2008530608A (ja) 2008-08-07
JP5063364B2 JP5063364B2 (ja) 2012-10-31

Family

ID=36540169

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007554694A Expired - Fee Related JP5063364B2 (ja) 2005-02-10 2006-02-01 音声合成方法

Country Status (6)

Country Link
US (1) US7781665B2 (ja)
EP (1) EP1851752B1 (ja)
JP (1) JP5063364B2 (ja)
KR (1) KR101207325B1 (ja)
CN (1) CN101116135B (ja)
WO (1) WO2006085244A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5063363B2 (ja) * 2005-02-10 2012-10-31 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声合成方法
CN101479789A (zh) * 2006-06-29 2009-07-08 Nxp股份有限公司 对声音参数进行解码
US20080184872A1 (en) * 2006-06-30 2008-08-07 Aaron Andrew Hunt Microtonal tuner for a musical instrument using a digital interface
US9111525B1 (en) * 2008-02-14 2015-08-18 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Apparatuses, methods and systems for audio processing and transmission
WO2009152305A1 (en) * 2008-06-11 2009-12-17 Qualcomm Incorporated Method and system for measuring task load
JP6821970B2 (ja) * 2016-06-30 2021-01-27 ヤマハ株式会社 音声合成装置および音声合成方法
CN113053353B (zh) * 2021-03-10 2022-10-04 度小满科技(北京)有限公司 一种语音合成模型的训练方法及装置
CN113470691A (zh) * 2021-07-08 2021-10-01 浙江大华技术股份有限公司 一种语音信号的自动增益控制方法及其相关装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5029509A (en) * 1989-05-10 1991-07-09 Board Of Trustees Of The Leland Stanford Junior University Musical synthesizer combining deterministic and stochastic waveforms
US5686683A (en) * 1995-10-23 1997-11-11 The Regents Of The University Of California Inverse transform narrow band/broad band sound synthesis
JPH1091194A (ja) * 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
US5744742A (en) * 1995-11-07 1998-04-28 Euphonics, Incorporated Parametric signal modeling musical synthesizer
US5886276A (en) * 1997-01-16 1999-03-23 The Board Of Trustees Of The Leland Stanford Junior University System and method for multiresolution scalable audio signal encoding
US5977469A (en) * 1997-01-17 1999-11-02 Seer Systems, Inc. Real-time waveform substituting sound engine
JP2002006841A (ja) * 2000-06-26 2002-01-11 Dainippon Printing Co Ltd 音響信号符号化システム
US20050004791A1 (en) * 2001-11-23 2005-01-06 Van De Kerkhof Leon Maria Perceptual noise substitution

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2581047B2 (ja) * 1986-10-24 1997-02-12 ヤマハ株式会社 楽音信号発生方法
DE69028072T2 (de) * 1989-11-06 1997-01-09 Canon Kk Verfahren und Einrichtung zur Sprachsynthese
FR2679689B1 (fr) * 1991-07-26 1994-02-25 Etat Francais Procede de synthese de sons.
US5248845A (en) * 1992-03-20 1993-09-28 E-Mu Systems, Inc. Digital sampling instrument
US5763800A (en) * 1995-08-14 1998-06-09 Creative Labs, Inc. Method and apparatus for formatting digital audio data
EP0858650B1 (en) * 1995-10-23 2003-08-13 The Regents Of The University Of California Control structure for sound synthesis
EP0878790A1 (en) * 1997-05-15 1998-11-18 Hewlett-Packard Company Voice coding system and method
US5920843A (en) * 1997-06-23 1999-07-06 Mircrosoft Corporation Signal parameter track time slice control point, step duration, and staircase delta determination, for synthesizing audio by plural functional components
DE19730129C2 (de) * 1997-07-14 2002-03-07 Fraunhofer Ges Forschung Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals
US7756892B2 (en) * 2000-05-02 2010-07-13 Digimarc Corporation Using embedded data with file sharing
US5900568A (en) * 1998-05-15 1999-05-04 International Business Machines Corporation Method for automatic sound synthesis
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
WO2000011649A1 (en) 1998-08-24 2000-03-02 Conexant Systems, Inc. Speech encoder using a classifier for smoothing noise coding
US6493666B2 (en) * 1998-09-29 2002-12-10 William M. Wiese, Jr. System and method for processing data from and for multiple channels
JP3707300B2 (ja) * 1999-06-02 2005-10-19 ヤマハ株式会社 楽音発生装置用拡張ボード
JP2002140067A (ja) * 2000-11-06 2002-05-17 Casio Comput Co Ltd 電子楽器および電子楽器のレジストレーション方法
SG118122A1 (en) * 2001-03-27 2006-01-27 Yamaha Corp Waveform production method and apparatus
WO2002084646A1 (en) * 2001-04-18 2002-10-24 Koninklijke Philips Electronics N.V. Audio coding
KR100927842B1 (ko) * 2001-04-18 2009-11-23 아이피지 일렉트로닉스 503 리미티드 오디오 신호를 인코딩하고 디코딩하는 방법, 오디오 코더, 오디오 플레이어, 그러한 오디오 코더와 그러한 오디오 플레이어를 포함하는 오디오 시스템 및 오디오 스트림을 저장하기 위한 저장 매체
JP4433668B2 (ja) * 2002-10-31 2010-03-17 日本電気株式会社 帯域拡張装置及び方法
CN100508030C (zh) * 2003-06-30 2009-07-01 皇家飞利浦电子股份有限公司 一种编码/解码音频信号的方法及相应设备
US7676362B2 (en) * 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
CN101479789A (zh) * 2006-06-29 2009-07-08 Nxp股份有限公司 对声音参数进行解码

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5029509A (en) * 1989-05-10 1991-07-09 Board Of Trustees Of The Leland Stanford Junior University Musical synthesizer combining deterministic and stochastic waveforms
US5686683A (en) * 1995-10-23 1997-11-11 The Regents Of The University Of California Inverse transform narrow band/broad band sound synthesis
US5744742A (en) * 1995-11-07 1998-04-28 Euphonics, Incorporated Parametric signal modeling musical synthesizer
JPH1091194A (ja) * 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
US5886276A (en) * 1997-01-16 1999-03-23 The Board Of Trustees Of The Leland Stanford Junior University System and method for multiresolution scalable audio signal encoding
US5977469A (en) * 1997-01-17 1999-11-02 Seer Systems, Inc. Real-time waveform substituting sound engine
JP2002006841A (ja) * 2000-06-26 2002-01-11 Dainippon Printing Co Ltd 音響信号符号化システム
US20050004791A1 (en) * 2001-11-23 2005-01-06 Van De Kerkhof Leon Maria Perceptual noise substitution
US20050021328A1 (en) * 2001-11-23 2005-01-27 Van De Kerkhof Leon Maria Audio coding

Also Published As

Publication number Publication date
EP1851752A1 (en) 2007-11-07
US7781665B2 (en) 2010-08-24
US20080184871A1 (en) 2008-08-07
KR20070104465A (ko) 2007-10-25
KR101207325B1 (ko) 2012-12-03
CN101116135B (zh) 2012-11-14
EP1851752B1 (en) 2016-09-14
WO2006085244A1 (en) 2006-08-17
CN101116135A (zh) 2008-01-30
JP5063364B2 (ja) 2012-10-31

Similar Documents

Publication Publication Date Title
JP5063363B2 (ja) 音声合成方法
JP5063364B2 (ja) 音声合成方法
KR101747918B1 (ko) 고주파수 신호 복호화 방법 및 장치
KR101411900B1 (ko) 오디오 신호의 부호화 및 복호화 방법 및 장치
JP5651980B2 (ja) 復号装置、復号方法、およびプログラム
JP2011059714A (ja) 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
KR20130114038A (ko) 적응적 고주파수 대역 복호화 방법 및 장치
JP2007187905A (ja) 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
JPH0946233A (ja) 音声符号化方法とその装置、音声復号方法とその装置
JP2004302259A (ja) 音響信号の階層符号化方法および階層復号化方法
JP2009500669A (ja) パラメトリック・マルチチャンネル復号化
JP2005114813A (ja) オーディオ信号再生装置及び再生方法
JP6409417B2 (ja) 音響処理装置
JP5724338B2 (ja) 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
JP5188913B2 (ja) 量子化装置、量子化方法、逆量子化装置、逆量子化方法、音声音響符号化装置および音声音響復号装置
JP2973966B2 (ja) 音声通信装置
JP2006072269A (ja) 音声符号化装置、通信端末装置、基地局装置および音声符号化方法
JPH07295593A (ja) 音声符号化装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111102

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120710

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120807

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150817

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees