JP4624552B2 - 狭帯域言語信号からの広帯域言語合成 - Google Patents

狭帯域言語信号からの広帯域言語合成 Download PDF

Info

Publication number
JP4624552B2
JP4624552B2 JP2000538347A JP2000538347A JP4624552B2 JP 4624552 B2 JP4624552 B2 JP 4624552B2 JP 2000538347 A JP2000538347 A JP 2000538347A JP 2000538347 A JP2000538347 A JP 2000538347A JP 4624552 B2 JP4624552 B2 JP 4624552B2
Authority
JP
Japan
Prior art keywords
frequency
language
codebook
peak
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000538347A
Other languages
English (en)
Other versions
JP2002508526A (ja
Inventor
ブリーン、アンドリュー・ポール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of JP2002508526A publication Critical patent/JP2002508526A/ja
Application granted granted Critical
Publication of JP4624552B2 publication Critical patent/JP4624552B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【0001】
発明の属する技術分野
本発明は、言語合成(話し言葉の合成)、とくに帯域制限された言語信号、例えば公衆交換電話ネットワークを経由して伝送される言語信号からの広帯域言語の合成に関する。
【0002】
従来の技術
本発明は、声帯管(vocal tract)の性質のために、帯域制限されたためにもとの広帯域言語信号から失われているそのもとの広帯域言語信号の一部と、帯域制限されたその信号との間に相関関係があるという判断に基いている。この相関が原因で、帯域制限された言語信号の帯域幅内からの言語を使用して、失われているもとの広帯域言語信号を予測することができる。無声音よりも有声音の方がよりよい相関関係にある。
【0003】
電話帯域幅言語信号から広帯域言語信号を構築する既知のシステムはトレーニングプロセスを使用して、狭帯域入力信号から失われている信号の推定を生成できる変換(形式変換)を定めている。一般的に、狭帯域信号の表示と要求される広帯域信号の表示との間の相関関係を規定するトレーニング段階中にルックアップ表が構成される。ルックアップ表は、実際の狭帯域スペクトルから推定される広帯域スペクトルへ変換を行うのに使用することができる。狭帯域言語信号から広帯域言語信号を生成するために、受取られた狭帯域言語が解析され、ルックアップ表内の最も近い表示が識別される。対応する広帯域信号表示を使用して、要求される広帯域信号を合成する。広帯域信号の全体を合成するか、またはもとの狭帯域信号を、狭帯域信号の帯域幅外で合成信号へ加えてもよい。
【0004】
アベおよびヨシダによる日本国特許出願第6-118995号明細書(‘Method for reconstructing a wideband speech signal’)では、線形予測コーディング(LPC)解析を使用して、このようなルックアップ表を構成し、広帯域トレーニング言語のスペクトルを特徴付ける。LPC係数は広帯域トレーニング信号から抽出される。これらの広帯域のLPC係数は広帯域コードワードからクラスタ化される。広帯域トレーニング信号は帯域フィルタで処理されて、帯域幅制限された信号を供給し、そのスペクトルもLPC解析を使用して特徴付けられる。こうして得られた狭帯域のLPC係数は対応する広帯域コードワードは対応する広帯域コードワードと対にされて、各広帯域コードワードごとに対応する狭帯域係数の組を平均化して、狭帯域コードワードを形成する。したがって狭帯域信号および広帯域信号の両方を1組のLPC係数によって表わされる。LPC係数からの広帯域信号の合成は、従来の技術を使用して行われる。別のシステム(アベおよびヨシダによる日本国特許出願第7-56559号明細書(‘Method for reconstructing a wideband speech signal))では広帯域信号は言語波形によって表わされ、広帯域信号の合成は言語波形の連結によって達成される。
【0005】
発明が解決しようとする課題
本発明にしたがって、帯域制限された言語信号から言語を合成する装置であって:
帯域制限された信号からスペクトル信号を抽出する手段と;
前記スペクトル信号を受取り、所定の周波数範囲をサーチして、前記スペクトル信号内の1以上のピークの周波数に対応する1組の1以上のピーク周波数出力値を供給するようにされているピークピッキング手段(peak-picking means)と;
複数のコードブックエントリを含み、各コードブックエントリが、1組の1以上のコードブック周波数値および1組の1以上の対応する合成パラメータとから成るコードブック手段と;
前記ピーク周波数値の組を受取るようにされていて、かつコードブック手段にアクセスして、前記ピーク周波数値の組に近いコードブック周波数値の組に対応する要求された合成パラメータの組を抽出するようにされているルックアップ表と;
要求された合成パラメータの組を受取り、前記要求された合成パラメータの組を使用して言語を生成するようにされている言語合成手段とを含む装置を提供する。
【0006】
コードブック合成パラメータの組が、合成された言語のスペクトル内のピーク振幅に関係する合成パラメータを含み、ピーク周波数が所定の周波数範囲外であってもよい。
【0007】
コードブック合成パラメータの組が、合成された言語のスペクトル内のピーク周波数に関係する合成パラメータを含み、ピーク周波数が所定の周波数範囲外であってもよい。
【0008】
好ましい実施形態において、ピークピッキング手段が前記スペクトル信号内に1以上のピークを認識することができ、このような場合に複数のピーク周波数出力値を含む組を用意し、コードブック周波数値の組のいくつかが複数のコードブック周波数値を含む。
【0009】
本発明の可能な実施形態では、コードブック合成パラメータの組が、
3つの合成パラメータを含み、各パラメータが合成された言語のスペクトルにおいて高周波数ピークの振幅に関係し、高周波数ピークの周波数が所定の周波数範囲の上方帯域制限よりも高い周波数である。
【0010】
本発明の別の実施形態において、コードブック合成パラメータの組が、
合成された言語のスペクトル内に、所定の周波数範囲の下方帯域制限よりも低い周波数である低周波数ピークの周波数に関係する合成パラメータと;
低周波数ピークの振幅に関係する合成パラメータとを含む。
【0011】
さらに加えて、ピッチ抽出手段は、帯域制限された言語信号を受取るように接続でき、スペクトル信号が有声音の言語を表わして、受取られた帯域制限された言語信号のピッチに対応するピッチ周波数値を与える場合に;
コードブック周波数値の組のいくつかがピッチに関係する周波数値を含み;
スペクトル信号が有声音の言語を表わす場合に、ルックアップ手段が、さらに前記ピッチ周波数値にも近いコードブック周波数値の組に対応している要求された合成パラメータの組を抽出するようにされている。
【0012】
本発明によって対応する手段も用意されている。
【0013】
本発明において、ピークピッカー2を使用して、ホルマント周波数の推定を与える。声帯管(vocal tract)の性質が原因となって、声帯および鼻腔の形状に起因する拘束条件と筋肉の物理的な限界に起因する拘束条件とは、有声音では、ホルマントの周波数が声帯管の形状に関して良好な表示を与えることを条件としている。したがって有声音では、既知の狭帯域言語信号におけるホルマントは、狭帯域言語信号の帯域幅外の何れのホルマントについての位置の良好な表示である。
【0014】
ここで本発明の例を添付の図面を参照して例示的に記載することにする。
【0015】
発明の実施の形態
図1を参照すると、ディジタル狭帯域言語はスペクトル信号抽出器1によって、例えばディジタル電話ネットワーク、またはディジタル対アナログコンバータから受取られる。本明細書に記載した本発明の実施形態は、電話帯域幅言語信号から広帯域言語を合成するように設計されているので、受取られた言語の帯域幅は300Hzないし3.4KHz内である。スペクトル信号は、それぞれが多数の隣合う連続するディジタルサンプルを表わしており、ディジタル狭帯域言語から導き出される。例えば言語サンプルは毎秒8000サンプルのレートで受取ることができ、スペクトル信号は256の隣合う連続する言語サンプルのフレームを表わすことができ、したがって32msである。スペクトル信号は1組のスペクトル値を含み、各スペクトル値は特定の周波数値に対応する。各フレームは、例えばハミングウインドウを使用してウインドウ処理され(すなわち、サンプルは所定の重付け定数によって逓倍される)、フレームのエッジによって生成された寄生の人為構造(spurious artefacts)を低減することが好ましい。好ましい実施形態では、フレームは、例えば50%だけ重なり合って、16msごとに1フレームを用意する。本明細書に記載した本発明の実施形態では、スペクトル信号は各フレームに対して実行される高速フーリエ変換(FFT)によって得られ、したがって周波数値の範囲ごとに信号値を与え、この信号は各値の対数を計算する前に整流される(すなわち、各値の大きさが使用される)。したがって生成されたスペクトル信号は狭帯域信号のスペクトルの対数を表わす。スペクトル信号抽出器1は適切にプログラムされたディジタル信号プロセッサ(DSP)によって生成することができる。
【0016】
各スペクトル信号は、今度は、ピークピッカー2によって解析され、ピークピッカー2はスペクトル信号内で1以上のピークをサーチし、識別されたピークの周波数値を出力として与える。サーチされるピーク数は、とりわけ受取られた帯域幅言語信号の帯域幅に依存する。識別されるピーク数はサーチされるピーク数以下であってもよいことが認識されるであろう。本明細書に記載した実施形態ではスペクトル信号内の3つのピークの周波数(F1、F2、およびF3)がサーチされる。これらの3つのピークは、言語信号内の最初の3つのホルマントに対応することが意図されている。ピークは、このピークに近い周波数値のスペクトル値よりも高いスペクトル値をもつ周波数値として規定してもよい。ウインドウの大きさは、スペクトル値が比較される周波数値の数を与えるように定めてもよい。例えば、ウインドウの大きさが3つある場合に、周波数値のスペクトル値が次に小さい周波数値のスペクトル値よりも大きく、次に大きい周波数値のスペクトル値よりも大きいときに、これがピークであると定められる。ウインドウの大きさが5つある場合は、周波数値のスペクトル値は2つの次に小さい周波数値のスペクトル値よりも大きく、2つの次に大きい周波数値のスペクトル値よりも大きいとき、これがピークであると定められる。他のウインドウの大きさを使用することができる。スペクトル信号内にピークがあると予測される周波数範囲であって、各周波数範囲内で最高のスペクトル値をもつ周波数が識別されるように周波数範囲を定めることができる。これらの範囲外のピークは無視してもよい。ピークピッカーは適切にプログラムされたマイクロプロセッサチップを使用して、またはDSPチップを使用する場合はスペクトル信号抽出器を構成するのに使用されるのと同じDSPを使ったDSPチップによって構成してもよい。
【0017】
コードブックアクセス機構3は、狭帯域言語のフレームから導き出されるスペクトル信号内に1以上の周波数値の組を受取る。コードブックメモリ4は、標準のランダムアクセス(RAM)チップを使用して構成することができ、コードブックメモリ4は各組が1以上の周波数値を含み、各組が1以上の合成器パラメータを含む組に対応する組を複数もっている。ユークリッド距離のような測定値を使用して、1組のコードブック測定値が受取られた組に近いことを判断する。合成器パラメータの対応する組が抽出され、言語合成器5へ送られる。本明細書に記載した実施形態において、使用される合成パラメータには、本明細書中でA4、A5、およびA6と呼ばれる3つの振幅パラメータがあり、これらのパリティはそれぞれ周波数4350Hz、5400Hz、および7000Hzに中心を置く3つの高周波数ホルマントの振幅を定め、さらに本明細書ではFNおよびANと呼ばれる、周波数および振幅のパラメータの対もあり、これらのパラメータは300Hzよりも幾らか低い周波数をもつ合成ホルマントの周波数および振幅を定める。このような低周波数ホルマントは普通、鼻腔の共振によって言語内に存在する。
【0018】
本明細書に記載された実施形態において使用された合成パラメータは、知覚上重要な言語信号の属性の知識に基づいて選択された。例えば、人間の耳は第4、第5、および第6のホルマントの精密な周波数を知覚しないが、これらのホルマントの振幅は知覚上重要であることが証明された。したがって本発明のこの実施形態において、これらのホルマントの周波数は固定され、振幅パラメータA4、A5、およびA6が狭帯域スペクトル成分に基いて選択される。
【0019】
合成器(シンセサイザ)5は、言語波形の要求されるピッチを表わすピッチ周波数パラメータF0を要求する。有声音言語(例えば、母音)の中で、言語信号は、発話者の音声のピッチに依存する低周波数信号によって変調され、所定の発話者の特徴を相当に表わす。無声音の言語(例えば“sh”)の中では、このような変調はない。
【0020】
ピッチ周波数パラメータF0は、ピッチ抽出器(ピッチ検出器とも予測器とも言う)17によって生成される。ピッチ周波数パラメータF0は、スペクトル信号抽出器1から受取られるスペクトルの対数に対して逆FFTを実行することによって生成することができる。その代わりに、スペクトルが実数であるとき、スペクトル信号に対して離散的余弦変換(DCT)を実行するのに十分である。何れの技術でも、各々がクフレンシイ(周波数対応値:quefrency)に対応するケプストラム値の組を含むケプストラム信号(cepstral signal)を生成する。発話のピッチはケプストラム信号のピークとして現れ、既に記載したアルゴリズムのようなピークピッキングアルゴリズムを使用して検出できる。ケプストラム値が負のときは、信号のピークを検出するには、ケプストラム値の大きさを使用するか、またはケプストラム値を平方する。所定の閾値を越える大きさをもつケプストラム値をもたないとき、信号は無声音であると考えられ、ピッチ周波数パラメータF0を示す信号に加えて、ピッチ検出器17は、ケプストラム信号が対応する言語のフレームが有声音か無声音かを示す二値信号を供給することができる。ケプストラム内でこのようなピークをサーチするとき、正規のピッチをもつ言語の周波数範囲に対応するクフレンシイ範囲内のケプストラム値を検討することのみが必要である。
【0021】
合成器5の動作は、図3を参照して後で記載される。
【0022】
図2を簡単に参照して、受取られた狭帯域言語信号から広帯域言語を合成する装置の第2の実施形態を示す。コードブック周波数値の組は周波数値F1、F2、F3と、さらにピッチ周波数値F0とを含む。
【0023】
ピッチ周波数パラメータF0はピッチ抽出器17によって生成される。ピッチ周波数が非常に異なる言語の発話、例えば男性と女性の発話は、帯域制限された言語のホルマントと帯域幅の制限されていないホルマントとの間の異なる相互関係を示すことができるので、コードブック周波数値の組内にピッチ周波数パラメータを含むことが効果的である。さらに有声音の発話は、帯域制限されたスペクトルと広帯域スペクトルとの間の異なる関係を、無声音の発話によって示される関係に示す。
【0024】
図3には図1に示した装置によって与えられるような合成パラメータの組を使用して広帯域言語を合成するシンセサイザが示されており、ここで図3を参照して図1の合成器5の動作を記載することにする。図3のシンセサイザ5は、並行ホルマント合成の周知の原理に基づいているが、この場合は帯域制限されていない信号周波数のみが合成される。このような合成器の動作原理は、言語が実質的に分離可能な励起関数によってドライブされる時間で変化するフィルタ9の出力であると考えられる言語生成のモデルに基づいている。励起関数は一般的に、2つの励起源、無声音の励起発生器10、および有声音の励起発生器11を使用して与えられる。無声音の励起発生器10はホワイトノイズにかなり類似した信号を供給し、有声音の励起発生器11はピッチ周波数パラメータF0によって制御され、励起発生器によって供給される波形の周波数を判断する。ピッチ周波数発生器F0は、図1のピッチ抽出器17によって狭帯域言語信号から抽出される。時間で変化するフィルタ9は並列共振器12、13、14、15のネットワークによって与えられる。
【0025】
一般化されたホルマント言語合成器では、励起発生器を全ての合成器に接続することができ、励起の度合いは‘音声制御(voicing control)’パラメータによって制御される。しかしながら従来のホルマント合成器において、このようなパラメータは普通二値数であり、各音声制御パラメータはその相手に対して別の値に設定される。本明細書に記載した実施形態において、有声音の励起発生器11は、ピッチ抽出器17によって狭帯域幅言語から生成されるピッチ周波数パラメータF0によって制御される。有声音の励起発生器は共振器15に接続され、この中心周波数はコードブック合成パラメータFNを使用して制御される。励起信号の振幅はコードブック合成パラメータANによって制御され、ANは逓倍器43において励起信号によって逓倍される。この実施形態ではFNに中心を置く共振器の帯域幅は、5/6FNから1/6FNであると定められる。例えばFNが250Hzであるとき、6dB低くなり、上方の遮断周波数はそれぞれ約208Hzおよび292Hzで発生する。無声音の励起発生器10は共振器12、13、および14に接続され、共振器12、13、および14を使用して、それぞれ4350Hz,5400Hz、および7000Hzに中心を置く3つの高周波数ホルマントをシミュレートする。共振器12は3870ないし4820Hzの帯域幅をもち、励起信号の振幅は、逓倍器40において励起信号によって逓倍されるコードブック合成パラメータA4によって制御される。共振器13は、4820Hzないし6020Hzの帯域幅をもち、励起信号の振幅は、逓倍器41において励起信号によって逓倍されるコードブック合成パラメータA5によって制御される。共振器14は6020Hzないし7940Hzの帯域幅をもち、励起信号の振幅は逓倍器42において励起信号によって逓倍されるコードブック合成パラメータA6によって制御される。
【0026】
狭帯域幅信号が有声音でないとき、ピッチ周波数パラメータF0はピッチ予測器17によって狭帯域信号から発生されず、有声音の励起発生器11によって共振器15へ供給されない。しかしながら共振器12、13、14は狭帯域信号が有声音であっても、無声音であっても、無声音の励起発生器10によってドライブされる。共振器12、13、14、15からの信号と、受取られた狭帯域言語信号とは加算器18において加算され、合成された広帯域言語信号を用意する。
【0027】
図4に示した別の実施形態では、無声音の励起発生器10はスイッチ16を介して共振器15に接続され、スイッチ16はピッチ抽出器17から受取られる有声音/無声音の二値信号によって制御される。共振器15へ与えられる励起はこの第2の二値信号の値に依存する。励起は有声音の狭い帯域言語の場合は有声音の励起発生器11によって、無声音の狭帯域言語の場合は無声音の励起発生器10によって共振器15へ供給される。
【0028】
図5に示した装置を使用して、全広帯域幅言語信号を合成し、ピークピッカーは変調されて、変調された合成器5’を追加の信号周波数値F1、F2、およびF3へ追加の信号振幅値A1、A2、およびA3と一緒に供給できることが認識されるであろう。周波数信号値を使用して、予備の共振器30、31、および32を制御し、振幅値を使用して、逓倍器33、34、および35を介して有声音励起信号の振幅を制御する。
【0029】
その代わりに、コードブックアクセス機構3によって信号周波数値に近いと考えられるコードブック周波数値F1、F2、およびF3を合成器5’に供給してもよい。しかしながら、振幅値A1、A2、およびA3は依然として変調されたピークピッカーによって供給されなければならない。
【0030】
図6は、本発明で使用するのに適したコードブックを生成する装置を示す。ディジタル広帯域言語信号は多数のフィルタ20、21、22、23、24によって受取られ、帯域制限された信号を供給する。本明細書に記載された実施形態において、低域フィルタ20は0ないし300Hzの低周波数スペクトル信号を供給し;帯域フィルタ21はシンセサイザに与えられることになる信号に類似した、この場合は300Hzないし3.4KHzの狭帯域信号を供給し;帯域フィルタ22、23、および24は3つの高周波数スペクトル信号の1つを、3つの高周波数ホルマント、この実施形態ではそれぞれ3870Hzないし4820Hz、4820Hzないし6020Hz、および6020Hzないし7940Hzに使用される各周波数帯域に供給する。各帯域制限されたスペクトル信号は、スペクトル信号抽出器1によって使用されるプロセスに類似のプロセスを使用して対応するスペクトル信号抽出器50、51、52、53、または54によって解析される。ピークピッカー2’が取付けられて、狭帯域信号を受取り、本明細書においてF1、F2、およびF3として知られている3つのコードブック周波数値が、図1を参照して前もって記載されたピークピッキングアルゴリズムを使用して判断される。ピークピッカー25は、低周波数スペクトル信号を受取るように接続される。ピークピッカー25は、ピークピッカー2’によって使用されるアルゴリズムに類似したアルゴリズムを使用して低周波数スペクトル信号内で最も大きい、それぞれFNおよびANとして知られているピーク周波数および振幅を判断する。3つのエネルギー判断部26、27、28を使用して、それぞれフィルタ22、23、および24によって与えられる3つの高周波数スペクトル信号の平均振幅を測定する。本明細書においてA4、A5、およびA6として知られている3つの平均振幅値を使用して、3つの高周波数ホルマントの振幅の推定を与える。したがって図6の装置を使用して、広帯域言語の各例に対して、3つのコードブック周波数値F1、F2、およびF3が与えられ、5つの合成パラメータFN、AN、A4、A5、およびA6が与えられる。もちろん、コードブックエントリをクラスタ化して、パラメータの例を表わすより小さいコードブックを用意する。クラスタ化は、図1のシンセサイザにおけるコードブックサーチ速度を相当に速める。
【0031】
図2を参照して既に記載したように、本発明の別の実施形態において、コードブック周波数値の組はピッチ周波数値F0を含み、F0は広帯域言語の発話のピッチを表わし、スペクトル信号抽出器1’から信号を受取るピッチ抽出器17’を使用して発生され、なおピッチ抽出器17’およびスペクトル信号抽出器1’は、図1のピッチ抽出器17およびスペクトル信号抽出器1と類似のやり方で動作することができる。
【図面の簡単な説明】
【図1】 ホルマント周波数に関して狭帯域信号を特徴付ける、受取られた狭い帯域言語信号から広帯域言語を合成する装置の模式的なブロック図。
【図2】 受取られた狭帯域言語信号から広帯域言語を合成する装置の別の実施形態を示す図。
【図3】 本発明を使用して広帯域言語を合成するのに適した装置を示す図。
【図4】 本発明を使用して広帯域言語を合成するのに適した装置の別の例を示す図。
【図5】 本発明を使用して広帯域言語を合成するのに適した別の装置を示す図。
【図6】 本発明の1つの実施形態において使用するルックアップ表を生成する装置を示す図。

Claims (14)

  1. 帯域制限された言語信号から言語を合成する装置であって:
    帯域制限された信号からスペクトル信号を抽出する手段と;
    前記スペクトル信号を受取り、前記スペクトル信号内の1以上のピークの周波数に対応する1組の1以上のピーク周波数出力値を供給するために、所定の周波数範囲をサーチするように構成されているピークピッキング手段と;
    複数のコードブックエントリを含み、各コードブックエントリが、1組の1以上のコードブック周波数値および1組の1以上の対応する合成パラメータとから成るコードブック手段と;
    前記ピーク周波数値の組を受取るように構成されていて、かつコードブック手段にアクセスして、前記ピーク周波数値の組に近いコードブック周波数値の組に対応する要求された合成パラメータの組を抽出するように構成されているルックアップ手段と;
    要求された合成パラメータの組を受取り、前記要求された合成パラメータの組を使用して言語を生成するように構成されている言語合成手段とを含む装置。
  2. コードブック合成パラメータの組が、合成された言語のスペクトル内のピーク振幅に関係する合成パラメータを含み、ピーク周波数が所定の周波数範囲外である請求項1記載の装置。
  3. コードブック合成パラメータの組が、合成された言語のスペクトル内のピーク周波数に関係する合成パラメータを含み、ピーク周波数が所定の周波数範囲外である請求項1または2記載の装置。
  4. ピークピッキング手段が前記スペクトル信号内に2以上のピークを認識することができ、このような場合に複数のピーク周波数出力値を含む組を供給し、コードブック周波数値の組のいくつかが複数のコードブック周波数値を含む請求項1ないし3の何れか1項記載の装置。
  5. コードブック合成パラメータの組が、
    3つの合成パラメータを含み、各パラメータが合成された言語のスペクトル内で高周波数ピークの振幅に関係し、高周波数ピークの周波数が所定の周波数範囲の上方帯域制限よりも高い周波数である請求項1ないし4の何れか1項記載の装置。
  6. コードブック合成パラメータの組が、
    合成された言語のスペクトル内に、所定の周波数範囲の下方帯域制限よりも低い周波数である低周波数ピークの周波数に関係する合成パラメータと;
    低周波数ピークの振幅に関係する合成パラメータとを含む請求項1ないし5の何れか1項記載の装置。
  7. 帯域制限された言語信号を受取るように接続されたピッチ抽出手段であって、スペクトル信号が有声音の言語を表わして、受取られた帯域制限された言語信号のピッチに対応するピッチ周波数値を与える場合に;
    コードブック周波数値の組のいくつかはピッチに関係する周波数値を含み;
    スペクトル信号が有声音の言語を表わす場合に、ルックアップ手段が前記ピッチ周波数値にも近いコードブック周波数値の組に対応している要求された合成パラメータの組を抽出するように構成されているピッチ抽出手段をさらに含む請求項1ないし6の何れか1項記載の装置。
  8. 帯域制限された言語信号から言語を合成する方法であって、
    帯域制限された信号からスペクトル信号を抽出するステップと;
    前記スペクトル信号内1以上のピークの周波数に対応する1組の1以上のピーク周波数出力値を供給するために、スペクトル信号の所定の周波数範囲をサーチするステップと;
    各コードブックエントリが1組の1以上のコードブック周波数値および1組の1以上の対応する合成パラメータとを含んでいる、複数のコードブックエントリを含むコードブックにアクセスするステップと;
    前記ピーク周波数値の組に近いコードブック周波数値の組に対応する要求された合成パラメータの組を判断するステップと;
    前記要求された合成パラメータの組を使用して言語を合成するステップとを含む方法。
  9. コードブック合成パラメータの組が、合成された言語のスペクトル内のピーク振幅に関係する合成パラメータを含み、ピーク周波数が所定の周波数範囲外である請求項8記載の方法。
  10. コードブック合成パラメータの組が、合成された言語のスペクトル内のピーク周波数に関係する合成パラメータを含み、ピーク周波数が所定の周波数範囲外である請求項8または9記載の装置。
  11. 前記スペクトル信号内の2以上のピークが認識された場合に、ピーク周波数の出力値の組が複数のピーク周波数出力値を含み、コードブック周波数値の組の幾つかが複数のコードブック周波数値を含む請求項8ないし10のいずれか1項記載の方法。
  12. コードブック合成パラメータの組が、
    3つの合成パラメータを含み、各パラメータが合成された言語のスペクトル内に、所定の周波数範囲の上方帯域制限よりも高い周波数である高周波数ピークの振幅に関係する請求項8ないし11の何れか1項記載の方法。
  13. コードブック合成パラメータの組が、
    合成された言語のスペクトル内に、所定の周波数範囲の下方帯域制限よりも低い周波数である低周波数ピークの周波数に関係する合成パラメータと;
    低周波数ピークの振幅に関係する合成パラメータとを含む請求項8ないし12の何れか1項記載の方法。
  14. コードブック周波数値の組のいくつかが、ピッチに関係する周波数値を含み;
    スペクトル信号が有声音の言語を表わすとき、スペクトル信号のピッチに対応するピッチ周波数値を使用して、前記ピッチ周波数値にも近いコードブック周波数値の組に対応している要求された合成パラメータの組を判断する請求項8ないし13のいずれか1項記載の方法。
JP2000538347A 1998-03-25 1999-03-17 狭帯域言語信号からの広帯域言語合成 Expired - Fee Related JP4624552B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP98302280.7 1998-03-25
EP98302280A EP0945852A1 (en) 1998-03-25 1998-03-25 Speech synthesis
PCT/GB1999/000819 WO1999049454A1 (en) 1998-03-25 1999-03-17 Wideband speech synthesis from a narrowband speech signal

Publications (2)

Publication Number Publication Date
JP2002508526A JP2002508526A (ja) 2002-03-19
JP4624552B2 true JP4624552B2 (ja) 2011-02-02

Family

ID=8234735

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000538347A Expired - Fee Related JP4624552B2 (ja) 1998-03-25 1999-03-17 狭帯域言語信号からの広帯域言語合成

Country Status (5)

Country Link
US (1) US6691083B1 (ja)
EP (2) EP0945852A1 (ja)
JP (1) JP4624552B2 (ja)
DE (1) DE69901606T2 (ja)
WO (1) WO1999049454A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230206035A1 (en) * 2021-12-29 2023-06-29 International Business Machines Corporation Resonator network based neural network

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2357682B (en) * 1999-12-23 2004-09-08 Motorola Ltd Audio circuit and method for wideband to narrowband transition in a communication device
US6704711B2 (en) 2000-01-28 2004-03-09 Telefonaktiebolaget Lm Ericsson (Publ) System and method for modifying speech signals
FI119576B (fi) 2000-03-07 2008-12-31 Nokia Corp Puheenkäsittelylaite ja menetelmä puheen käsittelemiseksi, sekä digitaalinen radiopuhelin
DE10041512B4 (de) * 2000-08-24 2005-05-04 Infineon Technologies Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
US20020128839A1 (en) * 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
ATE319162T1 (de) * 2001-01-19 2006-03-15 Koninkl Philips Electronics Nv Breitband-signalübertragungssystem
JP4747434B2 (ja) * 2001-04-18 2011-08-17 日本電気株式会社 音声合成方法、音声合成装置、半導体装置及び音声合成プログラム
DE50104998D1 (de) * 2001-05-11 2005-02-03 Siemens Ag Verfahren zur erweiterung der bandbreite eines schmalbandig gefilterten sprachsignals, insbesondere eines von einem telekommunikationsgerät gesendeten sprachsignals
JP2003044098A (ja) * 2001-07-26 2003-02-14 Nec Corp 音声帯域拡張装置及び音声帯域拡張方法
DE50113277D1 (de) * 2001-09-28 2007-12-27 Nokia Siemens Networks Spa Sprachextender und verfahren zum schätzen eines breitbandigen sprachsignals anhand eines schmalbandigen sprachsignals
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
US6988066B2 (en) * 2001-10-04 2006-01-17 At&T Corp. Method of bandwidth extension for narrow-band speech
US20040064324A1 (en) * 2002-08-08 2004-04-01 Graumann David L. Bandwidth expansion using alias modulation
JP3879922B2 (ja) 2002-09-12 2007-02-14 ソニー株式会社 信号処理システム、信号処理装置および方法、記録媒体、並びにプログラム
JP4433668B2 (ja) * 2002-10-31 2010-03-17 日本電気株式会社 帯域拡張装置及び方法
DE10252070B4 (de) * 2002-11-08 2010-07-15 Palm, Inc. (n.d.Ges. d. Staates Delaware), Sunnyvale Kommunikationsendgerät mit parametrierter Bandbreitenerweiterung und Verfahren zur Bandbreitenerweiterung dafür
JP4311034B2 (ja) * 2003-02-14 2009-08-12 沖電気工業株式会社 帯域復元装置及び電話機
EP3118849B1 (en) * 2004-05-19 2020-01-01 Fraunhofer Gesellschaft zur Förderung der Angewand Encoding device, decoding device, and method thereof
US8249861B2 (en) * 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
US7813931B2 (en) * 2005-04-20 2010-10-12 QNX Software Systems, Co. System for improving speech quality and intelligibility with bandwidth compression/expansion
US8086451B2 (en) 2005-04-20 2011-12-27 Qnx Software Systems Co. System for improving speech intelligibility through high frequency compression
US8311840B2 (en) * 2005-06-28 2012-11-13 Qnx Software Systems Limited Frequency extension of harmonic signals
KR100717058B1 (ko) * 2005-11-28 2007-05-14 삼성전자주식회사 고주파 성분 복원 방법 및 그 장치
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
US7912729B2 (en) 2007-02-23 2011-03-22 Qnx Software Systems Co. High-frequency bandwidth extension in the time domain
US8041577B2 (en) * 2007-08-13 2011-10-18 Mitsubishi Electric Research Laboratories, Inc. Method for expanding audio signal bandwidth
US8880410B2 (en) 2008-07-11 2014-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a bandwidth extended signal
USRE47180E1 (en) 2008-07-11 2018-12-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a bandwidth extended signal
BR122017003818B1 (pt) * 2008-07-11 2024-03-05 Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V. Instrumento e método para geração de sinal estendido de largura de banda
US8484020B2 (en) * 2009-10-23 2013-07-09 Qualcomm Incorporated Determining an upperband signal from a narrowband signal
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
CN102456375B (zh) 2010-10-28 2015-01-21 鸿富锦精密工业(深圳)有限公司 音频设备及音频信号的标识信息加载方法
TWI408676B (zh) * 2010-11-01 2013-09-11 Hon Hai Prec Ind Co Ltd 音訊設備及音訊訊號的標識資訊載入方法
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5850360B2 (ja) * 1978-05-12 1983-11-10 株式会社日立製作所 音声認識装置における前処理方法
NL7908213A (nl) * 1979-11-09 1981-06-01 Philips Nv Spraaksynthese inrichting met tenminste twee vervormingsketens.
JPS61137200A (ja) * 1984-12-07 1986-06-24 株式会社日立製作所 音声認識方式
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
EP0243562B1 (en) * 1986-04-30 1992-01-29 International Business Machines Corporation Improved voice coding process and device for implementing said process
US5023910A (en) * 1988-04-08 1991-06-11 At&T Bell Laboratories Vector quantization in a harmonic speech coding arrangement
CA2067379C (en) * 1989-10-06 1998-05-26 Thomas Vaupel Process for transmitting a signal
US5293449A (en) * 1990-11-23 1994-03-08 Comsat Corporation Analysis-by-synthesis 2,4 kbps linear predictive speech codec
US5327518A (en) * 1991-08-22 1994-07-05 Georgia Tech Research Corporation Audio analysis/synthesis system
US5504833A (en) * 1991-08-22 1996-04-02 George; E. Bryan Speech approximation using successive sinusoidal overlap-add models and pitch-scale modifications
JP2779886B2 (ja) * 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
JP3230782B2 (ja) 1993-08-17 2001-11-19 日本電信電話株式会社 広帯域音声信号復元方法
JP3189598B2 (ja) * 1994-10-28 2001-07-16 松下電器産業株式会社 信号合成方法および信号合成装置
JP3483958B2 (ja) * 1994-10-28 2004-01-06 三菱電機株式会社 広帯域音声復元装置及び広帯域音声復元方法及び音声伝送システム及び音声伝送方法
US5933808A (en) * 1995-11-07 1999-08-03 The United States Of America As Represented By The Secretary Of The Navy Method and apparatus for generating modified speech from pitch-synchronous segmented speech waveforms
JPH10124088A (ja) * 1996-10-24 1998-05-15 Sony Corp 音声帯域幅拡張装置及び方法
US6041297A (en) * 1997-03-10 2000-03-21 At&T Corp Vocoder for coding speech by using a correlation between spectral magnitudes and candidate excitations
JP4132154B2 (ja) * 1997-10-23 2008-08-13 ソニー株式会社 音声合成方法及び装置、並びに帯域幅拡張方法及び装置
US6006179A (en) * 1997-10-28 1999-12-21 America Online, Inc. Audio codec using adaptive sparse vector quantization with subband vector classification
US6311154B1 (en) * 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230206035A1 (en) * 2021-12-29 2023-06-29 International Business Machines Corporation Resonator network based neural network

Also Published As

Publication number Publication date
JP2002508526A (ja) 2002-03-19
EP0945852A1 (en) 1999-09-29
DE69901606T2 (de) 2002-12-05
WO1999049454A1 (en) 1999-09-30
US6691083B1 (en) 2004-02-10
EP1064648B1 (en) 2002-05-29
DE69901606D1 (de) 2002-07-04
EP1064648A1 (en) 2001-01-03

Similar Documents

Publication Publication Date Title
JP4624552B2 (ja) 狭帯域言語信号からの広帯域言語合成
US4827516A (en) Method of analyzing input speech and speech analysis apparatus therefor
EP1252621B1 (en) System and method for modifying speech signals
AU656787B2 (en) Auditory model for parametrization of speech
EP1588354B1 (en) Method and apparatus for speech reconstruction
JP5961950B2 (ja) 音声処理装置
JPH10124088A (ja) 音声帯域幅拡張装置及び方法
JPH05346797A (ja) 有声音判別方法
WO2002056301A1 (en) Speech bandwidth extension
CA2518332A1 (en) Bandwidth extension of bandlimited audio signals
US20130151255A1 (en) Method and device for extending bandwidth of speech signal
KR20050049103A (ko) 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치
JPH10124089A (ja) 音声信号処理装置及び方法、並びに、音声帯域幅拡張装置及び方法
JP2904279B2 (ja) 音声合成方法および装置
CN112233686B (zh) Nvocplus高速宽带声码器的语音数据处理方法
JPH1097274A (ja) 話者認識方法及び装置
JP4603727B2 (ja) 音響信号分析方法及び装置
JP3230782B2 (ja) 広帯域音声信号復元方法
Alcaraz Meseguer Speech analysis for automatic speech recognition
JP2025155320A (ja) 収音装置、収音方法、およびプログラム
KR930011736B1 (ko) 음성신호의 피치반분법에 의한 파형코딩과 혼성코딩의 피치 조절방법
JPH0636157B2 (ja) 帯域分割型ボコ−ダ
JPH02294699A (ja) 音声分析合成方式
KR20130063990A (ko) 음성 신호의 대역폭 확장 방법 및 그 장치
JPH08160993A (ja) 音声分析合成器

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050802

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081202

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090302

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090309

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090401

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090408

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090430

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100223

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100616

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100701

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101005

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101104

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131112

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees