JP2002508526A - 狭帯域言語信号からの広帯域言語合成 - Google Patents

狭帯域言語信号からの広帯域言語合成

Info

Publication number
JP2002508526A
JP2002508526A JP2000538347A JP2000538347A JP2002508526A JP 2002508526 A JP2002508526 A JP 2002508526A JP 2000538347 A JP2000538347 A JP 2000538347A JP 2000538347 A JP2000538347 A JP 2000538347A JP 2002508526 A JP2002508526 A JP 2002508526A
Authority
JP
Japan
Prior art keywords
frequency
language
peak
codebook
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000538347A
Other languages
English (en)
Other versions
JP4624552B2 (ja
Inventor
ブリーン、アンドリュー・ポール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of JP2002508526A publication Critical patent/JP2002508526A/ja
Application granted granted Critical
Publication of JP4624552B2 publication Critical patent/JP4624552B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Abstract

(57)【要約】 広帯域の言語が、帯域制限された言語信号、例えば公衆交換電話ネットワークを経由して送られた言語信号から合成される。声帯管の性質が原因で、帯域制限された信号と、もとの広帯域言語信号から失われているその信号の一部とが互いに関係している。本発明では、狭帯域言語は、ピークピッカー(2)によって与えられる推定されたホルマント周波数の項で特徴付けられる。言語内のホルマントの周波数は、有声音に対して、声帯管の形状に関する良好な表示を与える。ピークピッカーによって与えられる周波数の組を使用して、合成器(5)によって使用するための合成パラメータを与えるコードブック(4)にアクセスする。

Description

【発明の詳細な説明】
【0001】 発明の属する技術分野 本発明は、言語合成(話し言葉の合成)、とくに帯域制限された言語信号、例
えば公衆交換電話ネットワークを経由して伝送される言語信号からの広帯域言語
の合成に関する。
【0002】 従来の技術 本発明は、声帯管(vocal tract)の性質のために、帯域制限されたためにもと の広帯域言語信号から失われているそのもとの広帯域言語信号の一部と、帯域制
限されたその信号との間に相関関係があるという判断に基いている。この相関が
原因で、帯域制限された言語信号の帯域幅内からの言語を使用して、失われてい
るもとの広帯域言語信号を予測することができる。無声音よりも有声音の方がよ
りよい相関関係にある。
【0003】 電話帯域幅言語信号から広帯域言語信号を構築する既知のシステムはトレーニ
ングプロセスを使用して、狭帯域入力信号から失われている信号の推定を生成で
きる変換(形式変換)を定めている。一般的に、狭帯域信号の表示と要求される
広帯域信号の表示との間の相関関係を規定するトレーニング段階中にルックアッ
プ表が構成される。ルックアップ表は、実際の狭帯域スペクトルから推定される
広帯域スペクトルへ変換を行うのに使用することができる。狭帯域言語信号から
広帯域言語信号を生成するために、受取られた狭帯域言語が解析され、ルックア
ップ表内の最も近い表示が識別される。対応する広帯域信号表示を使用して、要
求される広帯域信号を合成する。広帯域信号の全体を合成するか、またはもとの
狭帯域信号を、狭帯域信号の帯域幅外で合成信号へ加えてもよい。
【0004】 アベおよびヨシダによる日本国特許出願第6-118995号明細書(‘Method for r
econstructing a wideband speech signal’)では、線形予測コーディング(L
PC)解析を使用して、このようなルックアップ表を構成し、広帯域トレーニン
グ言語のスペクトルを特徴付ける。LPC係数は広帯域トレーニング信号から抽
出される。これらの広帯域のLPC係数は広帯域コードワードからクラスタ化さ
れる。広帯域トレーニング信号は帯域フィルタで処理されて、帯域幅制限された
信号を供給し、そのスペクトルもLPC解析を使用して特徴付けられる。こうし
て得られた狭帯域のLPC係数は対応する広帯域コードワードは対応する広帯域
コードワードと対にされて、各広帯域コードワードごとに対応する狭帯域係数の
組を平均化して、狭帯域コードワードを形成する。したがって狭帯域信号および
広帯域信号の両方を1組のLPC係数によって表わされる。LPC係数からの広 帯域信号の合成は、従来の技術を使用して行われる。別のシステム(アベおよび
ヨシダによる日本国特許出願第7-56559号明細書(‘Method for reconstructing
a wideband speech signal))では広帯域信号は言語波形によって表わされ、 広帯域信号の合成は言語波形の連結によって達成される。
【0005】 発明が解決しようとする課題 本発明にしたがって、帯域制限された言語信号から言語を合成する装置であっ
て: 帯域制限された信号からスペクトル信号を抽出する手段と; 前記スペクトル信号を受取り、所定の周波数範囲をサーチして、前記スペク
トル信号内の1以上のピークの周波数に対応する1組の1以上のピーク周波数出力 値を供給するようにされているピークピッキング手段(peak-picking means)と; 複数のコードブックエントリを含み、各コードブックエントリが、1組の1以
上のコードブック周波数値および1組の1以上の対応する合成パラメータとから成
るコードブック手段と; 前記ピーク周波数値の組を受取るようにされていて、かつコードブック手段
にアクセスして、前記ピーク周波数値の組に近いコードブック周波数値の組に対
応する要求された合成パラメータの組を抽出するようにされているルックアップ
表と; 要求された合成パラメータの組を受取り、前記要求された合成パラメータの
組を使用して言語を生成するようにされている言語合成手段とを含む装置を提供
する。
【0006】 コードブック合成パラメータの組が、合成された言語のスペクトル内のピーク
振幅に関係する合成パラメータを含み、ピーク周波数が所定の周波数範囲外であ
ってもよい。
【0007】 コードブック合成パラメータの組が、合成された言語のスペクトル内のピーク
周波数に関係する合成パラメータを含み、ピーク周波数が所定の周波数範囲外で
あってもよい。
【0008】 好ましい実施形態において、ピークピッキング手段が前記スペクトル信号内に
1以上のピークを認識することができ、このような場合に複数のピーク周波数出 力値を含む組を用意し、コードブック周波数値の組のいくつかが複数のコードブ
ック周波数値を含む。
【0009】 本発明の可能な実施形態では、コードブック合成パラメータの組が、 3つの合成パラメータを含み、各パラメータが合成された言語のスペクトル
において高周波数ピークの振幅に関係し、高周波数ピークの周波数が所定の周波
数範囲の上方帯域制限よりも高い周波数である。
【0010】 本発明の別の実施形態において、コードブック合成パラメータの組が、 合成された言語のスペクトル内に、所定の周波数範囲の下方帯域制限よりも
低い周波数である低周波数ピークの周波数に関係する合成パラメータと; 低周波数ピークの振幅に関係する合成パラメータとを含む。
【0011】 さらに加えて、ピッチ抽出手段は、帯域制限された言語信号を受取るように接
続でき、スペクトル信号が有声音の言語を表わして、受取られた帯域制限された
言語信号のピッチに対応するピッチ周波数値を与える場合に; コードブック周波数値の組のいくつかがピッチに関係する周波数値を含み; スペクトル信号が有声音の言語を表わす場合に、ルックアップ手段が、さら
に前記ピッチ周波数値にも近いコードブック周波数値の組に対応している要求さ
れた合成パラメータの組を抽出するようにされている。
【0012】 本発明によって対応する手段も用意されている。
【0013】 本発明において、ピークピッカー2を使用して、ホルマント周波数の推定を与
える。声帯管(vocal tract)の性質が原因となって、声帯および鼻腔の形状に起 因する拘束条件と筋肉の物理的な限界に起因する拘束条件とは、有声音では、ホ
ルマントの周波数が声帯管の形状に関して良好な表示を与えることを条件として
いる。したがって有声音では、既知の狭帯域言語信号におけるホルマントは、狭
帯域言語信号の帯域幅外の何れのホルマントについての位置の良好な表示である
【0014】 ここで本発明の例を添付の図面を参照して例示的に記載することにする。
【0015】 発明の実施の形態 図1を参照すると、ディジタル狭帯域言語はスペクトル信号抽出器1によって
、例えばディジタル電話ネットワーク、またはディジタル対アナログコンバータ
から受取られる。本明細書に記載した本発明の実施形態は、電話帯域幅言語信号
から広帯域言語を合成するように設計されているので、受取られた言語の帯域幅
は300Hzないし3.4KHz内である。スペクトル信号は、それぞれが多数
の隣合う連続するディジタルサンプルを表わしており、ディジタル狭帯域言語か
ら導き出される。例えば言語サンプルは毎秒8000サンプルのレートで受取る
ことができ、スペクトル信号は256の隣合う連続する言語サンプルのフレーム
を表わすことができ、したがって32msである。スペクトル信号は1組のスペ クトル値を含み、各スペクトル値は特定の周波数値に対応する。各フレームは、
例えばハミングウインドウを使用してウインドウ処理され(すなわち、サンプル
は所定の重付け定数によって逓倍される)、フレームのエッジによって生成され
た寄生の人為構造(spurious artefacts)を低減することが好ましい。好ましい実
施形態では、フレームは、例えば50%だけ重なり合って、16msごとに1フ レームを用意する。本明細書に記載した本発明の実施形態では、スペクトル信号
は各フレームに対して実行される高速フーリエ変換(FFT)によって得られ、
したがって周波数値の範囲ごとに信号値を与え、この信号は各値の対数を計算す
る前に整流される(すなわち、各値の大きさが使用される)。したがって生成さ
れたスペクトル信号は狭帯域信号のスペクトルの対数を表わす。スペクトル信号
抽出器1は適切にプログラムされたディジタル信号プロセッサ(DSP)によっ
て生成することができる。
【0016】 各スペクトル信号は、今度は、ピークピッカー2によって解析され、ピークピ
ッカー2はスペクトル信号内で1以上のピークをサーチし、識別されたピークの
周波数値を出力として与える。サーチされるピーク数は、とりわけ受取られた帯
域幅言語信号の帯域幅に依存する。識別されるピーク数はサーチされるピーク数
以下であってもよいことが認識されるであろう。本明細書に記載した実施形態で
はスペクトル信号内の3つのピークの周波数(F1、F2、およびF3)がサー
チされる。これらの3つのピークは、言語信号内の最初の3つのホルマントに対
応することが意図されている。ピークは、このピークに近い周波数値のスペクト
ル値よりも高いスペクトル値をもつ周波数値として規定してもよい。ウインドウ
の大きさは、スペクトル値が比較される周波数値の数を与えるように定めてもよ
い。例えば、ウインドウの大きさが3つある場合に、周波数値のスペクトル値が
次に小さい周波数値のスペクトル値よりも大きく、次に大きい周波数値のスペク
トル値よりも大きいときに、これがピークであると定められる。ウインドウの大
きさが5つある場合は、周波数値のスペクトル値は2つの次に小さい周波数値の
スペクトル値よりも大きく、2つの次に大きい周波数値のスペクトル値よりも大
きいとき、これがピークであると定められる。他のウインドウの大きさを使用す
ることができる。スペクトル信号内にピークがあると予測される周波数範囲であ
って、各周波数範囲内で最高のスペクトル値をもつ周波数が識別されるように周
波数範囲を定めることができる。これらの範囲外のピークは無視してもよい。ピ
ークピッカーは適切にプログラムされたマイクロプロセッサチップを使用して、
またはDSPチップを使用する場合はスペクトル信号抽出器を構成するのに使用
されるのと同じDSPを使ったDSPチップによって構成してもよい。
【0017】 コードブックアクセス機構3は、狭帯域言語のフレームから導き出されるスペ
クトル信号内に1以上の周波数値の組を受取る。コードブックメモリ4は、標準 のランダムアクセス(RAM)チップを使用して構成することができ、コードブ
ックメモリ4は各組が1以上の周波数値を含み、各組が1以上の合成器パラメー タを含む組に対応する組を複数もっている。ユークリッド距離のような測定値を
使用して、1組のコードブック測定値が受取られた組に近いことを判断する。合 成器パラメータの対応する組が抽出され、言語合成器5へ送られる。本明細書に
記載した実施形態において、使用される合成パラメータには、本明細書中でA4
、A5、およびA6と呼ばれる3つの振幅パラメータがあり、これらのパリティ
はそれぞれ周波数4350Hz、5400Hz、および7000Hzに中心を置
く3つの高周波数ホルマントの振幅を定め、さらに本明細書ではFNおよびAN
と呼ばれる、周波数および振幅のパラメータの対もあり、これらのパラメータは
300Hzよりも幾らか低い周波数をもつ合成ホルマントの周波数および振幅を
定める。このような低周波数ホルマントは普通、鼻腔の共振によって言語内に存
在する。
【0018】 本明細書に記載された実施形態において使用された合成パラメータは、知覚上
重要な言語信号の属性の知識に基づいて選択された。例えば、人間の耳は第4、
第5、および第6のホルマントの精密な周波数を知覚しないが、これらのホルマ
ントの振幅は知覚上重要であることが証明された。したがって本発明のこの実施
形態において、これらのホルマントの周波数は固定され、振幅パラメータA4、
A5、およびA6が狭帯域スペクトル成分に基いて選択される。
【0019】 合成器(シンセサイザ)5は、言語波形の要求されるピッチを表わすピッチ周
波数パラメータF0を要求する。有声音言語(例えば、母音)の中で、言語信号
は、発話者の音声のピッチに依存する低周波数信号によって変調され、所定の発
話者の特徴を相当に表わす。無声音の言語(例えば“sh”)の中では、このよ
うな変調はない。
【0020】 ピッチ周波数パラメータF0は、ピッチ抽出器(ピッチ検出器とも予測器とも
言う)17によって生成される。ピッチ周波数パラメータF0は、スペクトル信号
抽出器1から受取られるスペクトルの対数に対して逆FFTを実行することによ
って生成することができる。その代わりに、スペクトルが実数であるとき、スペ
クトル信号に対して離散的余弦変換(DCT)を実行するのに十分である。何れ
の技術でも、各々がクフレンシイ(周波数対応値:quefrency)に対応するケプ ストラム値の組を含むケプストラム信号(cepstral signal)を生成する。発話の ピッチはケプストラム信号のピークとして現れ、既に記載したアルゴリズムのよ
うなピークピッキングアルゴリズムを使用して検出できる。ケプストラム値が負
のときは、信号のピークを検出するには、ケプストラム値の大きさを使用するか
、またはケプストラム値を平方する。所定の閾値を越える大きさをもつケプスト
ラム値をもたないとき、信号は無声音であると考えられ、ピッチ周波数パラメー
タF0を示す信号に加えて、ピッチ検出器17は、ケプストラム信号が対応する言
語のフレームが有声音か無声音かを示す二値信号を供給することができる。ケプ
ストラム内でこのようなピークをサーチするとき、正規のピッチをもつ言語の周
波数範囲に対応するクフレンシイ範囲内のケプストラム値を検討することのみが
必要である。
【0021】 合成器5の動作は、図3を参照して後で記載される。
【0022】 図2を簡単に参照して、受取られた狭帯域言語信号から広帯域言語を合成する
装置の第2の実施形態を示す。コードブック周波数値の組は周波数値F1、F2
、F3と、さらにピッチ周波数値F0とを含む。
【0023】 ピッチ周波数パラメータF0はピッチ抽出器17によって生成される。ピッチ周
波数が非常に異なる言語の発話、例えば男性と女性の発話は、帯域制限された言
語のホルマントと帯域幅の制限されていないホルマントとの間の異なる相互関係
を示すことができるので、コードブック周波数値の組内にピッチ周波数パラメー
タを含むことが効果的である。さらに有声音の発話は、帯域制限されたスペクト
ルと広帯域スペクトルとの間の異なる関係を、無声音の発話によって示される関
係に示す。
【0024】 図3には図1に示した装置によって与えられるような合成パラメータの組を使
用して広帯域言語を合成するシンセサイザが示されており、ここで図3を参照し
て図1の合成器5の動作を記載することにする。図3のシンセサイザ5は、並行
ホルマント合成の周知の原理に基づいているが、この場合は帯域制限されていな
い信号周波数のみが合成される。このような合成器の動作原理は、言語が実質的
に分離可能な励起関数によってドライブされる時間で変化するフィルタ9の出力
であると考えられる言語生成のモデルに基づいている。励起関数は一般的に、2
つの励起源、無声音の励起発生器10、および有声音の励起発生器11を使用して与
えられる。無声音の励起発生器10はホワイトノイズにかなり類似した信号を供給
し、有声音の励起発生器11はピッチ周波数パラメータF0によって制御され、励
起発生器によって供給される波形の周波数を判断する。ピッチ周波数発生器F0
は、図1のピッチ抽出器17によって狭帯域言語信号から抽出される。時間で変化
するフィルタ9は並列共振器12、13、14、15のネットワークによって与えられる
【0025】 一般化されたホルマント言語合成器では、励起発生器を全ての合成器に接続す
ることができ、励起の度合いは‘音声制御(voicing control)’パラメータによ って制御される。しかしながら従来のホルマント合成器において、このようなパ
ラメータは普通二値数であり、各音声制御パラメータはその相手に対して別の値
に設定される。本明細書に記載した実施形態において、有声音の励起発生器11は
、ピッチ抽出器17によって狭帯域幅言語から生成されるピッチ周波数パラメータ
F0によって制御される。有声音の励起発生器は共振器15に接続され、この中心
周波数はコードブック合成パラメータFNを使用して制御される。励起信号の振
幅はコードブック合成パラメータANによって制御され、ANは逓倍器43におい
て励起信号によって逓倍される。この実施形態ではFNに中心を置く共振器の帯
域幅は、5/6FNから1/6FNであると定められる。例えばFNが250H
zであるとき、6dB低くなり、上方の遮断周波数はそれぞれ約208Hzおよ
び292Hzで発生する。無声音の励起発生器10は共振器12、13、および14に接
続され、共振器12、13、および14を使用して、それぞれ4350Hz,5400
Hz、および7000Hzに中心を置く3つの高周波数ホルマントをシミュレー
トする。共振器12は3870ないし4820Hzの帯域幅をもち、励起信号の振
幅は、逓倍器40において励起信号によって逓倍されるコードブック合成パラメー
タA4によって制御される。共振器13は、4820Hzないし6020Hzの帯
域幅をもち、励起信号の振幅は、逓倍器41において励起信号によって逓倍され
るコードブック合成パラメータA5によって制御される。共振器14は6020H
zないし7940Hzの帯域幅をもち、励起信号の振幅は逓倍器42において励起
信号によって逓倍されるコードブック合成パラメータA6によって制御される。
【0026】 狭帯域幅信号が有声音でないとき、ピッチ周波数パラメータF0はピッチ予測
器17によって狭帯域信号から発生されず、有声音の励起発生器11によって共振器
15へ供給されない。しかしながら共振器12、13、14は狭帯域信号が有声音であっ
ても、無声音であっても、無声音の励起発生器10によってドライブされる。共振
器12、13、14、15からの信号と、受取られた狭帯域言語信号とは加算器18におい
て加算され、合成された広帯域言語信号を用意する。
【0027】 図4に示した別の実施形態では、無声音の励起発生器10はスイッチ16を介して
共振器15に接続され、スイッチ16はピッチ抽出器17から受取られる有声音/無声
音の二値信号によって制御される。共振器15へ与えられる励起はこの第2の二値
信号の値に依存する。励起は有声音の狭い帯域言語の場合は有声音の励起発生器
11によって、無声音の狭帯域言語の場合は無声音の励起発生器10によって共振器
15へ供給される。
【0028】 図5に示した装置を使用して、全広帯域幅言語信号を合成し、ピークピッカー
は変調されて、変調された合成器5’を追加の信号周波数値F1、F2、および
F3へ追加の信号振幅値A1、A2、およびA3と一緒に供給できることが認識
されるであろう。周波数信号値を使用して、予備の共振器30、31、および32を制
御し、振幅値を使用して、逓倍器33、34、および35を介して有声音励起信号の振
幅を制御する。
【0029】 その代わりに、コードブックアクセス機構3によって信号周波数値に近いと考
えられるコードブック周波数値F1、F2、およびF3を合成器5’に供給して
もよい。しかしながら、振幅値A1、A2、およびA3は依然として変調された
ピークピッカーによって供給されなければならない。
【0030】 図6は、本発明で使用するのに適したコードブックを生成する装置を示す。デ
ィジタル広帯域言語信号は多数のフィルタ20、21、22、23、24によって受取られ
、帯域制限された信号を供給する。本明細書に記載された実施形態において、低
域フィルタ20は0ないし300Hzの低周波数スペクトル信号を供給し;帯域フ
ィルタ21はシンセサイザに与えられることになる信号に類似した、この場合は3
00Hzないし3.4KHzの狭帯域信号を供給し;帯域フィルタ22、23、およ
び24は3つの高周波数スペクトル信号の1つを、3つの高周波数ホルマント、こ の実施形態ではそれぞれ3870Hzないし4820Hz、4820Hzないし
6020Hz、および6020Hzないし7940Hzに使用される各周波数帯
域に供給する。各帯域制限されたスペクトル信号は、スペクトル信号抽出器1に
よって使用されるプロセスに類似のプロセスを使用して対応するスペクトル信号
抽出器50、51、52、53、または54によって解析される。ピークピッカー2’が取
付けられて、狭帯域信号を受取り、本明細書においてF1、F2、およびF3とし て知られている3つのコードブック周波数値が、図1を参照して前もって記載さ れたピークピッキングアルゴリズムを使用して判断される。ピークピッカー25は
、低周波数スペクトル信号を受取るように接続される。ピークピッカー25は、ピ
ークピッカー2’によって使用されるアルゴリズムに類似したアルゴリズムを使
用して低周波数スペクトル信号内で最も大きい、それぞれFNおよびANとして
知られているピーク周波数および振幅を判断する。3つのエネルギー判断部26、
27、28を使用して、それぞれフィルタ22、23、および24によって与えられる3つ
の高周波数スペクトル信号の平均振幅を測定する。本明細書においてA4、A5
、およびA6として知られている3つの平均振幅値を使用して、3つの高周波数
ホルマントの振幅の推定を与える。したがって図6の装置を使用して、広帯域言
語の各例に対して、3つのコードブック周波数値F1、F2、およびF3が与え
られ、5つの合成パラメータFN、AN、A4、A5、およびA6が与えられる
。もちろん、コードブックエントリをクラスタ化して、パラメータの例を表わす
より小さいコードブックを用意する。クラスタ化は、図1のシンセサイザにおけ
るコードブックサーチ速度を相当に速める。
【0031】 図2を参照して既に記載したように、本発明の別の実施形態において、コード
ブック周波数値の組はピッチ周波数値F0を含み、F0は広帯域言語の発話のピ
ッチを表わし、スペクトル信号抽出器1’から信号を受取るピッチ抽出器17’を
使用して発生され、なおピッチ抽出器17’およびスペクトル信号抽出器1’は、
図1のピッチ抽出器17およびスペクトル信号抽出器1と類似のやり方で動作する
ことができる。
【図面の簡単な説明】
【図1】 ホルマント周波数に関して狭帯域信号を特徴付ける、受取られた狭い帯域言語
信号から広帯域言語を合成する装置の模式的なブロック図。
【図2】 受取られた狭帯域言語信号から広帯域言語を合成する装置の別の実施形態を示
す図。
【図3】 本発明を使用して広帯域言語を合成するのに適した装置を示す図。
【図4】 本発明を使用して広帯域言語を合成するのに適した装置の別の例を示す図。
【図5】 本発明を使用して広帯域言語を合成するのに適した別の装置を示す図。
【図6】 本発明の1つの実施形態において使用するルックアップ表を生成する装置を示
す図。

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 帯域制限された言語信号から言語を合成する装置であって: 帯域制限された信号からスペクトル信号を抽出する手段と; 前記スペクトル信号を受取り、所定の周波数範囲をサーチして、前記スペク
    トル信号内のピークの周波数に対応する1組のピーク周波数出力値を供給するよ うにされているピークピッキング手段と; 複数のコードブックエントリを含み、各コードブックエントリが、1組のコ ードブック周波数値および1組の対応する合成パラメータとから成るコードブッ ク手段と; 前記ピーク周波数値の組を受取るようにされていて、かつコードブック手段
    にアクセスして、前記ピーク周波数値の組に近いコードブック周波数値の組に対
    応する要求された合成パラメータの組を抽出するルックアップ表と; 要求された合成パラメータの組を受取り、前記要求された合成パラメータの
    組を使用して言語を生成するようにされている言語合成手段とを含む装置。
  2. 【請求項2】 コードブック合成パラメータの組が、合成された言語のスペ
    クトル内のピーク振幅に関係する合成パラメータを含み、ピーク周波数が所定の
    周波数範囲外である請求項1記載の装置。
  3. 【請求項3】 コードブック合成パラメータの組が、合成された言語のスペ
    クトル内のピーク周波数に関係する合成パラメータを含み、ピーク周波数が所定
    の周波数範囲外である請求項1または2記載の装置。
  4. 【請求項4】 ピークピッキング手段が前記スペクトル信号内にピークを認
    識することができ、このような場合に複数のピーク周波数出力値を含む組を用意
    し、コードブック周波数値の組のいくつかが複数のコードブック周波数値を含む
    請求項1ないし3の何れか1項記載の装置。
  5. 【請求項5】 コードブック合成パラメータの組が、 3つの合成パラメータを含み、各パラメータが合成された言語のスペクトル
    内で高周波数ピークの振幅に関係し、高周波数ピークの周波数が所定の周波数範
    囲の上方帯域制限よりも高い周波数である請求項1ないし4の何れか1項記載の 装置。
  6. 【請求項6】 コードブック合成パラメータの組が、 合成された言語のスペクトル内に、所定の周波数範囲の下方帯域制限よりも
    低い周波数である低周波数ピークの周波数に関係する合成パラメータと; 低周波数ピークの振幅に関係する合成パラメータとを含む請求項1ないし5
    の何れか1項記載の装置。
  7. 【請求項7】 帯域制限された言語信号を受取るように接続されたピッチ抽
    出手段がであって、スペクトル信号が有声音の言語を表わして、受取られた帯域
    制限された言語信号のピッチに対応するピッチ周波数値を与える場合に; コードブック周波数値の組のいくつかはピッチに関係する周波数値を含み; スペクトル信号が有声音の言語を表わす場合に、ルックアップ手段が前記ピ
    ッチ周波数値にも近いコードブック周波数値の組に対応している要求された合成
    パラメータの組を抽出するようにされているピッチ抽出手段をさらに含む請求項
    1ないし6の何れか1項記載の装置。
  8. 【請求項8】 帯域制限された言語信号から言語を合成する方法であって、 帯域制限された信号からスペクトル信号を抽出することと; スペクトル信号の所定の周波数範囲をサーチして、前記スペクトル信号内に
    ピークの周波数に対応する1組のピーク周波数の出力値を与えることと; 各コードブックエントリが1組のコードブック周波数値および1組の対応する
    合成パラメータとを含んでいる、複数のコードブックエントリを含むコードブッ
    クエントリにアクセスすることと; 前記ピーク周波数値の組に近いコードブック周波数値の組に対応する要求さ
    れる合成パラメータの組を判断することと; 前記要求された合成パラメータの組を使用して言語を合成することとを含む
    方法。
  9. 【請求項9】 コードブック合成パラメータの組が、合成された言語のスペ
    クトル内のピーク振幅に関係する合成パラメータを含み、ピーク周波数が所定の
    周波数範囲外である請求項8記載の方法。
  10. 【請求項10】 コードブック合成パラメータの組が、合成された言語のス
    ペクトル内のピーク周波数に関係する合成パラメータを含み、ピーク周波数が所
    定の周波数範囲外である請求項8または9記載の装置。
  11. 【請求項11】 前記スペクトル信号内のピークがピーク周波数の出力値の
    組が複数のピーク周波数出力値を含み、コードブック周波数値の組の幾つかが複
    数のコードブック周波数値を含む場合に請求項8ないし10のいずれか1項記載 の方法。
  12. 【請求項12】 コードブック合成パラメータの組が、 3つの合成パラメータを含み、各パラメータが合成された言語のスペクトル
    内に、所定の周波数範囲の上方帯域制限よりも高い周波数である高周波数ピーク
    の振幅に関係する請求項8ないし11の何れか1項記載の方法。
  13. 【請求項13】 コードブック合成パラメータの組が、 合成された言語のスペクトル内に、所定の周波数範囲の下方帯域制限よりも
    低い周波数である低周波数ピークの周波数に関係する合成パラメータと; 低周波数ピークの振幅に関係する合成パラメータとを含む請求項8ないし1
    2の何れか1項記載の方法。
  14. 【請求項14】 コードブック周波数値の組のいくつかが、ピッチに関係す
    る周波数値を含み; スペクトル信号が有声音の言語を表わすとき、スペクトル信号のピッチに対
    応するピッチ周波数値を使用して、前記ピッチ周波数値にも近いコードブック周
    波数値の組に対応している要求された合成パラメータの組を判断する請求項8な
    いし13のいずれか1項記載の方法。
JP2000538347A 1998-03-25 1999-03-17 狭帯域言語信号からの広帯域言語合成 Expired - Fee Related JP4624552B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP98302280A EP0945852A1 (en) 1998-03-25 1998-03-25 Speech synthesis
EP98302280.7 1998-03-25
PCT/GB1999/000819 WO1999049454A1 (en) 1998-03-25 1999-03-17 Wideband speech synthesis from a narrowband speech signal

Publications (2)

Publication Number Publication Date
JP2002508526A true JP2002508526A (ja) 2002-03-19
JP4624552B2 JP4624552B2 (ja) 2011-02-02

Family

ID=8234735

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000538347A Expired - Fee Related JP4624552B2 (ja) 1998-03-25 1999-03-17 狭帯域言語信号からの広帯域言語合成

Country Status (5)

Country Link
US (1) US6691083B1 (ja)
EP (2) EP0945852A1 (ja)
JP (1) JP4624552B2 (ja)
DE (1) DE69901606T2 (ja)
WO (1) WO1999049454A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013508783A (ja) * 2009-10-23 2013-03-07 クゥアルコム・インコーポレイテッド 狭帯域信号から「より上の帯域」の信号を決定すること
JP2017517029A (ja) * 2014-04-30 2017-06-22 クゥアルコム・インコーポレイテッドQualcomm Incorporated 高帯域励起信号生成

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2357682B (en) * 1999-12-23 2004-09-08 Motorola Ltd Audio circuit and method for wideband to narrowband transition in a communication device
US6704711B2 (en) 2000-01-28 2004-03-09 Telefonaktiebolaget Lm Ericsson (Publ) System and method for modifying speech signals
FI119576B (fi) 2000-03-07 2008-12-31 Nokia Corp Puheenkäsittelylaite ja menetelmä puheen käsittelemiseksi, sekä digitaalinen radiopuhelin
DE10041512B4 (de) * 2000-08-24 2005-05-04 Infineon Technologies Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
US20020128839A1 (en) * 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
DE60117471T2 (de) * 2001-01-19 2006-09-21 Koninklijke Philips Electronics N.V. Breitband-signalübertragungssystem
JP4747434B2 (ja) * 2001-04-18 2011-08-17 日本電気株式会社 音声合成方法、音声合成装置、半導体装置及び音声合成プログラム
DE50104998D1 (de) * 2001-05-11 2005-02-03 Siemens Ag Verfahren zur erweiterung der bandbreite eines schmalbandig gefilterten sprachsignals, insbesondere eines von einem telekommunikationsgerät gesendeten sprachsignals
JP2003044098A (ja) * 2001-07-26 2003-02-14 Nec Corp 音声帯域拡張装置及び音声帯域拡張方法
DE50113277D1 (de) * 2001-09-28 2007-12-27 Nokia Siemens Networks Spa Sprachextender und verfahren zum schätzen eines breitbandigen sprachsignals anhand eines schmalbandigen sprachsignals
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
US6988066B2 (en) * 2001-10-04 2006-01-17 At&T Corp. Method of bandwidth extension for narrow-band speech
US20040064324A1 (en) * 2002-08-08 2004-04-01 Graumann David L. Bandwidth expansion using alias modulation
JP3879922B2 (ja) 2002-09-12 2007-02-14 ソニー株式会社 信号処理システム、信号処理装置および方法、記録媒体、並びにプログラム
JP4433668B2 (ja) 2002-10-31 2010-03-17 日本電気株式会社 帯域拡張装置及び方法
DE10252070B4 (de) * 2002-11-08 2010-07-15 Palm, Inc. (n.d.Ges. d. Staates Delaware), Sunnyvale Kommunikationsendgerät mit parametrierter Bandbreitenerweiterung und Verfahren zur Bandbreitenerweiterung dafür
JP4311034B2 (ja) * 2003-02-14 2009-08-12 沖電気工業株式会社 帯域復元装置及び電話機
CN1954363B (zh) * 2004-05-19 2011-10-12 松下电器产业株式会社 编码装置和编码方法
US8249861B2 (en) * 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
US8086451B2 (en) 2005-04-20 2011-12-27 Qnx Software Systems Co. System for improving speech intelligibility through high frequency compression
US7813931B2 (en) * 2005-04-20 2010-10-12 QNX Software Systems, Co. System for improving speech quality and intelligibility with bandwidth compression/expansion
US8311840B2 (en) * 2005-06-28 2012-11-13 Qnx Software Systems Limited Frequency extension of harmonic signals
KR100717058B1 (ko) * 2005-11-28 2007-05-14 삼성전자주식회사 고주파 성분 복원 방법 및 그 장치
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
US7912729B2 (en) 2007-02-23 2011-03-22 Qnx Software Systems Co. High-frequency bandwidth extension in the time domain
US8041577B2 (en) * 2007-08-13 2011-10-18 Mitsubishi Electric Research Laboratories, Inc. Method for expanding audio signal bandwidth
BRPI0910528B1 (pt) * 2008-07-11 2020-09-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Instrumento e método para geração de sinal estendido de largura de banda
USRE47180E1 (en) 2008-07-11 2018-12-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a bandwidth extended signal
US8880410B2 (en) 2008-07-11 2014-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a bandwidth extended signal
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
CN102456375B (zh) 2010-10-28 2015-01-21 鸿富锦精密工业(深圳)有限公司 音频设备及音频信号的标识信息加载方法
TWI408676B (zh) * 2010-11-01 2013-09-11 Hon Hai Prec Ind Co Ltd 音訊設備及音訊訊號的標識資訊載入方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5675700A (en) * 1979-11-09 1981-06-22 Philips Nv Voice synthesizer
JPS61137200A (ja) * 1984-12-07 1986-06-24 株式会社日立製作所 音声認識方式
JPH0756599A (ja) * 1993-08-17 1995-03-03 Nippon Telegr & Teleph Corp <Ntt> 広帯域音声信号復元方法
JPH08123495A (ja) * 1994-10-28 1996-05-17 Mitsubishi Electric Corp 広帯域音声復元装置
JPH08123484A (ja) * 1994-10-28 1996-05-17 Matsushita Electric Ind Co Ltd 信号合成方法および信号合成装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5850360B2 (ja) * 1978-05-12 1983-11-10 株式会社日立製作所 音声認識装置における前処理方法
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
EP0243562B1 (en) * 1986-04-30 1992-01-29 International Business Machines Corporation Improved voice coding process and device for implementing said process
US5023910A (en) * 1988-04-08 1991-06-11 At&T Bell Laboratories Vector quantization in a harmonic speech coding arrangement
CA2067379C (en) * 1989-10-06 1998-05-26 Thomas Vaupel Process for transmitting a signal
US5293449A (en) * 1990-11-23 1994-03-08 Comsat Corporation Analysis-by-synthesis 2,4 kbps linear predictive speech codec
US5504833A (en) * 1991-08-22 1996-04-02 George; E. Bryan Speech approximation using successive sinusoidal overlap-add models and pitch-scale modifications
US5327518A (en) * 1991-08-22 1994-07-05 Georgia Tech Research Corporation Audio analysis/synthesis system
JP2779886B2 (ja) 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
US5933808A (en) * 1995-11-07 1999-08-03 The United States Of America As Represented By The Secretary Of The Navy Method and apparatus for generating modified speech from pitch-synchronous segmented speech waveforms
JPH10124088A (ja) * 1996-10-24 1998-05-15 Sony Corp 音声帯域幅拡張装置及び方法
US6041297A (en) * 1997-03-10 2000-03-21 At&T Corp Vocoder for coding speech by using a correlation between spectral magnitudes and candidate excitations
JP4132154B2 (ja) * 1997-10-23 2008-08-13 ソニー株式会社 音声合成方法及び装置、並びに帯域幅拡張方法及び装置
US6006179A (en) * 1997-10-28 1999-12-21 America Online, Inc. Audio codec using adaptive sparse vector quantization with subband vector classification
US6311154B1 (en) * 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5675700A (en) * 1979-11-09 1981-06-22 Philips Nv Voice synthesizer
JPS61137200A (ja) * 1984-12-07 1986-06-24 株式会社日立製作所 音声認識方式
JPH0756599A (ja) * 1993-08-17 1995-03-03 Nippon Telegr & Teleph Corp <Ntt> 広帯域音声信号復元方法
JPH08123495A (ja) * 1994-10-28 1996-05-17 Mitsubishi Electric Corp 広帯域音声復元装置
JPH08123484A (ja) * 1994-10-28 1996-05-17 Matsushita Electric Ind Co Ltd 信号合成方法および信号合成装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013508783A (ja) * 2009-10-23 2013-03-07 クゥアルコム・インコーポレイテッド 狭帯域信号から「より上の帯域」の信号を決定すること
JP2017517029A (ja) * 2014-04-30 2017-06-22 クゥアルコム・インコーポレイテッドQualcomm Incorporated 高帯域励起信号生成

Also Published As

Publication number Publication date
WO1999049454A1 (en) 1999-09-30
JP4624552B2 (ja) 2011-02-02
DE69901606D1 (de) 2002-07-04
EP1064648A1 (en) 2001-01-03
US6691083B1 (en) 2004-02-10
DE69901606T2 (de) 2002-12-05
EP0945852A1 (en) 1999-09-29
EP1064648B1 (en) 2002-05-29

Similar Documents

Publication Publication Date Title
JP4624552B2 (ja) 狭帯域言語信号からの広帯域言語合成
US4827516A (en) Method of analyzing input speech and speech analysis apparatus therefor
EP0970466B1 (en) Voice conversion
JP3277398B2 (ja) 有声音判別方法
EP1588354B1 (en) Method and apparatus for speech reconstruction
JP2002516420A (ja) 音声コーダ
WO2002056301A1 (en) Speech bandwidth extension
JPH10124088A (ja) 音声帯域幅拡張装置及び方法
JP2012083722A (ja) 音声処理装置
JPH09281996A (ja) 有声音/無声音判定方法及び装置、並びに音声符号化方法
CN112270934B (zh) 一种nvoc低速窄带声码器的语音数据处理方法
JPH1097274A (ja) 話者認識方法及び装置
JP5573529B2 (ja) 音声処理装置およびプログラム
JP4603727B2 (ja) 音響信号分析方法及び装置
JP3230782B2 (ja) 広帯域音声信号復元方法
CN112233686B (zh) Nvocplus高速宽带声码器的语音数据处理方法
KR101352608B1 (ko) 음성 신호의 대역폭 확장 방법 및 그 장치
Alcaraz Meseguer Speech analysis for automatic speech recognition
JPH06202695A (ja) 音声信号処理装置
Ye Efficient Approaches for Voice Change and Voice Conversion Systems
KR101047668B1 (ko) 선율조절 방법 및 그 장치
JPH08160993A (ja) 音声分析合成器
JPH0744194A (ja) 高能率符号化方法
JPS61198300A (ja) 音声の標準化の方法および装置
JPS5912199B2 (ja) 音声パラメ−タの修正方式

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050802

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081202

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090302

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090309

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090401

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090408

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090430

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100223

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100616

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100701

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101005

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101104

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131112

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees