JP2002508526A - 狭帯域言語信号からの広帯域言語合成 - Google Patents
狭帯域言語信号からの広帯域言語合成Info
- Publication number
- JP2002508526A JP2002508526A JP2000538347A JP2000538347A JP2002508526A JP 2002508526 A JP2002508526 A JP 2002508526A JP 2000538347 A JP2000538347 A JP 2000538347A JP 2000538347 A JP2000538347 A JP 2000538347A JP 2002508526 A JP2002508526 A JP 2002508526A
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- language
- peak
- codebook
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Abstract
Description
えば公衆交換電話ネットワークを経由して伝送される言語信号からの広帯域言語
の合成に関する。
限されたその信号との間に相関関係があるという判断に基いている。この相関が
原因で、帯域制限された言語信号の帯域幅内からの言語を使用して、失われてい
るもとの広帯域言語信号を予測することができる。無声音よりも有声音の方がよ
りよい相関関係にある。
ングプロセスを使用して、狭帯域入力信号から失われている信号の推定を生成で
きる変換(形式変換)を定めている。一般的に、狭帯域信号の表示と要求される
広帯域信号の表示との間の相関関係を規定するトレーニング段階中にルックアッ
プ表が構成される。ルックアップ表は、実際の狭帯域スペクトルから推定される
広帯域スペクトルへ変換を行うのに使用することができる。狭帯域言語信号から
広帯域言語信号を生成するために、受取られた狭帯域言語が解析され、ルックア
ップ表内の最も近い表示が識別される。対応する広帯域信号表示を使用して、要
求される広帯域信号を合成する。広帯域信号の全体を合成するか、またはもとの
狭帯域信号を、狭帯域信号の帯域幅外で合成信号へ加えてもよい。
econstructing a wideband speech signal’)では、線形予測コーディング(L
PC)解析を使用して、このようなルックアップ表を構成し、広帯域トレーニン
グ言語のスペクトルを特徴付ける。LPC係数は広帯域トレーニング信号から抽
出される。これらの広帯域のLPC係数は広帯域コードワードからクラスタ化さ
れる。広帯域トレーニング信号は帯域フィルタで処理されて、帯域幅制限された
信号を供給し、そのスペクトルもLPC解析を使用して特徴付けられる。こうし
て得られた狭帯域のLPC係数は対応する広帯域コードワードは対応する広帯域
コードワードと対にされて、各広帯域コードワードごとに対応する狭帯域係数の
組を平均化して、狭帯域コードワードを形成する。したがって狭帯域信号および
広帯域信号の両方を1組のLPC係数によって表わされる。LPC係数からの広 帯域信号の合成は、従来の技術を使用して行われる。別のシステム(アベおよび
ヨシダによる日本国特許出願第7-56559号明細書(‘Method for reconstructing
a wideband speech signal))では広帯域信号は言語波形によって表わされ、 広帯域信号の合成は言語波形の連結によって達成される。
て: 帯域制限された信号からスペクトル信号を抽出する手段と; 前記スペクトル信号を受取り、所定の周波数範囲をサーチして、前記スペク
トル信号内の1以上のピークの周波数に対応する1組の1以上のピーク周波数出力 値を供給するようにされているピークピッキング手段(peak-picking means)と; 複数のコードブックエントリを含み、各コードブックエントリが、1組の1以
上のコードブック周波数値および1組の1以上の対応する合成パラメータとから成
るコードブック手段と; 前記ピーク周波数値の組を受取るようにされていて、かつコードブック手段
にアクセスして、前記ピーク周波数値の組に近いコードブック周波数値の組に対
応する要求された合成パラメータの組を抽出するようにされているルックアップ
表と; 要求された合成パラメータの組を受取り、前記要求された合成パラメータの
組を使用して言語を生成するようにされている言語合成手段とを含む装置を提供
する。
振幅に関係する合成パラメータを含み、ピーク周波数が所定の周波数範囲外であ
ってもよい。
周波数に関係する合成パラメータを含み、ピーク周波数が所定の周波数範囲外で
あってもよい。
1以上のピークを認識することができ、このような場合に複数のピーク周波数出 力値を含む組を用意し、コードブック周波数値の組のいくつかが複数のコードブ
ック周波数値を含む。
において高周波数ピークの振幅に関係し、高周波数ピークの周波数が所定の周波
数範囲の上方帯域制限よりも高い周波数である。
低い周波数である低周波数ピークの周波数に関係する合成パラメータと; 低周波数ピークの振幅に関係する合成パラメータとを含む。
続でき、スペクトル信号が有声音の言語を表わして、受取られた帯域制限された
言語信号のピッチに対応するピッチ周波数値を与える場合に; コードブック周波数値の組のいくつかがピッチに関係する周波数値を含み; スペクトル信号が有声音の言語を表わす場合に、ルックアップ手段が、さら
に前記ピッチ周波数値にも近いコードブック周波数値の組に対応している要求さ
れた合成パラメータの組を抽出するようにされている。
える。声帯管(vocal tract)の性質が原因となって、声帯および鼻腔の形状に起 因する拘束条件と筋肉の物理的な限界に起因する拘束条件とは、有声音では、ホ
ルマントの周波数が声帯管の形状に関して良好な表示を与えることを条件として
いる。したがって有声音では、既知の狭帯域言語信号におけるホルマントは、狭
帯域言語信号の帯域幅外の何れのホルマントについての位置の良好な表示である
。
、例えばディジタル電話ネットワーク、またはディジタル対アナログコンバータ
から受取られる。本明細書に記載した本発明の実施形態は、電話帯域幅言語信号
から広帯域言語を合成するように設計されているので、受取られた言語の帯域幅
は300Hzないし3.4KHz内である。スペクトル信号は、それぞれが多数
の隣合う連続するディジタルサンプルを表わしており、ディジタル狭帯域言語か
ら導き出される。例えば言語サンプルは毎秒8000サンプルのレートで受取る
ことができ、スペクトル信号は256の隣合う連続する言語サンプルのフレーム
を表わすことができ、したがって32msである。スペクトル信号は1組のスペ クトル値を含み、各スペクトル値は特定の周波数値に対応する。各フレームは、
例えばハミングウインドウを使用してウインドウ処理され(すなわち、サンプル
は所定の重付け定数によって逓倍される)、フレームのエッジによって生成され
た寄生の人為構造(spurious artefacts)を低減することが好ましい。好ましい実
施形態では、フレームは、例えば50%だけ重なり合って、16msごとに1フ レームを用意する。本明細書に記載した本発明の実施形態では、スペクトル信号
は各フレームに対して実行される高速フーリエ変換(FFT)によって得られ、
したがって周波数値の範囲ごとに信号値を与え、この信号は各値の対数を計算す
る前に整流される(すなわち、各値の大きさが使用される)。したがって生成さ
れたスペクトル信号は狭帯域信号のスペクトルの対数を表わす。スペクトル信号
抽出器1は適切にプログラムされたディジタル信号プロセッサ(DSP)によっ
て生成することができる。
ッカー2はスペクトル信号内で1以上のピークをサーチし、識別されたピークの
周波数値を出力として与える。サーチされるピーク数は、とりわけ受取られた帯
域幅言語信号の帯域幅に依存する。識別されるピーク数はサーチされるピーク数
以下であってもよいことが認識されるであろう。本明細書に記載した実施形態で
はスペクトル信号内の3つのピークの周波数(F1、F2、およびF3)がサー
チされる。これらの3つのピークは、言語信号内の最初の3つのホルマントに対
応することが意図されている。ピークは、このピークに近い周波数値のスペクト
ル値よりも高いスペクトル値をもつ周波数値として規定してもよい。ウインドウ
の大きさは、スペクトル値が比較される周波数値の数を与えるように定めてもよ
い。例えば、ウインドウの大きさが3つある場合に、周波数値のスペクトル値が
次に小さい周波数値のスペクトル値よりも大きく、次に大きい周波数値のスペク
トル値よりも大きいときに、これがピークであると定められる。ウインドウの大
きさが5つある場合は、周波数値のスペクトル値は2つの次に小さい周波数値の
スペクトル値よりも大きく、2つの次に大きい周波数値のスペクトル値よりも大
きいとき、これがピークであると定められる。他のウインドウの大きさを使用す
ることができる。スペクトル信号内にピークがあると予測される周波数範囲であ
って、各周波数範囲内で最高のスペクトル値をもつ周波数が識別されるように周
波数範囲を定めることができる。これらの範囲外のピークは無視してもよい。ピ
ークピッカーは適切にプログラムされたマイクロプロセッサチップを使用して、
またはDSPチップを使用する場合はスペクトル信号抽出器を構成するのに使用
されるのと同じDSPを使ったDSPチップによって構成してもよい。
クトル信号内に1以上の周波数値の組を受取る。コードブックメモリ4は、標準 のランダムアクセス(RAM)チップを使用して構成することができ、コードブ
ックメモリ4は各組が1以上の周波数値を含み、各組が1以上の合成器パラメー タを含む組に対応する組を複数もっている。ユークリッド距離のような測定値を
使用して、1組のコードブック測定値が受取られた組に近いことを判断する。合 成器パラメータの対応する組が抽出され、言語合成器5へ送られる。本明細書に
記載した実施形態において、使用される合成パラメータには、本明細書中でA4
、A5、およびA6と呼ばれる3つの振幅パラメータがあり、これらのパリティ
はそれぞれ周波数4350Hz、5400Hz、および7000Hzに中心を置
く3つの高周波数ホルマントの振幅を定め、さらに本明細書ではFNおよびAN
と呼ばれる、周波数および振幅のパラメータの対もあり、これらのパラメータは
300Hzよりも幾らか低い周波数をもつ合成ホルマントの周波数および振幅を
定める。このような低周波数ホルマントは普通、鼻腔の共振によって言語内に存
在する。
重要な言語信号の属性の知識に基づいて選択された。例えば、人間の耳は第4、
第5、および第6のホルマントの精密な周波数を知覚しないが、これらのホルマ
ントの振幅は知覚上重要であることが証明された。したがって本発明のこの実施
形態において、これらのホルマントの周波数は固定され、振幅パラメータA4、
A5、およびA6が狭帯域スペクトル成分に基いて選択される。
波数パラメータF0を要求する。有声音言語(例えば、母音)の中で、言語信号
は、発話者の音声のピッチに依存する低周波数信号によって変調され、所定の発
話者の特徴を相当に表わす。無声音の言語(例えば“sh”)の中では、このよ
うな変調はない。
言う)17によって生成される。ピッチ周波数パラメータF0は、スペクトル信号
抽出器1から受取られるスペクトルの対数に対して逆FFTを実行することによ
って生成することができる。その代わりに、スペクトルが実数であるとき、スペ
クトル信号に対して離散的余弦変換(DCT)を実行するのに十分である。何れ
の技術でも、各々がクフレンシイ(周波数対応値:quefrency)に対応するケプ ストラム値の組を含むケプストラム信号(cepstral signal)を生成する。発話の ピッチはケプストラム信号のピークとして現れ、既に記載したアルゴリズムのよ
うなピークピッキングアルゴリズムを使用して検出できる。ケプストラム値が負
のときは、信号のピークを検出するには、ケプストラム値の大きさを使用するか
、またはケプストラム値を平方する。所定の閾値を越える大きさをもつケプスト
ラム値をもたないとき、信号は無声音であると考えられ、ピッチ周波数パラメー
タF0を示す信号に加えて、ピッチ検出器17は、ケプストラム信号が対応する言
語のフレームが有声音か無声音かを示す二値信号を供給することができる。ケプ
ストラム内でこのようなピークをサーチするとき、正規のピッチをもつ言語の周
波数範囲に対応するクフレンシイ範囲内のケプストラム値を検討することのみが
必要である。
装置の第2の実施形態を示す。コードブック周波数値の組は周波数値F1、F2
、F3と、さらにピッチ周波数値F0とを含む。
波数が非常に異なる言語の発話、例えば男性と女性の発話は、帯域制限された言
語のホルマントと帯域幅の制限されていないホルマントとの間の異なる相互関係
を示すことができるので、コードブック周波数値の組内にピッチ周波数パラメー
タを含むことが効果的である。さらに有声音の発話は、帯域制限されたスペクト
ルと広帯域スペクトルとの間の異なる関係を、無声音の発話によって示される関
係に示す。
用して広帯域言語を合成するシンセサイザが示されており、ここで図3を参照し
て図1の合成器5の動作を記載することにする。図3のシンセサイザ5は、並行
ホルマント合成の周知の原理に基づいているが、この場合は帯域制限されていな
い信号周波数のみが合成される。このような合成器の動作原理は、言語が実質的
に分離可能な励起関数によってドライブされる時間で変化するフィルタ9の出力
であると考えられる言語生成のモデルに基づいている。励起関数は一般的に、2
つの励起源、無声音の励起発生器10、および有声音の励起発生器11を使用して与
えられる。無声音の励起発生器10はホワイトノイズにかなり類似した信号を供給
し、有声音の励起発生器11はピッチ周波数パラメータF0によって制御され、励
起発生器によって供給される波形の周波数を判断する。ピッチ周波数発生器F0
は、図1のピッチ抽出器17によって狭帯域言語信号から抽出される。時間で変化
するフィルタ9は並列共振器12、13、14、15のネットワークによって与えられる
。
ることができ、励起の度合いは‘音声制御(voicing control)’パラメータによ って制御される。しかしながら従来のホルマント合成器において、このようなパ
ラメータは普通二値数であり、各音声制御パラメータはその相手に対して別の値
に設定される。本明細書に記載した実施形態において、有声音の励起発生器11は
、ピッチ抽出器17によって狭帯域幅言語から生成されるピッチ周波数パラメータ
F0によって制御される。有声音の励起発生器は共振器15に接続され、この中心
周波数はコードブック合成パラメータFNを使用して制御される。励起信号の振
幅はコードブック合成パラメータANによって制御され、ANは逓倍器43におい
て励起信号によって逓倍される。この実施形態ではFNに中心を置く共振器の帯
域幅は、5/6FNから1/6FNであると定められる。例えばFNが250H
zであるとき、6dB低くなり、上方の遮断周波数はそれぞれ約208Hzおよ
び292Hzで発生する。無声音の励起発生器10は共振器12、13、および14に接
続され、共振器12、13、および14を使用して、それぞれ4350Hz,5400
Hz、および7000Hzに中心を置く3つの高周波数ホルマントをシミュレー
トする。共振器12は3870ないし4820Hzの帯域幅をもち、励起信号の振
幅は、逓倍器40において励起信号によって逓倍されるコードブック合成パラメー
タA4によって制御される。共振器13は、4820Hzないし6020Hzの帯
域幅をもち、励起信号の振幅は、逓倍器41において励起信号によって逓倍され
るコードブック合成パラメータA5によって制御される。共振器14は6020H
zないし7940Hzの帯域幅をもち、励起信号の振幅は逓倍器42において励起
信号によって逓倍されるコードブック合成パラメータA6によって制御される。
器17によって狭帯域信号から発生されず、有声音の励起発生器11によって共振器
15へ供給されない。しかしながら共振器12、13、14は狭帯域信号が有声音であっ
ても、無声音であっても、無声音の励起発生器10によってドライブされる。共振
器12、13、14、15からの信号と、受取られた狭帯域言語信号とは加算器18におい
て加算され、合成された広帯域言語信号を用意する。
共振器15に接続され、スイッチ16はピッチ抽出器17から受取られる有声音/無声
音の二値信号によって制御される。共振器15へ与えられる励起はこの第2の二値
信号の値に依存する。励起は有声音の狭い帯域言語の場合は有声音の励起発生器
11によって、無声音の狭帯域言語の場合は無声音の励起発生器10によって共振器
15へ供給される。
は変調されて、変調された合成器5’を追加の信号周波数値F1、F2、および
F3へ追加の信号振幅値A1、A2、およびA3と一緒に供給できることが認識
されるであろう。周波数信号値を使用して、予備の共振器30、31、および32を制
御し、振幅値を使用して、逓倍器33、34、および35を介して有声音励起信号の振
幅を制御する。
えられるコードブック周波数値F1、F2、およびF3を合成器5’に供給して
もよい。しかしながら、振幅値A1、A2、およびA3は依然として変調された
ピークピッカーによって供給されなければならない。
ィジタル広帯域言語信号は多数のフィルタ20、21、22、23、24によって受取られ
、帯域制限された信号を供給する。本明細書に記載された実施形態において、低
域フィルタ20は0ないし300Hzの低周波数スペクトル信号を供給し;帯域フ
ィルタ21はシンセサイザに与えられることになる信号に類似した、この場合は3
00Hzないし3.4KHzの狭帯域信号を供給し;帯域フィルタ22、23、およ
び24は3つの高周波数スペクトル信号の1つを、3つの高周波数ホルマント、こ の実施形態ではそれぞれ3870Hzないし4820Hz、4820Hzないし
6020Hz、および6020Hzないし7940Hzに使用される各周波数帯
域に供給する。各帯域制限されたスペクトル信号は、スペクトル信号抽出器1に
よって使用されるプロセスに類似のプロセスを使用して対応するスペクトル信号
抽出器50、51、52、53、または54によって解析される。ピークピッカー2’が取
付けられて、狭帯域信号を受取り、本明細書においてF1、F2、およびF3とし て知られている3つのコードブック周波数値が、図1を参照して前もって記載さ れたピークピッキングアルゴリズムを使用して判断される。ピークピッカー25は
、低周波数スペクトル信号を受取るように接続される。ピークピッカー25は、ピ
ークピッカー2’によって使用されるアルゴリズムに類似したアルゴリズムを使
用して低周波数スペクトル信号内で最も大きい、それぞれFNおよびANとして
知られているピーク周波数および振幅を判断する。3つのエネルギー判断部26、
27、28を使用して、それぞれフィルタ22、23、および24によって与えられる3つ
の高周波数スペクトル信号の平均振幅を測定する。本明細書においてA4、A5
、およびA6として知られている3つの平均振幅値を使用して、3つの高周波数
ホルマントの振幅の推定を与える。したがって図6の装置を使用して、広帯域言
語の各例に対して、3つのコードブック周波数値F1、F2、およびF3が与え
られ、5つの合成パラメータFN、AN、A4、A5、およびA6が与えられる
。もちろん、コードブックエントリをクラスタ化して、パラメータの例を表わす
より小さいコードブックを用意する。クラスタ化は、図1のシンセサイザにおけ
るコードブックサーチ速度を相当に速める。
ブック周波数値の組はピッチ周波数値F0を含み、F0は広帯域言語の発話のピ
ッチを表わし、スペクトル信号抽出器1’から信号を受取るピッチ抽出器17’を
使用して発生され、なおピッチ抽出器17’およびスペクトル信号抽出器1’は、
図1のピッチ抽出器17およびスペクトル信号抽出器1と類似のやり方で動作する
ことができる。
信号から広帯域言語を合成する装置の模式的なブロック図。
す図。
す図。
Claims (14)
- 【請求項1】 帯域制限された言語信号から言語を合成する装置であって: 帯域制限された信号からスペクトル信号を抽出する手段と; 前記スペクトル信号を受取り、所定の周波数範囲をサーチして、前記スペク
トル信号内のピークの周波数に対応する1組のピーク周波数出力値を供給するよ うにされているピークピッキング手段と; 複数のコードブックエントリを含み、各コードブックエントリが、1組のコ ードブック周波数値および1組の対応する合成パラメータとから成るコードブッ ク手段と; 前記ピーク周波数値の組を受取るようにされていて、かつコードブック手段
にアクセスして、前記ピーク周波数値の組に近いコードブック周波数値の組に対
応する要求された合成パラメータの組を抽出するルックアップ表と; 要求された合成パラメータの組を受取り、前記要求された合成パラメータの
組を使用して言語を生成するようにされている言語合成手段とを含む装置。 - 【請求項2】 コードブック合成パラメータの組が、合成された言語のスペ
クトル内のピーク振幅に関係する合成パラメータを含み、ピーク周波数が所定の
周波数範囲外である請求項1記載の装置。 - 【請求項3】 コードブック合成パラメータの組が、合成された言語のスペ
クトル内のピーク周波数に関係する合成パラメータを含み、ピーク周波数が所定
の周波数範囲外である請求項1または2記載の装置。 - 【請求項4】 ピークピッキング手段が前記スペクトル信号内にピークを認
識することができ、このような場合に複数のピーク周波数出力値を含む組を用意
し、コードブック周波数値の組のいくつかが複数のコードブック周波数値を含む
請求項1ないし3の何れか1項記載の装置。 - 【請求項5】 コードブック合成パラメータの組が、 3つの合成パラメータを含み、各パラメータが合成された言語のスペクトル
内で高周波数ピークの振幅に関係し、高周波数ピークの周波数が所定の周波数範
囲の上方帯域制限よりも高い周波数である請求項1ないし4の何れか1項記載の 装置。 - 【請求項6】 コードブック合成パラメータの組が、 合成された言語のスペクトル内に、所定の周波数範囲の下方帯域制限よりも
低い周波数である低周波数ピークの周波数に関係する合成パラメータと; 低周波数ピークの振幅に関係する合成パラメータとを含む請求項1ないし5
の何れか1項記載の装置。 - 【請求項7】 帯域制限された言語信号を受取るように接続されたピッチ抽
出手段がであって、スペクトル信号が有声音の言語を表わして、受取られた帯域
制限された言語信号のピッチに対応するピッチ周波数値を与える場合に; コードブック周波数値の組のいくつかはピッチに関係する周波数値を含み; スペクトル信号が有声音の言語を表わす場合に、ルックアップ手段が前記ピ
ッチ周波数値にも近いコードブック周波数値の組に対応している要求された合成
パラメータの組を抽出するようにされているピッチ抽出手段をさらに含む請求項
1ないし6の何れか1項記載の装置。 - 【請求項8】 帯域制限された言語信号から言語を合成する方法であって、 帯域制限された信号からスペクトル信号を抽出することと; スペクトル信号の所定の周波数範囲をサーチして、前記スペクトル信号内に
ピークの周波数に対応する1組のピーク周波数の出力値を与えることと; 各コードブックエントリが1組のコードブック周波数値および1組の対応する
合成パラメータとを含んでいる、複数のコードブックエントリを含むコードブッ
クエントリにアクセスすることと; 前記ピーク周波数値の組に近いコードブック周波数値の組に対応する要求さ
れる合成パラメータの組を判断することと; 前記要求された合成パラメータの組を使用して言語を合成することとを含む
方法。 - 【請求項9】 コードブック合成パラメータの組が、合成された言語のスペ
クトル内のピーク振幅に関係する合成パラメータを含み、ピーク周波数が所定の
周波数範囲外である請求項8記載の方法。 - 【請求項10】 コードブック合成パラメータの組が、合成された言語のス
ペクトル内のピーク周波数に関係する合成パラメータを含み、ピーク周波数が所
定の周波数範囲外である請求項8または9記載の装置。 - 【請求項11】 前記スペクトル信号内のピークがピーク周波数の出力値の
組が複数のピーク周波数出力値を含み、コードブック周波数値の組の幾つかが複
数のコードブック周波数値を含む場合に請求項8ないし10のいずれか1項記載 の方法。 - 【請求項12】 コードブック合成パラメータの組が、 3つの合成パラメータを含み、各パラメータが合成された言語のスペクトル
内に、所定の周波数範囲の上方帯域制限よりも高い周波数である高周波数ピーク
の振幅に関係する請求項8ないし11の何れか1項記載の方法。 - 【請求項13】 コードブック合成パラメータの組が、 合成された言語のスペクトル内に、所定の周波数範囲の下方帯域制限よりも
低い周波数である低周波数ピークの周波数に関係する合成パラメータと; 低周波数ピークの振幅に関係する合成パラメータとを含む請求項8ないし1
2の何れか1項記載の方法。 - 【請求項14】 コードブック周波数値の組のいくつかが、ピッチに関係す
る周波数値を含み; スペクトル信号が有声音の言語を表わすとき、スペクトル信号のピッチに対
応するピッチ周波数値を使用して、前記ピッチ周波数値にも近いコードブック周
波数値の組に対応している要求された合成パラメータの組を判断する請求項8な
いし13のいずれか1項記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP98302280A EP0945852A1 (en) | 1998-03-25 | 1998-03-25 | Speech synthesis |
EP98302280.7 | 1998-03-25 | ||
PCT/GB1999/000819 WO1999049454A1 (en) | 1998-03-25 | 1999-03-17 | Wideband speech synthesis from a narrowband speech signal |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002508526A true JP2002508526A (ja) | 2002-03-19 |
JP4624552B2 JP4624552B2 (ja) | 2011-02-02 |
Family
ID=8234735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000538347A Expired - Fee Related JP4624552B2 (ja) | 1998-03-25 | 1999-03-17 | 狭帯域言語信号からの広帯域言語合成 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6691083B1 (ja) |
EP (2) | EP0945852A1 (ja) |
JP (1) | JP4624552B2 (ja) |
DE (1) | DE69901606T2 (ja) |
WO (1) | WO1999049454A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013508783A (ja) * | 2009-10-23 | 2013-03-07 | クゥアルコム・インコーポレイテッド | 狭帯域信号から「より上の帯域」の信号を決定すること |
JP2017517029A (ja) * | 2014-04-30 | 2017-06-22 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | 高帯域励起信号生成 |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2357682B (en) * | 1999-12-23 | 2004-09-08 | Motorola Ltd | Audio circuit and method for wideband to narrowband transition in a communication device |
US6704711B2 (en) | 2000-01-28 | 2004-03-09 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for modifying speech signals |
FI119576B (fi) | 2000-03-07 | 2008-12-31 | Nokia Corp | Puheenkäsittelylaite ja menetelmä puheen käsittelemiseksi, sekä digitaalinen radiopuhelin |
DE10041512B4 (de) * | 2000-08-24 | 2005-05-04 | Infineon Technologies Ag | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen |
US20020128839A1 (en) * | 2001-01-12 | 2002-09-12 | Ulf Lindgren | Speech bandwidth extension |
DE60117471T2 (de) * | 2001-01-19 | 2006-09-21 | Koninklijke Philips Electronics N.V. | Breitband-signalübertragungssystem |
JP4747434B2 (ja) * | 2001-04-18 | 2011-08-17 | 日本電気株式会社 | 音声合成方法、音声合成装置、半導体装置及び音声合成プログラム |
DE50104998D1 (de) * | 2001-05-11 | 2005-02-03 | Siemens Ag | Verfahren zur erweiterung der bandbreite eines schmalbandig gefilterten sprachsignals, insbesondere eines von einem telekommunikationsgerät gesendeten sprachsignals |
JP2003044098A (ja) * | 2001-07-26 | 2003-02-14 | Nec Corp | 音声帯域拡張装置及び音声帯域拡張方法 |
DE50113277D1 (de) * | 2001-09-28 | 2007-12-27 | Nokia Siemens Networks Spa | Sprachextender und verfahren zum schätzen eines breitbandigen sprachsignals anhand eines schmalbandigen sprachsignals |
US6895375B2 (en) * | 2001-10-04 | 2005-05-17 | At&T Corp. | System for bandwidth extension of Narrow-band speech |
US6988066B2 (en) * | 2001-10-04 | 2006-01-17 | At&T Corp. | Method of bandwidth extension for narrow-band speech |
US20040064324A1 (en) * | 2002-08-08 | 2004-04-01 | Graumann David L. | Bandwidth expansion using alias modulation |
JP3879922B2 (ja) | 2002-09-12 | 2007-02-14 | ソニー株式会社 | 信号処理システム、信号処理装置および方法、記録媒体、並びにプログラム |
JP4433668B2 (ja) | 2002-10-31 | 2010-03-17 | 日本電気株式会社 | 帯域拡張装置及び方法 |
DE10252070B4 (de) * | 2002-11-08 | 2010-07-15 | Palm, Inc. (n.d.Ges. d. Staates Delaware), Sunnyvale | Kommunikationsendgerät mit parametrierter Bandbreitenerweiterung und Verfahren zur Bandbreitenerweiterung dafür |
JP4311034B2 (ja) * | 2003-02-14 | 2009-08-12 | 沖電気工業株式会社 | 帯域復元装置及び電話機 |
CN1954363B (zh) * | 2004-05-19 | 2011-10-12 | 松下电器产业株式会社 | 编码装置和编码方法 |
US8249861B2 (en) * | 2005-04-20 | 2012-08-21 | Qnx Software Systems Limited | High frequency compression integration |
US8086451B2 (en) | 2005-04-20 | 2011-12-27 | Qnx Software Systems Co. | System for improving speech intelligibility through high frequency compression |
US7813931B2 (en) * | 2005-04-20 | 2010-10-12 | QNX Software Systems, Co. | System for improving speech quality and intelligibility with bandwidth compression/expansion |
US8311840B2 (en) * | 2005-06-28 | 2012-11-13 | Qnx Software Systems Limited | Frequency extension of harmonic signals |
KR100717058B1 (ko) * | 2005-11-28 | 2007-05-14 | 삼성전자주식회사 | 고주파 성분 복원 방법 및 그 장치 |
US7546237B2 (en) * | 2005-12-23 | 2009-06-09 | Qnx Software Systems (Wavemakers), Inc. | Bandwidth extension of narrowband speech |
US7912729B2 (en) | 2007-02-23 | 2011-03-22 | Qnx Software Systems Co. | High-frequency bandwidth extension in the time domain |
US8041577B2 (en) * | 2007-08-13 | 2011-10-18 | Mitsubishi Electric Research Laboratories, Inc. | Method for expanding audio signal bandwidth |
BRPI0910528B1 (pt) * | 2008-07-11 | 2020-09-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Instrumento e método para geração de sinal estendido de largura de banda |
USRE47180E1 (en) | 2008-07-11 | 2018-12-25 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating a bandwidth extended signal |
US8880410B2 (en) | 2008-07-11 | 2014-11-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating a bandwidth extended signal |
US9798653B1 (en) * | 2010-05-05 | 2017-10-24 | Nuance Communications, Inc. | Methods, apparatus and data structure for cross-language speech adaptation |
CN102456375B (zh) | 2010-10-28 | 2015-01-21 | 鸿富锦精密工业(深圳)有限公司 | 音频设备及音频信号的标识信息加载方法 |
TWI408676B (zh) * | 2010-11-01 | 2013-09-11 | Hon Hai Prec Ind Co Ltd | 音訊設備及音訊訊號的標識資訊載入方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5675700A (en) * | 1979-11-09 | 1981-06-22 | Philips Nv | Voice synthesizer |
JPS61137200A (ja) * | 1984-12-07 | 1986-06-24 | 株式会社日立製作所 | 音声認識方式 |
JPH0756599A (ja) * | 1993-08-17 | 1995-03-03 | Nippon Telegr & Teleph Corp <Ntt> | 広帯域音声信号復元方法 |
JPH08123495A (ja) * | 1994-10-28 | 1996-05-17 | Mitsubishi Electric Corp | 広帯域音声復元装置 |
JPH08123484A (ja) * | 1994-10-28 | 1996-05-17 | Matsushita Electric Ind Co Ltd | 信号合成方法および信号合成装置 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5850360B2 (ja) * | 1978-05-12 | 1983-11-10 | 株式会社日立製作所 | 音声認識装置における前処理方法 |
US4885790A (en) * | 1985-03-18 | 1989-12-05 | Massachusetts Institute Of Technology | Processing of acoustic waveforms |
EP0243562B1 (en) * | 1986-04-30 | 1992-01-29 | International Business Machines Corporation | Improved voice coding process and device for implementing said process |
US5023910A (en) * | 1988-04-08 | 1991-06-11 | At&T Bell Laboratories | Vector quantization in a harmonic speech coding arrangement |
CA2067379C (en) * | 1989-10-06 | 1998-05-26 | Thomas Vaupel | Process for transmitting a signal |
US5293449A (en) * | 1990-11-23 | 1994-03-08 | Comsat Corporation | Analysis-by-synthesis 2,4 kbps linear predictive speech codec |
US5504833A (en) * | 1991-08-22 | 1996-04-02 | George; E. Bryan | Speech approximation using successive sinusoidal overlap-add models and pitch-scale modifications |
US5327518A (en) * | 1991-08-22 | 1994-07-05 | Georgia Tech Research Corporation | Audio analysis/synthesis system |
JP2779886B2 (ja) | 1992-10-05 | 1998-07-23 | 日本電信電話株式会社 | 広帯域音声信号復元方法 |
US5933808A (en) * | 1995-11-07 | 1999-08-03 | The United States Of America As Represented By The Secretary Of The Navy | Method and apparatus for generating modified speech from pitch-synchronous segmented speech waveforms |
JPH10124088A (ja) * | 1996-10-24 | 1998-05-15 | Sony Corp | 音声帯域幅拡張装置及び方法 |
US6041297A (en) * | 1997-03-10 | 2000-03-21 | At&T Corp | Vocoder for coding speech by using a correlation between spectral magnitudes and candidate excitations |
JP4132154B2 (ja) * | 1997-10-23 | 2008-08-13 | ソニー株式会社 | 音声合成方法及び装置、並びに帯域幅拡張方法及び装置 |
US6006179A (en) * | 1997-10-28 | 1999-12-21 | America Online, Inc. | Audio codec using adaptive sparse vector quantization with subband vector classification |
US6311154B1 (en) * | 1998-12-30 | 2001-10-30 | Nokia Mobile Phones Limited | Adaptive windows for analysis-by-synthesis CELP-type speech coding |
-
1998
- 1998-03-25 EP EP98302280A patent/EP0945852A1/en not_active Withdrawn
-
1999
- 1999-03-17 US US09/623,319 patent/US6691083B1/en not_active Expired - Lifetime
- 1999-03-17 EP EP99910515A patent/EP1064648B1/en not_active Expired - Lifetime
- 1999-03-17 WO PCT/GB1999/000819 patent/WO1999049454A1/en active IP Right Grant
- 1999-03-17 JP JP2000538347A patent/JP4624552B2/ja not_active Expired - Fee Related
- 1999-03-17 DE DE69901606T patent/DE69901606T2/de not_active Expired - Lifetime
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5675700A (en) * | 1979-11-09 | 1981-06-22 | Philips Nv | Voice synthesizer |
JPS61137200A (ja) * | 1984-12-07 | 1986-06-24 | 株式会社日立製作所 | 音声認識方式 |
JPH0756599A (ja) * | 1993-08-17 | 1995-03-03 | Nippon Telegr & Teleph Corp <Ntt> | 広帯域音声信号復元方法 |
JPH08123495A (ja) * | 1994-10-28 | 1996-05-17 | Mitsubishi Electric Corp | 広帯域音声復元装置 |
JPH08123484A (ja) * | 1994-10-28 | 1996-05-17 | Matsushita Electric Ind Co Ltd | 信号合成方法および信号合成装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013508783A (ja) * | 2009-10-23 | 2013-03-07 | クゥアルコム・インコーポレイテッド | 狭帯域信号から「より上の帯域」の信号を決定すること |
JP2017517029A (ja) * | 2014-04-30 | 2017-06-22 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | 高帯域励起信号生成 |
Also Published As
Publication number | Publication date |
---|---|
WO1999049454A1 (en) | 1999-09-30 |
JP4624552B2 (ja) | 2011-02-02 |
DE69901606D1 (de) | 2002-07-04 |
EP1064648A1 (en) | 2001-01-03 |
US6691083B1 (en) | 2004-02-10 |
DE69901606T2 (de) | 2002-12-05 |
EP0945852A1 (en) | 1999-09-29 |
EP1064648B1 (en) | 2002-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4624552B2 (ja) | 狭帯域言語信号からの広帯域言語合成 | |
US4827516A (en) | Method of analyzing input speech and speech analysis apparatus therefor | |
EP0970466B1 (en) | Voice conversion | |
JP3277398B2 (ja) | 有声音判別方法 | |
EP1588354B1 (en) | Method and apparatus for speech reconstruction | |
JP2002516420A (ja) | 音声コーダ | |
WO2002056301A1 (en) | Speech bandwidth extension | |
JPH10124088A (ja) | 音声帯域幅拡張装置及び方法 | |
JP2012083722A (ja) | 音声処理装置 | |
JPH09281996A (ja) | 有声音/無声音判定方法及び装置、並びに音声符号化方法 | |
CN112270934B (zh) | 一种nvoc低速窄带声码器的语音数据处理方法 | |
JPH1097274A (ja) | 話者認識方法及び装置 | |
JP5573529B2 (ja) | 音声処理装置およびプログラム | |
JP4603727B2 (ja) | 音響信号分析方法及び装置 | |
JP3230782B2 (ja) | 広帯域音声信号復元方法 | |
CN112233686B (zh) | Nvocplus高速宽带声码器的语音数据处理方法 | |
KR101352608B1 (ko) | 음성 신호의 대역폭 확장 방법 및 그 장치 | |
Alcaraz Meseguer | Speech analysis for automatic speech recognition | |
JPH06202695A (ja) | 音声信号処理装置 | |
Ye | Efficient Approaches for Voice Change and Voice Conversion Systems | |
KR101047668B1 (ko) | 선율조절 방법 및 그 장치 | |
JPH08160993A (ja) | 音声分析合成器 | |
JPH0744194A (ja) | 高能率符号化方法 | |
JPS61198300A (ja) | 音声の標準化の方法および装置 | |
JPS5912199B2 (ja) | 音声パラメ−タの修正方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050802 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081202 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20090302 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20090309 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20090401 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20090408 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090430 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100223 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100616 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20100701 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101005 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101104 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131112 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |