JPH04340600A - 音声復号化装置 - Google Patents
音声復号化装置Info
- Publication number
- JPH04340600A JPH04340600A JP11295491A JP11295491A JPH04340600A JP H04340600 A JPH04340600 A JP H04340600A JP 11295491 A JP11295491 A JP 11295491A JP 11295491 A JP11295491 A JP 11295491A JP H04340600 A JPH04340600 A JP H04340600A
- Authority
- JP
- Japan
- Prior art keywords
- harmonic
- interpolation
- harmonics
- frequency
- pitch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 claims 1
- 230000006866 deterioration Effects 0.000 abstract description 2
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 239000011295 pitch Substances 0.000 description 32
- 230000015572 biosynthetic process Effects 0.000 description 16
- 238000003786 synthesis reaction Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 7
- 238000000034 method Methods 0.000 description 4
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 2
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 2
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 2
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 2
- 230000005284 excitation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【0001】
【産業上の利用分野】この発明は、音声をディジタル伝
送あるいは蓄積する場合に用いられる音声復号化装置に
関するものである。
送あるいは蓄積する場合に用いられる音声復号化装置に
関するものである。
【0002】
【従来の技術】従来技術の基本的手法を記述したものに
文献1 D.W.Griffin.J.S.Lim著”
Muitiband Excitation Voco
der”(IEEE trans.on ASSP.V
ol.36.No.8.PP.1223−1235.A
ug 1988)があり、さらにこの方式の低ビットレ
ート化を図ったものとして文献2 M.S.Brand
stein.P.A.Monta.J.C.Hardw
ick.J.S.Lim著”A Real−Time
lmplementation of The Imp
rove MBE Speech Coder”(IC
ASSP 90.pp.5−8.1990 )がある。 図3は、文献2に記述されている従来の音声符号化装置
の構成図である。1は符号化部、2は復号化部、3は伝
送路であり、4は入力音声、5は出力音声である。6は
ピッチ・調波成分分析手段、7は有声/無声判定手段、
8は有声/無声符号化手段、9はピッチ符号化手段、1
0は調波成分符号化手段、11は有声/無声復号化手段
、12はピッチ復号化手段。13は調波成分復号化手段
、14は有声合成手段、15は無声合成手段である。
文献1 D.W.Griffin.J.S.Lim著”
Muitiband Excitation Voco
der”(IEEE trans.on ASSP.V
ol.36.No.8.PP.1223−1235.A
ug 1988)があり、さらにこの方式の低ビットレ
ート化を図ったものとして文献2 M.S.Brand
stein.P.A.Monta.J.C.Hardw
ick.J.S.Lim著”A Real−Time
lmplementation of The Imp
rove MBE Speech Coder”(IC
ASSP 90.pp.5−8.1990 )がある。 図3は、文献2に記述されている従来の音声符号化装置
の構成図である。1は符号化部、2は復号化部、3は伝
送路であり、4は入力音声、5は出力音声である。6は
ピッチ・調波成分分析手段、7は有声/無声判定手段、
8は有声/無声符号化手段、9はピッチ符号化手段、1
0は調波成分符号化手段、11は有声/無声復号化手段
、12はピッチ復号化手段。13は調波成分復号化手段
、14は有声合成手段、15は無声合成手段である。
【0003】以下、従来の音声符号化復号化装置の動作
について説明する。ピッチ・調波成分分析手段6は、入
力音声4を分析して、ピッチ及び周波数スペクトル上に
現れるピッチ周波数間隔の調波成分の振幅Am と位相
θm (mは調波番号)を抽出する。有声/無声判定手
段7は周波数領域を1〜3個の調波を含む多数の帯域に
分割し、各帯域毎に有声/無声判定を行う。有声/無声
判定は、調波構造を有する帯域は有声、調波構造が乱れ
ている帯域は無声と判定する。有声/無声判定符号化手
段8は前記有声/無声判定の符号化を行い、符号を復号
化部2に伝送路3を介して出力する。ピッチ符号化手段
9は前記ピッチ周波数の符号化を行い、符号を復号化部
2に伝送路3を介して出力する。調波成分符号化手段1
0は前記振幅Am とθm の符号化を行い、符号を復
号化部2に伝送路3を介して出力する。
について説明する。ピッチ・調波成分分析手段6は、入
力音声4を分析して、ピッチ及び周波数スペクトル上に
現れるピッチ周波数間隔の調波成分の振幅Am と位相
θm (mは調波番号)を抽出する。有声/無声判定手
段7は周波数領域を1〜3個の調波を含む多数の帯域に
分割し、各帯域毎に有声/無声判定を行う。有声/無声
判定は、調波構造を有する帯域は有声、調波構造が乱れ
ている帯域は無声と判定する。有声/無声判定符号化手
段8は前記有声/無声判定の符号化を行い、符号を復号
化部2に伝送路3を介して出力する。ピッチ符号化手段
9は前記ピッチ周波数の符号化を行い、符号を復号化部
2に伝送路3を介して出力する。調波成分符号化手段1
0は前記振幅Am とθm の符号化を行い、符号を復
号化部2に伝送路3を介して出力する。
【0004】有声/無声復号化手段11は、伝送路3か
ら入力された有声/無声符号化データを復号化し、有声
/無声判定を求める。ピッチ復号化手段12は、伝送路
3から入力されたピッチ符号化データを復号化し、ピッ
チ周波数を求める。調波成分復号化手段13は、伝送路
3から入力された調波成分符号化データを復号化し、調
波成分を求める。有声合成手段14は、有声/無声復号
化手段11によって求められた有声/無声判定が有声で
ある周波数帯域において、その出力信号S(t)を、ピ
ッチ復号化手段12によって求められたピッチ周波数と
調波成分復号化手段13によって求められた振幅関数A
m と位相関数θm から有声部の復号音声を(1)式
で表される余弦波の重ね合わせによって合成し、出力す
る。
ら入力された有声/無声符号化データを復号化し、有声
/無声判定を求める。ピッチ復号化手段12は、伝送路
3から入力されたピッチ符号化データを復号化し、ピッ
チ周波数を求める。調波成分復号化手段13は、伝送路
3から入力された調波成分符号化データを復号化し、調
波成分を求める。有声合成手段14は、有声/無声復号
化手段11によって求められた有声/無声判定が有声で
ある周波数帯域において、その出力信号S(t)を、ピ
ッチ復号化手段12によって求められたピッチ周波数と
調波成分復号化手段13によって求められた振幅関数A
m と位相関数θm から有声部の復号音声を(1)式
で表される余弦波の重ね合わせによって合成し、出力す
る。
【0005】
【数1】
【0006】この際の余弦波の時間tに関する振幅関数
と位相関数の値は隣接するフレーム間の補間によって決
定する。図4は復号化部内の有声合成手段における調波
のフレーム間の補間対応を示した図であるが、隣接する
フレームの第m調波と第m調波を対として振幅関数、及
び位相関数の補間を行う。また、フレーム間のピッチ周
波数の変化が大きい場合は、図5の様にフレーム間の調
波成分同士の補間は行わず、隣接する2つのフレームの
調波全てに関して、その周波数と同じ位置の振幅0レベ
ルからの補間を行う他の方式もある。無声合成手段15
は、有声/無声復号化手段11によって求められた有声
/無声判定が無声である周波数帯域において、調波成分
復号化手段13によって求められた振幅Am を用いて
無声部の復号音声を白色雑音にスペクトル振幅を与えて
合成する。
と位相関数の値は隣接するフレーム間の補間によって決
定する。図4は復号化部内の有声合成手段における調波
のフレーム間の補間対応を示した図であるが、隣接する
フレームの第m調波と第m調波を対として振幅関数、及
び位相関数の補間を行う。また、フレーム間のピッチ周
波数の変化が大きい場合は、図5の様にフレーム間の調
波成分同士の補間は行わず、隣接する2つのフレームの
調波全てに関して、その周波数と同じ位置の振幅0レベ
ルからの補間を行う他の方式もある。無声合成手段15
は、有声/無声復号化手段11によって求められた有声
/無声判定が無声である周波数帯域において、調波成分
復号化手段13によって求められた振幅Am を用いて
無声部の復号音声を白色雑音にスペクトル振幅を与えて
合成する。
【0007】
【発明が解決しようとする課題】従来の有声合成手段は
、以上の様に構成されているので、隣接するフレーム間
のピッチ周波数の変化がピッチ周波数の誤抽出などによ
って大きくなった場合には、周波数上で大きく離れた調
波を補間する対として選んでしまい、合成音声の品質が
劣化する。また、フレーム間の調波成分の補間は行わず
、振幅0レベルからの補間を行う他の方式による場合は
合成波形の振幅、位相のずれが発生し、やはり音質劣化
の原因になるという課題があった。
、以上の様に構成されているので、隣接するフレーム間
のピッチ周波数の変化がピッチ周波数の誤抽出などによ
って大きくなった場合には、周波数上で大きく離れた調
波を補間する対として選んでしまい、合成音声の品質が
劣化する。また、フレーム間の調波成分の補間は行わず
、振幅0レベルからの補間を行う他の方式による場合は
合成波形の振幅、位相のずれが発生し、やはり音質劣化
の原因になるという課題があった。
【0008】この発明は、上記のような課題を解消する
ためになされたものであり、フレーム間の対応する調波
の補間方式の改善によって、品質の優れた合成音声生成
を実現することを目的としている。
ためになされたものであり、フレーム間の対応する調波
の補間方式の改善によって、品質の優れた合成音声生成
を実現することを目的としている。
【0009】
【課題を解決するための手段】この発明に係わる音声復
号化装置は、分析フレーム毎に記憶している調波に対し
、相対的に大きいピッチ周波数を記憶している分析フレ
ームからみて、周波数と振幅を補間すべき相対的に小さ
なピッチ周波数を記憶している分析フレームの、最も近
い調波を互いに唯一つ、次数の低い調波から選んでゆき
、選ばれることのなかった小さなピッチの調波の補間相
手には同周波数の振幅0レベルを選ぶ補間対選択手段と
、選ばれた補間対を補間して出力する音声合成手段とを
設けた。
号化装置は、分析フレーム毎に記憶している調波に対し
、相対的に大きいピッチ周波数を記憶している分析フレ
ームからみて、周波数と振幅を補間すべき相対的に小さ
なピッチ周波数を記憶している分析フレームの、最も近
い調波を互いに唯一つ、次数の低い調波から選んでゆき
、選ばれることのなかった小さなピッチの調波の補間相
手には同周波数の振幅0レベルを選ぶ補間対選択手段と
、選ばれた補間対を補間して出力する音声合成手段とを
設けた。
【0010】
【作用】本発明における音声復号化装置は、ある時間間
隔の分析フレーム間で、大きいピッチ周波数の次数の低
い調波から順に、隣接する小さなピッチ周波数の対応す
る分析フレームの対応した最も近い調波に、対応調波が
ない場合は対応0振幅と補間がされる。
隔の分析フレーム間で、大きいピッチ周波数の次数の低
い調波から順に、隣接する小さなピッチ周波数の対応す
る分析フレームの対応した最も近い調波に、対応調波が
ない場合は対応0振幅と補間がされる。
【0011】
実施例1.図1はこの発明の一実施例を適用した入力音
声の復号化装置の構成図である。以下、本発明の一実施
例の動作を図1を用いて説明する。図1において図3と
同一の部分については同一符号を付し、説明を省略する
。新規な部分は、16の有声合成手段、17の補間対選
択手段である。また図2は本発明を実施した音声復号化
装置の、分析フレーム間の調波の周波数と振幅の補間を
説明するための周波数スペクトル図である。図1におい
て有声合成手段16は、ある時間間隔で送られてきたピ
ッチ周波数とピッチ周波数間隔の調波成分を記憶してい
る。
声の復号化装置の構成図である。以下、本発明の一実施
例の動作を図1を用いて説明する。図1において図3と
同一の部分については同一符号を付し、説明を省略する
。新規な部分は、16の有声合成手段、17の補間対選
択手段である。また図2は本発明を実施した音声復号化
装置の、分析フレーム間の調波の周波数と振幅の補間を
説明するための周波数スペクトル図である。図1におい
て有声合成手段16は、ある時間間隔で送られてきたピ
ッチ周波数とピッチ周波数間隔の調波成分を記憶してい
る。
【0012】図2は第K番目のフレームとK+1番目の
フレームの周波数スペクトル(振幅)を表した例である
。そして図2の例では、フレームK+1の方がフレーム
Kより大きいピッチ周波を持つので、フレームK+1の
第1調波から順に、周波数がその調波に最も近い調波を
フレームKから選択する。このとき、一度選択された調
波は二度と選択しない様にする。またフレームK+1の
ある調波に対して、周波数の最も近い調波がフレームK
に2つ存在する場合は周波数の低い調波を選択する様に
する。例えばフレームK+1の調波が500Hzでフレ
ームKに400Hzと600Hzの調波が存在する場合
、400Hzを選択する。図2の例でば、フレームK+
1の第1調波はフレームKの第1調波を選択するが、フ
レームK+1の第2調波はフレームKの第2調波よりも
第3調波の方が周波数が近いので第3調波を選択する。 同様にK+1の第3調波はKの第5調波を選択する。K
+1の第4調波はKの第7調波を選ぶ。そしてフレーム
Kの第2、4、6調波は選ばれなかったのでフレームK
+1ではフレームKのピーク振幅とそれぞれ同じ周波数
で振幅0が補間対象として選ばれる。
フレームの周波数スペクトル(振幅)を表した例である
。そして図2の例では、フレームK+1の方がフレーム
Kより大きいピッチ周波を持つので、フレームK+1の
第1調波から順に、周波数がその調波に最も近い調波を
フレームKから選択する。このとき、一度選択された調
波は二度と選択しない様にする。またフレームK+1の
ある調波に対して、周波数の最も近い調波がフレームK
に2つ存在する場合は周波数の低い調波を選択する様に
する。例えばフレームK+1の調波が500Hzでフレ
ームKに400Hzと600Hzの調波が存在する場合
、400Hzを選択する。図2の例でば、フレームK+
1の第1調波はフレームKの第1調波を選択するが、フ
レームK+1の第2調波はフレームKの第2調波よりも
第3調波の方が周波数が近いので第3調波を選択する。 同様にK+1の第3調波はKの第5調波を選択する。K
+1の第4調波はKの第7調波を選ぶ。そしてフレーム
Kの第2、4、6調波は選ばれなかったのでフレームK
+1ではフレームKのピーク振幅とそれぞれ同じ周波数
で振幅0が補間対象として選ばれる。
【0013】図1の補間対選択手段17は上記の動作を
する。すなわち現在のフレームと直前のフレームの調波
成分を比べ、相対的に大きいピッチ周波数側を基準にし
て、そのm番目の調波成分と、他のフレームのそれに最
も近い周波数の調波を必ず一つだけ補間対として選ぶ。 これを次数の低い調波から実施してゆく。小さなピッチ
周波数側の選ばれなかった調波成分は、他のフレームの
同周波数で振幅0レベルを補間対として選ぶ。図1の有
声合成手段16は(1)式の音声合成を行う際に、補間
対選択手段17で選ばれた上記の補間対に基づいてフレ
ーム間の補間を行う。なお図2でK+1のフレームの調
波に対応するKの調波が2つある時、高い調波を選ぶア
ルゴリズムでもよいし、他のアルゴリズムを使ってもよ
い。
する。すなわち現在のフレームと直前のフレームの調波
成分を比べ、相対的に大きいピッチ周波数側を基準にし
て、そのm番目の調波成分と、他のフレームのそれに最
も近い周波数の調波を必ず一つだけ補間対として選ぶ。 これを次数の低い調波から実施してゆく。小さなピッチ
周波数側の選ばれなかった調波成分は、他のフレームの
同周波数で振幅0レベルを補間対として選ぶ。図1の有
声合成手段16は(1)式の音声合成を行う際に、補間
対選択手段17で選ばれた上記の補間対に基づいてフレ
ーム間の補間を行う。なお図2でK+1のフレームの調
波に対応するKの調波が2つある時、高い調波を選ぶア
ルゴリズムでもよいし、他のアルゴリズムを使ってもよ
い。
【0014】実施例2.上記実施例では補間対選択手段
がフレーム間のピッチ周波数の変化量に関係なく、周波
数軸上で最も近い調波を補間対とする例を示したが、フ
レーム間のピッチ周波数の変化量が、ある値以上の時に
補間対選択を行っても良い。
がフレーム間のピッチ周波数の変化量に関係なく、周波
数軸上で最も近い調波を補間対とする例を示したが、フ
レーム間のピッチ周波数の変化量が、ある値以上の時に
補間対選択を行っても良い。
【0015】実施例3.図1において、補間対選択手段
17と、有声合成手段16はハードウェアでなくてもよ
く、ソフトウェア、ファームウェアで構成したものであ
ってもよい。
17と、有声合成手段16はハードウェアでなくてもよ
く、ソフトウェア、ファームウェアで構成したものであ
ってもよい。
【0016】
【発明の効果】以上のように本発明では、音声復号化装
置内に、分析フレームごとの記憶している調波に対し、
相対的に大きいピッチ周波数記憶フレームから、相対的
に小さなピッチ周波数記憶フレームの周波数軸上で最も
近いピーク値を持つ調波を選択する補間対選択手段と、
これらの補間対を補間する有声合成手段を設けたので、
ピッチ周波数の変化が大きい音声の復元においても、合
成音声波形に不連続が生じにくく、高品質の音声合成が
できる効果がある。
置内に、分析フレームごとの記憶している調波に対し、
相対的に大きいピッチ周波数記憶フレームから、相対的
に小さなピッチ周波数記憶フレームの周波数軸上で最も
近いピーク値を持つ調波を選択する補間対選択手段と、
これらの補間対を補間する有声合成手段を設けたので、
ピッチ周波数の変化が大きい音声の復元においても、合
成音声波形に不連続が生じにくく、高品質の音声合成が
できる効果がある。
【図1】この発明の一実施例を示す符号化、復号化装置
の構成図である。
の構成図である。
【図2】この発明によるフレーム間の調波の補間を説明
するための周波数スペクトル図である。
するための周波数スペクトル図である。
【図3】従来の音声符号化復号化装置の構成図である。
【図4】従来のフレーム間の調波の補間を説明するため
の周波数スペクトル図である。
の周波数スペクトル図である。
【図5】従来の他のフレーム間の調波の補間を説明する
ための周波数スペクトル図である。
ための周波数スペクトル図である。
1 符号化部
2 復号化部
11 有声/無声復号化手段
12 ピッチ復号化手段
13 調波成分復号化手段
15 無声合成手段
16 有声合成手段
17 補間対選択手段
Claims (1)
- 【請求項1】 ある時間間隔での分析フレーム毎に、
音声信号のピッチ周波数とピッチ周波数間隔の調波成分
を分析し符号化して送信された信号を、復元する音声復
号化装置において、隣接する分析フレーム毎に記憶され
た調波に対し、大きなピッチ周波数を記憶している分析
フレームからみて、周波数と振幅を補間すべき隣接する
小さなピッチ周波数を記憶している分析フレームの対応
する調波として、低い調波から順次高い調波に対して未
だ選択されていない最も近い調波を唯一つ選び、選ばれ
なかった調波は同周波数の振幅0レベルを選び、補間相
手として出力する補間対選択手段を備え、隣接する分析
フレーム間で上記選択された調波の補間をすることを特
徴とする音声復号化装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11295491A JPH04340600A (ja) | 1991-05-17 | 1991-05-17 | 音声復号化装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11295491A JPH04340600A (ja) | 1991-05-17 | 1991-05-17 | 音声復号化装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH04340600A true JPH04340600A (ja) | 1992-11-26 |
Family
ID=14599693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11295491A Pending JPH04340600A (ja) | 1991-05-17 | 1991-05-17 | 音声復号化装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH04340600A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113689837A (zh) * | 2021-08-24 | 2021-11-23 | 北京百度网讯科技有限公司 | 音频数据处理方法、装置、设备以及存储介质 |
-
1991
- 1991-05-17 JP JP11295491A patent/JPH04340600A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113689837A (zh) * | 2021-08-24 | 2021-11-23 | 北京百度网讯科技有限公司 | 音频数据处理方法、装置、设备以及存储介质 |
CN113689837B (zh) * | 2021-08-24 | 2023-08-29 | 北京百度网讯科技有限公司 | 音频数据处理方法、装置、设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4658596B2 (ja) | 線形予測に基づく音声コーデックにおける効率的なフレーム消失の隠蔽のための方法、及び装置 | |
US5873059A (en) | Method and apparatus for decoding and changing the pitch of an encoded speech signal | |
KR101001170B1 (ko) | 오디오 코딩 | |
US8918196B2 (en) | Method for weighted overlap-add | |
US5574823A (en) | Frequency selective harmonic coding | |
JP4162933B2 (ja) | 低ビットレートcelp符号化のための連続タイムワーピングに基づく信号の修正 | |
US7222069B2 (en) | Voice code conversion apparatus | |
US6081776A (en) | Speech coding system and method including adaptive finite impulse response filter | |
US6138092A (en) | CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency | |
KR970003109A (ko) | 음성 신호의 재생 방법 및 장치와 그 전송 방법 | |
JP2707564B2 (ja) | 音声符号化方式 | |
EP0854469A2 (en) | Speech encoding apparatus and method | |
JPH0713600A (ja) | 駆動同期時間符号化ボコーダおよび方法 | |
JP3680374B2 (ja) | 音声合成方法 | |
CA2399253C (en) | Speech decoder and method of decoding speech involving frequency expansion | |
JP3472279B2 (ja) | 音声符号化パラメータ符号化方法及び装置 | |
JP3168238B2 (ja) | 再構成音声信号の周期性を増大させる方法および装置 | |
JPH04340600A (ja) | 音声復号化装置 | |
JP4438280B2 (ja) | トランスコーダ及び符号変換方法 | |
JPWO2003042648A1 (ja) | 音声符号化装置、音声復号化装置、音声符号化方法および音声復号化方法 | |
JPH10232699A (ja) | Lpcボコーダ | |
JPH043878B2 (ja) | ||
JPH07261796A (ja) | 音声符号化復号化装置 | |
JPH0122640B2 (ja) | ||
EP1164577A2 (en) | Method and apparatus for reproducing speech signals |