JP2778567B2 - 信号符号化装置及び方法 - Google Patents
信号符号化装置及び方法Info
- Publication number
- JP2778567B2 JP2778567B2 JP7350138A JP35013895A JP2778567B2 JP 2778567 B2 JP2778567 B2 JP 2778567B2 JP 7350138 A JP7350138 A JP 7350138A JP 35013895 A JP35013895 A JP 35013895A JP 2778567 B2 JP2778567 B2 JP 2778567B2
- Authority
- JP
- Japan
- Prior art keywords
- circuit
- pulse
- signal
- pitch
- harmonic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 18
- 238000013139 quantization Methods 0.000 claims description 80
- 230000009466 transformation Effects 0.000 claims description 25
- 238000000605 extraction Methods 0.000 claims description 24
- 230000004044 response Effects 0.000 claims description 20
- 238000001228 spectrum Methods 0.000 claims description 18
- 230000001131 transforming effect Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000005314 correlation function Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims 1
- 239000013598 vector Substances 0.000 description 30
- 238000010586 diagram Methods 0.000 description 28
- 230000003595 spectral effect Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 5
- 230000005284 excitation Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Analogue/Digital Conversion (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
し、特に音声信号あるいは音楽信号を低いビットレート
で高品質に符号化する符号化装置に適用して好適な信号
符号化装置及び方法に関する。
能率に符号化する従来の方式として、例えば、T.Mor
iya氏らによる論文(T.Moriya, et al.、“Transform
codingof speech using a weighted vector quantize
r”、IEEE JSAC、vol.6、no.2、pp.425-431、1988、
「文献1」という)や、N.Iwakami氏らによる論文
(N.Iwakami, et al.、“High-quality audio-coding
at less than 64 kbit/s byusing transform-domain we
ighted interleave vector quantization(TWINV
Q)”、IEEE Proc.ICASSP、pp.3095-3098、1995、「文
献2」という)等が知られている。
も、音声あるいは音楽信号をN点のDCT(Discrete
Cosine Transform;離散コサイン変換)を用いて直交
変換し、DCT係数を予め定められた点数M(M≦N)
毎に分割し、M点毎にコードブック(符号帳)を用いて
ベクトル量子化している。なお、ベクトル量子化は、周
知の通り、複数のサンプル値(波形又はスペクトル包絡
等)をセットとして1組のベクトルとし、コードブック
に蓄えられている複数個のベクトルの中から歪みが最小
となるコードを選択し、そのコード番号を符号化するも
のである。
来の方法には次のような問題点がある。
ットレートが比較的高い場合には、比較的良好な音質を
提供できるが、伝送ビットレートが低下すると音質が劣
化してくる。この主な原因は、特に、少ない量子化ビッ
ト数のベクトル量子化では、DCT係数のハーモニクス
成分(高調波成分)を、良好に表すことができないこと
に起因している。
に、分割点数Mを大きくとると、ベクトル量子化器のビ
ット数が増え、ベクトル量子化に必要な演算量が指数的
に増大するという問題がある。
術の問題点を解消し、ビットレートが低い場合にも、比
較的少ない演算量で音質の劣化の少ない信号符号化方式
を提供することにある。
本発明は、入力した信号又は該信号に由来する信号を直
交変換する第1の直交変換回路と、前記第1の直交変換
回路からの出力係数を用いてピッチ周波数を抽出するピ
ッチ抽出回路と、前記ピッチ周波数を用いて前記出力係
数上での高調波位置を推定する高調波推定回路と、推定
された前記高調波位置における前記出力係数を少なくと
も1つ以上まとめて量子化する高調波量子化回路と、前
記第1の直交変換回路の出力係数から前記高調波量子化
回路の出力を除いた結果を量子化する量子化回路と、を
含むことを特徴とする信号符号化装置を提供する。
交変換する。以下では、直交変換として好ましくはDC
T変換を用いることとし、i番目のDCT係数をX(i)
とする。
数を抽出し、抽出されたピッチ周波数を用いてDCT係
数上の高調波位置を推定する。これには、例えば次式
(1)を用いることができる。
ΔはDCT係数の周波数軸上の刻み幅を示し、次式
(2)で表される。
本化周波数、NはDCT変換のサンプル点数である。
Hz、DCT変換のサンプル数Nが160のときは、DCT
係数の周波数軸上の刻み幅(分解能)Δは50Hzとな
る。
番目の高調波位置である。
(Lq)の振幅を、少なくとも1つ以上まとめて量子化
し、量子化結果をX′(Lq)とする。
の差分を求め、この差分を量子化する。
は、高調波成分を良好に表すことができる。
波数を、時間軸上の入力信号又は入力信号から由来した
信号から相関分析により求めるものである。
数の振幅ではなくて、極性を少なくとも1つ以上まとめ
て量子化するようにしてもよい。
項4に係る発明は、上記請求項1に係る発明において、
入力信号からスペクトル包絡を表すスペクトルパラメー
タを求め量子化する。量子化したスペクトルパラメータ
から聴感重み付けフィルタのインパルス応答を求め、こ
のインパルス応答もしくはこれに由来した信号をもとに
DCT変換を施し(第2の直交変換)、係数ωiを求め
る。
用いて入力信号に逆フィルタ処理を施し、入力信号に由
来した信号として逆フィルタ出力信号を求める。さらに
逆フィルタ出力信号をDCT変換する(第1の直交変
換)。
T係数)と高調波成分との差分を量子化する際に、ωi
による重み付け距離尺度を用いて量子化を行なう。
力信号もしくは入力信号から由来した信号から相関分析
により求められる。
数の振幅ではなくて、極性を少なくとも1つ以上まとめ
て量子化する。
項7に係る発明は、パルス探索回路及び選択回路におい
て、入力信号のDCT変換係数からピッチ周波数を求
め、このピッチ周波数を用いてパルスを繰り返してたて
ながら(第1のパルス)、予め定められた個数Kのパル
スを求めて歪みD1を計算し、ピッチ周波数を用いずに
にパルスをたてて(第2のパルス)求めた歪みD2とを
比較し、小さい方のパルス列を選択する点を特徴とした
ものである。
次式(3)に示す。次式(3)においては、歪み評価の
距離尺度として2乗距離を用いているが、これ以外にも
別の尺度を用いてもよい。
それぞれ、歪みを評価する区間長、k番目のパルスの振
幅、k番目のパルスの位置、評価区間内でのパルスの個
数を示す。
(4)に示す。
を選択する。
とも1つ以上まとめて量子化する。
号に由来した信号から相関関数を求めピッチ周波数を求
める。
際に、入力信号の有声・無声判別を行ない、判別情報を
出力する。パルス探索回路では、判別情報をもとに、有
声の場合は、第1のパルスを探索し、無声の場合は第2
のパルスを探索する。
gn(Ak)を少なくとも1つ以上まとめて量子化する。
に係る発明との違いを次に示す。
トルパラメータを求め量子化する。量子化したスペクト
ルパラメータから聴感重み付けフィルタのインパルス応
答を求め、前記インパルス応答もしくはインパルス応答
に由来した信号をもとにDCT変換を施し、ω(i)を求
める。
み付け距離尺度を用いて量子化を行なう。
量子化する際に、ω(i)による重み付け距離尺度を用い
て量子化を行なう。
る発明のピッチ抽出回路において、入力信号もしくは入
力信号に由来した信号から相関関数を求めピッチ周波数
を求める。
る発明において、ピッチを抽出した際に、入力信号の有
声・無声判別を行ない、判別情報を出力する。パルス探
索回路では、判別情報をもとに、有声の場合は、第1の
パルスを探索し、無声の場合は第2のパルスを探索す
る。
係る発明において、パルスの振幅ではなく、極性sign
(Ak)を少なくとも1つ以上まとめて量子化する。
これに由来した信号の直交変換に対して、高調波位置を
予め推定して高調波振幅を量子化するか、あるいは高調
波振幅をパルスで表してパルス振幅を量子化し、これを
前記直交変換から除いた成分を量子化する構成とし、直
交変換係数のハーモニクス成分を良好に表すことを可能
としたものである。
ハーモニクス成分を除いた成分を量子化するため、量子
化のビット数の低減を可能とする。このため、ビットレ
ートを低減化しても、従来方式と比べ、良好な音質を提
供することができる。さらに、本発明によれば、量子化
をハーモニクス成分とそれ以外の量子化に分解すること
で、各々の量子化ビット数を比較的少ない値にすること
が可能となり、このため演算量を比較的少ない値に抑え
ることができる。
して以下に詳細に説明する。
符号化装置の構成を示すブロック図である。
を入力し、フレーム分割回路110は予め定められた点
数N毎のフレームに分割する。
割された信号x(n)に対して直交変換を施す。以下で
は、直交変換の一例としてDCT変換を用いる。なお、
DCT変換の詳細については、J.Triboletらによる
“Frequency domain coding ofspeech”と題した論文
(IEEE Trans. ASSP,vol.ASSP-27,pp.5
12-530, 1979)(文献3)等を参照できるので、説明は
省略する。
(i)(i=0,…,N1)から、相関関数を求めてピッチ
周波数の抽出を行なう。なお、相関関数は例えば次式
(5)により求められる。
周波数探索の下限、上限をそれぞれ表す。
ッチ周波数に相当する周波数間隔となる。
して、次式(6)を用いることもできる。
チ周波数に相当する周波数間隔となる。なお、ここでは
jは整数値として説明したが、小数値をとることもでき
る。
P.Kroonらによる、“Pitch predictors with high
temporal resolution”と題した論文(IEEE Proc.
ICASSP, pp.661-664, 1990年)(文献4)等を
参照することができる。
て、f0/Δの代わりにjを用いて高調波位置Lqを求め
る。
qにおけるDCT係数X(Lq)を少なくとも1つ以上ま
とめて量子化する。量子化には、高調波振幅コードブッ
ク310を用いる。例えばK個の振幅をまとめて量子化
するには、高調波振幅コードブック310に予め格納さ
れたコードベクトルに対して次式(7)で与えられる歪
みを計算し、歪みを最小化するコードベクトルchkを選
択すれば良い。
る。Bは高調波振幅コードブックのビット数を示す。な
お、上式(7)では、距離尺度として2乗距離を用いた
が、他の周知な距離尺度を用いることもできる。
元する。
トルを示すインデクスをマルチプレクサ500に出力す
る。
理を行なう。すなわち、導出された高調波についてはD
CT係数から差分し、他の係数は元のままとする。
50及びゲインコードブック460を用いて量子化を行
なう。これには、演算量低減化のために、まず、音源コ
ードブック450の探索を次式(10)で与えられる歪
みを最小化するように行なう。
それぞれ、k番目の音源コードベクトル、最適音源ゲイ
ンを示す。ここで距離尺度としては2乗距離を用いた
が、他の周知な尺度を用いることができる。
し、次式(11)の歪みを最小化するように、ゲインコ
ードブック460の探索を行なう。
は、ゲインコードブック460に格納された2次元ゲイ
ンコードベクトルのk番目の要素を示す。
ドベクトル、ゲインコードベクトルを示すインデクスを
マルチプレクサ500に出力する。
ック460は、好ましくは、多量のトレーニング信号を
用いて予め学習しておく。学習法としては、例えば、L
inde氏らによる“An algorithm for vector quantizat
ion disign”と題した論文(IEEE Trans. Commu
n., pp.84-95, January, 1980)(文献4)等を参照で
きる。
を示すブロック図である。
した前記第1の実施形態と相違する点は、ピッチ抽出回
路210であるので、以下ではピッチ抽出回路210に
ついて説明する。本実施形態においては、ピッチ抽出回
路210は、フレーム分割回路110の出力を直接入力
している。
号x(n)を用いて次式(12)で与えられる相関関数を
計算する。
をピッチ周期として選択する。
(13)を用いることもできる。
するピッチ周期Tを選択する。
周波数f0に変換し、高調波推定回路250に出力す
る。
を示すブロック図である。図3を参照して、本実施形態
が、図1を参照して説明した前記第1の実施形態と相違
する点は、高調波量子化回路320と高調波極性コード
ブック330である。
の歪みDkを最小化するように、極性のみからなる高調
波極性コードベクトルpk(q)を高調波極性コードブック
330から探索する。
ードブック330のビット数を示す。
を示すブロック図である。
の出力を入力とするスペクトルパラメータ計算回路16
0は、スペクトルパラメータを予め定められた次数(例
えばP=10次)計算する。スペクトルパラメータの計算
には、周知のLPC分析や、Burg分析等を用いること
ができる。ここでは、Burg分析を用いる。なお、Burg
分析の詳細については、中溝著による“信号解析とシス
テム同定”と題した単行本(コロナ社1988年刊)の第82
〜87頁(文献5)等に記載されているので説明は略す
る。
60では、Burg法により計算された線形予測係数α
i(i=1,…,P)を、量子化や補間に好適とされるL
SP(線スペクトル対)パラメータに変換する。
タへの変換は、菅村他による“線スペクトル対(LS
P)音声分析合成方式による音声情報圧縮”と題した論
文(電子通信学会論文誌、J64−A、pp.599-606、1981
年)(文献6)を参照することができる。
は、LSPパラメータを効率的に量子化し、次式(1
6)で与えられる歪みDjを最小化する量子化値を出力
する。
SP(i)j、B(i)はそれぞれ、量子化前のi次目のLS
P、量子化後のj番目の結果、重み係数である。
化を用いるものとする。ベクトル量子化の手法は周知の
手法を用いることができる。具体的な方法としては、例
えば、特開平4-171500号公報(特願平2-297600号)等を
参照できるので、ここでは説明は省略する。
ルを表すインデクスをマルチプレクサ500へ出力す
る。
70は、量子化したLSPを線形予測係数α′iに変換
し、インパルス応答計算回路180と逆フィルタ回路1
20へ出力する。
トルパラメータ量子化回路170から、線形予測係数
α′iを入力し、z変換上の伝達関数が次式(17)で
表される聴感重み付けフィルタのインパルス応答h(n)
を予め定められた点数だけ計算する。
量を制御する定数で、0≦η≦1.0に選ぶ。
ス応答h(n)から次式(18)に基づき自己相関関数r
(j)を計算する。
力とする第2の直交変換回路190は、自己相関関数r
(j)(j=0,…,N-1)をN点DCT変換し、DCT係
数ω(i)を求め、高調波量子化回路600、量子化回路
700に出力する。
コードブック610を用いて次式(19)の重み付け距
離尺度Dkを最小化するように、コードベクトルを探索
する。
(19)の距離尺度を用いて、予め学習しておく。
付け尺度を最小化するように、まず音源コードブック7
10を探索する。
に対し、次式(21)の歪みを最小化するように、ゲイ
ンコードブック720の探索を行なう。
を示すブロック図である。
照して説明した前記第4の実施形態と相違する点は、フ
レーム分割回路110の出力を直接入力するピッチ抽出
回路210であり、この動作は図2を参照して説明した
前記第2の実施形態におけるピッチ抽出回路と同一とさ
れ、入力信号からピッチ周期Tを選択し、ピッチ周波数
f0を求める。
を示すブロック図である。図6を参照して、本実施形態
においては、高調波量子化回路630は、第2の直交変
換回路190の出力である重み係数ω(i)を用いて、次
式(22)の歪みを最小化するように、極性のみからな
る高調波極性コードベクトルpk(q)を高調波極性コード
ブック640から探索する。
コードブックのビット数を示す。
を示すブロック図である。
路200の出力を入力とするパルス探索回路800は、
ピッチ抽出回路200からピッチ周波数を入力し、ま
ず、ピッチ周波数だけ離れた位置にパルスを繰り返して
たてながら予め定められた個数Kのパルス(第1のパル
ス)を計算する。この探索は、第1のパルスの歪みを表
す上式(3)を最小化するように行なう。このときの歪
みをD1とする。
パルス(第2のパルス)を上式(4)を最小化するよう
に求める。このときの歪みをD2とする。
限定されていないものとしたが、各パルスの候補位置
を、予め定められた個数を限定することにより、パルス
の探索時の演算量を低減化し、位置を表すインデクスの
伝送情報量を低減することができる。
0,評価区間内のパルスの個数K=5とすると、各パルス
の位置は以下の表1のように限定できる。
ビットで表すことができ、5パルス全体で15ビットで表
すことができる。すなわち、表1において3ビットで一
行分について8個の要素(その値がパルス位置を示して
いる)を指示し、全体で5行であるため15ビットで済
む。
し、小さい方を選択し、選択した方のパルスの位置をパ
ルス量子化回路820に出力する。また、選択回路81
0はパルスの位置を表すインデクスをマルチプレクサ5
00に出力する。
ードブック830を用いて、次式(23)を最小化する
ように、パルス振幅コードベクトルck(q)を探索し、パ
ルス振幅を量子化する。
ルスの位置である。
を示すブロック図である。図8を参照して、本実施形態
は、図7を参照して説明した前記第7の実施形態と、ピ
ッチ抽出回路210が相違しており、このピッチ抽出回
路210は、図2を参照して説明した前記第2の実施形
態におけるピッチ抽出回路210と同一の動作を行な
い、入力信号からピッチ周期Tを選択しピッチ周波数f
0を求める。
を示すブロック図である。図9を参照して、ピッチ抽出
・判別回路260は、図2のピッチ抽出回路210と同
一の方法によりピッチ周期Tを抽出した後に、有声・無
声判別を行なうものである。
た場合は、次式(24)に従いピッチゲインGを求め
る。
チ抽出した場合は、次式(25)に従いピッチゲインG
を求める。
しきい値を越える場合に有声と判別し、判別情報をパル
ス探索回路850、マルチプレクサ500に出力する。
また、ピッチ周波数をピッチ間隔に変換した値をパルス
探索回路850、マルチプレクサ500に出力する。
判別情報に従い、有声のときは、ピッチ周波数だけパル
スを繰り返しながら、個数Kの第1のパルスを上式
(3)に従い探索し、無声部では、ピッチ周波数を用い
ずに、上式(4)を用いて、個数Kの第2のパルスを探
索する。
の位置をパルス量子化回路820に出力し、パルスの位
置を示すインデクスをマルチプレクサ500に出力す
る。
ロック図である。図において、パルス量子化回路840
は、パルス極性コードブック850を探索し、次式(2
6)を最小化するパルス極性コードベクトルpk(q)を選
択する。
を示すブロック図である。
回路190から係数ω(i)を入力し、それぞれ次式(2
7)、(28)を最小化するように、第1のパルス及び
第2のパルスの位置を、あらかじめ定められた個数Kだ
け計算する。そのときの歪みD1ωとD2ω、及び第1の
パルス、第2のパルスの位置を選択回路810に出力す
る。
らかじめ限定しておくこともできる。
0で選択されたパルスの位置と、第2の直交変換回路1
90から出力された係数ω(i)を用いて、次式(29)
を最小化するように、パルス振幅コードブック920を
探索し、パルス振幅コードベクトルck(q)を選択する。
の構成を示すブロック図である。図12において、ピッ
チ抽出回路210は、図2を参照して説明した前記第2
の実施形態におけるピッチ抽出回路と同様の動作を行な
い、入力信号からピッチ周期Tを抽出し、ピッチ周波数
f0に変換して出力する。
の構成を示すブロック図である。
パルス探索回路930は、ピッチ抽出・判別回路260
から、ピッチ周波数と判別情報を入力し、第2の直交変
換回路190から係数ω(i)を入力する。判別情報が有
声のときは、次式(30)に従い第1のパルスを探索す
る。
1)に従い第2のパルスを探索する。
の構成を示すブロック図である。
は、パルス量子化回路950は、第2の直交変換回路1
90から係数ω(i)を入力し、パルス極性コードブック
960を用いて次式(32)を最小するように、パルス
極性コードベクトルを探索する。
調波位置の量子化、パルスの探索、パルスの量子化にお
いて、DCT変換と同一の長さのN点について処理を施
したが、細分化した長さのM点(M≦N)毎にこれらの
処理を施してもよい。この方が演算量は低減化される。
の周知な変換、例えばMDCT(Modified DCT)変
換等を用いることもできる。
子化回路における量子化ビット数は一定としたが、量子
化も細分化したM点毎に行なう場合、信号の周波数軸上
のパワに応じて、量子化ビット配分を適応的に割り当て
ることもできる。
てスペクトルパラメータを直交変換しパワスペクトルを
求め、細分化した区間毎のパワの相対比から配分する方
法が知られており、例えば前記文献3等を参照できる。
用することでさらに演算量を低減化できる。
入力信号もしくはこれに由来した信号の直交変換に対し
て、高調波位置をあらかじめ推定して高調波振幅を量子
化するか、高調波振幅をパルスで表してパルス振幅を量
子化し、これを前記直交変換から除いた成分を量子化す
る構成としたことにより、直交変換係数のハーモニクス
成分を良好に表すことが可能である。
ーモニクス成分を除いた成分を量子化しているので、量
子化のビット数を低減化することが可能とされ、ビット
レートを低減化しても、従来方式と比べ、良好な音質を
提供することができる。
ニクス成分とそれ以外の量子化に分解することで、各々
の量子化ビット数を比較的少ない値にすることが可能と
なり、このため演算量を比較的少ない値に抑えることが
できる。
る。
る。
る。
る。
る。
る。
る。
る。
る。
ある。
ある。
ある。
ある。
ある。
Claims (16)
- 【請求項1】入力した信号又は該信号に由来する信号を
直交変換する第1の直交変換回路と、 前記第1の直交変換回路からの出力係数を用いてピッチ
周波数を抽出するピッチ抽出回路と、 前記ピッチ周波数を用いて前記出力係数上における高調
波位置を推定する高調波推定回路と、 推定された前記高調波位置における前記出力係数を少な
くとも1つ以上まとめて量子化する高調波量子化回路
と、 前記第1の直交変換回路の出力係数から前記高調波量子
化回路からの出力を除いた結果を量子化する量子化回路
と、 を含むことを特徴とする信号符号化装置。 - 【請求項2】前記ピッチ抽出回路が、前記第1の直交変
換回路からの前記出力係数に代わって、前記入力した信
号又は該信号に由来した信号から求めた相関関数を用い
てピッチ周波数を求めることを特徴とする請求項1記載
の信号符号化装置。 - 【請求項3】前記高調波量子化回路が、推定された高調
波位置における前記出力係数の極性を少なくとも1つ以
上まとめて量子化することを特徴とする請求項1記載の
信号符号化装置。 - 【請求項4】入力した信号又は該信号に由来する信号を
直交変換する第1の直交変換回路と、 前記信号からスペクトルパラメータを求めて量子化する
スペクトルパラメータ量子化回路と、 前記量子化したスペクトルパラメータから聴感重み付け
フィルタのインパルス応答を求めるインパルス応答計算
回路と、 前記インパルス応答又は前記インパルス応答に由来する
信号を直交変換する第2の直交変換回路と、 前記第1の直交変換回路からの出力係数を用いてピッチ
周波数を抽出するピッチ抽出回路と、 前記ピッチ周波数を用いて前記出力係数上における高調
波位置を推定する高調波推定回路と、 推定された高調波位置における前記第1の直交変換回路
からの前記出力係数を少なくとも1つ以上まとめ前記第
2の直交変換回路からの出力係数を用いて量子化する高
調波量子化回路と、 前記第1の直交変換回路からの前記出力係数から前記高
調波量子化回路の出力を除いた結果を前記第2の直交変
換回路の出力係数を用いて量子化する量子化回路と、 を含むことを特徴とする信号符号化装置。 - 【請求項5】前記ピッチ抽出回路が、前記第1の直交変
換回路からの前記出力係数に代わって、前記入力した信
号又は該信号に由来した信号から求めた相関関数を用い
てピッチ周波数を求めることを特徴とする請求項4記載
の信号符号化装置。 - 【請求項6】前記高調波量子化回路が、推定された高調
波位置における前記出力係数の極性を少なくとも1つ以
上まとめて量子化することを特徴とする請求項4記載の
信号符号化装置。 - 【請求項7】入力した信号もしくは該信号に由来する信
号を直交変換する第1の直交変換回路と、 前記第1の直交変換回路の出力係数を用いてピッチ周波
数を抽出するピッチ抽出回路と、 前記ピッチ周波数を用いてパルスを繰り返しながら第1
のパルスを探索すると共に、前記ピッチ周波数を用いず
に第2のパルスを探索するパルス探索回路と、 前記第1のパルスと第2のパルスのうち前記第1の直交
変換回路からの出力係数を良好に表すものを選択する選
択回路と、 前記パルスの振幅を少なくとも1つ以上まとめて量子化
するパルス量子化回路と、 前記第1の直交変換回路からの出力係数から前記パルス
量子化回路の出力を除いた結果を量子化する量子化回路
と、 を含むことを特徴とする信号符号化装置。 - 【請求項8】前記ピッチ抽出回路が、前記第1の直交変
換回路からの前記出力係数に代わって、前記入力した信
号又は該信号に由来した信号から求めた相関関数を用い
てピッチ周波数を求めることを特徴とする請求項7記載
の信号符号化装置。 - 【請求項9】前記ピッチ抽出回路が、ピッチを抽出した
際に入力信号の有声無声判別を行ない判別情報を出力
し、 前記パルス探索回路において、前記判別情報に応じて前
記第1のパルスと第2のパルスを切替えて探索すること
を特徴とする請求項8記載の信号符号化装置。 - 【請求項10】前記パルス量子化回路が、パルスの極性
を少なくとも1つ以上まとめて量子化することを特徴と
する請求項7記載の信号符号化装置。 - 【請求項11】入力した信号又は前記信号に由来する信
号を直交変換する第1の直交変換回路と、 前記信号からスペクトルパラメータを求めて量子化する
スペクトルパラメータ量子化回路と、 前記量子化したスペクトルパラメータから聴感重み付け
フィルタのインパルス応答を求めるインパルス応答計算
回路と、 前記インパルス応答又は前記インパルス応答に由来する
信号を直交変換する第2の直交変換回路と、 前記第1の直交変換回路の出力係数を用いてピッチ周波
数を抽出するピッチ抽出回路と、 前記ピッチ周波数を用いてパルスを繰り返しながら第1
のパルスを探索しさらに前記ピッチ周波数を用いずに第
2のパルスを探索するパルス探索回路と、 前記第1のパルスと第2のパルスの内で第1の直交変換
回路の出力係数を良好に表すものを選択する選択回路
と、 前記パルスの振幅を少なくとも1つ以上まとめて量子化
する高調波量子化回路と、 前記第1の直交変換回路の出力係数から前記高調波量子
化回路の出力を除いた結果を第2の直交変換回路の出力
係数を用いて量子化する量子化回路と、 を含むことを特徴とする信号符号化装置。 - 【請求項12】前記ピッチ抽出回路が、前記第1の直交
変換回路からの前記出力係数に変わって、前記入力した
信号もしくは該入力信号に由来する信号から求めた相関
関数を用いてピッチ周波数を求めることを特徴とする請
求項11記載の信号符号化装置。 - 【請求項13】前記ピッチ抽出回路が、ピッチを抽出し
た際に入力信号の有声無声判別を行ない判別情報を出力
し、 前記パルス探索回路において、前記判別情報に応じて第
1のパルスと第2のパルスを切替えて探索することを特
徴とする請求項12記載の信号符号化装置。 - 【請求項14】前記高調波量子化回路が、パルスの極性
を少なくとも1つ以上まとめて量子化することを特徴と
する請求項11記載の信号符号化装置。 - 【請求項15】(a)入力信号を直交変換して得られる出
力係数を用いてピッチ周波数を抽出し、 (b)抽出されたピッチ周波数を用いて前記変換係数上の
高調波位置を推定し、 (c)前記入力信号の前記直交変換による出力係数と、前
記高調波位置での前記出力係数を少なくとも1つ以上を
まとめて量子化した結果と、の差分を求め、 (d)上記差分を量子化する、 ことを特徴とする信号の符号化方法。 - 【請求項16】(a)入力信号を直交変換して得られる出
力係数からピッチ周波数を抽出し、 (b)抽出されたピッチ周波数を用いてパルスを繰り返し
てたてながら予め定められた個数のパルスを求めて第1
の歪みを計算し、 (c)前記ピッチ周波数を用いずにパルスをたてて第2の
歪みを求め、 (d)前記第1の歪みと前記第2の歪みを比較し小さい方
のパルス列を選択し、 (e)前記パルスの振幅を少なくとも1つ以上まとめて量
子化し、 (f)前記入力信号を直交変換して得られた前記出力係数
から前記パルスを量子化した結果を差分した結果を量子
化する、 ことを特徴とする信号の符号化方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7350138A JP2778567B2 (ja) | 1995-12-23 | 1995-12-23 | 信号符号化装置及び方法 |
CA002193577A CA2193577C (en) | 1995-12-23 | 1996-12-20 | Coding of a speech or music signal with quantization of harmonics components specifically and then residue components |
US08/773,523 US5806024A (en) | 1995-12-23 | 1996-12-23 | Coding of a speech or music signal with quantization of harmonics components specifically and then residue components |
DE69620560T DE69620560T2 (de) | 1995-12-23 | 1996-12-23 | Kodierverfahren eines Sprach- oder Musiksignals mittels Quantisierung harmonischer Komponenten sowie im Anschluss daran Quantisierung der Residuen |
EP96120797A EP0780831B1 (en) | 1995-12-23 | 1996-12-23 | Coding of a speech or music signal with quantization of harmonics components specifically and then of residue components |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7350138A JP2778567B2 (ja) | 1995-12-23 | 1995-12-23 | 信号符号化装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09181611A JPH09181611A (ja) | 1997-07-11 |
JP2778567B2 true JP2778567B2 (ja) | 1998-07-23 |
Family
ID=18408488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7350138A Expired - Fee Related JP2778567B2 (ja) | 1995-12-23 | 1995-12-23 | 信号符号化装置及び方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US5806024A (ja) |
EP (1) | EP0780831B1 (ja) |
JP (1) | JP2778567B2 (ja) |
CA (1) | CA2193577C (ja) |
DE (1) | DE69620560T2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1763844B (zh) * | 2004-10-18 | 2010-05-05 | 中国科学院声学研究所 | 基于滑动窗口的端点检测方法、装置和语音识别系统 |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5680508A (en) * | 1991-05-03 | 1997-10-21 | Itt Corporation | Enhancement of speech coding in background noise for low-rate speech coder |
US6904404B1 (en) | 1996-07-01 | 2005-06-07 | Matsushita Electric Industrial Co., Ltd. | Multistage inverse quantization having the plurality of frequency bands |
JP3147807B2 (ja) * | 1997-03-21 | 2001-03-19 | 日本電気株式会社 | 信号符号化装置 |
US7228280B1 (en) | 1997-04-15 | 2007-06-05 | Gracenote, Inc. | Finding database match for file based on file characteristics |
GB2326572A (en) * | 1997-06-19 | 1998-12-23 | Softsound Limited | Low bit rate audio coder and decoder |
US6339804B1 (en) * | 1998-01-21 | 2002-01-15 | Kabushiki Kaisha Seiko Sho. | Fast-forward/fast-backward intermittent reproduction of compressed digital data frame using compression parameter value calculated from parameter-calculation-target frame not previously reproduced |
US6353808B1 (en) * | 1998-10-22 | 2002-03-05 | Sony Corporation | Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal |
US6298322B1 (en) | 1999-05-06 | 2001-10-02 | Eric Lindemann | Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal |
US8326584B1 (en) | 1999-09-14 | 2012-12-04 | Gracenote, Inc. | Music searching methods based on human perception |
US6587816B1 (en) | 2000-07-14 | 2003-07-01 | International Business Machines Corporation | Fast frequency-domain pitch estimation |
JP3823804B2 (ja) * | 2001-10-22 | 2006-09-20 | ソニー株式会社 | 信号処理方法及び装置、信号処理プログラム、並びに記録媒体 |
JP3750583B2 (ja) * | 2001-10-22 | 2006-03-01 | ソニー株式会社 | 信号処理方法及び装置、並びに信号処理プログラム |
JP3997749B2 (ja) * | 2001-10-22 | 2007-10-24 | ソニー株式会社 | 信号処理方法及び装置、信号処理プログラム、並びに記録媒体 |
KR100462611B1 (ko) * | 2002-06-27 | 2004-12-20 | 삼성전자주식회사 | 하모닉 성분을 이용한 오디오 코딩방법 및 장치 |
US7376553B2 (en) * | 2003-07-08 | 2008-05-20 | Robert Patel Quinn | Fractal harmonic overtone mapping of speech and musical sounds |
JP5036317B2 (ja) | 2004-10-28 | 2012-09-26 | パナソニック株式会社 | スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法 |
CN101116137B (zh) * | 2005-02-10 | 2011-02-09 | 松下电器产业株式会社 | 语音编码中的脉冲分配方法 |
EP2009623A1 (en) * | 2007-06-27 | 2008-12-31 | Nokia Siemens Networks Oy | Speech coding |
MY152167A (en) * | 2007-03-02 | 2014-08-15 | Panasonic Corp | Encoding device and encoding method |
JP6062370B2 (ja) | 2011-10-28 | 2017-01-18 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 符号化装置および符号化方法 |
US9224402B2 (en) | 2013-09-30 | 2015-12-29 | International Business Machines Corporation | Wideband speech parameterization for high quality synthesis, transformation and quantization |
CA2940657C (en) | 2014-04-17 | 2021-12-21 | Voiceage Corporation | Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates |
EP3447766B1 (en) * | 2014-04-24 | 2020-04-08 | Nippon Telegraph and Telephone Corporation | Encoding method, encoding apparatus, corresponding program and recording medium |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4184049A (en) * | 1978-08-25 | 1980-01-15 | Bell Telephone Laboratories, Incorporated | Transform speech signal coding with pitch controlled adaptive quantizing |
CA1197619A (en) * | 1982-12-24 | 1985-12-03 | Kazunori Ozawa | Voice encoding systems |
US4669120A (en) * | 1983-07-08 | 1987-05-26 | Nec Corporation | Low bit-rate speech coding with decision of a location of each exciting pulse of a train concurrently with optimum amplitudes of pulses |
US4724535A (en) * | 1984-04-17 | 1988-02-09 | Nec Corporation | Low bit-rate pattern coding with recursive orthogonal decision of parameters |
CA1255802A (en) * | 1984-07-05 | 1989-06-13 | Kazunori Ozawa | Low bit-rate pattern encoding and decoding with a reduced number of excitation pulses |
IT1180126B (it) * | 1984-11-13 | 1987-09-23 | Cselt Centro Studi Lab Telecom | Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante tecniche di quantizzazione vettoriale |
CA1252568A (en) * | 1984-12-24 | 1989-04-11 | Kazunori Ozawa | Low bit-rate pattern encoding and decoding capable of reducing an information transmission rate |
US4797926A (en) * | 1986-09-11 | 1989-01-10 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech vocoder |
CA1332982C (en) * | 1987-04-02 | 1994-11-08 | Robert J. Mcauley | Coding of acoustic waveforms |
EP0374941B1 (en) * | 1988-12-23 | 1995-08-09 | Nec Corporation | Communication system capable of improving a speech quality by effectively calculating excitation multipulses |
JP2903533B2 (ja) * | 1989-03-22 | 1999-06-07 | 日本電気株式会社 | 音声符号化方式 |
DE68916944T2 (de) * | 1989-04-11 | 1995-03-16 | Ibm | Verfahren zur schnellen Bestimmung der Grundfrequenz in Sprachcodierern mit langfristiger Prädiktion. |
US5271089A (en) * | 1990-11-02 | 1993-12-14 | Nec Corporation | Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits |
ZA921988B (en) * | 1991-03-29 | 1993-02-24 | Sony Corp | High efficiency digital data encoding and decoding apparatus |
JPH0815261B2 (ja) * | 1991-06-06 | 1996-02-14 | 松下電器産業株式会社 | 適応変換ベクトル量子化符号化法 |
JP3218679B2 (ja) * | 1992-04-15 | 2001-10-15 | ソニー株式会社 | 高能率符号化方法 |
JP3343965B2 (ja) * | 1992-10-31 | 2002-11-11 | ソニー株式会社 | 音声符号化方法及び復号化方法 |
US5598504A (en) * | 1993-03-15 | 1997-01-28 | Nec Corporation | Speech coding system to reduce distortion through signal overlap |
US5574823A (en) * | 1993-06-23 | 1996-11-12 | Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Communications | Frequency selective harmonic coding |
US5684920A (en) * | 1994-03-17 | 1997-11-04 | Nippon Telegraph And Telephone | Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein |
US5651090A (en) * | 1994-05-06 | 1997-07-22 | Nippon Telegraph And Telephone Corporation | Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor |
US5787387A (en) * | 1994-07-11 | 1998-07-28 | Voxware, Inc. | Harmonic adaptive speech coding method and system |
-
1995
- 1995-12-23 JP JP7350138A patent/JP2778567B2/ja not_active Expired - Fee Related
-
1996
- 1996-12-20 CA CA002193577A patent/CA2193577C/en not_active Expired - Fee Related
- 1996-12-23 DE DE69620560T patent/DE69620560T2/de not_active Expired - Lifetime
- 1996-12-23 US US08/773,523 patent/US5806024A/en not_active Expired - Lifetime
- 1996-12-23 EP EP96120797A patent/EP0780831B1/en not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1763844B (zh) * | 2004-10-18 | 2010-05-05 | 中国科学院声学研究所 | 基于滑动窗口的端点检测方法、装置和语音识别系统 |
Also Published As
Publication number | Publication date |
---|---|
EP0780831B1 (en) | 2002-04-10 |
EP0780831A3 (en) | 1998-08-05 |
DE69620560D1 (de) | 2002-05-16 |
CA2193577C (en) | 2001-03-06 |
DE69620560T2 (de) | 2002-11-28 |
JPH09181611A (ja) | 1997-07-11 |
CA2193577A1 (en) | 1997-06-24 |
US5806024A (en) | 1998-09-08 |
EP0780831A2 (en) | 1997-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2778567B2 (ja) | 信号符号化装置及び方法 | |
CN101751921B (zh) | 一种在训练数据量极少条件下的实时语音转换方法 | |
JP3094908B2 (ja) | 音声符号化装置 | |
US20070118365A1 (en) | Methods and apparatuses for variable dimension vector quantization | |
JPH0990995A (ja) | 音声符号化装置 | |
US20050114123A1 (en) | Speech processing system and method | |
JP3335841B2 (ja) | 信号符号化装置 | |
KR20070085788A (ko) | 신호 속성들을 사용한 효율적인 오디오 코딩 | |
JP2779325B2 (ja) | ボコーダーにおける前処理の相関関係式を用いたピッチ検索時間短縮方法 | |
US6208962B1 (en) | Signal coding system | |
JP3147807B2 (ja) | 信号符号化装置 | |
JP3218679B2 (ja) | 高能率符号化方法 | |
JPH09230898A (ja) | 音響信号変換符号化方法及び復号化方法 | |
JP3185748B2 (ja) | 信号符号化装置 | |
JP3186013B2 (ja) | 音響信号変換符号化方法及びその復号化方法 | |
JP3153075B2 (ja) | 音声符号化装置 | |
JP3471542B2 (ja) | 音声符号化装置 | |
EP0713208A2 (en) | Pitch lag estimation system | |
Touazi et al. | An efficient low bit-rate compression scheme of acoustic features for distributed speech recognition | |
Ramadan | Compressive sampling of speech signals | |
JP3144244B2 (ja) | 音声符号化装置 | |
Ozaydin | Residual Lsf Vector Quantization Using Arma Prediction | |
JPH0844397A (ja) | 音声符号化装置 | |
JPH09319399A (ja) | 音声符号化装置 | |
JP2002244700A (ja) | 音声符号化装置、音声符号化方法および記憶素子 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19980407 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090508 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100508 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110508 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110508 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120508 Year of fee payment: 14 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120508 Year of fee payment: 14 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130508 Year of fee payment: 15 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140508 Year of fee payment: 16 |
|
LAPS | Cancellation because of no payment of annual fees |