JPH03245200A - 音声情報圧縮方法 - Google Patents

音声情報圧縮方法

Info

Publication number
JPH03245200A
JPH03245200A JP2041139A JP4113990A JPH03245200A JP H03245200 A JPH03245200 A JP H03245200A JP 2041139 A JP2041139 A JP 2041139A JP 4113990 A JP4113990 A JP 4113990A JP H03245200 A JPH03245200 A JP H03245200A
Authority
JP
Japan
Prior art keywords
power spectrum
pitch period
pse
pitch
cepstrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2041139A
Other languages
English (en)
Inventor
Katsuya Yamazaki
勝也 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2041139A priority Critical patent/JPH03245200A/ja
Publication of JPH03245200A publication Critical patent/JPH03245200A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野コ 本発明は音声情報圧縮装置に係り、特に高品質な再生音
を得ることに好適な音声情報圧縮方法に関する。
[従来の技術] 従来の音声情報圧縮方法は、中島隆之、鈴木虎三F基本
周波数間隔標本化に基づく音声パワースペクト包線分析
法」 (信学技報S P86−94 (19871))
に記載のように、基本周波数に基づく新しい音声パワー
スペクトル包R(I〕ST:jの定義を「短時間パワー
スペクトル特性において、周波数軸上で零周波数を原点
とし、基本周波数間隔で標本化した値を原データ系列と
し、そこから雑音成分を除いて推定される最適特性であ
る。」とし、ケフレンシー軸に沿ったピークを中心にそ
の前後2点の合計5点を抽出し、5点内挿曲線のピーク
を得て、ここから基本周波数(ピッチ周波数)をネめて
いた。
[発明が解決しようとする課M] 上記従来技術は実用化する上で入力音声データおよび対
数パワースペクトルに対して島速フーリエ変換(FFI
”)のポイント数を削減した場合に。
入力音声の標本化周波数を8kHzとして対数パワース
ペクトル周波数軸の最小単位が2048ポイントで約4
止に対して256ポイントで約31止と幅が大きいため
、ケプストラムでの最大値位置にも同等以上の誤差が生
じるものと考えられる。このように実用化のためにFF
Tのポイント数を減らすとケプストラムの最大値位置か
ら得られるピッチ周期にも誤差が含まれ、これを使用し
て得たPSEが対数パワースペクトルの極大値を標本化
できず、正常なPSEが得られないという問題があった
6本発明の目的はFFTのポイント数を減らして得たピ
ッチ周期を対数パワースペクトルを用いて補正し、補正
したピッチ周期に基づき対数パワースペクトル上の近傍
極大値を探索して内挿により正常なPSEを得ることで
音声情報圧縮の高品質を保証できる音声情報圧縮方法を
提供することにある。
[課題を解決するための手段] 上記目的を達成するために、本発明による音声情報圧縮
方法は、上記従来技術の文献によるPSEの定義を用い
、FFTのポイント数が少ない場合においても入力音声
データを2回にFFTすることにより得られるケプスト
ラムの最大値を与えるケフレンシー軸の値からピッチ周
期を求めた後に、対数パワースペクトル周波数軸上の対
応点に最も近い極大値を探索して前後の値から内挿する
ことにより真の極大値を与える周波数軸上の点を求め、
この点とピッチ周期の対応点との差からピッチ周期を補
正し、この補正したピッチ周期に基づき正確なPSEを
求めるために対数パワースペクトルに対してピッチ周期
間隔で標本化する際に近傍極大値を探索し、その前後の
値から内挿することにより真の極大値を求めて、これを
PSEの原データ系列とするようにしたものである。
[作用コ 上記音声情報圧縮方法では、ピッチ周期は入力音声デー
タを2回FFTして得られたケプストラムの最大値を与
えるケフレンシー値から求められるが、1回目のFFT
で得られるパワースペクトルの周波数分解能は人力音声
の標本化周波数が8kl(zのときに2048ポイント
で3 、9 ] H2に対し256ポイントで31.2
&と悪く、2回目のFFTで得られるケプストラムの最
大値を与えるケフレンシー値から求まるピッチ周期にも
誤差が伝播されるので、対数パワースペクトルに対して
ピッチ回期間隔で標本化したPSEは極大値を通らずに
最適特性を示さないPSEとなり、これに対してピッチ
周期を対数パワースペクトル上の最近傍極大値を与える
周波数で補正し、対数パワースペクトルに対してピッチ
間隔で標本化する際に最近傍極大値を原データとするの
で、PSEの標本化値はすべて極大値を通るようになり
、PSEの定義通りの標本化を行なうことができる。
[実施例] 以下に本発明の一実施例を第1図および第2図により説
明する。
第1図は本発明による音声情報圧縮方法の一実施例を示
す音声情報圧縮装置送信側のブロック図である。本音声
情報圧縮装置としては受(3側も備えているが、本発明
の特徴となるのは送信側であるので受信側は省略しであ
る。第1図において、入力音声1はアナログ/ディジタ
ル(A/D)変換器2を経て複数面構成のバッファメモ
リ3に入力される。このバッファメモリ3は必要な標本
化本数分の入力音声データを蓄えるために設けられてい
る。バッファメモリ3から入力音声データは一定の標本
化本数分揃うと分析音声設定部4に転送される。この音
声情報分析法としては上記文献の中貼らの「基本周波数
間隔標本化に基づく音声パワースペクトル色絡分析法」
を用いている。
この分析音声設定部4では入力音声データからスペクト
ル情報を分析するために分析窓を掛けてFFT用にデー
タの拡張を行なう。その分析窓長は20〜60ミリ秒の
固定長の区間とすることが多いが、ピッチ周期に依存し
てその3倍程度の可変長とすることもある。分析窓とし
てハミング窓等の窓関数を掛けた後に、前後に零データ
を埋め込んで256〜2086ポイントのFFT用デー
タとする。
このF F T用データをフーリエ変換部5で)−F 
Tすることにより入力音声データの周波数成分すなわち
スペクトルを得る6対数パワ一スペクトル部6ではスペ
クトルの各成分を2乗して対数化することにより対数パ
ワースペクトルを得る。ケプストラム部7では対数パワ
ースペクトルをさらにFFTすることにまりケプストラ
ムを得る。ピッチ抽出部8ではケプストラムの最大値に
対応するケフレンシー軸上の点よりピッチ周期を求め、
対数パワースペクトルによりピッチ周期を補正する。
その詳細な処理内容は後に第2図により説明する。
つぎのPSE標本化部9では対数パワースペクトルに対
してピッチ周期ごとのスペクトル値を標本化することに
よりPSE標本化データy、(1=0.1.・・・、N
−1)を得る。レベル正規化部10では入力音声データ
の大きさによるレベル変動を吸収するものであるが、余
弦変換部1】においてまとめて抽出することも可能であ
る。余弦変換部11ではPSE標本化データを有限項の
余弦級数により誤差2乗和が最小となるように係数パラ
メータを求める。余弦級数として次の式を用いるが、他
に有限次数の近似多項式等を用いることも可能である。
ここでA、 (i=o、i、・・・、M)が係数パラメ
ータであり、最小2乗法もしくは連立1次方程式の解法
により求める。係数パラメータAIlは音声レベル情報
としてスカラ量子化部12に量子化され、係数パラメー
タA1〜AMはベクトル量子化部13で量子化される。
量子化されたピッチ周期とレベル情報と係数パラメータ
は多重化・送信部14において多重化され、必要に応じ
て誤り訂正符号を付加して受信側へ送信される。
第2図は第1図のピッチ補正を含むピッチ抽出部8の処
理フロー図である。第2図において、ピッチ抽出部8で
のピッチ周期の抽出および補正についての処理の流れを
示している。ここでケプストラム部7で得られたケプス
トラムに対して、予想されるケフレンシー軸上の区間で
ケプストラムが最大となる値をピッチ周期とする。この
ピッチ周期を補正するために対数パワースペクトルの周
波数軸上の値に変換する9スペクトルは入力音声データ
が周期構造を有する場合にピッチの高調波に線スペクト
ル構造を有することにより、対数パワースペクトルの極
大点に位置するはずである。
したがって最も近い極大値を与える周波数軸上の点を求
め、ケプストラムから求めたピッチ周期の対応点のずれ
により、ピッチ周期を補正する。なお極大点の精度を向
上させるために極大値とその前後の値の3点もしくは5
点の内挿により真の極大点を求め、ケプストラムより求
めたピッチ周期との差の分だけ補正することにより最終
的なピッチ周期が求まる。
また上記のPSEの定義に基づき対数パワースペクトル
をピッチ周期ごとの標本化する際に極大値でない要素が
あれば、最近傍の極大値について前後の3点もしくは5
点の内挿により真の極太点とし、PSEを構成すること
により精度の高い色絡線を得て、256 F F Tポ
イントで得るPSEでも2048FFTポイントで得る
PSEと同等の粘度になる。
本実施例によれば、F 1丁のポイント数を減らして得
たピッチ周期を対数パワースペクトルを用いて補正し、
補正したピッチ周期に基づき対数パワースペクトル上の
近傍極大値を探索し、その内挿により正常なPSEを得
ることにより、音声情報圧縮の高品質を保証することが
できる9[発明の効果コ 本発明によれば、従来は2048 FF ’Fポイント
なければ得られなかったピッチ周期を対数パワースペク
トルの極大点位置を利用して256FFTポイントで同
等の正確さで得られるので、F” F Tの計算量が約
20分の1に削減でき、音声端Wl圧縮方法の装置化に
十分に適応できる効果がある。
また対数パワースペクトル上の極大値から補正してPS
Eを構成しているので、PSEモデル化時の周波数取分
の取りこぼしのない理想的な色絡線となる効果がある。
【図面の簡単な説明】
第1図は本発明1.−よる音声情報圧縮方法の一実施例
を示す送信側のブロック図、第2図は第1図のピッチ抽
出部の処理フロー図である。 1 人力音声、2・・・A/D変換器、3・・バッファ
メモリ、4 分析音声設定部、5・・フーリエ変換部、
6・対数パワースペクトル部、7・・・ケプストラム部
、8・ ピッチ抽出部、9・・・PSEm本化部、10
・・レベル正規化部、11・−余弦変換部、12・・ス
カラ量子化部、13・・ベクトル量子化部、 14  
多重化・送信部。

Claims (1)

    【特許請求の範囲】
  1. 1、標本化された入力音声データと、入力音声データを
    高速フーリエ変換FFTして得られるパワースペクトル
    と、パワースペクトルを再度FFTしたケプストラムを
    用いてピッチ抽出を行なう音声情報圧縮方法において、
    ケプストラムの最大値を示す点より得られたピッチ周期
    をパワースペクトルの極大値を示す点により補正するこ
    とにより正確なピッチ周期を求め、パワースペクトル包
    絡PSEを得るためにパワースペクトルをピッチ周期間
    隔で標本化する際に近傍極大値を探索して3点ないし5
    点の内挿により正確なPSEを得るようにしたことを特
    徴とする音声情報圧縮方法。
JP2041139A 1990-02-23 1990-02-23 音声情報圧縮方法 Pending JPH03245200A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2041139A JPH03245200A (ja) 1990-02-23 1990-02-23 音声情報圧縮方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2041139A JPH03245200A (ja) 1990-02-23 1990-02-23 音声情報圧縮方法

Publications (1)

Publication Number Publication Date
JPH03245200A true JPH03245200A (ja) 1991-10-31

Family

ID=12600100

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2041139A Pending JPH03245200A (ja) 1990-02-23 1990-02-23 音声情報圧縮方法

Country Status (1)

Country Link
JP (1) JPH03245200A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007088853A1 (ja) * 2006-01-31 2007-08-09 Matsushita Electric Industrial Co., Ltd. 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007088853A1 (ja) * 2006-01-31 2007-08-09 Matsushita Electric Industrial Co., Ltd. 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法
JPWO2007088853A1 (ja) * 2006-01-31 2009-06-25 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法

Similar Documents

Publication Publication Date Title
US5787387A (en) Harmonic adaptive speech coding method and system
JP4512574B2 (ja) 音声活動に基づくゲイン制限による音声強化についての方法、記録媒体、及び装置
AU656787B2 (en) Auditory model for parametrization of speech
KR101213840B1 (ko) 복호화 장치 및 복호화 방법, 및 복호화 장치를 구비하는 통신 단말 장치 및 기지국 장치
US8412526B2 (en) Restoration of high-order Mel frequency cepstral coefficients
JP5483000B2 (ja) 雑音抑圧装置、その方法及びプログラム
EP2425426B1 (en) Low complexity auditory event boundary detection
KR20080002756A (ko) 가중된 오버랩 애드 방법
WO1998043237A1 (en) Recognition system
US7305339B2 (en) Restoration of high-order Mel Frequency Cepstral Coefficients
JPH03245200A (ja) 音声情報圧縮方法
JPH11219198A (ja) 位相検出装置及び方法、並びに音声符号化装置及び方法
CN113454713B (zh) 相位ecu f0插值分割方法及相关控制器
US7177805B1 (en) Simplified noise suppression circuit
US6590946B1 (en) Method and apparatus for time-warping a digitized waveform to have an approximately fixed period
JP7341194B2 (ja) 処理されたオーディオ信号表現を提供するための装置およびオーディオ信号プロセッサ、オーディオデコーダ、オーディオエンコーダ、方法、ならびにコンピュータプログラム
TW201730876A (zh) 處理一編碼音源訊號之裝置及方法
RU2380765C2 (ru) Способ компрессии речевого сигнала
JP2871001B2 (ja) 音声分析合成装置
JP6616962B2 (ja) 信号処理装置及びプログラム
JP2002372982A (ja) 音響信号分析方法及び装置
Wang et al. Speech enhancement by bit-rate extension based on Time-frequency simultaneous-constrained Griffin-Lim algorithm
JPH04264599A (ja) 音声分析合成装置
JPH0636157B2 (ja) 帯域分割型ボコ−ダ
JP3468335B2 (ja) 音響信号の周波数領域変換係数の包絡推定方法