JPH08123490A - スペクトル包絡量子化装置 - Google Patents

スペクトル包絡量子化装置

Info

Publication number
JPH08123490A
JPH08123490A JP6258036A JP25803694A JPH08123490A JP H08123490 A JPH08123490 A JP H08123490A JP 6258036 A JP6258036 A JP 6258036A JP 25803694 A JP25803694 A JP 25803694A JP H08123490 A JPH08123490 A JP H08123490A
Authority
JP
Japan
Prior art keywords
spectrum
voice
envelope
masking characteristic
calculator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6258036A
Other languages
English (en)
Inventor
Tadashi Yonezaki
崎 正 米
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP6258036A priority Critical patent/JPH08123490A/ja
Publication of JPH08123490A publication Critical patent/JPH08123490A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 音声の生成過程のみならず聴覚特性をも考慮
してスペクトル包絡を抽出する。 【構成】 音声入力装置11に入力されて音声の対数パ
ワースペクトルをパワースペクトル算出器15で求め、
このスペクトルからマスキング特性算出器16で聴覚の
マスキングの周波数特性を求める。ベクトル量子化器1
4によるスペクトル包絡線の量子化にあたっては、得ら
れたマスキング特性を、ケプストラム分析器12および
フーリエ返還器13によって得られた入力音声のスペク
トル包絡線と比較し、入力音声がマスクされる周波数帯
域で、コードブックが表すスペクトル包絡線もマスキン
グ特性より小さい場合、その周波数帯域の距離尺度の重
みを0とする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、ディジタル電話やディ
ジタル録音器で必要な音声情報圧縮において使用される
スペクトル包絡量子化装置に関するものである。
【0002】
【従来の技術】近年、データを伝送または蓄積する媒体
が有限であることから、高圧縮率かつ高音声品質を可能
とする音声情報圧縮技術の実現が望まれている。特に、
音声信号の中でも重要な情報を占める声道情報、つま
り、音声信号のスペクトル包絡の効率良い情報圧縮を実
現するスペクトル包絡量子化装置が望まれている。
【0003】以下、従来のスペクトル包絡量子化装置に
ついて、図4に示すブロック図を用いて説明する。図4
において、1は音声を入力する音声入力装置である。2
はケプストラム分析器で、入力音声をケプストラム分析
し、入力音声の音源情報と声道情報(スペクトル包絡)
とを分離し、スペクトル包絡を抽出する。3はベクトル
量子化器で、抽出されたスペクトル包絡を表すケプスト
ラム係数をベクトル量子化する。
【0004】以上のように、構成されたスペクトル包絡
量子化装置について、以下、その動作について説明す
る。まず、音声入力装置1で入力された音声は、ケプス
トラム分析器2で行なわれるケプストラム分析によって
ケフレンシー領域へ変換され、ケフレンシー軸上におい
て、音源情報は高域、声道情報は低域に分離される。こ
こから低域成分のみを取り出すことによって、入力音声
のスペクトル包絡を求める。このようにして得られたス
ペクトル包絡を、ベクトル量子化器3で量子化する。
【0005】
【発明が解決しようとする課題】しかしながら、上記の
ような従来のスペクトル包絡量子化装置では、音声は、
音源で励起された信号が、声道によって周波数特性を与
えられることによって生成されるという、音声の生成過
程のみを考慮しており、聴覚系に起因する特性を考慮し
ていないので、高能率な情報圧縮ができないという問題
を有していた。
【0006】本発明は、このような従来の問題を解決す
るもので、音声の生成過程のみならず聴覚特性をも考慮
してスペクトル包絡を抽出することができるスペクトル
包絡量子化装置を提供することを目的とする。
【0007】
【課題を解決するための手段】上記目的を達成するため
に、本発明のスペクトル包絡量子化装置は、第1の構成
として、音声を入力する音声入力装置と、入力された音
声をケプストラム分析するケプストラム分析器と、算出
されたケプストラム係数からスペクトル包絡線を算出す
るフーリエ変換器と、入力された音声の対数パワースペ
クトルを算出するパワースペクトル算出器と、パワース
ペクトルからマスキング特性を算出するマスキング特性
算出器と、マスキング特性を重みとしてケプストラム係
数を量子化するベクトル量子化器とを備えたものであ
る。
【0008】また本発明は、第2の構成として、音声を
入力する音声入力装置と、入力された音声をケプストラ
ム分析するケプストラム分析器と、算出されたケプスト
ラム係数からスペクトル包絡線を算出するフーリエ変換
器と、入力された音声の対数パワースペクトルを算出す
るパワースペクトル算出器と、算出されたパワースペク
トルから隣接周波数マスキング特性を算出し、その特性
を示す包絡を求める同時マスキング特性算出器と、同時
マスキング特性のスペクトル包絡と継時マスキング特性
のスペクトル包絡とを比較し、各周波数点で最大値を通
るような包絡を求めるマスキング特性算出器と、前フレ
ームのマスキング特性が現フレームに及ぼすマスキング
特性を算出する継時マスキング特性算出器と、算出され
たマスキング特性を1フレーム分保持するフレーム遅延
器と、マスキング特性を重み付けしてケプストラム係数
を量子化するベクトル量子化器とを備えたものである。
【0009】また本発明は、第3の構成として、音声を
入力する音声入力装置と、入力された音声のスペクトル
包絡線を求めるスペクトル分析器と、得られたスペクト
ル包絡線を与えるパラメータを抽出するパラメータ抽出
器と、入力された音声に聴覚特性を持ったフィルタを掛
ける聴覚フィルタリング器と、聴覚フィルタリングされ
た入力音声を基にスペクトルの重み付け係数を算出する
聴覚重み算出器と、重み付け係数に従って重み付けした
スペクトル包絡線に近いパラメータを求めるベクトル量
子化器とを備えたものである。
【0010】
【作用】本発明は、上記第1の構成により、ケプストラ
ム係数を量子化する際に、マスキング特性よりパワーが
小さく聴感に影響のない帯域の信号を考慮する必要がな
くなり、聴感に影響のある信号に重みを付けた量子化が
可能となり、量子化の効率が良くなる。
【0011】また本発明は、上記第2の構成により、フ
レーム間のマスキング効果をも考慮した情報削減を行な
うことで、より大きな量子化効率の向上を望むことがで
きる。
【0012】また本発明は、上記第3の構成により、聴
覚特性に基づくフィルタを掛けた入力音声を分析し、ス
ペクトル聴覚重み付けを求めることにより、聴覚特性に
即したパラメータの量子化を行なうことができるので、
聴感上で量子化の精度を向上させることができる。
【0013】
【実施例】
(実施例1)以下、本発明の実施例のスペクトル包絡量
子化装置について、図面を参照しながら説明する。図1
は本発明の第1の実施例におけるスペクトル包絡量子化
装置のブロック図を示すものである。図1において、1
1は音声を入力する音声入力装置である。12はケプス
トラム分析器で、入力された音声をケプストラム分析
し、ケフレンシー軸上で音源情報と声道情報の分離を行
なう。13はフーリエ変換器で、算出されたケプストラ
ム係数をフーリエ変換してスペクトル包絡線を求める。
14はベクトル量子化器で、マスキング特性算出器16
から得られるマスキング特性を用いて、ケプストラム係
数をスペクトル上で重み付けして量子化する。15はパ
ワースペクトル算出器で、音声入力装置11に入力され
た音声のパワースペクトルを算出する。16はマスキン
グ特性算出器で、パワースペクトル算出器15により算
出されたパワースペクトルを用いてマスキング特性を算
出し、その特性を示す包絡を求める。
【0014】以上のように構成されたスペクトル包絡量
子化装置について、その動作を説明する。まず、音声入
力装置11によって入力された音声は、ケプストラム分
析器12によってケプストラム分析される。ケプストラ
ム分析では、時間軸上では音源と声道フィルタとの畳み
込みで表現されている音声信号を周波数軸上で対数をと
り、再度、ケフレンシー軸上に変換することにより音源
情報と声道情報を分離することができる。このようにし
て算出されたケプストラム係数をフーリエ変換器13で
フーリエ変換し、入力音声のスペクトル包絡を求める。
一方、パワースペクトル算出器15では、入力された音
声の対数パワースペクトルを求め、このスペクトルを用
いて、マスキング特性算出器16で、聴覚のマスキング
特性の周波数特性を求める。ここで、マスキングとは、
ある周波数に含まれる大きな音圧によって隣接する周波
数に含まれる信号が聞こえなくなる現象であり、聴覚の
性質の一つである。マスキング特性の算出は、あらかじ
め周波数帯域毎に隣接周波数に対するマスキング特性の
臨界線が定められており、求められたパワースペクトル
の各周波数点に対して、このマスキング臨界線を算出
し、その最大値を求めることによって実現する。このよ
うにして求められたマスキング特性を用いて、ケプスト
ラム係数をベクトル量子化器14でベクトル量子化す
る。量子化では、ケプストラム分析によって得られたス
ペクトル包絡線がマスキング特性より小さい周波数帯域
において、コードブックから得られるスペクトル包絡線
もマスキング特性より小さければ、その帯域における量
子化の距離尺度に値する重みを0とする。そして、マス
キング特性より大きな周波数帯域のみを用いてベクトル
量子化する。
【0015】以上の動作により、聴感に影響がなく、マ
スクされる信号を考慮せずに量子化することが可能とな
り、効率良いスペクトル包絡の量子化が実現できる。
【0016】(実施例2)図2は本発明の第2の実施例
におけるスペクトル包絡量子化装置のブロック図を示す
ものである。図2において、21は音声を入力する音声
入力装置である。22はケプストラム分析器で、入力さ
れた音声をケプストラム分析し、ケフレンシー軸上で音
源情報と声道情報の分離を行なう。23はフーリエ変換
器で、ケプストラム係数からスペクトル包絡線を算出す
る。24はベクトル量子化器で、マスキング特性算出器
27によって導出されたマスキング特性を考慮してケプ
ストラム係数を量子化する。25はパワースペクトル算
出器で、音声入力装置21に入力された音声のパワース
ペクトルを算出する。26は同時マスキング特性算出器
で、パワースペクトル算出器25により算出されたパワ
ースペクトルを用いて、そのフレームにおける隣接周波
数マスキング特性を算出し、その特性を示す包絡を求め
る。27はマスキング特性算出器で、フレーム内の隣接
周波数をマスクする同時マスキング特性のスペクトル包
絡と、フレーム間のマスキング効果を考慮した継時マス
キング特性のスペクトル包絡とを比較し、各周波数点で
最大値を通るような包絡を求める。28は継時マスキン
グ特性算出器で、前フレームのマスキング特性が現フレ
ームに及ぼすマスキング特性を算出する。29はフレー
ム遅延器で、算出されたマスキング特性を1フレーム分
保持する。
【0017】以上のように構成されたスペクトル包絡量
子化装置について、その動作を説明する。まず、実施例
1と同様、音声入力装置21によって入力された音声
は、ケプストラム分析器22によってケプストラム分析
される。算出されたケプストラム係数をフーリエ変換器
23でフーリエ変換し、スペクトル包絡線を求める。一
方、パワースペクトル算出器25では、入力された音声
の対数パワースペクトルを求め、このスペクトルを用い
て、同時マスキング特性算出器26により聴覚のマスキ
ング特性の周波数特性を求める。ここで求めるマスキン
グ特性とは、実施例1と同様、ある周波数で発生してい
る信号が、同時に発生している他の周波数の信号によっ
てマスクされる臨界線を示す。ここで求められた同時マ
スキング特性と、継時マスキング特性算出器28によっ
て求められた継時マスキング特性とを、マスキング特性
算出器27で各周波数点毎に比較し、大きい点をとるこ
とにより、双方のマスキング特性を考慮したマスキング
特性を求める。算出されたマスキング特性は、フレーム
遅延器29によって1フレーム、バッファリングされた
後、継時マスキング特性算出器28へ入力され、ここで
継時マスキング特性が求められる。継時マスキング特性
とは、時間的に従属したフレーム間で起こるマスク効果
で、前フレームで求められたマスキング特性のゲインを
減少させることによって求める。このようにして求めら
れたマスキング特性を周波数軸上での重みとして、ベク
トル量子化器24でケプストラム係数をベクトル量子化
する。
【0018】以上の動作により、マスクされる信号の大
きさを正確に量子化せず、聴感に影響しない信号の重み
を0とすることで、音声のスペクトル包絡を量子化する
際に、聴覚特性を考慮した重み付けをすることができ、
効率良いスペクトル包絡の量子化が実現できる。
【0019】(実施例3)図3は本発明の第3の実施例
におけるスペクトル包絡量子化装置のブロック図を示す
ものでる。図3において、31は音声を入力する音声入
力装置である。32はスペクトル分析器で、入力音声の
スペクトル包絡線を求める。33はパラメータ抽出器
で、入力音声のスペクトル包絡線を与えるパラメータを
抽出する。34はベクトル量子化器で、得られたパラメ
ータを聴感上の重みを考慮してベクトル量子化する。3
5は聴覚フィルタリング器で、外耳・中耳の音響特性を
擬似したバンドパスフィルタと、内耳の特性を擬似した
蝸牛フィルタを直列に用いて、入力した音声にフィルタ
を掛けることで聴覚特性の擬似を行なう。36は聴覚重
み算出器で、フィルタイングされた入力音声から、聴感
上重要な周波数帯域に重み付けをする。
【0020】以上のように構成されたスペクトル包絡量
子化装置について、その動作を説明する。まず、音声入
力装置31によって入力された音声は、スペクトル分析
器32によってスペクトル包絡線を求められる。このス
ペクトル包絡線を与えるパラメータは、パラメータ抽出
器33によって抽出される。一方、聴覚フィルタリング
器35では、入力された音声は、まずバンドパスフィル
タ、続いて蝸牛フィルタに掛けられる。蝸牛フィルタ
は、入力される音の大きさや周波数に応じて中心周波数
やQが変化する非線形フィルタを周波数帯域数分直列に
並べた構造をもつフィルタであり、フォルマントを強調
する効果がある。このようにフィルタリングされた音声
の周波数特性から、各周波数における信号が聴感に与え
る影響の大きさを推定することができる。つまり、聴覚
重み算出器36では、聴覚フィルタリングされた音声の
周波数特性上で、大きなゲインを持つ周波数に対し重み
付けを行なう。パラメータ抽出器33より抽出されたパ
ラメータは、この聴覚重みに従って重み付けし、入力音
声のスペクトル包絡線に近くなるようにベクトル量子化
器34で量子化される。
【0021】以上の動作により、パラメータの量子化に
おいて、聴覚特性を用いた重み付けを行なうことで、聴
感上の精度が良いスペクトル包絡の量子化が実現でき
る。
【0022】
【発明の効果】以上のように本発明によれば、聴感に影
響のない周波数帯域の信号の大きさを考慮することなく
スペクトル包絡を求めることにより、量子化効率を向上
させることができる。また、パラメータの量子化におい
て、聴感を考慮した重み付けを行なうことにより、聴感
上、精度良くスペクトル包絡パラメータを量子化するこ
とができる。
【図面の簡単な説明】
【図1】本発明の第1の実施例におけるスペクトル包絡
量子化装置のブロック図
【図2】本発明の第2の実施例におけるスペクトル包絡
量子化装置のブロック図
【図3】本発明の第3の実施例におけるスペクトル包絡
量子化装置のブロック図
【図4】従来のスペクトル包絡量子化装置のブロック図
【符号の説明】
11 音声入力装置 12 ケプストラム分析器 13 フーリエ変換器 14 ベクトル量子化器 15 パワースペクトル算出器 16 マスキング特性算出器 21 音声入力装置 22 ケプストラム分析器 23 フーリエ変換器 24 ベクトル量子化器 25 パワースペクトル算出器 26 同時マスキング特性算出器 17 マスキング特性算出器 28 継時マスキング特性算出器 29 フレーム遅延器 31 音声入力装置 32 スペクトル分析器 33 パラメータ抽出器 34 ベクトル量子化器 35 聴覚フィルタリング器 36 聴覚重み算出器

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 音声を入力する音声入力装置と、入力さ
    れた音声をケプストラム分析するケプストラム分析器
    と、算出されたケプストラム係数からスペクトル包絡線
    を算出するフーリエ変換器と、入力された音声の対数パ
    ワースペクトルを算出するパワースペクトル算出器と、
    パワースペクトルからマスキング特性を算出するマスキ
    ング特性算出器と、マスキング特性を重みとしてケプス
    トラム係数を量子化するベクトル量子化器とを備えたス
    ペクトル包絡量子化装置。
  2. 【請求項2】 音声を入力する音声入力装置と、入力さ
    れた音声をケプストラム分析するケプストラム分析器
    と、算出されたケプストラム係数からスペクトル包絡線
    を算出するフーリエ変換器と、入力された音声の対数パ
    ワースペクトルを算出するパワースペクトル算出器と、
    算出されたパワースペクトルから隣接周波数マスキング
    特性を算出し、その特性を示す包絡を求める同時マスキ
    ング特性算出器と、同時マスキング特性算出器のスペク
    トル包絡と継時マスキング特性のスペクトル包絡とを比
    較し、各周波数点で最大値を通るような包絡を求めるマ
    スキング特性算出器と、前フレームのマスキング特性が
    現フレームに及ぼすマスキング特性を算出する継時マス
    キング特性算出器と、算出されたマスキング特性を1フ
    レーム分保持するフレーム遅延器と、得られたマスキン
    グ特性を重みとしてケプストラム係数を量子化するベク
    トル量子化器とを備えたスペクトル包絡量子化装置。
  3. 【請求項3】 音声を入力する音声入力装置と、入力さ
    れた音声のスペクトル包絡線を求めるスペクトル分析器
    と、得られたスペクトル包絡線を与えるパラメータを抽
    出するパラメータ抽出器と、入力された音声に聴覚特性
    を持ったフィルタを掛ける聴覚フィルタリング器と、聴
    覚フィルタリングされた入力音声を基にスペクトルの重
    み付け係数を算出する聴覚重み算出器と、重み付け係数
    に従って重み付けしたスペクトル包絡線に近いパラメー
    タを求めるベクトル量子化器とを備えたスペクトル包絡
    量子化装置。
JP6258036A 1994-10-24 1994-10-24 スペクトル包絡量子化装置 Pending JPH08123490A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6258036A JPH08123490A (ja) 1994-10-24 1994-10-24 スペクトル包絡量子化装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6258036A JPH08123490A (ja) 1994-10-24 1994-10-24 スペクトル包絡量子化装置

Publications (1)

Publication Number Publication Date
JPH08123490A true JPH08123490A (ja) 1996-05-17

Family

ID=17314649

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6258036A Pending JPH08123490A (ja) 1994-10-24 1994-10-24 スペクトル包絡量子化装置

Country Status (1)

Country Link
JP (1) JPH08123490A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09321628A (ja) * 1996-05-29 1997-12-12 Nec Corp 音声符号化装置
WO2005064594A1 (ja) * 2003-12-26 2005-07-14 Matsushita Electric Industrial Co., Ltd. 音声・楽音符号化装置及び音声・楽音符号化方法
KR100556505B1 (ko) * 1998-05-14 2006-03-06 소니 가부시끼 가이샤 재생 및 기록 장치, 디코딩 장치, 기록 장치, 재생 및 기록 방법, 디코딩 방법, 및 기록 방법
WO2006030752A1 (ja) * 2004-09-17 2006-03-23 Matsushita Electric Industrial Co., Ltd. 音響処理装置
WO2007037359A1 (ja) * 2005-09-30 2007-04-05 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
JP5224017B2 (ja) * 2005-01-11 2013-07-03 日本電気株式会社 オーディオ符号化装置、オーディオ符号化方法およびオーディオ符号化プログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09321628A (ja) * 1996-05-29 1997-12-12 Nec Corp 音声符号化装置
KR100556505B1 (ko) * 1998-05-14 2006-03-06 소니 가부시끼 가이샤 재생 및 기록 장치, 디코딩 장치, 기록 장치, 재생 및 기록 방법, 디코딩 방법, 및 기록 방법
WO2005064594A1 (ja) * 2003-12-26 2005-07-14 Matsushita Electric Industrial Co., Ltd. 音声・楽音符号化装置及び音声・楽音符号化方法
JPWO2005064594A1 (ja) * 2003-12-26 2007-07-19 松下電器産業株式会社 音声・楽音符号化装置及び音声・楽音符号化方法
US7693707B2 (en) 2003-12-26 2010-04-06 Pansonic Corporation Voice/musical sound encoding device and voice/musical sound encoding method
JP4603485B2 (ja) * 2003-12-26 2010-12-22 パナソニック株式会社 音声・楽音符号化装置及び音声・楽音符号化方法
WO2006030752A1 (ja) * 2004-09-17 2006-03-23 Matsushita Electric Industrial Co., Ltd. 音響処理装置
JP5224017B2 (ja) * 2005-01-11 2013-07-03 日本電気株式会社 オーディオ符号化装置、オーディオ符号化方法およびオーディオ符号化プログラム
WO2007037359A1 (ja) * 2005-09-30 2007-04-05 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法

Similar Documents

Publication Publication Date Title
CA2249792C (en) Audio signal compression method, audio signal compression apparatus, speech signal compression method, speech signal compression apparatus, speech recognition method, and speech recognition apparatus
US6681204B2 (en) Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
US20030216907A1 (en) Enhancing the aural perception of speech
JP2004531767A5 (ja)
EP1006510A2 (en) Signal encoding and decoding system
JPH09127991A (ja) 音声符号化方法及び装置、音声復号化方法及び装置
EP1250700A1 (en) Speech parameter compression
EP0929891B1 (en) Methods and devices for noise conditioning signals representative of audio information in compressed and digitized form
CN111785285A (zh) 面向家居多特征参数融合的声纹识别方法
KR20070090217A (ko) 스케일러블 부호화 장치 및 스케일러블 부호화 방법
JPH08123490A (ja) スペクトル包絡量子化装置
EP1619666B1 (en) Speech decoder, speech decoding method, program, recording medium
Li et al. A high-performance auditory feature for robust speech recognition.
US5799271A (en) Method for reducing pitch search time for vocoder
JPH11327600A (ja) オーディオ信号圧縮方法、オーディオ信号圧縮装置、音声信号圧縮方法、音声信号圧縮装置,音声認識方法および音声認識装置
Alku et al. Linear predictive method for improved spectral modeling of lower frequencies of speech with small prediction orders
Hirsch et al. Speech recognition at multiple sampling rates.
EP2063420A1 (en) Method and assembly to enhance the intelligibility of speech
KR20000028699A (ko) 음성 신호를 필터링하는 장치 및 방법과, 수신기 및 전화통신 시스템
Flynn et al. A comparative study of auditory-based front-ends for robust speech recognition using the Aurora 2 database
JP4618823B2 (ja) 信号符号化装置及び方法
Makhoul Methods for nonlinear spectral distortion of speech signals
JPH0235994B2 (ja)
Talbi et al. New Speech Compression Technique based on Filter Bank Design and Psychoacoustic Model
Daalache et al. An efficient distributed speech processing in noisy mobile communications