JPH11327600A - オーディオ信号圧縮方法、オーディオ信号圧縮装置、音声信号圧縮方法、音声信号圧縮装置,音声認識方法および音声認識装置 - Google Patents

オーディオ信号圧縮方法、オーディオ信号圧縮装置、音声信号圧縮方法、音声信号圧縮装置,音声認識方法および音声認識装置

Info

Publication number
JPH11327600A
JPH11327600A JP10281604A JP28160498A JPH11327600A JP H11327600 A JPH11327600 A JP H11327600A JP 10281604 A JP10281604 A JP 10281604A JP 28160498 A JP28160498 A JP 28160498A JP H11327600 A JPH11327600 A JP H11327600A
Authority
JP
Japan
Prior art keywords
signal
frequency
audio signal
mel
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10281604A
Other languages
English (en)
Other versions
JP3351746B2 (ja
Inventor
Yoshihisa Nakato
良久 中藤
Takeshi Norimatsu
武志 則松
Mineo Tsushima
峰生 津島
Tomokazu Ishikawa
智一 石川
Mitsuhiko Serikawa
光彦 芹川
Dairo Katayama
大朗 片山
Junichi Nakabashi
順一 中橋
Junko Yagi
順子 八木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP28160498A priority Critical patent/JP3351746B2/ja
Publication of JPH11327600A publication Critical patent/JPH11327600A/ja
Application granted granted Critical
Publication of JP3351746B2 publication Critical patent/JP3351746B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 従来よりも効率よく信号を圧縮できるオーデ
ィオ信号圧縮方法および装置、音声信号圧縮方法および
装置を提供し、あるいは従来よりも高い認識性能の音声
認識方法および装置を提供する事を目的とする。 【解決手段】 スペクトル包絡算出部2において求めた
周波数毎に分析精度を変化させたスペクトル包絡を用い
て、正規化部3において入力信号の周波数特性信号系列
を正規化し、正規化部3でパワー平坦化された周波数特
性信号系列を求め、多段量子化手段5の複数段のベクト
ル量子化器51,52,53のうちの少なくとも1つ
で、入力信号のスペクトル包絡と人間の聴覚的な性質で
ある聴覚感度特性に基づいて算出された周波数上の重み
付け係数を量子化の際の重み付けとして用いてベクトル
量子化を行なう。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音楽を電気信号に
変換したオーディオ信号や人の音声を電気信号に変換し
た音声信号の、少容量の伝送路での情報伝送,記録メデ
ィアへの効率的な蓄積を可能とするために、特に人間の
聴覚的な性質である聴覚感度特性に対応した周波数上の
重み付けに基づいてオーディオ信号あるいは音声信号を
圧縮する場合に、従来よりも効率よく、高音質を保った
まま圧縮することのできるオーディオ信号圧縮方法、お
よびオーディオ信号圧縮装置、あるいは音声信号圧縮方
法、および音声信号圧縮装置に関するものである。ま
た、本発明は、高性能な音声認識装置を実現するため
に、特に人間の聴覚的な性質である聴覚感度特性を取り
入れた線形予測分析法により求めた、周波数毎に分解能
を変化させた特徴量を用いて認識を行う場合に、従来よ
りも高い認識率を得ることのできる音声認識方法、およ
び音声認識装置に関するものである。
【0002】
【従来の技術】この種のオーディオ信号圧縮方法につい
ては従来さまざまなものが提案されているが、以下では
その一例について、説明を行う。
【0003】まず、入力されたオーディオ信号の時系列
は、例えばMDCT(modified discrete cosine trans
form:変形離散コサイン変換)、あるいはFFT(高速
フーリエ変換)等により一定周期の長さ(フレーム)毎
に周波数特性信号系列に変換され、さらに入力オーディ
オ信号をフレーム毎に線形予測分析(LPC分析)を行
うことにより、LPC係数(linear predictive coeffi
cient ;線形予測係数)やLSP係数(line spectrum
pair coefficient ),あるいはPARCOR係数(pa
rtial auto-correlation coefficient)等を抽出すると
ともに、これらの係数からLPCスペクトル包絡を求め
る。次に算出された周波数特性信号系列を、求めたLP
Cスペクトル包絡で割り算して正規化することにより、
周波数特性を平坦化し、さらにパワーの最大値,あるい
は平均値等に基づいてパワーの正規化を行なう。以降の
説明では、このパワーの正規化が行なわれた時点の出力
係数を残差信号とも呼ぶ。さらにこの平坦化された残差
信号を、スペクトル包絡を重み付けとしてベクトル量子
化する。このようなオーディオ信号圧縮方法の例として
は、TwinVQ(岩上、守谷、三樹:「周波数重み付
けインターリーブベクトル量子化(TwinVQ)によるオー
ディオ符号化」音響学会講演論文集、1-P-1,pp.339-34
0,(1994) )がある。
【0004】次に、音声信号圧縮方法の従来例につい
て、以下にその説明を行う。まず、入力された音声信号
の時系列は、フレーム毎に線形予測分析(LPC分析)
することにより、LPC係数(線形予測係数)やLSP
係数(line spectrum pair coefficient),あるいはP
ARCOR係数(偏自己相関係数)等のLPCスペクト
ル包絡成分と、周波数特性が平坦化された残差信号とに
分離される。そしてLPCスペクトル包絡成分はスカラ
ー量子化され、また平坦化された残差信号はあらかじめ
用意した音源コードブックにより量子化することで、デ
ィジタル信号へとそれぞれ変換される。このような音声
信号圧縮方法の例としては、CELP(M.R. Schroeder
and B.S. Atal: “Code-excited linear prediction(C
ELP) high quality speech atvery low rates", Proc.
ICASSP-85(March 1985)がある。
【0005】また、音声認識方法の従来例について、以
下にその説明を行う。一般に音声認識装置では、あらか
じめ基準となる音声データを用いて、音韻あるいは単語
毎の標準モデルを作成しておき、入力音声からスペクト
ル包絡に対応する特徴量を求め、その時系列と標準モデ
ルとの間の類似度を計算し、この類似度が最も大きい標
準モデルに対応する音韻あるいは単語を見つけること
で、音声認識を行う。この場合の標準モデルとしては、
例えば、隠れマルコフモデル(hidden Markov model ;
HMM)や、代表的な特徴量の時系列そのものを標準モ
デルとして用いている(中川聖一著、「確率モデルによ
る音声認識」、電子情報通信学会編、p18〜20)。
【0006】従来、入力音声から求めた特徴量の時系列
としては、入力された音声の時系列を、例えば線形予測
分析(LPC分析)により一定周期の長さ(フレーム)
毎の線形予測係数(LPC係数)に変換し、この線形予
測係数をケプストラム変換して得られるLPCケプスト
ラム係数(鹿野清宏、中村哲、伊勢史郎著、「音声・音
情報のディジタル信号処理」、昭晃堂、p10〜16)
や、あるいは入力音声をDFTやバンドパスフィルタバ
ンク等により一定周期の長さ(フレーム)毎のパワース
ペクトルに変換し、このパワースペクトルをケプストラ
ム変換して得られるケプストラム係数等を用いて認識を
行っている。
【0007】
【発明が解決しようとする課題】オーディオ信号圧縮方
法の従来例では、MDCTあるいはFFT等により算出
された周波数特性信号系列をLPCスペクトル包絡で割
り算して正規化された残差信号を求めている。一方、音
声信号圧縮方法の従来例では、入力音声信号を、線形予
測分析により算出されたLPCスペクトル包絡と残差信
号とに分離しており、オーディオ信号圧縮方法の従来例
と音声信号圧縮方法の従来例とはともに、入力信号から
通常の線形予測分析によりスペクトル包絡成分を除去す
る、すなわち、入力信号をスペクトル包絡で正規化(平
坦化)して残差信号を求めていることでは同様である。
そこで、この線形予測分析の性能を向上させる、あるい
は線形予測分析により得られたスペクトル包絡の推定精
度を上げられれば、従来よりも効率よく、高音質を保っ
たまま情報を圧縮することができる。
【0008】ところで、通常の線形予測分析では、どの
周波数帯域に対しても同じ精度の周波数分解能で包絡を
推定することになるので、聴感上重要な,低い周波数帯
域の周波数分解能を上げる、すなわち、低い周波数帯域
のスペクトル包絡を正確に求めようとすると、分析次数
を上げる必要があり、結局、情報量が増えるという問題
があった。また、分析次数を上げると、聴感上あまり重
要ではない,高い周波数帯域の分解能を必要以上に上げ
ることになるので、高い周波数帯域にピークを持つスペ
クトル包絡を算出する場合がでてくるようになり、結
局、音質を劣化させる問題もある。
【0009】また、オーディオ信号圧縮方法の従来例の
ように、ベクトル量子化を行う際には、量子化の際の重
み付けをスペクトル包絡のみに基づいて行なっているた
め、通常の線形予測分析では人間の聴覚的な性質を利用
して効率よく量子化することができないという問題があ
った。
【0010】一方、音声認識方法の従来例では、例えば
通常の線形予測分析により求められたLPCケプストラ
ム係数では、人間の聴覚的な性質である聴覚感度特性を
取り入れた線形予測分析法を行っていないため、十分な
認識性能を発揮していない可能性がある。そもそも人間
の聴覚は、低域の周波数成分を重要視し、高域の周波数
成分は低域ほど重要視していない傾向があることが一般
に知られている。そこで、このLPCケプストラム(ce
pstrum)係数をメル(mel)変換することで得られるLP
Cメル係数(鹿野清宏、中村哲、伊勢史郎著、「音声・
音情報のディジタル信号処理」、昭晃堂、p39〜4
0)を用いて認識を行う方法もあるが、そもそもLPC
ケプストラム係数自体には線形予測分析の際に人間の聴
覚の特徴が十分考慮されていない。そのためメル変換さ
れたLPCメルケプストラム係数にも聴覚上重要な低域
の情報は十分反映されていない。
【0011】メル尺度は、人間の音の高さの知覚特性か
ら得られた尺度であり、音の高さは周波数に大きく依存
する量であるが、周波数だけではなく音の強さにも影響
されることもよく知られており、そこで、1000 Hz, 40
dB SPLの純音を基準の音を1000 melとして、これより2
倍の高さあるいは1/2の高さに知覚される音をマグニ
チュード測定法などで測定し、それぞれ2000 mel, 500m
elと決定したものであるが、上述のように、LPCケプ
ストラム係数自体は線形予測分析の際に人間の聴覚の特
徴が十分考慮されない以上、メル化、即ちメル変換を行
っても本質的な認識性能の向上は期待できない。
【0012】さらに通常の線形予測分析では、どの周波
数帯域に対しても同じ周波数分解能でスペクトル包絡を
推定することになるので、聴感上重要な低い周波数帯域
の周波数分解能を上げようとすると、すなわち、低い周
波数帯域のスペクトル包絡を正確に求めようとすると、
分析次数を上げる必要があり、結局特徴量が増え、認識
にかかる処理量が増えるという問題がある。また、分析
次数を上げると、高い周波数帯域の分解能を必要以上に
上げることになるので、高い周波数帯域に不要な特徴を
持つことになり、却って認識性能を劣化させてしまうと
いう問題もある。
【0013】また、DFTやバンドパスフィルタバンク
(band pass filter bank )等から求めたケプストラム
係数やメルケプストラム係数を特徴量として用いて音声
認識を行う方法もあるが、DFTやバンドパスフィルタ
バンクの演算量が線形予測分析に比べて非常に多いとい
う問題点もある。
【0014】本発明は、上記のような問題を解消するた
めになされたものであり、線形予測分析の性能を向上さ
せる、すなわち人間の聴覚的な性質である聴覚感度特性
を取り入れた線形予測分析法(以降、メル線形予測分析
法(MLPC分析法)と呼ぶ)を行い、その結果得られ
たメル化された線形予測係数(以降、メル線形予測係数
と呼ぶ)を音声認識に用いたり、あるいは通常の線形予
測係数からPARCOR係数を求めるのと同様の公知の
手法によりメル線形予測係数から求めることのできるメ
ル化されたPARCOR係数(以降、メルPARCOR
係数と呼ぶ)や、通常の線形予測係数からLSP係数を
求めるのと同様の公知の手法によりメル線形予測係数か
ら求めることのできるメル化されたLSP係数(以降、
メルLSP係数と呼ぶ)や、さらにメル線形予測係数を
ケプストラム変換して得られるメルLPCケプストラム
係数を音声認識に用いることで、さらに認識性能の向上
を図ることが可能になる点に着眼してなされたものであ
る。この種のメル化された係数を用いることにより、オ
ーディオ信号や音声信号の圧縮性能の向上や音声の認識
性能の向上を図ることは従来より想定されてはいたが、
現実には計算量が膨大になり、実使用に供されることは
なかった。本件発明者は、かかる現状に鑑み鋭意研究を
行った結果、本来この種の係数を計算するのに無限回の
演算を行う必要があり、またこれを有限回で打ち切った
場合には演算誤差を伴っていたものが、所望の設定回数
の演算を行うだけで、無限回演算を行ったのと同等な演
算を行うことができ、しかもこの演算に誤差が伴わない
全く新規な演算が存在することを見い出した。本発明
は、かかる新たな演算を用いることにより、人間の聴覚
的な性質である聴覚感度特性に対応した周波数上の重み
付けを行ってオーディオ信号や音声信号の圧縮性能の向
上や音声の認識性能の向上を図ることができる、オーデ
ィオ信号圧縮方法、オーディオ信号圧縮装置、音声信号
圧縮方法、音声信号圧縮装置,音声認識方法および音声
認識装置を得ることを目的としている。
【0015】即ち、本発明は、人間の聴覚的な性質であ
る聴覚感度特性に対応した周波数上の重み付けに基づい
てスペクトル包絡を求めて、線形予測分析の性能を向上
させる、あるいは線形予測分析により得られたスペクト
ル包絡の推定精度を上げ、従来よりも効率よく、高音質
を保ったまま圧縮することのできるオーディオ信号圧縮
方法、およびオーディオ信号圧縮装置あるいは音声信号
圧縮方法、および音声信号圧縮装置を提供することを目
的とする。
【0016】また、人間の聴覚的な性質である聴覚感度
特性に対応した周波数上の重み付けに基づいたメル線形
予測分析によりスペクトル包絡に対応する特徴量を求め
ているため、少ない特徴量でも効率的にスペクトル包絡
の特徴を捉えていることができ、さらにこの特徴量を音
声認識に用いることで、従来よりも少ない処理量で高い
認識性能を実現することのできる音声認識方法、および
音声認識装置を提供することを目的とする。
【0017】
【課題を解決するための手段】上記課題を解決するため
に、本発明(請求項1)に係るオーディオ信号圧縮方法
は、入力されたオーディオ信号に対し、符号化を行い、
かつ、その情報量を圧縮するオーディオ信号圧縮方法に
おいて、入力されたオーディオ信号から、人間の聴覚的
な性質である聴覚感度特性に対応した周波数上の重み付
けに基づいて、周波数毎に分析精度を変化させたスペク
トル包絡を算出し、上記算出したスペクトル包絡を用い
て、上記入力オーディオ信号を、フレーム毎に平滑化す
るようにしたものである。
【0018】本発明(請求項1)に係るオーディオ信号
圧縮方法はこのように構成することにより、人間の聴覚
上重要である低い周波数帯域の側を高い周波数帯域の側
に比較してより周波数分解能を上げて分析することを可
能とし、人間の聴覚的な性質を利用して効率のよい信号
圧縮を行なうことができるオーディオ信号圧縮方法を実
現可能とする。
【0019】また、本発明(請求項2)に係るオーディ
オ信号圧縮方法は、請求項1記載のオーディオ信号圧縮
方法において、上記スペクトル包絡の算出は、人間の聴
覚的な性質である聴覚感度特性に対応した周波数上の重
み付けとして、バーク尺度を用いて、上記周波数毎に分
析精度を変化させたスペクトル包絡を算出するようにし
たものである。
【0020】本発明(請求項2)に係るオーディオ信号
圧縮方法はこのように構成することにより、バーク尺度
を用いて人間の聴覚上重要である低い周波数帯域の側を
高い周波数帯域の側に比しより周波数分解能を上げて分
析することを可能とし、人間の聴覚的な性質を利用して
効率のよい信号圧縮を行なうことができるオーディオ信
号圧縮方法を実現可能とする。
【0021】また、本発明(請求項3)に係るオーディ
オ信号圧縮方法は、請求項1記載のオーディオ信号圧縮
方法において、上記スペクトル包絡の算出は、人間の聴
覚的な性質である聴覚感度特性に対応した周波数上の重
み付けとして、メル尺度を用いて、上記周波数毎に分析
精度を変化させたスペクトル包絡を算出するようにした
ものである。
【0022】本発明(請求項3)に係るオーディオ信号
圧縮方法はこのように構成することにより、メル尺度を
用いて人間の聴覚上重要である低い周波数帯域の側を高
い周波数帯域の側に比しより周波数分解能を上げて分析
することを可能とし、人間の聴覚的な性質を利用して効
率のよい信号圧縮を行なうことができるオーディオ信号
圧縮方法を実現可能とする。
【0023】また、本発明(請求項4)に係るオーディ
オ信号圧縮方法は、入力されたオーディオ信号に対し、
符号化を行い、かつ、その情報量を圧縮するオーディオ
信号圧縮方法において、入力されたオーディオ信号か
ら、人間の聴覚的な性質である聴覚感度特性に対応した
周波数上の重み付けに基づいて、オールパスフィルタを
用いて周波数軸の伸縮を行って、周波数伸縮信号を求
め、上記周波数伸縮信号に対して線形予測分析を行い、
周波数毎に分析精度を変化させたスペクトル包絡を求
め、該スペクトル包絡を用いて、上記入力オーディオ信
号を、フレーム毎に平滑化するようにしたものである。
【0024】本発明(請求項4)に係るオーディオ信号
圧縮方法はこのように構成することにより、人間の聴覚
的な性質を利用して効率のよい信号圧縮を行なうことが
できるオーディオ信号圧縮方法を実際に実現可能とす
る。
【0025】また、本発明(請求項5)に係るオーディ
オ信号圧縮方法は、入力されたオーディオ信号に対し、
符号化を行い、かつ、その情報量を圧縮するオーディオ
信号圧縮方法において、入力されたオーディオ信号か
ら、人間の聴覚的な性質である聴覚感度特性に対応した
周波数上の重み付けに基づいて、予測モデルに周波数伸
縮を組み込んだメル線形予測分析を用いて、周波数毎に
分析精度を変化させたスペクトル包絡を求め、該スペク
トル包絡を用いて、上記入力オーディオ信号を、フレー
ム毎に平滑化するようにしたものである。
【0026】本発明(請求項5)に係るオーディオ信号
圧縮方法はこのように構成することにより、予測モデル
に周波数伸縮を組み込んだメル線形予測分析を用いて、
人間の聴覚的な性質を利用して効率のよい信号圧縮を行
なうことができるオーディオ信号圧縮方法を実際に実現
可能とする。
【0027】また、本発明(請求項6)に係るオーディ
オ信号圧縮方法は、入力されたオーディオ信号に対し、
符号化を行い、かつ、その情報量を圧縮するオーディオ
信号圧縮方法において、入力されたオーディオ信号か
ら、人間の聴覚的な性質である聴覚感度特性に対応した
周波数上の重み付けに基づいて、予測モデルに周波数伸
縮を組み込んだメル線形予測分析を用いて行う、周波数
毎に分析精度を変化させたスペクトル包絡の算出は、上
記入力オーディオ信号から一定時間長の入力信号を切り
出し、上記一定時間長の入力信号を複数段のオールパス
フィルタに通して各段毎のフィルタ出力信号を求め、上
記入力信号と各段毎のフィルタ出力信号との(数7)に
よる積和からメル周波数軸上での自己相関関数を求め、
かつ上記入力信号と各段毎のフィルタ出力信号との積和
は、積和を行う範囲を上記入力信号の時間長に制限して
行い、上記メル周波数軸上での自己相関関数からメル線
形予測係数を求め、上記メル線形予測係数そのものをス
ペクトル包絡とするか、あるいは該メル線形予測係数か
らスペクトル包絡を求めるようにしたものである。但
し、(数7)は
【0028】
【数7】
【0029】により表され、φ(i,j)は自己相関関
数、x[n]は入力信号、y(i-j) [n]は各段毎のフ
ィルタ出力信号である。
【0030】本発明(請求項6)に係るオーディオ信号
圧縮方法はこのように構成することにより、予測モデル
に周波数伸縮を組み込んだメル線形予測分析を用いて信
号圧縮を行う際に、本来無限回の演算を必要としていた
ものが近似計算を全く必要とすることなく予め設定した
有限回の演算で済むことになり、人間の聴覚的な性質を
利用して効率のよい信号圧縮を行なうことができるオー
ディオ信号圧縮方法を実際に実現可能とする。
【0031】また、本発明(請求項7)に係るオーディ
オ信号圧縮方法は、請求項6に記載のオーディオ信号圧
縮方法において、上記オールパスフィルタは、直線周波
数軸上の信号を周波数変換してメル周波数軸上での信号
に変換するためのもので、1次のオールパスフィルタで
あるようにしたものである。
【0032】本発明(請求項7)に係るオーディオ信号
圧縮方法はこのように構成することにより、予測モデル
に周波数伸縮を組み込んだメル線形予測分析を用いて信
号圧縮を行う際に、本来無限回の演算を必要としていた
ものが実際に実現可能な1次のオールパスフィルタを具
備することによって近似計算を全く必要とすることなく
予め設定した有限回の演算で済むことになり、人間の聴
覚的な性質を利用して効率のよい信号圧縮を行なうこと
ができるオーディオ信号圧縮方法を実際に実現可能とす
る。
【0033】また、本発明(請求項8)に係るオーディ
オ信号圧縮装置は、入力されたオーディオ信号に対し、
符号化を行い、かつ、その情報量を圧縮するオーディオ
信号圧縮装置において、入力されたオーディオ信号を周
波数領域信号に変換する時間周波数変換手段と、上記入
力オーディオ信号から、人間の聴覚的な性質である聴覚
感度特性に対応した周波数上の重み付けに基づいて、周
波数毎に分析精度を変化させたスペクトル包絡を算出す
るスペクトル包絡算出手段と、上記時間周波数変換手段
で得られた周波数領域信号を、上記スペクトル包絡算出
手段で得られたスペクトル包絡で正規化し残差信号を得
る正規化手段と、上記残差信号をパワーにより正規化す
るパワー正規化手段と、上記入力オーディオ信号のスペ
クトルと、人間の聴覚的な性質である聴覚感度特性とに
基づき、周波数上の重み付け係数を算出する聴覚重み付
け計算手段と、上記パワー正規化手段により正規化され
た上記残差信号が入力される、縦列に接続された複数段
のベクトル量子化部を有し、かつそのうち少なくとも1
つのベクトル量子化部が上記聴覚重み付け計算手段で得
られた重み付け係数を用いて量子化を行なう多段量子化
手段とを備えるようにしたものである。
【0034】本発明(請求項8)に係るオーディオ信号
圧縮装置はこのように構成することにより、人間の聴覚
上重要である低い周波数帯域の側を高い周波数帯域の側
に比しより周波数分解能を上げて分析することを可能と
し、人間の聴覚的な性質を利用して効率のよい信号圧縮
を行なうことができるオーディオ信号圧縮装置を実現可
能とする。
【0035】また、本発明(請求項9)に係るオーディ
オ信号圧縮装置は、入力されたオーディオ信号に対し、
符号化を行い、かつ、その情報量を圧縮するオーディオ
信号圧縮装置において、入力されたオーディオ信号か
ら、人間の聴覚的な性質である聴覚感度特性に対応した
周波数上の重み付けに基づいて、周波数毎に分析精度を
変化させたスペクトル包絡を表現するメル周波数軸上の
メル線形予測係数を算出するメルパラメータ算出手段
と、上記メル線形予測係数を直線周波数軸の線形予測係
数などのスペクトル包絡を表現する特徴量へと変換する
パラメータ変換手段と、上記入力オーディオ信号を上記
パラメータ変換手段で得られたスペクトル包絡を表現す
る特徴量で逆フィルタリングして正規化し、残差信号を
得る包絡正規化手段と、上記残差信号をパワーの最大
値,あるいは平均値等に基づいて正規化し、正規化残差
信号を求めるパワー正規化手段と、上記パワー正規化手
段により正規化された上記正規化残差信号を残差コード
ブックによりベクトル量子化し、残差符号へと変換する
ベクトル量子化部とを備えるようにしたものである。
【0036】本発明(請求項9)に係るオーディオ信号
圧縮装置はこのように構成することにより、メル尺度を
用いて人間の聴覚上重要である低い周波数帯域の側を高
い周波数帯域の側に比しより周波数分解能を上げて分析
することを可能とし、人間の聴覚的な性質を利用して効
率のよい信号圧縮を行なうことができるオーディオ信号
圧縮装置を実現可能とする。
【0037】また、本発明(請求項10)に係るオーデ
ィオ信号圧縮装置は、請求項8または請求項9に記載の
オーディオ信号圧縮装置において、上記スペクトル包絡
算出手段は、入力オーディオ信号をオールパスフィルタ
を用いて周波数軸の伸縮を行って上記周波数伸縮信号を
求め、上記周波数伸縮信号に対して線形予測分析を行っ
て、周波数毎に分析精度を変化させたスペクトル包絡を
求めるものとしたものである。
【0038】本発明(請求項10)に係るオーディオ信
号圧縮装置はこのように構成することにより、人間の聴
覚的な性質を利用して効率のよい信号圧縮を行なうこと
ができるオーディオ信号圧縮装置を実現可能とする。
【0039】また、本発明(請求項11)に係るオーデ
ィオ信号圧縮装置は、請求項8または請求項9に記載の
オーディオ信号圧縮装置において、上記スペクトル包絡
算出手段は、予測モデルに周波数伸縮を組み込んだメル
線形予測分析を用いて、入力オーディオ信号から周波数
毎に分析精度を変化させたスペクトル包絡を求めるもの
としたものである。
【0040】本発明(請求項11)に係るオーディオ信
号圧縮装置はこのように構成することにより、予測モデ
ルに周波数伸縮を組み込んだメル線形予測分析を用い
て、人間の聴覚的な性質を利用して効率のよい信号圧縮
を行なうことができるオーディオ信号圧縮装置を実現可
能とする。
【0041】また、本発明(請求項12)に係るオーデ
ィオ信号圧縮装置は、請求項8または請求項9に記載の
オーディオ信号圧縮装置において、上記スペクトル包絡
算出手段は、入力されたオーディオ信号から人間の聴覚
的な性質である聴覚感度特性に対応した周波数上の重み
付けに基づいて、周波数毎に分析精度を変化させたスペ
クトル包絡を算出するものであり、かつ、上記入力オー
ディオ信号から一定時間長の入力信号を切り出し、上記
一定時間長の入力信号を複数段のオールパスフィルタに
通して各段毎のフィルタ出力信号を求め、上記入力信号
と各段毎のフィルタ出力信号との(数8)による積和か
らメル周波数軸上での自己相関関数を求め、かつ上記入
力信号と各段毎のフィルタ出力信号との積和は、積和を
行う範囲を上記入力信号の時間長に制限して行い、上記
メル周波数軸上での自己相関関数からメル線形予測係数
を求め、上記メル線形予測係数そのものをスペクトル包
絡とするか、あるいは該メル線形予測係数からスペクト
ル包絡を求めるものとしたものである。但し、(数8)
【0042】
【数8】
【0043】により表され、φ(i,j)は自己相関関
数、x[n]は入力信号、y(i-j) [n]は各段毎のフ
ィルタ出力信号である。
【0044】本発明(請求項12)に係るオーディオ信
号圧縮装置はこのように構成することにより、予測モデ
ルに周波数伸縮を組み込んだメル線形予測分析を用いて
信号圧縮を行う際に、近似計算を全く必要とすることな
く予め設定した有限回の演算で処理可能となり、人間の
聴覚的な性質を利用して効率のよい信号圧縮を行なうこ
とができるオーディオ信号圧縮装置を実際に実現可能と
する。
【0045】また、本発明(請求項13)に係るオーデ
ィオ信号圧縮装置は、請求項12に記載のオーディオ信
号圧縮装置において、上記オールパスフィルタは、直線
周波数軸上の信号を周波数変換してメル周波数軸上での
信号に変換するためのもので、1次のオールパスフィル
タであるものとしたものである。
【0046】本発明(請求項13)に係るオーディオ信
号圧縮装置はこのように構成することにより、予測モデ
ルに周波数伸縮を組み込んだメル線形予測分析を用いて
信号圧縮を行う際に、オールパスフィルタを実現可能な
1次のオールパスフィルタを用いるようにしたので、近
似計算を全く必要とすることなく予め設定した有限回の
演算で処理可能となり、人間の聴覚的な性質を利用して
効率のよい信号圧縮を行なうことができるオーディオ信
号圧縮装置を実際に実現可能とする。
【0047】また、本発明(請求項14)に係るオーデ
ィオ信号圧縮装置は、請求項8記載のオーディオ信号圧
縮装置において、上記多段量子化手段を構成する複数段
のうちの複数のベクトル量子化部は、聴覚重み付け計算
手段で得られた重み付け係数を用いて量子化を行なうも
ので、かつ、上記聴覚重み付け計算手段は、上記複数の
ベクトル量子化部のそれぞれが用いる個別の重み付け係
数を算出するものとしたものである。
【0048】本発明(請求項14)に係るオーディオ信
号圧縮装置はこのように構成することにより、多段量子
化手段を構成する複数段のうちの複数のベクトル量子化
部は、聴覚重み付け計算手段で得られた重み付け係数を
用いて量子化を行ない、かつ、聴覚重み付け計算手段
は、複数のベクトル量子化部のそれぞれが用いる個別の
重み付け係数を算出する予測モデルに周波数伸縮を組み
込んだメル線形予測分析を用いて信号圧縮を行う際に、
近似計算を全く必要とすることなく予め設定した有限回
の演算で処理可能となり、人間の聴覚的な性質を利用し
て効率のよい信号圧縮を行なうことができるオーディオ
信号圧縮装置を実際に実現可能とする。
【0049】また、本発明(請求項15)に係るオーデ
ィオ信号圧縮装置は、請求項14記載のオーディオ信号
圧縮装置において、上記多段量子化手段は、上記スペク
トル包絡算出手段で得られた周波数毎に分析精度を変化
させたスペクトル包絡を各周波数領域での重み付け係数
として、上記パワー正規化手段で正規化された残差信号
の量子化を行なう第1段の量子化部と、上記スペクトル
包絡と上記第1段の量子化部の量子化誤差信号との相関
に基づいて算出された重み付け係数を各周波数領域での
重み付け係数として、上記第1段の量子化部から出力さ
れる量子化誤差信号の量子化を行なう第2段の量子化部
と、上記聴覚重み付け計算手段において、上記時間周波
数変換手段で周波数領域信号に変換された入力信号と聴
覚特性とにより算出された重み付けを、上記スペクトル
包絡,上記第2段の量子化部の量子化誤差信号,および
上記パワー正規化手段で正規化された上記残差信号に基
づいて調整して求めた重み付け係数を、各周波数領域で
の重み付け係数として、上記第2段の量子化部から出力
される量子化誤差信号の量子化を行なう第3段の量子化
部と、を備えるようにしたものである。
【0050】本発明(請求項15)に係るオーディオ信
号圧縮装置はこのように構成することにより、多段量子
化手段を第1段ないし第3段の量子化部で構成し、第1
段の量子化部をパワー正規化手段で正規化された残差信
号の量子化を行なうものとし、第2段の量子化部を、ス
ペクトル包絡と第1段の量子化部の量子化誤差信号との
相関に基づいて算出された重み付け係数を各周波数領域
での重み付け係数として、第1段の量子化部から出力さ
れる量子化誤差信号の量子化を行なうものとし、第3段
の量子化部を、スペクトル包絡,第2段の量子化部の量
子化誤差信号,およびパワー正規化手段で正規化された
残差信号に基づいて調整して求めた重み付け係数を、各
周波数領域での重み付け係数として、第2段の量子化部
から出力される量子化誤差信号の量子化を行なうものと
したので、聴覚重み付け計算手段は、複数のベクトル量
子化部のそれぞれが用いる個別の重み付け係数を算出す
る際に用いるスペクトル包絡を、予測モデルに周波数伸
縮を組み込んだメル線形予測分析を用いることにより、
人間の聴覚的な性質を利用して効率のよい信号圧縮を行
なうことができるオーディオ信号圧縮装置を実際に実現
可能とする。
【0051】また、本発明(請求項16)に係る音声信
号圧縮方法は、入力された音声信号に対し、符号化を行
い、かつ、その情報量を圧縮する音声信号圧縮方法にお
いて、入力された音声信号から、人間の聴覚的な性質で
ある聴覚感度特性に対応した周波数上の重み付けに基づ
いて、予測モデルに周波数伸縮を組み込んだメル線形予
測分析を用いて行う、周波数毎に分析精度を変化させた
スペクトル包絡の算出は、上記入力音声信号から一定時
間長の入力信号を切り出し、上記一定時間長の入力信号
を複数段のオールパスフィルタに通して各段毎のフィル
タ出力信号を求め、上記入力信号と各段毎のフィルタ出
力信号との(数9)による積和からメル周波数軸上での
自己相関関数を求め、かつ上記入力信号と各段毎のフィ
ルタ出力信号との積和は、積和を行う範囲を上記入力信
号の時間長に制限して行い、上記メル周波数軸上での自
己相関関数からメル線形予測係数を求め、上記メル線形
予測係数そのものをスペクトル包絡とするか、あるいは
該メル線形予測係数からスペクトル包絡を求めるように
したものである。但し、(数9)は
【0052】
【数9】
【0053】により表され、φ(i,j)は自己相関関
数、x[n]は入力信号、y(i-j) [n]は各段毎のフ
ィルタ出力信号である。
【0054】本発明(請求項16)に係る音声信号圧縮
方法はこのように構成することにより、予測モデルに周
波数伸縮を組み込んだメル線形予測分析を用いて信号圧
縮を行う際に、本来無限回の演算を必要としていたもの
がオールパスフィルタを具備することによって、近似計
算を全く必要とすることなく予め設定した有限回の演算
で処理可能となり、人間の聴覚的な性質を利用して効率
のよい信号圧縮を行なうことができる音声信号圧縮方法
を実際に実現可能とする。
【0055】また、本発明(請求項17)に係る音声信
号圧縮方法は、請求項16に記載の音声信号圧縮方法に
おいて、上記オールパスフィルタは、直線周波数軸上の
信号を周波数変換してメル周波数軸上での信号に変換す
るためのもので、1次のオールパスフィルタであるよう
にしたものである。
【0056】本発明(請求項17)に係る音声信号圧縮
方法はこのように構成することにより、予測モデルに周
波数伸縮を組み込んだメル線形予測分析を用いて信号圧
縮を行う際に、本来無限回の演算を必要としていたもの
が実際に実現可能な1次のオールパスフィルタを具備す
ることによって、近似計算を全く必要とすることなく予
め設定した有限回の演算で処理可能となり、人間の聴覚
的な性質を利用して効率のよい信号圧縮を行なうことが
できる音声信号圧縮方法を実際に実現可能とする。
【0057】また、本発明(請求項18)に係る音声信
号圧縮装置は、入力された音声信号に対し、符号化を行
い、かつ、その情報量を圧縮する音声信号圧縮装置にお
いて、入力された音声信号から、人間の聴覚的な性質で
ある聴覚感度特性に対応した周波数上の重み付けに基づ
いて、周波数毎に分析精度を変化させたスペクトル包絡
を表現するメル周波数軸上のメル線形予測係数を算出す
るメルパラメータ算出手段と、上記メル線形予測係数を
直線周波数軸の線形予測係数などのスペクトル包絡を表
現する特徴量へと変換するパラメータ変換手段と、上記
入力音声信号を上記パラメータ変換手段で得られたスペ
クトル包絡を表現する特徴量で逆フィルタリングして正
規化し、残差信号を得る包絡正規化手段と、上記残差信
号をパワーの最大値,あるいは平均値等に基づいて正規
化し、正規化残差信号を求めるパワー正規化手段と、上
記パワー正規化手段により正規化された上記正規化残差
信号を残差コードブックによりベクトル量子化し、残差
符号へと変換するベクトル量子化部とを備えるようにし
たものである。
【0058】本発明(請求項18)に係る音声信号圧縮
装置はこのように構成することにより、人間の聴覚上重
要である低い周波数帯域の側を高い周波数帯域の側に比
しより周波数分解能を上げて分析することを可能とし、
人間の聴覚的な性質を利用して効率のよい信号圧縮を行
なうことができる音声信号圧縮装置を実現可能とする。
【0059】また、本発明(請求項19)に係る音声信
号圧縮装置は、請求項18に記載の音声信号圧縮装置に
おいて、上記スペクトル包絡算出手段は、入力音声信号
をオールパスフィルタを用いて周波数軸の伸縮を行って
上記周波数伸縮信号を求め、上記周波数伸縮信号に対し
て線形予測分析を行って、周波数毎に分析精度を変化さ
せたスペクトル包絡を求めるものであるものとしたもの
である。
【0060】本発明(請求項19)に係る音声信号圧縮
装置はこのように構成することにより、メル尺度を用い
て人間の聴覚上重要である低い周波数帯域の側を高い周
波数帯域の側に比しより周波数分解能を上げて分析する
ことを可能とし、人間の聴覚的な性質を利用して効率の
よい信号圧縮を行なうことができる音声信号圧縮装置を
実現可能とする。
【0061】また、本発明(請求項20)に係る音声信
号圧縮装置は、請求項18に記載の音声信号圧縮装置に
おいて、上記スペクトル包絡算出手段は、予測モデルに
周波数伸縮を組み込んだメル線形予測分析を用いて、入
力音声信号から周波数毎に分析精度を変化させたスペク
トル包絡を求めるものであるものとしたものである。
【0062】本発明(請求項20)に係る音声信号圧縮
装置はこのように構成することにより、メル尺度を用い
て人間の聴覚上重要である低い周波数帯域の側を高い周
波数帯域の側に比しより周波数分解能を上げて分析する
ことを可能とし、人間の聴覚的な性質を利用して効率の
よい信号圧縮を行なうことができる音声信号圧縮装置を
実現可能とする。
【0063】また、本発明(請求項21)に係る音声信
号圧縮装置は、請求項18に記載の音声信号圧縮装置に
おいて、上記スペクトル包絡算出手段は、入力された音
声信号から人間の聴覚的な性質である聴覚感度特性に対
応した周波数上の重み付けに基づいて、周波数毎に分析
精度を変化させたスペクトル包絡を算出するものであ
り、かつ、上記入力音声信号から一定時間長の入力信号
を切り出し、上記一定時間長の入力信号を複数段のオー
ルパスフィルタに通して各段毎のフィルタ出力信号を求
め、上記入力信号と各段毎のフィルタ出力信号との(数
10)による積和からメル周波数軸上での自己相関関数
を求め、かつ上記入力信号と各段毎のフィルタ出力信号
との積和は、積和を行う範囲を上記入力信号の時間長に
制限して行い、上記メル周波数軸上での自己相関関数か
らメル線形予測係数を求め、上記メル線形予測係数その
ものをスペクトル包絡とするか、あるいは該メル線形予
測係数からスペクトル包絡を求めるものであるものとし
たものである。但し、(数10)は
【0064】
【数10】
【0065】により表され、φ(i,j)は自己相関関
数、x[n]は入力信号、y(i-j) [n]は各段毎のフ
ィルタ出力信号である。
【0066】本発明(請求項21)に係る音声信号圧縮
装置はこのように構成することにより、予測モデルに周
波数伸縮を組み込んだメル線形予測分析を用いて信号圧
縮を行う際に、オールパスフィルタを実現可能な1次の
オールパスフィルタを用いるようにしたので、近似計算
を全く必要とすることなく予め設定した有限回の演算で
処理可能となり、人間の聴覚的な性質を利用して効率の
よい信号圧縮を行なうことができる音声信号圧縮装置を
実際に実現可能とする。
【0067】また、本発明(請求項22)に係る音声信
号圧縮装置は、請求項21に記載の音声信号圧縮装置に
おいて、上記オールパスフィルタは、直線周波数軸上の
信号を周波数変換してメル周波数軸上での信号に変換す
るためのもので、1次のオールパスフィルタであるもの
としたものである。
【0068】本発明(請求項22)に係る音声信号圧縮
装置はこのように構成することにより、予測モデルに周
波数伸縮を組み込んだメル線形予測分析を用いて信号圧
縮を行う際に、オールパスフィルタを実現可能な1次の
オールパスフィルタを用いるようにしたので、近似計算
を全く必要とすることなく予め設定した有限回の演算で
処理可能となり、人間の聴覚的な性質を利用して効率の
よい信号圧縮を行なうことができる音声信号圧縮装置を
実際に実現可能とする。
【0069】また、本発明(請求項23)に係る音声認
識方法は、入力された音声信号から、人間の聴覚的な性
質である聴覚感度特性に対応した周波数上の重み付けに
基づいて、周波数毎に分解能を変化させた線形予測分析
法によりスペクトル包絡に対応する特徴量を算出し、上
記特徴量を用いて入力音声を認識するようにしたもので
ある。
【0070】本発明(請求項23)に係る音声認識方法
はこのように構成することにより、人間の聴覚上重要で
ある低い周波数帯域の側を高い周波数帯域の側に比しよ
り周波数分解能を上げて分析することを可能とし、人間
の聴覚的な性質を利用して精度のよい音声認識を行なう
ことができる音声認識方法を実現可能とする。
【0071】また、本発明(請求項24)に係る音声認
識方法は、請求項23記載の音声認識方法において、人
間の聴覚的な性質である聴覚感度特性に対応した周波数
上の重み付けとして、バーク尺度を用いて、周波数毎に
分解能を変化させたスペクトル包絡に対応する、上記特
徴量を算出するようにしたものである。
【0072】本発明(請求項24)に係る音声認識方法
はこのように構成することにより、バーク尺度を用いて
人間の聴覚上重要である低い周波数帯域の側を高い周波
数帯域の側に比しより周波数分解能を上げて分析するこ
とを可能とし、人間の聴覚的な性質を利用して精度のよ
い音声認識を行なうことができる音声認識方法を実現可
能とする。
【0073】また、本発明(請求項25)に係る音声認
識方法は、請求項23記載の音声認識方法において、人
間の聴覚的な性質である聴覚感度特性に対応した周波数
上の重み付けとして、メル尺度を用いて、周波数毎に分
解能を変化させたスペクトル包絡に対応する、上記特徴
量を算出するようにしたものである。
【0074】本発明(請求項25)に係る音声認識方法
はこのように構成することにより、メル尺度を用いて人
間の聴覚上重要である低い周波数帯域の側を高い周波数
帯域の側に比しより周波数分解能を上げて分析すること
を可能とし、人間の聴覚的な性質を利用して精度のよい
音声認識を行なうことができる音声認識方法を実現可能
とする。
【0075】また、本発明(請求項26)に係る音声認
識方法は、入力された音声から、人間の聴覚的な性質で
ある聴覚感度特性を考慮したスペクトル包絡を求める方
法として、オールパスフィルタを用いて周波数軸の伸縮
を行って周波数伸縮信号を求め、上記周波数伸縮信号に
対して線形予測分析を行って周波数毎に分解能を変化さ
せたスペクトル包絡に対応する特徴量を求め、上記特徴
量を用いて、入力音声を認識するようにしたものであ
る。
【0076】本発明(請求項26)に係る音声認識方法
はこのように構成することにより、人間の聴覚的な性質
を利用して精度のよい音声認識を行なうことができる音
声認識方法を実際に実現可能とする。
【0077】また、本発明(請求項27)に係る音声認
識方法は、入力された音声から、人間の聴覚的な性質で
ある聴覚感度特性を考慮したスペクトル包絡に対応する
特徴量を求める方法として、予測モデルに周波数伸縮を
組み込んだメル線形予測分析を用いた線形予測分析法に
より特徴量を求め、上記特徴量を用いて、入力音声を認
識するようにしたものである。
【0078】本発明(請求項27)に係る音声認識方法
はこのように構成することにより、予測モデルに周波数
伸縮を組み込んだメル線形予測分析を用いて、人間の聴
覚的な性質を利用して精度のよい音声認識を行なうこと
ができる音声認識方法を実際に実現可能とする。
【0079】また、本発明(請求項28)に係る音声認
識方法は、入力された音声から、人間の聴覚的な性質で
ある聴覚感度特性を考慮したスペクトル包絡に対応する
特徴量を求める方法として、上記入力音声から一定時間
長の入力信号を切り出し、上記一定時間長の入力信号を
複数段のオールパスフィルタに通して各段毎のフィルタ
出力信号を求め、上記一定時間長の入力信号と各段毎の
フィルタ出力信号との(数11)による積和からメル周
波数軸上での自己相関関数を求め、かつ上記一定時間長
の入力信号と各段毎のフィルタ出力信号との積和は、積
和を行う範囲を上記一定時間長の入力信号の時間長に制
限して行い、上記メル周波数軸上での自己相関関数から
メル線形予測係数を求め、上記メル線形予測係数そのも
のか、あるいは上記メル線形予測係数から求まるケプス
トラム係数を用いて、入力音声を認識するようにしたも
のである。但し、(数11)は
【0080】
【数11】
【0081】により表され、φ(i,j)は自己相関関
数、x[n]は入力信号、y(i-j) [n]は各段毎のフ
ィルタ出力信号である。
【0082】本発明(請求項28)に係る音声認識方法
はこのように構成することにより、予測モデルに周波数
伸縮を組み込んだメル線形予測分析を用いて信号圧縮を
行う際に、本来無限回の演算を必要としていたものがオ
ールパスフィルタを具備することによって近似計算を全
く必要とすることなく、予め設定した有限回の演算で処
理可能となり、人間の聴覚的な性質を利用して精度のよ
い音声認識を行なうことができる音声認識方法を実際に
実現可能とする。
【0083】また、本発明(請求項29)に係る音声認
識方法は、請求項28記載の音声認識方法において、上
記オールパスフィルタは、直線周波数軸上の信号を周波
数変換してメル周波数軸上での信号に変換する、1次の
オールパスフィルタであるようにしたものである。
【0084】本発明(請求項29)に係る音声認識方法
はこのように構成することにより、本来無限回の演算を
必要としていたものがオールパスフィルタを具備するこ
とによって近似計算を全く必要とすることなく、予め設
定した有限回の演算で処理可能となり、人間の聴覚的な
性質を利用して精度のよい音声認識を行なうことができ
る音声認識方法を実際に実現可能とする。
【0085】また、本発明(請求項30)に係る音声認
識装置は、入力された音声から、人間の聴覚的な性質で
ある聴覚感度特性に対応した周波数上の重み付けに基づ
いて、周波数毎に分解能を変化させたスペクトル包絡に
対応する線形予測係数を算出するメル線形予測分析手段
と、上記メル線形予測分析手段で得られた線形予測係数
からケプストラム係数を算出するケプストラム係数算出
手段と、上記ケプストラム係数の複数フレーム分と複数
の標準モデルとの間の距離を算出し、どの標準モデルと
似ているかを判定する音声認識手段と、を備えるように
したものである。
【0086】本発明(請求項30)に係るオーディオ信
号圧縮装置はこのように構成することにより、人間の聴
覚上重要である低い周波数帯域の側を高い周波数帯域の
側に比しより周波数分解能を上げて分析することを可能
とし、人間の聴覚的な性質を利用して精度のよい音声認
識を行なうことができる音声認識装置を実現可能とす
る。
【0087】また、本発明(請求項31)に係る音声認
識装置は、請求項30記載の音声認識装置において、上
記メル線形予測分析手段は、入力音声をオールパスフィ
ルタを用いて周波数軸の伸縮を行うことで周波数伸縮信
号を求め、上記周波数伸縮信号に対して線形予測分析を
行うことで周波数毎に分解能を変化させた線形予測係数
を求めるものであるものとしたものである。
【0088】本発明(請求項31)に係る音声認識装置
はこのように構成することにより、人間の聴覚的な性質
を利用して精度のよい音声認識を行なうことができる音
声認識装置を実現可能とする。
【0089】また、本発明(請求項32)に係る音声認
識装置は、請求項30記載の音声認識装置において、上
記メル線形予測分析手段は、予測モデルに周波数伸縮を
組み込んだメル線形予測分析を用いて入力音声から周波
数毎に分解能を変化させた線形予測係数を求めるもので
あるものとしたものである。
【0090】本発明(請求項32)に係る音声認識装置
はこのように構成することにより、メル尺度を用いて人
間の聴覚上重要である低い周波数帯域の側を高い周波数
帯域の側に比しより周波数分解能を上げて分析すること
を可能とし、人間の聴覚的な性質を利用して効率のよい
音声認識を行なうことができる音声認識装置を実現可能
とする。
【0091】また、本発明(請求項33)に係る音声認
識装置は、請求項30記載の音声認識装置において、上
記メル線形予測分析手段は、入力された音声から人間の
聴覚的な性質である聴覚感度特性を考慮したスペクトル
包絡に対応する特徴量を求めるもので、かつ、上記入力
音声から一定時間長の入力信号を切り出し、上記一定時
間長の入力信号を複数段のオールパスフィルタに通して
各段毎のフィルタ出力信号を求め、上記一定時間長の入
力信号と各段毎のフィルタ出力信号との(数12)によ
る積和からメル周波数軸上での自己相関関数を求め、か
つ上記一定時間長の入力信号と各段毎のフィルタ出力信
号との積和は、積和を行う範囲を上記一定時間長の入力
信号の時間長に制限して行い、上記メル周波数軸上での
自己相関関数からメル線形予測係数を求めるものである
ものとしたものである。但し、(数12)は
【0092】
【数12】
【0093】により表され、φ(i,j)は自己相関関
数、x[n]は入力信号、y(i-j) [n]は各段毎のフ
ィルタ出力信号である。
【0094】本発明(請求項33)に係る音声認識装置
はこのように構成することにより、予測モデルに周波数
伸縮を組み込んだメル線形予測分析を用いて信号圧縮を
行う際に、本来無限回の演算を必要としていたものがオ
ールパスフィルタを具備することによって近似計算を全
く必要とすることなく、予め設定した有限回の演算で処
理可能となり、人間の聴覚的な性質を利用して精度のよ
い音声認識を行なうことができる音声認識装置を実際に
実現可能とする。
【0095】また、本発明(請求項34)に係る音声認
識装置は、請求項31記載の音声認識装置において、上
記オールパスフィルタは、直線周波数軸上の信号を周波
数変換してメル周波数軸上での信号に変換するためのも
ので、1次のオールパスフィルタであるものとしたもの
である。
【0096】本発明(請求項34)に係る音声認識装置
はこのように構成することにより、人間の聴覚的な性質
を利用して精度のよい音声認識を行なうことができる音
声認識装置を実際に実現可能とする。
【0097】
【発明の実施の形態】(実施の形態1)図1は本発明の
第1の実施の形態によるオーディオ信号圧縮装置の構成
を示すブロック図である。同図において、1は、例え
ば、MDCT,あるいはFFT等により入力されたディ
ジタルオーディオ信号や音声信号の時系列を、一定周期
の長さ(フレーム)毎に周波数特性信号系列に変換する
時間周波数変換部である。また、2は、予測モデルに周
波数伸縮機能を組み込んだメル線形予測分析を用いて、
入力オーディオ信号から、周波数毎に分析精度を変化さ
せたスペクトル包絡をフレーム毎に求めるスペクトル包
絡算出部である。3は時間周波数変換部1で算出された
周波数特性信号系列をスペクトル包絡算出部2で求めた
スペクトル包絡で割り算して正規化することにより、周
波数特性を平坦化する正規化部、4は正規化部3で平坦
化された周波数特性信号系列に対し、パワーの最大値,
あるいは平均値等に基づいてパワーの正規化を行なうパ
ワー正規化部である。5は、正規化部3,パワー正規化
部4で平坦化された周波数特性信号系列をベクトル量子
化する多段量子化部であり、この多段量子化部5は、互
いに縦列接続された第1段の量子化器51,第2段の量
子化器52,・・・,第N段の量子化器53を含む。6
は、時間周波数変換部1から出力された周波数特性信号
系列とスペクトル包絡算出部2で求めたスペクトル包絡
を入力とし、人間の聴覚感度特性に基づいて、量子化部
5での量子化の際に用いる重み付け係数を求める聴覚重
み付け計算部である。
【0098】次に動作について説明する。入力されたデ
ィジタルオーディオ信号(以下、入力信号とも記す)の
時系列は、一定周期の長さ(フレーム)毎に時間周波数
変換部1でMDCT,FFT等により周波数特性信号系
列に変換される。
【0099】さらに入力信号は、フレーム毎に、スペク
トル包絡算出部2で、予測モデルに周波数伸縮を組み込
んだメル線形予測分析を用いて、周波数毎に分析精度を
変化させたスペクトル包絡が求められる。図2は、入力
信号から、メル線形予測分析を用いて周波数毎に分析精
度を変化させたスペクトル包絡を求めるスペクトル包絡
算出部2を示した図である。同図において、スペクトル
包絡算出部2は、メル線形予測分析を用いて周波数毎に
分析精度を変化させた、すなわちメル化した線形予測係
数を求めるメル化係数算出部21と、スペクトル平坦化
のために用いる直線周波数のスペクトル包絡を計算する
包絡算出部22とからなる。以下、このメル化係数算出
部21と包絡算出部22のそれぞれについて説明する。
【0100】まずメル化係数算出部21における処理の
概略を、図3に示す。図3において、211は入力信号
の周波数軸の伸縮を行うオールパスフィルタ、212は
このオールパスフィルタ211の出力信号と予測係数と
の線形結合を作成し、オールパスフィルタ211の入力
信号の予測値を出力する線形結合部、213は線形結合
部212から出力される予測値とオールパスフィルタ2
11の出力信号とに対し最小2乗法を適用してメル化線
形予測係数を出力する最小2乗法演算部である。次に、
この図3を用いて周波数毎に分析精度を変化させた線形
予測係数、すなわちメル化した線形予測係数の推定方法
を説明する。先ず、入力信号x [n ]を、i 段のオール
パスフィルタ211
【0101】
【数13】
【0102】に通した出力信号yi[n ]と、線形結合部
212により作成した,予測係数
【0103】
【数14】
【0104】との線形結合によるx [n ]の予測値
【0105】
【数15】
【0106】は、(数16)で示される。
【0107】
【数16】
【0108】ただし、〔 〕は時間軸上の数列を示す。
ここで、オールパスフィルタ(数13)は、(数17)
で表される。また、出力信号yi[n ]は後述する(数2
1)および(数29)から求まる。
【0109】
【数17】
【0110】ただし、zは、z変換の演算子を表す。
【0111】このオールパスフィルタの周波数特性を、
図5に示す。図5において、横軸が変換前の周波数軸
で、縦軸は変換後の周波数軸を表す。図では、α=-0.5
からα=0.8まで0.1 刻みでαの値を変化させたときの様
子を表示している。図からαの値が正のときは、低周波
数帯域が伸び、高周波数帯域が縮んでいることが分か
る。また、αの値が負の場合はその逆となる。
【0112】本発明では、入力信号としてサンプリング
周波数,すなわち帯域幅、の異なるオーディオ信号や音
声信号を想定しているので、サンプリング周波数に応じ
てαの値をそれぞれの信号に合わせて決定することで、
スペクトル包絡を求める際に人間の聴覚特性に合った周
波数分解能を得ることで、スペクトル包絡を求める際に
人の聴覚特性に合った周波数分解能を得ることができ
る。例えば、聴覚の周波数分解能に関する臨界帯域幅の
観測から導かれた尺度としてバーク尺度が一般に知られ
ており、この特性に基づいてαの値を決定することも可
能である。
【0113】このバーク尺度はFletcherが提唱した聴覚
フィルタの概念から得られた尺度であり、Fletcherの言
う聴覚フィルタとは、中心周波数が連続的に変化する帯
域フィルタで、信号音に一番近い中心周波数を持つ帯域
フィルタが信号音の周波数分析を行い、音のマスキング
に影響を及ぼす雑音成分はこの帯域フィルタ内の周波数
成分に限られるようなフィルタである。Fletcherはこの
帯域フィルタのバンド幅を臨界帯域と名付けている。ま
た、人間の主観に基づいてピッチ感覚を直接数量化した
心理尺度としてメル尺度が一般に知られており、この特
性に基づいてαの値を決定することも可能である。
【0114】例えばメル尺度を、聴覚感度特性に対応し
た周波数上の重み付けとして採用する場合、我々は、サ
ンプリング周波数が8kHzではα=0.31 とし、10kHz では
α=0.35 、12kHz ではα=0.41 、16kHz ではα=0.45 、
44.1kHz ではα=0.6〜0.7 とした。また、バーク尺度
を、聴覚感度特性に対応した周波数上の重み付けとして
採用する場合、αをこれらの値から適宜変更すればよ
い。たとえば、バーク尺度の場合、12kHz では、我々
は、α=0.51を採用している。
【0115】次に、
【0116】
【数18】
【0117】で示されるオールパスフィルタの出力信号
yi[n ]と、予測値(数15)との全2乗誤差εを最小
化するように、最小2乗法演算部213において、最小
2乗法を用いて係数
【0118】
【数19】
【0119】を求めることができる。ここで、pは予測
係数の次数であり、pは予め予備実験的に信号圧縮の計
算量を考慮してその値を設定しておけばよく、入力信号
が音声信号の場合、例えば8ないし14等に、また、入
力信号がオーディオ信号の場合、例えば10ないし20
等に設定しておけばよい。ただし、
【0120】
【数20】
【0121】
【数21】
【0122】である。
【0123】ところで(数18)の全2乗誤差 εを最
小化する,メル化した線形予測係数は、次の正規方程式
で与えられる。
【0124】
【数22】
【0125】ただし、係数
【0126】
【数23】
【0127】は、メル周波数軸上(メル周波数領域)で
の自己相関関数(メル自己相関関数)であり、次式で与
えられる。
【0128】
【数24】
【0129】ここで、(数23)は、パーセバルの定理
により、直線周波数軸上でのスペクトル
【0130】
【数25】
【0131】と、(数26)で関係づけられる。ただ
し、( )は周波数領域での数列を表わす。
【0132】
【数26】
【0133】さらに、(数26)をメル周波数軸上での
式の形に書き換えると、
【0134】
【数27】
【0135】のようになる。ただし、
【0136】
【数28】
【0137】である。この(数28)は、(数17)に
より表されるオールパスフィルタをフーリエ変換するこ
とで得られる。(数27)は、メル自己相関関数(数2
3)が、メル周波数軸上でのパワースペクトルの逆フー
リエ変換に等しいことを意味する。したがって、(数2
2)の係数行列はToeplitz形の自己相関行列となり、簡
単な漸化式でメル化した線形予測係数を求めることが可
能となる。以下、メル化した線形予測係数を求めるため
の実際の計算の手順を示し、そのフローを図4に示す。 (ステップ1)ステップS1において、入力信号x [n
]を得て、ステップS2において、i段のオールパスフ
ィルタに通すことにより、ステップS3において得た出
力信号yi[n ]を、次式により求める。
【0138】
【数29】
【0139】のようになる。ただし(数21)である。 (ステップ2)ステップS4において、入力信号x [n
]と各段のフィルタ出力信号yi[n ]との次式のよう
な積和を演算することにより、ステップS5において、
メル周波数軸上の自己相関関数を得る。このときメル自
己相関関数(数23)は、(数27)の関係からオール
パスフィルタの段数差
【0140】
【数30】
【0141】のみに依存しているので、次の(数31)
のように、N項の積和演算で計算することができ、演算
の打ち切りによる近似を行う必要がない。なお、この
(数31)は、(数21)および(数29)を用いて
(数24)を変形することにより得られるものである。
【0142】
【数31】
【0143】即ち、この(数31)から分かるように、
この計算は(数24)に示された,通常の計算手法であ
れば本来無限回の計算を必要とすべきものが、有限回の
計算で終了するので、膨大な計算を必要としない。ま
た、無限回の演算を行う代わりに有限回の演算で演算を
打ち切る場合に必要な波形の打ち切り等の近似をまった
く必要とせず、波形の打ち切りに伴う誤差は全く発生し
ない。しかもその計算量は通常の自己相関係数の約2倍
の計算量で済むため、波形から直接求めることが可能で
ある。この点は、(数24)に示された,従来の計算法
とは決定的に異なる重要な点である。
【0144】(ステップ3)ステップS6において、メ
ル自己相関関数(数23)を用いて(数22)の正規方
程式を、既に公知のアルゴリズム、たとえばDurbinの方
法などで解くことにより、ステップS7において、メル
化した線形予測係数(メル線形予測係数)を求める。
【0145】次に、包絡算出部22の概略を図6に示
す。この図6において、221はメル化線形予測係数に
対し逆メル変換を行い直線周波数の線形予測係数を出力
する逆メル変換部、222は直線周波数の線形予測係数
をフーリエ変換しスペクトル包絡を出力するFFT部で
ある。次に、この図6を用いて、周波数毎に分析精度を
変化させた線形予測係数、すなわちメル化した線形予測
係数(数19)からスペクトル平坦化のために用いる直
線周波数のスペクトル包絡を求める方法を説明する。ま
ず、逆メル変換部221において、メル化した線形予測
係数(数19)から
【0146】
【数32】
【0147】の逆メル変換により、直線周波数の線形予
測係数
【0148】
【数33】
【0149】を求める。実際に(数32)を解くには、
良く知られたOppenheim の漸化式を計算することで解く
ことが可能である。ここで、オールパスフィルタ
【0150】
【数34】
【0151】は、(数17)において、αを−αと置き
換えた(数35)のオールパスフィルタを用いる必要が
ある。
【0152】
【数35】
【0153】これにより、メル周波数から線形周波数へ
と変換された予測係数を求めることが可能となる。さら
に、FFT部222において、この直線周波数の線形予
測係数(数33)からFFTを用いて(数36)によ
り、スペクトル平坦化のために用いる直線周波数のスペ
クトル包絡S(ejα) を求めることができる。
【0154】
【数36】
【0155】次に、正規化部3では、上記で算出された
周波数特性信号系列をスペクトル包絡で割り算し正規化
することにより、周波数特性信号系列を平坦化する。正
規化部3で平坦化された周波数特性信号系列は、パワー
正規化部4において、さらにパワーの最大値,あるいは
平均値等に基づいてパワーの正規化が行われる。
【0156】ところで、音声信号圧縮では、この正規化
部3と同様のスペクトル包絡による正規化を行ってい
る。すなわち、入力された音声信号の時系列は、フレー
ム毎に線形予測分析(LPC分析)することにより、L
PC係数(線形予測係数)やLSP係数(line spectru
m pair coefficient),あるいはPARCOR係数(偏
自己相関係数)等のLPCスペクトル包絡成分と周波数
特性が平坦化された残差信号とに分離しており、このこ
とはすなわち、上記実施の形態のように、スペクトル包
絡成分による周波数上での割算の処理と等価の処理であ
り、また線形予測分析により求めた線形予測係数やLS
P係数、あるいはPARCOR係数等のスペクトル包絡
成分を用いて、時間軸上での逆フィルタリング処理をす
ることとも等価な処理である。そこで、本発明のような
入力音声から求めたメル化された線形予測係数や、ある
いは通常の線形予測係数からPARCOR係数を求める
のと同様の公知の手法により、メル化された線形予測係
数から求めたメル化されたPARCOR係数や、あるい
は通常の線形予測係数からLSP係数を求めるのと同様
の公知の手法により、メル化された線形予測係数から求
めたメル化されたLSP係数を用いて、時間軸上での逆
フィルタリング処理を行うことや、あるいはスペクトル
包絡成分と残差信号とに分離を行うことで、音声信号圧
縮を行うことは可能である。
【0157】一方、聴覚重み付け計算部6には、時間周
波数変換部1から出力された周波数特性信号系列と、ス
ペクトル包絡算出部2で求めたスペクトル包絡とが入力
され、時間周波数変換部1から出力された周波数特性信
号系列のスペクトルについて、最小可聴限特性や聴覚マ
スキング特性等の人間の聴覚的な性質である聴覚感度特
性に基づいて、この聴覚感度特性を考慮した特性信号を
算出し、さらにこの特性信号とスペクトル包絡に基づい
て、量子化に用いる重み付け係数を求める。
【0158】パワー正規化部4から出力された残差信号
は、多段量子化部5の第1段の量子化部51で聴覚重み
付け計算部6によって求められた重み付け係数を用いて
量子化され、第1段の量子化部51での量子化による量
子化誤差成分が、多段量子化部5の第2段の量子化部5
2で聴覚重み付け計算部6によって求められた重み付け
係数を用いて量子化され、以下同様にして、複数段の量
子化部のそれぞれにおいて、前段の量子化部での量子化
による量子化誤差成分の量子化が行なわれる。これらの
各量子化部は量子化結果としてコードを出力する。そし
て、第(N−1)段の量子化部での量子化による量子化
誤差成分に対して、第N段の量子化部53で聴覚重み付
け計算部6によって求められた重み付け係数を用いて量
子化が行なわれることにより、オーディオ信号の圧縮符
号化が完了する。
【0159】このように、本実施の形態1によるオーデ
ィオ信号圧縮方法およびオーディオ信号圧縮装置によれ
ば、正規化部3で、入力オーディオ信号から算出された
周波数特性信号系列を、人間の聴覚的な性質である聴覚
感度特性に応じて周波数毎に分析精度を変化させたスペ
クトル包絡を用いて正規化する構成としたので、正確に
周波数特性信号系列の平坦化が行え、効率の良い量子化
を行なうことができる。
【0160】また、多段量子化部5でベクトル量子化す
る際の負担が少なくなり、効率の良い量子化を行なうこ
とができる。ベクトル量子化では、ある限られた情報
(コード)で周波数特性信号系列を表現するため、周波
数特性信号系列の形状が単純であればあるほど、より少
ないコードで表現することができる。そこで、本発明で
は、周波数特性信号系列の形状を単純化するために、周
波数特性信号系列の概略形状を表現しているスペクトル
包絡を用いて正規化しているが、この概略形状として周
波数毎に分析精度を変化させたスペクトル包絡を用いる
ことで、より正確に周波数特性信号系列の形状を単純化
でき、効率の良い量子化が行なうことができる。
【0161】また、多段量子化部5の複数段のベクトル
量子化部51〜53で、聴覚重み付け計算部6において
入力オーディオ信号のスペクトル,人間の聴覚的な性質
である聴覚感度特性,及び人間の聴覚的な性質である聴
覚感度特性に応じて、周波数毎に分析精度を変化させた
スペクトル包絡に基づいて算出された周波数上の重み付
け係数を量子化の際の重み付けとして用いてベクトル量
子化を行なう構成としたので、人間の聴覚的な性質を利
用して効率の良い量子化を行なうことができる。
【0162】なお、メル化係数算出部21は、入力信号
から、メル線形予測分析を用いて周波数毎に分析精度を
変化させた線形予測係数、すなわちメル化した線形予測
係数を求める部分であるが、以下のような方法を用いて
これを求めても良い。すなわち、入力信号に対し、オー
ルパスフィルタを用いて周波数軸の伸縮を行うことで周
波数伸縮信号を求め、この周波数伸縮信号に対して通常
の線形予測分析を行うことで周波数毎に分析精度を変化
させたスペクトル包絡を求める方法である。以下、周波
数毎に分析精度を変化させた線形予測係数、すなわちメ
ル化した線形予測係数を推定する方法について説明す
る。まず、入力信号x [n ]を、
【0163】
【数37】
【0164】により周波数軸をメル周波数へと変換した
出力信号
【0165】
【数38】
【0166】を求める。ここで、オールパスフィルタ
【0167】
【数39】
【0168】は、(数17)で表される。
【0169】次に、この出力信号(数38)に対して通
常の線形予測分析を行うことでメル化された、すなわち
周波数毎に分析精度を変化させた線形予測係数
【0170】
【数40】
【0171】を求めることができる。実際に(数37)
を解くには、良く知られたOppenheim の漸化式を計算す
ることで解くことが可能である。メル化係数算出部21
では、このような方法で求めた周波数毎に分析精度を変
化させた線形予測係数を用いても良い。
【0172】さらに、スペクトル包絡算出部2は、入力
信号から直接オールパスフィルタを用いて周波数軸の伸
縮を行うことにより周波数伸縮信号を求めることで、周
波数毎に分析精度を変化させたスペクトル包絡を求める
方法以外に、入力信号のパワースペクトルを周波数軸上
で再標本化、すなわち補間処理を行うことで、周波数軸
伸縮した、すなわちメル変換したパワースペクトルを求
めておき、これを逆DFTすることで、周波数毎に分析
精度を変化させたスペクトル包絡を求めることも可能で
ある。
【0173】さらに、スペクトル包絡算出部2は、入力
信号から求めた自己相関関数をm段のオールパスフィル
タを通して周波数軸の伸縮を行った自己相関関数を求
め、この自己相関関数から周波数毎に分析精度を変化さ
せたスペクトル包絡を求めることも可能である。
【0174】なお、図1のオーディオ信号圧縮装置で
は、聴覚重み付け計算部6が重み付け係数の算出にスペ
クトル包絡を用いる構成としているが、入力オーディオ
信号のスペクトルと、人間の聴覚的な性質である聴覚感
度特性のみを用いて、重み付け係数を算出するようにし
てもよい。
【0175】また、図1のオーディオ信号圧縮装置で
は、多段量子化部5の複数段のベクトル量子化部の全て
が聴覚重み付け計算部6において求められた聴覚感度特
性に基づく重み付け係数を用いて量子化するようにして
いるが、多段量子化部5の複数段のベクトル量子化器の
いずれか1つが聴覚感度特性に基づく重み付け係数を用
いて量子化を行なうものであれば、このような聴覚感度
特性に基づく重み付け係数を用いない場合に比して、効
率のよい量子化を行なうことができる。さらに、図1の
オーディオ信号圧縮装置では、圧縮すべき信号がオーデ
ィオ帯域の信号であるとして説明を行ったが、これを音
声帯域の信号としてもよく、この場合、図1の装置がそ
のまま音声信号圧縮装置となる。また、図1のオーディ
オ信号圧縮装置では、人間の聴覚的な性質である聴覚感
度特性に対応した周波数上の重み付けとして、メル尺度
を用いるようにしたが、オールパスフィルタのαの値を
適宜変更することにより、図1のブロック構成そのまま
でバーク尺度に基づき信号圧縮を行うオーディオ信号圧
縮装置に装置を変更することができる。
【0176】(実施の形態2)図7は本発明の第2の実
施の形態による音声認識装置の構成を示すブロック図で
ある。同図において、7は、予測モデルに周波数伸縮を
組み込んだメル線形予測分析を用いて、入力音声から周
波数毎に分解能を変化させたメル線形予測係数をフレー
ム毎に算出するメル線形予測分析部である。8は、メル
線形予測分析部7で算出されたメル線形予測係数をケプ
ストラム係数へと変換するケプストラム係数算出部であ
る。9は、ケプストラム係数算出部8で算出されたケプ
ストラム係数の時系列と、あらかじめ用意した単語や音
韻などの複数の標準モデルとの間の類似度を算出し、最
も類似度の大きい単語や音韻を認識する音声認識部であ
る。なおこの音声認識部9は特定話者認識を行うもので
も、不特定話者認識を行うものでもよい。
【0177】次に詳細な動作について説明する。まず、
入力されたディジタル音声(以下、「入力信号」とも記
す)の時系列は、一定周期の長さ(フレーム)毎にメル
線形予測分析部7で予測モデルに周波数伸縮を組み込ん
だメル線形予測分析を用いて、周波数毎に分解能を変化
させたスペクトル包絡に対応するメル線形予測係数が算
出される。以下、メル線形予測分析部7の動作について
説明する。
【0178】まず、メル線形予測分析部7の概略を図7
に示す。図7を用いて周波数毎に分解能を変化させた線
形予測係数、すなわちメル化した線形予測係数の算出方
法を説明する。まず本実施の形態2では、予測モデルと
して単位遅延z-1 を1次のオールパスフィルタ
【0179】
【数41】
【0180】で置き換えたモデル
【0181】
【数42】
【0182】を用いる。ただし、
【0183】
【数43】
【0184】は、メル線形予測係数、αは線形予測分析
の分解能を周波数毎に変化させるための伸縮係数であ
る。オールパスフィルタの周波数特性は、図5に既に示
している。例えば、伸縮係数としては、サンプリング周
波数が、8kHzではα=0.31 、10kHz ではα=0.35 、12kH
z ではα=0.41 、16kHz ではα=0.45 、44.1kHz ではα
=0.6〜0.7 などの値を用いれば良い。ここで、長さN の
有限長波形x [n ](n=0,...,N-1) に対する予測誤差
を、
【0185】
【数44】
【0186】のような無限区間に亘る全2乗予測誤差で
評価する。このとき、
【0187】
【数45】
【0188】であり、また、yi[n ]を、入力信号x
[n ]をi 段のオールパスフィルタに通した出力波形と
すると、yi[n ]の予測値
【0189】
【数46】
【0190】は次式のような線形結合で表される。
【0191】
【数47】
【0192】これより、予測誤差を最小とする係数(数
43)は、次式の連立方程式で与えられる。
【0193】
【数48】
【0194】ただし、φijは、無限長波形yi[n ]とyj
[n ]の共分散であるが、パーセバルの定理および、オ
ールパスフィルタ
【0195】
【数49】
【0196】をフーリエ変換した,周波数軸上での表現
を用いることにより、φijは次式のように有限回の積和
演算で与えられる。
【0197】
【数50】
【0198】さらに、
【0199】
【数51】
【0200】とおくと、r [m]は自己相関関数として
の性質を持つことを示すことができ、
【0201】
【数52】
【0202】の安定性も保証される。なお、(数50)
から分かるように、この計算は(数50)の中辺で示さ
れた通常の計算手法であれば本来無限回の計算を必要と
すべきものが、(数50)の右辺で示された有限回の計
算で終了するので、膨大な計算を必要としない。また、
無限回の演算を行う代わりに有限回の演算で演算を打ち
切る場合に必要な波形の打ち切り等の近似をまったく必
要とせず、波形の打ち切りに伴う誤差は全く発生しな
い。しかもその計算量は通常の自己相関係数の数倍の計
算量で済むため、波形から直接求めることが可能であ
る。この点は、従来の計算法とは決定的に異なる重要な
点である。
【0203】以下、メル線形予測係数を求めるための実
際の計算の手順を図8に示す。この部分は実施の形態1
の図3と同様であり、図8において、71は入力信号の
周波数軸の伸縮を行うオールパスフィルタ、72はこの
オールパスフィルタ71の出力信号と予測係数との線形
結合を作成し、オールパスフィルタ71の入力信号の予
測値を出力する線形結合部、73は線形結合部72から
出力される予測値と入力信号とに対し最小2乗法を適用
してメル化線形予測係数を出力する最小2乗法演算部で
ある。次に、この図8を用いて周波数毎に分析精度を変
化させた線形予測係数、すなわちメル化した線形予測係
数の推定方法を説明する。
【0204】(ステップ1)入力信号x [n]をi 段の
オールパスフィルタ71に通した出力信号yi[n]を、
次式により求める。
【0205】
【数53】
【0206】のようになる。ただし、(数21)であ
る。 (ステップ2)線形結合部72において、入力信号x
[n]と各段のフィルタ出力信号yi[n]との次式のよ
うな積和により、メル周波数軸上の自己相関関数を求め
る。このときメル自己相関関数(数23)は、(数2
7)の関係からオールパスフィルタの段数差
【0207】
【数54】
【0208】のみに依存しているので、次式のように打
ち切りの近似をすることなく、N項の積和演算で計算す
ることができる。
【0209】
【数55】
【0210】(ステップ3)最小2乗法演算部73にお
いて、メル自己相関関数(数23)を用いて(数22)
の正規方程式を、既に公知のアルゴリズム、たとえばDu
rbinの方法などで解くことにより、メル化した線形予測
係数(メル線形予測係数)を求める。
【0211】以上のようにして求めたメル線形予測係数
(数43)から、ケプストラム係数算出部8において、
ケプストラム係数へと変換する。ケプストラム係数への
変換の方法は既に公知であり、例えば文献(鹿野清宏、
中村哲、伊勢史郎著、「音声・音情報のディジタル信号
処理」、昭晃堂、p10〜16)に詳しく記載されてお
り、メル線形予測係数を通常の線形予測係数と同じよう
に扱って変換すれば良い。その結果、メル周波数軸上で
のケプストラム係数を求めることができる。
【0212】このようにして算出されたケプストラム係
数(以下、メルLPCケプストラム係数と呼ぶ)の時系
列は、音声認識部9においてあらかじめ用意した単語や
音韻などの複数の標準モデルとの間の類似度を算出し、
最も類似度の大きい単語や音韻を認識する。
【0213】標準モデルとしては、複数の認識対象語彙
毎の特徴量の時系列を確率的な遷移として表現する隠れ
マルコフモデル(HMM)と呼ばれる方法があり、既に
幅広く利用されており公知である(例えば、中川聖一:
“確率モデルによる音声認識”、電子情報通信学会
編)。HMMとは、あらかじめ個人差による音韻や単語
の特徴量の時系列をHMMモデルに学習させておき、入
力音声がモデルに確率値としてどのくらい近いかを捉え
て認識する方法である。本実施の形態では、この特徴量
の時系列として、前述のメルLPCケプストラム係数の
時系列を用いる。
【0214】また、標準モデルとしては、複数の認識対
象語彙毎の特徴量の時系列の中の代表的な特徴量の時系
列をモデルとしても良いし、さらに特徴量の時系列を時
間的あるいは周波数的に正規化(伸縮)することで得ら
れる特徴量の正規化時系列を用いてもよい。例えば、時
間軸上で任意の長さに正規化する方法としてDPマッチ
ング(dynamic programming ;動的計画法)があり、あ
らかじめ決定した対応付けの規則に従って、時間的特徴
量の時系列を正規化することが可能である。本実施の形
態では、このようにいずれの場合の標準モデルを使用し
ても、特徴量の時系列として前述のメルLPCケプスト
ラム係数の時系列を用いれば良いので、何等問題はな
い。
【0215】ところで本実施の形態では、入力音声から
求めた特徴量の時系列として、メルLPCケプストラム
係数を用いて認識を行っているが、通常の線形予測係数
からPARCOR係数を求めるのと同様の公知の手法に
よりメル線形予測係数から求めることのできるメルPA
RCOR係数や、あるいは通常の線形予測係数からLS
P係数を求めるのと同様の公知の手法によりメル線形予
測係数から求めることのできるメルLSP係数を音声認
識に用いることも可能である。また、これらメル線形予
測係数から求められるメル線形予測係数、メルPARC
OR係数、メルLSP係数、メルLPCケプストラム係
数等は、音声認識のみならず音声合成や音声符号化等の
幅広い分野で、従来の線形予測分析から求められる線形
予測係数、PARCOR係数、LSP係数、LPCケプ
ストラム係数等に置き換えて使用することができる。
【0216】なお、本実施の形態において、メル線形予
測分析部7は、入力信号から、メル線形予測分析を用い
て周波数毎に分解能を変化させた線形予測係数、すなわ
ちメル化した線形予測係数を求めるものとしたが、第1
の実施の形態と同様な方法を用いて求めても良い。すな
わち、入力信号をオールパスフィルタを用いて周波数軸
の伸縮を行うことで周波数伸縮信号を求め、この周波数
伸縮信号に対して通常の線形予測分析を行うことによ
り、周波数毎に分解能を変化させたスペクトル包絡を求
める方法である。
【0217】このように、人間の聴覚的な性質である聴
覚感度特性に対応した周波数上の重み付けに基づいたメ
ル線形予測分析により、聴覚感度特性に応じて周波数毎
に分解能を変化させたスペクトル包絡に対応する特徴量
を求めることにより、少ない特徴量でも効率的にスペク
トル包絡の特徴を捉えていることができ、さらにこの特
徴量を音声認識に用いることで、従来よりも少ない処理
量で高い認識性能を実現することができる。
【0218】(実施の形態3)図9は本発明の実施の形
態3によるオーディオ信号圧縮装置の構成を示すブロッ
ク図である。本実施の形態によるオーディオ信号圧縮装
置は、主に音声などの狭帯域信号圧縮において用いられ
ている音声信号圧縮装置について説明したものである。
同図において、11は、予測モデルに周波数伸縮を組み
込んだメル線形予測分析により、入力オーディオ信号か
ら周波数毎に分析精度を変化させたスペクトル包絡を表
現するメル線形予測係数をフレーム毎に求めるメルパラ
メータ算出部である。12は、メルパラメータ算出部1
で求めたメル周波数軸上のメル線形予測係数を直線周波
数軸の線形予測係数などのスペクトル包絡を表現する特
徴量へと変換するパラメータ変換部である。13は、入
力オーディオ信号をパラメータ変換部2で求めた特徴量
で逆フィルタリングして正規化することにより残差信号
を算出する包絡正規化部、14は、包絡正規化部13で
算出した残差信号をパワーの最大値,あるいは平均値等
に基づいてパワーの正規化を行なうパワー正規化部であ
る。15は、パワー正規化部14で正規化された正規化
残差信号を残差コードブック16によりベクトル量子化
し、残差符号へと変換するベクトル量子化部である。
【0219】次に動作について説明する。入力された音
声などのディジタルオーディオ信号(以下、入力信号あ
るいは入力音声とも記す)の時系列は、一定周期の長さ
(フレーム)毎に、メルパラメータ算出部11で、予測
モデルに周波数伸縮を組み込んだメル線形予測分析によ
り、入力信号から周波数毎に分析精度を変化させたスペ
クトル包絡を表現するメル線形予測係数が求められる。
スペクトル包絡を表現するメル線形予測係数を求める部
分は、実施の形態1のメル化係数算出部21で説明して
いる方法と同じであり、同様の手順でスペクトル包絡を
表現する特徴量を求めることができる。
【0220】次に、パラメータ変換部12では、メルパ
ラメータ算出部11で算出されたメル周波数軸上のメル
線形予測係数を直線周波数軸の線形予測係数などスペク
トル包絡を表現する特徴量へと変換する。この部分も、
実施の形態1で説明している方法と同じであり、包絡算
出部22と同様な方法で実現できる。ところで主に音声
信号の圧縮では、入力された音声信号の時系列は、フレ
ーム毎に線形予測分析(LPC分析)することにより、
LPC係数(線形予測係数)やLSP係数(line spect
rum pair coefficient),あるいはPARCOR係数
(偏自己相関係数)等のLPCスペクトル包絡成分を表
わす特徴量を求め、この特徴量で逆フィルタリングして
正規化することにより残差信号を算出している。そこで
本実施の形態のような入力音声から求めたメル化された
線形予測係数を正規化のための特徴量として用いたり、
あるいは通常の線形予測係数からPARCOR係数を求
めるのと同様の公知の手法によりメル化された線形予測
係数から求めたメル化されたPARCOR係数や、ある
いは通常の線形予測係数からLSP係数を求めるのと同
様の公知の手法によりメル化された線形予測係数から求
めたメル化されたLSP係数を用いて、時間軸上での逆
フィルタリング処理や、あるいはスペクトル包絡成分と
残差信号とに分離を行えば、より精度の良い正規化や分
離が可能となる。
【0221】同様に、本実施の形態の包絡正規化部13
では、パラメータ変換部12で変換された直線周波数軸
の線形予測係数などスペクトル包絡を表現する特徴量を
用いて、逆フィルタリングし、スペクトル包絡成分の正
規化を行い、残差信号を算出している。さらにパワー正
規化部14では、包絡正規化部3で求められた残差信号
をパワーの最大値,あるいは平均値等に基づいてパワー
の正規化が行われる。そしてベクトル量子化部15で
は、パワー正規化部14から出力された残差信号が、あ
らかじめ求めておいた残差コードブック16を用いてベ
クトル量子化される。その結果、ベクトル量子化部15
は、量子化結果としてコードを出力することにより入力
信号の圧縮符号化が完了する。
【0222】このように、本実施の形態によるオーディ
オ信号圧縮方法、およびオーディオ信号圧縮装置によれ
ば、メルパラメータ算出部1において、入力オーディオ
信号から算出された周波数特性信号系列を人間の聴覚的
な性質である聴覚感度特性に応じて周波数毎に分析精度
を変化させたスペクトル包絡を表現するメル線形予測係
数を求め、パラメータ変換部2で、このメル線形予測係
数を直線周波数軸の線形予測係数などのスペクトル包絡
を表現する特徴量へと変換し、さらに包絡正規化部3
で、パラメータ変換部2で求めた特徴量で逆フィルタリ
ングして正規化することにより、残差信号を正規化する
構成としたので、正確に周波数特性信号系列の平坦化が
行え、効率の良い量子化を行なうことができる。また、
ベクトル量子化では、ある限られた情報(コード)で残
差信号を表現するため、残差信号の形状が単純であれば
あるほど、より少ないコードで表現することができる。
そこで本発明では、残差信号の形状を単純化するため
に、周波数毎に分析精度を変化させたスペクトル包絡を
用いることで、より正確に残差信号の形状の単純化を行
うことができ、効率の良い量子化を行なうことができ
る。
【0223】(実施の形態4)図10は本発明の第4の
実施の形態による携帯電話機の構成を示すブロック図で
ある。本実施の形態による携帯電話機は、実施の形態3
における,主に音声などの狭帯域信号圧縮において用い
られている音声信号圧縮装置を用いて信号圧縮を行うよ
うしたものについて説明したものである。同図におい
て、11は、予測モデルに周波数伸縮を組み込んだメル
線形予測分析により、入力オーディオ信号から周波数毎
に分析精度を変化させたスペクトル包絡を表現するメル
線形予測係数をフレーム毎に求めるメルパラメータ算出
部である。12は、メルパラメータ算出部1で求めたメ
ル周波数軸上のメル線形予測係数を直線周波数軸の線形
予測係数などのスペクトル包絡を表現する特徴量へと変
換するパラメータ変換部である。13は、入力オーディ
オ信号をパラメータ変換部2で求めた特徴量で逆フィル
タリングして正規化することにより残差信号を算出する
包絡正規化部、14は、包絡正規化部13で算出した残
差信号をパワーの最大値,あるいは平均値等に基づいて
パワーの正規化を行なうパワー正規化部である。15
は、パワー正規化部14で正規化された正規化残差信号
を残差コードブック16によりベクトル量子化し、残差
符号へと変換するベクトル量子化部である。10はこれ
らメルパラメータ算出部11,パラメータ変換部12,
包絡正規化部13,パワー正規化部14,ベクトル量子
化部15および残差コードブック16からなり、マイク
ロフォンなどから入力される入力音声信号を、人間の聴
覚的な性質である聴覚感度特性に対応した周波数上の重
み付けに基づいて情報圧縮する音声圧縮部である。31
はこの音声圧縮部10により情報圧縮されたコードを、
携帯電話機の仕様に応じた周波数および変調方式の高周
波信号に変調し送信する送信部、32はこの送信部31
からの高周波信号を送信するアンテナである。
【0224】次に動作について説明する。音声圧縮部1
0の動作は第3の実施の形態による音声信号圧縮装置と
同様である。即ち、入力された音声などのディジタルオ
ーディオ信号(以下、入力信号あるいは入力音声とも記
す)の時系列は、一定周期の長さ(フレーム)毎に、メ
ルパラメータ算出部11で、予測モデルに周波数伸縮を
組み込んだメル線形予測分析により、入力信号から周波
数毎に分析精度を変化させたスペクトル包絡を表現する
メル線形予測係数が求められる。スペクトル包絡を表現
するメル線形予測係数を求める部分は、実施の形態1の
メル化係数算出部21で説明している方法と同じであ
り、同様の手順でスペクトル包絡を表現する特徴量を求
めることができる。
【0225】次に、パラメータ変換部12では、メルパ
ラメータ算出部11で算出されたメル周波数軸上のメル
線形予測係数を直線周波数軸の線形予測係数などスペク
トル包絡を表現する特徴量へと変換する。この部分も、
実施の形態1で説明している方法と同じであり、包絡算
出部22と同様な方法で実現できる。ところで主に音声
信号の圧縮では、入力された音声信号の時系列は、フレ
ーム毎に線形予測分析(LPC分析)することにより、
LPC係数(線形予測係数)やLSP係数(line spect
rum pair coefficient),あるいはPARCOR係数
(偏自己相関係数)等のLPCスペクトル包絡成分を表
わす特徴量を求め、この特徴量で逆フィルタリングして
正規化することにより残差信号を算出している。そこで
本実施の形態のような入力音声から求めたメル化された
線形予測係数を正規化のための特徴量として用いたり、
あるいは通常の線形予測係数からPARCOR係数を求
めるのと同様の公知の手法によりメル化された線形予測
係数から求めたメル化されたPARCOR係数や、ある
いは通常の線形予測係数からLSP係数を求めるのと同
様の公知の手法によりメル化された線形予測係数から求
めたメル化されたLSP係数を用いて、時間軸上での逆
フィルタリング処理や、あるいはスペクトル包絡成分と
残差信号とに分離を行えば、より精度の良い正規化や分
離が可能となる。
【0226】同様に、本実施の形態の包絡正規化部13
では、パラメータ変換部12で変換された直線周波数軸
の線形予測係数などスペクトル包絡を表現する特徴量を
用いて、逆フィルタリングし、スペクトル包絡成分の正
規化を行い、残差信号を算出している。さらにパワー正
規化部14では、包絡正規化部3で求められた残差信号
をパワーの最大値,あるいは平均値等に基づいてパワー
の正規化が行われる。そしてベクトル量子化部15で
は、パワー正規化部14から出力された残差信号が、あ
らかじめ求めておいた残差コードブック16を用いてベ
クトル量子化される。その結果、ベクトル量子化部15
は、量子化結果としてコードを出力することにより音声
信号の圧縮符号化が完了する。そして、このように音声
圧縮部10において圧縮符号化された音声信号のコード
は、送信部31に入力され、この送信部31において、
携帯電話機が採用している仕様に則った周波数および変
調方式の高周波に変換され、アンテナ32を介して基地
局に向けて送信される。
【0227】このように、本実施の形態による携帯電話
機によれば、メルパラメータ算出部1において、入力オ
ーディオ信号から算出された周波数特性信号系列を人間
の聴覚的な性質である聴覚感度特性に応じて周波数毎に
分析精度を変化させたスペクトル包絡を表現するメル線
形予測係数を求め、パラメータ変換部2で、このメル線
形予測係数を直線周波数軸の線形予測係数などのスペク
トル包絡を表現する特徴量へと変換し、さらに包絡正規
化部3で、パラメータ変換部2で求めた特徴量で逆フィ
ルタリングして正規化することにより、残差信号を正規
化する構成としたので、正確に周波数特性信号系列の平
坦化が行え、効率の良い量子化を行なうことができる。
また、ベクトル量子化では、ある限られた情報(コー
ド)で残差信号を表現するため、残差信号の形状が単純
であればあるほど、より少ないコードで表現することが
できる。そこで本発明では、残差信号の形状を単純化す
るために、周波数毎に分析精度を変化させたスペクトル
包絡を用いることで、より正確に残差信号の形状の単純
化を行うことができ、効率の良い量子化を行なうことが
できる。このため、同一の帯域を使用するのであれば、
従来のものに比しより通話品質を向上させることがで
き、従来と同等の通話品質でよいのであれば、よりチャ
ンネル数を増すことが可能となる。なお、本実施の形態
は、携帯電話機以外にも、自動車電話機等の移動体通信
に適用することが可能である。
【0228】(実施の形態5)図11は本発明の第5の
実施の形態によるネットワーク機器の構成を示すブロッ
ク図である。本実施の形態によるネットワーク機器は、
実施の形態3における,主に音声などの狭帯域信号圧縮
において用いられている音声信号圧縮装置を用いて信号
圧縮を行い、これをインターネット等のネットワークを
介して他のネットワーク機器に送り込む,インターネッ
ト電話等を想定しているものである。同図において、1
1は、予測モデルに周波数伸縮を組み込んだメル線形予
測分析により、入力オーディオ信号から周波数毎に分析
精度を変化させたスペクトル包絡を表現するメル線形予
測係数をフレーム毎に求めるメルパラメータ算出部であ
る。12は、メルパラメータ算出部1で求めたメル周波
数軸上のメル線形予測係数を直線周波数軸の線形予測係
数などのスペクトル包絡を表現する特徴量へと変換する
パラメータ変換部である。13は、入力オーディオ信号
をパラメータ変換部2で求めた特徴量で逆フィルタリン
グして正規化することにより残差信号を算出する包絡正
規化部、14は、包絡正規化部13で算出した残差信号
をパワーの最大値,あるいは平均値等に基づいてパワー
の正規化を行なうパワー正規化部である。15は、パワ
ー正規化部14で正規化された正規化残差信号を残差コ
ードブック16によりベクトル量子化し、残差符号へと
変換するベクトル量子化部である。10はこれらメルパ
ラメータ算出部11,パラメータ変換部12,包絡正規
化部13,パワー正規化部14,ベクトル量子化部15
および残差コードブック16からなり、マイクロフォン
などから入力される入力音声信号を、人間の聴覚的な性
質である聴覚感度特性に対応した周波数上の重み付けに
基づいて情報圧縮する音声圧縮部である。40はこの音
声圧縮部10により情報圧縮されたコードを、ネットワ
ークで音声データの伝送用のコードに変換し、TCP/
IPプロトコル等のネットワークの仕様に応じたプロト
コルに則って伝送するネットワークインターフェース部
である。
【0229】次に動作について説明する。音声圧縮部1
0の動作は第3の実施の形態による音声信号圧縮装置と
同様である。即ち、入力された音声などのディジタルオ
ーディオ信号(以下、入力信号とも記す)の時系列は、
一定周期の長さ(フレーム)毎に、メルパラメータ算出
部11で、予測モデルに周波数伸縮を組み込んだメル線
形予測分析により、入力オーディオ信号から周波数毎に
分析精度を変化させたスペクトル包絡を表現するメル線
形予測係数が求められる。スペクトル包絡を表現するメ
ル線形予測係数を求める部分は、実施の形態1のメル化
係数算出部21で説明している方法と同じであり、同様
の手順でスペクトル包絡を表現する特徴量を求めること
ができる。
【0230】次に、パラメータ変換部12では、メルパ
ラメータ算出部11で算出されたメル周波数軸上のメル
線形予測係数を直線周波数軸の線形予測係数などスペク
トル包絡を表現する特徴量へと変換する。この部分も、
実施の形態1で説明している方法と同じであり、包絡算
出部22と同様な方法で実現できる。ところで主に音声
信号の圧縮では、入力された音声信号の時系列は、フレ
ーム毎に線形予測分析(LPC分析)することにより、
LPC係数(線形予測係数)やLSP係数(line spect
rum pair coefficient),あるいはPARCOR係数
(偏自己相関係数)等のLPCスペクトル包絡成分を表
わす特徴量を求め、この特徴量で逆フィルタリングして
正規化することにより残差信号を算出している。そこで
本実施の形態のような入力音声から求めたメル化された
線形予測係数を正規化のための特徴量として用いたり、
あるいは通常の線形予測係数からPARCOR係数を求
めるのと同様の公知の手法によりメル化された線形予測
係数から求めたメル化されたPARCOR係数や、ある
いは通常の線形予測係数からLSP係数を求めるのと同
様の公知の手法によりメル化された線形予測係数から求
めたメル化されたLSP係数を用いて、時間軸上での逆
フィルタリング処理や、あるいはスペクトル包絡成分と
残差信号とに分離を行えば、より精度の良い正規化や分
離が可能となる。
【0231】同様に、本実施の形態の包絡正規化部13
では、パラメータ変換部12で変換された直線周波数軸
の線形予測係数などスペクトル包絡を表現する特徴量を
用いて、逆フィルタリングし、スペクトル包絡成分の正
規化を行い、残差信号を算出している。さらにパワー正
規化部14では、包絡正規化部13で求められた残差信
号をパワーの最大値,あるいは平均値等に基づいてパワ
ーの正規化が行われる。そしてベクトル量子化部15で
は、パワー正規化部14から出力された残差信号が、あ
らかじめ求めておいた残差コードブック16を用いてベ
クトル量子化される。その結果、ベクトル量子化部15
は、量子化結果としてコードを出力することにより音声
信号の圧縮符号化が完了する。そして、このように音声
圧縮部10において圧縮符号化された音声信号のコード
は、ネットワークインターフェース部40に入力され、
このネットワークインターフェース部40において、音
声圧縮部10により情報圧縮されたコードを、ネットワ
ークで音声データの伝送用のコードに変換し、TCP/
IPプロトコル等のネットワークの仕様に応じたプロト
コルに則ってネットワークに向けて送出する。
【0232】このように、本実施の形態によるネットワ
ーク機器によれば、メルパラメータ算出部11におい
て、入力オーディオ信号から算出された周波数特性信号
系列を人間の聴覚的な性質である聴覚感度特性に応じて
周波数毎に分析精度を変化させたスペクトル包絡を表現
するメル線形予測係数を求め、パラメータ変換部12
で、このメル線形予測係数を直線周波数軸の線形予測係
数などのスペクトル包絡を表現する特徴量へと変換し、
さらに包絡正規化部13で、パラメータ変換部12で求
めた特徴量で逆フィルタリングして正規化することによ
り、残差信号を正規化する構成としたので、正確に周波
数特性信号系列の平坦化が行え、効率の良い量子化を行
なうことができる。また、ベクトル量子化では、ある限
られた情報(コード)で残差信号を表現するため、残差
信号の形状が単純であればあるほど、より少ないコード
で表現することができる。そこで本発明では、残差信号
の形状を単純化するために、周波数毎に分析精度を変化
させたスペクトル包絡を用いることで、より正確に残差
信号の形状の単純化を行うことができ、効率の良い量子
化を行なうことができる。このため、ネットワークのデ
ータ転送速度が同一であれば、従来のものに比しより通
話品質を向上させることができ、従来と同等の通話品質
でよいのであれば、より収容できる端末の数を増すこと
が可能となる。なお、本実施の形態は、パソコンやイン
ターネット電話機,インターネットTV等のインターネ
ット機器を想定しているが、パソコン通信等、インター
ネット以外のプロトコルを用いる端末にも適用すること
が可能である。
【0233】(実施の形態6)図12は本発明の第6の
実施の形態によるネットワーク機器の構成を示すブロッ
ク図である。本実施の形態によるネットワーク機器は、
実施の形態1における,主にオーディオ帯域の信号圧縮
において用いられているオーディオ信号圧縮装置を用い
て信号圧縮を行い、これをインターネット等のネットワ
ークを介して他のネットワーク機器に送り込む,インタ
ーネット機器等を想定しているものである。同図におい
て、1は、例えば、MDCT,あるいはFFT等により
入力されたディジタルオーディオ信号や音声信号の時系
列を、一定周期の長さ(フレーム)毎に周波数特性信号
系列に変換する時間周波数変換部である。また、2は、
予測モデルに周波数伸縮機能を組み込んだメル線形予測
分析を用いて、入力オーディオ信号から、周波数毎に分
析精度を変化させたスペクトル包絡をフレーム毎に求め
るスペクトル包絡算出部である。3は時間周波数変換部
1で算出された周波数特性信号系列をスペクトル包絡算
出部2で求めたスペクトル包絡で割り算して正規化する
ことにより、周波数特性を平坦化する正規化部、4は正
規化部3で平坦化された周波数特性信号系列に対し、パ
ワーの最大値,あるいは平均値等に基づいてパワーの正
規化を行なうパワー正規化部である。5は、正規化部
3,パワー正規化部4で平坦化された周波数特性信号系
列をベクトル量子化する多段量子化部であり、この多段
量子化部5は、互いに縦列接続された第1段の量子化器
51,第2段の量子化器52,・・・,第N段の量子化
器53を含む。6は、時間周波数変換部1から出力され
た周波数特性信号系列とスペクトル包絡算出部2で求め
たスペクトル包絡を入力とし、人間の聴覚感度特性に基
づいて、量子化部5での量子化の際に用いる重み付け係
数を求める聴覚重み付け計算部である。20はこれら時
間周波数変換部1,スペクトル包絡算出部2,正規化部
3,パワー正規化部4,量子化部5および聴覚重み付け
計算部6からなり、外部から入力される入力オーディオ
音声信号を、人間の聴覚的な性質である聴覚感度特性に
対応した周波数上の重み付けに基づいて情報圧縮するオ
ーディオ信号圧縮部である。41はこのオーディオ信号
圧縮部20により情報圧縮されたコードを、ネットワー
クでオーディオデータの伝送用のコードに変換し、TC
P/IPプロトコル等のネットワークの仕様に応じたプ
ロトコルに則って伝送するネットワークインターフェー
ス部である。
【0234】次に動作について説明する。オーディオ信
号圧縮部20の動作は第1の実施の形態によるオーディ
オ信号圧縮装置と同様である。即ち、入力されたディジ
タルオーディオ信号(以下、入力信号とも記す)の時系
列は、一定周期の長さ(フレーム)毎に時間周波数変換
部1でMDCT,FFT等により周波数特性信号系列に
変換される。
【0235】さらに入力信号は、フレーム毎に、スペク
トル包絡算出部2で、予測モデルに周波数伸縮を組み込
んだメル線形予測分析を用いて、周波数毎に分析精度を
変化させたスペクトル包絡が求められる。次に、正規化
部3では、上記で算出された周波数特性信号系列をスペ
クトル包絡で割り算し正規化することにより、周波数特
性信号系列を平坦化する。正規化部3で平坦化された周
波数特性信号系列は、パワー正規化部4において、さら
にパワーの最大値,あるいは平均値等に基づいてパワー
の正規化が行われる。一方、聴覚重み付け計算部6に
は、時間周波数変換部1から出力された周波数特性信号
系列と、スペクトル包絡算出部2で求めたスペクトル包
絡とが入力され、時間周波数変換部1から出力された周
波数特性信号系列のスペクトルについて、最小可聴限特
性や聴覚マスキング特性等の人間の聴覚的な性質である
聴覚感度特性に基づいて、この聴覚感度特性を考慮した
特性信号を算出し、さらにこの特性信号とスペクトル包
絡に基づいて、量子化に用いる重み付け係数を求める。
【0236】パワー正規化部4から出力された残差信号
は、多段量子化部5の第1段の量子化部51で聴覚重み
付け計算部6によって求められた重み付け係数を用いて
量子化され、第1段の量子化部51での量子化による量
子化誤差成分が、多段量子化部5の第2段の量子化部5
2で聴覚重み付け計算部6によって求められた重み付け
係数を用いて量子化され、以下同様にして、複数段の量
子化部のそれぞれにおいて、前段の量子化部での量子化
による量子化誤差成分の量子化が行なわれる。これらの
各量子化部は量子化結果としてコードを出力する。そし
て、第(N−1)段の量子化部での量子化による量子化
誤差成分に対して、第N段の量子化部53で聴覚重み付
け計算部6によって求められた重み付け係数を用いて量
子化が行なわれることにより、オーディオ信号の圧縮符
号化が完了する。そして、このようにオーディオ信号圧
縮部20において圧縮符号化された音声信号のコード
は、ネットワークインターフェース部41に入力され、
このネットワークインターフェース部40において、オ
ーディオ信号圧縮部20により情報圧縮されたコード
を、ネットワークでオーディオデータの伝送用のコード
に変換し、TCP/IPプロトコル等のネットワークの
仕様に応じたプロトコルに則ってネットワークに向けて
送出する。
【0237】このように、本実施の形態6によるネット
ワーク機器によれば、正規化部3で、入力オーディオ信
号から算出された周波数特性信号系列を、人間の聴覚的
な性質である聴覚感度特性に応じて周波数毎に分析精度
を変化させたスペクトル包絡を用いて正規化する構成と
したので、正確に周波数特性信号系列の平坦化が行え、
効率の良い量子化を行なうことができる。また、多段量
子化部5でベクトル量子化する際の負担が少なくなり、
効率の良い量子化を行なうことができる。ベクトル量子
化では、ある限られた情報(コード)で周波数特性信号
系列を表現するため、周波数特性信号系列の形状が単純
であればあるほど、より少ないコードで表現することが
できる。そこで、本発明では、周波数特性信号系列の形
状を単純化するために、周波数特性信号系列の概略形状
を表現しているスペクトル包絡を用いて正規化している
が、この概略形状として周波数毎に分析精度を変化させ
たスペクトル包絡を用いることで、より正確に周波数特
性信号系列の形状を単純化でき、効率の良い量子化が行
なうことができる。
【0238】また、多段量子化部5の複数段のベクトル
量子化部51〜53で、聴覚重み付け計算部6において
入力オーディオ信号のスペクトル,人間の聴覚的な性質
である聴覚感度特性,及び人間の聴覚的な性質である聴
覚感度特性に応じて、周波数毎に分析精度を変化させた
スペクトル包絡に基づいて算出された周波数上の重み付
け係数を量子化の際の重み付けとして用いてベクトル量
子化を行なう構成としたので、人間の聴覚的な性質を利
用して効率の良い量子化を行なうことができる。このよ
うに、オーディオ信号の効率よい量子化を行っているた
め、ネットワークのデータ転送速度が同一あれば、従来
のものに比しよりオーディオ品質を向上させることがで
き、従来と同等のオーディオ品質でよいのであれば、よ
り収容できる端末の数を増すことが可能となる。なお、
本実施の形態は、パソコンやインターネットTV等のイ
ンターネット機器を想定しているが、パソコン通信等、
インターネット以外のプロトコルを用いる端末にも適用
することが可能である。
【0239】
【発明の効果】以上のように、本発明(請求項1)に係
るオーディオ信号圧縮方法によれば、入力されたオーデ
ィオ信号に対し、符号化を行い、かつ、その情報量を圧
縮するオーディオ信号圧縮方法において、入力されたオ
ーディオ信号から、人間の聴覚的な性質である聴覚感度
特性に対応した周波数上の重み付けに基づいて、周波数
毎に分析精度を変化させたスペクトル包絡を算出し、上
記算出したスペクトル包絡を用いて、上記入力オーディ
オ信号を、フレーム毎に平滑化するようにしたので、人
間の聴覚的な性質を利用して効率の良い信号圧縮を行な
うことができるオーディオ信号圧縮方法が得られる効果
がある。
【0240】また、本発明(請求項2)に係るオーディ
オ信号圧縮方法によれば、請求項1記載のオーディオ信
号圧縮方法において、上記スペクトル包絡の算出は、人
間の聴覚的な性質である聴覚感度特性に対応した周波数
上の重み付けとして、バーク尺度を用いて、上記周波数
毎に分析精度を変化させたスペクトル包絡を算出するよ
うにしたので、人間の聴覚的な性質を利用して効率の良
い信号圧縮を行なうことができるオーディオ信号圧縮方
法が得られる効果がある。
【0241】また、本発明(請求項3)に係るオーディ
オ信号圧縮方法によれば、請求項1記載のオーディオ信
号圧縮方法において、上記スペクトル包絡の算出は、人
間の聴覚的な性質である聴覚感度特性に対応した周波数
上の重み付けとして、メル尺度を用いて、上記周波数毎
に分析精度を変化させたスペクトル包絡を算出するよう
にしたので、人間の聴覚的な性質を利用して効率の良い
信号圧縮を行なうことができるオーディオ信号圧縮方法
が得られる効果がある。
【0242】また、本発明(請求項4)に係るオーディ
オ信号圧縮方法によれば、入力されたオーディオ信号に
対し、符号化を行い、かつ、その情報量を圧縮するオー
ディオ信号圧縮方法において、入力されたオーディオ信
号から、人間の聴覚的な性質である聴覚感度特性に対応
した周波数上の重み付けに基づいて、オールパスフィル
タを用いて周波数軸の伸縮を行って、周波数伸縮信号を
求め、上記周波数伸縮信号に対して線形予測分析を行
い、周波数毎に分析精度を変化させたスペクトル包絡を
求め、該スペクトル包絡を用いて、上記入力オーディオ
信号を、フレーム毎に平滑化するようにしたので、人間
の聴覚的な性質を利用して効率の良い信号圧縮を行なう
ことができるオーディオ信号圧縮方法が得られる効果が
ある。
【0243】また、本発明(請求項5)に係るオーディ
オ信号圧縮方法によれば、入力されたオーディオ信号に
対し、符号化を行い、かつ、その情報量を圧縮するオー
ディオ信号圧縮方法において、入力されたオーディオ信
号から、人間の聴覚的な性質である聴覚感度特性に対応
した周波数上の重み付けに基づいて、予測モデルに周波
数伸縮を組み込んだメル線形予測分析を用いて、周波数
毎に分析精度を変化させたスペクトル包絡を求め、該ス
ペクトル包絡を用いて、上記入力オーディオ信号を、フ
レーム毎に平滑化するようにしたので、人間の聴覚的な
性質を利用してより効率の良い信号圧縮を行なうことが
できるオーディオ信号圧縮方法が得られる効果がある。
【0244】また、本発明(請求項6)に係るオーディ
オ信号圧縮方法によれば、入力されたオーディオ信号に
対し、符号化を行い、かつ、その情報量を圧縮するオー
ディオ信号圧縮方法において、入力されたオーディオ信
号から、人間の聴覚的な性質である聴覚感度特性に対応
した周波数上の重み付けに基づいて、予測モデルに周波
数伸縮を組み込んだメル線形予測分析を用いて行う、周
波数毎に分析精度を変化させたスペクトル包絡の算出
は、上記入力オーディオ信号から一定時間長の入力信号
を切り出し、上記一定時間長の入力信号を複数段のオー
ルパスフィルタに通して各段毎のフィルタ出力信号を求
め、上記入力信号と各段毎のフィルタ出力信号との(数
56)による積和からメル周波数軸上での自己相関関数
を求め、かつ上記入力信号と各段毎のフィルタ出力信号
との積和は、積和を行う範囲を上記入力信号の時間長に
制限して行い、上記メル周波数軸上での自己相関関数か
らメル線形予測係数を求め、上記メル線形予測係数その
ものをスペクトル包絡とするか、あるいは該メル線形予
測係数からスペクトル包絡を求めるようにしたので、人
間の聴覚的な性質を利用してより効率の良い信号圧縮を
行なうことができるオーディオ信号圧縮方法が得られる
効果がある。但し、(数56)は
【0245】
【数56】
【0246】により表され、φ(i,j)は自己相関関
数、x[n]は入力信号、y(i-j) [n]は各段毎のフ
ィルタ出力信号である。
【0247】また、本発明(請求項7)に係るオーディ
オ信号圧縮方法によれば、請求項6に記載のオーディオ
信号圧縮方法において、上記オールパスフィルタは、直
線周波数軸上の信号を周波数変換してメル周波数軸上で
の信号に変換するためのもので、1次のオールパスフィ
ルタであるようにしたので、人間の聴覚的な性質を利用
してより効率の良い信号圧縮を行なうことができるオー
ディオ信号圧縮方法が得られる効果がある。
【0248】また、本発明(請求項8)に係るオーディ
オ信号圧縮装置によれば、入力されたオーディオ信号に
対し、符号化を行い、かつ、その情報量を圧縮するオー
ディオ信号圧縮装置において、入力されたオーディオ信
号を周波数領域信号に変換する時間周波数変換手段と、
上記入力オーディオ信号から、人間の聴覚的な性質であ
る聴覚感度特性に対応した周波数上の重み付けに基づい
て、周波数毎に分析精度を変化させたスペクトル包絡を
算出するスペクトル包絡算出手段と、上記時間周波数変
換手段で得られた周波数領域信号を、上記スペクトル包
絡算出手段で得られたスペクトル包絡で正規化し残差信
号を得る正規化手段と、上記残差信号をパワーにより正
規化するパワー正規化手段と、上記入力オーディオ信号
のスペクトルと、人間の聴覚的な性質である聴覚感度特
性とに基づき、周波数上の重み付け係数を算出する聴覚
重み付け計算手段と、上記パワー正規化手段により正規
化された上記残差信号が入力される、縦列に接続された
複数段のベクトル量子化部を有し、かつそのうち少なく
とも1つのベクトル量子化部が上記聴覚重み付け計算手
段で得られた重み付け係数を用いて量子化を行なう多段
量子化手段とを備えるようにしたので、人間の聴覚的な
性質を利用して効率の良い信号圧縮を行なうことができ
るオーディオ信号圧縮装置が得られる効果がある。
【0249】また、本発明(請求項9)に係るオーディ
オ信号圧縮装置によれば、入力されたオーディオ信号に
対し、符号化を行い、かつ、その情報量を圧縮するオー
ディオ信号圧縮装置において、入力されたオーディオ信
号から、人間の聴覚的な性質である聴覚感度特性に対応
した周波数上の重み付けに基づいて、周波数毎に分析精
度を変化させたスペクトル包絡を表現するメル周波数軸
上のメル線形予測係数を算出するメルパラメータ算出手
段と、 上記メル線形予測係数を直線周波数軸の線形予
測係数などのスペクトル包絡を表現する特徴量へと変換
するパラメータ変換手段と、上記入力オーディオ信号を
上記パラメータ変換手段で得られたスペクトル包絡を表
現する特徴量で逆フィルタリングして正規化し、残差信
号を得る包絡正規化手段と、上記残差信号をパワーの最
大値,あるいは平均値等に基づいて正規化し、正規化残
差信号を求めるパワー正規化手段と、上記パワー正規化
手段により正規化された上記正規化残差信号を残差コー
ドブックによりベクトル量子化し、残差符号へと変換す
るベクトル量子化部とを備えるようにしたので、人間の
聴覚的な性質を利用して効率の良い信号圧縮を行なうこ
とができるオーディオ信号圧縮装置が得られる効果があ
る。
【0250】また、本発明(請求項10)に係るオーデ
ィオ信号圧縮装置によれば、請求項8または請求項9に
記載のオーディオ信号圧縮装置において、上記スペクト
ル包絡算出手段は、入力オーディオ信号をオールパスフ
ィルタを用いて周波数軸の伸縮を行って上記周波数伸縮
信号を求め、上記周波数伸縮信号に対して線形予測分析
を行って、周波数毎に分析精度を変化させたスペクトル
包絡を求めるものとしたので、人間の聴覚的な性質を利
用して効率の良い信号圧縮を行なうことができるオーデ
ィオ信号圧縮装置が得られる効果がある。
【0251】また、本発明(請求項11)に係るオーデ
ィオ信号圧縮装置によれば、請求項8または請求項9に
記載のオーディオ信号圧縮装置において、上記スペクト
ル包絡算出手段は、予測モデルに周波数伸縮を組み込ん
だメル線形予測分析を用いて、入力オーディオ信号から
周波数毎に分析精度を変化させたスペクトル包絡を求め
るものとしたので、人間の聴覚的な性質を利用して効率
の良い信号圧縮を行なうことができるオーディオ信号圧
縮装置が得られる効果がある。
【0252】また、本発明(請求項12)に係るオーデ
ィオ信号圧縮装置によれば、請求項8または請求項9に
記載のオーディオ信号圧縮装置において、上記スペクト
ル包絡算出手段は、入力されたオーディオ信号から人間
の聴覚的な性質である聴覚感度特性に対応した周波数上
の重み付けに基づいて、周波数毎に分析精度を変化させ
たスペクトル包絡を算出するものであり、かつ、上記入
力オーディオ信号から一定時間長の入力信号を切り出
し、上記一定時間長の入力信号を複数段のオールパスフ
ィルタに通して各段毎のフィルタ出力信号を求め、上記
入力信号と各段毎のフィルタ出力信号との(数57)に
よる積和からメル周波数軸上での自己相関関数を求め、
かつ上記入力信号と各段毎のフィルタ出力信号との積和
は、積和を行う範囲を上記入力信号の時間長に制限して
行い、上記メル周波数軸上での自己相関関数からメル線
形予測係数を求め、上記メル線形予測係数そのものをス
ペクトル包絡とするか、あるいは該メル線形予測係数か
らスペクトル包絡を求めるものとしたので、人間の聴覚
的な性質を利用して効率の良い信号圧縮を行なうことが
できるオーディオ信号圧縮装置が得られる効果がある。
但し、(数57)は
【0253】
【数57】
【0254】により表され、φ(i,j)は自己相関関
数、x[n]は入力信号、y(i-j) [n]は各段毎のフ
ィルタ出力信号である。
【0255】また、本発明(請求項13)に係るオーデ
ィオ信号圧縮装置によれば、請求項12に記載のオーデ
ィオ信号圧縮装置において、上記オールパスフィルタ
は、直線周波数軸上の信号を周波数変換してメル周波数
軸上での信号に変換するためのもので、1次のオールパ
スフィルタであるものとしたので、人間の聴覚的な性質
を利用して効率の良い信号圧縮を行なうことができるオ
ーディオ信号圧縮装置が得られる効果がある。
【0256】また、本発明(請求項14)に係るオーデ
ィオ信号圧縮装置によれば、請求項8記載のオーディオ
信号圧縮装置において、上記多段量子化手段を構成する
複数段のうちの複数のベクトル量子化部は、聴覚重み付
け計算手段で得られた重み付け係数を用いて量子化を行
なうもので、かつ、上記聴覚重み付け計算手段は、上記
複数のベクトル量子化部のそれぞれが用いる個別の重み
付け係数を算出するものとしたので、人間の聴覚的な性
質を利用して効率の良い信号圧縮を行なうことができる
オーディオ信号圧縮装置が得られる効果がある。
【0257】また、本発明(請求項15)に係るオーデ
ィオ信号圧縮装置によれば、請求項14記載のオーディ
オ信号圧縮装置において、上記多段量子化手段は、上記
スペクトル包絡算出手段で得られた周波数毎に分析精度
を変化させたスペクトル包絡を各周波数領域での重み付
け係数として、上記パワー正規化手段で正規化された残
差信号の量子化を行なう第1段の量子化部と、上記スペ
クトル包絡と上記第1段の量子化部の量子化誤差信号と
の相関に基づいて算出された重み付け係数を各周波数領
域での重み付け係数として、上記第1段の量子化部から
出力される量子化誤差信号の量子化を行なう第2段の量
子化部と、上記聴覚重み付け計算手段において、上記時
間周波数変換手段で周波数領域信号に変換された入力信
号と聴覚特性とにより算出された重み付けを、上記スペ
クトル包絡,上記第2段の量子化部の量子化誤差信号,
および上記パワー正規化手段で正規化された上記残差信
号に基づいて調整して求めた重み付け係数を、各周波数
領域での重み付け係数として、上記第2段の量子化部か
ら出力される量子化誤差信号の量子化を行なう第3段の
量子化部と、を備えるようにしたので、人間の聴覚的な
性質を利用して効率の良い信号圧縮を行なうことができ
るオーディオ信号圧縮装置が得られる効果がある。
【0258】また、本発明(請求項16)に係る音声信
号圧縮方法によれば、入力された音声信号に対し、符号
化を行い、かつ、その情報量を圧縮する音声信号圧縮方
法において、入力された音声信号から、人間の聴覚的な
性質である聴覚感度特性に対応した周波数上の重み付け
に基づいて、予測モデルに周波数伸縮を組み込んだメル
線形予測分析を用いて行う、周波数毎に分析精度を変化
させたスペクトル包絡の算出は、上記入力音声信号から
一定時間長の入力信号を切り出し、上記一定時間長の入
力信号を複数段のオールパスフィルタに通して各段毎の
フィルタ出力信号を求め、上記入力信号と各段毎のフィ
ルタ出力信号との(数58)による積和からメル周波数
軸上での自己相関関数を求め、かつ上記入力信号と各段
毎のフィルタ出力信号との積和は、積和を行う範囲を上
記入力信号の時間長に制限して行い、上記メル周波数軸
上での自己相関関数からメル線形予測係数を求め、上記
メル線形予測係数そのものをスペクトル包絡とするか、
あるいは該メル線形予測係数からスペクトル包絡を求め
るようにしたので、人間の聴覚的な性質をより有効に利
用して効率の良い信号圧縮を行なうことができる音声信
号圧縮方法が得られる効果がある。但し、(数58)は
【0259】
【数58】
【0260】により表され、φ(i,j)は自己相関関
数、x[n]は入力信号、y(i-j) [n]は各段毎のフ
ィルタ出力信号である。
【0261】また、本発明(請求項17)に係る音声信
号圧縮方法によれば、請求項16に記載の音声信号圧縮
方法において、上記オールパスフィルタは、直線周波数
軸上の信号を周波数変換してメル周波数軸上での信号に
変換するためのもので、1次のオールパスフィルタであ
るようにしたので、人間の聴覚的な性質をより有効に利
用して効率の良い信号圧縮を行なうことができる音声信
号圧縮方法が得られる効果がある。
【0262】また、本発明(請求項18)に係る音声信
号圧縮装置によれば、入力された音声信号に対し、符号
化を行い、かつ、その情報量を圧縮する音声信号圧縮装
置において、入力された音声信号から、人間の聴覚的な
性質である聴覚感度特性に対応した周波数上の重み付け
に基づいて、周波数毎に分析精度を変化させたスペクト
ル包絡を表現するメル周波数軸上のメル線形予測係数を
算出するメルパラメータ算出手段と、上記メル線形予測
係数を直線周波数軸の線形予測係数などのスペクトル包
絡を表現する特徴量へと変換するパラメータ変換手段
と、上記入力信号を上記パラメータ変換手段で得られた
スペクトル包絡を表現する特徴量で逆フィルタリングし
て正規化し、残差信号を得る包絡正規化手段と、上記残
差信号をパワーの最大値,あるいは平均値等に基づいて
正規化し、正規化残差信号を求めるパワー正規化手段
と、上記パワー正規化手段により正規化された上記正規
化残差信号を残差コードブックによりベクトル量子化
し、残差符号へと変換するベクトル量子化部とを備える
ようにしたので、人間の聴覚的な性質をより有効に利用
して効率の良い信号圧縮を行なうことができる音声信号
圧縮装置が得られる効果がある。
【0263】また、本発明(請求項19)に係る音声信
号圧縮装置によれば、請求項18に記載の音声信号圧縮
装置において、上記スペクトル包絡算出手段は、入力音
声信号をオールパスフィルタを用いて周波数軸の伸縮を
行って上記周波数伸縮信号を求め、上記周波数伸縮信号
に対して線形予測分析を行って、周波数毎に分析精度を
変化させたスペクトル包絡を求めるものであるものとし
たので、人間の聴覚的な性質をより有効に利用して効率
の良い信号圧縮を行なうことができる音声信号圧縮装置
が得られる効果がある。
【0264】また、本発明(請求項20)に係る音声信
号圧縮装置によれば、請求項18に記載の音声信号圧縮
装置において、上記スペクトル包絡算出手段は、予測モ
デルに周波数伸縮を組み込んだメル線形予測分析を用い
て、入力音声信号から周波数毎に分析精度を変化させた
スペクトル包絡を求めるものであるものとしたので、人
間の聴覚的な性質をより有効に利用して効率の良い信号
圧縮を行なうことができる音声信号圧縮装置が得られる
効果がある。
【0265】また、本発明(請求項21)に係る音声信
号圧縮装置によれば、請求項18に記載の音声信号圧縮
装置において、上記スペクトル包絡算出手段は、入力さ
れた音声信号から人間の聴覚的な性質である聴覚感度特
性に対応した周波数上の重み付けに基づいて、周波数毎
に分析精度を変化させたスペクトル包絡を算出するもの
であり、かつ、上記入力音声信号から一定時間長の入力
信号を切り出し、上記一定時間長の入力信号を複数段の
オールパスフィルタに通して各段毎のフィルタ出力信号
を求め、上記入力信号と各段毎のフィルタ出力信号との
(数59)による積和からメル周波数軸上での自己相関
関数を求め、かつ上記入力信号と各段毎のフィルタ出力
信号との積和は、積和を行う範囲を上記入力信号の時間
長に制限して行い、上記メル周波数軸上での自己相関関
数からメル線形予測係数を求め、上記メル線形予測係数
そのものをスペクトル包絡とするか、あるいは該メル線
形予測係数からスペクトル包絡を求めるものであるもの
としたので、人間の聴覚的な性質をより有効に利用して
効率の良い信号圧縮を行なうことができる音声信号圧縮
装置が得られる効果がある。但し、(数59)は
【0266】
【数59】
【0267】により表され、φ(i,j)は自己相関関
数、x[n]は入力信号、y(i-j) [n]は各段毎のフ
ィルタ出力信号である。
【0268】また、本発明(請求項22)に係る音声信
号圧縮装置によれば、請求項21に記載の音声信号圧縮
装置において、上記オールパスフィルタは、直線周波数
軸上の信号を周波数変換してメル周波数軸上での信号に
変換するためのもので、1次のオールパスフィルタであ
るものとしたので、人間の聴覚的な性質をより有効に利
用して効率の良い信号圧縮を行なうことができる音声信
号圧縮装置が得られる効果がある。
【0269】また、本発明(請求項23)に係る音声認
識方法によれば、入力された音声信号から、人間の聴覚
的な性質である聴覚感度特性に対応した周波数上の重み
付けに基づいて、周波数毎に分解能を変化させた線形予
測分析法によりスペクトル包絡に対応する特徴量を算出
し、上記特徴量を用いて入力音声を認識するようにした
ので、人間の聴覚的な性質を利用して高精度に音声認識
を行うことができる音声認識方法が得られる効果があ
る。
【0270】また、本発明(請求項24)に係る音声認
識方法によれば、請求項23記載の音声認識方法におい
て、人間の聴覚的な性質である聴覚感度特性に対応した
周波数上の重み付けとして、バーク尺度を用いて、周波
数毎に分解能を変化させたスペクトル包絡に対応する、
上記特徴量を算出するようにしたので、人間の聴覚的な
性質を利用して高精度に音声認識を行うことができる音
声認識方法が得られる効果がある。
【0271】また、本発明(請求項25)に係る音声認
識方法によれば、請求項23記載の音声認識方法におい
て、人間の聴覚的な性質である聴覚感度特性に対応した
周波数上の重み付けとして、メル尺度を用いて、周波数
毎に分解能を変化させたスペクトル包絡に対応する、上
記特徴量を算出するようにしたので、人間の聴覚的な性
質を利用して高精度に音声認識を行うことができる音声
認識方法が得られる効果がある。
【0272】また、本発明(請求項26)に係る音声認
識方法によれば、入力された音声から、人間の聴覚的な
性質である聴覚感度特性を考慮したスペクトル包絡を求
める方法として、オールパスフィルタを用いて周波数軸
の伸縮を行って周波数伸縮信号を求め、上記周波数伸縮
信号に対して線形予測分析を行って周波数毎に分解能を
変化させたスペクトル包絡に対応する特徴量を求め、上
記特徴量を用いて、入力音声を認識するようにしたの
で、人間の聴覚的な性質を利用して高精度に音声認識を
行うことができる音声認識方法が得られる効果がある。
【0273】また、本発明(請求項27)に係る音声認
識方法によれば、入力された音声から、人間の聴覚的な
性質である聴覚感度特性を考慮したスペクトル包絡に対
応する特徴量を求める方法として、予測モデルに周波数
伸縮を組み込んだメル線形予測分析を用いた線形予測分
析法により特徴量を求め、上記特徴量を用いて、入力音
声を認識するようにしたので、人間の聴覚的な性質を利
用してより高精度に音声認識を行うことができる音声認
識方法が得られる効果がある。
【0274】また、本発明(請求項28)に係る音声認
識方法によれば、入力された音声から、人間の聴覚的な
性質である聴覚感度特性を考慮したスペクトル包絡に対
応する特徴量を求める方法として、上記入力音声から一
定時間長の入力信号を切り出し、上記一定時間長の入力
信号を複数段のオールパスフィルタに通して各段毎のフ
ィルタ出力信号を求め、上記一定時間長の入力信号と各
段毎のフィルタ出力信号との(数60)による積和から
メル周波数軸上での自己相関関数を求め、かつ上記一定
時間長の入力信号と各段毎のフィルタ出力信号との積和
は、積和を行う範囲を上記一定時間長の入力信号の時間
長に制限して行い、上記メル周波数軸上での自己相関関
数からメル線形予測係数を求め、上記メル線形予測係数
そのものか、あるいは上記メル線形予測係数から求まる
ケプストラム係数を用いて、入力音声を認識するように
したので、人間の聴覚的な性質を利用してより高精度に
音声認識を行うことができる音声認識方法が得られる効
果がある。但し、(数60)は
【0275】
【数60】
【0276】により表され、φ(i,j)は自己相関関
数、x[n]は入力信号、y(i-j) [n]は各段毎のフ
ィルタ出力信号である。
【0277】また、本発明(請求項29)に係る音声認
識方法によれば、請求項28記載の音声認識方法におい
て、上記オールパスフィルタは、直線周波数軸上の信号
を周波数変換してメル周波数軸上での信号に変換する、
1次のオールパスフィルタであるようにしたので、人間
の聴覚的な性質を利用してより高精度に音声認識を行う
ことができる音声認識方法が得られる効果がある。
【0278】また、本発明(請求項30)に係る音声認
識装置によれば、入力された音声から、人間の聴覚的な
性質である聴覚感度特性に対応した周波数上の重み付け
に基づいて、周波数毎に分解能を変化させたスペクトル
包絡に対応する線形予測係数を算出するメル線形予測分
析手段と、上記メル線形予測分析手段で得られた線形予
測係数からケプストラム係数を算出するケプストラム係
数算出手段と、上記ケプストラム係数の複数フレーム分
と複数の標準モデルとの間の距離を算出し、どの標準モ
デルと似ているかを判定する音声認識手段と、を備える
ようにしたので、人間の聴覚的な性質を利用して高精度
に音声認識を行うことができる音声認識装置が得られる
効果がある。
【0279】また、本発明(請求項31)に係る音声認
識装置によれば、請求項30記載の音声認識装置におい
て、上記メル線形予測分析手段は、入力音声をオールパ
スフィルタを用いて周波数軸の伸縮を行うことで周波数
伸縮信号を求め、上記周波数伸縮信号に対して線形予測
分析を行うことで周波数毎に分解能を変化させた線形予
測係数を求めるものであるものとしたので、人間の聴覚
的な性質を利用して高精度に音声認識を行うことができ
る音声認識装置が得られる効果がある。
【0280】また、本発明(請求項32)に係る音声認
識装置によれば、請求項30記載の音声認識装置におい
て、上記メル線形予測分析手段は、予測モデルに周波数
伸縮を組み込んだメル線形予測分析を用いて入力音声か
ら周波数毎に分解能を変化させた線形予測係数を求める
ものであるものとしたので、人間の聴覚的な性質を利用
して高精度に音声認識を行うことができる音声認識装置
が得られる効果がある。
【0281】また、本発明(請求項33)に係る音声認
識装置によれば、請求項30記載の音声認識装置におい
て、上記メル線形予測分析手段は、入力された音声から
人間の聴覚的な性質である聴覚感度特性を考慮したスペ
クトル包絡に対応する特徴量を求めるもので、かつ、上
記入力音声から一定時間長の入力信号を切り出し、上記
一定時間長の入力信号を複数段のオールパスフィルタに
通して各段毎のフィルタ出力信号を求め、上記一定時間
長の入力信号と各段毎のフィルタ出力信号との(数6
1)による積和からメル周波数軸上での自己相関関数を
求め、かつ上記一定時間長の入力信号と各段毎のフィル
タ出力信号との積和は、積和を行う範囲を上記一定時間
長の入力信号の時間長に制限して行い、上記メル周波数
軸上での自己相関関数からメル線形予測係数を求めるも
のであるものとしたので、人間の聴覚的な性質を利用し
てより高精度に音声認識を行うことができる音声認識装
置が得られる効果がある。但し、(数61)は
【0282】
【数61】
【0283】により表され、φ(i,j)は自己相関関
数、x[n]は入力信号、y(i-j) [n]は各段毎のフ
ィルタ出力信号である。
【0284】また、本発明(請求項34)に係る音声認
識装置によれば、請求項31記載の音声認識装置におい
て、上記オールパスフィルタは、直線周波数軸上の信号
を周波数変換してメル周波数軸上での信号に変換するた
めのもので、1次のオールパスフィルタであるものとし
たので、人間の聴覚的な性質を利用してより高精度に音
声認識を行うことができる音声認識装置が得られる効果
がある。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態によるオーディオ信
号圧縮装置の構成を示すブロック図
【図2】本発明の第1の実施の形態によるオーディオ信
号圧縮装置に係るスペクトル包絡算出部の詳細な構成の
一例を示すブロック図
【図3】本発明の第1の実施の形態によるオーディオ信
号圧縮装置に係るメル化係数算出部の詳細な構成の一例
を示すブロック図
【図4】本発明の第1の実施の形態によるオーディオ信
号圧縮装置に係るメル化係数算出部の詳細な計算の手順
の一例を示すブロック図
【図5】周波数軸伸縮関数(オールパスフィルタ)の特
性を示す図
【図6】本発明の第1の実施の形態によるオーディオ信
号圧縮装置に係る包絡算出部の詳細な構成の一例を示す
ブロック図
【図7】本発明の第2の実施の形態による音声認識装置
の構成を示すブロック図
【図8】本発明の第2の実施の形態による音声認識装置
に係るメル線形予測分析部の詳細な構成の一例を示すブ
ロック図
【図9】本発明の第3の実施の形態によるオーディオ信
号圧縮装置の構成を示すブロック図
【図10】本発明の第4の実施の形態による携帯電話機
の構成を示すブロック図
【図11】本発明の第5の実施の形態によるネットワー
ク機器の構成を示すブロック図
【図12】本発明の第6の実施の形態によるネットワー
ク機器の構成を示すブロック図
【符号の説明】
1 時間周波数変換部 2 スペクトル包絡算出部 3 正規化部 4 パワー正規化部 5 多段量子化部 6 聴覚重み付け計算部 7 メル線形予測分析部 8 ケプストラム係数算出部 9 音声認識部 51 第1段の量子化器 52 第2段の量子化器 53 第3段の量子化器
───────────────────────────────────────────────────── フロントページの続き (72)発明者 石川 智一 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 芹川 光彦 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 片山 大朗 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 中橋 順一 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 八木 順子 大阪府門真市大字門真1006番地 松下電器 産業株式会社内

Claims (34)

    【特許請求の範囲】
  1. 【請求項1】 入力されたオーディオ信号に対し、符号
    化を行い、かつ、その情報量を圧縮するオーディオ信号
    圧縮方法において、 入力されたオーディオ信号から、人間の聴覚的な性質で
    ある聴覚感度特性に対応した周波数上の重み付けに基づ
    いて、周波数毎に分析精度を変化させたスペクトル包絡
    を算出し、 上記算出したスペクトル包絡を用いて、上記入力オーデ
    ィオ信号を、フレーム毎に平滑化する、 ことを特徴とするオーディオ信号圧縮方法。
  2. 【請求項2】 請求項1記載のオーディオ信号圧縮方法
    において、 上記スペクトル包絡の算出は、人間の聴覚的な性質であ
    る聴覚感度特性に対応した周波数上の重み付けとして、
    バーク尺度を用いて、上記周波数毎に分析精度を変化さ
    せたスペクトル包絡を算出する、 ことを特徴とするオーディオ信号圧縮方法。
  3. 【請求項3】 請求項1記載のオーディオ信号圧縮方法
    において、 上記スペクトル包絡の算出は、人間の聴覚的な性質であ
    る聴覚感度特性に対応した周波数上の重み付けとして、
    メル尺度を用いて、上記周波数毎に分析精度を変化させ
    たスペクトル包絡を算出する、 ことを特徴とするオーディオ信号圧縮方法。
  4. 【請求項4】 入力されたオーディオ信号に対し、符号
    化を行い、かつ、その情報量を圧縮するオーディオ信号
    圧縮方法において、 入力されたオーディオ信号から、人間の聴覚的な性質で
    ある聴覚感度特性に対応した周波数上の重み付けに基づ
    いて、オールパスフィルタを用いて周波数軸の伸縮を行
    って、周波数伸縮信号を求め、 上記周波数伸縮信号に対して線形予測分析を行い、周波
    数毎に分析精度を変化させたスペクトル包絡を求め、 該スペクトル包絡を用いて、上記入力オーディオ信号
    を、フレーム毎に平滑化する、 ことを特徴とするオーディオ信号圧縮方法。
  5. 【請求項5】 入力されたオーディオ信号に対し、符号
    化を行い、かつ、その情報量を圧縮するオーディオ信号
    圧縮方法において、 入力されたオーディオ信号から、人間の聴覚的な性質で
    ある聴覚感度特性に対応した周波数上の重み付けに基づ
    いて、予測モデルに周波数伸縮を組み込んだメルLPC
    分析(以下、メル線形予測分析と称す)を用いて、周波
    数毎に分析精度を変化させたスペクトル包絡を求め、 該スペクトル包絡を用いて、上記入力オーディオ信号
    を、フレーム毎に平滑化する、 ことを特徴とするオーディオ信号圧縮方法。
  6. 【請求項6】 入力されたオーディオ信号に対し、符号
    化を行い、かつ、その情報量を圧縮するオーディオ信号
    圧縮方法において、 入力されたオーディオ信号から、人間の聴覚的な性質で
    ある聴覚感度特性に対応した周波数上の重み付けに基づ
    いて、予測モデルに周波数伸縮を組み込んだメル線形予
    測分析を用いて行う、周波数毎に分析精度を変化させた
    スペクトル包絡の算出は、 上記入力オーディオ信号から一定時間長の入力信号を切
    り出し、上記一定時間長の入力信号を複数段のオールパ
    スフィルタに通して各段毎のフィルタ出力信号を求め、
    上記入力信号と各段毎のフィルタ出力信号との(数1)
    による積和からメル周波数軸上での自己相関関数を求
    め、かつ上記入力信号と各段毎のフィルタ出力信号との
    積和は、積和を行う範囲を上記入力信号の時間長に制限
    して行い、上記メル周波数軸上での自己相関関数からメ
    ル線形予測係数を求め、上記メル線形予測係数そのもの
    をスペクトル包絡とするか、あるいは該メル線形予測係
    数からスペクトル包絡を求めるものである、 ことを特徴とするオーディオ信号圧縮方法。但し、(数
    1)は 【数1】 により表され、φ(i,j)は自己相関関数、x[n]
    は入力信号、y(i-j) [n]は各段毎のフィルタ出力信
    号である。
  7. 【請求項7】 請求項6に記載のオーディオ信号圧縮方
    法において、 上記オールパスフィルタは、直線周波数軸上の信号を周
    波数変換してメル周波数軸上での信号に変換するための
    もので、1次のオールパスフィルタである、 ことを特徴とするオーディオ信号圧縮方法。
  8. 【請求項8】 入力されたオーディオ信号に対し、符号
    化を行い、かつ、その情報量を圧縮するオーディオ信号
    圧縮装置において、 入力されたオーディオ信号を周波数領域信号に変換する
    時間周波数変換手段と、 上記入力オーディオ信号から、人間の聴覚的な性質であ
    る聴覚感度特性に対応した周波数上の重み付けに基づい
    て、周波数毎に分析精度を変化させたスペクトル包絡を
    算出するスペクトル包絡算出手段と、 上記時間周波数変換手段で得られた周波数領域信号を、
    上記スペクトル包絡算出手段で得られたスペクトル包絡
    で正規化し残差信号を得る正規化手段と、 上記残差信号をパワーにより正規化するパワー正規化手
    段と、 上記入力オーディオ信号のスペクトルと、人間の聴覚的
    な性質である聴覚感度特性とに基づき、周波数上の重み
    付け係数を算出する聴覚重み付け計算手段と、 上記パワー正規化手段により正規化された上記残差信号
    が入力される、縦列に接続された複数段のベクトル量子
    化部を有し、かつそのうち少なくとも1つのベクトル量
    子化部が上記聴覚重み付け計算手段で得られた重み付け
    係数を用いて量子化を行なう多段量子化手段と、 を備えたことを特徴とするオーディオ信号圧縮装置。
  9. 【請求項9】 入力されたオーディオ信号に対し、符号
    化を行い、かつ、その情報量を圧縮するオーディオ信号
    圧縮装置において、 入力されたオーディオ信号から、人間の聴覚的な性質で
    ある聴覚感度特性に対応した周波数上の重み付けに基づ
    いて、周波数毎に分析精度を変化させたスペクトル包絡
    を表現するメル周波数軸上のメル線形予測係数を算出す
    るメルパラメータ算出手段と、 上記メル線形予測係数を直線周波数軸の線形予測係数な
    どのスペクトル包絡を表現する特徴量へと変換するパラ
    メータ変換手段と、 上記入力オーディオ信号を上記パラメータ変換手段で得
    られたスペクトル包絡を表現する特徴量で逆フィルタリ
    ングして正規化し、残差信号を得る包絡正規化手段と、 上記残差信号をパワーの最大値,あるいは平均値等に基
    づいて正規化し、正規化残差信号を求めるパワー正規化
    手段と、 上記パワー正規化手段により正規化された上記正規化残
    差信号を残差コードブックによりベクトル量子化し、残
    差符号へと変換するベクトル量子化部と、 を備えたことを特徴とするオーディオ信号圧縮装置。
  10. 【請求項10】 請求項8または請求項9に記載のオー
    ディオ信号圧縮装置において、 上記スペクトル包絡算出手段は、入力オーディオ信号を
    オールパスフィルタを用いて周波数軸の伸縮を行って上
    記周波数伸縮信号を求め、上記周波数伸縮信号に対して
    線形予測分析を行って、周波数毎に分析精度を変化させ
    たスペクトル包絡を求めるものである、 ことを特徴とするオーディオ信号圧縮装置。
  11. 【請求項11】 請求項8または請求項9に記載のオー
    ディオ信号圧縮装置において、 上記スペクトル包絡算出手段は、予測モデルに周波数伸
    縮を組み込んだメル線形予測分析を用いて、入力オーデ
    ィオ信号から周波数毎に分析精度を変化させたスペクト
    ル包絡を求めるものである、 ことを特徴とするオーディオ信号圧縮装置。
  12. 【請求項12】 請求項8または請求項9に記載のオー
    ディオ信号圧縮装置において、 上記スペクトル包絡算出手段は、入力されたオーディオ
    信号から人間の聴覚的な性質である聴覚感度特性に対応
    した周波数上の重み付けに基づいて、周波数毎に分析精
    度を変化させたスペクトル包絡を算出するものであり、
    かつ、 上記入力オーディオ信号から一定時間長の入力信号を切
    り出し、上記一定時間長の入力信号を複数段のオールパ
    スフィルタに通して各段毎のフィルタ出力信号を求め、
    上記入力信号と各段毎のフィルタ出力信号との(数2)
    による積和からメル周波数軸上での自己相関関数を求
    め、かつ上記入力信号と各段毎のフィルタ出力信号との
    積和は、積和を行う範囲を上記入力信号の時間長に制限
    して行い、上記メル周波数軸上での自己相関関数からメ
    ル線形予測係数を求め、上記メル線形予測係数そのもの
    をスペクトル包絡とするか、あるいは該メル線形予測係
    数からスペクトル包絡を求めるものである、 ことを特徴とするオーディオ信号圧縮装置。但し、(数
    2)は 【数2】 により表され、φ(i,j)は自己相関関数、x[n]
    は入力信号、y(i-j) [n]は各段毎のフィルタ出力信
    号である。
  13. 【請求項13】 請求項12に記載のオーディオ信号圧
    縮装置において、 上記オールパスフィルタは、直線周波数軸上の信号を周
    波数変換してメル周波数軸上での信号に変換するための
    もので、1次のオールパスフィルタである、 ことを特徴とするオーディオ信号圧縮装置。
  14. 【請求項14】 請求項8記載のオーディオ信号圧縮装
    置において、 上記多段量子化手段を構成する複数段のうちの複数のベ
    クトル量子化部は、聴覚重み付け計算手段で得られた重
    み付け係数を用いて量子化を行なうもので、かつ、上記
    聴覚重み付け計算手段は、上記複数のベクトル量子化部
    のそれぞれが用いる個別の重み付け係数を算出するもの
    である、 ことを特徴とするオーディオ信号圧縮装置。
  15. 【請求項15】 請求項14記載のオーディオ信号圧縮
    装置において、 上記多段量子化手段は、 上記スペクトル包絡算出手段で得られた周波数毎に分析
    精度を変化させたスペクトル包絡を各周波数領域での重
    み付け係数として、上記パワー正規化手段で正規化され
    た残差信号の量子化を行なう第1段の量子化部と、 上記スペクトル包絡と上記第1段の量子化部の量子化誤
    差信号との相関に基づいて算出された重み付け係数を各
    周波数領域での重み付け係数として、上記第1段の量子
    化部から出力される量子化誤差信号の量子化を行なう第
    2段の量子化部と、 上記聴覚重み付け計算手段において、上記時間周波数変
    換手段で周波数領域信号に変換された入力信号と聴覚特
    性とにより算出された重み付けを、上記スペクトル包
    絡,上記第2段の量子化部の量子化誤差信号,および上
    記パワー正規化手段で正規化された上記残差信号に基づ
    いて調整して求めた重み付け係数を、各周波数領域での
    重み付け係数として、上記第2段の量子化部から出力さ
    れる量子化誤差信号の量子化を行なう第3段の量子化部
    と、を備えたものである、 ことを特徴とするオーディオ信号圧縮装置。
  16. 【請求項16】 入力された音声信号に対し、符号化を
    行い、かつ、その情報量を圧縮する音声信号圧縮方法に
    おいて、 入力された音声信号から、人間の聴覚的な性質である聴
    覚感度特性に対応した周波数上の重み付けに基づいて、
    予測モデルに周波数伸縮を組み込んだメル線形予測分析
    を用いて行う、周波数毎に分析精度を変化させたスペク
    トル包絡の算出は、 上記入力音声信号から一定時間長の入力信号を切り出
    し、上記一定時間長の入力信号を複数段のオールパスフ
    ィルタに通して各段毎のフィルタ出力信号を求め、上記
    入力信号と各段毎のフィルタ出力信号との(数3)によ
    る積和からメル周波数軸上での自己相関関数を求め、か
    つ上記入力信号と各段毎のフィルタ出力信号との積和
    は、積和を行う範囲を上記入力信号の時間長に制限して
    行い、上記メル周波数軸上での自己相関関数からメル線
    形予測係数を求め、上記メル線形予測係数そのものをス
    ペクトル包絡とするか、あるいは該メル線形予測係数か
    らスペクトル包絡を求めるものである、 ことを特徴とする音声信号圧縮方法。但し、(数3)は 【数3】 により表され、φ(i,j)は自己相関関数、x[n]
    は入力信号、y(i-j) [n]は各段毎のフィルタ出力信
    号である。
  17. 【請求項17】 請求項16に記載の音声信号圧縮方法
    において、 上記オールパスフィルタは、直線周波数軸上の信号を周
    波数変換してメル周波数軸上での信号に変換するための
    もので、1次のオールパスフィルタである、 ことを特徴とする音声信号圧縮方法。
  18. 【請求項18】 入力された音声信号に対し、符号化を
    行い、かつ、その情報量を圧縮する音声信号圧縮装置に
    おいて、 入力された音声信号から、人間の聴覚的な性質である聴
    覚感度特性に対応した周波数上の重み付けに基づいて、
    周波数毎に分析精度を変化させたスペクトル包絡を表現
    するメル周波数軸上のメル線形予測係数を算出するメル
    パラメータ算出手段と、 上記メル線形予測係数を直線周波数軸の線形予測係数な
    どのスペクトル包絡を表現する特徴量へと変換するパラ
    メータ変換手段と、 上記入力信号を上記パラメータ変換手段で得られたスペ
    クトル包絡を表現する特徴量で逆フィルタリングして正
    規化し、残差信号を得る包絡正規化手段と、 上記残差信号をパワーの最大値,あるいは平均値等に基
    づいて正規化し、正規化残差信号を求めるパワー正規化
    手段と、 上記パワー正規化手段により正規化された上記正規化残
    差信号を残差コードブックによりベクトル量子化し、残
    差符号へと変換するベクトル量子化部と、 を備えたことを特徴とする音声信号圧縮装置。
  19. 【請求項19】 請求項18に記載の音声信号圧縮装置
    において、 上記スペクトル包絡算出手段は、入力音声信号をオール
    パスフィルタを用いて周波数軸の伸縮を行って上記周波
    数伸縮信号を求め、上記周波数伸縮信号に対して線形予
    測分析を行って、周波数毎に分析精度を変化させたスペ
    クトル包絡を求めるものである、 ことを特徴とする音声信号圧縮装置。
  20. 【請求項20】 請求項18に記載の音声信号圧縮装置
    において、 上記スペクトル包絡算出手段は、予測モデルに周波数伸
    縮を組み込んだメル線形予測分析を用いて、入力音声信
    号から周波数毎に分析精度を変化させたスペクトル包絡
    を求めるものである、 ことを特徴とする音声信号圧縮装置。
  21. 【請求項21】 請求項18に記載の音声信号圧縮装置
    において、 上記スペクトル包絡算出手段は、入力された音声信号か
    ら人間の聴覚的な性質である聴覚感度特性に対応した周
    波数上の重み付けに基づいて、周波数毎に分析精度を変
    化させたスペクトル包絡を算出するものであり、かつ、 上記入力音声信号から一定時間長の入力信号を切り出
    し、上記一定時間長の入力信号を複数段のオールパスフ
    ィルタに通して各段毎のフィルタ出力信号を求め、上記
    入力信号と各段毎のフィルタ出力信号との(数4)によ
    る積和からメル周波数軸上での自己相関関数を求め、か
    つ上記入力信号と各段毎のフィルタ出力信号との積和
    は、積和を行う範囲を上記入力信号の時間長に制限して
    行い、上記メル周波数軸上での自己相関関数からメル線
    形予測係数を求め、上記メル線形予測係数そのものをス
    ペクトル包絡とするか、あるいは該メル線形予測係数か
    らスペクトル包絡を求めるものである、 ことを特徴とする音声信号圧縮装置。但し、(数4)は 【数4】 により表され、φ(i,j)は自己相関関数、x[n]
    は入力信号、y(i-j) [n]は各段毎のフィルタ出力信
    号である。
  22. 【請求項22】 請求項21に記載の音声信号圧縮装置
    において、 上記オールパスフィルタは、直線周波数軸上の信号を周
    波数変換してメル周波数軸上での信号に変換するための
    もので、1次のオールパスフィルタである、 ことを特徴とする音声信号圧縮装置。
  23. 【請求項23】 入力された音声信号から、人間の聴覚
    的な性質である聴覚感度特性に対応した周波数上の重み
    付けに基づいて、周波数毎に分解能を変化させた線形予
    測分析法によりスペクトル包絡に対応する特徴量を算出
    し、 上記特徴量を用いて入力音声を認識する、 ことを特徴とする音声認識方法。
  24. 【請求項24】 請求項23記載の音声認識方法におい
    て、 人間の聴覚的な性質である聴覚感度特性に対応した周波
    数上の重み付けとして、バーク尺度を用いて、周波数毎
    に分解能を変化させたスペクトル包絡に対応する、上記
    特徴量を算出する、 ことを特徴とする音声認識方法。
  25. 【請求項25】 請求項23記載の音声認識方法におい
    て、 人間の聴覚的な性質である聴覚感度特性に対応した周波
    数上の重み付けとして、メル尺度を用いて、周波数毎に
    分解能を変化させたスペクトル包絡に対応する、上記特
    徴量を算出する、 ことを特徴とする音声認識方法。
  26. 【請求項26】 入力された音声から、人間の聴覚的な
    性質である聴覚感度特性を考慮したスペクトル包絡を求
    める方法として、オールパスフィルタを用いて周波数軸
    の伸縮を行って周波数伸縮信号を求め、上記周波数伸縮
    信号に対して線形予測分析を行って周波数毎に分解能を
    変化させたスペクトル包絡に対応する特徴量を求め、 上記特徴量を用いて、入力音声を認識する、 ことを特徴とする音声認識方法。
  27. 【請求項27】 入力された音声から、人間の聴覚的な
    性質である聴覚感度特性を考慮したスペクトル包絡に対
    応する特徴量を求める方法として、予測モデルに周波数
    伸縮を組み込んだメル線形予測分析を用いた線形予測分
    析法により特徴量を求め、 上記特徴量を用いて、入力音声を認識する、 ことを特徴とする音声認識方法。
  28. 【請求項28】 入力された音声から、人間の聴覚的な
    性質である聴覚感度特性を考慮したスペクトル包絡に対
    応する特徴量を求める方法として、 上記入力音声から一定時間長の入力信号を切り出し、上
    記一定時間長の入力信号を複数段のオールパスフィルタ
    に通して各段毎のフィルタ出力信号を求め、上記一定時
    間長の入力信号と各段毎のフィルタ出力信号との(数
    5)による積和からメル周波数軸上での自己相関関数を
    求め、かつ上記一定時間長の入力信号と各段毎のフィル
    タ出力信号との積和は、積和を行う範囲を上記一定時間
    長の入力信号の時間長に制限して行い、上記メル周波数
    軸上での自己相関関数からメル線形予測係数を求め、上
    記メル線形予測係数そのものか、あるいは上記メル線形
    予測係数から求まるケプストラム係数を表わす特徴量を
    用いて、入力音声を認識する、 ことを特徴とする音声認識方法。但し、(数5)は 【数5】 により表され、φ(i,j)は自己相関関数、x[n]
    は入力信号、y(i-j) [n]は各段毎のフィルタ出力信
    号である。
  29. 【請求項29】 請求項28記載の音声認識方法におい
    て、 上記オールパスフィルタは、直線周波数軸上の信号を周
    波数変換してメル周波数軸上での信号に変換する、1次
    のオールパスフィルタである、 ことを特徴とする音声認識方法。
  30. 【請求項30】 入力された音声から、人間の聴覚的な
    性質である聴覚感度特性に対応した周波数上の重み付け
    に基づいて、周波数毎に分解能を変化させたスペクトル
    包絡に対応する線形予測係数を算出するメル線形予測分
    析手段と、 上記メル線形予測分析手段で得られた線形予測係数から
    ケプストラム係数を算出するケプストラム係数算出手段
    と、 上記ケプストラム係数の複数フレーム分と複数の標準モ
    デルとの間の距離を算出し、どの標準モデルと似ている
    かを判定する音声認識手段と、 を備えたことを特徴とする音声認識装置。
  31. 【請求項31】 請求項30記載の音声認識装置におい
    て、 上記メル線形予測分析手段は、入力音声をオールパスフ
    ィルタを用いて周波数軸の伸縮を行うことで周波数伸縮
    信号を求め、上記周波数伸縮信号に対して線形予測分析
    を行うことで周波数毎に分解能を変化させた線形予測係
    数を求めるものである、 ことを特徴とする音声認識装置。
  32. 【請求項32】 請求項30記載の音声認識装置におい
    て、 上記メル線形予測分析手段は、予測モデルに周波数伸縮
    を組み込んだメル線形予測分析を用いて入力音声から周
    波数毎に分解能を変化させた線形予測係数を求めるもの
    である、 ことを特徴とする音声認識装置。
  33. 【請求項33】 請求項30記載の音声認識装置におい
    て、 上記メル線形予測分析手段は、入力された音声から人間
    の聴覚的な性質である聴覚感度特性を考慮したスペクト
    ル包絡に対応する特徴量を求めるもので、かつ、 上記入力音声から一定時間長の入力信号を切り出し、上
    記一定時間長の入力信号を複数段のオールパスフィルタ
    に通して各段毎のフィルタ出力信号を求め、上記一定時
    間長の入力信号と各段毎のフィルタ出力信号との(数
    6)による積和からメル周波数軸上での自己相関関数を
    求め、かつ上記一定時間長の入力信号と各段毎のフィル
    タ出力信号との積和は、積和を行う範囲を上記一定時間
    長の入力信号の時間長に制限して行い、上記メル周波数
    軸上での自己相関関数からメル線形予測係数を求めるも
    のである、 ことを特徴とする音声認識装置。但し、(数6)は 【数6】 により表され、φ(i,j)は自己相関関数、x[n]
    は入力信号、y(i-j) [n]は各段毎のフィルタ出力信
    号である。
  34. 【請求項34】 請求項31記載の音声認識装置におい
    て、 上記オールパスフィルタは、直線周波数軸上の信号を周
    波数変換してメル周波数軸上での信号に変換するための
    もので、1次のオールパスフィルタである、 ことを特徴とする音声認識装置。
JP28160498A 1997-10-03 1998-10-02 オーディオ信号圧縮方法、オーディオ信号圧縮装置、音声信号圧縮方法、音声信号圧縮装置,音声認識方法および音声認識装置 Expired - Fee Related JP3351746B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP28160498A JP3351746B2 (ja) 1997-10-03 1998-10-02 オーディオ信号圧縮方法、オーディオ信号圧縮装置、音声信号圧縮方法、音声信号圧縮装置,音声認識方法および音声認識装置

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP27094597 1997-10-03
JP9-270945 1997-10-03
JP10-65005 1998-03-16
JP6500598 1998-03-16
JP28160498A JP3351746B2 (ja) 1997-10-03 1998-10-02 オーディオ信号圧縮方法、オーディオ信号圧縮装置、音声信号圧縮方法、音声信号圧縮装置,音声認識方法および音声認識装置

Publications (2)

Publication Number Publication Date
JPH11327600A true JPH11327600A (ja) 1999-11-26
JP3351746B2 JP3351746B2 (ja) 2002-12-03

Family

ID=27298633

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28160498A Expired - Fee Related JP3351746B2 (ja) 1997-10-03 1998-10-02 オーディオ信号圧縮方法、オーディオ信号圧縮装置、音声信号圧縮方法、音声信号圧縮装置,音声認識方法および音声認識装置

Country Status (1)

Country Link
JP (1) JP3351746B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002372982A (ja) * 2001-06-15 2002-12-26 Secom Co Ltd 音響信号分析方法及び装置
WO2005064594A1 (ja) * 2003-12-26 2005-07-14 Matsushita Electric Industrial Co., Ltd. 音声・楽音符号化装置及び音声・楽音符号化方法
JP2006235243A (ja) * 2005-02-24 2006-09-07 Secom Co Ltd 音響信号分析装置及び音響信号分析プログラム
JP2007017905A (ja) * 2005-07-11 2007-01-25 Ntt Docomo Inc 信号符号化装置、信号復号化装置、信号符号化方法、及び信号復号化方法。
JP2010060989A (ja) * 2008-09-05 2010-03-18 Sony Corp 演算装置および方法、量子化装置および方法、オーディオ符号化装置および方法、並びにプログラム
US7908142B2 (en) 2006-05-25 2011-03-15 Sony Corporation Apparatus and method for identifying prosody and apparatus and method for recognizing speech
WO2012075476A3 (en) * 2010-12-03 2012-07-26 Microsoft Corporation Warped spectral and fine estimate audio encoding
US8593321B2 (en) 2008-09-26 2013-11-26 Sony Corporation Computation apparatus and method, quantization apparatus and method, and program
US8601039B2 (en) 2008-09-26 2013-12-03 Sony Corporation Computation apparatus and method, quantization apparatus and method, and program

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03138700A (ja) * 1989-10-25 1991-06-13 Nippon Telegr & Teleph Corp <Ntt> ベクトル量子化方法
JPH0435527A (ja) * 1990-05-31 1992-02-06 Fujitsu Ltd 多段符号化・復号化方式
JPH04264599A (ja) * 1991-02-20 1992-09-21 Hitachi Ltd 音声分析合成装置
JPH05313695A (ja) * 1992-05-07 1993-11-26 Sony Corp 音声分析装置
JPH07160297A (ja) * 1993-12-10 1995-06-23 Nec Corp 音声パラメータ符号化方式
JPH07191696A (ja) * 1993-12-27 1995-07-28 Ricoh Co Ltd 音声認識装置
JPH0844399A (ja) * 1994-03-17 1996-02-16 Nippon Telegr & Teleph Corp <Ntt> 音響信号変換符号化方法および復号化方法
JPH08115095A (ja) * 1994-10-14 1996-05-07 Kobe Steel Ltd 音素特徴列比較方法
JPH08123494A (ja) * 1994-10-28 1996-05-17 Mitsubishi Electric Corp 音声符号化装置、音声復号化装置、音声符号化復号化方法およびこれらに使用可能な位相振幅特性導出装置
JPH09230897A (ja) * 1996-02-22 1997-09-05 Nippon Telegr & Teleph Corp <Ntt> 音響信号変換符号化方法
JPH09244698A (ja) * 1996-03-08 1997-09-19 Sei Imai 音声符号/復号化方式及び装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03138700A (ja) * 1989-10-25 1991-06-13 Nippon Telegr & Teleph Corp <Ntt> ベクトル量子化方法
JPH0435527A (ja) * 1990-05-31 1992-02-06 Fujitsu Ltd 多段符号化・復号化方式
JPH04264599A (ja) * 1991-02-20 1992-09-21 Hitachi Ltd 音声分析合成装置
JPH05313695A (ja) * 1992-05-07 1993-11-26 Sony Corp 音声分析装置
JPH07160297A (ja) * 1993-12-10 1995-06-23 Nec Corp 音声パラメータ符号化方式
JPH07191696A (ja) * 1993-12-27 1995-07-28 Ricoh Co Ltd 音声認識装置
JPH0844399A (ja) * 1994-03-17 1996-02-16 Nippon Telegr & Teleph Corp <Ntt> 音響信号変換符号化方法および復号化方法
JPH08115095A (ja) * 1994-10-14 1996-05-07 Kobe Steel Ltd 音素特徴列比較方法
JPH08123494A (ja) * 1994-10-28 1996-05-17 Mitsubishi Electric Corp 音声符号化装置、音声復号化装置、音声符号化復号化方法およびこれらに使用可能な位相振幅特性導出装置
JPH09230897A (ja) * 1996-02-22 1997-09-05 Nippon Telegr & Teleph Corp <Ntt> 音響信号変換符号化方法
JPH09244698A (ja) * 1996-03-08 1997-09-19 Sei Imai 音声符号/復号化方式及び装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002372982A (ja) * 2001-06-15 2002-12-26 Secom Co Ltd 音響信号分析方法及び装置
JP4603727B2 (ja) * 2001-06-15 2010-12-22 セコム株式会社 音響信号分析方法及び装置
US7693707B2 (en) 2003-12-26 2010-04-06 Pansonic Corporation Voice/musical sound encoding device and voice/musical sound encoding method
WO2005064594A1 (ja) * 2003-12-26 2005-07-14 Matsushita Electric Industrial Co., Ltd. 音声・楽音符号化装置及び音声・楽音符号化方法
JP2006235243A (ja) * 2005-02-24 2006-09-07 Secom Co Ltd 音響信号分析装置及び音響信号分析プログラム
JP2007017905A (ja) * 2005-07-11 2007-01-25 Ntt Docomo Inc 信号符号化装置、信号復号化装置、信号符号化方法、及び信号復号化方法。
JP4699117B2 (ja) * 2005-07-11 2011-06-08 株式会社エヌ・ティ・ティ・ドコモ 信号符号化装置、信号復号化装置、信号符号化方法、及び信号復号化方法。
US7908142B2 (en) 2006-05-25 2011-03-15 Sony Corporation Apparatus and method for identifying prosody and apparatus and method for recognizing speech
JP2010060989A (ja) * 2008-09-05 2010-03-18 Sony Corp 演算装置および方法、量子化装置および方法、オーディオ符号化装置および方法、並びにプログラム
US8825494B2 (en) 2008-09-05 2014-09-02 Sony Corporation Computation apparatus and method, quantization apparatus and method, audio encoding apparatus and method, and program
US8593321B2 (en) 2008-09-26 2013-11-26 Sony Corporation Computation apparatus and method, quantization apparatus and method, and program
US8601039B2 (en) 2008-09-26 2013-12-03 Sony Corporation Computation apparatus and method, quantization apparatus and method, and program
WO2012075476A3 (en) * 2010-12-03 2012-07-26 Microsoft Corporation Warped spectral and fine estimate audio encoding
US8532985B2 (en) 2010-12-03 2013-09-10 Microsoft Coporation Warped spectral and fine estimate audio encoding

Also Published As

Publication number Publication date
JP3351746B2 (ja) 2002-12-03

Similar Documents

Publication Publication Date Title
KR100361883B1 (ko) 오디오신호압축방법,오디오신호압축장치,음성신호압축방법,음성신호압축장치,음성인식방법및음성인식장치
KR100304092B1 (ko) 오디오 신호 부호화 장치, 오디오 신호 복호화 장치 및 오디오 신호 부호화/복호화 장치
KR100283547B1 (ko) 오디오 신호 부호화 방법 및 복호화 방법, 오디오 신호 부호화장치 및 복호화 장치
CN1327405C (zh) 分布式语音识别系统中语音识别的方法和设备
JP3680380B2 (ja) 音声符号化方法及び装置
US9123350B2 (en) Method and system for extracting audio features from an encoded bitstream for audio classification
CN101057275B (zh) 矢量变换装置以及矢量变换方法
JP3344962B2 (ja) オーディオ信号符号化装置、及びオーディオ信号復号化装置
JPH0869299A (ja) 音声符号化方法、音声復号化方法及び音声符号化復号化方法
KR20090117876A (ko) 부호화 장치 및 부호화 방법
JPH10124092A (ja) 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置
JPH08123484A (ja) 信号合成方法および信号合成装置
JP3351746B2 (ja) オーディオ信号圧縮方法、オーディオ信号圧縮装置、音声信号圧縮方法、音声信号圧縮装置,音声認識方法および音声認識装置
US20020065649A1 (en) Mel-frequency linear prediction speech recognition apparatus and method
Yoshimura et al. Speaker-dependent WaveNet-based delay-free ADPCM speech coding
JP2000132194A (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JP4274614B2 (ja) オーディオ信号復号方法
KR20060067016A (ko) 음성 부호화 장치 및 방법
JP2002023797A (ja) オーディオ信号圧縮方法,およびオーディオ信号圧縮装置
Ramachandran Quantization of discrete time signals
JPH08123490A (ja) スペクトル包絡量子化装置
JP4327420B2 (ja) オーディオ信号符号化方法、及びオーディオ信号復号化方法
JP2899024B2 (ja) ベクトル量子化方法
JPS61137199A (ja) 単語音声の認識方法
Nakatoh et al. Low bit rate coding for speech and audio using mel linear predictive coding (MLPC) analysis

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080920

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080920

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090920

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090920

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100920

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110920

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120920

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130920

Year of fee payment: 11

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees