JPH05313695A - 音声分析装置 - Google Patents

音声分析装置

Info

Publication number
JPH05313695A
JPH05313695A JP4142144A JP14214492A JPH05313695A JP H05313695 A JPH05313695 A JP H05313695A JP 4142144 A JP4142144 A JP 4142144A JP 14214492 A JP14214492 A JP 14214492A JP H05313695 A JPH05313695 A JP H05313695A
Authority
JP
Japan
Prior art keywords
coefficient
characteristic
calculated
voice
autocorrelation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP4142144A
Other languages
English (en)
Inventor
Masao Watari
雅男 渡
Miyuki Tanaka
幸 田中
Yasuhiko Kato
靖彦 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP4142144A priority Critical patent/JPH05313695A/ja
Publication of JPH05313695A publication Critical patent/JPH05313695A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 (修正有) 【目的】 声帯音源情報が低減され、少ない演算量で算
出することができる音声の特徴パラメータを提供する。 【構成】 BPF(バンドバスフィルタ)の周波数特性
i(f)(i=1,2,・・・,Iで、iはBPFの
チャンネル数、fは周波数)から、 にしたがって算出されたBPF特性係数BikがBPF特
性係数格納部3にあらかじめ記憶されており、このBP
F特性係数Bikと、自己相関係数算出部1で、サンプリ
ングされた音声信号に所定長Nの窓をかけて算出された
自己相関係数Ckから、Biを算出する。 にしたがって、I次の特徴パラメータBiが算出され
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声から、例えば音声
認識に用いる特徴パラメータ(特徴ベクトル)を抽出す
る場合に用いて好適な音声分析装置に関する。
【0002】
【従来の技術】従来の音声認識装置においては、音声
が、所定長のフレームごとに音響分析され、時系列に抽
出される特徴パラメータを入力パターンとして、この入
力パターンと標準パターンとの距離が算出されて、入力
パターンとの距離を最小にする標準パターンが、音声の
認識結果として出力されるようになっている。
【0003】また、一般的に、入力パターンの長さ、即
ち音声区間(音声が発声されている区間)は、標準パタ
ーンの長さと対応しているものではないので、このよう
な装置では、例えばDPマッチングなどにより入力パタ
ーンの時間軸および標準パターンの時間軸の正規化が行
われたり、フレームごとに抽出される特徴パラメータに
よりフレーム間における特徴パラメータの補間が行われ
(例えば音声の遷移部分(例えば音素が調音結合してい
る部分)における特徴パラメータが、その前後のフレー
ムにおける特徴パラメータの平均値とされる)、これに
より入力パターンの時間軸、または標準パターンの時間
軸が補正されて、入力パターンと標準パターンとの距離
が算出されるようになっている。
【0004】ところで、このような音声認識装置におい
ては、特徴パラメータとして、例えば音声を、メルスケ
ールまたはログスケール上で等間隔に分割された音声帯
域の、各周波数帯域の両端を遮断周波数とする、複数チ
ャンネルのBPF(バンドパスフィルタ)に通し、その
各出力を整流平滑化(BPFの出力の絶対値または二乗
して平滑化)して、さらに対数をとって正規化した、い
わば各周波数帯域におけるパワーに相当するBPFの整
流平滑出力が用いられる。
【0005】このBPFの平滑整流出力は、音声の遷移
によるスペクトルの変化(時間変化)に対応して、その
値も連続的に変化する時間的連続性を有し、各チャンネ
ルの出力がほぼ均等に音声の音韻特徴情報(スペクトル
包絡に関する情報)を持っている他、少ない演算量で求
めることができる。
【0006】このように、BPFの平滑整流出力は、時
間的連続性を有するので、音声認識装置において、入力
パターンの時間軸および標準パターンの時間軸の正規化
が行われたり、またはフレームごとに抽出される特徴パ
ラメータを用いて、フレーム間における特徴パラメータ
の補間が行われる場合には、有効な特徴パラメータであ
るとされている。
【0007】
【発明が解決しようとする課題】ところで、BPFの平
滑整流出力には、音声の音韻特徴情報(スペクトル包絡
に関する情報)の他、話者固有の声帯音源情報(スペク
トルの微細構造、即ちピッチに関する情報)が含まれて
いるが、音声認識において、この声帯音源情報は不要で
あるばかりか、音声認識に必要な音韻特徴情報をぼかし
てしまい、従って音声の認識率が劣化する課題があっ
た。
【0008】そこで、特徴パラメータとして、例えば ○自己相関係数 ○LPC(線形予測)ケプストラム係数 ○FFT(高速フーリエ変換)ケプストラム係数 などを用いる方法がある。
【0009】自己相関係数Ckは、サンプリングされた
音声信号x(n)(nは整数)から、例えば次式により
算出される。
【数3】
【0010】LPCケプストラム係数cjは、上述した
自己相関係数から、例えばいわゆる自己相関法や共分散
法などより求められた線形予測係数α1,α2,・・・,
αp(pは所定の次数)より、次に示す再帰式によって
得られる。 c1=α1j=−αj−((1−1/j)α1j-1+(1−2/j)α2j-2+ ・・・+(1−(j−1)/j)αj-1j-(j-1)) 但し、1<j<p cj=−((1−1/j)α1j-1+(1−2/j)α2j-2+ ・・・+(1−p/j)αpj-p) 但し、p<j
【0011】FFTケプストラム係数は、音声信号x
(n)をFFT(高速フーリエ変換)して求めたスペク
トルの対数をとったものを逆FFTすることにより得ら
れる。
【0012】自己相関係数、およびLPCケプストラム
係数においては、自己相関係数を低次で打ち切ることに
より声帯音源情報を削減することができ、FFTケプス
トラム係数においては、ケフレンシ領域でリフタをかけ
(マスキングし)、高次係数を取り除くことにより声帯
音源情報を削減することができる。
【0013】しかしながら、自己相関係数、LPCケプ
ストラム係数、およびFFTケプストラム係数において
は、時間的連続性が悪く、補間することが困難であると
ともに、これらの特徴パラメータを求めるにあたって
は、多くの演算を必要とし、実時間処理が困難になる課
題があった。
【0014】本発明は、このような状況に鑑みてなされ
たものであり、声帯音源情報が低減され、時間的連続性
を有し、少ない演算量で算出することができる音声の特
徴パラメータを提供するものである。
【0015】
【課題を解決するための手段】本発明の音声分析装置
は、サンプリングされた音声信号に所定長Nの窓をか
け、自己相関係数Ck(k=0,1,・・・,Kで、k
は自己相関係数の次数、但しK<N)を算出する自己相
関係数算出手段としての自己相関係数算出部1と、バン
ドバスフィルタの周波数特性Wi(f)(i=1,2,
・・・,Iで、iはバンドパスフィルタのチャンネル
数、fは周波数)から、式(1)にしたがって算出され
たバンドパスフィルタ特性係数Bikを記憶している特性
係数記憶手段としてのBPF(バンドパスフィルタ)特
性係数格納部3と、自己相関係数Ckと、バンドパスフ
ィルタ特性係数Bikから、式(2)にしたがって、I次
の特徴パラメータBiを算出する特徴パラメータ算出手
段としての自己相関型BPF(バンドパスフィルタ)算
出部3とを備えることを特徴とする。
【0016】
【作用】上記構成の音声分析装置においては、バンドバ
スフィルタの周波数特性Wi(f)(i=1,2,・・
・,Iで、iはバンドパスフィルタのチャンネル数、f
は周波数)から、式(1)にしたがって算出され、BP
F特性係数格納部3にあらかじめ記憶されているバンド
パスフィルタ特性係数Bikと、サンプリングされた音声
信号に所定長Nの窓をかけて算出された自己相関係数C
k(k=0,1,・・・,Kで、kは自己相関係数の次
数、但しK<N)から、式(2)にしたがって、I次の
特徴パラメータBiが算出される。従って、低次(K
次)で打ち切られた自己相関係数Ckと、BPF特性係
数格納部3にあらかじめ記憶されているバンドパスフィ
ルタ特性係数Bikとから特徴パラメータBiが算出され
るので、声帯音源情報が低減された、少ない演算量で算
出することができる音声の特徴パラメータを提供するこ
とができる。
【0017】
【実施例】図1は、本発明の音声分析装置の一実施例の
構成を示すブロック図である。自己相関係数算出部1
は、サンプリングされた音声信号x(n)(n=0,
1,・・・,N−1)から、
【数4】 にしたがって、0次からK−1次までの自己相関係数C
k(k=0,1,・・・,K−1、但しK<N)を算出
し、自己相関型BPF(バンドパスフィルタ)算出部2
に出力する。なお、w(n)は、例えばハミング窓やハ
ニング窓などの窓関数である。
【0018】ここで、Nはピッチ周期を充分含む値(例
えば音声信号が、8kHzでサンプリングされている場
合、128(16ms)乃至256(32ms)程度)
で、Kはピッチ周期より小さな値(例えば音声信号が、
8kHzでサンプリングされている場合、40(5m
s)程度)である。
【0019】BPF(バンドパスフィルタ)特性係数格
納部3は、例えば、メルスケールまたはログスケール上
で等間隔に分割された音声帯域の、各周波数帯域の両端
を遮断周波数とする、I個のBPF(バンドパスフィル
タ)の周波数特性Wi(f)(i=1,2,・・・,I
で、iはバンドパスフィルタのチャンネル数、fは周波
数)から、式(1)にしたがって算出されたBPF特性
係数Bikを記憶している。
【0020】自己相関型BPF算出部2は、自己相関係
数算出部1より出力された0次からK−1次までの自己
相関係数Ckと、BPF特性係数格納部3に記憶されて
いるBFP特性係数Bikとから、式(2)にしたがって
特徴パラメータ(I次の特徴ベクトル)Biを算出す
る。
【0021】次に、その動作について説明する。自己相
関係数算出部1において、サンプリングされた音声信号
x(n)(n=0,1,・・・,N−1)から、式
(4)にしたがって、0次からK−1次までの自己相関
係数Ck(k=0,1,・・・,K−1、但しK<N)
が算出され、自己相関型BPF(バンドパスフィルタ)
算出部2に出力される。自己相関型BPF算出部2にお
いて、自己相関係数算出部1より出力された0次からK
−1次までの自己相関係数Ckと、BPF特性係数格納
部3に記憶されているBPF特性係数Bikとから、式
(2)にしたがって特徴パラメータ(I次の特徴ベクト
ル)Biが算出される。
【0022】ここで、0次からN−1次までの自己相関
係数Ckから、
【数5】 にしたがって算出されるP(f)はパワースペクトルに
対応する。式(5)において、kに関するサメーション
を、ピッチ周期を充分含む0乃至N−1の範囲でとるの
ではなく、ピッチ周期より短い0乃至K−1の範囲でと
ると、
【数6】 のようになり、このQ(f)は、声帯音源情報が低減さ
れた(ピッチの影響が低減された)パワースペクトル、
即ちパワースペクトルの包絡線に対応する。
【0023】この包絡パワースペクトルQ(f)を、例
えばメルスケールまたはログスケール上で等間隔に分割
された音声帯域の、各周波数帯域の両端を遮断周波数と
する周波数特性Wi(f)を有するBPF群に通した場
合の出力Bi(i=1,2,・・・,Iで、iはBPF
のチャンネル数)は、次式にしたがって求めることがで
きる。
【数7】
【0024】このBiは、包絡パワースペクトルQ
(f)の各周波数帯域におけるパワーに対応するから、
声帯音源情報が低減され(ピッチの影響が低減され)、
且つ前述したBPFの平滑整流出力のように、音声の遷
移によるスペクトルの変化(時間変化)に対応して、そ
の値も連続的に変化する時間的連続性を有するととも
に、各チャンネルの出力がほぼ均等に音声の音韻特徴情
報(スペクトル包絡に関する情報)を有する。
【0025】ところで、式(6)を式(7)に代入する
と、
【数8】 となる。式(8)における
【数9】 は、BPF特性係数格納部3にあらかじめ記憶されてい
るBPF特性係数Bik(式(1))であるから、式
(8)は、式(2)とまったく同じものであり、従っ
て、自己相関型BPF算出部2で算出された特徴パラメ
ータ(I次の特徴ベクトル)Biは、前述したように声
帯音源情報が低減され、時間的連続性を有するものにな
っている。
【0026】さらに、自己相関型BPF算出部2におい
て、BPF特性係数Bikと、自己相関係数Ckとから、
特徴パラメータBiが算出されるときの演算量は、例え
ば自己相関係数Ckの次数を10次(k=0,1,・・
・,10)、音声帯域の分割数(BPFのチャンネル
数)を16(i=1,2,・・・,16)とすると、式
(2)に示す積和演算約160回程度で済む。
【0027】次に、図2は、本発明の音声分析装置を応
用した音声認識装置の一実施例の構成を示すブロック図
である。図1の音声分析装置の実施例と対応する部分に
ついては、同一の符号を付してある。マイク11は、入
力された音声を電気信号である音声信号に変換し、A/
D変換器12に出力する。A/D変換器12は、マイク
11より出力されたアナログの音声信号にA/D変換処
理を施し、分析窓内データバッファ13に出力する。分
析窓内データバッファ13は、A/D変換器12より出
力される音声信号x(n)を一時記憶し、記憶した音声
信号x(n)を、1フレーム分(N個)ずつ自己相関係
数算出部1に供給する。
【0028】対数変換部14は、自己相関型BPF算出
部2より出力される音声の特徴パラメータBi(i=
1,2,・・・,I)の対数をとり、音源正規化部15
に供給する。音源正規化部15は、対数変換部14で対
数スケールに変換された特徴パラメータB1乃至BIの総
和をとり、各チャンネル(第1乃至第Iチャンネル)の
特徴パラメータを正規化する。音声区間検出部16は、
音源正規化部15より出力される特徴パラメータB1
至BIの総和(上述した包絡パワースペクトルQ
(f))と所定の閾値とを比較し、音声区間を決定し
て、始点フレームと終点フレームとをNAT時間軸正規
化部17に出力する。
【0029】NAT(Normalization A
long Trajectory)時間軸正規化部17
は、図3に示すように、軌跡長算出器17a、補間間隔
算出器17b、および補間点抽出器17cから構成さ
れ、音声区間検出部16で決定された音声区間(始点フ
レームから終点フレームまでの間)における、音源正規
化部15より時系列に出力される、正規化された対数ス
ケールの特徴パラメータBiに対して、NAT処理を施
す。
【0030】以下、NAT時間軸正規化部17でNAT
処理が施される、音声区間(始点フレームから終点フレ
ームまでの間)における、正規化された対数スケールの
特徴パラメータBiを、単純に特徴パラメータBiと記載
する。また、特徴パラメータBiにおいては、時間に関
する変数を省略してある。
【0031】即ち、NAT時間軸正規化部17の軌跡長
算出器17aは、時系列の特徴パラメータBiが、その
パラメータ空間内に描く直線近似による軌跡長SLを算
出する。例えば、2つの(2次元の)特徴パラメータB
1およびB2のみを考えた場合、軌跡長算出器17aは、
この2つのパラメータが、図4または図5に示すような
2次元のパラメータ空間(2次元平面)に描く軌跡長を
算出する(特徴パラメータB1およびB2の軌跡を、図中
・印で示す)。
【0032】補間間隔算出器17bは、装置のモードが
登録モードである場合、パラメータ空間内に描かれた特
徴パラメータBiの軌跡を再サンプリングするための間
隔(再サンプリング間隔)T'を、あらかじめ設定され
た再サンプリング点数K、および軌跡長算出器17aに
より算出された軌跡長SLから、次式にしたがって算出
し、補間点抽出器17cに供給する。 T'=SL/(K−1) (9) また、補間間隔算出器17bは、装置のモードが認識モ
ードである場合、あらかじめ設定された、パラメータ空
間内に描かれた特徴パラメータBiの軌跡を再サンプリ
ングするための間隔(再サンプリング間隔)Tを補間点
抽出器17cに供給する。
【0033】補間点抽出器17cは、装置のモードが登
録モードである場合、時系列の特徴パラメータBiがパ
ラメータ空間内に描く軌跡を直線近似した軌跡に沿っ
て、図5に○印で示すように、補間間隔算出器17bに
より算出された再サンプリング間隔T'で、特徴パラメ
ータBiの軌跡を再サンプリングし、標準パターンとし
ての新たな特徴パラメータ系列pw(r)(r=1,
2,・・・,R:R=SL/T'+1)を標準パターン
格納部19(図2)に供給する。なお、w=1,2,・
・・,Wで、Wは標準パターンの総数を表す。
【0034】また、補間点抽出器17cは、装置のモー
ドが認識モードである場合、時系列の特徴パラメータB
iがパラメータ空間内に描く軌跡を直線近似した軌跡に
沿って、図4に○印で示すように、補間間隔算出器17
bより供給された、あらかじめ設定された再サンプリン
グ間隔Tで、特徴パラメータBiの軌跡を再サンプリン
グし、入力パターンとしての新たな特徴パラメータ系列
q(s)(s=1,2,・・・,S:S=SL/T+
1)を距離計算部18(図2)に供給する。
【0035】標準パターン格納部19(図2)は、装置
のモードが登録モードのとき、NAT時間軸正規化部1
7より供給される新たな特徴パラメータpw(r)を標
準パターンとして記憶する。距離計算部18は、装置の
モードが認識モードのとき、NAT時間軸正規化部17
より出力される入力パターンとしての新たな特徴パラメ
ータ系列q(s)と、標準パターン格納部19に記憶さ
れた標準パターンとしての新たな特徴パラメータp
w(r)すべて(p1(r)乃至pW(r))との距離D1
乃至DWをそれぞれ計算し、距離判定部20に供給す
る。距離判定部20は、距離計算部18より供給される
距離D1乃至DWの中から最小値DMINを検出し、この最
小値DMINが所定のリジェクト閾値以下である場合、入
力パターンとしての新たな特徴パラメータ系列q(s)
との距離が、この最小値DMINとなった標準パターンに
対応する単語を認識結果として出力する。
【0036】次に、その動作について説明する。まず、
装置の動作モードが登録モードである場合、マイク11
において、入力された音声が電気信号である音声信号に
変換され、A/D変換器12に出力される。A/D変換
器12において、マイク11より出力されたアナログの
音声信号にA/D変換処理が施され、分析窓内データバ
ッファ13に出力される。分析窓内データバッファ13
において、A/D変換器12より出力された音声信号x
(n)が一時記憶され、その音声信号x(n)が、1フ
レーム分(N個)ずつ自己相関係数算出部1に供給され
る。
【0037】自己相関係数算出部1において、サンプリ
ングされた音声信号x(n)(n=0,1,・・・,N
−1)から、式(4)にしたがって、0次からK−1次
までの自己相関係数Ck(k=0,1,・・・,K−
1、但しK<N)が算出され、自己相関型BPF(バン
ドパスフィルタ)算出部2に出力される。自己相関型B
PF算出部2において、自己相関係数算出部1より出力
された0次からK−1次までの自己相関係数Ckと、B
PF特性係数格納部3に記憶されているBPF特性係数
ikとから、式(2)にしたがって特徴パラメータ(I
次の特徴ベクトル)Biが算出され、時系列に対数変換
部14に出力される。
【0038】対数変換部14において、自己相関型BP
F算出部2より出力された音声の特徴パラメータB
i(i=1,2,・・・,I)のスケールが対数スケー
ルに変換され、音源正規化部15に供給される。音源正
規化部15において、対数変換部14で対数スケールに
変換された特徴パラメータB1乃至BIの総和が計算さ
れ、各チャンネル(第1乃至第Iチャンネル)の特徴パ
ラメータB1乃至BIがそれぞれ正規化される。音声区間
検出部16において、音源正規化部15で計算された特
徴パラメータB1乃至BIの総和(包絡パワースペクトル
Q(f))と所定の閾値とが比較され、特徴パラメータ
1乃至BIの総和が所定の閾値より大きい区間が音声区
間(始点フレームと終点フレーム)として決定される。
【0039】そして、NAT時間軸正規化部17におい
て、音声区間検出部16で決定された音声区間(始点フ
レームから終点フレームまでの間)における、音源正規
化部15より時系列に出力された、正規化された対数ス
ケールの特徴パラメータBiに対して、NAT処理が施
される。
【0040】即ち、NAT時間軸正規化部17の軌跡長
算出器17a(図3)において、音源正規化部15より
出力された時系列の特徴パラメータBiが、そのパラメ
ータ空間内に描く直線近似による軌跡長SLが算出さ
れ、補間間隔算出部17bに出力される。補間間隔算出
器17bにおいて、パラメータ空間内に描かれた特徴パ
ラメータBiの軌跡を再サンプリングするための間隔
(再サンプリング間隔)T'が、あらかじめ設定された
再サンプリング点数K、および軌跡長算出器17aによ
り算出された軌跡長SLから、式(9)にしたがって計
算され、補間点抽出器17cに供給される。補間点抽出
器17cにおいて、時系列の特徴パラメータBiがパラ
メータ空間内に描く軌跡を直線近似した軌跡に沿って、
図5に○印で示すように、補間間隔算出器17bにより
算出された再サンプリング間隔T'で、特徴パラメータ
iの軌跡が再サンプリングされ、標準パターンとして
の新たな特徴パラメータ系列pw(r)が算出される。
【0041】以上のようにして、NAT時間軸正規化部
17(図2)においては、音声の発声速度変動に対応し
て、パラメータ空間における密度の変化する特徴パラメ
ータBi(図5の・印)により描かれる軌跡が、音声の
発声速度変動に対してほとんど不変であることから、そ
の軌跡が、いわば補間的に所定長T'で再サンプリング
され、音声の発声速度変動の影響のきわめて少ない、時
間軸正規化された特徴パラメータ系列pw(r)が算出
される。
【0042】そして、NAT時間軸正規化部17から、
標準パターンとしての新たな特徴パラメータ系列p
w(r)が標準パターン格納部19(図2)に供給さ
れ、標準パターン格納部19に記憶される。
【0043】次に、装置の動作モードが認識モードの場
合においては、マイク1乃至音声区間検出部16で、上
述した装置の動作モードが認識モードの場合と同様の処
理が行われる。そして、NAT時間軸正規化部17の補
間点抽出器17c(図3)において、音声区間検出部1
6で決定された音声区間(始点フレームから終点フレー
ムまでの間)における、音源正規化部15より時系列に
出力された、正規化された対数スケールの特徴パラメー
タBiがパラメータ空間内に描く軌跡を直線近似した軌
跡に沿って、図4に○印で示すように、補間間隔算出器
17bより供給された、あらかじめ設定された再サンプ
リング間隔Tで、特徴パラメータBiの軌跡が再サンプ
リングされ、入力パターンとしての新たな特徴パラメー
タ系列q(s)が距離計算部18(図2)に供給され
る。
【0044】距離計算部18において、NAT時間軸正
規化部17より出力された入力パターンとしての新たな
特徴パラメータ系列q(s)と、標準パターン格納部1
9に記憶された標準パターンとしての新たな特徴パラメ
ータpw(r)すべて(p1(r)乃至pW(r))との
距離D1乃至DWがそれぞれ計算され、距離判定部20に
供給される。距離判定部20において、距離計算部18
より供給された距離D1乃至DWの中から最小値DMIN
検出され、この最小値DMINが所定のリジェクト閾値以
下である場合、入力パターンとしての新たな特徴パラメ
ータ系列q(s)との距離が、この最小値DMINとなっ
た標準パターンに対応する単語が認識結果として出力さ
れる。
【0045】以上説明したような、声帯音源情報が低減
され、BPF整流平滑出力と同様に時間的連続性を有す
る特徴パラメータは、本実施例におけるNAT処理のよ
うな、特徴パラメータの軌跡上において、等間隔に補間
点(新たな特徴パラメータ)を抽出する音声認識アルゴ
リズム、即ち時間軸補正を行う音声認識アルゴリズムと
の親和性が良く、従って音声の認識率を向上させること
ができる。
【0046】なお、本実施例においては、特徴パラメー
タに、NAT処理を施して音声認識を行うようにした
が、この他に、例えばDPマッチングなどを施して音声
認識を行うようにすることができる。さらに、この特徴
パラメータに、例えばベクトル量子化処理などを施して
シンボル系列を作り、このシンボルの生起確率と遷移確
率とから音声認識を行う、例えば「An Introduction to
Hidden Markov Models」,IEEE ASSP magazine Jan. 1
986, P.P.4〜17に記載されているHMM(Hidden
Markov Model)と呼ばれる音声認識アル
ゴリズムにより音声認識を行うようにすることもでき
る。
【0047】
【発明の効果】以上のように、本発明の音声分析装置に
よれば、特性係数記憶手段にあらかじめ記憶されてい
る、バンドバスフィルタの周波数特性Wi(f)(i=
1,2,・・・,Iで、iはバンドパスフィルタのチャ
ンネル数、fは周波数)から、式(1)にしたがって算
出されたバンドパスフィルタ特性係数Bikと、サンプリ
ングされた音声信号に所定長Nの窓をかけて算出された
自己相関係数Ck(k=0,1,・・・,Kで、kは自
己相関係数の次数、但しK<N)から、式(2)にした
がって、I次の特徴パラメータBiが算出される。従っ
て、低次(K次)で打ち切られた自己相関係数Ckと、
特性係数記憶手段にあらかじめ記憶されているバンドパ
スフィルタ特性係数Bikとから特徴パラメータBiが算
出されるので、声帯音源情報が低減された、少ない演算
量で算出することができる音声の特徴パラメータを提供
することができる。
【図面の簡単な説明】
【図1】本発明の音声分析装置の一実施例の構成を示す
ブロック図である。
【図2】本発明の音声分析装置を応用した音声認識装置
の一実施例の構成を示すブロック図である。
【図3】図2の実施例のNAT時間軸正規化部17のよ
り詳細な構成を示すブロック図である。
【図4】音声の特徴パラメータの軌跡を示す平面図であ
る。
【図5】音声の特徴パラメータの軌跡を示す平面図であ
る。
【符号の説明】
1 自己相関係数算出部 2 自己相関型BPF(バンドパスフィルタ)算出部 3 BPF(バンドパスフィルタ)特性係数格納部 11 マイク 12 A/D変換器 13 分析窓内データバッファ 14 対数変換部 15 音源正規化部 16 音声区間検出部 17 NAT時間軸正規化部 18 距離計算部 19 標準パターン格納部 20 距離判定部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 サンプリングされた音声信号に所定長N
    の窓をかけ、自己相関係数Ck(k=0,1,・・・,
    Kで、kは自己相関係数の次数、但しK<N)を算出す
    る自己相関係数算出手段と、 バンドバスフィルタの周波数特性Wi(f)(i=1,
    2,・・・,Iで、iはバンドパスフィルタのチャンネ
    ル数、fは周波数)から、 【数1】 にしたがって算出されたバンドパスフィルタ特性係数B
    ikを記憶している特性係数記憶手段と、 前記自己相関係数算出手段により算出された自己相関係
    数Ckと、前記特性係数記憶手段に記憶されているバン
    ドパスフィルタ特性係数Bikから、 【数2】 にしたがって、I次の特徴パラメータBiを算出する特
    徴パラメータ算出手段とを備えることを特徴とする音声
    分析装置。
JP4142144A 1992-05-07 1992-05-07 音声分析装置 Withdrawn JPH05313695A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4142144A JPH05313695A (ja) 1992-05-07 1992-05-07 音声分析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4142144A JPH05313695A (ja) 1992-05-07 1992-05-07 音声分析装置

Publications (1)

Publication Number Publication Date
JPH05313695A true JPH05313695A (ja) 1993-11-26

Family

ID=15308390

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4142144A Withdrawn JPH05313695A (ja) 1992-05-07 1992-05-07 音声分析装置

Country Status (1)

Country Link
JP (1) JPH05313695A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11327600A (ja) * 1997-10-03 1999-11-26 Matsushita Electric Ind Co Ltd オーディオ信号圧縮方法、オーディオ信号圧縮装置、音声信号圧縮方法、音声信号圧縮装置,音声認識方法および音声認識装置
JP2005018076A (ja) * 2003-06-25 2005-01-20 Lucent Technol Inc 客観的なスピーチ品質評価において時間/言語歪みを反映する方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11327600A (ja) * 1997-10-03 1999-11-26 Matsushita Electric Ind Co Ltd オーディオ信号圧縮方法、オーディオ信号圧縮装置、音声信号圧縮方法、音声信号圧縮装置,音声認識方法および音声認識装置
JP2005018076A (ja) * 2003-06-25 2005-01-20 Lucent Technol Inc 客観的なスピーチ品質評価において時間/言語歪みを反映する方法

Similar Documents

Publication Publication Date Title
US7756700B2 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
JPH08508107A (ja) 話者認識のための方法および装置
JPH0612089A (ja) 音声認識方法
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
EP1511007B1 (en) Vocal tract resonance tracking using a target-guided constraint
JPH10133693A (ja) 音声認識装置
JPH0638199B2 (ja) 音声認識装置
US20140200889A1 (en) System and Method for Speech Recognition Using Pitch-Synchronous Spectral Parameters
JP5282523B2 (ja) 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
JP2002268698A (ja) 音声認識装置と標準パターン作成装置及び方法並びにプログラム
JP2002366192A (ja) 音声認識方法及び音声認識装置
JPH05313695A (ja) 音声分析装置
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
JPS60114900A (ja) 有音・無音判定法
JP4325044B2 (ja) 音声認識システム
JP2003271190A (ja) 雑音除去方法、雑音除去装置及び、それを用いた音声認識装置
JP4537821B2 (ja) オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体
JP4576612B2 (ja) 音声認識方法および音声認識装置
JP4362072B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP2001083978A (ja) 音声認識装置
JP2002372982A (ja) 音響信号分析方法及び装置
JP3205141B2 (ja) 音声分析方式
JPH0246960B2 (ja)
JPH09160585A (ja) 音声認識装置および音声認識方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19990803