JPH0632025B2 - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH0632025B2 JPH0632025B2 JP11826685A JP11826685A JPH0632025B2 JP H0632025 B2 JPH0632025 B2 JP H0632025B2 JP 11826685 A JP11826685 A JP 11826685A JP 11826685 A JP11826685 A JP 11826685A JP H0632025 B2 JPH0632025 B2 JP H0632025B2
- Authority
- JP
- Japan
- Prior art keywords
- parameter
- circuit
- time series
- acoustic
- resampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【発明の詳細な説明】 〔産業上の利用分野〕 この発明は音響分析部にバンドパスフィルタバンクを用
いる音声認識装置に関する。
いる音声認識装置に関する。
この発明は音声認識装置の音響分析部にバンドパスフィ
ルタバンクを用いるものにおいて、聴覚特性に対応した
メル(mel)・スケールと、一般に用いられるログ(lo
g)・スケールの両者の特長を取り入れてバンドパスフ
ィルタバンクを構成したもので、低域側はメル・スケー
ル等間隔で、高域側はログ・スケール等間隔で周波数分
割して構成する。このようにした結果、フィルタバンク
のチャンネル数の削減が図られ、フィルタの設計が容易
になるという利点がある。
ルタバンクを用いるものにおいて、聴覚特性に対応した
メル(mel)・スケールと、一般に用いられるログ(lo
g)・スケールの両者の特長を取り入れてバンドパスフ
ィルタバンクを構成したもので、低域側はメル・スケー
ル等間隔で、高域側はログ・スケール等間隔で周波数分
割して構成する。このようにした結果、フィルタバンク
のチャンネル数の削減が図られ、フィルタの設計が容易
になるという利点がある。
音声は時間軸に沿って変化する現象で、スペクトラム・
パターンが刻々と変化するような音声を発声することに
よって固有の単語や言葉が生まれる。この人間が発声す
る単語や言葉を自動認識する技術が音声認識であるが、
人間の聴覚機能に匹敵するような音声認識を実現するこ
とは現在のところ至難のことである。このため、現在実
用化されている音声認識の殆んどは、一定の使用条件の
下で、認識対象単語の標準パターンと入力パターンとの
パターンマッチングを行なうことによりなす方法であ
る。
パターンが刻々と変化するような音声を発声することに
よって固有の単語や言葉が生まれる。この人間が発声す
る単語や言葉を自動認識する技術が音声認識であるが、
人間の聴覚機能に匹敵するような音声認識を実現するこ
とは現在のところ至難のことである。このため、現在実
用化されている音声認識の殆んどは、一定の使用条件の
下で、認識対象単語の標準パターンと入力パターンとの
パターンマッチングを行なうことによりなす方法であ
る。
第1図はこの音声認識装置の一例のブロック図で、マイ
クロホン(1)よりの音声入力が音響分析回路(2)に供給さ
れる。この音響分析回路(2)では入力音声パターンの特
徴を表わす音響パラメータが抽出される。この音響パラ
メータを抽出する音響分析の方法は種々考えられるが、
その一例としてバンドパスフィルタと整流回路を1チャ
ンネルとし、このようなチャンネルを音声帯域を分割し
た通過帯域をそれぞれ有するものとして複数個並べ、こ
のバンドパスフィルタ群の出力としてスペクトラム・パ
ターンの時間変化を抽出する方法が用いられる。
クロホン(1)よりの音声入力が音響分析回路(2)に供給さ
れる。この音響分析回路(2)では入力音声パターンの特
徴を表わす音響パラメータが抽出される。この音響パラ
メータを抽出する音響分析の方法は種々考えられるが、
その一例としてバンドパスフィルタと整流回路を1チャ
ンネルとし、このようなチャンネルを音声帯域を分割し
た通過帯域をそれぞれ有するものとして複数個並べ、こ
のバンドパスフィルタ群の出力としてスペクトラム・パ
ターンの時間変化を抽出する方法が用いられる。
すなわち、音響分析回路(2)においては、マイクロホン
(1)からの音声信号がアンプ(211)及び帯域制限用のロー
パスフィルタ(212)を介してA/Dコンバータ(213)に供
給され、例えば12.5kHzのサンプリング周波数で1
2ビットのデジタル音声信号に変換される。このデジタ
ル音声信号は、例えば16チャンネルのバンドパスフィ
ルタバンクの各チャンネルのデジタルバンドパスフィル
タ(2111),(2212),‥‥,(22116)に供給され
る。このデジタルバンドパスフィルタ(2211),(22
12),‥‥,(22116)は例えばバターワース4次のデ
ジタルフィルタにて構成され、250Hzから5.5KHz
までの帯域が対数軸上で等間隔で分割された各帯域が各
フィルタの通過帯域となるようにされている。すなわ
ち、ログ・スケール等間隔で周波数分割されて16チャ
ンネル分のバンドパスフィルタバンクが構成されてい
る。
(1)からの音声信号がアンプ(211)及び帯域制限用のロー
パスフィルタ(212)を介してA/Dコンバータ(213)に供
給され、例えば12.5kHzのサンプリング周波数で1
2ビットのデジタル音声信号に変換される。このデジタ
ル音声信号は、例えば16チャンネルのバンドパスフィ
ルタバンクの各チャンネルのデジタルバンドパスフィル
タ(2111),(2212),‥‥,(22116)に供給され
る。このデジタルバンドパスフィルタ(2211),(22
12),‥‥,(22116)は例えばバターワース4次のデ
ジタルフィルタにて構成され、250Hzから5.5KHz
までの帯域が対数軸上で等間隔で分割された各帯域が各
フィルタの通過帯域となるようにされている。すなわ
ち、ログ・スケール等間隔で周波数分割されて16チャ
ンネル分のバンドパスフィルタバンクが構成されてい
る。
各デジタルバンドパスフィルタ(2111),(2212),‥
‥,(22116)の出力信号はそれぞれ整流回路(22
21),(2222),‥‥,(22216)に供給され、これら
整流回路(2221),(2222),‥‥(22216)の出力は
それぞれデジタルローパスフィルタ(2231),(22
32),‥‥,(22316)に供給される。これらデジタル
ローパスフィルタ(2231),(2232),‥‥,(22
316)は例えばカットオフ周波数52.8HzのFIRロ
ーパスフィルタにて構成される。
‥,(22116)の出力信号はそれぞれ整流回路(22
21),(2222),‥‥,(22216)に供給され、これら
整流回路(2221),(2222),‥‥(22216)の出力は
それぞれデジタルローパスフィルタ(2231),(22
32),‥‥,(22316)に供給される。これらデジタル
ローパスフィルタ(2231),(2232),‥‥,(22
316)は例えばカットオフ周波数52.8HzのFIRロ
ーパスフィルタにて構成される。
音響分析回路(2)の出力である各デジタルローパスフィ
ルタ(2231),(2232),‥‥,(22316)の出力信号
は特徴抽出回路(23)を構成するサンプラー(231)に供給
される。このサンプラー(231)ではデジタルローパスフ
ィルタ(2231),(2232),‥‥,(22316)の出力信
号をフレーム周期5.12msec毎にサンプリングする。
したがって、これよりはサンプル時系列Ai(n)(i=
1,2,‥‥16;nはフレーム番号でn=1,2,‥
‥,N)が得られる。
ルタ(2231),(2232),‥‥,(22316)の出力信号
は特徴抽出回路(23)を構成するサンプラー(231)に供給
される。このサンプラー(231)ではデジタルローパスフ
ィルタ(2231),(2232),‥‥,(22316)の出力信
号をフレーム周期5.12msec毎にサンプリングする。
したがって、これよりはサンプル時系列Ai(n)(i=
1,2,‥‥16;nはフレーム番号でn=1,2,‥
‥,N)が得られる。
このサンプラー(231)からの出力、つまりサンプル時系
列Ai(n)は音源情報正規化回路(232)に供給され、これ
にて認識しようとする音声の話者による声帯音源特性の
違いが除去される。
列Ai(n)は音源情報正規化回路(232)に供給され、これ
にて認識しようとする音声の話者による声帯音源特性の
違いが除去される。
即ち、フレーム周期毎にサンプラー(231)から供給され
るサンプル時系列Ai(n)に対して i(n)=log(Ai(n)+B)……(1) なる対数変換がなされる。この(1)式において、Bはバ
イアスでノイズレベルが隠れる程度の値を設定する。
るサンプル時系列Ai(n)に対して i(n)=log(Ai(n)+B)……(1) なる対数変換がなされる。この(1)式において、Bはバ
イアスでノイズレベルが隠れる程度の値を設定する。
そして、声帯音源特性をyi=a・i+bなる式で近似
すると、このa及びbの係数は次式により決定される。
すると、このa及びbの係数は次式により決定される。
そして、音源の正規化されたパラメータをPi(n)とす
ると、a(n)<0のときパラメータPi(n)は Pi(n)=i(n)−{a(n)・i+b(n)}……(4) と表される。
ると、a(n)<0のときパラメータPi(n)は Pi(n)=i(n)−{a(n)・i+b(n)}……(4) と表される。
又、a(n)≧0のときレベルの正規化のみ行ない、パラ
メータPi(n)は と表される。
メータPi(n)は と表される。
こうして声帯音源特性の違いが正規化されて除去された
音響パラメータ時系列Pi(n)がこの音源情報正規化回
路(232)より得られる。
音響パラメータ時系列Pi(n)がこの音源情報正規化回
路(232)より得られる。
この音源情報正規化回路(232)よりの音響パラメータP
i(n)は音声区間内パラメータメモリ(8)に供給される。
この音声区間内パラメータメモリ(8)では音声区間判定
回路(24)からの音声区間判定信号を受けて、パラメータ
Pi(n)が、判定さた音声区間毎にストアされる。
i(n)は音声区間内パラメータメモリ(8)に供給される。
この音声区間内パラメータメモリ(8)では音声区間判定
回路(24)からの音声区間判定信号を受けて、パラメータ
Pi(n)が、判定さた音声区間毎にストアされる。
音声区間判定回路(24)はゼロクロスカウンタ(241)とパ
ワー算出回路(242)と音声区間決定回路(243)とからな
り、A/Dコンバータ(213)よりのデジタル音声信号が
ゼロクロスカウンタ(241)及びパワー算出回路(242)に供
給される。ゼロクロスカウンタ(241)では1フレーム周
期5.12msec毎に、この1フレーム周期内の64サン
プルのデジタル音声信号のゼロクロス数をカウントし、
そのカウント値が音声区間決定回路(243)の第1の入力
端に供給される。パワー算出回路(242)では1フレーム
周期毎にこの1フレーム周期内のデジタル音声信号のパ
ワー、すなわち2乗和が求められ、その出力パワー信号
が音声区間決定回路(243)の第2の入力端に供給され
る。音声区間決定回路(243)には、さらに、その第3の
入力端に音源情報正規化回路(232)よりの音源正規化情
報が供給される。そして、この音声区間決定回路(243)
においてはゼロクロス数、区間内パワー及び音源正規化
情報が複合的に処理され、無音、無声音及び有声音の判
定処理が行なわれ、音声区間が決定される。
ワー算出回路(242)と音声区間決定回路(243)とからな
り、A/Dコンバータ(213)よりのデジタル音声信号が
ゼロクロスカウンタ(241)及びパワー算出回路(242)に供
給される。ゼロクロスカウンタ(241)では1フレーム周
期5.12msec毎に、この1フレーム周期内の64サン
プルのデジタル音声信号のゼロクロス数をカウントし、
そのカウント値が音声区間決定回路(243)の第1の入力
端に供給される。パワー算出回路(242)では1フレーム
周期毎にこの1フレーム周期内のデジタル音声信号のパ
ワー、すなわち2乗和が求められ、その出力パワー信号
が音声区間決定回路(243)の第2の入力端に供給され
る。音声区間決定回路(243)には、さらに、その第3の
入力端に音源情報正規化回路(232)よりの音源正規化情
報が供給される。そして、この音声区間決定回路(243)
においてはゼロクロス数、区間内パワー及び音源正規化
情報が複合的に処理され、無音、無声音及び有声音の判
定処理が行なわれ、音声区間が決定される。
この音声区間決定回路(243)よりの判定された音声区間
を示す音声区間判定信号は音声区間判定回路(24)の出力
として音声区間内パラメータメモリ(200)に供給され
る。
を示す音声区間判定信号は音声区間判定回路(24)の出力
として音声区間内パラメータメモリ(200)に供給され
る。
こうして、判定音声区間内においてメモリ(200)にスト
アされた音響パラメータ時系列Pi(n)はNAT処理回
路(9)に供給される。
アされた音響パラメータ時系列Pi(n)はNAT処理回
路(9)に供給される。
NAT処理回路(9)は軌跡長算出回路(91)と補間間隔算
出回路(92)と補間点抽出回路(93)からなる。
出回路(92)と補間点抽出回路(93)からなる。
パラメータメモリ(200)からのパラメータ時系列Pi(n)
(i=1,2,‥‥,16;n=1,2,‥‥,N)は
軌跡長算出回路(91)に供給される。この軌跡長算出回路
(91)においては音響パラメータ時系列Pi(n)がそのパ
ラメータ空間において第3図に示すように描く直線近似
による軌跡の長さを算出する(図中、×印で示すものは
各パラメータの値のとる位置で、これは説明のため
P1,P2の2次元空間の場合として示してある)。
(i=1,2,‥‥,16;n=1,2,‥‥,N)は
軌跡長算出回路(91)に供給される。この軌跡長算出回路
(91)においては音響パラメータ時系列Pi(n)がそのパ
ラメータ空間において第3図に示すように描く直線近似
による軌跡の長さを算出する(図中、×印で示すものは
各パラメータの値のとる位置で、これは説明のため
P1,P2の2次元空間の場合として示してある)。
この場合、1次元ベクトルai及びbi間のユークリッ
ド距離D(ai,bi)は である。そこで、1次元の音響パラメータ時系列Pi
(n)より、直線近似により軌跡を推定した場合の時系列
方向に隣接するパラメータ間距離S(n)は S(n)=D(Pi(n+1),Pi(n)) (n=1,‥‥,N)……(7) と表わされる。そして、時系列方向における第1番目の
パラメータPi(n)から第n番目のパラメータPi(n)迄
の距離SL(n)は と表わされる。なお、SL(1)=0である。
ド距離D(ai,bi)は である。そこで、1次元の音響パラメータ時系列Pi
(n)より、直線近似により軌跡を推定した場合の時系列
方向に隣接するパラメータ間距離S(n)は S(n)=D(Pi(n+1),Pi(n)) (n=1,‥‥,N)……(7) と表わされる。そして、時系列方向における第1番目の
パラメータPi(n)から第n番目のパラメータPi(n)迄
の距離SL(n)は と表わされる。なお、SL(1)=0である。
そして、合軌跡長SLは と表わされる。軌跡長算出回路(91)はこの(7)式、(8)式
及び(9)式にて示す信号処理を行なう。
及び(9)式にて示す信号処理を行なう。
この軌跡長算出回路(91)にて求められた軌跡長SLを示
す信号は補間間隔算出回路(92)に供給される。この補間
間隔算出回路(92)では軌跡に沿って再サンプリングする
ときの再サンプリング間隔Tを算出する。
す信号は補間間隔算出回路(92)に供給される。この補間
間隔算出回路(92)では軌跡に沿って再サンプリングする
ときの再サンプリング間隔Tを算出する。
この場合、M点に再サンプリングするとすれば、再サン
プリング間隔Tは T=SL/(M−1)……(10) として求められる。
プリング間隔Tは T=SL/(M−1)……(10) として求められる。
この補間間隔算出回路(92)よりの再サンプリング間隔T
を示す信号は補間点抽出回路(93)に供給される。また、
パラメータメモリ(8)よりの音響パラメータ時系列Pi
(n)も、また、この補間点抽出回路(93)に供給される。
この補間点抽出回路(93)は音響パラメータ時系列Pi
(n)のそのパラメータ空間における軌跡、例えばパラメ
ータ間を直線近似した軌跡に沿って第4図において〇印
にて示すように再サンプリング間隔Tで再サンプリング
し、このサンプリングにより得た新たな点列より認識パ
ラメータ時系列Qi(m)を形成する。
を示す信号は補間点抽出回路(93)に供給される。また、
パラメータメモリ(8)よりの音響パラメータ時系列Pi
(n)も、また、この補間点抽出回路(93)に供給される。
この補間点抽出回路(93)は音響パラメータ時系列Pi
(n)のそのパラメータ空間における軌跡、例えばパラメ
ータ間を直線近似した軌跡に沿って第4図において〇印
にて示すように再サンプリング間隔Tで再サンプリング
し、このサンプリングにより得た新たな点列より認識パ
ラメータ時系列Qi(m)を形成する。
ここで、この補間点抽出回路(93)においては第2図に示
すフローチャートに従った処理がなされ、認識パラメー
タ時系列Qi(m)が形成される。
すフローチャートに従った処理がなされ、認識パラメー
タ時系列Qi(m)が形成される。
先ず、ステップ〔101〕にて再サンプリング点の時系列
方向における番号を示す変数Jに値1が設定されると共
に音響パラメータ時系列Pi(n)のフレーム番号を示す
変数ICに値1が設定され、イニシャライズされる。次
にステップ〔102〕にて変数Jがインクリメントされ、
ステップ〔103〕にてそのときの変数Jが(M−1)以
下であるかどうかが判定されることにより、そのときの
再サンプリング点の時系列方向における番号がリサンプ
リングする必要のある最後の番号になっているかどうか
を判断する。最後の番号であればステップ〔104〕に進
み、再サンプリングは終了する。
方向における番号を示す変数Jに値1が設定されると共
に音響パラメータ時系列Pi(n)のフレーム番号を示す
変数ICに値1が設定され、イニシャライズされる。次
にステップ〔102〕にて変数Jがインクリメントされ、
ステップ〔103〕にてそのときの変数Jが(M−1)以
下であるかどうかが判定されることにより、そのときの
再サンプリング点の時系列方向における番号がリサンプ
リングする必要のある最後の番号になっているかどうか
を判断する。最後の番号であればステップ〔104〕に進
み、再サンプリングは終了する。
最後の番号でなければステップ〔105〕にて第1番目の
再サンプリング点(これは必ず無音の部分である。)か
ら第J番目の再サンプリング点までの再サンプリング距
離DLが算出される。次にステップ〔106〕に進み変数
ICがインクリメントされる。次にステップ〔107〕に
て再サンプリング距離DLが音響パラメータ時系列Pi
(n)の第1番目のパラメータPi(l)から第IC番目のパ
ラメータPi(IC)までの距離SL(IC)よりも小
さいかどうかにより、そのときの再サンプリング点が軌
跡上においてそのときのパラメータPi(IC)よりも
軌跡の始点側に位置するかどうかが判断され、始点側に
位置していなければステップ〔106〕に戻り変数ICを
インクリメントした後再びステップ〔107〕にて再サン
プリング点とパラメータPi(IC)との軌跡上におけ
る位置の比較をし、再サンプリング点が軌跡上において
パラメータPi(IC)よりも始点側に位置すると判断
されたとき、ステップ〔108〕に進み認識パラメータQ
i(J)が形成される。
再サンプリング点(これは必ず無音の部分である。)か
ら第J番目の再サンプリング点までの再サンプリング距
離DLが算出される。次にステップ〔106〕に進み変数
ICがインクリメントされる。次にステップ〔107〕に
て再サンプリング距離DLが音響パラメータ時系列Pi
(n)の第1番目のパラメータPi(l)から第IC番目のパ
ラメータPi(IC)までの距離SL(IC)よりも小
さいかどうかにより、そのときの再サンプリング点が軌
跡上においてそのときのパラメータPi(IC)よりも
軌跡の始点側に位置するかどうかが判断され、始点側に
位置していなければステップ〔106〕に戻り変数ICを
インクリメントした後再びステップ〔107〕にて再サン
プリング点とパラメータPi(IC)との軌跡上におけ
る位置の比較をし、再サンプリング点が軌跡上において
パラメータPi(IC)よりも始点側に位置すると判断
されたとき、ステップ〔108〕に進み認識パラメータQ
i(J)が形成される。
即ち、第J番目の再サンプリング点による再サンプリン
グ距離DLからこの第J番目の再サンプリング点よりも
始点側に位置する第(IC−1)番目のパラメータPi
(IC−1)による距離SL(IC−1)を減算して第
(IC−1)番目のパラメータPi(IC−1)から第
J番目の再サンプリング点迄の距離SSを求める。次
に、軌跡上においてこの第J番目の再サンプリング点の
両側に位置するパラメータPi(IC−1)及びパラメ
ータPi(IC)間の距離S(n)は(7)式にて示される信
号処理にて得られる。)にてこの距離SSを除算し、こ
の除算結果SS/S(IC−1)に軌跡上において第J
番目の再サンプリング点の両側に位置するパラメータP
i(IC)とPi(IC−1)との差(Pi(IC)−
Pi(IC−1))を掛算して、軌跡上において第J番
目の再サンプリング点にこの再サンプリング点よりも始
点側に隣接して位置する第(IC−1)番目のパラメー
タPi(IC−1)からの補間量を算出し、この補間量
と第J番目の再サンプリング点よりも始点側に隣接して
位置する第(IC−1)番目のパラメータPi
(IC−1)とを加算して、軌跡に沿う新たな認識パラ
メータQi(J))が形成される。
グ距離DLからこの第J番目の再サンプリング点よりも
始点側に位置する第(IC−1)番目のパラメータPi
(IC−1)による距離SL(IC−1)を減算して第
(IC−1)番目のパラメータPi(IC−1)から第
J番目の再サンプリング点迄の距離SSを求める。次
に、軌跡上においてこの第J番目の再サンプリング点の
両側に位置するパラメータPi(IC−1)及びパラメ
ータPi(IC)間の距離S(n)は(7)式にて示される信
号処理にて得られる。)にてこの距離SSを除算し、こ
の除算結果SS/S(IC−1)に軌跡上において第J
番目の再サンプリング点の両側に位置するパラメータP
i(IC)とPi(IC−1)との差(Pi(IC)−
Pi(IC−1))を掛算して、軌跡上において第J番
目の再サンプリング点にこの再サンプリング点よりも始
点側に隣接して位置する第(IC−1)番目のパラメー
タPi(IC−1)からの補間量を算出し、この補間量
と第J番目の再サンプリング点よりも始点側に隣接して
位置する第(IC−1)番目のパラメータPi
(IC−1)とを加算して、軌跡に沿う新たな認識パラ
メータQi(J))が形成される。
このようにして始点及び終点(これらはそれぞれ無音で
あるときはQi(1)=Pi(o)=0,Qi(M)=Pi
(S)=0である。)を除く(M−2)点の再サンプリ
ングにより認識パラメータ時系列Qi(m)が形成され
る。
あるときはQi(1)=Pi(o)=0,Qi(M)=Pi
(S)=0である。)を除く(M−2)点の再サンプリ
ングにより認識パラメータ時系列Qi(m)が形成され
る。
このNAT処理回路(9)よりの認識パラメータ時系列Q
i(m)はモード切換スイッチ(3)により、登録モードにお
いては認識対象語毎に標準パターンメモリ(4)にストア
される。また、認識モードにおいては距離算出回路(6)
に供給され、標準パターンメモリ(4)よりの標準パター
ンのパラメータ時系列との距離の算出がなされる。この
場合の距離は例えば簡易的なチェビシェフ距離として算
出される。この距離算出回路(6)よりの各標準パターン
と入力パターンとの距離の算出出力は最小値判定回路
(7)に供給され、距離算出値が最小となる標準パターン
が判定され、この判定結果により入力音声の認識結果が
出力端(70)に得られる。
i(m)はモード切換スイッチ(3)により、登録モードにお
いては認識対象語毎に標準パターンメモリ(4)にストア
される。また、認識モードにおいては距離算出回路(6)
に供給され、標準パターンメモリ(4)よりの標準パター
ンのパラメータ時系列との距離の算出がなされる。この
場合の距離は例えば簡易的なチェビシェフ距離として算
出される。この距離算出回路(6)よりの各標準パターン
と入力パターンとの距離の算出出力は最小値判定回路
(7)に供給され、距離算出値が最小となる標準パターン
が判定され、この判定結果により入力音声の認識結果が
出力端(70)に得られる。
なお、以上の例は時間正規化処理として音響パラメータ
系時列Pi(n)がそのパラメータ空間で描く軌跡を推定
し、その軌跡に沿って再サンプリングして新たな正規化
パラメータ時系列Qi(m)を得るようにした場合がある
が、時間正規化の手法としてはその他の手法、例えば距
離算出時に、いわゆるDSマッチングを行なうようにす
る手法を用いてもよい。
系時列Pi(n)がそのパラメータ空間で描く軌跡を推定
し、その軌跡に沿って再サンプリングして新たな正規化
パラメータ時系列Qi(m)を得るようにした場合がある
が、時間正規化の手法としてはその他の手法、例えば距
離算出時に、いわゆるDSマッチングを行なうようにす
る手法を用いてもよい。
以上のように音響分析部にはバンドパスフィルタバンク
が用いられることが多く、その場合に、前述したように
従来は、周波数軸をログ・スケールにとり、音声帯域を
その周波数軸上で等間隔に分割して多チャンネルに構成
している。
が用いられることが多く、その場合に、前述したように
従来は、周波数軸をログ・スケールにとり、音声帯域を
その周波数軸上で等間隔に分割して多チャンネルに構成
している。
ところで、このようにログ・スケールで等間隔に音声帯
域周波数を分割すると、低域は細かく、高域は粗くな
る。このため、音声認識における音響分析部の周波数分
解能は低域のチャンネル数が多く、高域のチャンネル数
が少なくなり、少ないチャンネル数で最適なフィルタバ
ンクを構成することが困難になる。
域周波数を分割すると、低域は細かく、高域は粗くな
る。このため、音声認識における音響分析部の周波数分
解能は低域のチャンネル数が多く、高域のチャンネル数
が少なくなり、少ないチャンネル数で最適なフィルタバ
ンクを構成することが困難になる。
また、低域はチャンネル数が多くなるので、各フィルタ
を設計するのも難しくなるという問題点もある。
を設計するのも難しくなるという問題点もある。
この発明においては音響分析部のバンドパスフィルタバ
ンクを低域側はメル・スケール等間隔で、高域側はログ
・スケール等間隔で音声周波数帯域を分割して構成す
る。
ンクを低域側はメル・スケール等間隔で、高域側はログ
・スケール等間隔で音声周波数帯域を分割して構成す
る。
低域側をメル・スケール等間隔で帯域分割したことによ
りログ・スケール等間隔で帯域分割した場合に比べて低
域側のチャンネル数が少なくなり、フィルタバンク全体
としてチャンネル数の削減が図れるとともにフィルタの
設計が容易になる。
りログ・スケール等間隔で帯域分割した場合に比べて低
域側のチャンネル数が少なくなり、フィルタバンク全体
としてチャンネル数の削減が図れるとともにフィルタの
設計が容易になる。
16チャンネルのバンドパスフィルタを構成した場合の
例を示す。
例を示す。
この例では低域側を5チャンネル、高域側を11チャン
ネルに分割する。
ネルに分割する。
そして、低域側の5チャンネルに分割する周波数帯域
は、0.25kHz〜0.85kHzとされ、これがメル・
スケール等間隔で分割される。
は、0.25kHz〜0.85kHzとされ、これがメル・
スケール等間隔で分割される。
また、高域側の11チャンネルに分割する周波数帯域は
0.85kHz〜5.2kHzとされ、これがログ・スケー
ル等間隔で分割される。
0.85kHz〜5.2kHzとされ、これがログ・スケー
ル等間隔で分割される。
この場合、全通過帯域はそれぞれ−3dBの点で隣接す
るチャンネルの通過帯域がクロスするように、4次のパ
ターワース・バンドパスフィルタが設計される。
るチャンネルの通過帯域がクロスするように、4次のパ
ターワース・バンドパスフィルタが設計される。
なお、周波数fに対するメル・スケール上の値xの近似
式は、 x=log2(f/1000+1) f≦850……(1
1) と表わされ、周波数fに対するログ・スケール上の値y
との変換式は y=log2f (f>850)……(12) となる。
式は、 x=log2(f/1000+1) f≦850……(1
1) と表わされ、周波数fに対するログ・スケール上の値y
との変換式は y=log2f (f>850)……(12) となる。
以上による設計された16チャンネルのバンドパスフィ
ルタの各チャンネルの通過中心周波数を次表に示す。
ルタの各チャンネルの通過中心周波数を次表に示す。
〔発明の効果〕 メル・スケールは人間の聴覚特性に対応したものであ
り、ログ・スケールに比べて低域側に粗く高域側に細か
くなる。
り、ログ・スケールに比べて低域側に粗く高域側に細か
くなる。
この発明によれば、低域側はメル・スケールで、高域側
はログ・スケールで構成したことにより、低域側のフィ
ルタ数の削減が図られ、その結果、フィルタバンクのチ
ャンネル数の削減が可能になり、また低域のフィルタ数
が減少したことから全体としてフィルタの設計が容易に
なるものである。
はログ・スケールで構成したことにより、低域側のフィ
ルタ数の削減が図られ、その結果、フィルタバンクのチ
ャンネル数の削減が可能になり、また低域のフィルタ数
が減少したことから全体としてフィルタの設計が容易に
なるものである。
第1図は音声認識装置の一例のブロック図、第2図〜第
4図はその説明のための図である。 (2)は音響分析部で、(2211)〜(22116)はバンドパスフィ
ルタバンクの各フィルタである。
4図はその説明のための図である。 (2)は音響分析部で、(2211)〜(22116)はバンドパスフィ
ルタバンクの各フィルタである。
フロントページの続き (72)発明者 佐古 曜一朗 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (56)参考文献 特開 昭59−123897(JP,A)
Claims (1)
- 【請求項1】入力音声をバンドパスフィルタバンクを有
する音響分析部に供給して音響パラメータを得、この入
力の音響パラメータと登録されている認識対象語の標準
パターンの音響パラメータとの差を算出し、その算出出
力により音声認識をなす装置において、 上記バンドパスフィルタバンクとして低域側はメル・ス
ケール等間隔で、高域側はログ・スケール等間隔で周波
数分割して構成したものを用いてなる音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11826685A JPH0632025B2 (ja) | 1985-05-31 | 1985-05-31 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11826685A JPH0632025B2 (ja) | 1985-05-31 | 1985-05-31 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS61275899A JPS61275899A (ja) | 1986-12-05 |
JPH0632025B2 true JPH0632025B2 (ja) | 1994-04-27 |
Family
ID=14732378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11826685A Expired - Fee Related JPH0632025B2 (ja) | 1985-05-31 | 1985-05-31 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0632025B2 (ja) |
-
1985
- 1985-05-31 JP JP11826685A patent/JPH0632025B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPS61275899A (ja) | 1986-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7231350B2 (en) | Speaker verification system using acoustic data and non-acoustic data | |
US4852181A (en) | Speech recognition for recognizing the catagory of an input speech pattern | |
JP4177755B2 (ja) | 発話特徴抽出システム | |
CA1227286A (en) | Speech recognition method and apparatus thereof | |
JPS6128998B2 (ja) | ||
JPH0632025B2 (ja) | 音声認識装置 | |
JP2658104B2 (ja) | 音声認識装置 | |
JPH04369698A (ja) | 音声認識方式 | |
Niederjohn et al. | Computer recognition of the continuant phonemes in connected English speech | |
JP2668877B2 (ja) | 音源正規化方法 | |
Kunekar et al. | Audio feature extraction: Foreground and Background audio separation using KNN algorithm | |
JPH04324499A (ja) | 音声認識装置 | |
JPH1097288A (ja) | 背景雑音除去装置及び音声認識装置 | |
Hernando Pericás et al. | Robust speech parameters located in the frequency domain | |
JPH0449720B2 (ja) | ||
Kajita et al. | A binaural speech processing method using subband-cross correlation analysis for noise robust recognition | |
JPH1062460A (ja) | 信号分離装置 | |
JPH0632008B2 (ja) | 音声認識装置 | |
JPS61208097A (ja) | 音声認識装置 | |
JP2606211B2 (ja) | 音源正規化方法 | |
JPH0632010B2 (ja) | 音声認識装置 | |
SU1111199A1 (ru) | Способ спектрального представлени вокализованного речевого сигнала | |
JPH0654439B2 (ja) | 音声認識装置 | |
JPH0346838B2 (ja) | ||
JPH03110599A (ja) | 音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |