JPS6086600A - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JPS6086600A JPS6086600A JP19465683A JP19465683A JPS6086600A JP S6086600 A JPS6086600 A JP S6086600A JP 19465683 A JP19465683 A JP 19465683A JP 19465683 A JP19465683 A JP 19465683A JP S6086600 A JPS6086600 A JP S6086600A
- Authority
- JP
- Japan
- Prior art keywords
- circuit
- signal
- parameter
- supplied
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
産業上の利用分野
本発明は不特定話者を対象とした音声認識装置に関する
。
。
背景技術とその問題点
音声認識においては、特定話者に対する単語認識による
ものがずでに実用化されている。これは!g&all対
象とする全ての単語について特定話者にこれらを発音さ
せ、バンドパスフィルタバンク等によりその音響パラメ
ータを検出して記憶(登録)しておく。そして特定話者
が発声し艶ときその音響パラメータを検出し、登録され
た各tJA語の音響パラメータと比較し、これらが一致
したときそのfflIi語であるとの認識を行う。
ものがずでに実用化されている。これは!g&all対
象とする全ての単語について特定話者にこれらを発音さ
せ、バンドパスフィルタバンク等によりその音響パラメ
ータを検出して記憶(登録)しておく。そして特定話者
が発声し艶ときその音響パラメータを検出し、登録され
た各tJA語の音響パラメータと比較し、これらが一致
したときそのfflIi語であるとの認識を行う。
このような装置において、話者の発声の時間軸が登録時
と異なっている場合には、一定時間(5〜20m se
c )毎に抽出される音響パラメータの時系列を伸縮し
て時間軸を整合させる。これによって発声速度の変動に
対処させるようにしても)る。
と異なっている場合には、一定時間(5〜20m se
c )毎に抽出される音響パラメータの時系列を伸縮し
て時間軸を整合させる。これによって発声速度の変動に
対処させるようにしても)る。
ところがこの装置の場合、認識対象とする全ての単語に
ついてそのffi語の全体の音響パラメータをあらかじ
め登録格納しておかなければならず、膨大な記憶容量と
演算を必要とする。このため認iak語い数に限界があ
った。
ついてそのffi語の全体の音響パラメータをあらかじ
め登録格納しておかなければならず、膨大な記憶容量と
演算を必要とする。このため認iak語い数に限界があ
った。
これに対して音韻(日本語でいえばローマ文表記したと
きのA、1.U、E、O,に、S、T等)あるいは音節
(K^、 Kl、 Kll等)単位での認識を行うこと
が提案されている。しかしこの場合に、母音等の準定常
部を有する音韻の認識は容易であつても、破裂音(K、
T、P等)のように音韻的特徴が非密に短いものを音響
パラメータのみで一つの音韻に特定することは極めて困
難である。
きのA、1.U、E、O,に、S、T等)あるいは音節
(K^、 Kl、 Kll等)単位での認識を行うこと
が提案されている。しかしこの場合に、母音等の準定常
部を有する音韻の認識は容易であつても、破裂音(K、
T、P等)のように音韻的特徴が非密に短いものを音響
パラメータのみで一つの音韻に特定することは極めて困
難である。
さらに不特定話者を認識対象とした場合には、音響パラ
メータに個人差による大きな分散があり、上述のように
時間軸の整合だけでは認識を行うことができない。そこ
で例えば一つの単語について複数の音響パラメータを登
録して返信の音響パラメータを認識する方法や、RL語
全体を固定次元のパラメータに変換し、識別函数によっ
゛ζ判別する方法が提案されているが、いずれも膨大な
記憶容量を必要としたり、演算量が多く、認識語い数が
極めζ少くなってしまう。
メータに個人差による大きな分散があり、上述のように
時間軸の整合だけでは認識を行うことができない。そこ
で例えば一つの単語について複数の音響パラメータを登
録して返信の音響パラメータを認識する方法や、RL語
全体を固定次元のパラメータに変換し、識別函数によっ
゛ζ判別する方法が提案されているが、いずれも膨大な
記憶容量を必要としたり、演算量が多く、認識語い数が
極めζ少くなってしまう。
とごろで音韻の発声現象を観察すると、母音や摩擦音(
S、H等)等の音韻は長く伸して発声することができる
。例えば“はい”という発声を考えた場合に、この音韻
は第1図Aにボずように、[無音−H−A−1=無音」
に変化する。これに対して同じ“はい”の発声を第1図
Bのように行うこともできる。ここでH,A、Iの準定
常部の長さは発声ごとに変化し、これによって時間軸の
変動を生じる。ところがこの場合に、各音fil1間の
過渡部(斜線で示す)は比較的時間軸の変動が少いこと
が判明した。
S、H等)等の音韻は長く伸して発声することができる
。例えば“はい”という発声を考えた場合に、この音韻
は第1図Aにボずように、[無音−H−A−1=無音」
に変化する。これに対して同じ“はい”の発声を第1図
Bのように行うこともできる。ここでH,A、Iの準定
常部の長さは発声ごとに変化し、これによって時間軸の
変動を生じる。ところがこの場合に、各音fil1間の
過渡部(斜線で示す)は比較的時間軸の変動が少いこと
が判明した。
そこで本願発明者は先にこの点に着目して以トのような
装置を提案した。
装置を提案した。
第2図において、マイクロフォン+11に供給された音
声信号がマイクアンプ(2)、5.5kllz以下のロ
ーパスフィルタ(3)を通じてAD変換回路+41に供
給される。またクロック発生器(5)からの12.5k
llz(80μsec間隔)のサンプリングクロックが
AI)変換回路(4)に43(給され、このタイミング
で音声信号がそれぞれ所定ビット数(−1ワード)のデ
ジタル信号に変換される。
声信号がマイクアンプ(2)、5.5kllz以下のロ
ーパスフィルタ(3)を通じてAD変換回路+41に供
給される。またクロック発生器(5)からの12.5k
llz(80μsec間隔)のサンプリングクロックが
AI)変換回路(4)に43(給され、このタイミング
で音声信号がそれぞれ所定ビット数(−1ワード)のデ
ジタル信号に変換される。
このデジタル信号が、周波数分析用のバンドパスフィル
タ(61)、(62)・・・ (630)に供給され、
人間の聴覚特性に合ゼた周波数メルスケールに応じて例
えば30の帯域に分割される。この分割された各帯域の
信号がエンファシス回路(71)、(72)・・・ (
73a)に供給され、人間の聴覚特性に合せた高域増強
が行われる。この信号が絶対値回路(81)、(82)
・・・(8ao)に供給されて一極性とされ、xl/l
/同値回路□)、(92)・・・ (930)に供給さ
れて偵〜士の包絡線が取り出される。
タ(61)、(62)・・・ (630)に供給され、
人間の聴覚特性に合ゼた周波数メルスケールに応じて例
えば30の帯域に分割される。この分割された各帯域の
信号がエンファシス回路(71)、(72)・・・ (
73a)に供給され、人間の聴覚特性に合せた高域増強
が行われる。この信号が絶対値回路(81)、(82)
・・・(8ao)に供給されて一極性とされ、xl/l
/同値回路□)、(92)・・・ (930)に供給さ
れて偵〜士の包絡線が取り出される。
こよによって例えば5.12m5ec間の256ワード
のデジタル信号が、音響的特徴を保存したまま30ワー
ドに圧縮される。
のデジタル信号が、音響的特徴を保存したまま30ワー
ドに圧縮される。
この信号が対数回路(101)、(102) ・・・(
103o)に供給され、各信号の対数値に変換される。
103o)に供給され、各信号の対数値に変換される。
これによって上述のエンファシス回路(71)、(72
)・・・ (7ao)での重み付は等による冗長度が排
除される。ここで、例えばTの時間長に含まれるn1個
のサンプリングデータによって表される波形函数を UnfT(↑) ・・・(11 としたとき、これを周波数分析して、対数を取った対数
パワースペクトル 10gIUnfT(f)1 ・・・(2)をスペクトル
パラメータxa> (i =O+1・・・2つ)と称す
る。
)・・・ (7ao)での重み付は等による冗長度が排
除される。ここで、例えばTの時間長に含まれるn1個
のサンプリングデータによって表される波形函数を UnfT(↑) ・・・(11 としたとき、これを周波数分析して、対数を取った対数
パワースペクトル 10gIUnfT(f)1 ・・・(2)をスペクトル
パラメータxa> (i =O+1・・・2つ)と称す
る。
このスペクトルパラメータX巾がl1ill ttt的
フーリエ変換(DFT)回路(11)に(l給される。
フーリエ変換(DFT)回路(11)に(l給される。
こごテコのDFTlrtlvpI(II)において、例
えば分割された帯域の数をMとすると、このM次元スペ
クトルパラメータX +i> (+ = 0+ 1 ・
・・M−1)を2M−1点の実数対称パラメータとみな
して2M−2貞のDFTを行う。従って m = Q 、 l 、 ・−2M−3となる。さらに
このDFTを行う函数は偶函数とみなされるため ト」 となり、これらより となる。このDFTによりスペクトルの包絡特性を表現
する音響パラメータが抽出される。
えば分割された帯域の数をMとすると、このM次元スペ
クトルパラメータX +i> (+ = 0+ 1 ・
・・M−1)を2M−1点の実数対称パラメータとみな
して2M−2貞のDFTを行う。従って m = Q 、 l 、 ・−2M−3となる。さらに
このDFTを行う函数は偶函数とみなされるため ト」 となり、これらより となる。このDFTによりスペクトルの包絡特性を表現
する音響パラメータが抽出される。
このようにしてDFTされたスペクトラムバラメークX
(Dについて、O〜P−1(例えばP−8)次までの
P次元の値を取り出し、これをローカルパラメータL(
P) (p = 0.1・・・P−1)とするととなり
、ここでスペクトルバラメークが対称であることを考慮
して x (1) = x (2M−i−2)とおくと、ロー
カルパラメータT−(P)は但し、p=0.1・・・P
−1 となる。このようにし“(3()ワードの信号がP(例
えば8)ワードにIJE を宿される。
(Dについて、O〜P−1(例えばP−8)次までの
P次元の値を取り出し、これをローカルパラメータL(
P) (p = 0.1・・・P−1)とするととなり
、ここでスペクトルバラメークが対称であることを考慮
して x (1) = x (2M−i−2)とおくと、ロー
カルパラメータT−(P)は但し、p=0.1・・・P
−1 となる。このようにし“(3()ワードの信号がP(例
えば8)ワードにIJE を宿される。
このローカルパラメータL fP)がメモリ装置(12
)に(Iζ給される。このメモリ装置(12)は]行P
ワードの記憶部が例えば16行マトリクス状に配された
もので、ローカルパラメータL (P)が各次元ごとに
一1a次記憶されると共に、j−j4sのり[1ツク発
η:器(5)からの5.12m sec間隔のフレーム
クロックが供給されて、各行のパラメータが順次横方向
ヘシフトされる。これによってメモリ装置(12)には
5.12m5ec間隔のP次元のローカルハラ) −夕
L (p+が16フレーム(81,92m sec )
分記憶され、フレームクロックごとに順次新しいパラメ
ータに中断される。
)に(Iζ給される。このメモリ装置(12)は]行P
ワードの記憶部が例えば16行マトリクス状に配された
もので、ローカルパラメータL (P)が各次元ごとに
一1a次記憶されると共に、j−j4sのり[1ツク発
η:器(5)からの5.12m sec間隔のフレーム
クロックが供給されて、各行のパラメータが順次横方向
ヘシフトされる。これによってメモリ装置(12)には
5.12m5ec間隔のP次元のローカルハラ) −夕
L (p+が16フレーム(81,92m sec )
分記憶され、フレームクロックごとに順次新しいパラメ
ータに中断される。
さらに音声過渡点検出回路(20)が以]・のように構
成される。すなわち平均値回路(91)〜(93o)か
らのそれぞれの帯域の信号の量に応じた信号V(nl
(n −0,1・・・29)がバイアス付き対数回b!
3 (2b )、(212) ・・・ (2]30)に
供給されて v;nl−log(V(n++B) −・ ・(7)が
形成される。また信号V (nlが累算平均回路(22
)にイJ(給されて 0 が形成され、この信号■aが対数回路(21x)に供給
されて ■′a= 10g(■a十B) ・・・(8)が形成さ
れる。そしてこれらの信号が演算回路(23)に供給さ
れて vfn)=Va −V(n) H+ −+91が形成さ
れる。
成される。すなわち平均値回路(91)〜(93o)か
らのそれぞれの帯域の信号の量に応じた信号V(nl
(n −0,1・・・29)がバイアス付き対数回b!
3 (2b )、(212) ・・・ (2]30)に
供給されて v;nl−log(V(n++B) −・ ・(7)が
形成される。また信号V (nlが累算平均回路(22
)にイJ(給されて 0 が形成され、この信号■aが対数回路(21x)に供給
されて ■′a= 10g(■a十B) ・・・(8)が形成さ
れる。そしてこれらの信号が演算回路(23)に供給さ
れて vfn)=Va −V(n) H+ −+91が形成さ
れる。
ここで上述のような信号V fn)を用いることにより
、この信号は音韻から音韻への変化に対して斉次(n−
0,1・・・29)の変化が間程度となり、音韻の種類
による変化量のばらつきを回避できる。また対数をとり
/1tiWを行って正規化バラメークV (Illを形
成したごとにより、人力音声のレベルの変化によるパラ
メータV (n)の変動が1ノ1−除される。さらにバ
イアスBを加算して演算を行ったことにより、1反りに
I3→■とするとパラメータ■(n)−・0となること
から明らかなように、入力音声の微少成分(ノイズ等)
に対する感度を1・げろごとができる。
、この信号は音韻から音韻への変化に対して斉次(n−
0,1・・・29)の変化が間程度となり、音韻の種類
による変化量のばらつきを回避できる。また対数をとり
/1tiWを行って正規化バラメークV (Illを形
成したごとにより、人力音声のレベルの変化によるパラ
メータV (n)の変動が1ノ1−除される。さらにバ
イアスBを加算して演算を行ったことにより、1反りに
I3→■とするとパラメータ■(n)−・0となること
から明らかなように、入力音声の微少成分(ノイズ等)
に対する感度を1・げろごとができる。
このパラメータV (nlがメモリ装置i’?(24)
に供給されで2w+1(例えば9)フレーム分が記憶さ
れる。この記憶された信号が演%9回173 (25)
に供給されて 但し GFj = (I i −W+ 1615w +
t lが形成され、この信号とパラメータV (Ill
が演析同11!3 (26)に供給されζ ・・・ (11) が形成される。このT↑が過渡点検出パラメータであっ
て、この1士がピーク刊別回l/8(27)に供給され
て、人力音声信号の音n(1の過渡点が検出される。
に供給されで2w+1(例えば9)フレーム分が記憶さ
れる。この記憶された信号が演%9回173 (25)
に供給されて 但し GFj = (I i −W+ 1615w +
t lが形成され、この信号とパラメータV (Ill
が演析同11!3 (26)に供給されζ ・・・ (11) が形成される。このT↑が過渡点検出パラメータであっ
て、この1士がピーク刊別回l/8(27)に供給され
て、人力音声信号の音n(1の過渡点が検出される。
ここでパラメータTjが、フレームtを挾んで前後Wフ
レームずつで定義されているので、不要な凹凸や多極を
生じるおそれがない。なお第3図は例えば“ゼロ”とい
う発声を、サンプリング周波数12.5kHz 、12
ビツトデジタルデータとし、フレーム周期−5,12m
sec 、帯域数N−30、バイアスB=0、検出フ
レーム数2w+ 1 =9で上述の検出をjTった場合
を示し′ζいる。図中Aは音声波形、Bは音韻、Cは検
出信号であって、「無音−Z」rZ−El rlE−4
RJ rR→O」 「0→無音」の各過渡部で顕著なピ
ークを発生ずる。ここで無音部にノイズによる多少の凹
凸が形成されるがこれはバイアスBを大きくするごとに
より破線図示のように略0になる。
レームずつで定義されているので、不要な凹凸や多極を
生じるおそれがない。なお第3図は例えば“ゼロ”とい
う発声を、サンプリング周波数12.5kHz 、12
ビツトデジタルデータとし、フレーム周期−5,12m
sec 、帯域数N−30、バイアスB=0、検出フ
レーム数2w+ 1 =9で上述の検出をjTった場合
を示し′ζいる。図中Aは音声波形、Bは音韻、Cは検
出信号であって、「無音−Z」rZ−El rlE−4
RJ rR→O」 「0→無音」の各過渡部で顕著なピ
ークを発生ずる。ここで無音部にノイズによる多少の凹
凸が形成されるがこれはバイアスBを大きくするごとに
より破線図示のように略0になる。
この過渡点検出信号T ct)がメモリ装ff(12)
に(1給され、この検出信号のタイミングに相当するロ
ーカルパラメータL (P)が8番目の行にシフトされ
た時点でメモリ装置(12)の読み出しが行われる。こ
こでメモリ装W(12)の読み出しは、各次元Pごとに
16フレ一ム分の信号が横方向に読み出される。そして
読み出された信号がDFT回路(13)にイバ給される
。
に(1給され、この検出信号のタイミングに相当するロ
ーカルパラメータL (P)が8番目の行にシフトされ
た時点でメモリ装置(12)の読み出しが行われる。こ
こでメモリ装W(12)の読み出しは、各次元Pごとに
16フレ一ム分の信号が横方向に読み出される。そして
読み出された信号がDFT回路(13)にイバ給される
。
この回路(13)におい゛ζ上述と同様にDFTが行わ
れ、音響パラメータの時系列変化の包銘特4+1が抽出
される。ごのDFTされた信号の内から0′〜Q−1(
例えばQ−3)次までのQ次元の値を取り出す。このD
FTを斉次7CPごとに行い、全体でPXQ(−24)
ワードの過渡点パラメータに+p、q+) (p =0
.1− P−1) (q −0,1−Q−11が形成さ
れる。ここで、K (0,01は音声波形のパワーを表
現し′ζいるので、パワー正規化のためp −= 。
れ、音響パラメータの時系列変化の包銘特4+1が抽出
される。ごのDFTされた信号の内から0′〜Q−1(
例えばQ−3)次までのQ次元の値を取り出す。このD
FTを斉次7CPごとに行い、全体でPXQ(−24)
ワードの過渡点パラメータに+p、q+) (p =0
.1− P−1) (q −0,1−Q−11が形成さ
れる。ここで、K (0,01は音声波形のパワーを表
現し′ζいるので、パワー正規化のためp −= 。
のときにQ=1〜Qとし”ζもよい。
すなわち第4図において、Aのような入力音声信号(H
AT)に対してBのような過渡点が検出されている場合
に、この信号の全体のパワースペクトルはCのようにな
っている。そして例えばrH−AJの過渡点のパワース
ペクトルがDのようであったとすると、この信号がエン
ファシスされてEのようになり、メルスケールで圧縮さ
れてFのようになる。この信号がDFTされてGのよう
になり、Hのように前後の16フレ一ム分がマトリック
スされ、この信号が順次時間軸を方向にる。
AT)に対してBのような過渡点が検出されている場合
に、この信号の全体のパワースペクトルはCのようにな
っている。そして例えばrH−AJの過渡点のパワース
ペクトルがDのようであったとすると、この信号がエン
ファシスされてEのようになり、メルスケールで圧縮さ
れてFのようになる。この信号がDFTされてGのよう
になり、Hのように前後の16フレ一ム分がマトリック
スされ、この信号が順次時間軸を方向にる。
この過渡点パラメータK TP、 4)がマハラノビス
距141+1 w出回IM、(14)に供給されると共
に、メモリ装置i!i′(+5)からのクラスタ係数が
回路(14)に供給されて各クラスタ係数とのマハラノ
ビス距離が算出される。ここでクラスタ係数は複数の話
者の発音から上述と同様に過渡点パラメータを抽出し、
これを音韻の内容に応じて分類し統計解析して得られた
ものである。
距141+1 w出回IM、(14)に供給されると共
に、メモリ装置i!i′(+5)からのクラスタ係数が
回路(14)に供給されて各クラスタ係数とのマハラノ
ビス距離が算出される。ここでクラスタ係数は複数の話
者の発音から上述と同様に過渡点パラメータを抽出し、
これを音韻の内容に応じて分類し統計解析して得られた
ものである。
そしてこの算出されたマハラノビス距離が判定回1i3
(16)に45(給され、検出された過渡点が何の音韻
から何の音韻への過渡点であるかが’l’lJ定され、
出力端子(17)に取り出される。
(16)に45(給され、検出された過渡点が何の音韻
から何の音韻への過渡点であるかが’l’lJ定され、
出力端子(17)に取り出される。
すなわち例えば“はい゛“いいえ”′0 (ゼロ)〜″
9 (キュウ)″の12m語について、あらかじめ多数
(白°Å以上)の話者の音声をi:1述の装置Wに供給
し、過渡点を検出し過渡点パラメータを抽出する。この
過渡点パラメータを例えば第5図に示”4−ようなテー
ブルに分lfi L、この分類(クラスタ)ごとに統計
解析する。図中*は無音をネオ。
9 (キュウ)″の12m語について、あらかじめ多数
(白°Å以上)の話者の音声をi:1述の装置Wに供給
し、過渡点を検出し過渡点パラメータを抽出する。この
過渡点パラメータを例えば第5図に示”4−ようなテー
ブルに分lfi L、この分類(クラスタ)ごとに統計
解析する。図中*は無音をネオ。
これらの過渡点パラメータについて、任意のザンブルを
Rけ^(r=1.2・・・24) (aはクラスタ指標
で例えばa=lは*”H,a −”lはH−A ニ対応
する。nは話者番号)として、共分散マトリクス Eはアンザンブル平均 を組数し、この逆マトリクス B置−(八%γt、S ・・・ (13)をめる。
Rけ^(r=1.2・・・24) (aはクラスタ指標
で例えばa=lは*”H,a −”lはH−A ニ対応
する。nは話者番号)として、共分散マトリクス Eはアンザンブル平均 を組数し、この逆マトリクス B置−(八%γt、S ・・・ (13)をめる。
ここで任意の過渡点パラメータK rとクラスタaとの
l+′1!離が、マハラノビス距離(K r Rr’)
・= (14) でめられる。
l+′1!離が、マハラノビス距離(K r Rr’)
・= (14) でめられる。
従ってメモリ装置(15)に上述のBfy及びR冒をめ
て記憶しておくごとにより、マハラノビス距離算出回路
(14)にて入力音声の過渡点パラメータとのマハラノ
ビス距離が算出される。
て記憶しておくごとにより、マハラノビス距離算出回路
(14)にて入力音声の過渡点パラメータとのマハラノ
ビス距離が算出される。
これによって回1ffi、(14)から入力音声の過渡
点ごとに各クラスタとの最少距離と過渡点の順位が取り
出される。これらが判定面に!&(16)に供給され、
入力音声が無音になった時点において認識判定を行う。
点ごとに各クラスタとの最少距離と過渡点の順位が取り
出される。これらが判定面に!&(16)に供給され、
入力音声が無音になった時点において認識判定を行う。
例えば各単語ごとに、各過渡点パラメータとクラスタと
の最少距離の平方根のilL均値による単語距離をめる
。なお過渡点の一部脱落を名慮し、て各単語は脱落を想
定した複数のタイプについて単語距離をめる。ただし過
渡点の順位関係がう一一ブルと異なっているものはリジ
ェクトする。そしてこの単語距離が最少になるfXi語
を認識判定する。
の最少距離の平方根のilL均値による単語距離をめる
。なお過渡点の一部脱落を名慮し、て各単語は脱落を想
定した複数のタイプについて単語距離をめる。ただし過
渡点の順位関係がう一一ブルと異なっているものはリジ
ェクトする。そしてこの単語距離が最少になるfXi語
を認識判定する。
このようにして音声認識が行われるわけであるが、この
装置によれば音声の過渡点の音韻の変化を検出している
ので、時間軸の変動がなく、不特定話者についても良好
な認識を行うことができる。
装置によれば音声の過渡点の音韻の変化を検出している
ので、時間軸の変動がなく、不特定話者についても良好
な認識を行うことができる。
また過渡点において上述のようなパラメータの抽出を行
ったことにより、一つの過渡点を例えば24次元で認識
することができ、認識を極めて容易かつ正確に行うこと
ができる。
ったことにより、一つの過渡点を例えば24次元で認識
することができ、認識を極めて容易かつ正確に行うこと
ができる。
なお十述の装置において120名の話者にて学習を行い
、この120名以外の話者に°ζ上述の12m Mにつ
いて実験を行った結果、98.2%の平均認識率が得ら
れた。
、この120名以外の話者に°ζ上述の12m Mにつ
いて実験を行った結果、98.2%の平均認識率が得ら
れた。
ざらに上述の例で“はい”のr H→A」と“8(ハチ
)”のrH→A」は同じクラスタに分類r+J能である
。従って認識ずべき百詔の音韻数をαとしてα02個の
クラスタをあらかじめn1算してクラスタ係数をメモリ
装B(15)に記憶さセ”ζおけば、種々のffi脇の
認識に適用でき、多くの語いの認識を容易に行うことが
できる。
)”のrH→A」は同じクラスタに分類r+J能である
。従って認識ずべき百詔の音韻数をαとしてα02個の
クラスタをあらかじめn1算してクラスタ係数をメモリ
装B(15)に記憶さセ”ζおけば、種々のffi脇の
認識に適用でき、多くの語いの認識を容易に行うことが
できる。
ところで−上述の例では、′はい”、“いいえ”等の特
定の単語について認識を行ったが、これをさらに一般の
音声にて例えば単音節ごとに認識することも可能である
。
定の単語について認識を行ったが、これをさらに一般の
音声にて例えば単音節ごとに認識することも可能である
。
しかしながらその場合に、人間の発音におIJる音韻の
数は多く、従って過渡点のクラスタも100〜200と
極めて多くなる。このため、例えばマハラノビス距離の
計算をこれらの全てのクラスタについて行おうとすると
、計算量が棒めて多くなり、実用的ではなかった。
数は多く、従って過渡点のクラスタも100〜200と
極めて多くなる。このため、例えばマハラノビス距離の
計算をこれらの全てのクラスタについて行おうとすると
、計算量が棒めて多くなり、実用的ではなかった。
また例えば単音節の認識におい”ζ、最後の母音で過渡
点が複数発生し、さらにこの場合の母音がそれぞれ異な
ることがある。その場合にマハラノビス廂離の最小のも
のが必らずしもそのときの音韻とは限らないことが判明
した。
点が複数発生し、さらにこの場合の母音がそれぞれ異な
ることがある。その場合にマハラノビス廂離の最小のも
のが必らずしもそのときの音韻とは限らないことが判明
した。
発明の目的
本発明はこのような点にかんがみ、簡単な構成で良好な
音声認識が行えるようにするものである。
音声認識が行えるようにするものである。
発明の概要
本発明は、無音を含む音韻間の過渡部を検出する手段を
有し、この検出された過渡部の音声を所定長抽出し′ζ
パラメータに変換し、このパラメータを認識基本単位と
するようにした音声認識装置において、上記過渡点の内
の母音−無音の判定を、その各クラスタ係数との距離及
び上記各クラスタ係数に分類される数に応して行うよう
にしたことを特徴とする音声認識装置であっζ、ごれに
よれば簡単な構成で良好な音声認識を行うことができる
。
有し、この検出された過渡部の音声を所定長抽出し′ζ
パラメータに変換し、このパラメータを認識基本単位と
するようにした音声認識装置において、上記過渡点の内
の母音−無音の判定を、その各クラスタ係数との距離及
び上記各クラスタ係数に分類される数に応して行うよう
にしたことを特徴とする音声認識装置であっζ、ごれに
よれば簡単な構成で良好な音声認識を行うことができる
。
実施例
ところで以下の実施例では次のような装置が使用される
。すなわち第6図において、バンドパスフィルタ(61
)〜(6ao)の前段にエンファシス回路(7)が設け
られる。そしてこのエンファシス回路(7)において、
例えば低域側の1〜16番の帯域では信号が無補正でバ
ンドパスフィルタ(61)〜(61G)にイj(給され
、商域例の17〜30番の(;1・域では信号が差分器
M3(3])を通してバンドパスフィルタ(6jv)〜
(630)に供給される。
。すなわち第6図において、バンドパスフィルタ(61
)〜(6ao)の前段にエンファシス回路(7)が設け
られる。そしてこのエンファシス回路(7)において、
例えば低域側の1〜16番の帯域では信号が無補正でバ
ンドパスフィルタ(61)〜(61G)にイj(給され
、商域例の17〜30番の(;1・域では信号が差分器
M3(3])を通してバンドパスフィルタ(6jv)〜
(630)に供給される。
このエンファシス回1i (71において、差分回路(
31)の特i11ば Vm)−X+n+ −X(n−11HH+ (15)で
現わされ、この式をZ変換すると Y(n+−(1−Z−1) X(n) ・・・(16)
となる。さらにこの回路の伝達関数H(z)はl H(
Z) l’ = l H(21・H(Z−”) l=
l’2− 2 cosωT l ・・(17)となり、
第7図に示すように低域側で小、高域側で大となる特性
となっている。そしてこの伝達関数が1となるのは、角
周波数ωがπ/2となる点である。一方上述のメルスケ
ールで30の帯域に分割した場合に、角周波数ωがπ/
2の点は、16番と17番の帯域の間になっている。そ
こで上述のように1〜16番の帯域で無補正、17〜3
0番の帯域で差分とすることにより、第8図に示すよう
に人間の聴覚特性に合せた高域増強を行うことができる
。
31)の特i11ば Vm)−X+n+ −X(n−11HH+ (15)で
現わされ、この式をZ変換すると Y(n+−(1−Z−1) X(n) ・・・(16)
となる。さらにこの回路の伝達関数H(z)はl H(
Z) l’ = l H(21・H(Z−”) l=
l’2− 2 cosωT l ・・(17)となり、
第7図に示すように低域側で小、高域側で大となる特性
となっている。そしてこの伝達関数が1となるのは、角
周波数ωがπ/2となる点である。一方上述のメルスケ
ールで30の帯域に分割した場合に、角周波数ωがπ/
2の点は、16番と17番の帯域の間になっている。そ
こで上述のように1〜16番の帯域で無補正、17〜3
0番の帯域で差分とすることにより、第8図に示すよう
に人間の聴覚特性に合せた高域増強を行うことができる
。
またそれぞれの帯域の平均値回1/g(9i)〜(93
0)からの信号がノイズ除去回l?FF(32t )
〜(323o)に供給される。一方AD変換回路(4)
からの信号が無音状態の検出回路(33)に41(給さ
れ、この検tJj信号が除去回路(321) 〜(32
ao)に供給される。そして除去回vFr(32t )
〜(32ao )に゛C1無音状恕での信号(ノイズ)
が測定され、この平均値(またはピーク値あるいはこれ
らを演算して得たイ14)をスレショルドレベルNとし
て、入力信号XがこのレベルNよ幻小のとき()、大の
とき(x−N)の信号が出力される。ごのイざ号が対数
回路(](h)〜(]03o)に供給される。
0)からの信号がノイズ除去回l?FF(32t )
〜(323o)に供給される。一方AD変換回路(4)
からの信号が無音状態の検出回路(33)に41(給さ
れ、この検tJj信号が除去回路(321) 〜(32
ao)に供給される。そして除去回vFr(32t )
〜(32ao )に゛C1無音状恕での信号(ノイズ)
が測定され、この平均値(またはピーク値あるいはこれ
らを演算して得たイ14)をスレショルドレベルNとし
て、入力信号XがこのレベルNよ幻小のとき()、大の
とき(x−N)の信号が出力される。ごのイざ号が対数
回路(](h)〜(]03o)に供給される。
すなわちノイズ除去回路(32+ )〜(323o )
において、−の帯域の除去回路に第9図Aに小ずような
信号が供給されている場合に、検出回路(33)にて無
音部が検出され、この部分の信号の例えば平均値からな
るスレショルドレベルNによっテi49図Bに不ずよう
な信月が出力される。そしてこの場合にノイズレベルが
各帯域ごとに測定されており、ノイズの周波数特性に応
じたノイズ1(、を夫が行われる。
において、−の帯域の除去回路に第9図Aに小ずような
信号が供給されている場合に、検出回路(33)にて無
音部が検出され、この部分の信号の例えば平均値からな
るスレショルドレベルNによっテi49図Bに不ずよう
な信月が出力される。そしてこの場合にノイズレベルが
各帯域ごとに測定されており、ノイズの周波数特性に応
じたノイズ1(、を夫が行われる。
他は第2図と同様に構成される。
この装置によれば乗算器を用いずに簡単な差分11il
路のみで人間の聴覚特性に合せた良好なエンファシスを
行うこ占ができる。またソフトウェアで処理する場合に
も演算量を少なくすることがeきる。
路のみで人間の聴覚特性に合せた良好なエンファシスを
行うこ占ができる。またソフトウェアで処理する場合に
も演算量を少なくすることがeきる。
さらにノイズの周波数特性に応じたノイズ除去を行うこ
とができ、パラメータの精度が極めて向−トずイ〕。
とができ、パラメータの精度が極めて向−トずイ〕。
そしてこの装置において、距1illtW出回路(14
)及び判定回路(16)が以下のように構成される。
)及び判定回路(16)が以下のように構成される。
すなわち第10図において、DFT回路(13)からの
信号が第1の距離算出回路(41)に供給され、メモリ
装置t/ (51)からのクラスタ係数との距離が算出
される。
信号が第1の距離算出回路(41)に供給され、メモリ
装置t/ (51)からのクラスタ係数との距離が算出
される。
ここでメモリ装置i¥(51)には、[*→■(■は有
音を示す)]「■−■(■は母音を示す)」1’■−”
l’Jの3通りクラスタ係数が1!1込まれている。な
お単音節はこの3通りの過渡点で形成されている。
音を示す)]「■−■(■は母音を示す)」1’■−”
l’Jの3通りクラスタ係数が1!1込まれている。な
お単音節はこの3通りの過渡点で形成されている。
さらに算出された距離が第1の判定回路(61)に供給
され、入力された過渡点パラメータが上述の3通りのク
ラスタごとに分類される。
され、入力された過渡点パラメータが上述の3通りのク
ラスタごとに分類される。
この分類されたパラメータの内の「@→*」のパラメー
タが第2の距離算出回路(42)に供給され、メモリ装
W (52)からのクラスタ係数との距離が算出される
。
タが第2の距離算出回路(42)に供給され、メモリ装
W (52)からのクラスタ係数との距離が算出される
。
コこテメモリ装v(52) ニ4;L、l’A−”kJ
[→*」 I U→*J 1E−1−1kl +−0→
*」 1(9)→*(■は“ん”′をボす)」の6通り
のクラスタ係数が書込まれている。
[→*」 I U→*J 1E−1−1kl +−0→
*」 1(9)→*(■は“ん”′をボす)」の6通り
のクラスタ係数が書込まれている。
さらに算出された1?1!離が第2の′111111定
62)に供給され、人力されたパラメータが6通りのク
ラスタのどれに相当するか111定される。
62)に供給され、人力されたパラメータが6通りのク
ラスタのどれに相当するか111定される。
さらにこの゛Fil定結果が処理回路(71)に(J(
給される。ここでこの回路(71)におい°ζ母音の総
合’111+定が1Tねれる。
給される。ここでこの回路(71)におい°ζ母音の総
合’111+定が1Tねれる。
すなわち、I(u−*Jの過渡点において、いわゆるふ
かれ等のノイズ的成分によって、過渡j:、jが複数検
出される場合があり、その場合にたまたま他のクラスタ
に近いパラメータが出るおそれがある。そこで処理回l
78(71)において、算出された距離と共にその数が
総合判定される。すなわち例えば第11図へのような過
渡点検出で、13のような′1′す定結果及び距離が防
出された場合に、ごごでは距離が最短のものは例えばl
’ U Jになっている。
かれ等のノイズ的成分によって、過渡j:、jが複数検
出される場合があり、その場合にたまたま他のクラスタ
に近いパラメータが出るおそれがある。そこで処理回l
78(71)において、算出された距離と共にその数が
総合判定される。すなわち例えば第11図へのような過
渡点検出で、13のような′1′す定結果及び距離が防
出された場合に、ごごでは距離が最短のものは例えばl
’ U Jになっている。
ところがこの場合に判定された数は1Δ」の方が多い。
そしてこのような場合について実験及びシュミレーショ
ンを行った結果、このような場合には一般的に多くある
方がiFシいことが判明した。
ンを行った結果、このような場合には一般的に多くある
方がiFシいことが判明した。
従ってこの処理回路(71)においては、例えば過渡点
パラメータの多数決による判定を行う。なお多数決で同
数の場合や、極端に1llli離が異なる場合には、こ
れらの距離を勘案するようにしてもよい。
パラメータの多数決による判定を行う。なお多数決で同
数の場合や、極端に1llli離が異なる場合には、こ
れらの距離を勘案するようにしてもよい。
このようにして最終母音の判定が行われる。
また判定回II(61)で分類されたr*−c−+>」
及び1■−■」の過渡点パラメータが、第3及び第4の
距離算出回路(43) 、(44)に供給され、それぞ
れメモリ装置(53) 、(54)からのクラスタ係数
との距離が算出される。
及び1■−■」の過渡点パラメータが、第3及び第4の
距離算出回路(43) 、(44)に供給され、それぞ
れメモリ装置(53) 、(54)からのクラスタ係数
との距離が算出される。
ここでまずメモリ装置f(53)には、以上の表のよう
なりラスタ係数が、最終母音ごとに分類されて書込まれ
ている。
なりラスタ係数が、最終母音ごとに分類されて書込まれ
ている。
ここで例えば最終母音rAJに分類されるクラスタは、
50音表のア段の10個、濁音・半濁音5個、fAl+
音11個、及びバズ音の26個に、[−*−■」[■→
■」の判定のしにくい破裂音5 +11i+を含めた計
31個である。
50音表のア段の10個、濁音・半濁音5個、fAl+
音11個、及びバズ音の26個に、[−*−■」[■→
■」の判定のしにくい破裂音5 +11i+を含めた計
31個である。
またrIJはrAJよりヤ行、ワ行、ダ行及び拗音を除
いた計15個である。
いた計15個である。
以]・l’UJ rEJ rOJについてもそれぞれ発
音の特性に合せて30個、17個、31個のクラスタで
構成される。なお1−■」はr U Jに含めである。
音の特性に合せて30個、17個、31個のクラスタで
構成される。なお1−■」はr U Jに含めである。
またメモリ装ff1(54)には、以上の表のようなり
ラスタ係数が、最終母音ごとに分類されて書込まれてい
る。
ラスタ係数が、最終母音ごとに分類されて書込まれてい
る。
ごこでも、上述のメモリ装置(53)の場合と同様に、
それぞれ発音の特性に合せて、rAJ26個、1−TJ
12個、rUJ25個、rEJ13個、rOJ25個の
クラスタに分類して書込まれている。なお拗音はそれぞ
れを「Y→AJ rY 4UJ r’Y→0」に統合し
てもよい。また破裂音はメモリ装置(53)と同じもの
が繰り返り設けられている。
それぞれ発音の特性に合せて、rAJ26個、1−TJ
12個、rUJ25個、rEJ13個、rOJ25個の
クラスタに分類して書込まれている。なお拗音はそれぞ
れを「Y→AJ rY 4UJ r’Y→0」に統合し
てもよい。また破裂音はメモリ装置(53)と同じもの
が繰り返り設けられている。
そして上述の処理回路(71)からの最終母音の判定出
力に応して、各メモリ装置(53) 、(54)の対応
する母音の部分のみが算出回路(43) 。
力に応して、各メモリ装置(53) 、(54)の対応
する母音の部分のみが算出回路(43) 。
(44)に供給されて、距離の算出が行われる。
さらに算出された距離が、それぞれ第3、第4の判定回
路(63) 、(64)に供給され、人力されたパラメ
ータがそれぞれのクラスタのどれに相当するか判定され
る。
路(63) 、(64)に供給され、人力されたパラメ
ータがそれぞれのクラスタのどれに相当するか判定され
る。
これらの判定結果及び判定回路(62)からの判定結果
が、単語・単音節の判定回路(81)にイ1(給され、
人力された音声の単語・単音節が識別される。
が、単語・単音節の判定回路(81)にイ1(給され、
人力された音声の単語・単音節が識別される。
こうしてこの装置において音声認識が行われるわけであ
るが、この装置によれば、まず過渡点を3種類に分類し
、次に最終母音を判定している。
るが、この装置によれば、まず過渡点を3種類に分類し
、次に最終母音を判定している。
ここで一般に母音の検出は容易であり、また最初の3分
類及び母音の判定はクラスフ数が3及び6と少いので、
パラメータの次元数を多くして極めて精確な判定を行う
ことができる。 ′また最終母音が複数検出された場合
に、これを距離及び個数にて総合判定することにより、
′+J1定の確度をさらに高めることができる。
類及び母音の判定はクラスフ数が3及び6と少いので、
パラメータの次元数を多くして極めて精確な判定を行う
ことができる。 ′また最終母音が複数検出された場合
に、これを距離及び個数にて総合判定することにより、
′+J1定の確度をさらに高めることができる。
そして−この判定された最終母音によって、それ以前の
過渡点の検出のクラスタを制限することにより、これら
の距離の計算量を少くすることができ、容易に実施でき
るようになると共に、精度を高めることもできる。
過渡点の検出のクラスタを制限することにより、これら
の距離の計算量を少くすることができ、容易に実施でき
るようになると共に、精度を高めることもできる。
発明の効果
本発明によれば、簡単な構成で良好な音声認識が行える
ようになった。
ようになった。
第1図は音声の説明のための図、第2図〜第5図は従来
の装置の説明のため9図、第6は1〜第9図は本発明の
説明のための図、第10図は本発明の一例の系統図、第
11図はその説明のための図である。 (1,1はマイクロフォン、(3)はローパスフィルタ
、(4)はAD変換回路、(5)はクロック発生器、(
6)はバンドパスフィルタ、(7)はエンファシス回路
、(8)ハ絶対値回路、(9)は平均値回路、(10)
は対数回路、(11) 、(13)は離散的フーリエ変
換回路、(12) 。 (15) 、(51)〜(54)はメモリ装置、(14
)。 、、(41)〜(44)はマハラノビス距離算出回路、
(16) 、(61)〜(64)は判定回路、(17)
は出力端子、(20)は過渡点検出回路、(31)は差
分回路、(32)はノイズ除去回路、(33)は無音部
検出回路、(71)は処理回路、(81)はl1語・単
音節判定回路である。 1′、′I゛ ((“り5;パ・:
の装置の説明のため9図、第6は1〜第9図は本発明の
説明のための図、第10図は本発明の一例の系統図、第
11図はその説明のための図である。 (1,1はマイクロフォン、(3)はローパスフィルタ
、(4)はAD変換回路、(5)はクロック発生器、(
6)はバンドパスフィルタ、(7)はエンファシス回路
、(8)ハ絶対値回路、(9)は平均値回路、(10)
は対数回路、(11) 、(13)は離散的フーリエ変
換回路、(12) 。 (15) 、(51)〜(54)はメモリ装置、(14
)。 、、(41)〜(44)はマハラノビス距離算出回路、
(16) 、(61)〜(64)は判定回路、(17)
は出力端子、(20)は過渡点検出回路、(31)は差
分回路、(32)はノイズ除去回路、(33)は無音部
検出回路、(71)は処理回路、(81)はl1語・単
音節判定回路である。 1′、′I゛ ((“り5;パ・:
Claims (1)
- 無音を含む音韻間の過渡部を検出する手段を有し、この
検出された過渡部の音声を所定長抽出してパラメータに
変換し、このパラメータを認識基本単位とするようにし
た音声認識装置において、上記過渡点の内の母音−無音
の判定を、その各クラスタ係数との距離及び上記各クラ
スタ係数に分類される数に応じて行うようにしたことを
特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP19465683A JPS6086600A (ja) | 1983-10-18 | 1983-10-18 | 音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP19465683A JPS6086600A (ja) | 1983-10-18 | 1983-10-18 | 音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS6086600A true JPS6086600A (ja) | 1985-05-16 |
JPH0552512B2 JPH0552512B2 (ja) | 1993-08-05 |
Family
ID=16328131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP19465683A Granted JPS6086600A (ja) | 1983-10-18 | 1983-10-18 | 音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS6086600A (ja) |
-
1983
- 1983-10-18 JP JP19465683A patent/JPS6086600A/ja active Granted
Also Published As
Publication number | Publication date |
---|---|
JPH0552512B2 (ja) | 1993-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR910002198B1 (ko) | 음성인식방법과 그 장치 | |
US20100332222A1 (en) | Intelligent classification method of vocal signal | |
CN110570870A (zh) | 一种文本无关的声纹识别方法、装置及设备 | |
Hamid et al. | Makhraj recognition for Al-Quran recitation using MFCC | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
JPS6086600A (ja) | 音声認識方法 | |
JPH04369698A (ja) | 音声認識方式 | |
JPH0441357B2 (ja) | ||
Barlaskar et al. | Study on the varying degree of speaker identity information reflected across the different MFCCs | |
Artimy et al. | Automatic detection of acoustic sub-word boundaries for single digit recognition | |
Heriyanto et al. | The Implementation Of Mfcc Feature Extraction And Selection of Cepstral Coefficient for Qur’an Recitation in TPA (Qur’an Learning Center) Nurul Huda Plus Purbayan | |
JPS6086599A (ja) | 音声認識装置 | |
JPH0426479B2 (ja) | ||
JPS6069696A (ja) | 音声認識装置 | |
Upadhyay et al. | Analysis of different classifier using feature extraction in speaker identification and verification under adverse acoustic condition for different scenario | |
JPH0552509B2 (ja) | ||
JPS59172697A (ja) | 音声過渡点検出方法 | |
JPS6069697A (ja) | 音声認識装置 | |
JPS63213899A (ja) | 話者照合方式 | |
JPH0546560B2 (ja) | ||
JPH0552510B2 (ja) | ||
JPH0546558B2 (ja) | ||
JPS59174899A (ja) | 音声過渡点検出方法 | |
JPH0552515B2 (ja) | ||
JPS5994800A (ja) | 音声認識装置 |