JP2658104B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2658104B2
JP2658104B2 JP62328200A JP32820087A JP2658104B2 JP 2658104 B2 JP2658104 B2 JP 2658104B2 JP 62328200 A JP62328200 A JP 62328200A JP 32820087 A JP32820087 A JP 32820087A JP 2658104 B2 JP2658104 B2 JP 2658104B2
Authority
JP
Japan
Prior art keywords
standard pattern
pattern
distance
threshold value
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP62328200A
Other languages
English (en)
Other versions
JPH01167897A (ja
Inventor
正照 赤羽
幸 田中
雅男 渡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP62328200A priority Critical patent/JP2658104B2/ja
Publication of JPH01167897A publication Critical patent/JPH01167897A/ja
Application granted granted Critical
Publication of JP2658104B2 publication Critical patent/JP2658104B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、前もって作成し記憶してある認識対象語
の標準パターンと、認識したい語の入力パターンとのパ
ターンマッチングを行うことにより音声認識を行なう装
置に関する。
〔発明の概要〕
この発明はパターンマッチング式の音声認識装置にお
いて、入力パターンと標準パターンとの総距離のみから
判定を行なうのではなく、入力パターンと標準パターン
の細部の差異を検出し、この細部の差異と総距離との相
互評価により判定を行なうようにしたもので、音韻系列
の似かよった類似単語の判別が可能になるようにしたも
のである。
〔従来の技術〕
音声は時間軸に沿って変化する現象で、スペクトラム
・パターンが刻々と変化するように音声を発声すること
によって固有の単語や言葉が生まれる。この人間が発声
する単語や言葉を自動認識する技術が音声認識である
が、人間の聴覚機能に匹敵するような音声認識を実現す
ることは現在のところ至難のことである。このため、現
在実用化されている音声認識の殆んどは、一定の使用条
件の下で、認識対象単語の標準パターンと入力パターン
とのパターンマッチングを行なうことによりなす方法で
ある。
第3図はこの種の音声認識装置の概要を説明するため
の図で、マイクロホン(1)よりの音声入力が音響分析
回路(2)に供給される。この音響分析回路(2)では
入力音声パターンの特徴を表わす音響パラメータが抽出
される。この音響パラメータを抽出する音響分析の方法
は種々考えられるが、例えばその一例としてバンドパス
フィルタと整流回路を1チャンネルとし、このようなチ
ャンネルを通過帯域を変えて複数個並べ、このバンドパ
スフィルタ群の出力としてスペクトラム・パターンの時
間変化を抽出する方法が知られている。この場合、音響
パラメータはその時系列Pi(n)(i=1,2・・・I;Iは
例えばバンドパスフィルタのチャンネル数、n=1,2・
・・N;Nは音声区間判定により判定された区間において
単語認識に利用されるフレーム数)で表わすことができ
る。
この音響分析回路(2)よりの音響パラメータ時系列
Pi(n)は、例えばスイッチからなるモード切換回路
(3)に供給される。この回路(3)のスイッチが端子
A側に切り換えられるときは登録モード時で、音響パラ
メータ時系列Pi(n)が認識パラメータとして標準パタ
ーンメモリ(4)にストアされる。つまり、音声認識に
先だって話者の音声パターンが標準パターンとしてこの
メモリ(4)に記憶される。
一方、このスイッチ(3)が端子B側に切り換えられ
るときは認識モード時である。そして、この認識モード
時は、音響分析回路(2)からのそのときの入力音声の
音響パラメータ時系列が入力音声パターンメモリ(5)
に供給されて一時ストアされる。そしてこの入力パター
ンと標準パターンメモリ(4)から読み出された複数の
認識対象単語の標準パターンのそれぞれとの違いの大き
さが距離算出回路(6)にて計算され、そのうち入力パ
ターンと標準パターンとの差が最小の認識対象単語が最
小値判定回路(7)にて検出され、これにて入力された
単語が認識される。
〔発明が解決しようとする問題点〕
上述のように、周波数方向の分解能をIチャンネル、
時間軸方向のそれをNフレームとすると、単語音声は、
(I×N)次元で張られた空間において表現される。そ
して、マッチング処理の際は、この空間において表現さ
れた標準パターンと入力パターンとの距離が最も近い標
準パターンが認識結果となる。
このとき、音韻系列が似かよっている単語の場合に
は、(I×N)次元内のごく僅かの次元にしか差異が生
じないため、両パターン間の総距離にはこの差が反映さ
れず、誤認識の原因となっている。
例えば、「徳島」(TOKUSIMA)と「福島」(FUKUSHIM
A)とでは異なる音韻系列を持つ部分が語頭の“TO"“F
U"のみであり、これが全体に占める割合が少なく、この
部分的な差が総距離中に埋もれてしまい、両語を誤りな
く認識することをむずかしくしている。
この発明は、このように音韻系列の似かよっている単
語であっても正しい判定が誤まりなくできるように工夫
したものである。
〔問題点を解決するための手段〕
この発明においては、パターンマッチング方式の音声
認識装置において、入力パターンと標準パターンとの音
響パラメータ系列間の第nフレーム、第iチャンネルで
の距離Din(i=1,2・・・I、n=1,2・・・N)が、
第1のしきい値Taに対し、Ta<Dinとなるチャンネルの
個数Cnを各フレーム毎にカウントする手段と、個数Cnが
第2のしきい値Tbに対し、Tb<Cnとなるフレームの個数
Xを全フレームに渡ってカウントする手段と、この個数
Xが第3のしきい値Tcに対し、Tc<Xである場合、最小
値判定手段で検知した距離最小の標準パターンの認識出
力を棄却する手段とを具備する。
あるいは、入力パターンと標準パターンとの音響パラ
メータ系列間の第nフレーム、第iチャンネルでの距離
Din(i=1,2・・・I、n=1,2・・・N)が、第1の
しきい値Tdに対し、Td<Dinとなるフレームの個数Fiを
各チャンネル毎にカウントする手段と、この個数Fiが第
2のしきい値Teに対し、Te<Fiとなるチャンネルの個数
Yを全チャンネルに渡ってカウントする手段と、個数Y
が第3のしきい値Tfに対し、Tf<Yである場合、上記最
小値判定手段で検知した距離最小の標準パターンの認識
出力を棄却する手段とを具備する。
〔作用〕
前者の構成の場合には、入力パターンと標準パターン
との距離が全体的に近いと判定されても、時間軸上でフ
レーム毎の距離比較をした際に離れたフレームがあると
きには、最小距離と判定された標準パターンの認識出力
は棄却される。
また、後者の構成の場合には、同様に、全体的に近い
距離であると判定されても、チャンネル毎の距離比較を
した際、離れたチャンネルがあるときには判定された標
準パターンの認識出力は棄却される。
〔実施例〕
第1図はこの発明による音声認識装置の一実施例で、
この例は音響分析に16チャンネルのバンドパスフィルタ
群を用いた場合である。
すなわち、音響分析回路(2)においては、マイクロ
ホン(1)からの音声信号がアンプ(211)及び帯域制
限用のローパスフィルタ(212)を介してA/Dコンバータ
(213)に供給され、例えば12.5kHzのサンプリング周波
数で例えば12ビットのデジタル音声信号に変換される。
このデジタル音声信号は、16チャンネルのバンドパスフ
ィルタバンク(22)の各チャンネルのデジタルバンドパ
スフィルタ(2211),(2212),……,(22116)に供
給される。このデジタルバンドパスフィルタ(2211),
(2212),……,(22116)は例えばバターワース4次
のデジタルフィルタにて構成され、例えば250Hzから5.5
kHzまでの帯域が対数軸上で等間隔で分割された各帯域
が各フィルタの通過帯域となるようにされている。そし
て、各デジタルバンドパスフィルタ(2211),(22
12),……,(22116)の出力信号はそれぞれ整流回路
(2221),(2222),……,(22216)に供給され、こ
れら整流回路(2221),(2222),……(22216)の出
力はそれぞれデジタルローパスフィルタ(2231),(22
32),……,(22316)に供給される。これらデジタル
ローパスフィルタ(2231),(2232),……,(22
316)は例えばカットオフ周波数52.8HzのFIRローパスフ
ィルタにて構成される。
各デジタルローパスフィルタ(2231),(2232),…
…,(22316)の出力信号は特徴抽出回路(23)を構成
するサンプラー(231)に供給される。このサンプラー
(231)ではデジタルローパスフィルタ(2231),(223
2),……,(22316)の出力信号をフレーム周期例えば
5.12msec毎にサンプリングする。したがって、これより
はサンプル時系列Ai(n)(i=1,2,……16;nはフレー
ム番号でn=1,2,……,N)が得られる。
このサンプラー(231)からの出力、つまりサンプル
時系列Ai(n)は音源情報正規化回路(232)に供給さ
れ、これにて認識しようとする音声の話者による声帯音
源特性の違いが除去される。
即ち、フレーム周期毎にサンプラー(231)から供給
されるサンプル時系列Ai(n)に対して (n)=log(Ai(n)+B) ……(1) なる対数変換がなされる。この(1)式において、Bは
バイアスでノイズレベルが隠れる程度の値を設定する。
そして、声帯音源特性をyi=a・i+bなる式で近似
すると、このa及びbの係数は次式により決定される。
そして、音源の正規化されたパラメータをPi(n)と
すると、a(n)<0のときパラメータPi(n)は Pi(n)=(n)−{a(n)・i+b(n)} ……(4) と表される。
又、a(n)≧0のときレベルの正規化のみ行ない、
パラメータPi(n)は と表される。
こうして声帯音源特性の違いが正規化されて除去され
た音響パラメータ時系列Pi(n)がこの音源情報正規化
回路(232)より得られる。
この音源情報正規化回路(232)よりの音響パラメー
タ時系列Pi(n)は正の値及び負の値の両者をとる。こ
の音源情報正規化回路(232)よりの音響パラメータPi
(n)は音声区間内のパラメータメモリ(8)に供給さ
れる。この音声区間内パラメータメモリ(8)では音声
区間判定回路(24)からの音声区間判定信号を受けて、
パラメータPi(n)が、判定された音声区間毎にストア
される。
音声区間判定回路(24)はこの例ではゼロクロスカウ
ンタ(241)とパワー算出回路(242)と音声区間決定回
路(243)とからなり、A/Dコンバータ(213)よりのデ
ジタル音声信号がゼロクロスカウンタ(241)及びパワ
ー算出回路(242)に供給される。ゼロクロスカウンタ
(241)では1フレーム周期5.12msec毎に、この1フレ
ーム周期内の例えば64サンプルのデジタル音声信号のゼ
ロクロス数をカウントし、そのカウント値が音声区間決
定回路(243)の第1の入力端に供給される。パワー算
出回路(242)では1フレーム周期毎にこの1フレーム
周期内のデジタル音声信号のパワー、すなわち2乗和が
求められ、その出力パワー信号が音声区間決定回路(24
3)の第2の入力端に供給される。音声区間決定回路(2
43)には、さらに、その第3の入力端に音源情報正規化
回路(232)よりの音源正規化情報が供給される。そし
て、この音声区間決定回路(243)においてはゼロクロ
ス数、区間内パワー及び音源正規化情報が複合的に処理
され、無音、無声音及び有声音の判定処理が行なわれ、
音声区間が決定される。
この音声区間決定回路(243)よりの判定された音声
区間を示す音声区間判定信号は音声区間判定回路(24)
の出力として音声区間内パラメータメモリ(8)に供給
される。
こうして、判定音声区間内においてメモリ(8)にス
トアされた音響パラメータ時系列Pi(n)は総距離算出
手段(60)に供給されるとともに細部距離参照手段(9
0)に供給される。
総距離算出手段(60)ではメモリ(8)からの音響パ
ラメータ時系列P(n)と標準パターンメモリ(40)か
らの標準パターンのパラメータ時系列との差、つまり両
パターンの総距離Dが算出される。ここで、総距離D
は、第nフレーム、第iチャンネル間の距離をDin、入
力パターンの第nフレームの第iチャンネルの出力をIi
n(i=1,2・・・16)(n=1,2・・・N)、また、マ
ッチングをさせる標準パターンの第nフレームの第iチ
ャンネルの出力をRinとすると、 である。この総距離算出がメモリ(40)の登録単語毎に
順次行なわれ、各登録単語毎の総距離Dが最小値判定手
段(70)に供給される。この最小値判定手段(70)は、
通常は総距離Dが最小である標準パターンを検出して判
定出力とする。
細部距離参照手段(90)は、この例ではフレーム毎の
差検出手段(91)と、差フレーム検出手段(92)と、棄
却判定手段(93)とからなる。
フレーム毎の差検出手段(91)では、第nフレーム、
第iチャンネルにおける入力パターンと標準パターン間
の距離Din、 Din=|lin−Rin| ……(7) を求め、この距離Dinに対し、しきい値Taを設定し、 Ta<Din ……(8) となるチャンネルの個数Cnを各フレーム毎にカウントす
る。
この各フレーム毎に求められた、(8)式を満足する
チャンネルの個数Cnは差フレーム検出手段に供給され
る。
差フレーム検出手段(92)では、このチャンネルの個
数Cnに対するしきい値Tbを設け、 Tb<Cn(n=1,2・・・N) ……(9) となる差フレームの個数を全フレームに渡ってカウント
する。
そして、この全フレームに渡ってカウントされた差フ
レームの個数Xの情報は棄却判定手段(93)に供給され
る。この棄却判定手段(93)では、この個数Xに対する
しきい値Tcを設け、 Tc<X ……(10) であるか否か判定し、個数Xが(10)式を満足するとき
は、最小値判定手段(70)で判定された総距離Dを最小
とする標準パターンは棄却される。即ち入力音声に対す
る応答はなされない。一方、個数Xが(10)式を満足し
ないとき、つまり部分的な距離も小さいときは通常動作
を行ない、最小値判定手段(70)で判定された総距離D
を最小とする標準パターンが採択され、そのことを示す
認識出力が得られる。
こうして、時間軸上で入力パターンと標準パターン間
のフレーム毎の距離比較をした際に、離れたフレームが
所定値以上あるときは、両パターンを同一ではないと判
定される。すなわち、以上のような部分分析を施すこと
により、冒頭で述べたような類似単語の判別が可能にな
るものである。
第2図は細部距離参照手段(90)の他の例を示すもの
で、この例では手段(90)では、チャンネル毎の差検出
手段(94)と、差チャンネル検出手段(95)と、棄却判
定手段(96)とからなる。
チャンネル毎の差検出手段(94)は、第nフレーム、
第iチャンネルでの距離Dinを求め、これが、しきい値T
dに対し、 Td<Din ……(11) となるフレームの個数Fiを各チャンネル毎にカウントす
る。
このチャンネル毎に求められたフレームの個数Fiは差
チャンネル検出手段(95)に供給され、この検出手段
(95)では、このフレームの個数Fiに対するしきい値Te
を設け、 Te<Fi(i=1,2・・・N) ……(12) となる差チャンネルの個数を全チャンネルにわたってカ
ウントする。
そして、この全チャンネルに渡ってカウントされた差
チャンネルの個数Yの情報は棄却判定手段(96)に供給
される。棄却判定手段(96)では、この個数Yに対する
しきい値Tfを設け、 Tf<Y ……(13) であるか否か判定し、個数Yが(13)式を満足するとき
は最小値判定手段(70)で判定された総距離Dを最小と
する標準パターンは棄却される。
こうして、この例の場合には、入力パターンと標準パ
ターン間のチャンネル毎の距離比較を行ない、離れたチ
ャンネルが所定以上あるときは両パターンは同一でない
と判定される。これにより類似単語の判別が可能にな
る。
なお、以上の例では音響分析にバンドパスフィルタバ
ンクを用いた場合であるが、認識用パラメータとして
は、他のパラメータ例えば対数パワー、ゼロクロスレー
ト、1次のパーコール係数、パワースペクトルの傾き等
を用いてもよい。
また、以上の例はハードウェアで構成した場合として
示したが、音響分析手段(2)の演算部、総距離算出手
段(60)、最小値判定手段(70)及び細部距離参照手段
(90)はコンピュータによるソフトウエアにより実現す
ることができるものである。
〔発明の効果〕
この発明によれば、入力パターンと標準パターンとの
総距離の最小な標準パターンをそのまま認識結果とする
のではなく、両パターンの部分分析を施し、部分分析の
結果、同一パターンでないと判定されたときは、総距離
の最小な標準パターンであっても、これを棄却するよう
にしたので、類似単語の判別が可能になるものである。
【図面の簡単な説明】
第1図はこの発明による音声認識装置の一実施例のブロ
ック図、第2図はこの発明の他の例の要部のブロック
図、第3図は音声認識の一例の基本的構成のブロック図
である。 (2)は音響分析手段、(40)は標準パターンメモリ、
(60)は総距離演算手段、(70)は最小値判定手段、
(90)は細部距離参照手段である。

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】認識対象語の標準パターンの音響パラメー
    タ系列が記憶されている標準パターンメモリ手段と、 音声入力を音響分析して得られる入力パターンの音響パ
    ラメータ時系列と上記標準パターンメモリ手段より読み
    出される標準パターンの音響パラメータ系列との差を算
    出する距離算出手段と、 上記距離算出手段で算出された値の最小の標準パターン
    の語を検知して認識出力を得る最小値判定手段と、 上記入力パターンと標準パターンとの音響パラメータ系
    列間の第nフレーム、第iチャンネルでの距離Din(i
    =1,2,・・・・I、n=1,2,・・・・N)が、第1のし
    きい値Taに対し、Ta<Dinとなるチャンネルの個数Cnを
    各フレーム毎にカウントする手段と、 上記個数Cnが第2のしきい値Tbに対し、Tb<Cnとなるフ
    レームの個数Xを全フレームに渡ってカウントする手段
    と、 上記個数Xが第3のしきい値Tcに対し、Tc<Xである場
    合、上記最小値判定手段で検知した距離最小の標準パタ
    ーンの認識出力を棄却する手段 とを具備してなる音声認識装置。
  2. 【請求項2】認識対象語の標準パターンの音響パラメー
    タ系列が記憶されている標準パターンメモリ手段と、 音声入力を音響分析して得られる入力パターンの音響パ
    ラメータ時系列と上記標準パターンメモリ手段より読み
    出される標準パターンの音響パラメータ系列との差を算
    出する距離算出手段と、 上記距離算出手段で算出された値の最小の標準パターン
    の語を検知して認識出力を得る最小値判定手段と、 上記入力パターンと標準パターンとの音響パラメータ系
    列間の第nフレーム、第iチャンネルでの距離Din(i
    =1,2,・・・・I、n=1,2,・・・・N)が、第1のし
    きい値Tdに対し、Td<Dinとなるフレームの個数Fiを各
    チャンネル毎にカウントする手段と、 上記個数Fiが第2のしきい値Teに対し、Te<Fiとなるチ
    ャンネルの個数Yを全チャンネルに渡ってカウントする
    手段と、 上記個数Yが第3のしきい値Tfに対し、Tf<Yである場
    合、上記最小値判定手段で検知した距離最小の標準パタ
    ーンの認識出力を棄却する手段 とを具備してなる音声認識装置。
JP62328200A 1987-12-24 1987-12-24 音声認識装置 Expired - Fee Related JP2658104B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62328200A JP2658104B2 (ja) 1987-12-24 1987-12-24 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62328200A JP2658104B2 (ja) 1987-12-24 1987-12-24 音声認識装置

Publications (2)

Publication Number Publication Date
JPH01167897A JPH01167897A (ja) 1989-07-03
JP2658104B2 true JP2658104B2 (ja) 1997-09-30

Family

ID=18207566

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62328200A Expired - Fee Related JP2658104B2 (ja) 1987-12-24 1987-12-24 音声認識装置

Country Status (1)

Country Link
JP (1) JP2658104B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05249990A (ja) * 1992-03-04 1993-09-28 Sony Corp パターンマッチング方法およびパターン認識装置

Also Published As

Publication number Publication date
JPH01167897A (ja) 1989-07-03

Similar Documents

Publication Publication Date Title
EP1159737B1 (en) Speaker recognition
JP2658104B2 (ja) 音声認識装置
US5425127A (en) Speech recognition method
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
JPH05173592A (ja) 音声/非音声判別方法および判別装置
Furui et al. Experimental studies in a new automatic speaker verification system using telephone speech
JPH04324499A (ja) 音声認識装置
JPS62113197A (ja) 音声認識装置
JPS59111699A (ja) 話者認識方式
JPH0426479B2 (ja)
JPH0424717B2 (ja)
JPS61281300A (ja) 音声認識装置
JPH0632025B2 (ja) 音声認識装置
JPS61267098A (ja) 音声認識装置
JPS61275799A (ja) 音声認識装置
JPS6147439B2 (ja)
JPS61176997A (ja) 音声認識装置
JPH0682275B2 (ja) 音声認識装置
Angus et al. Low-cost speech recognizer
JPH02302799A (ja) 音声認識方式
JPH0316038B2 (ja)
JPS61208097A (ja) 音声認識装置
JPH02720B2 (ja)
JPS59189398A (ja) 連続音声認識方式
JPS6193499A (ja) 音声パタ−ン照合方式

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees