JPH05313688A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH05313688A
JPH05313688A JP4109356A JP10935692A JPH05313688A JP H05313688 A JPH05313688 A JP H05313688A JP 4109356 A JP4109356 A JP 4109356A JP 10935692 A JP10935692 A JP 10935692A JP H05313688 A JPH05313688 A JP H05313688A
Authority
JP
Japan
Prior art keywords
pattern
standard
input pattern
standard pattern
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP4109356A
Other languages
English (en)
Inventor
Tetsuo Kobayashi
哲夫 小林
Makoto Akaha
誠 赤羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP4109356A priority Critical patent/JPH05313688A/ja
Publication of JPH05313688A publication Critical patent/JPH05313688A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 音声の認識率を向上させる。 【構成】 標準パターン「zero」、「go」、およ
び「ku」は、標準パターン「roku」に包含されて
いるので(標準パターン「roku」の部分パターンに
なっているので)、認識候補パターンからはずされる。
同様に、標準パターン「ni」、「shi」、および
「kyuu」は、標準パターン「shiti」または
「ichi」に包含されているので(標準パターン「s
hiti」または「ichi」の部分パターンになって
いるので)、認識候補パターンからはずされる。また、
同じ位置にある標準パターン「shiti」と標準パタ
ーン「ichi」については、入力パターンとの距離が
長い方の標準パターン「ichi」が、その距離が短い
方の標準パターン「shiti」の部分パターンである
ので、認識候補パターンからはずされる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声に含まれる特定の
単語を抽出する(ワードスポッティングする)場合に用
いて好適な音声認識装置に関する。
【0002】
【従来の技術】図13は、従来の音声認識装置の一例の
構成を示すブロック図である。マイク1は入力された音
声を電気信号である音声信号に変換する。音響分析部2
は、例えばI個のチャンネルを有するフィルタバンクで
構成されている。フィルタバンクの各チャンネルは、そ
の通過域を通過する音声信号成分を全波整流して平滑化
し、音声の特徴パラメータとしてのパワーPi(n)を
検出する。なお、i=1,2,・・・,Iで、iはチャ
ンネル数を表す。また、n=1,2,・・・,Nで、n
はフレーム数(時間)を表す。よって、Nは音声区間
(音声が発声されている区間)を表す。
【0003】標準パターンメモリ6は、装置の動作モー
ドが登録モードの場合に、音響分析部2より出力される
特徴パラメータ(パワー)Pi(n)を標準パターンと
して記憶する。
【0004】DPマッチング部11は、装置のモードが
認識モードの場合に、音響分析部2より出力される入力
パターンとしての特徴パラメータPi(n)と、標準パ
ターンメモリ6に記憶されたすべての標準パターンと
を、後述するDPマッチングし、入力パターンと標準パ
ターンとの距離を計算する。認識部12は、DPマッチ
ング部21より出力される入力パターンと標準パターン
との距離を参照して、その距離を最も短くする標準パタ
ーンに対する単語を認識結果として出力する。
【0005】このように構成される音声認識装置におい
ては、装置の動作モードが登録モードである場合、マイ
ク1に入力された音声が、音響分析部2のフィルタバン
クにおいて全波整流されて平滑化され、音声の特徴パラ
メータとしてのパワーPi(n)が検出される。そし
て、検出されたパワー(特徴パラメータ)Pi(n)
は、標準パターンメモリ6に供給され、標準パターンと
して記憶される。
【0006】装置の動作モードが認識モードである場
合、マイク1に入力された音声が、音響分析部2のフィ
ルタバンクにおいて全波整流されて平滑化され、音声の
特徴パラメータとしてのパワーPi (n)が検出され
る。そして、検出されたパワー(特徴パラメータ)Pi
(n)は、入力パターンPi (n)として、DPマッチ
ング部11に供給され、DPマッチング部11におい
て、この入力パターンPi (n)と、標準パターンメモ
リ6に記憶された標準パターンRi (m)(m=1,
2,・・・,Mであり、Mは標準パターンのフレーム
数)とがDPマッチングされる。
【0007】ここで、標準パターンメモリ6に記憶され
た標準パターンのフレーム数Mは発声速度や単語長の違
いにより、一般的に異なる。そこで、DPマッチングに
より、この発声速度や単語長の違いに対処するための、
時間軸を非線形に伸縮する時間正規化が行なわれる。以
下、このDPマッチングについて説明する。
【0008】図14は、縦軸mに標準パターンR
i(m)を並べ、横軸nに入力パターンPi(n)を並べ
た平面図である。なお、図14においては、標準パター
ンRi(m)および入力パターンPi(n)を、その周波
数方向に対応するサフィックスiを省略し、R(m)お
よびP(n)としてある。
【0009】時間正規化は、図14の標準パターンRi
(m)の時間軸mを、入力パターンPi(n)の時間軸
nに写像することに相当する。従って、この写像を行う
関数(歪関数または時間伸縮関数)F(図中、実線で示
す)により、標準パターンRi(m)の時間軸mを、入
力パターンPi(n)の時間軸nに対応させることがで
きる。この歪関数Fは未知であるが、標準パターンRi
(m)の時間軸m、または入力パターンPi(n)の時
間軸nのうちの一方の、例えば標準パターンRi(m)
の時間軸mを、他方のパターンである入力パターンPi
(n)に最も類似するように(標準パターンRi(m)
と入力パターンPi(n)との距離を最小にするよう
に)、人工的に歪ませることにより、最適な歪関数Fが
求められる。
【0010】また、歪関数Fには、一般的に次のような
制限が与えられる。 Fは、単調増加関数 Fは、連続関数 この制限下で、上述したようにして歪関数Fが求めら
れ、この歪関数Fにより、標準パターンRi(m)の時
間軸mを、入力パターンPi(n)の時間軸nに変換し
たときの標準パターンRi(m)と入力パターンP
i(n)との距離(時間正規化した距離)が、DPマッ
チング部11において求められる。
【0011】ここで、歪関数Fは、前述したように、図
14の実線に相当するので、歪関数Fを求めるというこ
とは、この実線の軌跡(パス)を求めることに他ならな
い。以下この歪関数FをDPパスと呼ぶ。
【0012】以上のようにして、DPマッチング部11
では、標準パターンメモリ6に記憶されたすべての標準
パターンに対して、入力パターンとの時間正規化した距
離が求められ、認識部12に供給される。
【0013】認識部12において、DPマッチング部1
1から出力される、すべての時間正規化した距離より、
入力パターンとの時間正規化した距離を最小にする標準
パターンが検出され、その標準パターンに対する単語
が、認識結果として出力される。
【0014】
【発明が解決しようとする課題】ところで、標準パター
ンメモリ6に記憶されている標準パターンにおいては、
例えば数字の6「ROKU」のパターンが数字の9「K
U」のパターンを含んでいるように、所定の単語(例え
ば数字6「ROKU」)の標準パターンRi(m)が、
他の単語(例えば数字の9「KU」)の標準パターンR
i'(m)(m=1,2,・・・,M'であり、M'は標準
パターンのフレーム数)を含んでいる(包含している)
場合がある。(以下、包含されているパターンを部分パ
ターンと記載する。)
【0015】このような場合、部分パターンを包含して
いる標準パターンより、その標準パターンに包含されて
いる部分パターンの方が、入力パターンとの距離を短く
するときが多いので、部分パターンに対応する単語が音
声の認識結果として出力され、従って、認識率が劣化す
る課題があった。
【0016】本発明は、このような状況に鑑みてなされ
たものであり、音声の認識率を向上させるものである。
【0017】
【課題を解決するための手段】請求項1に記載の音声認
識装置は、音声から入力パターンを作成する入力パター
ン作成手段としての音響分析部2およびNAT処理部3
と、所定の単語の標準パターンを記憶する標準パターン
記憶手段としての標準パターンメモリ6と、入力パター
ンと、標準パターンとを対応させてマッチングするパタ
ーンマッチング手段としての線間距離対応マッチング部
5と、線間距離対応マッチング部5のマッチング結果か
ら入力パターン中における標準パターンの包含関係を判
定して、入力パターン中におけるにおける標準パターン
を絞り込む絞り込み手段としてのワードスポッティング
判定部7とを備えることを特徴とする。
【0018】この音声認識装置は、ワードスポッティン
グ判定部7に、入力パターンとの距離を最小にする、包
含関係により絞り込まれた標準パターンを抽出させるこ
とができる。
【0019】さらに、この音声認識装置は、ワードスポ
ッティング判定部7に、入力パターンとの対応が時系列
的に最も早い、包含関係により絞り込まれた標準パター
ンを抽出させることができる。
【0020】
【作用】請求項1に記載の音声認識装置においては、音
声から入力パターンを作成し、標準パターンメモリ6に
記憶されている標準パターンと対応させてマッチングす
る。そして、マッチング結果から音声における標準パタ
ーンの包含関係を判定して、入力パターン中における標
準パターンを絞り込む。従って、標準パターンが包含す
るパターン(部分パターン)の影響がなくなるので、音
声の認識率を向上させることができる。
【0021】ワードスポッティング判定部7に、入力パ
ターンとの距離を最小にする、包含関係により絞り込ま
れた標準パターンを抽出させることができる場合におい
ては、音声の認識率をさらに向上させることができる。
【0022】ワードスポッティング判定部7に、入力パ
ターンとの対応が時系列的に最も早い、包含関係により
絞り込まれた標準パターンを抽出させることができる場
合においては、一発声一単語の音声を認識するときに、
その音声の先頭付近に発声される単語を効率よく認識す
ることができる。
【0023】
【実施例】図1は、本発明の音声認識装置の一実施例の
構成を示すブロック図である。図13における場合と対
応する部分には同一の符号を付してある。NAT(No
rmalization Along Traject
ory)処理部3は、図2に示すように、補間間隔設定
器3aおよび補間点抽出器3bより構成され、NAT処
理を行う。
【0024】補間間隔設定器3aは、図3または図4に
示すように、パラメータ空間内に描かれた特徴パラメー
タPi(n)(図中・印で示す)の軌跡をサンプリング
するための、あらかじめ設定された間隔(サンプリング
間隔)Tを補間点抽出器3bに供給する。
【0025】以下、特徴パラメータPi(n)の周波数
方向に対応するサフィックスiを省略する。
【0026】補間点抽出器3bは、装置のモードが登録
モードである場合、音響分析部2より供給された特徴パ
ラメータP(n)がパラメータ空間内に描く軌跡を直線
近似した軌跡に沿って、図4に○印で示すように、補間
間隔設定器3aに設定されているサンプリング間隔T
で、特徴パラメータP(n)の軌跡をサンプリングし、
標準パターンとしての新たな特徴パラメータ系列R
(k)(図4ではRw(k)で示す)(k=1,2,・
・・,K)を標準パターンメモリ6(図1)に供給す
る。また、補間点抽出器3bは、装置のモードが認識モ
ードである場合、音響分析部2より供給された特徴パラ
メータP(n)がパラメータ空間内に描く軌跡を直線近
似した軌跡に沿って、図3に○印で示すように、補間間
隔設定器3aに設定されているサンプリング間隔Tで、
特徴パラメータP(n)の軌跡をサンプリングし、入力
パターンとしての新たな特徴パラメータ系列X(j)
(j=1,2,・・・,J)を入力パターンメモリ4
(図1)に供給する。
【0027】入力パターンメモリ4は、NAT処理部3
より供給される、入力パターンとしての新たな特徴パラ
メータ系列X(j)を一時記憶する。
【0028】線間距離対応マッチング部5は、入力パタ
ーンメモリ4に記憶された入力パターンX(j)と、標
準パターンメモリ6に記憶された標準パターンR
w(k)(w=1,2,・・・,W:Wは、標準パター
ンメモリ6に記憶された標準パターンの数)を結ぶ直線
とを線間距離対応マッチングする。即ち、線間距離対応
マッチング部5は、まず最初に標準パターンRw(k)
の各点を、入力パターンX(j)の各点を順番に結んだ
直線(直線X(1)X(2)、直線X(2)X(3)、
・・・、直線X(J−1)X(J))のうち、最初の直
線X(1)X(2)から、順次対応させ(標準パターン
w(1)と入力パターンX(j)の始点X(1)およ
び2番目の点X(2)を結んだ直線X(1)X(2)、
標準パターンRw(2)と入力パターンX(j)の2番
目の点X(2)および3番目の点X(3)を結んだ直線
X(2)X(3)、・・・、標準パターンRw(K)と
入力パターンX(j)のK番目の点X(K)およびK+
1番目の点X(K+1)を結んだ直線X(K)X(K+
1)をそれぞれ対応させ)(図3、4および5)、対応
させた点と直線との間の、例えばユークリッド距離d
(X(k),Rw(k))(k=1,2,・・・,K)
の総和Dw(X(1),Rw(k))を計算する。
【0029】ここで、図6に示すように、線分R
w(k)X(j)(ベクトル(Rw(k)−X(j)))
と、線分X(j+1)X(j)(ベクトル(X(j+
1)−X(j)))とのなす角をθとすると、点R
w(k)と直線X(j)X(j+1)との間のユークリ
ッド距離d(X(j),Rw(k))は、次式により求
めることができる。 d(X(j),Rw(k))=‖Rw(k)−X(j)‖sinθ ‖Rw(k)−X(j)‖は、ベクトル(Rw(k)−X
(j))の大きさをとることを示す。また、
【数1】 ・は、ベクトル(Rw(k)−X(j))とベクトル
(X(j+1)−X(j))との内積をとることを示
す。
【0030】次に、線間距離対応マッチング部5は、標
準パターンRw(k)の各点を、入力パターンX(j)
の各点を順番に結んだ直線(直線X(1)X(2)、直
線X(2)X(3)、・・・、直線X(J−1)X
(J))のうち、2番目の直線X(2)X(3)から、
順次対応させ(標準パターンRw(1)と入力パターン
X(j)の2番目の点X(2)および3番目の点X
(3)を結んだ直線X(2)X(3)、標準パターンR
w(2)と入力パターンX(j)の3番目の点X(3)
および4番目の点X(4)を結んだ直線X(3)X
(4)、・・・、標準パターンRw(K)と入力パター
ンX(j)のK+1番目の点X(K+1)およびK+2
番目の点X(K+2)を結んだ直線X(K+1)X(K
+2)をそれぞれ対応させ)、対応させた点と直線との
間の、ユークリッド距離d(X(k+1),R
w(k))(k=1,2,・・・,K)の総和Dw(X
(2),Rw(k))を計算する。以下同様にして、線
間距離対応マッチング部5は、標準パターンRw(k)
を、入力パターンX(j)の各点を結ぶ直線に対応させ
る位置を順次ずらしながら、距離Dw(X(1),R
w(k)),Dw(X(2),Rw(k)),・・・,Dw
(X(J−K),Rw(k))を計算する。
【0031】さらに、線間距離対応マッチング部5は、
距離Dw(X(1),Rw(k)),Dw(X(2),Rw
(k)),・・・,Dw(X(J−K),Rw(k))の
中から、最小の距離Dw(X(JMIN(w)),R
w(k))、およびそれが得られた位置(時間に相当す
る)JMIN(w)を検出し、ワードスポッティング判定
部7に供給する。なお、線間距離対応マッチング部5
は、以上の処理を、標準パターンメモリ6に記憶されて
いるW個のすべての標準パターンR1(k)乃至R
W(k)に対して行い、すべての標準パターンR1(k)
乃至RW(k)における最小の距離D1(X(J
MIN(1)),R1(k))乃至DW(X(J
MIN(W)),RW(k))、およびそれが得られた位置
MIN(1)乃至JMIN(W)を検出し、ワードスポッテ
ィング判定部7に供給する。
【0032】ワードスポッティング判定部7は、線間距
離対応マッチング部5より供給されたすべての標準パタ
ーンR1(k)乃至RW(k)における最小の距離D
1(X(JMIN(1)),R1(k))乃至DW(X(J
MIN(W)),RW(k))のうち、所定の閾値DREF
上のものを検出し、その距離を有する標準パターンを削
除し(認識候補パターンからはずし)、入力パターンと
の最小距離が所定の閾値DREF未満の距離を有する標準
パターンの包含関係を、その標準パターンが得られた、
入力パターン中における位置から、後述するようにして
判定する。そして、ワードスポッティング判定部7は、
その包含関係に対応して、入力パターンとの最小距離が
所定の閾値DREF未満の距離を有する標準パターンの中
から、部分パターンになっている標準パターンを検出し
て削除する(認識候補パターンからはずす)。さらに、
ワードスポッティング部7は、以上の処理により残った
標準パターンのうち、入力パターンとの距離を最小にす
る標準パターンに対する単語を認識結果として出力す
る。
【0033】次に、その動作について説明する。装置の
動作モードが登録モードである場合、マイク1に入力さ
れた音声(単語)が、音響分析部2のフィルタバンクに
おいて全波整流されて平滑化され、音声の特徴パラメー
タとしてのパワーP(n)(パワーPi(n)の周波数
方向に対応するサフィックスiを省略してある)が検出
される。
【0034】NAT処理部3の補間点抽出器3b(図
2)において、音響分析部2より供給された特徴パラメ
ータP(n)がパラメータ空間内に描く軌跡を直線近似
した軌跡に沿って、図4に○印で示すように、補間間隔
設定器3aに設定されているサンプリング間隔Tで、特
徴パラメータP(n)の軌跡がサンプリングされ、標準
パターンとしての新たな特徴パラメータ系列Rw(k)
(k=1,2,・・・,K)が算出される。
【0035】補間点抽出器3bにより算出された新たな
特徴パラメータRw(k)は、標準パターンとして標準
パターンメモリ6に記憶される。
【0036】装置の動作モードが認識モードである場
合、マイク1に入力された音声が、音響分析部2のフィ
ルタバンクにおいて全波整流されて平滑化され、音声の
特徴パラメータとしてのパワーP(n)が検出される。
【0037】NAT処理部3の補間点抽出器3b(図
2)において、音響分析部2で検出された特徴パラメー
タ(パワー)P(n)がパラメータ空間内に描く軌跡を
直線近似した軌跡に沿って、図3に○印で示すように、
補間間隔設定器3aに設定されているサンプリング間隔
Tで、特徴パラメータP(n)の軌跡がサンプリングさ
れ、入力パターンとしての新たな特徴パラメータ系列X
(j)(j=1,2,・・・,J:J=SL/T+1)
が算出される。
【0038】入力パターンメモリ4において、NAT処
理部3(補間点抽出器3b)より供給される、入力パタ
ーンとしての新たな特徴パラメータX(j)が一時記憶
される。
【0039】線間距離対応マッチング部5において、入
力パターンメモリ4に記憶された入力パターンX(j)
と、標準パターンメモリ6に記憶された標準パターンR
w(k)を結ぶ直線が線間距離対応マッチングされる。
即ち、線間距離対応マッチング部5において、標準パタ
ーンRw(k)を、入力パターンX(j)の各点を結ぶ
直線に対応させる位置を順次ずらしながら、距離D
w(X(1),Rw(k)),Dw(X(2),R
w(k)),・・・,Dw(X(J−K),Rw(k))
が計算される。そして、距離Dw(X(1),R
w(k)),Dw(X(2),Rw(k)),・・・,Dw
(X(J−K),Rw(k))の中から、最小の距離Dw
(X(JMIN(w)),Rw(k))、およびそれが得ら
れた位置(時間に相当する)JMIN(w)が検出され、
ワードスポッティング判定部7に供給される。
【0040】なお、線間距離対応マッチング部5におい
て、標準パターンメモリ6に記憶されているW個のすべ
ての標準パターンR1(k)乃至RW(k)に対して、以
上の処理が行われ、すべての標準パターンにおける最小
の距離D1(X(JMIN(1)),R1(k))乃至D
W(X(JMIN(W)),RW(k))、およびそれが得
られた位置JMIN(1)乃至JMIN(W)が検出され、ワ
ードスポッティング判定部7に供給される。
【0041】ワードスポッティング判定部7において、
線間距離対応マッチング部5より供給されたすべての標
準パターンR1(k)乃至RW(k)における最小の距離
1(X(JMIN(1)),R1(k))乃至DW(X(J
MIN(W)),RW(k))のうち、所定の閾値DREF
上のものが検出され、その距離を有する標準パターンが
削除され(認識候補パターンからはずされ)、入力パタ
ーンとの最小距離が所定の閾値DREF未満の距離を有す
る標準パターンの包含関係が、その標準パターンが得ら
れた、入力パターン中における位置から判定される。
【0042】ここで、ワードスポッティング判定部7に
おいて、入力パターン中における標準パターンの包含関
係が、次のように判定される。即ち、入力パターン中に
おける標準パターンRw(k)の始点の位置は、J
MIN(w)であるから、その終点の位置は、標準パター
ンRw(k)のフレーム数Kから1を引いた値(K−
1)に、NAT処理部3の補間間隔設定器3aに設定さ
れているサンプリング間隔Tを乗じた値(K−1)T、
即ち標準パターンRw(k)の長さを、その始点の位置
M IN(w)に加えた値(JMIN(w)+(K−1)T)
になる。
【0043】従って、任意の標準パターンの入力パター
ン中における始点と終点は、以上の方法により求めるこ
とができるので、例えば標準パターンAの始点をa1
その終点をa2とし、標準パターンBの始点をb1、その
終点をb2とすると、 a1≦b1、且つb2≦a2 となる場合、ワードスポッティング判定部7において、
標準パターンAが標準パターンBを包含していると(標
準パターンBが標準パターンAの部分パターンである
と)判定される。なお、 a1=b1、且つb2=a2 となる場合、ワードスポッティング判定部7において、
標準パターンAと標準パターンBのうち、入力パターン
との距離が短い方の標準パターンが、その距離が長い方
の標準パターンを包含していると(標準パターンAと標
準パターンBのうち、入力パターンとの距離が長い方の
標準パターンが、その距離が短い方の標準パターンの部
分パターンであると)判定される。
【0044】ワードスポッティング判定部7において、
入力パターンとの最小距離が所定の閾値DREF未満の距
離を有する標準パターンの中から、部分パターンになっ
ている標準パターンが検出されて削除される(認識候補
パターンからはずされる)。さらに、ワードスポッティ
ング部7において、以上の処理により残った標準パター
ンのうち、入力パターンとの距離を最小にする標準パタ
ーンに対する単語が認識結果として出力される。
【0045】次に、標準パターンメモリ6に「zer
o」、[rei」、「maru」(以上数字の0)、
「ichi」(数字の1)、「ni」(数字の2)、
「san」(数字の3)、「shi」、「yon」(以
上数字の4)、「go」(数字の5)、「roku」
(数字の6)、「nana」、「shiti」(以上数
字の7)、「hachi」(数字の8)、「ku」、
「kyuu」(以上数字の9)、「hai」(返事のハ
イ)、および「iie」(返事のイイエ)が標準パター
ンとして記憶されている場合、音声(入力パターン)
「N−rokunichi」(んー、6日)がマイク1
に入力されたときの動作を、図7乃至図11を参照して
説明する。
【0046】なお、図7乃至図11においては、横軸方
向が時間、縦軸方向が入力パターンと標準パターンとの
距離に対応する。さらに、図7乃至図11における入力
パターンまたは標準パターンに付随している、白と黒で
内部が塗られている長方形は、そのパターンの時系列の
スペクトル変化を表しており、図7の入力パターン「N
−rokunichi」の部分に示したように、縦軸方
向が周波数(下側が低周波数で、上側が高周波数)に対
応し、白黒の濃淡が周波数レベル(白い方が高レベル
で、黒い方が低レベル)に対応する。また、図7乃至図
11においては、図を見やすくするために縦軸方向の距
離のスケールを変化させている。
【0047】音声「んー、6日」(「N−rokuni
chi」)がマイク1に入力されると、音響分析部2お
よびNAT処理部3を介して入力パターンメモリ4に入
力パターン「N−rokunichi」が記憶される。
【0048】そして、線間距離対応マッチング部5にお
いて、標準パターンメモリ6の最上位アドレスに記憶さ
れている、例えば標準パターン「ni」と、入力パター
ンメモリ4に記憶された入力パターン「N−rokun
ichi」が読み出され、標準パターン「ni」を、入
力パターン「N−rokunichi」の各点(NAT
処理部3の補間点抽出器3bでサンプルされた点)を結
ぶ直線に対応させる位置(時間)を順次ずらしながら、
各位置における距離が求められる。図7では、線間距離
対応マッチング部5で時間を順次ずらしながら求められ
た入力パターン「N−rokunichi」と標準パタ
ーン「ni」との距離のうち、その値が所定の値以下に
なるものを示している。
【0049】さらに、線間距離対応マッチング部5で、
図7に示した入力パターン「N−rokunichi」
と標準パターン「ni」との距離のうち、入力パターン
「N−rokunichi」との距離を最小にする標準
パターン「ni」と、その位置(時間)が検出され、ワ
ードスポッティング判定部7に供給される(図8)。
【0050】なお、線間距離対応マッチング部5におい
て、標準パターンメモリ6に記憶されている上述した1
7個のすべての標準パターンに対して、以上の処理が行
われ、すべての標準パターンにおける最小の距離と、そ
れが得られた位置が検出され、ワードスポッティング判
定部7に供給される(図9)。
【0051】ワードスポッティング判定部7において、
線間距離対応マッチング部5より供給されたすべての標
準パターンにおける最小の距離のうち、所定の閾値D
REF以上のもの(図9における点線から下に位置する標
準パターン)が検出され、その距離を有する標準パター
ンが削除され(認識候補パターンからはずされ)、図1
0に示す、入力パターンとの最小距離が所定の閾値D
REF未満の距離を有する標準パターンの包含関係が、そ
の標準パターンが得られた、入力パターン中における位
置(時間)から判定される。
【0052】そして、ワードスポッティング判定部7に
おいて、図10に示す標準パターン「zero」、「g
o」、および「ku」は、標準パターン「roku」に
包含されているので(標準パターン「roku」の部分
パターンになっているので)、削除される(認識候補パ
ターンからはずされる)。同様に、標準パターン「n
i」、「shi」、および「kyuu」は、標準パター
ン「shiti」または「ichi」に包含されている
ので(標準パターン「shiti」または「ichi」
の部分パターンになっているので)、削除される(認識
候補パターンからはずされる)。また、同じ位置にある
標準パターン「shiti」と標準パターン「ich
i」については、入力パターンとの距離が長い方の標準
パターン「ichi」が、その距離が短い方の標準パタ
ーン「shiti」の部分パターンであるので、削除さ
れる(認識候補パターンからはずされる)(図11)。
【0053】さらに、ワードスポッティング部7におい
て、以上の処理により残った標準パターン「roku」
と標準パターン「shiti」のうち(図11)、入力
パターンとの距離を最小にする標準パターン「rok
u」に対する単語(数字の6)が認識結果として出力さ
れる。
【0054】以上説明したように、マッチング結果から
音声における標準パターンの包含関係を判定して、入力
パターン中における標準パターンを絞り込むようにした
ので、標準パターンが包含する部分パターンによる音声
の誤認識が防止される。
【0055】なお、線間距離対応マッチング部5で、図
12に示すように、標準パターンの各点(NAT処理部
3の補間点抽出器3bでサンプルされた点)(図中、×
印で示す)を、入力パターンの各点(NAT処理部3の
補間点抽出器3bでサンプルされた点)(図中、○印で
示す)に対応させて、標準パターンと入力パターンとの
距離を求めるようにすることができるが、この場合、標
準パターンの各点が、入力パターンの各点のいずれかと
対応しているのではなく、例えば入力パターンの軌跡を
近似した直線上の点に対応しているときに、標準パター
ンと入力パターンとの正確な距離が求まらず、認識率が
劣化する可能性がある。従って、これを防止するため
に、本実施例においては、線間距離対応マッチング部5
で、標準パターンの各点を、入力パターンの各点を結ぶ
直線に対応させる位置(時間)を順次ずらしながら、各
位置における距離を求めるようにした。
【0056】また、本実施例においては、線間距離対応
マッチング部5で、標準パターンを、入力パターンに対
応させる位置(時間)を順次(線形的に)ずらしなが
ら、標準パターンと入力パターンとの距離を求めるよう
にしたが、始点フリーのDPマッチングにより、その距
離を求めるようにすることができる。
【0057】さらに、本実施例においては、ワードスポ
ッティング判定部7で、最終的に入力パターンとの距離
を最小にする標準パターンを、認識結果として出力する
ようにしたが、一発声一単語の音声を認識するときに、
その音声の先頭付近に認識しようとする単語が発声され
る場合が多いので、最終的に入力パターンとの対応が時
系列的に最も早い標準パターンを認識結果として出力す
るようにすることができる。
【0058】
【発明の効果】請求項1に記載の音声認識装置によれ
ば、音声から入力パターンを作成し、標準パターン記憶
手段に記憶されている標準パターンと対応させてマッチ
ングする。そして、マッチング結果から音声における標
準パターンの包含関係を判定して、入力パターン中にお
ける標準パターンを絞り込む。従って、標準パターンが
包含するパターン(部分パターン)の影響がなくなるの
で、音声の認識率を向上させることができる。
【0059】請求項2に記載の音声認識装置によれば、
絞り込み手段に、入力パターンとの距離を最小にする、
包含関係により絞り込まれた標準パターンを抽出させる
ようにしたので、音声の認識率をさらに向上させること
ができる。
【0060】請求項3に記載の音声認識装置によれば、
絞り込み手段に、入力パターンとの対応が時系列的に最
も早い、包含関係により絞り込まれた標準パターンを抽
出させるようにしたので、一発声一単語の音声を認識す
るときに、その音声の先頭付近に発声される単語を効率
よく認識することができる。
【図面の簡単な説明】
【図1】本発明の音声認識装置の一実施例の構成を示す
ブロック図である。
【図2】図1の実施例のNAT処理部3のより詳細なブ
ロック図である。
【図3】音声の特徴パラメータの軌跡を示す平面図であ
る。
【図4】音声の特徴パラメータの軌跡を示す平面図であ
る。
【図5】入力パターンの各点を順番に結んだ直線と、標
準パターンの各点とを対応させ、対応させた点と直線と
の間の線間距離対応マッチングを説明するための図であ
る。
【図6】入力パターンの各点を順番に結んだ直線と、標
準パターンの各点とを対応させ、対応させた点と直線と
の間の距離の計算方法を説明するための図である。
【図7】図1の実施例の線間距離対応マッチング部5の
動作を説明するための図である。
【図8】図1の実施例の線間距離対応マッチング部5の
動作を説明するための図である。
【図9】図1の実施例のワードスポッティング判定部7
の動作を説明するための図である。
【図10】図1の実施例のワードスポッティング判定部
7の動作を説明するための図である。
【図11】図1の実施例のワードスポッティング判定部
7の動作を説明するための図である。
【図12】入力パターンの各点と標準パターンの各点と
を対応させて入力パターンと標準パターンとの距離を求
めることを説明するための図である。
【図13】従来の音声認識装置の一例の構成を示すブロ
ック図である。
【図14】図13のDPマッチング部11におけるDP
マッチングを説明するための図である。
【符号の説明】
1 マイク 2 音響分析部 3 NAT処理部 4 入力パターンメモリ 5 線間距離対応マッチング部 6 標準パターンメモリ 7 ワードスポッティング判定部 11 DPマッチング部 12 認識部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 音声から入力パターンを作成する入力パ
    ターン作成手段と、 所定の単語の標準パターンを記憶する標準パターン記憶
    手段と、 前記入力パターン作成手段により作成された入力パター
    ンと、前記標準パターン記憶手段に記憶された標準パタ
    ーンとを対応させてマッチングするパターンマッチング
    手段と、 前記パターンマッチング手段のマッチング結果から前記
    入力パターン中における前記標準パターンの包含関係を
    判定して、前記入力パターン中における前記標準パター
    ンを絞り込む絞り込み手段とを備えることを特徴とする
    音声認識装置。
  2. 【請求項2】 前記絞り込み手段は、前記入力パターン
    との距離を最小にする、前記包含関係により絞り込まれ
    た前記標準パターンを抽出することを特徴とする請求項
    1に記載の音声認識装置。
  3. 【請求項3】 前記絞り込み手段は、前記入力パターン
    との対応が時系列的に最も早い、前記包含関係により絞
    り込まれた前記標準パターンを抽出することを特徴とす
    る請求項1に記載の音声認識装置。
JP4109356A 1992-04-02 1992-04-02 音声認識装置 Withdrawn JPH05313688A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4109356A JPH05313688A (ja) 1992-04-02 1992-04-02 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4109356A JPH05313688A (ja) 1992-04-02 1992-04-02 音声認識装置

Publications (1)

Publication Number Publication Date
JPH05313688A true JPH05313688A (ja) 1993-11-26

Family

ID=14508155

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4109356A Withdrawn JPH05313688A (ja) 1992-04-02 1992-04-02 音声認識装置

Country Status (1)

Country Link
JP (1) JPH05313688A (ja)

Similar Documents

Publication Publication Date Title
US4677673A (en) Continuous speech recognition apparatus
US7050973B2 (en) Speaker recognition using dynamic time warp template spotting
JPH05249990A (ja) パターンマッチング方法およびパターン認識装置
US5355432A (en) Speech recognition system
EP0118484B1 (en) Lpc word recognizer utilizing energy features
JPH05313688A (ja) 音声認識装置
JPH05224693A (ja) 音声認識装置
EP0255529A4 (en) FRAMEWORK COMPARISON PROCEDURE FOR RECOGNIZING WORDS IN A LARGE NOISE ENVIRONMENT.
JPH05216498A (ja) 音声認識装置
JP2543584B2 (ja) 音声標準パタン登録方式
JPH0619491A (ja) 音声認識装置
JP2856429B2 (ja) 音声認識方式
JPH05210397A (ja) 音声認識装置
JPH10124084A (ja) 音声処理装置
JPH0228160B2 (ja)
JPH06301395A (ja) 音声認識装置
JP2995941B2 (ja) 不特定話者用音声認識装置
JPH0683383A (ja) 音声認識装置
JPS58130394A (ja) 音声認識装置
JPH06301399A (ja) 音声認識装置
JPH05158493A (ja) 音声認識装置
JPS6346496A (ja) 音声認識装置
JPH0419700A (ja) 音声パターンマッチング方法
JPH10171488A (ja) 音声認識方法及び装置及び記憶媒体
JP2000515991A (ja) パターン認識

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19990608