JPH05216498A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH05216498A
JPH05216498A JP4753692A JP4753692A JPH05216498A JP H05216498 A JPH05216498 A JP H05216498A JP 4753692 A JP4753692 A JP 4753692A JP 4753692 A JP4753692 A JP 4753692A JP H05216498 A JPH05216498 A JP H05216498A
Authority
JP
Japan
Prior art keywords
standard pattern
pattern
matching
standard
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4753692A
Other languages
English (en)
Inventor
Makoto Akaha
誠 赤羽
Tetsuo Kobayashi
哲夫 小林
Hiroaki Ogawa
浩明 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP4753692A priority Critical patent/JPH05216498A/ja
Publication of JPH05216498A publication Critical patent/JPH05216498A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 装置の演算量を減らし、装置を簡単に構成す
ることができるようにするとともに、音声の認識率を向
上させる。 【構成】 NAT処理部3において、音響分析部2によ
り検出された音声の特徴パラメータの軌跡がサンプリン
グされ、新たな特徴パラメータ系列が算出される。単純
対応マッチング部5において、標準パターンメモリ6に
記憶された標準パターンを、新たな特徴パラメータ系列
の始点から順次対応させ、標準パターンと新たな特徴パ
ラメータ系列との距離が算出され、即ちパターンマッチ
ングされ、ワードスポッティング判定部7において、そ
のパターンマッチング結果に対応して、音声から標準パ
ターンメモリ6に記憶された標準パターンに対する所定
の単語が抽出される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声に含まれる特定の
単語を抽出する(ワードスポッティングする)場合に用
いて好適な音声認識装置に関する。
【0002】
【従来の技術】図10は、従来の音声認識装置の一例の
構成を示すブロック図である。マイク1は入力された音
声を電気信号である音声信号に変換する。音響分析部2
は、例えばI個のチャンネルを有するフィルタバンクで
構成されている。フィルタバンクの各チャンネルは、そ
の通過域を通過する音声信号成分を全波整流して平滑化
し、音声の特徴パラメータとしてのパワーPi(n)を
検出する。なお、i=1,2,・・・,Iで、iはチャ
ンネル数を表す。また、n=1,2,・・・,Nで、n
はフレーム数(時間)を表す。よって、Nは音声区間
(音声が発声されている区間)を表す。
【0003】標準パターンメモリ6は、装置の動作モー
ドが登録モードの場合に、音響分析部2より出力される
特徴パラメータ(パワー)Pi(n)を標準パターンと
して記憶する。
【0004】DPマッチング部22は、装置のモードが
認識モードの場合に、音響分析部2より出力される入力
パターンとしての特徴パラメータPi(n)と、標準パ
ターンメモリ6に記憶されたすべての標準パターンと
を、後述するDPマッチングし、入力パターンと標準パ
ターンとの距離を計算する。認識部21は、DPマッチ
ング部21より出力される入力パターンとの距離を参照
して、その距離を最も短くする標準パターンに対する単
語を認識結果として出力する。
【0005】このように構成される音声認識装置におい
ては、装置の動作モードが登録モードである場合、マイ
ク1に入力された音声が、音響分析部2のフィルタバン
クにおいて全波整流されて平滑化され、音声の特徴パラ
メータとしてのパワーPi(n)が検出される。そし
て、検出されたパワー(特徴パラメータ)Pi(n)
は、標準パターンメモリ6に供給され、標準パターンと
して記憶される。
【0006】装置の動作モードが認識モードである場
合、マイク1に入力された音声が音響分析部2のフィル
タバンクにおいて全波整流されて平滑化され、音声の特
徴パラメータとしてのパワーPi(n)が検出される。
検出されたパワー(特徴パラメータ)Pi(n)は、入
力パターンPi(n)として、DPマッチング部22に
供給され、DPマッチング部22において、この入力パ
ターンPi(n)と、標準パターンメモリ6に記憶され
た標準パターンRi(m)(m=1,2,・・・,Mで
あり、Mは標準パターンのフレーム数)とがDPマッチ
ングされる。
【0007】ここで、標準パターンメモリ6に記憶され
た標準パターンのフレーム数Mは発声速度や単語長の違
いにより、一般的に異なる。そこで、DPマッチングに
より、この発声速度や単語長の違いに対処するための、
時間軸を非線形に伸縮する時間正規化が行なわれる。以
下、このDPマッチングについて説明する。
【0008】図11は、縦軸mに標準パターンR
i(m)を並べ、横軸nに入力パターンPi(n)を並べ
た平面図である。なお、図11においては、標準パター
ンRi(m)および入力パターンPi(n)を、その周波
数方向に対応するサフィックスiを省略し、R(m)お
よびP(n)としてある。
【0009】時間正規化は、図11の標準パターンRi
(m)の時間軸mを、入力パターンPi(n)の時間軸
nに写像することに相当する。従って、この写像を行う
関数(歪関数または時間伸縮関数)F(図中、実線で示
す)により、標準パターンRi(m)の時間軸mを、入
力パターンPi(n)の時間軸nに対応させることがで
きる。この歪関数Fは未知であるが、標準パターンRi
(m)の時間軸m、または入力パターンPi(n)の時
間軸nのうちの一方の、例えば標準パターンRi(m)
の時間軸mを、他方のパターンである入力パターンPi
(n)に最も類似するように(標準パターンRi(m)
と入力パターンPi(n)との距離を最小にするよう
に)、人工的に歪ませることにより、最適な歪関数Fが
求められる。
【0010】また、歪関数Fには、一般的に次のような
制限が与えられる。 Fは、単調増加関数 Fは、連続関数 この制限下で、上述したようにして歪関数Fが求めら
れ、この歪関数Fにより、標準パターンRi(m)の時
間軸mを、入力パターンPi(n)の時間軸nに変換し
たときの標準パターンRi(m)と入力パターンP
i(n)との距離(時間正規化した距離)が、DPマッ
チング部22において求められる。
【0011】以上のようにして、DPマッチング部22
では、標準パターンメモリ6に記憶されたすべての標準
パターンに対して、入力パターンとの時間正規化した距
離が求められ、認識部21に供給される。
【0012】認識部21において、DPマッチング部2
2から出力される、すべての時間正規化した距離より、
入力パターンとの時間正規化した距離を最小にする標準
パターンが検出され、その標準パターンに対する単語
が、認識結果として出力される。
【0013】
【発明が解決しようとする課題】このように、従来の装
置では、標準パターンメモリ6に記憶されたすべての標
準パターンに対して、歪関数が求められるとともに、時
間正規化した距離が求められるので、即ちDPマッチン
グが行われるので、例えばマルチテンプレート化するた
めに標準パターンの数を多くすると、演算量が膨大に増
加する課題があった。
【0014】また、DPマッチングは、音声の定常部を
重視した方法であるため、例えば「HAI」および「S
AN」などのように部分的に類似したパターン(単語)
間においては、認識率が劣化する課題があった。
【0015】本発明は、このような状況に鑑みてなされ
たものであり、装置の演算量を減らし、装置を簡単に構
成することができるようにするとともに、音声の認識率
を向上させるものである。
【0016】
【課題を解決するための手段】請求項1に記載の音声認
識装置は、音声を入力する入力手段としてのマイク1
と、所定の単語の標準パターンを記憶する標準パターン
記憶手段としての標準パターンメモリ6と、音声の特徴
パラメータを検出する特徴パラメータ検出手段としての
音響分析部2と、特徴パラメータ系列の軌跡をサンプリ
ングし、新たな特徴パラメータ系列を算出するパラメー
タ算出手段としてのNAT処理部3と、新たな特徴パラ
メータ系列と標準パターンとをマッチングするパターン
マッチング手段としての単純対応マッチング部5または
DPマッチング部11と、マッチング結果に対応して、
音声から標準パターンメモリ6に記憶された標準パター
ンに対する所定の単語を抽出する抽出手段としてのワー
ドスポッティング判定部7とを備えることを特徴とす
る。
【0017】請求項2に記載の音声認識装置は、単純対
応マッチング部5は標準パターンメモリ6に記憶された
標準パターンを、新たな特徴パラメータ系列の始点から
順次対応させ、標準パターンと新たな特徴パラメータ系
列との距離を算出することを特徴とする。
【0018】請求項3に記載の音声認識装置は、DPマ
ッチング部11は、DPマッチングにより標準パターン
と新たな特徴パラメータ系列との距離を算出することを
特徴とする。
【0019】請求項4に記載の音声認識装置は、ワード
スポッテング判定部7は、単純対応マッチング部5また
はDPマッチング部11のマッチング結果に対応して、
複数単語からなる連続音声から標準パターンメモリ6に
記憶された標準パターンに対する複数の単語を抽出する
ことを特徴とする。
【0020】
【作用】請求項1に記載の音声認識装置においては、音
声の特徴パラメータを検出して、NAT処理部3によ
り、その特徴パラメータ系列の軌跡をサンプリングし、
新たな特徴パラメータ系列を算出する。そして、その新
たな特徴パラメータ系列と標準パターンメモリ6に記憶
された標準パターンとをマッチングし、そのマッチング
結果に対応して、音声から標準パターンメモリ6に記憶
された標準パターンに対する所定の単語を抽出する。従
って、新たな特徴パラメータのデータ量を少なくするこ
とができるので、装置の演算量を減らし、装置を簡単に
構成することができるだけでなく、音声の認識率を向上
させることができる。
【0021】請求項2に記載の音声認識装置において
は、単純対応マッチング部5は標準パターンメモリ6に
記憶された標準パターンを、新たな特徴パラメータ系列
の始点から順次対応させ、標準パターンと新たな特徴パ
ラメータ系列との距離を算出する。従って、装置の演算
量を減らし、装置を簡単に構成することができる
【0022】請求項3に記載の音声認識装置において
は、DPマッチング部11は、DPマッチングにより標
準パターンと新たな特徴パラメータ系列との距離を算出
する。従って、音声の認識率を向上させることができ
る。
【0023】請求項4に記載の音声認識装置において
は、ワードスポッテング判定部7は、単純対応マッチン
グ部5またはDPマッチング部11のマッチング結果に
対応して、複数単語からなる連続音声から標準パターン
メモリ6に記憶された標準パターンに対する複数の単語
を抽出する。従って、複数単語からなる連続音声に対し
て、高精度なワードスポッティング(音声に含まれる単
語の抽出)を行うことができる。
【0024】
【実施例】図1は、本発明の音声認識装置の一実施例の
構成を示すブロック図である。図10における場合と対
応する部分には同一の符号を付してある。NAT(No
rmalization Along Traject
ory)処理部3は、図2に示すように、軌跡長算出器
3a、補間間隔算出器3b、および補間点抽出器3cよ
り構成され、NAT処理を行う。NAT処理部3の軌跡
長算出器3aは、音響分析部2より供給された特徴パラ
メータPi(n)が、そのパラメータ空間内に描く直線
近似による軌跡長SLを算出する。即ち、軌跡長算出器
3aは、例えば2つの(2次元の)特徴パラメータP1
(n)およびP2(n)のみを考えた場合、この2つの
パラメータが、図3または図4に示すような2次元のパ
ラメータ空間(2次元平面)に描く軌跡長を算出する
(特徴パラメータP1(n)およびP2(n)の軌跡を、
図中・印で示す)。
【0025】以下、特徴パラメータPi(n)の周波数
方向に対応するサフィックスiを省略する。
【0026】補間間隔算出器3bは、装置のモードが登
録モードである場合、パラメータ空間内に描かれた特徴
パラメータP(n)の軌跡をサンプリングするための間
隔(サンプリング間隔)T'を、あらかじめ設定された
サンプリング点数K、および軌跡長算出器3aにより算
出された軌跡長SLから、次式にしたがって算出し、補
間点抽出器3cに供給する。 T'=SL/(K−1) (1) また、補間間隔算出器3bは、装置のモードが認識モー
ドである場合、あらかじめ設定された、パラメータ空間
内に描かれた特徴パラメータP(n)の軌跡をサンプリ
ングするための間隔(サンプリング間隔)Tを補間点抽
出器3cに供給する。
【0027】補間点抽出器3cは、装置のモードが登録
モードである場合、音響分析部2より供給された特徴パ
ラメータP(n)がパラメータ空間内に描く軌跡を直線
近似した軌跡に沿って、図4に○印で示すように、補間
間隔算出器3bにより算出されたサンプリング間隔T'
で、特徴パラメータP(n)の軌跡をサンプリングし、
標準パターンとしての新たな特徴パラメータ系列R
(k)(k=1,2,・・・,K:K=SL/T'+
1)を標準パターンメモリ6(図1)に供給する。ま
た、補間点抽出器3cは、装置のモードが認識モードで
ある場合、音響分析部2より供給された特徴パラメータ
P(n)がパラメータ空間内に描く軌跡を直線近似した
軌跡に沿って、図3に○印で示すように、補間間隔算出
器3bより供給されたサンプリング間隔Tで、特徴パラ
メータP(n)の軌跡をサンプリングし、入力パターン
としての新たな特徴パラメータ系列X(j)(j=1,
2,・・・,J:J=SL/T+1)を入力パターンメ
モリ4(図1)に供給する。
【0028】入力パターンメモリ4は、NAT処理部3
より供給される、入力パターンとしての新たな特徴パラ
メータX(j)を一時記憶する。
【0029】単純対応マッチング部5は、入力パターン
メモリ4に記憶された入力パターンX(j)と、標準パ
ターンメモリ6に記憶されたすべての標準パターンRw
(k)(w=1,2,・・・,W:Wは、標準パターン
メモリ6に記憶された標準パターンの数)とを単純対応
マッチングする。即ち、単純対応マッチング部5は、ま
ず最初に標準パターンRw(k)を、入力パターンX
(j)の始点(X(1))から、順番に対応させ(標準
パターンRw(1)と入力パターンX(1)、標準パタ
ーンRw(2)と入力パターンX(2)、・・・、標準
パターンRw(K)と入力パターンX(K)をそれぞれ
対応させ)(図5(a))、対応させた点の間の、例え
ばユークリッド距離の総和dw(X(1),Rw(k))
を計算する(図5(b))。
【0030】次に、単純対応マッチング部5は、標準パ
ターンRw(k)を、入力パターンX(j)の始点の次
の点(X(2))から、順番に対応させ(標準パターン
w(1)と入力パターンX(2)、標準パターンR
w(2)と入力パターンX(3)、・・・、標準パター
ンRw(K)と入力パターンX(K+1)をそれぞれ対
応させ)(図5(a))、対応させた点の間のユークリ
ッド距離(ユークリッド距離の総和)dw(X(2),
w(k))を計算する(図5(b))。以下同様にし
て、単純対応マッチング部5は、標準パターンR
w(k)を入力パターンX(j)に対応させる位置
(点)を順次ずらしながら(図5(a))、距離d
w(X(1),Rw(k)),dw(X(2),R
w(k)),・・・,dw(X(J−K),Rw(k))
を計算する(図5(b))。
【0031】さらに、単純対応マッチング部5は、距離
w(X(1),Rw(k)),dw(X(2),R
w(k)),・・・,dw(X(J−K),Rw(k))
の中から、最小の距離dw(X(JMIN(w)),R
w(k))、およびそれが得られた位置(時間に相当す
る)JMIN(w)を検出し、ワードスポッティング判定
部7に供給する。従って、単純対応マッチング部5は、
以上の処理を、標準パターンメモリ6に記憶されている
W個のすべての標準パターンR1(k)乃至RW(k)に
対して行い、すべての標準パターンにおける最小の距離
1(X(JMIN(1)),R1(k))乃至dW(X(J
MIN(W)),RW(k))、およびそれが得られた位置
MIN(1)乃至JMIN(W)を検出し(図5(b))、
ワードスポッティング判定部7に供給する。
【0032】ワードスポッティング判定部7は、単純対
応マッチング部5より供給されたすべての標準パターン
における最小の距離d1(X(JMIN(1)),R
1(k))乃至dW(X(JMIN(W)),RW(k))、
およびそれが得られた位置JMIN(1)乃至JMIN(W)
から、入力パターンX(j)に含まれるすべての標準パ
ターンを抽出(認識)し、その標準パターンに対する単
語を出力する。
【0033】次に、その動作について説明する。装置の
動作モードが登録モードである場合、マイク1に入力さ
れた音声が、音響分析部2のフィルタバンクにおいて全
波整流されて平滑化され、音声の特徴パラメータとして
のパワーP(n)( パワーPi(n)の周波数方向に対
応するサフィックスiを省略してある )が検出され
る。
【0034】NAT処理部3の軌跡長算出器3a(図
2)において、検出されたパワー(特徴パラメータ)P
(n)がパラメータ空間内に描く直線近似による軌跡長
SLが算出され、補間間隔算出器3bにおいて、パラメ
ータ空間内に描かれた特徴パラメータP(n)の軌跡を
サンプリングするための間隔(サンプリング間隔)T'
が、式(1)にしたがって算出され、補間点抽出器3c
に供給される。補間点抽出器3cにおいて、音響分析部
2より供給された特徴パラメータP(n)がパラメータ
空間内に描く軌跡を直線近似した軌跡に沿って、図4に
○印で示すように、補間間隔算出器3bにより算出され
たサンプリング間隔T'で、特徴パラメータP(n)の
軌跡がサンプリングされ、標準パターンとしての新たな
特徴パラメータ系列R(k)(k=1,2,・・・ ,
K:K=SL/T'+1)が算出される。
【0035】補間点抽出器3cにより算出された新たな
特徴パラメータR(k)は、標準パターンとして標準パ
ターンメモリ6に記憶される。
【0036】装置の動作モードが認識モードである場
合、マイク1に入力された音声が、音響分析部2のフィ
ルタバンクにおいて全波整流されて平滑化され、音声の
特徴パラメータとしてのパワーP(n)が検出される。
【0037】NAT処理部3の補間点抽出器3c(図
2)において、音響分析部2で検出された特徴パラメー
タ(パワー)P(n)がパラメータ空間内に描く軌跡を
直線近似した軌跡に沿って、図3に○印で示すように、
補間間隔算出器3bより供給されるサンプリング間隔T
で、特徴パラメータP(n)の軌跡がサンプリングさ
れ、入力パターンとしての新たな特徴パラメータ系列X
(j)(j=1,2,・・・,J:J=SL/T+1)
が算出される。
【0038】入力パターンメモリ4において、NAT処
理部3(補間点抽出器3c)より供給される、入力パタ
ーンとしての新たな特徴パラメータX(j)が一時記憶
される。
【0039】単純対応マッチング部5において、入力パ
ターンメモリ4に記憶された入力パターンX(j)と、
標準パターンメモリ6に記憶されたすべての標準パター
ンRw(k)(w=1,2,・・・,W:Wは、標準パ
ターンメモリ6に記憶された標準パターンの数)とが単
純対応マッチングされる。即ち、単純対応マッチング部
5において、標準パターンRw(k)を入力パターンX
(j)に対応させる位置(点)を順次ずらしながら(図
5(a))、距離dw(X(1),Rw(k)),d
w(X(2),Rw(k)),・・・,dw(X(J−
K),Rw(k))が計算される(図5(b))。そし
て、距離dw(X(1),Rw(k)),dw(X
(2),Rw(k)),・・・,dw(X(J−K),R
w(k))の中から、最小の距離dw(X(J
MIN(w)),Rw(k))、およびそれが得られた位置
(時間に相当する)JMIN(w)が検出され、ワードス
ポッティング判定部7に供給される。
【0040】なお、単純対応マッチング部5において、
以上の処理が、標準パターンメモリ6に記憶されている
W個のすべての標準パターンR1(k)乃至RW(k)に
対して行われ、すべての標準パターンにおける最小の距
離d1(X(JMIN(1)),R1(k))乃至dW(X
(JMIN(W)),RW(k))、およびそれが得られた
位置JMIN(1)乃至JMIN(W)が検出され(図5
(b))、ワードスポッティング判定部7に供給され
る。
【0041】ワードスポッティング判定部7において、
単純対応マッチング部5より供給されたすべての標準パ
ターンにおける最小の距離d1(X(JMIN(1)) ,
1(k))乃至 dW(X(JMIN(W)) ,R
W(k))、およびそれが得られた位置JMIN(1)乃至
MIN(W)から、入力パターンX(j)に含まれるす
べての標準パターンが抽出(認識)され、その標準パタ
ーンに対する単語が出力される。
【0042】次に、図6は、本発明の音声認識装置の第
2実施例の構成を示すブロック図である。図1または図
10と対応する部分には、同一の符号を付してある。こ
の実施例は、単純対応マッチング部5をDPマッチング
部11に変更した点を除き、図1の実施例と同様に構成
されている。
【0043】DPマッチング部11は、始点フリーのD
Pマッチングを行う。即ち、DPマッチング部11は、
標準パターンRw(k)の時間軸k、または入力パター
ンX(j)の時間軸jのうちの一方の、例えば標準パタ
ーンRw(k)の時間軸kを、他方のパターンである入
力パターンX(j)に最も類似するように(標準パター
ンRw(k)と入力パターンX(j)との距離を最小に
するように)歪ませる歪関数Fを、次のようにして求め
る。
【0044】ここで、歪関数Fは、前述したように、図
11の実線に相当するので、歪関数Fを求めるというこ
とは、この実線の軌跡(パス)を求めることに他ならな
い。以下この歪関数FをDPパスと呼ぶ。
【0045】図7に示す縦軸kに標準パターンR
w(k)を並べ、横軸jに入力パターンX(j) を並べ
た平面図において、この平面上の格子点(j,k)(図
中、・印で示す)における入力パターンX(j)と標準
パターンRw(k)との、例えばユークリッド距離をd
(j,k)とし、格子点(j,k)含む任意のDPパス
に沿って求めた、この格子点(j,k)までのユークリ
ッド距離の総和 (累積距離)をg(j,k)とする。
そして、DPマッチング部11は、例えば以下の漸化式
(制限)にしたがって、DPパスを求めるとともに標準
パターンの終点(k=K)までの累積距離g(j',
K)(j'は、1乃至Jの範囲の任意の値)を求める。
k=1のとき、 g(j,1)=2d(j,1) (2) 但し、1≦j≦J k=2のとき、 g(j,2)=g(j−1,1)+2d(j,2) (3) 但し、2≦j≦J k=2jのとき、 g(j,k)=g(j−1,k−2)+2d(j,k−1) +d(j,k) (4) k=2j−2、またはk=2j−1のとき、
【数1】 k≦2j−3のとき、
【数2】 なお、min[]は、[]の中の最小値をとる。
【0046】式(漸化式)(6)は、DPパスを図8に
示すように制限する。なお、図8において、DPパス上
に付してある数字1または2は重み係数である。また、
DPパスの始点が、j=1またはj=2から始まる場合
に、式(3)乃至(6)により与えられるDPパスの範
囲例を図7に示す。
【0047】格子点(j,k)までのDPパスの長さ
(パス長)C(j,k)は、上述した重み係数の累積和
と定義され、累積距離g(j',K)をパス長C(j',
K)で正規化した正規化距離Gw(j')(=g(j',
K)/C(j',K))(w=1,2,・・・,W:W
は、標準パターンメモリ6に記憶された標準パターンの
数)は、始点(j'',1)、終点(j',K)のDPパ
スを取る入力パターン(X(1),X(2),・・・,
X(J))と標準パターン(Rw(1),Rw(2),・
・・,Rw(K))との距離に対応する。DPマッチン
グ部11は、この正規化距離Gw(j')の中から、最小
の正規化距離Gw(JMIN(w))を検出し(図9)、そ
の正規化距離Gw(JMIN(w))を得ることができたD
Pパスの始点(J'MIN(w),1)および終点(J'MIN
(w),1)とともに、ワードスポッティング判定部7
に供給する。
【0048】なお、DPマッチング部11は、標準パタ
ーンメモリ6に記憶されているW個のすべての標準パタ
ーンR1(k)乃至RW(k)に対して以上の処理を行
い、すべての標準パターンにおける最小の距離G1(J
MIN(1))乃至GW(JMIN(W))、およびそれが得
られた位置JMIN(1)乃至JMIN(W)を検出し(図5
(b))、ワードスポッティング判定部7に供給する。
【0049】次に、その動作について説明する。装置の
動作モードが登録モードである場合、マイク1に入力さ
れた音声が、音響分析部2のフィルタバンクにおいて全
波整流されて平滑化され、音声の特徴パラメータとして
のパワーP(n)(パワーPi(n) の周波数方向に対
応するサフィックスiを省略してある)が検出される。
【0050】NAT処理部3の軌跡長算出器3a(図
2)において、検出されたパワー(特徴パラメータ)P
(n)のパラメータ空間内に描く直線近似による軌跡長
SLが算出され、補間間隔算出器3bにおいて、パラメ
ータ空間内に描かれた特徴パラメータP(n)の軌跡を
サンプリングするための間隔(サンプリング間隔)T'
が、式(1)にしたがって算出され、補間点抽出器3c
に供給される。補間点抽出器3cにおいて、音響分析部
2より供給された特徴パラメータP(n)がパラメータ
空間内に描く軌跡を直線近似した軌跡に沿って、図4に
○印で示すように、補間間隔算出器3bにより算出され
たサンプリング間隔T'で、特徴パラメータP(n)の
軌跡がサンプリングされ、標準パターンとしての新たな
特徴パラメータ系列R(k)(k=1,2,・・・,
K:K=SL/T'+1) が算出される。
【0051】補間点抽出器3cにより算出された新たな
特徴パラメータR(k)は、標準パターンとして標準パ
ターンメモリ6に記憶される。
【0052】装置の動作モードが認識モードである場
合、マイク1に入力された音声が、音響分析部2のフィ
ルタバンクにおいて全波整流されて平滑化され、音声の
特徴パラメータとしてのパワーP(n)が検出される。
【0053】NAT処理部3の補間点抽出器3c(図
2)において、音響分析部2で検出された特徴パラメー
タ(パワー)P(n)がパラメータ空間内に描く軌跡を
直線近似した軌跡に沿って、図3に○印で示すように、
補間間隔算出器3bより供給されるサンプリング間隔T
で、特徴パラメータP(n)の軌跡がサンプリングさ
れ、入力パターンとしての新たな特徴パラメータ系列X
(j)(j=1,2,・・・,J:J=SL/T+1)
が算出される。
【0054】入力パターンメモリ4において、NAT処
理部3(補間点抽出器3c)より供給される、入力パタ
ーンとしての新たな特徴パラメータX(j)が一時記憶
される。
【0055】DPマッチング部11において、式(2)
乃至(6)の漸化式(制限)にしたがって、累積距離g
(j',K)(j'は、1乃至Jの範囲の任意の値)が求
められた後、この累積距離g(j',K)をパス長C
(j',K)で正規化した正規化距離Gw(j')が計算
される。さらに、DPマッチング部11において、この
正規化距離Gw(j')の中から、最小の正規化距離Gw
(JMIN(w))が検出され(図9)、その正規化距離
w(JMIN(w))を得ることができたDPパスの始点
(J'MIN(w),1)および終点(J'MIN(w),1)
とともに、ワードスポッティング判定部7に供給され
る。
【0056】なお、DPマッチング部11において、標
準パターンメモリ6に記憶されているW個のすべての標
準パターンR1(k)乃至RW(k)に対して以上の処理
が行われ、すべての標準パターンにおける最小の距離G
1(JMIN(1))乃至GW(JMIN(W))、およびそれ
が得られた位置JMIN(1)乃至JMIN(W)が検出され
(図5(b))、ワードスポッティング判定部7に供給
される。
【0057】ワードスポッティング判定部7において、
DPマッチング部11より供給されたすべての標準パタ
ーンにおける最小の距離G1(JMIN(1))乃至G
W(JMIN(W))、およびそれが得られた位置J
MIN(1)乃至JMIN(W)から、入力パターンX(j)
に含まれるすべての標準パターンが抽出(認識)され、
その標準パターンに対する単語が出力される。
【0058】以上説明したように、音声の特徴パラメー
タ系列の軌跡をサンプリングし、音声の発声速度の影響
を受けない新たな特徴パラメータ系列を、標準パターン
とマッチングし、ワードスポッティングするようにした
ので、音声の認識率を向上させることができる。
【0059】なお、NAT処理部3より出力される新た
な特徴パラメータのデータ量(図3または図4の○印)
は、元の特徴パラメータのデータ量(図3または図4の
・印)に比べ非常に少ない。従って、図6の第2実施例
のDPマッチング部11により行われるDPマッチング
の計算量は、元の特徴パラメータをそのままDPマッチ
ングする従来の装置における計算量に比べ、はるかに少
なくなる。
【0060】
【発明の効果】請求項1に記載の音声認識装置によれ
ば、音声の特徴パラメータを検出して、パラメータ算出
手段により、その特徴パラメータ系列の軌跡をサンプリ
ングし、新たな特徴パラメータ系列を算出する。そし
て、その新たな特徴パラメータ系列と標準パターン記憶
手段に記憶された標準パターンとをマッチングし、その
マッチング結果に対応して、音声から標準パターン記憶
手段に記憶された標準パターンに対する所定の単語を抽
出する。従って、新たな特徴パラメータのデータ量を少
なくすることができるので、装置の演算量を減らし、装
置を簡単に構成することができるだけでなく、音声の認
識率を向上させることができる。
【0061】請求項2に記載の音声認識装置によれば、
パターンマッチング手段は標準パターン記憶手段に記憶
された標準パターンを、新たな特徴パラメータ系列の始
点から順次対応させ、標準パターンと新たな特徴パラメ
ータ系列との距離を算出する。従って、装置の演算量を
減らし、装置を簡単に構成することができる
【0062】請求項3に記載の音声認識装置によれば、
パターンマッチング手段は、DPマッチングにより標準
パターンと新たな特徴パラメータ系列との距離を算出す
る。従って、音声の認識率を向上させることができる。
【0063】請求項4に記載の音声認識装置によれば、
ワードスポッテング判定部7は、パターンマッチング手
段のマッチング結果に対応して、複数単語からなる連続
音声から標準パターン記憶手段に記憶された標準パター
ンに対する複数の単語を抽出する。従って、複数単語か
らなる連続音声に対して、高精度なワードスポッティン
グを行うことができる。
【図面の簡単な説明】
【図1】本発明の音声認識装置の一実施例の構成を示す
ブロック図である。
【図2】図1の実施例のNAT処理部3の一構成例を示
すブロック図である。
【図3】音声の特徴パラメータの軌跡を示す平面図であ
る。
【図4】音声の特徴パラメータの軌跡を示す平面図であ
る。
【図5】図1の実施例の単純対応マッチング部5におけ
る単純対応マッチングを説明するための図である。
【図6】本発明の音声認識装置の第2実施例の構成を示
すブロック図である。
【図7】DPマッチングを説明するための図である。
【図8】DPマッチングのDPパスの制限(傾斜制限)
を示す図である。
【図9】図6の実施例のDPマッチング部11における
DPマッチングを説明するための図である。
【図10】従来の音声認識装置の一例の構成を示すブロ
ック図である。
【図11】図10のDPマッチング部22におけるDP
マッチングを説明するための図である。
【符号の説明】
1 マイク 2 音響分析部 3 NAT処理部 3a 軌跡長算出器 3b 補間間隔算出器 3c 補間点抽出器 4 入力パターンメモリ 5 単純対応マッチング部 6 標準パターンメモリ 7 ワードスポッティング判定部 11 DPマッチング部 21 認識部 22 DPマッチング部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 音声を入力する入力手段と、 所定の単語の標準パターンを記憶する標準パターン記憶
    手段と、 前記入力手段に入力された音声の特徴パラメータを検出
    する特徴パラメータ検出手段と、 前記特徴パラメータ検出手段より出力される特徴パラメ
    ータ系列の軌跡をサンプリングし、新たな特徴パラメー
    タ系列を算出するパラメータ算出手段と、 前記パラメータ算出手段より出力される新たな特徴パラ
    メータ系列と前記標準パターン記憶手段に記憶された標
    準パターンとをマッチングするパターンマッチング手段
    と、 前記パターンマッチング手段のマッチング結果に対応し
    て、前記音声から前記標準パターン記憶手段に記憶され
    た標準パターンに対する所定の単語を抽出する抽出手段
    とを備えることを特徴とする音声認識装置。
  2. 【請求項2】 前記パターンマッチング手段は、前記標
    準パターン記憶手段に記憶された標準パターンを、前記
    パラメータ算出手段により算出された新たな特徴パラメ
    ータ系列の始点から順次対応させ、前記標準パターンと
    前記新たな特徴パラメータ系列との距離を算出すること
    を特徴とする請求項1に記載の音声認識装置。
  3. 【請求項3】 前記パターンマッチング手段は、DPマ
    ッチングにより前記標準パターンと前記新たな特徴パラ
    メータ系列との距離を算出することを特徴とする請求項
    1に記載の音声認識装置。
  4. 【請求項4】 前記抽出手段は、前記パターンマッチン
    グ手段のマッチング結果に対応して、複数単語からなる
    連続音声から前記標準パターン記憶手段に記憶された標
    準パターンに対する前記複数の単語を抽出することを特
    徴とする請求項1、2または3に記載の音声認識装置。
JP4753692A 1992-02-03 1992-02-03 音声認識装置 Pending JPH05216498A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4753692A JPH05216498A (ja) 1992-02-03 1992-02-03 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4753692A JPH05216498A (ja) 1992-02-03 1992-02-03 音声認識装置

Publications (1)

Publication Number Publication Date
JPH05216498A true JPH05216498A (ja) 1993-08-27

Family

ID=12777858

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4753692A Pending JPH05216498A (ja) 1992-02-03 1992-02-03 音声認識装置

Country Status (1)

Country Link
JP (1) JPH05216498A (ja)

Similar Documents

Publication Publication Date Title
CA1227286A (en) Speech recognition method and apparatus thereof
JPH05249990A (ja) パターンマッチング方法およびパターン認識装置
US7050973B2 (en) Speaker recognition using dynamic time warp template spotting
JP2870224B2 (ja) 音声認識方法
JPH05216498A (ja) 音声認識装置
JP2019152737A (ja) 話者推定方法および話者推定装置
JPH05224693A (ja) 音声認識装置
EP0255529A1 (en) Frame comparison method for word recognition in high noise environments
JP2004240154A (ja) 情報認識装置
JPH05313688A (ja) 音声認識装置
JP2707577B2 (ja) ホルマント抽出装置
JPH05313695A (ja) 音声分析装置
JP2543584B2 (ja) 音声標準パタン登録方式
JPH06301395A (ja) 音声認識装置
JPH0683383A (ja) 音声認識装置
JPH0211919B2 (ja)
JPH067346B2 (ja) 音声認識装置
JPH0247758B2 (ja)
JPH0451037B2 (ja)
JPH0731504B2 (ja) ピツチ抽出装置
JPS60166993A (ja) 単語音声認識装置
JPH0632010B2 (ja) 音声認識装置
JPH0632009B2 (ja) 音声認識装置
JPH0654439B2 (ja) 音声認識装置
CN110610695A (zh) 一种基于孤立词的语音识别方法及应用有该方法的吸油烟机

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20011016