JPH0654439B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH0654439B2
JPH0654439B2 JP60277714A JP27771485A JPH0654439B2 JP H0654439 B2 JPH0654439 B2 JP H0654439B2 JP 60277714 A JP60277714 A JP 60277714A JP 27771485 A JP27771485 A JP 27771485A JP H0654439 B2 JPH0654439 B2 JP H0654439B2
Authority
JP
Japan
Prior art keywords
parameter
distance
recognition
acoustic
circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP60277714A
Other languages
English (en)
Other versions
JPS62136700A (ja
Inventor
曜一郎 佐古
正照 赤羽
誠 赤羽
篤信 平岩
震一 田村
雅男 渡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP60277714A priority Critical patent/JPH0654439B2/ja
Publication of JPS62136700A publication Critical patent/JPS62136700A/ja
Publication of JPH0654439B2 publication Critical patent/JPH0654439B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 以下の順序でこの発明を説明する。
A 産業上の利用分野 B 発明の概要 C 従来の技術 D 発明が解決しようとする問題点 E 問題点を解決するための手段 F 作用 G 実施例 G音響分析回路の説明(第1図) G時間正規化処理の説明(第1図,第2図) Gバイアス値付与の具体例の説明 (第1図,第3図) Gパターンマッチング処理の説明(第1図) H 発明の効果 A 産業上の利用分野 この発明は、前もって作成し記憶してある認識対象語の
標準パターンと、認識したい語の入力パターンとのパタ
ーンマッチングを行うことにより音声認識を行なう装置
に関する。
B 発明の概要 この発明は認識対象語の音響パラメータ系列が描く軌跡
を推定して得た入力パターンと、その標準パターンとの
パターンマッチングを行うことにより音声認識を行なう
装置において、軌跡を推定する際に用いる音響パラメー
タ系列の時系列方向に隣接するパラメータ間の距離に対
してバイアスを与えることにより、準定常部でのゆらぎ
の影響を除去することが可能、あるいは準定常部の特徴
をよりよく抽出できるようにしたものである。
C 従来の技術 音声は時間軸に沿って変化する現象で、スペクトラム・
パターンが刻々と変化するように音声を発生することに
よって固有の単語や言葉が生まれる。この人間が発声す
る単語や言葉を自動認識する技術が音声認識であるが、
人間の聴覚機能に匹敵するような音声認識を実現するこ
とは現在のところ至難のことである。このため、現在実
用化されている音声認識の殆んどは、一定の使用条件の
下で、認識対象単語の標準パターンと入力パターンとの
パターンマッチングを行なうことによりなす方法であ
る。
第4図はこの音声認識装置の概要を説明するための図
で、マイクロホン(1)よりの音声入力が音響分析回路(2)
に供給される。この音響分析回路(2)では入力音声パタ
ーンの特徴を表わす音響パラメータが抽出される。この
音響パラメータを抽出する音響分析の方法は種々考えら
れるが、例えばその一例としてバンドパスフィルタと整
流回路を1チャンネルとし、このようなチャンネルを通
過帯域を変えて複数個並べ、このバンドパスフィルタ群
の出力としてスペクトラム・パターンの時間変化を抽出
する方法が知られている。この場合、音響パラメータは
その時系列Pi(n)(i=1,2・・・I;Iは例えばバ
ンドパスフィルタのチャンネル数、n=1,2・・・
N;Nは音声区間判定により判定された区間において認
識に利用されるフレーム数)で表わすことができる。
この音響分析回路(2)よりの音響パラメータ時系列Pi(n)
は、例えばスイッチからなるモード切換回路(3)に供給
される。この回路(3)のスイッチが端子A側に切り換え
られるときは登録モード時で、音響パラメータ時系列Pi
(n)が認識パラメータとして標準パターンメモリ(4)にス
トアされる。つまり、音声認識に先だって話者の音声パ
ターンが標準パターンとしてこのメモリ(4)に記憶され
る。なお、この登録時、発生速度変動や単語長の違いに
より一般に各登録標準パターンのフレーム数は異なって
いる。
一方、このスイッチ(3)が端子B側に切り換えられると
きは認識モード時である。そして、この認識モード時
は、音響分析回路(2)からのそのときの入力音声の音響
パラメータ時系列が入力音声パターンメモリ(5)に供給
されて一時ストアされる。そしてこの入力パターンと標
準パターンメモリ(4)から読み出された複数の認識対象
単語の標準パターンのそれぞれとの違いの大きさが距離
算出回路(6)にて計算され、そのうち入力パターンと標
準パターンとの差が最小の認識対象単語が最小値判定回
路(7)にて検出され、これにて入力された単語が認識さ
れる。
このように、登録された標準パターンと入力パターンの
パターンマッチング処理により入力音声の認識を行なう
ものであるが、この場合に同じ単語を同じように発声し
てもそのスペクトラムパターンは時間軸方向にずれたり
伸縮したりすることを考慮しなければならない。すなわ
ち、例えば「ハイ」という単語を認識する場合、標準パ
ターンが「ハイ」で登録されているとき、入力音声が
「ハーイ」と時間軸方向に伸びてしまった場合、これは
距離が大きく違い、全く違った単語とされてしまい、正
しい認識ができない。このため、音声認識のパターンマ
ッチングでは、この時間軸方向のずれ、伸縮を補正する
時間正規化の処理を行なう必要があり、また、この時間
正規化は認識精度を向上させるための重要な処理であ
る。
この時間正規化の一方法としてDP(Dynamic Programm
ing)マッチングと呼ばれる手法がある(例えば特開昭5
0-96104号公報参照)。
このDPマッチングは時間軸のずれを考慮した多数の標
準パターンを用意しておくのではなく、歪関数によって
多数の時間を正規化した標準パターンを生成し、これと
入力パターンとの距離を求め、その最小値のものを検知
することにより、音声認識をするものである。
ところで、このDPマッチングの手法を用いる場合、登
録される標準パターンのフレーム数は不定であり、しか
も全登録標準パターンと入力パターンとのDPマッチン
グ処理をする必要があり、語彙が多くなると演算量が飛
躍的に増加する欠点がある。
また、DPマッチングは、定常部(スペクトラムパター
ンの時間変化のない部分)を重視したマッチング方式で
あるので部分的類似パターン間で誤認識を生じる可能性
があった。
このような欠点を生じない時間正規化の手法を本出願人
は先に提案した(例えば特願昭59-106177号)。
すなわち、音響パラメータ時系列Pi(n)は、そのパラメ
ータ空間を考えた場合、点列を描く。例えば認識対象単
語が「HAI」であるとき音響分析用バンドパスフィル
タの数が2個で、 Pi(n)=(P) であれば、入力音声の音響パラメータ時系列はその2次
元パラメータ空間には第5図に示すような点列を描く。
この図から明らかなように音声の非定常部の点列は粗に
分布し、準定常部は密に分布する。この場合、完全に音
声が定常であればパラメータは変化せず、その場合には
点列はパラメータ空間において一点に停留することにな
るが、人間は同じ音を発生しても、音声のゆらぎのため
完全な定常にはならず、図のように準定常部として、ゆ
らぎの影響ができる。
そして、以上のことから、音声の発声速度変動による時
間軸方向のずれは殆んどが準定常部の点列密度の違いに
起因し、非定常部の時間長の影響は少ないと考えられ
る。そこで、この入力パラメータ時系列Pi(n)の点列か
ら第6図に示すように点列全体を近似的に通過するよう
な連続曲線で描いた軌跡を推定すれば、この軌跡は音声
の発声速度変動に対して殆んど不変であることがわか
る。
このことから、出願人は、次のような時間軸正規化方法
を提案した。すなわち、先ず入力パラメータの時系列Pi
(n)の始端Pi(l)から終端Pi(N)までを連続曲線で描いた
軌跡を推定する。この場合、この軌跡の推定は例えば音
響パラメータ時系列を第7図に示すように直線近似する
ことによって行なう。この推定した曲線から軌跡の長さ
Sを求める。そして第7図において〇印で示すようにこ
の軌跡に沿って所定長Tで再サンプリングする。例えば
M個の点に再サンプリングする場合、 T=S/(M−1) ・・・(1) の長さを基準として軌跡を再サンプリングする。この再
サンプリングされた点列を描くパラメータ時系列をQi
(m)(i=1,2‥‥I,m=1,2‥‥M)とすれ
ば、このパラメータ時系列Qi(m)は軌跡の基本情報を有
しており、しかも音声の発声速度変動に対して殆んど不
変なパラメータである。つまり、時間軸が正規化された
認識パラメータ時系列である。
したがって、このパラメータ時系列Qi(m)を標準パター
ンとして登録しておくとともに、入力パターンもこのパ
ラメータ時系列Qi(m)として得、このパラメータ時系列Q
i(m)により両パターン間の距離を求め、その距離が最小
であるものを検知して音声認識を行うようにすれば、時
間軸方向のずれが正規化されて除去された状態で音声認
識が常になされる。
そして、この処理方法によれば、登録時の発声速度変動
や単語長の違いに関係なく認識パラメータ時系列Qi(m)
のフレーム数は常にMであり、その上、認識パラメータ
時系列Qi(m)は時間正規化されているので、入力パター
ンと登録標準パターンとの距離の演算は最も単純なチェ
ビシェフ距離を求める演算でも良好な効果が期待でき
る。
また、以上の方法は音声の非定常部をより重視した時間
正規化の手法であり、DPマッチング処理のような部分
的類似パターン間の誤認識が少なくなる。
さらに、発声速度の変動情報は正規化パラメータ時系列
Qi(m)には含まれず、このためパラメータ空間に配位す
るパラメータ遷移構造のグローバルな特徴等の扱いが容
易となり、不特定話者認識に対しても有効な各種方法の
適用が可能となる。
なお、以下、以上のような時間正規化の処理をNAT
(Normalization Along Trajectory)処理と呼ぶ。
D 発明が解決しようとする問題点 ところで、以上のようなNAT処理を行なっても準定常
部のみらぎの影響は残留している。
逆に、この準定定部の特徴は話者によって異なるから、
この準定常部の特徴をより抽出できれば認識率が向上す
ることも考えられる。
この発明は一見矛盾する上記の2つのこと、すなわち準
定常部の影響をできるだけ除去するということと、準定
常部の特徴をより抽出できるということが、ともに実現
できるようにしたNAT処理方式の改良案を提供しよう
とするものである。
E 問題点を解決するための手段 この発明においては、入力音声信号の音響パラメータ系
列を得る音響分析手段(2)と、この音響分析手段(2)より
の音響パラメータ系列のパラメータ間の距離を算出する
パラメータ間距離算出手段(91)と、このパラメータ間
距離算出手段(91)で求められた各距離にバイアスを付
与するバイアス付与手段(92)と、バイアス付与された
各パラメータ間距離に基づいて音響分析手段(2)よりの
音響パラメータ系列がパラメータ空間で描く軌跡を推定
しこの軌跡から認識パラメータ系列を生成する正規化パ
ラメータ生成手段(93)(94)(95)と、認識対象語の
標準パターンの認識パラメータ系列が記憶されている標
準パターンメモリ(4)と、音響パラメータ系列に基づい
て形成される入力パターンの認識パラメータ系列と上記
標準パターンメモリよりの標準パターンの認識パラメー
タ系列との差を算出する距離算出手段(6)と、距離算出
手段(6)で算出された値の最小の標準パターンの語を検
知して認識出力を得る最小値判定手段(7)とを設ける。
F 作用 入力の音響パラメータ系列のパラメータ間距離より所定
のバイアス値を減算することにより準定常部の複数のパ
ラメータ間の距離間隔を零又は微少にすることができ、
準定常部をゆらぎの殆んどない定常部とみなすことがで
きる。
また、入力音響パラメータ系列のパラメータ間距離に所
定のバイアス値を加算すれば、パラメータ間距離が本来
小さい準定常部も所定値以上の距離となって非定常部す
なわち過渡部と同様に扱うことができ、この準定常部の
特徴を抽出することが可能になる。
G 実施例 第1図はこの発明による音声認識装置の一実施例で、こ
の例は音響分析に16チャンネルのバンドパスフィルタ群
を用いた場合で、第4図と対応する部分には同一符号を
付す。
音響分析回路(2)の説明 すなわち、この例の場合、音響分析回路(2)において
は、マイクロホン(1)からの音声信号がアンプ(211)及
び帯域制限用のローパスフィルタ(212)を介してA/
Dコンバータ(213)に供給され、例えば12.5kHz のサ
ンプリング周波数で12ビットのデジタル音声信号に変換
される。このデジタル音声信号は、15チャンネルのバン
ドパスフィルタバンク(22)の各チャンネルのデジタル
バンドパスフィルタ(2211),(2212),‥‥,(221
16)に供給される。このデジタルバンドパスフィルタ
(2211),(2212),‥‥,(22116)は例えばバター
ワース4次のデジタルフィルタにて構成され、 250Hzか
ら5.5KHzまでの帯域が対数軸上で等間隔で分割された各
帯域が各フィルタの通過帯域となるようにされている。
そして、各デジタルバンドパスフィルタ(2211),(22
12),‥‥,(22116)の出力信号はそれぞれ整流回路
(2211),(2222),‥‥,(22216)に供給され、こ
れら整流回路(2221),(2222),‥‥(22216)の出
力はそれぞれデジタルローパスフィルタ(2231),(22
32),‥‥,(22316)に供給される。これらデジタル
ローパスフィルタ(2231),(2232),‥‥,(22
316)は例えばカットオフ周波数52.8HzのFIRローパ
スフィルタにて構成される。
音響分析回路(2)の出力である各デジタルローパスフィ
ルタ(2231),(2232),‥‥,(22316)の出力信号
は特徴抽出回路(23)を構成するサンプラー(231)に
供給される。このサンプラー(231)ではデジタルロー
パスフィルタ(2231),(2232),‥‥,(22316)の
出力信号をフレーム周期5.12msec毎にサンプリングす
る。したがって、これよりはサンプル時系列Ai(n)(i
=1,2,‥‥16;nはフレーム番号でn=1,2,‥
‥,N)が得られる。
このサンプラー(231)からの出力、つまりサンプル時
系列Ai(n)は音源情報正規化回路(232)に供給され、こ
れにて認識しようとする音声の話者による声帯音源特性
の違いが除去される。
即ち、フレーム周期毎にサンプラー(231)から供給さ
れるサンプル時系列Ai(n)に対して なる対数変換がなされる。この(1)式において、Bはバ
イアスでノイズレベルが隠れる程度の値を設定する。
そして、声帯音源特性をyi=a・i+bなる式で近似
すると、このa及びbの係数は次式により決定される。
そして、音源の正規化されたパラメータをPi(n)とする
と、a(n)<0のときパラメータPi(n)は と表される。
又、a(n)≧0のときレベルの正規化のみ行ない、パラメ
ータPi(n)は と表される。
こうして声帯音源特性の違いが正規化されて除去された
音響パラメータ時系列Pi(n)がこの音源情報正規化回路
(232)より得られる。
この音源情報正規化回路(232)よりの音響パラメータP
i(n)は音声区間内パラメータメモリ(8)に供給される。
この音声区間内パラメータメモリ(8)では音声区間判定
回路(24)からの音声区間判定信号を受けて、パラメー
タPi(n)が、判定さた音声区間毎にストアされる。
音声区間判定回路(24)はゼロクロスカウンタ(241)
とパワー算出回路(242)と音声区間決定回路(243)と
からなり、A/Dコンバータ(213)よりのデジタル音
声信号がゼロクロスカウンタ(241)及びパワー算出回
路(242)に供給される。ゼロクロスカウンタ(241)で
は1フレーム周期5.12msec毎に、この1フレーム周期内
の64サンプルのデジタル音声信号のゼロクロス数をカウ
ントし、そのカウント値が音声区間決定回路(243)の
第1の入力端に供給される。パワー算出回路(242)で
は1フレーム周期毎にこの1フレーム周期内のデジタル
音声信号のパワー、すなわち2乗和が求められ、その出
力パワー信号が音声区間決定回路(243)の第2の入力
端に供給される。音声区間決定回路(243)には、さら
に、その第3の入力端に音源情報正規化回路(232)よ
りの音源正規化情報が供給される。そして、この音声区
間決定回路(243)においてはゼロクロス数、区間内パ
ワー及び音源正規化情報が複合的に処理され、無音、無
声音及び有声音の判定処理が行なわれ、音声区間が決定
される。
この音声区間決定回路(243)よりの判定された音声区
間を示す音声区間判定信号は音声区間判定回路(24)の
出力として音声区間内パラメータメモリ(200)に供給
される。
こうして、判定音声区間内においてメモリ(200)にス
トアされた音響パラメータ時系列Pi(n)はNAT処理回
路(9)に供給される。
時間正規化処理の説明 この場合、NAT処理回路(9)はパラメータ間距離算出
回路(91)とバイアス付与回路(92)と軌跡長算出回路
(93)と補間間隔算出回路(94)と補間点抽出回路(9
5)からなる。
パラメータメモリ(200)からのパラメータ時系列Pi(n)
(i=1,2,‥‥,16;n=1,2,‥‥,N)はパ
ラメータ間距離算出回路(91)に供給される。このパラ
メータ間距離算出回路(91)においては音響パラメータ
時系列Pi(n)がそのパラメータ空間において前述の第7
図に示すように描く直線近似による軌跡における各パラ
メータ間の距離を算出する。
この場合、I次元ベクトルa及びb間のユークリッ
ド距離D(a,b)は である。そこで、I次元の音響パラメータ時系列Pi(n)
の時系列方向に隣接するパラメータ間距離S(n)は S(n)=D(Pi(n+1),Pi(n)) (n=1,‥‥,N) ・・・(8) と表わされる。
こうして算出されたパラメータ間距離S(n)は、バイア
ス付与回路(92)に供給される。
このバイアス付与回路(92)においては各パラメータ間
距離S(n)に対し、後述するように所定のバイアス値が
減算され又は加算される。
このパラメータ間距離S(n)に対しバイアス値が付与さ
れたパラメータ間距離BS(n)は軌跡長算出回路(93)に
供給され、時系列方向における第1番目のパラメータPi
(1)から第N番目(最後)のパラメータPi(N)までの全軌
跡長SLが、このパラメータ間距離BS(n)が用いられて算
出される。
すなわち、時系列方向における第1番目のパラメータPi
(n)から第n番目のパラメータPi(n)迄の距離SL(n)は と表わされる。そして、全軌跡長SLは と表わされる。
この軌跡長算出回路(93)にて求められた軌跡長SLを示
す信号は補間間隔算出回路(94)に供給される。この補
間間隔算出回路(94)では軌跡に沿って再サンプリング
するときの再サンプリング間隔Tを算出する。
この場合、M点に再サンプリングするとすれば、再サン
プリング間隔Tは T=SL/(M−1) ・・・(11) として求められる。
この補間間隔算出回路(94)よりの再サンプリング間隔
Tを示す信号は補間点抽出回路(95)に供給される。ま
た、パラメータメモリ(200)よりの音響パラメータ時
系列Pi(n)及びバイアス付与回路(92)よりのバイアス
付与されたパラメータ間距離BS(n)が、この補間点抽出
回路(95)に供給される。この補間点抽出回路(95)は
音響パラメータ時系列Pi(n)のそのパラメータ空間にお
ける軌跡、例えばパラメータ間を直線近似した軌跡に沿
って第7図において〇印にて示すように再サンプリング
間隔Tで再サンプリングし、このサンプリングにより得
た新たな点列より認識パラメータ時系列Qi(m)を形成す
る。この場合に、補間時に使用される2パラメータ間の
距離としてはバイアスが付与された値BS(n)が使用され
る。
すなわち、この補間点抽出回路(95)においては第2図
に示すフローチャートに従った処理がなされ、認識パラ
メータ時系列Qi(m)が形成される。
先ず、ステップ〔101〕にて再サンプリング点の時系列
方向における番号を示す変数Jに値1が設定されると共
に音響パラメータ時系列Pi(n)のフレーム番号を示す変
数ICに値1が設定され、イニシャライズされる。次にス
テップ〔102〕にて変数Jがインクリメントされ、ステ
ップ〔103〕にてそのときの変数Jが(M−1)以下で
あるかどうかが判別されることにより、そのときの再サ
ンプリング点の時系列方向における番号がリサンプリン
グする必要のある最後の番号になっているかどうかを判
断する。最後の番号であればステップ〔104〕に進み、
再サンプリングは終了する。
最後の番号でなければステップ〔105〕にて第1番目の
再サンプリング点(これは例えば無音の部分である。)
から第J番目の再サンプリング点までの再サンプリング
距離DLが算出される。
次にステップ〔106〕に進み、変数ICがインクリメント
される。
次にステップ〔107〕にて再サンプル距離DLが音響パラ
メータ時系列Pi(n)の第1番目のパラメータPi(n)から第
IC番目のパラメータPi(IC)までの距離SL(IC)よりも小さ
いかどうかにより、そのときの再サンプリング点が軌跡
上においてそのときのパラメータPi(IC)よりも軌跡の始
点側に位置するかどうかが判断され、始点側に位置して
いなければステップ〔106〕に戻り変数ICをインクリメ
ントした後再びステップ〔107〕にて再サンプリング点
とパラメータPi(IC)との軌跡上における位置の比較を
し、再サンプリング点が軌跡上においてパラメータPi
(IC)よりも始点側に位置すると判断されたとき、ステッ
プ〔108〕に進み認識パラメータQi(J)が形成される。
即ち、第J番目の再サンプリング点による再サンプリン
グ距離DLからこの第J番目の再サンプリング点よりも始
点側に位置する第(IC−1)番目のパラメータPi(IC-1)
による距離SL(IC-1)を減算して第(IC−1)番目のパラ
メータPi(IC-1)から第J番目の再サンプリング点迄の距
離SSを求める。この距離はもちろんバイアス付加後の値
BS(n)が用いられて求められる。
次に、軌跡上においてこの第J番目の再サンプリング点
の両側に位置するパラメータPi(IC-1)及びパラメータPi
(IC)間の距離S(n)に対してバイアス値を付加して後の
距離BS(n)によってこの距離SSを除算し、この除算結果S
S/BS(IC-1)に軌跡上において第J番目の再サンプリン
グ点の両側に位置するパラメータPi(IC)とPi(IC-1)との
差(Pi(IC)−Pi(IC-1))を掛算して、軌跡上において第
J番目の再サンプリング点のこの再サンプリング点より
も始点側に隣接して位置する第(IC−1)番目のパラメ
ータPi(IC-1)からの補間量を算出し、この補間量と第J
番目の再サンプリング点よりも始点側に隣接して位置す
る第(IC−1)番目のパラメータPi(IC-1)とを加算し
て、軌跡に沿う新たな認識パラメータQi(J)が形成され
る。
このようにして始点及び終点(これらはそれぞれ無音で
あるときはQi(l)=0,Qi(M)=0である。)を除く(M
−2)点の再サンプリングにより認識パラメータ時系列
Qi(m)が形成される。
バイアス値付与の具体例の説明 バイアス値の与え方は種々考えられるが、第1の例とし
てはパラメータ間距離算出回路(91)で求めたパラメー
タ間距離の最小値S(n)minをバイアス値として各パラメ
ータ間距離S(n)より減算する場合があげられる。これ
は、準定常部を定常部と殆んどみなせるようにする場合
である。すなわち、バイアス付与回路(92)では、 BS(n)=S(n)−S(n)min ・・・(12) なる演算がなされる。
例えば第3図に示すような2次元のパラメータ時系列を
考え、各パラメータ間距離S(n)が図示の通りである場
合、その最小値S(n)min=3である。そこで、バイアス
付与回路(92)で(12)式の演算を行なえば、各パラメ
ータ間距離BS(n)は同図の下方に示すような値になり、
準定常部におけるパラメータ間距離BS(n)は零又は微少
なものとなる。そして、補間点抽出回路(95)ではこの
バイアス値の付与された距離が用いられて前述の第2図
のフローチャートのステップ〔108〕で補間点の抽出が
なされるので、定常部をほぼ一点をみなした軌跡の推定
がなされ、その軌跡に沿った再サンプリングがされて認
識パラメータ時系列Qi(m)が得られる。
こうして準定常部のゆらぎの影響を少なくできるNAT
処理において、より効果的に準定常部のゆらぎの影響を
排除することができる認識パラメータ時系列Qi(m)を得
ることができるものである。
次に、第2の例としてはパラメータ間距離S(n)にバイ
アス値aを加算する場合である。すなわち、バイアス付
与回路(92)では、 BS(n)=S(n)+a ・・・(13) なる演算がされる。
この例の場合には、新たなパラメータ間距離BS(n)の準
定常部のパラメータ間距離が引き伸ばされるため、補間
点抽出回路(95)から得られる認識パラメータ時系列Qi
(m)はこの準定常部の特徴をも抽出したものとなる。
このようなバイアス値加算の場合はDPマッチングで言
うところの整合窓の概念となり、a=+∞のときは、N
AT処理は線形伸縮に等しくなる。
なお、以上のバイアス値は軌跡長に応じて変えるように
してもよいし、さらに、準定常部のパラメータ間距離の
平均値からバイアス値を定めるようにしてもよい。
また、パラメータ間距離S(n)よりバイアス値を減算し
て準定常部の影響を殆んど排除できる新たなパラメータ
間距離BS(n)を得る場合及び準定常部の特徴をより抽出
する場合のバイアス値としては、前記のように距離S
(n)の最小値S(n)minや上記のようなコントロール値を
用いるのではなく、実験等により求めた固定の値を用い
るようにしてもよい。
なお、このバイアス値を距離S(n)から減算する場合、
バイアス減算後の距離BS(n)≧0の範囲で行なうように
する。もっともBS(n)<0となった場合にはその距離BS
(n)=0と強制的に定めるようにしてもよい。
なお、以上は16チャンネルからなるパラメータの値に対
しバイアスを付与する場合について説明したが、16チャ
ンネルのうちの各1チャンネル毎又は複数チャンネル毎
に、つまり周波数帯域毎にパラメータを考え、そのパラ
メータについてバイアス付与を考慮したNAT処理を行
なうことにより詳細な特徴抽出ができるものである。
パターンマッチング処理の説明 このNAT処理回路(9)よりの認識パラメータ時系列Qi
(m)はモード切換回路(3)に供給されるとともに軌跡長算
出回路(91)よりの算出軌跡長を示す信号がモード切換
回路(31)に供給される。
そして、登録時においては認識パラメータ時系列は標準
パターンメモリ(4)にストアされる。
次に、音声認識時は以下のようにして、パターンマッチ
ング処理がなされる。
すなわち、NAT処理回路(9)にて前記のようにNAT
処理されて得られた認識パラメータ時系列Qi(m)はモー
ド切換回路(3)を介して距離算出回路(6)に供給されて、
標準パターンとの距離の算出がなされる。
この場合の距離は例えば簡易的なチェビシェフ距離とし
て算出される。この距離算出回路(6)よりの各標準パタ
ーンと入力パターンとの距離の算出出力は最小値判定回
路(7)に供給され、距離算出値が最小となる標準パター
ンが判定され、この判定結果により入力音声の認識結果
が出力端(70)に得られる。
なお、以上の実施例においては音響パラメータ時系列Pi
(n)からそのパラメータ空間における軌跡の軌跡長を算
出した場合について述べたが、音響パラメータ周波数系
列からそのパラメータ空間における軌跡の軌跡長を算出
するようにしてもよい。
また、上述の実施例においては直線近似による軌跡の軌
跡長を算出するようにしたが、円弧近似、スプライン近
似などによる軌跡の軌跡長を算出するようにしてもよ
い。
H 発明の効果 以上のようにして、この発明によれば、NAT処理にお
いてパラメータ間距離を算出する場合にバイアスを与え
るようにしたので、このバイアス値が負の場合には定常
部(準定常部)を除いた過渡部のみから特徴抽出をした
認識パラメータ時系列を得ることができ、一方、バイア
ス値が正の場合には、準定常部に対する極端な時間軸正
規化がなくなり、この準定常部の特徴をも抽出できるよ
うになる。
【図面の簡単な説明】
第1図はこの発明装置の一実施例のブロック図、第2図
はその要部の動作の説明のためのフローチャートを示す
図、第3図はこの発明の要部の動作を説明するための
図、第4図は音声認識装置の基本構成を示すブロック
図、第5図〜第7図はNAT処理を説明するための図で
ある。 (2)は音響分析回路、(4)は標準パターンメモリ、(6)は
標準パターンと入力パターンとの距離算出回路、(7)は
最小値判定回路、(9)はNAT処理回路、(91)はパラ
メータ間距離算出回路、(92)はバイアス付与回路、
(95)は補間点抽出回路である。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 平岩 篤信 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 田村 震一 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 渡 雅男 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】(a) 入力音声信号の音響パラメータ系列
    を得る音響分析手段と、 (b) この音響分析手段よりの音響パラメータ系列の時
    系列方向に隣接するパラメータ間の距離を算出するパラ
    メータ間距離算出手段と、 (c) このパラメータ間距離算出手段で求められた各距
    離にバイアスを付与するバイアス付与手段と、 (d) 上記バイアス付与された各パラメータ間距離に基
    いて上記音響分析手段よりの音響パラメータ系列がパラ
    メータ空間で描く軌跡を推定しこの軌跡から認識パラメ
    ータ系列を生成する正規化パラメータ生成手段と、 (e) 認識対象語の標準パターンの認識パラメータ系列
    が記憶されている標準パターンメモリと、 (f) 入力パターンの上記認識パラメータ系列と上記標
    準パターンメモリより読み出される標準パターンの認識
    パラメータ系列との差を算出する距離算出手段と、 (g) 上記距離算出手段で算出された値の最小の標準パ
    ターンの語を検知して認識出力を得る最小値判定手段と
    からなる音声認識装置。
JP60277714A 1985-12-10 1985-12-10 音声認識装置 Expired - Fee Related JPH0654439B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60277714A JPH0654439B2 (ja) 1985-12-10 1985-12-10 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60277714A JPH0654439B2 (ja) 1985-12-10 1985-12-10 音声認識装置

Publications (2)

Publication Number Publication Date
JPS62136700A JPS62136700A (ja) 1987-06-19
JPH0654439B2 true JPH0654439B2 (ja) 1994-07-20

Family

ID=17587291

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60277714A Expired - Fee Related JPH0654439B2 (ja) 1985-12-10 1985-12-10 音声認識装置

Country Status (1)

Country Link
JP (1) JPH0654439B2 (ja)

Also Published As

Publication number Publication date
JPS62136700A (ja) 1987-06-19

Similar Documents

Publication Publication Date Title
CA1227286A (en) Speech recognition method and apparatus thereof
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
JPH0561496A (ja) 音声認識装置
JPH0654439B2 (ja) 音声認識装置
JP3916834B2 (ja) 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法
CN110634473A (zh) 一种基于mfcc的语音数字识别方法
JPH0632008B2 (ja) 音声認識装置
Seman et al. Evaluating endpoint detection algorithms for isolated word from Malay parliamentary speech
JP4576612B2 (ja) 音声認識方法および音声認識装置
JPH0632009B2 (ja) 音声認識装置
JPH0632010B2 (ja) 音声認識装置
JPH0632011B2 (ja) 音声認識装置
JP4595124B2 (ja) 音声信号と非音声信号の判別装置及び方法
JP4313740B2 (ja) 残響除去方法、プログラムおよび記録媒体
JPH1097288A (ja) 背景雑音除去装置及び音声認識装置
JP2658104B2 (ja) 音声認識装置
JPH05313695A (ja) 音声分析装置
JP5229738B2 (ja) 音声認識装置及び音声変換装置
JP3422822B2 (ja) 音声認識装置
JPH054680B2 (ja)
JP2000194385A (ja) 音声認識処理装置
JPH0634181B2 (ja) 音声認識装置
JPS61267098A (ja) 音声認識装置
JPH0632025B2 (ja) 音声認識装置
JPS61275799A (ja) 音声認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees