JPH0632010B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH0632010B2
JPH0632010B2 JP60017134A JP1713485A JPH0632010B2 JP H0632010 B2 JPH0632010 B2 JP H0632010B2 JP 60017134 A JP60017134 A JP 60017134A JP 1713485 A JP1713485 A JP 1713485A JP H0632010 B2 JPH0632010 B2 JP H0632010B2
Authority
JP
Japan
Prior art keywords
time series
recognition
parameter
trajectory
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP60017134A
Other languages
English (en)
Other versions
JPS61176997A (ja
Inventor
曜一郎 佐古
雅男 渡
誠 赤羽
篤信 平岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP60017134A priority Critical patent/JPH0632010B2/ja
Publication of JPS61176997A publication Critical patent/JPS61176997A/ja
Publication of JPH0632010B2 publication Critical patent/JPH0632010B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 以下の順序でこの発明を説明する。
A 産業上の利用分野 B 発明の概要 C 従来の技術 D 発明が解決しようとする問題点 E 問題点を解決するための手段 F 作用 G 実施例 G1 音響分析回路の説明(第1図) G2 時間正規化処理の説明(第1図,第2図,第3
図) G3 パターンマッチング処理の説明(第1図) H 発明の効果 A 産業上の利用分野 この発明は、前もって作成し記憶してある認識対象語の
標準パターンと、認識したい語の入力パターンとのパタ
ーンマッチングを行うことによりなす音声認識装置に関
する。
B 発明の概要 この発明はパターンマッチングにより音声認識をなす装
置において、そのマッチングをとるパターンとして、入
力音声信号の音声区間で音響分析して得た音響パターン
時系列がそのパラメータ空間で描く軌跡を推定しその軌
跡を所定間隔で再サンプリングして得た新たな認識パラ
メータを用いるものであって、この認識パラメータを得
る再サンプリングの間隔を常に一定長にしたもので、そ
の再サンプリング間隔を適当に選定することにより、軌
跡の変化に応じた十分な情報が得られるようにして認識
精度を向上させるようにしたものである。
C 従来の技術 音声は時間軸に沿って変化する現象で、スペクトラム・
パターンが刻々と変化するように音声を発声することに
よって固有の単語や言葉が生まれる。この人間が発声す
る単語や言葉を自動認識する技術が音声認識であるが、
人間の聴覚機能に匹敵するような音声認識を実現するこ
とは現在のところ至難のことである。このため、現在実
用化されている音声認識の殆んどは、一定の使用条件の
下で、認識対象単語の標準パターンと入力パターンとの
パターンマッチングを行なうことによりなす方法であ
る。
第4図はこの音声認識装置の概要を説明するための図
で、マイクロホン(1)よりの音声入力が音響分析回路(2)
に供給される。この音響分析回路(2)では入力音声パタ
ーンの特徴を表わす音響パラメータが抽出される。この
音響パラメータを抽出する音響分析の方法は種々考えら
れるが、例えばその一例としてバンドパスフィルタと整
流回路を1チャンネルとし、このようなチャンネルを通
過帯域を変えて複数個並べ、このバンドパスフィルタ群
の出力としてスペクトラム・パターンの時間変化を抽出
する方法が知られている。この場合、音響パラメータは
その時系列Pi(n)(i=1,2・・・I;Iは例えばバ
ンドパスフィルタのチャンネル数、n=1,2・・・
N;Nは音声区間判定により判定された区間において認
識に利用されるフレーム数)で表わすことができる。
この音響分析回路(2)よりの音響パラメータ時系列Pi(n)
は、例えばスイッチからなるモード切換回路(3)に供給
される。この回路(3)のスイッチが端子A側に切り換え
られるときは登録モード時で、音響パラメータ時系列Pi
(n)が認識パラメータとして標準パターンメモリ(4)にス
トアされる。つまり、音声認識に先だって話者の音声パ
ターンが標準パターンとしてこのメモリ(4)に記憶され
る。なお、この登録時、発声速度変動や単語長の違いに
より一般に各登録標準パターンのフレーム数は異なって
いる。
一方、このモード切換回路の(3)スイッチが端子B側に
切り換えられるときは認識モード時である。そして、こ
の認識モード時は、音響分析回路(2)からのそのときの
入力音声の音響パラメータ時系列が入力音声パターンメ
モリ(5)に供給されて一時ストアされる。そしてこの入
力パターンと標準パターンメモリ(4)から読み出された
複数の認識対象単語の標準パターンのそれぞれとの違い
の大きさが距離算出回路(6)にて計算され、そのうち入
力パターンと標準パターンとの差が最小の認識対象単語
が最小値判定回路(7)にて検出され、これにて入力され
た単語が認識される。
このように、登録された標準パターンと入力パターンの
パターンマッチング処理により入力音声の認識を行なう
ものがあるが、この場合に同じ単語を同じように発声し
てもそのスペクトラムパターンは時間軸方向にずれたり
伸縮したりすることを考慮しなければならない。すなわ
ち、例えば「ハイ」という単語を認識する場合、標準パ
ターンが「ハイ」で登録されているとき、入力音声が
「ハーイ」と時間軸方向に伸びてしまった場合、これは
距離が大きく違い、全く違った単語とされてしまい、正
しい認識ができない。このため、音声認識のパターンマ
ッチングでは、この時間軸方向のずれ、伸縮を補正する
時間正規化の処理を行なう必要があり、また、この時間
正規化は認識精度を向上させるための重要な処理であ
る。
この時間正規化の一方法としてDP(Dynamic Programmi
ng)マッチングと呼ばれる手法がある(例えば特開昭5
0−96104号公報参照)。
このDPマッチングの手法は次のように説明できる。
入力パターンAを次のように表現する。
A=a・・・a・・・a (1) ここでaは時刻kにおける音声の特徴を表す量で特徴
ベクトルと呼び、 a=(ak1,ak2,‥‥akq‥‥akQ
(2) で表わされる。Qはベクトルの次数で、音響分析にバン
ドパスフィルタ群を使用したときはそのチャンネル数に
相等する。
同様に特定の単語の標準パターンをBとし、次のように
表わす。
B=b‥‥b‥‥b (3) b=(bl1,bl2,‥‥blq,‥‥blQ) (4) 音声パターンの時間正規化は第5図に示すように入力パ
ターンAと標準パターンBの時間軸kとlの間に写像操
作を行うものとみることができる。
この写像を関数 l=l(k) (5) と表現し、歪関数と呼ぶ。この歪関数がわかれば標準パ
ターンBの時間軸をこれによって変換し、入力パターン
Aの時間軸kにそろえることができる。換言すれば、こ
の歪関数によりパターンBは、入力パターンAの時間軸
kにそろえられたパターンB′に変換される。
ここで、 B′=a1(1)1(2)‥‥b1(k)‥‥ b1(K)
(6) である。
この歪関数は未知であるが、この歪関数の最適条件から
求めることができる。すなわち、一方のパターン例えば
標準パターンを人工的に歪ませて他方のパターン(入力
パターン)に最も類似するようにする(距離を最小にす
る)と、元の歪はなくなり、最適な歪関数が求まり、写
像パターンB′が求まる。
DPマッチングは、この原理を実行するための手法であ
り、歪関数に次のような制約を与えて、写像パターン
B′を得るものである。
(i) l(k)は近似的に単調増加関数 (ii) l(k)は近似的に連続関数 (iii)l(k)はkの近傍の値をとる。
マッチング処理の結果として必要なものは、標準パター
ンと入力パターン間の距離で、 で表わされる。ここで‖ ‖は二つのベクトルの距離
を示す。この距離の最小のものが標準パターンBと入力
パターンAを最適に時間正規化し、時間歪を除去したう
えでの両パターンの差を表わす量D(A,B)であり、 で定義できる。
したがって、登録された標準パターンが複数あるとき
は、各標準パターンと入力パターンとの量D(A,B)
を求め、その量D(A,B)が最小になる標準パターン
とマッチングしたと判定する。
以上のように、DPマッチングは時間軸のずれを考慮し
た多数の標準パターンを用意しておくのではなく、歪関
数によって多数の時間を正規化した標準パターンを生成
し、これと入力パターンとの距離を求め、その最小値の
ものを検知することにより、音声認識をするものであ
る。
ところで、以上のようなDPマッチングの手法を用いる
場合、登録される標準パターンのフレーム数は不定であ
り、しかも全登録標準パターンと入力パターンとのDP
マッチング処理をする必要があり、語彙が多くなると演
算量が飛躍的に増加する欠点がある。
また、DPマッチングは、定常部(スペクトラムパター
ンの時間変化のない部分)を重視したマッチング方式で
あるので部分的類似パターン間で誤認識を生じる可能性
があった。
このような欠点を生じない時間正規化の手法を本出願人
は先に提案した(例えば特願昭59−106177
号)。
すなわち、音響パラメータ時系列Pi(n)は、そのパラメ
ータ空間を考えた場合、点列を描く。例えば認識対象単
語が「HAI」であるとき、音響分析バンドパスフィル
タの数が2個で、 Pi(n)=(P) であれば、入力音声の音響パラメータ時系列はその2次
元パラメータ空間には第6図に示すような点列を描く。
この図から明らかなように音声の非定常部の点列は粗に
分布し、準定常部は密に分布する。このことは完全に音
声が定常であればパラメータは変化せず、その場合には
点列はパラメータ空間において一点に停留することとな
ることから明らかであろう。
そして、以上のことから、音声の発声速度変動による時
間軸方向のずれは殆んどが準定常部の点列密度の違いに
起因し、非定常部の時間長の影響は少ないと考えられ
る。そこで、この入力パラメータ時系列Pi(n)の点列か
ら第7図に示すように点列全体を近似的に通過するよう
な連続曲線で描いた軌跡を推定すれば、この軌跡は音声
の発声速度変動に対して殆んど不変であることがわか
る。
このことから、出願人は、次のような時間軸正規化方法
を提案した。すなわち、先ず入力パラメータの時系列Pi
(n)の始端Pi(1)から終端Pi(N)までを連続曲線 で描いた軌跡を推定し、この推定した曲線 から軌跡の長さSを求める。そして第8図に示すように
この軌跡に沿って所定長Tで再サンプリングする。例え
ばM個の点に再サンプリングする場合、 T=S/(M−1) (9) の長さを基準として軌跡を再サンプリングする。この再
サンプリングされた点列を描くパラメータ時系列をQi
(m)(i=1,2‥‥I,m=1,2‥‥M)とすれ
ば、このパラメータ時系列Qi(m)は軌跡の基本情報を有
しており、しかも音声の発声速度変動に対して殆んど不
変なパラメータである。つまり、時間軸が正規化された
認識パラメータ時系列である。
したがって、このパラメータ時系列Qi(m)を標準パター
ンとして登録しておくとともに、入力パターンもこのパ
ラメータ時系列Qi(m)として得、このパラメータ時系列Q
i(m)により両パターン間の距離を求め、その距離が最小
であるものを検知して音声認識を行うようにすれば、時
間軸方向のずれが正規化されて除去された状態で音声認
識が常になされる。
そして、この処理方法によれば、登録時の発声速度変動
や単語長の違いに関係なく認識パラメータ時系列Qi(m)
のフレーム数は常にMであり、その上認識パラメータ時
系列Qi(m)は時間正規化されているので、入力パターン
と登録標準パターンとの距離の演算は最も単純なチェビ
シェフ距離を求める演算でも良好な効果が期待できる。
また、以上の方法は音声の非定常部をより重視した時間
正規化の手法であり、DPマッチング処理のような部分
的類似パターン間の誤認識が少なくなる。
さらに、発声速度の変動情報は正規化パラメータ時系列
Qi(m)には含まれず、このためパラメータ空間に配位す
るパラメータ遷移構造のグローバルな特徴等の扱いが容
易となり、不特定話者認識に対しても有効な各種方法の
適用が可能となる。
なお、以下、この時間正規化の処理をNAT(Normaliza
tion Along Trajectory)処理と呼ぶ。
D 発明が解決しようとする問題点 以上述べたNAT処理においては、認識パラメータQi
(m)を形成するとき、フレーム数をMで一定にするべ
く、推定した軌跡の軌跡長Sをフレーム数Mで除した値
Tの間隔で再サンプルを行うようにしている。
ところが、このようにフレーム数が一定で再サンプリン
グ点数が軌跡長に関係なく一定である場合には、第9図
のような例えば「あ」というような単音節の場合の単純
な軌跡に対し、第10図に示すような例えば「北海道」
というように音節数が多い場合の複雑な軌跡を考える
と、フレーム数が少ないと第9図のような単音節の軌跡
を表わすパラメータの抽出はできるが、第10図のよう
な多音節の軌跡を表わすパラメータとしてはフレーム数
つまりサンプル数が少なすぎてしまい、軌跡の特徴を示
すパラメータとしては不十分である。逆に、フレーム数
が多いと、多音節の場合はよいが、単音節の場合には、
不必要にフレーム数が多くなる欠点となる。
E 問題点を解決するための手段 この発明は、入力音声信号の音声区間を判定する音声区
間判定手段(24)と、この音声区間判定手段(24)にて判定
された音声区間内で音響パラメータ時系列を得る特徴抽
出手段(23)と、この特徴抽出手段(23)よりの音響パラメ
ータ時系列がパラメータ空間で描く軌跡を推定しこの軌
跡を求める演算手段(81)と、この演算手段により求めら
れた軌跡に沿って一定長のサンプル間隔で再サンプリン
グを行なうことにより認識パラメータ時系列を得る処理
手段(82)(83)と、認識対象語の標準パターンの認識パラ
メータ時系列がストアされている標準パターンメモリ
(4)と、上記処理手段(82)(83)よりの入力パターンの認
識パラメータ時系列と上記標準パターンメモリ(4)から
の標準パターンの認識パラメータ時系列との差を算出す
る距離算出手段(6)と、この距離算出手段(6)で算出され
た値の最小の標準パターンを検知して認識出力を得る最
小値判定手段(7)とからなる。
F 作用 NAT処理において、軌跡長に関係なく再サンプリング
間隔は一定である。したがって、軌跡長に応じて再サン
プル数が変わり、サンプリング間隔を適当に選定するこ
とにより単純な軌跡、複雑な軌跡のそれぞれに対応した
サンプル数となり、情報が軌跡を再現するのに不十分と
いうことはなくなる。
G 実施例 第1図はこの発明による音声認識装置の一実施例で、こ
の例は音響分析に15チャンネルのバンドパスフィルタ
群を用いた場合である。
G1 音響分析回路(2)の説明 すなわち、音響分析回路(2)においては、マイクロホン
(1)からの音声信号がアンプ(211)及び帯域制限用のロー
パスフィルタ(212)を介してA/Dコンバータ(213)に供
給され、例えば12.5kHzのサンプリング周波数で1
2ビットのデジタル音声信号に変換される。このデジタ
ル音声信号は、15チャンネルのバンドパスフィルタバ
ンク(22)の各チャンネルのデジタルバンドパスフィルタ
(2210),(2211),‥‥,(22114)に供給される。このデ
ジタルバンドパスフィルタ(2210),(2211),‥‥,(221
14)は例えばバターワース4次のデジタルフィルタにて
構成され、250Hzから5.5KHzまでの帯域が対数軸
上で等間隔で分割された各帯域が各フィルタの通過帯域
となるようにされている。そして、各デジタルバンドパ
スフィルタ(2210),(2211),‥‥,(22114)の出力信号
はそれぞれ整流回路(2220),(2221),‥‥,(22214)に
供給され、これら整流回路(2220),(2221),‥‥(22
214)の出力はそれぞれデジタルローパスフィルタ(22
30),(2231),‥‥,(22314)に供給される。これらデジ
タルローパスフィルタ(2230),(2231),‥‥,(22314)
は例えばカットオフ周波数52.8HzのFIRローパス
フィルタにて構成される。
音響分析回路(2)の出力である各デジタルローパスフィ
ルタ(2230),(2231),‥‥,(22314)の出力信号は特徴
抽出回路(23)を構成するサンプラー(231)に供給され
る。このサンプラー(231)ではデジタルローパスフィル
タ(2230),(2231),‥‥,(22314)の出力信号をフレー
ム周期5.12msec毎にサンプリングする。したがっ
て、これよりはサンプル時系列Ai(n)(i=1,2,‥
‥15;nはフレーム番号でn=1,2,‥‥,N)が
得られる。
このサンプラー(231)からの出力、つまりサンプル時系
列Ai(n)は音源情報正規化回路(232)に供給され、これに
て認識しようとする音声の話者による声帯音源特性の違
いが除去される。こうして音源特性の違いが正規化され
て除去されて音響パラメータ時系列Pi(n)がこの音源情
報正規化回路(232)より得られる。そして、このパラメ
ータ時系列Pi(n)が音声区間内パラメータメモリ(233)に
供給される。この音声区間内パラメータメモリ(233)で
は音声区間判定回路(24)からの音声区間判定信号を受け
て音源特性の正規化されたパラメータPi(n)が判定され
音声区間毎にスタアされる。
音声区間判定回路(24)はゼロクロスカウンタ(241)とパ
ワー算出回路(242)と音声区間決定回路(243)とからな
り、A/Dコンバータ(213)よりのデジタル音声信号が
ゼロクロスカウンタ(241)及びパワー算出回路(242)に供
給される。ゼロクロスカウンタ(241)では1フレーム周
期5.12msec毎に、この1フレーム周期内の64サン
プルのデジタル音声信号のゼロクロス数をカウントし、
そのカウント値が音声区間決定回路(243)の第1の入力
端に供給される。パワー算出回路(242)では1フレーム
周期毎にこの1フレーム周期内のデジタル音声信号のパ
ワー、すなわち2乗和が求められ、その出力パワー信号
が音声区間決定回路(243)の第2の入力端に供給され
る。音声区間決定回路(243)には、さらに、その第3の
入力端に音源情報正規化回路(232)よりの音源正規化情
報が供給される。そして、この音声区間決定回路(243)
においてはゼロクロス数、区間内パワー及び音源正規化
情報が複合的に処理され、無音、無声音及び有声音の判
定処理が行なわれ、音声区間が決定される。
この音声区間決定器(243)よりの判定された音声区間を
示す音声区間判定信号は音声区間判定回路(24)の出力と
して音声区間内パラメータメモリ(233)に供給される。
こうして、判定音声区間内においてメモリ(233)にスト
アされた音響パラメータ時系列Pi(n)は読み出されて第
1のNAT処理回路(8)に供給される。
G2 時間正規化処理の説明 この第1のNAT処理回路(8)は軌跡長算出回路(81)と
補間間隔設定回路(82)と補間点抽出回路(83)からなる。
メモリ(223)より読み出されたパラメータ時系列Pi(n)は
軌跡長算出回路(81)に供給される。この軌跡長算出回路
(81)においては音響パラメータ時系列Pi(n)がそのパラ
メータ空間において第2図に示すように描く直線近似に
よる軌跡の長さ、即ち軌跡長を算出する。
この場合、1次元ベクトルa及びb間のユークリッ
ド距離D(a,b)は である。そこで、I=15次元の音響パラメータ時系列
Pi(n)より、直線近似により軌跡を推定した場合の時系
列方向に隣接するパラメータ間距離S(n)は S(n)=D(Pi(n+1),Pi(n))(n=1,‥‥,N)
・・・(11) と表わされる。そして、時系列方向における第1番目の
パラメータPi(1)から第n番目のパラメータ列Pi(n)迄の
距離SL(n)は と表わされる。なお、SL(1)=0である。
そして、全軌跡長SL1と表わされる。軌跡長算出回路(81)はこの(11)式、(12)
式及び(13)にて示す信号処理を行なう。
この軌跡長算出回路(81)にて求められた軌跡長SL1を示
す信号は補間間隔設定回路(82)に供給される。この補間
間隔設定回路(82)では軌跡に沿って再サンプリングする
ときの再サンプリング間隔Tを設定する。
この場合、このサンプリング間隔Tは実験によって最
適な値が定められる。例えば、いくつかの認識対象単語
の特徴パターンを充分に再現できるような再サンプル数
をそれぞれ求め、その再サンプル数で軌跡長SL1を除算
して得られた再サンプリング間隔の値の、ちょうど中間
の値として再サンプリング間隔Tを設定する。
この補間間隔設定回路(82)よりのサンプリング間隔T
を示す信号は補間点抽出回路(83)に供給されるとともに
メモリ(233)よりの音響パラメータ時系列Pi(n)も、ま
た、この補間点抽出回路(83)に供給される。この補間点
抽出回路(83)では音響パラメータ時系列Pi(n)のそのパ
ラメータ空間におけるパラメータ間を直線近似した軌跡
に沿って、第2図において〇印にて示すようにサンプリ
ング間隔Tで再サンプリングがなされ、これにて得ら
れた点列より新たな音響パラメータ時系列Ri(p)が形成
される。
前述もしたように、このパラメータ時系列Ri(p)はサン
プル数即ちフレーム数pが単語長に応じて可変となるも
ので、軌跡の特徴を十分に表わし得るものである。しか
も時間軸方向の正規化も概ねなされている。
この音響パラメータ時系列Ri(p)を標準パターンメモリ
(4)に登録しておくとともに、パターンマッチングに用
いてももちろんよい。その場合には、この時系列Ri(p)
を用いてDPマッチング処理するようにしてもよい。
しかし、DPマッチング処理をしたのでは、NAT処理
の効果が半減する。そこで、この例では、この新たな音
響パラメータ時系列Ri(p)は第2のNAT処理回路(9)に
供給され、NAT処理の特長が生かされるようにされて
いる。
すなわち、第2のNAT処理回路(9)は軌跡長算出回路
(91)と補間間隔算出回路(92)と補間点抽出回路(93)から
なり、音響パラメータ時系列Ri(p)は軌跡長算出回路(9
1)に供給される。この軌跡長算出回路(91)においても回
路(81)と同様にして、音響パラメータ時系列Ri(p)がそ
のパラメータ空間において描く直線近似による軌跡の長
さSL2が算出される。
この軌跡長算出回路(91)にて求められた軌跡長SL2を示
す信号は補間間隔算出回路(92)に供給され、再サンプリ
ング間隔Tが算出される。この場合、この第2のNA
T処理においてはフレーム数は単語長つまり軌跡長に関
係なく一定で、例えばM点に再サンプリングするとすれ
ば、再サンプリング間隔Tは T=SL2/(M−1) ・・(14) として求められる。
この補間間隔算出回路(92)よりの再サンプリング間隔T
を示す信号は補間点抽出回路(93)に供給される。ま
た、補間点抽出回路(83)よりの音響パラメータ時系列Ri
(p)も、また、この補間点抽出回路(93)に供給される。
この補間点抽出回路(93)は音響パラメータ時系列Ri(p)
のそのパラメータ空間における軌跡、例えばパラメータ
間を直線近似した軌跡に沿って再サンプリング間隔T
で再サンプリングし、このサンプリングにより得た新た
な点列より認識パラメータ時系列Qi(m)を形成する。
ここで、補間点抽出回路(83)及び(93)においては第3図
に示すフローチャートに従った処理がなされ、それぞれ
パラメータ時系列Ri(p)及びQi(m)が形成される。
第3図では音響パラメータ時系列Pi(n)から新たな音響
パラメータ時系列Ri(p)を形成する場合について説明す
るが、Ri(p)から認識パラメータ時系列Qi(m)を得る場合
もほぼ同様になされる。
先ず、ステップ〔100〕にてSL1/Tなる演算がなされ
て再サンプリング点数Pが求められる。次にステップ
〔101〕にて再サンプリング点の時系列方向における番
号を示す変数Jに値1が設定されると共に音響パラメー
タ時系列Pi(n)のフレーム番号を示す変数にICに値1が
設定され、イニシャライズされる。次にステップ〔10
2〕にて変数Jがインクリメントされ、ステップ〔103〕
にてそのときの変数Jが(P−1)以下であるかどうか
が判別されることにより、そのときの再サンプリング点
の時系列方向における番号が再サンプリングする必要の
ある最後の番号になっていないかどうかを判断する。最
後の番号であればステップ〔104〕に進み、再サンプル
は終了する。
最後の番号でなければステップ〔105〕にて第1番目の
再サンプリング点から第J番目の再サンプリング点まで
の再サンプリング距離DLが算出される。次にステップ
〔106〕に進み変数ICがインクリメントされる。次にス
テップ〔107〕にて再サンプル距離DLが音響パラメータ
時系列Pi(n)の第1番目のパラメータPi(1)から第IC番目
のパラメータPi(IC)までの距離SL(IC)よりも小さいかど
うかにより、そのときの再サンプリング点が軌跡上にお
いてそのときのパラメータPi(IC)よりも軌跡の始点側に
位置するかどうかが判断され、始点側に位置していなけ
ればステップ〔106〕に戻り変数ICをインクリメントし
た後再びステップ〔107〕にて再サンプリング点とパラ
メータPi(IC)との軌跡上における位置の比較をし、再サ
ンプリング点が軌跡上においてパラメータPi(IC)よりも
始点側に位置すると判断されたとき、ステップ〔108〕
に進み認識パラメータRi(J)が形成される。
即ち、第J番目の再サンプリング点による再サンプリン
グ距離DLからこの第J番目の再サンプリング点よりも始
点側に位置する第(IC-1)番目のパラメータPi(IC-1)によ
る距離SL(IC-1)を減算して第(IC-1)番目のパラメータPi
(IC-1)から第J番目の再サンプリング点迄の距離SSを求
める。次に、軌跡上においてこの第J番目の再サンプリ
ング点の両側に位置するパラメータPi(IC-1)及びパラメ
ータPi(IC)間の距離S(n)(この距離S(n)は(11)式にて
示される信号処理にて得られる。)にてこの距離SSを除
算し、この除算結果SS/S(IC-1)に軌跡上において第J
番目の再サンプリング点の両側に位置するパラメータPi
(IC)とPi(IC-1)との差を掛算して、軌跡上において第J
番目の再サンプリング点のこの再サンプリング点よりも
始点側に隣接して位置する第(IC-1)番目のパラメータPi
(IC-1)からの補間量を算出し、この補間量と第J番目の
再サンプリング点よりも始点側に隣接して位置する第(I
C-1)番目のパラメータPi(IC-1)′とを加算して、軌跡に
沿う新たな音響パラメータRi(J)が形成される。
このようにして始点及び終点(これらは である。)を除く(P−2)点の再サンプリングにより
認識パラメータ字形列Ri(p)が形成される。
第2のNAT処理回路(9)の補間点抽出回路(93)におい
ては、再サンプル点数はMで一定であるので、ステップ
〔100〕は必要ではなく、また、ステップ〔103〕ではJ
M−1であるか否かの判別がなされることになる。他
のステップは全て同様の処理となる。
なお、軌跡の推定及び再サンプリングをするときに、必
ず無音から開始するようにすれば、音声区間判定回路(2
4)での判定区間にずれがあってもそのずれの軌跡及び再
サンプリングへの影響はほとんどなくなる。この場合
に、軌跡の終点及び再サンプリングの終点も無音部にな
るようにしてもよい。
G3 パターンマッチング処理の説明 この第2のNAT処理回路(9)よりの認識パラメータ時
系列Qi(m)はモード切換スイッチ(3)により、登録モード
においては認識対象語毎に標準パターンメモリ(4)にス
トアされる。また、認識モードにおいては距離算出回路
(6)に供給され、標準パターンメモリ(4)よりの標準パタ
ーンのパラメータ時系列との距離の算出がなされる。こ
の場合の距離は例えば簡易的なチェビシェフ距離として
算出される。この距離算出回路(6)よりの各標準パター
ンと入力パターンとの距離の算出出力は最小値判定回路
(7)に供給され、距離算出値が最小となる標準パターン
が判定され、この判定結果により入力音声の認識結果が
出力端(70)に得られる。
H 発明の効果 この発明においてはNAT処理において、再サンプリン
グのサンプル間隔を常に一定としたので、このサンプル
間隔を適当に選定することにより単語長の長短、つまり
音節数の多少の違いによる認識率の劣化を防止すること
ができる。
【図面の簡単な説明】
第1図はこの発明装置の一実施例のブロック図、第2図
はその説明のための図、第3図はその要部の動作の説明
のためのフローチャートを示す図、第4図は音声認識装
置の基本構成を示すブロック図、第5図はDPマッチン
グを説明するための図、第6図〜第8図はNAT処理を
説明するための図、第9図及び第10図はそれぞれ単音
節及び多音節の場合にパラメータ時系列が描く軌跡の例
を示す図である。 (2)は音響分析回路、(4)は標準パターンメモリ、(6)は
標準パターンと入力パターンとの距離算出回路、(7)は
最小値判定回路、(8)は第1のNAT処理回路、(9)は第
2のNAT処理回路である。
フロントページの続き (72)発明者 平岩 篤信 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (56)参考文献 日本音響学会講演論文集 昭和59年10月 1−9−9 P.17−18

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】(a) 入力音声信号の音声区間を判定する
    音声区間判定手段と、 (b) この音声区間判定手段にて判定された音声区間内
    で音響パラメータ時系列を得る特徴抽出手段と、 (c) この特徴抽出手段よりの音響パラメータ時系列が
    パラメータ空間で描く軌跡を推定しこの軌跡を求める演
    算手段と、 (d) この演算手段により求められた軌跡に沿って一定
    長のサンプリング間隔で再サンプルを行なうことにより
    認識パラメータ時系列を得る処理手段と、 (e) 認識対象語の標準パターンの認識パラメータ時系
    列がストアされている標準パターンメモリと、 (f) 上記処理手段よりの入力パターンの認識パラメー
    タ時系列と上記標準パターンメモリからの標準パターン
    の認識パラメータ時系列との差を算出する距離算出手段
    と、 (g) この距離算出手段で、算出された値の最小のもの
    を検知して認識出力を得る最小値判定手段とからなる音
    声認識装置。
JP60017134A 1985-01-31 1985-01-31 音声認識装置 Expired - Fee Related JPH0632010B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60017134A JPH0632010B2 (ja) 1985-01-31 1985-01-31 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60017134A JPH0632010B2 (ja) 1985-01-31 1985-01-31 音声認識装置

Publications (2)

Publication Number Publication Date
JPS61176997A JPS61176997A (ja) 1986-08-08
JPH0632010B2 true JPH0632010B2 (ja) 1994-04-27

Family

ID=11935551

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60017134A Expired - Fee Related JPH0632010B2 (ja) 1985-01-31 1985-01-31 音声認識装置

Country Status (1)

Country Link
JP (1) JPH0632010B2 (ja)

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
日本音響学会講演論文集昭和59年10月1−9−9P.17−18

Also Published As

Publication number Publication date
JPS61176997A (ja) 1986-08-08

Similar Documents

Publication Publication Date Title
US7461002B2 (en) Method for time aligning audio signals using characterizations based on auditory events
Chapaneri Spoken digits recognition using weighted MFCC and improved features for dynamic time warping
JPH0561496A (ja) 音声認識装置
JPH04158397A (ja) 声質変換方式
JPH0638199B2 (ja) 音声認識装置
JPS6128998B2 (ja)
JPH0632010B2 (ja) 音声認識装置
JPH0632009B2 (ja) 音声認識装置
JP3916834B2 (ja) 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法
JPH0632008B2 (ja) 音声認識装置
CN110634473A (zh) 一种基于mfcc的语音数字识别方法
JPH0654439B2 (ja) 音声認識装置
JPH0632011B2 (ja) 音声認識装置
JPH0777998A (ja) 連続単語音声認識装置
JPH0449720B2 (ja)
JPH0211919B2 (ja)
JP2024008102A (ja) 信号処理装置、信号処理プログラム及び信号処理方法
JP5229738B2 (ja) 音声認識装置及び音声変換装置
JPH05313695A (ja) 音声分析装置
JP2569470B2 (ja) ホルマント抽出器
JPS61267098A (ja) 音声認識装置
JPS61275799A (ja) 音声認識装置
JP3263136B2 (ja) 信号のピッチ同期位置抽出方式及び信号合成方式
JPH0632025B2 (ja) 音声認識装置
JPH0554678B2 (ja)

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees