JPH0159600B2 - - Google Patents

Info

Publication number
JPH0159600B2
JPH0159600B2 JP56199098A JP19909881A JPH0159600B2 JP H0159600 B2 JPH0159600 B2 JP H0159600B2 JP 56199098 A JP56199098 A JP 56199098A JP 19909881 A JP19909881 A JP 19909881A JP H0159600 B2 JPH0159600 B2 JP H0159600B2
Authority
JP
Japan
Prior art keywords
state
word
time
period
standard pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP56199098A
Other languages
English (en)
Other versions
JPS58100195A (ja
Inventor
Hiroaki Sekoe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP56199098A priority Critical patent/JPS58100195A/ja
Priority to US06/448,088 priority patent/US4555796A/en
Priority to CA000417317A priority patent/CA1193729A/en
Priority to DE8282306620T priority patent/DE3271214D1/de
Priority to EP82306620A priority patent/EP0082000B1/en
Publication of JPS58100195A publication Critical patent/JPS58100195A/ja
Publication of JPH0159600B2 publication Critical patent/JPH0159600B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】 本発明は連続音声認識装置、特に文法に従がつ
て連続発生された文音声を該文法に予循すること
なく、しかも効率良く認識する連続音声認識装置
に関する。
音声認識装置の中でも文法に従がつて発声され
た文音声の認識装置は、計算機プログラムや限定
業務用文章あるいは航空管制や船舶制御用の指令
音声の認識など広範囲な応用分野を有している。
文法の拘束が与えられている場合には、その文法
規則を利用することによつて誤認識を防止できる
ことが原理的には知られているが、実用的な音声
認識装置において実現することは必らずしも容易
ではない。
電子通信学会技術報告書PRL80−19(1980年7
月)に“単語を単位とした連続音声認識の一手
法”と題して発表された論文(以下文献(1)とい
う)には有限状態オートマン(以後単にオートマ
ンと呼ぶ)と動的計画法(Dynamic
Pvogramming 以後DPと略称)を利用して、正
規文法言語音声を正確に認識する手法が示されて
いる。
本発明の原理構成を述べるに先立つて上記文献
(1)に示された方法(以後従来方法(1)と称する)の
原理を引用説明する。まず、オートマンαを次の
ように定義する。
α=<K、Σ、△、p0、F>。 (1) ここに、 K:状態pの集合{p|p=1、2、……π} Σ:入力単語nの集合{n|n=1、2……N} △:状態遷移テーブル{(p、q、n)} ここに、 (p、q、m)はpn ―→ q なる状態遷移を意味する。
p0:初期状態。以後はp=0で示す。
F:最終状態集合FCK。
次に上記オートマンαに従がつて単語n∈Σを
連続して発声して得られる音声パタンAを A=〓1、〓2、……〓i……〓I (2) で示し、これを(未知)入力パタンと呼ぶ。この
音声パタンは、特願昭51−61984におけると同様
に音声波形を分析してフレーム標本化を行なうこ
とによつて得られるものである。
次に各単語n∈Σに対して標準パタン Bn=〓1 n、〓2 n……〓j n……〓J n (3) を用意する(説明の簡単のために各標準パタンの
長さはJは一定とする)。
いま、入力パタンAの部分パタンA(l、m)
を A(l、m)=〓l+1、〓l+2……〓n (4) と定義し、この部分パタンA(l、m、n)と標
準パタンBnとの距離を D(l、m、n)=D(A(l、m)、Bn) (5) で示す。この距離D(l、m、n)は周知のDPマ
ツチング法で計算される。この距離計算は各時刻
i=mにおいて各単語nに対して繰り返される。
次に、(実際には上記の距離計算と並列同期的
に)あらかじめ用意されているテーブルT(l、
p)、L(l、p)、P(l、p)、N(l、p)を用
いて、初期条件T(o、o)=oのもとに、 T(m、q)=min〔T(l、p)+D(l、m、n)
〕 l、p、n (6) ただし、(p、q、n)E△、l<m なる漸化式計算と、 L(m、q)=l P(m、q)=p N(m、q)=n (7) なる代入処理が行なわれる。ここにl、p、nそ
れぞれは(6)式のパラメータl、p、nの最適値で
ある。
(6)、(7)式の計算は時刻m=IにおけるT、L、
P、Nの値が得られるまで続けられる。その後 q^=argmin〔T(I、q)〕 (8) q∈F なる操作によつて最適な最終状態q^が決定され
る。ここにargminなる記号は〔 〕内の最小を
与えるパラメタを選択することを意味する。
認識結果の導出は次のような手続きで実行され
る。
(i) 初期条件 q=q^、m=I (ii) 単語認識結果 n^=N(m、q) 単語始点 l^=L(m、q) 状態 p^=P(m、q) (iii) もしl^>oならばq=p^、m=l^として(ii)を

り返す。l=oなら終了。
以上述べた方法では、距離D(l、m、n)を
算出するためのDPマツチング計算を多数回繰り
返さなくてはならないのが欠点と考えられる。す
なわち、各標準パタンB=Bnに対して、各時刻
mにおいて g(m、J)=d(m、J) を初期条件として g(i、j)=d(i、j) +min g(i、+1、j) g(i、+1、j+1) g(i、+1、j+2) (9) (ただしd(i+1)はベクトルaiとbjとの距離
を示す)なる漸化式を j+m−J−r≦i≦j+m−J+r (10) なる整合窓内でj=Jからj=1まで逆順に繰り
返す必要がある。このことは特願昭54−66589の
第1図に関連して指摘されているように膨大な計
算量を必要とすることになる。
さて、(6)、(7)、(9)式によつて達成されているこ
とは過去の時刻l及び状態pにおいて定まつてい
るT(l、p)と、その時刻lを始端とする部分
パタンA(l、m)と標準パタンBnとの距離D
(l、m、n)とから時刻mと状態qにおけるT
(m、q)L(m、q)、P(m、q)、N(m、q)
を定めるという操作である。
IEEE TRANSACTION ON ACOUSTICS、
SPEECH、AND SISNAL PROCESSING、
VOL.ASSP−29、NO.2、(APRIL 1981)の第
284ページから第297ページに“A Level
building dynamic programming algorithm for
connected word recognihion”と題して発表さ
れた論文(以下文献(2)という)には、上記(6)、
(7)、(8)と等価なことを効率良く行なう代案が示さ
れている。それによると文献(2)のFig.3あるいは
それと同種の本明細書の第1図(記号法は本願の
ものに統一している。)に示されるように、状態
pにおいてある時刻幅(第1図に参照数字1で示
す)で g(l、o)=T(l、p) 及びh(l、o)=l (11) を境界状件として、漸化式 g(i、+1、j) g(i、j)=d(i、j)+min g(i−1、j−
1) g(i−1、j−2) (12) 及び代入演算 h(i、j)=h(i−1、j)、g(i−1、j)が
最小のとき h(i、j)=h(i−1、j)、g(i−1、j)が
最小のとき h(i−1、j−1)、g(i−1、j−1)が最小の
とき h(i、j)=h(i−1、j)、g(i−1、j)が
最小のとき h(i−1、j−1)、g(i−1、j−1)が最小の
とき h(i−1、j−2)、g(i−1、j−2)が最小の
とき(13) を図1の横軸iに関してしかるべき幅内で実行し
つつjを2、3、……Jと変化させることによつ
てg(m、J)とh(m、J)を第1図に参照数字
2で示す幅内で得ている。この処理は各標準パタ
ンBnに対して実行され、さらに出発点となる状
態pも(p、q、n)E△なる範囲で変化され
る。いま状態pを出発点とし、単語nに対して実
行された結果得られるg(m、J)をgp n(m、
q)で、またh(m、J)をhp n(m、q)で示
す。これらが第1図の参照数字1で示す区間内で
求まつた後で状態qにおいては第1図の参照数字
2で示した範囲内の各時刻mにおいて T(m、q)=min p、n〔gp n(m、q)〕 (14) P(m、q)=p〓;p〓は(14)式の最適なp N(m、q)=n〓;n〓は(14)式の最適なn L(m、q)=hpn〓(m、q) (15) なる操作によつてT(m、q)、N(m、q)、P
(m、q)、L(m、q)を定めている。
ここに引用した文献(2)の方法によると、(9)、(10)
式の漸化式計算を各時刻mで繰り返していた文献
(1)の方法に比較してかなり少ない計算量でT、
N、P、L等の値を算出しすることができる。す
なわち、第1図の参照数字1で示した区間と参照
数字2で示した区間内で(11)、(12)、(13)式を計算
することによつて時刻mに対する繰り返しが不要
になり並列的にT、N、P、Lの諸値が求まるの
である。
しかし、この文献(2)の方法ではホートマトンα
の状態遷移△にループが含まれている場合に適用
不可能であるという欠点がある。すなわち、第2
図aのように自己ループの有る場合を例にとつて
説明すると、状態遷移はpから発して同じpに度
入ることになる。このため第2図bに示すよう
に、参照数字3で示す区間と参照数字4で示す区
間が重複してしまう。第2図bに示した2つの状
態pは実際には同一のものであるから、これら区
間3と4の共通部分5のT、N、P、Lのテーブ
ルは(11)〜(14)式の結果破壊されてしまうことに
ある。判定結果を得るためにはN、P、L等のテ
ーブルを参照する必要があるが、これらのテーブ
ルの内容が破壊されていると正しい判定結果の導
出は不可能である。このことは自己ループに限ら
ず一般的なループ構造に対して言えることであ
る。文献(1)の方法ではループが扱かえることは同
文献に記されているとうりであるが計算量は大き
かつた。文献(2)の方法に至つて、計算量は減少で
きるが、ループが処理できないという重大な欠陥
が生じたのである。
本発明は文献(1)、(2)の従来の技術が有する欠点
を改良して、計算量が少なく、かつループをも処
理できる連続音声認識の原理を確立し、経済的で
かつ高性能な認識装置を提供することを目的とす
る。
本発明の構成を述べるに先立つてその動作原理
の要点を説明しておく。本発明による連続音声認
識装置では(11)、(12)、(13)式の漸化式計算を時刻
i=mに関して同期的に行なうことを特徴として
いる。すなわち時刻mにおいて、状態pに対して g(m−1、o)=T(m−1、p) 及びh(m−1、o)=m−1 (16) なる境界条件を与え、標準パタンB=Bn(p、
q、n)E△)について g(m、j)=d(m、j) +ming(m−1、j) g(m−1、j−1) g(m−1、j−2) (17) なる漸化式演算と、 h(m、j)=h(m−1、j)、g(m−
1、j)が最小の時 h(m−1、j−1)、g(
m−1、j−1)が最小の時(18) h(m−1、j−2)、g
(m−1、j−2)が最小の時 なる代入演算をj=1、2、……Jに対じて行な
うことによつて、この時刻mにおける gp n(m、q)=g(m、J) hp n(n、q)=h(m、J) (19) を得る。通常は(17)式がDP漸化式と呼ばれて
いるが、以下では(17)、(18)式を合わせてDP
マツチング漸化式と呼ぶ。この同一時刻mにおい
て(p、q、n)E△なるすべての標準パタン
Bn及び状態pに対して同様の処理を繰り返して
gp n(m、q)とhp n(m、q)とhp n(m、q)と
を得 T(m、q)=min p、n〔gp n(m、q)〕 (20) N(m、q)=n〓;n〓は(20)式の最適なn p(m、q)=p〓;p〓は(20)式の最適なp L(m、q)=hpn〓(m、q) (21) なる操作によつて(14)、(15)式と等価な結果を
得る。
以上原理を第3図a,bを引用して、より具体
的に説明する。これらの図はある状態遷移(p、
q、n)に対して(16)、(17)式により漸化式g
が計算される様子を示すもので、hに関する計算
も同様である。各時刻mにおいては、第3図aに
示すようにg(m、−1、j)の段を参照しつつ、
g(m、j)を算出する。境界条件はg(m−1、
o)に対して与えられる。g(m−1、1)から
g(m−1、J)までの値としては、時刻m−1
における該当(p、q、n)に対する処理の結果
得られた漸化式値g(m−1、1)……g(m−
1、J)を保存しておきそのまま用いる。jを1
からJまで変化させて(17)式を繰り返すことに
よつて時刻mにおける((p、q、n)に対する)
g(m、1)……g(m、J)が得られる。この中
のg(m、J)としてgp n(m、q)が得られる。
また、g(m、1)……g(m、J)は次時刻m+
1での処理での参照されるべく保存される。
このような処理をある状態qに対して(p、
q、n)E△となるすべての組(p、n)に対し
て実行した後(20)式を実行することによつてT
(m、q)が得られる。また(21)式の実行によ
つてN(m、q)とP(m、q)も得られる。(17)
式の処理に並行して(18)式を計算することによ
つてL(m、q)も得られる。その後、指定もq
をqEKで変化させることによつてこの時刻mに
おける処理が終了する。
以上の処理をある特定の単語nと状態p及びq
の組に関して固定して見ると第3図bのような処
理が行なわれている事になる。すなわち第3図a
に示したような処理範囲(以下処理窓と呼ぶ)は
時刻mと同期して進行する。各時刻での処理窓内
で(16)式から(19)式が計算される。かくして
時刻mにおいては、この時刻に至るまでの各時刻
で(16)式から(19)式までを計算し続けて得ら
れた漸化式値gp n(m、J)=g(m、J)が得ら
れるのである。また、hp n(m、q)=h(m、J)
としては、この漸化式値g(m、J)が第3図b
に参照数字1で示すような軌跡上の距離d(i、
j)の和として得られている場合には、その先頭
時刻(l−1)なる値が得られることになる。
第4図以上の原理を実行するための演算用メモ
リーT(m、q)、N(m、q)、P(m、q)、L
(m、q)の構成を示す概念図である。これらは
時として時刻l、状態pに対応する(l、p)な
る組によつても番地指定される。
漸化式値g(m、j)は次の時刻m+1におい
て参照されるから保存される必要がある。これを
記憶するためのテーブルとしてG(p、n、j)
を用意する。このテーブルは1時刻間のバツフア
リングができればよいので各時刻で繰り返して使
用できる。したがつて時刻mに間する番地指定は
不要である。またqに関するアドレツシングが不
要なことは後で第6図に関連して説明する。漸化
式G(p、n、j)のテーブルを第5図に示す。
同様な理由でポインターh(m、j)を記憶する
テーブルH(p、n、j)を第6図のG(p、n、
j)とまつたく同様に用意する。
第6図a〜cは以上記載の原理を実行する具体
的アルゴリズムを示すフローチヤートである。ブ
ロツク10と11はG(p、n、j)とT(l、p)及
びL(l、p)に初期状件を設定するためのもの
である。各時刻mにおいて単語指定信号nは1、
2……Nと変化される。各単語指定nに対して、
ブロツク、12で標準パタンB=Bnとして処理窓
内の距離d(m、j)が計算される。これらの距
離d(m、j)は後でブロツク14での処理で参照
されるべく一時記憶される。
この距離d(m、j)が記憶されている間に状
態pとqの対が続々と発生される。(p、q、n)
が状態遷移テーブル△に含まれるような状態対
(p、q)に対してはブロツク13、14、15、16等
の処理が実行される。まず、ブロツク13では単語
指定nと状態指定pに対応するG(p、n、j)
とH(p、n、j)とがそれぞれ現時点mにおけ
る初期条件g(m−1、o)とh(m−1、o)と
してセツトされる。また、G(p、n、j)及び
H(p、n、j)が前段時刻m−1における漸化
式値g(m−1、j)、H(m−1、j)としてセ
ツトされる。ブロツク14では(17)、(18)式の漸
化式計算が行なわれる。その結果得られるg(m、
j)とh(m、j)とは新たなG(p、n、j)と
H(p、n、j)としてテーブルに格納される。
漸化式値g(m、J)とh(m、j)とは(19)
式のgp n(m、q)及びhp n(m、q)、相当する
量としてブロツク15、16の処理に引き渡される。
これらのブロツク15、16では(20)、(21)式の最
小値検出及び代入計算が行なわれる。
ここでブロツク13及び14における処理が状態指
定qに無関係であることを注意しておく。単語指
定nと状態指定pのみに依存するのである。この
ためG及びHのテーブルには状態指定qによる番
地指定が不要である。さらに後で述べる実施例に
おいては、ブロツク13と14の処理がqに無関係で
あるという、この性質を利用して処理量を低減で
きることが示される。
かくしてp及びqの組合せがすべて処理される
と次の単語指定(n+1)に対応する処理に移行
する。すべての単語の処理が終了すると時刻信号
mが1増加される。かくして入力音声パタンAの
最後であるm=Iまでの処理が終了すると、第6
図dのフローチヤートに示す判定処理に移行す
る。
第6図dは判定処理を示すフローチヤートであ
る。これは前記(i)〜(iii)の手続きを図示したもので
ある。
本発明は以上述べた原理に基づくものである。
それゆえ本発明による連続音声認識装置は、入力
音声を特徴の時系列A=〓1、〓2……〓i……〓I
に変換する入力部と;単語セツトΣ={n|n=
1、2……N}中の各単語nに対して標準パタン
Bn=〓1 n、〓2 n……〓j n……〓J nを記憶する標準パ
タン記憶部と;単語nの入力によつて状態pより
状態qへの遷移が発生することを意味する状態遷
移規則(p、q、n)の群である状態遷移テーブ
ル△と、最終状態の群Fとを記憶するオートマト
ン記憶部と;時刻mと状態qとによつて番地指定
され4種類のテーブル記憶T(m、q)、P(m、
q)、N(m、q)及びL(m、q)と;状態pと
単語指定n及び標準パタン時刻jとによつて番地
指定される2種のテーブル記憶G(p、n、j)
及びH(p、n、j)と;各時刻i=mにおいて
順次変更指定される単語指定信号nに対応して標
準パタンBn特徴bj nと入力パタンの特徴anとの距
離d(m、j)(j=1、2……J)を算出する距
離計算部と;この単語指定信号nによつて生起し
得る状態遷移に対する状態対(p、q)に対し
て、状態pと単語指定nによつて指定され標準パ
タン時刻指定jに対応して前記テーブル記憶G
(p、n、j)及びH(p、n、j)を参照し、前
記テーブル記憶T(m、q)より読み出される信
号を漸化式境界条件とし、(m−1)を経路境界
条件としてDPマツチング漸化式計算を行ない漸
化式値g(m、j)と経路値h(m、j)を求めて
前記テーブル記憶G(p、n、j)とH(p、n、
j)とに格納するDPマツチング部と、;これによ
り各単語指定nに対して算出される漸化式値g
(m、J)の最小値とそれに対応する単語名n、
経路値h(m、J)状態指定pを定めて前記テー
ブル記憶T(m、q)、N(m、q)、L(m、q)、
P(m、q)にそれぞれ書き込む比較回路と;前
記時刻m、単語n、状態p、q及び時刻jを指定
する信号を発生するための制御部と;最終時刻m
=Iにおいて前記最終状態群Fに含まれる状態q
で前記テーブル記憶T(m、q)の内容が最小と
なるものを定め、この状態q及び時刻mをもとに
して前記テーブル記憶P(m、q)、N(m、q)
及びL(m、q)を参照して認識結果を定める判
定部とより構成される。
以上のごとき構成によれば第6図のフローチヤ
ートに示すアルゴリズムを効率良く実行すること
ができ、これによつてループ構造を有するオート
マトンによる構文制御が可能になる。
第7図は本発明の一実施例を示すブロツク図で
あり、第8図はその動作例を示すタイムチヤート
である。
標準パタン記憶部130には単語セツトΣに含
まれる単語nの標準パタンBnが記憶されている。
オートマトン記憶部240には状態遷移規則と最
終状態の指定情態とが記憶されている。本実施例
では状態遷移規則は第9図aおよびbのように記
憶されている。第9図aは状態指定テーブルと呼
ばれ単語nによる状態遷移p→qとして許される
pの集合を指定している。図の例では単語nに対
応するpとしてp1……p……peが生じ得ることが
例示されている。第9図bは状遷移テーブルと呼
ばれ単語nによつて状態pから遷移し得る状態q
の集合を記憶している。図の例ではqとしてq1
q2、q3、q4が生じ得ることを示している。
マイクロホン100より未知入力音声が入力さ
れると入力部110によつて周波数分析がなされ
特徴を示すベクトル〓iに変換され順次入力パタ
ンバツフア120に送られる。また、入力部11
0には音声レベルを検知することによつて音声区
間を決定する機能が与えられており、音声区間中
では「1」その他は「0」なる音声区間信号Sを
発生する。制御部250は、この音声区間信号S
の立上りの時刻において初期化パルスjn(図中省
略)を発生する。これによつて第6図のブロツク
10に対応する初期化がGメモリー170に対して
なされ、ブロツク11に対応する初期化がテーブル
記憶220に対してなされる。
以上の初期化が終了すると、以後の入力特徴〓
の入力に同期して時刻信号mが1、2……と計
数される。時刻mにおいては入力特徴〓nが入力
パタンバツフア120に保持されている。この時
刻mにおいて制御部よりの単語指定信号nは1、
2、……Nなるごとく変化される。各nの値にお
いてオートマトン記憶部240中の状態指定テー
ブルが参照され、状態指定信号pがp1からpeまで
変化されるが、それに先だつて第6図のブロツク
12の処理が実行される。すなわち、距離計算部1
40において単語指定信号nの指定により前記標
準パタン記憶部130より読み出されるベクトル
i nと前記入力パタンバツフア120より読み出
される特徴ベクトル〓iとの間の距離d(m、j)
がj=1、2、……Jの範囲で算出され、jを番
地指定信号として距離記憶部150に記憶され
る。
前述の如く、続いて状態指定信号pがp1からpe
まで変化される。このあたりより以後の処理は第
6図と異なつているが、原理的には等価であり、
かつ効率的にはより有効であることが以下に示さ
れる。状態指定信号がpなる値の1サイクル内の
動作を以下に説明する。DPマツチング部160
の詳細構成例を第10図に示す。状態指定信号p
が指定されると、最初にテーブル記憶220より
T(m−1、p)が信号線T2に読み出されレジス
タ1601に記入されレジスタ1606には(m
−1)なる数値が書き込まれる。また、これと同
時にレジスタ1602には十分大きな数値(設計
によりこのレジスタに割り当てられたビツト数で
表現し得る最大の数値)がセツトされる。続いて
標準パタン時刻信号jが1にセツトされるとレジ
スタ1601,1602,1603の内容は左方
向へ、またレジスタ1606,1607,160
8は下方向へシフトするが如く転送され、同時に
テーブル記憶170(第7図参照)よりG(p、
q、1)が読み出され、レジスタ1601に記入
され、テーブル記憶180(第7図)からH(p、
n、1)が読み出されレジスタ1606に記入さ
れる。この時点でレジスタ1602と1607の
中に保持される値g2とh2はそれぞれ第6図のブロ
ツク13、14及び(16)式より分るように、漸化式
(17)、(18)の境界条件g(m−1、o)とh(m
−1、o)に対応している。またレジスタ160
1と1606の中に保持される値g1とh1はそれれ
ぞれg(m−1、1)h(m−1、1)となつてい
る。かくして(17)、(18)式をj=1に関して計
算するのに必要なg(m−1、j)が与えられた
ことになる。なお、この時点でレジスタ1603
にg3∞が保持されているのはj=1の時点におい
てはg(m−1、j−2)=g(m−1、−1)が定
義されないことに対応している。すなわち(17)
式においてg3=g(m−1、j−2)が選択され
るのを防止するためである。
以後は順次標準パタン時刻m信号jが増加され
ながら(17)、(18)式の計算が繰り返し実行され
る。標準パタン時刻信号が一般的にjなる値をと
る時の動作を以下に説明する。この時点ではレジ
スタ1601,1602,1603にはそれぞれ
g(m−1、j)=G(p、n、j)、g(m−1、
j−1)=G(p、n、j−1)、g(m−1、j−
2)=G(p、n、j−1)が、またレジスタ16
06,1607,1608にはそれぞれh(m−
1、j)、h(m−1、j−1)、h(m−1、j−
2)が保持されている。最小値検出部1604で
はレジスタ1601,1602,1603の内容
である信号g1、g2、g3の最小値が決定され最小値
信号gnとして出力される。同時にこの最小値が
g1、g2、g3のいずれであつたかに対応してスイツ
チ信号C=1、2、3を出力する。距離記憶部1
50(第7図)からは、制御部よりの標準パタン
時刻信号jの指定によつて距離d(m、j)が信
号dとして出力される。加算器1609ではこの
信号dと前記最小値信号gnとの和を計算する。
かくして得られる信号g2は漸化式(17)の計算結
果g(m、j)となる。この信号g2は新たなG
(p、n、j)としてテーブル記憶170に記入
される。マルチプレクサ1605では前記のスイ
ツチ信号cに制御されてレジスタ1606,16
07,1608よりの信号h1、h2、h3が選択され
る。すなわちcが1、2、3であるのに対応して
h1、h2、h3が選ばれる。この結果出力される信号
h2は(18)式の計算結果h(m、j)となつてい
る。この信号h2はテーブル記憶180に新たなH
(p、n、j)として書き込まれる。
かくして標準パタン時刻指定信号がj=Jまで
変化され終つた時点でg(m、J)とh(m、J)
とが得られる。これらの信号はレジスタ1610
と1602とに書き込まれ、これらを経由してそ
れぞれ信号T1、hとして出力される。かくして
DPマツチング部160の動作が1回終了する。
次に制御部240から、オートマトン記憶部、
240内の状態遷移テーブルを参照することによ
つて、現在の状態指定信号pと単語指定信号nに
対応する状態群q=q1、q2、q3、q4が読み出さ
れ、これらに対して第6図ブロツク15と16の処理
が実行される。テーブル記憶220に上記の状態
指定qが与えられると、信号T2としてT(m、
q)が読み出される。この信号は比較回路190
に送られDPマツチング部160より前記信号、
T1(=g(m、J))と比較される。T1<T2なる
時は書き込みパルスwpが発生される。これによ
つて、テーブル記憶220には信号T1=g(m、
J)が、テーブル記憶230には信号h=h(m、
J)がテーブル記憶220には状態指定信号p
が、テーブル記憶210には単語指定信号nが、
それぞれT(m、q)、L(m、q)、P(m、q)、
N(m、q)として記入される。すなわち、第6
図のブロツク16の処理が実行される。これに対し
てT1>T2なる時はこれらの記入処理はなされな
い。
状態指定信号qがq1からq4まで変化され各qの
値において上記の条件につき代入処理を繰返すこ
とによつて、この状態指定信号pに関する処理が
終了する。
さらに状態指定信号pがp1からpeまで変化さ
れ、この間に各pの値に対して上記処理が繰り返
されることによつてこの単語指定信号nに対する
処理が終了する。
単語指定信号nが1、2、……Nと変化される
間に上記と同様な処理が繰り返されて現時刻mに
おける処理が終了する。
以下の説明では状態指定信号qに関する繰り返
しが第6図のフローチヤートと異なつている。こ
れは第6図のブロツク15、16におけるg(m、
J)、h(m、J)が単語指定nと状態指定pにの
み依存し、もう1個の状態指定qには独立である
ことを利用したものである。すなわち、本実施例
に述べた繰り返し制御によれば、ブロツク13と、
14の処理をqに関して繰り返す必要が無いため計
算量の低減が可能になる。また、第6図のブロツ
ク15と16の処理は、本実施例の方法でもすべての
状態遷移規則(p、q、n)に対して実行される
ことは明らかであるので、得られる結果は第6図
の場合と等価である。
ともあれ、かくのごとき処理が時刻mの増加に
同期して繰り返される。音声の入力が終了すると
前記音声区間信号SはOにリセツトされる。これ
によつて上記各部の処理が終了し、その時点の時
刻信号mが入力パタン長Iに対応する。
続いて判定処理が開始される。判定部260
は、周知のマイクロプロセツサで構成され、オー
トマトン記憶部240から最終状態集合Fを、テ
ーブル記憶200,220,230からそれぞれ
P(m、q)、N(m、q)、L(m、q)を参照し
て第6図dの判定処理を実行し、判定結果を出力
する。この処理略はマイクロプロセツサのプログ
ラムで実行できるものであるので詳細は省略す
る。
以上、本発明の構成を実施例にもとづいて説明
したが、これらの記載は本発明の権利範囲を限定
するものではない。特に本発明ではDPマツチン
グの漸化式として最も簡単な(17)式を用いた
が、他のより高性能なものを用いる方法も考えら
れる。
例えば g(m、j)=min g(m−2、j−1)+d(
m−1、j)+d(m、j) g(m−1、j−1)+d(m、j) g(m−1、j−2)+d(m、j) なるものを用いる方法が考えられる。ただし、こ
の場合には漸化式値は時刻(m−2)まで、距離
も時刻(m−1)まで保存しなくてはならないの
でテーブル記憶G(p、n、j)と同様なものを
増設する必要がある。また、本説明では距離を基
本として認識を行なつたが、相関を基本として認
識する方法も考えられる。この場合には、大小関
係が逆になるので本説明の最大値検出機能を、す
べて最小値検出機能に置換する必要がある。これ
らの自明な変更は本発明の権利範囲に属するもの
である。
【図面の簡単な説明】
第1図、第2図aおよびbは従来技術を説明す
るための図である。第3図aおよびb、第4図な
らびに第5図は本発明の原理を説明するための図
である。第6図a〜dは本発明の原理を説明する
ためのフローチヤートである。第7図は本発明の
一実施例のブロツク図である。第8図は第7図の
実施例の動作を説明するためのタイムチヤートで
ある。第9図aおよびbは第7図の実施例の一部
詳細構成を示す説明図である。第10図は第7図
の実施例の一部詳細構成を示すブロツク図であ
る。 100……マイクロホン、110……入力部、
120……入力パタンバツフア、130……標準
パタン記憶部、140……距離計算部、150…
…距離記憶部、160……DPマツチング部、1
70……テーブル記憶G、180……テーブル記
憶、190……比較回路、200,210,22
0,230……テーブル記憶、240……オート
マトン記憶部、250……制御部、260……判
定部。

Claims (1)

    【特許請求の範囲】
  1. 1 入力音声を特徴の時系列A=〓1、〓2……〓i
    ……〓Iに変換する入力部と;単語セツトΣ=
    {n}の中の各単語nに対して標準パタンBn=〓
    1 n、〓2 n……〓j n……〓J nを記憶する標準パタン記
    憶部と;単語nの入力によつて状態遷移p→qが
    生じることを意味する規則(p、q、n)の群で
    ある状態遷移テーブル△と最終状態の群Fとを記
    憶するオートマトン記憶部と;時刻mと状態qと
    によつて番地指定されるテーブル記憶T(m、
    q)、P(m、q)、N(m、q)及びL(m、q)
    と、;状態pと単語指定n及び標準パタン明刻j
    とによつて番地指定されるテーブルG(p、n、
    j)及びH(p、n、j)と;各時刻i=mにお
    いて順次変更指定される単語指定信号nに対応し
    て標準パタンの各特徴〓j nと入力パタンの特徴〓
    との距離d(m、j)を算出する距離計算部と;
    この単語指定nに対応して生起し得る状態(p、
    q)に対して、状態pと単語指定nによつて指定
    され、かつ標準パタン時刻指定jに対応して前記
    テーブル記憶G(p、n、j)及びH(p、n、
    j)を参照し、前記テーブル記憶T(m、q)よ
    り読み出される信号を漸化式境界条件とし、(m
    −1)を経路境界条件としてDPマツチング漸化
    式値g(m、j)と経路値h(m、j)を求めて前
    記テーブル記憶G(p、n、j)とH(p、n、
    j)とに格納するDPマツチング部と;これによ
    り各単語指定nに対して算出される漸化式値g
    (m、J)の最小値を単語名n、状態指定pに関
    し定め、これ及びそれに対応する単語名n、経路
    値h(m、J)、及び状態指定pを定めて前記テー
    ブル記憶T(m、q)、N(m、q)、L(m、q)
    及びP(m、q)にそれぞれ書き込む比較回路と、
    前記時刻m、単語指定n、状態指定p、q及び標
    準パタン時刻j等の信号を発生するための制御部
    と;最終時刻m=Iにおいて、前記最終状態群F
    に含まれる状態qで前記テーブル記憶T(m、q)
    が最小となるものを定め、この状態q及び時刻m
    をもとにして前記テーブル記憶P(m、q)、N
    (m、q)及びL(m、q)を参照して認識結果を
    定める判定部とを具備することを特徴とする連続
    音声認識装置。
JP56199098A 1981-12-10 1981-12-10 連続音声認識装置 Granted JPS58100195A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP56199098A JPS58100195A (ja) 1981-12-10 1981-12-10 連続音声認識装置
US06/448,088 US4555796A (en) 1981-12-10 1982-12-09 DP Matching system for recognizing a string of words connected according to a regular grammar
CA000417317A CA1193729A (en) 1981-12-10 1982-12-09 Dp matching system for recognizing a string of words connected according to a regular grammar
DE8282306620T DE3271214D1 (en) 1981-12-10 1982-12-10 Dp matching system for recognizing a string of words
EP82306620A EP0082000B1 (en) 1981-12-10 1982-12-10 Dp matching system for recognizing a string of words

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56199098A JPS58100195A (ja) 1981-12-10 1981-12-10 連続音声認識装置

Publications (2)

Publication Number Publication Date
JPS58100195A JPS58100195A (ja) 1983-06-14
JPH0159600B2 true JPH0159600B2 (ja) 1989-12-18

Family

ID=16402084

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56199098A Granted JPS58100195A (ja) 1981-12-10 1981-12-10 連続音声認識装置

Country Status (5)

Country Link
US (1) US4555796A (ja)
EP (1) EP0082000B1 (ja)
JP (1) JPS58100195A (ja)
CA (1) CA1193729A (ja)
DE (1) DE3271214D1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5131043A (en) * 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
JPS60179797A (ja) * 1983-10-27 1985-09-13 日本電気株式会社 パタンマツチング装置
FR2554623B1 (fr) * 1983-11-08 1986-08-14 Texas Instruments France Procede d'analyse de la parole independant du locuteur
JPS60211498A (ja) * 1984-04-05 1985-10-23 日本電気株式会社 連続音声認識装置
JPS61145599A (ja) * 1984-12-19 1986-07-03 日本電気株式会社 連続音声認識装置
US5165007A (en) * 1985-02-01 1992-11-17 International Business Machines Corporation Feneme-based Markov models for words
US5241649A (en) * 1985-02-18 1993-08-31 Matsushita Electric Industrial Co., Ltd. Voice recognition method
JPH0632012B2 (ja) * 1985-03-25 1994-04-27 株式会社東芝 音声認識装置
US4833712A (en) * 1985-05-29 1989-05-23 International Business Machines Corporation Automatic generation of simple Markov model stunted baseforms for words in a vocabulary
US4730252A (en) * 1985-09-24 1988-03-08 International Business Machines Corp. Document composition from parts inventory
US5142593A (en) * 1986-06-16 1992-08-25 Kabushiki Kaisha Toshiba Apparatus and method for classifying feature data at a high speed
US4918733A (en) * 1986-07-30 1990-04-17 At&T Bell Laboratories Dynamic time warping using a digital signal processor
WO1988001774A1 (en) * 1986-09-05 1988-03-10 Packard David W Programmable, character reduction lexical search circuit
DE3640355A1 (de) * 1986-11-26 1988-06-09 Philips Patentverwaltung Verfahren zur bestimmung des zeitlichen verlaufs eines sprachparameters und anordnung zur durchfuehrung des verfahrens
JPH0673080B2 (ja) * 1987-11-25 1994-09-14 日本電気株式会社 連続音声認識方式
US5228110A (en) * 1989-09-15 1993-07-13 U.S. Philips Corporation Method for recognizing N different word strings in a speech signal
JP2795719B2 (ja) * 1990-03-07 1998-09-10 富士通株式会社 認識距離の差に基づく最良優先探索処理方法
JP2697302B2 (ja) * 1990-11-28 1998-01-14 日本電気株式会社 連続単語認識方法
US5657424A (en) * 1995-10-31 1997-08-12 Dictaphone Corporation Isolated word recognition using decision tree classifiers and time-indexed feature vectors
US7346511B2 (en) * 2002-12-13 2008-03-18 Xerox Corporation Method and apparatus for recognizing multiword expressions
US7552051B2 (en) * 2002-12-13 2009-06-23 Xerox Corporation Method and apparatus for mapping multiword expressions to identifiers using finite-state networks
US7366352B2 (en) * 2003-03-20 2008-04-29 International Business Machines Corporation Method and apparatus for performing fast closest match in pattern recognition
US7227994B2 (en) * 2003-03-20 2007-06-05 International Business Machines Corporation Method and apparatus for imbedded pattern recognition using dual alternating pointers
US9026768B2 (en) * 2009-09-14 2015-05-05 AEMEA Inc. Executing machine instructions comprising input/output pairs of execution nodes
US9152779B2 (en) 2011-01-16 2015-10-06 Michael Stephen Fiske Protecting codes, keys and user credentials with identity and patterns
US10268843B2 (en) 2011-12-06 2019-04-23 AEMEA Inc. Non-deterministic secure active element machine

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS566028B2 (ja) * 1973-03-23 1981-02-09

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS566028U (ja) * 1979-06-22 1981-01-20
US4277644A (en) * 1979-07-16 1981-07-07 Bell Telephone Laboratories, Incorporated Syntactic continuous speech recognizer
US4349700A (en) * 1980-04-08 1982-09-14 Bell Telephone Laboratories, Incorporated Continuous speech recognition system
US4400788A (en) * 1981-03-27 1983-08-23 Bell Telephone Laboratories, Incorporated Continuous speech pattern recognizer

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS566028B2 (ja) * 1973-03-23 1981-02-09

Also Published As

Publication number Publication date
JPS58100195A (ja) 1983-06-14
DE3271214D1 (en) 1986-06-19
US4555796A (en) 1985-11-26
EP0082000B1 (en) 1986-05-14
CA1193729A (en) 1985-09-17
EP0082000A1 (en) 1983-06-22

Similar Documents

Publication Publication Date Title
JPH0159600B2 (ja)
US7139707B2 (en) Method and system for real-time speech recognition
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
JPH0422276B2 (ja)
US4962535A (en) Voice recognition system
JPH07146699A (ja) 音声認識方法
JPS58102299A (ja) 部分単位音声パタン発生装置
JP2001282283A (ja) 音声認識方法及び装置と記憶媒体
JP2005208648A (ja) スイッチング状態空間モデルによるマルチモーダル的変分推論を使用して音声を認識する方法
EP0162255B1 (en) Pattern matching method and apparatus therefor
CN112750445A (zh) 语音转换方法、装置和系统及存储介质
JP2980026B2 (ja) 音声認識装置
JPS58192100A (ja) 第1の音声パタ−ンを第2の音声パタ−ンと時間的に整列させる方法とその装置
US7275030B2 (en) Method and apparatus to compensate for fundamental frequency changes and artifacts and reduce sensitivity to pitch information in a frame-based speech processing system
JPS592040B2 (ja) 音声認織装置
JPH07219579A (ja) 音声認識装置
CN111613204B (zh) 一种快速响应的神经语音合成系统及其方法
JPH06266386A (ja) ワードスポッティング方法
US4794645A (en) Continuous speech recognition apparatus
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
JP2543584B2 (ja) 音声標準パタン登録方式
JPH0619491A (ja) 音声認識装置
JPH0355836B2 (ja)
JPH07325598A (ja) 音声認識装置
JPH0713587A (ja) 隠れマルコフモデル連結学習方法