JPH04232998A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH04232998A
JPH04232998A JP2418881A JP41888190A JPH04232998A JP H04232998 A JPH04232998 A JP H04232998A JP 2418881 A JP2418881 A JP 2418881A JP 41888190 A JP41888190 A JP 41888190A JP H04232998 A JPH04232998 A JP H04232998A
Authority
JP
Japan
Prior art keywords
likelihood
unit
recognition
calculation
recognition unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2418881A
Other languages
English (en)
Inventor
Kazunaga Yoshida
吉田 和永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2418881A priority Critical patent/JPH04232998A/ja
Publication of JPH04232998A publication Critical patent/JPH04232998A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声認識処理を高速に
実行するための処理装置に関するものである。
【0002】
【従来の技術】従来、連続して発声された音声を認識す
る方式として、たとえば、電子情報通信学会論文誌D 
 Vol.J71−D  No.9,(1988年9月
)の1650頁から1659頁に「フレーム同期化、ビ
ームサーチ、ベクトル量子化の統合によるDPマッチン
グの高速化」と題して発表されている論文(以下引用文
献1と称す)には、フレーム同期化DPマッチングを用
いた方式が示されている。この方式によって連続単語を
文法に従って認識する方法について以下に説明する。以
下認識単位として単語を単位とした場合を基に説明する
【0003】入力された音声は分析され、特徴ベクトル
の時系列である入力パターンAに変換される。
【0004】   A=a1,a2,…,ai,…,aI      
                      (1)
一方、認識対象となる単語n(1≦n≦N)の標準パタ
ーンBn、  Bn=bn1,bn2,…,bnj,…
,bnJn                (2)が
あらかじめ用意されている。ただし、Jnは単語nの標
準パターンのフレーム長である。認識される文は、有限
状態オートマトン(FSAと呼ぶ)により表される。 即ち、FSAは、単語nを受理すると状態pからqに遷
移するという状態遷移(p,q,n)の集合Δである。
【0005】   Δ={(p,q,n)}            
                         
   (3)これらを用いて、連続音声の認識が行われ
る。
【0006】まず、単語レベル処理として、以下の累積
距離gおよび経路値lに関する漸化式計算が行われる。 入力パターンAのフレームiと、単語nの標準パターン
Bnのフレームjの間のパターン間距離をd(n;i,
j)とする。この距離は尤度の逆数と等価である。 [初期値]  g(p,n;i−1,−1)=∞   
                         
                (4)   g(p,n;i−1,0) =T(p;i−1) 
                         
           (5)  l(p,n;i−1
,0) =i−1                 
                         
 (6)[漸化式]   g(p,n;i,j) =d(n;i,j) +m
in g(p,n;i−1,j)     [1]  
      (7)                
                g(p,n;i−1
,j−1)   [2]              
                  g(p,n;i
−1,j−2)   [3]  [1]  l(p,n
;i,j) =l(p,n;i−1,j)      
                     (8) 
 [2]              =l(p,n;
i−1,j−1)   [3]           
   =l(p,n;i−1,j−2) ここで、Tは
以下に述べる文レベル処理のための最小累積距離、(8
)式の[x]は、(7)式の[x]が最小値として選択
された場合の処理を示す。
【0007】続いて、文レベル処理として、(7),(
8)式の漸化式の結果を基に、最小累積距離T、直前の
時刻L、単語各Nのワークエリアを用いて、FSAΔに
示されている全ての状態qに対し以下の処理を行う。
【0008】もし、  T(q;i) ≧g(p,n;
i,Jn)  ならば、   T(q;i) =g(p,n;i,Jn)    
                         
         (9)  N(q;i) =n  
                         
                     (10)
  P(q;i) =p              
                         
         (11)  L(q;i) =l(
p,n;i,Jn)                
                      (12
)この処理をi=1〜Iまで行い、ワークエリアをバッ
クトラックすることにより認識結果が得られる。
【0009】また、電子情報通信学会刊、中川聖一「確
率モデルによる音声認識」(1988年7月)には(以
下引用文献2と称す)、隠れマルコフモデル(HMMと
呼ぶ)を用いた、連続音声の認識方式が示されている。 この方式は確率モデルを用いた方式であるが、特にここ
に示されているビタビアルゴリズムを用いた連続音声認
識の処理法は、基本的に引用文献1に示されている方式
と同じである。よって、以下では引用文献1に述べられ
ている方式を基に説明する。
【0010】これらの音声認識方式を用いることにより
高い性能を得られることが示されているが、特に多数の
語彙を認識する場合は、多くの計算量が必要となる。こ
のため、音声認識を複数の疎結合プロセッサを用いて行
う様々な方法がこれまでに提案されている。疎結合プロ
セッサは、プロセッサ毎にメモリを有しているので、メ
モリアクセスの競合がおこらず高速な処理が実現できる
【0011】たとえば、IEEE,Proceedin
gs  of  ICASSP89,S15.2,の7
78頁から781頁に”In  corporatin
g  Syntax  Into  The  Lev
el−Building  Algorithm  o
n  A  Tree−Structured  Pa
rallelComputer”(1989年5月)と
題されて発表されている論文(以下引用文献3と称す)
には、ツリー結合された複数のプロセッサ(ツリープロ
セッサと呼ぶ)を用いて、引用文献1に示されているよ
うなフレーム同期化DPマッチング(またはビタビアル
ゴリズム)による認識方式を実現する方法が示されてい
る。図5にツリープロセッサの構成を示す。上位のプロ
セッサは各々2つの下位プロセッサと相互に接続されて
いる。各プロセッサには各々異なる標準パターンBn、
および状態qが割り当てられている。
【0012】最上位のプロセッサに入力パターンAの特
徴ベクトルaiが入力されると、順次下位のプロセッサ
に転送される。転送が終了すると、各プロセッサでは、
割り当てられている標準パターンBnを用いて、並列的
に(7),(8)式で示されている単語レベル処理が行
われる。単語レベル処理が終了すると、文レベル処理に
必要な単語終端データg(p,n;i,Jn)、l(p
,n;i,Jn)が上位プロセッサに出力され、順次上
位に送られる。最上位プロセッサに送られたデータは、
再び下位プロセッサに順次送られる。データを受け取っ
たプロセッサは、割り当てられている状態qに対する(
9)〜(12)式に示されているような文レベル処理を
行う。この処理が終了したら、単語始端データT(p;
i−1)を上位プロセッサに送る。最上位プロセッサに
全てのデータが集められたら、再び下位プロセッサに送
られ、このデータを(5)式に示されているような初期
値として、次のフレームの入力パターン特徴ベクトルa
i+1に対する処理を行う。このように、単語レベル処
理、文レベル処理各々で並列に処理でき、データ転送時
間もツリー状にプロセッサが接続されているため比較的
少なくできる。
【0013】また、IEEE,Proceedings
  of  ICASSp89,S15.5,の789
頁から792頁に”A  Large−Vocabul
ary  Real−Time  Continuou
s−Speech  Recognition  Sy
stem”(1989年5月)と題されて発表されてい
る論文(以下引用文献4と称す)には、1つの単語レベ
ル処理を行うプロセッサ(単語プロセッサと呼ぶ)と、
複数の文レベル処理を行うプロセッサ(文プロセッサと
呼ぶ)を用いて文献1に述べられいるような認識方式を
実現する方法が示されている。図6にその構成を示す。 各文プロセッサは、ファーストイン・ファーストアウト
メモリ(以下FIFOと呼ぶ)を介して、単語プロセッ
サからの単語終端データg(p,n;i,Jn)、l(
p,n;i,Jn)を順次受け取り、文レベル処理を行
う。これにより、単語レベル処理と文レベル処理が並列
に処理できる。
【0014】
【発明が解決しようとする課題】従来の音声認識を複数
のプロセッサを用いる方式では、単語レベル処理、文レ
ベル処理、およびデータ転送の各処理を、各々複数のプ
ロセッサを並列的に用いて実行することはできなかった
【0015】たとえば、文献3に示されているようなツ
リープロセッサを用いる場合、単語レベル処理の中、お
よび文レベル処理の中では並列化可能であるが、それぞ
れの処理およびデータ転送の3種の処理は順次行う必要
がある。このため、データ転送時間がオーバヘッドとし
てかかること、単語レベル処理と文レベル処理の並列化
ができないため、それぞれの単位処理の時間は最低限必
要であるという欠点を有する。
【0016】また、文献4に示されているような構成で
は、単語レベルの処理を複数のプロセッサで実行するこ
とができないため、単語レベルの処理時間は1台のプロ
セッサの処理量で限定されるという欠点がある。
【0017】本発明の目的は、複数のプロセッサを用い
る音声認識において、単語レベル処理、文レベル処理の
各々複数のプロセッサによる並列処理を可能にし、かつ
データ転送も並列に行うことを可能にすることにより、
高速な音声認識処理を実現できる音声認識装置を提供す
ることにある。
【0018】
【課題を解決するための手段】第1の発明による音声認
識装置は、入力された音声を分析してフレーム毎の特徴
の時系列パターンを求める分析部と、前記フレーム毎の
特徴と、複数の認識単位に対する標準パターンとの尤度
を計算する1個以上の認識単位尤度計算部と、求められ
た認識単位尤度を一時保持する前記認識単位尤度計算部
毎に用意された第1のファーストイン・ファーストアウ
トメモリと、1個以上の前記第1のファーストイン・フ
ァーストアウトメモリから読み出された認識単位尤度を
書き込み保持する相互にバスで結合された1個以上の第
2のファーストイン・ファーストアウトメモリと、前記
第1のファーストイン・ファーストアウトメモリの中の
1つから認識単位尤度を読みだし、1個以上の前記第2
のファーストイン・ファーストアウトメモリへデータを
書き込むデータ転送部と、前記第2のファーストイン・
ファーストアウトメモリ中から読み出した認識単位尤度
を用いて文尤度を計算する1個以上の文尤度計算部とを
有する。
【0019】第2の発明による音声認識装置は、第1の
発明の構成に加え、前記第1のファーストイン・ファー
ストアウトメモリの状態を順次検査し、転送すべき認識
単位尤度が存在する場合前記データ転送部へデータ転送
要求を出力する転送指示部を有する。
【0020】第3の発明による音声認識装置は、第1,
2の発明の構成に加え、前記第1のファーストイン・フ
ァーストアウトメモリに転送すべき認識単位尤度が存在
する場合、あらかじめ定められた優先順位で1個の第1
のファーストイン・ファーストアウトメモリを選択し前
記データ転送部へデータ転送要求を出力する転送指示部
を有する。
【0021】第4の発明による音声認識装置は、第3の
発明の構成に加え、前記優先順位を順次変更する優先順
位変更部を有する。
【0022】第5の発明による音声認識装置は、第1,
2,3,4の発明の構成に加え、複数の前記認識単位に
対し共通な、前記認識単位を細分化した基本単位に対す
る前記フレーム毎の特徴の共通尤度を求める1個以上の
基本尤度計算部と、求められた共通尤度を1個以上の認
識単位尤度計算部に送る尤度転送部と、前記求められた
共通尤度を用いて認識単位に対する標準パターンとの尤
度を計算する1個以上の認識単位尤度計算部とを有する
【0023】第6の発明による音声認識装置は、第1,
2,3,4,5の発明の構成に加え、前記第2のファー
ストイン・ファーストアウトメモリから読み出された認
識単位尤度を書き込み保持する相互にバスで結合された
1個以上の第3のファーストイン・ファーストアウトメ
モリと、前記第2のファーストイン・ファーストアウト
メモリから前記認識単位尤度を読み出し前記第3のファ
ーストイン・ファーストアウトメモリへ書き込む第2の
データ転送部と、前記第3のファーストイン・ファース
トアウトメモリの中の認識単位尤度を用いて文尤度を計
算する1個以上の第2の文尤度計算部とを有する。
【0024】第7の発明による音声認識装置は、第1,
2,3,4,5,6の発明の構成に加え、前記認識単位
尤度計算部で求められた認識単位尤度が定められた基準
に満たない場合、前記第1のファーストイン・ファース
トアウトメモリへの書き込みを禁止する書き込み制御部
を有する。
【0025】第8の発明による音声認識装置は、第1,
2,3,4,5,6,7の発明の構成に加え、前記第2
のファーストイン・ファーストアウトメモリから読み出
された認識単位尤度の最大値を求める単位尤度最大計算
部と、前記単位尤度の最大値を基準として、前記認識単
位尤度計算部で求められた認識単位尤度の前記第1のフ
ァーストイン・ファーストアウトメモリへの書き込みを
禁止する書き込み制御部を有する。
【0026】第9の発明による音声認識装置は、第1,
2,3,4,5,6,7,8の発明の構成に加え、前記
認識単位尤度計算部の処理における最大尤度を求める最
大尤度計算部と、前記最大尤度の中で全前記認識単位尤
度計算部における最大値を求める最大値計算部と、前記
最大値を基に前記認識単位尤度計算部における計算の省
略を指示する計算制御部とを有する。
【0027】第10の発明による音声認識装置は、第1
,2,3,4,5,6,7,8,9の発明の構成に加え
、前記各認識単位尤度計算部の負荷を求める負荷計算部
と、前記各認識単位尤度計算部を相互に結合する第2の
バスと、前記負荷計算部の結果に従って、前記第2のバ
スを介して認識途中結果を転送する転送制御部とを有す
る。
【0028】
【作用】本発明による音声認識装置は、FIFOを介し
てバスに結合された複数の単語レベル処理を実行するプ
ロセッサと、FIFOを介して同じバスに結合された複
数の文レベル処理を実行するプロセッサと、FIFO間
のデータ転送を行う機構を用いることにより高い並列性
と拡張性を実現するものである。
【0029】図1に本発明による音声認識装置の構成を
示す。入力された音声は分析部1で分析され(1)式に
示されているような入力パターンAに変換される。特徴
ベクトルaiは、1フレーム毎に複数の単語レベルプロ
セッサに入力される。
【0030】単語レベルプロセッサ2は、中央処理ユニ
ット(CPUと呼ぶ)、メモリ等を有するプロセッサで
、マイクロプロセッサ、または、日本電気株式会社製μ
PD77230のようなディジタル信号処理プロセッサ
を用いることができる。また、文献4に示されているよ
うな専用プロセッサを用いてもよい。この単語レベルプ
ロセッサは1個以上いくつでもよいが、ここでは2−1
〜2−3の3個用いる場合を示す。
【0031】各単語レベルプロセッサ中のメモリには、
(2)式に示されているような標準パターンBnがあら
かじめ保持されている。たとえば、認識対象となる単語
数N=10の時、単語レベルプロセッサ2−1には単語
n=1〜3、単語レベルプロセッサ2−2には単語n=
4〜6、単語レベルプロセッサ2−3には単語n=7〜
10のごとく各々のプロセッサに割り当てられている。
【0032】単語レベルプロセッサ2−1〜2−3に特
徴ベクトルaiが入力されると、各々のプロセッサでは
保持されている標準パターンBnを用いて(7),(8
)式に示されている漸化式の計算を行う。1単語分の漸
化式計算が終わると、単語終端データがFIFO3−1
〜3−3に出力される。単語終端データは、たとえば、
単語名n,遷移先状態q,累積距離g(p,n;i,J
n),経路値l(p,n,i,Jn)の4つのデータか
らなる。ここで、遷移先状態qはFSAΔ=(p,q,
n)のデータを用いて、単語名n、遷移元状態pから求
めることができる。FIFO3−1〜3−3はバス4に
接続されている。
【0033】文レベルプロセッサ6は、単語レベルプロ
セッサ2と同様、CPU、メモリ等を有するプロセッサ
で、1個以上複数個用いることができる。ここでは6−
1,6−2の2個用いる場合を示す。文レベルプロセッ
サには処理すべき状態qが割り当てられている。たとえ
ば、全状態数6とし、状態q=1〜3は文レベルプロセ
ッサ6−1、状態q=4〜6は文レベルプロセッサ6−
1に割り当てられているとする。文レベルプロセッサ6
−1,6−2はFIFO5−1,5−2を介してバスに
結合されている。
【0034】FIFO3−1〜3−3に書き込まれた単
語終端データは、データ転送部4によりFIFO5−1
〜5−2に転送される。すなわちFIFO3−1〜3−
3内の単語終端データを4つのデータを組にして、任意
の順序でバスに出力し、FIFO5−1,5−2に書き
込む。文レベルプロセッサ6−1,6−2ではFIFO
5−1から単語終端データを読み込み、(9)〜(12
)式に従って文レベル処理を行う。
【0035】以上の処理、すなわち、単語レベルプロセ
ッサ2−1〜2−3、文レベルプロセッサ6−1,6−
2、および、データ転送部4によるデータ転送の各処理
は全て並列的に行うことができる。それぞれの処理にお
けるデータの入出力は、FIFOを介して行われるので
、実行の同期をとる必要はない。ただし、文レベル処理
を行うためには、単語終端データが得られている必要が
ある。そのため、単語終端点j=Jnに対する(7),
(8)式の漸化式計算を先に行うと良い。単語レベル処
理が1単語分でも先行していれば文レベル処理を並列的
に行うことができる。
【0036】文レベルプロセッサ6−1,6−2におい
て、1フレーム分の全ての単語終端データを受け取って
文レベル処理が終了すると、始端データT(p;i)が
順次出力され、単語レベルプロセッサ2−1〜2−3に
転送される。単語レベルプロセッサ2−1〜2−3では
、これを(5)式に示すように初期値として次のフレー
ムi+1の処理を行う。以上の動作をフレームi=1〜
Iまで繰り返すことにより認識処理を行うことができる
【0037】データ転送部4は、FIFO3に常にデー
タが存在するならば順次転送を行えば良い。しかし、単
語長が単語毎に異なる場合、単語終端データの存在しな
いFIFO3ができる可能性がある。そのような時はデ
ータの転送がデータができるまで止まってしまうおそれ
がある。そこで、第2の発明では、FIFO3中のデー
タの有無を順次検索し、データが存在する場合、データ
転送部4にデータ転送を指示する転送指示部7を有する
【0038】また、転送の有無を順次検索する場合、特
定のFIFOにデータが存在しないことがある。このよ
うな場合にFIFO3のデータの有無を順次検索すると
、検索のための時間が多くなるおそれがある。そこで、
第3の発明では、FIFOにデータが存在する場合、F
IFOは転送指示部7にデータ転送要求を出力する。転
送指示部7では、要求があったFIFO3への転送要求
をデータ転送部4に出力する。もし複数のFIFO3か
らデータ転送要求があった場合は、転送指示部7中にあ
らかじめ定められた優先順位に従って、1つずつデータ
転送要求をデータ転送部4に出力する。これにより、デ
ータの有無を検索する時間を省くことができる。
【0039】単語レベルプロセッサ2から出力される単
語間データが多い場合、転送指示部7で参照する優先順
位が固定であると、優先順位の高いFIFOのデータの
みが転送されて他のFIFOのデータは転送されずにF
IFO中に溜まることがある。そこで、第4の発明では
、この優先順位を順次変化させる優先順位変更部8を有
する。
【0040】文献1に述べられているようなベクトル量
子化を用いる場合、パターン間距離d(n;i,j)を
求める時に、コードブックC中の各コードベクトルc(
m)と入力パターンAの特徴ベクトルaiの間の距離δ
(m)が求められる。この距離計算は、全ての単語レベ
ルプロセッサで同じ処理が行われるので効率が悪い。 そこで、第5の発明では、このコードベクトルとの距離
を独立した距離計算プロセッサにおいて、他の処理と並
列的に行う。図2に第5の発明による音声認識装置の構
成の一部を示す。距離計算プロセッサ9は、他のプロセ
ッサと同様、CPU、メモリ等を有するプロセッサで、
1個以上複数個用いることができる。距離計算プロセッ
サ9のメモリ中にはコードベクトルc(m)が割り当て
られ保持されている。
【0041】分析部1から出力された特徴ベクトルai
は1フレーム毎に距離計算プロセッサ9に出力される。 距離計算プロセッサではコードベクトルc(m)と特徴
ベクトルaiとの距離が計算され、距離δ(m)として
単語レベルプロセッサ2−1〜2−3に出力される。単
語レベルプロセッサ2では、標準パターンはコードベク
トルの番号mjの列で表されている。このコードベクト
ルの番号と対応する距離δ(mj)をパターン距離d(
n;i,j)として用い、(7),(8)式の漸化式計
算を行い、以下同様の処理を行う。
【0042】これにより、単語レベルプロセッサ、文レ
ベルプロセッサの処理と並列的に距離計算プロセッサの
処理を行うことができる。ここでは、文献1に述べられ
ているようなベクトル量子化を用いる場合を例に述べた
が、第5の発明は、これ以外にも例えば文献2の106
頁以下に述べられているような、音声基本単位を使った
音声認識方式に用いることができる。この場合、距離計
算プロセッサでは、音声基本単位の出現確率(距離と同
等)を距離計算プロセッサで計算する。
【0043】単語終端データの量は1単語に付き1組で
あるため比較的少ないが、これらのデータは一つのバス
を用いて転送するため、プロセッサ数をきわめて多くし
た場合このデータ転送がネックとなる恐れがある。そこ
で、第6の発明では、以上述べた本発明による音声認識
装置を複数台、FIFOを用いて相互にバスを結合して
いる。図3に第6の発明による音声認識装置の構成図を
示す。2組の音声認識装置IおよびIIのバスがFIF
O10,11を介して結合されている。各プロセッサに
は、それぞれ異なる認識対象単語および状態が割り当て
られている。
【0044】分析部1で分析された入力パターンAの特
徴ベクトルaiは、単語レベルプロセッサ2−1〜2−
3、および、単語レベルプロセッサ12−1,12−2
に入力される。各単語レベルプロセッサでは単語レベル
処理が行われ、単語終端データが各FIFO3−1〜3
−3および13−1,13−2に出力される。データ転
送部4は、FIFO3−1〜3−3および10の中の単
語終端データを、FIFO5−1,5−2および11に
転送する。この際、FIFO10のデータはFIFO1
1に転送しないようにする。一方、データ転送部14は
、FIFO13−1,13−2および11の中の単語終
端データをFIFO15およびFIFO10に転送する
。同様にFIFO11のデータはFIFO10に転送し
ないようにする。文レベルプロセッサ6−1,6−2お
よび16では、(9)〜(12)式に示されているよう
な文レベル処理を行う。
【0045】これにより、プロセッサ数を増やした場合
も、バスを分割することにより個々のバスにおけるデー
タ転送量、および電気的な負荷を軽減することができる
。ここでは2組の音声認識装置を組み合わせる場合を示
したが、より多くの音声認識装置も同様に組み合わせる
ことが可能である。
【0046】第7の発明ではデータ転送量、および、計
算量を削減するため、単語レベルプロセッサにおいて、
求められた単語終端データの累積距離g(p,n;i,
Jn)が基準にみたない場合はFIFOに出力しないと
いう書き込み制御部を有している。これにより、FIF
O間のデータ転送量を削減できる。さらに、文レベルプ
ロセッサでの処理は、単語終端データが入力されないか
ぎり実行されないので文レベルプロセッサの処理量を削
減することができる。
【0047】この場合、書き込み制御部の累積距離評価
の基準としてあらかじめ定められた閾値を用いることが
できる。この閾値として、文献1に述べられているよう
に、各フレームで求めた累積距離g中の最小値gmin
 に基づく方法が実用性が高い。しかし、単語レベルプ
ロセッサは複数存在するので、各プロセッサでgの最小
値を求めても全体での最小値とはならないため、十分に
計算量を削減できない。そこで、本発明による第8の発
明では、全単語終端データの累積距離g(p,n;i,
Jn)の中の最小値を求める。そのため、まず文レベル
プロセッサにおいて読み込んだ単語終端データの累積距
離g(p,n;i,Jn)の中の最小値Tmin が、
最小値計算部で求められる。全文レベルプロセッサから
送られた最小値Tmin は、さらに全体最小値計算部
において全体の最小値TAmin が求められる。求め
られた全体の最小値TAmin を基準として、書き込
み制御部の閾値を決定する。たとえば、閾値θ=TAm
in +λのように決定できる。すなわち、g(p,n
;i,Jn)〉θの時はFIFOへの書き込みを禁止す
る。
【0048】さらに、単語端点だけでなく、文献1に述
べられているビームサーチ法を適用することにより単語
レベルプロセッサにおける計算量を低減することができ
る。このとき、閾値を求める基準として前述の第8の発
明と同様に全単語レベルプロセッサにおける累積距離の
最小値が求められると良い。そこで、第9の発明では、
まず各単語レベルプロセッサにおける累積距離gの最小
値gwmin を求める。続いて全単語レベルプロセッ
サで求められた最小値gwmin の中の最小値gam
in を求める。求められた最小値は全単語レベルプロ
セッサに送られ、この値を基に文献1で述べられている
ようなビームサーチを用いることにより計算量を低減で
きる。
【0049】このようなビームサーチによる計算量低減
の効果は各単語レベルプロセッサにより一様でないので
、処理量が多いプロセッサと少ないプロセッサの間で格
差ができる。全体の処理時間は最も遅いプロセッサの処
理時間によって決まるので、このようにプロセッサ間に
格差ができると全体の効率は悪化する。そこで、第10
の発明では、まず各単語レベルプロセッサの負荷を求め
る。この負荷は、たとえばビーム内に残っている計算す
べき累積距離gの数を処理量として、決めることができ
る。処理量最大のプロセッサと最小のプロセッサの間の
処理量の差が一定値を越えた場合、単語の割当を変更す
るようにする。これによりプロセッサ間の処理量のバラ
ンスを保つことができる。このため、処理量最大のプロ
セッサに割り当てられているいくつかの単語の累積距離
、経路値を処理量最小のプロセッサに転送する。この転
送を行うために単語レベルプロセッサ間を結ぶバスを設
ける。これにより始端データ転送時等に同時に処理時間
をかけずに負荷の分散が実現できる。
【0050】
【実施例】本発明による音声認識装置の実施例について
図面を参照して説明する。図1は第1〜4の発明による
一実施例を示す構成図である。入力された音声は分析部
1で分析され入力パターンAに変換される。特徴ベクト
ルaiは、1フレーム毎に複数の単語レベルプロセッサ
2−1〜2−3に入力される。
【0051】単語レベルプロセッサ2−1〜2−3に特
徴ベクトルaiが入力されると、各々のプロセッサでは
保持されている標準パターンBnを用いて(7),(8
)式に示されている漸化式の計算を行う。1単語分の漸
化式計算が終わると、単語終端データ(n,q,g,l
)がFIFO3−1〜3−3に出力される。FIFO3
−1〜3−3はバス4に接続されている。FIFO3−
1〜3−3に書き込まれた単語終端データは、データ転
送部4によりFIFO5−1,5−2に転送される。
【0052】文レベルプロセッサ6−1,6−2ではF
IFO5−1から単語終端データを読み込み、(9)〜
(12)式に従って文レベル処理を行う。文レベルプロ
セッサ6−1,6−2において、1フレーム分の全ての
単語終端データを受け取って文レベル処理が終了すると
、始端データT(p;i)が順次出力され、単語レベル
プロセッサ2−1〜2−3に転送される。単語レベルプ
ロセッサ2−1〜2−3では、これを(5)式に示すよ
うに初期値として次のフレームi+1の処理を行う。 以上の動作をフレームi=1〜Iまで繰り返すことによ
り認識処理が終了する。
【0053】第2の発明による実施例では、第1の発明
の実施例の構成に加え、FIFO3−1〜3−3のデー
タの有無を順次検索し、データが存在する場合、データ
転送部4にデータ転送を指示する転送指示部7を有する
【0054】第3の発明による実施例では、第1の発明
の実施例の構成に加え、FIFO3−1〜3−3にデー
タが存在する場合、各FIFOは転送指示部7にデータ
転送要求を出力する。転送指示部7では、要求があった
FIFO3への転送要求をデータ転送部4に出力する。 もし複数のFIFO3からデータ転送要求があった場合
は、転送指示部7中にあらかじめ定められた優先順位に
従って、1つずつデータ転送要求をデータ転送部4に出
力する。
【0055】第4の発明による実施例では、第3の発明
の実施例の構成に加え、転送指示部7で参照する優先順
位を順次変化させる優先順位変更部8を有する。
【0056】図2は、第5の発明による実施例の一部を
示す構成図である。ここでは、第1〜4の発明の構成に
加えて、図に示すごとく1個以上の距離計算プロセッサ
9を有する。
【0057】分析部1から出力された特徴ベクトルai
は1フレーム毎に距離計算プロセッサ9に出力される。 距離計算プロセッサでは基本単位mと特徴ベクトルai
との距離が計算され、距離δ(m)として単語レベルプ
ロセッサ2−1〜2−3に出力される。単語レベルプロ
セッサ2では、標準パターンは基本単位の番号mjの列
で表されている。これと対応する距離δ(mj)をパタ
ーン距離d(n;i,j)として用い、(7),(8)
式の漸化式計算を行い、以下同様の処理を行う。
【0058】図3は、第6の発明による実施例を示す構
成図である。分析部1で分析された入力パターンAの特
徴ベクトルaiは、単語レベルプロセッサ2−1〜2−
3、および、単語レベルプロセッサ12−1,12−2
に入力される。各単語レベルプロセッサでは単語レベル
処理が行われ、単語終端データが各FIFO3−1〜3
−3および13−1,13−2に出力される。
【0059】データ転送部4は、FIFO3−1〜3−
3および10の中の単語終端データを、FIFO5−1
,5−2および11に転送する。一方、データ転送部1
4は、FIFO13−1,13−2および11の中の単
語終端データをFIFO15およびFIFO10に転送
する。文レベルプロセッサ6−1,6−2および16で
は、(9)〜(12)式に示されているような文レベル
処理を行う。
【0060】図4は、第7〜10の発明による実施例を
示す構成図である。第7の発明では、第1〜6の発明の
構成に加えて、書き込み制御部20−1〜20−3を有
する。
【0061】単語レベルプロセッサ2−1〜2−3にお
いて、求められた単語終端データの累積距離g(p,n
;i,Jn)が書き込み制御部20−1〜20−3に出
力されると、あらかじめ定められた閾値と比較し、大き
い場合は書き込み制御信号wを出力する。単語レベルプ
ロセッサ2−1〜2−3では、この書き込み制御信号w
を受け取ると、単語終端データをFIFOに出力しない
【0062】第8の発明では、第7の発明に加えて、文
レベルプロセッサから読み込んだ単語終端データの累積
距離g(p,n;i,Jn)が出力され、その中の最小
値Tmin は、さらに全体最小値計算部22において
全体の最小値Tmin が求められる。求められた全体
の最小値Tmin は書き込み制御部20−1〜20−
3に送られ、これを基にたとえば、閾値をθ=TAmi
n +λのように決定できる。すなわち、g(p,n;
i,Jn)〉θの時はFIFOへの書き込みを禁止する
【0063】第9の発明による実施例では、第1〜8の
発明に加え、まず各単語レベルプロセッサにおいて、累
積距離gの最小値gwmin が求められる。続いて全
単語レベルプロセッサで求められた最小値gwmin 
の中の最小値gamin が単語レベル最小値計算部2
3で計算される。求められた最小値は全単語レベルプロ
セッサに送られ、この値を基に文献1で述べられている
ようなビームサーチが行われる。
【0064】第10の発明による実施例では、負荷計算
制御部24において、まず各単語レベルプロセッサの負
荷を求める。この負荷は、たとえばビーム内に残ってい
る計算すべき累積距離gの数を処理量として、決めるこ
とができる。処理量最大のプロセッサと最小のプロセッ
サの間の処理用の差が一定値を越えた場合、処理量最大
のプロセッサに割り当てられているいくつかの単語の累
積距離、経路値を処理量最小のプロセッサに単語レベル
プロセッサ間を結ぶバス25を通して転送し、単語の割
当を変更する。
【0065】
【発明の効果】本発明によれば、複数のプロセッサを用
いる音声認識において、単語レベル処理、文レベル処理
の各々複数のプロセッサによる並列処理を可能にし、か
つデータ転送も並列に行うことを可能にすることにより
、高速な音声認識装置を実現することができる。
【図面の簡単な説明】
【図1】第1〜4の発明による一実施例を示す構成図で
ある。
【図2】第5の発明による実施例の一部を示す構成図で
ある。
【図3】第6の発明による実施例を示す構成図である。
【図4】第7〜10の発明による実施例を示す構成図で
ある。
【図5】従来例を説明するための構成図である。
【図6】従来例を説明するための構成図である。
【符号の説明】
1  分析部 2−1〜2−3  単語レベルプロセッサ3−1〜3−
3  FIFO 4  データ転送部 5−1,5−2  FIFO 6−1,6−2  文レベルプロセッサ7  転送指示
部 8  優先順位変更部 9  距離計算プロセッサ

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】入力された音声を分析してフレーム毎の特
    徴の時系列パターンを求める分析部と、前記フレーム毎
    の特徴と、複数の認識単位に対する標準パターンとの尤
    度を計算する1個以上の認識単位尤度計算部と、求めら
    れた認識単位尤度を一時保持する前記認識単位尤度計算
    部毎に用意された第1のファーストイン・ファーストア
    ウトメモリと、1個以上の前記第1のファーストイン・
    ファーストアウトメモリから読み出された認識単位尤度
    を書き込み保持する相互にバスで結合された1個以上の
    第2のファーストイン・ファーストアウトメモリと、前
    記第1のファーストイン・ファーストアウトメモリの中
    の1つから認識単位尤度を読みだし、1個以上の前記第
    2のファーストイン・ファーストアウトメモリへデータ
    を書き込むデータ転送部と、前記第2のファーストイン
    ・ファーストアウトメモリ中から読み出した認識単位尤
    度を用いて文尤度を計算する1個以上の文尤度計算部と
    を有する音声認識装置。
  2. 【請求項2】前記第1のファーストイン・ファーストア
    ウトメモリの状態を順次検査し、転送すべき認識単位尤
    度が存在する場合前記データ転送部へデータ転送要求を
    出力する転送指示部を有することを特徴とする請求項1
    記載の音声認識装置。
  3. 【請求項3】前記第1のファーストイン・ファーストア
    ウトメモリに転送すべき認識単位尤度が存在する場合、
    あらかじめ定められた優先順位で1個の第1のファース
    トイン・ファーストアウトメモリを選択し前記データ転
    送部へデータ転送要求を出力する転送指示部を有するこ
    とを特徴とする請求項1記載の音声認識装置。
  4. 【請求項4】前記優先順位を順次変更する優先順位変更
    部を有することを特徴とする請求項3記載の音声認識装
    置。
  5. 【請求項5】複数の前記認識単位に対し共通な、前記認
    識単位を細分化した基本単位に対する前記フレーム毎の
    特徴の共通尤度を求める1個以上の基本尤度計算部と、
    求められた共通尤度を1個以上の認識単位尤度計算部に
    送る尤度転送部と、前記求められた共通尤度を用いて認
    識単位に対する標準パターンとの尤度を計算する1個以
    上の認識単位尤度計算部とを有することを特徴とする請
    求項1,2,3,4のいずれかに記載の音声認識装置。
  6. 【請求項6】前記第2のファーストイン・ファーストア
    ウトメモリから読み出された認識単位尤度を書き込み保
    持する相互にバスで結合された1個以上の第3のファー
    ストイン・ファーストアウトメモリと、前記第2のファ
    ーストイン・ファーストアウトメモリから前記認識単位
    尤度を読み出し前記第3のファーストイン・ファースト
    アウトメモリへ書き込む第2のデータ転送部と、前記第
    3のファーストイン・ファーストアウトメモリの中の認
    識単位尤度を用いて文尤度を計算する1個以上の第2の
    文尤度計算部とを有することを特徴とする請求項1,2
    ,3,4,5のいずれかに記載の音声認識装置。
  7. 【請求項7】前記認識単位尤度計算部で求められた認識
    単位尤度が定められた基準に満たない場合、前記第1の
    ファーストイン・ファーストアウトメモリへの書き込み
    を禁止する書き込み制御部を有することを特徴とする請
    求項1,2,3,4,5,6のいずれかに記載の音声認
    識装置。
  8. 【請求項8】前記第2のファーストイン・ファーストア
    ウトメモリから読み出された認識単位尤度の最大値を求
    める単位尤度最大計算部と、前記単位尤度の最大値を基
    準として、前記認識単位尤度計算部で求められた認識単
    位尤度の前記第1のファーストイン・ファーストアウト
    メモリへの書き込みを禁止する書き込み制御部を有する
    ことを特徴とする請求項7記載の音声認識装置。
  9. 【請求項9】前記認識単位尤度計算部の処理における最
    大尤度を求める最大尤度計算部と、前記最大尤度の中で
    全前記認識単位尤度計算部における最大値を求める最大
    値計算部と、前記最大値を基に前記認識単位尤度計算部
    における計算の省略を指示する計算制御部とを有するこ
    とを特徴とする請求項1,2,3,4,5,6,7,8
    のいずれかに記載の音声認識装置。
  10. 【請求項10】前記各認識単位尤度計算部の負荷を求め
    る負荷計算部と、前記各認識単位尤度計算部を相互に結
    合する第2のバスと、前記負荷計算部の結果に従って、
    前記第2のバスを介して認識途中結果を転送する転送制
    御部とを有することを特徴とする請求項1,2,3,4
    ,5,6,7のいずれかに記載の音声認識装置。
JP2418881A 1990-12-27 1990-12-27 音声認識装置 Pending JPH04232998A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2418881A JPH04232998A (ja) 1990-12-27 1990-12-27 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2418881A JPH04232998A (ja) 1990-12-27 1990-12-27 音声認識装置

Publications (1)

Publication Number Publication Date
JPH04232998A true JPH04232998A (ja) 1992-08-21

Family

ID=18526636

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2418881A Pending JPH04232998A (ja) 1990-12-27 1990-12-27 音声認識装置

Country Status (1)

Country Link
JP (1) JPH04232998A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7930180B2 (en) 2005-01-17 2011-04-19 Nec Corporation Speech recognition system, method and program that generates a recognition result in parallel with a distance value
JP2015501011A (ja) * 2011-12-19 2015-01-08 スパンション エルエルシー 音響処理ユニットインタフェース

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58189696A (ja) * 1982-04-30 1983-11-05 日産自動車株式会社 車両用音声認識装置
JPS6227799A (ja) * 1985-07-29 1987-02-05 株式会社日立製作所 音声認識装置
JPH02141862A (ja) * 1988-11-24 1990-05-31 Nec Corp データ転送制御方式
JPH02154300A (ja) * 1988-12-06 1990-06-13 Nec Corp 高速音声認識装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58189696A (ja) * 1982-04-30 1983-11-05 日産自動車株式会社 車両用音声認識装置
JPS6227799A (ja) * 1985-07-29 1987-02-05 株式会社日立製作所 音声認識装置
JPH02141862A (ja) * 1988-11-24 1990-05-31 Nec Corp データ転送制御方式
JPH02154300A (ja) * 1988-12-06 1990-06-13 Nec Corp 高速音声認識装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7930180B2 (en) 2005-01-17 2011-04-19 Nec Corporation Speech recognition system, method and program that generates a recognition result in parallel with a distance value
JP2015501011A (ja) * 2011-12-19 2015-01-08 スパンション エルエルシー 音響処理ユニットインタフェース

Similar Documents

Publication Publication Date Title
CN107408384B (zh) 部署的端对端语音识别
US20210151032A1 (en) Speech recognition circuit and method
US8566259B2 (en) Method and system for parallel statistical inference on highly parallel platforms
EP0854468B1 (en) System and method for determinizing and minimizing a finite state transducer for speech recognition
US6735588B2 (en) Information search method and apparatus using Inverse Hidden Markov Model
EP2893435B1 (en) Methods for hybrid gpu/cpu data processing
US20050159952A1 (en) Pattern matching for large vocabulary speech recognition with packed distribution and localized trellis access
JP6138148B2 (ja) 演算論理ユニットアーキテクチャ
JP3814459B2 (ja) 音声認識方法及び装置と記憶媒体
US7930180B2 (en) Speech recognition system, method and program that generates a recognition result in parallel with a distance value
JP2010044637A (ja) データ処理装置、方法、及びプログラム
US5164990A (en) Method and apparatus for recognizing unknown spoken words and by feature extraction and comparison with reference words
CN105340005B (zh) 基于直方图获取有效hmm的预剪枝方案
JPH04232998A (ja) 音声認識装置
JP2964881B2 (ja) 音声認識装置
US20220147570A1 (en) Information processing apparatus and information processing method
CN113838456A (zh) 音素提取方法、语音识别方法、装置、设备及存储介质
US20130144609A1 (en) Text processing system, text processing method, and text processing program
US8996374B2 (en) Senone scoring for multiple input streams
Oonishi et al. Generalization of specialized on-the-fly composition
Bisiani et al. Recent improvements to the harpy connected speech recognition system
JPH02154300A (ja) 高速音声認識装置
JPH07325598A (ja) 音声認識装置
JPH08202384A (ja) 音声認識方法及び装置
JPH04299457A (ja) 文章解析装置