JP3226716B2

JP3226716B2 - 音声認識装置

Info

Publication number: JP3226716B2
Application number: JP11777194A
Authority: JP
Inventors: 真二古賀
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1994-05-31
Filing date: 1994-05-31
Publication date: 2001-11-05
Anticipated expiration: 2016-11-05
Also published as: JPH07325598A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声認識装置に関する。

【０００２】

【従来の技術】従来の音声認識装置は、一般に、予め発
声した学習データから作成した標準モデルを用いて、こ
れらと未知音声から求めた音声パターンとの類似度を求
め、最大の類似度を与える標準モデルに対するカテゴリ
を認識結果とする方法を用いている。標準モデルとして
は、中川著、1988年、電子情報通信学会発行の「確率モ
デルによる音声認識」（以下、文献１と記す）に述べら
れている隠れマルコフモデル（以下、ＨＭＭと呼ぶ）が
広く用いられている。ＨＭＭは、状態遷移ネットワーク
の一種で、状態間の遷移には状態遷移確率とベクトル出
力確率とが定義されている。文献１でのＨＭＭを用いた
音声認識アルゴリズムの例（例えば４０〜４２頁）で
は、音声パターンの時刻t(t ＝1,2,…, Ｔ、Ｔは音声パ
ターンの時間長）において、すべての状態i(i ＝1,2,
…，Ｉ、Ｉは標準モデル内の状態数）に対して、式(1)
の漸化式計算により前向き確率α(i,t)(以下、累積尤度
と呼ぶ）を求める。

【０００３】

【０００４】ここで、 a_jiは状態ｊから状態ｉへの状態
遷移確率、y_tは音声パターン中の時刻ｔでの特徴ベクト
ル、 b_ji(y_t)は状態ｊから状態ｉへの遷移の際にy_tを出
力する確率（以下、ベクトル間尤度と呼ぶ）である。状
態ｊは状態ｉに遷移可能な状態である。時刻Ｔでの累積
尤度α(i,T）を用いて認識結果を算出する。

【０００５】各時刻における式(1) の漸化式計算には、
非常に多くの演算量を要し、特に認識語彙数が多い大語
彙音声認識においては、その量が膨大となるため、実時
間での認識が困難となる。これに対し、処理速度が速い
計算機や専用ＬＳＩの使用などハードウェアの点から高
速化を図る以外に、アーキテクチャの面から高速化が図
られている。例えば、式(1) の漸化式計算を、ベクトル
間尤度の算出と累積尤度の算出とに分割し、それぞれを
実行する処理部を設け（以下、それぞれベクトル間尤度
計算部、累積尤度計算部と呼ぶ）、この２つの処理部を
直列につなぎ、パイプライン処理により式(1) を計算す
る方法がある。即ち、時刻ｔで求められたベクトル間尤
度 b_ji(y_t)を累積尤度計算部に転送し、次の時刻ｔ＋１
では、ベクトル間尤度計算部で時刻ｔ＋１に対するベク
トル間尤度 b_ji(y_t+1)を求め、累積尤度計算部で時刻ｔ
に対する累積尤度α(i,t）を求めることにより、ベクト
ル間尤度の算出と累積尤度の算出を並列化し、処理の高
速化を図るものである。

【０００６】

【発明が解決しようとする課題】上述した従来の音声認
識装置は、ベクトル間尤度計算部と累積尤度計算部の処
理を並列化することはできるが、ベクトル間尤度計算部
から累積尤度計算部へのデータの転送は並列化できず、
データ転送中はベクトル間尤度計算と累積尤度計算が実
行できないため、転送データが多い場合、データ転送が
処理速度の低下の要因となってしまうという問題点があ
る。

【０００７】本発明の目的は、データ転送による処理速
度の低下を抑え、高速な認識処理を実現することができ
る音声認識装置を提供することにある。

【０００８】

【課題を解決するための手段】本発明の音声認識装置
は、予め作成した標準モデルを蓄えておく標準モデル記
憶部と、入力する音声信号を分析して特徴ベクトル時系
列を出力する特徴分析部と、前記特徴分析部の出力する
特徴ベクトル時系列の各特徴ベクトルと前記標準モデル
とのベクトル間尤度を求めるベクトル間尤度計算部と、
通過する複数の入出力信号を重なることなく伝達方向を
交互に切替えながら伝達するセレクタ部と、前記ベクト
ル間尤度計算部の出力するベクトル間尤度を前記セレク
タ部を介して蓄える第１尤度記憶部および第２尤度記憶
部と、入力する累積尤度を蓄える累積尤度記憶部と、前
記セレクタ部を介して受領する前記第１尤度記憶部およ
び第２尤度記憶部のいずれか一方に蓄えられたベクトル
間尤度と前記累積尤度記憶部に蓄えられた累積尤度と前
記標準モデル記憶部に蓄えられた標準モデルとから新し
い累積尤度を求め前記累積尤度記憶部に出力する累積尤
度計算部と、前記累積尤度記憶部と並列に接続し前記累
積尤度計算部の出力する新しい累積尤度から前記音声信
号に対する認識結果を求める結果決定部とを有する構成
である。

【０００９】本発明の音声認識装置は、ベクトル間尤度
計算部がベクトル間尤度を求めた後に出力するベクトル
間尤度計算終了信号と累積尤度計算部が累積尤度を求め
た後に出力する累積尤度計算終了信号とを受領後にセレ
クタ部に対して接続の切替えを指示する切替え信号を出
力するタイミング制御部を有してもよい。

【００１０】

【実施例】次に、本発明の実施例について図面を参照し
て説明する。

【００１１】図１は本発明の第１の実施例のブロック図
である。

【００１２】本発明の音声認識装置１０は、予め作成し
た標準モデルを蓄えておく標準モデル記憶部１と、入力
する音声信号を分析して特徴ベクトル時系列を出力する
特徴分析部２と、特徴分析部２の出力する特徴ベクトル
時系列の各特徴ベクトルと標準モデルとのベクトル間尤
度を求めるベクトル間尤度計算部３と、通過する複数の
入出力信号を重なることなく伝達方向を交互に切替えな
がら伝達するセレクタ部４と、ベクトル間尤度計算部３
の出力するベクトル間尤度をセレクタ部４を介して蓄え
る第１尤度記憶部５および第２尤度記憶部６と、入力す
る累積尤度を蓄える累積尤度記憶部７と、セレクタ部４
を介して受領する第１尤度記憶部５および第２尤度記憶
部６のいずれか一方に蓄えられたベクトル間尤度と累積
尤度記憶部７に蓄えられた累積尤度と標準モデル記憶部
１に蓄えられた標準モデルとから新しい累積尤度を求め
累積尤度記憶部７に出力する累積尤度計算部８と、累積
尤度記憶部７と並列に接続し累積尤度計算部８の出力す
る新しい累積尤度から音声信号に対する認識結果を求め
る結果決定部９とを備えている。

【００１３】標準モデル記憶部１は、単語単位の標準モ
デルＰ_k (k=1,2, …, Ｋ、Ｋは単語数）を予め記憶して
いる。標準モデルは単語単位ではなく、音節や音素など
単語より小さい単位で用意することも可能である。また
標準モデルＰ_k として、文献１に述べられているＨＭＭ
を用いることができ、文献１の例えば５１〜６２頁に述
べられている学習方法により作成することができる。Ｈ
ＭＭの状態間の遷移には状態遷移確率ａ^k _ji(i,j=1,2,
…,I^k 、I^kは標準モデルＰ_k 内の状態数) と特徴ベクト
ル出現確率とが定義されている。特徴ベクトル出現確率
としては、ガウス分布Ｎ（μ^k _ji,Σ^k _ji ）（μ^k _ji は平
均ベクトル、Σ^k _ji は共分散行列) を用いることができ
る。

【００１４】次に、図１を参照して第１の実施例の動作
について説明する。

【００１５】未知の音声信号は、特徴分析部２に入力さ
れ、古井著、1985年、東海大学出版会発行の「ディジタ
ル音声処理」の、例えば１５５頁に述べられているよう
なメルケプストラムによる方法を用いて、特徴ベクトル
時系列Ｙ＝{y₁,y₂, …,y_t,…,y_T}に変換される。この特
徴ベクトル時系列Ｙ中の１時刻分の特徴ベクトルy_tと、
標準モデル記憶部１に保持されている標準モデルＰ_k 中
のガウス分布Ｎ（μ^k _ji,Σ^k _ji ）のパラメータとがベク
トル間尤度計算部３に入力され、式(2) に従ってベクト
ル間尤度ｂ^k _ji(y_t) が求められる。

【００１６】

【００１７】ここで、Ｎはガウス分布の次元数であり、
ｔは転置、−１は逆行列を示す。

【００１８】セレクタ部４は、ベクトル間尤度計算部３
および累積尤度計算部８と、第１尤度記憶部５および第
２尤度記憶部６との接続の切替えを重なることなく行
う。即ち、ベクトル間尤度計算部３と第１尤度記憶部５
とを接続する場合は、累積尤度計算部８と第２尤度記憶
部６とを接続し、逆に、ベクトル間尤度計算部３と第２
尤度記憶部６とを接続する場合は、累積尤度計算部８と
第１尤度記憶部５とを接続する。切替えは時間に同期し
て行う。時刻ｔでは、ベクトル間尤度計算部３と第１尤
度記憶部５、累積尤度計算部８と第２尤度記憶部６がそ
れぞれ接続されているとすると、ベクトル間尤度計算部
３で求めたベクトル間尤度ｂ^k _ji(y_t) は、逐次第１尤度
記憶部５に蓄えられていく。

【００１９】次の時刻ｔ＋１では、ベクトル間尤度計算
部３と第２尤度記憶部６、累積尤度計算部８と第１尤度
記憶部５がそれぞれ接続される。累積尤度計算部８で
は、第１尤度記憶部５に蓄えられているベクトル間尤度
ｂ^k _ji(y_t) と、標準モデル記憶部１に保持されている標
準モデルＰ_k 中の状態遷移確率ａ^k _ji と、累積尤度記憶
部７に蓄えられている時刻ｔ−１に対する累積尤度α
^k(j,t-1)を用いて、式(3)に従って時刻ｔに対する累積
尤度α^k(i,t)が求められる。

【００２０】

【００２１】状態ｊは、状態ｉに遷移可能な状態であ
る。この間、ベクトル間尤度計算部３では、時刻ｔ＋１
に対するベクトル間尤度ｂ^k _ji(y_t+1) が求められる。

【００２２】求められた累積尤度α^k(i,t)は、累積尤度
記憶部７と結果決定部９に入力される。累積尤度記憶部
７では、時刻ｔ＋１での累積尤度の計算のために、累積
尤度α^k(i,t)が蓄えられる。結果決定部９では、累積尤
度α^k(i,t)が最終時刻Ｔに対するものであった場合、標
準モデル内の終端状態に対する累積尤度が最も大きい標
準モデルの単語が認識結果として出力される。

【００２３】このように、同一の時間にベクトル間尤度
の計算と累積尤度の計算を並列に独立して行え、さら
に、ベクトル間尤度計算部３から累積尤度計算部８への
データの受渡しを第１尤度記憶部５および第２尤度記憶
部６の切替えにより行うので、データ転送時間が省け、
高速に処理が行える。

【００２４】図２は本発明の第２の実施例を示すブロッ
ク図である。

【００２５】本発明の第２の実施例である音声認識装置
２０の構成は、第１の実施例である音声認識装置１０と
ほとんど同一であるが、ベクトル間尤度計算部１１には
ベクトル間尤度を求めた後にベクトル間尤度計算終了信
号を出力する機能、累積尤度計算部１２には累積尤度を
求めた後に累積尤度計算終了信号を出力する機能をそれ
ぞれ持たせ、ベクトル間尤度計算終了信号と累積尤度計
算終了信号とを受領後にセレクタ部１３に対して、接続
の切替えを指示する切替え信号を出力するタイミング制
御部１４を新たに設けた点が異なる。なお、第１の実施
例と同一の機能のものは、名称および符号を同一とし、
説明は省略する。

【００２６】次に、図２を参照して第２の実施例の動作
について説明する。

【００２７】第２の実施例の動作は、第１の実施例の動
作と比較すると、第１尤度記憶部５および第２尤度記憶
部６への接続の切替え操作が異なっており、他の動作は
同一である。第１の実施例では、接続の切替えは時間に
同期して行われていたが、第２の実施例では、１時刻分
のベクトル間尤度計算終了後、ベクトル間尤度計算部１
１がベクトル間尤度計算終了信号をタイミング制御部１
４に出力し、同様に、１時刻分の累積尤度計算終了後、
累積尤度計算部１２が累積尤度計算終了信号をタイミン
グ制御部１４に出力する。タイミング制御部１４では、
上記２つの終了信号を受信すると、セレクタ部１３に切
替え信号を出力し、セレクタ部１３は、切替え信号を受
信すると、接続を切替え、切替え終了後、切替え終了信
号をタイミング制御部１４に出力する。切替え終了信号
受信後、タイミング制御部１４からは、次の時刻での処
理を開始するため、ベクトル間尤度計算部１１および累
積尤度計算部１２に、開始信号を出力する。ベクトル間
尤度計算部１１および累積尤度計算部１２は、開始信号
を受信すると処理を開始する。

【００２８】このように、第１尤度記憶部５および第２
尤度記憶部６への接続の切替えは、ベクトル間尤度計算
および累積尤度計算の終了を確認した後に行われるの
で、どちらかの計算が１時刻内で終了しない場合でも、
正しくデータの受渡しを行うことができる。

【００２９】

【発明の効果】以上説明したように、本発明は、ベクト
ル間尤度計算部と累積尤度計算部の間に２つの尤度記憶
部を設け、転送すべきデータを交互に切替えながら記憶
部に入出力するので、データ転送による処理速度の低下
を抑え、高速な認識処理を実現できるという効果が有
る。

【図面の簡単な説明】

【図１】本発明の第１の実施例のブロック図である。

【図２】本発明の第２の実施例を示すブロック図であ
る。

【符号の説明】

１標準モデル記憶部２特徴分析部３，１１ベクトル間尤度計算部４，１３セレクタ部５第１尤度記憶部６第２尤度記憶部７，１２累積尤度記憶部８累積尤度計算部９結果決定部１０，２０音声認識装置１４タイミング制御部

Claims

(57)【特許請求の範囲】

【請求項１】予め作成した標準モデルを蓄えておく標準
モデル記憶部と、入力する音声信号を分析して特徴ベクトル時系列を出力
する特徴分析部と、前記特徴分析部の出力する特徴ベクトル時系列の各特徴
ベクトルと前記標準モデルとのベクトル間尤度を求める
ベクトル間尤度計算部と、前記ベクトル間尤度計算部の出力するベクトル間尤度を
セレクタ部を介して蓄える第１尤度記憶部および第２尤
度記憶部と、前記ベクトル間尤度計算部がベクトル間尤度を求めた後
に出力するベクトル間尤度計算終了信号と累積尤度計算
部が累積尤度を求めた後に出力する累積尤度計算終了信
号とを受領後にセレクタ部に対して接続の切替えを指示
する切替え信号を出力するタイミング制御部と、前記切替信号に基づいて、前記ベクトル間尤度計算部と
前記第１尤度記憶部とが接続されているときは、累積尤
度計算部を前記第２尤度記憶部に接続し、前記ベクトル
間尤度計算部と前記第２尤度記憶部とが接続されている
ときは、累積尤度計算部を前記第１尤度記憶部に接続す
る前記セレクタ部と、入力する累積尤度を蓄える累積尤度記憶部と、前記セレクタ部を介して、前記第１尤度記憶部および第
２尤度記憶部のいずれか一方に蓄えられたベクトル間尤
度を、遷移可能な状態の全てについてランダムアクセス
して読み出し、この読み出しの毎に、読み出されたベク
トル間尤度と前記累積尤度記憶部に蓄えられた累積尤度
と前記標準モデル記憶部に蓄えられた標準モデルとから
新しい累積尤度を求め前記累積尤度記憶部に出力する前
記累積尤度計算部と、前記累積尤度記憶部と並列に接続し前記累積尤度計算部
の出力する新しい累積尤度から前記音声信号に対する認
識結果を求める結果決定部とを有することを特徴とする
音声認識装置。