JP3226716B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP3226716B2
JP3226716B2 JP11777194A JP11777194A JP3226716B2 JP 3226716 B2 JP3226716 B2 JP 3226716B2 JP 11777194 A JP11777194 A JP 11777194A JP 11777194 A JP11777194 A JP 11777194A JP 3226716 B2 JP3226716 B2 JP 3226716B2
Authority
JP
Japan
Prior art keywords
likelihood
vector
inter
unit
cumulative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP11777194A
Other languages
English (en)
Other versions
JPH07325598A (ja
Inventor
真二 古賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP11777194A priority Critical patent/JP3226716B2/ja
Publication of JPH07325598A publication Critical patent/JPH07325598A/ja
Application granted granted Critical
Publication of JP3226716B2 publication Critical patent/JP3226716B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声認識装置に関する。
【0002】
【従来の技術】従来の音声認識装置は、一般に、予め発
声した学習データから作成した標準モデルを用いて、こ
れらと未知音声から求めた音声パターンとの類似度を求
め、最大の類似度を与える標準モデルに対するカテゴリ
を認識結果とする方法を用いている。標準モデルとして
は、中川著、1988年、電子情報通信学会発行の「確率モ
デルによる音声認識」(以下、文献1と記す)に述べら
れている隠れマルコフモデル(以下、HMMと呼ぶ)が
広く用いられている。HMMは、状態遷移ネットワーク
の一種で、状態間の遷移には状態遷移確率とベクトル出
力確率とが定義されている。文献1でのHMMを用いた
音声認識アルゴリズムの例(例えば40〜42頁)で
は、音声パターンの時刻t(t =1,2,…, T、Tは音声パ
ターンの時間長)において、すべての状態i(i =1,2,
…,I、Iは標準モデル内の状態数)に対して、式(1)
の漸化式計算により前向き確率α(i,t)(以下、累積尤度
と呼ぶ)を求める。
【0003】
【0004】ここで、 ajiは状態jから状態iへの状態
遷移確率、ytは音声パターン中の時刻tでの特徴ベクト
ル、 bji(yt)は状態jから状態iへの遷移の際にytを出
力する確率(以下、ベクトル間尤度と呼ぶ)である。状
態jは状態iに遷移可能な状態である。時刻Tでの累積
尤度α(i,T)を用いて認識結果を算出する。
【0005】各時刻における式(1) の漸化式計算には、
非常に多くの演算量を要し、特に認識語彙数が多い大語
彙音声認識においては、その量が膨大となるため、実時
間での認識が困難となる。これに対し、処理速度が速い
計算機や専用LSIの使用などハードウェアの点から高
速化を図る以外に、アーキテクチャの面から高速化が図
られている。例えば、式(1) の漸化式計算を、ベクトル
間尤度の算出と累積尤度の算出とに分割し、それぞれを
実行する処理部を設け(以下、それぞれベクトル間尤度
計算部、累積尤度計算部と呼ぶ)、この2つの処理部を
直列につなぎ、パイプライン処理により式(1) を計算す
る方法がある。即ち、時刻tで求められたベクトル間尤
度 bji(yt)を累積尤度計算部に転送し、次の時刻t+1
では、ベクトル間尤度計算部で時刻t+1に対するベク
トル間尤度 bji(yt+1)を求め、累積尤度計算部で時刻t
に対する累積尤度α(i,t)を求めることにより、ベクト
ル間尤度の算出と累積尤度の算出を並列化し、処理の高
速化を図るものである。
【0006】
【発明が解決しようとする課題】上述した従来の音声認
識装置は、ベクトル間尤度計算部と累積尤度計算部の処
理を並列化することはできるが、ベクトル間尤度計算部
から累積尤度計算部へのデータの転送は並列化できず、
データ転送中はベクトル間尤度計算と累積尤度計算が実
行できないため、転送データが多い場合、データ転送が
処理速度の低下の要因となってしまうという問題点があ
る。
【0007】本発明の目的は、データ転送による処理速
度の低下を抑え、高速な認識処理を実現することができ
る音声認識装置を提供することにある。
【0008】
【課題を解決するための手段】本発明の音声認識装置
は、予め作成した標準モデルを蓄えておく標準モデル記
憶部と、入力する音声信号を分析して特徴ベクトル時系
列を出力する特徴分析部と、前記特徴分析部の出力する
特徴ベクトル時系列の各特徴ベクトルと前記標準モデル
とのベクトル間尤度を求めるベクトル間尤度計算部と、
通過する複数の入出力信号を重なることなく伝達方向を
交互に切替えながら伝達するセレクタ部と、前記ベクト
ル間尤度計算部の出力するベクトル間尤度を前記セレク
タ部を介して蓄える第1尤度記憶部および第2尤度記憶
部と、入力する累積尤度を蓄える累積尤度記憶部と、前
記セレクタ部を介して受領する前記第1尤度記憶部およ
び第2尤度記憶部のいずれか一方に蓄えられたベクトル
間尤度と前記累積尤度記憶部に蓄えられた累積尤度と前
記標準モデル記憶部に蓄えられた標準モデルとから新し
い累積尤度を求め前記累積尤度記憶部に出力する累積尤
度計算部と、前記累積尤度記憶部と並列に接続し前記累
積尤度計算部の出力する新しい累積尤度から前記音声信
号に対する認識結果を求める結果決定部とを有する構成
である。
【0009】本発明の音声認識装置は、ベクトル間尤度
計算部がベクトル間尤度を求めた後に出力するベクトル
間尤度計算終了信号と累積尤度計算部が累積尤度を求め
た後に出力する累積尤度計算終了信号とを受領後にセレ
クタ部に対して接続の切替えを指示する切替え信号を出
力するタイミング制御部を有してもよい。
【0010】
【実施例】次に、本発明の実施例について図面を参照し
て説明する。
【0011】図1は本発明の第1の実施例のブロック図
である。
【0012】本発明の音声認識装置10は、予め作成し
た標準モデルを蓄えておく標準モデル記憶部1と、入力
する音声信号を分析して特徴ベクトル時系列を出力する
特徴分析部2と、特徴分析部2の出力する特徴ベクトル
時系列の各特徴ベクトルと標準モデルとのベクトル間尤
度を求めるベクトル間尤度計算部3と、通過する複数の
入出力信号を重なることなく伝達方向を交互に切替えな
がら伝達するセレクタ部4と、ベクトル間尤度計算部3
の出力するベクトル間尤度をセレクタ部4を介して蓄え
る第1尤度記憶部5および第2尤度記憶部6と、入力す
る累積尤度を蓄える累積尤度記憶部7と、セレクタ部4
を介して受領する第1尤度記憶部5および第2尤度記憶
部6のいずれか一方に蓄えられたベクトル間尤度と累積
尤度記憶部7に蓄えられた累積尤度と標準モデル記憶部
1に蓄えられた標準モデルとから新しい累積尤度を求め
累積尤度記憶部7に出力する累積尤度計算部8と、累積
尤度記憶部7と並列に接続し累積尤度計算部8の出力す
る新しい累積尤度から音声信号に対する認識結果を求め
る結果決定部9とを備えている。
【0013】標準モデル記憶部1は、単語単位の標準モ
デルPk (k=1,2, …, K、Kは単語数)を予め記憶して
いる。標準モデルは単語単位ではなく、音節や音素など
単語より小さい単位で用意することも可能である。また
標準モデルPk として、文献1に述べられているHMM
を用いることができ、文献1の例えば51〜62頁に述
べられている学習方法により作成することができる。H
MMの状態間の遷移には状態遷移確率ak ji(i,j=1,2,
…,Ik 、Ikは標準モデルPk 内の状態数) と特徴ベクト
ル出現確率とが定義されている。特徴ベクトル出現確率
としては、ガウス分布N(μk jik ji )(μk ji は平
均ベクトル、Σk ji は共分散行列) を用いることができ
る。
【0014】次に、図1を参照して第1の実施例の動作
について説明する。
【0015】未知の音声信号は、特徴分析部2に入力さ
れ、古井著、1985年、東海大学出版会発行の「ディジタ
ル音声処理」の、例えば155頁に述べられているよう
なメルケプストラムによる方法を用いて、特徴ベクトル
時系列Y={y1,y2, …,yt,…,yT}に変換される。この特
徴ベクトル時系列Y中の1時刻分の特徴ベクトルytと、
標準モデル記憶部1に保持されている標準モデルPk
のガウス分布N(μk jik ji )のパラメータとがベク
トル間尤度計算部3に入力され、式(2) に従ってベクト
ル間尤度bk ji(yt) が求められる。
【0016】
【0017】ここで、Nはガウス分布の次元数であり、
tは転置、−1は逆行列を示す。
【0018】セレクタ部4は、ベクトル間尤度計算部3
および累積尤度計算部8と、第1尤度記憶部5および第
2尤度記憶部6との接続の切替えを重なることなく行
う。即ち、ベクトル間尤度計算部3と第1尤度記憶部5
とを接続する場合は、累積尤度計算部8と第2尤度記憶
部6とを接続し、逆に、ベクトル間尤度計算部3と第2
尤度記憶部6とを接続する場合は、累積尤度計算部8と
第1尤度記憶部5とを接続する。切替えは時間に同期し
て行う。時刻tでは、ベクトル間尤度計算部3と第1尤
度記憶部5、累積尤度計算部8と第2尤度記憶部6がそ
れぞれ接続されているとすると、ベクトル間尤度計算部
3で求めたベクトル間尤度bk ji(yt) は、逐次第1尤度
記憶部5に蓄えられていく。
【0019】次の時刻t+1では、ベクトル間尤度計算
部3と第2尤度記憶部6、累積尤度計算部8と第1尤度
記憶部5がそれぞれ接続される。累積尤度計算部8で
は、第1尤度記憶部5に蓄えられているベクトル間尤度
k ji(yt) と、標準モデル記憶部1に保持されている標
準モデルPk 中の状態遷移確率ak ji と、累積尤度記憶
部7に蓄えられている時刻t−1に対する累積尤度α
k(j,t-1)を用いて、式(3)に従って時刻tに対する累積
尤度αk(i,t)が求められる。
【0020】
【0021】状態jは、状態iに遷移可能な状態であ
る。この間、ベクトル間尤度計算部3では、時刻t+1
に対するベクトル間尤度bk ji(yt+1) が求められる。
【0022】求められた累積尤度αk(i,t)は、累積尤度
記憶部7と結果決定部9に入力される。累積尤度記憶部
7では、時刻t+1での累積尤度の計算のために、累積
尤度αk(i,t)が蓄えられる。結果決定部9では、累積尤
度αk(i,t)が最終時刻Tに対するものであった場合、標
準モデル内の終端状態に対する累積尤度が最も大きい標
準モデルの単語が認識結果として出力される。
【0023】このように、同一の時間にベクトル間尤度
の計算と累積尤度の計算を並列に独立して行え、さら
に、ベクトル間尤度計算部3から累積尤度計算部8への
データの受渡しを第1尤度記憶部5および第2尤度記憶
部6の切替えにより行うので、データ転送時間が省け、
高速に処理が行える。
【0024】図2は本発明の第2の実施例を示すブロッ
ク図である。
【0025】本発明の第2の実施例である音声認識装置
20の構成は、第1の実施例である音声認識装置10と
ほとんど同一であるが、ベクトル間尤度計算部11には
ベクトル間尤度を求めた後にベクトル間尤度計算終了信
号を出力する機能、累積尤度計算部12には累積尤度を
求めた後に累積尤度計算終了信号を出力する機能をそれ
ぞれ持たせ、ベクトル間尤度計算終了信号と累積尤度計
算終了信号とを受領後にセレクタ部13に対して、接続
の切替えを指示する切替え信号を出力するタイミング制
御部14を新たに設けた点が異なる。なお、第1の実施
例と同一の機能のものは、名称および符号を同一とし、
説明は省略する。
【0026】次に、図2を参照して第2の実施例の動作
について説明する。
【0027】第2の実施例の動作は、第1の実施例の動
作と比較すると、第1尤度記憶部5および第2尤度記憶
部6への接続の切替え操作が異なっており、他の動作は
同一である。第1の実施例では、接続の切替えは時間に
同期して行われていたが、第2の実施例では、1時刻分
のベクトル間尤度計算終了後、ベクトル間尤度計算部1
1がベクトル間尤度計算終了信号をタイミング制御部1
4に出力し、同様に、1時刻分の累積尤度計算終了後、
累積尤度計算部12が累積尤度計算終了信号をタイミン
グ制御部14に出力する。タイミング制御部14では、
上記2つの終了信号を受信すると、セレクタ部13に切
替え信号を出力し、セレクタ部13は、切替え信号を受
信すると、接続を切替え、切替え終了後、切替え終了信
号をタイミング制御部14に出力する。切替え終了信号
受信後、タイミング制御部14からは、次の時刻での処
理を開始するため、ベクトル間尤度計算部11および累
積尤度計算部12に、開始信号を出力する。ベクトル間
尤度計算部11および累積尤度計算部12は、開始信号
を受信すると処理を開始する。
【0028】このように、第1尤度記憶部5および第2
尤度記憶部6への接続の切替えは、ベクトル間尤度計算
および累積尤度計算の終了を確認した後に行われるの
で、どちらかの計算が1時刻内で終了しない場合でも、
正しくデータの受渡しを行うことができる。
【0029】
【発明の効果】以上説明したように、本発明は、ベクト
ル間尤度計算部と累積尤度計算部の間に2つの尤度記憶
部を設け、転送すべきデータを交互に切替えながら記憶
部に入出力するので、データ転送による処理速度の低下
を抑え、高速な認識処理を実現できるという効果が有
る。
【図面の簡単な説明】
【図1】本発明の第1の実施例のブロック図である。
【図2】本発明の第2の実施例を示すブロック図であ
る。
【符号の説明】
1 標準モデル記憶部 2 特徴分析部 3,11 ベクトル間尤度計算部 4,13 セレクタ部 5 第1尤度記憶部 6 第2尤度記憶部 7,12 累積尤度記憶部 8 累積尤度計算部 9 結果決定部 10,20 音声認識装置 14 タイミング制御部

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】予め作成した標準モデルを蓄えておく標準
    モデル記憶部と、 入力する音声信号を分析して特徴ベクトル時系列を出力
    する特徴分析部と、 前記特徴分析部の出力する特徴ベクトル時系列の各特徴
    ベクトルと前記標準モデルとのベクトル間尤度を求める
    ベクトル間尤度計算部と、 前記ベクトル間尤度計算部の出力するベクトル間尤度を
    セレクタ部を介して蓄える第1尤度記憶部および第2尤
    度記憶部と、 前記ベクトル間尤度計算部がベクトル間尤度を求めた後
    に出力するベクトル間尤度計算終了信号と累積尤度計算
    部が累積尤度を求めた後に出力する累積尤度計算終了信
    号とを受領後にセレクタ部に対して接続の切替えを指示
    する切替え信号を出力するタイミング制御部と、 前記切替信号に基づいて、前記ベクトル間尤度計算部と
    前記第1尤度記憶部とが接続されているときは、累積尤
    度計算部を前記第2尤度記憶部に接続し、前記ベクトル
    間尤度計算部と前記第2尤度記憶部とが接続されている
    ときは、累積尤度計算部を前記第1尤度記憶部に接続す
    る前記セレクタ部と、 入力する累積尤度を蓄える累積尤度記憶部と、 前記セレクタ部を介して、前記第1尤度記憶部および第
    2尤度記憶部のいずれか一方に蓄えられたベクトル間尤
    度を、遷移可能な状態の全てについてランダムアクセス
    して読み出し、この読み出しの毎に、読み出されたベク
    トル間尤度と前記累積尤度記憶部に蓄えられた累積尤度
    と前記標準モデル記憶部に蓄えられた標準モデルとから
    新しい累積尤度を求め前記累積尤度記憶部に出力する前
    記累積尤度計算部と、 前記累積尤度記憶部と並列に接続し前記累積尤度計算部
    の出力する新しい累積尤度から前記音声信号に対する認
    識結果を求める結果決定部とを有することを特徴とする
    音声認識装置。
JP11777194A 1994-05-31 1994-05-31 音声認識装置 Expired - Fee Related JP3226716B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11777194A JP3226716B2 (ja) 1994-05-31 1994-05-31 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11777194A JP3226716B2 (ja) 1994-05-31 1994-05-31 音声認識装置

Publications (2)

Publication Number Publication Date
JPH07325598A JPH07325598A (ja) 1995-12-12
JP3226716B2 true JP3226716B2 (ja) 2001-11-05

Family

ID=14719925

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11777194A Expired - Fee Related JP3226716B2 (ja) 1994-05-31 1994-05-31 音声認識装置

Country Status (1)

Country Link
JP (1) JP3226716B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006075648A1 (ja) * 2005-01-17 2006-07-20 Nec Corporation 音声認識システム、音声認識方法及び音声認識プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4940057B2 (ja) * 2007-08-17 2012-05-30 株式会社東芝 音声認識装置及びその方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59223499A (ja) * 1983-06-02 1984-12-15 松下電器産業株式会社 音素認識装置
JPH05241593A (ja) * 1991-12-25 1993-09-21 Matsushita Electric Ind Co Ltd 時系列信号処理装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006075648A1 (ja) * 2005-01-17 2006-07-20 Nec Corporation 音声認識システム、音声認識方法及び音声認識プログラム
JPWO2006075648A1 (ja) * 2005-01-17 2008-08-07 日本電気株式会社 音声認識システム、音声認識方法及び音声認識プログラム
US7930180B2 (en) 2005-01-17 2011-04-19 Nec Corporation Speech recognition system, method and program that generates a recognition result in parallel with a distance value
JP5103907B2 (ja) * 2005-01-17 2012-12-19 日本電気株式会社 音声認識システム、音声認識方法及び音声認識プログラム

Also Published As

Publication number Publication date
JPH07325598A (ja) 1995-12-12

Similar Documents

Publication Publication Date Title
US5865626A (en) Multi-dialect speech recognition method and apparatus
US6523005B2 (en) Method and configuration for determining a descriptive feature of a speech signal
EP0686965B1 (en) Speech recognition apparatus with speaker adaptation using acoustic category mean value calculus
EP0109190B1 (en) Monosyllable recognition apparatus
JP3459712B2 (ja) 音声認識方法及び装置及びコンピュータ制御装置
JPS6131477B2 (ja)
CN108417222B (zh) 加权有限状态变换器解码系统以及语音识别系统
JPH0159600B2 (ja)
US5956676A (en) Pattern adapting apparatus using minimum description length criterion in pattern recognition processing and speech recognition system
US7403896B2 (en) Speech recognition system and program thereof
WO2020175530A1 (ja) データ変換学習装置、データ変換装置、方法、及びプログラム
US8140334B2 (en) Apparatus and method for recognizing voice
JP3226716B2 (ja) 音声認識装置
US6134525A (en) Identification-function calculator, identification-function calculating method, identification unit, identification method, and speech recognition system
JP3428058B2 (ja) 音声認識装置
JPS6312312B2 (ja)
US11862141B2 (en) Signal processing device and signal processing method
JPH06266386A (ja) ワードスポッティング方法
CN101809652A (zh) 频率轴伸缩系数估计设备、系统方法以及程序
JP4364493B2 (ja) 信号抽出システム、信号抽出方法および信号抽出プログラム
JP7162579B2 (ja) 音声合成装置、方法及びプログラム
US20240144934A1 (en) Voice Data Generation Method, Voice Data Generation Apparatus And Computer-Readable Recording Medium
JP2757356B2 (ja) 単語音声認識方法および装置
CN111883132B (zh) 一种语音识别方法、设备、系统及存储介质
JP2683976B2 (ja) 音声認識用確率モデル

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees