JP4241771B2 - 音声認識装置及びその方法 - Google Patents

音声認識装置及びその方法 Download PDF

Info

Publication number
JP4241771B2
JP4241771B2 JP2006185002A JP2006185002A JP4241771B2 JP 4241771 B2 JP4241771 B2 JP 4241771B2 JP 2006185002 A JP2006185002 A JP 2006185002A JP 2006185002 A JP2006185002 A JP 2006185002A JP 4241771 B2 JP4241771 B2 JP 4241771B2
Authority
JP
Japan
Prior art keywords
output probability
frame
probability
reference frame
calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006185002A
Other languages
English (en)
Other versions
JP2008015120A (ja
Inventor
優 酒井
信一 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006185002A priority Critical patent/JP4241771B2/ja
Priority to US11/694,547 priority patent/US7895040B2/en
Priority to CNA2007101271937A priority patent/CN101101751A/zh
Publication of JP2008015120A publication Critical patent/JP2008015120A/ja
Application granted granted Critical
Publication of JP4241771B2 publication Critical patent/JP4241771B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明は、音響的特徴をHMM(隠れマルコフモデル)でモデル化し、音声特徴ベクトル列との照合を行う音声認識方法に関する。
従来の音声認識方法として、非特許文献1で挙げられているように、音響的特徴をHMMでモデル化し、音声特徴を一定時間幅のフレーム毎に表現した音声特徴ベクトル列との照合を行う方法が広く使われている。この音声認識方法では、認識対象となる複数のカテゴリに対して、カテゴリ毎に当該カテゴリの音響的特徴をHMMでモデル化し、音声特徴ベクトル列との照合を行い、最も高い音声特徴ベクトル列の出力確率を示すHMMを求めて、そのHMMに付与されたカテゴリを認識結果として出力する。
また、この出力確率計算の回数を効率的に削減する既存の方法としては、ビームサーチに基づく方法(例えば、非特許文献2参照)と、基準フレームに基づく方法(例えば、特許文献1参照)がある。
田窪行則・他(2004):言語の科学2 音声、岩波書店 伊田政樹・中川聖一(1996):音声認識におけるビームサーチ法とA*探索法の比較、電子情報通信学会、音声技報、SP96−12 特許第3251480号公報
しかし、上記ビームサーチに基づく出力確率の回数削減方法と、上記基準フレームに基づく出力確率の回数削減方法とを単純に併用するだけでは、効率的に出力確率計算の回数を削減することができない。
そこで、本発明は上記問題点に鑑み、ビームサーチに基づく方法と基準フレームに基づく方法とを組み合わせて、音声認識性能に悪影響を与えず、効率的に出力確率計算の回数を削減する音声認識装置及びその方法を提供する。
本発明は、入力する音声信号をHMM(隠れマルコフモデル)を用いて音声認識する音声認識装置において、前記音声信号から一定時間幅のフレーム毎の音声特徴ベクトルを取得する音響処理部と、前記各フレームの中で一つのフレームを基準フレームとして、そのフレーム番号を記憶する基準フレーム記憶部と、前記基準フレームから任意のフレーム数が経過した場合に、前記基準フレームから前記フレーム数後のフレームを新たな基準フレームとして設定し直して更新すると共に、前記更新を最終フレームまで順番に行う基準フレーム更新部と、前記基準フレームにおいてビームサーチに基づき前記HMMの第1探索範囲を選択する第1探索範囲選択部と、前記第1探索範囲内の個々の遷移パスにおける音声特徴ベクトルの第1出力確率を計算する第1出力確率計算部と、前記第1出力確率の計算結果を前記個々の遷移パスに結びつけて記憶する第1出力確率記憶部と、前記基準フレームを更新した場合に、前記遷移パスに結び付けて記憶した前記第1出力確率の計算結果を全て消去する第1出力確率消去部と、前記基準フレームを更新しなかった場合に、前記基準フレームから次に更新される新たな基準フレームまでの区間にある各フレームにおいて、ビームサーチに基づき前記HMMの第2探索範囲をフレーム毎に選択する第2探索範囲選択部と、前記第2探索範囲が選択されたフレームである現フレームの前記第2探索範囲内の個々の遷移パスに対し、それと同じ遷移パスの前記第1出力確率の計算結果あるいは前記基準フレームから前記現フレームの間にある過去フレームに関する後述の第2出力確率の計算結果が、前記遷移パスに結び付けられて記憶されているか否かを判定する判定部と、前記第1出力確率の計算結果あるいは前記基準フレームから前記現フレームの間にある過去フレームに関する後述の第2出力確率の計算結果が記憶されている場合は、前記基準フレームから前記現フレームの間にある過去フレームに関する前記第1出力確率の計算結果あるいは後述の第2出力確率の計算結果を、前記遷移パスの第2出力確率の近似値とする近似値設定部と、前記第1出力確率の計算結果及び前記基準フレームから現フレームの直前のフレームまでの区間における後述の第2出力確率の計算結果が記憶されていない場合は、前記遷移パスにおける前記現フレーム、または、前記基準フレームの音声特徴ベクトルの第2出力確率を計算する第2出力確率計算部と、前記第2出力確率の計算結果を、前記遷移パスに結び付けて新たに記憶する第2出力確率記憶部と、前記基準フレームを更新した場合に、前記遷移パスに結び付けて記憶した前記第2出力確率の計算結果を全て消去する第2出力確率消去部と、予め計算した前フレームの前向き確率と、前記現フレームの前記全ての近似値と前記全ての第2出力確率から前記現フレームの前向き確率を計算する前向き確率計算部と、前記最終フレームまで前記HMM毎の前記前向き確率を計算した後に、前記最終フレームに関して最も大きい前向き確率を与える前記HMMに付与されたカテゴリを、音声認識結果とする音声認識部と、を備えることを特徴とする音声認識装置である。

本発明によれば、ビームサーチに基づく方法と基準フレームに基づく方法とを併用し、音声認識性能に悪影響を与えず効率的に出力確率計算の回数を削減できる。
本発明の実施形態を説明する前に、実施形態の理解に必要な従来技術について説明する。
(従来技術)
以下、従来技術について図1から図13に基づいて説明する。
(1)音声認識装置の構成
図1は、従来の音声認識装置の構成例を示すブロック図である。
図1の音声認識装置は、音響処理部001、音声区間検出部002、辞書部003、照合部004を備える。
(1−1)音響処理部001
音響処理部001は、一定時間幅のフレーム毎に、入力音声信号から音声特徴ベクトルの時系列X=(x(1),x(2),・・・,x(T))を生成する。ここでx(t)はフレームtにおける音声特徴ベクトルである。但し1=<t=<Tであり、t=1は後述する音声区間検出部002で検出した音声の始端に、t=Tは音声の終端に対応する。音声特徴ベクトルx(t)は1次元以上の要素をもつベクトルであり、フレームtにおける音声の特徴を表現する。なお、「フレームt」とは、フレーム番号tの意味である。
(1−2)音声区間検出部002
音声区間検出部002は、入力音声信号から音声区間(音声の始端と終端)を検出する。
(1−3)辞書部003
辞書部003は、異なるカテゴリを付与された複数のHMMを格納する。HMMは、一つ以上の状態Si(i=1,2,・・・,NS)と、初期状態の集合SS及び最終状態の集合SFと、ある状態Sjからある状態Siへの遷移確率Ajiと、ある状態Sjからある状態Siへの遷移パスにおける音声特徴ベクトルxの出力確率Bji(x)を与える確率密度関数Bji()と、各状態Siの初期確率Pi(i=1、2,・・・,NS)で定義される。但し1=<i,j=<NSであり、NSはHMMを構成する状態の総数である。
HMMの例を図2に示す。図2は状態数NS=4のHMMの例である。
遷移確率と出力確率が有意でない遷移パス、すなわちそれぞれの確率が常に0である遷移パスの記述は省略している。また、初期状態の集合SS={S1}であり、最終状態の集合SF={S4}である。図2のHMMは、音声認識において典型的に用いられるHMMの例であり、left−to−right型と呼ばれる構造をもち、初期状態の集合及び最終状態の集合の要素数がそれぞれ1であり、i=jないしi=j+1である(j,i)に対してのみ有意な遷移確率Aji及び出力確率Bji(x)をもつ。以下では、この図2のHMMを前提に説明を続ける。但し、辞書部003は、図2の例を含むあらゆるHMMを格納できる。例えば図3のような多数の遷移パスをもつHMMも格納できる。
(1−4)照合部004
照合部004は、HMMと音声特徴ベクトル列との照合を行う。すなわち、音声区間の始端から終端までに生成された音声特徴ベクトル列X(x(1),x(2),・・・,x(t))について、あるカテゴリcを付与されたHMMからの出力確率P(X|c)を計算する。
照合部004では、カテゴリ毎に、各カテゴリが付与されたHMMからの出力確率P(X|c)、(1=<c=<C)を計算し、最大の出力確率を与えるHMMに付与されたカテゴリを認識結果として出力する。あるカテゴリcを付与されたHMMからの出力確率P(X|c)をP(X)と簡略表記したとき、P(X)を式(1)、式(2)、式(3)で求める。
Figure 0004241771
ここでα(i,t)は、HMMにおいて初期状態から遷移し、フレームtで状態Siに到る前向き確率である。HMMでは、初期状態から出発し、フレームtにおいて状態Siに到る遷移パスは複数個存在するため、前向き確率は複数の遷移パス毎の前向き確率の総和となる。しかし、式(3)では、複数の遷移パスの中で最大の前向き確率を与えるただ一つの遷移パスを選択し、その前向き確率を用いる。これをビタビ法と呼ぶ。ビタビ法は、音声認識の分野において、複数の遷移パスの前向き確率の総和をとる方法のよい近似となることが知られている。
(2)照合部004の処理
次に図4を用いて、照合部004の処理を説明する。図4は、図1の音声認識装置における照合部004の処理のフローチャートである。
ステップP011において、フレーム番号tを1で初期化する。すなわち、フレーム番号を音声区間の始端に設定し、音声区間の始端から処理を開始する。
ステップP012において、ステップP020の手順に従い、フレームtにおけるHMMの状態Siの前向き確率α(i,t)を計算する。ステップP020の詳細は後述する。
ステップP013において、フレーム番号tを1だけ増加させる。すなわち、t=t+1として、次のフレームの処理に進む。
ステップP014において、フレーム番号tを、音声区間の終端を示すフレーム番号Tと比較する。t>Tの場合、すなわち音声区間の全てのフレームに対する処理が終了した場合はステップP016に進む。t=<Tの場合、すなわちフレームtが音声区間内のフレームの場合はステップP015に進む。
ステップP015において、ステップP020の手順に従い、フレームtにおけるHMMの状態Siの前向き確率α(i,t)を計算する。ステップP020の詳細は後述する。ステップP020が終了したらステップP013に戻る。
ステップP016において、式(3)に基づき、Si<IN<SFである状態Siの前向き確率α(i,t)のうち最大の前向き確率を、このHMMに対する音声特徴ベクトル列の出力確率P(X)として出力する。
(3)前向き確率の計算
次に、図4のステップP012及びステップP015において、前向き確率を計算するための手順であるステップP020を、図5のフローチャートを用いて説明する。
ステップP021において、1=<j,i=<NSである全ての(j,i)に対して、ステップP022をループ実行し、ループ実行が終了したらステップP023に進む。
ステップP022において、ある(j,i)に対して、フレームtにおける出力確率Bji(x(t))を計算する。
ステップP023において、式(2)及び式(3)に基づき、1=<i=<NSである全ての状態Siについて、フレームtにおける前向き確率α(i,t)を計算する。
図1の音声認識装置は、照合部004において、複数のHMMに対して図4のステップP011〜P016及び図5のステップP020を実行し、最大の出力確率を与えるHMMに付与されたカテゴリを認識結果として出力する。以上が図1の音声認識装置の説明である。
(4)出力確率Bji(x)の計算
照合部004では、1=<t=<Tである全てのフレームtの、1=<j,i=<NSである(j,i)に対応する全ての遷移パスにおいて、出力確率Bji(x)を計算する必要がある。
この概要を図6に示す。図6の縦軸はHMMの状態列であり、図2のHMMと同じ遷移パスをもつものとする。但し遷移パスの描写は省略している。横軸はフレームである。図6では、HMMの状態列をフレーム毎に配置し、HMMの遷移パスを隣接するフレーム間での2つの状態を結ぶ矢印として描写する事で、フレーム毎のHMMの状態遷移を表現している。さらに図6では、あるフレームにおいて出力確率を計算する遷移パスを太い矢印線で示している。図6で示すように、照合部004は、全てのフレームの全ての遷移パスにおいて出力確率を計算する。
音声認識では、一般に、音声認識処理の計算コスト全体に占める出力確率計算の計算コストは非常に大きく、音声認識処理全体の計算コスト増大の原因となる。従って、出力確率計算の回数を効率的に削減することが、音声認識処理の計算コスト削減に非常に有効である。
出力確率計算の回数を効率的に削減する既存の方法として、非特許文献2にあるビームサーチに基づく方法と、特許文献1にある基準フレームに基づく方法がある。以下ではこれらの方法について説明する。
(5)ビームサーチに基づく方法
まず、ビームサーチに基づく出力確率計算の回数削減方法について説明する。
(5−1)音声認識装置の構成
図7は、この方法に好適な音声認識装置の構成例を示すブロック図である。
図7の音声認識装置は、図1の音声認識装置と同様に、音響処理部001、音声区間検出部002、辞書部003、照合部004を備え、さらに探索対象選択部005を備える。
図7の音声認識装置は、照合部004が探索対象選択部005と連動して動作する以外は、図1の音声認識装置と同様の処理を行う。そこで以下では、照合部004及び探索対象選択部005について、図1の音声認識装置との動作の差分についてのみ説明する。
(5−2)探索対象選択部005
探索対象選択部005は、フレーム毎にビームサーチを実施し、HMMの状態集合SAと、状態集合SAから遷移可能なHMMの状態集合SBとを選択する。あるフレームtにおける状態集合SAは、フレームt−1において0でない有意な前向き確率α(j,t−1)が0でない状態Sjのうち、他よりも大きな前向き確率をもつ上位NA個の状態の集合とする。但し1=<NA<NSとする。
また、α(j,t−1)が0でない全ての状態Sjの総数がNA個よりも小さい場合は、α(j,t−1)が0でない全ての状態Sjを選択し状態集合SAとする。あるフレームtにおける状態集合SBは、Sj<IN<SAである全ての状態Sjから遷移可能な全ての状態Siの集合とする。
(5−3)照合部004
照合部004は、式(3)で前向き確率を計算する際に、探索対象選択部005で選択された状態集合SA及び状態集合SBを参照し、Sj<IN<SAかつSi<IN<SBを満たす全ての(j,i)の組み合わせに対してのみ出力確率の計算を行い、Si<IN<SBを満たす状態Siに対してのみ前向き確率α(i,t)を計算する。具体的には、式(3)に代えて以下の式(4)を用いる。
Figure 0004241771
式(4)では、Sj<IN<SAかつSi<IN<SBを満たす場合のみ出力確率Bji(x(t))を計算すれば良く、出力確率の計算回数を式(3)に比べて削減できる。
ここで、式(4)で参照する前フレームの前向き確率α(j,t−1)は、フレームt−1における上位NA個の前向き確率であり、この前向き確率をもつ状態Sjから遷移可能な状態Siも、後続する当該フレームtにおいて上位の前向き確率をもつことが期待できる。
従って、各フレームにおいて上位の前向き確率をもつ状態を経由する遷移パスは、式(1)で求めるフレームtの前向き確率α(i,t)の最大値を与える遷移パスである可能性が高い。この可能性はNAを大きくするにつれて大きくなり、NA=NSのときは式(3)と式(4)に差はない。つまり、NAを適切に設定する事で、図1の音声認識装置の照合部104に比べて出力確率の計算回数を削減し、かつ、式(1)において出力確率P(X)の良好な近似値を求めることができる。
(5−4)前向き確率の計算
図7の音声認識装置の照合部004における前向き確率の計算の概要を図8に示す。
図8は図6と同様の図であり、式(4)により前向き確率の計算を行った結果である。なお、図8はフレームt−1において選択する状態の個数NA=2の例である。図8では、フレームt−1で有意な前向き確率をもつ状態集合から、前向き確率の大きい上位2個の状態を選択し、これらを状態集合SAとする。フレームtにおいて、この状態集合SAから遷移可能な状態集合SBを選択し、SAからSBへの遷移パスのみ出力確率を計算する。これをフレームt+1、t+2、・・・で繰り返す。図8と図6を比較すると、図7の音声認識装置では、図1の音声認識装置に比べて、出力確率の計算回数を削減できていることが分かる。
このように、ビームサーチに基づく出力確率計算の削減を行う事で、性能に悪影響を及ぼすことなく、出力確率の計算回数を削減できる。
(6)基準フレームに基づく方法
次に、基準フレームに基づく出力確率計算の回数削減方法について説明する。
(6−1)音声認識装置の構成
図9は、この方法に好適な音声認識装置の構成例を示すブロック図である。
図9の音声認識装置は、図1の音声認識装置と同様に、音響処理部001、音声区間検出部002、辞書部003、照合部004を備え、さらに記憶部006を備える。図9の音声認識装置は、照合部004が記憶部006と連動して動作する以外は、図1の音声認識装置と同様の処理を行う。
そこで以下では、照合部004及び記憶部006について、図1の音声認識装置との動作の差分についてのみ説明する。
(6−2)記憶部006
記憶部006は、基準フレームq(1=<q=<T)と、出力確率バッファRSjiを格納する。
基準フレームqは音声区間のいずれかのフレームの番号を記憶する。後述する照合部004の処理において、ある基準フレームqからフレーム毎に処理を進めて、当該フレームtと基準フレームqの差分(t−q)が閾値NQを超えた場合には、当該フレームtを新たな基準フレームqとする。すなわち(t−q)>=NQであれば基準フレームq=tとして更新する。但し、基準フレームqの初期値は1とする。
すなわち、音声区間の始端(フレーム1)を常に最初の基準フレームとする。出力確率バッファRSjiは、1=<j,i=<NSである全ての(j,i)に対して、基準フレームqにおける出力確率Bji(x(q))を記憶する。すなわち、RSji=Bji(x(q))とする。
基準フレームqが更新された場合には、出力確率バッファRSjiも更新する。すなわち更新された基準フレームqに対して再びRSji=Bji(x(q))とし、これを基準フレームの更新毎に繰り返す。
(6−3)照合部004
照合部004は、式(3)で前向き確率を計算する際に、記憶部006に格納された基準フレームqを参照し、当該フレームtが基準フレームqに一致するときは(すなわちt=q)、1=<j,i=<NSである全ての(j,i)に対して出力確率Bji(x(q))を計算し、計算した出力確率を記憶部006のバッファRSjiに記憶した上で、前向き確率を計算する。
当該フレームtがq<t<q+NQのときは、出力確率Bji(x(t))を計算せず、記憶部006の出力確率バッファRSjiに記憶された出力確率をフレームtにおける出力確率の近似値として前向き確率を計算する。具体的には、式(3)に代えて以下の式(5)、式(6)を用いる。
Figure 0004241771
式(5)、式(6)ではt=qの場合のみ出力確率Bji(x(q))を計算すれば良く、出力確率の計算回数を式(3)に比べて削減できる。
ここで、入力音声の時間変化に対するフレーム幅が十分に小さければ、時間的に近接する音声特徴ベクトルx(q)とx(t)((t−q)<NQ)の差は十分に小さくなり、出力確率Bji(x(q))とBji(x(t))の差も十分に小さくなるため、基準フレーム更新のための閾値NQを適切に設定する事で、Bji(x(q))すなわちRSjiがBji(x(t))の良好な近似値となると期待できる。
(6−4)前向き確率の計算
図9の音声認識装置における前向き確率の計算の概要を図10に示す。
図10は図6と同様の図であり、式(5)、式(6)により前向き確率の計算を行った結果である。なお、図10は基準フレーム更新の閾値NQ=3の例であり、基準フレームq=tをフレームt+3においてq=t+3と更新する。
図10では、基準フレームにおいてのみ出力確率の計算を行い、基準フレーム以降のフレームでは基準フレームで計算した出力確率を近似値として用いる。これを基準フレームの更新のたびに繰り返す。図10と図6を比較すると、図9の音声認識装置では、図1の音声認識装置に比べて、出力確率の計算回数を削減できていることが分かる。
このように、基準フレームに基づく出力確率計算の削減を行う事で、性能に悪影響を及ぼすことなく、出力確率の計算回数を削減できる。
(7)各方法の特徴と問題点
ビームサーチに基づく出力確率の回数削減方法と、基準フレームに基づく出力確率の回数削減方法は、それぞれ異なる特徴をもつ。
すなわち、前者はあるフレーム内での出力確率計算の回数を、後者は複数フレームにまたがる区間内での出力確率計算の回数を、それぞれ削減する。そのため、これらの方法を併用することで、個々の方式を単独で用いる場合よりもさらに効率的に出力確率計算の回数を削減できると予想される。しかし、これらの方法を併用する事には問題があり、これらを単純に組み合わせても、効率的に出力確率計算の回数を削減することはできない。以下ではこの問題について説明する。
前述の通り、ビームサーチに基づく方法では、フレーム毎に状態集合SA及び状態集合SBを選択し、Sj<IN<SAかつSi<IN<SBを満たす(j,i)の組み合わせに対してのみ出力確率Bji(x(t))を計算する。
一方で、基準フレームに基づく方法では、基準フレームqにおいて、1=<j,i=<NSである全ての(j,i)の組み合わせに対して出力確率Bji(x(q))を計算し、出力確率バッファRSjiに記憶し、これを基準フレーム以降のフレームにおける出力確率の近似値として用いる。
(8)併用する場合の計算方法
ここで、ビームサーチに基づく方法と基準フレームに基づく方法とを併用する場合には、基準フレームqにおける出力確率Bji(x(q))の計算方法が問題となる。単純には以下の2通りが考えられる。
第1の方法は、基準フレームqにおいて全ての(j,i)に対して出力確率Bji(x(q))を計算する。
第2の方法は、基準フレームqでSj<IN<SAかつSi<IN<SBを満たす(j,i)の組み合わせに対してのみ出力確率Bji(x(q))を計算する。
(9)併用する場合の計算方法の問題点
以下では、この各々の解決策について説明し、その問題点を明らかにする。
(9−1)第1の方法
第1の方法は、図9の音声認識装置の照合部004に、図7の音声認識装置の探索対象選択部005を組み合わせて、照合部004の動作を一部変更することで実現できる。
すなわち、照合部004において、基準フレームqでは1=<j,i=<NSである全ての(j,i)に対して出力確率Bji(x(q))を計算し、その結果を出力確率バッファRSjiに記憶する。基準フレーム以外のフレームt(q<t<q+NQ)では、ビームサーチに基づき状態集合SA及び状態集合SBを選択し、Sj<IN<SAかつSi<IN<SBを満たす(j,i)の組み合わせに対して、出力確率Bji(x(t))を計算せず、出力確率の近似値RSjiを用いる。
このように動作を一部変更した照合部004における前向き確率の計算の概要を図11に示す。図11は図10と同様の図であり、前述の動作変更により、ビームサーチに基づく状態集合の選択を行っている。しかしこの場合、基準フレームに基づく方法を単独で用いる場合(図10)と、ビームサーチに基づく方法と併用する場合(図11)とで、出力確率計算の回数は変わらない。なぜならば、どちらの場合でも、出力確率の計算は基準フレームqにおいてのみ実行され、基準フレームqにおいては1=<j,i=<NSである全ての(j,i)に対して出力確率を計算するためである。従ってこの方法では、出力確率計算の回数をさらに効率的に削減することができない。
(9−2)第2の方法
第2の方法は、図7の音声認識装置の照合部004に、図9の記憶部006を組み合わせて、照合部004の動作を一部変更することで実現できる。
すなわち、照合部004において、基準フレームqでは、ビームサーチに基づき状態集合SA及び状態集合SBを選択し、Sj<IN<SAかつSi<IN<SBを満たす(j,i)の組み合わせに対してのみ出力確率Bji(x(q))を計算し、その結果を出力確率バッファRSjiに記憶する。基準フレーム以外のフレームt(q<t<q+NQ)においても、状態集合SA及び状態集合SBを選択し、Sj<IN<SAかつSi<IN<SBを満たす(j,i)に対しては、出力確率バッファRSjiに記憶された値を出力確率Bji(x(t))の近似値として利用する。しかしこのとき、状態集合SA及び状態集合SBに含まれる状態はフレーム毎に異なるため、フレームtで前向き確率の計算に利用される出力確率Bji(x(t))の近似値RSji=Bji(x(q))が、基準フレームqで計算されていない場合がある。そのような場合、フレームtにおける前向き確率の計算を継続することができない。そこで、出力確率の近似値RSjiを利用できないような遷移パスを無視する事にすると、ビームサーチに基づき選択した状態集合SAから状態集合SBへの遷移パスの集合に比べて、前向き確率の計算に利用する遷移パスの数が少なくなる。
このように動作を一部変更した照合部004における前向き確率の計算の概要を図12に示す。図12は図8と同様の図であり、前述の動作変更により、基準フレームに基づく出力確率計算と近似値の利用を行っている。図12では基準フレームにおいてのみ出力確率を計算しているため、出力確率計算の回数は、図8に比べて削減できる。
しかし、フレーム毎に選択される状態集合は図12と図8で大きく異なっている。図12では、出力確率の近似値が利用できない遷移パスがあるため、あるフレームの前向き計算で有意な前向き確率をもつ状態の数が図8に比べて少なくなっている。このことは、式(1)による前向き確率α(1,T)の計算において、α(1,T)の最大値を与える遷移パスが利用できない可能性が高くなることを意味する。すなわち、式(3)において出力確率P(X)の良好な近似値を求めることができなくなり、音声認識装置の性能に悪影響を及ぼす可能性がある。従ってこの方法でも、出力確率計算の回数をさらに効率的に削減することができない。
(第1の実施形態)
本実施形態の音声認識装置は、音響処理部、音声区間検出部、辞書部、照合部、探索対象選択部、記憶部、判定部を備える。なお、各部の機能は、コンピュータに記憶されたプログラムによって実現できる。
上記従来技術の説明を前提として、本実施形態の音声認識装置における前向き確率の計算について説明する。
まず、基準フレームqでは、探索範囲選択部において状態集合SAと状態集合SBを選択し、Sj<IN<SAかつSi<IN<SBを満たす(j,i)の組み合わせに対してのみ出力確率Bji(x(t))を計算し、記憶部において出力確率バッファRSjiに記憶する。ここで、判定部において、基準フレームqにおいて出力確率の近似値RSjiが記憶されていない遷移パスの情報を記憶する。
基準フレーム以外のフレームt(q<t<q+NQ)では、探索範囲選択部において状態集合SA及び状態集合SBを選択する。このとき、Sj<IN<SAかつSi<IN<SBを満たす(j,i)に対応する遷移パスに対して、利用可能な出力確率の近似値RSjiの有無を判定部において判定する。
照合部では、この判定結果を参照し、近似値RSjiをもつ遷移パスでは出力確率Bji(x(t))を計算せず、記憶部に記憶された近似値RSjiを用いる。
近似値RSjiをもたない遷移パスにおいては、当該フレームtの出力確率Bji(x(t))を計算し、さらにその結果を出力確率バッファRSjiに追加で記憶し、以降のフレームにおける近似値として利用する。これにより以下を実現する。
まず、ビームサーチに基づき状態集合の選択を行うことで、各フレームにおいて、前向き確率の計算において参照する遷移パスの数を削減する。つまり、出力確率の参照が必要な遷移パスの数を削減する。
また、基準フレームで計算した出力確率を記憶し、それ以降のフレームにおいて基準フレームで計算した出力確率を近似値とすることで、出力確率計算の回数を削減する。
さらに、基準フレーム以降のフレームにおいて近似値が利用できない場合は、当該フレームにおける出力確率を計算し、それを記憶し、それ以降のフレームにおける出力確率の近似値として利用する。
つまり、ある基準フレームから基準フレームが更新されるまでのフレームにおいて、遷移パス毎に出力確率を計算する回数を1回のみにする。
この結果、照合部の前向き確率の計算において、出力確率の参照が必要な遷移パスの数が削減され、かつ、ある基準フレームから基準フレームが更新されるまでのフレームにおける遷移パス毎の出力確率計算の回数は1回となるため、出力確率計算の回数を大きく削減することができる。この前向き確率の計算の概要を図13に示す。図13は図8及び図10と同様の図である。
図13と図8を比べると、図13では図8と同じく状態集合の選択を行い、さらに基準フレームtから更新後の基準フレームt+3より以前のフレームにおいて遷移パス毎に1回だけ出力確率を計算することで、出力確率計算の総数を図8に比べて削減できている。このとき、フレーム毎に有意な前向き確率をもつ状態の数は図8と同じであり、式(3)において出力確率P(X)の良好な近似値となることが期待できる。
図13と図10を比べると、図13では図10と同じく基準フレームの設定と更新を行い、さらに状態集合の選択及び基準フレームtから更新後の基準フレームt+3より以前のフレームにおいて出力確率の計算と記憶・近似値としての利用を行うことで、出力確率計算の総数を図10に比べて削減できている。この出力確率の近似精度は、基準フレーム更新のための閾値NQに依存し、図10で良好な近似精度を与える閾値NQは、図13においても良好な近似値となることが期待できる。
(第1の実施形態の詳細)
次に、第1の実施形態の音声認識装置の詳細について図14から図18に基づいて説明する。
(1)音声認識装置の構成
図14は、第1の実施形態の音声認識装置の構成例を示すブロック図である。
図14に示す音声認識装置は、音響処理部101、音声区間検出部102、辞書部103、照合部104、探索対象選択部105、記憶部106、判定部107を備える。なお、各部101〜107の機能は、コンピュータに記憶されたプログラムによって実現できる。
(1−1)音響処理部101
音響処理部101は、一定時間幅のフレーム毎に、入力音声信号から音声特徴ベクトルの時系列X=(x(1),x(2),・・・,x(T))を生成する。
ここでx(t)はフレームtにおける音声特徴ベクトルである。但し1=<t=<Tであり、t=1は後述する音声区間検出部102で検出した音声の始端に、t=Tは音声の終端に対応する。音声特徴ベクトルx(t)は1次元以上の要素をもつベクトルであり、フレームtにおける音声の特徴を表現する。そのような音声特徴ベクトルとしては、非特許文献1に挙げられるMFCCがある。MFCCは、フレームtにおける音声スペクトルに対して、メルフィルタバンク出力の対数値をとり、さらにDCTを適用してその低次成分を抽出するケプストラム分析を行うことで、音声特徴ベクトルを得る方式である。
(1−2)音声区間検出部102
音声区間検出部102は、入力音声信号から音声区間(音声の始端と終端)を検出する。
音声区間検出の方法として、雑音区間で推定した推定雑音パワーに対する入力音声のパワーとの比率をフレーム毎に計算し、その比率がある閾値を超える時間的に連続した区間を音声区間として検出する方法がある。この場合、前述の比率が始めて閾値を超えたフレームを音声区間の始端として検出し、それから前述の比率が閾値を超える時間的に連続したフレームを音声区間とし、前述の比率が閾値を下回るフレームの直前のフレームを音声区間の終端として検出する。
(1−3)辞書部103
辞書部103は、異なるカテゴリを付与された複数のHMMを格納する。
HMMは、一つ以上の状態Si(i=1,2,・・・,NS)と、初期状態の集合SS及び最終状態の集合SFと、ある状態Sjからある状態Siへの遷移確率Ajiと、ある状態Sjからある状態Siへの遷移パスにおける音声特徴ベクトルxの出力確率Bji(x)を与える確率密度関数Bji()と、各状態Siの初期確率Pi(i=1、2,・・・,NS)で定義される。但し1=<i、j=<NSであり、NSはHMMを構成する状態の総数である。確率密度関数Bji()として混合正規分布を用いた場合、出力確率Bji(x)は式(7)で計算する。
Figure 0004241771
但し、Wjimは確率密度関数Bji()を構成するm番目の多次元正規分布への分岐確率、Gjim()は確率密度関数Bji()を構成するm番目の多次元正規分布であり、Gjim()は式(8)で定義される多次元正規分布である。
Figure 0004241771
但し、μjimは多次元正規分布Gjim()の平均ベクトルであり、Σjimは多次元正規分布Gjim()の共分散行列である。また、1=<m=<Mであり、Mは確率密度関数Bji()の混合数である。
HMMの例を図17に示す。図17は状態数NS=4のHMMの例である。
遷移確率と出力確率が有意でない遷移パス、すなわちそれぞれの確率が常に0である遷移パスの記述は省略している。また、初期状態の集合SS={S1}であり、最終状態の集合SF={S4}である。図15のHMMは、音声認識において典型的に用いられるHMMの例であり、left−to−right型と呼ばれる構造をもち、初期状態の集合及び最終状態の集合の要素数がそれぞれ1であり、i=jないしi=j+1である(j,i)に対してのみ有意な遷移確率Aji及び出力確率Bji(x)をもつ。以下では、この図17のHMMを前提に説明を続ける。但し、辞書部103は、図17の例を含むあらゆるHMMを格納できる。例えば図18のような多数の遷移パスをもつHMMも格納できる。
(1−4)照合部104
照合部104は、HMMと音声特徴ベクトル列との照合を行う。
すなわち、音声区間の始端から終端までに生成された音声特徴ベクトル列X=(x(1),x(2),・・・,x(T))について、あるカテゴリcを付与されたHMMからの出力確率P(X|c)を計算する。照合部104では、カテゴリ毎に、各カテゴリが付与されたHMMからの出力確率P(X|c)、(1=<c=<C)を計算し、最大の出力確率を与えるHMMに付与されたカテゴリを認識結果として出力する。あるカテゴリcを付与されたHMMからの出力確率P(X|c)をP(X)と簡略表記したとき、P(X)は、通常は式(9)、式(10)及び式(11)で求める。
Figure 0004241771
ここでα(i,t)は、HMMにおいて初期状態から遷移しフレームtで状態Siに到る前向き確率である。
HMMでは、初期状態から出発しフレームtにおいて状態Siに到る遷移パスは複数個存在するため、前向き確率は複数の遷移パス毎の前向き確率の総和となる。しかし、式(11)では、複数の遷移パスの中で最大の前向き確率を与えるただ一つの遷移パスを選択し、その前向き確率を用いる。これを「ビタビ法」と呼ぶ。
ビタビ法は、音声認識の分野において、複数の遷移パスの前向き確率の総和をとる方法のよい近似となることが知られている。本実施形態における照合部104の前向き確率の計算では、後述する探索対象選択部105、記憶部106、判定部107の処理と連動することで、式(11)における出力確率Bji(x(t))の計算回数を、音声認識性能に悪影響を与えることなく効率的に削減できる。これについては後述する。
(1−5)探索対象選択部105
探索対象選択部105は、フレーム毎にビームサーチを実施し、HMMの状態集合SAと、状態集合SAから遷移可能なHMMの状態集合SBとを選択する。
あるフレームtにおける状態集合SAは、フレームt−1において0でない有意な前向き確率α(j,t−1)が0でない状態Sjのうち、他よりも大きな前向き確率をもつ上位NA個の状態の集合とする。但し1=<NA<NSとする。また、α(j,t−1)が0でないことを満たす状態Sjの総数がNA個よりも小さい場合は、α(j,t−1)が0でないことを満たす全ての状態Sjを選択し状態集合SAとする。あるフレームtにおける状態集合SBは、Sj<IN<SAである全ての状態Sjから遷移可能な全ての状態Siの集合とする。
(1−6)記憶部106
記憶部106は、基準フレームq(1=<q=<T)と、出力確率バッファRSjiを格納する。
基準フレームqは音声区間のいずれかのフレームの番号を記憶する。照合部104の処理において、ある基準フレームqからフレーム毎に処理を進めて、当該フレームtと基準フレームqの差分(t−q)が閾値NQを超えた場合には、当該フレームtを新たな基準フレームqとする。すなわち(t−q)>=NQであれば基準フレームq=tとして更新する。但し、基準フレームqの初期値は1とする。すなわち、音声区間の始端(フレーム1)を常に最初の基準フレームとする。出力確率バッファRSjiは、あるフレームtにおける出力確率Bji(x(t))の計算結果を記憶する。すなわちRSji=Bji(x(t))とする。基準フレームqが更新された場合には、出力確率バッファRSjiに記憶した出力確率の計算結果を忘却する。
(1−7)判定部107
判定部107は、フラグFSjiを格納する。フラグFSjiの各要素は[0,1]の二値のうちいずれかの値をとり、記憶部106において出力確率バッファRSjiに出力確率Bji(x(t))が記憶されている場合は1を、そうでない場合は0に設定する。
すなわち、フラグFSjiを参照することで、記憶部106の出力確率バッファRSjiに出力確率が記憶されているか否かを判定することができる。記憶部106に格納された基準フレームqが初期値1をとるとき、または、基準フレームqが更新された場合には、フラグFSjiの全ての要素を0に初期化する。
(2)出力確率P(X)の計算
次に、図14の音声認識装置において、あるカテゴリが付与されたHMMにおける音声特徴ベクトル列Xの出力確率P(X)を計算するための処理の流れを、図15及び図16のフローチャートを用いて説明する。
まず、図15のフローチャートにおける処理の詳細を以下で説明する。このフローチャートは、各フレームで前向き確率α(i,t)を計算するまでの手順、及び、フレームtにおける音声特徴ベクトル列Xの出力確率P(X)をもとめる手順を示す。
ステップP101においては、照合部104において、フレーム番号tを1に初期化する。
ステップP102においては、記憶部106において、基準フレーム番号qを1に初期化する。
ステップP103においては、判定部107において、1=<j,i=<NSである全ての(j,i)に対して、フラグFSjiを0で初期化する。
ステップP104においては、照合部104において、ステップP120)の手順で、当該フレームt=1における前向き確率α(i,t)を計算する。つまり、フレーム1における前向き確率を求める。ステップP120の詳細については後述する。
ステップP105においては、照合部104において、フレーム番号tを1だけ増加させる。すなわち、t=t+1として、次のフレームの処理に進む。
ステップP106においては、照合部104において、当該フレームのフレーム番号tを、音声の終端を示すフレーム番号tと比較する。t=<Tの場合、すなわちフレームtが音声区間内のフレームの場合はステップP107〜ステップP111に進み、当該フレームtの前向き確率を求める。t>Tの場合、すなわち音声区間の全てのフレームに対する処理が終了した場合はステップP112で、音声特徴ベクトル列Xの出力確率P(X)を求める。
ステップP107においては、記憶部106において、当該フレーム番号tと基準フレーム番号qの差分を閾値NQと比較し、基準フレームqを更新するか否かを判定する。基準フレームqから当該フレームtまでの経過フレーム数がNQ以上である、つまり(t−q)>=NQの場合は ステップP109〜ステップP111に進み、基準フレームqを更新した上で当該フレームtの前向き確率を求める。(t−q)<NQの場合はステップP108)に進み、基準フレームqを更新せずに当該フレームtの前向き確率を求める。
ステップP108においては、照合部104において、ステップP120の手順で、当該フレームtにおける前向き確率α(i,t)を計算する。つまり、基準フレームqを更新せずに、当該フレームtの前向き確率を求める。ステップP120の詳細については後述する。
ステップP109においては、記憶部106において、基準フレームqを当該フレームtで更新する。すなわちq=tとする。
ステップP110においては、判定部107において、1=<j,i=<NSである全ての(j,i)に対して、フラグFSjiを0で初期化する。
ステップP111においては、照合部104において、ステップP120の手順で、当該フレームtにおける前向き確率α(i,t)を計算する。つまり、基準フレームqを更新した上で、当該フレームtの前向き確率を求める。ステップP120の詳細については後述する。
ステップP112においては、フレームTにおける、Si<IN<SFである状態Siの最大の前向き確率を式(9)により求める。すなわち、ステップP80において、あるカテゴリが付与されたHMMにおける音声特徴ベクトル列Xの出力確率P(X)の計算を終了する。
(3)前向き確率α(i,t)の計算
次に、図16のフローチャートにおける処理の詳細を以下で説明する。
このフローチャートは、各フレームにおける前向き確率α(i,t)の計算の詳細を示す。
ステップP121においては、探索対象選択部105において、フレームt−1で計算済みの前向き確率α(j,t−1)を参照し、α(j,t−1)=0でない全ての状態Sjから、前向き確率の大きい上位NA個の状態を状態集合SAとして選択する。但し、α(j,t−1)=0でない状態Sjの個数がNAより少ない場合には、α(j,t−1)=0でない全ての状態Sjを状態集合SAとして選択する。なお、t=1の場合の前向き確率α(j,0)は式(10)で与えられる。
ステップP122においては、探索対象選択部105において、Sj<IN<SAである全ての状態Sjから、Aji=0でない遷移パスによって遷移可能な全ての状態を状態集合SBとして選択する。
ステップP123においては、Sj<IN<SAかつSi<IN<SBを満たす全ての(j,i)の組み合わせに対して、以下に述べるステップP124〜ステップP128を実行する。全ての(j,i)に対する処理が終了した時点でステップP129に進む。
ステップP124においては、判定部107において、フラグFSjiを参照し、FSji=1であれば、すなわち記憶部106の出力確率バッファRSjiに出力確率が記憶されていれば、ステップP128に進む。FSji=1でなければ、すなわち出力確率バッファRSjiに計算済みの出力確率が記憶されていなければ、ステップP125〜ステップP127に進み、出力確率の計算とその記憶を行う。
ステップP125においては、照合部104において、当該フレームtにおける音声特徴ベクトルx(t)の出力確率Bji(x(t))を式(7)及び式(8)で計算する。
ステップP126においては、記憶部106において、ステップP125で計算した出力確率Bji(x(t))を、出力確率バッファRSjiに記憶する。すなわちRSji=Bji(x(t))とする。
ステップP127においては、判定部107において、フラグFSjiに、記憶部106の出力確率バッファRSjiに出力確率の計算結果を記憶したことを示す数値1をセットする。すなわちFSji=1とする。
ステップP128においては、照合部104において、当該フレームtにおける音声特徴ベクトルx(t)の出力確率Bji(x(t))を、記憶部106の出力確率バッファRSjiに記憶した出力確率で近似する。すなわちBji(x(t))=RSjiとする。
ステップP129においては、前述のステップP125で計算した出力確率、及び、前述のステップP128で得た出力確率の近似値をもとに、当該フレームtにおける前向き確率α(i,t)を計算する。ステップP124〜ステップP129を考慮すると、前向き確率α(i,t)の計算式は以下の式(12)、式(13)、式(14)となる。これらの3つの式は、従来の音声認識方式における式(11)を置き換える式である。
Figure 0004241771
式(12)、式(13)、式(14)では、FSji=0かつ{j:Sj<IN<SA}かつ{i:Si<IN<SB}を満たす(j,i)に対してのみ出力確率Bji(x(t))の計算を行うため、式(11)に比べて出力確率Bji(x(t))の計算回数を大きく削減できる。
このとき、当該フレームtの前向き確率α(i,t)は、フレームt−1における前向き確率のうち上位NA個の前向き確率に対して計算するため、NAを適切な値に設定すれば、α(i,t)もフレームtにおいて上位の前向き確率をもつことが期待できる。
すなわち、フレームt−1における全ての前向き確率α(j,t−1)(1=<j=<NS)に対して計算する場合の良好な近似値となることが期待できる。
また、入力音声の時間変化に対するフレーム幅が十分に小さければ、時間的に近接する音声特徴ベクトルの差も小さくなるため、(t−q)<NQかつq=<t’<tを満たすq、t、t’に対して、NQを適切な値に設定すれば、出力確率Bji(x(t’))と出力確率Bji(x(t))の差も十分に小さくなると期待できる。すなわち、RSji=Bji(x(t’))がBji(x(t))の良好な近似値となることが期待できる。
(4)効果
第1の実施形態で説明した音声認識装置では、式(12)、式(13)、式(14)に基づき前向き確率を計算することで、式(11)による従来の前向き確率の計算に比べて、出力確率計算の回数を大きく削減すると共に、式(11)の良好な近似値を得ることができる。この結果、音声認識処理において、認識性能に悪影響を与えることなく、出力確率計算の回数を効率的に削減できる。これは音声認識処理の計算コストを効率よく削減する上で非常に有用である。
(5)変更例
本発明は上記実施形態に限らず、その主旨を逸脱しない限り種々に変更することができる。
(5−1)変更例1
本実施形態では、音響処理部101において、音声特徴ベクトルとしてMFCCを用いた。
しかし、本実施形態は特定の音声特徴ベクトルに限定されることなく、LPCやPLPなど、任意の音声特徴ベクトルに対して実施可能である。
(5−2)変更例2
本実施形態では、音声区間検出部102において、音声区間を検出する方法として推定雑音パワーと入力音声パワーの比率に基づく方法を用いた。
しかし、本実施形態は特定の音声区間検出方法に限定されることなく、推定雑音区間と推定音声区間の尤度比に基づく方法など、任意の音声区間検出方法に対して実施可能である。
(5−3)変更例3
本実施形態では、辞書部103において、図17及び図18で例示した構造をもつHMMを用いた。
しかし、本実施形態は特定の構造をもつHMMに限定されることなく、エルゴディックな構造をもつHMMなど、任意の構造をもつHMMに対して実施可能である。
(5−4)変更例4
本実施形態では、辞書部103において、出力確率Bji(x)として式(7)に示すように混合正規分布の出力確率の重み付け和を用いた。
しかし、複数の正規分布から最大の出力確率を選択し、それを出力確率Bji(x)とする方法でも実施可能である。
(5−5)変更例5
本実施形態では、辞書部104において、ビタビ法に基づく前向き確率の計算式を用いた。
しかし、本実施形態は特定の前向き確率の計算式に限定されることなく、トレリス法など、任意の前向き確率の計算式に対して実施可能である。
(5−6)変更例6
本実施形態では、探索対象選択部105において、ビームサーチの方法として前向き確率の上位NA個をもつ状態を選択する方法を用いた。
しかし、本実施形態は特定の状態選択方法に限定されることなく、任意の状態選択方法に対して実施可能である。
(5−7)変更例7
本実施形態では、記憶部106において、基準フレームから当該フレームまでの経過フレーム数の閾値判定に固定の閾値NQを用いた。
しかし、本実施形態は特定の基準フレーム更新方法に限定されることなく、任意の基準フレーム更新方法に対して実施可能である。
(第2の実施形態)
次に、第2の実施形態の音声認識装置について図19から図22に基づいて説明する。
(1)音声認識装置の構成
図19は、第2の実施形態の音声認識装置の構成例を示すブロック図である。
図19に示す音声認識装置は、音響処理部101、音声区間検出部102、辞書部203、照合部204、探索対象選択部105、記憶部206、判定部207、を備える。
ここで、第1の実施形態の図14と同じ番号を有する音響処理部101、音声区間検出部102、探索対象選択部105は、第1の実施形態と同じ動作をするため、ここでは説明を省略する。
(1−1)辞書部203
辞書部203は、第1の実施形態における辞書部103と同じく、異なるカテゴリを付与された複数のHMMを格納する。
辞書部103と異なるのは、確率密度関数Bji()として混合正規分布を用いる際に、ある正規分布が複数の確率密度関数によって共有される構造をもつことである。
辞書部203は、辞書部103に加えて、さらに確率密度関数Bji()のm番目の多次元正規分布Gjim()がHMMを構成する正規分布へのインデックスを保持するテーブルTNjimをもち、かつ、多次元正規分布Gjim()を式(15)で定義する。
Figure 0004241771
但し、μnはHMMのn番目の多次元正規分布の平均ベクトルであり、ΣnはHMMのn番目の多次元正規分布の共分散行列である。
また、1=<n=<NNであり、NNはHMMがもつユニークな正規分布の数である。さらに、j1はj2と等しくなく、かつ、i1はi2と等しくないときは(j1、i1、m1)と(j2、i2、m2)に対して、n=TNj1i1m1=TNj2i2m2である場合がある。この場合、正規分布N(μn、Σn)は、2つの確率密度関数Bj1i1()とBj2i2()に共有されている。
(1−2)照合部204
照合部204は、第1の実施形態の照合部104と同じく、HMMと音声特徴ベクトル列との照合を行う。但し、前述の辞書部204及び後述する記憶部206、判定部207の動作に応じて、照合部104とは一部異なる動作を行う。これについては後述する。
(1−3)記憶部206
記憶部206は、第1の実施形態における記憶部106に加えて、正規分布の出力確率バッファRNn(1=<n=<NN)を格納する。
照合部204の処理において、あるフレームtにおける出力確率Bji(x(t))の計算において、式(7)及び式(15)に基づきn番目の正規分布の出力確率N(μn,Σn)が計算された場合に、その計算結果を記憶する。すなわちRNn=N(μn、Σn)とする。
(1−4)判定部207
判定部207は、第1の実施形態における判定部107に加えて、フラグFNnを格納する。フラグFNnの各要素は[0,1]の二値のうちいずれかの値をとり、記憶部206において正規分布の出力確率バッファRNnに正規分布の出力確率N(μn,Σn)が記憶されている場合は1を、そうでない場合は0に設定する。
すなわち、フラグFNnを参照することで、記憶部206の正規分布の出力確率バッファRNnに正規分布の出力確率が記憶されているか否かを判定することができる。記憶部206に格納された基準フレームqが初期値1をとるとき、または、基準フレームqが更新された場合には、フラグFNnの全ての要素を0に設定する。
(2)出力確率P(X)の計算
次に、図19の音声認識装置において、あるカテゴリが付与されたHMMにおける音声特徴ベクトル列Xの出力確率P(X)を計算するための処理の流れを、図20、図21及び図22のフローチャートを用いて説明する。
但し、図20及び図21において、第1の実施形態の図15及び図16と同じ番号を有する処理ステップは、第1の実施形態から変更がないため、ここでは説明を省略する。
また、第1の実施形態における辞書部103、照合部104、記憶部106、判定部107に関連する処理ステップの説明は、第2の実施形態における辞書部203、照合部204、記憶部206、判定部207に関連する動作の説明として読みかえるものとする。
まず、図20のフローチャートにおける処理の詳細を以下で説明する。このフローチャートは、各フレームで前向き確率α(i,t)を計算するまでの手順、及び、フレームtにおける音声特徴ベクトル列Xの出力確率P(X)をもとめる手順を示す。
ステップP203においては、判定部207において、1=<j,i=<NSである全ての(j,i)に対して、フラグFSjiを0で初期化する。さらに、1=<n=<NNである全てのnに対して、フラグFNnを0で初期化する。
ステップP204においては、照合部204において、ステップP200の手順で、当該フレームt=1における前向き確率α(i,t)を計算する。つまり、フレーム1における前向き確率を求める。ステップP200)の詳細については後述する。
ステップP208においては、照合部204において、ステップP220の手順で、当該フレームtにおける前向き確率α(i,t)を計算する。つまり、基準フレームqを更新せずに、当該フレームtの前向き確率を求める。ステップP220の詳細については後述する。
ステップP210においては、判定部207において、1=<j,i=<NSである全ての(j,i)に対して、フラグFSjiを0で初期化する。さらに、1=<n=<NNである全てのnに対して、フラグFNnを0で初期化する。
ステップP211においては、照合部204において、ステップP220の手順で、当該フレームtにおける前向き確率α(i,t)を計算する。つまり、基準フレームqを更新した上で、当該フレームtの前向き確率を求める。ステップP220の詳細については後述する。
(3)前向き確率α(i,t)の計算
次に、図21のフローチャートにおける処理の詳細を以下で説明する。このフローチャートは、各フレームにおける前向き確率α(i,t)の計算の概要を示す。
ステップP225においては、照合部204において、ステップP225の手順で、当該フレームtにおける音声特徴ベクトルx(t)の出力確率Bji(x(t))を計算する。ステップP225の詳細については後述する。
(4)出力確率Bji(x(t))の詳細
次に、図22のフローチャートにおける処理の詳細を以下で説明する。このフローチャートは、出力確率Bji(x(t))の詳細を示す。
ステップP231においては、照合部204において、Bji(x(t))の計算で参照する正規分布Gjimの、全てのm(1=<m=<M)に対して、以下に述べるステップP232〜ステップP237を実行する。
ステップP232においては、辞書部203において、正規分布へのインデックスを保持するテーブルTNjimを用いて、多次元正規分布のインデックスnを得る。すなわちn=TNjimとする。
ステップP233においては、判定部207において、ステップP232でもとめたインデックスnに応じてフラグFNnを参照し、FNn=1であれば、すなわち記憶部206の正規分布の出力確率バッファRNnに出力確率が記憶されていれば、ステップP237に進む。FNn=1でなければ、すなわち正規分布の出力確率バッファRNnに出力確率が記憶されていなければ、ステップP234〜ステップP236に進み、正規分布の出力確率の計算とその記憶を行う。
ステップP234においては、照合部204において、インデックスnをもつ正規分布Gjim()=N(μn、Σn)に対して、当該フレームtにおける音声特徴ベクトルx(t)の出力確率Gjim(x(t))を計算する。
ステップP235においては、記憶部206において、ステップP125で計算した正規分布の出力確率Gjim(x(t))を、正規分布の出力確率バッファRNnに記憶する。すなわちRNn=Gjim(x(t))とする。
ステップP236においては、判定部207において、フラグFNnに、記憶部206の正規分布の出力確率バッファRNnに出力確率を記憶したことを示す数値1をセットする。すなわちFNn=1とする。
ステップP237においては、照合部204において、正規分布の出力確率Gjim(x(t))を、記憶部106の出力確率バッファRNnに記憶した出力確率で近似する。すなわちGjim(x(t))=RNnとする。
ステップP238においては、照合部204において、前述のステップP235で計算した正規分布の出力確率、及び、前述のステップP228で得た正規分布の近似値をもとに、当該フレームtにおける出力確率Bji(x(t))を計算する。ステップP231〜ステップP237を考慮すると、出力確率Bji(x(t))の計算式は以下の式(16)、式(17)、式(18)となる。これらの3つの式は、第1の実施形態における式(7)を置き換える式である。
Figure 0004241771
式(16)、式(17)、式(18)では、n=TNjimかつFNn=1を満たす(m,n)に対してのみ正規分布の出力確率Gjim(x(t))の計算を行うため、第2の実施形態の式(7)に比べて正規分布の出力確率の計算回数を大きく削減できる。
このとき、入力音声の時間変化に対するフレーム幅が十分に小さければ、時間的に近接する音声特徴ベクトルの差も小さくなるため、(t−q)<NQかつq=<t’<tを満たすq、t、t’に対して、NQを適切な値に設定すれば、正規分布の出力確率Gjim(x(t’))とGjim(x(t))の差も十分に小さくなると期待できる。
すなわち、RNn=Gjim(x(t’))がGjim(x(t))の良好な近似値となることが期待できる。但しこのときn=TNjimとする。
(5)効果
つまり、第2の実施形態で説明した音声認識装置では、式(16)、式(17)、式(18)に基づき出力確率を計算することで、第1の実施形態の式(7)による出力確率の計算に比べて、正規分布の計算回数を大きく削減すると共に、式(7)の良好な近似値を得ることができる。
この結果、音声認識処理において、認識性能に悪影響を与えることなく、正規分布の計算回数を削減する、すなわち出力確率計算の計算コストを効率的に削減できる。これは音声認識処理の計算コストを効率よく削減する上で非常に有用である。
(第3の実施形態)
次に、第3の実施形態の音声認識装置について図23から図25に基づいて説明する。
(1)音声認識装置の構成
図23は、第3の実施形態の音声認識装置の構成例を示すブロック図である。
図23に示す音声認識装置は、音響処理部101、音声区間検出部102、辞書部103、照合部304、探索対象選択部105、記憶部106、判定部107、を備える。
ここで、第1の実施形態の図14と同じ番号を有する音響処理部101、音声区間検出部102、辞書部103、探索対象選択部105、記憶部106、判定部107は、第1の実施形態と同じ動作をするため、ここでは説明を省略する。
照合部304は、第1の実施形態の照合部104と同じく、HMMと音声特徴ベクトル列との照合を行う。但し、照合部104とは一部異なる動作を行う。すなわち、あるフレームtにおける前向き確率の計算において、音声特徴ベクトルの出力確率の計算が必要になった場合には、当該フレームtの音声特徴ベクトルx(t)の出力確率Bji(x(t))の近似値として、記憶部106で記憶された基準フレームqの音声特徴ベクトルx(q)の出力確率Bji(x(q))を用いる。
(2)出力確率P(X)の計算
次に、図23の音声認識装置において、あるカテゴリが付与されたHMMにおける音声特徴ベクトル列Xの出力確率P(X)を計算するための処理の流れを、図24、図25のフローチャートを用いて説明する。
但し、図24及び図25において、第1の実施形態の図15及び図16と同じ番号を有する処理ステップは、第1の実施形態から変更がないため、ここでは説明を省略する。
但し、第1の実施形態における照合部104に関連する処理ステップの説明は、第4の実施形態における照合部304に関連する動作の説明として読みかえるものとする。また、図24のフローチャートにおける処理は、第1の実施形態における図15のフローチャートと同一であるため、説明を省略する。
図25のフローチャートにおける処理の詳細を以下で説明する。このフローチャートでは、第1の実施形態の図16のフローチャートに対して、ステップP125及びステップP129がステップP325及びステップP239に変更されている。
ステップP325においては、照合部304において、記憶部106の基準フレーム番号qに対応する音声特徴ベクトルx(q)の出力確率Bji(x(q))を式(7)及び式(8)で計算し、当該フレームtにおける音声特徴ベクトルx(t)の出力確率Bji(x(t))の代替値として用いる。
ステップP129においては、前述のステップP325で計算した出力確率の近似値、及び、ステップP128で得た出力確率の近似値をもとに、当該フレームtにおける前向き確率α(i,t)を計算する。前向き確率α(i,t)の計算式は以下の式(19)、式(20)、式(21)となる。これらの3つの式は、第2の実施形態における式(12)、式(13)、式(14)を置き換える式である。
Figure 0004241771
従来技術に好適な音声認識装置1のブロック図である。 HMMの例1である。 HMMの例2である。 音声認識装置1のフローチャートである。 音声認識装置1のフローチャートである。 音声認識装置1における前向き確率の計算の概要図である。 従来技術に好適な音声認識装置2のブロック図である。 音声認識装置2における前向き確率の計算の概要図である。 従来技術に好適な音声認識装置3のブロック図である。 音声認識装置3における前向き確率の計算の概要図である。 従来技術の問題点を解説するための前向き確率の計算の概要図である。 従来技術の問題点を解説するための前向き確率の計算の概要図である。 本発明の解決策を解説するための前向き確率の計算の概要図である。 本発明の第1の実施形態の音声認識装置のブロック図である。 第1の実施形態のフローチャートである。 第1の実施形態のフローチャートである。 本発明におけるHMMの例である。 HMMの例である。 本発明の第2の実施形態の音声認識装置のブロック図である。 第2の実施形態のフローチャートである。 第2の実施形態のフローチャートである。 第2の実施形態のフローチャートである。 本発明の第3の実施形態の音声認識装置のブロック図である。 第3の実施形態のフローチャートである。 第3の実施形態のフローチャートである。
符号の説明
101 音響処理部
102 音声区間検出部
103 辞書部
104 照合部
105 探索対象選択部
106 記憶部
107 判定部

Claims (9)

  1. 入力する音声信号をHMM(隠れマルコフモデル)を用いて音声認識する音声認識装置において、
    前記音声信号から一定時間幅のフレーム毎の音声特徴ベクトルを取得する音響処理部と、
    前記各フレームの中で一つのフレームを基準フレームとして、そのフレーム番号を記憶する基準フレーム記憶部と、
    前記基準フレームから任意のフレーム数が経過した場合に、前記基準フレームから前記フレーム数後のフレームを新たな基準フレームとして設定し直して更新すると共に、前記更新を最終フレームまで順番に行う基準フレーム更新部と、
    前記基準フレームにおいてビームサーチに基づき前記HMMの第1探索範囲を選択する第1探索範囲選択部と、
    前記第1探索範囲内の個々の遷移パスにおける音声特徴ベクトルの第1出力確率を計算する第1出力確率計算部と、
    前記第1出力確率の計算結果を前記個々の遷移パスに結びつけて記憶する第1出力確率記憶部と、
    前記基準フレームを更新した場合に、前記遷移パスに結び付けて記憶した前記第1出力確率の計算結果を全て消去する第1出力確率消去部と、
    前記基準フレームを更新しなかった場合に、前記基準フレームから次に更新される新たな基準フレームまでの区間にある各フレームにおいて、ビームサーチに基づき前記HMMの第2探索範囲をフレーム毎に選択する第2探索範囲選択部と、
    前記第2探索範囲が選択されたフレームである現フレームの前記第2探索範囲内の個々の遷移パスに対し、それと同じ遷移パスの前記第1出力確率の計算結果あるいは前記基準フレームから前記現フレームの間にある過去フレームに関する後述の第2出力確率の計算結果が、前記遷移パスに結び付けられて記憶されているか否かを判定する判定部と、
    前記第1出力確率の計算結果あるいは前記基準フレームから前記現フレームの間にある過去フレームに関する後述の第2出力確率の計算結果が記憶されている場合は、前記基準フレームから前記現フレームの間にある過去フレームに関する前記第1出力確率の計算結果あるいは後述の第2出力確率の計算結果を、前記遷移パスの第2出力確率の近似値とする近似値設定部と、
    前記第1出力確率の計算結果及び前記基準フレームから現フレームの直前のフレームまでの区間における後述の第2出力確率の計算結果が記憶されていない場合は、前記遷移パスにおける前記現フレーム、または、前記基準フレームの音声特徴ベクトルの第2出力確率を計算する第2出力確率計算部と、
    前記第2出力確率の計算結果を、前記遷移パスに結び付けて新たに記憶する第2出力確率記憶部と、
    前記基準フレームを更新した場合に、前記遷移パスに結び付けて記憶した前記第2出力確率の計算結果を全て消去する第2出力確率消去部と、
    予め計算した前フレームの前向き確率と、前記現フレームの前記全ての近似値と前記全ての第2出力確率から前記現フレームの前向き確率を計算する前向き確率計算部と、
    前記最終フレームまで前記HMM毎の前記前向き確率を計算した後に、前記最終フレームに関して最も大きい前向き確率を与える前記HMMに付与されたカテゴリを、音声認識結果とする音声認識部と、
    を備える
    ことを特徴とする音声認識装置。
  2. 前記第1出力確率及び前記第2出力確率における確率密度関数が、混合正規分布であり、
    前記HMMが、任意の正規分布を複数の確率密度関数が共有する構造であり、
    前記第1出力確率計算部において、前記個々の遷移パスにおける前記第1出力確率を計算する際に、前記確率密度関数を構成する個々の正規分布に対する音声特徴ベクトルの出力確率を計算し、それぞれの計算結果を正規分布毎にその正規分布に結び付けて記憶し、
    前記第1出力確率消去部において、前記第1出力確率の計算結果を全て消去することに加えて、前記正規分布に結び付けて記憶した音声特徴ベクトルの出力確率の計算結果も全て消去し、
    前記第2出力確率計算部において、前記第2出力確率を計算する際に、前記確率密度関数を構成する個々の正規分布に対する音声特徴ベクトルの出力確率について、
    (1)前記正規分布に結び付けられた計算結果の記憶がある場合には、前記記憶された計算結果を前記正規分布の出力確率の近似値とし、
    (2)前記正規分布に結び付けられた計算結果の記憶がない場合には、前記正規分布に対する音声特徴ベクトルの出力確率をさらに計算し、前記計算結果をその正規分布に結び付けて新たに記憶する
    ことを特徴とする請求項1記載の音声認識装置。
  3. 前記基準フレーム記憶部において、前記新たな基準フレームのフレーム番号に加えて、前記新たな基準フレームの音声特徴ベクトルを記憶し、
    前記基準フレーム更新部において、前記新たな基準フレームのフレーム番号に加えて、前記新たな基準フレームの音声特徴ベクトルも更新し、
    前記第2出力確率計算部において、前記基準フレームの音声特徴ベクトルの第2出力確率を計算する
    ことを特徴とする請求項1記載の音声認識装置。
  4. 入力する音声信号をHMM(隠れマルコフモデル)を用いて音声認識する音声認識方法において、
    音響処理部が、前記音声信号から一定時間幅のフレーム毎の音声特徴ベクトルを取得し、
    基準フレーム記憶部が、前記各フレームの中で一つのフレームを基準フレームとして、そのフレーム番号を記憶し、
    基準フレーム更新部が、前記基準フレームから任意のフレーム数が経過した場合に、前記基準フレームから前記フレーム数後のフレームを新たな基準フレームとして設定し直して更新すると共に、前記更新を最終フレームまで順番に行い、
    第1探索範囲選択部が、前記基準フレームにおいてビームサーチに基づき前記HMMの第1探索範囲を選択し
    第1出力確率計算部が、前記第1探索範囲内の個々の遷移パスにおける音声特徴ベクトルの第1出力確率を計算し、
    第1出力確率記憶部が、前記第1出力確率の計算結果を前記個々の遷移パスに結びつけて記憶し、
    第1出力確率消去部が、前記基準フレームを更新した場合に、前記遷移パスに結び付けて記憶した前記第1出力確率の計算結果を全て消去し、
    第2探索範囲選択部が、前記基準フレームを更新しなかった場合に、前記基準フレームから次に更新される新たな基準フレームまでの区間にある各フレームにおいて、ビームサーチに基づき前記HMMの第2探索範囲をフレーム毎に選択し、
    判定部が、前記第2探索範囲が選択されたフレームである現フレームの前記第2探索範囲内の個々の遷移パスに対し、それと同じ遷移パスの前記第1出力確率の計算結果あるいは前記基準フレームから前記現フレームの間にある過去フレームに関する後述の第2出力確率の計算結果が、前記遷移パスに結び付けられて記憶されているか否かを判定し、
    近似値設定部が、前記第1出力確率の計算結果あるいは前記基準フレームから前記現フレームの間にある過去フレームに関する後述の第2出力確率の計算結果が記憶されている場合は、前記基準フレームから前記現フレームの間にある過去フレームに関する前記第1出力確率の計算結果あるいは後述の第2出力確率の計算結果を、前記遷移パスの第2出力確率の近似値とし、
    第2出力確率計算部が、前記第1出力確率の計算結果及び前記基準フレームから現フレームの直前のフレームまでの区間における後述の第2出力確率の計算結果が記憶されていない場合は、前記遷移パスにおける前記現フレーム、または、前記基準フレームの音声特徴ベクトルの第2出力確率を計算し、
    第2出力確率記憶部が、前記第2出力確率の計算結果を、前記遷移パスに結び付けて新たに記憶し、
    第2出力確率消去部が、前記基準フレームを更新した場合に、前記遷移パスに結び付けて記憶した前記第2出力確率の計算結果を全て消去し、
    前向き確率計算部が、予め計算した前フレームの前向き確率と、前記現フレームの前記全ての近似値と前記全ての第2出力確率から前記現フレームの前向き確率を計算し、
    音声認識部が、前記最終フレームまで前記HMM毎の前記前向き確率を計算した後に、前記最終フレームに関して最も大きい前向き確率を与える前記HMMに付与されたカテゴリを、音声認識結果とする
    ことを特徴とする音声認識方法。
  5. 前記第1出力確率及び前記第2出力確率における確率密度関数が、混合正規分布であり、
    前記HMMが、任意の正規分布を複数の確率密度関数が共有する構造であり、
    前記第1出力確率計算部が、前記個々の遷移パスにおける前記第1出力確率を計算する際に、前記確率密度関数を構成する個々の正規分布に対する音声特徴ベクトルの出力確率を計算し、
    前記第1出力確率記憶部が、それぞれの計算結果を正規分布毎にその正規分布に結び付けて記憶し、
    前記第1出力確率消去部が、前記第1出力確率の計算結果を全て消去することに加えて、前記正規分布に結び付けて記憶した音声特徴ベクトルの出力確率の計算結果も全て消去し、
    前記第2出力確率計算部が、前記第2出力確率を計算する際に、前記確率密度関数を構成する個々の正規分布に対する音声特徴ベクトルの出力確率について、
    (1)前記正規分布に結び付けられた計算結果の記憶がある場合には、前記記憶された計算結果を前記正規分布の出力確率の近似値とし、
    (2)前記正規分布に結び付けられた計算結果の記憶がない場合には、前記正規分布に対する音声特徴ベクトルの出力確率をさらに計算し、前記計算結果をその正規分布に結び付けて新たに記憶する
    ことを特徴とする請求項4記載の音声認識方法。
  6. 前記基準フレーム記憶部が、前記新たな基準フレームのフレーム番号に加えて、前記新たな基準フレームの音声特徴ベクトルを記憶し、
    前記基準フレーム更新部が、前記新たな基準フレームのフレーム番号に加えて、前記新たな基準フレームの音声特徴ベクトルも更新し、
    前記第2出力確率計算部が、前記基準フレームの音声特徴ベクトルの第2出力確率を計算する
    ことを特徴とする請求項4記載の音声認識方法。
  7. 入力する音声信号をHMM(隠れマルコフモデル)を用いてコンピュータによって音声認識する音声認識プログラムにおいて、
    前記コンピュータに、
    前記音声信号から一定時間幅のフレーム毎の音声特徴ベクトルを取得する音響処理機能と、
    前記各フレームの中で一つのフレームを基準フレームとして、そのフレーム番号を記憶する基準フレーム記憶機能と、
    前記基準フレームから任意のフレーム数が経過した場合に、前記基準フレームから前記フレーム数後のフレームを新たな基準フレームとして設定し直して更新すると共に、前記更新を最終フレームまで順番に行う基準フレーム更新機能と、
    前記基準フレームにおいてビームサーチに基づき前記HMMの第1探索範囲を選択する第1探索範囲選択機能と、
    前記第1探索範囲内の個々の遷移パスにおける音声特徴ベクトルの第1出力確率を計算する第1出力確率計算機能と、
    前記第1出力確率の計算結果を前記個々の遷移パスに結びつけて記憶する第1出力確率記憶機能と、
    前記基準フレームを更新した場合に、前記遷移パスに結び付けて記憶した前記第1出力確率の計算結果を全て消去する第1出力確率消去機能と、
    前記基準フレームを更新しなかった場合に、前記基準フレームから次に更新される新たな基準フレームまでの区間にある各フレームにおいて、ビームサーチに基づき前記HMMの第2探索範囲をフレーム毎に選択する第2探索範囲選択機能と、
    前記第2探索範囲が選択されたフレームである現フレームの前記第2探索範囲内の個々の遷移パスに対し、それと同じ遷移パスの前記第1出力確率の計算結果あるいは前記基準フレームから前記現フレームの間にある過去フレームに関する後述の第2出力確率の計算結果が、前記遷移パスに結び付けられて記憶されているか否かを判定する判定機能と、
    前記第1出力確率の計算結果あるいは前記基準フレームから前記現フレームの間にある過去フレームに関する後述の第2出力確率の計算結果が記憶されている場合は、前記基準フレームから前記現フレームの間にある過去フレームに関する前記第1出力確率の計算結果あるいは後述の第2出力確率の計算結果を、前記遷移パスの第2出力確率の近似値とする近似値設定機能と、
    前記第1出力確率の計算結果及び前記基準フレームから現フレームの直前のフレームまでの区間における後述の第2出力確率の計算結果が記憶されていない場合は、前記遷移パスにおける前記現フレーム、または、前記基準フレームの音声特徴ベクトルの第2出力確率を計算する第2出力確率計算機能と、
    前記第2出力確率の計算結果を、前記遷移パスに結び付けて新たに記憶する第2出力確率記憶機能と、
    前記基準フレームを更新した場合に、前記遷移パスに結び付けて記憶した前記第2出力確率の計算結果を全て消去する第2出力確率消去機能と、
    予め計算した前フレームの前向き確率と、前記現フレームの前記全ての近似値と前記全ての第2出力確率から前記現フレームの前向き確率を計算する前向き確率計算機能と、
    前記最終フレームまで前記HMM毎の前記前向き確率を計算した後に、前記最終フレームに関して最も大きい前向き確率を与える前記HMMに付与されたカテゴリを、音声認識結果とする音声認識機能と、
    を実現させるための音声認識プログラム。
  8. 前記第1出力確率及び前記第2出力確率における確率密度関数が、混合正規分布であり、
    前記HMMが、任意の正規分布を複数の確率密度関数が共有する構造であり、
    前記コンピュータが、
    前記第1出力確率計算機能において、前記個々の遷移パスにおける前記第1出力確率を計算する際に、前記確率密度関数を構成する個々の正規分布に対する音声特徴ベクトルの出力確率を計算し、それぞれの計算結果を正規分布毎にその正規分布に結び付けて記憶し、
    前記第1出力確率消去機能において、前記第1出力確率の計算結果を全て消去することに加えて、前記正規分布に結び付けて記憶した音声特徴ベクトルの出力確率の計算結果も全て消去し、
    前記第2出力確率計算機能において、前記第2出力確率を計算する際に、前記確率密度関数を構成する個々の正規分布に対する音声特徴ベクトルの出力確率について、
    (1)前記正規分布に結び付けられた計算結果の記憶がある場合には、前記記憶された計算結果を前記正規分布の出力確率の近似値とし、
    (2)前記正規分布に結び付けられた計算結果の記憶がない場合には、前記正規分布に対する音声特徴ベクトルの出力確率をさらに計算し、前記計算結果をその正規分布に結び付けて新たに記憶する
    ことを特徴とする請求項7記載の音声認識プログラム。
  9. 前記コンピュータが、
    前記基準フレーム記憶機能において、前記新たな基準フレームのフレーム番号に加えて、前記新たな基準フレームの音声特徴ベクトルを記憶し、
    前記基準フレーム更新機能において、前記新たな基準フレームのフレーム番号に加えて、前記新たな基準フレームの音声特徴ベクトルも更新し、
    前記第2出力確率計算機能において、前記基準フレームの音声特徴ベクトルの第2出力確率を計算する
    ことを特徴とする請求項7記載の音声認識プログラム。
JP2006185002A 2006-07-04 2006-07-04 音声認識装置及びその方法 Expired - Fee Related JP4241771B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006185002A JP4241771B2 (ja) 2006-07-04 2006-07-04 音声認識装置及びその方法
US11/694,547 US7895040B2 (en) 2006-07-04 2007-03-30 Device and method of modeling acoustic characteristics with HMM and collating the same with a voice characteristic vector sequence
CNA2007101271937A CN101101751A (zh) 2006-07-04 2007-07-04 语音识别装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006185002A JP4241771B2 (ja) 2006-07-04 2006-07-04 音声認識装置及びその方法

Publications (2)

Publication Number Publication Date
JP2008015120A JP2008015120A (ja) 2008-01-24
JP4241771B2 true JP4241771B2 (ja) 2009-03-18

Family

ID=39036000

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006185002A Expired - Fee Related JP4241771B2 (ja) 2006-07-04 2006-07-04 音声認識装置及びその方法

Country Status (3)

Country Link
US (1) US7895040B2 (ja)
JP (1) JP4241771B2 (ja)
CN (1) CN101101751A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9786272B2 (en) 2013-12-24 2017-10-10 Kabushiki Kaisha Toshiba Decoder for searching a digraph and generating a lattice, decoding method, and computer program product
US10008200B2 (en) 2013-12-24 2018-06-26 Kabushiki Kaisha Toshiba Decoder for searching a path according to a signal sequence, decoding method, and computer program product
US10042345B2 (en) 2014-01-31 2018-08-07 Kabushiki Kaisha Toshiba Conversion device, pattern recognition system, conversion method, and computer program product
US10055511B2 (en) 2013-12-24 2018-08-21 Kabushiki Kaisha Toshiba Search device, search method, and computer program product
US10109274B2 (en) 2014-11-28 2018-10-23 Kabushiki Kaisha Toshiba Generation device, recognition device, generation method, and computer program product
US10452355B2 (en) 2014-09-18 2019-10-22 Kabushiki Kaisha Toshiba Automaton deforming device, automaton deforming method, and computer program product
US10572538B2 (en) 2015-04-28 2020-02-25 Kabushiki Kaisha Toshiba Lattice finalization device, pattern recognition device, lattice finalization method, and computer program product
US10600407B2 (en) 2016-07-20 2020-03-24 Kabushiki Kaisha Toshiba Generation device, recognition system, and generation method for generating finite state transducer

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101807397B (zh) * 2010-03-03 2011-11-16 北京航空航天大学 一种基于隐半马尔可夫模型的噪声鲁棒的语音检测方法
CN104376324A (zh) * 2013-08-12 2015-02-25 索尼公司 基于信号处理的状态检测方法和装置
JP2015040903A (ja) * 2013-08-20 2015-03-02 ソニー株式会社 音声処理装置、音声処理方法、及び、プログラム
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
CN105702250B (zh) * 2016-01-06 2020-05-19 福建天晴数码有限公司 语音识别方法和装置
CN106128457A (zh) * 2016-08-29 2016-11-16 昆山邦泰汽车零部件制造有限公司 一种对话机器人的控制方法
JP6618884B2 (ja) 2016-11-17 2019-12-11 株式会社東芝 認識装置、認識方法およびプログラム
CN106875936B (zh) * 2017-04-18 2021-06-22 广州视源电子科技股份有限公司 语音识别方法及装置
KR20190045038A (ko) 2017-10-23 2019-05-02 삼성전자주식회사 음성 인식 방법 및 장치
US11194968B2 (en) * 2018-05-31 2021-12-07 Siemens Aktiengesellschaft Automatized text analysis

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5805772A (en) * 1994-12-30 1998-09-08 Lucent Technologies Inc. Systems, methods and articles of manufacture for performing high resolution N-best string hypothesization
JP3251480B2 (ja) * 1995-10-27 2002-01-28 沖電気工業株式会社 音声認識方法
US5991720A (en) * 1996-05-06 1999-11-23 Matsushita Electric Industrial Co., Ltd. Speech recognition system employing multiple grammar networks
GB9802836D0 (en) * 1998-02-10 1998-04-08 Canon Kk Pattern matching method and apparatus
WO1999053477A1 (fr) * 1998-04-15 1999-10-21 Hitachi, Ltd. Systeme de reconnaissance vocale a micro-ordinateur parallele
JP2001075596A (ja) * 1999-09-03 2001-03-23 Mitsubishi Electric Corp 音声認識装置、音声認識方法及び音声認識プログラムを記録した記録媒体
US6963837B1 (en) * 1999-10-06 2005-11-08 Multimodal Technologies, Inc. Attribute-based word modeling
US6574595B1 (en) * 2000-07-11 2003-06-03 Lucent Technologies Inc. Method and apparatus for recognition-based barge-in detection in the context of subword-based automatic speech recognition

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9786272B2 (en) 2013-12-24 2017-10-10 Kabushiki Kaisha Toshiba Decoder for searching a digraph and generating a lattice, decoding method, and computer program product
US10008200B2 (en) 2013-12-24 2018-06-26 Kabushiki Kaisha Toshiba Decoder for searching a path according to a signal sequence, decoding method, and computer program product
US10055511B2 (en) 2013-12-24 2018-08-21 Kabushiki Kaisha Toshiba Search device, search method, and computer program product
US10042345B2 (en) 2014-01-31 2018-08-07 Kabushiki Kaisha Toshiba Conversion device, pattern recognition system, conversion method, and computer program product
US10452355B2 (en) 2014-09-18 2019-10-22 Kabushiki Kaisha Toshiba Automaton deforming device, automaton deforming method, and computer program product
US10109274B2 (en) 2014-11-28 2018-10-23 Kabushiki Kaisha Toshiba Generation device, recognition device, generation method, and computer program product
US10572538B2 (en) 2015-04-28 2020-02-25 Kabushiki Kaisha Toshiba Lattice finalization device, pattern recognition device, lattice finalization method, and computer program product
US10600407B2 (en) 2016-07-20 2020-03-24 Kabushiki Kaisha Toshiba Generation device, recognition system, and generation method for generating finite state transducer

Also Published As

Publication number Publication date
CN101101751A (zh) 2008-01-09
US20080281595A1 (en) 2008-11-13
JP2008015120A (ja) 2008-01-24
US7895040B2 (en) 2011-02-22

Similar Documents

Publication Publication Date Title
JP4241771B2 (ja) 音声認識装置及びその方法
US7725319B2 (en) Phoneme lattice construction and its application to speech recognition and keyword spotting
US9406299B2 (en) Differential acoustic model representation and linear transform-based adaptation for efficient user profile update techniques in automatic speech recognition
JP5418223B2 (ja) 音声分類装置、音声分類方法、および音声分類用プログラム
JP4410265B2 (ja) 音声認識装置及び方法
US20110077943A1 (en) System for generating language model, method of generating language model, and program for language model generation
EP1241661A1 (en) Speech recognition apparatus
JP4515054B2 (ja) 音声認識の方法および音声信号を復号化する方法
CN106847259B (zh) 一种音频关键词模板的筛选和优化方法
JPWO2010061507A1 (ja) 言語モデル作成装置
KR101564087B1 (ko) 화자 검증 장치 및 방법
WO2012001458A1 (en) Voice-tag method and apparatus based on confidence score
WO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP6481939B2 (ja) 音声認識装置および音声認識プログラム
JPH08211889A (ja) 木構造を用いたパターン適応化方式
US20170263250A1 (en) Voice processing system and voice processing method
US20120330664A1 (en) Method and apparatus for computing gaussian likelihoods
Rybach et al. On lattice generation for large vocabulary speech recognition
JP2007078943A (ja) 音響スコア計算プログラム
JP4586386B2 (ja) 素片接続型音声合成装置及び方法
JP2014153680A (ja) 音響モデル補正パラメータ推定装置、特徴量補正パラメータ推定装置、それらの方法及びプログラム
JP2013174768A (ja) 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム
JP4510517B2 (ja) 音響モデル雑音適応化方法およびこの方法を実施する装置
JP5104732B2 (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
US20060136210A1 (en) System and method for tying variance vectors for speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080326

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080916

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081216

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081222

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120109

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120109

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130109

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130109

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140109

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees