JP2009169154A - 音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体 - Google Patents

音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体 Download PDF

Info

Publication number
JP2009169154A
JP2009169154A JP2008007937A JP2008007937A JP2009169154A JP 2009169154 A JP2009169154 A JP 2009169154A JP 2008007937 A JP2008007937 A JP 2008007937A JP 2008007937 A JP2008007937 A JP 2008007937A JP 2009169154 A JP2009169154 A JP 2009169154A
Authority
JP
Japan
Prior art keywords
search
recognition result
frame
likelihood
unsearched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008007937A
Other languages
English (en)
Other versions
JP4883717B2 (ja
Inventor
Tsuneo Kato
恒夫 加藤
Hisashi Kawai
恒 河井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2008007937A priority Critical patent/JP4883717B2/ja
Publication of JP2009169154A publication Critical patent/JP2009169154A/ja
Application granted granted Critical
Publication of JP4883717B2 publication Critical patent/JP4883717B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】前向き探索および後向き探索を含む複数の探索を独立に実行し、各探索により得られた認識結果を正当に評価することにより、文法に記述できない物音や音声が文頭や文末に混入する場合でも、確度の高い認識結果を得られるようにした音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体を提供する。
【解決手段】前向き探索では、音声データの最終フレームまで到達していない状態仮説Eに関して、その累積尤度Sf9と、後向き探索で得られた最大累積尤度Mr14との加算値をフレーム数T(=23)で除した値(Sf9+Mr14)/Tがフレーム平均尤度となる。後向き探索では、音声データの先頭フレームまで到達していない状態仮説Gに関して、その累積尤度Sr14と、前向き探索で得られた最大累積尤度Mf9との加算値をフレーム数T(=23)で除した値(Sr14+Mr9)/Tがフレーム平均尤度となる。
【選択図】図8

Description

本発明は、音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体に係り、特に、HMMに代表される状態遷移確率モデルを用いて音声認識を行う音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体に関する。
音声認識では、入力された音声信号に最も近い単語列が、状態系列として表現される単語との類似度(確率)に基づいて判定される。HMM(Hidden Markov Model:隠れマルコフモデル)は、単語や、単語を構成する音素を表現するのに適切な確率モデルの1つであり、各状態は状態遷移確率および出力確率密度関数を持つ。以下、従来の音声認識の手法を、前記HMM を利用した場合を例にして説明する。
音声認識装置では、認識可能な文の集合が単語を単位とするネットワークとして記述された文法と、文を構成する単語の読み(音素列)が記述された単語辞書とに従って認識処理が進行する。図14は、文法の一例を示した図であり、ここでは、「伊藤です」、「糸井です」、「今井です」、「土井です」という4つの音声を識別する場合を例にして説明する。
図14に示された文法は、丸数字1で示した状態「1」を始端(文頭)とし、状態「5」を終端(文末)とする状態遷移図であり、矢印で対応付けられた単語を出力して状態間を遷移する。文法を構成する各単語は、その読み(音素列)に従ってHMMの状態系列として表現され、単語辞書に含まれる単語の集合は、図15に示したような木構造辞書として展開される。
木構造辞書では、各単語が音素列に分解され、単語「糸井」であれば4つの音素「i」,「t」,「o」,「i」の列に展開される。各音素は、通常3つ程度の状態(HMM状態)から構成される。木構造辞書は、HMMの状態系列として表現される単語間で、先頭から共通する部分的な状態系列をマージすることにより、右に進むにつれて分岐が広がる状態遷移図である。図15の木構造辞書では、「伊藤」、「糸井」、「今井」の3単語で、単語先頭の「い」に相当するHMMの状態系列がマージされ、さらに「伊藤」と「糸井」の間で「いと」までに相当するHMMの状態系列がマージされている。また「土井」と「です」との間で、単語先頭の「d」に相当するHMM状態系列がマージされている。図中の「sil」は無音声区間(silence)を表している。
音声認識処理では、図14に示した文法の制約に従って、図15に示した木構造辞書中の単語先頭のHMM状態から、状態仮説と呼ばれるトークンが木構造辞書を左から右へと遷移する。状態仮説が単語終端のHMM状態に到達すると、単語仮説と呼ばれる履歴を残して、図14の文法における該当単語の遷移先状態に遷移する。遷移先状態が文末でなければ、次の時刻から同様に、文法の制約に従って木構造辞書の探索が行われる。
木構造辞書中のHMM状態系列を状態仮説が左から右へと遷移する間に、入力音声に対して、その単語らしさのスコア(累積尤度)が計算される。木構造辞書を構成する各HMM状態は、音響特徴パラメータの入力に対して尤もらしさを出力する確率分布(出力確率密度関数)を有している。また、HMM状態間の遷移について遷移確率(状態遷移確率)が定義されている。これらの確率を時間方向に累積することで、累積尤度が計算される。
この累積尤度は、後述する認識結果の確定処理のため、状態仮説が各単語の終端の状態に到達して単語仮説と呼ばれる履歴を残すときに、先行する単語仮説のインデックスとともに単語仮説中に格納される。
音声信号を分析して音響特徴ベクトルを得る所定の一定周期ごとに、各HMM状態まで遷移した各状態仮説は、さらに自身のHMM状態への遷移(自己遷移)および右隣のHMM状態への遷移(L-R遷移)とを同時に繰り返す。このとき、t番目のフレームに状態jが存在する累積尤度をαj(t)とすれば、累積尤度αj(t)は次式(1)で表される。ここで、αijは状態iから状態jへの遷移確率、bj(ot)は状態jが音響特徴量otを出力する確率である。自己遷移は、次式(1)においてi=jの場合として考える。
Figure 2009169154
T個のフレームから構成される音声信号についてN個のHMM状態からなる単語系列を探索する場合、すなわち、状態仮説がHMM状態系列を遷移していく場合の、自己遷移とL-R遷移との空間(トレリス)を図16に示す。トレリス空間は、横軸を観察系列としてのフレーム、縦軸を状態として可能な状態系列を示す格子グラフであって、それぞれの状態系列は、各時刻における状態を表す点(○印)を線分で結んだ折れ線で表される。
図16に示したように、t番目のフレームのタイミングで状態jに至るパスは数多く存在するが、音声認識は最も確からしいパス(最尤パス)を求めるのが目的であるので、各フレームの各HMM状態において、次式(2)に従って高いスコアを残すViterbi探索が行われる。
Figure 2009169154
音声認識処理は、文法が許容する全ての単語連鎖を探索する必要があるため、同時刻に数多くの状態仮説が、自分自身のHMM状態への遷移(図16では、右隣りへの自己遷移)と隣接する他のHMM状態への遷移(図16では、右下隣りへのL-R遷移)とを行うので、その計算量は膨大になる。この計算量の増大を抑えるために、通常はViterbi探索途中で確率の小さい状態仮説を探索空間から除外する枝刈りが行われる。
枝刈りでは、処理中の時刻における最大の尤度から、尤度が一定幅以内にある状態仮説を次の時刻の探索空間として残し、尤度が一定幅以上に低い状態仮説は次の時刻の探索空間から除外される。すなわち、時刻t、状態jの尤度を同時刻の全状態仮説中で最大の尤度と比較する。そして、次式(3)が成立する場合は、状態jを次の時刻の探索空間に残し、次式(4)が成立する場合は、状態jを次の時刻の探索空間から除外する。θpruningは枝刈りの閾値であって正の実数である。
Figure 2009169154
Figure 2009169154
なお、上記した検索手法は、1発声分の音響特徴量を古い時刻から新しい時刻の順、すなわち正順に与え、文頭から文末に向かって探索を行う前向き探索の例である。図14の文法を文末から文頭に向かって記述し、図15の木構造辞書を単語の末尾から先頭に向かって並べ、単語の末尾から共通部分をマージして作成し、1発声分の音響特徴量を新しい時刻から古い時刻の順、すなわち逆順に与えれば、前向き探索と同様に後向き探索を行うことができる。図14、15で定義される前向き探索の空間を、後向き探索用に変更した文法および木構造の一例を、それぞれ図17,18に示す。
次いで、探索処理の最後に認識結果を確定するバックトレースについて説明する。パワーの低下等、音声の終了を判断する何らかの条件により探索処理が終了すると、終了時刻に文末に到達した単語仮説のうち、音声始端からの累積尤度の最も高いものから、先行する単語の系列(この単語仮説に至るまでの単語の履歴)を導き出す。これが最終的な認識結果の候補となる。この操作はバックトレースと呼ばれる。なお、累積尤度は音声の時間長によって異なるので、時間長の影響を取り除くために累積尤度をフレーム数で除算してフレーム平均尤度が求められる場合がある。
次いで、信頼性尺度について説明する。認識結果を出力する前に、認識結果の候補を検証することがある。信頼性尺度は、フレーム平均尤度以上に認識結果の正誤判定に適した尺度である。例えば、図14,17の文法の他に、任意の日本語の音を認識する音節タイプライタ文法で並列に探索処理を行い、音節タイプライタのスコア(累積尤度)を求めると、図14,17の文法のスコアが音節タイプライタのスコアに近い値ならば認識結果の信頼性は高く、反対に音節タイプライタのスコアより著しく低ければ信頼性は低いと判断できる。信頼性尺度は単語毎に算出することができる。単語wiの始端時刻をti-1、終端時刻をtiとすると、単語wiの区間のスコアαwiは次式(5)で求められる
Figure 2009169154
信頼性尺度Cwiは、次式(6)のように、αwiと同区間の音節タイプライタのスコアβtwの差分をフレーム数で除算して求められる。Cwiがゼロに近いとき信頼性は高く、負の大きな値のとき信頼性は低い。
Figure 2009169154
音声認識は前向き探索および後向き探索の一方で可能であるが、前向き探索と後向き探索の組み合わせは探索の効率化と精度向上を目的に以下のように用いられてきた。
(1)大語彙連続音声認識において、計算コストの小さな粗い音響モデルと言語モデルとを用いて前向き探索を行い、最終的な認識結果を含む有望な候補単語の集合に絞り込み、この集合に対して計算コストの大きい精密な音響モデルと言語モデルを用いて後向き探索を行うことで最終的な認識結果を確定する。
(2)特許文献1では、前向き探索として特定のタスクに依存しない音節タイプライタ文法を用い音声先頭から各フレームまでの累積尤度の最大値を記録しておき、次に後向き探索でタスクの文法と単語辞書を用いてA*探索を行い、このA*探索における未探索部分の推定スコアとして前向き探索の最大累積尤度を用いることで、高速な後向き探索を可能にしている。
特開平10−97275号公報
従来の前向き探索と後向き探索との組合せは、大語彙連続音声認識を高い精度で短時間に実行することを目的としている。そのため、前向き探索で探索空間を絞り込み、後向き探索で最終的な認識結果を求めたり、前向き探索と後向き探索を整合させたりすることを前提としている。
しかしながら、実際の発声には、最初に言い誤った後で言い直したり、利用者の発声の後に他人のおしゃべりが混入したりする現象が含まれる。そして、このような文頭の言い誤りや、発声終了後に混入する他人の声は文法に記述することが難しい。
文頭に言い誤りが含まれる場合、前向き探索では最終的に正解となる状態仮説が枝刈りの対象になり易いので正解を得ることが難しいが、後向き探索では正解を得やすくなる。一方、発声終了後に他人の声が含まれる場合、後向き探索では正解となる状態仮説が枝刈りの対象となり易いので正解を得ることが難しいが、前向き探索では正解を得やすくなる。
したがって、前向き探索により得られた認識結果と後向き探索により得られた認識結果とを正当に評価できれば、最初に言い誤った後で言い直したり、利用者の発声の後に他人のおしゃべりが混入したりする場合でも、確度の高い認識結果が得られるはずである。
しかしながら、音声信号から抽出された音響パラメータと音響モデルとを照合し、音響パラメータと音響モデルとの尤度を計算しながら状態仮説を遷移させ、最尤な状態遷移パスを音声認識結果とする音声認識では、前向き探索において音声データの最終フレームに到達する前に文法上の最後のHMM状態まで到達して探索を完了する状態仮説や、後向き探索において音声データの先頭フレームに到達する前に文法上の最後のHMM状態まで到達して探索を完了する状態仮説があり、各探索により得られた認識結果(累積尤度)は探索フレーム区間が異なるので、両者の認識結果を単純に比較しただけでは公平な評価が難しかった。
本発明の目的は、上記した従来技術の課題を解決し、前向き探索および後向き探索を含む複数の探索を独立に実行し、各探索により得られた認識結果を正当に評価することにより、文法に記述できない物音や音声が文頭や文末に混入する場合でも、確度の高い認識結果を得られるようにした音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体を提供することにある。
上記した目的を達成するために、本発明は、音声信号から抽出された音響パラメータと音響モデルとを照合し、尤度を計算しながら状態仮説を遷移させ、最尤な状態遷移パスを音声認識結果とする音声認識装置において、音声信号からフレーム単位で音響特徴パラメータを抽出する音響分析手段と、前記音響特徴パラメータを記憶するパラメータ記憶手段と、前記パラメータ記憶手段から音響特徴パラメータを取り込んで、前向き探索および後ろ向き探索を含む複数の探索を実行する手段と、前向き探索で得られた認識結果候補のうち、音声データの最終フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、他の探索で得られた当該未探索フレーム区間の累積尤度で補完する手段と、後向き探索で得られた認識結果候補のうち、音声データの先頭フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、他の探索で得られた当該未探索フレーム区間の累積尤度で補完する手段と、前記未探索フレーム区間の尤度が補完された各認識結果候補のフレーム平均尤度を算出する手段と、前記各認識結果候補のフレーム平均尤度に基づいて認識結果を判定する手段とを含むことを特徴とする。
本発明によれば、各認識結果候補において、それぞれの状態仮説が文法上の最後のHMM状態に到達した際のフレーム位置にかかわらず、全ての認識結果候補は、未探索フレーム区間の尤度を他の探索結果を用いて補完され、探索フレーム区間を等しくされた状態で、その累積尤度を相互に比較されるので、各認識結果候補を正当に比較できるようになる。
以下、図面を参照して本発明の最良の実施の形態について詳細に説明する。図1は、本発明に係る音声認識装置の主要部の構成を示したブロック図である。
音声信号入力部11は、入力された音声信号をデジタル信号に変換する。音響分析部12は、音声デジタル信号を音響分析して音響特徴パラメータを抽出し、これをパラメータ記憶部13に記憶する。音響特徴パラメータとは、入力音声を一定時間間隔(例えば10ms:以下、フレームと表現する)毎に分析して得られる特徴ベクトルである。したがって、音声信号は特徴ベクトルの系列X=x1,x2,…,xTに変換される。
前向き探索用データベース14Fには、前向き探索用の文法および木構造辞書が予め記憶されている。後向き探索用データベース14Rには、後向き探索用の文法および木構造辞書が予め記憶されている。
前向き探索部15Fは、前向き探索用の文法および木構造辞書に音響特徴パラメータの時系列データを正順に照合させて音響的な尤度を算出し、時間方向に尤度を累積して、これを探索結果記憶部16Fに記憶する。同様に、後向き探索部15Rは、後向き探索用の文法および木構造辞書に音響特徴パラメータの時系列データを逆順に照合させて音響的な尤度を算出し、時間方向に尤度を累積して、これを探索結果記憶部16Rに記憶する。なお、文法の制約から木構造辞書の状態系列が複数に枝分れする場合、各探索部15F,15Rは枝の数だけ状態仮説を複製し、枝ごとに状態仮説を進行させて尤度を計算する。
尤度補完部19は、後に詳述するように、前向き探索において音声データの最終フレームに到達する前に文法上の最後のHMM状態まで到達して探索を完了した状態仮説、および後向き探索において音声データの先頭フレームに到達する前に文法上の最後のHMM状態まで到達して探索を完了した状態仮説に関して、前向き探索にあっては探索が完了したフレームから最終フレームまでの未探索フレーム区間の累積尤度を後向き探索で得られた累積尤度で補完し、後向き探索にあっては探索が完了したフレームから先頭フレームまでの未探索フレーム区間の累積尤度を前向き探索で得られた累積尤度で補完する。
フレーム平均尤度算出部17Fは、前向き探索において枝刈りされることなく文法上の最後のHMM状態まで到達した状態仮説に関して、最終フレームまで補完された累積尤度に基づいてフレーム平均尤度を算出する。フレーム平均尤度算出部17Rも同様に、後向き探索において枝刈りされることなく文法上の最後のHMM状態まで到達した状態仮説に関して、先頭フレームまで補完された累積尤度に基づいてフレーム平均尤度を算出する。
認識結果判定部18は、前向き探索および後向き探索で文法上の最後のHMM状態まで到達した全ての状態仮説を前記フレーム平均尤度に基づいてソートし、フレーム平均尤度が最も高い状態系列にバックトレースを実行して認識結果を判定する。
図2は、本発明を適用した音声認識の手順を示したフローチャートであり、前向き探索および後向き探索の探索結果に基づいて音声認識が行われる。ここでは、音声信号入力部11に入力された認識対象の音声信号が音響分析部12においてフレームごとに音響分析され、各フレームの音響特徴パラメータがパラメータ記憶部13に蓄積されている状態から説明を始める。
ステップS1では、パラメータ記憶部13に蓄積された各フレームの音響特徴パラメータのパワーに基づいて、発話タイミングおよび終話タイミングが検知される。そして、発話タイミングから数百ms遡った時刻のフレームが先頭フレームとして識別され、終話タイミングから数百ms経過した時刻のフレームが最終フレームとして識別される。ステップS2では、先頭フレームから最終フレームまでを対象に前向き探索が実行される。
図3は、前向き探索の手順を示したフローチャートであり、ステップS201では、前記パラメータ記憶部13に記憶されている音響特徴パラメータが、前記先頭フレームから正順で取り込まれる。ステップS202では、有効な状態仮説の一つが今回の計算対象として選択される。ステップS203では自己遷移が実施され、その尤度が計算・更新される。ステップS204では、今回のタイミングに対応した全ての状態仮説に関して自己遷移および尤度計算が完了したか否かが判定され、完了していなければステップS202へ戻り、今回のタイミングで遷移すべき他の状態仮説についても上記した各処理が繰り返される。
今回のタイミングに対応した全ての状態仮説に関して自己遷移および尤度計算が完了するとステップS205へ進み、改めて今回のタイミングに対応した有効な状態仮説の一つが計算対象として選択される。ステップS206では各状態仮説がL-R遷移される。ステップS207ではViterbi探索が実行される。ステップS208では、今回のタイミングで遷移すべき全ての状態仮説に関して、上記したL-R遷移およびViterbi探索が完了したか否かが判定される。完了していなければステップS205へ戻り、今回のタイミングで遷移すべき他の状態仮説についても上記した各処理が繰り返される。
その後、今回のタイミングで遷移すべき全ての状態仮説について上記した各処理が完了するとステップS209へ進み、現在の全状態仮説の中でスコアが上位の状態仮説のみを残して他の状態仮説を次の探索から除外する枝刈りが行われる。本実施形態では、時刻t、状態jの各尤度αj(t)を同時刻の全状態仮説の中で最大の尤度αmax(t)と比較し、次式(7)を満足する状態仮説を次の時刻の探索空間に残し、次式(8)を満足する状態仮説を次の時刻の探索空間から除外する。なお、θpruningは枝刈りの閾値を示す正の実数である。
Figure 2009169154
Figure 2009169154
ステップS210では、枝刈りを逃れた状態仮説の中で最大の累積尤度Mmaxが判定される。ステップS211では、前記累積尤度Mmaxが今回の注目フレームiに対応した最大累積尤度Mfiとして探索結果記憶部16Fに記憶される。
ステップS212では、次フレームの有無が判定され、次フレームが存在すればステップS201へ戻って次フレームの音響特徴パラメータを取り込んで上記した各処理が繰り返される。この間、観察系列が最終フレームに到達する前であっても、文法上の最後のHMM状態まで到達した状態系列に関しては、その状態遷移が終了する。
全てのフレームに関して上記した各処理が終了して音声データの最終フレームまで到達すると、ステップS213では、これまでに文法上の最後のHMM状態まで到達した全ての単語仮説からバックトレースして認識結果候補が抽出されて探索結果記憶部16Fに記憶される。
図2へ戻り、ステップS3では、今度は最終フレームから先頭フレームまでを対象に後向き探索が実行され、文法上の最後のHMM状態まで到達した単語仮説からバックトレースして前向き探索の認識結果候補が抽出される。
図4は、前向き探索の手順を示したフローチャートであり、この後向き探索でも、ステップS301では、前記パラメータ記憶部13に記憶されている音響特徴パラメータが、前記最終フレームから逆順で取り込まれる。ステップS310では、枝刈りを逃れた状態仮説の中で最大の累積尤度Mmaxが判定され、ステップS311において、前記累積尤度Mmaxが今回の注目フレームiに対応した最大累積尤度Mriとして探索結果記憶部16Rに記憶される。そして、全てのフレームに関して各処理が終了して音声データの先頭フレームまで到達すると、ステップS313では、文法上の最後のHMM状態まで到達した全ての状態仮説が後向き探索の認識結果候補として抽出されて探索結果記憶部16Rに記憶される。
ところで、状態仮説がHMM状態系列をフレーム単位で遷移し、文法上の最後のHMM状態まで到達した多数の状態仮説の中で最大尤度の状態仮説を認識結果とする認識手法では、音声データの最終フレームに到達するよりも前に、状態仮説が文法上の最後のHMM状態まで到達して認識結果候補となることがある。
図5において、状態仮説Aは観測系列が最終フレームに達した時点で文法上の最後のHMM状態まで到達しているのに対して、状態仮説B,Cは観測系列が最終フレームに到達するよりも前に文法上の最後のHMM状態まで到達して探索を完了している。音声認識では、状態仮説A,B,Cが出力する単語仮説が認識結果候補となって各単語仮説の累積尤度をフレーム長で割り算したフレーム平均尤度が比較され、最大のフレーム平均尤度を持つ単語仮説からバックトレース(単語履歴を遡ること)が行われて認識結果とされる。しかしながら、前記状態仮説A,B,Cではフレーム平均尤度の算出フレーム区間が異なってしまうので、各状態仮説を公平に比較することが難しい。
そこで、本発明では尤度補完部19を設け、前向き探索において音声データの最終フレームに達するよりも前に文法上の最後のHMM状態まで到達して探索を完了した状態仮説、および後向き探索において観測系列が音声データの先頭フレームに達するよりも前に文法上の最後のHMM状態まで到達して探索を完了した状態仮説に関して、前向き探索にあっては探索が完了したフレームから最終フレームまでの未探索のフレーム区間の累積尤度を後向き探索で得られた累積尤度で補完し、後向き探索にあっては探索が完了したフレームから先頭フレームまでの未探索のフレーム区間の累積尤度を前向き探索で得られた累積尤度で補完し、この補完された累積尤度に基づいてフレーム平均尤度が算出されるようにしている。
図6は、前向き探索におけるフレーム平均尤度の算出手順を示したフローチャートであり、ステップS401では、前向き探索で得られた認識結果候補(単語仮説)の一つが今回のフレーム平均尤度の計算対象として選択される。ステップS402では、単語仮説の出力時刻が最終フレームであるか否かが判定され、図5の状態仮説Aのように、単語仮説の出力時刻が最終フレームであればステップS403へ進む。ステップS403では、状態仮説の累積尤度Sfを先頭フレームから最終フレームまでのフレーム数Tで除してフレーム平均尤度Sf_aveが算出される。
これに対して、図5の状態仮説B,Cのように、単語仮説の出力時刻が音声データの最終フレームに到達するよりも前であればステップS404へ進む。ステップS404では、状態仮説が文法上の最後のHMM状態まで到達した時点での音声データのフレーム番号が探索完了フレーム番号Nf_endとして認識される。ステップS405では、後向き探索においてフレームごとに記憶された最大累積尤度Mriのうち、最終フレームから前記探索完了フレーム直前のフレームまでの最大累積尤度Mr(Nf_end+1)が読み出される。
ステップS406では、状態仮説の累積尤度Sfと前記最大累積尤度M(Nf_end+1)との加算値をフレーム数Tで除してフレーム平均尤度Sf_aveが算出される。ステップS407では、認識結果候補が他にもあるか否かが判定され、他にもあれば、ステップS401へ戻って認識結果を切り替えながら上記した各処理が繰り返される。
図8は、前記フレーム平均尤度の算出方法を模式的に表現した図であり、観測系列が最終フレームまで到達した単語仮説Dに関しては、その累積尤度Sf23をフレーム数T(=23)で除した値Sf23/Tがフレーム平均尤度となる。これに対して、観測系列が最終フレームまで到達していない単語仮説Eに関しては、その累積尤度Sf9と、後向き探索で得られた最大累積尤度Mr14との加算値をフレーム数T(=23)で除した値(Sf9+Mr14)/Tがフレーム平均尤度となる。同様に、観測系列が最終フレームまで到達していない単語仮説Fに関しては、その累積尤度Sf18と後向き探索で得られた最大累積尤度Mr5との加算値をフレーム数T(=23)で除した値(Sf18+Mr5)/Tがフレーム平均尤度となる。
図7は、後向き探索におけるフレーム平均尤度の算出手順を示したフローチャートであり、ステップS501では、後向き探索で得られた認識結果候補(状態仮説)の一つが今回のフレーム平均尤度の計算対象として選択される。ステップS502では、音声データの先頭フレームに到達した単語仮説であるか否かが判定され、音声データの先頭フレームに到達した単語仮説であればステップS503へ進む。ステップS503では、状態仮説の累積尤度Srを最終フレームから先頭フレームまでのフレーム数Tで除してフレーム平均尤度Sr_aveが算出される。
これに対して、音声データの最終フレームに到達するよりも前に文法上の最後のHMM状態まで到達した単語仮説であればステップS504へ進む。ステップS504では、観察系列の最後のフレーム番号が探索完了フレーム番号Nr_endとして認識される。ステップS505では、前向き探索においてフレームごとに記憶された最大累積尤度Mfのうち、先頭フレームから前記探索完了フレームの次のフレームまでの最大累積尤度が読み出される。
ステップS506では、累積尤度Srと最大累積尤度M(Nr_end−1)との加算値をフレーム数Tで除してフレーム平均尤度Sr_aveが算出される。ステップS507では、認識結果候補が他にもあるか否かが判定され、他にもあれば、ステップS501へ戻って認識結果を切り替えながら上記した各処理が繰り返される。
再び図8を参照し、ここでは音声データの先頭まで到達した単語仮説が無く、音声データの最終フレームまで到達していない単語仮説Gに関しては、その累積尤度Sr14と、前向き探索で得られた最大累積尤度Mf9との加算値をフレーム数T(=23)で除した値(Sr14+Mr9)/Tがフレーム平均尤度となる。同様に、音声データの最終フレームまで到達していない単語仮説Hに関しては、その累積尤度Sf15と前向き探索で得られた最大累積尤度Mf8との加算値をフレーム数T(=23)で除した値(Sf15+Mf8)/Tがフレーム平均尤度となる。
図2へ戻り、以上のようにして、文法上の最後のHMM状態まで到達した全ての状態仮説(図8の例では、10個)についてフレーム平均尤度が求まると、ステップS6では、全てのフレーム平均尤度が昇順にソートされる。このステップS6では、発声全体のフレーム平均尤度の大きさ順にソートしたり、前向き探索と後向き探索とで共通の認識結果を優先的に上位にソートしたり、あるいは前向き探索と後向き探索とのキーワード区間(ポーズを除いた発声期間)のフレーム平均尤度の順にソートしたりできる。ステップS7では、フレーム平均尤度が最大値を示す状態仮説が認識結果として出力される。
なお、前記ステップS6における 次いで、本発明の第2実施形態について説明する。上記した第1実施形態では、先頭フレームから最終フレームまでの全てのフレーム区間を比較対象とするために、前向き探索において観察系列が最終フレームに達する前に探索を終了した状態仮説には、後ろ向き探索で得られた最大累積尤度で未探索フレーム区間の尤度を補完し、後向き探索において観察系列が先頭フレームに達する前に探索を終了した状態仮説には、前向き探索で得られた最大累積尤度で未探索フレーム区間の尤度を補完するものとして説明した。これに対して、第2実施形態では、上記した2つの探索とは別にタイプライタ探索を実行して各フレームまでの最大累積尤度を求め、この累積尤度で前向き探索および後向き探索における未探索フレーム区間の尤度を補完するようにした点に特徴がある。
図9は、本発明の第2実施形態に係る音声認識装置の主要部の構成を示したブロック図であり、前記と同一の符号は同一または同等部分を表している。
スコア正規化用探索用データベース14Tには、スコア正規化用探索用の文法が予め記憶されている。スコア正規化用探索部15Tは、スコア正規化用探索用の文法に音響特徴パラメータの時系列データを照合させて音響的な尤度を算出し、時間方向に尤度を累積して、これを探索結果記憶部16Tに記憶する。尤度補完部21は、後に詳述するように、前向き探索および後向き探索で得られた認識結果候補の未探索フレーム区間の累積尤度を、スコア正規化用探索において前記と同様の手順でフレームごとに求めた最大累積尤度で補完する。
フレーム平均尤度算出部17Fは、前向き探索において枝刈りされることなく文法上の最後のHMM状態まで到達した状態仮説に関して、最終フレームまで補完された累積尤度に基づいてフレーム平均尤度を算出する。フレーム平均尤度算出部17Rも同様に、後向き探索において枝刈りされることなく文法上の最後のHMM状態まで到達した状態仮説に関して、先頭フレームまで補完された累積尤度に基づいてフレーム平均尤度を算出する。認識結果判定部18は、前向き探索および後向き探索で得られた全ての認識結果候補を、そのフレーム平均尤度に基づいてソートし、フレーム平均尤度が最も高い状態系列にバックトレースを実行して認識結果を判定する。
図10は、この第2実施形態の手順を示したフローチャートであり、タイプライタ探索、前向き探索および後向き探索の探索結果に基づいて音声認識が行われる。
ステップS21では、パラメータ記憶部13に蓄積された各フレームの音響特徴パラメータのパワーに基づいて、発話タイミングおよび終話タイミングが検知されるそして、発話タイミングから数百ms遡った時刻のフレームが先頭フレームとして識別され、終話タイミングから数百ms経過した時刻のフレームが最終フレームとして識別される。
ステップS22では、先頭フレームから最終フレームまでを探索範囲として、タイプライタ探索が例えば前向きで実施される。このタイプライタ探索では、先頭フレームから各フレームまでの累積尤度の最大値が逐一記憶される。
ステップS23では、先頭フレームから最終フレームまでを対象に前向き探索が実行され、文法上の最後のHMM状態まで到達した全ての状態仮説が前向き探索の認識結果候補として抽出される。ステップS24では、最終フレームから先頭フレームまでを対象に後向き探索が実行され、文法上の最後のHMM状態まで到達した全ての状態仮説が後向き探索の認識結果候補として抽出される。
ステップS25では、前向き探索で得られた認識結果候補の全フレーム区間の平均尤度が、未探索フレーム区間を前記タイプライタ探索で得られた累積尤度で補完して算出される。ステップS26でも同様に、後向き探索で得られた認識結果候補の全フレーム区間の平均尤度が、未探索フレーム区間を前記タイプライタ探索で得られた累積尤度で補完して算出される。
図11は、第2実施形態における前記フレーム平均尤度の算出方法を模式的に表現した図であり、前向き探索において音声データの最終フレームまで到達した状態仮説Dに関しては、その累積尤度Sf23をフレーム数T(=23)で除した値Sf23/Tがフレーム平均尤度となる。
これに対して、音声データの最終フレームまで到達するよりも前に文法上の最後のHMM状態まで到達した状態仮説Eに関しては、その未探索フレーム区間をタイプライタ探索で得られた累積尤度(M23-M9)で補完して得られた全フレームの累積尤度(Sf9+M23-M9)を全フレーム数T(=23)で除した値(Sf9+M23-M9)/Tがフレーム平均尤度として求められる。
後ろ向き探索に関しても同様に、観測系列が先頭フレームまで到達するよりも前に文法上の最後のHMM状態まで到達した状態仮説Gに関しては、その未探索フレーム区間をタイプライタ探索で得られた累積尤度M9で補完して得られた全フレームの累積尤度(Sr14+M9)を全フレーム数T(=23)で除した値(Sr14+M9)/Tがフレーム平均尤度として求められる。
図10へ戻り、以上のようにして、前向き探索および後向き探索において、状態仮説が文法上の最後のHMM状態まで到達した全ての認識結果候補についてフレーム平均尤度が求まると、ステップS27では、全てのフレーム平均尤度が昇順にソートされる。ステップS28では、フレーム平均尤度が最大値を示す状態仮説にバックトレースを実行して認識結果が判定される。
図12は、本発明の第3実施形態に係る音声認識装置の主要部の構成を示したブロック図であり、前記と同一の符号は同一または同等部分を表している。
本実施形態では、前記図9に関して説明した第2実施形態の構成に加えて、スコア正規化用探索結果と前向き探索結果とを比較して信頼性尺度を算出する信頼性尺度算出部20Fおよびスコア正規化用探索結果と後向き探索結果とを比較して信頼性尺度を算出する信頼性尺度算出部20Rを設け、各探索結果の信頼性尺度に基づいて認識結果を判定するようにした点に特徴がある。
図13は、この第3実施形態の手順を示したフローチャートであり、ステップS31では、パラメータ記憶部13に蓄積された各フレームの音響特徴パラメータのパワーに基づいて、発話タイミングおよび終話タイミングが検知される。そして、発話タイミングから数百ms遡った時刻のフレームが先頭フレームとして識別され、終話タイミングから数百ms経過した時刻のフレームが最終フレームとして識別される。
ステップS32では、先頭フレームから最終フレームまでを探索範囲として、スコア正規化用探索が、例えば前向きで実施される。このスコア正規化用探索でも、先頭フレームから各フレームまでの累積尤度の最大値が逐一記憶される。
ステップS33では、先頭フレームから最終フレームまでを対象に前向き探索が実行され、文法上の最後のHMM状態まで到達した全ての状態仮説が前向き探索の認識結果候補として抽出される。ステップS34では、最終フレームから先頭フレームまでを対象に後向き探索が実行され、文法上の最後のHMM状態まで到達した全ての状態仮説が後向き探索の認識結果候補として抽出される。
ステップS35では、前記第2実施形態と同様に、前向き探索で得られた認識結果候補の全フレーム区間の平均尤度が、未探索フレーム区間を前記スコア正規化用探索で得られた累積尤度で補完して算出される。ステップS36でも同様に、後向き探索で得られた認識結果候補の全フレーム区間の平均尤度が、未探索フレーム区間を前記スコア正規化用探索で得られた累積尤度で補完して算出される。
ステップS37では、スコア正規化用探索結果と前向き探索結果とが比較されて各前向き探索結果の信頼性尺度が算出される。ステップS38では、スコア正規化用探索結果と後向き探索結果とが比較されて各後向き探索結果の信頼性尺度が算出される。ステップS39では、各信頼性尺度の算出結果がソートされる。このステップS39では、前向き探索および後向き探索で共通の結果を優先的に上位にソートしたり、発声全体の信頼性尺度の順にソートしたり、前向き探索および後向き探索のキーワード区間の信頼性尺度の順にソートしたりできる。ステップS40では、最上位に位置する信頼性尺度に対応した認識結果候補が認識結果とされる。
本発明に係る音声認識装置の第1実施形態のブロック図である。 第1実施形態の音声認識手順を示したフローチャートである。 前向き探索の手順を示したフローチャートである。 後向き探索の手順を示したフローチャートである。 状態仮説の観測系列と文法上のHMM状態との関係を示した図である。 前向き探索におけるフレーム平均尤度の算出手順を示したフローチャートである。 後向き探索におけるフレーム平均尤度の算出手順を示したフローチャートである。 第1実施形態におけるフレーム平均尤度の算出方法を示した図である。 本発明に係る音声認識装置の第2実施形態のブロック図である。 第2実施形態の音声認識手順を示したフローチャートである。 第2実施形態におけるフレーム平均尤度の算出方法を示した図である。 本発明に係る音声認識装置の第3実施形態のブロック図である。 第3実施形態の音声認識手順を示したフローチャートである。 前向き探索で参照される文法の一例を示した図である。 前向き探索で参照される木構造辞書の一例を示した図である。 自己遷移とL-R遷移との空間(トレリス)の一例を示した図である。 後向き探索で参照される文法の一例を示した図である。 後向き探索で参照される木構造辞書の一例を示した図である。
符号の説明
11…音声信号入力部,12…音響分析部,13…パラメータ記憶部,14F…前向き探索用データベース,14R…後向き探索用データベース,15F…前向き探索部,15R…後向き探索部,16R…探索結果記憶部,17F,17R…フレーム平均尤度算出部,18…認識結果判定部,19…尤度補完部

Claims (16)

  1. 音声信号から抽出された音響パラメータと音素モデルの確率的な状態遷移ネットワークとを照合し、前記音響パラメータと音素モデルとの尤度を計算しながら状態仮説を遷移させ、最尤な状態遷移パスを音声認識結果とする音声認識装置において、
    音声信号からフレーム単位で音響特徴パラメータを抽出する音響分析手段と、
    前記音響特徴パラメータを記憶するパラメータ記憶手段と、
    前記パラメータ記憶手段から音響特徴パラメータを取り込んで、前向き探索および後ろ向き探索を含む複数の探索を実行する手段と、
    前向き探索で得られた認識結果候補のうち、探索が音声データの最終フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、他の探索で得られた当該未探索フレーム区間の累積尤度で補完する手段と、
    後向き探索で得られた認識結果候補のうち、探索が音声データの先頭フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、他の探索で得られた当該未探索フレーム区間の累積尤度で補完する手段と、
    前記未探索フレーム区間の累積尤度が補完された各認識結果候補について確からしさの尺度を算出する手段と、
    前記各認識結果候補の確からしさに基づいて認識結果をマージもしくは取捨選択する手段とを含むことを特徴とする音声認識装置。
  2. 前記複数の探索を実行する手段が、
    前記パラメータ記憶手段から音響特徴パラメータを正順に取り込んで前向き探索を実行する前向き探索手段と、
    前記前向き探索中に、各フレームまでの累積尤度を記憶する手段と、
    前記パラメータ記憶手段から音響特徴パラメータを逆順に取り込んで後向き探索を実行する後向き探索手段と、
    前記後向き探索中に、各フレームまでの累積尤度を記憶する手段とを含み、
    前向き探索で得られた認識結果候補のうち、探索が音声データの最終フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、後向き探索で得られた当該未探索フレーム区間の累積尤度で補完し、
    後向き探索で得られた認識結果候補のうち、探索が音声データの先頭フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、前向き探索で得られた当該未探索フレーム区間の累積尤度で補完することを特徴とする請求項2に記載の音声認識装置。
  3. 前記複数の探索を実行する手段が、
    前記パラメータ記憶手段から音響特徴パラメータを正順に取り込んで前向き探索を実行する前向き探索手段と、
    前記パラメータ記憶手段から音響特徴パラメータを逆順に取り込んで後向き探索を実行する後向き探索手段と、
    前記パラメータ記憶手段から音響特徴パラメータを取り込んで音節タイプライタを用いた探索やディクテーション用モデルを用いた探索を実行するスコア正規化用探索手段と、
    前記スコア正規化用探索中に、各フレームまでの累積尤度を記憶する手段とを含み、
    前向き探索で得られた認識結果候補のうち、探索が音声データの最終フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、前記タイプライタ探索で得られた当該未探索フレーム区間の累積尤度で補完し、
    後向き探索で得られた認識結果候補のうち、探索が音声データの先頭フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、前記スコア正規化用探索で得られた当該未探索フレーム区間の累積尤度で補完することを特徴とする請求項1に記載の音声認識装置。
  4. 音声信号から抽出された音響パラメータと音素モデルの確率的な状態遷移ネットワ−クとを照合し、前記音響パラメータと音素モデルとの尤度を計算しながら状態仮説を遷移させ、最尤な状態遷移パスを音声認識結果とする音声認識装置において、
    音声信号からフレーム単位で音響特徴パラメータを抽出する音響分析手段と、
    前記音響特徴パラメータを記憶するパラメータ記憶手段と、
    前記パラメータ記憶手段から音響特徴パラメータを正順に取り込んで前向き探索を実行する前向き探索手段と、
    前記パラメータ記憶手段から音響特徴パラメータを逆順に取り込んで後向き探索を実行する後向き探索手段と、
    前記パラメータ記憶手段から音響特徴パラメータを取り込んで音節タイプライタを用いた探索やディクテーション用モデルを用いた探索を実行するスコア正規化用探索手段と、
    前記スコア正規化用探索中に、各フレームまでの累積尤度を記憶する手段と、
    前向き探索で得られた認識結果候補のうち、探索が音声データの最終フレームに至る前に出力された認識結果候補の未探索フレーム区間の累積尤度を、前記スコア正規化用探索で得られた当該未探索フレーム区間の累積尤度で補完する手段と、
    後向き探索で得られた認識結果候補のうち、探索が音声データの先頭フレームに至る前に出力された認識結果候補の未探索フレーム区間の累積尤度を、前記スコア正規化用探索で得られた当該未探索フレーム区間の累積尤度で補完する手段と、
    前記スコア正規化用探索で得られた認識結果と前向きおよび後向きの各探索で得られた認識結果との比較結果に基づいて、前向きおよび後向きの各探索で得られた認識結果候補の信頼性尺度を算出する手段と、
    前記各認識結果候補の信頼性尺度に基づいて認識結果をマージもしくは取捨選択する手段とを含むことを特徴とする音声認識装置。
  5. 前記認識結果を判定する手段は、フレーム平均尤度が最も高い認識結果候補を認識結果とすることを特徴とする請求項2ないし4のいずれかに記載の音声認識装置。
  6. 前記認識結果を判定する手段は、前向き探索および後向き探索に共通する認識結果候補を優先的に認識結果とすることを特徴とする請求項2ないし4のいずれかに記載の音声認識装置。
  7. 前記認識結果を判定する手段は、信頼性尺度が最も高い認識結果候補を認識結果とすることを特徴とする請求項5に記載の音声認識装置。
  8. 音声信号から抽出された音響パラメータと音素モデルの確率的な状態遷移ネットワークとを照合し、前記音響パラメータと音素モデルとの尤度を計算しながら状態仮説を遷移させ、最尤な状態遷移パスを音声認識結果とする音声認識方法において、
    音声信号からフレーム単位で音響特徴パラメータを抽出する手順と、
    前記音響特徴パラメータを記憶する手順と、
    前記パラメータ記憶手段から音響特徴パラメータを取り込んで、前向き探索および後ろ向き探索を含む複数の探索を実行する手順と、
    前向き探索で得られた認識結果候補のうち、探索が音声データの最終フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、他の探索で得られた当該未探索フレーム区間の累積尤度で補完する手順と、
    後向き探索で得られた認識結果候補のうち、探索が音声データの先頭フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、他の探索で得られた当該未探索フレーム区間の累積尤度で補完する手順と、
    前記未探索フレーム区間の尤度が補完された各認識結果候補のフレーム平均尤度を算出する手順と、
    前記各認識結果候補のフレーム平均尤度に基づいて認識結果を判定する手順とを含むことを特徴とする音声認識方法。
  9. 前記複数の探索を実行する手順が、
    音響特徴パラメータを正順に取り込んで前向き探索を実行する手順と、
    前記前向き探索中に、各フレームまでの累積尤度を記憶する手順と、
    音響特徴パラメータを逆順に取り込んで後向き探索を実行する手順と、
    前記後向き探索中に、各フレームまでの累積尤度を記憶する手順とを含み、
    前向き探索で得られた認識結果候補のうち、探索が音声データの最終フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、後向き探索で得られた当該未探索フレーム区間の累積尤度で補完補完し、
    後向き探索で得られた認識結果候補のうち、探索が音声データの先頭フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、前向き探索で得られた当該未探索フレーム区間の累積尤度で補完補完することを特徴とする請求項9に記載の音声認識装置。
  10. 前記複数の探索を実行する手順が、
    音響特徴パラメータを正順に取り込んで前向き探索を実行する手順と、
    音響特徴パラメータを逆順に取り込んで後向き探索を実行する手順と、
    音響特徴パラメータを取り込んでスコア正規化用探索を実行する手順と、
    前記スコア正規化用探索中に、各フレームまでの累積尤度を記憶する手順とを含み、
    前向き探索で得られた認識結果候補のうち、探索が音声データの最終フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、前記スコア正規化用探索で得られた当該未探索フレーム区間の累積尤度で補完補完し、
    後向き探索で得られた認識結果候補のうち、探索が音声データの先頭フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、前記スコア正規化用探索で得られた当該未探索フレーム区間の累積尤度で補完補完することを特徴とする請求項8に記載の音声認識方法。
  11. 音声信号から抽出された音響パラメータと音素モデルの確率的な状態遷移ネットワ−クとを照合し、前記音響パラメータと音素モデルとの尤度を計算しながら状態仮説を遷移させ、最尤な状態遷移パスを音声認識結果とする音声認識方法において、
    音声信号からフレーム単位で音響特徴パラメータを抽出する手順と、
    前記音響特徴パラメータを記憶する手順と、
    前記音響特徴パラメータを正順に取り込んで前向き探索を実行する手順と、
    前記音響特徴パラメータを逆順に取り込んで後向き探索を実行する手順と、
    前記音響特徴パラメータを取り込んでスコア正規化用探索を実行する手順と、
    前記スコア正規化用探索中に、各フレームまでの累積尤度を記憶する手順と、
    前向き探索で得られた認識結果候補のうち、探索が音声データの最終フレームに至る前に出力された認識結果候補の未探索フレーム区間の累積尤度を、前記スコア正規化用探索で得られた当該未探索フレーム区間の累積尤度で補完補完する手順と、
    後向き探索で得られた認識結果候補のうち、探索が音声データの先頭フレームに至る前に出力された認識結果候補の未探索フレーム区間の累積尤度を、前記スコア正規化用探索で得られた当該未探索フレーム区間の累積尤度で補完補完する手順と、
    前記スコア正規化用探索で得られた認識結果と前向きおよび後向きの各探索で得られた認識結果候補との比較結果に基づいて、前向きおよび後向きの各探索で得られた認識結果候補の信頼性尺度を算出する手順と、
    前記各認識結果候補の信頼性尺度に基づいて認識結果を判定する手順とを含むことを特徴とする音声認識方法。
  12. 前記認識結果を判定する手順では、フレーム平均尤度が最も高い認識結果候補が認識結果とされることを特徴とする請求項8ないし10のいずれかに記載の音声認識方法。
  13. 前記認識結果を判定する手段では、前向き探索および後向き探索に共通する認識結果候補が優先的に認識結果とされることを特徴とする請求項8ないし10のいずれかに記載の音声認識方法。
  14. 前記認識結果を判定する手順では、信頼性尺度が最も高い認識結果候補が認識結果とされることを特徴とする請求項11に記載の音声認識方法。
  15. 前記請求項8ないし14のいずれかに記載の音声認識方法を、コンピュータに実行させるための音声認識プログラム。
  16. 前記請求項15に記載した音声認識プログラムをコンピュータが読み取り可能に記憶した記録媒体。
JP2008007937A 2008-01-17 2008-01-17 音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体 Expired - Fee Related JP4883717B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008007937A JP4883717B2 (ja) 2008-01-17 2008-01-17 音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008007937A JP4883717B2 (ja) 2008-01-17 2008-01-17 音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体

Publications (2)

Publication Number Publication Date
JP2009169154A true JP2009169154A (ja) 2009-07-30
JP4883717B2 JP4883717B2 (ja) 2012-02-22

Family

ID=40970382

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008007937A Expired - Fee Related JP4883717B2 (ja) 2008-01-17 2008-01-17 音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体

Country Status (1)

Country Link
JP (1) JP4883717B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113488049A (zh) * 2021-07-07 2021-10-08 杭州贯农科技有限公司 一种插件式语音识别方法、智能电子秤及交易平台

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1097275A (ja) * 1996-09-20 1998-04-14 Sharp Corp 大語彙音声認識装置
JPH10254486A (ja) * 1997-03-13 1998-09-25 Canon Inc 音声認識装置および方法
JP2004012615A (ja) * 2002-06-04 2004-01-15 Sharp Corp 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体
JP2005091504A (ja) * 2003-09-12 2005-04-07 Chubu Electric Power Co Inc 音声認識装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1097275A (ja) * 1996-09-20 1998-04-14 Sharp Corp 大語彙音声認識装置
JPH10254486A (ja) * 1997-03-13 1998-09-25 Canon Inc 音声認識装置および方法
JP2004012615A (ja) * 2002-06-04 2004-01-15 Sharp Corp 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体
JP2005091504A (ja) * 2003-09-12 2005-04-07 Chubu Electric Power Co Inc 音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113488049A (zh) * 2021-07-07 2021-10-08 杭州贯农科技有限公司 一种插件式语音识别方法、智能电子秤及交易平台

Also Published As

Publication number Publication date
JP4883717B2 (ja) 2012-02-22

Similar Documents

Publication Publication Date Title
US9646605B2 (en) False alarm reduction in speech recognition systems using contextual information
US9224386B1 (en) Discriminative language model training using a confusion matrix
US8321218B2 (en) Searching in audio speech
JP4757936B2 (ja) パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体
JP4340685B2 (ja) 音声認識装置及び音声認識方法
JP2015520410A (ja) 音声認識に対する負例(アンチワード)に基づく性能改善
JP6690484B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
JP5309343B2 (ja) パタン認識方法および装置ならびにパタン認識プログラムおよびその記録媒体
JP4883717B2 (ja) 音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP3914709B2 (ja) 音声認識方法およびシステム
JP6026224B2 (ja) パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体
JP3440840B2 (ja) 音声認識方法及びその装置
JP3104900B2 (ja) 音声認識方法
JP5008078B2 (ja) パタン認識方法および装置ならびにパタン認識プログラムおよびその記録媒体
US20040148163A1 (en) System and method for utilizing an anchor to reduce memory requirements for speech recognition
JP5161174B2 (ja) 経路探索装置、音声認識装置、これらの方法及びプログラム
JPH06266386A (ja) ワードスポッティング方法
JP3494338B2 (ja) 音声認識方法
JP2008129318A (ja) 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム
JP5158877B2 (ja) 音声認識方法および装置
JP2005091504A (ja) 音声認識装置
JPWO2013125203A1 (ja) 音声認識装置、音声認識方法およびコンピュータプログラム
EP2948943B1 (en) False alarm reduction in speech recognition systems using contextual information
JP3917880B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100715

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111019

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111031

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111130

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111202

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141216

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4883717

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees