JP4940057B2 - 音声認識装置及びその方法 - Google Patents
音声認識装置及びその方法 Download PDFInfo
- Publication number
- JP4940057B2 JP4940057B2 JP2007212811A JP2007212811A JP4940057B2 JP 4940057 B2 JP4940057 B2 JP 4940057B2 JP 2007212811 A JP2007212811 A JP 2007212811A JP 2007212811 A JP2007212811 A JP 2007212811A JP 4940057 B2 JP4940057 B2 JP 4940057B2
- Authority
- JP
- Japan
- Prior art keywords
- grammar
- unit
- storage unit
- partial
- transfer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000012546 transfer Methods 0.000 claims abstract description 172
- 238000012545 processing Methods 0.000 claims description 55
- 230000007704 transition Effects 0.000 claims description 51
- 238000012795 verification Methods 0.000 claims description 50
- 230000006870 function Effects 0.000 claims description 38
- 230000008859 change Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 abstract description 60
- 238000004364 calculation method Methods 0.000 description 25
- 230000014509 gene expression Effects 0.000 description 15
- 238000000605 extraction Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 239000000470 constituent Substances 0.000 description 4
- 230000007423 decrease Effects 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Description
以下、本発明の第1の実施形態の音声認識装置について図1〜図14に基づいて説明する。
図1は、本実施形態の音声認識装置の構成例を表すブロック図である。
特徴抽出部101は、ある時間幅をもつフレーム毎に、入力音声信号から音声特徴列X(t)=(x(1),x(2),・・・,x(T))を生成する。ここでx(t)はt番目のフレームtにおける音声特徴である。但し、1=<t=<Tとし、t=1は認識処理を実施する入力音声の始端位置に、t=Tは入力音声の終端位置に対応する。
第1の文法記憶部102は、認識対象の語句を記述した文法を記憶する。この文法は、1つ以上の部分語句毎に分割した部分文法の形で記憶されている。ここで、部分語句、文法及び部分文法の例を図2〜図4を用いて説明する。
(3−1)部分語句
図2は、認識対象の語句を表にまとめたものであり、それぞれ4つの部分語句からなる7文の認識語句の例である。なお、図2では、認識対象の語句を構成する部分語句をWn(n:単語番号)で示している。
図3は、図2で例示した認識語句を記述する文法の例である。
図4は、図3の文法に基づいて表現された語句を1つ以上の部分語句に分割し、これら部分語句に関する部分文法の例である。
図4は図3の文法を6つの部分文法に分割した例であるが、この分割の方法は音声認識装置の使用者が任意に決めることができる。
第1の文法記憶部102は、図4で例示した1つ以上の部分文法を全て記憶する。すなわち、認識対象の語句を記述するために必要な部分文法を全て記憶する。
第2の文法記憶部103は、図4で例示した部分文法のうち、1つ以上の部分文法を記憶する。
文法転送部104は、後述する第1の照合部107における照合処理で参照が必要となった部分文法を、第1の文法記憶部102から第2の文法記憶部103へ転送する。
モデル記憶部105は、認識対象の語句あるいは部分語句の音声特徴を表現する状態遷移モデルを記憶する。以下では、この状態遷移モデルを単に「音響モデル」と表記する。
第1の照合部107は、音声特徴列と音響モデルとの照合を行う。
この照合方法について説明する。
音声特徴列Xに対して、ある認識対象の語句wに対応するHMMからの出力確率P(X|w)を計算する。ここで1=<w=<Wとし、Wは認識対象の語句の総数とする。また、P(X|w)をP(X)と簡略表記したとき、P(X)は式(1)、式(2)、式(3)で計算される。
P(X)=max i(α(i,T)) (但し、Si⊂SFである) ・・・(1)
α(i,0)=PSi (但し、Si⊂SSである) ・・・(2)
α(i,t)=max_i(Aji*Bji(x(t))*α(j,t−1)) ・・・(3)
ここで、α(i,t)は、HMMの初期状態から遷移し、t番目のフレームにおいてHMMの状態Siに到る前向き確率である。
式(1)、式(2)、式(3)のうちHMMに依存する変数、すなわち、初期状態の集合SS、最終状態の集合SF、遷移確率Aji、出力確率Bji、初期確率PSiは、認識対象の語句wに対応するHMMから与えられる。
上記参照処理を可能とするために、文法転送部104は、第1の文法記憶部102から第2の文法記憶部103へ、始端ノードを含む部分文法を予め転送しておく。
しかし、従来技術と同様に第1の照合部107だけを用いると、文法転送部104による部分文法の転送時間だけ、処理の実行が遅延するという問題点がある。これを図8〜10を用いて説明する。
D(1:6,S1:S6)=D1(1:3,S1:S3)+Dt(B)+D1(4:6,S1:S6) ・・・(4)
ここで、Dt(B)は、文法転送部104において部分文法Bを転送するために必要な転送待ち時間とする。また、D1()は、第1の照合部107が前向き確率を計算するために必要な時間とする。一般的に、異なる2つの記憶装置間でデータを転送する場合には、ある程度の転送待ち時間が発生する。
この問題点に鑑み、本実施形態では、後述する第2の照合部108及び認識制御部106を備え、部分文法の転送と並列に第2の照合部108を動作させることで、この問題点を解決する。以下では、この解決するための動作について説明する。
第2の照合部108は、第1の照合部107と同じように、式(1)、式(2)、式(3)に基づき、音声特徴列と音響モデルとの照合を行う。但し、第2の照合部108は、文法転送部104が部分文法を転送している間に、部分文法の転送と並列に動作して照合処理を行う。この処理の様子を図11〜13を用いて説明する。図11〜13は、図8〜10と同様に、第1の照合部107及び第2の照合部108における前向き確率の計算の様子を示している。
図11は、図9と同様に、3番目のフレーム(t=3)の時点で、部分語句W11の末尾状態S3の前向き確率α(3,3)までの計算が完了した様子を示している。なお、図11で図示した前向き確率の計算は、前述の通り第1の照合部107で実行される。
部分文法の転送が完了した時点で、第2の照合部108の処理を終了し、第1の照合部107における照合処理を再開する。
D(1:6,S1:S6)=D1(1:3,S1:S3)+Dt(B)+D1(4:6,S4:S6) ・・・(5)
ここで、部分文法Bの転送に必要な時間Dt(B)は、第2の照合部108において、4番目のフレーム(t=4)から6番目のフレーム(t=6)までの音声特徴列に対してHMM状態列S1〜S3の前向き確率を計算するために必要な時間に等しい。すなわちDt(B)=D2(4:6,S1:S3)である。従って、式(5)は式(6)に変形できる。
D(1:6,S1:S6)=D1(1:3,S1:S3)+D2(4:6,S1:S3)+D1(4:6,S4:S6) ・・・(6)
また、第1の照合部107と第2の照合部108では、前向き確率を計算するための時間に差はない。すなわちD2(4:6,S1:S3)=D1(4:6,S1:S3)である。これにより、式(6)はさらに式(7)に変形できる。
D(1:6,S1:S6)=D1(1:3,S1:S3)+D1(4:6,S1:S3)+D1(4:6,S4:S6)=D1(1:3,S1:S3)+D1(4:6,S1:S3) ・・・(7)
(8−3)並列処理の効果
式(4)と式(7)を比較すると、式(7)は、式(4)において部分文法の転送に必要な時間Dt(B)=0となった場合に等しく、その左辺は式(4)に比べて小さくなる。
認識制御部106は、文法転送部104における部分文法の転送状況を監視し、転送状況に応じて第1の照合部107及び第2の照合部108を切り替える。
次に、図14を用いて、本実施形態の動作を説明する。図14は、第1の実施形態の動作の一例を示すフローチャートである。
このように、本実施形態では、第2の文法記憶部103の容量を小さくすることで音声認識装置のコストの増大を抑えつつ、文法転送部104における第1の文法記憶部102から第2の文法記憶部103への部分文法の転送待ち時間に影響されず、高速な照合処理を実行することができる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
次に、第2の実施形態の音声認識装置について図11,図12、図15〜図18に基づいて説明する。
第1の実施形態の第1の照合部107と第2の照合部108における前向き確率計算の式(3)によれば、t番目のフレームにおける前向き確率の計算は、一つ前のフレームt−1における前向き確率及びフレームtにおける音声特徴x(t)にのみ依存している。そのため、照合処理において、t番目のフレームにおける前向き確率α(i,t)を計算する際には、t−1番目のフレームにおける前向き確率α(i,t−1)(1=<i=<NS)のみを記憶しておき、t番目のフレームにおける音声特徴x(t)に対して前向き確率を計算すれば良い。
図15は、本実施形態の音声認識装置の構成例を表すブロック図である。
音声特徴記憶部110は、文法転送部104が部分文法の転送する間に、第2の照合部108の照合処理において参照された音声特徴列を、フレーム番号と関連付けて記憶する。この動作を図12及び図16を用いて説明する。
確率記憶部111は、第1の照合部107及び第2の照合部108において、後続部分語句をもつ部分語句に対応するHMM状態列の末尾状態まで前向き確率の計算が行われた場合に、当該末尾状態の状態番号とその前向き確率をフレーム番号と関連付けて記憶する。
第3の照合部109は、文法転送部104における部分文法の転送が完了した時点から、音声特徴記憶部110に記憶された音声特徴列に対して、文法転送部104が転送した後続部分文法に記述された認識対象の語彙及びその部分語句に対応するHMM状態列の前向き確率を計算する。この前向き確率の計算において、確率記憶部111に記憶された先行部分語句に対応するHMM状態列の末尾状態の前向き確率を参照する。この動作を図17の例で説明する。
認識制御部106は、文法転送部102における部分文法の転送状況を監視し、転送状況に応じて第1の照合部107、第2の照合部108及び第3の照合部を切り替える。
次に、図18を用いて、本実施形態の動作を説明する。図18は、第2の実施形態の動作の一例を示すフローチャートである。
このように本実施形態では、第1の照合部107、第2の照合部108、第3の照合部109の前向き確率の計算の過程において、前向き確率及び音声特徴列を記憶しておくためのメモリ量を大幅に削減できる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
次に、第3の実施形態の音声認識装置について図1に基づいて説明する。
本実施形態では、文法転送部104における部分文法の転送において、予め定めた時間を経過しても部分文法の転送が完了しない場合には、部分文法の転送を中止する。但し、この時間は、第2の照合部108の処理において参照されたフレーム数を単位として定めても良い。
認識制御部106は、文法転送部104における部分文法の転送状況を監視し、転送状況に応じて第1の照合部107及び第2の照合部108を切り替える。
本実施形態では、文法転送部104における部分文法の転送において、予め定めた時間を経過しても部分文法の転送が完了しなかった場合に、文法転送部104が部分文法の転送を中止し、認識制御部106が第2の照合部107を第1の照合部106へ切り替えることで、照合処理を継続する。
102 第1の文法記憶部
103 第2の文法記憶部
104 文法転送部
105 モデル記憶部
106 認識制御部
107 第1の照合部
108 第2の照合部
Claims (15)
- 入力音声の特徴から音声特徴列を、任意の時間幅を有するフレーム毎に生成する生成部と、
文法に基づいて表現された語句が複数あり、前記各語句を分割して得られた1つ以上の連続する部分語句があり、前記部分語句毎の音声特徴の時系列変化を、前記音声特徴に関する状態の遷移で表現する状態遷移モデルを格納するモデル記憶部と、
前記各語句に属する1つ以上の連続する部分語句に関する部分文法を格納する第1の文法記憶部と、
前記第1の文法記憶部から転送された少なくとも一部の前記部分文法を格納すると共に、前記第1の文法記憶部に格納された情報を読み出すための読み出し時間より読み出し時間が短い第2の文法記憶部と、
前記第2の文法記憶部に格納された前記部分文法と前記モデル記憶部に格納された前記状態遷移モデルを参照して、前記生成部で生成されたフレーム毎の音声特徴列に対する、前記状態遷移モデルの各状態の前向き確率を求める第1の照合部と、
前記第1の照合部において末尾状態の前向き確率が求められたときに、前記第1の文法記憶部から前記第2の文法記憶部へ前記部分語句の後続となる後続部分語句に関する後続部分文法を転送する文法転送部と、
前記第2の文法記憶部に格納された前記部分文法と前記モデル記憶部に格納された前記状態遷移モデルを参照して、前記音声特徴列の後に引き続いて前記生成部で生成されたフレーム毎の後続音声特徴列に対する、前記状態遷移モデルの各状態の前向き確率を求める第2照合部と、
前記第2の文法記憶部に転送された前記後続部分文法と前記モデル記憶部に格納された前記状態遷移モデルを参照して、前記フレーム毎の後続音声特徴列に対する、前記状態遷移モデルの各状態の前向き確率を求める第3の照合部と、
(1)前記語句毎に行うものであり、(2)前記後続部分文法の転送開始までは前記第1の照合部を動作させ、(3)前記転送の開始から完了までの間は前記第2の照合部を前記転送と並列に動作させ、(4)前記転送が完了したときに前記第3の照合部を動作させ、(5)前記各語句に属する部分語句が全て終了するまで(2)から(4)の動作を繰り返し行い、前記語句毎に最終的な前向き確率を求める認識制御部と、
前記複数の語句のそれぞれの前記最終的な前向き確率の中で、最大の前向き確率を与える語句を、前記音声特徴列の認識結果として出力する認識部と、
を備える音声認識装置。 - 前記第1の照合部と前記第3の照合部とが同一の照合部であり、前記認識制御部からの指示に応じて、当該照合部の動作が前記第1の照合部と前記第3の照合部の動作と等価となるように、当該照合部がその内部処理を切り替える、
請求項1記載の音声認識装置。 - 前記第1の照合部と前記第2の照合部のそれぞれの前記末尾状態の前向き確率を、前記末尾状態の順番を表す状態番号と前記フレームの順番を表すフレーム番号と関連付けて格納する確率記憶部と、
前記フレーム毎の後続音声特徴列を前記フレーム番号と関連付けて格納する音声特徴記憶部と、
を備え、
前記第3の照合部は、
前記転送された前記後続部分文法、前記記憶された前記末尾状態の前向き確率、前記状態番号、前記フレーム番号を参照して、前記記憶する後続音声特徴列に対して、前記状態遷移モデルの各状態の前向き確率を求める、
請求項1記載の音声認識装置。 - 前記文法転送部は、前記転送が一定時間を経過しても完了しない場合には、前記後続部分文法の転送を中止する、
請求項1記載の音声認識装置。 - 前記認識制御部は、前記転送が一定時間を経過しても完了しない場合には、前記第1の照合部を動作させる、
請求項4記載の音声認識装置。 - 文法に基づいて表現された語句が複数あり、前記各語句のそれぞれを分割して得られた1つ以上の連続する部分語句があり、前記部分語句毎の音声特徴の時系列変化を、前記音声特徴に関する状態の遷移で表現する状態遷移モデルを格納するモデル記憶部と、
前記各語句にそれぞれ属する1つ以上の連続する部分語句に関するそれぞれの部分文法を格納する第1の文法記憶部と、
前記第1の文法記憶部から転送された全ステップまたは一ステップの前記部分文法を格納すると共に、前記第1の文法記憶部に格納された情報を読み出すための読み出し時間より読み出し時間が短い第2の文法記憶部と、
を備えた音声認識装置における音声認識方法であって、
入力音声の特徴から音声特徴列を、任意の時間幅を有するフレーム毎に生成する生成ステップと、
前記第2の文法記憶部に格納された前記部分文法と前記モデル記憶部に格納された前記状態遷移モデルを参照して、前記生成ステップで生成されたフレーム毎の音声特徴列に対する、前記状態遷移モデルの各状態の前向き確率を求める第1の照合ステップと、
前記第1の照合ステップにおいて末尾状態の前向き確率が求められたときに、前記第1の文法記憶部から前記第2の文法記憶部へ前記部分語句の後続となる後続部分語句に関する後続部分文法を転送する文法転送ステップと、
前記第2の文法記憶部に格納された前記部分文法と前記モデル記憶部に格納された前記状態遷移モデルを参照して、前記音声特徴列の後に引き続いて前記生成ステップで生成されたフレーム毎の後続音声特徴列に対する、前記状態遷移モデルの各状態の前向き確率を求める第2照合ステップと、
前記第2の文法記憶部に転送された前記後続部分文法と前記モデル記憶部に格納された前記状態遷移モデルを参照して、前記フレーム毎の後続音声特徴列に対する、前記状態遷移モデルの各状態の前向き確率を、末尾状態まで求める第3の照合ステップと、
(1)前記語句毎に行うものであり、(2)前記後続部分文法の転送開始までは前記第1の照合ステップを動作させ、(3)前記転送の開始から完了までの間は前記第2の照合ステップを前記転送と並列に動作させ、(4)前記転送が完了したときに前記第3の照合ステップを動作させ、(5)前記各語句に属する部分語句が全て終了するまで(2)から(4)の動作を繰り返し行い、前記語句毎に最終的な前向き確率を求める認識制御ステップと、
前記複数の語句のそれぞれの前記最終的な前向き確率の中で、最大の前向き確率を与える語句を、前記音声特徴列の認識結果として出力する認識ステップと、
を備える音声認識方法。 - 前記第1の照合ステップと前記第3の照合ステップとが同一の照合ステップであり、前記認識制御ステップからの指示に応じて、当該照合ステップの動作が前記第1の照合ステップと前記第3の照合ステップの動作と等価となるように、当該照合ステップがその内部処理を切り替える、
請求項6記載の音声認識方法。 - 前記第1の照合ステップと前記第2の照合ステップのそれぞれの前記末尾状態の前向き確率を、前記末尾状態の順番を表す状態番号と前記フレームの順番を表すフレーム番号と関連付けて格納する確率記憶部と、
前記フレーム毎の後続音声特徴列を前記フレーム番号と関連付けて格納する音声特徴記憶部と、
を備え、
前記第3の照合ステップは、
前記転送された前記後続部分文法、前記記憶された前記末尾状態の前向き確率、前記状態番号、前記フレーム番号を参照して、前記記憶する後続音声特徴列に対して、前記状態遷移モデルの各状態の前向き確率を求める、
請求項6記載の音声認識方法。 - 前記文法転送ステップは、前記転送が一定時間を経過しても完了しない場合には、前記後続部分文法の転送を中止する、
請求項8記載の音声認識方法。 - 前記認識制御ステップは、前記転送が一定時間を経過しても完了しない場合には、前記第1の照合ステップを動作させる、
請求項9記載の音声認識方法。 - 文法に基づいて表現された語句が複数あり、前記各語句のそれぞれを分割して得られた1つ以上の連続する機能分語句があり、前記機能分語句毎の音声特徴の時系列変化を、前記音声特徴に関する状態の遷移で表現する状態遷移モデルを格納するモデル記憶部と、
前記各語句にそれぞれ属する1つ以上の連続する機能分語句に関するそれぞれの機能分文法を格納する第1の文法記憶部と、
前記第1の文法記憶部から転送された全機能または一機能の前記機能分文法を格納すると共に、前記第1の文法記憶部に格納された情報を読み出すための読み出し時間より読み出し時間が短い第2の文法記憶部と、
を備えたコンピュータにおける音声認識プログラムであって、
入力音声の特徴から音声特徴列を、任意の時間幅を有するフレーム毎に生成する生成機能と、
前記第2の文法記憶部に格納された前記機能分文法と前記モデル記憶部に格納された前記状態遷移モデルを参照して、前記生成機能で生成されたフレーム毎の音声特徴列に対する、前記状態遷移モデルの各状態の前向き確率を求める第1の照合機能と、
前記第1の照合機能において末尾状態の前向き確率が求められたときに、前記第1の文法記憶部から前記第2の文法記憶部へ前記機能分語句の後続となる後続機能分語句に関する後続機能分文法を転送する文法転送機能と、
前記第2の文法記憶部に格納された前記機能分文法と前記モデル記憶部に格納された前記状態遷移モデルを参照して、前記音声特徴列の後に引き続いて前記生成機能で生成されたフレーム毎の後続音声特徴列に対する、前記状態遷移モデルの各状態の前向き確率を求める第2照合機能と、
前記第2の文法記憶部に転送された前記後続機能分文法と前記モデル記憶部に格納された前記後続機能分文法における前記状態遷移モデルを参照して、前記フレーム毎の後続音声特徴列に対する、前記状態遷移モデルの各状態の前向き確率を求める第3の照合機能と、
(1)前記語句毎に行うものであり、(2)前記後続機能分文法の転送開始までは前記第1の照合機能を動作させ、(3)前記転送の開始から完了までの間は前記第2の照合機能を前記転送と並列に動作させ、(4)前記転送が完了したときに前記第3の照合機能を動作させ、(5)前記各語句に属する機能分語句が全て終了するまで(2)から(4)の動作を繰り返し行い、前記語句毎に最終的な前向き確率を求める認識制御機能と、
前記複数の語句のそれぞれの前記最終的な前向き確率の中で、最大の前向き確率を与える語句を、前記音声特徴列の認識結果として出力する認識機能と、
を実現する音声認識プログラム。 - 前記第1の照合機能と前記第3の照合機能とが同一の照合機能であり、前記認識制御機能からの指示に応じて、当該照合機能の動作が前記第1の照合機能と前記第3の照合機能の動作と等価となるように、当該照合機能がその内部処理を切り替える、
請求項11記載の音声認識プログラム。 - 前記第1の照合機能と前記第2の照合機能のそれぞれの前記末尾状態の前向き確率を、前記末尾状態の順番を表す状態番号と前記フレームの順番を表すフレーム番号と関連付けて格納する確率記憶部と、
前記フレーム毎の後続音声特徴列を前記フレーム番号と関連付けて格納する音声特徴記憶部と、
を備え、
前記第3の照合機能は、
前記転送された前記後続機能分文法、前記記憶された前記末尾状態の前向き確率、前記状態番号、前記フレーム番号を参照して、前記記憶する後続音声特徴列に対して、前記状態遷移モデルの各状態の前向き確率を求める、
請求項11記載の音声認識プログラム。 - 前記文法転送機能は、前記転送が一定時間を経過しても完了しない場合には、前記後続機能分文法の転送を中止する、
請求項11記載の音声認識プログラム。 - 前記認識制御機能は、前記転送が一定時間を経過しても完了しない場合には、前記第1の照合機能を動作させる、
請求項14記載の音声認識プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007212811A JP4940057B2 (ja) | 2007-08-17 | 2007-08-17 | 音声認識装置及びその方法 |
US12/047,776 US8015007B2 (en) | 2007-08-17 | 2008-03-13 | Speech recognition apparatus and method thereof |
CNA2008101686164A CN101369425A (zh) | 2007-08-17 | 2008-08-15 | 语音识别装置及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007212811A JP4940057B2 (ja) | 2007-08-17 | 2007-08-17 | 音声認識装置及びその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009047838A JP2009047838A (ja) | 2009-03-05 |
JP4940057B2 true JP4940057B2 (ja) | 2012-05-30 |
Family
ID=40363646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007212811A Expired - Fee Related JP4940057B2 (ja) | 2007-08-17 | 2007-08-17 | 音声認識装置及びその方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8015007B2 (ja) |
JP (1) | JP4940057B2 (ja) |
CN (1) | CN101369425A (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8364481B2 (en) | 2008-07-02 | 2013-01-29 | Google Inc. | Speech recognition with parallel recognition tasks |
CN102237087B (zh) * | 2010-04-27 | 2014-01-01 | 中兴通讯股份有限公司 | 语音控制方法和语音控制装置 |
US9477753B2 (en) * | 2013-03-12 | 2016-10-25 | International Business Machines Corporation | Classifier-based system combination for spoken term detection |
US9449598B1 (en) * | 2013-09-26 | 2016-09-20 | Amazon Technologies, Inc. | Speech recognition with combined grammar and statistical language models |
KR102246900B1 (ko) * | 2014-07-29 | 2021-04-30 | 삼성전자주식회사 | 전자 장치 및 이의 음성 인식 방법 |
CN112071310B (zh) * | 2019-06-11 | 2024-05-07 | 北京地平线机器人技术研发有限公司 | 语音识别方法和装置、电子设备和存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6350895A (ja) * | 1986-08-21 | 1988-03-03 | 日本電信電話株式会社 | 音声照合並列プロセツサ方式 |
JP3226716B2 (ja) * | 1994-05-31 | 2001-11-05 | 日本電気株式会社 | 音声認識装置 |
JP3546633B2 (ja) | 1997-03-12 | 2004-07-28 | 三菱電機株式会社 | 音声認識装置 |
JP3969079B2 (ja) * | 2001-12-12 | 2007-08-29 | ソニー株式会社 | 音声認識装置および方法、記録媒体、並びにプログラム |
JP5103907B2 (ja) * | 2005-01-17 | 2012-12-19 | 日本電気株式会社 | 音声認識システム、音声認識方法及び音声認識プログラム |
US7865357B2 (en) * | 2006-03-14 | 2011-01-04 | Microsoft Corporation | Shareable filler model for grammar authoring |
-
2007
- 2007-08-17 JP JP2007212811A patent/JP4940057B2/ja not_active Expired - Fee Related
-
2008
- 2008-03-13 US US12/047,776 patent/US8015007B2/en not_active Expired - Fee Related
- 2008-08-15 CN CNA2008101686164A patent/CN101369425A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20090048839A1 (en) | 2009-02-19 |
JP2009047838A (ja) | 2009-03-05 |
US8015007B2 (en) | 2011-09-06 |
CN101369425A (zh) | 2009-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11423883B2 (en) | Contextual biasing for speech recognition | |
US10741170B2 (en) | Speech recognition method and apparatus | |
US9697827B1 (en) | Error reduction in speech processing | |
JP4316494B2 (ja) | 音声認識装置 | |
US20050159952A1 (en) | Pattern matching for large vocabulary speech recognition with packed distribution and localized trellis access | |
US20160260428A1 (en) | Statistical acoustic model adaptation method, acoustic model learning method suitable for statistical acoustic model adaptation, storage medium storing parameters for building deep neural network, and computer program for adapting statistical acoustic model | |
JP4940057B2 (ja) | 音声認識装置及びその方法 | |
WO2015021844A1 (en) | Keyword detection for speech recognition | |
Hori et al. | Real-time one-pass decoding with recurrent neural network language model for speech recognition | |
JP2001242884A (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
US20130138441A1 (en) | Method and system for generating search network for voice recognition | |
JP7351018B2 (ja) | エンド・ツー・エンド音声認識における固有名詞認識 | |
JP2002082689A (ja) | 語彙ツリーを用いた認識システム | |
JP5103907B2 (ja) | 音声認識システム、音声認識方法及び音声認識プログラム | |
KR20230156125A (ko) | 룩업 테이블 순환 언어 모델 | |
US20090222266A1 (en) | Apparatus, method, and recording medium for clustering phoneme models | |
JP2003208195A5 (ja) | ||
Dixon et al. | A comparison of dynamic WFST decoding approaches | |
Rybach et al. | On lattice generation for large vocabulary speech recognition | |
Liu et al. | Efficient dynamic wfst decoding for personalized language models | |
JP4537970B2 (ja) | 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体 | |
JP2003140685A (ja) | 連続音声認識装置およびそのプログラム | |
JP4104831B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP4801107B2 (ja) | 音声認識装置、方法、プログラム及びその記録媒体 | |
JP4801108B2 (ja) | 音声認識装置、方法、プログラム及びその記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100601 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111011 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111206 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120131 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120227 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150302 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4940057 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150302 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |