JP2004272243A - 音声認識方法 - Google Patents
音声認識方法 Download PDFInfo
- Publication number
- JP2004272243A JP2004272243A JP2004045242A JP2004045242A JP2004272243A JP 2004272243 A JP2004272243 A JP 2004272243A JP 2004045242 A JP2004045242 A JP 2004045242A JP 2004045242 A JP2004045242 A JP 2004045242A JP 2004272243 A JP2004272243 A JP 2004272243A
- Authority
- JP
- Japan
- Prior art keywords
- word
- hypothesis
- attribute information
- probability
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 239000013598 vector Substances 0.000 claims description 41
- 238000013528 artificial neural network Methods 0.000 claims description 25
- 238000013507 mapping Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 230000000306 recurrent effect Effects 0.000 claims description 5
- 238000000513 principal component analysis Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 7
- 239000007788 liquid Substances 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 210000002569 neuron Anatomy 0.000 description 5
- 230000035622 drinking Effects 0.000 description 4
- 210000004205 output neuron Anatomy 0.000 description 4
- 239000007787 solid Substances 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 239000007789 gas Substances 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 235000013361 beverage Nutrition 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
【課題】先行技術に対して比較認識率が高い音声認識方法を提供する。
【解決手段】それぞれの単語の構文的及び/又は意味的な情報等について記述的であるような単語の属性情報に基づく言語モデルが適用される音声認識方法は、音声入力(SI)を受信するステップ(S0)と、1群の整列仮説(OH)を生成するステップ(S1)と、少なくとも1つの仮説単語の少なくとも1つについて属性情報(AI)を生成するステップ(S2)と、少なくとも1つの仮説単語の少なくとも1つについて単語確率を算出するために属性情報(AI)に基づく言語モデル(LM)を使用するステップ(S3)と、1群の再整列仮説(ROH)を生成するための単語確率を使用するステップ(S4)と、認識結果(RR)として再整列仮説(ROH)の群から少なくとも1つの最良仮説(BH)を選ぶステップ(S5)と、認識結果を出力するステップ(S6)とを含む。
【選択図】図1
【解決手段】それぞれの単語の構文的及び/又は意味的な情報等について記述的であるような単語の属性情報に基づく言語モデルが適用される音声認識方法は、音声入力(SI)を受信するステップ(S0)と、1群の整列仮説(OH)を生成するステップ(S1)と、少なくとも1つの仮説単語の少なくとも1つについて属性情報(AI)を生成するステップ(S2)と、少なくとも1つの仮説単語の少なくとも1つについて単語確率を算出するために属性情報(AI)に基づく言語モデル(LM)を使用するステップ(S3)と、1群の再整列仮説(ROH)を生成するための単語確率を使用するステップ(S4)と、認識結果(RR)として再整列仮説(ROH)の群から少なくとも1つの最良仮説(BH)を選ぶステップ(S5)と、認識結果を出力するステップ(S6)とを含む。
【選択図】図1
Description
本発明は、音声認識方法に関するものであり、特に認識率の改善を図った音声認識方法に関する。
自動音声認識(ASR)において、認識率を改善するために一般には、標準的な言語モデルが使用されている。従来技術によるシステムのほとんどでは、テクストの大きな集合体(トレーニングデータ)における出現頻度を数えることにより、発話された単語列においてその事前確率を推測することができることを前提とする統計的n−グラム(n−gram)標準言語モデルが使用されている。このために、ある単語の出現は以前におけるn−1個の単語にのみ依存するとが前提とされる。
言語をモデル化することが困難になる根本的な課題は、次元数(dimentionality)である。すなわち、特定の語彙サイズVから、n個の連続する単語の結合分布をモデル化するために必要な、自由なパラメータの数である。通常、大型語彙連続音声認識(large vocabulary continuous speech recognition、以下、LVCSRという)では、語彙サイズは64kであり、nは、複合中の計算上の複雑性を考慮した上で、2又は3までと制限されている。すなわち、(64k)2個分のバイグラム(bigram)及び(64k)3個のトライグラム(trigram)の多くは、トレーニング中には、決して見られない。現在の中心的な課題は、トレーニングコーパス中で既に見られた単語列を、新しい単語列へどのように一般化することができるかである。可能な解決法の1つとしては、バックオフトライグラム(back-off trigrams)や他の平滑化技術を使用して行われるような、より小さな文脈サイズを使用して予測された確率を見ることである。しかしながら、この方法には、考慮される文脈のサイズのため、幾つかの短所がある。
"Readings in Speech Recogniton" - "Chapter 8 Language Processing for Speech Recognition, Alexander Waibel, 8.1 Self-Organized Language Modeling for Speech Recognition", F. Jelinek, Kai-Fu Lee, Morgan Kaufmann Publishers (1990), pp-450-506.
本発明の目的は、改善された認識率をもたらす音声認識方法を提供することである。
この目的を達成するために、本発明は、請求項の範囲に記載されるような音声認識方法を提供する。さらに、本発明は、音声処理システム、コンピュータプログラム製品及びコンピュータで読み取り可能な記憶媒体を提供する。更なる特徴及び好ましい実施形態は、それぞれの従属請求の範囲及び/又は以下の説明でそれぞれ定義される。
本発明に係る音声認識方法は、音声入力を受信するステップと、各仮説が少なくとも1つの仮説単語を含んでいる1群の整列仮説を生成するステップと、各仮説単語の構文的及び/又は意味的な情報などを記述するように生成され、少なくとも1つの仮説単語のうち、少なくとも1つの仮説単語のための属性情報を生成するステップと、複数の事前仮説単語のうちの各仮説単語の事後確率を記述するように生成され、少なくとも1つの仮説単語のうち、少なくとも1つの仮説単語の単語確率を算出するための、属性情報に基づく言語モデルを使用するステップと、1群の再整列仮説を生成するための単語確率を使用するステップと、認識結果として、再整列仮説の群から少なくとも1つの最良仮説を選択するステップと、認識結果を出力するステップとを含むことを特徴とする。
以下において、言語モデル(language model)という用語は、属性情報に基づいた言語モデルを表現するために使用される。したがって、これは、属性言語モデルとも呼ぶことができる。以下においては、属性情報に基づいていない言語モデルを意味する場合は、標準言語モデルという表現を使用する。
属性情報に基づく言語モデルを使用する利点は、単語確率を算出するために、標準言語モデルでは現在使用されていない情報が使用されるということであるが。「類似する単語」が類似の属性ベクトルを持ち、さらに単語列の属性ベクトルとして表現される、単語列の同時確率の関数は、滑らかであることから、この言語モデルを一般化することができる。これは、所定の属性への小さな変化は、出力される確率に小さな変化をもたらすことを意味する。総合的にいえば、未知の単語においては、結果的に生じる確率関数が、単語表現の滑らかな関数となるので、一般化は高いといえる。
属性言語モデルでは、単語との関係は、単語を表現する属性の特徴を使用して把握される。単語列の連結された確率関数は、単語列内のそれぞれの単語の属性特徴ベクトルによって表現される。この属性特徴ベクトルは、その単語の属性情報から導かれる。これらの単語/単語列における言語モデルの確率は、属性特徴ベクトルによって決定される、新しい空間又は新しい空間の縮小された変型に算出されるので、極めて類似している。この新しい空間では、類似性の高いベクトルは、類似する単語を表現する。この場合、確率分布は滑らかな関数であり、したがって、言語モデルは極めてよく一般化されることになる。極端な場合、各単語は、属性ベクトルそのものとなる。
本発明の好適な実施形態によれば、このような属性情報も、仮説単語の組み合わせのために生成することができるが、属性情報は、仮説単語の組み合わせの構文的及び/又は意味的な情報などを表す。このように、属性情報は、単語郡に割り当てることができる。これは、例えば、頻繁に類似した対話が生じる対話システムにおいて重要である。
好ましくは、単語確率は、トレーニング可能な確率推定器、特に、人工神経ネットワークを使用して、算出される。トレーニング可能な確率推定器を使用する利点は、平滑化又はバックオフ技術を使用する必要がなくなることである。
人工神経ネットワークは、時間遅延神経ネットワーク、リカレントニューラルネットワーク(Recurrent Neural Network)、又は多層パーセプトロンネットワークであってもよい。反復及び時間遅延神経ネットワークの使用によって、従来のn−グラム言語モデルより大きい文脈をモデル化することができる。これは、反復が、多くの事前入力のネットワークへの影響をもたらすからである。
好ましくは、トレーニング可能な確率推定器のための入力として使用される、符号化された属性情報を含む特徴ベクトルが生成される。
本発明の好適な実施形態による次元縮小方法は、特徴ベクトルに適用され、これは、トレーニング可能な確率推定器のトレーニングの加速化及び活用中の加速化にも結びつく。
このような次元縮小のための方法は、主成分解析、潜在している意味的指数及び/又はランダムマッピング予測に基づいてもよい。
本発明の好適な実施形態によれば、標準言語モデルが言語モデルにさらに使用されることも可能である。このように、属性情報は、標準言語モデルにさらに追加使用される。
本発明に係る音声処理システムは、上に定義されるような音声認識方法及び/又はそのステップを実行又は実現することができる。
本発明の好適な実施形態によるコンピュータプログラム製品は、コンピュータ、ディジタル信号処理手段などで実行される場合に、音声認識方法及び/又はそのステップを実行及び/又は実現するようになされたコンピュータプログラム手段を含む。
本発明の好適な実施形態によるコンピュータで読出し可能な記憶媒体は、上記定義されるようなコンピュータプログラム製品を含む。
本発明によれば、統計モデルと比較した単語間の属性に基づいた類似性に基づいた、より優れた一般化が可能になり、より改善された認識率をもたらす音声認識方法を提供することが可能となる。
また、本発明に係るシステムは、個々の単語としてではなく、単語の連続的な空間(マッピング)上で作動するのことで、認識率を改善させることができる。
本発明及びその効果の詳細は、添付図面を参照して、以下の実施形態における実施例によって説明される。
図1において、入力ステップS0では、音声入力SIが受信される。その後、仮説を生成するステップS1では、1群の整列仮説OHが生成される。仮説はそれぞれ少なくとも1つの仮説単語を含んでいる。以下において、「単語」とは、他に述べていない以上、常に仮説単語を示す。
例えば、整列仮説OHの1群は次の2つの仮説を含んでいるとする。
1.「マリアは自動車を飲む。」
2.「マリアはコーラを飲む。」
これに次ぐ属性情報生成ステップS2では、属性情報が生成される。したがって、語彙中の各単語は、その多くの特徴について記述され、最も代表的な特徴/属性を用いて符号化される。最も代表的とは、例えば単語の意味的な概念について最もよく表す特徴のことをいう。
2.「マリアはコーラを飲む。」
これに次ぐ属性情報生成ステップS2では、属性情報が生成される。したがって、語彙中の各単語は、その多くの特徴について記述され、最も代表的な特徴/属性を用いて符号化される。最も代表的とは、例えば単語の意味的な概念について最もよく表す特徴のことをいう。
例えば、「コーラ」については、属性情報は、飲料の概念をとらえる。次の属性がコーラに関連している。
集合状態 = (液体、固体、気体のうち)液体、
用途 = (食べる、臭いを嗅ぐ、見る、聞く、飲むのうち)飲酒、
色 = (白、黒、赤、黄、青、緑、白のうち)黒、
...
統語範疇 = (名詞、動詞、代名詞...のうち)名詞
この属性情報AIに基づいて、言語モデルが決定される。この言語モデルは、その後、単語確率を算出するために使用される。単語確率は、各仮説の各仮説単語について算出されるのであってもよいし、又は単に幾つかの仮説の幾つかの仮説単語について決定されるだけでもよい。単語確率は、次のように定義される。
用途 = (食べる、臭いを嗅ぐ、見る、聞く、飲むのうち)飲酒、
色 = (白、黒、赤、黄、青、緑、白のうち)黒、
...
統語範疇 = (名詞、動詞、代名詞...のうち)名詞
この属性情報AIに基づいて、言語モデルが決定される。この言語モデルは、その後、単語確率を算出するために使用される。単語確率は、各仮説の各仮説単語について算出されるのであってもよいし、又は単に幾つかの仮説の幾つかの仮説単語について決定されるだけでもよい。単語確率は、次のように定義される。
P(wi=k|ai−n+1,...,ai−2,ai−1,∀k∈[1,N]) (1)
方程式(1)で、Nは、語彙のサイズであり、wiは仮説内の仮説単語である。ai−n+1,...,ai−2,ai−1は、それぞれの仮説の中でn−1前の仮説単語の属性情報AIを表す。すなわち、ある属性情報aiは次のように与えられる。
方程式(1)で、Nは、語彙のサイズであり、wiは仮説内の仮説単語である。ai−n+1,...,ai−2,ai−1は、それぞれの仮説の中でn−1前の仮説単語の属性情報AIを表す。すなわち、ある属性情報aiは次のように与えられる。
ai={集合状態,用途,色,...,統語範疇} (2)
この実施例では、属性、すなわち「集合状態」、「用途」、「色」及び「統語範疇」、次のそれぞれの群からの値を仮定することができる。
この実施例では、属性、すなわち「集合状態」、「用途」、「色」及び「統語範疇」、次のそれぞれの群からの値を仮定することができる。
集合状態∈{液体、固体、気体}
用途∈{食べる、臭いを嗅ぐ、見る、聞く、飲む}
色∈{白、黒、赤、黄、青、緑、白}
...
統語範疇∈{名詞、動詞、代名詞、... } (3)
なお、言語モデルが原因でない場合、本発明が同様に適用可能であることは、この時点で留意すべきである。これは、単語確率が決定される場合、仮説単語に続く属性が考慮されることを意味する。この場合、方程式1は、したがって、後続の単語からの属性情報を組み込むように、修正される、すなわち、右の文脈が使用される。
用途∈{食べる、臭いを嗅ぐ、見る、聞く、飲む}
色∈{白、黒、赤、黄、青、緑、白}
...
統語範疇∈{名詞、動詞、代名詞、... } (3)
なお、言語モデルが原因でない場合、本発明が同様に適用可能であることは、この時点で留意すべきである。これは、単語確率が決定される場合、仮説単語に続く属性が考慮されることを意味する。この場合、方程式1は、したがって、後続の単語からの属性情報を組み込むように、修正される、すなわち、右の文脈が使用される。
図1では、単語確率は、方程式(1)に基づいて、確率計算ステップS3で算出される。その後、再整列ステップS4で、単語確率は、整列仮説OHの群の再整列をするために使用される。これは、1群の再整列仮説ROHをもたらす。上記の例示では、算出された単語確率の使用によって、第2の仮説、すなわち「マリアはコーラを飲む」は、最初の仮説、すなわち「マリアは自動車を飲む。」よりも頻度が高いということが分かる。上記に示されるように、再整列ステップS4の出力は、1群の再整列仮説ROHである。この例においては、再整列仮説の群は次のとおりである。
1.「マリアはコーラを飲む。」
2.「マリアは自動車を飲む。」
選択ステップS5では、最良仮説BHは、認識結果RRとして選択される。ここで、これは「マリアはコーラを飲む」である。その後、出力ステップS6では、認識結果が出力される。
2.「マリアは自動車を飲む。」
選択ステップS5では、最良仮説BHは、認識結果RRとして選択される。ここで、これは「マリアはコーラを飲む」である。その後、出力ステップS6では、認識結果が出力される。
次に、図2によって、単語確率の算出について説明する。
図2では、入力ステップS0、及び仮説生成ステップS1が既に行われたと仮定されている。さらに、上記と同じ例が、図説のために使用される。
図2の属性情報生成ステップS2では、上に説明されるように、属性情報AIが決定され、例えば、コーラについては、次のとおりである。
集合状態 = (液体、固体、気体のうち)液体、
用途 = (食べる、臭いを嗅ぐ、見る、聞く、飲むのうち)飲酒、
色 = (白、黒、赤、黄、青、緑、白のうち)黒、
...
統語範疇 = (名詞、動詞、代名詞...のうち)名詞
その後、符号化ステップS2−1では、各単語について、それぞれの属性特徴ベクトルAFVが決定される(さらに、以下に説明する図3を参照)ようにして、属性情報AIが符号化される。属性特徴ベクトルAFVの決定は、一例を用いて説明する。単語「コーラ」については、対応する属性特徴ベクトルAFVは、次のようである。
用途 = (食べる、臭いを嗅ぐ、見る、聞く、飲むのうち)飲酒、
色 = (白、黒、赤、黄、青、緑、白のうち)黒、
...
統語範疇 = (名詞、動詞、代名詞...のうち)名詞
その後、符号化ステップS2−1では、各単語について、それぞれの属性特徴ベクトルAFVが決定される(さらに、以下に説明する図3を参照)ようにして、属性情報AIが符号化される。属性特徴ベクトルAFVの決定は、一例を用いて説明する。単語「コーラ」については、対応する属性特徴ベクトルAFVは、次のようである。
コーラ = (feature1,feature2,
feature3,...,featureC) (4)
ここで、Cは語彙で見つかった属性の合計数である。あるfeaturei,i∈{1,...,C}は、1アウトオブk(1-out-of-k)コードを備えたそれぞれの属性の符号化により決定される。ここで、kは属性に与えることが可能な値の数である。例えば、属性「集合状態」は、3つの可能な値(すなわち「液体」、「固体」、「気体」)を持っているので、k=3である。コーラが、属性「集合状態」に値「液体」を持つので、以下のとおりである。
feature3,...,featureC) (4)
ここで、Cは語彙で見つかった属性の合計数である。あるfeaturei,i∈{1,...,C}は、1アウトオブk(1-out-of-k)コードを備えたそれぞれの属性の符号化により決定される。ここで、kは属性に与えることが可能な値の数である。例えば、属性「集合状態」は、3つの可能な値(すなわち「液体」、「固体」、「気体」)を持っているので、k=3である。コーラが、属性「集合状態」に値「液体」を持つので、以下のとおりである。
feature1(集合状態)=[100]
属性「用途」の値は、「飲む」であるので、したがって、以下のとおりである。
属性「用途」の値は、「飲む」であるので、したがって、以下のとおりである。
feature2(用途)=[00001]
feature3,...,featureCは、したがって、以下のとおり決定される。
feature3,...,featureCは、したがって、以下のとおり決定される。
feature3(色)=[0100000]
...
featurec(統語範疇)=[1000...0]
したがって、単語「コーラ」の属性特徴ベクトルAFVは、
AFV(コーラ)=
[100,00001,0100000,...,10000...0]
である。
...
featurec(統語範疇)=[1000...0]
したがって、単語「コーラ」の属性特徴ベクトルAFVは、
AFV(コーラ)=
[100,00001,0100000,...,10000...0]
である。
このように符号化された全ての属性特徴ベクトルAFVは、属性の数及びそれぞれの属性の可能な値の数に依存する長さLと同じである。
属性特徴ベクトルAFVは、仮説の連続する仮説単語の単語ウィンドウの幾つかの仮説単語について、すなわち左及び右の文脈について、決定され、特徴ベクトルFVを導く。ここで、図3の例では、n−1個の単語の左の文脈だけが使用される。したがって、特徴ベクトルFVは、n−1語前の単語、すなわちAFVi−n+1,...,AFVi−2,AFVi−1の属性特徴ベクトルAFVからなる。
次いで、この特徴ベクトルFVは、確率計算ステップS3において、トレーニング可能な確率推定器TPEのための入力として使用される。トレーニング可能な確率推定器TPEは、属性情報AIに基づいた言語モデルを表す。図2では、確率計算ステップS3の後、図1により既に説明されたのと同じステップすなわち、再整列ステップS4、選択ステップS5及び出力ステップS6が続く。
本発明の好適な実施形態によれば、トレーニング可能な確率推定器TPEは人工神経ネットワークである。語彙のサイズがNである場合は、人工神経ネットワークANNは、N個の出力ニューロンを持っている。各出力ニューロンは、ある特徴ベクトルFVを与えられて、n番目の単語の事後確率を出力するようにトレーニングされる。
属性特徴ベクトルAFVのサイズが比較的小さい場合、すなわち属性特徴ベクトルAFVが、50乃至100の合理的な次元を有する場合、特徴ベクトルFVは、人工神経ネットワークANNのための入力として直接使用してもよい。これは、属性の数、及び属性のそれぞれの値の数が、比較的少ない場合である。しかしながら、属性特徴ベクトルAFVの次元が非常に多い場合、これは高い次元の特徴ベクトルFVに結びつくので、例えば主成分解析、潜在的意味指数、及び/又はランダムマッピング予測RMPのような次元縮小のための方法が適用される。
図3において、ランダムマッピング予測RMPが、次元縮小に使用され、また、その結果生じたマップ入力ベクトルMIVが、3層の多層パーセプトロンネットワーク3MLPのための入力として使用される。
図3で分かるように、トレーニング可能な確率推定器TPEのための入力は、上記に説明されたように生成される特徴ベクトルFVである。したがって、特徴ベクトルFVはn−1個の属性特徴ベクトルAFVi−n+1,...,AFVi−2,AFVi−1からなる。ランダムマッピング予測RMPは、各属性特徴ベクトルAFVに適用される。その結果、縮小マッピング化特徴ベクトル(small sized mapped feature vector)SSMFVi−n+1,...,SSMFVi−2,SSMFVi−1が得られる。なお、次元縮小の方法は、特徴ベクトルFVにも直接に適用され得る。
図3で、Sは、マッピングされた小型の特徴ベクトルSSMFVi−n+1,...,SSMFVi−2,SSMFVi−1のサイズを示す。さて、n−1個の小型のマッピングされた特徴ベクトルは、3層の多層のパーセプトロンネットワーク入力層3MLPILにおいて、3層の多層のパーセプトロンネットワーク3MLPのための入力として使用される。3層の多層のパーセプトロンネットワーク3MLPは、さらに、隠れた層HL及び出力層OLからなる。隠れた層は、Hニューロンからなる。既に述べたように、出力層OLは、N個の出力ニューロンを含んでいるが、これは、サイズNを備えた語彙の個々のそれぞれの単語について、単語確率WP−1,...,のWP−Nを出力するようにトレーニングされる。
図3の例では、人工神経ネットワークANNは、例えば、バックプロパゲーション(back propagation)アルゴリズムによってトレーニングされる標準の完全接続多層パーセプトロンネットワークである。しかしながら、異なるトポロジーを備えた神経ネットワーク、例えばバックプロパゲーション真時(BPTT)によってトレーニングされたリカレントニューラルネットワークを使用してもよい。これによって、隠れた層の数は、文脈の数と等しくなる。
なお、図3でのように、ランダムマッピング予測RMPの使用が、速度と効率に関する明瞭な長所を持つことに注目すべきである。ランダムマッピング予測RMPは、単語及び対応する特徴ベクトルによって指数される単純な参照テーブルとして実現することができる。ランダムマッピング予測RMPの適用が、神経ネットワークのための入力の数を相当に減少させるので、速度は相当に増加する。ランダムマッピング予測RMPを適用しないと、神経ネットワークのための入力の数は、(n−1)×Lになる。ランダムマッピング予測RMPを適用することによって、神経ネットワークのための入力の数は、(n−1)×Sとなる。これによって、Sは、はるかにLより小さくなるように選ばれる、すなわちS<<Lである。3層の多層のパーセプトロンネットワークのための入力次元が、ランダムマッピング予測RMPの適用により、はるかに小さくなるので、ネットワークのトレーニングは、はるかに速い、すなわち、ランダムマッピング予測RMPを適用する場合、計算上の複雑性を低くすることになる。
本発明は、言語モデルの一般化能力を高めるために、その概念上及び文法上の意味によって単語の類似性をとらえるための解決法を提案する。さらに、本発明は、属性に基づいて事前知識として導かれた単語間の類似点を考慮した言語モデルを生成する新しい方法を提案する。1単位が単語又は単語列でありうる場合、これらの属性は、1単位を代表するような方法として定義される。結果としてあらわれたモデルは、統計的手法ではなく、人工知能(多層のパーセプトロン(multilayer-perceptron)又は時間遅延神経ネットワーク(Time Delay Neural Networks、以下、TDNNという))に基づく。
語彙の全ての単語について派生した属性を使用することにより、単語間の類似点は、適切な距離関数を使用する全ての神経ネットワーク分類器によって容易に算出することができる。これは、いままで現れたことのない単語列は、既に現れた文を形成する単語に類似する単語で構成されている場合は、高い確率を得ることで、一般化が得られる。
さらに、TDNNかリカレントニューラルネットワーク(RNN)の使用によって、文脈のサイズは、自由なパラメータの数を余り増加させることなく、2単語からさらに多くの単語に増加されることが可能である。これは、ネットワーク入力ウィンドウが、単語の別のグループへ移される場合、連続する単語(句であってもよい)のグループのために行われた計算をやり直す必要がないからである。
神経ネットワークの種類は、マッピングされた入力の大きさ及び2以上の単語のための同様の属性を定義する能力に依存する。多重層パーセプトロンの使用の場合には、ネットワークのトポロジー次のようになる。「入力」層は、語彙wi−n+1,...,wi−2,wi−1の中で、n−1語前の単語のインデックスを表し、かつ、出力ニューロン(N)は、語彙中の全ての単語のための事後確率が算出される。
P(wi=k|wi−n+1,...,wi−2,wi−1,∀k∈[1,N])
この入力層は、実際に、(単語及び対応する特徴ベクトルによって指数化された)参照テーブルである。トレーニングアルゴリズム中に考慮に入れられる実際の入力層は、(n−1)*Sと等しい数のニューロンを持っているマッピング層からなる。隠れた層は、Hニューロンからなる。
この入力層は、実際に、(単語及び対応する特徴ベクトルによって指数化された)参照テーブルである。トレーニングアルゴリズム中に考慮に入れられる実際の入力層は、(n−1)*Sと等しい数のニューロンを持っているマッピング層からなる。隠れた層は、Hニューロンからなる。
RNN使用の場合には、トポロジー(topology)は、n−1語前の単語指数、それぞれがSニューロンを備えた(n−1)の隠れ層、及びNニューロンを備えた出力層を代表する同一「入力」レベルとなる。上記双方の場合、単位の出力は、誤差関数として事後確率及びクロスエントロピーを得るためにソフトマックス(softmax)正規化を使用して算出される。ネットワークは、各単語(又は単語列)の属性ベクトルを学習し、n−グラム確率を推測する。
LVCSRでは、最も尤度の高い単語列を出力するのに必要なステップを次のようにまとめることができる。
1.仮説の代替単語列を出力する音響モデル;
2.これらの仮説中の各単語の符号化(対応する特徴の列への単語のマッピング);
3.単語のインデックスと特徴ベクトル間の対応のための参照テーブル作成;
4.これら特徴の列をNNに与える;
5.事後確率として神経ネットワークの出力スコアを使用する;
6.ステップ5による制約に続き、ステップ1で導いた単語列ための確率を算出する。
2.これらの仮説中の各単語の符号化(対応する特徴の列への単語のマッピング);
3.単語のインデックスと特徴ベクトル間の対応のための参照テーブル作成;
4.これら特徴の列をNNに与える;
5.事後確率として神経ネットワークの出力スコアを使用する;
6.ステップ5による制約に続き、ステップ1で導いた単語列ための確率を算出する。
本発明によれば、語彙中の新語が対応する属性に関係されている限り、任意の新しい領域への迅速な適応が可能となる。新語が、内在する属性によって、既存のものとは完全に異ならない限り、再トレーニングステップは不要となる。
単語区分のマッピングのように、それが64Kの規模であっても、語彙のサイズは縮小されないが、単語を定義するマッピング単語概念の使用によって改善される。属性は、その単語に関して、なるべく多くの情報をつかむために、統一されている。このように、単語に関する情報は、1つの区分だけに切り詰められておらず、より意味的より統計的情報をもたらす、より多くの区分に拡張される。ネットワークは、単語内特徴分布を学習するようになっている。
BH 最良仮説、SI 音声入力、S0 入力ステップ、S1 仮説生成ステップ、S2 属性情報生成ステップ、S2−1 符号ステップ、S3 確率計算ステップ、S4 再整列ステップ、S5 選択ステップ、S6 出力ステップ、AFV 属性特徴ベクトル、SSMFV 縮小マッピング化特徴ベクトル、TDNN 時間遅延神経ネットワーク、RNN リカレントニューラルネットワーク、TPE トレーニング可能な確率推定器
Claims (12)
- 音声入力を受信するステップと、
各仮説が少なくとも1つの仮説単語を含んでいる1群の整列仮説を生成するステップと、
各仮説単語の構文的及び/又は意味的な情報などを記述するように生成され、前記少なくとも1つの仮説単語のうち、少なくとも1つの仮説単語のための属性情報を生成するステップと、
複数の事前仮説単語のうちの各仮説単語の事後確率を記述するように生成され、前記少なくとも1つの仮説単語のうち、少なくとも1つの仮説単語の単語確率を算出するための、前記属性情報に基づく言語モデルを使用するステップと、
1群の再整列仮説を生成するための前記単語確率を使用するステップと、
認識結果として、前記再整列仮説の前記群から少なくとも1つの最良仮説を選択するステップと、
前記認識結果を出力するステップとを含む音声認識方法。 - 前記仮説単語の組み合わせの構文的及び/又は意味的な情報などを記述的する属性情報を生成するステップをさらに含む請求項1に記載の音声認識方法。
- 前記単語確率は、トレーニング可能な確率推定器を使用して決定されることを特徴とする請求項1又は2に記載の音声認識方法。
- 前記トレーニング可能な確率推定器は、人口神経ネットワークであることを特徴とする請求項3に記載の音声認識方法。
- 前記人工神経ネットワークは、時間遅延神経ネットワーク、リカレントニューラルネットワーク及び多層のパーセプトロンネットワークのいずれか1つであることを特徴とする請求項4に記載の音声認識方法。
- 前記トレーニング可能な確率推定器への入力として、符号化された属性情報を含む特徴ベクトルを生成するステップをさらに含む請求項3乃至5のいずれか1項に記載の音声認識方法。
- 前記特徴ベクトルを次元縮小するステップをさらに含む請求項6に記載の音声認識方法。
- 前記次元縮小ステップは、主成分解析、潜在的意味指数及びランダムマッピング予測のいずれかに基づくことを特徴とする請求項7に記載の音声認識方法。
- 前記言語モデルにさらに標準言語モデルを加えるステップをさらに含む請求項1乃至8のいずれか1項に記載の音声認識方法。
- 請求項1乃至9のいずれか1項に記載の音声認識方法又はそのステップを実行又は実現する音声処理システム。
- コンピュータ、ディジタル信号処理手段又はその種の装置で実行されるとき、請求項1乃至9のいずれか1項に記載の音声認識方法又はそのステップを実行又は実現するためのコンピュータプログラム製品。
- 請求項11に記載のコンピュータプログラム製品を格納したコンピュータで読出し可能な記憶媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP03003876A EP1450350A1 (en) | 2003-02-20 | 2003-02-20 | Method for Recognizing Speech with attributes |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004272243A true JP2004272243A (ja) | 2004-09-30 |
Family
ID=32731553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004045242A Abandoned JP2004272243A (ja) | 2003-02-20 | 2004-02-20 | 音声認識方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20040167778A1 (ja) |
EP (1) | EP1450350A1 (ja) |
JP (1) | JP2004272243A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6093542A (ja) * | 1983-10-27 | 1985-05-25 | Tokyo Electric Co Ltd | キ−ボ−ド装置 |
JP2012027065A (ja) * | 2010-07-20 | 2012-02-09 | Nippon Telegr & Teleph Corp <Ntt> | 2チャネル音声の音声認識方法とその装置とプログラム |
JP2015169951A (ja) * | 2014-03-04 | 2015-09-28 | 株式会社デンソーアイティーラボラトリ | 情報処理装置、情報処理方法、およびプログラム |
JP2017049612A (ja) * | 2013-01-29 | 2017-03-09 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 自動音声認識のための方法およびシステム |
JP2017167378A (ja) * | 2016-03-17 | 2017-09-21 | 株式会社東芝 | 単語スコア計算装置、単語スコア計算方法及びプログラム |
JP2017527846A (ja) * | 2015-04-16 | 2017-09-21 | 三菱電機株式会社 | 音声認識装置およびリスコアリング装置 |
US11636667B2 (en) | 2016-11-16 | 2023-04-25 | Kabushiki Kaisha Toshiba | Pattern recognition apparatus, pattern recognition method, and computer program product |
Families Citing this family (74)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9083798B2 (en) | 2004-12-22 | 2015-07-14 | Nuance Communications, Inc. | Enabling voice selection of user preferences |
US7832003B2 (en) * | 2005-04-28 | 2010-11-09 | Microsoft Corporation | Walled gardens |
US8090584B2 (en) | 2005-06-16 | 2012-01-03 | Nuance Communications, Inc. | Modifying a grammar of a hierarchical multimodal menu in dependence upon speech command frequency |
US7917365B2 (en) | 2005-06-16 | 2011-03-29 | Nuance Communications, Inc. | Synchronizing visual and speech events in a multimodal application |
US8249344B2 (en) * | 2005-07-01 | 2012-08-21 | Microsoft Corporation | Grammatical parsing of document visual structures |
US8073700B2 (en) | 2005-09-12 | 2011-12-06 | Nuance Communications, Inc. | Retrieval and presentation of network service results for mobile device using a multimodal browser |
US8509563B2 (en) | 2006-02-02 | 2013-08-13 | Microsoft Corporation | Generation of documents from images |
US8442965B2 (en) | 2006-04-19 | 2013-05-14 | Google Inc. | Query language identification |
US8762358B2 (en) * | 2006-04-19 | 2014-06-24 | Google Inc. | Query language determination using query terms and interface language |
US9208785B2 (en) | 2006-05-10 | 2015-12-08 | Nuance Communications, Inc. | Synchronizing distributed speech recognition |
US7848314B2 (en) | 2006-05-10 | 2010-12-07 | Nuance Communications, Inc. | VOIP barge-in support for half-duplex DSR client on a full-duplex network |
US7676371B2 (en) | 2006-06-13 | 2010-03-09 | Nuance Communications, Inc. | Oral modification of an ASR lexicon of an ASR engine |
US8332218B2 (en) | 2006-06-13 | 2012-12-11 | Nuance Communications, Inc. | Context-based grammars for automated speech recognition |
US8374874B2 (en) | 2006-09-11 | 2013-02-12 | Nuance Communications, Inc. | Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction |
US8145493B2 (en) | 2006-09-11 | 2012-03-27 | Nuance Communications, Inc. | Establishing a preferred mode of interaction between a user and a multimodal application |
US7957976B2 (en) | 2006-09-12 | 2011-06-07 | Nuance Communications, Inc. | Establishing a multimodal advertising personality for a sponsor of a multimodal application |
US8073697B2 (en) | 2006-09-12 | 2011-12-06 | International Business Machines Corporation | Establishing a multimodal personality for a multimodal application |
US8086463B2 (en) | 2006-09-12 | 2011-12-27 | Nuance Communications, Inc. | Dynamically generating a vocal help prompt in a multimodal application |
US7827033B2 (en) | 2006-12-06 | 2010-11-02 | Nuance Communications, Inc. | Enabling grammars in web page frames |
US8069047B2 (en) | 2007-02-12 | 2011-11-29 | Nuance Communications, Inc. | Dynamically defining a VoiceXML grammar in an X+V page of a multimodal application |
US8150698B2 (en) | 2007-02-26 | 2012-04-03 | Nuance Communications, Inc. | Invoking tapered prompts in a multimodal application |
US7801728B2 (en) | 2007-02-26 | 2010-09-21 | Nuance Communications, Inc. | Document session replay for multimodal applications |
US9208783B2 (en) | 2007-02-27 | 2015-12-08 | Nuance Communications, Inc. | Altering behavior of a multimodal application based on location |
US7840409B2 (en) | 2007-02-27 | 2010-11-23 | Nuance Communications, Inc. | Ordering recognition results produced by an automatic speech recognition engine for a multimodal application |
US8713542B2 (en) | 2007-02-27 | 2014-04-29 | Nuance Communications, Inc. | Pausing a VoiceXML dialog of a multimodal application |
US7809575B2 (en) | 2007-02-27 | 2010-10-05 | Nuance Communications, Inc. | Enabling global grammars for a particular multimodal application |
US7822608B2 (en) | 2007-02-27 | 2010-10-26 | Nuance Communications, Inc. | Disambiguating a speech recognition grammar in a multimodal application |
US8938392B2 (en) | 2007-02-27 | 2015-01-20 | Nuance Communications, Inc. | Configuring a speech engine for a multimodal application based on location |
US8843376B2 (en) | 2007-03-13 | 2014-09-23 | Nuance Communications, Inc. | Speech-enabled web content searching using a multimodal browser |
US7945851B2 (en) | 2007-03-14 | 2011-05-17 | Nuance Communications, Inc. | Enabling dynamic voiceXML in an X+V page of a multimodal application |
US8670987B2 (en) | 2007-03-20 | 2014-03-11 | Nuance Communications, Inc. | Automatic speech recognition with dynamic grammar rules |
US8515757B2 (en) | 2007-03-20 | 2013-08-20 | Nuance Communications, Inc. | Indexing digitized speech with words represented in the digitized speech |
US8909532B2 (en) | 2007-03-23 | 2014-12-09 | Nuance Communications, Inc. | Supporting multi-lingual user interaction with a multimodal application |
US8788620B2 (en) | 2007-04-04 | 2014-07-22 | International Business Machines Corporation | Web service support for a multimodal client processing a multimodal application |
US8725513B2 (en) | 2007-04-12 | 2014-05-13 | Nuance Communications, Inc. | Providing expressive user interaction with a multimodal application |
US8862475B2 (en) | 2007-04-12 | 2014-10-14 | Nuance Communications, Inc. | Speech-enabled content navigation and control of a distributed multimodal browser |
US8229081B2 (en) | 2008-04-24 | 2012-07-24 | International Business Machines Corporation | Dynamically publishing directory information for a plurality of interactive voice response systems |
US8121837B2 (en) | 2008-04-24 | 2012-02-21 | Nuance Communications, Inc. | Adjusting a speech engine for a mobile computing device based on background noise |
US8214242B2 (en) | 2008-04-24 | 2012-07-03 | International Business Machines Corporation | Signaling correspondence between a meeting agenda and a meeting discussion |
US9349367B2 (en) | 2008-04-24 | 2016-05-24 | Nuance Communications, Inc. | Records disambiguation in a multimodal application operating on a multimodal device |
US8082148B2 (en) | 2008-04-24 | 2011-12-20 | Nuance Communications, Inc. | Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise |
JP5598331B2 (ja) * | 2008-11-28 | 2014-10-01 | 日本電気株式会社 | 言語モデル作成装置 |
US8380513B2 (en) | 2009-05-19 | 2013-02-19 | International Business Machines Corporation | Improving speech capabilities of a multimodal application |
US8290780B2 (en) | 2009-06-24 | 2012-10-16 | International Business Machines Corporation | Dynamically extending the speech prompts of a multimodal application |
US8510117B2 (en) | 2009-07-09 | 2013-08-13 | Nuance Communications, Inc. | Speech enabled media sharing in a multimodal application |
US8416714B2 (en) | 2009-08-05 | 2013-04-09 | International Business Machines Corporation | Multimodal teleconferencing |
US20120245919A1 (en) * | 2009-09-23 | 2012-09-27 | Nuance Communications, Inc. | Probabilistic Representation of Acoustic Segments |
US8775341B1 (en) | 2010-10-26 | 2014-07-08 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US9015093B1 (en) | 2010-10-26 | 2015-04-21 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9558743B2 (en) * | 2013-03-15 | 2017-01-31 | Google Inc. | Integration of semantic context information |
US9805718B2 (en) * | 2013-04-19 | 2017-10-31 | Sri Internaitonal | Clarifying natural language input using targeted questions |
US10867597B2 (en) * | 2013-09-02 | 2020-12-15 | Microsoft Technology Licensing, Llc | Assignment of semantic labels to a sequence of words using neural network architectures |
US10127901B2 (en) | 2014-06-13 | 2018-11-13 | Microsoft Technology Licensing, Llc | Hyper-structure recurrent neural networks for text-to-speech |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
JP6509694B2 (ja) * | 2015-09-15 | 2019-05-08 | 株式会社東芝 | 学習装置、音声検出装置、学習方法およびプログラム |
US10366158B2 (en) * | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US9842106B2 (en) * | 2015-12-04 | 2017-12-12 | Mitsubishi Electric Research Laboratories, Inc | Method and system for role dependent context sensitive spoken and textual language understanding with neural networks |
US10176799B2 (en) * | 2016-02-02 | 2019-01-08 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for training language models to reduce recognition errors |
US10176802B1 (en) * | 2016-03-21 | 2019-01-08 | Amazon Technologies, Inc. | Lattice encoding using recurrent neural networks |
EP4235646A3 (en) | 2016-03-23 | 2023-09-06 | Google LLC | Adaptive audio enhancement for multichannel speech recognition |
US11449744B2 (en) | 2016-06-23 | 2022-09-20 | Microsoft Technology Licensing, Llc | End-to-end memory networks for contextual language understanding |
US10366163B2 (en) | 2016-09-07 | 2019-07-30 | Microsoft Technology Licensing, Llc | Knowledge-guided structural attention processing |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) * | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN110766072A (zh) * | 2019-10-22 | 2020-02-07 | 探智立方(北京)科技有限公司 | 一种基于结构相似性的计算图进化ai模型自动生成方法 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5749066A (en) * | 1995-04-24 | 1998-05-05 | Ericsson Messaging Systems Inc. | Method and apparatus for developing a neural network for phoneme recognition |
US6490555B1 (en) * | 1997-03-14 | 2002-12-03 | Scansoft, Inc. | Discriminatively trained mixture models in continuous speech recognition |
US6006181A (en) * | 1997-09-12 | 1999-12-21 | Lucent Technologies Inc. | Method and apparatus for continuous speech recognition using a layered, self-adjusting decoder network |
CN1111841C (zh) * | 1997-09-17 | 2003-06-18 | 西门子公司 | 在语言识别中通过计算机来确定至少两个单词的序列出现概率的方法 |
DE69932803T2 (de) * | 1998-02-02 | 2007-03-15 | Pulsepoint Communications, Carpenteria | Dynamisch ladbare satzbuchbibliotheken für gesprochene sprachgrammatik in einem interaktiven system |
US6182039B1 (en) * | 1998-03-24 | 2001-01-30 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus using probabilistic language model based on confusable sets for speech recognition |
US6499013B1 (en) * | 1998-09-09 | 2002-12-24 | One Voice Technologies, Inc. | Interactive user interface using speech recognition and natural language processing |
US6519562B1 (en) * | 1999-02-25 | 2003-02-11 | Speechworks International, Inc. | Dynamic semantic control of a speech recognition system |
US7058573B1 (en) * | 1999-04-20 | 2006-06-06 | Nuance Communications Inc. | Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes |
WO2001026092A2 (en) * | 1999-10-06 | 2001-04-12 | Lernout & Hauspie Speech Products N.V. | Attribute-based word modeling |
WO2001046945A1 (en) * | 1999-12-20 | 2001-06-28 | British Telecommunications Public Limited Company | Learning of dialogue states and language model of spoken information system |
JP4465564B2 (ja) * | 2000-02-28 | 2010-05-19 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに記録媒体 |
TW472232B (en) * | 2000-08-11 | 2002-01-11 | Ind Tech Res Inst | Probability-base fault-tolerance natural language understanding method |
US20020087315A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented multi-scanning language method and system |
US20020087316A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented grammar-based speech understanding method and system |
JP3782943B2 (ja) * | 2001-02-20 | 2006-06-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 |
AUPR585101A0 (en) * | 2001-06-21 | 2001-07-12 | Syrinx Speech Systems Pty Limited | Stochastic chunk parser |
-
2003
- 2003-02-20 EP EP03003876A patent/EP1450350A1/en not_active Ceased
-
2004
- 2004-02-18 US US10/781,521 patent/US20040167778A1/en not_active Abandoned
- 2004-02-20 JP JP2004045242A patent/JP2004272243A/ja not_active Abandoned
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6093542A (ja) * | 1983-10-27 | 1985-05-25 | Tokyo Electric Co Ltd | キ−ボ−ド装置 |
JP2012027065A (ja) * | 2010-07-20 | 2012-02-09 | Nippon Telegr & Teleph Corp <Ntt> | 2チャネル音声の音声認識方法とその装置とプログラム |
JP2017049612A (ja) * | 2013-01-29 | 2017-03-09 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 自動音声認識のための方法およびシステム |
JP2015169951A (ja) * | 2014-03-04 | 2015-09-28 | 株式会社デンソーアイティーラボラトリ | 情報処理装置、情報処理方法、およびプログラム |
JP2017527846A (ja) * | 2015-04-16 | 2017-09-21 | 三菱電機株式会社 | 音声認識装置およびリスコアリング装置 |
JP2017167378A (ja) * | 2016-03-17 | 2017-09-21 | 株式会社東芝 | 単語スコア計算装置、単語スコア計算方法及びプログラム |
US11636667B2 (en) | 2016-11-16 | 2023-04-25 | Kabushiki Kaisha Toshiba | Pattern recognition apparatus, pattern recognition method, and computer program product |
Also Published As
Publication number | Publication date |
---|---|
US20040167778A1 (en) | 2004-08-26 |
EP1450350A1 (en) | 2004-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004272243A (ja) | 音声認識方法 | |
US20240161732A1 (en) | Multi-dialect and multilingual speech recognition | |
US10176802B1 (en) | Lattice encoding using recurrent neural networks | |
CN108292305B (zh) | 用于处理语句的方法 | |
Jelinek | Statistical methods for speech recognition | |
CN110782870A (zh) | 语音合成方法、装置、电子设备及存储介质 | |
CN111916058A (zh) | 一种基于增量词图重打分的语音识别方法及系统 | |
Masumura et al. | Large context end-to-end automatic speech recognition via extension of hierarchical recurrent encoder-decoder models | |
US11132994B1 (en) | Multi-domain dialog state tracking | |
WO2021109856A1 (zh) | 一种针对认知障碍的语音识别系统 | |
Saxon et al. | End-to-end spoken language understanding for generalized voice assistants | |
CN114091478A (zh) | 基于有监督对比学习与回复生成辅助的对话情感识别方法 | |
CN112131359A (zh) | 一种基于图形化编排智能策略的意图识别方法及电子设备 | |
Yamamoto et al. | Multi-class composite N-gram language model | |
Deena et al. | Semi-supervised adaptation of RNNLMs by fine-tuning with domain-specific auxiliary features | |
KR102305672B1 (ko) | 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 방법 및 장치 | |
US7010486B2 (en) | Speech recognition system, training arrangement and method of calculating iteration values for free parameters of a maximum-entropy speech model | |
Dang et al. | End-to-end speech-to-dialog-act recognition | |
KR100277690B1 (ko) | 화행 정보를 이용한 음성 인식 방법 | |
JPH09134192A (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
Neukirchen et al. | A continuous density interpretation of discrete HMM systems and MMI-neural networks | |
KR102203991B1 (ko) | 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 방법 및 장치 | |
Cui et al. | MSAM: A multi-layer bi-LSTM based speech to vector model with residual attention mechanism | |
Tian et al. | End-to-end speech recognition with Alignment RNN-Transducer | |
Waterhouse et al. | Smoothed local adaptation of connectionist systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070130 |
|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20071102 |