JP2004272243A

JP2004272243A - 音声認識方法

Info

Publication number: JP2004272243A
Application number: JP2004045242A
Authority: JP
Inventors: Zica Valsan; ツィカヴァルサン、; Martin Emele; マーティンエメレ、
Original assignee: Sony International Europe GmbH
Current assignee: Sony Deutschland GmbH
Priority date: 2003-02-20
Filing date: 2004-02-20
Publication date: 2004-09-30
Also published as: US20040167778A1; EP1450350A1

Abstract

【課題】先行技術に対して比較認識率が高い音声認識方法を提供する。
【解決手段】それぞれの単語の構文的及び／又は意味的な情報等について記述的であるような単語の属性情報に基づく言語モデルが適用される音声認識方法は、音声入力（ＳＩ）を受信するステップ（Ｓ０）と、１群の整列仮説（ＯＨ）を生成するステップ（Ｓ１）と、少なくとも１つの仮説単語の少なくとも１つについて属性情報（ＡＩ）を生成するステップ（Ｓ２）と、少なくとも１つの仮説単語の少なくとも１つについて単語確率を算出するために属性情報（ＡＩ）に基づく言語モデル（ＬＭ）を使用するステップ（Ｓ３）と、１群の再整列仮説（ＲＯＨ）を生成するための単語確率を使用するステップ（Ｓ４）と、認識結果（ＲＲ）として再整列仮説（ＲＯＨ）の群から少なくとも１つの最良仮説（ＢＨ）を選ぶステップ（Ｓ５）と、認識結果を出力するステップ（Ｓ６）とを含む。
【選択図】図１

Description

本発明は、音声認識方法に関するものであり、特に認識率の改善を図った音声認識方法に関する。

自動音声認識（ＡＳＲ）において、認識率を改善するために一般には、標準的な言語モデルが使用されている。従来技術によるシステムのほとんどでは、テクストの大きな集合体（トレーニングデータ）における出現頻度を数えることにより、発話された単語列においてその事前確率を推測することができることを前提とする統計的ｎ−グラム（ｎ−ｇｒａｍ）標準言語モデルが使用されている。このために、ある単語の出現は以前におけるｎ−１個の単語にのみ依存するとが前提とされる。

言語をモデル化することが困難になる根本的な課題は、次元数(dimentionality)である。すなわち、特定の語彙サイズＶから、ｎ個の連続する単語の結合分布をモデル化するために必要な、自由なパラメータの数である。通常、大型語彙連続音声認識（large vocabulary continuous speech recognition、以下、ＬＶＣＳＲという）では、語彙サイズは６４ｋであり、ｎは、複合中の計算上の複雑性を考慮した上で、２又は３までと制限されている。すなわち、（６４ｋ）^２個分のバイグラム(bigram)及び（６４ｋ）^３個のトライグラム(trigram)の多くは、トレーニング中には、決して見られない。現在の中心的な課題は、トレーニングコーパス中で既に見られた単語列を、新しい単語列へどのように一般化することができるかである。可能な解決法の１つとしては、バックオフトライグラム（back-off trigrams）や他の平滑化技術を使用して行われるような、より小さな文脈サイズを使用して予測された確率を見ることである。しかしながら、この方法には、考慮される文脈のサイズのため、幾つかの短所がある。

"Readings in Speech Recogniton" - "Chapter 8 Language Processing for Speech Recognition, Alexander Waibel, 8.1 Self-Organized Language Modeling for Speech Recognition", F. Jelinek, Kai-Fu Lee, Morgan Kaufmann Publishers (1990), pp-450-506.

本発明の目的は、改善された認識率をもたらす音声認識方法を提供することである。

この目的を達成するために、本発明は、請求項の範囲に記載されるような音声認識方法を提供する。さらに、本発明は、音声処理システム、コンピュータプログラム製品及びコンピュータで読み取り可能な記憶媒体を提供する。更なる特徴及び好ましい実施形態は、それぞれの従属請求の範囲及び／又は以下の説明でそれぞれ定義される。

本発明に係る音声認識方法は、音声入力を受信するステップと、各仮説が少なくとも１つの仮説単語を含んでいる１群の整列仮説を生成するステップと、各仮説単語の構文的及び／又は意味的な情報などを記述するように生成され、少なくとも１つの仮説単語のうち、少なくとも１つの仮説単語のための属性情報を生成するステップと、複数の事前仮説単語のうちの各仮説単語の事後確率を記述するように生成され、少なくとも１つの仮説単語のうち、少なくとも１つの仮説単語の単語確率を算出するための、属性情報に基づく言語モデルを使用するステップと、１群の再整列仮説を生成するための単語確率を使用するステップと、認識結果として、再整列仮説の群から少なくとも１つの最良仮説を選択するステップと、認識結果を出力するステップとを含むことを特徴とする。

以下において、言語モデル（language model）という用語は、属性情報に基づいた言語モデルを表現するために使用される。したがって、これは、属性言語モデルとも呼ぶことができる。以下においては、属性情報に基づいていない言語モデルを意味する場合は、標準言語モデルという表現を使用する。

属性情報に基づく言語モデルを使用する利点は、単語確率を算出するために、標準言語モデルでは現在使用されていない情報が使用されるということであるが。「類似する単語」が類似の属性ベクトルを持ち、さらに単語列の属性ベクトルとして表現される、単語列の同時確率の関数は、滑らかであることから、この言語モデルを一般化することができる。これは、所定の属性への小さな変化は、出力される確率に小さな変化をもたらすことを意味する。総合的にいえば、未知の単語においては、結果的に生じる確率関数が、単語表現の滑らかな関数となるので、一般化は高いといえる。

属性言語モデルでは、単語との関係は、単語を表現する属性の特徴を使用して把握される。単語列の連結された確率関数は、単語列内のそれぞれの単語の属性特徴ベクトルによって表現される。この属性特徴ベクトルは、その単語の属性情報から導かれる。これらの単語／単語列における言語モデルの確率は、属性特徴ベクトルによって決定される、新しい空間又は新しい空間の縮小された変型に算出されるので、極めて類似している。この新しい空間では、類似性の高いベクトルは、類似する単語を表現する。この場合、確率分布は滑らかな関数であり、したがって、言語モデルは極めてよく一般化されることになる。極端な場合、各単語は、属性ベクトルそのものとなる。

本発明の好適な実施形態によれば、このような属性情報も、仮説単語の組み合わせのために生成することができるが、属性情報は、仮説単語の組み合わせの構文的及び／又は意味的な情報などを表す。このように、属性情報は、単語郡に割り当てることができる。これは、例えば、頻繁に類似した対話が生じる対話システムにおいて重要である。

好ましくは、単語確率は、トレーニング可能な確率推定器、特に、人工神経ネットワークを使用して、算出される。トレーニング可能な確率推定器を使用する利点は、平滑化又はバックオフ技術を使用する必要がなくなることである。

人工神経ネットワークは、時間遅延神経ネットワーク、リカレントニューラルネットワーク(Recurrent Neural Network)、又は多層パーセプトロンネットワークであってもよい。反復及び時間遅延神経ネットワークの使用によって、従来のｎ−グラム言語モデルより大きい文脈をモデル化することができる。これは、反復が、多くの事前入力のネットワークへの影響をもたらすからである。

好ましくは、トレーニング可能な確率推定器のための入力として使用される、符号化された属性情報を含む特徴ベクトルが生成される。

本発明の好適な実施形態による次元縮小方法は、特徴ベクトルに適用され、これは、トレーニング可能な確率推定器のトレーニングの加速化及び活用中の加速化にも結びつく。

このような次元縮小のための方法は、主成分解析、潜在している意味的指数及び／又はランダムマッピング予測に基づいてもよい。

本発明の好適な実施形態によれば、標準言語モデルが言語モデルにさらに使用されることも可能である。このように、属性情報は、標準言語モデルにさらに追加使用される。

本発明に係る音声処理システムは、上に定義されるような音声認識方法及び／又はそのステップを実行又は実現することができる。

本発明の好適な実施形態によるコンピュータプログラム製品は、コンピュータ、ディジタル信号処理手段などで実行される場合に、音声認識方法及び／又はそのステップを実行及び／又は実現するようになされたコンピュータプログラム手段を含む。

本発明の好適な実施形態によるコンピュータで読出し可能な記憶媒体は、上記定義されるようなコンピュータプログラム製品を含む。

本発明によれば、統計モデルと比較した単語間の属性に基づいた類似性に基づいた、より優れた一般化が可能になり、より改善された認識率をもたらす音声認識方法を提供することが可能となる。

また、本発明に係るシステムは、個々の単語としてではなく、単語の連続的な空間（マッピング）上で作動するのことで、認識率を改善させることができる。

本発明及びその効果の詳細は、添付図面を参照して、以下の実施形態における実施例によって説明される。

図１において、入力ステップＳ０では、音声入力ＳＩが受信される。その後、仮説を生成するステップＳ１では、１群の整列仮説ＯＨが生成される。仮説はそれぞれ少なくとも１つの仮説単語を含んでいる。以下において、「単語」とは、他に述べていない以上、常に仮説単語を示す。

例えば、整列仮説ＯＨの１群は次の２つの仮説を含んでいるとする。

１．「マリアは自動車を飲む。」
２．「マリアはコーラを飲む。」
これに次ぐ属性情報生成ステップＳ２では、属性情報が生成される。したがって、語彙中の各単語は、その多くの特徴について記述され、最も代表的な特徴／属性を用いて符号化される。最も代表的とは、例えば単語の意味的な概念について最もよく表す特徴のことをいう。

例えば、「コーラ」については、属性情報は、飲料の概念をとらえる。次の属性がコーラに関連している。

集合状態＝（液体、固体、気体のうち）液体、
用途＝（食べる、臭いを嗅ぐ、見る、聞く、飲むのうち）飲酒、
色＝（白、黒、赤、黄、青、緑、白のうち）黒、
．．．
統語範疇＝（名詞、動詞、代名詞．．．のうち）名詞
この属性情報ＡＩに基づいて、言語モデルが決定される。この言語モデルは、その後、単語確率を算出するために使用される。単語確率は、各仮説の各仮説単語について算出されるのであってもよいし、又は単に幾つかの仮説の幾つかの仮説単語について決定されるだけでもよい。単語確率は、次のように定義される。

Ｐ（ｗ_ｉ＝ｋ|ａ_{ｉ−ｎ＋１}，．．．，ａ_ｉ−２，ａ_ｉ−１，∀ｋ∈［１,Ｎ］）（１）
方程式（１）で、Ｎは、語彙のサイズであり、ｗ_ｉは仮説内の仮説単語である。ａ_{ｉ−ｎ＋１}，．．．，ａ_ｉ−２，ａ_ｉ−１は、それぞれの仮説の中でｎ−１前の仮説単語の属性情報ＡＩを表す。すなわち、ある属性情報ａ_ｉは次のように与えられる。

ａ_ｉ＝｛集合状態，用途，色，．．．，統語範疇｝（２）
この実施例では、属性、すなわち「集合状態」、「用途」、「色」及び「統語範疇」、次のそれぞれの群からの値を仮定することができる。

集合状態∈｛液体、固体、気体｝
用途∈｛食べる、臭いを嗅ぐ、見る、聞く、飲む｝
色∈｛白、黒、赤、黄、青、緑、白｝
．．．
統語範疇∈｛名詞、動詞、代名詞、．．．｝（３）
なお、言語モデルが原因でない場合、本発明が同様に適用可能であることは、この時点で留意すべきである。これは、単語確率が決定される場合、仮説単語に続く属性が考慮されることを意味する。この場合、方程式１は、したがって、後続の単語からの属性情報を組み込むように、修正される、すなわち、右の文脈が使用される。

図１では、単語確率は、方程式（１）に基づいて、確率計算ステップＳ３で算出される。その後、再整列ステップＳ４で、単語確率は、整列仮説ＯＨの群の再整列をするために使用される。これは、１群の再整列仮説ＲＯＨをもたらす。上記の例示では、算出された単語確率の使用によって、第２の仮説、すなわち「マリアはコーラを飲む」は、最初の仮説、すなわち「マリアは自動車を飲む。」よりも頻度が高いということが分かる。上記に示されるように、再整列ステップＳ４の出力は、１群の再整列仮説ＲＯＨである。この例においては、再整列仮説の群は次のとおりである。

１．「マリアはコーラを飲む。」
２．「マリアは自動車を飲む。」
選択ステップＳ５では、最良仮説ＢＨは、認識結果ＲＲとして選択される。ここで、これは「マリアはコーラを飲む」である。その後、出力ステップＳ６では、認識結果が出力される。

次に、図２によって、単語確率の算出について説明する。

図２では、入力ステップＳ０、及び仮説生成ステップＳ１が既に行われたと仮定されている。さらに、上記と同じ例が、図説のために使用される。

図２の属性情報生成ステップＳ２では、上に説明されるように、属性情報ＡＩが決定され、例えば、コーラについては、次のとおりである。

集合状態＝（液体、固体、気体のうち）液体、
用途＝（食べる、臭いを嗅ぐ、見る、聞く、飲むのうち）飲酒、
色＝（白、黒、赤、黄、青、緑、白のうち）黒、
．．．
統語範疇＝（名詞、動詞、代名詞．．．のうち）名詞
その後、符号化ステップＳ２−１では、各単語について、それぞれの属性特徴ベクトルＡＦＶが決定される（さらに、以下に説明する図３を参照）ようにして、属性情報ＡＩが符号化される。属性特徴ベクトルＡＦＶの決定は、一例を用いて説明する。単語「コーラ」については、対応する属性特徴ベクトルＡＦＶは、次のようである。

コーラ＝（ｆｅａｔｕｒｅ_１，ｆｅａｔｕｒｅ_２，
ｆｅａｔｕｒｅ_３，．．．，ｆｅａｔｕｒｅ_Ｃ）（４）
ここで、Ｃは語彙で見つかった属性の合計数である。あるｆｅａｔｕｒｅ_ｉ，ｉ∈｛１，．．．，Ｃ｝は、１アウトオブｋ（1-out-of-k）コードを備えたそれぞれの属性の符号化により決定される。ここで、ｋは属性に与えることが可能な値の数である。例えば、属性「集合状態」は、３つの可能な値（すなわち「液体」、「固体」、「気体」）を持っているので、ｋ＝３である。コーラが、属性「集合状態」に値「液体」を持つので、以下のとおりである。

ｆｅａｔｕｒｅ_１（集合状態）＝［１００］
属性「用途」の値は、「飲む」であるので、したがって、以下のとおりである。

ｆｅａｔｕｒｅ_２（用途）＝［００００１］
ｆｅａｔｕｒｅ_３，．．．，ｆｅａｔｕｒｅ_Ｃは、したがって、以下のとおり決定される。

ｆｅａｔｕｒｅ_３（色）＝［０１０００００］
．．．
ｆｅａｔｕｒｅ_ｃ（統語範疇）＝［１０００．．．０］
したがって、単語「コーラ」の属性特徴ベクトルＡＦＶは、
ＡＦＶ（コーラ）＝
［１００，００００１，０１０００００，．．．，１００００．．．０］
である。

このように符号化された全ての属性特徴ベクトルＡＦＶは、属性の数及びそれぞれの属性の可能な値の数に依存する長さＬと同じである。

属性特徴ベクトルＡＦＶは、仮説の連続する仮説単語の単語ウィンドウの幾つかの仮説単語について、すなわち左及び右の文脈について、決定され、特徴ベクトルＦＶを導く。ここで、図３の例では、ｎ−１個の単語の左の文脈だけが使用される。したがって、特徴ベクトルＦＶは、ｎ−１語前の単語、すなわちＡＦＶ_{ｉ−ｎ＋１}，．．．，ＡＦＶ_ｉ−２，ＡＦＶ_ｉ−１の属性特徴ベクトルＡＦＶからなる。

次いで、この特徴ベクトルＦＶは、確率計算ステップＳ３において、トレーニング可能な確率推定器ＴＰＥのための入力として使用される。トレーニング可能な確率推定器ＴＰＥは、属性情報ＡＩに基づいた言語モデルを表す。図２では、確率計算ステップＳ３の後、図１により既に説明されたのと同じステップすなわち、再整列ステップＳ４、選択ステップＳ５及び出力ステップＳ６が続く。

本発明の好適な実施形態によれば、トレーニング可能な確率推定器ＴＰＥは人工神経ネットワークである。語彙のサイズがＮである場合は、人工神経ネットワークＡＮＮは、Ｎ個の出力ニューロンを持っている。各出力ニューロンは、ある特徴ベクトルＦＶを与えられて、ｎ番目の単語の事後確率を出力するようにトレーニングされる。

属性特徴ベクトルＡＦＶのサイズが比較的小さい場合、すなわち属性特徴ベクトルＡＦＶが、５０乃至１００の合理的な次元を有する場合、特徴ベクトルＦＶは、人工神経ネットワークＡＮＮのための入力として直接使用してもよい。これは、属性の数、及び属性のそれぞれの値の数が、比較的少ない場合である。しかしながら、属性特徴ベクトルＡＦＶの次元が非常に多い場合、これは高い次元の特徴ベクトルＦＶに結びつくので、例えば主成分解析、潜在的意味指数、及び／又はランダムマッピング予測ＲＭＰのような次元縮小のための方法が適用される。

図３において、ランダムマッピング予測ＲＭＰが、次元縮小に使用され、また、その結果生じたマップ入力ベクトルＭＩＶが、３層の多層パーセプトロンネットワーク３ＭＬＰのための入力として使用される。

図３で分かるように、トレーニング可能な確率推定器ＴＰＥのための入力は、上記に説明されたように生成される特徴ベクトルＦＶである。したがって、特徴ベクトルＦＶはｎ−１個の属性特徴ベクトルＡＦＶ_{ｉ−ｎ＋１}，．．．，ＡＦＶ_ｉ−２，ＡＦＶ_ｉ−１からなる。ランダムマッピング予測ＲＭＰは、各属性特徴ベクトルＡＦＶに適用される。その結果、縮小マッピング化特徴ベクトル（small sized mapped feature vector）ＳＳＭＦＶ_{ｉ−ｎ＋１}，．．．，ＳＳＭＦＶ_ｉ−２，ＳＳＭＦＶ_ｉ−１が得られる。なお、次元縮小の方法は、特徴ベクトルＦＶにも直接に適用され得る。

図３で、Ｓは、マッピングされた小型の特徴ベクトルＳＳＭＦＶ_{ｉ−ｎ＋１}，．．．，ＳＳＭＦＶ_ｉ−２，ＳＳＭＦＶ_ｉ−１のサイズを示す。さて、ｎ−１個の小型のマッピングされた特徴ベクトルは、３層の多層のパーセプトロンネットワーク入力層３ＭＬＰＩＬにおいて、３層の多層のパーセプトロンネットワーク３ＭＬＰのための入力として使用される。３層の多層のパーセプトロンネットワーク３ＭＬＰは、さらに、隠れた層ＨＬ及び出力層ＯＬからなる。隠れた層は、Ｈニューロンからなる。既に述べたように、出力層ＯＬは、Ｎ個の出力ニューロンを含んでいるが、これは、サイズＮを備えた語彙の個々のそれぞれの単語について、単語確率ＷＰ−１，．．．，のＷＰ−Ｎを出力するようにトレーニングされる。

図３の例では、人工神経ネットワークＡＮＮは、例えば、バックプロパゲーション（back propagation）アルゴリズムによってトレーニングされる標準の完全接続多層パーセプトロンネットワークである。しかしながら、異なるトポロジーを備えた神経ネットワーク、例えばバックプロパゲーション真時（ＢＰＴＴ）によってトレーニングされたリカレントニューラルネットワークを使用してもよい。これによって、隠れた層の数は、文脈の数と等しくなる。

なお、図３でのように、ランダムマッピング予測ＲＭＰの使用が、速度と効率に関する明瞭な長所を持つことに注目すべきである。ランダムマッピング予測ＲＭＰは、単語及び対応する特徴ベクトルによって指数される単純な参照テーブルとして実現することができる。ランダムマッピング予測ＲＭＰの適用が、神経ネットワークのための入力の数を相当に減少させるので、速度は相当に増加する。ランダムマッピング予測ＲＭＰを適用しないと、神経ネットワークのための入力の数は、（ｎ−１）×Ｌになる。ランダムマッピング予測ＲＭＰを適用することによって、神経ネットワークのための入力の数は、（ｎ−１）×Ｓとなる。これによって、Ｓは、はるかにＬより小さくなるように選ばれる、すなわちＳ＜＜Ｌである。３層の多層のパーセプトロンネットワークのための入力次元が、ランダムマッピング予測ＲＭＰの適用により、はるかに小さくなるので、ネットワークのトレーニングは、はるかに速い、すなわち、ランダムマッピング予測ＲＭＰを適用する場合、計算上の複雑性を低くすることになる。

本発明は、言語モデルの一般化能力を高めるために、その概念上及び文法上の意味によって単語の類似性をとらえるための解決法を提案する。さらに、本発明は、属性に基づいて事前知識として導かれた単語間の類似点を考慮した言語モデルを生成する新しい方法を提案する。１単位が単語又は単語列でありうる場合、これらの属性は、１単位を代表するような方法として定義される。結果としてあらわれたモデルは、統計的手法ではなく、人工知能（多層のパーセプトロン（multilayer-perceptron）又は時間遅延神経ネットワーク（Time Delay Neural Networks、以下、ＴＤＮＮという））に基づく。

語彙の全ての単語について派生した属性を使用することにより、単語間の類似点は、適切な距離関数を使用する全ての神経ネットワーク分類器によって容易に算出することができる。これは、いままで現れたことのない単語列は、既に現れた文を形成する単語に類似する単語で構成されている場合は、高い確率を得ることで、一般化が得られる。

さらに、ＴＤＮＮかリカレントニューラルネットワーク（ＲＮＮ）の使用によって、文脈のサイズは、自由なパラメータの数を余り増加させることなく、２単語からさらに多くの単語に増加されることが可能である。これは、ネットワーク入力ウィンドウが、単語の別のグループへ移される場合、連続する単語（句であってもよい）のグループのために行われた計算をやり直す必要がないからである。

神経ネットワークの種類は、マッピングされた入力の大きさ及び２以上の単語のための同様の属性を定義する能力に依存する。多重層パーセプトロンの使用の場合には、ネットワークのトポロジー次のようになる。「入力」層は、語彙ｗ_{ｉ−ｎ＋１}，．．．，ｗ_ｉ−２，ｗ_ｉ−１の中で、ｎ−１語前の単語のインデックスを表し、かつ、出力ニューロン（Ｎ）は、語彙中の全ての単語のための事後確率が算出される。

Ｐ（ｗ_ｉ＝ｋ|ｗ_{ｉ−ｎ＋１}，．．．，ｗ_ｉ−２，ｗ_ｉ−１，∀ｋ∈［１,Ｎ］）
この入力層は、実際に、（単語及び対応する特徴ベクトルによって指数化された）参照テーブルである。トレーニングアルゴリズム中に考慮に入れられる実際の入力層は、（ｎ−１）*Ｓと等しい数のニューロンを持っているマッピング層からなる。隠れた層は、Ｈニューロンからなる。

ＲＮＮ使用の場合には、トポロジー（topology）は、ｎ−１語前の単語指数、それぞれがＳニューロンを備えた（ｎ−１）の隠れ層、及びＮニューロンを備えた出力層を代表する同一「入力」レベルとなる。上記双方の場合、単位の出力は、誤差関数として事後確率及びクロスエントロピーを得るためにソフトマックス（softmax）正規化を使用して算出される。ネットワークは、各単語（又は単語列）の属性ベクトルを学習し、ｎ−グラム確率を推測する。

ＬＶＣＳＲでは、最も尤度の高い単語列を出力するのに必要なステップを次のようにまとめることができる。

１．仮説の代替単語列を出力する音響モデル;
２．これらの仮説中の各単語の符号化（対応する特徴の列への単語のマッピング）;
３．単語のインデックスと特徴ベクトル間の対応のための参照テーブル作成;
４．これら特徴の列をＮＮに与える;
５．事後確率として神経ネットワークの出力スコアを使用する;
６．ステップ５による制約に続き、ステップ１で導いた単語列ための確率を算出する。

本発明によれば、語彙中の新語が対応する属性に関係されている限り、任意の新しい領域への迅速な適応が可能となる。新語が、内在する属性によって、既存のものとは完全に異ならない限り、再トレーニングステップは不要となる。

単語区分のマッピングのように、それが６４Ｋの規模であっても、語彙のサイズは縮小されないが、単語を定義するマッピング単語概念の使用によって改善される。属性は、その単語に関して、なるべく多くの情報をつかむために、統一されている。このように、単語に関する情報は、１つの区分だけに切り詰められておらず、より意味的より統計的情報をもたらす、より多くの区分に拡張される。ネットワークは、単語内特徴分布を学習するようになっている。

本発明の第１の好適な実施形態による主要ステップを示すブロック図である。本発明の第２の好適な実施形態によるステップを示すブロック図である。トレーニング可能な確率推定器の構造を示す図である。

符号の説明

ＢＨ最良仮説、ＳＩ音声入力、Ｓ０入力ステップ、Ｓ１仮説生成ステップ、Ｓ２属性情報生成ステップ、Ｓ２−１符号ステップ、Ｓ３確率計算ステップ、Ｓ４再整列ステップ、Ｓ５選択ステップ、Ｓ６出力ステップ、ＡＦＶ属性特徴ベクトル、ＳＳＭＦＶ縮小マッピング化特徴ベクトル、ＴＤＮＮ時間遅延神経ネットワーク、ＲＮＮリカレントニューラルネットワーク、ＴＰＥトレーニング可能な確率推定器

Claims

音声入力を受信するステップと、
各仮説が少なくとも１つの仮説単語を含んでいる１群の整列仮説を生成するステップと、
各仮説単語の構文的及び／又は意味的な情報などを記述するように生成され、前記少なくとも１つの仮説単語のうち、少なくとも１つの仮説単語のための属性情報を生成するステップと、
複数の事前仮説単語のうちの各仮説単語の事後確率を記述するように生成され、前記少なくとも１つの仮説単語のうち、少なくとも１つの仮説単語の単語確率を算出するための、前記属性情報に基づく言語モデルを使用するステップと、
１群の再整列仮説を生成するための前記単語確率を使用するステップと、
認識結果として、前記再整列仮説の前記群から少なくとも１つの最良仮説を選択するステップと、
前記認識結果を出力するステップとを含む音声認識方法。
前記仮説単語の組み合わせの構文的及び／又は意味的な情報などを記述的する属性情報を生成するステップをさらに含む請求項１に記載の音声認識方法。
前記単語確率は、トレーニング可能な確率推定器を使用して決定されることを特徴とする請求項１又は２に記載の音声認識方法。
前記トレーニング可能な確率推定器は、人口神経ネットワークであることを特徴とする請求項３に記載の音声認識方法。
前記人工神経ネットワークは、時間遅延神経ネットワーク、リカレントニューラルネットワーク及び多層のパーセプトロンネットワークのいずれか１つであることを特徴とする請求項４に記載の音声認識方法。
前記トレーニング可能な確率推定器への入力として、符号化された属性情報を含む特徴ベクトルを生成するステップをさらに含む請求項３乃至５のいずれか１項に記載の音声認識方法。
前記特徴ベクトルを次元縮小するステップをさらに含む請求項６に記載の音声認識方法。
前記次元縮小ステップは、主成分解析、潜在的意味指数及びランダムマッピング予測のいずれかに基づくことを特徴とする請求項７に記載の音声認識方法。
前記言語モデルにさらに標準言語モデルを加えるステップをさらに含む請求項１乃至８のいずれか１項に記載の音声認識方法。
請求項１乃至９のいずれか１項に記載の音声認識方法又はそのステップを実行又は実現する音声処理システム。
コンピュータ、ディジタル信号処理手段又はその種の装置で実行されるとき、請求項１乃至９のいずれか１項に記載の音声認識方法又はそのステップを実行又は実現するためのコンピュータプログラム製品。
請求項１１に記載のコンピュータプログラム製品を格納したコンピュータで読出し可能な記憶媒体。