JP2004272243A - 音声認識方法 - Google Patents

音声認識方法 Download PDF

Info

Publication number
JP2004272243A
JP2004272243A JP2004045242A JP2004045242A JP2004272243A JP 2004272243 A JP2004272243 A JP 2004272243A JP 2004045242 A JP2004045242 A JP 2004045242A JP 2004045242 A JP2004045242 A JP 2004045242A JP 2004272243 A JP2004272243 A JP 2004272243A
Authority
JP
Japan
Prior art keywords
word
hypothesis
attribute information
probability
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2004045242A
Other languages
English (en)
Inventor
Zica Valsan
ツィカ ヴァルサン、
Martin Emele
マーティン エメレ、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Deutschland GmbH
Original Assignee
Sony International Europe GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony International Europe GmbH filed Critical Sony International Europe GmbH
Publication of JP2004272243A publication Critical patent/JP2004272243A/ja
Abandoned legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

【課題】先行技術に対して比較認識率が高い音声認識方法を提供する。
【解決手段】それぞれの単語の構文的及び/又は意味的な情報等について記述的であるような単語の属性情報に基づく言語モデルが適用される音声認識方法は、音声入力(SI)を受信するステップ(S0)と、1群の整列仮説(OH)を生成するステップ(S1)と、少なくとも1つの仮説単語の少なくとも1つについて属性情報(AI)を生成するステップ(S2)と、少なくとも1つの仮説単語の少なくとも1つについて単語確率を算出するために属性情報(AI)に基づく言語モデル(LM)を使用するステップ(S3)と、1群の再整列仮説(ROH)を生成するための単語確率を使用するステップ(S4)と、認識結果(RR)として再整列仮説(ROH)の群から少なくとも1つの最良仮説(BH)を選ぶステップ(S5)と、認識結果を出力するステップ(S6)とを含む。
【選択図】図1

Description

本発明は、音声認識方法に関するものであり、特に認識率の改善を図った音声認識方法に関する。
自動音声認識(ASR)において、認識率を改善するために一般には、標準的な言語モデルが使用されている。従来技術によるシステムのほとんどでは、テクストの大きな集合体(トレーニングデータ)における出現頻度を数えることにより、発話された単語列においてその事前確率を推測することができることを前提とする統計的n−グラム(n−gram)標準言語モデルが使用されている。このために、ある単語の出現は以前におけるn−1個の単語にのみ依存するとが前提とされる。
言語をモデル化することが困難になる根本的な課題は、次元数(dimentionality)である。すなわち、特定の語彙サイズVから、n個の連続する単語の結合分布をモデル化するために必要な、自由なパラメータの数である。通常、大型語彙連続音声認識(large vocabulary continuous speech recognition、以下、LVCSRという)では、語彙サイズは64kであり、nは、複合中の計算上の複雑性を考慮した上で、2又は3までと制限されている。すなわち、(64k)個分のバイグラム(bigram)及び(64k)個のトライグラム(trigram)の多くは、トレーニング中には、決して見られない。現在の中心的な課題は、トレーニングコーパス中で既に見られた単語列を、新しい単語列へどのように一般化することができるかである。可能な解決法の1つとしては、バックオフトライグラム(back-off trigrams)や他の平滑化技術を使用して行われるような、より小さな文脈サイズを使用して予測された確率を見ることである。しかしながら、この方法には、考慮される文脈のサイズのため、幾つかの短所がある。
本発明の目的は、改善された認識率をもたらす音声認識方法を提供することである。
この目的を達成するために、本発明は、請求項の範囲に記載されるような音声認識方法を提供する。さらに、本発明は、音声処理システム、コンピュータプログラム製品及びコンピュータで読み取り可能な記憶媒体を提供する。更なる特徴及び好ましい実施形態は、それぞれの従属請求の範囲及び/又は以下の説明でそれぞれ定義される。
本発明に係る音声認識方法は、音声入力を受信するステップと、各仮説が少なくとも1つの仮説単語を含んでいる1群の整列仮説を生成するステップと、各仮説単語の構文的及び/又は意味的な情報などを記述するように生成され、少なくとも1つの仮説単語のうち、少なくとも1つの仮説単語のための属性情報を生成するステップと、複数の事前仮説単語のうちの各仮説単語の事後確率を記述するように生成され、少なくとも1つの仮説単語のうち、少なくとも1つの仮説単語の単語確率を算出するための、属性情報に基づく言語モデルを使用するステップと、1群の再整列仮説を生成するための単語確率を使用するステップと、認識結果として、再整列仮説の群から少なくとも1つの最良仮説を選択するステップと、認識結果を出力するステップとを含むことを特徴とする。
以下において、言語モデル(language model)という用語は、属性情報に基づいた言語モデルを表現するために使用される。したがって、これは、属性言語モデルとも呼ぶことができる。以下においては、属性情報に基づいていない言語モデルを意味する場合は、標準言語モデルという表現を使用する。
属性情報に基づく言語モデルを使用する利点は、単語確率を算出するために、標準言語モデルでは現在使用されていない情報が使用されるということであるが。「類似する単語」が類似の属性ベクトルを持ち、さらに単語列の属性ベクトルとして表現される、単語列の同時確率の関数は、滑らかであることから、この言語モデルを一般化することができる。これは、所定の属性への小さな変化は、出力される確率に小さな変化をもたらすことを意味する。総合的にいえば、未知の単語においては、結果的に生じる確率関数が、単語表現の滑らかな関数となるので、一般化は高いといえる。
属性言語モデルでは、単語との関係は、単語を表現する属性の特徴を使用して把握される。単語列の連結された確率関数は、単語列内のそれぞれの単語の属性特徴ベクトルによって表現される。この属性特徴ベクトルは、その単語の属性情報から導かれる。これらの単語/単語列における言語モデルの確率は、属性特徴ベクトルによって決定される、新しい空間又は新しい空間の縮小された変型に算出されるので、極めて類似している。この新しい空間では、類似性の高いベクトルは、類似する単語を表現する。この場合、確率分布は滑らかな関数であり、したがって、言語モデルは極めてよく一般化されることになる。極端な場合、各単語は、属性ベクトルそのものとなる。
本発明の好適な実施形態によれば、このような属性情報も、仮説単語の組み合わせのために生成することができるが、属性情報は、仮説単語の組み合わせの構文的及び/又は意味的な情報などを表す。このように、属性情報は、単語郡に割り当てることができる。これは、例えば、頻繁に類似した対話が生じる対話システムにおいて重要である。
好ましくは、単語確率は、トレーニング可能な確率推定器、特に、人工神経ネットワークを使用して、算出される。トレーニング可能な確率推定器を使用する利点は、平滑化又はバックオフ技術を使用する必要がなくなることである。
人工神経ネットワークは、時間遅延神経ネットワーク、リカレントニューラルネットワーク(Recurrent Neural Network)、又は多層パーセプトロンネットワークであってもよい。反復及び時間遅延神経ネットワークの使用によって、従来のn−グラム言語モデルより大きい文脈をモデル化することができる。これは、反復が、多くの事前入力のネットワークへの影響をもたらすからである。
好ましくは、トレーニング可能な確率推定器のための入力として使用される、符号化された属性情報を含む特徴ベクトルが生成される。
本発明の好適な実施形態による次元縮小方法は、特徴ベクトルに適用され、これは、トレーニング可能な確率推定器のトレーニングの加速化及び活用中の加速化にも結びつく。
このような次元縮小のための方法は、主成分解析、潜在している意味的指数及び/又はランダムマッピング予測に基づいてもよい。
本発明の好適な実施形態によれば、標準言語モデルが言語モデルにさらに使用されることも可能である。このように、属性情報は、標準言語モデルにさらに追加使用される。
本発明に係る音声処理システムは、上に定義されるような音声認識方法及び/又はそのステップを実行又は実現することができる。
本発明の好適な実施形態によるコンピュータプログラム製品は、コンピュータ、ディジタル信号処理手段などで実行される場合に、音声認識方法及び/又はそのステップを実行及び/又は実現するようになされたコンピュータプログラム手段を含む。
本発明の好適な実施形態によるコンピュータで読出し可能な記憶媒体は、上記定義されるようなコンピュータプログラム製品を含む。
本発明によれば、統計モデルと比較した単語間の属性に基づいた類似性に基づいた、より優れた一般化が可能になり、より改善された認識率をもたらす音声認識方法を提供することが可能となる。
また、本発明に係るシステムは、個々の単語としてではなく、単語の連続的な空間(マッピング)上で作動するのことで、認識率を改善させることができる。
本発明及びその効果の詳細は、添付図面を参照して、以下の実施形態における実施例によって説明される。
図1において、入力ステップS0では、音声入力SIが受信される。その後、仮説を生成するステップS1では、1群の整列仮説OHが生成される。仮説はそれぞれ少なくとも1つの仮説単語を含んでいる。以下において、「単語」とは、他に述べていない以上、常に仮説単語を示す。
例えば、整列仮説OHの1群は次の2つの仮説を含んでいるとする。
1.「マリアは自動車を飲む。」
2.「マリアはコーラを飲む。」
これに次ぐ属性情報生成ステップS2では、属性情報が生成される。したがって、語彙中の各単語は、その多くの特徴について記述され、最も代表的な特徴/属性を用いて符号化される。最も代表的とは、例えば単語の意味的な概念について最もよく表す特徴のことをいう。
例えば、「コーラ」については、属性情報は、飲料の概念をとらえる。次の属性がコーラに関連している。
集合状態 = (液体、固体、気体のうち)液体、
用途 = (食べる、臭いを嗅ぐ、見る、聞く、飲むのうち)飲酒、
色 = (白、黒、赤、黄、青、緑、白のうち)黒、
...
統語範疇 = (名詞、動詞、代名詞...のうち)名詞
この属性情報AIに基づいて、言語モデルが決定される。この言語モデルは、その後、単語確率を算出するために使用される。単語確率は、各仮説の各仮説単語について算出されるのであってもよいし、又は単に幾つかの仮説の幾つかの仮説単語について決定されるだけでもよい。単語確率は、次のように定義される。
P(w=k|ai−n+1,...,ai−2,ai−1,∀k∈[1,N]) (1)
方程式(1)で、Nは、語彙のサイズであり、wは仮説内の仮説単語である。ai−n+1,...,ai−2,ai−1は、それぞれの仮説の中でn−1前の仮説単語の属性情報AIを表す。すなわち、ある属性情報aは次のように与えられる。
={集合状態,用途,色,...,統語範疇} (2)
この実施例では、属性、すなわち「集合状態」、「用途」、「色」及び「統語範疇」、次のそれぞれの群からの値を仮定することができる。
集合状態∈{液体、固体、気体}
用途∈{食べる、臭いを嗅ぐ、見る、聞く、飲む}
色∈{白、黒、赤、黄、青、緑、白}
...
統語範疇∈{名詞、動詞、代名詞、... } (3)
なお、言語モデルが原因でない場合、本発明が同様に適用可能であることは、この時点で留意すべきである。これは、単語確率が決定される場合、仮説単語に続く属性が考慮されることを意味する。この場合、方程式1は、したがって、後続の単語からの属性情報を組み込むように、修正される、すなわち、右の文脈が使用される。
図1では、単語確率は、方程式(1)に基づいて、確率計算ステップS3で算出される。その後、再整列ステップS4で、単語確率は、整列仮説OHの群の再整列をするために使用される。これは、1群の再整列仮説ROHをもたらす。上記の例示では、算出された単語確率の使用によって、第2の仮説、すなわち「マリアはコーラを飲む」は、最初の仮説、すなわち「マリアは自動車を飲む。」よりも頻度が高いということが分かる。上記に示されるように、再整列ステップS4の出力は、1群の再整列仮説ROHである。この例においては、再整列仮説の群は次のとおりである。
1.「マリアはコーラを飲む。」
2.「マリアは自動車を飲む。」
選択ステップS5では、最良仮説BHは、認識結果RRとして選択される。ここで、これは「マリアはコーラを飲む」である。その後、出力ステップS6では、認識結果が出力される。
次に、図2によって、単語確率の算出について説明する。
図2では、入力ステップS0、及び仮説生成ステップS1が既に行われたと仮定されている。さらに、上記と同じ例が、図説のために使用される。
図2の属性情報生成ステップS2では、上に説明されるように、属性情報AIが決定され、例えば、コーラについては、次のとおりである。
集合状態 = (液体、固体、気体のうち)液体、
用途 = (食べる、臭いを嗅ぐ、見る、聞く、飲むのうち)飲酒、
色 = (白、黒、赤、黄、青、緑、白のうち)黒、
...
統語範疇 = (名詞、動詞、代名詞...のうち)名詞
その後、符号化ステップS2−1では、各単語について、それぞれの属性特徴ベクトルAFVが決定される(さらに、以下に説明する図3を参照)ようにして、属性情報AIが符号化される。属性特徴ベクトルAFVの決定は、一例を用いて説明する。単語「コーラ」については、対応する属性特徴ベクトルAFVは、次のようである。
コーラ = (feature,feature
feature,...,feature) (4)
ここで、Cは語彙で見つかった属性の合計数である。あるfeature,i∈{1,...,C}は、1アウトオブk(1-out-of-k)コードを備えたそれぞれの属性の符号化により決定される。ここで、kは属性に与えることが可能な値の数である。例えば、属性「集合状態」は、3つの可能な値(すなわち「液体」、「固体」、「気体」)を持っているので、k=3である。コーラが、属性「集合状態」に値「液体」を持つので、以下のとおりである。
feature(集合状態)=[100]
属性「用途」の値は、「飲む」であるので、したがって、以下のとおりである。
feature(用途)=[00001]
feature,...,featureは、したがって、以下のとおり決定される。
feature(色)=[0100000]
...
feature(統語範疇)=[1000...0]
したがって、単語「コーラ」の属性特徴ベクトルAFVは、
AFV(コーラ)=
[100,00001,0100000,...,10000...0]
である。
このように符号化された全ての属性特徴ベクトルAFVは、属性の数及びそれぞれの属性の可能な値の数に依存する長さLと同じである。
属性特徴ベクトルAFVは、仮説の連続する仮説単語の単語ウィンドウの幾つかの仮説単語について、すなわち左及び右の文脈について、決定され、特徴ベクトルFVを導く。ここで、図3の例では、n−1個の単語の左の文脈だけが使用される。したがって、特徴ベクトルFVは、n−1語前の単語、すなわちAFVi−n+1,...,AFVi−2,AFVi−1の属性特徴ベクトルAFVからなる。
次いで、この特徴ベクトルFVは、確率計算ステップS3において、トレーニング可能な確率推定器TPEのための入力として使用される。トレーニング可能な確率推定器TPEは、属性情報AIに基づいた言語モデルを表す。図2では、確率計算ステップS3の後、図1により既に説明されたのと同じステップすなわち、再整列ステップS4、選択ステップS5及び出力ステップS6が続く。
本発明の好適な実施形態によれば、トレーニング可能な確率推定器TPEは人工神経ネットワークである。語彙のサイズがNである場合は、人工神経ネットワークANNは、N個の出力ニューロンを持っている。各出力ニューロンは、ある特徴ベクトルFVを与えられて、n番目の単語の事後確率を出力するようにトレーニングされる。
属性特徴ベクトルAFVのサイズが比較的小さい場合、すなわち属性特徴ベクトルAFVが、50乃至100の合理的な次元を有する場合、特徴ベクトルFVは、人工神経ネットワークANNのための入力として直接使用してもよい。これは、属性の数、及び属性のそれぞれの値の数が、比較的少ない場合である。しかしながら、属性特徴ベクトルAFVの次元が非常に多い場合、これは高い次元の特徴ベクトルFVに結びつくので、例えば主成分解析、潜在的意味指数、及び/又はランダムマッピング予測RMPのような次元縮小のための方法が適用される。
図3において、ランダムマッピング予測RMPが、次元縮小に使用され、また、その結果生じたマップ入力ベクトルMIVが、3層の多層パーセプトロンネットワーク3MLPのための入力として使用される。
図3で分かるように、トレーニング可能な確率推定器TPEのための入力は、上記に説明されたように生成される特徴ベクトルFVである。したがって、特徴ベクトルFVはn−1個の属性特徴ベクトルAFVi−n+1,...,AFVi−2,AFVi−1からなる。ランダムマッピング予測RMPは、各属性特徴ベクトルAFVに適用される。その結果、縮小マッピング化特徴ベクトル(small sized mapped feature vector)SSMFVi−n+1,...,SSMFVi−2,SSMFVi−1が得られる。なお、次元縮小の方法は、特徴ベクトルFVにも直接に適用され得る。
図3で、Sは、マッピングされた小型の特徴ベクトルSSMFVi−n+1,...,SSMFVi−2,SSMFVi−1のサイズを示す。さて、n−1個の小型のマッピングされた特徴ベクトルは、3層の多層のパーセプトロンネットワーク入力層3MLPILにおいて、3層の多層のパーセプトロンネットワーク3MLPのための入力として使用される。3層の多層のパーセプトロンネットワーク3MLPは、さらに、隠れた層HL及び出力層OLからなる。隠れた層は、Hニューロンからなる。既に述べたように、出力層OLは、N個の出力ニューロンを含んでいるが、これは、サイズNを備えた語彙の個々のそれぞれの単語について、単語確率WP−1,...,のWP−Nを出力するようにトレーニングされる。
図3の例では、人工神経ネットワークANNは、例えば、バックプロパゲーション(back propagation)アルゴリズムによってトレーニングされる標準の完全接続多層パーセプトロンネットワークである。しかしながら、異なるトポロジーを備えた神経ネットワーク、例えばバックプロパゲーション真時(BPTT)によってトレーニングされたリカレントニューラルネットワークを使用してもよい。これによって、隠れた層の数は、文脈の数と等しくなる。
なお、図3でのように、ランダムマッピング予測RMPの使用が、速度と効率に関する明瞭な長所を持つことに注目すべきである。ランダムマッピング予測RMPは、単語及び対応する特徴ベクトルによって指数される単純な参照テーブルとして実現することができる。ランダムマッピング予測RMPの適用が、神経ネットワークのための入力の数を相当に減少させるので、速度は相当に増加する。ランダムマッピング予測RMPを適用しないと、神経ネットワークのための入力の数は、(n−1)×Lになる。ランダムマッピング予測RMPを適用することによって、神経ネットワークのための入力の数は、(n−1)×Sとなる。これによって、Sは、はるかにLより小さくなるように選ばれる、すなわちS<<Lである。3層の多層のパーセプトロンネットワークのための入力次元が、ランダムマッピング予測RMPの適用により、はるかに小さくなるので、ネットワークのトレーニングは、はるかに速い、すなわち、ランダムマッピング予測RMPを適用する場合、計算上の複雑性を低くすることになる。
本発明は、言語モデルの一般化能力を高めるために、その概念上及び文法上の意味によって単語の類似性をとらえるための解決法を提案する。さらに、本発明は、属性に基づいて事前知識として導かれた単語間の類似点を考慮した言語モデルを生成する新しい方法を提案する。1単位が単語又は単語列でありうる場合、これらの属性は、1単位を代表するような方法として定義される。結果としてあらわれたモデルは、統計的手法ではなく、人工知能(多層のパーセプトロン(multilayer-perceptron)又は時間遅延神経ネットワーク(Time Delay Neural Networks、以下、TDNNという))に基づく。
語彙の全ての単語について派生した属性を使用することにより、単語間の類似点は、適切な距離関数を使用する全ての神経ネットワーク分類器によって容易に算出することができる。これは、いままで現れたことのない単語列は、既に現れた文を形成する単語に類似する単語で構成されている場合は、高い確率を得ることで、一般化が得られる。
さらに、TDNNかリカレントニューラルネットワーク(RNN)の使用によって、文脈のサイズは、自由なパラメータの数を余り増加させることなく、2単語からさらに多くの単語に増加されることが可能である。これは、ネットワーク入力ウィンドウが、単語の別のグループへ移される場合、連続する単語(句であってもよい)のグループのために行われた計算をやり直す必要がないからである。
神経ネットワークの種類は、マッピングされた入力の大きさ及び2以上の単語のための同様の属性を定義する能力に依存する。多重層パーセプトロンの使用の場合には、ネットワークのトポロジー次のようになる。「入力」層は、語彙wi−n+1,...,wi−2,wi−1の中で、n−1語前の単語のインデックスを表し、かつ、出力ニューロン(N)は、語彙中の全ての単語のための事後確率が算出される。
P(w=k|wi−n+1,...,wi−2,wi−1,∀k∈[1,N])
この入力層は、実際に、(単語及び対応する特徴ベクトルによって指数化された)参照テーブルである。トレーニングアルゴリズム中に考慮に入れられる実際の入力層は、(n−1)*Sと等しい数のニューロンを持っているマッピング層からなる。隠れた層は、Hニューロンからなる。
RNN使用の場合には、トポロジー(topology)は、n−1語前の単語指数、それぞれがSニューロンを備えた(n−1)の隠れ層、及びNニューロンを備えた出力層を代表する同一「入力」レベルとなる。上記双方の場合、単位の出力は、誤差関数として事後確率及びクロスエントロピーを得るためにソフトマックス(softmax)正規化を使用して算出される。ネットワークは、各単語(又は単語列)の属性ベクトルを学習し、n−グラム確率を推測する。
LVCSRでは、最も尤度の高い単語列を出力するのに必要なステップを次のようにまとめることができる。
1.仮説の代替単語列を出力する音響モデル;
2.これらの仮説中の各単語の符号化(対応する特徴の列への単語のマッピング);
3.単語のインデックスと特徴ベクトル間の対応のための参照テーブル作成;
4.これら特徴の列をNNに与える;
5.事後確率として神経ネットワークの出力スコアを使用する;
6.ステップ5による制約に続き、ステップ1で導いた単語列ための確率を算出する。
本発明によれば、語彙中の新語が対応する属性に関係されている限り、任意の新しい領域への迅速な適応が可能となる。新語が、内在する属性によって、既存のものとは完全に異ならない限り、再トレーニングステップは不要となる。
単語区分のマッピングのように、それが64Kの規模であっても、語彙のサイズは縮小されないが、単語を定義するマッピング単語概念の使用によって改善される。属性は、その単語に関して、なるべく多くの情報をつかむために、統一されている。このように、単語に関する情報は、1つの区分だけに切り詰められておらず、より意味的より統計的情報をもたらす、より多くの区分に拡張される。ネットワークは、単語内特徴分布を学習するようになっている。
本発明の第1の好適な実施形態による主要ステップを示すブロック図である。 本発明の第2の好適な実施形態によるステップを示すブロック図である。 トレーニング可能な確率推定器の構造を示す図である。
符号の説明
BH 最良仮説、SI 音声入力、S0 入力ステップ、S1 仮説生成ステップ、S2 属性情報生成ステップ、S2−1 符号ステップ、S3 確率計算ステップ、S4 再整列ステップ、S5 選択ステップ、S6 出力ステップ、AFV 属性特徴ベクトル、SSMFV 縮小マッピング化特徴ベクトル、TDNN 時間遅延神経ネットワーク、RNN リカレントニューラルネットワーク、TPE トレーニング可能な確率推定器

Claims (12)

  1. 音声入力を受信するステップと、
    各仮説が少なくとも1つの仮説単語を含んでいる1群の整列仮説を生成するステップと、
    各仮説単語の構文的及び/又は意味的な情報などを記述するように生成され、前記少なくとも1つの仮説単語のうち、少なくとも1つの仮説単語のための属性情報を生成するステップと、
    複数の事前仮説単語のうちの各仮説単語の事後確率を記述するように生成され、前記少なくとも1つの仮説単語のうち、少なくとも1つの仮説単語の単語確率を算出するための、前記属性情報に基づく言語モデルを使用するステップと、
    1群の再整列仮説を生成するための前記単語確率を使用するステップと、
    認識結果として、前記再整列仮説の前記群から少なくとも1つの最良仮説を選択するステップと、
    前記認識結果を出力するステップとを含む音声認識方法。
  2. 前記仮説単語の組み合わせの構文的及び/又は意味的な情報などを記述的する属性情報を生成するステップをさらに含む請求項1に記載の音声認識方法。
  3. 前記単語確率は、トレーニング可能な確率推定器を使用して決定されることを特徴とする請求項1又は2に記載の音声認識方法。
  4. 前記トレーニング可能な確率推定器は、人口神経ネットワークであることを特徴とする請求項3に記載の音声認識方法。
  5. 前記人工神経ネットワークは、時間遅延神経ネットワーク、リカレントニューラルネットワーク及び多層のパーセプトロンネットワークのいずれか1つであることを特徴とする請求項4に記載の音声認識方法。
  6. 前記トレーニング可能な確率推定器への入力として、符号化された属性情報を含む特徴ベクトルを生成するステップをさらに含む請求項3乃至5のいずれか1項に記載の音声認識方法。
  7. 前記特徴ベクトルを次元縮小するステップをさらに含む請求項6に記載の音声認識方法。
  8. 前記次元縮小ステップは、主成分解析、潜在的意味指数及びランダムマッピング予測のいずれかに基づくことを特徴とする請求項7に記載の音声認識方法。
  9. 前記言語モデルにさらに標準言語モデルを加えるステップをさらに含む請求項1乃至8のいずれか1項に記載の音声認識方法。
  10. 請求項1乃至9のいずれか1項に記載の音声認識方法又はそのステップを実行又は実現する音声処理システム。
  11. コンピュータ、ディジタル信号処理手段又はその種の装置で実行されるとき、請求項1乃至9のいずれか1項に記載の音声認識方法又はそのステップを実行又は実現するためのコンピュータプログラム製品。
  12. 請求項11に記載のコンピュータプログラム製品を格納したコンピュータで読出し可能な記憶媒体。
JP2004045242A 2003-02-20 2004-02-20 音声認識方法 Abandoned JP2004272243A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP03003876A EP1450350A1 (en) 2003-02-20 2003-02-20 Method for Recognizing Speech with attributes

Publications (1)

Publication Number Publication Date
JP2004272243A true JP2004272243A (ja) 2004-09-30

Family

ID=32731553

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004045242A Abandoned JP2004272243A (ja) 2003-02-20 2004-02-20 音声認識方法

Country Status (3)

Country Link
US (1) US20040167778A1 (ja)
EP (1) EP1450350A1 (ja)
JP (1) JP2004272243A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6093542A (ja) * 1983-10-27 1985-05-25 Tokyo Electric Co Ltd キ−ボ−ド装置
JP2012027065A (ja) * 2010-07-20 2012-02-09 Nippon Telegr & Teleph Corp <Ntt> 2チャネル音声の音声認識方法とその装置とプログラム
JP2015169951A (ja) * 2014-03-04 2015-09-28 株式会社デンソーアイティーラボラトリ 情報処理装置、情報処理方法、およびプログラム
JP2017049612A (ja) * 2013-01-29 2017-03-09 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 自動音声認識のための方法およびシステム
JP2017167378A (ja) * 2016-03-17 2017-09-21 株式会社東芝 単語スコア計算装置、単語スコア計算方法及びプログラム
JP2017527846A (ja) * 2015-04-16 2017-09-21 三菱電機株式会社 音声認識装置およびリスコアリング装置
US11636667B2 (en) 2016-11-16 2023-04-25 Kabushiki Kaisha Toshiba Pattern recognition apparatus, pattern recognition method, and computer program product

Families Citing this family (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9083798B2 (en) 2004-12-22 2015-07-14 Nuance Communications, Inc. Enabling voice selection of user preferences
US7832003B2 (en) * 2005-04-28 2010-11-09 Microsoft Corporation Walled gardens
US8090584B2 (en) 2005-06-16 2012-01-03 Nuance Communications, Inc. Modifying a grammar of a hierarchical multimodal menu in dependence upon speech command frequency
US7917365B2 (en) 2005-06-16 2011-03-29 Nuance Communications, Inc. Synchronizing visual and speech events in a multimodal application
US8249344B2 (en) * 2005-07-01 2012-08-21 Microsoft Corporation Grammatical parsing of document visual structures
US8073700B2 (en) 2005-09-12 2011-12-06 Nuance Communications, Inc. Retrieval and presentation of network service results for mobile device using a multimodal browser
US8509563B2 (en) 2006-02-02 2013-08-13 Microsoft Corporation Generation of documents from images
US8442965B2 (en) 2006-04-19 2013-05-14 Google Inc. Query language identification
US8762358B2 (en) * 2006-04-19 2014-06-24 Google Inc. Query language determination using query terms and interface language
US9208785B2 (en) 2006-05-10 2015-12-08 Nuance Communications, Inc. Synchronizing distributed speech recognition
US7848314B2 (en) 2006-05-10 2010-12-07 Nuance Communications, Inc. VOIP barge-in support for half-duplex DSR client on a full-duplex network
US7676371B2 (en) 2006-06-13 2010-03-09 Nuance Communications, Inc. Oral modification of an ASR lexicon of an ASR engine
US8332218B2 (en) 2006-06-13 2012-12-11 Nuance Communications, Inc. Context-based grammars for automated speech recognition
US8374874B2 (en) 2006-09-11 2013-02-12 Nuance Communications, Inc. Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction
US8145493B2 (en) 2006-09-11 2012-03-27 Nuance Communications, Inc. Establishing a preferred mode of interaction between a user and a multimodal application
US7957976B2 (en) 2006-09-12 2011-06-07 Nuance Communications, Inc. Establishing a multimodal advertising personality for a sponsor of a multimodal application
US8073697B2 (en) 2006-09-12 2011-12-06 International Business Machines Corporation Establishing a multimodal personality for a multimodal application
US8086463B2 (en) 2006-09-12 2011-12-27 Nuance Communications, Inc. Dynamically generating a vocal help prompt in a multimodal application
US7827033B2 (en) 2006-12-06 2010-11-02 Nuance Communications, Inc. Enabling grammars in web page frames
US8069047B2 (en) 2007-02-12 2011-11-29 Nuance Communications, Inc. Dynamically defining a VoiceXML grammar in an X+V page of a multimodal application
US8150698B2 (en) 2007-02-26 2012-04-03 Nuance Communications, Inc. Invoking tapered prompts in a multimodal application
US7801728B2 (en) 2007-02-26 2010-09-21 Nuance Communications, Inc. Document session replay for multimodal applications
US9208783B2 (en) 2007-02-27 2015-12-08 Nuance Communications, Inc. Altering behavior of a multimodal application based on location
US7840409B2 (en) 2007-02-27 2010-11-23 Nuance Communications, Inc. Ordering recognition results produced by an automatic speech recognition engine for a multimodal application
US8713542B2 (en) 2007-02-27 2014-04-29 Nuance Communications, Inc. Pausing a VoiceXML dialog of a multimodal application
US7809575B2 (en) 2007-02-27 2010-10-05 Nuance Communications, Inc. Enabling global grammars for a particular multimodal application
US7822608B2 (en) 2007-02-27 2010-10-26 Nuance Communications, Inc. Disambiguating a speech recognition grammar in a multimodal application
US8938392B2 (en) 2007-02-27 2015-01-20 Nuance Communications, Inc. Configuring a speech engine for a multimodal application based on location
US8843376B2 (en) 2007-03-13 2014-09-23 Nuance Communications, Inc. Speech-enabled web content searching using a multimodal browser
US7945851B2 (en) 2007-03-14 2011-05-17 Nuance Communications, Inc. Enabling dynamic voiceXML in an X+V page of a multimodal application
US8670987B2 (en) 2007-03-20 2014-03-11 Nuance Communications, Inc. Automatic speech recognition with dynamic grammar rules
US8515757B2 (en) 2007-03-20 2013-08-20 Nuance Communications, Inc. Indexing digitized speech with words represented in the digitized speech
US8909532B2 (en) 2007-03-23 2014-12-09 Nuance Communications, Inc. Supporting multi-lingual user interaction with a multimodal application
US8788620B2 (en) 2007-04-04 2014-07-22 International Business Machines Corporation Web service support for a multimodal client processing a multimodal application
US8725513B2 (en) 2007-04-12 2014-05-13 Nuance Communications, Inc. Providing expressive user interaction with a multimodal application
US8862475B2 (en) 2007-04-12 2014-10-14 Nuance Communications, Inc. Speech-enabled content navigation and control of a distributed multimodal browser
US8229081B2 (en) 2008-04-24 2012-07-24 International Business Machines Corporation Dynamically publishing directory information for a plurality of interactive voice response systems
US8121837B2 (en) 2008-04-24 2012-02-21 Nuance Communications, Inc. Adjusting a speech engine for a mobile computing device based on background noise
US8214242B2 (en) 2008-04-24 2012-07-03 International Business Machines Corporation Signaling correspondence between a meeting agenda and a meeting discussion
US9349367B2 (en) 2008-04-24 2016-05-24 Nuance Communications, Inc. Records disambiguation in a multimodal application operating on a multimodal device
US8082148B2 (en) 2008-04-24 2011-12-20 Nuance Communications, Inc. Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise
JP5598331B2 (ja) * 2008-11-28 2014-10-01 日本電気株式会社 言語モデル作成装置
US8380513B2 (en) 2009-05-19 2013-02-19 International Business Machines Corporation Improving speech capabilities of a multimodal application
US8290780B2 (en) 2009-06-24 2012-10-16 International Business Machines Corporation Dynamically extending the speech prompts of a multimodal application
US8510117B2 (en) 2009-07-09 2013-08-13 Nuance Communications, Inc. Speech enabled media sharing in a multimodal application
US8416714B2 (en) 2009-08-05 2013-04-09 International Business Machines Corporation Multimodal teleconferencing
US20120245919A1 (en) * 2009-09-23 2012-09-27 Nuance Communications, Inc. Probabilistic Representation of Acoustic Segments
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9558743B2 (en) * 2013-03-15 2017-01-31 Google Inc. Integration of semantic context information
US9805718B2 (en) * 2013-04-19 2017-10-31 Sri Internaitonal Clarifying natural language input using targeted questions
US10867597B2 (en) * 2013-09-02 2020-12-15 Microsoft Technology Licensing, Llc Assignment of semantic labels to a sequence of words using neural network architectures
US10127901B2 (en) 2014-06-13 2018-11-13 Microsoft Technology Licensing, Llc Hyper-structure recurrent neural networks for text-to-speech
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
JP6509694B2 (ja) * 2015-09-15 2019-05-08 株式会社東芝 学習装置、音声検出装置、学習方法およびプログラム
US10366158B2 (en) * 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US9842106B2 (en) * 2015-12-04 2017-12-12 Mitsubishi Electric Research Laboratories, Inc Method and system for role dependent context sensitive spoken and textual language understanding with neural networks
US10176799B2 (en) * 2016-02-02 2019-01-08 Mitsubishi Electric Research Laboratories, Inc. Method and system for training language models to reduce recognition errors
US10176802B1 (en) * 2016-03-21 2019-01-08 Amazon Technologies, Inc. Lattice encoding using recurrent neural networks
EP4235646A3 (en) 2016-03-23 2023-09-06 Google LLC Adaptive audio enhancement for multichannel speech recognition
US11449744B2 (en) 2016-06-23 2022-09-20 Microsoft Technology Licensing, Llc End-to-end memory networks for contextual language understanding
US10366163B2 (en) 2016-09-07 2019-07-30 Microsoft Technology Licensing, Llc Knowledge-guided structural attention processing
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) * 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN110766072A (zh) * 2019-10-22 2020-02-07 探智立方(北京)科技有限公司 一种基于结构相似性的计算图进化ai模型自动生成方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5749066A (en) * 1995-04-24 1998-05-05 Ericsson Messaging Systems Inc. Method and apparatus for developing a neural network for phoneme recognition
US6490555B1 (en) * 1997-03-14 2002-12-03 Scansoft, Inc. Discriminatively trained mixture models in continuous speech recognition
US6006181A (en) * 1997-09-12 1999-12-21 Lucent Technologies Inc. Method and apparatus for continuous speech recognition using a layered, self-adjusting decoder network
CN1111841C (zh) * 1997-09-17 2003-06-18 西门子公司 在语言识别中通过计算机来确定至少两个单词的序列出现概率的方法
DE69932803T2 (de) * 1998-02-02 2007-03-15 Pulsepoint Communications, Carpenteria Dynamisch ladbare satzbuchbibliotheken für gesprochene sprachgrammatik in einem interaktiven system
US6182039B1 (en) * 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6499013B1 (en) * 1998-09-09 2002-12-24 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
US6519562B1 (en) * 1999-02-25 2003-02-11 Speechworks International, Inc. Dynamic semantic control of a speech recognition system
US7058573B1 (en) * 1999-04-20 2006-06-06 Nuance Communications Inc. Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
WO2001026092A2 (en) * 1999-10-06 2001-04-12 Lernout & Hauspie Speech Products N.V. Attribute-based word modeling
WO2001046945A1 (en) * 1999-12-20 2001-06-28 British Telecommunications Public Limited Company Learning of dialogue states and language model of spoken information system
JP4465564B2 (ja) * 2000-02-28 2010-05-19 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
TW472232B (en) * 2000-08-11 2002-01-11 Ind Tech Res Inst Probability-base fault-tolerance natural language understanding method
US20020087315A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented multi-scanning language method and system
US20020087316A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented grammar-based speech understanding method and system
JP3782943B2 (ja) * 2001-02-20 2006-06-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
AUPR585101A0 (en) * 2001-06-21 2001-07-12 Syrinx Speech Systems Pty Limited Stochastic chunk parser

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6093542A (ja) * 1983-10-27 1985-05-25 Tokyo Electric Co Ltd キ−ボ−ド装置
JP2012027065A (ja) * 2010-07-20 2012-02-09 Nippon Telegr & Teleph Corp <Ntt> 2チャネル音声の音声認識方法とその装置とプログラム
JP2017049612A (ja) * 2013-01-29 2017-03-09 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 自動音声認識のための方法およびシステム
JP2015169951A (ja) * 2014-03-04 2015-09-28 株式会社デンソーアイティーラボラトリ 情報処理装置、情報処理方法、およびプログラム
JP2017527846A (ja) * 2015-04-16 2017-09-21 三菱電機株式会社 音声認識装置およびリスコアリング装置
JP2017167378A (ja) * 2016-03-17 2017-09-21 株式会社東芝 単語スコア計算装置、単語スコア計算方法及びプログラム
US11636667B2 (en) 2016-11-16 2023-04-25 Kabushiki Kaisha Toshiba Pattern recognition apparatus, pattern recognition method, and computer program product

Also Published As

Publication number Publication date
US20040167778A1 (en) 2004-08-26
EP1450350A1 (en) 2004-08-25

Similar Documents

Publication Publication Date Title
JP2004272243A (ja) 音声認識方法
US20240161732A1 (en) Multi-dialect and multilingual speech recognition
US10176802B1 (en) Lattice encoding using recurrent neural networks
CN108292305B (zh) 用于处理语句的方法
Jelinek Statistical methods for speech recognition
CN110782870A (zh) 语音合成方法、装置、电子设备及存储介质
CN111916058A (zh) 一种基于增量词图重打分的语音识别方法及系统
Masumura et al. Large context end-to-end automatic speech recognition via extension of hierarchical recurrent encoder-decoder models
US11132994B1 (en) Multi-domain dialog state tracking
WO2021109856A1 (zh) 一种针对认知障碍的语音识别系统
Saxon et al. End-to-end spoken language understanding for generalized voice assistants
CN114091478A (zh) 基于有监督对比学习与回复生成辅助的对话情感识别方法
CN112131359A (zh) 一种基于图形化编排智能策略的意图识别方法及电子设备
Yamamoto et al. Multi-class composite N-gram language model
Deena et al. Semi-supervised adaptation of RNNLMs by fine-tuning with domain-specific auxiliary features
KR102305672B1 (ko) 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 방법 및 장치
US7010486B2 (en) Speech recognition system, training arrangement and method of calculating iteration values for free parameters of a maximum-entropy speech model
Dang et al. End-to-end speech-to-dialog-act recognition
KR100277690B1 (ko) 화행 정보를 이용한 음성 인식 방법
JPH09134192A (ja) 統計的言語モデル生成装置及び音声認識装置
Neukirchen et al. A continuous density interpretation of discrete HMM systems and MMI-neural networks
KR102203991B1 (ko) 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 방법 및 장치
Cui et al. MSAM: A multi-layer bi-LSTM based speech to vector model with residual attention mechanism
Tian et al. End-to-end speech recognition with Alignment RNN-Transducer
Waterhouse et al. Smoothed local adaptation of connectionist systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070130

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20071102