JP5459214B2 - 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体 - Google Patents
言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体 Download PDFInfo
- Publication number
- JP5459214B2 JP5459214B2 JP2010525708A JP2010525708A JP5459214B2 JP 5459214 B2 JP5459214 B2 JP 5459214B2 JP 2010525708 A JP2010525708 A JP 2010525708A JP 2010525708 A JP2010525708 A JP 2010525708A JP 5459214 B2 JP5459214 B2 JP 5459214B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- language model
- diversity
- chain
- appearance frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 37
- 238000012545 processing Methods 0.000 claims description 88
- 238000004364 calculation method Methods 0.000 claims description 36
- 238000012937 correction Methods 0.000 claims description 28
- 230000006978 adaptation Effects 0.000 claims description 19
- 230000003044 adaptive effect Effects 0.000 claims description 9
- 238000004519 manufacturing process Methods 0.000 claims 3
- 230000017260 vegetative to reproductive phase transition of meristem Effects 0.000 description 42
- 238000010586 diagram Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 22
- 241000167854 Bourreria succulenta Species 0.000 description 5
- 235000019693 cherries Nutrition 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
[第1の実施形態]
まず、図1を参照して、本発明の第1の実施形態にかかる言語モデル作成装置について説明する。図1は、本発明の第1の実施形態にかかる言語モデル作成装置の基本構成を示すブロック図である。
この言語モデル作成装置10には、主な処理部として、頻度計数部15A、コンテキスト多様性計算部15B、頻度補正部15C、およびN−gram言語モデル作成部15Dが設けられている。
コンテキスト多様性計算部15Bは、入力テキストデータ14Aに含まれるそれぞれの単語または単語連鎖ごとに、当該単語または単語連鎖のコンテキストの多様性を示す多様性指標14Cを計算する機能を有している。
N−gram言語モデル作成部15Dは、入力テキストデータ14Aに含まれるそれぞれの単語または単語連鎖の補正出現頻度14Dに基づいてN−gram言語モデル14Eを作成する機能を有している。
図2の言語モデル作成装置10は、ワークステーション、サーバ装置、パーソナルコンピュータなどの情報処理装置からなり、入力されたテキストデータから、単語の生成確率を与える言語モデルとして、N−gram言語モデルを作成する装置である。
操作入力部12は、キーボードやマウスなどの操作入力装置からなり、オペレータの操作を検出して演算処理部15へ出力する機能を有している。
画面表示部13は、LCDやPDPなどの画面表示装置からなり、演算処理部15からの指示に応じて、操作メニューや各種データを画面表示する機能を有している。
プロクラム14Pは、入出力I/F部11を介して予め記憶部14に保存され、演算処理部15に読み出されて実行されることにより、演算処理部15での各種処理機能を実現するプログラムである。
入力テキストデータ14Aは、会話や文書などの自然言語テキストデータからなり、予め単語ごとに区分されたデータである。
出現頻度14Bは、入力テキストデータ14Aに含まれるそれぞれの単語または単語連鎖に関する、入力テキストデータ14A内での出現頻度を示すデータである。
補正出現頻度14Dは、入力テキストデータ14Aに含まれるそれぞれの単語または単語連鎖の多様性指標14Cに基づいて、当該単語または単語連鎖の出現頻度14Bを補正したデータである。
N−gram言語モデル14Eは、補正出現頻度14Dに基づいて作成された、単語の生成確率を与えるデータである。
演算処理部15で実現される主な処理部としては、前述した頻度計数部15A、コンテキスト多様性計算部15B、頻度補正部15C、およびN−gram言語モデル作成部15Dがある。これら処理部の詳細についての説明は省略する。
次に、図3を参照して、本発明の第1の実施形態にかかる言語モデル作成装置10の動作について説明する。図3は、本発明の第1の実施形態にかかる言語モデル作成装置の言語モデル作成処理を示すフローチャートである。
言語モデル作成装置10の演算処理部15は、オペレータによる言語モデル作成処理の開始操作が操作入力部12により検出された場合、図3の言語モデル作成処理の実行を開始する。
図4は、入力テキストデータ例である。ここでは、桜の開花に関するニュース音声を音声認識して得られたテキストデータが示されており、それぞれ単語に区分されている。
具体的には、与えられた単語や単語連鎖の品詞の種別ごとに、コンテキストの多様性指標を予め定めた対応関係をテーブルとして用意して、記憶部14に保存しておけばよい。例えば、名詞はコンテキストの多様性指標を大きく、終助詞はコンテキストの多様性指標を小さくするような対応テーブルが考えられる。このとき、各品詞にどのような多様性指標を割り当てるかは、事前の評価実験により、実際に様々な値を割り当てて実験的に最適な数値を定めればよい。
ただし、全ての品詞に対して異なる最適な多様性指標を割り当てることは難しいため、品詞が自立語であるか否か、あるいは、品詞が名詞であるか否か、によってのみ異なる多様性指標を割り当てた対応テーブルを用意するようにしてもよい。
このように、コンテキスト多様性計算部15Bでは、コンテキストの多様性が高い単語または単語連鎖ほど、その出現頻度が大きくなるように補正される。なお、補正の式は前述した式(5)に限るものではなく、V(W)が大きいほど出現頻度が大きくなるように補正する式であれば様々な式が考えられることはもちろんである。
具体的には、N−gram言語モデル作成部15Dは、まず、記憶部14が記憶するN単語連鎖の補正出現頻度14Dを用いて、N−gram確率を求める。次に、求められた各N−gram確率を線形補間などにより組み合わせることで、N−gram言語モデル14Eを作成する。
このように、本実施形態では、頻度計数部15Aで、入力テキストデータ14Aに含まれるそれぞれの単語または単語連鎖ごとに、入力テキストデータ14A内での出現頻度14Bを計数し、コンテキスト多様性計算部15Bで、入力テキストデータ14Aに含まれるそれぞれの単語または単語連鎖ごとに、当該単語または単語連鎖のコンテキストの多様性を示す多様性指標14Cを計算し、頻度補正部15Cで、入力テキストデータ14Aに含まれるそれぞれの単語または単語連鎖の多様性指標14Cに基づいて、当該単語または単語連鎖の出現頻度14Bを補正し、それぞれの単語または単語連鎖ごとに得られた補正出現頻度14Dに基づいて、N−gram言語モデル作成部15DでN−gram言語モデル14Eを作成している。
このように、本実施形態によれば、コンテキストの多様性が異なる単語に対しても、適切な生成確率を与える言語モデルを作成することが可能となる。
次に、図11を参照して、本発明の第2の実施形態にかかる音声認識装置について説明する。図11は、本発明の第2の実施形態にかかる音声認識装置の基本構成を示すブロック図である。
言語モデル作成部25Bは、第1の実施形態で説明した言語モデル作成装置10の特徴構成を有し、認識結果データ24Cからなる入力テキストデータに基づきN−gram言語モデル24Dを作成する機能を有している。
再認識部25Dは、適応化言語モデル24Eに基づいて音声データ24Aを音声認識処理し、その認識結果を示すテキストデータとして再認識結果データ24Fを出力する機能を有している。
図12の音声認識装置20は、ワークステーション、サーバ装置、パーソナルコンピュータなどの情報処理装置からなり、入力された音声データを音声認識処理することにより、認識結果としてその音声内容を示すテキストデータを出力する装置である。
操作入力部22は、キーボードやマウスなどの操作入力装置からなり、オペレータの操作を検出して演算処理部25へ出力する機能を有している。
画面表示部23は、LCDやPDPなどの画面表示装置からなり、演算処理部25からの指示に応じて、操作メニューや各種データを画面表示する機能を有している。
プロクラム24Pは、入出力I/F部21を介して予め記憶部24に保存され、演算処理部25に読み出されて実行されることにより、演算処理部25での各種処理機能を実現するプログラムである。
ベース言語モデル24Bは、大量のテキストデータを用いて予め学習した汎用のN−gram言語モデルなどからなり、単語の生成確率を与える言語モデルである。
N−gram言語モデル24Dは、認識結果データ24Cから作成した、単語の生成確率を与えるN−gram言語モデルである。
適応化言語モデル24Eは、N−gram言語モデル24Dに基づいて、ベース言語モデル24Bを適応化して得られた言語モデルである。
再認識結果データ24Fは、適応化言語モデル24Eに基づいて入力音声データ24Aを音声認識処理して得られたテキストデータである。
演算処理部25で実現される主な処理部としては、前述した認識部25A、言語モデル作成部25B、言語モデル適応化部25C、および再認識部25Dがある。これら処理部の詳細についての説明は省略する。
次に、図13を参照して、本発明の第2の実施形態にかかる音声認識装置20の動作について説明する。図13は、本発明の第2の実施形態にかかる音声認識装置20の音声認識処理を示すフローチャートである。
音声認識装置20の演算処理部25は、オペレータによる音声認識処理の開始操作が操作入力部22により検出された場合、図13の音声認識処理の実行を開始する。
このように、本実施形態では、ベース言語モデル24Bに基づき入力音声データ24Aを認識した認識結果データ24Cを元にして、第1の実施形態で説明した言語モデル作成装置10の特徴構成からなる言語モデル作成部25BでN−gram言語モデル24Dを作成し、このN−gram言語モデル24Dに基づきベース言語モデル24Bを適応化して得られた適応化言語モデル24Eを用いて、再度、入力音声データ24Aを音声認識処理している。
以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しうる様々な変更をすることができる。
Claims (16)
- 記憶部に保存されている入力テキストデータを読み出して、N−gram言語モデルを作成する演算処理部を備え、
前記演算処理部は、
前記入力テキストデータに含まれるそれぞれの単語または単語連鎖ごとに、当該入力テキストデータ内での出現頻度を計数する頻度計数部と、
前記単語または単語連鎖ごとに、当該単語または単語連鎖に先行し得る単語の多様性を示す多様性指標を計算するコンテキスト多様性計算部と、
前記単語または単語連鎖の多様性指標に基づいて、これら単語または単語連鎖の出現頻度をそれぞれ補正して補正出現頻度を算出する頻度補正部と、
前記単語または単語連鎖の補正出現頻度に基づいてN−gram言語モデルを作成するN−gram言語モデル作成部と
を含むことを特徴とする言語モデル作成装置。 - 請求項1に記載の言語モデル作成装置において、
前記コンテキスト多様性計算部は、前記記憶部に保存されている多様性計算用テキストデータから、当該単語または単語連鎖に先行する各単語を検索し、この検索結果に基づいて、当該単語または単語連鎖に関する多様性指標を計算する
ことを特徴とする言語モデル作成装置。 - 請求項2に記載の言語モデル作成装置において、
前記コンテキスト多様性計算部は、前記検索結果から算出した当該単語または単語連鎖に先行する各単語の出現確率に基づいて、これら出現確率のエントロピーを当該単語または単語連鎖に関する多様性指標として求めることを特徴とする言語モデル作成装置。 - 請求項3に記載の言語モデル作成装置において、
前記頻度補正部は、前記エントロピーが大きい前記単語または単語連鎖ほど当該出現頻度が大きくなるように前記出現頻度を補正することを特徴とする言語モデル作成装置。 - 請求項2に記載の言語モデル作成装置において、
前記コンテキスト多様性計算部は、前記検索結果に基づいて当該単語または単語連鎖に先行する各単語の異なり単語数を当該単語または単語連鎖に関する多様性指標として求めることを特徴とする言語モデル作成装置。 - 請求項5に記載の言語モデル作成装置において、
前記頻度補正部は、前記異なり単語数が大きい前記単語または単語連鎖ほど当該出現頻度が大きくなるように前記出現頻度を補正することを特徴とする言語モデル作成装置。 - 請求項1に記載の言語モデル作成装置において、
前記コンテキスト多様性計算部は、前記記憶部に保存されている、各品詞の種別とその多様性指標との対応関係のうちから、当該単語または単語連鎖を構成する単語の品詞の種別と対応する多様性指標を、当該単語または単語連鎖に関する多様性指標として取得することを特徴とする言語モデル作成装置。 - 請求項7に記載の言語モデル作成装置において、
前記頻度補正部は、前記多様性指標が大きい前記単語または単語連鎖ほど前記出現頻度が大きくなるように前記出現頻度を補正することを特徴とする言語モデル作成装置。 - 請求項7に記載の言語モデル作成装置において、
前記対応関係は、前記品詞が自立語であるか否か、あるいは前記品詞が名詞であるか否か、の区別ごとに、それぞれ異なる多様性指標が定められていることを特徴とする言語モデル作成装置。 - 記憶部に保存されている入力テキストデータを読み出して、N−gram言語モデルを作成する演算処理部が、
前記入力テキストデータに含まれるそれぞれの単語または単語連鎖ごとに、当該入力テキストデータ内での出現頻度を計数する頻度計数ステップと、
前記単語または単語連鎖ごとに、当該単語または単語連鎖に先行し得る単語の多様性を示す多様性指標を計算するコンテキスト多様性計算ステップと、
前記単語または単語連鎖の多様性指標に基づいて、これら単語または単語連鎖の出現頻度をそれぞれ補正して補正出現頻度を算出する頻度補正ステップと、
前記単語または単語連鎖の補正出現頻度に基づいてN−gram言語モデルを作成するN−gram言語モデル作成ステップと
を実行することを特徴とする言語モデル作成方法。 - 記憶部に保存されている入力テキストデータを読み出して、N−gram言語モデルを作成する演算処理部を有するコンピュータに、
前記入力テキストデータに含まれるそれぞれの単語または単語連鎖ごとに、当該入力テキストデータ内での出現頻度を計数する頻度計数ステップと、
前記単語または単語連鎖ごとに、当該単語または単語連鎖に先行し得る単語の多様性を示す多様性指標を計算するコンテキスト多様性計算ステップと、
前記単語または単語連鎖の多様性指標に基づいて、これら単語または単語連鎖の出現頻度をそれぞれ補正して補正出現頻度を算出する頻度補正ステップと、
前記単語または単語連鎖の補正出現頻度に基づいてN−gram言語モデルを作成するN−gram言語モデル作成ステップと
からなる各ステップを、
前記演算処理部を用いて実行させるためのプログラム。 - 記憶部に保存されている入力音声データを音声認識処理する演算処理部を備え、
前記演算処理部は、
前記記憶部に保存されているベース言語モデルに基づいて前記入力音声データを音声認識処理し、当該入力音声の内容を示すテキストデータからなる認識結果データを出力する認識部と、
請求項10に記載の言語モデル作成方法に基づいて前記認識結果データからN−gram言語モデルを作成する言語モデル作成部と、
前記N−gram言語モデルに基づいて前記ベース言語モデルを前記音声データに適応化した適応化言語モデルを作成する言語モデル適応化部と、
前記適応化言語モデルに基づいて前記入力音声データを再度音声認識処理する再認識部と
を含むことを特徴とする音声認識装置。 - 記憶部に保存されている入力音声データを音声認識処理する演算処理部が、
前記記憶部に保存されているベース言語モデルに基づいて入力音声データを音声認識処理し、テキストデータからなる認識結果データを出力する認識ステップと、
請求項10に記載の言語モデル作成方法に基づいて前記認識結果データからN−gram言語モデルを作成する言語モデル作成ステップと、
前記N−gram言語モデルに基づいて前記ベース言語モデルを前記音声データに適応化した適応化言語モデルを作成する言語モデル適応化ステップと、
前記適応化言語モデルに基づいて前記入力音声データを再度音声認識処理する再認識ステップと
を実行することを特徴とする音声認識方法。 - 記憶部に保存されている入力音声データを音声認識処理する演算処理部を有するコンピュータに、
前記記憶部に保存されているベース言語モデルに基づいて入力音声データを音声認識処理し、テキストデータからなる認識結果データを出力する認識ステップと、
請求項10に記載の言語モデル作成方法に基づいて前記認識結果データからN−gram言語モデルを作成する言語モデル作成ステップと、
前記N−gram言語モデルに基づいて前記ベース言語モデルを前記音声データに適応化した適応化言語モデルを作成する言語モデル適応化ステップと、
前記適応化言語モデルに基づいて前記入力音声データを再度音声認識処理する再認識ステップと
からなる各ステップを、
前記演算処理部を用いて実行させるためのプログラム。 - 記憶部に保存されている入力テキストデータを読み出して、N−gram言語モデルを作成する演算処理部を有するコンピュータに、
前記入力テキストデータに含まれるそれぞれの単語または単語連鎖ごとに、当該入力テキストデータ内での出現頻度を計数する頻度計数ステップと、
前記単語または単語連鎖ごとに、当該単語または単語連鎖に先行し得る単語の多様性を示す多様性指標を計算するコンテキスト多様性計算ステップと、
前記単語または単語連鎖の多様性指標に基づいて、これら単語または単語連鎖の出現頻度をそれぞれ補正して補正出現頻度を算出する頻度補正ステップと、
前記単語または単語連鎖の補正出現頻度に基づいてN−gram言語モデルを作成するN−gram言語モデル作成ステップと
からなる各ステップを、
前記演算処理部を用いて実行させるためのプログラムを記録した記録媒体。 - 記憶部に保存されている入力音声データを音声認識処理する演算処理部を有するコンピュータに、
前記記憶部に保存されているベース言語モデルに基づいて入力音声データを音声認識処理し、テキストデータからなる認識結果データを出力する認識ステップと、
請求項10に記載の言語モデル作成方法に基づいて前記認識結果データからN−gram言語モデルを作成する言語モデル作成ステップと、
前記N−gram言語モデルに基づいて前記ベース言語モデルを前記音声データに適応化した適応化言語モデルを作成する言語モデル適応化ステップと、
前記適応化言語モデルに基づいて前記入力音声データを再度音声認識処理する再認識ステップと
からなる各ステップを、
前記演算処理部を用いて実行させるためのプログラムを記録した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010525708A JP5459214B2 (ja) | 2008-08-20 | 2009-08-20 | 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008211493 | 2008-08-20 | ||
JP2008211493 | 2008-08-20 | ||
PCT/JP2009/064596 WO2010021368A1 (ja) | 2008-08-20 | 2009-08-20 | 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体 |
JP2010525708A JP5459214B2 (ja) | 2008-08-20 | 2009-08-20 | 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2010021368A1 JPWO2010021368A1 (ja) | 2012-01-26 |
JP5459214B2 true JP5459214B2 (ja) | 2014-04-02 |
Family
ID=41707242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010525708A Active JP5459214B2 (ja) | 2008-08-20 | 2009-08-20 | 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20110161072A1 (ja) |
JP (1) | JP5459214B2 (ja) |
WO (1) | WO2010021368A1 (ja) |
Families Citing this family (153)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US8510109B2 (en) | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9973450B2 (en) | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
EP3091535B1 (en) | 2009-12-23 | 2023-10-11 | Google LLC | Multi-modal input on an electronic device |
US11416214B2 (en) | 2009-12-23 | 2022-08-16 | Google Llc | Multi-modal input on an electronic device |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
JP5276610B2 (ja) * | 2010-02-05 | 2013-08-28 | 日本放送協会 | 言語モデル生成装置、そのプログラムおよび音声認識システム |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9099087B2 (en) * | 2010-09-03 | 2015-08-04 | Canyon IP Holdings, LLC | Methods and systems for obtaining language models for transcribing communications |
US9262397B2 (en) | 2010-10-08 | 2016-02-16 | Microsoft Technology Licensing, Llc | General purpose correction of grammatical and word usage errors |
WO2012105231A1 (ja) * | 2011-02-03 | 2012-08-09 | 日本電気株式会社 | モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8855997B2 (en) * | 2011-07-28 | 2014-10-07 | Microsoft Corporation | Linguistic error detection |
US9009025B1 (en) | 2011-12-27 | 2015-04-14 | Amazon Technologies, Inc. | Context-based utterance recognition |
JP5888729B2 (ja) * | 2012-01-10 | 2016-03-22 | 国立研究開発法人情報通信研究機構 | 言語モデル結合装置、言語処理装置、およびプログラム |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9043205B2 (en) | 2012-06-21 | 2015-05-26 | Google Inc. | Dynamic language model |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US20140222435A1 (en) * | 2013-02-01 | 2014-08-07 | Telenav, Inc. | Navigation system with user dependent language mechanism and method of operation thereof |
EP3809407A1 (en) | 2013-02-07 | 2021-04-21 | Apple Inc. | Voice trigger for a digital assistant |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014189399A1 (en) | 2013-05-22 | 2014-11-27 | Axon Doo | A mixed-structure n-gram language model |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US9251135B2 (en) | 2013-08-13 | 2016-02-02 | International Business Machines Corporation | Correcting N-gram probabilities by page view information |
JP6277659B2 (ja) * | 2013-10-15 | 2018-02-14 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
JP6077980B2 (ja) * | 2013-11-19 | 2017-02-08 | 日本電信電話株式会社 | 地域関連キーワード決定装置、地域関連キーワード決定方法、および地域関連キーワード決定プログラム |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
JP5932869B2 (ja) * | 2014-03-27 | 2016-06-08 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
KR102386863B1 (ko) | 2015-09-09 | 2022-04-13 | 삼성전자주식회사 | 사용자 기반 언어 모델 생성 장치, 방법 및 음성 인식 장치 |
US10748528B2 (en) | 2015-10-09 | 2020-08-18 | Mitsubishi Electric Corporation | Language model generating device, language model generating method, and recording medium |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10417328B2 (en) * | 2018-01-05 | 2019-09-17 | Searchmetrics Gmbh | Text quality evaluation methods and processes |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
CN109062888B (zh) * | 2018-06-04 | 2023-03-31 | 昆明理工大学 | 一种出现错误文本输入时的自纠正方法 |
CN110600011B (zh) * | 2018-06-12 | 2022-04-01 | 中国移动通信有限公司研究院 | 一种语音识别方法、装置和计算机可读存储介质 |
CN109190124B (zh) * | 2018-09-14 | 2019-11-26 | 北京字节跳动网络技术有限公司 | 用于分词的方法和装置 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
CN109753648B (zh) * | 2018-11-30 | 2022-12-20 | 平安科技(深圳)有限公司 | 词链模型的生成方法、装置、设备及计算机可读存储介质 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002082690A (ja) * | 2000-09-05 | 2002-03-22 | Nippon Telegr & Teleph Corp <Ntt> | 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体 |
JP2002342323A (ja) * | 2001-05-15 | 2002-11-29 | Mitsubishi Electric Corp | 言語モデル学習装置およびそれを用いた音声認識装置ならびに言語モデル学習方法およびそれを用いた音声認識方法ならびにそれらの方法を記憶した記憶媒体 |
JP2006085179A (ja) * | 2003-01-15 | 2006-03-30 | Matsushita Electric Ind Co Ltd | 放送受信方法、放送受信システム、記録媒体、及びプログラム |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7860706B2 (en) * | 2001-03-16 | 2010-12-28 | Eli Abir | Knowledge system method and appparatus |
US7103534B2 (en) * | 2001-03-31 | 2006-09-05 | Microsoft Corporation | Machine learning contextual approach to word determination for text input via reduced keypad keys |
US20050055199A1 (en) * | 2001-10-19 | 2005-03-10 | Intel Corporation | Method and apparatus to provide a hierarchical index for a language model data structure |
US7143035B2 (en) * | 2002-03-27 | 2006-11-28 | International Business Machines Corporation | Methods and apparatus for generating dialog state conditioned language models |
US7467087B1 (en) * | 2002-10-10 | 2008-12-16 | Gillick Laurence S | Training and using pronunciation guessers in speech recognition |
CN1757229A (zh) * | 2003-01-15 | 2006-04-05 | 松下电器产业株式会社 | 广播接收方法、广播接收系统、记录媒体及程序 |
US7565372B2 (en) * | 2005-09-13 | 2009-07-21 | Microsoft Corporation | Evaluating and generating summaries using normalized probabilities |
US7590626B2 (en) * | 2006-10-30 | 2009-09-15 | Microsoft Corporation | Distributional similarity-based models for query correction |
US7877258B1 (en) * | 2007-03-29 | 2011-01-25 | Google Inc. | Representing n-gram language models for compact storage and fast retrieval |
EP2183685A4 (en) * | 2007-08-01 | 2012-08-08 | Ginger Software Inc | AUTOMATIC CONTEXT-RELATED LANGUAGE CORRECTION AND EXPANSION USING AN INTERNET CORP |
US9892730B2 (en) * | 2009-07-01 | 2018-02-13 | Comcast Interactive Media, Llc | Generating topic-specific language models |
-
2009
- 2009-08-20 JP JP2010525708A patent/JP5459214B2/ja active Active
- 2009-08-20 WO PCT/JP2009/064596 patent/WO2010021368A1/ja active Application Filing
- 2009-08-20 US US13/059,942 patent/US20110161072A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002082690A (ja) * | 2000-09-05 | 2002-03-22 | Nippon Telegr & Teleph Corp <Ntt> | 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体 |
JP2002342323A (ja) * | 2001-05-15 | 2002-11-29 | Mitsubishi Electric Corp | 言語モデル学習装置およびそれを用いた音声認識装置ならびに言語モデル学習方法およびそれを用いた音声認識方法ならびにそれらの方法を記憶した記憶媒体 |
JP2006085179A (ja) * | 2003-01-15 | 2006-03-30 | Matsushita Electric Ind Co Ltd | 放送受信方法、放送受信システム、記録媒体、及びプログラム |
Non-Patent Citations (4)
Title |
---|
CSNG200401130022; 金野弘明: 'かな・漢字文字列を単位とした言語モデルの検討' 情報処理学会研究報告 Vol.2002 No.121 , p.165-170, 社団法人情報処理学会 * |
CSNG200600972028; 高橋力矢: 'N-gramカウントの信頼性を考慮したバックオフスムージング' 日本音響学会2004年春季研究発表会講演論文集-I- 2-8-2, 20040317, p.63-64, 社団法人日本音響学会 * |
JPN6013060159; 高橋力矢: 'N-gramカウントの信頼性を考慮したバックオフスムージング' 日本音響学会2004年春季研究発表会講演論文集-I- 2-8-2, 20040317, p.63-64, 社団法人日本音響学会 * |
JPN6013060161; 金野弘明: 'かな・漢字文字列を単位とした言語モデルの検討' 情報処理学会研究報告 Vol.2002 No.121 , p.165-170, 社団法人情報処理学会 * |
Also Published As
Publication number | Publication date |
---|---|
WO2010021368A1 (ja) | 2010-02-25 |
US20110161072A1 (en) | 2011-06-30 |
JPWO2010021368A1 (ja) | 2012-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5459214B2 (ja) | 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
JP3782943B2 (ja) | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 | |
US7043422B2 (en) | Method and apparatus for distribution-based language model adaptation | |
JP4528535B2 (ja) | テキストから単語誤り率を予測するための方法および装置 | |
AU2010346493B2 (en) | Speech correction for typed input | |
US11024298B2 (en) | Methods and apparatus for speech recognition using a garbage model | |
JP2006058899A (ja) | 発話検索のためのラティス・ベースの検索システムおよび方法 | |
JP5932869B2 (ja) | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム | |
US20100100379A1 (en) | Voice recognition correlation rule learning system, voice recognition correlation rule learning program, and voice recognition correlation rule learning method | |
JP2005208648A (ja) | スイッチング状態空間モデルによるマルチモーダル的変分推論を使用して音声を認識する方法 | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
CN111326144B (zh) | 语音数据处理方法、装置、介质和计算设备 | |
JP2011164175A (ja) | 言語モデル生成装置、そのプログラムおよび音声認識システム | |
US20050187767A1 (en) | Dynamic N-best algorithm to reduce speech recognition errors | |
JP5068225B2 (ja) | 音声ファイルの検索システム、方法及びプログラム | |
JP2010078877A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
CN117043856A (zh) | 高效流式非递归设备上的端到端模型 | |
JP2006012179A (ja) | 自然言語処理装置および自然言語処理方法 | |
KR20060057921A (ko) | 대화형 음성인식 시스템의 인식오류 수정장치 및 그 방법 | |
CN113536029B (zh) | 一种对齐音频和文本的方法、装置、电子设备及存储介质 | |
JP6078435B2 (ja) | 記号列変換方法、音声認識方法、それらの装置及びプログラム | |
US9251135B2 (en) | Correcting N-gram probabilities by page view information | |
KR100277690B1 (ko) | 화행 정보를 이용한 음성 인식 방법 | |
JP2005091518A (ja) | 音声認識装置及び音声認識プログラム | |
JP2001109491A (ja) | 連続音声認識装置および方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120704 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131217 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131230 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5459214 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |