JP5331801B2 - 言語モデル先読み確率を計算する方法および装置 - Google Patents
言語モデル先読み確率を計算する方法および装置 Download PDFInfo
- Publication number
- JP5331801B2 JP5331801B2 JP2010513518A JP2010513518A JP5331801B2 JP 5331801 B2 JP5331801 B2 JP 5331801B2 JP 2010513518 A JP2010513518 A JP 2010513518A JP 2010513518 A JP2010513518 A JP 2010513518A JP 5331801 B2 JP5331801 B2 JP 5331801B2
- Authority
- JP
- Japan
- Prior art keywords
- language model
- probability
- word
- tree
- prefetch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 78
- 238000013519 translation Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 description 15
- 238000013138 pruning Methods 0.000 description 11
- 238000007796 conventional method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012268 genome sequencing Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Description
第1の低次言語モデルを使用して語彙の単語それぞれに言語モデル確率を割り当てる手段と、
第1の言語モデルを使用してツリーのすべてのノードの言語先読み確率を計算する手段と、
語彙の1つまたは複数の単語の言語モデル確率が、より高次の言語モデルを使用して計算することができるかどうか判定し、単語をより高次の言語モデルを用いて更新する手段と、
言語モデルが更新されている単語によって影響を受けるノードにおいてのみ先読み確率を更新する手段と
を備えるシステムを提供する。
音声を受け取る手段と、
音声から音響信号を抽出し、音声に含まれる単語の第1の確率を求める手段と、
前述のような言語モデル先読みツリーの各ノードにおける先読み確率を計算するシステムを備える、音声に含まれる単語の第2の確率を求めるための言語モデルを提供する手段と、
第1の確率と第2の確率を組み合わせ、受取り音声から認識される単語を出力する手段と
を備える自動音声認識システムを提供する。
第1の低次言語モデルを使用して語彙の単語それぞれに言語モデル確率を割り当てることと、
第1の言語モデルを使用してツリーのすべてのノードの言語先読み確率を計算することと、
語彙の1つまたは複数の単語の言語モデル確率が、より高次の言語モデルを使用して計算することができるかどうか判定し、単語をより高次の言語モデルを用いて更新することと、
言語モデルが更新されている単語による影響を受けるノードにおいてのみ先読み確率を更新することと
を備える方法を提供する。
言語モデル先読み確率をより低次の言語モデルにリセットし、
語彙の1つまたは複数の単語の言語モデル確率を、より高次の言語モデルを使用して計算することができるかどうか判定し、単語をより高次の言語モデル確率を用いて更新し、
言語モデルが更新されている単語により影響を受けるノードにおいてのみ先読み確率を更新する
ことによって構築することができる。
音声を受け取ることと、
音声から音響信号を抽出し、音響信号に基づいて音声に含まれる単語の確率を求めることと、
前述のように言語モデル先読みツリーの各ノードにおける先読み確率を計算することを備える言語モデルを提供することと、
受取り音声から認識される単語を出力することと
を備える自動音声認識方法を提供する。
i.復号の一般的問題は、入力信号に含まれる「単語」の列を見つけることである。「単語」は、言語モデル(LM)における統計的単位の列である。
本特許において考慮される復号タスクでは、各単語は1つまたは複数のサブワード単位、例えば、音声における単音、OCRなどにおける文字、「sat/s A t/,sang/s A n g/」などとして表すことができる。
発音辞書は、探索空間における単語集合の一般的表現であり、多くの場合、単語ネットワークによって表され、単語ネットワーク内の各パスは単語のサブワード列を表す。広く使用されている単語木は、単語ネットワークの特殊例である。
この実施形態の方法を使用すれば、LM先読み確率を計算するCPUコストを著しく低減することができる。
は全認識語彙よりずっと小さい。したがって、集合N内のノードの数は、LM先読みネットワーク内のノードの総数よりずっと少ない。
Claims (25)
- 言語の語彙の単語がツリーの葉のところに位置する言語モデル先読みツリーのノードに
おける先読み確率を計算するシステムであって、
前記葉に相当する前記語彙の前記単語に第1の低次言語モデル確率を割り当て、ノード
に前記先読み確率を計算することにより、第1の低次言語モデル先読みツリーを生成する
生成手段と、
前記語彙の1つまたは複数の単語の前記第1の低次言語モデル確率を、より高次の言語
モデルを使用して計算することができるかどうか判定し、前記単語の前記第1の低次言語
モデル確率を前記より高次の言語モデルを用いて更新する第1更新手段と、
前記第1の低次言語モデル確率が更新された前記単語による影響を受ける前記第1の低
次言語モデル先読みツリーのノードについて前記先読み確率を更新する第2更新手段と
を備え、前記第1の低次言語モデル先読みツリーの次数は、前記より高次の言語モデルに
対して1ほど低い、システム。 - 前記生成手段は、バックオフパラメータを用いて前記第1の低次言語モデル確率を割り
当てる、請求項1に記載のシステム。 - 前記第1更新手段は、単語が、以前に認識された単語と組み合わさって出現しているか
どうか判定することにより、前記第1の低次言語モデル確率を、より高次の言語モデルを
使用して計算することができるかどうか判定する請求項1に記載のシステム。 - 前記より高次の言語モデルは、バイグラム、トライグラム、フォーグラム、またはより
高次のnグラムモデルである請求項1に記載のシステム。 - マルチキャッシュ構造を有し、キャッシュの数がシステムで使用されるnグラムモデル
の次数に等しいメモリをさらに備える請求項4に記載のシステム。 - 音声を受け取る手段と、
前記音声から音響信号を抽出し、前記音声に含まれる単語の第1の確率を求める手段と
、
請求項1に記載の言語モデル先読みツリーのノードにおける先読み確率を計算するシス
テムを備える、前記音声に含まれる前記単語の第2の確率を求めるための言語モデルを提
供する手段と、
前記第1の確率と前記第2の確率を組み合わせ、前記音声から認識される前記単語を出
力する手段と
を備える自動音声認識システム。 - 請求項6に記載の自動音声認識システムと、前記出力される単語を翻訳すべき目的言語
に変換する手段とを備える音声−音声翻訳システム。 - スキャンテキストを受け取る手段と、
前記テキストに含まれる単語の第1の確率を求める手段と、
請求項1に記載の言語モデル先読みツリーのノードにおける先読み確率を計算するシス
テムを備える、前記スキャンテキストに含まれる前記単語の第2の確率を求めるための言
語モデルを提供する手段と、
前記第1の確率と前記第2の確率を組み合わせ、前記スキャンテキストから認識される
前記単語を、コンピュータが読み取ることのできる書式で出力する手段と
を備えるOCRシステム。 - 手書きテキストを受け取る手段と、
前記テキストに含まれる単語の第1の確率を求める手段と、
請求項1に記載の言語モデル先読みツリーのノードにおける先読み確率を計算するシス
テムを備える、前記テキストに含まれる前記単語の第2の確率を求めるための言語モデル
を提供する手段と、
前記第1の確率と前記第2の確率を組み合わせ、前記手書きテキストから認識される前
記単語を、コンピュータが読み取ることのできる書式で出力する手段と
を備える手書き文字認識システム。 - 1つまたは複数の単語の更新を、より高次の言語モデル確率を用いて複数回にわたって
繰り返し、更新毎に前記言語モデル先読みツリーの次数を1づつ上げる、請求項1記載の
システム。 - 前記第1の低次言語モデル先読みツリーは、以前に更新された言語モデル先読みツリー
からなるものであって、該更新された言語モデル先読みツリーの次数は、該更新された言
語モデル先読みツリーの更新に用いられた前記より高次の言語モデルの次数に等しい、請
求項1記載のシステム。 - キャッシュをさらに具備し、前記以前に更新された言語モデル先読みツリーを前記キャ
ッシュから取得する、請求項11記載のシステム。 - 前記第1の低次言語モデル先読みツリーはn−1グラム言語モデル先読みツリーであり
、前記より高次の言語モデルはn−グラム言語モデルであり、前記nは少なくとも2以上
の整数である、請求項1記載のシステム。 - 最初の更新においては前記言語モデル先読みツリーをバイグラム言語モデルを用いて更
新し、次回の更新においては更新された当該言語モデル先読みツリーをトライグラム言語
モデルを用いて更新する、前記請求項10記載のシステム。 - 前記第1の低次言語モデル先読みツリーをキャッシュに記憶する請求項1記載のシステ
ム。 - 言語の語彙の単語がツリーの葉のところに位置する言語モデル先読みツリーのノードに
おける先読み確率を計算する方法であって、
コンピュータが、
前記葉に相当する前記語彙の前記単語に第1の低次言語モデル確率を割り当て、ノード
に前記先読み確率を計算することにより、第1の低次言語モデル先読みツリーを生成する
生成ステップと、
前記語彙の1つまたは複数の単語の前記第1の低次言語モデル確率を、より高次の言語
モデルを使用して計算することができるかどうか判定し、前記単語の前記第1の低次言語
モデル確率を前記より高次の言語モデルを用いて更新する第1更新ステップと、
前記第1の低次言語モデル確率が更新された前記単語による影響を受ける前記第1の低
次言語モデル先読みツリーのノードについて前記先読み確率を更新する第2更新ステップ
と
を実行し、
前記第1の低次言語モデル先読みツリーの次元は、前記より高次の言語モデルに対して
一次元ほど低い、方法。 - 前記生成ステップは、バックオフパラメータを用いて前記第1の低次言語モデル確率を
割り当てる、請求項16に記載の方法。 - 前記第1更新ステップは、単語が、以前に認識された単語と組み合わさって出現してい
るかどうか判定することにより、前記第1の低次言語モデル確率を、より高次の言語モデ
ルを使用して計算することができるかどうか判定する、請求項16に記載の方法。 - 前記より高次のモデルは、バイグラム、トライグラム、フォーグラムまたはより高次の
nグラムモデルである請求項16に記載の方法。 - 前記更新された第1の低次言語モデル先読みツリーを用いて後続の信号を復号するステ
ップをさらに備える請求項16に記載の方法。 - 音声を受け取ることと、
前記音声から音響信号を抽出し、前記音響信号に基づいて前記音声に含まれる単語の確
率を求めることと、
請求項16に記載の言語モデル先読みツリーのノードにおける先読み確率を計算するこ
とを備える言語モデルを提供することと、
前記単語の確率と前記先読み確率を用いて、前記音声から認識される前記単語を出力す
ることと
を備える自動音声認識の方法。 - 請求項21に記載の自動音声認識の方法と、前記出力される単語を翻訳すべき目的言語
に変換することとを備える音声−音声翻訳の方法。 - スキャンテキストを受け取ることと、
前記テキストに含まれる単語の第1の確率を求めることと、
請求項16に記載の言語モデル先読みツリーのノードにおける先読み確率を計算する方
法を備える、前記スキャンテキストに含まれる前記単語の第2の確率を求めるための言語
モデルを提供することと、
前記第1の確率と前記第2の確率を組み合わせ、前記スキャンテキストから認識される
前記単語を、コンピュータが読み取ることのできる書式で出力することと
を備えるOCRの方法。 - 手書きテキストを受け取ることと、
前記テキストに含まれる単語の第1の確率を求めることと、
請求項16に記載の言語モデル先読みツリーのノードにおける先読み確率を計算する方
法を備える、前記テキストに含まれる前記単語の第2の確率を求めるための言語モデルを
提供することと、
前記第1の確率と前記第2の確率を組み合わせ、前記手書きテキストから認識される前
記単語を出力することと
を備える手書き文字認識の方法。 - 請求項16から24のいずれか1項に記載の方法を実行するようにコンピュータを制御
するプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0719453A GB2453366B (en) | 2007-10-04 | 2007-10-04 | Automatic speech recognition method and apparatus |
GB0719453.3 | 2007-10-04 | ||
PCT/JP2008/068322 WO2009044931A1 (en) | 2007-10-04 | 2008-10-02 | Automatic speech recognition method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010540976A JP2010540976A (ja) | 2010-12-24 |
JP5331801B2 true JP5331801B2 (ja) | 2013-10-30 |
Family
ID=38739167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010513518A Active JP5331801B2 (ja) | 2007-10-04 | 2008-10-02 | 言語モデル先読み確率を計算する方法および装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8311825B2 (ja) |
JP (1) | JP5331801B2 (ja) |
CN (1) | CN101548285A (ja) |
GB (1) | GB2453366B (ja) |
WO (1) | WO2009044931A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU209152U1 (ru) * | 2021-04-18 | 2022-02-03 | Общество с ограниченной ответственностью "Информационные технологии" (ООО "ИнфоТех") | Планка стопорная для крепления боковых накладок изолирующего стыка |
Families Citing this family (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8510109B2 (en) | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
US9973450B2 (en) | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
US8718202B2 (en) | 2008-08-11 | 2014-05-06 | Texas Instruments Incorporated | Reduced complexity viterbi decoding |
CN102334119B (zh) * | 2009-02-26 | 2014-05-21 | 国立大学法人丰桥技术科学大学 | 声音检索装置及声音检索方法 |
JP4757936B2 (ja) * | 2009-07-23 | 2011-08-24 | Kddi株式会社 | パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体 |
US9069755B2 (en) * | 2010-03-11 | 2015-06-30 | Microsoft Technology Licensing, Llc | N-gram model smoothing with independently controllable parameters |
US8655647B2 (en) * | 2010-03-11 | 2014-02-18 | Microsoft Corporation | N-gram selection for practical-sized language models |
US8914286B1 (en) * | 2011-04-14 | 2014-12-16 | Canyon IP Holdings, LLC | Speech recognition with hierarchical networks |
US8676580B2 (en) * | 2011-08-16 | 2014-03-18 | International Business Machines Corporation | Automatic speech and concept recognition |
US9053361B2 (en) | 2012-01-26 | 2015-06-09 | Qualcomm Incorporated | Identifying regions of text to merge in a natural image or video frame |
US9064191B2 (en) | 2012-01-26 | 2015-06-23 | Qualcomm Incorporated | Lower modifier detection and extraction from devanagari text images to improve OCR performance |
US9514739B2 (en) * | 2012-06-06 | 2016-12-06 | Cypress Semiconductor Corporation | Phoneme score accelerator |
US9224384B2 (en) * | 2012-06-06 | 2015-12-29 | Cypress Semiconductor Corporation | Histogram based pre-pruning scheme for active HMMS |
US9489940B2 (en) * | 2012-06-11 | 2016-11-08 | Nvoq Incorporated | Apparatus and methods to update a language model in a speech recognition system |
US9224386B1 (en) | 2012-06-22 | 2015-12-29 | Amazon Technologies, Inc. | Discriminative language model training using a confusion matrix |
US9141874B2 (en) | 2012-07-19 | 2015-09-22 | Qualcomm Incorporated | Feature extraction and use with a probability density function (PDF) divergence metric |
US9262699B2 (en) | 2012-07-19 | 2016-02-16 | Qualcomm Incorporated | Method of handling complex variants of words through prefix-tree based decoding for Devanagiri OCR |
US9014480B2 (en) | 2012-07-19 | 2015-04-21 | Qualcomm Incorporated | Identifying a maximally stable extremal region (MSER) in an image by skipping comparison of pixels in the region |
US9047540B2 (en) | 2012-07-19 | 2015-06-02 | Qualcomm Incorporated | Trellis based word decoder with reverse pass |
US9076242B2 (en) | 2012-07-19 | 2015-07-07 | Qualcomm Incorporated | Automatic correction of skew in natural images and video |
US9292487B1 (en) * | 2012-08-16 | 2016-03-22 | Amazon Technologies, Inc. | Discriminative language model pruning |
US9922641B1 (en) * | 2012-10-01 | 2018-03-20 | Google Llc | Cross-lingual speaker adaptation for multi-lingual speech synthesis |
CN103035238B (zh) * | 2012-11-27 | 2014-09-17 | 中国科学院自动化研究所 | 音频数据的编码方法及解码方法 |
US9047268B2 (en) * | 2013-01-31 | 2015-06-02 | Google Inc. | Character and word level language models for out-of-vocabulary text input |
US9454240B2 (en) | 2013-02-05 | 2016-09-27 | Google Inc. | Gesture keyboard input of non-dictionary character strings |
US20140278357A1 (en) * | 2013-03-14 | 2014-09-18 | Wordnik, Inc. | Word generation and scoring using sub-word segments and characteristic of interest |
US8756499B1 (en) * | 2013-04-29 | 2014-06-17 | Google Inc. | Gesture keyboard input of non-dictionary character strings using substitute scoring |
US9460088B1 (en) * | 2013-05-31 | 2016-10-04 | Google Inc. | Written-domain language modeling with decomposition |
US10102851B1 (en) * | 2013-08-28 | 2018-10-16 | Amazon Technologies, Inc. | Incremental utterance processing and semantic stability determination |
US9507852B2 (en) * | 2013-12-10 | 2016-11-29 | Google Inc. | Techniques for discriminative dependency parsing |
JP6301647B2 (ja) | 2013-12-24 | 2018-03-28 | 株式会社東芝 | 探索装置、探索方法およびプログラム |
JP6404564B2 (ja) | 2013-12-24 | 2018-10-10 | 株式会社東芝 | デコーダ、デコード方法およびプログラム |
JP6315980B2 (ja) | 2013-12-24 | 2018-04-25 | 株式会社東芝 | デコーダ、デコード方法およびプログラム |
US9195656B2 (en) | 2013-12-30 | 2015-11-24 | Google Inc. | Multilingual prosody generation |
US9189708B2 (en) * | 2013-12-31 | 2015-11-17 | Google Inc. | Pruning and label selection in hidden markov model-based OCR |
JP6301664B2 (ja) | 2014-01-31 | 2018-03-28 | 株式会社東芝 | 変換装置、パターン認識システム、変換方法およびプログラム |
US9263042B1 (en) * | 2014-07-25 | 2016-02-16 | Google Inc. | Providing pre-computed hotword models |
JP6301794B2 (ja) | 2014-09-18 | 2018-03-28 | 株式会社東芝 | オートマトン変形装置、オートマトン変形方法およびプログラム |
JP6453631B2 (ja) | 2014-11-28 | 2019-01-16 | 株式会社東芝 | 認識システム、認識方法およびプログラム |
JP6562698B2 (ja) | 2015-04-28 | 2019-08-21 | 株式会社東芝 | ラティス確定装置、パターン認識装置、ラティス確定方法およびプログラム |
CN106683677B (zh) | 2015-11-06 | 2021-11-12 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
US20180018973A1 (en) | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
JP2018013590A (ja) | 2016-07-20 | 2018-01-25 | 株式会社東芝 | 生成装置、認識システム、有限状態トランスデューサの生成方法、および、データ |
US10311046B2 (en) * | 2016-09-12 | 2019-06-04 | Conduent Business Services, Llc | System and method for pruning a set of symbol-based sequences by relaxing an independence assumption of the sequences |
US10460727B2 (en) | 2017-03-03 | 2019-10-29 | Microsoft Technology Licensing, Llc | Multi-talker speech recognizer |
US10461152B2 (en) * | 2017-07-10 | 2019-10-29 | Globalfoundries Inc. | Radio frequency switches with air gap structures |
CN110364171B (zh) * | 2018-01-09 | 2023-01-06 | 深圳市腾讯计算机系统有限公司 | 一种语音识别方法、语音识别系统及存储介质 |
CN111813891B (zh) * | 2019-04-12 | 2024-03-26 | 北京地平线机器人技术研发有限公司 | 语言模型的训练、预测词的出现概率的方法和装置 |
CN112767921A (zh) * | 2021-01-07 | 2021-05-07 | 国网浙江省电力有限公司 | 一种基于缓存语言模型的语音识别自适应方法和系统 |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4831550A (en) * | 1986-03-27 | 1989-05-16 | International Business Machines Corporation | Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events |
US5241619A (en) * | 1991-06-25 | 1993-08-31 | Bolt Beranek And Newman Inc. | Word dependent N-best search method |
CA2126380C (en) * | 1993-07-22 | 1998-07-07 | Wu Chou | Minimum error rate training of combined string models |
JP2905674B2 (ja) * | 1993-10-04 | 1999-06-14 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 不特定話者連続音声認識方法 |
JP3304665B2 (ja) * | 1995-02-17 | 2002-07-22 | 松下電器産業株式会社 | 音声認識装置 |
ES2164870T3 (es) * | 1995-03-07 | 2002-03-01 | British Telecomm | Reconocimiento del habla. |
JPH11344991A (ja) * | 1998-05-30 | 1999-12-14 | Brother Ind Ltd | 音声認識装置および記憶媒体 |
JP2938865B1 (ja) * | 1998-08-27 | 1999-08-25 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声認識装置 |
JP3252815B2 (ja) * | 1998-12-04 | 2002-02-04 | 日本電気株式会社 | 連続音声認識装置及び方法 |
US6374217B1 (en) * | 1999-03-12 | 2002-04-16 | Apple Computer, Inc. | Fast update implementation for efficient latent semantic language modeling |
JP4289715B2 (ja) * | 1999-04-02 | 2009-07-01 | キヤノン株式会社 | 音声認識装置及び音声認識方法並びにその方法に用いられる木構造辞書の作成方法 |
AU7938300A (en) * | 1999-10-06 | 2001-05-10 | Lernout And Hauspie Speech Products N.V. | Attribute-based word modeling |
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7392185B2 (en) * | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
WO2001048737A2 (en) * | 1999-12-23 | 2001-07-05 | Intel Corporation | Speech recognizer with a lexical tree based n-gram language model |
JP2001249684A (ja) * | 2000-03-02 | 2001-09-14 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
US6856956B2 (en) * | 2000-07-20 | 2005-02-15 | Microsoft Corporation | Method and apparatus for generating and displaying N-best alternatives in a speech recognition system |
JP2002366187A (ja) * | 2001-06-08 | 2002-12-20 | Sony Corp | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 |
JP4215418B2 (ja) * | 2001-08-24 | 2009-01-28 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム |
US20040148170A1 (en) * | 2003-01-23 | 2004-07-29 | Alejandro Acero | Statistical classifiers for spoken language understanding and command/control scenarios |
US7464031B2 (en) * | 2003-11-28 | 2008-12-09 | International Business Machines Corporation | Speech recognition utilizing multitude of speech features |
US8069045B2 (en) * | 2004-02-26 | 2011-11-29 | International Business Machines Corporation | Hierarchical approach for the statistical vowelization of Arabic text |
JP4521631B2 (ja) * | 2004-03-16 | 2010-08-11 | 株式会社国際電気通信基礎技術研究所 | 木構造辞書を記録した記憶媒体、及び木構造辞書の言語スコアテーブル作成プログラム |
GB0420464D0 (en) * | 2004-09-14 | 2004-10-20 | Zentian Ltd | A speech recognition circuit and method |
US7634406B2 (en) * | 2004-12-10 | 2009-12-15 | Microsoft Corporation | System and method for identifying semantic intent from acoustic information |
US7574358B2 (en) * | 2005-02-28 | 2009-08-11 | International Business Machines Corporation | Natural language system and method based on unisolated performance metric |
JP4769031B2 (ja) * | 2005-06-24 | 2011-09-07 | マイクロソフト コーポレーション | 言語モデルを作成する方法、かな漢字変換方法、その装置、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体 |
US7809568B2 (en) * | 2005-11-08 | 2010-10-05 | Microsoft Corporation | Indexing and searching speech with text meta-data |
US20070164782A1 (en) * | 2006-01-17 | 2007-07-19 | Microsoft Corporation | Multi-word word wheeling |
US20070179784A1 (en) * | 2006-02-02 | 2007-08-02 | Queensland University Of Technology | Dynamic match lattice spotting for indexing speech content |
JP4689497B2 (ja) * | 2006-02-28 | 2011-05-25 | 三菱電機株式会社 | 音声認識装置 |
US7617103B2 (en) * | 2006-08-25 | 2009-11-10 | Microsoft Corporation | Incrementally regulated discriminative margins in MCE training for speech recognition |
JP5319141B2 (ja) * | 2007-03-19 | 2013-10-16 | 株式会社東芝 | 言語モデルの枝刈り方法及び装置 |
US20090326945A1 (en) * | 2008-06-26 | 2009-12-31 | Nokia Corporation | Methods, apparatuses, and computer program products for providing a mixed language entry speech dictation system |
-
2007
- 2007-10-04 GB GB0719453A patent/GB2453366B/en not_active Expired - Fee Related
-
2008
- 2008-10-02 WO PCT/JP2008/068322 patent/WO2009044931A1/en active Application Filing
- 2008-10-02 CN CNA2008800009507A patent/CN101548285A/zh active Pending
- 2008-10-02 JP JP2010513518A patent/JP5331801B2/ja active Active
- 2008-10-03 US US12/244,997 patent/US8311825B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU209152U1 (ru) * | 2021-04-18 | 2022-02-03 | Общество с ограниченной ответственностью "Информационные технологии" (ООО "ИнфоТех") | Планка стопорная для крепления боковых накладок изолирующего стыка |
Also Published As
Publication number | Publication date |
---|---|
JP2010540976A (ja) | 2010-12-24 |
US8311825B2 (en) | 2012-11-13 |
WO2009044931A1 (en) | 2009-04-09 |
CN101548285A (zh) | 2009-09-30 |
GB0719453D0 (en) | 2007-11-14 |
GB2453366A (en) | 2009-04-08 |
GB2453366B (en) | 2011-04-06 |
US20090099841A1 (en) | 2009-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5331801B2 (ja) | 言語モデル先読み確率を計算する方法および装置 | |
US10127902B2 (en) | Optimizations to decoding of WFST models for automatic speech recognition | |
JP6346893B2 (ja) | ハイブリッドgpu/cpuデータ処理方法 | |
Ravishankar | Efficient algorithms for speech recognition | |
CN104681036B (zh) | 一种语言音频的检测系统及方法 | |
US8229731B2 (en) | Systems and methods for fast and memory efficient machine translation using statistical integrated phase lattice | |
JP4215418B2 (ja) | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム | |
Shao et al. | A one-pass real-time decoder using memory-efficient state network | |
Hacioglu et al. | On lexicon creation for Turkish LVCSR | |
JP5319141B2 (ja) | 言語モデルの枝刈り方法及び装置 | |
JP6772394B1 (ja) | 情報学習装置、情報処理装置、情報学習方法、情報処理方法及びプログラム | |
KR20050036303A (ko) | 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법 | |
JP4528540B2 (ja) | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 | |
Lei et al. | Data-driven lexicon expansion for Mandarin broadcast news and conversation speech recognition | |
KR100277690B1 (ko) | 화행 정보를 이용한 음성 인식 방법 | |
JP2938865B1 (ja) | 音声認識装置 | |
JP6078435B2 (ja) | 記号列変換方法、音声認識方法、それらの装置及びプログラム | |
Varjokallio et al. | A Toolkit for Efficient Learning of Lexical Units for Speech Recognition. | |
JP6277659B2 (ja) | 音声認識装置および音声認識方法 | |
Hasegawa-Johnson et al. | Fast transcription of speech in low-resource languages | |
Ni et al. | Investigation of using different Chinese word segmentation standards and algorithms for automatic speech recognition | |
JP3969079B2 (ja) | 音声認識装置および方法、記録媒体、並びにプログラム | |
Chen et al. | Efficient language model look-ahead probabilities generation using lower order LM look-ahead information | |
Si et al. | Recurrent neural network language model in mandarin voice input system | |
Seward | Efficient methods for automatic speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121030 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130104 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130426 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20130509 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130705 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130729 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5331801 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |