JP2005293580A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2005293580A5 JP2005293580A5 JP2005092423A JP2005092423A JP2005293580A5 JP 2005293580 A5 JP2005293580 A5 JP 2005293580A5 JP 2005092423 A JP2005092423 A JP 2005092423A JP 2005092423 A JP2005092423 A JP 2005092423A JP 2005293580 A5 JP2005293580 A5 JP 2005293580A5
- Authority
- JP
- Japan
- Prior art keywords
- language model
- parameter
- backoff
- interpolation
- storing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Claims (20)
- 削除補間言語モデルのパラメータを記憶する方法であって、
前記削除補間言語モデル用のパラメータのセットを得るステップと、
前記削除補間言語モデル用の少なくとも1つのパラメータをバックオフ言語モデル用のパラメータとして記憶するステップとを含み、
前記削除補間言語モデルのパラメータにより、Nグラム確率を、前記Nグラム確率の相対頻度推定値と、より低次のnグラムの確率との線形補間として決定することが可能であり、
前記バックオフ言語モデルは、前記Nグラム確率をより低次のnグラム、および前記バックオフ言語モデル中で突き止めることができない、任意のNグラムに対するバックオフ重みで置き換えることを特徴とする方法。 - 前記削除補間言語モデル用の少なくとも1つのパラメータを記憶するステップは、単語シーケンスの補間済み確率を前記バックオフ言語モデル中の単語シーケンスの確率として記憶するステップを含むことを特徴とする請求項1に記載の方法。
- 前記補間済み確率を記憶するステップは、前記単語シーケンスの相対頻度がしきい値よりも大きいと判定した後で前記補間済み確率を確率として記憶するステップを含むことを特徴とする請求項2に記載の方法。
- 前記相対頻度は、小数値を有する頻度カウントに基づいて決定されることを特徴とする請求項3に記載の方法。
- 前記補間済み確率を記憶するステップは、前記単語シーケンスが前記バックオフ言語モデル中のnグラムに対するコンテキストを形成すると判定された後で前記補間済み確率を確率として記憶するステップを含むことを特徴とする請求項2に記載の方法。
- 前記削除補間言語モデル用の少なくとも1つのパラメータを記憶するステップは、前記削除補間モデル用の補間重みを前記バックオフ言語モデル用のバックオフ重みとして記憶するステップを含むことを特徴とする請求項1に記載の方法。
- 前記補間重みを記憶するステップはさらに、前記補間重みに関連する単語シーケンスを前記補間重みと同じエントリに記憶するステップを含むことを特徴とする請求項6に記載の方法。
- 前記パラメータのセットを得るステップは、補間重みのセットを訓練するステップを含むことを特徴とする請求項1に記載の方法。
- 前記補間重みのセットを訓練するステップは、頻度カウント範囲のセットごとに別々の重みを訓練するステップを含むことを特徴とする請求項8に記載の方法。
- 前記削除補間言語モデル用の少なくとも1つのパラメータを記憶するステップは、バックオフ言語モデル用のARPAフォーマットに準拠するデータ構造を生み出すように前記少なくとも1つのパラメータを記憶するステップを含むことを特徴とする請求項1に記載の方法。
- コンピュータ実行可能命令を有するコンピュータ可読媒体であって、前記コンピュータ実行可能命令は、
補間の値を通して確率を形成する削除補間言語モデル用のパラメータを識別するステップと、
前記パラメータをバックオフ言語モデル用のバックオフパラメータとしてデータ構造中に配置するステップと
をコンピュータに実行させるための命令であり、
前記バックオフパラメータは、前記Nグラムが前記バックオフ言語モデル中で突き止めることができない場合に、重み付けされたより低次のnグラムの確率をNグラムの確率に対して代用することを特徴とするコンピュータ可読媒体。 - 前記パラメータをデータ構造中に配置するステップは、前記パラメータが前記バックオフ言語モデルの一部として含まれるべきであると判定するステップを含むことを特徴とする請求項11に記載のコンピュータ可読媒体。
- 前記パラメータが前記バックオフ言語モデルの一部として含まれるべきであると判定するステップは、訓練テキスト中における単語シーケンスの頻度がしきい値を超えると判定するステップを含むことを特徴とする請求項12に記載のコンピュータ可読媒体。
- 前記パラメータが前記バックオフ言語モデルの一部として含まれるべきであると判定するステップは、前記パラメータに関連する単語シーケンスが、前記データ構造に記憶されたnグラム中のコンテキストを形成すると判定するステップを含むことを特徴とする請求項12に記載のコンピュータ可読媒体。
- 前記パラメータをデータ構造中に配置するステップは、補間済み確率をnグラムの確率として配置するステップを含むことを特徴とする請求項11に記載のコンピュータ可読媒体。
- 前記パラメータをデータ構造中に配置するステップは、補間重みをコンテキストに対するバックオフ重みとして配置するステップを含むことを特徴とする請求項11に記載のコンピュータ可読媒体。
- 前記データ構造はバックオフ言語モデル用のARPA標準に準拠することを特徴とする請求項11に記載のコンピュータ可読媒体。
- 言語モデルを構築する方法であって、
削除補間を用いて言語モデル用のパラメータを訓練するステップと、
前記訓練されたパラメータの少なくともいくつかを、バックオフ言語モデル用のARPAフォーマットに準拠するデータ構造で記憶するステップと
を含むことを特徴とする方法。 - 前記訓練されたパラメータの少なくともいくつかを記憶するステップは、訓練テキスト中でしきい値量よりも多く出現する単語シーケンスに関連するパラメータを記憶するステップを含むことを特徴とする請求項18に記載の方法。
- 前記訓練されたパラメータの少なくともいくつかを記憶するステップは、前記データ構造に記憶されたnグラム中のコンテキスト単語として出現する単語シーケンスに関連するパラメータを記憶するステップを含むことを特徴とする請求項18に記載の方法。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US10/810,254 US7406416B2 (en) | 2004-03-26 | 2004-03-26 | Representation of a deleted interpolation N-gram language model in ARPA standard format |
| US10/810,254 | 2004-03-26 |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JP2005293580A JP2005293580A (ja) | 2005-10-20 |
| JP2005293580A5 true JP2005293580A5 (ja) | 2008-05-15 |
| JP4974470B2 JP4974470B2 (ja) | 2012-07-11 |
Family
ID=34862105
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2005092423A Expired - Lifetime JP4974470B2 (ja) | 2004-03-26 | 2005-03-28 | Arpa標準フォーマットによる、削除補間nグラム言語モデルの表現 |
Country Status (7)
| Country | Link |
|---|---|
| US (1) | US7406416B2 (ja) |
| EP (1) | EP1580667B1 (ja) |
| JP (1) | JP4974470B2 (ja) |
| KR (1) | KR101120773B1 (ja) |
| CN (1) | CN100535890C (ja) |
| AT (1) | ATE496342T1 (ja) |
| DE (1) | DE602005025955D1 (ja) |
Families Citing this family (17)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8700404B1 (en) | 2005-08-27 | 2014-04-15 | At&T Intellectual Property Ii, L.P. | System and method for using semantic and syntactic graphs for utterance classification |
| US20070078653A1 (en) * | 2005-10-03 | 2007-04-05 | Nokia Corporation | Language model compression |
| US20080282154A1 (en) * | 2006-09-11 | 2008-11-13 | Nurmi Mikko A | Method and apparatus for improved text input |
| US7774197B1 (en) | 2006-09-27 | 2010-08-10 | Raytheon Bbn Technologies Corp. | Modular approach to building large language models |
| US8332207B2 (en) * | 2007-03-26 | 2012-12-11 | Google Inc. | Large language models in machine translation |
| CN102272754B (zh) * | 2008-11-05 | 2015-04-01 | 谷歌公司 | 定制语言模型 |
| US8798983B2 (en) * | 2009-03-30 | 2014-08-05 | Microsoft Corporation | Adaptation for statistical language model |
| US8655647B2 (en) * | 2010-03-11 | 2014-02-18 | Microsoft Corporation | N-gram selection for practical-sized language models |
| US9367526B1 (en) * | 2011-07-26 | 2016-06-14 | Nuance Communications, Inc. | Word classing for language modeling |
| CN102982024B (zh) * | 2011-09-02 | 2016-03-23 | 北京百度网讯科技有限公司 | 一种搜索需求识别方法及装置 |
| CN102509549B (zh) * | 2011-09-28 | 2013-08-14 | 盛乐信息技术(上海)有限公司 | 语言模型训练方法及系统 |
| US9224386B1 (en) | 2012-06-22 | 2015-12-29 | Amazon Technologies, Inc. | Discriminative language model training using a confusion matrix |
| US9292487B1 (en) * | 2012-08-16 | 2016-03-22 | Amazon Technologies, Inc. | Discriminative language model pruning |
| US20150088511A1 (en) * | 2013-09-24 | 2015-03-26 | Verizon Patent And Licensing Inc. | Named-entity based speech recognition |
| KR101509727B1 (ko) | 2013-10-02 | 2015-04-07 | 주식회사 시스트란인터내셔널 | 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 |
| US9400783B2 (en) * | 2013-11-26 | 2016-07-26 | Xerox Corporation | Procedure for building a max-ARPA table in order to compute optimistic back-offs in a language model |
| US10311046B2 (en) * | 2016-09-12 | 2019-06-04 | Conduent Business Services, Llc | System and method for pruning a set of symbol-based sequences by relaxing an independence assumption of the sequences |
Family Cites Families (17)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US1940720A (en) * | 1931-03-16 | 1933-12-26 | Madsen Jens A Windfeld | Water softener |
| US4096017A (en) * | 1977-02-18 | 1978-06-20 | H. C. Price Co. | Method and article for forming field joints on pipe coated with thermoplastic material |
| US4111017A (en) * | 1977-06-21 | 1978-09-05 | The United States Of America As Represented By The United States Department Of Energy | Manually operated coded switch |
| US5258909A (en) * | 1989-08-31 | 1993-11-02 | International Business Machines Corporation | Method and apparatus for "wrong word" spelling error detection and correction |
| US5199464A (en) * | 1989-12-28 | 1993-04-06 | Interprovincial Pipe Line, Inc. | Pipeline repair sleeve assembly having heat sink groove |
| US5267345A (en) * | 1992-02-10 | 1993-11-30 | International Business Machines Corporation | Speech recognition apparatus which predicts word classes from context and words from word classes |
| IT1254723B (it) * | 1992-03-18 | 1995-10-09 | Snam Spa | Procedimento perfezionato per gli interventi di riparazione di danni localizzati alle condotte mediante applicazione di corazze con una guaina protettiva interposta |
| EP0602296A1 (en) * | 1992-12-17 | 1994-06-22 | International Business Machines Corporation | Adaptive method for generating field dependant models for intelligent systems |
| US5467425A (en) * | 1993-02-26 | 1995-11-14 | International Business Machines Corporation | Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models |
| JP2886121B2 (ja) * | 1995-11-10 | 1999-04-26 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 統計的言語モデル生成装置及び音声認識装置 |
| US5937384A (en) | 1996-05-01 | 1999-08-10 | Microsoft Corporation | Method and system for speech recognition using continuous density hidden Markov models |
| US5722463A (en) * | 1996-11-25 | 1998-03-03 | Petro-Line Upgrading Services Ltd. | External pipe reinforcing sleeve |
| CA2192620C (en) * | 1996-12-11 | 2000-08-29 | Gerald Henderson | Pipe repair assembly |
| US6188976B1 (en) * | 1998-10-23 | 2001-02-13 | International Business Machines Corporation | Apparatus and method for building domain-specific language models |
| JP2000250583A (ja) * | 1999-03-02 | 2000-09-14 | Atr Interpreting Telecommunications Res Lab | 統計的言語モデル生成装置及び音声認識装置 |
| JP2000356997A (ja) | 1999-06-15 | 2000-12-26 | Atr Interpreting Telecommunications Res Lab | 統計的言語モデル生成装置及び音声認識装置 |
| JP2001142881A (ja) | 1999-11-16 | 2001-05-25 | Nippon Telegr & Teleph Corp <Ntt> | 統計的言語モデル及びそれを用いた確率計算法 |
-
2004
- 2004-03-26 US US10/810,254 patent/US7406416B2/en not_active Expired - Fee Related
-
2005
- 2005-03-22 EP EP05102283A patent/EP1580667B1/en not_active Expired - Lifetime
- 2005-03-22 DE DE602005025955T patent/DE602005025955D1/de not_active Expired - Lifetime
- 2005-03-22 AT AT05102283T patent/ATE496342T1/de not_active IP Right Cessation
- 2005-03-25 KR KR1020050024895A patent/KR101120773B1/ko not_active Expired - Fee Related
- 2005-03-25 CN CNB2005100601536A patent/CN100535890C/zh not_active Expired - Fee Related
- 2005-03-28 JP JP2005092423A patent/JP4974470B2/ja not_active Expired - Lifetime
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2005293580A5 (ja) | ||
| JP2014509757A5 (ja) | ||
| JP2015526797A5 (ja) | ||
| JP5932869B2 (ja) | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム | |
| JP2005242998A5 (ja) | ||
| JP2019032875A5 (ja) | ||
| CN106503231B (zh) | 基于人工智能的搜索方法和装置 | |
| CN106709345A (zh) | 基于深度学习方法推断恶意代码规则的方法、系统及设备 | |
| CN108959474B (zh) | 实体关系提取方法 | |
| RU2017137748A (ru) | Моделирование персональных объектов | |
| JP2018010699A5 (ja) | ||
| WO2017139539A3 (en) | Electronic message information retrieval system | |
| JP2011163345A5 (ja) | ||
| JP2005063257A5 (ja) | ||
| JP2007279744A5 (ja) | ||
| RU2011140488A (ru) | Основанные на показателях события для социальных сетей | |
| JP2015534174A5 (ja) | ||
| CN102402502A (zh) | 用于搜索引擎的分词处理方法和装置 | |
| CN109255115A (zh) | 一种文本标点调整方法及装置 | |
| CN103106264B (zh) | 一种地名匹配方法及装置 | |
| JP5790646B2 (ja) | パープレキシティ算出装置 | |
| EP4020305A1 (en) | Pre-trained language model fine-tuning method and apparatus and non-transitory computer-readable medium | |
| CN111339248A (zh) | 数据属性填充方法、装置、设备及计算机可读存储介质 | |
| CN111179944A (zh) | 语音唤醒及年龄检测方法、装置及计算机可读存储介质 | |
| JP6759917B2 (ja) | 文章生成装置および文章生成方法 |