JP5475795B2 - カスタム言語モデル - Google Patents
カスタム言語モデル Download PDFInfo
- Publication number
- JP5475795B2 JP5475795B2 JP2011534984A JP2011534984A JP5475795B2 JP 5475795 B2 JP5475795 B2 JP 5475795B2 JP 2011534984 A JP2011534984 A JP 2011534984A JP 2011534984 A JP2011534984 A JP 2011534984A JP 5475795 B2 JP5475795 B2 JP 5475795B2
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- user
- clusters
- vector
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 claims description 88
- 238000000034 method Methods 0.000 claims description 37
- 238000004590 computer program Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 10
- 230000000875 corresponding effect Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 238000013515 script Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
図1は、カスタム言語モデル124を生成するためのシステム例100を図示した図である。前記システム100は、第一クライアント112(例えば、デスクトップ・コンピュータ)、第二クライアント114(例えば、携帯電話)、及びサーバ120を有している。前記サーバ120は、対象プロファイル122、カスタム言語モデル124、及び学習用データ126(例えば、構造なしコーパス)を有することができる。
対象プロファイル122は、各ユーザ(又はドメイン)に対して生成可能である。いくつかの実施形態では、前記対象プロファイル122を、識別されたユーザに対して生成する。例えば、前記ユーザは、ログイン情報を提供することによって、彼自身/彼女自身を識別できるとともに、対象プロファイル122は、例えば、識別されたユーザに関連付けられたユーザ辞書といった、前記ユーザに関連付けられたデータに基づいて生成可能である。ユーザ辞書は、例えば、IMEから、及び/又はユーザ入力から所定の単語を有することができる。加えて、ユーザ辞書は、例えば、ユーザの入力履歴中(例として、チャット・テキスト、検索クエリ)の単語数及び頻度といった単語の使用法に関連付けられた統計を有することができる。また、ユーザ入力中に発生するNグラムのような他の統計データは、前記対象プロファイル122内に保存できる。いくつかの実施形態では、対象プロファイル122を、前記ユーザが提供するデータに基づいて前記ユーザに対して生成する。例えば、ユーザは、彼/彼女の入力習性を表す文書を送信できるとともに、対象プロファイル122は、送信文書に基づいて生成可能である。いくつかの実施形態では、前記対象プロファイル122を、前記サーバ120(又はクライアント)上に保存するとともに、再利用する。
tf_idfi,j=tfi,j・idfi,j
前記学習用データ126は、種々の分類方法を使用してサブセットに分類できる。いくつかの実施形態では、前記学習用データ126をサブセットに分類するためにクラスタリングを使用する。例えば、分割最適化クラスタリング(例として、k平均法クラスタリング、LSH(locality sensitive hashing)、グラフ理論法)、又は階層的クラスタリング(例として、凝集型階層的クラスタリング、概念クラスタリング)が、前記学習用データ126を分類するために使用できる。他の例として、特異値分解(SVD)と、潜在意味解析(LSA)と、ニューラル・ネットワークとを使用することで、文書をクラスタと相互に関係付けることができる。他の実施形態が可能である。例えば、前記学習用データ126をサブセットに分類するために、2次分類器、又はk近傍法を使用できる。
図7は、図6の1又は2以上のクラスタ例の選択例を説明する図である。特に、クラスタ510・520は、ユーザ辞書710から対象プロファイルに基づいて選択されている。前述のように、前記対象プロファイルは、前記対象プロファイルと各クラスタ・プロファイルとの間の類似度を決定するために、各クラスタのプロファイルと比較できる。
図8は、カスタム言語モデル810の生成例を説明する図である。前記カスタム言語モデルは、選択された前記クラスタ中の前記文書に基づいて生成できる。前記カスタム言語モデルは、Nグラムと、前記Nグラムが選択された前記クラスタ中の前記文書中に発生するという、対応する確率とを有することができる。
114 第二クライアント
120 サーバ
122 対象プロファイル
124 カスタム言語モデル
126 学習用データ
Claims (15)
- 文書のコレクションを受信する段階と、
前記文書を1又は2以上のクラスタにクラスタリングする段階と、
前記1又は2以上のクラスタの各クラスタに対するクラスタ・ベクトルを生成する段階と、
対象プロファイルに関連付けられた対象ベクトルを生成する段階であって、前記対象ベクトルは識別されたユーザに対して生成されるとともに保存される、段階と、
前記クラスタ・ベクトルの各々と前記対象ベクトルを比較する段階と、
前記クラスタ・ベクトルの各々と前記対象ベクトルとの比較に基づいて前記1又は2以上のクラスタの1又は2以上を選択する段階と、
選択された1又は2以上のクラスタから文書を使用して言語モデルを生成する段階と
を有し、
前記対象ベクトルは、少なくとも1つのユーザ辞書及びユーザ入力から生成することを特徴とする方法。 - 言語モデルを生成する段階は、
前記選択された1又は2以上のクラスタの前記文書からNグラムのコレクションを識別する段階を有し、
各Nグラムは、前記選択された1又は2以上のクラスタの前記文書中の発生に関して、対応する相対頻度を有する
ことを特徴とする請求項1に記載の方法。 - 各クラスタは、トピック又はドメインと関連付けられる
ことを特徴とする請求項1に記載の方法。 - 各クラスタ・ベクトルは、対応するクラスタに対する重心を表す
ことを特徴とする請求項1に記載の方法。 - 前記文書をクラスタリングする段階は、
クラスタに各文書を無作為に割り当てる段階と、
収束するまで、各クラスタに対する重心を繰り返し計算するとともに、最近傍の重心に基づいてクラスタに各文書を再割り当てする段階と、
を有することを特徴とする請求項4に記載の方法。 - 前記対象ベクトルは、用語頻度ベクトルを有する
ことを特徴とする請求項1に記載の方法。 - 前記比較する段階は、
前記対象ベクトルと前記クラスタ・ベクトルの各々との間のコサイン類似度を計算する段階
を有することを特徴とする請求項1に記載の方法。 - 1又は2以上の追加文書を受信する段階と、
前記1又は2以上の追加文書に基づいて前記言語モデルを更新する段階と
を更に有することを特徴とする請求項1に記載の方法。 - 文書のコレクションを受信する段階と、
1又は2以上の一般クラスタに前記文書をクラスタリングする段階と、
前記1又は2以上の一般クラスタの各クラスタに対するクラスタ・ベクトルを生成する段階と、
対象プロファイルに関連付けられた対象ベクトルを生成する段階であって、前記対象ベクトルは識別されたユーザに対して生成されるとともに保存される、段階と、
前記クラスタ・ベクトルの各々と前記対象ベクトルを比較する段階と、
前記クラスタ・ベクトルの各々と前記対象ベクトルとの比較に基づいて前記1又は2以上の一般クラスタの1又は2以上を選択する段階と
を有し、
前記対象ベクトルは、少なくとも1つのユーザ辞書及びユーザ入力から生成することを特徴とする方法。 - 前記選択された1又は2以上の一般クラスタから文書を使用して、言語モデルを生成する段階
をさらに有することを特徴とする請求項9に記載の方法。 - ユーザを識別するユーザ入力を受信する段階と、
前記ユーザに対応するユーザ・プロファイルを識別する段階であって、前記ユーザ・プロファイルは識別されたユーザに対して生成されるとともに保存される、段階と、
ユーザ固有の言語モデルを生成するために識別したプロファイルを使用する段階と、
第一クライアントに前記ユーザ固有の言語モデルを送信する段階と、
文書のコレクションを受信する段階と、
1又は2以上のクラスタに前記文書をクラスタリングする段階と、
前記1又は2以上のクラスタの各クラスタに対するクラスタ・ベクトルを生成する段階と、
前記ユーザ・プロファイルに関連付けられた対象ベクトルを生成する段階と、
前記クラスタ・ベクトルの各々と前記対象ベクトルを比較する段階と、
前記クラスタ・ベクトルの各々と前記対象ベクトルとの比較に基づいて前記1又は2以上のクラスタの1又は2以上を選択する段階と、
を有し、
前記対象ベクトルは、少なくとも1つのユーザ辞書及びユーザ入力から生成することを特徴とする方法。 - 第二クライアントに前記ユーザ固有の言語モデルを送信する段階
をさらに有することを特徴とする請求項11に記載の方法。 - 前記ユーザ固有の言語モデルを生成する段階は、
前記選択された1又は2以上のクラスタの前記文書からNグラムのコレクションを識別する段階をさらに有し、
各Nグラムは、前記選択された1又は2以上のクラスタの前記文書中の発生に関して、対応する相対頻度を有する
ことを特徴とする請求項11に記載の方法。 - 文書のコレクションを受信する段階と、
1又は2以上のクラスタに前記文書をクラスタリングする段階と、
前記1又は2以上のクラスタの各クラスタに対するクラスタ・ベクトルを生成する段階と、
対象プロファイルに関連付けられた対象ベクトルを生成する段階であって、前記対象プロファイルは識別されたユーザに対して生成されるとともに保存される、段階と、
前記クラスタ・ベクトルの各々と前記対象ベクトルを比較する段階と、
前記クラスタ・ベクトルの各々と前記対象ベクトルとの比較に基づいて前記1又は2以上のクラスタの1又は2以上を選択する段階と、
選択された1又は2以上のクラスタから文書を使用して、言語モデルを生成する段階と
を有し、前記対象ベクトルは、少なくとも1つのユーザ辞書及びユーザ入力から生成することを特徴とする動作をデータ処理装置に実行させるように動作可能なコンピュータ・プログラム。 - コンピュータ・プログラムを有する機械可読記録デバイスと、
1又は2以上のコンピュータと
を具備し、
前記1又は2以上のコンピュータは、前記コンピュータ・プログラムを読み込むことで、
文書のコレクションを受信する段階と、
1又は2以上のクラスタに前記文書をクラスタリングする段階と、
前記1又は2以上のクラスタの各クラスタに対するクラスタ・ベクトルを生成する段階と、
対象プロファイルに関連付けられた対象ベクトルを生成する段階であって、前記対象プロファイルは識別されたユーザに対して生成されるとともに保存される、段階と、
前記クラスタ・ベクトルの各々と前記対象ベクトルを比較する段階と、
前記クラスタ・ベクトルの各々と前記対象ベクトルとの比較に基づいて前記1又は2以上のクラスタの1又は2以上を選択する段階と、
選択された1又は2以上のクラスタから文書を使用して、言語モデルを生成する段階と
を有する処理を実行可能であり、
前記対象ベクトルは、少なくとも1つのユーザ辞書及びユーザ入力から生成する
ことを特徴とするシステム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2008/001845 WO2010051654A1 (en) | 2008-11-05 | 2008-11-05 | Custom language models |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012507809A JP2012507809A (ja) | 2012-03-29 |
JP5475795B2 true JP5475795B2 (ja) | 2014-04-16 |
Family
ID=42152444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011534984A Active JP5475795B2 (ja) | 2008-11-05 | 2008-11-05 | カスタム言語モデル |
Country Status (6)
Country | Link |
---|---|
US (1) | US8826226B2 (ja) |
JP (1) | JP5475795B2 (ja) |
KR (1) | KR101537078B1 (ja) |
CN (1) | CN102272754B (ja) |
TW (1) | TWI512502B (ja) |
WO (1) | WO2010051654A1 (ja) |
Families Citing this family (56)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8510109B2 (en) | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
US9973450B2 (en) | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
TWI506019B (zh) * | 2008-12-08 | 2015-11-01 | Basf Se | 製造經取代5-甲氧基甲基吡啶-2,3-二羧酸衍生物之方法 |
DK2982673T3 (en) * | 2008-12-09 | 2018-06-06 | Basf Se | PROCEDURE FOR PREPARING 5-CHLORMETHYLPYRIDINE-2,3-DICARBOXYLYAIC ANHYRIDE |
US8447608B1 (en) * | 2008-12-10 | 2013-05-21 | Adobe Systems Incorporated | Custom language models for audio content |
US20110071817A1 (en) * | 2009-09-24 | 2011-03-24 | Vesa Siivola | System and Method for Language Identification |
US8589163B2 (en) * | 2009-12-04 | 2013-11-19 | At&T Intellectual Property I, L.P. | Adapting language models with a bit mask for a subset of related words |
JP5504097B2 (ja) * | 2010-08-20 | 2014-05-28 | Kddi株式会社 | 意味的に類似している語対を二項関係に分類する二項関係分類プログラム、方法及び装置 |
US9099087B2 (en) * | 2010-09-03 | 2015-08-04 | Canyon IP Holdings, LLC | Methods and systems for obtaining language models for transcribing communications |
US9484018B2 (en) * | 2010-11-23 | 2016-11-01 | At&T Intellectual Property I, L.P. | System and method for building and evaluating automatic speech recognition via an application programmer interface |
US9679561B2 (en) | 2011-03-28 | 2017-06-13 | Nuance Communications, Inc. | System and method for rapid customization of speech recognition models |
US9176941B2 (en) * | 2011-07-14 | 2015-11-03 | Tencent Technology (Shenzhen) Company Limited | Text inputting method, apparatus and system based on a cache-based language model and a universal language model |
US9324323B1 (en) * | 2012-01-13 | 2016-04-26 | Google Inc. | Speech recognition using topic-specific language models |
US8775177B1 (en) | 2012-03-08 | 2014-07-08 | Google Inc. | Speech recognition process |
US20140129221A1 (en) * | 2012-03-23 | 2014-05-08 | Dwango Co., Ltd. | Sound recognition device, non-transitory computer readable storage medium stored threreof sound recognition program, and sound recognition method |
WO2013165334A1 (en) * | 2012-04-29 | 2013-11-07 | Hewlett-Packard Development Company, L.P. | Re-digitization and error correction of electronic documents |
US9620111B1 (en) * | 2012-05-01 | 2017-04-11 | Amazon Technologies, Inc. | Generation and maintenance of language model |
GB201208373D0 (en) * | 2012-05-14 | 2012-06-27 | Touchtype Ltd | Mechanism for synchronising devices,system and method |
US9035884B2 (en) | 2012-10-17 | 2015-05-19 | Nuance Communications, Inc. | Subscription updates in multiple device language models |
US20150278194A1 (en) * | 2012-11-07 | 2015-10-01 | Nec Corporation | Information processing device, information processing method and medium |
US20140278349A1 (en) * | 2013-03-14 | 2014-09-18 | Microsoft Corporation | Language Model Dictionaries for Text Predictions |
US9672818B2 (en) * | 2013-04-18 | 2017-06-06 | Nuance Communications, Inc. | Updating population language models based on changes made by user clusters |
CN104166455B (zh) * | 2013-05-16 | 2018-11-13 | 百度在线网络技术(北京)有限公司 | 用于确定目标用户所对应的输入模型的方法与设备 |
US9728184B2 (en) | 2013-06-18 | 2017-08-08 | Microsoft Technology Licensing, Llc | Restructuring deep neural network acoustic models |
US9311298B2 (en) | 2013-06-21 | 2016-04-12 | Microsoft Technology Licensing, Llc | Building conversational understanding systems using a toolset |
US9589565B2 (en) | 2013-06-21 | 2017-03-07 | Microsoft Technology Licensing, Llc | Environmentally aware dialog policies and response generation |
TWI506458B (zh) | 2013-12-24 | 2015-11-01 | Ind Tech Res Inst | 辨識網路產生裝置及其方法 |
US9552408B2 (en) * | 2014-01-24 | 2017-01-24 | Facebook, Inc. | Nearest neighbor clustering determination and estimation algorithm that hashes centroids into buckets and redistributes vectors between clusters |
US9626426B2 (en) | 2014-01-24 | 2017-04-18 | Facebook, Inc. | Clustering using locality-sensitive hashing with improved cost model |
US20150254233A1 (en) * | 2014-03-06 | 2015-09-10 | Nice-Systems Ltd | Text-based unsupervised learning of language models |
JP6165657B2 (ja) * | 2014-03-20 | 2017-07-19 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
US9564122B2 (en) * | 2014-03-25 | 2017-02-07 | Nice Ltd. | Language model adaptation based on filtered data |
US9529794B2 (en) * | 2014-03-27 | 2016-12-27 | Microsoft Technology Licensing, Llc | Flexible schema for language model customization |
WO2015166508A1 (en) * | 2014-04-30 | 2015-11-05 | Hewlett-Packard Development Company, L.P. | Correlation based instruments discovery |
US9678822B2 (en) * | 2015-01-02 | 2017-06-13 | Tata Consultancy Services Limited | Real-time categorization of log events |
KR102450853B1 (ko) * | 2015-11-30 | 2022-10-04 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
US10032463B1 (en) * | 2015-12-29 | 2018-07-24 | Amazon Technologies, Inc. | Speech processing with learned representation of user interaction history |
RU2634180C1 (ru) * | 2016-06-24 | 2017-10-24 | Акционерное общество "Лаборатория Касперского" | Система и способ определения сообщения, содержащего спам, по теме сообщения, отправленного по электронной почте |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
US10586528B2 (en) * | 2017-02-02 | 2020-03-10 | Adobe Inc. | Domain-specific speech recognizers in a digital medium environment |
WO2019021804A1 (ja) * | 2017-07-24 | 2019-01-31 | ソニー株式会社 | 情報処理装置、および情報処理方法、並びにプログラム |
CA3072444A1 (en) * | 2017-08-10 | 2019-02-14 | The Dun & Bradstreet Corporation | System and method for dynamic synthesis and transient clustering of semantic attributions for feedback and adjudication |
US10515637B1 (en) * | 2017-09-19 | 2019-12-24 | Amazon Technologies, Inc. | Dynamic speech processing |
US10685183B1 (en) * | 2018-01-04 | 2020-06-16 | Facebook, Inc. | Consumer insights analysis using word embeddings |
US10732952B1 (en) * | 2018-02-06 | 2020-08-04 | Intuit, Inc. | Deployment and customization of applications at the widget level |
US11488602B2 (en) | 2018-02-20 | 2022-11-01 | Dropbox, Inc. | Meeting transcription using custom lexicons based on document history |
US10657954B2 (en) * | 2018-02-20 | 2020-05-19 | Dropbox, Inc. | Meeting audio capture and transcription in a collaborative document context |
US10467335B2 (en) | 2018-02-20 | 2019-11-05 | Dropbox, Inc. | Automated outline generation of captured meeting audio in a collaborative document context |
US11106868B2 (en) * | 2018-03-06 | 2021-08-31 | Samsung Electronics Co., Ltd. | System and method for language model personalization |
WO2019212267A1 (en) | 2018-05-02 | 2019-11-07 | Samsung Electronics Co., Ltd. | Contextual recommendation |
CN110968246A (zh) * | 2018-09-28 | 2020-04-07 | 北京搜狗科技发展有限公司 | 中文智能手写输入识别方法及装置 |
US11595484B2 (en) * | 2019-05-03 | 2023-02-28 | Servicenow, Inc. | Centralized machine learning predictor for a remote network management platform |
US11689379B2 (en) | 2019-06-24 | 2023-06-27 | Dropbox, Inc. | Generating customized meeting insights based on user interactions and meeting media |
CN110349569B (zh) * | 2019-07-02 | 2022-04-15 | 思必驰科技股份有限公司 | 定制化产品语言模型的训练和识别方法及装置 |
US11257486B2 (en) * | 2020-02-28 | 2022-02-22 | Intuit Inc. | Machine learning to propose actions in response to natural language questions |
TWI833072B (zh) * | 2021-03-30 | 2024-02-21 | 緯創資通股份有限公司 | 語音辨識系統及語音辨識方法 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5675801A (en) * | 1994-09-30 | 1997-10-07 | International Business Machines Corporation | Object oriented system and method for generating target language code |
US5828999A (en) * | 1996-05-06 | 1998-10-27 | Apple Computer, Inc. | Method and system for deriving a large-span semantic language model for large-vocabulary recognition systems |
US6418431B1 (en) | 1998-03-30 | 2002-07-09 | Microsoft Corporation | Information retrieval and speech recognition based on language models |
JP2001134285A (ja) * | 1999-11-01 | 2001-05-18 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
US7430717B1 (en) * | 2000-09-26 | 2008-09-30 | International Business Machines Corporation | Method for adapting a K-means text clustering to emerging data |
US6934683B2 (en) * | 2001-01-31 | 2005-08-23 | Microsoft Corporation | Disambiguation language model |
JP4067776B2 (ja) * | 2001-03-13 | 2008-03-26 | 三菱電機株式会社 | 言語モデル構成装置及び音声認識装置 |
US7418386B2 (en) * | 2001-04-03 | 2008-08-26 | Intel Corporation | Method, apparatus and system for building a compact language model for large vocabulary continuous speech recognition (LVCSR) system |
US7134075B2 (en) * | 2001-04-26 | 2006-11-07 | International Business Machines Corporation | Conversion of documents between XML and processor efficient MXML in content based routing networks |
JP2003255985A (ja) * | 2002-02-28 | 2003-09-10 | Toshiba Corp | 統計的言語モデル作成方法及び装置並びにプログラム |
JP2004109906A (ja) * | 2002-09-20 | 2004-04-08 | Advanced Telecommunication Research Institute International | テキストクラスタリング方法および音声認識方法 |
CN100380373C (zh) * | 2002-10-29 | 2008-04-09 | 埃里·阿博 | 知识系统方法和装置 |
US7047251B2 (en) * | 2002-11-22 | 2006-05-16 | Accenture Global Services, Gmbh | Standardized customer application and record for inputting customer data into analytic models |
US7283997B1 (en) * | 2003-05-14 | 2007-10-16 | Apple Inc. | System and method for ranking the relevance of documents retrieved by a query |
US7406416B2 (en) * | 2004-03-26 | 2008-07-29 | Microsoft Corporation | Representation of a deleted interpolation N-gram language model in ARPA standard format |
KR100816934B1 (ko) * | 2006-04-13 | 2008-03-26 | 엘지전자 주식회사 | 문서검색 결과를 이용한 군집화 시스템 및 그 방법 |
US7856350B2 (en) * | 2006-08-11 | 2010-12-21 | Microsoft Corporation | Reranking QA answers using language modeling |
US20090299822A1 (en) * | 2006-11-08 | 2009-12-03 | P C Grocery Ltd. | System and method for optimized shopping transactions |
US7617182B2 (en) * | 2007-01-08 | 2009-11-10 | Microsoft Corporation | Document clustering based on entity association rules |
JP2008226104A (ja) * | 2007-03-15 | 2008-09-25 | National Institute Of Information & Communication Technology | 情報処理装置、情報処理方法、及びプログラム |
US8127270B1 (en) * | 2007-04-09 | 2012-02-28 | Cisco Technology, Inc. | Abstracting transformation for model driven architecture |
US7720870B2 (en) * | 2007-12-18 | 2010-05-18 | Yahoo! Inc. | Method and system for quantifying the quality of search results based on cohesion |
CN101226557B (zh) * | 2008-02-22 | 2010-07-14 | 中国科学院软件研究所 | 一种高效的关联主题模型数据处理方法 |
US20140059514A1 (en) * | 2008-11-14 | 2014-02-27 | Adobe Systems Incorporated | Methods and Systems Utilizing Behavioral Data Models |
US8972927B2 (en) * | 2009-09-25 | 2015-03-03 | Adobe Systems Incorporated | Method and system for providing modeled components |
US8949773B2 (en) * | 2010-03-25 | 2015-02-03 | International Business Machines Corporation | Deriving process models from natural language use case models |
-
2008
- 2008-11-05 JP JP2011534984A patent/JP5475795B2/ja active Active
- 2008-11-05 WO PCT/CN2008/001845 patent/WO2010051654A1/en active Application Filing
- 2008-11-05 US US13/127,417 patent/US8826226B2/en active Active
- 2008-11-05 CN CN200880132611.4A patent/CN102272754B/zh active Active
- 2008-11-05 KR KR1020117010447A patent/KR101537078B1/ko active IP Right Grant
-
2009
- 2009-11-05 TW TW098137647A patent/TWI512502B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
US20110296374A1 (en) | 2011-12-01 |
CN102272754B (zh) | 2015-04-01 |
TW201022964A (en) | 2010-06-16 |
TWI512502B (zh) | 2015-12-11 |
US8826226B2 (en) | 2014-09-02 |
KR101537078B1 (ko) | 2015-07-15 |
WO2010051654A1 (en) | 2010-05-14 |
KR20110093785A (ko) | 2011-08-18 |
CN102272754A (zh) | 2011-12-07 |
JP2012507809A (ja) | 2012-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5475795B2 (ja) | カスタム言語モデル | |
US11550871B1 (en) | Processing structured documents using convolutional neural networks | |
US11443170B2 (en) | Semi-supervised training of neural networks | |
US9535896B2 (en) | Systems and methods for language detection | |
US8386240B2 (en) | Domain dictionary creation by detection of new topic words using divergence value comparison | |
US10089576B2 (en) | Representation learning using multi-task deep neural networks | |
US8688727B1 (en) | Generating query refinements | |
US10282419B2 (en) | Multi-domain natural language processing architecture | |
US8918348B2 (en) | Web-scale entity relationship extraction | |
US9727637B2 (en) | Retrieving text from a corpus of documents in an information handling system | |
JP5379138B2 (ja) | 領域辞書の作成 | |
US8073877B2 (en) | Scalable semi-structured named entity detection | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
US9773166B1 (en) | Identifying longform articles | |
US11983502B2 (en) | Extracting fine-grained topics from text content | |
US20170185672A1 (en) | Rank aggregation based on a markov model | |
JP6553180B2 (ja) | 言語検出を行うためのシステムおよび方法 | |
Xu et al. | A new feature selection method based on support vector machines for text categorisation | |
US20230119161A1 (en) | Efficient Index Lookup Using Language-Agnostic Vectors and Context Vectors | |
Pusateri et al. | Connecting and comparing language model interpolation techniques | |
Barkovska et al. | A Conceptual Text Classification Model Based on Two-Factor Selection of Significant Words. | |
US11263394B2 (en) | Low-resource sentence compression system | |
JP2019535082A (ja) | 言語検出のためのシステムおよび方法 | |
Mendes | SmartTags: Continuously learning to suggest news articles according to user preferences | |
JP2019215876A (ja) | 言語検出を行うためのシステムおよび方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130301 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130312 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130516 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130702 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131031 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20131127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140206 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5475795 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |