JP2012527701A - 構造化されていないリソースからの句対のマイニング - Google Patents
構造化されていないリソースからの句対のマイニング Download PDFInfo
- Publication number
- JP2012527701A JP2012527701A JP2012511920A JP2012511920A JP2012527701A JP 2012527701 A JP2012527701 A JP 2012527701A JP 2012511920 A JP2012511920 A JP 2012511920A JP 2012511920 A JP2012511920 A JP 2012511920A JP 2012527701 A JP2012527701 A JP 2012527701A
- Authority
- JP
- Japan
- Prior art keywords
- result
- translation model
- training
- items
- resource
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/49—Data-driven translation using very large corpora, e.g. the web
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
図1は、翻訳モデル102を生成および適用するための1つの例示的なシステム100を示す。翻訳モデル102は、入力句を出力句にマップするための統計的機械翻訳(SMT)モデルに対応し、この場合、「句」はここでは任意の1つまたは複数のテキストストリングを指す。翻訳モデル102は、規則ベースの手法ではなく、統計技術を使用してこの動作を実行する。しかし、もう1つの実施形態では、翻訳モデル102は、規則ベースの手法の1つまたは複数の特徴を組み込むことによって、その統計解析を補完することが可能である。
図6〜8は、図1のシステム100の動作の一様式を説明する手順(600,700、800)を示す。システム100の動作の基礎となる原理は、セクションAですでに紹介されているため、このセクションでは、いくつかの動作は要約の形で対処される。
図9は、上述の機能の任意の態様を実施するために使用可能な例示的な電気データ処理機能性900を記載する。図1および2を参照すると、例えば、システム100またはコンピューティング機能性202の任意の態様などを実施するために、図9に示される処理機能性900のタイプを使用することが可能である。一事例では、処理機能性900は、1つまたは複数の処理デバイスを含む、任意のタイプのコンピューティングデバイスに対応し得る。
Claims (15)
- 電気データ処理機能性を使用して、統計的翻訳モデルをトレーニングする際に使用するためのトレーニングセットを作成するための方法(600)であって、
クエリを構築するステップ(606)と、
前記クエリを電気データ取出しモジュールに提示するステップ(608)であって、前記取出しモジュールは、前記クエリに基づいて、構造化されていないリソース内で探索動作を実行するように構成された、提示するステップ(608)と、
前記取出しモジュールから結果セットを受信するステップ(610)であって、前記結果セットは、前記探索動作の結果として、前記取出しモジュールによって識別された結果項目を提供する、受信するステップ(610)と、
構造化されたトレーニングセットを作成するために、前記結果セットに処理を実行するステップ(612)であって、前記トレーニングセットは、前記結果セット内の前記結果項目の対を識別する、処理を実行するステップ(612)とを備え、
前記トレーニングセットは、それによって電気トレーニングシステムが前記統計的翻訳モデルを学習できる基礎を提供することを特徴とする方法。 - 前記取出しモジュールは探索エンジンであり、前記構造化されていないリソースは、ネットワーク環境を経由してアクセス可能な収集リソース項目であることを特徴とする請求項1に記載の方法。
- 前記ネットワーク環境は広域ネットワークであることを特徴とする請求項2に記載の方法。
- 前記処理を実行するステップは、少なくとも1つの要件に基づいて、前記結果セット内の前記結果項目を制約するステップを含むことを特徴とする請求項1に記載の方法。
- 前記制約するステップは、結果項目に関連するランキングスコアに基づいて、ペアワイズのマッチングに関する候補として前記結果項目を識別するステップを含むことを特徴とする請求項4に記載の方法。
- 前記制約するステップは、結果項目と前記結果セットに関連するそれぞれの語彙的な署名との間の合意に基づいて、ペアワイズのマッチングに関する候補として前記結果項目を識別するステップを含むことを特徴とする請求項4に記載の方法。
- 前記制約するステップは、結果項目のそれぞれの対に関連する類似性スコアに基づいて、ペアワイズのマッチングに関する候補として結果項目を識別するステップを含むことを特徴とする請求項4に記載の方法。
- 前記制約するステップは、結果項目と前記結果項目の識別されたクラスタとの間の関連性に基づいて、ペアワイズでマッチングに関する候補を識別するステップを含むことを特徴とする請求項4に記載の方法。
- 前記処理を実行するステップは、それぞれの結果セットに関して、前記結果セット内の結果項目の対を識別するステップを備えることを特徴とする請求項1に記載の方法。
- 前記結果セット内の前記結果項目は、単一言語テキストコンテンツに対応することを特徴とする請求項1に記載の方法。
- 前記結果セット内の前記結果項目は、二言語テキストコンテンツに対応することを特徴とする請求項1に記載の方法。
- 前記結果項目は、前記取出しモジュールによって前記構造化されていないリソースから取り出されたテキスト区分を備え、前記テキスト区分は、前記構造化されていないリソース内のそれぞれのリソース項目の抜粋に対応することを特徴とする請求項1に記載の方法。
- 前記トレーニングセットに基づいて前記統計的翻訳モデルを生成するステップと、前記統計的翻訳モデルを適用するステップとをさらに備え、前記適用するステップは、
前記統計的翻訳モデルを使用して、探索クエリを拡張するステップ、
前記統計的翻訳モデルを使用して、文書索引付け決定を円滑にするステップ、
前記統計的翻訳モデルを使用して、テキストコンテンツを改正するステップ、または
前記統計的翻訳モデルを使用して、広告情報を拡張するステップのうちの1つを備えることを特徴とする請求項1に記載の方法。 - 統計的翻訳モデル(102)をトレーニングする際に使用するためのトレーニングセットを作成するための電気マイニングシステム(104)であって、
クエリを構築するように構成されたクエリ提示モジュール(112)と、
前記取出しモジュール(116)は、前記クエリに基づいて、構造化されていないリソース(110)内で探索動作を実行するように構成された取出しモジュール(116)に前記クエリを提示し、
前記探索動作の結果として前記取出しモジュール(116)によって識別された結果項目を提供する結果セットを受信するように構成されたインターフェースモジュール(114)と、
構造化されたトレーニングセットを作成するために、前記結果セットに関する処理を実行するように構成された、トレーニングセット準備モジュール(120)であって、前記トレーニングセットは前記結果セット内の結果項目の対を識別する、トレーニングセット準備モジュール(120)とを備え、
前記トレーニングセットは、それによって電気トレーニングシステム(106)が前記統計的翻訳モデル(102)を学習できる基礎を提供し、
前記結果セット内の前記結果項目は、前記取出しモジュール(116)によって前記構造化されていないリソースから取り出されたテキスト区分を備え、前記テキスト区分が、前記構造化されていないリソース内のそれぞれのリソース項目の少なくとも文の断片に対応し、前記リソース項目は、互いに対して事前に識別された関係を有さないことを特徴とする電気マイニングシステム(104)。 - 前記結果セット内の前記結果項目は、単一言語テキストコンテンツに対応し、前記トレーニングシステムによって作成された前記統計的翻訳モデルは、単一言語内の意味的に関係する句同士の間でマップするために使用されていることを特徴とする請求項14に記載のマイニングシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/470,492 US20100299132A1 (en) | 2009-05-22 | 2009-05-22 | Mining phrase pairs from an unstructured resource |
US12/470,492 | 2009-05-22 | ||
PCT/US2010/035033 WO2010135204A2 (en) | 2009-05-22 | 2010-05-14 | Mining phrase pairs from an unstructured resource |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2012527701A true JP2012527701A (ja) | 2012-11-08 |
JP2012527701A5 JP2012527701A5 (ja) | 2013-06-27 |
JP5479581B2 JP5479581B2 (ja) | 2014-04-23 |
Family
ID=43125158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012511920A Expired - Fee Related JP5479581B2 (ja) | 2009-05-22 | 2010-05-14 | 構造化されていないリソースからの句対のマイニング |
Country Status (8)
Country | Link |
---|---|
US (1) | US20100299132A1 (ja) |
EP (1) | EP2433230A4 (ja) |
JP (1) | JP5479581B2 (ja) |
KR (1) | KR101683324B1 (ja) |
CN (1) | CN102439596B (ja) |
BR (1) | BRPI1011214A2 (ja) |
CA (1) | CA2758632C (ja) |
WO (1) | WO2010135204A2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021515322A (ja) * | 2018-05-10 | 2021-06-17 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 翻訳モデルのトレーニング方法、語句翻訳の方法、機器、記憶媒体及びコンピュータプログラム |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110015921A1 (en) * | 2009-07-17 | 2011-01-20 | Minerva Advisory Services, Llc | System and method for using lingual hierarchy, connotation and weight of authority |
US9792638B2 (en) | 2010-03-29 | 2017-10-17 | Ebay Inc. | Using silhouette images to reduce product selection error in an e-commerce environment |
US8861844B2 (en) | 2010-03-29 | 2014-10-14 | Ebay Inc. | Pre-computing digests for image similarity searching of image-based listings in a network-based publication system |
US8412594B2 (en) | 2010-08-28 | 2013-04-02 | Ebay Inc. | Multilevel silhouettes in an online shopping environment |
US9064004B2 (en) * | 2011-03-04 | 2015-06-23 | Microsoft Technology Licensing, Llc | Extensible surface for consuming information extraction services |
CN102789461A (zh) * | 2011-05-19 | 2012-11-21 | 富士通株式会社 | 多语词典构建装置和多语词典构建方法 |
US8909516B2 (en) * | 2011-10-27 | 2014-12-09 | Microsoft Corporation | Functionality for normalizing linguistic items |
US8914371B2 (en) | 2011-12-13 | 2014-12-16 | International Business Machines Corporation | Event mining in social networks |
KR101359718B1 (ko) * | 2012-05-17 | 2014-02-13 | 포항공과대학교 산학협력단 | 대화 관리 시스템 및 방법 |
CN102779186B (zh) * | 2012-06-29 | 2014-12-24 | 浙江大学 | 一种非结构化数据管理的全过程建模方法 |
US9183197B2 (en) | 2012-12-14 | 2015-11-10 | Microsoft Technology Licensing, Llc | Language processing resources for automated mobile language translation |
US20140324879A1 (en) * | 2013-04-27 | 2014-10-30 | DataFission Corporation | Content based search engine for processing unstructured digital data |
US20140350931A1 (en) * | 2013-05-24 | 2014-11-27 | Microsoft Corporation | Language model trained using predicted queries from statistical machine translation |
US9912775B2 (en) * | 2013-12-19 | 2018-03-06 | Intel Corporation | Method and apparatus for communicating between companion devices |
US9881006B2 (en) * | 2014-02-28 | 2018-01-30 | Paypal, Inc. | Methods for automatic generation of parallel corpora |
US9740687B2 (en) | 2014-06-11 | 2017-08-22 | Facebook, Inc. | Classifying languages for objects and entities |
US20160012124A1 (en) * | 2014-07-10 | 2016-01-14 | Jean-David Ruvini | Methods for automatic query translation |
CN104462229A (zh) * | 2014-11-13 | 2015-03-25 | 苏州大学 | 一种事件分类方法及装置 |
US9864744B2 (en) * | 2014-12-03 | 2018-01-09 | Facebook, Inc. | Mining multi-lingual data |
US9830404B2 (en) | 2014-12-30 | 2017-11-28 | Facebook, Inc. | Analyzing language dependency structures |
US10067936B2 (en) | 2014-12-30 | 2018-09-04 | Facebook, Inc. | Machine translation output reranking |
US9830386B2 (en) | 2014-12-30 | 2017-11-28 | Facebook, Inc. | Determining trending topics in social media |
US9477652B2 (en) | 2015-02-13 | 2016-10-25 | Facebook, Inc. | Machine learning dialect identification |
US20160350289A1 (en) * | 2015-06-01 | 2016-12-01 | Linkedln Corporation | Mining parallel data from user profiles |
US20170024701A1 (en) * | 2015-07-23 | 2017-01-26 | Linkedin Corporation | Providing recommendations based on job change indications |
US9734142B2 (en) | 2015-09-22 | 2017-08-15 | Facebook, Inc. | Universal translation |
US9990361B2 (en) * | 2015-10-08 | 2018-06-05 | Facebook, Inc. | Language independent representations |
US10586168B2 (en) | 2015-10-08 | 2020-03-10 | Facebook, Inc. | Deep translations |
US9747281B2 (en) | 2015-12-07 | 2017-08-29 | Linkedin Corporation | Generating multi-language social network user profiles by translation |
US10133738B2 (en) | 2015-12-14 | 2018-11-20 | Facebook, Inc. | Translation confidence scores |
US9734143B2 (en) | 2015-12-17 | 2017-08-15 | Facebook, Inc. | Multi-media context language processing |
US10002125B2 (en) | 2015-12-28 | 2018-06-19 | Facebook, Inc. | Language model personalization |
US9805029B2 (en) | 2015-12-28 | 2017-10-31 | Facebook, Inc. | Predicting future translations |
US9747283B2 (en) | 2015-12-28 | 2017-08-29 | Facebook, Inc. | Predicting future translations |
US10902215B1 (en) | 2016-06-30 | 2021-01-26 | Facebook, Inc. | Social hash for language models |
US10902221B1 (en) | 2016-06-30 | 2021-01-26 | Facebook, Inc. | Social hash for language models |
CN106960041A (zh) * | 2017-03-28 | 2017-07-18 | 山西同方知网数字出版技术有限公司 | 一种基于非平衡数据的知识结构化方法 |
US10380249B2 (en) | 2017-10-02 | 2019-08-13 | Facebook, Inc. | Predicting future trending topics |
KR102100951B1 (ko) * | 2017-11-16 | 2020-04-14 | 주식회사 마인즈랩 | 기계 독해를 위한 질의응답 데이터 생성 시스템 |
CN110110078B (zh) * | 2018-01-11 | 2024-04-30 | 北京搜狗科技发展有限公司 | 数据处理方法和装置、用于数据处理的装置 |
CN109033303B (zh) * | 2018-07-17 | 2021-07-02 | 东南大学 | 一种基于约简锚点的大规模知识图谱融合方法 |
US20210406595A1 (en) * | 2018-12-12 | 2021-12-30 | Microsoft Technology Licensing, Llc | Automatically generating training data sets for object recognition |
US11664010B2 (en) | 2020-11-03 | 2023-05-30 | Florida Power & Light Company | Natural language domain corpus data set creation based on enhanced root utterances |
CN113010643B (zh) * | 2021-03-22 | 2023-07-21 | 平安科技(深圳)有限公司 | 佛学领域词汇的处理方法、装置、设备及存储介质 |
US11656881B2 (en) | 2021-10-21 | 2023-05-23 | Abbyy Development Inc. | Detecting repetitive patterns of user interface actions |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1074210A (ja) * | 1996-07-05 | 1998-03-17 | Hitachi Ltd | 文献検索支援方法及び装置およびこれを用いた文献検索サービス |
JP2001043236A (ja) * | 1999-07-30 | 2001-02-16 | Matsushita Electric Ind Co Ltd | 類似語抽出方法、文書検索方法及びこれらに用いる装置 |
JP2002245070A (ja) * | 2001-02-20 | 2002-08-30 | Hitachi Ltd | データ表示方法及び装置並びにその処理プログラムを記憶した媒体 |
US20020198701A1 (en) * | 2001-06-20 | 2002-12-26 | Moore Robert C. | Statistical method and apparatus for learning translation relationships among words |
US20030204400A1 (en) * | 2002-03-26 | 2003-10-30 | Daniel Marcu | Constructing a translation lexicon from comparable, non-parallel corpora |
US20040102957A1 (en) * | 2002-11-22 | 2004-05-27 | Levin Robert E. | System and method for speech translation using remote devices |
JP2004206517A (ja) * | 2002-12-26 | 2004-07-22 | Nifty Corp | ホットキーワード提示方法及びホットサイト提示方法 |
JP2004252495A (ja) * | 2002-09-19 | 2004-09-09 | Advanced Telecommunication Research Institute International | 統計的機械翻訳装置をトレーニングするためのトレーニングデータを生成する方法および装置、換言装置、ならびに換言装置をトレーニングする方法及びそのためのデータ処理システムおよびコンピュータプログラム |
US20050102614A1 (en) * | 2003-11-12 | 2005-05-12 | Microsoft Corporation | System for identifying paraphrases using machine translation |
JP2005285129A (ja) * | 2004-03-30 | 2005-10-13 | Microsoft Corp | 論理形式のための統計的言語モデル |
JP2006285982A (ja) * | 2005-03-31 | 2006-10-19 | Microsoft Corp | 検索エンジンの関連性を改良するデータマイニング技術 |
US20070067281A1 (en) * | 2005-09-16 | 2007-03-22 | Irina Matveeva | Generalized latent semantic analysis |
Family Cites Families (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997008604A2 (en) * | 1995-08-16 | 1997-03-06 | Syracuse University | Multilingual document retrieval system and method using semantic vector matching |
US6076051A (en) * | 1997-03-07 | 2000-06-13 | Microsoft Corporation | Information retrieval utilizing semantic representation of text |
US6243669B1 (en) * | 1999-01-29 | 2001-06-05 | Sony Corporation | Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation |
US6266642B1 (en) * | 1999-01-29 | 2001-07-24 | Sony Corporation | Method and portable apparatus for performing spoken language translation |
US6442524B1 (en) * | 1999-01-29 | 2002-08-27 | Sony Corporation | Analyzing inflectional morphology in a spoken language translation system |
US6924828B1 (en) * | 1999-04-27 | 2005-08-02 | Surfnotes | Method and apparatus for improved information representation |
US6757646B2 (en) * | 2000-03-22 | 2004-06-29 | Insightful Corporation | Extended functionality for an inverse inference engine based web search |
US20070027672A1 (en) * | 2000-07-31 | 2007-02-01 | Michel Decary | Computer method and apparatus for extracting data from web pages |
US7478047B2 (en) * | 2000-11-03 | 2009-01-13 | Zoesis, Inc. | Interactive character system |
US7711547B2 (en) * | 2001-03-16 | 2010-05-04 | Meaningful Machines, L.L.C. | Word association method and apparatus |
CN1535433A (zh) * | 2001-07-04 | 2004-10-06 | 库吉萨姆媒介公司 | 基于分类的可扩展交互式文档检索系统 |
AU2003267953A1 (en) * | 2002-03-26 | 2003-12-22 | University Of Southern California | Statistical machine translation using a large monlingual corpus |
US7031911B2 (en) * | 2002-06-28 | 2006-04-18 | Microsoft Corporation | System and method for automatic detection of collocation mistakes in documents |
US7194455B2 (en) * | 2002-09-19 | 2007-03-20 | Microsoft Corporation | Method and system for retrieving confirming sentences |
US7249012B2 (en) * | 2002-11-20 | 2007-07-24 | Microsoft Corporation | Statistical method and apparatus for learning translation relationships among phrases |
CN1290036C (zh) * | 2002-12-30 | 2006-12-13 | 国际商业机器公司 | 根据机器可读词典建立概念知识的计算机系统及方法 |
US7346487B2 (en) * | 2003-07-23 | 2008-03-18 | Microsoft Corporation | Method and apparatus for identifying translations |
US7584092B2 (en) * | 2004-11-15 | 2009-09-01 | Microsoft Corporation | Unsupervised learning of paraphrase/translation alternations and selective application thereof |
US7698125B2 (en) * | 2004-03-15 | 2010-04-13 | Language Weaver, Inc. | Training tree transducers for probabilistic operations |
US8296127B2 (en) * | 2004-03-23 | 2012-10-23 | University Of Southern California | Discovery of parallel text portions in comparable collections of corpora and training using comparable texts |
US20050216253A1 (en) * | 2004-03-25 | 2005-09-29 | Microsoft Corporation | System and method for reverse transliteration using statistical alignment |
US7620539B2 (en) * | 2004-07-12 | 2009-11-17 | Xerox Corporation | Methods and apparatuses for identifying bilingual lexicons in comparable corpora using geometric processing |
US7505894B2 (en) * | 2004-11-04 | 2009-03-17 | Microsoft Corporation | Order model for dependency structure |
US7552046B2 (en) * | 2004-11-15 | 2009-06-23 | Microsoft Corporation | Unsupervised learning of paraphrase/translation alternations and selective application thereof |
US7546235B2 (en) * | 2004-11-15 | 2009-06-09 | Microsoft Corporation | Unsupervised learning of paraphrase/translation alternations and selective application thereof |
US7813918B2 (en) * | 2005-08-03 | 2010-10-12 | Language Weaver, Inc. | Identifying documents which form translated pairs, within a document collection |
US20070043553A1 (en) * | 2005-08-16 | 2007-02-22 | Microsoft Corporation | Machine translation models incorporating filtered training data |
US7937265B1 (en) * | 2005-09-27 | 2011-05-03 | Google Inc. | Paraphrase acquisition |
US7908132B2 (en) * | 2005-09-29 | 2011-03-15 | Microsoft Corporation | Writing assistance using machine translation techniques |
US8943080B2 (en) * | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US9020804B2 (en) * | 2006-05-10 | 2015-04-28 | Xerox Corporation | Method for aligning sentences at the word level enforcing selective contiguity constraints |
US7949514B2 (en) * | 2007-04-20 | 2011-05-24 | Xerox Corporation | Method for building parallel corpora |
US10460327B2 (en) * | 2006-07-28 | 2019-10-29 | Palo Alto Research Center Incorporated | Systems and methods for persistent context-aware guides |
US20080040339A1 (en) * | 2006-08-07 | 2008-02-14 | Microsoft Corporation | Learning question paraphrases from log data |
GB2444084A (en) * | 2006-11-23 | 2008-05-28 | Sharp Kk | Selecting examples in an example based machine translation system |
CN101563682A (zh) * | 2006-12-22 | 2009-10-21 | 日本电气株式会社 | 语句改述方法、程序以及系统 |
US8244521B2 (en) * | 2007-01-11 | 2012-08-14 | Microsoft Corporation | Paraphrasing the web by search-based data collection |
US8332207B2 (en) * | 2007-03-26 | 2012-12-11 | Google Inc. | Large language models in machine translation |
US9002869B2 (en) * | 2007-06-22 | 2015-04-07 | Google Inc. | Machine translation for query expansion |
US7983903B2 (en) * | 2007-09-07 | 2011-07-19 | Microsoft Corporation | Mining bilingual dictionaries from monolingual web pages |
US20090119090A1 (en) * | 2007-11-01 | 2009-05-07 | Microsoft Corporation | Principled Approach to Paraphrasing |
US8209164B2 (en) * | 2007-11-21 | 2012-06-26 | University Of Washington | Use of lexical translations for facilitating searches |
US20090182547A1 (en) * | 2008-01-16 | 2009-07-16 | Microsoft Corporation | Adaptive Web Mining of Bilingual Lexicon for Query Translation |
US8326630B2 (en) * | 2008-08-18 | 2012-12-04 | Microsoft Corporation | Context based online advertising |
US8306806B2 (en) * | 2008-12-02 | 2012-11-06 | Microsoft Corporation | Adaptive web mining of bilingual lexicon |
US8352321B2 (en) * | 2008-12-12 | 2013-01-08 | Microsoft Corporation | In-text embedded advertising |
-
2009
- 2009-05-22 US US12/470,492 patent/US20100299132A1/en not_active Abandoned
-
2010
- 2010-05-14 EP EP10778179.1A patent/EP2433230A4/en not_active Withdrawn
- 2010-05-14 CA CA2758632A patent/CA2758632C/en not_active Expired - Fee Related
- 2010-05-14 BR BRPI1011214A patent/BRPI1011214A2/pt not_active Application Discontinuation
- 2010-05-14 CN CN201080023190.9A patent/CN102439596B/zh not_active Expired - Fee Related
- 2010-05-14 KR KR1020117027693A patent/KR101683324B1/ko active IP Right Grant
- 2010-05-14 WO PCT/US2010/035033 patent/WO2010135204A2/en active Application Filing
- 2010-05-14 JP JP2012511920A patent/JP5479581B2/ja not_active Expired - Fee Related
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1074210A (ja) * | 1996-07-05 | 1998-03-17 | Hitachi Ltd | 文献検索支援方法及び装置およびこれを用いた文献検索サービス |
JP2001043236A (ja) * | 1999-07-30 | 2001-02-16 | Matsushita Electric Ind Co Ltd | 類似語抽出方法、文書検索方法及びこれらに用いる装置 |
JP2002245070A (ja) * | 2001-02-20 | 2002-08-30 | Hitachi Ltd | データ表示方法及び装置並びにその処理プログラムを記憶した媒体 |
US20020198701A1 (en) * | 2001-06-20 | 2002-12-26 | Moore Robert C. | Statistical method and apparatus for learning translation relationships among words |
US20030204400A1 (en) * | 2002-03-26 | 2003-10-30 | Daniel Marcu | Constructing a translation lexicon from comparable, non-parallel corpora |
JP2004252495A (ja) * | 2002-09-19 | 2004-09-09 | Advanced Telecommunication Research Institute International | 統計的機械翻訳装置をトレーニングするためのトレーニングデータを生成する方法および装置、換言装置、ならびに換言装置をトレーニングする方法及びそのためのデータ処理システムおよびコンピュータプログラム |
US20040102957A1 (en) * | 2002-11-22 | 2004-05-27 | Levin Robert E. | System and method for speech translation using remote devices |
JP2004206517A (ja) * | 2002-12-26 | 2004-07-22 | Nifty Corp | ホットキーワード提示方法及びホットサイト提示方法 |
US20050102614A1 (en) * | 2003-11-12 | 2005-05-12 | Microsoft Corporation | System for identifying paraphrases using machine translation |
JP2005285129A (ja) * | 2004-03-30 | 2005-10-13 | Microsoft Corp | 論理形式のための統計的言語モデル |
JP2006285982A (ja) * | 2005-03-31 | 2006-10-19 | Microsoft Corp | 検索エンジンの関連性を改良するデータマイニング技術 |
US20070067281A1 (en) * | 2005-09-16 | 2007-03-22 | Irina Matveeva | Generalized latent semantic analysis |
Non-Patent Citations (2)
Title |
---|
CSNG200800018010; 永田 昌明、外2名: '機械翻訳最新事情' 情報処理 第49巻,第1号, 20080115, p.89-95, 社団法人情報処理学会 * |
JPN6014000552; 永田 昌明、外2名: '機械翻訳最新事情' 情報処理 第49巻,第1号, 20080115, p.89-95, 社団法人情報処理学会 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021515322A (ja) * | 2018-05-10 | 2021-06-17 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 翻訳モデルのトレーニング方法、語句翻訳の方法、機器、記憶媒体及びコンピュータプログラム |
JP7179273B2 (ja) | 2018-05-10 | 2022-11-29 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 翻訳モデルのトレーニング方法、語句翻訳の方法、機器、記憶媒体及びコンピュータプログラム |
US11900069B2 (en) | 2018-05-10 | 2024-02-13 | Tencent Technology (Shenzhen) Company Limited | Translation model training method, sentence translation method, device, and storage medium |
Also Published As
Publication number | Publication date |
---|---|
CN102439596B (zh) | 2015-07-22 |
EP2433230A2 (en) | 2012-03-28 |
EP2433230A4 (en) | 2017-11-15 |
KR101683324B1 (ko) | 2016-12-06 |
US20100299132A1 (en) | 2010-11-25 |
JP5479581B2 (ja) | 2014-04-23 |
KR20120026063A (ko) | 2012-03-16 |
CA2758632A1 (en) | 2010-11-25 |
CA2758632C (en) | 2016-08-30 |
BRPI1011214A2 (pt) | 2016-03-15 |
WO2010135204A2 (en) | 2010-11-25 |
CN102439596A (zh) | 2012-05-02 |
WO2010135204A3 (en) | 2011-02-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5479581B2 (ja) | 構造化されていないリソースからの句対のマイニング | |
Resnik et al. | The web as a parallel corpus | |
US11080295B2 (en) | Collecting, organizing, and searching knowledge about a dataset | |
US9727637B2 (en) | Retrieving text from a corpus of documents in an information handling system | |
US20160189029A1 (en) | Displaying Quality of Question Being Asked a Question Answering System | |
US10810215B2 (en) | Supporting evidence retrieval for complex answers | |
US9542496B2 (en) | Effective ingesting data used for answering questions in a question and answer (QA) system | |
US20150178623A1 (en) | Automatically Generating Test/Training Questions and Answers Through Pattern Based Analysis and Natural Language Processing Techniques on the Given Corpus for Quick Domain Adaptation | |
US9678941B2 (en) | Domain-specific computational lexicon formation | |
US9684714B2 (en) | Using paraphrase metrics for answering questions | |
Bernardini et al. | Old needs, new solutions: comparable corpora for language professionals | |
Salunkhe et al. | Hybrid machine translation for English to Marathi: A research evaluation in Machine Translation:(Hybrid translator) | |
Rigouts Terryn et al. | HAMLET: hybrid adaptable machine learning approach to extract terminology | |
CN103729343A (zh) | 基于百科链接共现的语义消岐方法 | |
CN114141384A (zh) | 用于检索医学数据的方法、设备和介质 | |
Hui et al. | Application of literature-based discovery in nonmedical disciplines: a survey | |
Sridhar et al. | A Scalable Approach to Building a Parallel Corpus from the Web. | |
Raja et al. | Exploring Edit Distance for Normalising Out-of-Vocabulary Malay Words on Social Media | |
US20200257990A1 (en) | Plug-And-Ingest Framework for Question Answering Systems | |
CN111742321A (zh) | 用于独立于领域的术语链接的系统和方法 | |
Blancafort et al. | TTC Web platform: from corpus compilation to bilingual terminologies for MT and CAT tools | |
Neale et al. | First steps in using word senses as contextual features in maxent models for machine translation | |
Nair et al. | Language dependent features for unl-malayalam deconversion | |
Sheng et al. | Coherence and Salience-Based Multi-Document Relationship Mining | |
Abidin et al. | Text Stemming and Lemmatization of Regional Languages in Indonesia: A Systematic Literature Review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130507 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130507 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20130712 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20130719 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5479581 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |