JP5497048B2 - コンパラブルコーパスを使用する固有表現の翻字 - Google Patents
コンパラブルコーパスを使用する固有表現の翻字 Download PDFInfo
- Publication number
- JP5497048B2 JP5497048B2 JP2011533276A JP2011533276A JP5497048B2 JP 5497048 B2 JP5497048 B2 JP 5497048B2 JP 2011533276 A JP2011533276 A JP 2011533276A JP 2011533276 A JP2011533276 A JP 2011533276A JP 5497048 B2 JP5497048 B2 JP 5497048B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- additional
- language
- words
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000014509 gene expression Effects 0.000 title claims description 87
- 238000000034 method Methods 0.000 claims description 38
- 238000009826 distribution Methods 0.000 claims description 15
- 235000006679 Mentha X verticillata Nutrition 0.000 description 6
- 235000002899 Mentha suaveolens Nutrition 0.000 description 6
- 235000001636 Mentha x rotundifolia Nutrition 0.000 description 6
- 238000013519 translation Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 3
- 230000003203 everyday effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000013549 information retrieval technique Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
- G06F40/129—Handling non-Latin characters, e.g. kana-to-kanji conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
Claims (20)
- コンピュータが、多言語の固有表現の翻字を探索する方法であって、
第1の言語の文書を検査するステップと、
第2の言語の追加文書を検査するステップと、
前記追加文書が、前記文書に十分類似しているかどうか判定するステップであって、
前記第1の言語の前記文書内の単語に基づいて、前記文書の第1の確率分布を計算するステップと、
前記第2の言語の前記追加文書内の単語に基づいて、前記追加文書の第2の確率分布を計算するステップと、
前記第1の確率分布と前記第2の確率分布に基づいて、言語横断の類似度スコアを計算するステップと、
前記文書内の固有表現を選択するステップと、
前記文書内の固有表現を前記追加文書内の単語と比較することを含む、十分類似している固有表現を探索するステップと、
前記文書内の固有表現、および当該文書内の固有表現に類似している前記追加文書内の単語を、固有表現の翻字として記憶するステップと
を含む、ステップと
を含むことを特徴とする方法。 - 前記言語横断の類似度スコアを、Kullback−Leiblerダイバージェンスを使用して計算することを特徴とする請求項1に記載の方法。
- 前記言語横断の類似度スコアを、複数の文書と追加文書のペアに対して計算することを特徴とする請求項1に記載の方法。
- 最も高い類似度スコアを有する前記文書と追加文書のペアを選択するステップをさらに含むことを特徴とする請求項3に記載の方法。
- 類似している固有表現を探索するステップが、前記追加文書内の単語および前記文書内の固有表現に対して言語横断の類似度スコアを計算するステップを含むことを特徴とする請求項1に記載の方法。
- 前記追加文書内の単語および前記文書内の固有表現に対する前記言語横断の類似度スコアが、前記文書内の固有表現と前記追加文書内の単語の間の翻字の同等性の度合いを測定することを特徴とする請求項5に記載の方法。
- 前記言語横断の類似度スコアが、複数の固有表現のペアに対して計算され、固有表現のペアが、前記文書内の固有表現および前記追加文書内の単語を含むことを特徴とする請求項6に記載の方法。
- 前記追加文書内の単語が、前記追加文書内の単語のグループから順次選択され、前記グループが、前記追加文書内の前置詞、動詞および形容詞を含まないことを特徴とする請求項7に記載の方法。
- 最大の前記言語横断のスコアを有する前記固有表現のペアが、互いの翻字として選択されることを特徴とする請求項8に記載の方法。
- コンピュータに、多言語の固有表現の翻字を探索するための方法を実行させるためのプログラムを記録したコンピュータ可読記憶媒体であって、前記方法が、
第1の言語の文書を検査するステップと、
第2の言語の追加文書を検査するステップと、
前記文書および前記追加文書の間の言語横断の類似度スコアを計算するステップと、
前記言語横断の類似度スコアを閾値と比較するステップと、
前記比較に基づいて、前記文書内の固有表現を選択するステップと、
前記追加文書内において、前記文書内の固有表現に十分に類似している固有表現を探索するステップであって、
前記追加文書内の単語を選択するステップと、
前記文書内の固有表現についての特徴ベクトルおよび前記追加文書内の単語についての特徴ベクトルに基づいて、前記文書内の固有表現および前記追加文書内の単語の間の翻字の同等性を計算するステップと
を含む、ステップと、
前記文書内の固有表現、および当該文書内の固有表現に類似している前記追加文書内の単語を、固有表現の翻字として記憶するステップと
を含むことを特徴とするコンピュータ可読記憶媒体。 - 前記言語横断の類似度スコアを、Kullback−Leiblerダイバージェンスを使用して計算することを特徴とする請求項10に記載のコンピュータ可読記憶媒体。
- 前記言語横断の類似度スコアを複数の文書と追加文書のペアに対して計算して、最も高い類似度スコアを有する前記文書と追加文書のペアを選択することを特徴とする請求項11に記載のコンピュータ可読記憶媒体。
- 前記言語横断の類似度スコアが、複数の固有表現のペアに対して計算され、固有表現のペアが、前記文書内の固有表現および前記追加文書内の単語を含むことを特徴とする請求項10に記載のコンピュータ可読記憶媒体。
- 前記追加文書内の単語が、前記追加文書内の単語のグループから順次選択され、前記グループが、前記追加文書内の前置詞、動詞および形容詞を含まないことを特徴とする請求項13に記載のコンピュータ可読記憶媒体。
- 最大の前記言語横断のスコアを有する前記固有表現のペアが、互いの翻字として選択されることを特徴とする請求項14に記載のコンピュータ可読記憶媒体。
- プロセッサと、前記プロセッサに、多言語の固有表現の翻字を探索するための方法を実行させるためのプログラムを記録したメモリとを備えるコンピュータ・システムであって、前記方法が、
第1の言語の文書を検査するステップと、
第2の言語の追加文書を検査するステップと、
前記第1の言語の前記文書内の単語に基づいて、前記文書の確率分布を計算するステップと、
前記第2の言語の前記追加文書内の単語に基づいて、前記追加文書の確率分布を計算するステップと、
前記文書の確率分布および前記追加文書の確率分布の間の言語横断の類似度スコアを、Kullback−Leiblerダイバージェンスを使用して計算すること、および前記言語横断の類似度スコアを閾値と比較することにより、前記追加文書が、前記文書に十分類似しているかどうか判定するステップと、
前記追加文書が、前記文書に十分類似していると判定される場合に、
前記文書内の固有表現を選択するステップと、
前記文書内の固有表現を前記追加文書内の単語と比較することを含む、十分に類似している固有表現を探索するステップと、
前記文書内の固有表現に十分類似している単語が検出される場合に、前記文書内の固有表現および前記類似している単語を、固有表現の翻字として記憶するステップと
を含むことを特徴とするコンピュータ・システム。 - 前記言語横断の類似度スコアが、複数の文書と追加文書のペアに対して計算され、
前記方法は、最も高い類似度スコアを有する前記文書と追加文書のペアを選択するステップをさらに含むことを特徴とする請求項16に記載のコンピュータ・システム。 - 十分類似している固有表現を探索するステップが、前記追加文書内の単語および前記文書内の固有表現に対して言語横断の類似度スコアを計算することを含み、
前記言語横断の類似度スコアが、前記文書内の固有表現と前記追加文書内の単語の間の翻字の同等性の度合いを測定し、
前記追加文書内の単語が、前記追加文書内の単語のグループから順次選択され、前記グループが、前記追加文書内の前置詞、動詞および形容詞を含まず、
前記言語横断の類似度スコアが、複数の固有表現のペアに対して計算され、固有表現のペアが、前記文書内の固有表現および前記追加文書内の単語を含むことを特徴とする請求項16に記載のコンピュータ・システム。 - 前記第1の確率分布を計算するステップは、前記第1の言語の単語が前記文書内に存在する確率を判定するステップを含むことを特徴とする請求項1に記載の方法。
- 前記第2の確率分布を計算するステップは、前記第2の言語の単語が前記追加文書内に存在する確率を判定するステップを含むことを特徴とする請求項19に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/255,372 | 2008-10-21 | ||
US12/255,372 US8560298B2 (en) | 2008-10-21 | 2008-10-21 | Named entity transliteration using comparable CORPRA |
PCT/US2009/061352 WO2010048204A2 (en) | 2008-10-21 | 2009-10-20 | Named entity transliteration using corporate corpora |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2012506596A JP2012506596A (ja) | 2012-03-15 |
JP2012506596A5 JP2012506596A5 (ja) | 2012-11-15 |
JP5497048B2 true JP5497048B2 (ja) | 2014-05-21 |
Family
ID=42118347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011533276A Active JP5497048B2 (ja) | 2008-10-21 | 2009-10-20 | コンパラブルコーパスを使用する固有表現の翻字 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8560298B2 (ja) |
EP (1) | EP2359264A4 (ja) |
JP (1) | JP5497048B2 (ja) |
CN (1) | CN102187335A (ja) |
WO (1) | WO2010048204A2 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8332205B2 (en) * | 2009-01-09 | 2012-12-11 | Microsoft Corporation | Mining transliterations for out-of-vocabulary query terms |
CN102682763B (zh) * | 2011-03-10 | 2014-07-16 | 北京三星通信技术研究有限公司 | 修正语音输入文本中命名实体词汇的方法、装置及终端 |
EP2702508A4 (en) * | 2011-04-27 | 2015-07-15 | Vadim Berman | GENERIC SYSTEM OF LANGUAGE ANALYSIS AND TRANSFORMATION |
US9176936B2 (en) * | 2012-09-28 | 2015-11-03 | International Business Machines Corporation | Transliteration pair matching |
US9146919B2 (en) | 2013-01-16 | 2015-09-29 | Google Inc. | Bootstrapping named entity canonicalizers from English using alignment models |
US10672391B2 (en) * | 2014-09-26 | 2020-06-02 | Nuance Communications, Inc. | Improving automatic speech recognition of multilingual named entities |
US10467346B2 (en) * | 2017-05-18 | 2019-11-05 | Wipro Limited | Method and system for generating named entities |
CN107193809A (zh) * | 2017-05-18 | 2017-09-22 | 广东小天才科技有限公司 | 一种教材脚本生成方法及装置、用户设备 |
US11417322B2 (en) * | 2018-12-12 | 2022-08-16 | Google Llc | Transliteration for speech recognition training and scoring |
US11062621B2 (en) * | 2018-12-26 | 2021-07-13 | Paypal, Inc. | Determining phonetic similarity using machine learning |
JP7419961B2 (ja) * | 2020-05-12 | 2024-01-23 | 富士通株式会社 | 文書抽出プログラム、文書抽出装置、及び文書抽出方法 |
US20230128406A1 (en) | 2021-10-27 | 2023-04-27 | Bank Of America Corporation | Recursive Logic Engine for Efficient Transliteration of Machine Interpretable Languages |
US11977852B2 (en) | 2022-01-12 | 2024-05-07 | Bank Of America Corporation | Anaphoric reference resolution using natural language processing and machine learning |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6104989A (en) * | 1998-07-29 | 2000-08-15 | International Business Machines Corporation | Real time detection of topical changes and topic identification via likelihood based methods |
JP3317341B2 (ja) * | 1998-11-19 | 2002-08-26 | 日本電気株式会社 | 類似度計算方法及び装置、類似文書検索方法及び装置 |
JP3055545B1 (ja) * | 1999-01-19 | 2000-06-26 | 富士ゼロックス株式会社 | 関連文検索装置 |
US20030191625A1 (en) * | 1999-11-05 | 2003-10-09 | Gorin Allen Louis | Method and system for creating a named entity language model |
JP3643516B2 (ja) * | 2000-03-23 | 2005-04-27 | 日本電信電話株式会社 | 文書評価方法及び装置及び文書評価プログラムを格納した記録媒体 |
US7191115B2 (en) * | 2001-06-20 | 2007-03-13 | Microsoft Corporation | Statistical method and apparatus for learning translation relationships among words |
JP2003141109A (ja) * | 2001-11-07 | 2003-05-16 | Fuji Xerox Co Ltd | 多言語文書処理装置および方法 |
JP3918531B2 (ja) * | 2001-11-29 | 2007-05-23 | 株式会社日立製作所 | 類似文書検索方法およびシステム |
US7143091B2 (en) | 2002-02-04 | 2006-11-28 | Cataphorn, Inc. | Method and apparatus for sociological data mining |
CA2475857C (en) * | 2002-03-11 | 2008-12-23 | University Of Southern California | Named entity translation |
US7212963B2 (en) | 2002-06-11 | 2007-05-01 | Fuji Xerox Co., Ltd. | System for distinguishing names in Asian writing systems |
US7194455B2 (en) * | 2002-09-19 | 2007-03-20 | Microsoft Corporation | Method and system for retrieving confirming sentences |
US7475010B2 (en) * | 2003-09-03 | 2009-01-06 | Lingospot, Inc. | Adaptive and scalable method for resolving natural language ambiguities |
GB0322600D0 (en) * | 2003-09-26 | 2003-10-29 | Univ Ulster | Thematic retrieval in heterogeneous data repositories |
US7478033B2 (en) * | 2004-03-16 | 2009-01-13 | Google Inc. | Systems and methods for translating Chinese pinyin to Chinese characters |
US20080215313A1 (en) * | 2004-08-13 | 2008-09-04 | Swiss Reinsurance Company | Speech and Textual Analysis Device and Corresponding Method |
US7457808B2 (en) * | 2004-12-17 | 2008-11-25 | Xerox Corporation | Method and apparatus for explaining categorization decisions |
JP4622589B2 (ja) * | 2005-03-08 | 2011-02-02 | ソニー株式会社 | 情報処理装置および方法、プログラム、並びに記録媒体 |
US20070011132A1 (en) * | 2005-06-17 | 2007-01-11 | Microsoft Corporation | Named entity translation |
US20070022134A1 (en) | 2005-07-22 | 2007-01-25 | Microsoft Corporation | Cross-language related keyword suggestion |
US7672833B2 (en) | 2005-09-22 | 2010-03-02 | Fair Isaac Corporation | Method and apparatus for automatic entity disambiguation |
US8249855B2 (en) * | 2006-08-07 | 2012-08-21 | Microsoft Corporation | Identifying parallel bilingual data over a network |
US7983903B2 (en) * | 2007-09-07 | 2011-07-19 | Microsoft Corporation | Mining bilingual dictionaries from monolingual web pages |
US8706474B2 (en) * | 2008-02-23 | 2014-04-22 | Fair Isaac Corporation | Translation of entity names based on source document publication date, and frequency and co-occurrence of the entity names |
US8275608B2 (en) * | 2008-07-03 | 2012-09-25 | Xerox Corporation | Clique based clustering for named entity recognition system |
-
2008
- 2008-10-21 US US12/255,372 patent/US8560298B2/en active Active
-
2009
- 2009-10-20 WO PCT/US2009/061352 patent/WO2010048204A2/en active Application Filing
- 2009-10-20 JP JP2011533276A patent/JP5497048B2/ja active Active
- 2009-10-20 CN CN2009801425260A patent/CN102187335A/zh active Pending
- 2009-10-20 EP EP09822578.2A patent/EP2359264A4/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
EP2359264A4 (en) | 2013-07-10 |
WO2010048204A2 (en) | 2010-04-29 |
US20100106484A1 (en) | 2010-04-29 |
JP2012506596A (ja) | 2012-03-15 |
US8560298B2 (en) | 2013-10-15 |
CN102187335A (zh) | 2011-09-14 |
EP2359264A2 (en) | 2011-08-24 |
WO2010048204A3 (en) | 2010-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5497048B2 (ja) | コンパラブルコーパスを使用する固有表現の翻字 | |
Haddow et al. | Survey of low-resource machine translation | |
Morris et al. | Textattack: A framework for adversarial attacks, data augmentation, and adversarial training in nlp | |
KR101004515B1 (ko) | 문장 데이터베이스로부터 문장들을 사용자에게 제공하는 컴퓨터 구현 방법 및 이 방법을 수행하기 위한 컴퓨터 실행가능 명령어가 저장되어 있는 유형의 컴퓨터 판독가능 기록 매체, 문장 데이터베이스로부터 확인 문장들을 검색하는 시스템이 저장되어 있는 컴퓨터 판독가능 기록 매체 | |
US8543563B1 (en) | Domain adaptation for query translation | |
JP4945086B2 (ja) | 論理形式のための統計的言語モデル | |
Hill et al. | AMAP: automatically mining abbreviation expansions in programs to enhance software maintenance tools | |
Abdul Rauf et al. | Parallel sentence generation from comparable corpora for improved SMT | |
US20070011132A1 (en) | Named entity translation | |
JP2005267638A (ja) | 改善されたスペルチェックのためのシステムおよび方法 | |
Kaufmann | JMaxAlign: A maximum entropy parallel sentence alignment tool | |
Azmi et al. | Real-word errors in Arabic texts: A better algorithm for detection and correction | |
JP2011118689A (ja) | 検索方法及びシステム | |
El Kahki et al. | Improved transliteration mining using graph reinforcement | |
Zhao et al. | A bootstrapping based refinement framework for mining opinion words and targets | |
Gaikwad et al. | Adaptive glove and fasttext model for hindi word embeddings | |
Azarbonyad et al. | A learning to rank approach for cross-language information retrieval exploiting multiple translation resources | |
Magdy et al. | An efficient method for using machine translation technologies in cross-language patent search | |
Peng et al. | An empirical study of Chinese name matching and applications | |
Hkiri et al. | Arabic-English text translation leveraging hybrid NER | |
US20120185496A1 (en) | Method of and a system for retrieving information | |
Lazarinis et al. | Current research issues and trends in non-English Web searching | |
Pouliquen et al. | Automatic construction of multilingual name dictionaries | |
KR20210146832A (ko) | 토픽 키워드의 추출 장치 및 방법 | |
Liu | A Neural Approach to Cross-Lingual Information Retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120928 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120928 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20130712 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20130719 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130924 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131008 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140107 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140305 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5497048 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |