JP4473702B2 - 機械翻訳システム、機械翻訳方法及びプログラム - Google Patents
機械翻訳システム、機械翻訳方法及びプログラム Download PDFInfo
- Publication number
- JP4473702B2 JP4473702B2 JP2004319708A JP2004319708A JP4473702B2 JP 4473702 B2 JP4473702 B2 JP 4473702B2 JP 2004319708 A JP2004319708 A JP 2004319708A JP 2004319708 A JP2004319708 A JP 2004319708A JP 4473702 B2 JP4473702 B2 JP 4473702B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- sentence
- sentences
- sentence set
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Description
構造内データ格納部7では、文書内構造解析部6で抽出した表のデータを格納する。このとき、表の列、行の情報が分かるように格納する。例えば1次元形式で格納しておき、7行3列であることを考慮してどの文がどの位置のセルなのかを分かるようにしてもよい。図3は、図2の表が7行3列であることを示す情報と共に、1行1列目のセルから1行2列目、1行3列目、2行1列目、…と順番に7行3列目までの文をセパレータ「/」でつないで1次元形式で格納した例である。参照するときはセパレータで区切られた各文を格納の順番と同じ順番でたどってゆけば、それぞれの文が何行何列目のセルの文かがわかる。その他にも、例えばm行n列のセルの文に関してはその文に座標(m,n)などの情報を付けて、一文ごとに格納してもよい。
「月;名詞;Monday;月/火/水/木/金/土/日」
「月;名詞;Moon;月/地球/火星/水星/木星/金星/土星/太陽」
が得られたとする。この2件の解釈データのそれぞれに含まれる文集合{月、火、水、木、金、土、日}(文集合C)と{月、地球、火星、水星、木星、金星、土星、太陽}(文集合D)と、構造内データ格納部7から得られた原文中の文集合Aと文集合Bとのマッチングを行う(ステップS6)。このマッチングを行う際に、前述した条件を効果的に用いることも可能である。例えばある原文中の文集合と、ある解釈データ内の文集合と同一であると判定するために、当該原文中の文集合が当該解釈データ内の文集合のうちk個以上の文と一致する必要があるという条件、当該原文中の文集合と当該解釈データ内の文集合とが完全一致する必要があるという条件、完全一致でなくとも部分的に一致すればよいという条件、当該原文中の文集合と当該解釈データ内の文集合とがその出現順も一致する必要があるという条件などである。これらの条件を用いることによりマッチングの動作を自由に制御することが可能となる。
Claims (9)
- 見出し語としての第1の言語の語・文と、第1の言語の文書中で規則的に配置される該見出し語を含む複数の語・文からなる語・文集合と、該見出し語が該語・文集合のうちの1つである場合の該見出し語に対応する第2の言語での語・文とを含む複数の解釈データを記憶する記憶手段と、
複数の語・文が規則的に配置される構造を有する前記第1の言語の文書から、当該構造上で同一の属性あるいは等価な配置関係を有する語・文集合を抽出する抽出手段と、
前記記憶手段に記憶された前記複数の解釈データの中から、抽出された語・文集合のうちの1つ語・文を見出し語として含む複数の解釈データを検索する検索手段と、
検索された各解釈データに含まれる語・文集合が、前記抽出された語・文集合と同一か否かを判定する判定手段と、
前記検索された複数の解釈データのうち、前記抽出された語・文集合と同一と判定された語・文集合を含む解釈データを用いて、前記抽出された語・文集合中のうちの1つの語・文を当該解釈データ中の前記第2の言語の語・文に翻訳する翻訳手段と、
を含む機械翻訳システム。 - 前記検索された各解釈データには、前記見出し語を含む語・文集合とともに、当該語・文集合と前記抽出された語・文集合とが同一であると判定するための条件を含み、
前記判定手段は、前記抽出された語・文集合が、前記検索された解釈データに含まれる前記条件を満たすとき、当該解釈データ中の語・文集合と当該抽出された語・文集合とが同一であると判定することを特徴とする請求項1記載の機械翻訳システム。 - 前記抽出された語・文集合は、表構造の列あるいは行に配置されていることを特徴とする請求項1記載の機械翻訳システム。
- 前記抽出された語・文集合は、箇条書き構造の箇条書きされた語・文であることを特徴とする請求項1記載の機械翻訳システム。
- 前記抽出された語・文集合は、章・節構造の各章のタイトルあるいは各節のタイトルであることを特徴とする請求項1記載の機械翻訳システム。
- 前記記憶手段に記憶された各解釈データは、その見出し語の品詞を含むことを特徴とする請求項1記載の機械翻訳システム。
- 前記条件は、前記検索された各解釈データ中の語・文集合と前記抽出された語・文集合との間で一致する語・文の数及び順序のうちの少なくとも1つに関する条件であることを特徴とする請求項2記載の機械翻訳システム。
- 見出し語としての第1の言語の語・文と、第1の言語の文書中で規則的に配置される該見出し語を含む複数の語・文からなる語・文集合と、該見出し語が該語・文集合のうちの1つである場合の該見出し語に対応する第2の言語での語・文とを含む複数の解釈データを記憶する記憶手段と、
複数の語・文が規則的に配置される構造を有する前記第1の言語の文書から、当該構造上で同一の属性あるいは等価な配置関係を有する語・文集合を抽出する抽出手段と、
前記複数の解釈データのなかから、抽出された語・文集合と同一の語・文集合を含む解釈データを求める解釈手段と、
前記抽出された語・文集合中の各語・文を前記第2の言語に翻訳する翻訳手段と、
を備えた機械翻訳システムにおける機械翻訳方法であって、
前記抽出手段が、前記文書から前記構造上で同一の属性あるいは等価な配置関係を有する語・文集合を抽出するステップと、
前記解釈手段が、前記記憶手段に記憶された前記複数の解釈データの中から、前記抽出された語・文集合のうちの1の語・文を見出し語として含む複数の解釈データ検索するステップと、
前記解釈手段が、検索された各解釈データに含まれる語・文集合が、前記抽出された語・文集合と同一か否かを判定するステップと、
前記翻訳手段が、前記複数の解釈データのうち、前記抽出された語・文集合と同一と判定された語・文集合を含む解釈データを用いて、前記抽出された語・文集合のうちの1つの語・文を当該解釈データ中の前記第2の言語の語・文に翻訳するステップと、
を含む機械翻訳方法。 - コンピュータを、
見出し語としての第1の言語の語・文と、第1の言語の文書中で規則的に配置される該見出し語を含む複数の語・文からなる語・文集合と、該見出し語が該語・文集合のうちの1つである場合の該見出し語に対応する第2の言語での語・文とを含む複数の解釈データを記憶する記憶手段、
複数の語・文が規則的に配置される構造を有する前記第1の言語の文書から、当該構造上で同一の属性あるいは等価な配置関係を有する語・文集合を抽出する抽出手段、
前記記憶手段に記憶された前記複数の解釈データの中から、抽出された語・文集合のうちの1つ語・文を見出し語として含む複数の解釈データを検索する検索手段、
検索された各解釈データに含まれる語・文集合が、前記抽出された語・文集合と同一か否かを判定する判定手段、
前記検索された複数の解釈データのうち、前記抽出された語・文集合と同一と判定された語・文集合を含む解釈データを用いて、前記抽出された語・文集合中のうちの1つの語・文を当該解釈データ中の前記第2の言語の語・文に翻訳する翻訳手段、
として機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004319708A JP4473702B2 (ja) | 2004-11-02 | 2004-11-02 | 機械翻訳システム、機械翻訳方法及びプログラム |
US11/262,919 US7979265B2 (en) | 2004-11-02 | 2005-11-01 | Machine translation system, method and program for translating text having a structure |
CNB2005101193553A CN100418087C (zh) | 2004-11-02 | 2005-11-02 | 机器翻译系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004319708A JP4473702B2 (ja) | 2004-11-02 | 2004-11-02 | 機械翻訳システム、機械翻訳方法及びプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007303308A Division JP4220570B2 (ja) | 2007-11-22 | 2007-11-22 | 機械翻訳システム、機械翻訳方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006133900A JP2006133900A (ja) | 2006-05-25 |
JP4473702B2 true JP4473702B2 (ja) | 2010-06-02 |
Family
ID=36568344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004319708A Active JP4473702B2 (ja) | 2004-11-02 | 2004-11-02 | 機械翻訳システム、機械翻訳方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US7979265B2 (ja) |
JP (1) | JP4473702B2 (ja) |
CN (1) | CN100418087C (ja) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060116865A1 (en) | 1999-09-17 | 2006-06-01 | Www.Uniscape.Com | E-services translation utilizing machine translation and translation memory |
US20040243531A1 (en) * | 2003-04-28 | 2004-12-02 | Dean Michael Anthony | Methods and systems for representing, using and displaying time-varying information on the Semantic Web |
US7983896B2 (en) | 2004-03-05 | 2011-07-19 | SDL Language Technology | In-context exact (ICE) matching |
US20060149528A1 (en) * | 2005-01-05 | 2006-07-06 | Inventec Corporation | System and method of automatic Japanese kanji labeling |
US8280719B2 (en) | 2005-05-05 | 2012-10-02 | Ramp, Inc. | Methods and systems relating to information extraction |
US8121261B2 (en) * | 2005-08-24 | 2012-02-21 | Verizon Business Global Llc | Systems and methods for providing interpretation services |
US8521506B2 (en) | 2006-09-21 | 2013-08-27 | Sdl Plc | Computer-implemented method, computer software and apparatus for use in a translation system |
US8131536B2 (en) * | 2007-01-12 | 2012-03-06 | Raytheon Bbn Technologies Corp. | Extraction-empowered machine translation |
CN105117376B (zh) | 2007-04-10 | 2018-07-10 | 谷歌有限责任公司 | 多模式输入法编辑器 |
US7890539B2 (en) * | 2007-10-10 | 2011-02-15 | Raytheon Bbn Technologies Corp. | Semantic matching using predicate-argument structure |
JP5150344B2 (ja) * | 2008-04-14 | 2013-02-20 | 株式会社東芝 | 機械翻訳装置および機械翻訳プログラム |
US8972432B2 (en) * | 2008-04-23 | 2015-03-03 | Google Inc. | Machine translation using information retrieval |
US9262403B2 (en) | 2009-03-02 | 2016-02-16 | Sdl Plc | Dynamic generation of auto-suggest dictionary for natural language translation |
GB2468278A (en) | 2009-03-02 | 2010-09-08 | Sdl Plc | Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation |
US8306807B2 (en) * | 2009-08-17 | 2012-11-06 | N T repid Corporation | Structured data translation apparatus, system and method |
GB2474839A (en) * | 2009-10-27 | 2011-05-04 | Sdl Plc | In-context exact matching of lookup segment to translation memory source text |
CN101706810A (zh) * | 2009-11-23 | 2010-05-12 | 北京中创信测科技股份有限公司 | 一种数据库查询方法及装置 |
WO2011161825A1 (ja) * | 2010-06-25 | 2011-12-29 | 楽天株式会社 | 機械翻訳システム及び機械翻訳方法 |
US9128929B2 (en) | 2011-01-14 | 2015-09-08 | Sdl Language Technologies | Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself |
US9367539B2 (en) | 2011-11-03 | 2016-06-14 | Microsoft Technology Licensing, Llc | Techniques for automated document translation |
US9715625B2 (en) | 2012-01-27 | 2017-07-25 | Recommind, Inc. | Hierarchical information extraction using document segmentation and optical character recognition correction |
US9189476B2 (en) * | 2012-04-04 | 2015-11-17 | Electronics And Telecommunications Research Institute | Translation apparatus and method thereof for helping a user to more easily input a sentence to be translated |
JP2013218424A (ja) * | 2012-04-05 | 2013-10-24 | Zero Four Co Ltd | 翻訳装置および翻訳方法 |
US10693962B1 (en) * | 2015-12-18 | 2020-06-23 | EMC IP Holding Company LLC | Language and mechanism for modeling and exporting storage platform topologies, attributes, and behaviors |
US10635863B2 (en) | 2017-10-30 | 2020-04-28 | Sdl Inc. | Fragment recall and adaptive automated translation |
US10817676B2 (en) | 2017-12-27 | 2020-10-27 | Sdl Inc. | Intelligent routing services and systems |
US11048762B2 (en) | 2018-03-16 | 2021-06-29 | Open Text Holdings, Inc. | User-defined automated document feature modeling, extraction and optimization |
US10762142B2 (en) | 2018-03-16 | 2020-09-01 | Open Text Holdings, Inc. | User-defined automated document feature extraction and optimization |
US11256867B2 (en) | 2018-10-09 | 2022-02-22 | Sdl Inc. | Systems and methods of machine learning for digital assets and message creation |
WO2021184249A1 (en) * | 2020-03-18 | 2021-09-23 | Citrix Systems, Inc. | Machine translation of digital content |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6140672A (ja) * | 1984-07-31 | 1986-02-26 | Hitachi Ltd | 多品詞解消処理方式 |
JP2848593B2 (ja) * | 1985-05-07 | 1999-01-20 | 株式会社東芝 | 翻訳処理方法 |
JPH03175573A (ja) | 1989-12-04 | 1991-07-30 | Ricoh Co Ltd | 機械翻訳処理方式 |
JP3189186B2 (ja) * | 1992-03-23 | 2001-07-16 | インターナショナル・ビジネス・マシーンズ・コーポレ−ション | パターンに基づく翻訳装置 |
US5675815A (en) * | 1992-11-09 | 1997-10-07 | Ricoh Company, Ltd. | Language conversion system and text creating system using such |
US5510981A (en) * | 1993-10-28 | 1996-04-23 | International Business Machines Corporation | Language translation apparatus and method using context-based translation models |
JP3066274B2 (ja) * | 1995-01-12 | 2000-07-17 | シャープ株式会社 | 機械翻訳装置 |
CN1067781C (zh) * | 1997-07-02 | 2001-06-27 | 华建机器翻译有限公司 | 机器翻译中的复杂上下文相关处理方法 |
CN1067784C (zh) * | 1997-07-02 | 2001-06-27 | 华建机器翻译有限公司 | 特殊语言现象处理方法 |
CN1067783C (zh) * | 1997-07-02 | 2001-06-27 | 华建机器翻译有限公司 | 基于sc文法的转换生成方法 |
US6526426B1 (en) * | 1998-02-23 | 2003-02-25 | David Lakritz | Translation management system |
US6275789B1 (en) * | 1998-12-18 | 2001-08-14 | Leo Moser | Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language |
US7516063B1 (en) * | 2001-04-17 | 2009-04-07 | Personalized Mass Media Corporation | System and method for storing data using a machine readable vocabulary |
US20030004704A1 (en) * | 2001-07-02 | 2003-01-02 | Baron John M. | System and method of spreadsheet-based string localization |
FI114347B (fi) * | 2002-03-20 | 2004-09-30 | Master S Innovations Ltd Oy | Menetelmä ja laitteisto datan kääntämiseksi |
EP1351158A1 (en) * | 2002-03-28 | 2003-10-08 | BRITISH TELECOMMUNICATIONS public limited company | Machine translation |
US7136805B2 (en) * | 2002-06-11 | 2006-11-14 | Fuji Xerox Co., Ltd. | System for distinguishing names of organizations in Asian writing systems |
US7353165B2 (en) * | 2002-06-28 | 2008-04-01 | Microsoft Corporation | Example based machine translation system |
JP3813911B2 (ja) * | 2002-08-22 | 2006-08-23 | 株式会社東芝 | 機械翻訳システム、機械翻訳方法及び機械翻訳プログラム |
US7711548B2 (en) * | 2003-12-23 | 2010-05-04 | International Business Machines Corporation | Method and structures to enable national language support for dynamic data |
-
2004
- 2004-11-02 JP JP2004319708A patent/JP4473702B2/ja active Active
-
2005
- 2005-11-01 US US11/262,919 patent/US7979265B2/en not_active Expired - Fee Related
- 2005-11-02 CN CNB2005101193553A patent/CN100418087C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US7979265B2 (en) | 2011-07-12 |
CN1770144A (zh) | 2006-05-10 |
JP2006133900A (ja) | 2006-05-25 |
CN100418087C (zh) | 2008-09-10 |
US20060116866A1 (en) | 2006-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4473702B2 (ja) | 機械翻訳システム、機械翻訳方法及びプログラム | |
JP4960461B2 (ja) | ウェブベースのコロケーション誤りの校正 | |
KR101500617B1 (ko) | 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법 | |
JP2004516527A (ja) | クロス言語ライティングウィザードを伴うコンピュータ支援ライティングのシステムおよび方法 | |
Vilares et al. | Studying the effect and treatment of misspelled queries in Cross-Language Information Retrieval | |
Vilares et al. | Managing misspelled queries in IR applications | |
JP2002132791A (ja) | 地名情報抽出装置、その抽出方法及び抽出プログラムを記録した記録媒体、地図情報検索装置 | |
JPH08129554A (ja) | 関係表現抽出装置および関係表現検索装置 | |
Salam et al. | Developing the bangladeshi national corpus-a balanced and representative bangla corpus | |
Hollingsworth et al. | Retrieving hierarchical text structure from typeset scientific articles–a prerequisite for e-science text mining | |
JP4220570B2 (ja) | 機械翻訳システム、機械翻訳方法及びプログラム | |
Choudhary et al. | An annotated urdu corpus of handwritten text image and benchmarking of corpus | |
Sankaravelayuthan et al. | English to tamil machine translation system using parallel corpus | |
Ebeling et al. | Comparing n-gram-based functional categories in original versus translated texts | |
JP5115631B2 (ja) | 地名情報抽出装置、制御方法、記録媒体及び地図情報検索装置 | |
Alkhazi et al. | BAAC: Bangor Arabic Annotated Corpus | |
Alansary | Basma: Bibalex standard arabic morphological analyzer | |
Simon et al. | Languages under the influence: Building a database of Uralic languages | |
Szpektor et al. | Cross lingual and semantic retrieval for cultural heritage appreciation | |
JP4933741B2 (ja) | 情報処理装置、同義語対生成方法、同義語対生成プログラム、同義語対生成プログラムを記録した記録媒体 | |
Syed et al. | Quantifying the Use of English Words in Urdu News-Stories | |
Abbès et al. | AraConc, an Arabic concordance software based on the DIINAR. 1 language resource | |
Vasuki et al. | English to Tamil machine translation system using parallel corpus | |
JPH04174069A (ja) | 言語理解支援装置 | |
JPH11282844A (ja) | 文書作成方法および情報処理装置および記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070710 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070905 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070925 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071122 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20071205 |
|
A912 | Removal of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20071214 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100305 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130312 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4473702 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130312 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140312 Year of fee payment: 4 |