JP4220570B2 - 機械翻訳システム、機械翻訳方法及びプログラム - Google Patents
機械翻訳システム、機械翻訳方法及びプログラム Download PDFInfo
- Publication number
- JP4220570B2 JP4220570B2 JP2007303308A JP2007303308A JP4220570B2 JP 4220570 B2 JP4220570 B2 JP 4220570B2 JP 2007303308 A JP2007303308 A JP 2007303308A JP 2007303308 A JP2007303308 A JP 2007303308A JP 4220570 B2 JP4220570 B2 JP 4220570B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- sentence
- interpretation data
- extracted
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
見出し語としての第1の言語の語・文と、第1の言語の文書中で規則的に配置される該見出し語を含む複数の語・文からなる語・文集合と、該見出し語が該語・文集合のうちの1つである場合の該見出し語に対応する第2の言語での語・文とを含む複数の解釈データを記憶する記憶手段と、
入力された前記第1の言語の文書内から、複数の語・文が規則的に配置される構造を認識する認識手段と、
前記構造が認識された文書から、当該構造上で同一の属性あるいは等価な配置関係を有する語・文集合を抽出する抽出手段と、
前記記憶手段に記憶された前記複数の解釈データの中から、抽出された語・文集合のうちの1つ語・文を見出し語として含む複数の解釈データを検索する検索手段と、
検索された各解釈データに含まれる語・文集合が、前記抽出された語・文集合と同一か否かを判定する判定手段と、
前記検索された複数の解釈データのうち、前記抽出された語・文集合と同一と判定された語・文集合を含む解釈データを用いて、前記抽出された語・文集合中のうちの1つの語・文を当該解釈データ中の前記第2の言語の語・文に翻訳する翻訳手段と、
を含む。
構造内データ格納部7では、文書内構造解析部6で抽出した表のデータを格納する。このとき、表の列、行の情報が分かるように格納する。例えば1次元形式で格納しておき、7行3列であることを考慮してどの文がどの位置のセルなのかを分かるようにしてもよい。図3は、図2の表が7行3列であることを示す情報と共に、1行1列目のセルから1行2列目、1行3列目、2行1列目、…と順番に7行3列目までの文をセパレータ「/」でつないで1次元形式で格納した例である。参照するときはセパレータで区切られた各文を格納の順番と同じ順番でたどってゆけば、それぞれの文が何行何列目のセルの文かがわかる。その他にも、例えばm行n列のセルの文に関してはその文に座標(m,n)などの情報を付けて、一文ごとに格納してもよい。
「月;名詞;Monday;月/火/水/木/金/土/日」
「月;名詞;Moon;月/地球/火星/水星/木星/金星/土星/太陽」
が得られたとする。この2件の解釈データのそれぞれに含まれる文集合{月、火、水、木、金、土、日}(文集合C)と{月、地球、火星、水星、木星、金星、土星、太陽}(文集合D)と、構造内データ格納部7から得られた原文中の文集合Aと文集合Bとのマッチングを行う(ステップS6)。このマッチングを行う際に、前述した条件を効果的に用いることも可能である。例えばある原文中の文集合と、ある解釈データ内の文集合と同一であると判定するために、当該原文中の文集合が当該解釈データ内の文集合のうちk個以上の文と一致する必要があるという条件、当該原文中の文集合と当該解釈データ内の文集合とが完全一致する必要があるという条件、完全一致でなくとも部分的に一致すればよいという条件、当該原文中の文集合と当該解釈データ内の文集合とがその出現順も一致する必要があるという条件などである。これらの条件を用いることによりマッチングの動作を自由に制御することが可能となる。
Claims (8)
- 見出し語としての第1の言語の語・文と、第1の言語の文書中で規則的に配置される該見出し語を含む複数の語・文からなる語・文集合と、該見出し語が該語・文集合のうちの1つである場合の該見出し語に対応する第2の言語での語・文とを含む複数の解釈データを記憶する記憶手段と、
入力された前記第1の言語の文書内から、複数の語・文が規則的に配置される、表構造、箇条書き構造、章・節構造を含む複数の構造のうちのいずれか1つの構造を認識する認識手段と、
(a)前記認識手段で表構造が認識された場合には、前記表構造が認識された文書から、該表構造の列あるいは行に配置されている語・文集合を抽出し、(b)前記認識手段で箇条書き構造が認識された場合には、前記箇条書き構造が認識された文書から、該箇条書き構造の箇条書きされた語・文集合を抽出し、(c)前記認識手段で章・節構造が認識された場合には、前記章・節構造が認識された文書から、該章・節構造の各章のタイトルあるいは各節のタイトルである語・文集合を抽出する抽出手段と、
前記記憶手段に記憶された前記複数の解釈データの中から、抽出された語・文集合のうちの1つの語・文を見出し語として含む複数の解釈データを検索する検索手段と、
検索された各解釈データに含まれる語・文集合が、前記抽出された語・文集合とマッチングするか否かを判定する判定手段と、
前記検索された複数の解釈データのうち、前記抽出された語・文集合とマッチングすると判定された語・文集合を含む解釈データ中の前記第2の言語の語・文を、前記抽出された語・文集合中のうちの1つの語・文の訳語として選定する手段と、
を含む機械翻訳システム。 - 前記検索された各解釈データには、前記見出し語を含む語・文集合とともに、当該語・文集合と前記抽出された語・文集合とがマッチングすると判定するための条件を含み、
前記判定手段は、前記抽出された語・文集合が、前記検索された解釈データに含まれる前記条件を満たすとき、当該解釈データ中の語・文集合と当該抽出された語・文集合とがマッチングすると判定することを特徴とする請求項1記載の機械翻訳システム。 - 前記条件は、前記検索された各解釈データ中の語・文集合と前記抽出された語・文集合との間で一致する語・文の数及び順序のうちの少なくとも1つに関する条件であることを特徴とする請求項2記載の機械翻訳システム。
- 見出し語としての第1の言語の語・文と、第1の言語の文書中で規則的に配置される該見出し語を含む複数の語・文からなる語・文集合と、該見出し語が該語・文集合のうちの1つである場合の該見出し語に対応する第2の言語での語・文とを含む複数の解釈データを記憶する記憶手段と、
入力された前記第1の言語の文書内から、複数の語・文が規則的に配置される構造を認識する認識手段と、
前記構造が認識された文書から、当該構造上で同一の属性あるいは等価な配置関係を有する語・文集合を抽出する抽出手段と、
前記複数の解釈データのうち、抽出された語・文集合とマッチングする語・文集合を含む解釈データを用いて、前記抽出された語・文集合中の各語・文の訳語を選定する解釈手段と、
を含む機械翻訳システムにおける機械翻訳方法であって、
前記認識手段が、前記入力された前記文書内から、表構造、または箇条書き構造、または章・節構造を認識するステップと、
前記抽出手段が、(a)前記表構造が認識された場合には、該表構造の列あるいは行に配置されている語・文集合を抽出し、(b)前記箇条書き構造が認識された場合には、該箇条書き構造の箇条書きされた各語・文を抽出し、(c)前記章・節構造が認識された場合には、該章・節構造の各章のタイトルあるいは各節のタイトルを抽出するステップと、
前記解釈手段が、前記記憶手段に記憶された前記複数の解釈データの中から、前記抽出された語・文集合のうちの1の語・文を見出し語として含む複数の解釈データ検索するステップと、
前記解釈手段が、検索された各解釈データに含まれる語・文集合が、前記抽出された語・文集合とマッチングするか否かを判定するステップと、
前記解釈手段が、前記複数の解釈データのうち、前記抽出された語・文集合とマッチングすると判定された語・文集合を含む解釈データ中の前記第2の言語の語・文を、前記抽出された語・文集合のうちの1つの語・文の訳語として選定するステップと、
を含む機械翻訳方法。 - コンピュータを、
見出し語としての第1の言語の語・文と、第1の言語の文書中で規則的に配置される該見出し語を含む複数の語・文からなる語・文集合と、該見出し語が該語・文集合のうちの1つである場合の該見出し語に対応する第2の言語での語・文とを含む複数の解釈データを記憶する記憶手段、
入力された前記第1の言語の文書内から、複数の語・文が規則的に配置される、表構造、箇条書き構造、章・節構造を含む複数の構造のうちのいずれか1つの構造を認識する認識手段、
(a)前記認識手段で表構造が認識された場合には、前記表構造が認識された文書から、該表構造の列あるいは行に配置されている語・文集合を抽出し、(b)前記認識手段で箇条書き構造が認識された場合には、前記箇条書き構造が認識された文書から、該箇条書き構造の箇条書きされた語・文集合を抽出し、(c)前記認識手段で章・節構造が認識された場合には、前記章・節構造が認識された文書から、該章・節構造の各章のタイトルあるいは各節のタイトルである語・文集合を抽出する抽出手段、
前記記憶手段に記憶された前記複数の解釈データの中から、抽出された語・文集合のうちの1つの語・文を見出し語として含む複数の解釈データを検索する検索手段、
検索された各解釈データに含まれる語・文集合が、前記抽出された語・文集合とマッチングするか否かを判定する判定手段、
前記検索された複数の解釈データのうち、前記抽出された語・文集合とマッチングすると判定された語・文集合を含む解釈データ中の前記第2の言語の語・文を、前記抽出された語・文集合中のうちの1つの語・文の訳語として選定する手段、
として機能させるためのプログラム。 - 見出し語としての第1の言語の語・文と、第1の言語の文書中で規則的に配置される該見出し語を含む複数の語・文からなる語・文集合と、該見出し語が該語・文集合のうちの1つである場合の該見出し語に対応する第2の言語での語・文とを含む複数の解釈データを記憶する記憶手段と、
入力された前記第1の言語の文書内から、複数の語・文が規則的に配置される表構造を認識する認識手段と、
前記認識手段で前記表構造が認識された文書から、該表構造の列あるいは行に配置されている語・文集合を抽出する抽出手段と、
前記記憶手段に記憶された前記複数の解釈データの中から、抽出された語・文集合のうちの1つの語・文を見出し語として含む複数の解釈データを検索する検索手段と、
検索された各解釈データに含まれる語・文集合が、前記抽出された語・文集合とマッチングするか否かを判定する判定手段と、
前記検索された複数の解釈データのうち、前記抽出された語・文集合とマッチングすると判定された語・文集合を含む解釈データ中の前記第2の言語の語・文を、前記抽出された語・文集合中のうちの1つの語・文の訳語として選定する手段と、
を含む機械翻訳システム。 - 見出し語としての第1の言語の語・文と、第1の言語の文書中で規則的に配置される該見出し語を含む複数の語・文からなる語・文集合と、該見出し語が該語・文集合のうちの1つである場合の該見出し語に対応する第2の言語での語・文とを含む複数の解釈データを記憶する記憶手段と、
入力された前記第1の言語の文書内から、複数の語・文が規則的に配置される構造を認識する認識手段と、
前記構造が認識された文書から、当該構造上で同一の属性あるいは等価な配置関係を有する語・文集合を抽出する抽出手段と、
前記複数の解釈データのうち、抽出された語・文集合とマッチングする語・文集合を含む解釈データを用いて、前記抽出された語・文集合中の各語・文の訳語を選定する解釈手段と、
を含む機械翻訳システムにおける機械翻訳方法であって、
前記認識手段が、前記入力された前記文書内から、表構造を認識するステップと、
前記抽出手段が、前記表構造が認識された文書から、該表構造の列あるいは行に配置されている語・文集合を抽出するステップと、
前記解釈手段が、前記記憶手段に記憶された前記複数の解釈データの中から、前記抽出された語・文集合のうちの1の語・文を見出し語として含む複数の解釈データ検索するステップと、
前記解釈手段が、検索された各解釈データに含まれる語・文集合が、前記抽出された語・文集合とマッチングするか否かを判定するステップと、
前記解釈手段が、前記複数の解釈データのうち、前記抽出された語・文集合とマッチングすると判定された語・文集合を含む解釈データ中の前記第2の言語の語・文を、前記抽出された語・文集合のうちの1つの語・文の訳語として選定するステップと、
を含む機械翻訳方法。 - コンピュータを、
見出し語としての第1の言語の語・文と、第1の言語の文書中で規則的に配置される該見出し語を含む複数の語・文からなる語・文集合と、該見出し語が該語・文集合のうちの1つである場合の該見出し語に対応する第2の言語での語・文とを含む複数の解釈データを記憶する記憶手段、
入力された前記第1の言語の文書内から、複数の語・文が規則的に配置される、表構造を認識する認識手段、
前記認識手段で前記表構造が認識された文書から、該表構造の列あるいは行に配置されている語・文集合を抽出する抽出手段、
前記記憶手段に記憶された前記複数の解釈データの中から、抽出された語・文集合のうちの1つの語・文を見出し語として含む複数の解釈データを検索する検索手段、
検索された各解釈データに含まれる語・文集合が、前記抽出された語・文集合とマッチングするか否かを判定する判定手段、
前記検索された複数の解釈データのうち、前記抽出された語・文集合とマッチングすると判定された語・文集合を含む解釈データ中の前記第2の言語の語・文を、前記抽出された語・文集合中のうちの1つの語・文の訳語として選定する手段、
として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007303308A JP4220570B2 (ja) | 2007-11-22 | 2007-11-22 | 機械翻訳システム、機械翻訳方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007303308A JP4220570B2 (ja) | 2007-11-22 | 2007-11-22 | 機械翻訳システム、機械翻訳方法及びプログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004319708A Division JP4473702B2 (ja) | 2004-11-02 | 2004-11-02 | 機械翻訳システム、機械翻訳方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008108267A JP2008108267A (ja) | 2008-05-08 |
JP4220570B2 true JP4220570B2 (ja) | 2009-02-04 |
Family
ID=39441526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007303308A Active JP4220570B2 (ja) | 2007-11-22 | 2007-11-22 | 機械翻訳システム、機械翻訳方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4220570B2 (ja) |
-
2007
- 2007-11-22 JP JP2007303308A patent/JP4220570B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2008108267A (ja) | 2008-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4473702B2 (ja) | 機械翻訳システム、機械翻訳方法及びプログラム | |
US8423346B2 (en) | Device and method for interactive machine translation | |
US7774193B2 (en) | Proofing of word collocation errors based on a comparison with collocations in a corpus | |
KR101500617B1 (ko) | 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법 | |
CN109460552B (zh) | 基于规则和语料库的汉语语病自动检测方法及设备 | |
JP2004516527A (ja) | クロス言語ライティングウィザードを伴うコンピュータ支援ライティングのシステムおよび方法 | |
Mosavi Miangah | FarsiSpell: A spell-checking system for Persian using a large monolingual corpus | |
Vilares et al. | Studying the effect and treatment of misspelled queries in Cross-Language Information Retrieval | |
Dhore et al. | Hindi to English machine transliteration of named entities using conditional random fields | |
KR102552811B1 (ko) | 클라우드 기반 문법 교정 서비스 제공 시스템 | |
Arnold et al. | Beyond lexical frequencies: using R for text analysis in the digital humanities | |
Rosen | Building and Using Corpora of Non-Native Czech. | |
JP4220570B2 (ja) | 機械翻訳システム、機械翻訳方法及びプログラム | |
Salam et al. | Developing the bangladeshi national corpus-a balanced and representative bangla corpus | |
Bothma et al. | A taxonomy of user guidance devices for e-lexicography | |
Rateb et al. | A critical survey on arabic named entity recognition and diacritization systems | |
Bagchi et al. | Bangla spelling error detection and correction using n-gram model | |
Sankaravelayuthan et al. | English to tamil machine translation system using parallel corpus | |
Ebeling et al. | Comparing n-gram-based functional categories in original versus translated texts | |
Stankovic et al. | Sentiment Analysis of Sentences from Serbian ELTeC corpus | |
Alansary | Basma: Bibalex standard arabic morphological analyzer | |
HONG | Spelling Normalization of English Student Writings | |
Simon et al. | Languages under the influence: Building a database of Uralic languages | |
Syed et al. | Quantifying the Use of English Words in Urdu News-Stories | |
Szpektor et al. | Cross lingual and semantic retrieval for cultural heritage appreciation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20080626 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20080815 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080819 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081020 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081111 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111121 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4220570 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111121 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111121 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121121 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131121 Year of fee payment: 5 |