JP3996886B2 - 対訳対抽出装置及びそのためのコンピュータプログラム - Google Patents
対訳対抽出装置及びそのためのコンピュータプログラム Download PDFInfo
- Publication number
- JP3996886B2 JP3996886B2 JP2003371587A JP2003371587A JP3996886B2 JP 3996886 B2 JP3996886 B2 JP 3996886B2 JP 2003371587 A JP2003371587 A JP 2003371587A JP 2003371587 A JP2003371587 A JP 2003371587A JP 3996886 B2 JP3996886 B2 JP 3996886B2
- Authority
- JP
- Japan
- Prior art keywords
- specific expression
- correspondence
- document
- language
- evaluation value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明の第1の実施の形態にかかる対訳対抽出装置について、図1〜図6を参照して説明する。なお、以下の説明では、日本語と英語との対訳対を抽出する装置について説明するが、言語の組合せがこの二言語に限定されるわけではなく、どのような言語の組合せでも本実施の形態の装置を実現することができる。
・ある固有表現グループの組合せ方について、
・第1の文書50中の任意の二つの固有表現グループが第1の文書50中でそれぞれ最初に現れる順序と、
・第2の文書60中でそれら二つの固有表現グループに対応すると想定された英語の表現グループが、第2の文書60中でそれぞれ最初に現れる順序と、
が互いに一致する割合のことをいう。日本語と英語とを逆にしてもよい。
・日本語文書中のある一つの固有表現グループが、
・対応する固有表現グループを英語文書中に持つ割合
のことをいう。特に、上のように算出したものを日本語の固有表現グループの翻訳率という。日本語と英語とを入替えたものに対しても同様に英語の固有表現グループの翻訳率が算出できる。本実施の形態では、日本語の固有表現グループの翻訳率と、英語の固有表現グループの翻訳率との平均を、翻訳率として用いる。
図6に、上のようにして算出された固有表現翻訳率の例を示す。図6において、図3と同様、「A」は日本語を指し、「B」は英語を指す。固有表現及び固有表現グループについても図3に示されるものを使用している。同じ条件で算出したグループ翻訳率を図7に示す。このグループ翻訳率を用いるようにしてもよい。
αは[0,1]の範囲の任意の値をとる。α=0又は1のときは、順序保存率又は翻訳率の一方しか用いないことになる。一般的には、α=0.5程度の値を用いる。この場合、評価値cは順序保存率aと翻訳率bとの平均となる。
上記した第1の実施の形態にかかる対訳対抽出装置20は、日本語文書処理部30及び英語文書処理部32でそれぞれ抽出された日本語の固有表現グループと、英語の固有表現グループとから直接対訳対を抽出している。しかし、本発明はそのような実施の形態に限定して実現可能なわけではない。例えば、固有表現グループ同士の間で、何らかの手段により明らかに対応関係が付けられるものがあれば、それらを先に確定的に対応付けた後に、さらに対応付けの処理を行なうことが考えられる。そうすることにより、最終的に得られる対訳対がより正確なものとなる上、処理に要する時間も短縮化されることが期待できる。
Claims (15)
- 各々機械可読な形式の第1言語の文書および第2言語の文書に含まれる単語の中から固有表現を抽出するように、正解データを用いて予め学習し、前記第1言語の文書及び前記第2言語の文書が与えられると、それぞれの文書から固有表現を抽出するための固有表現抽出手段と、
前記固有表現抽出手段により前記第1言語の文書から抽出された固有表現と、前記第2言語の文書から抽出された固有表現との間の対応関係を、前記第1言語の文書における固有表現の出現順序と前記第2言語の文書における固有表現の出現順序との類似度、並びに前記第1言語の文書及び第2言語の文書において固有表現が共起する確率のいずれか一方又は双方を用いて算出される評価値を用いて特定するための対応関係特定手段と、
前記対応関係特定手段により特定された対応関係にしたがって、前記第1言語の文書から抽出された固有表現と、前記第2言語の文書から抽出された固有表現とを対訳対として抽出するための対訳対抽出手段とを含む、対訳対抽出装置。 - 前記対応関係特定手段は、
前記固有表現抽出手段により前記第1言語の文書から抽出された固有表現と、前記第2言語の文書から抽出された固有表現の間で、可能な複数通りの対応関係を仮定するための対応関係仮定手段と、
前記対応関係仮定手段により仮定された前記複数通りの対応関係の各々に対し、前記評価値を算出するための評価値算出手段とを含み、
前記評価値は、前記類似度及び前記確率の内、前記評価値の算出に用いられる値と正の相関を持つように算出され、
前記対訳抽出装置はさらに、前記評価値算出手段により算出された評価値が最も高くなる対応関係を選択するための選択手段を含む、請求項1に記載の対訳対抽出装置。 - 前記評価値算出手段は、
前記対応関係仮定手段により仮定された対応関係の各々に対し、前記第1言語の文書中の第1の固有表現および第2の固有表現の出現順序が、前記第2言語の文書中の前記第1の固有表現に対応する固有表現及び前記第2の固有表現に対応する固有表現の出現順序と一致しているか否かを、すべての固有表現対について算出することにより得られる順序保存率を算出するための第1の指標算出手段と、
前記対応関係仮定手段により仮定された対応関係の各々に対し、前記第1言語の文書から抽出された固有表現と、前記第2言語の文書から抽出された固有表現とが当該対応関係により互いに対応付けられている割合を表す翻訳率を算出するための第2の指標算出手段と、
前記対応関係仮定手段により仮定された対応関係の各々に対して、前記第1及び第2の指標算出手段により算出された前記順序保存率と前記翻訳率とを加重平均することにより前記評価値を算出するための加重平均手段とを含む、請求項2に記載の対訳対抽出装置。 - 前記評価値算出手段は、前記対応関係仮定手段により仮定された対応関係の各々に対し、前記第1言語の文書中の第1の固有表現および第2の固有表現の出現順序が、前記第2言語の文書中の前記第1の固有表現に対応する固有表現及び前記第2の固有表現に対応する固有表現の出現順序と一致しているか否かを、すべての固有表現対について算出することにより得られる順序保存率を前記評価値として算出するための順序保存率算出手段を含む、請求項2に記載の対訳対抽出装置。
- 前記評価値算出手段は、前記対応関係仮定手段により仮定された対応関係の各々に対し、前記第1言語の文書から抽出された固有表現と、前記第2言語の文書から抽出された固有表現とが当該対応関係により互いに対応付けられている割合を表す翻訳率を前記評価値として算出するための翻訳率算出手段を含む、請求項2に記載の対訳対抽出装置。
- 前記加重平均手段は、前記対応関係仮定手段により仮定された対応関係の各々に対して、前記第1及び第2の指標算出手段により算出された前記順序保存率と前記翻訳率とを互いに等しい重みで平均することにより前記評価値を算出するための平均手段を含む、請求項3に記載の対訳対抽出装置。
- 前記対応関係特定手段はさらに、
前記第1言語の固有表現と、前記第2言語の固有表現との間の対応関係を記憶した辞書と、
前記第1言語の文書から抽出された固有表現と、前記第2言語の文書から抽出された固有表現との間で、前記辞書に対応関係が記憶されている固有表現対を抽出して確定的な対応関係を設定するための手段を含む、請求項2〜請求項6のいずれかに記載の対訳対抽出装置。 - 前記対応関係特定手段は、
前記固有表現抽出手段により前記第1言語の文書から抽出された固有表現を、固有表現同士の類似度に基づいて各々同一の事物を指す固有表現からなる複数通りの固有表現グループに分類するための第1の分類手段と、
前記固有表現抽出手段により前記第2言語の文書から抽出された固有表現を、固有表現同士の類似度に基づいて各々同一の事物を指す固有表現からなる複数通りの固有表現グループに分類するための第2の分類手段と、
前記第1の分類手段により分類された複数通りの固有表現グループと、前記第2の分類手段により分類された複数通りの固有表現グループとの間の対応関係を、前記第1言語の文書における固有表現グループに属する固有表現の出現順序と前記第2言語の文書における固有表現グループに属する固有表現の出現順序との類似度、並びに前記第1言語の文書及び第2言語の文書において固有表現グループが共起する確率のいずれか一方又は双方を用いて算出される評価値を用いて特定するためのグループ対応関係特定手段とを含み、
前記対訳対抽出手段は、前記グループ対応関係特定手段により特定された対応関係にしたがって、前記第1の分類手段により分類された固有表現グループに属する固有表現と、前記第2の分類手段により分類された固有表現グループに属する固有表現とを対訳対として抽出するための手段を含む、請求項1に記載の対訳対抽出装置。 - 前記グループ対応関係特定手段は、
前記第1の分類手段により分類された固有表現グループと、前記第2の分類手段により分類された固有表現グループとの間で、可能な複数通りの対応関係を仮定するための対応関係仮定手段と、
前記対応関係仮定手段により仮定された前記複数通りの対応関係の各々に対し、前記評価値を算出するための評価値算出手段とを含み、
前記評価値は、前記類似度及び前記確率の内、前記評価値の算出に用いられる値と正の相関を持つように算出され、
前記対訳抽出装置はさらに、前記評価値算出手段により算出された評価値が最も高くなる対応関係を選択するための選択手段を含む、請求項8に記載の対訳対抽出装置。 - 前記評価値算出手段は、
前記対応関係仮定手段により仮定された対応関係の各々に対し、前記第1の分類手段により分類された第1の固有表現グループに属する固有表現および第2の固有表現グループに属する固有表現の前記第1言語の文書中における出現順序が、前記第2言語の文書中の前記第1の固有表現グループに対応する固有表現グループに属する固有表現及び前記第2の固有表現グループに対応する固有表現グループに属する固有表現の出現順序と一致しているか否かを、対応が仮定されているすべての固有表現グループの対について算出することにより得られる順序保存率を算出するための第1の指標算出手段と、
前記対応関係仮定手段により仮定された対応関係の各々に対し、前記第1言語の文書から抽出された固有表現グループと、前記第2言語の文書から抽出された固有表現グループとが互いに当該対応関係により対応付けられている割合を表す翻訳率を算出するための第2の指標算出手段と、
前記対応関係仮定手段により仮定された対応関係の各々に対して、前記第1及び第2の指標算出手段により算出された前記順序保存率と前記翻訳率とを加重平均することにより前記評価値を算出するための加重平均手段とを含む、請求項9に記載の対訳対抽出装置。 - 前記評価値算出手段は、前記対応関係仮定手段により仮定された対応関係の各々に対し、前記第1言語の文書中の第1の固有表現グループに属する固有表現および第2の固有表現グループに属する固有表現の出現順序が、前記第2言語の文書中の前記第1の固有表現グループに対応する固有表現グループに属する固有表現及び前記第2の固有表現グループに対応する固有表現グループに属する固有表現の出現順序と一致しているか否かを、すべての固有表現グループの対について算出することにより得られる順序保存率を前記評価値として算出するための順序保存率算出手段を含む、請求項9に記載の対訳対抽出装置。
- 前記評価値算出手段は、前記対応関係仮定手段により仮定された対応関係の各々に対し、前記第1言語の文書から抽出された固有表現グループと、前記第2言語の文書から抽出された固有表現グループとが当該対応関係により互いに対応付けられている割合を表す翻訳率を前記評価値として算出するための翻訳率算出手段を含む、請求項9に記載の対訳対抽出装置。
- 前記加重平均手段は、前記対応関係仮定手段により仮定された対応関係の各々に対して、前記第1及び第2の指標算出手段により算出された前記順序保存率と前記翻訳率とを互いに等しい重みで平均することにより前記評価値を算出するための平均手段を含む、請求項10に記載の対訳対抽出装置。
- 前記対応関係特定手段はさらに、
前記第1言語の固有表現グループと、前記第2言語の固有表現グループとの間の対応関係を記憶した辞書と、
前記第1の分類手段により分類された固有表現グループと、前記第2の分類手段により分類された固有表現グループとの間で、前記辞書に対応関係が記憶されている固有表現グループの対を抽出して確定的な対応関係を設定するための手段を含む、請求項8〜請求項13のいずれかに記載の対訳対抽出装置。 - コンピュータにより実行されると、当該コンピュータを請求項1〜請求項14のいずれかに記載の対訳対抽出装置として動作させる、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003371587A JP3996886B2 (ja) | 2003-10-31 | 2003-10-31 | 対訳対抽出装置及びそのためのコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003371587A JP3996886B2 (ja) | 2003-10-31 | 2003-10-31 | 対訳対抽出装置及びそのためのコンピュータプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2005135217A JP2005135217A (ja) | 2005-05-26 |
JP2005135217A5 JP2005135217A5 (ja) | 2005-09-08 |
JP3996886B2 true JP3996886B2 (ja) | 2007-10-24 |
Family
ID=34648194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003371587A Expired - Fee Related JP3996886B2 (ja) | 2003-10-31 | 2003-10-31 | 対訳対抽出装置及びそのためのコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3996886B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6705318B2 (ja) * | 2016-07-14 | 2020-06-03 | 富士通株式会社 | 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム |
JP7173149B2 (ja) | 2018-08-30 | 2022-11-16 | 富士通株式会社 | 生成方法、生成プログラムおよび情報処理装置 |
-
2003
- 2003-10-31 JP JP2003371587A patent/JP3996886B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005135217A (ja) | 2005-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gooding et al. | CAMB at CWI shared task 2018: Complex word identification with ensemble-based voting | |
AU2010208523B2 (en) | Methods and systems for matching records and normalizing names | |
Shardlow | The cw corpus: A new resource for evaluating the identification of complex words | |
US10452785B2 (en) | Translation assistance system, translation assistance method and translation assistance program | |
JP4600045B2 (ja) | 意見抽出用学習装置及び意見抽出用分類装置 | |
Zhang et al. | HANSpeller++: A unified framework for Chinese spelling correction | |
CN112668319A (zh) | 基于中文信息和越南语句法指导的越南语新闻事件检测方法 | |
Kanan et al. | Extracting named entities using named entity recognizer for arabic news articles | |
JP2010117797A (ja) | 数値表現処理装置 | |
Mohamed et al. | Arabic Part of Speech Tagging. | |
JP6626917B2 (ja) | 英語の音節計算法に基づいた可読性評価方法及びシステム | |
CN106874362A (zh) | 多语言自动文摘方法 | |
Attia et al. | An automatically built named entity lexicon for Arabic | |
CN106569994B (zh) | 地址的分析方法及装置 | |
JP6867963B2 (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
JP3765801B2 (ja) | 対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラム | |
Sagcan et al. | Toponym recognition in social media for estimating the location of events | |
Shah et al. | Improvement of Soundex algorithm for Indian language based on phonetic matching | |
KR102351745B1 (ko) | 사용자 리뷰 기반 평점 재산정 장치 및 방법 | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 | |
JP3996886B2 (ja) | 対訳対抽出装置及びそのためのコンピュータプログラム | |
JP5911931B2 (ja) | 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体 | |
KR20170094063A (ko) | 의미 기반 명사 유사도 계산 장치 및 방법 | |
Meselhi et al. | Hybrid named entity recognition-application to Arabic language | |
Priyadarshani et al. | Statistical machine learning for transliteration: Transliterating names between sinhala, tamil and english |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050513 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050513 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070130 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070329 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070424 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070615 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070710 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070803 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100810 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100810 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |