JP5528420B2 - 翻訳装置、翻訳方法及びコンピュータプログラム - Google Patents
翻訳装置、翻訳方法及びコンピュータプログラム Download PDFInfo
- Publication number
- JP5528420B2 JP5528420B2 JP2011266170A JP2011266170A JP5528420B2 JP 5528420 B2 JP5528420 B2 JP 5528420B2 JP 2011266170 A JP2011266170 A JP 2011266170A JP 2011266170 A JP2011266170 A JP 2011266170A JP 5528420 B2 JP5528420 B2 JP 5528420B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- translation
- collocation
- kanji
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Description
と日本語の「動物園」とは全て同一起源の漢字からなるが、字体が大きく異なり、中国語の初学者にとっては、
と「動」とが同じ字であることに気づきにくいため、
の訳出を必要とする。一方で、ある程度中国語の学習を進めた日本語話者にとっては、
と「動」とが同じ字、
と「園」とが同じ字であることに気づきやすく、仮に
という単語を訳出しなくても、その意味が分かるため、
の訳出は不要である。また、同一起源の漢字には、例えば、中国語の「决」及び日本語の「決」のように、形状が非常に近い漢字がある。このような漢字であれば、中国語の初学者にとっても、訳出が不要である。このように、訳出要否は学習者の習熟度及び/又は漢字の形状の類似度によって異なるため、訳出要否の決定基準が課題となる。
図1は、本発明の実施の形態に係る翻訳装置1の内部構成を示すブロック図である。本実施の形態に係る翻訳装置1は、PC又はサーバ装置等の汎用コンピュータを用いて構成されており、演算を行うCPU11と、演算に伴って発生する一時的な情報を記憶するRAM12と、光ディスク又はメモリカード等の記録媒体2から情報を読み取るCD−ROMドライブ等のドライブ部13と、ハードディスク等の記憶部14とを備えている。CPU11は、記録媒体2から本発明のコンピュータプログラム21をドライブ部13に読み取らせ、読み取ったコンピュータプログラム21を例えば記憶部14に記憶させる。コンピュータプログラム21は必要に応じて記憶部14からRAM12へロードされ、ロードされたコンピュータプログラム21に基づいて、CPU11は必要な処理を実行する。なお、コンピュータプログラム21は、インターネット又はLAN等の通信ネットワークを介して図示しない外部のサーバ装置から翻訳装置1へダウンロードされて記憶部14に記憶される形態であってもよい。
が選択され、夫々に対して訳語が関連付けられている。
との差は、日本語の「門」という字を手書きする際に慣習的に
に近い形で略記することが広く行われているので、見た目の形の差よりも、日本語話者にとって感じる差は小さい。このように、これを部首として含む漢字(例えば図6における
と「問」)も、上記の事情を考慮して類似度の値が付与される。
及び対応する日本語の「動物園」の場合、中国語の
と日本語の「動」との類似度が0.40、中国語の「物」と日本語の「物」との類似度が1.00、中国語の
と日本語の「園」との類似度が0.30であるので、これらを算術平均した結果、単語類似度は0.57と算出される。また、ステップS133では、CPU11は、中日漢字対応表から、当該単語又は連語を構成する全ての漢字の内、類似度が最も低い漢字の類似度を取得して上記単語類似度としてもよい。この場合、図5における中国語の
及び対応する日本語の「動物園」の類似度は、0.30とされる。
及び対応する日本語の「動物園」の場合には、閾値が0.70と設定されるときに、算出された単語類似度の0.57が閾値の0.70より低いため、「訳出する」と決定するが、閾値が0.40と設定されるときに、算出された単語類似度の0.57が閾値の0.40より高いため、「訳出しない」と決定する。
については、これらの単語又は連語夫々を構成する漢字と、その訳語を構成する漢字とが夫々に対応しないため、閾値が0.70とする場合も閾値が0.40とする場合も、訳出すると決定される。一方で、
については、これらの単語又は連語夫々を構成する漢字と、その訳語を構成する漢字とが夫々に対応しているが、算出された単語類似度が夫々0.57、0.90、0.85であるため、所定の閾値と比較することにより、訳出要否が決定される。
11 CPU
12 RAM
14 記憶部
16 表示部
17 インタフェース部
2 記録媒体
21 コンピュータプログラム
22 辞書データベース
23 漢字対応辞書
24 漢字類似度辞書
31 画像読取装置
32 画像形成装置
Claims (14)
- 第1言語の原文を、第2言語に翻訳して出力する翻訳装置において、
第1言語の原文のテキストを取得するテキスト取得手段と、
該テキスト取得手段にて取得したテキストに含まれる単語又は連語夫々の第2言語の訳語を取得する訳語取得手段と、
前記単語又は連語を構成する文字、及び前記訳語取得手段にて取得した該単語又は連語の訳語を構成する文字を比較して、前記単語又は連語ごとに訳出するか否かを決定する決定手段と、
該決定手段による決定結果に基づいて単語又は連語の訳語を出力する出力手段と
を備えることを特徴とする翻訳装置。 - 前記第1言語及び第2言語は、中国語及び日本語であり、
前記決定手段は、単語又は連語を構成する漢字と、該単語又は連語の訳語を構成する漢字とが全て同一である場合、該単語又は連語を訳出しないと決定するようにしてあることを特徴とする請求項1に記載の翻訳装置。 - 前記決定手段は、単語又は連語を構成する漢字と、該単語又は連語の訳語を構成する漢字とのユニコードにおけるコードポイントが全て同一である場合、該単語又は連語を訳出しないと決定するようにしてあることを特徴とする請求項2に記載の翻訳装置。
- 前記第1言語及び第2言語は、中国語及び日本語であり、
中国語の漢字と、該中国語の漢字に対応する日本語の漢字とを対応付けてある漢字対応辞書を備え、
前記決定手段は、前記漢字対応辞書に基づいて、単語又は連語を構成する漢字と、該単語又は連語の訳語を構成する漢字とが夫々に対応しない場合、該単語又は連語を訳出すると決定するようにしてあることを特徴とする請求項1に記載の翻訳装置。 - 中国語の漢字、及び該中国語の漢字に対応する日本語の漢字の類似度を格納してある漢字類似度辞書と、
単語又は連語を構成する漢字、及び該単語又は連語の訳語を構成する漢字が夫々に対応している場合、前記漢字類似度辞書に基づいて、単語又は連語、及び該単語又は連語の訳語の類似度を示す単語類似度を算出する算出手段とを備え、
前記決定手段は、前記算出手段にて算出した単語類似度が所定閾値以上である場合、該単語又は連語を訳出しないと決定するようにしてあることを特徴とする請求項4に記載の翻訳装置。 - 前記算出手段は、単語又は連語を構成する全ての漢字と、該単語又は連語の訳語を構成する全ての漢字との夫々の類似度の算術平均値を、前記単語類似度として算出するようにしてあることを特徴とする請求項5に記載の翻訳装置。
- 前記算出手段は、単語又は連語を構成する全ての漢字と、該単語又は連語の訳語を構成する全ての漢字との夫々の類似度の内、最も低い類似度を、前記単語類似度として算出するようにしてあることを特徴とする請求項5に記載の翻訳装置。
- 前記漢字類似度辞書は、漢字の形状に基づく類似度を格納してあることを特徴とする請求項5に記載の翻訳装置。
- 前記漢字類似度辞書は、漢字のボディーフェース中の面積比に基づく類似度を格納してあることを特徴とする請求項5に記載の翻訳装置。
- 前記出力手段は、前記原文の全文を出力した上で、前記決定手段にて訳出すると決定した単語又は連語の近傍に、該単語又は連語の訳語を出力するようにしてあることを特徴とする請求項1から請求項9の何れか一つに記載の翻訳装置。
- 前記出力手段は、前記原文のレイアウトを保持した上で、原文の行間に前記決定手段にて訳出すると決定した単語又は連語の訳語を出力するようにしてあることを特徴とする請求項10に記載の翻訳装置。
- 前記出力手段は、前記決定手段にて訳出しないと決定した単語又は連語に傍線を引いて出力するようにしてあることを特徴とする請求項1から請求項11の何れか一つに記載の翻訳装置。
- インターフェース部と、第1言語の原文を、第2言語に翻訳して前記インターフェース部を介して出力する処理を実行するCPUとを備える翻訳装置による翻訳方法において、
前記CPUにより第1言語の原文のテキストを取得するステップと、
前記CPUにより取得したテキストに含まれる単語又は連語夫々の第2言語の訳語を取得するステップと、
前記CPUにより前記単語又は連語を構成する文字、及び取得した該単語又は連語の訳語を構成する文字を比較して、前記単語又は連語ごとに訳出するか否かを決定するステップと、
前記CPUにより決定した結果に基づいて単語又は連語の訳語を前記インターフェース部を介して出力するステップと
を含むことを特徴とする翻訳方法。 - コンピュータに、第1言語の原文を、第2言語に翻訳して出力する処理を実行させるためのコンピュータプログラムにおいて、
第1言語の原文のテキストを取得するステップと、
取得したテキストに含まれる単語又は連語夫々の第2言語の訳語を取得するステップと、
前記単語又は連語を構成する文字、及び取得した該単語又は連語の訳語を構成する文字を比較して、前記単語又は連語ごとに訳出するか否かを決定するステップと、
決定した結果に基づいて単語又は連語の訳語を出力するステップと
を含む処理をコンピュータに実行させることを特徴とするコンピュータプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011266170A JP5528420B2 (ja) | 2011-12-05 | 2011-12-05 | 翻訳装置、翻訳方法及びコンピュータプログラム |
US13/691,994 US20130144598A1 (en) | 2011-12-05 | 2012-12-03 | Translation device, translation method and recording medium |
CN2012105111270A CN103136195A (zh) | 2011-12-05 | 2012-12-03 | 翻译装置和翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011266170A JP5528420B2 (ja) | 2011-12-05 | 2011-12-05 | 翻訳装置、翻訳方法及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013117927A JP2013117927A (ja) | 2013-06-13 |
JP5528420B2 true JP5528420B2 (ja) | 2014-06-25 |
Family
ID=48496034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011266170A Active JP5528420B2 (ja) | 2011-12-05 | 2011-12-05 | 翻訳装置、翻訳方法及びコンピュータプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20130144598A1 (ja) |
JP (1) | JP5528420B2 (ja) |
CN (1) | CN103136195A (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104731777B (zh) * | 2015-03-31 | 2019-02-01 | 网易有道信息技术(北京)有限公司 | 一种译文评价方法及装置 |
JP6471074B2 (ja) * | 2015-09-30 | 2019-02-13 | 株式会社東芝 | 機械翻訳装置、方法及びプログラム |
CN106156013B (zh) * | 2016-06-30 | 2019-02-19 | 电子科技大学 | 一种固定搭配型短语优先的两段式机器翻译方法 |
CN108021549B (zh) * | 2016-11-04 | 2019-08-13 | 华为技术有限公司 | 序列转换方法及装置 |
US10762306B2 (en) * | 2017-12-27 | 2020-09-01 | Telenav, Inc. | Computing system with a cross-locale natural language searching mechanism and method of operation thereof |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1008779B (zh) * | 1986-07-01 | 1990-07-11 | 日本电气株式会社 | 日文和中文之间的翻译系统 |
JPH04295964A (ja) * | 1991-03-25 | 1992-10-20 | Matsushita Electric Ind Co Ltd | 機械翻訳装置 |
JP3161942B2 (ja) * | 1995-06-14 | 2001-04-25 | シャープ株式会社 | 訳振り機械翻訳装置 |
JP2973944B2 (ja) * | 1996-06-26 | 1999-11-08 | 富士ゼロックス株式会社 | 文書処理装置および文書処理方法 |
JP2001175683A (ja) * | 1999-12-21 | 2001-06-29 | Nec Corp | 翻訳サーバシステム |
US7447624B2 (en) * | 2001-11-27 | 2008-11-04 | Sun Microsystems, Inc. | Generation of localized software applications |
JP2004355248A (ja) * | 2003-05-28 | 2004-12-16 | Seiko Instruments Inc | 電子辞書 |
JP4018668B2 (ja) * | 2004-05-28 | 2007-12-05 | 株式会社東芝 | 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム |
JP4058057B2 (ja) * | 2005-04-26 | 2008-03-05 | 株式会社東芝 | 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム |
JP2008250796A (ja) * | 2007-03-30 | 2008-10-16 | Casio Comput Co Ltd | 情報表示装置及び情報表示プログラム |
JP5112116B2 (ja) * | 2008-03-07 | 2013-01-09 | 株式会社東芝 | 機械翻訳する装置、方法およびプログラム |
JP4948586B2 (ja) * | 2009-11-06 | 2012-06-06 | シャープ株式会社 | 文書画像生成装置、文書画像生成方法、コンピュータプログラム及び記録媒体 |
JP5211193B2 (ja) * | 2010-11-10 | 2013-06-12 | シャープ株式会社 | 翻訳表示装置 |
-
2011
- 2011-12-05 JP JP2011266170A patent/JP5528420B2/ja active Active
-
2012
- 2012-12-03 US US13/691,994 patent/US20130144598A1/en not_active Abandoned
- 2012-12-03 CN CN2012105111270A patent/CN103136195A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2013117927A (ja) | 2013-06-13 |
US20130144598A1 (en) | 2013-06-06 |
CN103136195A (zh) | 2013-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7783472B2 (en) | Document translation method and document translation device | |
US8503786B2 (en) | Document image generation apparatus, document image generation method and recording medium | |
US20060217956A1 (en) | Translation processing method, document translation device, and programs | |
Diab et al. | Tharwa: A Large Scale Dialectal Arabic-Standard Arabic-English Lexicon. | |
JP5528420B2 (ja) | 翻訳装置、翻訳方法及びコンピュータプログラム | |
JP4999938B2 (ja) | 文書画像生成装置、文書画像生成方法及びコンピュータプログラム | |
US8923618B2 (en) | Information output device and information output method | |
US7664631B2 (en) | Language processing device, language processing method and language processing program | |
JP2019128943A (ja) | 多言語植字の表示方法、表示装置、ブラウザ、端末及びコンピュータ読み取り可能な記憶媒体 | |
JP2008083994A (ja) | 辞書登録装置、辞書登録方法及び辞書登録プログラム | |
JP2010009509A (ja) | 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体 | |
Mohamed et al. | Arabic Part of Speech Tagging. | |
Dhanjal et al. | Comparative analysis of sign language notation systems for Indian sign language | |
JPWO2008146583A1 (ja) | 辞書登録システム、辞書登録方法および辞書登録プログラム | |
JP4886244B2 (ja) | 機械翻訳装置および機械翻訳プログラム | |
CN107870900B (zh) | 提供翻译文的方法、装置以及记录介质 | |
US9876916B1 (en) | Image forming apparatus that image-forms result of proofreading process with respect to sentence | |
JP5604276B2 (ja) | 文書画像生成装置および文書画像生成方法 | |
JP7315420B2 (ja) | テキストの適合および修正の方法 | |
KR20220084915A (ko) | 클라우드 기반 문법 교정 서비스 제공 시스템 | |
JP2017151768A (ja) | 翻訳プログラム及び情報処理装置 | |
JP2008065594A (ja) | 文書変換装置及びコンピュータのプログラム | |
JP5453779B2 (ja) | 言語解析システム、言語解析方法、プログラム及び機械翻訳システム、言語解析方法、プログラム | |
JP2002358481A (ja) | 画像処理装置 | |
JP2004078531A (ja) | 文字認識装置、文字認識方法およびその方法をコンピュータに実行させるプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130920 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131001 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140325 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140415 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5528420 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |