JP5204203B2 - 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム - Google Patents
用例翻訳システム、用例翻訳方法及び用例翻訳プログラム Download PDFInfo
- Publication number
- JP5204203B2 JP5204203B2 JP2010260845A JP2010260845A JP5204203B2 JP 5204203 B2 JP5204203 B2 JP 5204203B2 JP 2010260845 A JP2010260845 A JP 2010260845A JP 2010260845 A JP2010260845 A JP 2010260845A JP 5204203 B2 JP5204203 B2 JP 5204203B2
- Authority
- JP
- Japan
- Prior art keywords
- translation
- word
- similarity
- corpus
- appearance frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
原文:I pass by the shop every day.(類似度:86%)
訳文:私は毎日その店のそばを通る
用例2
原文:I pass behind the shop every day.(類似度:71%)
訳文:私は毎日その店の後ろを通る
この結果、翻訳者は最も類似度の高い用例1の訳文を部分的に修正することで、希望の訳文を得ることができる。
原文:The stocks of this brand bring about profits.
訳文:この銘柄の株式は利益をもたらします
用例2(登録日:2009/11/30)
原文:The fans of this brand bring about profits.
訳文:このブランドのファンたちは利益をもたらします
翻訳対象
原文:The shares of this brand bring about damage.
ここで、この従来の計算方法により翻訳対象原文と各々の翻訳用例原文との類似度を計算した場合、用例1、用例2ともに8単語中6単語が原文と一致するため同じ類似度になり、登録日の新しい用例2の訳文が類似文の訳文として利用者に提示される。
この翻訳対象原文の類似文を検索する場合を考える。なお、この翻訳対象原文は株式関連の文章中に現れた文であり、用例翻訳システムには予め株式の単語情報を登録したコーパス36を持っているものとする。
原文:The stocks of this brand bring about profits.
訳文:この銘柄の株式は利益をもたらします
用例2
原文:The fans of this brand bring about profits.
訳文:このブランドのファンたちは利益をもたらします
翻訳対象原文とこれら二つの翻訳用例原文との類似度は、どちらも75{(一致する単語数/全単語数)×100で計算)}で同じである。この場合、二つの翻訳用例が得られたので、図6のステップS16以降の処理に移ることになる。
半年以内 :1.0
1年以内 :0.9
3年以内 :0.8
3年以上経過 :0.7
具体例として以下の翻訳対象原文及び類似度の高い翻訳用例として検出された用例1、用例2を考える。また、利用するコーパス36には、図7に示すような単語情報が登録されていたとする。
The government must fix a safety net immediately.
用例1
原文:The city must fix a safety net immediately.
訳文:市は早急に安全網を整備しなければならない。
原文:The prefecture must fix a safety net immediately.
訳文:県は早急にセーフティーネットを整備しなければならない。
Claims (6)
- 翻訳対象の第1言語の原文と翻訳目的の第2言語の訳文とを対にした翻訳用例を格納した翻訳用例データベースと、
文を形態素解析する際に参照する形態素解析辞書と、
所定の分野の文書で用いられた単語の出現頻度を格納したコーパスとを記憶した記憶装置と、
入力装置から入力された翻訳対象原文と前記翻訳用例データベースの翻訳用例原文との類似度を計算し、その類似度が予め定めた閾値以上の翻訳用例を前記翻訳用例データベースから検索する用例検索部と、
前記用例検索部により複数の翻訳用例が検索されたとき、当該複数の翻訳用例の各翻訳用例訳文を前記形態素解析辞書を参照して形態素解析し単語を抽出する形態素解析部と、
前記形態素解析部で抽出された単語につき前記コーパスに格納された当該単語の出現頻度に応じて前記類似度に加点する加点値計算部と、
前記加点後の類似度が最も大きい翻訳用例を選出する翻訳用例選出部と、
を備えた用例翻訳システム。 - 前記コーパスは単語の出現頻度の更新日時情報をさらに格納し、前記加点値計算部は前記加点について前記更新日時情報の新しいものほど大きな重み付けをする請求項1記載の用例翻訳システム。
- 翻訳対象の第1言語の原文と翻訳目的の第2言語の訳文とを対にした翻訳用例を格納した翻訳用例データベースと、文を形態素解析する際に参照する形態素解析辞書と、所定の分野の文書で用いられた単語の出現頻度を単語頻度情報として格納したコーパスとを予め記憶装置に記憶しておき、演算制御装置は、入力装置から入力された翻訳対象原文と前記翻訳用例データベースの翻訳用例原文との類似度を計算し、その類似度が予め定めた閾値以上の翻訳用例を前記翻訳用例データベースから検索し、
複数の翻訳用例が検索されたとき、当該複数の翻訳用例の各翻訳用例訳文を前記形態素解析辞書を参照して形態素解析し単語を抽出し、
抽出された前記単語につき前記コーパスに格納された当該単語の出現頻度に応じて前記類似度に加点し、
前記加点後の類似度が最も大きい翻訳用例を選出して翻訳用例とする用例翻訳方法。 - 前記演算制御装置は、前記コーパスに前記単語頻度情報に加え単語の出現頻度の更新日時情報を予め格納しておき、前記単語の出現頻度に応じて計算した加算値に前記更新日時情報の新しいものほど大きな重み付け係数を乗算した加算値を計算する請求項3記載の用例翻訳方法。
- 用例翻訳プログラム、翻訳対象の第1言語の原文と翻訳目的の第2言語の訳文とを対にした翻訳用例を格納した翻訳用例データベース、翻訳用例訳文を形態素解析する際に参照する形態素解析辞書、所定の分野の文書で用いられた単語の出現頻度を単語頻度情報として格納したコーパスを予め記憶した記憶装置と、翻訳対象原文を入力するとともに操作に必要な情報を入力する入力装置と、前記翻訳対象原文や前記翻訳用例を表示する表示装置と、前記用例翻訳プログラムを演算実行する演算制御装置とを備えた用例翻訳システムとして機能させるためのコンピュータにおいて、前記コンピュータを、
前記翻訳対象原文と前記翻訳用例データベースの翻訳用例原文との類似度を計算し、その類似度が予め定めた閾値以上の翻訳用例を前記翻訳用例データベースから検索する用例検索手段と、
前記用例検索部により複数の翻訳用例が検索されたとき、当該複数の翻訳用例の各翻訳用例訳文を前記形態素解析辞書を参照して形態素解析し単語を抽出する形態素解析手段と、
前記形態素解析部で抽出された前記単語につき前記コーパスに格納された当該単語の出現頻度に応じて前記類似度に加点する加点値計算手段と、
前記加点後の類似度が最も大きい翻訳用例を選出する翻訳用例選出手段として機能させるための用例翻訳プログラム。 - 前記コーパスに前記単語頻度情報に加え単語の出現頻度の更新日時情報を予め格納しておき、前記加点値計算手段は単語の出現頻度に応じて計算した加算値に、前記更新日時情報の新しいものほど大きな重み付け係数を乗算した加算値を計算する請求項5記載の用例翻訳プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010260845A JP5204203B2 (ja) | 2010-11-24 | 2010-11-24 | 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010260845A JP5204203B2 (ja) | 2010-11-24 | 2010-11-24 | 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012113459A JP2012113459A (ja) | 2012-06-14 |
JP5204203B2 true JP5204203B2 (ja) | 2013-06-05 |
Family
ID=46497622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010260845A Active JP5204203B2 (ja) | 2010-11-24 | 2010-11-24 | 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5204203B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105608083B (zh) * | 2014-11-13 | 2019-09-03 | 北京搜狗科技发展有限公司 | 获得输入库的方法、装置及电子设备 |
JP5763830B1 (ja) * | 2014-12-25 | 2015-08-12 | パナソニック株式会社 | 翻訳装置、翻訳方法、および翻訳プログラム |
KR101991486B1 (ko) * | 2015-12-18 | 2019-06-20 | 한국전자통신연구원 | 문장 유사도 기반 다의어 데이터베이스 확장장치 및 그 방법 |
CN113743130A (zh) * | 2020-05-28 | 2021-12-03 | 阿里巴巴集团控股有限公司 | 翻译方法、装置、设备和存储介质 |
CN112085090B (zh) * | 2020-09-07 | 2024-07-09 | 百度在线网络技术(北京)有限公司 | 翻译方法、装置以及电子设备 |
CN112836529B (zh) * | 2021-02-19 | 2024-04-12 | 北京沃东天骏信息技术有限公司 | 生成目标语料样本的方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3752535B2 (ja) * | 2002-04-16 | 2006-03-08 | 独立行政法人情報通信研究機構 | 訳語選択装置、及び翻訳装置 |
JP4058057B2 (ja) * | 2005-04-26 | 2008-03-05 | 株式会社東芝 | 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム |
JP2009123067A (ja) * | 2007-11-16 | 2009-06-04 | Hitachi Systems & Services Ltd | 用語辞書生成方法、用語辞書生成装置、プログラム、および記録媒体 |
-
2010
- 2010-11-24 JP JP2010260845A patent/JP5204203B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012113459A (ja) | 2012-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210192126A1 (en) | Generating structured text summaries of digital documents using interactive collaboration | |
US8666994B2 (en) | Document analysis and association system and method | |
JP5204203B2 (ja) | 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム | |
US8443008B2 (en) | Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof | |
JP2006012168A (ja) | 翻訳メモリシステムにおいてカバレージおよび質を改良する方法 | |
US20150205860A1 (en) | Information retrieval device, information retrieval method, and information retrieval program | |
JP2016099741A (ja) | 情報抽出支援装置、方法およびプログラム | |
US9569535B2 (en) | Systems and methods for keyword research and content analysis | |
Lin et al. | A simple but effective method for Indonesian automatic text summarisation | |
JP4873739B2 (ja) | テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体 | |
JP2006099428A (ja) | 文書要約作成システム、方法、及びプログラム | |
JP4091146B2 (ja) | 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4979637B2 (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
JP2000200281A (ja) | 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体 | |
JP4873738B2 (ja) | テキストセグメンテーション装置、テキストセグメンテーション方法、プログラム及び記録媒体 | |
WO2018150453A1 (ja) | データ分析装置およびデータ分析方法 | |
JP5025603B2 (ja) | 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法 | |
JP4361299B2 (ja) | 評価表現抽出装置、プログラム、及び記憶媒体 | |
JP2009129176A (ja) | 構造化文書検索装置、方法およびプログラム | |
JP2019061522A (ja) | 文書推薦システム、文書推薦方法および文書推薦プログラム | |
Al Oudah et al. | Wajeez: An extractive automatic arabic text summarisation system | |
JP4813312B2 (ja) | 電子文書検索方法、電子文書検索装置及びプログラム | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム | |
JP5594225B2 (ja) | 知識獲得装置、知識取得方法、及びプログラム | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120821 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121022 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121113 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5204203 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160222 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |