JP2009059300A - 訳語学習のためのデータを作成する装置、方法、およびプログラム - Google Patents
訳語学習のためのデータを作成する装置、方法、およびプログラム Download PDFInfo
- Publication number
- JP2009059300A JP2009059300A JP2007228051A JP2007228051A JP2009059300A JP 2009059300 A JP2009059300 A JP 2009059300A JP 2007228051 A JP2007228051 A JP 2007228051A JP 2007228051 A JP2007228051 A JP 2007228051A JP 2009059300 A JP2009059300 A JP 2009059300A
- Authority
- JP
- Japan
- Prior art keywords
- translation
- word
- phrase
- learning
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】原言語の入力文章を受付ける入力部101と、入力文章に含まれる語句に対する目的言語の訳語と、目的言語の訳語の尤度とを生成する訳語生成部110と、語句と訳語とを対応づけた対応情報を作成する対応情報作成部102と、対応情報に含まれる目的言語の訳語に対して生成された尤度が所定の閾値より大きいか否かを判定する判定部103と、尤度が閾値より大きい目的言語の訳語を含む対応情報に、入力文章に含まれる語句を対応づけた学習データを作成する学習データ作成部104と、を備えた。
【選択図】 図1
Description
52 ROM
53 RAM
54 通信I/F
61 バス
100 訳語学習装置
101 入力部
102 対応情報作成部
103 判定部
104 学習データ作成部
105 学習部
106 出力制御部
110 訳語生成部
111 形態素解析部
112 訳語取得部
113 係り受け解析部
114 訳し分け部
121 対訳辞書記憶部
122 規則記憶部
123 学習結果記憶部
301 単語
401〜403 単語
1001 訳語
1101 訳語
1201 単語
1501〜1503 単語
Claims (10)
- 原言語の一つの語句と目的言語の複数の訳語候補の使い分けを学習するための学習データを作成するデータ作成装置であって、
原言語の文章を入力する入力部と、
前記文章の一つの語句を目的言語に翻訳し、前記語句に対する目的言語の複数の訳語候補と、前記訳語候補の確からしさを表す尤度とを生成する訳語生成部と、
前記語句と、前記語句に対する複数の前記訳語候補と、をそれぞれ対応づけた複数の対応情報を作成する対応情報作成部と、
前記対応情報に含まれる前記訳語候補の前記尤度が予め定められた閾値より大きいか否かを判定する判定部と、
前記尤度が前記閾値より大きい前記訳語候補の前記対応情報に、前記文章の他の語句を付加する前記学習データを作成する学習データ作成部と、
を備えたことを特徴とするデータ作成装置。 - 前記訳語生成部は、予め定められた翻訳規則に基づいて前記文章を目的言語に翻訳し、前記訳語候補と前記尤度とを生成すること、
を特徴とする請求項1に記載のデータ作成装置。 - 原言語の語句と、前記原言語の語句に対する前記訳語候補とを対応づけた対訳辞書を記憶する辞書記憶部と、
前記原言語の語句と、前記原言語の語句と係り受け関係にある語句と、前記訳語候補とを対応づけた前記翻訳規則を記憶する規則記憶部と、をさらに備え、
前記訳語生成部は、
前記文章を形態素解析して語句に分割する形態素解析部と、
分割した語句に対する前記訳語候補を前記辞書記憶部から取得する訳語取得部と、
分割した語句間の係り受け関係を解析する係り受け解析部と、
分割した語句それぞれについて、分割した語句および分割した語句と係り受け関係にある語句を、それぞれ前記規則記憶部に記憶された前記翻訳規則における前記原言語の語句および前記原言語の語句と係り受け関係にある語句と照合し、一致した前記翻訳規則において前記原言語の語句に対応付けられた前記訳語候補を前記規則記憶部から取得する訳し分け部と、を備えたこと、
を特徴とする請求項2に記載のデータ作成装置。 - 前記訳語生成部は、前記規則記憶部から取得した前記訳語候補に対して、前記辞書記憶部から取得した前記訳語候補より大きい前記尤度を生成すること、
を特徴とする請求項3に記載のデータ作成装置。 - 前記学習データ作成部は、前記規則記憶部から取得した前記訳語候補を含む前記対応情報に、前記文章に含まれる語句を対応づけた前記学習データを作成すること、
を特徴とする請求項3に記載のデータ作成装置。 - 前記学習データ作成部は、前記尤度が前記閾値より大きい前記訳語候補を含む前記対応情報に、前記文章に含まれる語句のうち、前記対応情報に含まれる語句以外の語句を対応づけた前記学習データを作成すること、
を特徴とする請求項1に記載のデータ作成装置。 - 前記学習データ作成部は、前記文章に含まれる語句を含み、前記文章に含まれる語句のうち、前記尤度が前記閾値より大きい前記訳語候補を含む前記対応情報内の語句に、前記対応情報内の前記訳語候補を対応づけた前記学習データを作成すること、
を特徴とする請求項1に記載のデータ作成装置。 - 前記学習データに基づいて前記訳語候補の使い分けを学習する学習部をさらに備えたこと、
を特徴とする請求項1に記載のデータ作成装置。 - 原言語の一つの語句と目的言語の複数の訳語候補の使い分けを学習するための学習データを作成するデータ作成装置で実行されるデータ作成方法であって、
入力部によって、原言語の文章を入力する入力ステップと、
訳語生成部によって、前記文章の一つの語句を目的言語に翻訳し、前記語句に対する目的言語の複数の訳語候補と、前記訳語候補の確からしさを表す尤度とを生成する訳語生成ステップと、
対応情報作成部によって、前記語句と、前記語句に対する複数の前記訳語候補と、をそれぞれ対応づけた複数の対応情報を作成する対応情報作成ステップと、
判定部によって、前記対応情報に含まれる前記訳語候補の前記尤度が予め定められた閾値より大きいか否かを判定する判定ステップと、
学習データ作成部によって、前記尤度が前記閾値より大きい前記訳語候補の前記対応情報に、前記文章の他の語句を付加する前記学習データを作成する学習データ作成ステップと、
を備えたことを特徴とするデータ作成方法。 - 原言語の一つの語句と目的言語の複数の訳語候補の使い分けを学習するための学習データを作成する方法をコンピュータに実行させるデータ作成プログラムであって、
原言語の文章を入力するける入力手順と、
前記文章の一つの語句を目的言語に翻訳し、前記語句に対する目的言語の複数の訳語候補と、前記訳語候補の確からしさを表す尤度とを生成する訳語生成手順と、
前記語句と、前記語句に対する複数の前記訳語候補と、をそれぞれ対応づけた複数の対応情報を作成する対応情報作成手順と、
前記対応情報に含まれる前記訳語候補の前記尤度が予め定められた閾値より大きいか否かを判定する判定手順と、
前記尤度が前記閾値より大きい前記訳語候補を含む前記対応情報に、前記文章の他の語句を付加する前記学習データを作成する学習データ作成手順と、
を前記コンピュータに実行させるデータ作成プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007228051A JP5342760B2 (ja) | 2007-09-03 | 2007-09-03 | 訳語学習のためのデータを作成する装置、方法、およびプログラム |
US12/050,643 US8135573B2 (en) | 2007-09-03 | 2008-03-18 | Apparatus, method, and computer program product for creating data for learning word translation |
CNA2008102148614A CN101382933A (zh) | 2007-09-03 | 2008-09-03 | 创建用于学习单词翻译的数据的装置和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007228051A JP5342760B2 (ja) | 2007-09-03 | 2007-09-03 | 訳語学習のためのデータを作成する装置、方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009059300A true JP2009059300A (ja) | 2009-03-19 |
JP5342760B2 JP5342760B2 (ja) | 2013-11-13 |
Family
ID=40408825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007228051A Active JP5342760B2 (ja) | 2007-09-03 | 2007-09-03 | 訳語学習のためのデータを作成する装置、方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8135573B2 (ja) |
JP (1) | JP5342760B2 (ja) |
CN (1) | CN101382933A (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9552353B2 (en) * | 2011-01-21 | 2017-01-24 | Disney Enterprises, Inc. | System and method for generating phrases |
US10303762B2 (en) | 2013-03-15 | 2019-05-28 | Disney Enterprises, Inc. | Comprehensive safety schema for ensuring appropriateness of language in online chat |
CN111104796B (zh) * | 2019-12-18 | 2023-05-05 | 北京百度网讯科技有限公司 | 用于翻译的方法和装置 |
JP6812583B1 (ja) * | 2020-02-28 | 2021-01-13 | 株式会社Cygames | ゲームスクリプトの作成を支援するためのシステム及び方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005092253A (ja) * | 2003-09-11 | 2005-04-07 | Fuji Xerox Co Ltd | 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4829580A (en) * | 1986-03-26 | 1989-05-09 | Telephone And Telegraph Company, At&T Bell Laboratories | Text analysis system with letter sequence recognition and speech stress assignment arrangement |
JP4043176B2 (ja) | 2000-08-31 | 2008-02-06 | 株式会社東芝 | 自然言語処理装置 |
US7483828B2 (en) * | 2001-03-16 | 2009-01-27 | Meaningful Machines, L.L.C. | Multilingual database creation system and method |
US7016829B2 (en) * | 2001-05-04 | 2006-03-21 | Microsoft Corporation | Method and apparatus for unsupervised training of natural language processing units |
US7295962B2 (en) * | 2001-05-11 | 2007-11-13 | University Of Southern California | Statistical memory-based translation system |
US7734459B2 (en) * | 2001-06-01 | 2010-06-08 | Microsoft Corporation | Automatic extraction of transfer mappings from bilingual corpora |
US7191115B2 (en) * | 2001-06-20 | 2007-03-13 | Microsoft Corporation | Statistical method and apparatus for learning translation relationships among words |
US7003444B2 (en) * | 2001-07-12 | 2006-02-21 | Microsoft Corporation | Method and apparatus for improved grammar checking using a stochastic parser |
US7249012B2 (en) * | 2002-11-20 | 2007-07-24 | Microsoft Corporation | Statistical method and apparatus for learning translation relationships among phrases |
US7689412B2 (en) * | 2003-12-05 | 2010-03-30 | Microsoft Corporation | Synonymous collocation extraction using translation information |
US20050216253A1 (en) * | 2004-03-25 | 2005-09-29 | Microsoft Corporation | System and method for reverse transliteration using statistical alignment |
US7200550B2 (en) * | 2004-11-04 | 2007-04-03 | Microsoft Corporation | Projecting dependencies to generate target language dependency structure |
US20060282255A1 (en) * | 2005-06-14 | 2006-12-14 | Microsoft Corporation | Collocation translation from monolingual and available bilingual corpora |
EP1894125A4 (en) * | 2005-06-17 | 2015-12-02 | Nat Res Council Canada | MEANS AND METHOD FOR ADAPTED LANGUAGE TRANSLATION |
US7680647B2 (en) * | 2005-06-21 | 2010-03-16 | Microsoft Corporation | Association-based bilingual word alignment |
US20070083357A1 (en) * | 2005-10-03 | 2007-04-12 | Moore Robert C | Weighted linear model |
US20080120092A1 (en) * | 2006-11-20 | 2008-05-22 | Microsoft Corporation | Phrase pair extraction for statistical machine translation |
GB2444084A (en) * | 2006-11-23 | 2008-05-28 | Sharp Kk | Selecting examples in an example based machine translation system |
US7983898B2 (en) * | 2007-06-08 | 2011-07-19 | Microsoft Corporation | Generating a phrase translation model by iteratively estimating phrase translation probabilities |
-
2007
- 2007-09-03 JP JP2007228051A patent/JP5342760B2/ja active Active
-
2008
- 2008-03-18 US US12/050,643 patent/US8135573B2/en not_active Expired - Fee Related
- 2008-09-03 CN CNA2008102148614A patent/CN101382933A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005092253A (ja) * | 2003-09-11 | 2005-04-07 | Fuji Xerox Co Ltd | 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム |
Also Published As
Publication number | Publication date |
---|---|
CN101382933A (zh) | 2009-03-11 |
US20090063127A1 (en) | 2009-03-05 |
US8135573B2 (en) | 2012-03-13 |
JP5342760B2 (ja) | 2013-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4058057B2 (ja) | 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム | |
JP2008305167A (ja) | 原言語文を目的言語文に機械翻訳する装置、方法およびプログラム | |
US20190251174A1 (en) | Machine translation method and apparatus | |
JP6828335B2 (ja) | 検索プログラム、検索装置および検索方法 | |
US11282521B2 (en) | Dialog system and dialog method | |
KR101544690B1 (ko) | 단어 분할 장치, 단어 분할 방법 및 단어 분할 프로그램 | |
JP6817556B2 (ja) | 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム | |
JP2009140466A (ja) | 使用者製作問答データに基づいた会話辞書サービスの提供方法及びシステム | |
JP5342760B2 (ja) | 訳語学習のためのデータを作成する装置、方法、およびプログラム | |
JP2011065255A (ja) | データ処理装置、データ名生成方法及びコンピュータプログラム | |
JP5025603B2 (ja) | 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法 | |
JP4476609B2 (ja) | 中国語解析装置、中国語解析方法および中国語解析プログラム | |
WO2009144890A1 (ja) | 翻訳前換言規則生成システム | |
JP6309852B2 (ja) | 強調位置予測装置、強調位置予測方法及びプログラム | |
JP6451151B2 (ja) | 質問応答装置、質問応答方法、プログラム | |
JP7483085B1 (ja) | 情報処理システム、情報処理装置、情報処理方法、およびプログラム | |
JP4203102B2 (ja) | 中国語解析装置、中国語解析方法および中国語解析プログラム | |
JP5521670B2 (ja) | パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム | |
JP4646078B2 (ja) | 相互に関係する固有表現の組抽出装置及びその方法 | |
JP5553779B2 (ja) | 形態素列変換装置、形態素変換学習装置とそれらの方法とプログラム | |
JP2006155528A (ja) | 辞書登録装置、辞書登録方法および辞書登録プログラム | |
JP5746921B2 (ja) | 機械翻訳装置、方法及びプログラム | |
JP2013196493A (ja) | 機械翻訳装置、機械翻訳方法およびプログラム | |
JP2020052819A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2021056830A (ja) | 概念構造抽出装置、プログラム及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100601 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120719 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120724 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120920 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130305 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130604 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20130612 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130719 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130812 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5342760 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |