JP6262122B2 - 翻訳学習装置、固有表現学習装置、方法、及びプログラム - Google Patents
翻訳学習装置、固有表現学習装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6262122B2 JP6262122B2 JP2014233928A JP2014233928A JP6262122B2 JP 6262122 B2 JP6262122 B2 JP 6262122B2 JP 2014233928 A JP2014233928 A JP 2014233928A JP 2014233928 A JP2014233928 A JP 2014233928A JP 6262122 B2 JP6262122 B2 JP 6262122B2
- Authority
- JP
- Japan
- Prior art keywords
- specific expression
- language sentence
- translation
- target language
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
また、第1の発明に係る翻訳学習装置において、前記固有表現学習部は、注目言語の固有表現の翻字に基づく表層類似度、注目言語及び対言語の各々で提供され、かつ、翻訳関係にある注目言語の見出し語及び対言語の見出し語の間でリンクを有する辞書における、注目言語の固有表現に対応する見出し語が有するリンク、又は予め求めた前記元言語文及び前記目的言語文の間の単語の対応付けである単語アラインメントに基づいて、前記対言語の言語文から、前記抽出された固有表現部分に対応する固有表現部分を抽出してもよい。
また、第2の発明に係る翻訳装置は、入力された翻訳対象の元言語文に含まれる固有表現部分を固有表現ラベルに置き換える固有表現置換部と、上記第1の発明に係る翻訳学習装置により生成された前記単語翻訳確率モデル及び前記翻訳モデルに基づいて、前記固有表現置換部で固有表現が前記固有表現ラベルに置き換えられた元言語文を目的言語文に翻訳するデコーディング部と、前記生成された前記固有表現翻訳辞書及び前記固有表現翻字モデルに基づいて、前記でコーディング部によって翻訳された目的言語文に含まれる前記固有表現ラベルを、目的言語の固有表現部分の文字列に変換する固有表現デコード部と、を含んで構成されている。
また、第3の発明に係る固有表現学習装置は、入力された、翻訳対となる元言語文及び目的言語文のペアの集合に基づいて、前記元言語文及び前記目的言語文のペアの各々について、予め用意された固有表現ラベルに対応する固有表現の抽出精度、学習用の注目言語の言語文に対して固有表現ラベルに対応する固有表現の抽出を行った結果から予め求められた固有表現ラベルの出現頻度、学習用の前記元言語文及び前記目的言語文の何れか一方から他方へ翻訳する翻訳処理を行った結果から予め求められた固有表現ラベルに対応する固有表現の翻訳精度、及び学習用の前記元言語文及び前記目的言語文について求めた前記元言語文及び前記目的言語文の間の単語の対応付けである単語アラインメントに基づいて予め求められた固有表現ラベルに対応する固有表現のアラインメントの歪み距離の少なくとも1つ、又は組み合わせが一定基準より劣っている固有表現ラベルを除いた固有表現ラベルに対応する固有表現を、前記予め定められた条件を満たす固有表現部分として、前記注目言語の言語文から抽出すると共に、前記ペアの前記元言語文及び前記目的言語文の他方である対言語の言語文から、前記抽出された固有表現部分に対応する固有表現部分を抽出し、前記元言語文及び前記目的言語文のペアの各々について抽出された前記固有表現部分の対応関係に基づいて、元言語及び目的言語の間で翻訳対となる固有表現部分を格納した固有表現翻訳辞書、並びに元言語及び目的言語の間で固有表現部分を翻訳するための固有表現翻字モデルを生成する固有表現学習部と、を含んで構成されている。
第2の発明に係る翻訳方法は、固有表現置換部、デコーディング部、及び固有表現デコード部を含む翻訳装置における翻訳方法であって、前記固有表現置換部が、入力された翻訳対象の元言語文に含まれる固有表現部分を固有表現ラベルに置き換えるステップと、前記デコーディング部が、第1の発明に係る翻訳学習方法により生成された前記単語翻訳確率モデル及び前記翻訳モデルに基づいて、前記固有表現置換部で固有表現が前記固有表現ラベルに置き換えられた元言語文を目的言語文に翻訳するステップと、前記固有表現デコード部が、前記生成された前記固有表現翻訳辞書及び前記固有表現翻字モデルに基づいて、前記でコーディング部によって翻訳された目的言語文に含まれる前記固有表現ラベルを、目的言語の固有表現部分の文字列に変換するステップと、を含んで実行することを特徴とする。
第4の発明に係るプログラムは、コンピュータを、請求項1若しくは請求項2に記載の学習装置、請求項3に記載の翻訳装置、又は請求項4に記載の固有表現学習装置の各部として機能させるためのプログラムである。
20、220、320 演算部
30 ラベル決定部
32 固有表現学習部
34 単語翻訳確率学習部
36 単語アラインメント記憶部
38 翻訳モデル学習部
40、240 必要固有表現ラベル記憶部
42、242 固有表現翻訳辞書
44、244 固有表現翻字モデル記憶部
46、246 単語翻訳確率モデル記憶部
48、248 翻訳モデル記憶部
100 翻訳学習装置
200 翻訳装置
230 固有表現置換部
232 デコーディング部
234 固有表現デコード部
250 出力部
300 固有表現学習装置
Claims (7)
- 入力された、翻訳対となる元言語文及び目的言語文のペアの集合に基づいて、前記元言語文及び前記目的言語文のペアの各々について、前記ペアの前記元言語文及び前記目的言語文の何れか一方である注目言語の言語文から、予め定められた条件を満たす固有表現部分を抽出すると共に、前記ペアの前記元言語文及び前記目的言語文の他方である対言語の言語文から、前記抽出された固有表現部分に対応する固有表現部分を抽出し、前記元言語文及び前記目的言語文のペアの各々について抽出された前記固有表現部分の対応関係に基づいて、元言語及び目的言語の間で翻訳対となる固有表現部分を格納した固有表現翻訳辞書、並びに元言語及び目的言語の間で固有表現部分を翻訳するための固有表現翻字モデルを生成する固有表現学習部と、
前記元言語文及び前記目的言語文のペアの各々についての、前記抽出された固有表現部分を固有表現ラベルで置換した前記元言語文及び前記目的言語文の間の固有表現ラベル又は単語の対応付けである単語アラインメントに基づいて、前記元言語文の固有表現ラベル又は単語と前記目的言語文の固有表現ラベル又は単語の各ペアについて、前記元言語文の固有表現ラベル又は単語が、前記目的言語文の固有表現ラベル又は単語に翻訳される単語翻訳確率モデルを算出する単語翻訳確率学習部と、
前記抽出された固有表現部分を固有表現ラベルで置換した前記元言語文及び前記目的言語文のペアの集合と、前記元言語文及び前記目的言語文のペアの各々についての、前記抽出された固有表現部分を固有表現ラベルで置換した前記元言語文及び前記目的言語文の間の固有表現ラベル又は単語の対応付けである単語アラインメントとに基づいて、前記元言語文を前記目的言語文に翻訳するための翻訳モデルを学習する翻訳モデル学習部と、
を含む翻訳学習装置。 - 前記固有表現学習部は、
予め用意された固有表現ラベルに対応する固有表現の抽出精度、
学習用の注目言語の言語文に対して固有表現ラベルに対応する固有表現の抽出を行った結果から予め求められた固有表現ラベルの出現頻度、
学習用の前記元言語文及び前記目的言語文の何れか一方から他方へ翻訳する翻訳処理を行った結果から予め求められた固有表現ラベルに対応する固有表現の翻訳精度、及び
学習用の前記元言語文及び前記目的言語文について求めた前記元言語文及び前記目的言語文の間の単語の対応付けである単語アラインメントに基づいて予め求められた固有表現ラベルに対応する固有表現のアラインメントの歪み距離の少なくとも1つ、又は組み合わせが一定基準より劣っている固有表現ラベルを除いた固有表現ラベルに対応する固有表現を、
前記予め定められた条件を満たす固有表現部分として、前記注目言語の言語文から抽出する請求項1に記載の翻訳学習装置。 - 前記固有表現学習部は、
注目言語の固有表現の翻字に基づく表層類似度、
注目言語及び対言語の各々で提供され、かつ、翻訳関係にある注目言語の見出し語及び対言語の見出し語の間でリンクを有する辞書における、注目言語の固有表現に対応する見出し語が有するリンク、又は
予め求めた前記元言語文及び前記目的言語文の間の単語の対応付けである単語アラインメントに基づいて、前記対言語の言語文から、前記抽出された固有表現部分に対応する固有表現部分を抽出する請求項1又は2に記載の翻訳学習装置。 - 入力された、翻訳対となる元言語文及び目的言語文のペアの集合に基づいて、前記元言語文及び前記目的言語文のペアの各々について、
予め用意された固有表現ラベルに対応する固有表現の抽出精度、学習用の注目言語の言語文に対して固有表現ラベルに対応する固有表現の抽出を行った結果から予め求められた固有表現ラベルの出現頻度、
学習用の前記元言語文及び前記目的言語文の何れか一方から他方へ翻訳する翻訳処理を行った結果から予め求められた固有表現ラベルに対応する固有表現の翻訳精度、及び
学習用の前記元言語文及び前記目的言語文について求めた前記元言語文及び前記目的言語文の間の単語の対応付けである単語アラインメントに基づいて予め求められた固有表現ラベルに対応する固有表現のアラインメントの歪み距離の少なくとも1つ、又は組み合わせが一定基準より劣っている固有表現ラベルを除いた固有表現ラベルに対応する固有表現を、前記予め定められた条件を満たす固有表現部分として、前記注目言語の言語文から抽出すると共に、
前記ペアの前記元言語文及び前記目的言語文の他方である対言語の言語文から、前記抽出された固有表現部分に対応する固有表現部分を抽出し、
前記元言語文及び前記目的言語文のペアの各々について抽出された前記固有表現部分の対応関係に基づいて、元言語及び目的言語の間で翻訳対となる固有表現部分を格納した固有表現翻訳辞書、並びに元言語及び目的言語の間で固有表現部分を翻訳するための固有表現翻字モデルを生成する固有表現学習部と、
を含む固有表現学習装置。 - 固有表現学習部、単語翻訳確率学習部、及び翻訳モデル学習部を含む学習装置における翻訳学習方法であって、
前記固有表現学習部が、入力された、翻訳対となる元言語文及び目的言語文のペアの集合に基づいて、前記元言語文及び前記目的言語文のペアの各々について、前記ペアの前記元言語文及び前記目的言語文の何れか一方である注目言語の言語文から、予め定められた条件を満たす固有表現部分を抽出すると共に、前記ペアの前記元言語文及び前記目的言語文の他方である対言語の言語文から、前記抽出された固有表現部分に対応する固有表現部分を抽出し、前記元言語文及び前記目的言語文のペアの各々について抽出された前記固有表現部分の対応関係に基づいて、元言語及び目的言語の間で翻訳対となる固有表現部分を格納した固有表現翻訳辞書、並びに元言語及び目的言語の間で固有表現部分を翻訳するための固有表現翻字モデルを生成するステップと、
前記単語翻訳確率学習部が、前記元言語文及び前記目的言語文のペアの各々についての、前記抽出された固有表現部分を固有表現ラベルで置換した前記元言語文及び前記目的言語文の間の固有表現ラベル又は単語の対応付けである単語アラインメントに基づいて、前記元言語文の固有表現ラベル又は単語と前記目的言語文の固有表現ラベル又は単語の各ペアについて、前記元言語文の固有表現ラベル又は単語が、前記目的言語文の固有表現ラベル又は単語に翻訳される単語翻訳確率モデルを算出するステップと、
前記翻訳モデル学習部が、前記抽出された固有表現部分を固有表現ラベルで置換した前記元言語文及び前記目的言語文のペアの集合と、前記元言語文及び前記目的言語文のペアの各々についての、前記抽出された固有表現部分を固有表現ラベルで置換した前記元言語文及び前記目的言語文の間の固有表現ラベル又は単語の対応付けである単語アラインメントとに基づいて、前記元言語文を前記目的言語文に翻訳するための翻訳モデルを学習するステップと、
を含む翻訳学習方法。 - コンピュータを、請求項1〜請求項3のいずれか1項に記載の翻訳学習装置の各部として機能させるためのプログラム。
- コンピュータを、請求項4に記載の固有表現学習装置の各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014233928A JP6262122B2 (ja) | 2014-11-18 | 2014-11-18 | 翻訳学習装置、固有表現学習装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014233928A JP6262122B2 (ja) | 2014-11-18 | 2014-11-18 | 翻訳学習装置、固有表現学習装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016099675A JP2016099675A (ja) | 2016-05-30 |
JP6262122B2 true JP6262122B2 (ja) | 2018-01-17 |
Family
ID=56077875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014233928A Active JP6262122B2 (ja) | 2014-11-18 | 2014-11-18 | 翻訳学習装置、固有表現学習装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6262122B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10713593B2 (en) * | 2016-11-04 | 2020-07-14 | Google Llc | Implicit bridging of machine learning tasks |
JP7287062B2 (ja) * | 2019-03-29 | 2023-06-06 | 富士通株式会社 | 翻訳方法、翻訳プログラム及び学習方法 |
CN111368531B (zh) * | 2020-03-09 | 2023-04-14 | 腾讯科技(深圳)有限公司 | 翻译文本处理方法、装置、计算机设备和存储介质 |
CN112149423B (zh) * | 2020-10-16 | 2024-01-26 | 中国农业科学院农业信息研究所 | 一种面向领域实体关系联合抽取的语料标注方法及系统 |
CN112257462A (zh) * | 2020-11-03 | 2021-01-22 | 沈阳雅译网络技术有限公司 | 一种基于神经机器翻译技术的超文本标记语言翻译方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102084417B (zh) * | 2008-04-15 | 2014-05-21 | 飞书博公司 | 现场维护语音到语音翻译的系统和方法 |
-
2014
- 2014-11-18 JP JP2014233928A patent/JP6262122B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016099675A (ja) | 2016-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6262122B2 (ja) | 翻訳学習装置、固有表現学習装置、方法、及びプログラム | |
Dhariya et al. | A hybrid approach for Hindi-English machine translation | |
CN103646112B (zh) | 利用了网络搜索的依存句法的领域自适应方法 | |
RU2618374C1 (ru) | Выявление словосочетаний в текстах на естественном языке | |
CN109858042B (zh) | 一种翻译质量的确定方法及装置 | |
JP2007241764A (ja) | 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体 | |
CN112668319A (zh) | 基于中文信息和越南语句法指导的越南语新闻事件检测方法 | |
JP6778655B2 (ja) | 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム | |
Tachicart et al. | Lexical differences and similarities between Moroccan dialect and Arabic | |
García-Martínez et al. | Factored neural machine translation | |
Tennage et al. | Transliteration and byte pair encoding to improve tamil to sinhala neural machine translation | |
JP5552101B2 (ja) | 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム | |
JP5911911B2 (ja) | 結束性判定装置、モデル学習装置、方法、及びプログラム | |
JP2015169947A (ja) | モデル学習装置、形態素解析装置、及び方法 | |
CN111259661B (zh) | 一种基于商品评论的新情感词提取方法 | |
CN113408307A (zh) | 一种基于翻译模板的神经机器翻译方法 | |
JP5911931B2 (ja) | 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体 | |
Asghari et al. | A probabilistic approach to persian ezafe recognition | |
JP6564709B2 (ja) | 文書き換え装置、方法、及びプログラム | |
Mathew et al. | Paraphrase identification of Malayalam sentences-an experience | |
CN111259159B (zh) | 数据挖掘方法、装置和计算机可读存储介质 | |
Nandedkar et al. | Co-extracting feature and opinion pairs from customer reviews using hybrid approach | |
Ariaratnam et al. | A shallow parser for Tamil | |
Bansal et al. | Improvement of English-Hindi machine translation using ConceptNet | |
Luekhong et al. | Pooja: similarity-based bilingual word alignment framework for SMT |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170911 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170919 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171213 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6262122 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |