JP7287062B2 - 翻訳方法、翻訳プログラム及び学習方法 - Google Patents
翻訳方法、翻訳プログラム及び学習方法 Download PDFInfo
- Publication number
- JP7287062B2 JP7287062B2 JP2019067666A JP2019067666A JP7287062B2 JP 7287062 B2 JP7287062 B2 JP 7287062B2 JP 2019067666 A JP2019067666 A JP 2019067666A JP 2019067666 A JP2019067666 A JP 2019067666A JP 7287062 B2 JP7287062 B2 JP 7287062B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- translation
- named entity
- language
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Description
図1を用いて、実施例に係る翻訳装置の機能構成について説明する。図1は、実施例に係る翻訳装置の機能構成の一例を示す図である。図1に示すように、翻訳装置10は、インタフェース部11、記憶部12及び制御部13を有する。
以降、翻訳装置10による処理を詳細に説明する。まず、図2を用いて、翻訳装置10による学習処理について説明する。図2は、学習処理を説明するための図である。まず、教師データとして対訳文が用意されているものとする。対訳文は、第1の言語の文である原言語文と、当該原言語文を第2の言語に翻訳した目的言語文を含む。対訳文の目的言語文は人手で翻訳されたものであってもよい。
次に、図3を用いて、翻訳装置10による翻訳処理について説明する。図3は、翻訳処理を説明するための図である。文翻訳モデル及び固有表現翻訳モデルは前述の学習処理において学習済みであるものとする。
特定モデル、文翻訳モデル、固有表現翻訳モデルの詳細を説明する。実施例では、各モデルはいずれもニューラルネットワークであるものとする。
図10を用いて、翻訳装置10による学習処理の流れを説明する。図10は、学習処理の流れを示すフローチャートである。図10に示すように、まず、翻訳装置10は、原言語文と目的言語文から固有表現を特定しタグ付けする(ステップS11)。次に、翻訳装置10は、原言語文の固有表現をプレースホルダに置換する(ステップS12)。
上述したように、翻訳装置10は、第1の言語で書かれた文を、文の中の固有表現を所定の文字列(プレースホルダ)に置き換えた置換文に変換する。翻訳装置10は、ニューラルネットワークである文翻訳モデルを用いて、置換文を第2の言語に翻訳する。翻訳装置10は、ニューラルネットワークである固有表現翻訳モデルを用いて、置換文の中の所定の文字列に対応する固有表現を第2の言語に翻訳する。このように、翻訳装置10は、文全体の翻訳を行うモデルと、固有表現の翻訳を行うモデルの両方を使って翻訳を行う。また、文翻訳モデルが単語、サブワードを処理単位として文全体の翻訳を行うのに対し、固有表現翻訳モデルは、より短いサブワード、文字を処理単位として、単語及びフレーズの翻訳を翻字又は文字レベルで行う。このため、実施例によれば、固有表現を適切に翻訳することができる。
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。また、実施例で説明した具体例、分布、数値等は、あくまで一例であり、任意に変更することができる。
図13は、ハードウェア構成例を説明する図である。図13に示すように、翻訳装置10は、通信インタフェース10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、図14に示した各部は、バス等で相互に接続される。
11 インタフェース部
12 記憶部
13 制御部
131 変換部
132 学習部
133 翻訳部
134 抽出部
121 特定モデル情報
122 文翻訳モデル情報
123 固有表現翻訳モデル情報
124 辞書情報
Claims (6)
- 第1の言語で書かれた文を、前記文の中の固有表現を所定の文字列に置き換えた置換文に変換し、
前記置換文を、中間表現である文脈ベクトルに変換するエンコーダと、前記文脈ベクトルを基に、第2の言語の単語及び前記所定の文字列のいずれかを再帰的に出力するデコーダと、前記文脈ベクトルに基づくアテンションスコアを基に、前記デコーダが出力した前記所定の文字列に対応する固有表現を特定するアテンション機構と、を備えたニューラルネットワークである文翻訳モデルを用いて、前記置換文を前記第2の言語に翻訳し、
ニューラルネットワークである固有表現翻訳モデルを用いて、前記アテンション機構によって特定された前記固有表現を前記第2の言語に翻訳する
処理をコンピュータが実行することを特徴とする翻訳方法。 - 前記変換する処理は、前記第1の言語で書かれた文を、前記所定の文字列にタグを付けた置換文に変換し、
前記置換文を前記第2の言語に翻訳する処理は、前記固有表現を、前記タグを基に前記第2の言語に翻訳する
ことを特徴とする請求項1に記載の翻訳方法。 - 前記置換文を前記第2の言語に翻訳する処理は、
前記置換文に含まれる単語を出現順に並べた系列を入力とするLSTM(Long Short Term Memory)を用いて翻訳を行う
ことを特徴とする請求項1又は2に記載の翻訳方法。 - 前記第1の言語で書かれた文の中の固有表現と、前記固有表現を翻訳する処理によって前記第2の言語に翻訳された固有表現とを対応付けて抽出する
処理をさらに実行することを特徴とする請求項1から3のいずれか1項に記載の翻訳方法。 - 第1の言語で書かれた文を、前記文の中の固有表現を所定の文字列に置き換えた置換文に変換し、
前記置換文を、中間表現である文脈ベクトルに変換するエンコーダと、前記文脈ベクトルを基に、第2の言語の単語及び前記所定の文字列のいずれかを再帰的に出力するデコーダと、前記文脈ベクトルに基づくアテンションスコアを基に、前記デコーダが出力した前記所定の文字列に対応する固有表現を特定するアテンション機構と、を備えたニューラルネットワークである文翻訳モデルを用いて、前記置換文を前記第2の言語に翻訳し、
ニューラルネットワークである固有表現翻訳モデルを用いて、前記アテンション機構によって特定された前記固有表現を第2の言語に翻訳する
処理をコンピュータに実行させることを特徴とする翻訳プログラム。 - 第1の言語で書かれた文の中の固有表現を所定の文字列に置き換えた置換文が入力された場合に、前記置換文を第2の言語に翻訳した文を出力するように、前記置換文を、中間表現である文脈ベクトルに変換するエンコーダと、前記文脈ベクトルを基に、前記第2の言語の単語及び前記所定の文字列のいずれかを再帰的に出力するデコーダと、前記文脈ベクトルに基づくアテンションスコアを基に、前記デコーダが出力した前記所定の文字列に対応する固有表現を特定するアテンション機構と、を備えたニューラルネットワークである文翻訳モデルの学習を行い、
前記所定の文字列に置き換えられた固有表現が入力された場合に、前記アテンション機構によって特定された前記固有表現を前記第2の言語に翻訳した表現を出力するように、ニューラルネットワークである固有表現翻訳モデルの学習を行う
処理をコンピュータが実行することを特徴とする学習方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019067666A JP7287062B2 (ja) | 2019-03-29 | 2019-03-29 | 翻訳方法、翻訳プログラム及び学習方法 |
US16/821,273 US11669695B2 (en) | 2019-03-29 | 2020-03-17 | Translation method, learning method, and non-transitory computer-readable storage medium for storing translation program to translate a named entity based on an attention score using neural network |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019067666A JP7287062B2 (ja) | 2019-03-29 | 2019-03-29 | 翻訳方法、翻訳プログラム及び学習方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020166672A JP2020166672A (ja) | 2020-10-08 |
JP7287062B2 true JP7287062B2 (ja) | 2023-06-06 |
Family
ID=72605923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019067666A Active JP7287062B2 (ja) | 2019-03-29 | 2019-03-29 | 翻訳方法、翻訳プログラム及び学習方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11669695B2 (ja) |
JP (1) | JP7287062B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210044003A (ko) * | 2019-10-14 | 2021-04-22 | 삼성전자주식회사 | 단어 임베딩 방법 및 장치와 단어 검색 방법 |
CN112541365B (zh) * | 2020-12-21 | 2024-05-10 | 语联网(武汉)信息技术有限公司 | 基于术语替换的机器翻译方法及装置 |
CN112766001A (zh) * | 2021-01-14 | 2021-05-07 | 语联网(武汉)信息技术有限公司 | 企业名称翻译方法及装置 |
US11481202B2 (en) | 2021-02-16 | 2022-10-25 | X Development Llc | Transformation templates to automate aspects of computer programming |
JP2022141191A (ja) * | 2021-03-15 | 2022-09-29 | 富士通株式会社 | 機械学習プログラム、機械学習方法および翻訳装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140163951A1 (en) | 2012-12-07 | 2014-06-12 | Xerox Corporation | Hybrid adaptation of named entity recognition |
JP2016099675A (ja) | 2014-11-18 | 2016-05-30 | 日本電信電話株式会社 | 翻訳学習装置、翻訳装置、固有表現学習装置、方法、及びプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1483687A4 (en) * | 2002-03-11 | 2008-08-06 | Univ Southern California | TRANSLATION OF CALLED ENTITIES |
JP2006338261A (ja) | 2005-06-01 | 2006-12-14 | Nippon Telegr & Teleph Corp <Ntt> | 翻訳装置、翻訳方法及び翻訳プログラム |
US8131536B2 (en) * | 2007-01-12 | 2012-03-06 | Raytheon Bbn Technologies Corp. | Extraction-empowered machine translation |
JP2008225963A (ja) | 2007-03-14 | 2008-09-25 | National Institute Of Information & Communication Technology | 機械翻訳装置、置換辞書生成装置、機械翻訳方法、置換辞書生成方法、及びプログラム |
US8996355B2 (en) * | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for reviewing histories of text messages from multi-user multi-lingual communications |
US20170308526A1 (en) | 2016-04-21 | 2017-10-26 | National Institute Of Information And Communications Technology | Compcuter Implemented machine translation apparatus and machine translation method |
JP2017199363A (ja) | 2016-04-21 | 2017-11-02 | 国立研究開発法人情報通信研究機構 | 機械翻訳装置及び機械翻訳のためのコンピュータプログラム |
US11593558B2 (en) * | 2017-08-31 | 2023-02-28 | Ebay Inc. | Deep hybrid neural network for named entity recognition |
-
2019
- 2019-03-29 JP JP2019067666A patent/JP7287062B2/ja active Active
-
2020
- 2020-03-17 US US16/821,273 patent/US11669695B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140163951A1 (en) | 2012-12-07 | 2014-06-12 | Xerox Corporation | Hybrid adaptation of named entity recognition |
JP2016099675A (ja) | 2014-11-18 | 2016-05-30 | 日本電信電話株式会社 | 翻訳学習装置、翻訳装置、固有表現学習装置、方法、及びプログラム |
Non-Patent Citations (1)
Title |
---|
鵜川新 他4名,固有表現情報を用いたニューラル機械翻訳,言語処理学会第24回年次大会 発表論文集[online],日本,言語処理学会,2018年03月05日,25-28頁 |
Also Published As
Publication number | Publication date |
---|---|
US20200311352A1 (en) | 2020-10-01 |
US11669695B2 (en) | 2023-06-06 |
JP2020166672A (ja) | 2020-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7287062B2 (ja) | 翻訳方法、翻訳プログラム及び学習方法 | |
US8131536B2 (en) | Extraction-empowered machine translation | |
CN108132932B (zh) | 带有复制机制的神经机器翻译方法 | |
JP7230576B2 (ja) | 生成装置、学習装置、生成方法及びプログラム | |
Hasegawa-Johnson et al. | Grapheme-to-phoneme transduction for cross-language ASR | |
WO2020170906A1 (ja) | 生成装置、学習装置、生成方法及びプログラム | |
JP2018206262A (ja) | 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム | |
Makarov et al. | CLUZH at SIGMORPHON 2020 shared task on multilingual grapheme-to-phoneme conversion | |
Chennoufi et al. | Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization | |
WO2022079845A1 (ja) | 単語対応装置、学習装置、単語対応方法、学習方法、及びプログラム | |
Almansor et al. | Transferring informal text in arabic as low resource languages: State-of-the-art and future research directions | |
Mridha et al. | Development of morphological rules for bangla words for universal networking language | |
WO2020250279A1 (ja) | モデル学習装置、方法及びプログラム | |
JP5528376B2 (ja) | 文書平易化装置およびプログラム | |
Alqahtani | Full and partial diacritic restoration: Development and impact on downstream applications | |
US20180033425A1 (en) | Evaluation device and evaluation method | |
Szymanski | Morphological inference from Bitext for resource-poor languages | |
WO2023100291A1 (ja) | 言語処理装置、言語処理方法、及びプログラム | |
Lyes et al. | Building a pronunciation dictionary for the Kabyle language | |
Vijayanand et al. | Named entity recognition and transliteration for Telugu language | |
Haberland et al. | Kabyle ASR Phonological Error and Network Analysis | |
Zalmout | Morphological Tagging and Disambiguation in Dialectal Arabic Using Deep Learning Architectures | |
Jain | Transliteration Verification of English-Hindi Words using Machine Learning Approach | |
Rahim et al. | Bangla Speech-To-Braille Interaction Device for Visual and Hearing Impaired | |
Liu | Morphological Generation with Deep Learning Approaches |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230425 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230508 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7287062 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |