JP7229347B2 - 内部状態変更装置 - Google Patents
内部状態変更装置 Download PDFInfo
- Publication number
- JP7229347B2 JP7229347B2 JP2021518299A JP2021518299A JP7229347B2 JP 7229347 B2 JP7229347 B2 JP 7229347B2 JP 2021518299 A JP2021518299 A JP 2021518299A JP 2021518299 A JP2021518299 A JP 2021518299A JP 7229347 B2 JP7229347 B2 JP 7229347B2
- Authority
- JP
- Japan
- Prior art keywords
- translation
- internal state
- sentence
- language
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 claims description 224
- 230000014616 translation Effects 0.000 claims description 224
- 230000008859 change Effects 0.000 claims description 32
- 239000011159 matrix material Substances 0.000 description 20
- 238000000034 method Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 15
- 230000015654 memory Effects 0.000 description 15
- 239000013598 vector Substances 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 230000007423 decrease Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Description
設定部12は、翻訳モデルを用いて翻訳された翻訳文の文の長さ(文長)に基づいて数値範囲を設定してもよい。すなわち、翻訳結果は、翻訳モデルを用いて翻訳された翻訳文の文の長さであってもよい。文の長さに着目した理由は、機械翻訳では、原文の長さ及び翻訳文の長さが長いほど、翻訳精度が落ちる可能性が高いことが挙げられる。例えば、設定部12は、翻訳文の文の長さが(所定の長さ(平均文長など)よりも)短いほど数値範囲を(所定の数値範囲よりも)広げ、翻訳文の文の長さが(所定の長さ(平均文長など)よりも)長いほど数値範囲を(所定の数値範囲よりも)狭めてもよい。設定部12は、翻訳文の長さに応じて広げたり狭めたりしてもよい。また、設定部12は、学習データ(対訳コーパス)のうちの第2言語のコーパスの文長の平均・分散・標準偏差などに基づいて数値範囲を設定してもよい。
設定部12は、翻訳モデルを用いて翻訳された翻訳文の品質である翻訳品質(又は翻訳精度)に基づいて数値範囲を設定してもよい。すなわち、翻訳結果は、翻訳モデルを用いて翻訳された翻訳文の品質である翻訳品質であってもよい。翻訳品質に着目した理由は、翻訳確率の値により翻訳時における精度が把握できることが挙げられる。例えば、設定部12は、翻訳品質が所定の品質よりも高い(例えば翻訳文の翻訳確率が所定の確率よりも高い)場合は数値範囲を(所定の数値範囲よりも)広め、翻訳品質が所定の品質よりも低い(例えば翻訳文の翻訳確率が所定の確率よりも低い)場合は数値範囲を(所定の数値範囲よりも)狭めてもよい。設定部12は、品質の度合に応じて数値範囲を広めたり狭めたりしてもよい。また、設定部12は、翻訳部11から出力される翻訳文の単語ごとの尤度(単語の品質・精度)に基づいて数値範囲を設定してもよい。より具体的には、設定部12は、翻訳文を構成する単語のうち、尤度が所定の尤度よりも高い単語の数に基づいて数値範囲を設定してもよい。また、設定部12は、翻訳部11から出力される翻訳文の単語ごとの品質に基づく文の品質に基づいて数値範囲を設定してもよい。
設定部12は、翻訳モデルを用いて原文を翻訳した翻訳文と、当該原文に対応する第2言語の正解データ(参照訳)との比較に基づいて数値範囲を設定してもよい。正解データは、例えば、高度な翻訳スキルを有する人が、第1言語の原文を第2言語に翻訳した翻訳結果である。正解データは、人ではなく、高品質な翻訳を行う別の翻訳装置が、原文に対する翻訳文として出力した翻訳結果であってもよい。設定部12が用いる正解データは、設定部12がネットワークを介して他の装置から取得したものであってもよいし、内部状態変更装置1のユーザによって入力されたものであってもよい。例えば、設定部12は、翻訳文と参照訳との単語(語彙)一致率又は文長差に基づいて数値範囲を設定してもよい。より具体的には、設定部12は、単語一致率が高いほど又は文長差が少ないほど(学習がうまくいっているので)数値範囲を(所定の数値範囲よりも)広げ、単語一致率が低いほど又は文長差が多いほど(学習がうまくいっていないので)数値範囲を狭めてもよい。また、設定部12は、翻訳部11から出力される翻訳文の単語ごとの尤度と参照訳との比較に基づいて数値範囲を設定してもよい。より具体的には、設定部12は、翻訳部11から出力される翻訳文の単語ごとの尤度の上位ランキング(所定の尤度よりも高い単語)に、参照訳の単語がどの程度含まれているか(カバー率)を算出し、参照訳の単語が多く含まれるほど(学習がうまくいっているので)数値範囲を(所定の数値範囲よりも)広げ、参照訳の単語が少なく含まれるほど(学習がうまくいっていないので)数値範囲を(所定の数値範囲よりも)狭めてもよい。
Claims (6)
- 第1言語の文である原文を第2言語の文である翻訳文に翻訳するための翻訳モデルであってエンコーダー・デコーダーモデルで構成される学習済みモデルである翻訳モデルにおけるエンコーダーの最終隠れ状態である内部状態を乱数に基づいて変更する変更部と、
数値範囲を設定する設定部と、
を備え、
前記変更部は、前記設定部によって設定された数値範囲に含まれる数値に基づいて内部状態を複数とおりに変更する、
内部状態変更装置と、
前記内部状態変更装置により生成された複数とおりの翻訳モデルそれぞれに対して所望の原文を入力し、前記所望の原文に対応する複数とおりの第2言語の翻訳文を生成する装置と、
を有する翻訳装置。 - 前記設定部は、翻訳モデルを用いて翻訳された翻訳文の文の長さが所定の長さよりも短いほど数値範囲を広める、又は、当該翻訳文の文の長さが所定の長さよりも長いほど数値範囲を狭める、
請求項1に記載の翻訳装置。 - 前記設定部は、翻訳モデルを用いて翻訳された翻訳文の品質である翻訳品質が所定の品質よりも高い場合は数値範囲を広める、又は、翻訳品質が所定の品質よりも低い場合は数値範囲を狭める、
請求項1に記載の翻訳装置。 - 前記設定部は、翻訳モデルを用いて原文を翻訳した翻訳文と、当該原文に対応する第2言語の正解データとの比較に基づいて数値範囲を設定する、
請求項1~3の何れか一項に記載の翻訳装置。 - 前記設定部が用いる翻訳モデルは、前記変更部によって変更された内部状態を備える翻訳モデルである、
請求項2~4の何れか一項に記載の翻訳装置。 - 前記内部状態変更装置は、前記変更部によって変更された内部状態を備える翻訳モデルを用いて原文を翻訳した翻訳文を出力する翻訳部をさらに備える、
請求項1~5の何れか一項に記載の翻訳装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019087471 | 2019-05-07 | ||
JP2019087471 | 2019-05-07 | ||
PCT/JP2019/051481 WO2020225942A1 (ja) | 2019-05-07 | 2019-12-27 | 内部状態変更装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020225942A1 JPWO2020225942A1 (ja) | 2021-10-21 |
JP7229347B2 true JP7229347B2 (ja) | 2023-02-27 |
Family
ID=73051367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021518299A Active JP7229347B2 (ja) | 2019-05-07 | 2019-12-27 | 内部状態変更装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220207243A1 (ja) |
JP (1) | JP7229347B2 (ja) |
WO (1) | WO2020225942A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116167388A (zh) * | 2022-12-27 | 2023-05-26 | 无锡捷通数智科技有限公司 | 专有词翻译模型训练方法、装置、设备及存储介质 |
WO2024159415A1 (en) * | 2023-01-31 | 2024-08-08 | Google Llc | Length-constrained machine translation model |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018005218A (ja) | 2016-07-07 | 2018-01-11 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 自動通訳方法及び装置 |
WO2018058046A1 (en) | 2016-09-26 | 2018-03-29 | Google Llc | Neural machine translation systems |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190041790A (ko) * | 2017-10-13 | 2019-04-23 | 한국전자통신연구원 | 신경망 번역 모델 구축 장치 및 방법 |
-
2019
- 2019-12-27 US US17/599,861 patent/US20220207243A1/en active Pending
- 2019-12-27 JP JP2021518299A patent/JP7229347B2/ja active Active
- 2019-12-27 WO PCT/JP2019/051481 patent/WO2020225942A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018005218A (ja) | 2016-07-07 | 2018-01-11 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 自動通訳方法及び装置 |
WO2018058046A1 (en) | 2016-09-26 | 2018-03-29 | Google Llc | Neural machine translation systems |
Also Published As
Publication number | Publication date |
---|---|
WO2020225942A1 (ja) | 2020-11-12 |
JPWO2020225942A1 (ja) | 2021-10-21 |
US20220207243A1 (en) | 2022-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7391452B2 (ja) | 意味理解モデルのトレーニング方法、装置、電子デバイスおよびコンピュータプログラム | |
KR102577514B1 (ko) | 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체 | |
KR102069692B1 (ko) | 신경망 기계번역 방법 및 장치 | |
US20180329898A1 (en) | Machine translation method for performing translation between languages | |
US8515733B2 (en) | Method, device, computer program and computer program product for processing linguistic data in accordance with a formalized natural language | |
US7035789B2 (en) | Supervised automatic text generation based on word classes for language modeling | |
US11729120B2 (en) | Generating responses in automated chatting | |
JP2016218995A (ja) | 機械翻訳方法、機械翻訳装置及びプログラム | |
JPH06251057A (ja) | 機械翻訳方法及び機械翻訳装置 | |
JP7203153B2 (ja) | 機械翻訳モデルの訓練方法、装置、電子デバイス及び記憶媒体 | |
JP7229347B2 (ja) | 内部状態変更装置 | |
WO2013016071A1 (en) | Customization of natural language processing engine | |
JP7103957B2 (ja) | データ生成装置 | |
WO2020255553A1 (ja) | 生成装置、及び正規化モデル | |
Primandhika et al. | Experiment on a Transformer Model Indonesian-to-Sundanese Neural Machine Translation with Sundanese Speech Level Evaluation | |
US20230401384A1 (en) | Translation device | |
KR20120048139A (ko) | 자동 번역 장치 및 그 방법 | |
WO2022180990A1 (ja) | 質問生成装置 | |
WO2021199654A1 (ja) | 分割装置 | |
US20220139372A1 (en) | Natural language domain corpus data set creation based on enhanced root utterances | |
CN114896966A (zh) | 一种中文文本语法错误定位方法、系统、设备及介质 | |
JP2021179665A (ja) | 文章作成装置 | |
JP7547077B2 (ja) | 文章翻訳装置及び翻訳モデル | |
JP2020177387A (ja) | 文出力装置 | |
WO2022130940A1 (ja) | 提示装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210615 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220719 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220809 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221011 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7229347 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |