JP2019003552A - 処理方法、処理装置、及び処理プログラム - Google Patents

処理方法、処理装置、及び処理プログラム Download PDF

Info

Publication number
JP2019003552A
JP2019003552A JP2017119766A JP2017119766A JP2019003552A JP 2019003552 A JP2019003552 A JP 2019003552A JP 2017119766 A JP2017119766 A JP 2017119766A JP 2017119766 A JP2017119766 A JP 2017119766A JP 2019003552 A JP2019003552 A JP 2019003552A
Authority
JP
Japan
Prior art keywords
sentence
translation
word
bilingual
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017119766A
Other languages
English (en)
Other versions
JP6775202B2 (ja
Inventor
今出 昌宏
Masahiro Imaide
昌宏 今出
山内 真樹
Maki Yamauchi
真樹 山内
菜々美 藤原
Nanami Fujiwara
菜々美 藤原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2017119766A priority Critical patent/JP6775202B2/ja
Priority to US15/962,628 priority patent/US10402497B2/en
Priority to CN201810584251.7A priority patent/CN109145311B/zh
Publication of JP2019003552A publication Critical patent/JP2019003552A/ja
Application granted granted Critical
Publication of JP6775202B2 publication Critical patent/JP6775202B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

【課題】対義語を含む対訳文による誤訳可能性を簡便に且つ適切に評価することができる処理装置等を提示する。
【解決手段】翻訳処理装置1は、第1言語で記述された第1文と、第2言語による第1文の翻訳文である第1翻訳文との組である第1対訳データを取得する取得部11と、第1文及び第1翻訳文に含まれる語句に基づき、第1対訳データが誤訳可能性のある対訳データであるか否かを評価する評価部12と、評価の結果に基づく情報を出力する出力部13とを備え、評価部12は、(1)第1文に、第1の意味を有する単語及びその対義語の少なくとも一方が存在するか否かの第1判定、及び、(2)第1翻訳文に、第1の意味を有する単語及びその対義語の少なくとも一方が存在するか否かの第2判定、の結果に基づき、第1対訳データが誤訳可能性のある対訳データであるか否かを評価する。
【選択図】図1

Description

本開示は、第1言語で記述された入力文と入力文の第2言語への翻訳文とを含む対訳データ(対訳文)を処理する処理方法、処理装置、及び処理プログラムに関し、例えば、機械翻訳において、対義語を含む対訳文の対義誤翻訳の抑制及び該対義誤翻訳の注意喚起を行う技術に関する。
近年、第1言語の文を第1言語と異なる第2言語の文に翻訳する機械翻訳が研究及び開発されており、特に統計的機械翻訳とニューラル機械翻訳とが広く実用化されつつある。統計的機械翻訳とニューラル機械翻訳とは、どちらも第1言語と第2言語の対応する文の組である対訳文の集合(対訳コーパス)を訓練データとして大量に用いる機械学習によって、翻訳に必要な知識を蓄積した機械学習モデルを生成し、そのモデルを通じて翻訳を行う機械翻訳システムである。
上記の機械翻訳に関して、例えば、特許文献1には、原文と翻訳文とを入力する文入力部と、原文からの原文情報の抽出と翻訳文からの翻訳文情報の抽出とを行なう情報抽出部と、原文情報と翻訳文情報とを比較する比較部と、比較部における比較結果をもとに翻訳文の誤り率を計算する誤り率計算部と、誤り率の高い翻訳文の対訳文を利用者に伝える報知部とを備えた対訳文誤り検出装置が開示されている。
また、特許文献2には、対訳を含むテキストコンテンツデータを取得するテキスト取得部と、テキストコンテンツデータを単語ごとに分解する形態素解析部と、対訳を有するチェック用辞書を参照して、テキストコンテンツ中における対訳が適切であるかチェックを行う辞書チェック部と、対訳の対となる単語の少なくとも一方の単語の使用が適切でないと判断した場合に、ネットワークを介して不適切単語の代わりに使用される代用単語を検索する代用単語検索部と、不適切単語と代用単語とを関連付けて提示する提示部とを有するサーバ装置が開示されている。
特開2000−148756号公報 特開2016−194822号公報
しかしながら、上記の従来技術では、対義語を含む対訳文の処理方法について何ら検討されておらず、対義語を含む対訳文の処理方法については、更なる改善が必要とされていた。
本開示は、上述の事情に鑑みて為されたものであり、対義語を含む対訳文による誤訳可能性を簡便に且つ適切に評価することができる処理方法、処理装置、及び処理プログラムを提供することを目的とする。
本開示の一様態による処理方法は、第1言語で記述された入力文と前記入力文の第2言語への翻訳文とを含む対訳データを処理する処理装置における処理方法であって、前記第1言語で記述された第1文と、前記第2言語による前記第1文の翻訳文である第1翻訳文との組である第1対訳データを取得し、前記第1文及び前記第1翻訳文に含まれる語句に基づき、前記第1対訳データが誤訳可能性のある対訳データであるか否かを評価し、前記評価の結果に基づく情報を出力し、前記評価は、(1)前記第1文に、第1の意味を有する単語及びその対義語の少なくとも一方が存在するか否かの第1判定、及び、(2)前記第1翻訳文に、前記第1の意味を有する単語及びその対義語の少なくとも一方が存在するか否かの第2判定、の結果に基づき行われる。
本開示によれば、対義語を含む対訳文による誤訳可能性を簡便に且つ適切に評価することができる。
本開示の実施の形態1における翻訳処理装置の構成の一例を示すブロック図である。 図1に示す翻訳処理装置による翻訳評価処理の一例を示すフローチャートである。 図2に示す誤訳可能性評価処理の一例を示すフローチャートである。 図3に示す誤訳可能性評価処理に用いられる判定条件1〜7の具体例を説明するための左右誤翻訳誘発対訳文判定表の一例を示す図である。 本開示の実施の形態2における翻訳処理装置の構成の一例を示すブロック図である。 図5に示す翻訳処理装置による翻訳評価処理の一例を示すフローチャートである。 図6に示す誤訳可能性評価処理の一例を示すフローチャートである。 図5に示す翻訳処理装置の表示部に表示されるアラート情報画面の一例を示す図である。
(本開示の基礎となった知見)
従来の機械翻訳システムは、近年目覚しい性能向上を示す一方で、場合によっては論外な翻訳結果を出力することがある。例えば、ごくまれではあるが、「右」の意味を示す第1言語を「左」の意味を示す第2言語に、あるいはその反対に「左」の意味の第1言語を「右」の意味の第2言語に翻訳すること(以下、「左右対義誤翻訳」という)がある。これは、道案内用途や作業指示用途での使用においては、致命的な問題である。
上記の左右対義誤翻訳が発生する理由は2つある。1つ目は、機械学習モデル生成に用いる対訳文の作成は、一般に人手で実施されるため、いかに注意を払おうとも、ヒューマンエラーによる誤訳がわずかに混在してしまうことである。2つ目は、対訳としては正しくとも、機械学習時に「左」又は「右」を誤って対義で学習する恐れのある対訳文、あるいは、「左」又は「右」の意味の語が別の意味の語と結び付けられて学習する恐れのある対訳文が存在することである。
例えば「右に曲がると、左に建物があります/Turn right,and there will be a building on the left」のように1文中に「左」と「右」とを意味する語が同時に存在する対訳文(以下、「左右混在文」という)の場合には、「右」を「left」との関連性を高く学習し、「左」を「right」との関連性を高く学習する恐れがある。また、同一言語内に「左」及び「右」が同時に存在しなくとも、「わかった、左に行くよ/All right,I will go left」に含まれる「right」のように、多義性単語を含む対訳文(以下、「左右同形多義語含有文」という)の場合も、「左」と「right」を関連性高く学習する確率が0にはならない。
特許文献1及び特許文献2には、対訳文の誤りを検出する方法が開示されており、これらにより、ヒューマンエラーによる誤訳は検出することができる。しかし、左右混在文又は左右同形多義語含有文については、対訳文としては正しい文であるため、特許文献1及び特許文献2の技術では検出することができなかった。
また、他者から機械翻訳システムのうち翻訳機能のみの提供を受けている場合、機械学習モデル生成に用いる対訳文を制御することはできないため、特許文献1及び特許文献2の技術適用による誤翻訳回避は不可能だった。
このため、本開示では、対義語を含む対訳文による誤訳(左右対義誤翻訳等)の発生が従来よりも抑制された機械学習モデルを備えた処理装置等を提供することを第1の目的とする。また、対義語を含む対訳文による誤訳(左右対義誤翻訳等)が含まれる可能性が翻訳結果にある場合には、その事実を注意喚起し、翻訳装置の使用者が正しい翻訳内容へ至るヒントを提示することのできる処理装置等を提供することを第2の目的とする。
上記の目的を達成するため、上記の左右対義誤翻訳等の発生理由に鑑み、本開示においては、例えば、翻訳装置の機械学習モデルの作成時に訓練データとして用いる対訳コーパスにおいて、第1言語の入力文中における対義語(例えば、「右」又は「左」の意味の語)の存在有無と、第2言語の翻訳文中における対義語(例えば、「右」又は「左」の意味の語)の存在有無との組み合わせにより、上述の明らかな対訳誤りや、左右混在文又は左右同形多義語含有文のような、「左」又は「右」を対義で誤学習する恐れのある対訳文(左右誤翻訳誘発対訳文)等をあらかじめ抽出し、削除又は修正を施す。これにより、「左」又は「右」等を誤って対義で学習することを抑制することができ、翻訳装置による翻訳結果における左右対義誤翻訳等の誤訳の発生を従来に比べて抑制することができる。
また、本開示においては、例えば、種々の翻訳装置の使用時には、第1言語の入力文中における対義語(例えば、「右」又は「左」の意味の語)の存在有無と、第2言語の翻訳文中における対義語(例えば、「右」又は「左」の意味の語)の存在有無との組み合わせにより、機械翻訳結果の左右誤翻訳可能性等の誤訳可能性を段階的に判定し、その判定結果に応じたアラート情報を翻訳結果とあわせて提示する。より好ましくは、アラート情報には、入力文に対する類似文(参考例文)とその機械翻訳結果(参考翻訳文)も付加されてもよい。これにより、翻訳装置の使用者は、提示されたアラート情報、参考例文及び参考翻訳文を参照することにより、翻訳結果が左右誤翻訳等の誤訳を含むか否かを総合的に判断し、安易に左右誤翻訳等の誤訳を受け入れることを回避することができる。
上記の知見に基づき、本願発明者らは、対義語を含む対訳文(対訳データ)を如何に処理すべきかについて鋭意検討を行った結果、以下の本開示を完成したものである。
本開示の一態様に係る処理方法は、第1言語で記述された入力文と前記入力文の第2言語への翻訳文とを含む対訳データを処理する処理装置における処理方法であって、前記第1言語で記述された第1文と、前記第2言語による前記第1文の翻訳文である第1翻訳文との組である第1対訳データを取得し、前記第1文及び前記第1翻訳文に含まれる語句に基づき、前記第1対訳データが誤訳可能性のある対訳データであるか否かを評価し、前記評価の結果に基づく情報を出力し、前記評価は、(1)前記第1文に、第1の意味を有する単語及びその対義語の少なくとも一方が存在するか否かの第1判定、及び、(2)前記第1翻訳文に、前記第1の意味を有する単語及びその対義語の少なくとも一方が存在するか否かの第2判定、の結果に基づき行われる。
このような構成により、第1言語で記述された第1文と、第2言語による第1文の翻訳文である第1翻訳文との組である第1対訳データを取得し、(1)第1文に、第1の意味を有する単語及びその対義語の少なくとも一方が存在するか否かの第1判定、及び、(2)第1翻訳文に、第1の意味を有する単語及びその対義語の少なくとも一方が存在するか否かの第2判定、の結果に基づき、第1対訳データが誤訳可能性のある対訳データであるか否かを評価し、この評価の結果に基づく情報を出力しているので、対義語を含む対訳文による誤訳可能性、すなわち、翻訳を行う際に翻訳誤りを誘発する可能性及び翻訳結果が翻訳誤りを含む可能性を簡便に且つ適切に評価することができる。
前記評価は、(1)前記第1文に、第1の意味を有する単語及びその対義語が存在することの第1判定、及び、(2)前記第1翻訳文に、前記第1の意味を有する単語及びその対義語が存在することの第2判定、の結果に基づき行われるようにしてもよい。
このような構成により、(1)第1文に、第1の意味を有する単語及びその対義語が存在することの第1判定、及び、(2)第1翻訳文に、前記第1の意味を有する単語及びその対義語が存在することの第2判定、の結果に基づき、第1対訳データが誤訳可能性のある対訳文であるか否かを評価しているので、誤訳を誘発しやすい対訳文を簡便に且つ適切に抽出することができる。
前記評価は、(1)前記第1文に、第1の意味を有する単語及びその対義語のうち一方の第1の単語が存在し且つ他方の第2の単語が存在しないことの第1判定、及び、(2)前記第1翻訳文に、前記第1の単語の翻訳である第1の翻訳単語が存在せず且つ前記第2の単語の翻訳である第2の翻訳単語が存在することの第2判定、の結果に基づき行われるようにしてもよい。
このような構成により、(1)第1文に、第1の意味を有する単語及びその対義語のうち一方の第1の単語が存在し且つ他方の第2の単語が存在しないことの第1判定、及び、(2)第1翻訳文に、第1の単語の翻訳である第1の翻訳単語が存在せず且つ第2の単語の翻訳である第2の翻訳単語が存在することの第2判定、の結果に基づき、第1対訳データが誤訳可能性のある対訳文であるか否かを評価しているので、誤訳可能性が非常に高い対訳文を簡便に且つ適切に抽出することができる。
前記評価は、(1)前記第1文に、第1の意味を有する単語及びその対義語のうち一方の第1の単語が存在することの第1判定、及び、(2)前記第1翻訳文に、前記第1の単語の翻訳である第1の翻訳単語が存在しないことの第2判定、の結果に基づき行われるようにしてもよい。
このような構成により、(1)第1文に、第1の意味を有する単語及びその対義語のうち一方の第1の単語が存在することの第1判定、及び、(2)第1翻訳文に、第1の単語の翻訳である第1の翻訳単語が存在しないことの第2判定、の結果に基づき、第1対訳データが誤訳可能性のある対訳文であるか否かを評価しているので、誤訳可能性が高い対訳文を簡便に且つ適切に抽出することができる。
前記評価は、(1)前記第1文に、第1の意味を有する単語及びその対義語のうち一方の第1の単語が存在しないことの第1判定、及び、(2)前記第1翻訳文に、前記第1の単語の翻訳である第1の翻訳単語が存在することの第2判定、の結果に基づき行われるようにしてもよい。
このような構成により、(1)第1文に、第1の意味を有する単語及びその対義語のうち一方の第1の単語が存在しないことの第1判定、及び、(2)第1翻訳文に、第1の単語の翻訳である第1の翻訳単語が存在することの第2判定、の結果に基づき、第1対訳データが誤訳可能性のある対訳文であるか否かを評価しているので、誤訳可能性は低いが、誤訳可能性がある対訳文を簡便に且つ適切に抽出することができる。
前記取得は、前記第1対訳データを対訳コーパス記憶部から取得し、前記対訳コーパス記憶部は、前記第1言語で記述された文と、前記第1言語で記述された文の前記第2言語による翻訳文との対を複数含む対訳コーパスを記憶するようにしてもよい。
このような構成により、第1言語で記述された文と、第1言語で記述された文の第2言語による翻訳文との対を複数含む対訳コーパスを記憶する対訳コーパス記憶部から、第1対訳データを取得しているので、対訳コーパス記憶部の複数の対訳データのうち、翻訳を行う際に翻訳誤りを誘発する可能性が高い対訳文を簡便に且つ適切に抽出することができる。
前記出力は、前記評価の結果に基づき、訓練用対訳コーパスを生成するようにしてもよい。
このような構成により、上記の評価の結果に基づき、訓練用対訳コーパスを生成しているので、翻訳を行う際に翻訳誤りを誘発する可能性が高い対訳文を修正又は削除することにより、翻訳を行う際に翻訳誤りを誘発する可能性が高い対訳文を含まない訓練用対訳コーパスを生成することができる。
前記出力は、前記評価の結果に基づき、前記誤訳可能性のない対訳データを前記訓練用対訳コーパスとして採用し、前記誤訳可能性のある対訳データを前記訓練用対訳コーパスとして採用しないことにより、前記訓練用対訳コーパスを生成するようにしてもよい。
このような構成により、評価の結果に基づき、誤訳可能性のない対訳データを訓練用対訳コーパスとして採用し、誤訳可能性のある対訳データを訓練用対訳コーパスとして採用しないことにより、訓練用対訳コーパスを生成しているので、翻訳を行う際に翻訳誤りを誘発する可能性がある対訳文を含まない訓練用対訳コーパスを生成することができる。
前記出力は、前記評価の結果に基づき、前記誤訳可能性のない対訳データを前記訓練用対訳コーパスとして採用し、前記誤訳可能性のある対訳データを前記誤訳可能性がないように修正した修正対訳データを前記訓練用対訳コーパスとして採用することにより、前記訓練用対訳コーパスを生成するようにしてもよい。
このような構成により、評価の結果に基づき、誤訳可能性のない対訳データを訓練用対訳コーパスとして採用し、誤訳可能性のある対訳データを誤訳可能性がないように修正した修正対訳データを訓練用対訳コーパスとして採用することにより、訓練用対訳コーパスを生成しているので、翻訳を行う際に翻訳誤りを誘発する可能性がある対訳文を含まないデータ数の多い訓練用対訳コーパスを生成することができる。
前記訓練用対訳コーパスを用いて翻訳モデルを学習するようにしてもよい。
このような構成により、翻訳を行う際に翻訳誤りを誘発する可能性がある対訳データを含まない訓練用対訳コーパスを用いて翻訳モデルを学習しているので、この翻訳モデルを用いた翻訳結果における左右対義誤翻訳等の誤訳の発生を抑制することができる。
前記取得は、前記第1文を前記第1翻訳文に翻訳する翻訳装置から前記第1対訳データを取得するようにしてもよい。
このような構成により、第1文を第1翻訳文に翻訳する翻訳装置から第1対訳データを取得しているので、使用者は翻訳結果が左右誤翻訳等の翻訳誤りを含むか否かを総合的に判断することができ、使用者が安易に左右誤翻訳等の誤訳を受け入れることを回避することができる。
前記出力は、前記評価の結果に基づき、アラート情報を生成して表示するようにしてもよい。
このような構成により、上記の評価の結果に基づき、アラート情報を生成して表示しているので、使用者はアラート情報により翻訳結果が左右誤翻訳等の翻訳誤りを含むか否かを判断することができ、使用者が安易に左右誤翻訳等の誤訳を受け入れることを確実に回避することができる。
前記出力は、前記評価の結果に基づき、前記アラート情報として、前記誤訳可能性として第1の可能性を示す第1アラート情報と、前記誤訳可能性として前記第1の可能性より高い第2の可能性を示す第2アラート情報とを生成するようにしてもよい。
このような構成により、上記の評価の結果に基づき、アラート情報として、誤訳可能性として第1の可能性を示す第1アラート情報と、誤訳可能性として第1の可能性より高い第2の可能性を示す第2アラート情報とを生成しているので、翻訳結果の左右誤翻訳可能性等の誤訳可能性を段階的に表示することができる。したがって、使用者は翻訳結果が左右誤翻訳等の翻訳誤りを含むか否かを段階的に判断することができ、使用者が安易に左右誤翻訳等の誤訳を受け入れることを確実に回避することができる。
前記出力は、前記評価の結果に基づき、前記アラート情報に付加して、参考翻訳例を生成して表示するようにしてもよい。
このような構成により、上記の評価の結果に基づき、アラート情報に付加して、参考翻訳例を生成して表示しているので、アラート情報及び参考翻訳例により、使用者は翻訳結果が左右誤翻訳等の翻訳誤りを含むか否かを総合的に判断することができ、使用者が安易に左右誤翻訳等の誤訳を受け入れることを確実に回避することができる。
前記第1文又は前記第1翻訳文に含まれる語句は、「右」又「左」であるようにしてもよい。
このような構成により、対訳コーパス記憶部から第1対訳データを取得し、翻訳を行う際に翻訳誤りを誘発する可能性がある対訳データを含まない訓練用対訳コーパスを用いて翻訳モデルを学習する場合は、この翻訳モデルを用いた翻訳結果における左右対義誤翻訳の発生を抑制することができ、また、第1文を第1翻訳文に翻訳する翻訳装置から第1対訳データを取得している場合は、翻訳装置の翻訳結果が左右誤翻訳を含むか否かを総合的に判断し、安易に左右誤翻訳を受け入れることを回避することができる。
また、本開示は、以上のような特徴的な処理を実行する処理方法として実現することができるだけでなく、このような処理方法により実行される特徴的な処理に対応する特徴的な構成を備える処理装置などとして実現することもできる。また、このような処理方法に含まれる特徴的な処理をコンピュータに実行させるコンピュータプログラムとして実現することもできる。したがって、以下の他の態様でも、上記の処理方法と同様の効果を奏することができる。
本開示の他の態様に係る処理装置は、第1言語で記述された入力文と前記入力文の第2言語への翻訳文とを含む対訳データを処理する処理装置であって、前記第1言語で記述された第1文と、前記第2言語による前記第1文の翻訳文である第1翻訳文との組である第1対訳データを取得する取得部と、前記第1文及び前記第1翻訳文に含まれる語句に基づき、前記第1対訳データが誤訳可能性のある対訳データであるか否かを評価する評価部と、前記評価の結果に基づく情報を出力する出力部とを備え、前記評価部は、(1)前記第1文に、第1の意味を有する単語及びその対義語の少なくとも一方が存在するか否かの第1判定、及び、(2)前記第1翻訳文に、前記第1の意味を有する単語及びその対義語の少なくとも一方が存在するか否かの第2判定、の結果に基づき、前記第1対訳データが誤訳可能性のある対訳データであるか否かを評価する。
本開示の他の態様に係る処理プログラムは、第1言語で記述された入力文と前記入力文の第2言語への翻訳文とを含む対訳データを処理する処理装置として、コンピュータを機能させるための処理プログラムであって、前記コンピュータに、前記第1言語で記述された第1文と、前記第2言語による前記第1文の翻訳文である第1翻訳文との組である第1対訳データを取得し、前記第1文及び前記第1翻訳文に含まれる語句に基づき、前記第1対訳データが誤訳可能性のある対訳データであるか否かを評価し、前記評価の結果に基づく情報を出力する、処理を実行させ、前記評価は、(1)前記第1文に、第1の意味を有する単語及びその対義語の少なくとも一方が存在するか否かの第1判定、及び、(2)前記第1翻訳文に、前記第1の意味を有する単語及びその対義語の少なくとも一方が存在するか否かの第2判定、の結果に基づき行われる。
そして、上記のようなコンピュータプログラムを、CD−ROM等のコンピュータ読み取り可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。また、本開示の実施の形態に係る翻訳処理装置の構成要素の一部とそれ以外の構成要素とを複数のコンピュータに分散させたシステムとして構成してもよい。
なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すためのものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施の形態において、各々の内容を組み合わせることもできる。
以下、本開示の各実施の形態について、図面を参照しながら説明する。
(実施の形態1)
図1は、本開示の実施の形態1における翻訳処理装置の構成の一例を示すブロック図である。図1に示す翻訳処理装置1は、評価装置10及び翻訳装置20を備える。評価装置10は、取得部11、評価部12、及び出力部13を備える。翻訳装置20は、対訳コーパス記憶部21、生成部22、訓練用対訳コーパス記憶部23、学習部24、及び翻訳モデル記憶部25を備える。
図1に示す翻訳処理装置1は、第1言語で記述された入力文と、入力文の第2言語への翻訳文とを含む対訳データ(対訳文)を処理する。第1言語としては、例えば、日本語、英語、フランス語、ドイツ語というような言語を採用できる。第2言語としては、第1言語とは異なる言語を採用できる。
翻訳処理装置1は、評価装置10及び翻訳装置20を用いて、翻訳を行う際に対訳コーパスの対訳データが翻訳誤りを誘発する可能性を評価し、この評価結果に基づいて、翻訳を行う際に翻訳誤りを誘発する可能性が高い対訳データを含まない訓練用対訳コーパスを作成し、この訓練用対訳コーパスを用いて学習した翻訳モデルを作成する。評価装置10は、上記の機械学習モデル作成過程に使用される評価装置である。翻訳装置20は、訓練用対訳コーパスを用いて学習した翻訳モデルを用いて翻訳を行う翻訳装置である。
翻訳処理装置1は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、及びRAM(Random Access Memory)及び補助記憶装置等を備える1台又は複数台のコンピュータで構成される。なお、翻訳処理装置1の翻訳装置20は、評価装置10と別体の翻訳装置として構成してもよく、例えば、スマートフォンやタブレット端末等の携帯情報端末で構成されてもよいし、据え置き型のコンピュータで構成されてもよい。或いは、翻訳装置20は、クラウドサーバで構成されてもよい。この場合、入力文等を入力する入力部(図示省略)や翻訳文等を表示する表示部(図示省略)等は、ユーザが所持する携帯情報端末或いは据え置き型のコンピュータで構成され、これら以外の構成要素がクラウドサーバで構成されてもよい。
翻訳装置20の対訳コーパス記憶部21は、補助記憶装置等から構成され、第1言語(例えば、日本語)で記述された文と、第1言語で記述された文の第2言語(例えば、英語)による翻訳文との対(対訳データ)を複数含む対訳コーパスを記憶している。対訳コーパスの対訳データは、第1言語で記述された第1文と、第2言語による第1文の翻訳文である第1翻訳文との組である第1対訳データの一例である。
評価装置10の取得部11は、対訳コーパス記憶部21に保存された対訳データを取得して評価部12に出力する。評価部12は、対訳データの第1文及び第1翻訳文に含まれる語句に基づき、対訳データが誤訳可能性のある対訳データであるか否かを評価し、評価結果を対訳データとともに出力部13に出力する。出力部13は、評価結果に基づく情報として、対訳データごとに誤訳可能性の評価結果を翻訳装置20の生成部22に出力する。
具体的には、評価部12は、後述する判定条件1として、第1文に、第1の意味を有する単語及びその対義語が存在し、且つ、第1翻訳文に、第1の意味を有する単語及びその対義語が存在するか否かを判定する。
また、評価部12は、後述する判定条件2、3として、第1文に、第1の意味を有する単語及びその対義語のうち一方の第1の単語が存在し且つ他方の第2の単語が存在せず、且つ、第1翻訳文に、第1の単語の翻訳である第1の翻訳単語が存在せず且つ第2の単語の翻訳である第2の翻訳単語が存在するか否かを判定する。
また、評価部12は、後述する判定条件4、5として、第1文に、第1の意味を有する単語及びその対義語のうち一方の第1の単語が存在し、且つ、第1翻訳文に、第1の単語の翻訳である第1の翻訳単語が存在しないか否かを判定する。
また、評価部12は、後述する判定条件6、7として、第1文に、第1の意味を有する単語及びその対義語のうち一方の第1の単語が存在せず、且つ、第1翻訳文に、第1の単語の翻訳である第1の翻訳単語が存在するか否かを判定する。
なお、評価部12の判定条件は、上記の例に特に限定されず、第1文に、第1の意味を有する単語及びその対義語の少なくとも一方が存在するか否か、及び、第1翻訳文に、第1の意味を有する単語及びその対義語の少なくとも一方が存在するか否かを判定したり、判定条件1〜7の一部を任意に組み合わせたり、他の判定条件を用いたりする等の種々の変更が可能である。
翻訳装置20の生成部22は、評価部12の評価結果に基づき、誤訳可能性のない対訳データを訓練用対訳コーパスとして採用し、誤訳可能性のある対訳データを訓練用対訳コーパスとして採用しないことにより、訓練用対訳コーパスを生成して訓練用対訳コーパス記憶部23に記憶させる。ここで、本実施の形態では、誤訳可能性は、翻訳を行う際に翻訳誤りを誘発する可能性を意味する。
なお、誤訳可能性のある対訳データの処理方法は、上記の例に特に限定されず、誤訳可能性のある対訳データを誤訳可能性がないように修正した修正対訳データを訓練用対訳コーパスとして採用するようにしてもよい。
例えば、生成部22は、誤訳可能性のある対訳データとして、「右」又は「左」の意味の第1言語をそれぞれ「左」又は「右」の意味の第2言語へと誤った翻訳を誘発する左右誤翻訳誘発対訳文を抽出し、抽出した左右誤翻訳誘発対訳文の一部又は全てを、左右対義誤翻訳を誘発しにくい形態に修正可能か又は修正不要かを判断する。修正可能と判断した場合、生成部22は、当該左右誤翻訳誘発対訳文を修正し、修正対訳文を生成して訓練用対訳コーパス記憶部23に出力し、修正不要と判断した場合、当該左右誤翻訳誘発対訳文を修正不要文として訓練用対訳コーパス記憶部23に出力する。
学習部24は、訓練用対訳コーパス記憶部23に記憶された訓練用対訳コーパスを用いて翻訳モデルを学習し、学習した翻訳モデルを翻訳のための機械学習モデルとして生成して翻訳モデル記憶部25に記憶させる。
ここで、機械学習モデルは、翻訳装置20が採用するアルゴリズムによって態様が異なる。例えば、翻訳装置20が統計的機械翻訳技術を採用した翻訳装置であれば、「意味的な等価性」を学習した翻訳モデルと、「目的言語らしさ」を学習した言語モデルとで表現される。また、翻訳装置20がニューラル機械翻訳技術を採用した翻訳装置であれば、再帰的ニューラルネットワークを用いたsequense−to−sequenseモデルで記述される。
次に、上記のように構成された翻訳処理装置1の翻訳評価処理について説明する。図2は、図1に示す翻訳処理装置1による翻訳評価処理の一例を示すフローチャートである。なお、以下の説明では、より具体的な説明のため、第1言語として日本語を採用し、第2言語として英語を採用するが、これは一例であり、他の言語間においても同様な概念で誤訳可能性を評価することにより、左右誤翻訳誘発対訳文を抽出して削除等することができる。また、下記の評価装置10の処理は、翻訳装置20と同じコンピュータ等の構成上で実行されてもよいし、部分的に他のコンピュータ等の構成上で実行されてもよい。また、その一部のステップは、人手作業によって実施されてもよい。
まず、取得部11は、対訳コーパス記憶部21に記憶されている対訳データを取得して評価部12に出力する(ステップS11)。
次に、評価部12は、対訳データの第1言語の文とその翻訳文それぞれに含まれる単語に基づき対訳文の誤訳可能性を評価する誤訳可能性評価処理を実行し(ステップS12)、誤訳可能性がない場合は、ステップS13に処理を移行し、誤訳可能性がある場合は、ステップS14に処理を移行する。
図3は、図2に示す誤訳可能性評価処理(ステップS12)の一例を示すフローチャートであり、図4は、図3に示す誤訳可能性評価処理に用いられる判定条件1〜7の具体例を説明するための左右誤翻訳誘発対訳文判定表の一例を示す図である。
図3に示すように、評価部12は、図2に示す誤訳可能性評価処理(ステップS12)として、例えば、左右誤翻訳誘発対訳文該非判定処理(ステップS21〜27)を実行する。この左右誤翻訳誘発対訳文該非判定処理は、7段階の判定ステップを経て、判定条件1〜7の各条件に応じて、段階的に左右誤翻訳誘発対訳文を抽出する処理である。
まず、評価部12は、対訳データが判定条件1に該当するか否かを判定し(ステップS21)、対訳データが判定条件1に該当する場合は、図2に示すステップS14に処理を移行し、対訳データが判定条件1に該当しない場合は、ステップS22に処理を移行する。
図4の左右誤翻訳誘発対訳文判定表T1に示すように、判定条件1は、日本語文中に「右」及び「左」を含み、且つ英語文中に「right」及び「left」を含むことである。判定条件1に該当する場合の判定結果は、「左右入れ替わり誘発」となり、判定条件1を満たす対訳データに対する推奨対処方法は、対訳データを「右」及び「right」のみ又は「左」及び「left」のみに修正すること、又は、対訳データを削除することである。例えば、「右に曲がると、左に建物があります/Turn right,and there will be a building on the left」という対訳文が判定条件1に該当する。
対訳データが判定条件1に該当しない場合、評価部12は、対訳データが判定条件2に該当するか否かを判定し(ステップS22)、対訳データが判定条件2に該当する場合は、図2に示すステップS14に処理を移行し、対訳データが判定条件2に該当しない場合は、ステップS23に処理を移行する。
図4の左右誤翻訳誘発対訳文判定表T1に示すように、判定条件2は、対訳データの日本語文中に「右」を含んで「左」を含まず、且つ英語文中に「right」を含まず「left」を含むことである。判定条件2に該当する場合の判定結果は、「対訳ミス」となり、判定条件2を満たす対訳データに対する推奨対処方法は、対訳データの誤訳を修正すること、又は、対訳データを削除することである。例えば、「階段を正面に見て、右手に曲がります/Looking at the stairs in front of you,turn to the left」という明らかに対訳誤りである対訳文が判定条件2に該当する。
対訳データが判定条件2に該当しない場合、評価部12は、対訳データが判定条件3に該当するか否かを判定し(ステップS23)、対訳データが判定条件3に該当する場合は、図2に示すステップS14に処理を移行し、対訳データが判定条件3に該当しない場合は、ステップS24に処理を移行する。
図4の左右誤翻訳誘発対訳文判定表T1に示すように、判定条件3は、対訳データの日本語文中に「右」を含まず「左」を含み、且つ英語文中に「right」を含んで「left」を含まないことである。判定条件3に該当する場合の判定結果は、「対訳ミス」となり、判定条件3を満たす対訳データに対する推奨対処方法は、対訳データの誤訳を修正すること、又は、対訳データを削除することである。例えば「左のほうに、道沿いに花が植えられています/Flowers are planted along the street to the right」という明らかに対訳誤りである対訳文が判定条件3に該当する。
対訳データが判定条件3に該当しない場合、評価部12は、対訳データが判定条件4に該当するか否かを判定し(ステップS24)、対訳データが判定条件4に該当する場合は、図2に示すステップS14に処理を移行し、対訳データが判定条件4に該当しない場合は、ステップS25に処理を移行する。
図4の左右誤翻訳誘発対訳文判定表T1に示すように、判定条件4は、対訳データの日本語文中に「右」を含み、且つ英語文中に「right」を含まないことであり、このとき、日本語文中の「左」及び英語文中の「left」の有無については判定しない。判定条件4に該当する場合の判定結果は、「意訳」、「慣用句」、又は「対訳ミス」となり、判定条件4を満たす対訳データに対する推奨対処方法は、対訳データを個別に確認し、不適な対訳データを修正又は削除することである。
例えば、「右に曲がると、左に建物があります/Turn left,and there will be a building on the left」という明らかに対訳誤りである対訳文が判定条件4に該当する。また、「右に回すと、徐々に明るくなります/If turn clockwise,it gradually brightens」という対訳文も判定条件4に該当する。後者は、対訳としては正しいが、意訳的な表現である。
対訳データが判定条件4に該当しない場合、評価部12は、対訳データが判定条件5に該当するか否かを判定し(ステップS25)、対訳データが判定条件5に該当する場合は、図2に示すステップS14に処理を移行し、対訳データが判定条件5に該当しない場合は、ステップS26に処理を移行する。
図4の左右誤翻訳誘発対訳文判定表T1に示すように、判定条件5は、対訳データの日本語文中に「左」を含み、且つ英語文中に「left」を含まないことであり、このとき、日本語文中の「右」及び英語文中の「right」の有無については判定しない。判定条件5に該当する場合の判定結果は、「意訳」、「慣用句」、又は「対訳ミス」となり、判定条件5を満たす対訳データに対する推奨対処方法は、対訳データを個別に確認し、不適な対訳データを修正又は削除することである。
例えば、「左に曲がると、右に建物があります/Turn right,and there will be a building on the right」という明らかに対訳誤りである対訳文が判定条件5に該当する。また、「左に回すと、徐々に暗くなります/If turn counterclockwise,it gradually darkens」という対訳文も判定条件5に該当する。後者は、対訳としては正しいが、意訳的な表現である。
対訳データが判定条件5に該当しない場合、評価部12は、対訳データが判定条件6に該当するか否かを判定し(ステップS26)、対訳データが判定条件6に該当する場合は、図2に示すステップS14に処理を移行し、対訳データが判定条件6に該当しない場合は、ステップS27に処理を移行する。
図4の左右誤翻訳誘発対訳文判定表T1に示すように、判定条件6は、対訳データの日本語文中に「右」を含まず、且つ英語文中に「right」を含むことであり、このとき、日本語文中の「左」及び英語文中の「left」の有無については判定しない。判定条件6に該当する場合の判定結果は、「right」の多義性、又は「対訳ミス」となり、判定条件6を満たす対訳データに対する推奨対処方法は、対訳データを個別に確認し、不適な対訳データを修正若しくは削除すること、又は、不適と判断できない対訳データはそのまま使用することである。
例えば、「このあたりで曲がってください/Turn right around here」という対訳誤りである対訳文が判定条件6に該当する。また、「すぐに準備します/I can prepare them right away」という対訳文も判定条件6に該当する。後者は、「右」以外の意味で用いられた「right」であり(rightの多義性)、対訳としては正しい表現である。
対訳データが判定条件6に該当しない場合、評価部12は、対訳データが判定条件7に該当するか否かを判定し(ステップS27)、対訳データが判定条件7に該当する場合は、図2に示すステップS14に処理を移行し、対訳データが判定条件7に該当しない場合は、図2に示すステップS13に処理を移行する。
図4の左右誤翻訳誘発対訳文判定表T1に示すように、判定条件7は、対訳データの日本語文中に「左」を含まず、且つ英語文中に「left」を含むことであり、このとき、日本語文中の「右」及び英語文中の「right」の有無については判定しない。判定条件7に該当する場合の判定結果は、「left」の多義性、又は「対訳ミス」となり、判定条件7を満たす対訳データに対する推奨対処方法は、対訳データを個別に確認し、不適な対訳データを修正若しくは削除すること、又は、不適と判断できない対訳データはそのまま使用することである。
例えば、「このあたりで曲がってください/Turn left around here」という対訳誤りである対訳文が判定条件7に該当する。また、「部屋に鍵を置き忘れました/I left my key in the room」という対訳文も判定条件7に該当する。後者は、「左」以外の意味で用いられた「left」であり(leftの多義性)、対訳としては正しい表現である。
再び、図2を参照して、誤訳可能性がない場合、すなわち、上記の判定条件1〜7のいずれにも対訳文が該当しない場合、評価部12は、対訳文が判定条件1〜7のいずれにも該当しないことを示す評価結果を対訳データとともに出力部13に出力し、出力部13は、対訳データを生成部22に出力し(ステップS13)、処理をステップS16に移行する。
一方、誤訳可能性がある場合、すなわち、上記の判定条件1〜7のいずれかに対訳文が該当した場合、評価部12は、対訳文が該当した判定条件の番号を示す評価結果を対訳データとともに出力部13に出力し、出力部13は、対訳文が該当した判定条件の番号を示す付加情報を作成する(ステップS14)。
次に、出力部13は、上記の判定条件1〜7いずれかの判定条件に該当した対訳文に、該当する判定条件番号1〜7を対訳文の付帯情報として付与し、対訳データと付加情報とを生成部22に出力し(ステップS15)、処理をステップS16に移行する。
次に、生成部22は、出力部13から取得した対訳データに付加情報があるか否かを判断し(ステップS16)、付加情報がない場合は、処理をステップS17に移行し、付加情報がある場合は、処理をステップS18に移行する。
付加情報がない場合、生成部22は、対訳データを訓練用対訳コーパス記憶部23に格納する(ステップS17)。一方、付加情報がある場合、生成部22は、対訳データを破棄し、訓練用対訳コーパス記憶部23に格納しない(ステップS18)。
最後に、学習部24は、訓練用対訳コーパス記憶部23に記憶された訓練用対訳コーパスを用いて翻訳モデルを生成して翻訳モデル記憶部25に記憶させる(ステップS19)。
上記の処理により、本実施の形態では、対訳コーパス記憶部21から第1言語で記述された文と第2言語による翻訳文との組である対訳データを取得し、対訳データが判定条件1〜7のいずれに該当するかの判定結果に基づき、対訳データが誤訳可能性のある対訳データであるか否かを評価しているので、翻訳を行う際に翻訳誤りを誘発する可能性が高い対訳文を簡便に且つ適切に抽出することができる。
また、評価結果に基づき、誤訳可能性のない対訳データを訓練用対訳コーパスとして採用し、誤訳可能性のある対訳データを訓練用対訳コーパスとして採用しないことにより、訓練用対訳コーパスを生成しているので、翻訳を行う際に翻訳誤りを誘発する可能性がある対訳文を含まない訓練用対訳コーパスを生成することができる。
さらに、翻訳を行う際に翻訳誤りを誘発する可能性がある対訳データを含まない訓練用対訳コーパスを用いて翻訳モデルを学習しているので、この翻訳モデルを用いた翻訳結果における左右対義誤翻訳等の誤訳の発生を抑制することができる。
したがって、学習部24は、左右誤翻訳誘発対訳文を含まない、訓練用対訳コーパス記憶部23に格納された質の良い訓練用対訳コーパスを用いて機械学習することが可能となり、翻訳装置20は、その結果生成される翻訳モデル記憶部25の機械学習モデルを使用することで、左右対義誤翻訳の発生が抑制される。
この結果、翻訳装置20における左右対義誤翻訳等の誤訳の発生を抑制することができるため、本実施の形態の翻訳処理装置1は、左右の誤訳等が致命的になる道案内用途や作業指示用途等の自動翻訳サービスを提供する上で有用である。
なお、本実施の形態では、生成部22が左右誤訳誘発対訳文抽出削除部として機能し、判定条件1〜7のいずれかに該当する対訳データを抽出した場合、対訳データを削除して廃棄したが、この例に特に限定されず、生成部22は、左右誤訳翻訳誘発文修正部としても機能し、判定条件1〜7のいずれかに該当する対訳データを修正し、修正した対訳データを訓練用対訳コーパス記憶部23に格納するようにしてもよい。
この場合、生成部22は、判定条件1〜7のいずれかに該当する対訳データ(左右誤翻訳誘発対訳文)を、付与された判定条件の番号1〜7に応じて、図4に示す左右誤翻訳誘発対訳文判定表T1に記載の該当する推奨対処方法に従い、修正可能な対訳データに修正を施す。このとき、修正後の対訳データが新たに別の判定条件1〜7に該当しないように修正を施す。
以下、上記の判定条件1〜7に該当する対訳文を事例に、具体的な修正方法について説明する。
例えば、判定条件1に該当する対訳文が「右に曲がると、左に建物があります/Turn right,and there will be a building on the left」である場合、生成部22は、「右」及び「right」のみ又は「左」及び「left」のみの表現となる対訳文に修正する。すなわち、「右に曲がると、右に建物があります/Turn right,and there will be a building on the right」あるいは「左に曲がると、左に建物があります/Turn left,and there will be a building on the left」のように修正する。これにより、「左」及び「右」を誤った対義での学習を防ぐことができる。
また、例えば、判定条件2に該当する対訳文が「階段を正面に見て、右手に曲がります/Looking at the stairs in front of you,turn to the left」である場合、生成部22は、対訳誤りを修正する。すなわち、「階段を正面に見て、右手に曲がります/Looking at the stairs in front of you,turn to the right」のように修正する。これにより、「左」及び「右」を誤った対義での学習を防ぐことができる。
また、例えば、判定条件3に該当する対訳文が「左のほうに、道沿いに花が植えられています/Flowers are planted along the street to the right」である場合、生成部22は、対訳誤りを修正する。すなわち、「左のほうに、道沿いに花が植えられています/Flowers are planted along the street to the left」のように修正する。これにより、「左」及び「右」を誤った対義での学習を防ぐことができる。
また、例えば、判定条件4に該当する1つ目の対訳文が「右に曲がると、左に建物があります/Turn left,and there will be a building on the left」である場合、対訳誤りを修正すればよいが、英語文側を修正すると、判定条件1に該当する対訳文になってしまう。この場合、生成部22は、日本語文側を修正して「左に曲がると、左に建物があります/Turn left,and there will be a building on the left」とする。これにより、「左」及び「右」を誤った対義での学習を防ぐことができる。
また、判定条件4に該当する2つ目の対訳文が「右に回すと、徐々に明るくなります/If turn clockwise, it gradually brightens」である場合、生成部22は、意訳的表現を修正し、「右に回すと、徐々に明るくなります/If turn to the right, it gradually brightens」あるいは、日本語文側を修正し、「時計回りに回すと、徐々に明るくなります/If turn clockwise, it gradually brightens」とする。これにより、「左」及び「右」を誤った対義での学習を防ぐことができる。
また、例えば、判定条件5に該当する1つ目の対訳文が「左に曲がると、右に建物があります/Turn right,and there will be a building on the right」である場合、対訳誤りを修正すればよいが、英語文側を修正すると、判定条件1に該当する対訳文になってしまう。この場合、生成部22は、日本語文側を修正し「右に曲がると、右に建物があります/Turn right,and there will be a building on the right」とする。これにより、「左」及び「右」を誤った対義での学習を防ぐことができる。
また、判定条件5に該当する2つ目の対訳文が「左に回すと、徐々に暗くなります/If turn counterclockwise,it gradually darkens」である場合、生成部22は、意訳的表現を修正し、「左に回すと、徐々に暗くなります/If turn to the left,it gradually darkens」あるいは、日本語文側を修正し、「反時計回りに回すと、徐々に暗くなります/If turn counterclockwise,it gradually darkens」とする。これにより、「左」及び「右」を誤った対義での学習を防ぐことができる。
また、例えば、判定条件6に該当する1つ目の対訳文が「このあたりで曲がってください/Turn right around here」である場合、生成部22は、対訳誤りを修正する。すなわち、英語文側から「right」を削除し「このあたりで曲がってください/Turn around here」とする。一方、判定条件6に該当する2つ目の対訳文が「すぐに準備します/I can prepare them right away」である場合、対訳文としては正しいため、基本的には修正不要である。
また、例えば、判定条件7に該当する1つ目の対訳文が「このあたりで曲がってください/Turn left around here」である場合、生成部22は、対訳誤りを修正する。すなわち、英語文側から「left」を削除し、「このあたりで曲がってください/Turn around here」とする。一方、判定条件7に該当する2つ目の対訳文が「部屋に鍵を置き忘れました/I left my key in the room」である場合、対訳文としては正しいため、基本的には修正不要である。
また、もし、これらの対訳文修正過程において、修正不可能な対訳文、もしくは修正の結果、他の修正対訳文と同一になる場合、この時点でその対訳文を破棄するようにしてもよい。
以上の例のように、左右誤翻訳誘発対訳文を修正して生成された修正対訳文(修正対訳データ)は、生成部22から訓練用対訳コーパス記憶部23に出力され、学習部24に入力される訓練用対訳コーパスに追加される。また、生成部22において、あらためて修正不要と判断された対訳文(修正不要文)については、修正されずに訓練用対訳コーパス記憶部23に出力され、修正対訳文と同じく訓練用対訳コーパスに追加する。
上記のように、評価結果に基づき、誤訳可能性のない対訳データを訓練用対訳コーパスとして採用し、誤訳可能性のある対訳データを誤訳可能性がないように修正した修正対訳データを訓練用対訳コーパスとして採用することにより、訓練用対訳コーパスを生成しているので、翻訳を行う際に翻訳誤りを誘発する可能性がある対訳文を含まないデータ数の多い訓練用対訳コーパスを生成することができる。
(実施の形態2)
図5は、本開示の実施の形態2における翻訳処理装置の構成の一例を示すブロック図である。図5に示す翻訳処理装置1aは、評価装置10a及び翻訳装置20aを備える。評価装置10aは、取得部11a、評価部12a、及び出力部13aを備える。翻訳装置20aは、生成部22a、入力部26、翻訳部27、及び表示部28を備える。
図5に示す翻訳処理装置1aは、第1言語で記述された入力文と、入力文の第2言語への翻訳文とを含む対訳データ(対訳文)を処理する。本実施の形態においても、引き続き第1言語として日本語を採用し、第2言語として英語を採用するが、これは一例である。
翻訳処理装置1aは、第1言語で記述された入力文を第2言語の翻訳文に翻訳する翻訳装置20aから対訳データを取得し、評価装置10aにより翻訳結果が翻訳誤りを含む可能性を評価し、この評価結果に基づいて、翻訳結果が翻訳誤りを含む可能性に関する情報を使用者に提示する。評価装置10aは、翻訳装置20aの翻訳結果が翻訳誤りを含む可能性を評価する評価装置である。翻訳装置20aは、翻訳モデルを用いて翻訳を行い、評価装置10aの評価結果に基づき、アラート情報等を生成して表示する翻訳装置である。
翻訳処理装置1aは、例えば、CPU、ROM、及びRAM及び補助記憶装置等を備える1台又は複数台のコンピュータで構成される。なお、翻訳処理装置1aの翻訳装置20aは、評価装置10aと別体の翻訳装置として構成してもよく、例えば、スマートフォンやタブレット端末等の携帯情報端末で構成されてもよいし、据え置き型のコンピュータで構成されてもよい。或いは、翻訳装置20aは、クラウドサーバで構成されてもよい。この場合、入力文等を入力する入力部26や翻訳文等を表示する表示部28等は、ユーザが所持する携帯情報端末或いは据え置き型のコンピュータで構成され、これら以外の構成要素がクラウドサーバで構成されてもよい。
翻訳装置20aの入力部26は、例えば、タッチパネル等の入力装置、又はキーボード及びマウス等の入力装置、あるいは音声による文章入力装置等により構成される。入力部26は、使用者の操作により第1言語で記述された入力文を受け付け、入力文を翻訳部27及び評価装置10aの取得部11aに出力する。
翻訳部27は、入力文を翻訳して第2言語による翻訳文を評価装置10aの取得部11aに出力する。ここで、翻訳部27は、例えば、実施の形態1で作成した翻訳モデルを用いて上記の翻訳を行うことができる。この場合、実施の形態1による左右対義誤翻訳の発生自体の抑制に加えて、さらに翻訳結果における左右対義誤翻訳存在可能性の注意喚起が得られるため、より好ましい形態となる。なお、翻訳部27は、例えば、CPU等を備えるコンピュータを翻訳装置として機能させるプログラムを実行することで実現されてもよいし、専用のハードウェア回路により実現されてもよい。
評価装置10aの取得部11aは、対訳データとして、入力文及び翻訳文を翻訳装置20aから取得して評価部12aに出力する。評価部12aは、対訳データの入力文及び翻訳文に含まれる語句に基づき、対訳データが誤訳可能性のある対訳データであるか否かを評価し、評価結果を対訳データとともに出力部13aに出力する。出力部13aは、評価結果に基づく情報として、対訳データごとに誤訳可能性の評価結果を翻訳装置20aの生成部22aに出力する。
なお、取得部11aが取得する対訳データは、実施の形態1の翻訳モデルを用いて作成した対訳データに特に限定されず、入力文を伴う翻訳結果を出力する翻訳装置であれば、任意の翻訳装置の対訳データを使用可能である。この場合、任意の翻訳装置のポストプロセスとして、評価装置10aを配置することで、任意の対訳コーパスでの機械学習モデル生成の不可能な、既成の翻訳装置しか利用できない状況下においても、翻訳結果における左右対義誤翻訳の存在可能性を注意喚起し、翻訳装置の使用者が正しい翻訳内容へ至ることができる。
具体的には、評価部12aは、後述する判定条件1として、入力文に、第1の意味を有する単語及びその対義語が存在し、且つ、翻訳文に、第1の意味を有する単語及びその対義語が存在するか否かを判定する。
また、評価部12aは、後述する判定条件2、3として、入力文に、第1の意味を有する単語及びその対義語のうち一方の第1の単語が存在し且つ他方の第2の単語が存在せず、且つ、翻訳文に、第1の単語の翻訳である第1の翻訳単語が存在せず且つ第2の単語の翻訳である第2の翻訳単語が存在するか否かを判定する。
また、評価部12aは、後述する判定条件4、5として、入力文に、第1の意味を有する単語及びその対義語のうち一方の第1の単語が存在し、且つ、翻訳文に、第1の単語の翻訳である第1の翻訳単語が存在しないか否かを判定する。
なお、評価部12aの判定は、上記の例に特に限定されず、入力文に、第1の意味を有する単語及びその対義語の少なくとも一方が存在するか否か、及び、翻訳文に、第1の意味を有する単語及びその対義語の少なくとも一方が存在するか否かを判定したり、判定条件1〜5の一部を任意に組み合わせたり、他の判定条件を用いたりする等の種々の変更が可能である。また、実施の形態1の判定条件6、7と同様に、入力文に、第1の意味を有する単語及びその対義語のうち一方の第1の単語が存在せず、且つ、翻訳文に、第1の単語の翻訳である第1の翻訳単語が存在するか否かを判定するようにしてもよい。
翻訳装置20aの生成部22aは、評価部12aの評価の結果に基づき、翻訳結果に含まれる左右誤訳可能性等の誤訳可能性を判定し、判定結果に応じたアラート情報を生成して表示部28に出力する。具体的には、生成部22aは、誤訳可能性として第1の可能性を示す第1アラート情報と、誤訳可能性として第1の可能性より高い第2の可能性を示す第2アラート情報とを、アラート情報として生成する。また、生成部22aは、アラート情報に付加して、参考翻訳例を生成する。ここで、本実施の形態では、誤訳可能性は、翻訳結果が翻訳誤りを含む可能性を意味する。
表示部28は、例えば、表示装置等から構成され、生成部22aにより生成された情報、例えば、アラート情報及び参考翻訳例を表示して使用者に誤訳の可能性を警告する。なお、表示部28の構成は、上記の例に特に限定されず、スピーカ等の他の出力機器で構成されてもよい。
次に、上記のように構成された翻訳処理装置1aの翻訳評価処理について説明する。図6は、図5に示す翻訳処理装置1aによる翻訳評価処理の一例を示すフローチャートである。なお、以下の説明では、より具体的な説明のため、第1言語として日本語を採用し、第2言語として英語を採用するが、これは一例であり、他の言語間においても同様な概念で誤訳可能性を評価することにより、アラート情報及び参考翻訳例を表示して使用者に誤訳の可能性を警告することができる。また、下記の評価装置10aの処理は、翻訳装置20aと同じコンピュータ等の構成上で実行されてもよいし、部分的に他のコンピュータ等の構成上で実行されてもよい。また、その一部のステップは、人手作業によって実施されてもよい。
まず、取得部11aは、対訳データとして、入力文及び翻訳文を翻訳装置20aから取得して評価部12aに出力する(ステップS11a)。
次に、評価部12aは、対訳データの入力文及び翻訳文に含まれる語句に基づき対訳文の誤訳可能性を評価する誤訳可能性評価処理を実行し(ステップS12a)、誤訳可能性がない場合は、ステップS13aに処理を移行し、誤訳可能性がある場合は、ステップS14aに処理を移行する。
図7は、図6に示す誤訳可能性評価処理(ステップS12a)の一例を示すフローチャートである。なお、図6に示す誤訳可能性評価処理に用いられる判定条件1〜5は、推奨対処方法を除き、図4に示す左右誤翻訳誘発対訳文判定表T1の判定条件1〜5と同様であるので、図4に示す判定条件1〜5を適宜用いて説明する。
図7に示すように、評価部12aは、図6に示す誤訳可能性評価処理(ステップS12a)として、例えば、左右誤翻訳誘発対訳文該非判定処理(ステップS21a〜25a)を実行する。この左右誤翻訳誘発対訳文該非判定処理は、5段階の判定ステップを経て、判定条件1〜5の各条件に応じて、段階的に左右誤翻訳誘発対訳文を抽出する処理であり、判定結果に応じたアラート情報が生成される。
ここで、判定条件1〜5における日本語文と英語文の該当条件は、既出の図4に示す左右誤翻訳誘発対訳文判定表T1に記載の判定条件1〜5と同一である。なお、本実施の形態では、評価部12aの判定処理に図4に示す判定条件6〜7を用いていないが、これらの条件も加えて構成してもよい。
まず、評価部12aは、対訳データが判定条件1に該当するか否かを判定し(ステップS21a)、対訳データが判定条件1に該当する場合は、図6に示すステップS14aに処理を移行し、対訳データが判定条件1に該当しない場合は、ステップS22aに処理を移行する。
図4の左右誤翻訳誘発対訳文判定表T1に示すように、判定条件1は、日本語文中に「右」及び「左」を含み、且つ英語文中に「right」及び「left」を含むことである。判定条件1に該当する場合の判定結果は、「左右入れ替わり誘発」となる。例えば、「右に曲がると、左に建物があります/Turn right,and there will be a building on the left」という対訳文が判定条件1に該当する。
対訳データが判定条件1に該当しない場合、評価部12aは、対訳データが判定条件2に該当するか否かを判定し(ステップS22a)、対訳データが判定条件2に該当する場合は、図6に示すステップS14aに処理を移行し、対訳データが判定条件2に該当しない場合は、ステップS23aに処理を移行する。
図4の左右誤翻訳誘発対訳文判定表T1に示すように、判定条件2は、対訳データの日本語文中に「右」を含んで「左」を含まず、且つ英語文中に「right」を含まず「left」を含むことである。判定条件2に該当する場合の判定結果は、「対訳ミス」となる。例えば、「階段を正面に見て、右手に曲がります/Looking at the stairs in front of you,turn to the left」という明らかに対訳誤りである対訳文が判定条件2に該当する。
対訳データが判定条件2に該当しない場合、評価部12aは、対訳データが判定条件3に該当するか否かを判定し(ステップS23a)、対訳データが判定条件3に該当する場合は、図6に示すステップS14aに処理を移行し、対訳データが判定条件3に該当しない場合は、ステップS24aに処理を移行する。
図4の左右誤翻訳誘発対訳文判定表T1に示すように、判定条件3は、対訳データの日本語文中に「右」を含まず「左」を含み、且つ英語文中に「right」を含んで「left」を含まないことである。判定条件3に該当する場合の判定結果は、「対訳ミス」となる。例えば「左のほうに、道沿いに花が植えられています/Flowers are planted along the street to the right」という明らかに対訳誤りである対訳文が判定条件3に該当する。
対訳データが判定条件3に該当しない場合、評価部12aは、対訳データが判定条件4に該当するか否かを判定し(ステップS24a)、対訳データが判定条件4に該当する場合は、図6に示すステップS14aに処理を移行し、対訳データが判定条件4に該当しない場合は、ステップS25aに処理を移行する。
図4の左右誤翻訳誘発対訳文判定表T1に示すように、判定条件4は、対訳データの日本語文中に「右」を含み、且つ英語文中に「right」を含まないことであり、このとき、日本語文中の「左」及び英語文中の「left」の有無については判定しない。判定条件4に該当する場合の判定結果は、「意訳」、「慣用句」、又は「対訳ミス」となる。例えば、「右に曲がると、左に建物があります/Turn left,and there will be a building on the left」という明らかに対訳誤りである対訳文が判定条件4に該当する。また、「右に回すと、徐々に明るくなります/If turn clockwise, it gradually brightens」という対訳文も判定条件4に該当する。後者は、対訳としては正しいが、意訳的な表現である。
対訳データが判定条件4に該当しない場合、評価部12aは、対訳データが判定条件5に該当するか否かを判定し(ステップS25a)、対訳データが判定条件5に該当する場合は、図6に示すステップS14aに処理を移行し、対訳データが判定条件5に該当しない場合は、図6に示すステップS13aに処理を移行する。
図4の左右誤翻訳誘発対訳文判定表T1に示すように、判定条件5は、対訳データの日本語文中に「左」を含み、且つ英語文中に「left」を含まないことであり、このとき、日本語文中の「右」及び英語文中の「right」の有無については判定しない。判定条件5に該当する場合の判定結果は、「意訳」、「慣用句」、又は「対訳ミス」となる。例えば、「左に曲がると、右に建物があります/Turn right,and there will be a building on the right」という明らかに対訳誤りである対訳文が判定条件5に該当する。また、「左に回すと、徐々に暗くなります/If turn counterclockwise,it gradually darkens」という対訳文も判定条件5に該当する。後者は、対訳としては正しいが、意訳的な表現である。
再び、図6を参照して、誤訳可能性がない場合、すなわち、上記の判定条件1〜5のいずれにも対訳文が該当しない場合、評価部12aは、対訳文が判定条件1〜5のいずれにも該当しないことを示す評価結果を対訳データとともに出力部13aに出力し、出力部13aは、対訳データを生成部22aに出力し(ステップS13a)、処理をステップS16aに移行する。
一方、誤訳可能性がある場合、すなわち、上記の判定条件1〜5のいずれかに対訳文が該当した場合、評価部12aは、対訳文が該当した判定条件の番号を示す評価結果を対訳データとともに出力部13aに出力し、出力部13aは、対訳文が該当した判定条件の番号を示す付加情報を作成する(ステップS14a)。
次に、出力部13aは、上記の判定条件1〜5いずれかの判定条件に該当した対訳文に、該当する判定条件番号1〜5を対訳文の付帯情報として付与し、対訳データと付加情報とを生成部22aに出力し(ステップS15a)、処理をステップS16aに移行する。
次に、生成部22aは、出力部13aから取得した対訳データに付加情報があるか否かを判断し(ステップS16a)、付加情報がない場合は、処理をステップS31に移行し、付加情報がある場合は、処理をステップS32に移行する。
付加情報がない場合、生成部22aは、対訳データから入力文と翻訳文とを含む画像情報を作成して表示部28に出力し、表示部28は、入力文と翻訳結果(翻訳文)とを含む画面を表示し(ステップS31)、処理を終了する。
一方、付加情報がある場合、すなわち、日本語の入力文と英語の翻訳文とが判定条件1〜5に該当する場合、生成部22aは、付加情報の内容に応じたアラート情報を生成する(ステップS32)。
具体的には、日本語の入力文と英語の翻訳文とが判定条件1に該当する場合、生成部22aは、誤訳可能性として、危険レベルを「1」と判定し、「左及び右を同時に含む入力文では、まれに左右が入れ替わった翻訳結果になる場合がある」こと、及び「左及び右を同時に含まない入力文での翻訳を推奨する」こと等を使用者に通知するアラート情報を生成する。
また、日本語の入力文と英語の翻訳文とが判定条件2〜5に該当する場合、生成部22aは、誤訳可能性として、危険レベルをより可能性が高い「2」と判定し、「翻訳結果中の左及び右の意味が逆転している可能性がある」こと等を使用者に通知するアラート情報を生成する。
なお、生成部22aが生成するアラート情報は、上記の例に特に限定されず、例えば、日本語の入力文と英語の翻訳文とが判定条件6、7に該当する場合、生成部22aは、上記の危険レベル「2」より低い危険レベルと判定し、「誤訳の可能性は非常に低いですが、注意して下さい」等のアラート情報を生成するようにしてもよい。この場合、判定条件2〜5に該当する場合の危険レベルを「3」に変更し、判定条件6、7に該当する場合の危険レベルを「2」で表示してもよく、また、後述する参考翻訳例を表示しないようにしてもよい。
次に、生成部22aは、アラート情報を補足するために、参考翻訳例として、参考翻訳文を作成して表示部28に出力し、表示部28は、入力文と翻訳結果(翻訳文)とアラート情報(参考翻訳文を含む)とを含む画面を表示し(ステップS33)、処理を終了する。なお、参考翻訳文の作成及び表示処理は、必要に応じて省略してもよい。
上記の参考翻訳文の作成処理としては、種々の方法を用いることができ、例えば、生成部22aは、日本語の入力文と類似の別の文章とを参考例文として準備し、参考例文を翻訳部27で翻訳した機械翻訳結果である参考翻訳文とともに表示部28に出力する。生成部22aは、このような参考例文と参考翻訳文とのペアをいくつか生成し、上記のアラート情報に付加する。左右誤翻訳は、入力文の言い回しを換えると、正しく翻訳される場合もあるため、複数の類似文の翻訳結果を並べて提示することは、使用者が翻訳結果を総合的に判断して、正しい意味の翻訳結果に至るのに役立つ。
また、生成部22aは、参考例文を、例えば、日本語の入力文の換言文として作成するようにしてもよい。具体的には、生成部22aは、日本語の入力文を複数の素片に分割し、複数の素片のうちの1又は複数を所定の換言ルールを用いて第1言語の他の表現に換言する(置き換える)ことによって、複数の入力換言文を生成する。
ここで、入力文を複数の素片に分割する手法としては、例えば、入力文を単語ごとに区切る手法が採用される。また、換言ルールとしては、例えば、ALAGIN言語資源の文脈類似語データベース、単語共起頻度データベース、含意関係データベース、上位語階層データベースなどに登録された単語同士の関係を用いることができる。
例えば、入力文を構成する素片に含まれる第1単語を、文脈類似関係にある第2単語で換言したり、入力文を構成する素片に含まれる第1単語を、共起関係にある第2単語に換言したり、入力文を構成する素片に含まれる第1単語を、含意関係にある第2単語に換言したり、入力文を構成する素片に含まれる第1単語を、上位下位関係にある第2単語に換言したりしてもよい。なお、入力文の分割方法や換言ルールは、上記の例に特に限定されず、他の手法やルールが採用されてもよい。
図8は、図5に示す翻訳処理装置1aの表示部28に表示されるアラート情報画面の一例を示す図である。図8に示す表示部28のアラート情報画面D1の翻訳結果表示内容D2は、上記の翻訳評価処理により、判定条件2に該当して表示される基本内容であり、翻訳結果表示内容D2に加えて、参考翻訳結果表示内容D3も併せて表示される。
翻訳結果表示内容D2には、入力文として、「右手にある置物を過ぎると、入り口がございます」、翻訳結果として、「Pass the ornament on the left hand side there is the entrance」が、アラート情報として、「危険レベル:2[誤訳可能性あり]」、「翻訳結果中の左・右の意味が逆転している可能性があります。」及び「参考翻訳例も参照のうえご注意ください。」がそれぞれ表示されている。また、ハイライト表示している「left」は、翻訳結果における誤訳可能性箇所である。なお、翻訳結果表示内容D2において、入力文及び翻訳結果における「左」及び「右」を意味する部位は、太字、アンダーライン、文字色変更、又は、それらの複合適用などでハイライト表示してもよい。
また、参考翻訳結果表示内容D3には、参考例文1として、「右にある置物の前を通っていくと、入り口がございます」が、参考翻訳文1として、「If you’re pass through the ornament on the right side there is the entrance.」が、参考例文2として、「右の置物を通り過ぎます。入り口がございます。」、参考翻訳文2として、「Pass the ornament on the right. There is the entrance.」がそれぞれ表示されている。なお、参考翻訳結果表示内容D3において、参考例文及び参考翻訳文における「左」及び「右」を意味する部位は、太字、アンダーライン、文字色変更、又は、それらの複合適用などでハイライト表示してもよい。
上記の処理により、本実施の形態では、翻訳装置20aから第1言語で記述された入力文と第2言語による翻訳文との組である対訳データを取得し、対訳データが判定条件1〜5のいずれに該当するかの判定結果に基づき、対訳データが誤訳可能性のある対訳データであるか否かを評価し、この評価結果に基づき、アラート情報を生成して表示しているので、使用者は翻訳結果が左右誤翻訳等の翻訳誤りを含むか否かを総合的に判断することができ、使用者が安易に左右誤翻訳等の誤訳を受け入れることを回避することができる。
また、誤訳可能性として第1の可能性を示す第1アラート情報(危険レベル1)と、誤訳可能性として第1の可能性より高い第2の可能性を示す第2アラート情報(危険レベル2)とを、アラート情報として生成しているので、翻訳部27の翻訳結果の左右誤翻訳可能性等の誤訳可能性を段階的に表示することができる。したがって、使用者は翻訳結果が左右誤翻訳等の翻訳誤りを含むか否かを段階的に判断することができ、使用者が安易に左右誤翻訳等の誤訳を受け入れることを確実に回避することができる。
さらに、評価結果に基づき、アラート情報に付加して、参考翻訳例を生成して表示しているので、アラート情報及び参考翻訳例により、使用者は翻訳部27の翻訳結果が左右誤翻訳等の翻訳誤りを含むか否かを総合的に判断することができ、使用者が安易に左右誤翻訳等の誤訳を受け入れることを確実に回避することができる。
この結果、翻訳装置20aの翻訳結果に左右対義誤翻訳等が含まれる可能性がある場合に、その事実を注意喚起することができるため、本実施の形態の翻訳処理装置1aは、左右の誤訳等が致命的になる道案内用途や作業指示用途等の自動翻訳サービスを提供する上で有用である。
なお、上記の各実施の形態では、対義語として、「右」及び「左」を用いた場合を例にしているが、この例に特に限定されず、「上」及び「下」等の他の対義語に対しても、上記と同様の効果を得ることができる。
本開示は、対義語を含む対訳文による誤訳可能性を簡便に且つ適切に評価することができるので、第1言語で記述された入力文と入力文の第2言語への翻訳文とを含む対訳データ(対訳文)を処理する処理方法、処理装置、及び処理プログラムに有用である。
1、1a 翻訳処理装置
10、10a 評価装置
20、20a 翻訳装置
11、11a 取得部
12、12a 評価部
13、13a 出力部
21 対訳コーパス記憶部
22、22a 生成部
23 訓練用対訳コーパス記憶部
24 学習部
25 翻訳モデル記憶部
26 入力部
27 翻訳部
28 表示部

Claims (17)

  1. 第1言語で記述された入力文と前記入力文の第2言語への翻訳文とを含む対訳データを処理する処理装置における処理方法であって、
    前記第1言語で記述された第1文と、前記第2言語による前記第1文の翻訳文である第1翻訳文との組である第1対訳データを取得し、
    前記第1文及び前記第1翻訳文に含まれる語句に基づき、前記第1対訳データが誤訳可能性のある対訳データであるか否かを評価し、
    前記評価の結果に基づく情報を出力し、
    前記評価は、
    (1)前記第1文に、第1の意味を有する単語及びその対義語の少なくとも一方が存在するか否かの第1判定、及び、(2)前記第1翻訳文に、前記第1の意味を有する単語及びその対義語の少なくとも一方が存在するか否かの第2判定、の結果に基づき行われる、
    処理方法。
  2. 前記評価は、
    (1)前記第1文に、第1の意味を有する単語及びその対義語が存在することの第1判定、及び、(2)前記第1翻訳文に、前記第1の意味を有する単語及びその対義語が存在することの第2判定、の結果に基づき行われる、
    請求項1に記載の処理方法。
  3. 前記評価は、
    (1)前記第1文に、第1の意味を有する単語及びその対義語のうち一方の第1の単語が存在し且つ他方の第2の単語が存在しないことの第1判定、及び、(2)前記第1翻訳文に、前記第1の単語の翻訳である第1の翻訳単語が存在せず且つ前記第2の単語の翻訳である第2の翻訳単語が存在することの第2判定、の結果に基づき行われる、
    請求項1に記載の処理方法。
  4. 前記評価は、
    (1)前記第1文に、第1の意味を有する単語及びその対義語のうち一方の第1の単語が存在することの第1判定、及び、(2)前記第1翻訳文に、前記第1の単語の翻訳である第1の翻訳単語が存在しないことの第2判定、の結果に基づき行われる、
    請求項1に記載の処理方法。
  5. 前記評価は、
    (1)前記第1文に、第1の意味を有する単語及びその対義語のうち一方の第1の単語が存在しないことの第1判定、及び、(2)前記第1翻訳文に、前記第1の単語の翻訳である第1の翻訳単語が存在することの第2判定、の結果に基づき行われる、
    請求項1に記載の処理方法。
  6. 前記取得は、
    前記第1対訳データを対訳コーパス記憶部から取得し、前記対訳コーパス記憶部は、前記第1言語で記述された文と、前記第1言語で記述された文の前記第2言語による翻訳文との対を複数含む対訳コーパスを記憶する、
    請求項1に記載の処理方法。
  7. 前記出力は、
    前記評価の結果に基づき、訓練用対訳コーパスを生成する、
    請求項6に記載の処理方法。
  8. 前記出力は、
    前記評価の結果に基づき、前記誤訳可能性のない対訳データを前記訓練用対訳コーパスとして採用し、前記誤訳可能性のある対訳データを前記訓練用対訳コーパスとして採用しないことにより、前記訓練用対訳コーパスを生成する、
    請求項7に記載の処理方法。
  9. 前記出力は、
    前記評価の結果に基づき、前記誤訳可能性のない対訳データを前記訓練用対訳コーパスとして採用し、前記誤訳可能性のある対訳データを前記誤訳可能性がないように修正した修正対訳データを前記訓練用対訳コーパスとして採用することにより、前記訓練用対訳コーパスを生成する、
    請求項7に記載の処理方法。
  10. 前記訓練用対訳コーパスを用いて翻訳モデルを学習する、
    請求項7に記載の処理方法。
  11. 前記取得は
    前記第1文を前記第1翻訳文に翻訳する翻訳装置から前記第1対訳データを取得する、
    請求項1に記載の処理方法。
  12. 前記出力は、
    前記評価の結果に基づき、アラート情報を生成して表示する、
    請求項11に記載の処理方法。
  13. 前記出力は、
    前記評価の結果に基づき、前記アラート情報として、前記誤訳可能性として第1の可能性を示す第1アラート情報と、前記誤訳可能性として前記第1の可能性より高い第2の可能性を示す第2アラート情報とを生成する、
    請求項12に記載の処理方法。
  14. 前記出力は、
    前記評価の結果に基づき、前記アラート情報に付加して、参考翻訳例を生成して表示する、
    請求項12に記載の処理方法。
  15. 前記第1文又は前記第1翻訳文に含まれる語句は、「右」又「左」である、
    請求項1に記載の処理方法。
  16. 第1言語で記述された入力文と前記入力文の第2言語への翻訳文とを含む対訳データを処理する処理装置であって、
    前記第1言語で記述された第1文と、前記第2言語による前記第1文の翻訳文である第1翻訳文との組である第1対訳データを取得する取得部と、
    前記第1文及び前記第1翻訳文に含まれる語句に基づき、前記第1対訳データが誤訳可能性のある対訳データであるか否かを評価する評価部と、
    前記評価の結果に基づく情報を出力する出力部とを備え、
    前記評価部は、(1)前記第1文に、第1の意味を有する単語及びその対義語の少なくとも一方が存在するか否かの第1判定、及び、(2)前記第1翻訳文に、前記第1の意味を有する単語及びその対義語の少なくとも一方が存在するか否かの第2判定、の結果に基づき、前記第1対訳データが誤訳可能性のある対訳データであるか否かを評価する、
    処理装置。
  17. 第1言語で記述された入力文と前記入力文の第2言語への翻訳文とを含む対訳データを処理する処理装置として、コンピュータを機能させるための処理プログラムであって、
    前記コンピュータに、
    前記第1言語で記述された第1文と、前記第2言語による前記第1文の翻訳文である第1翻訳文との組である第1対訳データを取得し、
    前記第1文及び前記第1翻訳文に含まれる語句に基づき、前記第1対訳データが誤訳可能性のある対訳データであるか否かを評価し、
    前記評価の結果に基づく情報を出力する、
    処理を実行させ、
    前記評価は、
    (1)前記第1文に、第1の意味を有する単語及びその対義語の少なくとも一方が存在するか否かの第1判定、及び、(2)前記第1翻訳文に、前記第1の意味を有する単語及びその対義語の少なくとも一方が存在するか否かの第2判定、の結果に基づき行われる、
    処理プログラム。
JP2017119766A 2017-06-19 2017-06-19 処理方法、処理装置、及び処理プログラム Active JP6775202B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017119766A JP6775202B2 (ja) 2017-06-19 2017-06-19 処理方法、処理装置、及び処理プログラム
US15/962,628 US10402497B2 (en) 2017-06-19 2018-04-25 Processing method, processing apparatus, and recording medium
CN201810584251.7A CN109145311B (zh) 2017-06-19 2018-06-08 处理方法、处理装置以及处理程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017119766A JP6775202B2 (ja) 2017-06-19 2017-06-19 処理方法、処理装置、及び処理プログラム

Publications (2)

Publication Number Publication Date
JP2019003552A true JP2019003552A (ja) 2019-01-10
JP6775202B2 JP6775202B2 (ja) 2020-10-28

Family

ID=64658119

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017119766A Active JP6775202B2 (ja) 2017-06-19 2017-06-19 処理方法、処理装置、及び処理プログラム

Country Status (3)

Country Link
US (1) US10402497B2 (ja)
JP (1) JP6775202B2 (ja)
CN (1) CN109145311B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020140709A (ja) * 2019-02-26 2020-09-03 株式会社リコー ニューラル機械翻訳モデルの訓練方法、装置及び記憶媒体

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6775202B2 (ja) * 2017-06-19 2020-10-28 パナソニックIpマネジメント株式会社 処理方法、処理装置、及び処理プログラム
US20230169388A1 (en) * 2018-06-22 2023-06-01 Meta Platforms, Inc. Systems and methods for training a machine learning model for a second language based on a machine learning model for a first language
CN113947092A (zh) * 2020-07-16 2022-01-18 阿里巴巴集团控股有限公司 一种翻译方法及装置
JP7164651B2 (ja) * 2020-09-07 2022-11-01 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 翻訳方法、装置、電子機器及びコンピュータプログラム製品
KR102418873B1 (ko) * 2021-08-24 2022-07-08 아부하킴 주식회사 아랍어 사용자를 위한 인터페이스 변환 기술에 기초한 전자 상거래 서비스 제공 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148756A (ja) * 1998-11-12 2000-05-30 Matsushita Electric Ind Co Ltd 対訳文誤り検出装置
JP2005092253A (ja) * 2003-09-11 2005-04-07 Fuji Xerox Co Ltd 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム
US20120284015A1 (en) * 2008-01-28 2012-11-08 William Drewes Method for Increasing the Accuracy of Subject-Specific Statistical Machine Translation (SMT)
JP2014505939A (ja) * 2011-01-05 2014-03-06 グーグル・インコーポレーテッド テキスト入力を容易にするための方法およびシステム
US20140172411A1 (en) * 2012-12-17 2014-06-19 Electronics And Telecommunications Research Institute Apparatus and method for verifying context
JP2017058865A (ja) * 2015-09-15 2017-03-23 株式会社東芝 機械翻訳装置、機械翻訳方法および機械翻訳プログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0715691B2 (ja) * 1988-09-22 1995-02-22 日本電気株式会社 自動翻訳装置
US7539619B1 (en) * 2003-09-05 2009-05-26 Spoken Translation Ind. Speech-enabled language translation system and method enabling interactive user supervision of translation and speech recognition accuracy
EP1784746A1 (en) * 2004-08-31 2007-05-16 Techmind S.R.L. Method for automatic translation from a first language to a second language and/or for processing functions in integrated-circuit processing units, and apparatus for performing the method
CN100474301C (zh) * 2005-09-08 2009-04-01 富士通株式会社 基于数据挖掘获取词或词组单元译文信息的系统和方法
CN101187922A (zh) * 2006-11-17 2008-05-28 徐赞国 精确机器翻译的方法及其装置
WO2009149549A1 (en) * 2008-06-09 2009-12-17 National Research Council Of Canada Method and system for using alignment means in matching translation
JP2013114433A (ja) * 2011-11-28 2013-06-10 Toshiba Corp 電子機器及び機械翻訳方法
KR102115645B1 (ko) * 2013-06-03 2020-05-26 엠지 아이피 홀딩스, 엘엘씨 다중 사용자 다중 언어 통신 시스템 및 방법
JP2016194822A (ja) 2015-03-31 2016-11-17 株式会社エクシング サーバシステム及びそのプログラム、並びにエラーチェック方法
JP6583686B2 (ja) * 2015-06-17 2019-10-02 パナソニックIpマネジメント株式会社 意味情報生成方法、意味情報生成装置、およびプログラム
KR102251832B1 (ko) * 2016-06-16 2021-05-13 삼성전자주식회사 번역 서비스를 제공하는 전자 장치 및 방법
JP6775202B2 (ja) * 2017-06-19 2020-10-28 パナソニックIpマネジメント株式会社 処理方法、処理装置、及び処理プログラム
JP7030434B2 (ja) * 2017-07-14 2022-03-07 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 翻訳方法、翻訳装置及び翻訳プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148756A (ja) * 1998-11-12 2000-05-30 Matsushita Electric Ind Co Ltd 対訳文誤り検出装置
JP2005092253A (ja) * 2003-09-11 2005-04-07 Fuji Xerox Co Ltd 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム
US20120284015A1 (en) * 2008-01-28 2012-11-08 William Drewes Method for Increasing the Accuracy of Subject-Specific Statistical Machine Translation (SMT)
JP2014505939A (ja) * 2011-01-05 2014-03-06 グーグル・インコーポレーテッド テキスト入力を容易にするための方法およびシステム
US20140172411A1 (en) * 2012-12-17 2014-06-19 Electronics And Telecommunications Research Institute Apparatus and method for verifying context
JP2017058865A (ja) * 2015-09-15 2017-03-23 株式会社東芝 機械翻訳装置、機械翻訳方法および機械翻訳プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
隅田 英一郎 外2名: "機械翻訳システム評価法の最前線", 情報処理, vol. 第46巻第5号, JPN6020034823, 15 May 2005 (2005-05-15), JP, pages 552 - 557, ISSN: 0004346662 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020140709A (ja) * 2019-02-26 2020-09-03 株式会社リコー ニューラル機械翻訳モデルの訓練方法、装置及び記憶媒体

Also Published As

Publication number Publication date
CN109145311B (zh) 2024-04-26
JP6775202B2 (ja) 2020-10-28
CN109145311A (zh) 2019-01-04
US20180365234A1 (en) 2018-12-20
US10402497B2 (en) 2019-09-03

Similar Documents

Publication Publication Date Title
JP2019003552A (ja) 処理方法、処理装置、及び処理プログラム
Derczynski et al. Microblog-genre noise and impact on semantic annotation accuracy
US10762293B2 (en) Using parts-of-speech tagging and named entity recognition for spelling correction
US9916306B2 (en) Statistical linguistic analysis of source content
JP2018037095A (ja) フレーズに基づく辞書抽出及び翻訳品質評価
US9646512B2 (en) System and method for automated teaching of languages based on frequency of syntactic models
WO2003065245A1 (fr) Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur
US20180260390A1 (en) Translation assistance system, translation assitance method and translation assistance program
JP2018206356A (ja) 翻訳情報提供方法、翻訳情報提供プログラム、及び翻訳情報提供装置
US20190303437A1 (en) Status reporting with natural language processing risk assessment
CN107870900B (zh) 提供翻译文的方法、装置以及记录介质
Ganfure et al. Design and implementation of morphology based spell checker
US10878189B2 (en) Method for correcting a mistyped word resulting from at least one of an inaccurate keyboard input and a wrong keyboard layout and system implementing thereof
US20180341646A1 (en) Translated-clause generating method, translated-clause generating apparatus, and recording medium
Sharma et al. Word prediction system for text entry in Hindi
JP2017010274A (ja) 対応付け装置及びプログラム
WO2015162464A1 (en) Method and system for generating a definition of a word from multiple sources
US20120265520A1 (en) Text processor and method of text processing
JP5911931B2 (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
Liu et al. A hybrid ranking approach to Chinese spelling check
Naemi et al. Informal-to-formal word conversion for persian language using natural language processing techniques
AlShenaifi et al. ARIB@ QALB-2015 shared task: a hybrid cascade model for Arabic spelling error detection and correction
CN106776533B (zh) 用于分析一段文本的方法和系统
JP2010170303A (ja) 機械翻訳装置及びプログラム
Fan et al. Automatic extraction of bilingual terms from a chinese-japanese parallel corpus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200106

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200909

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200915

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200918

R151 Written notification of patent or utility model registration

Ref document number: 6775202

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151