JP2022057482A

JP2022057482A - 後編集支援システム、後編集支援方法、後編集支援装置、およびコンピュータプログラム

Info

Publication number: JP2022057482A
Application number: JP2020165761A
Authority: JP
Inventors: 充弘土屋; Mitsuhiro Tsuchiya
Original assignee: Ngb Co Ltd
Current assignee: Ngb Co Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2022-04-11

Abstract

【課題】ニューラル機械翻訳モデルを用いて機械翻訳されたテキストに対する後編集作業の負担を軽減する。
【解決手段】翻訳装置１１は、第一言語で記述された第一テキストＴ１を、ニューラル機械翻訳モデル１１１を用いて当該第一言語とは異なる第二言語で記述された第二テキストＴ２に翻訳する。第二テキストＴ２に含まれる複数の相違する訳語が第一テキストＴ１に含まれる一つの原語に対応付けられている場合、後編集支援装置１２は、当該複数の相違する訳語に含まれる一つの訳語で当該複数の訳語に含まれる残りの訳語が置き換えられた第三テキストＴ３を生成し、第三テキストＴ３を編集可能な状態で表示装置１３に表示させる。
【選択図】図１

Description

本発明は、機械翻訳されたテキストに対する後編集を支援するためのシステムおよび方法に関連する。本発明は、機械翻訳されたテキストに対する後編集を支援するように構成された装置、および当該装置の処理部により実行可能なコンピュータプログラムにも関連する。

特許文献１に開示されているように、ニューラル機械翻訳モデルの普及が進んでいる。ニューラル機械翻訳モデルは、ニューラルネットワークを直接的に用いてエンドツーエンド方式で翻訳モデリングを行なう機械翻訳方法である。ニューラル機械翻訳モデルは、原文の受け付けから訳文の出力までを一貫したモデルとして学習するので、従来の統計的機械翻訳と比べて翻訳精度と訳文の流暢さに優れていることが知られている。

特開２０２０－１４０７０９号明細書

しかしながら、機械翻訳されたテキスト中の誤訳の有無をチェックし、必要に応じて編集を行なう者（いわゆるポストエディタ）にとっては、人により翻訳されたテキストをチェックする場合とは異質の負担が強いられる場合がある。

例えば、ニューラル機械翻訳モデルを用いて機械翻訳されたテキストには、原テキストにおける特定の原語に複数の訳語が対応付けられているという現象が頻繁に見られる。人により翻訳されたテキストにおいてこのような訳語の不統一が見られることは少ないので、ポストエディタは、本来であれば必要のない点に注意を払う必要がある。ニューラル機械翻訳モデルの場合、ルールベースの統計的機械翻訳に見られる入力と出力の因果関係を特定することが原理的に困難であるので、訳語の不統一の発生は、「ニューラル機械翻訳モデルに特有の挙動」として受け入れられているのが現状である。

本発明の目的は、ニューラル機械翻訳モデルを用いて機械翻訳されたテキストに対する後編集作業の負担を軽減することである。

上記の目的を達成するための一態様は、後編集支援システムであって、
第一言語で記述された第一テキストを、ニューラル機械翻訳モデルを用いて当該第一言語とは異なる第二言語で記述された第二テキストに翻訳する翻訳装置と、
前記第二テキストに含まれる複数の相違する訳語が前記第一テキストに含まれる一つの原語に対応付けられている場合、当該複数の相違する訳語に含まれる一つの訳語で当該複数の訳語に含まれる残りの訳語が置き換えられた第三テキストを生成し、当該第三テキストを編集可能な状態で表示装置に表示させる後編集支援装置と、
を備えている。

上記の目的を達成するための一態様は、後編集支援方法であって、
第一言語で記述された第一テキストを、ニューラル機械翻訳モデルを用いて当該第一言語とは異なる第二言語で記述された第二テキストに翻訳するステップと、
前記第二テキストに含まれる複数の相違する訳語が前記第一テキストに含まれる一つの原語に対応付けられているかを判断するステップと、
前記複数の訳語が前記一つの原語に対応付けられていると判断された場合、当該複数の相違する訳語に含まれる一つの訳語で当該複数の訳語に含まれる残りの訳語が置き換えられた第三テキストを生成するステップと、
前記第三テキストを編集可能な状態で表示装置に表示させるステップと、
を備えている。

上記の目的を達成するための一態様は、後編集支援装置であって、
第一言語で記述された第一テキストを受け付ける第一受付部と、
ニューラル機械翻訳モデルを用いて前記第一言語とは異なる第二言語で記述された第二テキストに翻訳する翻訳装置から当該第二テキストを受け付ける第二受付部と、
前記第二テキストに含まれる複数の相違する訳語が前記第一テキストに含まれる一つの原語に対応付けられている場合、当該複数の相違する訳語に含まれる一つの訳語で当該複数の訳語に含まれる残りの訳語が置き換えられた第三テキストを生成し、当該第三テキストを編集可能な状態で表示装置に表示させる処理部と、
を備えている。

上記の目的を達成するための一態様は後編集支援装置の処理部により実行可能なコンピュータプログラムであって、
実行されることにより、前記後編集支援装置に
第一言語で記述された第一テキストを受け付けさせ、
ニューラル機械翻訳モデルを用いて前記第一言語とは異なる第二言語で記述された第二テキストに翻訳する翻訳装置から当該第二テキストを受け付けさせ、
前記第二テキストに含まれる複数の相違する訳語が前記第一テキストに含まれる一つの原語に対応付けられているかを判断させ、
前記複数の訳語が前記一つの原語に対応付けられていると判断された場合、当該複数の相違する訳語に含まれる一つの訳語で当該複数の訳語に含まれる残りの訳語が置き換えられた第三テキストを生成させ、
前記第三テキストを編集可能な状態で表示装置に表示させる。

上記の各態様に係る構成によれば、翻訳装置において使用されるニューラル機械翻訳モデルに依らず、訳語の統一がなされた第三テキストが表示装置における表示に供される。これにより、ポストエディタは、「訳文において訳語が統一されていない虞がある」という観点に基づく注意を払う必要性から解放される。したがって、ニューラル機械翻訳モデルを用いて機械翻訳されたテキストに対する後編集作業の負担を軽減できる。

一実施形態に係る後編集支援システムの機能構成を例示している。図１の後編集支援装置において実行される処理の流れを例示している。図１の翻訳装置により出力される第二テキストを例示している。図１の表示装置に表示される第三テキストの一例を示している。図１の後編集支援装置において実行される処理の流れを例示している。図１の後編集支援装置において実行される処理の流れを例示している。図５と図６に例示された処理を説明するための例を示している。図１の表示装置に表示される第三テキストの別例を示している。図８の第三テキストに対して行なわれる後編集処理を例示している。図８の第三テキストに対して行なわれる後編集処理を例示している。図８の第三テキストに対して行なわれる後編集処理を例示している。

添付の図面を参照しつつ、実施形態の例について以下詳細に説明する。図１は、一実施形態に係る後編集支援システム１０の機能構成を例示している。後編集支援システム１０は、翻訳装置１１、後編集支援装置１２、および表示装置１３を含んでいる。

翻訳装置１１は、第一言語で記述された第一テキストＴ１を、ニューラル機械翻訳モデル１１１を用いて当該第一言語とは異なる第二言語で記述された第二テキストＴ２に翻訳するように構成されている。すなわち、第一テキストＴ１は原文を含んでおり、第二テキストＴ２は訳文を含んでいる。第一言語と第二言語の組合せは、ニューラル機械翻訳モデル１１１がサポートしている複数の言語から任意に選択されうる。第一言語は、例えば日本語である。第二言語は、例えば英語である。

ニューラル機械翻訳モデル１１１の例としては、系列－系列（seq2seq）モデル、畳み込み系列－系列（ConvS2S）モデル、SliceNetモデル、Transformerモデル、（ＲＮＭＴ＋）モデルなどが挙げられる。ニューラル機械翻訳モデル１１１は、エンドツーエンド方式で翻訳モデリングを行なう方式に基づいているのであれば、市販されているかは問わない。ニューラル機械翻訳モデル１１１は、通信ネットワークを介して無償または有償で利用可能とされているものを含む。

ニューラル機械翻訳モデル１１１は、特定の分野に固有の語句や表現の翻訳精度を高めるためのアダプテーションが施された学習済みモデルを含みうる。例えば、知的財産に関連した書類、投資家向け広報活動（ＩＲ）に関連した書類、法令に関連した書類、製品マニュアルなどにおいては、定型的な表現や文章が繰り返される傾向にある。ニューラル機械翻訳モデル１１１は、そのような傾向を有する文章を翻訳するための学習済みモデルを含むことが好ましい。

翻訳装置１１により機械翻訳された結果としての第二テキストＴ２は、誤訳、脱訳、重複訳などを含みうる。したがって、そのような誤りを人手によって発見し、訂正する作業が行なわれることが一般的である。当該作業は、後編集（ポストエディット）と呼ばれている。後編集を行なう者は、ポストエディタと呼ばれることがある。

後編集支援装置１２は、ポストエディタによる後編集を支援するための装置である。後編集支援装置１２は、第一受付部１２１、第二受付部１２２、処理部１２３、出力部１２４、および編集受付部１２５を備えている。

第一受付部１２１は、第一テキストＴ１を入力データとして受け付けるインターフェースとして構成されている。当該インターフェースは、物理的なインターフェースであってもよいし、論理的なインターフェースであってもよい。

第二受付部１２２は、翻訳装置１１から出力された第二テキストＴ２を入力データとして受け付けるインターフェースとして構成されている。当該インターフェースは、物理的なインターフェースであってもよいし、論理的なインターフェースであってもよい。

処理部１２３は、第二テキストＴ２に含まれる複数の相違する訳語が第一テキストＴ１に含まれる一つの原語に対応付けられている場合、当該複数の相違する訳語に含まれる一つの訳語で当該複数の相違する訳語に含まれる残りの訳語が置き換えられた第三テキストＴ３を生成するように構成されている。本処理の詳細については後述する。

加えて、処理部１２３は、第三テキストＴ３を編集可能な状態で表示装置１３に表示させるように構成されている。具体的には、処理部１２３は、第三テキストＴ３に対応するデータを出力部１２４から出力する。表示装置１３は、出力部１２４から出力されたデータに基づいて、第三テキストＴ３を表示するための画面を備えている。

ポストエディタは、表示装置１３に表示された第三テキストＴ３の内容をチェックし、必要に応じて後編集を行なう。編集受付部１２５は、後編集に対応する入力を受け付けるインターフェースとして構成されている。当該入力は、キーボード、マウス、タッチパネル、タッチパッドなどの適宜のマンマシンインターフェースを介してなされてもよいし、音声認識技術やジェスチャ認識技術を介してなされてもよい。

処理部１２３は、編集受付部１２５により受付けられた後編集の内容を、第三テキストＴ３に反映させる処理を実行するように構成されている。処理部１２３は、後処理が反映された第三テキストＴ３に対応するデータを出力部１２４から出力し、後処理後の第三テキストＴ３を表示装置１３に表示させるように構成されている。

図２から図４を参照しつつ、処理部１２３によって実行される上記の処理について具体的に説明する。

処理部１２３は、第一受付部１２１を通じて第一テキストＴ１を受け付ける（ＳＴＥＰ１１）。本明細書で用いられる「第一テキストＴ１を受け付ける」という表現は、第一テキストＴ１に対応するデータを受け付けることを含む意味である。第一テキストＴ１を受け付けるタイミングは、翻訳装置１１によって第一テキストＴ１が第二テキストＴ２に翻訳される前であってもよいし、後であってもよい。

続いて、処理部１２３は、第二受付部１２２を通じて翻訳装置１１から第二テキストＴ２を受け付ける（ＳＴＥＰ１２）。本明細書で用いられる「第二テキストＴ２を受け付ける」という表現は、第二テキストＴ２に対応するデータを受け付けることを含む意味である。ＳＴＥＰ１１の処理とＳＴＥＰ１２の処理は、並行して行なわれてもよいし、順序が逆にされてもよい。

続いて、処理部１２３は、第二テキストＴ２に含まれる複数の相違する訳語が第一テキストＴ１に含まれる一つの原語に対応付けられているかを判断する（ＳＴＥＰ１３）。前述のように、ニューラル機械翻訳モデルを用いて生成された訳文においては、同じ言語に対して複数の相違する訳語が規則性なく割り当てられる場合がある。本処理は、このような訳語の不統一状態を検出するために行なわれる。

図３は、翻訳装置１１に入力された第一テキストＴ１に基づいて翻訳された第二テキストＴ２を例示している。本例においては、第一テキストＴ１に含まれる「発光素子」という原語に対して、「light emitting element」、「light emitter」、および「photo emitting element」という相違する訳語が割り当てられている（文番号１、２、５、６）。また、第一テキストＴ１に含まれる「検出され」という原語に対して、「sensed」と「detected」という相違する訳語が割り当てられている（文番号３、５）。したがって、処理部１２３は、第二テキストに含まれる複数の相違する訳語が第一テキストＴ１に含まれる一つの原語に対応付けられていると判断する（ＳＴＥＰ１３においてＹＥＳ）。

この場合、処理部１２３は、第三テキストＴ３を生成する処理を行なう（ＳＴＥＰ１４）。第三テキストＴ３においては、第二テキストＴ２に含まれる複数の相違する訳語のうちの一つで残りの訳語が置き換えられることにより、訳語の統一がなされている。なお、本明細書で用いられる「第三テキストＴ３を生成する」という表現は、第三テキストＴ３に対応するデータを生成することを含む意味である。訳語の置き換えに係る規則については後述する。

図４は、図３に例示される第二テキストＴ２に基づいて生成された第三テキストＴ３を例示している。第三テキストＴ３においては、第一テキストＴ１に含まれる「発光素子」という原語に対して「light emitting element」という訳語のみが割り当てられている。すなわち、「light emitter」と「photo emitting element」が「light emitting element」により置き換えられている。「light emitting element」は、複数の相違する訳語に含まれる一つの訳語の一例である。「light emitter」と「photo emitting element」は、複数の相違する訳語に含まれる残りの訳語の一例である。

同様に、第三テキストＴ３においては、第一テキストＴ１に含まれる「検出され」という原語に対して「sensed」という訳語のみが割り当てられている。すなわち、「detected」が「sensed」により置き換えられている。「sensed」は、複数の相違する訳語に含まれる一つの訳語の一例である。「detected」は、複数の相違する訳語に含まれる残りの訳語の一例である。

続いて、処理部１２３は、表示装置１３に第三テキストＴ３を表示させるデータを、出力部１２４から出力する（ＳＴＥＰ１５）。当該データを受け付けた表示装置１３は、第三テキストＴ３を表示する。表示装置１３における第三テキストＴ３の表示態様は、適宜に定められうる。例えば、図４に例示されるように、第一テキストＴ１における原文と第三テキストＴ３における訳文が文単位で対応付けられた表形式で表示されうる。あるいは、第三テキストＴ３のみが表示に供されてもよい。

ポストエディタは、表示装置１３に表示された第三テキストＴ３に対し、必要に応じて後編集を行なう。前述の通り、処理部１２３は、編集受付部１２５を通じて後処理に対応する入力を受け付け、後編集の内容を第三テキストＴ３に反映させる。処理部１２３は、後処理が反映された第三テキストＴ３に対応するデータを出力部１２４から出力し、後処理後の第三テキストＴ３を表示装置１３に表示させる。

第二テキストＴ２に含まれる複数の相違する訳語が第一テキストＴ１に含まれる一つの原語に対応付けられていないと判断された場合（ＳＴＥＰ１３においてＮＯ）、すなわち第二テキストＴ２において訳語の統一がなされていると判断された場合、処理部１２３は、表示装置１３に編集可能な状態で第二テキストＴ２を表示させるデータを、出力部１２４から出力する（ＳＴＥＰ１６）。当該データを受け付けた表示装置１３は、第二テキストＴ２を表示する。表示装置１３における第二テキストＴ２の表示態様は、適宜に定められうる。例えば、図３に例示されるように、第一テキストＴ１における原文と第二テキストＴ２における訳文が文単位で対応付けられた表形式で表示されうる。あるいは、第二テキストＴ２のみが表示に供されてもよい。

上記のような構成によれば、翻訳装置１１において使用されるニューラル機械翻訳モデルに依らず、訳語の統一がなされた第三テキストＴ３が表示装置１３における表示に供される。これにより、ポストエディタは、「訳文において訳語が統一されていない虞がある」という観点に基づく注意を払う必要性から解放される。したがって、ニューラル機械翻訳モデルを用いて機械翻訳されたテキストに対する後編集作業の負担を軽減できる。

図５と図６を参照しつつ、第三テキストＴ３の生成が必要であるかを判断するために処理部１２３により実行される具体的な処理の一例を説明する。

図５に例示されるように、処理部１２３は、第一テキストＴ１に含まれる複数の原文と第二テキストＴ２に含まれる複数の訳文の各々に通し番号を付与する（ＳＴＥＰ２１）。

例えば、処理部１２３は、第一受付部１２１により受け付けられた第一テキストＴ１に対応するデータに基づいて、第一テキストＴ１に含まれる句点を検出する。句点が検出される度に当該句点で終了する原文に連続する番号を付与することにより、第一テキストＴ１に含まれる複数の原文に通し番号が付与される。

同様に、処理部１２３は、第二受付部１２２により受け付けられた第二テキストＴ２に対応するデータに基づいて、第二テキストＴ２に含まれる終止符を検出する。終止符が検出される度に当該終止符で終了する訳文に連続する番号を付与することにより、第二テキストＴ２に含まれる複数の訳文に通し番号が付与される。

句点と終止符は原則として一致するので、ある原文とその訳文は、図３に例示されるように同じ文番号により対応付けられる。

続いて、処理部１２３は、第一テキストＴ１に含まれる各原文に対して形態素解析を適用する（ＳＴＥＰ２２）。これにより、各原文において形態素に対応しうる複数の原語が抽出される。このとき、抽出される原語の品詞を限定してもよい。例えば、名詞、動詞、形容詞、および副詞に限って原語の抽出がなされることにより、処理部１２３における処理負荷と処理時間の増大を抑制できる。

続いて、処理部１２３は、形態素解析を通じて抽出された全ての原語に対して通し番号Ｎを付与する（ＳＴＥＰ２３）。処理部１２３は、抽出された各原語に対し、通し番号Ｎとともにフラグを割り当てる。例えば、フラグの初期値は０（オフ状態）とされる。以降の説明は、第一テキストＴ１全体を通じてｎ個の原語が抽出された場合について行なう。

続いて、処理部１２３は、フラグがオフ状態である原語のうち最小の通し番号Ｎminが付与されている原語を特定する（ＳＴＥＰ２４）。処理の開始時においては、全てのフラグがオフ状態であるので、１番目の原語が特定される。

続いて、処理部１２３は、ＳＴＥＰ２４で特定された原語に最後の通し番号（Ｎ＝ｎ）が付与されているかを判断する（ＳＴＥＰ２５）。１番目の原語に最後の通し番号が付与されていることは通常あり得ないので（ＳＴＥＰ２５においてＮＯ）、処理部１２３は、通し番号が（Ｎmin＋１）である原語を特定する（ＳＴＥＰ２６）。処理の開始時においては、２番目の原語が特定される。

続いて、処理部１２３は、ＳＴＥＰ２４で特定された原語とＳＴＥＰ２６で特定された原語が同じ語であるかを判断する（ＳＴＥＰ２７）。

両原語が相違している場合（ＳＴＥＰ２７においてＮＯ）、処理部１２３は、ＳＴＥＰ２７の判断に供された原語に最後の通し番号（Ｎ＝ｎ）が付与されているかを判断する（ＳＴＥＰ２８）。

ＳＴＥＰ２７の判断に供された原語に最後の通し番号が付与されていない場合（ＳＴＥＰ２８においてＮＯ）、処理部１２３は、処理をＳＴＥＰ２６に戻す。すなわち、３番目の原語が特定される。その後、処理部１２３は、最後の通し番号が付与された原語がＳＴＥＰ２７の判断に供されるまで、ＳＴＥＰ２６からＳＴＥＰ２８の処理を繰り返す。

ＳＴＥＰ２７の判断に供された原語に最後の通し番号が付与されている場合（ＳＴＥＰ２８においてＹＥＳ）、処理部１２３は、通し番号Ｎminが付与された原語に割り当てられているフラグの値を１（オン状態）にする（ＳＴＥＰ２９）。

続いて、処理部１２３は、全てのフラグがオン状態であるかを判断する（ＳＴＥＰ３０）。全てのフラグがオン状態である場合（ＳＴＥＰ３０においてＹＥＳ）、処理は終了する。全てのフラグがオン状態でない場合（ＳＴＥＰ３０においてＮＯ）、処理部１２３は、処理をＳＴＥＰ２４に戻す。

次に特定された最小の通し番号Ｎminが付与された原語が、最後の通し番号が付与された原語である場合（ＳＴＥＰ２５においてＹＥＳ）、同じ語が存在するかの判断は不要であるので、処理部１２３は、当該原語に割り当てられているフラグの値を１（オン状態）にする（ＳＴＥＰ２９）。

ＳＴＥＰ２４で特定された原語（Ｎ＝Ｎmin）とＳＴＥＰ２６で特定された原語（Ｎ＝Ｎmin＋１）が同じ語であると判断された場合（ＳＴＥＰ２７においてＹＥＳ）、図６に例示されるように、処理部１２３は、通し番号Ｎmin＋１が付与された原語に割り当てられたフラグの値を１（オン状態）にする（ＳＴＥＰ３１）。

続いて、処理部１２３は、通し番号Ｎminが付与された原語を含んでいる原文と同じ文番号が付与された訳文を、第二テキストＴ２から特定する（ＳＴＥＰ３２）。同様に、処理部１２３は、通し番号Ｎmin＋１が付与された原語を含んでいる原文と同じ文番号が付与された訳文を、第二テキストＴ２から特定する。

続いて、処理部１２３は、ＳＴＥＰ３２において特定された訳文に形態素解析が適用済みであるかを判断する（ＳＴＥＰ３３）。

ＳＴＥＰ３２において特定された訳文に形態素解析が適用済みでない場合（ＳＴＥＰ３３においてＮＯ）、処理部１２３は、当該訳文に形態素解析を適用する（ＳＴＥＰ３４）。これにより、当該訳文において形態素に対応しうる複数の訳語が抽出される。このとき、抽出される原語の品詞を限定してもよい。例えば、名詞、動詞、形容詞、および副詞に限って訳語の抽出がなされることにより、処理部１２３における処理負荷と処理時間の増大を抑制できる。

ＳＴＥＰ３２において特定された訳文に形態素解析が適用済みである場合（ＳＴＥＰ３３においてＹＥＳ）、処理部１２３は、ＳＴＥＰ３４をスキップする。

続いて、処理部１２３は、形態素解析を通じて抽出された複数の訳語から通し番号Ｎminが付与された原語に対応する訳語を特定する（ＳＴＥＰ３５）。同様に、処理部１２３は、形態素解析を通じて抽出された複数の訳語から通し番号Ｎmin＋１が付与された原語に対応する訳語を特定する。図１に例示されるように、処理部１２３は、辞書データベース１４を参照して訳語を特定するように構成されている。辞書データベース１４は、通信ネットワークを介して無償または有償で利用可能とされているものであってもよいし、ルールベースの翻訳エンジンの一部として提供されているものであってもよい。

続いて、処理部１２３は、通し番号Ｎminが付与された原語に対応する訳語と、通し番号Ｎmin＋１が付与された原語に対応する訳語とが一致しているかを判断する（ＳＴＥＰ３６）。

通し番号Ｎminが付与された原語に対応する訳語と、通し番号Ｎmin＋１が付与された原語に対応する訳語とが一致していない場合（ＳＴＥＰ３６においてＮＯ）、処理部１２３は、相違する複数の訳語を含むリストに対応するデータを作成する（ＳＴＥＰ３７）。

通し番号Ｎminが付与された原語に対応する訳語と、通し番号Ｎmin＋１が付与された原語に対応する訳語とが一致している場合（ＳＴＥＰ３６においてＹＥＳ）、処理部１２３は、処理を図５のＳＴＥＰ２８へ進める。

図５と図６を参照して説明した上記の処理を理解するために、図７に簡単な例を示す。本例においては、図５のＳＴＥＰ２１からＳＴＥＰ２３の処理を通じて、第一テキストＴ１において三つの原文と六つの原語が特定されている（ｎ＝６）。

前述の通り、処理の開始時においては全ての通し番号についてフラグがオフ状態とされているので、通し番号Ｎ＝１が付与された原語Ａが特定される（ＳＴＥＰ２４）。通し番号Ｎ＝１は最後の通し番号ではないので（ＳＴＥＰ２５においてＮＯ）、通し番号Ｎ＝２が付与された原語Ｂが続いて特定される（ＳＴＥＰ２６）。

通し番号Ｎ＝１が付与された原語Ａと通し番号Ｎ＝２が付与された原語Ｂは相違しており（ＳＴＥＰ２７においてＮＯ）、かつ通し番号Ｎ＝２は最後の通し番号ではないので（ＳＴＥＰ２８においてＮＯ）、処理はＳＴＥＰ２６に戻る。すなわち、通し番号Ｎ＝３が付与された原語Ａが特定される。

通し番号Ｎ＝１が付与された原語Ａと通し番号Ｎ＝３が付与された原語Ａは一致しているので（ＳＴＥＰ２７においてＹＥＳ）、通し番号Ｎ＝３に割り当てられたフラグがオン状態とされる（ＳＴＥＰ３１）。

続いて、通し番号Ｎ＝１が付与された原語Ａを含む原文と同じ文番号１が付与された訳文が、第二テキストＴ２から特定される（ＳＴＥＰ３２）。同様に、通し番号Ｎ＝３が付与された原語Ａを含む原文と同じ文番号２が付与された訳文が、第二テキストＴ２から特定される。

文番号１が付与された訳文と文番号２が付与された訳文は、ともに形態素解析に供されていないので（ＳＴＥＰ３３においてＮＯ）、両訳文に対して形態素解析が適用される（ＳＴＥＰ３４）。

続いて、辞書データベース１４を参照することにより、通し番号Ｎ＝１が付与された原語Ａに対応する訳語として、文番号１に付与された訳文に含まれる一つの形態素が特定される（ＳＴＥＰ３５）。本例においては訳語ａ１が特定されている。同様に、通し番号Ｎ＝３が付与された原語Ａに対応する訳語として、文番号２に付与された訳文に含まれる一つの形態素が特定される。本例においては、訳語ａ１が特定されている。

通し番号Ｎ＝１が付与された原語Ａに対応する訳語ａ１と通し番号Ｎ＝３が付与された原語Ａに対応する訳語ａ１は一致しているので（ＳＴＥＰ３６においてＹＥＳ）、処理はＳＴＥＰ２８に進む。

通し番号Ｎ＝３は最後の通し番号ではないので（ＳＴＥＰ２８においてＮＯ）、処理はＳＴＥＰ２６に戻る。すなわち、通し番号Ｎ＝４が付与された原語Ｃが特定される。

通し番号Ｎ＝１が付与された原語Ａと通し番号Ｎ＝４が付与された原語Ｃは相違しており（ＳＴＥＰ２７においてＮＯ）、かつ通し番号Ｎ＝４は最後の通し番号ではないので（ＳＴＥＰ２８においてＮＯ）、処理はＳＴＥＰ２６に戻る。すなわち、通し番号Ｎ＝５が付与された原語Ｂが特定される。

通し番号Ｎ＝１が付与された原語Ａと通し番号Ｎ＝５が付与された原語Ｂは相違しており（ＳＴＥＰ２７においてＮＯ）、かつ通し番号Ｎ＝５は最後の通し番号ではないので（ＳＴＥＰ２８においてＮＯ）、処理はＳＴＥＰ２６に戻る。すなわち、通し番号Ｎ＝６が付与された原語Ｄが特定される。

通し番号Ｎ＝１が付与された原語Ａと通し番号Ｎ＝６が付与された原語Ｄは相違しており（ＳＴＥＰ２７においてＮＯ）、かつ通し番号Ｎ＝６は最後の通し番号であるので（ＳＴＥＰ２８においてＹＥＳ）、通し番号Ｎ＝１に割り当てられたフラグがオン状態とされる（ＳＴＥＰ２９）。

まだ全てのフラグがオン状態ではないので（ＳＴＥＰ３０においてＮＯ）、処理はＳＴＥＰ２４に戻り、フラグがオフ状態である最小の通し番号が付与された原語が特定される。本例においては、通し番号Ｎ＝２が付与された原語Ｂが特定される。

通し番号Ｎ＝２は最後の通し番号ではないので（ＳＴＥＰ２５においてＮＯ）、通し番号Ｎ＝３が付与された原語Ａが続いて特定される（ＳＴＥＰ２６）。

通し番号Ｎ＝２が付与された原語Ｂと通し番号Ｎ＝３が付与された原語Ａは相違しており（ＳＴＥＰ２７においてＮＯ）、かつ通し番号Ｎ＝３は最後の通し番号ではないので（ＳＴＥＰ２８においてＮＯ）、処理はＳＴＥＰ２６に戻る。すなわち、通し番号Ｎ＝４が付与された原語Ｃが特定される。

通し番号Ｎ＝２が付与された原語Ｂと通し番号Ｎ＝４が付与された原語Ｃは相違しており（ＳＴＥＰ２７においてＮＯ）、かつ通し番号Ｎ＝４は最後の通し番号ではないので（ＳＴＥＰ２８においてＮＯ）、処理はＳＴＥＰ２６に戻る。すなわち、通し番号Ｎ＝５が付与された原語Ｂが特定される。

通し番号Ｎ＝２が付与された原語Ｂと通し番号Ｎ＝５が付与された原語Ｂは一致しているので（ＳＴＥＰ２７においてＹＥＳ）、通し番号Ｎ＝５に割り当てられたフラグがオン状態とされる（ＳＴＥＰ３１）。

続いて、通し番号Ｎ＝２が付与された原語Ｂを含む原文と同じ文番号１が付与された訳文が、第二テキストＴ２から特定される（ＳＴＥＰ３２）。同様に、通し番号Ｎ＝５が付与された原語Ｂを含む原文と同じ文番号２が付与された訳文が、第二テキストＴ２から特定される。

文番号１が付与された訳文と文番号２が付与された訳文は、ともに形態素解析が適用済みであるので（ＳＴＥＰ３３においてＹＥＳ）、改めての形態素解析は行なわれない。

続いて、辞書データベース１４を参照することにより、通し番号Ｎ＝２が付与された原語Ｂに対応する訳語として、文番号１に付与された訳文に含まれる一つの形態素が特定される（ＳＴＥＰ３５）。本例においては訳語ｂ１が特定されている。同様に、通し番号Ｎ＝５が付与された原語Ｂに対応する訳語として、文番号２に付与された訳文に含まれる一つの形態素が特定される。本例においては、訳語ｂ２が特定されている。

通し番号Ｎ＝２が付与された原語Ｂに対応する訳語ｂ１と通し番号Ｎ＝５が付与された原語Ｂに対応する訳語ｂ２は相違しているので（ＳＴＥＰ３６においてＮＯ）、訳語ｂ１と訳語ｂ２を含むリストに対応するデータが生成される（ＳＴＥＰ３７）。その後、処理はＳＴＥＰ２８に進む。

通し番号Ｎ＝５は最後の通し番号ではないので（ＳＴＥＰ２８においてＮＯ）、処理はＳＴＥＰ２６に戻る。すなわち、通し番号Ｎ＝６が付与された原語Ｄが特定される。

通し番号Ｎ＝２が付与された原語Ｂと通し番号Ｎ＝６が付与された原語Ｄは相違しており（ＳＴＥＰ２７においてＮＯ）、かつ通し番号Ｎ＝６は最後の通し番号であるので（ＳＴＥＰ２８においてＹＥＳ）、通し番号Ｎ＝２に割り当てられたフラグがオン状態とされる（ＳＴＥＰ２９）。

まだ全てのフラグがオン状態ではないので（ＳＴＥＰ３０においてＮＯ）、処理はＳＴＥＰ２４に戻り、フラグがオフ状態である最小の通し番号が付与された原語が特定される。本例においては、通し番号Ｎ＝４が付与された原語Ｃが特定される。

通し番号Ｎ＝４は最後の通し番号ではないので（ＳＴＥＰ２５においてＮＯ）、通し番号Ｎ＝５が付与された原語Ｂが続いて特定される（ＳＴＥＰ２６）。

通し番号Ｎ＝４が付与された原語Ｃと通し番号Ｎ＝５が付与された原語Ｂは相違しており（ＳＴＥＰ２７においてＮＯ）、かつ通し番号Ｎ＝５は最後の通し番号ではないので（ＳＴＥＰ２８においてＮＯ）、処理はＳＴＥＰ２６に戻る。すなわち、通し番号Ｎ＝６が付与された原語Ｄが特定される。

通し番号Ｎ＝４が付与された原語Ｃと通し番号Ｎ＝６が付与された原語Ｄは相違しており（ＳＴＥＰ２７においてＮＯ）、かつ通し番号Ｎ＝６は最後の通し番号であるので（ＳＴＥＰ２８においてＹＥＳ）、通し番号Ｎ＝４に割り当てられたフラグがオン状態とされる（ＳＴＥＰ２９）。

まだ全てのフラグがオン状態ではないので（ＳＴＥＰ３０においてＮＯ）、処理はＳＴＥＰ２４に戻り、フラグがオフ状態である最小の通し番号が付与された原語が特定される。本例においては、通し番号Ｎ＝６が付与された原語Ｄが特定される。

通し番号Ｎ＝６は最後の通し番号であるので（ＳＴＥＰ２５においてＹＥＳ）、通し番号Ｎ＝６に割り当てられたフラグがオン状態とされる（ＳＴＥＰ２９）。これにより全てのフラグがオン状態とされたので（ＳＴＥＰ３０においてＹＥＳ）、処理が終了する。

図５から図７を参照して説明したように、本実施形態に係る後編集支援装置１２の処理部１２３は、第一テキストＴ１に形態素解析を適用することにより特定の原語を抽出するように構成されうる。この場合、処理部１２３は、当該特定の原語が第一テキストＴ１中に二度以上現れる場合にのみ、当該特定の原語を含む原文に対応する訳文を特定し、特定された訳文に対して形態素解析を適用するように構成される。換言すると、第二テキストＴ２に対しては、訳語の不一致が検証される必要がある訳文にのみ形態素解析が適用される。

すなわち、第一テキストＴ１に含まれる全ての原文には形態素解析が適用されるが、第二テキストＴ２に含まれる全ての訳文に対して形態素解析が適用されない場合がある。図７に示される例においては、文番号３が付与された訳文に対しては、形態素解析が適用されていない。文番号３が付与された原文は、第一テキストＴ１中に一度だけしか現れない原語のみを含んでいるので、訳語の不一致を検証する必要がないからである。第二テキストＴ２に対して形態素解析が適用される頻度を必要最小限とすることにより、処理部１２３における処理負荷と処理時間の増大を抑制できる。

図６のＳＴＥＰ３７において複数の訳語を含むリストに対応するデータが生成された事実は、図２のＳＴＥＰ１３における第三テキストＴ３の生成要否に係る判断に反映される。すなわち、リストに対応するデータが生成されている場合、一つの原語に複数の相違する訳語が対応付けられていると判断され（ＳＴＥＰ１３においてＹＥＳ）、第三テキストＴ３の生成がなされる（ＳＴＥＰ１４）。

前述の通り、図４に例示される第三テキストＴ３においては、第一テキストＴ１に含まれている「発光素子」という原語に対して「light emitting element」という訳語のみが割り当てられている。このような第三テキストＴ３を生成するために、図３に例示される第二テキストＴ２に含まれている「light emitter」と「photo emitting element」が、「light emitting element」により置き換えられている。

なお、図４に例示される第三テキストＴ３において、「light emitting element」という訳語は、他の訳語と同じ態様で表示されている。置き換え処理がなされた箇所となされなかった箇所がシームレスに表示されているので、ポストエディタは、どの訳語に対して置き換え処理がなされたのかを認識することはない。このようにして置き換え処理のステルス性を高めることにより、ポストエディタが訳文のチェックに集中できる。

あるいは、後編集支援装置１２は、置き換え処理がなされた訳語を他の訳語と区別可能な態様で表示装置１３に表示させるように構成されうる。例えば、置き換え処理がなされた訳語のフォントサイズ、フォント種、およびフォントスタイル（斜字体、太字体など）の少なくとも一つが、他の訳語とは異なるように変更される。これに加えてあるいは代えて、図８に例示されるように置き換え処理がなされた訳語に下線が付されたり、置き換え処理がなされた訳語のみ背景色が変更されたりしてもよい。

このような構成によれば、どの訳語に対して置き換え処理がなされたのかを知りたいというポストエディタのニーズに応えることができる。置き換え処理が適用された訳語の傾向に基づいて、翻訳装置１１が使用しているニューラル機械翻訳モデル１１１の癖を推定することもできる。

置き換え処理がなされた訳語をポストエディタが認識可能な上記の例においては、置き換え処理がなされた特定の訳語の指定が可能とされうる。図９は、マウスやタッチパッドなどのポインティングデバイスの動作に応じて表示装置１３に表示されるカーソルによって特定の訳語の指定がなされる例を示している。具体的には、「sensed」という訳語が指定されている。表示装置１３がタッチパネル機能を備えている場合は、特定の訳語が表示されている領域をポストエディタが触れることによって当該訳語の指定がなされてもよい。ポストエディタが特定の訳語を発話することにより、音声認識機能を通じて当該訳語の指定がなされてもよい。

後編集支援装置１２は、上記のように特定の訳語の指定がなされた場合、置き換え処理に関与した複数の相違する訳語を表示装置１３に表示させるように構成されうる。具体的には、図６のＳＴＥＰ３７において生成されたリストに対応するデータが読み出され、当該リストに含まれている複数の相違する訳語が表示装置１３に表示される。図９に示される例の場合、第三テキストＴ３において採用されている「sensed」に加えて、第二テキストＴ２に含まれて「sensed」によって置き換えられた「detected」が表示されている。

置き換え処理に関与した複数の相違する訳語の表示態様は、適宜に定められうる。図９に示される例においては、カーソルによって指定された特定の訳語の近傍に、複数の相違する訳語がフロート表示されている。別例として、表示装置１３における第一テキストＴ１および第三テキストＴ３が表示されている領域とは異なる位置に、置き換え処理に関与した複数の相違する訳語を表示するための専用の領域が設けられてもよい。

上記のような構成によれば、第三テキストＴ３に含まれている置き換え済みの訳語に対してポストエディタが違和感を覚える場合などにおいて、第二テキストＴ２に含まれていた置き換え前の訳語を知ることができる。換言すると、特定の原語に対して自動的に訳語が統一される前に翻訳装置１１のニューラル機械翻訳モデル１１１がどのような別の訳語を出力したのかを知ることができる。これにより、ポストエディタによる訳語の再検討を支援できる。

図１０に例示されるように、後編集支援装置１２は、置き換え処理に関与した複数の相違する訳語の一つを選択可能な態様で表示装置１３に表示させうる。図示の例においては、フロー表示された複数の相違する訳語の一つが、カーソルによって選択可能とされている。具体的には、「detected」が選択されている。

置き換え処理に関与した複数の相違する訳語の一つが選択された場合、後編集支援装置１２は、第三テキストＴ３において表示されている元の訳語を、選択された一つの訳語で置き換えるように構成される。図１１は、第三テキストＴ３に当初含まれていた訳語である「detected」が、図１０において選択された「detected」に一括変換された例を示している。

このような構成によれば、第三テキストＴ３として当初より統一されて表示されている訳語を別の訳語に一括変換するのみで、ポストエディタがより適当と考える訳語への変更が完了する。すなわち、後編集支援装置１２によって自動的に選択された訳語よりも選択されなかった訳語の方が適当であるとポストエディタが考える場合において、後編集作業を効率的に行なうことができる。

これまで説明した通り、第三テキストＴ３の生成にあたっては、第二テキストＴ２に含まれる複数の相違する訳語のうちの一つで残りの訳語が置き換えられることにより、自動的に訳語の統一がなされる。訳語の置き換えに係る規則について、幾つかの例を挙げて説明する。

一例として、後編集支援装置１２は、上記の複数の相違する訳語のうち、最も高い頻度で第二テキストＴ２に現れる訳語で残りの訳語を置き換えるように構成されうる。例えば、図６のＳＴＥＰ３７において複数の相違する訳語のリストが生成される際に、各訳語が特定された回数をデータとして含めることにより、最も高い頻度で第二テキストＴ２に現れる訳語の特定が可能とされうる。

図３に例示される第二テキストＴ２においては、第一テキストＴ１に含まれる「発光素子」という原語に対して、「light emitting element」、「light emitter」、および「photo emitting element」という相違する訳語が割り当てられている。このうち、「light emitting element」が現れる頻度が最も高い。したがって、後編集支援装置１２は、「light emitting element」で「light emitter」と「photo emitting element」を置き換えることにより、図４に例示される第三テキストＴ３を生成する。

このような構成によれば、翻訳装置１１が使用するニューラル機械翻訳モデル１１１の特性を第三テキストＴ３に反映しやすくできる。

第一テキストＴ１に含まれる特定の原語に対して複数の訳語が対応付けられており、当該複数の訳語のうち最も高い頻度で第二テキストＴ２に現れる訳語を特定できない場合もありうる。例えば、図３に例示される第二テキストＴ２においては、第一テキストＴ１に含まれる「検出され」という原語に対して、「sensed」と「detected」という相違する訳語が割り当てられている。しかしながら、第二テキストＴ２において両訳語が現れる頻度は同じである。

このような場合、後編集支援装置１２は、上記の複数の相違する訳語のうち、最初に第二テキストＴ２に現れる訳語で残りの訳語を置き換えるように構成されうる。選ばれた訳語が適切であるかは問わない。重要なのは、訳語の不統一が解消された状態で第三テキストＴ３をポストエディタに提示することである。

図１に例示されるように、後編集支援システム１０は、記憶装置１５を備えうる。図１０と図１１を参照して説明したように第三テキストＴ３における特定の訳語が後編集により別の訳語に変更された場合、後編集支援装置１２は、編集受付部１２５を通じて当該変更に係る情報を受け付ける。処理部１２３は、変更後の訳語に対応するデータを記憶装置１５に記憶するように構成される。

図１０に示される例においては、第二テキストＴ２に当初含まれていた複数の相違する訳語の一つで変更がなされている。しかしながら、ポストエディタがより適切と考える別の訳語によって変更がなされてもよい。この場合においても、処理部１２３は、変更後の訳語に対応するデータを記憶装置１５に記憶する。

次回以降に受け付けられた第一テキストＴ１に基づいて生成された第二テキストＴ２に含まれる複数の相違する訳語が、当該第一テキストＴ１に含まれる特定の原語に対応付けられていると判断された場合、処理部１２３は、記憶装置１５に記憶されている当該原語に対応する訳語が当該複数の相違する訳語に含まれているかを判断する。記憶装置１５に記憶されている訳語が当該複数の相違する訳語に含まれている場合、処理部１２３は、記憶装置１５に記憶されている訳語で別の訳語を置き換える。

例えば、図１０に例示される第三テキストＴ３に含まれる「light emitting element」が後編集により「light emitter」に置き換えられた場合、「light emitter」が記憶装置１５に記憶される。次回以降に受け付けられた第一テキストＴ１に基づいて生成された第二テキストＴ２に「発光素子」の訳語として「light emitting element」、「light emitter」、および「photo emitting element」が含まれていた場合、第二テキストＴ２における各訳語の出現頻度に依らず、「light emitter」で他の訳語が置き換えられる。

後編集により当初の訳語が変更された場合、変更後の訳語は、ポストエディタにとってより適切な訳語である蓋然性が高い。上記のような構成によれば、ニューラル機械翻訳モデル１１１の特性よりもポストエディタの好みが優先されて第三テキストＴ３が生成されるので、後編集に係る作業量の増大を抑制できる。

記憶装置１５には、原語と訳語の対応関係をユーザ（ポストエディタ）が指定あるいは定義可能な辞書データが記憶されうる。この場合、第二テキストＴ２に含まれる複数の相違する訳語が、第一テキストＴ１に含まれる特定の原語に対応付けられていると判断された場合、処理部１２３は、当該原語が辞書データに含まれているかを判断する。当該原語が辞書データに含まれている場合、処理部１２３は、辞書データにおいて当該原語に対応付けられている訳語で別の訳語を置き換える。

例えば、辞書データにおいて「発光素子」と「photo emitting element」が含まれており、第二テキストＴ２に「発光素子」の訳語として「light emitting element」、「light emitter」、および「photo emitting element」が含まれていた場合、第二テキストＴ２における各訳語の出現頻度に依らず、「photo emitting element」で他の訳語が置き換えられる。

このような構成によっても、ニューラル機械翻訳モデル１１１の特性よりもポストエディタの好みが優先されて第三テキストＴ３が生成されるので、後編集に係る作業量の増大を抑制できる。

これまで説明した各種の機能を有する後編集支援装置１２の処理部１２３は、汎用メモリと協働して動作する汎用マイクロプロセッサにより実現されうる。記憶装置１５の少なくとも一部は、当該汎用メモリにより実現されてもよい。汎用マイクロプロセッサとしては、ＣＰＵ、ＭＰＵ、ＧＰＵが例示されうる。汎用メモリとしては、ＲＯＭやＲＡＭが例示されうる。この場合、ＲＯＭには、上記の各種処理を実行するコンピュータプログラムが記憶されうる。ＲＯＭは、コンピュータプログラムを記憶している記憶媒体の一例である。プロセッサは、ＲＯＭ上に記憶されたコンピュータプログラムの少なくとも一部を指定してＲＡＭ上に展開し、ＲＡＭと協働して上述した処理を実行する。上記のコンピュータプログラムは、汎用メモリにプリインストールされてもよいし、不図示の通信ネットワークを介して外部サーバ装置からダウンロードされ、汎用メモリにインストールされてもよい。この場合、外部サーバ装置は、コンピュータプログラムを記憶している記憶媒体の一例である。

処理部１２３は、マイクロコントローラ、ＡＳＩＣ、ＦＰＧＡなどの上記のコンピュータプログラムを実行可能な専用集積回路によって実現されてもよい。この場合、記憶装置１５の少なくとも一部は、当該専用集積回路に含まれる記憶素子により実現されうる。当該記憶素子には、上記のコンピュータプログラムがプリインストールされる。当該記憶素子は、コンピュータプログラムを記憶している記憶媒体の一例である。処理部１２３は、汎用マイクロプロセッサと専用集積回路の組合せによっても実現されうる。

上記の実施形態は、本発明の理解を容易にするための例示にすぎない。上記の実施形態に係る構成は、本発明の趣旨を逸脱しなければ、適宜に変更・改良されうる。

後編集支援システム１０において、翻訳装置１１、後編集支援装置１２、表示装置１３、および記憶装置１５の各々は、独立した装置として提供されうる。あるいは、翻訳装置１１、後編集支援装置１２、表示装置１３、および記憶装置１５の少なくとも一つは、単一の装置内において異なる機能ユニットとして提供されうる。

１０：後編集支援システム、１１：翻訳装置、１１１：ニューラル機械翻訳モデル、１２：後編集支援装置、１２１：第一受付部、１２２：第二受付部、１２３：処理部、１３：表示装置、１５：記憶装置、Ｔ１：第一テキスト、Ｔ２：第二テキスト、Ｔ３：第三テキスト

Claims

第一言語で記述された第一テキストを、ニューラル機械翻訳モデルを用いて当該第一言語とは異なる第二言語で記述された第二テキストに翻訳する翻訳装置と、
前記第二テキストに含まれる複数の相違する訳語が前記第一テキストに含まれる一つの原語に対応付けられている場合、当該複数の相違する訳語に含まれる一つの訳語で当該複数の訳語に含まれる残りの訳語が置き換えられた第三テキストを生成し、当該第三テキストを編集可能な状態で表示装置に表示させる後編集支援装置と、
を備えている、
後編集支援システム。
前記後編集支援装置は、前記一つの訳語を前記第三テキストに含まれる他の訳語と区別可能な態様で前記表示装置に表示させる、
請求項１に記載の後編集支援システム。
前記後編集支援装置は、前記第三テキストにおいて前記一つの訳語が指定された場合、前記複数の相違する訳語を前記表示装置に表示させる、
請求項２に記載の後編集支援システム。
前記後編集支援装置は、前記複数の相違する訳語のいずれかを選択可能な態様で前記表示装置に表示させるとともに、前記複数の相違する訳語のいずれかが選択された場合、前記第三テキストに含まれる前記一つの訳語を、当該選択された訳語で置き換える、
請求項３に記載の後編集支援システム。
前記一つの訳語は、前記複数の相違する訳語のうち最も高い頻度で前記第二テキストに現れる語である、
請求項１から４のいずれか一項に記載の後編集支援システム。
前記第三テキストに含まれる前記一つの訳語が後編集により別の訳語に変更された場合に、当該別の訳語を記憶する記憶装置を備えており、
前記後編集支援装置は、前記記憶装置に記憶された前記別の訳語が前記複数の相違する訳語に含まれている場合、前記一つの訳語として前記別の訳語を使用する、
請求項１から４のいずれか一項に記載の後編集支援システム。
原語と訳語の対応関係をユーザが指定可能な辞書を記憶する記憶装置を備えており、
前記後編集支援装置は、前記一つの原語が前記辞書に含まれている場合、当該辞書において前記一つの原語に対応付けられている訳語を、前記一つの訳語として使用する、
請求項１から４のいずれか一項に記載の後編集支援システム。
前記ニューラル機械翻訳モデルは、知的財産権に関連した書類を翻訳するための学習済みモデルを含んでいる、
請求項１から７のいずれか一項に記載の後編集支援システム。
第一言語で記述された第一テキストを、ニューラル機械翻訳モデルを用いて当該第一言語とは異なる第二言語で記述された第二テキストに翻訳するステップと、
前記第二テキストに含まれる複数の相違する訳語が前記第一テキストに含まれる一つの原語に対応付けられているかを判断するステップと、
前記複数の訳語が前記一つの原語に対応付けられていると判断された場合、当該複数の相違する訳語に含まれる一つの訳語で当該複数の訳語に含まれる残りの訳語が置き換えられた第三テキストを生成するステップと、
前記第三テキストを編集可能な状態で表示装置に表示させるステップと、
を備えている、
後編集支援方法。
第一言語で記述された第一テキストを受け付ける第一受付部と、
ニューラル機械翻訳モデルを用いて前記第一言語とは異なる第二言語で記述された第二テキストに翻訳する翻訳装置から当該第二テキストを受け付ける第二受付部と、
前記第二テキストに含まれる複数の相違する訳語が前記第一テキストに含まれる一つの原語に対応付けられている場合、当該複数の相違する訳語に含まれる一つの訳語で当該複数の訳語に含まれる残りの訳語が置き換えられた第三テキストを生成し、当該第三テキストを編集可能な状態で表示装置に表示させる処理部と、
を備えている、
後編集支援装置。
前記処理部は、
前記第一テキストに形態素解析を適用することにより前記一つの原語を抽出し、
前記一つの原語が前記第一テキスト中に二度以上現れる場合、前記第二テキストにおいて当該一つの原語を含む原文に対応する訳文を特定し、
特定された前記訳文に対して形態素解析を適用するとともに、辞書データベースを参照して前記複数の相違する訳語が含まれているかを判断する、
請求項１０に記載の後編集支援装置。
後編集支援装置の処理部により実行可能なコンピュータプログラムであって、
実行されることにより、前記後編集支援装置に
第一言語で記述された第一テキストを受け付けさせ、
ニューラル機械翻訳モデルを用いて前記第一言語とは異なる第二言語で記述された第二テキストに翻訳する翻訳装置から当該第二テキストを受け付けさせ、
前記第二テキストに含まれる複数の相違する訳語が前記第一テキストに含まれる一つの原語に対応付けられているかを判断させ、
前記複数の訳語が前記一つの原語に対応付けられていると判断された場合、当該複数の相違する訳語に含まれる一つの訳語で当該複数の訳語に含まれる残りの訳語が置き換えられた第三テキストを生成させ、
前記第三テキストを編集可能な状態で表示装置に表示させる、
コンピュータプログラム。