JP2023183618A

JP2023183618A - 機械翻訳用訓練データ生成方法、機械翻訳処理用の学習可能モデルの作成方法、機械翻訳処理方法、および、機械翻訳用訓練データ生成装置

Info

Publication number: JP2023183618A
Application number: JP2022097221A
Authority: JP
Inventors: 将夫内山; Masao Uchiyama
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2023-12-28
Also published as: WO2023243261A1

Abstract

【課題】タグ付きの対訳文を大量に準備することなく、翻訳対象の原文にマークアップ言語用タグを含んだ原文を、マークアップ言語用タグの情報を保持しつつ、高精度に機械翻訳する機械翻訳処理システムをを提供する。【解決手段】機械翻訳処理システム１０００において、訓練用データ生成装置１は、訓練用データ生成処理を行うことで、マークアップ言語用タグを含まない対訳データにおいて、開始終了対応符号を検出し、検出した開始終了対応符号を代替符号に置換することで、マークアップ言語用タグを挿入された対訳データと同等のデータを簡単、かつ、多量に生成する。機械翻訳処理装置２が、訓練用データ生成装置１による訓練用データ生成処理で取得された対訳データを、機械翻訳モデルの学習処理の訓練データとして用いることで、マークアップ言語用タグ付きの対訳データを訓練データとして、機械翻訳モデルの学習処理を行ったときと同等の効果を奏する。【選択図】図１

Description

本発明は、機械翻訳処理技術に関し、特に、マークアップ言語のタグに対応させた機械翻訳処理技術に関する。

産業翻訳の分野では、翻訳対象の原文にＸＭＬタグ（マークアップ言語用タグの一例）が含まれることが多く、そのようなタグを含んだ原文を、タグ情報を保持して、高精度に機械翻訳する需要が高い。

翻訳対象の原文にＸＭＬタグを含む場合に対処する方法として、例えば、非特許文献１に開示されているように、機械翻訳時に原文のタグを除去して機械翻訳した後で、機械翻訳結果について、原文と訳文との単語アライメントに基づいて、タグを再挿入する方法がある。

また、特許文献１には、マークアップ言語用タグ（例えば、ＸＭＬタグ）が挿入されている対訳文を利用して機械翻訳エンジンを訓練する技術の開示がある。特許文献１の技術では、機械翻訳エンジンを訓練する際に、マークアップ言語用タグをプレースホルダーに置換し、マークアップ言語用タグをプレースホルダーに置換した対訳文を用いて機械翻訳エンジンを訓練する。そして、特許文献１の技術では、機械翻訳時に、原文中のタグをプレースホルダーに置換して翻訳した後、訳文中のプレースホルダーを元のタグに置換する処理を行う。

米国特許第１０９６３６５２号明細書

Mathias Mueller. Treatment of Markup in Statistical Machine Translation. Proceedings of the Third Workshop on Discourse in Machine Translation, pages 36-46, Copenhagen, Denmark, September 8, 2017. Association for Computational Linguistics.

しかしながら、非特許文献１に開示されているタグを再挿入の方法では、対訳文中にタグが含まれなくても機械翻訳エンジンを訓練できるメリットがあるが、機械翻訳時にタグを考慮せずに翻訳することになるので、タグを適切に保持した翻訳が難しい。

一方、特許文献１に開示されているタグ付きの対訳文を利用して機械翻訳エンジンを訓練する方法では、翻訳精度やタグ保持の精度には問題がないが、タグ付きの対訳文を大量に準備するのが困難であるという問題がある。

そこで、本発明は、上記課題に鑑み、タグ付きの対訳文を大量に準備することなく、翻訳対象の原文にマークアップ言語用タグを含んだ原文を、マークアップ言語用タグの情報を保持しつつ、高精度に機械翻訳することを可能にする機械翻訳処理方法、機械翻訳用訓練データ生成方法、機械翻訳処理用の学習可能モデルの作成方法、機械翻訳処理方法、機械翻訳用訓練データ生成装置、および、機械翻訳処理システムを実現することを目的とする。

上記課題を解決するための第１の発明は、マークアップ言語用タグを含む言語データを機械翻訳処理するための機械翻訳処理システムにおいて、機械翻訳処理用の学習可能モデルを訓練するための訓練データを生成する方法（機械翻訳用訓練データ生成方法）であって、開始終了対応符号検出ステップと、置換処理ステップと、を備える。

開始終了対応符号検出ステップは、第１言語データと、第１言語データの第２言語へ翻訳したデータである第２言語データとを組みにした対訳データであって、マークアップ言語用タグを含まない対訳データにおいて、開始と終了とが対応している符号である開始終了対応符号を検出する。

置換処理ステップは、対訳データに対して、開始終了対応符号を、代替符号に置換する置換処理を実行することで、置換処理後の対訳データを取得する。

この機械翻訳用訓練データ生成方法では、マークアップ言語用タグ（例えば、ＸＭＬタグ）を含まない対訳文（対訳データ）において、開始終了対応符号（()、[]のように、左と右とが対応している符号）を検出し、検出した開始終了対応符号を代替符号（プレースホルダー）に置換することで、マークアップ言語用タグ（例えば、ＸＭＬタグ）を挿入された対訳データと同等のデータを、簡単かつ多量に生成することができる。

そして、この機械翻訳用訓練データ生成方法により取得された対訳データは、マークアップ言語用タグに相当する代替符号（プレースホルダー）を含んでいるので、当該対訳データを、機械翻訳モデルの学習処理の訓練データとして用いることで、マークアップ言語用タグ（例えば、ＸＭＬタグ）付きの対訳文（対訳データ）を訓練データとして、機械翻訳モデルの学習処理を行ったときと同等の効果を奏することができる（同等の学習処理を行うことができる）。

第２の発明は、第１の発明であって、置換割合を設定する置換割合設定ステップをさらに備える。

置換処理ステップは、対訳データに対して、置換割合設定ステップで設定された置換割合で、開始終了対応符号を、代替符号に置換する置換処理を実行する。

この機械翻訳用訓練データ生成方法では、置換割合設定ステップにより、置換する割合を設定することで（１．０未満の値に設定することで）、全ての開始終了対応符号が、代替符号（プレースホルダー）に置換されないことが保証される。これにより、この機械翻訳用訓練データ生成方法では、置換処理後の対訳データ中に開始終了対応符号が含まれることが保証され、当該開始終了対応符号についても適切に学習処理（訓練）が可能となる（翻訳元言語データの開始終了対応符号を、機械翻訳処理結果データ（翻訳先言語データ）において、正しく出現させる（機械翻訳する）ことが可能となる）。

なお、置換割合は、対訳データ単位（対訳文単位）としてもよい。つまり、処理対象としている対訳データのうち開始終了対応符号を含む対訳データがＮ１個（Ｎ１：自然数）ある場合であって、置換割合がｒ（ｒ：実数、０＜ｒ＜１）である場合、開始終了対応符号を含む対訳データのうち、ｉｎｔ（Ｎ１×ｒ）個（ｉｎｔ（ｘ）：ｘを超えない最大の整数値を取得する関数）の対訳データに対して、置換処理を行うようにしてもよい。

第３の発明は、第１または第２の発明である機械翻訳用訓練データ生成方法により生成された訓練データを用いて、マークアップ言語用タグを含む言語データを機械翻訳処理するための機械翻訳処理システムにおいて、機械翻訳処理用の学習可能モデルを作成する方法であって、データ入力ステップと、出力データ取得ステップと、損失評価ステップと、パラメータ更新ステップと、を備える。

データ入力ステップは、置換処理後の対訳データに含まれる第１言語データを機械翻訳処理用の学習可能モデルに入力する。

出力データ取得ステップは、データ入力ステップで入力されたデータに対する機械翻訳処理用の学習可能モデルの出力データを取得する。

損失評価ステップは、出力データ取得ステップにより取得された出力データと、置換処理後の対訳データに含まれる第２言語データを正解データとして取得し、出力データと正解データとの損失を評価する。

パラメータ更新ステップは、損失評価ステップにより取得された損失が小さくなるように、機械翻訳処理用の学習可能モデルのパラメータを更新する。

この機械翻訳処理用の学習可能モデルを作成する方法では、置換処理後の対訳データに含まれる第１言語データと、置換処理後の対訳データに含まれる第２言語データを正解データとを用いて、機械翻訳処理用の学習可能モデルを学習させることができるため、置換処理後の第１言語データを、置換処理後の第２言語データに機械翻訳する学習可能モデルの学習済モデルを取得することができる。

第４の発明は、第３の発明である機械翻訳処理用の学習可能モデルの作成方法により学習させて取得した機械翻訳処理用の学習可能モデルの学習済みモデルを用いて機械翻訳処理を実行する方法（機械翻訳処理方法）であって、順置換処理ステップと、機械翻訳処理ステップと、逆置換処理ステップと、を備える。

順置換処理ステップは、入力された第１言語データに含まれるマークアップ言語用タグを、代替符号に置換する順置換処理を実行する。

機械翻訳処理ステップは、順置換処理後の第１言語データに対して、機械翻訳処理用の学習可能モデルの学習済みモデルを用いて機械翻訳処理を実行することで、機械翻訳処理後の第２言語データを取得する。

逆置換処理ステップは、機械翻訳処理ステップにより取得された機械翻訳処理後の第２言語データに含まれる代替符号を、順置換処理ステップで置換したマークアップ言語用タグに置換する逆置換処理を実行する。

この機械翻訳処理方法では、マークアップ言語用タグ（例えば、ＸＭＬタグ）を含む入力データに対して、マークアップ言語用タグを、訓練用データ生成時に使用したのと同様の代替符号（プレースホルダー）に置換し、代替符号が挿入された対訳データで最適化された機械翻訳モデルの学習済モデルを用いて、機械翻訳処理を実行するので、代替符号が挿入された状態を適切に維持しつつ適切な機械翻訳処理結果データを取得することができる。そして、この機械翻訳処理方法では、代替符号が挿入された状態の機械翻訳処理結果データ（機械翻訳文）において、代替符号をＸＭＬタグに置換する（元に戻す）ことで、ＸＭＬタグが適切な状態で挿入された機械翻訳処理結果データ（機械翻訳文）を取得することができる。

このように、この機械翻訳処理方法により、タグ付きの対訳文を大量に準備することなく、翻訳対象の原文にマークアップ言語用タグを含んだ原文を、マークアップ言語用タグの情報を保持しつつ、高精度に機械翻訳することが可能となる。

第５の発明は、マークアップ言語用タグを含む言語データを機械翻訳処理するための機械翻訳処理システムにおいて、機械翻訳処理用の学習可能モデルを訓練するための訓練データを生成する方法（機械翻訳用訓練データ生成方法）であって、対応要素検出ステップと、置換処理ステップと、を備える。

対応要素検出ステップは、第１言語データと、第１言語データの第２言語へ翻訳したデータである第２言語データとを組みにした対訳データであって、マークアップ言語用タグを含まない対訳データにおいて、第１言語データと第２言語データとの間で対応がとれると判断される要素である対応要素を検出する。

置換処理ステップは、対訳データに対して、対応要素の前後に代替符号を挿入する置換処理を実行することで、置換処理後の対訳データを取得する。

この機械翻訳用訓練データ生成方法では、マークアップ言語用タグ（例えば、ＸＭＬタグ）を含まない対訳文（対訳データ）において、原文および訳文間で対応がとれている要素を検出し、検出した要素の前後に代替符号（プレースホルダー）に置換することで、マークアップ言語用タグ（例えば、ＸＭＬタグ）を挿入された対訳データと同等のデータを、簡単かつ多量に生成することができる。

第６の発明は、マークアップ言語用タグを含む言語データを機械翻訳処理するための機械翻訳処理システムにおいて、機械翻訳処理用の学習可能モデルを訓練するための訓練データを生成する装置（機械翻訳用訓練データ生成装置）であって、置換処理部を備える。

置換処理部は、第１言語データと、第１言語データの第２言語へ翻訳したデータである第２言語データとを組みにした対訳データであって、マークアップ言語用タグを含まない対訳データにおいて、開始と終了とが対応している符号である開始終了対応符号を検出するとともに、
対訳データに対して、開始終了対応符号を、代替符号に置換する置換処理を実行することで、置換処理後の対訳データを取得する。

これにより、第１の発明と同様の効果を奏する機械翻訳用訓練データ生成装置を実現することができる。

本発明によれば、タグ付きの対訳文を大量に準備することなく、翻訳対象の原文にマークアップ言語用タグを含んだ原文を、マークアップ言語用タグの情報を保持しつつ、高精度に機械翻訳することを可能にする機械翻訳処理方法、機械翻訳用訓練データ生成方法、機械翻訳処理用の学習可能モデルの作成方法、機械翻訳処理方法、機械翻訳用訓練データ生成装置、および、機械翻訳処理システムを実現することができる。

第１実施形態に係る機械翻訳処理システム１０００の概略構成図。機械翻訳処理システム１０００で実行される訓練用データ生成処理のフローチャート。機械翻訳処理システム１０００の訓練用データ生成装置１で実行される置換処理について説明するための図。機械翻訳処理システム１０００で実行される予測処理（機械翻訳実行処理）のフローチャート。機械翻訳処理システム１０００の予測処理（機械翻訳実行処理）について説明するための図。ＸＭＬタグ付きの第１言語データ（日本語データ）を機械翻訳処理システム１０００で機械翻訳処理した結果を示す図。第２実施形態に係る機械翻訳処理システム２０００の概略構成図。機械翻訳処理システム２０００の訓練用データ生成装置１Ａで実行される置換処理について説明するための図。ＣＰＵバス構成を示す図。

［第１実施形態］
第１実施形態について、図面を参照しながら、以下説明する。

＜１．１：機械翻訳処理システムの構成＞
図１は、第１実施形態に係る機械翻訳処理システム１０００の概略構成図である。

機械翻訳処理システム１０００は、図１に示すように、訓練用データ生成装置１と、データ記憶部ＤＢ１と、機械翻訳処理装置２と、を備える。なお、以下の説明では、機械翻訳処理の対象としてマークアップ言語用タグを含む言語データである想定で行うが、機械翻訳処理装置２の対象とするものは、必ずしもマークアップ言語用タグを含む必要はなく、タグの含まれていない入力データが提供されると、置換処理等が行われることなく、機械翻訳処理が実行される。

訓練用データ生成装置１は、図１に示すように、置換割合設定部１１と、置換処理部１２とを備える。

置換割合設定部１１は、開始終了対応符号を代替符号（プレースホルダー）に置換する割合を設定する。そして、置換割合設定部１１は、設定した開始終了対応符号を代替符号（プレースホルダー）に置換する割合を示すデータ（これを「置換割合データ」という）を、データｒ＿ｒｅｐとして、置換処理部１２に出力する。

置換処理部１２は、第１言語のデータ（翻訳元言語データ）と、当該第１言語のデータの第２言語へ翻訳したデータである第２言語のデータ（翻訳先言語データ）とを対にしたデータである対訳データであって、マークアップ言語用タグを含まない対訳データＤｉｎ＿ｔｒを入力する。また、置換処理部１２は、置換割合設定部１１から出力される置換割合データｒ＿ｒｅｐを入力する。置換処理部１２は、置換割合データｒ＿ｒｅｐが示す割合で、対訳データＤｉｎ＿ｔｒに含まれる開始終了対応符号を、代替符号（プレースホルダー）に置換する処理を行う。そして、置換処理部１２は、当該置換処理後の対訳データを、置換処理後対訳データＤｏ＿ｔｒとして、データ記憶部ＤＢ１に出力する。

なお、説明便宜のため、訓練用データ生成装置１に入力される対訳データＤｉｎ＿ｔｒは、Ｎ組み（Ｎ：自然数）であり、対訳データＤｉｎ＿ｔｒのｉ番目（ｉ：自然数、１≦ｉ≦Ｎ）の第１言語のデータ（翻訳元言語データ）を「ｓｒｃ_ｉ」と表記し、当該第１言語のデータの第２言語へ翻訳したデータである第２言語のデータ（翻訳先言語データ）を「ｄｓｔ_ｉ」と表記し、また、ｉ番目の対訳データを「｛ｓｒｃ_ｉ，ｄｓｔ_ｉ｝」と表記する。

また、置換処理後対訳データＤｏ＿ｔｒのｉ番目の第１言語データ（置換処理語の第１言語データ）を「ｓｒｃ＿ｒｅｐ_ｉ」と表記し、当該第１言語のデータと組みをなす（対訳を構成する）第２言語のデータ（置換処理後の第２言語データ）を「ｄｓｔ＿ｒｅｐ_ｉ」と表記し、また、置換処理後対訳データＤｏ＿ｔｒのｉ番目のデータ（対訳データ）を「｛ｓｒｃ＿ｒｅｐ_ｉ，ｄｓｔ＿ｒｅｐ_ｉ｝」と表記する。

データ記憶部ＤＢ１は、訓練用データ生成装置１から出力される置換処理後対訳データＤｏ＿ｔｒを入力し、当該データを記憶保持する。また、データ記憶部ＤＢ１は、機械翻訳処理装置２からの指令に従い、記憶保持しているデータ（置換処理後対訳データＤｏ＿ｔｒ）を読み出し、読み出したデータを、データＤｉｎ＿ｔｒ＿ｒｅｐとして、機械翻訳処理装置２に出力する。
機械翻訳処理装置２は、図１に示すように、訓練用データ取得部２１と、順置換処理部２２と、第１セレクタＳＥＬ２１と、機械翻訳処理部２３と、第２セレクタＳＥＬ２２と、損失評価部２４と、逆置換処理部２５とを備える。

訓練用データ取得部２１は、データ記憶部ＤＢ１に対して、データ読み出し指令を出力し、データ記憶部ＤＢ１から、データ記憶部ＤＢ１に記憶されている置換処理後対訳データを、訓練用対訳データＤｉｎ＿ｔｒ＿ｒｅｐとして読み出す。訓練用データ取得部２１は、訓練用対訳データＤｉｎ＿ｔｒ＿ｒｅｐから、第１言語のデータ（翻訳元言語データ）を取り出し、取り出した第１言語のデータ（翻訳元言語データ）を、訓練用入力データＤｉｎ＿ｔｒとして、第１セレクタＳＥＬ２１に出力する。また、訓練用データ取得部２１は、訓練用対訳データＤｉｎ＿ｔｒ＿ｒｅｐから、第１セレクタＳＥＬ２１に出力した第１言語データと対訳をなす第２言語のデータ（翻訳先言語データ）を取り出し、取り出した第２言語のデータ（翻訳先言語データ）を、訓練用正解データＤ＿ｃｏｒｒｅｃｔとして、損失評価部２４に出力する。

なお、説明便宜のため、訓練用データ取得部２１は、データ記憶部ＤＢ１から、Ｍ組み（Ｍ：自然数、Ｍ≦Ｎ）の置換処理後対訳データＤｉｎ＿ｔｒを読み出すものとし、読み出した対訳データＤｉｎ＿ｔｒのｊ番目（ｊ：自然数、１≦ｊ≦Ｍ）の第１言語データを「ｓｒｃ＿ｒｅｐ_ｊ」と表記し、当該第１言語のデータと組みをなす（対訳を構成する）第２言語のデータを「ｄｓｔ＿ｒｅｐ_ｊ」と表記し、また、対訳データＤｉｎ＿ｔｒのｊ番目のデータ（対訳データ）を「｛ｓｒｃ＿ｒｅｐ_ｊ，ｄｓｔ＿ｒｅｐ_ｊ｝」と表記する。

順置換処理部２２は、機械翻訳処理の対象とする第１言語のデータ（翻訳元言語データ）であって、マークアップ言語用タグ（例えば、ＸＭＬタグ）を含む第１言語のデータを、データＤｉｎ＿ｓｒｃとして入力する。そして、順置換処理部２２は、データＤｉｎ＿ｓｒｃに含まれるマークアップ言語用タグを、代替符号（プレースホルダー）に置換する処理（順置換処理）を行う。そして、順置換処理部２２は、当該順置換処理後の第１言語データを、データＤｉｎ＿ｒｅｐとして、第１セレクタＳＥＬ２１に出力する。また、順置換処理部２２は、順置換処理において、マークアップ言語用タグと、当該マークアップ言語用タグを置換した代替符号（プレースホルダー）との対応関係のリストを生成し、当該リストを含むデータを、データＤ＿ｌｉｓｔ＿ｒｅｐとして、逆置換処理部２５に出力する。

第１セレクタＳＥＬ２１は、訓練用データ取得部２１から出力されるデータＤｉｎ＿ｔｒと、順置換処理部２２から出力されるデータＤｉｎ＿ｒｅｐとを入力する。また、第１セレクタＳＥＬ２１は、機械翻訳処理装置２の各機能部を制御する制御部（不図示）から出力される選択信号ｓｅｌ２１を入力する。第１セレクタＳＥＬ２１は、選択信号ｓｅ２１に従い、データＤｉｎ＿ｔｒ、および、データＤｉｎ＿ｒｅｐのいずれか一方を選択し、選択したデータを、データＤ１として、機械翻訳処理部２３に出力する。

なお、（１）機械翻訳処理部２３において学習処理（訓練処理）を行う場合（学習処理時（訓練時））、制御部は、その信号値を「０」とする選択信号ｓｅｌ２１を第１セレクタＳＥＬ２１に出力し、第１セレクタＳＥＬ２１は、当該選択信号に従い、データＤｉｎ＿ｔｒを選択し、選択したデータＤｉｎ＿ｔｒをデータＤ１として、機械翻訳処理部２３に出力する。（２）機械翻訳処理部２３において予測処理（機械翻訳処理）を行う場合（予測処理時（機械翻訳実行時））、制御部は、その信号値を「１」とする選択信号ｓｅｌ２１を第１セレクタＳＥＬ２１に出力し、第１セレクタＳＥＬ２１は、当該選択信号に従い、データＤｉｎ＿ｒｅｐを選択し、選択したデータＤｉｎ＿ｒｅｐをデータＤ１として、機械翻訳処理部２３に出力する。

機械翻訳処理部２３は、機械翻訳モデルを含んでおり、第１セレクタＳＥＬ２１から出力されるデータＤ１を入力する。機械翻訳処理部２３に含まれる機械翻訳モデルは、学習可能モデル（データに基づく学習によりパラメータが最適化されることで学習済みモデルが構築されるモデル）であり、機械翻訳の学習を行うためのモデル（例えば、ニューラルネットワークを用いた機械翻訳モデル）である。

（１）学習処理時（訓練時）において、機械翻訳処理部２３の機械翻訳モデルは、第１セレクタＳＥＬ２１からデータＤ１（＝Ｄｉｎ＿ｔｒ）を入力し、機械翻訳モデルにより取得されたデータを、データＤ２として、第２セレクタＳＥＬ２２に出力する。また、学習処理時（訓練時）において、機械翻訳処理部２３の機械翻訳モデルは、損失評価部２４から出力されるパラメータ更新データｕｐｄａｔｅ（θ）を入力し、当該パラメータ更新データｕｐｄａｔｅ（θ）に基づいて、機械翻訳モデルのパラメータを更新する（例えば、機械翻訳処理部２３の機械翻訳モデルがニューラルネットワークを用いたモデルである場合、誤差逆伝播法により、機械翻訳処理部２３の機械翻訳モデルのパラメータを更新する）。

（２）予測処理時（機械翻訳処理実行時）において、機械翻訳処理部２３の機械翻訳モデル（学習処理により取得された最適パラメータが設定された状態の機械翻訳モデル（学習済モデル））は、第１セレクタＳＥＬ２１からデータＤ１（＝Ｄｉｎ＿ｒｅｐ）を入力し、機械翻訳処理部２３の機械翻訳モデル（学習済モデル）により取得されたデータを、データＤ２として、第２セレクタＳＥＬ２２に出力する。

第２セレクタＳＥＬ２２は、機械翻訳処理部２３から出力されるデータＤ２と、機械翻訳処理装置２の各機能部を制御する制御部（不図示）から出力される選択信号ｓｅｌ２２とを入力する。第２セレクタＳＥＬ２２は、選択信号ｓｅｌ２２に従い、データＤ２を、損失評価部２４および逆置換処理部２５のいずれか一方に出力する。

なお、（１）機械翻訳処理部２３において学習処理（訓練処理）を行う場合（学習処理時（訓練時））、制御部は、その信号値を「０」とする選択信号ｓｅｌ２２を第２セレクタＳＥＬ２２に出力し、第２セレクタＳＥＬ２２は、当該選択信号に従い、データＤ２を、データＤ２１として、損失評価部２４に出力する。（２）機械翻訳処理部２３において予測処理（機械翻訳処理）を行う場合（予測処理時（機械翻訳実行時））、制御部は、その信号値を「１」とする選択信号ｓｅｌ２２を第２セレクタＳＥＬ２２に出力し、第２セレクタＳＥＬ２２は、当該選択信号に従い、データＤ２を、データＤ２２として、逆置換処理部２５に出力する。

損失評価部２４は、訓練用データ取得部２１から出力される訓練用正解データＤ＿ｃｏｒｒｅｃｔと、第２セレクタＳＥＬ２２から出力されるデータＤ２１とを入力する。損失評価部２４は、データＤ２１と、訓練用正解データＤ＿ｃｏｒｒｅｃｔとの損失（例えば、誤差）を、例えば、損失関数により評価し、当該評価結果に基づいて、機械翻訳処理部２３の機械翻訳モデルのパラメータを更新するためのデータであるパラメータ更新データｕｐｄａｔｅ（θ）を生成する。そして、損失評価部２４は、生成したパラメータ更新データｕｐｄａｔｅ（θ）を機械翻訳処理部２３に出力する。なお、図１では、機械翻訳処理部２３の出力から、損失評価部２４への経路と、損失評価部２４から機械翻訳処理部２３へパラメータ更新データｕｐｄａｔｅ（θ）を出力する経路とが別経路として図示しているが、これは、便宜上（図示の都合上）のものであり、図１の形態に限定されない。機械翻訳処理装置２において、誤差逆伝播法により機械翻訳処理部２３の機械翻訳モデルのパラメータを更新する場合、損失評価部２４で取得した誤差（誤差関数により取得した誤差（例えば、交差エントロピー誤差））は、機械翻訳処理部２３の機械翻訳モデルにより出力データを取得した経路（順伝播の経路）を逆にたどる経路にて、誤差を順次伝播（逆伝播）させながら、機械翻訳処理部２３の機械翻訳モデルの各パラメータ（機械翻訳処理部２３の機械翻訳モデルの各層のパラメータ）を更新するようにすればよい。

また、損失評価部２４は、取得した誤差（損失）が（１）所定の範囲内に収まるようになった場合、あるいは、（２）当該誤差（損失）の変化量が所定の範囲内に収まるようになった場合、学習処理を継続させる必要がないと判定し、学習処理を終了させる。

逆置換処理部２５は、第２セレクタＳＥＬ２２から出力されるデータＤ２２と、順置換処理部２２から出力されるデータＤ＿ｌｉｓｔ＿ｒｅｐとを入力する。逆置換処理部２５は、データＤ２２から、順置換処理部２２により置換された代替符号（プレースホルダー）を検出し、検出した代替符号を、データＤ＿ｌｉｓｔ＿ｒｅｐに含まれるリスト（順置換処理において、マークアップ言語用タグと、当該マークアップ言語用タグを置換した代替符号（プレースホルダー）との対応関係のリスト）に基づいて、元のマークアップ言語用タグに戻す（置換する）処理（逆置換処理）を行う。そして、逆置換処理部２５は、データＤ２２に対して逆置換処理を施した後のデータを、出力データＤｏ＿ｄｓｔとして、出力する。

＜１．２：機械翻訳処理システムの動作＞
以上のように構成された機械翻訳処理システム１０００の動作について説明する。

以下では、機械翻訳処理システム１０００の動作について、（１）訓練用データ生成処理、（２）機械翻訳モデルの学習処理（訓練処理）（作成方法）、および、（３）予測処理（機械翻訳実行処理）に分けて説明する。

なお、説明便宜のため、機械翻訳処理システム１０００では、第１言語（翻訳元言語）を第２言語（翻訳先言語）に機械翻訳する処理を実行するためのシステムであるものとする。

（１．２．１：訓練用データ生成処理）
まず、機械翻訳処理システム１０００で実行される訓練用データ生成処理について、説明する。

図２は、機械翻訳処理システム１０００で実行される訓練用データ生成処理のフローチャートである。

図３は、機械翻訳処理システム１０００の訓練用データ生成装置１で実行される置換処理について説明するための図である。

以下では、図２のフローチャートを参照しながら、機械翻訳処理システム１０００で実行される訓練用データ生成処理について、説明する。

（ステップＳ１０１）：
ステップＳ１０１において、代替符号（プレースホルダー）の設定処理が実行される。具体的には、以下のように処理が実行される。

訓練用データ生成装置１の置換処理部１２は、第１言語のデータ（翻訳元言語データ）と、当該第１言語のデータの第２言語へ翻訳したデータである第２言語のデータ（翻訳先言語データ）とを対にしたデータである対訳データであって、マークアップ言語用タグを含まない対訳データＤｉｎ＿ｔｒ（訓練用データ生成装置１に入力される対訳データ）に対して、代替符号（プレースホルダー）に置換する開始終了対応符号を設定する。

「開始終了対応符号」とは、単語列や文字列（サブワード列を含む）において、開始（あるいは起点）を示す符号（開始符号）と、当該開始符号と対応させて用いられる（ペア（組み）を構成するように用いられる）符号であって、終了（あるいは終点）を示す符号（終了符号）とをペア（組み）にした符号のことをいう。例えば、「開始終了対応符号」としては、以下の符号が挙げられる。
（１）「()」（左側丸括弧（開始符号）と右側丸括弧（終了符号））
（２）「[]」（左側カギ括弧（開始符号）と右側カギ括弧（終了符号））
（３）「""」（左側ダブル引用符号（開始符号）と右側ダブル引用符号（終了符号））
（４）「''」（左側シングル引用符号（開始符号）と右側シングル引用符号（開始符号））
なお、開始終了対応符号は、上記に限定されることはなく、開始符号と終了符号が対応している（左の符号と右の符号とが対応している符号）であれば、他の符号であってもよい。

また、第１言語、第２言語において、２バイトコードの文字コードを使用する言語である場合、当該言語における開始終了対応符号は、２バイトコード（文字コード）の符号として設定されるものであってもよい。例えば、第１言語が日本語であり、第２言語が英語である場合であって、開始終了対応符号を「()」（左側丸括弧（開始符号）と右側丸括弧（終了符号））とする場合、（Ａ）２バイトコードを使用する言語である日本語（第１言語）においては、開始終了対応符号を１バイトコード（半角文字）の左側丸括弧（開始符号）と右側丸括弧（終了符号）、および／または、２バイトコード（全角文字）の左側丸括弧（開始符号）と右側丸括弧（終了符号）と設定し、（Ｂ）第２言語（英語）については、開始終了対応符号を１バイトコード（半角文字）の左側丸括弧（開始符号）と右側丸括弧（終了符号）に設定するようにしてもよい。

なお、以下では、説明便宜のため、第１言語を日本語とし、第２言語を英語とし、開始終了対応符号を
（１）「()」（左側丸括弧（開始符号）と右側丸括弧（終了符号））
（２）「[]」（左側カギ括弧（開始符号）と右側カギ括弧（終了符号））
とし、第１言語、第２言語ともに、１バイトコードの文字（半角文字）を開始終了対応符号に設定する場合（一例）について、説明する。

訓練用データ生成装置１の置換処理部１２は、第１言語を日本語とし、第２言語を英語とし、開始終了対応符号を
（１）「()」（左側丸括弧（開始符号）と右側丸括弧（終了符号））
（２）「[]」（左側カギ括弧（開始符号）と右側カギ括弧（終了符号））
に設定する。

（ステップＳ１０２）：
ステップＳ１０２において、置換割合の設定処理が実行される。具体的には、以下のように処理が実行される。

置換割合設定部１１は、開始終了対応符号を代替符号（プレースホルダー）に置換する割合を設定する。そして、置換割合設定部１１は、設定した置換割合データ（開始終了対応符号を代替符号（プレースホルダー）に置換する割合を示すデータ）を、データｒ＿ｒｅｐとして、置換処理部１２に出力する。本実施形態では、説明便宜のため、置換割合設定部１１は、開始終了対応符号を代替符号（プレースホルダー）に置換する割合を「０．１」（１０％）に設定したものとして、以下説明する。

なお、置換割合設定部１１により設定される割合（置換割合データｒ＿ｒｅｐが示す割合）は、代替符号（プレースホルダー）が出現する確率が、機械翻訳処理装置２に入力されるマークアップ言語用タグ付きの第１言語データ（翻訳元言語データ）において、マークアップ言語用タグが出現する確率と同程度となるように、設定することが好ましい。つまり、上記置換処理後の対訳データＤｏ＿ｔｒにおける代替符号（プレースホルダー）の出現確率（出現確率分分布）と、機械翻訳処理装置２に入力されるマークアップ言語用タグ付きの第１言語データ（翻訳元言語データ）（機械翻訳処理の対象とするデータ）におけるマークアップ言語用タグの出現確率（出現確率分布）とが近くなるようにすることが好ましい。このようにすることで、訓練用データにおける代替符号（プレースホルダー）の出現確率分布が、実際に機械翻訳処理対象とする言語データにおけるマークアップ言語用タグの出現確率分布と近くなり、上記訓練用データを用いた機械翻訳処理の学習処理の精度を向上させることができる。なお、発明者による研究では、大規模コーパスでの「（）」や「[]」の出現確率は０．１程度であり、そのうちの１０％について置換すると１％が代替符号となる。この比率は、対象の機械翻訳処理の入力となる言語データ（平文やマークアップ言語用タグ付きの文を含む）での、マークアップ言語用タグの出現確率に近いものとなっている。

また、置換割合設定部１１により置換する割合を設定することで（１．０未満の値に設定することで）、全ての開始終了対応符号が、代替符号（プレースホルダー）に置換されないことが保証される。これにより、置換処理後の対訳データ中に開始終了対応符号が含まれることが保証され、当該開始終了対応符号についても適切に学習処理（訓練）が可能となる（翻訳元言語データの開始終了対応符号を、機械翻訳処理結果データ（翻訳先言語データ）において、正しく出現させる（機械翻訳する）ことが可能となる）。

（ステップＳ１０３）：
ステップＳ１０３において、ループ処理（ループ１）が開始される。訓練用データ生成装置１に入力される対訳データＤｉｎ＿ｔｒが、Ｎ組み（Ｎ：自然数）である場合、各対訳データ｛ｓｒｃ＿ｒｅｐ_ｉ，ｄｓｔ＿ｒｅｐ_ｉ｝（ｉ：自然数、１≦ｉ≦Ｎ）に対して、Ｎ回、ループ処理（ループ１）が実行される。つまり、１番目の対訳データ｛ｓｒｃ＿ｒｅｐ_１，ｄｓｔ＿ｒｅｐ_１｝からＮ番目の対訳データ｛ｓｒｃ＿ｒｅｐ_Ｎ，ｄｓｔ＿ｒｅｐ_Ｎ｝に対して、ループ処理（ループ１）が実行される。

（ステップＳ１０４、Ｓ１０５）：
ステップＳ１０４、Ｓ１０５において、第１言語データ（ｓｒｃ_ｉ）の置換処理、および、第２言語データ（ｄｓｔ_ｉ）の置換処理が実行される。具体的には、以下の処理が実行される。

置換処理部１２は、第１言語のデータ（翻訳元言語データ）と、当該第１言語のデータの第２言語へ翻訳したデータである第２言語のデータ（翻訳先言語データ）とを対にしたデータである対訳データであって、マークアップ言語用タグを含まない対訳データＤｉｎ＿ｔｒを入力する。なお、対訳データＤｉｎ＿ｔｒは、第１言語、第２言語ともに、形態素解析処理が実行され、形態素に分離されたデータ（単語列、サブワード列等）であるものとする。

また、置換処理部１２は、置換割合設定部１１から出力される置換割合データｒ＿ｒｅｐが示す割合で、対訳データＤｉｎ＿ｔｒに含まれる開始終了対応符号を、代替符号（プレースホルダー）に置換する処理を行う。本実施形態では、置換割合データｒ＿ｒｅｐが示す割合が「０．１」（１０％）に設定されているので、置換処理部１２は、代替符号（プレースホルダー）に置換すると設定した開始終了対応符号を含む文（対訳文データ）のうち、１０％の文（対訳分データ）を置換処理（開始終了対応符号を、代替符号（プレースホルダー）に置換する処理）の対象とし、置換処理の対象とした対訳データに対して、置換処理を実行する。

ここで、置換処理の一例として、図３の場合について、説明する。

図３に示すように、ｉ番目の対訳データの第１言語（日本語）のデータ（ｓｒｃ_ｉ）、および、第２言語（英語）のデータ（ｄｓｔ_ｉ）が下記のものであるとする。
＜第１言語（日本語）データ（ｓｒｃ_ｉ）＞
[ 一般名 ] テリパラチド ( 遺伝子組換え )
＜第２言語（英語）データ（ｄｓｔ_ｉ）＞
[ Non - proprietary name ] Teriparatide ( Genetical Recombination )
そして、置換処理部１２は、開始終了対応符号を
（１）「()」（左側丸括弧（開始符号）と右側丸括弧（終了符号））
（２）「[]」（左側カギ括弧（開始符号）と右側カギ括弧（終了符号））
に設定しているので、上記（１）、（２）の符号を、代替符号（プレースホルダー）に置換する。

具体的には、置換処理部１２は、第１言語（日本語）のデータ（ｓｒｃ_ｉ）、および、第２言語（英語）のデータ（ｄｓｔ_ｉ）において、開始終了対応符号のうち、開始符号を「TAGS_k」（または、「TAGS_k」を含む文字列）に置換し、終了符号を「TAGE_k」（または、「TAGE_k」を含む文字列）に置換する。なお、開始符号の代替符号および終了符号の代替符号の添え字kは、同一の文内では（同一の対訳データ内では）、同一種類の開始終了対応符号について同じ整数値に設定されるものとし、添え字kは、所定の範囲から無作為に取得した整数値に設定されるものとする。

図３の対訳データ（｛ｓｒｃ_ｉ，ｄｓｔ_ｉ｝）の場合、置換処理部１２は、開始終了対応符号「()」の開始符号である左側丸括弧「(」の代替符号（プレースホルダー）を「_@@@_TAGS_1」に設定し、開始終了対応符号「()」の終了符号である右側丸括弧「)」の代替符号（プレースホルダー）を「_@@@_TAGE_1」に設定する。

また、図３の対訳データ（｛ｓｒｃ_ｉ，ｄｓｔ_ｉ｝）の場合、置換処理部１２は、開始終了対応符号「[]」の開始符号である左側カギ括弧「[」の代替符号（プレースホルダー）を「_@@@_TAGS_2」に設定し、開始終了対応符号「[]」の終了符号である右側丸括弧「]」の代替符号（プレースホルダー）を「_@@@_TAGE_2」に設定する（置換対象および代替符号の設定）。

そして、置換処理部１２は、上記の置換対象および代替符号の設定に従い、第１言語（日本語）のデータ（ｓｒｃ_ｉ）に対して置換処理を実行し、置換処理後の第１言語データｓｒｃ＿ｒｅｐ_ｉを取得する。つまり、置換処理部１２は、下記のデータを、置換処理後の第１言語データｓｒｃ＿ｒｅｐ_ｉとして取得する（ステップＳ１０４）。
＜置換処理後の第１言語（日本語）データ（ｓｒｃ_ｉ）＞
_@@@_TAGS_2 一般名 _@@@_TAGE_2 テリパラチド _@@@_TAGS_1 遺伝子組換え _@@@_TAGE_1
また、置換処理部１２は、上記の置換対象および代替符号の設定に従い、第２言語（英語）のデータ（ｄｓｔ_ｉ）に対して置換処理を実行し、置換処理後の第２言語データｄｓｔ＿ｒｅｐ_ｉを取得する。つまり、置換処理部１２は、下記のデータを、置換処理後の第２言語データｄｓｔ＿ｒｅｐ_ｉとして取得する（ステップＳ１０５）。
＜置換処理後の第２言語（英語）データ（ｄｓｔ_ｉ）＞
_@@@_TAGS_2 Non - proprietary name _@@@_TAGE_2 Teriparatide _@@@_TAGS_1 Genetical Recombination _@@@_TAGE_1
（ステップＳ１０６）：
ステップＳ１０６において、置換処理部１２は、ステップＳ１０４、Ｓ１０５で取得した置換処理後の第１言語データｓｒｃ＿ｒｅｐ_ｉと、置換処理後の第２言語データｄｓｔ＿ｒｅｐ_ｉとをペア（組み）にした置換処理後の対訳データ（｛ｓｒｃ＿ｒｅｐ_ｉ，ｄｓｔ＿ｒｅｐ_ｉ｝）を取得し、取得した置換処理後の対訳データ（｛ｓｒｃ＿ｒｅｐ_ｉ，ｄｓｔ＿ｒｅｐ_ｉ｝）を、置換処理後の対訳データＤｏ＿ｔｒとして、データ記憶部ＤＢ１に出力し、データ記憶部ＤＢ１に記憶させる。

（ステップＳ１０７）：
ステップＳ１０７において、置換処理部１２は、ループ処理（ループ１）の終了条件を満たすか否か（置換処理対象とした対訳データに対して、全て置換処理が実行されたか否か）を判定し、ループ処理の終了条件を満たさないと判定した場合、処理をステップＳ１０３に戻し、ステップＳ１０４～Ｓ１０６の処理を実行する。一方、置換処理部１２は、ループ処理の終了条件を満たすと判定した場合、処理を終了させる（訓練用データ生成処理を終了させる）。

以上により、訓練用データ生成装置１では、例えば、置換処理の対象とする対訳データをＮ個とすると、Ｎ個の置換処理後の対訳データ（置換処理が実行された対訳データの割合は、置換対象に設定した開始終了対応符号を含む対訳文の内の１０％（ｒ＿ｒｅｐで設定した割合）である）を取得することができる。

訓練用データ生成装置１では、上記処理により、マークアップ言語用タグ（例えば、ＸＭＬタグ）を含まない対訳文（対訳データ）に、マークアップ言語用タグ（例えば、ＸＭＬタグ）に相当する代替符号（プレースホルダー）を挿入することができる。つまり、訓練用データ生成装置１では、上記処理により、マークアップ言語用タグ（例えば、ＸＭＬタグ）付きの対訳文（対訳データ）と同等の対訳文（対訳データ）を取得することができる。つまり、訓練用データ生成装置１により、上記処理で取得された対訳データは、マークアップ言語用タグに相当する代替符号（プレースホルダー）を含んでいるので、上記処理で取得された対訳データを、機械翻訳モデルの学習処理の訓練データとして用いることで、マークアップ言語用タグ（例えば、ＸＭＬタグ）付きの対訳文（対訳データ）を訓練データとして、機械翻訳モデルの学習処理を行ったときと同等の効果を奏することができる（同等の学習処理を行うことができる）。

（１．２．２：機械翻訳モデルの学習処理（訓練処理）（作成方法））
次に、機械翻訳処理システム１０００で実行される機械翻訳モデルの学習処理（訓練処理）（作成方法）について、説明する。

訓練用データ取得部２１は、データ記憶部ＤＢ１に対して、データ読み出し指令を出力し、データ記憶部ＤＢ１から、データ記憶部ＤＢ１に記憶されている置換処理後対訳データを、訓練用対訳データＤｉｎ＿ｔｒ＿ｒｅｐ（＝｛ｓｒｃ＿ｒｅｐ_ｊ，ｄｓｔ＿ｒｅｐ_ｊ｝）として読み出す。訓練用データ取得部２１は、訓練用対訳データＤｉｎ＿ｔｒ＿ｒｅｐから、第１言語のデータ（翻訳元言語データ）（ｓｒｃ＿ｒｅｐ_ｊ）を取り出し、取り出した第１言語のデータ（翻訳元言語データ）を、訓練用入力データＤｉｎ＿ｔｒ（＝ｓｒｃ＿ｒｅｐ_ｊ）として、第１セレクタＳＥＬ２１に出力する。また、訓練用データ取得部２１は、訓練用対訳データＤｉｎ＿ｔｒ＿ｒｅｐから、第１セレクタＳＥＬ２１に出力した第１言語データと対訳をなす第２言語のデータ（翻訳先言語データ）（ｄｓｔ＿ｒｅｐ_ｊ）を取り出し、取り出した第２言語のデータ（翻訳先言語データ）を、訓練用正解データＤ＿ｃｏｒｒｅｃｔ（＝ｄｓｔ＿ｒｅｐ_ｊ）として、損失評価部２４に出力する。

機械翻訳処理装置２の各機能部を制御する制御部（不図示）は、その信号値を「０」とする選択信号ｓｅｌ２１を第１セレクタＳＥＬ２１に出力する。第１セレクタＳＥＬ２１は、当該選択信号に従い、データＤｉｎ＿ｔｒを選択し、選択したデータＤｉｎ＿ｔｒ（＝ｓｒｃ＿ｒｅｐ_ｊ）をデータＤ１として、機械翻訳処理部２３に出力する。

機械翻訳処理部２３の機械翻訳モデルは、第１セレクタＳＥＬ２１からデータＤ１（＝Ｄｉｎ＿ｔｒ）を入力し、機械翻訳モデルによる機械翻訳処理を実行し、当該機械翻訳処理により取得されたデータを、データＤ２として、第２セレクタＳＥＬ２２に出力する。

機械翻訳処理装置２の各機能部を制御する制御部（不図示）は、その信号値を「０」とする選択信号ｓｅｌ２２を第２セレクタＳＥＬ２２に出力する。第２セレクタＳＥＬ２２は、当該選択信号に従い、機械翻訳処理部２３から出力されるデータＤ２を損失評価部２４に出力する経路を選択し、データＤ２を損失評価部２４に出力する。

機械翻訳処理装置２において、上記学習処理が、訓練用データ取得部２１によりデータ記憶部ＤＢ１から取得された（読み出された）対訳データ（｛ｓｒｃ＿ｒｅｐ_ｊ，ｄｓｔ＿ｒｅｐ_ｊ｝）に対して繰り返し実行される。

そして、損失評価部２４により取得される誤差（損失）が（１）所定の範囲内に収まるようになった場合、あるいは、（２）損失評価部２４により取得される誤差（損失）の変化量が所定の範囲内に収まるようになった場合、損失評価部２４は、学習処理を継続させる必要がないと判定し、学習処理を終了させる。そして、学習処理が終了した時点において、機械翻訳処理部２３の機械翻訳モデルに設定されているパラメータが、最適化パラメータとして、機械翻訳処理部２３の機械翻訳モデルに設定（固定）され、機械翻訳処理部２３の機械翻訳モデルの学習済モデルが取得される。

上記の通り、機械翻訳処理システム１０００において、機械翻訳モデルの学習処理（訓練処理）が実行され、機械翻訳処理部２３の機械翻訳モデルの学習済モデルが取得される。

（１．２．３：予測処理（機械翻訳実行処理））
次に、機械翻訳処理システム１０００で実行される予測処理（機械翻訳実行処理）について、説明する。

図４は、機械翻訳処理システム１０００で実行される予測処理（機械翻訳実行処理）のフローチャートである。

図５は、機械翻訳処理システム１０００の予測処理（機械翻訳実行処理）について説明するための図である。

以下では、図４のフローチャートを参照しながら、機械翻訳処理システム１０００で実行される予測処理（機械翻訳実行処理）について、説明する。

なお、機械翻訳処理装置２には、マークアップ言語用タグ（例えば、ＸＭＬタグ）を含む第１言語（日本語）のデータが入力されるものとする。また、マークアップ言語用タグは、ＸＭＬタグである場合について、以下、説明する。

（ステップＳ２０１）：
ステップＳ２０１において、順置換処理が実行される。具体的には、以下の処理が実行される。

順置換処理部２２は、機械翻訳処理の対象とする第１言語（日本語）のデータ（翻訳元言語データ）であって、マークアップ言語用タグ（ＸＭＬタグ）を含む第１言語のデータを、データＤｉｎ＿ｓｒｃとして入力する。なお、第１言語のデータ（翻訳元言語データ）は、形態素解析処理が実行され、形態素に分離されたデータ（単語列、サブワード列等）であるものとする。

順置換処理部２２は、データＤｉｎ＿ｓｒｃに含まれるマークアップ言語用タグ（ＸＭＬタグ）を検出し、検出したマークアップ言語用タグ（ＸＭＬタグ）を代替符号（プレースホルダー）に置換する処理（順置換処理）を行う。そして、順置換処理部２２は、当該置換処理後の第１言語データを、データＤｉｎ＿ｒｅｐとして、第１セレクタＳＥＬ２１に出力する。

なお、順置換処理部２２は、入力されたマークアップ言語用タグ（ＸＭＬタグ）を含む第１言語のデータＤｉｎ＿ｓｒｃのデータ（文）の中のＸＭＬの開始・終了タグを、訓練用データ生成処理時に用いたのと同じ代替符号（プレースホルダー）に置換することで順置換処理を行う。すなわち、順置換処理部２２は、（１）入力されたマークアップ言語用タグ（ＸＭＬタグ）を含む第１言語のデータＤｉｎ＿ｓｒｃのデータ（文）の中のＸＭＬの開始タグを「TAGS_k」（または、「TAGS_k」を含む文字列）に置換し、（２）データＤｉｎ＿ｓｒｃのデータ（文）の中のＸＭＬの終了タグを「TAGE_k」（または、「TAGE_k」を含む文字列）に置換する。

そして、訓練用データ生成処理時と同様に、ＸＭＬの開始タグの代替符号（「TAGS_k」）およびＸＭＬの終了タグの代替符号（「TAGE_k」）の添え字kは、同一の文内では（同一の入力データ内（順置換処理の対象とする処理単位のデータ内）では）、同一種類のＸＭＬ開始終了タグについて同じ整数値に設定されるものとし、添え字kは、所定の範囲から無作為に取得した整数値に設定されるものとする。

例えば、図５に示す入力データＤｉｎ＿ｓｒｃ（＝「今日の天気は <div> 晴れ </div>です。」）が、機械翻訳処理装置２に入力された場合、順置換処理部２２は、入力データＤｉｎ＿ｓｒｃに含まれるＸＭＬの開始タグ「<div>」および終了タグ「</div>」を検出し、ＸＭＬの開始タグ「<div>」を代替符号「_@@@_TAGS_1」に置換し、ＸＭＬの終了タグ「</div>」を代替符号「_@@@_TAGE_1」に置換することで順置換処理を実行し、図５に示す、順置換処理後のデータＤｉｎ＿ｒｅｐ（＝「今日の天気は _@@@_TAGS_1 晴れ _@@@_TAGE_1 です。」）を取得する。

順置換処理部２２は、上記順置換処理を行った後の第１言語データを、データＤｉｎ＿ｒｅｐとして、第１セレクタＳＥＬ２１に出力する。

また、順置換処理部２２は、順置換処理において、ＸＭＬタグ（マークアップ言語用タグ）と、当該ＸＭＬタグを置換した代替符号（プレースホルダー）との対応関係のリストを生成し、当該リストを含むデータを、データＤ＿ｌｉｓｔ＿ｒｅｐとして、逆置換処理部２５に出力する。図５の場合、順置換処理部２２は、ＸＭＬタグ「<div>」を代替符号「 _@@@_TAGS_1」に置換し、ＸＭＬタグ「</div>」を代替符号「 _@@@_TAGE_1」に置換したことを示すリストを生成し、当該リストを含むデータを、データＤ＿ｌｉｓｔ＿ｒｅｐとして、逆置換処理部２５に出力する。

機械翻訳処理装置２の各機能部を制御する制御部（不図示）は、その信号値を「０」とする選択信号ｓｅｌ２１を第１セレクタＳＥＬ２１に出力する。第１セレクタＳＥＬ２１は、当該選択信号に従い、順置換処理部２２から出力されるデータＤｉｎ＿ｒｅｐを選択し、選択したデータＤｉｎ＿ｒｅｐをデータＤ１として、機械翻訳処理部２３に出力する。

（ステップＳ２０２）：
ステップＳ２０２において、機械翻訳処理が実行される。具体的には、以下の処理が実行される。

機械翻訳処理部２３の機械翻訳モデルは、第１セレクタＳＥＬ２１からデータＤ１（＝Ｄｉｎ＿ｔｒ）を入力し、機械翻訳モデルによる機械翻訳処理を実行する。

例えば、図５の場合、順置換処理後のデータＤｉｎ＿ｒｅｐ（＝「今日の天気は _@@@_TAGS_1 晴れ _@@@_TAGE_1 です。」）が機械翻訳処理部２３の機械翻訳モデルに入力された場合、機械翻訳処理部２３は、機械翻訳モデル（学習済みモデル）を用いて、入力データに対して機械翻訳処理を実行し、図５に示す機械翻訳処理結果データ（＝「The weather is _@@@_TAGS_1 fine _@@@_TAGE_1 today.」）を取得する。機械翻訳処理部２３の機械翻訳モデルは、代替符号（プレースホルダー）を含む対訳データにより学習処理を行い最適化されたモデルであるため、ＸＭＬタグを代替符号（プレースホルダー）に置換したデータ（第１言語データ）を機械翻訳モデル（学習済モデル）に入力した場合、機械翻訳モデル（学習済モデル）は、代替符号（プレースホルダー）を適切な位置（文中の位置）に維持したまま、適切な機械翻訳文（機械翻訳処理結果データ（第２言語（英語）のデータ））を出力（取得）する。

このようにして、機械翻訳処理部２３の機械翻訳モデル（学習済みモデル）により取得されたデータ（機械翻訳処理後のデータ）は、データＤ２として、機械翻訳処理部２３から第２セレクタＳＥＬ２２に出力される。

機械翻訳処理装置２の各機能部を制御する制御部（不図示）は、その信号値を「１」とする選択信号ｓｅｌ２２を第２セレクタＳＥＬ２２に出力する。第２セレクタＳＥＬ２２は、当該選択信号に従い、機械翻訳処理部２３から出力されるデータＤ２を逆置換処理部２５に出力する経路を選択し、データＤ２を逆置換処理部２５に出力する。

（ステップＳ２０３）：
ステップＳ２０３において、逆置換処理が実行される。具体的には、以下の処理が実行される。

逆置換処理部２５は、第２セレクタＳＥＬ２２から出力されるデータＤ２２と、順置換処理部２２から出力されるデータＤ＿ｌｉｓｔ＿ｒｅｐとを入力する。逆置換処理部２５は、データＤ２２から、順置換処理部２２により置換された代替符号（プレースホルダー）を検出し、検出した代替符号を、データＤ＿ｌｉｓｔ＿ｒｅｐに含まれるリスト（順置換処理において、マークアップ言語用タグと、当該マークアップ言語用タグを置換した代替符号（プレースホルダー）との対応関係のリスト）に基づいて、元のマークアップ言語用タグに戻す（置換する）処理（逆置換処理）を行う。

例えば、図５の場合、データＤ＿ｌｉｓｔ＿ｒｅｐには、ＸＭＬタグ「<div>」を代替符号「_@@@_TAGS_1」に置換し、ＸＭＬタグ「</div>」を代替符号「_@@@_TAGE_1」に置換したことを示すリストが含まれているので、逆置換処理部２５は、当該リストを取得し、機械翻訳処理後のデータＤ２に含まれる代替符号を元のＸＭＬタグに置換する（戻す）処理（逆置換処理）を行う。つまり、図５の場合、機械翻訳処理後のデータＤ２（＝「The weather is _@@@_TAGS_1 fine _@@@_TAGE_1 today.」）において、代替符号「_@@@_TAGS_1」をＸＭＬタグ「<div>」に置換し（戻し）、代替符号「_@@@_TAGE_1」をＸＭＬタグ「</div>」に置換する（戻す）処理（逆置換処理）を行う。これにより、逆置換処理部２５は、逆置換処理後のデータ（＝「The weather is <div> fine </div> today.」）を取得する。

そして、逆置換処理部２５は、データＤ２２に対して逆置換処理を施した後のデータを、出力データＤｏ＿ｄｓｔ（＝「The weather is <div> fine </div> today.」（図５の場合））として、出力する。

以上のように、機械翻訳処理システム１０００では、ＸＭＬタグを含む入力データに対して、ＸＭＬタグを、訓練用データ生成時に使用したのと同様の代替符号（プレースホルダー）に置換し、代替符号が挿入された対訳データで最適化された機械翻訳モデルの学習済モデルを用いて、機械翻訳処理を実行するので、代替符号が挿入された状態を適切に維持しつつ適切な機械翻訳処理結果データを取得することができる。そして、機械翻訳処理システム１０００では、代替符号が挿入された状態の機械翻訳処理結果データ（機械翻訳文）において、代替符号をＸＭＬタグに置換する（元に戻す）ことで、ＸＭＬタグが適切な状態で挿入された機械翻訳処理結果データ（機械翻訳文）を取得することができる。

なお、図６にＸＭＬタグ付きの第１言語データ（日本語データ）を機械翻訳処理システム１０００で機械翻訳処理した結果を示す。図６の上段は、入力データＤｉｎ＿ｓｒｃおよび逆置換処理後のデータＤｏ＿ｄｓｔのＸＭＬタグ付きデータ（ＸＭＬソースコード）を表示したものであり、図６の下段は、入力データＤｉｎ＿ｓｒｃおよび逆置換処理後のデータＤｏ＿ｄｓｔのＸＭＬタグを解釈して表示させたものである。図６から分かるように、ＸＭＬタグが適切な位置に維持されたまま、適切に機械翻訳処理（第１言語（日本語）から第２言語（英語）への機械翻訳処理）がなされている。

≪まとめ≫
以上のように、機械翻訳処理システム１０００では、訓練用データ生成装置１により、訓練用データ生成処理を行うことで、マークアップ言語用タグ（例えば、ＸＭＬタグ）を含まない対訳文（対訳データ）において、開始終了対応符号（()、[]のように、左と右とが対応している符号）を検出し、検出した開始終了対応符号を代替符号（プレースホルダー）に置換することで、マークアップ言語用タグ（例えば、ＸＭＬタグ）を挿入された対訳データと同等のデータを、簡単かつ多量に生成することができる。

そして、機械翻訳処理システム１０００の訓練用データ生成装置１により、訓練用データ生成処理で取得された対訳データは、マークアップ言語用タグに相当する代替符号（プレースホルダー）を含んでいるので、訓練用データ生成装置１による訓練用データ生成処理で取得された対訳データを、機械翻訳モデルの学習処理の訓練データとして用いることで、マークアップ言語用タグ（例えば、ＸＭＬタグ）付きの対訳文（対訳データ）を訓練データとして、機械翻訳モデルの学習処理を行ったときと同等の効果を奏することができる（同等の学習処理を行うことができる）。

また、機械翻訳処理システム１０００では、マークアップ言語用タグ（例えば、ＸＭＬタグ）を含む入力データに対して、マークアップ言語用タグを、訓練用データ生成時に使用したのと同様の代替符号（プレースホルダー）に置換し、代替符号が挿入された対訳データで最適化された機械翻訳モデルの学習済モデルを用いて、機械翻訳処理を実行するので、代替符号が挿入された状態を適切に維持しつつ適切な機械翻訳処理結果データを取得することができる。そして、機械翻訳処理システム１０００では、代替符号が挿入された状態の機械翻訳処理結果データ（機械翻訳文）において、代替符号をＸＭＬタグに置換する（元に戻す）ことで、ＸＭＬタグが適切な状態で挿入された機械翻訳処理結果データ（機械翻訳文）を取得することができる。

このように、機械翻訳処理システム１０００により、タグ付きの対訳文を大量に準備することなく、翻訳対象の原文にマークアップ言語用タグを含んだ原文を、マークアップ言語用タグの情報を保持しつつ、高精度に機械翻訳することが可能となる。

［第２実施形態］
次に、第２実施形態について、説明する。なお、上記実施形態と同様の部分については、同一符号を付し、詳細な説明を省略する。

図７は、第２実施形態に係る機械翻訳処理システム２０００の概略構成図である。

図８は、機械翻訳処理システム２０００の訓練用データ生成装置１Ａで実行される置換処理について説明するための図である。

第２実施形態の機械翻訳処理システム２０００は、第１実施形態の機械翻訳処理システム１０００において、訓練用データ生成装置１を訓練用データ生成装置１Ａに置換した構成を有している。

そして、訓練用データ生成装置１Ａは、第１実施形態の訓練用データ生成装置１において、置換処理部１２を置換処理部１２Ａに置換した構成を有している。それ以外は、第２実施形態の機械翻訳処理システム２０００は、第１実施形態の機械翻訳処理システム１０００と同様である。

置換処理部１２Ａは、第１言語のデータ（翻訳元言語データ）と、当該第１言語のデータの第２言語へ翻訳したデータである第２言語のデータ（翻訳先言語データ）とを対にしたデータである対訳データであって、マークアップ言語用タグを含まない対訳データＤｉｎ＿ｔｒを入力する。置換処理部１２Ａは、対訳データＤｉｎ＿ｔｒの中で（対訳文中で）対応がとれている要素の周りに代替符号（プレースホルダー）を挿入する。置換処理部１２Ａは、例えば、固有名詞や数字など、第１言語データ（原文）と第２言語データ（訳文）との間で対応が明確な場合や、単語アライメント処理を実行し、単語やフレーズ間の対応が取れる場合には、それらの対応がとれた要素の前後に代替符号（プレースホルダー）を挿入する処理を行う。置換処理部１２Ａは、代替符号（プレースホルダー）として、第１実施形態と同様の符号を用いる。

具体的には、置換処理部１２Ａは、（１）第１言語データ（原文）と第２言語データ（訳文）との間で対応がとれている要素（単語、サブワード等）の前に、第１実施形態の開始符号の代替符号「TAGS_k」（または、「TAGS_k」を含む文字列）を挿入し、かつ、（２）第１言語データ（原文）と第２言語データ（訳文）との間で対応がとれている要素（単語、サブワード等）の後に、第１実施形態の終了符号の代替符号「TAGE_k」（または、「TAGE_k」を含む文字列）を挿入する。

ここで、置換処理部１２Ａによる置換処理の一例として、図８の場合について、説明する。

図８に示すように、ｉ番目の対訳データの第１言語（日本語）のデータ（ｓｒｃ_ｉ）、および、第２言語（英語）のデータ（ｄｓｔ_ｉ）が下記のものであるとする。
＜第１言語（日本語）データ（ｓｒｃ_ｉ）＞
私は情報通信研究機構に出勤します。
＜第２言語（英語）データ（ｄｓｔ_ｉ）＞
I am going to work at the National Institute of Information and Communications Technology.
そして、置換処理部１２Ａは、第１言語データと第２言語データとで対応している要素（上記では固有名詞）を検出し、検出した要素の前後に代替符号（プレースホルダー）を挿入する処理を行う。つまり、置換処理部１２Ａは、第１言語データにおける固有名詞「情報通信研究機構」と、第２言語における上記第１言語の固有名詞に対応する「the National Institute of Information and Communications Technology」とを検出し（対応している固有名詞を検出し）、検出した要素（上記では、固有名詞を構成する文字列）の前後に代替符号（プレースホルダー）を挿入する。これにより、置換処理部１２Ａは、図８に示すように、下記の置換処理後対訳データ（｛ｓｒｃ＿ｒｅｐ_ｉ，ｄｓｔ＿ｒｅｐ_ｉ｝）を取得する。
＜置換処理後の第１言語（日本語）データ（ｓｒｃ_ｉ）＞
私は _@@@_TAGS_1 情報通信研究機構 _@@@_TAGE_1 に出勤します。
＜置換処理後の第２言語（英語）データ（ｄｓｔ_ｉ）＞
I am going to work at _@@@_TAGS_1 the National Institute of Information and Communications Technology _@@@_TAGE_1.
なお、置換処理部１２Ａは、第１実施形態と同様に、置換割合設定部１１により設定された割合（置換割合データｒ＿ｒｅｐが示す割合）で、上記置換処理（代替符号（プレースホルダー）を挿入して対応要素を置換する処理）を行う。

また、置換割合設定部１１により設定される割合（置換割合データｒ＿ｒｅｐが示す割合、第２実施形態の場合は１％）は、代替符号（プレースホルダー）が出現する確率が、機械翻訳処理装置２に入力されるマークアップ言語用タグ付きの第１言語データ（翻訳元言語データ）において、マークアップ言語用タグが出現する確率と同程度となるように、設定することが好ましい。つまり、上記置換処理後の対訳データＤｏ＿ｔｒにおける代替符号（プレースホルダー）の出現確率（出現確率分分布）と、機械翻訳処理装置２に入力される第１言語データ（翻訳元言語データ）（機械翻訳処理の対象とするデータ）におけるマークアップ言語用タグの出現確率（出現確率分布）とが近くなるようにすることが好ましい。このようにすることで、訓練用データにおける代替符号（プレースホルダー）の出現確率分布が、実際に機械翻訳処理対象とするマークアップ言語用タグ付き言語データにおけるマークアップ言語用タグの出現確率分布と近くなり、上記訓練用データを用いた機械翻訳処理の学習処理の精度を向上させることができる。

上記処理により訓練用データ生成装置１Ａに取得されたデータＤｏ＿ｔｒは、データ記憶部ＤＢ１に記憶され、第１実施形態と同様に、機械翻訳処理システム２０００において、機械翻訳モデルの学習処理（訓練処理）に用いられる。そして、学習処理が完了した、機械翻訳処理システム２０００において、予測処理（機械翻訳実行処理）が実行される。

以上のように、機械翻訳処理システム２０００では、訓練用データ生成装置１Ａにより、訓練用データ生成処理を行うことで、マークアップ言語用タグ（例えば、ＸＭＬタグ）を含まない対訳文（対訳データ）において、原文および訳文間で対応がとれている要素を検出し、検出した要素の前後に代替符号（プレースホルダー）に置換することで、マークアップ言語用タグ（例えば、ＸＭＬタグ）を挿入された対訳データと同等のデータを、簡単かつ多量に生成することができる。

そして、機械翻訳処理システム２０００の訓練用データ生成装置１Ａにより、訓練用データ生成処理で取得された対訳データは、マークアップ言語用タグに相当する代替符号（プレースホルダー）を含んでいるので、訓練用データ生成装置１Ａによる訓練用データ生成処理で取得された対訳データを、機械翻訳モデルの学習処理の訓練データとして用いることで、マークアップ言語用タグ（例えば、ＸＭＬタグ）付きの対訳文（対訳データ）を訓練データとして、機械翻訳モデルの学習処理を行ったときと同等の効果を奏することができる（同等の学習処理を行うことができる）。

また、機械翻訳処理システム２０００では、マークアップ言語用タグ（例えば、ＸＭＬタグ）を含む入力データに対して、マークアップ言語用タグを、訓練用データ生成時に使用したのと同様の代替符号（プレースホルダー）に置換し、代替符号が挿入された対訳データで最適化された機械翻訳モデルの学習済モデルを用いて、機械翻訳処理を実行するので、代替符号が挿入された状態を適切に維持しつつ適切な機械翻訳処理結果データを取得することができる。そして、機械翻訳処理システム２０００では、代替符号が挿入された状態の機械翻訳処理結果データ（機械翻訳文）において、代替符号をＸＭＬタグに置換する（元に戻す）ことで、ＸＭＬタグが適切な状態で挿入された機械翻訳処理結果データ（機械翻訳文）を取得することができる。

このように、機械翻訳処理システム２０００により、タグ付きの対訳文を大量に準備することなく、翻訳対象の原文にマークアップ言語用タグを含んだ原文を、マークアップ言語用タグの情報を保持しつつ、高精度に機械翻訳することが可能となる。

［他の実施形態］
上記実施形態で説明した機械翻訳処理システム１０００、２０００の各機能部は、１つの装置（システム）により実現されてもよいし、複数の装置により実現されてもよい。

また、上記実施形態の一部または全部を組み合わせるようにしてもよい。

また、上記実施形態では、訓練用データ生成装置１、１Ａ、および、機械翻訳処理装置２に、形態素解析処理がなされた対訳データまたは第１言語データが入力される場合について、説明したが、これに限定されることはなく、訓練用データ生成装置１、１Ａ、および、機械翻訳処理装置２に、形態素解析処理がなされていない対訳データまたは第１言語データが入力されるものであってもよい。この場合、形態素解析部を、置換処理部１２、１２Ａおよび順置換処理部２２の前段に設けるようにしてもよい。そして、形態素解析部により、形態素に分離したデータ列（単語列、サブワード列）の対訳データ、あるいは、機械翻訳対象の言語のデータ（第１言語データ）を、訓練用データ生成装置１、１Ａ、あるいは、機械翻訳処理装置２に入力するようにすればよい。

また、上記実施形態において、第１言語データが日本語であり、第２言語データが英語である場合について説明したが、これに限定されることはなく、第１言語データ、および／または、第２言語データは、他の言語であってもよい。つまり、上記実施形態の機械翻訳処理システム１０００、２０００において、翻訳元言語および翻訳先言語は、任意の言語であってよい。

また、第１言語データおよび第２言語データにおいて、共通に使用される開始終了対応符号が存在する場合、機械翻訳処理システム１０００、２０００において、当該開始終了対応符号を代替符号（プレースホルダー）に置換する置換処理を実行するようにしてもよい。

また上記実施形態で説明した機械翻訳処理システム１０００、２０００において、各ブロックは、ＬＳＩなどの半導体装置により個別に１チップ化されても良いし、一部または全部を含むように１チップ化されても良い。

なおここではＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。

また上記各実施形態の各機能ブロックの処理の一部または全部は、プログラムにより実現されるものであってもよい。そして上記各実施形態の各機能ブロックの処理の一部または全部は、コンピュータにおいて、中央演算装置（ＣＰＵ）により行われる。また、それぞれの処理を行うためのプログラムは、ハードディスク、ＲＯＭなどの記憶装置に格納されており、ＲＯＭにおいて、あるいはＲＡＭに読み出されて実行される。

また上記実施形態の各処理をハードウェアにより実現してもよいし、ソフトウェア（ＯＳ（オペレーティングシステム）、ミドルウェア、あるいは所定のライブラリとともに実現される場合を含む。）により実現してもよい。さらにソフトウェアおよびハードウェアの混在処理により実現しても良い。

例えば上記実施形態の各機能部をソフトウェアにより実現する場合、図９に示したハードウェア構成（例えばＣＰＵ、ＧＰＵ、ＲＯＭ、ＲＡＭ、入力部、出力部、通信部、記憶部（例えば、ＨＤＤ、ＳＳＤ等により実現される記憶部）、外部メディア用ドライブ等をバスＢｕｓにより接続したハードウェア構成）を用いて各機能部をソフトウェア処理により実現するようにしてもよい。

また上記実施形態の各機能部をソフトウェアにより実現する場合、当該ソフトウェアは、図９に示したハードウェア構成を有する単独のコンピュータを用いて実現されるものであってもよいし、複数のコンピュータを用いて分散処理により実現されるものであってもよい。

また上記実施形態における処理方法の実行順序は、必ずしも上記実施形態の記載に制限されるものではなく、発明の要旨を逸脱しない範囲で、実行順序を入れ替えることができるものである。また、上記実施形態における処理方法において、発明の要旨を逸脱しない範囲で、一部のステップが、他のステップと並列に実行されるものであってもよい。

前述した方法をコンピュータに実行させるコンピュータプログラム、及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体は、本発明の範囲に含まれる。ここでコンピュータ読み取り可能な記録媒体としては、例えば、フレキシブルディスク、ハードディスク、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、大容量ＤＶＤ、次世代ＤＶＤ、半導体メモリを挙げることができる。

上記コンピュータプログラムは、上記記録媒体に記録されたものに限らず、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク等を経由して伝送されるものであってもよい。

なお本発明の具体的な構成は、前述の実施形態に限られるものではなく、発明の要旨を逸脱しない範囲で種々の変更および修正が可能である。

１０００、２０００機械翻訳処理システム
１、１Ａ訓練用データ生成装置
１１置換割合設定部１１
１２、１２Ａ置換処理部
２機械翻訳処理装置
２２順置換処理部
２３機械翻訳処理部
２４損失評価部
２５逆置換処理部

Claims

マークアップ言語用タグを含む言語データを機械翻訳処理するための機械翻訳処理システムにおいて、機械翻訳処理用の学習可能モデルを訓練するための訓練データを生成する方法であって、
第１言語データと、前記第１言語データの第２言語へ翻訳したデータである第２言語データとを組みにした対訳データであって、前記マークアップ言語用タグを含まない前記対訳データにおいて、開始と終了とが対応している符号である開始終了対応符号を検出する開始終了対応符号検出ステップと、
前記対訳データに対して、前記開始終了対応符号を、代替符号に置換する置換処理を実行することで、前記置換処理後の対訳データを取得する置換処理ステップと、
を備える機械翻訳用訓練データ生成方法。
置換割合を設定する置換割合設定ステップをさらに備え、
前記置換処理ステップは、
前記対訳データに対して、置換割合設定ステップで設定された前記置換割合で、前記開始終了対応符号を、代替符号に置換する置換処理を実行する、
請求項１に記載の機械翻訳用訓練データ生成方法。
請求項１または２に記載の機械翻訳用訓練データ生成方法により生成された訓練データを用いて、マークアップ言語用タグを含む言語データを機械翻訳処理するための機械翻訳処理システムにおいて、機械翻訳処理用の学習可能モデルを学習する方法であって、
前記置換処理後の対訳データに含まれる前記第１言語データを前記機械翻訳処理用の学習可能モデルに入力するデータ入力ステップと、
前記データ入力ステップで入力されたデータに対する前記機械翻訳処理用の学習可能モデルの出力データを取得する出力データ取得ステップと、
前記出力データ取得ステップにより取得された前記出力データと、前記置換処理後の対訳データに含まれる前記第２言語データを正解データとして取得し、前記出力データと前記正解データとの損失を評価する損失評価ステップと、
前記損失評価ステップにより取得された損失が小さくなるように、前記機械翻訳処理用の学習可能モデルのパラメータを更新するパラメータ更新ステップと、
を備える機械翻訳処理用の学習可能モデルの作成方法。
請求項３に記載の機械翻訳処理用の学習可能モデルの作成方法により学習させて取得した機械翻訳処理用の学習可能モデルの学習済みモデルを用いて機械翻訳処理を実行する方法であって、
入力された第１言語データに含まれる前記マークアップ言語用タグを、前記代替符号に置換する順置換処理を実行する順置換処理ステップと、
前記順置換処理後の第１言語データに対して、前記機械翻訳処理用の学習可能モデルの学習済みモデルを用いて機械翻訳処理を実行することで、機械翻訳処理後の第２言語データを取得する機械翻訳処理ステップと、
前記機械翻訳処理ステップにより取得された前記機械翻訳処理後の第２言語データに含まれる前記代替符号を、前記順置換処理ステップで置換した前記マークアップ言語用タグに置換する逆置換処理を実行する逆置換処理ステップと、
を備える機械翻訳処理方法。
マークアップ言語用タグを含む言語データを機械翻訳処理するための機械翻訳処理システムにおいて、機械翻訳処理用の学習可能モデルを訓練するための訓練データを生成する方法であって、
第１言語データと、前記第１言語データの第２言語へ翻訳したデータである第２言語データとを組みにした対訳データであって、前記マークアップ言語用タグを含まない前記対訳データにおいて、前記第１言語データと前記第２言語データとの間で対応がとれると判断される要素である対応要素を検出する対応要素検出ステップと、
前記対訳データに対して、前記対応要素の前後に代替符号を挿入する置換処理を実行することで、前記置換処理後の対訳データを取得する置換処理ステップと、
を備える機械翻訳用訓練データ生成方法。
マークアップ言語用タグを含む言語データを機械翻訳処理するための機械翻訳処理システムにおいて、機械翻訳処理用の学習可能モデルを訓練するための訓練データを生成する装置であって、
第１言語データと、前記第１言語データの第２言語へ翻訳したデータである第２言語データとを組みにした対訳データであって、前記マークアップ言語用タグを含まない前記対訳データにおいて、開始と終了とが対応している符号である開始終了対応符号を検出するとともに、
前記対訳データに対して、前記開始終了対応符号を、代替符号に置換する置換処理を実行することで、前記置換処理後の対訳データを取得する置換処理部
を備える機械翻訳用訓練データ生成装置。