JP2023066183A

JP2023066183A - 言語資産管理システム、言語資産管理方法、及び、言語資産管理プログラム

Info

Publication number: JP2023066183A
Application number: JP2021176759A
Authority: JP
Inventors: 功造森口; Kozo Moriguchi
Original assignee: Kawamura International Co Ltd
Current assignee: Kawamura International Co Ltd
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2023-05-15
Anticipated expiration: 2041-10-28
Also published as: JP7107609B1

Abstract

【課題】本発明は、言語資産管理システムに係る新規な技術を提供することを、解決すべき課題とする。【解決手段】言語資産管理システムであって、利用者によってインポートされ、少なくとも原文又は訳文の一方の言語で記述された文章又は用語が記述された転送元ファイルに基づく前記翻訳メモリ及び／又は前記用語集を生成する手段と、前記翻訳メモリ及び／又は前記用語集に識別情報を対応付けて格納する手段と、前記翻訳メモリを用いた前記機械翻訳モデルの学習処理及び／又は前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタム機械翻訳モデルの識別情報に対して前記学習処理及び前記設定処理に用いた前記翻訳メモリ及び／又は前記用語集の識別情報を対応付けて格納する登録する手段と、を有する言語資産管理システム。【選択図】図１

Description

本発明は、言語資産管理システム、言語資産管理方法、及び、言語資産管理プログラムに関する。

近年、統計的機械翻訳の性能を向上させるため、大量で良質な対訳コーパスを作成することの重要性が認識されてきている。一般に対訳コーパスの作成には多大なコストがかかることから、その効率的な作成方法が技術的課題となっている。

特許文献１では、単語の一致数のみに基づいて文の対応付けを行う場合と比較して、より品質の高い対訳コーパスを作成するための発明が開示されている。

特開２０１８－０３２３２４号公報

特許文献１記載の発明は、第１言語と第２言語の１以上の対訳文を取得し、取得された第１言語の文を第２言語の文に翻訳する。取得された第２言語の文と、翻訳された第２言語の文と、の間の編集距離を算出し、算出された編集距離が閾値よりも大きい対訳文を選別することで、より品質の高い対訳コーパスを作成する。

しかしながら、特許文献１に記載の発明では、より品質の高い対訳コーパスを作成するために、第１言語の文と第２言語の文の両方を必要とする。また、特許文献１には対訳コーパスの作成方法について記載されているが、作成した対訳コーパスをどのように管理・利用するかについては記載されていない。

上記事情を鑑みて、本発明は、言語資産管理システムに係る新規な技術を提供することを、解決すべき課題とする。

上記課題を解決するために、本発明は、原文を訳文に翻訳する機械翻訳モデルと、文章の原文と訳文を対訳表記した翻訳メモリ及び用語の原文と訳文を対訳表記した用語集と、を対応付けて管理する言語資産管理システムであって、利用者によってインポートされ、少なくとも原文又は訳文の一方の言語で記述された文章又は用語が記述された転送元ファイルに基づく前記翻訳メモリ及び／又は前記用語集を生成する手段と、前記翻訳メモリ及び／又は前記用語集に識別情報を対応付けて格納する手段と、前記翻訳メモリを用いた前記機械翻訳モデルの学習処理及び／又は前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタム機械翻訳モデルの識別情報に対して前記学習処理及び前記設定処理に用いた前記翻訳メモリ及び／又は前記用語集の識別情報を対応付けて格納する登録する手段と、を有することを特徴とする。このような構成とすることで、本発明は、機械翻訳モデルと、複数の用語集と、を対応付けて管理することができる。

本発明の好ましい形態では、前記生成する手段は更に、前記第一言語で記載された文章と、前記機械翻訳モデルと、に基づき前記翻訳メモリを生成することを特徴とする。このような構成とすることで、本発明は、利用者が訳文を有していない場合でも、原文のみから翻訳メモリを生成することができる。

本発明の好ましい形態では、前記生成する手段は更に、前記翻訳メモリにおける各セグメント間の編集距離に基づいて翻訳精度をスコア値として評価し、前記スコア値が閾値よりも高い前記セグメントから前記翻訳メモリを生成することを特徴とする。このような構成とすることで、本発明は、精度の高い翻訳メモリを生成することができる。

前記生成する手段は更に、文章の原文と訳文の間において対応する単語及び対応しない単語の数に基づいて翻訳精度を前記スコア値として評価し、前記スコア値が閾値よりも高い文章同士から前記翻訳メモリを生成することを特徴とする。このような構成とすることで、本発明は、精度の高い翻訳メモリを生成することができる。

本発明の好ましい形態では、前記生成する手段は更に、前記翻訳精度が閾値よりも低い前記セグメントから前記翻訳メモリを生成し、前記言語資産管理システムは更に、前記利用者が前記セグメントの編集を行うための手段を有することを特徴とする。このような構成とすることで、本発明は、翻訳精度の低いセグメントの再利用を行い、当該セグメントの翻訳精度を高めることができる。

上記課題を解決するために、本発明は、コンピュータを、利用者によってインポートされ、少なくとも原文又は訳文の一方の言語で記述された文章又は用語が記述された転送元ファイルに基づく前記翻訳メモリ及び／又は前記用語集を生成する手段と、前記翻訳メモリ及び／又は前記用語集に識別情報を対応付けて格納する手段と、前記翻訳メモリを用いた前記機械翻訳モデルの学習処理及び／又は前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタム機械翻訳モデルの識別情報に対して前記学習処理及び前記設定処理に用いた前記翻訳メモリ及び／又は前記用語集の識別情報を対応付けて格納する登録する手段と、として機能させことを特徴とする。

上記課題を解決するために、本発明は、利用者によってインポートされ、少なくとも原文又は訳文の一方の言語で記述された文章又は用語が記述された転送元ファイルに基づく前記翻訳メモリ及び／又は前記用語集を生成するステップと、前記翻訳メモリ及び／又は前記用語集に識別情報を対応付けて格納する手段と、前記翻訳メモリを用いた前記機械翻訳モデルの学習処理及び／又は前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタム機械翻訳モデルの識別情報に対して前記学習処理及び前記設定処理に用いた前記翻訳メモリ及び／又は前記用語集の識別情報を対応付けて格納する登録するステップと、をコンピュータが実行することを特徴とする。

本発明は、言語資産管理システムに係る新規な技術を提供することができる。

本発明の一実施形態に係る機能ブロック図を示す。本発明の一実施形態に係るハードウェア構成図を示す。本発明の一実施形態に係る処理フローチャート図を示す。本発明の一実施形態に係るインポート画面０ｗ１を示す。本発明の一実施形態に係る言語資産編集画面０ｗ２を示す。本発明の一実施形態に係る再学習画面０ｗ３を示す。

本明細書は、本発明の一実施形態にかかる構成や作用効果等について、図面を交えて、以下に説明する。

本発明は、以下の実施形態に限定されず、様々な構成を採用し得る。また、本発明の実施形態は、各実施形態のそれぞれにおける構成の一部を、本発明が目的とする作用効果の実現を阻害しない範囲で互いに採用してよい。

例えば、本実施形態では言語資産管理システムの構成、動作等について説明するが、実行される方法、コンピュータプログラム等によっても、同様の作用効果を奏することができる。本実施形態におけるプログラムは、コンピュータが読み取り可能な非一過性の記録媒体として提供されてもよいし、外部のサーバからダウンロード可能に提供されてもよいし、言語資産管理システムでその機能を実現する為に外部のコンピュータにおいて当該プログラムを起動させてもよい（いわゆるクラウドコンピューティング）。

また、本実施形態において「手段」とは、例えば、広義の回路によって実施されるハードウェア資源と、これらハードウェア資源によって具体的に実現され得るソフトウェアの情報処理とを合わせたものも含み得る。本実施形態において「情報」とは、例えば電圧・電流を表す信号値の物理的な値、０又は１で構成される２進数のビット集合体としての信号値の高低、又は量子的な重ね合わせ（いわゆる量子ビット）によって表され、広義の回路上で通信・演算が実行され得る。

広義の回路とは、回路（Ｃｉｒｃｕｉｔ）、回路類（Ｃｉｒｃｕｉｔｒｙ）、プロセッサ（Ｐｒｏｃｅｓｓｏｒ）及びメモリ（Ｍｅｍｏｒｙ）等を適宜組み合わせることによって実現される回路である。即ち、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等を含むものである。

＜全体構成＞
図１は、本実施形態における言語資産管理システムの概要図である。言語資産管理システムは、サーバ１と、端末装置２と、１又は複数のサーバ３と、を備える。

図１に例示されるように、サーバ１と、端末装置２と、は既知または慣用のネットワークＮＷを介して、相互に通信可能である。また、サーバ１と、サーバ３と、は既知または慣用のネットワークＮＷを介して相互に通信可能である。また、端末装置２と、サーバ３と、の間においても同様に、既知または慣用のネットワークＮＷを介して相互に通信可能であってよい。なお、本実施形態では、サーバ３は第三者がクラウドサービスとして機械翻訳サービスを提供するためのサーバであり、サービスとして当該機械翻訳サービス、後述の学習処理、及び、設定処理を実行可能である。第三者に代わって或いは加えて、言語資産管理システムを提供する主体が当該サービスを提供してもよく、サーバ１において提供されてよく、サーバ１と通信可能なサーバにおいて提供されてもよい。

＜ハードウェア構成＞
図２に例示されるように、サーバ１は、既知または慣用のコンピュータの態様をとり、例として、演算デバイス１０１、主記憶デバイス１０２、補助記憶デバイス１０３、入力デバイス１０４、出力デバイス１０５、通信デバイス１０６、及び、バスインタフェースを有し、本発明が発揮する作用効果を実現する上で適宜、用いられる。

本発明の実施形態におけるサーバ１は、１つのサーバ装置として説明するが、複数台のサーバ装置からなるコンピュータ群であってもよい。ここで、コンピュータ群は、ウェブサーバ及び／又はデータベースサーバを含んでよい。コンピュータ群の態様となる場合、あるコンピュータに、後述する各機能部の全部が備えられる必要はなく、コンピュータ群全体で、後述の機能構成要素が実現される。

サーバ１は、本発明の一実施形態で扱われる各種情報の少なくとも一部が格納されるデータベースＤＢを有する。コンピュータ群の場合、データベースＤＢは、上記データベースサーバであってよい。

図２に例示されるように、端末装置２は、既知または慣用のコンピュータの態様をとり、例として、演算デバイス２０１、主記憶デバイス２０２、補助記憶デバイス２０３、入力デバイス２０４、出力デバイス２０５、通信デバイス２０６、及び、バスインタフェースを有し、本発明が発揮する作用効果を実現する上で適宜、用いられる。

本発明の実施形態における端末装置２は、１又は複数のコンピュータからなり、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、スマートフォン、タブレット及びラップトップ等のような任意のコンピュータ装置を用いることを想定する。

演算デバイス１０１および２０１は、命令セットを実行可能なプロセッサである。

主記憶デバイス１０２および２０２は、命令セットを記憶可能な揮発性メモリである。

補助記憶デバイス１０３および２０３は、プログラム等を記録可能な記録媒体である。

入力デバイス１０４および２０４は、操作入力が可能なインタフェースである。当該インタフェースは、キーボードやタッチパネルなどのインタフェースである。

出力デバイス１０５および２０５は、例としてモニター等の、利用者に対し後述の画面を表示するためのインタフェースである。

通信デバイス１０６および２０６は、ネットワークへの接続・参加を実現するための有線方式又は無線方式に基づくインタフェースを有する。

〈機能ブロック〉
図１に例示されるように、サーバ１は、生成手段１１と、格納手段１２と、学習手段１３と、設定手段１４と、翻訳手段１５と、出力処理手段１６と、データベースＤＢと、を有する。

また、図１に例示されるように、端末装置２は、インポート手段２１と、出力手段２２と、入力手段２３と、を有する。

生成手段１１は、後述のインポート手段２１によってサーバ１にインポートされた、第一言語の文章が記載された転送元ファイル、又は、第一言語及び第二言語の文章が記載された転送元ファイルを、予め定められた形式の言語資産に変換する。本実施形態では、言語資産は、翻訳メモリと、用語集と、を含み、翻訳メモリは、第一言語の文章と第二言語の文章間の対応を示し、用語集は、転送元ファイルに記載された第一言語の単語と第二言語の単語間の対応を示す。

格納手段１２は、生成手段１１によって生成された言語資産を、データベースＤＢに格納する。また、格納手段１２は、カスタム機械翻訳モデルに対して、学習処理に用いた翻訳メモリを対応付けて格納し、設定済み機械翻訳モデルに対して、設定処理に用いた用語集を対応付けて格納する。

学習手段１３は、利用者が指定した翻訳メモリを教師データとした、機械翻訳学習サービスの学習処理を行う。なお、本実施形態で指定可能な機械翻訳学習サービスは、みんなの自動翻訳（登録商標）やＧｌｏｂａｌｅｓｅ（登録商標）等であるが、それ以外の機械翻訳学習サービスであってもよい。

設定手段１４は、カスタム機械翻訳モデルと、用語集と、を対応付ける設定処理を行う。また、設定手段１４は、サーバ３に当該用語集を送信し、記憶させる。

翻訳手段１５は、利用者によって入力された文章の翻訳処理を行う。

出力処理手段１６は、端末装置２からのリクエストに応じて、所定の画面を表示処理し、表示処理結果を返送する。端末装置２は、サーバ１から受け取った情報に基づいて、種々の画面を出力手段２２に表示させる。これにより、端末装置２において、後述する種々の画面が表示される。

データベースＤＢは、言語資産と、カスタム機械翻訳モデル及び設定済み機械翻訳モデルの詳細情報と、を記憶する。本実施形態において、言語資産には、言語資産名、ファイル形式、インポート区分（後に詳述）、言語資産中に記載されている言語、ファイルサイズ、コメント、及び、当該言語資産の利用可否等の情報が対応付けて記憶されてよい。本実施形態では、カスタム機械翻訳モデルは、翻訳メモリを教師データとして、指定された機械翻訳学習サービスに再学習を行わせることで、特定の分野に特化した機械翻訳モデルである。カスタム機械翻訳モデルの詳細情報は、当該カスタム機械翻訳モデルの識別情報、当該カスタム機械翻訳モデルの名称、選択された機械翻訳学習サービス、翻訳の際に原文となる言語、翻訳の際に訳文となる言語、登録者、更新者、教師データとして指定された言語資産及び識別情報、コメント、及び、当該カスタム機械翻訳モデルの利用可否を示す有効状態等の情報である。本実施形態では、設定済み機械翻訳モデルは、再学習を行っていない機械翻訳モデル又はカスタム機械翻訳モデルと、１又は複数の用語集と、が対応付けられた翻訳モデルであり、設定済み機械翻訳モデルを用いて翻訳を行う際は、再学習を行っていない機械翻訳モデル又はカスタム機械翻訳モデルを用いて生成される訳文に、用語集に記載された用語を反映させる。また、設定済み機械翻訳モデルには、設定済み機械翻訳モデルの識別情報、カスタム機械翻訳モデルの名称、機械翻訳学習サービスの名称、翻訳の際に原文となる言語、翻訳の際に訳文となる言語、登録者、評価値、対応付けられた言語資産及び識別情報、コメント、及び、翻訳への利用の可否等の情報が対応付けて記憶されてよい。

インポート手段２１は、端末装置２を介して選択された転送元ファイルを、サーバ１にインポートする。

出力手段２２は、端末装置２が出力デバイス２０５として備えており、液晶ディスプレイや有機ＥＬ（エレクトロルミネッセンス）ディスプレイ等を用いて構成された表示パネルを含むディスプレイである。

入力手段２３は、キーボード、操作ボタン、マウス、出力手段２２上に設けられたタッチセンサ等の入力デバイス２０４を利用して、外部からなされる操作を受け付け、当該操作に応じた信号を端末装置２に入力する。

＜情報処理手順＞
図３が示すように、本発明にかかる一連の処理は以下のステップを含む。なお、図３に示される各ステップの順序は一例であり、指定がない限り適宜、当該順序は変更され得る。

インポート手段２１は、インポート画面０ｗ１を介して、利用者が有する第一言語及び／又は第二言語の文章が記載された転送元ファイルをサーバ１にインポートする（ステップＳ１０１）。

図４に例示されるように、端末装置２の出力手段２２は、設定選択部０ｗ１ａと、ファイル選択部０ｗ１ｂと、インポート部０ｗ１ｃと、を含むインポート画面０ｗ１を表示する。設定選択部０ｗ１ａでは、サーバ１へのインポート区分と、閾値の判定に用いる翻訳モデルの種別と、を選択可能である。インポート区分とは、どのような転送元ファイルをサーバ１にインポートするかの区分であり、選択されたインポート区分によって転送元ファイルに対して行われる処理が変動する。本実施形態では、例として、バイリンガルの対訳データを読み込み翻訳メモリとして記憶するバイリンガルデータ変換、モノリンガルの原文と訳文を読み込み翻訳メモリとして記憶するモノリンガルＴＭアラインメント（標準）、モノリンガルの原文のみを読み込み翻訳メモリを生成するモノリンガルアラインメント（ＭＴ活用）、用語集データを読み込み記憶する用語集データ、バイリンガルの対訳データを読み込み記憶するバイリンガルＴＢアラインメント、モノリンガルのデータを読み込み記憶するモノリンガルＴＢアラインメント、及び、利用者が有する翻訳メモリを読み込み記憶する翻訳メモリインポート等のインポート区分が選択可能であるが、上記以外のインポート区分を有してよい。ファイル選択部０ｗ１ｂでは、サーバ１にインポートする転送元ファイルの選択が行われる。対訳関係にある文章が記載されたファイルをインポートする場合、ファイル選択部０ｗ１ｂでは、第一言語の文章と第二言語の文章のどちらの言語の文章が原文であり訳文であるかを指定可能であってよく、原文及び訳文が何れの言語であるかを選択可能であってよい。インポート部０ｗ１ｃを押下することで、ファイル選択部０ｗ１ｂで選択された言語資産がサーバ１にインポートされる。

生成手段１１は、ステップＳ１０１でインポートされたファイルを、予め定められた形式の言語資産に変換する（ステップＳ１０２）。なお、ステップＳ１０１で選択されたインポート区分が用語集データであった場合、インポートされた用語集は予め定められたファイル形式の用語集として記憶され、インポート区分が翻訳メモリインポートであった場合、インポートされた翻訳メモリは、予め定められたファイル形式の翻訳メモリとして記憶される。

本実施形態では、設定選択部０ｗ１ａで選択されたインポート区分がモノリンガルＴＭアラインメント（標準）であった場合、生成手段１１は、ファイル選択部０ｗ１ｂで選択された原文のファイルと訳文のファイルにおける文章の対応付けを行い、各セグメント（対となる行）間の編集距離に基づき翻訳精度をスコア値として評価し、当該スコア値が予め定められた閾値を超えるセグメントを翻訳メモリとして記憶する。また、生成手段１１は、ファイル選択部０ｗ１ｂで選択された原文のファイルと訳文のファイルにおける文章から、原文と訳文の間で対応がとれる単語の数と対応がとれない単語の数を数えることでスコア値を算出し、当該算出結果に基づき原文と訳文の対応付けを行ってよい。この際、各セグメントには前述のスコア値が対応付けて記憶されており、生成手段１１は、当該スコア値が予め定められた閾値を超えるセグメントを翻訳メモリとして記憶する。

また、設定選択部０ｗ１ａで選択されたインポート区分がモノリンガルＴＭアラインメント（ＭＴ活用）であった場合、生成手段１１は、設定選択部０ｗ１ａで選択された翻訳モデルに基づき、ファイル選択部０ｗ１ｂで選択された転送元ファイルに記載された原文の翻訳を行い、各文章と対応する訳文を生成する。生成手段１１は更に、生成された訳文の逆翻訳を行い、原文と逆翻訳文との間の編集距離に基づき翻訳精度をスコア値として評価し、当該スコア値が閾値よりも高いセグメントを翻訳メモリとして記憶する。

また、格納手段１２は、上記翻訳メモリの生成の際に、スコア値が閾値に満たなかったセグメントを、個別の翻訳メモリであるＬｅｆｔｏｖｅｒＴＭとしてデータベースＤＢに記憶する。なお、本実施形態において、利用者は、入力手段２３を介したセグメントの編集を行う、或いはＬｅｆｔｏｖｅｒＴＭに機械翻訳を適用することで、翻訳精度を高めることが可能である。また、本実施形態では、ＬｅｆｔｏｖｅｒＴＭと、他のＬｅｆｔｏｖｅｒＴＭ又は翻訳メモリと、を結合することで新規な翻訳メモリを作成することが可能であり、ＬｅｆｔｏｖｅｒＴＭ、及び、結合により新規に作成された翻訳メモリは、他の翻訳メモリと同様に、後述のカスタム機械翻訳モデルの生成の際に教師データとして指定可能であってよい。

また、生成手段１１は、ファイル選択部０ｗ１ｂで選択されたファイル中の文章の形態素解析を行い、出現頻度が高い単語の対を抽出し、抽出された単語の対を用語集としてデータベースＤＢに格納する。本実施形態では、設定選択部０ｗ１ａで選択されたインポート区分がバイリンガルＴＢアラインメントであった場合、原文と訳文の対が記述されている転送元ファイルをインポートすることで、生成手段１１は、単語同士の対応付けが行われた用語集を生成する。なお、異なる言語間における単語同士の対応付けは、利用者が入力手段２３を介して手動で訳語を登録することにより行われる。また、設定選択部０ｗ１ａで選択されたインポート区分がモノリンガルＴＢアラインメントであった場合、原文のみが記述されている転送元ファイルをインポートすることで、生成手段１１は、原文に記述される単語のみの用語ファイルを生成する。また、この場合においても、当該用語ファイルが有する単語と、対応する第二言語の単語と、の間における対応付けは、利用者が入力手段２３を介して手動で訳語を登録することにより行われる。

なお、生成手段１１によって生成された用語集及び翻訳メモリは、言語資産一覧（不図示）で確認することができる。言語資産一覧では、用語集と翻訳メモリに対応付けられた詳細情報の確認を行うことが可能であり、言語資産一覧における詳細ボタンを押下することで言語資産詳細画面（不図示）へ移行可能であってよく、編集ボタンを押下することで図５に例示されるような言語資産編集画面０ｗ２へ移行可能であってよい。言語資産詳細画面では、選択された用語集及び翻訳メモリに対応付けられた詳細情報の編集を行うことが可能であり、例として、コメントの編集や機械翻訳への利用の可否の決定を行うことができる。

図５に例示されるように、端末装置２の出力手段２２は、セグメント検索部０ｗ２ａと、指定された翻訳メモリが有するセグメントの表示と編集を行うセグメント編集部０ｗ２ｂと、を含む言語資産編集画面０ｗ２を表示する。セグメント検索部０ｗ２ａは、特定の翻訳メモリにおける各セグメント中から、利用者が入力した文章と完全一致又は部分一致するセグメントを検索する。セグメント編集部０ｗ２ｂでは、検索の結果発見されたセグメントが表示され、各セグメントにおける原文と訳文の修正が可能である。また、セグメント編集部０ｗ２ｂでは、編集を行ったセグメントの一時保存や、新規なセグメントの追加が可能であってよい。

学習手段１３は、翻訳メモリを用いた機械翻訳学習サービスの学習処理を行う（ステップＳ１０３）。本実施形態では、学習手段１３は、データベースＤＢに記憶される１又は複数の翻訳メモリの指定を受け付け、指定された翻訳メモリをクラウドにおける機械学習に適したデータ形式に変換した後に、学習処理として、指定した機械翻訳学習サービスの学習要求と共にサーバ３に送信する。サーバ３では、サーバ１から送信された翻訳メモリを教師データとして、カスタム機械翻訳モデルが生成される。格納手段１２は、カスタム機械翻訳モデルの識別情報に対して、学習処理に用いた翻訳メモリの識別情報を対応付けて格納する。この際、教師データである翻訳メモリは、言語資産選択画面（不図示）で選択される。また、ステップＳ１０３におけるカスタム機械翻訳モデルの学習は、サーバ１で行われてもよい。

図６に例示されるように、端末装置２の出力手段２２は、学習サービス選択部０ｗ３ａと、言語資産選択部０ｗ３ｂと、学習設定確定部０ｗ３ｃと、を含む再学習画面０ｗ３を表示する。学習サービス選択部０ｗ３ａでは、どのような分野で用いられるカスタム機械翻訳モデルを生成するかを選択可能であり、アダプテーションが行われる汎用の機械翻訳学習サービスを選択可能である。言語資産選択部０ｗ３ｂでは、言語資産選択画面（不図示）へ移行するためのボタンと、選択された言語資産（翻訳メモリ）の一覧と、が表示される。言語資産選択画面では、１又は複数の言語資産が選択可能であり、言語資産の名称やアップロードした日付等の条件によって言語資産を検索可能であってよい。言語資産の一覧には、選択された言語資産の名称、ファイルの種類、インポート区分、言語、学習設定、アップロードの日付、及び、データ量等の情報が表示されてよい。本実施形態では、言語資産選択部０ｗ３ｂで選択された翻訳メモリの原文と訳文の設定を反転可能であってよい。学習設定確定部０ｗ３ｃを押下することで、選択された機械翻訳学習サービスと、翻訳メモリと、を用いた学習処理が開始され、カスタム機械翻訳モデルが生成される。

設定手段１４は、カスタム機械翻訳モデルと、用語集と、を対応付ける設定処理を行い、サーバ３に用語集を送信し、記憶させる（ステップＳ１０４）。格納手段１２は、設定済み機械翻訳モデルの識別情報に対して、設定処理に用いた用語集の識別情報を対応付けて格納する。この際、機械翻訳モデルは１つのみ選択可能であり、用語集は１又は複数選択可能であってよい。また、ステップＳ１０４における設定処理は、設定手段１４が、サーバ１が予めデータベースＤＢに記憶する既存の機械翻訳モデルと、用語集と、を対応付けることで行われてよく、格納手段１２は、当該設定済み機械翻訳モデルの識別情報と、当該用語集の識別情報を対応付けて格納してよい。

翻訳手段１５は、利用者による設定済み機械翻訳モデル又はカスタム機械翻訳モデルの指定、及び、翻訳を希望する原文の入力を受け付け、当該指定された設定済み機械翻訳モデル又はカスタム機械翻訳モデルに基づき、当該入力された文章の翻訳処理を行う（ステップＳ１０５）。本実施形態において、翻訳手段１５は翻訳処理として、入力手段２３を介して入力された文章及び設定済み機械翻訳モデル又はカスタム機械翻訳モデルの指定を、翻訳要求と共にサーバ３に送信し、サーバ３では、指定された当該設定済み機械翻訳モデル又はカスタム機械翻訳モデルに基づき、入力された文章の翻訳を行う。サーバ３は、翻訳された文章をサーバ１に返送し、出力処理手段１６は、当該文章を端末装置２に表示処理する。なお、翻訳処理は、サーバ１のデータベースＤＢに記憶される設定済み機械翻訳モデル又はカスタム機械翻訳モデルに基づいて行われてもよい。

本発明によれば、言語資産管理システムに係る新規な技術を提供することができる。

１：サーバ
２：端末装置
３：サーバ
１０１：演算デバイス
１０２：主記憶デバイス
１０３：補助記憶デバイス
１０４：入力デバイス
１０５：出力デバイス
１０６：通信デバイス
２０１：演算デバイス
２０２：主記憶デバイス
２０３：補助記憶デバイス
２０４：入力デバイス
２０５：出力デバイス
２０６：通信デバイス
１１：生成手段
１２：格納手段
１３：学習手段
１４：設定手段
１５：翻訳手段
１６：出力処理手段
２１：インポート手段
２２：出力手段
２３：入力手段

Claims

原文を訳文に翻訳する機械翻訳モデルと、文章の原文と訳文を対訳表記した翻訳メモリ及び用語の原文と訳文を対訳表記した用語集と、を対応付けて管理する言語資産管理システムであって、
利用者によってインポートされ、少なくとも原文又は訳文の一方の言語で記述された文章又は用語が記述された転送元ファイルに基づく前記翻訳メモリ及び／又は前記用語集を生成する手段と、
前記翻訳メモリ及び／又は前記用語集に識別情報を対応付けて格納する手段と、
前記翻訳メモリを用いた前記機械翻訳モデルの学習処理及び／又は前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタム機械翻訳モデルの識別情報に対して前記学習処理及び前記設定処理に用いた前記翻訳メモリ及び／又は前記用語集の識別情報を対応付けて格納する登録する手段と、
を有する言語資産管理システム。
前記生成する手段は更に、前記第一言語で記載された文章と、前記機械翻訳モデルと、に基づき前記翻訳メモリを生成する請求項１に記載の言語資産管理システム。
前記生成する手段は更に、前記翻訳メモリにおける各セグメント間の編集距離に基づいて翻訳精度をスコア値として評価し、前記スコア値が閾値よりも高い前記セグメントから前記翻訳メモリを生成する請求項１又は２に記載の言語資産管理システム。
前記生成する手段は更に、文章の原文と訳文の間において対応する単語及び対応しない単語の数に基づいて翻訳精度を前記スコア値として評価し、前記スコア値が閾値よりも高い文章同士から前記翻訳メモリを生成する請求項１～３の何れかに記載の言語資産管理システム。
前記生成する手段は更に、前記翻訳精度が閾値よりも低い前記セグメントから前記翻訳メモリを生成し、
前記言語資産管理システムは更に、前記利用者が前記セグメントの編集を行うための手段を有する請求項１～４の何れかに記載の言語資産管理システム。
コンピュータを、
利用者によってインポートされ、少なくとも原文又は訳文の一方の言語で記述された文章又は用語が記述された転送元ファイルに基づく前記翻訳メモリ及び／又は前記用語集を生成する手段と、
前記翻訳メモリ及び／又は前記用語集に識別情報を対応付けて格納する手段と、
前記翻訳メモリを用いた前記機械翻訳モデルの学習処理及び／又は前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタム機械翻訳モデルの識別情報に対して前記学習処理及び前記設定処理に用いた前記翻訳メモリ及び／又は前記用語集の識別情報を対応付けて格納する登録する手段と、として機能させことを特徴とする言語資産管理プログラム。
利用者によってインポートされ、少なくとも原文又は訳文の一方の言語で記述された文章又は用語が記述された転送元ファイルに基づく前記翻訳メモリ及び／又は前記用語集を生成するステップと、
前記翻訳メモリ及び／又は前記用語集に識別情報を対応付けて格納する手段と、
前記翻訳メモリを用いた前記機械翻訳モデルの学習処理及び／又は前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタム機械翻訳モデルの識別情報に対して前記学習処理及び前記設定処理に用いた前記翻訳メモリ及び／又は前記用語集の識別情報を対応付けて格納する登録するステップと、をコンピュータが実行する言語資産管理方法。