JP2023066183A - 言語資産管理システム、言語資産管理方法、及び、言語資産管理プログラム - Google Patents

言語資産管理システム、言語資産管理方法、及び、言語資産管理プログラム Download PDF

Info

Publication number
JP2023066183A
JP2023066183A JP2021176759A JP2021176759A JP2023066183A JP 2023066183 A JP2023066183 A JP 2023066183A JP 2021176759 A JP2021176759 A JP 2021176759A JP 2021176759 A JP2021176759 A JP 2021176759A JP 2023066183 A JP2023066183 A JP 2023066183A
Authority
JP
Japan
Prior art keywords
translation
language
glossary
memory
identification information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021176759A
Other languages
English (en)
Other versions
JP7107609B1 (ja
Inventor
功造 森口
Kozo Moriguchi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kawamura International Co Ltd
Original Assignee
Kawamura International Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kawamura International Co Ltd filed Critical Kawamura International Co Ltd
Priority to JP2021176759A priority Critical patent/JP7107609B1/ja
Application granted granted Critical
Publication of JP7107609B1 publication Critical patent/JP7107609B1/ja
Publication of JP2023066183A publication Critical patent/JP2023066183A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】本発明は、言語資産管理システムに係る新規な技術を提供することを、解決すべき課題とする。【解決手段】言語資産管理システムであって、利用者によってインポートされ、少なくとも原文又は訳文の一方の言語で記述された文章又は用語が記述された転送元ファイルに基づく前記翻訳メモリ及び/又は前記用語集を生成する手段と、前記翻訳メモリ及び/又は前記用語集に識別情報を対応付けて格納する手段と、前記翻訳メモリを用いた前記機械翻訳モデルの学習処理及び/又は前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタム機械翻訳モデルの識別情報に対して前記学習処理及び前記設定処理に用いた前記翻訳メモリ及び/又は前記用語集の識別情報を対応付けて格納する登録する手段と、を有する言語資産管理システム。【選択図】図1

Description

本発明は、言語資産管理システム、言語資産管理方法、及び、言語資産管理プログラムに関する。
近年、統計的機械翻訳の性能を向上させるため、大量で良質な対訳コーパスを作成することの重要性が認識されてきている。一般に対訳コーパスの作成には多大なコストがかかることから、その効率的な作成方法が技術的課題となっている。
特許文献1では、単語の一致数のみに基づいて文の対応付けを行う場合と比較して、より品質の高い対訳コーパスを作成するための発明が開示されている。
特開2018-032324号公報
特許文献1記載の発明は、第1言語と第2言語の1以上の対訳文を取得し、取得された第1言語の文を第2言語の文に翻訳する。取得された第2言語の文と、翻訳された第2言語の文と、の間の編集距離を算出し、算出された編集距離が閾値よりも大きい対訳文を選別することで、より品質の高い対訳コーパスを作成する。
しかしながら、特許文献1に記載の発明では、より品質の高い対訳コーパスを作成するために、第1言語の文と第2言語の文の両方を必要とする。また、特許文献1には対訳コーパスの作成方法について記載されているが、作成した対訳コーパスをどのように管理・利用するかについては記載されていない。
上記事情を鑑みて、本発明は、言語資産管理システムに係る新規な技術を提供することを、解決すべき課題とする。
上記課題を解決するために、本発明は、原文を訳文に翻訳する機械翻訳モデルと、文章の原文と訳文を対訳表記した翻訳メモリ及び用語の原文と訳文を対訳表記した用語集と、を対応付けて管理する言語資産管理システムであって、利用者によってインポートされ、少なくとも原文又は訳文の一方の言語で記述された文章又は用語が記述された転送元ファイルに基づく前記翻訳メモリ及び/又は前記用語集を生成する手段と、前記翻訳メモリ及び/又は前記用語集に識別情報を対応付けて格納する手段と、前記翻訳メモリを用いた前記機械翻訳モデルの学習処理及び/又は前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタム機械翻訳モデルの識別情報に対して前記学習処理及び前記設定処理に用いた前記翻訳メモリ及び/又は前記用語集の識別情報を対応付けて格納する登録する手段と、を有することを特徴とする。このような構成とすることで、本発明は、機械翻訳モデルと、複数の用語集と、を対応付けて管理することができる。
本発明の好ましい形態では、前記生成する手段は更に、前記第一言語で記載された文章と、前記機械翻訳モデルと、に基づき前記翻訳メモリを生成することを特徴とする。このような構成とすることで、本発明は、利用者が訳文を有していない場合でも、原文のみから翻訳メモリを生成することができる。
本発明の好ましい形態では、前記生成する手段は更に、前記翻訳メモリにおける各セグメント間の編集距離に基づいて翻訳精度をスコア値として評価し、前記スコア値が閾値よりも高い前記セグメントから前記翻訳メモリを生成することを特徴とする。このような構成とすることで、本発明は、精度の高い翻訳メモリを生成することができる。
前記生成する手段は更に、文章の原文と訳文の間において対応する単語及び対応しない単語の数に基づいて翻訳精度を前記スコア値として評価し、前記スコア値が閾値よりも高い文章同士から前記翻訳メモリを生成することを特徴とする。このような構成とすることで、本発明は、精度の高い翻訳メモリを生成することができる。
本発明の好ましい形態では、前記生成する手段は更に、前記翻訳精度が閾値よりも低い前記セグメントから前記翻訳メモリを生成し、前記言語資産管理システムは更に、前記利用者が前記セグメントの編集を行うための手段を有することを特徴とする。このような構成とすることで、本発明は、翻訳精度の低いセグメントの再利用を行い、当該セグメントの翻訳精度を高めることができる。
上記課題を解決するために、本発明は、コンピュータを、利用者によってインポートされ、少なくとも原文又は訳文の一方の言語で記述された文章又は用語が記述された転送元ファイルに基づく前記翻訳メモリ及び/又は前記用語集を生成する手段と、前記翻訳メモリ及び/又は前記用語集に識別情報を対応付けて格納する手段と、前記翻訳メモリを用いた前記機械翻訳モデルの学習処理及び/又は前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタム機械翻訳モデルの識別情報に対して前記学習処理及び前記設定処理に用いた前記翻訳メモリ及び/又は前記用語集の識別情報を対応付けて格納する登録する手段と、として機能させことを特徴とする。
上記課題を解決するために、本発明は、利用者によってインポートされ、少なくとも原文又は訳文の一方の言語で記述された文章又は用語が記述された転送元ファイルに基づく前記翻訳メモリ及び/又は前記用語集を生成するステップと、前記翻訳メモリ及び/又は前記用語集に識別情報を対応付けて格納する手段と、前記翻訳メモリを用いた前記機械翻訳モデルの学習処理及び/又は前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタム機械翻訳モデルの識別情報に対して前記学習処理及び前記設定処理に用いた前記翻訳メモリ及び/又は前記用語集の識別情報を対応付けて格納する登録するステップと、をコンピュータが実行することを特徴とする。
本発明は、言語資産管理システムに係る新規な技術を提供することができる。
本発明の一実施形態に係る機能ブロック図を示す。 本発明の一実施形態に係るハードウェア構成図を示す。 本発明の一実施形態に係る処理フローチャート図を示す。 本発明の一実施形態に係るインポート画面0w1を示す。 本発明の一実施形態に係る言語資産編集画面0w2を示す。 本発明の一実施形態に係る再学習画面0w3を示す。
本明細書は、本発明の一実施形態にかかる構成や作用効果等について、図面を交えて、以下に説明する。
本発明は、以下の実施形態に限定されず、様々な構成を採用し得る。また、本発明の実施形態は、各実施形態のそれぞれにおける構成の一部を、本発明が目的とする作用効果の実現を阻害しない範囲で互いに採用してよい。
例えば、本実施形態では言語資産管理システムの構成、動作等について説明するが、実行される方法、コンピュータプログラム等によっても、同様の作用効果を奏することができる。本実施形態におけるプログラムは、コンピュータが読み取り可能な非一過性の記録媒体として提供されてもよいし、外部のサーバからダウンロード可能に提供されてもよいし、言語資産管理システムでその機能を実現する為に外部のコンピュータにおいて当該プログラムを起動させてもよい(いわゆるクラウドコンピューティング)。
また、本実施形態において「手段」とは、例えば、広義の回路によって実施されるハードウェア資源と、これらハードウェア資源によって具体的に実現され得るソフトウェアの情報処理とを合わせたものも含み得る。本実施形態において「情報」とは、例えば電圧・電流を表す信号値の物理的な値、0又は1で構成される2進数のビット集合体としての信号値の高低、又は量子的な重ね合わせ(いわゆる量子ビット)によって表され、広義の回路上で通信・演算が実行され得る。
広義の回路とは、回路(Circuit)、回路類(Circuitry)、プロセッサ(Processor)及びメモリ(Memory)等を適宜組み合わせることによって実現される回路である。即ち、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等を含むものである。
<全体構成>
図1は、本実施形態における言語資産管理システムの概要図である。言語資産管理システムは、サーバ1と、端末装置2と、1又は複数のサーバ3と、を備える。
図1に例示されるように、サーバ1と、端末装置2と、は既知または慣用のネットワークNWを介して、相互に通信可能である。また、サーバ1と、サーバ3と、は既知または慣用のネットワークNWを介して相互に通信可能である。また、端末装置2と、サーバ3と、の間においても同様に、既知または慣用のネットワークNWを介して相互に通信可能であってよい。なお、本実施形態では、サーバ3は第三者がクラウドサービスとして機械翻訳サービスを提供するためのサーバであり、サービスとして当該機械翻訳サービス、後述の学習処理、及び、設定処理を実行可能である。第三者に代わって或いは加えて、言語資産管理システムを提供する主体が当該サービスを提供してもよく、サーバ1において提供されてよく、サーバ1と通信可能なサーバにおいて提供されてもよい。
<ハードウェア構成>
図2に例示されるように、サーバ1は、既知または慣用のコンピュータの態様をとり、例として、演算デバイス101、主記憶デバイス102、補助記憶デバイス103、入力デバイス104、出力デバイス105、通信デバイス106、及び、バスインタフェースを有し、本発明が発揮する作用効果を実現する上で適宜、用いられる。
本発明の実施形態におけるサーバ1は、1つのサーバ装置として説明するが、複数台のサーバ装置からなるコンピュータ群であってもよい。ここで、コンピュータ群は、ウェブサーバ及び/又はデータベースサーバを含んでよい。コンピュータ群の態様となる場合、あるコンピュータに、後述する各機能部の全部が備えられる必要はなく、コンピュータ群全体で、後述の機能構成要素が実現される。
サーバ1は、本発明の一実施形態で扱われる各種情報の少なくとも一部が格納されるデータベースDBを有する。コンピュータ群の場合、データベースDBは、上記データベースサーバであってよい。
図2に例示されるように、端末装置2は、既知または慣用のコンピュータの態様をとり、例として、演算デバイス201、主記憶デバイス202、補助記憶デバイス203、入力デバイス204、出力デバイス205、通信デバイス206、及び、バスインタフェースを有し、本発明が発揮する作用効果を実現する上で適宜、用いられる。
本発明の実施形態における端末装置2は、1又は複数のコンピュータからなり、PC(Personal Computer)、スマートフォン、タブレット及びラップトップ等のような任意のコンピュータ装置を用いることを想定する。
演算デバイス101および201は、命令セットを実行可能なプロセッサである。
主記憶デバイス102および202は、命令セットを記憶可能な揮発性メモリである。
補助記憶デバイス103および203は、プログラム等を記録可能な記録媒体である。
入力デバイス104および204は、操作入力が可能なインタフェースである。当該インタフェースは、キーボードやタッチパネルなどのインタフェースである。
出力デバイス105および205は、例としてモニター等の、利用者に対し後述の画面を表示するためのインタフェースである。
通信デバイス106および206は、ネットワークへの接続・参加を実現するための有線方式又は無線方式に基づくインタフェースを有する。
〈機能ブロック〉
図1に例示されるように、サーバ1は、生成手段11と、格納手段12と、学習手段13と、設定手段14と、翻訳手段15と、出力処理手段16と、データベースDBと、を有する。
また、図1に例示されるように、端末装置2は、インポート手段21と、出力手段22と、入力手段23と、を有する。
生成手段11は、後述のインポート手段21によってサーバ1にインポートされた、第一言語の文章が記載された転送元ファイル、又は、第一言語及び第二言語の文章が記載された転送元ファイルを、予め定められた形式の言語資産に変換する。本実施形態では、言語資産は、翻訳メモリと、用語集と、を含み、翻訳メモリは、第一言語の文章と第二言語の文章間の対応を示し、用語集は、転送元ファイルに記載された第一言語の単語と第二言語の単語間の対応を示す。
格納手段12は、生成手段11によって生成された言語資産を、データベースDBに格納する。また、格納手段12は、カスタム機械翻訳モデルに対して、学習処理に用いた翻訳メモリを対応付けて格納し、設定済み機械翻訳モデルに対して、設定処理に用いた用語集を対応付けて格納する。
学習手段13は、利用者が指定した翻訳メモリを教師データとした、機械翻訳学習サービスの学習処理を行う。なお、本実施形態で指定可能な機械翻訳学習サービスは、みんなの自動翻訳(登録商標)やGlobalese(登録商標)等であるが、それ以外の機械翻訳学習サービスであってもよい。
設定手段14は、カスタム機械翻訳モデルと、用語集と、を対応付ける設定処理を行う。また、設定手段14は、サーバ3に当該用語集を送信し、記憶させる。
翻訳手段15は、利用者によって入力された文章の翻訳処理を行う。
出力処理手段16は、端末装置2からのリクエストに応じて、所定の画面を表示処理し、表示処理結果を返送する。端末装置2は、サーバ1から受け取った情報に基づいて、種々の画面を出力手段22に表示させる。これにより、端末装置2において、後述する種々の画面が表示される。
データベースDBは、言語資産と、カスタム機械翻訳モデル及び設定済み機械翻訳モデルの詳細情報と、を記憶する。本実施形態において、言語資産には、言語資産名、ファイル形式、インポート区分(後に詳述)、言語資産中に記載されている言語、ファイルサイズ、コメント、及び、当該言語資産の利用可否等の情報が対応付けて記憶されてよい。本実施形態では、カスタム機械翻訳モデルは、翻訳メモリを教師データとして、指定された機械翻訳学習サービスに再学習を行わせることで、特定の分野に特化した機械翻訳モデルである。カスタム機械翻訳モデルの詳細情報は、当該カスタム機械翻訳モデルの識別情報、当該カスタム機械翻訳モデルの名称、選択された機械翻訳学習サービス、翻訳の際に原文となる言語、翻訳の際に訳文となる言語、登録者、更新者、教師データとして指定された言語資産及び識別情報、コメント、及び、当該カスタム機械翻訳モデルの利用可否を示す有効状態等の情報である。本実施形態では、設定済み機械翻訳モデルは、再学習を行っていない機械翻訳モデル又はカスタム機械翻訳モデルと、1又は複数の用語集と、が対応付けられた翻訳モデルであり、設定済み機械翻訳モデルを用いて翻訳を行う際は、再学習を行っていない機械翻訳モデル又はカスタム機械翻訳モデルを用いて生成される訳文に、用語集に記載された用語を反映させる。また、設定済み機械翻訳モデルには、設定済み機械翻訳モデルの識別情報、カスタム機械翻訳モデルの名称、機械翻訳学習サービスの名称、翻訳の際に原文となる言語、翻訳の際に訳文となる言語、登録者、評価値、対応付けられた言語資産及び識別情報、コメント、及び、翻訳への利用の可否等の情報が対応付けて記憶されてよい。
インポート手段21は、端末装置2を介して選択された転送元ファイルを、サーバ1にインポートする。
出力手段22は、端末装置2が出力デバイス205として備えており、液晶ディスプレイや有機EL(エレクトロルミネッセンス)ディスプレイ等を用いて構成された表示パネルを含むディスプレイである。
入力手段23は、キーボード、操作ボタン、マウス、出力手段22上に設けられたタッチセンサ等の入力デバイス204を利用して、外部からなされる操作を受け付け、当該操作に応じた信号を端末装置2に入力する。
<情報処理手順>
図3が示すように、本発明にかかる一連の処理は以下のステップを含む。なお、図3に示される各ステップの順序は一例であり、指定がない限り適宜、当該順序は変更され得る。
インポート手段21は、インポート画面0w1を介して、利用者が有する第一言語及び/又は第二言語の文章が記載された転送元ファイルをサーバ1にインポートする(ステップS101)。
図4に例示されるように、端末装置2の出力手段22は、設定選択部0w1aと、ファイル選択部0w1bと、インポート部0w1cと、を含むインポート画面0w1を表示する。設定選択部0w1aでは、サーバ1へのインポート区分と、閾値の判定に用いる翻訳モデルの種別と、を選択可能である。インポート区分とは、どのような転送元ファイルをサーバ1にインポートするかの区分であり、選択されたインポート区分によって転送元ファイルに対して行われる処理が変動する。本実施形態では、例として、バイリンガルの対訳データを読み込み翻訳メモリとして記憶するバイリンガルデータ変換、モノリンガルの原文と訳文を読み込み翻訳メモリとして記憶するモノリンガルTMアラインメント(標準)、モノリンガルの原文のみを読み込み翻訳メモリを生成するモノリンガルアラインメント(MT活用)、用語集データを読み込み記憶する用語集データ、バイリンガルの対訳データを読み込み記憶するバイリンガルTBアラインメント、モノリンガルのデータを読み込み記憶するモノリンガルTBアラインメント、及び、利用者が有する翻訳メモリを読み込み記憶する翻訳メモリインポート等のインポート区分が選択可能であるが、上記以外のインポート区分を有してよい。ファイル選択部0w1bでは、サーバ1にインポートする転送元ファイルの選択が行われる。対訳関係にある文章が記載されたファイルをインポートする場合、ファイル選択部0w1bでは、第一言語の文章と第二言語の文章のどちらの言語の文章が原文であり訳文であるかを指定可能であってよく、原文及び訳文が何れの言語であるかを選択可能であってよい。インポート部0w1cを押下することで、ファイル選択部0w1bで選択された言語資産がサーバ1にインポートされる。
生成手段11は、ステップS101でインポートされたファイルを、予め定められた形式の言語資産に変換する(ステップS102)。なお、ステップS101で選択されたインポート区分が用語集データであった場合、インポートされた用語集は予め定められたファイル形式の用語集として記憶され、インポート区分が翻訳メモリインポートであった場合、インポートされた翻訳メモリは、予め定められたファイル形式の翻訳メモリとして記憶される。
本実施形態では、設定選択部0w1aで選択されたインポート区分がモノリンガルTMアラインメント(標準)であった場合、生成手段11は、ファイル選択部0w1bで選択された原文のファイルと訳文のファイルにおける文章の対応付けを行い、各セグメント(対となる行)間の編集距離に基づき翻訳精度をスコア値として評価し、当該スコア値が予め定められた閾値を超えるセグメントを翻訳メモリとして記憶する。また、生成手段11は、ファイル選択部0w1bで選択された原文のファイルと訳文のファイルにおける文章から、原文と訳文の間で対応がとれる単語の数と対応がとれない単語の数を数えることでスコア値を算出し、当該算出結果に基づき原文と訳文の対応付けを行ってよい。この際、各セグメントには前述のスコア値が対応付けて記憶されており、生成手段11は、当該スコア値が予め定められた閾値を超えるセグメントを翻訳メモリとして記憶する。
また、設定選択部0w1aで選択されたインポート区分がモノリンガルTMアラインメント(MT活用)であった場合、生成手段11は、設定選択部0w1aで選択された翻訳モデルに基づき、ファイル選択部0w1bで選択された転送元ファイルに記載された原文の翻訳を行い、各文章と対応する訳文を生成する。生成手段11は更に、生成された訳文の逆翻訳を行い、原文と逆翻訳文との間の編集距離に基づき翻訳精度をスコア値として評価し、当該スコア値が閾値よりも高いセグメントを翻訳メモリとして記憶する。
また、格納手段12は、上記翻訳メモリの生成の際に、スコア値が閾値に満たなかったセグメントを、個別の翻訳メモリであるLeftoverTMとしてデータベースDBに記憶する。なお、本実施形態において、利用者は、入力手段23を介したセグメントの編集を行う、或いはLeftoverTMに機械翻訳を適用することで、翻訳精度を高めることが可能である。また、本実施形態では、LeftoverTMと、他のLeftoverTM又は翻訳メモリと、を結合することで新規な翻訳メモリを作成することが可能であり、LeftoverTM、及び、結合により新規に作成された翻訳メモリは、他の翻訳メモリと同様に、後述のカスタム機械翻訳モデルの生成の際に教師データとして指定可能であってよい。
また、生成手段11は、ファイル選択部0w1bで選択されたファイル中の文章の形態素解析を行い、出現頻度が高い単語の対を抽出し、抽出された単語の対を用語集としてデータベースDBに格納する。本実施形態では、設定選択部0w1aで選択されたインポート区分がバイリンガルTBアラインメントであった場合、原文と訳文の対が記述されている転送元ファイルをインポートすることで、生成手段11は、単語同士の対応付けが行われた用語集を生成する。なお、異なる言語間における単語同士の対応付けは、利用者が入力手段23を介して手動で訳語を登録することにより行われる。また、設定選択部0w1aで選択されたインポート区分がモノリンガルTBアラインメントであった場合、原文のみが記述されている転送元ファイルをインポートすることで、生成手段11は、原文に記述される単語のみの用語ファイルを生成する。また、この場合においても、当該用語ファイルが有する単語と、対応する第二言語の単語と、の間における対応付けは、利用者が入力手段23を介して手動で訳語を登録することにより行われる。
なお、生成手段11によって生成された用語集及び翻訳メモリは、言語資産一覧(不図示)で確認することができる。言語資産一覧では、用語集と翻訳メモリに対応付けられた詳細情報の確認を行うことが可能であり、言語資産一覧における詳細ボタンを押下することで言語資産詳細画面(不図示)へ移行可能であってよく、編集ボタンを押下することで図5に例示されるような言語資産編集画面0w2へ移行可能であってよい。言語資産詳細画面では、選択された用語集及び翻訳メモリに対応付けられた詳細情報の編集を行うことが可能であり、例として、コメントの編集や機械翻訳への利用の可否の決定を行うことができる。
図5に例示されるように、端末装置2の出力手段22は、セグメント検索部0w2aと、指定された翻訳メモリが有するセグメントの表示と編集を行うセグメント編集部0w2bと、を含む言語資産編集画面0w2を表示する。セグメント検索部0w2aは、特定の翻訳メモリにおける各セグメント中から、利用者が入力した文章と完全一致又は部分一致するセグメントを検索する。セグメント編集部0w2bでは、検索の結果発見されたセグメントが表示され、各セグメントにおける原文と訳文の修正が可能である。また、セグメント編集部0w2bでは、編集を行ったセグメントの一時保存や、新規なセグメントの追加が可能であってよい。
学習手段13は、翻訳メモリを用いた機械翻訳学習サービスの学習処理を行う(ステップS103)。本実施形態では、学習手段13は、データベースDBに記憶される1又は複数の翻訳メモリの指定を受け付け、指定された翻訳メモリをクラウドにおける機械学習に適したデータ形式に変換した後に、学習処理として、指定した機械翻訳学習サービスの学習要求と共にサーバ3に送信する。サーバ3では、サーバ1から送信された翻訳メモリを教師データとして、カスタム機械翻訳モデルが生成される。格納手段12は、カスタム機械翻訳モデルの識別情報に対して、学習処理に用いた翻訳メモリの識別情報を対応付けて格納する。この際、教師データである翻訳メモリは、言語資産選択画面(不図示)で選択される。また、ステップS103におけるカスタム機械翻訳モデルの学習は、サーバ1で行われてもよい。
図6に例示されるように、端末装置2の出力手段22は、学習サービス選択部0w3aと、言語資産選択部0w3bと、学習設定確定部0w3cと、を含む再学習画面0w3を表示する。学習サービス選択部0w3aでは、どのような分野で用いられるカスタム機械翻訳モデルを生成するかを選択可能であり、アダプテーションが行われる汎用の機械翻訳学習サービスを選択可能である。言語資産選択部0w3bでは、言語資産選択画面(不図示)へ移行するためのボタンと、選択された言語資産(翻訳メモリ)の一覧と、が表示される。言語資産選択画面では、1又は複数の言語資産が選択可能であり、言語資産の名称やアップロードした日付等の条件によって言語資産を検索可能であってよい。言語資産の一覧には、選択された言語資産の名称、ファイルの種類、インポート区分、言語、学習設定、アップロードの日付、及び、データ量等の情報が表示されてよい。本実施形態では、言語資産選択部0w3bで選択された翻訳メモリの原文と訳文の設定を反転可能であってよい。学習設定確定部0w3cを押下することで、選択された機械翻訳学習サービスと、翻訳メモリと、を用いた学習処理が開始され、カスタム機械翻訳モデルが生成される。
設定手段14は、カスタム機械翻訳モデルと、用語集と、を対応付ける設定処理を行い、サーバ3に用語集を送信し、記憶させる(ステップS104)。格納手段12は、設定済み機械翻訳モデルの識別情報に対して、設定処理に用いた用語集の識別情報を対応付けて格納する。この際、機械翻訳モデルは1つのみ選択可能であり、用語集は1又は複数選択可能であってよい。また、ステップS104における設定処理は、設定手段14が、サーバ1が予めデータベースDBに記憶する既存の機械翻訳モデルと、用語集と、を対応付けることで行われてよく、格納手段12は、当該設定済み機械翻訳モデルの識別情報と、当該用語集の識別情報を対応付けて格納してよい。
翻訳手段15は、利用者による設定済み機械翻訳モデル又はカスタム機械翻訳モデルの指定、及び、翻訳を希望する原文の入力を受け付け、当該指定された設定済み機械翻訳モデル又はカスタム機械翻訳モデルに基づき、当該入力された文章の翻訳処理を行う(ステップS105)。本実施形態において、翻訳手段15は翻訳処理として、入力手段23を介して入力された文章及び設定済み機械翻訳モデル又はカスタム機械翻訳モデルの指定を、翻訳要求と共にサーバ3に送信し、サーバ3では、指定された当該設定済み機械翻訳モデル又はカスタム機械翻訳モデルに基づき、入力された文章の翻訳を行う。サーバ3は、翻訳された文章をサーバ1に返送し、出力処理手段16は、当該文章を端末装置2に表示処理する。なお、翻訳処理は、サーバ1のデータベースDBに記憶される設定済み機械翻訳モデル又はカスタム機械翻訳モデルに基づいて行われてもよい。
本発明によれば、言語資産管理システムに係る新規な技術を提供することができる。
1 :サーバ
2 :端末装置
3 :サーバ
101 :演算デバイス
102 :主記憶デバイス
103 :補助記憶デバイス
104 :入力デバイス
105 :出力デバイス
106 :通信デバイス
201 :演算デバイス
202 :主記憶デバイス
203 :補助記憶デバイス
204 :入力デバイス
205 :出力デバイス
206 :通信デバイス
11 :生成手段
12 :格納手段
13 :学習手段
14 :設定手段
15 :翻訳手段
16 :出力処理手段
21 :インポート手段
22 :出力手段
23 :入力手段

Claims (7)

  1. 原文を訳文に翻訳する機械翻訳モデルと、文章の原文と訳文を対訳表記した翻訳メモリ及び用語の原文と訳文を対訳表記した用語集と、を対応付けて管理する言語資産管理システムであって、
    利用者によってインポートされ、少なくとも原文又は訳文の一方の言語で記述された文章又は用語が記述された転送元ファイルに基づく前記翻訳メモリ及び/又は前記用語集を生成する手段と、
    前記翻訳メモリ及び/又は前記用語集に識別情報を対応付けて格納する手段と、
    前記翻訳メモリを用いた前記機械翻訳モデルの学習処理及び/又は前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタム機械翻訳モデルの識別情報に対して前記学習処理及び前記設定処理に用いた前記翻訳メモリ及び/又は前記用語集の識別情報を対応付けて格納する登録する手段と、
    を有する言語資産管理システム。
  2. 前記生成する手段は更に、前記第一言語で記載された文章と、前記機械翻訳モデルと、に基づき前記翻訳メモリを生成する請求項1に記載の言語資産管理システム。
  3. 前記生成する手段は更に、前記翻訳メモリにおける各セグメント間の編集距離に基づいて翻訳精度をスコア値として評価し、前記スコア値が閾値よりも高い前記セグメントから前記翻訳メモリを生成する請求項1又は2に記載の言語資産管理システム。
  4. 前記生成する手段は更に、文章の原文と訳文の間において対応する単語及び対応しない単語の数に基づいて翻訳精度を前記スコア値として評価し、前記スコア値が閾値よりも高い文章同士から前記翻訳メモリを生成する請求項1~3の何れかに記載の言語資産管理システム。
  5. 前記生成する手段は更に、前記翻訳精度が閾値よりも低い前記セグメントから前記翻訳メモリを生成し、
    前記言語資産管理システムは更に、前記利用者が前記セグメントの編集を行うための手段を有する請求項1~4の何れかに記載の言語資産管理システム。
  6. コンピュータを、
    利用者によってインポートされ、少なくとも原文又は訳文の一方の言語で記述された文章又は用語が記述された転送元ファイルに基づく前記翻訳メモリ及び/又は前記用語集を生成する手段と、
    前記翻訳メモリ及び/又は前記用語集に識別情報を対応付けて格納する手段と、
    前記翻訳メモリを用いた前記機械翻訳モデルの学習処理及び/又は前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタム機械翻訳モデルの識別情報に対して前記学習処理及び前記設定処理に用いた前記翻訳メモリ及び/又は前記用語集の識別情報を対応付けて格納する登録する手段と、として機能させことを特徴とする言語資産管理プログラム。
  7. 利用者によってインポートされ、少なくとも原文又は訳文の一方の言語で記述された文章又は用語が記述された転送元ファイルに基づく前記翻訳メモリ及び/又は前記用語集を生成するステップと、
    前記翻訳メモリ及び/又は前記用語集に識別情報を対応付けて格納する手段と、
    前記翻訳メモリを用いた前記機械翻訳モデルの学習処理及び/又は前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタム機械翻訳モデルの識別情報に対して前記学習処理及び前記設定処理に用いた前記翻訳メモリ及び/又は前記用語集の識別情報を対応付けて格納する登録するステップと、をコンピュータが実行する言語資産管理方法。

JP2021176759A 2021-10-28 2021-10-28 言語資産管理システム、言語資産管理方法、及び、言語資産管理プログラム Active JP7107609B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021176759A JP7107609B1 (ja) 2021-10-28 2021-10-28 言語資産管理システム、言語資産管理方法、及び、言語資産管理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021176759A JP7107609B1 (ja) 2021-10-28 2021-10-28 言語資産管理システム、言語資産管理方法、及び、言語資産管理プログラム

Publications (2)

Publication Number Publication Date
JP7107609B1 JP7107609B1 (ja) 2022-07-27
JP2023066183A true JP2023066183A (ja) 2023-05-15

Family

ID=82607866

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021176759A Active JP7107609B1 (ja) 2021-10-28 2021-10-28 言語資産管理システム、言語資産管理方法、及び、言語資産管理プログラム

Country Status (1)

Country Link
JP (1) JP7107609B1 (ja)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05298360A (ja) * 1992-04-17 1993-11-12 Hitachi Ltd 翻訳文評価方法、翻訳文評価装置、翻訳文評価機能付き機械翻訳システムおよび機械翻訳システム評価装置
JPH1011445A (ja) * 1996-06-19 1998-01-16 Oki Electric Ind Co Ltd 翻訳パターン作成方法および装置
US20050234700A1 (en) * 2004-04-15 2005-10-20 International Business Machines Corporation Autonomic method, system and program product for translating content
WO2009004723A1 (ja) * 2007-07-04 2009-01-08 Fujitsu Limited 翻訳支援プログラム、翻訳支援装置および翻訳支援方法
JP2009116585A (ja) * 2007-11-06 2009-05-28 Toshiba Corp 機械翻訳装置及び機械翻訳プログラム
JP2009217689A (ja) * 2008-03-12 2009-09-24 National Institute Of Information & Communication Technology 情報処理装置、情報処理方法、及びプログラム
JP2012190080A (ja) * 2011-03-08 2012-10-04 Internatl Business Mach Corp <Ibm> 用語の対応を見出す方法、プログラム及びシステム
KR20150052400A (ko) * 2013-11-04 2015-05-14 주식회사 에버트란 번역 은행 기반의 번역 서비스 제공 시스템
US20180143975A1 (en) * 2016-11-18 2018-05-24 Lionbridge Technologies, Inc. Collection strategies that facilitate arranging portions of documents into content collections
CN111859995A (zh) * 2020-06-16 2020-10-30 北京百度网讯科技有限公司 机器翻译模型的训练方法、装置、电子设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05298360A (ja) * 1992-04-17 1993-11-12 Hitachi Ltd 翻訳文評価方法、翻訳文評価装置、翻訳文評価機能付き機械翻訳システムおよび機械翻訳システム評価装置
JPH1011445A (ja) * 1996-06-19 1998-01-16 Oki Electric Ind Co Ltd 翻訳パターン作成方法および装置
US20050234700A1 (en) * 2004-04-15 2005-10-20 International Business Machines Corporation Autonomic method, system and program product for translating content
WO2009004723A1 (ja) * 2007-07-04 2009-01-08 Fujitsu Limited 翻訳支援プログラム、翻訳支援装置および翻訳支援方法
JP2009116585A (ja) * 2007-11-06 2009-05-28 Toshiba Corp 機械翻訳装置及び機械翻訳プログラム
JP2009217689A (ja) * 2008-03-12 2009-09-24 National Institute Of Information & Communication Technology 情報処理装置、情報処理方法、及びプログラム
JP2012190080A (ja) * 2011-03-08 2012-10-04 Internatl Business Mach Corp <Ibm> 用語の対応を見出す方法、プログラム及びシステム
KR20150052400A (ko) * 2013-11-04 2015-05-14 주식회사 에버트란 번역 은행 기반의 번역 서비스 제공 시스템
US20180143975A1 (en) * 2016-11-18 2018-05-24 Lionbridge Technologies, Inc. Collection strategies that facilitate arranging portions of documents into content collections
CN111859995A (zh) * 2020-06-16 2020-10-30 北京百度网讯科技有限公司 机器翻译模型的训练方法、装置、电子设备及存储介质
JP2021197188A (ja) * 2020-06-16 2021-12-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 機械翻訳モデルの訓練方法、装置、電子デバイス及び記憶媒体

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
IMANKULOVA AIZHAN 外2名: "逆翻訳による高品質な大規模擬似対訳コーパスの作成", 言語処理学会第23回年次大会 発表論文集 [ONLINE], JPN6022006107, 6 March 2017 (2017-03-06), JP, pages 210 - 213, ISSN: 0004711691 *
土井 惟成 外2名: "コーポレート・ガバナンス報告書における機械翻訳の検討", 言語処理学会第25回年次大会 発表論文集 [ONLINE], JPN6022006108, 4 March 2019 (2019-03-04), JP, pages 926 - 929, ISSN: 0004711692 *
土井 惟成 外3名: "上場会社開示資料の日英対訳コーパスの自動生成に関する検討", 言語処理学会第27回年次大会 発表論文集 [ONLINE], JPN6022006109, 8 March 2021 (2021-03-08), JP, pages 1535 - 1539, ISSN: 0004711693 *
後藤 統興 外2名: "対象ドメインの高頻出句に対する人手対訳追加による講義音声翻訳の検討", 情報処理学会 研究報告 自然言語処理(NL) 2016−NL−226 [ONLINE], JPN6022006106, 9 May 2016 (2016-05-09), JP, pages 1 - 8, ISSN: 0004711690 *
森下 睦 外2名: "クラウドソーシングによるWebサイトマイニングを用いた翻訳モデルの即時領域適応", 言語処理学会第27回年次大会 発表論文集 [ONLINE], JPN6022006110, 8 March 2021 (2021-03-08), JP, pages 1397 - 1402, ISSN: 0004711694 *
深津 康行: "第11回 機械学習サービスその3 追加学習で業務に合わせた文章分類を実現 特殊な専門用語を扱える機械", 日経クラウドファースト, vol. 第35号, JPN6022006111, 20 February 2019 (2019-02-20), JP, pages 32 - 36, ISSN: 0004711695 *

Also Published As

Publication number Publication date
JP7107609B1 (ja) 2022-07-27

Similar Documents

Publication Publication Date Title
EP2947581B1 (en) Interactive searching method and apparatus
JP2021089705A (ja) 翻訳品質を評価するための方法と装置
CN104899304A (zh) 命名实体识别方法及装置
CN111191012B (zh) 知识图谱产生装置、方法及其计算机可读存储介质
CN108717437B (zh) 搜索结果展示方法、装置及存储介质
JP6693582B2 (ja) 文書要約の生成方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体
CN116127020A (zh) 生成式大语言模型训练方法以及基于模型的搜索方法
CN111597804B (zh) 一种实体识别模型训练的方法以及相关装置
CN109408834B (zh) 辅助机器翻译方法、装置、设备及存储介质
US20230018489A1 (en) Method for acquiring structured question-answering model, question-answering method and corresponding apparatus
JP2023007376A (ja) 情報抽出方法、装置、電子デバイス及び可読記憶媒体
WO2022217708A1 (zh) 基于人工智能的问答方法、装置、服务器及存储介质
JP2022166215A (ja) 文字位置決めモデルのトレーニング方法及び文字位置決め方法
CN112582073B (zh) 医疗信息获取方法、装置、电子设备和介质
CN109471957B (zh) 一种基于统一标签的元数据转换方法及装置
JP7107609B1 (ja) 言語資産管理システム、言語資産管理方法、及び、言語資産管理プログラム
CN111814496A (zh) 文本处理方法、装置、设备及存储介质
CN109062913B (zh) 国际化资源智能获取方法、存储介质
JP2023012541A (ja) テーブルに基づく質問応答方法、装置及び電子機器
JP2023010805A (ja) ドキュメント情報抽出モデルのトレーニングおよびドキュメント情報の抽出のための方法、装置、電子機器、記憶媒体並びにコンピュータプログラム
CN115757720A (zh) 基于知识图谱的项目信息搜索方法、装置、设备和介质
CN114297381A (zh) 文本处理方法、装置、设备及存储介质
CN109597873B (zh) 语料数据的处理方法、装置、计算机可读介质及电子设备
CN112926318A (zh) 一种基于句法分析的网购评论新情感词提取方法
CN111859985A (zh) Ai客服模型测试方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211028

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20211028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220621

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220707

R150 Certificate of patent or registration of utility model

Ref document number: 7107609

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150