JP2022017702A - 情報処理装置、情報処理方法及び情報処理プログラム - Google Patents

情報処理装置、情報処理方法及び情報処理プログラム Download PDF

Info

Publication number
JP2022017702A
JP2022017702A JP2020120402A JP2020120402A JP2022017702A JP 2022017702 A JP2022017702 A JP 2022017702A JP 2020120402 A JP2020120402 A JP 2020120402A JP 2020120402 A JP2020120402 A JP 2020120402A JP 2022017702 A JP2022017702 A JP 2022017702A
Authority
JP
Japan
Prior art keywords
translation
unit
translated
information processing
original text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020120402A
Other languages
English (en)
Inventor
朝彦 吉賀
Tomohiko Yoshiga
優 日下部
Yu KUSAKABE
洋紀 中島
Hironori Nakajima
弘美 石川
Hiromi Ishikawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toin Corp
Original Assignee
Toin Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toin Corp filed Critical Toin Corp
Priority to JP2020120402A priority Critical patent/JP2022017702A/ja
Publication of JP2022017702A publication Critical patent/JP2022017702A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】利便性の高い情報処理装置、情報処理方法及び情報処理プログラムを提供する。【解決手段】サーバ及びユーザ端末がネットワークを介して接続された情報処理システムにおいて、サーバ(情報処理装置)のCPU200Cは、翻訳対象である第1言語の原文の入力を受け付ける受付部と、第1言語の原文を第2言語に翻訳した翻訳文を生成する2以上の翻訳エンジンごとに、翻訳文の品質を所定単位で判定する第1判定部と、第1判定部での判定結果に応じて、2以上の翻訳エンジンにより各々翻訳された2以上の翻訳文から1の翻訳文を所定単位で選択する第1選択部と、を備える。【選択図】図3

Description

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。
翻訳エンジンの向上により、翻訳可能な言語数のみならず、翻訳精度も日々向上している。翻訳エンジンとしては、従来、ルールベース機械翻訳エンジン(以下、「RBMT」とも称する)や、統計学的機械翻訳エンジン(以下、「SMT」とも称する)が主流であったが、最近では、原文の受付から訳文の生成までを一貫して学習するニューラルネット機械翻訳エンジン(以下、「NMT」とも称する)の採用も進んでいる。
翻訳エンジンは、得意な言語や得意な分野が異なるためどの翻訳エンジンが最も優れているとは言えず、それぞれに一長一短がある。このため、例えば特許文献1には、複数種類の翻訳エンジンを搭載し、同じ原文に対する機械翻訳を、複数種類の翻訳エンジンを用いて実施し、そのうち、最良の訳文を、翻訳結果として採用する翻訳システムが開示されている。
特開2012-185621号公報
しかしながら、一つの文書であっても、異なる分野の文章が混在することがある。このような場合、1つの文書であっても複数の翻訳エンジンを利用できる方が利便性が向上する。
本発明は、上記課題に鑑みてなされたものであり、利便性の高い情報処理装置、情報処理方法及び情報処理プログラムを提供することを目的とする。
上記課題を解決するため、本発明の情報処理装置は、翻訳対象である第1言語の原文の入力を受け付ける受付部と、第1言語の原文を第2言語に翻訳した翻訳文を生成する2以上の翻訳エンジンごとに、翻訳文の品質を所定単位で判定する第1判定部と、第1判定部での判定結果に応じて、2以上の翻訳エンジンにより各々翻訳された2以上の翻訳文から1の翻訳文を所定単位で選択する第1選択部と、を備える。
本発明によれば、利便性の高い情報処理装置、情報処理方法及び情報処理プログラムを提供することができる。
実施形態に係る情報処理システムの概略構成の一例を示す図である。 実施形態に係るサーバのハード構成の一例を示す図である。 実施形態に係るサーバの機能構成の一例を示す図である。 実施形態に係るユーザ端末のハード構成及び機能構成の一例を示す図である。 実施形態に係るサーバでの翻訳処理の一例を示すフローチャートである。 実施形態に係るサーバでの分配額算出処理の一例を示すフローチャートである。 実施形態に係るサーバでの課金額算出処理の一例を示すフローチャートである。 実施形態の変形例1に係るサーバの機能構成の一例を示す図である。 実施形態の変形例1に係るサーバでの絞り込み処理の一例を示すフローチャートである。
[実施形態]
図1は、実施形態に係る情報処理システム1の概要構成の一例を示す図である。情報処理システム1は、サーバ2及びユーザ端末3がネットワーク4を介して接続された構成を有する。なお、情報処理システム1が具備するサーバ2、ユーザ端末3の数は任意である。例えば、2以上のサーバ2を備え、処理を分散させてもよい。
ネットワーク4には、例えば、他のシステムのサーバ群(翻訳エンジン群)が接続されており、サーバ2は、ネットワーク4を介して上記翻訳エンジン群にアクセスし、第1言語で記述された原文を第1言語(例えば、日本語)とは異なる第2言語(例えば、英語)に翻訳することができるように構成されている。なお、翻訳エンジン群には、2以上の翻訳エンジンが含まれる。また、第1,第2言語は、自然言語であればよく、日本、英語に限られない。
図2は、本実施形態に係るサーバ2(情報処理装置)のハード構成の一例を示す図である。図2に示すように、サーバ2は、通信IF200A、記憶装置200B及びCPU200Cがバスを介して接続された構成を備える。
通信IF200Aは、外部端末と通信するためのインターフェースである。
記憶装置200Bは、例えば、HDDや半導体記憶装置である。記憶装置200Bには、サーバ2で利用する対訳データ、及び情報処理プログラムなどが記憶されている。なお、本実施形態では、対訳データ、及び情報処理プログラムは、サーバ2の記憶装置200Bに記憶されているが、USBメモリなどの外部記憶装置やネットワークを介して接続された外部サーバに記憶し、必要に応じて参照やダウンロード可能に構成されていてもよい。
対訳データは、原文とこの原文の人手のよる正しい訳文とで構成される教師データである。翻訳エンジンの対訳データ(教師データ)は、例えば、それぞれ数万セグメント~数十万セグメントのレベルで記憶装置200Bに記憶されている。なお、記憶装置200Bに記憶されている対訳データのセグメント数は任意であり、数万~数十万に限られない(もっと少なくてもよいし、もっと多くてもよい)。
情報処理プログラムは、図3に示す機能を実現するためのプログラムである。
CPU200Cは、サーバ2を制御し、図示しないROM(Read Only Memory)及びRAM(Random Access Memory)を備えている。
図3に示すように、サーバ2は、受信部201、送信部202、記憶装置制御部203、区分部204、第1判定部205、第1選択部206、算出部207(第1~第3算出部)、評価部208、翻訳制御部209などの機能を有する。なお、図3に示す機能は、サーバ2のROM(不図示)に記憶された情報処理プログラムをCPU200Cが実行することにより実現される。
受信部201は、外部から送信される情報、例えば、翻訳対象である第1言語の原文などを受け付ける。
送信部202は、情報をユーザ端末3へ送信(出力)する。送信部202は、例えば、翻訳結果などを外部へ送信(出力)する。
記憶装置制御部203は、記憶装置200Bを制御する。具体的には、記憶装置制御部203は、記憶装置200Bを制御して情報の書き込みや読み出しを行う。
区分部204は、翻訳対象である第1言語の原文を所定単位に区分する。ここで原文をどのように区分するかは任意であるが、例えば、原文を「段落」ごと、「文」ごと、又は「文節」ごとに区分してもよい。
ここで、「段落」ごとは、書き出しが一段下げて始まっている箇所から次の一段下げた箇所までを所定単位として原文の文章を区分することを意味する。
また、「文」ごとは、句点「。」から次の句点「。」までを所定単位として原文の文章を区分することを意味する。
また、「文節」ごとは、文の意味をできるだけ短く区切った一区切りを所定単位として原文の文章を区分することを意味する。
なお、区分部204による区分には、形態素解析など、既知のアルゴリズムを利用することができる。
第1判定部205は、第1言語の原文を第2言語に翻訳した翻訳文を生成する2以上の翻訳エンジンごとに、翻訳文の品質を所定単位で判定する。
具体的には、第1判定部205は、翻訳エンジンごとに、第一言語の原文に含まれる文字列と予め準備された対訳データの原文に含まれる文字列との一致率を一致度として所定単位で算出する。
また、第1判定部205は、翻訳エンジンごとに、逆翻訳文に含まれる文字列と、第一言語の原文に含まれる文字列との一致率を一致度として所定単位で算出する。
次いで、第1判定部205は、上記のようにして算出した2つの一致度に重みづけを行い、マッチ率を算出する。マッチ率は、例えば、下記(1)式で算出してもよい。
マッチ率=(R1+R2)/2・・・(1)
R1:対訳データに含まれる文字列と、原文に含まれる文字列との一致率
R2:逆翻訳文に含まれる文字列と、原文に含まれる文字列との一致率
なお、上記(1)式では、R1とR2とを同一の重みづけ(1:1)としているが、R1とR2とを異なる重みづけでマッチ率を算出するようにしてもよい。
第1判定部205は、マッチ率を翻訳文の品質とする。具体的には、第1判定部205は、マッチ率が高いほど翻訳文の品質が高いと判定する。
なお、本実施形態では、第1判定部205は、文字列の一致率に応じて翻訳文の品質を判定しているが、他の手法により翻訳文の品質を判定するようにしてもよい。
なお、本実施形態では、文字列の一致率を一致度として算出しているのでサーバ2の処理負荷が低減される。
第1選択部206は、第1判定部205での判定結果に応じて、2以上の翻訳エンジンにより各々翻訳された2以上の翻訳文から1の翻訳文を所定単位で選択する。具体的には、第1選択部206は、第1判定部205で算出されたマッチ率が最も高い翻訳文を所定単位で選択する。
算出部207(第1算出部)は、翻訳エンジンごとに、第1選択部206により選択された翻訳文が翻訳文全体に占める割合を算出し、該算出された割合に応じて、翻訳エンジンの提供者への支払額を算出する。具体的には、原文全体の利用料(翻訳料)の取り分(例えば、50%など)に算出された割合を乗算した額を支払額とする。
また、算出部207(第2算出部)は、翻訳エンジンごとに、第1選択部206により選択された翻訳文が翻訳文全体に占める割合を算出し、該算出された割合及び翻訳エンジンごとの利用料に基づいて、原文の翻訳料金を算出する。
また、算出部207(第3算出部)は、評価部208での評価に応じて、第1選択部206により選択された翻訳文が選択された翻訳エンジン以外の翻訳エンジンの提供者へ支払う金額を算出する。なお、利用料(翻訳料)は予め記憶装置200Bに記憶していてもよい。
評価部208は、第1判定部205での判定結果に応じて、翻訳エンジンをそれぞれ評価する。具体的には、評価部208は、第1判定部205で算出されたマッチ率が高いほど高品質であると評価する。
なお、評価部208による評価には、種々の手法を用いることができる。例えば、評価部208による評価にBLEUスコアを利用してもよい。BLEUスコアでは、プロの翻訳者の訳と近ければ近いほどその機械翻訳の精度は高いと評価し、高いスコアを付与する。BLEUスコアでの評価する際には正解となる訳を1以上用意する(正解となる訳は、1つでもよいし、2以上であってもよい)。そのうえで、計算式を用いて、翻訳エンジンによる翻訳文と、プロの翻訳者による翻訳文との一致度を算出する。なおBLEUスコアは、0~1の間の実数で表現された数値を100倍したものがスコアとなる。評価部208は、スコアが高いほど高品質であると評価する。なお、目安としては、スコアが40以上であれば高品質と判定できる。
また、結果的によく使用されている、換言すると使用頻度が高い翻訳エンジンは、評価の高いエンジンということができる。このため、評価部208は、使用頻度の高い翻訳エンジンほど高品質であると評価するようにしてもよい。
翻訳制御部209は、翻訳エンジンごとに、原文を所定単位で第2言語に翻訳した翻訳文を生成させる。
(ユーザ端末3)
図4は、実施形態に係るユーザ端末3のハード構成及び機能構成の一例を示す図である。図4(a)は、ユーザ端末3のハード構成の一例を示す図、図4(b)は、ユーザ端末3の機能構成の一例を示す図である。ユーザ端末3は、デスクトップ型PC(Personal Computer)、ノートPCや携帯端末(例えば、スマートフォンやタブレット端末)などである。図4(a)に示すように、ユーザ端末3は、通信IF300A、記憶装置300B、入力装置300C、表示装置300D、CPU300Eなどを備える。
通信IF300Aは、他の装置(実施形態では、サーバ2)と通信するためのインターフェースである。
記憶装置300Bは、例えば、HDD(Hard Disk Drive)や半導体記憶装置(SSD(Solid State Drive))である。記憶装置300Bには、ユーザ端末3の識別子(ID)及び情報処理プログラムなどが記憶されている。なお、識別子は、サーバ2がユーザ端末3に対して新たに付与してもよいし、IP(Internet Protocol)アドレス、MAC(Media Access Control)アドレスなどを利用してもよい。
入力装置300Cは、例えば、キーボード、タッチパネルなどであり、入力装置300Cを操作して、情報処理システム1の利用に必要な情報を入力することができる。
表示装置300Dは、例えば、液晶モニタや有機ELモニタなどである。表示装置300Dは、情報処理システム1の利用に必要な画面を表示する。
CPU300Eは、ユーザ端末3を制御するものであり、図示しないROM及びRAMを備えている。
図4(b)に示すように、ユーザ端末3は、受信部301、送信部302、記憶装置制御部303、操作受付部304、表示装置制御部305などの機能を有する。なお、図4(b)に示す機能は、CPU300Eが、記憶装置300Bに記憶されている情報処理プログラムを実行することで実現される。
受信部301は、サーバ2から送信される情報を受信する。
送信部302は、入力装置300Cを利用して入力された情報に識別子を付与してサーバ2へ送信する。ユーザ端末3から送信される情報に識別子を付与することでサーバ2は、受信した情報がどのユーザ端末3から送信されたものであるかを認識できる。
記憶装置制御部303は、記憶装置300Bを制御する。具体的には、記憶装置制御部303は、記憶装置300Bを制御して情報の書き込みや読み出しを行う。
操作受付部304は、入力装置300Cでの入力操作を受け付ける。
表示装置制御部305は、表示装置300Dを制御する。具体的には、表示装置制御部305は、表示装置300Dを制御して実施形態に係る情報処理システム1の利用に必要な画面を表示させる。
(翻訳処理)
図5は、実施形態に係るサーバ2による翻訳処理の一例を示すフローチャートである。以下、図5を参照してサーバ2による翻訳処理の一例について説明する。
(ステップS101)
受信部201は、ユーザ端末3から送信される翻訳対象である第1言語の原文を受け付ける。
(ステップS102)
区分部204は、翻訳対象である第1言語の原文を所定単位に区分する。なお、上述したように、原文をどのように区分するかは任意である。
(ステップS103)
第1判定部205は、翻訳エンジンごとに、第一言語の原文と予め準備された対訳データの原文との一致度を所定単位ごとに算出する。
(ステップS104)
翻訳制御部209は、原文を所定単位で第2言語に翻訳した翻訳文を、翻訳エンジンごとに生成させる。
(ステップS105)
第1判定部205は、翻訳エンジンごとに、翻訳文を第2言語から第1言語へと逆翻訳した逆翻訳文と原文との一致度を算出する。
(ステップS106)
第1判定部205は、翻訳エンジンごとに、ステップS104で算出した第一言語の原文と予め準備された対訳データの原文との一致度及びステップS105で算出した逆翻訳文と原文との一致度に応じて翻訳文の品質を所定単位で判定する。なお、第1判定部205による翻訳文の品質の判定については重複する説明を省略する。
(ステップS107)
第1選択部206は、第1判定部205での判定結果に応じて、2以上の翻訳エンジンにより各々翻訳された2以上の翻訳文から1の翻訳文を所定単位で選択する。なお、第1選択部206による翻訳文の選択については重複する説明を省略する。
(ステップS108)
送信部202は、第1選択部206により所定単位ごとに選択された翻訳文を翻訳結果としてユーザ端末3へ送信(出力)する。
なお、上記説明では、第1選択部206により所定単位ごとに選択された翻訳文を翻訳結果としてユーザ端末3へ送信(出力)しているが、ステップS107において第1選択部206が所定単位ごとに選択した翻訳文を生成した翻訳エンジンを、推奨する翻訳エンジンとしてユーザ端末3へ送信(出力)するようにしてもよい。
(分配額算出処理)
図6は、実施形態に係るサーバ2による分配額算出処理の一例を示すフローチャートである。以下、図6を参照してサーバ2による翻訳エンジンの提供者への分配額算出処理の一例について説明する。
(ステップS201)
算出部207(第1算出部)は、翻訳エンジンごとに、第1選択部206により選択された翻訳文が翻訳文全体に占める割合を算出する。
(ステップS202)
算出部207(第1算出部)は、ステップS201で算出した割合に応じて、翻訳エンジンの提供者への分配額を算出する。
(ステップS203)
評価部208は、第1判定部205での判定結果に応じて、翻訳エンジンをそれぞれ評価する。なお、評価部208による評価の詳細は既に述べたので重複する説明を省略する。
(ステップS204)
算出部207(第3算出部)は、評価部208での評価に応じて、第1選択部206により選択された翻訳文が選択された翻訳エンジン以外の翻訳エンジンの提供者へ支払う金額を算出する。
なお、上記説明では、翻訳文が翻訳文全体に占める割合に応じて、翻訳エンジンの提供者への分配額を算出しているが、翻訳された所定単位の分量が翻訳前の原文に占める割合に応じて、翻訳エンジンの提供者への分配額を算出するようにしてもよい。
(課金額算出処理)
図7は、実施形態に係るサーバ2による課金額算出処理の一例を示すフローチャートである。以下、図7を参照してサーバ2によるユーザ(利用者)への課金額算出処理の一例について説明する。
(ステップS301)
算出部207(第2算出部)は、翻訳エンジンごとに、第1選択部206により選択された翻訳文が翻訳文全体に占める割合を算出する。
(ステップS302)
算出部207(第2算出部)は、ステップS301で算出した割合及び翻訳エンジンごとの利用料に基づいて、原文の翻訳料金を算出する。
なお、上記実施形態では、第1判定部205は、翻訳エンジンごとに、翻訳文を第2言語から第1言語へと逆翻訳した逆翻訳文と原文との一致度を算出し、翻訳エンジンごとに、第一言語の原文と予め準備された対訳データの原文との一致度及び逆翻訳文と原文との一致度に応じて翻訳文の品質を判定している。
しかし、第1判定部205は、翻訳エンジンごとに第一言語の原文と予め準備された対訳データの原文との一致度を算出し、該算出された一致度に応じて翻訳文の品質を判定するようにしてもよい。
また、第1判定部205は、翻訳文を第2言語から第1言語へと逆翻訳した逆翻訳文と原文との一致度を算出し、該算出された一致度に応じて翻訳文の品質を判定するようにしてもよい。
つまり、対訳データの原文との一致度と、逆翻訳文と原文との一致度のどちらか一方だけを実行するようにしてもよい。
以上のように、実施形態に係るサーバ2は、翻訳対象である第1言語の原文の入力を受け付ける受信部201(受付部)と、第1言語の原文を第2言語に翻訳した翻訳文を生成する2以上の翻訳エンジンごとに、翻訳文の品質を所定単位で判定する第1判定部205と、第1判定部205での判定結果に応じて、2以上の翻訳エンジンにより各々翻訳された2以上の翻訳文から1の翻訳文を所定単位で選択する第1選択部206とを備える。
このように、2以上の翻訳エンジンから最も品質のよい翻訳文を所定単位で選択することができ、翻訳文の品質が向上することが期待できる。
実施形態に係るサーバ2の第1判定部205は、翻訳エンジンごとに第一言語の原文と予め準備された対訳データの原文との一致度を算出し、該算出された一致度に応じて翻訳文の品質を判定する。
このように、原文に最も近い対訳データを利用して学習した翻訳エンジンにより翻訳することができ、翻訳文の品質が向上することが期待できる。
実施形態に係るサーバ2の第1判定部205は、翻訳エンジンごとに、翻訳文を第2言語から第1言語へと逆翻訳した逆翻訳文と原文との一致度を算出し、翻訳エンジンごとに、第一言語の原文と予め準備された対訳データの原文との一致度及び逆翻訳文と原文との一致度に応じて翻訳文の品質を判定する。
このように、原文に最も近い対訳データを利用して学習した翻訳エンジンにより翻訳するだけでなく逆翻訳率も考慮して翻訳することができ、翻訳文の品質がより向上することが期待できる。
実施形態に係るサーバ2は、翻訳対象である第1言語の原文を所定単位に区分する区分部204を備えている。そして、翻訳エンジンは、区分された所定単位で原文を翻訳する。
このように、翻訳前に原文を区分するので翻訳エンジンによる翻訳が容易となる。
実施形態に係るサーバ2は、翻訳エンジンごとに、第1選択部206により選択された翻訳文が翻訳文全体に占める割合を算出し、該算出された割合に応じて、翻訳エンジンの提供者への支払額を算出する算出部207を備える。
このように、全体に占める割合に応じて支払額が算出されるので、原文を翻訳した翻訳エンジンに公平に収益を分配することができる。
実施形態に係るサーバ2は、翻訳エンジンごとに、第1選択部206により選択された翻訳文が翻訳文全体に占める割合を算出し、該算出された割合及び翻訳エンジンごとの利用料に基づいて、原文の翻訳料金を算出する算出部207を備える。
このように、各翻訳エンジンの利用料及び各翻訳エンジンが全体に占める割合に応じて原文の翻訳料金が算出されるので、翻訳料がわかりやすく、納得性が高い。
実施形態に係るサーバ2は、第1判定部205での判定結果に応じて、翻訳エンジンを評価する評価部208を備える。
このように、判定結果に応じて、翻訳エンジンを評価するので、翻訳エンジンの性能を知ることができる。
実施形態に係るサーバ2は、評価に応じて、第1選択部206により選択された翻訳文が選択された翻訳エンジン以外の翻訳エンジンの提供者へ支払う金額を算出する算出部207を備える。
このように、翻訳エンジンの評価に応じて、翻訳文が選択された翻訳エンジン以外の翻訳エンジンの提供者へ支払う金額を算出するので、翻訳エンジンを向上させる動機付けとなることが期待できる。
[実施形態の変形例1]
上記実施形態では、翻訳対象である原文と、全ての対訳データの原文と照合し、一致度を算出しているが、対訳データ数が多い場合、一致度を算出する負荷が問題となる可能性がある。例えば、100の翻訳エンジンでそれぞれ対訳データが30万ほどある場合に、一つの文章を翻訳する際に、毎回3000万の対訳データの原文との一致度を算出することになる。この実施形態の変形例1では、翻訳対象である原文を翻訳する翻訳エンジンを絞り込むことで対訳データの原文との一致度を算出する負荷を低減する実施形態について説明する。
実施形態の変形例1の記憶装置200Bには、対訳データ及び情報処理プログラムなどに加え、第2判定部210で分野を判定するための用語(文字列)が記憶されている。なお、本実施形態の変形例1においても、対訳データ、情報処理プログラム及び分野を判定するための用語は、USBメモリなどの外部記憶装置やネットワークを介して接続された外部サーバに記憶し、必要に応じて参照やダウンロード可能に構成されていてもよい。
分野を判定するための用語は、対訳データの中から業界特有の頻出用語を例えば、100~200語程度選別したものであり、分野ごとに100~200語程度が記憶装置200Bに記憶されている(なお、100~200語はあくまで一例であり、頻出用語数は任意である(もっと少なくてもよいし、もっと多くてもよい))。なお、どのような領域を一つの分野とするかは任意である。例えば、哲学、歴史学、人文科学、社会科学、自然科学などのように分野を分けてもよいし、更に細分化してもよい。例えば、人文科学を心理学及び言語学、社会科学を政治学及び法律学、自然科学を物理学及び化学に細分化してもよい。
図8は、実施形態の変形例1に係るサーバ2の機能構成の一例を示す図である。図8に示すように、サーバ2は、受信部201、送信部202、記憶装置制御部203、区分部204、第1判定部205、第1選択部206、算出部207(第1~第3算出部)、評価部208、翻訳制御部209、第2判定部210、第2選択部211などの機能を有する。なお、図8に示す機能は、サーバ2のROM(不図示)に記憶された情報処理プログラムをCPU200Cが実行することにより実現される。
以下、図8を参照して、実施形態の変形例1に係るサーバ2の機能構成について説明するが、受信部201、送信部202、記憶装置制御部203、区分部204、第1判定部205、第1選択部206、算出部207(第1~第3算出部)、評価部208、翻訳制御部209については、図3を参照して説明したので重複する説明を省略する。
第2判定部210は、第一言語の原文に含まれる文言から原文の属する分野を所定単位で判定する。具体的には、第2判定部210は、記憶装置200Bに記憶された分野ごとの用語を参照し、原文に含まれる文言(文字列)と分野ごとの用語(文字列)との一致度に応じて、原文の属する分野を所定単位で判定する。例えば、第2判定部210は、最も一致度の高い分野を原文の属する分野と判定する。
第2選択部211は、翻訳エンジンが属する分野及び第2判定部210での判定結果に応じて、2以上の翻訳エンジンから翻訳に利用する翻訳エンジンを所定単位で選択する(絞り込む)。具体的には、第2選択部211は、第2判定部210で判定された原文の属する分野と同一分野に属する翻訳エンジンを所定単位で選択する(絞り込む)。なお、分野による選択(絞り込み)後、翻訳エンジンが所定数以上(例えば、10以上)ある場合、第2選択部211は、分野による選択(絞り込み)した翻訳エンジンごとに、第一言語の原文に含まれる文字列と予め準備された対訳データの原文に含まれる文字列との一致率を一致度として所定単位で算出し、該算出された一致度に応じて原文の翻訳に利用する翻訳エンジンを所定単位ごとに所定数以下(例えば、5以下)となるまで選択する(絞り込む)。例えば、第2選択部211は、算出された一致度が高いものから原文の翻訳に利用する翻訳エンジンを所定単位ごとに所定数以下となるまで選択する。なお、第2選択部211は、一致度が所定値以上の翻訳エンジンを選択しても(絞り込んでも)よい。
(絞り込み処理)
図9は、実施形態に係るサーバ2による翻訳エンジンの絞り込み処理の一例を示すフローチャートである。以下、図9を参照してサーバ2による絞り込み処理の一例について説明する。
(ステップS401)
受信部201は、ユーザ端末3から送信される翻訳対象である第1言語の原文を受け付ける。
(ステップS402)
区分部204は、翻訳対象である第1言語の原文を所定単位に区分する。なお、上述しように、原文をどのように区分するかは任意である。
(ステップS403)
第2判定部210は、第一言語の原文に含まれる文言から原文の属する分野を所定単位で判定する。
(ステップS404)
第2選択部211は、第2判定部210で判定された原文の属する分野と同一分野に属する翻訳エンジンを所定単位で選択する(絞り込む)。
(ステップS405)
第2選択部211は、選択(絞り込み)した後の翻訳エンジンが所定数以上(例えば、10以上)であるか否かを判定する。所定数以上である場合(YES)、サーバ2は、ステップS406の処理を実行する。所定数以上でない場合(NO)、サーバ2は、絞り込み処理を終了する。
(ステップS406)
第2選択部211は、第一言語の原文と予め準備された対訳データの原文との一致度を所定単位で算出する。
(ステップS407)
第2選択部211は、算出された一致度に応じて原文の翻訳に利用する翻訳エンジンを所定単位ごとに所定数以下(例えば、5以下)となるまで選択する(絞り込む)。具体的には、一致度の高い順に翻訳エンジンを所定数以下(例えば、5以下)となるまで選択する。なお、第2選択部211は、一致度が所定値以上の翻訳エンジンを選択しても(絞り込んでも)よい。
絞り込み処理後、サーバ2は、選択した(絞り込んだ)翻訳エンジンについて、図5の翻訳処理のステップS103以降の処理を実行して、原文を翻訳する。
なお、上記説明では、第2選択部211は、第2判定部210で判定された原文の属する分野と同一分野に属する翻訳エンジンを所定単位で選択し(絞り込み)、分野による選択(絞り込み)後、翻訳エンジンが所定数以上(例えば、10以上)ある場合、第2選択部211は、分野による選択(絞り込み)した翻訳エンジンごとに、第一言語の原文と予め準備された対訳データの原文との一致度を所定単位で算出し、該算出された一致度に応じて原文の翻訳に利用する翻訳エンジンを所定単位ごとに所定数以下(例えば、5以下)となるまで選択している(絞り込んでいる)。
しかしながら、第2選択部211は、第2判定部210で判定された原文の属する分野と同一分野に属する翻訳エンジンを所定単位で選択した後(絞り込んだ後)、選択した(絞り込んだ)翻訳エンジンで原文を翻訳してもよい。
また、第2選択部211は、分野による翻訳エンジンの選択(絞り込み)を行わずに、一言語の原文と予め準備された対訳データの原文との一致度を所定単位で算出し、該算出された一致度に応じて原文の翻訳に利用する翻訳エンジンを所定単位で選択し、選択した(絞り込んだ)翻訳エンジンで原文を翻訳してもよい。
つまり、分野による翻訳エンジンの選択(絞り込み)と、一致度による翻訳エンジンの選択(絞り込み)のどちらか一方だけを実行するようにしてもよい。
以上のように、実施形態の変形例1に係るサーバ2は、翻訳エンジンごとに、第一言語の原文と予め準備された対訳データの原文との一致度を所定単位で算出し、該算出された一致度に応じて2以上の翻訳エンジンから原文の翻訳に利用する翻訳エンジンを所定単位で選択する第2選択部211を備える。
このように、一致度に応じて翻訳エンジンを絞り込んでから原文を翻訳するのでサーバ2の負荷を低減することができる。
また、実施形態の変形例1に係るサーバ2は、第一言語の原文に含まれる文言から原文の属する分野を所定単位で判定する第2判定部210を備える。第2選択部211は、翻訳エンジンが属する分野及び第2判定部210での判定結果に応じて、2以上の翻訳エンジンから翻訳に利用する翻訳エンジンを所定単位で選択する。
このように、分野で翻訳エンジンを絞り込んでから原文を翻訳するのでサーバ2の負荷を低減することができる。
なお、原文の内容によっては、翻訳エンジンを絞り込まずに、多数の翻訳エンジンで翻訳させる方がよい場合があることが考えられる。このため、ユーザ(利用者)から翻訳エンジンを選択する(絞り込む)指示がある場合に、第2選択部211が翻訳エンジンを選択する(絞り込む)ようにしてもよい。
また、原文の内容を所定単位で判断し、翻訳エンジンを選択して(絞り込んで)翻訳させてもよいと判定される場合、第2選択部211に翻訳エンジンを選択する(絞り込む)よう指示し、第2選択部211が翻訳エンジンを選択する(絞り込む)ようにしてもよい。
このように、原文の内容に応じて翻訳エンジンを絞り込んで原文を翻訳するか否かを指示することができ利便性が向上する。
[実施形態の変形例2]
実施形態の変形例2では、ユーザ(利用者)に対して翻訳エンジンの提供者を明示するか又は非明示とするかに応じて、明示するとした翻訳エンジンの提供者以外の提供者又は非明示とするとした翻訳エンジンの提供者を、ユーザに対して明示しない実施形態について説明する。
例えば、サーバ2の受信部201は、ユーザに対して翻訳エンジンの提供者を明示するか又は非明示とするかを受け付け、明示するとした翻訳エンジンの提供者以外の提供者又は非明示とするとした翻訳エンジンの提供者を、ユーザに対して明示しないように構成してもよい。
なお、翻訳エンジンの提供者を明示しないようにする手法は、種々の手法が考えられる。例えば、翻訳エンジンの提供者から提供される対訳データには、翻訳エンジンの提供者(会社名や個人名)を特定できる文言(キーワード)が含まれていることが考えられる。この場合、対訳データに含まれる、固有名詞の連続等で、あきらかに翻訳エンジンの提供者を特定できる文言にタグ付けを行い、タグ付けされた文言については、該タグ付けされた文言について、非表示又は異なる文言(例えば、xxxxなど翻訳エンジンの提供者を特定できない文言)に置換して表示させるように構成することが考えられる。このように構成することで、翻訳エンジンの提供者は、匿名性を担保できるので利便性が向上する。
なお、ユーザ(利用者)に対して翻訳エンジンの提供者を非明示とすることを希望する翻訳エンジンの提供者に対しては、翻訳エンジンの提供者への支払額を算出する際に減額(例えば、80%)するようにしてもよい。
1 情報処理システム
2 サーバ(情報処理装置)
200A 通信IF
200B 記憶装置
200C CPU
201 受信部
202 送信部
203 記憶装置制御部
204 区分部
205 第1判定部
206 第1選択部
207 算出部(第1~第3算出部)
208 評価部
209 翻訳制御部
210 第2判定部
211 第2選択部
3 ユーザ端末
300A 通信IF
300B 記憶装置
300C 入力装置
300D 表示装置
300E CPU
301 受信部
302 送信部
303 記憶装置制御部
304 操作受付部
305 表示装置制御部
4 ネットワーク

Claims (15)

  1. 翻訳対象である第1言語の原文の入力を受け付ける受付部と、
    前記第1言語の原文を第2言語に翻訳した翻訳文を生成する2以上の翻訳エンジンごとに、前記翻訳文の品質を所定単位で判定する第1判定部と、
    前記第1判定部での判定結果に応じて、前記2以上の翻訳エンジンにより各々翻訳された2以上の翻訳文から1の翻訳文を前記所定単位で選択する第1選択部と、を備える
    ことを特徴とする情報処理装置。
  2. 前記第1判定部は、
    前記翻訳エンジンごとに前記第一言語の原文と予め準備された対訳データの原文との一致度を算出し、該算出された一致度に応じて前記翻訳文の品質を判定する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記第1判定部は、
    前記翻訳エンジンごとに、前記翻訳文を前記第2言語から前記第1言語へと逆翻訳した逆翻訳文と前記原文との一致度を算出し、
    前記翻訳エンジンごとに、前記第一言語の原文と予め準備された対訳データの原文との一致度及び前記逆翻訳文と前記原文との一致度に応じて 前記翻訳文の品質を判定する
    ことを特徴とする請求項2に記載の情報処理装置。
  4. 翻訳対象である第1言語の原文を前記所定単位に区分する区分部を備え、
    前記翻訳エンジンは、
    前記区分された前記所定単位で前記原文を翻訳する
    ことを特徴とする請求項1乃至請求項3のいずれかに記載の情報処理装置。
  5. 前記翻訳エンジンごとに、前記第一言語の原文と予め準備された対訳データの原文との一致度を前記所定単位で算出し、該算出された一致度に応じて前記2以上の翻訳エンジンから前記原文の翻訳に利用する翻訳エンジンを前記所定単位で選択する第2選択部を備える
    ことを特徴とする請求項1乃至請求項4のいずれかに記載の情報処理装置。
  6. 前記第一言語の原文に含まれる文言から前記原文の属する分野を前記所定単位で判定する第2判定部を備え、
    前記第2選択部は、
    前記翻訳エンジンが属する分野及び前記第2判定部での判定結果に応じて、前記2以上の翻訳エンジンから前記翻訳に利用する翻訳エンジンを前記所定単位で選択する
    ことを特徴とする請求項5に記載の情報処理装置。
  7. 前記第2選択部は、
    前記翻訳エンジンを前記所定単位で選択させる指示がある場合、前記2以上の翻訳エンジンから前記翻訳に利用する翻訳エンジンを前記所定単位で選択する
    ことを特徴とする請求項6に記載の情報処理装置。
  8. 前記翻訳エンジンごとに、前記第1選択部により選択された前記翻訳文が前記翻訳文全体に占める割合を算出し、該算出された割合に応じて、前記翻訳エンジンの提供者への支払額を算出する第1算出部を備える
    ことを特徴とする請求項1乃至請求項7のいずれかに記載の情報処理装置。
  9. 前記翻訳エンジンごとに、前記第1選択部により選択された前記翻訳文が前記翻訳文全体に占める割合を算出し、該算出された割合及び前記翻訳エンジンごとの利用料に基づいて、前記原文の翻訳料金を算出する第2算出部を備える
    ことを特徴とする請求項1乃至請求項8のいずれかに記載の情報処理装置。
  10. 前記第1判定部での判定結果に応じて、前記翻訳エンジンを評価する評価部を備える
    ことを特徴とする請求項1乃至請求項9のいずれかに記載の情報処理装置。
  11. 前記評価に応じて、前記第1選択部により選択された翻訳文が選択された翻訳エンジン以外の翻訳エンジンの提供者へ支払う金額を算出する第3算出部を備える
    ことを特徴とする請求項10に記載の情報処理装置。
  12. 利用者に対して前記翻訳エンジンの提供者を明示するか又は非明示とするかに応じて、前記明示するとした前記翻訳エンジンの提供者以外の提供者又は前記非明示とするとした前記翻訳エンジンの提供者を、前記利用者に対して明示しない
    ことを特徴とする請求項1乃至請求項11のいずれかに記載の情報処理装置。
  13. 前記対訳データに含まれる前記エンジンの提供者を特定可能な文言にタグ付けを行い、該タグ付けされた文言について、非表示又は異なる文言に置換して表示することを特徴とする請求項12に記載の情報処理装置。
  14. 受付部が、翻訳対象である第1言語の原文の入力を受け付ける工程と、
    判定部が、前記第1言語の原文を第2言語に翻訳した翻訳文を生成する2以上の翻訳エンジンごとに、前記翻訳文の品質を所定単位で判定する工程と、
    選択部が、前記判定部での判定結果に応じて、前記2以上の翻訳エンジンにより各々翻訳された2以上の翻訳文から1の翻訳文を前記所定単位で選択する工程と、
    を有することを特徴とする情報処理方法。
  15. コンピュータを、
    翻訳対象である第1言語の原文の入力を受け付ける受付部、
    前記第1言語の原文を第2言語に翻訳した翻訳文を生成する2以上の翻訳エンジンごとに、前記翻訳文の品質を所定単位で判定する判定部、
    前記判定部での判定結果に応じて、前記2以上の翻訳エンジンにより各々翻訳された2以上の翻訳文から1の翻訳文を前記所定単位で選択する選択部、
    として機能させることを特徴とする情報処理プログラム。

JP2020120402A 2020-07-14 2020-07-14 情報処理装置、情報処理方法及び情報処理プログラム Pending JP2022017702A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020120402A JP2022017702A (ja) 2020-07-14 2020-07-14 情報処理装置、情報処理方法及び情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020120402A JP2022017702A (ja) 2020-07-14 2020-07-14 情報処理装置、情報処理方法及び情報処理プログラム

Publications (1)

Publication Number Publication Date
JP2022017702A true JP2022017702A (ja) 2022-01-26

Family

ID=80185994

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020120402A Pending JP2022017702A (ja) 2020-07-14 2020-07-14 情報処理装置、情報処理方法及び情報処理プログラム

Country Status (1)

Country Link
JP (1) JP2022017702A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023158133A1 (ko) * 2022-02-18 2023-08-24 에이아이링고 주식회사 번역된 콘텐츠의 편집 인터페이스 제공 방법 및 컴퓨터 프로그램

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023158133A1 (ko) * 2022-02-18 2023-08-24 에이아이링고 주식회사 번역된 콘텐츠의 편집 인터페이스 제공 방법 및 컴퓨터 프로그램

Similar Documents

Publication Publication Date Title
RU2731659C2 (ru) Способ и устройство для обучения алгоритма машинного обучения (MLA) по созданию рекомендаций содержимого в системе рекомендаций и способ и устройство для создания рекомендуемого содержимого с помощью алгоритма машинного обучения
US20190042566A1 (en) Method and System for Automatic Management of Reputation of Translators
US8990064B2 (en) Translating documents based on content
US20210241893A1 (en) Dashboard Usage Tracking and Generation of Dashboard Recommendations
US20140006006A1 (en) Dynamic Generation of Auto-Suggest Dictionary for Natural Language Translation
US20110082683A1 (en) Providing Machine-Generated Translations and Corresponding Trust Levels
TW201037532A (en) Sharable distributed dictionary for applications
CN103514154A (zh) 用于动态翻译替换的方法及系统
CN111708934A (zh) 知识内容的评价方法、装置、电子设备和存储介质
US20200349204A1 (en) Patent evaluation and determination method, patent evaluation and determination device, and patent evaluation and determination program
CA3163408A1 (en) Creating predictor variables for prediction models from unstructured data using natural language processing
CA3237874A1 (en) Bayesian modeling for risk assessment based on integrating information from dynamic data sources
JP2022510818A (ja) 改良されたデータマッチングのためのデータレコードの字訳
US20170228464A1 (en) Finding users in a social network based on document content
Chen et al. Designing highly potent compounds using a chemical language model
Solyman et al. Optimizing the impact of data augmentation for low-resource grammatical error correction
Radeva et al. Web Application for Retrieval-Augmented Generation: Implementation and Testing
JP2022017702A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
US20140032573A1 (en) System and method for evaluating the peer review process of scholarly journals
US20150199332A1 (en) Browsing history language model for input method editor
Wang et al. Exploring Multi-Lingual Bias of Large Code Models in Code Generation
US20180375926A1 (en) Distributed processing systems
KR102471032B1 (ko) 외국어 번역 및 학습 서비스 제공 장치, 방법 및 프로그램
Ghosh et al. Designing an efficient virtual keyboard for text composition in Bengali
Zhou et al. Evolutionary Multi-objective Optimization for Contextual Adversarial Example Generation