JP2015005011A - 情報処理装置、情報処理方法及び情報処理プログラム - Google Patents

情報処理装置、情報処理方法及び情報処理プログラム Download PDF

Info

Publication number
JP2015005011A
JP2015005011A JP2013128180A JP2013128180A JP2015005011A JP 2015005011 A JP2015005011 A JP 2015005011A JP 2013128180 A JP2013128180 A JP 2013128180A JP 2013128180 A JP2013128180 A JP 2013128180A JP 2015005011 A JP2015005011 A JP 2015005011A
Authority
JP
Japan
Prior art keywords
translation
web page
language
log
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013128180A
Other languages
English (en)
Other versions
JP5787934B2 (ja
Inventor
裕貴 石川
Yuki Ishikawa
裕貴 石川
颯々野 学
Manabu Satsusano
学 颯々野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2013128180A priority Critical patent/JP5787934B2/ja
Publication of JP2015005011A publication Critical patent/JP2015005011A/ja
Application granted granted Critical
Publication of JP5787934B2 publication Critical patent/JP5787934B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】検索サービスにおいて翻訳品質が求められる検索クエリ内の単語の翻訳の正確性を推定するようにした情報処理装置を提供する。
【解決手段】情報処理装置のクエリ受付手段は、第1の言語で記載された原Webページを機械翻訳システムによって第2の言語に翻訳した翻訳Webページに対して検索を行うための、第2の言語の単語を含む検索クエリを受け付け、対訳記憶手段は、機械翻訳システムが原Webページから翻訳Webページの翻訳に用いた第1の言語の単語と対訳である第2の言語の単語を記憶しており、ログ記憶手段は、クエリ受付手段によって受け付けられた検索クエリによって検索された翻訳Webページに対する操作者の操作のログを記憶しており、推定手段は、ログ記憶手段に記憶されているログを用いて、クエリ受付手段によって受け付けられた検索クエリ内の単語に対応する対訳記憶手段に記憶されている対訳の正確性を推定する。
【選択図】図1

Description

本発明は、機械翻訳で翻訳された文に含まれる単語の対訳の正しさを推定する情報処理装置、情報処理方法及び情報処理プログラムに関する。
インターネットにおけるWebページにおいて、ユーザが用いる言語(母国語)とは異なる言語(外国語)で作成されたWebページを翻訳して、その翻訳したWebページを検索できるようにすることが行われている。その翻訳は、一般的に機械翻訳システムが用いられている。機械翻訳システムを用いた翻訳の場合、翻訳者が翻訳を行った場合と比べると、翻訳品質の劣ることが多い。
機械翻訳システムによる翻訳の品質を向上するために、対訳コーパスから統計的に対訳の正しさを推定することが行われている。又は、人手によって作成された対訳辞書を利用すること等が行われている。
また、関連する技術として、特許文献1等がある。
特許文献1には、表音文字からなる言語の単語間で文字の表記に基づいて単語意味関係を正確に抽出する単語意味関係抽出装置を提供することを目的とし、データに含まれる単語から、二つの単語によって構成される単語ペアを抽出し、抽出した単語ペアの単語意味関係を判定する単語意味関係抽出装置において、単語意味関係辞書に登録された単語意味関係単語ペアの単語から複数の文字からなる意味素を抽出し、前記単語意味関係単語ペアの単語の意味素間の類似度を算出し、意味素間の類似度に基づいてデータから抽出された単語ペアの類似度を算出し、単語ペアの類似度に基づいて単語ペアの単語意味関係を判定することが開示されている。
特開2012−108570号公報
人手による対訳辞書、対訳コーパスともに、それを用意するのにコストが掛かる。また、対訳辞書を用いる場合、訳語に曖昧性がある単語は誤って翻訳される可能性がある。そして、対訳コーパスを用いる場合、翻訳確率は基本的には出現頻度に依存するため頻度の低い語は誤って訳される可能性がある。また、検索サービスにおいては、検索クエリ内の単語についての翻訳の正確性が求められている。
本発明は、このような背景技術の状況の中でなされたもので、検索サービスにおいて翻訳品質が求められる検索クエリ内の単語の翻訳の正確性を推定するようにした情報処理装置、情報処理方法及び情報処理プログラムを提供することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
[1]の発明は、第1の言語で記載された原Webページを機械翻訳システムによって第2の言語に翻訳した翻訳Webページに対して検索を行うための、該第2の言語の単語を含む検索クエリを受け付けるクエリ受付手段と、前記機械翻訳システムが前記原Webページから前記翻訳Webページの翻訳に用いた第1の言語の単語と対訳である第2の言語の単語を記憶している対訳記憶手段と、前記クエリ受付手段によって受け付けられた検索クエリによって検索された翻訳Webページに対する操作者の操作のログを記憶しているログ記憶手段と、前記ログ記憶手段に記憶されているログを用いて、前記クエリ受付手段によって受け付けられた検索クエリ内の単語に対応する前記対訳記憶手段に記憶されている対訳の正確性を推定する推定手段を具備することを特徴とする情報処理装置である。
[2]の発明は、前記推定手段によって推定された正確性に基づいて、前記対訳記憶手段に記憶されている対訳を変更する対訳変更手段をさらに具備することを特徴とする[1]に記載の情報処理装置である。
[3]の発明は、前記ログ記憶手段は、前記対訳が正しいか否かを示す正解情報を付加して記憶しており、前記ログ記憶手段に記憶された正解情報を教師データとして、該ログ記憶手段に記憶されているログを用いて、前記推定手段における推定処理を学習する学習手段をさらに具備し、前記推定手段は、前記学習手段によって学習された推定処理にしたがって、対訳の正確性を推定することを特徴とする[1]又は[2]に記載の情報処理装置である。
[4]の発明は、対訳記憶手段とログ記憶手段を具備する情報処理装置が行う情報処理方法であって、前記対訳記憶手段は、機械翻訳システムが原Webページから翻訳Webページの翻訳に用いた第1の言語の単語と対訳である第2の言語の単語を記憶しており、第1の言語で記載された原Webページを機械翻訳システムによって第2の言語に翻訳した翻訳Webページに対して検索を行うための、該第2の言語の単語を含む検索クエリを受け付けるクエリ受付ステップと、前記クエリ受付ステップによって受け付けられた検索クエリによって検索された翻訳Webページに対する操作者の操作のログを前記ログ記憶手段に記憶させるステップと、前記ログ記憶手段に記憶されているログを用いて、前記クエリ受付ステップによって受け付けられた検索クエリ内の単語に対応する前記対訳記憶手段に記憶されている対訳の正確性を推定する推定ステップを具備することを特徴とする情報処理方法である。
[5]の発明は、コンピュータを、第1の言語で記載された原Webページを機械翻訳システムによって第2の言語に翻訳した翻訳Webページに対して検索を行うための、該第2の言語の単語を含む検索クエリを受け付けるクエリ受付手段と、前記機械翻訳システムが前記原Webページから前記翻訳Webページの翻訳に用いた第1の言語の単語と対訳である第2の言語の単語を記憶している対訳記憶手段と、前記クエリ受付手段によって受け付けられた検索クエリによって検索された翻訳Webページに対する操作者の操作のログを記憶しているログ記憶手段と、前記ログ記憶手段に記憶されているログを用いて、前記クエリ受付手段によって受け付けられた検索クエリ内の単語に対応する前記対訳記憶手段に記憶されている対訳の正確性を推定する推定手段として機能させるための情報処理プログラムである。
本発明にかかる情報処理装置、情報処理方法及び情報処理プログラムによれば、検索サービスにおいて翻訳品質が求められる検索クエリ内の単語の翻訳の正確性を推定することができる。
第1の実施の形態の構成例についての概念的なモジュール構成図である。 本実施の形態における主にデータの流れの例を示す説明図である。 第1の実施の形態を実現するためのシステム構成例を示す説明図である。 第1の実施の形態における処理例を示すフローチャートである。 対訳テーブルのデータ構造例を示す説明図である。 ログのデータ構造例を示す説明図である。 第2の実施の形態の構成例についての概念的なモジュール構成図である。 第2の実施の形態における学習処理例を示すフローチャートである。 ログのデータ構造例を示す説明図である。 本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
以下、図面に基づき本発明を実現するにあたっての好適な各種の実施の形態の例を説明する。
図1は、第1の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
第1の実施の形態である情報処理装置100は、検索クエリ受付モジュール110、検索モジュール120、翻訳モジュール130、対訳記憶モジュール140、ログ収集モジュール150、ログ記憶モジュール160、正確性推定モジュール170、対訳変更モジュール180を有している。
検索クエリ受付モジュール110は、検索モジュール120、ログ記憶モジュール160と接続されている。検索クエリ受付モジュール110は、第1の言語で記載された原Webページを機械翻訳システムによって第2の言語に翻訳した翻訳Webページに対して検索を行うための、その第2の言語の単語を含む検索クエリを受け付ける。ここで第1の言語は、原Webページの記載に用いられている言語であり、例えば、英語等がある。第2の言語は、原Webページにアクセスしたいユーザが読むことができる言語であり、例えば、日本語等がある。そのユーザにとっては、一般的に、第1の言語は外国語であり、第2の言語は母国語となる。第1のWebページは、機械翻訳システムによって翻訳されたWebページである。また、検索クエリ内には、第2の言語の単語が含まれ、複数あってもよい。例えば、複数の単語のAND検索、OR検索等である。一般的な例として、検索クエリ受付モジュール110は、Webブラウザを通じてユーザが入力した検索クエリを受け付ける。例えば、ショップサイトの検索等がある。
検索モジュール120は、検索クエリ受付モジュール110と接続されている。検索モジュール120は、検索クエリ受付モジュール110が受け付けた検索クエリにしたがって、翻訳Webページを検索する。従来からある検索システムを用いればよい。
翻訳モジュール130は、対訳記憶モジュール140と接続されている。翻訳モジュール130は、前述の機械翻訳システム内の翻訳処理を行うモジュールであって、対訳記憶モジュール140内の対訳テーブルを用いて、原Webページから翻訳を行って、翻訳Webページを作成する。また、翻訳モジュール130は、翻訳Webページを作成する際に用いた対訳の組をログ記憶モジュール160に記憶させてもよい。
対訳記憶モジュール140は、翻訳モジュール130、正確性推定モジュール170、対訳変更モジュール180と接続されている。対訳記憶モジュール140は、機械翻訳システムが原Webページから翻訳Webページの翻訳に用いた第1の言語の単語と対訳である第2の言語の単語を記憶している。例えば、対訳テーブル500を記憶している。図5は、対訳テーブル500のデータ構造例を示す説明図である。対訳テーブル500は、第1言語欄510、第2言語欄520、翻訳確率欄530を有している。第1言語欄510は、第1の言語である単語を記憶している。第2言語欄520は、その第1の言語の単語の対訳である第2の言語の単語を記憶している。翻訳確率欄530は、その対訳を用いる確率を記憶している。対訳である単語対応には複数の可能性がある。ここでの確率は、これらの単語対応を採用する可能性(確率、条件付き確率)を示している。一般的に、第1の言語の単語が多義語である場合、対訳は複数あり、その第1の言語の単語が用いられているWebページ内の文脈に応じて、対訳が選択される。
ログ収集モジュール150は、ログ記憶モジュール160と接続されている。ログの収集は、翻訳Webページを表示している端末が収集し、その収集したログをログ収集モジュール150に対して送信してもよいし、その翻訳Webページに対する指示を受け付けるWebサーバーがログを収集し、その収集したログをログ収集モジュール150に対して送信してもよい。収集するログとしては、(1)翻訳WebページのURL(Uniform Resource Locator)、(2)滞在時間(次のWebページへ移動するまでの期間(翻訳Webページの表示期間))、(3)検索結果を示す翻訳Webページがクリックされたか否かを示す情報(その翻訳Webページが表示されたか否かを示す情報)、(4)検索クエリ内で用いられた単語毎の対訳、等がある。また、これらに限られず、以下のものを収集してもよい。
(1)クリックログ
以下の操作の基本データとなるものであり、Webページ上でのマウス操作(カーソルの移動操作、右ボタン又は左ボタン等の選択操作)をログとして記憶する。また、Webページを表示する装置がタッチパネルである場合は、指等の操作(タップ、ドラッグ、フリック、ピンチイン、ピンチアウト、長押し、シェイク等)をログとして記憶する。このクリックログを解析して、以下の操作をログとして収集してもよい。
(2)スクロールに関する操作
具体的には、スクロールが行われた回数、スクロールによる移動距離、移動方向等がある。
(3)原Webページ(原言語(第1の言語)のページ)に関する操作
「原Webページ」を「翻訳Webページ」とともに表示する。例えば、タグ等を用いて原Webページを表示できるようにしてもよい。
具体的には、「原Webページ」への移動回数、「原Webページ」の滞在時間等がある。タグを用いた場合は、「原Webページ」のタグが選択された回数が「原Webページ」への移動回数となる。「原Webページ」のタグが選択されてから、他のタグが選択されるまでの期間又は次のWebページへ移動するまでの期間が、「原Webページ」の滞在時間となる。
(4)「いいね!」ボタン等に関する操作
ソーシャルネットワーキングサービス(例えば、フェイスブック、ツイッター)等における「いいね!」ボタンに関する操作である。
具体的には、「いいね!」ボタン等が選択された回数等がある。
(5)売上等に関する操作
対象としている翻訳Webページが商用目的である場合は、購入の回数、売上額、予約数等がある。
(6)コンバージョン(CV)に関する操作
コンバージョンとは、商用目的等のウェブサイト上で獲得できる最終的な成果をいい、商用目的の翻訳Webページならば商品購入、情報提供やコミュニティのための翻訳Webページならば会員登録等がコンバージョンにあたる。なお、資料請求、問い合わせ等の一次的な成果をコンバージョンとして含めてもよい。また、コンバージョン率(Webページへのアクセス数に対して、コンバージョンに結びついた件数の割合)を収集してもよい。
(7)辞書検索への遷移に関する操作
具体的には、「原Webページ」、「翻訳Webページ」内の単語に対して、辞書検索を行った回数、辞書の種類、検索対象となった単語等がある。
(8)検索結果ページからの流入トラフィック
つまり、インターネットの検索システムにおける検索による検索結果から対象としているWebページへの流入の回数(いわゆる検索エンジンを経由したWebページへの訪問回数)を操作ログとする。
この操作ログと翻訳品質とは一定の相関がある。以下に説明する。翻訳品質が悪いと、そもそもユーザの検索クエリと一致しない可能性がある。また、検索結果のページで表示される部分の翻訳品質が悪い場合、例えば、商品タイトルの翻訳品質が悪い場合、又は、検索結果で一部だけ表示する本文の翻訳品質が悪い場合、検索結果であるWebページに対するクリックの可能性が低くなる。
ログ記憶モジュール160は、検索クエリ受付モジュール110、ログ収集モジュール150、正確性推定モジュール170と接続されている。ログ記憶モジュール160は、検索クエリ受付モジュール110によって受け付けられた検索クエリによって検索された翻訳Webページに対する操作者の操作のログを記憶している。例えば、ログ600を記憶している。図6は、ログ600のデータ構造例を示す説明図である。ログ600は、クエリ欄610、ページ欄620、滞在時間欄630、クリック欄640、対訳1欄650、対訳2欄660等を有している。クエリ欄610は、検索クエリ受付モジュール110が収集した検索クエリを記憶している。ここでは、検索クエリに含まれている単語の列を記憶している。ページ欄620は、その検索クエリによって検索された翻訳Webページ(検索クエリに該当すると表示された翻訳Webページ)のURLを記憶している。滞在時間欄630は、その翻訳Webページの滞在時間を記憶している。クリック欄640は、その翻訳Webページがクリックされたか否かを示す情報を記憶している。対訳1欄650は、検索クエリ内の第1の単語について、その翻訳Webページ内での対訳を記憶している。つまり、機械翻訳システムが、その翻訳Webページを翻訳した際に用いた対訳テーブル500の対訳の組を記憶している。対訳2欄660は、検索クエリ内の第2の単語について、対訳1欄650と同等の内容を記憶している。もちろんのことながら、検索クエリ内の単語の数が3以上の場合は、対訳1欄650と同等の欄が続き、検索クエリ内の単語の数が1である場合は、対訳2欄660は不要(対訳2欄660にNULLを記憶させてもよい)である。
正確性推定モジュール170は、対訳記憶モジュール140、ログ記憶モジュール160、対訳変更モジュール180と接続されている。正確性推定モジュール170は、ログ記憶モジュール160に記憶されているログを用いて、検索クエリ受付モジュール110によって受け付けられた検索クエリ内の単語に対応する対訳記憶モジュール140に記憶されている対訳の正確性を推定する。
例えば、検索モジュール120による出てきた検索結果には検索クエリの各語が含まれるが、正しい訳となっているページのクリック数は多く滞在時間も長くなり、誤った訳となっているページのクリック数は少なく滞在時間も短くなると考えられる。翻訳モジュール130は対訳記憶モジュール140を用いて翻訳しているので、検索クエリ内の各語の対訳は判明する。各対訳の正確性は、ログ記憶モジュール160に記憶されているログを手がかりとして用いて推定する。つまり、クリックされており(ログ600のクリック欄640を参照)、滞在時間(ログ600の滞在時間欄630参照)が予め定められた値よりも長い翻訳Webページでの対訳の正確性の値を大きく、逆の傾向がある対訳の正確性の値を小さくして、対訳記憶モジュール140に反映する。より具体的には、滞在時間が予め定められた値よりも長い翻訳Webページの場合は、その翻訳Webページにおける対訳の翻訳確率に予め定められた係数(1以上の係数)を乗算して、正確性の値としてもよい。クリックされなかった翻訳Webページ又は滞在時間が予め定められた値以下である翻訳Webページの場合は、その翻訳Webページにおける対訳の翻訳確率に予め定められた係数(1未満の係数)を乗算して、正確性の値としてもよい。また、正確性の値は、元の翻訳確率を用いずに、滞在時間に比例した値としてもよい。
なお、対訳の正確性を推定に用いるログとしては、クリックされたか否か、滞在時間の情報以外に、前述した翻訳Webページ上でのクリックログ、スクロールに関する操作、原Webページに関する操作、「いいね!」ボタン等に関する操作、売上等に関する操作、コンバージョン(CV)に関する操作、辞書検索への遷移に関する操作等がある。例えば、翻訳Webページ上でのクリックの回数、スクロール回数、「いいね!」ボタンの選択回数、売上、コンバージョン率が多い(高い)ほど、その対訳の正確性の値を大きくするようにしてもよい。又は、原Webページへの移動が少ないほど、辞書検索への遷移回数が少ないほど、その対訳の正確性の値を大きくするようにしてもよい。それぞれ逆の場合は、その対訳の正確性の値を小さくするようにしてもよい。
対訳変更モジュール180は、対訳記憶モジュール140、正確性推定モジュール170と接続されている。対訳変更モジュール180は、正確性推定モジュール170によって推定された正確性に基づいて、対訳記憶モジュール140に記憶されている対訳を変更する。ここでの対訳の変更は、対訳テーブル500内の第2言語欄520内の対訳の変更の他に、翻訳確率欄530内の翻訳確率の変更であってもよい。例えば、正確性の値が予め定められた値未満である場合は、その対訳を対訳記憶モジュール140から削除するようにしてもよい。
また、正確性の値を翻訳確率と同等に扱ってもよい。つまり、前述の正確性推定モジュール170が推定する正確性の値を翻訳確率と読み替えて、正確性推定モジュール170が算出した正確性の値を新たな翻訳確率として、対訳記憶モジュール140内の対応する翻訳確率を変更するようにしてもよい。
翻訳確率を調整して機械翻訳システムで再度、原Webページを翻訳(翻訳Webページを再作成)することにより、その語を含む原Webページの翻訳結果が改善し、それまで異なった語に翻訳されていたために検索結果に現れなかった翻訳Webページが現れるようになる。また、検索クエリとして現れやすい単語の翻訳精度が優先的に改善していくため、検索結果や売上の改善が見込まれる。
図2は、本実施の形態(情報処理装置100、機械翻訳システム220)における主にデータの流れの例を示す説明図である。
機械翻訳システム220は、海外ショッピングサイト210Aを翻訳して翻訳ショッピングサイト210Bを作成する。そして、ユーザ201、202等による操作によって検索可能なようにインターネット上で公開される。ユーザ201、202等は、それぞれが所持している端末(ノートPC、スマートフォン等を含む携帯情報端末等)を用いて、Webブラウザを用いて検索クエリを入力する。その検索クエリは、検索クエリ受付モジュール110によって受け付けられ、検索モジュール120が翻訳Webページに対して検索を行い、翻訳ショッピングサイト210Bを検索結果として提示する。ユーザ201、202等は、翻訳ショッピングサイト210B上で操作を行う。これらの操作の履歴等は、ログ収集モジュール150が収集し、ログ記憶モジュール160内にログ230として格納する。正確性推定モジュール170、対訳変更モジュール180は、対訳の翻訳確率算出結果240を算出する。そして、対訳変更モジュール180は、対訳の翻訳確率算出結果240を用いて、機械翻訳システム220内の対訳を修正する。
機械翻訳システム220は、修正された対訳を用いて海外ショッピングサイト210Aを再度翻訳する。つまり、新しく作成された翻訳ショッピングサイト210Bは、以前の翻訳ショッピングサイト210Bよりも翻訳の正確性をより増したWebページとなっている。
なお、海外ショッピングサイト210A、翻訳ショッピングサイト210Bは、1つのWebページだけではなく、複数のWebページからなり、あるWebページに対するログ230から算出された対訳の翻訳確率算出結果240が他のWebページの再翻訳に活用されることになる。
図3は、第1の実施の形態を実現するためのシステム構成例を示す説明図である。Webページ評価システム300は、情報処理装置100、Webページサーバー310、ログ収集装置320を有している。Webページ評価システム300、機械翻訳システム220、端末340A、端末340B、端末340C、端末340D、端末340Eは、通信回線399を介してそれぞれ接続されている。図1の例に示した翻訳モジュール130、対訳記憶モジュール140は、機械翻訳システム220内に含まれていてもよく、ログ収集モジュール150はログ収集装置320内に含まれていてもよい。
例えば、原Webページを機械翻訳システム220が翻訳し、その翻訳結果であるWebページをWebページサーバー310内に記憶させる。
そして、端末340A、端末340B等は、検索クエリを入力し、その検索結果であるWebページサーバー310内のWebページにアクセスする。その際に、端末340A、端末340B等が表示しているWebページに対する操作のログをログ収集装置320が収集する。例えば、端末340A、端末340B等が操作を検知し、その検知結果を、通信回線399を介してログ収集装置320へ送信する。そして、ログ収集装置320が収集したログを情報処理装置100に渡し、情報処理装置100は検索クエリ内に用いられている単語の対訳の翻訳の正確性を推定し、対訳を調整する。機械翻訳システム220は、調整された対訳を用いて、原Webページを再度翻訳する。
図4は、第1の実施の形態における処理例を示すフローチャートである。
ステップS402では、翻訳モジュール130が、機械翻訳Webページを準備する。
ステップS404では、検索クエリ受付モジュール110が、検索クエリを受け付ける。
ステップS406では、ログ収集モジュール150が、機械翻訳Webページに対するログを収集する。
ステップS408では、正確性推定モジュール170が、翻訳確率を算出する。この例は、正確性の値として翻訳確率を用いたものである。
ステップS410では、対訳変更モジュール180が、翻訳確率が閾値以上か否かを判断し、閾値以上の場合は処理を終了し(ステップS499)、それ以外の場合はステップS412へ進む。
ステップS412では、対訳変更モジュール180が、検索クエリ内に用いられた単語の対訳データを修正する。
さらに、この後に、翻訳モジュール130が、修正された対訳データを用いて、機械翻訳Webページを作成し直してもよい。
図7は、第2の実施の形態の構成例についての概念的なモジュール構成図である。
情報処理装置100は、検索クエリ受付モジュール110、検索モジュール120、翻訳モジュール130、対訳記憶モジュール140、ログ収集モジュール150、ログ記憶モジュール160、正確性推定モジュール170、対訳変更モジュール180、学習モジュール750を有している。なお、第1の実施の形態と同種の部位には同一符号を付し重複した説明を省略する。
対訳記憶モジュール140は、翻訳モジュール130、正確性推定モジュール170、対訳変更モジュール180、学習モジュール750と接続されている。
ログ記憶モジュール160は、検索クエリ受付モジュール110、ログ収集モジュール150、正確性推定モジュール170、学習モジュール750と接続されている。ログ記憶モジュール160は、対訳が正しいか否かを示す正解情報を付加して記憶している。例えば、ログ900を記憶している。図9は、ログ900のデータ構造例を示す説明図である。ログ900は、クエリ欄910、ページ欄920、滞在時間欄930、クリック欄940、対訳1欄950、対訳2欄960、教師データ欄970を有している。ログ900は、ログ600に教師データ欄970を付加したものである。教師データ欄970は、その翻訳Webページにおいて、その対訳が正しいことを示す情報を記憶している。対訳が正しいか否かについては、人手で(翻訳者等が)判断した結果である。翻訳については機械翻訳システム220を用いることが前提であるため、全ての対訳について、対訳が正しいか否かを判断しているわけではない。つまり、正確性推定方法の学習のために教師データが必要であり、その教師データとして正しい対訳を用いる。そのために、ピックアップされた検索結果に対して判断を行うものである。
学習モジュール750は、対訳記憶モジュール140、ログ記憶モジュール160、正確性推定モジュール170と接続されている。学習モジュール750は、ログ記憶モジュール160に記憶された正解情報を教師データとして、ログ記憶モジュール160に記憶されているログを用いて、正確性推定モジュール170における推定処理を学習する。ここでの学習は、正しい対訳における正確性の値が高くなるように、滞在時間(滞在時間欄930)、クリック(クリック欄940)のログから正確性の値を算出する式の係数、閾値である前述の予め定められた値を、学習によって求める。なお、前述したように、正確性推定方法のために、滞在時間、クリック以外のログを用いてもよい。したがって、学習においても、それらのログに基づいて行う。学習方法として、具体的には、ニューラルネットワークを用いた学習によって係数等を定めてもよい。
正確性推定モジュール170は、対訳記憶モジュール140、ログ記憶モジュール160、対訳変更モジュール180、学習モジュール750と接続されている。正確性推定モジュール170は、学習モジュール750によって学習された推定処理にしたがって、対訳の正確性を推定する。したがって、第1の実施の形態のように予め定められた係数等を用いて正確性を推定するよりも、実際のログを反映した正確な推定処理を行うことができるようになる。
図8は、第2の実施の形態における学習処理例を示すフローチャートである。
ステップS802では、翻訳モジュール130が、機械翻訳Webページを準備する。
ステップS804では、検索クエリ受付モジュール110が、検索クエリを受け付ける。
ステップS806では、ログ収集モジュール150が、機械翻訳Webページに対するログを収集する。
ステップS808では、学習モジュール750が、教師データのログを用いて翻訳確率算出モデルを生成する。この例は、正確性の値として翻訳確率を用いたものである。
ステップS810では、正確性推定モジュール170が、翻訳確率算出モデルを組み込む。
この後、図4の例に示すフローチャートにしたがった処理を行って、対訳を変更する。なお、変更対象とする対訳は、教師データ以外の対訳としてもよい。
なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図10に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ、携帯電話(スマートフォンを含む)等である。つまり、具体例として、処理部(演算部)としてCPU1001を用い、記憶装置としてRAM1002、ROM1003、HD1004を用いている。HD1004として、例えばハードディスクを用いてもよい。検索クエリ受付モジュール110、検索モジュール120、翻訳モジュール130、ログ収集モジュール150、正確性推定モジュール170、対訳変更モジュール180、学習モジュール750等のプログラムを実行するCPU1001と、そのプログラムやデータを記憶するRAM1002と、本コンピュータを起動するためのプログラム等が格納されているROM1003と、補助記憶装置であるHD1004と、キーボード、マウス、タッチパネル等に対する利用者の操作に基づいてデータを受け付ける受付装置1006と、液晶ディスプレイ等の出力装置1005と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース1007、そして、それらをつないでデータのやりとりをするためのバス1008により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。
前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図10に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図10に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えばASIC等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図10に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。
また、前述の実施の形態の説明において、予め定められた値との比較において、「以上」、「以下」、「より大きい」、「より小さい(未満)」としたものは、その組み合わせに矛盾が生じない限り、それぞれ「より大きい」、「より小さい(未満)」、「以上」、「以下」としてもよい。
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
100…情報処理装置
110…検索クエリ受付モジュール
120…検索モジュール
130…翻訳モジュール
140…対訳記憶モジュール
150…ログ収集モジュール
160…ログ記憶モジュール
170…正確性推定モジュール
180…対訳変更モジュール
300…Webページ評価システム
310…Webページサーバー
320…ログ収集装置
340…端末
399…通信回線
750…学習モジュール

Claims (5)

  1. 第1の言語で記載された原Webページを機械翻訳システムによって第2の言語に翻訳した翻訳Webページに対して検索を行うための、該第2の言語の単語を含む検索クエリを受け付けるクエリ受付手段と、
    前記機械翻訳システムが前記原Webページから前記翻訳Webページの翻訳に用いた第1の言語の単語と対訳である第2の言語の単語を記憶している対訳記憶手段と、
    前記クエリ受付手段によって受け付けられた検索クエリによって検索された翻訳Webページに対する操作者の操作のログを記憶しているログ記憶手段と、
    前記ログ記憶手段に記憶されているログを用いて、前記クエリ受付手段によって受け付けられた検索クエリ内の単語に対応する前記対訳記憶手段に記憶されている対訳の正確性を推定する推定手段
    を具備することを特徴とする情報処理装置。
  2. 前記推定手段によって推定された正確性に基づいて、前記対訳記憶手段に記憶されている対訳を変更する対訳変更手段
    をさらに具備することを特徴とする請求項1に記載の情報処理装置。
  3. 前記ログ記憶手段は、前記対訳が正しいか否かを示す正解情報を付加して記憶しており、
    前記ログ記憶手段に記憶された正解情報を教師データとして、該ログ記憶手段に記憶されているログを用いて、前記推定手段における推定処理を学習する学習手段
    をさらに具備し、
    前記推定手段は、前記学習手段によって学習された推定処理にしたがって、対訳の正確性を推定する
    ことを特徴とする請求項1又は2に記載の情報処理装置。
  4. 対訳記憶手段とログ記憶手段を具備する情報処理装置が行う情報処理方法であって、
    前記対訳記憶手段は、機械翻訳システムが原Webページから翻訳Webページの翻訳に用いた第1の言語の単語と対訳である第2の言語の単語を記憶しており、
    第1の言語で記載された原Webページを機械翻訳システムによって第2の言語に翻訳した翻訳Webページに対して検索を行うための、該第2の言語の単語を含む検索クエリを受け付けるクエリ受付ステップと、
    前記クエリ受付ステップによって受け付けられた検索クエリによって検索された翻訳Webページに対する操作者の操作のログを前記ログ記憶手段に記憶させるステップと、
    前記ログ記憶手段に記憶されているログを用いて、前記クエリ受付ステップによって受け付けられた検索クエリ内の単語に対応する前記対訳記憶手段に記憶されている対訳の正確性を推定する推定ステップ
    を具備することを特徴とする情報処理方法。
  5. コンピュータを、
    第1の言語で記載された原Webページを機械翻訳システムによって第2の言語に翻訳した翻訳Webページに対して検索を行うための、該第2の言語の単語を含む検索クエリを受け付けるクエリ受付手段と、
    前記機械翻訳システムが前記原Webページから前記翻訳Webページの翻訳に用いた第1の言語の単語と対訳である第2の言語の単語を記憶している対訳記憶手段と、
    前記クエリ受付手段によって受け付けられた検索クエリによって検索された翻訳Webページに対する操作者の操作のログを記憶しているログ記憶手段と、
    前記ログ記憶手段に記憶されているログを用いて、前記クエリ受付手段によって受け付けられた検索クエリ内の単語に対応する前記対訳記憶手段に記憶されている対訳の正確性を推定する推定手段
    として機能させるための情報処理プログラム。
JP2013128180A 2013-06-19 2013-06-19 情報処理装置、情報処理方法及び情報処理プログラム Active JP5787934B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013128180A JP5787934B2 (ja) 2013-06-19 2013-06-19 情報処理装置、情報処理方法及び情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013128180A JP5787934B2 (ja) 2013-06-19 2013-06-19 情報処理装置、情報処理方法及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2015005011A true JP2015005011A (ja) 2015-01-08
JP5787934B2 JP5787934B2 (ja) 2015-09-30

Family

ID=52300895

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013128180A Active JP5787934B2 (ja) 2013-06-19 2013-06-19 情報処理装置、情報処理方法及び情報処理プログラム

Country Status (1)

Country Link
JP (1) JP5787934B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016173618A (ja) * 2015-03-16 2016-09-29 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
WO2017175275A1 (ja) * 2016-04-04 2017-10-12 株式会社ミニマル・テクノロジーズ 翻訳システム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016173618A (ja) * 2015-03-16 2016-09-29 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
WO2017175275A1 (ja) * 2016-04-04 2017-10-12 株式会社ミニマル・テクノロジーズ 翻訳システム
CN109074326A (zh) * 2016-04-04 2018-12-21 沃文技术株式会社 翻译系统
EP3441887A4 (en) * 2016-04-04 2019-12-18 Wovn Technologies, Inc. TRANSLATION SYSTEM
US10878203B2 (en) 2016-04-04 2020-12-29 Wovn Technologies, Inc. Translation system
CN109074326B (zh) * 2016-04-04 2022-02-18 沃文技术株式会社 翻译系统

Also Published As

Publication number Publication date
JP5787934B2 (ja) 2015-09-30

Similar Documents

Publication Publication Date Title
WO2020253389A1 (zh) 页面转译方法、装置、介质及电子设备
CN109190049B (zh) 关键词推荐方法、系统、电子设备和计算机可读介质
CA3088695C (en) Method and system for decoding user intent from natural language queries
US20150286634A1 (en) Method and system for providing translated result
US9766868B2 (en) Dynamic source code generation
US10152521B2 (en) Resource recommendations for a displayed resource
JP7254925B2 (ja) 改良されたデータマッチングのためのデータレコードの字訳
JP2020024674A (ja) 情報をプッシュするための方法及び装置
RU2654789C2 (ru) Способ (варианты) и электронное устройство (варианты) обработки речевого запроса пользователя
CN112148958A (zh) 用于信息推荐的方法、设备和计算机存储介质
US20140351681A1 (en) Method, apparatus and system for controlling address input
JP5787934B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
US20180336525A1 (en) Hybrid offline/online generation of job recommendations
US20180336527A1 (en) Offline computation of partial job recommendation scores
US11960834B2 (en) Reader mode-optimized attention application
JP2016162163A (ja) 情報処理装置及び情報処理プログラム
CN110688558A (zh) 网页搜索的方法、装置、电子设备和存储介质
JP5590610B2 (ja) 同義語判定装置、同義語判定方法およびプログラム
US11061484B2 (en) Computing device and predictive conversion method
US11914657B2 (en) Machine learning aided automatic taxonomy for web data
JP5752180B2 (ja) 翻訳品質モデル生成装置、翻訳品質値算出装置、翻訳品質モデル生成方法、翻訳品質値算出方法、翻訳品質モデル生成プログラム及び翻訳品質値算出プログラム
KR20140026772A (ko) 문서 관리 시스템 및 문서 관리 방법
US20240169147A1 (en) Reference driven nlp-based topic categorization
JP2016194822A (ja) サーバシステム及びそのプログラム、並びにエラーチェック方法
KR20220089093A (ko) 전이학습을 이용하는 오프라인 오브젝트에 관한 콘텐츠 자동 생성 방법, 장치 및 컴퓨터 판독가능 저장 매체

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150630

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150721

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150728

R150 Certificate of patent or registration of utility model

Ref document number: 5787934

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350