JP2017174300A - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JP2017174300A
JP2017174300A JP2016061997A JP2016061997A JP2017174300A JP 2017174300 A JP2017174300 A JP 2017174300A JP 2016061997 A JP2016061997 A JP 2016061997A JP 2016061997 A JP2016061997 A JP 2016061997A JP 2017174300 A JP2017174300 A JP 2017174300A
Authority
JP
Japan
Prior art keywords
rule
document
translation
unit
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016061997A
Other languages
English (en)
Inventor
怜 侘美
Satoshi Takumi
怜 侘美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2016061997A priority Critical patent/JP2017174300A/ja
Priority to US15/237,187 priority patent/US10496755B2/en
Publication of JP2017174300A publication Critical patent/JP2017174300A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】対象の文書に対して規則を適用すべきかを判定する際に、ある他の文書に対して過去に得られた当該規則の適否の判断についての情報に基づいて、当該対象の文書に適合した、当該規則の適否の判断を行うための情報を得る。【解決手段】情報処理装置(100、200)は、1以上の第1文書に対して適用された、文字列の置換についての規則を表す情報を取得する取得部(102)と、第2文書を入力する入力部(104)と、前記1以上の第1文書と前記第2文書との関連性、および前記1以上の第1文書において前記規則が過去に適用されたか否かに基づいて、当該規則を第2文書において適用するか否かの判定を実行する判定部(204)と、該判定の結果を出力する出力部(206)とを有する。【選択図】図1

Description

本発明は、情報処理装置、情報処理方法およびプログラムに関する。
特許文献1では、機械翻訳の精度を上げるべく、機械翻訳処理の結果に対してユーザによる修正があった場合は、その修正の内容を記憶しておき、他の文章に対する機械翻訳を行う際に使用することが開示されている。例えば、ある語句の置換規則に対してなされた修正の回数を記録し、その回数が予め定められた値に達したら、当該修正された規則を他の文書の翻訳処理に対して適用する。
特開平7−191995号公報
特許文献1のように、過去の翻訳結果に対する修正回数に基づいて、該修正内容を他の文書の翻訳時に使用するか否か判断する場合、翻訳対象とする文書によっては、修正内容を適切に適用できない場合がある。翻訳対象とする文書は、その内容や種類に応じて、使用すべき訳語が異なるため、ある文書での修正内容をそのまま他の文書へ適用できないことがある。
本発明は、過去に翻訳を行った文書と、翻訳を行う文書の関係性に基づいて、過去に翻訳を行った文書の翻訳結果に対して行われた修正内容を、翻訳対象とする文書に利用することができる対象の文書に適合した、当該規則の適否の判断を行うための情報を得ることを目的とする。
請求項1に係る情報処理装置は、1以上の第1文書の翻訳結果に対する修正をユーザから受付ける第1受付部と、前記第1受付部が受付けた修正に対応する翻訳規則を生成する生成部と、1以上の第2文書の原文を受付ける第2受付部と、前記1以上の第1文書と前記第2文書との関連性に応じて、前記生成部が生成した前記翻訳規則を、前記第2受付部が受付けた前記原文の翻訳時に利用する利用部とを有する。
請求項2に係る情報処理装置において、前記利用部は、前記第1文書と前記第2文書の階層構造の関連性に基づいて、前記生成部が生成した前記翻訳規則を、前記第2受付部が受付けた前記原文の翻訳時に利用する。
請求項3に係る情報処理装置において、前記利用部は、前記翻訳規則が前記1以上の第1文書に対して適用された回数または割合に基づいて、前記生成部が生成した前記翻訳規則を、前記第2受付部が受付けた前記原文の翻訳時に利用する。
請求項4に係る情報処理装置において、前記利用部は、前記階層構造における構成要素ごとに算出された、前記1以上の文書に対して前記規則が適用された回数または適用された割合を表す指標値が閾値よりも大きい場合に、前記翻訳規則を利用する。
請求項5に係る情報処理装置において、前記第2文書の前記階層構造における属性情報は、第1構成要素と当該第1構成要素よりも下位の階層に属する第2構成要素とを含み、前記第1構成要素と前記第2構成要素とには、指標値が異なるが同一の規則が関連付けられている場合において、前記利用部は、当該翻訳規則の指標として、前記第2構成要素に関連付けられた指標値を用いる。
請求項6に係る情報処理装置において、前記第2文書の前記階層構造における属性情報は、第1構成要素と当該第1構成要素よりも下位の階層に属する第2構成要素とから成り、前記第1構成要素は第1規則を含み、前記第2構成要素は第2規則を含む場合、前記第2規則に係る翻訳規則が優先的に利用される。
請求項7に係る情報処理装置は、前記指標値を記憶した記憶部と、前記生成部にて生成された結果を表示する表示部と、前記翻訳規則を前記第2文書に対して適用するか否かについての指定をユーザから受付ける第3受付部と、該受付けた指定に基づいて、前記翻訳規則についての前記記憶部に記憶された指標値を更新する更新部とを更に有する。
請求項8に係る発明は、1以上の第1文書の翻訳結果に対する修正をユーザから受付けるステップと、該受付けた修正に対応する翻訳規則を生成するステップと、1以上の第2文書の原文を受付けるステップと、前記1以上の第1文書と前記第2文書との関連性に応じて、前記生成された前記翻訳規則を、前記受付けた前記原文の翻訳時に利用するステップとを有する情報処理方法である。
請求項9に係る発明は、コンピュータに、1以上の第1文書の翻訳結果に対する修正をユーザから受付けるステップと、該受付けた修正に対応する翻訳規則を生成するステップと、1以上の第2文書の原文を受付けるステップと、前記1以上の第1文書と前記第2文書との関連性に応じて、前記生成された前記翻訳規則を、前記受付けた前記原文の翻訳時に利用するステップとを実行させるためのプログラムである。
請求項1、8、9記載の発明によれば、他の文書に対して過去に得られた翻訳規則の適否の判断についての情報に基づいて、対象の文書に適合した、当該翻訳規則の適否の判断を行うための情報が得られる。
請求項2記載の発明によれば、文書間における関連性の判定を効率的に行うことができる。
請求項3記載の発明によれば、規則の適用の適否情報の妥当性を一つの指標によって評価することができる。
請求項4記載の発明によれば、規則の適用の適否の基準を閾値によって調節することができる。
請求項5、6記載の発明によれば、対象の文書に対してより適合する情報が出力される。
請求項7記載の発明によれば、複数の文書に対してなされた翻訳規則の適否についての情報を他の文書に対する翻訳規則の適否の判定処理に利用することができる。
情報処理システム10の機能構成を示す図。 文書の属性の階層構造を模式的に示す図。 データベースDB1に記憶される情報の例を示す図。 各属性要素における規則のスコアを模式的に示す図。 データベースDB2の構造の一例を示す図。 情報処理システム10の動作例を示す図。 文書1に対する翻訳処理に伴って新規に登録されたスコアの例を示す。 データベースDB2に格納された情報に基づいて、各規則について指標値を決定する方法を示す図。 文書2に対する翻訳処理に伴う、スコアの更新結果を示す図。 文書3に対する翻訳処理に伴う、スコアの更新結果を示す図。 文書4に対する翻訳処理に伴う、スコアの更新結果を示す図。 文書5に対する翻訳処理に伴う、スコアの更新結果を示す図。
本実施例の情報処理装置は、1以上の第1文書の翻訳結果に対する修正をユーザから受付ける第1受付部と、前記第1受付部が受付けた修正に対応する翻訳規則を生成する生成部と1以上の第2文書の原文を受付ける第2受付部と、前記1以上の第1文書と前記第2文書との関連性に応じて、前記生成部が生成した前記翻訳規則を、前記第2受付部が受付けた前記原文の翻訳時に利用する利用部とを有することを要旨とする。以下、具体的に説明する。
図1は情報処理システム10の機能構成を示す。情報処理システム10は、情報処理装置100および情報処理装置200を含む。情報処理装置100および情報処理装置200は、図示せぬLAN、インターネット、無線中継装置等を介して接続される。情報処理装置100は、汎用的なコンピュータやサーバ装置であって、取得部102、入力部104(上記第2受付部の一例)、通信部106、更新部108を含む。取得部102、入力部104、通信部106は、例えば一つのプロセッサとして実装される。
記憶部109は、半導体メモリやハードディスクであって、プロセッサに取得部102、入力部104、通信部106の機能を実現するためのプログラムを格納する。また、翻訳処理の対象の文書データを格納してもよい。通信部106は、有線または無線により、情報処理装置200との間で情報の送受信を行うための通信インタフェースである。
入力部104は、ユーザからの要求に基づいて、翻訳処理の対象の文書(原文)を特定してその文書データを取得する。加えて、入力部104は当該文書の属性についての情報を取得する。
図2を用いて、文書の属性について説明する。文書の属性とは、文書の内容が属する分野(建築/物理/化学/政治/経済/社会等)、カテゴリ(評論/雑誌/小説/論文等)など、文書の内容ではなく、文書の特徴を表す情報であって、他の文書との関係性を評価するために用いられる情報である。
文書の属性は、1以上の属性要素ならなり、各属性要素には階層関係が設定されている。例えば、文書1が社内文書であって、開発部によって作成され、確率論についての文献に対するレポートである場合、文書1の属性情報は、「開発部」という属性要素E1と、開発部のすぐ下位の属性である「数学」(属性要素E2−1)および「開発」(属性要素E2−2)のうちの「数学」(属性要素E2−1)と、「数学」の下位属性である「確率論」という属性要素E3−1とから構成される。
なお、属性要素の設定や、属性要素の決定(属性要素へのあてはめ)は、例えば、その文書データ自体が有する情報に基づいて決定してもよいし、文書データが有する情報以外の情報(例えば文書をカテゴリ別に階層フォルダに記憶しているシステムの場合における、そのフォルダの識別名)に基づいて決定してもよい。また、図2は、階層構造を模式的に例示したにすぎず、属性要素の数や内容等、階層の具体的な構造については、任意である。要するに、複数の文書間の関連性を判定する際に対比可能な構造を有していればよい。
図1へ戻り、取得部102は、1以上の第1文書に対して適用された、文字列の置換についての規則を表す情報を取得する。具体的には、データベースDB1から処理対象の文書に適用すべき規則の集合を抽出する。この規則は、後述の受付部212によってユーザから受付けた1以上の第1文書の翻訳結果に対する修正に対応して生成される。
図3は、データベースDB1に記憶される規則の例を示す図。データベースDB1には、第1言語の語句と第2言語の語句との間の対応関係を記述したもの(置換規則R1、R2、R3;いわゆる辞書データ)が含まれる。加えて、データベースDB1には、翻訳とは直接の関係はない文書データの編集に関する規則を含んでいてもよい。例えば、複数の単語や文字列を単位として、置換前後の関係性を規定するものを含む(同図の置換規則R4、R5)。置換規則R4は予め定められた単語間のスペースを取り除く処理であり、置換規則R5は予め定められた条件を満たす文字列間のスペースを取り除くという処理である(なお、“A”,“b”,”c”、”d”、”e”は任意の文字とする)。また、同図の置換規則R2および置換規則R3は、置換前の単語は共通するが置換後の単語が異なっているが、これらは別の規則として登録され、情報処理システム10で処理される。
なお、辞書データは一つのみでもよいし、各々複数の規則の集合体である辞書データを複数記憶し、処理対象の文書に応じて用いる1以上の辞書データを決定してもよい。
図1に戻り、データベースDB2には、属性を構成する属性要素ごとに且つ規則ごとに、規則が過去の1以上の文書に対して適用された回数または割合に基づいて、構成要素ごとにその規則に対して付与されたスコアが記憶される。スコアは、当該構成要素からなる属性を有する当該過去の1以上の文書に対してこの規則が適用された回数または適用された割合を表す。
これを模式的に示したものが図4である。ここでは、各スコアは、{その規則がユーザによって承認された回数(換言すると、キャンセルされず承認された回数)}÷{その規則が情報処理装置200において採用された回数}として定義した例を示してある。なお、同図中「なし」とあるのは、その属性要素にはまだ一つの規則のスコアも登録されていないことを示す。つまり、スコアの値が高いほど、過去に情報処理装置200が適用してその適用が妥当だった確率が高いということを意味する。このように一つの規則に対して1つの指標のみを導入するのでなく、各属性要素に対応して複数の値を設定することで、データベースDB2に、文書の属性と規則の適用妥当性との関係性についての情報が保持されることになる。
図4の場合に、実際にデータベースDB2に記憶されるデータの構造は、例えば図5のようになる。すなわち、規則ごとに、各属性要素に対応付けられたスコアが格納される。処理対象の文書に応じて、必要な規則と必要な属性要素の箇所のスコアが読み出され、情報処理装置200に供給される。
図1に戻り、更新部108は、翻訳処理の完了に伴って情報処理装置200から送信された情報に基づいて、データベースDB2に記憶されたスコアを更新する。
情報処理装置200は、例えば汎用のコンピュータ装置であって、翻訳処理部202、判定部204および出力部206(これらは上記利用部に相当)、表示部208、修正部210(上記生成部の一例)、受付部212(上記第1受付部および上記第3受付部に相当)、および通信部214を含む。
翻訳処理部202は、処理対象の文書データに対し予め定められたアルゴリズムに従って形態素解析を行うなどして文字列の置換等を行い、翻訳文書を生成する。
判定部204は、1以上の第1文書と第2文書との関連性に応じて、生成された翻訳規則を、受付けた原文の翻訳時に利用する。具体的には、過去の1以上の第1文書と処理対象となっている第2文書との関連性、および当該過去の1以上の第1文書に係る規則が少なくとも適用されたか否かの情報に基づいて、当該規則を第2文書において適用するか否かの判定が実行される。
この関連性は、階層構造を有する属性情報に基づいて決定される。好ましい態様において、この規則が過去の1以上の第1文書に対して適用された回数または割合に基づいて判定が行われる。この場合、例えば、判定部204は、処理対象の文書の属性情報の1以上の構成要素に関連付けられた値が閾値よりも大きい場合に、当該規則を適用すると判定する。
翻訳処理部202、判定部204、出力部206、修正部210は、例えば一つのプロセッサとして実装され、記憶部216に記憶された翻訳アプリケーションプログラムを実行することによってこれらの機能が実現される。
出力部206は、翻訳処理部202の出力データに判定部204の結果を反映させ、表示部208に出力する。表示部208は、液晶ディスプレイ等の画面であって、機械翻訳された文書を表示する。受付部212は、キーボード、マウス、タッチパネル等の入力デバイスであって、ユーザが表示された翻訳文書に対する修正の指示や修正内容の確定指示を入力する。修正部210は、受付部212にて受付けられた修正に対応する翻訳規則を生成する。記憶部216は、OSのほか、翻訳アプリケーションプログラムを格納する。通信部214は、LANなど情報処理装置100とデータの送受信を行うための通信インタフェースである。
図6は、情報処理システム10の動作例を示す。情報処理装置100は、ユーザからの要求に応じて翻訳対象の文書を特定し、そのデータ(テキストファイルなど)を取得する(S502)。続いて、情報処理装置100は、そのデータの格納場所や文章ファイルに含まれる属性情報等に基づいて、その文書の属性を決定する(S504)。当該文書の翻訳処理において参照すべき、規則の集合である辞書データをデータベースDB1から読み出す。該決定した属性情報を構成する各属性要素に対応付けられた、当該辞書データを構成する全ての規則についてのスコアを読み出す(S506)。文書データ、辞書データおよびスコアデータは、情報処理装置200へ送信される。
翻訳処理部202は、当該文書に対し、辞書データを用い、予め定められたアルゴリズムに従って翻訳処理を実行する。(S510)。判定部204は、翻訳対象の文章において辞書データに登録された規則に該当する文字列を検出した場合、その規則の適否を判定する(S512)。例えば、各規則のスコアは0〜1({ユーザによって採用された割合}÷{暫定翻訳結果として適用されたユーザに提示された回数})の値として表現され、処理対象の文書の属性情報の1以上構成要素に関連付けられた指標値が、予め設定された閾値(例えば「0.8」)よりも大きい場合に、当該規則を適用すると判定する。
なお、当該規則についてのスコア、対象の文書の属性情報を構成するいずれの属性要素にも登録されていない場合(すなわち、過去に、その属性要素を構成要素として属性を備える文書においてその規則に該当するものがなかった場合)、閾値と比較する対象が存在しないことになるが、この場合は、例外的に、当該規則を採用すると決定する。
出力部206は、翻訳処理部202と判定部204の判定結果が反映された翻訳結果を表示部208に表示する(S514)。
ユーザは、翻訳結果をチェックし、翻訳が不適当であると考えた箇所について修正を行う(S515)。具体的には、翻訳結果のテキスト文書に対して、ユーザが不適切と考える語や語句を削除し、適切と考えた語や語句を入力し直す等の文字列の編集作業を行う。具体的には、情報処理装置200は、ユーザから受付けた編集が、既存の規則をキャンセルする(採用しない)ことに該当するのか(S516)、あるいは規則の追加に該当するものであるか(S518)、(あるいは両方に該当するのか)を判定する。
例えば、図2の規則が辞書データに含まれていた場合に、翻訳結果において“Abcde”が“A_b_c_d_e”と修正された場合、置換規則R5は採用されなかったと判定される。“起りそうなこと”が“確率”と修正された場合は、置換規則R1については採用されず、且つ新規の置換規則R6として{“probability”(置換前)→“確率”(置換後)}が追加されたと判定される。なお、キャンセルされなかった規則については、その規則は適用されたと判定する。
情報処理装置200は、ユーザは予め定められた操作を行って編集内容を確定すると、該確定した編集内容を反映した文書データを生成し、翻訳結果を確定させる(S522)。そして、各規則が適用されたか否かを表す情報を生成して情報処理装置100に送信する。情報処理装置100では、情報処理装置200から受信した情報に基づいてデータベースDB2の内容を更新する(S524)。
以下、スコアの登録および更新の方法について説明する。まず、図7を用いて、データベースDB2に全く情報が記憶されていない場合や、抽出した規則のスコアが属性要素のいずれとも関連付けて登録されていない場合におけるスコアの更新の例を説明する。
図7(a)に示す属性要素E1、E2−1、およびE3−1から成る属性を有する文書1に対して翻訳を行うとする。そして、S512にて、辞書データから、この文書に合致する規則として置換規則R1、R2、R3の3つのみが抽出されたものと仮定する。ここで、置換規則R1、R2、R3は、属性要素E1、E2−1、E3−1のいずれとも対応付けて登録されていない。このように、ある規則が、文書に係る属性要素のいずれとも対応付けて登録されていない場合は、S512において、その規則を適用すると判定する。この場合、置換規則R1、R2、R3が全て適用された翻訳結果がユーザに提示される。
ここで、S518において、ユーザは翻訳結果をチェックし、置換規則R1、R2、R3に係る箇所を含む翻訳結果の全体について修正を行う必要がない(つまり、機械翻訳の結果そのまま採用する)とユーザが判断した場合は、提示された内容そのままで翻訳結果が確定する。
ある規則が、文書に係る属性要素のいずれとも対応付けて登録されていない場合は、S524において、当該文書の属性情報を構成する全ての属性要素に対応付けて、当該スコアが適用されたことを示す情報が生成される。具体的には、置換規則R1に関し、属性要素E1、E2−1、E3−1のそれぞれにおいて一回採用されたことを示す情報(+1)が生成される。同様に、置換規則R2およびR3についても、情報(+1)が生成される。この結果、情報処理装置100において、置換規則R1のスコアとして1/1(1回提示され、1回採用された)=1という情報が、属性要素E1、E2−1、E3−1のそれぞれと対応付けられて登録される。同様に、置換規則R2およびR3についても、1/1=1というスコアが属性要素E1、属性要素E2−1、属性要素E3−1のそれぞれと対応付けられて登録される(図7(b)参照)。
一方、S516において、ユーザが例えば置換規則R1のみをキャンセルした場合、属性要素E1、E2−1、E3−1のそれぞれに対応付けて、置換規則R1については0/1、置換規則R2については1/1=1、置換規則R3については1/1=1というスコアが登録されることになる。
以後、文書1とは異なる文書が翻訳対象として指定されるたびに、S512において、対象文書の属性に対応する規則のスコアに基づいて当該規則の適用妥当性を表す指標値を決定し、決定した指標値と閾値とを比較し、比較の結果に基づいて規則の適用を決定し、S514において、決定した適否を反映した翻訳結果を提示する。適用された結果は、ユーザから修正があった場合はその修正の結果を反映して、データベースDB2に記憶されるスコアに反映されていく(S515、S524)。
図8は、S512において、データベースDB2から取得したスコアに基づいて、各規則についての指標値を算出する方法を模式的に示す。第一に、原則として、翻訳対象の文書の属性を構成する構成要素に対して関連付けられたスコアがあれば、全てを抽出し、抽出したスコアをその属性に対応付けられた指標値とする。例えば、同図(a)の場合、置換規則R1のスコアとして0.5が、置換規則R2のスコアとして0.4が抽出される。
ただし、同図(b)のように、同一規則に対して複数の要素において異なる値が登録されている場合は、上記(a)の例外処理として、より下位の階層に属するスコアを指標値と決定する。同図(b)の場合、置換規則Raの指標値は「0.8」となる。このように算出する理由は、より下位の属性要素が共通する文書同士は、より関連性が高いと推定されるからである。すなわち、処理対象文書の属性情報が、第1構成要素と当該第1構成要素よりも下位の階層に属する第2構成要素とを含み、第1構成要素と第2構成要素とには、スコアが異なるが同一の規則が関連付けられている場合において、当該規則の指標として、第2構成要素に関連付けたスコアを指標値として用いる。
複数の規則の間に特定の関係がある場合は、その関係性に基づいて指標値を算出してもよい。具体的には、同図(c)のように、置換前の語句は同一で置換後の語句が異なる2つの規則があった場合、より下位の要素に対応付けられたほうの置換規則のスコアのみを採用して指標値を算出する。図(c)の例では、置換規則Ra'の指標値としてそのスコアと等しい「0.8」が算出される一方、置換規則Raの指標値は「0」と算出される。すなわち、対象文書である第2文書の属性情報は、第1構成要素と当該第1構成要素よりも下位の階層に属する第2構成要素とから成り、規則は第1規則と第2規則とを含み、第1規則と第2規則とは、置換前の文字列が共通するが置換後の文字列は共通しない場合において、規則に係る置換後の文字列として、第2規則に係る置換後の文字列が第1規則に係る置換後の文字列よりも優先的に出力されることになる。
以下では、上述の指標値の決定方法に従って翻訳を行う場合を説明する。なお、閾値は「0.8」に設定されているとする。
また、データベースDB2に格納されるスコアは、図9(a)(図7(b)の状態と同じ)となっている状態で、属性要素E1、E2−1、E3−2を有する属性の文書2が翻訳の対象になったとする。すなわち、属性要素E1およびE2−1においては、それぞれ置換規則R1には「1」が、置換規則R2には「1」が、置換規則R3には「1」のスコアがそれぞれ登録されており、属性要素E3−2においては何も登録されていない。
この結果、S512において、この文書2に対しては、属性要素E2−1に対応付けられているスコアが採用され、置換規則R1、R2、R3の指標値は、それぞれ「1」、「1」、「1」となる。続いて、S514において、各規則に対して指標値と閾値との比較が行われる。1>0.8であるから、置換規則R1、R2、R3の全てを適用すると判定される。この結果、置換規則R1、R2、R3の全てが適用された、文書2の翻訳結果が提示される。この結果に対してユーザは特に不服がなく、修正指示を入力しなかったと仮定すると、置換規則R1=+1、置換規則R2=+1、置換規則R3=+1という情報が情報処理装置100に送信される。この結果、情報処理装置100では、属性要素E1、E2−1、E3−2のそれぞれに対応付けられた規則とそのスコアが更新される。この結果、データベースDB2に記憶されたスコア値は同図(b)に示す通りになる。
その後、属性要素E1、E2−2、およびE3−3を有する文書3が翻訳処理の対象に指定されたとする。図10(a)のように、この文書3に対しては、置換規則R1、R2、R3の指標値は「1」、それぞれ「1」、「1」(>閾値)と算出されるので、S512において、置換規則R1、R2、およびR3の全てが文書3の置換対象として適用される。
ここで、S516においてユーザが置換規則R1についてキャンセルしたとする。例えば、「probability」の訳語として「確率」を暫定的に採用されていたが、「確率」は文書3では訳語として不適切であるとユーザが判断し、「確率」を「起りそうなこと」と修正する作業を行い、この修正内容が確定したとする。すると、修正部210は、この修正結果を翻訳結果に反映させるとともに、この修正結果をスコアにも反映させる。すなわち、今回置換規則R1は採用されなかったため、{R=+0、R2=+1、R3=+1}という情報が生成され、この結果、データベースDB2は、図10(b)の通りに更新される。すなわち、属性要素E2−2およびE3−3のそれぞれにおいて、置換規則R2とR3のスコアが維持された一方、属性要素E1に対応付けられた置換規則R1の規則が「1」から「2/3=0.67」に変更されている。これは、置換規則R1が採用されなかったという事実が、文書3と文書1の関連性に対応する属性要素(この場合は属性要素E1)と対応付けられた置換規則R1のスコアに反映されたことを意味する。
その後、属性要素E1、E2−2、E3−4を有する文書4に対する翻訳処理を行うとする。このとき、スコアは図11(a)の状態となっているから、文書に対する規則のスコアは、置換規則R2が1、置換規則R3は1、置換規則R1は0.67と算出される。0.67<閾値、且つ1>閾値であるから、S512において、置換規則R2およびR3については適用されるが、置換規則R1については適用されないと判定される。この結果、置換規則R2とR3のみが翻訳結果に反映される。文書4の翻訳結果に対してユーザによる修正がないとすると、{R2=+1、R3=+1}という情報が生成され、スコアは図11(b)のように更新される。
その後、属性が文書1と完全に同一である文書5に対する翻訳処理を行うとする(図12参照)。S512において、置換規則R1については、属性要素E1では0.67、属性要素E2−1およびE2−2では「1」というスコアが登録されているが、図8のルールを適用すると、より下位階層の属性要素E3−1に対応付けられたスコア「1」が指標値として算出される。1>閾値であるから、文書5に対しては置換規則R1が適用されることになる。この結果、文書5に対しては、文書の関連性が低いと推定される文書4における規則の適用結果がそのまま反映されず、関連性が高いと推定される文書1や近い文書2に対する規則の適用結果と同一のものが採用されることになる。
このように、本実施例においては、ある文書において、ある規則に対しユーザによってなされた修正の可否の判断(換言すると、その規則がそのまま適用すべき否かの判断)が、関連性が高い文書ほど(換言すると、共通する属性要素がより下位に存在するほど)反映されやすく、逆に関連性が低い文書ほど(共通する属性要素は存在するがそれがより上位に位置するほどないしは全く存在しない場合)、反映されにくくなっている。
このように、異なる属性を有する複数の文書に対して本発明の翻訳方法を繰り返すことで、データベースDB2に記憶されるスコアは、文書間の属性(関連性)が反映されたものとなっていく。この結果、データベースDB2の情報は、それが参照されると、分野を問わず広く適用されている修正規則(すなわち一般的・普遍的な規則といえる)については文書の分野を問わず採用され、特定の分野の文書のみに適用されている規則については当該分野と関連性が高い文書のみについてのみ採用されるように自動的に調整されていく。そして、多様な属性の文書に対して翻訳処理を実行すればするほど、対象文書の属性に依存せずに、規則を採用するか否かについての判定の妥当性がより担保される。この結果、翻訳物の品質の安定化につながると期待される。
このように、上記実施例においては、辞書データに含まれる各規則が処理対象となった文書に適したものであるかの判断の妥当性を高めていくことで翻訳の精度が向上する。よって、翻訳の精度を上げるために文書ごとあるいは文書の属性ごとに細かくカスタマイズされた複数の辞書データを予め用意しておくといった必要がない。
本発明の情報処理方法の適用対象は、翻訳処理や翻訳処理に付随する情報処理に限られない。コンピュータが、入力された文字列等のデータを予め定められた規則に従って変換し、出力された結果をユーザが修正でき、ユーザによって修正がなされた(またはなされなかった)という事実を次回の処理において反映することにより、変換の妥当性が担保される情報処理であればよい。
また、本発明の情報処理方法は、図1に示した機能構成を有する装置以外の装置によって実行されてもよい。例えば、情報処理装置100と200の機能を兼ね備えた一つのコンピュータ装置によって実行してもよい。また、このようなコンピュータ装置において、プロセッサが上述の機能を実現させるためのプログラムを実行することによって本発明の情報処理方法が実行されてもよい。また、このプログラムは汎用のコンピュータにインストールすることができるものであってもよい。
スコアの表現形式や指標値の算出方法は、上述した例に限られない。スコアや指標値には、少なくともその規則が過去に適用されたか否かという情報が反映されていればよく、例えば各スコアは0か1のいずれかで表現されていてもよい。また、規則の適用の可否を判定する際において、図8以外のアルゴリズムを用いて指標値を算出してもよい。例えば、構成要素の階層に応じて、データベースDB2から取得したスコアに重み付けをつけるなどの統計処理を行う。
また、S512で用いられる閾値は不変でもよいし変動可能でもよい。例えば、翻訳対象を特定する際にユーザが閾値を入力してもよいし、データベースDB2のスコアに基づいて算出してもよい。例えば、データベースDB2に記憶されている全スコアの平均値や最頻度値などの統計量を用いて、閾値を決定する。いずれの場合においても、過去の規則が適用されたか否かの情報と、当該適用対象となった文書と現在処理の対象となっている文書との関連性とに基づいて、適用の可否が判断されていればよい。
要するに、本発明の情報処理装置は、1以上の第1文書に対して適用された、文字列の置換についての規則を表す情報を取得する取得部と、第2文書を入力する入力部と、前記1以上の第1文書と前記第2文書との関連性、および前記1以上の第1文書において前記規則が過去に適用されたか否かに基づいて、当該規則を第2文書において適用するか否かの判定を実行する判定部と、該判定の結果を出力する出力部とを有していればよい。
100・・・情報処理装置、102・・・取得部、104・・・入力部、106・・・通信部、108・・・更新部、109・・・記憶部、200・・・情報処理装置、206・・・出力部、202・・・翻訳処理部、204・・・判定部、208・・・表示部、212・・・受付部、214・・・通信部、216・・・記憶部

Claims (9)

  1. 1以上の第1文書の翻訳結果に対する修正をユーザから受付ける第1受付部と、
    前記第1受付部が受付けた修正に対応する翻訳規則を生成する生成部と、
    1以上の第2文書の原文を受付ける第2受付部と、
    前記1以上の第1文書と前記第2文書との関連性に応じて、前記生成部が生成した前記翻訳規則を、前記第2受付部が受付けた前記原文の翻訳時に利用する利用部と
    を有する情報処理装置。
  2. 前記利用部は、前記第1文書と前記第2文書の階層構造の関連性に基づいて、前記生成部が生成した前記翻訳規則を、前記第2受付部が受付けた前記原文の翻訳時に利用する
    請求項1記載の情報処理装置。
  3. 前記利用部は、前記翻訳規則が前記1以上の第1文書に対して適用された回数または割合に基づいて、前記生成部が生成した前記翻訳規則を、前記第2受付部が受付けた前記原文の翻訳時に利用する
    ことを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記利用部は、前記階層構造における構成要素ごとに算出された、前記1以上の文書に対して前記翻訳規則が適用された回数または適用された割合を表す指標値が閾値よりも大きい場合に、前記翻訳規則を利用する
    ことを特徴とする請求項2に記載の情報処理装置。
  5. 前記第2文書の前記階層構造における属性情報は、第1構成要素と当該第1構成要素よりも下位の階層に属する第2構成要素とを含み、前記第1構成要素と前記第2構成要素とには、指標値が異なるが同一の翻訳規則が関連付けられている場合において、
    前記利用部は、当該翻訳規則の指標として、前記第2構成要素に関連付けられた指標値を用いる
    ことを特徴とする請求項4に記載の情報処理装置。
  6. 前記第2文書の前記階層構造における属性情報は、第1構成要素と当該第1構成要素よりも下位の階層に属する第2構成要素とから成り、前記第1構成要素は第1規則を含み、前記第2構成要素は第2規則を含む場合、前記第2規則に係る翻訳規則が優先的に利用される
    ことを特徴とする請求項4または5に記載の情報処理装置。
  7. 前記指標値を記憶した記憶部と、
    前記生成部にて生成された翻訳結果を表示する表示部と、
    前記翻訳規則を前記第2文書に対して適用するか否かについての指定をユーザから受付ける第3受付部と、
    該受付けた指定に基づいて、前記翻訳規則についての前記記憶部に記憶された指標値を更新する更新部と
    を更に有することを特徴とする請求項4ないし6のいずれか一つに記載の情報処理装置。
  8. 1以上の第1文書の翻訳結果に対する修正をユーザから受付けるステップと、
    該受付けた修正に対応する翻訳規則を生成するステップと、
    1以上の第2文書の原文を受付けるステップと、
    前記1以上の第1文書と前記第2文書との関連性に応じて、前記生成された前記翻訳規則を、前記受付けた前記原文の翻訳時に利用するステップと
    を有する情報処理方法。
  9. コンピュータに、
    1以上の第1文書の翻訳結果に対する修正をユーザから受付けるステップと、
    該受付けた修正に対応する翻訳規則を生成するステップと、
    1以上の第2文書の原文を受付けるステップと、
    前記1以上の第1文書と前記第2文書との関連性に応じて、前記生成された前記翻訳規則を、前記受付けた前記原文の翻訳時に利用するステップと
    を実行させるためのプログラム。
JP2016061997A 2016-03-25 2016-03-25 情報処理装置、情報処理方法およびプログラム Pending JP2017174300A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016061997A JP2017174300A (ja) 2016-03-25 2016-03-25 情報処理装置、情報処理方法およびプログラム
US15/237,187 US10496755B2 (en) 2016-03-25 2016-08-15 Information processing apparatus, information processing method, and non-transitory computer readable medium storing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016061997A JP2017174300A (ja) 2016-03-25 2016-03-25 情報処理装置、情報処理方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2017174300A true JP2017174300A (ja) 2017-09-28

Family

ID=59897067

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016061997A Pending JP2017174300A (ja) 2016-03-25 2016-03-25 情報処理装置、情報処理方法およびプログラム

Country Status (2)

Country Link
US (1) US10496755B2 (ja)
JP (1) JP2017174300A (ja)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10509466B1 (en) 2011-05-11 2019-12-17 Snap Inc. Headwear with computer and optical element for use therewith and systems utilizing same
US10283162B2 (en) 2014-02-05 2019-05-07 Avatar Merger Sub II, LLC Method for triggering events in a video
US9276886B1 (en) 2014-05-09 2016-03-01 Snapchat, Inc. Apparatus and method for dynamically configuring application component tiles
US9396354B1 (en) 2014-05-28 2016-07-19 Snapchat, Inc. Apparatus and method for automated privacy protection in distributed images
US9537811B2 (en) 2014-10-02 2017-01-03 Snap Inc. Ephemeral gallery of ephemeral messages
US9225897B1 (en) 2014-07-07 2015-12-29 Snapchat, Inc. Apparatus and method for supplying content aware photo filters
US10775996B2 (en) 2014-11-26 2020-09-15 Snap Inc. Hybridization of voice notes and calling
US9385983B1 (en) 2014-12-19 2016-07-05 Snapchat, Inc. Gallery of messages from individuals with a shared interest
US10311916B2 (en) 2014-12-19 2019-06-04 Snap Inc. Gallery of videos set to an audio time line
KR102163528B1 (ko) 2015-03-18 2020-10-08 스냅 인코포레이티드 지오-펜스 인가 프로비저닝
US9668217B1 (en) 2015-05-14 2017-05-30 Snap Inc. Systems and methods for wearable initiated handshaking
US10503264B1 (en) 2015-06-16 2019-12-10 Snap Inc. Radial gesture navigation
US10055895B2 (en) 2016-01-29 2018-08-21 Snap Inc. Local augmented reality persistent sticker objects
US10474353B2 (en) 2016-05-31 2019-11-12 Snap Inc. Application control using a gesture based trigger
US10768639B1 (en) 2016-06-30 2020-09-08 Snap Inc. Motion and image-based control system
US10102423B2 (en) 2016-06-30 2018-10-16 Snap Inc. Object modeling and replacement in a video stream
US10609036B1 (en) 2016-10-10 2020-03-31 Snap Inc. Social media post subscribe requests for buffer user accounts
US10579869B1 (en) 2017-07-18 2020-03-03 Snap Inc. Virtual object machine learning
US11323398B1 (en) 2017-07-31 2022-05-03 Snap Inc. Systems, devices, and methods for progressive attachments
US10591730B2 (en) 2017-08-25 2020-03-17 II Jonathan M. Rodriguez Wristwatch based interface for augmented reality eyewear
US11847426B2 (en) * 2017-11-08 2023-12-19 Snap Inc. Computer vision based sign language interpreter
US10523606B2 (en) 2018-01-02 2019-12-31 Snap Inc. Generating interactive messages with asynchronous media content
US10567321B2 (en) 2018-01-02 2020-02-18 Snap Inc. Generating interactive messages with asynchronous media content
US11063889B2 (en) 2018-06-08 2021-07-13 Snap Inc. Generating interactive messages with entity assets
US10796482B2 (en) 2018-12-05 2020-10-06 Snap Inc. 3D hand shape and pose estimation
US11036368B1 (en) 2019-03-29 2021-06-15 Snap Inc. Messaging system with message transmission user interface
US11019011B1 (en) 2019-03-29 2021-05-25 Snap Inc. Messaging system with discard user interface
US11106342B1 (en) 2019-06-03 2021-08-31 Snap Inc. User interfaces to facilitate multiple modes of electronic communication
US11151794B1 (en) 2019-06-28 2021-10-19 Snap Inc. Messaging system with augmented reality messages
US11307747B2 (en) 2019-07-11 2022-04-19 Snap Inc. Edge gesture interface with smart interactions
KR20220062338A (ko) 2019-09-09 2022-05-16 스냅 인코포레이티드 스테레오 카메라들로부터의 손 포즈 추정
US11062498B1 (en) 2019-12-30 2021-07-13 Snap Inc. Animated pull-to-refresh
US11265274B1 (en) 2020-02-28 2022-03-01 Snap Inc. Access and routing of interactive messages
US11409368B2 (en) 2020-03-26 2022-08-09 Snap Inc. Navigating through augmented reality content
US11675494B2 (en) 2020-03-26 2023-06-13 Snap Inc. Combining first user interface content into second user interface
US11960651B2 (en) 2020-03-30 2024-04-16 Snap Inc. Gesture-based shared AR session creation
KR20230047480A (ko) 2020-08-13 2023-04-07 스냅 인코포레이티드 포즈 구동형 가상 효과들을 위한 사용자 인터페이스
US11671559B2 (en) 2020-09-30 2023-06-06 Snap Inc. Real time video editing
US11797162B2 (en) 2020-12-22 2023-10-24 Snap Inc. 3D painting on an eyewear device
US11782577B2 (en) 2020-12-22 2023-10-10 Snap Inc. Media content player on an eyewear device
EP4272406A1 (en) 2020-12-29 2023-11-08 Snap Inc. Body ui for augmented reality components
US11978283B2 (en) 2021-03-16 2024-05-07 Snap Inc. Mirroring device with a hands-free mode
US11734959B2 (en) 2021-03-16 2023-08-22 Snap Inc. Activating hands-free mode on mirroring device
USD998637S1 (en) 2021-03-16 2023-09-12 Snap Inc. Display screen or portion thereof with a graphical user interface
US11908243B2 (en) 2021-03-16 2024-02-20 Snap Inc. Menu hierarchy navigation on electronic mirroring devices
US11809633B2 (en) 2021-03-16 2023-11-07 Snap Inc. Mirroring device with pointing based navigation
US11798201B2 (en) 2021-03-16 2023-10-24 Snap Inc. Mirroring device with whole-body outfits
US11928306B2 (en) 2021-05-19 2024-03-12 Snap Inc. Touchpad navigation for augmented reality display device
US11880542B2 (en) 2021-05-19 2024-01-23 Snap Inc. Touchpad input for augmented reality display device
US11670059B2 (en) 2021-09-01 2023-06-06 Snap Inc. Controlling interactive fashion based on body gestures
US11960784B2 (en) 2021-12-07 2024-04-16 Snap Inc. Shared augmented reality unboxing experience
US11748958B2 (en) 2021-12-07 2023-09-05 Snap Inc. Augmented reality unboxing experience
US11579747B1 (en) 2022-03-14 2023-02-14 Snap Inc. 3D user interface depth forgiveness
US11960653B2 (en) 2022-05-10 2024-04-16 Snap Inc. Controlling augmented reality effects through multi-modal human interaction
US11948266B1 (en) 2022-09-09 2024-04-02 Snap Inc. Virtual object manipulation with gestures in a messaging system
US11797099B1 (en) 2022-09-19 2023-10-24 Snap Inc. Visual and audio wake commands
US11747912B1 (en) 2022-09-22 2023-09-05 Snap Inc. Steerable camera for AR hand tracking

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07171995A (ja) 1993-12-21 1995-07-11 Canon Inc 画像形成装置
US5629846A (en) * 1994-09-28 1997-05-13 General Electric Company Method and system for document translation and extraction
US5848386A (en) * 1996-05-28 1998-12-08 Ricoh Company, Ltd. Method and system for translating documents using different translation resources for different portions of the documents
US6490548B1 (en) * 1999-05-14 2002-12-03 Paterra, Inc. Multilingual electronic transfer dictionary containing topical codes and method of use
US7765098B2 (en) * 2005-04-26 2010-07-27 Content Analyst Company, Llc Machine translation using vector space representations
JP4372133B2 (ja) * 2006-09-27 2009-11-25 株式会社東芝 辞書登録装置、辞書登録方法及び辞書登録プログラム
EP2109832A4 (en) * 2007-01-10 2010-05-12 Ca Nat Research Council MEANS AND METHODS FOR AUTOMATIC POSTENDING OF TRANSLATIONS
US8543563B1 (en) * 2012-05-24 2013-09-24 Xerox Corporation Domain adaptation for query translation
US9424597B2 (en) * 2013-11-13 2016-08-23 Ebay Inc. Text translation using contextual information related to text objects in translated language

Also Published As

Publication number Publication date
US20170277685A1 (en) 2017-09-28
US10496755B2 (en) 2019-12-03

Similar Documents

Publication Publication Date Title
JP2017174300A (ja) 情報処理装置、情報処理方法およびプログラム
US9262403B2 (en) Dynamic generation of auto-suggest dictionary for natural language translation
KR100834549B1 (ko) 번역 시스템 및 번역 서비스 제공방법
US8442811B1 (en) Contextual translation of digital content
US10133723B2 (en) System and method for determining document version geneology
JP2023112150A (ja) 作成支援装置、作成支援方法およびコンピュータプログラム
CN114141384A (zh) 用于检索医学数据的方法、设备和介质
TW201530322A (zh) 字型處理方法及字型處理系統
JPWO2008108061A1 (ja) 言語処理システム、言語処理方法、言語処理プログラムおよび記録媒体
JP7388256B2 (ja) 情報処理装置及び情報処理方法
JP5661449B2 (ja) ファイル名作成装置
JP2015028699A (ja) プログラム、情報処理装置、および方法
JP2004348552A (ja) 音声文書検索装置および方法およびプログラム
JP2013225200A (ja) 意味的対応付け装置及びその処理方法とプログラム
JP7247593B2 (ja) 生成装置、ソフトウェアロボットシステム、生成方法及び生成プログラム
JP2020095716A (ja) 作成支援装置および作成支援方法
JP2019003406A (ja) 情報収集装置、情報収集方法、および情報収集プログラム
US20190042558A1 (en) System and method for determining document version geneology
JP7346671B2 (ja) データ変換装置およびデータ変換方法
JP2010015394A (ja) リンク先提示装置およびコンピュータプログラム
CN113435188B (zh) 基于语义相似的过敏文本样本生成方法、装置及相关设备
JP5394512B2 (ja) 教師データ生成装置、方法及びプログラム
US20220329905A1 (en) System and method to adapting video size
JP2010257412A (ja) 情報フィルタリング装置、情報フィルタリング方法及びプログラム
JP7295463B2 (ja) 業務フロー作成支援装置、業務フロー作成支援方法、および、業務フロー作成支援プログラム