JP6225640B2 - 情報処理装置、訳語選択方法、および情報処理システム - Google Patents

情報処理装置、訳語選択方法、および情報処理システム Download PDF

Info

Publication number
JP6225640B2
JP6225640B2 JP2013223620A JP2013223620A JP6225640B2 JP 6225640 B2 JP6225640 B2 JP 6225640B2 JP 2013223620 A JP2013223620 A JP 2013223620A JP 2013223620 A JP2013223620 A JP 2013223620A JP 6225640 B2 JP6225640 B2 JP 6225640B2
Authority
JP
Japan
Prior art keywords
translation
word
bilingual
monolingual
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013223620A
Other languages
English (en)
Other versions
JP2015087823A (ja
Inventor
富士 秀
秀 富士
友樹 長瀬
友樹 長瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013223620A priority Critical patent/JP6225640B2/ja
Publication of JP2015087823A publication Critical patent/JP2015087823A/ja
Application granted granted Critical
Publication of JP6225640B2 publication Critical patent/JP6225640B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、情報処理装置、訳語選択方法、および情報処理システムに関する。
機械翻訳技術は、入力された第1の言語の語句を第1の言語とは異なる第2の言語の語句に自動的に翻訳するための技術である。機械翻訳の一例として、第1および第2の言語の整合させていない比較コーパスから複数の語を抽出し、単言語索引にアクセスして抽出語にカテゴリを割り当て、カテゴリからカテゴリへの翻訳確率を推定する方法が知られている。統計的言語情報を基に翻訳対象語句の訳語を選択する例もある。対訳テキストから固有表現の対訳を自動抽出する際に、対訳語候補の全ての組み合わせについて対訳テキスト中の共起頻度を計算し、共起頻度と構成単語数とに基づいて翻訳確率のスコア化を行う例も知られている。単語の利用度からキーワードを抽出して、抽出されたキーワードに対する複数の訳語の中から一つの訳語を選択する例もある。(例えば、特許文献1〜4参照)
特開2002−222188号公報 特開2000−311169号公報 特開2004−326584号公報 特開平10−149364号公報
上記のような従来の機械翻訳技術において適切な訳語を選択する際には、例えば対象語句の属する分野や文種など様々な観点から、対象語句の出現頻度情報を総合的に考慮しなければならない場合がある。しかしながら、訳語の決定には、上記のような様々な観点による影響等が複雑に絡み合っている。よって、上記のような観点に基づいて出現頻度を絞り込んでいく場合には、絞り込む観点が多数となるため、得られる出現頻度の値が小さくなって訳語選択に十分な出現頻度が得られないという、スパースネスの問題が生ずる。
ひとつの側面によれば、本発明の目的は、訳語選択において候補を絞り込む観点が多数あり複雑に絡み合っている場合にも、適切な訳語選択を可能にすることである。
ひとつの態様である情報処理装置は、受付部、訳語候補取得部、対訳頻度取得部、単言語頻度取得部、出力部、元単語数カウント部、比率調整部を有している。受付部は、第1の言語の翻訳対象の単語を受付ける。訳語候補取得部は、第1の言語の単語と、第1の言語と異なる第2の言語の少なくとも一つの訳語候補とを対応付けて記憶する対訳辞書から、翻訳対象の単語の少なくとも一つの訳語候補を取得する。対訳頻度取得部は、少なくとも一つの第1の言語の文と、文に対応する第2の言語の訳文とが対応付けて記憶された対訳コーパスにおける、訳語候補取得部で取得された訳語候補毎の訳文における対訳出現頻度を取得する。単言語頻度取得部は、少なくとも一つの第2の言語の文を記憶した単言語コーパスにおける、訳語候補取得部で取得された訳語候補毎の単言語出現頻度を取得する。出力部は、訳語候補毎の対訳出現頻度の総和に対する1の訳語候補の対訳出現頻度の比である対訳出現頻度比と、訳語候補毎の単言語出現頻度の総和に対する1の訳語候補の単言語出現頻度の比である単言語出現頻度比との加重和である対訳単言語間加重和を訳語候補毎に算出し、訳語候補毎の対訳単言語間加重和に基づき、訳語候補から翻訳対象の単語の訳語を選択して出力する。元単語数カウント部は、第2の言語の訳語候補のそれぞれを第1の言語に翻訳する場合の第1の言語の訳語候補の数を計数する。比率調整部は、計数された数の大きさに応じて、対訳単言語間加重和において単言語出現頻度比に与える重みを減少させる調整を行う。出力部は、この調整の後に算出された訳語候補毎の対訳単言語間加重和に基づき翻訳対象の単語の訳語を選択して出力する。
別の態様である情報処理システムは、第1の情報処理装置と、第2の情報処理装置とが通信ネットワークを介して接続されている。第1の情報処理装置において、受付部は、第1の言語の翻訳対象の単語を受付ける。辞書記憶部は、第1の言語の単語と、第1の言語と異なる第2の言語の少なくとも一つの訳語候補とを対応付けて記憶する。訳語候補取得部は、辞書記憶部から、翻訳対象の単語の少なくとも一つの訳語候補を取得する。対訳記憶部は、少なくとも一つの第1の言語の文と、文に対応する第2の言語の訳文とが対応付けて記憶された対訳コーパスを記憶している。対訳頻度取得部は、対訳コーパスから、訳語候補取得部で取得された訳語候補毎の訳文における対訳出現頻度を取得する。単言語記憶部は、少なくとも一つの第2の言語の文が記憶された単言語コーパスを記憶している。単言語頻度取得部は、単言語コーパスにおける、訳語候補取得部で取得された訳語候補毎の単言語出現頻度を取得する。出力部は、訳語候補毎の対訳出現頻度の総和に対する1の訳語候補の対訳出現頻度の比である対訳出現頻度比と、訳語候補毎の単言語出現頻度の総和に対する1の訳語候補の単言語出現頻度の比である単言語出現頻度比との加重和である対訳単言語間加重和を訳語候補毎に算出し、訳語候補毎の対訳単言語間加重和に基づき、訳語候補から翻訳対象の単語の訳語を出力する。元単語数カウント部は、第2の言語の訳語候補のそれぞれを第1の言語に翻訳する場合の第1の言語の訳語候補の数を計数する。比率調整部は、計数された数の大きさに応じて、対訳単言語間加重和において単言語出現頻度比に与える重みを減少させる調整を行う。第1の送受信部は、通信ネットワークを介して、受付部で受付ける翻訳対象の単語を受信すると共に、訳語を送信する。出力部は、上述の調整の後に算出された訳語候補毎の対訳単言語間加重和に基づき翻訳対象の単語の訳語を選択して出力する。第2の情報処理装置において、入力部は、第1の言語の翻訳対象の単語の入力を受付ける。第2の送受信部は、通信ネットワークを介して第1の言語の翻訳対象の単語を送信するとともに、訳語を受信する。表示部は、訳語を表示する。
実施形態の情報処理装置、訳語選択方法、および情報処理システムによれば、訳語選択において候補を絞り込む観点が多数あり複雑に絡み合っている場合にも、適切な訳語選択をすることが可能になる。
第1の実施の形態による翻訳装置の機能を示すブロック図である。 第1の実施の形態による翻訳装置の原理図である。 第1の実施の形態による入力例を示す図である。 第1の実施の形態による観点一覧DBのデータ構造の一例を示す図である。 第1の実施の形態による対訳辞書を用いた訳語候補取得の一例を示す図である。 第1の実施の形態による対訳辞書のデータ構造の一例を示す図である。 第1の実施の形態による対訳コーパスに基づく出現頻度取得の一例を示す図である。 第1の実施の形態による対訳コーパスのデータ構造の一例を示す図である。 第1の実施の形態による単言語コーパスに基づく出現頻度取得の一例を示す図である。 第1の実施の形態による単言語コーパスのデータ構造の一例を示す図である。 第1の実施の形態による対訳頻度と単言語頻度との比較の一例を示す図である。 第1の実施の形態による頻度比情報の一例を示す図である。 第1の実施の形態による加重和情報の一例を示す図である。 第1の実施の形態による評価値情報の一例を示す図である。 第1の実施の形態による観点加重テーブルのデータ構造の一例を示す図である。 第1の実施の形態による訳語選択の一例を示す図である。 第1の実施の形態による翻訳装置の動作を示すフローチャートである。 第1の実施の形態によるK、Lの値の決定方法の一例を示すフローチャートである。 第1の実施の形態によるα、β、γの値の決定方法の一例を示すフローチャートである。 第2の実施の形態による翻訳装置の機能を示すブロック図である。 第2の実施の形態による係数情報の一例を示す図である。 第2の実施の形態による観点別加重和情報の一例を示す図である。 第2の実施の形態による翻訳装置の動作を示すフローチャートである。 変形例による文書DBのデータ構造の一例を示す図である。 標準的なコンピュータのハードウエア構成を示す図である。 翻訳システムの構成の一例を示す図である。
(第1の実施の形態)
以下、図面を参照しながら、第1の実施の形態による翻訳装置1について説明する。翻訳装置1は、翻訳対象の第1の言語の語句が入力された場合に、語句を文法的に解析し、解析結果に対し、対訳辞書等を基に訳文中で用いる第2の言語の訳語を決めて出力する装置である。なお、第2の言語は、第1の言語と異なる言語である。図1は、第1の実施の形態による翻訳装置1の機能を示すブロック図である。
図1に示すように、翻訳装置1は、受付部11、観点取得部13、訳語候補取得部15、対訳頻度取得部17、単言語頻度取得部19、対訳単言語間加重和計算部21、観点間加重和計算部23、訳語選択部25、訳語出力部27を有している。これらの機能は、例えば、翻訳装置1の動作を制御する演算処理装置が、翻訳装置1の動作制御プログラムを読み込んで実行することにより実現される機能としてもよい。また、翻訳装置1は、観点一覧Data Base(DB)41、対訳辞書DB43、対訳コーパス45、単言語コーパス47、観点加重テーブル49を有している。これらの情報は、翻訳装置1に備えられる記憶装置に記憶するようにしてもよいし、翻訳装置1と有線または無線による通信ネットワークで接続された記憶装置に記憶されるようにしてもよい。
受付部11は、翻訳対象の第1の言語の単語の入力を受付ける。受付部11は、翻訳装置1に備えられる後述する入力装置を介する方法、後述する通信装置などを介してネットワーク経由で入力を受付ける方法、予め記憶装置に記憶された情報を読み出す方法等により入力を受付けてもよい。受付部11は、例えば、文や文書の入力を受付けてもよい。文や文書が入力された場合には、受付部11は、文法的な解析を行い、文や文書を単語毎に分割する機能を有することが好ましい。
観点取得部13は、例えば、入力された語句と共に取得される書誌情報などの情報と、後述する観点一覧DB41における情報とを比較して、入力された語句の訳語を絞り込むための観点を取得する。観点とは、語句に対応する訳語を選択するために対訳コーパス45、単言語コーパス47などを参照する場合に、参照する情報を絞込むために用いる情報である。観点は、文書の書誌情報に含まれる情報を含むことが好ましい。観点を取得するための書誌情報などの情報は、語句を入力する際に入力するようにしてもよいし、入力された語句が記載された文書に含まれる書誌情報から取得するようにしてもよい。
訳語候補取得部15は、受付部11で入力された単語に対応する訳語候補を取得する。翻訳装置1においては、訳語候補取得部15は、対訳辞書DB43を参照して、入力された単語の訳語として記憶されている少なくとも一つの訳語候補を取得する。
対訳頻度取得部17は、対訳コーパス45を参照して、訳語候補毎の対訳コーパス45における出現頻度を取得する。対訳コーパス45に基づいて取得される出現頻度を、対訳出現頻度(以下、対訳頻度)ともいう。対訳頻度取得部17は、観点取得部13で取得した観点に対応して対訳コーパス45に記憶されている訳語候補の出現頻度を取得することが好ましい。観点毎の対訳頻度を観点別対訳頻度ともいう。
単言語頻度取得部19は、単言語コーパス47を参照して、訳語候補毎の単言語コーパス47における出現頻度を取得する。単言語コーパス47に基づいて取得される出現頻度を、単言語出現頻度(以下、単言語頻度)ともいう。単言語頻度取得部19は、観点取得部13で取得した観点に対応して単言語コーパス47に記憶されている訳語候補の出現頻度を取得することが好ましい。観点毎の単言語頻度を観点別単言語頻度ともいう。
対訳単言語間加重和計算部21は、対訳頻度と単言語頻度とに基づき、加重和を計算する。このとき、対訳単言語間加重和計算部21は、対訳頻度取得部17が取得した全訳語候補の対訳頻度の和に対する、それぞれの訳語候補の対訳頻度比を算出する。また、対訳単言語間加重和計算部21は、単言語頻度取得部19が取得した全訳語候補の単言語頻度の和に対する、それぞれの訳語候補の単言語頻度比を算出する。さらに、対訳単言語間加重和計算部21は、例えば、観点加重テーブル49に予め記憶された第1の比率と、算出された対訳頻度比と単言語頻度比とに基づき、対訳単言語間加重和を計算する。対訳単言語間加重和計算部21は、好ましくは、観点別対訳頻度と観点別単言語頻度とに基づき、観点毎の対訳単言語間加重和を計算する。観点毎の対訳単言語間加重和を、観点別加重和という。
観点間加重和計算部23は、対訳単言語間加重和計算部21で計算された観点別加重和と、観点加重テーブル49から取得される第2の比率に基づき、観点間加重和を計算する。
訳語選択部25は、観点間加重和計算部23で計算された観点間加重和を評価値として、最も高い評価値に対応する訳語候補を、訳語として選択する。訳語出力部27は、訳語選択部25で選択された訳語を出力する。なお、対訳単言語間加重和計算部21、観点間加重和計算部23、訳語選択部25、訳語出力部27は、出力部の一例である。
観点一覧DB41は、訳語候補を絞り込むときに参照する観点を記憶した情報である。観点としては、例えば文書の書誌情報などが利用できる。観点の一例としては、例えば、その文書の内容が属する分野、執筆または発行等の年代、翻訳対象語句が記載されている文書中の項目、著者の氏名、文種等である。観点一覧DB41には、観点とその具体的な内容(値という)とが対応付けて記憶される。
対訳辞書DB43は、第1の言語の単語と、その単語に対応する第2の言語における訳語候補とを、互いに対応付けて記憶した情報である。対訳コーパス45は、第1の言語の文と、その文の第2の言語の訳文とを互いに関連付けると共に、観点一覧DB41に記憶された観点と関連付けて記憶した情報である。単言語コーパス47とは、第2の言語の文を、観点一覧DB41に記憶された観点と関連付けて記憶した情報である。観点一覧DB41、対訳辞書DB43、対訳コーパス45、単言語コーパス47、観点加重テーブル49については、さらに後述する。
以下、図2から図16を参照しながら、翻訳装置1についてさらに説明する。図2は、第1の実施の形態による翻訳装置の原理図である。図2に示すように、例えば、受付部11に、入力51として「application」などのような単語が入力される。
観点一覧DB41は、例えば、入力51に対応する書誌情報として取得された情報の中で、分野として「ソフトウエア」、年代として「2010年」、項目として「前書き」を格納しているとする。入力51が、例えばウエブ上に表示されている情報である場合等、入力文を含む文書等の情報が書誌情報を含む場合、観点一覧DB41を参照する際に利用する参照情報として文書等の情報から取得される書誌情報を用いるようにしてもよい。
英日辞書DB44は、図1の対訳辞書DB43の一例である。英日辞書DB44は、第1の言語が英語、第2の言語が日本語の場合の例である。英日辞書DB44に基づき、翻訳対象の英語に対応する日本語の訳語候補が抽出される。日本語コーパス46は、図1の単言語コーパス47の一例である。英日コーパス48は、図1の対訳コーパス45の一例である。
観点毎の出現頻度検索処理53により、抽出された訳語候補に関して、以下の処理が行われる。すなわち、観点一覧DB41を参照して抽出された観点一覧に対応して日本語コーパス46に記憶されている日本語の文における、抽出された訳語候補毎の観点別単言語頻度57、63、69が取得される。例えば、翻訳装置1は、観点Aについて、観点別単言語頻度57、観点Bについて、観点別単言語頻度63、観点Cについて観点別単言語頻度69を算出する。また、入力51、および観点一覧DB41を参照して抽出された観点一覧に対応して英日コーパス48に記憶されている日本語の文における、抽出された訳語候補毎の観点別対訳頻度59、65、71が取得される。すなわち、翻訳装置1は、観点Aについて、観点別対訳頻度59、観点Bについて、観点別対訳頻度65、観点Cについて観点別対訳頻度71を算出する。
観点加重テーブル49を参照して、加重和による評価値の計算処理73により、単言語頻度と対訳頻度との加重和が計算される。さらに観点加重テーブル49を参照して、観点毎の加重和が計算され、評価値が取得される。評価値に基づき、出力75が出力される。
図3は、入力例を示す図である。図3に示すように、入力例81では、入力文83として「This is the former application.」が入力されている。このとき、参照情報84が取得されている。図3の例では、参照情報84は、入力文83に対応する書誌情報である。参照情報84は、観点85、値86を有している。観点85は、例えば、入力文83が関係する「分野」、入力文83が出版された「年代」、入力文83が含まれる文書における入力文83の記載された「項目」、入力文83の「文種」などとすることができる。参照情報84では、観点85に対応する値86として、「ソフトウエア」、「前書き」、「2010年」、「論文」が得られている。
観点一覧87は、参照情報84の情報の中で観点一覧DB41に記憶されている情報と合致するものを抽出した情報である。図3の例では、観点一覧87は、観点88と値89とを有している。観点88として、「分野」、「年代」、「項目」が抽出されている。観点88に対応する値89として、「ソフトウエア」、「前書き」、「2010年」が得られている。本実施の形態では、上記のように、書誌情報などとして取得された参照情報84から、観点一覧DB41に記憶されている情報を抽出して、訳語選択に用いる。
図4は、観点一覧DBのデータ構造の一例を示す図である。観点一覧DB102は、翻訳装置1において、訳語の絞込みに利用できる観点の一覧を記憶したデータベースである。観点一覧DB102は、観点104、値106を有している。例えば観点104として「分野」、「項目」、「年代」、「著者」などが記憶され、例えば観点104=「分野」としては、値106=「ソフトウエア」、「回路」、「手術」等が記憶されている。観点104は、文書の「分野」、文書が出版された「年代」、文書における対象語句が記載された「項目」、文書の「著者」などとすることができる。
図5は、対訳辞書を用いた訳語候補取得の一例を示す図である。図5に示すように、入力文83が入力されている。受付部11は、例えば入力文83を文法的に解析し、入力単語112、114を抽出する。訳語候補取得部15は、英日辞書DB44を参照して、入力単語112、入力単語114の訳語候補を抽出する。訳語候補116は、入力単語112の訳語として英日辞書DB44に記憶されている内容を示す情報であり、英語118と日本語120とを有している。英語118=「former」に対して、日本語120として「前」、「元の」、「前者」、「元」が抽出されている。同様に、訳語候補122では、英語124=「application」に対して、「アプリケーション」、「応用」、「申請」、「適用」、「出願」、「応募券」が抽出されている。
図6は、対訳辞書のデータ構造の一例を示す図である。英日辞書DB44は、英語を日本語に翻訳する際に用いる辞書であり、図1の対訳辞書DB43の一例である。対訳辞書DB43は、他の言語間の辞書でもよい。辞書130は、英日辞書DB44のデータ構造の一例である。辞書130は、第1の言語132と第2の言語134とを有している。辞書130の例では、第1の言語132は、英語であり、第2の言語134は、日本語である。第2の言語134は、第1の言語132の訳語候補であり、第1の言語132の各語と対応付けられている。図1に示した訳語候補取得部15は、例えば入力単語112を辞書130の第1の言語132で検索し、対応付けられた第2の言語134を訳語候補として抽出する。
図7は、対訳コーパスに基づく出現頻度取得の一例を示す図である。図8は、対訳コーパスのデータ構造の一例を示す図である。図7に示すように、入力単語114に対して訳語候補122が抽出されているとする。このとき、図1を参照しながら説明したように、対訳頻度取得部17は、英日コーパス48を参照して、観点毎の対訳頻度を取得する。
図8に示すように、対訳コーパス160は、英日コーパス48のデータ構造の一例である。対訳コーパス160は、分野162、年代164、項目166、文168を有しており、互いに対応付けられている。分野162、年代164、項目166は、対応する文168の観点の内容である。文168としては、英文「E」と、その英文に対する日本語の訳文「J」とが対応付けられている。
図7に戻って、観点毎の出現頻度取得処理53として、対訳頻度取得部17は、英日コーパス48を参照して、観点毎の出現頻度(対訳頻度)を取得する。すなわち、「分野」に関しては、観点別対訳頻度142が取得される。「項目」に関しては、観点別対訳頻度146が取得される。「年代」に関しては、観点別対訳頻度150が取得される。観点別対訳頻度142は、英語124、日本語126、対訳頻度144を有している。英語124は、受付部11が受付けた単語である。日本語126は、英語124の訳語候補である。対訳頻度144は、「分野」=ソフトウエア、と関連付けて英日コーパス48に記憶されているそれぞれの訳語候補の数である。同様に、対訳頻度148は、「項目」=前書き、と関連付けて英日コーパス48に記憶されているそれぞれの訳語候補の数である。対訳頻度152は、「年代」=2010年、と関連付けて英日コーパス48に記憶されているそれぞれの訳語候補の数である。
図9は、単言語コーパスに基づく出現頻度取得の一例を示す図である。図10は、単言語コーパスのデータ構造の一例を示す図である。図9に示すように、訳語候補取得部15により日本語126が訳語候補として取得されているとする。このとき、図1を参照しながら説明したように、単言語頻度取得部19は、単言語コーパス47を参照して、観点毎の対訳頻度を取得する。
図10に示すように、単言語コーパス180は、日本語コーパス46のデータ構造の一例である。単言語コーパス180は、分野182、年代184、項目186、文188を有しており、互いに対応付けられている。分野182、年代184、項目186は、対応する文188の観点である。文188としては、日本語の文が記憶されている。
図9に戻って、観点毎の出現頻度取得処理53として、単言語頻度取得部19は、日本語コーパス46を参照して、観点毎の出現頻度(単言語頻度)を取得する。すなわち、「分野」に関しては、観点別単言語頻度170が取得される。「項目」に関しては、観点別単言語頻度174が取得される。「年代」に関しては、観点別単言語頻度178が取得される。観点別単言語頻度170は、日本語126、単言語頻度172を有している。単言語頻度172は、「分野」=ソフトウエア、と関連付けて日本語コーパス46に記憶されている日本語126のそれぞれの単語の数である。同様に、単言語頻度176は、「項目」=前書き、と関連付けて日本語コーパス46に記憶されている日本語126のそれぞれの単語の数である。単言語頻度179は、「年代」=2010年、と関連付けて日本語コーパス46に記憶されている日本語126のそれぞれの単語の数である。
ここで、対訳コーパスに基づく対訳頻度と単言語コーパスに基づく単言語頻度との比較について説明する。図11は、第1の実施の形態による対訳頻度と単言語頻度との比較の一例を示す図である。図11では、「operate」という英単語の出現頻度について示している。対訳頻度191は、訳語候補「操作」、「動作」、「起動」、「運転」、「運用」のそれぞれの対訳コーパス45における出現頻度を示している。単言語頻度193は、上述の各訳語頻度の、単言語コーパス47における出現頻度を示している。図11に示すように、対訳頻度191は、100以下の出現頻度であり、単言語頻度193は、10万単位の出現頻度で表されている。このように、出現頻度は、明らかに単言語コーパス47に基づく出現頻度が大きい。しかし、頻度の大小の傾向としては、対訳頻度191も単言語頻度193もともに「操作」、「動作」の出現頻度が大きいなど、類似している。このような、出現頻度の大小、および傾向の類似が、本実施の形態において対訳コーパス45に加えて単言語コーパス47を用いる理由の一つとなる。
図12は、頻度比情報の一例を示す図である。図1を参照しながら説明したように対訳単言語間加重和計算部21は、対訳単言語間の加重和を算出する。このとき、図12に示すように、頻度比情報200が取得される。頻度比情報200は、観点に基づき分類された観点別頻度比202〜観点別頻度比206を含んでいる。また、対訳コーパス45と単言語コーパス47のいずれに基づいて算出されたか、という点に注目すれば、頻度比情報200は、対訳頻度比208、単言語頻度比210を含んでいる。
観点別頻度比202は、観点別対訳頻度比212、観点別単言語頻度比224を含んでいる。観点別対訳頻度比212は、観点として「分野」=ソフトウエア、と関連付けて対訳コーパス45に記憶されている各訳語候補の頻度、および、頻度比である。対訳頻度比214は、対訳頻度144の和に対する各訳語候補の対訳頻度144の比である。観点別単言語頻度比224は、観点として「分野」=ソフトウエア、と関連付けて単言語コーパス47に記憶されている各訳語候補の頻度、および、頻度比である。単言語頻度比226は、単言語頻度172の和に対する各日本語126の単言語頻度172の比である。
観点別頻度比204は、観点別対訳頻度比216、観点別単言語頻度比228を含んでいる。観点別対訳頻度比216は、観点として「項目」=前書き、と関連付けて対訳コーパス45に記憶されている各訳語候補の頻度、および、頻度比である。対訳頻度比218は、対訳頻度148の和に対する各訳語候補の対訳頻度148の比である。観点別単言語頻度比228は、観点として「項目」=前書き、と関連付けて単言語コーパス47に記憶されている各訳語候補の頻度、および、頻度比である。単言語頻度比230は、単言語頻度176の和に対する各訳語候補の単言語頻度176の比である。
観点別頻度比206は、観点別対訳頻度比220、観点別単言語頻度比232を含んでいる。観点別対訳頻度比220は、観点として「年代」=2010年、と関連付けて対訳コーパス45に記憶されている各訳語候補の頻度、および、頻度比である。対訳頻度比222は、対訳頻度152の和に対する各訳語候補の対訳頻度152の比である。観点別単言語頻度比232は、観点として「年代」=2010年、と関連付けて単言語コーパス47に記憶されている各訳語候補の頻度、および、頻度比である。観点別単言語頻度比232は、単言語頻度179の和に対する各訳語候補の単言語頻度179の比である。なお、対訳頻度比208は、観点別対訳頻度比212、216、220を含み、単言語頻度比210は、観点別単言語頻度比224、228、232を含む。
ここで、観点別頻度比202において、対訳頻度比214と単言語頻度比226とを比較すると、各訳語候補に対する頻度比の傾向は類似している。また、対訳頻度144に比べて単言語頻度172は明らかに頻度が大きい。観点別頻度比204、観点別頻度比206においても同様の傾向がある。
図13は、加重和情報の一例を示す図である。対訳単言語間加重和計算部21は、さらに、算出された頻度比情報200において、対訳単言語間の観点別加重和を算出する。このとき、予め第1の比率としてK値とL値(例えば、0≦K≦1、0≦L≦1、K+L=1)が決められているとする。K値とL値の決定方法の一例は、後述する。対訳単言語間加重和は、下記の式1により算出される。
対訳単言語間加重和=K×対訳頻度比+L×単言語頻度比・・・(式1)
なお、対訳頻度比として観点別の対訳頻度比、単言語頻度比として観点別の単言語頻度比を用いることにより、観点別加重和が計算される。K値、L値は、観点加重テーブル49に記憶させておくことが好ましい。
図13に示すように、式1を用いることにより、加重和情報240として、観点別加重和情報241、244、248が算出される。例えば、観点別加重和情報241は、式1において、対訳頻度比として対訳頻度比214を代入し、単言語頻度比として単言語頻度比226を代入することにより、観点別加重和242が算出される。同様に、対訳頻度比218、単言語頻度比230により観点別加重和246が算出され、対訳頻度比222、単言語頻度比234により観点別加重和250が算出される。
図14は、評価値情報の一例を示す図である。評価値情報260は、観点別加重和242、観点別加重和246、観点別加重和250および、評価値252を有している。評価値252は、観点別加重和と、予め定められた第2の比率として、α、β、γ(例えば、0≦α≦1、0≦β≦1、0≦γ≦1、α+β+γ=1)に基づき、例えば式2のように算出される。
評価値=α×観点別加重和(観点A)+β×観点別加重和(観点B)+γ×観点別加重和(観点C)・・・(式2)
なお、第2の比率α、β、γの決定方法の一例は後述する。観点A〜Cは、例えば、それぞれ「分野」、「項目」、「年代」に対応する。また、図1、図2に示したように、第2の比率α、β、γは、観点加重テーブル49に記憶させることが好ましい。図1を参照しながら説明したように、観点間加重和計算部23は、上記のように評価値252を算出する。
図15は、第1の実施の形態による観点加重テーブルのデータ構造の一例を示す図である。図15に示すように、観点加重テーブル267には、観点268と比率269とが対応付けて記憶されている。観点268は、例えば、「対話」、「単言語」、「分野」、「項目」、「年代」である。比率269は、第1の比率であるK値、L値、第2の比率であるα、β、γを含んでいる。
図16は、訳語選択の一例を示す図である。図16に示すように、訳語選択部25は、評価値情報264に基づき、訳語候補から最も評価値252が高い訳語を、最も好ましい訳語として選択する。評価値情報264においては、最大値265を有する「出願」という訳語候補を、「application」の訳語として、出力結果266のように出力する。図12から図16を参照しながら説明した処理は、図2における処理73で示した加重和による評価値の計算処理に対応する。
以下、図17を参照しながら、翻訳装置1による訳語選択処理についてさらに説明する。図17は、第1の実施の形態による翻訳装置1の動作を示すフローチャートである。以下の説明では、図1を参照しながら説明した各機能が、翻訳装置1における処理を行うものとして説明する。
図17に示すように、受付部11は、入力単語を受付ける(S271)。入力単語は、例えば、図5に示した入力単語112、入力単語114などとすることができる。観点取得部13は、観点一覧DB41を参照して、例えば観点一覧87のように、入力単語の参照情報84に対応する観点一覧を取得する(S272)。
訳語候補取得部15は、対訳辞書DB43を参照して、訳語候補一覧を取得する(S273)。例えば、入力単語112に対応する訳語候補116、入力単語114に対応する訳語候補122などが、訳語候補一覧として取得される。
対訳頻度取得部17は、観点一覧DB41から、観点を一つ取り出す(S274)。対訳頻度取得部17は、観点一覧87において、例えば「分野」の項目を取り出す。対訳頻度取得部17は、取得された観点について、同じ値89(例えば「ソフトウエア」)と対応付けて対訳コーパス45に記憶された当該訳語候補の数を計数して、観点毎の対訳頻度を取得する。
単言語頻度取得部19は、取得された観点について、同じ値89と対応付けて単言語コーパス47に記憶された当該訳語候補の数を計数して、観点毎の単言語頻度を取得する(S275)。例えば、翻訳装置1は、図7に示した観点別対訳頻度142、図9に示した観点別単言語頻度170を取得する。
対訳単言語間加重和計算部21は、対訳頻度、単言語頻度のそれぞれについて、観点毎の頻度比を計算する(S276)。例えば、対訳単言語間加重和計算部21は、図12に示した対訳頻度比214、単言語頻度比226を計算する。さらに対訳単言語間加重和計算部21は、観点加重テーブル49を参照して第1の比率を読み出し、単言語頻度比と対訳頻度比とで加重和をとる(S277)。例えば、図13に示したように、対訳単言語間加重和計算部21は、式1に基づき観点毎に、対訳単言語間加重和を計算する。これにより、例えば、観点別加重和242が得られる。
翻訳装置1は、現在選択されている観点が、最後の観点であるか否かを判別する(S278)。最後の観点でないと判別された場合には(S278:NO)、S274から、別の観点に関して処理を繰り返す。これにより、さらに、観点別加重和246および観点別加重和250が得られる。
最後の観点であると判別された場合には(S278:YES)、観点間加重和計算部23は、観点加重テーブル49から観点間加重和を計算するための情報を読み出す(S279)。すなわち観点間加重和計算部23は、観点加重テーブル49から第2の比率(α、β、γ)を読み出す。
観点間加重和計算部23は、計算された観点別加重和242、246、250から、さらに式2に基づき評価値を計算する(S280)。例えば、図14に示したように、観点間加重和計算部23は、観点別加重和242、246、250に基づき、評価値252を算出する。
訳語選択部25は、S280で算出された評価値が最大の訳語候補を、訳語として出力する(S281)。例えば、図16に示したように、評価値252が最大値265を有する「出願」を訳語として出力する。
ここで、図18を参照しながら、第1の比率(K値、L値)の決定方法の一例について説明する。K値、L値の決定の処理は、例えば翻訳装置1により実行するが、実際の訳語選択を行う前の準備として実行されることが好ましい。
図18は、K値、L値の決定方法の一例を示すフローチャートである。図18に示すように、翻訳装置1は、第1の言語の入力語(例えば、単語)と、入力語の第2の言語の訳語との組を複数作成し、そのうちの1組を選択する(S291)。翻訳装置1は、初期値を、K=1、L=0と設定する(S292)。翻訳装置1は、入力語の翻訳を行う(S293)。翻訳は、例えば、上記に説明した方法で行う。
翻訳装置1は、当初用意した訳語と一致する正しい訳語が出力されたか否かを判別する(S294)。出力が正しくないと判別された場合(S294:NO)、翻訳装置1は、K=K−ΔK、L=L+ΔKと置き換える(S295)。ΔKは、例えば、1を超えない正の数とする。翻訳装置1は、K<0であるか否かを判別し(S296)、K≧0の場合には(S296:NO)、S293に戻って処理を繰り返す。K<0の場合には(S296:YES)、後述するS300に処理を進める。
S294で、正しい訳語が出力されたと判別された場合(S294:YES)、翻訳装置1は、現在のKの値を記憶する(S297)。翻訳装置1は、S291で予め用意された次の入力語があるか否かを判別し(S298)、ある場合には(S298:YES)、次の語の組を選択し(S299)、S292に戻って処理を繰り返す。S298で、次の入力語がないと判別された場合には(S298:NO)、記憶されたKの値を統計処理して、設定するKの値を決定する。さらに、決定されたKの値から、L=1−Kを算出して、Lの値を決定する(S300)。なお、統計処理としては、記憶されたKの値の算術平均、ガウス分布に近似した場合の平均値などを求めることが考えられる。例えば、K値とL値の設定値は、K=0.4、L=0.6とすることもできる。
次に、図19を参照しながら、第2の比率(α、β、γの値)の決定方法の一例について説明する。図19は、α、β、γの値の決定方法の一例を示すフローチャートである。α、β、γの値の決定処理は、例えば翻訳装置1により実行するが、実際の訳語選択を行う前の準備として実行されることが好ましい。
図19に示すように、翻訳装置1は、第1の言語の入力語(例えば、単語)と、入力語の第2の言語の訳語との組を複数作成し、そのうちの1組を選択する(S311)。翻訳装置1は、初期値を、α=β=0、γ=1と設定する(S312)。翻訳装置1は、入力語の翻訳を行う(S313)。翻訳は、上記に説明した方法で行う。
翻訳装置1は、当初用意した訳語と一致する正しい訳語が出力されたか否かを判別する(S314)。出力が正しくないと判別された場合(S314:NO)、翻訳装置1は、α=α−Δα、β=β、γ=1−α−βと設定する(S315)。翻訳装置1は、α>1またはγ<0である、という条件に当てはまるか否かを判別し(S316)、条件に当てはまらないと判別された場合には(S316:NO)、S313に戻って処理を繰り返す。条件に当てはまる場合には(S316:YES)、α=0、β=β+Δβ、γ=1−α−βと設定する(S317)。
翻訳装置1は、β>1であるか否かを判別し(S318)、β≦1の場合には(S318:NO)、S313に戻って処理を繰り返す。β>1の場合には(S318:YES)、後述するS321に処理を進める。
S314で、正しい訳語が出力されたと判別された場合(S314:YES)、翻訳装置1は、現在のα、βの値を記憶する(S319)。翻訳装置1は、S311で予め用意された次の入力語があるか否かを判別し(S320)、ある場合には(S320:YES)、次の語の組を選択し(S321)、S312に戻って処理を繰り返す。
S320で、次の入力語がないと判別された場合には(S320:NO)、記憶されたα、βの値をそれぞれ統計処理して、設定するα、βの値を決定する。さらに、決定されたα、βの値から、γ=1−α−βを算出して、γの値を決定する(S322)。なお、統計処理としては、記憶されたそれぞれの値の算術平均、ガウス分布に近似した場合の平均値などを求めることが考えられる。例えば、α、β、γの設定値をα=0.1、β=0.7、γ=0.2とすることもできる。
以上説明したように、第1の実施の形態による翻訳装置1において、翻訳対象の語句が入力されると、観点取得部13は、観点一覧DB41を参照して、入力語句の訳語を決定するための絞込みの観点一覧を取得する。訳語候補取得部15は、対訳辞書DB43に基づき、訳語候補を抽出する。対訳頻度取得部17は、取得された観点毎に対訳コーパス45における訳語候補毎の対訳頻度を取得する。単言語頻度取得部19は、取得された観点毎に、単言語コーパス47における訳語候補毎の単言語頻度を取得する。対訳単言語間加重和計算部21は、第1の比率(K、L)、対訳頻度、および単言語頻度に基づき、観点別加重和を算出する。観点間加重和計算部23は、観点加重テーブル49を参照して、観点別加重和、第2の比率(α、β、γ)に基づき評価値を計算する。訳語選択部25は、評価値が最大の訳語候補を訳語として選択する。訳語出力部27は、選択された訳語を出力する。
以上のように、翻訳装置1によれば、例えばルールベース翻訳など、対訳辞書を用いた翻訳において、対訳コーパスに加え、単言語コーパスを利用して訳語を選択することができる。このとき、対訳コーパスに基づく観点別対訳頻度142、146、150と、単言語コーパスに基づく観点別単言語頻度170、174、178とを比較すると、単言語コーパスに基づく出現頻度は、対訳コーパスに基づく出現頻度に比べて、明らかに大きい。また、対訳コーパスに基づく対訳頻度と、単言語コーパスに基づく単言語頻度とは、頻度比で比較すると、各訳語候補に対する大小の傾向が類似している。よって、単言語コーパスを対訳コーパスに加えて利用することができ、頻度のスパースネス問題が生ずることを防止できる。また、翻訳装置1に適した方法で、第1の比率を定めることができる。これにより、適切な比重で対訳コーパスと単言語コーパスとを訳語選択に利用することが可能となる。
さらに、翻訳装置1によれば、観点別の出現頻度に基づき、翻訳装置1において適切な第2の比率を用いて評価値を算出することができる。このとき、翻訳装置1に適した方法で、第2の比率を定めることができる。これにより、翻訳装置1は、入力文が与えられたときに、入力文中の各単語に対して、入力文が含まれる文書の属する分野や文種等に応じて、適切な訳語を選択することができる。このとき、対訳コーパスからの頻度に加えて、単言語コーパスの頻度も併用されるので、観点毎の対訳頻度の集計を行っても、十分な出現頻度が得られる。
本来、訳語の出現頻度を正確にカウントするには、対訳コーパスを用意して対訳の頻度をカウントする必要があるとも考えられる。しかし、世の中のテキストデータの大半は単言語のみで作成されており、対訳として作成されているのは、単言語テキストデータの極一部である。そこで、単言語コーパスは、対訳コーパスよりもデータ量が圧倒的に多いことに着目し、単言語コーパスから抽出した頻度を組み合わせることによって、上記のようにスパースネスの問題を解決することが可能となる。
以上のように、複数の観点が複雑に絡み合って訳語が決定されるような場合にも、適切な訳語の選択が可能となる。このように、翻訳装置1によれば、対訳辞書を用いた翻訳において、頻度スパースネス問題を起こすことなく、入力文に関する複数観点の出現頻度に総合的に基づいた適切な訳語を選択して出力することができる。
(第2の実施の形態)
以下、図20から図23を参照しながら、第2の実施の形態による翻訳装置350について説明する。翻訳装置350の構成および動作おいて、翻訳装置1と同様の構成または動作については、同一番号を付し、重複説明を省略する。
図20は、第2の実施の形態による翻訳装置350の機能の一例を示す図である。翻訳装置350は、翻訳装置1に対し、元単語数カウント部352、および係数調整部354が追加された構成である。
元単語数カウント部352は、第1の言語の入力語の訳語候補である第2の言語の単語のそれぞれに対して、逆に、その第2の言語の単語の訳語候補となる第1の言語の単語の数を計数する。計数される数を、元単語数という。係数調整部354は、元単語数カウント部352が計数した元単語数に応じて、第1の比率を調整する。
図21は、係数情報360の一例を示す図である。図21に示すように、係数情報360は、英語362、日本語126、元単語数364、L値366を有している。日本語126は、「application」に対する訳語候補である。英語362は、日本語126のそれぞれに対して、訳語候補となる英単語である。元単語数364は、一つの日本語126に対する英語362の数である。L値366は、元単語数364に対応して調整されたL値である。
係数情報360において、日本語126=「適用」には、英語362=「application」、「adhibition」の2つの英単語が訳語候補となる。このとき元単語数364=2であり、L値366=0.3とされており、元単語数364=1の場合の366=0.6よりも減じられている。同様に、係数情報360において、日本語126=「出願」には、英語362=「application」、「filing」の2つの英単語が訳語候補となる。このとき元単語数364=2であり、L値366=0.3とされており、元単語数364=1の場合の366=0.6よりも減じられている。
図22は、観点別加重和情報370の一例を示す図である。図22に示すように、観点別加重和情報370は、観点が項目=「前書き」の場合の、日本語126、対訳頻度比218、L値372、単言語頻度比230、L値366、観点別加重和374を含んでいる。
日本語126=「適用」、「出願」のときには、係数情報360に示したように元単語数364=2である。このため、K値372は、元単語数364=2の場合のL値366の変化に応じて変更されている。このとき、L値366、K値372を用いて、対訳頻度比218、単言語頻度比230に基づき観点別加重和374が計算される。
図23は、第2の実施の形態による翻訳装置350の動作を示すフローチャートである。以下の説明では、図20を参照しながら説明した各機能が、翻訳装置350における処理を行うものとして説明する。
図23に示すように、受付部11は、入力単語を受付ける(S381)。入力単語は、例えば、図5に示した入力単語112、入力単語114などとすることができる。観点取得部13は、観点一覧DB41を参照して、例えば、参照情報84に対応する観点一覧87のように、入力単語に対応する観点一覧を取得する(S382)。
訳語候補取得部15は、対訳辞書DB43を参照して、訳語候補一覧を取得する(S383)。例えば、入力単語112に対応する訳語候補116、入力単語114に対応する訳語候補122などが、訳語候補一覧として取得される。
対訳頻度取得部17は、観点一覧DB41から、観点を一つ取り出す(S384)。対訳頻度取得部17は、観点一覧87において、例えば「項目」の項目を取り出す。対訳頻度取得部17は、取得された観点について、同じ値89(例えば「前書き」)と対応付けて対訳コーパス45に記憶された当該訳語候補の数を計数して、観点毎の対訳頻度を取得する。
単言語頻度取得部19は、取得された観点について、同じ値89と対応付けて単言語コーパス47に記憶された当該訳語候補の数を計数して、観点毎の単言語頻度を取得する(S385)。例えば、翻訳装置350は、図7に示した観点別対訳頻度142、図9に示した観点別単言語頻度170を取得する。
続いて元単語数カウント部352は、図21の係数情報360に示したように、例えば元単語数364をカウントする(S387)。係数調整部354は、図22に示したように、元単語数364に応じて、例えば対訳頻度比218および単言語頻度比230に基づき観点別加重和374を計算する(S388)。このとき、観点加重テーブル49に、元単語数364に応じたK値、L値を記憶させておくこともできる。
翻訳装置350は、現在選択されている観点が、最後の観点であるか否かを判別する(S389)。最後の観点でないと判別された場合には(S389:NO)、S384から、別の観点に関して処理を繰り返す。
最後の観点であると判別された場合には(S389:YES)、観点間加重和計算部23は、観点加重テーブル49から観点加重和を計算するための情報を読み出す(S390)。すなわち観点間加重和計算部23は、観点加重テーブル49から第2の比率(α、β、γ)を読み出す。
観点間加重和計算部23は、計算された観点別加重和374などから、さらに式2に基づき評価値を計算する(S391)。訳語選択部25は、S391で算出された評価値が最大の訳語候補を、訳語として出力する(S392)。
以上説明したように、第2の実施の形態による翻訳装置350においては、翻訳対象の語句が入力されると、観点取得部13は、観点一覧DB41を参照して、入力語句の訳語を決定するための絞込みの観点一覧を取得する。訳語候補取得部15は、対訳辞書DB43に基づき、訳語候補を抽出する。対訳頻度取得部17は、取得された観点毎に対訳コーパス45における訳語候補毎の対訳頻度を取得する。単言語頻度取得部19は、取得された観点毎に、単言語コーパス47における訳語候補毎の単言語頻度を取得する。
元単語数カウント部352は、第1の言語の入力語の訳語候補である第2の言語の単語のそれぞれに対して、逆に、訳語候補となる第1の言語の単語の数を計数する。係数調整部354は、例えば、元単語数カウント部352が計数した元単語数に応じた第1の比率を観点加重テーブル49から読み出して用いることで、第1の比率を調整する。
対訳単言語間加重和計算部21は、調整された第1の比率(K、L)、対訳頻度、および単言語頻度に基づき、観点別加重和を算出する。観点間加重和計算部23は、観点加重テーブル49を参照して、観点別加重和、第2の比率(α、β、γ)に基づき評価値を計算する。訳語選択部25は、評価値が最大の訳語候補を訳語として選択する。訳語出力部27は、選択された訳語を出力する。
以上のように、翻訳装置350によれば、対訳辞書を用いた翻訳において、対訳コーパスに加え、単言語コーパスを利用して訳語を選択することができる。このとき、第2の言語の一つの訳語候補に対し、訳語候補をさらに第1の言語に翻訳する際の訳語候補の数に応じて、単言語コーパス47に基づく単言語頻度の訳語選択に対する影響を変更する。すなわち、元単語数カウント部352が計数する元単語数が1つの場合には、単言語コーパス47に基づく訳語候補は信頼度が高いが、訳語候補の数が大きくなるに従い、信頼度が低下する。よって、係数調整部354は、元単語数カウント部352が計数する訳語候補の数が大きくなるに従い、単言語コーパス47に基づく単言語頻度の訳語選択に対する影響が減少するように調整する。このように、対訳頻度と単言語頻度を統合する際に、元単語数を加味する。これにより、第1の実施の形態による翻訳装置1による効果に加え、さらに信頼度の高い訳語を選択することができる。
(変形例)
本変形例は、第1または第2の実施の形態における変形例である。第1または第2の実施の形態と同様の構成および動作については、重複説明を省略する。図24は、文書DB90のデータ構造の一例を示す図である。文書DB90は、受付部11において入力を行う際に参照する情報であると共に、観点一覧DB41の別の構成例である。
文書DB90は、文書ID92、分野94、年代96、項目98、文100を有し、互いに関連付けて記憶されている。文書ID92は、文書の識別情報である。分野94は、文書が関係する分野である。年代96は、例えば、文書が出版された年代である。項目98は、当該文が記載された項目である。文100は、対応する文書ID92に含まれる文であり、例えば「This is the・・・」等である。
本変形例においては、受付部11は、例えば文書DB90から選択された文100を受け付ける。文書ID92により、翻訳対象の文書を選択するようにしてもよい。受付部11は、受付けた文100、文書ID92などを解析して、翻訳対象の単語を抽出することが好ましい。このとき観点取得部13は、文書DB90において、選択した文100または文書ID92と対応する分野94、年代96、項目98を観点として取得し、上記実施の形態と同様に、例えば図3に示した観点一覧87とする。
入力を文書DB90から選択すること、観点取得部13が、観点一覧を文書DB90から抽出することが、第1または第2の実施の形態と相違する点である。他の構成および動作は、それぞれの実施の形態と同様とすることができる。
本変形例によっても、上記第1または第2の実施の形態による翻訳装置と同様の作用、効果を奏することができる。
なお、本発明は、以上に述べた実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で種々の構成または実施形態を採ることができる。図1、図20の例では、翻訳装置1、350は、観点一覧DB41、対訳辞書DB43、対訳コーパス45、単言語コーパス47、観点加重テーブル49を有している。しかしこれらは、必ずしも翻訳装置1、350が備えている必要はなく、情報を利用可能であれば、別途設けられてもよい。
上記の訳語の例は一例であり、これに限定されない。第1の比率および第2の比率の決定方法は上記に限定されず、初期値を別の値に定めるなど、他の決定方法でもよい。例えば、K値とL値の初期値は、K=0.4、L=0.6等、他の値としてもよい。このとき、ΔKは、負の値について、K≧0の間、翻訳を行って適切なKを取得することが好ましい。α、βについても同様に、他の決定方法を採用してもよい。また、第1の比率および第2の比率は、それぞれ合計が1となる例について説明したが、これには限定されない。
上記第1および第2の実施の形態においては、対訳頻度を観点別に算出する例について説明したが、観点に基づく分類を行わずに対訳頻度と第1の比率とに基づき算出された評価値により訳語を選択するようにしてもよい。このとき、対訳コーパス45、単言語コーパス47は、必ずしも観点に関連付けて情報を記憶していなくてもよい。観点は上記に限定されず、例えば、技術文書、小説、随筆、論説文等、文書の種類や、著者の国籍(母語)等、他の情報でもよい。
さらに、観点一覧DB41として、観点一覧DB102を備え、受付部11が受付ける翻訳対象としては、文書DB90に代えて、例えばインターネット上で利用可能な一般のデータベースから選択するといった変形例も可能である。
ここで、上記第1および第2の実施の形態並びに変形例による訳語選択方法の動作をコンピュータに行わせるために共通に適用されるコンピュータの例について説明する。図25は、標準的なコンピュータのハードウエア構成の一例を示すブロック図である。図25に示すように、コンピュータ400は、Central Processing Unit(CPU)402、メモリ404、入力装置406、出力装置408、外部記憶装置412、媒体駆動装置414、ネットワーク接続装置等がバス410を介して接続されている。
CPU402は、コンピュータ400全体の動作を制御する演算処理装置である。メモリ404は、コンピュータ400の動作を制御するプログラムを予め記憶したり、プログラムを実行する際に必要に応じて作業領域として使用したりするための記憶部である。メモリ404は、例えばRandom Access Memory(RAM)、Read Only Memory(ROM)等である。入力装置406は、コンピュータの使用者により操作されると、その操作内容に対応付けられている使用者からの各種情報の入力を取得し、取得した入力情報をCPU402に送付する装置であり、例えばキーボード装置、マウス装置などである。出力装置408は、コンピュータ400による処理結果を出力する装置であり、表示装置などが含まれる。例えば表示装置は、CPU402により送付される表示データに応じてテキストや画像を表示する。
外部記憶装置412は、例えば、ハードディスクなどの記憶装置であり、CPU402により実行される各種制御プログラムや、取得したデータ等を記憶しておく装置である。媒体駆動装置414は、可搬記録媒体416に書き込みおよび読み出しを行うための装置である。CPU402は、可搬記録媒体416に記録されている所定の制御プログラムを、媒体駆動装置414を介して読み出して実行することによって、各種の制御処理を行うようにすることもできる。可搬記録媒体416は、例えばCompact Disc(CD)−ROM、Digital Versatile Disc(DVD)、Universal Serial Bus(USB)メモリ等である。ネットワーク接続装置418は、有線または無線により外部との間で行われる各種データの授受の管理を行うインタフェース装置である。バス410は、上記各装置等を互いに接続し、データのやり取りを行う通信経路である。
上記第1または第2の実施の形態並びに変形例による訳語選択方法をコンピュータに実行させるプログラムは、例えば外部記憶装置412に記憶させる。CPU402は、外部記憶装置412からプログラムを読み出し、コンピュータ400に訳語選択の動作を行なわせる。このとき、まず、訳語選択の処理をCPU402に行わせるための制御プログラムを作成して外部記憶装置412に記憶させておく。そして、入力装置406から所定の指示をCPU402に与えて、この制御プログラムを外部記憶装置412から読み出させて実行させるようにする。また、このプログラムは、可搬記録媒体416に記憶するようにしてもよい。さらに、観点一覧DB41、対訳辞書DB43、対訳コーパス45、単言語コーパス47、観点加重テーブル49は、外部記憶装置412に記憶させるようにしてもよい。
以下、図26を参照しながら、翻訳システムの構成例について説明する。図26は翻訳システムの構成例を示す図である。翻訳システム500は、通信ネットワーク503を介して、サーバ501とクライアント505−1〜505−n(以下、まとめて、あるいは代表してクライアント505ともいう。ここで、nは任意の自然数)が接続されたシステムである。サーバ501、クライアント505−1〜505−nは、例えば、それぞれ標準的なコンピュータ400である。
サーバ501は、翻訳装置1または翻訳装置350とすることができる。変形例による文書DB90を用いた構成でもよい。サーバ501は、クライアント505から翻訳対象の語句を受信し、翻訳を実行して、出力結果をクライアント505に送信する。クライアント505は、翻訳対象の語句を、文書DB90や、ウエブ上で選択し、または、直接入力装置などから入力してサーバ501に送信し、翻訳結果をサーバ501から受信して、表示させる。このとき、観点一覧DB41、対訳辞書DB43、対訳コーパス45、単言語コーパス47、観点加重テーブル49は、外部記憶装置412に記憶させることができる。外部記憶装置412は、サーバ501が有することもできるが、別のコンピュータが保持するようにしてもよい。さらに、翻訳装置1または翻訳装置350の機能の一部を、サーバ501とは別のコンピュータが実行するようにしてもよい。
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)
第1の言語の翻訳対象の単語を受付ける受付部と、
前記第1の言語の単語と、前記第1の言語と異なる第2の言語の少なくとも一つの訳語候補とを対応付けて記憶する対訳辞書から、前記翻訳対象の単語の少なくとも一つの訳語候補を取得する訳語候補取得部と、
少なくとも一つの前記第1の言語の文と、前記文に対応する前記第2の言語の訳文とが対応付けて記憶された対訳コーパスにおける、前記訳語候補取得部で取得された前記訳語候補毎の前記訳文における対訳出現頻度を取得する対訳頻度取得部と、
少なくとも一つの前記第2の言語の文を記憶した単言語コーパスにおける、前記訳語候補取得部で取得された前記訳語候補毎の単言語出現頻度を取得する単言語頻度取得部と、
前記訳語候補毎の前記対訳出現頻度および前記単言語出現頻度に基づき、前記訳語候補の中から出現頻度が大きい前記翻訳対象の単語の訳語を出力する出力部と、
を有することを特徴とする情報処理装置。
(付記2)
前記第1の言語の翻訳対象の単語に関して訳語を出力する際に参照する参照情報を取得すると共に、前記第1の言語の翻訳対象の単語の前記第2の言語の訳語を前記訳語候補から絞込む際の観点一覧から前記参照情報と対応する観点を少なくとも一つ取得する観点取得部
をさらに有し、
前記対訳コーパスには、前記第1の言語の文と前記第2の言語の訳文とが、前記第1の言語の文に対応する前記観点と対応付けて記憶されており、
前記対訳頻度取得部は、前記観点取得部で取得された前記観点に対応付けて記憶された前記訳文における前記訳語候補毎の対訳出現頻度を取得し、
前記単言語コーパスには、前記第2の言語の文が前記観点と対応付けて記憶されており、
前記単言語頻度取得部は、前記翻訳対象の単語に対応付けられた前記観点に対応付けて記憶された前記訳語候補毎の単言語出現頻度を取得し、
前記出力部は、前記観点毎であって前記訳語候補毎の前記対訳出現頻度および前記単言語出現頻度に基づき、前記訳語候補の中から出現頻度が大きい前記翻訳対象の単語の訳語を出力する
ことを特徴とする付記1に記載の情報処理装置。
(付記3)
前記出現頻度が大きいとは、前記訳語候補毎の前記対訳出現頻度と前記単言語出現頻度とに基づき第1の評価値を算出するための第1の比率、および前記観点毎であって前記訳語候補毎の前記対訳出現頻度と前記単言語出現頻度とに基づき第2の評価値を算出するための第2の比率について、前記受付部が受付ける複数の翻訳対象の単語のそれぞれに対し予め正解と決められた訳語が出力される前記第1の比率または前記第2の比率をそれぞれ統計処理することにより決定されることを特徴とする付記1または付記2に記載の情報処理装置。
(付記4)
前記第2の言語の前記訳語候補のそれぞれを前記第1の言語に翻訳する場合の前記第1の言語の訳語候補の数を計数する元単語数カウント部と、
計数された前記数に応じて、前記第1の比率を調整する比率調整部
をさらに有し、
前記出力部は、調整された前記第1の比率に基づき前記翻訳対象の単語の訳語を出力することを特徴とする付記3に記載の情報処理装置。
(付記5)
前記第1の評価値または前記第2の評価値は、前記対訳出現頻度または前記単言語出現頻度の、それぞれ前記訳語候補全体に対する前記訳語候補毎の対訳出現頻度比または単言語出現頻度比に対する、前記第1の比率または前記第2の比率による加重和として算出されることを特徴とする付記3または付記4に記載の情報処理装置。
(付記6)
前記観点一覧は、前記第1の言語の文と少なくとも一つの前記観点とを対応付けて記憶しており、
前記受付部は、前記観点一覧に記憶された文を解析して前記文に含まれる前記翻訳対象の単語を受付け、
前記観点取得部は、受付けた前記文に対応して記憶された観点を取得する、
ことを特徴とする付記1から付記5のいずれかに記載の情報処理装置。
(付記7)
情報処理装置が、
第1の言語の翻訳対象の単語を受付け、
前記第1の言語の単語と、前記第1の言語と異なる第2の言語の少なくとも一つの訳語候補とを対応付けて記憶する対訳辞書から、前記翻訳対象の単語の少なくとも一つの訳語候補を取得し、
少なくとも一つの前記第1の言語の文と、前記文に対応する前記第2の言語の訳文とが対応付けて記憶された対訳コーパスにおける、前記訳語候補取得部で取得された前記訳語候補毎の前記訳文における対訳出現頻度を取得し、
少なくとも一つの前記第2の言語の文を記憶した単言語コーパスにおける、前記訳語候補取得部で取得された前記訳語候補毎の単言語出現頻度を取得し、
前記訳語候補毎の前記対訳出現頻度および前記単言語出現頻度に基づき、前記訳語候補の中から出現頻度が大きい前記翻訳対象の単語の訳語を、
出力する、
ことを特徴とする訳語選択方法。
(付記8)
さらに、
前記第1の言語の翻訳対象の単語に関して訳語を出力する際に参照する参照情報を取得すると共に、前記第1の言語の翻訳対象の単語の前記第2の言語の訳語を前記訳語候補から絞込む際の観点一覧から前記参照情報と対応する観点を少なくとも一つ取得し
前記第1の言語の文と前記第2の言語の訳文とが、前記第1の言語の文に対応する前記観点と対応付けて記憶された前記対訳コーパスから、前記観点取得部で取得された前記観点に対応付けて記憶された前記訳文における前記訳語候補毎の対訳出現頻度を取得し、
前記第2の言語の文が前記観点と対応付けて記憶された前記単言語コーパスから、前記翻訳対象の単語に対応付けられた前記観点に対応付けて記憶された前記訳語候補毎の単言語出現頻度を取得し、
前記観点毎であって前記訳語候補毎の前記対訳出現頻度および前記単言語出現頻度に基づき、前記訳語候補の中から出現頻度が大きい前記翻訳対象の単語の訳語を出力する
ことを特徴とする付記7に記載の訳語選択方法。
(付記9)
前記出現頻度が大きいとは、前記訳語候補毎の前記対訳出現頻度と前記単言語出現頻度とに基づき第1の評価値を算出するための第1の比率、および前記観点毎であって前記訳語候補毎の前記対訳出現頻度と前記単言語出現頻度とに基づき第2の評価値を算出するための第2の比率について、前記受付部が受付ける複数の翻訳対象の単語のそれぞれに対し予め正解と決められた訳語が出力される前記第1の比率または前記第2の比率をそれぞれ統計処理することにより決定される
ことを特徴とする付記6または付記7に記載の訳語選択方法。
(付記10)
前記第2の言語の前記訳語候補のそれぞれを前記第1の言語に翻訳する場合の前記第1の言語の訳語候補の数を計数し、
計数された前記数に応じて、前記第1の比率を調整し
調整された前記第1の比率に基づき前記翻訳対象の単語の訳語を出力
ことを特徴とする付記9に記載の訳語選択方法。
(付記11)
前記第1の評価値または前記第2の評価値は、前記対訳出現頻度または前記単言語出現頻度の、それぞれ前記訳語候補全体に対する前記訳語候補毎の対訳出現頻度比または単言語出現頻度比に対する、前記第1の比率または前記第2の比率による加重和として算出される
ことを特徴とする付記9または付記10に記載の訳語選択方法。
(付記12)
前記観点一覧は、前記第1の言語の文と少なくとも一つの前記観点とを対応付けて記憶しており、
さらに、前記観点一覧に記憶された文を解析して前記文に含まれる前記翻訳対象の単語を受付け、
受付けた前記文に対応して記憶された観点を取得する、
ことを特徴とする付記7から付記11のいずれかに記載の訳語選択方法。
(付記13)
第1の情報処理装置と、第2の情報処理装置とが通信ネットワークを介して接続され、
前記第1の情報処理装置は、
第1の言語の翻訳対象の単語を受付ける受付部と、
前記第1の言語の単語と、前記第1の言語と異なる第2の言語の少なくとも一つの訳語候補とを対応付けて記憶する辞書記憶部と、
前記辞書記憶部から、前記翻訳対象の単語の少なくとも一つの訳語候補を取得する訳語候補取得部と、
少なくとも一つの前記第1の言語の文と、前記文に対応する前記第2の言語の訳文とが対応付けて記憶された対訳コーパスを記憶した対訳記憶部と、
前記対訳コーパスから、前記訳語候補取得部で取得された前記訳語候補毎の前記訳文における対訳出現頻度を取得する対訳頻度取得部と、
少なくとも一つの前記第2の言語の文が記憶された単言語コーパスを記憶した単言語記憶部と、
前記単言語コーパスにおける、前記訳語候補取得部で取得された前記訳語候補毎の単言語出現頻度を取得する単言語頻度取得部と、
前記訳語候補毎の前記対訳出現頻度および前記単言語出現頻度に基づき、前記訳語候補の中から出現頻度が大きい前記翻訳対象の単語の訳語を出力する出力部と、
前記通信ネットワークを介して、前記受付部で受付ける前記翻訳対象の単語を受信すると共に、前記訳語を送信する第1の送受信部と、
を有し、
前記第2の情報処理装置は、
前記第1の言語の翻訳対象の単語の入力を受付ける入力部と、
前記通信ネットワークを介して前記第1の言語の翻訳対象の単語を送信するとともに、前記訳語を受信する第2の送受信部と、
前記訳語を表示する表示部と、
を有することを特徴とする情報処理システム。
(付記14)
前記第1の言語の翻訳対象の単語の前記第2の言語の訳語を前記訳語候補から絞込む際の観点一覧を記憶した観点記憶部と、
前記第1の言語の翻訳対象の単語に関して訳語を出力する際に参照する参照情報を取得すると共に、前記観点一覧から前記参照情報と対応する観点を少なくとも一つ取得する観点取得部と、
をさらに有し、
前記対訳コーパスには、前記第1の言語の文と前記第2の言語の訳文とが、前記第1の言語の文に対応する前記観点と対応付けて記憶されており、
前記対訳頻度取得部は、前記観点取得部で取得された前記観点に対応付けて記憶された前記訳文における前記訳語候補毎の対訳出現頻度を取得し、
前記単言語コーパスには、前記第2の言語の文が前記観点と対応付けて記憶されており、
前記単言語頻度取得部は、前記翻訳対象の単語に対応付けられた前記観点に対応付けて記憶された前記訳語候補毎の単言語出現頻度を取得し、
前記出力部は、前記観点毎であって前記訳語候補毎の前記対訳出現頻度および前記単言語出現頻度に基づき、前記訳語候補の中から出現頻度が大きい前記翻訳対象の単語の訳語を出力する
ことを特徴とする付記13に記載の情報処理システム。
(付記15)
前記出現頻度が大きいとは、前記訳語候補毎の前記対訳出現頻度と前記単言語出現頻度とに基づき第1の評価値を算出するための第1の比率、および前記観点毎であって前記訳語候補毎の前記対訳出現頻度と前記単言語出現頻度とに基づき第2の評価値を算出するための第2の比率について、前記受付部が受付ける複数の翻訳対象の単語のそれぞれに対し予め正解と決められた訳語が出力される前記第1の比率または前記第2の比率をそれぞれ統計処理することにより決定されることを特徴とする付記13または付記14に記載の情報処理システム。
1 翻訳装置
11 受付部
13 観点取得部
15 訳語候補取得部
17 対訳頻度取得部
19 単言語頻度取得部
21 対訳単言語間加重和計算部
23 観点間加重和計算部
25 訳語選択部
27 訳語出力部
41 観点一覧DB
43 対訳辞書DB
44 英日辞書DB
45 対訳コーパス
46 日本語コーパス
47 単言語コーパス
48 英日コーパス
49 観点加重テーブル

Claims (6)

  1. 第1の言語の翻訳対象の単語を受付ける受付部と、
    前記第1の言語の単語と、前記第1の言語と異なる第2の言語の少なくとも一つの訳語候補とを対応付けて記憶する対訳辞書から、前記翻訳対象の単語の少なくとも一つの訳語候補を取得する訳語候補取得部と、
    少なくとも一つの前記第1の言語の文と、前記文に対応する前記第2の言語の訳文とが対応付けて記憶された対訳コーパスにおける、前記訳語候補取得部で取得された前記訳語候補毎の前記訳文における対訳出現頻度を取得する対訳頻度取得部と、
    少なくとも一つの前記第2の言語の文を記憶した単言語コーパスにおける、前記訳語候補取得部で取得された前記訳語候補毎の単言語出現頻度を取得する単言語頻度取得部と、
    前記訳語候補毎の前記対訳出現頻度の総和に対する1の訳語候補の前記対訳出現頻度の比である対訳出現頻度比と、前記訳語候補毎の前記単言語出現頻度の総和に対する前記1の訳語候補の前記単言語出現頻度の比である単言語出現頻度比との加重和である対訳単言語間加重和を前記訳語候補毎に算出し、前記訳語候補毎の前記対訳単言語間加重和に基づき、前記訳語候補から前記翻訳対象の単語の訳語を選択して出力する出力部と、
    前記第2の言語の前記訳語候補のそれぞれを前記第1の言語に翻訳する場合の前記第1の言語の訳語候補の数を計数する元単語数カウント部と、
    計数された前記数の大きさに応じて、前記対訳単言語間加重和において前記単言語出現頻度比に与える重みを減少させる調整を行う比率調整部と、
    を有し、
    前記出力部は、前記調整の後に算出された前記訳語候補毎の前記対訳単言語間加重和に基づき前記翻訳対象の単語の訳語を選択して出力する
    ことを特徴とする情報処理装置。
  2. 前記第1の言語の翻訳対象の単語についての各種の観点が示されている参照情報を取得すると共に、前記第1の言語の翻訳対象の単語の前記第2の言語の訳語を前記訳語候補から絞込む際の観点が示されている観点一覧から前記参照情報と対応する観点を少なくとも一つ取得する観点取得部
    をさらに有し、
    前記対訳コーパスには、前記第1の言語の文と前記第2の言語の訳文とが、前記第1の言語の文に対応する前記観点と対応付けて記憶されており、
    前記対訳頻度取得部は、前記観点取得部で取得された前記観点に対応付けて記憶された前記訳文における前記訳語候補毎の対訳出現頻度を取得し、
    前記単言語コーパスには、前記第2の言語の文が前記観点と対応付けて記憶されており、
    前記単言語頻度取得部は、前記翻訳対象の単語に対応付けられた前記観点に対応付けて記憶された前記訳語候補毎の単言語出現頻度を取得し、
    前記出力部は、前記観点毎であって前記訳語候補毎の前記対訳単言語間加重和に基づき、前記訳語候補から前記翻訳対象の単語の訳語を選択して出力する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 予め複数組用意されている、前記翻訳対象の単語と前記翻訳対象の単語に対しての正解である訳語との組の各々について、前記対訳単言語間加重和において前記対訳出現頻度比に与える重みと前記単言語出現頻度比に与える重みとの和を1とする制限の下で前記翻訳対象の単語の受付を前記受付部に行わせた場合に前記出力部から出力される訳語が前記正解である訳語となるときに前記対訳出現頻度比に与えられている重みの最大値が求められ、前記組の各々について求まる前記最大値についての平均値が前記対訳単言語間加重和において前記対訳出現頻度比に与える重みに設定され、前記平均値を1から減算して得られる値が前記対訳単言語間加重和において前記単言語出現頻度比に与える重みに設定されることを特徴とする請求項1または請求項2に記載の情報処理装置。
  4. 前記観点一覧は、前記第1の言語の文と少なくとも一つの前記観点とを対応付けて記憶しており、
    前記受付部は、前記観点一覧に記憶された文を解析して前記文に含まれる前記翻訳対象の単語を受付け、
    前記観点取得部は、受付けた前記文に対応して記憶された観点を取得する、
    ことを特徴とする請求項に記載の情報処理装置。
  5. 情報処理装置が、
    第1の言語の翻訳対象の単語を受付け、
    前記第1の言語の単語と、前記第1の言語と異なる第2の言語の少なくとも一つの訳語候補とを対応付けて記憶する対訳辞書から、前記翻訳対象の単語の少なくとも一つの訳語候補を取得し、
    少なくとも一つの前記第1の言語の文と、前記文に対応する前記第2の言語の訳文とが対応付けて記憶された対訳コーパスにおける取得された前記訳語候補毎の前記訳文における対訳出現頻度を取得し、
    少なくとも一つの前記第2の言語の文を記憶した単言語コーパスにおける取得された前記訳語候補毎の単言語出現頻度を取得し、
    前記訳語候補毎の前記対訳出現頻度の総和に対する1の訳語候補の前記対訳出現頻度の比である対訳出現頻度比と、前記訳語候補毎の前記単言語出現頻度の総和に対する前記1の訳語候補の前記単言語出現頻度の比である単言語出現頻度比との加重和である対訳単言語間加重和を前記訳語候補毎に算出し、
    前記訳語候補毎の前記対訳単言語間加重和に基づき、前記訳語候補から前記翻訳対象の単語の訳語を選択して出力
    前記第2の言語の前記訳語候補のそれぞれを前記第1の言語に翻訳する場合の前記第1の言語の訳語候補の数を計数し、
    計数された前記数の大きさに応じて、前記対訳単言語間加重和において前記単言語出現頻度比に与える重みを減少させる調整を行い、
    前記出力では、前記調整の後に算出された前記訳語候補毎の前記対訳単言語間加重和に基づき前記翻訳対象の単語の訳語を選択して出力する
    ことを特徴とする訳語選択方法。
  6. 第1の情報処理装置と、第2の情報処理装置とが通信ネットワークを介して接続され、
    前記第1の情報処理装置は、
    第1の言語の翻訳対象の単語を受付ける受付部と、
    前記第1の言語の単語と、前記第1の言語と異なる第2の言語の少なくとも一つの訳語候補とを対応付けて記憶する辞書記憶部と、
    前記辞書記憶部から、前記翻訳対象の単語の少なくとも一つの訳語候補を取得する訳語候補取得部と、
    少なくとも一つの前記第1の言語の文と、前記文に対応する前記第2の言語の訳文とが対応付けて記憶された対訳コーパスを記憶した対訳記憶部と、
    前記対訳コーパスから、前記訳語候補取得部で取得された前記訳語候補毎の前記訳文における対訳出現頻度を取得する対訳頻度取得部と、
    少なくとも一つの前記第2の言語の文が記憶された単言語コーパスを記憶した単言語記憶部と、
    前記単言語コーパスにおける、前記訳語候補取得部で取得された前記訳語候補毎の単言語出現頻度を取得する単言語頻度取得部と、
    前記訳語候補毎の前記対訳出現頻度の総和に対する1の訳語候補の前記対訳出現頻度の比である対訳出現頻度比と、前記訳語候補毎の前記単言語出現頻度の総和に対する前記1の訳語候補の前記単言語出現頻度の比である単言語出現頻度比との加重和である対訳単言語間加重和を前記訳語候補毎に算出し、前記訳語候補毎の前記対訳単言語間加重和に基づき、前記訳語候補から前記翻訳対象の単語の訳語を選択して出力する出力部と、
    前記第2の言語の前記訳語候補のそれぞれを前記第1の言語に翻訳する場合の前記第1の言語の訳語候補の数を計数する元単語数カウント部と、
    計数された前記数の大きさに応じて、前記対訳単言語間加重和において前記単言語出現頻度比に与える重みを減少させる調整を行う比率調整部と、
    前記通信ネットワークを介して、前記受付部で受付ける前記翻訳対象の単語を受信すると共に、前記訳語を送信する第1の送受信部と、
    を有し、
    前記出力部は、前記調整の後に算出された前記訳語候補毎の前記対訳単言語間加重和に基づき前記翻訳対象の単語の訳語を選択して出力し、
    前記第2の情報処理装置は、
    前記第1の言語の翻訳対象の単語の入力を受付ける入力部と、
    前記通信ネットワークを介して前記第1の言語の翻訳対象の単語を送信するとともに、前記訳語を受信する第2の送受信部と、
    前記訳語を表示する表示部と、
    を有する
    ことを特徴とする情報処理システム。
JP2013223620A 2013-10-28 2013-10-28 情報処理装置、訳語選択方法、および情報処理システム Active JP6225640B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013223620A JP6225640B2 (ja) 2013-10-28 2013-10-28 情報処理装置、訳語選択方法、および情報処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013223620A JP6225640B2 (ja) 2013-10-28 2013-10-28 情報処理装置、訳語選択方法、および情報処理システム

Publications (2)

Publication Number Publication Date
JP2015087823A JP2015087823A (ja) 2015-05-07
JP6225640B2 true JP6225640B2 (ja) 2017-11-08

Family

ID=53050589

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013223620A Active JP6225640B2 (ja) 2013-10-28 2013-10-28 情報処理装置、訳語選択方法、および情報処理システム

Country Status (1)

Country Link
JP (1) JP6225640B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107861937B (zh) * 2016-09-21 2023-02-03 松下知识产权经营株式会社 对译语料库的更新方法、更新装置以及记录介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05158969A (ja) * 1991-12-02 1993-06-25 Nec Corp 言語処理システム
JP5011751B2 (ja) * 2006-02-27 2012-08-29 富士通株式会社 訳語情報出力処理プログラム,処理方法および処理装置

Also Published As

Publication number Publication date
JP2015087823A (ja) 2015-05-07

Similar Documents

Publication Publication Date Title
US10726208B2 (en) Consumer insights analysis using word embeddings
US10133738B2 (en) Translation confidence scores
US10891322B2 (en) Automatic conversation creator for news
US10685183B1 (en) Consumer insights analysis using word embeddings
US11182806B1 (en) Consumer insights analysis by identifying a similarity in public sentiments for a pair of entities
US9916304B2 (en) Method of creating translation corpus
EP3369001A1 (en) Method and system for statistics-based machine translation
US10509863B1 (en) Consumer insights analysis using word embeddings
US10803248B1 (en) Consumer insights analysis using word embeddings
JP6404511B2 (ja) 翻訳支援システム、翻訳支援方法、および翻訳支援プログラム
CN110287405B (zh) 情感分析的方法、装置和存储介质
KR20210022873A (ko) 인터넷을 통해 수집된 화장품 리뷰 정보를 분석하여 개선된 리뷰 정보를 사용자에게 제공하는 방법 및 시스템
CN111373386A (zh) 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序
KR20140133185A (ko) 소셜 데이터의 분석을 통한 주가 예측 방법 및 이를 적용한 주가 예측 시스템
JP2009217689A (ja) 情報処理装置、情報処理方法、及びプログラム
US11030539B1 (en) Consumer insights analysis using word embeddings
JP6225640B2 (ja) 情報処理装置、訳語選択方法、および情報処理システム
CN109145313A (zh) 语句的翻译方法、装置和存储介质
Zhang et al. MPMQA: multimodal question answering on product manuals
WO2017074785A1 (en) Method and system for statistics-based machine translation
JP6178480B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
JP2017010107A (ja) 情報処理装置、情報処理システム及びプログラム
CN113343700B (zh) 数据处理方法、装置、设备及存储介质
Jin et al. ReviewCollage: a mobile interface for direct comparison using online reviews
KR101758555B1 (ko) 토픽 표현 추출 방법 및 그 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160705

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170606

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170802

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170925

R150 Certificate of patent or registration of utility model

Ref document number: 6225640

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150