JP2004355224A - 対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラム - Google Patents

対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラム Download PDF

Info

Publication number
JP2004355224A
JP2004355224A JP2003150770A JP2003150770A JP2004355224A JP 2004355224 A JP2004355224 A JP 2004355224A JP 2003150770 A JP2003150770 A JP 2003150770A JP 2003150770 A JP2003150770 A JP 2003150770A JP 2004355224 A JP2004355224 A JP 2004355224A
Authority
JP
Japan
Prior art keywords
language
bilingual
bilingual expression
corpus
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003150770A
Other languages
English (en)
Other versions
JP3765801B2 (ja
Inventor
Sayori Shimohata
さより 下畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2003150770A priority Critical patent/JP3765801B2/ja
Priority to US10/849,788 priority patent/US20050010390A1/en
Publication of JP2004355224A publication Critical patent/JP2004355224A/ja
Application granted granted Critical
Publication of JP3765801B2 publication Critical patent/JP3765801B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】対訳表現の抽出効率を高める。
【解決手段】第1言語および第2言語のコーパスを格納したコーパス格納部と、予め対応関係の確認されている第1言語の語句と第2言語の語句を対応付け、対訳表現として登録した対訳表現格納部と、第1候補語句と、対訳表現格納部に登録されている第1言語の1または複数の語句との共起状況と、第2候補語句と、対訳表現格納部に登録されている第2言語の1または複数の語句との共起状況を比較して各共起状況の類似性の高さを示す類似度を演算する類似度演算部と、類似度が高い第1候補語句と第2候補語句を対応付け、新たな対訳表現として対訳表現格納部に追加的に登録する追加登録部とを備え、この追加的な登録を行ったあとの対訳表現格納部をもとに、類似度演算部と、追加登録部を動作させ、新たな対訳表現の追加的な登録を行う。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラムに関し、例えば、文対応のついていない2言語のコーパスから、対訳表現を抽出する場合などに適用して好適なものである。
【0002】
【従来の技術】
コーパスから対訳表現を抽出する方法としては、一般的に、文対応のついた2言語コーパス(パラレルコーパス)を使って、対応する文に出現する語のペアを抽出する方法が知られている。しかし、実際に存在するパラレルコーパスは少ないため、適用範囲が限られ、実用上問題がある。
【0003】
一方、文対応のついていない2言語のコーパスから対訳表現を抽出する方法として、下記の非特許文献1に開示されたものがある。この方法では、ある言語で共起する単語のペアは別の言語でも共起するという考えのもとに、対訳表現の抽出を行う。すなわち、2言語の対応する単語リストを使って、各言語での単語リスト中の単語と対応付けの対象語(以下、候補語と呼ぶ)の間の共起パターンを抽出し、2言語間で類似する共起パターンを持つ候補語のペアを対訳表現として抽出する。
【0004】
一般的に「共起」とは、ある単語とある単語が一定の範囲内(例えば、文や段落)に同時に出現する状態のことをいうが、ここでは、候補語に注目し、当該候補語に対して単語リスト中の1または複数の単語が一定の範囲内に出現することが共起にあたる。
【0005】
非特許文献1では、使用するコーパスは、同一内容、同一分野であることが望ましいものの、必ずしもパラレルコーパスである必要はない。このようなコーパスは多数存在するので、パラレルコーパスを用いる方法と比べて、適用範囲が広く、実用的である。
【0006】
【非特許文献1】
「Finding Terminology Translations from Non−parallel Corpora」
Proceedings of 5th International Workshop of Very Large Corpora(WVLC−5),Pages 192−202,Hong Kong,August 1997
【0007】
【発明が解決しようとする課題】
しかしながら、上記非特許文献1に開示された方法では、単語リストが固定(不変)のため、コーパスのサイズやコーパス中に含まれている単語の種類によっては、抽出できる対訳表現の数が少ないことが起こり得、対訳表現の抽出効率が低い。
【0008】
対訳表現は例えば辞書などとして活用することで自然言語処理上、有用な言語資源となるから、コーパスから対訳表現を抽出する際の効率を高めることは重要である。
【0009】
【課題を解決するための手段】
かかる課題を解決するために、第1の本発明にかかる対訳表現抽出装置は、(1)第1言語および第2言語のコーパスを格納したコーパス格納部と、(2)予め対応関係の確認されている第1言語の語句と第2言語の語句を対応付け、対訳表現として登録した対訳表現格納部と、(3)前記第1言語のコーパスから抽出した語句である第1候補語句と、前記対訳表現格納部に登録されている第1言語の1または複数の語句との共起状況と、前記第2言語のコーパスから抽出した語句である第2候補語句と、前記対訳表現格納部に登録されている第2言語の1または複数の語句との共起状況を比較して各共起状況の類似性の高さを示す類似度を演算する類似度演算部と、(4)当該類似度演算部が演算結果として得た類似度が所定のしきい値以上に高い関係にある第1候補語句と第2候補語句を対応付け、新たな対訳表現として前記対訳表現格納部に追加的に登録する追加登録部とを備え、(5)この追加的な登録を行ったあとの対訳表現格納部をもとに、前記類似度演算部と、前記追加登録部を動作させ、新たな対訳表現の追加的な登録を行うことを特徴とする。
【0010】
また、第2の本発明にかかる対訳表現抽出方法は、(1)第1言語および第2言語のコーパスをコーパス格納部に格納すると共に、予め対応関係の確認されている第1言語の語句と第2言語の語句を対応付け、対訳表現として対訳表現格納部に登録しておき、(2) 類似度演算部が、前記第1言語のコーパスから抽出した語句である第1候補語句と、前記対訳表現格納部に登録されている第1言語の1または複数の語句との共起状況と、前記第2言語のコーパスから抽出した語句である第2候補語句と、前記対訳表現格納部に登録されている第2言語の1または複数の語句との共起状況を比較して各共起状況の類似性の高さを示す類似度を演算し、(3)追加登録部が、当該類似度演算部が演算結果として得た類似度が所定のしきい値以上に高い関係にある第1候補語句と第2候補語句を対応付け、新たな対訳表現として前記対訳表現格納部に追加的に登録し、(4)この追加的な登録を行ったあとの対訳表現格納部をもとに、前記類似度演算部と、前記追加登録部を動作させ、新たな対訳表現の追加的な登録を行うことを特徴とする。
【0011】
さらに、第3の本発明にかかる対訳表現抽出プログラムでは、コンピュータに、(1)第1言語および第2言語のコーパスを格納したコーパス格納機能と、(2)予め対応関係の確認されている第1言語の語句と第2言語の語句を対応付け、対訳表現として登録する対訳表現格納機能と、(3) 前記第1言語のコーパスから抽出した語句である第1候補語句と、前記対訳表現格納機能によって登録されている第1言語の1または複数の語句との共起状況と、前記第2言語のコーパスから抽出した語句である第2候補語句と、前記対訳表現格納機能によって登録されている第2言語の1または複数の語句との共起状況を比較して各共起状況の類似性の高さを示す類似度を演算する類似度演算機能と、(4)当該類似度演算機能が演算結果として得た類似度が所定のしきい値以上に高い関係にある第1候補語句と第2候補語句を対応付け、新たな対訳表現として前記対訳表現格納機能に追加的に登録させる追加登録機能とを実現させ、(5)この追加的な登録を行ったあとの対訳表現格納機能をもとに、前記類似度演算機能と、前記追加登録機能を動作させ、新たな対訳表現の追加的な登録を行うことを特徴とする。
【0012】
【発明の実施の形態】
(A)実施形態
以下、本発明にかかる対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラムの実施形態について説明する。
【0013】
第1および第2の実施形態に共通する特徴は、対訳表現を特定し追加したあと、追加した対訳表現も含む全対訳表現集合を利用して、さらなる対訳表現の特定および追加を繰り返す点にある。
【0014】
(A−1)第1の実施形態の構成
本実施形態にかかる対訳表現収集システム10の全体構成例を図1に示す。
【0015】
図1において、当該対訳表現収集システム10は、入出力装置1と、処理装置2と、記憶装置3とを備えている。
【0016】
このうち入出力装置1は、入力部11と出力部12とからなる。
【0017】
入力部11は、例えば、キーボードやマウスなどのポインティングデバイス、スキャナと文字認識処理、マイクと音声認識処理などの各種機能によって構成され得る部分で、ユーザU1が各種入力操作を行なう際に機能する。
【0018】
出力部12は、例えば、ディスプレイ装置への表示、音声への変換および音声出力などの各種機能によって構成され得る部分で、ユーザU1に対して各種の情報を提供する。ここで、ユーザU1は、当該対訳表現収集システム10を操作するオペレータなどであってよい。
【0019】
ただし当該入力部11や出力部12は、人間であるユーザU1とのインタフェースとして機能するだけでなく、リモートの、あるいはローカルの情報処理装置(図示せず)とのあいだで制御情報やデータのやり取りを行うためにも機能し得る。このようなユーザU1あるいは情報処理装置とのやり取りに応じて、後述するコーパス31の内容などが増減、変更されるものであってもよい。
【0020】
例えば、リモートの情報処理装置とのやり取りの例としては、インターネット上のWebサーバから取得したWebページなどを、コーパスとして、随時、追加することがあげられる。パラレルコーパスに限定するとその数は限られてしまうが、本実施形態は、パラレルコーパスに限らず、文対応のついていない2言語のコーパスに対しても適用可能であるから、原文とその訳文の関係にあるコンテンツであれば、意訳しているために必ずしも原文、訳文間の文どうしの対応関係が明確でない場合などにも適用することができる。そのようなコンテンツは、インターネット上に分散配置されている多数のWebサーバから取得することが可能である。
【0021】
また、コーパス31に関する条件はさらに緩和し、同一分野(同一カテゴリ)の文章など、内容的に似た文章であれば、必ずしも原文と訳文の関係にないものであっても本実施形態のコーパスとして利用できる可能性がある。
【0022】
前記記憶装置3は、ハードウエア的には、ハードディスクや光ディスクなどの不揮発性記憶手段や、メモリなどの揮発性記憶手段などから構成され、ソフトウエア的には、辞書やリストなど、各種のデータ構造に対応した形式で情報を収容し記憶する部分である。
【0023】
この記憶装置3は、前記コーパス31のほか、対応語リスト32,候補語リスト33と、獲得表現リスト34を備えている。
【0024】
コーパス31は、自然言語的な観点からみると本実施形態で収集しようとしている対訳表現の母体となる言語資料の集合であるが、当該集合に対する探索操作などを容易にするため、データベースの形で提供される。
【0025】
コーパス(2言語コーパス)31には、多数の文章が含まれていてよいが、言語の相違の観点で大きく2つに分けることができる。第1言語のコーパス31Aと、第2言語のコーパス31Bの2つである。第1言語、第2言語には、様々な言語を選定することが可能であるが、ここでは、第1言語として日本語を、第2言語として英語を選定するものとする。
【0026】
本実施形態でも、第1言語のコーパス31Aと第2言語のコーパス31Bのあいだで明確な文対応がついていること(パラレルコーパスであること)は、より品質の高い対訳表現を抽出する上で望ましいといえるが、それが必ずしも必須ではない点はすでに述べた通りである。すなわち、意訳しているために第1言語コーパス31Aと第2言語コーパス31Bの間の文どうしの対応関係が明確でない場合などにも本実施形態は適用でき、また、同一分野(同一カテゴリ)の文章など、内容的に似た文章であれば、第1言語コーパス31Aと第2言語コーパス31Bが、必ずしも原文と訳文の関係になくても本実施形態は適用できる可能性がある。
【0027】
原文と訳文の関係にある場合には当然、第1言語コーパス31Aの属する分野と、第2言語コーパス31Bの属する分野は同じであるため、本実施形態において第1言語コーパス31Aと第2言語コーパス31Bの関係に関して必ず満足しなければならない最低限の条件は、属する分野が同じであることであるといえる。この分野には、様々なものを選定することが可能であるが、一例として、本実施形態では、「野球」を選定する。
【0028】
この場合、コーパス31A、31Bの具体例としては、例えば、野球に関する日本語の新聞記事(31Aに対応)と、その英語版の新聞記事(31Bに対応)などをあげることができる。
【0029】
前記対応語リスト32は、あらかじめ対応関係が確認されている2言語の対訳表現(表現対)を格納するリストである。対応語リスト32は、必ずしもデータ構造としてのリスト構造を用いて実現する必要はないが、本実施形態では、主として表現対の追加を繰り返すことになるため、リスト構造中に含まれる要素数(対訳表現の数)に依存しない一定の処理量で追加操作を行うことができるという意味で、データ構造としてのリスト構造を用いて対応語リスト32を実現することは好ましい。
【0030】
リスト構造として、例えば、先頭の要素(各要素に1つ(1対)の対訳表現が含まれる)を指定する特殊なポインタ(リストヘッダ)を伴う単リスト(単方向リスト)を仮定すると、処理量低減の観点から、要素の追加(対訳表現の追加登録)は、単リストの先頭部分に対して行うことが望ましい。単リスト上では各要素に含まれるポインタ(図示せず)のみがリスト上の前後関係を規定するため、先頭以外の要素に到達するには、先頭の要素から順番に1要素ずつたどって線形探索を実行することになるからである。
【0031】
対応語リスト32の内容には様々なものがあり得るが、一例として、図6に示すようなものであってよい。図6の例では、対応語リスト32の表現対は前記「野球」分野に属するものとなっている。本実施形態の構成上、初期状態で、対応語リスト32内に「野球」分野に属する対訳表現がある程度の数、登録されていることが求められるが、「野球」分野に属さない対訳表現が登録されていてもかまわない。必要ならば、初期状態で求められる、ある程度の数の「野球」分野に属する対訳表現は、前記入出力装置1を介してユーザU1が登録するようにしてもよい。
【0032】
図6の例では、1つの対訳表現(例えば、「ブルペン」と「bull pen」から構成される対訳表現)が1つの要素であり、このような要素を単位として追加、探索、削除などの操作が行われ得る。
【0033】
前記候補語リスト33は、「リスト」という点に関して、前記対応語リスト32と同様のことが成立するが、候補語リスト33に登録されている単語は、例えば、形態素解析などを行うことによって、第1言語または第2言語のコーパス31A、31Bから切り出されたものにすぎず、対応関係が未確認な単語である。
【0034】
対応関係が確認されていないため、候補語リスト33にも、前記コーパス31と同様、第1言語の候補語リスト33Aと、第2言語の候補語リスト33Bがある。一例として、第1言語候補語リスト33Aは図5(A)に示すものであってよく、第2言語候補語リスト33Bは図5(B)に示すものであってよい。あるいは、第1言語候補語リスト33Aは図8(A)に示すもので、第2言語候補語リスト33Bは図8(B)に示すものとしてもよい。
【0035】
獲得表現リスト34は、対訳表現収集システム10によって対応関係が確認され新たに収集された獲得表現(対訳表現)を登録するためのリストで、基本的に、前記対応語リスト32と同じ構造を有するものである。本実施形態の構成上、当該獲得表現リスト34は必ずしも必須ではないが、この獲得表現リスト34を用いれば、本実施形態で新たに収集された対訳表現を、すでに対応語リスト32に登録されていた対訳表現と区別すること等も容易に行うことができる。
【0036】
1つの第1言語の候補語に対して、複数の第2言語の候補語が抽出されることも起こり得るが、その場合には、例えば、類似度の高いほうのみを獲得表現リスト34に格納したり、前記出力部12を介して複数の候補語をユーザU1に提示しユーザU1が選択したものを獲得表現リスト34に格納するなどの方法で、対訳表現中の第1言語と第2言語のあいだに1対1の対応関係を維持することができる。
【0037】
当該獲得表現リスト34に登録される獲得表現は、例えば、図10に示すものであってよい。
【0038】
前記処理装置2は、CPU(中央処理装置)などの演算装置や作業用の記憶手段としてのメモリ、制御部(必要に応じて、OS(オペレーティングシステム)なども含む)などを備えており、共起パターン抽出部21と、類似度判定部22を有する。
【0039】
共起パターン抽出部21は、共起パターンの抽出を行う部分である。ここで、共起とは、2つの単語が一定の範囲内(文、節、章など)に同時に出現する状態のことである。また、共起パターンとは、単語の共起の傾向を特徴ベクトルの形式で数値化したもので、候補語リスト33に格納されている各候補語ごとに抽出される。例えば、ある候補語が、前記対応語リスト32に格納されている対訳表現のうちの一方である対応語(例えば、「ブルペン」と「bull pen」から構成される対訳表現の場合における「ブルペン」)とのあいだで、どのように共起するかを示す情報が、当該特徴ベクトルである。その候補語が例えば第1言語に属する単語であるものとすると、対応語も第1言語のほうから選ばれるのは当然である。
【0040】
一例として、各候補語ごとに共起パターンを示すと、図7(A)〜(D)のようになる。
【0041】
例えば、図7(A)では、候補語「打者」に対し、対応語群として「ブルペン」、「投球」、「ホームラン」、「ヒット」、「技術」、「経済」の共起頻度を調べ、「ホームラン」と「ヒット」の共起頻度が高く、「技術」の共起頻度が中で、「ブルペン」と「投球」の共起頻度が低く、「経済」との共起頻度はゼロ(共起しない)ことを示している。
【0042】
共起パターンを示す特徴ベクトルの作成方法としては、各単語と共起するかどうかを1,0の属性値で示したベクトルを用いること等も可能であるが、ここでは、共起頻度を属性とする実数ベクトルを用いるものとする。図7に示した「高」、「中」、「低」、「無」のパターンの具体的内容が、当該実数ベクトルに対応する。
【0043】
前記類似度判定部22は、2言語間の候補語の共起パターンを比較し、その類似度を測る機能を有する部分である。ここでも、上述したように、ある言語(例えば、第1言語としての日本語)で共起する単語のペアは別の言語(例えば、第2言語としての英語)でも共起するという考えを利用している。
【0044】
例えば、第1言語の「打者」に対応付けられて1つの対訳表現を構成するべき第2言語の単語は「batter」であるが、図7(A)と(D)を対比すれば明らかなように、「打者」の共起パターンと「batter」の共起パターンは、対応語「技術」(technology)に対する共起頻度が相違するために同一ではなくなっているが、それ以外の対応語に対する共起頻度は同じであり、かなり類似しているといえる。
【0045】
類似度判定部22は、このような類似の度合い(類似度)を所定の計算方法で演算する部分で、得られた類似度が所定のしきい値TH1を越えた候補語の対は獲得表現として前記獲得表現リスト34に格納するとともに、対訳表現として対応語リスト32に格納する。ここで、獲得表現は、前記対訳表現に等しい。
【0046】
類似度を計算するための計算方法としては、例えば、共起パターン間のユークリッド距離を求める方法、cosine measureを求める方法などが考えられるが、ここでは、前記「高」、「中」、「低」などの共起頻度の段階が一致する対応語の数を計数することによって作成するものとする。
【0047】
例えば、図7(A)および(D)の例では、6つの対応語のうち「技術」(technology)を除く5つの対応語の共起頻度の段階が一致しているため、「打者」の共起パターンと「batter」の共起パターンの類似度は、5となる。
【0048】
なお、共起頻度の段階は、共起の強さを示すものである。必要に応じて統計的な処理を行うことにより、コーパス31中における共起の頻度が高いとされたものほど、段階が前記「高」に近づくことになる。
【0049】
また、当該しきい値TH1は様々な値に設定することが可能であるが、図6に示したように、対訳表現の数が6程度ならば、4または3程度に設定するものであってよい。
【0050】
以下、上記のような構成を有する本実施形態の動作について、図2〜図4のフローチャートを参照しながら説明する。
【0051】
図2のフローチャートは全体的な処理の流れを示すもので、S21〜S27の各ステップを備えている。
【0052】
これに対し図3のフローチャートは共起パターン抽出部21の処理の流れを示すもので、S31〜S36の各ステップを備えている。同様に、図4のフローチャートは類似度判定部22の処理の流れを示すフローチャートで、S41〜S45の各ステップを備えている。
【0053】
(A−2)第1の実施形態の動作
図2において、前記候補語リスト33内の第1言語候補語リスト33Aと第2言語候補語リスト33Bに各言語の候補語が格納され、格納された各候補語につき、前記共起パターン抽出部21が共起パターンの抽出を行う(S21,S22)。
【0054】
次に、前記類似度判定部22が前記共起頻度の段階が一致する対応語の数を計数することにより、類似度が所定のしきい値TH1を越えた候補語の対の有無を検査する(S23,S24)。当該ステップS23の処理は、候補語リスト33中に残っているすべての候補語の可能な組み合わせ(対)に関して処理を終えるまで繰り返される。ステップS24の検査の結果、類似度がしきい値TH1を越えた候補語の対がなければ、ステップS24はno側に分岐して処理を終える。このケースでは、第1言語コーパス31A、第2言語コーパス31Bを変更するか、対応語リスト32の前記初期状態を変更しない限り、求める候補語の対(すなわち、対訳表現)は得られない。
【0055】
一方、ステップS24がyes側に分岐したときには、その候補語の対を、前記獲得表現として獲得表現リスト34に格納するとともに、前記対訳表現として対応語リスト32に格納する(S25,S26)。獲得表現リスト34や対応語リスト32に格納した候補語の対に関してはこれによって処理が終了したため、前記候補語リスト33から削除する。
【0056】
例えば、図7(A)〜(D)の例の場合、候補語「打者」と「batter」の対では計数結果は5であるのに対し、候補語「打者」と「pitcher」の対では計数結果は1である。また、候補語「投手」と「batter」の対では計数結果は1であるのに対し、候補語「投手」と「pitcher」の対では計数結果は4である。
【0057】
したがって、この場合、前記しきい値TH1が3であるとするなら、候補語「打者」と「batter」の対と、候補語「投手」と「pitcher」の対に関して、ステップS24がyes側に分岐することになる。
【0058】
このため、対応語リスト32に対して行われるステップS26による対訳表現の格納では、一度に、2つ(2対)の対訳表現、すなわち「打者」と「batter」の対である対訳表現と、「投手」と「pitcher」の対である対訳表現の2つが格納され得る。一度に格納される対訳表現の数は、コーパス31の内容や対応語リスト32の内容に応じて変動し、1つの対訳表現しか格納されないこともあり得るが、多くのケースでは、この例のように複数の対訳表現が格納されることになる。
【0059】
このようにして対訳表現が登録されるたびに対応語リスト32中の対訳表現は増加するため、同じ内容のコーパス31に対する処理であっても、ステップS21〜S24の処理内容の詳細は、ステップS21〜S27によって構成されるループを繰り返すたびに変化し、より適切な対訳表現を、抽出することが可能になる。
【0060】
これにより、登録された対訳表現の数が少ないときの処理では計算された類似度が小さいために獲得できなかった候補語の対も、対応語リスト32中の対訳表現の数が増加したあとの処理では、対訳表現として獲得できる可能性が高まる。
【0061】
例えば、対応語リスト32の初期状態が図6に示すものであったとしても、前記ステップS26で対訳表現(「打者」と、「batter」の対)が格納されたあとでは、図9に示す状態となり、図9の状態の対応語リスト32を用いてステップS21〜S24の処理が実行されることになる。このように、図6の状態から図9の状態に変化する場合、図6の下端部(「経済」と「economy」の対)の位置が、上述した単リストの先頭部分に相当する構成とするのが望ましい。
【0062】
なお、対応語リスト32中の対訳表現の数が増加すれば、それに合わせて、前記しきい値TH1も大きくすることが望ましい。例えば、対応語リスト32に登録された対訳表現の数が数百にも達しているのに、しきい値TH1が3のままであるとすると、本来、登録すべきではない候補語の対を対訳表現として登録してしまう可能性が高くなるからである。
【0063】
一方、共起パターン抽出部21の動作を示す図3のフローチャートは、図2のフローチャートとの関係では、図2中の前記ステップS21またはS22の詳細を示したものとみることもできる。
【0064】
図3において、当該共起パターン抽出部21は、候補語リスト33からの候補語の読み込み(S31)と、対応語リスト32からの対訳表現の読み込み(S32)を行い、前記共起の関係にある対応語と候補語を抽出する(S33)。このステップS32およびS33の処理は未処理の対応語がなくなるまで繰り返される(S34のyes側の分岐)。したがって、ステップS32〜S34のループは、前記対応語リスト32が図6に示す初期状態にあるときには6回、図9に示す状態にあるときには7回、各候補語に対して繰り返されることになる。この繰り返しの回数は、対応語リスト32に含まれる対訳表現の数の増大に応じて増大することは当然である。
【0065】
ある候補語に対して全対応語との共起の有無が検査されると、ステップS34はno側に分岐し、前記共起パターン抽出部21が当該候補語につき前記共起パターン(実数ベクトル)を抽出する(S35)。抽出した共起パターンは、処理装置2内の前記メモリに格納しておくとよい。
【0066】
前記ステップS31〜S35の処理は、すべての候補語に対する処理が終わるまで繰り返され(ステップS36のyes側の分岐)、すべての候補語に対する処理が終わると、図3のフローチャートが終了する。
【0067】
なお、図3のフローチャートでは、最初に外側のループで候補語を1つ選定し、内側のループでは、選定したその候補語と組み合わせる対応語を次々と変化させ、最終的には候補語と対応語のすべての組み合わせにつき、共起頻度を得て、共起パターンを抽出しているが、内側のループと外側のループを入れ替え、最初に対応語を1つ選定するようにしてもよいことは当然である。
【0068】
次に、図4のフローチャートを用いて類似度判定部22の動作を説明する。図4のフローチャートは類似度判定部22の動作を示したものであるが、図2のフローチャートとの関係では図2中の前記ステップS23等の詳細を示したものとみることもできる。
【0069】
第1言語の候補語と第2言語の候補語に対して図3のフローチャートの処理が実行されたことによって、すでに各候補語に対する共起パターンの抽出は完了しているため、図4のステップS41とS42では、それらの共起パターンを読み込むことができる。最初にステップS41で第1言語の候補語を読み、次にステップS42で第2言語の候補語を読み、第1言語の候補語に対する第2言語の候補語の組み合わせ(候補語の対)を変化させる。つづくステップS43では、上述したように、各候補語の対に関し、共起頻度の段階が一致する対応語の数を計数することによって類似度を計算する。
【0070】
なお、図4のフローチャートでは、最初に外側のループで第1言語の候補語を1つ選定し、内側のループでは、選定したその第1言語の候補語と組み合わせる第2言語の候補語を次々と変化させ、最終的には第1、第2言語間におけるすべての候補語の組み合わせにつき、類似度の計算を行っているが、内側のループと外側のループを入れ替え、最初に第2言語の候補語を1つ選定するようにしてもよいことは当然である。
【0071】
(A−3)第1の実施形態の効果
本実施形態によれば、文対応がついていなくても、同じ分野に属する第1言語コーパス(31A)と第2言語コーパス(31B)を用意することにより、自動的に対訳表現を獲得することができる。
【0072】
また、本実施形態では、獲得された対訳表現を登録して対訳表現の数が増加した対応語リスト(32)を用いて、同じコーパス(31A、31B)からさらなる対訳表現の獲得を行うことが可能である。
【0073】
登録された対訳表現の数が少ないときの処理では計算された類似度が小さいために獲得できなかった候補語の対も、対応語リスト(32)中の対訳表現の数が増加したあとの処理では対訳表現として獲得できる可能性が高まるから、対訳表現の抽出効率が向上する。
【0074】
(B)第2の実施形態
以下では、本実施形態が第1の実施形態と相違する点についてのみ説明する。
【0075】
第1の実施形態では、対応語リスト32に含まれる全ての単語(対応語)に関する共起頻度を同等に評価しているため、出現頻度が共起頻度に直接影響する。このため、コーパス(31Aまたは31B)における単語の出現頻度に偏りがある場合などには、類似度が低下する(係数結果が前記しきい値TH1以下となる)傾向があり、本来、抽出すべき対訳表現を抽出することができない可能性が高くなる。
【0076】
すなわち、第1の実施形態では、もし、対応語リスト32に、どんな単語とも共起しやすく、かつ、出現回数の多い第1言語の単語(例えば、図14の「技術」)が数多く含まれていた場合、第1言語の候補語はそれらの単語との共起頻度が高くなる。それに対して、対応語リストで対応する第2言語の単語が同様の性質を持っているとは限らず、共起パターンに違いが生じる。この結果、本来対応すべき第2言語の候補語との類似度が低下してしまう。
【0077】
第1の実施形態のように共起頻度を基準にする限り、その言語のコーパス(例えば、31A)上で多く出現する候補語は、対応語との共起頻度が高くなり、反対に、その言語のコーパス(例えば、31B)上であまり出現しない候補語は、対応語との共起頻度が低くなる傾向がある。結果的に、第1言語の単語と第2言語の共起パターンの、類似性の判断に誤りが生じる原因となる。
【0078】
そこで、本実施形態では上記問題点を解決するために、対応語りストに含まれる全ての単語を同等に評価するのではなく、共起パターンの類似性を分別するために有効な単語の評価を高くし、逆に、どんな単語とも共起するような分別に有効でない単語の評価を下げる構成とする。
【0079】
具体的には、対応語リスト(前記の対応語リスト32に相当)として、各対応語に、各言語(例えば、第1言語)における表現の弁別能力の高さに応じた重みを付与する。すなわち、共起パターンの類似性を分別するために有効な単語との共起頻度は、その共起頻度を高く評価するような重みを与え、逆に、どんな単語とも共起する分別には有効ではない単語との共起頻度は、その値が低くなるような重みを与える。このような重み付けを行なうことによって、出現回数の多い分別には有効ではない対応語リストの共起頻度の値の悪影響を退け、逆に、出現回数が少なくても分別に有効な対応語リストの共起頻度を正しく評価することができ、対訳表現抽出の精度向上につながる。
【0080】
(B−1)第2の実施形態の構成および動作
本実施形態にかかる対訳表現収集システム40の全体構成例を図11に示す。
【0081】
図11において、図1と同じ符号を付与した構成要素の機能は第1の実施形態と同じなので、その詳しい説明は省略する。
【0082】
本実施形態の処理装置2に関しては、学習部23が付加された点が、記憶装置3に関しては、対応語リスト35の内部構成が、第1の実施形態と相違する。
【0083】
このうち学習部23は、学習データと学習アルゴリズムからパラメータ(重み)を予測する処理を行なう部分である。具体的には、学習データとしてコーパス31と対応語リスト35を用いる。また、学習アルゴリズムとしては、決定木やSVM(support vector machine)、最大エントロピー法を用いることができる。学習アルゴリズムとしては、これ以外でも、後述するステップS134(図13参照)の処理を行う上で必要な機能を持つあらゆるアルゴリズムを用いることが可能である。
【0084】
学習データとしてコーパス31を用いるのは、同じ対応語であっても、分野ごと、コーパスごとに、弁別能力(重み)が異なるからである。したがって、本実施形態では、コーパス31の内容がかわると、重みも再学習する必要がある。
【0085】
弁別能力とは該当するコーパス内(例えば、第1言語コーパス31A内)で特定の単語を他の単語から有意に弁別する能力のことで、特定の単語とは共起するが、それ以外の単語とは共起しないような単語ほど高い弁別能力を有するといえる。逆に、どの単語とも共起しない対応語や、どの単語とも共起する対応語は弁別能力が低い。弁別能力は、対応語リスト35に登録されている対応語相互間の相対的な能力を指すから、ここで述べた単語とは、対応語(コーパス(例えば、31A)上に出現する対応語と同じ単語)のことである。
【0086】
前記対応語リスト35の内部構成は、例えば、図14に示すものであってよい。第1の実施形態の対応語リスト32との相違は、重み格納部を有する点である。
【0087】
図14は、対応語リスト35の初期状態を示す。このとき、重み格納部に格納されている重みの値はすべて、標準的な値を示す「1」である。図16は、前記学習部23が重みを学習し、学習結果に応じた重みの値を格納したあとの対応語リスト35の一例を示したものである。
【0088】
本実施形態の動作例を示すフローチャートは、図12と図13である。図12のフローチャートは、S121〜S128の各ステップから構成され、図13のフローチャートは、S131〜S135の各ステップから構成されている。このうち図12のフローチャートは、すでに説明した図2のフローチャートに対応し、図12との相違は、前記重みの学習を実行するためのステップS121が存在する点のみである。
【0089】
重みの学習に関する処理の詳細は、図13のフローチャートに示した通りである。
【0090】
図13において、まず、対応語リスト35から対応語を1つ取り出し(S131)、コーパス31と残りの対応語をもとに、学習データ(訓練データ)を作成する(S132)。例えば、図14に示すように、1言語につき6つの対応語が格納されている状態の対応語リスト35から、当該ステップS131で対応語として「ブルペン」を取り出したものとすると、学習データのもとになる残りの対応語は、図15(A)に示すように、「@」を付与した当該「ブルペン」を除く、5つとなる。図15(B)は、ステップS131で対応語「投球」を取り出したケースを示す。
【0091】
当該ステップS131,S132の処理を未処理の対応語がなくなるまで繰り返して学習データを作成し(S133のyes側の分岐)、未処理の対応語がなくなったら、ステップS133はno側に分岐して、作成した学習データに基づく重みの学習を実行する(S134)。そしてこの学習の結果に応じた重みを、対応語リスト35の重み格納部に格納する(S135)。
【0092】
この学習では、前記ステップS131で取り出した注目している各対応語(例えば、「ブルペン」)が、対応語リスト35中に登録されている他の対応語(例えば、「投球」や「ホームラン」など)と、コーパス31(ここでは、第1言語コーパス31A)上でどのように共起するかを検査する。
【0093】
具体的な重みの決定方法に依存するが、例えば、共起頻度の段階が「高」の数だけに基づいて重みの値を決定するなら、図15(B)に示す「投球」は「高」の数が1で、図15(A)の「ブルペン」は「高」の数が2であるから、「ブルペン」のほうに大きな値の重みを付与することになる。ただし図16の例では、共起頻度の段階が「中」の数などにも配慮した、もう少し複雑な決定方法を用いることで、「ブルペン」と「投球」に、同じ値(3)の重みを付与している。
【0094】
対応語リスト35中のすべての対応語に関し、該当する重み格納部に重みの値を格納して重みの付与が完了すると、図12に示すステップS122以降の処理が開始される。
【0095】
(B−2)第2の実施形態の効果
本実施形態によれば、第1の実施形態の効果と同等な効果を得ることができる。
【0096】
加えて、本実施形態では、対応語の重要度(弁別能力)に応じた重みを加味した類似度判定処理が行なえるので、コーパス(31Aまたは31B)における単語の出現頻度に偏りがある場合などでも、第1の実施形態よりも正確に、かつ、効率的に対訳表現を抽出することが可能である。
【0097】
(C)他の実施形態
上述したように、前記獲得表現リスト34は省略することができる。
【0098】
なお、上記第1および第2の実施形態では、候補語や対応語が単語である場合について説明したが、複数の単語からなる句やイディオムなどを、この単語に置き換えることが可能である。同様のことは、共起や弁別能力に関しても成立する。
【0099】
例えば、共起については、候補語と複数の対応語が一定の範囲に同時に出現する場合を共起とみなし、計数の対象にしてもかまわない。また、弁別能力の定義なども、句やイディオムに関して行うことが可能である。
【0100】
また、上記第1および第2の実施形態では、候補語や対応語、コーパスを基本的にそのまま利用したが、あらかじめ形態素解析処理を行なって単語の形状を正規化した上で処理を行なってもよい。また、共起の抽出についても、候補語と対応語の見出しの一致だけでなく、品詞や語形、意味情報のような属性値、構文解析の結果得られる係り受けの情報などを条件として、条件が一致した場合にのみ計数するようにしてもよい。
【0101】
さらに、上記第1および第2の実施形態にかかわらず、コーパス31や各種リスト32〜34は、ローカルの記憶装置3上に格納せず、ネットワークを介して参照する形態であってもよい。
【0102】
なお、上記第1および第2の実施形態では、類似度があらかじめ定めたしきい値TH1を超える候補語の対を対訳表現として獲得する場合について述べたが、候補語と類似度を出力し、対訳表現として獲得するか否かをユーザU1が直接指定できるようにしてもよい。
【0103】
以上の説明では主としてハードウエア的に本発明を実現したが、本発明はソフトウエア的に実現することも可能である。
【0104】
【発明の効果】
以上に説明したように、本発明によれば、対訳表現の抽出(追加的な登録)の効率を高めることが可能である。
【図面の簡単な説明】
【図1】第1の実施形態で使用する対訳表現収集システムの全体構成例を示す概略図である。
【図2】第1の実施形態の動作例を示すフローチャートである。
【図3】第1の実施形態の動作例を示すフローチャートである。
【図4】第1の実施形態の動作例を示すフローチャートである。
【図5】第1の実施形態の動作説明図である。
【図6】第1の実施形態の動作説明図である。
【図7】第1の実施形態の動作説明図である。
【図8】第1の実施形態の動作説明図である。
【図9】第1の実施形態の動作説明図である。
【図10】第1の実施形態の動作説明図である。
【図11】第2の実施形態で使用する対訳表現収集システムの全体構成例を示す概略図である。
【図12】第2の実施形態の動作例を示すフローチャートである。
【図13】第2の実施形態の動作例を示すフローチャートである。
【図14】第2の実施形態の動作説明図である。
【図15】第2の実施形態の動作説明図である。
【図16】第2の実施形態の動作説明図である。
【符号の説明】
1…入出力装置、2…処理装置、3…記憶装置、10,40…対訳表現収集システム、11…入力部、12…出力部、21…共起パターン抽出部、22…類似度判定部、23…学習部、31…コーパス、31A…第1言語コーパス、31B…第2言語コーパス、32…対応語リスト、33…候補語リスト、33A…第1言語候補語リスト、33B…第2言語候補語リスト、34…獲得表現リスト、35…対応語リスト。

Claims (9)

  1. 第1言語および第2言語のコーパスを格納したコーパス格納部と、
    予め対応関係の確認されている第1言語の語句と第2言語の語句を対応付け、対訳表現として登録した対訳表現格納部と、
    前記第1言語のコーパスから抽出した語句である第1候補語句と、前記対訳表現格納部に登録されている第1言語の1または複数の語句との共起状況と、前記第2言語のコーパスから抽出した語句である第2候補語句と、前記対訳表現格納部に登録されている第2言語の1または複数の語句との共起状況を比較して各共起状況の類似性の高さを示す類似度を演算する類似度演算部と、
    当該類似度演算部が演算結果として得た類似度が所定のしきい値以上に高い関係にある第1候補語句と第2候補語句を対応付け、新たな対訳表現として前記対訳表現格納部に追加的に登録する追加登録部とを備え、
    この追加的な登録を行ったあとの対訳表現格納部をもとに、前記類似度演算部と、前記追加登録部を動作させ、新たな対訳表現の追加的な登録を行うことを特徴とする対訳表現抽出装置。
  2. 請求項1の対訳表現抽出装置において、
    前記対訳表現格納部では、前記第1言語の語句と、前記第2言語の語句のそれぞれに、弁別能力の高さに応じた重み情報を付与しておき、
    前記類似度演算部は、当該重み情報をもとに、前記類似度の演算を行うことを特徴とする対訳表現抽出装置。
  3. 請求項2の対訳表現抽出装置において、
    前記第1言語および第2言語のコーパスと、前記対訳語句格納部の内容とをもとに、所定の学習アルゴリズムに対応する学習処理を実行して、前記重み情報を学習する学習処理部を備えたことを特徴とする対訳表現抽出装置。
  4. 請求項3の対訳表現抽出装置において、
    前記対訳表現が対訳語句格納部に追加登録または削除されると、前記学習処理部が重み情報を学習し、学習結果に応じて、前記対訳語句格納部に登録されている重み情報の値を更新することを特徴とする対訳表現抽出装置。
  5. 第1言語および第2言語のコーパスをコーパス格納部に格納すると共に、予め対応関係の確認されている第1言語の語句と第2言語の語句を対応付け、対訳表現として対訳表現格納部に登録しておき、
    類似度演算部が、前記第1言語のコーパスから抽出した語句である第1候補語句と、前記対訳表現格納部に登録されている第1言語の1または複数の語句との共起状況と、前記第2言語のコーパスから抽出した語句である第2候補語句と、前記対訳表現格納部に登録されている第2言語の1または複数の語句との共起状況を比較して各共起状況の類似性の高さを示す類似度を演算し、
    追加登録部が、当該類似度演算部が演算結果として得た類似度が所定のしきい値以上に高い関係にある第1候補語句と第2候補語句を対応付け、新たな対訳表現として前記対訳表現格納部に追加的に登録し、
    この追加的な登録を行ったあとの対訳表現格納部をもとに、前記類似度演算部と、前記追加登録部を動作させ、新たな対訳表現の追加的な登録を行うことを特徴とする対訳表現抽出方法。
  6. 請求項5の対訳表現抽出方法において、
    前記対訳表現格納部では、前記第1言語の語句と、前記第2言語の語句のそれぞれに、弁別能力の高さに応じた重み情報を付与しておき、
    前記類似度演算部は、当該重み情報をもとに、前記類似度の演算を行うことを特徴とする対訳表現抽出方法。
  7. 請求項6の対訳表現抽出方法において、
    学習処理部が、前記第1言語および第2言語のコーパスと、前記対訳語句格納部の内容とをもとに、所定の学習アルゴリズムに対応する学習処理を実行して、前記重み情報を学習することを特徴とする対訳表現抽出方法。
  8. 請求項7の対訳表現抽出方法において、
    前記対訳表現が対訳語句格納部に追加登録または削除されると、前記学習処理部が重み情報を学習し、学習結果に応じて、前記対訳語句格納部に登録されている重み情報の値を更新することを特徴とする対訳表現抽出方法。
  9. コンピュータに、第1言語および第2言語のコーパスを格納したコーパス格納機能と、
    予め対応関係の確認されている第1言語の語句と第2言語の語句を対応付け、対訳表現として登録する対訳表現格納機能と、
    前記第1言語のコーパスから抽出した語句である第1候補語句と、前記対訳表現格納機能によって登録されている第1言語の1または複数の語句との共起状況と、前記第2言語のコーパスから抽出した語句である第2候補語句と、前記対訳表現格納機能によって登録されている第2言語の1または複数の語句との共起状況を比較して各共起状況の類似性の高さを示す類似度を演算する類似度演算機能と、
    当該類似度演算機能が演算結果として得た類似度が所定のしきい値以上に高い関係にある第1候補語句と第2候補語句を対応付け、新たな対訳表現として前記対訳表現格納機能に追加的に登録させる追加登録機能とを実現させ、
    この追加的な登録を行ったあとの対訳表現格納機能をもとに、前記類似度演算機能と、前記追加登録機能を動作させ、新たな対訳表現の追加的な登録を行うことを特徴とする対訳表現抽出プログラム。
JP2003150770A 2003-05-28 2003-05-28 対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラム Expired - Fee Related JP3765801B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003150770A JP3765801B2 (ja) 2003-05-28 2003-05-28 対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラム
US10/849,788 US20050010390A1 (en) 2003-05-28 2004-05-21 Translated expression extraction apparatus, translated expression extraction method and translated expression extraction program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003150770A JP3765801B2 (ja) 2003-05-28 2003-05-28 対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラム

Publications (2)

Publication Number Publication Date
JP2004355224A true JP2004355224A (ja) 2004-12-16
JP3765801B2 JP3765801B2 (ja) 2006-04-12

Family

ID=33562161

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003150770A Expired - Fee Related JP3765801B2 (ja) 2003-05-28 2003-05-28 対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラム

Country Status (2)

Country Link
US (1) US20050010390A1 (ja)
JP (1) JP3765801B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009514076A (ja) * 2005-10-27 2009-04-02 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. テキスト表現の類似性を定量化するコンピュータを用いた自動類似度計算システム
CN107038158A (zh) * 2016-02-01 2017-08-11 松下知识产权经营株式会社 对译语料库制作方法、装置、程序以及机器翻译系统
WO2018066083A1 (ja) * 2016-10-04 2018-04-12 富士通株式会社 学習プログラム、情報処理装置および学習方法
CN110442877A (zh) * 2018-05-02 2019-11-12 国际商业机器公司 使用机器人规划作为平行语言语料库

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050111651A1 (en) * 2003-11-21 2005-05-26 Armando Chavez Script translation
US8037086B1 (en) * 2007-07-10 2011-10-11 Google Inc. Identifying common co-occurring elements in lists
US8407040B2 (en) * 2008-02-29 2013-03-26 Sharp Kabushiki Kaisha Information processing device, method and program
TWI370824B (en) * 2008-09-10 2012-08-21 Univ Nat Chiao Tung The phpit and fabrication thereof
US8572071B2 (en) * 2008-12-19 2013-10-29 Rutgers, The State University Of New Jersey Systems and methods for data transformation using higher order learning
US8972260B2 (en) * 2011-04-20 2015-03-03 Robert Bosch Gmbh Speech recognition using multiple language models
US10158898B2 (en) 2012-07-26 2018-12-18 Comcast Cable Communications, Llc Customized options for consumption of content
WO2017160746A1 (en) * 2016-03-14 2017-09-21 Yakyapp Corporation Devices, systems, and methods for selectively providing contextual language translation

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4916614A (en) * 1986-11-25 1990-04-10 Hitachi, Ltd. Sentence translator using a thesaurus and a concept-organized co- occurrence dictionary to select from a plurality of equivalent target words
JPH0689302A (ja) * 1992-09-08 1994-03-29 Hitachi Ltd 辞書メモリ
JP3015223B2 (ja) * 1993-05-14 2000-03-06 シャープ株式会社 特殊共起を処理する電子化辞書装置、及び機械翻訳装置、並びに情報検索装置
EP0645757B1 (en) * 1993-09-23 2000-04-05 Xerox Corporation Semantic co-occurrence filtering for speech recognition and signal transcription applications
JP2817776B2 (ja) * 1995-05-25 1998-10-30 日本電気株式会社 単語変換装置
JPH09128396A (ja) * 1995-11-06 1997-05-16 Hitachi Ltd 対訳辞書作成方法
EP0968475B1 (en) * 1997-05-28 2001-12-19 Shinar Linguistic Technologies Inc. Translation system
US7054803B2 (en) * 2000-12-19 2006-05-30 Xerox Corporation Extracting sentence translations from translated documents
JP3969628B2 (ja) * 2001-03-19 2007-09-05 富士通株式会社 翻訳支援装置、方法及び翻訳支援プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009514076A (ja) * 2005-10-27 2009-04-02 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. テキスト表現の類似性を定量化するコンピュータを用いた自動類似度計算システム
CN107038158A (zh) * 2016-02-01 2017-08-11 松下知识产权经营株式会社 对译语料库制作方法、装置、程序以及机器翻译系统
CN107038158B (zh) * 2016-02-01 2021-12-03 松下知识产权经营株式会社 对译语料库制作方法、装置、记录介质以及机器翻译系统
WO2018066083A1 (ja) * 2016-10-04 2018-04-12 富士通株式会社 学習プログラム、情報処理装置および学習方法
US11176327B2 (en) 2016-10-04 2021-11-16 Fujitsu Limited Information processing device, learning method, and storage medium
CN110442877A (zh) * 2018-05-02 2019-11-12 国际商业机器公司 使用机器人规划作为平行语言语料库

Also Published As

Publication number Publication date
JP3765801B2 (ja) 2006-04-12
US20050010390A1 (en) 2005-01-13

Similar Documents

Publication Publication Date Title
Van Strien et al. Assessing the impact of OCR quality on downstream NLP tasks
JP5356197B2 (ja) 単語意味関係抽出装置
US8548791B2 (en) Validation of the consistency of automatic terminology translation
KR101715432B1 (ko) 단어쌍취득장치, 단어쌍취득방법 및 기록 매체
Matci et al. Address standardization using the natural language process for improving geocoding results
US20050021323A1 (en) Method and apparatus for identifying translations
CN109460552B (zh) 基于规则和语料库的汉语语病自动检测方法及设备
JP2013502643A (ja) 構造化データ翻訳装置、システム及び方法
El-Shishtawy et al. An accurate arabic root-based lemmatizer for information retrieval purposes
JP2011118689A (ja) 検索方法及びシステム
JP3765801B2 (ja) 対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラム
Zhao et al. Appraisal expression recognition with syntactic path for sentence sentiment classification
Scheible Sentiment translation through lexicon induction
JP2009110508A (ja) オブジェクト間の競合指標計算方法およびシステム
US8670974B2 (en) Acquisition of out-of-vocabulary translations by dynamically learning extraction rules
Wadud et al. Text coherence analysis based on misspelling oblivious word embeddings and deep neural network
Wong et al. iSentenizer‐μ: Multilingual Sentence Boundary Detection Model
JP2009217689A (ja) 情報処理装置、情報処理方法、及びプログラム
Garrido et al. GEO-NASS: A semantic tagging experience from geographical data on the media
Daðason Post-correction of Icelandic OCR text
Hakkani-Tur et al. Statistical sentence extraction for information distillation
CN116306594A (zh) 一种医学ocr识别纠错方法
Klang et al. Linking, searching, and visualizing entities in wikipedia
WO2015177861A1 (ja) 教師データ作成装置及び方法
JP2005326952A (ja) 概念辞書への単語登録方法、装置、およびプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051108

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060124

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090203

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100203

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110203

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110203

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120203

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130203

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140203

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees