JP3685660B2 - 対訳情報収集装置 - Google Patents

対訳情報収集装置 Download PDF

Info

Publication number
JP3685660B2
JP3685660B2 JP25867599A JP25867599A JP3685660B2 JP 3685660 B2 JP3685660 B2 JP 3685660B2 JP 25867599 A JP25867599 A JP 25867599A JP 25867599 A JP25867599 A JP 25867599A JP 3685660 B2 JP3685660 B2 JP 3685660B2
Authority
JP
Japan
Prior art keywords
page
bilingual
pair
candidate
pages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP25867599A
Other languages
English (en)
Other versions
JP2001084258A (ja
Inventor
秀樹 山本
稔樹 村田
篤司 池野
さより 下畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP25867599A priority Critical patent/JP3685660B2/ja
Publication of JP2001084258A publication Critical patent/JP2001084258A/ja
Application granted granted Critical
Publication of JP3685660B2 publication Critical patent/JP3685660B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ネットワークを介してWWW(World Wide Web)上のデータ中から同一内容を複数の言語で記述したページを対訳情報として収集する対訳情報収集装置に関する。
【0002】
【従来の技術】
WWW上には、同一内容を複数の言語で提供しているページが存在しているが、このような同一内容のページを異なる言語で記述したページ(以下、対訳ページと呼ぶ。)を探し出す技術として以下の文献に記載されるものがある。
【0003】
文献1「情報処理学会研究報告 自然言語処理128-18 1998.11.6 名称;World Wide Webからの対訳データの自動収集」
文献1には、WWW上から対訳データを収集するために、WWW上のテキスト情報の中から対訳候補ページを探し出し、さらに、対訳候補ページ同士を一文単位で対応付けることで対訳データを作成するシステムが記載されている。
【0004】
このシステムでは、対訳ページはそれぞれ同じドメイン内に存在することを利用して、WWW上のあるページに対して、そのページからリンクが存在するページを対訳候補ページとして収集し、その対訳候補ページが本当に対訳ページかどうかを詳細に調べる。
【0005】
すなわち、内容Aの日本語のページをAj、英語のページをAeとすると、Aj中にAeへのリンクの記述があり、かつ、Ae中にAjへのリンクの記述がある場合についてのみ、AjとAeが対訳ページである可能性があると判断して対訳候補ページとする。そして、対訳候補ページに対して本当に対訳ページであるかを一文単位の対応付けを行うことでより詳細に調べる。
【0006】
【発明が解決しようとする課題】
しかしながら、文献1に記載された従来技術では対訳候補ページの収集を、あるページから直接リンクが張られ、かつ、リンク先が同一ドメインであるページに限定しているため、あるページから直接リンクが張られていない場合は対訳ページを探し出すことができないという問題点があった。
【0007】
具体的には、リンクが張られている日本語のページAjと英語のページAeがあり、さらにAjからリンクが張られている日本語のページBjと、Aeからリンクが張られている英語のページBeがある場合において、BjとBeの中にお互いに対するリンクが記載されていない場合は、たとえBjとBeが対訳ページであっても、BjとBeを対訳ページであると判断することができない。
【0008】
実際のインターネットにおいて複数の情報を記述する場合は、目次のページを記述して、その目次中の各項目に対応したページを複数のページ(HTML文書)によって表現することが多い。このように複数ページで示された情報を対訳で公開するきは、目次のページにだけ別言語へのリンクが張られることが一般的である。したがって、上記のように直接リンクが張られているページのみを対象としたシステムでは、直接リンクが張られていない各項目のページを対訳ページとして収集することができない。
【0009】
従来技術に記載されているシステムの拡張として、「あるページにリンクが張られているページだけでなく、さらにそのページからリンクの張られているページまでを対訳ページの候補対象として、対訳ページかどうかを調べる」とすることが容易に考えられる。しかしながら、このような単純な拡張では、対訳ページの候補対象の数は、従来技術のシステムの2乗になってしまい探索範囲の増大を招く。さらに、もう一段拡張すると対訳ページの候補対象の数は3乗になってしまう。
【0010】
このような点から、本発明はWWW上に今後さらに増大するであろう対訳ページをより効率的に収集することができる対訳情報収集装置を提供することを目的とする。
【0011】
【課題を解決するための手段】
係る課題を解決するため、本発明の第1の発明は、同一内容の文書を異なる言語で記述した対訳ページを収集する検索開始点を入力する検索始点入力手段と、検索開始点のページとこの検索開始点から距離1離れたページのペアを対訳ページ候補のペアとして生成する中心対訳ページ候補生成手段と、中心対訳ページ候補生成手段が生成した対訳ページ候補のペアを格納する中心対訳ページ候補蓄積手段と、中心対訳ページ候補蓄積手段に格納された対訳ページ候補のペアに対して対訳ページ度を数値化し、この数値と予め設定した閾値を比較してこの対訳ページ候補のペアが対訳ページであるかどうかを判断する中心対訳ページ決定手段と、中心対訳ページ決定手段が対訳ページであると判断した対訳ページのペアを格納する中心対訳ページ蓄積手段と、中心対訳ページ蓄積手段に格納された対訳ページに対し、対訳ページのペアのうち一方の対訳ページからリンクをたどり距離1〜m離れたページと他方の対訳ページからリンクをたどり距離1〜m離れたページをすべて抽出し、この抽出の際に起点とした対訳ページからの距離が同一であるページで、かつ、該一方の対訳ページを利用して抽出されたページと該他方の対訳ページを利用して抽出されたページ同士をすべて組合せて対訳ページ候補のペアを生成する対訳ページ候補生成手段と、対訳ページ候補生成手段が生成した対訳ページ候補のペアを格納する対訳ページ候補蓄積手段と、対訳ページ候補蓄積手段に格納された対訳ページ候補のペアに対して対訳ページ度を数値化し、この数値と予め設定した閾値を比較してこの対訳ページ候補のペアが対訳ページであるかどうかを判断する対訳ページ決定手段と、対訳ページ決定手段が対訳ページであると判断した対訳ページのペアを格納する対訳ページ蓄積手段と、中心対訳ページ蓄積手段と対訳ページ蓄積手段に格納された対訳ページのペアを出力する対訳ページ出力手段とを有することを特徴とする。
【0014】
第2の発明は、対訳データに関するものであり、中心対訳ページ蓄積手段と対訳ページ蓄積手段に格納された対訳ページのペアに基づいて対訳データを生成する対訳データ生成手段と、対訳データ生成手段が生成した対訳データを格納する対訳データ格納手段と、対訳データ格納手段に格納された対訳データを出力する対訳データ出力手段を有することを特徴とする。
【0015】
第3の発明は、非対訳ページに関するものであり、対訳ページではないと判断した対訳ページ候補のペアを非対訳ページのペアとして蓄積する非対訳ページ蓄積手段をさらに有し、中心対訳ページ決定手段は、中心対訳ページ候補蓄積手段に格納された対訳ページ候補のペアが非対訳ページ蓄積手段に蓄積された非対訳ページのペアと一致する場合は、この対訳ページ候補のペアを非対訳ページであると判断し、対訳ページ決定手段は、対訳ページ候補蓄積手段に格納された対訳ページ候補のペアが非対訳ページ蓄積手段に蓄積された非対訳ページのペアと一致する場合は、この対訳ページ候補のペアを非対訳ページであると判断することを特徴とする。
【0016】
第4の発明は、非対訳ページに関するものであり、対訳ページではないと判断した対訳ページ候補のペアを非対訳ページのペアとして、この非対訳ページのペアのページ名称とページ内容を示す値を蓄積する非対訳ページ蓄積手段をさらに有し、中心対訳ページ決定手段は、中心対訳ページ候補蓄積手段に格納された対訳ページ候補のペアのページ名称が非対訳ページ蓄積手段に蓄積された非対訳ページのペアのページ名称と一致するかを判断し、一致する場合は対訳ページ候補のペアを非対訳ページであると決定し、一致しない場合は対訳ページ候補のペアのページ内容を示す値を求め、非対訳ページ蓄積手段に蓄積された非対訳ページのペアのページ内容を示す値と一致するかを再度判断し、一致する場合は対訳ページ候補のペアを非対訳ページであると決定し、対訳ページ決定手段は、対訳ページ候補蓄積手段に格納された対訳ページ候補のペアのページ名称が非対訳ページ蓄積手段に蓄積された非対訳ページのペアのページ名称と一致するかを判断し、一致する場合は対訳ページ候補のペアを非対訳ページであると決定し、一致しない場合は対訳ページ候補のペアのページ内容を示す値を求め、非対訳ページ蓄積手段に蓄積された非対訳ページのペアのページ内容を示す値と一致するかを再度判断し、一致する場合は対訳ページ候補のペアを非対訳ページであると決定することを特徴とする。
【0017】
【発明の実施の形態】
(本発明の特徴)
対訳ページとなるページのペアは、それぞれに直接リンクが張られているか、あるいは、そのペアを結ぶリンクの経路の中心に、直接リンクが張られた別の対訳ページのペアが存在することが多いという性質がある。
本発明はこの性質を利用することで、対訳ページ候補の探索範囲を狭めようとするものである。
【0018】
ここで、リンクの経路の中心を例を用いて説明する。
例えば、ページAとページDが直接リンクされていないが、ページAはページB、ページBはページC、ページCはページDとリンクが張られている場合において、ページAとページDのリンクの経路の中心とはページBとページCの間のリンクを指す。
【0019】
以下、本発明の実施形態に係る対訳情報収集装置について、図面を用いて詳細に説明する。
【0020】
(A)第1の実施形態の構成
図1は、本発明の対訳情報収集装置の第1の実施形態を示すブロック構成図であり、ワークステーションやパソコン等の情報処理装置上で実現されるものである。
【0021】
図1において、第1の実施形態の対訳情報収集装置は、探索始点入力手段11と、対訳ページ候補生成手段12と、対訳ページ候補蓄積手段13と、対訳ページ決定手段14と、対訳ページ蓄積手段15と、対訳ページ出力手段16を有する。
【0022】
探索始点入力手段11は、対訳ページの探索を開始する始点(ページ)を入力するものであり、例えばキーボード等から構成される。探索開始点は、URL(Uniform Resource Locator)等で示すことができる。
【0023】
対訳ページ候補生成手段12は、探索始点入力手段11から入力された探索開始点から距離nでたどることができる対訳ページ候補のペアを生成するものである。
【0024】
ここで、ページ間の距離について説明する。例えば、ある2つのページの距離が1であるとは、少なくとも一方のページからもう一方のページに直接リンクが張られていることを意味する。「ページA、ページB、ページC」の3つのページがあり、「ページAとページB」が距離1、「ページBとページC」が距離1で直接リンクが張られていて、「ページAとページC」が直接リンクが張られていない場合は、「ページAとページC」との距離は2である。2つのページが2つ以上の経路でリンクが張られている場合は、最小の距離をその2つのページの距離とする。
【0025】
具体的に、対訳ページ候補生成手段12が生成する距離1の対訳ページ候補のペアは、探索開始点から距離1のページと探索開始点とのペアである。距離3の対訳ページ候補のペアは、探索開始点から距離1のページで、かつ、対訳ページではないページと、探索開始点の対訳ページから距離1のページで、かつ、探索開始点でないページとの組み合わせである。
【0026】
距離3の対訳ページ候補のペアとなるページを図2を用いて説明する。図2はWWWデータのリンク例であり、「ページAはページB、ページC、ページD」と直接リンクが張られており、それぞれ距離1である。さらに、「ページDはページE、ページF、ページA」と直接リンクが張られており、それぞれ距離1である。
【0027】
ここで、「ページAとページD」は対訳ページであり、探索開始点をページAとする。距離3の対訳ページ候補のペアは、探索開始点のページAから距離1であり、かつ、対訳ページではない「ページB、ページC」と、対訳であるページDから距離1であり、かつ、探索開始点ではない「ページE、ページF」との組み合わせである「ページBとページE」「ページBとページF」「ページCとページE」「ページCとページF」となる。
【0028】
対訳ページ候補蓄積手段13は、対訳ページ候補生成手段12が生成した対訳ページ候補のペアを格納するものであり、ページ名称のペアからなる。対訳ページ候補蓄積手段13は、対訳ページのペアから対訳ページ候補を探索する距離mに応じて複数の対訳ページ候補蓄積手段を有する。例えば、対訳ページのペアから距離2までを対訳ページの探索範囲とした場合は、対訳ページ候補蓄積手段13は、ペア間の距離が距離1、距離3、距離5の対訳ページ候補蓄積手段を有する。
【0029】
ここで、ペア間の距離zは、z=2×m+1(m:対訳ページからの距離)で求めることができ、対訳ページ候補はペア間の距離に対応した対訳ページ候補蓄積手段13に蓄積する。
【0030】
ここでは、距離1対訳ページ候補蓄積手段131と距離3対訳ページ候補蓄積手段132を有するものとする。
【0031】
距離1対訳ページ候補蓄積手段131は、対訳ページ候補生成手段12が生成した探索開始点から距離1で到達することができるページを距離1の対訳ページ候補として蓄積するものである。
【0032】
距離3対訳ページ候補蓄積手段132は、距離1の対訳ページのペアに基づいて対訳ページ候補生成手段12が生成した距離3の対訳ページ候補を蓄積するものである。
【0033】
対訳ページ決定手段14は、対訳ページ候補蓄積手段13に格納された対訳ページ候補のペアが対訳ページかどうかを決定するものである。対訳ページかどうかの判断は、従来技術を用いることができる。
【0034】
例えば、文献1の従来技術を用いた場合は、2つのページの文対応付けを行い対訳ページらしさを数値化する。その後、あらかじめ設定した適当な閾値を用いて、その閾値よりも対訳ページらしさが高いページについては対訳ページと判断する。さらに、対訳ページ決定手段14で行った2つのページ文対応付け結果を記憶手段(図示せず)に格納する。
【0035】
対訳ページ蓄積手段15は、対訳ページ決定手段14が対訳ページと決定した対訳ページのペアを蓄積するものであり、ページ名称のペアからなる。対訳ページ候補蓄積手段13と同様に、対訳ページのペアから対訳ページ候補を探索する距離mに応じて複数の対訳ページ蓄積手段を有し、対訳ページ候補蓄積手段13が有する各候補蓄積手段と対応している。
【0036】
ここでは、距離1対訳ページ蓄積手段151と距離3対訳ページ蓄積手段152を有する。距離1対訳ページ蓄積手段151と距離3対訳ページ蓄積手段152は、それぞれ距離1対訳ページ候補蓄積手段131と距離3対訳ページ候補蓄積手段132に対応している。
【0037】
距離1対訳ページ蓄積手段151は、距離1対訳ページ候補蓄積手段131に蓄積された距離1の対訳ページ候補の中から、対訳ページ決定手段14によって対訳ページと決定した対訳ページのペアを蓄積する。
【0038】
距離3対訳ページ蓄積手段152は、距離3対訳ページ候補蓄積手段132に蓄積された距離3の対訳ページ候補の中から、対訳ページ決定手段14によって対訳ページと決定した対訳ページのペアを蓄積する。
【0039】
対訳ページ出力手段16は、対訳ページ蓄積手段15に蓄積された対訳ページのペアを出力するものである。ここでは、距離1対訳ページ蓄積手段151と距離3対訳ページ蓄積手段152に蓄積された対訳ページのペアを出力する。
【0040】
(A−1)第1の実施形態の動作
図3は、本発明の対訳情報収集装置の第1実施形態の動作を示すフローチャートである。
【0041】
ここで、対訳ページのペアから対訳ページ候補を探索する最大距離をMとする。また、探索する最大距離Mはあらかじめ設定するものとする。
【0042】
まず、探索始点入力手段11から探索開始点を入力する(ステップ11)。
【0043】
対訳ページ候補生成手段12が、探索開始点から距離1のページを抽出し、探索開始点のページとペアにしたのち、距離1の対訳ページ候補として距離1対訳ページ候補蓄積手段131に格納する(ステップ12)。
【0044】
次に、対訳ページ決定手段14が、ステップ12で距離1対訳ページ候補蓄積手段131に蓄積された距離1の対訳ページ候補のペアが、本当に対訳ページであるかどうかを判断する(ステップ13)。ステップ13で対訳ページであると判断した距離1の対訳ページのペアを、距離1対訳ページ蓄積手段151に蓄積する(ステップ14)。
【0045】
次に、距離1対訳ページ蓄積手段151に距離1の対訳ページが存在するかどうかを判断し、距離1の対訳ページが存在する場合はステップ16へ進み、距離1の対訳ページが存在しない場合はステップ22へ進む(ステップ15)。
【0046】
距離1の対訳ページが存在すると判断されたステップ16では、対訳ページからの距離を示す変数mを初期値1に設定する(ステップ16)。
【0047】
次に、対訳ページ候補生成手段12は、距離1対訳ページ蓄積手段151に蓄積された距離1の対訳ページのペアに基づいて対訳ページの候補を生成する。まず、ペアの片方のページから距離m離れたページで、かつ、途中または終点に距離1の対訳ページのもう片方のペアを含まないページを、それぞれのペアから抽出する。次に、距離1の対訳ページのそれぞれのペアから抽出したページを組み合わせて距離z(z=2×m+1)の対訳ページ候補を生成し、距離zの対訳ページ候補蓄積手段に格納する(ステップ17)。
【0048】
次に、対訳ページ決定手段14が、ステップ17で距離zの対訳ページ候補蓄積手段に格納された距離zの対訳ページ候補のペアが、本当に対訳であるかどうかを判断する(ステップ18)。ステップ18で対訳ページであると判断した距離zの対訳ページのペアを、距離zの対訳ページ蓄積手段に格納する(ステップ19)。
【0049】
次に、対訳ページのペアからの距離を示す変数mが探索する最大距離Mより小さいかを調べる。mがMより小さい場合は、ステップ21に進み、mがM以上の場合はステップ22に進む(ステップ20)。
【0050】
ステップ21ではmを1増分したのちステップ17に進む(ステップ21)。ステップ22では、対訳ページ出力手段16が対訳ページ蓄積手段15に蓄積された対訳ぺージのペアを出力し、処理を終了する(ステップ22)。
【0051】
次に、図2に示すWWWデータのリンク例を用いて、具体的に処理の流れを説明する。
【0052】
ここでは、対訳ページのペアから対訳ページ候補を探索する最大距離Mを2とする。したがって、対訳ページ候補蓄積手段13は、距離1と距離3と距離5の対訳ページ候補蓄積手段を有し、対訳ページ蓄積手段15は、距離1と距離3と距離5の対訳ページ蓄積手段を有するものとする。
【0053】
まず、探索開始点のURLを入力する。図2のページAを探索開始点とし、ページAのURL(http://www.sample.aa/index/html)を入力する(ステップ11)。
【0054】
次に、探索開始点のページAから距離1のページである「ページB、ページC、ページD」を抽出し、それぞれ探索開始点のページAとペアにして距離1対訳ページ候補蓄積手段131に格納する。図4に、距離1対訳ページ候補蓄積手段131に格納された距離1対訳ページ候補を示す(ステップ12)。
【0055】
次に、距離1対訳ページ候補蓄積手段131に格納された「ページAとページB、ページAとページC、ページAとページD」が対訳ページであるかを判断する。ここでは、「ページAとページD」のペアが対訳ページと判断され、距離1の対訳ページとして距離1対訳ページ蓄積手段151に格納する(ステップ13、14)。
【0056】
ステップ15は、距離1対訳ページ蓄積手段151に距離1の対訳ページが存在するかどうかを判断する。ここでは、「ページAとページD」のペアが存在するため、ステップ16に進み、変数mを初期値1に設定する(ステップ15、16)。
【0057】
次に、距離1対訳ページ蓄積手段151に蓄積された距離1の対訳ページ「ページAとページD」のペアに基づいて対訳ページの候補を生成する。まず、「ページA」から距離m=1離れたページで、かつ、途中または終点に距離1の対訳ページのペア「ページD」を含まないページ「ページB、ページC」と、「ページD」から距離m=1離れたページで、かつ、途中または終点に距離1の対訳ページのペア「ページA」を含まないページ「ページE、ページF」を抽出する。
【0058】
抽出した各ページを組み合わせた「ページBとページE、ページBとページF、ページCとページE、ページCとページF」を距離3対訳ページ候補として、距離3対訳ページ候補蓄積手段132に格納する。図5に、距離3対訳ページ候補蓄積手段132に格納された距離3対訳ページ候補を示す(ステップ17)。
【0059】
次に、距離3対訳ページ候補蓄積手段132に格納された「ページBとページE、ページBとページF、ページCとページE、ページCとページF」が対訳ページであるかを判断する。ここでは、「ページBとページE、ページCとページF」のペアが対訳ページと判断され、距離3の対訳ページとして距離3対訳ページ蓄積手段151に格納する(ステップ18、19)。
【0060】
次に、変数m=1と探索する最大距離M=2を比較する。M>mのため、ステップ21に進みmを1増分したのち、ステップ17に処理を進める(ステップ20、21)。
【0061】
ステップ17は、距離1の対訳ページ「ページAとページD」のそれぞれから距離m=2離れたページを抽出するが、図2のデータは距離m=2離れたページを有していない。したがって、ステップ18、19と処理をせずに進み、ステップ20でm=2と探索する最大距離M=2を比較する。ここでは、M>mであるためステップ22に進む(ステップ20)。
【0062】
ステップ22では、距離1対訳ページ蓄積手段151に格納された「ページAとページD」と、距離3対訳ページ蓄積手段152に格納された「ページBとページE、ページCとページF」が出力される。図6に、出力される対訳ページを示す(ステップ22)。
【0063】
(B)第2の実施形態の構成
図7は、本発明の対訳情報収集装置の第2の実施形態を示すブロック構成図である。第2の実施形態において第1の実施形態を示すブロックには同一の番号を付与し、第2の実施形態において第1の実施形態と異なるブロックについてのみ詳細に説明する。
【0064】
図7において、第1の実施形態と異なる構成は、対訳データ生成手段21と、対訳データ蓄積手段22と、対訳データ出力手段23である。
【0065】
対訳データ生成手段21は、対訳ページ決定手段14で対訳ページと判断された対訳ページのペアに対し、対訳ページを決定する際に作成した文対応結果を利用し、一文単位の対応付けを行ない対訳データを生成するものである。
【0066】
対応付けを行った一文対が同一言語にもかかわらず異なる単語によって記述されている場合や、他の文対とは異なる言語で記述されている場合は、対訳データとして生成しない。対応付けを行った一文対が同一言語で記述されている例としては、図2のページAとページDにおける「English」と「Japanese」のような対訳ページ間のリンクを示す場合がある。一文対が他の文対とは異なる言語で記述されている例としては、図2のページDの「Japanese」が「日本語」となっている場合がある。
【0067】
対訳データ生成手段21は上記の例の場合、「English」と「Japanese」という対訳データや、「English」と「日本語」という対訳データを生成しない。対訳データの生成方法は、例えば文献1に記載された方法を用いることができる。
【0068】
対訳データ蓄積手段22は、対訳データ生成手段21が対訳ページと判断した対訳ページのペアについて生成した対訳データを格納するものである。対訳ページ候補蓄積手段13と同様に、対訳ページのペアから対訳ページ候補を探索する距離mに応じて複数の対訳データ蓄積手段を有し、対訳ページ候補蓄積手段13が有する各候補蓄積手段と対応している。
【0069】
ここでは、距離1対訳データ蓄積手段221と距離3対訳データ蓄積手段222を有する。距離1対訳データ蓄積手段221と距離3対訳データ蓄積手段222は、それぞれ距離1対訳ページ候補蓄積手段131と距離3対訳ページ候補蓄積手段132に対応している。
【0070】
距離1対訳データ蓄積手段221は、距離1対訳ページ蓄積手段151に蓄積されている対訳ページ決定手段14によって対訳ページと決定した対訳ページのペアについて対訳データ生成手段21が生成した対訳データを蓄積する。
【0071】
距離3対訳データ蓄積手段222は、距離3対訳ページ候補蓄積手段132に蓄積された距離3の対訳ページ候補の中から、対訳ページ決定手段14によって対訳ページと決定したページのペアについて対訳データ生成手段21が生成した対訳データを蓄積する。
【0072】
対訳データ出力手段23は、対訳データ蓄積手段22に蓄積された対訳データを出力するものである。ここでは、距離1対訳データ蓄積手段221と距離3対訳データ蓄積手段222に蓄積された対訳ページを出力する。
【0073】
(B−1)第2の実施形態の動作
図8は、本発明の対訳情報収集装置の第2実施形態の動作を示すフローチャートである。第1の実施形態の動作を示す図3のフローチャートと同様のステップには同一の番号を付与し、第2の実施形態において、第1の実施形態と異なる対訳データ生成手段21に係るステップ23、25と、対訳データ蓄積手段22に係る24、26について詳細に説明する。
【0074】
ステップ23では、対訳データ生成手段21が、距離1対訳ページ蓄積手段151に格納された対訳ページであると決定されたペアに対し、対訳ページを決定する際に作成した文対応結果を利用して対訳データを作成する(ステップ23)。
【0075】
ステップ24では、ステップ23で生成した距離1の対訳データを、距離1対訳データ蓄積手段221に格納する。図9に距離1対訳データ蓄積手段221に格納された対訳データを示す。図2のページAとページDに記載されている[English]と[Japanese]は同一言語で記述されているため対訳データとはしない(ステップ24)。
【0076】
ステップ25では、ステップ18で対訳ページであると判断した距離zの対訳ページのペアに対して対訳データを生成する(ステップ25)。
【0077】
ステップ26では、ステップ25で生成した距離zの対訳データを、距離zの対訳データ蓄積手段222に格納する(ステップ26)。
【0078】
次に、図2に示すWWWデータのリンク例を用いて、具体的に処理の流れを説明する。
【0079】
第1の実施形態に示す動作に基づくと、ステップ14において、距離1の対訳ページとして距離1対訳ページ蓄積手段151に格納されるのは「ページAとページD」である。
【0080】
したがって、ステップ23では、距離1対訳ページ蓄積手段151に格納された「ページAとページD」に対して対訳データを生成し、ステップ24では、ステップ23で生成した対訳データを距離1対訳データ蓄積手段221に格納する(ステップ23、24)。
【0081】
また、第1の実施形態に示す動作に基づくと、ステップ18において対訳ページであると判断されるのは「ページBとページE、ページCとページF」である。
【0082】
したがって、ステップ25では、ステップ18で対訳ページと判断した「ページBとページE、ページCとページF」に対して対訳データを生成し、ステップ26では、ステップ25で生成した対訳データを距離3対訳データ蓄積手段222に格納する(ステップ25、26)。
【0083】
(C)第3の実施形態の構成
図10は、本発明の対訳情報収集装置の第3の実施形態を示すブロック構成図である。第3の実施形態において第1の実施形態を示すブロックには同一の番号を付与し、第3の実施形態において第1の実施形態と異なるブロックについてのみ詳細に説明する。
【0084】
第3の実施形態は第1の実施形態を適用して、複数の探索開始点から対訳ページを見つけるといった応用を行う際に適するものである。
また、全く同じ内容のページが別のURLを有することもあるので、そのような場合にも対応可能である。
【0085】
図10において、第1の実施形態と異なる構成は、対訳ページ決定手段31と、非対訳ページ蓄積手段32である。
【0086】
対訳ページ決定手段31は、対訳ページ候補蓄積手段13に蓄積された対訳ページ候補のペアが、対訳ページであるかの判断をする最初の処理として、非対訳ページ蓄積手段32に、対訳ページ候補のペアと同じ名称のページが格納されているかどうかを調べる。非対訳ページ蓄積手段32に対訳ページ候補のペアと同じ名称のページが格納されている場合は、即座に非対訳ページである判断する。
【0087】
また、非対訳ページ蓄積手段32に対訳ページ候補のペアと同じ名称のページが格納されていない場合は、対訳ページ候補の内容が有するハッシュ値をそれぞれの対訳ページ候補に対して求める。ハッシュ値は一例として、インターネットで頻繁に使用されているMD5などが使用できる。求めた対訳ページ候補のハッシュ値と非対訳ページ蓄積手段32に格納された非対訳ページのハッシュ値とを比較して、同一ページのペアであるかを判断する。
【0088】
ハッシュ値が同一である場合は、非対訳ページ蓄積手段32に格納されたハッシュ値が等しい非対訳ページのペアと対訳ページ候補のペアとの内容が等しいかどうかを調べ、内容が等しい場合は同一ページのペアであるとして非対訳ページと判断する。内容が等しいかの判断方法は、例えば、2つのページの先頭からn文字づつ等しい文字であるかを調べる方法がある。n=1で300文字のページの場合は、300回の文字比較を行い内容が等しいペアであるかを判断する。
【0089】
また、ハッシュ値や内容が異なる場合は、第1の実施形態と同様にして詳細に対訳ページであるかどうかを判断する。詳細な判断をした後、非対訳ページと判断した対訳ページ候補は、非対訳ページ蓄積手段32に蓄積する。
【0090】
非対訳ページ蓄積手段32は、対訳ページ決定手段31が対訳ページでないと判断した対訳ページ候補のペアを蓄積するものであり、ページ名称とハッシュ値からなる。
【0091】
(C−1)第3の実施形態の動作
図11は、本発明の対訳情報収集装置の第3実施形態の動作を示すフローチャートである。第1の実施形態の動作を示す図3のフローチャートと同様のステップには同一の番号を付与し、第3の実施形態において、第1の実施形態と異なる対訳ページ決定手段31に係るステップ31、33と、非対訳ページ蓄積手段32に係るステップ32、34について詳細に説明する。
【0092】
図12に、対訳ページ決定手段31の処理(ステップ31、33)を示す。
まず、対訳ページ決定手段31は、対訳ページ候補蓄積手段13に蓄積された対訳ページ候補のペアと同じ名称のページが、非対訳ページ蓄積手段32に格納されているかどうかを判断する。格納されている場合はステップ336に進み、格納されていない場合はステップ332に進む(ステップ331)。
【0093】
ステップ332では、対訳ページ候補のペアの内容のハッシュ値を計算する(ステップ332)。
【0094】
次に、ステップ332で計算したハッシュ値と等しいハッシュ値を有するページのペアが非対訳ページ蓄積手段32に存在するかどうかを判断し、存在する場合はステップ334に進み、存在しない場合はステップ335に進む(ステップ333)。
【0095】
ステップ334では、ステップ333でハッシュ値が等しいと判断されたページのペアと対訳ページ候補のペアとの内容が等しいかどうかを比較する(ステップ334)。内容が等しい場合はステップ336に進み、内容が異なる場合はステップ335に進む(ステップ334)。
【0096】
ステップ335は、対訳ページ候補のペアに対して、第1の実施形態と同様に、詳細に対訳ページであるかを調べる(ステップ335)。ステップ336は、対訳ページ候補のペアは、対訳ページでないと判断する(ステップ336)。
【0097】
ステップ32、34では、ステップ31、33において、対訳ページでないと判断した対訳ページ候補のペアのページ名称とハッシュ値のペアを非対訳ページ蓄積手段32に蓄積する(ステップ32、34)。
【0098】
次に、図2に示すWWWデータのリンク例を用いて、具体的に処理の流れを説明する。図2に示すページB、ページC、ページE、ページFはそれぞれ別の名称としてページK、ページO、ページH、ページGを有しているとする。また、同一内容を示すページのハッシュ値は等しく、同一内容ではないページのハッシュ値は異なるものとする。
【0099】
第1の実施形態の動作に基づくと、ステップ12において距離1の対訳ページ候補となる対訳ページ候補のペアは、図4に示す「ページAとページB、ページAとページC、ページAとページD」である。
【0100】
図12のステップ331では、まず、距離1対訳ページ候補蓄積手段131に蓄積された対訳ページ候補のペア「ページAとページB、ページAとページC、ページAとページD」と同一名称のページが、非対訳ページ蓄積手段32に格納されているかどうかを判断する。
【0101】
図13に非対訳ページ蓄積手段32を示す。同一名称の対訳ページ候補のペアが無いためステップ332に進み、ステップ332は対訳ページ候補のペア「ページAとページB、ページAとページC、ページAとページD」のハッシュ値をそれぞれ求める(ステップ331、332)。
【0102】
次に、求めたハッシュ値と等しいハッシュ値を有する非対訳ページのペアが非対訳ページ蓄積手段32に存在するかどうかを判断する。ここでは、一致するページが存在しないのでステップ335に進み、詳細に対訳ページであるかどうかを調べ、「ページAとページD」が対訳ページであると判断する。(ステップ333、335)。
【0103】
ステップ32では、ステップ31で対訳ページでないと判断された、「ページAとページB、ページAとページC」を非対訳ページ蓄積手段32に蓄積する(ステップ32)。
【0104】
また、第1の実施形態の動作に基づくと、ステップ17において距離3対訳ページ候補として、距離3対訳ページ候補蓄積手段132に格納されるのは「ページBとページE、ページBとページF、ページCとページE、ページCとページF」である。
【0105】
したがって、ステップ331では、距離3対訳ページ候補蓄積手段132に蓄積された「ページBとページE、ページBとページF、ページCとページE、ページCとページF」と同一名称のページが、非対訳ページ蓄積手段32に格納されているかどうかを判断する。通常、すべての距離3対訳ページ候補に対して処理を行うが、ここでは、「ページBとページF」の処理について説明する。
【0106】
まず、ステップ331では、非対訳ページ蓄積手段32には同一名称の対訳ページ候補のペアが無いためステップ332に進み、ステップ332は対訳ページ候補のペア「ページBとページF」のハッシュ値をそれぞれ求める。ここでページBのハッシュ値は「3E4F57」でページFのハッシュ値は「2E1F51」であるとする(ステップ331、332)。
【0107】
次に、求めたハッシュ値と等しいハッシュ値を有する非対訳ページのペアが非対訳ページ蓄積手段32に存在するかどうかを判断する。ここでは、図13に示す「ページKとページG」のハッシュ値が「ページBとページF」のハッシュ値とそれぞれ一致するため、ステップ334に進む(ステップ333)。
【0108】
ステップ334では、ハッシュ値が一致した「ページKとページG」の内容が「ページBとページF」の内容と一致しているかを調べる。この場合は、「ページKとページB」の内容と「ページGとページF」の内容がそれぞれ一致するかを判断する(ステップ334)。ここでは、ページ内容がそれぞれ一致するため、ステップ336に進み、「ページBとページF」が対訳ページでないと判断する(ステップ336)。
【0109】
すべての距離3対訳ページ候補に対して対してステップ331から336の処理を行うと、非対訳ページと判断されるのは「ページBとページF、ページCとページE」となり、「ページBとページE、ページCとページF」は対訳ページであると判断される。
【0110】
ステップ34では、ステップ31で対訳ページで判断された、「ページBとページF、ページCとページE」を非対訳ページ蓄積手段32に蓄積する(ステップ34)。
【0111】
(D)他の実施の形態
(D−1)第3の実施形態において、非対訳ページ蓄積手段32は非対訳ページのペアを蓄積する際はページ名称のみを蓄積する構成でもよい。図14に、ページ名称のみからなる非対訳ページ蓄積手段32を示す。この場合は、対訳ページ決定手段31は対訳ページ候補のハッシュ値を求める必要はなく、以下の処理を行う。
まず、対訳ページ決定手段31は、非対訳ページ蓄積手段32に、対訳ページ候補のペアと同じ名称のページが格納されているかどうかを調べ、同じ名称のページが格納されている場合は、即座に非対訳ページと判断する。非対訳ページ蓄積手段32に格納されいていない場合は第1の実施形態と同様にして詳細に対訳ページであるかどうかを判断する。詳細な判断をした後、非対訳ページと判断した対訳ページ候補は、非対訳ページ蓄積手段32に蓄積する。
【0112】
(D−2)対訳ページ候補蓄積手段13、対訳ページ蓄積手段15、対訳データ蓄積手段22、非対訳ページ蓄積手段32にページのペアを格納する方法としては、それぞれのペアのページを一意に特定できるURLのような名前であってもよい。
【0113】
(D−3)対訳ページ決定手段14、31において対訳ページであるかの判断は、文献1の技術に限るものではない。例えば、2つのページのタグ数をカウントしてカウント数が一致した場合に対訳ページと判断する。また、タグの出現順位に基づいて対訳ページと判断する等、様々な方法を適用することができる。このように対訳ページ決定手段14、31において文対応を作成しない場合は、文対応結果を記憶する記憶手段は必要ない。
【0114】
(D−4)対訳データ生成手段21は、必要な対訳データを生成する手段であって文単位の対訳データを生成することに限るものではない。例えば、表の中の単語のみを対訳データとして生成する場合がある。
【0115】
また、対訳ページ決定手段14、31においてタグが挿入された文が対応付けられた場合は、タグを除去した対訳データを出力するものとする。例として「This is <Italic>a book </Italis>」と「これは<Italic>本 </Italis>です」が対応付けられた場合はタグを除去した「This is a book 」と「これは本です」が対訳データとして出力される。
【0116】
また、対訳ページ決定手段14、31において、文対応結果を作成しない場合であって文単位の対訳データが必要な場合は、対訳データ生成手段21において文単位の対応付けを行う構成にしても良い。
【0117】
(D−5)上記(D−3)と(D−4)に記載した通り、対訳ページ決定手段14、31と対訳データ生成手段21は様々な方法を適用することができるため、両手段を適宜組み合わせて構成することが可能である。
【0118】
【発明の効果】
以上に説明したとおり、本発明の第1の実施形態では、対訳ページとなるページのペアは、それぞれに直接リンクが張られているか、あるいは、そのペアを結ぶリンクの経路の中心に、直接リンクが張られた別の対訳ページのペアが存在することが多いという性質を利用することで、対訳ページ間の距離が1より離れているページ同士が対訳ページのペアであるかどうかを調べる探索範囲を適切に絞り込むことができる。
【0119】
また、第2の実施形態では、対訳データを生成する際に、対訳ページ決定手段14が対訳ページ候補のペアが対訳ページであるかどうかを判断するときに作成する対訳ページ候補の文対応結果を利用することで、対訳ページ出力手段16が出力した対訳ページに基き一括して対訳データを生成する場合と比較して生成効率が向上する。
【0120】
また、第3の実施形態では、一度非対訳ページであると判断した非対訳ページのペアを非対訳ページ蓄積手段32に蓄積することで、複数の探索始点から対訳ページを収集するような場合において、再度対訳ページ候補が対訳ページであるかどうかを詳細に判断する必要がなくなり処理速度を向上することができる。
【0121】
さらに、非対訳ページ蓄積手段32が非対訳ページの名称とその非対訳ページの内容を示すハッシュ値を蓄積し、対訳ページのペアに対して計算したハッシュ値と非対訳ページ蓄積手段32に蓄積されているハッシュ値を比較することで、同一内容のページを複数の名称で表現している場合においても再度対訳ページであるかどうかを詳細に判断する必要がなくなる。
【図面の簡単な説明】
【図1】本発明の対訳情報収集装置の第1の実施形態を示すブロック図である。
【図2】WWWデータのリンク例を示す図である。
【図3】本発明の対訳情報収集装置の第1の実施形態の動作を示すフローチャートである。
【図4】距離1対訳ページ候補蓄積手段の例を示す図である。
【図5】距離3対訳ページ候補蓄積手段の例を示す図である。
【図6】対訳ページの出力例を示す図である。
【図7】本発明の対訳情報収集装置の第2の実施形態を示すブロック図である。
【図8】本発明の対訳情報収集装置の第2の実施形態の動作を示すフローチャートである。
【図9】対訳データの出力例を示す図である。
【図10】本発明の対訳情報収集装置の第3の実施形態を示すブロック図である。
【図11】本発明の対訳情報収集装置の第3の実施形態の動作を示すフローチャートである。
【図12】図11のステップ31およびステップ33の動作を示すフローチャートである。
【図13】非対訳ページ蓄積手段の例を示す図(1)である。
【図14】非対訳ページ蓄積手段の例を示す図(2)である。
【符号の説明】
11・・探索始点入力手段、12・・対訳ページ候補生成手段、13・・対訳ページ候補蓄積手段、131・・距離1対訳ページ候補蓄積手段、132・・距離3対訳ページ候補蓄積手段、14、31・・対訳ページ決定手段、15・・対訳ページ蓄積手段、151・・距離1対訳ページ蓄積手段、152・・距離3対訳ページ蓄積手段、16・・対約ページ出力手段、21・・対訳データ生成手段、22・・対訳データ蓄積手段、221・・距離1対訳データ蓄積手段、222・・距離3対訳データ蓄積手段、23・・対訳データ出力手段、32・・非対訳ページ蓄積手段。

Claims (4)

  1. 同一内容の文書を異なる言語で記述した対訳ページを収集する検索開始点を入力する検索始点入力手段と、
    検索開始点のページと該検索開始点から距離1離れたページのペアを対訳ページ候補のペアとして生成する中心対訳ページ候補生成手段と、
    前記中心対訳ページ候補生成手段が生成した対訳ページ候補のペアを格納する中心対訳ページ候補蓄積手段と、
    前記中心対訳ページ候補蓄積手段に格納された対訳ページ候補のペアに対して対訳ページ度を数値化し、該数値と予め設定した閾値を比較して該対訳ページ候補のペアが対訳ページであるかどうかを判断する中心対訳ページ決定手段と、
    前記中心対訳ページ決定手段が対訳ページであると判断した対訳ページのペアを格納する中心対訳ページ蓄積手段と、
    前記中心対訳ページ蓄積手段に格納された対訳ページに対し、対訳ページのペアのうち一方の対訳ページからリンクをたどり距離1〜m離れたページと他方の対訳ページからリンクをたどり距離1〜m離れたページをすべて抽出し、該抽出の際に起点とした対訳ページからの距離が同一であるページで、かつ、該一方の対訳ページを利用して抽出されたページと該他方の対訳ページを利用して抽出されたページ同士をすべて組合せて対訳ページ候補のペアを生成する対訳ページ候補生成手段と、
    前記対訳ページ候補生成手段が生成した対訳ページ候補のペアを格納する対訳ページ候補蓄積手段と、
    前記対訳ページ候補蓄積手段に格納された対訳ページ候補のペアに対して対訳ページ度を数値化し、該数値と予め設定した閾値を比較して該対訳ページ候補のペアが対訳ページであるかどうかを判断する対訳ページ決定手段と、
    前記対訳ページ決定手段が対訳ページであると判断した対訳ページのペアを格納する対訳ページ蓄積手段と、
    前記中心対訳ページ蓄積手段と前記対訳ページ蓄積手段に格納された対訳ページのペアを出力する対訳ページ出力手段とを有することを特徴とする対訳情報収集装置。
  2. 請求項1に記載の対訳情報収集装置において、
    前記中心対訳ページ蓄積手段と前記対訳ページ蓄積手段に格納された対訳ページのペアに基づいて対訳データを生成する対訳データ生成手段と、
    前記対訳データ生成手段が生成した対訳データを格納する対訳データ格納手段と、
    前記対訳データ格納手段に格納された対訳データを出力する対訳データ出力手段を有することを特徴とする対訳情報収集装置。
  3. 請求項1または2に記載の対訳情報収集装置において、
    対訳ページではないと判断した対訳ページ候補のペアを非対訳ページのペアとして蓄積する非対訳ページ蓄積手段をさらに有し、
    前記中心対訳ページ決定手段は、前記中心対訳ページ候補蓄積手段に格納された対訳ページ候補のペアが前記非対訳ページ蓄積手段に蓄積された非対訳ページのペアと一致する場合は、該対訳ページ候補のペアを非対訳ページであると判断し、
    前記対訳ページ決定手段は、前記対訳ページ候補蓄積手段に格納された対訳ページ候補のペアが前記非対訳ページ蓄積手段に蓄積された非対訳ページのペアと一致する場合は、該対訳ページ候補のペアを非対訳ページであると判断することを特徴とする対訳情報収集装置。
  4. 請求項1または2に記載の対訳情報収集装置において、
    対訳ページではないと判断した対訳ページ候補のペアを非対訳ページのペアとして、該非対訳ページのペアのページ名称とページ内容を示す値を蓄積する非対訳ページ蓄積手段をさらに有し、
    前記中心対訳ページ決定手段は、前記中心対訳ページ候補蓄積手段に格納された対訳ページ候補のペアのページ名称が前記非対訳ページ蓄積手段に蓄積された非対訳ページのペアのページ名称と一致するかを判断し、一致する場合は対訳ページ候補のペアを非対訳ページであると決定し、一致しない場合は対訳ページ候補のペアのページ内容を示す値を求め、前記非対訳ページ蓄積手段に蓄積された非対訳ページのペアのページ内容を示す値と一致するかを再度判断し、一致する場合は対訳ページ候補のペアを非対訳ページであると決定し、
    前記対訳ページ決定手段は、前記対訳ページ候補蓄積手段に格納された対訳ページ候補のペアのページ名称が前記非対訳ページ蓄積手段に蓄積された非対訳ページのペアのページ名称と一致するかを判断し、一致する場合は対訳ページ候補のペアを非対訳ページであると決定し、一致しない場合は対訳ページ候補のペアのページ内容を示す値を求め、前記非対訳ページ蓄積手段に蓄積された非対訳ページのペアのページ内容を示す値と一致するかを再度判断し、一致する場合は対訳ページ候補のペアを非対訳ページであると決定することを特徴とする対訳情報収集装置。
JP25867599A 1999-09-13 1999-09-13 対訳情報収集装置 Expired - Fee Related JP3685660B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25867599A JP3685660B2 (ja) 1999-09-13 1999-09-13 対訳情報収集装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25867599A JP3685660B2 (ja) 1999-09-13 1999-09-13 対訳情報収集装置

Publications (2)

Publication Number Publication Date
JP2001084258A JP2001084258A (ja) 2001-03-30
JP3685660B2 true JP3685660B2 (ja) 2005-08-24

Family

ID=17323552

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25867599A Expired - Fee Related JP3685660B2 (ja) 1999-09-13 1999-09-13 対訳情報収集装置

Country Status (1)

Country Link
JP (1) JP3685660B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8676782B2 (en) 2008-10-08 2014-03-18 International Business Machines Corporation Information collection apparatus, search engine, information collection method, and program
US8543598B2 (en) * 2010-03-01 2013-09-24 Microsoft Corporation Semantic object characterization and search

Also Published As

Publication number Publication date
JP2001084258A (ja) 2001-03-30

Similar Documents

Publication Publication Date Title
Resnik Parallel strands: A preliminary investigation into mining the web for bilingual text
EP2041669B1 (en) Text categorization using external knowledge
JP2009104591A (ja) ウェブ文書クラスタリング方法およびシステム
GB2401972A (en) Identifying special word usage in a document
JP2008234645A (ja) 訳文生成方法及び装置並びに機械翻訳
US20080168049A1 (en) Automatic acquisition of a parallel corpus from a network
US8296319B2 (en) Information retrieving apparatus, information retrieving method, information retrieving program, and recording medium on which information retrieving program is recorded
CN109948154A (zh) 一种基于邮箱名的人物获取及关系推荐系统和方法
JP3685660B2 (ja) 対訳情報収集装置
EP2122503B1 (en) A method of filtering sections of a data stream
JP2009205499A (ja) ウェブページ特定装置、ウェブページ特定方法およびウェブページ特定用プログラム
JP2004046438A (ja) テキスト検索方法及び装置及びテキスト検索プログラム及びテキスト検索プログラムを格納した記憶媒体
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
Kaddu et al. To extract informative content from online web pages by using hybrid approach
JPWO2014002212A1 (ja) 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム
Ikeda et al. Eliminating useless parts in semi-structured documents using alternation counts
JP3598738B2 (ja) 情報抽出装置、情報検索方法及び情報抽出方法
JP3043596B2 (ja) キーワード抽出装置
Fukushima et al. A fast and accurate method for detecting English-Japanese parallel texts
JP2007011892A (ja) 語彙獲得方法及び装置及びプログラム及びプログラムを格納した記憶媒体
Pimpalshende et al. Pre-processing phase of Hindi language text summarization System
JP5495425B2 (ja) 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ
KR101541297B1 (ko) 사용자 디스크립션에 기반한 다국어 관계망 생성 방법 및 장치
Patel et al. A Research on Web Content Extraction and Noise Reduction through Text Density Using Malicious URL Pattern Detection
JP5614338B2 (ja) 検索装置、プログラム及び方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050222

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050531

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090610

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090610

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100610

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees