JP2001084258A - Translation information collecting device - Google Patents

Translation information collecting device

Info

Publication number
JP2001084258A
JP2001084258A JP25867599A JP25867599A JP2001084258A JP 2001084258 A JP2001084258 A JP 2001084258A JP 25867599 A JP25867599 A JP 25867599A JP 25867599 A JP25867599 A JP 25867599A JP 2001084258 A JP2001084258 A JP 2001084258A
Authority
JP
Japan
Prior art keywords
page
bilingual
pair
pages
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP25867599A
Other languages
Japanese (ja)
Other versions
JP3685660B2 (en
Inventor
Hideki Yamamoto
秀樹 山本
Toshiki Murata
稔樹 村田
Tokuji Ikeno
篤司 池野
Sayori Shimohata
さより 下畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP25867599A priority Critical patent/JP3685660B2/en
Publication of JP2001084258A publication Critical patent/JP2001084258A/en
Application granted granted Critical
Publication of JP3685660B2 publication Critical patent/JP3685660B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To appropriately narrow search range where pages are checked whether they are a pair and to improve processing speed by using a property that a direct link is given to a pair of pages being translation pages or that a different pair of translation pages to which the direct link is given exist in the center of the route of a link connecting the pair. SOLUTION: A translation page candidate accumulating means 13 stores a pair of translation page candidates that a translation page candidate generating means 12 generates and it is formed of a pair of page names. The translation page candidate accumulating means 13 has plural translation page candidate accumulating means 131, 132, etc., according to a distance (m) for searching the translation page candidates from a pair of translation pages. A translation page decision means 14 decides whether a pair of translation page candidates stored in the translation page candidate accumulation means 13 are the translation pages. A translation page accumulating means 15 accumulates a pair of translation pages that the translation page decision means 14 decide as being the translation pages.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、ネットワークを介
してWWW(World Wide Web)上のデータ中から同一内
容を複数の言語で記述したページを対訳情報として収集
する対訳情報収集装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a bilingual information collecting apparatus for collecting, as bilingual information, pages describing the same contents in a plurality of languages from data on the WWW (World Wide Web) via a network.

【0002】[0002]

【従来の技術】WWW上には、同一内容を複数の言語で
提供しているページが存在しているが、このような同一
内容のページを異なる言語で記述したページ(以下、対
訳ページと呼ぶ。)を探し出す技術として以下の文献に
記載されるものがある。
2. Description of the Related Art On the WWW, there are pages that provide the same contents in a plurality of languages, and pages having the same contents described in different languages (hereinafter referred to as bilingual pages). ) Is described in the following document.

【0003】文献1「情報処理学会研究報告 自然言語
処理128-18 1998.11.6 名称;WorldWide Webからの対訳
データの自動収集」文献1には、WWW上から対訳デー
タを収集するために、WWW上のテキスト情報の中から
対訳候補ページを探し出し、さらに、対訳候補ページ同
士を一文単位で対応付けることで対訳データを作成する
システムが記載されている。
[0003] Reference 1 "Information Processing Society of Japan Research Report Natural Language Processing 128-18 1998.11.6 Name; Automatic Collection of Bilingual Data from WorldWide Web" A system for searching for a bilingual candidate page from among the text information and creating bilingual data by associating the bilingual candidate pages with each other in units of one sentence is described.

【0004】このシステムでは、対訳ページはそれぞれ
同じドメイン内に存在することを利用して、WWW上の
あるページに対して、そのページからリンクが存在する
ページを対訳候補ページとして収集し、その対訳候補ペ
ージが本当に対訳ページかどうかを詳細に調べる。
In this system, by utilizing the fact that each bilingual page exists in the same domain, for a certain page on the WWW, a page having a link from that page is collected as a bilingual candidate page, and the bilingual translation page is collected. Find out in detail whether the candidate page is really a bilingual page.

【0005】すなわち、内容Aの日本語のページをA
j、英語のページをAeとすると、Aj中にAeへのリ
ンクの記述があり、かつ、Ae中にAjへのリンクの記
述がある場合についてのみ、AjとAeが対訳ページで
ある可能性があると判断して対訳候補ページとする。そ
して、対訳候補ページに対して本当に対訳ページである
かを一文単位の対応付けを行うことでより詳細に調べ
る。
[0005] That is, the Japanese page of content A is A
j, if the English page is Ae, there is a possibility that Aj and Ae are bilingual pages only when Aj has a description of a link to Ae and Ae has a description of a link to Aj. It is determined that there is a translation candidate page. Then, it is checked in more detail by associating the bilingual candidate page with the bilingual page in a sentence unit.

【0006】[0006]

【発明が解決しようとする課題】しかしながら、文献1
に記載された従来技術では対訳候補ページの収集を、あ
るページから直接リンクが張られ、かつ、リンク先が同
一ドメインであるページに限定しているため、あるペー
ジから直接リンクが張られていない場合は対訳ページを
探し出すことができないという問題点があった。
[0005] However, Document 1
In the prior art described in (1), the collection of bilingual translation candidate pages is limited to pages directly linked from a certain page, and the link destination is limited to pages having the same domain, so that no direct link is set from a certain page In such a case, there is a problem that the translation page cannot be found.

【0007】具体的には、リンクが張られている日本語
のページAjと英語のページAeがあり、さらにAjか
らリンクが張られている日本語のページBjと、Aeか
らリンクが張られている英語のページBeがある場合に
おいて、BjとBeの中にお互いに対するリンクが記載
されていない場合は、たとえBjとBeが対訳ページで
あっても、BjとBeを対訳ページであると判断するこ
とができない。
More specifically, there are a Japanese page Aj and an English page Ae to which a link is provided, and a Japanese page Bj to which a link is provided from Aj, and a link to be provided from Ae. If there is no English page Be and no link to each other is described in Bj and Be, it is determined that Bj and Be are bilingual pages even if Bj and Be are bilingual pages. Can not do.

【0008】実際のインターネットにおいて複数の情報
を記述する場合は、目次のページを記述して、その目次
中の各項目に対応したページを複数のページ(HTML文
書)によって表現することが多い。このように複数ペー
ジで示された情報を対訳で公開するきは、目次のページ
にだけ別言語へのリンクが張られることが一般的であ
る。したがって、上記のように直接リンクが張られてい
るページのみを対象としたシステムでは、直接リンクが
張られていない各項目のページを対訳ページとして収集
することができない。
When describing a plurality of pieces of information on the actual Internet, a page of a table of contents is often described, and a page corresponding to each item in the table of contents is often expressed by a plurality of pages (HTML documents). When publishing information shown on a plurality of pages in a bilingual manner, a link to another language is generally provided only on the page of the table of contents. Therefore, in a system that targets only pages with direct links as described above, pages of items that are not directly linked cannot be collected as bilingual pages.

【0009】従来技術に記載されているシステムの拡張
として、「あるページにリンクが張られているページだ
けでなく、さらにそのページからリンクの張られている
ページまでを対訳ページの候補対象として、対訳ページ
かどうかを調べる」とすることが容易に考えられる。し
かしながら、このような単純な拡張では、対訳ページの
候補対象の数は、従来技術のシステムの2乗になってし
まい探索範囲の増大を招く。さらに、もう一段拡張する
と対訳ページの候補対象の数は3乗になってしまう。
As an extension of the system described in the prior art, as a candidate for a bilingual page, not only a page linked to a certain page but also a page from that page to a linked page is set. Check if it is a bilingual page ". However, with such a simple extension, the number of candidates for the bilingual page becomes the square of the system of the related art, and the search range is increased. Furthermore, if it is expanded one more stage, the number of candidate translation page candidates will be raised to the third power.

【0010】このような点から、本発明はWWW上に今
後さらに増大するであろう対訳ページをより効率的に収
集することができる対訳情報収集装置を提供することを
目的とする。
[0010] In view of the above, an object of the present invention is to provide a bilingual information collecting apparatus capable of collecting bilingual pages which will be further increased on the WWW in the future.

【0011】[0011]

【課題を解決するための手段】係る課題を解決するた
め、本発明の第1の発明は、直接リンクで結合されてい
ないが間接的にリンクで結合された2つのページにおい
て、2つのページを結ぶリンクの経路の中心に存在する
対訳ページ候補のペアが同一内容の文書を異なる言語で
記述した対訳ページであるかどうかを判断する中心対訳
ページ決定手段と、中心対訳ページ決定手段が対訳ペー
ジであると判断した対訳ページのペアのそれぞれから距
離m離れたページを組み合わせて対訳ページ候補のペア
を生成する対訳ページ候補生成手段と、対訳ページ候補
生成手段で生成した対訳ページ候補のペアが対訳ページ
であるかどうかを判断する対訳ページ決定手段と、中心
対訳ページ決定手段または前記対訳ページ決定手段が対
訳ページであると判断した対訳ページのペアを出力する
対訳ページ出力手段とを有することを特徴とする。
Means for Solving the Problems In order to solve the above problems, a first invention of the present invention is to form two pages in two pages which are not directly linked but are indirectly linked by a link. A central bilingual page determining unit that determines whether a pair of bilingual page candidates existing at the center of the linking link is a bilingual page that describes a document of the same content in a different language, and A translation page candidate generating means for generating a pair of translation page candidates by combining pages separated by a distance m from each of the translation page pairs determined to be present, and a translation page candidate pair generated by the translation page candidate generation means. And the central bilingual page determining means or the bilingual page determining means determine that the bilingual page is a bilingual page. And having a translation page output means for outputting the pair of the translation page.

【0012】第2の発明は、対訳ページ候補生成手段に
関し、中心対訳ページ決定手段が対訳ページであると判
断した対訳ページのペアのそれぞれから距離m離れ、か
つ、途中または終点に該対訳ページを含まないページを
抽出し、該抽出したページをすべて組み合わせて対訳ペ
ージ候補のペアを生成することを特徴とする。
A second invention relates to a bilingual page candidate generating means, wherein the central bilingual page determining means separates the bilingual page at a distance m from each pair of bilingual pages determined to be a bilingual page, and in the middle or at the end point. It is characterized in that pages not containing are extracted and all the extracted pages are combined to generate a pair of bilingual page candidates.

【0013】第3の発明は、同一内容の文書を異なる言
語で記述した対訳ページを収集する探索開始点を入力す
る探索始点入力手段と、探索開始点のページと該探索開
始点から距離n離れたページとのペアを対訳ページ候補
のペアとして生成する第1の対訳ページ候補生成手段を
さらに有し、中心対訳ページ決定手段は、第1の対訳ペ
ージ候補生成手段が生成した対訳ページ候補のペアが対
訳ページであるかどうかを判断することを特徴とする。
According to a third aspect of the present invention, there is provided a search start point input means for inputting a search start point for collecting bilingual pages describing documents having the same contents in different languages, a search start point page and a distance n from the search start point. First parallel translation page candidate generating means for generating a pair with the selected page as a parallel translation page candidate pair, and the central bilingual page determination means includes a translation page candidate pair generated by the first parallel translation page candidate generating means. Is determined to be a bilingual page.

【0014】第4の発明は、対訳データに関するもので
あり、対訳データを生成する対訳データ生成手段と対訳
データを出力する対訳データ出力手段を有することを特
徴とする。
The fourth invention relates to bilingual data, and is characterized by having bilingual data generating means for generating bilingual data and bilingual data outputting means for outputting bilingual data.

【0015】第5と第6の発明は、非対訳ページに関す
るものである。第5の発明は、非対訳ページのペアを蓄
積する非対訳ページ蓄積手段を有し、対訳ページ候補の
ペアがその非対訳ページ蓄積手段に蓄積された非対訳ペ
ージのペアと一致する場合は、その対訳ページ候補のペ
アを非対訳ページであると判断する。
The fifth and sixth inventions relate to an untranslated page. The fifth invention has non-translated page storage means for storing pairs of non-translated pages, and when the pair of bilingual page candidates matches the pair of non-translated pages stored in the non-translated page storage means, It is determined that the pair of the translation page candidates is a non-translation page.

【0016】第6の発明は、非対訳ページ蓄積手段が非
対訳ページのペアのページ名称とページ内容を示す値を
蓄積する。対訳ページ候補のペアのページ名称が非対訳
ページ蓄積手段に蓄積された非対訳ページのペアのペー
ジ名称と一致するかを判断し、一致する場合は対訳ペー
ジ候補のペアを非対訳ページであると決定し、一致しな
い場合は対訳ページ候補のペアのページ内容を示す値を
求め、非対訳ページ蓄積手段に蓄積された非対訳ページ
のペアのページ内容を示す値と一致するかを再度判断
し、一致する場合は対訳ページ候補のペアを非対訳ペー
ジであると決定することを特徴とする。
According to a sixth aspect of the present invention, the non-translated page storage means stores a value indicating the page name and page content of the pair of non-translated pages. It is determined whether the page name of the pair of bilingual page candidates matches the page name of the pair of non-bilingual pages stored in the non-bilingual page storage means, and if they match, the pair of bilingual page candidates is determined to be a non-bilingual page. Determined, if they do not match, determine a value indicating the page content of the pair of bilingual page candidates, determine again whether it matches the value indicating the page content of the pair of non-translated page stored in the non-translated page storage means, When they match, the pair of bilingual page candidates is determined to be a non-bilingual page.

【0017】[0017]

【発明の実施の形態】(本発明の特徴)対訳ページとな
るページのペアは、それぞれに直接リンクが張られてい
るか、あるいは、そのペアを結ぶリンクの経路の中心
に、直接リンクが張られた別の対訳ページのペアが存在
することが多いという性質がある。本発明はこの性質を
利用することで、対訳ページ候補の探索範囲を狭めよう
とするものである。
DETAILED DESCRIPTION OF THE INVENTION (Features of the Present Invention) A pair of pages to be a bilingual page is directly linked to each other, or a direct link is set at the center of a link path connecting the pair. In addition, there is a property that a pair of other bilingual pages often exists. The present invention intends to narrow the search range of a bilingual page candidate by utilizing this property.

【0018】ここで、リンクの経路の中心を例を用いて
説明する。例えば、ページAとページDが直接リンクさ
れていないが、ページAはページB、ページBはページ
C、ページCはページDとリンクが張られている場合に
おいて、ページAとページDのリンクの経路の中心とは
ページBとページCの間のリンクを指す。
Here, the center of the link path will be described using an example. For example, when the page A and the page D are not directly linked, but the page A is linked to the page B, the page B is linked to the page C, and the page C is linked to the page D, the link between the page A and the page D is changed. The center of the path indicates a link between page B and page C.

【0019】以下、本発明の実施形態に係る対訳情報収
集装置について、図面を用いて詳細に説明する。
Hereinafter, a bilingual information collecting apparatus according to an embodiment of the present invention will be described in detail with reference to the drawings.

【0020】(A)第1の実施形態の構成 図1は、本発明の対訳情報収集装置の第1の実施形態を
示すブロック構成図であり、ワークステーションやパソ
コン等の情報処理装置上で実現されるものである。
(A) Configuration of the First Embodiment FIG. 1 is a block diagram showing a first embodiment of a bilingual information collecting apparatus according to the present invention, which is realized on an information processing apparatus such as a workstation or a personal computer. Is what is done.

【0021】図1において、第1の実施形態の対訳情報
収集装置は、探索始点入力手段11と、対訳ページ候補
生成手段12と、対訳ページ候補蓄積手段13と、対訳
ページ決定手段14と、対訳ページ蓄積手段15と、対
訳ページ出力手段16を有する。
In FIG. 1, the bilingual information collecting apparatus according to the first embodiment includes a search starting point input unit 11, a bilingual page candidate generating unit 12, a bilingual page candidate storing unit 13, a bilingual page determining unit 14, a bilingual page determining unit 14, It has a page storage means 15 and a bilingual page output means 16.

【0022】探索始点入力手段11は、対訳ページの探
索を開始する始点(ページ)を入力するものであり、例
えばキーボード等から構成される。探索開始点は、UR
L(Uniform Resource Locator)等で示すことができ
る。
The search start point input means 11 is for inputting a start point (page) at which a search for a bilingual page is started, and is composed of, for example, a keyboard or the like. Search start point is UR
It can be indicated by L (Uniform Resource Locator) or the like.

【0023】対訳ページ候補生成手段12は、探索始点
入力手段11から入力された探索開始点から距離nでた
どることができる対訳ページ候補のペアを生成するもの
である。
The bilingual page candidate generation means 12 generates a bilingual page candidate pair that can be traced at a distance n from the search start point input from the search start point input means 11.

【0024】ここで、ページ間の距離について説明す
る。例えば、ある2つのページの距離が1であるとは、
少なくとも一方のページからもう一方のページに直接リ
ンクが張られていることを意味する。「ページA、ペー
ジB、ページC」の3つのページがあり、「ページAと
ページB」が距離1、「ページBとページC」が距離1
で直接リンクが張られていて、「ページAとページC」
が直接リンクが張られていない場合は、「ページAとペ
ージC」との距離は2である。2つのページが2つ以上
の経路でリンクが張られている場合は、最小の距離をそ
の2つのページの距離とする。
Here, the distance between pages will be described. For example, if the distance between two pages is 1,
It means that a link is provided directly from at least one page to the other page. There are three pages, “Page A, Page B, and Page C”, and “Page A and Page B” are at a distance of 1, and “Page B and Page C” are at a distance of 1.
Is linked directly to "Page A and Page C"
Is not directly linked, the distance between “Page A and Page C” is 2. When two pages are linked by two or more routes, the minimum distance is defined as the distance between the two pages.

【0025】具体的に、対訳ページ候補生成手段12が
生成する距離1の対訳ページ候補のペアは、探索開始点
から距離1のページと探索開始点とのペアである。距離
3の対訳ページ候補のペアは、探索開始点から距離1の
ページで、かつ、対訳ページではないページと、探索開
始点の対訳ページから距離1のページで、かつ、探索開
始点でないページとの組み合わせである。
More specifically, the pair of bilingual page candidates at a distance of 1 generated by the bilingual page candidate generating means 12 is a pair of a page at a distance of 1 from the search start point and the search start point. A pair of bilingual page candidates at a distance of 3 includes a page at a distance of 1 from the search start point and not a bilingual page, and a page at a distance of 1 from the bilingual page at the search start point and not at the search start point. It is a combination of

【0026】距離3の対訳ページ候補のペアとなるペー
ジを図2を用いて説明する。図2はWWWデータのリン
ク例であり、「ページAはページB、ページC、ページ
D」と直接リンクが張られており、それぞれ距離1であ
る。さらに、「ページDはページE、ページF、ページ
A」と直接リンクが張られており、それぞれ距離1であ
る。
A page which is a pair of a translation page candidate having a distance of 3 will be described with reference to FIG. FIG. 2 shows a link example of WWW data, in which "Page A is directly linked to Page B, Page C, and Page D", and the distance is 1 for each. Further, “Page D is directly linked to Page E, Page F, Page A”, and the distance is 1 for each.

【0027】ここで、「ページAとページD」は対訳ペ
ージであり、探索開始点をページAとする。距離3の対
訳ページ候補のペアは、探索開始点のページAから距離
1であり、かつ、対訳ページではない「ページB、ペー
ジC」と、対訳であるページDから距離1であり、か
つ、探索開始点ではない「ページE、ページF」との組
み合わせである「ページBとページE」「ページBとペ
ージF」「ページCとページE」「ページCとページ
F」となる。
Here, "page A and page D" are bilingual pages, and the search start point is page A. A pair of bilingual page candidates with a distance of 3 is at a distance of 1 from page A at the search start point, and is not a bilingual page at “Page B, Page C”, and is at a distance of 1 from a bilingual page D, and "Page B and page E", "page B and page F", "page C and page E", and "page C and page F" are combinations of "page E and page F" which are not search start points.

【0028】対訳ページ候補蓄積手段13は、対訳ペー
ジ候補生成手段12が生成した対訳ページ候補のペアを
格納するものであり、ページ名称のペアからなる。対訳
ページ候補蓄積手段13は、対訳ページのペアから対訳
ページ候補を探索する距離mに応じて複数の対訳ページ
候補蓄積手段を有する。例えば、対訳ページのペアから
距離2までを対訳ページの探索範囲とした場合は、対訳
ページ候補蓄積手段13は、ペア間の距離が距離1、距
離3、距離5の対訳ページ候補蓄積手段を有する。
The bilingual page candidate accumulating means 13 stores the pair of bilingual page candidates generated by the bilingual page candidate generating means 12, and comprises a pair of page names. The bilingual page candidate accumulating means 13 has a plurality of bilingual page candidate accumulating means according to a distance m for searching for a bilingual page candidate from a pair of bilingual pages. For example, when a range from a pair of bilingual pages to a distance 2 is set as a bilingual page search range, the bilingual page candidate storage unit 13 includes bilingual page candidate storage units having a distance between pairs of 1, 3, and 5. .

【0029】ここで、ペア間の距離zは、z=2×m+
1(m:対訳ページからの距離)で求めることができ、
対訳ページ候補はペア間の距離に対応した対訳ページ候
補蓄積手段13に蓄積する。
Here, the distance z between pairs is z = 2 × m +
1 (m: distance from the bilingual page)
The bilingual page candidates are accumulated in the bilingual page candidate accumulating means 13 corresponding to the distance between pairs.

【0030】ここでは、距離1対訳ページ候補蓄積手段
131と距離3対訳ページ候補蓄積手段132を有する
ものとする。
In this case, it is assumed that a distance 1 parallel translation page candidate storage unit 131 and a distance 3 parallel translation page candidate storage unit 132 are provided.

【0031】距離1対訳ページ候補蓄積手段131は、
対訳ページ候補生成手段12が生成した探索開始点から
距離1で到達することができるページを距離1の対訳ペ
ージ候補として蓄積するものである。
Distance 1 bilingual page candidate storage means 131
A page which can be reached at a distance 1 from the search start point generated by the bilingual page candidate generating means 12 is stored as a bilingual page candidate with a distance 1.

【0032】距離3対訳ページ候補蓄積手段132は、
距離1の対訳ページのペアに基づいて対訳ページ候補生
成手段12が生成した距離3の対訳ページ候補を蓄積す
るものである。
The distance 3 bilingual page candidate storage means 132
The bilingual page candidate of distance 3 generated by the bilingual page candidate generating means 12 based on the pair of bilingual pages of distance 1 is stored.

【0033】対訳ページ決定手段14は、対訳ページ候
補蓄積手段13に格納された対訳ページ候補のペアが対
訳ページかどうかを決定するものである。対訳ページか
どうかの判断は、従来技術を用いることができる。
The bilingual page determination means 14 determines whether the pair of bilingual page candidates stored in the bilingual page candidate storage means 13 is a bilingual page. Conventional technology can be used to determine whether the page is a bilingual page.

【0034】例えば、文献1の従来技術を用いた場合
は、2つのページの文対応付けを行い対訳ページらしさ
を数値化する。その後、あらかじめ設定した適当な閾値
を用いて、その閾値よりも対訳ページらしさが高いペー
ジについては対訳ページと判断する。さらに、対訳ペー
ジ決定手段14で行った2つのページ文対応付け結果を
記憶手段(図示せず)に格納する。
For example, when the prior art of Document 1 is used, two pages are correlated with a sentence and the likelihood of a translated page is digitized. Thereafter, using an appropriate threshold set in advance, a page having a higher likelihood of a bilingual page than the threshold is determined to be a bilingual page. Further, the result of the two page sentence correspondence performed by the bilingual page determination means 14 is stored in the storage means (not shown).

【0035】対訳ページ蓄積手段15は、対訳ページ決
定手段14が対訳ページと決定した対訳ページのペアを
蓄積するものであり、ページ名称のペアからなる。対訳
ページ候補蓄積手段13と同様に、対訳ページのペアか
ら対訳ページ候補を探索する距離mに応じて複数の対訳
ページ蓄積手段を有し、対訳ページ候補蓄積手段13が
有する各候補蓄積手段と対応している。
The bilingual page accumulating means 15 accumulates a pair of a bilingual page determined as a bilingual page by the bilingual page determining means 14, and is composed of a pair of page names. Similar to the bilingual page candidate accumulating means 13, the bilingual page candidate accumulating means 13 includes a plurality of bilingual page accumulating means according to the distance m for searching for a bilingual page candidate from a pair of bilingual pages. are doing.

【0036】ここでは、距離1対訳ページ蓄積手段15
1と距離3対訳ページ蓄積手段152を有する。距離1
対訳ページ蓄積手段151と距離3対訳ページ蓄積手段
152は、それぞれ距離1対訳ページ候補蓄積手段13
1と距離3対訳ページ候補蓄積手段132に対応してい
る。
Here, the distance 1 bilingual page storage means 15
1 and distance 3 bilingual page storage means 152 is provided. Distance 1
The bilingual page storage unit 151 and the distance 3 bilingual page storage unit 152 respectively store the bilingual page candidate storage unit 13 with a distance 1.
1 and distance 3 correspond to the bilingual page candidate storage unit 132.

【0037】距離1対訳ページ蓄積手段151は、距離
1対訳ページ候補蓄積手段131に蓄積された距離1の
対訳ページ候補の中から、対訳ページ決定手段14によ
って対訳ページと決定した対訳ページのペアを蓄積す
る。
The distance 1 bilingual page storage means 151 stores the pair of the bilingual page determined as the bilingual page by the bilingual page determining means 14 from the bilingual page candidates having the distance 1 stored in the distance 1 bilingual page candidate storing means 131. accumulate.

【0038】距離3対訳ページ蓄積手段152は、距離
3対訳ページ候補蓄積手段132に蓄積された距離3の
対訳ページ候補の中から、対訳ページ決定手段14によ
って対訳ページと決定した対訳ページのペアを蓄積す
る。
The distance 3 bilingual page storage means 152 stores a pair of the bilingual page determined as the bilingual page by the bilingual page determining means 14 from the bilingual page candidates at the distance 3 stored in the distance 3 bilingual page candidate storing means 132. accumulate.

【0039】対訳ページ出力手段16は、対訳ページ蓄
積手段15に蓄積された対訳ページのペアを出力するも
のである。ここでは、距離1対訳ページ蓄積手段151
と距離3対訳ページ蓄積手段152に蓄積された対訳ペ
ージのペアを出力する。
The bilingual page output means 16 outputs the pair of bilingual pages stored in the bilingual page storage means 15. Here, the distance 1 bilingual page storage means 151 is used.
And a distance 3 bilingual page pair stored in the bilingual page storing means 152 is output.

【0040】(A−1)第1の実施形態の動作 図3は、本発明の対訳情報収集装置の第1実施形態の動
作を示すフローチャートである。
(A-1) Operation of First Embodiment FIG. 3 is a flowchart showing the operation of the first embodiment of the bilingual information collecting apparatus of the present invention.

【0041】ここで、対訳ページのペアから対訳ページ
候補を探索する最大距離をMとする。また、探索する最
大距離Mはあらかじめ設定するものとする。
Here, M is the maximum distance for searching for a translation page candidate from a pair of translation pages. The maximum distance M to be searched is set in advance.

【0042】まず、探索始点入力手段11から探索開始
点を入力する(ステップ11)。
First, a search start point is input from the search start point input means 11 (step 11).

【0043】対訳ページ候補生成手段12が、探索開始
点から距離1のページを抽出し、探索開始点のページと
ペアにしたのち、距離1の対訳ページ候補として距離1
対訳ページ候補蓄積手段131に格納する(ステップ1
2)。
The bilingual page candidate generating means 12 extracts a page at a distance 1 from the search start point, pairs it with the page at the search start point, and then sets the pair as the bilingual page candidate at the distance 1
It is stored in the bilingual page candidate storage means 131 (step 1
2).

【0044】次に、対訳ページ決定手段14が、ステッ
プ12で距離1対訳ページ候補蓄積手段131に蓄積さ
れた距離1の対訳ページ候補のペアが、本当に対訳ペー
ジであるかどうかを判断する(ステップ13)。ステッ
プ13で対訳ページであると判断した距離1の対訳ペー
ジのペアを、距離1対訳ページ蓄積手段151に蓄積す
る(ステップ14)。
Next, the bilingual page determination means 14 determines whether or not the pair of bilingual page candidates having a distance of 1 stored in the distance 1 bilingual page candidate storing means 131 in step 12 is really a bilingual page (step). 13). The pair of the bilingual pages of distance 1 determined to be the bilingual pages in step 13 is stored in the distance 1 bilingual page storage unit 151 (step 14).

【0045】次に、距離1対訳ページ蓄積手段151に
距離1の対訳ページが存在するかどうかを判断し、距離
1の対訳ページが存在する場合はステップ16へ進み、
距離1の対訳ページが存在しない場合はステップ22へ
進む(ステップ15)。
Next, it is determined whether or not a bilingual page having a distance of 1 exists in the bilingual page storing unit with distance 1. If a bilingual page having a distance of 1 exists, the process proceeds to step 16.
If there is no bilingual page with distance 1, the process proceeds to step 22 (step 15).

【0046】距離1の対訳ページが存在すると判断され
たステップ16では、対訳ページからの距離を示す変数
mを初期値1に設定する(ステップ16)。
In step 16 where it is determined that a bilingual page with a distance of 1 exists, a variable m indicating the distance from the bilingual page is set to an initial value of 1 (step 16).

【0047】次に、対訳ページ候補生成手段12は、距
離1対訳ページ蓄積手段151に蓄積された距離1の対
訳ページのペアに基づいて対訳ページの候補を生成す
る。まず、ペアの片方のページから距離m離れたページ
で、かつ、途中または終点に距離1の対訳ページのもう
片方のペアを含まないページを、それぞれのペアから抽
出する。次に、距離1の対訳ページのそれぞれのペアか
ら抽出したページを組み合わせて距離z(z=2×m+
1)の対訳ページ候補を生成し、距離zの対訳ページ候
補蓄積手段に格納する(ステップ17)。
Next, the bilingual page candidate generating means 12 generates bilingual page candidates based on the pair of bilingual pages at distance 1 stored in the bilingual page storage means 151 at distance 1. First, a page that is a distance m away from one page of a pair and does not include the other pair of bilingual pages with a distance of 1 at the middle or end point is extracted from each pair. Next, the pages extracted from each pair of the bilingual pages having the distance 1 are combined to form a distance z (z = 2 × m +
The bilingual page candidate of 1) is generated and stored in the bilingual page candidate storage means of the distance z (step 17).

【0048】次に、対訳ページ決定手段14が、ステッ
プ17で距離zの対訳ページ候補蓄積手段に格納された
距離zの対訳ページ候補のペアが、本当に対訳であるか
どうかを判断する(ステップ18)。ステップ18で対
訳ページであると判断した距離zの対訳ページのペア
を、距離zの対訳ページ蓄積手段に格納する(ステップ
19)。
Next, the bilingual page determination means 14 determines whether or not the pair of bilingual page candidates of the distance z stored in the bilingual page candidate storage means of the distance z in step 17 is a bilingual translation (step 18). ). The pair of bilingual pages with the distance z determined to be the bilingual pages in step 18 is stored in the bilingual page storage means with the distance z (step 19).

【0049】次に、対訳ページのペアからの距離を示す
変数mが探索する最大距離Mより小さいかを調べる。m
がMより小さい場合は、ステップ21に進み、mがM以
上の場合はステップ22に進む(ステップ20)。
Next, it is checked whether the variable m indicating the distance from the pair of the bilingual page is smaller than the maximum distance M to be searched. m
Is smaller than M, the process proceeds to step 21, and if m is M or more, the process proceeds to step 22 (step 20).

【0050】ステップ21ではmを1増分したのちステ
ップ17に進む(ステップ21)。ステップ22では、
対訳ページ出力手段16が対訳ページ蓄積手段15に蓄
積された対訳ぺージのペアを出力し、処理を終了する
(ステップ22)。
In step 21, after incrementing m by 1, the process proceeds to step 17 (step 21). In step 22,
The bilingual page output means 16 outputs the pair of bilingual pages stored in the bilingual page storage means 15, and ends the processing (step 22).

【0051】次に、図2に示すWWWデータのリンク例
を用いて、具体的に処理の流れを説明する。
Next, the flow of the processing will be specifically described using the link example of the WWW data shown in FIG.

【0052】ここでは、対訳ページのペアから対訳ペー
ジ候補を探索する最大距離Mを2とする。したがって、
対訳ページ候補蓄積手段13は、距離1と距離3と距離
5の対訳ページ候補蓄積手段を有し、対訳ページ蓄積手
段15は、距離1と距離3と距離5の対訳ページ蓄積手
段を有するものとする。
Here, it is assumed that the maximum distance M for searching for a bilingual page candidate from a pair of bilingual pages is 2. Therefore,
The bilingual page candidate storing means 13 has bilingual page candidate storing means of distance 1, distance 3 and distance 5, and the bilingual page storing means 15 has bilingual page storing means of distance 1, distance 3 and distance 5. I do.

【0053】まず、探索開始点のURLを入力する。図2
のページAを探索開始点とし、ページAのURL(http://
www.sample.aa/index/html)を入力する(ステップ1
1)。
First, the URL of the search start point is input. FIG.
Page A as the search start point, and the URL of page A (http: //
www.sample.aa / index / html) (Step 1)
1).

【0054】次に、探索開始点のページAから距離1の
ページである「ページB、ページC、ページD」を抽出
し、それぞれ探索開始点のページAとペアにして距離1
対訳ページ候補蓄積手段131に格納する。図4に、距
離1対訳ページ候補蓄積手段131に格納された距離1
対訳ページ候補を示す(ステップ12)。
Next, "Page B, Page C, Page D" which is pages at a distance of 1 from page A at the search start point are extracted, and paired with page A at the search start point, respectively.
It is stored in the bilingual page candidate storage means 131. FIG. 4 shows the distance 1 stored in the bilingual page candidate storage unit 131.
The bilingual page candidates are shown (step 12).

【0055】次に、距離1対訳ページ候補蓄積手段13
1に格納された「ページAとページB、ページAとペー
ジC、ページAとページD」が対訳ページであるかを判
断する。ここでは、「ページAとページD」のペアが対
訳ページと判断され、距離1の対訳ページとして距離1
対訳ページ蓄積手段151に格納する(ステップ13、
14)。
Next, distance 1 bilingual page candidate storage means 13
It is determined whether “Page A and Page B, Page A and Page C, Page A and Page D” stored in No. 1 is a bilingual page. Here, the pair of “page A and page D” is determined to be a bilingual page, and a distance 1
It is stored in the bilingual page storage means 151 (step 13,
14).

【0056】ステップ15は、距離1対訳ページ蓄積手
段151に距離1の対訳ページが存在するかどうかを判
断する。ここでは、「ページAとページD」のペアが存
在するため、ステップ16に進み、変数mを初期値1に
設定する(ステップ15、16)。
In step 15, it is determined whether or not a bilingual page having a distance of 1 exists in the bilingual page storage unit with distance 1. Here, since there is a pair of “page A and page D”, the process proceeds to step 16 and the variable m is set to the initial value 1 (steps 15 and 16).

【0057】次に、距離1対訳ページ蓄積手段151に
蓄積された距離1の対訳ページ「ページAとページD」
のペアに基づいて対訳ページの候補を生成する。まず、
「ページA」から距離m=1離れたページで、かつ、途
中または終点に距離1の対訳ページのペア「ページD」
を含まないページ「ページB、ページC」と、「ページ
D」から距離m=1離れたページで、かつ、途中または
終点に距離1の対訳ページのペア「ページA」を含まな
いページ「ページE、ページF」を抽出する。
Next, a bilingual page “page A and page D” of distance 1 stored in the distance 1 bilingual page storage means 151
Based on the pair, a candidate for a translation page is generated. First,
A page "Page D" that is a page that is a distance m = 1 away from "Page A", and has a distance of 1 at the middle or end point
"Page B, Page C" that does not include "Page A" and a page that is a distance m = 1 away from "Page D" and does not include a pair "Page A" of a bilingual page with a distance of 1 on the way or at the end point E, page F ".

【0058】抽出した各ページを組み合わせた「ページ
BとページE、ページBとページF、ページCとページ
E、ページCとページF」を距離3対訳ページ候補とし
て、距離3対訳ページ候補蓄積手段132に格納する。
図5に、距離3対訳ページ候補蓄積手段132に格納さ
れた距離3対訳ページ候補を示す(ステップ17)。
The “page B and page E, page B and page F, page C and page E, and page C and page F” combinations of the extracted pages are set as distance 3 bilingual page candidate storage means. 132.
FIG. 5 shows the distance 3 bilingual page candidates stored in the distance 3 bilingual page candidate storage means 132 (step 17).

【0059】次に、距離3対訳ページ候補蓄積手段13
2に格納された「ページBとページE、ページBとペー
ジF、ページCとページE、ページCとページF」が対
訳ページであるかを判断する。ここでは、「ページBと
ページE、ページCとページF」のペアが対訳ページと
判断され、距離3の対訳ページとして距離3対訳ページ
蓄積手段151に格納する(ステップ18、19)。
Next, the distance 3 bilingual page candidate storage means 13
It is determined whether or not “Page B and Page E, Page B and Page F, Page C and Page E, Page C and Page F” stored in No. 2 are bilingual pages. Here, the pair of “page B and page E, page C and page F” is determined to be a bilingual page, and is stored as a bilingual page with a distance of 3 in the distance 3 bilingual page storage unit 151 (steps 18 and 19).

【0060】次に、変数m=1と探索する最大距離M=
2を比較する。M>mのため、ステップ21に進みmを
1増分したのち、ステップ17に処理を進める(ステッ
プ20、21)。
Next, the variable m = 1 and the maximum distance to be searched M =
Compare 2. Since M> m, the process proceeds to step 21 and after incrementing m by 1, the process proceeds to step 17 (steps 20 and 21).

【0061】ステップ17は、距離1の対訳ページ「ペ
ージAとページD」のそれぞれから距離m=2離れたペ
ージを抽出するが、図2のデータは距離m=2離れたペ
ージを有していない。したがって、ステップ18、19
と処理をせずに進み、ステップ20でm=2と探索する
最大距離M=2を比較する。ここでは、M>mであるた
めステップ22に進む(ステップ20)。
Step 17 extracts a page at a distance m = 2 from each of the bilingual pages “Page A and Page D” at a distance 1, and the data in FIG. 2 has a page at a distance m = 2. Absent. Therefore, steps 18, 19
In step 20, m = 2 is compared with the maximum distance M = 2 to be searched. Here, since M> m, the process proceeds to step 22 (step 20).

【0062】ステップ22では、距離1対訳ページ蓄積
手段151に格納された「ページAとページD」と、距
離3対訳ページ蓄積手段152に格納された「ページB
とページE、ページCとページF」が出力される。図6
に、出力される対訳ページを示す(ステップ22)。
In step 22, “page A and page D” stored in the distance 1 bilingual page storage means 151 and “page B” stored in the distance 3 bilingual page storage means 152
And page E, page C and page F "are output. FIG.
2 shows a bilingual page to be output (step 22).

【0063】(B)第2の実施形態の構成 図7は、本発明の対訳情報収集装置の第2の実施形態を
示すブロック構成図である。第2の実施形態において第
1の実施形態を示すブロックには同一の番号を付与し、
第2の実施形態において第1の実施形態と異なるブロッ
クについてのみ詳細に説明する。
(B) Configuration of the Second Embodiment FIG. 7 is a block diagram showing a bilingual information collecting apparatus according to a second embodiment of the present invention. In the second embodiment, the same reference numerals are assigned to blocks indicating the first embodiment,
In the second embodiment, only blocks different from those of the first embodiment will be described in detail.

【0064】図7において、第1の実施形態と異なる構
成は、対訳データ生成手段21と、対訳データ蓄積手段
22と、対訳データ出力手段23である。
In FIG. 7, the configuration different from that of the first embodiment is a bilingual data generating means 21, a bilingual data storing means 22, and a bilingual data outputting means 23.

【0065】対訳データ生成手段21は、対訳ページ決
定手段14で対訳ページと判断された対訳ページのペア
に対し、対訳ページを決定する際に作成した文対応結果
を利用し、一文単位の対応付けを行ない対訳データを生
成するものである。
The bilingual data generating means 21 uses the sentence correspondence result created when determining the bilingual page for the pair of bilingual pages determined to be the bilingual page by the bilingual page determining means 14, and associates the sentence in units of one sentence. To generate bilingual data.

【0066】対応付けを行った一文対が同一言語にもか
かわらず異なる単語によって記述されている場合や、他
の文対とは異なる言語で記述されている場合は、対訳デ
ータとして生成しない。対応付けを行った一文対が同一
言語で記述されている例としては、図2のページAとペ
ージDにおける「English」と「Japanese」のような対
訳ページ間のリンクを示す場合がある。一文対が他の文
対とは異なる言語で記述されている例としては、図2の
ページDの「Japanese」が「日本語」となっている場合
がある。
If one sentence pair that has been associated is described in a different word in spite of the same language, or is described in a language different from other sentence pairs, it is not generated as bilingual data. As an example in which the paired one sentence is described in the same language, there is a case where a link between bilingual pages such as “English” and “Japanese” in page A and page D in FIG. 2 is shown. As an example in which one sentence pair is described in a language different from other sentence pairs, there is a case where “Japanese” on page D in FIG. 2 is “Japanese”.

【0067】対訳データ生成手段21は上記の例の場
合、「English」と「Japanese」という対訳データや、
「English」と「日本語」という対訳データを生成しな
い。対訳データの生成方法は、例えば文献1に記載され
た方法を用いることができる。
In the case of the above example, the bilingual data generating means 21 converts bilingual data “English” and “Japanese”,
Do not generate bilingual data of "English" and "Japanese". As a method of generating the bilingual data, for example, a method described in Document 1 can be used.

【0068】対訳データ蓄積手段22は、対訳データ生
成手段21が対訳ページと判断した対訳ページのペアに
ついて生成した対訳データを格納するものである。対訳
ページ候補蓄積手段13と同様に、対訳ページのペアか
ら対訳ページ候補を探索する距離mに応じて複数の対訳
データ蓄積手段を有し、対訳ページ候補蓄積手段13が
有する各候補蓄積手段と対応している。
The bilingual data storage unit 22 stores the bilingual data generated for the pair of bilingual pages determined by the bilingual data generating unit 21 to be a bilingual page. Similar to the bilingual page candidate accumulating means 13, the bilingual page candidate accumulating means 13 has a plurality of bilingual data accumulating means in accordance with a distance m for searching for a bilingual page candidate from a pair of bilingual pages. are doing.

【0069】ここでは、距離1対訳データ蓄積手段22
1と距離3対訳データ蓄積手段222を有する。距離1
対訳データ蓄積手段221と距離3対訳データ蓄積手段
222は、それぞれ距離1対訳ページ候補蓄積手段13
1と距離3対訳ページ候補蓄積手段132に対応してい
る。
Here, the distance 1 bilingual data storage means 22
1 and distance 3 bilingual data storage means 222 is provided. Distance 1
The bilingual data storage unit 221 and the distance 3 bilingual data storage unit 222 respectively store the bilingual page candidate storage unit 13.
1 and distance 3 correspond to the bilingual page candidate storage unit 132.

【0070】距離1対訳データ蓄積手段221は、距離
1対訳ページ蓄積手段151に蓄積されている対訳ペー
ジ決定手段14によって対訳ページと決定した対訳ペー
ジのペアについて対訳データ生成手段21が生成した対
訳データを蓄積する。
The bilingual data storage unit 221 stores bilingual data generated by the bilingual data generation unit 21 for a pair of bilingual pages determined as bilingual pages by the bilingual page determination unit 14 stored in the bilingual page storage unit 151. To accumulate.

【0071】距離3対訳データ蓄積手段222は、距離
3対訳ページ候補蓄積手段132に蓄積された距離3の
対訳ページ候補の中から、対訳ページ決定手段14によ
って対訳ページと決定したページのペアについて対訳デ
ータ生成手段21が生成した対訳データを蓄積する。
The distance 3 bilingual data storage unit 222 translates a pair of pages determined as a bilingual page by the bilingual page determination unit 14 from the bilingual page candidates of the distance 3 stored in the distance 3 bilingual page candidate storage unit 132. The bilingual data generated by the data generating means 21 is stored.

【0072】対訳データ出力手段23は、対訳データ蓄
積手段22に蓄積された対訳データを出力するものであ
る。ここでは、距離1対訳データ蓄積手段221と距離
3対訳データ蓄積手段222に蓄積された対訳ページを
出力する。
The bilingual data output means 23 outputs the bilingual data stored in the bilingual data storage means 22. Here, the bilingual pages stored in the distance 1 bilingual data storage unit 221 and the distance 3 bilingual data storage unit 222 are output.

【0073】(B−1)第2の実施形態の動作 図8は、本発明の対訳情報収集装置の第2実施形態の動
作を示すフローチャートである。第1の実施形態の動作
を示す図3のフローチャートと同様のステップには同一
の番号を付与し、第2の実施形態において、第1の実施
形態と異なる対訳データ生成手段21に係るステップ2
3、25と、対訳データ蓄積手段22に係る24、26
について詳細に説明する。
(B-1) Operation of the Second Embodiment FIG. 8 is a flowchart showing the operation of the second embodiment of the bilingual information collecting apparatus of the present invention. The same steps as those in the flowchart of FIG. 3 showing the operation of the first embodiment are given the same numbers, and in the second embodiment, the same steps as those in the bilingual data generation means 21 which are different from those of the first embodiment are performed in step 2.
3, 25, and 24, 26 relating to the bilingual data storage means 22
Will be described in detail.

【0074】ステップ23では、対訳データ生成手段2
1が、距離1対訳ページ蓄積手段151に格納された対
訳ページであると決定されたペアに対し、対訳ページを
決定する際に作成した文対応結果を利用して対訳データ
を作成する(ステップ23)。
In step 23, the bilingual data generating means 2
For a pair determined to be a bilingual page stored in the distance 1 bilingual page storage means 151, bilingual data is created using the sentence correspondence result created when the bilingual page is determined (step 23). ).

【0075】ステップ24では、ステップ23で生成し
た距離1の対訳データを、距離1対訳データ蓄積手段2
21に格納する。図9に距離1対訳データ蓄積手段22
1に格納された対訳データを示す。図2のページAとペ
ージDに記載されている[English]と[Japanese]は同
一言語で記述されているため対訳データとはしない(ス
テップ24)。
At step 24, the bilingual data of distance 1 generated at step 23 is stored in the distance 1 bilingual data storage means 2.
21. FIG. 9 shows distance 1 bilingual data storage means 22.
1 shows the bilingual data stored in No. 1. [English] and [Japanese] described on page A and page D in FIG. 2 are not translated data because they are described in the same language (step 24).

【0076】ステップ25では、ステップ18で対訳ペ
ージであると判断した距離zの対訳ページのペアに対し
て対訳データを生成する(ステップ25)。
At step 25, bilingual data is generated for a pair of bilingual pages having a distance z determined to be a bilingual page at step 18 (step 25).

【0077】ステップ26では、ステップ25で生成し
た距離zの対訳データを、距離zの対訳データ蓄積手段
222に格納する(ステップ26)。
In step 26, the bilingual data of the distance z generated in the step 25 is stored in the bilingual data storage means 222 of the distance z (step 26).

【0078】次に、図2に示すWWWデータのリンク例
を用いて、具体的に処理の流れを説明する。
Next, the flow of the processing will be specifically described using the link example of the WWW data shown in FIG.

【0079】第1の実施形態に示す動作に基づくと、ス
テップ14において、距離1の対訳ページとして距離1
対訳ページ蓄積手段151に格納されるのは「ページA
とページD」である。
Based on the operation shown in the first embodiment, in step 14, the distance 1 is set as the bilingual page of the distance 1.
What is stored in the bilingual page storage means 151 is “page A
And page D ".

【0080】したがって、ステップ23では、距離1対
訳ページ蓄積手段151に格納された「ページAとペー
ジD」に対して対訳データを生成し、ステップ24で
は、ステップ23で生成した対訳データを距離1対訳デ
ータ蓄積手段221に格納する(ステップ23、2
4)。
Therefore, in step 23, bilingual data is generated for “page A and page D” stored in the distance 1 bilingual page storage means 151, and in step 24, the bilingual data generated in step 23 is converted to distance 1. It is stored in the bilingual data storage means 221 (steps 23 and 2).
4).

【0081】また、第1の実施形態に示す動作に基づく
と、ステップ18において対訳ページであると判断され
るのは「ページBとページE、ページCとページF」で
ある。
Further, based on the operation shown in the first embodiment, it is “page B and page E, page C and page F” that are determined to be the bilingual pages in step 18.

【0082】したがって、ステップ25では、ステップ
18で対訳ページと判断した「ページBとページE、ペ
ージCとページF」に対して対訳データを生成し、ステ
ップ26では、ステップ25で生成した対訳データを距
離3対訳データ蓄積手段222に格納する(ステップ2
5、26)。
Therefore, in step 25, bilingual data is generated for “page B and page E, page C and page F” determined to be the bilingual page in step 18, and in step 26, the bilingual data generated in step 25 is generated. Is stored in the distance 3 bilingual data storage means 222 (step 2).
5, 26).

【0083】(C)第3の実施形態の構成 図10は、本発明の対訳情報収集装置の第3の実施形態
を示すブロック構成図である。第3の実施形態において
第1の実施形態を示すブロックには同一の番号を付与
し、第3の実施形態において第1の実施形態と異なるブ
ロックについてのみ詳細に説明する。
(C) Configuration of Third Embodiment FIG. 10 is a block diagram showing a third embodiment of the bilingual information collecting apparatus according to the present invention. In the third embodiment, the same reference numerals are given to the blocks indicating the first embodiment, and only the blocks different from the first embodiment in the third embodiment will be described in detail.

【0084】第3の実施形態は第1の実施形態を適用し
て、複数の探索開始点から対訳ページを見つけるといっ
た応用を行う際に適するものである。また、全く同じ内
容のページが別のURLを有することもあるので、その
ような場合にも対応可能である。
The third embodiment is suitable for the application of the first embodiment, such as finding a bilingual page from a plurality of search start points. Also, since a page having exactly the same content may have a different URL, it is possible to cope with such a case.

【0085】図10において、第1の実施形態と異なる
構成は、対訳ページ決定手段31と、非対訳ページ蓄積
手段32である。
In FIG. 10, the configuration different from that of the first embodiment is a bilingual page determining means 31 and a non-bilingual page storage means 32.

【0086】対訳ページ決定手段31は、対訳ページ候
補蓄積手段13に蓄積された対訳ページ候補のペアが、
対訳ページであるかの判断をする最初の処理として、非
対訳ページ蓄積手段32に、対訳ページ候補のペアと同
じ名称のページが格納されているかどうかを調べる。非
対訳ページ蓄積手段32に対訳ページ候補のペアと同じ
名称のページが格納されている場合は、即座に非対訳ペ
ージである判断する。
The bilingual page determination means 31 converts the pair of bilingual page candidates stored in the bilingual page candidate storage means 13 into
As the first process of determining whether the page is a bilingual page, it is checked whether or not a page having the same name as the pair of the bilingual page candidate is stored in the non-bilingual page storage unit 32. If a page having the same name as the pair of the translation page candidates is stored in the non-translation page storage unit 32, it is immediately determined that the page is a non-translation page.

【0087】また、非対訳ページ蓄積手段32に対訳ペ
ージ候補のペアと同じ名称のページが格納されていない
場合は、対訳ページ候補の内容が有するハッシュ値をそ
れぞれの対訳ページ候補に対して求める。ハッシュ値は
一例として、インターネットで頻繁に使用されているM
D5などが使用できる。求めた対訳ページ候補のハッシ
ュ値と非対訳ページ蓄積手段32に格納された非対訳ペ
ージのハッシュ値とを比較して、同一ページのペアであ
るかを判断する。
If a page having the same name as the pair of the translated page candidates is not stored in the non-translated page storage means 32, a hash value of the contents of the translated page candidates is obtained for each of the translated page candidates. The hash value is, for example, M which is frequently used on the Internet.
D5 or the like can be used. The obtained hash value of the bilingual page candidate is compared with the hash value of the non-bilingual page stored in the non-bilingual page storage unit 32 to determine whether the pair is the same page.

【0088】ハッシュ値が同一である場合は、非対訳ペ
ージ蓄積手段32に格納されたハッシュ値が等しい非対
訳ページのペアと対訳ページ候補のペアとの内容が等し
いかどうかを調べ、内容が等しい場合は同一ページのペ
アであるとして非対訳ページと判断する。内容が等しい
かの判断方法は、例えば、2つのページの先頭からn文
字づつ等しい文字であるかを調べる方法がある。n=1
で300文字のページの場合は、300回の文字比較を
行い内容が等しいペアであるかを判断する。
If the hash values are the same, it is checked whether or not the contents of the pair of untranslated pages and the pair of translated page candidates having the same hash value stored in the non-translated page storage means 32 are equal. In this case, the page is determined to be a pair of the same page, and is determined to be a non-translated page. As a method of determining whether the contents are the same, for example, there is a method of checking whether or not n characters from the head of two pages are the same character. n = 1
In the case of a page of 300 characters, the character comparison is performed 300 times to determine whether the pair has the same contents.

【0089】また、ハッシュ値や内容が異なる場合は、
第1の実施形態と同様にして詳細に対訳ページであるか
どうかを判断する。詳細な判断をした後、非対訳ページ
と判断した対訳ページ候補は、非対訳ページ蓄積手段3
2に蓄積する。
If the hash values and contents are different,
It is determined whether the page is a bilingual page in detail as in the first embodiment. After making the detailed determination, the translated page candidate determined to be a non-translated page is stored in the non-translated page storage unit 3.
Store in 2.

【0090】非対訳ページ蓄積手段32は、対訳ページ
決定手段31が対訳ページでないと判断した対訳ページ
候補のペアを蓄積するものであり、ページ名称とハッシ
ュ値からなる。
The non-translated page storage means 32 stores a pair of translated page candidates which the translated page determination means 31 has determined not to be a translated page, and includes a page name and a hash value.

【0091】(C−1)第3の実施形態の動作 図11は、本発明の対訳情報収集装置の第3実施形態の
動作を示すフローチャートである。第1の実施形態の動
作を示す図3のフローチャートと同様のステップには同
一の番号を付与し、第3の実施形態において、第1の実
施形態と異なる対訳ページ決定手段31に係るステップ
31、33と、非対訳ページ蓄積手段32に係るステッ
プ32、34について詳細に説明する。
(C-1) Operation of Third Embodiment FIG. 11 is a flowchart showing the operation of the third embodiment of the bilingual information collecting apparatus of the present invention. The same steps as those in the flowchart of FIG. 3 showing the operation of the first embodiment are denoted by the same reference numerals, and in the third embodiment, steps 31, 31 33 and steps 32 and 34 relating to the untranslated page storage means 32 will be described in detail.

【0092】図12に、対訳ページ決定手段31の処理
(ステップ31、33)を示す。まず、対訳ページ決定
手段31は、対訳ページ候補蓄積手段13に蓄積された
対訳ページ候補のペアと同じ名称のページが、非対訳ペ
ージ蓄積手段32に格納されているかどうかを判断す
る。格納されている場合はステップ336に進み、格納
されていない場合はステップ332に進む(ステップ3
31)。
FIG. 12 shows the processing (steps 31 and 33) of the bilingual page determination means 31. First, the bilingual page determination unit 31 determines whether a page having the same name as the pair of the bilingual page candidates stored in the bilingual page candidate storage unit 13 is stored in the non-bilingual page storage unit 32. If it is stored, the process proceeds to step 336; otherwise, the process proceeds to step 332 (step 3).
31).

【0093】ステップ332では、対訳ページ候補のペ
アの内容のハッシュ値を計算する(ステップ332)。
In step 332, the hash value of the contents of the pair of the translation page candidates is calculated (step 332).

【0094】次に、ステップ332で計算したハッシュ
値と等しいハッシュ値を有するページのペアが非対訳ペ
ージ蓄積手段32に存在するかどうかを判断し、存在す
る場合はステップ334に進み、存在しない場合はステ
ップ335に進む(ステップ333)。
Next, it is determined whether or not a pair of pages having a hash value equal to the hash value calculated in step 332 exists in the non-translated page storage means 32. If so, the process proceeds to step 334; Goes to step 335 (step 333).

【0095】ステップ334では、ステップ333でハ
ッシュ値が等しいと判断されたページのペアと対訳ペー
ジ候補のペアとの内容が等しいかどうかを比較する(ス
テップ334)。内容が等しい場合はステップ336に
進み、内容が異なる場合はステップ335に進む(ステ
ップ334)。
In step 334, it is determined whether or not the contents of the pair of pages determined to have the same hash value in step 333 are equal to the contents of the pair of bilingual page candidates (step 334). If the contents are the same, the process proceeds to step 336; if the contents are different, the process proceeds to step 335 (step 334).

【0096】ステップ335は、対訳ページ候補のペア
に対して、第1の実施形態と同様に、詳細に対訳ページ
であるかを調べる(ステップ335)。ステップ336
は、対訳ページ候補のペアは、対訳ページでないと判断
する(ステップ336)。
In step 335, it is checked whether the pair of the translation page candidates is a translation page in detail, as in the first embodiment (step 335). Step 336
Determines that the pair of bilingual page candidates is not a bilingual page (step 336).

【0097】ステップ32、34では、ステップ31、
33において、対訳ページでないと判断した対訳ページ
候補のペアのページ名称とハッシュ値のペアを非対訳ペ
ージ蓄積手段32に蓄積する(ステップ32、34)。
In steps 32 and 34, step 31,
At 33, a pair of the page name and the hash value of the pair of the translated page candidates determined to be not the translated page is stored in the non-translated page storage means 32 (steps 32 and 34).

【0098】次に、図2に示すWWWデータのリンク例
を用いて、具体的に処理の流れを説明する。図2に示す
ページB、ページC、ページE、ページFはそれぞれ別
の名称としてページK、ページO、ページH、ページG
を有しているとする。また、同一内容を示すページのハ
ッシュ値は等しく、同一内容ではないページのハッシュ
値は異なるものとする。
Next, the flow of the processing will be specifically described using the link example of the WWW data shown in FIG. Page B, page C, page E, and page F shown in FIG. 2 have different names, respectively, page K, page O, page H, and page G.
Is assumed. Also, assume that pages having the same content have the same hash value, and pages that do not have the same content have different hash values.

【0099】第1の実施形態の動作に基づくと、ステッ
プ12において距離1の対訳ページ候補となる対訳ペー
ジ候補のペアは、図4に示す「ページAとページB、ペ
ージAとページC、ページAとページD」である。
According to the operation of the first embodiment, in step 12, the pair of the bilingual page candidates which are the bilingual page candidates with the distance 1 are “page A and page B, page A and page C, page A and page C” shown in FIG. A and page D ".

【0100】図12のステップ331では、まず、距離
1対訳ページ候補蓄積手段131に蓄積された対訳ペー
ジ候補のペア「ページAとページB、ページAとページ
C、ページAとページD」と同一名称のページが、非対
訳ページ蓄積手段32に格納されているかどうかを判断
する。
In step 331 of FIG. 12, first, the same as the pair of bilingual page candidates “Page A and Page B, Page A and Page C, Page A and Page D” stored in the distance 1 bilingual page candidate storing means 131 It is determined whether the page with the name is stored in the non-translated page storage unit 32.

【0101】図13に非対訳ページ蓄積手段32を示
す。同一名称の対訳ページ候補のペアが無いためステッ
プ332に進み、ステップ332は対訳ページ候補のペ
ア「ページAとページB、ページAとページC、ページ
AとページD」のハッシュ値をそれぞれ求める(ステッ
プ331、332)。
FIG. 13 shows the non-translated page storage means 32. Since there is no parallel translation page candidate pair having the same name, the process proceeds to step 332, where step 332 obtains hash values of the translation page candidate pairs “Page A and Page B, Page A and Page C, and Page A and Page D” respectively ( Steps 331, 332).

【0102】次に、求めたハッシュ値と等しいハッシュ
値を有する非対訳ページのペアが非対訳ページ蓄積手段
32に存在するかどうかを判断する。ここでは、一致す
るページが存在しないのでステップ335に進み、詳細
に対訳ページであるかどうかを調べ、「ページAとペー
ジD」が対訳ページであると判断する。(ステップ33
3、335)。
Next, it is determined whether or not a pair of non-translated pages having a hash value equal to the obtained hash value exists in the non-translated page storage means 32. Here, since there is no matching page, the process proceeds to step 335 to check in detail whether the page is a bilingual page, and determines that “page A and page D” are bilingual pages. (Step 33
3, 335).

【0103】ステップ32では、ステップ31で対訳ペ
ージでないと判断された、「ページAとページB、ペー
ジAとページC」を非対訳ページ蓄積手段32に蓄積す
る(ステップ32)。
In step 32, "page A and page B, page A and page C", which are determined to be non-translated pages in step 31, are stored in the non-translated page storage means 32 (step 32).

【0104】また、第1の実施形態の動作に基づくと、
ステップ17において距離3対訳ページ候補として、距
離3対訳ページ候補蓄積手段132に格納されるのは
「ページBとページE、ページBとページF、ページC
とページE、ページCとページF」である。
Further, based on the operation of the first embodiment,
In Step 17, the distance 3 bilingual page candidates stored in the distance 3 bilingual page candidate storage means 132 are “page B and page E, page B and page F, and page C”.
And page E, page C and page F ".

【0105】したがって、ステップ331では、距離3
対訳ページ候補蓄積手段132に蓄積された「ページB
とページE、ページBとページF、ページCとページ
E、ページCとページF」と同一名称のページが、非対
訳ページ蓄積手段32に格納されているかどうかを判断
する。通常、すべての距離3対訳ページ候補に対して処
理を行うが、ここでは、「ページBとページF」の処理
について説明する。
Therefore, in step 331, the distance 3
“Page B” stored in the bilingual page candidate storage unit 132
And page E, page B and page F, page C and page E, and page C and page F ”are stored in the non-translated page storage means 32. Normally, the processing is performed on all the distance 3 bilingual page candidates. Here, the processing of “page B and page F” will be described.

【0106】まず、ステップ331では、非対訳ページ
蓄積手段32には同一名称の対訳ページ候補のペアが無
いためステップ332に進み、ステップ332は対訳ペ
ージ候補のペア「ページBとページF」のハッシュ値を
それぞれ求める。ここでページBのハッシュ値は「3E
4F57」でページFのハッシュ値は「2E1F51」
であるとする(ステップ331、332)。
First, in step 331, since the non-translated page storage means 32 does not have a pair of translated page candidates having the same name, the process proceeds to step 332. Find the value for each. Here, the hash value of page B is “3E
4F57 ”and the hash value of page F is“ 2E1F51 ”
(Steps 331 and 332).

【0107】次に、求めたハッシュ値と等しいハッシュ
値を有する非対訳ページのペアが非対訳ページ蓄積手段
32に存在するかどうかを判断する。ここでは、図13
に示す「ページKとページG」のハッシュ値が「ページ
BとページF」のハッシュ値とそれぞれ一致するため、
ステップ334に進む(ステップ333)。
Next, it is determined whether or not a non-translated page pair having a hash value equal to the obtained hash value exists in the non-translated page storage unit 32. Here, FIG.
Since the hash values of “Page K and Page G” shown in FIG.
Proceed to step 334 (step 333).

【0108】ステップ334では、ハッシュ値が一致し
た「ページKとページG」の内容が「ページBとページ
F」の内容と一致しているかを調べる。この場合は、
「ページKとページB」の内容と「ページGとページ
F」の内容がそれぞれ一致するかを判断する(ステップ
334)。ここでは、ページ内容がそれぞれ一致するた
め、ステップ336に進み、「ページBとページF」が
対訳ページでないと判断する(ステップ336)。
In step 334, it is checked whether or not the contents of “Page K and Page G” whose hash values match each other match the contents of “Page B and Page F”. in this case,
It is determined whether the contents of “page K and page B” and the contents of “page G and page F” match (step 334). Here, since the page contents match each other, the process proceeds to step 336, where it is determined that “page B and page F” are not bilingual pages (step 336).

【0109】すべての距離3対訳ページ候補に対して対
してステップ331から336の処理を行うと、非対訳
ページと判断されるのは「ページBとページF、ページ
CとページE」となり、「ページBとページE、ページ
CとページF」は対訳ページであると判断される。
When the processing of steps 331 to 336 is performed for all the distance 3 bilingual page candidates, the non-translated pages are determined to be “page B and page F, page C and page E”, and “ "Page B and page E, and page C and page F" are determined to be bilingual pages.

【0110】ステップ34では、ステップ31で対訳ペ
ージで判断された、「ページBとページF、ページCと
ページE」を非対訳ページ蓄積手段32に蓄積する(ス
テップ34)。
In step 34, "page B and page F, page C and page E" determined in the translation page in step 31 are stored in the non-translation page storage means 32 (step 34).

【0111】(D)他の実施の形態 (D−1)第3の実施形態において、非対訳ページ蓄積
手段32は非対訳ページのペアを蓄積する際はページ名
称のみを蓄積する構成でもよい。図14に、ページ名称
のみからなる非対訳ページ蓄積手段32を示す。この場
合は、対訳ページ決定手段31は対訳ページ候補のハッ
シュ値を求める必要はなく、以下の処理を行う。まず、
対訳ページ決定手段31は、非対訳ページ蓄積手段32
に、対訳ページ候補のペアと同じ名称のページが格納さ
れているかどうかを調べ、同じ名称のページが格納され
ている場合は、即座に非対訳ページと判断する。非対訳
ページ蓄積手段32に格納されいていない場合は第1の
実施形態と同様にして詳細に対訳ページであるかどうか
を判断する。詳細な判断をした後、非対訳ページと判断
した対訳ページ候補は、非対訳ページ蓄積手段32に蓄
積する。
(D) Other Embodiments (D-1) In the third embodiment, when storing a pair of non-translated pages, the non-translated page storage means 32 may store only the page name. FIG. 14 shows an untranslated page storage means 32 consisting only of page names. In this case, the bilingual page determination means 31 does not need to obtain the hash value of the bilingual page candidate, and performs the following processing. First,
The bilingual page determination means 31 is a non-translation page storage means 32
Then, it is checked whether or not a page having the same name as the pair of translation page candidates is stored. If a page with the same name is stored, it is immediately determined to be a non-translation page. If it is not stored in the non-translated page storage means 32, it is determined in detail as in the first embodiment whether the page is a translated page. After making the detailed determination, the bilingual page candidate determined to be a non-translated page is stored in the non-translated page storage unit 32.

【0112】(D−2)対訳ページ候補蓄積手段13、
対訳ページ蓄積手段15、対訳データ蓄積手段22、非
対訳ページ蓄積手段32にページのペアを格納する方法
としては、それぞれのペアのページを一意に特定できる
URLのような名前であってもよい。
(D-2) Bilingual page candidate storage means 13,
As a method of storing a pair of pages in the bilingual page accumulating unit 15, the bilingual data accumulating unit 22, and the non-translated page accumulating unit 32, a name such as a URL that can uniquely specify the page of each pair may be used.

【0113】(D−3)対訳ページ決定手段14、31
において対訳ページであるかの判断は、文献1の技術に
限るものではない。例えば、2つのページのタグ数をカ
ウントしてカウント数が一致した場合に対訳ページと判
断する。また、タグの出現順位に基づいて対訳ページと
判断する等、様々な方法を適用することができる。この
ように対訳ページ決定手段14、31において文対応を
作成しない場合は、文対応結果を記憶する記憶手段は必
要ない。
(D-3) Bilingual page determination means 14, 31
The determination of whether the page is a bilingual page is not limited to the technique of Document 1. For example, the tag number of two pages is counted, and when the count numbers match, it is determined to be a bilingual page. Also, various methods can be applied, such as judging a translation page based on the appearance order of tags. When the sentence correspondence is not created in the bilingual page determination means 14 and 31 as described above, there is no need for a storage means for storing the sentence correspondence result.

【0114】(D−4)対訳データ生成手段21は、必
要な対訳データを生成する手段であって文単位の対訳デ
ータを生成することに限るものではない。例えば、表の
中の単語のみを対訳データとして生成する場合がある。
(D-4) The bilingual data generation means 21 is a means for generating necessary bilingual data, and is not limited to generating bilingual data in sentence units. For example, only words in a table may be generated as bilingual data.

【0115】また、対訳ページ決定手段14、31にお
いてタグが挿入された文が対応付けられた場合は、タグ
を除去した対訳データを出力するものとする。例として
「This is <Italic>a book </Italis>」と「これは<Ita
lic>本 </Italis>です」が対応付けられた場合はタグを
除去した「This is a book 」と「これは本です」が対
訳データとして出力される。
When the translated page determination means 14 and 31 correspond to the sentence in which the tag is inserted, the translated data with the tag removed is output. For example, "This is <Italic> a book </ Italis>" and "This is <Ita
lic> book </ Italis>"is output as bilingual data of" This is a book "and" This is a book "with the tag removed.

【0116】また、対訳ページ決定手段14、31にお
いて、文対応結果を作成しない場合であって文単位の対
訳データが必要な場合は、対訳データ生成手段21にお
いて文単位の対応付けを行う構成にしても良い。
Further, in the case where the sentence correspondence result is not created in the bilingual page determination means 14 and 31 and bilingual data in sentence units is required, the bilingual data generation means 21 performs correspondence in sentence units. May be.

【0117】(D−5)上記(D−3)と(D−4)に
記載した通り、対訳ページ決定手段14、31と対訳デ
ータ生成手段21は様々な方法を適用することができる
ため、両手段を適宜組み合わせて構成することが可能で
ある。
(D-5) As described in (D-3) and (D-4) above, the bilingual page determination means 14, 31 and the bilingual data generation means 21 can apply various methods. It is possible to configure by appropriately combining both means.

【0118】[0118]

【発明の効果】以上に説明したとおり、本発明の第1の
実施形態では、対訳ページとなるページのペアは、それ
ぞれに直接リンクが張られているか、あるいは、そのペ
アを結ぶリンクの経路の中心に、直接リンクが張られた
別の対訳ページのペアが存在することが多いという性質
を利用することで、対訳ページ間の距離が1より離れて
いるページ同士が対訳ページのペアであるかどうかを調
べる探索範囲を適切に絞り込むことができる。
As described above, according to the first embodiment of the present invention, a pair of pages serving as a bilingual page is directly linked to each other, or a path of a link connecting the pair is used. By taking advantage of the fact that there is often a pair of parallel translation pages with a direct link at the center, it is determined whether pages whose bilingual pages are separated by more than 1 are bilingual page pairs. It is possible to appropriately narrow the search range for checking whether or not.

【0119】また、第2の実施形態では、対訳データを
生成する際に、対訳ページ決定手段14が対訳ページ候
補のペアが対訳ページであるかどうかを判断するときに
作成する対訳ページ候補の文対応結果を利用すること
で、対訳ページ出力手段16が出力した対訳ページに基
き一括して対訳データを生成する場合と比較して生成効
率が向上する。
In the second embodiment, when bilingual data is generated, the bilingual page determination means 14 determines whether the bilingual page candidate pair is a bilingual page or not. By using the correspondence result, the generation efficiency is improved as compared with the case where the bilingual data is collectively generated based on the bilingual pages output by the bilingual page output unit 16.

【0120】また、第3の実施形態では、一度非対訳ペ
ージであると判断した非対訳ページのペアを非対訳ペー
ジ蓄積手段32に蓄積することで、複数の探索始点から
対訳ページを収集するような場合において、再度対訳ペ
ージ候補が対訳ページであるかどうかを詳細に判断する
必要がなくなり処理速度を向上することができる。
In the third embodiment, a pair of non-translated pages once determined to be non-translated pages is stored in the non-translated page storage means 32, so that bilingual pages are collected from a plurality of search start points. In such a case, it is not necessary to determine again whether the translation page candidate is a translation page, and the processing speed can be improved.

【0121】さらに、非対訳ページ蓄積手段32が非対
訳ページの名称とその非対訳ページの内容を示すハッシ
ュ値を蓄積し、対訳ページのペアに対して計算したハッ
シュ値と非対訳ページ蓄積手段32に蓄積されているハ
ッシュ値を比較することで、同一内容のページを複数の
名称で表現している場合においても再度対訳ページであ
るかどうかを詳細に判断する必要がなくなる。
Further, the untranslated page storage means 32 stores the name of the untranslated page and the hash value indicating the content of the untranslated page, and calculates the hash value calculated for the pair of translated pages and the untranslated page storage means 32. By comparing the hash values stored in the "..", even if a page having the same content is represented by a plurality of names, it is not necessary to determine again whether the page is a bilingual page in detail.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の対訳情報収集装置の第1の実施形態を
示すブロック図である。
FIG. 1 is a block diagram showing a first embodiment of a bilingual information collecting apparatus according to the present invention.

【図2】WWWデータのリンク例を示す図である。FIG. 2 is a diagram showing a link example of WWW data.

【図3】本発明の対訳情報収集装置の第1の実施形態の
動作を示すフローチャートである。
FIG. 3 is a flowchart showing an operation of the first embodiment of the bilingual information collecting apparatus of the present invention.

【図4】距離1対訳ページ候補蓄積手段の例を示す図で
ある。
FIG. 4 is a diagram illustrating an example of a distance 1 bilingual page candidate storage unit.

【図5】距離3対訳ページ候補蓄積手段の例を示す図で
ある。
FIG. 5 is a diagram illustrating an example of a distance 3 bilingual page candidate storage unit.

【図6】対訳ページの出力例を示す図である。FIG. 6 is a diagram showing an output example of a bilingual page.

【図7】本発明の対訳情報収集装置の第2の実施形態を
示すブロック図である。
FIG. 7 is a block diagram showing a second embodiment of the bilingual information collecting apparatus of the present invention.

【図8】本発明の対訳情報収集装置の第2の実施形態の
動作を示すフローチャートである。
FIG. 8 is a flowchart showing the operation of the second embodiment of the bilingual information collecting apparatus of the present invention.

【図9】対訳データの出力例を示す図である。FIG. 9 is a diagram showing an output example of bilingual data.

【図10】本発明の対訳情報収集装置の第3の実施形態
を示すブロック図である。
FIG. 10 is a block diagram showing a third embodiment of the bilingual information collecting apparatus of the present invention.

【図11】本発明の対訳情報収集装置の第3の実施形態
の動作を示すフローチャートである。
FIG. 11 is a flowchart showing an operation of the third embodiment of the bilingual information collecting apparatus of the present invention.

【図12】図11のステップ31およびステップ33の
動作を示すフローチャートである。
FIG. 12 is a flowchart showing operations of steps 31 and 33 of FIG. 11;

【図13】非対訳ページ蓄積手段の例を示す図(1)で
ある。
FIG. 13 is a diagram (1) illustrating an example of an untranslated page storage unit;

【図14】非対訳ページ蓄積手段の例を示す図(2)で
ある。
FIG. 14 is a diagram (2) illustrating an example of an untranslated page storage unit;

【符号の説明】[Explanation of symbols]

11・・探索始点入力手段、12・・対訳ページ候補生
成手段、13・・対訳ページ候補蓄積手段、131・・
距離1対訳ページ候補蓄積手段、132・・距離3対訳
ページ候補蓄積手段、14、31・・対訳ページ決定手
段、15・・対訳ページ蓄積手段、151・・距離1対
訳ページ蓄積手段、152・・距離3対訳ページ蓄積手
段、16・・対約ページ出力手段、21・・対訳データ
生成手段、22・・対訳データ蓄積手段、221・・距
離1対訳データ蓄積手段、222・・距離3対訳データ
蓄積手段、23・・対訳データ出力手段、32・・非対
訳ページ蓄積手段。
11 ... search start point input means, 12 ... bilingual page candidate generation means, 13 ... bilingual page candidate storage means, 131 ...
Distance 1 bilingual page candidate storing means, 132... Distance 3 bilingual page candidate storing means, 14, 31... Bilingual page determining means, 15... Bilingual page storing means, 151... Distance 1 bilingual page storing means, 152. Distance 3 bilingual page storage means, 16... About page output means, 21... Bilingual data generating means, 22... Bilingual data storing means, 221... Distance 1 bilingual data storing means, 222. Means, 23..Translation data output means, 32..Untranslated page storage means.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 池野 篤司 東京都港区虎ノ門1丁目7番12号 沖電気 工業株式会社内 (72)発明者 下畑 さより 東京都港区虎ノ門1丁目7番12号 沖電気 工業株式会社内 Fターム(参考) 5B075 KK07 ND20 NK02 NK44 PP02 PP03 PQ02 PQ42 QS20 UU06 5B082 EA00  ──────────────────────────────────────────────────続 き Continuing on the front page (72) Inventor Atsushi Ikeno 1-7-112 Toranomon, Minato-ku, Tokyo Oki Electric Industry Co., Ltd. (72) Inventor Sasara 1-7-112 Toranomon, Minato-ku, Tokyo F term (reference) in Electric Industries, Ltd. 5B075 KK07 ND20 NK02 NK44 PP02 PP03 PQ02 PQ42 QS20 UU06 5B082 EA00

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 直接リンクで結合されていないが間接的
にリンクで結合された2つのページにおいて、該2つの
ページを結ぶリンクの経路の中心に存在する対訳ページ
候補のペアが同一内容の文書を異なる言語で記述した対
訳ページであるかどうかを判断する中心対訳ページ決定
手段と、 前記中心対訳ページ決定手段が対訳ページであると判断
した対訳ページのペアのそれぞれから距離m離れたペー
ジを抽出し、該抽出したページを組み合わせて対訳ペー
ジ候補のペアを生成する対訳ページ候補生成手段と、 前記対訳ページ候補生成手段で生成した対訳ページ候補
のペアが対訳ページであるかどうかを判断する対訳ペー
ジ決定手段と、 前記中心対訳ページ決定手段または前記対訳ページ決定
手段が対訳ページであると判断した対訳ページのペアを
出力する対訳ページ出力手段とを有することを特徴とす
る対訳情報収集装置。
1. A document having two pages that are not linked by a direct link but are linked indirectly by a link and that have a pair of bilingual page candidates existing at the center of the path of the link connecting the two pages. A central bilingual page determining means for determining whether the page is a bilingual page described in a different language, and extracting a page at a distance m from each of the pair of bilingual pages determined by the central bilingual page determining means to be a bilingual page A bilingual page candidate generating unit that generates a pair of bilingual page candidates by combining the extracted pages; and a bilingual page that determines whether the bilingual page candidate pair generated by the bilingual page candidate generating unit is a bilingual page. Determining means; A bilingual page output means for outputting a bilingual information.
【請求項2】 請求項1に記載の対訳情報収集装置にお
いて、 前記対訳ページ候補生成手段に代えて、前記中心対訳ペ
ージ決定手段が対訳ページであると判断した対訳ページ
のペアのそれぞれから距離m離れ、かつ、途中または終
点に該対訳ページを含まないページを抽出し、該抽出し
たページをすべて組み合わせて対訳ページ候補のペアを
生成する対訳ページ候補生成手段を用いることを特徴と
する対訳情報収集装置。
2. The bilingual information collection device according to claim 1, wherein the central bilingual page determination means replaces the bilingual page candidate generating means with a distance m from each of the pair of bilingual pages determined to be a bilingual page. Bilingual information collection characterized by using a bilingual page candidate generating means for extracting a page which is separated and does not include the bilingual page in the middle or at the end point and generates a pair of bilingual page candidates by combining all the extracted pages. apparatus.
【請求項3】 請求項1または2に記載の対訳情報収集
装置において、 同一内容の文書を異なる言語で記述した対訳ページを収
集する探索開始点を入力する探索始点入力手段と、 探索開始点のページと該探索開始点から距離n離れたペ
ージのペアを対訳ページ候補のペアとして生成する第1
の対訳ページ候補生成手段とをさらに有し、 前記中心対訳ページ決定手段に代えて、前記第1の対訳
ページ候補生成手段が生成した対訳ページ候補のペアが
対訳ページであるかどうかを判断する中心対訳ページ決
定手段を用いることを特徴とする対訳情報収集装置。
3. A bilingual information collecting apparatus according to claim 1, wherein a bibliographical page describing the same document in different languages is collected. A first method of generating a pair of a page and a page at a distance n from the search start point as a pair of bilingual page candidates
A bilingual page candidate generating unit for determining whether the pair of bilingual page candidates generated by the first bilingual page candidate generating unit is a bilingual page instead of the central bilingual page determining unit. A bilingual information collecting apparatus, wherein a bilingual page determining means is used.
【請求項4】 請求項1〜3のいずれかに記載の対訳情
報収集装置において、 前記中心対訳ページ決定手段または前記対訳ページ決定
手段で対訳ページであると判断した対訳ページのペアに
基づいて対訳データを生成する対訳データ生成手段と、 前記対訳データ生成手段が生成した対訳データを出力す
る対訳データ出力手段を有することを特徴とする対訳情
報収集装置。
4. The bilingual information collecting device according to claim 1, wherein the central bilingual page determining means or the bilingual page determining means determines a bilingual page based on a pair of bilingual pages. A bilingual information collecting apparatus, comprising: a bilingual data generating unit that generates data; and a bilingual data output unit that outputs the bilingual data generated by the bilingual data generating unit.
【請求項5】 請求項1〜4に記載の対訳情報収集装置
において、 対訳ページではないと判断した対訳ページ候補のペアを
非対訳ページのペアとして蓄積する非対訳ページ蓄積手
段をさらに有し、 前記中心対訳ページ決定手段または前記対訳ページ決定
手段は、対訳ページ候補のペアが前記非対訳ページ蓄積
手段に蓄積された非対訳ページのペアと一致する場合
は、該対訳ページ候補のペアを非対訳ページであると判
断することを特徴とする対訳情報収集装置。
5. The bilingual information collecting apparatus according to claim 1, further comprising: a non-translated page storing means for storing a pair of bilingual page candidates determined to be not a bilingual page as a pair of non-translated pages. The central bilingual page determining means or the bilingual page determining means, when the pair of bilingual page candidates matches the pair of non-bilingual pages stored in the non-bilingual page storage means, unpairs the bilingual page candidate pair. A bilingual information collection device that determines that the page is a page.
【請求項6】 請求項1〜4に記載の対訳情報収集装置
において、 対訳ページではないと判断した対訳ページ候補のペアを
非対訳ページのペアとして、該非対訳ページのペアのペ
ージ名称とページ内容を示す値を蓄積する非対訳ページ
蓄積手段をさらに有し、 前記中心対訳ページ決定手段または前記対訳ページ決定
手段は、対訳ページ候補のペアのページ名称が前記非対
訳ページ蓄積手段に蓄積された非対訳ページのペアのペ
ージ名称と一致するかを判断し、一致する場合は対訳ペ
ージ候補のペアを非対訳ページであると決定し、一致し
ない場合は対訳ページ候補のペアのページ内容を示す値
を求め、前記非対訳ページ蓄積手段に蓄積された非対訳
ページのペアのページ内容を示す値と一致するかを再度
判断し、一致する場合は対訳ページ候補のペアを非対訳
ページであると決定することを特徴とする対訳情報収集
装置。
6. The bilingual information collecting apparatus according to claim 1, wherein a pair of a bilingual page candidate determined not to be a bilingual page is set as a non-bilingual page pair, and a page name and a page content of the non-bilingual page pair. The central bilingual page determining means or the bilingual page deciding means further comprises a non-translated page storing means for storing a value indicating the page name of the pair of bilingual page candidates stored in the non-translated page storing means. Judge whether it matches the page name of the bilingual page pair.If they match, determine the bilingual page candidate pair as a non-bilingual page.If they do not match, enter a value indicating the page content of the bilingual page candidate pair. It is determined again whether the value matches the value indicating the page content of the pair of non-translated pages stored in the non-translated page storage means. Parallel translation information collection apparatus characterized by a pair of as non-translation page determination.
JP25867599A 1999-09-13 1999-09-13 Bilingual information collection device Expired - Fee Related JP3685660B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25867599A JP3685660B2 (en) 1999-09-13 1999-09-13 Bilingual information collection device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25867599A JP3685660B2 (en) 1999-09-13 1999-09-13 Bilingual information collection device

Publications (2)

Publication Number Publication Date
JP2001084258A true JP2001084258A (en) 2001-03-30
JP3685660B2 JP3685660B2 (en) 2005-08-24

Family

ID=17323552

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25867599A Expired - Fee Related JP3685660B2 (en) 1999-09-13 1999-09-13 Bilingual information collection device

Country Status (1)

Country Link
JP (1) JP3685660B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010041517A1 (en) * 2008-10-08 2010-04-15 インターナショナル・ビジネス・マシーンズ・コーポレーション Information collecting device, search engine, information collecting method and program
JP2013521574A (en) * 2010-03-01 2013-06-10 マイクロソフト コーポレーション Characterization and retrieval of semantic objects

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010041517A1 (en) * 2008-10-08 2010-04-15 インターナショナル・ビジネス・マシーンズ・コーポレーション Information collecting device, search engine, information collecting method and program
JP5325229B2 (en) * 2008-10-08 2013-10-23 インターナショナル・ビジネス・マシーンズ・コーポレーション Information collecting apparatus, search engine, information collecting method and program
US8676782B2 (en) 2008-10-08 2014-03-18 International Business Machines Corporation Information collection apparatus, search engine, information collection method, and program
JP2013521574A (en) * 2010-03-01 2013-06-10 マイクロソフト コーポレーション Characterization and retrieval of semantic objects

Also Published As

Publication number Publication date
JP3685660B2 (en) 2005-08-24

Similar Documents

Publication Publication Date Title
US7269544B2 (en) System and method for identifying special word usage in a document
CN110287784B (en) Annual report text structure identification method
JP2002032770A (en) Method and system for processing document and medium
Kallimani et al. Information retrieval by text summarization for an Indian regional language
CN105404677A (en) Tree structure based retrieval method
JP2004318510A (en) Original and translation information creating device, its program and its method, original and translation information retrieval device, its program and its method
JP3594701B2 (en) Key sentence extraction device
JP2004086845A (en) Apparatus, method, and program for expanding electronic document information, and recording medium storing the program
EP2122503B1 (en) A method of filtering sections of a data stream
JP3685660B2 (en) Bilingual information collection device
WO2010026804A1 (en) Approximate collation device, approximate collation method, program, and recording medium
JP4682627B2 (en) Document retrieval apparatus and method
JP4088171B2 (en) Text analysis apparatus, method, program, and recording medium recording the program
JP3253657B2 (en) Document search method
JP2009140411A (en) Text summarization device and text summarization method
Fukushima et al. A fast and accurate method for detecting English-Japanese parallel texts
JP2007026116A (en) Concept search system and concept search method
JP5137140B2 (en) Appearance notation record identification apparatus, deletion rule generation apparatus, method, program, and recording medium
JP2001101184A (en) Method and device for generating structurized document and storage medium with structurized document generation program stored therein
JP5495425B2 (en) Sentence correction program, method, and sentence analysis server for correcting sentences containing unknown words
JP5182960B2 (en) Store name ambiguity resolving apparatus, method, program, and recording medium
JP2011113099A (en) Text correction program and method for correcting text containing unknown word, and text analysis server
KR100283100B1 (en) Statistical Application Extraction Method and Method for Massive Coral
JP3314720B2 (en) String search device
JPH10134081A (en) Method and device for supporting page generation

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050222

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050531

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090610

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090610

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100610

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees