JP2010140373A - Method and device for detecting document group - Google Patents
Method and device for detecting document group Download PDFInfo
- Publication number
- JP2010140373A JP2010140373A JP2008317790A JP2008317790A JP2010140373A JP 2010140373 A JP2010140373 A JP 2010140373A JP 2008317790 A JP2008317790 A JP 2008317790A JP 2008317790 A JP2008317790 A JP 2008317790A JP 2010140373 A JP2010140373 A JP 2010140373A
- Authority
- JP
- Japan
- Prior art keywords
- document
- feature
- document group
- dictionary
- site
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は文書群検出方法及び文書群検出装置に関し、特に、ネットワーク上で提供される文書の集合であって1またはそれ以上のコンピュータによって管理されている所定の文書群を検出する文書群検出方法及び文書群検出装置に関する。 The present invention relates to a document group detection method and a document group detection apparatus, and more particularly to a document group detection method for detecting a predetermined document group which is a set of documents provided on a network and managed by one or more computers. And a document group detection apparatus.
近年、技術の急速な進歩に伴って日々増え続ける専門用語は、紙類に印刷される事典や辞書などで対応することが難しくなっている。一方、ネットワーク上には、このような専門用語を解説した文書の集合であって、1またはそれ以上のコンピュータによって管理されている文書群が存在する。現在最も普及しているものとして、インターネット上で提供されるワールド・ワイド・ウェブ(World Wide Web;以下、WWWとする)には、このような専門用語を解説する文書の集合体である文書群が多数存在する。このようなWWW上の文書はWebページ、文書群または文書群が置いてあるインターネット上での場所はWebサイトと呼ばれる。以下、このように専門用語を解説する文書が集合したWebサイトを、辞書サイトまたは用語解説サイト、Webページを解説ページと呼ぶ。辞書サイトの解説ページは日々更新されており、これらを利用することによって、最新の用語の解説を見ることができる。 In recent years, technical terms that have been increasing day by day due to rapid progress in technology have become difficult to deal with in encyclopedias and dictionaries printed on paper. On the other hand, on the network, there is a group of documents that explain such technical terms and are managed by one or more computers. As the most widespread currently available, the World Wide Web (hereinafter referred to as the WWW) provided on the Internet is a group of documents that explain such technical terms. There are many. Such a document on the WWW is called a web page, a document group, or a place on the Internet where a document group is placed. Hereinafter, a website in which documents that explain technical terms are gathered in this way is called a dictionary site or a term explanation site, and a web page is called an explanation page. The explanation page of the dictionary site is updated daily, and you can see the explanation of the latest term by using these pages.
また、任意のWebページの文中の用語について、自動的にその用語の解説ページへのリンクを貼るシステムがある。このようなシステムは、オートリンクシステムと呼ばれる。オートリンクシステムでは、予め、オートリンク対象の単語と、その単語の解説ページのURL(Uniform Resource Locator)とを関連付けたオートリンク辞書が作成される。そして、対象のHTML(Hyper Text Markup Language)文書の文中にオートリンク辞書に登録された単語を検出すると、単語に関連付けられたURLへのリンクを貼る。こうして作成されたHTML(リンク付き)文書が出力され、ユーザに提供される。 Further, there is a system that automatically puts a link to an explanation page of a term for a term in an arbitrary Web page. Such a system is called an auto link system. In the autolink system, an autolink dictionary that associates a word to be autolinked with a URL (Uniform Resource Locator) of an explanation page of the word is created in advance. When a word registered in the autolink dictionary is detected in the sentence of the target HTML (Hyper Text Markup Language) document, a link to the URL associated with the word is pasted. An HTML (with link) document created in this way is output and provided to the user.
これらのオートリンク辞書を作成するにあたり、各単語とそのリンク先URLとして、辞書サイトに登録されている単語とその解説ページURLの情報を用いることができる。
しかし、ネットワーク上に多数存在するWebサイトの中から辞書サイトを検出するのは容易ではない。Webサイトの検出に一般的に用いられている従来の検索エンジンでは、検索はWebページ単位で行われるため、ページの集合であるWebサイトは人手によって検出しなければならなかった。オートリンク辞書に登録する辞書サイトの検出も、人手によって行われており、辞書サイトの登録や登録情報の定期的なメンテナンスなどの管理にコストがかかっていた。
In creating these auto-link dictionaries, information on the words registered in the dictionary site and the explanation page URL can be used as each word and its link destination URL.
However, it is not easy to detect a dictionary site from a large number of Web sites existing on the network. In a conventional search engine that is generally used for Web site detection, search is performed in units of Web pages. Therefore, a Web site that is a set of pages has to be detected manually. Detection of a dictionary site to be registered in the autolink dictionary is also performed manually, and management such as registration of the dictionary site and periodic maintenance of registration information has been costly.
そこで、Webサイト単位の情報検索を行うため、各ページのメタ情報を利用してリンクタイプに分類し、分類に基づいて親ページを検索してWebサイトの内部構造を推定し、Webサイト単位の検索結果を出力する方法が提案されている(例えば、特許文献1参照)。また、ヒットしたページのURLと、単語の重みを反映したスコアと、によって検索結果の適合度を表す得点サイト単位で算出し、得点順に検索結果を出力する方法も提案されている(例えば、特許文献2参照)。
しかし、従来のネットワーク上の文書群(例えば、Webサイト)単位の検索では、検索された文書群が所望のものであるかどうかが識別されないという問題点があった。
従来のWebサイト単位の検索では、検索にヒットしたページを解析し、その集合体であるWebサイトの内部構造を推定し、内部構造に基づいて検索目的に適合したWebサイトが検出されていた。しかし、検索目的に適合するとは、キーワードなどによる検索要求にマッチングしている度合が高いということであり、Webサイト自体が目的に適合しているかどうかを判断するものではなかった。
However, a conventional search in units of documents (for example, Web sites) on a network has a problem that it is not possible to identify whether the searched documents are desired.
In a conventional search in units of Web sites, pages hit in the search are analyzed, the internal structure of the Web site that is an aggregate of the pages is estimated, and a Web site suitable for the search purpose is detected based on the internal structure. However, conforming to the search purpose means that the degree of matching with a search request by a keyword or the like is high, and does not determine whether the Web site itself is suitable for the purpose.
例えば、オートリンクシステムで文中の用語にその用語の解説をリンクさせる場合、リンク先の情報は、辞書サイトのものであることが望ましい。これは、辞書サイトではないWebページの掲載情報は、情報内容の中立性及び一般性が保証されないことが多いことによる。したがって、単に文中の用語に用語の解説のWebページをリンクさせるだけでは、解説の内容の中立性及び一般性を保証することができない。このため、リンク先として、この種のページを極力排除し、辞書サイトに志向した検索を行う必要がある。 For example, when linking an explanation of a term to a term in a sentence with an auto link system, it is desirable that the linked information is from a dictionary site. This is due to the fact that the neutrality and generality of the information content of web page information that is not a dictionary site is often not guaranteed. Therefore, the neutrality and generality of the content of the explanation cannot be guaranteed simply by linking the term explanation Web page to the term in the sentence. For this reason, it is necessary to eliminate this type of page as much as possible as a link destination and perform a search oriented to a dictionary site.
このような事情から、従来のオートリンクシステムでは、辞書サイトの検出は、人手によって行われていた。しかし、膨大な数のWebサイトから適切な辞書サイトを検出するのは、容易な作業ではない。また、人手による作業であるため辞書の管理コストが高くなり、オートリンクサービスを提供するサービス提供者が頻繁に辞書の追加ができないという問題もある。 For these reasons, in the conventional auto link system, the dictionary site is detected manually. However, detecting an appropriate dictionary site from a huge number of Web sites is not an easy task. In addition, since it is a manual operation, the management cost of the dictionary is high, and there is also a problem that a service provider that provides an auto link service cannot frequently add a dictionary.
また、オートリンクの用途に限らず、用語とそれに関連するページのURLとを対応付けた辞書の整備の自動化は、重要な課題であり、このとき対応付けられるページは、適切なWebサイトの提供するものであることが必須である。 In addition to auto-link usage, it is important to automate the maintenance of a dictionary that associates terms with the URLs of pages associated with them. It is essential to be.
本発明はこのような点に鑑みてなされたものであり、ネットワーク上で提供される目的の文書群を検出する文書群検出方法及び文書群検出装置を提供することを目的とする。 SUMMARY An advantage of some aspects of the invention is that it provides a document group detection method and a document group detection apparatus for detecting a target document group provided on a network.
上記課題を解決するために、ネットワーク上で提供される文書の集合であって1またはそれ以上のコンピュータによって管理されている所定の文書群を検出する文書群検出方法が提供される。この文書群検出方法では、コンピュータによって、収集手順と、特徴集計手順と、文書群判定手順と、文書群を出力する手順と、が実行される。収集手順では、特定文書の配下に複数の配下文書が存在する階層構造を成す文書群を対象にして、特定のキーワードを用いて該配下文書のいずれかを検索する。そして、検索された該配下文書に基づいて特定文書を検出し、特定文書の配下の複数の配下文書を収集する。特徴集計手順では、収集された文書群の特定文書及び複数の配下文書それぞれについて、配下文書内の任意の文字列に付加される特定の他文書との関連を示す連結情報を抽出する。そして、該配下文書と、関連付けられた連絡先文書とで特定の関係となる状態数を集計する。文書群判定手順では、特定の関係を用いた条件である特徴ルールが格納される特徴ルール記憶手段から該特徴ルールを読み出す。そして、文書群の特定の関係の状態数が特徴ルールの条件を満たしているかを判定し、条件を満たしている文書群を対象文書群候補に登録する。文書群を出力する手順では、対象文書群候補に登録された文書群が出力される。 In order to solve the above problems, there is provided a document group detection method for detecting a predetermined document group which is a set of documents provided on a network and managed by one or more computers. In this document group detection method, a collection procedure, a feature counting procedure, a document group determination procedure, and a procedure for outputting a document group are executed by a computer. In the collection procedure, one of the subordinate documents is searched using a specific keyword for a document group having a hierarchical structure in which a plurality of subordinate documents exist under the specific document. Then, the specific document is detected based on the searched subordinate document, and a plurality of subordinate documents under the specific document are collected. In the feature counting procedure, for each of the collected specific document of the document group and a plurality of subordinate documents, connection information indicating a relationship with a specific other document added to an arbitrary character string in the subordinate document is extracted. Then, the number of states having a specific relationship between the subordinate document and the associated contact document is totaled. In the document group determination procedure, the feature rule is read out from the feature rule storage means in which the feature rule that is a condition using a specific relationship is stored. Then, it is determined whether the number of states of the specific relationship of the document group satisfies the characteristic rule condition, and the document group satisfying the condition is registered in the target document group candidate. In the procedure for outputting the document group, the document group registered in the target document group candidate is output.
このような文書群検出方法によれば、特定文書の配下に複数の配下文書が存在する階層構造を成す文書群を対象にして、特定のキーワードを用いて配下文書を検索する。検索された文書に基づいて特定文書を検出し、この特定文書の配下の複数の配下文書を収集する。そして、収集された配下文書の文字列に付加される連結情報を抽出する。この連結情報に基づき、配下文書と、配下文書と関連付けられた連結先文書の関係が、特定の関係となる状態数を集計する。そして、特徴ルール記憶手段から、特定の関係を用いた条件である特徴ルールを読み出し、特定の関係の状態数が特徴ルールの条件を満たしているかどうかを判定する。そして、条件を満たしている文書群を対象文書群候補に登録し、出力する。 According to such a document group detection method, a subordinate document is searched using a specific keyword for a document group having a hierarchical structure in which a plurality of subordinate documents exist under the specific document. A specific document is detected based on the retrieved document, and a plurality of subordinate documents under the specific document are collected. Then, the link information added to the character string of the collected subordinate document is extracted. Based on this link information, the number of states in which the relationship between the subordinate document and the link destination document associated with the subordinate document becomes a specific relationship is totaled. Then, a feature rule that is a condition using a specific relationship is read from the feature rule storage unit, and it is determined whether or not the number of states of the specific relationship satisfies the condition of the feature rule. Then, the document group satisfying the condition is registered as a target document group candidate and output.
また、上記課題を解決するために、コンピュータに、上記の文書群検出方法を実行させた文書群検出装置が提供される。 In order to solve the above problem, a document group detection apparatus is provided in which a computer executes the document group detection method.
開示の文書群検出方法及び文書群検出装置によれば、キーワードを用いて特定文書の配下に複数の配下文書が存在する文書群が検索される。検索された文書群が検出対象の文書群の持つ特徴ルールを満たしているかどうかが判定され、対象文書群候補が決定される。これにより、一例としてキーワードを設定すれば、キーワードに適合する文書を含む文書群であって、特徴ルールに基づく特徴を有する目的の文書群が自動的に検出される。この結果、利用者が文書群を検出する作業を大幅に軽減することが可能となる。 According to the disclosed document group detection method and document group detection apparatus, a document group in which a plurality of subordinate documents exist under a specific document is searched using a keyword. It is determined whether the retrieved document group satisfies the feature rule of the document group to be detected, and the target document group candidate is determined. Thus, if a keyword is set as an example, a target document group including a document that matches the keyword and having a feature based on the feature rule is automatically detected. As a result, the user's task of detecting a document group can be greatly reduced.
以下、本発明の実施の形態を図面を参照して説明する。まず、発明の概要について説明し、その後、具体的な内容を説明する。
ここで、検出対象の文書群は、ネットワーク上で提供される文書の集合であって、1またはそれ以上のコンピュータによって管理されている。また、この文書群は、特定文書と、この特定文書の配下に複数の配下文書が存在する階層構造を成す。特定文書は、同じ文書群に属する他の文書を関連付けた連結情報が付加された文字列を含む文書であり、例えば、配下文書を閲覧するための目次や、索引などの文書である。特定文書では、目次などの配下文書のタイトルや、配下文書を特徴付ける語句などの文字列に対し、対応する配下文書を関連付ける連結情報が付加されている。配下文書は、特定文書の連結情報によって特定文書に関連付けられた文書である。また、配下文書についても、文書に出現する文字列が他の文書と関連付けられるときは、この文字列と他の文書とを関連付ける連結情報が文字列に付加される。例えば、文書群が辞書文書群であれば、解説対象の用語の索引などが記述される特定文書と、用語を解説する用語解説文書の階層構造を有する。特定文書では、用語解説文書で解説される用語を表す文字列に、対応する用語解説文書の連結情報が付加されている。また、用語解説文書中に他の用語解説文書で解説する用語が出現するときには、その用語を表す文字列にも対応する用語解説文書の連結情報が付加されている。
Hereinafter, embodiments of the present invention will be described with reference to the drawings. First, an outline of the invention will be described, and then specific contents will be described.
Here, the document group to be detected is a collection of documents provided on the network, and is managed by one or more computers. Further, this document group has a hierarchical structure in which a specific document and a plurality of subordinate documents exist under the specific document. The specific document is a document including a character string to which link information relating other documents belonging to the same document group is added. For example, the specific document is a table of contents for browsing subordinate documents, an index, or the like. In the specific document, concatenation information for associating a corresponding subordinate document with a title such as a table of contents or a character string such as a word characterizing the subordinate document is added. The subordinate document is a document associated with the specific document by the connection information of the specific document. In addition, for a subordinate document, when a character string appearing in a document is associated with another document, connection information that associates the character string with another document is added to the character string. For example, if the document group is a dictionary document group, it has a hierarchical structure of a specific document in which an index of terms to be explained is described and a term explanation document that explains terms. In the specific document, the link information of the corresponding glossary document is added to the character string representing the term explained in the glossary document. In addition, when a term explained in another glossary document appears in the glossary document, the linked information of the glossary document corresponding to the character string representing the term is also added.
本発明では、連結情報に基づいて文書間の連結関係を解析する。そして、検出対象の特徴を満たす文書群を検出し、利用者に提示する。
図1は、発明の概要を示す図である。
In the present invention, the connection relationship between documents is analyzed based on the connection information. Then, a document group satisfying the characteristics to be detected is detected and presented to the user.
FIG. 1 is a diagram showing an outline of the invention.
文書群検出装置10は、文書記憶手段11a、特徴ルール記憶手段11b、集計情報記憶手段11c、文書群候補記憶手段11d及び文書群記憶手段11eの各記憶手段と、文書収集手段12、特徴集計手段13、文書群判定手段14及び文書群提示手段15の各処理手段と、を有する。
The document
文書記憶手段11aには、文書収集手段12が収集した文書データが格納される。特徴ルール記憶手段11bには、検出対象の文書群の特徴を表す特徴項目、検索された文書群が目的の文書群であるかどうかを判定するための特徴ルールなどが格納される。集計情報記憶手段11cには、特徴集計手段13が、収集された文書を解析して集計した特徴項目の集計結果が格納される。文書群候補記憶手段11dには、文書群判定手段14が、特徴ルールに基づき検出対象の文書群候補であると判定した対象文書群候補に関する情報が格納される。文書群記憶手段11eには、文書群提示手段15が提示した対象文書群候補のうち、利用者が目的の文書群として指定した文書群の識別情報と、この文書群に属する特定文書に記述されている連結情報が付加された文字列と、を含む文書群情報が格納される。
The document data collected by the
文書収集手段12は、設定されたキーワードに基づいてネットワーク上を検索し、キーワードに適合する文書が含まれる所定の文書群を検出する。キーワードは、検出対象の文書群の内容の特徴を表す任意の語句、あるいは一例として挙げられる語句が利用者によって指定されたものである。目的の情報を得るための語句が設定される。例えば、ネットワーク関係の情報を得たい場合には、「ネットワーク」、「LAN(Local Area Network)」などが設定される。また、特定文書を取得されるためのネットワーク上のアドレスなどが指定されてもよい。任意の語句がキーワードに設定されたときは、検索エンジンによってキーワードに関連する文書のアドレスを取得する。このとき、キーワードに予め設定された語句を付加してさらに検索を行い、検索対象を拡張するとしてもよい。こうして検索された文書のネットワーク上の識別情報を有するアドレスに基づいて、特定文書のアドレスを検出する。一般に、ネットワーク上の文書の位置を示すアドレスは、文書群の構造と同様の階層構造をとる。そこで、検索された配下文書のアドレスから上位階層の特定文書のアドレスを予測することができる。その他、上位階層の文書のアドレスを取得する手法はよく知られており、ここではいずれかの手法を用いるとする。こうして取得された特定文書のアドレスに基づき、特定文書を取得する。なお、特定文書のアドレスが直接指定されたときは、特定文書の取得から処理を開始する。特定文書では、配下文書で関連する情報が提供される文字列には、対応する配下文書を関連付ける連結情報が付加されている。そこで、特定文書の文字列に付加される連結情報を抽出し、この連結情報に基づいて配下文書の文書データを収集する。収集した特定文書及び配下文書の文書データは、文書群ごとに文書記憶手段11aに格納する。
The
特徴集計手段13は、文書群ごとに、文書記憶手段11aに格納される特定文書を含む文書の文字列に付加された連結情報を抽出して解析し、文字列が記述される元の文書と、連結先の文書とが特定の関係となる状態数を集計する。これを特徴項目の集計と呼ぶ。すなわち、元の文書と、連結情報によって関連付けられた連結先の文書との関係が、検出対象の文書群を特徴付ける特徴項目(特定の関係)を満たしているかどうかを解析し、満たしている状態数を特徴項目ごとに集計する。これらの集計処理は、文書群ごとに行われる。また、集計結果は文書群ごとに集計情報記憶手段11cに格納する。
The
文書群判定手段14は、特徴集計手段13による、文書群ごとの特徴項目の集計結果に基づき、この文書群が検出対象の文書群の条件を満たすかどうかを判定する。判定に用いる特徴項目や、閾値などの判定条件は、予め特徴ルール記憶手段11bに格納しておく。文書群が条件を満たす場合、この文書群は対象文書群候補に選択され、文書群の識別情報が対象文書群候補テーブルに登録される。また、特徴ルールに基づく評価結果を、特徴スコアとして数値化してもよい。この場合、特徴スコアの算出方法も特徴ルールに定義しておく。対象文書群候補テーブルは、文書群候補記憶手段11dに格納される。このとき、文書群の識別情報とともに、算出された特徴スコアや特定文書の連結情報などが文書群候補記憶手段11dに格納されるとしてもよい。また、判定は、任意の特徴項目の集計結果を組み合わせて行うとする。複数の特徴項目を組み合わせて判定することにより、対象文書群候補が検出対象の文書群である確度(確からしさ)が高くなる。
The document
文書群提示手段15は、文書群判定手段14によって対象文書群候補に登録された文書群の識別情報を利用者に提示する。そして、対象文書群候補のうち、利用者が選択した文書群の識別情報を目的の文書群として登録する。選択された目的の文書群の識別情報は、文書群記憶手段11eに格納される。このとき、文書群の識別情報とともに、特定文書の連結情報などが文書群記憶手段11eに格納されるとしてもよい。
The document
このような構成の文書群検出装置10の動作及び実行される文書群検出方法について説明する。
キーワードが入力されると、文書収集手段12は、キーワードに基づいて、ネットワーク上で提供されるキーワードが含まれる文書を検索する。そして、検索された文書のアドレスに基づいて、特定文書のアドレスを検出し、特定文書を取得する。なお、キーワードとして特定文書のアドレスが指定されたときは、検索処理を行わず、直接特定文書を取得する。特定文書に記述される文字列には、配下文書を連結先とする連結情報が付加されている。したがって、特定文書を取得したことにより、配下文書への連結情報も取得される。文書収集手段12は、こうして取得した配下文書への連結情報に基づいて配下文書を収集し、収集した配下文書データを文書記憶手段11aに格納する。一連の処理は、キーワードを用いて検索された文書ごとに行われる。これにより、文書記憶手段11aには、検索された文書に対応する文書群ごとに、この文書群に属する特定文書を含む複数の文書データが格納される。
An operation of the document
When a keyword is input, the
次に、特徴集計手段13が、文書群ごとに、文書記憶手段11aに格納される文書データに付加されている連結情報を解析し、元の文書と連結先の文書との関係が特徴項目を満たしている数を集計する。配下文書に記述される文字列にも、この文字列に関連する他の文書がある場合には、連結情報が付加されている。特徴集計手段13では、このように各文書に付加されている連結情報も抽出し、この文書と、連結情報によって指定される連結先の文書との関係が検出対象の文書群を特徴付ける特徴項目を満たしているかどうかを解析する。そして、特徴項目ごとに、特徴項目を満たす連結情報の数を集計する。集計結果は、集計情報として集計情報記憶手段11cに格納される。続いて、文書群判定手段14は、特徴ルール記憶手段11bから特徴ルールを読み出す。さらに、集計情報記憶手段11cに格納される集計情報を読み出し、文書群が対象文書群候補であるかどうかを判定する。特徴ルールには、特徴項目ごとの集計結果に基づいて文書が対象文書群の特徴を有していると判定することができるかどうかの基準が定義されている。特徴集計手段13による特徴項目ごとの集計結果を特徴ルールと照合し、判定を行う。このとき、特徴ルールに基づいて、文書群が目的の文書群である確からしさを特徴スコアとして数値化してもよい。特徴ルールが規定する条件を満たしているときは、この文書群を対象文書群候補とし文書群の識別情報を文書群候補記憶手段11dに格納する。このとき、必要であれば、算出された特徴スコア、及び特定文書の連結情報なども文書群候補記憶手段11dに格納する。特徴ルールが規定する条件を満たしていないときは、この文書群を対象文書群候補としない。
Next, for each document group, the
利用者からの文書群候補の提示要求があったときは、文書群提示手段15が、文書群候補記憶手段11dに格納される文書群候補の識別情報を読み出し、利用者に提示する。例えば、対象文書群候補の識別情報を表示装置に表示する。このとき、同時に特徴スコアや特定文書の連結情報なども提供するとしてもよい。利用者は、提示された対象文書群候補が目的の文書群であると判断したときは、この対象文書群候補を目的の文書群に指定する。指定を受けた文書群提示手段15は、指定された対象文書群候補を目的の文書群とし、この文書群の識別情報を文書群記憶手段11eに登録する。このとき、文書群の識別情報とともに特定文書の連結情報も文書群記憶手段11eに格納してもよい。
When there is a document group candidate presentation request from the user, the document
以上の処理が行われることにより、利用者が所望する情報の一例としてキーワードを設定すると、このキーワードを含む文書を有する文書群であって、予め特徴ルールに規定される特徴を有する文書群が自動的に検出され、検出された文書群の一覧が提示される。このように、目的の文書群が自動的に検出されるため、文書群を検出する作業を大幅に軽減することが可能となる。また、定期的に行われるメンテナンスなどの管理作業も容易になる。さらに、特定文書には、所定の用語(文字列)と、その文字列に関連する文書の所在を指示する連結情報と、が含まれており辞書を作成する際には、この文字列と連結情報とをそのまま用いることができる。このように、辞書を容易に作れるという利点もある。 As a result of the above processing, when a keyword is set as an example of information desired by the user, a document group having a document including the keyword and having a feature specified in advance by a feature rule is automatically generated. And a list of detected document groups is presented. As described above, since the target document group is automatically detected, the work of detecting the document group can be greatly reduced. In addition, management work such as periodic maintenance is facilitated. Furthermore, the specific document includes a predetermined term (character string) and concatenation information that indicates the location of the document related to the character string. When creating a dictionary, the specific document is concatenated with the character string. Information can be used as it is. Thus, there is also an advantage that a dictionary can be easily created.
以下、発明を、インターネット上で提供される文書群、一例として辞書サイトを検出する辞書サイト検出システムに適用した場合を例に図面を参照して詳細に説明する。検出された辞書サイトは、オートリンクシステムなどに適用される辞書の候補に用いられる。実施の形態では、閲覧者が検索により取得した文書をWebページ(以下、ページとする)、文書群がページの集合であるWebサイト(以下、サイトとする)になる。サイトは、目次や索引に相当するトップページと、トップページからリンクされる他のページで構成される。また、サイトは、1またはそれ以上のコンピュータによって管理されており、このようなコンピュータ群のインターネット上の識別子がドメインになる。したがって、サイトは、ページのURLに共通するドメインによって識別することができる。また、ページの多くは、HTMLにより記述されている。HTMLでは、アンカーテキストとしてページ中の文字列と他のページとをリンクさせることができる。 Hereinafter, the invention will be described in detail with reference to the drawings, taking as an example a case where the invention is applied to a document site provided on the Internet, for example, a dictionary site detection system that detects a dictionary site. The detected dictionary site is used as a dictionary candidate applied to an auto link system or the like. In the embodiment, a document acquired by a search by a viewer is a Web page (hereinafter referred to as a page), and a document group is a Web site (hereinafter referred to as a site) that is a set of pages. The site is composed of a top page corresponding to a table of contents and an index and other pages linked from the top page. Further, the site is managed by one or more computers, and an identifier on the Internet of such a computer group becomes a domain. Thus, a site can be identified by a domain common to the page URL. Many of the pages are described in HTML. In HTML, a character string in a page and another page can be linked as anchor text.
図2は、辞書サイト検出システムの構成例を示した図である。
辞書サイト検出システムは、辞書サイトを検出する辞書サイト検出サーバ100と、検索サイト検出の指示を行うユーザのクライアント装置200が、ネットワーク300を介して接続する。
FIG. 2 is a diagram illustrating a configuration example of the dictionary site detection system.
In the dictionary site detection system, a dictionary
辞書サイト検出サーバ100は、文書群検出装置であり、クライアント装置200からの要求に応じて、ネットワーク上で所定の用語を解説する文書を提供する辞書サイトの候補を検出する。クライアント装置200は、オートリンク辞書を作成する作成者の装置などで、ブラウザ210と、入力手段220とを有する。ブラウザ210は、辞書サイト検出サーバ100から取得したHTML形式の検出結果などを図示しない表示装置に表示させる。入力手段220は、作成者の指示を入力し、辞書サイト検出サーバ100に通知する。ネットワーク300は、例えば、インターネットである。
The dictionary
辞書サイト検出サーバ100の構成を説明する。辞書サイト検出サーバ100は、拡張検索ルール(記憶装置)111、取得サイト(記憶装置)112、リンク特徴データベース(以下、DBとする)113、リンク特徴ルール(記憶装置)114、辞書サイト判定ルール(記憶装置)115、辞書追加ルール(記憶装置)116、辞書候補DB117及び辞書DB118の各記憶装置と、サイト取得部120、リンク情報抽出部130、リンク特徴集計部140、辞書サイト判定部150、辞書エントリ候補作成部160及びユーザ提示部170の各処理手段と、を有する。
The configuration of the dictionary
拡張検索ルール(記憶装置)111には、検索のため入力されたキーワードを拡張するためのルールを定義した拡張検索ルールが格納される。例えば、「とは」「用語」「解説」など、用語の解説ページによく出現する文字列が、必要に応じて使用条件などとともに定義されている。入力されたキーワードにこのような拡張文字列を付加することにより、より解説ページらしい結果に絞り込んで検索できる。 The extended search rule (storage device) 111 stores an extended search rule that defines a rule for extending a keyword input for a search. For example, character strings that frequently appear on the explanation page of terms such as “to”, “term”, and “explanation” are defined together with use conditions as necessary. By adding such an extended character string to the input keyword, it is possible to narrow down the search to a result that seems to be an explanation page.
取得サイト(記憶装置)112は、文書記憶手段11aであり、サイト取得部120が取得したサイトのURLや、収集したページのページデータなどが格納される。
リンク特徴DB113は、集計情報記憶手段11cであり、取得サイトに関し、集計されたサイトの特徴、リンク情報に関連する特徴を表す特徴項目ごとの集計結果が格納される。
The acquisition site (storage device) 112 is the
The
リンク特徴ルール(記憶装置)114には、辞書サイトの特徴を表す特徴項目抽出のルールを定義したリンク特徴ルールが格納される。
辞書サイト判定ルール(記憶装置)115には、辞書サイトが有する特徴に基づいて、サイトが辞書サイトであるかどうかを判定するためのルールを提示した辞書サイト判定ルールが格納される。辞書サイト判定ルールには、特徴項目の集計結果を用いて、辞書サイトであるかどうかを判定する条件が定義されている。リンク特徴ルール(記憶装置)114及び辞書サイト判定ルール(記憶装置)115は、特徴ルール記憶手段11bに相当する。
The link feature rule (storage device) 114 stores a link feature rule that defines a feature item extraction rule that represents the feature of the dictionary site.
The dictionary site determination rule (storage device) 115 stores a dictionary site determination rule that presents a rule for determining whether or not a site is a dictionary site based on characteristics of the dictionary site. In the dictionary site determination rule, a condition for determining whether or not the site is a dictionary site is defined by using the total result of the feature items. The link feature rule (storage device) 114 and the dictionary site determination rule (storage device) 115 correspond to the feature
辞書追加ルール(記憶装置)116には、検出された辞書サイト候補を辞書に追加するためのルールを定義した辞書追加ルールが格納される。
辞書候補DB117は、文書群候補記憶手段11dであり、辞書エントリ候補作成部160によって辞書候補と判定されたサイトに関する情報が設定される辞書候補テーブルが格納される。
The dictionary addition rule (storage device) 116 stores a dictionary addition rule that defines a rule for adding the detected dictionary site candidate to the dictionary.
The
辞書DB118は、文書群記憶手段11eであり、ユーザによって辞書サイトに登録されたサイトに関する情報が設定される辞書サイトテーブルが格納される。
サイト取得部120は、文書収集手段12であり、キーワードにより検索された文書を含むサイトの文書を収集する。キーワードが入力されると、拡張検索ルール(記憶装置)111に格納される拡張検索ルールを読み出し、拡張検索ルールに従って入力されたキーワードに拡張文字列を付加する。こうして、キーワードを拡張し、拡張されたキーワードを用いてページを検索する。そして、検索されたページからドメイン名を抽出するとともに、トップページ(特定文書)を検出する。トップページは、目次や索引などであり、その項目を表した文字列には関連するページへのリンク情報(連結情報)が付加されている。そこで、トップページのリンク情報に基づいて配下のページを収集する。収集したページデータは、サイトごとに取得サイト(記憶装置)112に格納する。ページデータは、HTMLで記述された文書データである。なお、キーワードとして直接トップページのURLが指定されたときは、トップページ検出までの処理は省略し、その後処理を行う。
The
The
リンク情報抽出部130及びリンク特徴集計部140は、特徴集計手段13である。リンク情報抽出部130は、サイト取得部120が取得したページデータを解析し、リンク情報として、アンカーテキスト、アンカーテキストに付加されたリンク先URL及びリンク先のページのタイトルを抽出する。なお、リンク情報の抽出は、サイト取得部120が取得したすべてのページに対して行われ、トップページもその他のページも対象になる。抽出された各情報は、リンク特徴DB113に格納される。リンク特徴集計部140は、リンク特徴ルール(記憶装置)114に格納されるリンク特徴ルールに基づいて、リンク情報抽出部130が抽出したリンク情報を解析する。リンク特徴ルールには、辞書サイトが有する特徴に応じた特徴項目が定義されており、リンク情報を解析し、特徴項目を満たすリンク情報の数を集計する。例えば、リンク特徴ルールが「リンク先が同じサイト内である割合に特徴がある」ということであれば、特徴を解析するため、同じサイトへのリンク数と、すべてのリンク数とを集計する。得られた集計結果は、リンク特徴DB113に格納する。
The link
辞書サイト判定部150及び辞書エントリ候補作成部160は、文書群判定手段14である。辞書サイト判定部150は、辞書サイト判定ルール(記憶装置)115に格納される辞書サイト判定ルールを読み出す。そして、辞書サイト判定ルールと、リンク特徴DB113に格納される特徴項目の集計結果とに基づいて、サイトごとに当該サイトが辞書サイトであるかどうかを判定する。辞書サイトであると判定されたサイトは、辞書候補としてそのURLなどの情報を辞書候補テーブルに登録する。辞書候補テーブルは、辞書候補DB117に格納する。続いて、辞書エントリ候補作成部160は、辞書候補に登録されたサイトについて、辞書エントリ候補を作成する。辞書サイトであれば、アンカーテキストの文字列と、対応するリンク先のページのURLとの関係は、オートリンク辞書に登録される用語とその単語の解説ページのURLと同じになる。そこで、辞書サイトと判定されたサイトについて、アンカーテキストの文字列をリンク先のページのURLとを辞書エントリ候補として抽出し、辞書エントリ候補情報を生成する。このとき、辞書追加ルール(記憶装置)116に格納される辞書追加ルール情報を参照し、辞書エントリ候補の登録を行う。例えば、辞書追加ルール情報に除外キーワードが設定されていれば、このキーワードに相当するエントリは登録しないなどの処理を行う。生成された辞書エントリ候補情報は、対応する辞書サイトに関連付けて、辞書候補DB117に格納する。
The dictionary
ユーザ提示部170は、文書群提示手段15であり、検出された辞書候補のサイトに関する情報をユーザに提示する。そして、ユーザが指定したサイトを辞書サイトに登録し、この辞書サイトに関する情報を辞書サイトテーブルに設定し、辞書DB118に格納する。
The
ここで、辞書サイト検出サーバのハードウェア構成について説明する。図3は、辞書サイト検出サーバのハードウェア構成例を示すブロック図である。
辞書サイト検出サーバ100は、CPU(Central Processing Unit)101によって装置全体が制御されている。CPU101には、バス105を介してRAM(Random Access Memory)102、ハードディスクドライブ(HDD:Hard Disk Drive)103及び通信インタフェース104が接続されている。
Here, the hardware configuration of the dictionary site detection server will be described. FIG. 3 is a block diagram illustrating a hardware configuration example of the dictionary site detection server.
The entire dictionary
RAM102には、CPU101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM102には、CPU101による処理に必要な各種データが格納される。HDD103には、OSやアプリケーションのプログラムが格納される。通信インタフェース104は、ネットワーク300に接続されており、ネットワーク300を介してクライアント装置200との間でデータの送受信を行う。
The
このようなハードウェア構成によって、辞書サイト検出サーバ100の処理機能を実現することができる。なお、辞書サイト検出サーバ100への指示は、クライアント装置200の入力手段220より入力された指示がネットワーク300を介して送られてくる。また、検出結果などは、辞書サイト検出サーバ100が生成した表示情報をクライアント装置200に送信し、クライアント装置200によって表示装置に表示される。
With such a hardware configuration, the processing function of the dictionary
次に、検出の対象である辞書サイトの特徴について説明する。図4は、辞書サイトの特徴を説明するための図である。
一般的な辞書サイトは、索引または目次に相当するトップページ500と、トップページ500にエントリされている各用語を解説する解説ページ510,520,530とから成る階層構造を有する。トップページ500は、辞書サイトで解説ページ510,520,530を提供する用語の一覧501をユーザに提供するためのページである。トップページ500に設定されている各用語は、それぞれの解説ページ510,520,530にリンクされている。例えば、用語の一覧501の最上位の「VPN(Virtual Private Network)」は、用語「VPN」を解説する解説ページ(ファイル名はvpn.html)510にリンクされている。同様に、「LAN」は用語「LAN」を解説する解説ページ(ファイル名はLAN.html)520、「RSS(Rich Site Summary)」は用語「RSS」を解説する解説ページ(ファイル名はRSS.html)530、にリンクされている。
Next, features of the dictionary site that is the object of detection will be described. FIG. 4 is a diagram for explaining the characteristics of the dictionary site.
A typical dictionary site has a hierarchical structure including a
「VPN」の解説ページ510は、タイトル「VPNとは IT用語解説:DICDIC」511と、「VPN」を解説する解説文とを有する。また、解説文に他の解説ページで解説される用語が出現するときは、その用語に解説ページへのリンクが設定される。例えば、解説文に出現する「LAN」は、「LAN」の解説ページ520にリンクされている。
The
他の解説ページも同様である。「LAN」の解説ページ520は、タイトル「LANとは IT用語解説:DICDIC」521と、解説文とを有する。また、解説文の「ネットワーク」522は、図示しない「ネットワーク」の解説ページにリンクされている。「RSS」の解説ページ530は、タイトル「RSSとは IT用語解説:DICDIC」531と、解説文とを有する。そして、解説文の「Webサイト」532は、図示しない「Webサイト」の解説ページにリンクされている。
The same is true for other commentary pages. The
以上より、辞書サイトは、サイト内に閉じたリンクが高い割合で存在し、かつ、(特徴1)リンク元に指定された文字列(アンカーテキスト)とリンク先ページのタイトルタグ内の文字列(タイトル)とが一致する割合が高い、(特徴2)アンカーテキストとリンク先のファイル名が一致する割合が高い、(特徴3)サイト内の他ページのタイトルと、用語以外の文字列が一致する割合が高い、という特徴を有すると言える。したがって、辞書サイトであれば、サイト単位(図4の例では、トップページ500と、その配下にリンクされる解説ページ510,520,530の集合)で見た場合、上記の特徴1から特徴3のいずれかの特徴に該当するページが高い割合で存在する。ゆえに、サイト内のページのリンク構造を解析し、全体リンク数のうち、サイト内へのリンク数が一定の割合を超え、かつ、上記の特徴1、特徴2、特徴3のいずれか1以上を満たすリンク数の割合が一定値以上であるかどうかを調べることにより、このサイトが辞書サイトであるかどうかを判定することができる。
As described above, the dictionary site has a high percentage of closed links in the site, and (Characteristic 1) the character string (anchor text) specified as the link source and the character string in the title tag of the linked page ( (Characteristic 2) Anchor text and link destination file name are highly consistent, (Characteristic 3) The titles of other pages in the site and character strings other than terms match It can be said that the ratio is high. Therefore, in the case of a dictionary site, when viewed in units of sites (in the example of FIG. 4, the
具体例を挙げて特徴の検出方法を説明する。
特徴1は、アンカーテキストと、リンク先ページのタイトルタグ内のタイトルとが一致するというものである。HTMLでは、リンクの設定に<a>タグを利用し、アンカーテキストを<a href=“・・・”>と<a/>で囲む。“・・・”内は、リンク先を表す。例えば、VPNがアンカーテキストであるとし、<a href=“http://・・・//vpn.html”>VPN<a/>は、文字列「VPN」が、「http://・・・//vpn.html」にリンクされていることを表す。ここで、「http://・・・//vpn.html」のタイトル部分(<title>によって示される文字列)と、アンカーテキスト「VPN」とを照合する。タイトル部分に「VPN」が含まれれば、このリンクは特徴1を満たすと判定される。
A feature detection method will be described with a specific example.
A
特徴2は、アンカーテキストとリンク先のファイル名が一致するというものである。上記のように、リンク先のファイル名は<a href=“・・・”>より抽出することができる。特徴1の例であれば、「http://・・・//vpn.html」のファイル名「vpn.html」が抽出され、アンカーテキスト「VPN」と照合される。一致しているときは、このリンクは特徴2を満たすと判定される。
Characteristic 2 is that the anchor text and the linked file name match. As described above, the link destination file name can be extracted from <a href=“... ”>. In the case of the
特徴3は、サイト内の他ページのタイトルと、用語以外の文字列が一致するというものである。他ページのタイトルは、上記の特徴2と同様にして抽出することができる。例えば、<a href=“・・・”>VPN<a/>よりタイトル「VPNとは IT用語解説:DICDIC」、<a href=“・・・”>RSS<a/>よりタイトル「RSSとは IT用語解説:DICDIC」が抽出されたとする。その後、抽出されたタイトル部分の用語を除く文字列が一致しているかどうかを比較する。この例では、「VPN」を除く「とは IT用語解説:DICDIC」と、「RSS」を除く「とは IT用語解説:DICDIC」とを比較する。一致しているときは、このリンクは特徴3を満たすと判定される。
Characteristic 3 is that the title of the other page in the site matches the character string other than the term. The titles of other pages can be extracted in the same manner as the
なお、図4の例の辞書サイトは、トップページ500と、解説ページ510,520,530の2階層で構成されているが、本発明はこれに限定されない。例えば、トップページ500と、解説ページ510,520,530との間に分野別索引ページを設ける階層構造の場合であっても、辞書サイトとして有する特徴は同様である。
Note that the dictionary site in the example of FIG. 4 is composed of two layers, a
以下、このような辞書サイトが有する特徴を用いて辞書サイトを検出する辞書サイト検出システムの動作及び辞書サイト検出処理の手順について具体例を用いて説明する。
最初にユーザが設定したキーワードが入力される。サイト取得部120は、キーワードが含まれるページを検索し、トップページを検出する。そして、トップページのリンク情報、トップページからリンクされたページ内のリンク情報に基づいて、トップページからリンクでつながった範囲のページをすべて取得する。このように、ユーザが作成したい分野に関連する語句を設定すれば、その分野の辞書サイトを検出することができる。例えば、「VPN」と設定すれば、IT用語の辞書サイトが検出される。また、「サブプライムローン」と設定すれば、金融用語の辞書サイトが検出される。具体的な処理を説明する。
Hereinafter, the operation of the dictionary site detection system that detects a dictionary site using the characteristics of such a dictionary site and the procedure of the dictionary site detection process will be described using a specific example.
First, a keyword set by the user is input. The
図5は、キーワードが入力されてからサイトのページ情報を取得するまでの処理の流れを示した図である。
ユーザによってキーワード600が入力される。図5の例では、キーワード600を「VPN」としている。サイト取得部120は、キーワード600が入力されると、拡張検索ルール(記憶装置)111に格納される拡張検索ルールに基づいて、クエリを拡張し、拡張キーワード610を生成する。例えば、拡張語に「とは」、「用語」が設定されていたときは、キーワード600の「VPN」に基づいて、「VPNとは」612及び「VPN 用語」613の2種類の拡張キーワード610が生成される。これにより、より解説ページらしい結果に絞り込んで検索できる。続いて、拡張キーワード610を用いて検索が行われる。「VPNとは」612及び「VPN 用語」613のそれぞれにキーワードを含むページが検索される。図5では、「VPNとは」612について、「VPNとは」を含むページ621,622,623の検索ページ群620が検出されることを示している。それぞれのドメインは、ページ621がhttp://dicdic.com、ページ622がhttp://abc.com、ページ623がhttp://a.co.jpである。他の拡張キーワード613についても同様に検索ページ群が得られるが、説明は省略する。
FIG. 5 is a diagram showing a flow of processing from when a keyword is input until the page information of the site is acquired.
A
次に、検索ページ群620のそれぞれのページのトップページを検出し、その文書データを取得する。トップページの検索の方法としては、検索ページ群620のドメインをURLとするページをトップページとして指定する。または、検索ページ群620の各ページ内に「トップページ」を含むアンカーテキストを検索し、そのアンカーテキストのリンク先ページをトップページとして判定する。図5では、ページ621のトップページ630を示している。ここでは、図4に示したトップページ500が検出されるとしている。なお、キーワード600が直接トップページのURLを指定しているときは、トップページの文書データを取得するところから処理を開始する。他のページ622,623も同様にトップページが得られるが、ここでの説明は省略する。
Next, the top page of each page of the search page group 620 is detected and its document data is acquired. As a top page search method, a page having a URL of the domain of the search page group 620 is designated as the top page. Alternatively, an anchor text including “top page” in each page of the search page group 620 is searched, and a link destination page of the anchor text is determined as a top page. FIG. 5 shows the top page 630 of the
次に、配下の解説ページ群640を収集する。図4で説明したように、トップページ500には配下の解説ページをリンク先とするアンカーテキストが含まれている。そこで、トップページ500に含まれるすべてのアンカーテキストとそのリンク先情報とを抽出し、解説ページを取得するクローリング処理を行う。これにより、トップページ500に記載されたアンカーテキストに対応する解説ページ群640が取得される。図5の例では、解説ページ510のvpn.html、解説ページ520のlan.html及び解説ページ530のrss.htmlを含む解説ページ群640が取得される。
Next, the subordinate explanation page group 640 is collected. As described with reference to FIG. 4, the
さらに,解説ページ510,520,530内にも他の解説ページへのリンク情報が含まれている場合は、そのリンク先の解説ページも取得する。これにより、解説ページ群640には、トップページからリンクでたどれるページがすべて含まれる。 Further, when the explanation pages 510, 520, and 530 also include link information to other explanation pages, the explanation pages of the link destinations are also acquired. Thus, the explanation page group 640 includes all pages that can be linked from the top page.
以上の処理が、拡張キーワード610ごとに検出された検索ページ群620で実行され、それぞれについてトップページ630と、その配下の解説ページ群640が収集される。 The above processing is executed for the search page group 620 detected for each extended keyword 610, and the top page 630 and the explanation page group 640 under it are collected for each.
こうして検索されたサイトのトップページ630とその配下の解説ページ群640を用いて、このサイトが辞書サイトの特徴を有しているかどうかを判定する。
まず、リンク情報抽出部130が、サイト(共通ドメイン)ごとに、トップページ630及び解説ページ群640のHTML文書ファイルを読み出し、ページ内のリンク情報を抽出する。すなわち、読み出した各ページのHTML文書を解析し、サイトのドメイン、解析を行った処理対象のページのURL、アンカーテキスト、そのリンク先URL、リンク先のページのタイトルを抽出する。そして、URL−タイトルテーブル及びアンカーテキスト−リンク先URLテーブルに登録する。なお、ドメインは、トップページ及びその配下の解説ページで共通であるので、毎回抽出する必要はない。
Using the top page 630 of the site thus searched and the explanation page group 640 under it, it is determined whether or not this site has the characteristics of a dictionary site.
First, the link
図6は、URL−タイトルテーブルの一例を示した図である。URL−タイトルテーブルは、リンク特徴DB113に格納される。
URL−タイトルテーブル1131には、ドメイン1131a、URL1131b及びタイトル1131cの各情報項目が登録される。
FIG. 6 is a diagram showing an example of the URL-title table. The URL-title table is stored in the
In the URL-title table 1131, information items of the
ドメイン1131aには、サイトを識別する識別子であり、トップページとその配下の解説ページ群のURLに共通して含まれるドメインが登録される。リンク情報抽出部130は、トップページまたは任意の解説ページからドメインを抽出し、ドメイン1131aに登録する。
The
URL1131bは、HTMLを解析して抽出されるアンカーテキストのリンク先のページのURLが登録される。
タイトル1131cには、URL1131bに格納されるリンク先のページから抽出されたこのページのタイトルが登録される。
As the
In the
図4及び図5で説明したように、例えば、トップページ500の「VPN」は、VPNの解説ページ510にリンクされるアンカーテキストであり、HTMLでは、<a href=“http://dicdic.com/vpn.html”>VPN<a/>」と記述される。ここから、リンク先として「http://dicdic.com/vpn.html」が抽出され、URL1131bに登録される。なお、このとき抽出されたURLが相対パスで記述されているときは、絶対パスに変換された後、URL1131bに登録される。さらに、リンク先の解説ページ510のvpn.htmlを解析し、タイトル(<title>によって示される文字列)を抽出する。図6の例では、「VPN IT用語解説:DICDIC」が抽出され、タイトル1131cに登録される。同様にしてトップページ500に記述されたリンク先ページのURLと、リンク先ページのタイトルが抽出され、URL−タイトルテーブル1131に登録される。トップページ500についての処理終了後、同様の処理を解説ページ群640の各ページについて行う。このとき、URL−タイトルテーブル1131に同じものが既に登録されていたときは、登録を行わない。
As described with reference to FIGS. 4 and 5, for example, “VPN” on the
こうして、リンク情報抽出部130によって、サイトごとに、ページに出現したリンク先のURLと、そのリンク先のページのタイトルとが抽出され、URL−タイトルテーブル1131に登録される。
In this way, the link
図7は、アンカーテキスト−リンク先URLテーブルの一例を示した図である。アンカーテキスト−リンク先URLテーブルは、リンク特徴DB113に格納される。
アンカーテキスト−リンク先URLテーブル1132には、ドメイン1132a、処理対象URL1132b、アンカーテキスト1132c及びリンク先URL1132dの各情報項目が登録される。
FIG. 7 shows an example of the anchor text-link destination URL table. The anchor text-link destination URL table is stored in the
In the anchor text-link destination URL table 1132, information items of the
ドメイン1132aは、図6のドメイン1131aと同様である。
処理対象URL1132bには、HTMLの解析を行った処理対象のページのURLが登録される。
The
In the
アンカーテキスト1132cには、処理対象URL1132bに登録されるページから抽出されたアンカーテキストが登録される。
リンク先URL1132dには、アンカーテキスト1132cに対応するリンク先のページのURLが登録される。
In the
In the
図6と同様に、例えば、トップページ500の解析を行う際には、処理対象URL1132bには、トップページ500のURL(ここでは、http://dicdic.com/index.html)が登録される。そして、「VPN」の解説ページ510がリンクされるアンカーテキスト「VPN」がアンカーテキスト1132cに登録される。また、図6と同様にして、リンク先「http://dicdic.com/vpn.html」が抽出され、リンク先URL1132dに登録される。
Similar to FIG. 6, for example, when analyzing the
トップページ500についての処理終了後、同様の処理を解説ページ群640の各ページについて行う。このとき、アンカーテキスト−リンク先URLテーブル1132に同じものが既に登録されていたときは、登録を行わない。
After the process for the
こうして、リンク情報抽出部130によって、サイトごとに、アンカーテキストを抽出した処理対象のページのURL、アンカーテキスト、及びリンク先のURLが抽出され、アンカーテキスト−リンク先URLテーブル1132に登録される。
In this way, the link
次に、リンク特徴集計部140は、リンク情報抽出部130によって設定されたURL−タイトルテーブル1131及びアンカーテキスト−リンク先URLテーブル1132に基づいて特徴項目を集計する。上述のように、サイトが辞書サイトであれば、サイト内に閉じたリンクが高い割合で存在し、かつ、特徴1、特徴2、特徴3のいずれか1以上の特徴を満たすリンク数の割合が一定値以上ある。リンク特徴集計部140では、これらの特徴を検出するため、以下の特徴項目を集計する。まず、サイト内に閉じたリンクの割合を検出するため、全リンク数と、サイト内に閉じたリンク(内部リンクとする)数とを集計する。さらに、特徴1の特徴項目として、リンク元のアンカーテキストとリンク先ページのタイトルタグ内の文字列(タイトル)とが一致するリンクの数を集計する。特徴2の特徴項目として、アンカーテキストとリンク先のファイル名が一致するリンクの数を集計する。そして、特徴3の特徴項目として、サイト内の他ページのタイトルと、用語以外の文字列が一致するタイトルを検出し、このタイトルが出現した数を集計する。
Next, the link
図8は、特徴1による集計情報の一例を示した図である。(A)は、特徴1カウンタテーブル、(B)は特徴1エントリテーブルである。どちらも、リンク特徴DB113に格納される。特徴1による集計情報は、URL−タイトルテーブル1131及びアンカーテキスト−リンク先URLテーブル1132を解析し、特徴1に合致するリンク数を集計して取得する。
FIG. 8 is a diagram illustrating an example of the total information based on the
(A)特徴1カウンタテーブル1133は、処理対象URL(ドメイン)1133a、全リンクカウンタ1133b、内部リンクカウンタ1133c及び特徴1カウンタ1133dの各情報項目を有する。
(A) The
処理対象URL(ドメイン)1133aには、処理対象のサイトのURLが登録される。アンカーテキスト−リンク先URLテーブル1132のドメイン1132aから読み出されたURLが登録される。対応するカウンタは、このサイトごとに集計された値である。
In the processing target URL (domain) 1133a, the URL of the processing target site is registered. The URL read from the
全リンクカウンタ1133bには、サイトごとに検出されたリンク情報の集計値が登録される。集計されるリンク情報は、サイト内部のページをリンク先とするものも、サイト外部のページをリンク先とするものも含まれる。具体的には、アンカーテキスト−リンク先URLテーブル1132のドメイン1132aが、対象のサイトのドメインと一致するリンク先URL1132dに登録されたリンク情報の総数がカウントされる。
The total value of link information detected for each site is registered in the all
内部リンクカウンタ1133cには、サイトごとに検出されたリンク情報のうち、サイト内部のページをリンク先とするリンク情報の集計値が登録される。対象のサイトのドメインとドメイン1132aが一致し、リンク先URL1132dのドメイン部分がドメイン1132aのドメイン名と一致するリンク情報の数がカウントされる。
In the
特徴1カウンタ1133dには、サイトごとに、アンカーテキストと、リンク先URLのページのタイトルとが一致するリンク情報の集計値が登録される。アンカーテキスト−リンク先URLテーブル1132のアンカーテキスト1132cから読み出したアンカーテキストに対応するリンク先URL1132dを抽出する。そして、抽出されたリンク先URLと一致するURLをURL−タイトルテーブル1131から検出する。一致したURLに対応するタイトル1131cからこのURLのタイトルを抽出し、最初にアンカーテキスト1132cから読み出したアンカーテキストと照合する。一致すれば、特徴1カウンタ1133dをインクリメントする。このとき、リンク先URL1132dと一致するURLがURL1131bで検出されないときは、URLに含まれる「index.html」の有無や、「#」、「?」の有無などを変えて調整し、該当するURLを検出する。
In the
(B)特徴1エントリテーブル1134は、処理対象URL(ドメイン)1134a、単語1134b、及びURL1134cの各情報項目を有する。
処理対象URL(ドメイン)1134aには、特徴1カウンタテーブル1133と同様に、処理対象のサイトのURLが登録される。単語1134bには、特徴1の条件を満たすアンカーテキストが登録される。URL1134cには、特徴1の条件を満たしたURLがアンカーテキストに対応付けて登録される。リンク特徴集計部140がアンカーテキストと、リンク先URLのタイトルとを照合し、一致していると判定したとき、そのアンカーテキストが単語1134b、リンク先URLがURL1134cに格納される。すなわち、特徴1カウンタテーブル1133の特徴1カウンタ1133dを1増加させるとき、特徴1を満たしていると判定されたアンカーテキストとリンク先URLが登録される。処理対象URL(ドメイン)1134aには、処理対象のサイトのドメインが登録される。
(B) The
Similar to the
図9は、特徴2による集計情報の一例を示した図である。(C)は、特徴2カウンタテーブル、(D)は特徴2エントリテーブルである。どちらも、リンク特徴DB113に格納される。
FIG. 9 is a diagram illustrating an example of the total information based on the
(C)特徴2カウンタテーブル1135は、処理対象URL(ドメイン)1135a、全リンクカウンタ1135b、内部リンクカウンタ1135c及び特徴2カウンタ1135dの各情報項目を有する。
(C) The
処理対象URL(ドメイン)1135aには、処理対象のサイトのURLが登録される。全リンクカウンタ1135bには、サイトごとに検出されたリンク情報の集計値が登録される。内部リンクカウンタ1135cには、サイトごとに検出されたリンク情報のうち、サイト内部のページをリンク先とするリンク情報の集計値が登録される。処理対象URL(ドメイン)1135a、全リンクカウンタ1135b及び内部リンクカウンタ1135cは、特徴1カウンタテーブル1133の同じ名の情報項目と同様であるので、詳細な説明は省略する。
The URL of the processing target site is registered in the processing target URL (domain) 1135a. The total value of link information detected for each site is registered in the all
特徴2カウンタ1135dには、サイトごとに、アンカーテキストと、リンク先URLのページのファイル名とが一致するリンク情報の集計値が登録される。アンカーテキスト−リンク先URLテーブル1132のアンカーテキスト1132cと、対応するリンク先URL1132dとを読み出す。そして、読み出したアンカーテキストをURLエンコードし、得られた文字列と、読み出したリンク先URLに含まれるリンク先のファイル名とを照合する。一致すれば、特徴2カウンタ1135dをインクリメントする。
In the
(D)特徴2エントリテーブル1136は、処理対象URL(ドメイン)1136a、単語1136b、及びURL1136cの各情報項目を有する。
処理対象URL(ドメイン)1136aには、特徴2カウンタテーブル1135と同様に、処理対象のサイトのURLが登録される。単語1136bには、特徴2の条件を満たすアンカーテキストが登録される。URL1136cには、特徴1の条件を満たしたURLがアンカーテキストに対応付けて登録される。満たす条件が特徴1ではなく特徴2であるという点を除いて、処理は特徴1の場合と同様である。すなわち、特徴2カウンタテーブル1135の特徴2カウンタ1135dを1増加させるとき、特徴2を満たしていると判定されたアンカーテキストとリンク先URLが登録される。
(D) The
Similar to the
図10は、特徴3による集計情報の一例を示した図である。(E)は、特徴3カウンタテーブル、(F)は共通タイトルテーブル、(G)は特徴3エントリテーブルである。すべてリンク特徴DB113に格納される。
FIG. 10 is a diagram illustrating an example of the total information according to the feature 3. (E) is a feature 3 counter table, (F) is a common title table, and (G) is a feature 3 entry table. All are stored in the
(E)特徴3カウンタテーブル1137は、処理対象URL(ドメイン)1137a、全リンクカウンタ1137b、内部リンクカウンタ1137c、特徴3カウンタ1137d及び共通タイトル1137eの各情報項目を有する。
(E) The feature 3 counter table 1137 includes information items of a processing target URL (domain) 1137a, an all
処理対象URL(ドメイン)1137aには、処理対象のサイトのURLが登録される。全リンクカウンタ1137bには、サイトごとに検出されたリンク情報の集計値が登録される。内部リンクカウンタ1137cには、サイトごとに検出されたリンク情報のうち、サイト内部のページをリンク先とするリンク情報の集計値が登録される。処理対象URL(ドメイン)1137a、全リンクカウンタ1137b及び内部リンクカウンタ1137cは、特徴1カウンタテーブル1133の同じ名の情報項目と同様であるので、詳細な説明は省略する。
The URL of the processing target site is registered in the processing target URL (domain) 1137a. The total value of link information detected for each site is registered in the all
特徴3カウンタ1137dには、サイトごとに、アンカーテキストを除いたリンク先のURLのページのタイトルが共通するリンク情報の集計値が登録される。また、共通タイトル1137には、そのタイトルが登録される。リンク特徴集計部140は、URL−タイトルテーブル1131及びアンカーテキスト−リンク先URLテーブル1132を解析し、共通タイトルテーブルを作成する。そこで共通タイトルテーブル1138に登録された共通タイトルのうち、最もリンク情報の数が多かったものが登録される。また、その共通タイトルは、共通タイトル1137eに登録される。
In the feature 3
(F)共通タイトルテーブル1138は、処理対象URL(ドメイン)1138a、共通タイトル1138b及びカウンタ1138cの各情報項目を有する。
処理対象URL(ドメイン)1138aには、処理対象のサイトのURLが登録される。共通タイトル1138bには、抽出されたリンク先URLの共通タイトルが登録される。そして、カウンタ1138cには、共通タイトルが出現したリンク情報の集計値が登録される。
(F) The common title table 1138 includes information items of a processing target URL (domain) 1138a, a
The URL of the processing target site is registered in the processing target URL (domain) 1138a. The common title of the extracted link destination URL is registered in the
アンカーテキスト−リンク先URLテーブル1132のアンカーテキスト1132cに対応するリンク先URL1132dと一致するURLをURL−タイトルテーブル1131から検出する。一致したURL1131bに対応するURLでURL−タイトルテーブル1131のURL1131bに対応するタイトル1131cを抽出し、最初に読み出したアンカーテキスト1132cを除いた文字列を抽出する。この文字列が共通タイトルテーブルの共通タイトル1138bに登録されていれば、対応するカウンタ1138cをインクリメントする。共通タイトル1138bに登録されていないときは、共通タイトルテーブル1138に新たなレコードを追加し、登録する。
The URL that matches the
(G)特徴3エントリテーブル1139は、処理対象URL(ドメイン)1139a、単語1139b、URL1139c及び共通タイトル1139dの各情報項目を有する。
処理対象URL(ドメイン)1139aには、特徴3カウンタテーブル1137と同様に、処理対象のサイトのURLが登録される。単語1139bには、特徴3の条件を満たすアンカーテキストが登録される。URL1139cには、特徴3の条件を満たしたURLがアンカーテキストに対応付けて登録される。共通タイトル1139dには、対応するタイトルが登録される。
(G) The feature 3 entry table 1139 includes information items of a processing target URL (domain) 1139a, a
Similar to the feature 3 counter table 1137, the URL of the processing target site is registered in the processing target URL (domain) 1139a. An anchor text that satisfies the condition 3 is registered in the
このように、リンク特徴集計部140によって、抽出されたリンク情報を登録したURL−タイトルテーブル1131及びアンカーテキスト−リンク先URLテーブル1132が解析される。そして、全リンクカウンタ及び内部リンクカウンタとともに、辞書サイトの特徴を満たすリンク数である特徴1カウンタ、特徴2カウンタ、特徴3カウンタとが集計され、それぞれの要件を満たすエントリ候補テーブルが作成される。特徴1については、特徴1カウンタテーブル1133及び特徴1エントリテーブル1134が生成される。特徴2については、特徴2カウンタテーブル1135及び特徴2エントリテーブル1136が生成される。特徴3については、特徴3カウンタテーブル1137及び特徴3エントリテーブル1139が生成される。なお、集計は、予め指定された特徴についてのみ行われる。
In this way, the link
辞書サイト判定部150は、集計された特徴1カウンタテーブル1133、特徴2カウンタテーブル1135及び特徴3カウンタテーブル1137を用いて、辞書サイト判定ルールに基づき、処理対象URL(ドメイン)が、辞書サイトであるかどうかを判定する。辞書サイト判定ルールは、辞書サイト判定ルール(記憶装置)115に格納されているのを読み出して適用する。
The dictionary
例えば、辞書サイト判定ルールが、「全体リンク数のうち、サイト内リンクが9割以上、かつ特徴1を満たすリンク数の割合が9割以上」というものであった場合で説明する。この場合は、特徴1カウンタテーブル1133を参照してサイト内リンクの割合及び特徴(1)を満たすリンクの割合を算出する。
For example, a description will be given of a case where the dictionary site determination rule is “the ratio of the number of links
サイト内リンクの割合は、全リンクに占める内部リンクの割合であるので、内部リンク数/全リンク数で求めることができる。例えば、処理対象URLが「http://dicdic/com/」の場合、全リンクカウンタ1133bは「110」、内部リンクカウンタ1133cは「101」であるので、内部リンクの割合は、Rは、
R= 101/110(=0.9181)
と、算出することができる。また、特徴1を満たすリンク数の割合R1は、
R1= 100/101(=0.99)
と、算出される。判定ルールが上記の場合、Bの値が辞書らしさスコアになる。
Since the ratio of intra-site links is the ratio of internal links to all links, it can be calculated by the number of internal links / total number of links. For example, when the processing target URL is “http: // dicdic / com /”, the
R = 101/110 (= 0.9181)
And can be calculated. Further, the ratio R1 of the number of links satisfying the
R1 = 100/101 (= 0.99)
And calculated. When the determination rule is the above, the value of B is a dictionary-like score.
さらに、特徴を組み合わせて判定ルールとすることができる。例えば、「全体リンク数のうち、サイト内リンクが9割以上、かつ、特徴1を満たすリンク数の割合が9割以上、もしくは特徴2を満たすリンク数の割合が9割以上、かつ特徴3を満たすリンク数の割合が9割以上」というものであった場合で説明する。
Furthermore, a combination of features can be used as a determination rule. For example, “Of the total number of links, 90% or more of the links in the site and 90% or more of the links
この場合、上記と同様にして、特徴1カウンタテーブル1133、特徴2カウンタテーブル1135、または特徴3カウンタテーブル1137から、該当するURLの全リンクカウンタと内部リンクカウンタの値を抽出し、内部リンクの割合(R)を算出する。また、特徴1カウンタテーブル1133の特徴1カウンタ1133dと内部リンクカウンタ1133cから特徴1を満たすリンク数の割合(R1)を算出する。特徴2カウンタテーブル1135の特徴2カウンタ1135dと内部リンクカウンタ1135cから特徴2を満たすリンク数の割合(R2)を算出する。そして、特徴3カウンタテーブル1137の特徴3カウンタ1137dと内部リンクカウンタ1137cから特徴3を満たすリンク数の割合(R3)を算出する。そして、算出されたR,R1,R2,R3でルールが成立するかどうかを判定する。ルールが成立すれば、このサイトは辞書サイトと判定することができる。辞書サイトと判定されたサイトは、辞書候補テーブルに登録される。
In this case, in the same manner as described above, the values of all link counters and internal link counters of the corresponding URL are extracted from the
また、特徴ごとのリンク数の割合を重み付けし、スコアを算出するとしてもよい。特徴1の重み付け係数α、特徴2の重み付け係数β、特徴3の重み付け係数γとして、スコアSは、
S= αR1 + βR2 + γR3 ・・・(1)
によって、算出することができる。
Alternatively, the score may be calculated by weighting the ratio of the number of links for each feature. As the weighting coefficient α of
S = αR1 + βR2 + γR3 (1)
Can be calculated.
図11は、辞書候補テーブルとそのエントリ候補テーブルの一例を示した図である。(H)は辞書候補テーブル、(I)はエントリ候補テーブルの一例である。どちらも辞書候補DB117に格納される。
FIG. 11 is a diagram showing an example of a dictionary candidate table and its entry candidate table. (H) is an example of a dictionary candidate table, and (I) is an example of an entry candidate table. Both are stored in the
(H)辞書候補テーブル1171は、サイトURL(ドメイン)1171a及びスコア1171bの各情報項目を有する。
サイトURL(ドメイン)1171aには、辞書候補であると判定された対象のサイトのURLが登録される。
(H) The dictionary candidate table 1171 includes information items of a site URL (domain) 1171a and a
In the site URL (domain) 1171a, the URL of the target site determined to be a dictionary candidate is registered.
スコア1171bには、式(1)によって算出された辞書らしさスコアが格納される。
(I)エントリ候補テーブル1172は、処理対象URL(ドメイン)1172a、単語1172b及びURL1172cの各情報項目を有する。
The
(I) The entry candidate table 1172 includes information items of a processing target URL (domain) 1172a, a
処理対象URL(ドメイン)1172aには、辞書候補であると判定された対象のサイトのURLが登録される。単語1172bには、このサイトについて作成された特徴1エントリテーブル1134、特徴2エントリテーブル1136及び特徴3エントリテーブル1139のいずれかに登録される単語が設定される。URLには、同様にいずれかのURLが設定される。
In the processing target URL (domain) 1172a, the URL of the target site determined to be a dictionary candidate is registered. In the
なお、辞書候補及びエントリ候補の登録の際には、辞書追加ルール(記憶装置)116に格納される辞書追加ルールに基づいて処理を行う。例えば、辞書候補と判定されたURLが、辞書追加ルールで登録が禁止されるURLと同じであれば、辞書候補への登録は行わない。また、エントリ候補の登録であれば、除外キーワードなどが設定されていた場合、除外キーワードと一致するアンカーテキストは、エントリ候補テーブル1172に登録しない。 When registering dictionary candidates and entry candidates, processing is performed based on the dictionary addition rules stored in the dictionary addition rule (storage device) 116. For example, if the URL determined as a dictionary candidate is the same as the URL prohibited from being registered by the dictionary addition rule, the registration to the dictionary candidate is not performed. In addition, in the case of entry candidate registration, if an exclusion keyword or the like is set, anchor text that matches the exclusion keyword is not registered in the entry candidate table 1172.
こうして辞書候補が決定された後、ユーザからの表示要求があれば、ユーザ提示部170は、クライアント装置200の表示部に表示させる。
図12は、辞書サイト候補一覧画面の一例を示した図である。
After the dictionary candidate is determined in this way, if there is a display request from the user, the
FIG. 12 is a diagram showing an example of a dictionary site candidate list screen.
辞書サイト候補一覧画面2100は、クライアント装置200に接続する表示装置に表示される。辞書サイト候補一覧画面2100には、辞書サイト候補を示した辞書サイト候補一覧表2101、詳細エントリ選択ボタン2102、NGサイト登録ボタン2103及び辞書サイト登録ボタン2104などが表示される。
The dictionary site
辞書サイト候補一覧画面2100は、チェック欄2101a、識別番号2101b、URL2101c、エントリ例2101d及びスコア2101eが、辞書候補テーブル1171及びエントリ候補テーブル1172に基づいて表示される。
The dictionary site
チェック欄2101aは、辞書サイトとして登録するサイト、もしくはNGサイトとして登録するサイトを選択するための欄である。チェックされたサイトが処理の対象となる。識別番号2101bは、辞書サイト候補に順に振られた番号である。URL2101cは、サイトのURLで、辞書候補テーブル1171のサイトURL1171aに基づいて表示される。エントリ例2101dは、この辞書サイト候補で参照可能なエントリの例であり、エントリ候補テーブル1172の該当するサイトのURL1172cから任意の語句が選択され、そのURLが表示される。ここは、対応する単語1172bからアンカーテキストが選択され、表示されてもよい。スコア2101eには、このサイトの辞書らしさスコアが、辞書候補テーブル1171のスコア1171bから抽出され、表示されている。
The
詳細エントリ選択ボタン2102は、サイトごとに用意される。例えば、No.1の辞書サイト候補の詳細エントリ選択ボタン2102を操作すると、詳細エントリ選択画面2110が開かれ、No.1の辞書サイト候補に対応するエントリ候補一覧2111が表示される。エントリ候補一覧2111には、選択された辞書サイト候補のエントリ候補テーブル1172の登録が抽出され、表示される。チェック欄2111aは、このエントリを登録するか否か選択するための欄である。識別番号2111bは、各エントリ候補に順に振られた番号である。URL2101cには、選択された辞書サイト候補のエントリ候補テーブル1172の単語1172bに登録されるアンカーテキストが、URL1172cのリンク情報を付加した状態で表示される。
A detailed
ユーザは、辞書サイト候補一覧画面2100を表示し、辞書サイトを選択する。このとき、必要であれば、詳細エントリ選択画面2110を表示して、エントリ候補の内容を確認することができる。このとき、エントリ候補とするか否かも選択することができる。そして、辞書サイトに登録したい候補があれば、チェック欄2101aをチェックし、「辞書サイトに登録」と記述された辞書サイト登録ボタン2104を操作する。これにより、選択された辞書サイト候補とエントリ候補が、辞書として辞書サイトテーブルに登録され、辞書DB118に格納される。また、辞書サイトとして登録したくないときは、「NGサイトに登録」と記述されたNGサイト登録ボタン2103を操作する。これにより、この辞書サイトが辞書サイト候補から削除される。このとき、今後このサイトを辞書サイト候補としないように、辞書追加ルールにNGサイトとして登録し、辞書追加ルール(記憶装置)116に格納するとしてもよい。
The user displays a dictionary site
このように、ユーザが例となる単語をキーワードとして設定すると、そのジャンルの辞書サイトが自動で検出され、同時に辞書のエントリ(用語と解説ページのURLのペア)が抽出される。ユーザは、これを辞書サイト候補一覧画面2100で確認し、辞書として用いるかどうかを決めるだけでよいので、簡単に辞書追加ができる。また、定期的に実行させれば、辞書のメンテナンスも容易になる。
In this way, when a user sets an example word as a keyword, a dictionary site of that genre is automatically detected, and at the same time, a dictionary entry (a pair of a term and an explanation page URL) is extracted. Since the user only has to confirm this on the dictionary site
以下、上記の辞書サイト検出システムにおける辞書サイト検出方法の処理手順について、フローチャートを用いて説明する。
図13は、辞書サイト検出方法の全体の処理手順を示したフローチャートである。このフローチャートは、キーワードが入力されてから辞書サイト候補の提示までの処理手順を示している。ユーザが設定したキーワードが入力され、処理が開始される。
Hereinafter, a processing procedure of the dictionary site detection method in the dictionary site detection system will be described with reference to a flowchart.
FIG. 13 is a flowchart showing the entire processing procedure of the dictionary site detection method. This flowchart shows a processing procedure from input of a keyword to presentation of dictionary site candidates. The keyword set by the user is input and the process is started.
[ステップS01] サイト取得部120が、入力されたキーワードに基づいて、このキーワードが含まれるページを有するサイトを検索する。検索されたサイトについて、トップページと、トップページにリンクされる他のページを取得するサイト取得処理を行う。取得されたページ群は、サイトごとに取得サイト(記憶装置)112に格納される。サイト取得処理の詳細は後述する。
[Step S01] Based on the input keyword, the
[ステップS02] リンク情報抽出部130が、ステップS01のサイト取得処理によって取得サイト(記憶装置)112に格納されたサイトから1つを候補サイトに選択し、そのページ群を解析する。そして、ページからリンク情報を抽出し、URL−タイトルテーブル1131及びアンカーテキスト−リンク先URLテーブル1132に登録する。リンク情報抽出処理の詳細は後述する。
[Step S02] The link
[ステップS03] リンク特徴集計部140が、URL−タイトルテーブル1131及びアンカーテキスト−リンク先URLテーブル1132を解析する。そして、リンク情報に、辞書サイト特有の特徴を示す特徴項目が検出された数を集計する。そして、特徴ごとに集計情報と、エントリテーブルとを生成する。リンク特徴集計処理の詳細は後述する。
[Step S03] The link
[ステップS04] 辞書サイト判定部150が、辞書サイト判定ルール115(記憶装置)に記憶される辞書サイト判定ルールに基づいて、集計情報から辞書らしさスコアを算出する。そして辞書らしさスコアが所定値以上のサイトを辞書サイト候補と判定する。辞書サイト判定処理の詳細は後述する。
[Step S04] The dictionary
[ステップS05] ステップS04の辞書サイト判定処理により、このサイトが辞書サイトと判定されたかどうかをチェックする。辞書サイトと判定されたときは、処理をステップS06に進める。辞書サイトと判定されなかったときは、処理をステップS07に進める。 [Step S05] It is checked whether or not this site is determined to be a dictionary site by the dictionary site determination processing in step S04. If it is determined to be a dictionary site, the process proceeds to step S06. If it is not determined to be a dictionary site, the process proceeds to step S07.
[ステップS06] 辞書サイトと判定されたときは、途中抽出されたエントリテーブルに基づいて、辞書エントリ候補を作成する。辞書エントリ候補作成処理の詳細は後述する。 [Step S06] When the dictionary site is determined, dictionary entry candidates are created based on the entry table extracted halfway. Details of the dictionary entry candidate creation processing will be described later.
[ステップS07] キーワードによって検出された全候補サイトの処理が終了したかどうかを判定する。全候補サイトの処理が終了したときは、処理をステップS08に進める。全候補サイトの処理が終了していないときは、ステップS02に戻って、次の候補サイトの処理を行う。 [Step S07] It is determined whether or not the processing of all candidate sites detected by the keyword is completed. When the processes for all candidate sites are completed, the process proceeds to step S08. If all candidate sites have not been processed, the process returns to step S02 to process the next candidate site.
[ステップS08] 全候補サイトの処理が終了したときは、辞書サイト候補に登録されたサイトと、そのエントリとをユーザに提示する処理を行う。ユーザ提示処理の詳細は後述する。 [Step S08] When processing of all candidate sites is completed, a process of presenting sites registered as dictionary site candidates and their entries to the user is performed. Details of the user presentation process will be described later.
以上の処理手順が実行されることにより、入力されたキーワードに基づいて所望のジャンルの辞書サイトの可能性があるサイトが検出され、そのサイト内にページ間のリンク情報に基づきそのサイトが辞書サイトとしての特徴を有しているかどうかが判定される。そして、辞書サイト候補と判定されたときは、そのサイトがユーザに提示される。また、このとき同時に、リンク情報からオートリンク辞書の作成に必要な辞書エントリ候補も生成される。これにより、ユーザは、所望のジャンルに関連するキーワードを設定するだけで、簡単に所望のジャンルの辞書サイトを検出することができる。また、辞書のエントリ(単語とその解説ページのURLとを対応付けた情報)も同時に得ることができるため、オートリンク辞書の作成が容易になる。 By executing the above processing procedure, a site that may be a dictionary site of a desired genre is detected based on the input keyword, and the site is found in the site based on link information between pages. It is determined whether or not it has the characteristics as follows. And when it determines with a dictionary site candidate, the site is shown to a user. At the same time, dictionary entry candidates necessary for creating an autolink dictionary are also generated from the link information. As a result, the user can easily detect a dictionary site of a desired genre simply by setting a keyword related to the desired genre. In addition, dictionary entries (information in which words are associated with URLs of their explanation pages) can be obtained at the same time, making it easy to create an autolink dictionary.
以下、各処理の詳細を説明する。
図14は、サイト取得処理の手順を示したフローチャートである。
キーワードが入力されて処理が開始される。
Details of each process will be described below.
FIG. 14 is a flowchart showing a procedure of site acquisition processing.
A keyword is input and processing starts.
[ステップS11] 拡張検索ルール(記憶装置)111に格納される拡張検索ルールを読み出し、キーワードを拡張検索ルールに基づき変化させ、クエリを拡張する。
[ステップS12] ステップS11で作成されたクエリを用いて検索を行う。これにより、キーワードを含むページが検出される。なお、検索では、複数のキーワードを受け付け、それぞれの検索結果のANDをとるなどしてもよい。
[Step S11] The extended search rule stored in the extended search rule (storage device) 111 is read, the keyword is changed based on the extended search rule, and the query is extended.
[Step S12] A search is performed using the query created in Step S11. Thereby, a page including the keyword is detected. In the search, a plurality of keywords may be accepted and AND of the respective search results may be taken.
[ステップS13] ステップS12で検索されたページの1つを選択し、そのトップページを検出する。検出したトップページは、取得サイト(記憶装置)112に格納する。 [Step S13] One of the pages searched in step S12 is selected, and the top page is detected. The detected top page is stored in the acquisition site (storage device) 112.
[ステップS14] ステップS13で検出されたトップページに記述されるリンク情報を抽出する。
[ステップS15] ステップS14で検出されたリンク情報に基づき、リンクされる配下の解説ページを取得する。取得した解説ページは、取得サイト(記憶装置)112に格納する。
[Step S14] Link information described in the top page detected in step S13 is extracted.
[Step S15] Based on the link information detected in step S14, a subordinate comment page to be linked is acquired. The acquired explanation page is stored in the acquisition site (storage device) 112.
[ステップS16] ステップS15で取得した解説ページ内に記述されるリンク情報を抽出する。
[ステップS17] ステップ14およびステップS16で抽出したリンク情報に基づき,トップページからリンクでたどれるすべての解説ページが収集されたかどうかを判定する。収集されたときは、処理をステップS17に進める。すべて収集し終わっていないときは、処理をステップS15に戻し、次の解説ページを収集する。
[Step S16] Link information described in the comment page acquired in step S15 is extracted.
[Step S17] Based on the link information extracted in
[ステップS18] ステップS12で検索された全検索ページについて処理が終了したかどうかを判定する。終了していないときは、ステップS13に戻って、検索結果の次のサイトを取得する処理を行う。終了したときは、サイト取得処理を終了する。 [Step S18] It is determined whether or not the processing has been completed for all search pages searched in step S12. If not completed, the process returns to step S13 to perform processing for acquiring the next site of the search result. When finished, the site acquisition process is finished.
以上の処理手順が実行されることにより、キーワードに基づいて検索されたページが属するサイトのトップページと、トップページにリンクされる配下のページが収集され、取得サイト(記憶装置)112に格納される。 By executing the above processing procedure, the top page of the site to which the page searched based on the keyword belongs and the subordinate pages linked to the top page are collected and stored in the acquisition site (storage device) 112. The
図15は、リンク情報抽出処理の手順を示したフローチャートである。
サイト取得処理(ステップS01)によって取得サイト(記憶装置)112に格納された1つのサイトを候補サイトとし、そのページ群(トップページと解説ページ群)を読み出し、処理を開始する。
FIG. 15 is a flowchart showing the procedure of link information extraction processing.
One site stored in the acquisition site (storage device) 112 by the site acquisition process (step S01) is set as a candidate site, the page group (top page and comment page group) is read, and the process is started.
[ステップS21] 候補サイトのドメイン名を抽出する。例えば、トップページのURLからドメイン名を抽出する。抽出されたドメイン名は、他の情報項目登録時に、URL−タイトルテーブル1131のドメイン1131a及びアンカーテキスト−リンク先URLテーブル1132のドメイン1132aに格納される。
[Step S21] The domain name of the candidate site is extracted. For example, the domain name is extracted from the URL of the top page. The extracted domain name is stored in the
[ステップS22] 候補サイトのページ群から未処理のページを1ページ取り出す。処理対象のページは、トップページ、解説ページのどちらも含む。
[ステップS23] 取り出したページのHTMLの解析を行う。また、取り出したページのURLをアンカーテキスト−リンク先URLテーブル1132の処理対象URL1132bに格納する。
[Step S22] One unprocessed page is extracted from the page group of the candidate site. The pages to be processed include both the top page and the explanation page.
[Step S23] The HTML of the extracted page is analyzed. Further, the URL of the extracted page is stored in the
[ステップS24] ページ内のリンク情報Aを抽出し、URL−タイトルテーブル1131に登録する。処理の詳細は、後述する。
[ステップS25] ページ内のリンク情報Bを抽出し、アンカーテキスト−リンク先URLテーブル1132に登録する。処理の詳細は、後述する。
[Step S24] The link information A in the page is extracted and registered in the URL-title table 1131. Details of the processing will be described later.
[Step S25] The link information B in the page is extracted and registered in the anchor text-link destination URL table 1132. Details of the processing will be described later.
[ステップS26] 候補サイトに属する全ページの処理が終了したかどうかを判定する。終了していないときは、ステップS22に戻って、次のページの処理を行う。終了したときは、リンク情報抽出処理を終了する。 [Step S26] It is determined whether or not the processing of all pages belonging to the candidate site has been completed. If not completed, the process returns to step S22 to process the next page. When finished, the link information extraction process is finished.
図16は、リンク情報A抽出処理の手順を示したフローチャートである。
リンク情報A(リンク先のページのURLとそのページのタイトル)を抽出し、URL−タイトルテーブル1131に登録する処理を行う。
FIG. 16 is a flowchart showing the procedure of the link information A extraction process.
The link information A (the URL of the linked page and the title of the page) is extracted and registered in the URL-title table 1131.
[ステップS241] 処理対象のページから未処理のリンク情報を1つ抽出する。
[ステップS242] リンク先URLの指定情報を抽出し、URLが相対パスであれば、処理対象のページのファイル位置からリンク先のページのURLを絶対パスに変換する。リンク先URLは、処理対象のページからの相対パスで記載されている場合があるため、このような相対パスを絶対パスに変換する。
[Step S241] One unprocessed link information is extracted from the page to be processed.
[Step S242] The designation information of the link destination URL is extracted, and if the URL is a relative path, the URL of the link destination page is converted into an absolute path from the file position of the processing target page. Since the link destination URL may be described as a relative path from the page to be processed, such a relative path is converted into an absolute path.
[ステップS243] ステップS242で抽出されたリンク先URLのページを取得し、HTMLを解析して、タイトルを抽出する。
[ステップS244] ステップS242で絶対パスに変換したリンク先のページのURLをURL−タイトルテーブル1131のURL1131bに登録する。また、ステップS243で抽出されたリンク先のページのタイトルを先に登録したURLに対応付けてタイトル1131cに登録する。前段で抽出されたドメイン名もドメイン1131aに登録する。URL−タイトルテーブル1131は、リンク特徴DB113に格納する。
[Step S243] The page of the link destination URL extracted in Step S242 is acquired, the HTML is analyzed, and the title is extracted.
[Step S244] The URL of the link destination page converted into the absolute path in step S242 is registered in the
[ステップS245] 処理対象のページの最後のリンク情報であるかどうかを判定する。最後のリンク情報でないときは、ステップS241に戻って次のリンク情報の処理を行う。最後のリンク情報であれば、リンク情報A抽出処理を終了する。 [Step S245] It is determined whether it is the last link information of the page to be processed. If it is not the last link information, the process returns to step S241 to process the next link information. If it is the last link information, the link information A extraction process is terminated.
以上の処理手順が実行されることにより、処理対象のページのリンク情報に記述されるリンク先のURLと、リンク先のページのタイトルとが、URL−タイトルテーブル1131に登録される。 By executing the above processing procedure, the link destination URL described in the link information of the processing target page and the title of the link destination page are registered in the URL-title table 1131.
図17は、リンク情報B抽出処理の手順を示したフローチャートである。
リンク情報B(処理対象のページのURL、アンカーテキスト及びリンク先のページのURL)を抽出し、アンカーテキスト−リンク先URLテーブル1132に登録する処理を行う。
FIG. 17 is a flowchart showing the procedure of the link information B extraction process.
The link information B (the URL of the processing target page, the anchor text, and the URL of the link destination page) is extracted and registered in the anchor text-link destination URL table 1132.
[ステップS251] 処理対象のページから未処理のリンク情報を1つ抽出する。
[ステップS252] リンク情報から、アンカーテキストと、リンク先URLとを抽出する。
[Step S251] One piece of unprocessed link information is extracted from the page to be processed.
[Step S252] An anchor text and a link destination URL are extracted from the link information.
[ステップS253] ステップS252で抽出されたリンク先URLが相対パスであるかどうかを判定する。相対パスであれば、処理をステップS254に進める。相対パスでなければ、処理をステップS255に進める。 [Step S253] It is determined whether the link destination URL extracted in step S252 is a relative path. If it is a relative path, the process proceeds to step S254. If it is not a relative path, the process proceeds to step S255.
[ステップS254] リンク先URLが相対パスであったときは、処理対象のページのファイル位置からリンク先のページのURLを絶対パスに変換する。
[ステップS255] ステップS252で抽出されたアンカーテキストを、アンカーテキスト−リンク先URL1132のアンカーテキスト1132cに登録する。また、リンク先URL(絶対パス)も、アンカーテキストに対応付けて、リンク先URL1132dに登録する。前段で抽出されたドメイン名はドメイン1132a、処理対象のページのURLは処理対象URL1132bに登録する。アンカーテキスト−リンク先URL1132は、リンク特徴DB113に格納される。
[Step S254] When the link destination URL is a relative path, the URL of the link destination page is converted into an absolute path from the file position of the page to be processed.
[Step S255] The anchor text extracted in step S252 is registered in the
[ステップS256] 処理対象のページの最後のリンク情報であるかどうかを判定する。最後のリンク情報でないときは、ステップS251に戻って次のリンク情報の処理を行う。最後のリンク情報であれば、リンク情報(特徴2)抽出処理を終了する。 [Step S256] It is determined whether it is the last link information of the page to be processed. If it is not the last link information, the process returns to step S251 to process the next link information. If it is the last link information, the link information (feature 2) extraction process is terminated.
以上の処理手順が実行されることにより、処理対象のページのリンク情報に記述されるアンカーテキストと、リンク先URLとが、アンカーテキスト−リンク先テーブル1132に登録される。 By executing the above processing procedure, the anchor text described in the link information of the processing target page and the link destination URL are registered in the anchor text-link destination table 1132.
図18は、リンク特徴集計処理の手順を示したフローチャートである。
URL−タイトルテーブル1131及びアンカーテキスト−リンク先URLテーブル1132を用いて、特徴ごとのデータ集計を行う。
FIG. 18 is a flowchart showing the procedure of the link feature totaling process.
Using the URL-title table 1131 and the anchor text-link destination URL table 1132, data for each feature is aggregated.
[ステップS31] リンク特徴ルール(記憶装置)114からリンク特徴ルールを読み出す。リンク特徴ルールに基づいて、特徴1の分析を行うか否かを判定する。分析を行うときは、処理をステップS32に進める。分析を行わないときは、処理をステップS33に進める。
[Step S31] A link feature rule is read from the link feature rule (storage device) 114. It is determined whether or not to analyze
[ステップS32] 特徴1の分析を行うと判定されたときは、特徴1に応じた分析を行い、特徴を満たすリンクの数を集計する。特徴1分析処理の詳細は後述する。
[ステップS33] リンク特徴ルールに基づいて、特徴2の分析を行うか否かを判定する。分析を行うときは、処理をステップS34に進める。分析を行わないときは、処理をステップS35に進める。
[Step S32] When it is determined that the
[Step S33] Based on the link feature rule, it is determined whether or not to analyze
[ステップS34] 特徴2の分析を行うと判定されたときは、特徴2に応じた分析を行い、特徴を満たすリンクの数を集計する。特徴2分析処理の詳細は後述する。
[ステップS35] リンク特徴ルールに基づいて、特徴3の分析を行うか否かを判定する。分析を行うときは、処理をステップS36に進める。分析を行わないときは、リンク特徴集計処理を終了する。
[Step S34] When it is determined that the analysis of the
[Step S35] Based on the link feature rule, it is determined whether to analyze feature 3. When analyzing, the process proceeds to step S36. When the analysis is not performed, the link feature totaling process is terminated.
[ステップS36] 特徴3の分析を行うと判定されたときは、特徴3に応じた分析を行い、特徴を満たすリンクの数を集計する。特徴3分析処理の詳細は後述する。特徴3分析処理の終了後、リンク特徴集計処理を終了する。 [Step S36] When it is determined that the analysis of the feature 3 is performed, the analysis according to the feature 3 is performed and the number of links satisfying the feature is totaled. Details of the feature 3 analysis process will be described later. After the feature 3 analysis process is completed, the link feature aggregation process is terminated.
以上の処理手順が実行されることにより、特徴1、特徴2、特徴3のうち、任意の特徴を用いて辞書サイトの判定を行うことができる。
図19は、特徴1分析処理の手順を示したフローチャートである。
By executing the above processing procedure, the dictionary site can be determined using any one of the
FIG. 19 is a flowchart showing the procedure of the
特徴1分析処理では、特徴1に基づき、リンク元のアンカーテキストとリンク先ページのタイトルタグ内の文字列(タイトル)とが一致するリンクの数を特徴1カウンタとして集計する。
In the
[ステップS321] アンカーテキスト−リンク先URLテーブル1132から1行読み出す。ドメイン、処理対象URL、アンカーテキスト及びリンク先URLが読み出される。 [Step S321] One line is read from the anchor text-link destination URL table 1132. The domain, processing target URL, anchor text, and link destination URL are read out.
[ステップS322] ステップS321で読み出したドメインに該当する特徴1カウンタテーブル1133の全リンクカウンタ1133bを1増やして格納する。特徴1カウンタテーブル1133のドメイン1133aに該当するドメインが設定されていなかったときは、新たにレコードを作成し、対応する全リンクカウンタ1133bに1を設定する。
[Step S322] All link counters 1133b of the
[ステップS323] ステップS321で読み出したリンク先URLは、自サイト内のリンクであるかどうかを判定する。自サイト内のリンクであれば、処理をステップS324に進める。自サイト内のリンクでなければ、処理をステップS329に進める。 [Step S323] It is determined whether the link destination URL read in step S321 is a link in the own site. If so, the process advances to step S324. If the link is not within the local site, the process proceeds to step S329.
[ステップS324] ステップS321で読み出したドメインに該当する特徴1カウンタテーブル1133の内部リンクカウンタ1133cを1増やして格納する。
[ステップS325] URL−タイトルテーブル1131のURL1131bを検索し、ステップS321で読み出したリンク先URLと同じURLが登録される行を検出する。そして、検出されたURLに対応するタイトル1131cからタイトルを取り出す。
[Step S324] The
[Step S325] The
[ステップS326] ステップS321で読み出したアンカーテキストが、ステップS325で取り出したタイトルの中に含まれているかどうかを判定する。アンカーテキストがタイトルに含まれているときは、処理をステップS327に進める。含まれていないときは、処理をステップS329に進める。 [Step S326] It is determined whether the anchor text read in step S321 is included in the title extracted in step S325. If the anchor text is included in the title, the process proceeds to step S327. If not included, the process proceeds to step S329.
[ステップS327] アンカーテキストがタイトルに含まれているときは、特徴1カウンタテーブル1133の該当するドメインの行の特徴1カウンタ1133dを1増やして格納する。
[Step S327] When the anchor text is included in the title, the
[ステップS328] 特徴1エントリテーブル1134にアンカーテキストがタイトルに含まれているリンク情報をエントリする。処理対象のページのURLは、処理対象URL(ドメイン)1134a、アンカーテキストは単語1134b、そしてリンク先URLはURL1134cに登録する。
[Step S328] The link information in which the anchor text is included in the title is entered in the
[ステップS329] アンカーテキスト−リンク先URLテーブル1132の処理対象URL1132bに、未処理のURLが残っているかどうかを判定する。残っていれば、処理をステップS321に戻し、次の処理対象URLについて処理を行う。残っていなければ、特徴1分析処理を終了する。
[Step S329] It is determined whether or not an unprocessed URL remains in the
以上の処理手順が実行されることにより、全リンクカウンタ、内部リンクカウンタ及び特徴1を満たしたリンクの数を集計した特徴1カウンタが得られる。集計結果は、処理対象のサイトのドメインに対応付けて、特徴1カウンタテーブル1133に登録される。また、このとき同時に、特徴1の要件を満たすアンカーテキストとリンク先URLとを対応付けた特徴1エントリテーブル1134も生成される。
By executing the above processing procedure, a total link counter, an internal link counter, and a
図20は、特徴2分析処理の手順を示したフローチャートである。
特徴2分析処理では、特徴2に基づき、リンク元のアンカーテキストとリンク先ページのファイル名とが一致するリンクの数を特徴2カウンタとして集計する。
FIG. 20 is a flowchart showing the procedure of the
In the
[ステップS341] アンカーテキスト−リンク先URLテーブル1132から1行読み出す。ドメイン、処理対象URL、アンカーテキスト及びリンク先URLが読み出される。 [Step S341] One line is read from the anchor text-link destination URL table 1132. The domain, processing target URL, anchor text, and link destination URL are read out.
[ステップS342] ステップS341で読み出したドメインに該当する特徴2カウンタテーブル1135の全リンクカウンタ1135bを1増やして格納する。特徴2カウンタテーブル1135のドメイン1135aに該当するドメインが設定されていなかったときは、新たにレコードを作成し、対応する全リンクカウンタ1135bに1を設定する。
[Step S342] The
[ステップS343] ステップS341で読み出したリンク先URLは、自サイト内のリンクであるかどうかを判定する。自サイト内のリンクであれば、処理をステップS344に進める。自サイト内のリンクでなければ、処理をステップS346に進める。 [Step S343] It is determined whether the link destination URL read in step S341 is a link in the own site. If so, the process advances to step S344. If it is not a link in its own site, the process proceeds to step S346.
[ステップS344] ステップS341で読み出したドメインに該当する特徴2カウンタテーブル1135の内部リンクカウンタ1135cを1増やして格納する。
[ステップS345] ステップS341で読み出したアンカーテキストをURLエンコードする。一般に、URLとして使用できない記号や全角文字などは、URLに組み込む際にURLエンコード処理され、「%E3」などの半角文字の組み合わせに変換される。このため、リンク先URLに含まれるファイル名とアンカーテキストとを照合する際には、アンカーテキストをURLエンコード処理しておく必要がある。
[Step S344] The
[Step S345] The anchor text read in step S341 is URL-encoded. In general, symbols, double-byte characters, and the like that cannot be used as URLs are URL-encoded when they are incorporated into URLs, and converted to combinations of single-byte characters such as “% E3”. For this reason, when the file name included in the link destination URL is compared with the anchor text, the anchor text needs to be URL-encoded.
[ステップS346] ステップS345でURLエンコード処理されたアンカーテキストと、ステップS341で読み出したリンク先URLに含まれるファイル名とを照合する。アンカーテキストとファイル名が一致するときは、処理をステップS347に進める。一致しないときは、処理をステップS349に進める。 [Step S346] The anchor text subjected to the URL encoding process in step S345 is collated with the file name included in the link destination URL read in step S341. If the anchor text matches the file name, the process proceeds to step S347. If not, the process proceeds to step S349.
[ステップS347] アンカーテキストとファイル名とが一致するときは、特徴2カウンタテーブル1135の該当するドメインの行の特徴2カウンタ1135dを1増やして格納する。
[Step S347] When the anchor text matches the file name, the
[ステップS348] 特徴2エントリテーブル1135にアンカーテキストがタイトルに含まれているリンク情報をエントリする。処理対象のページのURLは、処理対象URL(ドメイン)1135a、アンカーテキストは単語1135b、そしてリンク先URLはURL1135cに登録する。
[Step S348] The link information in which the anchor text is included in the title is entered in the
[ステップS349] アンカーテキスト−リンク先URLテーブル1132の処理対象URL1132bに、未処理のURLが残っているかどうかを判定する。残っていれば、処理をステップS341に戻し、次の処理対象URLについて処理を行う。残っていなければ、特徴2分析処理を終了する。
[Step S349] It is determined whether or not an unprocessed URL remains in the
以上の処理手順が実行されることにより、全リンクカウンタ、内部リンクカウンタ及び特徴2を満たしたリンクの数を集計した特徴2カウンタが得られる。集計結果は、処理対象のサイトのドメインに対応付けて、特徴2カウンタテーブル1135に登録される。なお、特徴1の分析処理を同時に行う場合には、いずれか一方で全リンクカウンタ及び内部リンクカウンタを集計する処理を行えばよい。また、このとき同時に、特徴2の要件を満たすアンカーテキストとリンク先URLとを対応付けた特徴2エントリテーブル1136も生成される。
By executing the above processing procedure, a
図21は、特徴3分析処理の手順を示したフローチャートである。
特徴3分析処理では、特徴3に基づき、リンク先ページのタイトルからアンカーテキストを除いた文字列を共通タイトルとして抽出し、共通タイトルが出現する数を集計する。
FIG. 21 is a flowchart showing the procedure of the feature 3 analysis process.
In the feature 3 analysis process, a character string obtained by removing the anchor text from the title of the link destination page is extracted as a common title based on the feature 3, and the number of appearances of the common title is totaled.
[ステップS361] アンカーテキスト−リンク先URLテーブル1132から1行読み出す。ドメイン、処理対象URL、アンカーテキスト及びリンク先URLが読み出される。 [Step S361] One line is read from the anchor text-link destination URL table 1132. The domain, processing target URL, anchor text, and link destination URL are read out.
[ステップS362] ステップS361で読み出したドメインに該当する特徴3カウンタテーブル1137の全リンクカウンタ1137bを1増やして格納する。特徴3カウンタテーブル1137のドメイン1137aに該当するドメインが設定されていなかったときは、新たにレコードを作成し、対応する全リンクカウンタ1137bに1を設定する。
[Step S362] The
[ステップS363] ステップS361で読み出したリンク先URLは、自サイト内のリンクであるかどうかを判定する。自サイト内のリンクであれば、処理をステップS364に進める。自サイト内のリンクでなければ、処理をステップS369に進める。 [Step S363] It is determined whether the link destination URL read in step S361 is a link in the own site. If so, the process advances to step S364. If it is not a link in its own site, the process proceeds to step S369.
[ステップS364] ステップS361で読み出したドメインに該当する特徴3カウンタテーブル1137の内部リンクカウンタ1137cを1増やして格納する。
[ステップS365] URL−タイトルテーブル1131のURL1131bを検索し、ステップS361で読み出したリンク先URLと同じURLが登録される行を検出する。そして、検出されたURLに対応するタイトルをタイトル1131cから取り出す。
[Step S364] The
[Step S365] The
[ステップS366] ステップS365で取り出したタイトルに、ステップS361で読み出したアンカーテキストが含まれているかどうかを判定する。含まれているときは、処理をステップS367に進める。含まれていないときは、処理をステップS369に進める。 [Step S366] It is determined whether or not the anchor text read out in step S361 is included in the title extracted in step S365. If it is included, the process proceeds to step S367. If not included, the process proceeds to step S369.
[ステップS367] タイトルにアンカーテキストが含まれていたときは、タイトルからアンカーテキストを除いた文字列を抽出し、共通タイトルとする。抽出された共通タイトルと、共通タイトルテーブル1138の共通タイトル1138bとを照合し、一致するものがあれば、対応するカウンタ1138cを1増やして格納する。一致するものがなければ、共通タイトル1138bに新たにレコードとして登録し、対応するカウンタ1138cに1を設定する。
[Step S367] When the anchor text is included in the title, a character string excluding the anchor text from the title is extracted and set as a common title. The extracted common title and the
[ステップS368] 特徴3エントリテーブル1139にステップS367で共通タイトルを登録したリンク情報をエントリする。処理対象のページのURLは、処理対象URL(ドメイン)1139a、アンカーテキストは単語1139b、リンク先URLはURL1139c、そして共通タイトルは共通タイトル1139dに登録する。
[Step S368] The link information in which the common title is registered in Step S367 is entered in the feature 3 entry table 1139. The URL of the processing target page is registered in the processing target URL (domain) 1139a, the anchor text is registered in the
[ステップS369] アンカーテキスト−リンク先URLテーブル1132の処理対象URL1132bに、未処理のURLが残っているかどうかを判定する。残っていれば、処理をステップS361に戻し、次の処理対象URLについて処理を行う。残っていなければ、処理をステップS370に進める。
[Step S369] It is determined whether or not an unprocessed URL remains in the
[ステップS370] ステップS369までの処理により共通タイトルテーブル1138に登録されたカウンタ1138cのカウント値を比較し、最大のカウント値と、その共通タイトルとを抽出する。そして、特徴3カウンタテーブル1137の特徴3カウンタ1137dに抽出された最大のカウント値、共通タイトル1137eに最大のカウント値に対応する共通タイトルを登録する。
[Step S370] The count values of the
[ステップS371] ステップS370で登録された共通タイトルを、特徴3エントリテーブル1139の共通タイトル1139と順次照合する。そして、共通タイトルが一致するものを除き、そのレコードを削除する。これにより、最大数のページで一致する共通タイトルを持つエントリのみが特徴3エントリテーブル1139に残る。
[Step S371] The common title registered in step S370 is sequentially checked against the
以上の処理手順が実行されることにより、全リンクカウンタ、内部リンクカウンタ及び特徴3を満たした共通タイトルを有するリンクの数を集計した特徴3カウンタが得られる。集計結果は、処理対象のサイトのドメインに対応付けて、特徴3カウンタテーブル1137に登録される。なお、特徴1または特徴2の分析処理を同時に行う場合には、いずれか一方で全リンクカウンタ及び内部リンクカウンタを集計する処理を行えばよい。また、このとき同時に、特徴3の要件を満たすアンカーテキストとリンク先URLとを対応付けた特徴3エントリテーブル1139も生成される。
By executing the above processing procedure, a feature 3 counter in which the total link counter, the internal link counter, and the number of links having a common title satisfying the feature 3 are totaled is obtained. The aggregation result is registered in the feature 3 counter table 1137 in association with the domain of the processing target site. In addition, when performing the analysis process of the
こうしてリンク特徴集計処理が終了すると、辞書サイト判定部150は、検出されたサイトが辞書サイトであるかどうかの判定処理を行う。
図22は、辞書サイト判定処理の手順を示したフローチャートである。
When the link feature totaling process is thus completed, the dictionary
FIG. 22 is a flowchart showing the procedure of the dictionary site determination process.
辞書サイト処理が開始されたときには、前の処理から処理中のドメイン名を引き継いでいるとする。
[ステップS41] 辞書サイト判定部150は、辞書サイト判定ルールを辞書サイト判定ルール(記憶装置)115から読み出す。
When dictionary site processing is started, it is assumed that the domain name being processed is inherited from the previous processing.
[Step S41] The dictionary
[ステップS42] 辞書サイト判定部150は、ステップS41で読み出した辞書サイト判定ルールに基づいて、辞書らしさスコアを算出する。このとき、該当する特徴1カウンタテーブル1133、特徴2カウンタテーブル1135、または特徴3カウンタテーブル1137に登録される該当サイトの集計結果を用いる。
[Step S42] The dictionary
[ステップS43] ステップS42で算出された辞書らしさスコアを、辞書サイト判定ルールに定義される閾値と比較する。辞書サイト判定ルールを満たしている場合は、辞書サイト候補と判定することができる。 [Step S43] The dictionary-likeness score calculated in step S42 is compared with a threshold defined in the dictionary site determination rule. If the dictionary site determination rule is satisfied, it can be determined as a dictionary site candidate.
[ステップS44] ステップS43による比較結果に基づいて、辞書サイト候補と判定されたときは、処理をステップS45に進める。辞書サイト候補と判定されなかったときは、辞書サイト判定処理を終了する。 [Step S44] If the dictionary site candidate is determined based on the comparison result in step S43, the process proceeds to step S45. If it is not determined as a dictionary site candidate, the dictionary site determination process ends.
[ステップS45] 辞書サイト候補と判定されたときは、このサイトを辞書候補とし、辞書候補テーブル1171に登録する。処理対象URL(ドメイン)を辞書候補テーブル1171のサイトURL(ドメイン)1171aに登録する。また、算出された辞書らしさスコアは、スコア1171bに登録する。登録後、辞書サイト判定処理を終了する。
[Step S45] If it is determined as a dictionary site candidate, this site is set as a dictionary candidate and registered in the dictionary candidate table 1171. The processing target URL (domain) is registered in the site URL (domain) 1171a of the dictionary candidate table 1171. Also, the calculated dictionary-likeness score is registered in the
辞書サイト候補が決定すると、辞書エントリ候補作成部160は、辞書サイト候補について辞書エントリ候補を作成する処理を行う。
図23は、辞書エントリ候補作成処理の手順を示したフローチャートである。
When the dictionary site candidate is determined, the dictionary entry
FIG. 23 is a flowchart showing a procedure of dictionary entry candidate creation processing.
[ステップS61] リンク特徴DB113に格納されるエントリテーブル(特徴1エントリテーブル1134、特徴2エントリテーブル1136及び特徴3エントリテーブル1139)からエントリを読み出す。該当する処理対象URL(ドメイン)の単語1134b,1136b,1139bと、URL1134c,1136c,1139cと、のペアのエントリをひとつ取り出す。
[Step S61] An entry is read from the entry tables (feature 1 entry table 1134, feature 2 entry table 1136, and feature 3 entry table 1139) stored in the
[ステップS62] ステップS61で取り出されたエントリが、辞書候補DB117のエントリ候補テーブル1172の該当する処理対象URLにこのエントリが登録されているかどうかを判定する。未登録であれば、処理をステップS63に進める。未登録でなければ、処理をステップS64に進める。
[Step S62] It is determined whether the entry extracted in step S61 is registered in the corresponding processing target URL of the entry candidate table 1172 of the
[ステップS63] エントリ候補テーブル1172に未登録であれば、このエントリを新たなレコードとしてエントリ候補テーブル1172に登録する。
[ステップS64] エントリがまだ残っているかどうかを判定する。次のエントリがあれば、処理をステップS61に戻し、エントリの抽出からの処理を行う。次のエントリがなければ、辞書エントリ候補作成処理を終了する。
[Step S63] If the entry is not registered in the entry candidate table 1172, the entry is registered in the entry candidate table 1172 as a new record.
[Step S64] It is determined whether or not there are still entries. If there is a next entry, the process returns to step S61 to perform the process from the entry extraction. If there is no next entry, the dictionary entry candidate creation process is terminated.
以上の処理手順により、辞書サイト候補のエントリ候補テーブルが作成される。なお、エントリ候補登録のルールを予め決めておき、辞書追加ルール(記憶装置)116に格納しておいてもよい。例えば、除外キーワードやURL指定、複数サイトで検出された単語だけ登録するなどのルールを設定しておく。辞書エントリ候補作成処理では、ルールに定義される条件を満たしたエントリのみをエントリ候補テーブル1172に登録する。 With the above processing procedure, an entry candidate table of dictionary site candidates is created. The entry candidate registration rule may be determined in advance and stored in the dictionary addition rule (storage device) 116. For example, rules such as exclusion keywords, URL designation, and registration of only words detected at a plurality of sites are set. In the dictionary entry candidate creation process, only entries that satisfy the conditions defined in the rule are registered in the entry candidate table 1172.
こうして辞書サイト候補が決定され、その辞書エントリ候補が作成されると、ユーザ提示部170は、辞書サイト候補と辞書エントリ候補とをユーザに提示する処理を行う。
図24は、ユーザ提示処理の手順を示したフローチャートである。
When the dictionary site candidate is determined in this way and the dictionary entry candidate is created, the
FIG. 24 is a flowchart showing the procedure of the user presentation process.
[ステップS81] 辞書候補DB117に格納される辞書候補テーブル1171及びエントリ候補テーブル1172に設定される辞書サイト候補の情報をクライアント装置200へ出力する。クライアント装置200では、取得した情報に基づいて図12に示した辞書サイト候補一覧画面2100を表示する。
[Step S <b> 81] Information on dictionary site candidates set in the dictionary candidate table 1171 and the entry candidate table 1172 stored in the
[ステップS82] クライアント装置200を介してユーザからの指示が受け付けられるのを待つ。受け付けたときは、処理をステップS83に進める。
[ステップS83] ステップS82で受け付けた指示が登録要求であったかどうかを判定する。登録要求であれば、処理をステップS84に進める。登録要求でなければ、処理をステップS86に進める。
[Step S82] Wait until an instruction from the user is received via the
[Step S83] It is determined whether the instruction received in step S82 is a registration request. If it is a registration request, the process proceeds to step S84. If it is not a registration request, the process proceeds to step S86.
[ステップS84] 登録要求であったときは、この辞書サイト候補を辞書登録し、辞書DB118に格納する。
[ステップS85] 受け付け確認画面をクライアント装置200へ出力し、ユーザ提示処理を終了する。
[Step S84] If it is a registration request, this dictionary site candidate is registered in the dictionary and stored in the
[Step S85] An acceptance confirmation screen is output to the
[ステップS86] 登録要求でなかったときは、要求された処理を実行し、ユーザ提示処理を終了する。
以上の処理手順が実行されることにより、ユーザが例として入力した単語に基づいて、そのジャンルの辞書サイトが自動で検出され、同時に辞書のエントリ(用語と解説ページのURLのペア)が抽出される。これにより、ユーザの辞書作成作業を大幅に軽減することが可能となる。また、定期的に実行させれば、辞書のメンテナンスも容易になる。
[Step S86] If it is not a registration request, the requested process is executed, and the user presentation process is terminated.
By executing the above processing procedure, a dictionary site of the genre is automatically detected based on a word input by the user as an example, and a dictionary entry (a pair of a term and an explanation page URL) is extracted at the same time. The As a result, the user's dictionary creation work can be greatly reduced. Also, if it is executed regularly, dictionary maintenance becomes easy.
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、文書群検出装置が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。 The above processing functions can be realized by a computer. In that case, a program describing the processing contents of the functions that the document group detection apparatus should have is provided. By executing the program on a computer, the above processing functions are realized on the computer. The program describing the processing contents can be recorded on a computer-readable recording medium.
プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD(Digital Versatile Disc)、CD−ROM(Compact Disc Read Only Memory)などの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。 When distributing the program, for example, portable recording media such as a DVD (Digital Versatile Disc) and a CD-ROM (Compact Disc Read Only Memory) on which the program is recorded are sold. It is also possible to store the program in a storage device of a server computer and transfer the program from the server computer to another computer via a network.
プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。 The computer that executes the program stores, for example, the program recorded on the portable recording medium or the program transferred from the server computer in its own storage device. Then, the computer reads the program from its own storage device and executes processing according to the program. The computer can also read the program directly from the portable recording medium and execute processing according to the program. Further, each time the program is transferred from the server computer, the computer can sequentially execute processing according to the received program.
以上の実施の形態に関し、更に以下の付記を開示する。
(付記1) ネットワーク上で提供される文書の集合であって1またはそれ以上のコンピュータによって管理されている所定の文書群を検出する文書群検出方法において、
前記コンピュータが、
特定文書の配下に複数の配下文書が存在する階層構造を成す文書群を対象にして、特定のキーワードを用いて該配下文書のいずれかを検索し、検索された該配下文書に基づいて前記特定文書を検出し、該特定文書の配下の複数の配下文書を収集する収集手順と、
収集された前記文書群の前記特定文書及び複数の配下文書それぞれについて、配下文書内の任意の文字列に付加される特定の他文書との関連を示す連結情報を抽出して、該配下文書と、関連付けられた連結先文書とで特定の関係となる状態数を集計する特徴集計手順と、
前記特定の関係を用いた条件である特徴ルールが格納される特徴ルール記憶手段から該特徴ルールを読み出し、前記文書群の特定の関係の状態数が該特徴ルールの条件を満たしているか判定し、条件を満たしている文書群を対象文書群候補に登録する文書群判定手順と、
前記対象文書群候補に登録された前記文書群を出力する手順と、
を有することを特徴とする文書群検出方法。
Regarding the above embodiment, the following additional notes are disclosed.
(Supplementary Note 1) In a document group detection method for detecting a predetermined document group which is a set of documents provided on a network and managed by one or more computers,
The computer is
For a group of documents having a hierarchical structure in which a plurality of subordinate documents exist under the specific document, the subordinate document is searched using a specific keyword, and the specific is determined based on the searched subordinate document. A collection procedure for detecting a document and collecting a plurality of subordinate documents under the specific document;
For each of the collected specific document and the plurality of subordinate documents in the collected document group, connection information indicating a relation with a specific other document added to an arbitrary character string in the subordinate document is extracted, and the subordinate document and A feature counting procedure that counts the number of states that have a specific relationship with the associated linked document,
Read out the feature rule from the feature rule storage means in which the feature rule that is a condition using the specific relationship is stored, determine whether the number of states of the specific relationship of the document group satisfies the condition of the feature rule, A document group determination procedure for registering a document group satisfying the condition as a target document group candidate;
A procedure for outputting the document group registered in the target document group candidate;
A document group detection method characterized by comprising:
(付記2) 前記収集手順は、前記検出対象の文書群または前記文書群に属する文書を特徴付けるキーワードが取得されると、前記キーワードに予め設定される拡張語を付加して拡張キーワードを生成し、前記キーワードに加え、前記拡張キーワードを用いて検索を行う、手順であることを特徴とする付記1記載の文書群検出方法。
(Supplementary Note 2) When a keyword characterizing a document belonging to the detection target document group or the document group is acquired, the collection procedure generates an extended keyword by adding a preset extended word to the keyword, The document group detection method according to
(付記3) 前記検出対象の文書群は、任意の分野の複数の用語の解説情報に関する文書群であり、前記特定文書は解説される用語の一覧が記述され、また、前記複数の配下文書は用語の解説が記述される用語解説文書である辞書文書群であって、
また、前記連結情報は前記特定文書及び前記用語解説文書に出現する前記用語を表す文字列に付加され、該文字列と該文字列に対応する前記用語解説文書を関連付けており、
前記特徴集計手順における前記特定の関係は、前記連結情報によって関連付けられた前記文字列と、前記連結先文書との特定の関係である、
ことを特徴とする付記1記載の文書群検出方法。
(Supplementary Note 3) The document group to be detected is a document group related to commentary information on a plurality of terms in an arbitrary field, the specific document describes a list of terms to be explained, and the subordinate documents are A dictionary document group that is a glossary document in which explanations of terms are described,
Further, the connection information is added to a character string representing the term appearing in the specific document and the glossary document, and associates the character string with the glossary document corresponding to the character string,
The specific relationship in the feature counting procedure is a specific relationship between the character string associated by the connection information and the connection destination document.
The document group detection method according to
(付記4) 前記特徴集計手順において、前記連結情報が付加された前記文字列と、前記文字列に対応する前記連結先文書とを解析し、前記連結情報によって同じ前記文書群に属している前記用語解説文書が関連付けられている内部連結情報の数と、前記特定の関係となる状態として前記連結情報が付加される前記文字列と前記連結先文書のタイトルに含まれる文字列とが一致する特定内部連結情報の数と、を集計し、
前記文書群判定手順において、前記特定内部連結情報が前記内部連結情報全体に占める割合を、辞書らしさスコアとして算出し、前記辞書らしさスコアを前記特徴ルールに基づく閾値と比較して前記文書群が前記辞書文書群の条件を満たすかどうかを判定する、
手順であることを特徴とする付記3記載の文書群検出方法。
(Supplementary Note 4) In the feature aggregation procedure, the character string to which the link information is added and the link destination document corresponding to the character string are analyzed, and the link information belongs to the same document group. A specification in which the number of internally linked information associated with a glossary document matches the character string included in the title of the linked document and the character string to which the linked information is added as the specific relationship. The number of internally consolidated information and
In the document group determination procedure, a ratio of the specific internal connection information to the entire internal connection information is calculated as a dictionary-like score, and the dictionary-like score is compared with a threshold value based on the feature rule. Determine whether the conditions of the dictionary document group are satisfied,
The document group detection method according to attachment 3, wherein the document group detection method is a procedure.
(付記5) 前記特徴集計手順において、前記連結情報が付加された前記文字列と、前記文字列に対応する前記連結先文書とを解析し、前記連結情報によって同じ前記文書群に属している前記用語解説文書が関連付けられている内部連結情報の数と、前記特定の関係となる状態として前記連結情報が付加される前記文字列と前記連結先文書のファイル名に含まれる文字列とが一致する特定内部連結情報の数と、を集計し、
前記文書群判定手順において、前記特定内部連結情報が前記内部連結情報全体に占める割合を、辞書らしさスコアとして算出し、前記辞書らしさスコアを前記特徴ルールに基づく閾値と比較して前記文書群が前記辞書文書群の条件を満たすかどうかを判定する、
手順であることを特徴とする付記3記載の文書群検出方法。
(Supplementary Note 5) In the feature aggregation procedure, the character string to which the link information is added and the link destination document corresponding to the character string are analyzed, and the link information belongs to the same document group. The number of internal link information associated with the glossary document matches the character string added to the link information and the character string included in the file name of the link destination document as the specific relationship. The number of specific internal consolidated information and
In the document group determination procedure, a ratio of the specific internal connection information to the entire internal connection information is calculated as a dictionary-like score, and the dictionary-like score is compared with a threshold value based on the feature rule. Determine whether the conditions of the dictionary document group are satisfied,
The document group detection method according to attachment 3, wherein the document group detection method is a procedure.
(付記6) 前記特徴集計手順において、前記連結情報が付加された前記文字列と、前記文字列に対応する前記連結先文書とを解析し、前記連結情報によって同じ前記文書群に属している前記用語解説文書が関連付けられている内部連結情報の数と、前記特定の関係となる状態として、前記連結先文書について、前記連結先文書のタイトルから前記連結先文書を関連付けた前記連結情報が付加される文字列と同じ部分を除いた共通タイトル部を抽出して比較し、前記共通タイトル部が一致する特定連結情報の数と、を集計し、
前記文書群判定手順において、前記特徴ルールに基づいて、前記特定連結情報が前記内部連結情報全体に占める割合を、辞書らしさスコアとして算出し、前記辞書らしさスコアを前記特徴ルールに基づく閾値と比較して前記文書群が前記辞書文書群の条件を満たすかどうかを判定する、
手順であることを特徴とする付記3記載の文書群検出方法。
(Additional remark 6) In the said feature totalization procedure, the said character string to which the said connection information was added and the said connection destination document corresponding to the said character string are analyzed, and the said belonging to the same said document group by the said connection information As the state of the specific relationship with the number of internal connection information associated with the glossary document, the connection information relating the connection destination document from the title of the connection destination document is added to the connection destination document. The common title part excluding the same part as the character string is extracted and compared, and the number of specific linked information that matches the common title part is totaled,
In the document group determination procedure, based on the feature rule, a ratio of the specific link information to the entire internal link information is calculated as a dictionary-like score, and the dictionary-like score is compared with a threshold value based on the feature rule. Determining whether the document group satisfies the conditions of the dictionary document group,
The document group detection method according to attachment 3, wherein the document group detection method is a procedure.
(付記7) 前記文書群判定手順は、前記特定の関係が複数選択されるときは、それぞれの前記特定の関係の重要度に応じた所定の係数が定義される前記特徴ルールに基づいて、選択された前記特定の関係について算出された前記辞書らしさスコアに前記所定の係数を乗算して重み付けを行って、選択された前記特定の関係に応じた辞書らしさスコアを算出する、手順であることを特徴とする付記4、5、及び6記載の文書群検出方法。 (Supplementary Note 7) When a plurality of the specific relations are selected, the document group determination procedure is selected based on the feature rule in which a predetermined coefficient corresponding to the importance of each specific relation is defined. The dictionary-likeness score calculated for the specific relationship is multiplied by the predetermined coefficient and weighted to calculate a dictionary-likeness score corresponding to the selected specific relationship. The document group detection method according to appendices 4, 5, and 6, which is a feature.
(付記8) 前記特徴集計手順は、さらに、前記特定の関係を満たした前記文字列と前記連結先文書について、前記文字列と前記連結先文書の識別情報とを関連付けたエントリ情報を生成し、
前記出力する手順は、前記対象文書群候補に登録された前記文書群の識別情報とともに前記文書群について生成された前記エントリ情報を出力する、
手順であることを特徴とする付記4、5、または6記載の文書群検出方法。
(Additional remark 8) The said feature totaling procedure produces | generates the entry information which linked | related the identification information of the said character string and the said connection destination document further about the said character string and the said connection destination document which satisfy | filled the said specific relationship,
The outputting step outputs the entry information generated for the document group together with the identification information of the document group registered in the target document group candidate.
The document group detection method according to appendix 4, 5, or 6, wherein the document group detection method is a procedure.
(付記9) 前記出力する手順は、利用者が前記対象文書群候補を目的の文書群に指定したときは、指定された前記対象文書群候補の識別情報を前記目的の文書群が登録される文書群情報に登録して文書群記憶手段に格納するとともに、前記対象文書群候補に対応する前記エントリ情報を前記文書群情報に関連付けて前記文書群記憶手段に格納する、手順であることを特徴とする付記8記載の文書群検出方法。 (Supplementary Note 9) In the output procedure, when the user designates the target document group candidate as the target document group, the target document group is registered with the identification information of the designated target document group candidate. It is a procedure for registering in the document group information and storing it in the document group storage unit, and storing the entry information corresponding to the target document group candidate in the document group storage unit in association with the document group information. The document group detection method according to appendix 8.
(付記10) ネットワーク上で提供される文書の集合であって1またはそれ以上のコンピュータによって管理されている所定の文書群を検出する文書群検出装置において、
特定文書の配下に複数の配下文書が存在する階層構造を成す文書群を対象にして、特定のキーワードを用いて該配下文書のいずれかを検索し、検索された該配下文書に基づいて前記特定文書を検出し、該特定文書の配下の複数の配下文書を収集する収集手段と、
収集された前記特定文書及び前記文書群の複数の配下文書それぞれについて、配下文書内の任意の文字列に付加される特定の他文書との関連を示す連結情報を抽出して、該配下文書と、関連付けられた連結先文書とで特定の関係となる状態数を集計する特徴集計手段と、
前記特定の関係を用いた条件である特徴ルールが格納される特徴ルール記憶手段から該特徴ルールを読み出し、前記文書群の特定の関係の状態数が該特徴ルールの条件を満たしているか判定し、条件を満たしている文書群を対象文書群候補に登録する文書群判定手段と、
前記対象文書群候補に登録された前記文書群を出力する出力手段と、
を有することを特徴とする文書群検出装置。
(Supplementary Note 10) In a document group detection apparatus for detecting a predetermined document group which is a set of documents provided on a network and managed by one or more computers,
For a group of documents having a hierarchical structure in which a plurality of subordinate documents exist under the specific document, the subordinate document is searched using a specific keyword, and the specific is determined based on the searched subordinate document. A collecting means for detecting a document and collecting a plurality of subordinate documents under the specific document;
For each of the collected subordinate documents of the specific document and the group of documents, connection information indicating a relationship with a specific other document added to an arbitrary character string in the subordinate document is extracted, and the subordinate document and , A feature counting unit that counts the number of states that have a specific relationship with the associated linked document,
Read out the feature rule from the feature rule storage means in which the feature rule that is a condition using the specific relationship is stored, determine whether the number of states of the specific relationship of the document group satisfies the condition of the feature rule, A document group determination means for registering a document group satisfying the condition as a target document group candidate;
Output means for outputting the document group registered in the target document group candidate;
A document group detection apparatus comprising:
(付記11) ネットワーク上で提供される文書の集合であって1またはそれ以上のコンピュータによって管理されている所定の文書群を検出する文書群検出プログラムにおいて、
コンピュータを、
特定文書の配下に複数の配下文書が存在する階層構造を成す文書群を対象にして、特定のキーワードを用いて該配下文書のいずれかを検索し、検索された該配下文書に基づいて前記特定文書を検出し、該特定文書の配下の複数の配下文書を収集する収集手段、
収集された前記特定文書及び前記文書群の複数の配下文書それぞれについて、配下文書内の任意の文字列に付加される特定の他文書との関連を示す連結情報を抽出して、該配下文書と、関連付けられた連結先文書とで特定の関係となる状態数を集計する特徴集計手段、
前記特定の関係を用いた条件である特徴ルールが格納される特徴ルール記憶手段から該特徴ルールを読み出し、前記文書群の特定の関係の状態数が該特徴ルールの条件を満たしているか判定し、条件を満たしている文書群を対象文書群候補に登録する文書群判定手段、
前記対象文書群候補に登録された前記文書群を出力する出力手段、
として機能させることを特徴とする文書群検出プログラム。
(Supplementary Note 11) In a document group detection program for detecting a predetermined document group which is a set of documents provided on a network and managed by one or more computers,
Computer
For a group of documents having a hierarchical structure in which a plurality of subordinate documents exist under the specific document, the subordinate document is searched using a specific keyword, and the specific is determined based on the searched subordinate document. A collecting means for detecting a document and collecting a plurality of subordinate documents under the specific document;
For each of the collected subordinate documents of the specific document and the group of documents, connection information indicating a relationship with a specific other document added to an arbitrary character string in the subordinate document is extracted, and the subordinate document and , Feature counting means for counting the number of states that have a specific relationship with the linked document
Read out the feature rule from the feature rule storage means in which the feature rule that is a condition using the specific relationship is stored, determine whether the number of states of the specific relationship of the document group satisfies the condition of the feature rule, Document group determination means for registering a document group satisfying the condition as a target document group candidate,
Output means for outputting the document group registered in the target document group candidate;
A document group detection program characterized by functioning as
10 文書群検出装置
11a 文書記憶手段
11b 特徴ルール記憶手段
11c 集計情報記憶手段
11d 文書群候補記憶手段
11e 文書群記憶手段
12 文書収集手段
13 特徴集計手段
14 文書群判定手段
15 文書群提示手段
DESCRIPTION OF
Claims (6)
前記コンピュータが、
特定文書の配下に複数の配下文書が存在する階層構造を成す文書群を対象にして、特定のキーワードを用いて該配下文書のいずれかを検索し、検索された該配下文書に基づいて前記特定文書を検出し、該特定文書の配下の複数の配下文書を収集する収集手順と、
収集された前記文書群の前記特定文書及び複数の配下文書それぞれについて、配下文書内の任意の文字列に付加される特定の他文書との関連を示す連結情報を抽出して、該配下文書と、関連付けられた連結先文書とで特定の関係となる状態数を集計する特徴集計手順と、
前記特定の関係を用いた条件である特徴ルールが格納される特徴ルール記憶手段から該特徴ルールを読み出し、前記文書群の特定の関係の状態数が該特徴ルールの条件を満たしているか判定し、条件を満たしている文書群を対象文書群候補に登録する文書群判定手順と、
前記対象文書群候補に登録された前記文書群を出力する手順と、
を有することを特徴とする文書群検出方法。 In a document group detection method for detecting a predetermined document group that is a set of documents provided on a network and managed by one or more computers,
The computer is
For a group of documents having a hierarchical structure in which a plurality of subordinate documents exist under the specific document, the subordinate document is searched using a specific keyword, and the specific is determined based on the searched subordinate document. A collection procedure for detecting a document and collecting a plurality of subordinate documents under the specific document;
For each of the collected specific document and the plurality of subordinate documents in the collected document group, connection information indicating a relation with a specific other document added to an arbitrary character string in the subordinate document is extracted, and the subordinate document and A feature counting procedure that counts the number of states that have a specific relationship with the associated linked document,
Read out the feature rule from the feature rule storage means in which the feature rule that is a condition using the specific relationship is stored, determine whether the number of states of the specific relationship of the document group satisfies the condition of the feature rule, A document group determination procedure for registering a document group satisfying the condition as a target document group candidate;
A procedure for outputting the document group registered in the target document group candidate;
A document group detection method characterized by comprising:
また、前記連結情報は前記特定文書及び前記用語解説文書に出現する前記用語を表す文字列に付加され、該文字列と該文字列に対応する前記用語解説文書を関連付けており、
前記特徴集計手順における前記特定の関係は、前記連結情報によって関連付けられた前記文字列と、前記連結先文書との特定の関係である、
ことを特徴とする請求項1記載の文書群検出方法。 The document group to be detected is a document group regarding explanation information of a plurality of terms in an arbitrary field, the specific document describes a list of terms to be explained, and the subordinate documents have explanations of terms. A dictionary document group that is a glossary document to be described,
Further, the connection information is added to a character string representing the term appearing in the specific document and the glossary document, and associates the character string with the glossary document corresponding to the character string,
The specific relationship in the feature counting procedure is a specific relationship between the character string associated by the connection information and the connection destination document.
The document group detection method according to claim 1.
前記文書群判定手順において、前記特定内部連結情報が前記内部連結情報全体に占める割合を、辞書らしさスコアとして算出し、前記辞書らしさスコアを前記特徴ルールに基づく閾値と比較して前記文書群が前記辞書文書群の条件を満たすかどうかを判定する、
手順であることを特徴とする請求項2記載の文書群検出方法。 In the feature counting procedure, the character string to which the link information is added and the link destination document corresponding to the character string are analyzed, and the glossary document belonging to the same document group is determined by the link information. The number of associated internal connection information and the specific internal connection information in which the character string to which the connection information is added and the character string included in the title of the connection destination document match as the state of the specific relationship. The number and
In the document group determination procedure, a ratio of the specific internal connection information to the entire internal connection information is calculated as a dictionary-like score, and the dictionary-like score is compared with a threshold value based on the feature rule. Determine whether the conditions of the dictionary document group are satisfied,
3. The document group detection method according to claim 2, wherein the document group detection method is a procedure.
前記文書群判定手順において、前記特定内部連結情報が前記内部連結情報全体に占める割合を、辞書らしさスコアとして算出し、前記辞書らしさスコアを前記特徴ルールに基づく閾値と比較して前記文書群が前記辞書文書群の条件を満たすかどうかを判定する、
手順であることを特徴とする請求項2記載の文書群検出方法。 In the feature counting procedure, the character string to which the link information is added and the link destination document corresponding to the character string are analyzed, and the glossary document belonging to the same document group is determined by the link information. Specific internal link information in which the number of associated internal link information and the character string to which the link information is added as a state of the specific relationship match the character string included in the file name of the link destination document And the number of
In the document group determination procedure, a ratio of the specific internal connection information to the entire internal connection information is calculated as a dictionary-like score, and the dictionary-like score is compared with a threshold value based on the feature rule. Determine whether the conditions of the dictionary document group are satisfied,
3. The document group detection method according to claim 2, wherein the document group detection method is a procedure.
前記文書群判定手順において、前記特徴ルールに基づいて、前記特定連結情報が前記内部連結情報全体に占める割合を、辞書らしさスコアとして算出し、前記辞書らしさスコアを前記特徴ルールに基づく閾値と比較して前記文書群が前記辞書文書群の条件を満たすかどうかを判定する、
手順であることを特徴とする請求項2記載の文書群検出方法。 In the feature counting procedure, the character string to which the link information is added and the link destination document corresponding to the character string are analyzed, and the glossary document belonging to the same document group is determined by the link information. The number of associated internal linkage information and the character string to which the linkage information relating the linkage destination document from the title of the linkage destination document is added to the linkage destination document as the state of the specific relationship. Extract and compare the common title part excluding the same part, and count the number of specific linked information that matches the common title part,
In the document group determination procedure, based on the feature rule, a ratio of the specific link information to the entire internal link information is calculated as a dictionary-like score, and the dictionary-like score is compared with a threshold value based on the feature rule. Determining whether the document group satisfies the conditions of the dictionary document group,
3. The document group detection method according to claim 2, wherein the document group detection method is a procedure.
特定文書の配下に複数の配下文書が存在する階層構造を成す文書群を対象にして、特定のキーワードを用いて該配下文書のいずれかを検索し、検索された該配下文書に基づいて前記特定文書を検出し、該特定文書の配下の複数の配下文書を収集する収集手段と、
収集された前記特定文書及び前記文書群の複数の配下文書それぞれについて、配下文書内の任意の文字列に付加される特定の他文書との関連を示す連結情報を抽出して、該配下文書と、関連付けられた連結先文書とで特定の関係となる状態数を集計する特徴集計手段と、
前記特定の関係を用いた条件である特徴ルールが格納される特徴ルール記憶手段から該特徴ルールを読み出し、前記文書群の特定の関係の状態数が該特徴ルールの条件を満たしているか判定し、条件を満たしている文書群を対象文書群候補に登録する文書群判定手段と、
前記対象文書群候補に登録された前記文書群を出力する出力手段と、
を有することを特徴とする文書群検出装置。 In a document group detection apparatus for detecting a predetermined document group which is a set of documents provided on a network and managed by one or more computers,
For a group of documents having a hierarchical structure in which a plurality of subordinate documents exist under the specific document, the subordinate document is searched using a specific keyword, and the specific is determined based on the searched subordinate document. A collecting means for detecting a document and collecting a plurality of subordinate documents under the specific document;
For each of the collected subordinate documents of the specific document and the group of documents, connection information indicating a relationship with a specific other document added to an arbitrary character string in the subordinate document is extracted, and the subordinate document and , A feature counting unit that counts the number of states that have a specific relationship with the associated linked document,
Read out the feature rule from the feature rule storage means in which the feature rule that is a condition using the specific relationship is stored, determine whether the number of states of the specific relationship of the document group satisfies the condition of the feature rule, A document group determination means for registering a document group satisfying the condition as a target document group candidate;
Output means for outputting the document group registered in the target document group candidate;
A document group detection apparatus comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008317790A JP5396845B2 (en) | 2008-12-15 | 2008-12-15 | Document group detection method and document group detection apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008317790A JP5396845B2 (en) | 2008-12-15 | 2008-12-15 | Document group detection method and document group detection apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010140373A true JP2010140373A (en) | 2010-06-24 |
JP5396845B2 JP5396845B2 (en) | 2014-01-22 |
Family
ID=42350448
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008317790A Active JP5396845B2 (en) | 2008-12-15 | 2008-12-15 | Document group detection method and document group detection apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5396845B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018005637A (en) * | 2016-07-04 | 2018-01-11 | 富士通株式会社 | Retrieval program, retrieval method and retrieval device |
CN111444144A (en) * | 2020-03-04 | 2020-07-24 | 奇安信科技集团股份有限公司 | File feature extraction method and device |
US11481447B2 (en) * | 2019-09-20 | 2022-10-25 | Fujifilm Business Innovation Corp. | Information processing device and non-transitory computer readable medium |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001060198A (en) * | 1999-08-20 | 2001-03-06 | Nippon Telegr & Teleph Corp <Ntt> | Information collecting method and recording medium recording information collection program |
JP2003085181A (en) * | 2001-09-07 | 2003-03-20 | Japan Science & Technology Corp | Encyclopedia system |
JP2004054588A (en) * | 2002-07-19 | 2004-02-19 | Just Syst Corp | Document retrieval device and method and program for making computer execute the same method |
-
2008
- 2008-12-15 JP JP2008317790A patent/JP5396845B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001060198A (en) * | 1999-08-20 | 2001-03-06 | Nippon Telegr & Teleph Corp <Ntt> | Information collecting method and recording medium recording information collection program |
JP2003085181A (en) * | 2001-09-07 | 2003-03-20 | Japan Science & Technology Corp | Encyclopedia system |
JP2004054588A (en) * | 2002-07-19 | 2004-02-19 | Just Syst Corp | Document retrieval device and method and program for making computer execute the same method |
Non-Patent Citations (4)
Title |
---|
CSNG200000992002; 松田 勝志 他: '文書タイプ分類による問題解決向きWWW検索システムの開発と評価' 情報処理学会研究報告 Vol99,No.20(99-FI-53-2), 19990301, pp.9-16., 社団法人情報処理学会 * |
CSNG200501134003; 田中 幸一 他: '信頼度の高いタイトル情報を利用した固有ページ発見' 情報処理学会研究報告 Vol.2005,No.35(2005-FI-78(3)), 20050325, pp.17-24., 社団法人情報処理学会 * |
JPN6013012058; 松田 勝志 他: '文書タイプ分類による問題解決向きWWW検索システムの開発と評価' 情報処理学会研究報告 Vol99,No.20(99-FI-53-2), 19990301, pp.9-16., 社団法人情報処理学会 * |
JPN6013012060; 田中 幸一 他: '信頼度の高いタイトル情報を利用した固有ページ発見' 情報処理学会研究報告 Vol.2005,No.35(2005-FI-78(3)), 20050325, pp.17-24., 社団法人情報処理学会 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018005637A (en) * | 2016-07-04 | 2018-01-11 | 富士通株式会社 | Retrieval program, retrieval method and retrieval device |
US11481447B2 (en) * | 2019-09-20 | 2022-10-25 | Fujifilm Business Innovation Corp. | Information processing device and non-transitory computer readable medium |
CN111444144A (en) * | 2020-03-04 | 2020-07-24 | 奇安信科技集团股份有限公司 | File feature extraction method and device |
CN111444144B (en) * | 2020-03-04 | 2023-07-25 | 奇安信科技集团股份有限公司 | File feature extraction method and device |
Also Published As
Publication number | Publication date |
---|---|
JP5396845B2 (en) | 2014-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20170228469A1 (en) | Automatic mapping of a location identifier pattern of an object to a semantic type using object metadata | |
JP6017155B2 (en) | Improved similar document detection method, apparatus, and computer-readable recording medium | |
US8166013B2 (en) | Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis | |
US7664732B2 (en) | Method of managing websites registered in search engine and a system thereof | |
JP5329540B2 (en) | User-centric information search method, computer-readable recording medium, and user-centric information search system | |
US20090089278A1 (en) | Techniques for keyword extraction from urls using statistical analysis | |
JP4118580B2 (en) | Arrangement information recommendation device, method and program | |
JP5379978B2 (en) | Search system and search method | |
US20090083266A1 (en) | Techniques for tokenizing urls | |
JP2003173280A (en) | Apparatus, method and program for generating database | |
JP2009093659A (en) | Method and system for providing document search service | |
JP5396845B2 (en) | Document group detection method and document group detection apparatus | |
JP4324650B2 (en) | Information resource search device, information resource search method, and information resource search program | |
JP5286007B2 (en) | Document search device, document search method, and document search program | |
JP2020064482A (en) | Attribute extraction device and attribute extraction method | |
CN102521288A (en) | Acquisition method of Web service information on Internet | |
JP5163379B2 (en) | Document group detection method and document group detection apparatus | |
JP4842921B2 (en) | Search system and method | |
JP2011086156A (en) | System and program for tracking of leaked information | |
KR100942902B1 (en) | A method of searching web page and computer readable recording media for recording the method program | |
JP4843656B2 (en) | Structured data search program and structured data search device | |
KR100371805B1 (en) | Method and system for providing related web sites for the current visitting of client | |
JP4634821B2 (en) | Document search method, document search apparatus, and storage medium storing document search program | |
JP2010122932A (en) | Document retrieval device, document retrieval method, and document retrieval program | |
JPWO2002044946A1 (en) | Search engine, search system, database creation method in search system, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110907 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130307 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130319 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130520 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130924 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131007 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5396845 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |