JP3977632B2 - Information filter URL list expansion method, apparatus, information filter URL list expansion program, and recording medium recording the program - Google Patents
Information filter URL list expansion method, apparatus, information filter URL list expansion program, and recording medium recording the program Download PDFInfo
- Publication number
- JP3977632B2 JP3977632B2 JP2001357363A JP2001357363A JP3977632B2 JP 3977632 B2 JP3977632 B2 JP 3977632B2 JP 2001357363 A JP2001357363 A JP 2001357363A JP 2001357363 A JP2001357363 A JP 2001357363A JP 3977632 B2 JP3977632 B2 JP 3977632B2
- Authority
- JP
- Japan
- Prior art keywords
- url
- list
- additional
- url list
- evaluation value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、コンピュータを用いたWebページへのアクセスをコントロールするための情報フィルタが用いるURLリストに追加される新たなURL(Uniform Resource Locator)リストを作成する情報フィルタ用URLリスト拡張方法および装置に関する。
【0002】
【従来の技術】
近年のインターネットの発達で、多数のWebページへのアクセスが容易になった。その反面、目的のページを効率的に見つけるのが困難であるという問題がある。また、一方で、インターネット上の情報には、多種多用なものが存在するため、子供がインターネットを使用する場合、不適切な情報にアクセスしないようにするためのアクセス制限が求められている。このように、見たい情報のみに効率的にアクセスしたり、見たくない、見せたくない情報へのアクセスを制限するための技術が求められている。見たいものを探すための技術としては、キーワードによる検索を可能とする検索サイトや、あらかじめWebページを階層的に分類したディレクトリサービスが存在している。一方、情報へのアクセスを制限するための技術としては、あらかじめアクセスを制限するURLリストを作成し、そのリスト上のURLへのアクセスを禁止する方法、Webページ作成者が自主的に付与した分野とその表現内容の程度に基づいてアクセスを禁止する方法、キーワードリストとWebページの内容を比較してアクセスを制限する方法などがある。
【0003】
【発明が解決しようとする課題】
しかしながら、上記の方法には、それぞれ以下のような問題がある。
【0004】
まず、検索サイトの場合は、入力する適切なキーワードを選ぶことが困難なため、うまく目的のページにたどりつけない場合がある。また、ディレクトリサービスに関しては、サービス提供者が提供するディレクトリの構成が、使用者の求めるものと必ずしも一致しないという問題がある。また、ディレクトリは基本的に人手で作成しているため、ディレクトリに登録されているページは、全体のページのごく一部である上、適切に更新されていない場合が多い。
【0005】
アクセス制限に関しても、アクセスを制限するURLリストを用いる方法では、やはり人手で作成しているために、十分なリストを作成したり、適切に更新したりすることは困難である。また、Webページ作成者が付与した分野と表現の程度を用いる方法では、そもそも分野や表現の程度の情報が付与されていないページの方が多いため、十分なアクセス制限ができない。また、キーワードリストを用いる方法では、適切なキーワードリストを作成することが困難である。
【0006】
本発明の目的は、上記の問題を解決し、特定の目的のページのリストやアクセス制限をしたいページのリストを作成することを容易にする情報フィルタ用URLリスト拡張方法および装置を提供することにある。
【0007】
【課題を解決するための手段】
本発明の情報フィルタ用URLリスト拡張装置は、HTML文書ベースとリンク情報抽出部とリンク情報ベースと基本URLリストと共起状態解析部と共起情報メモリと追加URL決定部と追加URL一時保存メモリと追加URLリスト生成部と追加URLリストを有する。
【0008】
リンク情報抽出部は、HTML文書ベースからHTML文書を取り出し、そのHTML文書を解析し、文書中のハイパーリンク先のURLのリストを作成し、リンク情報ベースに保存する。
【0009】
共起状態解析部は、リンク情報ベースからURLリストを1つずつ取りだし、該URLリストに基本URLリスト中のURLがあらかじめ設定された個数以上存在するか否かを判定し、存在する場合は、ある評価式に従って、リンク情報ベースから取り出したURLリスト中の他の各URLに対して評価値をつけ、その結果を共起情報メモリに保存する。
【0010】
追加URL決定部は、共起情報メモリ内の各URLに対する評価値を参照し、あらかじめ設定された閾値以上の評価値を持つURLをその評価値と共に、追加URL一時保存メモリに保存する。
【0011】
共起状態解析部は、再び、リンク情報ベースからURLリストを1つずつ取りだし、該URLリストに基本URLリスト中のURLあるいは追加URL一時保存メモリ中のURLがあらかじめ設定した個数以上存在するか否かを判定し、存在する場合は、ある評価式に従って、リンク情報ベースから取り出したURLリスト中の他の各URLに対して評価値をつけ、その結果を共起情報メモリに保存する。
【0012】
追加URL決定部は、共起情報メモリ内の各URLに対する評価値を参照し、あらかじめ設定された閾値以上の評価値を持つURLをその評価値と共に追加URL一時保存メモリに記録し、追加URL一時保存メモリを更新する。
【0013】
この追加URL決定部による追加URL一時保存メモリの更新と、共起状態解析部による各URLへの評価値の付与を、あらかじめ定めた回数繰り返した後、追加URLリスト生成部は、追加URL一時保存メモリ内の各URLに対する評価値を参照し、あらかじめ設定された閾値以上の評価値を持つURLのリストを生成し、追加URLリストに出力する。
【0014】
本発明は、人手で作成した特定の目的のページのサンプルとなるURLのリストあるいは、アクセス制限をしたいページのサンプルとなるURLリストを元に、ロボット等で収集した大量のHTML文書のリンク情報を解析し、上記リスト中のURLとの共起関係を利用することによって、URLリストに追加する新たなURLリストを自動的に作成する。
【0015】
この自動的に生成された新たなURLリストと、もともと人手で作成したURLのリストを用いることによって、この2つのリスト中のURLのみにアクセスしたり、逆にこの2つのリスト中のURLへのアクセスを制限することによって、目的に応じたアクセスコントロールが可能となる。
【0016】
また、本発明では、利用するHTML文書を定期的に更新することにより、HTML文書内に新たなURLが出現することが期待できるため、新たに出現したページのURLを自動的に追加することが可能となる。
【0017】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して説明する。
【0018】
図1を参照すると、本発明の一実施形態の情報フィルタ用URLリスト拡張装置は、HTML文書ベース1とリンク情報抽出部2とリンク情報ベース3と基本URLリスト4と共起状態解析部5と共起情報メモリ6と追加URL決定部7と追加URL一時保存メモリ8と追加URLリスト生成部9と追加URLリスト10で構成されている。
【0019】
HTML文書ベース1は、ロボット等で収集したインターネット上の大量のHTML文書を保存している。リンク情報抽出部2は、HTML文書ベース1中の各HTML文書を解析し、HTML文書毎のハイパーリンク先のURLのリストを作成し、リンク情報ベース3に保存する。リンク情報ベース3は、リンク情報抽出部2が作成したHTML文書毎のハイパーリンク先のURLのリストを保存している。基本URLリスト4は、人手であらかじめ作成された特定の目的のページのサンプルとなるURLのリスト、あるいはアクセス制限をしたいページのサンプルとなるURLのリストを保存している。共起状態解析部5は、リンク情報ベース3からURLリストを1つずつ取りだし、基本URLリスト4中のURLあるいは追加URL一時保存メモリ8中のURLがあらかじめ設定した個数以上存在するか否かを判定し、存在する場合は、ある評価式に従って、リンク情報ベース3から取り出したURLリスト中の各URLに対して評価値をつけ、その結果を共起情報メモリ6に保存する。共起情報メモリ6は、共起状態解析部5が取り出したURLとその評価値を保存する。追加URL決定部7は、共起情報メモリ6内の各URLに対する評価値を参照し、あらかじめ設定された閾値以上の評価値を持つURLをその評価値と共に、追加URL一時保存メモリ8に記録する。追加URL一時保存メモリ8は、追加URL決定部7が決定したURLをその評価値と共に保存する。追加URLリスト生成部9は、追加URL一時保存メモリ8内の各URLに対する評価値を参照し、あらかじめ設定された閾値以上の評価値を持つURLのリストを生成し、追加URLリスト10に出力する。追加URLリスト10は、追加URLリスト生成部9が生成した追加URLのリストを保存する。
【0020】
図2はHTML文書ベース1中のHTML文書の一例を示している。
【0021】
図3はリンク情報ベース3中のURLリストの一例を示している。HTML文書中から抽出したリンク先のURLを1行に1つ書いたものであり、1HTML文書に対して1つ存在する。
【0022】
図4は基本URLリスト4中のURLリスト例の一部を示している。フィルタリング結果として残したい目的のページのサンプルとなるURLあるいは、規制対象としたいページのサンプルとなるURLを1行に1つ書いたものである。
【0023】
図5は共起情報メモリ6中のURLとその評価値のリスト例の一部を示している。URLとその評価値の組で表現してある。追加URL一時保存メモリ8中のURLとその評価値のリストも同様の形式となる。
【0024】
図6は追加URLリスト10中のURLリストの例の一部を示している。最終的に追加することになるURLを1行に1つ書いたものである。
【0025】
次に、本情報フィルタ用URLリスト拡張装置の動作概要について、図7に示すフローチャートをもとに説明する。
【0026】
ステップ101に、リンク情報抽出部2は、HTML文書ベース1中の各文書を解析し、各文書毎にリンク先のURLのリストを作成し、リンク情報ベース3に格納する。
【0027】
ステップ102に、共起状態解析部4は、基本URLリスト4中のURLあるいは追加URL一時保存メモリ8中のURLがリンク情報ベース3中の各文書毎のURLリスト中にどのくらい含まれているかを調べ、各URLに対して評価値を設定し、共起情報メモリ5に格納する。
【0028】
ステップ103に、追加URL決定部7は、共起情報メモリ5中の各URLの評価値を、あらかじめ設定しておいた閾値と比較して、追加URL候補を決定し、追加URL一時保存メモリ8を更新する。
【0029】
ステップ104に、追加URL決定部7は、ステップ102、ステップ103の処理をあらかじめ設定された回数、実行したか否かを判定する。まだ、実行していない場合は、ステップ102へ、実行している場合は、ステップ105へ処理が進む。
【0030】
ステップ105に、追加URLリスト生成部9は、追加URL一時保存メモリ8を参照し、あらかじめ設定しておいた閾値以上の評価値を持つURLを選び、リストを生成し、追加URLリスト10に保存する。
【0031】
次に、本情報フィルタ用URLリスト拡張装置の動作の詳細について、図8に示すフローチャートをもとに説明する。
【0032】
まず、上記ステップ101の動作を詳細に説明すると、以下のステップ201から203のようになる。ステップ201に、リンク情報抽出部2が、HTML文書ベース1より図2に示すようなHTML文書を1つ取り出す。ステップ202に、リンク情報抽出部2は、取り出したHTML文書を解析し、〈AHREF=を利用することにより、そのHTML文書のリンク先のURLを抽出し、抽出したURLのリストを図3に示すような形式でリンク情報ベース3に保存する。ステップ203に、HTML文書ベース1中に未処理のHTML文書が存在するかどうか判定する。存在する場合は、ステップ201へ、すべてのHTML文書について処理を終えた場合は、ステップ204に進む。この時点でHTML文書ベース1中の全てのHTML文書からリンク先のURLの情報を抽出したことになる。
【0033】
次に、上記ステップ102の動作を詳細に説明すると、以下のステップ204から207のようになる。ステップ204に、共起状態解析部5は、リンク情報ベース3よりURLリストを1つ取り出す。ステップ205に、共起状態解析部5は、図4に示すような形式で基本URLリスト4内に記録されているURLか、図5に示すような形式で追加URL一時保存メモリ8内に記録されているURLが、ステップ204で取り出したURLリスト中に、あらかじめ設定した数以上含まれているか否かを判定する。含まれていない場合は、ステップ204へ、含まれている場合はステップ206へ進む。
【0034】
あらかじめ設定した数以上のURLが含まれている場合、そのURLリストの抽出元であるHTML文書は、基本URLリスト4中のURLと類似のURLを集めたリンク集的なものと判断し、同一文書中に出現する他のURLは、基本URLリスト4中のURLを持つサイトと類似のサイトであるとし、追加URLの候補とする。
【0035】
ステップ206に、共起状態解析部5は、ステップ204で取り出したURLリスト中のURLのうち、基本URLリスト4および追加URL一時保存メモリ8に含まれないURLについて評価値を算出する。i番目のURLであるURLiのこの時点での評価値Ci,jは、たとえば、次の式で与える。
【0036】
【数1】
ここで、添字jは、ここで処理するURLリストが、基本URLリスト4内に記録されているURLか、追加URL一時保存メモリ8内に記録されているURLをあらかじめ設定した数以上含み、かつ、URLiを含むj個目のURLリストであることを表す。また、各URLの評価値の初期値Ci,0は0とする。Vkは、各URLの評価値で、基本URLリスト4内のURLに対しては1、追加URL一時保存メモリ8内のURLについては、追加URL一時保存メモリ8内に記録されている評価値、それ以外のURLについては0とする。nは、処理中のURLリスト内のURLの数とする。
【0037】
ステップ207に、リンク情報ベース3中に未処理のURLリストが存在するかどうか判定する。存在する場合は、ステップ204へ、すべてのURLリストについて処理を終えた場合は、アクセス208に処理が進む。
【0038】
次に、上記ステップ103の動作を詳細に説明すると、以下のステップ208から209のようになる。
【0039】
ステップ208に、追加URL決定部7は、各URLの評価値の正規化を行った後、あらかじめ設定された閾値と比較して、追加URLを決定する。URLiの正規化後の評価値Viは、例えば次の式で与えられる。
【0040】
【数2】
ここで、Nは、基本URLリスト4内に記録されているURLか、追加URL一時保存メモリ8内に記録されているURLをあらかじめ設定した数以上含み、かつ、URLiを含むURLリストの個数である。
【0041】
ステップ209に、追加URL決定部7は、ステップ208で決定した追加URLをその評価値と共に追加URL一時保存メモリ8に追加し、追加URL一時保存メモリ8を更新する。
【0042】
このステップ204から209でHTML文書集合から抽出したURLリストをもとに追加URL候補を決定する1回の処理を終了したことになる。
【0043】
次に、上記ステップ104の動作は、以下のステップ210に対応する。
【0044】
ステップ210に、追加URL決定部7は、指定回数の処理を行ったか否かを判定する。行っていない場合は、ステップ204へ、行った場合は、ステップ211へ処理が進む。
【0045】
次に、上記ステップ105の動作は、以下のステップ211に対応する。
【0046】
ステップ211に、追加URLリスト生成部9は、追加URL一時保存メモリ8を参照し、あらかじめ設定しておいた閾値以上のURLを選び、追加URLリスト10に出力する。
【0047】
本実施形態によれば、HTML文書集合とフィルタリング結果として残したい目的のページのサンプルとなるURLあるいは、規制対象としたいページのサンプルとなるURLのリストである基本URLリストを用意するだけで、追加するURLを自動的に決定することができる。
【0048】
なお、以上説明した各部2,5,7,9からなる処理は専用のハードウェアにより実現される以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピーディスク、光磁気ディスク、CD−ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。
【0049】
【発明の効果】
以上説明したように本発明は、インターネット上から収集したHTML文書を解析し、各HTML文書におけるハイパーリンク先のURLの共起情報を抽出し、あらかじめサンプルとして与えておいたURLとの共起関係をもとに評価値をつけることにより、サンプルと類似の内容のURLを自動的に追加でき、URLリストを拡張できるという効果がある。
【図面の簡単な説明】
【図1】本発明の一実施形態の情報フィルタ用URLリスト拡張装置のブロック図である。
【図2】図1に示したHTML文書ベース1中のHTML文書の一例を示す図である。
【図3】図1に示したリンク情報ベース3中のURLリストの一例を示す図である。
【図4】図1に示した基本URLリスト4中のURLリストの例の一部を示す図である。
【図5】図1に示した共起情報メモリ6中のURLとその評価値のリストの例の一部を示す図である。
【図6】図1に示した追加URLリスト10中のURLリストの例の一部を示す図である。
【図7】図1の情報フィルタ用URLリスト拡張装置の動作概要を示すフローチャートである。
【図8】図1の情報フィルタ用URLリスト拡張装置の動作の詳細を示すフローチャートである。
【符号の説明】
1 HTML文書ベース
2 リンク情報抽出部
3 リンク情報ベース
4 基本URLリスト
5 共起状態解析部
6 共起情報メモリ
7 追加URL決定部
8 追加URL一時保存メモリ
9 追加URLリスト生成部
10 追加URLリスト
101〜105 ステップ
201〜211 ステップ[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an information filter URL list expansion method and apparatus for creating a new Uniform Resource Locator (URL) list to be added to a URL list used by an information filter for controlling access to a Web page using a computer. .
[0002]
[Prior art]
With the recent development of the Internet, access to a large number of Web pages has become easier. On the other hand, there is a problem that it is difficult to find a target page efficiently. On the other hand, there are various types of information on the Internet. Therefore, when a child uses the Internet, access restriction is required to prevent access to inappropriate information. Thus, there is a need for a technique for efficiently accessing only the information that the user wants to see, or for restricting access to information that the user does not want to see or want to see. As a technique for searching for a desired item, there are a search site that enables a search by a keyword and a directory service in which Web pages are hierarchically classified in advance. On the other hand, as a technique for restricting access to information, a method for creating a URL list for restricting access in advance and prohibiting access to URLs on the list, and a field voluntarily given by a Web page creator And a method of prohibiting access based on the degree of expression content and a method of restricting access by comparing the contents of a keyword list and a Web page.
[0003]
[Problems to be solved by the invention]
However, each of the above methods has the following problems.
[0004]
First of all, in the case of a search site, it is difficult to select an appropriate keyword to input, so there are cases where it is difficult to reach the target page. Further, with respect to the directory service, there is a problem that the configuration of the directory provided by the service provider does not necessarily match that required by the user. In addition, since the directory is basically created manually, the pages registered in the directory are only a small part of the entire page and are often not updated properly.
[0005]
Regarding the access restriction, the method using the URL list for restricting access is also created manually, so that it is difficult to create a sufficient list or appropriately update it. In addition, in the method using the field and the degree of expression given by the Web page creator, there are more pages to which information on the field and the degree of expression is not given in the first place, so that sufficient access restriction cannot be performed. Moreover, it is difficult to create an appropriate keyword list by the method using the keyword list.
[0006]
SUMMARY OF THE INVENTION An object of the present invention is to provide an information filter URL list expansion method and apparatus that solves the above-mentioned problems and makes it easy to create a list of pages for a specific purpose or a list of pages for which access is restricted. is there.
[0007]
[Means for Solving the Problems]
An information filter URL list expansion apparatus according to the present invention includes an HTML document base, a link information extraction unit, a link information base, a basic URL list, a co-occurrence state analysis unit, a co-occurrence information memory, an additional URL determination unit, and an additional URL temporary storage memory. And an additional URL list generation unit and an additional URL list.
[0008]
The link information extraction unit extracts an HTML document from the HTML document base, analyzes the HTML document, creates a list of hyperlink destination URLs in the document, and stores the list in the link information base.
[0009]
The co-occurrence state analysis unit takes out one URL list from the link information base and determines whether or not there are more than a preset number of URLs in the basic URL list in the URL list. According to a certain evaluation formula, an evaluation value is assigned to each other URL in the URL list extracted from the link information base, and the result is stored in the co-occurrence information memory.
[0010]
The additional URL determination unit refers to the evaluation value for each URL in the co-occurrence information memory, and stores a URL having an evaluation value equal to or higher than a preset threshold value in the additional URL temporary storage memory together with the evaluation value.
[0011]
The co-occurrence state analysis unit again extracts one URL list from the link information base, and whether there are more URLs in the basic URL list or additional URL temporary storage memory than the preset number in the URL list. If it exists, an evaluation value is assigned to each URL in the URL list extracted from the link information base according to a certain evaluation formula, and the result is stored in the co-occurrence information memory.
[0012]
The additional URL determination unit refers to the evaluation value for each URL in the co-occurrence information memory, records a URL having an evaluation value equal to or higher than a preset threshold value in the additional URL temporary storage memory together with the evaluation value, and temporarily stores the additional URL. Update the storage memory.
[0013]
After the update of the additional URL temporary storage memory by the additional URL determination unit and the assignment of the evaluation value to each URL by the co-occurrence state analysis unit are repeated a predetermined number of times, the additional URL list generation unit stores the additional URL temporarily. By referring to the evaluation value for each URL in the memory, a list of URLs having an evaluation value equal to or greater than a preset threshold value is generated and output to the additional URL list.
[0014]
According to the present invention, link information of a large amount of HTML documents collected by a robot or the like based on a list of URLs that are samples of specific target pages that are manually created or a URL list that is a sample of pages to be restricted. By analyzing and utilizing the co-occurrence relationship with the URLs in the list, a new URL list to be added to the URL list is automatically created.
[0015]
By using this automatically generated new URL list and a list of URLs created manually, only the URLs in the two lists are accessed, or conversely, the URLs in the two lists are accessed. By restricting access, access control according to the purpose can be performed.
[0016]
In the present invention, it is expected that a new URL appears in the HTML document by periodically updating the HTML document to be used. Therefore, the URL of the newly appearing page can be automatically added. It becomes possible.
[0017]
DETAILED DESCRIPTION OF THE INVENTION
Next, embodiments of the present invention will be described with reference to the drawings.
[0018]
Referring to FIG. 1, an information filter URL list expansion apparatus according to an embodiment of the present invention includes an HTML
[0019]
The HTML
[0020]
FIG. 2 shows an example of an HTML document in the
[0021]
FIG. 3 shows an example of the URL list in the link information base 3. One link destination URL extracted from an HTML document is written in one line, and one URL exists for one HTML document.
[0022]
FIG. 4 shows a part of a URL list example in the basic URL list 4. A URL that is a sample of a target page that is to be left as a filtering result or a URL that is a sample of a page that is to be restricted is written in one line.
[0023]
FIG. 5 shows a part of a list example of URLs in the co-occurrence information memory 6 and their evaluation values. It is expressed as a set of URL and its evaluation value. The list of URLs in the additional URL
[0024]
FIG. 6 shows a part of an example of the URL list in the
[0025]
Next, an outline of the operation of the information filter URL list expansion apparatus will be described with reference to the flowchart shown in FIG.
[0026]
In
[0027]
In
[0028]
In
[0029]
In
[0030]
In
[0031]
Next, details of the operation of the information filter URL list expansion device will be described with reference to the flowchart shown in FIG.
[0032]
First, the operation of
[0033]
Next, the operation of
[0034]
If more than a preset number of URLs are included, the HTML document from which the URL list is extracted is determined to be a collection of links similar to the URLs in the basic URL list 4 and is the same. Other URLs appearing in the document are sites similar to the site having the URL in the basic URL list 4 and are candidates for additional URLs.
[0035]
In
[0036]
[Expression 1]
Here, the subscript j includes the URL list to be processed here including a URL recorded in the basic URL list 4 or a preset number of URLs recorded in the additional URL
[0037]
In
[0038]
Next, the operation of
[0039]
In
[0040]
[Expression 2]
Here, N is the number of URLs recorded in the basic URL list 4 or more than a preset number of URLs recorded in the additional URL
[0041]
In
[0042]
This means that the one-time process of determining additional URL candidates based on the URL list extracted from the HTML document set in
[0043]
Next, the operation of
[0044]
In
[0045]
Next, the operation of
[0046]
In
[0047]
According to the present embodiment, it is possible to add a basic URL list that is a list of URLs that are samples of target pages that are to be retained as HTML document sets and filtering results or URLs that are samples of pages that are to be restricted. The URL to be automatically determined.
[0048]
In addition to the above-described processing composed of the
[0049]
【The invention's effect】
As described above, the present invention analyzes HTML documents collected from the Internet, extracts co-occurrence information of URLs of hyperlink destinations in each HTML document, and co-occurrence relations with URLs given as samples in advance. By assigning an evaluation value based on the URL, it is possible to automatically add a URL having a content similar to that of the sample and to expand the URL list.
[Brief description of the drawings]
FIG. 1 is a block diagram of an information filter URL list expansion apparatus according to an embodiment of the present invention.
FIG. 2 is a diagram showing an example of an HTML document in the
FIG. 3 is a diagram showing an example of a URL list in the link information base 3 shown in FIG. 1;
4 is a diagram showing a part of an example of a URL list in the basic URL list 4 shown in FIG. 1. FIG.
5 is a diagram showing a part of an example of a list of URLs and their evaluation values in the co-occurrence information memory 6 shown in FIG. 1; FIG.
6 is a diagram showing a part of an example of a URL list in the
7 is a flowchart showing an outline of the operation of the information filter URL list expansion device of FIG. 1; FIG.
FIG. 8 is a flowchart showing details of the operation of the information filter URL list expansion device of FIG. 1;
[Explanation of symbols]
1 HTML document base 2 Link information extraction unit 3 Link information base 4
Claims (4)
リンク情報抽出部で、HTML文書を保存したHTML文書ベースの各文書内に出現するリンク先のURLを抽出し、各文書毎にURLリストを作成し、リンク情報ベースに格納する第1のステップと、
共起状態解析部で、アクセスコントロール対象のサンプルとしてあらかじめ用意した基本URLリスト中のURLおよび追加URL一時保存メモリ中のURLが、リンク情報ベース中の各文書毎のURLリスト中に、あらかじめ設定された個数以上存在するかどうか調べ、存在する場合は、抽出したURLのリスト中の、基本URLリスト中のURLおよび前記追加URL一時保存メモリ中のURL以外のURLに対して、基本URLリストに記録されているURLの評価値と追加URL一時保存メモリに記録されているURLの評価値に基づいて評価値を算出し、URLとともに評価値を共起情報メモリに格納する第2のステップと、
追加URL決定部で、前記共起情報メモリ内のURLに対する評価値をあらかじめ設定した閾値と比較することにより、追加候補となるURLを決定し、前記追加URL一時保存メモリを更新する第3のステップと、
前記第2のステップと前記第3のステップの処理があらかじめ終了条件として設定した回数行われたかどうかを判定し、行われていない場合は、前記第2のステップに戻る第4のステップと、
追加URLリスト生成部で、前記追加URL一時保存メモリを参照し、予め設定しておいた閾値以上の評価値を持つURLを選び、リストを生成し、追加URLリストに保存する第5のステップを有する情報フィルタ用URLリスト拡張方法。An information filter URL list expansion method for creating a new URL list to be added to a URL list used by an information filter for controlling access to a Web page,
A first step of extracting a link destination URL appearing in each HTML document base document storing the HTML document by the link information extraction unit, creating a URL list for each document, and storing the URL list in the link information base; ,
In the co-occurrence state analysis unit, the URL in the basic URL list prepared in advance as a sample for access control and the URL in the additional URL temporary storage memory are preset in the URL list for each document in the link information base. If there is more than the number, if it exists, the URL in the basic URL list and the URL other than the URL in the additional URL temporary storage memory in the extracted URL list are recorded in the basic URL list. A second step of calculating an evaluation value based on the URL evaluation value and the URL evaluation value recorded in the additional URL temporary storage memory, and storing the evaluation value together with the URL in the co-occurrence information memory;
Third step of determining an additional candidate URL by updating an additional URL determination unit by comparing an evaluation value for the URL in the co-occurrence information memory with a preset threshold value, and updating the additional URL temporary storage memory When,
Determining whether the processes of the second step and the third step have been performed a predetermined number of times in advance, and if not, a fourth step of returning to the second step;
The additional URL list generation unit refers to the additional URL temporary storage memory, selects a URL having an evaluation value equal to or higher than a preset threshold value, generates a list, and stores the fifth step in the additional URL list. A method for expanding an information filter URL list.
HTML文書を保存したHTML文書ベースと、
HTML文書ベースに保存されているHTML文書中の各文書毎に出現するリンク先のURLを抽出するリンク情報抽出部と、
前記リンク情報抽出部が抽出した、各文書毎のリンク先のURLであるURLリストを保存するリンク情報ベースと、
アクセスコントロール対象とするWebページのサンプルURLを記述した基本URLリストと、
追加URL候補のURLとその候補としての評価値を記録する追加URL一時保存メモリと、
前記リンク情報ベースから前記文書毎のURLリストを1つずつ取り出し、該URLリストに、前記基本URLリストおよび前記追加URL一時保存メモリ中のURLがあらかじめ設定した個数以上存在するか否かを判定し、存在する場合は、前記リンク情報ベースから取り出したURLリスト中の他の各URLに対して、基本URLリストに記録されているURLの評価値と追加URL一時保存メモリに記録されているURLの評価値に基づいて評価値をつける共起状態解析部と、
前記共起状態解析部の解析した、URLとその評価値の情報を保存する共起情報メモリと、
前記共起情報メモリを参照し、あらかじめ設定された閾値以上の評価値を持つURLをその評価値とともに前記追加URL一時保存メモリに保存する追加URL決定部と、
最終的に追加するURLのリストを生成する追加URLリスト生成部と、最終的に追加するURLのリストを保存する追加URLリストを有する情報フィルタ用URLリスト拡張装置。An information filter URL list expansion device for creating a new URL list to be added to a URL list used by an information filter for controlling access to a Web page,
An HTML document base storing HTML documents;
A link information extraction unit that extracts a URL of a link destination that appears for each document in the HTML document stored in the HTML document base;
A link information base for storing a URL list, which is a link destination URL for each document, extracted by the link information extraction unit;
A basic URL list describing a sample URL of a Web page to be accessed, and
An additional URL temporary storage memory for recording the URL of the additional URL candidate and the evaluation value as the candidate;
A URL list for each document is extracted from the link information base one by one, and it is determined whether or not there are more than a preset number of URLs in the basic URL list and the additional URL temporary storage memory in the URL list. If there is, for each other URL in the URL list extracted from the link information base, the URL evaluation value recorded in the basic URL list and the URL recorded in the additional URL temporary storage memory A co-occurrence state analysis unit for assigning an evaluation value based on the evaluation value;
A co-occurrence information memory that stores information on the URL and its evaluation value analyzed by the co-occurrence state analysis unit;
An additional URL determination unit that refers to the co-occurrence information memory and stores a URL having an evaluation value equal to or higher than a preset threshold value in the additional URL temporary storage memory together with the evaluation value;
An information filter URL list expansion device having an additional URL list generation unit for generating a list of URLs to be finally added and an additional URL list for storing a list of URLs to be finally added.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001357363A JP3977632B2 (en) | 2001-11-22 | 2001-11-22 | Information filter URL list expansion method, apparatus, information filter URL list expansion program, and recording medium recording the program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001357363A JP3977632B2 (en) | 2001-11-22 | 2001-11-22 | Information filter URL list expansion method, apparatus, information filter URL list expansion program, and recording medium recording the program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003157281A JP2003157281A (en) | 2003-05-30 |
JP3977632B2 true JP3977632B2 (en) | 2007-09-19 |
Family
ID=19168716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001357363A Expired - Lifetime JP3977632B2 (en) | 2001-11-22 | 2001-11-22 | Information filter URL list expansion method, apparatus, information filter URL list expansion program, and recording medium recording the program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3977632B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5070124B2 (en) * | 2008-05-16 | 2012-11-07 | ヤフー株式会社 | Filtering device and filtering method |
-
2001
- 2001-11-22 JP JP2001357363A patent/JP3977632B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2003157281A (en) | 2003-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7254587B2 (en) | Method and apparatus for determining relative relevance between portions of large electronic documents | |
US7536445B2 (en) | Enabling a web-crawling robot to collect information from web sites that tailor information content to the capabilities of accessing devices | |
US8046323B2 (en) | Context based bookmark | |
US7496581B2 (en) | Information search system, information search method, HTML document structure analyzing method, and program product | |
US6272490B1 (en) | Document data linking apparatus | |
JP4118580B2 (en) | Arrangement information recommendation device, method and program | |
JP2007528520A (en) | Method and system for managing websites registered with search engines | |
KR20110009098A (en) | Search results ranking using editing distance and document information | |
CN104133877A (en) | Software label generation method and device | |
KR100359233B1 (en) | Method for extracing web information and the apparatus therefor | |
JP2008310815A (en) | Method and system for providing result of retrieval | |
JP3521879B2 (en) | Document data linking device, link destination address display / access device, and linked document data distribution device | |
JP2000331020A (en) | Method and device for information reference and storage medium with information reference program stored | |
JP2008077353A (en) | Method for classifying keyword, server computer, and program | |
JP2009080806A (en) | Method for inserting link in web page | |
JP3977632B2 (en) | Information filter URL list expansion method, apparatus, information filter URL list expansion program, and recording medium recording the program | |
JP2006163998A (en) | Auxiliary device for recalling search keyword and auxiliary program for recalling search keyword | |
JP4253315B2 (en) | Knowledge information collecting system and knowledge information collecting method | |
US20190095538A1 (en) | Method and system for generating content from search results rendered by a search engine | |
JP2004264928A (en) | In-web site retrieval method and device, in-web site retrieval program, and storage medium recording the program | |
KR100371805B1 (en) | Method and system for providing related web sites for the current visitting of client | |
KR100942902B1 (en) | A method of searching web page and computer readable recording media for recording the method program | |
JP3725087B2 (en) | Knowledge information collecting system and knowledge information collecting method | |
JP3725837B2 (en) | Knowledge information collecting system and knowledge information collecting method | |
JP2009258923A (en) | Information space search apparatus and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050610 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070131 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070323 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070425 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070511 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070613 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070621 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100629 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 3977632 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100629 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110629 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120629 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130629 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140629 Year of fee payment: 7 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |