JP5247650B2

JP5247650B2 - インターネットサイトへのアクセスを制御するシステムに用いられるデータベースの作成方法、システムおよび記録媒体

Info

Publication number: JP5247650B2
Application number: JP2009238129A
Authority: JP
Inventors: ロンヘグリ; ジョンカリントン; デビッドアイ
Original assignee: ウエブセンスインコーポレイテッド
Priority date: 2009-10-15
Filing date: 2009-10-15
Publication date: 2013-07-24
Anticipated expiration: 2020-01-28
Also published as: JP2010044785A

Description

本発明は、特定のインターネットウェブサイトおよびページへのアクセスを選択的にブロックするシステムに用いられるデータベースの作成方法、そのシステムおよびシステムにおける処理をコンピュータに実行させるためのプログラムに関する。さらに具体的には、本発明は、それらのサイトへのエンドユーザのアクセスを制御する複数のオプションを管理者に提供する、柔軟なフィルタリングが可能なシステムに用いられるデータベースの作成方法、そのシステムおよびシステムにおける処理をコンピュータに実行させるためのプログラムに関する。

インターネットは、コンピュータが一体的にリンクされ、その結果、さまざまなコンピュータが互いにシームレスに通信できるようになる、全世界的なコンピュータのシステムである。インターネットユーザは、情報ページをダウンロードし、表示するために、サーバコンピュータにアクセスする。いったんサーバがインターネットに接続されると、その情報ページは、インターネットにアクセスできる事実上すべての人に表示される。

インターネットページへの簡単なアクセスとページの安価な検索・読み出しが、ポルノグラフィなどの不穏当な情報へのアクセスの制御に関するいくつかの問題を引き起こした。この問題に対する複数の解決策が提案されてきたが、これには、親または雇用者が、特定のレーティングを有するインターネットサーバまたはページへのアクセスを制御できるようにする、映画のレーティングに使用されるものに似たレーティングシステムが含まれる。残念ながら、この機構は、インターネットサーバを動作させるすべての人が、自発的に自分のサイトのレーティングを行うことを必要とする。インターネットの自由奔放な性質のゆえに、この種の自発的レーティング方式は、ポルノグラフィを含むものなど、ほとんどの親または会社がブロックすることを望むサイトへのアクセスを防止するのに非常に有効になる可能性が低い。

レーティング方式に加えて、ブロックされるサイトのユニフォームリソースロケータ（ＵＲＬ）アドレスを含むデータベースが開発された。これらのデータベースは、ネットワークコンピュータシステムおよびインターネットファイヤウォールに統合され、その結果、インターネットへのアクセスを望む人は、まず、自分のＵＲＬ要求が、ブロックされるサイトのデータベースに対して突き合わさせる。データベース内で見つかったＵＲＬには、そのユーザはアクセスできない。そのようなシステムの１つが、ベーカーらの米国特許第５６７８０４１号公報に記載されている。残念ながら、そのようなシステムは、アクセスされるサイトのデータベースが完全であることに依存する。新しいサーバが、毎日インターネットに追加されており、現在のサーバが新しい情報で更新されるので、これらのデータベースでは、ブロックされなければならないサイトの完全なリストが提供されない。

さらに、現在のシステムは、ユーザがいったんブロックされるデータベース内のサイトを要求すると、ユーザには全く柔軟性が提供されない。したがって、そのようなサイトを再検討する正当な理由を有するユーザでも、アクセスを拒否される。

本発明は、検索し取り出すことができるサイトに対する制御を提供するとともに、特定の条件の下で、ブロックされたサイトへのアクセスを提供する柔軟性も有するシステムに用いられるデータベースの作成方法、そのデータベースを用いるシステム及びそのシステムにおける処理をコンピュータに実行させるためのプログラムを提供することを目的とする。

本発明に係るインターネットサイトへのユーザアクセスを制御するシステムに用いられるデータベースの作成方法は、前記データベースは、カテゴリ化され、１つ以上のインターネットサイト及び複数のカテゴリを含み、カテゴリ化された前記データベースが、１つの前記インターネットサイトを、前記カテゴリに対し前記インターネットサイトからの１つの単語対に関する１つのスコア（ただし、前記単語対に関する前記スコアは、複数の前記カテゴリ毎に異なる）によって少なくとも部分的に定義された関連性スコア、及び前記カテゴリに関する第１の所定値及び第２の所定値（ただし、前記第１の所定値が前記第２の所定値より大きい）に基づいて、１つのカテゴリと関連付けるプロセスを実行する１つ以上のモジュールによって作成されるものであり、前記プロセスが、前記インターネットサイトからの１つ以上の字句要素によって、前記関連性スコアを少なくとも部分的に定義するステップ、前記関連性スコアが前記第１の所定値より大きい場合には、前記カテゴリを前記インターネットサイトと関連付けるステップ、前記関連性スコアが前記第２の所定値以下の場合には、前記インターネットサイトが前記カテゴリとの関連付けを行わないステップ、及び前記関連性スコアが前記第２の所定値より大きく、前記第１の所定値以下の場合には、前記インターネットサイトと前記カテゴリとを関連付けるべきか否かを判定する追加分析のために、前記インターネットサイトを識別するステップを含む、カテゴリ化されたデータベースの作成方法であることを特徴としている。

また、本発明に係るインターネットサイトへのユーザアクセスを制御するシステムは、上記データベースの作成方法によって作成された、カテゴリ化されたデータベースと、ユーザから要求されたインターネットサイトを読み取り、前記要求されたインターネットサイトに関連する前記カテゴリ化されたデータベースからカテゴリを判定するように構成された第１モジュールと、前記カテゴリが前記ユーザに対して制限されているかどうかを判定し、前記カテゴリが第１の制限されているグループ内にある場合には、前記カテゴリに基づく所定のオプションを実施し、前記カテゴリが第２の制限されているグループ内にある場合には、前記要求されたインターネットサイトへのアクセスをブロックし、前記カテゴリが制限されていない場合に、前記要求されたインターネットへのアクセスを許可するように構成された第２モジュールとを含むシステムであることを特徴としている。

本発明に係る別の実施の形態は、インターネット上の特定のサイトへの延期されたアクセスを提供するシステムである。この実施の形態には、インターネットサイトのカテゴリ化されたデータベースと、該カテゴリ化されたデータベースを参照し、ユーザによってアクセスされるインターネットサイトのカテゴリを判定する第１モジュールと、ユーザが前記カテゴリ内のインターネットサイトへの延期されたアクセスを要求するかどうかを判定し、該判定に対応して、要求されたインターネットサイトからのページをストレージに保存する命令を含む第２モジュールとが含まれる。

本発明に係る別の実施の形態は、インターネットサイトのカテゴリへのアクセスを制御するシステムであって、インターネットサイトのカテゴリ化されたデータベースと、該カテゴリ化されたデータベースを参照し、ユーザによってアクセスされるインターネットサイトのカテゴリを判定する第１モジュールと、ユーザが前記カテゴリ内のインターネットサイトに所定の回数だけアクセスしたかどうかを判定し、該判定に対応して、前記ユーザの前記サイトへのそれ以上のアクセスをブロックする第２モジュールとを含むシステムである。

本発明に係る別の実施の形態は、インターネットサイトへのアクセスを制御するシステムであって、インターネットサイトのカテゴリ化されたデータベースと、該カテゴリ化されたデータベースを参照し、ユーザによってアクセスされるインターネットサイトのカテゴリを判定する第１モジュールと、ユーザが前記カテゴリ内のインターネットサイトにアクセスしたかどうかを判定し、その後、前記ユーザに、すべてのインターネットアクセスがログファイルに保存されることを通知する命令を含む第２モジュールとを含むシステムである。

また、本発明に係るコンピュータに、上記システムにおける処理を実行させるプログラムは、１つ以上のインターネットサイト及び複数のカテゴリを含み、１つの前記インターネットサイトが、前記カテゴリに対し前記インターネットサイトからの１つの単語対に関する１つのスコア（ただし、前記単語対に関する前記スコアは、複数の前記カテゴリ毎に異なる）によって少なくとも部分的に定義された関連性スコア、及び前記カテゴリに関する第１の所定値及び第２の所定値（ただし、前記第１の所定値が前記第２の所定値より大きい）に基づいて、１つのカテゴリと関連付けられ、カテゴリ化されたデータベースを、前記インターネットサイトからの１つ以上の字句要素によって、前記関連性スコアを少なくとも部分的に定義するステップ、前記関連性スコアが前記第１の所定値より大きい場合には、前記カテゴリを前記インターネットサイトと関連付けるステップ、前記関連性スコアが前記第２の所定値以下の場合には、前記インターネットサイトが前記カテゴリと関連付けを行わないステップ、及び前記関連性スコアが前記第２の所定値より大きく、前記第１の所定値以下の場合には、前記インターネットサイトと前記カテゴリとを関連付けるべきか否かを判定する追加分析のために、前記インターネットサイトを識別するステップにより提供することと、さらに、ユーザから要求された前記インターネットサイトを読み取ることと、前記要求されたインターネットサイトに関連する前記カテゴリ化されたデータベースからカテゴリを判定することと、該カテゴリが前記ユーザに対して第１の制限されているグループ内にあるかどうかを判定することと、前記第１の制限されているグループ内にある場合には、前記カテゴリに基づいて所定のオプションを実施することと、前記カテゴリが前記ユーザの第２の制限されているグループ内にあるかどうかを判定することと、前記第２の制限されているグループ内にある場合には、前記要求されたインターネットサイトへのアクセスをブロックすることと、前記カテゴリが制限されていない場合に、前記要求されたインターネットサイトへのアクセスを許可することとを実行させることを特徴としている。

本発明に係る別の実施の形態は、インターネットサイトのカテゴリへのユーザアクセスをコンピュータに制御させるプログラムである。この実施の形態は、インターネットサイトのカテゴリ化されたデータベースを参照することと、ユーザによってアクセスされつつあるインターネットサイトのカテゴリを判定することと、ユーザが前記カテゴリ内のインターネットサイト上で事前にセットされた時間を費やしたかどうかを判定し、該判定に対応して、前記ユーザの前記サイトへのそれ以上のアクセスをブロックすることとを含むプログラムを提供する。

本発明に係る別の実施の形態は、インターネット上の特定のサイトへの延期されたアクセスを提供するであって、インターネットサイトのカテゴリ化されたデータベースを参照することと、ユーザによってアクセスされるインターネットサイトのカテゴリを判定することと、前記ユーザが前記カテゴリ内のインターネットサイトへの延期されたアクセスを要求するかどうかを判定し、該判定に対応して、要求されたインターネットサイトからのページをストレージに保存することとを含む。

本発明に係る別の実施の形態は、インターネットサイトのカテゴリへのアクセスをコンピュータに制御させるプログラムである。このプログラムには、インターネットサイトのカテゴリ化されたデータベースを参照することと、ユーザによってアクセスされるインターネットサイトのカテゴリを判定することと、ユーザが前記カテゴリ内のインターネットサイトに所定の回数だけアクセスしたかどうかを判定し、該判定に対応して、前記ユーザの前記サイトへのそれ以上のアクセスをブロックすることとが含まれる。

本発明に係る別の実施の形態は、インターネットサイトへのアクセスをコンピュータに制御させるプログラムであって、インターネットサイトのカテゴリ化されたデータベースを参照することと、ユーザによってアクセスされるインターネットサイトのカテゴリを判定することと、ユーザが前記カテゴリ内のインターネットサイトにアクセスしたかどうかを判定し、その後、前記ユーザに、すべてのインターネットアクセスがログファイルに保存されることを通知することとを含む。

本発明に係るインターネットサイトへのユーザアクセスを制御するシステムに用いられるデータベースの作成方法、そのデータベースを用いるシステム及びそのシステムにおける処理をコンピュータに実行させるプログラムによれば、検索し取り出すことができるサイトを制御することができるとともに、特定の条件下で、ブロックされたサイトへのアクセスを提供する柔軟性も有するシステムを提供できるという優れた効果を奏する。

インターネットサイトへのアクセスをブロックするシステムの一実施の形態の概要を示すブロック図である。図１に示されているカテゴリ化システムを示すブロック図である。図２に示されているトレーニングデータベース内のテーブルを示すブロック図である。インターネットサイトへの延期されたアクセスを提供するシステムの一実施の形態を示すブロック図である。ユーザがインターネットページへのアクセスを要求するプロセスを示すフローチャートである図５に示されている「ページの単語内容を分析する」プロセスを示すフローチャートである。図２に示されているトレーニングモジュール内で実行されるデータをトレーニングするプロセスを示すフローチャートである。図２に示されているサイト／ページ取出モジュールによって実行されるページ取出プロセスの一実施の形態を示すフローチャートである。延期されたインターネットサイトをデータベースに保存するプロセスの一実施の形態を示すフローチャートである。図９に示したプロセスを使用して保存されたサイトを見るプロセスの一実施の形態を示すフローチャートである。ユーザがあるインターネットサイトで費やした時間を測定し、所定の時間を満たした後に、インターネットへのアクセスをブロックするプロセスの一実施の形態を示すフローチャートである。ユーザがブロックされたインターネットサイトを要求したことをユーザに通知するとともに、ユーザによる要求に基づいてアクセスを許可するプロセスの一実施の形態を示すフローチャートである。ユーザが特定のインターネットサイトにアクセスした回数をカウントし、所定の限界に達した後にそのサイトへのアクセスをブロックするプロセスの一実施の形態を示すフローチャートである。

本発明に係る実施の形態は、インターネットサイトへの柔軟なアクセスを提供するシステムに用いられるデータベースの作成方法、そのデータベースを用いるシステム及びそのシステムにおける処理をコンピュータに実行させるためのプログラムに関する。たとえば、下記のように、一実施の形態で、このシステムは、インターネットサイトへのアクセスを単純に許可または拒否するのではない。ユーザに、カテゴリ化されたデータベース内で見つかったサイトへのアクセスに関する複数のオプションを与えることができる。

たとえば、一実施の形態では、ユーザに、その日の別の時刻まで所望のサイトへのアクセスを延期するというオプションを提示する。ユーザが、アクセスの延期を選択する場合には、要求されたＵＲＬおよびページのコピーが、インターネットサーバ上のデータベースにコピーされる。ユーザは、その後、その日の後の時刻にこのデータベースへのアクセスを許可される。このシステムでは、たとえばスポーツサイトへのアクセスを、昼食時間中または勤務時間後に限ってユーザに提供する能力を使用者に与える。

もう１つの実施の形態では、ユーザが特定のサイトにアクセスする時間の長さまたは回数を追跡する。したがって、ユーザが、特定のサイトで所定の量を超える時間を費やす場合に、そのユーザは、その日の残りについてそのサイトへのアクセスを禁止される。もちろん、タイムスケジュールには、どのようなものであっても、使用者の好む時間の組合せをセットすることができる。さらに、ユーザが特定のカテゴリ内のサイトにアクセスする最大回数も、制御することができる。したがって、ユーザに、どの２４時間の期間内であっても、スポーツサイトへの１０回だけのアクセスを許可することができる。

また、本明細書で説明するシステムは、特定のカテゴリ内のインターネットサイトへのアクセスを提供する。ただし、選択されたサイトへのアクセスが再検討のために記録されることをユーザに通知した後に限って提供される。したがって、ユーザが、そのサイトにアクセスする正当な理由を有する場合には、そのユーザはブロックされない。しかし、所望のサイトにアクセスする正当な理由を有しないユーザは、サイト要求をキャンセルすることを許され、そのサイトを要求したものとしては記録されない。

カテゴリ化されたインターネットサイトのデータベースの作成
このシステムの実施の形態では、インターネットページを自動的にカテゴリ化して、カテゴリ化されたサイトのデータベースを作成し、更新する方法も提供される。このカテゴリ化されたデータベースは、その後、インターネットアクセス制御システム内で、あるカテゴリ内のインターネットサイトへのユーザのアクセスを制御するのに使用される。たとえば、本明細書に記載のシステムが、特定のインターネットページを「スポーツ」カテゴリに割り当てる場合に、インターネット上のスポーツページを見ることを制限されたユーザは、要求されたサイトへのアクセスを許可されない。一実施の形態では、このシステムが、ユーザからインターネットへのトラフィックを制御するインターネットゲートウェイコンピュータ内にインストールされる。本明細書に記載のシステムは、スコアリングされる各ページに関してより正確になるので、ページをカテゴリに割り当てるのに、最小限のユーザ介入が必要である。

以下詳細に説明するように、このシステムの実施の形態には、特定のカテゴリに強く関連する、インターネットサイトに現れる字句要素の分析によって作成されるトレーニングデータベースが含まれる。これに関して、字句要素とは、分析されるサイトに現れる１つまたは複数の単語である。字句要素の例には、個々の単語、単語対、近接する単語および単語の３つ組が含まれる。したがって、たとえば「スポーツ」カテゴリをトレーニングするために、フットボールチームに関するサイトが、システムに供給される。

第１ステップとして、スポーツなどの各カテゴリが、そのカテゴリに特に関係する単語、単語対、および単語近接を認識するためにトレーニングされる。本明細書で使用される、単語対は、ページのどこかに現れる２つの単語を意味する。対照的に、単語近接は、お互いのとなりに現れる２つの単語である。したがって、単語近接「フットボールチーム」は、スポーツカテゴリに対する強い関連性スコアを与えるはずである。しかし、同一の単語近接が、インターネット商取引カテゴリに対しては低い関連性スコアしか与えないはずである。

トレーニングデータベースを、単語対および単語近接から、その事前定義のカテゴリのそれぞれに関する関連性スコアと共に作成した後に、インターネットに現れる新しいページを、新しいページに現れる単語対／近接の関連性に基づいて分析することができる。たとえば、単語近接「フットボールチーム」を有する新しいインターネットページは、スポーツカテゴリについては高いスコアが与えられるが、インターネット商取引カテゴリに対しては低い関連性しか与えられない。

さらに、特定のカテゴリに含まれることが確認されたページを用いて各カテゴリをトレーニングし続けることによって、システムをますます正確にすることができる。各トレーニングセッションでは、各ページ内の字句要素の関連性スコアが、カテゴリへのより高い関連性を示すために増やされるか、カテゴリへのより低い関連性を示すために減らされる。

自動インターネットサイト取出プログラムを使用することによって、このシステムに係る実施の形態は、新しいインターネットページがワールドワイドウェブに現れた時に、そのページは新しいインターネットページに継続的に更新される、カテゴリ化されたインターネットサイトおよびページのデータベースを提供する。したがって、このシステムの実施の形態は、インターネットページのスコアリングおよびカテゴリ化のための効率的なシステムを提供する。

カテゴリ化プロセスの概要
以下で説明する自動カテゴリ化システムには、コンピュータ命令が含まれ、このコンピュータ命令は、実行される時に、インターネットサイトのソースページを評価し、与えられたＵＲＬを複数のカテゴリのうちの１つにカテゴリ化する。このシステムには、下記についてスコアリングする３つの式が含まれる。

１．単一単語関連性例：カテゴリ２で、「セックス」＝４０４０。

２．単語対関連性例：カテゴリ２で、「セックス」と「ポルノ」＝６００５。

３．単語近接関連性例：カテゴリ２で、「ハードコアセックス」＝８０５０。

さらに、別の実施の形態で、単語対、単語近接、高い度合の組合せ（３つ組、４つ組など）などの複数単語関連に関してスコアリングする式を、実施することができる。

カテゴリ化システムは、まず、与えられたカテゴリのさまざまな面を最もよく表す、代表的な複数のインターネットサイトを収集することによってトレーニングされる。これらのサイトを、トレーニングアルゴリズムにかけ、このトレーニングアルゴリズムが、選択されたカテゴリに対する、インターネットサイト内で見つかった単語、単語対および単語近接への関連性スコアを割り当てる。トレーニング処理の結果が、「カテゴリプロトタイプ」と称するインターネットサイトの合成物である。カテゴリプロトタイプは、単一単語、単語対および単語近接の関連性スコアの集合である。

カテゴリプロトタイプが各カテゴリについて生成された後に、新しいインターネットサイトからの単語、単語対および単語近接が、カテゴリプロトタイプに対してテストされて、新しいページを特定のカテゴリ内にカテゴリ化しなければならないかどうかが判定される。たとえば、単語「セックス」がソースページに現れる場合に、コンピュータは、カテゴリプロトタイプを検査し、カテゴリ２（セックス）内のこの単語の４０４０という関連性スコアを取り出す。単語対「セックス、ポルノ」がソースページに現れる場合に、コンピュータは、カテゴリプロトタイプを検査し、カテゴリ２（セックス）内の単語対「セックス、ポルノ」の６００５という関連性スコアを取り出す。この処理を、取り出されたページのすべての単語対および単語近接について繰り返す。その後、これらのスコアを使用して、取り出されたページのカテゴリレーティングを計算する。

カテゴリレーティングは、あるページを与えられたカテゴリに配置しなければならない確率を評価するのに使用される。たとえば、あるＵＲＬが、カテゴリ２内で５０００のカテゴリレーティングを有する場合に、そのＵＲＬがそのカテゴリ内にあることの、それに関連する確率は、０．９９である可能性がある。これは、それぞれが５０００のカテゴリ２レーティングを有する１００個のサイトがある場合に、これらのサイトのうちの９９個が、カテゴリ２に属することを意味する。一般に、カテゴリレーティングが高くなるにつれて、対応するサイトがそのカテゴリに属する確率も高まる。その結果、この特徴を使用して、９９％の精度（または他の精度）を維持するカットオフ点を確立することが可能である。

この処理の目的の１つが、各カテゴリ内の２つのカットオフ点すなわち、アルファ点およびベータ点を得ることである。この２つの点によって、サイトのカテゴリ化に関する決定をそれに対して行うことができるベンチマークが作成される。アルファ点は、たとえば９９％のソーティング精度を維持するように選択される。既知の通り、ソーティング精度は、単に、コンピュータがサイトを特定のカテゴリに正しくソートする能力である。アルファ点は、次式を使用することによって、どのカテゴリについても計算することができる。

Ａｐ＝Ｍ７＋４（ＳＤ７）
ただし、Ａｐ＝アルファ点、Ｍ７＝特定のカテゴリ内で誤ってソートされたサイトの平均カテゴリレーティング、ＳＤ７＝特定のカテゴリ内で誤ってソートされたサイトのカテゴリレーティングの標準偏差である。これによって、９９％のソーティング精度が保証される。というのは、平均スコアから４標準偏差離れた点を計算しており、与えられたカテゴリについてインターネット全体を一般化しなければならないからである。

ベータ点のソーティング精度は、確実にカテゴリの間で変化する。しかし、一般に、７５％から８５％の範囲の間のソーティング精度を維持することができる。ベータ点は、次式を使用して得ることができる。

Ｂｐ＝Ｍ７＋１（ＳＤ７）
ここで、Ｂｐ＝ベータ点、Ｍ７＝特定のカテゴリ内で誤ってソートされたサイトの平均カテゴリレーティング、ＳＤ７＝特定のカテゴリ内の誤ってソートされたサイトのカテゴリレーティングの標準偏差である。ベータ点とアルファ点との間に含まれるサイトは、ウェブアナリストまたは技術者が見ることができるように、提案データベースに配置される。各カテゴリに、それ自体の独自のアルファ点およびベータ点が割り当てられることに留意されたい。

以下で述べるように、本システムの実施の形態に、１つまたは複数のモジュールが含まれる。これらのモジュールには、コンピュータシステム内のプロセッサ上で実行されるソフトウェア命令が含まれる。モジュールには、ランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、電気的消去可能プログラマブル読取専用メモリ（ＥＥＰＲＯＭ）、ハードディスクまたは他のコンピュータストレージデバイスなどのストレージも含めることができる。

図１に、インターネット上の特定のサイトへのアクセスを制御するシステム１０の概要を示す。図から分かるように、複数のワークステーション１２Ａ〜１２Ｃが、ローカルエリアネットワーク１５を介してインターネットゲートウェイシステム２０に接続される。ワークステーション１２Ａ〜１２Ｃは、マイクロソフトウインドウズオペレーティングシステムの下で動作するインテルペンティアムクラスのパーソナルコンピュータであることが好ましい。もちろん、アップル、ＩＢＭ、コンパック、デル、ディジタルイクウィップメントコーポレイテッド（ＤＥＣ）などによって製造されるものまたは他のシステムなどの、すべての従来のパーソナルコンピュータを使用できることを理解されたい。

ローカルエリアネットワーク１５は、イーサネット１０ベースＴトポロジであることが好ましいが、無線ネットワーク、トークンリングネットワークおよび類似物を含む、周知のネットワークプロトコルに基づくものとすることができる。ローカルエリアネットワーク１５は、インターネット３５上のサイトへのＴＣＰ／ＩＰ通信をワークステーション１２Ａ〜１２Ｃに提供するために、インターネットゲートウェイシステム２０と通信する。そのようなゲートウェイは、当技術分野で周知であり、通常は、インターネットのＴＣＰ／ＩＰプロトコルをローカルエリアネットワーク１５上の通信のための適当なプロトコルに変換するルータまたは他のデータパケットスイッチング技術を介して通信する。

インターネットゲートウェイシステム２０内に、インターネット３５との間で流れるデータパケットを監視するインターネットファイヤウォールモジュール２４がある。ファイヤウォールモジュール２４は、ワークステーション１２Ａ〜１２Ｃとインターネットとの間のアクセスを制御し、その結果、許可されないユーザが、ローカルエリアネットワーク１５上のコンピュータリソースへのアクセスを獲得できないようにする。したがって、インターネットとネットワークサーバ１５との間のすべての通信が、まず、ファイヤウォール２４を通過する。ファイヤウォール−１（チェックポイントソフトウェア、米国カリフォルニア州レッドウッドシティ）などの多数のファイヤウォールソフトウェアプログラムが利用可能である。しかし、図１に示した実施の形態では、インターネットとワークステーション１２Ａ〜１２Ｃとの間のデータパケットのアクセスを制御するのにファイヤウォールに頼っているが、他の類似するアクセス制御システムが使用可能であることを理解されたい。たとえば、マイクロソフトプロキシサーバ（マイクロソフトコーポレイテッド、米国ワシントン州レッドウッドシティ）、ネットスケーププロキシサーバ（ネットスケープコーポレイテッド）およびシスコ（Ｃｉｓｃｏ）のピックスファイアウォールのオープンサーバインプリメンテーション（シスココーポレイテッド）が、現在入手可能であり、ファイヤウォール２４の代わりに実施することができる。

インターネットゲートウェイシステム２０内で、ファイヤウォール２４と通信するのが、カテゴリ化されたサイト管理モジュール２６であり、カテゴリ化されたサイト管理モジュール２６には、ワークステーション１２Ａ〜１２Ｃからのインターネットサイト要求を分析し、これらのインターネットサイト要求をカテゴリ化されたサイト／ページデータベース３０と比較する命令が含まれる。要求されたページがデータベース３０内で見つかる場合には、そのページに対しては、管理モジュール２６内でユーザに与えられるアクセス権に応じて、ブロックまたは許可のいずれかが行われる。図から分かるように、カテゴリ化されたサイト管理モジュール２６は、ファイヤウォール２４と通信して、インターネット３５へのアクセスを許可または制御する。

カテゴリ化システム４０もインターネット３５に接続されている。カテゴリ化システム４０は、下記のように、カテゴリ化されたサイトデータベース３０を作成するために、ウェブサイトおよびページをカテゴリ化する。インターネット上のサイトが、カテゴリ化システム４０によってカテゴリ化された後に、データベース更新システム４２が、その後、更新されたデータベースをカテゴリ化システム４０からインターネットゲートウェイシステム２０に日常的にコピーする。想像できるように、このシステムに、数百台のゲートウェイシステムを含めることができ、そのゲートウェイシステムのそれぞれが、データベース更新システム４２によって定期的に更新されて、ブロックされるインターネットサイトの更新されたデータベースが提供される。さらに、データベース更新システム４２は、ゲートウェイシステム２０にデータベースの一部だけを転送でき、その結果、データベース全体を送信する必要がなくなることが好ましい。

延期管理システム４４もインターネット３５と通信するが、この延期管理システム４４は、後に図４に関して説明するように、ユーザによる延期されたアクセスのために保存されたインターネットサイトを管理する。次に説明するように、このシステムは、後で再検討するために所望のインターネットサイトを保存する能力をユーザに提供する。

図１には、インターネットへのワークステーションコンピュータの制御されたアクセスを提供するシステム全体の一実施の形態が示されている。インターネットアドレス（たとえばページまたはサイト）に関するワークステーションからの要求のそれぞれが、まず、インターネットアドレスのカテゴリ化されたデータベースと比較される。要求されたアドレスが、カテゴリ化されたデータベース内で見つかる場合には、管理モジュールが、ユーザ許可テーブルにアクセスして、要求元のユーザが要求されたページに関連するカテゴリ内のサイトを見る権利を有するかどうかを判定する。ユーザがカテゴリ内のページを見るアクセス権を有する場合には、ページ要求がインターネットに送信される。しかし、ユーザがアクセス権を有しない場合には、そのユーザは、要求したページをインターネットから受信することをブロックされる。

図２は、カテゴリ化システム４０（図１）を詳細に示すブロック図である。図に示されているように、インターネットページ１００Ａおよび１００Ｂとインターネットサイト１００Ｃが、サイト／ページ取出モジュール１１０によって検索され取り出される。サイト／ページ取出モジュール１１０内には、インターネットからインターネットページおよびサイトを検索し、取り出す命令がある。そのようなサイトを取り出す１つの例示的な方法を、後に図７により説明する。

インターネットサイトまたはページは、取出モジュール１１０によって検索され取り出された後に、どのカテゴリ（１つまたは複数）が取り出されたサイトに最も強く関連するかを判定するために、分析モジュール１２０に転送される。１つまたは複数のカテゴリへの関連性についてインターネットページを分析するプロセスを、後に図５により詳細に説明する。

図から分かるように、分析モジュール１２０は、カテゴリ化されたデータベースのコピー３０’およびトレーニングデータベース１２５にリンクされる。分析モジュール１２０は、ページ内の単語対および単語近接を分析することによって、所定のカテゴリのそれぞれに対する、取り出されたインターネットページの関連性を計算する。この分析を提供するために、以下で説明するトレーニングデータベース１２５には、ページで見つかる可能性がある単語対および単語近接のそれぞれのカテゴリ関連性スコアが含まれる。したがって、検索されたページ内の単語対および単語近接を、トレーニングデータベース内の単語対および単語近接のスコアと比較することによって、各カテゴリ内のページの総関連性スコアを決定することができる。ページ関連性スコアが各カテゴリ内でページについて計算された後に、各カテゴリの関連性スコアが、検索されたスコアのカテゴリへの割当を保証するのに十分に高いかどうかを判定する。

次に述べるように、取り出されたページを特定のカテゴリに割り当てるかどうかの判定は、特定のカテゴリに関するページの関連性スコアと、所定のアルファ値とを比較することによって行われる。ページ関連性スコアが、カテゴリのアルファ値より高い場合には、そのページが、そのカテゴリに割り当てられる。スコアがアルファ値より低いが、ベータ値より大きい場合には、そのページが手動スコアリングシステムに転送され、この手動スコアリングシステムで、技術者が取り出されたページを見て、そのページをカテゴリに含めるか否かを判定する。カテゴリに関するページの関連性がベータ値より低い場合には、ページアドレスが、分析されたサイトのデータベースに保存され、システムは、追加のアドレスのスコアリングを継続する。

トレーニングデータベース１２５内のデータは、図示のように、トレーニングデータ１３０をトレーニングモジュール１３５に供給することによって作成される。トレーニングデータ１３０には、トレーニングされる各カテゴリに強く関連するインターネットページが含まれる。たとえば、スポーツカテゴリをトレーニングするために、トレーニングデータに、スポーツフランチャイズまたは他のスポーツウェブサイトのインターネットアドレスを含めることができる。その後、トレーニングモジュール１３５が、与えられたスポーツサイト内の各ページの単語対および単語近接を構文解析する。以下で説明するように、独自の単語対および単語近接のすべてに、トレーニングデータベース内のスポーツカテゴリで高い関連性スコアが割り当てられる。したがって、新しいページに現れる類似する単語および単語対には、スポーツカテゴリへの高い関連性スコアが与えられる。

図３には、トレーニングデータベース１２５の一実施の形態が示されている。トレーニングデータベース１２５内には、単語のリストおよび各単語の対応するＩＤ番号を含む単語識別テーブル２００がある。このテーブルを用いると、データベース内で参照されるすべての単語対または単語近接を、２つの単語ではなく２つの数によって表現できるようになる。一般に、ＩＤ番号の文字数は、単語自体の文字数より少ないので、単語自体の代わりに各単語の数値表現を保存するために、トレーニングデータベース内で要求されるデータストレージスペースは、はるかに少なくなる。さらに、これらの一般的な単語を表すのに、１バイトのデータが用いられるだけであるので、「ザ（ｔｈｅ）」および「アンド（ａｎｄ）」などの周知の単語は、１桁の数によって表すことができる。しかし、次に述べるように、そのような一般的な単語は、通常は、インターネットページをスコアリングする前に破棄され、その結果、各ページの字句要素が、すべての他のインターネットページからより簡単に区別されるようになる。これによって、より有利なページスコアリングシステムがもたらされる。

単語識別テーブル２００の他に、システム内のカテゴリのそれぞれにカテゴリＩＤ番号を与えるカテゴリ識別テーブル２０５がある。カテゴリ識別テーブル２０５には、特定のページを選択されたカテゴリに割り当てるためのカットオフ値を提供するアルファスコアおよびベータスコアも含まれる。たとえば、図３に示されているように、スポーツカテゴリに、９２０のアルファスコアおよび８１０のベータスコアが含まれる。あるインターネットページが、スポーツカテゴリについて９２０を超えるページ関連性スコアを有することがわかった場合に、そのページが、スポーツカテゴリに割り当てられる。しかし、そのインターネットページが、８１０と９２０との間のページ関連性スコアを有することがわかった場合には、そのページには、スポーツカテゴリに属するか否かを判定するための技術者による手動フォローアップのフラグが立てられる。インターネットページが、スポーツカテゴリについて８１０未満のページ関連性スコアを有することがわかった場合には、そのページには、スポーツカテゴリに関連するものとしてのフラグが立てられない。これらの値を使用することによって、システムが、特定のページを所定のカテゴリに割り当てるか否かを判断する。

トレーニングデータベース１２５内には、システム内の特定のカテゴリに関する単語対および単語近接の関連性スコアを提供する単語関連性テーブル２１０もある。たとえば、単語「クリーブランド」（ＩＤ番号２３４）および単語「ブラウンズ」（ＩＤ番号１９８）が、カテゴリ１（スポーツ）に対する９００の単語近接関連性スコアと共に示されている。この例では、最大関連性スコアが１０００なので、単語近接「クリーブランドブラウンズ」は、スポーツカテゴリに非常に強く関連する。したがって、互いに近接する単語「クリーブランドブラウンズ」を有するインターネットページは、これらの単語のスポーツへの強い関連性に起因して、スポーツカテゴリ内で総ページスコアが増やされる。

単語「ダイヤモンド」（ＩＤ番号７５５）および「ジュエリー」（ＩＤ番号１３４５）は、スポーツカテゴリ内では２９０の関連性スコアを有するのみであることに留意されたい。しかし、単語対「ダイヤモンド」および「ジュエリー」は、カテゴリ３（ショッピング）では９４０の関連性スコアと共に図示されている。したがって、図から分かるように、これらの単語の両方を有するページは、ショッピングカテゴリとの関連がより強く、スポーツカテゴリとの関連はより弱い。

図４を参照して、カテゴリ化されたサイト管理モジュール２６と延期管理システム４４の間の対話を、より完全に説明する。図に示されているように、カテゴリ化されたサイト管理モジュール２６には、延期モジュール２５０が含まれ、延期モジュール２５０には、インターネット上の特定のサイトへのアクセスを延期する能力をシステムに与える命令が含まれる。延期モジュール２５０内で動作するプロセスを、後に図９および１０により説明する。

カテゴリ化されたサイト管理モジュール２６には、クォータモジュール２５４もある。クォータモジュール２５４には、ユーザがインターネット上のサイトへのアクセスに関する特定のクォータを超過したかどうかを判定する命令およびコマンドが含まれる。ユーザがタイマクォータを超過したかどうかを判定するプロセスは、図１１に示されている。このプロセスは、クォータモジュール２５４内のタイマモジュール２５６内で動作する。さらに、クォータモジュール２５４には、特定のユーザがあるインターネットサイトにアクセスした回数、またはユーザが特定のインターネットサイトを再検討して費やした時間を記録する、データストレージ２５８が含まれる。

管理モジュール２６には、ユーザ許可モジュール２６０も含まれ、ユーザ許可モジュール２６０は、特定のユーザが、特定のサイトへのアクセスを制限されているか、延期モジュール２５０またはクォータモジュール２５４の要件の対象であるかどうかを判定するためのデータストレージ、コマンドおよび命令が含まれる。

管理モジュール２６と通信するのが、延期管理システム４４である。このシステムは、インターネット３５に接続されたサーバ内で普通に実行されている。延期管理システム４４には、特定のユーザによって要求されたインターネットサイトへの延期されたアクセスを提供する命令およびコマンドが含まれる。

延期管理システム４４内には、クッキー分析モジュール２７０があり、クッキー分析モジュール２７０は、現在システムにアクセスしているユーザの識別を判定する命令を提供する。既知のように、「クッキー」は、特定のユーザ識別番号を含めることができる、ユーザのコンピュータ上に保存されるデータストリングである。この一意のユーザ識別番号によって、延期管理システム４４が、現在システムにアクセスしているユーザの識別を知ることができる。

クッキー分析モジュール２７０と通信するのが、新しいユーザを延期管理システム内で登録できるようにするために設けられた登録モジュール２７２である。したがって、クッキーがユーザのコンピュータ上で見つからない場合には、ユーザは、延期管理システム４４へのアクセスを登録するために、登録モジュール２７２に案内される。

延期管理システム４４は、システム４４内の延期されたサイトへのユーザアクセスを監督する管理モジュール２７６も備える。したがって、ユーザが、保存されたサイトへのアクセスを試みる時に、管理モジュール２７６が、適当な保存されたサイトを判定し、ユーザをその保存されたページに案内する。図から分かるように、管理モジュール２７６は、ユーザによって試みられた前の表示から延期された実際のページを保持するストレージ２８０と通信する。この延期されたページを保存し、見るプロセスを、後に図９および１０を基により完全に説明する。

図５は、インターネットページまたはサイトへのアクセスの要求の全体的なプロセス３００を示すフローチャートである。プロセス３００は、開始ステップ３０２で開始され、その後、ステップ３０６に進み、ここで、ワークステーション１２Ａ〜１２Ｃ上のインターネットブラウザが、インターネット上のアドレスを要求する。周知のブラウザに、マイクロソフトエクスプローラーおよびネットスケープナビゲータが含まれる。このブラウザ要求は、ユーザが自分のブラウザソフトウェアに所望のＵＲＬを入力した後に、普通に行われる。

その後、ユーザの要求が、ローカルエリアネットワーク１５を介してインターネットゲートウェイシステム２０に送られる。プロセス３００は、その後、ステップ３０８に進み、ここで、要求されたインターネットアドレスが、カテゴリ化されたデータベース３０と突き合わされる。アドレスを、インターネットサイト内の単一のページまたはサイトのデフォルトアドレス（たとえばｗｗｗ．ｃｏｍｐａｎｙ．ｃｏｍ）とすることができることに留意されたい。

その後、判断ステップ３１０で、カテゴリ化されたデータベースに保存されたアドレスのいずれかとアドレスが一致したかどうかの判定を行う。カテゴリ化されたデータベース３０内で一致するアドレスが見つからなかった場合には、ステップ３１２で、要求されたページをインターネットから取り出し、終了ステップ３１４でこのプロセスを終了する。

しかし、要求されたアドレスとカテゴリ化されたデータベースの間で一致するアドレスが見つかった場合には、プロセス３００は、判断ステップ３１５に進み、ここで、現在のユーザがインターネットページの特定のカテゴリへの制限されたアクセス権を有するかどうかを判定する。この判定は、ネットワークユーザのリストと、カテゴリ化されたデータベース内で見つかったカテゴリのそれぞれの関連する許可テーブルとを参照することによって行うことができる。したがって、１特定のユーザが、スポーツカテゴリおよびポルノグラフィカテゴリのすべてへのアクセスを制限され、インターネット商取引カテゴリまたはトラベルカテゴリへのアクセスを制限されない場合がある。インターネットカテゴリの例示的なリストを、下の表１−１及び１−２に示す。

判断ステップ３１５で、ユーザが制限されたカテゴリを有すると判定された後に、プロセス３００は、ステップ３１６に進んで、この特定のユーザに関してどのカテゴリがブロックされているかを判定する。この判定は、ユーザに関連する許可リストを参照することによって行われる。

プロセス３００は、その後、判断ステップ３２０に進んで、要求されたページが、この特定のユーザに関して制限されたカテゴリのいずれかに含まれるかどうかを判定する。この判定は、まずカテゴリ化されたデータベースから要求されたアドレスのカテゴリを判定し、その後、その結果とユーザに対して制限されたカテゴリとを比較することによって行われる。要求されたページがユーザに対して制限されたカテゴリに含まれないと判定された場合には、ステップ３２４で改訂されたページを取り出し、終了ステップ３１４でこのプロセスを終了する。

判断ステップ３２０で、要求されたページがユーザに対して制限されたカテゴリの１つに含まれると判定された場合には、プロセス３００は、ステップ３４０に進み、ここで、ページへのアクセスをブロックする。このブロックは、ユーザからインターネットへのパケット要求を破棄するか、要求されたページへのインターネットブラウザによって要求された接続を単純にクローズすることによって、行うことができる。プロセス３００は、適当なページに戻って、要求が拒否されたことをユーザに通知する。その後、プロセス３００は、終了ステップ３１４で終了する。

したがって、図５は、要求されたページがカテゴリ化されたデータベース３０内に現れるかどうかに基づいて、特定のインターネットアドレスへのアクセスを要求し、ブロックする１つのプロセスの概要を提供する。図５は、インターネットページ内の単語対および単語近接の内容を分析することによって、カテゴリ化されたデータベース３０を作成する方法を提供する。

図６は、システムに用いられるデータベースの作成方法、特に、特定のカテゴリへの関連性を判定するためにページの単語内容を分析するプロセス３２８を示すフローチャートである。プロセス３２８は、開始ステップ４００で開始され、その後、ステップ４０２に進み、ここで、インターネットページの第１単語を検索し取り出す。本明細書で使用される用語「単語近接」には、互いに直接に隣接する単語が含まれる。用語「単語対」には、同一のインターネットページに配置された２つの単語が含まれる。

ページからの第１単語をステップ４０２で検索し取り出した後に、プロセス３２８は、ステップ４０４に進み、ここで、ページ内の第１単語を含むすべての単語対の関連性を、定義されたカテゴリのそれぞれについて判定する。したがって、ページ内の第１単語と第３単語を判定し、その単語対を、トレーニングデータベース内の単語関連性テーブル２１０と比較して、リストされたカテゴリのそれぞれでの関連性スコアを判定する。この関連性スコアは、各単語対とそれに関連するすべてのカテゴリに対する関連性をリストした単語関連性テーブル２１０（図３）を参照することによって判定される。一実施の形態では、特定のカテゴリ内の単語対の関連性スコアが、０から１０００まで変化し、１０００が、カテゴリに完全に関連する単語対である。もちろん、カテゴリに対する特定の単語対の関連性を反映する、さまざまなスコアリングシステムを開発することができる。また、単語対の２つの単語の間の最大距離を設定することができることを理解されたい。たとえば、システムが、１０、２０、３０、４０、またはそれ以上の単語数だけ離れた単語対だけを分析し、その後、そのページの次の単語の分析の開始に移動することができる。

判定された単語対関連性スコアは、後の操作のためにメモリに格納される。その後、第１単語を、そのページの第４単語と対にして、新しい単語対の各カテゴリに対する関連性を判定する。この処理を、第１単語を含む、そのページ内の可能なすべての２単語対について繰り返す。

プロセス３２８は、その後、ステップ４０５に進み、ここで、第１単語と第２単語の単語近接の関連性を、これらの単語をトレーニングデータベース内の単語関連性テーブル２１０と突き合わせて、各カテゴリとの関連性を判定することによって、計算する。

取り出された単語近接の関連性スコアを、すべてのカテゴリについて判定した後に、プロセス３２８は、ステップ４０８に進み、ここで、単語対のそれぞれについてステップ４０４で判定された関連性スコアを、カテゴリごとの総ページスコアに加算する。

したがって、単語対「クリーブランド」および「ブラウンズ」が、スポーツカテゴリの単語関連性テーブルから９００の関連性スコアを返す場合に、数値９００が、カテゴリ１（スポーツ）の総ページスコアに加算される。したがって、あるカテゴリでより高い関連性スコアを有する単語対が、そのページの現在のカテゴリでのより高い総合ページ関連性スコアをもたらす。同様に、特定のカテゴリでより低い関連性スコアを有する単語対は、そのカテゴリに対する総合ページ関連性スコアを下げる。

ページの単語対関連性スコアが、総ページ関連性スコアに加算された後に、プロセス３２８は、ステップ４０９に進み、ここで、各カテゴリについてステップ４０５で判定された単語近接関連性を、現在のインターネットページのページ関連性カテゴリスコアに加算する。

各カテゴリのページスコアを計算したので、判断ステップ４１６で、ページに分析すべき単語がまだあるかどうかを判定する。取り出されたインターネットページに分析に使用可能な単語がもうないと判定された場合に、プロセス３２８は、ステップ４２０に進み、ここで、より多くの単語を有するページがより高いスコアを有するという事実を考慮に入れるために、各カテゴリの総ページ関連性スコアを正規化する。たとえば、ページスコアが、単語対および単語近接の関連性を加算することによって決定されるので、５００単語を有するページは、１００単語を有するページよりかなり高い、各カテゴリのスコアを有する。したがって、たとえば、各カテゴリのページ関連性スコアを、そのページの単語の総数で割ることによって、ページスコアを正規化し、その結果、異なる長さのページが、各カテゴリでほぼ同一のページスコアを有するようにする。単語対および単語近接のそれぞれについてより高い平均関連性スコアを有するカテゴリが、低い関連性スコアを有する単語対を有するカテゴリより高いページスコアを有することに留意されたい。

正規化されたページスコアが、検索されたページについて各カテゴリで判定された後に、プロセス３２８は、判断ステップ４２２に進んで、あるカテゴリのページ関連性スコアが、そのカテゴリのアルファ関連性スコアより大きいかどうかを判定する。この判定は、トレーニングデータベース１２５内のカテゴリＩＤテーブル２０５を参照することによって行われる。ページ関連性スコアが、アルファスコア以下の場合には、プロセス３２８は、判断ステップ４２４に進んで、ページ関連性スコアがそのカテゴリのベータスコアより大きいかどうかを判定する。ページ関連性スコアがベータスコア以下と判定された場合には、プロセス３２８は、ステップ４２６に進み、ここで、取り出されたサイトをテーブルに格納し、分析済みだがどのカテゴリにも含まれないものとしてフラグを立てる。プロセス３２８は、その後、終了ステップ４３０で終了する。

判断ステップ４２２で、ページ関連性スコアがカテゴリのアルファスコアより大きいと判定された場合には、プロセス３２８は、ステップ４３２に進み、ここで、取り出されたアドレスを、カテゴリ化されたデータベース３０に追加する。カテゴリ化されたデータベース３０には、ブロックされるインターネットアドレスのアドレスだけではなく、データベース内でカテゴリ化されているサイトであっても、そのインターネットサイトに関連するカテゴリも含まれる。その結果、特定の許可を有するユーザにサイトへのアクセスを提供しなければならないかどうかの判定を行えるようになることに留意されたい。

別の実施の形態では、ページスコアがカテゴリのアルファスコアより大きいと判定された場合に、システムが、インターネット上の現在のページにアクセスする命令を実行することができる。この命令は、その後、メインドメインアドレス（たとえばｗｗｗ．ｃｏｍｐａｎｙ．ｃｏｍ）に向かって移動している間に、そのサイトの階層的ページのスコアリングを開始する。サイトのより上位のノードのいずれかが、やはり同一のカテゴリのアルファスコアより大きいと判定された場合に、このサイトも、データベースに追加される。これによって、個々のページをレーティングするだけではなく、インターネットサイトの特定のノードの下に現れる複数のページもレーティングする機構が、システムに与えられる。

一実施の形態では、あるページで検討される単語の数が、所定の数に制限される。たとえば、ページの最初の１００、２５０、５００または１０００個の単語だけを検討するようにシステムを制限することができる。所定の数の後の単語は、すべて検討されない。

判断ステップ４２４で、ページ関連性スコアがベータスコアより大きいが、アルファスコア以下と判定された場合には、プロセス３２８は、ステップ４３４に進み、ここで、このアドレスに、技術者によるさらなる分析のためのフラグを立てる。このプロセスは、その後、終了ステップ４３０で終了する。

判断ステップ４１６で、取り出されたページに分析すべき単語がまだ残っていると判定された場合には、プロセス３２８は、ステップ４３６に進み、ここで、ページの次の単語を各単語対および単語近接の第１単語として選択する。この形で、システムが、ページ内の各単語を他のすべての単語と共に分析することによって、ページを「ウォーク」する。これによって、ページ内のすべての可能な単語対および単語近接の完全な分析が行われる。

図６に示されたプロセス３２８により、新たに取り出されたインターネットページが、スコアリングされ、システム内の１つまたは複数のカテゴリと関連付けられる。あるカテゴリ内でそのカテゴリのアルファスコアより大きい関連性スコアを有することがわかったページのそれぞれが、それに関連付けられるカテゴリについて、カテゴリ化されたデータベース３０に追加される。さらに、より厳しさの低いベータスコアより高い関連性スコアを有することがわかったすべてのページに対して、技術者による分析のためのフラグが立てられ、その結果、そのページを、必要であればカテゴリ化されたデータベースに手動で追加できるようになる。この機構により、新しいインターネットページが、定期的にシステムに追加される。

図７は、トレーニングデータベース１２５内で単語関連性テーブル２１０を作成するプロセス５００を示すフローチャートである。プロセス５００は、開始ステップ５０２で開始され、その後、ステップ５０４に進み、ここで、最初にトレーニングするカテゴリを選択する。カテゴリは、たとえば、スポーツカテゴリとすることができる。プロセス５００は、その後、ステップ５０８に進み、ここで、選択されたカテゴリ（たとえばスポーツ）内にあることが事前に判定されているウェブページを取り出す。したがって、これらのページは、ステップ５０４で選択されたカテゴリ内にあることが既知なので、選択されたページ内の各単語対および単語近接の関連性を、現在のカテゴリへの高い関連性に割り当てることができる。

選択されたカテゴリ内のウェブページを取り出した後に、プロセス５００は、ステップ５１０に進み、ここで、現在選択されているページに関してターゲットページスコアを判定する。通常、特定のカテゴリに強く関連するページには、たとえば１０００のスコアが与えられる。しかし、単語をカテゴリに関係付けるのに使用される類似するタイプのスコアリングスケールのどのようなタイプでも同様に実施できることを理解されたい。ステップ５１０でターゲットページスコアを判定した後に、プロセス５００は、ステップ５１６に進み、ここで、取り出されたページの第１ページを分析のために選択する。

その後、ステップ５２０で、選択されたページの単語数をカウントし、その後、プロセスはステップ５２６に進み、ここで、特有の単語対の数が、ターゲットページスコア（１０００）で割られて、その結果、単語対が再スコアリングされる場合に、総ページ関連性スコアが１０００になるようにする。同様に、ターゲットページスコア（１０００）は、一意の単語近接の数で割られて、合計された場合に１０００のページ関連性スコア（トレーニングされたカテゴリに対する極端に高い関連性）をもたらす単語近接スコアとなる。処理時間を最小にし、スコアリング処理の精度を高めるために、「ア（ａ）」、「ザ（ｔｈｅ）」、「アンド（ａｎｄ）」などの一般的な単語が無視されることに留意されたい。さらに、コンピュータ言語命令およびハイパーテキストヘッダも、ページのスコアリングの精度を高めるために無視される。

その後、プロセスはステップ５３０に進み、ここで、各単語対および単語近接の現在のスコア（１０００）を、単語関連性テーブルに既に格納されている同一の単語対および単語近接を用いて平均化する。したがって、スポーツカテゴリのトレーニングを行っており、単語近接「クリーブランドブラウンズ」が現在のページ内で見つかった場合に、スポーツカテゴリ内で１０５の単語近接値を割り当てることができる。しかし、用語「クリーブランドブラウンズ」が、スポーツカテゴリ内で既に８９の値でスコアリングされている場合には、１０５の値と８５の値の平均をとって、スポーツカテゴリに対する単語近接スコアを正規化する。したがって、このシステムを用いると、あるカテゴリで何度も使用される単語を、「アップトレーニング」することができる。その結果、スコアリングされるより多くのページに関連性スコアが現れるので、選択されたカテゴリに関するその関連性スコアが高くなる。さらに、このシステムは、複数のサイトを同時に並列処理することができることを理解されたい。

その後、プロセス５００は、ステップ５３４に進み、ここで、トレーニング中のカテゴリのアルファスコアおよびベータスコアを決定する。アルファスコアは、それを超える時に、選択されたページが明らかにカテゴリ内にあることを示す数値スコアである。ベータスコアは、それを超える時に、選択されたページがカテゴリ内にある可能性があることを示す数値スコアである。上で述べたように、アルファスコアは、通常は、そのスコアを有するページの９９％が選択されたカテゴリに含まれるように選択される。ベータスコアは、通常は、そのスコアを有するページの７５％から８５％が選択されたカテゴリに含まれるように選択される。これらのスコアは、カテゴリ内でトレーニングされたページの平均スコアを分析して、新しいページのカットオフ値を判定することによって決定される。

その後、ステップ５３６で、単語関連性スコアを、トレーニングデータベース１２５内の単語関連性テーブル２１０に格納する。その後、判断ステップ５４０で、トレーニングを必要とするページがまだあるかどうかを判定する。ページがもうない場合には、プロセス５００は、終了ステップ５４４で終了する。ページがまだあると判定された場合には、プロセス５００は、ステップ５５０に進み、ここで、次に分析されるページを選択する。その後、ステップ５２０でページの単語数をカウントし、上記のように処理を継続する。

上記のプロセス５００により、あるインターネットページで見つかる可能性がある単語対および単語近接のすべてに関する正規化された単語関連性を含む単語関連性テーブルが確立される。新しいページを分析し、ページ内の各単語の関連性を一緒に加算することによって、特定のページのページ関連性スコアをシステム内の所定のカテゴリのそれぞれに割り当てる自動システムが提供される。したがって、多数のページを分析することによって特定のカテゴリがトレーニングされた後に、このシステムは、所定のカテゴリのそれぞれに対する関連性に関して、新しいページを素早く分析することができる。すでに図２により説明したように、ページ取出モジュール１１０が、新しいインターネットページを取り出し、それらをスコアリングのために分析モジュール１２０に送るのに使用される。

図８は、インターネットからページを取り出すプロセス６００を示すフローチャートである。プロセス６００は、開始ステップ６０２で開始され、その後、ステップ６０６に進み、ここで、最初にカテゴリ化するサイトのアドレスを、カテゴリ化されたウェブデータベース３０からのアドレスのランダムアクセスによって決定する。最初にカテゴリ化するサイトのアドレスをステップ６０６で決定した後に、プロセス６００は、ステップ６１０に進み、ここで、インターネットサイトの最初のページを読み取る。このプロセスは、その後、ステップ６１２に進み、ここで、読み取られたページを分析モジュール１２０に転送し、その結果、ページの単語対および単語近接が、所定のカテゴリに対する関連性について分析されるようにする。

その後、プロセス６００は、現在のサイトに分析すべきページがまだあるかどうかを判定するために、判断ステップ６１６に進む。現在のサイトにもうページがない場合には、プロセス６００は、判断ステップ６２０に進んで、インターネットのサイトが現在分析されているサイトを参照しているかどうかを判定する。現在のサイトによって参照されているサイトがもうない場合には、プロセス６００は、終了ステップ６２４で終了する。

判断ステップ６１６で、分析すべきページがまだある場合には、プロセス６００は、ステップ６３０に進み、ここで、現在のサイトの次のページを読み取る。プロセスは、その後、ステップ６１２へ戻り、ここで、新しいページを分析モジュール１２０に送る。

判断ステップ６２０で、現在のサイトを参照するサイトがあると判定された場合には、プロセス６００は、ステップ６３２に進み、ここで、システムが、最初の参照されるサイトのアドレスをポイントする。その後、プロセス６００は、新たに取り出されたインターネットサイトの最初のページを読み取るためにステップ６１０に戻る。

図９は、延期されたインターネットサイトをストレージ２８０に保存するプロセス７００を示すフローチャートである。プロセス７００は、開始ステップ７０２で開始され、その後、ステップ７０４に進み、ここで、特定のサイトへのアクセスを延期するユーザから、延期モジュール２５０によって、要求を受け取る。この要求は、ユーザが、日中にブロックされるものとして指定されたカテゴリ内のサイトにアクセスする時に、普通に行われることに留意されたい。しかし、そのサイトに、たとえばログインプロシージャを介して夜にアクセスすることができる。

したがって、ユーザが日中にアクセスを試みる時には、延期モジュール２５０が、要求をサイトのカテゴリ化されたデータベースと比較して、そのサイトが、たとえば昼間の時間中にブロックされるものとして指定されたカテゴリに含まれるかどうかを判定する。サイトがそのようなカテゴリに含まれることがわかった場合には、システムが、そのサイトへのアクセスを延期することを望むかどうかという質問を、要求しているユーザに送る。ユーザが、サイトアクセスを延期されることを要求する場合には、プロセス７００は、ステップ７０８に進み、ここで、クッキー分析モジュール２７０が、ユーザのシステム上のクッキーを検索する。もちろん、ユーザがサイトへのアクセスを止められる特定の時間を、必要に応じてプログラムできることを理解されたい。たとえば、ユーザによるあるカテゴリのインターネットサイトへのアクセスを、午前８時から正午まで止め、正午以降はフルアクセスを許可することができる。

その後、プロセス７００は、判断ステップ７１０に進んで、ユーザ特有の識別番号を持つクッキーが、ユーザのコンピュータで見つかるかどうかを判定する。クッキーが見つかった場合には、プロセス７００は、ステップ７１２に進み、ここで、ユーザの識別番号をクッキーから読み取る。プロセス７００は、その後、ステップ７１６に進み、ここで、ユーザ識別番号および延期されたサイトのアドレスをストレージ２８０に保存する。

判断ステップ７１０で、クッキーがユーザのシステムで見つからないと判定された場合には、プロセス７００は、ステップ７２２に進み、ここで、ユーザ登録情報をユーザに要求する。その後、ステップ７２６で特有のユーザ識別番号が生成され、プロセス７００は、その後、ユーザ識別番号と延期されたサイトのアドレスをストレージ２８０に保存する。プロセスは、その後、終了ステップ７２０で終了する。

ストレージが、要求されたサイトからの実際のページをストレージ２８０に保存することが好ましいことを理解されたい。したがって、ユーザには、延期管理システム４４に入った後に、要求されたサイトのコピーへのアクセスが提供される。そのサイトは、管理システム４４に保存されるので、ユーザによるアクセスを、システム４４内のアクセス設定により制御することができる。したがって、ユーザは、システム１０によってまだブロックされる可能性がある、インターネットのオリジナルのサイトへのアクセスを試みる必要がない。

図１０は、延期されたサイトを見るプロセス８００を示すフローチャートである。このプロセス８００は、開始ステップ８０２で開始され、その後、ステップ８０４に進み、ここで、ユーザが、延期管理システム４４にアクセスする。その後、プロセス８００は、ステップ８０８に進み、ここで、ユーザのシステムに保存されているクッキーからユーザの識別番号を読み取る試みが行われる。判断ステップ８１０で、ユーザのシステムでクッキーが見つかったかどうかを判定する。判断ステップ８１０で適当なクッキーが見つかった場合には、ユーザに、ストレージ２８０内に保存されているサイトのデータベースへのアクセスが与えられる。上述のように、保存されたサイトは、ストレージ２８０内に格納されている。

判断ステップ８１６で、要求されたユーザ識別番号に関して適当なサイトが見つかったかどうかを判定する。サイトがストレージ２８０内で見つかった場合には、プロセス８００は、ステップ８２０に進み、ここで、そのユーザ識別番号に関して保存されたサイトのリストを作成する。その後、プロセス８００は、終了ステップ８２４で終了する。

判断ステップ８１０で、ユーザのシステムでクッキーが見つからないと判定された場合には、プロセス８００は、ステップ８２８に進み、ユーザに、延期されたサイトにアクセスするためのユーザ識別番号およびパスワードを入力するように促す。

判断ステップ８１６で、ストレージ２８０内でユーザに関するサイトが見つからないと判定された場合には、ステップ８３０でエラー処理ルーチンを実行し、プロセスはステップ８０４に戻る。

図１１は、タイマクォータプロセス８５０を示すフローチャートである。タイマクォータプロセス８５０は、開始ステップ８５２で開始され、その後、ステップ８５４に進み、ここで、インターネットページまたはサイトに関する要求を受け取る。ステップ８５８で、カテゴリ化されたデータベース３０を参照することによって、ページまたはサイトのカテゴリを判定する。プロセス８５０は、その後、ステップ８６０に進み、ここで、サイトの選択されたカテゴリのタイマクォータパラメータを検索し取り出す。たとえば、ユーザがスポーツカテゴリ内で、たとえば３０分だけ費やすことができることを示すクォータパラメータが、ステップ８６０で取り出される可能性がある。

プロセス８５０は、その後、ステップ８６２に進み、ここで、ユーザがこのカテゴリ内のページまたはサイトを見て費やした時間の総量を、ストレージ２５８から取り出す。その後、判断ステップ８６４で、このユーザのタイムクォータが、ステップ８６０で取り出されたクォータパラメータを超えたかどうかを判定する。

タイムクォータが超えていないと判定された場合には、ステップ８６６で、要求されたページまたはサイトが取り出され、ステップ８６８でタイマが開始される。判断ステップ８７０で、ユーザが、要求されたサイトのアクセスを継続しているかどうかを判定する。ユーザが要求されたサイトのアクセスを継続していると判定された場合には、プロセス８５０は、判断ステップ８６４に戻って、タイムクォータを満たしたかどうかを判定する。

ユーザがもはや要求されたサイトにアクセスしていないと判定された場合には、プロセス８５０は、ステップ８７４に進む。タイマが終了される時に、プロセス８５０は、インターネットサイトで費やされた経過時間を、そのカテゴリのユーザの総時間に加算する。

判断ステップ８６４で、タイマクォータを満たしたと判定された場合には、ステップ８８４でその事実に関する通知をユーザに送り、プロセスは終了ステップ８８０で終了する。タイムクォータを満たした場合に、プロセス８５０が、要求されたページまたはサイトを取り出すステップ８６６をスキップすることに留意されたい。したがって、タイムクォータを満たした後に、ユーザは、要求されたサイトへのアクセスを禁止される。これによって、限られた時間の期間についてのみサイトにアクセスできるように、ユーザを制限する機構が提供される。

各カテゴリが、それ自体の限界を備え、その結果、あるカテゴリで時間を費やすことが、異なるカテゴリでのユーザの総クォータ時間に影響しないことに留意されたい。したがって、会社の経営者が、たとえば、スポーツカテゴリ内のサイトについて１５分のクォータ、インターネット商取引カテゴリ内のサイトについて１日１時間の時間制限をセットすることができる。

図１２は、ユーザが要求したサイトがブロックされるカテゴリに含まれることをユーザに通知するとともに、サイトへのアクセスを継続することを許可するプロセス９００を示すフローチャートである。このプロセス９００は、開始ステップ９０２で開始され、ステップ９０４に進み、ここで、サイト管理モジュール２６が、インターネットサイトにアクセスする要求を受け取る。判断ステップ９０８で、要求されたサイトがカテゴリ化されたデータベース３０内にあるかどうかを判定する。サイトがカテゴリ化されたデータベース３０内にあると判定された場合には、プロセス９００は、ステップ９１０に進み、この時に警告ページがユーザに送られる。この警告ページ内には、要求されたサイトが会社の経営者によってブロックされたことと、さらなるアクセスが記録され、ユーザの管理者に転送されるということの声明がある。

その後、プロセス９００は、判断ステップ９１２に進み、ユーザが自分のアクセスが管理者によって追跡されるということを認識したにもかかわらず、それでもユーザがそのサイトへのアクセスを要求するかどうかを判定する。ユーザがそれでもアクセスを要求していると判定された場合には、プロセス９００は、ステップ９１４に進み、ここで、ユーザのサイト要求、ユーザ名、日付および時刻をファイルに記録する。その後、要求されたサイトまたはページが、ステップ９１８でインターネットから取り出され、プロセス９００は、終了ステップ９２０で終了する。

判断ステップ９０８で、サイトがカテゴリ化されたデータベース３０内にないと判定された場合には、プロセス９００は、直接にステップ９１８にスキップし、ここで、要求されたサイトまたはページをユーザのために取り出す。

判断ステップ９１２で、ユーザが、ステップ９１０で警告ページを受け取った後に、ブロックされたサイトへのアクセスを要求しないと判定された場合には、プロセス９００は、要求されたサイトを取り出さずに、終了ステップ９２０で終了する。

図１３は、クォータモジュール２５４内で動作する数値クォータプロセス９５０を示すフローチャートである。このプロセスは、ユーザがインターネット上の特定のサイトにアクセスした回数を追跡するのに使用される。したがって、プロセス９５０は、ステップ９５２で開始され、ステップ９５４に進み、ここで、特定のインターネットページの要求を、ユーザから受け取る。その後、プロセス９５０は、ステップ９５８に進み、ここで、要求されたサイトのカテゴリを、カテゴリ化されたデータベース３０を参照することによって判定する。

その後、プロセス９５０は、要求されたサイトのカテゴリに関連するクォータパラメータを、クォータモジュール２５４から取り出す。したがって、ユーザが、スポーツカテゴリに含まれると判定されたサイトへのアクセスを要求する場合に、ステップ９６０で、スポーツカテゴリに関するクォータパラメータが取り出される。たとえば、クォータパラメータは、ユーザが、２４時間の期間内で選択されたカテゴリ内のサイトに１０回、２０回、３０回、４０回、５０回またはそれ以上のアクセスを許可されることとすることができる。

その後、プロセス９５０は、ステップ９６４に進み、ここで、このカテゴリのインターネットサイトへのアクセスの総数を、ストレージ２５８から取り出す。この値を、カテゴリ化されたサイト管理モジュール２６内で実施されるクォータシステムに基づいて、毎日、毎週または毎月、０にセットすることができることに留意されたい。

判断ステップ９６８で、ユーザのクォータを超えたかどうかを判定する。ユーザのクォータを超えていない場合には、プロセス９５０は、ステップ９７０に進み、ここで、ページまたはサイトを取り出す。その後、プロセス９５０は、ステップ９７２で、ストレージ２５８内に保存されたカウンタに１を加算し、プロセス９５０は、終了ステップ９７４で終了する。

判断ステップ９６８で、このカテゴリのサイトへのアクセスの回数に関して、ユーザのクォータがその回数を超えたと判定された場合には、プロセス９５０は、ステップ９７８に進み、ここで、ユーザのクォータ最大回数を超えたという通知をユーザに送る。その後、プロセス９５０は、終了ステップ９７４で終了する。

例１
トレーニングデータの正規化
上述のように、異なるウェブサイトのソースページは、異なる数の単語を有する。これが単語対および単語近接のトレーニングプロセスに影響する可能性がある。というのは、単語数の少ないインターネットサイトが、より少数の単語を有するサイトより単語対および単語近接に対するより高い関連性を強制する可能性があるからである。たとえば、それぞれソースページに１０個および５００個の単語対を有する２つのページ、ＡおよびＢを検討されたい。各サイトが、０の現在のページスコア（Ｓｃ）と１０００のターゲットページスコア（Ｓｔ）を有すると仮定する。現在のトレーニングアルゴリズムは、次の式の形になる。

（Ｅ１）Ｗｒｎ＝Ｗｒｃ＋Ｉ
ここで、Ｗｒｎは、新しい単語対の関連性であり、Ｗｒｃは、現在の単語対の関連性であり、Ｉは、ページが即座に再スコアリングされる場合にそのスコアがターゲットスコアと等しくなるように、各単語対の関連性を増分しなければならない量である。Ｉは、現在のスコアをとり、ターゲットスコアから引き、ページの単語対の総数（Ｗｔ）で割ることによって求めることができる。その式は次のようになる。

（Ｅ２）Ｉ＝（Ｓｔ−Ｓｃ）／Ｗｔ
新しい単語対関連性を見つけるためには、現在の関連性を増分値に加算する必要がある。新しい単語対関連性の式は、次のようになる。

（Ｅ３）Ｗｒｎ＝Ｗｒｃ＋［（Ｓｔ−Ｓｃ）／Ｗｔ］
上の式を使用して、サイトＡおよびＢの単語対関連性を計算することによって、次の結果が得られる。

（Ｅ４）Ｗｒｎ（Ａ）＝０＋［（１０００−０）／１０］＝１００（注：Ｉ＝１００）
（Ｅ５）Ｗｒｎ（Ｂ）＝０＋［（１０００−０）／５００］＝２（注：Ｉ＝２）
これらの結果を解釈すると、１ラウンドのトレーニングの後に、選択されたカテゴリに対して、サイトＡの１０個の単語対のそれぞれが、１００の関連性を有し、サイトＢの５００個の単語対のそれぞれが、２の関連性を有する。

これらの２つのサイトが、特定のカテゴリのトレーニングに対して、同等に「適する」と判定された場合に、論理的には、この２つのサイトが、他のページからの単語対に同一の度合まで影響しなければならない。しかし、この時点では、そうではない。そうではなく、１０個の単語対を有するサイトが、５００個の単語対を有するサイトより５０００％ほどまで、見つかる単語の重みに影響する可能性がある。その代わりに、ページに現れる単語数に無関係に、単語対を「均等に」増分するシステムが望ましい。

各単語対が増分される量を正規化する方法が、有利である。Ｅ４およびＥ５の結果を使用すると、各単語対を増分することができる最小量および最大量が、それぞれ１００および２になる。最小関連性スコアと最大関連性スコアが互いに近づくことが求められているので、中間点の定理を使用してこれらの平均をとることができる。

Ｍｐ＝（ｐ１＋ｐ２）／２、ただし、Ｍｐは中間点、ｐ１は点１、ｐ２は点２である。

最小増分と最大増分の間の中間点が、次式であることが分かる。

（Ｅ６）Ｍｐ＝［Ｉ（Ａ）＋Ｉ（Ｂ）］／２
Ｅ４およびＥ５式の値を使用すると、
（Ｅ７）Ｍｐ＝［１００＋２］／２＝１０２／２＝５１
になる。

したがって、各サイトについて関連性スコアを中間点に向けて調整するのに使用しなければならない「調整定数」の判定は、次の２つの式に依存する。

（Ｅ８）Ｉ（Ａ）×ＡｄｊＣｏｎ（Ａ）＝ＭｐまたはＡｄｊＣｏｎ（Ａ）＝Ｍｐ／Ｉ（Ａ）
（Ｅ９）Ｉ（Ｂ）×ＡｄｊＣｏｎ（Ｂ）＝ＭｐまたはＡｄｊＣｏｎ（Ｂ）＝Ｍｐ／Ｉ（Ｂ）
置換すると
（Ｅ１０）ＡｄｊＣｏｎ（Ａ）＝５１／１００＝．５１
（Ｅ１１）ＡｄｊＣｏｎ（Ｂ）＝５１／２＝２５．５
になる。

したがって、１０単語では、増分に０．５１をかけて、中間点値５１に達しなければならない。同様に、５００単語では、増分値に２５．５をかけて、中間点値５１に達する必要がある。この論理を使用して、トレーニング正規化定数Ｎｔを定式化することができる。Ｎｔを計算する式は次の通りである。

（Ｅ１２）Ｗｔ（Ｘ）×Ｎｔ＝ＡｄｊＣｏｎ（Ｘ）またはＮｔ＝ＡｄｊＣｏｎ（Ｘ）／Ｗｔ（Ｘ）
１０単語の最小値（Ｗｔ（Ａ）＝１０）と５００単語の最大値（Ｗｔ（Ｂ）＝５００）について、トレーニング正規化定数は次のようになる。

（Ｅ１３）Ｎｔ＝ＡｄｊＣｏｎ（Ａ）／Ｗｔ（Ａ）＝０．５１／１０＝０．０５１
（Ｅ１４）Ｎｔ＝ＡｄｊＣｏｎ（Ｂ）／Ｗｔ（Ｂ）＝２５．５／５００＝０．０５１
１０単語と５００単語の間の単語の範囲を有するトレーニング正規化定数は、０．０５１である。この定数の重要性を、これから示すことができる。この例で１ラウンドのトレーニング後のページの総スコアＳｎは、次式を使用して求めることができる。

（Ｅ１５）Ｓｎ＝Ｗｔ×Ｎｔ×（Ｓｔ−Ｓｃ）／Ｔｐ
ここで、Ｔｐは、単語組合せの可能性の総数である。

可能性の総数が、グループ化および単語をサイクルする形などに依存することに留意されたい。たとえば、ページが１００単語を有する場合に、１０単語のグループをとり、５の増分でサイクルすることができる。これを考慮に入れると、Ｔｐの式が、次のようになる。

Ｔｐ＝（Ｗｔ／Ｗｉ−１）×（Ｗｇ）！／［（Ｗｇ−ｋ）！（ｋ）！］
ここで、ｋは、ｋ−セットであり、単一単語の場合にｋ＝１、単語対の場合にｋ＝２、単語３つ組の場合にｋ＝３などである。Ｗｇは、単語グループ化であり、Ｗｔは、単語総数であり、Ｗｉは、単語増分（またはサイクル）である。上記の例では、ＷｔがＴｐと等しい。これによって、本明細書に示される例が簡約されるが、ｋ＞１の時には、必ずしもそうではない。

Ｗｔ＝Ｔｐの特殊な場合において、各単語の関連性スコアが増やされる量は、次式になる。

（Ｅ１６）Ｎｔ×（Ｓｔ−Ｓｃ）または０．０５１×（Ｓｔ−Ｓｃ）
これは簡約された例であるが、トレーニングプロセスでの単語スコア正規化の基本原理を示すものである。ｋ＞１（または単一単語カウント以外の何か）の場合に、ＷｔがＴｐと等しくないことに留意されたい。

この正規化プロセスが、特定のサイトに関連する字句要素のトレーニング（アップトレーン）に使用可能であるだけではなく、特定のサイトに関連しない字句要素のトレーニング（ダウントレーン）にも使用できることも理解されたい。アップトレーニングセッション中に、あるページの字句要素の単語関連性スコアが、指定されたカテゴリ内で増やされて、それらがそのカテゴリにより強く関連することが示される。

ダウントレーニングセッション中に、あるページの字句要素の単語関連性スコアが減らされて、それらが選択されたカテゴリにより弱く関連することが示される。したがって、ページをダウントレーニングするために、正規化定数を計算して、各ページのスコアが、たとえば５００のスコアまで、下に移動することを理解されたい。このように、ページの各字句要素は、正規化定数が掛けられて、ページ関連性スコア値が低くなる。

しかし、どちらの場合でも、各単語関連性スコアが変化する量を正規化し、その結果、より少ない字句要素を有するページが、そのページで見つかる単語関連性により大きく影響しないようにすることが好ましい。

例２
インターネットページスコアリングの正規化
単語、単語対および単語近接が、ほぼ同一の値だけ「トレーニングアップ」され、その結果、それぞれが徐々に大きくなる関連性スコアを有するようになる場合に、それがページスコアリング処理にどのような影響を及ぼすであろうか。２つのサイトＡおよびＢが、それぞれ１０個および５００個の単語を有すると仮定する。各サイトが、１ラウンドのトレーニングの前に０のスコアを有し、ターゲットスコアは１０００である。単一の単語を扱うので、Ｋ＝１であり、Ｗｔ＝Ｔｐである。式１６を使用して、各単語を増分する量が下記であることが分かる。
（Ｅ１７）０．０５１×（Ｓｔ−Ｓｃ）＝０．０５１×（１０００−０）＝５１
各単語が、５１ポイント増やされた場合に、１ラウンドのトレーニングの後の各ページのスコアは、そのページの単語数の５１倍になるはずである。各ページのスコアは、次のようになる。

（Ｅ１８）Ｓｃｏｒｅ（Ａ）＝１０×５１＝５１０
（Ｅ１９）Ｓｃｏｒｅ（Ｂ）＝５００×５１＝２５５００
明らかに、これらのスコアは、互いに近くはない。数だけに基づいて判断すると、サイトＢが、サイトＡよりはるかに強くカテゴリに関連するように見える。しかし、この両方が、同一のカテゴリをトレーニングするのに使用された。その結果、これらは、１ラウンドのトレーニングの後に類似する値を有しなければならない。変化する個数の単語を有するページから作られる可能性があるスキューを考慮に入れるシステムが必要である。

達成が求められているのは、ページに現れる単語の数に基づいてページのスコアを正規化する手段を作成することである。式１８および１９を使用して、サイトの最大スコアおよび最小スコアを近似することができる。最大値と最小値がそれぞれ近づくことが求められているので、下記の中間点の式を使用してそれらの中間点を見つけることができる。

（Ｅ２０）（５１０＋２５５００）／２＝１３００５
このデータのセットの「調整変数」を求めるためには、中間点スコアを実際のスコアで割る必要がある。

（Ｅ２１）Ｎｓ（Ａ）＝１３００５／５１０＝２５．５（注：Ｗｔ＝１０）
（Ｅ２２）Ｎｓ（Ｂ）＝１３００５／２５５００＝０．５１（注：Ｗｔ＝５００）
ここで、点（１０単語、２５．５）および（５００単語、０．５１）がわかっている。さらに点（２５５、１）、（１３２、１．９３１８１８）および（３７８、０．６７４６０３）を求め、これらをプロットすると、次式を有する傾向線を有する順序付けられたデータセットが得られる。

（Ｅ２３）ｙ＝２５５×ｘ＾−１
Ｎｓ（Ｗｔ）でｙ（単語のセット数に対するスコア正規化因子）、Ｗｔ（総単語数）でｘを置換する。次式が得られる。

（Ｅ２４）Ｎｓ（Ｗｔ）＝２５５×（Ｗｔ）＾−１
１０単語および５００単語を有するサイトＡおよびＢについて、
（Ｅ２５）Ｎｓ（１０）＝２５５×（１０）＾−１＝２５．５
（Ｅ２６）Ｎｓ（５００）＝２５５×（５００）＾−１＝０．５１
である。

一般に、スコアリングの式は、次のようになる。

（Ｅ２７）正規化されたスコア（サイトＸ）＝Ｎｓ（Ｗｔ（サイトＸ））×オリジナルスコア（サイトＸ）式１８および１９からの結果を使用すると、サイトＡおよびサイトＢのスコアは、それぞれ５１０および２５５００であった。正規化されたスコア技法を使用すると、１ラウンドのトレーニングの後に、これらのサイトのスコアが、次のようになる。

（Ｅ２８）正規化されたスコア（Ａ）＝Ｎｓ（Ｗｔ（Ａ））×スコア（Ａ）＝２５．５×５１０＝１３００５
（Ｅ２９）正規化されたスコア（Ｂ）＝Ｎｓ（Ｗｔ（Ｂ））×スコア（Ｂ）＝０．５１×２５５００＝１３００５
これらのサイトは、トレーニングの後に同一のスコアを有する。これによって、カテゴリのトレーニングに使用されるサイトが類似するスコアを有しなければならないという論理が支持される。これらの式を、例１で示したトレーニングデータの正規化と組み合わせることによって、トレーニングセット内に異なる単語数を有するサイトを有することによって引き起こされる誤差が最小になる。

例３
ページのスコアリング
約８０００サンプルが、提案データベースのカテゴリ２（またはセックス２）からのサイトから収集された。これらの潜在的なカテゴリ２サイトは、ウェブ分析家によって事前に検査されて、それらが実際に、主に性的またはポルノグラフィ的な性質のインターネットサイトであるかどうかが判定された。セックスサイトとして検証されたサイトに、８のスコアが割り当てられ、セックスサイトでないと判定されたサイトに、７のスコアが割り当てられた。カテゴリ化システムは、全部で８０００のサイトにカテゴリ２のカテゴリレーティングを割り当てた。

この調査の目的は、カテゴリ化システムが、８および７としてレーティングされたサイト、または、それぞれ許容されるサイトおよび削除されるサイトを区別できるかどうかを判定することであった。削除されるサイトが、セックスカテゴリ内にカテゴリ化されてはならないサイトであり、許容されるサイトが、このカテゴリ内であると確認されるサイトであることに留意されたい。仮定は、８としてのサイトレートの平均スコアが、７としてレーティングされたサイトの平均スコアと統計的に異なるということである。想像されるように、許容されるサイトの平均値（８）は、削除されるサイトの平均値（７）より大きく、その差は有意であった。しかし、２つのグループの間にオーバーラップがあった。この結果は、伴う誤りを最小にするために、カットオフ点を使用することができることを示している。

アルファ点＝Ａｐ＝Ｍ７＋４（ＳＤ７）＝９２９＋４（４８２）＝２８５７
ベータ点＝Ｂｐ＝Ｍ７＋１（ＳＤ７）＝９２９＋１（４８２）＝１４１１
２８５７のアルファ点を使用することによって、９９％以上のソーティング精度が得られることが分かった。アルファスコアを超えるがセックスカテゴリに属さないサイトは、９つだけであった。そのうちの７つは、単純な誤りであり、おそらくはカテゴリ２サイトの不十分なトレーニングに帰するものと推定された。

そのうちの２つは、意図的な策略であり、インターネットサイトが、メタタグで注意を引くためにセックス関連用語を使用したことを意味する。２８５７のアルファ点を使用したソーティング精度の正確なパーセンテージは、したがって、９９．３０％であった。このように、このテストによれば、このアルファ点を超えるスコアを有する１０００個のサイトが入力された場合に、平均して、７つだけの誤りと、９９３個の正しくソートされたサイトがある。

しかし、アルファ点は非常に高く設定されるので、実際にはセックス指向である多くのサイトが、全くカテゴリ化されない。２８５７のアルファ点を使用すると、許容されるサイトの包含レベルは４９．８０％にすぎない。これは、カテゴリ２に含まれなければならない１０００個のサイトのうちで、４９８個が見つかり、５０２個が見逃されることを意味する。

このため、このシステムでは、ベータ点の作成により、各カテゴリへのより低い関連性を有するサイトも監視する。１４１１のベータ点を使用すると、包含レベルが、４９．８０％から８１．７６％に上がる。見逃されるサイトの数は、５０２から１８３サイトに下がり、見つかる数が、４９８から８１７に上がる。したがって、アルファ点とベータ点の両方の使用によって、新しいサイトのより正確なスコアリングがもたらされる。

例４
増分によるトレーニングデータの正規化
トレーニングデータを正規化する方法のもう１つの実施の形態を、以下で説明する。まず、トレーニングされるページについて、Ｉｓ＝初期スコア、Ｔｓ＝ターゲットスコアと定義する。
１）たとえば１のテスト増分値を用いて開始する。すべての字句値の関連性の値をテスト値だけ増分する（たとえば：ページに存在するすべての字句値）。
２）このテスト加算の後に、結果のページ関連性スコアを計算する。
３）新しいスコア＝Ｍｓの場合に、増分値Ｉ、（すべての字句要素について）
Ｉ＝（Ｔｓ−Ｉｓ）／（Ｍｓ−Ｉｓ）である。

したがって、ターゲットスコアと現在のスコアとの間の差を、各要素関連性が１つだけ増分される時のスコアの影響で割った値が、ターゲットスコアを達成するための、各要素を増分するのに正しい数である。

したがって、Ｉｓ＝５００かつＴｓ＝１０００の場合に、すべての関連性を１つだけ増分することによって、５５０のページスコアがもたらされ、
Ｉ＝（１０００−５００）／（５５０−５００）
になる。

したがって、１０００のページスコアをもたらすためにページを増分するには、各字句要素について、１０の増分値を使用する必要がある。

一般に、ある値の関連性は、増分定数（Ｉ）×ページでのその要素の出現の回数によって増分される。これは、ある要素があるページに頻繁に現れるほど、その要素がそのページにより関連するという概念の当然の結果である。しかし、この処理は、頻繁に現れるが一般的な単語でない要素の関連性の大きい変動をもたらす。このために、一実施の形態では、各値が、最大で５×増分定数（Ｉ）の増分だけが許可される。

１０システム
２０インターネットゲートウェイシステム
２４インターネットファイヤウォールモジュール
２６カテゴリ化されたサイト管理モジュール
３５インターネット
４０カテゴリ化システム
４２データベース更新システム
４４延期管理システム

Claims

インターネットサイトへのユーザアクセスを制御するシステムに用いられるデータベースの作成方法であって、
前記データベースは、カテゴリ化され、１つ以上のインターネットサイト及び複数のカテゴリを含み、
カテゴリ化された前記データベースが、１つの前記インターネットサイトを、前記カテゴリに対し前記インターネットサイトからの１つの単語対に関する１つのスコア（ただし、前記単語対に関する前記スコアは、複数の前記カテゴリ毎に異なる）によって少なくとも部分的に定義された関連性スコア、及び前記カテゴリに関する第１の所定値及び第２の所定値（ただし、前記第１の所定値が前記第２の所定値より大きい）に基づいて、１つのカテゴリと関連付けるプロセスを実行する１つ以上のモジュールによって作成されるものであり、前記プロセスが、
前記インターネットサイトからの１つ以上の字句要素によって、前記関連性スコアを少なくとも部分的に定義するステップ、
前記関連性スコアが前記第１の所定値より大きい場合には、前記カテゴリを前記インターネットサイトと関連付けるステップ、
前記関連性スコアが前記第２の所定値以下の場合には、前記インターネットサイトと前記カテゴリとの関連付けを行わないステップ、及び
前記関連性スコアが前記第２の所定値より大きく、前記第１の所定値以下の場合には、前記インターネットサイトと前記カテゴリとを関連付けるべきか否かを判定する追加分析のために、前記インターネットサイトを識別するステップを含む、
インターネットサイトへのユーザアクセスを制御するシステムに用いられるカテゴリ化されたデータベースの作成方法。
インターネットサイトへのユーザアクセスを制御するシステムであって、
請求項１に記載されたデータベースの作成方法によって作成された、カテゴリ化されたデータベースと、
ユーザから要求されたインターネットサイトを読み取り、前記要求されたインターネットサイトに関連する前記カテゴリ化されたデータベースからカテゴリを判定するように構成された第１モジュールと、
前記カテゴリが前記ユーザに対して制限されているかどうかを判定し、前記カテゴリが第１の制限されているグループ内にある場合には、前記カテゴリに基づく所定のオプションを実施し、前記カテゴリが第２の制限されているグループ内にある場合には、前記要求されたインターネットサイトへのアクセスをブロックし、前記カテゴリが制限されていない場合に、前記要求されたインターネットサイトへのアクセスを許可するように構成された第２モジュールと
を含むシステム。
前記所定のオプションが、ユーザが前記カテゴリ内のインターネットサイトで事前にセットされた時間を費やしたかどうかを判定することと、該判定に対応して、前記ユーザの前記インターネットサイトへのそれ以上のアクセスをブロックすることとである、請求項２に記載のシステム。
前記所定のオプションが、ユーザが前記カテゴリ内のインターネットサイトへの延期されたアクセスを要求するかどうかを判定することと、該判定に対応して、前記要求されたインターネットサイトからのページをストレージに保存することとである請求項２に記載のシステム。
前記ストレージが、ハードディスクである請求項４に記載のシステム。
前記所定のオプションが、ユーザが前記カテゴリ内の他のインターネットサイトを所定の回数だけ要求したかどうかを判定することと、該判定に対応して、前記ユーザの前記インターネットサイトへのそれ以上のアクセスをブロックすることとである、請求項２に記載のシステム。
前記所定のオプションが、ユーザが前記カテゴリ内のインターネットサイトにアクセスしたかどうかを判定することと、その後、前記ユーザに、すべてのインターネットアクセスがログファイルに保存されることを通知することとである、請求項２に記載のシステム。
前記カテゴリ化されたデータベースが、前記ユーザのコンピュータシステムに保存される、請求項２に記載のシステム。
前記カテゴリ化されたデータベースが、前記ユーザのコンピュータシステムにリンクされたインターネットサービスプロバイダのコンピュータに保存される、請求項２に記載のシステム。
前記第１モジュールが、前記ユーザによって要求されたユニバーサルリソースロケータ（ＵＲＬ）アドレスを読み取るように構成されている、請求項２に記載のシステム。
前記カテゴリが、アダルトエンターテイメント、エンターテイメント、スポーツ、政治、宗教、ショッピングおよび旅行からなるグループから選択されるものである、請求項２に記載のシステム。
次の機能を実行することにより、コンピュータに、請求項２に記載されたシステムにおける処理を実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
１つ以上のインターネットサイト及び複数のカテゴリを含み、１つの前記インターネットサイトが、前記カテゴリに対し前記インターネットサイトからの１つの単語対に関する１つのスコア（ただし、前記単語対に関する前記スコアは、複数の前記カテゴリ毎に異なる）によって少なくとも部分的に定義された関連性スコア、及び前記カテゴリに関する第１の所定値及び第２の所定値（ただし、前記第１の所定値が前記第２の所定値より大きい）に基づいて、１つのカテゴリと関連付けられ、カテゴリ化されたデータベースを、
前記インターネットサイトからの１つ以上の字句要素によって、前記関連性スコアを少なくとも部分的に定義するステップ、
前記関連性スコアが前記第１の所定値より大きい場合には、前記カテゴリを前記インターネットサイトと関連付けるステップ、
前記関連性スコアが前記第２の所定値以下の場合には、前記インターネットサイトが前記カテゴリと関連付けを行わないステップ、及び
前記関連性スコアが前記第２の所定値より大きく、前記第１の所定値以下の場合には、前記インターネットサイトと前記カテゴリとを関連付けるべきか否かを判定する追加分析のために、前記インターネットサイトを識別するステップ、
により提供することと、さらに、
ユーザから要求された前記インターネットサイトを読み取ることと、
前記要求されたインターネットサイトに関連する前記カテゴリ化されたデータベースからカテゴリを判定することと、
該カテゴリが前記ユーザに対して第１の制限されているグループ内にあるかどうかを判定することと、
前記第１の制限されているグループ内にある場合には、前記カテゴリに基づいて所定のオプションを実施することと、
前記カテゴリが前記ユーザの第２の制限されているグループ内にあるかどうかを判定することと、
前記第２の制限されているグループ内にある場合には、前記要求されたインターネットサイトへのアクセスをブロックすることと、
前記カテゴリが制限されていない場合に、前記要求されたインターネットサイトへのアクセスを許可することと
を実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
前記所定のオプションが、ユーザが前記カテゴリ内のインターネットサイトで事前にセットされた時間を費やしたかどうかを判定することと、該判定に対応して、前記ユーザの前記サイトへのそれ以上のアクセスをブロックすることとである、請求項１２に記載のコンピュータ読み取り可能な記録媒体。
前記所定のオプションが、ユーザが前記カテゴリ内のインターネットサイトへの延期されたアクセスを要求するかどうかを判定することと、該判定に対応して、前記要求されたインターネットサイトからのページをストレージに保存することとである、請求項１２に記載のコンピュータ読み取り可能な記録媒体。
前記ストレージへの保存が、ハードディスクへの保存である請求項１４に記載のコンピュータ読み取り可能な記録媒体。
前記所定のオプションが、ユーザが前記カテゴリ内の他のインターネットサイトを所定の回数だけ要求したかどうかを判定することと、該判定に対応して、前記ユーザの前記サイトへのそれ以上のアクセスをブロックすることとである、請求項１２に記載のコンピュータ読み取り可能な記録媒体。
前記所定のオプションが、ユーザが前記カテゴリ内のインターネットサイトにアクセスしたかどうかを判定することと、その後、前記ユーザに、すべてのインターネットアクセスがログファイルに保存されることを通知することとである、請求項１２に記載のコンピュータ読み取り可能な記録媒体。
前記カテゴリ化されたデータベースが、前記ユーザのコンピュータシステムに保存される、請求項１２に記載のコンピュータ読み取り可能な記録媒体。
前記カテゴリ化されたデータベースが、前記ユーザのコンピュータシステムにリンクされたインターネットサービスプロバイダのコンピュータに保存される、請求項１２に記載のコンピュータ読み取り可能な記録媒体。
第１モジュールが、前記ユーザによって要求されたユニバーサルリソースロケータ（ＵＲＬ）アドレスを読み取るように構成されている、請求項１２に記載のコンピュータ読み取り可能な記録媒体。
前記カテゴリが、アダルトエンターテイメント、エンターテイメント、スポーツ、政治、宗教、ショッピングおよび旅行からなるグループから選択されるものである、請求項１２に記載のコンピュータ読み取り可能な記録媒体。