JP2003521065A - インターネットサイトへのアクセスを制御するシステムおよび方法 - Google Patents

インターネットサイトへのアクセスを制御するシステムおよび方法

Info

Publication number
JP2003521065A
JP2003521065A JP2001555349A JP2001555349A JP2003521065A JP 2003521065 A JP2003521065 A JP 2003521065A JP 2001555349 A JP2001555349 A JP 2001555349A JP 2001555349 A JP2001555349 A JP 2001555349A JP 2003521065 A JP2003521065 A JP 2003521065A
Authority
JP
Japan
Prior art keywords
internet
category
user
site
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001555349A
Other languages
English (en)
Other versions
JP2003521065A5 (ja
JP4420589B2 (ja
Inventor
ロン ヘグリ
ジョン カリントン
デビッド アイ
Original Assignee
ウエブセンス インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ウエブセンス インコーポレイテッド filed Critical ウエブセンス インコーポレイテッド
Publication of JP2003521065A publication Critical patent/JP2003521065A/ja
Publication of JP2003521065A5 publication Critical patent/JP2003521065A5/ja
Application granted granted Critical
Publication of JP4420589B2 publication Critical patent/JP4420589B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation

Abstract

(57)【要約】 インターネットサイトへの柔軟なアクセスを提供する方法およびシステム(10)が説明されている。システム10に、カテゴリ化されたインターネットサイトのデータベース30が含まれ、システムは、ユーザがインターネット上でアクセスする情報のカテゴリを判定する(40)。システム10は、ユーザが、特定のカテゴリ内のサイトに制限された回数だけアクセスを許可されるようにもプログラムされる。さらに、ユーザは、延期されたアクセスを要求することができ、この場合、ユーザが要求しているサイトが、サーバに保存され、後にユーザに使用可能になる(44)。さらに、ユーザが、ある所定のカテゴリ内のサイトへのアクセスを選択する場合に、ユーザに、ページを取り出すオプションを提示するとともに、ユーザのアクセスがファイルに記録されることを通知する。

Description

【発明の詳細な説明】
(発明の背景) 発明の分野 本発明は、特定のインターネットウェブサイトおよびページへのアクセスを選
択的にブロックするシステムおよび方法に関する。さらに具体的には、本発明の
実施の形態は、それらのサイトへのエンドユーザアクセスを制御する複数のオプ
ションを管理者に提供する、柔軟なフィルタリングのシステムおよび方法に関す
る。
【0001】 関連技術の説明 インターネットは、コンピュータが一体的にリンクされ、その結果、さまざま
なコンピュータが互いにシームレスに通信できるようになる、全世界的なコンピ
ュータのシステムである。インターネットユーザは、情報ページをダウンロード
し、表示するために、サーバコンピュータにアクセスする。いったんサーバがイ
ンターネットに接続されると、その情報ページは、インターネットにアクセスで
きる事実上すべての人に表示される。
【0002】 インターネットページへの簡単なアクセスとページの安価な検索・読み出しが
、ポルノグラフィなどの不穏当な情報へのアクセスの制御に関するいくつかの問
題を引き起こした。この問題に対する複数の解決策が提案されてきたが、これに
は、親または雇用者が、特定のレーティングを有するインターネットサーバまた
はページへのアクセスを制御できるようにする、映画のレーティングに使用され
るものに似たレーティングシステムが含まれる。残念ながら、この機構は、イン
ターネットサーバを動作させるすべての人が、自発的に自分のサイトのレーティ
ングを行うことを必要とする。インターネットの自由奔放な性質のゆえに、この
種の自発的レーティング方式は、ポルノグラフィを含むものなど、ほとんどの親
または会社がブロックすることを望むサイトへのアクセスを防止するのに非常に
有効になる可能性が低い。
【0003】 レーティング方式に加えて、ブロックされるサイトのユニフォームリソースロ
ケータ(URL)アドレスを含むデータベースが開発された。これらのデータベ
ースは、ネットワークコンピュータシステムおよびインターネットファイヤウォ
ールに統合され、その結果、インターネットへのアクセスを望む人は、まず、自
分のURL要求が、ブロックされるサイトのデータベースに対して突き合わさせ
る。データベース内で見つかったURLには、そのユーザはアクセスできない。
そのようなシステムの1つが、ベーカーらの米国特許第5678041号公報に
記載されている。残念ながら、そのようなシステムは、アクセスされるサイトの
データベースが完全であることに依存する。新しいサーバが、毎日インターネッ
トに追加されており、現在のサーバが新しい情報で更新されるので、これらのデ
ータベースでは、ブロックされなければならないサイトの完全なリストが提供さ
れない。
【0004】 さらに、現在のシステムは、ユーザがいったんブロックされるデータベース内
のサイトを要求すると、ユーザには全く柔軟性が提供されない。したがって、そ
のようなサイトを再検討する正当な理由を有するユーザでも、アクセスを拒否さ
れる。
【0005】 したがって、当技術分野で必要なものは、検索し取り出すことができるサイト
に対する制御を提供するとともに、特定の条件の下で、ブロックされたサイトへ
のアクセスを提供する柔軟性も有する、柔軟なシステムである。本発明は、その
ようなシステムを提供する。
【0006】 (発明の概要) 本発明に係る一実施の形態は、インターネットサイトのカテゴリへのユーザア
クセスを制御するシステムであって、インターネットサイトのカテゴリ化された
データベースと、前記カテゴリ化されたデータベースを参照し、ユーザによって
アクセスされるインターネットサイトのカテゴリを判定する第1モジュールと、
ユーザが前記カテゴリ内のインターネットサイト上で事前にセットされた時間を
費やしたかどうかを判定し、該判定に対応して、前記ユーザの前記インターネッ
トサイトへのそれ以上のアクセスをブロックする第2モジュールとを含むシステ
ムである。
【0007】 本発明に係る別の実施の形態は、インターネット上の特定のサイトへの延期さ
れたアクセスを提供するシステムである。この実施の形態には、インターネット
サイトのカテゴリ化されたデータベースと、該カテゴリ化されたデータベースを
参照し、ユーザによってアクセスされるインターネットサイトのカテゴリを判定
する第1モジュールと、ユーザが前記カテゴリ内のインターネットサイトへの延
期されたアクセスを要求するかどうかを判定し、該判定に対応して、要求された
インターネットサイトからのページをストレージに保存する命令を含む第2モジ
ュールとが含まれる。
【0008】 本発明に係る別の実施の形態は、インターネットサイトのカテゴリへのアクセ
スを制御するシステムであって、インターネットサイトのカテゴリ化されたデー
タベースと、該カテゴリ化されたデータベースを参照し、ユーザによってアクセ
スされるインターネットサイトのカテゴリを判定する第1モジュールと、ユーザ
が前記カテゴリ内のインターネットサイトに所定の回数だけアクセスしたかどう
かを判定し、該判定に対応して、前記ユーザの前記サイトへのそれ以上のアクセ
スをブロックする第2モジュールとを含むシステムである。
【0009】 本発明に係る別の実施の形態は、インターネットサイトへのアクセスを制御す
るシステムであって、インターネットサイトのカテゴリ化されたデータベースと
、該カテゴリ化されたデータベースを参照し、ユーザによってアクセスされるイ
ンターネットサイトのカテゴリを判定する第1モジュールと、ユーザが前記カテ
ゴリ内のインターネットサイトにアクセスしたかどうかを判定し、その後、前記
ユーザに、すべてのインターネットアクセスがログファイルに保存されることを
通知する命令を含む第2モジュールとを含むシステムである。
【0010】 本発明に係る別の実施の形態は、インターネットサイトのカテゴリへのユーザ
アクセスを制御する方法である。この実施の形態は、インターネットサイトのカ
テゴリ化されたデータベースを参照することと、ユーザによってアクセスされつ
つあるインターネットサイトのカテゴリを判定することと、ユーザが前記カテゴ
リ内のインターネットサイト上で事前にセットされた時間を費やしたかどうかを
判定し、該判定に対応して、前記ユーザの前記サイトへのそれ以上のアクセスを
ブロックすることとを含む方法を提供する。
【0011】 本発明に係る別の実施の形態は、インターネット上の特定のサイトへの延期さ
れたアクセスを提供する方法であって、インターネットサイトのカテゴリ化され
たデータベースを参照することと、ユーザによってアクセスされるインターネッ
トサイトのカテゴリを判定することと、前記ユーザが前記カテゴリ内のインター
ネットサイトへの延期されたアクセスを要求するかどうかを判定し、該判定に対
応して、要求されたインターネットサイトからのページをストレージに保存する
こととを含む方法である。
【0012】 本発明に係る別の実施の形態は、インターネットサイトのカテゴリへのアクセ
スを制御する方法である。この方法には、インターネットサイトのカテゴリ化さ
れたデータベースを参照することと、ユーザによってアクセスされるインターネ
ットサイトのカテゴリを判定することと、ユーザが前記カテゴリ内のインターネ
ットサイトに所定の回数だけアクセスしたかどうかを判定し、該判定に対応して
、前記ユーザの前記サイトへのそれ以上のアクセスをブロックすることとが含ま
れる。
【0013】 本発明に係る別の実施の形態は、インターネットサイトへのアクセスを制御す
る方法であって、インターネットサイトのカテゴリ化されたデータベースを参照
することと、ユーザによってアクセスされるインターネットサイトのカテゴリを
判定することと、ユーザが前記カテゴリ内のインターネットサイトにアクセスし
たかどうかを判定し、その後、前記ユーザに、すべてのインターネットアクセス
がログファイルに保存されることを通知することとを含む方法である。
【0014】 (詳細な説明) 本発明に係る実施の形態は、インターネットサイトへの柔軟なアクセスを提供
するシステムおよび方法に関する。たとえば、下記のように、一実施の形態で、
このシステムは、インターネットサイトへのアクセスを単純に許可または拒否す
るのではない。ユーザに、カテゴリ化されたデータベース内で見つかったサイト
へのアクセスに関する複数のオプションを与えることができる。
【0015】 たとえば、一実施の形態では、ユーザに、その日の別の時刻まで所望のサイト
へのアクセスを延期するというオプションを提示する。ユーザが、アクセスの延
期を選択する場合には、要求されたURLおよびページのコピーが、インターネ
ットサーバ上のデータベースにコピーされる。ユーザは、その後、その日の後の
時刻にこのデータベースへのアクセスを許可される。このシステムでは、たとえ
ばスポーツサイトへのアクセスを、昼食時間中または勤務時間後に限ってユーザ
に提供する能力を使用者に与える。
【0016】 もう1つの実施の形態では、ユーザが特定のサイトにアクセスする時間の長さ
または回数を追跡する。したがって、ユーザが、特定のサイトで所定の量を超え
る時間を費やす場合に、そのユーザは、その日の残りについてそのサイトへのア
クセスを禁止される。もちろん、タイムスケジュールには、どのようなものであ
っても、使用者の好む時間の組合せをセットすることができる。さらに、ユーザ
が特定のカテゴリ内のサイトにアクセスする最大回数も、制御することができる
。したがって、ユーザに、どの24時間の期間内であっても、スポーツサイトへ
の10回だけのアクセスを許可することができる。
【0017】 また、本明細書で説明するシステムは、特定のカテゴリ内のインターネットサ
イトへのアクセスを提供する。ただし、選択されたサイトへのアクセスが再検討
のために記録されることをユーザに通知した後に限って提供される。したがって
、ユーザが、そのサイトにアクセスする正当な理由を有する場合には、そのユー
ザはブロックされない。しかし、所望のサイトにアクセスする正当な理由を有し
ないユーザは、サイト要求をキャンセルすることを許され、そのサイトを要求し
たものとしては記録されない。
【0018】 カテゴリ化されたインターネットサイトのデータベースの作成 このシステムの実施の形態では、インターネットページを自動的にカテゴリ化
して、カテゴリ化されたサイトのデータベースを作成し、更新する方法も提供さ
れる。このカテゴリ化されたデータベースは、その後、インターネットアクセス
制御システム内で、あるカテゴリ内のインターネットサイトへのユーザのアクセ
スを制御するのに使用される。たとえば、本明細書に記載のシステムが、特定の
インターネットページを「スポーツ」カテゴリに割り当てる場合に、インターネ
ット上のスポーツページを見ることを制限されたユーザは、要求されたサイトへ
のアクセスを許可されない。一実施の形態では、このシステムが、ユーザからイ
ンターネットへのトラフィックを制御するインターネットゲートウェイコンピュ
ータ内にインストールされる。本明細書に記載のシステムは、スコアリングされ
る各ページに関してより正確になるので、ページをカテゴリに割り当てるのに、
最小限のユーザ介入が必要である。
【0019】 以下詳細に説明するように、このシステムの実施の形態には、特定のカテゴリ
に強く関連する、インターネットサイトに現れる字句要素の分析によって作成さ
れるトレーニングデータベースが含まれる。これに関して、字句要素とは、分析
されるサイトに現れる1つまたは複数の単語である。字句要素の例には、個々の
単語、単語対、近接する単語および単語の3つ組が含まれる。したがって、たと
えば「スポーツ」カテゴリをトレーニングするために、フットボールチームに関
するサイトが、システムに供給される。
【0020】 第1ステップとして、スポーツなどの各カテゴリが、そのカテゴリに特に関係
する単語、単語対、および単語近接を認識するためにトレーニングされる。本明
細書で使用される、単語対は、ページのどこかに現れる2つの単語を意味する。
対照的に、単語近接は、お互いのとなりに現れる2つの単語である。したがって
、単語近接「フットボールチーム」は、スポーツカテゴリに対する強い関連性ス
コアを与えるはずである。しかし、同一の単語近接が、インターネット商取引カ
テゴリに対しては低い関連性スコアしか与えないはずである。
【0021】 トレーニングデータベースを、単語対および単語近接から、その事前定義のカ
テゴリのそれぞれに関する関連性スコアと共に作成した後に、インターネットに
現れる新しいページを、新しいページに現れる単語対/近接の関連性に基づいて
分析することができる。たとえば、単語近接「フットボールチーム」を有する新
しいインターネットページは、スポーツカテゴリについては高いスコアが与えら
れるが、インターネット商取引カテゴリに対しては低い関連性しか与えられない
【0022】 さらに、特定のカテゴリに含まれることが確認されたページを用いて各カテゴ
リをトレーニングし続けることによって、システムをますます正確にすることが
できる。各トレーニングセッションでは、各ページ内の字句要素の関連性スコア
が、カテゴリへのより高い関連性を示すために増やされるか、カテゴリへのより
低い関連性を示すために減らされる。
【0023】 自動インターネットサイト取出プログラムを使用することによって、このシス
テムに係る実施の形態は、新しいインターネットページがワールドワイドウェブ
に現れた時に、そのページは新しいインターネットページに継続的に更新される
、カテゴリ化されたインターネットサイトおよびページのデータベースを提供す
る。したがって、このシステムの実施の形態は、インターネットページのスコア
リングおよびカテゴリ化のための効率的なシステムを提供する。
【0024】 カテゴリ化プロセスの概要 以下で説明する自動カテゴリ化システムには、コンピュータ命令が含まれ、こ
のコンピュータ命令は、実行される時に、インターネットサイトのソースページ
を評価し、与えられたURLを複数のカテゴリのうちの1つにカテゴリ化する。
このシステムには、下記についてスコアリングする3つの式が含まれる。
【0025】 1.単一単語関連性 例:カテゴリ2で、「セックス」=4040。 2.単語対関連性 例:カテゴリ2で、「セックス」と「ポルノ」=600
5。 3.単語近接関連性 例:カテゴリ2で、「ハードコアセックス」=8050
【0026】 さらに、別の実施の形態で、単語対、単語近接、高い度合の組合せ(3つ組、
4つ組など)などの複数単語関連に関してスコアリングする式を、実施すること
ができる。
【0027】 カテゴリ化システムは、まず、与えられたカテゴリのさまざまな面を最もよく
表す、代表的な複数のインターネットサイトを収集することによってトレーニン
グされる。これらのサイトを、トレーニングアルゴリズムにかけ、このトレーニ
ングアルゴリズムが、選択されたカテゴリに対する、インターネットサイト内で
見つかった単語、単語対および単語近接への関連性スコアを割り当てる。トレー
ニング処理の結果が、「カテゴリプロトタイプ」と称するインターネットサイト
の合成物である。カテゴリプロトタイプは、単一単語、単語対および単語近接の
関連性スコアの集合である。
【0028】 カテゴリプロトタイプが各カテゴリについて生成された後に、新しいインター
ネットサイトからの単語、単語対および単語近接が、カテゴリプロトタイプに対
してテストされて、新しいページを特定のカテゴリ内にカテゴリ化しなければな
らないかどうかが判定される。たとえば、単語「セックス」がソースページに現
れる場合に、コンピュータは、カテゴリプロトタイプを検査し、カテゴリ2(セ
ックス)内のこの単語の4040という関連性スコアを取り出す。単語対「セッ
クス、ポルノ」がソースページに現れる場合に、コンピュータは、カテゴリプロ
トタイプを検査し、カテゴリ2(セックス)内の単語対「セックス、ポルノ」の
6005という関連性スコアを取り出す。この処理を、取り出されたページのす
べての単語対および単語近接について繰り返す。その後、これらのスコアを使用
して、取り出されたページのカテゴリレーティングを計算する。
【0029】 カテゴリレーティングは、あるページを与えられたカテゴリに配置しなければ
ならない確率を評価するのに使用される。たとえば、あるURLが、カテゴリ2
内で5000のカテゴリレーティングを有する場合に、そのURLがそのカテゴ
リ内にあることの、それに関連する確率は、0.99である可能性がある。これ
は、それぞれが5000のカテゴリ2レーティングを有する100個のサイトが
ある場合に、これらのサイトのうちの99個が、カテゴリ2に属することを意味
する。一般に、カテゴリレーティングが高くなるにつれて、対応するサイトがそ
のカテゴリに属する確率も高まる。その結果、この特徴を使用して、99%の精
度(または他の精度)を維持するカットオフ点を確立することが可能である。
【0030】 この処理の目的の1つが、各カテゴリ内の2つのカットオフ点すなわち、アル
ファ点およびベータ点を得ることである。この2つの点によって、サイトのカテ
ゴリ化に関する決定をそれに対して行うことができるベンチマークが作成される
。アルファ点は、たとえば99%のソーティング精度を維持するように選択され
る。既知の通り、ソーティング精度は、単に、コンピュータがサイトを特定のカ
テゴリに正しくソートする能力である。アルファ点は、次式を使用することによ
って、どのカテゴリについても計算することができる。
【0031】 Ap=M7+4(SD7) ただし、Ap=アルファ点、M7=特定のカテゴリ内で誤ってソートされたサイ
トの平均カテゴリレーティング、SD7=特定のカテゴリ内で誤ってソートされ
たサイトのカテゴリレーティングの標準偏差である。これによって、99%のソ
ーティング精度が保証される。というのは、平均スコアから4標準偏差離れた点
を計算しており、与えられたカテゴリについてインターネット全体を一般化しな
ければならないからである。
【0032】 ベータ点のソーティング精度は、確実にカテゴリの間で変化する。しかし、一
般に、75%から85%の範囲の間のソーティング精度を維持することができる
。ベータ点は、次式を使用して得ることができる。
【0033】 Bp=M7+1(SD7) ここで、Bp=ベータ点、M7=特定のカテゴリ内で誤ってソートされたサイト
の平均カテゴリレーティング、SD7=特定のカテゴリ内の誤ってソートされた
サイトのカテゴリレーティングの標準偏差である。ベータ点とアルファ点との間
に含まれるサイトは、ウェブアナリストまたは技術者が見ることができるように
、提案データベースに配置される。各カテゴリに、それ自体の独自のアルファ点
およびベータ点が割り当てられることに留意されたい。
【0034】 以下で述べるように、本システムの実施の形態に、1つまたは複数のモジュー
ルが含まれる。これらのモジュールには、コンピュータシステム内のプロセッサ
上で実行されるソフトウェア命令が含まれる。モジュールには、ランダムアクセ
スメモリ(RAM)、読取専用メモリ(ROM)、電気的消去可能プログラマブ
ル読取専用メモリ(EEPROM)、ハードディスクまたは他のコンピュータス
トレージデバイスなどのストレージも含めることができる。
【0035】 図1に、インターネット上の特定のサイトへのアクセスを制御するシステム1
0の概要を示す。図から分かるように、複数のワークステーション12A〜12
Cが、ローカルエリアネットワーク15を介してインターネットゲートウェイシ
ステム20に接続される。ワークステーション12A〜12Cは、マイクロソフ
トウインドウズオペレーティングシステムの下で動作するインテルペンティアム
クラスのパーソナルコンピュータであることが好ましい。もちろん、アップル、
IBM、コンパック、デル、ディジタルイクウィップメントコーポレイテッド(
DEC)などによって製造されるものまたは他のシステムなどの、すべての従来
のパーソナルコンピュータを使用できることを理解されたい。
【0036】 ローカルエリアネットワーク15は、イーサネット(登録商標)10ベースT
トポロジであることが好ましいが、無線ネットワーク、トークンリングネットワ
ークおよび類似物を含む、周知のネットワークプロトコルに基づくものとするこ
とができる。ローカルエリアネットワーク15は、インターネット35上のサイ
トへのTCP/IP通信をワークステーション12A〜12Cに提供するために
、インターネットゲートウェイシステム20と通信する。そのようなゲートウェ
イは、当技術分野で周知であり、通常は、インターネットのTCP/IPプロト
コルをローカルエリアネットワーク15上の通信のための適当なプロトコルに変
換するルータまたは他のデータパケットスイッチング技術を介して通信する。
【0037】 インターネットゲートウェイシステム20内に、インターネット35との間で
流れるデータパケットを監視するインターネットファイヤウォールモジュール2
4がある。ファイヤウォールモジュール24は、ワークステーション12A〜1
2Cとインターネットとの間のアクセスを制御し、その結果、許可されないユー
ザが、ローカルエリアネットワーク15上のコンピュータリソースへのアクセス
を獲得できないようにする。したがって、インターネットとネットワークサーバ
15との間のすべての通信が、まず、ファイヤウォール24を通過する。ファイ
ヤウォール−1(チェックポイントソフトウェア、米国カリフォルニア州レッド
ウッドシティ)などの多数のファイヤウォールソフトウェアプログラムが利用可
能である。しかし、図1に示した実施の形態では、インターネットとワークステ
ーション12A〜12Cとの間のデータパケットのアクセスを制御するのにファ
イヤウォールに頼っているが、他の類似するアクセス制御システムが使用可能で
あることを理解されたい。たとえば、マイクロソフトプロキシサーバ(マイクロ
ソフトコーポレイテッド、米国ワシントン州レッドウッドシティ)、ネットスケ
ーププロキシサーバ(ネットスケープコーポレイテッド)およびシスコ(Cis
co)のピックスファイアウォールのオープンサーバインプリメンテーション(
シスココーポレイテッド)が、現在入手可能であり、ファイヤウォール24の代
わりに実施することができる。
【0038】 インターネットゲートウェイシステム20内で、ファイヤウォール24と通信
するのが、カテゴリ化されたサイト管理モジュール26であり、カテゴリ化され
たサイト管理モジュール26には、ワークステーション12A〜12Cからのイ
ンターネットサイト要求を分析し、これらのインターネットサイト要求をカテゴ
リ化されたサイト/ページデータベース30と比較する命令が含まれる。要求さ
れたページがデータベース30内で見つかる場合には、そのページに対しては、
管理モジュール26内でユーザに与えられるアクセス権に応じて、ブロックまた
は許可のいずれかが行われる。図から分かるように、カテゴリ化されたサイト管
理モジュール26は、ファイヤウォール24と通信して、インターネット35へ
のアクセスを許可または制御する。
【0039】 カテゴリ化システム40もインターネット35に接続されている。カテゴリ化
システム40は、下記のように、カテゴリ化されたサイトデータベース30を作
成するために、ウェブサイトおよびページをカテゴリ化する。インターネット上
のサイトが、カテゴリ化システム40によってカテゴリ化された後に、データベ
ース更新システム42が、その後、更新されたデータベースをカテゴリ化システ
ム40からインターネットゲートウェイシステム20に日常的にコピーする。想
像できるように、このシステムに、数百台のゲートウェイシステムを含めること
ができ、そのゲートウェイシステムのそれぞれが、データベース更新システム4
2によって定期的に更新されて、ブロックされるインターネットサイトの更新さ
れたデータベースが提供される。さらに、データベース更新システム42は、ゲ
ートウェイシステム20にデータベースの一部だけを転送でき、その結果、デー
タベース全体を送信する必要がなくなることが好ましい。
【0040】 延期管理システム44もインターネット35と通信するが、この延期管理シス
テム44は、後に図4に関して説明するように、ユーザによる延期されたアクセ
スのために保存されたインターネットサイトを管理する。次に説明するように、
このシステムは、後で再検討するために所望のインターネットサイトを保存する
能力をユーザに提供する。
【0041】 図1には、インターネットへのワークステーションコンピュータの制御された
アクセスを提供するシステム全体の一実施の形態が示されている。インターネッ
トアドレス(たとえばページまたはサイト)に関するワークステーションからの
要求のそれぞれが、まず、インターネットアドレスのカテゴリ化されたデータベ
ースと比較される。要求されたアドレスが、カテゴリ化されたデータベース内で
見つかる場合には、管理モジュールが、ユーザ許可テーブルにアクセスして、要
求元のユーザが要求されたページに関連するカテゴリ内のサイトを見る権利を有
するかどうかを判定する。ユーザがカテゴリ内のページを見るアクセス権を有す
る場合には、ページ要求がインターネットに送信される。しかし、ユーザがアク
セス権を有しない場合には、そのユーザは、要求したページをインターネットか
ら受信することをブロックされる。
【0042】 図2は、カテゴリ化システム40(図1)を詳細に示すブロック図である。図
に示されているように、インターネットページ100Aおよび100Bとインタ
ーネットサイト100Cが、サイト/ページ取出モジュール110によって検索
され取り出される。サイト/ページ取出モジュール110内には、インターネッ
トからインターネットページおよびサイトを検索し、取り出す命令がある。その
ようなサイトを取り出す1つの例示的な方法を、後に図7により説明する。
【0043】 インターネットサイトまたはページは、取出モジュール110によって検索さ
れ取り出された後に、どのカテゴリ(1つまたは複数)が取り出されたサイトに
最も強く関連するかを判定するために、分析モジュール120に転送される。1
つまたは複数のカテゴリへの関連性についてインターネットページを分析するプ
ロセスを、後に図5により詳細に説明する。
【0044】 図から分かるように、分析モジュール120は、カテゴリ化されたデータベー
スのコピー30’およびトレーニングデータベース125にリンクされる。分析
モジュール120は、ページ内の単語対および単語近接を分析することによって
、所定のカテゴリのそれぞれに対する、取り出されたインターネットページの関
連性を計算する。この分析を提供するために、以下で説明するトレーニングデー
タベース125には、ページで見つかる可能性がある単語対および単語近接のそ
れぞれのカテゴリ関連性スコアが含まれる。したがって、検索されたページ内の
単語対および単語近接を、トレーニングデータベース内の単語対および単語近接
のスコアと比較することによって、各カテゴリ内のページの総関連性スコアを決
定することができる。ページ関連性スコアが各カテゴリ内でページについて計算
された後に、各カテゴリの関連性スコアが、検索されたスコアのカテゴリへの割
当を保証するのに十分に高いかどうかを判定する。
【0045】 次に述べるように、取り出されたページを特定のカテゴリに割り当てるかどう
かの判定は、特定のカテゴリに関するページの関連性スコアと、所定のアルファ
値とを比較することによって行われる。ページ関連性スコアが、カテゴリのアル
ファ値より高い場合には、そのページが、そのカテゴリに割り当てられる。スコ
アがアルファ値より低いが、ベータ値より大きい場合には、そのページが手動ス
コアリングシステムに転送され、この手動スコアリングシステムで、技術者が取
り出されたページを見て、そのページをカテゴリに含めるか否かを判定する。カ
テゴリに関するページの関連性がベータ値より低い場合には、ページアドレスが
、分析されたサイトのデータベースに保存され、システムは、追加のアドレスの
スコアリングを継続する。
【0046】 トレーニングデータベース125内のデータは、図示のように、トレーニング
データ130をトレーニングモジュール135に供給することによって作成され
る。トレーニングデータ130には、トレーニングされる各カテゴリに強く関連
するインターネットページが含まれる。たとえば、スポーツカテゴリをトレーニ
ングするために、トレーニングデータに、スポーツフランチャイズまたは他のス
ポーツウェブサイトのインターネットアドレスを含めることができる。その後、
トレーニングモジュール135が、与えられたスポーツサイト内の各ページの単
語対および単語近接を構文解析する。以下で説明するように、独自の単語対およ
び単語近接のすべてに、トレーニングデータベース内のスポーツカテゴリで高い
関連性スコアが割り当てられる。したがって、新しいページに現れる類似する単
語および単語対には、スポーツカテゴリへの高い関連性スコアが与えられる。
【0047】 図3には、トレーニングデータベース125の一実施の形態が示されている。
トレーニングデータベース125内には、単語のリストおよび各単語の対応する
ID番号を含む単語識別テーブル200がある。このテーブルを用いると、デー
タベース内で参照されるすべての単語対または単語近接を、2つの単語ではなく
2つの数によって表現できるようになる。一般に、ID番号の文字数は、単語自
体の文字数より少ないので、単語自体の代わりに各単語の数値表現を保存するた
めに、トレーニングデータベース内で要求されるデータストレージスペースは、
はるかに少なくなる。さらに、これらの一般的な単語を表すのに、1バイトのデ
ータが用いられるだけであるので、「ザ(the)」および「アンド(and)
」などの周知の単語は、1桁の数によって表すことができる。しかし、次に述べ
るように、そのような一般的な単語は、通常は、インターネットページをスコア
リングする前に破棄され、その結果、各ページの字句要素が、すべての他のイン
ターネットページからより簡単に区別されるようになる。これによって、より有
利なページスコアリングシステムがもたらされる。
【0048】 単語識別テーブル200の他に、システム内のカテゴリのそれぞれにカテゴリ
ID番号を与えるカテゴリ識別テーブル205がある。カテゴリ識別テーブル2
05には、特定のページを選択されたカテゴリに割り当てるためのカットオフ値
を提供するアルファスコアおよびベータスコアも含まれる。たとえば、図3に示
されているように、スポーツカテゴリに、920のアルファスコアおよび810
のベータスコアが含まれる。あるインターネットページが、スポーツカテゴリに
ついて920を超えるページ関連性スコアを有することがわかった場合に、その
ページが、スポーツカテゴリに割り当てられる。しかし、そのインターネットペ
ージが、810と920との間のページ関連性スコアを有することがわかった場
合には、そのページには、スポーツカテゴリに属するか否かを判定するための技
術者による手動フォローアップのフラグが立てられる。インターネットページが
、スポーツカテゴリについて810未満のページ関連性スコアを有することがわ
かった場合には、そのページには、スポーツカテゴリに関連するものとしてのフ
ラグが立てられない。これらの値を使用することによって、システムが、特定の
ページを所定のカテゴリに割り当てるか否かを判断する。
【0049】 トレーニングデータベース125内には、システム内の特定のカテゴリに関す
る単語対および単語近接の関連性スコアを提供する単語関連性テーブル210も
ある。たとえば、単語「クリーブランド」(ID番号234)および単語「ブラ
ウンズ」(ID番号198)が、カテゴリ1(スポーツ)に対する900の単語
近接関連性スコアと共に示されている。この例では、最大関連性スコアが100
0なので、単語近接「クリーブランドブラウンズ」は、スポーツカテゴリに非常
に強く関連する。したがって、互いに近接する単語「クリーブランドブラウンズ
」を有するインターネットページは、これらの単語のスポーツへの強い関連性に
起因して、スポーツカテゴリ内で総ページスコアが増やされる。
【0050】 単語「ダイヤモンド」(ID番号755)および「ジュエリー」(ID番号1
345)は、スポーツカテゴリ内では290の関連性スコアを有するのみである
ことに留意されたい。しかし、単語対「ダイヤモンド」および「ジュエリー」は
、カテゴリ3(ショッピング)では940の関連性スコアと共に図示されている
。したがって、図から分かるように、これらの単語の両方を有するページは、シ
ョッピングカテゴリとの関連がより強く、スポーツカテゴリとの関連はより弱い
【0051】 図4を参照して、カテゴリ化されたサイト管理モジュール26と延期管理シス
テム44の間の対話を、より完全に説明する。図に示されているように、カテゴ
リ化されたサイト管理モジュール26には、延期モジュール250が含まれ、延
期モジュール250には、インターネット上の特定のサイトへのアクセスを延期
する能力をシステムに与える命令が含まれる。延期モジュール250内で動作す
るプロセスを、後に図9および10により説明する。
【0052】 カテゴリ化されたサイト管理モジュール26には、クォータモジュール254
もある。クォータモジュール254には、ユーザがインターネット上のサイトへ
のアクセスに関する特定のクォータを超過したかどうかを判定する命令およびコ
マンドが含まれる。ユーザがタイマクォータを超過したかどうかを判定するプロ
セスは、図11に示されている。このプロセスは、クォータモジュール254内
のタイマモジュール256内で動作する。さらに、クォータモジュール254に
は、特定のユーザがあるインターネットサイトにアクセスした回数、またはユー
ザが特定のインターネットサイトを再検討して費やした時間を記録する、データ
ストレージ258が含まれる。
【0053】 管理モジュール26には、ユーザ許可モジュール260も含まれ、ユーザ許可
モジュール260は、特定のユーザが、特定のサイトへのアクセスを制限されて
いるか、延期モジュール250またはクォータモジュール254の要件の対象で
あるかどうかを判定するためのデータストレージ、コマンドおよび命令が含まれ
る。
【0054】 管理モジュール26と通信するのが、延期管理システム44である。このシス
テムは、インターネット35に接続されたサーバ内で普通に実行されている。延
期管理システム44には、特定のユーザによって要求されたインターネットサイ
トへの延期されたアクセスを提供する命令およびコマンドが含まれる。
【0055】 延期管理システム44内には、クッキー分析モジュール270があり、クッキ
ー分析モジュール270は、現在システムにアクセスしているユーザの識別を判
定する命令を提供する。既知のように、「クッキー」は、特定のユーザ識別番号
を含めることができる、ユーザのコンピュータ上に保存されるデータストリング
である。この一意のユーザ識別番号によって、延期管理システム44が、現在シ
ステムにアクセスしているユーザの識別を知ることができる。
【0056】 クッキー分析モジュール270と通信するのが、新しいユーザを延期管理シス
テム内で登録できるようにするために設けられた登録モジュール272である。
したがって、クッキーがユーザのコンピュータ上で見つからない場合には、ユー
ザは、延期管理システム44へのアクセスを登録するために、登録モジュール2
72に案内される。
【0057】 延期管理システム44は、システム44内の延期されたサイトへのユーザアク
セスを監督する管理モジュール276も備える。したがって、ユーザが、保存さ
れたサイトへのアクセスを試みる時に、管理モジュール276が、適当な保存さ
れたサイトを判定し、ユーザをその保存されたページに案内する。図から分かる
ように、管理モジュール276は、ユーザによって試みられた前の表示から延期
された実際のページを保持するストレージ280と通信する。この延期されたペ
ージを保存し、見るプロセスを、後に図9および10を基により完全に説明する
【0058】 図5は、インターネットページまたはサイトへのアクセスの要求の全体的なプ
ロセス300を示すフローチャートである。プロセス300は、開始ステップ3
02で開始され、その後、ステップ306に進み、ここで、ワークステーション
12A〜12C上のインターネットブラウザが、インターネット上のアドレスを
要求する。周知のブラウザに、マイクロソフトエクスプローラーおよびネットス
ケープナビゲータが含まれる。このブラウザ要求は、ユーザが自分のブラウザソ
フトウェアに所望のURLを入力した後に、普通に行われる。
【0059】 その後、ユーザの要求が、ローカルエリアネットワーク15を介してインター
ネットゲートウェイシステム20に送られる。プロセス300は、その後、ステ
ップ308に進み、ここで、要求されたインターネットアドレスが、カテゴリ化
されたデータベース30と突き合わされる。アドレスを、インターネットサイト
内の単一のページまたはサイトのデフォルトアドレス(たとえばwww.com
pany.com)とすることができることに留意されたい。
【0060】 その後、判断ステップ310で、カテゴリ化されたデータベースに保存された
アドレスのいずれかとアドレスが一致したかどうかの判定を行う。カテゴリ化さ
れたデータベース30内で一致するアドレスが見つからなかった場合には、ステ
ップ312で、要求されたページをインターネットから取り出し、終了ステップ
314でこのプロセスを終了する。
【0061】 しかし、要求されたアドレスとカテゴリ化されたデータベースの間で一致する
アドレスが見つかった場合には、プロセス300は、判断ステップ315に進み
、ここで、現在のユーザがインターネットページの特定のカテゴリへの制限され
たアクセス権を有するかどうかを判定する。この判定は、ネットワークユーザの
リストと、カテゴリ化されたデータベース内で見つかったカテゴリのそれぞれの
関連する許可テーブルとを参照することによって行うことができる。したがって
、1特定のユーザが、スポーツカテゴリおよびポルノグラフィカテゴリのすべて
へのアクセスを制限され、インターネット商取引カテゴリまたはトラベルカテゴ
リへのアクセスを制限されない場合がある。インターネットカテゴリの例示的な
リストを、下の表1に示す。
【0062】
【表1】
【0063】
【0064】 判断ステップ315で、ユーザが制限されたカテゴリを有すると判定された後
に、プロセス300は、ステップ316に進んで、この特定のユーザに関してど
のカテゴリがブロックされているかを判定する。この判定は、ユーザに関連する
許可リストを参照することによって行われる。
【0065】 プロセス300は、その後、判断ステップ320に進んで、要求されたページ
が、この特定のユーザに関して制限されたカテゴリのいずれかに含まれるかどう
かを判定する。この判定は、まずカテゴリ化されたデータベースから要求された
アドレスのカテゴリを判定し、その後、その結果とユーザに対して制限されたカ
テゴリとを比較することによって行われる。要求されたページがユーザに対して
制限されたカテゴリに含まれないと判定された場合には、ステップ324で改訂
されたページを取り出し、終了ステップ314でこのプロセスを終了する 判断ステップ320で、要求されたページがユーザに対して制限されたカテゴ
リの1つに含まれると判定された場合には、プロセス300は、ステップ340
に進み、ここで、ページへのアクセスをブロックする。このブロックは、ユーザ
からインターネットへのパケット要求を破棄するか、要求されたページへのイン
ターネットブラウザによって要求された接続を単純にクローズすることによって
、行うことができる。プロセス300は、適当なページに戻って、要求が拒否さ
れたことをユーザに通知する。その後、プロセス300は、終了ステップ314
で終了する。
【0066】 したがって、図5は、要求されたページがカテゴリ化されたデータベース30
内に現れるかどうかに基づいて、特定のインターネットアドレスへのアクセスを
要求し、ブロックする1つのプロセスの概要を提供する。図5は、インターネッ
トページ内の単語対および単語近接の内容を分析することによって、カテゴリ化
されたデータベース30を作成する方法を提供する。
【0067】 図6は、特定のカテゴリへの関連性を判定するためにページの単語内容を分析
するプロセス328を示すフローチャートである。プロセス328は、開始ステ
ップ400で開始され、その後、ステップ402に進み、ここで、インターネッ
トページの第1単語を検索し取り出す。本明細書で使用される用語「単語近接」
には、互いに直接に隣接する単語が含まれる。用語「単語対」には、同一のイン
ターネットページに配置された2つの単語が含まれる。
【0068】 ページからの第1単語をステップ402で検索し取り出した後に、プロセス3
28は、ステップ404に進み、ここで、ページ内の第1単語を含むすべての単
語対の関連性を、定義されたカテゴリのそれぞれについて判定する。したがって
、ページ内の第1単語と第3単語を判定し、その単語対を、トレーニングデータ
ベース内の単語関連性テーブル210と比較して、リストされたカテゴリのそれ
ぞれでの関連性スコアを判定する。この関連性スコアは、各単語対とそれに関連
するすべてのカテゴリに対する関連性をリストした単語関連性テーブル210(
図3)を参照することによって判定される。一実施の形態では、特定のカテゴリ
内の単語対の関連性スコアが、0から1000まで変化し、1000が、カテゴ
リに完全に関連する単語対である。もちろん、カテゴリに対する特定の単語対の
関連性を反映する、さまざまなスコアリングシステムを開発することができる。
また、単語対の2つの単語の間の最大距離を設定することができることを理解さ
れたい。たとえば、システムが、10、20、30、40、またはそれ以上の単
語数だけ離れた単語対だけを分析し、その後、そのページの次の単語の分析の開
始に移動することができる。
【0069】 判定された単語対関連性スコアは、後の操作のためにメモリに格納される。そ
の後、第1単語を、そのページの第4単語と対にして、新しい単語対の各カテゴ
リに対する関連性を判定する。この処理を、第1単語を含む、そのページ内の可
能なすべての2単語対について繰り返す。
【0070】 プロセス328は、その後、ステップ405に進み、ここで、第1単語と第2
単語の単語近接の関連性を、これらの単語をトレーニングデータベース内の単語
関連性テーブル210と突き合わせて、各カテゴリとの関連性を判定することに
よって、計算する。
【0071】 取り出された単語近接の関連性スコアを、すべてのカテゴリについて判定した
後に、プロセス328は、ステップ408に進み、ここで、単語対のそれぞれに
ついてステップ404で判定された関連性スコアを、カテゴリごとの総ページス
コアに加算する。
【0072】 したがって、単語対「クリーブランド」および「ブラウンズ」が、スポーツカ
テゴリの単語関連性テーブルから900の関連性スコアを返す場合に、数値90
0が、カテゴリ1(スポーツ)の総ページスコアに加算される。したがって、あ
るカテゴリでより高い関連性スコアを有する単語対が、そのページの現在のカテ
ゴリでのより高い総合ページ関連性スコアをもたらす。同様に、特定のカテゴリ
でより低い関連性スコアを有する単語対は、そのカテゴリに対する総合ページ関
連性スコアを下げる。
【0073】 ページの単語対関連性スコアが、総ページ関連性スコアに加算された後に、プ
ロセス328は、ステップ409に進み、ここで、各カテゴリについてステップ
405で判定された単語近接関連性を、現在のインターネットページのページ関
連性カテゴリスコアに加算する。
【0074】 各カテゴリのページスコアを計算したので、判断ステップ416で、ページに
分析すべき単語がまだあるかどうかを判定する。取り出されたインターネットペ
ージに分析に使用可能な単語がもうないと判定された場合に、プロセス328は
、ステップ420に進み、ここで、より多くの単語を有するページがより高いス
コアを有するという事実を考慮に入れるために、各カテゴリの総ページ関連性ス
コアを正規化する。たとえば、ページスコアが、単語対および単語近接の関連性
を加算することによって決定されるので、500単語を有するページは、100
単語を有するページよりかなり高い、各カテゴリのスコアを有する。したがって
、たとえば、各カテゴリのページ関連性スコアを、そのページの単語の総数で割
ることによって、ページスコアを正規化し、その結果、異なる長さのページが、
各カテゴリでほぼ同一のページスコアを有するようにする。単語対および単語近
接のそれぞれについてより高い平均関連性スコアを有するカテゴリが、低い関連
性スコアを有する単語対を有するカテゴリより高いページスコアを有することに
留意されたい。
【0075】 正規化されたページスコアが、検索されたページについて各カテゴリで判定さ
れた後に、プロセス328は、判断ステップ422に進んで、あるカテゴリのペ
ージ関連性スコアが、そのカテゴリのアルファ関連性スコアより大きいかどうか
を判定する。この判定は、トレーニングデータベース125内のカテゴリIDテ
ーブル205を参照することによって行われる。ページ関連性スコアが、アルフ
ァスコアより大きくない場合には、プロセス328は、判断ステップ424に進
んで、ページ関連性スコアがそのカテゴリのベータスコアより大きかどうかを判
定する。ページ関連性スコアがベータスコアより大きくないと判定された場合に
は、プロセス328は、ステップ426に進み、ここで、取り出されたサイトを
テーブルに格納し、分析済みだがどのカテゴリにも含まれないものとしてフラグ
を立てる。プロセス328は、その後、終了ステップ430で終了する。
【0076】 判断ステップ422で、ページ関連性スコアがカテゴリのアルファスコアより
大きいと判定された場合には、プロセス328は、ステップ432に進み、ここ
で、取り出されたアドレスを、カテゴリ化されたデータベース30に追加する。
カテゴリ化されたデータベース30には、ブロックされるインターネットアドレ
スのアドレスだけではなく、データベース内でカテゴリ化されているサイトであ
っても、そのインターネットサイトに関連するカテゴリも含まれる。その結果、
特定の許可を有するユーザにサイトへのアクセスを提供しなければならないかど
うかの判定を行えるようになることに留意されたい。
【0077】 別の実施の形態では、ページスコアがカテゴリのアルファスコアより大きいと
判定された場合に、システムが、インターネット上の現在のページにアクセスす
る命令を実行することができる。この命令は、その後、メインドメインアドレス
(たとえばwww.company.com)に向かって移動している間に、そ
のサイトの階層的ページのスコアリングを開始する。サイトのより上位のノード
のいずれかが、やはり同一のカテゴリのアルファスコアより大きいと判定された
場合に、このサイトも、データベースに追加される。これによって、個々のペー
ジをレーティングするだけではなく、インターネットサイトの特定のノードの下
に現れる複数のページもレーティングする機構が、システムに与えられる。
【0078】 一実施の形態では、あるページで検討される単語の数が、所定の数に制限され
る。たとえば、ページの最初の100、250、500または1000個の単語
だけを検討するようにシステムを制限することができる。所定の数の後の単語は
、すべて検討されない。
【0079】 判断ステップ424で、ページ関連性スコアがベータスコアより大きいが、ア
ルファスコアより小さいと判定された場合には、プロセス328は、ステップ4
34に進み、ここで、このアドレスに、技術者によるさらなる分析のためのフラ
グを立てる。このプロセスは、その後、終了ステップ430で終了する。
【0080】 判断ステップ416で、取り出されたページに分析すべき単語がまだ残ってい
ると判定された場合には、プロセス328は、ステップ436に進み、ここで、
ページの次の単語を各単語対および単語近接の第1単語として選択する。この形
で、システムが、ページ内の各単語を他のすべての単語と共に分析することによ
って、ページを「ウォーク」する。これによって、ページ内のすべての可能な単
語対および単語近接の完全な分析が行われる。
【0081】 図6に示されたプロセス328により、新たに取り出されたインターネットペ
ージが、スコアリングされ、システム内の1つまたは複数のカテゴリと関連付け
られる。あるカテゴリ内でそのカテゴリのアルファスコアより大きい関連性スコ
アを有することがわかったページのそれぞれが、それに関連付けられるカテゴリ
について、カテゴリ化されたデータベース30に追加される。さらに、より厳し
さの低いベータスコアより高い関連性スコアを有することがわかったすべてのペ
ージに対して、技術者による分析のためのフラグが立てられ、その結果、そのペ
ージを、必要であればカテゴリ化されたデータベースに手動で追加できるように
なる。この機構により、新しいインターネットページが、定期的にシステムに追
加される。
【0082】 図7は、トレーニングデータベース125内で単語関連性テーブル210を作
成するプロセス500を示すフローチャートである。プロセス500は、開始ス
テップ502で開始され、その後、ステップ504に進み、ここで、最初にトレ
ーニングするカテゴリを選択する。カテゴリは、たとえば、スポーツカテゴリと
することができる。プロセス500は、その後、ステップ508に進み、ここで
、選択されたカテゴリ(たとえばスポーツ)内にあることが事前に判定されてい
るウェブページを取り出す。したがって、これらのページは、ステップ504で
選択されたカテゴリ内にあることが既知なので、選択されたページ内の各単語対
および単語近接の関連性を、現在のカテゴリへの高い関連性に割り当てることが
できる。
【0083】 選択されたカテゴリ内のウェブページを取り出した後に、プロセス500は、
ステップ510に進み、ここで、現在選択されているページに関してターゲット
ページスコアを判定する。通常、特定のカテゴリに強く関連するページには、た
とえば1000のスコアが与えられる。しかし、単語をカテゴリに関係付けるの
に使用される類似するタイプのスコアリングスケールのどのようなタイプでも同
様に実施できることを理解されたい。ステップ510でターゲットページスコア
を判定した後に、プロセス500は、ステップ516に進み、ここで、取り出さ
れたページの第1ページを分析のために選択する。
【0084】 その後、ステップ520で、選択されたページの単語数をカウントし、その後
、プロセスはステップ526に進み、ここで、特有の単語対の数が、ターゲット
ページスコア(1000)で割られて、その結果、単語対が再スコアリングされ
る場合に、総ページ関連性スコアが1000になるようにする。同様に、ターゲ
ットページスコア(1000)は、一意の単語近接の数で割られて、合計された
場合に1000のページ関連性スコア(トレーニングされたカテゴリに対する極
端に高い関連性)をもたらす単語近接スコアとなる。処理時間を最小にし、スコ
アリング処理の精度を高めるために、「ア(a)」、「ザ(the)」、「アン
ド(and)」などの一般的な単語が無視されることに留意されたい。さらに、
コンピュータ言語命令およびハイパーテキストヘッダも、ページのスコアリング
の精度を高めるために無視される。
【0085】 その後、プロセスはステップ530に進み、ここで、各単語対および単語近接
の現在のスコア(1000)を、単語関連性テーブルに既に格納されている同一
の単語対および単語近接を用いて平均化する。したがって、スポーツカテゴリの
トレーニングを行っており、単語近接「クリーブランドブラウンズ」が現在のペ
ージ内で見つかった場合に、スポーツカテゴリ内で105の単語近接値を割り当
てることができる。しかし、用語「クリーブランドブラウンズ」が、スポーツカ
テゴリ内で既に89の値でスコアリングされている場合には、105の値と85
の値の平均をとって、スポーツカテゴリに対する単語近接スコアを正規化する。
したがって、このシステムを用いると、あるカテゴリで何度も使用される単語を
、「アップトレーニング」することができる。その結果、スコアリングされるよ
り多くのページに関連性スコアが現れるので、選択されたカテゴリに関するその
関連性スコアが高くなる。さらに、このシステムは、複数のサイトを同時に並列
処理することができることを理解されたい。
【0086】 その後、プロセス500は、ステップ534に進み、ここで、トレーニング中
のカテゴリのアルファスコアおよびベータスコアを決定する。アルファスコアは
、それを超える時に、選択されたページが明らかにカテゴリ内にあることを示す
数値スコアである。ベータスコアは、それを超える時に、選択されたページがカ
テゴリ内にある可能性があることを示す数値スコアである。上で述べたように、
アルファスコアは、通常は、そのスコアを有するページの99%が選択されたカ
テゴリに含まれるように選択される。ベータスコアは、通常は、そのスコアを有
するページの75%から85%が選択されたカテゴリに含まれるように選択され
る。これらのスコアは、カテゴリ内でトレーニングされたページの平均スコアを
分析して、新しいページのカットオフ値を判定することによって決定される。
【0087】 その後、ステップ536で、単語関連性スコアを、トレーニングデータベース
125内の単語関連性テーブル210に格納する。その後、判断ステップ540
で、トレーニングを必要とするページがまだあるかどうかを判定する。ページが
もうない場合には、プロセス500は、終了ステップ544で終了する。ページ
がまだあると判定された場合には、プロセス500は、ステップ550に進み、
ここで、次に分析されるページを選択する。その後、ステップ520でページの
単語数をカウントし、上記のように処理を継続する。
【0088】 上記のプロセス500により、あるインターネットページで見つかる可能性が
ある単語対および単語近接のすべてに関する正規化された単語関連性を含む単語
関連性テーブルが確立される。新しいページを分析し、ページ内の各単語の関連
性を一緒に加算することによって、特定のページのページ関連性スコアをシステ
ム内の所定のカテゴリのそれぞれに割り当てる自動システムが提供される。した
がって、多数のページを分析することによって特定のカテゴリがトレーニングさ
れた後に、このシステムは、所定のカテゴリのそれぞれに対する関連性に関して
、新しいページを素早く分析することができる。すでに図2により説明したよう
に、ページ取出モジュール110が、新しいインターネットページを取り出し、
それらをスコアリングのために分析モジュール120に送るのに使用される。
【0089】 図8は、インターネットからページを取り出すプロセス600を示すフローチ
ャートである。プロセス600は、開始ステップ602で開始され、その後、ス
テップ606に進み、ここで、最初にカテゴリ化するサイトのアドレスを、カテ
ゴリ化されたウェブデータベース30からのアドレスのランダムアクセスによっ
て決定する。最初にカテゴリ化するサイトのアドレスをステップ606で決定し
た後に、プロセス600は、ステップ610に進み、ここで、インターネットサ
イトの最初のページを読み取る。このプロセスは、その後、ステップ612に進
み、ここで、読み取られたページを分析モジュール120に転送し、その結果、
ページの単語対および単語近接が、所定のカテゴリに対する関連性について分析
されるようにする。
【0090】 その後、プロセス600は、現在のサイトに分析すべきページがまだあるかど
うかを判定するために、判断ステップ616に進む。現在のサイトにもうページ
がない場合には、プロセス600は、判断ステップ620に進んで、インターネ
ットのサイトが現在分析されているサイトを参照しているかどうかを判定する。
現在のサイトによって参照されているサイトがもうない場合には、プロセス60
0は、終了ステップ624で終了する。
【0091】 判断ステップ616で、分析すべきページがまだある場合には、プロセス60
0は、ステップ630に進み、ここで、現在のサイトの次のページを読み取る。
プロセスは、その後、ステップ612へ戻り、ここで、新しいページを分析モジ
ュール120に送る。
【0092】 判断ステップ620で、現在のサイトを参照するサイトがあると判定された場
合には、プロセス600は、ステップ632に進み、ここで、システムが、最初
の参照されるサイトのアドレスをポイントする。その後、プロセス600は、新
たに取り出されたインターネットサイトの最初のページを読み取るためにステッ
プ610に戻る。
【0093】 図9は、延期されたインターネットサイトをストレージ280に保存するプロ
セス700を示すフローチャートである。プロセス700は、開始ステップ70
2で開始され、その後、ステップ704に進み、ここで、特定のサイトへのアク
セスを延期するユーザから、延期モジュール250によって、要求を受け取る。
この要求は、ユーザが、日中にブロックされるものとして指定されたカテゴリ内
のサイトにアクセスする時に、普通に行われることに留意されたい。しかし、そ
のサイトに、たとえばログインプロシージャを介して夜にアクセスすることがで
きる。
【0094】 したがって、ユーザが日中にアクセスを試みる時には、延期モジュール250
が、要求をサイトのカテゴリ化されたデータベースと比較して、そのサイトが、
たとえば昼間の時間中にブロックされるものとして指定されたカテゴリに含まれ
るかどうかを判定する。サイトがそのようなカテゴリに含まれることがわかった
場合には、システムが、そのサイトへのアクセスを延期することを望むかどうか
という質問を、要求しているユーザに送る。ユーザが、サイトアクセスを延期さ
れることを要求する場合には、プロセス700は、ステップ708に進み、ここ
で、クッキー分析モジュール270が、ユーザのシステム上のクッキーを検索す
る。もちろん、ユーザがサイトへのアクセスを止められる特定の時間を、必要に
応じてプログラムできることを理解されたい。たとえば、ユーザによるあるカテ
ゴリのインターネットサイトへのアクセスを、午前8時から正午まで止め、正午
以降はフルアクセスを許可することができる。
【0095】 その後、プロセス700は、判断ステップ710に進んで、ユーザ特有の識別
番号を持つクッキーが、ユーザのコンピュータで見つかるかどうかを判定する。
クッキーが見つかった場合には、プロセス700は、ステップ712に進み、こ
こで、ユーザの識別番号をクッキーから読み取る。プロセス700は、その後、
ステップ716に進み、ここで、ユーザ識別番号および延期されたサイトのアド
レスをストレージ280に保存する。
【0096】 判断ステップ710で、クッキーがユーザのシステムで見つからないと判定さ
れた場合には、プロセス700は、ステップ722に進み、ここで、ユーザ登録
情報をユーザに要求する。その後、ステップ726で特有のユーザ識別番号が生
成され、プロセス700は、その後、ユーザ識別番号と延期されたサイトのアド
レスをストレージ280に保存する。プロセスは、その後、終了ステップ720
で終了する。
【0097】 ストレージが、要求されたサイトからの実際のページをストレージ280に保
存することが好ましいことを理解されたい。したがって、ユーザには、延期管理
システム44に入った後に、要求されたサイトのコピーへのアクセスが提供され
る。そのサイトは、管理システム44に保存されるので、ユーザによるアクセス
を、システム44内のアクセス設定により制御することができる。したがって、
ユーザは、システム10によってまだブロックされる可能性がある、インターネ
ットのオリジナルのサイトへのアクセスを試みる必要がない。
【0098】 図10は、延期されたサイトを見るプロセス800を示すフローチャートであ
る。このプロセス800は、開始ステップ802で開始され、その後、ステップ
804に進み、ここで、ユーザが、延期管理システム44にアクセスする。その
後、プロセス800は、ステップ808に進み、ここで、ユーザのシステムに保
存されているクッキーからユーザの識別番号を読み取る試みが行われる。判断ス
テップ810で、ユーザのシステムでクッキーが見つかったかどうかを判定する
。判断ステップ810で適当なクッキーが見つかった場合には、ユーザに、スト
レージ280内に保存されているサイトのデータベースへのアクセスが与えられ
る。上述のように、保存されたサイトは、ストレージ280内に格納されている
【0099】 判断ステップ816で、要求されたユーザ識別番号に関して適当なサイトが見
つかったかどうかを判定する。サイトがストレージ280内で見つかった場合に
は、プロセス800は、ステップ820に進み、ここで、そのユーザ識別番号に
関して保存されたサイトのリストを作成する。その後、プロセス800は、終了
ステップ824で終了する。
【0100】 判断ステップ810で、ユーザのシステムでクッキーが見つからないと判定さ
れた場合には、プロセス800は、ステップ828に進み、ユーザに、延期され
たサイトにアクセスするためのユーザ識別番号およびパスワードを入力するよう
に促す。
【0101】 判断ステップ816で、ストレージ280内でユーザに関するサイトが見つか
らないと判定された場合には、ステップ830でエラー処理ルーチンを実行し、
プロセスはステップ804に戻る。
【0102】 図11は、タイマクォータプロセス850を示すフローチャートである。タイ
マクォータプロセス850は、開始ステップ852で開始され、その後、ステッ
プ854に進み、ここで、インターネットページまたはサイトに関する要求を受
け取る。ステップ858で、カテゴリ化されたデータベース30を参照すること
によって、ページまたはサイトのカテゴリを判定する。プロセス850は、その
後、ステップ860に進み、ここで、サイトの選択されたカテゴリのタイマクォ
ータパラメータを検索し取り出す。たとえば、ユーザがスポーツカテゴリ内で、
たとえば30分だけ費やすことができることを示すクォータパラメータが、ステ
ップ860で取り出される可能性がある。
【0103】 プロセス850は、その後、ステップ862に進み、ここで、ユーザがこのカ
テゴリ内のページまたはサイトを見て費やした時間の総量を、ストレージ258
から取り出す。その後、判断ステップ864で、このユーザのタイムクォータが
、ステップ860で取り出されたクォータパラメータを超えたかどうかを判定す
る。
【0104】 タイムクォータが超えていないと判定された場合には、ステップ866で、要
求されたページまたはサイトが取り出され、ステップ868でタイマが開始され
る。判断ステップ870で、ユーザが、要求されたサイトのアクセスを継続して
いるかどうかを判定する。ユーザが要求されたサイトのアクセスを継続している
と判定された場合には、プロセス850は、判断ステップ864に戻って、タイ
ムクォータを満たしたかどうかを判定する。
【0105】 ユーザがもはや要求されたサイトにアクセスしていないと判定された場合には
、プロセス850は、ステップ874に進む。タイマが終了される時に、プロセ
ス850は、インターネットサイトで費やされた経過時間を、そのカテゴリのユ
ーザの総時間に加算する。
【0106】 判断ステップ864で、タイマクォータを満たしたと判定された場合には、ス
テップ884でその事実に関する通知をユーザに送り、プロセスは終了ステップ
880で終了する。タイムクォータを満たした場合に、プロセス850が、要求
されたページまたはサイトを取り出すステップ866をスキップすることに留意
されたい。したがって、タイムクォータを満たした後に、ユーザは、要求された
サイトへのアクセスを禁止される。これによって、限られた時間の期間について
のみサイトにアクセスできるように、ユーザを制限する機構が提供される。
【0107】 各カテゴリが、それ自体の限界を備え、その結果、あるカテゴリで時間を費や
すことが、異なるカテゴリでのユーザの総クォータ時間に影響しないことに留意
されたい。したがって、会社の経営者が、たとえば、スポーツカテゴリ内のサイ
トについて15分のクォータ、インターネット商取引カテゴリ内のサイトについ
て1日1時間の時間制限をセットすることができる。
【0108】 図12は、ユーザが要求したサイトがブロックされるカテゴリに含まれること
をユーザに通知するとともに、サイトへのアクセスを継続することを許可するプ
ロセス900を示すフローチャートである。このプロセス900は、開始ステッ
プ902で開始され、ステップ904に進み、ここで、サイト管理モジュール2
6が、インターネットサイトにアクセスする要求を受け取る。判断ステップ90
8で、要求されたサイトがカテゴリ化されたデータベース30内にあるかどうか
を判定する。サイトがカテゴリ化されたデータベース30内にあると判定された
場合には、プロセス900は、ステップ910に進み、この時に警告ページがユ
ーザに送られる。この警告ページ内には、要求されたサイトが会社の経営者によ
ってブロックされたことと、さらなるアクセスが記録され、ユーザの管理者に転
送されるということの声明がある。
【0109】 その後、プロセス900は、判断ステップ912に進み、ユーザが自分のアク
セスが管理者によって追跡されるということを認識したにもかかわらず、それで
もユーザがそのサイトへのアクセスを要求するかどうかを判定する。ユーザがそ
れでもアクセスを要求していると判定された場合には、プロセス900は、ステ
ップ914に進み、ここで、ユーザのサイト要求、ユーザ名、日付および時刻を
ファイルに記録する。その後、要求されたサイトまたはページが、ステップ91
8でインターネットから取り出され、プロセス900は、終了ステップ920で
終了する。
【0110】 判断ステップ908で、サイトがカテゴリ化されたデータベース30内にない
と判定された場合には、プロセス900は、直接にステップ918にスキップし
、ここで、要求されたサイトまたはページをユーザのために取り出す。
【0111】 判断ステップ912で、ユーザが、ステップ910で警告ページを受け取った
後に、ブロックされたサイトへのアクセスを要求しないと判定された場合には、
プロセス900は、要求されたサイトを取り出さずに、終了ステップ920で終
了する。
【0112】 図13は、クォータモジュール254内で動作する数値クォータプロセス95
0を示すフローチャートである。このプロセスは、ユーザがインターネット上の
特定のサイトにアクセスした回数を追跡するのに使用される。したがって、プロ
セス950は、ステップ952で開始され、ステップ954に進み、ここで、特
定のインターネットページの要求を、ユーザから受け取る。その後、プロセス9
50は、ステップ958に進み、ここで、要求されたサイトのカテゴリを、カテ
ゴリ化されたデータベース30を参照することによって判定する。
【0113】 その後、プロセス950は、要求されたサイトのカテゴリに関連するクォータ
パラメータを、クォータモジュール254から取り出す。したがって、ユーザが
、スポーツカテゴリに含まれると判定されたサイトへのアクセスを要求する場合
に、ステップ960で、スポーツカテゴリに関するクォータパラメータが取り出
される。たとえば、クォータパラメータは、ユーザが、24時間の期間内で選択
されたカテゴリ内のサイトに10回、20回、30回、40回、50回またはそ
れ以上のアクセスを許可されることとすることができる。
【0114】 その後、プロセス950は、ステップ964に進み、ここで、このカテゴリの
インターネットサイトへのアクセスの総数を、ストレージ258から取り出す。
この値を、カテゴリ化されたサイト管理モジュール26内で実施されるクォータ
システムに基づいて、毎日、毎週または毎月、0にセットすることができること
に留意されたい。
【0115】 判断ステップ968で、ユーザのクォータを超えたかどうかを判定する。ユー
ザのクォータを超えていない場合には、プロセス950は、ステップ970に進
み、ここで、ページまたはサイトを取り出す。その後、プロセス950は、ステ
ップ972で、ストレージ258内に保存されたカウンタに1を加算し、プロセ
ス950は、終了ステップ974で終了する。
【0116】 判断ステップ968で、このカテゴリのサイトへのアクセスの回数に関して、
ユーザのクォータがその回数を超えたと判定された場合には、プロセス950は
、ステップ978に進み、ここで、ユーザのクォータ最大回数を超えたという通
知をユーザに送る。その後、プロセス950は、終了ステップ974で終了する
【0117】 例1 トレーニングデータの正規化 上述のように、異なるウェブサイトのソースページは、異なる数の単語を有す
る。これが単語対および単語近接のトレーニングプロセスに影響する可能性があ
る。というのは、単語数の少ないインターネットサイトが、より少数の単語を有
するサイトより単語対および単語近接に対するより高い関連性を強制する可能性
があるからである。たとえば、それぞれソースページに10個および500個の
単語対を有する2つのページ、AおよびBを検討されたい。各サイトが、0の現
在のページスコア(Sc)と1000のターゲットページスコア(St)を有す
ると仮定する。現在のトレーニングアルゴリズムは、次の式の形になる。
【0118】 (E1) Wrn=Wrc+I ここで、Wrnは、新しい単語対の関連性であり、Wrcは、現在の単語対の関
連性であり、Iは、ページが即座に再スコアリングされる場合にそのスコアがタ
ーゲットスコアと等しくなるように、各単語対の関連性を増分しなければならな
い量である。Iは、現在のスコアをとり、ターゲットスコアから引き、ページの
単語対の総数(Wt)で割ることによって求めることができる。その式は次のよ
うになる。
【0119】 (E2) I=(St−Sc)/Wt 新しい単語対関連性を見つけるためには、現在の関連性を増分値に加算する必要
がある。新しい単語対関連性の式は、次のようになる。
【0120】 (E3) Wrn=Wrc+[(St−Sc)/Wt] 上の式を使用して、サイトAおよびBの単語対関連性を計算することによって、
次の結果が得られる。
【0121】 (E4) Wrn(A)=0+[(1000−0)/10]=100 (注:
I=100) (E5) Wrn(B)=0+[(1000−0)/500]=2 (注:I
=2) これらの結果を解釈すると、1ラウンドのトレーニングの後に、選択されたカ
テゴリに対して、サイトAの10個の単語対のそれぞれが、100の関連性を有
し、サイトBの500個の単語対のそれぞれが、2の関連性を有する。
【0122】 これらの2つのサイトが、特定のカテゴリのトレーニングに対して、同等に「
適する」と判定された場合に、論理的には、この2つのサイトが、他のページか
らの単語対に同一の度合まで影響しなければならない。しかし、この時点では、
そうではない。そうではなく、10個の単語対を有するサイトが、500個の単
語対を有するサイトより5000%ほどまで、見つかる単語の重みに影響する可
能性がある。その代わりに、ページに現れる単語数に無関係に、単語対を「均等
に」増分するシステムが望ましい。
【0123】 各単語対が増分される量を正規化する方法が、有利である。E4およびE5の
結果を使用すると、各単語対を増分することができる最小量および最大量が、そ
れぞれ100および2になる。最小関連性スコアと最大関連性スコアが互いに近
づくことが求められているので、中間点の定理を使用してこれらの平均をとるこ
とができる。
【0124】 Mp=(p1+p2)/2、ただし、Mpは中間点、p1は点1、p2は点2
である。
【0125】 最小増分と最大増分の間の中間点が、次式であることが分かる。
【0126】 (E6) Mp=[I(A)+I(B)]/2 E4およびE5式の値を使用すると、 (E7) Mp=[100+2]/2=102/2=51 になる。
【0127】 したがって、各サイトについて関連性スコアを中間点に向けて調整するのに使
用しなければならない「調整定数」の判定は、次の2つの式に依存する。
【0128】 (E8) I(A)×AdjCon(A)=Mp または AdjCon(A
)=Mp/I(A) (E9) I(B)×AdjCon(B)=Mp または AdjCon(B
)=Mp/I(B) 置換すると (E10) AdjCon(A)=51/100=.51 (E11) AdjCon(B)=51/2=25.5 になる。
【0129】 したがって、10単語では、増分に0.51をかけて、中間点値51に達しな
ければならない。同様に、500単語では、増分値に25.5をかけて、中間点
値51に達する必要がある。この論理を使用して、トレーニング正規化定数Nt
を定式化することができる。Ntを計算する式は次の通りである。
【0130】 (E12) Wt(X)×Nt=AdjCon(X) または Nt=Adj
Con(X)/Wt(X) 10単語の最小値(Wt(A)=10)と500単語の最大値(Wt(B)=
500)について、トレーニング正規化定数は次のようになる。
【0131】 (E13) Nt=AdjCon(A)/Wt(A)=0.51/10=0.
051 (E14) Nt=AdjCon(B)/Wt(B)=25.5/500=0
.051 10単語と500単語の間の単語の範囲を有するトレーニング正規化定数は、
0.051である。この定数の重要性を、これから示すことができる。この例で
1ラウンドのトレーニング後のページの総スコアSnは、次式を使用して求める
ことができる。
【0132】 (E15) Sn=Wt×Nt×(St−Sc)/Tp ここで、Tpは、単語組合せの可能性の総数である。
【0133】 可能性の総数が、グループ化および単語をサイクルする形などに依存すること
に留意されたい。たとえば、ページが100単語を有する場合に、10単語のグ
ループをとり、5の増分でサイクルすることができる。これを考慮に入れると、
Tpの式が、次のようになる。
【0134】 Tp=(Wt/Wi−1)×(Wg)!/[(Wg−k)!(k)!] ここで、kは、k−セットであり、単一単語の場合にk=1、単語対の場合に
k=2、単語3つ組の場合にk=3などである。Wgは、単語グループ化であり
、Wtは、単語総数であり、Wiは、単語増分(またはサイクル)である。上記
の例では、WtがTpと等しい。これによって、本明細書に示される例が簡約さ
れるが、k>1の時には、必ずしもそうではない。
【0135】 Wt=Tpの特殊な場合において、各単語の関連性スコアが増やされる量は、
次式になる。
【0136】 (E16) Nt×(St−Sc) または 0.051×(St−Sc) これは簡約された例であるが、トレーニングプロセスでの単語スコア正規化の
基本原理を示すものである。k>1(または単一単語カウント以外の何か)の場
合に、WtがTpと等しくないことに留意されたい。
【0137】 この正規化プロセスが、特定のサイトに関連する字句要素のトレーニング(ア
ップトレーン)に使用可能であるだけではなく、特定のサイトに関連しない字句
要素のトレーニング(ダウントレーン)にも使用できることも理解されたい。ア
ップトレーニングセッション中に、あるページの字句要素の単語関連性スコアが
、指定されたカテゴリ内で増やされて、それらがそのカテゴリにより強く関連す
ることが示される。
【0138】 ダウントレーニングセッション中に、あるページの字句要素の単語関連性スコ
アが減らされて、それらが選択されたカテゴリにより弱く関連することが示され
る。したがって、ページをダウントレーニングするために、正規化定数を計算し
て、各ページのスコアが、たとえば500のスコアまで、下に移動することを理
解されたい。このように、ページの各字句要素は、正規化定数が掛けられて、ペ
ージ関連性スコア値が低くなる。
【0139】 しかし、どちらの場合でも、各単語関連性スコアが変化する量を正規化し、そ
の結果、より少ない字句要素を有するページが、そのページで見つかる単語関連
性により大きく影響しないようにすることが好ましい。
【0140】 例2 インターネットページスコアリングの正規化 単語、単語対および単語近接が、ほぼ同一の値だけ「トレーニングアップ」さ
れ、その結果、それぞれが徐々に大きくなる関連性スコアを有するようになる場
合に、それがページスコアリング処理にどのような影響を及ぼすであろうか。2
つのサイトAおよびBが、それぞれ10個および500個の単語を有すると仮定
する。各サイトが、1ラウンドのトレーニングの前に0のスコアを有し、ターゲ
ットスコアは1000である。単一の単語を扱うので、K=1であり、Wt=T
pである。式16を使用して、各単語を増分する量が下記であることが分かる。
(E17)0.051×(St−Sc)=0.051×(1000−0)=51
各単語が、51ポイント増やされた場合に、1ラウンドのトレーニングの後の
各ページのスコアは、そのページの単語数の51倍になるはずである。各ページ
のスコアは、次のようになる。
【0141】 (E18) Score(A)=10×51=510 (E19) Score(B)=500×51=25500 明らかに、これらのスコアは、互いに近くはない。数だけに基づいて判断する
と、サイトBが、サイトAよりはるかに強くカテゴリに関連するように見える。
しかし、この両方が、同一のカテゴリをトレーニングするのに使用された。その
結果、これらは、1ラウンドのトレーニングの後に類似する値を有しなければな
らない。変化する個数の単語を有するページから作られる可能性があるスキュー
を考慮に入れるシステムが必要である。
【0142】 達成が求められているのは、ページに現れる単語の数に基づいてページのスコ
アを正規化する手段を作成することである。式18および19を使用して、サイ
トの最大スコアおよび最小スコアを近似することができる。最大値と最小値がそ
れぞれ近づくことが求められているので、下記の中間点の式を使用してそれらの
中間点を見つけることができる。
【0143】 (E20) (510+25500)/2=13005 このデータのセットの「調整変数」を求めるためには、中間点スコアを実際の
スコアで割る必要がある。
【0144】 (E21) Ns(A)=13005/510=25.5 (注:Wt=10
) (E22) Ns(B)=13005/25500=0.51 (注:Wt=
500) ここで、点(10単語、25.5)および(500単語、0.51)がわかっ
ている。さらに点(255、1)、(132、1.931818)および(37
8、0.674603)を求め、これらをプロットすると、次式を有する傾向線
を有する順序付けられたデータセットが得られる。
【0145】 (E23) y=255×x^−1 Ns(Wt)でy(単語のセット数に対するスコア正規化因子)、Wt(総単
語数)でxを置換する。次式が得られる。
【0146】 (E24) Ns(Wt)=255×(Wt)^−1 10単語および500単語を有するサイトAおよびBについて、 (E25) Ns(10)=255×(10)^−1=25.5 (E26) Ns(500)=255×(500)^−1=0.51 である。
【0147】 一般に、スコアリングの式は、次のようになる。
【0148】 (E27) 正規化されたスコア(サイトX)=Ns(Wt(サイトX))×
オリジナルスコア(サイトX) 式18および19からの結果を使用すると、サ
イトAおよびサイトBのスコアは、それぞれ510および25500であった。
正規化されたスコア技法を使用すると、1ラウンドのトレーニングの後に、これ
らのサイトのスコアが、次のようになる。
【0149】 (E28) 正規化されたスコア(A)=Ns(Wt(A))×スコア(A)
=25.5×510=13005 (E29) 正規化されたスコア(B)=Ns(Wt(B))×スコア(B)
=0.51×25500=13005 これらのサイトは、トレーニングの後に同一のスコアを有する。これによって
、カテゴリのトレーニングに使用されるサイトが類似するスコアを有しなければ
ならないという論理が支持される。これらの式を、例1で示したトレーニングデ
ータの正規化と組み合わせることによって、トレーニングセット内に異なる単語
数を有するサイトを有することによって引き起こされる誤差が最小になる。
【0150】 例3 ページのスコアリング 約8000サンプルが、提案データベースのカテゴリ2(またはセックス 2
)からのサイトから収集された。これらの潜在的なカテゴリ2サイトは、ウェブ
分析家によって事前に検査されて、それらが実際に、主に性的またはポルノグラ
フィ的な性質のインターネットサイトであるかどうかが判定された。セックスサ
イトとして検証されたサイトに、8のスコアが割り当てられ、セックスサイトで
ないと判定されたサイトに、7のスコアが割り当てられた。カテゴリ化システム
は、全部で8000のサイトにカテゴリ2のカテゴリレーティングを割り当てた
【0151】 この調査の目的は、カテゴリ化システムが、8および7としてレーティングさ
れたサイト、または、それぞれ許容されるサイトおよび削除されるサイトを区別
できるかどうかを判定することであった。削除されるサイトが、セックスカテゴ
リ内にカテゴリ化されてはならないサイトであり、許容されるサイトが、このカ
テゴリ内であると確認されるサイトであることに留意されたい。仮定は、8とし
てのサイトレートの平均スコアが、7としてレーティングされたサイトの平均ス
コアと統計的に異なるということである。想像されるように、許容されるサイト
の平均値(8)は、削除されるサイトの平均値(7)より大きく、その差は有意
であった。しかし、2つのグループの間にオーバーラップがあった。この結果は
、伴う誤りを最小にするために、カットオフ点を使用することができることを示
している。
【0152】
【表2】
【0153】 アルファ点=Ap=M7+4(SD7)=929+4(482)=2857 ベータ点=Bp=M7+1(SD7)=929+1(482)=1411 2857のアルファ点を使用することによって、99%以上のソーティング精
度が得られることが分かった。アルファスコアを超えるがセックスカテゴリに属
さないサイトは、9つだけであった。そのうちの7つは、単純な誤りであり、お
そらくはカテゴリ2サイトの不十分なトレーニングに帰するものと推定された。
【0154】 そのうちの2つは、意図的な策略であり、インターネットサイトが、メタタグ
で注意を引くためにセックス関連用語を使用したことを意味する。2857のア
ルファ点を使用したソーティング精度の正確なパーセンテージは、したがって、
99.30%であった。このように、このテストによれば、このアルファ点を超
えるスコアを有する1000個のサイトが入力された場合に、平均して、7つだ
けの誤りと、993個の正しくソートされたサイトがある。
【0155】 しかし、アルファ点は非常に高く設定されるので、実際にはセックス指向であ
る多くのサイトが、全くカテゴリ化されない。2857のアルファ点を使用する
と、許容されるサイトの包含レベルは49.80%にすぎない。これは、カテゴ
リ2に含まれなければならない1000個のサイトのうちで、498個が見つか
り、502個が見逃されることを意味する。
【0156】 このため、このシステムでは、ベータ点の作成により、各カテゴリへのより低
い関連性を有するサイトも監視する。1411のベータ点を使用すると、包含レ
ベルが、49.80%から81.76%に上がる。見逃されるサイトの数は、5
02から183サイトに下がり、見つかる数が、498から817に上がる。し
たがって、アルファ点とベータ点の両方の使用によって、新しいサイトのより正
確なスコアリングがもたらされる。
【0157】 例4 増分によるトレーニングデータの正規化 トレーニングデータを正規化する方法のもう1つの実施の形態を、以下で説明
する。まず、トレーニングされるページについて、Is=初期スコア、Ts=タ
ーゲットスコアと定義する。 1)たとえば1のテスト増分値を用いて開始する。すべての字句値の関連性の値
をテスト値だけ増分する(たとえば:ページに存在するすべての字句値)。 2)このテスト加算の後に、結果のページ関連性スコアを計算する。 3)新しいスコア=Msの場合に、増分値I、(すべての字句要素について) I=(Ts−Is)/(Ms−Is)である。
【0158】 したがって、ターゲットスコアと現在のスコアとの間の差を、各要素関連性が
1つだけ増分される時のスコアの影響で割った値が、ターゲットスコアを達成す
るための、各要素を増分するのに正しい数である。
【0159】 したがって、Is=500かつTs=1000の場合に、すべての関連性を1
つだけ増分することによって、550のページスコアがもたらされ、 I=(1000−500)/(550−500) になる。
【0160】 したがって、1000のページスコアをもたらすためにページを増分するには
、各字句要素について、10の増分値を使用する必要がある。
【0161】 一般に、ある値の関連性は、増分定数(I)×ページでのその要素の出現の回
数によって増分される。これは、ある要素があるページに頻繁に現れるほど、そ
の要素がそのページにより関連するという概念の当然の結果である。しかし、こ
の処理は、頻繁に現れるが一般的な単語でない要素の関連性の大きい変動をもた
らす。このために、一実施の形態では、各値が、最大で5×増分定数(I)の増
分だけが許可される。
【図面の簡単な説明】
【図1】 インターネットサイトへのアクセスをブロックするシステムの一
実施の形態の概要を示すブロック図である。
【図2】 図1に示されているカテゴリ化システムを示すブロック図である
【図3】 図2に示されているトレーニングデータベース内のテーブルを示
すブロック図である。
【図4】 インターネットサイトへの延期されたアクセスを提供するシステ
ムの一実施の形態を示すブロック図である。
【図5】 ユーザがインターネットページへのアクセスを要求するプロセス
を示すフローチャートである
【図6】 図5に示されている「ページの単語内容を分析する」プロセスを
示すフローチャートである。
【図7】 図2に示されているトレーニングモジュール内で実行されるデー
タをトレーニングするプロセスを示すフローチャートである。
【図8】 図2に示されているサイト/ページ取出モジュールによって実行
されるページ取出プロセスの一実施の形態を示すフローチャートである。
【図9】 延期されたインターネットサイトをデータベースに保存するプロ
セスの一実施の形態を示すフローチャートである。
【図10】 図9に示したプロセスを使用して保存されたサイトを見るプロ
セスの一実施の形態を示すフローチャートである。
【図11】 ユーザがあるインターネットサイトで費やした時間を測定し、
所定の時間を満たした後に、インターネットへのアクセスをブロックするプロセ
スの一実施の形態を示すフローチャートである。
【図12】 ユーザがブロックされたインターネットサイトを要求したこと
をユーザに通知するとともに、ユーザによる要求に基づいてアクセスを許可する
プロセスの一実施の形態を示すフローチャートである。
【図13】 ユーザが特定のインターネットサイトにアクセスした回数をカ
ウントし、所定の限界に達した後にそのサイトへのアクセスをブロックするプロ
セスの一実施の形態を示すフローチャートである。
【手続補正書】特許協力条約第34条補正の翻訳文提出書
【提出日】平成14年1月7日(2002.1.7)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】特許請求の範囲
【補正方法】変更
【補正の内容】
【特許請求の範囲】
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 15/00 310 G06F 15/00 310D (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,TZ,UG,ZW ),EA(AM,AZ,BY,KG,KZ,MD,RU, TJ,TM),AE,AL,AM,AT,AU,AZ, BA,BB,BG,BR,BY,CA,CH,CN,C R,CU,CZ,DE,DK,DM,EE,ES,FI ,GB,GD,GE,GH,GM,HR,HU,ID, IL,IN,IS,JP,KE,KG,KP,KR,K Z,LC,LK,LR,LS,LT,LU,LV,MA ,MD,MG,MK,MN,MW,MX,NO,NZ, PL,PT,RO,RU,SD,SE,SG,SI,S K,SL,TJ,TM,TR,TT,TZ,UA,UG ,UZ,VN,YU,ZA,ZW (72)発明者 アイ デビッド アメリカ合衆国 92130 カリフォルニア サン ディエゴ バレー センタ 3830 ナンバー705−641 Fターム(参考) 5B075 KK33 KK37 KK43 KK63 PR08 5B082 EA11 5B085 AC14 BA06 BG07 5B089 HA10 KA17 KB11 KB13 KC29 KC37 KC52 MC01

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 インターネットサイトのカテゴリへのユーザアクセスを制御
    するシステムであって、 インターネットサイトのカテゴリ化されたデータベースと、 該カテゴリ化されたデータベースを参照し、ユーザによってアクセスされてい
    るインターネットサイトのカテゴリを判定する第1モジュールと、 ユーザが前記カテゴリ内のインターネットサイト上で事前にセットされた時間
    を費やしたかどうかを判定し、該判定に対応して、前記ユーザの前記サイトへの
    それ以上のアクセスをブロックする第2モジュールと を含むシステム。
  2. 【請求項2】 インターネット上の特定のサイトへの延期されたアクセスを
    提供するシステムであって、 インターネットサイトのカテゴリ化されたデータベースと、 該カテゴリ化されたデータベースを参照し、ユーザによってアクセスされてい
    るインターネットサイトのカテゴリを判定する第1モジュールと、 ユーザが前記カテゴリ内のインターネットサイトへの延期されたアクセスを要
    求するかどうかを判定し、該判定に対応して、前記要求されたインターネットサ
    イトからのページをストレージに保存する命令を含む第2モジュールと を含むシステム。
  3. 【請求項3】 インターネットサイトのカテゴリへのアクセスを制御するシ
    ステムであって、 インターネットサイトのカテゴリ化されたデータベースと、 該カテゴリ化されたデータベースを参照し、ユーザによってアクセスされてい
    るインターネットサイトのカテゴリを判定する第1モジュールと、 ユーザが前記カテゴリ内のインターネットサイトに所定の回数だけアクセスし
    たかどうかを判定し、該判定に対応して、前記ユーザの前記インターネットサイ
    トへのそれ以上のアクセスをブロックする第2モジュールと を含むシステム。
  4. 【請求項4】 インターネットサイトへのアクセスを制御するシステムであ
    って、 インターネットサイトのカテゴリ化されたデータベースと、 該カテゴリ化されたデータベースを参照し、ユーザによってアクセスされてい
    るインターネットサイトのカテゴリを判定する第1モジュールと、 ユーザが前記カテゴリ内のインターネットサイトにアクセスしたかどうかを判
    定し、その後、前記ユーザに、すべてのインターネットアクセスがログファイル
    に保存されることを通知する命令を含む第2モジュールと を含むシステム。
  5. 【請求項5】 インターネットサイトのカテゴリへのユーザアクセスを制御
    する方法であって、 インターネットサイトのカテゴリ化されたデータベースを参照することと、 ユーザによってアクセスされつつあるインターネットサイトのカテゴリを判定
    することと、 ユーザが前記カテゴリ内のインターネットサイト上で事前にセットされた時間
    を費やしたかどうかを判定し、該判定に対応して、前記ユーザの前記サイトへの
    それ以上のアクセスをブロックすることと を含む方法。
  6. 【請求項6】 インターネット上の特定のサイトへの延期されたアクセスを
    提供する方法であって、 インターネットサイトのカテゴリ化されたデータベースを参照することと、 ユーザによってアクセスされているインターネットサイトのカテゴリを判定す
    ることと、 前記ユーザが前記カテゴリ内のインターネットサイトへの延期されたアクセス
    を要求するかどうかを判定し、該判定に対応して、要求された前記インターネッ
    トサイトからのページをストレージに保存することと を含む方法。
  7. 【請求項7】 インターネットサイトのカテゴリへのアクセスを制御する方
    法であって、 インターネットサイトのカテゴリ化されたデータベースを参照することと、 ユーザによってアクセスされているインターネットサイトのカテゴリを判定す
    ることと、 ユーザが前記カテゴリ内のインターネットサイトに所定の回数だけアクセスし
    たかどうかを判定し、該判定に対応して、前記ユーザの前記サイトへのそれ以上
    のアクセスをブロックすることと を含む方法。
  8. 【請求項8】 インターネットサイトへのアクセスを制御する方法であって
    、 インターネットサイトのカテゴリ化されたデータベースを参照することと、 ユーザによってアクセスされているインターネットサイトのカテゴリを判定す
    ることと、 ユーザが前記カテゴリ内のインターネットサイトにアクセスしたかどうかを判
    定し、その後、前記ユーザに、すべてのインターネットアクセスがログファイル
    に保存されることを通知することと を含む方法。
JP2001555349A 2000-01-28 2000-01-28 インターネットサイトへのアクセスを制御するシステムおよびプログラム Expired - Fee Related JP4420589B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2000/002314 WO2001055873A1 (en) 2000-01-28 2000-01-28 System and method for controlling access to internet sites

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2009238129A Division JP5247650B2 (ja) 2009-10-15 2009-10-15 インターネットサイトへのアクセスを制御するシステムに用いられるデータベースの作成方法、システムおよび記録媒体

Publications (3)

Publication Number Publication Date
JP2003521065A true JP2003521065A (ja) 2003-07-08
JP2003521065A5 JP2003521065A5 (ja) 2005-04-07
JP4420589B2 JP4420589B2 (ja) 2010-02-24

Family

ID=21741011

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001555349A Expired - Fee Related JP4420589B2 (ja) 2000-01-28 2000-01-28 インターネットサイトへのアクセスを制御するシステムおよびプログラム

Country Status (7)

Country Link
EP (1) EP1256064B1 (ja)
JP (1) JP4420589B2 (ja)
AT (1) ATE411562T1 (ja)
AU (2) AU771963B2 (ja)
CA (1) CA2397757C (ja)
DE (1) DE60040560D1 (ja)
WO (1) WO2001055873A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2006080072A1 (ja) * 2005-01-27 2008-06-19 富士通株式会社 情報処理方法及び情報処理装置
JP2008146622A (ja) * 2006-11-17 2008-06-26 Quality Kk 管理装置および管理プログラム
JP2009037420A (ja) * 2007-08-01 2009-02-19 Yahoo Japan Corp 有害コンテンツの評価付与装置、プログラム及び方法
JP2009122931A (ja) * 2007-11-14 2009-06-04 Ntt Resonant Inc Spam特徴情報生成装置、spam情報フィルタリング装置および情報検索装置およびその方法
JP2010108469A (ja) * 2008-10-01 2010-05-13 Sky Co Ltd 操作監視システム及び操作監視プログラム
JP2012073818A (ja) * 2010-09-29 2012-04-12 Kddi Corp Webサイトに対するアクセス履歴管理サーバ、プログラム及び方法
JP2012174082A (ja) * 2011-02-23 2012-09-10 Mitsubishi Electric Corp 情報処理装置及び情報処理方法及びプログラム

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6606659B1 (en) 2000-01-28 2003-08-12 Websense, Inc. System and method for controlling access to internet sites
JP3886362B2 (ja) * 2001-11-13 2007-02-28 富士通株式会社 コンテンツフィルタリング方法、コンテンツフィルタリング装置およびコンテンツフィルタリングプログラム
US6947985B2 (en) 2001-12-05 2005-09-20 Websense, Inc. Filtering techniques for managing access to internet sites or other software applications
US7194464B2 (en) 2001-12-07 2007-03-20 Websense, Inc. System and method for adapting an internet filter
KR100527794B1 (ko) * 2002-02-26 2005-11-09 (주)넷피아닷컴 네트워크 접속 차단 시스템 및 그 방법
US7185015B2 (en) * 2003-03-14 2007-02-27 Websense, Inc. System and method of monitoring and controlling application files
US7529754B2 (en) 2003-03-14 2009-05-05 Websense, Inc. System and method of monitoring and controlling application files
US7792963B2 (en) * 2003-09-04 2010-09-07 Time Warner Cable, Inc. Method to block unauthorized network traffic in a cable data network
US8566726B2 (en) 2005-05-03 2013-10-22 Mcafee, Inc. Indicating website reputations based on website handling of personal information
US7765481B2 (en) 2005-05-03 2010-07-27 Mcafee, Inc. Indicating website reputations during an electronic commerce transaction
US7562304B2 (en) 2005-05-03 2009-07-14 Mcafee, Inc. Indicating website reputations during website manipulation of user information
US7822620B2 (en) 2005-05-03 2010-10-26 Mcafee, Inc. Determining website reputations using automatic testing
US9384345B2 (en) 2005-05-03 2016-07-05 Mcafee, Inc. Providing alternative web content based on website reputation assessment
US8438499B2 (en) 2005-05-03 2013-05-07 Mcafee, Inc. Indicating website reputations during user interactions
US8020206B2 (en) 2006-07-10 2011-09-13 Websense, Inc. System and method of analyzing web content
US8615800B2 (en) * 2006-07-10 2013-12-24 Websense, Inc. System and method for analyzing web content
US9654495B2 (en) 2006-12-01 2017-05-16 Websense, Llc System and method of analyzing web addresses
GB0709527D0 (en) 2007-05-18 2007-06-27 Surfcontrol Plc Electronic messaging system, message processing apparatus and message processing method
US7792846B1 (en) 2007-07-27 2010-09-07 Sonicwall, Inc. Training procedure for N-gram-based statistical content classification
EP2318955A1 (en) 2008-06-30 2011-05-11 Websense, Inc. System and method for dynamic and real-time categorization of webpages
WO2010138466A1 (en) 2009-05-26 2010-12-02 Wabsense, Inc. Systems and methods for efficeint detection of fingerprinted data and information
US20120151386A1 (en) * 2010-12-10 2012-06-14 Microsoft Corporation Identifying actions in documents using options in menus
US9117054B2 (en) 2012-12-21 2015-08-25 Websense, Inc. Method and aparatus for presence based resource management

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2176775C (en) * 1995-06-06 1999-08-03 Brenda Sue Baker System and method for database access administration
US5706507A (en) * 1995-07-05 1998-01-06 International Business Machines Corporation System and method for controlling access to data located on a content server
US5832212A (en) * 1996-04-19 1998-11-03 International Business Machines Corporation Censoring browser method and apparatus for internet viewing
US5835722A (en) * 1996-06-27 1998-11-10 Logon Data Corporation System to control content and prohibit certain interactive attempts by a person using a personal computer
US5911043A (en) * 1996-10-01 1999-06-08 Baker & Botts, L.L.P. System and method for computer-based rating of information retrieved from a computer network
US5987611A (en) * 1996-12-31 1999-11-16 Zone Labs, Inc. System and methodology for managing internet access on a per application basis for client computers connected to the internet
US5996011A (en) * 1997-03-25 1999-11-30 Unified Research Laboratories, Inc. System and method for filtering data received by a computer system
US5961591A (en) * 1997-05-13 1999-10-05 Microsoft Corporation Downloading data while rejection of its use may be overridden
US5978807A (en) * 1997-09-30 1999-11-02 Sony Corporation Apparatus for and method of automatically downloading and storing internet web pages

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2006080072A1 (ja) * 2005-01-27 2008-06-19 富士通株式会社 情報処理方法及び情報処理装置
JP2008146622A (ja) * 2006-11-17 2008-06-26 Quality Kk 管理装置および管理プログラム
JP2009037420A (ja) * 2007-08-01 2009-02-19 Yahoo Japan Corp 有害コンテンツの評価付与装置、プログラム及び方法
JP2009122931A (ja) * 2007-11-14 2009-06-04 Ntt Resonant Inc Spam特徴情報生成装置、spam情報フィルタリング装置および情報検索装置およびその方法
JP2010108469A (ja) * 2008-10-01 2010-05-13 Sky Co Ltd 操作監視システム及び操作監視プログラム
JP2013131257A (ja) * 2008-10-01 2013-07-04 Sky Co Ltd 操作監視システム及び操作監視プログラム
JP2012073818A (ja) * 2010-09-29 2012-04-12 Kddi Corp Webサイトに対するアクセス履歴管理サーバ、プログラム及び方法
JP2012174082A (ja) * 2011-02-23 2012-09-10 Mitsubishi Electric Corp 情報処理装置及び情報処理方法及びプログラム

Also Published As

Publication number Publication date
AU2863800A (en) 2001-08-07
DE60040560D1 (de) 2008-11-27
EP1256064A4 (en) 2004-06-30
AU2004201643B2 (en) 2007-03-08
AU2004201643A1 (en) 2004-05-13
EP1256064A1 (en) 2002-11-13
AU771963B2 (en) 2004-04-08
ATE411562T1 (de) 2008-10-15
JP4420589B2 (ja) 2010-02-24
CA2397757C (en) 2009-09-08
WO2001055873A1 (en) 2001-08-02
CA2397757A1 (en) 2001-08-02
EP1256064B1 (en) 2008-10-15

Similar Documents

Publication Publication Date Title
JP4420589B2 (ja) インターネットサイトへのアクセスを制御するシステムおよびプログラム
US9565235B2 (en) System and method for controlling access to internet sites
WO2001055905A1 (en) Automated categorization of internet data
US7089246B1 (en) Overriding content ratings and restricting access to requested resources
US9503423B2 (en) System and method for adapting an internet filter
US6662230B1 (en) System and method for dynamically limiting robot access to server data
US7594258B2 (en) Access control systems and methods using visibility tokens with automatic propagation
US7680860B1 (en) Method and system for creating vertical search engines
JP4292403B2 (ja) インターネットサイトまたは他のソフトウェアアプリケーションに対するアクセスを管理するフィルタリング技術
US7627568B2 (en) Method and system for updating a search engine database based on popularity of links
US7305432B2 (en) Privacy preferences roaming and enforcement
US7007174B2 (en) System and method for determining user identity fraud using similarity searching
US20050021796A1 (en) System and method for filtering of web-based content stored on a proxy cache server
US20060242133A1 (en) Systems and methods for collaborative searching
WO2002073864A2 (en) Access control protocol for user profile management
JP2001526804A (ja) データベースアクセス制御システム及び方法
EP2318955A1 (en) System and method for dynamic and real-time categorization of webpages
WO2001098934A2 (en) Method and apparatus for granting access to internet content
US20020040364A1 (en) Access controlling method, its execution apparatus and record medium recording its operational program
WO2001075668A2 (en) Search systems
JP5247650B2 (ja) インターネットサイトへのアクセスを制御するシステムに用いられるデータベースの作成方法、システムおよび記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070124

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070614

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070709

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20070928

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091015

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091201

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121211

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees