JP3220104B2 - Url階層構造を利用した情報自動フィルタリング方法および装置 - Google Patents
Url階層構造を利用した情報自動フィルタリング方法および装置Info
- Publication number
- JP3220104B2 JP3220104B2 JP03752599A JP3752599A JP3220104B2 JP 3220104 B2 JP3220104 B2 JP 3220104B2 JP 03752599 A JP03752599 A JP 03752599A JP 3752599 A JP3752599 A JP 3752599A JP 3220104 B2 JP3220104 B2 JP 3220104B2
- Authority
- JP
- Japan
- Prior art keywords
- url
- information
- inappropriate
- filtering
- determination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Computer And Data Communications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Description
【0001】
【発明の属する技術分野】本発明は、インターネットを
介して提供される各種情報のうち不適切情報、例えばポ
ルノ画像等のような有害情報を識別し、この識別した不
適切情報の提供を阻止する有害情報自動フィルタリング
方法および装置に関し、更に詳しくは、階層構造に構成
されているURLに基づき不適切情報を判定し、その不
適切情報の提示を阻止するURL階層構造を利用した情
報自動フィルタリング方法および装置に関する。
介して提供される各種情報のうち不適切情報、例えばポ
ルノ画像等のような有害情報を識別し、この識別した不
適切情報の提供を阻止する有害情報自動フィルタリング
方法および装置に関し、更に詳しくは、階層構造に構成
されているURLに基づき不適切情報を判定し、その不
適切情報の提示を阻止するURL階層構造を利用した情
報自動フィルタリング方法および装置に関する。
【0002】
【従来の技術】インターネットの急速な広がりに伴い、
限られた専門家の道具でしかなかったコンピュータはご
く一般の家庭や学校などにも導入され始めている。この
ため、これまでコンピュータに触れることすらなかった
多くの一般人でも気軽にインターネットにアクセスする
ことが可能になった。こうした背景の中、近年深刻な問
題となっているのがインターネット上に氾濫するポルノ
画像などの有害情報に対する子供のアクセスである。こ
の問題に対処するため、アメリカでは政府機関がインタ
ーネット上の情報を検閲することを可能にした「通信品
位法」という法律が提案されたが、裁判の結果、表現の
自由を保証する憲法に違反すると判決され、立法するこ
とができなかった。
限られた専門家の道具でしかなかったコンピュータはご
く一般の家庭や学校などにも導入され始めている。この
ため、これまでコンピュータに触れることすらなかった
多くの一般人でも気軽にインターネットにアクセスする
ことが可能になった。こうした背景の中、近年深刻な問
題となっているのがインターネット上に氾濫するポルノ
画像などの有害情報に対する子供のアクセスである。こ
の問題に対処するため、アメリカでは政府機関がインタ
ーネット上の情報を検閲することを可能にした「通信品
位法」という法律が提案されたが、裁判の結果、表現の
自由を保証する憲法に違反すると判決され、立法するこ
とができなかった。
【0003】そこで最近注目されているのが「情報フィ
ルタリング」という技術である。情報フィルタリングと
は、ユーザがインターネット上の情報にアクセスする際
にその情報の有害性をチェックし、有害と判定された場
合は何らかの手段によりその情報へのアクセスをブロッ
クするという技術である。
ルタリング」という技術である。情報フィルタリングと
は、ユーザがインターネット上の情報にアクセスする際
にその情報の有害性をチェックし、有害と判定された場
合は何らかの手段によりその情報へのアクセスをブロッ
クするという技術である。
【0004】現在市販されている有害情報フィルタリン
グソフトで取り入れられている手法は大きく以下の3つ
に分類される。
グソフトで取り入れられている手法は大きく以下の3つ
に分類される。
【0005】 (1)自己判定によるフィルタリング (2)第三者の判定によるフィルタリング (3)自動フィルタリング ここではこの3つの手法について簡単に解説する。ま
ず、自己判定によるフィルタリング手法ではWWW情報
の提供者が自らのコンテンツの有害性について判定を行
い、その結果をHTMLファイル内に記述する。フィル
タリングソフトはこの記述された結果を参照し、有害と
判断された場合にアクセスをブロックする。この手法に
よるフィルタリングを図6に示す。
ず、自己判定によるフィルタリング手法ではWWW情報
の提供者が自らのコンテンツの有害性について判定を行
い、その結果をHTMLファイル内に記述する。フィル
タリングソフトはこの記述された結果を参照し、有害と
判断された場合にアクセスをブロックする。この手法に
よるフィルタリングを図6に示す。
【0006】図6に示す自己判定に基づくフィルタリン
グでは、米国マサチューセッツ工科大学のWorld Wide W
eb Consortium が作成したPICS(Platform for Int
ernet Content Selection )と呼ばれるインターネット
コンテンツの評価を記述するための基準を使用してい
る。PICSを使用することにより、コンテンツ提供者
は簡単に自分の提供している情報を描写し、開示するこ
とができる。
グでは、米国マサチューセッツ工科大学のWorld Wide W
eb Consortium が作成したPICS(Platform for Int
ernet Content Selection )と呼ばれるインターネット
コンテンツの評価を記述するための基準を使用してい
る。PICSを使用することにより、コンテンツ提供者
は簡単に自分の提供している情報を描写し、開示するこ
とができる。
【0007】多くの場合、コンテンツ提供者がこのよう
な評価結果を公開する際には、PICSによる評価結果
を出力する評価機関のサービスを利用する。このような
評価機関の代表として、Recreational Software Adviso
ry Council(RSAC)やSafeSurfといった団体があげ
られ、それぞれ独自に設定した基準による評価結果を提
供している。コンテンツ提供者はこれらの機関からの評
価結果をHTMLファイルのヘッダに記述する。図7に
この評価結果の記述例を示す。
な評価結果を公開する際には、PICSによる評価結果
を出力する評価機関のサービスを利用する。このような
評価機関の代表として、Recreational Software Adviso
ry Council(RSAC)やSafeSurfといった団体があげ
られ、それぞれ独自に設定した基準による評価結果を提
供している。コンテンツ提供者はこれらの機関からの評
価結果をHTMLファイルのヘッダに記述する。図7に
この評価結果の記述例を示す。
【0008】この自己判定はコンテンツ提供者の自主性
に任せられるというのが現状である。そのため、多くの
コンテンツ提供者がこの判定を受けようという意志を持
たない限りは本手法による有効な有害情報フィルタリン
グは不可能であるといえる。
に任せられるというのが現状である。そのため、多くの
コンテンツ提供者がこの判定を受けようという意志を持
たない限りは本手法による有効な有害情報フィルタリン
グは不可能であるといえる。
【0009】次に、第三者による判定に基づくフィルタ
リングについて説明する。有害情報フィルタリングソフ
トを作成している業者の中には、WWW上のホームペー
ジの有害性を独自に判定し、その結果をフィルタリング
ソフトの判断基準とする手法を取り入れている。一般的
には、この評価の結果として有害なホームページのUR
L一覧が構築される。このURLのリストはフィルタリ
ングソフトとともにユーザに分配され、フィルタリング
ソフトの判断基準となる。多くの場合、、フィルタリン
グソフトはこの有害URL一覧を定期的にダウンロード
する仕組みになっている。第三者による判定に基づく有
害情報フィルタリングの仕組みを図8に示す。
リングについて説明する。有害情報フィルタリングソフ
トを作成している業者の中には、WWW上のホームペー
ジの有害性を独自に判定し、その結果をフィルタリング
ソフトの判断基準とする手法を取り入れている。一般的
には、この評価の結果として有害なホームページのUR
L一覧が構築される。このURLのリストはフィルタリ
ングソフトとともにユーザに分配され、フィルタリング
ソフトの判断基準となる。多くの場合、、フィルタリン
グソフトはこの有害URL一覧を定期的にダウンロード
する仕組みになっている。第三者による判定に基づく有
害情報フィルタリングの仕組みを図8に示す。
【0010】このような仕組みを持つソフトウェアの代
表的なものとしてCyberPatrol があげられる。CyberPat
rol は「暴力」「性行為」など13個のジャンルに対
し、それぞれ有害URL一覧を持っており、これらのシ
ステムに従って有害情報フィルタリングを行う。
表的なものとしてCyberPatrol があげられる。CyberPat
rol は「暴力」「性行為」など13個のジャンルに対
し、それぞれ有害URL一覧を持っており、これらのシ
ステムに従って有害情報フィルタリングを行う。
【0011】この手法で使用される有害URL一覧はそ
れぞれのソフトウェア業者でホームページをアクセス
し、判定を行うことによって作成・拡張されているた
め、新しく設立されたホームページや従来のURLから
別のURLに移動したホームページには対処することは
不可能である。従って、こうした評価対象外のページに
対するフィルタリングには対処できないのが現状であ
る。
れぞれのソフトウェア業者でホームページをアクセス
し、判定を行うことによって作成・拡張されているた
め、新しく設立されたホームページや従来のURLから
別のURLに移動したホームページには対処することは
不可能である。従って、こうした評価対象外のページに
対するフィルタリングには対処できないのが現状であ
る。
【0012】次に、自動フィルタリングについて説明す
る。有害情報フィルタリングソフトの中にはアクセスさ
れたホームページの中身をチェックし、有害性の判断を
行うものもある。このような発想は初期のフィルタリン
グソフトで導入されていた。その例として、例えば”s
ex”や“xxx”といった文字列がURLに含まれて
いた場合、そのURLへのアクセスを禁止するなどとい
う処理を行うソフトが存在した。現在はページの中身に
ついて検証を行うソフトも開発されている。CyberSITTE
R はこうした自動フィルタリングを行うソフトの1つで
ある。このソフトではアクセスされたページに含まれる
有害な単語を取り除いて出力するという手法によってフ
ィルタリングが行われる。
る。有害情報フィルタリングソフトの中にはアクセスさ
れたホームページの中身をチェックし、有害性の判断を
行うものもある。このような発想は初期のフィルタリン
グソフトで導入されていた。その例として、例えば”s
ex”や“xxx”といった文字列がURLに含まれて
いた場合、そのURLへのアクセスを禁止するなどとい
う処理を行うソフトが存在した。現在はページの中身に
ついて検証を行うソフトも開発されている。CyberSITTE
R はこうした自動フィルタリングを行うソフトの1つで
ある。このソフトではアクセスされたページに含まれる
有害な単語を取り除いて出力するという手法によってフ
ィルタリングが行われる。
【0013】本手法には2つの問題点がある。まず1つ
は、この自動判定を行う際に生じる処理時間である。最
も、この程度の処理では数ミリ秒程度の少ない処理時間
ではあるが、こうした短い時間でもユーザにフラストレ
ーションが生じる可能性は否定できない。
は、この自動判定を行う際に生じる処理時間である。最
も、この程度の処理では数ミリ秒程度の少ない処理時間
ではあるが、こうした短い時間でもユーザにフラストレ
ーションが生じる可能性は否定できない。
【0014】もう一方の問題は、自動フィルタリングの
精度である。まず、単語単位で有害性を判断するような
判定アルゴリズムが採用されている場合、多くの無害な
ページがブロックされてしまう可能性が高い。現に、イ
ギリスの“Sussex”という町に関するホームページがブ
ロックされるといった悪例も報告されている。更に、ペ
ージ内のテキスト情報のみに着目して自動フィルタリン
グを行う場合、画像のみが表示されているページをブロ
ックすることは不可能であるという問題もあげられる。
精度である。まず、単語単位で有害性を判断するような
判定アルゴリズムが採用されている場合、多くの無害な
ページがブロックされてしまう可能性が高い。現に、イ
ギリスの“Sussex”という町に関するホームページがブ
ロックされるといった悪例も報告されている。更に、ペ
ージ内のテキスト情報のみに着目して自動フィルタリン
グを行う場合、画像のみが表示されているページをブロ
ックすることは不可能であるという問題もあげられる。
【0015】
【発明が解決しようとする課題】フィルタリングソフト
の大きな目的は有害なページがブロックされる割合を増
やすことと、無害なページが誤ってブロックされる割合
を減らすことである。ブロックされたページのうち、実
際に有害だったページの割合を正解率(precision )、
実際に有害なページのうちブロックされたページの割合
を再現率(recall)とすると、フィルタリングソフトの
目的は正解率と再現率をともに高めることであるといえ
る。
の大きな目的は有害なページがブロックされる割合を増
やすことと、無害なページが誤ってブロックされる割合
を減らすことである。ブロックされたページのうち、実
際に有害だったページの割合を正解率(precision )、
実際に有害なページのうちブロックされたページの割合
を再現率(recall)とすると、フィルタリングソフトの
目的は正解率と再現率をともに高めることであるといえ
る。
【0016】上述した各手法にはそれぞれ一長一短があ
る。各手法の特徴を正解率と再現率という観点からまと
めた。この結果を表1に示す。
る。各手法の特徴を正解率と再現率という観点からまと
めた。この結果を表1に示す。
【0017】
【表1】 このように、現在市販されているフィルタリングソフト
では十分なフィルタリング性能が得られないのが現状で
ある。
では十分なフィルタリング性能が得られないのが現状で
ある。
【0018】また、上述したように、従来の自動フィル
タリングでは、ページ内のテキスト情報のみに着目して
自動フィルタリングを行うため、テキスト情報が少ない
かまたは全くなく、画像のみが表示されているページを
阻止することが不可能であるという問題がある。
タリングでは、ページ内のテキスト情報のみに着目して
自動フィルタリングを行うため、テキスト情報が少ない
かまたは全くなく、画像のみが表示されているページを
阻止することが不可能であるという問題がある。
【0019】本発明は、上記に鑑みてなされたもので、
その目的とするところは、階層構造になっているURL
の上位URLを用いることにより正解率および再現率共
に向上し得るとともに、画像のみが掲載されている少テ
キストページに対しても内容の不適切さを適確に判定し
得るURL階層構造を利用した情報自動フィルタリング
方法および装置を提供することにある。
その目的とするところは、階層構造になっているURL
の上位URLを用いることにより正解率および再現率共
に向上し得るとともに、画像のみが掲載されている少テ
キストページに対しても内容の不適切さを適確に判定し
得るURL階層構造を利用した情報自動フィルタリング
方法および装置を提供することにある。
【0020】
【課題を解決するための手段】上記目的を達成するた
め、請求項1記載の本発明は、インターネットを介して
提供される各種情報のうち不適切情報を識別し、この識
別した不適切情報の提供を阻止する情報自動フィルタリ
ング方法であって、インターネットを介して提供される
HTML情報を入力し、このHTML情報のURLが上
位URLであるか否かを判定し、この判定対象のURL
が上位URLである場合、この判定対象の上位URLが
示す情報に出現する単語を抽出し、この抽出された各単
語、すなわち各単語及び該単語を含む文書の少なくとも
いずれかについて、不適切であるか否かの判定を行い、
この判定結果に基づいて該情報が不適切であるか否かの
自動フィルタリングを行い、この自動フィルタリングの
結果、前記情報が不適切であると判定された場合、当該
判定対象の上位URLを不適切上位URL一覧に登録す
るとともに、前記情報の提供を阻止し、前記HTML情
報の判定対象のURLが上位URLでなかった場合、こ
の判定対象のURLを前記登録された不適切上位URL
一覧の各上位URLと照合して、該判定対象のURL
が、この不適切上位URL一覧に登録される上位URL
のいずれかと一致する部分を含むか否かを判定し、一致
する部分を含む場合、この判定対象のURLが示す情報
の提示を阻止し、前記判定対象のURLが不適切上位U
RL一覧の上位URLと一致するものがない場合、該判
定対象のURLが示す情報に出現する単語を抽出し、こ
の抽出された各単語、すなわち各単語及び該単語を含む
文書の少なくともいずれかについて、不適切であるか否
かの判定を行い、この判定結果に基づいて該情報が不適
切であるか否かの自動フィルタリングを行い、この自動
フィルタリングの結果、前記情報が不適切であると判定
された場合、該情報の提供を阻止することを要旨とす
る。
め、請求項1記載の本発明は、インターネットを介して
提供される各種情報のうち不適切情報を識別し、この識
別した不適切情報の提供を阻止する情報自動フィルタリ
ング方法であって、インターネットを介して提供される
HTML情報を入力し、このHTML情報のURLが上
位URLであるか否かを判定し、この判定対象のURL
が上位URLである場合、この判定対象の上位URLが
示す情報に出現する単語を抽出し、この抽出された各単
語、すなわち各単語及び該単語を含む文書の少なくとも
いずれかについて、不適切であるか否かの判定を行い、
この判定結果に基づいて該情報が不適切であるか否かの
自動フィルタリングを行い、この自動フィルタリングの
結果、前記情報が不適切であると判定された場合、当該
判定対象の上位URLを不適切上位URL一覧に登録す
るとともに、前記情報の提供を阻止し、前記HTML情
報の判定対象のURLが上位URLでなかった場合、こ
の判定対象のURLを前記登録された不適切上位URL
一覧の各上位URLと照合して、該判定対象のURL
が、この不適切上位URL一覧に登録される上位URL
のいずれかと一致する部分を含むか否かを判定し、一致
する部分を含む場合、この判定対象のURLが示す情報
の提示を阻止し、前記判定対象のURLが不適切上位U
RL一覧の上位URLと一致するものがない場合、該判
定対象のURLが示す情報に出現する単語を抽出し、こ
の抽出された各単語、すなわち各単語及び該単語を含む
文書の少なくともいずれかについて、不適切であるか否
かの判定を行い、この判定結果に基づいて該情報が不適
切であるか否かの自動フィルタリングを行い、この自動
フィルタリングの結果、前記情報が不適切であると判定
された場合、該情報の提供を阻止することを要旨とす
る。
【0021】請求項1記載の本発明にあっては、入力さ
れたHTML情報のURLが上位URLである場合、こ
の上位URLが示す情報に出現する単語を抽出し、この
抽出された各単語、具体的には単語及び該単語を含む文
書の少なくともいずれかについて、不適切であるか否か
の判定を行い、この判定結果に基づいて該情報が不適切
であるか否かの自動フィルタリングを行い、その結果、
該情報が不適切である場合、前記上位URLを不適切上
位URL一覧に登録するとともに、前記情報の提供を阻
止し、上位URLでなかった場合、このURLを不適切
上位URL一覧の各URLと照合し、一致するURLが
ある場合、このURLが示す情報の提示を阻止し、一致
するものがない場合、該URLが示す情報に出現する単
語を抽出し、この抽出された各単語、具体的には単語及
び該単語を含む文書の少なくともいずれかについて、不
適切であるか否かの判定を行い、この判定結果に基づい
て該情報が不適切であるか否かの自動フィルタリングを
行い、その結果、前記情報が不適切である場合、該情報
の提供を阻止するため、画像のみが提示されている少テ
キストページでもその不適切さを適確に判定して阻止す
ることができ、正解率および再現率の両方を向上するこ
とができる。
れたHTML情報のURLが上位URLである場合、こ
の上位URLが示す情報に出現する単語を抽出し、この
抽出された各単語、具体的には単語及び該単語を含む文
書の少なくともいずれかについて、不適切であるか否か
の判定を行い、この判定結果に基づいて該情報が不適切
であるか否かの自動フィルタリングを行い、その結果、
該情報が不適切である場合、前記上位URLを不適切上
位URL一覧に登録するとともに、前記情報の提供を阻
止し、上位URLでなかった場合、このURLを不適切
上位URL一覧の各URLと照合し、一致するURLが
ある場合、このURLが示す情報の提示を阻止し、一致
するものがない場合、該URLが示す情報に出現する単
語を抽出し、この抽出された各単語、具体的には単語及
び該単語を含む文書の少なくともいずれかについて、不
適切であるか否かの判定を行い、この判定結果に基づい
て該情報が不適切であるか否かの自動フィルタリングを
行い、その結果、前記情報が不適切である場合、該情報
の提供を阻止するため、画像のみが提示されている少テ
キストページでもその不適切さを適確に判定して阻止す
ることができ、正解率および再現率の両方を向上するこ
とができる。
【0022】また、請求項2記載の本発明は、請求項1
記載の発明において、不適切な情報を提供するURLを
不適切URL一覧として登録しておき、前記入力された
HTML情報のURLを前記不適切URL一覧の各UR
Lと照合して、一致するURLがあるか否かを判定し、
一致する場合、このURLが示す情報の提示を阻止する
第三者判定に基づくフィルタリングを更に行うことを要
旨とする。
記載の発明において、不適切な情報を提供するURLを
不適切URL一覧として登録しておき、前記入力された
HTML情報のURLを前記不適切URL一覧の各UR
Lと照合して、一致するURLがあるか否かを判定し、
一致する場合、このURLが示す情報の提示を阻止する
第三者判定に基づくフィルタリングを更に行うことを要
旨とする。
【0023】請求項2記載の本発明にあっては、不適切
な情報を提供するURLを不適切URL一覧として登録
しておき、HTML情報のURLを不適切URL一覧の
各URLと照合して、一致するURLがある場合、この
URLが示す情報の提示を阻止する第三者判定に基づく
フィルタリングを更に行うため、この第三者判定に基づ
くフィルタリングと上位URLを利用した自動フィルタ
リングの両方により更に完全にフィルタリングを行うこ
とができる。
な情報を提供するURLを不適切URL一覧として登録
しておき、HTML情報のURLを不適切URL一覧の
各URLと照合して、一致するURLがある場合、この
URLが示す情報の提示を阻止する第三者判定に基づく
フィルタリングを更に行うため、この第三者判定に基づ
くフィルタリングと上位URLを利用した自動フィルタ
リングの両方により更に完全にフィルタリングを行うこ
とができる。
【0024】更に、請求項3記載の本発明は、インター
ネットを介して提供される各種情報のうち不適切情報を
識別し、この識別した不適切情報の提供を阻止する情報
自動フィルタリング装置であって、インターネットを介
して提供されるHTML情報を入力する入力手段と、こ
の入力されたHTML情報のURLが上位URLである
か否かを判定する上位URL判定手段と、該上位URL
判定手段による判定の結果、前記判定対象のURLが上
位URLである場合、この判定対象の上位URLが示す
情報に出現する単語を抽出し、この抽出された各単語、
すなわち各単語及び該単語を含む文書の少なくともいず
れかについて、不適切であるか否かの判定を行い、この
判定結果に基づいて該情報が不適切であるか否かの自動
フィルタリングを行う第1の自動フィルタリング手段
と、この自動フィルタリングの結果、前記情報が不適切
であると判定された場合、該情報の提示を阻止するとと
もに、前記判定対象の上位URLを不適切上位URL一
覧テーブルに登録する不適切上位URL一覧登録手段
と、前記上位URL判定手段による判定の結果、前記H
TML情報の判定対象のURLが上位URLでなかった
場合、この判定対象のURLを前記不適切上位URL一
覧テーブルに登録されている各上位URLと照合して、
該判定対象のURLが、この不適切上位URL一覧に登
録される上位URLのいずれかと一致する部分を含むか
否かを判定する不適切URL判定手段と、この判定の結
果、前記判定対象のURLが不適切上位URL一覧テー
ブルに登録されている上位URLと一致するものがない
場合、該判定対象のURLが示す情報に出現する単語を
抽出し、この抽出された単語に基づいて該情報が不適切
であるか否かの自動フィルタリングを行う第2の自動フ
ィルタリング手段と、前記不適切URL判定手段による
判定の結果、前記判定対象のURLが不適切上位URL
一覧テーブルに登録されている上位URLと一致する部
分を含む場合、この判定対象のURLが示す情報の提示
を阻止し、また前記第2の自動フィルタリング手段によ
るフィルタリングの結果、前記情報が不適切であると判
定された場合、該情報の提供を阻止する情報提示阻止手
段とを有することを要旨とする。
ネットを介して提供される各種情報のうち不適切情報を
識別し、この識別した不適切情報の提供を阻止する情報
自動フィルタリング装置であって、インターネットを介
して提供されるHTML情報を入力する入力手段と、こ
の入力されたHTML情報のURLが上位URLである
か否かを判定する上位URL判定手段と、該上位URL
判定手段による判定の結果、前記判定対象のURLが上
位URLである場合、この判定対象の上位URLが示す
情報に出現する単語を抽出し、この抽出された各単語、
すなわち各単語及び該単語を含む文書の少なくともいず
れかについて、不適切であるか否かの判定を行い、この
判定結果に基づいて該情報が不適切であるか否かの自動
フィルタリングを行う第1の自動フィルタリング手段
と、この自動フィルタリングの結果、前記情報が不適切
であると判定された場合、該情報の提示を阻止するとと
もに、前記判定対象の上位URLを不適切上位URL一
覧テーブルに登録する不適切上位URL一覧登録手段
と、前記上位URL判定手段による判定の結果、前記H
TML情報の判定対象のURLが上位URLでなかった
場合、この判定対象のURLを前記不適切上位URL一
覧テーブルに登録されている各上位URLと照合して、
該判定対象のURLが、この不適切上位URL一覧に登
録される上位URLのいずれかと一致する部分を含むか
否かを判定する不適切URL判定手段と、この判定の結
果、前記判定対象のURLが不適切上位URL一覧テー
ブルに登録されている上位URLと一致するものがない
場合、該判定対象のURLが示す情報に出現する単語を
抽出し、この抽出された単語に基づいて該情報が不適切
であるか否かの自動フィルタリングを行う第2の自動フ
ィルタリング手段と、前記不適切URL判定手段による
判定の結果、前記判定対象のURLが不適切上位URL
一覧テーブルに登録されている上位URLと一致する部
分を含む場合、この判定対象のURLが示す情報の提示
を阻止し、また前記第2の自動フィルタリング手段によ
るフィルタリングの結果、前記情報が不適切であると判
定された場合、該情報の提供を阻止する情報提示阻止手
段とを有することを要旨とする。
【0025】請求項3記載の本発明にあっては、入力さ
れたHTML情報のURLが上位URLである場合、こ
の上位URLが示す情報に出現する単語を抽出し、この
抽出された各単語、具体的には単語及び該単語を含む文
書の少なくともいずれかについて、不適切であるか否か
の判定を行い、この判定結果に基づいて該情報が不適切
であるか否かの自動フィルタリングを行い、その結果、
該情報が不適切である場合、前記上位URLを不適切上
位URL一覧テーブルに登録するとともに、前記情報の
提供を阻止し、上位URLでなかった場合、このURL
を不適切上位URL一覧テーブルの各URLと照合し、
一致するURLがある場合、このURLが示す情報の提
示を阻止し、一致するものがない場合、該URLが示す
情報に対して自動フィルタリングを行い、その結果、前
記情報が不適切である場合、該情報の提供を阻止するた
め、画像のみが提示されている少テキストページでもそ
の不適切さを適確に判定して阻止することができ、正解
率および再現率の両方を向上することができる。
れたHTML情報のURLが上位URLである場合、こ
の上位URLが示す情報に出現する単語を抽出し、この
抽出された各単語、具体的には単語及び該単語を含む文
書の少なくともいずれかについて、不適切であるか否か
の判定を行い、この判定結果に基づいて該情報が不適切
であるか否かの自動フィルタリングを行い、その結果、
該情報が不適切である場合、前記上位URLを不適切上
位URL一覧テーブルに登録するとともに、前記情報の
提供を阻止し、上位URLでなかった場合、このURL
を不適切上位URL一覧テーブルの各URLと照合し、
一致するURLがある場合、このURLが示す情報の提
示を阻止し、一致するものがない場合、該URLが示す
情報に対して自動フィルタリングを行い、その結果、前
記情報が不適切である場合、該情報の提供を阻止するた
め、画像のみが提示されている少テキストページでもそ
の不適切さを適確に判定して阻止することができ、正解
率および再現率の両方を向上することができる。
【0026】請求項4記載の本発明は、請求項3記載の
発明において、不適切な情報を提供するURLを不適切
URL一覧テーブルに登録する不適切URL一覧登録手
段と、前記入力手段から入力される前記HTML情報の
URLを前記不適切URL一覧テーブルに登録されてい
る各URLと照合し、一致するURLがあるか否かを判
定する一致URL判定手段と、この判定の結果、一致す
るURLがある場合、このURLが示す情報の提示を阻
止する第三者判定に基づくフィルタリング手段とを更に
有することを要旨とする。
発明において、不適切な情報を提供するURLを不適切
URL一覧テーブルに登録する不適切URL一覧登録手
段と、前記入力手段から入力される前記HTML情報の
URLを前記不適切URL一覧テーブルに登録されてい
る各URLと照合し、一致するURLがあるか否かを判
定する一致URL判定手段と、この判定の結果、一致す
るURLがある場合、このURLが示す情報の提示を阻
止する第三者判定に基づくフィルタリング手段とを更に
有することを要旨とする。
【0027】請求項4記載の本発明にあっては、不適切
な情報を提供するURLを不適切URL一覧テーブルと
して登録しておき、HTML情報のURLを不適切UR
L一覧テーブルの各URLと照合して、一致するURL
がある場合、このURLが示す情報の提示を阻止する第
三者判定に基づくフィルタリングを更に行うため、この
第三者判定に基づくフィルタリングと上位URLを利用
した自動フィルタリングの両方により更に完全にフィル
タリングを行うことができる。
な情報を提供するURLを不適切URL一覧テーブルと
して登録しておき、HTML情報のURLを不適切UR
L一覧テーブルの各URLと照合して、一致するURL
がある場合、このURLが示す情報の提示を阻止する第
三者判定に基づくフィルタリングを更に行うため、この
第三者判定に基づくフィルタリングと上位URLを利用
した自動フィルタリングの両方により更に完全にフィル
タリングを行うことができる。
【0028】
【発明の実施の形態】以下、図面を用いて本発明の実施
の形態について説明する。図1は、本発明の一実施形態
に係るURL階層構造を利用した情報自動フィルタリン
グ装置の構成を示すブロック図である。
の形態について説明する。図1は、本発明の一実施形態
に係るURL階層構造を利用した情報自動フィルタリン
グ装置の構成を示すブロック図である。
【0029】図1に示す情報自動フィルタリング装置
は、インターネットを介して提供される各種情報のうち
不適切情報、例えばポルノ等の有害情報を識別し、この
識別した不適切情報の提供を阻止するものであり、イン
ターネットを介して提供されるHTML情報を入力する
入力部1、この入力された情報に出現する単語を抽出す
る単語抽出部3、この抽出した単語や本実施形態の情報
自動フィルタリング処理を実行するソフトウェアやその
他の各種情報を記憶する記憶部5、単語の重みデータを
格納する単語重みデータ格納部7、自動フィルタリング
を行う自動フィルタリング部9、有害上位ページ一覧を
テーブルとして格納している有害上位ページ一覧テーブ
ル格納部11、およびフィルタリングした結果を出力す
る出力部13から構成されている。
は、インターネットを介して提供される各種情報のうち
不適切情報、例えばポルノ等の有害情報を識別し、この
識別した不適切情報の提供を阻止するものであり、イン
ターネットを介して提供されるHTML情報を入力する
入力部1、この入力された情報に出現する単語を抽出す
る単語抽出部3、この抽出した単語や本実施形態の情報
自動フィルタリング処理を実行するソフトウェアやその
他の各種情報を記憶する記憶部5、単語の重みデータを
格納する単語重みデータ格納部7、自動フィルタリング
を行う自動フィルタリング部9、有害上位ページ一覧を
テーブルとして格納している有害上位ページ一覧テーブ
ル格納部11、およびフィルタリングした結果を出力す
る出力部13から構成されている。
【0030】本実施形態の情報自動フィルタリング装置
は、URL階層構造を有するURLのうち上位URLを
利用して、有害情報のフィルタリングを行うものである
が、まずその概念について説明する。
は、URL階層構造を有するURLのうち上位URLを
利用して、有害情報のフィルタリングを行うものである
が、まずその概念について説明する。
【0031】上述したように、自動フィルタリングの大
きな問題の1つとしてテキスト情報が少ないあるいは全
くないホームページに対するフィルタリングが困難であ
ることがあげられる。特にポルノ系の有害情報ページに
は画像のみが掲載されているものが多数含まれていると
考えられるため、これらの少テキストページに対する対
処法を検討する必要がある。しかし、典型的なWWWユ
ーザならば、画像のみのページにアクセスするためにリ
ンクをたどるものと考えられる。この仮定が真実なら
ば、画像ページに至るまでの上位階層のページに対して
フィルタリングを行えば画像ページへのアクセスもブロ
ックすることが可能になる。この上位階層のページに対
してフィルタリングを行う手法について説明する。
きな問題の1つとしてテキスト情報が少ないあるいは全
くないホームページに対するフィルタリングが困難であ
ることがあげられる。特にポルノ系の有害情報ページに
は画像のみが掲載されているものが多数含まれていると
考えられるため、これらの少テキストページに対する対
処法を検討する必要がある。しかし、典型的なWWWユ
ーザならば、画像のみのページにアクセスするためにリ
ンクをたどるものと考えられる。この仮定が真実なら
ば、画像ページに至るまでの上位階層のページに対して
フィルタリングを行えば画像ページへのアクセスもブロ
ックすることが可能になる。この上位階層のページに対
してフィルタリングを行う手法について説明する。
【0032】まず、上位階層にあるページをそのURL
が以下に列挙した7つの文字列で終わるページとする: (1)index.html (2)index.htm (3)index.shtml (4)welcome.html (5)welcome.htm (6)welcome.shtml (7)/ 例えば、http://www.kdd.co.jp/index.html やhttp://w
ww.asahi.com/ などは上位ページとみなされる。これら
上位ページのうち、フィルタリングソフトによって有害
と判断されたものを有害上位ページ一覧に保存する。こ
の際、URLのすべてを保存するのではなく、URLの
うち最も深いディレクトリまでのURLを保存すること
にする。例えば、http://www.###.co.jp/index.html が
有害の場合は、http://www.###.co.jp/ を一覧に保存
し、http://www.###.co.jp/aaa/bbb/ccc/index.html が
有害の場合はhttp://www.###.co.jp/aaa/bbb/ccc/ を一
覧に保存する。
が以下に列挙した7つの文字列で終わるページとする: (1)index.html (2)index.htm (3)index.shtml (4)welcome.html (5)welcome.htm (6)welcome.shtml (7)/ 例えば、http://www.kdd.co.jp/index.html やhttp://w
ww.asahi.com/ などは上位ページとみなされる。これら
上位ページのうち、フィルタリングソフトによって有害
と判断されたものを有害上位ページ一覧に保存する。こ
の際、URLのすべてを保存するのではなく、URLの
うち最も深いディレクトリまでのURLを保存すること
にする。例えば、http://www.###.co.jp/index.html が
有害の場合は、http://www.###.co.jp/ を一覧に保存
し、http://www.###.co.jp/aaa/bbb/ccc/index.html が
有害の場合はhttp://www.###.co.jp/aaa/bbb/ccc/ を一
覧に保存する。
【0033】上位ページ以外のページへのアクセスの
際、通常の自動有害性判断の前に、この有害上位ページ
一覧に記されているURLとアクセスされているページ
のURLを比較する。比較の結果、アクセスされたペー
ジのURLのディレクトリが有害上位ページ一覧中のど
れかのURLと一致した場合、そのページを有害である
とみなす。例えばhttp://www.###.co.jp/ が有害上位ペ
ージ一覧に含まれていた場合、http://www.###.co.jp/a
aa/bbb.html もhttp://www.###.co.jp/nantoka.html も
有害であるとみなす。一方、有害上位ページ一覧中のデ
ータと一致しない場合は、自動フィルタリングソフトに
より有害性の判断を行う。
際、通常の自動有害性判断の前に、この有害上位ページ
一覧に記されているURLとアクセスされているページ
のURLを比較する。比較の結果、アクセスされたペー
ジのURLのディレクトリが有害上位ページ一覧中のど
れかのURLと一致した場合、そのページを有害である
とみなす。例えばhttp://www.###.co.jp/ が有害上位ペ
ージ一覧に含まれていた場合、http://www.###.co.jp/a
aa/bbb.html もhttp://www.###.co.jp/nantoka.html も
有害であるとみなす。一方、有害上位ページ一覧中のデ
ータと一致しない場合は、自動フィルタリングソフトに
より有害性の判断を行う。
【0034】上述した考え方に基づいて本実施形態の情
報自動フィルタリング装置は有害情報を阻止するように
構成されている。次に、図2に示すフローチャートを参
照して、図1に示すURL階層構造を利用した情報自動
フィルタリング装置の作用について説明する。
報自動フィルタリング装置は有害情報を阻止するように
構成されている。次に、図2に示すフローチャートを参
照して、図1に示すURL階層構造を利用した情報自動
フィルタリング装置の作用について説明する。
【0035】図2において、まず入力部1からインター
ネットを介して提供されるHTML情報であるHTML
文書が入力されると(ステップS11)、この入力され
たHTML文書のURLが上位URL、すなわち上位ペ
ージであるか否かが判定される(ステップS13)。こ
の判定の結果、前記HTML文書のURLが上位URL
である場合には、この上位URLが示す文書、すなわち
情報に出現する単語を単語抽出部3で抽出し、この抽出
した単語に基づいて自動フィルタリング部9による自動
フィルタリングを行い(ステップS15)、前記情報が
有害であるか否かについての判定を行う(ステップS1
7)。
ネットを介して提供されるHTML情報であるHTML
文書が入力されると(ステップS11)、この入力され
たHTML文書のURLが上位URL、すなわち上位ペ
ージであるか否かが判定される(ステップS13)。こ
の判定の結果、前記HTML文書のURLが上位URL
である場合には、この上位URLが示す文書、すなわち
情報に出現する単語を単語抽出部3で抽出し、この抽出
した単語に基づいて自動フィルタリング部9による自動
フィルタリングを行い(ステップS15)、前記情報が
有害であるか否かについての判定を行う(ステップS1
7)。
【0036】この自動フィルタリングの情報の有害性に
ついて判定の結果、前記情報が有害である場合には、前
記上位URLを有害上位ページ一覧テーブル格納部11
の有害上位ページ一覧テーブルに登録するとともに(ス
テップS21)、この情報の提供を阻止(ブロック)し
て処理を終了する(ステップS31)。
ついて判定の結果、前記情報が有害である場合には、前
記上位URLを有害上位ページ一覧テーブル格納部11
の有害上位ページ一覧テーブルに登録するとともに(ス
テップS21)、この情報の提供を阻止(ブロック)し
て処理を終了する(ステップS31)。
【0037】一方、ステップS17における判定の結
果、前記情報が有害でない場合には、出力部13により
ブラウザに表示して処理を終了する(ステップS1
9)。
果、前記情報が有害でない場合には、出力部13により
ブラウザに表示して処理を終了する(ステップS1
9)。
【0038】また、ステップS13における上位ページ
か否かの判定の結果、上位ページでない場合には、この
URLを有害上位ページ一覧テーブル格納部11に有害
上位ページ一覧テーブルとして登録されている各URL
と照合し(ステップS23)、一致するURLがあるか
否かをチェックする(ステップS25)。このチェック
の結果、有害上位ページ一覧テーブルに一致するURL
がある場合には、このURLが示す情報の提供を阻止し
て処理を終了する(ステップS31)。
か否かの判定の結果、上位ページでない場合には、この
URLを有害上位ページ一覧テーブル格納部11に有害
上位ページ一覧テーブルとして登録されている各URL
と照合し(ステップS23)、一致するURLがあるか
否かをチェックする(ステップS25)。このチェック
の結果、有害上位ページ一覧テーブルに一致するURL
がある場合には、このURLが示す情報の提供を阻止し
て処理を終了する(ステップS31)。
【0039】ステップS25における一致するURLが
あるか否かのチェックの結果、一致するURLがない場
合には、このURLが示す情報に出現する単語を単語抽
出部3で抽出し、この抽出した単語に基づいて自動フィ
ルタリング部9による自動フィルタリングを行い(ステ
ップS27)、前記情報が有害であるか否かについての
判定を行う(ステップS29)。
あるか否かのチェックの結果、一致するURLがない場
合には、このURLが示す情報に出現する単語を単語抽
出部3で抽出し、この抽出した単語に基づいて自動フィ
ルタリング部9による自動フィルタリングを行い(ステ
ップS27)、前記情報が有害であるか否かについての
判定を行う(ステップS29)。
【0040】この自動フィルタリングの情報の有害性に
ついて判定の結果、前記情報が有害である場合には、該
情報の提供を阻止して処理を終了するが(ステップS3
1)、ステップS29における判定の結果、前記情報が
有害でない場合には、出力部13によりブラウザに表示
して処理を終了する(ステップS19)。
ついて判定の結果、前記情報が有害である場合には、該
情報の提供を阻止して処理を終了するが(ステップS3
1)、ステップS29における判定の結果、前記情報が
有害でない場合には、出力部13によりブラウザに表示
して処理を終了する(ステップS19)。
【0041】上述した本実施形態のURL階層構造を利
用した情報自動フィルタリング装置の効果を判定するた
め、次に示すような評価実験を行った。
用した情報自動フィルタリング装置の効果を判定するた
め、次に示すような評価実験を行った。
【0042】この評価実験における評価用のデータとし
て、WWW上のデータを自動的に収集するソフト(「収
集ロボット」)を使用して大量の有害ページを収集し
た。この収集ロボットは290個の有害ページ(うち、
160個が日本語、130個が英語で記述されたペー
ジ)へのリンクが張られているHTMLページから起動
され、順々にリンクをたどりその途中でアクセスされた
HTML文書を収集した。なお、この際収集されたデー
タはHTML文書のみであり、画像データ、音声データ
等は収集していない。この結果、28034個のHTM
L文書が収集された。
て、WWW上のデータを自動的に収集するソフト(「収
集ロボット」)を使用して大量の有害ページを収集し
た。この収集ロボットは290個の有害ページ(うち、
160個が日本語、130個が英語で記述されたペー
ジ)へのリンクが張られているHTMLページから起動
され、順々にリンクをたどりその途中でアクセスされた
HTML文書を収集した。なお、この際収集されたデー
タはHTML文書のみであり、画像データ、音声データ
等は収集していない。この結果、28034個のHTM
L文書が収集された。
【0043】次に、収集された個々のHTML文書に対
し、主観評価によってその有害性を3段階で評価した。
なお、この評価は各ページの性的表現の有無についての
ものである。各評価段階の基準を表2に示す。
し、主観評価によってその有害性を3段階で評価した。
なお、この評価は各ページの性的表現の有無についての
ものである。各評価段階の基準を表2に示す。
【0044】
【表2】 収集されたデータに対する有害性評価の結果は表3に示
す通りである。
す通りである。
【0045】
【表3】 この有害性評価とともに、各ページに記述されている言
語についての調査も行った。その結果を表4に示す。
語についての調査も行った。その結果を表4に示す。
【0046】
【表4】 また、このデータのうち、上述した「有害上位ページ」
に該当するデータの全有害データ中の割合についても調
査した。なお、ここでは有害データを前記有害性評価の
結果がレベル2または3だったものとする。その結果を
表5に示す。
に該当するデータの全有害データ中の割合についても調
査した。なお、ここでは有害データを前記有害性評価の
結果がレベル2または3だったものとする。その結果を
表5に示す。
【0047】
【表5】 次に、図1に示した実施形態の情報自動フィルタリング
装置に使用されている自動フィルタリング部9による自
動フィルタリングのアルゴリズム、特に前記評価実験に
使用した自動フィルタリングのアルゴリズムについて説
明する。なお、この自動フィルタリングは、情報検索や
自動分類等に使用されているベクトル空間モデルを使用
している。
装置に使用されている自動フィルタリング部9による自
動フィルタリングのアルゴリズム、特に前記評価実験に
使用した自動フィルタリングのアルゴリズムについて説
明する。なお、この自動フィルタリングは、情報検索や
自動分類等に使用されているベクトル空間モデルを使用
している。
【0048】まず、入力部1から入力されたHTML文
書をベクトル空間モデルによって表現する。すなわち、
すべての文書を表現するn個の単語を選択し、それぞれ
の文書をn次元のベクトルで次式のように表現する。
書をベクトル空間モデルによって表現する。すなわち、
すべての文書を表現するn個の単語を選択し、それぞれ
の文書をn次元のベクトルで次式のように表現する。
【0049】
【数1】 このベクトルの各要素は、各々単語の文書dでの出現頻
度を正規化したものである。単語の出現頻度の正規化に
は次に示す数式で表されるTF*IDFという手法を用
いている。
度を正規化したものである。単語の出現頻度の正規化に
は次に示す数式で表されるTF*IDFという手法を用
いている。
【0050】
【数2】 ここで、tfdiは単語iが文書dに出現する頻度、Nは
すべての文書の数、dfi は単語iが出現する文書の数
である。
すべての文書の数、dfi は単語iが出現する文書の数
である。
【0051】自動フィルタリングは、次に示す数式で表
される線形識別関数によって行われ、この関数によって
単語重みの総和Dis(d)が計算される。
される線形識別関数によって行われ、この関数によって
単語重みの総和Dis(d)が計算される。
【0052】
【数3】 ここで、wi は各単語iに対する重みであり、fdiは上
式(3)の値であり、文書における各単語のfdi値であ
る。
式(3)の値であり、文書における各単語のfdi値であ
る。
【0053】上述した式(3)から、総和Dis(d)
が0より大きい場合、前記文書は有害であり、0以下で
ある場合、無害であると判定される。
が0より大きい場合、前記文書は有害であり、0以下で
ある場合、無害であると判定される。
【0054】なお、上述した各単語iに対する重みは文
書dが有害な場合、総和Dis(d)>0となり、無害
な場合、総和Dis(d)≦0となるように設定され
る。
書dが有害な場合、総和Dis(d)>0となり、無害
な場合、総和Dis(d)≦0となるように設定され
る。
【0055】次に、この単語の重みの設定について図3
に示すフローチャートを参照して説明する。なお、この
単語の重みの学習には perceptron learning algorithm
(PLA)を使用している。
に示すフローチャートを参照して説明する。なお、この
単語の重みの学習には perceptron learning algorithm
(PLA)を使用している。
【0056】図3においては、まず各種パラメータを設
定する(ステップS51)。このパラメータとしては、
各単語の重みの集合W=(w1 ,…,wn )、N個の学
習データE={d1 ,…,dN }、定数η、最大学習回
数Max、図3に示す学習処理を繰り返し行う学習回数
mがある。
定する(ステップS51)。このパラメータとしては、
各単語の重みの集合W=(w1 ,…,wn )、N個の学
習データE={d1 ,…,dN }、定数η、最大学習回
数Max、図3に示す学習処理を繰り返し行う学習回数
mがある。
【0057】次に、単語の重みの集合Wを初期化する
(ステップS53)。この初期化では、各単語の重みに
乱数を入力する。それから、すべての学習データに対し
て前記単語重みの総和Dis(d)を上式(3)により
計算する(ステップS55)。
(ステップS53)。この初期化では、各単語の重みに
乱数を入力する。それから、すべての学習データに対し
て前記単語重みの総和Dis(d)を上式(3)により
計算する(ステップS55)。
【0058】そして、この計算の結果、すべての無害な
文書dについて総和Dis(d)≦0であり、かつすべ
ての有害な文書dについて総和Dis(d)>0である
か否かをチェックし(ステップS57)、そうである場
合には、処理を終了するが、そうでない場合には、この
ように誤って分類されたすべての文書dについて次のス
テップS61,S63で示すように重みの変化度合Sを
補正する(ステップS59)。
文書dについて総和Dis(d)≦0であり、かつすべ
ての有害な文書dについて総和Dis(d)>0である
か否かをチェックし(ステップS57)、そうである場
合には、処理を終了するが、そうでない場合には、この
ように誤って分類されたすべての文書dについて次のス
テップS61,S63で示すように重みの変化度合Sを
補正する(ステップS59)。
【0059】すなわち、ステップS61では、文書di
が有害であって、かつ総和Dis(d)≦0の場合に
は、重み変化度合Sを増加するように補正し、またステ
ップS63では、文書di が無害であって、かつ総和D
is(d)>0の場合には、重み変化度合Sを低減する
ように補正する。
が有害であって、かつ総和Dis(d)≦0の場合に
は、重み変化度合Sを増加するように補正し、またステ
ップS63では、文書di が無害であって、かつ総和D
is(d)>0の場合には、重み変化度合Sを低減する
ように補正する。
【0060】そして、このように補正された重み変化度
合Sを使用して単語重みの集合WをステップS65で示
す式のように補正する。それから、学習回数mを+1イ
ンクリメントし(ステップS67)、この学習回数mが
最大学習回数Maxより小さいか否かをチェックし(ス
テップS69)、また最大学習回数Maxより小さい場
合には、ステップS55に戻り、ステップS57に示し
た条件が満たされるまで、ステップS55以降の処理を
繰り返し行う。
合Sを使用して単語重みの集合WをステップS65で示
す式のように補正する。それから、学習回数mを+1イ
ンクリメントし(ステップS67)、この学習回数mが
最大学習回数Maxより小さいか否かをチェックし(ス
テップS69)、また最大学習回数Maxより小さい場
合には、ステップS55に戻り、ステップS57に示し
た条件が満たされるまで、ステップS55以降の処理を
繰り返し行う。
【0061】次に、上述した実施形態のURL階層構造
を利用した情報自動フィルタリング装置の評価実験につ
いて説明する。この評価実験は次に示す3つのプロセス
からなる。
を利用した情報自動フィルタリング装置の評価実験につ
いて説明する。この評価実験は次に示す3つのプロセス
からなる。
【0062】 (1)文書を表現する単語集合抽出。 (2)各単語に対する重みの学習。 (3)最終評価。
【0063】まず、単語抽出のプロセスでは、収集され
たデータの中から日本語で記述された文書5912個に
対し形態素解析を行い、名詞・固有名詞・未定義語を抽
出した。日本語用の形態素解析ソフトを使用したため、
文書中に含まれる英単語は未定義語として抽出される。
また、この形態素解析の際には標準の日本語辞書ととも
に辞書に載っていない性的表現などに関する用語集を制
作し、これを使用した。この専門用語集には約1000
語の単語が登録されている。また、抽出された単語のう
ち、データ全体での出現頻度が20以下の単語は取り除
かれた。この結果、8013個の単語が抽出された。
たデータの中から日本語で記述された文書5912個に
対し形態素解析を行い、名詞・固有名詞・未定義語を抽
出した。日本語用の形態素解析ソフトを使用したため、
文書中に含まれる英単語は未定義語として抽出される。
また、この形態素解析の際には標準の日本語辞書ととも
に辞書に載っていない性的表現などに関する用語集を制
作し、これを使用した。この専門用語集には約1000
語の単語が登録されている。また、抽出された単語のう
ち、データ全体での出現頻度が20以下の単語は取り除
かれた。この結果、8013個の単語が抽出された。
【0064】重み学習では評価データの一部が使用され
た。この学習用データは18387個のHTML文書か
ら構成される。このうち、英語で記述された文書は92
63個、日本語で記述された文書は8171個、その他
の言語で記述された文書は953個であった。最終評価
は単語抽出用データと学習データを含む評価データ全体
に対して行われた。
た。この学習用データは18387個のHTML文書か
ら構成される。このうち、英語で記述された文書は92
63個、日本語で記述された文書は8171個、その他
の言語で記述された文書は953個であった。最終評価
は単語抽出用データと学習データを含む評価データ全体
に対して行われた。
【0065】評価結果では、テキスト情報が少ないHT
ML文書に対するフィルタリングが困難であるという仮
定を証明するため、1つのHTML文書に出現する全単
語数が閾値min以下の文書に対してフィルタリングを
行い、その正解率と再現率を求めた。表6にその結果を
示す。
ML文書に対するフィルタリングが困難であるという仮
定を証明するため、1つのHTML文書に出現する全単
語数が閾値min以下の文書に対してフィルタリングを
行い、その正解率と再現率を求めた。表6にその結果を
示す。
【0066】
【表6】 この結果から明らかなように、単語数が減るにつれ、正
解率こそ大きく変化しないものの、再現率が著しく低下
する。従って、単語数が少ない文書に対するフィルタリ
ングが困難であるという仮定は示されたといえる。
解率こそ大きく変化しないものの、再現率が著しく低下
する。従って、単語数が少ない文書に対するフィルタリ
ングが困難であるという仮定は示されたといえる。
【0067】次に、同じ評価データに対し、URL階層
構造を考慮したフィルタリングを行い、同様に正解率と
再現率を求めた。この結果を表7に示す。
構造を考慮したフィルタリングを行い、同様に正解率と
再現率を求めた。この結果を表7に示す。
【0068】
【表7】 この結果から、本発明による自動フィルタリング手法を
取り入れることにより、高い正解率を維持したまま、再
現率を大幅に増加させることができたことが明らかにな
った。これらの結果より、本発明の有効性が証明された
といえる。
取り入れることにより、高い正解率を維持したまま、再
現率を大幅に増加させることができたことが明らかにな
った。これらの結果より、本発明の有効性が証明された
といえる。
【0069】次に、図4および図5を参照して、本発明
の他の実施形態に係る自動フィルタリング装置について
説明する。この実施形態の自動フィルタリング装置は、
上述したように図1〜図3で説明したURL階層構造を
利用した情報自動フィルタリング装置に対して第三者判
定によりフィルタリングを行う第三者判定フィルタリン
グ処理部を付加するように構成したものであり、両フィ
ルタリング処理を組み合わせることにより理想的なフィ
ルタリングを達成しようとするものである。
の他の実施形態に係る自動フィルタリング装置について
説明する。この実施形態の自動フィルタリング装置は、
上述したように図1〜図3で説明したURL階層構造を
利用した情報自動フィルタリング装置に対して第三者判
定によりフィルタリングを行う第三者判定フィルタリン
グ処理部を付加するように構成したものであり、両フィ
ルタリング処理を組み合わせることにより理想的なフィ
ルタリングを達成しようとするものである。
【0070】図4に示す自動フィルタリング装置は、図
1〜図3で説明したURL階層構造を利用した情報自動
フィルタリング装置25に対して第三者判定フィルタリ
ング処理部23および該第三者判定フィルタリング処理
部23で有害URLを参照するために使用される有害U
RL一覧テーブル格納部17が付加されている。
1〜図3で説明したURL階層構造を利用した情報自動
フィルタリング装置25に対して第三者判定フィルタリ
ング処理部23および該第三者判定フィルタリング処理
部23で有害URLを参照するために使用される有害U
RL一覧テーブル格納部17が付加されている。
【0071】有害URL一覧テーブル格納部17は、有
害情報を提供するURLを有害URL一覧テーブルとし
て格納しているものであり、第三者判定フィルタリング
処理部23は、前記入力部1から入力されたHTML文
書のURLを有害URL一覧テーブル格納部17の有害
URL一覧テーブルに登録されている各URLと照合
し、一致するURLがあるか否かを判定するものであ
る。
害情報を提供するURLを有害URL一覧テーブルとし
て格納しているものであり、第三者判定フィルタリング
処理部23は、前記入力部1から入力されたHTML文
書のURLを有害URL一覧テーブル格納部17の有害
URL一覧テーブルに登録されている各URLと照合
し、一致するURLがあるか否かを判定するものであ
る。
【0072】図5は、図4に示す自動フィルタリング装
置の更に詳細な構成を示すブロック図である。図5に示
す自動フィルタリング装置は、図1に示したURL階層
構造を利用した情報自動フィルタリング装置を構成する
入力部1、単語抽出部3、記憶部5、単語重みデータ格
納部7、自動フィルタリング部9、有害上位ページ一覧
テーブル格納部11、出力部13に加えて、図4の第三
者判定フィルタリング処理部23に対応するURLリス
トに基づくフィルタリング部15および有害URL一覧
テーブル格納部17を有している。
置の更に詳細な構成を示すブロック図である。図5に示
す自動フィルタリング装置は、図1に示したURL階層
構造を利用した情報自動フィルタリング装置を構成する
入力部1、単語抽出部3、記憶部5、単語重みデータ格
納部7、自動フィルタリング部9、有害上位ページ一覧
テーブル格納部11、出力部13に加えて、図4の第三
者判定フィルタリング処理部23に対応するURLリス
トに基づくフィルタリング部15および有害URL一覧
テーブル格納部17を有している。
【0073】このように構成される自動フィルタリング
装置、すなわち第三者判定フィルタリング処理部による
URLリスト一覧とURL階層構造を利用した情報自動
フィルタリング装置によるフィルタリング処理では、ま
ずインターネット21を介して入力部1から入力された
HTML文書は、そのURLが有害URL一覧テーブル
格納部17の有害URL一覧テーブルに登録されている
各URLと照合され、一致するURLがあるか否かが判
定される。そして、有害URL一覧テーブル格納部17
の有害URL一覧テーブルに登録されたURLと一致す
る場合には、このURLが示す情報の提示は阻止され
る。
装置、すなわち第三者判定フィルタリング処理部による
URLリスト一覧とURL階層構造を利用した情報自動
フィルタリング装置によるフィルタリング処理では、ま
ずインターネット21を介して入力部1から入力された
HTML文書は、そのURLが有害URL一覧テーブル
格納部17の有害URL一覧テーブルに登録されている
各URLと照合され、一致するURLがあるか否かが判
定される。そして、有害URL一覧テーブル格納部17
の有害URL一覧テーブルに登録されたURLと一致す
る場合には、このURLが示す情報の提示は阻止され
る。
【0074】URLリストに基づくフィルタリング部1
5による有害URL一覧テーブルを参照した判定の結
果、有害URL一覧テーブル格納部17の有害URL一
覧テーブルに登録されているURLと一致するものがな
い場合には、URL階層構造を利用した情報自動フィル
タリング装置25によるフィルタリングが図1〜図3で
説明したように行われる。
5による有害URL一覧テーブルを参照した判定の結
果、有害URL一覧テーブル格納部17の有害URL一
覧テーブルに登録されているURLと一致するものがな
い場合には、URL階層構造を利用した情報自動フィル
タリング装置25によるフィルタリングが図1〜図3で
説明したように行われる。
【0075】このように本実施形態では、第三者による
判定に基づくフィルタリングとURL階層構造を利用し
たフィルタリングの両方が行われるため、有害情報を適
確に検出して阻止することができる。
判定に基づくフィルタリングとURL階層構造を利用し
たフィルタリングの両方が行われるため、有害情報を適
確に検出して阻止することができる。
【0076】
【発明の効果】以上説明したように、本発明によれば、
HTML情報のURLが上位URLである場合、この上
位URLが示す情報に対して自動フィルタリングを行
い、その結果、該情報が不適切である場合、上位URL
を不適切上位URL一覧に登録するとともに、該情報の
提供を阻止し、上位URLでなかった場合、このURL
を不適切上位URL一覧の各URLと照合し、一致する
URLがある場合、このURLが示す情報の提示を阻止
し、一致するものがない場合、該URLが示す情報に対
して自動フィルタリングを行い、その結果、該情報が不
適切である場合、該情報の提供を阻止するので、画像の
みが提示されている少テキストページでもその不適切さ
を適確に判定して阻止することができ、正解率および再
現率の両方を向上することができる。
HTML情報のURLが上位URLである場合、この上
位URLが示す情報に対して自動フィルタリングを行
い、その結果、該情報が不適切である場合、上位URL
を不適切上位URL一覧に登録するとともに、該情報の
提供を阻止し、上位URLでなかった場合、このURL
を不適切上位URL一覧の各URLと照合し、一致する
URLがある場合、このURLが示す情報の提示を阻止
し、一致するものがない場合、該URLが示す情報に対
して自動フィルタリングを行い、その結果、該情報が不
適切である場合、該情報の提供を阻止するので、画像の
みが提示されている少テキストページでもその不適切さ
を適確に判定して阻止することができ、正解率および再
現率の両方を向上することができる。
【0077】また、本発明によれば、URL階層構造を
利用した情報自動フィルタリングに加えて、不適切な情
報を提供するURLを不適切URL一覧として登録して
おき、HTML情報のURLを不適切URL一覧の各U
RLと照合して、一致するURLがある場合、このUR
Lが示す情報の提示を阻止する第三者判定に基づくフィ
ルタリングを更に行うので、この第三者判定に基づくフ
ィルタリングと上位URLを利用した自動フィルタリン
グの両方により更に完全にフィルタリングを行うことが
できる。
利用した情報自動フィルタリングに加えて、不適切な情
報を提供するURLを不適切URL一覧として登録して
おき、HTML情報のURLを不適切URL一覧の各U
RLと照合して、一致するURLがある場合、このUR
Lが示す情報の提示を阻止する第三者判定に基づくフィ
ルタリングを更に行うので、この第三者判定に基づくフ
ィルタリングと上位URLを利用した自動フィルタリン
グの両方により更に完全にフィルタリングを行うことが
できる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係るURL階層構造を利
用した情報自動フィルタリング装置の構成を示すブロッ
ク図である。
用した情報自動フィルタリング装置の構成を示すブロッ
ク図である。
【図2】図1に示すURL階層構造を利用した情報自動
フィルタリング装置の作用を示すフローチャートであ
る。
フィルタリング装置の作用を示すフローチャートであ
る。
【図3】図2に示すフローチャートに使用されている単
語重みの設定手順を示すフローチャートである。
語重みの設定手順を示すフローチャートである。
【図4】本発明の他の実施形態に係る自動フィルタリン
グ装置の概要構成を示す説明図である。
グ装置の概要構成を示す説明図である。
【図5】図4に示す自動フィルタリング装置の詳細な構
成を示すブロック図である。
成を示すブロック図である。
【図6】従来の自己判定に基づくフィルタリングを説明
するための図である。
するための図である。
【図7】図6に示した自己判定に基づくフィルタリング
の一例としてRSACi とSafeSurfによる評価結果の記述例
を示す図である。
の一例としてRSACi とSafeSurfによる評価結果の記述例
を示す図である。
【図8】従来の第三者による判定に基づく有害情報フィ
ルタリングを説明するための図である。
ルタリングを説明するための図である。
1 入力部 3 単語抽出部 7 単語重みデータ格納部 9 自動フィルタリング部 11 有害上位ページ一覧テーブル格納部 15 URLリストに基づくフィルタリング部 17 有害URL一覧テーブル格納部
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平9−26975(JP,A) 特開 平10−275157(JP,A) 特開 平11−259389(JP,A) 特開 平11−306113(JP,A) 特開 平10−40156(JP,A) 滝沢泰盛,「インターネットの『門 番』フィルタリング・ツールの効用」, 日経コミュニケーション,日経BP社, 1997.10.20,第256号,PP.136− 139 高橋史忠,「インターネットのわいせ つ情報,閲覧防ぐシステムが稼働へ」, 日経エレクトロニクス,日経BP社, 1997.09.22,第699号,PP.15−16 (58)調査した分野(Int.Cl.7,DB名) G06F 13/00
Claims (4)
- 【請求項1】 インターネットを介して提供される各種
情報のうち不適切情報を識別し、この識別した不適切情
報の提供を阻止する情報自動フィルタリング方法であっ
て、 インターネットを介して提供されるHTML情報を入力
し、このHTML情報のURLが上位URLであるか否
かを判定し、 この判定対象のURLが上位URLである場合、この判
定対象の上位URLが示す情報に出現する単語を抽出
し、この抽出された各単語について、不適切であるか否
かの判定を行い、この判定結果に基づいて該情報が不適
切であるか否かの自動フィルタリングを行い、 この自動フィルタリングの結果、前記情報が不適切であ
ると判定された場合、当該判定対象の上位URLを不適
切上位URL一覧に登録するとともに、前記情報の提供
を阻止し、 前記HTML情報の判定対象のURLが上位URLでな
かった場合、この判定対象のURLを前記登録された不
適切上位URL一覧の各上位URLと照合して、該判定
対象のURLが、この不適切上位URL一覧に登録され
る上位URLのいずれかと一致する部分を含むか否かを
判定し、一致する部分を含む場合、この判定対象のUR
Lが示す情報の提示を阻止し、 前記判定対象のURLが不適切上位URL一覧の上位U
RLと一致するものがない場合、該判定対象のURLが
示す情報に出現する単語を抽出し、この抽出された各単
語について、不適切であるか否かの判定を行い、この判
定結果に基づいて該情報が不適切であるか否かの自動フ
ィルタリングを行い、 この自動フィルタリングの結果、前記情報が不適切であ
ると判定された場合、該情報の提供を阻止することを特
徴とするURL階層構造を利用した情報自動フィルタリ
ング方法。 - 【請求項2】 不適切な情報を提供するURLを不適切
URL一覧として登録しておき、前記入力されたHTM
L情報のURLを前記不適切URL一覧の各URLと照
合して、一致するURLがあるか否かを判定し、一致す
る場合、このURLが示す情報の提示を阻止する第三者
判定に基づくフィルタリングを更に行うことを特徴とす
る請求項1記載のURL階層構造を利用した情報自動フ
ィルタリング方法。 - 【請求項3】 インターネットを介して提供される各種
情報のうち不適切情報を識別し、この識別した不適切情
報の提供を阻止する情報自動フィルタリング装置であっ
て、 インターネットを介して提供されるHTML情報を入力
する入力手段と、 この入力されたHTML情報のURLが上位URLであ
るか否かを判定する上位URL判定手段と、 該上位URL判定手段による判定の結果、前記判定対象
のURLが上位URLである場合、この判定対象の上位
URLが示す情報に出現する単語を抽出し、この抽出さ
れた各単語について、不適切であるか否かの判定を行
い、この判定結果に基づいて該情報が不適切であるか否
かの自動フィルタリングを行う第1の自動フィルタリン
グ手段と、 この自動フィルタリングの結果、前記情報が不適切であ
ると判定された場合、該情報の提示を阻止するととも
に、前記判定対象の上位URLを不適切上位URL一覧
テーブルに登録する不適切上位URL一覧登録手段と、 前記上位URL判定手段による判定の結果、前記HTM
L情報の判定対象のURLが上位URLでなかった場
合、この判定対象のURLを前記不適切上位URL一覧
テーブルに登録されている各上位URLと照合して、該
判定対象のURLが、この不適切上位URL一覧に登録
される上位URLのいずれかと一致する部分を含むか否
かを判定する不適切URL判定手段と、 この判定の結果、前記判定対象のURLが不適切上位U
RL一覧テーブルに登録されている上位URLと一致す
るものがない場合、該判定対象のURLが示す情報に出
現する単語を抽出し、この抽出された単語に基づいて該
情報が不適切であるか否かの自動フィルタリングを行う
第2の自動フィルタリング手段と、 前記不適切URL判定手段による判定の結果、前記判定
対象のURLが不適切上位URL一覧テーブルに登録さ
れている上位URLと一致する部分を含む場合、この判
定対象のURLが示す情報の提示を阻止し、また前記第
2の自動フィルタリング手段によるフィルタリングの結
果、前記情報が不適切であると判定された場合、該情報
の提供を阻止する情報提示阻止手段とを有することを特
徴とするURL階層構造を利用した情報自動フィルタリ
ング装置。 - 【請求項4】 不適切な情報を提供するURLを不適切
URL一覧テーブルに登録する不適切URL一覧登録手
段と、 前記入力手段から入力される前記HTML情報のURL
を前記不適切URL一覧テーブルに登録されている各U
RLと照合し、一致するURLがあるか否かを判定する
一致URL判定手段と、 この判定の結果、一致するURLがある場合、このUR
Lが示す情報の提示を阻止する第三者判定に基づくフィ
ルタリング手段とを更に有することを特徴とする請求項
3記載のURL階層構造を利用した情報自動フィルタリ
ング装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP03752599A JP3220104B2 (ja) | 1999-02-16 | 1999-02-16 | Url階層構造を利用した情報自動フィルタリング方法および装置 |
US09/503,757 US6976070B1 (en) | 1999-02-16 | 2000-02-14 | Method and apparatus for automatic information filtering using URL hierarchical structure and automatic word weight learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP03752599A JP3220104B2 (ja) | 1999-02-16 | 1999-02-16 | Url階層構造を利用した情報自動フィルタリング方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000235540A JP2000235540A (ja) | 2000-08-29 |
JP3220104B2 true JP3220104B2 (ja) | 2001-10-22 |
Family
ID=12499967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP03752599A Expired - Fee Related JP3220104B2 (ja) | 1999-02-16 | 1999-02-16 | Url階層構造を利用した情報自動フィルタリング方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3220104B2 (ja) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6606659B1 (en) | 2000-01-28 | 2003-08-12 | Websense, Inc. | System and method for controlling access to internet sites |
JP2001222513A (ja) * | 2000-02-08 | 2001-08-17 | Nec Corp | 情報通信ネットワークシステムにおける接続要求管理装置および方法ならびに接続要求管理処理プログラムを記録した情報通信ネットワークシステムにおける記録媒体 |
JP3605343B2 (ja) | 2000-03-31 | 2004-12-22 | デジタルア−ツ株式会社 | インターネット閲覧制御方法、その方法を実施するプログラムを記録した媒体およびインターネット閲覧制御装置 |
KR20000058929A (ko) * | 2000-07-05 | 2000-10-05 | 김완호 | 이용자 연령에 적합한 인터넷 접속 제어 시스템 및 방법 |
GB0027280D0 (en) | 2000-11-08 | 2000-12-27 | Malcolm Peter | An information management system |
JP2003067307A (ja) * | 2001-08-27 | 2003-03-07 | Kddi Corp | 電子メール監視システム、電子メール監視方法、電子メール監視プログラム及びそれを記録した記録媒体 |
US7194464B2 (en) | 2001-12-07 | 2007-03-20 | Websense, Inc. | System and method for adapting an internet filter |
JP2003296221A (ja) * | 2002-04-01 | 2003-10-17 | Kistem Kk | 視聴覚補助プログラム、視聴覚補助システム及びその方法 |
US7529754B2 (en) | 2003-03-14 | 2009-05-05 | Websense, Inc. | System and method of monitoring and controlling application files |
US7664732B2 (en) | 2003-05-31 | 2010-02-16 | Nhn Corporation | Method of managing websites registered in search engine and a system thereof |
GB2418999A (en) | 2004-09-09 | 2006-04-12 | Surfcontrol Plc | Categorizing uniform resource locators |
GB2418037B (en) | 2004-09-09 | 2007-02-28 | Surfcontrol Plc | System, method and apparatus for use in monitoring or controlling internet access |
GB2418108B (en) | 2004-09-09 | 2007-06-27 | Surfcontrol Plc | System, method and apparatus for use in monitoring or controlling internet access |
GB0512744D0 (en) | 2005-06-22 | 2005-07-27 | Blackspider Technologies | Method and system for filtering electronic messages |
US8020206B2 (en) | 2006-07-10 | 2011-09-13 | Websense, Inc. | System and method of analyzing web content |
US8615800B2 (en) | 2006-07-10 | 2013-12-24 | Websense, Inc. | System and method for analyzing web content |
US9654495B2 (en) | 2006-12-01 | 2017-05-16 | Websense, Llc | System and method of analyzing web addresses |
GB2458094A (en) | 2007-01-09 | 2009-09-09 | Surfcontrol On Demand Ltd | URL interception and categorization in firewalls |
GB2445764A (en) | 2007-01-22 | 2008-07-23 | Surfcontrol Plc | Resource access filtering system and database structure for use therewith |
EP2127311B1 (en) | 2007-02-02 | 2013-10-09 | Websense, Inc. | System and method for adding context to prevent data leakage over a computer network |
US8015174B2 (en) | 2007-02-28 | 2011-09-06 | Websense, Inc. | System and method of controlling access to the internet |
GB0709527D0 (en) | 2007-05-18 | 2007-06-27 | Surfcontrol Plc | Electronic messaging system, message processing apparatus and message processing method |
US8407784B2 (en) | 2008-03-19 | 2013-03-26 | Websense, Inc. | Method and system for protection against information stealing software |
US9130986B2 (en) | 2008-03-19 | 2015-09-08 | Websense, Inc. | Method and system for protection against information stealing software |
US9015842B2 (en) | 2008-03-19 | 2015-04-21 | Websense, Inc. | Method and system for protection against information stealing software |
US8370948B2 (en) | 2008-03-19 | 2013-02-05 | Websense, Inc. | System and method for analysis of electronic information dissemination events |
SE532405C2 (sv) * | 2008-05-02 | 2010-01-12 | Johan Stenberg | Pumpsystem samt förfarande för att fastställa ett tryckvärde |
JP4979643B2 (ja) * | 2008-05-27 | 2012-07-18 | ヤフー株式会社 | メッセージ判定装置、方法及びプログラム |
JP5347429B2 (ja) * | 2008-10-27 | 2013-11-20 | 富士通株式会社 | ユニフォームリソースロケータ書換方法及び装置 |
EP2443580A1 (en) | 2009-05-26 | 2012-04-25 | Websense, Inc. | Systems and methods for efficeint detection of fingerprinted data and information |
JP5462713B2 (ja) * | 2010-05-25 | 2014-04-02 | 株式会社Kddi研究所 | Webページ収集装置、方法及びプログラム |
US9117054B2 (en) | 2012-12-21 | 2015-08-25 | Websense, Inc. | Method and aparatus for presence based resource management |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2176775C (en) * | 1995-06-06 | 1999-08-03 | Brenda Sue Baker | System and method for database access administration |
JPH10275157A (ja) * | 1997-03-31 | 1998-10-13 | Sanyo Electric Co Ltd | データ処理装置 |
-
1999
- 1999-02-16 JP JP03752599A patent/JP3220104B2/ja not_active Expired - Fee Related
Non-Patent Citations (2)
Title |
---|
滝沢泰盛,「インターネットの『門番』フィルタリング・ツールの効用」,日経コミュニケーション,日経BP社,1997.10.20,第256号,PP.136−139 |
高橋史忠,「インターネットのわいせつ情報,閲覧防ぐシステムが稼働へ」,日経エレクトロニクス,日経BP社,1997.09.22,第699号,PP.15−16 |
Also Published As
Publication number | Publication date |
---|---|
JP2000235540A (ja) | 2000-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3220104B2 (ja) | Url階層構造を利用した情報自動フィルタリング方法および装置 | |
US8554540B2 (en) | Topic map based indexing and searching apparatus | |
US7844594B1 (en) | Information search, retrieval and distillation into knowledge objects | |
US9282162B2 (en) | Processing user profiles of users in an electronic community | |
US8589373B2 (en) | System and method for improved searching on the internet or similar networks and especially improved MetaNews and/or improved automatically generated newspapers | |
Chirita et al. | Using ODP metadata to personalize search | |
US6976070B1 (en) | Method and apparatus for automatic information filtering using URL hierarchical structure and automatic word weight learning | |
US6571240B1 (en) | Information processing for searching categorizing information in a document based on a categorization hierarchy and extracted phrases | |
US6601059B1 (en) | Computerized searching tool with spell checking | |
US7895205B2 (en) | Using core words to extract key phrases from documents | |
KR101134701B1 (ko) | 상품평 극성 분류를 위한 특징별 서술어 긍정 및 부정 사전 자동 구축 시스템 및 방법 | |
WO2002010957A2 (en) | Computer method and apparatus for determining content types of web pages | |
US8560518B2 (en) | Method and apparatus for building sales tools by mining data from websites | |
CA2441448A1 (en) | Method and system for retrieving confirming sentences | |
EP2080125A1 (en) | System and method for processing a query | |
CA2823178A1 (en) | Method and system for enhanced data searching | |
KR20140129053A (ko) | 술어 템플릿 수집 장치, 특정 프레이즈 페어 수집 장치, 및 이들을 위한 컴퓨터 프로그램 | |
JP2001028006A (ja) | 情報自動フィルタリング方法および装置 | |
JP4158927B2 (ja) | 情報提示装置、情報提示方法、プログラム | |
US6907459B2 (en) | Systems and methods for predicting usage of a web site using proximal cues | |
US7617182B2 (en) | Document clustering based on entity association rules | |
Choudhary et al. | Role of ranking algorithms for information retrieval | |
US20070255670A1 (en) | Method and System for Automatically Producing Computer-Aided Control and Analysis Apparatuses | |
CN112016010A (zh) | 一种自动驾驶测试场景描述的自然语言语义库构建方法 | |
US20080288488A1 (en) | Method and system for determining trend potentials |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100810 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100810 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110810 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110810 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130810 Year of fee payment: 12 |
|
LAPS | Cancellation because of no payment of annual fees |