JP3220104B2

JP3220104B2 - Ｕｒｌ階層構造を利用した情報自動フィルタリング方法および装置

Info

Publication number: JP3220104B2
Application number: JP03752599A
Authority: JP
Inventors: 啓一郎帆足; 直己井ノ上; 和夫橋本
Original assignee: ケイディーディーアイ株式会社
Priority date: 1999-02-16
Filing date: 1999-02-16
Publication date: 2001-10-22
Anticipated expiration: 2019-02-16
Also published as: JP2000235540A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、インターネットを
介して提供される各種情報のうち不適切情報、例えばポ
ルノ画像等のような有害情報を識別し、この識別した不
適切情報の提供を阻止する有害情報自動フィルタリング
方法および装置に関し、更に詳しくは、階層構造に構成
されているＵＲＬに基づき不適切情報を判定し、その不
適切情報の提示を阻止するＵＲＬ階層構造を利用した情
報自動フィルタリング方法および装置に関する。

【０００２】

【従来の技術】インターネットの急速な広がりに伴い、
限られた専門家の道具でしかなかったコンピュータはご
く一般の家庭や学校などにも導入され始めている。この
ため、これまでコンピュータに触れることすらなかった
多くの一般人でも気軽にインターネットにアクセスする
ことが可能になった。こうした背景の中、近年深刻な問
題となっているのがインターネット上に氾濫するポルノ
画像などの有害情報に対する子供のアクセスである。こ
の問題に対処するため、アメリカでは政府機関がインタ
ーネット上の情報を検閲することを可能にした「通信品
位法」という法律が提案されたが、裁判の結果、表現の
自由を保証する憲法に違反すると判決され、立法するこ
とができなかった。

【０００３】そこで最近注目されているのが「情報フィ
ルタリング」という技術である。情報フィルタリングと
は、ユーザがインターネット上の情報にアクセスする際
にその情報の有害性をチェックし、有害と判定された場
合は何らかの手段によりその情報へのアクセスをブロッ
クするという技術である。

【０００４】現在市販されている有害情報フィルタリン
グソフトで取り入れられている手法は大きく以下の３つ
に分類される。

【０００５】（１）自己判定によるフィルタリング（２）第三者の判定によるフィルタリング（３）自動フィルタリングここではこの３つの手法について簡単に解説する。ま
ず、自己判定によるフィルタリング手法ではＷＷＷ情報
の提供者が自らのコンテンツの有害性について判定を行
い、その結果をＨＴＭＬファイル内に記述する。フィル
タリングソフトはこの記述された結果を参照し、有害と
判断された場合にアクセスをブロックする。この手法に
よるフィルタリングを図６に示す。

【０００６】図６に示す自己判定に基づくフィルタリン
グでは、米国マサチューセッツ工科大学のWorld Wide W
eb Consortium が作成したＰＩＣＳ（Platform for Int
ernet Content Selection ）と呼ばれるインターネット
コンテンツの評価を記述するための基準を使用してい
る。ＰＩＣＳを使用することにより、コンテンツ提供者
は簡単に自分の提供している情報を描写し、開示するこ
とができる。

【０００７】多くの場合、コンテンツ提供者がこのよう
な評価結果を公開する際には、ＰＩＣＳによる評価結果
を出力する評価機関のサービスを利用する。このような
評価機関の代表として、Recreational Software Adviso
ry Council（ＲＳＡＣ）やSafeSurfといった団体があげ
られ、それぞれ独自に設定した基準による評価結果を提
供している。コンテンツ提供者はこれらの機関からの評
価結果をＨＴＭＬファイルのヘッダに記述する。図７に
この評価結果の記述例を示す。

【０００８】この自己判定はコンテンツ提供者の自主性
に任せられるというのが現状である。そのため、多くの
コンテンツ提供者がこの判定を受けようという意志を持
たない限りは本手法による有効な有害情報フィルタリン
グは不可能であるといえる。

【０００９】次に、第三者による判定に基づくフィルタ
リングについて説明する。有害情報フィルタリングソフ
トを作成している業者の中には、ＷＷＷ上のホームペー
ジの有害性を独自に判定し、その結果をフィルタリング
ソフトの判断基準とする手法を取り入れている。一般的
には、この評価の結果として有害なホームページのＵＲ
Ｌ一覧が構築される。このＵＲＬのリストはフィルタリ
ングソフトとともにユーザに分配され、フィルタリング
ソフトの判断基準となる。多くの場合、、フィルタリン
グソフトはこの有害ＵＲＬ一覧を定期的にダウンロード
する仕組みになっている。第三者による判定に基づく有
害情報フィルタリングの仕組みを図８に示す。

【００１０】このような仕組みを持つソフトウェアの代
表的なものとしてCyberPatrol があげられる。CyberPat
rol は「暴力」「性行為」など１３個のジャンルに対
し、それぞれ有害ＵＲＬ一覧を持っており、これらのシ
ステムに従って有害情報フィルタリングを行う。

【００１１】この手法で使用される有害ＵＲＬ一覧はそ
れぞれのソフトウェア業者でホームページをアクセス
し、判定を行うことによって作成・拡張されているた
め、新しく設立されたホームページや従来のＵＲＬから
別のＵＲＬに移動したホームページには対処することは
不可能である。従って、こうした評価対象外のページに
対するフィルタリングには対処できないのが現状であ
る。

【００１２】次に、自動フィルタリングについて説明す
る。有害情報フィルタリングソフトの中にはアクセスさ
れたホームページの中身をチェックし、有害性の判断を
行うものもある。このような発想は初期のフィルタリン
グソフトで導入されていた。その例として、例えば”ｓ
ｅｘ”や“ｘｘｘ”といった文字列がＵＲＬに含まれて
いた場合、そのＵＲＬへのアクセスを禁止するなどとい
う処理を行うソフトが存在した。現在はページの中身に
ついて検証を行うソフトも開発されている。CyberSITTE
R はこうした自動フィルタリングを行うソフトの１つで
ある。このソフトではアクセスされたページに含まれる
有害な単語を取り除いて出力するという手法によってフ
ィルタリングが行われる。

【００１３】本手法には２つの問題点がある。まず１つ
は、この自動判定を行う際に生じる処理時間である。最
も、この程度の処理では数ミリ秒程度の少ない処理時間
ではあるが、こうした短い時間でもユーザにフラストレ
ーションが生じる可能性は否定できない。

【００１４】もう一方の問題は、自動フィルタリングの
精度である。まず、単語単位で有害性を判断するような
判定アルゴリズムが採用されている場合、多くの無害な
ページがブロックされてしまう可能性が高い。現に、イ
ギリスの“Sussex”という町に関するホームページがブ
ロックされるといった悪例も報告されている。更に、ペ
ージ内のテキスト情報のみに着目して自動フィルタリン
グを行う場合、画像のみが表示されているページをブロ
ックすることは不可能であるという問題もあげられる。

【００１５】

【発明が解決しようとする課題】フィルタリングソフト
の大きな目的は有害なページがブロックされる割合を増
やすことと、無害なページが誤ってブロックされる割合
を減らすことである。ブロックされたページのうち、実
際に有害だったページの割合を正解率（precision ）、
実際に有害なページのうちブロックされたページの割合
を再現率（recall）とすると、フィルタリングソフトの
目的は正解率と再現率をともに高めることであるといえ
る。

【００１６】上述した各手法にはそれぞれ一長一短があ
る。各手法の特徴を正解率と再現率という観点からまと
めた。この結果を表１に示す。

【００１７】

【表１】このように、現在市販されているフィルタリングソフト
では十分なフィルタリング性能が得られないのが現状で
ある。

【００１８】また、上述したように、従来の自動フィル
タリングでは、ページ内のテキスト情報のみに着目して
自動フィルタリングを行うため、テキスト情報が少ない
かまたは全くなく、画像のみが表示されているページを
阻止することが不可能であるという問題がある。

【００１９】本発明は、上記に鑑みてなされたもので、
その目的とするところは、階層構造になっているＵＲＬ
の上位ＵＲＬを用いることにより正解率および再現率共
に向上し得るとともに、画像のみが掲載されている少テ
キストページに対しても内容の不適切さを適確に判定し
得るＵＲＬ階層構造を利用した情報自動フィルタリング
方法および装置を提供することにある。

【００２０】

【課題を解決するための手段】上記目的を達成するた
め、請求項１記載の本発明は、インターネットを介して
提供される各種情報のうち不適切情報を識別し、この識
別した不適切情報の提供を阻止する情報自動フィルタリ
ング方法であって、インターネットを介して提供される
ＨＴＭＬ情報を入力し、このＨＴＭＬ情報のＵＲＬが上
位ＵＲＬであるか否かを判定し、この判定対象のＵＲＬ
が上位ＵＲＬである場合、この判定対象の上位ＵＲＬが
示す情報に出現する単語を抽出し、この抽出された各単
語、すなわち各単語及び該単語を含む文書の少なくとも
いずれかについて、不適切であるか否かの判定を行い、
この判定結果に基づいて該情報が不適切であるか否かの
自動フィルタリングを行い、この自動フィルタリングの
結果、前記情報が不適切であると判定された場合、当該
判定対象の上位ＵＲＬを不適切上位ＵＲＬ一覧に登録す
るとともに、前記情報の提供を阻止し、前記ＨＴＭＬ情
報の判定対象のＵＲＬが上位ＵＲＬでなかった場合、こ
の判定対象のＵＲＬを前記登録された不適切上位ＵＲＬ
一覧の各上位ＵＲＬと照合して、該判定対象のＵＲＬ
が、この不適切上位ＵＲＬ一覧に登録される上位ＵＲＬ
のいずれかと一致する部分を含むか否かを判定し、一致
する部分を含む場合、この判定対象のＵＲＬが示す情報
の提示を阻止し、前記判定対象のＵＲＬが不適切上位Ｕ
ＲＬ一覧の上位ＵＲＬと一致するものがない場合、該判
定対象のＵＲＬが示す情報に出現する単語を抽出し、こ
の抽出された各単語、すなわち各単語及び該単語を含む
文書の少なくともいずれかについて、不適切であるか否
かの判定を行い、この判定結果に基づいて該情報が不適
切であるか否かの自動フィルタリングを行い、この自動
フィルタリングの結果、前記情報が不適切であると判定
された場合、該情報の提供を阻止することを要旨とす
る。

【００２１】請求項１記載の本発明にあっては、入力さ
れたＨＴＭＬ情報のＵＲＬが上位ＵＲＬである場合、こ
の上位ＵＲＬが示す情報に出現する単語を抽出し、この
抽出された各単語、具体的には単語及び該単語を含む文
書の少なくともいずれかについて、不適切であるか否か
の判定を行い、この判定結果に基づいて該情報が不適切
であるか否かの自動フィルタリングを行い、その結果、
該情報が不適切である場合、前記上位ＵＲＬを不適切上
位ＵＲＬ一覧に登録するとともに、前記情報の提供を阻
止し、上位ＵＲＬでなかった場合、このＵＲＬを不適切
上位ＵＲＬ一覧の各ＵＲＬと照合し、一致するＵＲＬが
ある場合、このＵＲＬが示す情報の提示を阻止し、一致
するものがない場合、該ＵＲＬが示す情報に出現する単
語を抽出し、この抽出された各単語、具体的には単語及
び該単語を含む文書の少なくともいずれかについて、不
適切であるか否かの判定を行い、この判定結果に基づい
て該情報が不適切であるか否かの自動フィルタリングを
行い、その結果、前記情報が不適切である場合、該情報
の提供を阻止するため、画像のみが提示されている少テ
キストページでもその不適切さを適確に判定して阻止す
ることができ、正解率および再現率の両方を向上するこ
とができる。

【００２２】また、請求項２記載の本発明は、請求項１
記載の発明において、不適切な情報を提供するＵＲＬを
不適切ＵＲＬ一覧として登録しておき、前記入力された
ＨＴＭＬ情報のＵＲＬを前記不適切ＵＲＬ一覧の各ＵＲ
Ｌと照合して、一致するＵＲＬがあるか否かを判定し、
一致する場合、このＵＲＬが示す情報の提示を阻止する
第三者判定に基づくフィルタリングを更に行うことを要
旨とする。

【００２３】請求項２記載の本発明にあっては、不適切
な情報を提供するＵＲＬを不適切ＵＲＬ一覧として登録
しておき、ＨＴＭＬ情報のＵＲＬを不適切ＵＲＬ一覧の
各ＵＲＬと照合して、一致するＵＲＬがある場合、この
ＵＲＬが示す情報の提示を阻止する第三者判定に基づく
フィルタリングを更に行うため、この第三者判定に基づ
くフィルタリングと上位ＵＲＬを利用した自動フィルタ
リングの両方により更に完全にフィルタリングを行うこ
とができる。

【００２４】更に、請求項３記載の本発明は、インター
ネットを介して提供される各種情報のうち不適切情報を
識別し、この識別した不適切情報の提供を阻止する情報
自動フィルタリング装置であって、インターネットを介
して提供されるＨＴＭＬ情報を入力する入力手段と、こ
の入力されたＨＴＭＬ情報のＵＲＬが上位ＵＲＬである
か否かを判定する上位ＵＲＬ判定手段と、該上位ＵＲＬ
判定手段による判定の結果、前記判定対象のＵＲＬが上
位ＵＲＬである場合、この判定対象の上位ＵＲＬが示す
情報に出現する単語を抽出し、この抽出された各単語、
すなわち各単語及び該単語を含む文書の少なくともいず
れかについて、不適切であるか否かの判定を行い、この
判定結果に基づいて該情報が不適切であるか否かの自動
フィルタリングを行う第１の自動フィルタリング手段
と、この自動フィルタリングの結果、前記情報が不適切
であると判定された場合、該情報の提示を阻止するとと
もに、前記判定対象の上位ＵＲＬを不適切上位ＵＲＬ一
覧テーブルに登録する不適切上位ＵＲＬ一覧登録手段
と、前記上位ＵＲＬ判定手段による判定の結果、前記Ｈ
ＴＭＬ情報の判定対象のＵＲＬが上位ＵＲＬでなかった
場合、この判定対象のＵＲＬを前記不適切上位ＵＲＬ一
覧テーブルに登録されている各上位ＵＲＬと照合して、
該判定対象のＵＲＬが、この不適切上位ＵＲＬ一覧に登
録される上位ＵＲＬのいずれかと一致する部分を含むか
否かを判定する不適切ＵＲＬ判定手段と、この判定の結
果、前記判定対象のＵＲＬが不適切上位ＵＲＬ一覧テー
ブルに登録されている上位ＵＲＬと一致するものがない
場合、該判定対象のＵＲＬが示す情報に出現する単語を
抽出し、この抽出された単語に基づいて該情報が不適切
であるか否かの自動フィルタリングを行う第２の自動フ
ィルタリング手段と、前記不適切ＵＲＬ判定手段による
判定の結果、前記判定対象のＵＲＬが不適切上位ＵＲＬ
一覧テーブルに登録されている上位ＵＲＬと一致する部
分を含む場合、この判定対象のＵＲＬが示す情報の提示
を阻止し、また前記第２の自動フィルタリング手段によ
るフィルタリングの結果、前記情報が不適切であると判
定された場合、該情報の提供を阻止する情報提示阻止手
段とを有することを要旨とする。

【００２５】請求項３記載の本発明にあっては、入力さ
れたＨＴＭＬ情報のＵＲＬが上位ＵＲＬである場合、こ
の上位ＵＲＬが示す情報に出現する単語を抽出し、この
抽出された各単語、具体的には単語及び該単語を含む文
書の少なくともいずれかについて、不適切であるか否か
の判定を行い、この判定結果に基づいて該情報が不適切
であるか否かの自動フィルタリングを行い、その結果、
該情報が不適切である場合、前記上位ＵＲＬを不適切上
位ＵＲＬ一覧テーブルに登録するとともに、前記情報の
提供を阻止し、上位ＵＲＬでなかった場合、このＵＲＬ
を不適切上位ＵＲＬ一覧テーブルの各ＵＲＬと照合し、
一致するＵＲＬがある場合、このＵＲＬが示す情報の提
示を阻止し、一致するものがない場合、該ＵＲＬが示す
情報に対して自動フィルタリングを行い、その結果、前
記情報が不適切である場合、該情報の提供を阻止するた
め、画像のみが提示されている少テキストページでもそ
の不適切さを適確に判定して阻止することができ、正解
率および再現率の両方を向上することができる。

【００２６】請求項４記載の本発明は、請求項３記載の
発明において、不適切な情報を提供するＵＲＬを不適切
ＵＲＬ一覧テーブルに登録する不適切ＵＲＬ一覧登録手
段と、前記入力手段から入力される前記ＨＴＭＬ情報の
ＵＲＬを前記不適切ＵＲＬ一覧テーブルに登録されてい
る各ＵＲＬと照合し、一致するＵＲＬがあるか否かを判
定する一致ＵＲＬ判定手段と、この判定の結果、一致す
るＵＲＬがある場合、このＵＲＬが示す情報の提示を阻
止する第三者判定に基づくフィルタリング手段とを更に
有することを要旨とする。

【００２７】請求項４記載の本発明にあっては、不適切
な情報を提供するＵＲＬを不適切ＵＲＬ一覧テーブルと
して登録しておき、ＨＴＭＬ情報のＵＲＬを不適切ＵＲ
Ｌ一覧テーブルの各ＵＲＬと照合して、一致するＵＲＬ
がある場合、このＵＲＬが示す情報の提示を阻止する第
三者判定に基づくフィルタリングを更に行うため、この
第三者判定に基づくフィルタリングと上位ＵＲＬを利用
した自動フィルタリングの両方により更に完全にフィル
タリングを行うことができる。

【００２８】

【発明の実施の形態】以下、図面を用いて本発明の実施
の形態について説明する。図１は、本発明の一実施形態
に係るＵＲＬ階層構造を利用した情報自動フィルタリン
グ装置の構成を示すブロック図である。

【００２９】図１に示す情報自動フィルタリング装置
は、インターネットを介して提供される各種情報のうち
不適切情報、例えばポルノ等の有害情報を識別し、この
識別した不適切情報の提供を阻止するものであり、イン
ターネットを介して提供されるＨＴＭＬ情報を入力する
入力部１、この入力された情報に出現する単語を抽出す
る単語抽出部３、この抽出した単語や本実施形態の情報
自動フィルタリング処理を実行するソフトウェアやその
他の各種情報を記憶する記憶部５、単語の重みデータを
格納する単語重みデータ格納部７、自動フィルタリング
を行う自動フィルタリング部９、有害上位ページ一覧を
テーブルとして格納している有害上位ページ一覧テーブ
ル格納部１１、およびフィルタリングした結果を出力す
る出力部１３から構成されている。

【００３０】本実施形態の情報自動フィルタリング装置
は、ＵＲＬ階層構造を有するＵＲＬのうち上位ＵＲＬを
利用して、有害情報のフィルタリングを行うものである
が、まずその概念について説明する。

【００３１】上述したように、自動フィルタリングの大
きな問題の１つとしてテキスト情報が少ないあるいは全
くないホームページに対するフィルタリングが困難であ
ることがあげられる。特にポルノ系の有害情報ページに
は画像のみが掲載されているものが多数含まれていると
考えられるため、これらの少テキストページに対する対
処法を検討する必要がある。しかし、典型的なＷＷＷユ
ーザならば、画像のみのページにアクセスするためにリ
ンクをたどるものと考えられる。この仮定が真実なら
ば、画像ページに至るまでの上位階層のページに対して
フィルタリングを行えば画像ページへのアクセスもブロ
ックすることが可能になる。この上位階層のページに対
してフィルタリングを行う手法について説明する。

【００３２】まず、上位階層にあるページをそのＵＲＬ
が以下に列挙した７つの文字列で終わるページとする：（１）index.html （２）index.htm （３）index.shtml （４）welcome.html （５）welcome.htm （６）welcome.shtml （７）/ 例えば、http://www.kdd.co.jp/index.html やhttp://w
ww.asahi.com/ などは上位ページとみなされる。これら
上位ページのうち、フィルタリングソフトによって有害
と判断されたものを有害上位ページ一覧に保存する。こ
の際、ＵＲＬのすべてを保存するのではなく、ＵＲＬの
うち最も深いディレクトリまでのＵＲＬを保存すること
にする。例えば、http://www.###.co.jp/index.html が
有害の場合は、http://www.###.co.jp/ を一覧に保存
し、http://www.###.co.jp/aaa/bbb/ccc/index.html が
有害の場合はhttp://www.###.co.jp/aaa/bbb/ccc/ を一
覧に保存する。

【００３３】上位ページ以外のページへのアクセスの
際、通常の自動有害性判断の前に、この有害上位ページ
一覧に記されているＵＲＬとアクセスされているページ
のＵＲＬを比較する。比較の結果、アクセスされたペー
ジのＵＲＬのディレクトリが有害上位ページ一覧中のど
れかのＵＲＬと一致した場合、そのページを有害である
とみなす。例えばhttp://www.###.co.jp/ が有害上位ペ
ージ一覧に含まれていた場合、http://www.###.co.jp/a
aa/bbb.html もhttp://www.###.co.jp/nantoka.html も
有害であるとみなす。一方、有害上位ページ一覧中のデ
ータと一致しない場合は、自動フィルタリングソフトに
より有害性の判断を行う。

【００３４】上述した考え方に基づいて本実施形態の情
報自動フィルタリング装置は有害情報を阻止するように
構成されている。次に、図２に示すフローチャートを参
照して、図１に示すＵＲＬ階層構造を利用した情報自動
フィルタリング装置の作用について説明する。

【００３５】図２において、まず入力部１からインター
ネットを介して提供されるＨＴＭＬ情報であるＨＴＭＬ
文書が入力されると（ステップＳ１１）、この入力され
たＨＴＭＬ文書のＵＲＬが上位ＵＲＬ、すなわち上位ペ
ージであるか否かが判定される（ステップＳ１３）。こ
の判定の結果、前記ＨＴＭＬ文書のＵＲＬが上位ＵＲＬ
である場合には、この上位ＵＲＬが示す文書、すなわち
情報に出現する単語を単語抽出部３で抽出し、この抽出
した単語に基づいて自動フィルタリング部９による自動
フィルタリングを行い（ステップＳ１５）、前記情報が
有害であるか否かについての判定を行う（ステップＳ１
７）。

【００３６】この自動フィルタリングの情報の有害性に
ついて判定の結果、前記情報が有害である場合には、前
記上位ＵＲＬを有害上位ページ一覧テーブル格納部１１
の有害上位ページ一覧テーブルに登録するとともに（ス
テップＳ２１）、この情報の提供を阻止（ブロック）し
て処理を終了する（ステップＳ３１）。

【００３７】一方、ステップＳ１７における判定の結
果、前記情報が有害でない場合には、出力部１３により
ブラウザに表示して処理を終了する（ステップＳ１
９）。

【００３８】また、ステップＳ１３における上位ページ
か否かの判定の結果、上位ページでない場合には、この
ＵＲＬを有害上位ページ一覧テーブル格納部１１に有害
上位ページ一覧テーブルとして登録されている各ＵＲＬ
と照合し（ステップＳ２３）、一致するＵＲＬがあるか
否かをチェックする（ステップＳ２５）。このチェック
の結果、有害上位ページ一覧テーブルに一致するＵＲＬ
がある場合には、このＵＲＬが示す情報の提供を阻止し
て処理を終了する（ステップＳ３１）。

【００３９】ステップＳ２５における一致するＵＲＬが
あるか否かのチェックの結果、一致するＵＲＬがない場
合には、このＵＲＬが示す情報に出現する単語を単語抽
出部３で抽出し、この抽出した単語に基づいて自動フィ
ルタリング部９による自動フィルタリングを行い（ステ
ップＳ２７）、前記情報が有害であるか否かについての
判定を行う（ステップＳ２９）。

【００４０】この自動フィルタリングの情報の有害性に
ついて判定の結果、前記情報が有害である場合には、該
情報の提供を阻止して処理を終了するが（ステップＳ３
１）、ステップＳ２９における判定の結果、前記情報が
有害でない場合には、出力部１３によりブラウザに表示
して処理を終了する（ステップＳ１９）。

【００４１】上述した本実施形態のＵＲＬ階層構造を利
用した情報自動フィルタリング装置の効果を判定するた
め、次に示すような評価実験を行った。

【００４２】この評価実験における評価用のデータとし
て、ＷＷＷ上のデータを自動的に収集するソフト（「収
集ロボット」）を使用して大量の有害ページを収集し
た。この収集ロボットは２９０個の有害ページ（うち、
１６０個が日本語、１３０個が英語で記述されたペー
ジ）へのリンクが張られているＨＴＭＬページから起動
され、順々にリンクをたどりその途中でアクセスされた
ＨＴＭＬ文書を収集した。なお、この際収集されたデー
タはＨＴＭＬ文書のみであり、画像データ、音声データ
等は収集していない。この結果、２８０３４個のＨＴＭ
Ｌ文書が収集された。

【００４３】次に、収集された個々のＨＴＭＬ文書に対
し、主観評価によってその有害性を３段階で評価した。
なお、この評価は各ページの性的表現の有無についての
ものである。各評価段階の基準を表２に示す。

【００４４】

【表２】収集されたデータに対する有害性評価の結果は表３に示
す通りである。

【００４５】

【表３】この有害性評価とともに、各ページに記述されている言
語についての調査も行った。その結果を表４に示す。

【００４６】

【表４】また、このデータのうち、上述した「有害上位ページ」
に該当するデータの全有害データ中の割合についても調
査した。なお、ここでは有害データを前記有害性評価の
結果がレベル２または３だったものとする。その結果を
表５に示す。

【００４７】

【表５】次に、図１に示した実施形態の情報自動フィルタリング
装置に使用されている自動フィルタリング部９による自
動フィルタリングのアルゴリズム、特に前記評価実験に
使用した自動フィルタリングのアルゴリズムについて説
明する。なお、この自動フィルタリングは、情報検索や
自動分類等に使用されているベクトル空間モデルを使用
している。

【００４８】まず、入力部１から入力されたＨＴＭＬ文
書をベクトル空間モデルによって表現する。すなわち、
すべての文書を表現するｎ個の単語を選択し、それぞれ
の文書をｎ次元のベクトルで次式のように表現する。

【００４９】

【数１】このベクトルの各要素は、各々単語の文書ｄでの出現頻
度を正規化したものである。単語の出現頻度の正規化に
は次に示す数式で表されるＴＦ^＊ＩＤＦという手法を用
いている。

【００５０】

【数２】ここで、ｔｆ_diは単語ｉが文書ｄに出現する頻度、Ｎは
すべての文書の数、ｄｆ_iは単語ｉが出現する文書の数
である。

【００５１】自動フィルタリングは、次に示す数式で表
される線形識別関数によって行われ、この関数によって
単語重みの総和Ｄｉｓ（ｄ）が計算される。

【００５２】

【数３】ここで、ｗ_iは各単語ｉに対する重みであり、ｆ_diは上
式（３）の値であり、文書における各単語のｆ_di値であ
る。

【００５３】上述した式（３）から、総和Ｄｉｓ（ｄ）
が０より大きい場合、前記文書は有害であり、０以下で
ある場合、無害であると判定される。

【００５４】なお、上述した各単語ｉに対する重みは文
書ｄが有害な場合、総和Ｄｉｓ（ｄ）＞０となり、無害
な場合、総和Ｄｉｓ（ｄ）≦０となるように設定され
る。

【００５５】次に、この単語の重みの設定について図３
に示すフローチャートを参照して説明する。なお、この
単語の重みの学習には perceptron learning algorithm
（ＰＬＡ）を使用している。

【００５６】図３においては、まず各種パラメータを設
定する（ステップＳ５１）。このパラメータとしては、
各単語の重みの集合Ｗ＝（ｗ₁，…，ｗ_n）、Ｎ個の学
習データＥ＝｛ｄ₁，…，ｄ_N｝、定数η、最大学習回
数Ｍａｘ、図３に示す学習処理を繰り返し行う学習回数
ｍがある。

【００５７】次に、単語の重みの集合Ｗを初期化する
（ステップＳ５３）。この初期化では、各単語の重みに
乱数を入力する。それから、すべての学習データに対し
て前記単語重みの総和Ｄｉｓ（ｄ）を上式（３）により
計算する（ステップＳ５５）。

【００５８】そして、この計算の結果、すべての無害な
文書ｄについて総和Ｄｉｓ（ｄ）≦０であり、かつすべ
ての有害な文書ｄについて総和Ｄｉｓ（ｄ）＞０である
か否かをチェックし（ステップＳ５７）、そうである場
合には、処理を終了するが、そうでない場合には、この
ように誤って分類されたすべての文書ｄについて次のス
テップＳ６１，Ｓ６３で示すように重みの変化度合Ｓを
補正する（ステップＳ５９）。

【００５９】すなわち、ステップＳ６１では、文書ｄ_i
が有害であって、かつ総和Ｄｉｓ（ｄ）≦０の場合に
は、重み変化度合Ｓを増加するように補正し、またステ
ップＳ６３では、文書ｄ_iが無害であって、かつ総和Ｄ
ｉｓ（ｄ）＞０の場合には、重み変化度合Ｓを低減する
ように補正する。

【００６０】そして、このように補正された重み変化度
合Ｓを使用して単語重みの集合ＷをステップＳ６５で示
す式のように補正する。それから、学習回数ｍを＋１イ
ンクリメントし（ステップＳ６７）、この学習回数ｍが
最大学習回数Ｍａｘより小さいか否かをチェックし（ス
テップＳ６９）、また最大学習回数Ｍａｘより小さい場
合には、ステップＳ５５に戻り、ステップＳ５７に示し
た条件が満たされるまで、ステップＳ５５以降の処理を
繰り返し行う。

【００６１】次に、上述した実施形態のＵＲＬ階層構造
を利用した情報自動フィルタリング装置の評価実験につ
いて説明する。この評価実験は次に示す３つのプロセス
からなる。

【００６２】（１）文書を表現する単語集合抽出。（２）各単語に対する重みの学習。（３）最終評価。

【００６３】まず、単語抽出のプロセスでは、収集され
たデータの中から日本語で記述された文書５９１２個に
対し形態素解析を行い、名詞・固有名詞・未定義語を抽
出した。日本語用の形態素解析ソフトを使用したため、
文書中に含まれる英単語は未定義語として抽出される。
また、この形態素解析の際には標準の日本語辞書ととも
に辞書に載っていない性的表現などに関する用語集を制
作し、これを使用した。この専門用語集には約１０００
語の単語が登録されている。また、抽出された単語のう
ち、データ全体での出現頻度が２０以下の単語は取り除
かれた。この結果、８０１３個の単語が抽出された。

【００６４】重み学習では評価データの一部が使用され
た。この学習用データは１８３８７個のＨＴＭＬ文書か
ら構成される。このうち、英語で記述された文書は９２
６３個、日本語で記述された文書は８１７１個、その他
の言語で記述された文書は９５３個であった。最終評価
は単語抽出用データと学習データを含む評価データ全体
に対して行われた。

【００６５】評価結果では、テキスト情報が少ないＨＴ
ＭＬ文書に対するフィルタリングが困難であるという仮
定を証明するため、１つのＨＴＭＬ文書に出現する全単
語数が閾値ｍｉｎ以下の文書に対してフィルタリングを
行い、その正解率と再現率を求めた。表６にその結果を
示す。

【００６６】

【表６】この結果から明らかなように、単語数が減るにつれ、正
解率こそ大きく変化しないものの、再現率が著しく低下
する。従って、単語数が少ない文書に対するフィルタリ
ングが困難であるという仮定は示されたといえる。

【００６７】次に、同じ評価データに対し、ＵＲＬ階層
構造を考慮したフィルタリングを行い、同様に正解率と
再現率を求めた。この結果を表７に示す。

【００６８】

【表７】この結果から、本発明による自動フィルタリング手法を
取り入れることにより、高い正解率を維持したまま、再
現率を大幅に増加させることができたことが明らかにな
った。これらの結果より、本発明の有効性が証明された
といえる。

【００６９】次に、図４および図５を参照して、本発明
の他の実施形態に係る自動フィルタリング装置について
説明する。この実施形態の自動フィルタリング装置は、
上述したように図１〜図３で説明したＵＲＬ階層構造を
利用した情報自動フィルタリング装置に対して第三者判
定によりフィルタリングを行う第三者判定フィルタリン
グ処理部を付加するように構成したものであり、両フィ
ルタリング処理を組み合わせることにより理想的なフィ
ルタリングを達成しようとするものである。

【００７０】図４に示す自動フィルタリング装置は、図
１〜図３で説明したＵＲＬ階層構造を利用した情報自動
フィルタリング装置２５に対して第三者判定フィルタリ
ング処理部２３および該第三者判定フィルタリング処理
部２３で有害ＵＲＬを参照するために使用される有害Ｕ
ＲＬ一覧テーブル格納部１７が付加されている。

【００７１】有害ＵＲＬ一覧テーブル格納部１７は、有
害情報を提供するＵＲＬを有害ＵＲＬ一覧テーブルとし
て格納しているものであり、第三者判定フィルタリング
処理部２３は、前記入力部１から入力されたＨＴＭＬ文
書のＵＲＬを有害ＵＲＬ一覧テーブル格納部１７の有害
ＵＲＬ一覧テーブルに登録されている各ＵＲＬと照合
し、一致するＵＲＬがあるか否かを判定するものであ
る。

【００７２】図５は、図４に示す自動フィルタリング装
置の更に詳細な構成を示すブロック図である。図５に示
す自動フィルタリング装置は、図１に示したＵＲＬ階層
構造を利用した情報自動フィルタリング装置を構成する
入力部１、単語抽出部３、記憶部５、単語重みデータ格
納部７、自動フィルタリング部９、有害上位ページ一覧
テーブル格納部１１、出力部１３に加えて、図４の第三
者判定フィルタリング処理部２３に対応するＵＲＬリス
トに基づくフィルタリング部１５および有害ＵＲＬ一覧
テーブル格納部１７を有している。

【００７３】このように構成される自動フィルタリング
装置、すなわち第三者判定フィルタリング処理部による
ＵＲＬリスト一覧とＵＲＬ階層構造を利用した情報自動
フィルタリング装置によるフィルタリング処理では、ま
ずインターネット２１を介して入力部１から入力された
ＨＴＭＬ文書は、そのＵＲＬが有害ＵＲＬ一覧テーブル
格納部１７の有害ＵＲＬ一覧テーブルに登録されている
各ＵＲＬと照合され、一致するＵＲＬがあるか否かが判
定される。そして、有害ＵＲＬ一覧テーブル格納部１７
の有害ＵＲＬ一覧テーブルに登録されたＵＲＬと一致す
る場合には、このＵＲＬが示す情報の提示は阻止され
る。

【００７４】ＵＲＬリストに基づくフィルタリング部１
５による有害ＵＲＬ一覧テーブルを参照した判定の結
果、有害ＵＲＬ一覧テーブル格納部１７の有害ＵＲＬ一
覧テーブルに登録されているＵＲＬと一致するものがな
い場合には、ＵＲＬ階層構造を利用した情報自動フィル
タリング装置２５によるフィルタリングが図１〜図３で
説明したように行われる。

【００７５】このように本実施形態では、第三者による
判定に基づくフィルタリングとＵＲＬ階層構造を利用し
たフィルタリングの両方が行われるため、有害情報を適
確に検出して阻止することができる。

【００７６】

【発明の効果】以上説明したように、本発明によれば、
ＨＴＭＬ情報のＵＲＬが上位ＵＲＬである場合、この上
位ＵＲＬが示す情報に対して自動フィルタリングを行
い、その結果、該情報が不適切である場合、上位ＵＲＬ
を不適切上位ＵＲＬ一覧に登録するとともに、該情報の
提供を阻止し、上位ＵＲＬでなかった場合、このＵＲＬ
を不適切上位ＵＲＬ一覧の各ＵＲＬと照合し、一致する
ＵＲＬがある場合、このＵＲＬが示す情報の提示を阻止
し、一致するものがない場合、該ＵＲＬが示す情報に対
して自動フィルタリングを行い、その結果、該情報が不
適切である場合、該情報の提供を阻止するので、画像の
みが提示されている少テキストページでもその不適切さ
を適確に判定して阻止することができ、正解率および再
現率の両方を向上することができる。

【００７７】また、本発明によれば、ＵＲＬ階層構造を
利用した情報自動フィルタリングに加えて、不適切な情
報を提供するＵＲＬを不適切ＵＲＬ一覧として登録して
おき、ＨＴＭＬ情報のＵＲＬを不適切ＵＲＬ一覧の各Ｕ
ＲＬと照合して、一致するＵＲＬがある場合、このＵＲ
Ｌが示す情報の提示を阻止する第三者判定に基づくフィ
ルタリングを更に行うので、この第三者判定に基づくフ
ィルタリングと上位ＵＲＬを利用した自動フィルタリン
グの両方により更に完全にフィルタリングを行うことが
できる。

【図面の簡単な説明】

【図１】本発明の一実施形態に係るＵＲＬ階層構造を利
用した情報自動フィルタリング装置の構成を示すブロッ
ク図である。

【図２】図１に示すＵＲＬ階層構造を利用した情報自動
フィルタリング装置の作用を示すフローチャートであ
る。

【図３】図２に示すフローチャートに使用されている単
語重みの設定手順を示すフローチャートである。

【図４】本発明の他の実施形態に係る自動フィルタリン
グ装置の概要構成を示す説明図である。

【図５】図４に示す自動フィルタリング装置の詳細な構
成を示すブロック図である。

【図６】従来の自己判定に基づくフィルタリングを説明
するための図である。

【図７】図６に示した自己判定に基づくフィルタリング
の一例としてRSACi とSafeSurfによる評価結果の記述例
を示す図である。

【図８】従来の第三者による判定に基づく有害情報フィ
ルタリングを説明するための図である。

【符号の説明】

１入力部３単語抽出部７単語重みデータ格納部９自動フィルタリング部１１有害上位ページ一覧テーブル格納部１５ＵＲＬリストに基づくフィルタリング部１７有害ＵＲＬ一覧テーブル格納部

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平９−26975（ＪＰ，Ａ) 特開平10−275157（ＪＰ，Ａ) 特開平11−259389（ＪＰ，Ａ) 特開平11−306113（ＪＰ，Ａ) 特開平10−40156（ＪＰ，Ａ) 滝沢泰盛，「インターネットの『門番』フィルタリング・ツールの効用」, 日経コミュニケーション，日経ＢＰ社, 1997．10．20，第256号，ＰＰ．136− 139 高橋史忠，「インターネットのわいせつ情報，閲覧防ぐシステムが稼働へ」, 日経エレクトロニクス，日経ＢＰ社, 1997．09．22，第699号，ＰＰ．15−16 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 13/00

Claims

(57)【特許請求の範囲】

【請求項１】インターネットを介して提供される各種
情報のうち不適切情報を識別し、この識別した不適切情
報の提供を阻止する情報自動フィルタリング方法であっ
て、インターネットを介して提供されるＨＴＭＬ情報を入力
し、このＨＴＭＬ情報のＵＲＬが上位ＵＲＬであるか否
かを判定し、この判定対象のＵＲＬが上位ＵＲＬである場合、この判
定対象の上位ＵＲＬが示す情報に出現する単語を抽出
し、この抽出された各単語について、不適切であるか否
かの判定を行い、この判定結果に基づいて該情報が不適
切であるか否かの自動フィルタリングを行い、この自動フィルタリングの結果、前記情報が不適切であ
ると判定された場合、当該判定対象の上位ＵＲＬを不適
切上位ＵＲＬ一覧に登録するとともに、前記情報の提供
を阻止し、前記ＨＴＭＬ情報の判定対象のＵＲＬが上位ＵＲＬでな
かった場合、この判定対象のＵＲＬを前記登録された不
適切上位ＵＲＬ一覧の各上位ＵＲＬと照合して、該判定
対象のＵＲＬが、この不適切上位ＵＲＬ一覧に登録され
る上位ＵＲＬのいずれかと一致する部分を含むか否かを
判定し、一致する部分を含む場合、この判定対象のＵＲ
Ｌが示す情報の提示を阻止し、前記判定対象のＵＲＬが不適切上位ＵＲＬ一覧の上位Ｕ
ＲＬと一致するものがない場合、該判定対象のＵＲＬが
示す情報に出現する単語を抽出し、この抽出された各単
語について、不適切であるか否かの判定を行い、この判
定結果に基づいて該情報が不適切であるか否かの自動フ
ィルタリングを行い、この自動フィルタリングの結果、前記情報が不適切であ
ると判定された場合、該情報の提供を阻止することを特
徴とするＵＲＬ階層構造を利用した情報自動フィルタリ
ング方法。
【請求項２】不適切な情報を提供するＵＲＬを不適切
ＵＲＬ一覧として登録しておき、前記入力されたＨＴＭ
Ｌ情報のＵＲＬを前記不適切ＵＲＬ一覧の各ＵＲＬと照
合して、一致するＵＲＬがあるか否かを判定し、一致す
る場合、このＵＲＬが示す情報の提示を阻止する第三者
判定に基づくフィルタリングを更に行うことを特徴とす
る請求項１記載のＵＲＬ階層構造を利用した情報自動フ
ィルタリング方法。
【請求項３】インターネットを介して提供される各種
情報のうち不適切情報を識別し、この識別した不適切情
報の提供を阻止する情報自動フィルタリング装置であっ
て、インターネットを介して提供されるＨＴＭＬ情報を入力
する入力手段と、この入力されたＨＴＭＬ情報のＵＲＬが上位ＵＲＬであ
るか否かを判定する上位ＵＲＬ判定手段と、該上位ＵＲＬ判定手段による判定の結果、前記判定対象
のＵＲＬが上位ＵＲＬである場合、この判定対象の上位
ＵＲＬが示す情報に出現する単語を抽出し、この抽出さ
れた各単語について、不適切であるか否かの判定を行
い、この判定結果に基づいて該情報が不適切であるか否
かの自動フィルタリングを行う第１の自動フィルタリン
グ手段と、この自動フィルタリングの結果、前記情報が不適切であ
ると判定された場合、該情報の提示を阻止するととも
に、前記判定対象の上位ＵＲＬを不適切上位ＵＲＬ一覧
テーブルに登録する不適切上位ＵＲＬ一覧登録手段と、前記上位ＵＲＬ判定手段による判定の結果、前記ＨＴＭ
Ｌ情報の判定対象のＵＲＬが上位ＵＲＬでなかった場
合、この判定対象のＵＲＬを前記不適切上位ＵＲＬ一覧
テーブルに登録されている各上位ＵＲＬと照合して、該
判定対象のＵＲＬが、この不適切上位ＵＲＬ一覧に登録
される上位ＵＲＬのいずれかと一致する部分を含むか否
かを判定する不適切ＵＲＬ判定手段と、この判定の結果、前記判定対象のＵＲＬが不適切上位Ｕ
ＲＬ一覧テーブルに登録されている上位ＵＲＬと一致す
るものがない場合、該判定対象のＵＲＬが示す情報に出
現する単語を抽出し、この抽出された単語に基づいて該
情報が不適切であるか否かの自動フィルタリングを行う
第２の自動フィルタリング手段と、前記不適切ＵＲＬ判定手段による判定の結果、前記判定
対象のＵＲＬが不適切上位ＵＲＬ一覧テーブルに登録さ
れている上位ＵＲＬと一致する部分を含む場合、この判
定対象のＵＲＬが示す情報の提示を阻止し、また前記第
２の自動フィルタリング手段によるフィルタリングの結
果、前記情報が不適切であると判定された場合、該情報
の提供を阻止する情報提示阻止手段とを有することを特
徴とするＵＲＬ階層構造を利用した情報自動フィルタリ
ング装置。
【請求項４】不適切な情報を提供するＵＲＬを不適切
ＵＲＬ一覧テーブルに登録する不適切ＵＲＬ一覧登録手
段と、前記入力手段から入力される前記ＨＴＭＬ情報のＵＲＬ
を前記不適切ＵＲＬ一覧テーブルに登録されている各Ｕ
ＲＬと照合し、一致するＵＲＬがあるか否かを判定する
一致ＵＲＬ判定手段と、この判定の結果、一致するＵＲＬがある場合、このＵＲ
Ｌが示す情報の提示を阻止する第三者判定に基づくフィ
ルタリング手段とを更に有することを特徴とする請求項
３記載のＵＲＬ階層構造を利用した情報自動フィルタリ
ング装置。