JP2005070961A - Webパトロールシステム、Webパトロール方法、Webパトロール用プログラム、及び、Webパトロール用記録媒体 - Google Patents

Webパトロールシステム、Webパトロール方法、Webパトロール用プログラム、及び、Webパトロール用記録媒体 Download PDF

Info

Publication number
JP2005070961A
JP2005070961A JP2003297607A JP2003297607A JP2005070961A JP 2005070961 A JP2005070961 A JP 2005070961A JP 2003297607 A JP2003297607 A JP 2003297607A JP 2003297607 A JP2003297607 A JP 2003297607A JP 2005070961 A JP2005070961 A JP 2005070961A
Authority
JP
Japan
Prior art keywords
web page
web
damage expectation
damage
expectation degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003297607A
Other languages
English (en)
Inventor
Yutaka Abe
豊 阿部
Katsuya Arai
克也 新井
Hiroshi Sakamoto
啓 坂本
Saburo Hanaki
三良 花木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003297607A priority Critical patent/JP2005070961A/ja
Publication of JP2005070961A publication Critical patent/JP2005070961A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】検査対象となるWebページに誹謗中表等の不適切な表現が存在するか否かを検査することで、不適切な表現が掲載されたWebページの調査を行うWebパトロールシステムであって、不適切な表現による被害を極力抑えることができるようなWebページの検査を行う。
【解決手段】視聴率サーバ3から取得した視聴率データの視聴数nと誹謗中傷表現が発見されずに放置されていた時間tとの積から成る被害期待度という概念を新たに定義し、この動的に変化する被害期待度を利用して、被害期待度の高いWebページから優先的に検査する。
【選択図】 図5

Description

本発明は、検査対象となるWebページに不適切な表現が存在するか否かを検査することで、誹謗中傷表現等が掲載されたWebページを発見するWebパトロール(巡回)システム、Webパトロール方法、Webパトロール用プログラム、及び、Webパトロール用記録媒体に関する。
近年、Webページ内に、公序良俗違反表現、誹謗表現、中傷表現等の不適切な表現が増大している。これによって、ブランド、信頼、評価、株価等への不当な悪影響が起こり得る。そのため、早期発見による被害拡大の防止が重要となる。発見すれば、反論、削除の催告、法的手続き等が可能となる。
しかし、Webページは、データ量が膨大、データが分散、及び、日々更新という3つの特徴があるため、人手で探すのは非常に困難である。そのため、従来から、不適切なテキスト表現を自動的に発見し、被害者(ユーザ)に通知するサービスが求められている。
このようなサービスとしては、顧客企業が中傷的な表現や商品の悪評を把握するため、ニュース、メーリングリスト、フォーラム、電子掲示板等のWebページを定期的にモニターし、一日に一回、顧客にレポートするサービス(eWatch[非特許文献1参照]、NET iScope[非特許文献2参照]など)がある。また、不適切な表現がWeb上の電子褐示板で行われることが多いため、電子掲示板の監視を専門として、電子掲示板の係り受け関係(ハイパーリンク先)に考慮し、リンク先のWebページも監視することで網羅性を向上させたシステム(BBWatcher[非特許文献3参照]など)がある。更に、電子掲示板管理者のために、利用者の書き込みを自動的に検閲するシステム(サイバーコップス[非特許文献4参照]など)もある。
これらの従来システムは、Web検索技術、クローリング技術、テキストマイニング技術といった既存の技術で構築されており、(1)Webページの収集、(2)内容検査の2つの処理により実現される。具体的には、(1)一定の間隔で、経験則上得られているブラックリストに示した要注意サイトのWebページ及びそのハイパーリンク先のWebページのデータや、検索エンジンでキーワード検索した結果及びハイパーリンク先のWebページのデータを収集し、(2)予め用意している中傷語辞書とキーワードマッチングを行って、誹謗中傷的表現が掲示されているWebページを検査する。
このような従来のWebパトロールシステムは、すぐれたGUIも提供しており、実サービスで多くの利用者を抱えていることから、社会的に一定の役割を果たしていると評価できる。
eWatch, http://www.ewatch.com/ NET iScope, httρ://www.daj.co.jp/bs/iscope/index.htm BBWatcher:「電子掲示板監視システム」,特開2002−27904号公報 サイバーコップス:「電子掲示板システム」,特許第2951307号 google, http://www.goog1e.com/ 松本勉:「素朴な疑問」インターネットの「視聴率」って計れないの?,情報処理学会誌,Vol.40 No03,1999
ここで、本発明者は、不適切な表現を発見するシステムの優劣を図る評価尺度を以下の3つと考える。
(1)被害期待度の低い検査
(2)網羅性の高い検査
(3)精度の高い検査
次に、これら(1)から(3)について説明する。
(1)被害期待度の低い検査の説明
Webは、i)利用者数の多さ及びii)容易にアクセス、コピー、参照可能であるという利便性の高さの2つの特徴のために、情報伝達が非常に早い。そこで、不適切な表現がなされた場合には、これをすばやく発見し、被害を最小限にとどめることが重要である。被害の拡大度合いを測る指標が被害期待度である。この「被害期待度」は、本発明者達が定義した概念であって、〔数式1〕に示すように、不適切な表現がなされた時から、発見されるまでに放置された時間(t)とその間に同Webページを閲覧した視聴数(n)の積で定義される。
[数1]
(被害期待度)=放置時間(t)×視聴数(n)
多くの人に情報が伝播することによって被害が拡大するため、被害期待度は低いほうが優れている。
(2)網羅性の高い検査
「網羅性」とは、この分野の一般用語(技術用語)であって、〔数式2〕に示すように、発見したWebページが、どの程度、不適切な嫌疑を受けるWebページを網羅しているかを示す指標である。例えば、ハイパーリンク先を次々にアクセスしていくと、不適切な嫌疑を受けるWebページが増えていくため、網羅性が増える。
Figure 2005070961
Ndiscover:Webパトロールシステムが発見した誹謗中傷の嫌疑があるWebページ数
Nall:すべての誹謗中傷の嫌疑があるWebページ数
尚、Nallは、嫌疑があるWebページのすべてを示しており、実際には完全な値を導き出せるのは困難であるため、予測も含めた値である。
(3)精度の高い検査
「精度」とは、この分野の一般用語(技術用語)であって、〔数式3〕に示すように、被害者(ユーザ)にレポートされたWebページの中で、不適切な嫌疑を受けるページを含んでいる率である。
Figure 2005070961
Nreport:Webパトロールシステムが被害者にレポートしたWebページ数
尚、一般に多くのWebページを調査すれば網羅性は向上するが、それだけ処理時間(t)が掛かるため、被害期待度が低下する。つまり、被害期待度と網羅性は、トレードオフの関係になる。
しかしながら、我々は、下記の理由から、従来のWebパトロールシステムでは、被害期待度、網羅性ともに、不十分であると考えている。
例えば、検索エンジンに調査対象客体(例えば、「N社」)のキーワードを入力した結果が333万件である場合を例に、被害期待度と網羅性を検証する。仮に、1000万ページを24時間で処理可能なWebパトロールシステムがあるとする。ここで、検索結果だけを対象として検査を行うのならば、8時間程度の時間で調査は終了する。しかし、検索結果のみでは、完全に網羅したことにはならない。なぜならば、係り受け関係(ハイパーリンク先)や検索エンジンの更新タイムラグといった理由から、不適切な嫌疑あるWebページは、検索結果に必ずしも現れないからである。経験上、このような不適切な表現が掲載されたWebページは、検索結果のWebページよりもむしろ、このハイパーリンク先のWebページであることが多い。即ち、検索結果のリンク先、そのまたリンク先というように、複数ホップ分のリンク先まで検査対象を拡張して初めて、網羅性を確保したと言うことが出来る。
そこで、仮に、検索結果1ページあたり、1回だけリンクをたどることを考える。すると、検索結果1ページあたり、10個のハイパーリンクがある場合、3330万件を検査する必要が出てくる。つまり、3日以上の検査時間がかかり、放置時間が3日以上となる。とするならば、網羅性を向上させたとしても、放置時間(t)が増えることにより、逆に、被害期待度が低下することになる。
また、従来技術は、1日1回の頻度で調査レポートを行っているが、不適切な嫌疑が著しく強いWebサイトに対しては、一日何度も調査をする必要がある。ここで、要注意のWebサイトも時間とともに動的に変化するため、経験則では対応できないことが分かる。
以上の如く、従来技術は、被害期待度、網羅性ともに十分ではなく、非効率的な検査方法をしていることがわかる。キャッシュの容量を増やすことによって、大量にWebページデータを収集することによる対策も考えられるが、今後、Webが発展し、ますますデータ量が増えた場合には、破綻するのは容易に予想できるため、網羅性を維持しつつ効率的な検査が必要となる。
本発明は、上記の事情に鑑みてなされたもので、検査対象となるWebページに、公序良俗違反表現、誹謗表現、中傷表現等の不適切な表現が存在するか否かを検査することで、不適切な表現が掲載されたWebページの調査を行うWebパトロールシステムであって、不適切な表現による被害を極力抑えることができるようなWebページの検査を行うことを目的としたものである。
上記目的を達成すべく、請求項1に係る発明は、検査対象となるWebページ内の不適切な表現を検査することで、不適切な表現が掲載されたWebページの調査を行うWebパトロールシステムであって、検査対象となる各Webページの一定期間における視聴数を示した視聴率データを取得する視聴率データ取得手段と、前記視聴率データ取得手段によって取得した視聴数と不適切な表現が発見されずに放置されていた時間との積から成る被害期待度を、Webページ毎に算出する被害期待度算出手段と、前記被害期待度算出手段によって算出した被害期待度をWebページ毎に累積的に記憶可能な被害期待度累積記憶手段と、前記被害期待度算出手段によって算出した被害期待度を、Webページを特定するための特定情報と関連付けて前記被害期待度累積記憶手段へ累積的に記録する被害期待度記録手段と、前記被害期待度累積記憶手段で記憶している被害期待度の累積値が最大となっているWebページに係る特定情報を選出する選出手段と、前記選出手段によって選出したWebページの特定情報に基づいて、当該Webページのデータを取得するWebページデータ取得手段と、前記Webページデータ取得手段によって取得したWebページデータ内の不適切な表現を検査する表現検査手段と、前記表現検査手段によって検査したWebページデータに係る被害期待度の累積値を零にする累積値零手段と、前記累積値零手段によって累積値を零にした後に、前記被害期待度記録手段によって再び前記被害期待度累積記憶手段に累積的に記録するための被害期待度をWebページ毎に再び算出する被害期待度再算出手段と、を有することを特徴とするWebパトロールシステムである。
ここで、「Webパトロールシステム」は、単一のコンピュータにより構築されている場合だけでなく、各手段又はステップを分割して2つ以上のコンピュータによって構築されている場合であってもよい。
請求項2に係る発明は、検査対象となるWebページ内の不適切な表現を検査することで、不適切な表現が掲載されたWebページの調査を行うWebパトロールシステムを利用したWebパトロール方法であって、
前記Webパトロールシステムが、視聴数と不適切な表現が発見されずに放置されていた時間との積から成る被害期待度をWebページ毎に累積的に記憶可能な被害期待度累積記憶手段を有する状態において、
前記Webパトロールシステムは、
検査対象となる各Webページの一定期間における視聴数を示した視聴率データを取得する視聴率データ取得ステップと、前記視聴率データ取得ステップによって取得した視聴数と不適切な表現が発見されずに放置されていた時間との積から成る被害期待度を、Webページ毎に算出する被害期待度算出ステップと、前記被害期待度算出ステップによって算出した被害期待度を、Webページを特定するための特定情報と関連付けて前記被害期待度累積記憶手段へ累積的に記録する被害期待度記録ステップと、前記被害期待度累積記憶手段で記憶している被害期待度の累積値が最大となっているWebページに係る特定情報を選出する選出ステップと、前記選出ステップによって選出したWebページの特定情報に基づいて、当該Webページのデータを取得するWebページデータ取得ステップと、前記Webページデータ取得ステップによって取得したWebページデータ内の不適切な表現を検査する表現検査ステップと、前記表現検査ステップによって検査したWebページデータに係る被害期待度の累積値を零にする累積値零ステップと、前記累積値零ステップによって累積値を零にした後に、前記被害期待度記録ステップによって再び前記被害期待度累積記憶手段に累積的に記録するための被害期待度をWebページ毎に再び算出する被害期待度再算出ステップと、を実行可能であることを有することを特徴とするWebパトロール方法である。
請求項3に係る発明は、請求項2に記載のWebパトロールシステムに、前記被害期待度累積記憶手段を構築させると共に、上記各ステップを実行可能にすることを特徴としたWebパトロール用プログラムである。
ここで、「プログラム」とは、コンピュータによる処理に適した命令の順番付けられた列からなるものをいい、コンピュータのHD(Hard Disk)、CD−RW等にインストールされているものや、CD−ROM、DVD、FD、半導体メモリ、コンピュータのHDD等の各種記録媒体に記録されているものや、インターネット等の外部ネットワークを介して配信されるものも含まれる。
請求項4に係る発明は、請求項3に記載のWebパトロール用プログラムを記録したことを特徴とした、コンピュータ読み取り可能な移動案内用記録媒体である。
ここで、「記録媒体」とは、上記Webパトロールシステム(コンピュータ)で上記被害期待度累積記憶手段の構築及び上記各ステップを実行させるためのプログラムの読み取りに使用することができればよく、情報を媒体の物理的特性を利用してどのように記録するか等の物理的な記録方法には依存しない。例えば、FD(Flexible Disk)、CD−ROM(R,RW)(Compact Disc Read Only Memory(CD Recordable,CD Rewritable))、DVD−ROM(RAM,R,RW)(Digital Versatile Disk Read Only Memory(DVD Random Access Memory,DVD Recordable,DVD Rewritable))、半導体メモリ、MO(Magneto Optical Disk)、MD(Mini Disk)、磁気テープ等が該当する。
以上説明したように本発明によれば、新たに「被害期待度」という概念を導入すると共に、動的に変化する被害期待度を利用して被害期待度の高いWebページから優先的に検査することにより、より多くの人に不適切な表現を広まないようにすることが出来るため、不適切な表現による被害を極力抑えることができるようなWebページの検査を行うことができる。
以下に、図1乃至図6を用いて、本発明を実施するための最良の形態(以下、「実施形態」という)を説明する。尚、本実施形態では、「不適切な表現」の一例として「誹謗中傷的な表現」の場合を説明する。また、「不適切な表現」は、パターンマッチ(コンピュータ(計算機)による形式的な処理)が可能であればよく、画像データ(静止画データ、動画データ)、音声データ等のデータもを含む。
図1は、本実施形態に係るWeb Patrol System1(以下、「システム1」という)の構成、及び、これに関連したものを示した図である。図2は視聴率データの一例を示した図であり、図3はキャッシュ14内のWebページデータの一例を示した図であり、図4は客体識別語辞書DB13に記憶している客体識別語辞書の一例を示した図である。また、図5は、システム1内での一部の処理動作を示した処理フロー図である。図6は、システム1内での処理の一部をイメージ化した図である。
図1に示すシステム1は、ユーザのコンピュータとしての利用者端末にWebパトロール用プログラム(以下、単に「プログラム」という)(p)がインストールされることにより、Webデータ内の不適切な表現の検査という使用目的に応じた特有のシステムとして構築されている場合を示している。また、このプログラム(p)によって、後述のステップ(S1〜S9,S6−1〜S6−4)を実行することが可能である。
尚、システム1は、後述のGUI(Graphical User Interface)30に代えてインターネット等の通信ネットワークとの通信インターフェースを用いることで、クライアントとしての利用者端末に対して、調査レポートのデータを送信するサーバ・コンピュータとしてもよい。また、この場合には、システム1は、単一のコンピュータだけでなく、複数のコンピュータによって構築されていてもよい。
また、プログラム(p)は、大きく分けて、図1に示すように、収集モジュール10とランキングモジュール20によって設計されている。このうち、収集モジュール10は、主にWebページデータの収集を行うモジュールであり、ランキングモジュール20は、主に被害期待度を用いてWebページの検査開始に優先順序を付けてから、Webページを検査することで誹謗中傷の嫌疑度を算出し、ユーザに通知するモジュールである。ここでは、従来のテキストマイニング技術を利用する。文書を形態素解析し、文書と単語のマトリックスを作成し、マッチングモジュール内で、中傷語辞書との内積計算を行うことにより、嫌疑度を算出することになる。
更に、収集モジュール10には、Webページデータ収集モジュール11と検査コントローラ(モジュール)15の一部が含まれている。また、ランキングモジュール20には、検査コントローラ15の一部と、視聴率データ取得モジュール21と、マッチングモジュール23が含まれている。
また、プログラム(p)により、システム1内の図示していないHD(Hard Disk)には、図1に示すように、収集モジュール10の実行時に使用する収集ルール記憶部12、収集モジュール10及びランキングモジュール20の実行時に使用する客体識別語辞書DB(Data Base)13、ランキングモジュール20の実行時に使用する被害期待度累積記憶部22及び(誹謗)中傷語辞書DB24が構築されている。
このうち、収集ルール記憶部12には、Webページデータを収集するためのルール(規則)が記憶されている。例えば、3ホップ分のハイパーリンクをたどり、検索結果を再帰的に収集する旨のルールである。
また、客体識別語辞書DB13には、図4に示すような調査対象客体(例えば、「N社」)を識別するための辞書が記憶されている。この客体識別語辞書には、調査対象客体としてのキーワードと重みとが関連付けられて表されている。この「重み」は、図1に示すユーザ(被害者)が、GUI30を介して登録することができ、ユーザが重要だと判断した場合には重みの数値を増やすことになる。例えば、ユーザがN社である場合には、自社名の重みを増すために、重みを「3」とする。
また、被害期待度累積記憶部22は、算出した被害期待度をWebページ毎に累積的に記憶することができる。(誹謗)中傷語辞書DB24には、誹謗中傷表現と考えられる典型的な単語が複数記憶されている。この単語は、ユーザが使用する前に、予め記憶されている。
また、Webページデータ収集モジュール11は、ブラックリストや検索エンジンによって絞り込んだ検査対象集合X内のWebページのデータDを収集する機能を有する。このWebページデータ収集モジュール11によって収集したWebページデータDは、図3に示すように、このWebページの更新日時とともにシステム1内のキャッシュ14に記録される。
また、視聴率データ取得モジュール21は、Web視聴率を調査する機関の視聴率サーバ3から通信ネットワーク等を介して、図2に示すような検査対象となる各Webページの一定期間(T)における視聴率を示した視聴率データを取得する機能を有し、後述のステップS1を実行する。
尚、視聴率サーバ3については、現在様々なWeb視聴率を測定するシステムが提案されている(非特許文献6参照)。プロキシーセントリックタイプやユーザセントリック等、様々な方式があるが、Web Patrolでは、1時間程度の更新頻度で、URL(Uniform Resource Locators)とこれに対応する視聴数情報の入手という2つの要件が満たされればよいため、プロキシーセントリック方式の軽微なシステムで足りる。
検査コントローラ15は、取得したWebページに優先順位を付けて、優先順位の高い順に検査を開始させる機能を有し、後述のステップ(S2〜S5,S7〜S9)を実行する。
マッチングモジュール23は、収集したWebページの内容と典型の注意文書をマッチングすることにより、誹謗中傷の嫌疑が強いWebページを検査し、GUI30を介してユーザに通知する機能を有し、後述のステップS6を実行する。尚、マッチング処理については、図6を用いて、後ほど説明する。
続いて、図5乃至図6を用いて、本実施形態に係るシステム1を利用してユーザにWebページの調査レポートを報告するためのWebパトロール方法を説明する。
まず、図1に示すように、Webページデータ収集モジュール11は、客体識別語辞書を参照し、収集ルールに従って、一定時間間隔で検査対象となる各Webページのデータを収集し、キャッシュ14に記録しておく。この検査対象は、Web2上の複数のWebページのうちで、検索エンジンを使用したり、予め用意したブラックリストに基づいて選出したWebページ群であり、誹謗中傷の嫌疑があるWebページの集合Xである。
次に、図5に示すように、視聴率データ取得モジュール21によって、検査対象集合X内の各Webページの視聴率データdを取得する(ステップS1)。この視聴率データdは、例えば30分間等の一定期間(Tk-1〜Tk:kは正数)における各Webページの視聴率を示したデータであり、視聴率サーバ3から通信ネットワークを介して取得する。
次に、検査コントローラ15は、上記ステップS1によって取得した各Webページの視聴率に基づいた視聴数(n)と、誹謗中傷表現が発見されずに放置されていた時間(t)との積から成る被害期待度を、Webページ毎に算出する(ステップS2)。
次に、検査コントローラ15は、上記ステップS2によって算出した被害期待度をWebページ毎に被害期待度累積記憶部22へ累積的に記録する(ステップS3)。
次に、検査コントローラ15は、被害期待度累積記憶手段で記憶している被害期待度の累積値が最大となっているWebページを特定するための特定情報を選出する(ステップS4)。この特定情報は、Webページを特定することができれば何でもよく、例えば、URLや識別コード等が該当する。
例えば、図6に示すように、検査対象集合Xが示された検査対象リストに基づいて、視聴数40のWebページAのデータを収集するとともに、WebページAのリンク先である視聴数80のWebページBのデータ、視聴数60のWebページCのデータ、及び視聴数40のWebページDのデータ、並びに、WebページDのリンク先である視聴数20のWebページEのデータを収集した場合を説明する。
この場合、放置時間(t)が同じであれば、被害期待度が、WebページE,D,A(C),Bの順に、1倍,2倍,3倍,4倍となる。そのため、被害期待度が大きいWebページB,C,A(D),Eの順に検査を行うことになる。
但し、簡単に説明するために放置時間(t)を同じにしたが、実際には、最初のWebページBを検査中に、他のWebページの放置時間(t)が増えるため、WebページCの検査よりもWebページAの検査を先に行う場合もあり得る。具体的な説明は、後述の〔実施例〕の欄で行う。
次に、検査コントローラ15は、上記ステップS4で選出したWebページの特定情報に基づいて、キャッシュ14からWebページのデータDを取得する(ステップS5)。尚、予めキャッシュ14にWebページデータを記録しておかずに、上記ステップS4でWebページを特定した段階で、Web2から該当するWebページデータDを収集してもよい。
次に、マッチングモジュール23は、上記ステップS5によって取得したWebページデータ内の誹謗中傷表現を検査する(ステップS6)。
ここで、図6を用いて、マッチングモジュール23による処理動作を説明する。
まず、キャッシュ14から読み出した検査対象のWebページデータは、マッチングモジュール23によりモデル化して、図6に示すようなWebページ文書ベクトルを生成する(ステップS6−1)。このWebページ文書ベクトルは、検査対象のWebページのデータ内に存在する単語を抜き出して、単語の数を「重み」として表現したものである。
一方、Webページ文書ベクトルとマッチングする対象である典型注意文書ベクトルは、マッチングモジュール23によって事前に作成しておく(ステップS6−2)。この典型注意文書ベクトルには、誹謗中傷表現と考えられる典型的な単語が複数記録されている。この典型注意文書ベクトルの各構成要素は、客体識別語辞書と中傷語辞書から導き出される。
次に、マッチングモジュール20により、Webページ文書ベクトルと典型注意文書ベクトルをマッチングして、嫌疑度の算出を行う(ステップS6−3)。そして、ユーザに対しては、
具体的には、両者の同じキーワードの重みの内積計算を行って、Webページ文書ベクトルが典型注意文書ベクトルに近いかを判断する。典型注意文書ベクトルが最大であるため、この最大値に近ければ誹謗中傷の度合いが高いということになる。
例えば、Webページ文書ベクトルのキーワード「フレッツ」の重みが「3」で、典型注意文書ベクトルの同じキーワード「フレッツ」の重みが「1」であるため、3×1=3(点)という値が導き出せる。更に、Webページ文書ベクトルのキーワード「マイライン」の重みが「1」で、典型注意文書ベクトルの同じキーワード「マイライン」の重みが「2」であるため、1×2=2(点)という値が導き出せる。よって、導き出した値の合計である嫌疑度は、3+2=5(点)となる。
ここで、5点以上であれば誹謗中傷表現によりユーザに損害を与える可能性があると設定していれば、調査レポートにWebページの嫌疑度のランキングと、通知嫌疑の強いものは即刻通知することになる(ステップS6−4)。
再び、図5に戻って、検査コントローラ15は、上記ステップS6によって検査したWebページデータに係る被害期待度の累積値を零(ゼロ)にする(ステップS7)。
次に、検査コントローラ15は、一定期間(Tk〜Tk+1)経過して、時刻(Tk+1)になったか否かを判断する(ステップS8)。この判断は、一定期間経過していれば、新たに視聴率サーバ3から最新の視聴率を取得して、最新の視聴率により被害期待度を計算するためである。
次に、検査コントローラ15は、上記ステップS6による1つのWebページの検査時間(t)経過後に、再び、被害期待度を算出する(ステップS9)。
以上説明したように本実施形態によれば、視聴率サーバ3から取得した視聴率データの視聴数nと誹謗中傷表現が発見されずに放置されていた時間tとの積から成る被害期待度という概念を新たに定義し、この動的に変化する被害期待度を利用して、被害期待度の高いWebページから優先的に検査することにより、より多くの人に不適切な表現を広まないようにすることが出来るため、誹謗中傷表現による被害を極力抑えることができるようなWebページの検査を行うことができる。
尚、この動的な被害期待度の変化に応じたWebページの検査に関して、以下の〔実施例〕の欄に具体的に説明する。
また、本実施形態におけるシステム1へのプログラム(p)の記録、インストール作業は、システム1で読み取り可能なプログラム(p))が記録されているCD−ROM等の記録媒体を利用することによって行うことも可能である。
以下、図7乃至図27を用いて、上記実施形態を具体的に示した実施例を説明する。
図7(a)乃至図12(a)及び図13乃至図16は、上記実施形態に示した検査方法による被害期待度を示しており、各時刻(t1〜t10)におけるWebページ(D1〜D9)毎の視聴率(視聴数n/一定時間)、放置時間t、及び被害期待度、並びに各時刻(t1〜t10)における被害期待度の合計を示している。更に、図7(b)乃至図12(b)は、被害期待度の累積値を棒グラフで示している。
また、図17乃至図26は、従来方法による被害期待度を示しており、各時間(t1〜t10)におけるWebページ(D1〜D9)毎の視聴率(視聴数n/一定時間)、放置時間t、及び被害期待度、並びに各時間(t1〜t10)における被害期待度の合計を示している。
更に、図27(a)は、上記実施形態に示した検査方法による被害期待度の合計及び実際に検査したWebページ、並びに、従来方法による被害期待度の合計及び実際に検査したWebページを示している。図27(b)は、上記図27(a)をグラフ化して視覚的に容易に比較することができるようにした図である。
例えば、本検査方法を用いた場合、図1に示す被害期待度累積記憶部22には、図7(b)に示すような被害期待度がWebページ(D1〜D9)毎に記録される。この時刻t1の場合には、WebページD8の被害期待度が最も大きいので、WebページD8のデータの検査を行う。しかし、このWebページD8のデータの検査に所定時間(t2−t1)を要するため、その間に、被害期待度が変化しているはずである。そこで、時刻t2の場合には、図8(a)に示すように再び被害期待度を算出して、図1に示す被害期待度累積記憶部22に累積的に記録する。これにより、被害期待度累積記憶部22には、図8(b)に示すように被害期待度が記録されることになる。但し、直前に検査したWebページD8の被害期待度は零(ゼロ)にしてある。この時刻t2の場合には、WebページD9の被害期待度が最も大きいので、WebページD9のデータの検査を行う。
以上のような処理を繰り返すことにより、検査時点で最も被害期待度が大きいWebページの検査を行うことができる。これにより、図27(a)に示すように、時刻t2でWebページD9を検査したにも拘わらず、WebページD2、D3等の検査を行う前に、再び被害期待度が増して最大になっているWebページD9の検査をすることになる。このように、各時刻(t1〜t10)において最も被害期待度が大きいWebページを検査することで、図27(b)に示すように、従来のように単にWebページ(D1〜D9)を順番に検査する場合に比べて、被害期待度の上昇を抑制しながら検査することができる。
本発明の一実施形態に係るWeb Patrol System1の構成、及び、これに関連したものを示した図。 視聴率データの一例を示した図。 キャッシュ14内のWebページデータの一例を示した図。 客体識別語辞書DB13に記憶している客体識別語辞書の一例を示した図。 システム1内での一部の処理動作を示した処理フロー図。 システム1内での処理の一部をイメージ化した図。 (a)は、実施形態に示した検査方法による被害期待度を示しており、時刻(t1)におけるWebページ(D1〜D9)毎の視聴率(視聴数n/一定時間)、放置時間t、及び被害期待度、並びに時刻(t1)における被害期待度の合計を示した図。(b)は、時刻(t1)における被害期待度の累積値を棒グラフで示した図。 (a)は、図7(a)において、時刻(t1)に代えて時刻(t2)にした図。(b)は、図7(b)において、時刻(t1)に代えて時刻(t2)にした図。 (a)は、図7(a)において、時刻(t1)に代えて時刻(t3)にした図。(b)は、図7(b)において、時刻(t1)に代えて時刻(t3)にした図。 (a)は、図7(a)において、時刻(t1)に代えて時刻(t4)にした図。(b)は、図7(b)において、時刻(t1)に代えて時刻(t4)にした図。 (a)は、図7(a)において、時刻(t1)に代えて時刻(t5)にした図。(b)は、図7(b)において、時刻(t1)に代えて時刻(t5)にした図。 (a)は、図7(a)において、時刻(t1)に代えて時刻(t6)にした図。(b)は、図7(b)において、時刻(t1)に代えて時刻(t6)にした図。 図7(a)において、時刻(t1)に代えて時刻(t7)にした図。 図7(a)において、時刻(t1)に代えて時刻(t8)にした図。 図7(a)において、時刻(t1)に代えて時刻(t9)にした図。 図7(a)において、時刻(t1)に代えて時刻(t10)にした図。 従来の検査方法による被害期待度を示しており、時刻(t1)におけるWebページ(D1〜D9)毎の視聴率(視聴数n/一定時間)、放置時間t、及び被害期待度、並びに時刻(t1)における被害期待度の合計を示した図。 図17において、時刻(t1)に代えて時刻(t2)にした図。 図17において、時刻(t1)に代えて時刻(t3)にした図。 図17において、時刻(t1)に代えて時刻(t4)にした図。 図17において、時刻(t1)に代えて時刻(t5)にした図。 図17において、時刻(t1)に代えて時刻(t6)にした図。 図17において、時刻(t1)に代えて時刻(t7)にした図。 図17において、時刻(t1)に代えて時刻(t8)にした図。 図17において、時刻(t1)に代えて時刻(t9)にした図。 図17において、時刻(t1)に代えて時刻(t10)にした図。 (a)は、一実施形態に示した検査方法による被害期待度の合計及び実際に検査したWebページ、並びに、従来方法による被害期待度の合計及び実際に検査したWebページを示した図。(b)は、上記図27(a)をグラフ化して視覚的に容易に比較することができるようにした図。
符号の説明
1 Web Patrol System
2 Web
3 視聴率サーバ
10 収集モジュール
11 Webページデータ収集モジュール
12 収集ルール記憶部
13 客体識別語辞書DB
14 キャッシュ
15 検査コントローラ
20 ランキングモジュール
21 視聴率データ取得モジュール
22 被害期待度累積記憶部
23 マッチングモジュール
24 (誹謗)中傷語辞書DB
30 GUI

Claims (4)

  1. 検査対象となるWebページ内の不適切な表現を検査することで、不適切な表現が掲載されたWebページの調査を行うWebパトロールシステムであって、
    検査対象となる各Webページの一定期間における視聴数を示した視聴率データを取得する視聴率データ取得手段と、
    前記視聴率データ取得手段によって取得した視聴数と不適切な表現が発見されずに放置されていた時間との積から成る被害期待度を、Webページ毎に算出する被害期待度算出手段と、
    前記被害期待度算出手段によって算出した被害期待度をWebページ毎に累積的に記憶可能な被害期待度累積記憶手段と、
    前記被害期待度算出手段によって算出した被害期待度を、Webページを特定するための特定情報と関連付けて前記被害期待度累積記憶手段へ累積的に記録する被害期待度記録手段と、
    前記被害期待度累積記憶手段で記憶している被害期待度の累積値が最大となっているWebページに係る特定情報を選出する選出手段と、
    前記選出手段によって選出したWebページの特定情報に基づいて、当該Webページのデータを取得するWebページデータ取得手段と、
    前記Webページデータ取得手段によって取得したWebページデータ内の不適切な表現を検査する表現検査手段と、
    前記表現検査手段によって検査したWebページデータに係る被害期待度の累積値を零にする累積値零手段と、
    前記累積値零手段によって累積値を零にした後に、前記被害期待度記録手段によって再び前記被害期待度累積記憶手段に累積的に記録するための被害期待度をWebページ毎に再び算出する被害期待度再算出手段と、
    を有することを特徴とするWebパトロールシステム。
  2. 検査対象となるWebページ内の不適切な表現を検査することで、不適切な表現が掲載されたWebページの調査を行うWebパトロールシステムを利用したWebパトロール方法であって、
    前記Webパトロールシステムが、視聴数と不適切な表現が発見されずに放置されていた時間との積から成る被害期待度をWebページ毎に累積的に記憶可能な被害期待度累積記憶手段を有する状態において、
    前記Webパトロールシステムは、
    検査対象となる各Webページの一定期間における視聴数を示した視聴率データを取得する視聴率データ取得ステップと、
    前記視聴率データ取得ステップによって取得した視聴数と不適切な表現が発見されずに放置されていた時間との積から成る被害期待度を、Webページ毎に算出する被害期待度算出ステップと、
    前記被害期待度算出ステップによって算出した被害期待度を、Webページを特定するための特定情報と関連つけて前記被害期待度累積記憶手段へ累積的に記録する被害期待度記録ステップと、
    前記被害期待度累積記憶手段で記憶している被害期待度の累積値が最大となっているWebページに係る特定情報を選出する選出ステップと、
    前記選出ステップによって選出したWebページの特定情報に基づいて、当該Webページのデータを取得するWebページデータ取得ステップと、
    前記Webページデータ取得ステップによって取得したWebページデータ内の不適切な表現を検査する表現検査ステップと、
    前記表現検査ステップによって検査したWebページデータに係る被害期待度の累積値を零にする累積値零ステップと、
    前記累積値零ステップによって累積値を零にした後に、前記被害期待度記録ステップによって再び前記被害期待度累積記憶手段に累積的に記録するための被害期待度をWebページ毎に再び算出する被害期待度再算出ステップと、
    を実行可能であることを有することを特徴とするWebパトロール方法。
  3. 請求項2に記載のWebパトロールシステムに、前記被害期待度累積記憶手段を構築させると共に、上記各ステップを実行可能にすることを特徴としたWebパトロール用プログラム。
  4. 請求項3に記載のWebパトロール用プログラムを記録したことを特徴とした、コンピュータ読み取り可能な移動案内用記録媒体。
JP2003297607A 2003-08-21 2003-08-21 Webパトロールシステム、Webパトロール方法、Webパトロール用プログラム、及び、Webパトロール用記録媒体 Pending JP2005070961A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003297607A JP2005070961A (ja) 2003-08-21 2003-08-21 Webパトロールシステム、Webパトロール方法、Webパトロール用プログラム、及び、Webパトロール用記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003297607A JP2005070961A (ja) 2003-08-21 2003-08-21 Webパトロールシステム、Webパトロール方法、Webパトロール用プログラム、及び、Webパトロール用記録媒体

Publications (1)

Publication Number Publication Date
JP2005070961A true JP2005070961A (ja) 2005-03-17

Family

ID=34403406

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003297607A Pending JP2005070961A (ja) 2003-08-21 2003-08-21 Webパトロールシステム、Webパトロール方法、Webパトロール用プログラム、及び、Webパトロール用記録媒体

Country Status (1)

Country Link
JP (1) JP2005070961A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011227884A (ja) * 2010-03-31 2011-11-10 Broadband Security Inc ファイルのアップロード遮断システム及びファイルのアップロード遮断方法
JP2011248500A (ja) * 2010-05-25 2011-12-08 Kddi R & D Laboratories Inc Webページ収集装置、方法及びプログラム
JP5543679B1 (ja) * 2014-02-03 2014-07-09 株式会社 ディー・エヌ・エー ゲーム内図形認識システム及びゲーム内図形認識プログラム
JP2015103210A (ja) * 2013-11-28 2015-06-04 国立大学法人北見工業大学 インターネット上の有害書き込み検出装置及び検出方法
WO2022219792A1 (ja) * 2021-04-15 2022-10-20 日本電信電話株式会社 収集装置、収集方法、および、収集プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011227884A (ja) * 2010-03-31 2011-11-10 Broadband Security Inc ファイルのアップロード遮断システム及びファイルのアップロード遮断方法
JP2011248500A (ja) * 2010-05-25 2011-12-08 Kddi R & D Laboratories Inc Webページ収集装置、方法及びプログラム
JP2015103210A (ja) * 2013-11-28 2015-06-04 国立大学法人北見工業大学 インターネット上の有害書き込み検出装置及び検出方法
JP5543679B1 (ja) * 2014-02-03 2014-07-09 株式会社 ディー・エヌ・エー ゲーム内図形認識システム及びゲーム内図形認識プログラム
WO2022219792A1 (ja) * 2021-04-15 2022-10-20 日本電信電話株式会社 収集装置、収集方法、および、収集プログラム

Similar Documents

Publication Publication Date Title
US11134094B2 (en) Detection of potential security threats in machine data based on pattern detection
US9253268B2 (en) Providing customized information to a user based on identifying a trend
JP6321681B2 (ja) ウェブサイトユーザを識別する方法および装置
US11748488B2 (en) Information security risk management
JP2009528639A (ja) ソーシャルメディアにおける会話を分析するためのソーシャル分析システムおよび方法
US20180191765A1 (en) Method and apparatus for calculating risk of cyber attack
JP6823265B2 (ja) 分析装置、分析システム、分析方法および分析プログラム
US11671435B2 (en) Process for automated investigation of flagged users based upon previously collected data and automated observation on a go-forward basis
US20230328080A1 (en) Systems and methods of malware detection
US20120331128A1 (en) Method and a system for analysing impact of changes to content of a website
KR101959213B1 (ko) 침해 사고 예측 방법 및 그 장치
JP2005070961A (ja) Webパトロールシステム、Webパトロール方法、Webパトロール用プログラム、及び、Webパトロール用記録媒体
JP2020072384A (ja) サイバー攻撃評価プログラム、サイバー攻撃評価方法および情報処理装置
KR101648349B1 (ko) 웹사이트 위험도 산출 장치 및 그 방법
US10050922B2 (en) Server and method for processing email messages
JP4952309B2 (ja) 負荷分析システム、方法、及び、プログラム
Simpson et al. Scalable misinformation mitigation in social networks using reverse sampling
Mulholland et al. A comparison of attribute-focused and harm-focused methods for assessing the risk of organized crime groups: Are they in agreement?
Arroyo-Machado et al. Stranger things: the vanishing of the Altmetric Attention Score values in information and library science
JP2006079233A (ja) 個人情報漏洩監視システム、個人情報漏洩監視方法、個人情報漏洩監視プログラムおよびそのプログラムを記録した記録媒体
JP2012252586A (ja) 文書データ管理装置、文書データ継承方法およびプログラム
Kooij A Study on the Evolution of the Dutch Web
CN115733701A (zh) 威胁情报源的采集方法、装置、电子设备及存储介质
CN115801655A (zh) 基于信誉评估的域间路由选择方法及相关设备
JP2014002483A (ja) アクセス履歴記憶及び検索装置及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050728

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071009

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080108

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080305

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080401