JP2005070961A

JP2005070961A - Ｗｅｂパトロールシステム、Ｗｅｂパトロール方法、Ｗｅｂパトロール用プログラム、及び、Ｗｅｂパトロール用記録媒体

Info

Publication number: JP2005070961A
Application number: JP2003297607A
Authority: JP
Inventors: Yutaka Abe; 豊阿部; Katsuya Arai; 克也新井; Hiroshi Sakamoto; 啓坂本; Saburo Hanaki; 三良花木
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-08-21
Filing date: 2003-08-21
Publication date: 2005-03-17

Abstract

【課題】検査対象となるＷｅｂページに誹謗中表等の不適切な表現が存在するか否かを検査することで、不適切な表現が掲載されたＷｅｂページの調査を行うＷｅｂパトロールシステムであって、不適切な表現による被害を極力抑えることができるようなＷｅｂページの検査を行う。
【解決手段】視聴率サーバ３から取得した視聴率データの視聴数ｎと誹謗中傷表現が発見されずに放置されていた時間ｔとの積から成る被害期待度という概念を新たに定義し、この動的に変化する被害期待度を利用して、被害期待度の高いＷｅｂページから優先的に検査する。
【選択図】図５

Description

本発明は、検査対象となるＷｅｂページに不適切な表現が存在するか否かを検査することで、誹謗中傷表現等が掲載されたＷｅｂページを発見するＷｅｂパトロール（巡回）システム、Ｗｅｂパトロール方法、Ｗｅｂパトロール用プログラム、及び、Ｗｅｂパトロール用記録媒体に関する。

近年、Ｗｅｂページ内に、公序良俗違反表現、誹謗表現、中傷表現等の不適切な表現が増大している。これによって、ブランド、信頼、評価、株価等への不当な悪影響が起こり得る。そのため、早期発見による被害拡大の防止が重要となる。発見すれば、反論、削除の催告、法的手続き等が可能となる。

しかし、Ｗｅｂページは、データ量が膨大、データが分散、及び、日々更新という３つの特徴があるため、人手で探すのは非常に困難である。そのため、従来から、不適切なテキスト表現を自動的に発見し、被害者（ユーザ）に通知するサービスが求められている。

このようなサービスとしては、顧客企業が中傷的な表現や商品の悪評を把握するため、ニュース、メーリングリスト、フォーラム、電子掲示板等のＷｅｂページを定期的にモニターし、一日に一回、顧客にレポートするサービス（ｅＷａｔｃｈ［非特許文献１参照］、ＮＥＴｉＳｃｏｐｅ［非特許文献２参照］など）がある。また、不適切な表現がＷｅｂ上の電子褐示板で行われることが多いため、電子掲示板の監視を専門として、電子掲示板の係り受け関係（ハイパーリンク先）に考慮し、リンク先のＷｅｂページも監視することで網羅性を向上させたシステム（ＢＢＷａｔｃｈｅｒ［非特許文献３参照］など）がある。更に、電子掲示板管理者のために、利用者の書き込みを自動的に検閲するシステム（サイバーコップス［非特許文献４参照］など）もある。

これらの従来システムは、Ｗｅｂ検索技術、クローリング技術、テキストマイニング技術といった既存の技術で構築されており、(1)Ｗｅｂページの収集、(2)内容検査の２つの処理により実現される。具体的には、(1)一定の間隔で、経験則上得られているブラックリストに示した要注意サイトのＷｅｂページ及びそのハイパーリンク先のＷｅｂページのデータや、検索エンジンでキーワード検索した結果及びハイパーリンク先のＷｅｂページのデータを収集し、(2)予め用意している中傷語辞書とキーワードマッチングを行って、誹謗中傷的表現が掲示されているＷｅｂページを検査する。

このような従来のＷｅｂパトロールシステムは、すぐれたＧＵＩも提供しており、実サービスで多くの利用者を抱えていることから、社会的に一定の役割を果たしていると評価できる。
eWatch, http://www.ewatch.com/ NET iScope, httρ://www.daj.co.jp/bs/iscope/index.htm BBWatcher：「電子掲示板監視システム」，特開２００２−２７９０４号公報サイバーコップス：「電子掲示板システム」，特許第２９５１３０７号 google, http://www.goog1e.com/ 松本勉：「素朴な疑問」インターネットの「視聴率」って計れないの？，情報処理学会誌，Ｖｏｌ．４０Ｎｏ０３，１９９９

ここで、本発明者は、不適切な表現を発見するシステムの優劣を図る評価尺度を以下の３つと考える。

(1)被害期待度の低い検査
(2)網羅性の高い検査
(3)精度の高い検査
次に、これら(1)から(3)について説明する。
(1)被害期待度の低い検査の説明
Ｗｅｂは、i）利用者数の多さ及びii）容易にアクセス、コピー、参照可能であるという利便性の高さの２つの特徴のために、情報伝達が非常に早い。そこで、不適切な表現がなされた場合には、これをすばやく発見し、被害を最小限にとどめることが重要である。被害の拡大度合いを測る指標が被害期待度である。この「被害期待度」は、本発明者達が定義した概念であって、〔数式１〕に示すように、不適切な表現がなされた時から、発見されるまでに放置された時間（ｔ）とその間に同Ｗｅｂページを閲覧した視聴数（ｎ）の積で定義される。

[数１]
（被害期待度）＝放置時間（ｔ）×視聴数（ｎ）
多くの人に情報が伝播することによって被害が拡大するため、被害期待度は低いほうが優れている。

(2)網羅性の高い検査
「網羅性」とは、この分野の一般用語（技術用語）であって、〔数式２〕に示すように、発見したＷｅｂページが、どの程度、不適切な嫌疑を受けるＷｅｂページを網羅しているかを示す指標である。例えば、ハイパーリンク先を次々にアクセスしていくと、不適切な嫌疑を受けるＷｅｂページが増えていくため、網羅性が増える。

Ndiscover：Ｗｅｂパトロールシステムが発見した誹謗中傷の嫌疑があるＷｅｂページ数
Nall：すべての誹謗中傷の嫌疑があるＷｅｂページ数
尚、Nallは、嫌疑があるＷｅｂページのすべてを示しており、実際には完全な値を導き出せるのは困難であるため、予測も含めた値である。

(3)精度の高い検査
「精度」とは、この分野の一般用語（技術用語）であって、〔数式３〕に示すように、被害者（ユーザ）にレポートされたＷｅｂページの中で、不適切な嫌疑を受けるページを含んでいる率である。

Nreport：Ｗｅｂパトロールシステムが被害者にレポートしたＷｅｂページ数
尚、一般に多くのＷｅｂページを調査すれば網羅性は向上するが、それだけ処理時間（ｔ）が掛かるため、被害期待度が低下する。つまり、被害期待度と網羅性は、トレードオフの関係になる。

しかしながら、我々は、下記の理由から、従来のＷｅｂパトロールシステムでは、被害期待度、網羅性ともに、不十分であると考えている。

例えば、検索エンジンに調査対象客体（例えば、「Ｎ社」）のキーワードを入力した結果が３３３万件である場合を例に、被害期待度と網羅性を検証する。仮に、１０００万ページを２４時間で処理可能なＷｅｂパトロールシステムがあるとする。ここで、検索結果だけを対象として検査を行うのならば、８時間程度の時間で調査は終了する。しかし、検索結果のみでは、完全に網羅したことにはならない。なぜならば、係り受け関係（ハイパーリンク先）や検索エンジンの更新タイムラグといった理由から、不適切な嫌疑あるＷｅｂページは、検索結果に必ずしも現れないからである。経験上、このような不適切な表現が掲載されたＷｅｂページは、検索結果のＷｅｂページよりもむしろ、このハイパーリンク先のＷｅｂページであることが多い。即ち、検索結果のリンク先、そのまたリンク先というように、複数ホップ分のリンク先まで検査対象を拡張して初めて、網羅性を確保したと言うことが出来る。

そこで、仮に、検索結果１ページあたり、１回だけリンクをたどることを考える。すると、検索結果１ページあたり、１０個のハイパーリンクがある場合、３３３０万件を検査する必要が出てくる。つまり、３日以上の検査時間がかかり、放置時間が３日以上となる。とするならば、網羅性を向上させたとしても、放置時間（ｔ）が増えることにより、逆に、被害期待度が低下することになる。

また、従来技術は、１日１回の頻度で調査レポートを行っているが、不適切な嫌疑が著しく強いＷｅｂサイトに対しては、一日何度も調査をする必要がある。ここで、要注意のＷｅｂサイトも時間とともに動的に変化するため、経験則では対応できないことが分かる。

以上の如く、従来技術は、被害期待度、網羅性ともに十分ではなく、非効率的な検査方法をしていることがわかる。キャッシュの容量を増やすことによって、大量にＷｅｂページデータを収集することによる対策も考えられるが、今後、Ｗｅｂが発展し、ますますデータ量が増えた場合には、破綻するのは容易に予想できるため、網羅性を維持しつつ効率的な検査が必要となる。

本発明は、上記の事情に鑑みてなされたもので、検査対象となるＷｅｂページに、公序良俗違反表現、誹謗表現、中傷表現等の不適切な表現が存在するか否かを検査することで、不適切な表現が掲載されたＷｅｂページの調査を行うＷｅｂパトロールシステムであって、不適切な表現による被害を極力抑えることができるようなＷｅｂページの検査を行うことを目的としたものである。

上記目的を達成すべく、請求項１に係る発明は、検査対象となるＷｅｂページ内の不適切な表現を検査することで、不適切な表現が掲載されたＷｅｂページの調査を行うＷｅｂパトロールシステムであって、検査対象となる各Ｗｅｂページの一定期間における視聴数を示した視聴率データを取得する視聴率データ取得手段と、前記視聴率データ取得手段によって取得した視聴数と不適切な表現が発見されずに放置されていた時間との積から成る被害期待度を、Ｗｅｂページ毎に算出する被害期待度算出手段と、前記被害期待度算出手段によって算出した被害期待度をＷｅｂページ毎に累積的に記憶可能な被害期待度累積記憶手段と、前記被害期待度算出手段によって算出した被害期待度を、Ｗｅｂページを特定するための特定情報と関連付けて前記被害期待度累積記憶手段へ累積的に記録する被害期待度記録手段と、前記被害期待度累積記憶手段で記憶している被害期待度の累積値が最大となっているＷｅｂページに係る特定情報を選出する選出手段と、前記選出手段によって選出したＷｅｂページの特定情報に基づいて、当該Ｗｅｂページのデータを取得するＷｅｂページデータ取得手段と、前記Ｗｅｂページデータ取得手段によって取得したＷｅｂページデータ内の不適切な表現を検査する表現検査手段と、前記表現検査手段によって検査したＷｅｂページデータに係る被害期待度の累積値を零にする累積値零手段と、前記累積値零手段によって累積値を零にした後に、前記被害期待度記録手段によって再び前記被害期待度累積記憶手段に累積的に記録するための被害期待度をＷｅｂページ毎に再び算出する被害期待度再算出手段と、を有することを特徴とするＷｅｂパトロールシステムである。

ここで、「Ｗｅｂパトロールシステム」は、単一のコンピュータにより構築されている場合だけでなく、各手段又はステップを分割して２つ以上のコンピュータによって構築されている場合であってもよい。

請求項２に係る発明は、検査対象となるＷｅｂページ内の不適切な表現を検査することで、不適切な表現が掲載されたＷｅｂページの調査を行うＷｅｂパトロールシステムを利用したＷｅｂパトロール方法であって、
前記Ｗｅｂパトロールシステムが、視聴数と不適切な表現が発見されずに放置されていた時間との積から成る被害期待度をＷｅｂページ毎に累積的に記憶可能な被害期待度累積記憶手段を有する状態において、
前記Ｗｅｂパトロールシステムは、
検査対象となる各Ｗｅｂページの一定期間における視聴数を示した視聴率データを取得する視聴率データ取得ステップと、前記視聴率データ取得ステップによって取得した視聴数と不適切な表現が発見されずに放置されていた時間との積から成る被害期待度を、Ｗｅｂページ毎に算出する被害期待度算出ステップと、前記被害期待度算出ステップによって算出した被害期待度を、Ｗｅｂページを特定するための特定情報と関連付けて前記被害期待度累積記憶手段へ累積的に記録する被害期待度記録ステップと、前記被害期待度累積記憶手段で記憶している被害期待度の累積値が最大となっているＷｅｂページに係る特定情報を選出する選出ステップと、前記選出ステップによって選出したＷｅｂページの特定情報に基づいて、当該Ｗｅｂページのデータを取得するＷｅｂページデータ取得ステップと、前記Ｗｅｂページデータ取得ステップによって取得したＷｅｂページデータ内の不適切な表現を検査する表現検査ステップと、前記表現検査ステップによって検査したＷｅｂページデータに係る被害期待度の累積値を零にする累積値零ステップと、前記累積値零ステップによって累積値を零にした後に、前記被害期待度記録ステップによって再び前記被害期待度累積記憶手段に累積的に記録するための被害期待度をＷｅｂページ毎に再び算出する被害期待度再算出ステップと、を実行可能であることを有することを特徴とするＷｅｂパトロール方法である。

請求項３に係る発明は、請求項２に記載のＷｅｂパトロールシステムに、前記被害期待度累積記憶手段を構築させると共に、上記各ステップを実行可能にすることを特徴としたＷｅｂパトロール用プログラムである。

ここで、「プログラム」とは、コンピュータによる処理に適した命令の順番付けられた列からなるものをいい、コンピュータのＨＤ(Hard Disk)、ＣＤ−ＲＷ等にインストールされているものや、ＣＤ−ＲＯＭ、ＤＶＤ、ＦＤ、半導体メモリ、コンピュータのＨＤＤ等の各種記録媒体に記録されているものや、インターネット等の外部ネットワークを介して配信されるものも含まれる。

請求項４に係る発明は、請求項３に記載のＷｅｂパトロール用プログラムを記録したことを特徴とした、コンピュータ読み取り可能な移動案内用記録媒体である。

ここで、「記録媒体」とは、上記Ｗｅｂパトロールシステム（コンピュータ）で上記被害期待度累積記憶手段の構築及び上記各ステップを実行させるためのプログラムの読み取りに使用することができればよく、情報を媒体の物理的特性を利用してどのように記録するか等の物理的な記録方法には依存しない。例えば、ＦＤ(Flexible Disk)、ＣＤ−ＲＯＭ（Ｒ，ＲＷ）(Compact Disc Read Only Memory(CD Recordable,CD Rewritable))、ＤＶＤ−ＲＯＭ（ＲＡＭ，Ｒ，ＲＷ）(Digital Versatile Disk Read Only Memory(DVD Random Access Memory,DVD Recordable,DVD Rewritable))、半導体メモリ、ＭＯ(Magneto Optical Disk)、ＭＤ(Mini Disk)、磁気テープ等が該当する。

以上説明したように本発明によれば、新たに「被害期待度」という概念を導入すると共に、動的に変化する被害期待度を利用して被害期待度の高いＷｅｂページから優先的に検査することにより、より多くの人に不適切な表現を広まないようにすることが出来るため、不適切な表現による被害を極力抑えることができるようなＷｅｂページの検査を行うことができる。

以下に、図１乃至図６を用いて、本発明を実施するための最良の形態（以下、「実施形態」という）を説明する。尚、本実施形態では、「不適切な表現」の一例として「誹謗中傷的な表現」の場合を説明する。また、「不適切な表現」は、パターンマッチ（コンピュータ（計算機）による形式的な処理）が可能であればよく、画像データ（静止画データ、動画データ）、音声データ等のデータもを含む。

図１は、本実施形態に係るWeb Patrol System１（以下、「システム１」という）の構成、及び、これに関連したものを示した図である。図２は視聴率データの一例を示した図であり、図３はキャッシュ１４内のＷｅｂページデータの一例を示した図であり、図４は客体識別語辞書ＤＢ１３に記憶している客体識別語辞書の一例を示した図である。また、図５は、システム１内での一部の処理動作を示した処理フロー図である。図６は、システム１内での処理の一部をイメージ化した図である。

図１に示すシステム１は、ユーザのコンピュータとしての利用者端末にＷｅｂパトロール用プログラム（以下、単に「プログラム」という）(p)がインストールされることにより、Ｗｅｂデータ内の不適切な表現の検査という使用目的に応じた特有のシステムとして構築されている場合を示している。また、このプログラム(p)によって、後述のステップ（Ｓ１〜Ｓ９，Ｓ６−１〜Ｓ６−４）を実行することが可能である。

尚、システム１は、後述のＧＵＩ(Graphical User Interface)３０に代えてインターネット等の通信ネットワークとの通信インターフェースを用いることで、クライアントとしての利用者端末に対して、調査レポートのデータを送信するサーバ・コンピュータとしてもよい。また、この場合には、システム１は、単一のコンピュータだけでなく、複数のコンピュータによって構築されていてもよい。

また、プログラム(p)は、大きく分けて、図１に示すように、収集モジュール１０とランキングモジュール２０によって設計されている。このうち、収集モジュール１０は、主にＷｅｂページデータの収集を行うモジュールであり、ランキングモジュール２０は、主に被害期待度を用いてＷｅｂページの検査開始に優先順序を付けてから、Ｗｅｂページを検査することで誹謗中傷の嫌疑度を算出し、ユーザに通知するモジュールである。ここでは、従来のテキストマイニング技術を利用する。文書を形態素解析し、文書と単語のマトリックスを作成し、マッチングモジュール内で、中傷語辞書との内積計算を行うことにより、嫌疑度を算出することになる。

更に、収集モジュール１０には、Ｗｅｂページデータ収集モジュール１１と検査コントローラ（モジュール）１５の一部が含まれている。また、ランキングモジュール２０には、検査コントローラ１５の一部と、視聴率データ取得モジュール２１と、マッチングモジュール２３が含まれている。

また、プログラム(p)により、システム１内の図示していないＨＤ(Hard Disk)には、図１に示すように、収集モジュール１０の実行時に使用する収集ルール記憶部１２、収集モジュール１０及びランキングモジュール２０の実行時に使用する客体識別語辞書ＤＢ(Data Base)１３、ランキングモジュール２０の実行時に使用する被害期待度累積記憶部２２及び（誹謗）中傷語辞書ＤＢ２４が構築されている。

このうち、収集ルール記憶部１２には、Ｗｅｂページデータを収集するためのルール（規則）が記憶されている。例えば、３ホップ分のハイパーリンクをたどり、検索結果を再帰的に収集する旨のルールである。

また、客体識別語辞書ＤＢ１３には、図４に示すような調査対象客体（例えば、「Ｎ社」）を識別するための辞書が記憶されている。この客体識別語辞書には、調査対象客体としてのキーワードと重みとが関連付けられて表されている。この「重み」は、図１に示すユーザ（被害者）が、ＧＵＩ３０を介して登録することができ、ユーザが重要だと判断した場合には重みの数値を増やすことになる。例えば、ユーザがＮ社である場合には、自社名の重みを増すために、重みを「３」とする。

また、被害期待度累積記憶部２２は、算出した被害期待度をＷｅｂページ毎に累積的に記憶することができる。（誹謗）中傷語辞書ＤＢ２４には、誹謗中傷表現と考えられる典型的な単語が複数記憶されている。この単語は、ユーザが使用する前に、予め記憶されている。

また、Ｗｅｂページデータ収集モジュール１１は、ブラックリストや検索エンジンによって絞り込んだ検査対象集合Ｘ内のＷｅｂページのデータＤを収集する機能を有する。このＷｅｂページデータ収集モジュール１１によって収集したＷｅｂページデータＤは、図３に示すように、このＷｅｂページの更新日時とともにシステム１内のキャッシュ１４に記録される。
また、視聴率データ取得モジュール２１は、Ｗｅｂ視聴率を調査する機関の視聴率サーバ３から通信ネットワーク等を介して、図２に示すような検査対象となる各Ｗｅｂページの一定期間（Ｔ）における視聴率を示した視聴率データを取得する機能を有し、後述のステップＳ１を実行する。

尚、視聴率サーバ３については、現在様々なＷｅｂ視聴率を測定するシステムが提案されている（非特許文献６参照）。プロキシーセントリックタイプやユーザセントリック等、様々な方式があるが、Web Patrolでは、１時間程度の更新頻度で、ＵＲＬ(Uniform Resource Locators)とこれに対応する視聴数情報の入手という２つの要件が満たされればよいため、プロキシーセントリック方式の軽微なシステムで足りる。

検査コントローラ１５は、取得したＷｅｂページに優先順位を付けて、優先順位の高い順に検査を開始させる機能を有し、後述のステップ（Ｓ２〜Ｓ５，Ｓ７〜Ｓ９）を実行する。

マッチングモジュール２３は、収集したＷｅｂページの内容と典型の注意文書をマッチングすることにより、誹謗中傷の嫌疑が強いＷｅｂページを検査し、ＧＵＩ３０を介してユーザに通知する機能を有し、後述のステップＳ６を実行する。尚、マッチング処理については、図６を用いて、後ほど説明する。

続いて、図５乃至図６を用いて、本実施形態に係るシステム１を利用してユーザにＷｅｂページの調査レポートを報告するためのＷｅｂパトロール方法を説明する。

まず、図１に示すように、Ｗｅｂページデータ収集モジュール１１は、客体識別語辞書を参照し、収集ルールに従って、一定時間間隔で検査対象となる各Ｗｅｂページのデータを収集し、キャッシュ１４に記録しておく。この検査対象は、Ｗｅｂ２上の複数のＷｅｂページのうちで、検索エンジンを使用したり、予め用意したブラックリストに基づいて選出したＷｅｂページ群であり、誹謗中傷の嫌疑があるＷｅｂページの集合Ｘである。

次に、図５に示すように、視聴率データ取得モジュール２１によって、検査対象集合Ｘ内の各Ｗｅｂページの視聴率データｄを取得する（ステップＳ１）。この視聴率データｄは、例えば３０分間等の一定期間（Ｔk-1〜Ｔk：kは正数）における各Ｗｅｂページの視聴率を示したデータであり、視聴率サーバ３から通信ネットワークを介して取得する。

次に、検査コントローラ１５は、上記ステップＳ１によって取得した各Ｗｅｂページの視聴率に基づいた視聴数（ｎ）と、誹謗中傷表現が発見されずに放置されていた時間（ｔ）との積から成る被害期待度を、Ｗｅｂページ毎に算出する（ステップＳ２）。

次に、検査コントローラ１５は、上記ステップＳ２によって算出した被害期待度をＷｅｂページ毎に被害期待度累積記憶部２２へ累積的に記録する（ステップＳ３）。

次に、検査コントローラ１５は、被害期待度累積記憶手段で記憶している被害期待度の累積値が最大となっているＷｅｂページを特定するための特定情報を選出する（ステップＳ４）。この特定情報は、Ｗｅｂページを特定することができれば何でもよく、例えば、ＵＲＬや識別コード等が該当する。

例えば、図６に示すように、検査対象集合Ｘが示された検査対象リストに基づいて、視聴数４０のＷｅｂページＡのデータを収集するとともに、ＷｅｂページＡのリンク先である視聴数８０のＷｅｂページＢのデータ、視聴数６０のＷｅｂページＣのデータ、及び視聴数４０のＷｅｂページＤのデータ、並びに、ＷｅｂページＤのリンク先である視聴数２０のＷｅｂページＥのデータを収集した場合を説明する。

この場合、放置時間（ｔ）が同じであれば、被害期待度が、ＷｅｂページＥ，Ｄ，Ａ（Ｃ），Ｂの順に、１倍，２倍，３倍，４倍となる。そのため、被害期待度が大きいＷｅｂページＢ，Ｃ，Ａ（Ｄ），Ｅの順に検査を行うことになる。

但し、簡単に説明するために放置時間（ｔ）を同じにしたが、実際には、最初のＷｅｂページＢを検査中に、他のＷｅｂページの放置時間（ｔ）が増えるため、ＷｅｂページＣの検査よりもＷｅｂページＡの検査を先に行う場合もあり得る。具体的な説明は、後述の〔実施例〕の欄で行う。

次に、検査コントローラ１５は、上記ステップＳ４で選出したＷｅｂページの特定情報に基づいて、キャッシュ１４からＷｅｂページのデータＤを取得する（ステップＳ５）。尚、予めキャッシュ１４にＷｅｂページデータを記録しておかずに、上記ステップＳ４でＷｅｂページを特定した段階で、Ｗｅｂ２から該当するＷｅｂページデータＤを収集してもよい。

次に、マッチングモジュール２３は、上記ステップＳ５によって取得したＷｅｂページデータ内の誹謗中傷表現を検査する（ステップＳ６）。

ここで、図６を用いて、マッチングモジュール２３による処理動作を説明する。

まず、キャッシュ１４から読み出した検査対象のＷｅｂページデータは、マッチングモジュール２３によりモデル化して、図６に示すようなＷｅｂページ文書ベクトルを生成する（ステップＳ６−１）。このＷｅｂページ文書ベクトルは、検査対象のＷｅｂページのデータ内に存在する単語を抜き出して、単語の数を「重み」として表現したものである。

一方、Ｗｅｂページ文書ベクトルとマッチングする対象である典型注意文書ベクトルは、マッチングモジュール２３によって事前に作成しておく（ステップＳ６−２）。この典型注意文書ベクトルには、誹謗中傷表現と考えられる典型的な単語が複数記録されている。この典型注意文書ベクトルの各構成要素は、客体識別語辞書と中傷語辞書から導き出される。

次に、マッチングモジュール２０により、Ｗｅｂページ文書ベクトルと典型注意文書ベクトルをマッチングして、嫌疑度の算出を行う（ステップＳ６−３）。そして、ユーザに対しては、
具体的には、両者の同じキーワードの重みの内積計算を行って、Ｗｅｂページ文書ベクトルが典型注意文書ベクトルに近いかを判断する。典型注意文書ベクトルが最大であるため、この最大値に近ければ誹謗中傷の度合いが高いということになる。

例えば、Ｗｅｂページ文書ベクトルのキーワード「フレッツ」の重みが「３」で、典型注意文書ベクトルの同じキーワード「フレッツ」の重みが「１」であるため、３×１＝３（点）という値が導き出せる。更に、Ｗｅｂページ文書ベクトルのキーワード「マイライン」の重みが「１」で、典型注意文書ベクトルの同じキーワード「マイライン」の重みが「２」であるため、１×２＝２（点）という値が導き出せる。よって、導き出した値の合計である嫌疑度は、３＋２＝５（点）となる。

ここで、５点以上であれば誹謗中傷表現によりユーザに損害を与える可能性があると設定していれば、調査レポートにＷｅｂページの嫌疑度のランキングと、通知嫌疑の強いものは即刻通知することになる（ステップＳ６−４）。

再び、図５に戻って、検査コントローラ１５は、上記ステップＳ６によって検査したＷｅｂページデータに係る被害期待度の累積値を零（ゼロ）にする（ステップＳ７）。

次に、検査コントローラ１５は、一定期間（Ｔk〜Ｔk＋1）経過して、時刻（Ｔk＋１）になったか否かを判断する（ステップＳ８）。この判断は、一定期間経過していれば、新たに視聴率サーバ３から最新の視聴率を取得して、最新の視聴率により被害期待度を計算するためである。

次に、検査コントローラ１５は、上記ステップＳ６による１つのＷｅｂページの検査時間（ｔ）経過後に、再び、被害期待度を算出する（ステップＳ９）。

以上説明したように本実施形態によれば、視聴率サーバ３から取得した視聴率データの視聴数ｎと誹謗中傷表現が発見されずに放置されていた時間ｔとの積から成る被害期待度という概念を新たに定義し、この動的に変化する被害期待度を利用して、被害期待度の高いＷｅｂページから優先的に検査することにより、より多くの人に不適切な表現を広まないようにすることが出来るため、誹謗中傷表現による被害を極力抑えることができるようなＷｅｂページの検査を行うことができる。

尚、この動的な被害期待度の変化に応じたＷｅｂページの検査に関して、以下の〔実施例〕の欄に具体的に説明する。

また、本実施形態におけるシステム１へのプログラム(p)の記録、インストール作業は、システム１で読み取り可能なプログラム(p))が記録されているＣＤ−ＲＯＭ等の記録媒体を利用することによって行うことも可能である。

以下、図７乃至図２７を用いて、上記実施形態を具体的に示した実施例を説明する。

図７（ａ）乃至図１２（ａ）及び図１３乃至図１６は、上記実施形態に示した検査方法による被害期待度を示しており、各時刻（ｔ１〜ｔ１０）におけるＷｅｂページ（Ｄ１〜Ｄ９）毎の視聴率（視聴数ｎ／一定時間）、放置時間ｔ、及び被害期待度、並びに各時刻（ｔ１〜ｔ１０）における被害期待度の合計を示している。更に、図７（ｂ）乃至図１２（ｂ）は、被害期待度の累積値を棒グラフで示している。

また、図１７乃至図２６は、従来方法による被害期待度を示しており、各時間（ｔ１〜ｔ１０）におけるＷｅｂページ（Ｄ１〜Ｄ９）毎の視聴率（視聴数ｎ／一定時間）、放置時間ｔ、及び被害期待度、並びに各時間（ｔ１〜ｔ１０）における被害期待度の合計を示している。

更に、図２７（ａ）は、上記実施形態に示した検査方法による被害期待度の合計及び実際に検査したＷｅｂページ、並びに、従来方法による被害期待度の合計及び実際に検査したＷｅｂページを示している。図２７（ｂ）は、上記図２７（ａ）をグラフ化して視覚的に容易に比較することができるようにした図である。

例えば、本検査方法を用いた場合、図１に示す被害期待度累積記憶部２２には、図７（ｂ）に示すような被害期待度がＷｅｂページ（Ｄ１〜Ｄ９）毎に記録される。この時刻ｔ１の場合には、ＷｅｂページＤ８の被害期待度が最も大きいので、ＷｅｂページＤ８のデータの検査を行う。しかし、このＷｅｂページＤ８のデータの検査に所定時間（ｔ２−ｔ１）を要するため、その間に、被害期待度が変化しているはずである。そこで、時刻ｔ２の場合には、図８（ａ）に示すように再び被害期待度を算出して、図１に示す被害期待度累積記憶部２２に累積的に記録する。これにより、被害期待度累積記憶部２２には、図８（ｂ）に示すように被害期待度が記録されることになる。但し、直前に検査したＷｅｂページＤ８の被害期待度は零（ゼロ）にしてある。この時刻ｔ２の場合には、ＷｅｂページＤ９の被害期待度が最も大きいので、ＷｅｂページＤ９のデータの検査を行う。

以上のような処理を繰り返すことにより、検査時点で最も被害期待度が大きいＷｅｂページの検査を行うことができる。これにより、図２７（ａ）に示すように、時刻ｔ２でＷｅｂページＤ９を検査したにも拘わらず、ＷｅｂページＤ２、Ｄ３等の検査を行う前に、再び被害期待度が増して最大になっているＷｅｂページＤ９の検査をすることになる。このように、各時刻（ｔ１〜ｔ１０）において最も被害期待度が大きいＷｅｂページを検査することで、図２７（ｂ）に示すように、従来のように単にＷｅｂページ（Ｄ１〜Ｄ９）を順番に検査する場合に比べて、被害期待度の上昇を抑制しながら検査することができる。

本発明の一実施形態に係るWeb Patrol System１の構成、及び、これに関連したものを示した図。視聴率データの一例を示した図。キャッシュ１４内のＷｅｂページデータの一例を示した図。客体識別語辞書ＤＢ１３に記憶している客体識別語辞書の一例を示した図。システム１内での一部の処理動作を示した処理フロー図。システム１内での処理の一部をイメージ化した図。（ａ）は、実施形態に示した検査方法による被害期待度を示しており、時刻（ｔ１）におけるＷｅｂページ（Ｄ１〜Ｄ９）毎の視聴率（視聴数ｎ／一定時間）、放置時間ｔ、及び被害期待度、並びに時刻（ｔ１）における被害期待度の合計を示した図。（ｂ）は、時刻（ｔ１）における被害期待度の累積値を棒グラフで示した図。（ａ）は、図７（ａ）において、時刻（ｔ１）に代えて時刻（ｔ２）にした図。（ｂ）は、図７（ｂ）において、時刻（ｔ１）に代えて時刻（ｔ２）にした図。（ａ）は、図７（ａ）において、時刻（ｔ１）に代えて時刻（ｔ３）にした図。（ｂ）は、図７（ｂ）において、時刻（ｔ１）に代えて時刻（ｔ３）にした図。（ａ）は、図７（ａ）において、時刻（ｔ１）に代えて時刻（ｔ４）にした図。（ｂ）は、図７（ｂ）において、時刻（ｔ１）に代えて時刻（ｔ４）にした図。（ａ）は、図７（ａ）において、時刻（ｔ１）に代えて時刻（ｔ５）にした図。（ｂ）は、図７（ｂ）において、時刻（ｔ１）に代えて時刻（ｔ５）にした図。（ａ）は、図７（ａ）において、時刻（ｔ１）に代えて時刻（ｔ６）にした図。（ｂ）は、図７（ｂ）において、時刻（ｔ１）に代えて時刻（ｔ６）にした図。図７（ａ）において、時刻（ｔ１）に代えて時刻（ｔ７）にした図。図７（ａ）において、時刻（ｔ１）に代えて時刻（ｔ８）にした図。図７（ａ）において、時刻（ｔ１）に代えて時刻（ｔ９）にした図。図７（ａ）において、時刻（ｔ１）に代えて時刻（ｔ１０）にした図。従来の検査方法による被害期待度を示しており、時刻（ｔ１）におけるＷｅｂページ（Ｄ１〜Ｄ９）毎の視聴率（視聴数ｎ／一定時間）、放置時間ｔ、及び被害期待度、並びに時刻（ｔ１）における被害期待度の合計を示した図。図１７において、時刻（ｔ１）に代えて時刻（ｔ２）にした図。図１７において、時刻（ｔ１）に代えて時刻（ｔ３）にした図。図１７において、時刻（ｔ１）に代えて時刻（ｔ４）にした図。図１７において、時刻（ｔ１）に代えて時刻（ｔ５）にした図。図１７において、時刻（ｔ１）に代えて時刻（ｔ６）にした図。図１７において、時刻（ｔ１）に代えて時刻（ｔ７）にした図。図１７において、時刻（ｔ１）に代えて時刻（ｔ８）にした図。図１７において、時刻（ｔ１）に代えて時刻（ｔ９）にした図。図１７において、時刻（ｔ１）に代えて時刻（ｔ１０）にした図。（ａ）は、一実施形態に示した検査方法による被害期待度の合計及び実際に検査したＷｅｂページ、並びに、従来方法による被害期待度の合計及び実際に検査したＷｅｂページを示した図。（ｂ）は、上記図２７（ａ）をグラフ化して視覚的に容易に比較することができるようにした図。

符号の説明

１ Web Patrol System
２Ｗｅｂ
３視聴率サーバ
１０収集モジュール
１１Ｗｅｂページデータ収集モジュール
１２収集ルール記憶部
１３客体識別語辞書ＤＢ
１４キャッシュ
１５検査コントローラ
２０ランキングモジュール
２１視聴率データ取得モジュール
２２被害期待度累積記憶部
２３マッチングモジュール
２４（誹謗）中傷語辞書ＤＢ
３０ＧＵＩ

Claims

検査対象となるＷｅｂページ内の不適切な表現を検査することで、不適切な表現が掲載されたＷｅｂページの調査を行うＷｅｂパトロールシステムであって、
検査対象となる各Ｗｅｂページの一定期間における視聴数を示した視聴率データを取得する視聴率データ取得手段と、
前記視聴率データ取得手段によって取得した視聴数と不適切な表現が発見されずに放置されていた時間との積から成る被害期待度を、Ｗｅｂページ毎に算出する被害期待度算出手段と、
前記被害期待度算出手段によって算出した被害期待度をＷｅｂページ毎に累積的に記憶可能な被害期待度累積記憶手段と、
前記被害期待度算出手段によって算出した被害期待度を、Ｗｅｂページを特定するための特定情報と関連付けて前記被害期待度累積記憶手段へ累積的に記録する被害期待度記録手段と、
前記被害期待度累積記憶手段で記憶している被害期待度の累積値が最大となっているＷｅｂページに係る特定情報を選出する選出手段と、
前記選出手段によって選出したＷｅｂページの特定情報に基づいて、当該Ｗｅｂページのデータを取得するＷｅｂページデータ取得手段と、
前記Ｗｅｂページデータ取得手段によって取得したＷｅｂページデータ内の不適切な表現を検査する表現検査手段と、
前記表現検査手段によって検査したＷｅｂページデータに係る被害期待度の累積値を零にする累積値零手段と、
前記累積値零手段によって累積値を零にした後に、前記被害期待度記録手段によって再び前記被害期待度累積記憶手段に累積的に記録するための被害期待度をＷｅｂページ毎に再び算出する被害期待度再算出手段と、
を有することを特徴とするＷｅｂパトロールシステム。
検査対象となるＷｅｂページ内の不適切な表現を検査することで、不適切な表現が掲載されたＷｅｂページの調査を行うＷｅｂパトロールシステムを利用したＷｅｂパトロール方法であって、
前記Ｗｅｂパトロールシステムが、視聴数と不適切な表現が発見されずに放置されていた時間との積から成る被害期待度をＷｅｂページ毎に累積的に記憶可能な被害期待度累積記憶手段を有する状態において、
前記Ｗｅｂパトロールシステムは、
検査対象となる各Ｗｅｂページの一定期間における視聴数を示した視聴率データを取得する視聴率データ取得ステップと、
前記視聴率データ取得ステップによって取得した視聴数と不適切な表現が発見されずに放置されていた時間との積から成る被害期待度を、Ｗｅｂページ毎に算出する被害期待度算出ステップと、
前記被害期待度算出ステップによって算出した被害期待度を、Ｗｅｂページを特定するための特定情報と関連つけて前記被害期待度累積記憶手段へ累積的に記録する被害期待度記録ステップと、
前記被害期待度累積記憶手段で記憶している被害期待度の累積値が最大となっているＷｅｂページに係る特定情報を選出する選出ステップと、
前記選出ステップによって選出したＷｅｂページの特定情報に基づいて、当該Ｗｅｂページのデータを取得するＷｅｂページデータ取得ステップと、
前記Ｗｅｂページデータ取得ステップによって取得したＷｅｂページデータ内の不適切な表現を検査する表現検査ステップと、
前記表現検査ステップによって検査したＷｅｂページデータに係る被害期待度の累積値を零にする累積値零ステップと、
前記累積値零ステップによって累積値を零にした後に、前記被害期待度記録ステップによって再び前記被害期待度累積記憶手段に累積的に記録するための被害期待度をＷｅｂページ毎に再び算出する被害期待度再算出ステップと、
を実行可能であることを有することを特徴とするＷｅｂパトロール方法。
請求項２に記載のＷｅｂパトロールシステムに、前記被害期待度累積記憶手段を構築させると共に、上記各ステップを実行可能にすることを特徴としたＷｅｂパトロール用プログラム。
請求項３に記載のＷｅｂパトロール用プログラムを記録したことを特徴とした、コンピュータ読み取り可能な移動案内用記録媒体。