JP2015103210A

JP2015103210A - インターネット上の有害書き込み検出装置及び検出方法

Info

Publication number: JP2015103210A
Application number: JP2013245813A
Authority: JP
Inventors: 文人桝井; Fumito Masui; プタシンスキミハウ; Ptaszynski Michal; 大征新田; Taisei Nitta
Original assignee: Kitami Institute of Technology NUC
Current assignee: Kitami Institute of Technology NUC
Priority date: 2013-11-28
Filing date: 2013-11-28
Publication date: 2015-06-04
Anticipated expiration: 2033-11-28
Also published as: JP6301119B2

Abstract

【課題】インターネット上の有害書き込みを有効にかつ効率よく検出することができる検出装置及び検出方法を提供する。
【解決手段】インターネット上の有害書き込み検出装置は、予め有害表現の単語を種単語として複数のカテゴリに分類して構成される知識ベースと、インターネット上の所定のウェブサイトに書き込まれたテキストに対して知識ベースの種単語リストを照合してカテゴリ別で種単語を取得する種単語取得手段と、種単語取得手段によって取得した種単語を含む関連語句を取得する関連語句取得手段と、関連語句取得手段によって取得した関連語句と、関連語句に含まれる種単語の各カテゴリとの関連度を計算する関連度計算手段と、関連度計算手段によって得られた関連度の最大値を書き込まれたテキストの有害極性値とし、有害極性値が予め設定された閾値と比較し有害性を判断する判断手段とを備えている。
【選択図】図１

Description

本発明は、インターネット上に書き込まれている有害な書き込み、例えば学校非公式サイトの掲示板等に書き込まれている有害な書き込みを検出するためのインターネット上の有害書き込み検出装置及び検出方法に関する。

本発明に係る研究は、ＪＳＰＳ科研費２４６００００１の助成を受けたものである。

近年、「ネット上のいじめ」が新たないじめの形として社会問題化している。これは、携帯端末やパソコンを通じてインターネット掲示板やＳＮＳ（ソーシャルネットワーキングサービス）等に特定の子どもへの誹謗中傷や嫌がらせを書き込んだり、メールを送付したりする行為のことである。

このようないじめに対処するために、学校関係者や一部の保護者等が主体となってネットパトロール活動を実施している。ネットパトロールとは、掲示板やＳＮＳ、ブログ等を巡回・監視・通報する活動である。その際、有害な書き込みを発見した場合に該当掲示板の管理人又は運営プロバイダ等に書き込み削除等を依頼する。しかし、こうした活動は主に人手で行われており、膨大な書き込みの中から有害書き込みを探し出すには、計り知れない労力と時間を要する。さらに、このような作業をするための人的コストや作業従事者への身体的精神的影響も懸念されるところである。

上記の問題に対処するために、有害書き込み候補を見極める検出システムにおいて用いられる有害極性判定手法が提案されている（例えば、非特許文献１）。この手法は非特許文献２の関連度判定手法を利用して有害極性値を計算し、少数の種単語に基づいて大量の有害書き込みを効率的に発見しようとする手法である。

松葉，桝井，河合，井須: "学校非公式サイトにおける有害情報検出を目的とした極性判定モデルに関する研究", 言語処理学会第17回年次大会発表論文集，P2-26, 2011. Turney, P,: "Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews", Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, Philadelphia, pp.417-424, 2002

しかしながら、上述した非特許文献１に記載された手法では、検証において有害書き込みの混合率５０％のデータのみでしか評価しておらず、実際の混合率（約１２％）における有効性は確認されていない。さらに、文部科学省は有害表現に含まれる語を「誹謗中傷語」、「暴力誘発語」、「卑猥語」の３タイプ分類しているが、非特許文献１の手法では、書き込みに偏りが生じていた場合に特定のタイプの有害表現のみが集中して検出されてしまうという問題点があった。

従って本発明の目的は、インターネット上の有害書き込みを有効にかつ効率よく検出することができる検出装置及び検出方法を提供することにある。

本発明によれば、予め有害表現の単語を種単語として複数のカテゴリに分類して構成される知識ベースと、インターネット上の所定のウェブ（Ｗｅｂ)サイトに書き込まれたテキストに対して知識ベースの種単語リストを照合してカテゴリ別で種単語を取得する種単語取得手段と、種単語取得手段によって取得した種単語を含む関連語句を取得する関連語句取得手段と、関連語句取得手段によって取得した関連語句と、関連語句に含まれる種単語の各カテゴリとの関連度を計算する関連度計算手段と、関連度計算手段によって得られた関連度の最大値を書き込まれたテキストの有害極性値とし、有害極性値が予め設定された閾値と比較し有害性を判断する判断手段とを備えているインターネット上の有害書き込み検出装置が提供される。なお、本明細書において、関連語句（フレーズ）とは、書き込みを形態素解析し、名詞を中心とした係り受け関係にある形態素（単語）ペア、例えば、名詞−名詞、名詞−動詞、名詞−形容詞等である。

少数の種単語を複数のカテゴリに分類し、各カテゴリとの関連度の最大値を有害極性値とすることで、従来手法における書き込みに偏りが生じていた場合に特定のタイプの有害表現のみが集中して検出されてしまう問題点を解決し、インターネット上の有害書き込みを効率よく検出することができる。

種単語取得手段によって取得した種単語の頻度を取得する種単語頻度取得手段と、関連語句取得手段によって取得した関連語句の頻度を取得する関連語句頻度取得手段とをさらに備えていることが好ましい。

種単語取得手段によって取得した種単語と、関連語句取得手段によって取得した関連語句との共起頻度を取得する共起頻度取得手段をさらに備えていることが好ましい。

知識ベースに記録されている有害表現の単語は、範囲、種別、判断基準を備えたタグを付与されていることが好ましい。

本発明によれば、予め有害表現の単語を種単語として複数のカテゴリに分類して知識ベースを構成する知識ベース作成ステップと、インターネット上の所定のウェブ（Ｗｅｂ)サイトに書き込まれたテキストに対して知識ベースの種単語リストを照合してカテゴリ別で種単語を取得する種単語取得ステップと、種単語取得ステップで取得した種単語を含む関連語句取得する関連語句取得ステップと、関連語句取得ステップで取得した関連語句と、関連語句に含まれる種単語の各カテゴリとの関連度を計算する関連度計算ステップと、関連度計算ステップで得られた関連度の最大値を書き込まれたテキストの有害極性値とし、有害極性値が予め設定された閾値と比較し有害性を判断する判断ステップとを備えているインターネット上の有害書き込み検出方法が提供される。

種単語取得ステップで取得した種単語の頻度を取得する種単語頻度取得ステップと、関連語句取得ステップで取得した関連語句の頻度を取得する関連語句頻度取得ステップとをさらに備えていることが好ましい。

種単語取得ステップで取得した種単語と、関連語句取得ステップで取得した関連語句との共起頻度を取得する共起頻度取得ステップをさらに備えていることが好ましい。

本発明のインターネット上の有害書き込み検出方法において、知識ベースに記録されている有害表現の単語は、範囲、種別、判断基準を備えたタグを付与されていることが好ましい。

本発明によれば、関連語句の種単語と各カテゴリとの関連度を計算し、関連度の最大値を書き込まれたテキストの有害極性値とし、該有害極性値が予め設定された閾値と比較し有害性を判断することにより、従来手法における書き込みに偏りが生じていた場合に特定のタイプの有害表現のみが集中して検出されてしまう問題点を解決し、インターネット上の有害書き込みを効率よく検出することができる。そのため、ネットパトロール担当者の負担を軽減させることができる。さらに、携帯端末やパソコンなどから有害書き込みをしようとしたときに、従来手法よりも高い判定性能をもって有害性を検出することで、書き手に警告し、有害書き込みを未然に防止することもできる。

本発明の一実施形態として、インターネット上の有害書き込み検出装置の構成を概略的に示すブロック図である。インターネット上の有害書き込み検出装置の接続状態を概略的に示す図である。図１の実施形態におけるインターネット上の有害書き込み検出装置の処理動作を説明するフローチャートである。図１の実施形態における関連語句の取得に関する処理を説明するフローチャートである。図１の実施形態における関連度計算に関する処理を説明するフローチャートである。図１の実施形態におけるカテゴリ別最大化に関する処理を説明するフローチャートである。

図１は本発明の一実施形態としてインターネット上の有害書き込み検出装置１００の構成を概略的に示しており、図２はインターネット上の有害書き込み検出装置の接続状態を概略的に示している。

図１に示すように、本実施形態におけるインターネット上の有害書き込み検出装置１００は、表示手段１０と、入力手段２０と、記憶手段３０と、制御手段４０と、送信手段５０と、受信手段６０とを備えている。

このインターネット上の有害書き込み検出装置１００は、図２に示すように、インターネット等の通信ネットワーク１１０に接続されており、他の通信端末、例えば、コンピュータ１２０、携帯電話１２０’又はタブレットＰＣ１２０”からインターネット上の所定のＷｅｂサイトに書き込まれたテキスト情報を、インターネット等の通信ネットワーク１１０を介して読み込むことが可能とされている。

表示手段１０は、液晶パネルから構成されており、この表示手段１０上には、操作指令に応じて、検出された有害表現等が表示される。入力手段２０はキーボード及びマウス、又はタッチパネルから構成されており、表示手段１０上に表示された画面を参照しながらこの入力手段２０を操作することによって、処理動作の開始指令や必要な情報の入力操作等が行われる。

記憶手段３０は、例えば、フラッシュメモリ、ＨＤＤ（ハードディスク）、又はＲＡＭ（ランダムアクセスメモリ）及びＲＯＭ（リードオンリメモリ）等のメモリから主として構成されている。記憶手段３０には、制御プログラム３１と、予め有害表現の単語を種単語として複数のカテゴリに分類して構成される知識ベース３２とが記憶されている。知識ベース３２は、複数の種単語リスト１〜ｍを有する。知識ベース３２に記録されている有害表現の単語には、範囲、種別、及び／又は判断基準を備えたタグが付与されていることが好ましい。なお、記憶手段３０に、各種のアプリケーションソフトウェアも記憶することができる。

制御手段４０は、ＣＰＵ（セントラルプロセッシングユニット）を備えており、制御プログラムが実行されることにより、インターネット上の有害書き込み検出装置１００の主な部分がこの制御手段４０内に構築される。即ち、制御手段４０には、インターネット上の所定のＷｅｂサイトに書き込まれたテキストに対して知識ベース３２の種単語リスト１〜ｍを照合してカテゴリ別で種単語を取得する種単語取得手段４１と、取得した種単語を含む関連語句を取得する関連語句取得手段４２と、関連語句取得手段によって取得した関連語句と関連語句に含まれる種単語の各カテゴリとの関連度を計算する関連度計算手段４３と、関連度計算手段４３によって得られた関連度の最大値を、書き込まれたテキストの有害極性値とし、この有害極性値が予め設定された閾値と比較し有害性を判断する判断手段４４とが構築される。

さらに、制御手段４０には、種単語取得手段４１によって取得した種単語の頻度を取得する種単語頻度取得手段４５と、関連語句取得手段４２によって取得した関連語句の頻度を取得する関連語句頻度取得手段４６と、種単語取得手段４１によって取得した種単語と、関連語句取得手段４２によって取得した関連語句との共起頻度を取得する共起頻度取得手段４７とがさらに構築される。

送信手段５０は、記憶手段３０に記憶されている情報、又は有害書き込みに関する検出結果等の情報を、インターネット等の通信ネットワーク１１０を介して送信するように構成されている。

受信手段６０は、インターネット上の所定のＷｅｂサイトに書き込まれたテキスト情報を、インターネット等の通信ネットワーク１１０を介して読み込み、受信するように構成されている。

以下、図３〜図６に示されたフローチャートを参照して、本実施形態のインターネット上の有害書き込み検出方法の処理動作を説明する。図３は本実施形態におけるインターネット上の有害書き込み検出装置の主な処理動作を示しており、図４は関連語句の取得に関する処理動作を示しており、図５は関連度計算に関する処理動作を示しており、図６はカテゴリ別最大化に関する処理動作を示している。

インターネット上の有害書き込み検出装置１００を用いて、所定のＷｅｂサイトに書き込まれた有害書き込みを検出する場合、図３に示すように、まず、ｉ＝０（ｉは整数である変数）とする（ステップＳ１）。

次いで、ｉ＜ｍ（ｍは種単語リストの数）であるか否か（即ち、未参照の種単語リストはあるか否か）を判断する（ステップＳ２）。ここで、ｉ＜ｍである（即ち、未参照の種単語リストはある）と判断された場合（ＹＥＳの場合）は、カテゴリＣｉの種単語リストを参照する（ステップＳ３）。

次いで、ｊ＝０（ｊは整数である変数）とする（ステップＳ４）。次いで、ｊ＜ｎ（ｎは種単語の数）であるか否か（即ち、未参照の種単語はあるか否か）を判断する（ステップＳ５）。ここで、ｊ＜ｎである（即ち、未参照の種単語はある）と判断された場合（ＹＥＳの場合）は、種単語Ｗｉを取得する（ステップＳ６）。

次いで、関連語句の取得を行う（ステップＳ７）。関連語句の取得を行った後、ｊ←ｊ＋１とする（ステップＳ８）。そして、ステップＳ５に戻る。一方、ステップＳ５において、ｊ＜ｎではない（即ち、未参照の種単語はない）と判断された場合（ＮＯの場合）は、ｉ←ｉ＋１とする（ステップＳ９）。そして、ステップＳ２に戻る。このように、書き込まれたテキストに対してカテゴリ別で種単語を取得する。

なお、ステップＳ２において、ｉ＜ｍではない（即ち、未参照の種単語リストはない）と判断された場合（ＮＯの場合）は、カテゴリ別関連度の最大化を行う（ステップＳ１０）。

次に、上述のステップＳ７の「関連語句の取得」の処理動作について説明する。表１は関連語句（フレーズ）の例を示している。

関連語句を取得する際は、図４に示すように、まず、書き込み文（テキスト）を読み込む（ステップＳ２１）。次いで、ｋ＝０（ｋは整数である変数）とする（ステップＳ２２）。次いで、ｋ＜Ｍ（Ｍは書き込み文の数）であるか否か（即ち、未参照の文はあるか否か）を判断する（ステップＳ２３）。ここで、ｋ＜Ｍである（即ち、未参照の文はある）と判断された場合（ＹＥＳの場合）は、文Ｓｋを参照する（ステップＳ２４）。次いで、文Ｓｋから関連語・係り受け関係集合Ｅ（即ち、関連語句）を取得する（ステップＳ２５）。次いで、ｌ＝０（ｌは整数である変数）とする（ステップＳ２６）。次いで、ｌ＜Ｎ（Ｎは要素の数）であるか否か（即ち、未参照の要素はあるか否か）を判断する（ステップＳ２７）。ここで、ｌ＜Ｎである（即ち、未参照の要素はある）と判断された場合（ＹＥＳの場合）は、種単語Ｗｉと要素Ｅｌの関連度の計算を行う（ステップＳ２８）。次いで、ｌ＋１とする（ステップＳ２９）。そして、ステップＳ２７に戻り、上述したステップＳ２７〜Ｓ２９の処理を繰り返す。一方、ステップＳ２７で、ｌ＜Ｎではない（即ち、未参照の要素はない）と判断された場合（ＮＯの場合）は、ｋ←ｋ＋１とする（ステップＳ３０）。そして、ステップＳ２３に戻り、上述したステップＳ２３〜Ｓ３０の処理を繰り返す。なお、ステップＳ２３で、ｋ＜Ｍではない（即ち、未参照のテキストはない）と判断された場合（ＮＯの場合）は、この処理を終了する。

次に、上述のステップＳ２８の「種単語Ｗｉと要素Ｅｌの関連度の計算」の処理動作について説明する。種単語Ｗｉと要素Ｅｌの関連度を計算する際は、図５に示すように、まず、ｗｗｗ検索エンジンにアクセスする（ステップＳ３１）。次いで、種単語Ｗｉの頻度を取得する（ステップＳ３２）。次いで、要素Ｅｌの頻度を取得する（ステップＳ３３）。次いで、種単語Ｗｉと要素Ｅｌの共起頻度を取得する（ステップＳ３４）。次いで、種単語Ｗｉと要素Ｅｌの関連度ＭＩｉ,ｌを計算する（ステップＳ３５）。次いで、関連度ＭＩｉ,ｌ＞ＭＩｉ,maxであるか否かを判断する（ステップＳ３６）。ここで、関連度ＭＩｉ,ｌ＞ＭＩｉ,maxであると判断された場合（ＹＥＳの場合）は、ＭＩｉ,maxにＭＩ,ｌを代入する（ステップＳ３７）。そして、「種単語Ｗｉと要素Ｅｌの関連度の計算」の処理を終了する。なお、ステップＳ３６で、関連度ＭＩｉ,ｌ＞ＭＩｉ,maxではないと判断された場合（ＮＯの場合）は、「種単語Ｗｉと要素Ｅｌの関連度の計算」の処理を終了する。

次に、上述のステップＳ１０の「カテゴリ別関連度最大化」の処理動作について説明する。カテゴリ別関連度最大化を行う際は、図６に示すように、まず、ｈ＜ｍ（ｈは整数である変数）であるか否か（即ち、未参照の種単語リストはあるか否か）を判断する（ステップＳ４１）。ここで、ｈ＜ｍである（即ち、未参照の種単語リストはある）と判断された場合（ＹＥＳの場合）は、カテゴリＣｈの関連度ＭＩｈ,maxを参照する（ステップＳ４２）。次いで、ＭＩｈ,max＞ＭＩmaxであるか否かを判断する（ステップＳ４３）。ここで、ＭＩｈ,max＞ＭＩmaxであると判断された場合（ＹＥＳの場合）は、ＭＩmaxにＭＩｈ,maxを代入する（ステップＳ４４）。次いで、ｈ←ｈ＋１とする（ステップＳ４５）。そして、ステップＳ４１に戻り、上述したステップＳ４１〜Ｓ４５の処理を繰り返す。一方、ステップＳ４３で、ＭＩｈ,max＞ＭＩmaxではないと判断された場合（ＮＯの場合）も、ステップＳ４５へ進み、ｈ←ｈ＋１とする。そして、ステップＳ４１に戻り、上述したステップＳ４１〜Ｓ４５の処理を繰り返す。なお、ステップＳ４１で、ｈ＜ｍではない（即ち、未参照のリストはない）と判断された場合（ＮＯの場合）は、この処理を終了する。

関連度最大化による有害極性判定の処理では、書き込み文から有害情報候補となる関連語句（要素）、即ち、関連語句（要素）が持つ有害極性及び有害性を有する有害極性単語（種単語）の各カテゴリとの関連度を算出することにより量化する。有害極性単語の各カテゴリとの関連度を測る尺度としては自己相互情報量（ＰＭＩ）を用いる。ここでのＰＭＩは、関連語句と有害極性単語の各カテゴリに登録されている単語３語の共起頻度を示す。そして、共起頻度の算出にはＷｅｂ検索ヒット件数（ＩＲ）を用いる。Ｗｅｂ上には多様なページが存在し、そこには様々な単語が書き込まれている。そのため、Ｗｅｂ検索を用いることによって高い網羅性を得ることができる。

関連語句と有害極性単語の各カテゴリとの関連度は下記の（１）式で求める。ｐｉは書き込みから抽出された関連語句、ｗｊは有害極性単語の１カテゴリに登録されている３単語であり、ｈｉｔｓ（ｐｉ）及びｈｉｔｓ（ｗｊ）はｐｉ及びｗｊそれぞれを検索単語としたときのＷｅｂ検索ヒット件数、ｈｉｔｓ（ｐｉ＆ｗｊ）は、ｐｉとｗｊとが同じＷｅｂページに出現するサイトの検索ヒット件数を示す。そして、ＰＭＩ−ＩＲ（ｐｉ，ｗｊ）はｐｉとｗｊとの関連度である。
PMI−IR(pi,wj) = log₂ { hits(pi&wj)／hits(pi)hits(wj)} （１）

関連語句と有害極性単語の関連度のうち、最大値を関連語句の有害書き込みとの関連度とする。そして、書き込みから抽出された全ての関連語句に有害書き込みとの関連度を算出し、その中の最大値を書込みの有害極性値である「score」とする。「score」は下記の（２）式で求める。
score = max(max(PMI-IR(pi,wj))) （２）

本発明では、有害極性単語を１単語ではなく１カテゴリに登録している３単語としている。これにより、関連語句と有害極性単語の１カテゴリに登録されている単語全てが同じＷｅｂページに出現するヒット件数を取得することになり、有害性が強い関連語句の有害書き込みとの関連度のみを高めている。また、関連語句と有害極性単語１カテゴリとの関連度を算出し、その最大値を「score」とすることで、全ての有害極性単語と同じＷｅｂページに出現するが、それぞれとの関連度は小さい関連語句によって「score」が高くなることを防いでいる。

例えば、「可愛いけど性格が悪い女」という書き込みの「score」算出方法について述べる。まず、この書き込みから「可愛い−女」、「性格−悪い」、「悪い−女」という関連語句が抽出される。次に、「可愛い−女」と性的表現の卑猥語、「死ね、殺す、殴る」等の暴力誘発語、「うざい、きもい、不細工」等の誹謗中傷語との関連度を算出し、最大値を関連語句の有害書き込みとの関連度とする。同様に「性格−悪い」と「悪い−女」に対して有害書き込みとの関連度を算出する。最後に、抽出された関連語句の有害書き込みとの関連度のうち、最大値を書き込みの「score」とする。このようにして算出した「score」をもとに、全ての書き込みを有害極性値が高い順に並び替える。そして閾値ｎを設定し、上位ｎ件の書き込みを有害、それ以外を無害と判定する。

本発明の検出方法に対して、有害書き込み混合率１２％、５０％のテキストデータを用いて評価を行った。評価基準として精度と再現率を用いた。精度とは、下記の（３）式に示すように、上位ｎ件のうち正しく有害と判定できた書き込み数の割合である。再現率とは、（４）式に示すように、本来の有害書き込み数のうち正しく有害と判定できた書き込み数の割合である。実験では、各テストデータにおける精度及び再現率の平均を実用性の評価基準とする。

精度＝（システムが正しく有害と判定した書き込み数）／（システムが有害と判定した書き込み数）（３）

再現率＝（システムが正しく有害と判定した書き込み数）／（全ての有害書き込み数）（４）

本発明の検出方法と従来の検出方法の精度及び再現率を求めて評価した結果：有害書き込み混合率５０％のテストデータに対し、従来の検出方法（非特許文献１）では精度は４９％〜７２％、再現率は３％〜１００％であり、本発明の検出方法では精度は４９％〜９０％、再現率は５％〜１００％であった。また，有害書き込み混合率１２％のテストデータに対し、従来の検出方法では精度は１１％〜３０％、再現率は８％〜１００％であり，本発明の検出方法では精度は１０％〜４８％、再現率は１３％〜１００％であった。

以上説明したように、インターネット上の所定のＷｅｂサイトに書き込まれたテキストに対してカテゴリ別で種単語を取得し、テキストから種単語を含む関連語句を取得し、そして、取得した関連語句の種単語と各カテゴリとの関連度を計算し、得られた関連度の最大値を書き込まれたテキストの有害極性値とし、この有害極性値が予め設定された閾値と比較し有害性を判断することで、従来手法における書き込みに偏りが生じていた場合に特定のタイプの有害表現のみが集中して検出されてしまう問題点を解決し、インターネット上の有害書き込みを効率よく検出することができる。そのため、従来方法よりも高い判定性能を得ることができ、ネットパトロール担当者の負担を軽減させることができる。さらに、携帯端末やパソコンなどから有害書き込みをしようとしたときに、従来手法よりも高い判定性能をもって有害性を検出することで、書き手に警告し、有害書き込みを未然に防止することもできる。

以上述べた実施形態は全て本発明を例示的に示すものであって限定的に示すものではなく、本発明は他の種々の変形態様及び変更態様で実施することができる。従って本発明の範囲は特許請求の範囲及びその均等範囲によってのみ規定されるものである。

１０表示手段
２０入力手段
３０記憶手段
３１制御用プログラム
３２知識ベース
４０制御手段
４１種単語取得手段
４２関連語句取得手段
４３関連度計算手段
４４判断手段
４５種単語頻度取得手段
４６関連語句頻度取得手段
４７共起頻度取得手段
５０送信手段
６０受信手段
１００インターネット上の有害書き込み検出装置

Claims

予め有害表現の単語を種単語として複数のカテゴリに分類して構成される知識ベースと、
インターネット上の所定のウェブサイトに書き込まれたテキストに対して前記知識ベースの種単語リストを照合してカテゴリ別で種単語を取得する種単語取得手段と、
前記種単語取得手段によって取得した種単語を含む関連語句を取得する関連語句取得手段と、
前記関連語句取得手段によって取得した関連語句と、該関連語句に含まれる種単語の各カテゴリとの関連度を計算する関連度計算手段と、
前記関連度計算手段によって得られた関連度の最大値を書き込まれたテキストの有害極性値とし、該有害極性値が予め設定された閾値と比較し有害性を判断する判断手段とを備えていることを特徴とするインターネット上の有害書き込み検出装置。
前記種単語取得手段によって取得した種単語の頻度を取得する種単語頻度取得手段と、
前記関連語句取得手段によって取得した関連語句の頻度を取得する関連語句頻度取得手段とをさらに備えていることを特徴とする請求項１に記載のインターネット上の有害書き込み検出装置。
前記種単語取得手段によって取得した種単語と、前記関連語句取得手段によって取得した関連語句との共起頻度を取得する共起頻度取得手段をさらに備えていることを特徴とする請求項１又は２に記載のインターネット上の有害書き込み検出装置。
前記知識ベースに記録されている有害表現の単語は、範囲、種別、判断基準を備えたタグを付与されていることを特徴とする請求項１から３のいずれか１項に記載のインターネット上の有害書き込み検出装置。
予め有害表現の単語を種単語として複数のカテゴリに分類して知識ベースを構成する知識ベース作成ステップと、
インターネット上の所定のウェブサイトに書き込まれたテキストに対して前記知識ベースの種単語リストを照合してカテゴリ別で種単語を取得する種単語取得ステップと、
前記種単語取得ステップで取得した種単語を含む関連語句取得する関連語句取得ステップと、
前記関連語句取得ステップで取得した関連語句と、該関連語句に含まれる種単語の各カテゴリとの関連度を計算する関連度計算ステップと、
前記関連度計算ステップで得られた関連度の最大値を書き込まれたテキストの有害極性値とし、該有害極性値が予め設定された閾値と比較し有害性を判断する判断ステップとを備えていることを特徴とするインターネット上の有害書き込み検出方法。
前記種単語取得ステップで取得した種単語の頻度を取得する種単語頻度取得ステップと、
前記関連語句取得ステップで取得した関連語句の頻度を取得する関連語句頻度取得ステップとをさらに備えていることを特徴とする請求項５に記載のインターネット上の有害書き込み検出方法。
前記種単語取得ステップで取得した種単語と、前記関連語句取得ステップで取得した関連語句との共起頻度を取得する共起頻度取得ステップをさらに備えていることを特徴とする請求項５又は６に記載のインターネット上の有害書き込み検出方法。
前記知識ベースに記録されている有害表現の単語は、範囲、種別、判断基準を備えたタグを付与されていることを特徴とする請求項５から７のいずれか１項に記載のインターネット上の有害書き込み検出方法。