JP2015103210A - インターネット上の有害書き込み検出装置及び検出方法 - Google Patents

インターネット上の有害書き込み検出装置及び検出方法 Download PDF

Info

Publication number
JP2015103210A
JP2015103210A JP2013245813A JP2013245813A JP2015103210A JP 2015103210 A JP2015103210 A JP 2015103210A JP 2013245813 A JP2013245813 A JP 2013245813A JP 2013245813 A JP2013245813 A JP 2013245813A JP 2015103210 A JP2015103210 A JP 2015103210A
Authority
JP
Japan
Prior art keywords
harmful
word
seed
acquired
internet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013245813A
Other languages
English (en)
Other versions
JP6301119B2 (ja
Inventor
文人 桝井
Fumito Masui
文人 桝井
プタシンスキ ミハウ
Ptaszynski Michal
プタシンスキ ミハウ
大征 新田
Taisei Nitta
大征 新田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kitami Institute of Technology NUC
Original Assignee
Kitami Institute of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kitami Institute of Technology NUC filed Critical Kitami Institute of Technology NUC
Priority to JP2013245813A priority Critical patent/JP6301119B2/ja
Publication of JP2015103210A publication Critical patent/JP2015103210A/ja
Application granted granted Critical
Publication of JP6301119B2 publication Critical patent/JP6301119B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】インターネット上の有害書き込みを有効にかつ効率よく検出することができる検出装置及び検出方法を提供する。
【解決手段】インターネット上の有害書き込み検出装置は、予め有害表現の単語を種単語として複数のカテゴリに分類して構成される知識ベースと、インターネット上の所定のウェブサイトに書き込まれたテキストに対して知識ベースの種単語リストを照合してカテゴリ別で種単語を取得する種単語取得手段と、種単語取得手段によって取得した種単語を含む関連語句を取得する関連語句取得手段と、関連語句取得手段によって取得した関連語句と、関連語句に含まれる種単語の各カテゴリとの関連度を計算する関連度計算手段と、関連度計算手段によって得られた関連度の最大値を書き込まれたテキストの有害極性値とし、有害極性値が予め設定された閾値と比較し有害性を判断する判断手段とを備えている。
【選択図】図1

Description

本発明は、インターネット上に書き込まれている有害な書き込み、例えば学校非公式サイトの掲示板等に書き込まれている有害な書き込みを検出するためのインターネット上の有害書き込み検出装置及び検出方法に関する。
本発明に係る研究は、JSPS科研費24600001の助成を受けたものである。
近年、「ネット上のいじめ」が新たないじめの形として社会問題化している。これは、携帯端末やパソコンを通じてインターネット掲示板やSNS(ソーシャルネットワーキングサービス)等に特定の子どもへの誹謗中傷や嫌がらせを書き込んだり、メールを送付したりする行為のことである。
このようないじめに対処するために、学校関係者や一部の保護者等が主体となってネットパトロール活動を実施している。ネットパトロールとは、掲示板やSNS、ブログ等を巡回・監視・通報する活動である。その際、有害な書き込みを発見した場合に該当掲示板の管理人又は運営プロバイダ等に書き込み削除等を依頼する。しかし、こうした活動は主に人手で行われており、膨大な書き込みの中から有害書き込みを探し出すには、計り知れない労力と時間を要する。さらに、このような作業をするための人的コストや作業従事者への身体的精神的影響も懸念されるところである。
上記の問題に対処するために、有害書き込み候補を見極める検出システムにおいて用いられる有害極性判定手法が提案されている(例えば、非特許文献1)。この手法は非特許文献2の関連度判定手法を利用して有害極性値を計算し、少数の種単語に基づいて大量の有害書き込みを効率的に発見しようとする手法である。
松葉,桝井,河合,井須: "学校非公式サイトにおける有害情報検出を目的とした極性判定モデルに関する研究", 言語処理学会第17回年次大会発表論文集,P2-26, 2011. Turney, P,: "Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews", Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, Philadelphia, pp.417-424, 2002
しかしながら、上述した非特許文献1に記載された手法では、検証において有害書き込みの混合率50%のデータのみでしか評価しておらず、実際の混合率(約12%)における有効性は確認されていない。さらに、文部科学省は有害表現に含まれる語を「誹謗中傷語」、「暴力誘発語」、「卑猥語」の3タイプ分類しているが、非特許文献1の手法では、書き込みに偏りが生じていた場合に特定のタイプの有害表現のみが集中して検出されてしまうという問題点があった。
従って本発明の目的は、インターネット上の有害書き込みを有効にかつ効率よく検出することができる検出装置及び検出方法を提供することにある。
本発明によれば、予め有害表現の単語を種単語として複数のカテゴリに分類して構成される知識ベースと、インターネット上の所定のウェブ(Web)サイトに書き込まれたテキストに対して知識ベースの種単語リストを照合してカテゴリ別で種単語を取得する種単語取得手段と、種単語取得手段によって取得した種単語を含む関連語句を取得する関連語句取得手段と、関連語句取得手段によって取得した関連語句と、関連語句に含まれる種単語の各カテゴリとの関連度を計算する関連度計算手段と、関連度計算手段によって得られた関連度の最大値を書き込まれたテキストの有害極性値とし、有害極性値が予め設定された閾値と比較し有害性を判断する判断手段とを備えているインターネット上の有害書き込み検出装置が提供される。なお、本明細書において、関連語句(フレーズ)とは、書き込みを形態素解析し、名詞を中心とした係り受け関係にある形態素(単語)ペア、例えば、名詞−名詞、名詞−動詞、名詞−形容詞等である。
少数の種単語を複数のカテゴリに分類し、各カテゴリとの関連度の最大値を有害極性値とすることで、従来手法における書き込みに偏りが生じていた場合に特定のタイプの有害表現のみが集中して検出されてしまう問題点を解決し、インターネット上の有害書き込みを効率よく検出することができる。
種単語取得手段によって取得した種単語の頻度を取得する種単語頻度取得手段と、関連語句取得手段によって取得した関連語句の頻度を取得する関連語句頻度取得手段とをさらに備えていることが好ましい。
種単語取得手段によって取得した種単語と、関連語句取得手段によって取得した関連語句との共起頻度を取得する共起頻度取得手段をさらに備えていることが好ましい。
知識ベースに記録されている有害表現の単語は、範囲、種別、判断基準を備えたタグを付与されていることが好ましい。
本発明によれば、予め有害表現の単語を種単語として複数のカテゴリに分類して知識ベースを構成する知識ベース作成ステップと、インターネット上の所定のウェブ(Web)サイトに書き込まれたテキストに対して知識ベースの種単語リストを照合してカテゴリ別で種単語を取得する種単語取得ステップと、種単語取得ステップで取得した種単語を含む関連語句取得する関連語句取得ステップと、関連語句取得ステップで取得した関連語句と、関連語句に含まれる種単語の各カテゴリとの関連度を計算する関連度計算ステップと、関連度計算ステップで得られた関連度の最大値を書き込まれたテキストの有害極性値とし、有害極性値が予め設定された閾値と比較し有害性を判断する判断ステップとを備えているインターネット上の有害書き込み検出方法が提供される。
種単語取得ステップで取得した種単語の頻度を取得する種単語頻度取得ステップと、関連語句取得ステップで取得した関連語句の頻度を取得する関連語句頻度取得ステップとをさらに備えていることが好ましい。
種単語取得ステップで取得した種単語と、関連語句取得ステップで取得した関連語句との共起頻度を取得する共起頻度取得ステップをさらに備えていることが好ましい。
本発明のインターネット上の有害書き込み検出方法において、知識ベースに記録されている有害表現の単語は、範囲、種別、判断基準を備えたタグを付与されていることが好ましい。
本発明によれば、関連語句の種単語と各カテゴリとの関連度を計算し、関連度の最大値を書き込まれたテキストの有害極性値とし、該有害極性値が予め設定された閾値と比較し有害性を判断することにより、従来手法における書き込みに偏りが生じていた場合に特定のタイプの有害表現のみが集中して検出されてしまう問題点を解決し、インターネット上の有害書き込みを効率よく検出することができる。そのため、ネットパトロール担当者の負担を軽減させることができる。さらに、携帯端末やパソコンなどから有害書き込みをしようとしたときに、従来手法よりも高い判定性能をもって有害性を検出することで、書き手に警告し、有害書き込みを未然に防止することもできる。
本発明の一実施形態として、インターネット上の有害書き込み検出装置の構成を概略的に示すブロック図である。 インターネット上の有害書き込み検出装置の接続状態を概略的に示す図である。 図1の実施形態におけるインターネット上の有害書き込み検出装置の処理動作を説明するフローチャートである。 図1の実施形態における関連語句の取得に関する処理を説明するフローチャートである。 図1の実施形態における関連度計算に関する処理を説明するフローチャートである。 図1の実施形態におけるカテゴリ別最大化に関する処理を説明するフローチャートである。
図1は本発明の一実施形態としてインターネット上の有害書き込み検出装置100の構成を概略的に示しており、図2はインターネット上の有害書き込み検出装置の接続状態を概略的に示している。
図1に示すように、本実施形態におけるインターネット上の有害書き込み検出装置100は、表示手段10と、入力手段20と、記憶手段30と、制御手段40と、送信手段50と、受信手段60とを備えている。
このインターネット上の有害書き込み検出装置100は、図2に示すように、インターネット等の通信ネットワーク110に接続されており、他の通信端末、例えば、コンピュータ120、携帯電話120’又はタブレットPC120”からインターネット上の所定のWebサイトに書き込まれたテキスト情報を、インターネット等の通信ネットワーク110を介して読み込むことが可能とされている。
表示手段10は、液晶パネルから構成されており、この表示手段10上には、操作指令に応じて、検出された有害表現等が表示される。入力手段20はキーボード及びマウス、又はタッチパネルから構成されており、表示手段10上に表示された画面を参照しながらこの入力手段20を操作することによって、処理動作の開始指令や必要な情報の入力操作等が行われる。
記憶手段30は、例えば、フラッシュメモリ、HDD(ハードディスク)、又はRAM(ランダムアクセスメモリ)及びROM(リードオンリメモリ)等のメモリから主として構成されている。記憶手段30には、制御プログラム31と、予め有害表現の単語を種単語として複数のカテゴリに分類して構成される知識ベース32とが記憶されている。知識ベース32は、複数の種単語リスト1〜mを有する。知識ベース32に記録されている有害表現の単語には、範囲、種別、及び/又は判断基準を備えたタグが付与されていることが好ましい。なお、記憶手段30に、各種のアプリケーションソフトウェアも記憶することができる。
制御手段40は、CPU(セントラルプロセッシングユニット)を備えており、制御プログラムが実行されることにより、インターネット上の有害書き込み検出装置100の主な部分がこの制御手段40内に構築される。即ち、制御手段40には、インターネット上の所定のWebサイトに書き込まれたテキストに対して知識ベース32の種単語リスト1〜mを照合してカテゴリ別で種単語を取得する種単語取得手段41と、取得した種単語を含む関連語句を取得する関連語句取得手段42と、関連語句取得手段によって取得した関連語句と関連語句に含まれる種単語の各カテゴリとの関連度を計算する関連度計算手段43と、関連度計算手段43によって得られた関連度の最大値を、書き込まれたテキストの有害極性値とし、この有害極性値が予め設定された閾値と比較し有害性を判断する判断手段44とが構築される。
さらに、制御手段40には、種単語取得手段41によって取得した種単語の頻度を取得する種単語頻度取得手段45と、関連語句取得手段42によって取得した関連語句の頻度を取得する関連語句頻度取得手段46と、種単語取得手段41によって取得した種単語と、関連語句取得手段42によって取得した関連語句との共起頻度を取得する共起頻度取得手段47とがさらに構築される。
送信手段50は、記憶手段30に記憶されている情報、又は有害書き込みに関する検出結果等の情報を、インターネット等の通信ネットワーク110を介して送信するように構成されている。
受信手段60は、インターネット上の所定のWebサイトに書き込まれたテキスト情報を、インターネット等の通信ネットワーク110を介して読み込み、受信するように構成されている。
以下、図3〜図6に示されたフローチャートを参照して、本実施形態のインターネット上の有害書き込み検出方法の処理動作を説明する。図3は本実施形態におけるインターネット上の有害書き込み検出装置の主な処理動作を示しており、図4は関連語句の取得に関する処理動作を示しており、図5は関連度計算に関する処理動作を示しており、図6はカテゴリ別最大化に関する処理動作を示している。
インターネット上の有害書き込み検出装置100を用いて、所定のWebサイトに書き込まれた有害書き込みを検出する場合、図3に示すように、まず、i=0(iは整数である変数)とする(ステップS1)。
次いで、i<m(mは種単語リストの数)であるか否か(即ち、未参照の種単語リストはあるか否か)を判断する(ステップS2)。ここで、i<mである(即ち、未参照の種単語リストはある)と判断された場合(YESの場合)は、カテゴリCiの種単語リストを参照する(ステップS3)。
次いで、j=0(jは整数である変数)とする(ステップS4)。次いで、j<n(nは種単語の数)であるか否か(即ち、未参照の種単語はあるか否か)を判断する(ステップS5)。ここで、j<nである(即ち、未参照の種単語はある)と判断された場合(YESの場合)は、種単語Wiを取得する(ステップS6)。
次いで、関連語句の取得を行う(ステップS7)。関連語句の取得を行った後、j←j+1とする(ステップS8)。そして、ステップS5に戻る。一方、ステップS5において、j<nではない(即ち、未参照の種単語はない)と判断された場合(NOの場合)は、i←i+1とする(ステップS9)。そして、ステップS2に戻る。このように、書き込まれたテキストに対してカテゴリ別で種単語を取得する。
なお、ステップS2において、i<mではない(即ち、未参照の種単語リストはない)と判断された場合(NOの場合)は、カテゴリ別関連度の最大化を行う(ステップS10)。
次に、上述のステップS7の「関連語句の取得」の処理動作について説明する。表1は関連語句(フレーズ)の例を示している。
Figure 2015103210
関連語句を取得する際は、図4に示すように、まず、書き込み文(テキスト)を読み込む(ステップS21)。次いで、k=0(kは整数である変数)とする(ステップS22)。次いで、k<M(Mは書き込み文の数)であるか否か(即ち、未参照の文はあるか否か)を判断する(ステップS23)。ここで、k<Mである(即ち、未参照の文はある)と判断された場合(YESの場合)は、文Skを参照する(ステップS24)。次いで、文Skから関連語・係り受け関係集合E(即ち、関連語句)を取得する(ステップS25)。次いで、l=0(lは整数である変数)とする(ステップS26)。次いで、l<N(Nは要素の数)であるか否か(即ち、未参照の要素はあるか否か)を判断する(ステップS27)。ここで、l<Nである(即ち、未参照の要素はある)と判断された場合(YESの場合)は、種単語Wiと要素Elの関連度の計算を行う(ステップS28)。次いで、l+1とする(ステップS29)。そして、ステップS27に戻り、上述したステップS27〜S29の処理を繰り返す。一方、ステップS27で、l<Nではない(即ち、未参照の要素はない)と判断された場合(NOの場合)は、k←k+1とする(ステップS30)。そして、ステップS23に戻り、上述したステップS23〜S30の処理を繰り返す。なお、ステップS23で、k<Mではない(即ち、未参照のテキストはない)と判断された場合(NOの場合)は、この処理を終了する。
次に、上述のステップS28の「種単語Wiと要素Elの関連度の計算」の処理動作について説明する。種単語Wiと要素Elの関連度を計算する際は、図5に示すように、まず、www検索エンジンにアクセスする(ステップS31)。次いで、種単語Wiの頻度を取得する(ステップS32)。次いで、要素Elの頻度を取得する(ステップS33)。次いで、種単語Wiと要素Elの共起頻度を取得する(ステップS34)。次いで、種単語Wiと要素Elの関連度MIi,lを計算する(ステップS35)。次いで、関連度MIi,l >MIi,maxであるか否かを判断する(ステップS36)。ここで、関連度MIi,l >MIi,maxであると判断された場合(YESの場合)は、MIi,maxにMI,lを代入する(ステップS37)。そして、「種単語Wiと要素Elの関連度の計算」の処理を終了する。なお、ステップS36で、関連度MIi,l >MIi,maxではないと判断された場合(NOの場合)は、「種単語Wiと要素Elの関連度の計算」の処理を終了する。
次に、上述のステップS10の「カテゴリ別関連度最大化」の処理動作について説明する。カテゴリ別関連度最大化を行う際は、図6に示すように、まず、h<m(hは整数である変数)であるか否か(即ち、未参照の種単語リストはあるか否か)を判断する(ステップS41)。ここで、h<mである(即ち、未参照の種単語リストはある)と判断された場合(YESの場合)は、カテゴリChの関連度MIh,maxを参照する(ステップS42)。次いで、MIh,max>MImaxであるか否かを判断する(ステップS43)。ここで、MIh,max>MImaxであると判断された場合(YESの場合)は、MImaxにMIh,maxを代入する(ステップS44)。次いで、h←h+1とする(ステップS45)。そして、ステップS41に戻り、上述したステップS41〜S45の処理を繰り返す。一方、ステップS43で、MIh,max>MImaxではないと判断された場合(NOの場合)も、ステップS45へ進み、h←h+1とする。そして、ステップS41に戻り、上述したステップS41〜S45の処理を繰り返す。なお、ステップS41で、h<mではない(即ち、未参照のリストはない)と判断された場合(NOの場合)は、この処理を終了する。
関連度最大化による有害極性判定の処理では、書き込み文から有害情報候補となる関連語句(要素)、即ち、関連語句(要素)が持つ有害極性及び有害性を有する有害極性単語(種単語)の各カテゴリとの関連度を算出することにより量化する。有害極性単語の各カテゴリとの関連度を測る尺度としては自己相互情報量(PMI)を用いる。ここでのPMIは、関連語句と有害極性単語の各カテゴリに登録されている単語3語の共起頻度を示す。そして、共起頻度の算出にはWeb検索ヒット件数(IR)を用いる。Web上には多様なページが存在し、そこには様々な単語が書き込まれている。そのため、Web検索を用いることによって高い網羅性を得ることができる。
関連語句と有害極性単語の各カテゴリとの関連度は下記の(1)式で求める。piは書き込みから抽出された関連語句、wjは有害極性単語の1カテゴリに登録されている3単語であり、hits(pi)及びhits(wj)はpi及びwjそれぞれを検索単語としたときのWeb検索ヒット件数、hits(pi&wj)は、piとwjとが同じWebページに出現するサイトの検索ヒット件数を示す。そして、PMI−IR(pi,wj)はpiとwjとの関連度である。
PMI−IR(pi,wj) = log2 { hits(pi&wj)/hits(pi)hits(wj)} (1)
関連語句と有害極性単語の関連度のうち、最大値を関連語句の有害書き込みとの関連度とする。そして、書き込みから抽出された全ての関連語句に有害書き込みとの関連度を算出し、その中の最大値を書込みの有害極性値である「score」とする。「score」は下記の(2)式で求める。
score = max(max(PMI-IR(pi,wj))) (2)
本発明では、有害極性単語を1単語ではなく1カテゴリに登録している3単語としている。これにより、関連語句と有害極性単語の1カテゴリに登録されている単語全てが同じWebページに出現するヒット件数を取得することになり、有害性が強い関連語句の有害書き込みとの関連度のみを高めている。また、関連語句と有害極性単語1カテゴリとの関連度を算出し、その最大値を「score」とすることで、全ての有害極性単語と同じWebページに出現するが、それぞれとの関連度は小さい関連語句によって「score」が高くなることを防いでいる。
例えば、「可愛いけど性格が悪い女」という書き込みの「score」算出方法について述べる。まず、この書き込みから「可愛い−女」、「性格−悪い」、「悪い−女」という関連語句が抽出される。次に、「可愛い−女」と性的表現の卑猥語、「死ね、殺す、殴る」等の暴力誘発語、「うざい、きもい、不細工」等の誹謗中傷語との関連度を算出し、最大値を関連語句の有害書き込みとの関連度とする。同様に「性格−悪い」と「悪い−女」に対して有害書き込みとの関連度を算出する。最後に、抽出された関連語句の有害書き込みとの関連度のうち、最大値を書き込みの「score」とする。このようにして算出した「score」をもとに、全ての書き込みを有害極性値が高い順に並び替える。そして閾値nを設定し、上位n件の書き込みを有害、それ以外を無害と判定する。
本発明の検出方法に対して、有害書き込み混合率12%、50%のテキストデータを用いて評価を行った。評価基準として精度と再現率を用いた。精度とは、下記の(3)式に示すように、上位n件のうち正しく有害と判定できた書き込み数の割合である。再現率とは、(4)式に示すように、本来の有害書き込み数のうち正しく有害と判定できた書き込み数の割合である。実験では、各テストデータにおける精度及び再現率の平均を実用性の評価基準とする。
精度=(システムが正しく有害と判定した書き込み数)/(システムが有害と判定した書き込み数) (3)

再現率=(システムが正しく有害と判定した書き込み数)/(全ての有害書き込み数) (4)
本発明の検出方法と従来の検出方法の精度及び再現率を求めて評価した結果:有害書き込み混合率50%のテストデータに対し、従来の検出方法(非特許文献1)では精度は49%〜72%、再現率は3%〜100%であり、本発明の検出方法では精度は49%〜90%、再現率は5%〜100%であった。また,有害書き込み混合率12%のテストデータに対し、従来の検出方法では精度は11%〜30%、再現率は8%〜100%であり,本発明の検出方法では精度は10%〜48%、再現率は13%〜100%であった。
以上説明したように、インターネット上の所定のWebサイトに書き込まれたテキストに対してカテゴリ別で種単語を取得し、テキストから種単語を含む関連語句を取得し、そして、取得した関連語句の種単語と各カテゴリとの関連度を計算し、得られた関連度の最大値を書き込まれたテキストの有害極性値とし、この有害極性値が予め設定された閾値と比較し有害性を判断することで、従来手法における書き込みに偏りが生じていた場合に特定のタイプの有害表現のみが集中して検出されてしまう問題点を解決し、インターネット上の有害書き込みを効率よく検出することができる。そのため、従来方法よりも高い判定性能を得ることができ、ネットパトロール担当者の負担を軽減させることができる。さらに、携帯端末やパソコンなどから有害書き込みをしようとしたときに、従来手法よりも高い判定性能をもって有害性を検出することで、書き手に警告し、有害書き込みを未然に防止することもできる。
以上述べた実施形態は全て本発明を例示的に示すものであって限定的に示すものではなく、本発明は他の種々の変形態様及び変更態様で実施することができる。従って本発明の範囲は特許請求の範囲及びその均等範囲によってのみ規定されるものである。
10 表示手段
20 入力手段
30 記憶手段
31 制御用プログラム
32 知識ベース
40 制御手段
41 種単語取得手段
42 関連語句取得手段
43 関連度計算手段
44 判断手段
45 種単語頻度取得手段
46 関連語句頻度取得手段
47 共起頻度取得手段
50 送信手段
60 受信手段
100 インターネット上の有害書き込み検出装置

Claims (8)

  1. 予め有害表現の単語を種単語として複数のカテゴリに分類して構成される知識ベースと、
    インターネット上の所定のウェブサイトに書き込まれたテキストに対して前記知識ベースの種単語リストを照合してカテゴリ別で種単語を取得する種単語取得手段と、
    前記種単語取得手段によって取得した種単語を含む関連語句を取得する関連語句取得手段と、
    前記関連語句取得手段によって取得した関連語句と、該関連語句に含まれる種単語の各カテゴリとの関連度を計算する関連度計算手段と、
    前記関連度計算手段によって得られた関連度の最大値を書き込まれたテキストの有害極性値とし、該有害極性値が予め設定された閾値と比較し有害性を判断する判断手段とを備えていることを特徴とするインターネット上の有害書き込み検出装置。
  2. 前記種単語取得手段によって取得した種単語の頻度を取得する種単語頻度取得手段と、
    前記関連語句取得手段によって取得した関連語句の頻度を取得する関連語句頻度取得手段とをさらに備えていることを特徴とする請求項1に記載のインターネット上の有害書き込み検出装置。
  3. 前記種単語取得手段によって取得した種単語と、前記関連語句取得手段によって取得した関連語句との共起頻度を取得する共起頻度取得手段をさらに備えていることを特徴とする請求項1又は2に記載のインターネット上の有害書き込み検出装置。
  4. 前記知識ベースに記録されている有害表現の単語は、範囲、種別、判断基準を備えたタグを付与されていることを特徴とする請求項1から3のいずれか1項に記載のインターネット上の有害書き込み検出装置。
  5. 予め有害表現の単語を種単語として複数のカテゴリに分類して知識ベースを構成する知識ベース作成ステップと、
    インターネット上の所定のウェブサイトに書き込まれたテキストに対して前記知識ベースの種単語リストを照合してカテゴリ別で種単語を取得する種単語取得ステップと、
    前記種単語取得ステップで取得した種単語を含む関連語句取得する関連語句取得ステップと、
    前記関連語句取得ステップで取得した関連語句と、該関連語句に含まれる種単語の各カテゴリとの関連度を計算する関連度計算ステップと、
    前記関連度計算ステップで得られた関連度の最大値を書き込まれたテキストの有害極性値とし、該有害極性値が予め設定された閾値と比較し有害性を判断する判断ステップとを備えていることを特徴とするインターネット上の有害書き込み検出方法。
  6. 前記種単語取得ステップで取得した種単語の頻度を取得する種単語頻度取得ステップと、
    前記関連語句取得ステップで取得した関連語句の頻度を取得する関連語句頻度取得ステップとをさらに備えていることを特徴とする請求項5に記載のインターネット上の有害書き込み検出方法。
  7. 前記種単語取得ステップで取得した種単語と、前記関連語句取得ステップで取得した関連語句との共起頻度を取得する共起頻度取得ステップをさらに備えていることを特徴とする請求項5又は6に記載のインターネット上の有害書き込み検出方法。
  8. 前記知識ベースに記録されている有害表現の単語は、範囲、種別、判断基準を備えたタグを付与されていることを特徴とする請求項5から7のいずれか1項に記載のインターネット上の有害書き込み検出方法。
JP2013245813A 2013-11-28 2013-11-28 インターネット上の有害書き込み検出装置及び検出方法 Active JP6301119B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013245813A JP6301119B2 (ja) 2013-11-28 2013-11-28 インターネット上の有害書き込み検出装置及び検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013245813A JP6301119B2 (ja) 2013-11-28 2013-11-28 インターネット上の有害書き込み検出装置及び検出方法

Publications (2)

Publication Number Publication Date
JP2015103210A true JP2015103210A (ja) 2015-06-04
JP6301119B2 JP6301119B2 (ja) 2018-03-28

Family

ID=53378813

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013245813A Active JP6301119B2 (ja) 2013-11-28 2013-11-28 インターネット上の有害書き込み検出装置及び検出方法

Country Status (1)

Country Link
JP (1) JP6301119B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017187828A (ja) * 2016-04-01 2017-10-12 京セラドキュメントソリューションズ株式会社 情報処理装置及びプログラム
KR101837003B1 (ko) * 2016-01-22 2018-03-09 주식회사 와이즈넛 온라인 커뮤니티 모니터링 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002109085A (ja) * 2000-09-28 2002-04-12 Uniden Corp 掲載情報削除依頼代行システム及び方法
JP2002279047A (ja) * 2001-01-09 2002-09-27 Zuken:Kk 電子掲示板監視システム
JP2005070961A (ja) * 2003-08-21 2005-03-17 Nippon Telegr & Teleph Corp <Ntt> Webパトロールシステム、Webパトロール方法、Webパトロール用プログラム、及び、Webパトロール用記録媒体
JP2011039575A (ja) * 2009-08-06 2011-02-24 Nippon Telegr & Teleph Corp <Ntt> コンテンツ検出支援装置、コンテンツ検出支援方法およびコンテンツ検出支援プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002109085A (ja) * 2000-09-28 2002-04-12 Uniden Corp 掲載情報削除依頼代行システム及び方法
JP2002279047A (ja) * 2001-01-09 2002-09-27 Zuken:Kk 電子掲示板監視システム
JP2005070961A (ja) * 2003-08-21 2005-03-17 Nippon Telegr & Teleph Corp <Ntt> Webパトロールシステム、Webパトロール方法、Webパトロール用プログラム、及び、Webパトロール用記録媒体
JP2011039575A (ja) * 2009-08-06 2011-02-24 Nippon Telegr & Teleph Corp <Ntt> コンテンツ検出支援装置、コンテンツ検出支援方法およびコンテンツ検出支援プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
松葉 達明: "学校非公式サイトにおける有害情報検出", 電子情報通信学会技術研究報告 VOL.109 NO.142, JPN6017044051, 15 July 2009 (2009-07-15), JP, pages 93 - 98, ISSN: 0003683747 *
松葉 達明: "学校非公式サイトにおける有害情報検出を目的とした極性判定モデルに関する研究", 言語処理学会第17回年次大会 発表論文集 チュートリアル 本会議 ワークショップ [CD−ROM], JPN6017044053, 7 March 2011 (2011-03-07), JP, pages 388 - 391, ISSN: 0003683746 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101837003B1 (ko) * 2016-01-22 2018-03-09 주식회사 와이즈넛 온라인 커뮤니티 모니터링 방법
JP2017187828A (ja) * 2016-04-01 2017-10-12 京セラドキュメントソリューションズ株式会社 情報処理装置及びプログラム

Also Published As

Publication number Publication date
JP6301119B2 (ja) 2018-03-28

Similar Documents

Publication Publication Date Title
CA3129745C (en) Neural network system for text classification
CN109145216B (zh) 网络舆情监控方法、装置及存储介质
Wang et al. A system for real-time twitter sentiment analysis of 2012 us presidential election cycle
Jiang et al. Public-opinion sentiment analysis for large hydro projects
US20170372628A1 (en) Adaptive Reading Level Assessment for Personalized Search
US20190370397A1 (en) Artificial intelligence based-document processing
US9881059B2 (en) Systems and methods for suggesting headlines
US9703860B2 (en) Returning related previously answered questions based on question affinity
US20100262610A1 (en) Identifying Subject Matter Experts
Aletras et al. Labelling topics using unsupervised graph-based methods
US20180181544A1 (en) Systems for Automatically Extracting Job Skills from an Electronic Document
US8965867B2 (en) Measuring and altering topic influence on edited and unedited media
US20160098737A1 (en) Corpus Management Based on Question Affinity
US9116979B2 (en) Systems and methods for creating an interest profile for a user
US20200118022A1 (en) Determining Comprehensiveness of Question Paper Given Syllabus
WO2020123689A1 (en) Suggesting text in an electronic document
Rhyn et al. A machine learning approach for classifying textual data in crowdsourcing
Ali Questioning the impact of the impact factor. A brief review and future directions
US20150339786A1 (en) Forensic system, forensic method, and forensic program
JP6301119B2 (ja) インターネット上の有害書き込み検出装置及び検出方法
Field et al. Assessing the value of removing earthquake-hazard-related epistemic uncertainties, exemplified using average annual loss in California
TWI501183B (zh) 個人化教科書推薦系統及其方法
CN106575418A (zh) 建议的关键词
Rybak et al. ExperTime: Tracking expertise over time
Wu et al. Automatic evaluation of online learning interaction content using domain concepts

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180228

R150 Certificate of patent or registration of utility model

Ref document number: 6301119

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250