JP2009037420A - 有害コンテンツの評価付与装置、プログラム及び方法 - Google Patents

有害コンテンツの評価付与装置、プログラム及び方法 Download PDF

Info

Publication number
JP2009037420A
JP2009037420A JP2007201181A JP2007201181A JP2009037420A JP 2009037420 A JP2009037420 A JP 2009037420A JP 2007201181 A JP2007201181 A JP 2007201181A JP 2007201181 A JP2007201181 A JP 2007201181A JP 2009037420 A JP2009037420 A JP 2009037420A
Authority
JP
Japan
Prior art keywords
harmful
content
vocabulary
black
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007201181A
Other languages
English (en)
Other versions
JP4859779B2 (ja
Inventor
Takeshi Masuyama
毅司 増山
Shinichi Sato
慎一 佐藤
Hideki Motono
秀樹 本野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2007201181A priority Critical patent/JP4859779B2/ja
Publication of JP2009037420A publication Critical patent/JP2009037420A/ja
Application granted granted Critical
Publication of JP4859779B2 publication Critical patent/JP4859779B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】従来手作業で行っていた、新しいキーワードやウェブサイトの抽出を自動で行い、より高精度に有害サイトのフィルタリングを提供すること。
【解決手段】予め定義された有害サイトのURLリストを入力とし、インターネット上の様々な有害サイトを自動的に探索(クロール)するクローラ部を備える。そして、探索したURLのコンテンツのデータをコンテンツ・リポジトリ部(データベース)に蓄積、格納する。さらに、コンテンツ・リポジトリ部からコンテンツの文字データに含まれる語彙を抽出し、該語彙の所定のブラック度数と所定のグレー度数を求めて、語彙の有害度数を計算する語彙有害評価付与部を備える。さらに、語彙有害評価付与部が計算した語彙の有害度数から前記コンテンツの有害度数を計算するコンテンツ有害評価付与部を備えている。
【選択図】図1

Description

本発明は、インターネット上のサイトから有害語彙の検出と評価を行う評価付与装置、処理プログラム、及び処理方法に関する。
インターネット上の情報を検索するためにサーチエンジンが利用されている。サーチエンジンは一般的にウェブページのリンクを解析してページまたはサイトにスコア付けを行い、検索結果のランキングを表示している。インターネット上にはジャンルを問わず膨大な数のウェブサイトが存在し、その中にはアダルトコンテンツや暴力的表現を含むものが多数存在する。従来の検索エンジンは上記のとおり、リンク解析によって、検索結果を決定しているため、入力するキーワードによっては、アダルトコンテンツが検索結果の上位に表示されることも多かった。
特に、子供がインターネット検索をする際にこれらのサイトが表示されないよう、ペアレンタル・コントロールと呼ばれるフィルタリング・システムを導入することが増えている。これらは一般的にキーワードや登録したURLに基づいてサイトをフィルタリングして、検索結果に表示すべきでないページを決定している。そのため、新しいキーワードやURLを常に発見し、更新しなければならない。従来、これらの更新作業は人手で行っていたが、ウェブサイトの爆発的な増加に対応するのが難しく非効率であった。そのため、例えば、特許文献1、2や非特許文献1のような技術が開示されている。
特許文献1に記載の技術では、専門用語を抽出する対象ドキュメントが既にデータベースに保存されており、かつ専門用語と関連する分野のドキュメントであることを前提としている。そのため、対象とするドキュメント数が限定されて、高精度で専門用語を抽出することができた。しかし、対象をウェブサイト全体に広げた場合、ウェブドキュメントは分野ごとに分類されていないという問題があり、専門用語を抽出する前に、まず対象とするウェブドキュメントをウェブ上から収集する必要がある。また、ウェブサイトは日々更新されるという特徴があり、さらに企業や官公庁だけでなく、個人の趣味・嗜好の基に作成されるものも多く存在するため、学術論文などにくらべてノイズとなる情報がドキュメント中に多く含まれている可能性が高く、上記の技術とは別の視点が必要となる。
特許文献2に記載の技術では、カテゴリーごとに分類されたコンテンツ・データベースを有し、検索要求に基づいて検索した結果のウェブページをコンテンツ・データベースと比較し、コンテンツ・データベースに含まれるウェブサイトを検索結果から削除する方法について記載されている。この技術では、カテゴリーごとに分類されたコンテンツ・データベースを作成する必要があり、これは従来技術で述べたとおり、作成に非常に手間がかかるという問題があるが、その問題の解決手段については開示されていない。
非特許文献1には、自動車や映画のレビューを解析し、“excellent”と共起する語が多い場合はポジティブなレビュー、“poor”と共起するフレーズが多い場合はネガティブなレビューが多いことを発見したことが開示されている。この方法では、相互情報量を利用してレビューのP/N(ポジティブ/ネガティブ)を判定している。しかし、本技術では、ウェブページの記載内容がポジティブなものかネガティブなものかを判別することを目的としており、この技術をコンテンツの有害度の計算にあてはめようとすると、ブラック(有害)かホワイト(無害)かの判定になり、クレー(中間)の判定することはできない。
特開2005−222263号公報 特開2007−128119号公報 Peter D. Turney,"Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Clasification of Reviews",Proceedings of the 40th Annual Meeting of Association for Computational Linguistics (ACL’02), Philadelphia, Pennsylvania, USA, July 8−10, 2002, pp417−424, NRC44946.
本発明では、従来手作業で行っていた、新しいキーワードやウェブサイトの抽出を自動で行い、より高精度に有害サイトのフィルタリングを行うことを課題とする。また、それをペアレンタル・コントロールや検索結果のランク付けに応用することで、意図しないユーザにアダルトや暴力表現を含んだウェブページを表示しないことを課題とする。
本発明の背景としては、検索結果のランキングにおいて、有害度の高いページの順位を下げて、そうでないページを積極的に上位に露出させたいという要求がある。しかしながら、一般的な検索エンジンは、リンク解析のみでコンテンツまで見ていないので、有害度が高いページも上位にランクされてしまうという問題点があった。ここで、有害度とは、子供に悪影響を及ぼす語彙を含んでいる度合いの意であり、例えば、アダルトサイト→有害度が高い、官公庁のトップページ→有害度が低い、といったものである。したがって、本発明の目的は、コンテンツ(ページ)に有害度を付与することである。ただし、本明細書では、「有害」または「有害度」の用語は、猥褻的、暴力的、中傷的な表現のみならず、ウェブページに掲載するには不適切な表現もしくはそれを測る度数を含むものとする。
本発明では、上記課題に鑑み、以下のような解決手段を提供する。
(1) インターネット上のサイトの有害語彙及び有害コンテンツの評価付与を行う評価付与装置であって、
所定の有害URLリストを取得し、該有害URLリストに含まれるURLを随時アクセスして該URLサイトのコンテンツを収集するクローラ部と、
前記コンテンツのデータを格納するコンテンツ・リポジトリ部と、
前記コンテンツ・リポジトリ部から前記コンテンツの文字データに含まれる語彙を抽出し、該語彙の所定のブラック度数と所定のグレー度数を求めて、語彙の有害度数を計算する語彙有害評価付与部と、
前記語彙有害評価付与部が計算した前記語彙の有害度数から前記コンテンツの有害度数を計算するコンテンツ有害評価付与部と、
を備えたことを特徴とする、評価付与装置。
本評価付与装置は、予め定義された有害サイトのURLリストを入力とし、インターネット上の様々な有害サイトを自動的に探索(クロール)するクローラ部を備える。そして、探索したURLのコンテンツのデータをコンテンツ・リポジトリ部(データベース)に蓄積、格納する。さらに、コンテンツ・リポジトリ部からコンテンツの文字データに含まれる語彙を抽出し、該語彙の所定のブラック度数と所定のグレー度数を求めて、語彙の有害度数を計算する語彙有害評価付与部を備える。さらに、語彙有害評価付与部が計算した語彙の有害度数から前記コンテンツの有害度数を計算するコンテンツ有害評価付与部を備えている。なお、評価付与(レイティング)とは、対象となる物事に対して、ある基準を適用して、等級分けをしたり、度合いを測ることをいう。
このような構成を備えることによって、インターネット上の膨大なウェブサイトに含まれるデータから、その語彙(単語、またはフレーズ)を自動的に集めて、その語彙ごとに所定の「ブラック度数」と所定の「グレー度数」を計算して、その値を用いて語彙の有害度数(語彙有害評価付与度)を定量的に計算することができる。さらに、その語彙を含んだコンテンツの有害度(コンテンツ有害評価付与度)も定量的に計算することができる。
この評価付与装置を作動させることによって、これまで目視で確認して分類していた有害用語や有害ウェブサイトを自動で収集することができる。さらに、上記で収集した用語やウェブサイト情報に基づいて、ペアレンタル・コントロールを行うことで、高精度にフィルタリングを行うことができる。
また、本評価付与装置は、語彙有害評価付与部に下記の(2)〜(5)に記載の計算式を用いて、計算する演算手段を構成として備えることで、ブラック度数やグレー度数から語彙tの有害度数であるSO(t)(Semantic Orientationの略)を定量的に求めることができる。もちろん、計算式はこれに限定されるものでなく、他の公知の計算、例えば、非特許文献1に記載の計算方法を応用することも可能である。すなわち、この演算手段部分は他の計算式を用いたものと交換可能である。
(2) 前記所定のブラック度数であるAVG_Black(t)は、下記数1式によって計算することを特徴とする、(1)に記載の評価付与装置。
Figure 2009037420
t:単語またはフレーズ(形態素)
Black: i番目のブラック・ワード
R(X,Y):単語またはフレーズXと単語またはフレーズYのシンプソン係数
m:ブラック・ワードの数
(3) 前記所定のグレー度数であるAVG_Gray(t)は、下記数2式によって計算することを特徴とする、(1)または(2)に記載の評価付与装置。
Figure 2009037420
Gray: j番目のグレー・ワード
n:グレー・ワードの数
(4) 前記語彙の有害度数であるSO(t)は、下記数3式によって計算することを特徴とする、(1)乃至(3)に記載の評価付与装置。
Figure 2009037420
α、β:閾値
さらに、本装置は、下記(5)に記載の計算式を用いた演算手段を備えることによって、コンテンツの有害度数SO(c)を定量的に求めることができる。この演算手段部分は他の計算式を用いたものと交換可能とする。
(5) 前記コンテンツの有害度数SO(c)は、下記数4式によって計算することを特徴とする、(1)乃至(4)に記載の評価付与装置。
Figure 2009037420
c:コンテンツ
γ:総単語またはフレーズに占めるSO(t)>0の単語またはフレーズの比率
l:コンテンツ内のSO(t)>0の単語またはフレーズ数
(6) 前記ブラック・ワードは、複数のブラック・ワード候補の語彙に対して、操作員の目視判定結果と、該ブラック・ワード候補の語彙を含むサイトのURLをフィルタリングするツールの判定結果と、有害語辞書による判定結果を、それぞれ組み合わせることによって選別して、ブラック・ワードリストとして入力されることを特徴とする、(2)に記載の評価付与装置。
このような構成によれば、ブラック・ワード(単語だけでなくフレーズも含む)は、人間の目視判定結果、すなわち、例えば、5人中4人以上がブラックであると判定した結果を判定データとして取り込み、さらに、既存のURLフィルタリング・ツールを用いた判定データ、及び、既存の有害辞書を用いた判定データを取り込み、それらの判定データを組み合わせて、あるいは順次判定処理を行わせることによって絞り込みブラック・ワードの選別を行う。このように選別されたブラック・ワードに対して、本評価付与装置の有害度の評価付与を行うことで、さらに精度の向上が期待できる。
以上の説明は、解決手段を評価付与装置として実現する態様で行ったが、下記(7)または(8)の態様のように、本発明は、上記の機能をコンピュータに実行させるコンピュータ・プログラム(ソフトウェア)、または、その処理方法として捉えることができる。
(7) 前記グレー・ワードは、複数のグレー・ワード候補の語彙に対して、操作員のブラックでないという目視判定結果と、該グレー・ワード候補の語彙を含むサイトのURLをフィルタリングするツールのブラックでないという判定結果と、有害語辞書によるブラックでないという判定結果をそれぞれ組み合わせることによって選別して、グレー・ワードリストとして入力されることを特徴とする、(3)に記載の評価付与装置。
このような構成によれば、(6)のブラック・ワードの選別と同様に、グレー・ワード(単語だけでなくフレーズも含む)についても同様な処理を行う。例えば、5人中1人以上がブラック・ワードと判定した語をグレー・ワード候補とし、次に、既存のURLフィルタリング・ツールや有害辞書によるフィルタリングがブラックでないと判定した結果を加えていき、グレー・ワードの選別を絞り込んでいくことができる。このように選別されたグレー・ワードに対して、本評価付与装置の有害評価付与を行うことで、さらに精度の向上が期待できる。
(8) ウェブページにおける検索結果のリストから有害と判定されたウェブサイトを下位に表示するか、または削除して前記検索結果の画面に表示する、(1)乃至(7)に記載の評価付与装置。
以上の(1)〜(8)の説明は、本発明の解決手段を、評価付与装置として実現する態様であるが、下記(9)または(10)の態様のように、本発明は、上記の機能をコンピュータに実行させるコンピュータ・プログラム(ソフトウェア)、または、その処理方法として捉えることができる。このような態様によって、(1)と同様な作用効果を得ることができる。
(9) インターネット上のサイトの有害語彙及び有害コンテンツの評価付与を行うためのコンピュータ・プログラムであって、
コンピュータに、
所定の有害URLリストを取得し、該有害URLリストに含まれるURLを随時アクセスして該URLサイトのコンテンツを収集するステップと、
前記コンテンツのデータを格納するステップと、
前記格納されたデータから前記コンテンツの文字データに含まれる語彙を抽出し、該語彙の所定のブラック度数と所定のグレー度数を求めて、語彙の有害度数を計算するステップと、
前記計算した前記語彙の有害度数から前記コンテンツの有害度数を計算するステップと、
を実行させることを特徴とする、コンピュータ・プログラム。
(10) インターネット上のサイトの有害語彙及び有害コンテンツの評価付与を行うための方法であって、
所定の有害URLリストを取得し、該有害URLリストに含まれるURLを随時アクセスして該URLサイトのコンテンツを収集するステップと、
前記コンテンツのデータを格納するステップと、
前記格納されたデータから前記コンテンツの文字データに含まれる語彙を抽出し、該語彙の所定のブラック度数と所定のグレー度数を求めて、語彙の有害度数を計算するステップと、
前記計算した前記語彙の有害度数から前記コンテンツの有害度数を計算するステップと、
を含むことを特徴とする、方法。
本発明によれば、今まで目視で確認して分類していた有害用語や有害ウェブサイトを自動で収集することができる。さらに、上記で収集した用語やウェブサイト情報に基づいて、ペアレンタル・コントロールを行うことで、漏れなくフィルタリングを行うことができる。
以下、本発明の実施形態について図を参照しながら説明する。
[評価付与装置の構成、処理フロー]
図1は、評価付与装置10の機能ブロックの概略を示す図である。本装置は、入力部11、クローラ部12、コンテンツ・リポジトリ部13、語彙有害評価付与部14、コンテンツ有害評価付与部15、出力部16を含んで構成される。
有害URLリスト20は、それを予め所有するサイトやデータベースからのデータを、入力部11を介して本装置に入力されるものとする。クローラ部12は、この有害URLリスト20に基づいて、リストに含まれるURLの各サイトに順次アクセスし、そのサイトの内容(コンテンツ)を自動的に収集する。収集されたコンテンツのデータは、コンテンツ・リポジトリ部13に格納される。コンテンツ・リポジトリ部13は、一般にはデータベースであり、URL名、サイトアドレス、収集日時などと関連付けてコンテンツの内容が記録される。なお、クロール方法自体は、公知の手法を用いてよい。
語彙有害評価付与部14は、コンテンツ・リポジトリ部13からコンテンツの文字データを取り出し、形態素解析を行って、単語またはフレーズ(語彙)に分解する。ここで、形態素解析は公知の様々な方法を利用してよい。そして、得られた語彙それぞれに対して、有害評価付与処理を行って、語彙の有害評価付与(以後、これをSO(t)で表す)計算を行う。語彙の有害評価付与の方式の詳細は後述する。
コンテンツ有害評価付与部15は、語彙有害評価付与部14によって、計算された語彙の有害評価付与を基に、コンテンツの有害評価付与(以後、これをSO(c)で表す)計算を行う。語彙の有害評価付与の詳細は後述する。計算された語彙の有害評価付与は出力部16を介して外部に出力され、URLの有害度数として、サイトのフィルタリングやURL検索結果の表示などに利用される。
図2は、上記の装置が行うコンテンツの有害評価付与の処理フローをまとめた図である。すなわち、評価付与装置10は以下の処理を行う。
(1)外部サイトなどから有害URLリストをクローラ部が取り込む。
(2)クローラ部はインターネット上にURLへのリクエストを発行する。
(3)(有害)コンテンツを取得する。
(4)(有害)コンテンツをコンテンツ・リポジトリに格納する。
(5)語彙の有害評価付与処理を行う。
(6)コンテンツの有害評価付与処理を行う。
[評価付与方式の詳細]
図3は、コンテンツの有害評価付与のイメージを示す図である。まず、クローラ部12によって収集された有害URLコンテンツ30は、形態素解析(品詞フィルタリング)処理を行って、形態素解析済み語彙リスト40を生成する。次に、語彙の有害評価付与計算では、予め定義されたブラック・ワードリスト50、グレー・ワードリスト60を用いる。ここで、グレー・ワードリストとは、ブラックかどうかの判定が難しい語を意味する。
<有害評価付与の仮定>
本方式では以下の2つの仮定を前提としている。
(仮定1)ブラック・ワードが出現するコンテンツでは、異なるブラック・ワードも出現しやすい。
例えば、URL、http://www.△△△△.com/dera/○○○○.htmlのコンテンツは、以下のような内容を含んでいる。
“「愛しのフ○○ラチーオ」シリーズ第5弾! 今回ももちろんデジタルモザイクだから、見たい部分がはっきり、くっきり、すっきりですよ! フ○○チオ大好きな17人のギャルが自慢のフ○○テクでザー○ン味くらべ。”
これを、ある検索エンジンによる共起ヒット数を調べると下記のようになった。
「フ○○ラチオ」と「フ○○ラテク」の共起ヒット数→51,700件
「フ○○ラチオ」と「ザー○メン」の共起ヒット数→513,000件
「フ○○ラテク」と「ザー○メン」の共起ヒット数→54,300件
(仮定2)グレー・ワードが出現するコンテンツでは、異なるグレー・ワードも出現しやすい。
例えば、URL、http://blogs.▲▲▲▲.co.jp/■■■■.htmlのコンテンツは以下のような内容を含んでいる。
“...これR−指定かかるシーンまであるwww、まぁ原作がなにぶんエロゲーなのでしょうがないといえばしょうがないのですが、じゃあ18禁とかちゃんと書いといてくださいよ、いやもしそうでも買いますけども...”
これを、ある検索エンジンによる共起ヒット数を調べると、「エロゲー」と「18禁」の共起ヒット数→858,000件となった。したがって、アプローチとしては、コーパスから共起情報を獲得し、ブラック・ワードとグレー・ワードのどちらと共起しやすいかをモデル化する方式をとった。
<語彙の有害評価付与度>
具体的には、語彙有害評価付与部14の演算手段は、下記数5〜7式によって、語彙の有害評価付与度を求める。
Figure 2009037420
Figure 2009037420
Figure 2009037420
ここで、
t:単語またはフレーズ(形態素)
α、β:閾値
Black: i番目のブラック・ワード
R(X,Y):数8式で表される単語またはフレーズXと単語またはフレーズYのシンプソン係数(1に近いほど関連性が高い)。
SO(t):tの有害度(0〜1の範囲)。1に近いほどブラック度が高い。
Figure 2009037420
図4は、語彙の有害評価付与方式のイメージを示す図である。
ここで、SO(t)の特徴としては、
・Black軸に寄っているほどスコアが高い。(Bによる影響)
・AVG_Black(t)が大きいほどスコアが高い。(Aによる影響)
が挙げられる。
また、図中のBによる影響としては、
・Black軸に寄っているほど、SO(t)は大きくなる。
例えば、(AVG_Black(t),AVG_Gray(t))=(0.9,0.3)の場合は、SO(t)は0.8538となり、同様に、(0.3,0.9)の場合は、0.0948となる。
・AVG_Black(t)が大きいほど、SO(t)は大きくなる。
例えば、(0.9,0.3)→0.8538、(0.5,0.3)→0.4287となる。
・AVG_Gray(t)が小さいほど、SO(t)は大きくなる。
例えば、(0.9,0.3)→0.8538、(0.9,0.1)→0.8944となる。
また、図中のAによる影響としては、
・角度θが同じ場合、AVG_Black(t)が大きいほど、SO(t)は大きくなる。
例えば、(1.0,1.0)→0.7071、(0.5,0.5)→0.3535となる。
<ブラック・ワードとグレー・ワード用のデータ収集方法>
データとしては、一般有害用語辞書(例えば、アダルト、グラビア、出会い系)や有害検索キーワードを母集団とする。語彙の選別方法としては、
・形態素解析
・日本語の単語またはフレーズ(Alphabet以外)の抽出
・「バスト」、「ソープ」など、ダイエットやファッションの用途で使われている場合がほとんどである語の除去
以上の選別によって、今回収集できた語彙数は441語であった。
<ブラック・ワードの選別方法>
まず、目視チェックによって、5人中4人以上がブラックと判定し、次に、URLフィルタリング判定(対象語のWeb検索結果URLに対するチェック)やワードフィルタリング判定などのツールによるブラック判定を行った。その結果、今回収集できた語彙数は22語となった。このようにして、生成されたブラック・ワードリストは評価付与装置10の語彙有害評価付与部14の入力として用いられる。なお、上記の判定の順序は入れ替えて行ってもよい。
ここで、URLフィルタリング判定(対象語のウェブ検索結果URLに対するチェック)は、次のステップにより実行される。
(1) 有害URLを収集する。
(2) 対象語のウェブ検索結果のURLをチェックし、(1)で収集したURLが含まれているかチェックする。
(3) (2)でURLが含まれていればブラックとする。
また、ワードフィルタリング判定は、次のステップにより実行される。
(1) 有害ワードを収集する。
(2) 対象語が(1)に含まれているかをチェックする。
(3) (2)で含まれていればブラックとする。
<グレー・ワードの選別方法>
まず、目視チェックとして、5人中1人以上がブラックと判定し、次に、URLフィルタリング判定(対象語のWeb検索結果URLに対するチェック)やワードフィルタリング判定などのツールによるブラックでない判定を行った。その結果、今回収集できた語彙数は293語となった。このようにして、生成されたグレー・ワードリストは評価付与装置10の語彙有害評価付与部14の入力として用いられる。URLフィルタリング判定、ワードフィルタリング判定については、前述のステップと同様である。なお、上記の判定の順序は入れ替えて行ってもよい。
<コンテンツの有害評価付与方式>
具体的には、コンテンツ有害評価付与部15の演算手段は、コンテンツcの有害評価付与度SO(c)を下記の数9式で求める。
Figure 2009037420
t:単語またはフレーズ(形態素)
c:コンテンツ
γ:総単語またはフレーズに占めるSO(t)>0の単語またはフレーズの比率、または0≦γ≦1の任意の値で調整可能
l:コンテンツ内のSO(t)>0の単語またはフレーズ数
SO(t):tの有害度(0〜1の範囲)。1に近いほどブラック性が高い。
SO(c):cの有害度(0〜1の範囲)。1に近いほどブラック性が高い。
[具体的計算例]
図5、図6、図7は、実際のURLサンプルの評価付与計算例を示した図である。なお、以降の記載では、固有名詞、及び記載するのに差しさわりのある用語は、一部を伏せ字に置き換えている。
ここでは、例として、URL、http://www.▲▲▲▲.com/dera/●●●●●●.htmlのコンテンツとして以下の記述を調べた。
“「愛しのフ○○チーオ」シリーズ第5弾! 今回ももちろんデジタルモザイクだから、見たい部分がはっきり、くっきり、すっきりですよ! フ○○チオ大好きな17人のギャルが自慢のフ○○テクでザー○ン味くらべ。”
図8、図9は、別のURLサンプルの評価付与計算例を示す図である。ここでは、URL、http://△△△△.co.jp/○○○○○/XXXXXX.htmlのコンテンツとして以下の記述を調べた。
“...これR−指定かかるシーンまであるwww まぁ原作がなにぶんエロゲーなのでしょうがないといえばしょうがないのですが じゃあ18禁とかちゃんと書いといてくださいよ、いやもしそうでも買いますけども...”
以下に、実際のサンプル適用例を2つ示す。
[サンプル適用例1(「ランジェリー」でブログ検索した場合]
図10は、サンプル適用例1として、「ランジェリー」で通常のブログ検索した場合の検索結果の画面を示す図である。この検索結果で図中のかっこ内の数値が求められたコンテンツの有害度であり、コンテンツのタイトル欄の横に表示されている。
[サンプル適用例2(「ランジェリー」でブログ検索した場合+有害フィルタ)]
図11は、サンプル適用例2として、「ランジェリー」で通常のブログ検索した結果に、更に有害フィルタをかけた場合の検索結果の画面を示す図である。ここで、有害フィルタの閾値α、βとして0.02を用いているが、この値は、管理者または利用者が変更可能とする。この検索結果では、図中のかっこ内の数値が求められたコンテンツの有害度であるが、閾値以上の有害度を示すコンテンツを持つページは、検索結果から削除されて表示されている。このように、有害度を単に検索結果に表示するだけでなく、所定の閾値を超えたページを自動的に表示させないことで、子供などの利用者にも安心して検索エンジンを使用させることができる。
[応用例]
なお、本発明は、以下のような応用(一部)も可能である。
(1)語彙の有害度を知りたい場合
・有害語彙の検知を行う。
文書分類やクラスタリングなどで、どの語が原因で有害と判定されたかの分析を行う。また、有害用語であるかどうか判断が難しい語彙の裏付けを行う。
(2)コンテンツ(ページ)の有害度を知りたい場合
・検索問題への適用
有害度の高いページの検索ランキングを低くしたり、排除したりする。また、有害度の低いページを積極的に上位に露出させる。あるいは、リンク解析技術と組み合わせて検索結果のランキングを行う。
・文書分類・クラスタリング問題への適用
有害か、そうでないかというような2値分類とは異なる分類を行う。または、有害ページの検知を行う。
[評価付与装置10のハードウェア構成]
図12は、本発明の好適な実施形態の一例に係る評価付与装置10のハードウェア構成を示す図である。
評価付与装置10は、制御部130を構成するCPU131(マルチプロセッサ構成ではCPU132など複数のCPUが追加されてもよい)、バスライン105、通信I/F(I/F:インターフェイス)120、メインメモリ170、BIOS(Basic Input Output System)180、USBポート190、I/Oコントローラ160、キーボード及びマウスなどの入力装置110、並びに表示装置140を備える。
I/Oコントローラ160には、テープドライブ151、ハードディスク153、光ディスクドライブ152、及び半導体メモリ154などの記憶装置150を接続することができる。
BIOS180は、評価付与装置10の起動時にCPU131が実行するブートプログラムや、評価付与装置10のハードウェアに依存するプログラムなどを格納する。
ハードディスク153は、評価付与装置10として機能するための各種プログラム及び本発明の機能を実行するプログラムを記憶する。
光ディスクドライブ152としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク1521を使用する。光ディスク1521から光ディスクドライブ152によりプログラムまたはデータを読み取り、I/Oコントローラ160を介してメインメモリ170またはハードディスク153に提供することもできる。また、同様にテープドライブ151に対応したテープメディア1511を主としてバックアップのために使用することもできる。
評価付与装置10に提供されるプログラムは、ハードディスク153、光ディスク1521、またはメモリカードなどの記録媒体に格納されて提供される。このプログラムは、I/Oコントローラ160を介して、記録媒体から読み出され、または通信I/F120を介してダウンロードされることによって、評価付与装置10にインストールされ実行されてもよい。
上述のプログラムは、内部または外部の記憶媒体に格納されてもよい。ここで、記憶媒体としては、ハードディスク153、光ディスク1521、またはメモリカードの他に、MDなどの光磁気記録媒体、テープメディア1511を用いることができる。また、専用通信回線やインターネットなどの通信回線に接続されたサーバシステムに設けたハードディスク153または光ディスクライブラリなどの記憶装置を記録媒体として使用し、通信ネットワークを介してプログラムを評価付与装置10に提供してもよい。
ここで、表示装置140は、ユーザによるデータの入力を受け付ける画面を表示したり、評価付与装置10による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)などのディスプレイ装置を含む。
ここで、入力装置110は、操作員による入力の受け付けを行うものであり、キーボード及びマウスなどにより構成してよい。
また、通信I/F120は、評価付与装置10を専用ネットワークまたは公共ネットワークを介して端末と接続できるようにするためのネットワーク・アダプタである。通信I/F120は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
以上の例は、評価付与装置10のハードウェア構成について主に説明したが、一般的なコンピュータに、プログラムをインストールして、そのコンピュータを、評価付与装置10として動作させ、上記で説明した機能を実現することもできる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
評価付与装置10の機能ブロックの概略を示す図である。 コンテンツの有害評価付与の処理フローを示す図である。 コンテンツの有害評価付与のイメージを示す図である。 語彙の有害評価付与方式のイメージを示す図である。 実際のURLサンプルの評価付与計算例(その1)示す図である。 実際のURLサンプルの評価付与計算例(その2)を示す図である。 実際のURLサンプルの評価付与計算例(その3)を示す図である。 別のURLサンプルの評価付与計算例(その1)を示す図である。 別のURLサンプルの評価付与計算例(その2)を示す図である。 サンプル適用例1(「ランジェリー」でブログ検索した場合の検索結果を示す図である。 サンプル適用例2(「ランジェリー」でブログ検索した場合+有害フィルタ(閾値0.02)の検索結果を示す図である。 評価付与装置10のハードウェア構成を示す図である。
符号の説明
10 評価付与装置
11 入力部
12 クローラ部
13 コンテンツ・リポジトリ部
14 語彙有害評価付与部
15 コンテンツ有害評価付与部
16 出力部
20 有害URLリスト
30 有害URLコンテンツ
40 形態素解析済み語彙リスト
50 ブラック・ワードリスト
60 グレー・ワードリスト

Claims (10)

  1. インターネット上のサイトの有害語彙及び有害コンテンツの評価付与を行う評価付与装置であって、
    所定の有害URLリストを取得し、該有害URLリストに含まれるURLを随時アクセスして該URLサイトのコンテンツを収集するクローラ部と、
    前記コンテンツのデータを格納するコンテンツ・リポジトリ部と、
    前記コンテンツ・リポジトリ部から前記コンテンツの文字データに含まれる語彙を抽出し、該語彙の所定のブラック度数と所定のグレー度数を求めて、語彙の有害度数を計算する語彙有害評価付与部と、
    前記語彙有害評価付与部が計算した前記語彙の有害度数から前記コンテンツの有害度数を計算するコンテンツ有害評価付与部と、
    を備えたことを特徴とする、評価付与装置。
  2. 前記所定のブラック度数であるAVG_Black(t)は、所定の選別されたブラック・ワードを基に、下記数1式によって計算することを特徴とする、請求項1に記載の評価付与装置。
    Figure 2009037420
    t:単語またはフレーズ(形態素)
    Black: i番目のブラック・ワード
    R(X,Y):単語またはフレーズXと単語またはフレーズYのシンプソン係数
    m:ブラック・ワードの数
  3. 前記所定のグレー度数であるAVG_Gray(t)は、所定の選別されたグレー・ワードを基に、下記数2式によって計算することを特徴とする、請求項1または2に記載の評価付与装置。
    Figure 2009037420
    Gray: j番目のグレー・ワード
    n:グレー・ワードの数
  4. 前記語彙の有害度数であるSO(t)は、下記数3式によって計算することを特徴とする、請求項1乃至3に記載の評価付与装置。
    Figure 2009037420
    α、β:閾値
  5. 前記コンテンツの有害度数SO(c)は、下記数4式によって計算することを特徴とする、請求項1乃至4に記載の評価付与装置。
    Figure 2009037420
    c:コンテンツ
    γ:総単語またはフレーズに占めるSO(t)>0の単語またはフレーズの比率
    l:コンテンツ内のSO(t)>0の単語またはフレーズ数
  6. 前記ブラック・ワードは、複数のブラック・ワード候補の語彙に対して、操作員の目視判定結果と、該ブラック・ワード候補の語彙を含むサイトのURLをフィルタリングするツールの判定結果と、有害語辞書による判定結果を、それぞれ組み合わせることによって選別して、ブラック・ワードリストとして入力されることを特徴とする、請求項2に記載の評価付与装置。
  7. 前記グレー・ワードは、複数のグレー・ワード候補の語彙に対して、操作員のブラックでないという目視判定結果と、該グレー・ワード候補の語彙を含むサイトのURLをフィルタリングするツールのブラックでないという判定結果と、有害語辞書によるブラックでないという判定結果を、それぞれを組み合わせることによって選別して、グレー・ワードリストとして入力されることを特徴とする、請求項3に記載の評価付与装置。
  8. ウェブページにおける検索結果のリストから有害と判定されたウェブサイトを下位に表示するか、または削除して前記検索結果の画面に表示する、請求項1乃至7に記載の評価付与装置。
  9. インターネット上のサイトの有害語彙及び有害コンテンツの評価付与を行うためのコンピュータ・プログラムであって、
    コンピュータに、
    所定の有害URLリストを取得し、該有害URLリストに含まれるURLを随時アクセスして該URLサイトのコンテンツを収集するステップと、
    前記コンテンツのデータを格納するステップと、
    前記格納されたデータから前記コンテンツの文字データに含まれる語彙を抽出し、該語彙の所定のブラック度数と所定のグレー度数を求めて、語彙の有害度数を計算するステップと、
    前記計算した前記語彙の有害度数から前記コンテンツの有害度数を計算するステップと、
    を実行させることを特徴とする、コンピュータ・プログラム。
  10. インターネット上のサイトの有害語彙及び有害コンテンツの評価付与を行うための方法であって、
    所定の有害URLリストを取得し、該有害URLリストに含まれるURLを随時アクセスして該URLサイトのコンテンツを収集するステップと、
    前記コンテンツのデータを格納するステップと、
    前記格納されたデータから前記コンテンツの文字データに含まれる語彙を抽出し、該語彙の所定のブラック度数と所定のグレー度数を求めて、語彙の有害度数を計算するステップと、
    前記計算した前記語彙の有害度数から前記コンテンツの有害度数を計算するステップと、
    を含むことを特徴とする、方法。
JP2007201181A 2007-08-01 2007-08-01 有害コンテンツの評価付与装置、プログラム及び方法 Active JP4859779B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007201181A JP4859779B2 (ja) 2007-08-01 2007-08-01 有害コンテンツの評価付与装置、プログラム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007201181A JP4859779B2 (ja) 2007-08-01 2007-08-01 有害コンテンツの評価付与装置、プログラム及び方法

Publications (2)

Publication Number Publication Date
JP2009037420A true JP2009037420A (ja) 2009-02-19
JP4859779B2 JP4859779B2 (ja) 2012-01-25

Family

ID=40439264

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007201181A Active JP4859779B2 (ja) 2007-08-01 2007-08-01 有害コンテンツの評価付与装置、プログラム及び方法

Country Status (1)

Country Link
JP (1) JP4859779B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009122931A (ja) * 2007-11-14 2009-06-04 Ntt Resonant Inc Spam特徴情報生成装置、spam情報フィルタリング装置および情報検索装置およびその方法
JP2011134254A (ja) * 2009-12-25 2011-07-07 Yahoo Japan Corp クロールシステム、サーバ及び有害urlリスト更新方法
JP2011527062A (ja) * 2009-07-15 2011-10-20 ネオパッド インコーポレーション ホームページ統合サービス提供システム及び方法
WO2012023541A1 (ja) * 2010-08-20 2012-02-23 楽天株式会社 情報提供装置、情報提供方法、プログラム、ならびに、情報記録媒体
JP2014002447A (ja) * 2012-06-15 2014-01-09 Nippon Telegraph & Telephone West Corp 通信装置及びurl評価システム
WO2014050981A1 (ja) * 2012-09-27 2014-04-03 日本電気株式会社 テキスト情報監視用辞書作成装置、テキスト情報監視用辞書作成方法、及び、テキスト情報監視用辞書作成プログラム
US9749352B2 (en) 2012-12-20 2017-08-29 Foundation Of Soongsil University-Industry Cooperation Apparatus and method for collecting harmful website information
US9756064B2 (en) 2012-12-20 2017-09-05 Foundation Of Soongsil University-Industry Cooperation Apparatus and method for collecting harmful website information
JP2021033428A (ja) * 2019-08-19 2021-03-01 ヤフー株式会社 抽出装置、抽出方法及び抽出プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01188934A (ja) * 1988-01-22 1989-07-28 Nec Corp 文書自動分類装置
JPH1131150A (ja) * 1997-07-10 1999-02-02 Matsushita Electric Ind Co Ltd 登録済み通信アドレス更新装置
JP2001028006A (ja) * 1999-07-15 2001-01-30 Kdd Corp 情報自動フィルタリング方法および装置
JP2003521065A (ja) * 2000-01-28 2003-07-08 ウエブセンス インコーポレイテッド インターネットサイトへのアクセスを制御するシステムおよび方法
JP2004021605A (ja) * 2002-06-17 2004-01-22 Yamaha Corp 情報分類装置、方法及びプログラム
JP2004310494A (ja) * 2003-04-08 2004-11-04 Surfmonkey Asia Inc フィルタリング装置、システム、方法及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01188934A (ja) * 1988-01-22 1989-07-28 Nec Corp 文書自動分類装置
JPH1131150A (ja) * 1997-07-10 1999-02-02 Matsushita Electric Ind Co Ltd 登録済み通信アドレス更新装置
JP2001028006A (ja) * 1999-07-15 2001-01-30 Kdd Corp 情報自動フィルタリング方法および装置
JP2003521065A (ja) * 2000-01-28 2003-07-08 ウエブセンス インコーポレイテッド インターネットサイトへのアクセスを制御するシステムおよび方法
JP2004021605A (ja) * 2002-06-17 2004-01-22 Yamaha Corp 情報分類装置、方法及びプログラム
JP2004310494A (ja) * 2003-04-08 2004-11-04 Surfmonkey Asia Inc フィルタリング装置、システム、方法及びプログラム

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009122931A (ja) * 2007-11-14 2009-06-04 Ntt Resonant Inc Spam特徴情報生成装置、spam情報フィルタリング装置および情報検索装置およびその方法
JP2011527062A (ja) * 2009-07-15 2011-10-20 ネオパッド インコーポレーション ホームページ統合サービス提供システム及び方法
JP2011134254A (ja) * 2009-12-25 2011-07-07 Yahoo Japan Corp クロールシステム、サーバ及び有害urlリスト更新方法
US9064014B2 (en) 2010-08-20 2015-06-23 Rakuten, Inc. Information provisioning device, information provisioning method, program, and information recording medium
WO2012023541A1 (ja) * 2010-08-20 2012-02-23 楽天株式会社 情報提供装置、情報提供方法、プログラム、ならびに、情報記録媒体
KR101307105B1 (ko) * 2010-08-20 2013-09-11 라쿠텐 인코포레이티드 정보 제공 장치, 정보 제공 방법, 및 정보 기록 매체
JP2014002447A (ja) * 2012-06-15 2014-01-09 Nippon Telegraph & Telephone West Corp 通信装置及びurl評価システム
WO2014050981A1 (ja) * 2012-09-27 2014-04-03 日本電気株式会社 テキスト情報監視用辞書作成装置、テキスト情報監視用辞書作成方法、及び、テキスト情報監視用辞書作成プログラム
CN104685493A (zh) * 2012-09-27 2015-06-03 日本电气株式会社 用于监视文本信息的字典创建装置、用于监视文本信息的字典创建方法和用于监视文本信息的字典创建程序
JPWO2014050981A1 (ja) * 2012-09-27 2016-08-22 日本電気株式会社 テキスト情報監視用辞書作成装置、テキスト情報監視用辞書作成方法、及び、テキスト情報監視用辞書作成プログラム
US9749352B2 (en) 2012-12-20 2017-08-29 Foundation Of Soongsil University-Industry Cooperation Apparatus and method for collecting harmful website information
US9756064B2 (en) 2012-12-20 2017-09-05 Foundation Of Soongsil University-Industry Cooperation Apparatus and method for collecting harmful website information
JP2021033428A (ja) * 2019-08-19 2021-03-01 ヤフー株式会社 抽出装置、抽出方法及び抽出プログラム
JP7260439B2 (ja) 2019-08-19 2023-04-18 ヤフー株式会社 抽出装置、抽出方法及び抽出プログラム

Also Published As

Publication number Publication date
JP4859779B2 (ja) 2012-01-25

Similar Documents

Publication Publication Date Title
JP4859779B2 (ja) 有害コンテンツの評価付与装置、プログラム及び方法
US8458198B1 (en) Document analysis and multi-word term detector
US7805303B2 (en) Question answering system, data search method, and computer program
US7526474B2 (en) Question answering system, data search method, and computer program
US7519588B2 (en) Keyword characterization and application
US9720904B2 (en) Generating training data for disambiguation
US10552467B2 (en) System and method for language sensitive contextual searching
US20130218914A1 (en) System and method for providing recommendations based on information extracted from reviewers' comments
US9081765B2 (en) Displaying examples from texts in dictionaries
KR102324048B1 (ko) 커뮤니티 질의 응답 데이터의 검증 방법, 장치, 컴퓨터 기기 및 저장 매체
WO2009096523A1 (ja) 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
US20040098385A1 (en) Method for indentifying term importance to sample text using reference text
Kaisser et al. Improving search results quality by customizing summary lengths
US20070061322A1 (en) Apparatus, method, and program product for searching expressions
JP2002245061A (ja) キーワード抽出
JP5136910B2 (ja) 情報分析装置、情報分析方法、情報分析用プログラム、及び検索システム
Versley et al. Not just bigger: Towards better-quality Web corpora
JP5226241B2 (ja) タグを付与する方法
Dąbrowski et al. Mining and searching app reviews for requirements engineering: Evaluation and replication studies
JP5073349B2 (ja) 専門用語抽出装置、方法及びプログラム
JP2007164635A (ja) 同義語彙獲得方法及び装置及びプログラム
US8195458B2 (en) Open class noun classification
JP2008123062A (ja) コンテンツを分類する装置、方法、プログラム
Thelwall Text characteristics of English language university web sites
Taslimipoor et al. Using Noun Similarity to Adapt an Acceptability Measure for Persian Light Verb Constructions.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090626

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110815

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111004

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111101

R150 Certificate of patent or registration of utility model

Ref document number: 4859779

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141111

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350