JP5165720B2 - スパムブログ抽出装置及び方法 - Google Patents
スパムブログ抽出装置及び方法 Download PDFInfo
- Publication number
- JP5165720B2 JP5165720B2 JP2010083535A JP2010083535A JP5165720B2 JP 5165720 B2 JP5165720 B2 JP 5165720B2 JP 2010083535 A JP2010083535 A JP 2010083535A JP 2010083535 A JP2010083535 A JP 2010083535A JP 5165720 B2 JP5165720 B2 JP 5165720B2
- Authority
- JP
- Japan
- Prior art keywords
- blog
- spam
- determination
- list
- url
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 61
- 238000000034 method Methods 0.000 title description 45
- 238000012545 processing Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000010801 machine learning Methods 0.000 claims description 9
- 230000003252 repetitive effect Effects 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 7
- 101000911753 Homo sapiens Protein FAM107B Proteins 0.000 claims 6
- 102100026983 Protein FAM107B Human genes 0.000 claims 6
- 101150055528 SPAM1 gene Proteins 0.000 description 343
- 230000008569 process Effects 0.000 description 35
- 239000000284 extract Substances 0.000 description 9
- 238000012706 support-vector machine Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000009825 accumulation Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Description
[スパムブログ抽出システム100の全体構成及びスパムブログ抽出装置1の機能構成]
図1は、第1実施形態に係るスパムブログ抽出システム100の全体構成及びスパムブログ抽出装置1の機能構成を示す図である。図2は、第1実施形態に係るスパムブログ抽出装置1の機械学習による判定結果を説明するための図である。
次に、スパムブログ抽出装置1での処理の概要について説明する。図3は、第1実施形態に係るスパムブログ抽出装置1での処理の概要を示す図である。
次に、スパムブログ抽出装置1での処理について説明する。図4は、第1実施形態に係るスパムブログ抽出装置1の判定用リスト更新処理のフローチャートである。図5は、第1実施形態に係るスパムブログ抽出装置1のスパムブログ判定処理のフローチャートである。図6は、第1実施形態に係るスパムブログ抽出装置1の候補リスト抽出処理のフローチャートである。図7は、第1実施形態に係るスパムブログ抽出装置1の判定用リスト登録処理のフローチャートである。まず、スパムブログ抽出装置1の判定用リスト更新処理について説明する。
第1実施形態では、スパムブログ抽出装置は、判定対象ブログが引用する他のWebサイトのURLを、スパムブログ判定用URLリストの候補として抽出して、管理端末に対して出力するものであった。第2実施形態では、抽出したスパムブログ判定用URLリストの候補を、自動的にスパムブログ判定用URLリストに登録するものを説明する。より具体的には、第2実施形態では、スパムブログの判定を、新たな候補リストが抽出されなくなるまで繰返し、HITS(Hyperlink−Induced Topic Search)理論を応用してスコアを算出し、抽出したスパムブログ判定用URLリストの候補を、スコアに基づいて自動的にスパムブログ判定用URLリストに登録するものを説明する。なお、以降の説明において、上述した第1実施形態と同様の機能を果たす部分には、同一の符号又は末尾に同一の符号を付して、重複する説明を適宜省略する。
図8は、第2実施形態に係るスパムブログ抽出システム300の全体構成及びスパムブログ抽出装置301の機能構成を示す図である。図9は、第2実施形態に係るHITS理論を説明するための図である。
次に、スパムブログ抽出装置301での処理について説明する。図10及び図11は、第2実施形態に係るスパムブログ抽出装置301の判定用リスト登録処理のフローチャートである。なお、第2実施形態において、判定用リスト更新処理、スパムブログ判定処理及び候補リスト抽出処理は、第1実施形態とほぼ同様であるため、その説明を省略する。なお、スパムブログ判定処理において、制御部310は、判定対象ブログを受け付けた後に、ブログ蓄積DB325に受け付けた判定対象ブログを蓄積する処理を行う。また、候補リスト抽出処理において、制御部310は、抽出した他のWebサイトのURLを、スパムブログ判定用URL候補リスト324に登録するまでの処理にとどめ、抽出した他のWebサイトのURLを管理端末5に対して出力する処理は、任意である。
3 ブログサーバ
5 管理端末
10,310 制御部
11 スパムブログ受付部
12 判定用リスト更新部
13 判定対象ブログ受付部
14 スパムブログ判定部
15 スパムブログ記憶制御部
16 候補リスト抽出部
17 候補リスト出力部
19,319 判定用リスト登録部
20,320 記憶部
21 スパムブログDB
22 SVMエンジン
23 スパムブログ判定用URLリスト
24,324 スパムブログ判定用URL候補リスト
41,41A,41B,41C,41D スパムブログ
42,42A,42B,42C,42D 未知ブログ
50 商用サイト
51 未知サイト
100,300 スパムブログ抽出システム
31A HITS理論応用計算部
31B 反復実行部
325 ブログ蓄積DB
Claims (4)
- 判定対象ブログを受け付けたことに応じて、受け付けた前記判定対象ブログがスパムであるか否かを、スパムブログ判定用URLリストを素性として使用して機械学習により判定するスパムブログ判定手段と、
前記スパムブログ判定手段によりスパムであると判定された場合に、スパムであると判定された前記判定対象ブログが引用するWebサイトであって前記Webサイト以外のWebサイトのURLを、スパムブログ判定用URLリストの候補として抽出する候補リスト抽出手段と、
受け付けた前記判定対象ブログを蓄積するブログ蓄積手段と、
前記候補リスト抽出手段により抽出された前記スパムブログ判定用URLリストの候補に基づいて、前記ブログ蓄積手段に蓄積された前記判定対象ブログを用いた前記スパムブログ判定手段を、前記候補リスト抽出手段により前記スパムブログ判定用URLリストの候補が新たに抽出されなくなるまで繰返す反復実行手段と、
前記反復実行手段による繰返し処理の間、前記候補リスト抽出手段により抽出された前記スパムブログ判定用URLリストの候補が示すWebサイトをオーソリティに対応付け、前記ブログ蓄積手段に蓄積された前記判定対象ブログをハブに対応付けて、HITS理論を応用して当該Webサイトのオーソリティスコアを計算するHITS理論応用計算手段と、
前記HITS理論応用計算手段により計算された前記オーソリティスコアが所定の閾値以上である場合に、前記スパムブログ判定用URLリストの候補を前記スパムブログ判定用URLリストに登録する判定用リスト登録手段と、
を備えるスパムブログ抽出装置。 - スパムブログ記憶手段に記憶されたスパムブログが引用するWebサイトのURLを記憶して、所定の基準を満たした前記WebサイトのURLをスパムブログ判定用URLとして加えて前記スパムブログ判定用URLリストを更新する判定用リスト更新手段を備える、
請求項1に記載のスパムブログ抽出装置。 - 前記スパムブログ判定手段によりスパムであると判定された前記判定対象ブログを前記スパムブログ記憶手段に記憶するスパムブログ記憶制御手段を備える、
請求項2に記載のスパムブログ抽出装置。 - コンピュータによって実行されるスパムブログ抽出方法であって、
前記コンピュータが、判定対象ブログを受け付けたことに応じて、受け付けた前記判定対象ブログがスパムであるか否かを、スパムブログ判定用URLリストを素性として使用して機械学習により判定するスパムブログ判定ステップと、
前記コンピュータが、前記スパムブログ判定ステップによりスパムであると判定された場合に、スパムであると判定された前記判定対象ブログが引用するWebサイトであって前記Webサイト以外のWebサイトのURLを、スパムブログ判定用URLリストの候補として抽出する候補リスト抽出ステップと、
前記コンピュータが、受け付けた前記判定対象ブログをブログ蓄積手段に蓄積するブログ蓄積ステップと、
前記コンピュータが、前記候補リスト抽出ステップにより抽出された前記スパムブログ判定用URLリストの候補に基づいて、前記ブログ蓄積手段に蓄積された前記判定対象ブログを用いた前記スパムブログ判定ステップを、前記候補リスト抽出ステップにより前記スパムブログ判定用URLリストの候補が新たに抽出されなくなるまで繰返す反復実行ステップと、
前記コンピュータが、前記反復実行ステップによる繰返し処理の間、前記候補リスト抽出ステップにより抽出された前記スパムブログ判定用URLリストの候補が示すWebサイトをオーソリティに対応付け、前記ブログ蓄積手段に蓄積された前記判定対象ブログをハブに対応付けて、HITS理論を応用して当該Webサイトのオーソリティスコアを計算するHITS理論応用計算ステップと、
前記コンピュータが、前記HITS理論応用計算ステップにより計算された前記オーソリティスコアが所定の閾値以上である場合に、前記スパムブログ判定用URLリストの候補を前記スパムブログ判定用URLリストに登録する判定用リスト登録ステップと、
を含むスパムブログ抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010083535A JP5165720B2 (ja) | 2010-03-31 | 2010-03-31 | スパムブログ抽出装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010083535A JP5165720B2 (ja) | 2010-03-31 | 2010-03-31 | スパムブログ抽出装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011215891A JP2011215891A (ja) | 2011-10-27 |
JP5165720B2 true JP5165720B2 (ja) | 2013-03-21 |
Family
ID=44945554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010083535A Active JP5165720B2 (ja) | 2010-03-31 | 2010-03-31 | スパムブログ抽出装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5165720B2 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4874828B2 (ja) * | 2007-02-02 | 2012-02-15 | ヤフー株式会社 | コミュニティ抽出による検索用インデックス作成方法およびその装置 |
JP4429356B2 (ja) * | 2007-12-26 | 2010-03-10 | 富士通株式会社 | 属性抽出処理方法及び装置 |
JP4636473B2 (ja) * | 2008-08-21 | 2011-02-23 | Necビッグローブ株式会社 | リンク情報抽出装置、リンク情報抽出方法およびプログラム |
JP2010066980A (ja) * | 2008-09-10 | 2010-03-25 | Kddi Corp | スパムブログ検知装置、スパムブログ検知方法及びプログラム |
-
2010
- 2010-03-31 JP JP2010083535A patent/JP5165720B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011215891A (ja) | 2011-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210392152A1 (en) | Intrusion detection using robust singular value decomposition | |
US20150206069A1 (en) | Machine learning-based patent quality metric | |
CN105247507A (zh) | 品牌的影响力得分 | |
US20130268457A1 (en) | System and Method for Extracting Aspect-Based Ratings from Product and Service Reviews | |
US11645122B2 (en) | Method, device, and computer program product for managing jobs in processing system | |
US7979386B1 (en) | Method and system for performing search engine optimizations | |
JP2020503626A (ja) | 要求リンクをリダイレクトする動的レビュー生成の最適化 | |
US11924064B2 (en) | Apparatuses, methods, and computer program products for predictive determinations of causal change identification for service incidents | |
CN104025089B (zh) | 基于情形的爬行的方法和系统 | |
US20180253695A1 (en) | Generating job recommendations using job posting similarity | |
US20230224325A1 (en) | Distributed endpoint security architecture enabled by artificial intelligence | |
JP6680663B2 (ja) | 情報処理装置、情報処理方法、予測モデルの生成装置、予測モデルの生成方法、およびプログラム | |
US20160241671A1 (en) | Profile update evaluator | |
US8886653B2 (en) | Information processing device, computer readable recording medium, and information processing method | |
JP5165720B2 (ja) | スパムブログ抽出装置及び方法 | |
JP6883561B2 (ja) | 脆弱性推定装置及び脆弱性推定方法 | |
US20190332682A1 (en) | Automated selection of search ranker | |
US11314839B2 (en) | Apparatus for webpage scoring | |
CN110392064B (zh) | 风险识别方法、装置、计算设备以及计算机可读存储介质 | |
JP6935849B2 (ja) | 学習方法、学習装置及び学習プログラム | |
JP2014044552A (ja) | 評価方法、情報処理装置およびプログラム | |
CN109325198B (zh) | 一种资源展示方法、装置和存储介质 | |
JP5113206B2 (ja) | スパムブログ判定装置及び方法 | |
JP2011232954A (ja) | 情報提供システム、情報提供方法及び情報提供プログラム | |
WO2016072474A1 (ja) | 情報処理装置及び方法、並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120829 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120918 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20121005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121219 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151228 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5165720 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |