JP5824429B2 - スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム - Google Patents
スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム Download PDFInfo
- Publication number
- JP5824429B2 JP5824429B2 JP2012178990A JP2012178990A JP5824429B2 JP 5824429 B2 JP5824429 B2 JP 5824429B2 JP 2012178990 A JP2012178990 A JP 2012178990A JP 2012178990 A JP2012178990 A JP 2012178990A JP 5824429 B2 JP5824429 B2 JP 5824429B2
- Authority
- JP
- Japan
- Prior art keywords
- spam
- account
- language model
- score
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
スパムアカウント名と非スパムアカウント名の集合から、アカウント名を分解して得られるトークン毎のスパム内頻度と非スパム内頻度を算出し、アカウント言語モデルとしてアカウント言語モデルDBに格納するアカウント言語モデル生成手段と、
前記アカウント言語モデルDBに格納されたアカウント言語モデルに基づいて、予測対象アカウント名におけるトークン毎のスパムと非スパムの確率を算出し、当該確率に基づいて、前記予測対象アカウント名のスパムらしさを示すスコアを算出するアカウント評価手段とを備え、
前記アカウント評価手段は、スパムと非スパムのそれぞれについて、前記確率の対数値をトークン毎に加算したスコアを算出し、スパムのスコアから非スパムのスコアを引いた値を前記予測対象アカウント名のスパムらしさを示すスコアとすることを特徴とするスパムアカウントスコア算出装置として構成される。また、前記アカウント言語モデルは、例えばn-gram言語モデルである。
また、本発明は、アカウント名のスパムらしさを示すスコアを算出するスパムアカウントスコア算出装置であって、
スパムアカウント名と非スパムアカウント名の集合から、アカウント名を分解して得られるトークン毎のスパム内頻度と非スパム内頻度を算出し、アカウント言語モデルとしてアカウント言語モデルDBに格納するアカウント言語モデル生成手段と、
前記アカウント言語モデルDBに格納されたアカウント言語モデルに基づいて、予測対象アカウント名におけるトークン毎のスパムと非スパムの確率を算出し、当該確率に基づいて、前記予測対象アカウント名のスパムらしさを示すスコアを算出するアカウント評価手段とを備え、
前記アカウント言語モデルは、n-gram言語モデルであり、当該n-gram言語モデルの単位として文字種を用いることを特徴とするスパムアカウントスコア算出装置として構成してもよい。
図1に、本発明の実施の形態に係るスパムアカウントスコア算出装置100の機能構成図を示す。図1に示すように、本実施の形態に係るスパムアカウントスコア算出装置100は、アカウント評価部1、予測対象アカウント名DB(データベース)40、予測結果DB60、スパム訓練データDB70、特徴付与機能部80、特徴追加データDB90を有する。アカウント評価部1は、ラベル付きアカウント名DB10、アカウント言語モデル生成機能部20、アカウント名言語モデルDB30、アカウント評価機能部50を有する。ここでの各DBは、複数のテーブルからなるデータを格納する記憶手段である。
アカウント言語モデル生成機能部20は、ラベル付きアカウント名DB10からデータを読み出し、当該データを用いてアカウント言語モデル生成処理を行い、生成された言語モデルをアカウント名言語モデルDB30に格納する。
<アカウント評価機能部50>
アカウント評価機能部50は、アカウント名言語モデルDB30から読み出したデータと予測対象アカウント名DB40から読み出したデータとを入力とし、アカウントスコアを計算し、計算結果を予測結果DB60に格納する。
scorespam <-- scorespam + log Pspam(ttest|ttest,−1) (2)
scoreham <-- scoreham + log Pham(ttest|ttest,−1) (3)
という操作を行う。
score = scorespam −scoreham (4)
更に別のアカウント名についてのスコアscore を算出するには、ステップ2−1〜ステップ2−6の処理を当該アカウント名について行えばよい。
<特徴付与機能部80>
特徴付与機能部80は、予測結果DB60のデータとスパム訓練データDB70のデータを入力とし、特徴追加スパム訓練データを特徴追加スパム訓練データDB90に格納する。この機能としては例えば非特許文献1に記載された技術を用いることができる。
上述したように、本実施の形態では、アカウント言語モデル生成機能部20がham アカウント名とspam アカウント名に基づいた言語モデルを生成し、当該言語モデルを利用して、アカウント評価機能部50が予測対象アカウント名に対してスパムらしさを示すスコアを算出する。このスコアの情報を新たな特徴として用いることで、spam 業者によって自動生成されたアカウント名に紐づくウェブページ(例えばブログ記事) の高精度な判別が可能なスパム判別器の生成が可能となる。
10 ラベル付きアカウント名DB
20 アカウント言語モデル生成機能部
30 アカウント名言語モデルDB
40 予測対象アカウント名DB
50 アカウント評価機能部
60 予測結果DB
70 スパム訓練データDB
80 特徴付与機能部
90 特徴追加データDB
100 スパムアカウントスコア算出装置
Claims (7)
- アカウント名のスパムらしさを示すスコアを算出するスパムアカウントスコア算出装置であって、
スパムアカウント名と非スパムアカウント名の集合から、アカウント名を分解して得られるトークン毎のスパム内頻度と非スパム内頻度を算出し、アカウント言語モデルとしてアカウント言語モデルDBに格納するアカウント言語モデル生成手段と、
前記アカウント言語モデルDBに格納されたアカウント言語モデルに基づいて、予測対象アカウント名におけるトークン毎のスパムと非スパムの確率を算出し、当該確率に基づいて、前記予測対象アカウント名のスパムらしさを示すスコアを算出するアカウント評価手段とを備え、
前記アカウント評価手段は、スパムと非スパムのそれぞれについて、前記確率の対数値をトークン毎に加算したスコアを算出し、スパムのスコアから非スパムのスコアを引いた値を前記予測対象アカウント名のスパムらしさを示すスコアとする
ことを特徴とするスパムアカウントスコア算出装置。 - 前記アカウント言語モデルは、n-gram言語モデルであることを特徴とする請求項1に記載のスパムアカウントスコア算出装置。
- アカウント名のスパムらしさを示すスコアを算出するスパムアカウントスコア算出装置であって、
スパムアカウント名と非スパムアカウント名の集合から、アカウント名を分解して得られるトークン毎のスパム内頻度と非スパム内頻度を算出し、アカウント言語モデルとしてアカウント言語モデルDBに格納するアカウント言語モデル生成手段と、
前記アカウント言語モデルDBに格納されたアカウント言語モデルに基づいて、予測対象アカウント名におけるトークン毎のスパムと非スパムの確率を算出し、当該確率に基づいて、前記予測対象アカウント名のスパムらしさを示すスコアを算出するアカウント評価手段とを備え、
前記アカウント言語モデルは、n-gram言語モデルであり、当該n-gram言語モデルの単位として文字種を用いる
ことを特徴とするスパムアカウントスコア算出装置。 - アカウント名のスパムらしさを示すスコアを算出するスパムアカウントスコア算出装置が実行するスパムアカウントスコア算出方法であって、
スパムアカウント名と非スパムアカウント名の集合から、アカウント名を分解して得られるトークン毎のスパム内頻度と非スパム内頻度を算出し、アカウント言語モデルとしてアカウント言語モデルDBに格納するアカウント言語モデル生成ステップと、
前記アカウント言語モデルDBに格納されたアカウント言語モデルに基づいて、予測対象アカウント名におけるトークン毎のスパムと非スパムの確率を算出し、当該確率に基づいて、前記予測対象アカウント名のスパムらしさを示すスコアを算出するアカウント評価ステップとを備え、
前記アカウント評価ステップにおいて、スパムと非スパムのそれぞれについて、前記確率の対数値をトークン毎に加算したスコアを算出し、スパムのスコアから非スパムのスコアを引いた値を前記予測対象アカウント名のスパムらしさを示すスコアとする
ことを特徴とするスパムアカウントスコア算出方法。 - 前記アカウント言語モデルは、n-gram言語モデルであることを特徴とする請求項4に記載のスパムアカウントスコア算出方法。
- アカウント名のスパムらしさを示すスコアを算出するスパムアカウントスコア算出装置が実行するスパムアカウントスコア算出方法であって、
スパムアカウント名と非スパムアカウント名の集合から、アカウント名を分解して得られるトークン毎のスパム内頻度と非スパム内頻度を算出し、アカウント言語モデルとしてアカウント言語モデルDBに格納するアカウント言語モデル生成ステップと、
前記アカウント言語モデルDBに格納されたアカウント言語モデルに基づいて、予測対象アカウント名におけるトークン毎のスパムと非スパムの確率を算出し、当該確率に基づいて、前記予測対象アカウント名のスパムらしさを示すスコアを算出するアカウント評価ステップとを備え、
前記アカウント言語モデルは、n-gram言語モデルであり、当該n-gram言語モデルの単位として文字種を用いる
ことを特徴とするスパムアカウントスコア算出方法。 - コンピュータを、請求項1ないし3のうちいずれか1項に記載のスパムアカウントスコア算出装置における各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012178990A JP5824429B2 (ja) | 2012-08-10 | 2012-08-10 | スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012178990A JP5824429B2 (ja) | 2012-08-10 | 2012-08-10 | スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014038392A JP2014038392A (ja) | 2014-02-27 |
JP5824429B2 true JP5824429B2 (ja) | 2015-11-25 |
Family
ID=50286505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012178990A Expired - Fee Related JP5824429B2 (ja) | 2012-08-10 | 2012-08-10 | スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5824429B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447204B (zh) * | 2016-01-04 | 2017-12-12 | 北京百度网讯科技有限公司 | 网址识别方法和装置 |
CN108874940B (zh) * | 2018-06-01 | 2022-05-10 | 杭州电子科技大学 | 一种基于Twitter数据的社交网络组织成员识别方法 |
-
2012
- 2012-08-10 JP JP2012178990A patent/JP5824429B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014038392A (ja) | 2014-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
JP2012118977A (ja) | 文書類似性計算の機械学習に基づく最適化およびカスタマイズのための方法およびシステム | |
CN108319627A (zh) | 关键词提取方法以及关键词提取装置 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN108959474B (zh) | 实体关系提取方法 | |
JP6070501B2 (ja) | 情報処理装置及び情報処理プログラム | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN112784009B (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
CN111488732B (zh) | 一种变形关键词检测方法、系统及相关设备 | |
CN110858217A (zh) | 微博敏感话题的检测方法、装置及可读存储介质 | |
CN109783805B (zh) | 一种网络社区用户识别方法、装置和可读存储介质 | |
CN110287311A (zh) | 文本分类方法及装置、存储介质、计算机设备 | |
JP6770709B2 (ja) | 機械学習用モデル生成装置及びプログラム。 | |
JP6563350B2 (ja) | データ分類装置、データ分類方法、及びプログラム | |
CN110209780B (zh) | 一种问题模板生成方法、装置、服务器及存储介质 | |
JP5824429B2 (ja) | スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
CN109902162B (zh) | 基于数字指纹的文本相似性的识别方法、存储介质及装置 | |
JP2016110256A (ja) | 情報処理装置及び情報処理プログラム | |
CN115035890B (zh) | 语音识别模型的训练方法、装置、电子设备及存储介质 | |
CN116644148A (zh) | 关键词识别方法、装置、电子设备及存储介质 | |
CN114969253A (zh) | 市场主体与政策的匹配方法、装置、计算设备及介质 | |
CN115017906A (zh) | 一种针对文本中实体的识别方法、装置及存储介质 | |
CN113420127A (zh) | 威胁情报处理方法、装置、计算设备及存储介质 | |
CN111159397B (zh) | 文本分类方法和装置、服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141020 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150630 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150707 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150907 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151009 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5824429 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |