JP5970390B2 - bot判定装置及び方法及びプログラム及び数値集合分布判定装置 - Google Patents
bot判定装置及び方法及びプログラム及び数値集合分布判定装置 Download PDFInfo
- Publication number
- JP5970390B2 JP5970390B2 JP2013030263A JP2013030263A JP5970390B2 JP 5970390 B2 JP5970390 B2 JP 5970390B2 JP 2013030263 A JP2013030263 A JP 2013030263A JP 2013030263 A JP2013030263 A JP 2013030263A JP 5970390 B2 JP5970390 B2 JP 5970390B2
- Authority
- JP
- Japan
- Prior art keywords
- distribution
- numerical
- numerical set
- determination
- bot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
投稿から抽出した、投稿間隔の数値集合、単語の使用頻度の数値集合を格納した数値集合記憶手段と、
前記数値集合記憶手段から前記数値集合を取得し、該数値集合の最上位桁の分布を求める特徴量算出手段と、
予め分布がどの様な特徴量を有するかの正解学習によって得られた判定器を用いて、前記数値集合の最上位桁の分布が、bot判定のための所定の条件に従うか否かを判定する判定手段と、を有する。
投稿から抽出した、投稿間隔の数値集合、単語の使用頻度の数値集合を格納した数値集合記憶手段と、
特徴量算出手段と、判定手段とを有する装置において、
前記特徴量算出手段が、前記数値集合記憶手段から前記数値集合を取得し、該数値集合の最上位桁の分布を求める特徴量算出ステップと、
前記判定手段が、予め分布がどの様な特徴量を有するかの正解学習によって得られた判定器を用いて、前記数値集合の最上位桁の分布が、bot判定のための所定の条件に従うか否かを判定する判定ステップと、を行う。
投稿から抽出した、投稿間隔の数値集合、単語の使用頻度の数値集合を格納した数値集合記憶手段と、
前記数値集合記憶手段から前記数値集合を取得して、最上位桁の分布Aを求める分布算出手段と、
予め複数の数値集合の最上位桁の分布に該当するかどうかの判定結果を与えて正解学習した判定器を用いて、前記最上位桁の分布Aが予め定めた分布に該当するか否かを判定する判定手段と、を有する。
本発明における第1の実施の形態の概要について説明する。本実施の形態では、ベンフォードの法則を応用した特徴量を用いることで、ある数値集合が与えられた際に、その数値集合が生成された分布の推定を行う。
本発明における第2の実施の形態の概要について説明する。本発明では、ベンフォードの法則を応用した特徴量を用いることで、あるログデータが与えられた際に、そのログデータに含まれる数値集合に異常があるかの検知を行う。
ステップ202)特徴量算出部300は、第1の実施の形態と同様に、ベンフォードの法則を応用した特徴量Fを算出する。特徴量Fには、ベンフォードの法則を応用した特徴量に加え、既存の異常値検出手法で用いられる特徴量を含めても良い。その場合、ベンフォードの法則を応用した特徴量と組み合わせることによる精度向上が期待できる。
・装置は異常検出装置とする
・ログデータ記憶部100には、あるSNSにおけるあるユーザiの投稿文書集合がログの内容cとして格納されている
・ログの内容cには、文書に含まれる単語w、投稿時間tが含まれる
・判定部300では機械学習を用いる
・botアカウントの検出を目的とする
利用単語と投稿時間の2つに着目すると、botアカウントと人間アカウントには、下記のような違いがある。まず、利用単語については、botアカウントの場合、投稿内容が特定のトピックに偏ったり、テンプレート文書を含むなどのため、一部の単語を集中的に利用する傾向がある。一方で人間アカウントの場合、様々なトピックについて、テンプレートを持たずに投稿するなどのため、多様な単語を用いる傾向がある。次に、投稿時間については、botアカウントの場合、投稿がプログラムによって制御され、投稿時間のルールや周期性を持つなどのため、投稿間隔がばらつかず固定される傾向がある。一方で人間アカウントの場合、睡眠を含む様々な行動の合間に投稿を行うため、投稿間隔にばらつきが生じる傾向がある。以上から、単語分布と投稿間隔の両方において、人間アカウントがzipfの法則に従うのに対し、botアカウントはzipの法則に従わないという特徴を持つ。
{1032, 458, 187, 123, 71, 53, 33, 29, 27, 18, 12, 3, 2, 2, 2, 1, 1, 1, 1, 1}
であったとすれば、最上位が1なのは20個中10個なので、50%である。同様に、各桁の出現確率は、
{50%, 25%, 10%, 5%, 5%, 0%, 5%, 0%, 0%}
である。同様に、数値集合Nbについても確率分布が求められる。そして、この二つを統合した18次元の特徴量Fを判定部400へと出力する。
20 特徴量算出部
30 判定部
40 出力部
100 ログデータ記憶部
200 数値集合抽出部
300 特徴量算出部
400 判定部
500 出力部
Claims (6)
- 与えられた数値集合の分布からbotアカウントを判定するためのbot判定装置であって、
投稿から抽出した、投稿間隔の数値集合、単語の使用頻度の数値集合を格納した数値集合記憶手段と、
前記数値集合記憶手段から前記数値集合を取得し、該数値集合の最上位桁の分布を求める特徴量算出手段と、
予め分布がどの様な特徴量を有するかの正解学習によって得られた判定器を用いて、前記数値集合の最上位桁の分布が、bot判定のための所定の条件に従うか否かを判定する判定手段と、
を有することを特徴とするbot判定装置。 - 前記判定手段は、
べき乗則であるか否かを前記所定の条件として判定する手段を含む
請求項1記載のbot判定装置。 - 与えられた数値集合の分布からbotアカウントを判定するためのbot判定方法であって、
投稿から抽出した、投稿間隔の数値集合、単語の使用頻度の数値集合を格納した数値集合記憶手段と、
特徴量算出手段と、判定手段とを有する装置において、
前記特徴量算出手段が、前記数値集合記憶手段から前記数値集合を取得し、該数値集合の最上位桁の分布を求める特徴量算出ステップと、
前記判定手段が、予め分布がどの様な特徴量を有するかの正解学習によって得られた判定器を用いて、前記数値集合の最上位桁の分布が、bot判定のための所定の条件に従うか否かを判定する判定ステップと、
を行うことを特徴とするbot判定方法。 - 与えられた数値集合の分布を判定する数値集合分布判定装置であって、
投稿から抽出した、投稿間隔の数値集合、単語の使用頻度の数値集合を格納した数値集合記憶手段と、
前記数値集合記憶手段から前記数値集合を取得して、最上位桁の分布Aを求める分布算出手段と、
予め複数の数値集合の最上位桁の分布に該当するかどうかの判定結果を与えて正解学習した判定器を用いて、前記最上位桁の分布Aが予め定めた分布に該当するか否かを判定する判定手段と、
を有することを特徴とする数値集合分布判定装置。 - コンピュータを、
請求項1又は2に記載のbot判定装置の各手段として機能させるためのbot判定プログラム。 - コンピュータを、
請求項4に記載の数値集合分布判定装置の各手段として機能させるための数値集合分布判定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013030263A JP5970390B2 (ja) | 2013-02-19 | 2013-02-19 | bot判定装置及び方法及びプログラム及び数値集合分布判定装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013030263A JP5970390B2 (ja) | 2013-02-19 | 2013-02-19 | bot判定装置及び方法及びプログラム及び数値集合分布判定装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014160344A JP2014160344A (ja) | 2014-09-04 |
JP5970390B2 true JP5970390B2 (ja) | 2016-08-17 |
Family
ID=51611997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013030263A Active JP5970390B2 (ja) | 2013-02-19 | 2013-02-19 | bot判定装置及び方法及びプログラム及び数値集合分布判定装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5970390B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020250930A1 (ja) * | 2019-06-13 | 2020-12-17 | 国立大学法人九州大学 | 数値集合の修正箇所検出方法及びそのシステム |
CN112861128A (zh) * | 2021-01-21 | 2021-05-28 | 微梦创科网络科技(中国)有限公司 | 一种批量识别机器账号的方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008050323A2 (en) * | 2006-10-23 | 2008-05-02 | Dorron Levy | Method for measuring health status of complex systems |
-
2013
- 2013-02-19 JP JP2013030263A patent/JP5970390B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014160344A (ja) | 2014-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109558951B (zh) | 一种欺诈账号检测方法、装置及其存储介质 | |
CN107341716B (zh) | 一种恶意订单识别的方法、装置及电子设备 | |
CN106951925B (zh) | 数据处理方法、装置、服务器及系统 | |
CN107016107B (zh) | 舆情分析方法及系统 | |
KR101879416B1 (ko) | 이상 금융거래 탐지 방법 및 그 전자 장치 | |
CN105590055B (zh) | 用于在网络交互系统中识别用户可信行为的方法及装置 | |
CN107122669B (zh) | 一种评估数据泄露风险的方法和装置 | |
Bifet et al. | Improving adaptive bagging methods for evolving data streams | |
US20180329977A1 (en) | Cluster evaluation in unsupervised learning of continuous data | |
US20150067835A1 (en) | Detecting Anomalous User Behavior Using Generative Models of User Actions | |
WO2017013529A1 (en) | System and method for determining credit worthiness of a user | |
EP3648433B1 (en) | System and method of training behavior labeling model | |
TW202042132A (zh) | 一種異常交易節點的檢測方法及裝置 | |
WO2016093837A1 (en) | Determining term scores based on a modified inverse domain frequency | |
CN112131249A (zh) | 一种攻击意图识别方法及装置 | |
CN114399321A (zh) | 一种业务系统稳定性分析方法、装置和设备 | |
CN110457595A (zh) | 突发事件报警方法、装置、系统、电子设备及存储介质 | |
JP5970390B2 (ja) | bot判定装置及び方法及びプログラム及び数値集合分布判定装置 | |
Shukla et al. | A unique approach for detection of fake news using machine learning | |
US10726055B2 (en) | Multi-term query subsumption for document classification | |
CN111046082B (zh) | 一种基于语义分析的报表数据源推荐方法与装置 | |
CN113807073A (zh) | 文本内容异常检测方法、装置以及存储介质 | |
TWM633533U (zh) | 防止理財專員舞弊的警示系統 | |
Sohail et al. | Text classification in an under-resourced language via lexical normalization and feature pooling | |
Tounkara et al. | Mixture regression models for closed population capture–recapture data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150204 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160315 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160516 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160705 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160711 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5970390 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |