CN106156341A - 互联网标注数据的身份判别方法 - Google Patents

互联网标注数据的身份判别方法 Download PDF

Info

Publication number
CN106156341A
CN106156341A CN201610551626.0A CN201610551626A CN106156341A CN 106156341 A CN106156341 A CN 106156341A CN 201610551626 A CN201610551626 A CN 201610551626A CN 106156341 A CN106156341 A CN 106156341A
Authority
CN
China
Prior art keywords
data
internet
identification method
account
malicious
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610551626.0A
Other languages
English (en)
Inventor
裴飞
李琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Amount Of Micro Shortdial (shanghai) Financial Information Services Ltd
Original Assignee
Amount Of Micro Shortdial (shanghai) Financial Information Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Amount Of Micro Shortdial (shanghai) Financial Information Services Ltd filed Critical Amount Of Micro Shortdial (shanghai) Financial Information Services Ltd
Priority to CN201610551626.0A priority Critical patent/CN106156341A/zh
Publication of CN106156341A publication Critical patent/CN106156341A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种互联网标注数据的身份判别方法,互联网标注数据的身份判别方法其包括以下步骤:步骤一,找出非本人注册账号;步骤二,对非本人注册账号进行分类,分为恶意注册账号和非恶意注册账号。其中步骤二主要通过对四大类数据进行挖掘分析分类:一,搜索引擎爬虫抓取通用互联网数据;二,PC设备和移动设备ID信息;三,获取第三方运营商数据;四,获取第三方的LBS数据。本发明使用了大量的互联网信息,特别是社交信息和媒介信息,并利用上述数据较好地解决了恶意账号和非恶意账号的区分。

Description

互联网标注数据的身份判别方法
技术领域
本发明涉及到一种身份判别方法,具体涉及一种互联网标注数据的身份判别方法。
背景技术
互联网公司的账号经常会遇到批量注册、小号注册以及其它恶意注册和非本人注册等。如何快速有效的发现这些欺诈账号,目前业界还没有很好的方法。本发明需要借助互联网社交关系用户大量文本标注信息来分析确认账号的可信度,例如手机通讯录、社交网络、搜索引擎、LBS信息、设备信息等。
目前的身份判别以人本身的生物特征,或者以人自己敲击键盘或者鼠标的行为习惯等等,很少用到互联网第三方的社交信息来判断。
非本人注册账号是一种实际使用人和注册人信息不符合的账号,目前的非本人注册账号一般有两种:恶意注册和非恶意注册。恶意注册一般通过机器批量注册小号,再就是冒用陌生人身份(如黑市上的身份信息)注册账号做坏事。非恶意注册一般是用亲朋好友的个人信息注册,然后实际使用人是与注册人不符合。现有的技术只利用了使用人本身信息,缺乏大量互联网的其它社交和媒介信息,这样很难分析出恶意注册与非恶意注册。
发明内容
本发明所要解决的技术问题是提供一种互联网标注数据的身份判别方法,其使用了大量的互联网信息,特别是社交信息和媒介信息,并利用上述数据较好地解决了恶意账号和非恶意账号的区分。
本发明是通过下述技术方案来解决上述技术问题的:一种互联网标注数据的身份判别方法,互联网标注数据的身份判别方法其包括以下步骤:
步骤一:找出非本人注册账号;
步骤二:对非本人注册账号进行分类,分为恶意注册账号和非恶意注册账号。
优选地,所述步骤二主要通过对四大类数据进行挖掘分析分类:一,搜索引擎爬虫抓取通用互联网数据;二,PC设备和移动设备ID信息;三,获取第三方运营商数据;四,获取第三方的LBS数据。
优选地,所述互联网标注数据的身份判别方法通过生物特征大数据分析或者异常数据特征分析代替。
优选地,所述互联网标注数据的身份判别方法采用阿里云的ODPS计算平台、SQL、Python、Java编程语言。
优选地,所述互联网标注数据的身份判别方法中通讯录标注网络文本分析得到账户使用人姓名候选集,通过模糊匹配算法与实名制账户姓名比对,从而判别账户身份真实性。
本发明的积极进步效果在于:本发明使用了大量的互联网信息,特别是社交信息和媒介信息,并利用上述数据较好地解决了恶意账号和非恶意账号的区分。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案。
如图1所示,本发明互联网标注数据的身份判别方法包括以下步骤:
步骤一:找出非本人注册账号;
步骤二:对非本人注册账号进行分类,可以分为恶意注册账号和非恶意注册账号。
对非本人注册账号判断,主要通过对四大类数据进行挖掘分析分类:一,搜索引擎爬虫抓取通用互联网数据;二,PC设备和移动设备ID信息;三,获取第三方运营商数据;四,获取第三方的LBS数据。
互联网标注数据的身份判别方法可通过生物特征大数据分析或者异常数据特征分析代替。
互联网标注数据的身份判别方法采用阿里云的ODPS计算平台、SQL、Python、Java等编程语言。
互联网标注数据的身份判别方法中通讯录标注网络文本分析可得到账户使用人姓名候选集,通过模糊匹配算法与实名制账户姓名比对,从而判别账户身份真实性。
互联网大数据时代,每个人的信息都被所接触的媒介标注,从而产生了大量的被标注标签,这些标签能精准判别用户身份真伪,从而大大降低了账户身份冒用风险。另外非本人注册账户身份冒用一般分为恶意注册和非恶意注册,正确判别恶意注册和非恶意注册,通过这些互联网上大量被标注的用户标签,能更精准识别恶意注册账户,从而降低风险显得。
综上所述,本发明使用了大量的互联网信息,特别是社交信息和媒介信息,并利用上述数据较好地解决了恶意账号和非恶意账号的区分。
以上所述的具体实施例,对本发明的解决的技术问题、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种互联网标注数据的身份判别方法,其特征在于,互联网标注数据的身份判别方法其包括以下步骤:
步骤一:找出非本人注册账号;
步骤二:对非本人注册账号进行分类,分为恶意注册账号和非恶意注册账号。
2.如权利要求1所述的互联网标注数据的身份判别方法,其特征在于,所述步骤二主要对四大类数据进行挖掘分析分类:一,搜索引擎爬虫抓取通用互联网数据;二,PC设备和移动设备ID信息;三,获取第三方运营商数据;四,获取第三方的LBS数据。
3.如权利要求1所述的互联网标注数据的身份判别方法,其特征在于,所述互联网标注数据的身份判别方法通过生物特征大数据分析或者异常数据特征分析代替。
4.如权利要求1所述的互联网标注数据的身份判别方法,其特征在于,所述互联网标注数据的身份判别方法采用阿里云的ODPS计算平台、SQL、Python、Java编程语言。
5.如权利要求1所述的互联网标注数据的身份判别方法,其特征在于,所述互联网标注数据的身份判别方法中通讯录标注网络文本分析得到账户使用人姓名候选集,通过模糊匹配算法与实名制账户姓名比对,从而判别账户身份真实性。
CN201610551626.0A 2016-07-14 2016-07-14 互联网标注数据的身份判别方法 Pending CN106156341A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610551626.0A CN106156341A (zh) 2016-07-14 2016-07-14 互联网标注数据的身份判别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610551626.0A CN106156341A (zh) 2016-07-14 2016-07-14 互联网标注数据的身份判别方法

Publications (1)

Publication Number Publication Date
CN106156341A true CN106156341A (zh) 2016-11-23

Family

ID=58062027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610551626.0A Pending CN106156341A (zh) 2016-07-14 2016-07-14 互联网标注数据的身份判别方法

Country Status (1)

Country Link
CN (1) CN106156341A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106549974A (zh) * 2016-12-06 2017-03-29 北京知道创宇信息技术有限公司 预测社交网络账户是否恶意的设备、方法及系统
CN107330104A (zh) * 2017-07-07 2017-11-07 国政通科技股份有限公司 一种利用通信网络核查用户真实身份的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102045367A (zh) * 2011-01-10 2011-05-04 软库创投(北京)科技有限公司 实名认证的注册方法及认证服务器
CN102801528A (zh) * 2012-08-17 2012-11-28 珠海市载舟软件技术有限公司 基于智能移动通讯设备的身份验证系统及其方法
CN103077240A (zh) * 2013-01-10 2013-05-01 北京工商大学 一种基于概率图模型的微博水军识别方法
CN104967587A (zh) * 2014-05-12 2015-10-07 腾讯科技(深圳)有限公司 一种恶意账号的识别方法,及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102045367A (zh) * 2011-01-10 2011-05-04 软库创投(北京)科技有限公司 实名认证的注册方法及认证服务器
CN102801528A (zh) * 2012-08-17 2012-11-28 珠海市载舟软件技术有限公司 基于智能移动通讯设备的身份验证系统及其方法
CN103077240A (zh) * 2013-01-10 2013-05-01 北京工商大学 一种基于概率图模型的微博水军识别方法
CN104967587A (zh) * 2014-05-12 2015-10-07 腾讯科技(深圳)有限公司 一种恶意账号的识别方法,及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
许敏,: ""C2C电子商务中虚假评论用户的识别方法"", 《万方数据知识服务平台》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106549974A (zh) * 2016-12-06 2017-03-29 北京知道创宇信息技术有限公司 预测社交网络账户是否恶意的设备、方法及系统
CN106549974B (zh) * 2016-12-06 2020-06-02 北京知道创宇信息技术股份有限公司 预测社交网络账户是否恶意的设备、方法及系统
CN107330104A (zh) * 2017-07-07 2017-11-07 国政通科技股份有限公司 一种利用通信网络核查用户真实身份的方法及系统

Similar Documents

Publication Publication Date Title
Park et al. Global labor flow network reveals the hierarchical organization and dynamics of geo-industrial clusters
Ray et al. Twitter sentiment analysis for product review using lexicon method
Gundecha et al. Mining social media: a brief introduction
Gupta et al. Towards detecting fake user accounts in facebook
KR101630752B1 (ko) 유통용 비식별 빅데이터 처리 방법
US20150113651A1 (en) Spammer group extraction apparatus and method
O’Connor Oil, crime, and disorder: A methodological examination of the oil boom’s impact in North Dakota
CN113111951B (zh) 数据处理方法以及装置
CN110990683A (zh) 一种基于地域与情感特征的微博谣言集成识别方法及装置
Ronzhyn et al. Literature review of ethical concerns in the use of disruptive technologies in government 3.0
Gill et al. Mobile forensics: A bibliometric analysis
CN106156341A (zh) 互联网标注数据的身份判别方法
CN108109071A (zh) 基于人员社会关系动态关联的监控方法及电子设备
He et al. Semi-supervised internet water army detection based on graph embedding
Arora et al. Cyber security threats and their solutions through deep learning: A bibliometric analysis
López-Ramírez et al. Geographical aggregation of microblog posts for LDA topic modeling
Zhang et al. A social spam detection framework via semi-supervised learning
CN116069607A (zh) 基于图卷积神经网络的移动办公用户异常行为检测方法
CN112838956B (zh) 面向用户的网络空间资源分析方法及设备
Liu et al. Network anomaly detection system with optimized DS evidence theory
Choi et al. Discovering message templates on large scale Bitcoin abuse reports using a two-fold NLP-based clustering method
US20150324813A1 (en) System and method for determining by an external entity the human hierarchial structure of an rganization, using public social networks
Pan et al. Improving authorship attribution in twitter through topic-based sampling
Yang et al. A Spam Message Detection Model Based on Bayesian Classification
Ramya et al. SVM Based Fake Account Sign-In Detection

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161123

WD01 Invention patent application deemed withdrawn after publication