CN106156341A - 互联网标注数据的身份判别方法 - Google Patents
互联网标注数据的身份判别方法 Download PDFInfo
- Publication number
- CN106156341A CN106156341A CN201610551626.0A CN201610551626A CN106156341A CN 106156341 A CN106156341 A CN 106156341A CN 201610551626 A CN201610551626 A CN 201610551626A CN 106156341 A CN106156341 A CN 106156341A
- Authority
- CN
- China
- Prior art keywords
- data
- internet
- identification method
- account
- malicious
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明公开了一种互联网标注数据的身份判别方法,互联网标注数据的身份判别方法其包括以下步骤:步骤一,找出非本人注册账号;步骤二,对非本人注册账号进行分类,分为恶意注册账号和非恶意注册账号。其中步骤二主要通过对四大类数据进行挖掘分析分类:一,搜索引擎爬虫抓取通用互联网数据;二,PC设备和移动设备ID信息;三,获取第三方运营商数据;四,获取第三方的LBS数据。本发明使用了大量的互联网信息,特别是社交信息和媒介信息,并利用上述数据较好地解决了恶意账号和非恶意账号的区分。
Description
技术领域
本发明涉及到一种身份判别方法,具体涉及一种互联网标注数据的身份判别方法。
背景技术
互联网公司的账号经常会遇到批量注册、小号注册以及其它恶意注册和非本人注册等。如何快速有效的发现这些欺诈账号,目前业界还没有很好的方法。本发明需要借助互联网社交关系用户大量文本标注信息来分析确认账号的可信度,例如手机通讯录、社交网络、搜索引擎、LBS信息、设备信息等。
目前的身份判别以人本身的生物特征,或者以人自己敲击键盘或者鼠标的行为习惯等等,很少用到互联网第三方的社交信息来判断。
非本人注册账号是一种实际使用人和注册人信息不符合的账号,目前的非本人注册账号一般有两种:恶意注册和非恶意注册。恶意注册一般通过机器批量注册小号,再就是冒用陌生人身份(如黑市上的身份信息)注册账号做坏事。非恶意注册一般是用亲朋好友的个人信息注册,然后实际使用人是与注册人不符合。现有的技术只利用了使用人本身信息,缺乏大量互联网的其它社交和媒介信息,这样很难分析出恶意注册与非恶意注册。
发明内容
本发明所要解决的技术问题是提供一种互联网标注数据的身份判别方法,其使用了大量的互联网信息,特别是社交信息和媒介信息,并利用上述数据较好地解决了恶意账号和非恶意账号的区分。
本发明是通过下述技术方案来解决上述技术问题的:一种互联网标注数据的身份判别方法,互联网标注数据的身份判别方法其包括以下步骤:
步骤一:找出非本人注册账号;
步骤二:对非本人注册账号进行分类,分为恶意注册账号和非恶意注册账号。
优选地,所述步骤二主要通过对四大类数据进行挖掘分析分类:一,搜索引擎爬虫抓取通用互联网数据;二,PC设备和移动设备ID信息;三,获取第三方运营商数据;四,获取第三方的LBS数据。
优选地,所述互联网标注数据的身份判别方法通过生物特征大数据分析或者异常数据特征分析代替。
优选地,所述互联网标注数据的身份判别方法采用阿里云的ODPS计算平台、SQL、Python、Java编程语言。
优选地,所述互联网标注数据的身份判别方法中通讯录标注网络文本分析得到账户使用人姓名候选集,通过模糊匹配算法与实名制账户姓名比对,从而判别账户身份真实性。
本发明的积极进步效果在于:本发明使用了大量的互联网信息,特别是社交信息和媒介信息,并利用上述数据较好地解决了恶意账号和非恶意账号的区分。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案。
如图1所示,本发明互联网标注数据的身份判别方法包括以下步骤:
步骤一:找出非本人注册账号;
步骤二:对非本人注册账号进行分类,可以分为恶意注册账号和非恶意注册账号。
对非本人注册账号判断,主要通过对四大类数据进行挖掘分析分类:一,搜索引擎爬虫抓取通用互联网数据;二,PC设备和移动设备ID信息;三,获取第三方运营商数据;四,获取第三方的LBS数据。
互联网标注数据的身份判别方法可通过生物特征大数据分析或者异常数据特征分析代替。
互联网标注数据的身份判别方法采用阿里云的ODPS计算平台、SQL、Python、Java等编程语言。
互联网标注数据的身份判别方法中通讯录标注网络文本分析可得到账户使用人姓名候选集,通过模糊匹配算法与实名制账户姓名比对,从而判别账户身份真实性。
互联网大数据时代,每个人的信息都被所接触的媒介标注,从而产生了大量的被标注标签,这些标签能精准判别用户身份真伪,从而大大降低了账户身份冒用风险。另外非本人注册账户身份冒用一般分为恶意注册和非恶意注册,正确判别恶意注册和非恶意注册,通过这些互联网上大量被标注的用户标签,能更精准识别恶意注册账户,从而降低风险显得。
综上所述,本发明使用了大量的互联网信息,特别是社交信息和媒介信息,并利用上述数据较好地解决了恶意账号和非恶意账号的区分。
以上所述的具体实施例,对本发明的解决的技术问题、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种互联网标注数据的身份判别方法,其特征在于,互联网标注数据的身份判别方法其包括以下步骤:
步骤一:找出非本人注册账号;
步骤二:对非本人注册账号进行分类,分为恶意注册账号和非恶意注册账号。
2.如权利要求1所述的互联网标注数据的身份判别方法,其特征在于,所述步骤二主要对四大类数据进行挖掘分析分类:一,搜索引擎爬虫抓取通用互联网数据;二,PC设备和移动设备ID信息;三,获取第三方运营商数据;四,获取第三方的LBS数据。
3.如权利要求1所述的互联网标注数据的身份判别方法,其特征在于,所述互联网标注数据的身份判别方法通过生物特征大数据分析或者异常数据特征分析代替。
4.如权利要求1所述的互联网标注数据的身份判别方法,其特征在于,所述互联网标注数据的身份判别方法采用阿里云的ODPS计算平台、SQL、Python、Java编程语言。
5.如权利要求1所述的互联网标注数据的身份判别方法,其特征在于,所述互联网标注数据的身份判别方法中通讯录标注网络文本分析得到账户使用人姓名候选集,通过模糊匹配算法与实名制账户姓名比对,从而判别账户身份真实性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610551626.0A CN106156341A (zh) | 2016-07-14 | 2016-07-14 | 互联网标注数据的身份判别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610551626.0A CN106156341A (zh) | 2016-07-14 | 2016-07-14 | 互联网标注数据的身份判别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106156341A true CN106156341A (zh) | 2016-11-23 |
Family
ID=58062027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610551626.0A Pending CN106156341A (zh) | 2016-07-14 | 2016-07-14 | 互联网标注数据的身份判别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106156341A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106549974A (zh) * | 2016-12-06 | 2017-03-29 | 北京知道创宇信息技术有限公司 | 预测社交网络账户是否恶意的设备、方法及系统 |
CN107330104A (zh) * | 2017-07-07 | 2017-11-07 | 国政通科技股份有限公司 | 一种利用通信网络核查用户真实身份的方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102045367A (zh) * | 2011-01-10 | 2011-05-04 | 软库创投(北京)科技有限公司 | 实名认证的注册方法及认证服务器 |
CN102801528A (zh) * | 2012-08-17 | 2012-11-28 | 珠海市载舟软件技术有限公司 | 基于智能移动通讯设备的身份验证系统及其方法 |
CN103077240A (zh) * | 2013-01-10 | 2013-05-01 | 北京工商大学 | 一种基于概率图模型的微博水军识别方法 |
CN104967587A (zh) * | 2014-05-12 | 2015-10-07 | 腾讯科技(深圳)有限公司 | 一种恶意账号的识别方法,及装置 |
-
2016
- 2016-07-14 CN CN201610551626.0A patent/CN106156341A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102045367A (zh) * | 2011-01-10 | 2011-05-04 | 软库创投(北京)科技有限公司 | 实名认证的注册方法及认证服务器 |
CN102801528A (zh) * | 2012-08-17 | 2012-11-28 | 珠海市载舟软件技术有限公司 | 基于智能移动通讯设备的身份验证系统及其方法 |
CN103077240A (zh) * | 2013-01-10 | 2013-05-01 | 北京工商大学 | 一种基于概率图模型的微博水军识别方法 |
CN104967587A (zh) * | 2014-05-12 | 2015-10-07 | 腾讯科技(深圳)有限公司 | 一种恶意账号的识别方法,及装置 |
Non-Patent Citations (1)
Title |
---|
许敏,: ""C2C电子商务中虚假评论用户的识别方法"", 《万方数据知识服务平台》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106549974A (zh) * | 2016-12-06 | 2017-03-29 | 北京知道创宇信息技术有限公司 | 预测社交网络账户是否恶意的设备、方法及系统 |
CN106549974B (zh) * | 2016-12-06 | 2020-06-02 | 北京知道创宇信息技术股份有限公司 | 预测社交网络账户是否恶意的设备、方法及系统 |
CN107330104A (zh) * | 2017-07-07 | 2017-11-07 | 国政通科技股份有限公司 | 一种利用通信网络核查用户真实身份的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Park et al. | Global labor flow network reveals the hierarchical organization and dynamics of geo-industrial clusters | |
Ray et al. | Twitter sentiment analysis for product review using lexicon method | |
Gundecha et al. | Mining social media: a brief introduction | |
Gupta et al. | Towards detecting fake user accounts in facebook | |
KR101630752B1 (ko) | 유통용 비식별 빅데이터 처리 방법 | |
US20150113651A1 (en) | Spammer group extraction apparatus and method | |
O’Connor | Oil, crime, and disorder: A methodological examination of the oil boom’s impact in North Dakota | |
CN113111951B (zh) | 数据处理方法以及装置 | |
CN110990683A (zh) | 一种基于地域与情感特征的微博谣言集成识别方法及装置 | |
Ronzhyn et al. | Literature review of ethical concerns in the use of disruptive technologies in government 3.0 | |
Gill et al. | Mobile forensics: A bibliometric analysis | |
CN106156341A (zh) | 互联网标注数据的身份判别方法 | |
CN108109071A (zh) | 基于人员社会关系动态关联的监控方法及电子设备 | |
He et al. | Semi-supervised internet water army detection based on graph embedding | |
Arora et al. | Cyber security threats and their solutions through deep learning: A bibliometric analysis | |
López-Ramírez et al. | Geographical aggregation of microblog posts for LDA topic modeling | |
Zhang et al. | A social spam detection framework via semi-supervised learning | |
CN116069607A (zh) | 基于图卷积神经网络的移动办公用户异常行为检测方法 | |
CN112838956B (zh) | 面向用户的网络空间资源分析方法及设备 | |
Liu et al. | Network anomaly detection system with optimized DS evidence theory | |
Choi et al. | Discovering message templates on large scale Bitcoin abuse reports using a two-fold NLP-based clustering method | |
US20150324813A1 (en) | System and method for determining by an external entity the human hierarchial structure of an rganization, using public social networks | |
Pan et al. | Improving authorship attribution in twitter through topic-based sampling | |
Yang et al. | A Spam Message Detection Model Based on Bayesian Classification | |
Ramya et al. | SVM Based Fake Account Sign-In Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20161123 |
|
WD01 | Invention patent application deemed withdrawn after publication |