CN106156341A

CN106156341A - 互联网标注数据的身份判别方法

Info

Publication number: CN106156341A
Application number: CN201610551626.0A
Authority: CN
Inventors: 裴飞; 李琦
Original assignee: Amount Of Micro Shortdial (shanghai) Financial Information Services Ltd
Current assignee: Amount Of Micro Shortdial (shanghai) Financial Information Services Ltd
Priority date: 2016-07-14
Filing date: 2016-07-14
Publication date: 2016-11-23

Abstract

本发明公开了一种互联网标注数据的身份判别方法，互联网标注数据的身份判别方法其包括以下步骤：步骤一，找出非本人注册账号；步骤二，对非本人注册账号进行分类，分为恶意注册账号和非恶意注册账号。其中步骤二主要通过对四大类数据进行挖掘分析分类：一，搜索引擎爬虫抓取通用互联网数据；二，PC设备和移动设备ID信息；三，获取第三方运营商数据；四，获取第三方的LBS数据。本发明使用了大量的互联网信息，特别是社交信息和媒介信息，并利用上述数据较好地解决了恶意账号和非恶意账号的区分。

Description

互联网标注数据的身份判别方法

技术领域

本发明涉及到一种身份判别方法，具体涉及一种互联网标注数据的身份判别方法。

背景技术

互联网公司的账号经常会遇到批量注册、小号注册以及其它恶意注册和非本人注册等。如何快速有效的发现这些欺诈账号，目前业界还没有很好的方法。本发明需要借助互联网社交关系用户大量文本标注信息来分析确认账号的可信度，例如手机通讯录、社交网络、搜索引擎、LBS信息、设备信息等。

目前的身份判别以人本身的生物特征，或者以人自己敲击键盘或者鼠标的行为习惯等等，很少用到互联网第三方的社交信息来判断。

非本人注册账号是一种实际使用人和注册人信息不符合的账号，目前的非本人注册账号一般有两种：恶意注册和非恶意注册。恶意注册一般通过机器批量注册小号，再就是冒用陌生人身份（如黑市上的身份信息）注册账号做坏事。非恶意注册一般是用亲朋好友的个人信息注册，然后实际使用人是与注册人不符合。现有的技术只利用了使用人本身信息，缺乏大量互联网的其它社交和媒介信息，这样很难分析出恶意注册与非恶意注册。

发明内容

本发明所要解决的技术问题是提供一种互联网标注数据的身份判别方法，其使用了大量的互联网信息，特别是社交信息和媒介信息，并利用上述数据较好地解决了恶意账号和非恶意账号的区分。

本发明是通过下述技术方案来解决上述技术问题的：一种互联网标注数据的身份判别方法，互联网标注数据的身份判别方法其包括以下步骤：

步骤一：找出非本人注册账号；

步骤二：对非本人注册账号进行分类，分为恶意注册账号和非恶意注册账号。

优选地，所述步骤二主要通过对四大类数据进行挖掘分析分类：一，搜索引擎爬虫抓取通用互联网数据；二，PC设备和移动设备ID信息；三，获取第三方运营商数据；四，获取第三方的LBS数据。

优选地，所述互联网标注数据的身份判别方法通过生物特征大数据分析或者异常数据特征分析代替。

优选地，所述互联网标注数据的身份判别方法采用阿里云的ODPS计算平台、SQL、Python、Java编程语言。

优选地，所述互联网标注数据的身份判别方法中通讯录标注网络文本分析得到账户使用人姓名候选集，通过模糊匹配算法与实名制账户姓名比对，从而判别账户身份真实性。

本发明的积极进步效果在于：本发明使用了大量的互联网信息，特别是社交信息和媒介信息，并利用上述数据较好地解决了恶意账号和非恶意账号的区分。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图给出本发明较佳实施例，以详细说明本发明的技术方案。

如图1所示，本发明互联网标注数据的身份判别方法包括以下步骤：

步骤一：找出非本人注册账号；

步骤二：对非本人注册账号进行分类，可以分为恶意注册账号和非恶意注册账号。

对非本人注册账号判断，主要通过对四大类数据进行挖掘分析分类：一，搜索引擎爬虫抓取通用互联网数据；二，PC设备和移动设备ID信息；三，获取第三方运营商数据；四，获取第三方的LBS数据。

互联网标注数据的身份判别方法可通过生物特征大数据分析或者异常数据特征分析代替。

互联网标注数据的身份判别方法采用阿里云的ODPS计算平台、SQL、Python、Java等编程语言。

互联网标注数据的身份判别方法中通讯录标注网络文本分析可得到账户使用人姓名候选集，通过模糊匹配算法与实名制账户姓名比对，从而判别账户身份真实性。

互联网大数据时代，每个人的信息都被所接触的媒介标注，从而产生了大量的被标注标签，这些标签能精准判别用户身份真伪，从而大大降低了账户身份冒用风险。另外非本人注册账户身份冒用一般分为恶意注册和非恶意注册，正确判别恶意注册和非恶意注册，通过这些互联网上大量被标注的用户标签，能更精准识别恶意注册账户，从而降低风险显得。

综上所述，本发明使用了大量的互联网信息，特别是社交信息和媒介信息，并利用上述数据较好地解决了恶意账号和非恶意账号的区分。

以上所述的具体实施例，对本发明的解决的技术问题、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种互联网标注数据的身份判别方法，其特征在于，互联网标注数据的身份判别方法其包括以下步骤：

步骤一：找出非本人注册账号；

2.如权利要求1所述的互联网标注数据的身份判别方法，其特征在于，所述步骤二主要对四大类数据进行挖掘分析分类：一，搜索引擎爬虫抓取通用互联网数据；二，PC设备和移动设备ID信息；三，获取第三方运营商数据；四，获取第三方的LBS数据。

3.如权利要求1所述的互联网标注数据的身份判别方法，其特征在于，所述互联网标注数据的身份判别方法通过生物特征大数据分析或者异常数据特征分析代替。

4.如权利要求1所述的互联网标注数据的身份判别方法，其特征在于，所述互联网标注数据的身份判别方法采用阿里云的ODPS计算平台、SQL、Python、Java编程语言。

5.如权利要求1所述的互联网标注数据的身份判别方法，其特征在于，所述互联网标注数据的身份判别方法中通讯录标注网络文本分析得到账户使用人姓名候选集，通过模糊匹配算法与实名制账户姓名比对，从而判别账户身份真实性。