CN108615199A - 基于互联网公开论坛注册情况的用户活动轨迹挖掘方法 - Google Patents

基于互联网公开论坛注册情况的用户活动轨迹挖掘方法 Download PDF

Info

Publication number
CN108615199A
CN108615199A CN201810448870.3A CN201810448870A CN108615199A CN 108615199 A CN108615199 A CN 108615199A CN 201810448870 A CN201810448870 A CN 201810448870A CN 108615199 A CN108615199 A CN 108615199A
Authority
CN
China
Prior art keywords
forum
website
registration
user
internet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810448870.3A
Other languages
English (en)
Inventor
严寒冰
张兆心
朱天
丁丽
李佳
温森浩
李志辉
姚力
朱芸茜
王小群
张腾
吕利锋
陈阳
李世淙
徐剑
王适文
饶毓
肖崇蕙
贾子骁
张帅
吕志泉
韩志辉
马莉雅
雷君
周彧
周昊
高川
楼书逸
文静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Harbin Institute of Technology Weihai
Original Assignee
National Computer Network and Information Security Management Center
Harbin Institute of Technology Weihai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center, Harbin Institute of Technology Weihai filed Critical National Computer Network and Information Security Management Center
Priority to CN201810448870.3A priority Critical patent/CN108615199A/zh
Publication of CN108615199A publication Critical patent/CN108615199A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种基于互联网公开论坛注册情况的用户活动轨迹挖掘方法,其解决了现有方法无法追溯互联网虚拟用户身份的技术问题;包括以下步骤:步骤1,通过论坛站点拓展发现当前互联网空间中的论坛站点,即进行域名收集;步骤2,识别域名是否为中文论坛站点;步骤3,通过基于注册机制的论坛站点查重接口发现探测用户互联网论坛活动行迹。本发明广泛应用于信息技术领域。

Description

基于互联网公开论坛注册情况的用户活动轨迹挖掘方法
技术领域
本发明涉及一种用户活动轨迹的挖掘方法,特别是涉及一种基于互联网公开论坛注册情况的用户活动轨迹挖掘方法。
背景技术
互联网的不断发展以及网络业务的迅速增长,对个人生活方式的影响进一步深化。伴随着互联网速度激增的同时,互联网安全形式也越来越受到人们重视。
随着互联网与人类生活进一步融合,出现了各种各样的网络应用,如在线论坛、电子商务、社交软件、网络游戏等。互联网在为人类生活提供便捷的同时也由于其虚拟性带来了诸多问题。近年来,互联网向金融领域的扩展加速了网络实名制的进程,推进了可信网络空间建设。但网络论坛由于其讨论交流的定位及非企业法人维护等原因,用户在网络论坛中依然使用着虚拟身份,为许多网络违法行为提供了藏匿空间。对网络中虚拟身份背后社会主体的追溯成为一个被关注的问题。
但是目前尚无针对互联网虚拟用户身份追溯的有效解决途径,并且虚拟用户身份之间无法进行跨论坛站点的行为统计。
发明内容
本发明针对现有方法无法追溯互联网虚拟用户身份的技术问题,提供一种能够追溯互联网虚拟用户身份的基于互联网公开论坛注册情况的用户活动轨迹挖掘方法。
为此,本发明的技术方案是,包括以下步骤:
步骤1,通过论坛站点拓展发现当前互联网空间中的论坛站点,即进行域名收集;
步骤2,识别域名是否为中文论坛站点;
步骤3,通过基于注册机制的论坛站点查重接口发现探测用户互联网论坛活动行迹。
优选地,步骤1包括:
(1)首先以AlexaTop100万域名作为初始域名库;
(2)从域名库中发现中文论坛站点;
(3)对中文论坛站点进行友情链接扩展,从链接中提取域名加入域名库中。
优选地,步骤2包括:
(1)判断域名是否为可访问以及是否提供Web服务;
(2)将论坛站点属性作为论坛站点元数据信息,建立论坛站点识别模型;
(3)通过模糊匹配和精确匹配两种方式进行判断。
优选地,步骤3包括:
(1)设计并实现论坛站点注册查重接口;
(2)用户注册论坛集合发现。
优选地,步骤3(1),步骤是:
S1.设计并实现邮箱论坛站点查重接口;
S2.设计并实现基于注册机制的论坛站点查重接口;
S3.通过模糊匹配和精确匹配两种方式判断用户是否存在。
优选地,步骤3(1)的S1,步骤是:
用户注册论坛集合中包括email和id两种类型的输入,
当输入为id时:
S21.遍历sites文件中所有的论坛站点;
S22.进行注册查重探测,获取用户的注册论坛集合;
当输入为email时:
S21.先进行邮箱集合扩展,即提取邮箱前缀通过邮箱注册查重来发现同名邮箱,同名邮箱的集合为用户可能拥有的邮箱集合;
S22.根据邮箱集合分别进行论坛站点的注册查重,从而获取用户的注册论坛站点集合。
本发明的有益效果,首先,高效、准确的发现互联网现有的公开论坛站点;然后,根据论坛站点的结构特征进行分类,并根据论坛结构建立用户查重机制;之后,利用同一虚拟用户名的特点进行同用户昵称的邮箱扩展;最终,实现针对互联网虚拟用户的公开行为的识别,实现用户活动轨迹的挖掘。
附图说明
图1是系统功能结构图;
图2是基于链接扩展的域名发现流程图;
图3是论坛站点类型识别流程图;
图4是论坛用户注册查重流程图。
具体实施方式
下面结合实施例对本发明做进一步描述。
本实施例基于网络用户命名习惯性与中小型论坛用户同一性,提出一种通过发现用户在互联网论坛空间内活动行迹进而挖掘虚拟身份背后社会主体信息的方法。其中,网络用户命名习惯性指网络用户在互联网使用中在多个网络应用或论坛站点中使用相同的id进行账号注册;中小型论坛用户的同一性是指这些网络论坛中聚集的用户具有相同的特征。本实施例所指的用户虚拟身份的标识包括邮箱和用户名。
如图1所示,本实施例系统功能结构包括论坛站点扩展模块、行迹发现模块、行迹分析模块和行迹分析平台。
论坛站点拓展模块用于发现当前互联网空间中的论坛站点,通过域名收集然后识别域名是否为论坛站点来完成。
行迹发现模块用于发现用户互联网论坛活动行迹,通过论坛站点的注册查重接口来获取用户的注册论坛集合,通过对已有论坛数据查询获取用户论坛内发帖、回帖数据,集合这两种信息作为用户的行迹数据。
行迹分析模块用于通过论坛站点类别粗粒度定位用户关注领域,并量化用户领域影响力和领域兴趣度,此外行迹分析模块从用户发回帖记录中匹配用户手机号和邮箱等个人信息。
行迹分析平台则是系统的对外接口,用来提供行迹分析服务,论坛站点拓展模块、行迹发现模块和行迹分析模块为行迹分析平台的构建提供数据支持和知识支持;此外,行迹分析平台为论坛站点拓展模块的域名管理和论坛站点管理提供接口。
基于互联网公开论坛注册情况的用户活动轨迹挖掘方法,包括步骤如下:
步骤1,通过论坛站点拓展发现当前互联网空间中的论坛站点,即进行域名收集;
(1)首先以AlexaTop100万域名作为初始域名库;
(2)从域名库中发现中文论坛站点;
(3)对中文论坛站点进行友情链接扩展,从链接中提取域名加入域名库中。
如图2所示,基于链接扩展的域名发现步骤:
a.当扩展程序进程启动时,从bbs数据库表中读取real标识为1且expend为0的记录,读取数目限制为100条。
b.对于读取的记录列表获取该论坛站点页面中的友情链接,并从链接中提取出域名,然后对于此域名列表中的每个域名执行以下操作。
c.检测域名是否在域名库中,若不存在则加入并设置检测优先级字段priority为2,若存在则直接将其priority字段设为2。
d.结束之后进行下一次的记录获取,当符合条件的记录为空时,程序进入睡眠状态,间隔5分钟检测是否有新的论坛站点被确认。
步骤2,识别域名是否为中文论坛站点;
(1)判断域名是否为可访问以及是否提供Web服务;
(2)将论坛站点标题、首页URL、关键字、alexa排名等论坛站点属性作为论坛站点元数据信息,建立论坛站点识别模型;
(3)通过模糊匹配和精确匹配两种方式进行判断。
如图3所示,论坛站点识别的具体步骤:
a.首先获取一个域名,发送数据包到80和433端口,检测域名是否提供HTTP服务,然后根据端口响应构造URL,发送HTTP请求,解析网页内容;
b.通过判断其中是否包含中文字符来进行第一轮筛选,如果论坛站点为中文论坛站点,继续匹配标题和网页中的“论坛”字样,如果匹配成功,则程序认定该论坛站点可能为论坛站点,将论坛站点加入到bbs数据表中;
c.然后接着匹配论坛站点generator信息,来发现该论坛是基于何种论坛框架构建。如果匹配到这一信息,则确认该论坛站点为论坛站点。设置real字段为true,对于real字段为false的字段,提示系统管理员进行人工确认;
d.被确认为论坛站点后,将进行下一步的工作,收集论坛站点元数据。
步骤3,通过基于注册机制的论坛站点查重接口发现探测用户互联网论坛活动行迹:
(1)设计并实现论坛站点注册查重接口;
S1.设计并实现邮箱论坛站点查重接口;
其中,邮箱论坛站点包括126.com、163.com、yeah.net、qq.com、foxmail.com、sina.com、sina.cn和sohu.com等国内主流邮箱;
S2.设计并实现基于注册机制的论坛站点查重接口;
用户注册论坛集合中包括email和id两种类型的输入,
当输入为id时:
S21.遍历sites文件中所有的论坛站点;
S22.进行注册查重探测,获取用户注册论坛集合;
当输入为email时:
S21.先进行邮箱集合扩展,即提取邮箱前缀通过邮箱注册查重来发现同名邮箱,同名邮箱的集合为用户可能拥有的邮箱集合;
S22.根据邮箱的集合分别进行论坛站点的注册查重,从而获取用户的注册论坛站点集合;
S3.通过模糊匹配和精确匹配两种方式判断用户是否在当前论坛站点存在。
如图4所示,论坛用户注册查重步骤如下:
a.首先定义HTTP头部信息,使用session会话首先请求论坛站点首页,从响应的cookie信息中获取token值。
b.然后将token和查询字段id加入表单中,构造查重接口的URL并发送请求包。
c.获取响应后,解析响应内容判断user是否注册。在该论坛站点中,“success”字符在响应包中时代表id可用,表明该id未注册;“false”字符在响应中时表示id不可用,表示这个id已经被注册。
(2)用户注册论坛集合发现。
首先,高效、准确的发现互联网现有的公开论坛站点;然后,根据论坛站点的结构特征进行分类,并根据论坛结构建立用户查重机制;之后,利用同一虚拟用户名的特点进行同用户昵称的邮箱扩展;最终,实现针对互联网虚拟用户的公开行为的识别,实现用户活动轨迹的挖掘。
惟以上者,仅为本发明的具体实施例而已,当不能以此限定本发明实施的范围,故其等同组件的置换,或依本发明专利保护范围所作的等同变化与修改,皆应仍属本发明权利要求书涵盖之范畴。

Claims (6)

1.一种基于互联网公开论坛注册情况的用户活动轨迹挖掘方法,其特征是,包括以下步骤:
步骤1,通过论坛站点拓展发现当前互联网空间中的论坛站点,即进行域名收集;
步骤2,识别域名是否为中文论坛站点;
步骤3,通过基于注册机制的论坛站点查重接口发现探测用户互联网论坛活动行迹。
2.根据权利要求1所述的基于互联网公开论坛注册情况的用户活动轨迹挖掘方法,其特征在于,所述步骤1包括:
(1)首先以AlexaTop100万域名作为初始域名库;
(2)从域名库中发现中文论坛站点;
(3)对中文论坛站点进行友情链接扩展,从链接中提取域名加入域名库中。
3.根据权利要求1所述的基于互联网公开论坛注册情况的用户活动轨迹挖掘方法,其特征在于,所述步骤2包括:
(1)判断域名是否为可访问以及是否提供Web服务;
(2)将论坛站点属性作为论坛站点元数据信息,建立论坛站点识别模型;
(3)通过模糊匹配和精确匹配两种方式进行判断。
4.根据权利要求1所述的基于互联网公开论坛注册情况的用户活动轨迹挖掘方法,其特征在于,所述步骤3包括:
(1)设计并实现论坛站点注册查重接口;
(2)用户注册论坛集合发现。
5.根据权利要求4所述的基于互联网公开论坛注册情况的用户活动轨迹挖掘方法,其特征在于,所述步骤3(1),步骤是:
S1.设计并实现邮箱论坛站点查重接口;
S2.设计并实现基于注册机制的论坛站点查重接口;
S3.通过模糊匹配和精确匹配两种方式判断用户是否存在。
6.根据权利要求5所述的基于互联网公开论坛注册情况的用户活动轨迹挖掘方法,其特征在于,所述步骤3(1)的S1,步骤是:
用户注册论坛集合中包括email和id两种类型的输入,
当输入为id时:
S21.遍历sites文件中所有的论坛站点;
S22.进行注册查重探测,获取用户的注册论坛集合;
当输入为email时:
S21.先进行邮箱集合扩展,即提取邮箱前缀通过邮箱注册查重来发现同名邮箱,所述同名邮箱的集合为用户可能拥有的邮箱集合;
S22.根据邮箱集合分别进行论坛站点的注册查重,从而获取用户的注册论坛站点集合。
CN201810448870.3A 2018-05-11 2018-05-11 基于互联网公开论坛注册情况的用户活动轨迹挖掘方法 Pending CN108615199A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810448870.3A CN108615199A (zh) 2018-05-11 2018-05-11 基于互联网公开论坛注册情况的用户活动轨迹挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810448870.3A CN108615199A (zh) 2018-05-11 2018-05-11 基于互联网公开论坛注册情况的用户活动轨迹挖掘方法

Publications (1)

Publication Number Publication Date
CN108615199A true CN108615199A (zh) 2018-10-02

Family

ID=63662934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810448870.3A Pending CN108615199A (zh) 2018-05-11 2018-05-11 基于互联网公开论坛注册情况的用户活动轨迹挖掘方法

Country Status (1)

Country Link
CN (1) CN108615199A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2806383A1 (en) * 2013-05-24 2014-11-26 Hitachi Ltd. Device and method for collecting and managing information of equipment
CN104317959A (zh) * 2014-11-10 2015-01-28 北京字节跳动网络技术有限公司 基于社交平台的数据挖掘方法及装置
CN106874435A (zh) * 2017-01-25 2017-06-20 北京航空航天大学 用户画像构建方法和装置
GB2545707A (en) * 2015-12-22 2017-06-28 Music Media Ltd Media content sharing between users having associated content platforms
CN107203894A (zh) * 2016-03-18 2017-09-26 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN107704586A (zh) * 2017-10-09 2018-02-16 陈包容 一种基于用户活动地址的用户画像的方法、装置和系统
CN107729469A (zh) * 2017-10-12 2018-02-23 北京小度信息科技有限公司 用户挖掘方法、装置、电子设备及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2806383A1 (en) * 2013-05-24 2014-11-26 Hitachi Ltd. Device and method for collecting and managing information of equipment
CN104317959A (zh) * 2014-11-10 2015-01-28 北京字节跳动网络技术有限公司 基于社交平台的数据挖掘方法及装置
GB2545707A (en) * 2015-12-22 2017-06-28 Music Media Ltd Media content sharing between users having associated content platforms
CN107203894A (zh) * 2016-03-18 2017-09-26 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN106874435A (zh) * 2017-01-25 2017-06-20 北京航空航天大学 用户画像构建方法和装置
CN107704586A (zh) * 2017-10-09 2018-02-16 陈包容 一种基于用户活动地址的用户画像的方法、装置和系统
CN107729469A (zh) * 2017-10-12 2018-02-23 北京小度信息科技有限公司 用户挖掘方法、装置、电子设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
Ratkiewicz et al. Detecting and tracking political abuse in social media
CN106453061B (zh) 一种识别网络诈骗行为的方法及系统
CN103218431B (zh) 一种能识别网页信息自动采集的系统
CN104899508B (zh) 一种多阶段钓鱼网站检测方法与系统
CN101820366B (zh) 一种基于预取的钓鱼网页检测方法
CN110781308B (zh) 一种基于大数据构建知识图谱的反欺诈系统
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
CN103605738A (zh) 网页访问数据统计方法及装置
CN101883024A (zh) 一种跨站点伪造请求的动态检测方法
CN107515915A (zh) 基于用户行为数据的用户标识关联方法
Chen et al. Ai@ ntiphish—machine learning mechanisms for cyber-phishing attack
CN106033579A (zh) 数据处理方法和装置
CN105893484A (zh) 一种基于文本特征和行为特征的微博Spammer识别方法
CN102811207A (zh) 网络信息推送方法及系统
CN107733902A (zh) 一种目标数据扩散过程的监控方法及装置
CN107437026A (zh) 一种基于广告网络拓扑的恶意网页广告检测方法
CN108023868A (zh) 恶意资源地址检测方法和装置
CN107766234A (zh) 一种基于移动设备的网页健康度的测评方法、装置及系统
CN103440328B (zh) 一种基于鼠标行为的用户分类方法
CN109478219A (zh) 用于显示网络分析的用户界面
CN114039782A (zh) 一种暗网监控方法、系统及存储介质
CN108399229A (zh) 一种基于大数据的数字图书馆数据库建设方法
CN105989176A (zh) 数据处理方法及装置
CN106874505A (zh) 一种搜索方法及装置
JP2010123038A (ja) 関連ウェブページ発見装置、関連ウェブページ発見方法および関連ウェブページ発見プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181002