CN112800300A - 一种基于社交网络的数据采集与分析系统 - Google Patents
一种基于社交网络的数据采集与分析系统 Download PDFInfo
- Publication number
- CN112800300A CN112800300A CN202110299571.XA CN202110299571A CN112800300A CN 112800300 A CN112800300 A CN 112800300A CN 202110299571 A CN202110299571 A CN 202110299571A CN 112800300 A CN112800300 A CN 112800300A
- Authority
- CN
- China
- Prior art keywords
- nodes
- node
- processor
- indirect
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 23
- 238000013480 data collection Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims description 25
- 238000007405 data analysis Methods 0.000 claims description 21
- 238000009825 accumulation Methods 0.000 claims description 5
- 238000007635 classification algorithm Methods 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 42
- 238000000034 method Methods 0.000 description 24
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 6
- 230000003993 interaction Effects 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003997 social interaction Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于社交网络的数据采集与分析系统,至少包括处理器,处理器配置为:获取社交网络的至少包括中心节点、边缘节点和/或间接节点的拓扑结构;随机选取至少两个中心节点为数据采集的起始,并基于每个中心节点建立包括间接节点和/或边缘节点的第一存储空间;基于第一存储空间寻找连接至少两个中心节点的间接节点/边缘节点,并以朝向该间接节点/边缘节点为方向进行数据采集。通过该设置方式,能够避免忽略隐含连接关系,而且能够短时间后采集到较深层次节点的数据,提高数据采集效率。
Description
技术领域
本发明涉及大数据分析技术领域,具体涉及一种基于社交网络的数据采集与分析系统。
背景技术
随着网络应用与移动设备的发展,社交网络的普及率与使用率日益提高。相比传统网络应用形式,社交网络具有用户主体性强、网络特征多样、数据内容丰富、群体交互密切、信息传播迅速等特点。中国互联网用户数量已经跃居全球首位,互联网用户在社交网站或者各大门户网站平台每天产生大量的网络行为数据。特别是微信、微博、手环等即时通讯、自媒体工具以及个人状态感应设备的使用,更使得每个用户随时都可以产生数据,整个社会深度跨入“社交网络大数据”时代。信息技术的迅速发展,大幅度地提高了科研人员的计算能力,各类型的硬件存储设备也不断升级,逐步满足数据的存储要求。在软件层面,算法、架构和编程语言也层出不穷。软硬件技术的发展,更给大数据挖掘提供了可能。
对社交网络大数据进行挖掘,能获得反映真实世界及其中的人的各种宝贵信息。但同时,社会媒体中的数据也存在多源异构、个体间关系繁杂、信息传播突发等特点,给社会媒体分析提出了技术上的挑战。由于近年来深度学习的流行,而深度学习又需要数据去训练,因此对数据的采集需求又进一步加强。而当前传统系统和方法都不具备大数据分析处理能力,并且数据采集一直存在成本偏高和花费时间长的缺陷。传统数据挖掘技术采用可构建预测模型的算法,包括线性回归,决策树学习器,贝叶斯分类器和支持向量机等,但此类算法依然有待继续改善。
例如,公开号为CN109902216A的中国专利文献公开了一种基于社交网络的数据采集与分析方法,包括以下步骤:(1)以数据采集模块采用Python中的Scrapy框架,构建微博爬虫系统,使用分布式爬虫算法获取微博社交网络中用户数据;(2)数据存储模块将用户数据保存到JSON格式和NoSQL类型的MongoDB数据库中;(3)数据处理模块对用户原创内容进行语义分析,进行用户的主题提取,对大量用户数据进行多维度挖掘分析、判别利用;(4)数据分析模块研究实现缺失属性信息推断算法,获取较全面的用户信息,实现社交网络用户画像。由于文本多样性及社交媒体结构复杂性问题,采用多源融合、多特征融合及机器学习分类功能为一体的算法,利用训练得到的模型和用户的已知特征,预测用户的未知特征,最终实现用户缺失的属性信息的推断。但是,该专利文献由于没有制定任何采集策略,数据采集的成本和计算开销并没有减少,同时无目的性地爬取海量数据,导致采集较多的无用数据和垃圾数据,使得采集效率低下。
此外,一方面由于对本领域技术人员的理解存在差异;另一方面由于发明人做出本发明时研究了大量文献和专利,但篇幅所限并未详细罗列所有的细节与内容,然而这绝非本发明不具备这些现有技术的特征,相反本发明已经具备现有技术的所有特征,而且申请人保留在背景技术中增加相关现有技术之权利。
发明内容
针对现有技术之不足,本发明提供一种基于社交网络的数据采集与分析系统,至少包括处理器。处理器配置为:
获取社交网络的至少包括中心节点、边缘节点和/或间接节点的拓扑结构;
随机选取至少两个中心节点为数据采集的起始,并基于每个中心节点建立包括间接节点和/或边缘节点的第一存储空间;
基于第一存储空间寻找连接至少两个中心节点的间接节点/边缘节点,并以朝向该间接节点/边缘节点为方向进行数据采集。现有社交网络数据采集策略存在以下问题:
1、需要较长时间才能采集到深层次的相邻节点,数据采集的效率低下;
2、遍历所有相邻节点的方式,倾向于选取中心度较大的节点(连接的节点数量较多)作为初始节点,即以初始节点为中心的网络结构,有利于聚类系数的估计,但采集得到的数据均偏向于中心度较大的节点,这就导致容易忽略多个不同中心度较大的节点之间隐含的连接关系,而且倾向于选取中心度较大的节点也会导致无法准确表征原始社交网络。本发明基于社交网络的拓扑结构进行数据采集策略,更强调社交网络的网络结构,以首先搜索弱社交属性的隐含连接关系为主要数据采集方向,从社交网络的综合属性方面发掘不同用户、不同内容、不同媒体之间隐式连接关系。另一方面,在完成隐含连接关系的搜索后,本发明采用时间公平的方式选择剩余的节点,使得每个节点的被采集的概率相同,从而平衡节点选择的倾向程度,在避免采集的数据偏离原始社交网络特征的基础上,能够很好地逼近原始社交网络的总体特征。
根据一种优选实施方式,处理器配置为:
基于中心节点获取包含间接节点和/或边缘节点的多个页面链接URL;
对页面链接URL解析将间接节点和/或边缘节点分为关于用户名的第一类节点、关于问答的第二类节点和关于文章的第三类节点。
根据一种优选实施方式,在第一存储空间没有相同间接节点和/或边缘节点的情况下,处理器配置为:
基于选取的第一存储空间内的节点进行解析分别获取关于该节点的所包含的第一类节点、第二类节点和第三类节点;
将该节点所包含的第一类节点、第二类节点和第三类节点存储于第二存储空间;
基于第二存储空间寻找连接至少两个中心节点的间接节点/边缘节点,并以朝向该间接节点/边缘节点为方向进行数据采集。
根据一种优选实施方式,在第一存储空间内间接节点和/或边缘节点的个数小于第一阈值的情况下,处理器配置为基于等概率的方式随机选取第一存储空间内的所有节点。
根据一种优选实施方式,在第一存储空间内间接节点和/或边缘节点的个数超过第一阈值的情况下,处理器配置为优先选取第二类节点/第三类节点。处理器配置为基于第二类节点和第三类节点包含的节点的数量调整选取第二类节点和第三类节点的概率。
根据一种优选实施方式,处理器配置为按照如下方式采集选取的第一类节点/第二类节点/第三类节点:
随机选取至少一个节点进行采集并解析其包含的节点,从而寻找相同的间接节点和/或边缘节点;
每隔第一时间选取新的节点,并优先基于该新的节点寻找相同的间接节点和/或边缘节点。
根据一种优选实施方式,处理器配置为每间隔第一时间对已选取的节点的优先权进行评估。
根据一种优选实施方式,处理器配置为:
将处理时间超过第二时间的已选取的节点的处理优先级调至最低,并基于间隔的第一时间的次数的累积增加其优先级。
根据一种优选实施方式,处理器配置为在确定多个中间节点之间的隐含关系的情况下,随机选取未被采集的节点以时间公平的采集策略进行数据采集。
根据一种优选实施方式,处理器配置为按照如下步骤基于社交网络采集的数据进行分析:
计算特征文本中特征项的权重;
采用分类算法对用户的偏好建模得到每个用户及话题的特征向量;
基于文本的余弦相似度计算用户的偏好。
附图说明
图1是本发明数据采集与分析系统的一种优选实施方式的模块示意图。
具体实施方式
下面结合附图进行详细说明。
网络爬虫(Crawler)主要是以http请求的方式获取初始的互联网页面,并顺着此页面的超链接不断抓取,是一个自动抓取网页信息的程序。
网络爬虫的工作原理:互联网是网页之间的相互链接,可以把其看成是一个有向图,有向图的节点就是互联网中的网页,而有向图的边即节点之间的连线就是网页之间的超链接,这样整个互联网就形成了一个巨大的网状图。优选地,网络爬虫的工作流程就和数据结构中图的遍历一样。
本发明提供一种基于社交网络的数据采集与分析系统。参见图1,数据采集与分析系统包括处理器10和存储介质20。处理器10配置为执行关于大数据的采集与分析等一系列操作。优选地,处理器10配置执行关于数据采集与分析的操作指令。在一种优选实施方式下,处理器10的配置和/或执行的指令可以存储在存储介质20。处理器10可以访问存储介质20并执行存储介质20存储的配置和/或指令。
优选地,数据采集与分析系统还包括通信单元30。通信单元30用于与外界设备进行交互。通信单元30可以将数据和/或指令传递至处理器10和/或存储介质20。优选地,通信单元30可以将数据和/或指令传递至外界设备。优选地,处理器10可以接收通信单元30传输的指令和/或配置文件。配置文件包括代码、程序和/或指令组合。优选地,处理器10可以在接收通信单元30传输的指令和/或配置文件的同时读取存储介质20内的指令和/或数据。
例如,通信单元30可以是无线类通信模块。通信单元30可以是无线类通信模块的一种或多种组合。无线类通信模块可以是蓝牙模块、Zigbee模块、Wi-Fi模块、3G/4G/5G等移动网络通信模块。通信单元30还可以是有线类通信模块。通信单元30还可以是有线类通信模块的组合。优选地,有线类通信模块可以是以太网的RJ-45接口、细同轴电缆的BNC接口、粗同轴电缆AUI接口、FDDI接口、ATM接口等。优选地,通信单元30可以是无线类通信模块和有线类通信模块的组合。
优选地,外界设备可以是计算终端。例如,计算机、服务器、手机、平板电脑、智能穿戴设备等。外界设备还可以是外设设备。外设设备可以是键盘、鼠标、麦克风、摄像头等。
优选地,处理器10可以是中央处理器(Central Processing Unit,CPU)、通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application-Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable GateArray,FPGA)、图形处理器(Graphics Processing Unit,GPU)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。
优选地,存储介质20可以是磁盘、硬盘、光盘、移动硬盘、固态硬盘、闪存等。例如存储介质20可以是RAM、ROM、EEPROM、CD-ROM、磁盘存储装置。优选地,存储介质20可以是以计算机/处理器可执行指令或数据结构的形式携带或存储的程序代码/指令的其他介质。
优选地,处理器10配置为基于网络爬虫的方式采集数据。处理器10配置为:
选取社交网络中的节点,并采集数据;
基于选取的节点获取相邻的节点;
遍历相邻的节点以采集数据;
在遍历所有的相邻节点后,获取相邻节点的相邻节点;
遍历相邻节点的相邻节点,并采集数据;
直至没有搜索到相邻节点的情况完成数据采集。
优选地,处理器10选取至少一个节点。至少一个节点可以是一个、二个、三个或者更多个。处理器10选取节点后访问该节点。节点可以是网页或网页链接。在社交网络中,节点可以是社交网络中的用户主页。节点可以是用户页面链接。相邻的节点可以是该用户页面链接其他用户的页面链接URL。节点还可以包括附加信息。附加信息可以是用户信息以及用户主页上的其他信息。其他信息包括博文、回答、心情、图片、视频等等。用户信息包括性别、发布信息的数量、用户关系、昵称、地区、婚姻状况、生日、标签。用户关系包括关注该用户的粉丝以及该用户关注的用户。标签包括所从事的职业、所感兴趣的事物、所取得的头衔等。以社交网络为微博举例说明,标签可以是教育、律师、健身、半导体器件设计等。所感兴趣的事物可以是美食、摄影、体育、娱乐、综艺等等。标签还可以是某领域下的优秀答主。优选地,处理器10配置为基于主页上的信息获取公共网络中的数据资源。数据资源还包括该用户发布的内容。具体地,用户发布的内容可能是图片、视频、文字的一种或几种的组合。
优选地,处理器10配置为登录社交网络后对选取的节点进行解析以获取页面链接URL。处理器10配置为获取的页面链接URL可以作为该节点的相邻节点。处理器10配置为将相邻的节点放入队列内。需要说明的是,通过遍历所有相邻节点的方式进行社交网络数据的采集,其原理是分层次采集。处理器10从节点开始搜索目录层次较浅的相邻节点(用户页面链接URL),当同一层次的相邻节点采集完成后,再对相邻节点的相邻节点进行数据采集。这种数据采集策略可以保证节点覆盖率的广度,能够覆盖社交网络中的多个网页。同时这种数据采集策略可以进一步地对相邻节点的采集层次进行控制,例如仅搜索两层的相邻节点,避免因搜索的层次较多而长时间进行数据采集,从而导致处理器10陷入死循环中。但是,这种数据采集策略存在以下问题:
1、这种数据采集方式需要较长时间才能采集到深层次的相邻节点,数据采集的效率低下;
2、遍历所有相邻节点的方式,倾向于选取中心度较大的节点(连接的节点数量较多)作为初始节点,即以初始节点为中心的网络结构,有利于聚类系数的估计,但采集得到的数据均偏向于中心度较大的节点,这就导致容易忽略多个不同中心度较大的节点之间隐含的连接关系。
进一步地,倾向于选取中心度较大的节点也会导致无法准确表征原始社交网络。一方面,现在社交网络存在大量的假性聚类问题。比如,基于一时兴起的关注导致用户存在大量的虚假关注和虚假粉丝。显然这些虚假关注和虚假粉丝的存在会对该用户的分析刻画提供大量的干扰数据,导致真正的有效数据被淹没在虚假关注和虚假粉丝处抓取的数据内,同时抓取的干扰数据使得采集的数据偏离原始社交网络特征。另一方面,倾向于选取中心度较大的节点,而不遵循随机概率原则,导致不能很好地逼近社交网络的总体特征。
基于以上问题,本发明提供一种基于社交网络的数据采集与分析系统,在数据采集策略方面进行改进,其原理如下:
相对于以用户为中心的遍历节点数据采集策略,本发明基于社交网络的拓扑结构进行数据采集,更强调社交网络的网络结构,以首先搜索弱社交属性的隐含连接关系为主要数据采集方向,从社交网络的综合属性方面发掘不同用户、不同内容、不同媒体之间的隐式连接关系。另一方面,在完成隐含连接关系的搜索后,本发明采用时间公平的方式选择剩余的节点,使得每个节点的被采集的概率相同,从而平衡节点选择的倾向程度,在避免采集的数据偏离原始社交网络特征的基础上,能够很好地逼近原始社交网络的总体特征。
实施例1
本实施例提供一种基于社交网络的数据采集与分析系统,可以是一种数据采集系统或方法,也可以是一种大数据采集系统或方法,还可以是一种数据搜索系统或方法,还可以是一种基于爬虫采集数据的调度方法。本实施例提供的数据采集系统或方法还可以应用于除社交网络的其他网络,包括但不限于生物网络(如蛋白质网络)、商品销售网络、通信网络、无线传感网络、物流网络等具有多个节点和产生大量数据的网络。以上系统和/或方法可以由本发明的系统和/或其他可替代的零部件实现。比如,通过使用本发明的系统中的各个零部件实现本发明的系统。在不造成冲突或者矛盾的情况下,其他实施例的优选实施方式的整体和/或部分内容可以作为本实施例的补充。
优选地,处理器10配置为:
获取社交网络的至少包括中心节点、边缘节点和/或间接节点的拓扑结构;
随机选取至少两个中心节点为数据采集的起始,并基于每个中心节点建立包括间接节点和/或边缘节点的第一存储空间;
基于第一存储空间寻找连接至少两个中心节点的间接节点/边缘节点,并以朝向该间接节点/边缘节点为方向进行数据采集。优选地,社交网络的拓扑结构分为中心节点、边缘节点和/或间接节点。社交网络的拓扑结构包括多个并列的中心节点。中心节点连接有间接节点和/或边缘节点。间接节点可以是中心节点与边缘节点路径中的必经节点。边缘节点可以是中心节点包含的页面链接URL。社交网络的拓扑结构中,两个中心节点可以不连接或连接。两个中心节点不连接,证明彼此没有隐含连接关系。如果两个中心节点具有直接连接关系,可以在爬取数据时直接获取两个中心节点的连接关系。如果两个中心节点不直接连接,那么就需要挖掘两个中心节点之间的隐含连接关系。本发明数据采集的策略为随机选择两个中心节点作为起始的中心节点,并寻找连接两个中心节点的间接节点/边缘节点,然后沿朝向该间接节点/边缘节点的方向进行数据采集。例如,基于对中心节点的解析获取页面链接URL后,以第一存储空间存储页面链接URL。第一存储空间可以采用队列或者缓存空间的方式存储页面链接URL。处理器10配置为在队列或者缓存空间中寻找两个中心节点包含的相同的间接节点/边缘节点。在处理器10寻找到相同的间接节点/边缘节点后,处理器10配置为生成数据采集的节点路径。该节点路径指的是起始为中心节点,终点为该相同的间接节点/边缘节点。
通过该设置方式,达到的有益效果是:
首先以寻找两个中心节点的至少一个隐含关系的方式进行数据采集是一种与中心度大小无关的数据采集方式,能够避免忽略隐含连接关系。同时,由于隐含关系所处的层次较深,因此本发明数据采集的层次至少能够达到相同间接节点/边缘节点所处的层次,即能够短时间后采集到较深层次节点的数据,提高数据采集效率。
优选地,需要说明的是中心节点对应的可以是用户,也可以是内容,还可以是标签。例如,可以通过页面解析技术解析社交网络中的社交网站。而现在社交网站不仅具有社交属性,同时还具有内容属性和媒体属性。例如,热门话题下的参与。参与包括回答、浏览、关注、点赞、收藏等等。社交与内容之间存在相互驱动的内核。即通过热门话题的参与、热门问题的回答等带来了隐含的社交属性,两个不同的用户可以因此产生互联,进而对于社交网络带来了较为隐蔽的网络结构。因此,当某些热门问题作为中心节点时,其连接了大量的用户,并记载了用户产生的大量操作信息,这些信息包含大量的社交属性特征。具体地,以问答类的网站为例,其为社交网络提供的潜在社交属性如下:
1、关注与被关注,这是社交属性的经典特征,并且问答类网站依赖关注生成时间线,更增加了社交属性的设计,更有利地推动社交的产生;
2、点赞与感谢,作为问答类网站的经典互动,同时赋予社交互动和内容筛选的双重价值;该数据的采集有利于后续用户分析;特别地,该问答类网站基于点赞与感谢推出的可以查看其他用户对自己的点赞和点赞数量等功能,进一步地加强了用户之间的社交;
3、评论与私信,基于最常用的互动渠道角度,评论与私信两者在社交层面所起的价值和作用随社交类网站、App以及社交产品的变化不断波动;同时某些用户评论与私信对社交产生较大的作用,而对于某些用户评论与私信几乎不产生社交类的作用;
4、邀请,由于现在问答类网站、App对于邀请设计的初衷是负责承载问题的传播,即邀请的产生过多地依赖算法的推荐,而不是基于社交过程的相互了解,因此邀请的社交色彩较为暗淡,但正由于承载问题传播的属性又扩大了彼此没有产生交集的用户的彼此互动的机会,从而加深了社交网络中隐含连接关系的隐蔽性。
基于以上社交网络的特点,本发明的中心节点并不仅仅指代用户,还包括社交网站、App首页上的热门话题、微博、文章等。优选地,本发明的节点可以是用户页面链接URL、社交网站主页链接URL、回答页面链接URL、文章页面链接URL。通过该设置方式,达到的有益效果是:
现在社交网络的定位较为模糊,更多的社交网站本身具有多重属性。例如,社交、媒体以及内容多种属性糅合。单纯地以用户页面链接URL为节点的爬取数据,得到的数据无法准确地刻画用户画像。而基于用户为中心节点的搜索方式,会导致得到的用户数据不可靠,导致数据分析的结果具有显著的倾向性。因此,本发明考虑用户以外的页面链接URL作为中心节点,从而将用户为中心的检索结构扩展成为多网络结构的分散型检索结构。例如,本发明的检索结构包括用户中心检索结构,而在用户附近还存在以热门问答网页、热门文章网页、社交网站主页等要素为中心的检索结构,能够避免采集得到的数据以倾向用户,并能够获得大量非明显相互关联(关注与粉丝)用户之间的彼此互动特征,进而能够准确刻画用户画像。
优选地,页面解析技术可以是XML方法、正则表达式法、Xpath方法等。例如可以采用Xpath方法对微博用户页面进行数据提取。Xpath会将网页信息转化为XML文件。XML是可扩展标记语言,是一种用于标记电子文件使其具有结构性的标记语言。XML文件以树形的结构存储在Xpath解析器中。当想要抓取一段用户信息时,Xpath会从网页XML的头开始,树形地查找到相应的信息片段。Xpath含有七种不同的节点类型,包括:注释、元素、命名空间、根节点信息、属性、处理指令和文本。Xpath通过树形表达式定位查找网页上的特定文本。优选地,通过页面链接URL可以获得关联该用户的用户名ID。关联该用户可以是该用户的关注、粉丝、收藏、赞同、邀请等。优选地,通过页面链接可以获得关联的内容类型,例如用户主页、问答、文章等。
优选地,处理器10配置为:
基于中心节点获取包含间接节点和/或边缘节点的多个页面链接URL;
对页面链接URL解析将间接节点和/或边缘节点分为关于用户名的第一类节点、关于问答的第二类节点和关于文章的第三类节点。处理器10配置为将第一类节点、第二类节点和第三类节点分类存储于第一存储空间。处理器10配置为遍历起始的中心节点的第一存储空间以获取相同的节点。需要说明的是,通常情况下由于隐含连接关系的隐秘性,两个中心节点的第一存储空间内的节点相同的概率较小,因此需要对第一存储空间内的节点再次进行页面解析以获得更多的节点。优选地,在第一存储空间没有相同间接节点和/或边缘节点的情况下,处理器10配置为:
基于选取的第一存储空间内的节点进行解析分别获取关于该节点的所包含的第一类节点、第二类节点和第三类节点;
将该节点所包含的第一类节点、第二类节点和第三类节点存储于第二存储空间;
基于第二存储空间寻找连接至少两个中心节点的间接节点/边缘节点,并以朝向该间接节点/边缘节点为方向进行数据采集。优选地,在第二存储空间没有寻找到相同的间接节点和/或边缘节点的情况下,处理器10配置为按照生成第一存储空间和第二存储空间的方式解析第二存储空间内的节点并获取第一类节点、第二类节点和第三类节点。通过该设置方式,本发明按照第一存储空间、第二存储空间等基于节点依照不同层次的节点生成的存储空间寻找社交网络存在的隐含连接关系,能够逐层搜索,并且覆盖社交网络中的多个节点,避免遗漏潜在的隐含连接关系的节点。
优选地,在第一存储空间内间接节点和/或边缘节点的个数小于第一阈值的情况下,处理器10配置为基于等概率的方式随机选取第一存储空间内的所有节点。第一阈值可以根据起始选取的至少两个中心性节点的拓扑结构进行确定。例如,第一阈值可以是5个、7个或者10个。在计算机性能允许或者采用并行计算/搜索的情况下,第一阈值还可以是10个以上。通过该设置方式,在获取的页面链接URL个数较小的情况下,可以采用等概率的方式实现公平选取,避免因总是偏向某种特性的间接节点/边缘节点而导致忽略其他间接节点/边缘节点,进而使得处理器10陷入某些层次较深的节点,从而无法快速获取隐含连接关系。
优选地,在第一存储空间内没有寻找到相同间接节点和/边缘节点且第二存储空间内间接节点和/或边缘节点的个数小于第一阈值的情况下,处理器10配置为基于等概率的方式随机选取第二存储空间内的所有节点。
优选地,在第一存储空间内间接节点和/或边缘节点的个数超过第一阈值的情况下,处理器10配置为优先选取第二类节点/第三类节点。现有社交网络的社交属性是两种模式并存。第一种模式为经典的依赖社交关系。第二种模式通过知识、经验连接不同的用户。第一种模式下对应的是第一类节点,能够比较直观地获取不同中心节点的关系,而第二种模式下对应的第二类节点和第三类节点有较大的概率包含有隐含连接关系,因此通过优先搜索第二类节点/第三类节点能够提高获取隐含连接关系的概率和速度。
优选地,处理器10配置为基于第二类节点和第三类节点包含的节点的数量调整选取第二类节点和第三类节点的概率。处理器10配置为优先选取包含节点数量多的第二类节点和第三类节点。优选地,处理器10配置为按照如下方式采集选取的第一类节点/第二类节点/第三类节点:
随机选取至少一个节点进行采集并解析其包含的节点,从而寻找相同的间接节点和/或边缘节点;
每隔第一时间选取新的节点,并优先基于该新的节点寻找相同的间接节点和/或边缘节点。第一时间可以根据处理器10的并行处理性能设置。例如,第一时间可以是10s、20s、30s等。通过该设置方式,达到的有益效果是:
能够充分利用处理器10的并行计算能力,可以同时对多个节点并行寻找相同的间接节点和/或边缘节点,从而能够快速遍历第一存储空间/第二存储空间内的节点以提高隐含连接关系的挖掘速度,同时优先处理新选取的节点,还能够避免因已经采集和/或处理的节点层级过深导致处理器10分配过多的计算资源,从而能够提高处理器10的寻找相同间接节点和/或边缘节点的效率,同时也能够避免进入死循环。
优选地,处理器10配置为每间隔第一时间对已选取的节点的优先权进行评估。处理器10配置为:
将处理时间超过第二时间的已选取的节点的处理优先级调至最低,并基于间隔的第一时间的次数的累积增加其优先级。第二时间可以是1分钟、2分钟、3分钟或者5分钟。第二时间用于确定寻找相同间接节点和/或边缘节点的退出时间。第二时间的设置为搜索相同间接节点和/或边缘节点的退出机制,进一步避免在某一节点耗费过多的计算资源和时间成本。优选地,在已选取的节点的处理优先级调至最低的情况下,处理器10优先处理其他处理时间未超过第二时间的已选取的节点。处理优先级调至最低的节点其节点随着时间的积累能够动态增加其处理优先级。通过该设置方式,达到的有益效果是:
由于节点的隐含关系的层级和范围是不确定的,而对于某些隐含关系层次较深的节点,需要耗费更多的时间和资源对其搜索。但是这种搜索方式对于其他隐含关系层次较浅的节点不公平,因此本发明以处理时间的时间成本为公平条件,对超过第二时间的节点的处理优先级进行调整,通过处理优先级调至最低并随时间的积累增加其优先级能够保证对所有的节点投入相同的计算资源和时间成本,进而能够快速发掘出多个中心节点之间层次较浅的隐含连接关系。
实施例2
本实施例是对实施例1的进一步改进和/或补充,重复的内容不再赘述。
本实施例对实施例1数据采集与分析系统中的数据采集过程中,隐含关系挖掘之后对其他节点的采集策略的进一步补充。
优选地,处理器10配置为在确定多个中间节点之间的隐含关系的情况下,随机选取未被采集的节点以时间公平的采集策略进行数据采集。时间公平的采集策略如下:
处理器10配置为随机选取至少一个未被选取和采集的节点进行数据采集;
处理器10配置为每间隔第三时间选取新的节点;
处理器10配置为将新的节点的处理优先级调至最高,并将处理时间超过第四时间的已选取的节点的处理优先级调至最低。优选地,处理器10配置为基于间隔的第三时间的次数的累积增加其处理优先级。优选地,第三时间可以根据设置自动调整。本实施例中第三时间为1分钟。第四时间可以根据实际社交网络选取的目标网站进行动态设置,例如第四时间可以是5分钟、8分钟或者10分钟。通过该设置方式,达到的有益效果是:
从计算资源和时间成本的公平性角度对节点的采集/选取进行衡量,能够避免因倾向于选取中心度较大的节点导致无法准确表征原始社交网络。同时由于根据第三时间和第四时间动态调整节点的采集优先级,使得中心度小的节点与中心度大的节点具有相同的倾向程度,进而假性聚类的节点和非假性聚类的节点分配相同的数据采集资源,同时也避免不能很好地逼近社交网络的总体特征的问题,从而提高数据采集效率,并减少时间成本和计算成本开销。
实施例3
本实施例提供一种基于社交网络的数据分析系统,可以是一种基于社交网络的数据分析方法,也可以是一种大数据分析系统或方法。本实施例提供的数据分析系统或方法还可以应用于除社交网络的其他网络,包括但不限于生物网络(如蛋白质网络)、商品销售网络、通信网络、无线传感网络、物流网络等具有多个节点和产生大量数据的网络。以上系统和/或方法可以由本发明的系统和/或其他可替代的零部件实现。比如,通过使用本发明的系统中的各个零部件实现本发明的系统。在不造成冲突或者矛盾的情况下,其他实施例的优选实施方式的整体和/或部分内容可以作为本实施例的补充。
本实施例的数据分析系统包括处理器10和存储介质20。处理器10配置为执行关于大数据的采集与分析等一系列操作。优选地,处理器10配置执行关于数据采集与分析的操作指令。在一种优选实施方式下,处理器10的配置和/或执行的指令可以存储在存储介质20。处理器10可以访问存储介质20并执行存储介质20存储的配置和/或指令。
优选地,数据采集与分析系统还包括通信单元30。通信单元30用于与外界设备进行交互。通信单元30可以将数据和/或指令传递至处理器10和/或存储介质20。优选地,通信单元30可以将数据和/或指令传递至外界设备。优选地,处理器10可以接收通信单元30传输的指令和/或配置文件。配置文件包括代码、程序和/或指令组合。优选地,处理10可以接收通信单元30传输的指令和/或配置文件的同时读取存储介质20内的指令和/或数据。
例如,通信单元30可以是无线类通信模块。通信单元30可以是无线类通信模块的一种或多种的组合。无线类通信模块可以是蓝牙模块、Zigbee模块、Wi-Fi模块、3G/4G/5G等移动网络通信模块。通信单元30还可以是有线类通信模块。通信单元30还可以是有线类通信模块的组合。优选地,有线类通信模块可以是以太网的RJ-45接口、细同轴电缆的BNC接口、粗同轴电缆AUI接口、FDDI接口、ATM接口等。优选地,通信单元30可以是无线类通信模块和有线类通信模块的组合。
优选地,外界设备可以是计算终端。例如,计算机、服务器、手机、平板电脑、智能穿戴设备等。外界设备还可以是外设设备。外设设备可以是键盘、鼠标、麦克风、摄像头等。
优选地,处理器10可以是中央处理器(Central Processing Unit,CPU)、通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application-Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable GateArray,FPGA)、图形处理器(Graphics Processing Unit,GPU)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。
优选地,存储介质20可以是磁盘、硬盘、光盘、移动硬盘、固态硬盘、闪存等。例如RAM、ROM、EEPROM、CD-ROM、磁盘存储装置。优选地,存储介质可以是以计算机/处理器可执行指令或数据结构的形式携带或存储的程序代码/指令的其他介质。
本实施例基于对实施例1和2采集的数据进行分析,重复的内容不再赘述。
优选地,处理器10配置为对社交网络的用户偏好进行分析。处理器10可以采用MongoDB和文本文件两种方式对社交网络采集的数据进行存储。
优选地,处理器10配置为按照如下步骤基于社交网络采集的数据进行分析:
S100:采用TF-IDF(Term Frequency-Inverse Document Frequency)计算特征文本中特征项的权重。
S200:采用VSM(Vector-Space Model)对用户的偏好建模得到每个用户及话题的特征向量。
S300:采用文本的余弦相似度计算用户的偏好。
本发明说明书包含多项发明构思,申请人保留根据每项发明构思提出分案申请的权利。本发明说明书包含多项发明构思,诸如“优选地”、“根据一个优选实施方式”或“可选地”均表示相应段落公开了一个独立的构思,申请人保留根据每项发明构思提出分案申请的权利。
需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。
Claims (10)
1.一种基于社交网络的数据采集与分析系统,其特征在于,至少包括处理器(10),处理器(10)配置为:
获取社交网络的至少包括中心节点、边缘节点和/或间接节点的拓扑结构;
随机选取至少两个中心节点为数据采集的起始,并基于每个中心节点建立包括间接节点和/或边缘节点的第一存储空间;
基于第一存储空间寻找连接至少两个中心节点的间接节点/边缘节点,并以朝向该间接节点/边缘节点为方向进行数据采集。
2.根据权利要求1所述的数据采集与分析系统,其特征在于,处理器(10)配置为:
基于中心节点获取包含间接节点和/或边缘节点的多个页面链接URL;
对页面链接URL解析将间接节点和/或边缘节点分为关于用户名的第一类节点、关于问答的第二类节点和关于文章的第三类节点。
3.根据权利要求1或2任一所述的数据采集与分析系统,其特征在于,在第一存储空间没有相同间接节点和/或边缘节点的情况下,处理器(10)配置为:
基于选取的第一存储空间内的节点进行解析分别获取关于该节点的所包含的第一类节点、第二类节点和第三类节点;
将该节点所包含的第一类节点、第二类节点和第三类节点存储于第二存储空间;
基于第二存储空间寻找连接至少两个中心节点的间接节点/边缘节点,并以朝向该间接节点/边缘节点为方向进行数据采集。
4.根据前述权利要求任一所述的数据采集与分析系统,其特征在于,在第一存储空间内间接节点和/或边缘节点的个数小于第一阈值的情况下,处理器(10)配置为基于等概率的方式随机选取第一存储空间内的所有节点。
5.根据前述权利要求任一所述的数据采集与分析系统,其特征在于,在第一存储空间内间接节点和/或边缘节点的个数超过第一阈值的情况下,处理器(10)配置为优先选取第二类节点/第三类节点,其中,
处理器(10)配置为基于第二类节点和第三类节点包含的节点的数量调整选取第二类节点和第三类节点的概率。
6.根据前述权利要求任一所述的数据采集与分析系统,其特征在于,处理器(10)配置为按照如下方式采集选取的第一类节点/第二类节点/第三类节点:
随机选取至少一个节点进行采集并解析其包含的节点,从而寻找相同的间接节点和/或边缘节点;
每隔第一时间选取新的节点,并优先基于该新的节点寻找相同的间接节点和/或边缘节点。
7.根据前述权利要求任一所述的数据采集与分析系统,其特征在于,处理器(10)配置为每间隔第一时间对已选取的节点的优先权进行评估。
8.根据前述权利要求任一所述的数据采集与分析系统,其特征在于,处理器(10)配置为:
将处理时间超过第二时间的已选取的节点的处理优先级调至最低,并基于间隔的第一时间的次数的累积增加其优先级。
9.根据前述权利要求任一所述的数据采集与分析系统,其特征在于,处理器(10)配置为在确定多个中间节点之间的隐含关系的情况下,随机选取未被采集的节点以时间公平的采集策略进行数据采集。
10.根据前述权利要求任一所述的数据采集与分析系统,其特征在于,处理器(10)配置为按照如下步骤基于社交网络采集的数据进行分析:
计算特征文本中特征项的权重;
采用分类算法对用户的偏好建模得到每个用户及话题的特征向量;
基于文本的余弦相似度计算用户的偏好。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110299571.XA CN112800300B (zh) | 2021-03-19 | 2021-03-19 | 一种基于社交网络的数据采集与分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110299571.XA CN112800300B (zh) | 2021-03-19 | 2021-03-19 | 一种基于社交网络的数据采集与分析系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112800300A true CN112800300A (zh) | 2021-05-14 |
CN112800300B CN112800300B (zh) | 2023-09-12 |
Family
ID=75815547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110299571.XA Active CN112800300B (zh) | 2021-03-19 | 2021-03-19 | 一种基于社交网络的数据采集与分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800300B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110035347A1 (en) * | 2009-08-10 | 2011-02-10 | Yaacov Shama | Systems and methods for identifying provider noncustomers as likely acquisition targets |
CN105117422A (zh) * | 2015-07-30 | 2015-12-02 | 中国传媒大学 | 智能社交网络推荐系统 |
CN111131379A (zh) * | 2019-11-08 | 2020-05-08 | 西安电子科技大学 | 一种分布式流量采集系统和边缘计算方法 |
-
2021
- 2021-03-19 CN CN202110299571.XA patent/CN112800300B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110035347A1 (en) * | 2009-08-10 | 2011-02-10 | Yaacov Shama | Systems and methods for identifying provider noncustomers as likely acquisition targets |
CN105117422A (zh) * | 2015-07-30 | 2015-12-02 | 中国传媒大学 | 智能社交网络推荐系统 |
CN111131379A (zh) * | 2019-11-08 | 2020-05-08 | 西安电子科技大学 | 一种分布式流量采集系统和边缘计算方法 |
Non-Patent Citations (2)
Title |
---|
尹雅丽: "社交网络数据采集方法研究及社团结构分析", 《现代计算机》, no. 8, pages 31 - 33 * |
赵俊: "社交网络的数据采集与分析方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 1, pages 138 - 940 * |
Also Published As
Publication number | Publication date |
---|---|
CN112800300B (zh) | 2023-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Khder | Web scraping or web crawling: State of art, techniques, approaches and application. | |
Giannoulakis et al. | Evaluating the descriptive power of Instagram hashtags | |
CN105446973B (zh) | 社交网络中用户推荐模型的建立及应用方法和装置 | |
US8200617B2 (en) | Automatic mapping of a location identifier pattern of an object to a semantic type using object metadata | |
Li et al. | Community detection using hierarchical clustering based on edge-weighted similarity in cloud environment | |
US9208441B2 (en) | Information processing apparatus, information processing method, and program | |
TWI533246B (zh) | 使用者未知興趣之探索方法與系統 | |
Zhao et al. | Social sentiment sensor: a visualization system for topic detection and topic sentiment analysis on microblog | |
CN105045931A (zh) | 一种基于Web挖掘的视频推荐方法和系统 | |
CN107193987A (zh) | 获取与页面相关的搜索词的方法、装置和系统 | |
CN111859160A (zh) | 一种基于图神经网络会话序列推荐方法及系统 | |
Strobbe et al. | Interest based selection of user generated content for rich communication services | |
Khatter et al. | An intelligent personalized web blog searching technique using fuzzy-based feedback recurrent neural network | |
CN111259220B (zh) | 一种基于大数据的数据采集方法和系统 | |
Trevisiol et al. | Image ranking based on user browsing behavior | |
Rao et al. | A survey on methods used in web usage mining | |
Yigit et al. | Extended topology based recommendation system for unidirectional social networks | |
Cao et al. | Web video topics discovery and structuralization with social network | |
Khan et al. | Emotional-physic analysis using multi-feature hybrid classification | |
Kawase et al. | Exploiting the wisdom of the crowds for characterizing and connecting heterogeneous resources | |
CN111984874A (zh) | 一种融合情感计算和网络众包的并行推荐方法 | |
CN112800300B (zh) | 一种基于社交网络的数据采集与分析系统 | |
Zheng et al. | Neighborhood-user profiling based on perception relationship in the micro-blog scenario | |
ElGindy et al. | Enriching user profiles using geo-social place semantics in geo-folksonomies | |
Maratea et al. | An heuristic approach to page recommendation in web usage mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20210514 Assignee: Hunan kuntian Technology Co.,Ltd. Assignor: Hunan University of Humanities, Science and Technology Contract record no.: X2023980052612 Denomination of invention: A data collection and analysis system based on social networks Granted publication date: 20230912 License type: Common License Record date: 20231215 |