CN110070410A - 一种基于大数据的人口社交分析方法及系统 - Google Patents
一种基于大数据的人口社交分析方法及系统 Download PDFInfo
- Publication number
- CN110070410A CN110070410A CN201910173376.5A CN201910173376A CN110070410A CN 110070410 A CN110070410 A CN 110070410A CN 201910173376 A CN201910173376 A CN 201910173376A CN 110070410 A CN110070410 A CN 110070410A
- Authority
- CN
- China
- Prior art keywords
- comment
- data
- user
- node
- population
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 47
- 230000000694 effects Effects 0.000 title claims abstract description 39
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 34
- 238000013480 data collection Methods 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 28
- 101000911753 Homo sapiens Protein FAM107B Proteins 0.000 claims abstract description 10
- 102100026983 Protein FAM107B Human genes 0.000 claims abstract description 10
- 238000007405 data analysis Methods 0.000 claims abstract description 8
- 238000005065 mining Methods 0.000 claims abstract description 7
- 230000008451 emotion Effects 0.000 claims description 18
- 238000003860 storage Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 8
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000008676 import Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000013468 resource allocation Methods 0.000 claims description 3
- 239000013065 commercial product Substances 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 7
- 239000000203 mixture Substances 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 3
- 238000003012 network analysis Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000006071 cream Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种基于大数据的人口社交分析方法和系统。该方法包括:通过社交网站公开API函数获取社交网站中的基础数据集、发帖数据集、所述评论数据集搭建人口社交大数据分析环境;进行数据预处理,形成评论关系数据集;根据所述评论关系数据集,按照每个商标所属商品类别,以发帖用户为源节点,评论用户为目的节点,发帖用户与评论用户之间的评论关系为有向边,建立人口社交网络;基于HITS算法进行挖掘分析,得到各类商品的关键节点。本申请实施例的一种基于大数据的人口社交分析方法及系统,通过结合社会网络分析方法特点,提高了商品推荐准确度。
Description
技术领域
本申请涉及人口社交分析领域,尤其涉及一种基于大数据的人口社交分析方法及系统。
背景技术
社会网络分析是研究一组行动者的关系的研究方法。从社会网络的角度出发,人在社会环境中的相互作用可以表达为基于关系的一种模式或规则,而基于这种关系的有规律模式反映了社会结构,这种结构的量化分析是社会网络分析的出发点。随着互联网的发展,通过社交网站蕴含的社会网络关系成为当前研究热点,如何通过社交网络发现商品推荐重点人群成为各电商面对的难题,本申请融合社会网络分析、情感分析及推荐系统技术,既提高了人口社交分析的效率,又提高了商品推荐的准度,节约了人力、物力、财力。
发明内容
有鉴于此,本申请的目的在于提出一种基于大数据的人口社交分析方法及系统,提高商品推荐精准度,通过分析社交网站中发帖情感及社交关系,实现提高上屏推荐准确度的技术效果。
基于上述目的,本申请提出了一种基于大数据的人口社交分析方法,包括:
通过社交网站公开API函数获取社交网站中的基础数据、发帖数据、评论数据,通过规则匹配算法抽取出所述基础数据中的用户属性信息形成基础数据集,通过命名实体识别算法抽取出发帖数据和评论数据中的商标信息形成发帖数据集和评论数据集,将所述基础数据集、发帖数据集、所述评论数据集导入数据仓库中,搭建人口社交大数据分析环境;
对所述基础数据集、所述发帖数据集、所述评论数据集进行清洗,并将用户属性信息、商标信息进行归一化处理,并将所述商标信息按商品类别进行分类,结合社交网站中的发帖-评论关系,形成评论关系数据集;
根据所述评论关系数据集,按照每个商标所属商品类别,以发帖用户为源节点,评论用户为目的节点,发帖用户与评论用户之间的评论关系为有向边,建立人口社交网络;
基于HITS算法对所述人口社交网络进行挖掘分析,得到各类商品的关键节点。
在一些实施例中,所述所述人口社交大数据分析环境包括:
批处理层,负责处理快递离线数据,对离线快递数据进行比对、分类、推荐,采用Spark架构进行处理;
实时处理层,采用Flume、ZooK eeper、K afaka、Spark Stream ing中的一种或多种架构,负责处理实时快递数据,实时产生推荐结果;
服务层,实现与用户的交互,将推荐信息返回至用户。
在一些实施例中,所述基础数据还包括性别、年龄、职业、所在地;所述商标信息还包括采用情感分析算法抽取自发帖或评论文本的用户情感属性。
在一些实施例中,所述建立人口社交网络,包括:
以发帖用户为源节点,以评论用户为目的节点,连接源节点和目的节点之间的有向边属性包括:商标类型、情感属性,构建人口社交网络。
在一些实施例中,所述人口社交网络中,所述源节点与所述目的节点之间的有向边权重通过以下公式计算:
W=∑ωi·Pi,
其中W为有向边加权,ωi为所述有向边第i个边属性的加权系数,Pi为所述有向边第i个边属性的量化值。
在一些实施例中,所述基于HITS算法挖掘各类商品的关键节点,包括:
迭代计算所述人口社交网络中每个节点的中心度和权威度,其中中心度和权威度通过以下公式得到:
其中d为人口社交网络中的节点,hub(d)为节点d的中心度,authority(d)为节点d的权威度,d`为d的邻节点,hub(d`)为节点d`的中心度,authority(d`)为节点d`的权威度;
当迭代计算进入稳态后,得到人口社交网络中各类商品的关键节点。
基于上述目的,本申请还提出了一种基于大数据的人口社交分析系统,包括:
构建模块,用于通过社交网站公开API函数获取社交网站中的基础数据、发帖数据、评论数据,通过规则匹配算法抽取出所述基础数据中的用户属性信息形成基础数据集,通过命名实体识别算法抽取出发帖数据和评论数据中的商标信息形成发帖数据集和评论数据集,将所述基础数据集、发帖数据集、所述评论数据集导入数据仓库中,搭建人口社交大数据分析环境;
初始模块,用于对所述基础数据集、所述发帖数据集、所述评论数据集进行清洗,并将用户属性信息、商标信息进行归一化处理,并将所述商标信息按商品类别进行分类,结合社交网站中的发帖-评论关系,形成评论关系数据集;
建立模块,用于根据所述评论关系数据集,按照每个商标所属商品类别,以发帖用户为源节点,评论用户为目的节点,发帖用户与评论用户之间的评论关系为有向边,建立人口社交网络;
计算模块,用于基于HITS算法对所述人口社交网络进行挖掘分析,得到各类商品的关键节点。
在一些实施例中,所述构建模块配置为:
批处理层,负责处理快递离线数据,对离线快递数据进行比对、分类、推荐,采用Spark架构进行处理;
实时处理层,采用Flume、ZooK eeper、K afaka、Spark Stream ing中的一种或多种架构,负责处理实时快递数据,实时产生推荐结果;
服务层,实现与用户的交互,将推荐信息返回至用户。
在一些实施例中,所述基于大数据的人口社交分析系统,还包括:
任务调度模块,用于控制任务的分发、资源分配;
效率监控模块,用于监督任务执行效率,并向所述任务调度模块发送监督结果。
本发明实施例还提供了一种计算机可读存储介质,用于存储分布式训练装置所用的计算机软件指令,其包括用于执行上述基于大数据的人口社交分析方法所涉及的程序。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1示出根据本发明实施例的基于大数据的人口社交分析方法的流程图。
图2示出根据本发明实施例的基于大数据的人口社交分析系统的构成图。
图3示出根据本发明实施例的构建模块的构成图。
图4示出根据本发明实施例的基于大数据的人口社交分析系统的构成图。
图5示出根据本发明实施例的基于大数据的人口社交分析系统的结构框架图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出根据本发明实施例的基于大数据的人口社交分析方法的流程图。如图1所示,该基于大数据的人口社交分析方法包括:
步骤S11、通过社交网站公开API函数获取社交网站中的基础数据、发帖数据、评论数据,通过规则匹配算法抽取出所述基础数据中的用户属性信息形成基础数据集,通过命名实体识别算法抽取出发帖数据和评论数据中的商标信息形成发帖数据集和评论数据集,将所述基础数据集、发帖数据集、所述评论数据集导入数据仓库中,搭建人口社交大数据分析环境。
在一种实施方式中,人口社交大数据分析环境可以分为:
批处理层,负责处理快递离线数据,对离线快递数据进行比对、分类、推荐,采用Spark架构进行处理;
实时处理层,采用Flume、ZooK eeper、K afaka、Spark Stream ing中的一种或多种架构,负责处理实时快递数据,实时产生推荐结果;
服务层,实现与用户的交互,将推荐信息返回至用户。
在一种实施方式中,基础数据还包括性别、年龄、职业、所在地;所述商标信息还包括采用情感分析算法抽取自发帖或评论文本的用户情感属性。
通过对用户性别、年龄、职业的分析,可以判断出消费群体的基本特征,并能够对该用户的消费水平进行大概分类。
社交网站中的发帖内容属于短文本,通过对短文本进行情感分析,可以判断出用户对于所谈及的商标是正面态度还是负面态度,进一步可以推导出用户对商标的喜好厌恶感,为商品推荐过程中的量化评判奠定了基础。传统的基于社交网络的商品推荐方法中,一般只是涉及商标,而忽视了用户对该商标所持的情感,准确度不高,甚至有时用户讨厌某商标,仍然将该商标商品推荐给用户,让用户反感。而本发明突破了传统方法的限制,借助社交网络分析算法的同时,还考虑了社交网络发帖中的情感因素,丰富了人口社交分析方法的内容,提高了商品推荐的准确度。
在一种实施方式中,通过社交网站公开API函数获取社交网站中的基础数据包括用户的所在地、性别、职业、年龄、毕业院校、工作信息、标签信息;发帖数据包括发帖时间、发帖文本内容、发帖图片、发帖位置签到信息;评论数据包括评论时间、评论内容、评论用户。
在一种实施方式中,通过规则匹配算法抽取出所述基础数据中的用户属性信息形成基础数据集,规则匹配算法可以通过网页DOM(Docum entO bjectM odel,文档对象模型)树分析方法或正则表达式分析方法实现。
在一种实施方式中,通过命名实体识别算法抽取出发帖数据和评论数据中的商标信息,可以采用基于规则、词典的算法,也可以采用机器学习算法。
具体来说,基于规则、词典的算法可以与预先设计好的商标库建立索引关系,当发帖数据和评论数据命中了商标库中的商标时,即将其抽取出来。
基于机器学习算法的商标抽取可以通过HMM(Hidden Markov Mode,隐式马尔可夫模型)、ME(Maximum Entropy,最大熵)、SVM(SupportV ector Machine,支持向量机)、CRF(Cond itionalRandom Fields,条件随机场)等机器学习算法实现。
在一种实施方式中,可以在机器学习的过程中加入规则匹配方法、商标字典检索,通过基于规则、词典和机器学习融合的方式达到抽取含有商标内容的发帖、评论。
步骤S12、对所述基础数据集、所述发帖数据集、所述评论数据集进行清洗,并将用户属性信息、商标信息进行归一化处理,并将所述商标信息按商品类别进行分类,结合社交网站中的发帖-评论关系,形成评论关系数据集。
在一种实施方式中,数据清洗是发现并纠正数据文件中可识别的错误的一道程序,包括检查数据一致性,处理无效值和缺失值等。将用户属性信息、商标信息进行归一化处理是指当两个命名实体指代同一意思时,统一采用一个名词进行表示。例如,用户的所在地信息,有的用户填写的是“北京”,有的用户填写的是“Beijing”,还有的用户填写的是“首都”,这时可以采用“北京”统一替代所有的表示;又如商标信息中,“玉兰油”有时表示为“OLAY”,也有时写作“Olay”,这时可以统一采用“玉兰油”进行表示。
在一种实施方式中,商标信息按商品类别进行分类可以结合尼斯分类进行判定。将商品分类与人口社交分析方法进行融合,并加入用户情感因素,与传统的商品推荐方法更加准确。
在一种实施方式中,建立人口社交网络,包括:
以发帖用户为源节点,以评论用户为目的节点,连接源节点和目的节点之间的有向边属性包括:商标类型、情感属性,构建人口社交网络。
更进一步地,人口社交网络中,所述源节点与所述目的节点之间的有向边权重通过以下公式计算:
W=∑ωi·Pi,
其中W为有向边加权,ωi为所述有向边第i个边属性的加权系数,Pi为所述有向边第i个边属性的量化值。
在一种实施方式中,情感属性的量化可以通过深度学习方法实现,步骤如下:
1.对发帖/评论文本进行分词,去除停用词;
2.将分词后的结果进行整理,构建词语序列;
3.对词语序列结果分类,找出情感词、否定词、程度副词;
4.计算用户对于商标的感情得分。
其中,计算用户对于商标的感情得分可以通过以下步骤进行:
1.找出所有情感词的下标,构建新词组。新词组的构建通过:该情感词与前一情感词之间的否定词及程度副词+该情感词(第一个情感词前至句首)实现;例如,发帖内容为“我开心的时候不喜欢玉兰油沐浴露了”,经过分词、构建新词组之后,转换为“不喜欢”。
2.计算用户对于商标的感情得分:程度副词的程度值×情感词的情感值,每有一个否定词,使该式×-1;
3.得分累加:针对每个用户的发帖、评论感情得分进行累加,得到最终感情得分。
步骤S13、根据所述评论关系数据集,按照每个商标所属商品类别,以发帖用户为源节点,评论用户为目的节点,发帖用户与评论用户之间的评论关系为有向边,建立人口社交网络。
举例来说,需要对洗护类商品接主人口社交分析方法进行商品推荐时,可以按照洗护商品为类别,通过以发帖用户为源节点,评论内容用户为目的节点,发帖用户与评论用户之间的评论关系为有向边,建立人口社交网络。其中,发帖和评论中只要有一方含有洗护类商标即可加入人口社交网络中。
步骤S14、基于HITS算法((Hyperlink Induced Topic Search,超链接分析算法)对所述人口社交网络进行挖掘分析,得到各类商品的关键节点。
具体来说,迭代计算所述人口社交网络中每个节点的中心度和权威度,其中,中心度和权威度通过以下公式得到:
其中d为人口社交网络中的节点,hub(d)为节点d的中心度,authority(d)为节点d的权威度,d`为d的邻节点,hub(d`)为节点d`的中心度,authority(d`)为节点d`的权威度;
当迭代计算进入稳态后,得到人口社交网络中各类商品的关键节点。
在一种实施方式中,各节点的中心度和权威度的初始值为该节点基于当前商标分类的边权重加权。举例来说,节点A通过边ab指向节点B,节点C通过边ca指向节点A,则A节点的初始中心度和权威度为边ab的有向边加权加上边 ca的有向边加权。
根据HITS算法的理解,网络中中心度较高意味着节点的出度较大,这意味着用户更倾向于评论他人对该类商品的感受,而且这种评论更加正面积极;而权威度较大则意味着节点的入度较大,这意味着用户更倾向于主动发表对该类商品的感受,而且这种感受更加正面积极。电商可以针对这两类不同的用户类型进行商品推荐。
图2根据本发明实施例的基于大数据的人口社交分析系统的构成图。如图 2所示,该基于大数据的人口社交分析系统整体可以分为:
构建模块21,用于通过社交网站公开API函数获取社交网站中的基础数据、发帖数据、评论数据,通过规则匹配算法抽取出所述基础数据中的用户属性信息形成基础数据集,通过命名实体识别算法抽取出发帖数据和评论数据中的商标信息形成发帖数据集和评论数据集,将所述基础数据集、发帖数据集、所述评论数据集导入数据仓库中,搭建人口社交大数据分析环境;
初始模块22,用于对所述基础数据集、所述发帖数据集、所述评论数据集进行清洗,并将用户属性信息、商标信息进行归一化处理,并将所述商标信息按商品类别进行分类,结合社交网站中的发帖-评论关系,形成评论关系数据集;
建立模块23,用于根据所述评论关系数据集,按照每个商标所属商品类别,以发帖用户为源节点,评论用户为目的节点,发帖用户与评论用户之间的评论关系为有向边,建立人口社交网络;
计算模块24,用于基于HITS算法对所述人口社交网络进行挖掘分析,得到各类商品的关键节点。
图3示出根据本发明实施例的构建模块的构成图。
从图3中可以看出,构建模块22,包括:
批处理单元22a,负责处理快递离线数据,对离线快递数据进行比对、分类、推荐,采用Spark架构进行处理;
实时处理单元22b,采用Flume、ZooK eeper、K afaka、Spark Stream ing中的一种或多种架构,负责处理实时快递数据,实时产生推荐结果;
服务单元22c,实现与用户的交互,将推荐信息返回至用户。
图4示出根据本发明实施例的基于大数据的人口社交分析系统的构成图。
从图4可以看出,基于大数据的人口社交分析系统还包括:
任务调度模块25,用于控制任务的分发、资源分配;
效率监控模块26,用于监督任务执行效率,并向所述任务调度模块发送监督结果。
图5示出根据本发明实施例的基于大数据的人口社交分析系统的结构框架图。如图5所示,该装置包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的事务提交方法。所述存储器910和处理器920的数量可以为一个或多个。
该装置还包括:
通信接口930,用于与外界设备进行通信,进行数据交互传输。
存储器910可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA, Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
在一种实时例中,来自于各社交网站的数据,根据社交分析的规模和数据量大小,可以通过分布式存储、本地集中化存储、云存储、边缘存储等多种存储方式进行存储,从而提升深度学习网络数据存储效率,减少数据传输时延。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统) 使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA) 等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种基于大数据的人口社交分析方法,其特征在于,包括:
通过社交网站公开API函数获取社交网站中的基础数据、发帖数据、评论数据,通过规则匹配算法抽取出所述基础数据中的用户属性信息形成基础数据集,通过命名实体识别算法抽取出发帖数据和评论数据中的商标信息形成发帖数据集和评论数据集,将所述基础数据集、发帖数据集、所述评论数据集导入数据仓库中,搭建人口社交大数据分析环境;
对所述基础数据集、所述发帖数据集、所述评论数据集进行清洗,并将用户属性信息、商标信息进行归一化处理,并将所述商标信息按商品类别进行分类,结合社交网站中的发帖-评论关系,形成评论关系数据集;
根据所述评论关系数据集,按照每个商标所属商品类别,以发帖用户为源节点,评论用户为目的节点,发帖用户与评论用户之间的评论关系为有向边,建立人口社交网络;
基于HITS算法对所述人口社交网络进行挖掘分析,得到各类商品的关键节点。
2.根据权利要求1所述的方法,其特征在于,所述人口社交大数据分析环境包括:
批处理层,负责处理快递离线数据,对离线快递数据进行比对、分类、推荐,采用Spark架构进行处理;
实时处理层,采用Flume、ZooKeeper、Kafaka、SparkStreaming中的一种或多种架构,负责处理实时快递数据,实时产生推荐结果;
服务层,实现与用户的交互,将推荐信息返回至用户。
3.根据权利要求1所述的方法,其特征在于,所述基础数据还包括性别、年龄、职业、所在地;所述商标信息还包括采用情感分析算法抽取自发帖或评论文本的用户情感属性。
4.根据权利要求1所述的方法,其特征在于,所述建立人口社交网络,包括:以发帖用户为源节点,以评论用户为目的节点,连接源节点和目的节点之间的有向边属性包括:商标类型、情感属性,构建人口社交网络。
5.根据权利要求4所述的方法,其特征在于,所述人口社交网络中,所述源节点与所述目的节点之间的有向边权重通过以下公式计算:
W=∑ωi·Pi,
其中W为有向边加权,ωi为所述有向边第i个边属性的加权系数,Pi为所述有向边第i个边属性的量化值。
6.根据权利要求1所述的方法,其特征在于,所述基于HITS算法挖掘各类商品的关键节点,包括:
迭代计算所述人口社交网络中每个节点的中心度和权威度,其中中心度和权威度通过以下公式得到:
其中d为人口社交网络中的节点,hub(d)为节点d的中心度,authority(d)为节点d的权威度,d`为d的邻节点,hub(d`)为节点d`的中心度,authority(d`)为节点d`的权威度;
当迭代计算进入稳态后,得到人口社交网络中各类商品的关键节点。
7.一种基于大数据的人口社交分析系统,其特征在于,包括:
构建模块,用于通过社交网站公开API函数获取社交网站中的基础数据、发帖数据、评论数据,通过规则匹配算法抽取出所述基础数据中的用户属性信息形成基础数据集,通过命名实体识别算法抽取出发帖数据和评论数据中的商标信息形成发帖数据集和评论数据集,将所述基础数据集、发帖数据集、所述评论数据集导入数据仓库中,搭建人口社交大数据分析环境;
初始模块,用于对所述基础数据集、所述发帖数据集、所述评论数据集进行清洗,并将用户属性信息、商标信息进行归一化处理,并将所述商标信息按商品类别进行分类,结合社交网站中的发帖-评论关系,形成评论关系数据集;
建立模块,用于根据所述评论关系数据集,按照每个商标所属商品类别,以发帖用户为源节点,评论用户为目的节点,发帖用户与评论用户之间的评论关系为有向边,建立人口社交网络;
计算模块,用于基于HITS算法对所述人口社交网络进行挖掘分析,得到各类商品的关键节点。
8.根据权利要求7所述的系统,其特征在于,所述构建模块配置为:
批处理单元,负责处理快递离线数据,对离线快递数据进行比对、分类、推荐,采用Spark架构进行处理;
实时处理单元,采用Flume、ZooKeeper、Kafaka、SparkStreaming中的一种或多种架构,负责处理实时快递数据,实时产生推荐结果;
服务单元,实现与用户的交互,将推荐信息返回至用户。
9.根据权利要求7所述的系统,其特征在于,还包括:
任务调度模块,用于控制任务的分发、资源分配;
效率监控模块,用于监督任务执行效率,并向所述任务调度模块发送监督结果。
10.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910173376.5A CN110070410A (zh) | 2019-03-07 | 2019-03-07 | 一种基于大数据的人口社交分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910173376.5A CN110070410A (zh) | 2019-03-07 | 2019-03-07 | 一种基于大数据的人口社交分析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110070410A true CN110070410A (zh) | 2019-07-30 |
Family
ID=67366075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910173376.5A Pending CN110070410A (zh) | 2019-03-07 | 2019-03-07 | 一种基于大数据的人口社交分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110070410A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110716533A (zh) * | 2019-10-29 | 2020-01-21 | 山东师范大学 | 影响数控装备可靠性的关键子系统识别方法及系统 |
CN110766414A (zh) * | 2019-09-17 | 2020-02-07 | 重庆特斯联智慧科技股份有限公司 | 一种基于大数据的人口信用水平分析方法及系统 |
CN112148947A (zh) * | 2020-09-28 | 2020-12-29 | 微梦创科网络科技(中国)有限公司 | 一种批量挖掘刷评用户的方法及系统 |
CN112418508A (zh) * | 2020-11-19 | 2021-02-26 | 中国科学院地理科学与资源研究所 | 基于物理空间与社交网络空间交互的人口分布预测方法 |
CN113688202A (zh) * | 2021-07-30 | 2021-11-23 | 杭州网易云音乐科技有限公司 | 情感极性分析方法、装置、电子设备以及计算机存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136267A (zh) * | 2011-12-01 | 2013-06-05 | 腾讯科技(深圳)有限公司 | 一种基于社区的专家挖掘方法与装置 |
CN103198432A (zh) * | 2013-04-12 | 2013-07-10 | 中国科学院计算技术研究所 | 在线社会网络中网络群体的检测方法及系统 |
CN103886074A (zh) * | 2014-03-24 | 2014-06-25 | 江苏名通信息科技有限公司 | 基于社交媒体的商品推荐系统 |
CN104484815A (zh) * | 2014-12-18 | 2015-04-01 | 刘耀强 | 基于模糊本体面向产品方面的情感分析方法及系统 |
CN106779827A (zh) * | 2016-12-02 | 2017-05-31 | 上海晶樵网络信息技术有限公司 | 一种互联网用户行为采集及分析检测的大数据方法 |
CN108170842A (zh) * | 2018-01-16 | 2018-06-15 | 重庆邮电大学 | 基于三部图模型的微博热点话题溯源方法 |
-
2019
- 2019-03-07 CN CN201910173376.5A patent/CN110070410A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136267A (zh) * | 2011-12-01 | 2013-06-05 | 腾讯科技(深圳)有限公司 | 一种基于社区的专家挖掘方法与装置 |
CN103198432A (zh) * | 2013-04-12 | 2013-07-10 | 中国科学院计算技术研究所 | 在线社会网络中网络群体的检测方法及系统 |
CN103886074A (zh) * | 2014-03-24 | 2014-06-25 | 江苏名通信息科技有限公司 | 基于社交媒体的商品推荐系统 |
CN104484815A (zh) * | 2014-12-18 | 2015-04-01 | 刘耀强 | 基于模糊本体面向产品方面的情感分析方法及系统 |
CN106779827A (zh) * | 2016-12-02 | 2017-05-31 | 上海晶樵网络信息技术有限公司 | 一种互联网用户行为采集及分析检测的大数据方法 |
CN108170842A (zh) * | 2018-01-16 | 2018-06-15 | 重庆邮电大学 | 基于三部图模型的微博热点话题溯源方法 |
Non-Patent Citations (1)
Title |
---|
王伟 等: "面向竞争力的特征比较网络:情感分析方法", 《管理科学学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110766414A (zh) * | 2019-09-17 | 2020-02-07 | 重庆特斯联智慧科技股份有限公司 | 一种基于大数据的人口信用水平分析方法及系统 |
CN110716533A (zh) * | 2019-10-29 | 2020-01-21 | 山东师范大学 | 影响数控装备可靠性的关键子系统识别方法及系统 |
CN112148947A (zh) * | 2020-09-28 | 2020-12-29 | 微梦创科网络科技(中国)有限公司 | 一种批量挖掘刷评用户的方法及系统 |
CN112148947B (zh) * | 2020-09-28 | 2024-03-22 | 微梦创科网络科技(中国)有限公司 | 一种批量挖掘刷评用户的方法及系统 |
CN112418508A (zh) * | 2020-11-19 | 2021-02-26 | 中国科学院地理科学与资源研究所 | 基于物理空间与社交网络空间交互的人口分布预测方法 |
CN113688202A (zh) * | 2021-07-30 | 2021-11-23 | 杭州网易云音乐科技有限公司 | 情感极性分析方法、装置、电子设备以及计算机存储介质 |
CN113688202B (zh) * | 2021-07-30 | 2024-03-15 | 杭州网易云音乐科技有限公司 | 情感极性分析方法、装置、电子设备以及计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110070410A (zh) | 一种基于大数据的人口社交分析方法及系统 | |
TWI408560B (zh) | 用以在一電腦網路中推薦使用者其可能感興趣的項目或人物的方法、系統及其裝置 | |
Jerath et al. | Consumer click behavior at a search engine: The role of keyword popularity | |
Woodside et al. | A general theory of tourism consumption systems: A conceptual framework and an empirical exploration | |
Xiang et al. | Representation of the online tourism domain in search engines | |
CN106484764A (zh) | 基于人群画像技术的用户相似度计算方法 | |
Li et al. | Recursive deep learning for sentiment analysis over social data | |
CN107220352A (zh) | 基于人工智能构建评论图谱的方法和装置 | |
Rahim Taleqani et al. | Public opinion on dockless bike sharing: A machine learning approach | |
CN103577549A (zh) | 一种基于微博标签的人群画像系统和方法 | |
Zhang et al. | Combining sentiment analysis with a fuzzy kano model for product aspect preference recommendation | |
CN108334558A (zh) | 一种结合标签和时间因素的协同过滤推荐方法 | |
Wu et al. | Are customer reviews just reviews? Hotel forecasting using sentiment analysis | |
CN111125453A (zh) | 基于子图同构的社交网络中意见领袖角色识别方法及存储介质 | |
CN104268192B (zh) | 一种网页信息提取方法、装置及终端 | |
JP5754854B2 (ja) | 投稿者のプロフィール情報を分析する投稿者分析装置、プログラム及び方法 | |
CN109840319B (zh) | 确定对象实体的方法、系统及计算机设备和存储介质 | |
CN107818084A (zh) | 一种融合点评配图的情感分析方法 | |
Mangal et al. | Analysis of users’ interest based on tweets | |
CN112182145A (zh) | 文本相似度确定方法、装置、设备和存储介质 | |
Husnain et al. | Estimating market trends by clustering social media reviews | |
CN106909560B (zh) | 兴趣点排序方法 | |
KR101811638B1 (ko) | 소셜 네트워크 서비스 사용자의 감정 분석에 의한 영향력 측정 방법 | |
Servia-Rodríguez et al. | Inferring contexts from Facebook interactions: A social publicity scenario | |
CN111340601B (zh) | 商品信息的推荐方法和装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190730 |