CN103309990A - 基于互联网用户公开信息的用户多维度分析与监测方法 - Google Patents
基于互联网用户公开信息的用户多维度分析与监测方法 Download PDFInfo
- Publication number
- CN103309990A CN103309990A CN2013102414609A CN201310241460A CN103309990A CN 103309990 A CN103309990 A CN 103309990A CN 2013102414609 A CN2013102414609 A CN 2013102414609A CN 201310241460 A CN201310241460 A CN 201310241460A CN 103309990 A CN103309990 A CN 103309990A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- information
- analysis
- age
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于互联网用户公开信息的用户多维度分析与监测方法,包括:(1)搜集数据进行预处理;(2)对预处理之后的数据进行分析、挖掘;(3)对数据分析、挖掘数据的结果进行展现、可视化,对数据结果集加以利用。搜集互联网用户数据,主要是微博、qq、微信数据,包括用户的个人基本信息和网络发言数据;以及主要的互联网商业数据,包括电商,行业论坛,门户网站的相关频道,主要是商品,商品销量,以及用户评价等;通过自建计算集群来进行上述搜集,根据公开的信息去预测、补全未公开的信息,如年龄预测等。可以实现更为精准、有效的信息搜集及分析,从量的角度更好地把握市场的动向以及消费者口碑等信息。
Description
技术领域
本发明属于计算机、互联网、信息技术领域,涉及信息的搜集与分析技术,尤其是互联网大数据领域,涉及非公开数据演算推测法。
背景技术
随着科技与互联网的进步,电子商务成为互联网行业的重要的一环,数据已经成为改变一家企业所必不可少的利器。尤其是随着大数据时代的到来,一些曾经非常棘手的问题都能够迎刃而解。用户的消费习惯、兴趣爱好、关系网络以及整个互联网的趋势、潮流都将成为互联网从业者关注的热点,而这一切的获取和分析都离不开大数据。一方面,社会化媒体基础上的大数据挖掘和分析将会衍生很多应用;另一方面,基于数据分析的营销咨询服务也正在兴起。
数据背后潜藏着巨大的商业机会。以前只有Google、微软这样的公司能做大数据的深挖,现在已经有越来越多的创业公司进入,不同公司在不同维度的数据分析和服务正创造出新的商业模式。
微博发言使得人们的行为和情绪的细节化测量成为可能。挖掘用户的行为习惯和喜好,凌乱纷繁的数据背后找到更符合用户兴趣和习惯的产品和服务,并对产品和服务进行针对性地调整和优化,这就是大数据的价值。大数据也日益显现出对各个行业的推进力。
大数据的核心即是通过收集、整理生活中方方面面的数据,并对其进行分析挖掘,进而从中获得有价值信息,最终衍化出一种新的商业模式。这里面,核心的技术就是数据挖掘和统计分析。
目前现有企业虽然可以通过ERP系统及时的监控跟踪分析自己的产品,但是对于竞争对手的情况,市场的动向以及消费者口碑等信息难以从量的角度把握。
经对现有技术的文献检索发现,有关用户多维度分析与监测方法主要有以下几种:
1.LDA(Latent Dirichlet Allocation)算法。这是一个概率模型,用于从文本中挖掘出用户所谈论的主题,本发明将其应用在中文系统,并实现了分布式环境下的海量数据的快速挖掘(来源:Blei,D.M.,Ng,A.Y.,Jordan,M.I.:Latent Dirichlet Allocation.Journal of Machine Learning Research3(2003)993–1022)
2. Bayes算法(朴素贝叶斯算法)来进行年龄预测。这是一个非常常用的文本分类算法,也适合在分布式环境里对海量数据进行分类,效果不错。(参考文献:1.Zhang,Harry."The Optimality of Naive Bayes".FLAIRS2004conference.
方法1是一个集合概率模型,主要用于处理离散的数据集合,目前主要用在数据挖掘(dm)中的text mining和自然语言处理中,主要是用来降低维度的。效果不错但是会有数据缺失的问题。
方法2是ML中的一个非常基础和简单的算法,常常用它来做分类,适用于textclassification。现在的研究中已经很少有人用它来实验了(除非是做base line),但确实是个很好的入门的算法,不过对于年龄等数据推算补足还是太过于粗略。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于互联网海量用户公开信息的用户多维度分析与监测方法。
为达到上述目的,本发明的解决方案是:
一种基于互联网用户公开信息的用户多维度分析与监测方法,包括:
(1)搜集数据进行预处理;
(2)对预处理之后的数据进行分析、挖掘;
(3)对数据分析、挖掘数据的结果进行展现、可视化,对数据结果集加以利用。
进一步,步骤(1)中所述数据的搜集,主要采用ETL进行预处理;
优选的,搜集主要的互联网用户数据,主要是微博、qq、微信数据,包括用户的个人基本信息和网络发言数据;以及主要的互联网商业数据,包括电商,行业论坛,门户网站的相关频道,主要是商品,商品销量,以及用户评价等;
优选的,通过自建计算集群来进行上述搜集,从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序;
优选的,根据公开的信息去预测、补全未公开的信息,如年龄预测,性别预测等。
根据公开的信息去预测、补全年龄的年龄演算推测法:
把年龄分为N個年齡群組A{a1,a2,a3,a4..an}表示A用户的好友集合
(1)然后把关系网数据降维,减少数据量;
(2)age=MAX(count(an)).age;A的年龄=好友中年龄出现最多的
(3)预测正确年龄段人数N;
(4)实际有年龄段的人数M;
(5)准确率=预测正确年龄段人数/实际有年龄段的人数=N/M。
步骤(2)中以数据的分析,挖掘为主;
优选的,数据分析:企业用户可以按时间纬度自己的产品以及指定竞争对手在各个网络渠道的销售情况,以及这些产品的评论口碑,给企业用户多维查询;
优选的,数据挖掘主要包括:
(1)基于CRM库的定向营销:预先建立微博、qq、微信等实体用户数据库,并且为这些用户的贴上喜好标签,企业方可以对这些用户发送广告信息;
(2)交叉销售;
优选的,购买了某品牌产品的用户,也同时购买了其他产品;建议增加绑定,提高销量;
(3)促销活动预测和结果分析;
优选的,对促销前,对目标客户群锁定,计算促销方案,促销之后,评价;
优选的,促销前,一般促销方案分为:满减,满赠,积分等;
比如,满300元送精美餐具一套,预估日均业绩100万,送多少比合适;
预测的参加率为30%,(100万*30%)/300元=1000笔(合适)
优选的,促销后,评测促销结果:
a.促销活动的效益增加率;
b.基于微博,评论数据,了解有多少人还记得这次促销活动,看法和态度如何,对品牌的忠诚度的上升或下跌;
(4)时间序列预测;基于全网的用户发言倾向,产品数据,对企业方的产品销量,市场饱和度,市场走势发展做出预测;
优选的,比如检测到某个时间段,笔记本电脑热卖;而且季节也临近夏季,那么笔记本用户对电脑散热的需求也随之而来。
步骤(3)中第三阶段以数据的展现、可视化、数据结果集的操作利用为主;
优选的,除了常规的表示数据走势的曲线图,数据份额的饼状图以外,该系统可以为企业方提供向特定用户群发联络信的功能。
针对互联网上海量用户的发言,采用的技术是中文的文本挖掘;中文的文本分析首先用到的是中文分词;
优选的,本发明采用的是IKAnalyzer中文分词系统,这是一个开源的分词系统,在这个工具的基础上,创建了多达250个分类词库;
优选的,在经过“分词”这一基本的文字处理后,为了从海量的用户发言中挖掘出用户的兴趣爱好,从而给每个用户打上标签,采用的是LDA算法;用于从文本中挖掘出用户所谈论的主题,本发明将其应用在中文系统,并实现了分布式环境下的海量数据的快速挖掘;
优选的,采用 Bayes算法,即朴素贝叶斯算法来进行年龄预测。
在互联网的海量数据中,用户间的关系组成了一张庞大的关系网,从中找出最核心的用户,即整个关系网中最有影响力的用户;
优选的,采用PageRank算法,将其应用在人与人之间的网络关系上,用来判断一个人的影响力,通过分布式环境,能够计算几亿人之间的关系,得到几亿人的影响力。
通过微博平台实现:1)海量信息的获取;2)海量信息的分析与挖掘;
优选的,部署一个爬虫集群,抓取到新浪微博上的用户基本信息,用户发言信息,甚至评论,转发等信息;
抓取到的信息,保存在HADOOP的HIVE数据库,通过分布式系统的强大数据处理能力,本发明对这些信息进行统计分析与挖掘,从中整理出企业感兴趣的,针对企业官方微博的粉丝的分析结果,供企业决策参考;
优选的,针对3个层面进行分析:
1)粉丝比对分析:主要是针对粉丝共有信息的一些比对分析,如“基本信息”(年龄,性别等),“属性”,“发贴习惯”,“粉丝重合”情况等;
2)微博比对分析:针对蓝V之间所发微博的差异度分析;
3)个性比对分析:不同蓝V的粉丝群特有属性的统计分析,如:“常用发帖平台”,“粉丝兴趣爱好”,“粉丝关注的关键字”,“粉丝电商偏好”等等;
优选的,给企业官V总结5个指数:
粉丝质量指数,影响力指数,勤奋指数,网络购买指数,被攻击指数,将其综合定义成为一个飞迪尔指数;
通过飞迪尔指数以及5个细化指数,可以了解到企业官V在微博运营方面哪里做得领先于竞争对手,哪里还有待加强。
所述的方法,其特征在于:操作步骤:
6)通过爬虫软件抓取互联网上开发平台的公开信息;
7)抓取到的数据汇总到数据库中;
8)对抓取来的数据进行整理、建模;
9)将统计分析的数据生成到MYSQL数据库;
10)更新数据,开放给用户使用;
操作步骤:
步骤1)中通过微博搜集数据;海量的数据采用一个爬虫集群来进行搜集;
步骤2)中,数据量巨大,需要一个HADOOP分布式环境,将数据保存在HIVE数据库中;
步骤3)中,包括:
1)最基础的是分词,这是必须的第一步;
2)然后将分词结果应用在不同的模型中,如LDA模型, Bayes模型,对用户进行打标签,以及分类;
3)根据网络关系,迭代计算一定规模人群的影响力;
4)根据分词结果,基于TF-IDF算法,统计不同用户群的关键字排名;
步骤4)中将统计分析的数据生成到MYSQL数据库,确保MYSQL数据库可以支持多达几十个条件的组合查询,例如用户规模在2000万,查询效率在5秒左右;
步骤5)中,进一步根据人口和地理信息进行分类统计;
优选的,后续的问题:
数据范围(边缘)的精细化
例如:发现实际有个1980年出生人,好友,同学,同事有79年比较多,预测的话就算到70后了;
可以用聚类先分出实际范围,做最大化距离划分,以此提高精度。
使用本发明可以实现更为精准、有效的信息搜集及分析,从量的角度把更好地把握市场的动向以及消费者口碑等信息。
附图说明
图1为本发明一种实施例的第一阶段流程图。
图2为本发明一种实施例的第二阶段架构图。
图3为本发明一种实施例的粉丝种类比例图。
图4为本发明一种实施例的粉丝年龄比例图。
具体实施方式
以下结合附图所示实施例对本发明作进一步的说明。
本发明属于互联网大数据领域,涉及非公开数据演算推测法,尤其是推测粉丝用户,以便更好的进行演算推测以补全预处理。
第一阶段以数据的抓取,ETL(Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载)预处理为主。
通过自建计算集群收集了主要的互联网用户数据,主要是微博,qq,微信数据,包括用户的个人基本信息和网络发言数据;以及主要的互联网商业数据,包括电商,行业论坛,门户网站的相关频道,主要是商品,商品销量,以及用户评价等。
某些用户未必原意公开自己的年龄数据。本发明需要对其进行演算推测,补全。
在互联网的海量数据中,普遍存在的一个问题就是数据缺失,不可能所有的数据都抓得到,有的人愿意公开,有的人不愿意公开,这就要求根据公开的信息去预测未公开的信息,如年龄预测,性别预测等等。在本发明所涉及到的数据领域,性别数据相对比较全,不需要做预测,但年龄信息则有很大的缺口。
某些用户未必愿意公开自己的年龄数据。本发明需要对其进行演算推测以补全。
一种非公开数据年龄演算推测法:
1数据背景
对现有蓝V的粉丝用户的年龄进行预测
基于2013年3月份的数据【粉丝表一千万(11595605),关系网数据46亿(4690796073)】2主要思路
假设互粉好友(互相关注)的人中,数量最多的是同年龄段人(同事,同学,朋友)。
先求出互粉好友中的年龄最多的分布,作为预测年龄分布。
最后验证,和自己的年龄进行比对,算出准确率。
3基于原始得出一些数据分布图,判断可行性
请参阅图3-4:
a好友分布
约7440万人中(74400425的互粉用户)
好友数1~3的比例占35%
6人以上的占50%
b好友中没有年龄的比率
约1/4(24%)的用户中的好友全都没有年龄信息,剩下3/4或多或少有好友年龄
4计算具体方法
●首先,把年龄分为(70前,70后,80后,90后)四种
●然后吧关系网数据降维,减少数据量
●关系网数据46亿(4690796073)-〉只有粉丝的关系网13亿(1346976033)->双边(好友)关系一亿(103103273)
验证算下来:
准确率=预测正确年龄段人数/实际有年龄段的人数=1891469/2415840=0.78
第二阶段以数据的分析,挖掘为主。
数据分析:企业用户可以按时间纬度(日/月/年)自己的产品以及指定竞争对手(需要购买)在各个网络渠道的销售情况,以及这些产品的评论口碑,给企业用户多维查询。
数据挖掘:主要可以
1,基于CRM库的定向营销:本发明有微博,qq,微信等实体用户,并且已经为这些用户的贴上喜好标签。企业方可以对这些用户发送广告信息。
2,交叉销售(关联)
购买了某海尔空调的用户,也同时购买了其他产品(微波炉,热水器,洗衣机)。除了洗衣机是海尔的以外,其他都是别的商家。建议增加绑定,提高销量。
3,促销活动预测和结果分析
对促销前,对目标客户群锁定,计算促销方案,促销之后,评价(比如,那个电商促销效果好?)。
促销前,一般促销方案分为:满减,满赠,积分等。
比如,满300元送精美餐具一套,预估日均业绩100万,送多少比合适?
预测的参加率为30%,(100万*30%)/300元=1000笔(合适)
促销后,评测促销结果
a.促销活动的效益增加率
b.基于微博,评论数据,了解有多少人还记得这次促销活动,看法和态度如何,对品牌的忠诚度的上升或下跌。
4,时间序列预测。基于全网的用户发言倾向,产品数据,对企业方的产品销量,市场饱和度,市场走势发展做出预测。比如检测到某个时间段,笔记本电脑热卖;而且季节也临近夏季,那么笔记本用户对电脑散热的需求也随之而来。
第三阶段以数据的展现,可视化,数据结果集的操作利用为主。
除了常规的表示数据走势的曲线图,数据份额的饼状图以外。
该系统可以为企业方提供向特定用户群发联络信的功能(邮件,微博id)。
本发明针对的是互联网上海量用户的发言,因此主要采用的技术是中文的文本挖掘。中文的文本分析首先用到的是中文分词,这是有别于英文的中文特有的自然语言处理技术。
本发明采用的是IKAnalyzer中文分词系统,这是一个开源的分词系统,已经非常成熟。在这个工具的基础上,创建了多达250个分类词库
在经过“分词”这一基本的文字处理后,本发明希望从海量的用户发言中挖掘出用户的兴趣爱好,从而给每个用户打上标签,这方面本发明采用的是LDA(Latent DirichletAllocation)算法。这是一个概率模型,用于从文本中挖掘出用户所谈论的主题,本发明将其应用在中文系统,并实现了分布式环境下的海量数据的快速挖掘。
(来源:Blei,D.M.,Ng,A.Y.,Jordan,M.I.:Latent Dirichlet Allocation.
Journal of Machine Learning Research3(2003)993–1022)
在互联网的海量数据中,普遍存在的一个问题就是数据缺失,不可能所有的数据都抓得到,有的人愿意公开,有的人不愿意公开,这就要求本发明根据公开的信息去预测未公开的信息,如年龄预测,性别预测等等。在本发明所涉及到的数据领域,性别数据相对比较全,不需要做预测,但年龄信息则有很大的缺口。因此本发明采用 Bayes算法(朴素贝叶斯算法)来进行年龄预测。这是一个非常常用的文本分类算法,也适合在分布式环境里对海量数据进行分类,效果不错。
(参考文献:1.Zhang,Harry."The Optimality of Naive Bayes".FLAIRS2004conference.
2.Caruana,R.;Niculescu-Mizil,A.(2006)."An empirical comparisonof supervised learning algorithms".Proceedings of the23rdinternational conference on Machine learning.CiteSeerX:10.1.1.122.5901.)
在互联网的海量数据中,除了用户的发言数据外,用户与用户的关系数据也是非常有价值的。用户间的关系组成了一张庞大的关系网,而本发明要做的,是从中找出最核心的用户,即整个关系网中最有影响力的用户。针对这个问题,本发明采用了PageRank算法。这是Google排名运算法则(排名公式)的一部分,是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准。本发明将其应用在人与人之间的网络关系上,用来判断一个人的影响力,这是一个创举。通过分布式环境,本发明能够计算几亿人之间的关系,得到几亿人的影响力。
(来源:1."Google Press Center:Fun Facts".www.google.com.Archived fromthe original on2009-04-24.
2.Brin,S.;Page,L.(1998)."The anatomy of a large-scalehypertextual Web search engine".Computer Networks and ISDN Systems30:107–117.)
微博作为Web2.0时代的新生网络应用形式,在最近几年中取得了迅猛的发展,其中犹以新浪微博最具有代表性。2012年,新浪微博的用户数已经超过了5亿。这么多的用户,每天都产生海量的信息,这些信息给本发明什么样的启示,给企业策略带来什么样的引导,这都是需要进行深入分析的。要完成这一任务,需要做两件事情:1)海量信息的获取;2)海量信息的分析与挖掘
新浪微博虽然是个开放平台,并且有开发的API可供使用,但是在使用上存在着较多的限制,使用API能抓取的信息量,基本只适合用于研究。本发明针对这一问题,部署了一个爬虫集群,可以以非常高的效率,抓取到新浪微博上的用户基本信息,用户发言信息,甚至评论,转发,等等。
抓取到的信息,保存在HADOOP的HIVE数据库,通过分布式系统的强大数据处理能力,本发明对这些信息进行统计分析与挖掘,从中整理出企业感兴趣的,针对企业官方微博(蓝V)的粉丝的分析结果,供企业决策参考。
本发明针对3个层面进行分析:
(1)粉丝比对分析:主要是针对粉丝共有信息的一些比对分析,如“基本信息”(年龄,性别等),“属性”,“发贴习惯”,“粉丝重合”情况,等等
(2)微博比对分析:针对蓝V之间所发微博的差异度分析
(3)个性比对分析:不同蓝V的粉丝群特有属性的统计分析,如:“常用发帖平台”,“粉丝兴趣爱好”,“粉丝关注的关键字”,“粉丝电商偏好”等等。
在以上分析的基础上,本发明给企业官V总结了5个指数:
粉丝质量指数,影响力指数,勤奋指数,网络购买指数,被攻击指数并将其综合定义成为一个飞迪尔(FIDEA)指数。
通过飞迪尔(FIDEA)指数以及5个细化指数,就可以了解到企业官V在微博运营方面哪里做得领先于竞争对手,哪里还有待加强。
操作步骤:
(1)通过爬虫软件抓取互联网上开发平台的公开信息,如微博数据等;海量的数据需要一个爬虫集群
(2)抓取到的数据汇总到数据库中,由于数据量巨大,本发明需要一个HADOOP分布式环境,将数据保存在HIVE数据库中
(3)对抓取来的数据进行整理,建模
a)最基础的是分词,这是必须的第一步
c)根据网络关系,迭代计算1亿6千万人的影响力
d)根据分词结果,基于TF-IDF算法,统计不同用户群的关键字排名
(4)将统计分析的数据生成到MYSQL数据库,确保MYSQL数据库可以支持多达几十个条件的组合查询,用户规模在2000万,查询效率在5秒左右。
(5)更新数据,开放给用户使用
e)根据人口和地理信息进行分类统计
(6)后续的问题
数据范围(边缘)的精细化
i是中心点的标号,j是比较点的标号。dij就是i到j的距离。k是从1到n
eg:我发现实际有个1980年出生人,好友,同学,同事有79年比较多,预测的话就算到70后了
可以用聚类先分出实际范围,做最大化距离划分,以此提高精度。
上述的对实施例的描述是为便于该技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对这些实施例作出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于这里的实施例,本领域技术人员根据本发明的揭示,不脱离本发明的范畴所做出的改进和修改都应该在本发明的保护范围之内。
Claims (10)
1.一种基于互联网用户公开信息的用户多维度分析与监测方法,其特征在于:包括:
(1)搜集数据进行预处理;
(2)对预处理之后的数据进行分析、挖掘;
(3)对数据分析、挖掘数据的结果进行展现、可视化,对数据结果集加以利用。
2.根据权利要求1所述的方法,其特征在于:
步骤(1)中所述数据的搜集,主要采用ETL进行预处理;
优选的,搜集主要的互联网用户数据,主要是微博、qq、微信数据,包括用户的个人基本信息和网络发言数据;以及主要的互联网商业数据,包括电商,行业论坛,门户网站的相关频道,主要是商品,商品销量,以及用户评价等;
优选的,通过自建计算集群来进行上述搜集,从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序;
优选的,根据公开的信息去预测、补全未公开的信息,如年龄预测,性别预测等。
3.根据权利要求2所述的方法,其特征在于:
根据公开的信息去预测、补全年龄的年龄演算推测法:
把年龄分为N個年齡群組A{a1,a2,a3,a4..an}
(1)然后把关系网数据降维,减少数据量;
(2)age=MAX(count(an)).age;
(3)预测正确年龄段人数N;
(4)实际有年龄段的人数M;
(5)准确率=预测正确年龄段人数/实际有年龄段的人数=N/M。
4.根据权利要求1所述的方法,其特征在于:
步骤(2)中以数据的分析,挖掘为主;
优选的,数据分析:企业用户可以按时间纬度自己的产品以及指定竞争对手在各个网络渠道的销售情况,以及这些产品的评论口碑,给企业用户多维查询;
优选的,数据挖掘主要包括:
(1)基于CRM库的定向营销:预先建立微博、qq、微信等实体用户数据库,并且为这些用户的贴上喜好标签,企业方可以对这些用户发送广告信息;
(2)交叉销售;
优选的,购买了某品牌产品的用户,也同时购买了其他产品;建议增加绑定,提高销量;
(3)促销活动预测和结果分析;
优选的,对促销前,对目标客户群锁定,计算促销方案,促销之后,评价;
优选的,促销前,一般促销方案分为:满减,满赠,积分等;
比如,满300元送精美餐具一套,预估日均业绩100万,送多少比合适;
预测的参加率为30%,(100万*30%)/300元=1000笔(合适)
优选的,促销后,评测促销结果:
a.促销活动的效益增加率;
b.基于微博,评论数据,了解有多少人还记得这次促销活动,看法和态度如何,对品牌的忠诚度的上升或下跌;
(4)时间序列预测;基于全网的用户发言倾向,产品数据,对企业方的产品销量,市场饱和度,市场走势发展做出预测;
优选的,比如检测到某个时间段,笔记本电脑热卖;而且季节也临近夏季,那么笔记本用户对电脑散热的需求也随之而来。
5.根据权利要求1所述的方法,其特征在于:步骤(3)中第三阶段以数据的展现、可视化、数据结果集的操作利用为主;
优选的,除了常规的表示数据走势的曲线图,数据份额的饼状图以外,该系统可以为企业方提供向特定用户群发联络信的功能。
6.根据权利要求1所述的方法,其特征在于:
针对互联网上海量用户的发言,采用的技术是中文的文本挖掘;中文的文本分析首先用到的是中文分词;
优选的,本发明采用的是IKAnalyzer中文分词系统,这是一个开源的分词系统,在这个工具的基础上,创建了多达250个分类词库;
优选的,在经过“分词”这一基本的文字处理后,为了从海量的用户发言中挖掘出用户的兴趣爱好,从而给每个用户打上标签,采用的是LDA算法;用于从文本中挖掘出用户所谈论的主题,本发明将其应用在中文系统,并实现了分布式环境下的海量数据的快速挖掘;
优选的,采用 Bayes算法,即朴素贝叶斯算法来进行年龄预测。
7.根据权利要求1所述的方法,其特征在于:在互联网的海量数据中,用户间的关系组成了一张庞大的关系网,从中找出最核心的用户,即整个关系网中最有影响力的用户;
优选的,采用PageRank算法,将其应用在人与人之间的网络关系上,用来判断一个人的 影响力,通过分布式环境,能够计算几亿人之间的关系,得到几亿人的影响力。
8.根据权利要求1所述的方法,其特征在于:通过微博平台实现:1)海量信息的获取;
2)海量信息的分析与挖掘;
优选的,部署一个爬虫集群,抓取到新浪微博上的用户基本信息,用户发言信息,甚至评论,转发等信息;
抓取到的信息,保存在HADOOP的HIVE数据库,通过分布式系统的强大数据处理能力,本发明对这些信息进行统计分析与挖掘,从中整理出企业感兴趣的,针对企业官方微博的粉丝的分析结果,供企业决策参考;
优选的,针对3个层面进行分析:
1)粉丝比对分析:主要是针对粉丝共有信息的一些比对分析,如“基本信息”(年龄,性别等),“属性”,“发贴习惯”,“粉丝重合”情况等;
2)微博比对分析:针对蓝V之间所发微博的差异度分析;
3)个性比对分析:不同蓝V的粉丝群特有属性的统计分析,如:“常用发帖平台”,“粉丝兴趣爱好”,“粉丝关注的关键字”,“粉丝电商偏好”等等;
优选的,给企业官V总结5个指数:
粉丝质量指数,影响力指数,勤奋指数,网络购买指数,被攻击指数,将其综合定义成为一个飞迪尔指数;
通过飞迪尔指数以及5个细化指数,可以了解到企业官V在微博运营方面哪里做得领先于竞争对手,哪里还有待加强。
9.根据权利要求1所述的方法,其特征在于:操作步骤:
1)通过爬虫软件抓取互联网上开发平台的公开信息;
2)抓取到的数据汇总到数据库中;
3)对抓取来的数据进行整理、建模;
4)将统计分析的数据生成到MYSQL数据库;
5)更新数据,开放给用户使用。
10.根据权利要求9所述的方法,其特征在于:操作步骤:
步骤1)中通过微博搜集数据;海量的数据采用一个爬虫集群来进行搜集;
步骤2)中,数据量巨大,需要一个HADOOP分布式环境,将数据保存在HIVE数据库中;
步骤3)中,包括:
a)最基础的是分词,这是必须的第一步;
b)然后将分词结果应用在不同的模型中,如LDA模型, Bayes模型,对用户进行打标签,以及分类;
c)根据网络关系,迭代计算一定规模人群的影响力;
d)根据分词结果,基于TF-IDF算法,统计不同用户群的关键字排名;
步骤4)中将统计分析的数据生成到MYSQL数据库,确保MYSQL数据库可以支持多达几十个条件的组合查询,例如用户规模在2000万,查询效率在5秒左右;
步骤5)中,进一步根据人口和地理信息进行分类统计;
优选的,后续的问题:
数据范围(边缘)的精细化
例如:发现实际有个1980年出生人,好友,同学,同事有79年比较多,预测的话就算到70后了;
可以用聚类先分出实际范围,做最大化距离划分,以此提高精度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013102414609A CN103309990A (zh) | 2013-06-18 | 2013-06-18 | 基于互联网用户公开信息的用户多维度分析与监测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013102414609A CN103309990A (zh) | 2013-06-18 | 2013-06-18 | 基于互联网用户公开信息的用户多维度分析与监测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103309990A true CN103309990A (zh) | 2013-09-18 |
Family
ID=49135208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2013102414609A Pending CN103309990A (zh) | 2013-06-18 | 2013-06-18 | 基于互联网用户公开信息的用户多维度分析与监测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103309990A (zh) |
Cited By (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823894A (zh) * | 2014-03-11 | 2014-05-28 | 北京大学 | 一种产品受众特征抽取方法 |
CN103927675A (zh) * | 2014-04-18 | 2014-07-16 | 北京京东尚科信息技术有限公司 | 判断用户年龄段的方法及装置 |
CN103970866A (zh) * | 2014-05-08 | 2014-08-06 | 清华大学 | 基于微博文本的微博用户兴趣发现方法及系统 |
CN104134108A (zh) * | 2014-06-25 | 2014-11-05 | 上海艾瑞市场咨询有限公司 | 电子商务网站销售数据分析方法 |
CN104331816A (zh) * | 2014-10-28 | 2015-02-04 | 常州大学 | 基于知识学习和隐私保护的大数据用户购买意愿预测方法 |
CN104484341A (zh) * | 2014-11-24 | 2015-04-01 | 北京奇虎科技有限公司 | 一种数据指标的动态分析方法和装置 |
CN104516954A (zh) * | 2014-12-15 | 2015-04-15 | 公安部第一研究所 | 一种可视化取证分析系统 |
CN104517224A (zh) * | 2014-12-22 | 2015-04-15 | 浙江工业大学 | 一种网络热销商品的预测方法及系统 |
CN104574093A (zh) * | 2013-10-22 | 2015-04-29 | 北京思博途信息技术有限公司 | 一种基于电商样本数据信息计算销量的方法及装置 |
CN104933139A (zh) * | 2015-06-17 | 2015-09-23 | 中国科学院计算技术研究所 | 一种社交网络用户身份虚实映射的方法及装置 |
CN104991968A (zh) * | 2015-07-24 | 2015-10-21 | 成都云堆移动信息技术有限公司 | 基于文本挖掘的互联网媒体用户属性分析方法 |
CN104992060A (zh) * | 2015-06-25 | 2015-10-21 | 腾讯科技(深圳)有限公司 | 用户年龄估计方法及装置 |
CN105323601A (zh) * | 2014-07-18 | 2016-02-10 | 上海星红桉数据科技有限公司 | 基于多屏用户行为数据的人员属性标识方法 |
CN105512245A (zh) * | 2015-11-30 | 2016-04-20 | 青岛智能产业技术研究院 | 一种基于回归模型建立企业画像的方法 |
CN105787064A (zh) * | 2016-03-01 | 2016-07-20 | 广州铭诚计算机科技有限公司 | 一种基于大数据的挖掘平台构建方法 |
CN105791091A (zh) * | 2016-03-02 | 2016-07-20 | 四川长虹电器股份有限公司 | 一种评估官微和微信公众号运营质量的系统及方法 |
CN106022833A (zh) * | 2016-05-24 | 2016-10-12 | 温州市鹿城区中津先进科技研究院 | 基于大数据处理的商品定制方法 |
CN106022883A (zh) * | 2016-05-24 | 2016-10-12 | 温州市鹿城区中津先进科技研究院 | 基于大数据优化处理模型的商品评价方法 |
WO2017008613A1 (zh) * | 2015-07-16 | 2017-01-19 | 腾讯科技(深圳)有限公司 | 一种推荐内容推送方法、装置及其终端、服务器和系统 |
CN106411554A (zh) * | 2015-08-03 | 2017-02-15 | 天脉聚源(北京)科技有限公司 | 一种微信信息统计分析方法和系统 |
CN106447374A (zh) * | 2015-08-12 | 2017-02-22 | 深圳市腾讯计算机系统有限公司 | 一种用户性别估算方法和系统 |
CN106447375A (zh) * | 2015-08-12 | 2017-02-22 | 深圳市腾讯计算机系统有限公司 | 一种年龄信息估计方法及装置 |
CN106470138A (zh) * | 2016-08-30 | 2017-03-01 | 成都科来软件有限公司 | 一种根据用户请求筛选对应时间区间数据的方法 |
CN106779827A (zh) * | 2016-12-02 | 2017-05-31 | 上海晶樵网络信息技术有限公司 | 一种互联网用户行为采集及分析检测的大数据方法 |
CN106777276A (zh) * | 2016-12-29 | 2017-05-31 | 微梦创科网络科技(中国)有限公司 | 用户信息的索引存储及原生信息展示的方法和装置 |
CN106875277A (zh) * | 2017-01-16 | 2017-06-20 | 星云纵横(北京)大数据信息技术有限公司 | 一种社交媒体账号影响力的判断方法 |
CN106934046A (zh) * | 2017-03-16 | 2017-07-07 | 天闻数媒科技(北京)有限公司 | 一种出版物发行分析系统和方法 |
WO2017121054A1 (zh) * | 2016-01-15 | 2017-07-20 | 深圳大学 | 一种在线评分方法及其系统 |
CN107122125A (zh) * | 2016-02-25 | 2017-09-01 | 阿里巴巴集团控股有限公司 | 一种数据处理方法和系统 |
CN107169632A (zh) * | 2017-04-19 | 2017-09-15 | 广东数相智能科技有限公司 | 全球媒体形象分析方法、装置和系统 |
CN107230158A (zh) * | 2017-06-12 | 2017-10-03 | 合肥工业大学 | 社交网络用户相对影响力度量方法 |
CN107256496A (zh) * | 2017-05-27 | 2017-10-17 | 上海非码网络科技有限公司 | 基于多平台数据的顾客管理方法及系统、服务器 |
CN107341685A (zh) * | 2017-05-24 | 2017-11-10 | 百度在线网络技术(北京)有限公司 | 数据分析方法及装置 |
CN107423315A (zh) * | 2017-03-23 | 2017-12-01 | 广东南方新视界传媒科技有限公司 | 一种户外媒体资源数据的挖掘处理方法及系统 |
CN107437130A (zh) * | 2016-05-26 | 2017-12-05 | 上海同熙科技有限公司 | 一种互联网高端服务平台 |
CN107562966A (zh) * | 2017-10-23 | 2018-01-09 | 郑州大学 | 用于网页链接检索排序的基于智能学习的优化系统及方法 |
WO2018023657A1 (zh) * | 2016-08-05 | 2018-02-08 | 汤隆初 | 根据微信公众号推送广告技术的调整方法以及推送系统 |
WO2018023658A1 (zh) * | 2016-08-05 | 2018-02-08 | 汤隆初 | 根据关注公众号推送广告的方法以及推送系统 |
CN108053286A (zh) * | 2017-12-26 | 2018-05-18 | 广州大汗科技有限公司 | 一种基于互联网的汽车销售服务管理系统 |
CN108363800A (zh) * | 2018-02-24 | 2018-08-03 | 孙如妍 | 商业情报分析与大数据系统 |
WO2018176715A1 (zh) * | 2017-03-25 | 2018-10-04 | 深圳市前海安测信息技术有限公司 | 乳腺癌云平台预测系统及方法 |
CN109376182A (zh) * | 2018-09-26 | 2019-02-22 | 上海睿翎法律咨询服务有限公司 | 基于计算机软件系统实现关联公司识别处理的方法 |
CN109377260A (zh) * | 2018-09-14 | 2019-02-22 | 江阴逐日信息科技有限公司 | 面向服装行业的用户行为分析系统 |
CN109377413A (zh) * | 2018-09-13 | 2019-02-22 | 关键 | 一种艺人大数据风险评估系统及其评估方法 |
CN109478296A (zh) * | 2016-04-05 | 2019-03-15 | 分形工业公司 | 用于完全集成捕获和分析商业信息以产生预测决策和模拟的系统 |
CN109902216A (zh) * | 2019-03-04 | 2019-06-18 | 桂林电子科技大学 | 一种基于社交网络的数据采集与分析方法 |
CN110110013A (zh) * | 2019-05-10 | 2019-08-09 | 成都信息工程大学 | 一种基于时空属性的实体竞争关系数据挖掘方法 |
CN110209711A (zh) * | 2019-06-12 | 2019-09-06 | 浙江华坤道威数据科技有限公司 | 一种基于大数据的企业数据挖掘系统及其使用方法 |
CN111241821A (zh) * | 2018-11-28 | 2020-06-05 | 杭州海康威视数字技术股份有限公司 | 确定用户的行为特征的方法和装置 |
TWI714213B (zh) * | 2019-08-14 | 2020-12-21 | 東方線上股份有限公司 | 用戶型態預測系統及其方法 |
CN113505308A (zh) * | 2021-09-09 | 2021-10-15 | 北京轻松筹信息技术有限公司 | 一种用户年龄的预测方法及装置、可读存储介质 |
CN118229330A (zh) * | 2024-05-23 | 2024-06-21 | 西安众邦网络科技有限公司 | 基于多模态信息融合的电商数据监测方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763401A (zh) * | 2009-12-30 | 2010-06-30 | 暨南大学 | 一种网络舆情的热点预测和分析方法 |
CN101853277A (zh) * | 2010-05-14 | 2010-10-06 | 南京信息工程大学 | 一种基于分类和关联分析的漏洞数据挖掘方法 |
-
2013
- 2013-06-18 CN CN2013102414609A patent/CN103309990A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763401A (zh) * | 2009-12-30 | 2010-06-30 | 暨南大学 | 一种网络舆情的热点预测和分析方法 |
CN101853277A (zh) * | 2010-05-14 | 2010-10-06 | 南京信息工程大学 | 一种基于分类和关联分析的漏洞数据挖掘方法 |
Non-Patent Citations (1)
Title |
---|
金燕等: "虚拟社区用户信息行为研究方法的三维框架", 《国书情报工作》 * |
Cited By (69)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104574093A (zh) * | 2013-10-22 | 2015-04-29 | 北京思博途信息技术有限公司 | 一种基于电商样本数据信息计算销量的方法及装置 |
CN104574093B (zh) * | 2013-10-22 | 2018-03-23 | 秒针信息技术有限公司 | 一种基于电商样本数据信息计算销量的方法及装置 |
CN103823894A (zh) * | 2014-03-11 | 2014-05-28 | 北京大学 | 一种产品受众特征抽取方法 |
CN103927675A (zh) * | 2014-04-18 | 2014-07-16 | 北京京东尚科信息技术有限公司 | 判断用户年龄段的方法及装置 |
WO2015158308A1 (zh) * | 2014-04-18 | 2015-10-22 | 北京京东尚科信息技术有限公司 | 判断用户年龄段的方法及装置 |
CN103970866B (zh) * | 2014-05-08 | 2017-11-21 | 清华大学 | 基于微博文本的微博用户兴趣发现方法及系统 |
CN103970866A (zh) * | 2014-05-08 | 2014-08-06 | 清华大学 | 基于微博文本的微博用户兴趣发现方法及系统 |
CN104134108A (zh) * | 2014-06-25 | 2014-11-05 | 上海艾瑞市场咨询有限公司 | 电子商务网站销售数据分析方法 |
CN105323601A (zh) * | 2014-07-18 | 2016-02-10 | 上海星红桉数据科技有限公司 | 基于多屏用户行为数据的人员属性标识方法 |
CN104331816A (zh) * | 2014-10-28 | 2015-02-04 | 常州大学 | 基于知识学习和隐私保护的大数据用户购买意愿预测方法 |
CN104331816B (zh) * | 2014-10-28 | 2017-10-20 | 常州大学 | 基于知识学习和隐私保护的大数据用户购买意愿预测方法 |
CN104484341A (zh) * | 2014-11-24 | 2015-04-01 | 北京奇虎科技有限公司 | 一种数据指标的动态分析方法和装置 |
CN104516954A (zh) * | 2014-12-15 | 2015-04-15 | 公安部第一研究所 | 一种可视化取证分析系统 |
CN104517224B (zh) * | 2014-12-22 | 2017-09-29 | 浙江工业大学 | 一种网络热销商品的预测方法及系统 |
CN104517224A (zh) * | 2014-12-22 | 2015-04-15 | 浙江工业大学 | 一种网络热销商品的预测方法及系统 |
CN104933139B (zh) * | 2015-06-17 | 2018-06-01 | 中国科学院计算技术研究所 | 一种社交网络用户身份虚实映射的方法及装置 |
CN104933139A (zh) * | 2015-06-17 | 2015-09-23 | 中国科学院计算技术研究所 | 一种社交网络用户身份虚实映射的方法及装置 |
CN104992060A (zh) * | 2015-06-25 | 2015-10-21 | 腾讯科技(深圳)有限公司 | 用户年龄估计方法及装置 |
US10885142B2 (en) | 2015-07-16 | 2021-01-05 | Tencent Technology (Shenzhen) Company Limited | Recommended content pushing method, apparatus, terminal, server, and system |
WO2017008613A1 (zh) * | 2015-07-16 | 2017-01-19 | 腾讯科技(深圳)有限公司 | 一种推荐内容推送方法、装置及其终端、服务器和系统 |
CN104991968B (zh) * | 2015-07-24 | 2018-04-20 | 成都云堆移动信息技术有限公司 | 基于文本挖掘的互联网媒体用户属性分析方法 |
WO2017016059A1 (zh) * | 2015-07-24 | 2017-02-02 | 成都云堆移动信息技术有限公司 | 基于文本挖掘的互联网媒体用户属性分析方法 |
CN104991968A (zh) * | 2015-07-24 | 2015-10-21 | 成都云堆移动信息技术有限公司 | 基于文本挖掘的互联网媒体用户属性分析方法 |
CN106411554A (zh) * | 2015-08-03 | 2017-02-15 | 天脉聚源(北京)科技有限公司 | 一种微信信息统计分析方法和系统 |
CN106447374A (zh) * | 2015-08-12 | 2017-02-22 | 深圳市腾讯计算机系统有限公司 | 一种用户性别估算方法和系统 |
CN106447375A (zh) * | 2015-08-12 | 2017-02-22 | 深圳市腾讯计算机系统有限公司 | 一种年龄信息估计方法及装置 |
CN105512245B (zh) * | 2015-11-30 | 2018-08-21 | 青岛智能产业技术研究院 | 一种基于回归模型建立企业画像的方法 |
CN105512245A (zh) * | 2015-11-30 | 2016-04-20 | 青岛智能产业技术研究院 | 一种基于回归模型建立企业画像的方法 |
WO2017121054A1 (zh) * | 2016-01-15 | 2017-07-20 | 深圳大学 | 一种在线评分方法及其系统 |
CN107122125B (zh) * | 2016-02-25 | 2020-06-23 | 阿里巴巴集团控股有限公司 | 一种数据处理方法和系统 |
CN107122125A (zh) * | 2016-02-25 | 2017-09-01 | 阿里巴巴集团控股有限公司 | 一种数据处理方法和系统 |
CN105787064A (zh) * | 2016-03-01 | 2016-07-20 | 广州铭诚计算机科技有限公司 | 一种基于大数据的挖掘平台构建方法 |
CN105791091A (zh) * | 2016-03-02 | 2016-07-20 | 四川长虹电器股份有限公司 | 一种评估官微和微信公众号运营质量的系统及方法 |
CN109478296A (zh) * | 2016-04-05 | 2019-03-15 | 分形工业公司 | 用于完全集成捕获和分析商业信息以产生预测决策和模拟的系统 |
CN106022833A (zh) * | 2016-05-24 | 2016-10-12 | 温州市鹿城区中津先进科技研究院 | 基于大数据处理的商品定制方法 |
CN106022883A (zh) * | 2016-05-24 | 2016-10-12 | 温州市鹿城区中津先进科技研究院 | 基于大数据优化处理模型的商品评价方法 |
CN107437130A (zh) * | 2016-05-26 | 2017-12-05 | 上海同熙科技有限公司 | 一种互联网高端服务平台 |
WO2018023658A1 (zh) * | 2016-08-05 | 2018-02-08 | 汤隆初 | 根据关注公众号推送广告的方法以及推送系统 |
WO2018023657A1 (zh) * | 2016-08-05 | 2018-02-08 | 汤隆初 | 根据微信公众号推送广告技术的调整方法以及推送系统 |
CN106470138A (zh) * | 2016-08-30 | 2017-03-01 | 成都科来软件有限公司 | 一种根据用户请求筛选对应时间区间数据的方法 |
CN106779827A (zh) * | 2016-12-02 | 2017-05-31 | 上海晶樵网络信息技术有限公司 | 一种互联网用户行为采集及分析检测的大数据方法 |
CN106777276B (zh) * | 2016-12-29 | 2020-03-10 | 微梦创科网络科技(中国)有限公司 | 用户信息的索引存储及原生信息展示的方法和装置 |
CN106777276A (zh) * | 2016-12-29 | 2017-05-31 | 微梦创科网络科技(中国)有限公司 | 用户信息的索引存储及原生信息展示的方法和装置 |
CN106875277A (zh) * | 2017-01-16 | 2017-06-20 | 星云纵横(北京)大数据信息技术有限公司 | 一种社交媒体账号影响力的判断方法 |
CN106934046A (zh) * | 2017-03-16 | 2017-07-07 | 天闻数媒科技(北京)有限公司 | 一种出版物发行分析系统和方法 |
CN107423315A (zh) * | 2017-03-23 | 2017-12-01 | 广东南方新视界传媒科技有限公司 | 一种户外媒体资源数据的挖掘处理方法及系统 |
WO2018176715A1 (zh) * | 2017-03-25 | 2018-10-04 | 深圳市前海安测信息技术有限公司 | 乳腺癌云平台预测系统及方法 |
CN107169632A (zh) * | 2017-04-19 | 2017-09-15 | 广东数相智能科技有限公司 | 全球媒体形象分析方法、装置和系统 |
CN107341685A (zh) * | 2017-05-24 | 2017-11-10 | 百度在线网络技术(北京)有限公司 | 数据分析方法及装置 |
CN107256496A (zh) * | 2017-05-27 | 2017-10-17 | 上海非码网络科技有限公司 | 基于多平台数据的顾客管理方法及系统、服务器 |
CN107230158A (zh) * | 2017-06-12 | 2017-10-03 | 合肥工业大学 | 社交网络用户相对影响力度量方法 |
CN107562966A (zh) * | 2017-10-23 | 2018-01-09 | 郑州大学 | 用于网页链接检索排序的基于智能学习的优化系统及方法 |
CN107562966B (zh) * | 2017-10-23 | 2020-10-30 | 郑州大学 | 用于网页链接检索排序的基于智能学习的优化系统及方法 |
CN108053286A (zh) * | 2017-12-26 | 2018-05-18 | 广州大汗科技有限公司 | 一种基于互联网的汽车销售服务管理系统 |
CN108363800A (zh) * | 2018-02-24 | 2018-08-03 | 孙如妍 | 商业情报分析与大数据系统 |
CN109377413A (zh) * | 2018-09-13 | 2019-02-22 | 关键 | 一种艺人大数据风险评估系统及其评估方法 |
CN109377260A (zh) * | 2018-09-14 | 2019-02-22 | 江阴逐日信息科技有限公司 | 面向服装行业的用户行为分析系统 |
CN109376182A (zh) * | 2018-09-26 | 2019-02-22 | 上海睿翎法律咨询服务有限公司 | 基于计算机软件系统实现关联公司识别处理的方法 |
CN111241821B (zh) * | 2018-11-28 | 2023-04-28 | 杭州海康威视数字技术股份有限公司 | 确定用户的行为特征的方法和装置 |
CN111241821A (zh) * | 2018-11-28 | 2020-06-05 | 杭州海康威视数字技术股份有限公司 | 确定用户的行为特征的方法和装置 |
CN109902216A (zh) * | 2019-03-04 | 2019-06-18 | 桂林电子科技大学 | 一种基于社交网络的数据采集与分析方法 |
CN110110013B (zh) * | 2019-05-10 | 2020-03-24 | 成都信息工程大学 | 一种基于时空属性的实体竞争关系数据挖掘方法 |
CN110110013A (zh) * | 2019-05-10 | 2019-08-09 | 成都信息工程大学 | 一种基于时空属性的实体竞争关系数据挖掘方法 |
CN110209711B (zh) * | 2019-06-12 | 2020-08-28 | 浙江华坤道威数据科技有限公司 | 一种基于大数据的企业数据挖掘系统及其使用方法 |
CN110209711A (zh) * | 2019-06-12 | 2019-09-06 | 浙江华坤道威数据科技有限公司 | 一种基于大数据的企业数据挖掘系统及其使用方法 |
TWI714213B (zh) * | 2019-08-14 | 2020-12-21 | 東方線上股份有限公司 | 用戶型態預測系統及其方法 |
CN113505308A (zh) * | 2021-09-09 | 2021-10-15 | 北京轻松筹信息技术有限公司 | 一种用户年龄的预测方法及装置、可读存储介质 |
CN118229330A (zh) * | 2024-05-23 | 2024-06-21 | 西安众邦网络科技有限公司 | 基于多模态信息融合的电商数据监测方法及系统 |
CN118229330B (zh) * | 2024-05-23 | 2024-08-16 | 西安众邦网络科技有限公司 | 基于多模态信息融合的电商数据监测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103309990A (zh) | 基于互联网用户公开信息的用户多维度分析与监测方法 | |
CN106779827A (zh) | 一种互联网用户行为采集及分析检测的大数据方法 | |
Liu et al. | Data mining and information retrieval in the 21st century: A bibliographic review | |
CN103886074B (zh) | 基于社交媒体的商品推荐系统 | |
Liu et al. | Learning geographical preferences for point-of-interest recommendation | |
CN109359244A (zh) | 一种个性化信息推荐方法和装置 | |
CN108830416A (zh) | 基于用户行为的广告点击率预测框架及算法 | |
CN106682686A (zh) | 一种基于手机上网行为的用户性别预测方法 | |
CN105447186A (zh) | 一种基于大数据平台的用户行为分析系统 | |
Kumar et al. | Data mining and machine learning in retail business: developing efficiencies for better customer retention | |
CN107357793A (zh) | 信息推荐方法和装置 | |
US20150026105A1 (en) | Systems and method for determining influence of entities with respect to contexts | |
CN108460153A (zh) | 一种混合博文与用户关系的社交媒体好友推荐方法 | |
Wang et al. | Using social media mining technology to assist in price prediction of stock market | |
CN111598648A (zh) | 一种基于快消行业商品的全链路线上营销方法 | |
CN106168953A (zh) | 面向弱关系社交网络的博文推荐方法 | |
CN107908616B (zh) | 预测趋势词的方法和装置 | |
Banić et al. | Using big data and sentiment analysis in product evaluation | |
CN108763496A (zh) | 一种基于网格和密度的动静态数据融合客户分类算法 | |
CN109978020A (zh) | 一种基于多维特征的社交网络账号马甲身份辨识方法 | |
Chen et al. | Big data analytics on aviation social media: The case of china southern airlines on sina weibo | |
Li et al. | Learning user preferences across multiple aspects for merchant recommendation | |
CN106097113A (zh) | 一种社交网络用户动静兴趣挖掘方法 | |
Zhang et al. | Discovering consumers’ purchase intentions based on mobile search behaviors | |
Liao et al. | Improving farm management optimization: Application of text data analysis and semantic networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130918 |