CN106897359A - 互联网信息收集及关联方法 - Google Patents

互联网信息收集及关联方法 Download PDF

Info

Publication number
CN106897359A
CN106897359A CN201710015013.XA CN201710015013A CN106897359A CN 106897359 A CN106897359 A CN 106897359A CN 201710015013 A CN201710015013 A CN 201710015013A CN 106897359 A CN106897359 A CN 106897359A
Authority
CN
China
Prior art keywords
item
collection
frequent
object set
internet information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710015013.XA
Other languages
English (en)
Inventor
李晓非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Datuo Zhitong Technology Co Ltd
Original Assignee
Chengdu Datuo Zhitong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Datuo Zhitong Technology Co Ltd filed Critical Chengdu Datuo Zhitong Technology Co Ltd
Priority to CN201710015013.XA priority Critical patent/CN106897359A/zh
Publication of CN106897359A publication Critical patent/CN106897359A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种互联网信息收集及关联方法,包括以下步骤:(1)根据某个个体的互联网信息构建指标体系;(2)根据漏斗模型求目标集Oa;(3)关联规则求目标集Ob;(4)获取最终目标集:O=OaUOb;(5)输出目标集O=OaUOb。本发明采用漏斗模型并排除了传统主观赋值权重的影响,使得目标集最逼近客观事实,使得本系统能很好抓取我们所需的目标集;本发明还采用关联规则apriori算法,保证模型的支持度和置信度的情况下,逻辑严密,排出无关集合,保留全部目标集,从而找到符合我们意愿的目标集;漏斗模型和apriori算法两种方法筛选数据具有单一规则无法比拟的优势,目标集更好地接近预期,显著提高了互联网信息收集及关联的精准度。

Description

互联网信息收集及关联方法
技术领域
本发明涉及一种互联网信息处理方法,尤其涉及一种互联网信息收集及关联方法。
背景技术
随着互联网的快速发展以及数据收集技术的不断发展,大数据时代早已到来。但随着网络的迅速发展而带来的网上信息量的大幅增长,使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了,这就是所谓的“信息超载”(informationoverload)问题。如何帮助用户在海量的数据中快速找到对其有价值的信息,并让网络中的暗信息能够被用户获得成为急需解决的问题。
目前,推荐系统是主动地从大量信息中找到用户可能感兴趣的信息的工具,是构建支持用户在线决策的系统。在信息爆炸时代,推荐系统是解决用户“信息过载”的一种有效手段。随着互联网移动技术的发展,推荐系统已经渗透到人们的衣食住行中。为用户提供快捷访问的优质推荐,正是推荐系统研究领域的主要目标。近年来,推荐系统被广泛应用到很多领域,如电子商务、音频视频网站、音乐电台、社交网络、个性化阅读、个性化广告、基于位置的服务和移动推荐等,并催生了很多新兴的推荐技术,涌现出一些著名的推荐系统,如Amazon的个性化产品推荐、Netflix的视频推荐、Pandora的音乐推荐、Facebook的好友推荐和Google Reader的个性化阅读等。推荐系统广泛应用在电子商务、大规模零售业和各种知识管理应用中,不仅给运营商带来了利益,也给用户带来了诸多便利。推荐个性化、匹配度高的产品或项目是推荐系统领域的核心问题,它最早可追溯到认知科学、近似理论、信息检索、预测理论、管理科学和市场中的客户选择模型等。鉴于推荐系统的理论和实际应用价值。近年来国际学术界与其相关的研究极为活跃。推荐系统研究的顶级会议是美国计算机学会(ACM)每年举办的RecSys年会,该会议自2007年以来已在世界各地举办了8届,并成为全球关于推荐系统研究最重要的交流渠道和把脉其最新进展的重要窗口。最近一次ACMRecSys年会于2014年10月6~10日于美国硅谷(第8届)举办,共收录各国学者研究论文55篇,内容基本涵盖了当前RS研究的主流领域,既有对传统领域的深入探讨,也有对新领域的探索;既有对实践和技术的应用研究,也有推荐基本理论和方法的探析。
传统推荐系统的用户画像是通过网络爬虫收集数据,先通过数据预处理,再通过权重,衰减因子的方式筛选出消费者,其权重因子的分配模糊,具有主观性,导致筛选出的结果不尽人意;当属性值很多时,权重的赋值变的更为困难,导致通过算法筛选出的结果不符合精准营销的目的,即找不到潜在的消费者或者潜在的消费者在结果中所占比例很低。
发明内容
本发明的目的就在于为了解决上述问题而提供一种精准度高的互联网信息收集及关联方法。
本发明通过以下技术方案来实现上述目的:
一种互联网信息收集及关联方法,包括以下步骤:
(1)构建指标体系:先根据某个个体的互联网信息确定各种分类指标信息并分别设定为x0*、x1*、x2*…xn*,这里的个体的互联网信息包括基本信息、行为信息和偏好信息;
(2)根据漏斗模型求目标集:设h(x)是顾客的样本空间(x0、x1、x2…xn),g(x)是假设空间(x0*、x1*、x2*…xn*),对于该个体的互联网信息,可以根据如下公式求出总得分值:
其中,ll(·)是指示函数,若·为真则取值1,否则取值0,
然后把不同得分值的个体分到不同的类别中去,把E=a,a[0,n],aI N*归为一个集合,记为Ea,然后画出得分值与有意愿个体数比例的x-y图;
设定有意愿个体数阀值为b*,大于b*的Ea留下,小于的b*的Ea剔除,得到关于E的集合O1,设定有意愿个体数比例阀值为c*,大于c*的Ea留下,小于的c*的Ea剔除,得到关于E的集合O2;令Oa=O1I O2,求得Oa
(3)关联规则求目标集:包括以下步骤:
(3.1)找出所有频繁项集:频繁项集定义:项的集合称为项集,包含k个项的项集称为k-项集,项集的出现频率是包含项集的事务数,简称为项集的频率、支持计数或计数,如果项集满足最小支持度阀值,即项集的出现频率大于或等于支持度与数据库事务集合中的事务总数的乘积,则称它为频繁项集,频繁k-项集的集合记作Lk;利用Apriori算法找出所有频繁项集;
(3.2)由频繁项集产生关联规则,具体方法如下:
(3.2.1)对于每个频繁项集L,产生L的所有非空子集S;
(3.2.2)对于L的每个非空子集S,如果
P(L)/P(S)≧min_conf,
其中,P(L)是包含频繁项集L的事务数,P(S)是包含非空子集S的事务数,min_conf是最小置信度阈值,
则输出关联规则
其中,L-S表示在频繁项集L中除去非空子集S后的项集;
(3.2.3)找到与关联规则对应的个体集合Ob
(4)获取最终目标集:O=OaUOb
(5)输出目标集O=OaUOb
具体地,所述步骤(3.1)中,利用Apriori算法找出所有频繁项集的具体方法为:
(3.1.1)连接步:为找Lk,通过Lk-1与自己连接产生候选k-项集的集合,该候选项集的集合记作Ck,设l1和l2是Lk-1中的项集,记号li[j]表示li的第j项,假定事务或项集中的项按字典次序排序,执行连接Lk-1I Lk-1,其中,Lk-1的元素是可连接的,如果它们前(k-2)个项相同,即,Lk-1的元素l1和l2是可连接的,如果(l1[1]=l2[1])∧(l1[2]=l2[2])∧...∧(l1[k-2]=l2[k-2])∧(l1[k-1]<l2[k-1]),条件(l1[k-1]<l2[k-1])是简单地保证不产生重复,连接l1和l2产生的结果项集是l1[1]l1[2]...l1[k-1]l2[k-1];
(3.1.2)剪枝步:Ck是Lk的超集,即它的成员可以是也可以不是频繁的,但所有的频繁k-项集都包含在Ck中,扫描数据库,确定Ck中每个候选的计数,从而确定Lk,为压缩Ck,用以下方法使用Apriori性质:任何非频繁的(k-1)-项集都不可能是频繁k-项集的子集,因此,如果一个候选k-项集的(k-1)-子集不在Lk-1中,则该候选也不可能是频繁的,从而可以由Ck中删除。
本发明的有益效果在于:
本发明采用漏斗模型并排除了传统主观赋值权重的影响,使得目标集最逼近客观事实,使得本系统能很好抓取我们所需的目标集;本发明还采用关联规则apriori算法,保证模型的支持度和置信度的情况下,逻辑严密,排出无关集合,保留全部目标集,从而找到符合我们意愿的目标集;漏斗模型和apriori算法两种方法筛选数据具有单一规则无法比拟的优势,目标集更好地接近预期,显著提高了互联网信息收集及关联的精准度。
附图说明
图1是本发明所述互联网信息收集及关联方法的流程图;
图2是实施例中得分值与有意愿人数的x-y图;
图3是实施例中得分值与有意愿人数比例的x-y图。
具体实施方式
下面结合实施例和附图对本发明作进一步说明:
为了便于理解,下面以“从顾客在购买汽车方面留下的互联网信息中收集和关联有用信息”为例,对本发明进行具体阐述。
如图1所示,具体的互联网信息收集及关联方法包括以下步骤:
(1)构建指标体系:先根据某个顾客的互联网信息确定各种分类指标信息并分别设定为x0*、x1*、x2*…xn*,这里的个体的互联网信息包括基本信息、行为信息和偏好信息;更具体地,指标体系构建如下:
x0*=年龄:25《=年龄《=50,
x1*=收入:15《=收入,
x2*=“汽车”搜索行为,
x3*=“具体品牌”搜索行为,
x4*=“具体车系”搜索行为,
x5*=“具体车系询价”行为,
x6*=“具体车型”搜索行为,
x7*=“具体车型”询价行为,
x8*=“具体车型”参与pk行为,
x9*=网页停留时间》=60s行为。
(2)根据漏斗模型求目标集:设h(x)是顾客的样本空间(x0、x1、x2…x9),g(x)是假设空间(x0*、x1*、x2*…x9*),对于该个体的互联网信息,可以根据如下公式求出总得分值:
其中,n取9,ll(·)是指示函数,若·为真则取值1,否则取值0,
然后把不同得分值的个体分到不同的类别中去,把E=a,a[0,9],aI N*归为一个集合,记为Ea,然后画出得分值与有意愿人数的x-y图,如图2所示,以及得分值与有意愿人数比例的x-y图,如图3所示;
设定有意愿个体数阀值为b*,大于b*的Ea留下,小于的b*的Ea剔除,得到关于E的集合O1,设定有意愿个体数比例阀值为c*,大于c*的Ea留下,小于的c*的Ea剔除,得到关于E的集合O2;令Oa=O1I O2,求得Oa
(3)关联规则求目标集:包括以下步骤:
(3.1)找出所有频繁项集:频繁项集定义:项的集合称为项集,包含k个项的项集称为k-项集,项集的出现频率是包含项集的事务数,简称为项集的频率、支持计数或计数,如果项集满足最小支持度阀值,即项集的出现频率大于或等于支持度与数据库事务集合D中的事务总数的乘积,则称它为频繁项集,频繁k-项集的集合记作Lk;利用Apriori算法找出所有频繁项集,其具体方法为:
(3.1.1)连接步:为找Lk,通过Lk-1与自己连接产生候选k-项集的集合,该候选项集的集合记作Ck,设l1和l2是Lk-1中的项集,记号li[j]表示li的第j项,假定事务或项集中的项按字典次序排序,执行连接Lk-1I Lk-1,其中,Lk-1的元素是可连接的,如果它们前(k-2)个项相同,即,Lk-1的元素l1和l2是可连接的,如果(l1[1]=l2[1])∧(l1[2]=l2[2])∧...∧(l1[k-2]=l2[k-2])∧(l1[k-1]<l2[k-1]),条件(l1[k-1]<l2[k-1])是简单地保证不产生重复,连接l1和l2产生的结果项集是l1[1]l1[2]...l1[k-1]l2[k-1];
(3.1.2)剪枝步:Ck是Lk的超集,即它的成员可以是也可以不是频繁的,但所有的频繁k-项集都包含在Ck中,扫描数据库,确定Ck中每个候选的计数,从而确定Lk,为压缩Ck,用以下方法使用Apriori性质:任何非频繁的(k-1)-项集都不可能是频繁k-项集的子集,因此,如果一个候选k-项集的(k-1)-子集不在Lk-1中,则该候选也不可能是频繁的,从而可以由Ck中删除;
(3.2)由频繁项集产生关联规则:
一旦由数据库事务集合D中的事务找出频繁项集,由它们产生强关联规则是直接了当的,强关联规则满足最小支持度和最小置信度,对于置信度Confidence,可以用下获取,其中条件概率用项集支持度计数表示:
其中,P(AB)是包含项集A和B的事务数,P(A)是包含项集A的事务数;根据该式,由频繁项集产生关联规则的具体方法如下:
(3.2.1)对于每个频繁项集L,产生L的所有非空子集S;
(3.2.2)对于L的每个非空子集S,如果
P(L)/P(S)≧min_conf,
其中,P(L)是包含频繁项集L的事务数,P(S)是包含非空子集S的事务数,min_conf是最小置信度阈值,
则输出关联规则本例中即为S(购买汽车),
其中,L-S表示在频繁项集L中除去非空子集S后的项集;
(3.2.3)找到与关联规则对应的顾客集合Ob
(4)获取最终目标集:O=OaUOb
(5)输出目标集O=OaUOb
为了便于理解Apriori算法的相关技术,下面作进一步介绍:
基本概念:
设I={i1,i2,...,im}是项的集合,设任务相关的数据D是数据库事务集合,其中每个事务T是项的集合,使得每一个事务有一个标识符,称作TID。设A是一个项集,事务T包含A当且仅当关联规则是形如的蕴涵式,其中并且规则在事务集D中成立,具有支持度s,其中s是D中事务包A∩B(即A和B二者)的百分比,它是概率P(AB)。规则在事务集D中具有置信度c,如果D中包含A的事务同时也包含B的百分比是c,这是条件概率P(B|A),即:
support(支持度)
cinfidence(置信度)
同时满足最小支持度阈值即min_sup和最小置信度阈值即min_conf的规则称作强规则。为方便计,用0%和100%之间的值,而不是用0到1之间的值表示支持度和置信度。
项的集合称为项集,包含k个项的项集称为k-项集,项集的出现频率是包含项集的事务数,简称为项集的频率、支持计数或计数。如果项集满足最小支持度阀值min_sup,即项集的出现频率大于或等于support(支持度)与D中事务总数的乘积,则称它为频繁项集;频繁k-项集的集合通常记作Lk
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法;该算法的名字基于这样的事实:算法使用频繁项集性质的先验知识,正如我们将看到的。Apriori使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。首先,找出频繁1-项集的集合,该集合记作L1;L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k-项集。找每个Lk需要一次数据库扫描。
为提高频繁项集逐层产生的效率,一种称作Apriori性质的重要性质用于压缩搜索空间,介绍该性质如下:
Apriori性质:频繁项集的所有非空子集都必须也是频繁的;Apriori性质基于如下观察:根据定义,如果项集I不满足最小支持度阈值s,则I不是频繁的,即P(I)<s;如果项A添加到I,则结果项集即I∪A不可能比I更频繁出现。因此,I∪A也不是频繁的,即P(I∪A)<s。
该性质属于一种特殊的分类,称作反单调,意指如果一个集合不能通过测试,则它的所有超集也都不能通过相同的测试。称它为反单调的,因为在通不过测试的意义下,该性质是单调的。
上述实施例只是本发明的较佳实施例,并不是对本发明技术方案的限制,只要是不经过创造性劳动即可在上述实施例的基础上实现的技术方案,均应视为落入本发明专利的权利保护范围内。

Claims (2)

1.一种互联网信息收集及关联方法,其特征在于:包括以下步骤:
(1)构建指标体系:先根据某个个体的互联网信息确定各种分类指标信息并分别设定为x0*、x1*、x2*…xn*,这里的个体的互联网信息包括基本信息、行为信息和偏好信息;
(2)根据漏斗模型求目标集:设h(x)是顾客的样本空间(x0、x1、x2…xn),g(x)是假设空间(x0*、x1*、x2*…xn*),对于该个体的互联网信息,可以根据如下公式求出总得分值:
&Sigma; E = x = 0 n l l ( h Y x Y = g Y x Y )
其中,ll(·)是指示函数,若·为真则取值1,否则取值0,
然后把不同得分值的个体分到不同的类别中去,把E=a,a[0,n],归为一个集合,记为Ea,然后画出得分值与有意愿个体数比例的x-y图;
设定有意愿个体数阀值为b*,大于b*的Ea留下,小于的b*的Ea剔除,得到关于E的集合O1,设定有意愿个体数比例阀值为c*,大于c*的Ea留下,小于的c*的Ea剔除,得到关于E的集合O2;令求得Oa
(3)关联规则求目标集:包括以下步骤:
(3.1)找出所有频繁项集:频繁项集定义:项的集合称为项集,包含k个项的项集称为k-项集,项集的出现频率是包含项集的事务数,简称为项集的频率、支持计数或计数,如果项集满足最小支持度阀值,即项集的出现频率大于或等于支持度与数据库事务集合中的事务总数的乘积,则称它为频繁项集,频繁k-项集的集合记作Lk;利用Apriori算法找出所有频繁项集;
(3.2)由频繁项集产生关联规则,具体方法如下:
(3.2.1)对于每个频繁项集L,产生L的所有非空子集S;
(3.2.2)对于L的每个非空子集S,如果
P(L)/P(S)≧min_conf,
其中,P(L)是包含频繁项集L的事务数,P(S)是包含非空子集S的事务数,min_conf是最小置信度阈值,
则输出关联规则
其中,L-S表示在频繁项集L中除去非空子集S后的项集;
(3.2.3)找到与关联规则对应的个体集合Ob
(4)获取最终目标集:O=OaUOb
(5)输出目标集O=OaUOb
2.根据权利要求1所述的互联网信息收集及关联方法,其特征在于:所述步骤(3.1)中,利用Apriori算法找出所有频繁项集的具体方法为:
(3.1.1)连接步:为找Lk,通过Lk-1与自己连接产生候选k-项集的集合,该候选项集的集合记作Ck,设l1和l2是Lk-1中的项集,记号li[j]表示li的第j项,假定事务或项集中的项按字典次序排序,执行连接其中,Lk-1的元素是可连接的,如果它们前(k-2)个项相同,即,Lk-1的元素l1和l2是可连接的,如果(l1[1]=l2[1])∧(l1[2]=l2[2])∧...∧(l1[k-2]=l2[k-2])∧(l1[k-1]<l2[k-1]),条件(l1[k-1]<l2[k-1])是简单地保证不产生重复,连接l1和l2产生的结果项集是l1[1]l1[2]...l1[k-1]l2[k-1];
(3.1.2)剪枝步:Ck是Lk的超集,即它的成员可以是也可以不是频繁的,但所有的频繁k-项集都包含在Ck中,扫描数据库,确定Ck中每个候选的计数,从而确定Lk,为压缩Ck,用以下方法使用Apriori性质:任何非频繁的(k-1)-项集都不可能是频繁k-项集的子集,因此,如果一个候选k-项集的(k-1)-子集不在Lk-1中,则该候选也不可能是频繁的,从而可以由Ck中删除。
CN201710015013.XA 2017-01-09 2017-01-09 互联网信息收集及关联方法 Pending CN106897359A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710015013.XA CN106897359A (zh) 2017-01-09 2017-01-09 互联网信息收集及关联方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710015013.XA CN106897359A (zh) 2017-01-09 2017-01-09 互联网信息收集及关联方法

Publications (1)

Publication Number Publication Date
CN106897359A true CN106897359A (zh) 2017-06-27

Family

ID=59198098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710015013.XA Pending CN106897359A (zh) 2017-01-09 2017-01-09 互联网信息收集及关联方法

Country Status (1)

Country Link
CN (1) CN106897359A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107682344A (zh) * 2017-10-18 2018-02-09 南京邮数通信息科技有限公司 一种基于dpi数据互联网身份识别的id图谱建立方法
CN108256052A (zh) * 2018-01-15 2018-07-06 成都初联创智软件有限公司 基于tri-training的汽车行业潜在客户识别方法
CN109166069A (zh) * 2018-07-17 2019-01-08 华中科技大学 基于马尔科夫逻辑网络的数据关联方法、系统及设备
CN109344235A (zh) * 2018-09-07 2019-02-15 昆明理工大学 一种基于并存率与关联规则的心理行为分析方法
CN109658293A (zh) * 2018-02-26 2019-04-19 深圳前海小鸽旅游信息技术有限公司 旅游产品与用户需求关联方法
CN112231315A (zh) * 2020-12-16 2021-01-15 武汉凡松科技有限公司 一种基于大数据的数据治理方法
CN112632599A (zh) * 2020-12-07 2021-04-09 国网山东省电力公司潍坊供电公司 敏感数据发现的方法、装置、计算机设备和介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107682344A (zh) * 2017-10-18 2018-02-09 南京邮数通信息科技有限公司 一种基于dpi数据互联网身份识别的id图谱建立方法
CN108256052A (zh) * 2018-01-15 2018-07-06 成都初联创智软件有限公司 基于tri-training的汽车行业潜在客户识别方法
CN108256052B (zh) * 2018-01-15 2023-07-11 成都达拓智通科技有限公司 基于tri-training的汽车行业潜在客户识别方法
CN109658293A (zh) * 2018-02-26 2019-04-19 深圳前海小鸽旅游信息技术有限公司 旅游产品与用户需求关联方法
CN109166069A (zh) * 2018-07-17 2019-01-08 华中科技大学 基于马尔科夫逻辑网络的数据关联方法、系统及设备
CN109166069B (zh) * 2018-07-17 2020-09-08 华中科技大学 基于马尔科夫逻辑网络的数据关联方法、系统及设备
CN109344235A (zh) * 2018-09-07 2019-02-15 昆明理工大学 一种基于并存率与关联规则的心理行为分析方法
CN112632599A (zh) * 2020-12-07 2021-04-09 国网山东省电力公司潍坊供电公司 敏感数据发现的方法、装置、计算机设备和介质
CN112231315A (zh) * 2020-12-16 2021-01-15 武汉凡松科技有限公司 一种基于大数据的数据治理方法

Similar Documents

Publication Publication Date Title
CN106897359A (zh) 互联网信息收集及关联方法
Garimella et al. Quantifying controversy on social media
Kwon et al. Rumor detection over varying time windows
Chen et al. Non-parametric scan statistics for event detection and forecasting in heterogeneous social media graphs
Chung BizPro: Extracting and categorizing business intelligence factors from textual news articles
Lin et al. Voices of victory: A computational focus group framework for tracking opinion shift in real time
CN103729359B (zh) 一种推荐搜索词的方法及系统
US8977613B1 (en) Generation of recurring searches
Nguyen et al. Real-time event detection using recurrent neural network in social sensors
EP3171324A1 (en) Method of predicting social article influence and device using the same
US10387805B2 (en) System and method for ranking news feeds
CN109165975B (zh) 标签推荐方法、装置、计算机设备及存储介质
Zhou et al. Corporate communication network and stock price movements: insights from data mining
CN105138577A (zh) 一种基于大数据的事件演化分析方法
CN105869058B (zh) 一种多层潜变量模型用户画像提取的方法
Hu et al. Predicting the quality of online health expert question-answering services with temporal features in a deep learning framework
Zubiaga et al. Political homophily in independence movements: analyzing and classifying social media users by national identity
Saraswathi et al. Deep Learning Enabled Social Media Recommendation Based on User Comments.
KR101585644B1 (ko) 단어 연관성 분석을 이용한 문서 분류 장치, 방법 및 이를 위한 컴퓨터 프로그램
Cai et al. An extension of social network group decision-making based on trustrank and personas
Lu et al. User-based collaborative filtering recommendation method combining with privacy concerns intensity in mobile commerce
Brambilla et al. Brand community analysis on social networks using graph representation learning
EP3493082A1 (en) A method of exploring databases of time-stamped data in order to discover dependencies between the data and predict future trends
Deng et al. Sampling method based on improved C4. 5 decision tree and its application in prediction of telecom customer churn
CN115098777A (zh) 一种基于数据分析的用户个性化推荐方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170627

RJ01 Rejection of invention patent application after publication