CN111291092A - 一种数据处理方法、装置、服务器及存储介质 - Google Patents
一种数据处理方法、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN111291092A CN111291092A CN202010095888.7A CN202010095888A CN111291092A CN 111291092 A CN111291092 A CN 111291092A CN 202010095888 A CN202010095888 A CN 202010095888A CN 111291092 A CN111291092 A CN 111291092A
- Authority
- CN
- China
- Prior art keywords
- time period
- sample
- samples
- type
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 238000003860 storage Methods 0.000 title claims abstract description 10
- 238000005065 mining Methods 0.000 claims abstract description 59
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000007418 data mining Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 11
- 230000006399 behavior Effects 0.000 claims description 71
- 238000004590 computer program Methods 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 description 34
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000009412 basement excavation Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 235000019013 Viburnum opulus Nutrition 0.000 description 1
- 244000071378 Viburnum opulus Species 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Remote Sensing (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种数据处理方法、装置、服务器及存储介质,其中方法包括:获取目标用户的行为数据,所述行为数据包括:时段样本集和位置样本集,所述时段样本集中的每个时段样本和所述位置样本集中的一个或多个位置样本相对应;对所述时段样本集进行数据挖掘,并根据挖掘结果从所述时段样本集中确定出第一类时段;基于所述第一类时段的出现次数,确定所述第一类时段对应位置样本的权重;根据所述第一类时段对应位置样本的权重,对所述位置样本集中所述第一类时段对应位置样本进行加权聚类运算,并根据加权聚类运算结果确定目标位置,可提升确定出的用户对应目标位置的精准度。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、服务器及存储介质。
背景技术
随着互联网技术的不断深入发展,互联网消费模式崛起并快速发展起来,在当前的互联网经济时代,经济主体的生产、交换、分配、消费等经济活动,以及金融机构和政府职能部门等主体的经济行为,都越来越多地依赖信息网络,因此,需要从网络上获取大量信息,从而可基于获取的网络信息进行决策以及交易等。为了提升决策的准确度,在当前的互联网经济时代需更加依赖于用户信息的挖掘,而在用户信息中,用户的位置信息是刻画用户需求的基础信息,因此,如何准确地进行用户位置的确定成为了当前的研究热点。
发明内容
本发明实施例提供了一种数据处理方法、装置、服务器及存储介质,可提升确定出的用户对应目标位置的精准度。
一方面,本发明实施例提供了一种数据处理方法,所述方法包括:
获取目标用户的行为数据,所述行为数据包括:时段样本集和位置样本集,所述时段样本集中的每个时段样本和所述位置样本集中的一个或多个位置样本相对应;
对所述时段样本集进行数据挖掘,并根据挖掘结果从所述时段样本集中确定出第一类时段;
基于所述第一类时段的出现次数,确定所述第一类时段对应位置样本的权重;
根据所述第一类时段对应位置样本的权重,对所述位置样本集中所述第一类时段对应位置样本进行加权聚类运算,并根据加权聚类运算结果确定目标位置。
另一方面,本发明实施例提供了一种数据处理装置,所述装置包括:
获取单元,用于获取目标用户的行为数据,所述行为数据包括:时段样本集和位置样本集,所述时段样本集中的每个时段样本和所述位置样本集中的一个或多个位置样本相对应;
挖掘单元,用于对所述时段样本集进行数据挖掘,并根据挖掘结果从所述时段样本集中确定出第一类时段;
确定单元,用于基于所述第一类时段的出现次数,确定所述第一类时段对应位置样本的权重;
聚类单元,用于根据所述第一类时段对应位置样本的权重,对所述位置样本集中所述第一时段对应位置样本进行加权聚类运算;
所述确定单元,还用于根据加权聚类运算结果确定目标位置。
再一方面,本发明实施例提供了一种服务器,包括处理器、存储器和通信接口,所述处理器、所述存储器和所述通信接口相互连接,其中,所述存储器用于存储计算机程序指令,所述处理器被配置用于执行所述程序指令,执行如下步骤:
获取目标用户的行为数据,所述行为数据包括:时段样本集和位置样本集,所述时段样本集中的每个时段样本和所述位置样本集中的一个或多个位置样本相对应;
对所述时段样本集进行数据挖掘,并根据挖掘结果从所述时段样本集中确定出第一类时段;
基于所述第一类时段的出现次数,确定所述第一类时段对应位置样本的权重;
根据所述第一类时段对应位置样本的权重,对所述位置样本集中所述第一类时段对应位置样本进行加权聚类运算,并根据加权聚类运算结果确定目标位置。
再一方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
在本发明实施例中,服务器在获取到目标用户行为数据后,可对该行为数据中包括的时段样本集进行数据挖掘,从而可根据挖掘结果从该时段样本集中确定出关键时段(即第一类时段),由于时段样本集中时段样本的出现次数,用于表明目标用户执行相应用户行为的频率,服务器可基于该第一类时段的出现次数确定第一类时段对应位置样本的在进行聚类运算时的权重,进一步地,服务器则可按照确定出的权重对位置样本集中该第一类时段对应位置样本进行加权聚类运算,从而可根据加权聚类运算结果,确定出目标位置,实现了基于用户行为对用户的目标位置进行挖掘,基于用户的出现次数为不同的位置进行加权聚类,可有效提升用户确定出的目标位置的精准度。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种数据处理的流程图;
图2是本发明实施例提供的一种数据处理方法的示意流程图;
图3是本发明另一实施例提供的一种数据处理方法的示意流程图;
图4a是本发明实施例提供的一种聚类运算的示意图;
图4b是本发明实施例提供的一种聚类运算的示意图;
图5是本发明实施例提供的一种数据处理装置的示意性框图;
图6是本发明实施例提供的一种服务器的示意性框图。
具体实施方式
本发明实施例提出了一种数据处理方法,可基于目标用户的行为数据中包括的时段样本对位置样本进行聚类运算,得到用于反应目标用户的目标位置,该目标位置为目标用户在预设时间周期中出现频率较高的位置,基于该目标位置,可更加精细化地进行目标用户的目标画像的确定,从而可更加精确地了解用户的个性化需求。在确定出目标用户对应的目标位置后,可基于该目标位置对应的时间信息,确定该目标位置对应的位置属性,即确定该目标位置为工作位置或者居住位置,因此,基于确定出的目标位置,可实现对目标用户进行定向的信息推送,如可基于确定出的目标位置,确定出该目标位置对应区域范围的推送信息,从而可将确定出的推送信息发送给目标用户,实现对商户信息的推送,此外,所述确定出的推送信息包括商户信息,广告信息,以及政府广播信息等;或者,还可基于目标位置进行社区划分,如可将对应目标位置之间的距离阈值小于或等于预设阈值的用户划分为同一社区,从而可确定出各用户之间的联系,并可按照该联系进行风险控制。
在一个实施例中,服务器在基于目标用户的行为数据,确定该目标用户对应的目标位置时,可先获取该目标用户的行为数据,其中,在目标用户的行为为支付行为时,获取的行为数据则是基于该目标用户的支付数据确定的,该支付数据包括对应的支付时间和支付位置,该支付位置为目标用户发起支付的商户位置的经纬度,服务器在获取到支付时间后,可对该支付时间进行预处理,以小时间间隔将支付时间进行转化,其中该小时间间隔包括:0-1时、1-2时…22-23时、以及23-0时,根据该支付时间所属的时间间隔,服务器可实现将支付时间进行转化,如,若服务器获取的支付数据包括的支付时间为8点15分,则经转化该支付时间对应的支付时段为8-9时,获取该用户进行支付时的商户对应的经纬度,从而可将该商户对应的经纬度作为支付位置。服务器在将支付时间转化为支付时段后,可将该支付时段和在该支付时段对应的支付位置相关联,服务器可将获取到的多条支付数据中的支付时间进行转换,从而确定出该目标用户在不同时段进行支付的数据,基于多条支付数据,服务器可提取该支付数据中的支付时段,以生成时段样本集,并可提取该支付数据中的支付位置,以生成位置样本集,在一个实施例中,所述服务器在获取不同时段进行支付的数据时,可获取同一时间周期的支付数据,如用户在同一个月的支付数据,或者在同一周的支付数据等。
在一个实施例中,服务器在获取到目标用户的行为数据后,如图1所示,可先对该行为数据中的时段样本集进行数据挖掘,以将该时段样本集进行分类,并从该时段样本集中确定出关键时段,进一步地,服务器在确定出关键时段后,可将所述时段样本集中除所述关键时段之外的时段作为非关键时段,其中,所述关键时段可以为第一类时段,所述非关键时段可以为第二类时段。在具体实现中,服务器可先基于最小支持度,确定出时段样本集中满足最小支持度阈值的各个时段样本,并可同时采用“滚雪球”的方法和思路,即每一轮挖掘都设置较高的支持度,保证序列模式挖掘的准确性,通过多轮迭代挖掘提高查全率,其中,该支持度用于描述时段样本在该时段样本集中的出现次数,最小支持对则用于描述时段样本在该时段样本集中的最少出现次数。其中,所述最小支持度的计算公式为:
min_sup=a*n 式1.1
其中,n为样本集长度,即样本集中的序列数,a为最小支持率参数,最小支持率参数a可根据样本集的量级进行调整,举例来说,在a=0.5时,若时段样本集中的时段序列的数量为2(n=2),确定出的最小支持度则为a*n=0.5*2=1,则服务器基于最小支持度,确定出时段样本集中满足(即大于或等于)最小支持度阈值为时的时段样本为:在所述时段样本集中出现次数为2次或两次以上的时段样本。
在一个实施例中,若服务器获取到的支付为目标用户在第T天的支付数据,以及第T+N天的支付数据,则根据获取到的支付数据,所述服务器确定出的时段样本集可如表1所示:
表1
第T天支付时段 | 第T+N天支付时段 |
7-8时 | 7-8时 |
9-10时 | 8-9时 |
12-13时 | 12-13时 |
17-18时 | 14-15时 |
20-21时 | 17-18时 |
21-22时 | 20-21时 |
其中,T和N均为大于或等于1的正整数,在服务器根据获取到的支付数据确定出时段样本集后,可先确定出时段样本集中满足该最小支持度阈值的各个时段样本,即统计该时段样本集中的各时段样本对应的出现次数,具体地,如表2所示:
表2
时段样本 | 7-8时 | 8-9时 | 9-10时 | 12-13时 | 14-15时 | 17-18时 | 20-21时 | 21-22时 |
出现次数 | 2 | 1 | 1 | 2 | 1 | 2 | 2 | 1 |
进一步的,若设定的最小支持度参数a=0.5,服务器在统计时段序列前缀出现频率(或出现次数)并将支持度高于最小支持度阈值(在最小支持度参数为0.5时,由于样本中的序列数量为2,则确定出的最小支持度阈值为1)的前缀添加到数据集,并获取频繁一项集时段序列模式。其中,获取的频繁一项集时段序列模式包括的一项前缀和对应后缀分别如表3所示,由各后缀组成的时段样本集合也可称为该前缀对应的投影数据集。
表3
服务器在确定频繁一项集时段序列模式后,可对满足该最小支持度阈值的前缀进行递归挖掘,并在挖掘前缀的投影数据集为空时,返回递归,在具体实现中,基于表3所示的频繁一项集时段序列模式,将投影数据集中满足支持度阈值的各单项与当前前缀合并,得到二项前缀,得到的二项前缀以及对应的后缀如表4所示:
表4
在得到二项前缀以及对应后缀后,还可进一步挖掘,得到三项前缀和对应后缀,如表5所示。
表5
在一个实施例中,服务器在进行挖掘得到三项前缀以及对应后缀后,还可进一步挖掘,得到四项前缀和对应后缀,如表6所示。
表6
四项前缀 | 对应后缀 |
7-8时,12-13时,17-18时,20-21时 | 21-22时 |
基于得到的四项前缀和对应后缀,服务器可将该目标用户的最长N项频繁序列模式,即四项前缀包括的时段样本确定为关键时段(即第一类时段),其中,该第一类时段包括:<7-8时、12-13时、17-18时、20-21时>,在服务器确定出关键时段后,可将时段样本集中除所述关键时段之外的其他时段作为非关键时段(即第二类时段),该第二类时段则包括:<8-9时、9-10时、14-15时、21-22时>。
在一个实施例中,服务器在基于对时段样本集进行数据挖掘,并确定出关键时段(即第一类时段)后,服务器即将该时段样本集中的时段划分成为了两类,分别为第一类时段和第二类时段,进一步地,服务器则可基于该第一类时段和第二类时段分别在所述时段样本集中的出现次数,确定出第一类时段对应位置样本的权重,以及第二类时段对应位置样本的权重,从而可基于权重对该位置样本集中的各位置样本进行加权聚类运算,从而基于加权聚类运算的结果,可确定出目标用户对应的目标位置,该目标位置为该目标用户的出现频率(或出现次数)大于预设阈值的位置,所以,该目标位置也可称为该目标用户的常驻位置。
在一个实施例中,服务器基于第一类时段的出现次数确定出的权重大于基于第二类时段的出现次数确定出的权重,服务器在基于权重对位置样本集中的各位置样本进行聚类运算时,可先将该位置样本集中的各位置样本进行向量化,从而可对频繁序列模式挖掘出的第一类时段对应位置样本的向量按照根据第一类时段的出现次数确定出的权重进行加权,并可对第二类时段对应位置样本的向量按照第二类时段的出现次数确定出的权重进行加权,从而可构建加权聚类算法对该位置样本集中的各位置样本对应的向量进行聚类,从而可将聚类后的聚类中心作为该目标位置。
在服务器确定出目标位置后,可获取该目标位置对应的时间信息,基于预先对时间信息的划分,可确定出该目标位置为居住地或者工作地,在具体视线中,服务器可先将时间信息划分为两类,包括工作时间(可设为8-17时)和休息时间(可设为19-23时),服务器在确定出聚类中心后,可确定该聚类中心对应的时间信息的属性,可确定出该聚类中心对应时间属于工作时间还是休息时间,在所述聚类中心对应时间属于工作时间时,可确定该聚类中心为工作地,而如果确定该聚类中心对应时间属于休息时间时,可确定该聚类中心属于居住地,实现了基于时段样本对目标位置的确定,以及对目标位置的属性的确定过程。
请参见图2,是本发明实施例提出的一种数据处理方法的示意流程图,如图2所示,该方法可包括:
S201,获取目标用户的行为数据,所述行为数据包括:时段样本集和位置样本集,所述时段样本集中的每个时段样本和所述位置样本集中的一个或多个位置样本相对应。
在一个实施例中,所述目标用户的行为数据是服务器在检测到产生相应用户行为时生成的,所述用户行为包括支付行为,或者购票行为等,在所述用户行为是支付行为时,所述目标用户的行为数据是根据该支付行为产生的支付数据生成的,该支付数据包括该支付行为产生的支付时间,以及对应的支付位置。在一个实施例中,服务器可获取处于同一预设时间周期的支付数据,并可按照该支付数据的产生先后顺序,对处于同一预设时间周期的支付数据的支付时间对应时段样本进行排序,其中,由同一预设时间周期的支付数据的支付时间对应时段样本处于同于时段序列中。基于获取的支付数据的多个时间周期,服务器可确定出多个时段序列,每个时段序列中的时段样本是根据处于同一预设时间周期的支付数据的支付时间确定的,其中,所述预设时间周期例如可以是一天,也可以是半天,或者一周等。
在一个实施例中,所述行为数据还包括位置样本集,在用户行为是支付行为时,所述位置样本集中的各位置样本是根据产生用户支付行为的位置信息确定的,其中,服务器可将产生该用户支付行为的商户的位置信息作为位置样本,进一步的,由于支付数据中支付时间和支付位置的关联关系,服务器在确定出时段样本集和位置样本集后,可基于该支付时间和支付位置时间的关联关系,确定出时段样本集中各时段样本和位置样本集中的各位置样本之间的关联关系。在一个实施例中,服务器在确定用户行为数据的生成时间对应的时段后,由于用户行为数据在生成时对应有位置信息,服务器可根据处于同一时段样本的一个或多个位置信息,确定出该时段样本对应的一个位置区域,并将确定出的一个位置区域作为与该时段样本关联的位置样本;或者,所述服务器也可直接将处于该时段样本的一个或多个位置信息作为与该时段样本关联的位置样本,即该时段样本集中的每个时段样本,可和该位置样本集中的一个或多个位置样本相对应。
在一个实施例中,若所述时段样本集是根据目标用户在4天内的支付数据的支付时间确定的,基于每天的支付数据的支付时间,服务器可将基于同一天的支付数据的支付时间确定的时段样本作为一个时段序列,因此,基于目标用户在4天内的支付数据确定出的时段样本集包括4个时段序列,基于目标用户在4天内的支付数据确定出的时段样本集可如表7所示:
表7
第一天支付时段 | 第一天支付时段 | 第一天支付时段 | 第一天支付时段 |
5-6时 | 0-1时 | 0-1时 | 0-1时 |
16-17时 | 1-2时 | 3-4时 | 5-6时 |
5-6时 | 5-6时 | ||
16-17时 | 7-8时 | ||
17-18时 | 16-17时 | ||
18-19时 | 19-20时 |
服务器在获取到目标用户的行为数据后,可对行为数据集中的时段样本进行数据挖掘,以对所述时段样本集中的数据进行分类,即转而执行步骤S202。
S202,对所述时段样本集进行数据挖掘,并根据挖掘结果从所述时段样本集中确定出第一类时段。
在一个实施例中,服务器可采用频繁序列模式算法对时段样本集进行数据挖掘,其中,所述频繁序列模式算法包括但不限于:前缀投影的模式挖掘(Prefix-ProjectedPattern Growth,PrefixSpan)算法,挖掘关联规则的频繁项集(Apriori)算法,以及广义序列模式挖掘(Generalized Sequential Pattern mining,GSP)算法,等等。若服务器获取的时段样本集如表7所示,在采用PrefixSpan算法对时段样本集进行频繁序列模式挖掘时,可先统计该时段样本集中各时段样本在所述时段样本集中的出现次数,统计得到的各时段样本的出现次数可如表8所示:
表8
a=0.5时,由于时段样本集中的时段序列的数量n=4,则基于式1.1所示的最小支持度的计算公式确定出的最小支持度为a*n=0.5*4=2,即服务器需要从时段样本集中确定出在4天中出现次数为2次以及2次以上的时段样本,即确定出的时段样本为5-6时,0-1时,以及16-17时,服务器在确定出满足支持度的时段样本后,可将不满足该支持度的时段样本进行过滤,使得服务器可基于过滤后的时段样本,并采用频繁序列模式算法进行数据挖掘,挖掘得到的频繁一项集时段序列模式可如表9所示:
表9
频繁一项集时段序列模式,服务器可进一步挖掘确定出频繁二项集序列模式,该频繁二项集序列模式的二项前缀,以及对应的后缀如表10所示:
表10
频繁二项集时段序列模式,服务器可进一步挖掘确定出频繁三项集时段序列模式,该频繁三项集序列模式的三项前缀,以及对应的后缀如表11所示:
表11
0-1时,5-6时,16-17时 |
基于服务器对时段样本集中各时段样本的挖掘过程,服务器可将该时段样本集中的时段样本划分为关键时段,即第一类时段,该第一类时段包括的时段有:0-1时,5-6时,16-17时,服务器在确定出关键时段后,还可将该时段样本集中除该关键时段之外的其他时段作为第二类时段,具体的,该第二类时段包括:1-2时,3-4时,7-8时,17-18时,18-19时,以及19-20时。在一个实施例中,服务器在确定出第一类时段后,可基于该第一类时段在时段样本集中的出现次数,确定出第一类时段对应位置样本的权重,即转而执行步骤S203。
S203,基于所述第一类时段的出现次数,确定所述第一类时段对应位置样本的权重。
在一个实施例中,由于用户行为(如上述的支付行为)产生时,获取的行为数据是将对应的时间信息(如上述的支付时间)和位置信息(如上述的支付位置)相关联的,因此基于时段样本集中各时段样本和位置样本之间的关联关系,时段样本集中的时段样本的出现频率越高,对应位置样本在位置样本集中的出现次数也更高,所以,服务器可基于第一类时段在时段样本集中的出现次数,确定出第一类时段对应位置样本权重。
在一个实施例中,若第一类时段包括的时段样本为关键时段,则服务器在基于第一类时段的出现次数,确定第一类时段对应位置样本的权重时,可先确定该关键时段对应的时段序列,基于上述对时段样本集进行挖掘的过程可知第一类时段中的各关键时段所在的时段序列为所述时段样本集在进行频繁序列模式挖掘过程中得到的最长时段序列,因此,在确定该第一类时段对应位置样本的权重时,可先确定该最长时段序列在该时段样本集中的出现次数,举例来说,若时段样本集为如上述表7所示,服务器对该时段样本集进行频繁序列模式挖掘得到的第一类时段所在的最长时段序列则为<0-1时,5-6时,16-17时>,进一步地,服务器可确定该最长时段序列在该时段样本集中的出现次数为2,以及该时段样本集包括的时段序列的序列总数为4,基于该最长时段序列在该时段样本集中的出现次数2,以及序列总数4,可确定出最长时段序列在该时段样本集包括的4个时段序列中的第一出现频率为2/4=1/2,进一步地,服务器可将该最长时段序列对应的第一出现频率,作为该第一类时段对应位置样本的权重。
在一个实施例中,由于在用户行为产生时,产生该用户行为(如支付行为)的时段样本和位置样本是相关联的,而且由于时段样本的前后关联,使得后续产生的位置样本将对前序位置样本的权重产生影响,所以,为了体现后续位置样本对前序位置样本的权重的影响,服务器可通过对时段样本的挖掘,确定出后续时段样本对前序时段样本的出现频率的影响,使得服务器可基于时段样本的出现频率,确定出对应位置信息的权重。举例来说,如上述时段5-6时,基于挖掘得到的时段序列<0-1时,5-6时,16-17时>,可确定出在时段样本5-6时对应的位置样本的权重应该为1/2,而在时段序列<0-1时,5-6时>中,由于时段序列<0-1时,5-6时>在时段样本集(如表7所示)中的出现次数为3次,而时段样本集中的时段序列总数为4,则基于时段序列<0-1时,5-6时>确定出的时段样本5-6时对应位置样本的权重应该为3/4。可以理解的是,由于后续时段样本16-17时出现,导致关键时段(0-1时,5-6时,16-17时)对应位置的权重下降,因此,服务器需要先对时段样本集进行数据挖掘确定出关键时段,从而可在确定出关键时段后,再确定每个关键时段对应位置信息的权重。
服务器采用数据挖掘确定出关键时段后,进一步地,可确定出各关键时段(即第一类时段)对应位置样本的权重的方法,可更好地确定出不同时段之间关联关系,即各时段之间的相互影响,相比于直接统计各时段中对应位置样本的出现次数,并基于统计得到的出现次数确定位置样本对应位置的权重的方法,更能体现出目标用户在位置样本对应位置的出现概率,可以理解的是,位置样本的权重越大,目标用户在该位置样本对应位置的出现概率越高。
在服务器确定出第一类时段对应位置样本的权重后,可基于该第一类时段对应位置样本的权重,对该位置样本集中所述第一类时段对应位置样本进行聚类运算,以确定出目标位置,即转而执行步骤S204。
S204,根据所述第一类时段对应位置样本的权重,对所述位置样本集中所述第一类时段对应位置样本进行加权聚类运算,并根据加权聚类运算结果确定目标位置。
在一个实施例中,服务器在对所述位置样本集中所述第一类时段对应位置样本进行聚类运算之前,可先对位置样本集中所述第一类时段对应位置样本进行向量化,进一步地,可对所述第一类时段对应位置样本的向量进行聚类处理,以确定出目标位置,其中,若不考虑所述第一类时段对应位置样本的各位置样本之间的权重,服务器可基于K-means算法,EM算法等对该位置样本集进行聚类运算,进一步地,服务器可根据该加权聚类运算结果,确定出目标位置。
在一个实施例中,服务器在对时段样本集进行数据挖掘确定出第一类时段后,若所述各时段样本集中的各时段直接和生成用户行为的位置信息相关联,服务器则可确定出第一类时段中目标用户在多个位置样本产生用户行为的次数,从而可基于该次数确定出第一时段内各位置样本分别对应的权重,并基于该权重对该第一时段内的各位置样本进行加权聚类运算,以确定出目标位置。
在本发明实施例中,服务器在获取到目标用户行为数据后,可对该行为数据中包括的时段样本集进行数据挖掘,从而可根据挖掘结果从该时段样本集中确定出关键时段(即第一类时段),由于时段样本集中时段样本的出现次数,用于表明目标用户执行相应用户行为的频率,服务器可基于该第一类时段的出现次数确定第一类时段对应位置样本的在进行聚类运算时的权重,进一步地,服务器则可按照确定出的权重对位置样本集中该第一类时段对应位置样本进行加权聚类运算,从而可根据加权聚类运算结果,确定出目标位置,实现了基于用户行为对用户的目标位置进行挖掘,基于用户的出现次数为不同的位置进行加权聚类,可有效提升用户确定出的目标位置的精准度。
请参见图3,时本发明另一实施例提供的一种数据处理方法的示意流程图,如图3所示,该方法可包括:
S301,获取目标用户的行为数据,所述行为数据包括:时段样本集和位置样本集,所述时段样本集中的每个时段样本和所述位置样本集中的一个或多个位置样本相对应。
在一个实施例中,步骤S301的具体实施方式可参见上述实施例中步骤S201的具体实施方式,在此不再赘述。
S302,对所述时段样本集进行数据挖掘,并根据挖掘结果从所述时段样本集中确定出第一类时段。
S303,将所述时段样本集中除所述第一类时段之外的时段作为第二类时段。
在步骤S302和步骤S303中,服务器在对时段样本集进行挖掘时,可对所述时段样本集进行频繁序列模式挖掘,得到多个时段序列模式,其中,每个时段序列模式包括至少一个时段,进一步地,服务器可根据所述各时段序列模式下的序列长度,确定出最长序列,并将所述最长序列包括的时段样本为第一类时段,在所述服务器根据最长时段确定出第一类时段后,可将所述时段样本集中除所述第一类时段之外的时段样本作为第二类时段。在一个实施例中,所述时段样本集包括一个或多个时段序列,所述时段序列中的各时段样本按序排列;服务器在对所述时段样本集进行频繁序列模式挖掘时,可先根据所述样本时段集中各时段样本的出现次数,从所述样本时段集中选取多个一项前缀,每个一项前缀包括:在所述样本时段集中的出现次数大于预设次数阈值的时段样本;进一步地,服务器可采用各个一项前缀分别构建序列模式,并获取所述各个一项前缀的投影数据集,所述投影数据集包含对应一项前缀在对应时段序列中的后缀,所述后缀包括:所述时段序列中位于所述前缀之后的时段样本;在服务器确定出各个一项前缀,以及对应的后缀后,服务器可对所述各个一项前缀的投影数据集进行递归挖掘,得到N项前缀,并采用所述N项前缀分别构建序列模式,得到多个时段序列模式,其中,N为大于1的正整数。
在一个实施例中,服务器在对所述各个一项前缀的投影数据集进行递归挖掘,得到N项前缀时,可先对所述各个一项前缀的投影数据集进行挖掘,得到至少一个二项前缀,以各个二项前缀的投影数据集;若所述各个二项前缀的投影数据集均满足结束条件,则结束递归挖掘;否则,对不满足所述结束条件的二项前缀的投影数据集进行挖掘,得到至少一个三项前缀,以及各个三项前缀的投影数据集;若所述各个三项前缀的投影数据集均满足所述结束条件,则结束所述递归挖掘;否则继续挖掘,直至挖掘得到的投影数据集满足所述结束条件;其中,所述结束条件包括:挖掘得到的投影数据集为空,或者,挖掘得到的投影数据集中各时段在时间信息集中的出现次数小于或等于所述预设次数阈值,其中,所述预设次数阈值则是基于式1.1中的最小支持度a和样本数量确定出的。
S304,基于所述第一类时段的出现次数,确定所述第一类时段对应位置样本的权重。
S305,根据所述第一类时段对应位置样本的权重,对所述位置样本集中所述第一类时段对应位置样本进行加权聚类运算。
S306,将所述时段样本集中除所述第一类时段之外的时段作为第二类时段,并根据所述第二类时段的出现次数,确定所述第二类时段对应位置样本的权重。
S307,根据所述第二类时段对应位置样本的权重,对所述位置样本集中所述第二类时段对应位置样本进行加权聚类运算。
S308,根据所述第一类时段对应位置样本的权重,对所述位置样本集中所述第一类时段对应位置样本进行加权聚类运算的结果,以及,所述第二类时段对应位置样本的权重,对所述位置样本集中所述第二类时段对应位置样本进行加权聚类运算的结果,确定目标位置。
在步骤S304~步骤S308中,所述服务器获取的行为数据中的时段样本集包括至少一个时段序列;所述第一类时段中各时段样本所在的序列为最长序列;服务器在基于所述第一类时段的出现次数,确定所述第一类时段对应位置样本的权重时,可先确定所述最长序列在所述至少一个时段序列中的出现次数,以及所述时段样本集包括的时段序列的序列总数;进一步地,可根据所述最长序列在所述至少一个时段序列中的出现次数,以及所述序列总数,确定所述最长序列在所述至少一个时段序列中的第一出现频率;使得服务器可根据所述第一出现频率确定所述第一类时段对应位置样本的权重。
服务器除了需要确定出关键时段(即第一类时段)对应位置样本的权重之外,还需确定出非关键时段(即第二类时段)对应位置样本的权重。在具体实现中,服务器可先确定第二类时段中包括的时段样本在时段样本集中的出现次数,以及该时段序列的序列总数,举例来说,若时段样本集如表7所示,则确定出的非关键时段包括时段1-2时,由于时段1-2时在时段样本集中的出现次数为一次,且该时段样本集包括的时段序列总数为4,则服务器基于时段1-2时在时段样本集中的出现次数1,和该时段序列总数4,可确定出时段1-2时在时段序列中的出现频率1/4,同理服务器可确定出第二类时段中的各时段样本在至少一个时段序列中的第二出现频率,在服务器确定出第二类时段在各时段样本中的第二出现频率后,可将该第二出现频率作为第二类时段对应位置样本的权重。
在一个实施例中,服务器在根据所述第二类时段的出现次数,确定所述第二类时段对应位置样本的权重时,可先确定所述时段样本集包括的时段序列的序列总数,以及所述第二类时段中的各时段样本在所述时段样本集中的出现次数;进一步地,可根据所述第二类时段中的各时段样本在所述时段样本集中的出现次数和所述序列总数,确定所述第二类时段中的各时段样本在所述至少一个时段序列中的第二出现频率;从而可根据所述第二出现频率确定所述第二类时段对应位置样本的权重。其中,服务器执行步骤S304和步骤S306时,没有具体的先后执行顺序,可先执行步骤S304,也可先执行步骤S306,也可同时执行步骤S304和步骤S306。
在一个实施例中,服务器在对位置样本集中的各位置样本指示的位置进行聚类运算,确定出目标位置时,可先根据待划分的类别数量获取K个初始聚类中心,其中,K为大于1的正整数;进一步地,服务器可根据所述位置样本集中各位置样本和各个初始聚类中心之间的距离,将所述位置样本集划分为K个位置样本子集,每个位置样本子集中的位置样本和对应初始聚类中心之间的距离小于或等于预设距离阈值;服务器在确定出K个位置样本子集后,可进一步根据所述每个位置样本子集中的位置样本,对所述K个初始聚类中心进行迭代更新,得到K个目标聚类中心,所述K各目标聚类中心对应的位置为目标位置。
服务器在根据所述每个位置样本子集中的位置样本,对所述K个初始聚类中心进行迭代更新,得到K个目标聚类中心时,可先按照所述每个位置样本子集中的位置样本,以及所述每个位置样本对应的权重,更新所述K个初始聚类中心,得到K个中间聚类中心,其中,所述每个位置样本对应的权重包括:所述第一类时段对应位置样本的权重,或所述第二类时段对应位置样本的权重;根据所述位置样本集中的位置样本与所述K个中心聚类中心之间的距离,将所述位置样本集重新划分为K个新的位置样本子集,并在所述新的位置样本子集收敛时,结束对所述K个初始聚类中心的更新,得到K个目标聚类中心。在一个实施例中,在K=2时,确定出的目标聚类中心为两个,即得到的目标位置为2个。
在具体实现中,服务器可采用K-means算法对位置样本集中各位置样本对应向量进行加权聚类计算,其中,若该位置样本集中各位置样本对应向量为其中,j为大于或等于1的正整数,并由表示不同的类簇i对应的聚类中心向量,其中可基于属于不同类簇i的位置样本的向量确定出:
其中,mi为不同类簇i包括的向量总数。在采用K-means聚类算法对各位置样本对应向量进行聚类运算时,可先出聚类中心向量进行初始化,即先对初始化,对进行初始化是指,基于待聚类的类型数量K(即类簇i的总量),可任意选取K个向量作为向量,进一步地,基于各位置样本对应向量与初始聚类中心向量至今的聚类,可将原位置样本集划分为K个类簇(或者类别),基于式2.1,以及划分后的类别,可确定出每个类簇对应的新的聚类中心向量从而可实现对聚类中心向量的不断优化,并在基于收敛准则函数确定各类簇收敛时,停止对聚类中心向量的更新,并将最终得到的聚类中心向量指示的位置作为目标位置。其中,该收敛准则函数为:
其中,J用于描述向量和向量之间的凝聚度,函数Sim用于采用向量夹角的余弦计算向量和向量之间的相似度。如图4a所示,为K=2对应的对各样本点进行聚类运算的示意图,如图4a所示,若服务器获取到的位置样本集中各位置样本对应向量组成的样本点如图4a中由40标记的图像所示,基于该样本图像,服务器在对该样本点进行聚类运算时,可先初始化聚类中心,由于K=2,因此初始化的聚类中心包括401标记点和402标记的点,如41标记的图像所示,进一步的,基于各样本点与聚类中心之间的距离,服务器可将由位置样本集中各位置样本对应向量组成的样本点划分成两类,如42标记的图像所示,此时,划分到不同类别的样本点和对应聚类中心之间的距离小于或等于预设距离阈值,或者划分到不同类别的样本点和对应聚类中心之间的距离,小于与其他聚类中心之间的距离。
进一步地,如图4b所示,基于划分后的各类样本点(如图4a中42标记的图像),服务器可对聚类中心进行更新,得到如图4b中由43标记的图像,并可基于更新后的聚类中心,对由各位置样本对应向量组成的样本点进行重新划分,得到如图4b中44标记的图像,循环上述步骤,可实现对聚类中心的不断更新,并不断对样本点进行重新划分,直到划分的各类样本点收敛为止,则停止对聚类中心的更新,并可基于得到的目标聚类中心,确定出目标位置。若对各类样本点进行划分并收敛后的图像如图4b中由45标记的图像所示,对样本点进行不断重新划分后可得到两个收敛的样本子集,各类样本子集对应的聚类中心,如由403和404标记的聚类中心即是确定出的目标聚类中心,从而可基于该目标聚类中心确定出对应的目标位置。在不考虑位置样本集中各位置样本对应向量的权重,对位置样本进行聚类运算时,忽略了目标用户在不同位置产生用户行为的权重,使得采用不考虑权重的聚类运算得到的目标位置,与实际位置之间的偏差较大,降低了对目标位置的预测精准度。在一个实施例中,服务器基于各位置样本的第一类时段对应位置样本的权重和第二类时段对应位置样本的权重,确定出的聚类中心向量则为:
其中,wj为第j个位置样本对应向量的权重,在用户行为为支付行为时,该权重:
其中,用户在位置样本的支付天数,即是该位置样本对应的时段样本在时段样本集中的出现次数,该产生支付行为的总天数,即是该时段样本集中包括的时段序列总数。在一个实施例中,服务器可基于由式2.3所示的公式不断对聚类中心向量进行更新,并在收敛准则函数指示各类簇收敛时,停止对聚类中心向量的更新,并将最终得到的聚类中心向量指示的位置作为目标位置,所述目标位置为目标用户频繁出现的位置,即常驻位置,该目标位置可以是该目标用户的工作地,或者居住地等。在一个实施例中,服务器在对位置样本集中各位置样本进行加权聚类运算,确定出目标位置后,可基于该目标位置对应的时段信息的属性,确定该目标位置的属性,即转而执行步骤S309和步骤S310。
S309,获取所述目标位置对应的时段信息,并确定所述时段信息的属性,所述时段信息的属性包括:工作属性或者休息属性。
S310,根据所述时段信息的属性,确定所述目标位置的位置属性,所述位置属性包括:工作位置属性或者居住位置属性。
在步骤S309和步骤S310中,服务器在确定目标位置后,可基于目标位置对应的时段信息,确定出目标位置的位置属性,在具体实现中,服务器可先将时段划分为工作时段和休息时段,如划分得到的工作时段为8-17时,休息时段为19-23时,服务器在确定出目标位置对应的时段信息后,可通过判别该时段信息所属的时段为工作时段或者休息时段,确定出该目标位置对应时段信息的属性,为工作属性或者休息属性。进一步地,服务器可统计划分得到的K个位置样本子集中各位置样本对应的时段信息的属性,以及各自的占比,从而确定出每个聚类中心指示位置的位置属性,该位置属性可能为工作位置属性,也可能为居住位置属性。举例来说,若在某类别中有80%的位置样本对应的时段信息的属性为工作属性,则该类别对应的聚类中心指示位置为工作位置,而若某类别中有60%的位置样本的对应时段信息的属性为居住位置属性,而只有40%的位置样本对应的时段信息的属性为工作属性,则该类别对应聚类中心指示位置则为居住属性。
在一个实施例中,服务器在确定出目标位置后,还可获取用户集合中各用户对应的目标位置,以及待推送信息对应的发送地址;进一步的,服务器在确定所述发送地址和所述目标位置之间的距离后,可在所述距离小于或等于预设距离阈值时,将所述待推送信息发送到所述用户集合中各用户的对应终端。可以理解的是,服务器在确定出目标位置为工作地或者居住地后,可基于该目标用户的目标地址进行用户画像的构建,在确定出目标用户的目标位置,以及该目标位置对应的位置属性后(为工作地或者居住地),可基于该位置属性对属于同一用户集合,如社区的用户进行划分,以精准地刻画用户关系链;或者,还可基于不同用户对应的目标位置,为不同用户发送不同的推荐信息,如美食推荐信息,广告推荐信息等,可提升信息推荐的精准度。
在本发明实施例中,在获取到目标用户行为数据后,可对该行为数据中包括的时段样本集进行数据挖掘,以将时段样本集中的各时段样本划分为第一类时段和第二类时段,进一步地,服务器可基于该第一类时段的出现次数确定第一类时段对应位置样本的在进行聚类运算时的权重,并可基于第二类时段的出现次数,确定第二类时段对应位置样本在进行聚类运算时的权重,从而使得服务器则可对位置样本集中的各位置样本进行聚类运算,得到目标位置,此外,服务器在确定出目标位置后,可基于目标位置对应时段信息的属性,确定该目标位置属于工作地还是居住地,并可结合确定出的目标位置的属性,对目标用户进行用户画像的刻画,从而可基于确定出的用户画像进行推荐信息的推荐,提升了对目标位置进行挖掘的价值,提升了用户画像的刻画精准度,可实现对推荐信息的精准投放。
基于上述数据处理方法实施例的描述,本发明实施例还提出了一种数据处理装置,该数据处理装置可以是运行于上述服务器中的一个计算机程序(包括程序代码)。该数据处理装置可用于执行如图2和图3所述的数据处理方法,请参见图5,该数据处理装置可包括:获取单元501、挖掘单元502、确定单元503和聚类单元504。
获取单元501,用于获取目标用户的行为数据,所述行为数据包括:时段样本集和位置样本集,所述时段样本集中的每个时段样本和所述位置样本集中的一个或多个位置样本相对应;
挖掘单元502,用于对所述时段样本集进行数据挖掘,并根据挖掘结果从所述时段样本集中确定出第一类时段;
确定单元503,用于基于所述第一类时段的出现次数,确定所述第一类时段对应位置样本的权重;
聚类单元504,用于根据所述第一类时段对应位置样本的权重,对所述位置样本集中所述第一时段对应位置样本进行加权聚类运算;
所述确定单元503,还用于根据加权聚类运算结果确定目标位置。
在一个实施例中,所述确定单元503,还用于将所述时段样本集中除所述第一类时段之外的时段作为第二类时段,并根据所述第二类时段的出现次数,确定所述第二类时段对应位置样本的权重;
所述聚类单元504,还用于根据所述第二类时段对应位置样本的权重,对所述位置样本集中所述第二类时段对应位置样本进行加权聚类运算;
所述确定单元503,具体用于:
根据所述第一类时段对应位置样本的权重,对所述位置样本集中所述第一类时段对应位置样本进行加权聚类运算的结果,以及,所述第二类时段对应位置样本的权重,对所述位置样本集中所述第二类时段对应位置样本进行加权聚类运算的结果,确定目标位置。
在一个实施例中,所述挖掘单元502,具体用于:
对所述时段样本集进行频繁序列模式挖掘,得到多个时段序列模式,其中,每个时段序列模式包括至少一个时段;
根据所述各时段序列模式下的序列长度,确定出最长序列,并将所述最长序列包括的时段样本为第一类时段,所述第一类时段包括至少一个时段样本。
在一个实施例中,所述时段样本集包括一个或多个时段序列,所述时段序列中的各时段样本按序排列;
所述挖掘单元502,具体用于:
根据所述样本时段集中各时段样本的出现次数,从所述样本时段集中选取多个一项前缀,每个一项前缀包括:在所述样本时段集中的出现次数大于预设次数阈值的时段样本;
采用各个一项前缀分别构建序列模式,并获取所述各个一项前缀的投影数据集,所述投影数据集包含对应一项前缀在对应时段序列中的后缀,所述后缀包括:所述时段序列中位于所述前缀之后的时段样本;
对所述各个一项前缀的投影数据集进行递归挖掘,得到N项前缀,并采用所述N项前缀分别构建序列模式,得到多个时段序列模式,其中,N为大于1的正整数。
在一个实施例中,所述时段样本集包括至少一个时段序列;所述第一类时段中各时段样本所在的序列为最长序列;所述确定单元503,具体用于:
确定所述最长序列在所述至少一个时段序列中的出现次数,以及所述时段样本集包括的时段序列的序列总数;
根据所述最长序列在所述至少一个时段序列中的出现次数,以及所述序列总数,确定所述最长序列在所述至少一个时段序列中的第一出现频率;
根据所述第一出现频率确定所述第一类时段对应位置样本的权重。
在一个实施例中,所述时段样本集包括至少一个时段序列,所述确定单元503,具体用于:
确定所述时段样本集包括的时段序列的序列总数,以及所述第二类时段中的各时段样本在所述时段样本集中的出现次数;
根据所述第二类时段中的各时段样本在所述时段样本集中的出现次数和所述序列总数,确定所述第二类时段中的各时段样本在所述至少一个时段序列中的第二出现频率;
根据所述第二出现频率确定所述第二类时段对应位置样本的权重。
在一个实施例中,所述位置样本集中的位置样本的数量为多个;所述聚类单元504,具体用于:
根据待划分的类别数量获取K个初始聚类中心,其中,K为大于1的正整数;
根据所述位置样本集中各位置样本和各个初始聚类中心之间的距离,将所述位置样本集划分为K个位置样本子集,每个位置样本子集中的位置样本和对应初始聚类中心之间的距离小于或等于预设距离阈值;
根据所述每个位置样本子集中的位置样本,对所述K个初始聚类中心进行迭代更新,得到K个目标聚类中心,所述K各目标聚类中心对应的位置为目标位置。
在一个实施例中,所述聚类单元504,具体用于:
按照所述每个位置样本子集中的位置样本,以及所述每个位置样本对应的权重,更新所述K个初始聚类中心,得到K个中间聚类中心,其中,所述每个位置样本对应的权重包括:所述第一类时段对应位置样本的权重或所述第二类时段对应位置样本的权重;
根据所述位置样本集中的位置样本与所述K个中心聚类中心之间的距离,将所述位置样本集重新划分为K个新的位置样本子集,并在所述新的位置样本子集收敛时,结束对所述K个初始聚类中心的更新,得到K个目标聚类中心。
在一个实施例中,所述获取单元501,还用于获取所述目标位置对应的时段信息,并确定所述时段信息的属性,所述时段信息的属性包括:工作属性或者休息属性;
所述确定单元503,还用于根据所述时段信息的属性,确定所述目标位置的位置属性,所述位置属性包括:工作位置属性或者居住位置属性。
在一个实施例中,所述获取单元501,还用于获取用户集合中各用户对应的目标位置,以及待推送信息对应的发送地址;
所述确定单元503,还用于确定所述发送地址和所述目标位置之间的距离,并在所述距离小于或等于预设距离阈值时,将所述待推送信息发送到所述用户集合中各用户的对应终端。
在本发明实施例中,获取单元501在获取到目标用户行为数据后,挖掘单元502可对该行为数据中包括的时段样本集进行数据挖掘,从而确定单元503则可根据挖掘结果从该时段样本集中确定出关键时段(即第一类时段),由于时段样本集中时段样本的出现次数,用于表明目标用户执行相应用户行为的频率,确定单元503可基于该第一类时段的出现次数确定第一类时段对应位置样本的在进行聚类运算时的权重,基于得到的第一类时段对应位置样本的权重聚类单元504则可对第一类时段对应位置样本进行加权聚类运算,从而使得确定单元503可根据加权聚类运算结果,确定出目标位置,实现了基于用户行为对用户的目标位置进行挖掘,基于用户的出现次数为不同的位置进行加权聚类,可有效提升用户确定出的目标位置的精准度。
请参见图6,是本发明实施例提供的一种服务器的结构示意性框图。如图6所示的本实施例中的服务器可包括:一个或多个处理器601;一个或多个输入设备602,一个或多个输出设备603和存储器604。上述处理器601、输入设备602、输出设备603和存储器604通过总线605连接。存储器604用于存储计算机程序,该计算机程序包括程序指令,处理器601用于执行该存储器604存储的程序指令。
该存储器604可以包括易失性存储器(volatile memory),如随机存取存储器(random-access memory,RAM);存储器604也可以包括非易失性存储器(non-volatilememory),如快闪存储器(flash memory),固态硬盘(solid-state drive,SSD)等;存储器604还可以包括上述种类的存储器的组合。
该处理器601可以是中央处理器(central processing unit,CPU)。该处理器601还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specificintegrated circuit,ASIC),可编程逻辑器件(programmable logic device,PLD)等。该PLD可以是现场可编程逻辑门阵列(field-programmable gate array,FPGA),通用阵列逻辑(generic array logic,GAL)等。该处理器601也可以为上述结构的组合。
本发明实施例中,该存储器604用于存储计算机程序,该计算机程序包括程序指令,处理器601用于执行存储器604存储的程序指令,用来实现上述如图2和图3中相应方法的步骤。
在一个实施例中,该处理器601被配置调用该程序指令,用于执行:
获取目标用户的行为数据,该行为数据包括:时段样本集和位置样本集,该时段样本集中的每个时段样本和该位置样本集中的一个或多个位置样本相对应;
对该时段样本集进行数据挖掘,并根据挖掘结果从该时段样本集中确定出第一类时段;
基于该第一类时段的出现次数,确定该第一类时段对应位置样本的权重;
根据该第一类时段对应位置样本的权重,对该位置样本集中所述第一时段对应位置样本进行加权聚类运算,并根据该加权聚类运算结果确定目标位置。
在一个实施例中,该处理器601被配置调用该程序指令,用于执行:
将所述时段样本集中除所述第一类时段之外的时段作为第二类时段,并根据所述第二类时段的出现次数,确定所述第二类时段对应位置样本的权重;
根据所述第二类时段对应位置样本的权重,对所述位置样本集中所述第二类时段对应位置样本进行加权聚类运算;
该处理器601被配置调用该程序指令,还用于执行:
根据所述第一类时段对应位置样本的权重,对所述位置样本集中所述第一类时段对应位置样本进行加权聚类运算的结果,以及,所述第二类时段对应位置样本的权重,对所述位置样本集中所述第二类时段对应位置样本进行加权聚类运算的结果,确定目标位置。
在一个实施例中,该处理器601被配置调用该程序指令,用于执行:
对该时段样本集进行频繁序列模式挖掘,得到多个时段序列模式,其中,每个时段序列模式包括至少一个时段;
根据该各时段序列模式下的序列长度,确定出最长序列,并将该最长序列包括的时段样本为第一类时段,所述第一类时段包括至少一个时段样本。
在一个实施例中,该时段样本集包括一个或多个时段序列,该时段序列中的各时段样本按序排列;
该处理器601被配置调用该程序指令,用于执行:
根据该样本时段集中各时段样本的出现次数,从该样本时段集中选取多个一项前缀,每个一项前缀包括:在该样本时段集中的出现次数大于预设次数阈值的时段样本;
采用各个一项前缀分别构建序列模式,并获取该各个一项前缀的投影数据集,该投影数据集包含对应一项前缀在对应时段序列中的后缀,该后缀包括:该时段序列中位于该前缀之后的时段样本;
对该各个一项前缀的投影数据集进行递归挖掘,得到N项前缀,并采用该N项前缀分别构建序列模式,得到多个时段序列模式,其中,N为大于1的正整数。
在一个实施例中,该时段样本集包括至少一个时段序列;该第一类时段中各时段样本所在的序列为最长序列;
该处理器601被配置调用该程序指令,用于执行:
确定该最长序列在该至少一个时段序列中的出现次数,以及该时段样本集包括的时段序列的序列总数;
根据该最长序列在该至少一个时段序列中的出现次数,以及该序列总数,确定该最长序列在该至少一个时段序列中的第一出现频率;
根据该第一出现频率确定该第一类时段对应位置样本的权重。
在一个实施例中,该时段样本集包括至少一个时段序列,该处理器601被配置调用该程序指令,用于执行:
确定该时段样本集包括的时段序列的序列总数,以及该第二类时段中的各时段样本在该时段样本集中的出现次数;
根据该第二类时段中的各时段样本在该时段样本集中的出现次数和该序列总数,确定该第二类时段中的各时段样本在该至少一个时段序列中的第二出现频率;
根据该第二出现频率确定该第二类时段对应位置样本的权重。
在一个实施例中,该位置样本集中的位置样本的数量为多个;该处理器601被配置调用该程序指令,用于执行:
根据待划分的类别数量获取K个初始聚类中心,其中,K为大于1的正整数;
根据该位置样本集中各位置样本和各个初始聚类中心之间的距离,将该位置样本集划分为K个位置样本子集,每个位置样本子集中的位置样本和对应初始聚类中心之间的距离小于或等于预设距离阈值;
根据该每个位置样本子集中的位置样本,对该K个初始聚类中心进行迭代更新,得到K个目标聚类中心,该K各目标聚类中心对应的位置为目标位置。
在一个实施例中,该处理器601被配置调用该程序指令,用于执行:
按照该每个位置样本子集中的位置样本,以及该每个位置样本对应的权重,更新该K个初始聚类中心,得到K个中间聚类中心,其中,该每个位置样本对应的权重包括:该第一类时段对应位置样本的权重或该第二类时段对应位置样本的权重;
根据该位置样本集中的位置样本与该K个中心聚类中心之间的距离,将该位置样本集重新划分为K个新的位置样本子集,并在该新的位置样本子集收敛时,结束对该K个初始聚类中心的更新,得到K个目标聚类中心。
在一个实施例中,该处理器601被配置调用该程序指令,用于执行:
获取该目标位置对应的时段信息,并确定该时段信息的属性,该时段信息的属性包括:工作属性或者休息属性;
根据该时段信息的属性,确定该目标位置的位置属性,该位置属性包括:工作位置属性或者居住位置属性。
在一个实施例中,该处理器601被配置调用该程序指令,用于执行:
获取用户集合中各用户对应的目标位置,以及待推送信息对应的发送地址;
确定该发送地址和该目标位置之间的距离,并在该距离小于或等于预设距离阈值时,将该待推送信息发送到该用户集合中各用户的对应终端。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,该的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明的局部实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或局部流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (13)
1.一种数据处理方法,其特征在于,包括:
获取目标用户的行为数据,所述行为数据包括:时段样本集和位置样本集,所述时段样本集中的每个时段样本和所述位置样本集中的一个或多个位置样本相对应;
对所述时段样本集进行数据挖掘,并根据挖掘结果从所述时段样本集中确定出第一类时段;
基于所述第一类时段的出现次数,确定所述第一类时段对应位置样本的权重;
根据所述第一类时段对应位置样本的权重,对所述位置样本集中所述第一类时段对应位置样本进行加权聚类运算,并根据加权聚类运算结果确定目标位置。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述时段样本集中除所述第一类时段之外的时段作为第二类时段,并根据所述第二类时段的出现次数,确定所述第二类时段对应位置样本的权重;
根据所述第二类时段对应位置样本的权重,对所述位置样本集中所述第二类时段对应位置样本进行加权聚类运算;
所述根据加权聚类运算结果确定目标位置,包括:
根据所述第一类时段对应位置样本的权重,对所述位置样本集中所述第一类时段对应位置样本进行加权聚类运算的结果,以及,所述第二类时段对应位置样本的权重,对所述位置样本集中所述第二类时段对应位置样本进行加权聚类运算的结果,确定目标位置。
3.根据权利要求1所述的方法,其特征在于,所述对所述时段样本集进行数据挖掘,并根据挖掘结果从所述时段样本集中确定出第一类时段,包括:
对所述时段样本集进行频繁序列模式挖掘,得到多个时段序列模式,其中,每个时段序列模式包括至少一个时段;
根据所述各时段序列模式下的序列长度,确定出最长序列,并将所述最长序列包括的时段样本为第一类时段,所述第一类时段包括至少一个时段样本。
4.根据权利要求3所述的方法,其特征在于,所述时段样本集包括一个或多个时段序列,所述时段序列中的各时段样本按序排列;
所述对所述时段样本集进行频繁序列模式挖掘,得到多个时段序列模式,包括:
根据所述样本时段集中各时段样本的出现次数,从所述样本时段集中选取多个一项前缀,每个一项前缀包括:在所述样本时段集中的出现次数大于预设次数阈值的时段样本;
采用各个一项前缀分别构建序列模式,并获取所述各个一项前缀的投影数据集,所述投影数据集包含对应一项前缀在对应时段序列中的后缀,所述后缀包括:所述时段序列中位于所述前缀之后的时段样本;
对所述各个一项前缀的投影数据集进行递归挖掘,得到N项前缀,并采用所述N项前缀分别构建序列模式,得到多个时段序列模式,其中,N为大于1的正整数。
5.根据权利要求1所述的方法,其特征在于,所述时段样本集包括至少一个时段序列;所述第一类时段中各时段样本所在的序列为最长序列;
所述基于所述第一类时段的出现次数,确定所述第一类时段对应位置样本的权重,包括:
确定所述最长序列在所述至少一个时段序列中的出现次数,以及所述时段样本集包括的时段序列的序列总数;
根据所述最长序列在所述至少一个时段序列中的出现次数,以及所述序列总数,确定所述最长序列在所述至少一个时段序列中的第一出现频率;
根据所述第一出现频率确定所述第一类时段对应位置样本的权重。
6.根据权利要求2所述的方法,其特征在于,所述时段样本集包括至少一个时段序列,所述根据所述第二类时段的出现次数,确定所述第二类时段对应位置样本的权重,包括:
确定所述时段样本集包括的时段序列的序列总数,以及所述第二类时段中的各时段样本在所述时段样本集中的出现次数;
根据所述第二类时段中的各时段样本在所述时段样本集中的出现次数和所述序列总数,确定所述第二类时段中的各时段样本在所述至少一个时段序列中的第二出现频率;
根据所述第二出现频率确定所述第二类时段对应位置样本的权重。
7.根据权利要求1所述的方法,其特征在于,所述位置样本集中的位置样本的数量为多个;所述加权聚类运算,包括:
根据待划分的类别数量获取K个初始聚类中心,其中,K为大于1的正整数;
根据所述位置样本集中各位置样本和各个初始聚类中心之间的距离,将所述位置样本集划分为K个位置样本子集,每个位置样本子集中的位置样本和对应初始聚类中心之间的距离小于或等于预设距离阈值;
根据所述每个位置样本子集中的位置样本,对所述K个初始聚类中心进行迭代更新,得到K个目标聚类中心,所述K各目标聚类中心对应的位置为目标位置。
8.根据权利要求7所述的方法,其特征在于,所述根据所述每个位置样本子集中的位置样本,对所述K个初始聚类中心进行迭代更新,得到K个目标聚类中心,包括:
按照所述每个位置样本子集中的位置样本,以及所述每个位置样本对应的权重,更新所述K个初始聚类中心,得到K个中间聚类中心,其中,所述每个位置样本对应的权重包括:所述第一类时段对应位置样本的权重,或所述第二类时段对应位置样本的权重;
根据所述位置样本集中的位置样本与所述K个中心聚类中心之间的距离,将所述位置样本集重新划分为K个新的位置样本子集,并在所述新的位置样本子集收敛时,结束对所述K个初始聚类中心的更新,得到K个目标聚类中心。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述目标位置对应的时段信息,并确定所述时段信息的属性,所述时段信息的属性包括:工作属性或者休息属性;
根据所述时段信息的属性,确定所述目标位置的位置属性,所述位置属性包括:工作位置属性或者居住位置属性。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取用户集合中各用户对应的目标位置,以及待推送信息对应的发送地址;
确定所述发送地址和所述目标位置之间的距离,并在所述距离小于或等于预设距离阈值时,将所述待推送信息发送到所述用户集合中各用户的对应终端。
11.一种数据处理装置,其特征在于,包括:
获取单元,用于获取目标用户的行为数据,所述行为数据包括:时段样本集和位置样本集,所述时段样本集中的每个时段样本和所述位置样本集中的一个或多个位置样本相对应;
挖掘单元,用于对所述时段样本集进行数据挖掘,并根据挖掘结果从所述时段样本集中确定出第一类时段;
确定单元,用于基于所述第一类时段的出现次数,确定所述第一类时段对应位置样本的权重;
聚类单元,用于根据所述第一类时段对应位置样本的权重,对所述位置样本集中所述第一时段对应位置样本进行加权聚类运算;
所述确定单元,还用于根据加权聚类运算结果确定目标位置。
12.一种服务器,其特征在于,包括处理器、存储器和通信接口,所述处理器、所述存储器和所述通信接口相互连接,其中,所述存储器用于存储计算机程序指令,所述处理器被配置用于执行所述程序指令,实现如权利要求1-10任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010095888.7A CN111291092A (zh) | 2020-02-14 | 2020-02-14 | 一种数据处理方法、装置、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010095888.7A CN111291092A (zh) | 2020-02-14 | 2020-02-14 | 一种数据处理方法、装置、服务器及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111291092A true CN111291092A (zh) | 2020-06-16 |
Family
ID=71030779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010095888.7A Pending CN111291092A (zh) | 2020-02-14 | 2020-02-14 | 一种数据处理方法、装置、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111291092A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667895A (zh) * | 2020-12-28 | 2021-04-16 | 百果园技术(新加坡)有限公司 | 推荐项目队列确定方法、装置、设备及存储介质 |
CN113244627A (zh) * | 2021-06-24 | 2021-08-13 | 腾讯科技(深圳)有限公司 | 识别外挂的方法、装置、电子设备以及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160370500A1 (en) * | 2015-06-18 | 2016-12-22 | J.F. Sabourin et associés Inc. | Method and server for providing alerts for rainfall return periods |
CN106792514A (zh) * | 2016-11-30 | 2017-05-31 | 南京华苏科技有限公司 | 基于信令数据的用户职住地分析方法 |
CN108038500A (zh) * | 2017-12-07 | 2018-05-15 | 东软集团股份有限公司 | 聚类方法、装置、计算机设备、存储介质和程序产品 |
CN109978575A (zh) * | 2017-12-27 | 2019-07-05 | 中国移动通信集团广东有限公司 | 一种挖掘用户流量经营场景的方法及装置 |
CN109992726A (zh) * | 2018-10-17 | 2019-07-09 | 招商银行股份有限公司 | 位置预测方法、装置及可读存储介质 |
CN110309434A (zh) * | 2018-10-10 | 2019-10-08 | 腾讯大地通途(北京)科技有限公司 | 一种轨迹数据处理方法、装置以及相关设备 |
CN110730207A (zh) * | 2019-09-06 | 2020-01-24 | 平安科技(深圳)有限公司 | 基于位置服务的位置识别方法、装置、设备及存储介质 |
-
2020
- 2020-02-14 CN CN202010095888.7A patent/CN111291092A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160370500A1 (en) * | 2015-06-18 | 2016-12-22 | J.F. Sabourin et associés Inc. | Method and server for providing alerts for rainfall return periods |
CN106792514A (zh) * | 2016-11-30 | 2017-05-31 | 南京华苏科技有限公司 | 基于信令数据的用户职住地分析方法 |
CN108038500A (zh) * | 2017-12-07 | 2018-05-15 | 东软集团股份有限公司 | 聚类方法、装置、计算机设备、存储介质和程序产品 |
CN109978575A (zh) * | 2017-12-27 | 2019-07-05 | 中国移动通信集团广东有限公司 | 一种挖掘用户流量经营场景的方法及装置 |
CN110309434A (zh) * | 2018-10-10 | 2019-10-08 | 腾讯大地通途(北京)科技有限公司 | 一种轨迹数据处理方法、装置以及相关设备 |
CN109992726A (zh) * | 2018-10-17 | 2019-07-09 | 招商银行股份有限公司 | 位置预测方法、装置及可读存储介质 |
CN110730207A (zh) * | 2019-09-06 | 2020-01-24 | 平安科技(深圳)有限公司 | 基于位置服务的位置识别方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
YANGSEOK JEONG等: ""A high resolution time delay estimation technique in frequency domain for positioning system"", 《PROCEEDINGS IEEE 56TH VEHICULAR TECHNOLOGY CONFERENCE》, pages 1 - 4 * |
王峰: ""多源跨域移动互联网中用户关系与移动行为研究"", 《中国博士学位论文全文数据库信息科技辑》, pages 138 - 135 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667895A (zh) * | 2020-12-28 | 2021-04-16 | 百果园技术(新加坡)有限公司 | 推荐项目队列确定方法、装置、设备及存储介质 |
CN113244627A (zh) * | 2021-06-24 | 2021-08-13 | 腾讯科技(深圳)有限公司 | 识别外挂的方法、装置、电子设备以及存储介质 |
CN113244627B (zh) * | 2021-06-24 | 2021-11-19 | 腾讯科技(深圳)有限公司 | 识别外挂的方法、装置、电子设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11580457B2 (en) | Prediction method, terminal, and server | |
US10936669B2 (en) | Object clustering method and system | |
CN106503006B (zh) | 应用App中子应用的排序方法及装置 | |
CN109906451A (zh) | 使用多义码的相似性搜索 | |
CN109388674B (zh) | 数据处理方法、装置、设备及可读存储介质 | |
CN108399564B (zh) | 信用评分方法及装置 | |
CN114647742A (zh) | 学习新字词 | |
CN111698247A (zh) | 异常账号检测方法、装置、设备及存储介质 | |
CN108304354B (zh) | 一种预测模型训练方法及装置、存储介质、电子设备 | |
CN111444395A (zh) | 获取实体间关系表达的方法、系统和设备、广告召回系统 | |
CN110909222A (zh) | 基于聚类的用户画像建立方法、装置、介质及电子设备 | |
CN111367965B (zh) | 目标对象确定方法、装置、电子设备及存储介质 | |
CN112348079B (zh) | 数据降维处理方法、装置、计算机设备及存储介质 | |
CN110555172A (zh) | 用户关系挖掘方法及装置、电子设备和存储介质 | |
CN111291092A (zh) | 一种数据处理方法、装置、服务器及存储介质 | |
CN111612499B (zh) | 信息的推送方法及装置、存储介质、终端 | |
CN112380299A (zh) | 关系网络构建方法、装置及存储介质 | |
US8140539B1 (en) | Systems, devices, and/or methods for determining dataset estimators | |
CN112751785B (zh) | 待处理请求发送方法、装置、计算机设备及存储介质 | |
CN106777285B (zh) | 用户通信消费数据的标签聚类的方法和装置 | |
CN110457387B (zh) | 一种应用于网络中用户标签确定的方法及相关装置 | |
CN109697224B (zh) | 一种账单消息处理方法、装置和存储介质 | |
CN110968790A (zh) | 基于大数据的潜在客户智能推荐方法、设备和存储介质 | |
CN115858719A (zh) | 一种基于大数据分析的sim卡活跃度预测方法及系统 | |
CN115422000A (zh) | 异常日志处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40024889 Country of ref document: HK |