CN112291622B - 用户的喜好上网时间段的确定方法及装置 - Google Patents
用户的喜好上网时间段的确定方法及装置 Download PDFInfo
- Publication number
- CN112291622B CN112291622B CN202011188426.6A CN202011188426A CN112291622B CN 112291622 B CN112291622 B CN 112291622B CN 202011188426 A CN202011188426 A CN 202011188426A CN 112291622 B CN112291622 B CN 112291622B
- Authority
- CN
- China
- Prior art keywords
- user
- internet surfing
- cluster
- time period
- internet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 239000013598 vector Substances 0.000 claims abstract description 223
- 238000004364 calculation method Methods 0.000 claims abstract description 27
- 230000002349 favourable effect Effects 0.000 description 13
- 230000006399 behavior Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44213—Monitoring of end-user related data
- H04N21/44222—Analytics of user selections, e.g. selection of programs or purchase activity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/4508—Management of client data or end-user data
- H04N21/4532—Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Social Psychology (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供一种用户的喜好上网时间段的确定方法及装置,该方法包括,基于获取到的每个用户在每个上网时段的历史上网数据,确定每个用户在每个上网时段的上网时间占比,并基于每个用户的各个上网时间占比,确定每个用户所属的用户组;确定每个用户组的上网占比向量,以及确定每个用户簇的中心向量,基于对每个用户组计算得到的上网占比向量,确定每个用户组对应的用户簇,判断每个用户簇是否均满足结束条件,若是,则基于每个用户簇的中心向量确定与每个用户簇对应的用户的喜好上网时间段;若否,则重新计算每个用户簇与用户组的距离值;应用本发明,无需逐一对用户的数据进行分析,减少了服务器的运算量,提高了确定用户的喜好上网时间段的效率。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种用户的喜好上网时间段的确定方法及装置。
背景技术
随着互联网的广泛应用和日益普及,网络用户的数量已经破亿。用户在互联网上浏览网页、观看视频、购物等行为均属于上网行为,用户因为生活习惯、工作类型等影响,导致不同的用户喜好上网的时间段存在着不同。用户喜好上网的时间段的数据对运营商在互联网投放广告和为用户提供增值服务有着极大的参考价值。
运营商可以根据普遍用户的喜好上网时间段制定对应的增值服务,或是根据用户的喜好上网时间段确定增值服务所要推广的用户。目前,确定用户的喜好上网时间段的方式通常采用阈值的方式进行确定,即在一定时期内,如果用户在某段时间上网时间超过给定阈值,则确定该用户喜好在此时间段上网;随着用户数量的增加,目前的方法需要对用户逐一进行分析,服务器的工作量非常大,在确定用户的喜好上网时间段的时需要花费很长的时间,使得确定用户的喜好上网时间段的效率非常低。
发明内容
有鉴于此,本发明提供一种用户的喜好上网时间段的确定方法及装置,应用本发明,可以快速的确定大量用户的喜好上网时间段,无需对用户逐个进行分析,从而减少了确定用户的喜好上网时间段所用的时间,提高了确定用户的喜好上网时间段的效率。
为实现上述目的,本发明实施例提供如下技术方案:
一种用户的喜好上网时间段的确定方法,包括:
获取每个用户在每个预设的上网时段的历史上网数据;
对于每个所述上网时段,基于每个所述用户在该上网时段的历史上网数据,确定每个所述用户在该上网时段的上网时间占比;
生成与每个所述上网时段对应的用户组,并基于每个所述用户的各个上网时间占比,确定每个所述用户所属的用户组;
对于每个所述用户组,基于该用户组中每个所述用户的各个上网时间占比,确定该用户组在每个所述上网时段的平均上网时间占比,并将各个所述平均上网时间占比组成该用户组的上网占比向量;
在各个所述上网占比向量中为每个预设的用户簇选取上网占比向量,并将为该用户簇选取的上网占比向量作为该用户簇的中心向量;
调用预设的距离公式,基于每个所述用户簇的中心向量和每个所述用户组的上网占比向量,计算每个所述用户簇与每个所述用户组的距离值;
基于每个所述用户组的各个距离值,确定每个所述用户组所对应的用户簇;
基于每个所述用户簇所对应的各个用户组,判断各个所述用户簇中是否存在不满足预设的结束条件的用户簇;
若各个所述用户簇中存在不满足预设的结束条件的用户簇,则更新每个所述用户簇的中心向量,并重新调用预设的距离公式,基于每个所述用户簇的中心向量和每个所述用户组的上网占比向量,计算每个所述用户簇与每个所述用户组的距离值;
若各个所述用户簇中不存在不满足预设的结束条件的用户簇,则基于每个所述用户簇的中心向量,确定每个所述用户簇对应的各个用户的喜好上网时间段。
上述的方法,可选的,所述基于每个所述用户在该上网时段的历史上网数据,确定每个所述用户在该上网时段的上网时间占比,包括:
对于每个所述用户,对该用户在该上网时段的历史上网数据进行解析,获取该用户在该上网时段的各个上网时长;
基于该用户在该上网时段的各个所述上网时长,确定该用户在该上网时段的平均上网时长;
将该用户在该上网时段的平均上网时长与该上网时段的时长代入预设的第一计算公式进行计算,得到该用户在该上网时段的上网时间占比。
上述的方法,可选的,所述基于每个所述用户的各个上网时间占比,确定每个所述用户所属的用户组,包括:
对于每个所述用户,在该用户的各个上网时间占比中确定数值最大的上网时间占比;
确定所述数值最大的上网时间占比所对应的上网时段,并将该上网时段所对应的用户组确定为该用户所属的用户组。
上述的方法,可选的,所述基于每个所述用户组的各个距离值,确定每个所述用户组所对应的用户簇,包括:
对于每个所述用户组,从该用户组的各个距离值中确定数值最小的距离值;
确定与所述数值最小的距离值对应的中心向量,并将该中心向量的用户簇确定为与该用户组对应的用户簇。
上述的方法,可选的,所述基于每个所述用户簇所对应的各个用户组,判断各个所述用户簇中是否存在不满足预设的结束条件的用户簇,包括:
对于每个所述用户簇,对该用户簇的每个用户组的上网占比向量按照预设的计算方法进行计算,得到该用户簇的平均占比向量,并将所述平均占比向量与该用户簇的中心向量进行比较,得到该用户簇的比较结果;
判断各个所述比较结果中是否存在表征为比较不一致的结果;
若各个所述比较结果中存在表征为比较不一致的结果,则判定存在不满足所述结束条件的用户簇;
若各个所述比较结果中不存在表征为比较不一致的结果,则判定不存在不满足所述结束条件的用户簇。
上述的方法,可选的,所述更新每个所述用户簇的中心向量,包括:
对于每个所述用户簇,将该用户簇的平均占比向量更新为该用户簇的中心向量。
一种用户的喜好上网时间段的确定装置,包括:
获取单元,用于获取每个用户在每个预设的上网时段的历史上网数据;
第一确定单元,用于对于每个所述上网时段,基于每个所述用户在该上网时段的历史上网数据,确定每个所述用户在该上网时段的上网时间占比;
生成单元,用于生成与每个所述上网时段对应的用户组,并基于每个所述用户的各个上网时间占比,确定每个所述用户所属的用户组;
第二确定单元,用于对于每个所述用户组,基于该用户组中每个所述用户的各个上网时间占比,确定该用户组在每个所述上网时段的平均上网时间占比,并将各个所述平均上网时间占比组成该用户组的上网占比向量;
选取单元,用于在各个所述上网占比向量中为每个预设的用户簇选取上网占比向量,并将为该用户簇选取的上网占比向量作为该用户簇的中心向量;
计算单元,用于调用预设的距离公式,基于每个所述用户簇的中心向量和每个所述用户组的上网占比向量,计算每个所述用户簇与每个所述用户组的距离值;
第三确定单元,用于基于每个所述用户组的各个距离值,确定每个所述用户组所对应的用户簇;
判断单元,用于基于每个所述用户簇所对应的各个用户组,判断各个所述用户簇中是否存在不满足预设的结束条件的用户簇;
更新单元,用于若各个所述用户簇中存在不满足预设的结束条件的用户簇,则更新每个所述用户簇的中心向量,并重新调用预设的距离公式,基于每个所述用户簇的中心向量和每个所述用户组的上网占比向量,计算每个所述用户簇与每个所述用户组的距离值;
第四确定单元,用于若各个所述用户簇中不存在不满足预设的结束条件的用户簇,则基于每个所述用户簇的中心向量,确定每个所述用户簇对应的各个用户的喜好上网时间段。
上述的装置,可选的,所述第一确定单元,包括:
解析子单元,用于对于每个所述用户,对该用户在该上网时段的历史上网数据进行解析,获取该用户在该上网时段的各个上网时长;
第一确定子单元,用于基于该用户在该上网时段的各个所述上网时长,确定该用户在该上网时段的平均上网时长;
第一计算子单元,用于将该用户在该上网时段的平均上网时长与该上网时段的时长代入预设的第一计算公式进行计算,得到该用户在该上网时段的上网时间占比。
上述的装置,可选的,所述生成单元,包括:
第二确定子单元,用于对于每个所述用户,在该用户的各个上网时间占比中确定数值最大的上网时间占比;
第三确定子单元,用于确定所述数值最大的上网时间占比所对应的上网时段,并将该上网时段所对应的用户组确定为该用户所属的用户组。
上述的装置,可选的,所述第三确定单元,包括:
第四确定子单元,用于对于每个所述用户组,从该用户组的各个距离值中确定数值最小的距离值;
第五确定子单元,用于确定与所述数值最小的距离值对应的中心向量,并将该中心向量的用户簇确定为与该用户组对应的用户簇。
上述的装置,可选的,所述判断单元,包括:
第二计算子单元,用于对于每个所述用户簇,对该用户簇的每个用户组的上网占比向量按照预设的计算方法进行计算,得到该用户簇的平均占比向量,并将所述平均占比向量与该用户簇的中心向量进行比较,得到该用户簇的比较结果;
判断子单元,用于判断各个所述比较结果中是否存在表征为比较不一致的结果;
第一判定子单元,用于若各个所述比较结果中存在表征为比较不一致的结果,则判定存在不满足所述结束条件的用户簇;
第二判定子单元,用于若各个所述比较结果中不存在表征为比较不一致的结果,则判定不存在不满足所述结束条件的用户簇。
上述的装置,可选的,所述更新单元,包括:
更新子单元,用于对于每个所述用户簇,将该用户簇的平均占比向量更新为该用户簇的中心向量。
与现有技术相比,本发明具有以下有益效果:
本发明提供一种用户的喜好上网时间段的确定方法,通过每个用户在每个上网时段的历史上网数据,确定每个用户在每个上网时段的上网时间占比,并基于每个用户的各个上网时间占比,确定每个用户所属的用户组,由此可将各个用户进行分组,进而确定各个用户组对应的用户簇,并在每个用户簇满足预设的结束条件时,可基于每个用户簇的中心向量确定用户簇的用户的喜好上网时间段;应用本发明,可以快速的为用户分组,并将分组后的用户组作为聚类对象,将各个用户组进行聚类,从而得到满足条件的用户簇,并基于用户簇的中心向量可确定该用户簇的用户的喜好上网时间段,由此可以快速的确定大量的用户的喜好上网时间段,该过程无需逐一对用户的数据进行分析,从而得到用户的喜好上网时间段,减少了服务器的运算量,提高了确定用户的喜好上网时间段的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种用户的喜好上网时间段的确定方法的方法流程图;
图2为本发明实施例提供的一种用户的喜好上网时间段的确定方法的另一方法流程图;
图3为本发明实施例提供的一种用户的喜好上网时间段的确定方法的又一方法流程图;
图4为本发明实施例提供的一种用户的喜好上网时间段的确定方法的再一方法流程图;
图5为本发明实施例提供的一种用户的喜好上网时间段的确定装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算器、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本发明提供了一种用户的喜好上网时间段的确定方法,其特征在于,包括:
S101、获取每个用户在每个预设的上网时段的历史上网数据。
本发明实施例提供的方法中,从数据库中获取每个用户在每个预设的上网时段的历史上网数据,其中,所述上网时段可为将一天的时间进行均分后得到的时间段,例如一天有24小时,将一天分成12等份的时间段,每个时间段的时长为2个小时,每个时间段均作为上网时段;需要说明的是,上网时段的时长可根据实际需求进行设置,各个上网时段之间可以不是连续的,例如在上9点到10点设为一个上网时段,2点到3点设为一个上网时段,4点到5点设为一个上网时段,从时间的连续性上看,这三个上网时间段的时间是不连续的。进一步的,上网时段的个数也可根据实际需求进行设置。对历史上网数据进行说明,所述历史上网数据中包含用户的上网行为,历史上网数据中包含多种上网行为,例如浏览网页、在线观看视频、在线听歌等等,以及用户的每个上网行为所持续的时长。需要说明的是,用户为用户样本集合中的用户。
S102、对于每个所述上网时段,基于每个所述用户在该上网时段的历史上网数据,确定每个所述用户在该上网时段的上网时间占比。
本发明实施例提供的方法中,对历史上网数据进行说明,历史上网数据中包含用户在指定的时间周期在该上网时段的上网数据,例如历史上网数据中包含用户在7月份中每周一在该上网时段的上网数据;又例如历史上网数据中包含用户在8月份中每天在该上网时段的上网数据。对于每个所述上网时段,对每个用户在该上网时段的历史上网数据进行解析,获取每个用户在该上网时段的各个上网行为数据,每个所述上网行为数据由用户的上网内容和上网时长组成,基于每个用户在该上网时段的各个上网行为数据,确定每个用户在该上网时段的上网时间占比。
S103、生成与每个所述上网时段对应的用户组,并基于每个所述用户的各个上网时间占比,确定每个所述用户所属的用户组。
本发明实施例提供的方法中,基于各个上网时段,生成与每个上网时段对应的用户组,需要说明的是,此时的用户组为空白的用户组;基于每个用户的各个上网时间占比,确定每个用户所属的用户组,并将每个用户归至与其所属的用户组中,由此可将各个用户进行分组。需要说明的是,用户的上网时间占比的数目与上网时段的数目相同,且上网时间占比与上网时段一一对应。
S104、对于每个所述用户组,基于该用户组中每个所述用户的各个上网时间占比,确定该用户组在每个所述上网时段的平均上网时间占比,并将各个所述平均上网时间占比组成该用户组的上网占比向量。
本发明实施例提供的方法中,对于每个所述用户组,需要说明的是,此处的用户组为将各个用户进行分组后的用户组,即,此时的用户组中包含用户。基于用户组中每个用户在每个上网时间段的上网时间占比,确定用户组在每个上网时段的平均上网时间占比,并将各个平均上网时间占比组成该用户组的上网占比向量。即,用户组的上网占比向量中包含多个平均上网占比,平均上网占比的数量与与上网时段的数量相同,且平均上网占比与上网时段一一对应。
S105、在各个所述上网占比向量中为每个预设的用户簇选取上网占比向量,并将为该用户簇选取的上网占比向量作为该用户簇的中心向量。
本发明实施例提供的方法中,在得到每个用户组的上网占比向量之后,在各个上网占比向量中为每个预设的用户簇随机选取上网占比向量,并将为每个用户簇选取的上网占比向量作为该用户簇的中心向量。其中,用户簇的数量可根据需求进行设置,例如:3个、4个或是9个等。有多少个用户簇便选取多少个上网占比向量。
S106、调用预设的距离公式,基于每个所述用户簇的中心向量和每个所述用户组的上网占比向量,计算每个所述用户簇与每个所述用户组的距离值。
本发明实施例提供的方法中,将每个用户簇的中心向量和每个用户组的上网占比向量代入计算欧氏距离的公式中,可计算得到每个用户簇与每个用户组的距离值,其中,距离值为欧氏距离,因此,距离公式为计算欧氏距离的公式。
S107、基于每个所述用户组的各个距离值,确定每个所述用户组所对应的用户簇。
本发明实施例提供的方法中,对于每个用户组,基于与该用户组对应的各个距离值,在各个用户簇中确定与其对应的用户簇,并将该用户组归至与其对应的用户簇中,换言之,将该用户组中的各个用户归至与其对应的用户簇中。
S108、基于每个所述用户簇所对应的各个用户组,判断各个所述用户簇中是否存在不满足预设的结束条件的用户簇;若各个所述用户簇中存在不满足预设的结束条件的用户簇,则执行S109;若各个所述用户簇中不存在不满足预设的结束条件的用户簇,则执行S110。
本发明实施例提供的方法中,确定好每个用户组所对应的用户簇后,基于每个用户簇对应的每个用户组的上网占比向量,判断各个用户簇中是否存在不满足预设的结束条件的用户簇;若存在,则执行S109;若不存在,则执行S110。进一步的,判断各个用户簇中是否存在不满足预设的结束条件的用户簇,实质上是判断是否每个用户簇均满足预设的结束条件,若每个用户簇均满足预设的结束条件,则执行S110;若不是每个用户簇均满足预设的结束条件,则执行S109。需要说明的是,结束条件可理解为聚类结束条件。
S109、更新每个所述用户簇的中心向量,并重新调用预设的距离公式,基于每个所述用户簇的中心向量和每个所述用户组的上网占比向量,计算每个所述用户簇与每个所述用户组的距离值。
本发明实施例提供的方法中,若各个用户簇中存在不满足预设的结束条件的用户簇,则更新每个用户簇的中心向量,并返回执行S106。
S110、基于每个所述用户簇的中心向量,确定每个所述用户簇对应的各个用户的喜好上网时间段。
本发明实施例提供的方法中,基于每个用户簇的中心向量,确定每个用户簇中的用户的喜好上网时间段。其中,基于用户簇的中心向量中的各个平均占比向量,确定在中心向量中数值最大的平均上网时间占比,并将数值最大的平均上网时间占比所对应的上网时段确定为该用户簇中的用户的喜好上网时间段;可选的,按照从大到小的顺序在中心向量中的各个平均上网时间占比中选取平均上网时间占比,直至选取的平均上网时间占比的数量等于预设的数量,并将选取到的每个平均上网时间占比所对应的上网时段确定为该用户簇中的各个用户的喜好上网时间段,其中,预设的数量可根据实际需求进行设置,比如一个或是两个。
本发明实施例提供的方法中,获取每个用户在每个预设的时间段的历史上网数据,基于历史上网数据,确定每个用户在每个预设的时间段的上网时间占比,生成与每个所述上网时段对应的用户组,并基于每个用户的各个上网时间占比,确定每个用户所属的用户组;对于每个用户组,基于该用户组中每个用户的各个上网时间占比,确定该用户组在每个上网时段的平均上网时间占比,并将各个平均上网时间占比组成该用户组的上网占比向量;在各个上网占比向量中为每个预设的用户簇选取上网占比向量,并将为该用户簇选取的上网占比向量作为该用户簇的中心向量;调用预设的距离公式,基于每个所述用户簇的中心向量和每个所述用户组的上网占比向量,计算每个所述用户簇与每个所述用户组的距离值;基于每个所述用户组的各个距离值,确定每个所述用户组所对应的用户簇;基于每个所述用户簇所对应的各个用户组,判断各个所述用户簇中是否存在不满足预设的结束条件的用户簇;若各个所述用户簇中存在不满足预设的结束条件的用户簇,则更新每个所述用户簇的中心向量,并重新调用预设的距离公式,基于每个所述用户簇的中心向量和每个所述用户组的上网占比向量,计算每个所述用户簇与每个所述用户组的距离值;若各个所述用户簇中不存在不满足预设的结束条件的用户簇,则基于每个所述用户簇的中心向量,确定每个所述用户簇对应的各个用户的喜好上网时间段。应用本发明,使用历史上网数据,确定每个用户在每个上网时段的上网时间占比,并基于每个用户的各个上网时间占比,确定每个用户所属的用户组,由此可将各个用户进行分组,进而确定各个用户组对应的用户簇,并在每个用户簇满足预设的结束条件时,可基于每个用户簇的中心向量确定用户簇的用户的喜好上网时间段;应用本发明,可以快速的为用户分组,并将分组后的用户组作为聚类对象,将各个用户组进行聚类,从而得到满足条件的用户簇,并基于用户簇的中心向量可确定该用户簇的用户的喜好上网时间段,由此可以快速的确定大量的用户的喜好上网时间段,该过程无需逐一对用户的数据进行分析,从而得到用户的喜好上网时间段,减少了服务器的运算量,提高了确定用户的喜好上网时间段的效率。
本发明实施例提供的方法中,在获取每个用户在每个预设时间段的历史上网数据后,确定每个用户在每个上网时段的上网时间占比的过程如图2所示,具体说明如下所述:
S201、对于每个所述用户,对该用户在该上网时段的历史上网数据进行解析,获取该用户在该上网时段的各个上网时长。
本发明实施例提供的方法中,基于每个用户进行说明,对用户在该上网时段的历史上网数据进行解析,获取该用户在该上网时段的各个上网数据,每个上网数据均包含上网日期、上网行为以及该上网行为所持续的时长,例如上网行为可为在线浏览网页、在线玩游戏以及在线观看视频等等,上网行为所持续的时长为上网时长;由此,可得到该用户在该上网时段的各个上网时长。
S202、基于该用户在该上网时段的各个所述上网时长,确定该用户在该上网时段的平均上网时长。
本发明实施例提供的方法中,将用户在该上网时段的各个上网时长进行相加,并将相加得到的上网总时长除以上网时长的个数,由此可确定该用户在该上网时段的平均上网时长。
S203、将该用户在该上网时段的平均上网时长与该上网时段的时长代入预设的第一计算公式进行计算,得到该用户在该上网时段的上网时间占比。
本发明实施例提供的方法中,所述预设的第一计算公式为比值公式,即将该用户在该上网时段的平均上网时长比该上网时段的时长,并将得到的比值作为用户在该上网时段的上网时间占比,需要说明的是,所述上网时间占比为大于等于零的数值。由此可以得到每个用户在每个上网时段的上网时间占比。
本发明实施例提供的方法中,通过基于用户在每个上网时段的历史上网数据进行处理,可以得到每个用户在每个上网时段的上网时间占比,通过对用户的历史上网数据进行处理得到的上网时间占比更具有一般性,由此可以有效减少数据特征的失真。
在得到每个用户在每个上网时段的上网时间占比后,需要确定用户所属的用户组,具体过程如下所述:
对于每个所述用户,在该用户的各个上网时间占比中确定数值最大的上网时间占比;
确定所述数值最大的上网时间占比所对应的上网时段,并将该上网时段所对应的用户组确定为该用户所属的用户组。
本发明实施例提供方法中,在确定了用户的数值最大的上网时间占比后,确定数值最大的上网时间占比所对应的上网时段,并将该上网时段所对应的用户组确定为该用户所属的用户组;基于用户的各个上网时间占比,可快速的确定用户所属的用户组,将用户进行分组,以便后续对用户组进行处理,进而减少了服务器的计算量。
本发明实施例提供的方法中,将用户进行分组后,可得到包含用户的各个用户组,在确定预设的用户簇的中心向量之后,使用计算欧氏距离的公式,计算出每个用户组与每个用户簇的距离值,对于每个用户组,需要基于用户组的各个距离值,确定用户组所对应的用户簇,确定用户组对应的用户簇的过程如下所述:
对于每个所述用户组,从该用户组的各个距离值中确定数值最小的距离值;
确定与所述数值最小的距离值对应的中心向量,并将该中心向量的用户簇确定为与该用户组对应的用户簇。
本发明实施例提供的方法中,确定用户组所对应的用户簇的过程中,实质上是将用户组进行聚类的过程,对于每个用户组,在该用户组的各个距离值中确定数值最小的距离值,并将数值最小的距离值所对应的用户簇确定为与该用户组对应的用户簇,并将该用户组分至该用户簇中;由此可得到每个用户簇对应的每个用户组。通过本发明提供的方法,使用距离公式将用户组进行聚类,由此可以将有相同的上网时间偏好的用户进行聚集,本发明提供的方法根据大量的数据来确定用户的喜好上网时段,使得得到的结果更加具有说服力以及更具有理论依据。
本发明实施例提供的方法中,在确定好各个用户组对应的用户簇后,需要判断是否存在不满足预设的结束条件的用户簇,具体的过程如图3所示,具体说明如下所述:
S301、对于每个所述用户簇,对该用户簇的每个用户组的上网占比向量按照预设的计算方法进行计算,得到该用户簇的平均占比向量,并将所述平均占比向量与该用户簇的中心向量进行比较,得到该用户簇的比较结果。
本发明实施例提供的方法中,对于每个用户簇,基于该用户簇的每个用户组的上网占比向量,按照预设的计算方法对各个上网占比向量进行计算,得到该用户簇的平均占比向量;预设的计算方法可为:将该用户簇对应的每个用户组的每个上网占比向量相加,得到该用户簇的上网占比向量总和,并将上网占比向量总和除以用户簇中用户簇的个数,由此可得到平均占比向量。对预设的计算方法换种形式进行描述,具体为:基于用户簇的每个用户组的上网平均向量,计算得到用户簇在每个上网时段的平均占比参数,并将各个平均占比参数组成用户簇的平均占比向量;其中,对于每个上网时段的平均占比参数,确定每个上网占比向量中与该上网时段对应的平均上网时间占比,并将各个确定的与该上网时段对应的平均上网时间占比相加,得到该上网时间段的占比总和,并将该占比总和除以该用户簇的用户组的个数,以得到该上网时段的平均占比参数,其中,将该占比总和除以该用户簇的用户组的个数,实质上等同于将该占比总和除以该上网时段对应的平均上网时间占比的个数。
可选的,在得到该用户簇的平均占比向量后,将该平均占比向量与该用户簇的中心向量进行比较,得到比较结果;其中,比较结果有两种情况,其中一种情况是:表征为平均占比向量与中心向量比较一致的结果;另一种情况是:表征为平均占比向量与中心向量比较不一致的结果。
S302、判断各个所述比较结果中是否存在表征为比较不一致的结果;若各个所述比较结果中存在表征为比较不一致的结果,则执行S303;若各个所述比较结果中不存在表征为比较不一致的结果,则执行S304。
S303、判定存在不满足所述结束条件的用户簇。
本发明实施例提供的方法中,当各个用户簇的比较结果中存在表征为比较不一致的结果时,确定存在不满足结束条件的用户簇,此处的结束条件可为聚类结束条件,即此处表明,存在不满足聚类结束条件的用户簇,还需要对用户组进行聚类。由此可推出,不满足结束条件的用户簇的中心向量与平均占比向量不一致。
S304、判定不存在不满足所述结束条件的用户簇。
本发明实施实施提供的方法中,当各个用户簇的比较结果中不存在表征为比较不一致的结果时,确定不存在不满足结束条件的用户簇,即每个用户簇均满足结束条件,即可结束对用户组的聚类。由此可以推出,每个用户簇的中心向量与其平均占比向量是一致的。
本发明实施例提供的方法中,在确定各个用户簇中存在不满足结束条件的用户簇后,需更新每个用户簇的中心向量,在更新每个用户簇的中心向量时,对于每个所述用户簇,将该用户簇的平均占比向量更新为该用户簇的中心向量;换言之,将该用户簇的平均占比向量作为该用户簇的新的中心向量。
本发明实施例提供的方法中,在确定每个用户组对应的用户簇后,需要对每个用户簇进行判断,以确定是否每个用户簇均满足结束条件,当每个用户簇均满足结束条件时,可得到每个用户簇的各个用户的喜好上网时段;当不是每个用户簇均满足结束条件时,需要更新每个用户簇的中心向量,并重新调用预设的距离公式,基于每个用户簇的中心向量和每个用户组的上网占比向量,计算每个用户簇与每个用户组的距离值,以便重新确定与用户簇对应的用户组,直到每个用户簇满足结束条件,由此,得到的用户簇所对应的用户组的用户的偏好上网时间段是非常接近的,由此可以快速的确定大量的用户的喜好上网时间段,无需逐个对用户进行分析,减少了服务器的工作量,提高确定用户的偏好上网时间段的效率。
参照图4,为本发明实施例提供的用户的喜好上网时间段的确定方法的又一方法流程图,基于该流程图以及结合实际应用场景进行说明,具体说明如下所述:
S401、获取每个用户在每个预设的上网时段的历史上网数据。
S402、对于每个上网时段,基于每个用户在该上网时段的历史数据,确定每个用户在该上网时段的上网时间占比。
S403、对于每个用户,在该用户的各个上网时间占比中确定数值最大的上网时间占比,确定数值最大的上网时间占比对应的上网时段,并与该上网时段对应的用户组,将该用户分至该用户组中。
S404、对于每个用户组,基于该用户组中每个用户的各个上网时间占比,确定该用户在每个上网时间段的平均上网时间占比,并将各个平均上网时间占比组成该用户组的上网占比向量。
S405、在各个上网占比向量中为每个预设的用户簇选取上网占比向量,并将为该用户簇选取的上网占比向量作为该用户簇的中心向量。
S406、调用预设的距离公式,基于每个用户簇的中心向量和每个用户组的上网占比向量,计算每个用户簇与每个用户组的距离值。
S407、基于每个用户组的各个距离值,确定每个用户组所对应的的用户簇。
S408、基于每个用户簇对应的各个用户组,判断各个用户簇中是否存在不满足预设的结束条件的用户簇;若存在,则执行S409;若不存在,则执行S410。
S409、更新每个用户簇的中心向量,返回执行S406。
S410、基于每个用户簇的中心向量,确定每个用户簇对应的各个用户的喜好上网时间段。
以一具体实例进行说明,在上网数据库中,获取每个用户在每个预设的上网时段的历史上网数据,需要说明的是,用户使用Un表示,其中,U1表示用户1,U2表示用户2,以此类推,此处不再进行赘述,其中,n为正整数。预设的上网时段有M个,此处M取24个,即,将一天中的每个小时均作为上网时段SM,上网时段共有S1至S24,根据用户的历史网上数据,确定用户在每个上网时段的上网时间占比,每个用户均有24个上网时间占比,上网时间占比用IM表示,用户Un的各个上网时间占比为:(I1,I2,I3......IM),其中I1表示用户Un在第一个上网时段S1的上网时间占比,I2表示用户Un在上网时段S2的上网时间占比,以此类推。进一步进行明,其中,Ta表示用户某日在第M个上网时段上网的时长,其中,a为正整数,t表示第M个上网时段的时间长度。
基于用户Un的各个上网时间占比,将确定用户Un所属的用户组,并将用户分至该用户组中,其中,用户组与上网时段一一对应,用户组用GM表示,共有24个用户组;将各个用户分至与其对应的用户组中,例如用户U2的各个上网时间占比(I1,I2,I3......I24)中数值最大的是I2,则将用户U2分至用户组G2中,如表1所示,为每个用户组的用户数的统计表;
上网时段 | 用户组 | 用户数 | 上网时段 | 用户组 | 用户数 |
S<sub>1</sub> | G<sub>1</sub> | 5642 | S<sub>13</sub> | G<sub>13</sub> | 17955 |
S<sub>2</sub> | G<sub>2</sub> | 8962 | S<sub>14</sub> | G<sub>14</sub> | 16548 |
S<sub>3</sub> | G<sub>3</sub> | 7969 | S<sub>15</sub> | G<sub>15</sub> | 18796 |
S<sub>4</sub> | G<sub>4</sub> | 3249 | S<sub>16</sub> | G<sub>16</sub> | 15976 |
S<sub>5</sub> | G<sub>5</sub> | 2145 | S<sub>17</sub> | G<sub>17</sub> | 18795 |
S<sub>6</sub> | G<sub>6</sub> | 5678 | S<sub>18</sub> | G<sub>18</sub> | 15481 |
S<sub>7</sub> | G<sub>7</sub> | 9876 | S<sub>19</sub> | G<sub>19</sub> | 14567 |
S<sub>8</sub> | G<sub>8</sub> | 1567 | S<sub>20</sub> | G<sub>20</sub> | 26487 |
S<sub>9</sub> | G<sub>9</sub> | 1956 | S<sub>21</sub> | G<sub>21</sub> | 34576 |
S<sub>10</sub> | G<sub>10</sub> | 4567 | S<sub>22</sub> | G<sub>22</sub> | 17895 |
S<sub>11</sub> | G<sub>11</sub> | 8756 | S<sub>23</sub> | G<sub>23</sub> | 49752 |
S<sub>12</sub> | G<sub>12</sub> | 9462 | S<sub>24</sub> | G<sub>24</sub> | 24756 |
表1
进一步的,计算每个用户组的上网占比向量,其中上网占比向量由该用户组在每个上网时段的平均上网时间占比组成;具体的计算过程如下所述:
在各个用户组的上网占比向量为每个用户簇选取对应的中心向量,其中,用户簇的各个数为K,其中,K为正整数,K的具体数值可根据实际情况进行设置,例如K可设置为4、9或是12。其中,关于K的取值,可从两个方面进行考虑,一方面,对用户组进行迭代时,随着迭代的进行,用户组由高密度区域向低密度区域扩散,当簇扩散至高低密度区的分界时,最小间距达到拐点,其增速加快,此拐点对应的聚类数目可作为最优聚类数目;另一方面,从聚类目的出发,聚类数目太多,聚类结果对于对象的概括性较差;聚类数目太少,聚类结果表示对象的准确性较差,因此聚类数目应在一个相对合理的范围内选择。
在将各个用户分至对应的用户组后,可使用k-means聚类算法对各个用户组进行聚类,以得到满足结束条件的用户簇,其中,结束条件还可以是结束聚类的条件;对各个用户组进行聚类的过程如下所述:
使用预设的距离公式,计算每个用户簇与每个用户组之间的距离值,其中,距离值为欧氏距离,距离公式为计算得到欧氏距离的公式,具体的计算过程如下所述:
距离值其中,Vi为第i个用户组的上网占比向量,Vj为第j个用户簇的中心向量,其中,j为正整数,且j的最大取值为K。其中,表示第i个用户组的上网占比向量中第m个平均上网时间占比,表示第j个用户簇的中心向量中第m个平均上网时间占比,其中,m∈(1,2,3......M)。
本发明实施例提供的方法中,在计算每个用户簇与每个用户组之间的距离值时,可基于各个距离值得到关于用户组与用户簇的距离矩阵,所述距离矩阵的其中一种表现形式如下所述:
可以基于距离矩阵中的各个距离值,确定每个用户组所对应的用户簇,并将每个用户组分至与其对应的用户簇中,其中,在每个用户组的各个距离值中确定数值最小的距离值,例如,第一个用户组中数值最小的距离值为dis12,则第一个用户组对应的用户簇为第二个用户簇,并将第一个用户组归至第二个用户簇中,由此可对用户组进行聚类。
对于每个用户簇,基于该用户簇中的每个用户组的各个上网占比向量,确定该用户簇的平均占比向量,将该用户簇的平均占比向量和中心向量进行比较;
当每个用户簇的平均占比向量和中心向量均一致时,则确定每个用户簇满足结束条件,即,对各个用户组聚类完成,并基于每个用户簇的中心向量确定与用户簇对应的用户的喜好上网时间段;
当不是每个用户簇的平均占比向量和中心向量均一致时,则存在用户簇不满足结束条件,则更新每个用户簇的中心向量,并重新计算每个用户组到用户簇的距离值,重新对用户组进行聚类,直到聚类后的每个用户簇满足结束条件。
本发明实施例提供的方法中,获取每个用户在每个预设的上网时段的历史上网数据,并基于历史上网数据确定每个用户在每个上网时段的上网时间占比,并根据上网时间占比将用户进行分组归类,得到包含用户的用户组,计算每个用户组的上网占比向量,并在各个上网占比向量中为每个预设的用户簇选取中心向量,计算每个用户簇与每个用户组的距离值,基于每个用户组的各个距离值,确定每个用户组所对应的用户簇;基于每个用户簇中的各个用户组的上网占比向量,判断是否每个用户簇均满足结束条件;若每个用户簇均满足结束条件,则可基于每个用户簇的中心向量,确定每个用户簇对应的用户的喜好上网时间段;若不是每个用户簇均满足结束条件,则更新每个用户簇的中心向量后,返回重新计算每个用户簇与用户组的距离值。应用本发明,可根据用户的上网时间特性将用户进行分组,将用户组进行聚类,以得到用户簇,并在每个用户簇满足结束条件时,基于每个用户簇的中心向量确定每个用户簇的用户的喜好上网时间段;应用本发明,无需逐个分析用户的喜好上网时间段,可以通过聚类的形式,快速确定大量的用户的喜好上网时间段,从而有效减少了服务器的计算量,提高了确定用户的喜好上网时间段的效率。
本发明提供的方法中,在确定用户的喜好上网时间段后,可根据用户的喜好上网时间段为用户推荐对应的增值服务或是为用户定制特定的服务,由此可以提高定向营销的命中率和捕捉目标用户,还可以根据用户的喜好上网时间段对网站进行优化。
与图1所述的方法对应的,本发明还提供一种用户的喜好上网时间段的确定装置,该装置用于支持图1所示的方法在实际中的应用,本发明提供的装置可应用在分布式计算机或是分布式计算环境中,其结构示意图如图5所示,具体说明如下所述:
获取单元501,用于获取每个用户在每个预设的上网时段的历史上网数据;
第一确定单元502,用于对于每个所述上网时段,基于每个所述用户在该上网时段的历史上网数据,确定每个所述用户在该上网时段的上网时间占比;
生成单元503,用于生成与每个所述上网时段对应的用户组,并基于每个所述用户的各个上网时间占比,确定每个所述用户所属的用户组;
第二确定单元504,用于对于每个所述用户组,基于该用户组中每个所述用户的各个上网时间占比,确定该用户组在每个所述上网时段的平均上网时间占比,并将各个所述平均上网时间占比组成该用户组的上网占比向量;
选取单元505,用于在各个所述上网占比向量中为每个预设的用户簇选取上网占比向量,并将为该用户簇选取的上网占比向量作为该用户簇的中心向量;
计算单元506,用于调用预设的距离公式,基于每个所述用户簇的中心向量和每个所述用户组的上网占比向量,计算每个所述用户簇与每个所述用户组的距离值;
第三确定单元507,用于基于每个所述用户组的各个距离值,确定每个所述用户组所对应的用户簇;
判断单元508,用于基于每个所述用户簇所对应的各个用户组,判断各个所述用户簇中是否存在不满足预设的结束条件的用户簇;
更新单元509,用于若各个所述用户簇中存在不满足预设的结束条件的用户簇,则更新每个所述用户簇的中心向量,并重新调用预设的距离公式,基于每个所述用户簇的中心向量和每个所述用户组的上网占比向量,计算每个所述用户簇与每个所述用户组的距离值;
第四确定单元510,用于若各个所述用户簇中不存在不满足预设的结束条件的用户簇,则基于每个所述用户簇的中心向量,确定每个所述用户簇对应的各个用户的喜好上网时间段。
应用本发明,使用历史上网数据,确定每个用户在每个上网时段的上网时间占比,并基于每个用户的各个上网时间占比,确定每个用户所属的用户组,由此可将各个用户进行分组,进而确定各个用户组对应的用户簇,并在每个用户簇满足预设的结束条件时,可基于每个用户簇的中心向量确定用户簇的用户的喜好上网时间段;应用本发明,可以快速的为用户分组,并将分组后的用户组作为聚类对象,将各个用户组进行聚类,从而得到满足条件的用户簇,并基于用户簇的中心向量可确定该用户簇的用户的喜好上网时间段,由此可以快速的确定大量的用户的喜好上网时间段,该过程无需逐一对用户的数据进行分析,从而得到用户的喜好上网时间段,减少了服务器的运算量,提高了确定用户的喜好上网时间段的效率。
本发明实施例提供的装置中,所述装置的第一确定单元502,可配置为:
解析子单元,用于对于每个所述用户,对该用户在该上网时段的历史上网数据进行解析,获取该用户在该上网时段的各个上网时长;
第一确定子单元,用于基于该用户在该上网时段的各个所述上网时长,确定该用户在该上网时段的平均上网时长;
第一计算子单元,用于将该用户在该上网时段的平均上网时长与该上网时段的时长代入预设的第一计算公式进行计算,得到该用户在该上网时段的上网时间占比。
本发明实施例提供的装置中,所述装置的生成单元503,可配置为:
第二确定子单元,用于对于每个所述用户,在该用户的各个上网时间占比中确定数值最大的上网时间占比;
第三确定子单元,用于确定所述数值最大的上网时间占比所对应的上网时段,并将该上网时段所对应的用户组确定为该用户所属的用户组。
本发明实施例提供的装置中,所述装置的第三确定单元507,可配置为:
第四确定子单元,用于对于每个所述用户组,从该用户组的各个距离值中确定数值最小的距离值;
第五确定子单元,用于确定与所述数值最小的距离值对应的中心向量,并将该中心向量的用户簇确定为与该用户组对应的用户簇。
本发明实施例提供的装置中,所述装置的判断单元508,可配置为:
第二计算子单元,用于对于每个所述用户簇,对该用户簇的每个用户组的上网占比向量按照预设的计算方法进行计算,得到该用户簇的平均占比向量,并将所述平均占比向量与该用户簇的中心向量进行比较,得到该用户簇的比较结果;
判断子单元,用于判断各个所述比较结果中是否存在表征为比较不一致的结果;
第一判定子单元,用于若各个所述比较结果中存在表征为比较不一致的结果,则判定存在不满足所述结束条件的用户簇;
第二判定子单元,用于若各个所述比较结果中不存在表征为比较不一致的结果,则判定不存在不满足所述结束条件的用户簇。
本发明实施例提供的装置中,所述装置的更新单元509,可配置为:
更新子单元,用于对于每个所述用户簇,将该用户簇的平均占比向量更新为该用户簇的中心向量。
本发明实施例还提供了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述用户的喜好上网时间段的确定方法。
本发明实施例提供一种电子设备,其结构示意图如图6所示,具体包括存储器601,以及一个或者一个以上的指令602,其中一个或者一个以上指令602存储于存储器601中,且经配置以由一个或者一个以上处理器603执行所述一个或者一个以上指令602进行以下操作:
获取每个用户在每个预设的上网时段的历史上网数据;
对于每个所述上网时段,基于每个所述用户在该上网时段的历史上网数据,确定每个所述用户在该上网时段的上网时间占比;
生成与每个所述上网时段对应的用户组,并基于每个所述用户的各个上网时间占比,确定每个所述用户所属的用户组;
对于每个所述用户组,基于该用户组中每个所述用户的各个上网时间占比,确定该用户组在每个所述上网时段的平均上网时间占比,并将各个所述平均上网时间占比组成该用户组的上网占比向量;
在各个所述上网占比向量中为每个预设的用户簇选取上网占比向量,并将为该用户簇选取的上网占比向量作为该用户簇的中心向量;
调用预设的距离公式,基于每个所述用户簇的中心向量和每个所述用户组的上网占比向量,计算每个所述用户簇与每个所述用户组的距离值;
基于每个所述用户组的各个距离值,确定每个所述用户组所对应的用户簇;
基于每个所述用户簇所对应的各个用户组,判断各个所述用户簇中是否存在不满足预设的结束条件的用户簇;
若各个所述用户簇中存在不满足预设的结束条件的用户簇,则更新每个所述用户簇的中心向量,并重新调用预设的距离公式,基于每个所述用户簇的中心向量和每个所述用户组的上网占比向量,计算每个所述用户簇与每个所述用户组的距离值;
若各个所述用户簇中不存在不满足预设的结束条件的用户簇,则基于每个所述用户簇的中心向量,确定每个所述用户簇对应的各个用户的喜好上网时间段。
各个实施例的具体实施过程及其衍生方式,均在本发明的保护范围之内。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种用户的喜好上网时间段的确定方法,其特征在于,包括:
获取每个用户在每个预设的上网时段的历史上网数据;
对于每个所述上网时段,基于每个所述用户在该上网时段的历史上网数据,确定每个所述用户在该上网时段的上网时间占比;
生成与每个所述上网时段对应的用户组,并基于每个所述用户的各个上网时间占比,确定每个所述用户所属的用户组;
对于每个所述用户组,基于该用户组中每个所述用户的各个上网时间占比,确定该用户组在每个所述上网时段的平均上网时间占比,并将各个所述平均上网时间占比组成该用户组的上网占比向量;
在各个所述上网占比向量中为每个预设的用户簇选取上网占比向量,并将为该用户簇选取的上网占比向量作为该用户簇的中心向量;
调用预设的距离公式,基于每个所述用户簇的中心向量和每个所述用户组的上网占比向量,计算每个所述用户簇与每个所述用户组的距离值;
基于每个所述用户组的各个距离值,确定每个所述用户组所对应的用户簇;
基于每个所述用户簇所对应的各个用户组,判断各个所述用户簇中是否存在不满足预设的结束条件的用户簇;
若各个所述用户簇中存在不满足预设的结束条件的用户簇,则更新每个所述用户簇的中心向量,并重新调用预设的距离公式,基于每个所述用户簇的中心向量和每个所述用户组的上网占比向量,计算每个所述用户簇与每个所述用户组的距离值;
若各个所述用户簇中不存在不满足预设的结束条件的用户簇,则基于每个所述用户簇的中心向量,确定每个所述用户簇对应的各个用户的喜好上网时间段;
其中,所述基于每个所述用户的各个上网时间占比,确定每个所述用户所属的用户组,包括:
对于每个所述用户,在该用户的各个上网时间占比中确定数值最大的上网时间占比;
确定所述数值最大的上网时间占比所对应的上网时段,并将该上网时段所对应的用户组确定为该用户所属的用户组。
2.根据权利要求1所述的方法,其特征在于,所述基于每个所述用户在该上网时段的历史上网数据,确定每个所述用户在该上网时段的上网时间占比,包括:
对于每个所述用户,对该用户在该上网时段的历史上网数据进行解析,获取该用户在该上网时段的各个上网时长;
基于该用户在该上网时段的各个所述上网时长,确定该用户在该上网时段的平均上网时长;
将该用户在该上网时段的平均上网时长与该上网时段的时长代入预设的第一计算公式进行计算,得到该用户在该上网时段的上网时间占比。
3.根据权利要求1所述的方法,其特征在于,所述基于每个所述用户组的各个距离值,确定每个所述用户组所对应的用户簇,包括:
对于每个所述用户组,从该用户组的各个距离值中确定数值最小的距离值;
确定与所述数值最小的距离值对应的中心向量,并将该中心向量的用户簇确定为与该用户组对应的用户簇。
4.根据权利要求1所述的方法,其特征在于,所述基于每个所述用户簇所对应的各个用户组,判断各个所述用户簇中是否存在不满足预设的结束条件的用户簇,包括:
对于每个所述用户簇,对该用户簇的每个用户组的上网占比向量按照预设的计算方法进行计算,得到该用户簇的平均占比向量,并将所述平均占比向量与该用户簇的中心向量进行比较,得到该用户簇的比较结果;
判断各个所述比较结果中是否存在表征为比较不一致的结果;
若各个所述比较结果中存在表征为比较不一致的结果,则判定存在不满足所述结束条件的用户簇;
若各个所述比较结果中不存在表征为比较不一致的结果,则判定不存在不满足所述结束条件的用户簇。
5.根据权利要求4所述的方法,其特征在于,所述更新每个所述用户簇的中心向量,包括:
对于每个所述用户簇,将该用户簇的平均占比向量更新为该用户簇的中心向量。
6.一种用户的喜好上网时间段的确定装置,其特征在于,包括:
获取单元,用于获取每个用户在每个预设的上网时段的历史上网数据;
第一确定单元,用于对于每个所述上网时段,基于每个所述用户在该上网时段的历史上网数据,确定每个所述用户在该上网时段的上网时间占比;
生成单元,用于生成与每个所述上网时段对应的用户组,并基于每个所述用户的各个上网时间占比,确定每个所述用户所属的用户组;
第二确定单元,用于对于每个所述用户组,基于该用户组中每个所述用户的各个上网时间占比,确定该用户组在每个所述上网时段的平均上网时间占比,并将各个所述平均上网时间占比组成该用户组的上网占比向量;
选取单元,用于在各个所述上网占比向量中为每个预设的用户簇选取上网占比向量,并将为该用户簇选取的上网占比向量作为该用户簇的中心向量;
计算单元,用于调用预设的距离公式,基于每个所述用户簇的中心向量和每个所述用户组的上网占比向量,计算每个所述用户簇与每个所述用户组的距离值;
第三确定单元,用于基于每个所述用户组的各个距离值,确定每个所述用户组所对应的用户簇;
判断单元,用于基于每个所述用户簇所对应的各个用户组,判断各个所述用户簇中是否存在不满足预设的结束条件的用户簇;
更新单元,用于若各个所述用户簇中存在不满足预设的结束条件的用户簇,则更新每个所述用户簇的中心向量,并重新调用预设的距离公式,基于每个所述用户簇的中心向量和每个所述用户组的上网占比向量,计算每个所述用户簇与每个所述用户组的距离值;
第四确定单元,用于若各个所述用户簇中不存在不满足预设的结束条件的用户簇,则基于每个所述用户簇的中心向量,确定每个所述用户簇对应的各个用户的喜好上网时间段;
其中,所述生成单元,包括:
第二确定子单元,用于对于每个所述用户,在该用户的各个上网时间占比中确定数值最大的上网时间占比;
第三确定子单元,用于确定所述数值最大的上网时间占比所对应的上网时段,并将该上网时段所对应的用户组确定为该用户所属的用户组。
7.根据权利要求6所述的装置,其特征在于,所述第一确定单元,包括:
解析子单元,用于对于每个所述用户,对该用户在该上网时段的历史上网数据进行解析,获取该用户在该上网时段的各个上网时长;
第一确定子单元,用于基于该用户在该上网时段的各个所述上网时长,确定该用户在该上网时段的平均上网时长;
第一计算子单元,用于将该用户在该上网时段的平均上网时长与该上网时段的时长代入预设的第一计算公式进行计算,得到该用户在该上网时段的上网时间占比。
8.根据权利要求6所述的装置,其特征在于,所述第三确定单元,包括:
第四确定子单元,用于对于每个所述用户组,从该用户组的各个距离值中确定数值最小的距离值;
第五确定子单元,用于确定与所述数值最小的距离值对应的中心向量,并将该中心向量的用户簇确定为与该用户组对应的用户簇。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011188426.6A CN112291622B (zh) | 2020-10-30 | 2020-10-30 | 用户的喜好上网时间段的确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011188426.6A CN112291622B (zh) | 2020-10-30 | 2020-10-30 | 用户的喜好上网时间段的确定方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112291622A CN112291622A (zh) | 2021-01-29 |
CN112291622B true CN112291622B (zh) | 2022-05-27 |
Family
ID=74353650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011188426.6A Active CN112291622B (zh) | 2020-10-30 | 2020-10-30 | 用户的喜好上网时间段的确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112291622B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010098597A2 (ko) * | 2009-02-26 | 2010-09-02 | Lim Cheol Soo | Tv와 pc기능을 겸한 영상처리 시스템 및 그 운영방법 |
CN103235824A (zh) * | 2013-05-06 | 2013-08-07 | 上海河广信息科技有限公司 | 根据浏览网页确定用户感兴趣的网页文本的方法和系统 |
CN104462245A (zh) * | 2014-11-19 | 2015-03-25 | 亚信科技(南京)有限公司 | 一种用户上网偏好数据识别方法 |
CN104750752A (zh) * | 2013-12-31 | 2015-07-01 | 中国移动通信集团公司 | 一种上网偏好用户群体的确定方法和设备 |
CN105264918A (zh) * | 2013-05-22 | 2016-01-20 | 华为技术有限公司 | 分布式演进型分组核心架构的系统和方法 |
CN106600042A (zh) * | 2016-12-05 | 2017-04-26 | 武汉大学 | 一种手机用户上网时段预测方法 |
CN107846380A (zh) * | 2016-09-18 | 2018-03-27 | 中兴通讯股份有限公司 | 一种上网认证方法、装置和系统 |
CN110061956A (zh) * | 2018-01-19 | 2019-07-26 | 北京盛世光明软件股份有限公司 | 一种提高用户上网体验的处理方法及系统 |
CN110532485A (zh) * | 2019-07-11 | 2019-12-03 | 中国科学院信息工程研究所 | 基于多源数据融合的用户行为检测方法及装置 |
CN111368204A (zh) * | 2020-03-09 | 2020-07-03 | 北京字节跳动网络技术有限公司 | 内容推送方法、装置、电子设备及计算机可读介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9017078B2 (en) * | 2012-08-09 | 2015-04-28 | David Gross | Method and system for identify, treatment and weaning from Internet and computer addiction |
CN104202662A (zh) * | 2014-09-05 | 2014-12-10 | 绿网天下(福建)网络科技股份有限公司 | 基于智能电视/机顶盒对软件使用时间的统计方法 |
US10015537B2 (en) * | 2016-06-30 | 2018-07-03 | Baidu Usa Llc | System and method for providing content in autonomous vehicles based on perception dynamically determined at real-time |
US9918129B2 (en) * | 2016-07-27 | 2018-03-13 | The Directv Group, Inc. | Apparatus and method for providing programming information for media content to a wearable device |
CN106331109A (zh) * | 2016-08-26 | 2017-01-11 | 天津通信广播集团有限公司 | 一种数字电视中可视信息智能推荐系统的实现方法 |
CN108024148B (zh) * | 2016-10-31 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 基于行为特征的多媒体文件识别方法、处理方法及装置 |
-
2020
- 2020-10-30 CN CN202011188426.6A patent/CN112291622B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010098597A2 (ko) * | 2009-02-26 | 2010-09-02 | Lim Cheol Soo | Tv와 pc기능을 겸한 영상처리 시스템 및 그 운영방법 |
CN103235824A (zh) * | 2013-05-06 | 2013-08-07 | 上海河广信息科技有限公司 | 根据浏览网页确定用户感兴趣的网页文本的方法和系统 |
CN105264918A (zh) * | 2013-05-22 | 2016-01-20 | 华为技术有限公司 | 分布式演进型分组核心架构的系统和方法 |
CN104750752A (zh) * | 2013-12-31 | 2015-07-01 | 中国移动通信集团公司 | 一种上网偏好用户群体的确定方法和设备 |
CN104462245A (zh) * | 2014-11-19 | 2015-03-25 | 亚信科技(南京)有限公司 | 一种用户上网偏好数据识别方法 |
CN107846380A (zh) * | 2016-09-18 | 2018-03-27 | 中兴通讯股份有限公司 | 一种上网认证方法、装置和系统 |
CN106600042A (zh) * | 2016-12-05 | 2017-04-26 | 武汉大学 | 一种手机用户上网时段预测方法 |
CN110061956A (zh) * | 2018-01-19 | 2019-07-26 | 北京盛世光明软件股份有限公司 | 一种提高用户上网体验的处理方法及系统 |
CN110532485A (zh) * | 2019-07-11 | 2019-12-03 | 中国科学院信息工程研究所 | 基于多源数据融合的用户行为检测方法及装置 |
CN111368204A (zh) * | 2020-03-09 | 2020-07-03 | 北京字节跳动网络技术有限公司 | 内容推送方法、装置、电子设备及计算机可读介质 |
Non-Patent Citations (3)
Title |
---|
《Mobile Surfing Pattern Analysis over Time and Location on a Big Access Record》;Gengliang Zhu;《2015 IEEE 12th Intl Conf on Ubiquitous Intelligence and Computing and 2015 IEEE 12th Intl Conf on Autonomic and Trusted Computing and 2015 IEEE 15th Intl Conf on Scalable Computing and Communications and Its Associated Workshops(UIC-ATC-ScalCom)》;20160721;全文 * |
《基于Hadoop的IP用户访问行为动机分析研究》;张艳华;《中国优秀硕士学位论文全文数据库》;20180615;全文 * |
《基于机器学习移动用户行为分析研究》;刘闯;《中国优秀硕士学位论文全文数据库》;20190615;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112291622A (zh) | 2021-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106651542B (zh) | 一种物品推荐的方法及装置 | |
CN109903086B (zh) | 一种相似人群扩展方法、装置及电子设备 | |
CN106951527B (zh) | 一种歌曲推荐方法及装置 | |
CN110097302B (zh) | 分配订单的方法和装置 | |
CN104348892B (zh) | 一种信息展示方法和装置 | |
CN108921587B (zh) | 一种数据处理方法、装置及服务器 | |
CN113627846A (zh) | 一种库存调整方法、装置、电子设备及计算机可读介质 | |
CN106778843B (zh) | 一种预测移动终端用户性别的方法、服务器和系统 | |
CN111209347A (zh) | 一种混合属性数据聚类的方法和装置 | |
CN111651666A (zh) | 用户主题推荐方法、装置、计算机设备及存储介质 | |
CN113407854A (zh) | 一种应用推荐方法、装置、设备及计算机可读存储介质 | |
CN111861605A (zh) | 业务对象推荐方法 | |
CN111538909A (zh) | 一种信息推荐方法及装置 | |
CN105681089B (zh) | 网络用户行为聚类方法、装置及终端 | |
CN112291622B (zh) | 用户的喜好上网时间段的确定方法及装置 | |
CN109472455B (zh) | 活动评估方法、装置、电子设备及存储介质 | |
CN117009659A (zh) | 套餐推荐方法、装置、设备及存储介质 | |
CN111597299A (zh) | 知识点监测方法、装置、计算机设备和存储介质 | |
CN111461188A (zh) | 一种目标业务控制方法、装置、计算设备及存储介质 | |
CN113505304B (zh) | 一种目标对象推荐方法及系统 | |
CN113761365B (zh) | 用于确定目标信息的数据处理系统 | |
CN115659005A (zh) | 产品推送方法、装置、计算机设备和存储介质 | |
CN110874615B (zh) | 特征聚类处理方法、集群服务器及可读存储介质 | |
CN109214874B (zh) | Ip产品运营数据处理方法、装置、设备及可读存储介质 | |
CN112925982A (zh) | 用户重定向方法及装置、存储介质、计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |