CN110309437A - 一种信息推送方法和装置 - Google Patents
一种信息推送方法和装置 Download PDFInfo
- Publication number
- CN110309437A CN110309437A CN201910559744.XA CN201910559744A CN110309437A CN 110309437 A CN110309437 A CN 110309437A CN 201910559744 A CN201910559744 A CN 201910559744A CN 110309437 A CN110309437 A CN 110309437A
- Authority
- CN
- China
- Prior art keywords
- grid
- coordinate points
- neighborhood
- cluster
- grids
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请提供了一种信息推送方法和装置,所述方法包括:获取并记录用户终端上报所在位置的坐标点,以及上报位置信息的时间;确定第一预设时间内每个用户满足预设条件的坐标点;将包含所有满足预设条件的坐标点的最小矩形区域划分为以预设步长为单位的网格,并建立位于每个网格的坐标点与对应网格的映射关系;在使用基于网格搜索的具有噪声的基于密度的聚类算法进行聚类过程中,以与坐标点存在对应关系的网格为目标通过八方邻域方式搜索对应的邻域;根据所述映射关系将聚类后的每个簇中的网格映射为对应网格内的坐标点;针对任一簇,根据簇内坐标点对应的用户的画像在对应位置进行信息推送。该方法能够提高信息推送效率。
Description
技术领域
本发明涉及计算机处理技术领域,特别涉及一种信息推送方法和装置。
背景技术
位置服务(地理营销)是伴随地理信息系统(GIS)的快速发展和广泛应用而产生的一门新型学科,是行业辅助决策和地理市场分析的有力工具。位置服务与市场营销有着密切的联系,但位置服务着重于分析空间、距离对市场和经济活动所产生的影响。
位置服务领域宽广,丰富多彩,与传统商家的合作为其未来发展提供了无限的空间。
位置服务的前提是需要对不同地理位置的用户进行聚合,再根据位置相近用户的具体偏好和画像(用户的属性信息)进行精准的信息推送。
根据移动端app浏览日志埋点上报的坐标数据可以获得用户经常停留的位置点。但是空间数据由于其本身的特殊性,对聚类算法有一定的要求:要能发现任意形状的簇;无法先验的确定簇的个数,故基于划分的聚类(K_means等)基本不可行;要对噪声数据不敏感。
类似具有噪声的基于密度的聚类算法(Density-Based Spatial Clustering ofApplications with Noise,DBSCAN)这种基于密度的聚类算法是比较经典的空间聚类算法,可以在含噪声的空间数据中聚合成任意形状的簇,但是现有的DBSCAN算法应用于移动端埋点坐标数据存在如下问题:
空间面积大,或数据量大的时候,DBSCAN算法的效率非常差。
发明内容
有鉴于此,本申请提供一种信息推送方法和装置,能够提高信息推送效率。
为解决上述技术问题,本申请的技术方案是这样实现的:
在一个实施例中,提供了一种信息推送方法,所述方法包括:
获取并记录用户终端上报所在位置的坐标点,以及上报位置信息的时间;
确定第一预设时间内每个用户满足预设条件的坐标点;
将包含所有满足预设条件的坐标点的最小矩形区域划分为以预设步长为单位的网格,并建立位于每个网格的坐标点与对应网格的映射关系;
在使用基于网格搜索的具有噪声的基于密度的聚类算法进行聚类过程中,以与坐标点存在对应关系的网格为目标通过八方邻域方式搜索对应的邻域;
根据所述映射关系将聚类后的每个簇中的网格映射为对应网格内的坐标点;
针对任一簇,根据簇内坐标点对应的用户的画像在对应位置进行信息推送。
在另一个实施例中,提供了一种信息推送装置,所述装置包括:获取单元、确定单元、建立单元、聚类单元、映射单元和推送单元;
所述获取单元,用于获取并记录用户终端上报所在位置的坐标点,以及上报位置信息的时间;
所述确定单元,用于确定所述获取单元记录的第一预设时间内每个用户满足预设条件的坐标点;
所述建立单元,用于将所述确定单元确定的包含所有满足预设条件的坐标点的最小矩形区域划分为以预设步长为单位的网格,并建立位于每个网格的坐标点与对应网格的映射关系;
所述聚类单元,用于在使用基于网格搜索的具有噪声的基于密度的聚类算法进行聚类过程中,以所述建立单元划分的与坐标点存在对应关系的网格为目标通过八方邻域方式搜索对应的邻域;
所述映射单元,用于根据所述建立单元建立的映射关系将所述聚类单元聚类后的每个簇中的网格映射为对应网格内的坐标点;
所述推送单元,用于针对任一簇,根据所述映射单元映射的簇内坐标点对应的用户的画像在对应位置进行信息推送。
在另一个实施例中,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如所述信息推送方法的步骤。
在另一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述信息推送方法的步骤。
由上面的技术方案可见,上述实施例中通过将DBSCAN算法聚类中将搜索邻域目标由坐标点转换为网格,大大加快了聚类速度,从而提高了信息推送的效率。
附图说明
以下附图仅对本发明做示意性说明和解释,并不限定本发明的范围:
图1为本申请实施例中信息推送流程示意图;
图2为本申请实施例中使用基于网格搜索的DBSCAN算法进行聚类过程的流程示意图;
图3为搜索点P的一阶邻域示意图;
图4为搜索点P的二阶邻域示意图;
图5为本申请实施例中基于上述技术的装置结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图并举实施例,对本发明的技术方案进行详细说明。
本申请实施例中提供一种信息推送方法,应用于包括用户终端、服务器和推送终端的系统中。
用户终端用于上报终端所在位置的坐标点,以及提供一些网络访问信息、购物信息等,来确定用户画像;
用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象的一个标签化的用户模型。
服务器,用于根据用户终端上报的位置信息(坐标点)进行聚类,确定哪些坐标点对应的用户属于一簇,然后根据一簇中的坐标点对应用户的用户画像进行信息推送,推送的信息可以为电子广告等,如电梯、公用卫生间、小区大门等均可进行相关信息推送;
推送终端,用于显示服务器推送的信息。
在上述三个设备中,本申请主要改进用户终端上的信息的获取,以及服务器上的聚类过程,至于根据用户的画像等进行什么样的信息推送本申请并不进行限制。
下面结合附图,详细说明本申请实施例中服务器进行信息推送的过程。
参见图1,图1为本申请实施例中信息推送流程示意图。具体步骤为:
步骤101,服务器获取并记录用户终端上报所在位置的坐标点,以及上报坐标点的时间。
用户在浏览app时,每次更新页面都会上报当时所在位置的坐标点。
服务器接收用户终端每次进行页面更新时上报的位置的坐标点,记录获取上报的坐标点,以及获取该坐标点的时间。
参见表1,表1为用户1的各坐标点与时间的对应关系。
经度 | 纬度 | 获取时间 |
lon1 | lat1 | 00:00 |
lon1 | lat1 | 00:10 |
lon1 | lat1 | 00:30 |
lon2 | lat2 | 00:35 |
lon2 | lat2 | 00:40 |
lon3 | lat3 | 00:45 |
表1
表1中的坐标点通过经纬度信息标识。
步骤102,确定第一预设时间内每个用户满足预设条件的坐标点。
本申请实施例中为了后续处理数据的有效性,还需先确定每个用户在第一预设时间内记录数据的有效性,具体处理如下:
确定第一预设时间内,记录的坐标点的次数是否大于预设次数阈值,如果是,认为该用户是活跃用户,针对该用户执行步骤102的操作;否则;认为该用户是非活跃用户,删除该用户对应的坐标点和时间。
本步骤中确定第一预设时间内每个用户满足预设条件的坐标点,包括:
第一步、统计每个用户在第一预设时间内每个坐标点停留的时长;
以表1所示内容为前提,具体举例实现确定在每个坐标点停留的时长的确定过程如下:
表1中针对坐标点(lon1,lat1)记录的连续时间点为00:00,00:10,00:30,则确定用户1在坐标点(lon1,lat1)停留的时间为30分钟。
基于上述确定用户1在各坐标点的停留时间的方式,确定用户1在每个坐标点停留的时长。具体见表2,表2为根据表1获得的用户1在每个坐标点停留的时长对应的内容。
开始时间 | 结束时间 | 经度 | 纬度 | 时间差 |
00:00 | 00:30 | lon1 | lat1 | 30 |
00:35 | 00:40 | lon2 | lat2 | 5 |
00:45 | 00:45 | lon3 | lat3 | 0 |
表2
第二步、针对每个用户选择两个停留时间最长的坐标点。
如表2中,则选择的坐标点为坐标点(lon1,lat1)和坐标点(lon2,lat2)。
第三步、确定两个坐标点的停留时长的差值比例是否小于预设比例值,如果是,确定两个停留时间最长的坐标点均为满足预设条件的坐标点;否则,确定两个停留时间最长的坐标点中停留时间更长的坐标点为满足预设条件的坐标点。
本申请实施例中两个坐标点的停留时长的差值比例为:两个坐标点的停留时长的差值的绝对值与停留的最长时长的比值。
如表2中,坐标点(lon1,lat1)的停留时长为30分钟,坐标点(lon2,lat2)的停留时长为5分钟,则停留时长的差值比例为:
假设预设比例值为30%,则两个坐标点的停留时长的差值比例大于预设比例阈值,说明这两个坐标点的停留时长相差比较大,则只保留停留时长最大的坐标点(lon1,lat1)。
若两个坐标点的停留时长的差值比例不大于预设比例阈值,则说明这两个坐标点的停留时长相差不大,两个坐标点都比较重要,则保留这两个坐标的。
步骤103,将包含所有满足预设条件的坐标点的最小矩形区域划分为以预设步长为单位的网格,并建立位于每个网格的坐标点与对应网格的映射关系。
在步骤102确定第一预设时间内每个用户满足预设条件的坐标点之后,步骤103将包含所有满足预设条件的坐标点的最小矩形区域划分为以预设步长为单位的网格之前,所述方法进一步包括:过滤掉低密度区域的坐标点,具体实现如下:
第一步、将包含所有满足预设条件的坐标点的最小矩形区域划分为以N倍预设步长为单位的网格;其中,N为大于2的整数;
所有待处理的坐标的最小矩形区域可以通过坐标点的最小经纬度,以及最大经纬度对应的范围确定。
第二步、若确定任一网格中的坐标点的个数小于预设个数阈值,则将该网格中的坐标点从所有满足预设条件的坐标点中删除。
这里的预设步长为真正进行网格划分时的步长,这里先以两倍以上步长的划分网格,这样每个网格对应的面积都比较大,如果这样大的面积内,坐标点的个数仍然很小,则认为该网格为低密度区域,将该网格内的坐标点过滤掉。
将保留下来的坐标点继续执行步骤103的处理。
本实施例中针对网格的标识的定义为以经纬度分别作为一个参考数进行定义,如2-8,则说明从精度上来看,为第二行网格,从维度上来看为第8行网格。
本申请实施例中建立位于每个网格的坐标点与对应网格的映射关系,包括:
以第i个坐标点为例:
建立第i个坐标点的坐标(loni,lati)与网格标识(lon_idi_lat_idi)的映射关系为:
计算loni与minlon的差值,将所述差值与w的商向上取整所得的值作为lon_idi;
即
计算lati与minlat的差值,将所述差值与w的商向上取整所得的值作为lat_idi;
即
其中,minlon和minlat为所述最小矩形区域的最小经纬度坐标;w为预设步长。
通过上述算法可以确定每个坐标点与网格标识的映射关系。见表3,表3为坐标点与网格标识的映射关系。
经度 | 纬度 | user_id | lon_id | lat_id | grid_id |
lon1 | lat1 | User1 | 2 | 8 | 2_8 |
lon2 | lat2 | User2 | 2 | 8 | 2_8 |
lon3 | lat3 | User3 | 14 | 28 | 14_28 |
表3
表3中user_id为用户标识,grid_id为网格标识。一个网格中可以有一个或多个坐标点。
步骤104,在使用基于网格搜索的DBSCAN算法进行聚类过程中,以与坐标点存在映射关系的网格为单位通过八方邻域方式查找对应的邻域。
通过步骤103,将聚类的目标由坐标点转换为网格,接下来,在通过DBSCAN算法进行聚类的过程中,以与坐标点存在映射关系的网格为目标进行邻域搜索,也就是说有坐标点的网格,没有对应坐标点的网格不进行处理,而不是以坐标点为目标进行邻域搜索。
参见图2,图2为本申请实施例中使用基于网格搜索的DBSCAN算法进行聚类过程的流程示意图。具体步骤为:
步骤201,在当前未聚类网格集合中选择一个网格。
在针对网格聚类之前,所有网格均为未聚类网格,组成一个未聚类网格集合。
这里组成未聚类网格集合的网格为与坐标点存在映射关系的网格。
选择一个网格,在这里可以为随机选择,也可以根据实际应用给定选择网格的规则,来减少搜索次数,本申请实施例中对此不进行限制。
步骤202,获取该网格的邻域网格集合。
所述集合中包括该网格。
针对选择的网格获取其邻域集合时,以网格为目标通过八方邻域方式查找对应的邻域。具体获取过程如下:
第一步、针对任一网格P,以网格P为中心网格,搜索网格P的八方邻接网格;
在搜索网格的八方邻接网格时,搜索到的网格为当前未聚类网格集合中的网格;对于虽然为一个网格的八方邻接网格,但是不为当前未聚类网格集合中的网格时,不作为该网格的八方邻接网格。
参见图3,图3为搜索点P的一阶邻域示意图。图3中以搜索点P为网格33为例,图3中给出网格标识的网格为存在坐标点的网格,网格33的八方邻接网格在图3中为网格22、网格23、网格34、网格42,另外四个网格不为网格33的邻接格网。
第二步、以找到的所有邻域网格为中心网格再次搜索每个邻域网格的八方邻接网格;
针对第一步找到的一阶邻域网格,以搜索的一阶邻域网格为中心网格,再次进行八方邻接网格搜索。
参见图4,图4为搜索点P的二阶邻域示意图。
一阶邻域网格为网格22、网格23、网格34、网格42,则针对网格22的八方邻域网格有网格11、网格13、网格23和网格33,由于网格23和网格33已在之前搜索到过,因此,针对网格22,将网格11和网格13作为点P的二阶邻域网格;同理,可得,针对网格23,将网格14作为点P的二阶邻域网格;针对网格34和网格42,不存在点P的新的二阶邻域网格;
基于上述搜索获得点P当前的所有的邻域网格为:网格33、网格22、网格23、网格34、网格42、网格11、网格13、网格14。
第三步、直到搜索到的所有邻域网格的总距离大于预设聚类直径,或不存在新的邻域网格时,结束邻域网格的搜索。
其中,所有邻域网格的总距离为所有邻域网格所对应的最小矩形区域的对角线的长度。
假设确定当前所有邻域网格(进行二阶搜索后)所对应的最小矩形区域的对角线的长度大于聚类直径,或分别以二阶邻域网格为中心未搜索到新的邻接网各,则结束针对点P的搜索;否则,按照类似的方式继续搜索。
将搜索到的所有邻域网格,以及网格P作为网格P的邻域网格集合。
步骤203,确定所述邻域网格集合中的所有网格中的坐标点的个数是否小于预设噪声阈值,如果是,执行步骤204;否则,执行步骤205。
步骤204,将所述邻域网格集合中所有网格标记为噪声;执行步骤209。
步骤205,确定所述邻域网格集合中的所有网格中的坐标点的个数是否小于预设小簇阈值,如果是,执行步骤206;否则,执行步骤207。
其中,预设小簇阈值大于预设噪声阈值。
步骤206,确定已聚类的簇中是否存在中心与所述邻域网格集合中的所有网格的中心的距离小于预设距离阈值的簇,如果是,执行步骤208;否则,执行步骤207。
一个簇的中心点的坐标为该簇中所有网格内的坐标点的均值,这里坐标点的均值通过经纬度来分别计算,如一个簇中有N个坐标点,则该簇的中心坐标(Core_lonN,Core_latN)具体确定方式如下:
其中,loni、lati为N个坐标点中第i个坐标点的经纬度坐标。
邻域网格集合中的所有网格的中心为所有网格对应的坐标点的均值,与簇的中心计算方式类似,这里不再详细描述。
步骤207,将所述邻域网格集合中所有网格标记为属于一个新的簇;执行步骤209。
步骤208,将所述邻域网格集合中所有网格增加到距离小于预设距离阈值的簇中。
步骤209,将所述邻域网格集合中所有网格从未聚类的网格集合中删除。
步骤210,确定未聚类网格集合是否为空,如果是,结束该流程;否则执行步骤201。
至此,完成了对所有网格的聚类。
以网格为目标通过DBSCAN算法聚类,能够大大提高运算效率,进而大大提高设备推送信息的效率。
步骤105,根据所述映射关系将聚类后的每个簇中的网格映射为对应网格内的坐标点。
在表3中给出了坐标点和网格标识的映射关系,将聚类后的网格映射为对应的坐标点,即可实现对坐标点的聚类。
步骤106,针对任一簇,根据簇内坐标点对应的用户的画像在对应位置进行信息推送。
本申请实施例中具体实现时,坐标点与用户也存在对应关系,根据用户的画像可以在对应簇所对应的位置进行信息推送,本申请实施例中对步骤106的具体实现不进行限制。
基于同样的发明构思,本申请还提供一种信息推送装置。参见图5,图5为本申请实施例中基于上述技术的装置结构示意图。该装置包括:获取单元501、确定单元502、建立单元503、聚类单元504、映射单元505和推送单元506;
获取单元501,用于获取并记录用户终端上报所在位置的坐标点,以及上报位置信息的时间;
确定单元502,用于确定获取单元501记录的第一预设时间内每个用户满足预设条件的坐标点;
建立单元503,用于将确定单元502确定的包含所有满足预设条件的坐标点的最小矩形区域划分为以预设步长为单位的网格,并建立位于每个网格的坐标点与对应网格的映射关系;
聚类单元504,用于在使用基于网格搜索的具有噪声的基于密度的聚类算法进行聚类过程中,以建立单元503划分的与坐标点存在对应关系的网格为目标通过八方邻域方式搜索对应的邻域;
映射单元505,用于根据建立单元503建立的映射关系将聚类单元504聚类后的每个簇中的网格映射为对应网格内的坐标点;
推送单元506,用于针对任一簇,根据映射单元505映射的簇内坐标点对应的用户的画像在对应位置进行信息推送。
优选地,
确定单元502,具体用于确定第一预设时间内每个用户满足预设条件的坐标点时,统计每个用户在第一预设时间内每个坐标点停留的时长;针对每个用户选择两个停留时间最长的坐标点;确定两个坐标点的停留时长的差值比例是否小于预设比例值,如果是,确定两个停留时间最长的坐标点均为满足预设条件的坐标点;否则,确定两个停留时间最长的坐标点中停留时间更长的坐标点为满足预设条件的坐标点。
优选地,
建立单元503,进一步用于将包含所有满足预设条件的坐标点的最小矩形区域划分为以预设步长为单位的网格之前,将包含所有满足预设条件的坐标点的最小矩形区域划分为以N倍预设步长为单位的网格;其中,N为大于2的整数;若确定任一网格中的坐标点的个数小于预设个数阈值,则将该网格中的坐标点从所有满足预设条件的坐标点中删除。
优选地,
建立单元503,具体用于建立第i个坐标点的坐标(loni,lati)与网格标识(lon_idi_lat_idi)的映射关系为:计算loni与minlon的差值,将所述差值与w的商向上取整所得的值作为lon_idi;计算lati与minlat的差值,将所述差值与w的商向上取整所得的值作为lat_idi;其中,minlon和minlat为所述最小矩形区域的最小经纬度坐标;w为预设步长。
优选地,
聚类单元504,具体用于针对任一网格P,以网格P为中心网格,搜索到网格P的八方邻接网格;以搜索到的所有邻域网格为中心网格再次搜索每个邻域网格的八方邻接网格;直到搜索到的所有邻域网格的总距离大于预设聚类直径,或不存在新的邻域网格时,结束邻域网格的搜索;将搜索到的所有邻域网格,以及网格P作为网格P的邻域网格集合;其中,所述所有邻域网格的总距离为所有邻域网格所对应的最小矩形区域的对角线的长度。
优选地,
聚类单元504,具体用于使用基于网格搜索的具有噪声的基于密度的聚类算法进行聚类过程中,在当前未聚类网格集合中选择一个网格;获取该网格的邻域网格集合;当确定所述邻域网格集合中的所有网格中的坐标点的个数小于预设噪声阈值时,将所述邻域网格集合中所有网格标记为噪声;当确定所述邻域网格集合中的所有网格中的坐标点的个数小于预设小簇阈值,且已聚类的簇中存在中心与所述邻域网格集合中的所有网格的中心的距离小于预设距离阈值的簇时,将所述邻域网格集合中所有网格增加到距离小于预设距离阈值的簇中;当确定所述邻域网格集合中的所有网格中的坐标点的个数小于预设小簇阈值,且已聚类的簇中存在中心与所述邻域网格集合中的所有网格的中心的距离不小于预设距离阈值的簇时,或所述邻域网格集合中的所有网格中的坐标点的个数不小于预设噪声阈值时,将所述邻域网格集合中所有网格标记为属于一个新的簇;将所述邻域网格集合中所有网格从未聚类的网格集合中删除;确定未聚类网格集合是否为空,如果是,结束该过程;否则针对当前未聚类的网格集合进行执行搜索;其中,预设噪声阈值小于预设小簇阈值。
上述实施例的单元可以集成于一体,也可以分离部署;可以合并为一个单元,也可以进一步拆分成多个子单元。
在另一个实施例中,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如所述信息推送方法的步骤。
在另一个实施例中,本申请实施例中还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述信息推送方法的步骤。
综上所述,本申请通过将DBSCAN算法聚类中将搜索邻域目标由坐标点转换为网格,大大加快了聚类速度,从而提高了信息推送的效率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (14)
1.一种信息推送方法,其特征在于,所述方法包括:
获取并记录用户终端上报所在位置的坐标点,以及上报位置信息的时间;
确定第一预设时间内每个用户满足预设条件的坐标点;
将包含所有满足预设条件的坐标点的最小矩形区域划分为以预设步长为单位的网格,并建立位于每个网格的坐标点与对应网格的映射关系;
在使用基于网格搜索的具有噪声的基于密度的聚类算法进行聚类过程中,以与坐标点存在对应关系的网格为目标通过八方邻域方式搜索对应的邻域;
根据所述映射关系将聚类后的每个簇中的网格映射为对应网格内的坐标点;
针对任一簇,根据簇内坐标点对应的用户的画像在对应位置进行信息推送。
2.根据权利要求1所述的方法,其特征在于,所述确定第一预设时间内每个用户满足预设条件的坐标点,包括:
统计每个用户在第一预设时间内每个坐标点停留的时长;
针对每个用户选择两个停留时间最长的坐标点;
确定两个坐标点的停留时长的差值比例是否小于预设比例值,如果是,确定两个停留时间最长的坐标点均为满足预设条件的坐标点;否则,确定两个停留时间最长的坐标点中停留时间更长的坐标点为满足预设条件的坐标点。
3.根据权利要求1所述的方法,其特征在于,所述确定第一预设时间内每个用户满足预设条件的坐标点之后,所述将包含所有满足预设条件的坐标点的最小矩形区域划分为以预设步长为单位的网格之前,所述方法进一步包括:
将包含所有满足预设条件的坐标点的最小矩形区域划分为以N倍预设步长为单位的网格;其中,N为大于2的整数;
若确定任一网格中的坐标点的个数小于预设个数阈值,则将该网格中的坐标点从所有满足预设条件的坐标点中删除。
4.根据权利要求1所述的方法,其特征在于,所述建立位于每个网格的坐标点与对应网格的映射关系,包括:
建立第i个坐标点的坐标(loni,lati)与网格标识(lon_idi_lat_idi)的映射关系为:
计算loni与minlon的差值,将所述差值与w的商向上取整所得的值作为lon_idi;
计算lati与minlat的差值,将所述差值与w的商向上取整所得的值作为lat_idi;
其中,minlon和minlat为所述最小矩形区域的最小经纬度坐标;w为预设步长。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述以网格为目标通过八方邻域方式搜索对应的邻域,包括:
针对任一网格P,以网格P为中心网格,搜索到网格P的八方邻接网格;
以搜索到的所有邻域网格为中心网格再次搜索每个邻域网格的八方邻接网格;
直到搜索到的所有邻域网格的总距离大于预设聚类直径,或不存在新的邻域网格时,结束邻域网格的搜索;
将搜索到的所有邻域网格,以及网格P作为网格P的邻域网格集合;
其中,所述所有邻域网格的总距离为所有邻域网格所对应的最小矩形区域的对角线的长度。
6.根据权利要求5所述的方法,其特征在于,使用基于网格搜索的具有噪声的基于密度的聚类算法进行聚类过程,包括:步骤
A、在当前未聚类网格集合中选择一个网格;
B、获取该网格的邻域网格集合;
C,确定所述邻域网格集合中的所有网格中的坐标点的个数是否小于预设噪声阈值,如果是,执行步骤D;否则,执行步骤E;
D、将所述邻域网格集合中所有网格标记为噪声;执行步骤J;
E、确定所述邻域网格集合中的所有网格中的坐标点的个数是否小于预设小簇阈值,如果是,执行步骤F;否则,执行步骤G;其中,预设噪声阈值小于预设小簇阈值;
F、确定已聚类的簇中是否存在中心与所述邻域网格集合中的所有网格的中心的距离小于预设距离阈值的簇,如果是,执行步骤H;否则,执行步骤G;
G、将所述邻域网格集合中所有网格标记为属于一个新的簇;执行步骤J;
H、将所述邻域网格集合中所有网格增加到距离小于预设距离阈值的簇中;
J、将所述邻域网格集合中所有网格从未聚类的网格集合中删除;
K、确定未聚类网格集合是否为空,如果是,结束该流程;否则执行步骤A。
7.一种信息推送装置,其特征在于,所述装置包括:获取单元、确定单元、建立单元、聚类单元、映射单元和推送单元;
所述获取单元,用于获取并记录用户终端上报所在位置的坐标点,以及上报位置信息的时间;
所述确定单元,用于确定所述获取单元记录的第一预设时间内每个用户满足预设条件的坐标点;
所述建立单元,用于将所述确定单元确定的包含所有满足预设条件的坐标点的最小矩形区域划分为以预设步长为单位的网格,并建立位于每个网格的坐标点与对应网格的映射关系;
所述聚类单元,用于在使用基于网格搜索的具有噪声的基于密度的聚类算法进行聚类过程中,以所述建立单元划分的与坐标点存在对应关系的网格为目标通过八方邻域方式搜索对应的邻域;
所述映射单元,用于根据所述建立单元建立的映射关系将所述聚类单元聚类后的每个簇中的网格映射为对应网格内的坐标点;
所述推送单元,用于针对任一簇,根据所述映射单元映射的簇内坐标点对应的用户的画像在对应位置进行信息推送。
8.根据权利要求7所述的装置,其特征在于,
所述确定单元,具体用于确定第一预设时间内每个用户满足预设条件的坐标点时,统计每个用户在第一预设时间内每个坐标点停留的时长;针对每个用户选择两个停留时间最长的坐标点;确定两个坐标点的停留时长的差值比例是否小于预设比例值,如果是,确定两个停留时间最长的坐标点均为满足预设条件的坐标点;否则,确定两个停留时间最长的坐标点中停留时间更长的坐标点为满足预设条件的坐标点。
9.根据权利要求7所述的装置,其特征在于,
所述建立单元,进一步用于将包含所有满足预设条件的坐标点的最小矩形区域划分为以预设步长为单位的网格之前,将包含所有满足预设条件的坐标点的最小矩形区域划分为以N倍预设步长为单位的网格;其中,N为大于2的整数;若确定任一网格中的坐标点的个数小于预设个数阈值,则将该网格中的坐标点从所有满足预设条件的坐标点中删除。
10.根据权利要求7所述的装置,其特征在于,
所述建立单元,具体用于建立第i个坐标点的坐标(loni,lati)与网格标识(lon_idi_lat_idi)的映射关系为:计算loni与minlon的差值,将所述差值与w的商向上取整所得的值作为lon_idi;计算lati与minlat的差值,将所述差值与w的商向上取整所得的值作为lat_idi;其中,minlon和minlat为所述最小矩形区域的最小经纬度坐标;w为预设步长。
11.根据权利要求7-10任一项所述的装置,其特征在于,
所述聚类单元,具体用于针对任一网格P,以网格P为中心网格,搜索到网格P的八方邻接网格;以搜索到的所有邻域网格为中心网格再次搜索每个邻域网格的八方邻接网格;直到搜索到的所有邻域网格的总距离大于预设聚类直径,或不存在新的邻域网格时,结束邻域网格的搜索;将搜索到的所有邻域网格,以及网格P作为网格P的邻域网格集合;其中,所述所有邻域网格的总距离为所有邻域网格所对应的最小矩形区域的对角线的长度。
12.根据权利要求11所述的装置,其特征在于,
所述聚类单元,具体用于使用基于网格搜索的具有噪声的基于密度的聚类算法进行聚类过程中,在当前未聚类网格集合中选择一个网格;获取该网格的邻域网格集合;当确定所述邻域网格集合中的所有网格中的坐标点的个数小于预设噪声阈值时,将所述邻域网格集合中所有网格标记为噪声;当确定所述邻域网格集合中的所有网格中的坐标点的个数小于预设小簇阈值,且已聚类的簇中存在中心与所述邻域网格集合中的所有网格的中心的距离小于预设距离阈值的簇时,将所述邻域网格集合中所有网格增加到距离小于预设距离阈值的簇中;当确定所述邻域网格集合中的所有网格中的坐标点的个数小于预设小簇阈值,且已聚类的簇中存在中心与所述邻域网格集合中的所有网格的中心的距离不小于预设距离阈值的簇时,或所述邻域网格集合中的所有网格中的坐标点的个数不小于预设噪声阈值时,将所述邻域网格集合中所有网格标记为属于一个新的簇;将所述邻域网格集合中所有网格从未聚类的网格集合中删除;确定未聚类网格集合是否为空,如果是,结束该过程;否则针对当前未聚类的网格集合进行执行搜索;其中,预设噪声阈值小于预设小簇阈值。
13.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6任一项所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910559744.XA CN110309437B (zh) | 2019-06-26 | 2019-06-26 | 一种信息推送方法和装置 |
PCT/CN2020/076995 WO2020258905A1 (zh) | 2019-06-26 | 2020-02-27 | 一种信息推送方法和装置 |
JP2021571659A JP7407209B2 (ja) | 2019-06-26 | 2020-02-27 | 情報プッシュ方法及び装置 |
US17/550,499 US20220101350A1 (en) | 2019-06-26 | 2021-12-14 | Information pushing method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910559744.XA CN110309437B (zh) | 2019-06-26 | 2019-06-26 | 一种信息推送方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110309437A true CN110309437A (zh) | 2019-10-08 |
CN110309437B CN110309437B (zh) | 2020-06-23 |
Family
ID=68077491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910559744.XA Active CN110309437B (zh) | 2019-06-26 | 2019-06-26 | 一种信息推送方法和装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220101350A1 (zh) |
JP (1) | JP7407209B2 (zh) |
CN (1) | CN110309437B (zh) |
WO (1) | WO2020258905A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111698332A (zh) * | 2020-06-23 | 2020-09-22 | 深圳壹账通智能科技有限公司 | 业务对象的分配方法、装置、设备及存储介质 |
WO2020258905A1 (zh) * | 2019-06-26 | 2020-12-30 | 京东数字科技控股有限公司 | 一种信息推送方法和装置 |
CN112991804A (zh) * | 2019-12-18 | 2021-06-18 | 浙江大华技术股份有限公司 | 停留区域确定方法以及相关装置 |
CN113157836A (zh) * | 2021-03-12 | 2021-07-23 | 广西壮族自治区中国科学院广西植物研究所 | 一种空间点数据集周围数据提取方法、装置及存储介质 |
CN113781132A (zh) * | 2020-06-15 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 一种线上导购方法和装置 |
CN113781151A (zh) * | 2021-01-29 | 2021-12-10 | 北京京东拓先科技有限公司 | 目标数据确定方法及装置、电子设备、存储介质 |
CN114154027A (zh) * | 2021-12-06 | 2022-03-08 | 深圳市大数据资源管理中心 | 非同源不一致数据处理方法 |
CN114154027B (zh) * | 2021-12-06 | 2024-10-22 | 深圳市大数据资源管理中心 | 非同源不一致数据处理方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112711720B (zh) * | 2020-12-31 | 2024-08-13 | 广州宸祺出行科技有限公司 | 一种降低出行成本的上车点推荐方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104714979A (zh) * | 2013-12-17 | 2015-06-17 | 北京合众思壮科技股份有限公司 | 基于位置信息的消息推送系统 |
US20160004762A1 (en) * | 2014-07-07 | 2016-01-07 | Edward-Robert Tyercha | Hilbert Curve Partitioning for Parallelization of DBSCAN |
CN105404648A (zh) * | 2015-10-29 | 2016-03-16 | 东北大学 | 一种基于密度与紧密度聚类的用户移动行为确定方法 |
CN107506802A (zh) * | 2017-10-19 | 2017-12-22 | 广东工业大学 | 一种基于网格的聚类算法及其装置 |
CN108537274A (zh) * | 2018-04-08 | 2018-09-14 | 武汉大学 | 一种基于网格的空间多尺度快速聚类方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070288476A1 (en) * | 2005-12-20 | 2007-12-13 | Flanagan Eugene L Iii | Methods and systems for conducting research operations |
US20100299116A1 (en) * | 2007-09-19 | 2010-11-25 | United Technologies Corporation | System and method for occupancy estimation |
TWI453613B (zh) * | 2011-05-17 | 2014-09-21 | Univ Nat Pingtung Sci & Tech | 網格式資料分群方法 |
US20140172489A1 (en) * | 2012-12-14 | 2014-06-19 | Wal-Mart Stores, Inc. | Techniques for using a heat map of a retail location to disperse crowds |
US20140278688A1 (en) * | 2013-03-15 | 2014-09-18 | Disney Enterprises, Inc. | Guest movement and behavior prediction within a venue |
KR20150027553A (ko) * | 2013-09-04 | 2015-03-12 | 한국전자통신연구원 | POI〔Point of Interest〕속성정보의 동적 가시화 시스템 및 방법, POI 속성정보의 가시화 갱신방법 |
US10592914B2 (en) * | 2015-03-24 | 2020-03-17 | PlaceIQ, Inc. | Device-dwell graphs |
CN105307121B (zh) * | 2015-10-16 | 2019-03-26 | 上海晶赞科技发展有限公司 | 一种信息处理方法及装置 |
JP2018037009A (ja) * | 2016-09-02 | 2018-03-08 | 株式会社日立製作所 | クラスタ分析システム、クラスタ分析装置、クラスタ分析方法 |
JP6694801B2 (ja) * | 2016-11-15 | 2020-05-20 | 日本電信電話株式会社 | 散策行動頻出範囲抽出装置、方法、及びプログラム |
CN107016924B (zh) * | 2016-12-20 | 2020-04-07 | 阿里巴巴集团控股有限公司 | 虚拟地图中的瓦片地图生成方法、更新方法和装置 |
CN106506705B (zh) * | 2016-12-29 | 2020-07-28 | 平安科技(深圳)有限公司 | 基于位置服务的人群分类方法及装置 |
WO2018150227A1 (en) * | 2017-02-17 | 2018-08-23 | Dataspark Pte, Ltd | Mobility gene for trajectory data |
CN106934696A (zh) * | 2017-03-15 | 2017-07-07 | 深圳大学 | 一种基于用户地理位置信息的产品推荐方法及系统 |
CN110309437B (zh) * | 2019-06-26 | 2020-06-23 | 京东数字科技控股有限公司 | 一种信息推送方法和装置 |
-
2019
- 2019-06-26 CN CN201910559744.XA patent/CN110309437B/zh active Active
-
2020
- 2020-02-27 JP JP2021571659A patent/JP7407209B2/ja active Active
- 2020-02-27 WO PCT/CN2020/076995 patent/WO2020258905A1/zh active Application Filing
-
2021
- 2021-12-14 US US17/550,499 patent/US20220101350A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104714979A (zh) * | 2013-12-17 | 2015-06-17 | 北京合众思壮科技股份有限公司 | 基于位置信息的消息推送系统 |
US20160004762A1 (en) * | 2014-07-07 | 2016-01-07 | Edward-Robert Tyercha | Hilbert Curve Partitioning for Parallelization of DBSCAN |
CN105404648A (zh) * | 2015-10-29 | 2016-03-16 | 东北大学 | 一种基于密度与紧密度聚类的用户移动行为确定方法 |
CN107506802A (zh) * | 2017-10-19 | 2017-12-22 | 广东工业大学 | 一种基于网格的聚类算法及其装置 |
CN108537274A (zh) * | 2018-04-08 | 2018-09-14 | 武汉大学 | 一种基于网格的空间多尺度快速聚类方法 |
Non-Patent Citations (1)
Title |
---|
YAN JIANZHUO ET AL.: "《Forecast the Distribution of Urban Water Point By Using Improved DBSCAN Algorithm》", 《2013 THIRD INTERNATIONAL CONFERENCE ON INTELLIGENT SYSTEM DESIGN AND ENGINEERING APPLICATIONS》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020258905A1 (zh) * | 2019-06-26 | 2020-12-30 | 京东数字科技控股有限公司 | 一种信息推送方法和装置 |
CN112991804A (zh) * | 2019-12-18 | 2021-06-18 | 浙江大华技术股份有限公司 | 停留区域确定方法以及相关装置 |
CN112991804B (zh) * | 2019-12-18 | 2022-06-07 | 浙江大华技术股份有限公司 | 停留区域确定方法以及相关装置 |
CN113781132A (zh) * | 2020-06-15 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 一种线上导购方法和装置 |
CN111698332A (zh) * | 2020-06-23 | 2020-09-22 | 深圳壹账通智能科技有限公司 | 业务对象的分配方法、装置、设备及存储介质 |
CN113781151A (zh) * | 2021-01-29 | 2021-12-10 | 北京京东拓先科技有限公司 | 目标数据确定方法及装置、电子设备、存储介质 |
CN113157836A (zh) * | 2021-03-12 | 2021-07-23 | 广西壮族自治区中国科学院广西植物研究所 | 一种空间点数据集周围数据提取方法、装置及存储介质 |
CN114154027A (zh) * | 2021-12-06 | 2022-03-08 | 深圳市大数据资源管理中心 | 非同源不一致数据处理方法 |
CN114154027B (zh) * | 2021-12-06 | 2024-10-22 | 深圳市大数据资源管理中心 | 非同源不一致数据处理方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2020258905A1 (zh) | 2020-12-30 |
CN110309437B (zh) | 2020-06-23 |
JP7407209B2 (ja) | 2023-12-28 |
JP2022535533A (ja) | 2022-08-09 |
US20220101350A1 (en) | 2022-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110309437A (zh) | 一种信息推送方法和装置 | |
CN107547633B (zh) | 一种用户常驻点的处理方法、装置和存储介质 | |
Zheng et al. | Diagnosing New York city's noises with ubiquitous data | |
CN105718465B (zh) | 地理围栏生成方法及装置 | |
US10311747B2 (en) | Empirical expert determination and question routing system and method | |
Guo et al. | A graph-based approach to vehicle trajectory analysis | |
WO2016110121A1 (zh) | 数据栅格化、用户行为分析的方法和装置 | |
WO2021147431A1 (zh) | 无线热点与兴趣点的映射方法、装置、计算机可读存储介质和计算机设备 | |
KR20170018015A (ko) | 위치 기반 서비스들을 구현하는 방법, 장치 및 시스템 | |
CN106326923B (zh) | 一种顾及位置重复和密度峰值点的签到位置数据聚类方法 | |
TWI708489B (zh) | 信號處理方法及裝置 | |
US11232115B2 (en) | Identifying functional zones within a geographic region | |
CN110298687B (zh) | 一种区域吸引力评估方法及设备 | |
Nikitopoulos et al. | Hot spot analysis over big trajectory data | |
WO2016127880A1 (zh) | 一种确定离线定位数据质量的方法和装置 | |
CN112328728A (zh) | 挖掘出行者轨迹的聚类方法、装置、电子装置和存储介质 | |
JP2011221665A (ja) | ユーザ属性分析装置及び方法及びプログラム | |
Park et al. | A hierarchical grid index (HGI), spatial queries in wireless data broadcasting | |
Belcastro et al. | Parallel extraction of Regions‐of‐Interest from social media data | |
WO2020024470A1 (zh) | 一种信息处理方法及装置 | |
Nghiem et al. | Peer-to-peer bichromatic reverse nearest neighbours in mobile ad-hoc networks | |
CN111221937A (zh) | 一种动态k值聚类构建主题r树方法 | |
CN114003803A (zh) | 一种社交平台上特定地域的媒体账号发现方法及系统 | |
US9986382B1 (en) | Method and apparatus for determining relationship between points of interest | |
Assam et al. | Context-based location clustering and prediction using conditional random fields |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176 Patentee after: Jingdong Technology Holding Co.,Ltd. Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone, 100176 Patentee before: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd. |
|
CP03 | Change of name, title or address |