发明内容
有鉴于此,本发明实施例提供了一种数据栅格化的方法和装置,提高了数据栅格化的效率。
另一方面,本发明实施例提供了一种用户行为的分析方法和装置,以实现基于大量多样化的实时栅格数据的用户行为规律或偏好分析。
第一方面,本发明实施例提供了一种数据栅格化的方法,所述方法应用于计算节点,所述方法包括:
根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据,所述用户关联数据包括一个或多个用户的位置信息和所述一个或多个用户的行为信息;
根据所述用户关联数据中的位置信息,计算所述用户关联数据对应的二维编号;
以所述二维编号为查询条件,在二维索引号集中获得与所述二维编号匹配的二维索引号,其中所述二维编号落入所述匹配的二维索引号的取值范围,或者所述二维编号与所述匹配的二维索引号相同,其中所述匹配的二维索引号表示的二级矩形栅格为所述用户关联数据匹配的二级矩形栅格,所述二维索引号集包括多个二维索引号,每个所述二维索引号表示所述目标区域内或者与所述目标区域相交的一个二维矩形栅格;
根据所述二级矩形栅格与所述一级栅格之间的对应关系,确定所述用户关联数据匹配的二级矩形栅格所对应的一级栅格的栅格标识,所述二级矩形栅格在所述目标区域的栅格密度大于所述目标区域的一级栅格的栅格密度;
关联所述一级栅格的栅格标识与所述用户关联数据,以得到所述一级栅格的所述用户关联数据对应的栅格数据,所述栅格数据包括所述行为信息和所述栅格标识,所述栅格数据用于分析所述目标时间段中经过所述目标区域的用户的行为规律或偏好。
在第一方面的第一种可能的实现方式中,在根据所述用户关联数据中的位置信息,计算所述用户关联数据对应的二维编号的方面,所述方法具体包括:
根据所述用户关联数据中的位置信息,计算所述位置信息表示的位置点相对于所述目标区域的标准点的位置参数,所述标准点为所述目标区域中或与所述目标区域相交的二维矩形栅格上经纬度的值已知的一个点;
将所述位置参数转化为所述用户关联数据对应的二维编号。
结合第一方面,或者第一方面第一种可能的实现方式,在第二种可能的实现方式中,所述方法还包括:
设置二级矩形栅格的网格尺寸;
根据所述网格尺寸,将所述目标区域按所述二级矩形栅格划分;
根据每个所述二级矩形栅格对应的区域的位置信息,计算每个所述二级矩形栅格对应的二维索引号。
结合第一方面,或者第一方面第一至第二种任意一种可能的实现方式,在第三种可能的实现方式中,在根据所述二级矩形栅格与所述一级栅格之间的对应关系,确定所述用户关联数据匹配的二级矩形栅格所对应的一级栅格的栅格标识的方面,所述方法具体包括:
计算所述二级矩形栅格在所述目标区域内的每个顶点与所述一级栅格的网格的位置关系,以确定每个所述顶点所对应的一级栅格;
根据每个所述顶点与所述一级栅格的对应关系,确定在所述目标区域内或与所述目标区域相交的每个所述二级矩形栅格对应的一级栅格;
根据所述用户关联数据匹配的二级栅格的二维索引号,获得所述用户关联数据匹配的二级矩形栅格对应的一级栅格的栅格标识。
结合第一方面,或者第一方面第一至第三种任意一种可能的实现方式,在第四种可能的实现方式中,在根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据的方面,所述方法具体包括:
在所述用户行为数据携带位置信息的情况下,将所述用户行为数据作为所述对应的用户关联数据;
在所述用户行为数据不携带位置信息的情况下,根据所述用户行为数据的产生时间和用户信息,获得产生时间与所述用户行为数据的产生时间最接近的同一用户的用户位置数据,所述用户位置数据包括位置信息;
将所述用户位置数据中的位置信息关联到所述用户行为数据,以得到所述用户行为数据对应的用户关联数据;
在所述用户位置数据的产生时间与所述用户行为数据的产生时间之间的间隔大于关联时间阈值的情况下,计算所述用户关联数据的关联置信度以及根据所述关联置信度处理所述用户关联数据。
第二方面,本发明实施例提供了一种用户行为分析方法,所述方法应用于计算节点,所述方法包括:
根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据,所述用户关联数据包括一个或多个用户的位置信息和所述一个或多个用户的行为信息;
根据所述用户关联数据中的位置信息,计算所述用户关联数据对应的二维编号;
以所述二维编号为查询条件,在二维索引号集中获得与所述二维编号匹配的二维索引号,其中所述二维编号落入二维索引号的范围,或者所述二维编号与二维索引号相同,其中所述匹配的二维索引号表示的二级矩形栅格为所述用户关联数据匹配的二级矩形栅格,所述二维索引号集包括多个二维索引号,每个所述二维索引号表示所述目标区域内或者与所述目标区域相交的一个二维矩形栅格;
根据所述二级矩形栅格与所述一级栅格之间的对应关系,确定所述用户关联数据匹配的二级矩形栅格所对应的一级栅格的栅格标识,所述二级矩形栅格在所述目标区域的栅格密度大于所述目标区域的一级栅格的栅格密度;
关联所述一级栅格的栅格标识与所述用户关联数据,以得到所述一级栅格的所述用户关联数据对应的栅格数据,所述栅格数据包括所述行为信息和所述栅格标识;
根据至少一个所述一级栅格的一条或多条所述栅格数据,提取所述一级栅格在所述目标时间段中的栅格特征数据,所述栅格特征数据表示所述目标时间段中经过所述目标区域的用户的行为规律或偏好。
在第二方面的第一种可能的实现方式中,在根据所述用户关联数据中的位置信息,计算所述用户关联数据对应的二维编号的方面,所述方法具体包括:
根据所述用户关联数据中的位置信息,计算所述位置信息表示的位置点相对于所述目标区域的标准点的位置参数,所述标准点为所述目标区域中或与所述目标区域相交的二维矩形栅格上经纬度值已知的一个点;
将所述位置参数转化为所述用户关联数据对应的二维编号。
结合第二方面,或者第二方面第一种可能的实现方式,在第二种可能的实现方式中,所述方法还包括:
设置二级矩形栅格的网格尺寸;
根据所述网格尺寸,将所述目标区域按所述二级矩形栅格划分;
根据每个所述二级矩形栅格对应的区域的位置信息,计算每个所述二级矩形栅格对应的二维索引号。
结合第二方面,或者第二方面第一至第二种任意一种可能的实现方式,在第三种可能的实现方式中,在根据所述二级矩形栅格与所述一级栅格之间的对应关系,确定所述用户关联数据匹配的二级矩形栅格所对应的一级栅格的栅格标识的方面,所述方法具体包括:
计算所述二级矩形栅格在所述目标区域内的每个顶点与所述一级栅格的网格的位置关系,以确定每个所述顶点所对应的一级栅格;
根据每个所述顶点与所述一级栅格的对应关系,确定在所述目标区域内或与所述目标区域相交的每个所述二级矩形栅格对应的一级栅格;
根据所述用户关联数据匹配的二级栅格的二维索引号,获得所述用户关联数据匹配的二级矩形栅格对应的一级栅格的栅格标识。
结合第二方面,或者第二方面第一至第三种任意一种可能的实现方式,在第四种可能的实现方式中,在根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据的方面,所述方法具体包括:
在所述用户行为数据携带位置信息的情况下,将所述用户行为数据作为所述对应的用户关联数据;
在所述用户行为数据不携带位置信息的情况下,根据所述用户行为数据的产生时间和用户信息,获得产生时间与所述用户行为数据的产生时间最接近的同一用户的用户位置数据,所述用户位置数据包括位置信息;
将所述用户位置数据中的位置信息关联到所述用户行为数据,以得到所述用户行为数据对应的用户关联数据;
在所述用户位置数据的产生时间与所述用户行为数据的产生时间之间的间隔大于关联时间阈值的情况下,计算所述用户关联数据的关联置信度以及根据所述关联置信度处理所述用户关联数据。
第三方面,本发明实施例提供了一种数据栅格化的方法,所述方法应用于计算节点,所述方法包括:
根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据,所述用户关联数据包括一个或多个用户的位置信息和所述一个或多个用户的行为信息;
根据所述位置信息,与所述用户关联数据对应的用户历史栅格集中的栅格的位置信息进行匹配,以得到与所述用户关联数据对应的栅格的栅格标识;
在获得所述栅格标识的情况下,根据所述用户关联数据与所述栅格标识,得到所述用户关联数据对应的栅格数据;
在未获得所述栅格标识的情况下,将所述位置信息与所述目标区域的不在所述用户历史栅格集中的栅格的位置信息进行匹配,以得到所述用户关联数据对应的栅格的栅格标识,关联所述栅格标识与所述用户关联数据以得到所述用户关联数据对应的栅格数据,以及将所述栅格标识加入所述用户关联数据对应的用户历史栅格集;
其中所述栅格数据包括所述行为信息和所述栅格标识,所述栅格数据用于分析所述目标时间段中经过所述目标区域的用户的行为规律或偏好。
在第三方面的第一种可能的实现方式中,所述方法还包括:
根据所述用户关联数据中携带的用户信息,确定所述用户关联数据对应的用户历史栅格集。
结合第三方面,或者第三方面第一种可能的实现方式,在第二种可能的实现方式中,在根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据的方面,所述方法具体包括:
在所述用户行为数据携带位置信息的情况下,将所述用户行为数据作为所述对应的用户关联数据;
在所述用户行为数据不携带位置信息的情况下,根据所述用户行为数据的产生时间和用户信息,获得产生时间与所述用户行为数据的产生时间最接近的同一用户的用户位置数据,所述用户位置数据包括位置信息;
将所述用户位置数据中的位置信息关联到所述用户行为数据,以得到所述用户行为数据对应的用户关联数据;
在所述用户位置数据的产生时间与所述用户行为数据的产生时间之间的间隔大于关联时间阈值的情况下,计算所述用户关联数据的关联置信度以及根据所述关联置信度处理所述用户关联数据。
第四方面,本发明实施例提供了一种用户行为的分析方法,所述方法应用于计算节点,所述方法包括:
根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据,所述用户关联数据包括一个或多个用户的位置信息和所述一个或多个用户的行为信息;
根据所述位置信息,与所述用户关联数据对应的用户历史栅格集中的栅格的位置信息进行匹配,以得到与所述用户关联数据对应的栅格的栅格标识;
在获得所述栅格标识的情况下,根据所述用户关联数据与所述栅格标识,得到所述用户关联数据对应的栅格数据,其中所述栅格数据包括所述行为信息和所述栅格标识;
在未获得所述栅格标识的情况下,将所述位置信息与所述目标区域的不在所述用户历史栅格集中的栅格的位置信息进行匹配,以得到所述用户关联数据对应的栅格的栅格标识,关联所述栅格标识与所述用户关联数据以得到所述用户关联数据对应的栅格的栅格数据,以及将所述栅格标识加入所述用户关联数据对应的用户历史栅格集,其中所述栅格数据包括所述行为信息和所述栅格标识;
根据至少一个所述栅格的一条或多条所述栅格数据,提取所述一级栅格在所述目标时间段中的栅格特征数据,所述栅格特征数据表示所述目标时间段中经过所述目标区域的用户的行为规律或偏好。
在第四方面的第一种可能的实现方式中,所述方法还包括:
根据所述用户关联数据中携带的用户信息,确定所述用户关联数据对应的用户历史栅格集。
结合第四方面,或者第四方面第一种可能的实现方式,在第二种可能的实现方式中,在根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据的方面,所述方法具体包括:
在所述用户行为数据携带位置信息的情况下,将所述用户行为数据作为所述对应的用户关联数据;
在所述用户行为数据不携带位置信息的情况下,根据所述用户行为数据的产生时间和用户信息,获得产生时间与所述用户行为数据的产生时间最接近的同一用户的用户位置数据,所述用户位置数据包括位置信息;
将所述用户位置数据中的位置信息关联到所述用户行为数据,以得到所述用户行为数据对应的用户关联数据;
在所述用户位置数据的产生时间与所述用户行为数据的产生时间之间的间隔大于关联时间阈值的情况下,计算所述用户关联数据的关联置信度以及根据所述关联置信度处理所述用户关联数据。
第五方面,本发明实施例提供了一种数据栅格化的装置,所述装置包括:
位置信息获取单元,用于根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据,所述用户关联数据包括一个或多个用户的位置信息和所述一个或多个用户的行为信息;
栅格化单元,用于根据所述用户关联数据中的位置信息,计算所述用户关联数据对应的二维编号;
以所述二维编号为查询条件,在二维索引号集中获得与所述二维编号匹配的二维索引号,其中所述二维编号落入所述匹配的二维索引号的取值范围,或者所述二维编号与所述匹配的二维索引号相同,其中所述匹配的二维索引号表示的二级矩形栅格为所述用户关联数据匹配的二级矩形栅格,所述二维索引号集包括多个二维索引号,每个所述二维索引号表示所述目标区域内或者与所述目标区域相交的一个二维矩形栅格;
根据所述二级矩形栅格与所述一级栅格之间的对应关系,确定所述用户关联数据匹配的二级矩形栅格所对应的一级栅格的栅格标识,所述二级矩形栅格在所述目标区域的栅格密度大于所述目标区域的一级栅格的栅格密度;
关联所述一级栅格的栅格标识与所述用户关联数据,以得到所述一级栅格的所述用户关联数据对应的栅格数据,所述栅格数据包括所述行为信息和所述栅格标识,所述栅格数据用于分析所述目标时间段中经过所述目标区域的用户的行为规律或偏好。
在第五方面的第一种可能的实现方式中,在根据所述用户关联数据中的位置信息,计算所述用户关联数据对应的二维编号的方面,所述栅格化单元具体用于根据所述用户关联数据中的位置信息,计算所述位置信息表示的位置点相对于所述目标区域的标准点的位置参数,所述标准点为所述目标区域中或与所述目标区域相交的二维矩形栅格上经纬度值已知的一个点;
将所述位置参数转化为所述用户关联数据对应的二维编号。
结合第五方面,或者第五方面第一种可能的实现方式,在第二种可能的实现方式中,所述装置还包括:
二级网格划分单元,用于设置二级矩形栅格的网格尺寸;根据所述网格尺寸,将所述目标区域按所述二级矩形栅格划分;根据每个所述二级矩形栅格对应的位置信息,计算每个所述二级矩形栅格对应的二维索引号。
结合第五方面,或者第五方面第一至第二种任意一种可能的实现方式,在第三种可能的实现方式中,在根据所述二级矩形栅格与所述一级栅格之间的对应关系,确定所述用户关联数据匹配的二级矩形栅格所对应的一级栅格的栅格标识的方面,所述栅格化单元具体用于:
计算所述二级矩形栅格在所述目标区域内的每个顶点与所述一级栅格的网格的位置关系,以确定每个所述顶点所对应的一级栅格;
根据每个所述顶点与所述一级栅格的对应关系,确定在所述目标区域内或与所述目标区域相交的所述二级矩形栅格对应的一级栅格;
根据所述用户关联数据匹配的二级栅格的二维索引号,获得所述用户关联数据匹配的二级矩形栅格对应的一级栅格的栅格标识。
结合第五方面,或者第五方面第一至第三种任意一种可能的实现方式,在第四种可能的实现方式中,在根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据的方面,所述位置信息获取单元具体用于:
在所述用户行为数据携带位置信息的情况下,将所述用户行为数据作为所述对应的用户关联数据;
在所述用户行为数据不携带位置信息的情况下,根据所述用户行为数据的产生时间和用户信息,获得产生时间与所述用户行为数据的产生时间最接近的同一用户的用户位置数据,所述用户位置数据包括位置信息;
将所述用户位置数据中的位置信息关联到所述用户行为数据,以得到所述用户行为数据对应的用户关联数据;
在所述用户位置数据的产生时间与所述用户行为数据的产生时间之间的间隔大于关联时间阈值的情况下,计算所述用户关联数据的关联置信度以及根据所述关联置信度处理所述用户关联数据。
第六方面,本发明实施例提供了一种用户行为分析的装置,所述装置应用于计算节点,所述装置包括:
位置信息获取单元,用于根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据,所述用户关联数据包括一个或多个用户的位置信息和所述一个或多个用户的行为信息;
栅格化单元,用于根据所述用户关联数据中的位置信息,计算所述用户关联数据对应的二维编号;
以所述二维编号为查询条件,在二维索引号集中获得与所述二维编号匹配的二维索引号,其中所述二维编号落入二维索引号的范围,或者所述二维编号与二维索引号相同,其中所述匹配的二维索引号表示的二级矩形栅格为所述用户关联数据匹配的二级矩形栅格,所述二维索引号集包括多个二维索引号,每个所述二维索引号表示所述目标区域内或者与所述目标区域相交的一个二维矩形栅格;
根据所述二级矩形栅格与所述一级栅格之间的对应关系,确定所述用户关联数据匹配的二级矩形栅格所对应的一级栅格的栅格标识,所述二级矩形栅格在所述目标区域的栅格密度大于所述目标区域的一级栅格的栅格密度;
关联所述一级栅格的栅格标识与所述用户关联数据,以得到所述一级栅格的所述用户关联数据对应的栅格数据,所述栅格数据包括所述行为信息和所述栅格标识;
栅格特征提取单元,用于根据至少一个所述一级栅格的一条或多条所述栅格数据,提取所述一级栅格在所述目标时间段中的栅格特征数据,所述栅格特征数据表示所述目标时间段中经过所述目标区域的用户的行为规律或偏好。
在第六方面的第一种可能的实现方式中,在根据所述用户关联数据中的位置信息,计算所述用户关联数据对应的二维编号的方面,所述栅格化单元具体用于:
根据所述用户关联数据中的位置信息,计算所述位置信息表示的位置点相对于所述目标区域的标准点的位置参数,所述标准点为所述目标区域中或与所述目标区域相交的二维矩形栅格上经纬度值已知的一个点;
将所述位置参数转化为所述用户关联数据对应的二维编号。
结合第六方面,或者第六方面第一种可能的实现方式,在第二种可能的实现方式中,所述装置还包括二级网格划分单元,所述二级网格划分单元用于设置二级矩形栅格的网格尺寸;根据所述网格尺寸,将所述目标区域按所述二级矩形栅格划分;根据每个所述二级矩形栅格对应的区域的位置信息,计算每个所述二级矩形栅格对应的二维索引号。
结合第六方面,或者第六方面第一至第二种任意一种可能的实现方式,在第三种可能的实现方式中,在根据所述二级矩形栅格与所述一级栅格之间的对应关系,确定所述用户关联数据匹配的二级矩形栅格所对应的一级栅格的栅格标识的方面,所述栅格化单元具体用于:
计算所述二级矩形栅格在所述目标区域内的每个顶点与所述一级栅格的网格的位置关系,以确定每个所述顶点所对应的一级栅格;
根据每个所述顶点与所述一级栅格的对应关系,确定在所述目标区域内或与所述目标区域相交的所述二级矩形栅格对应的一级栅格;
根据所述用户关联数据匹配的二级栅格的二维索引号,获得所述用户关联数据匹配的二级矩形栅格对应的一级栅格的栅格标识。
结合第六方面,或者第六方面第一至第三种任意一种可能的实现方式,在第四种可能的实现方式中,在根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据的方面,所述位置信息获取单元具体用于:
在所述用户行为数据携带位置信息的情况下,将所述用户行为数据作为所述对应的用户关联数据;
在所述用户行为数据不携带位置信息的情况下,根据所述用户行为数据的产生时间和用户信息,获得产生时间与所述用户行为数据的产生时间最接近的同一用户的用户位置数据,所述用户位置数据包括位置信息;
将所述用户位置数据中的位置信息关联到所述用户行为数据,以得到所述用户行为数据对应的用户关联数据;
在所述用户位置数据的产生时间与所述用户行为数据的产生时间之间的间隔大于关联时间阈值的情况下,计算所述用户关联数据的关联置信度以及根据所述关联置信度处理所述用户关联数据。
第七方面,本发明实施例提供了一种数据栅格化的装置,所述装置包括:
位置信息获取单元,用于根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据,所述用户关联数据包括一个或多个用户的位置信息和所述一个或多个用户的行为信息;
栅格化单元,用于根据所述位置信息,与所述用户关联数据对应的用户历史栅格集中的栅格的位置信息进行匹配,以得到与所述用户关联数据对应的栅格的栅格标识;
在获得所述栅格标识的情况下,根据所述用户关联数据与所述栅格标识,得到所述用户关联数据对应的栅格数据;
在未获得所述栅格标识的情况下,将所述位置信息与所述目标区域的不在所述用户历史栅格集中的栅格的位置信息进行匹配,以得到所述用户关联数据对应的栅格的栅格标识,关联所述栅格标识与所述用户关联数据以得到所述用户关联数据对应的栅格数据,以及将所述栅格标识加入所述用户关联数据对应的用户历史栅格集;
其中所述栅格数据包括所述行为信息和所述栅格标识,所述栅格数据用于分析所述目标时间段中经过所述目标区域的用户的行为规律或偏好。
在第七方面的第一种可能的实现方式中,所述栅格化单元还用于根据所述用户关联数据中携带的用户信息,确定所述用户关联数据对应的用户历史栅格集。
结合第七方面,或者第七方面第一种可能的实现方式,在第二种可能的实现方式中,在根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据的方面,所述位置信息获取单元具体用于:
在所述用户行为数据携带位置信息的情况下,将所述用户行为数据作为所述对应的用户关联数据;
在所述用户行为数据不携带位置信息的情况下,根据所述用户行为数据的产生时间和用户信息,获得产生时间与所述用户行为数据的产生时间最接近的同一用户的用户位置数据,所述用户位置数据包括位置信息;
将所述用户位置数据中的位置信息关联到所述用户行为数据,以得到所述用户行为数据对应的用户关联数据;
在所述用户位置数据的产生时间与所述用户行为数据的产生时间之间的间隔大于关联时间阈值的情况下,计算所述用户关联数据的关联置信度以及根据所述关联置信度处理所述用户关联数据。
第八方面,本发明实施例提供了一种用户行为的分析装置,所述装置应用于计算节点,所述装置包括:
位置信息获取单元,用于根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据,所述用户关联数据包括一个或多个用户的位置信息和所述一个或多个用户的行为信息;
栅格化单元,用于根据所述位置信息,与所述用户关联数据对应的用户历史栅格集中的栅格的位置信息进行匹配,以得到与所述用户关联数据对应的栅格的栅格标识;
在获得所述栅格标识的情况下,根据所述用户关联数据与所述栅格标识,得到所述用户关联数据对应的栅格数据,其中所述栅格数据包括所述行为信息和所述栅格标识;
在未获得所述栅格标识的情况下,将所述位置信息与所述目标区域的不在所述用户历史栅格集中的栅格的位置信息进行匹配,以得到所述用户关联数据对应的栅格的栅格标识,关联所述栅格标识与所述用户关联数据以得到所述用户关联数据对应的栅格的栅格数据,以及将所述栅格标识加入所述用户关联数据对应的用户历史栅格集,其中所述栅格数据包括所述行为信息和所述栅格标识;
栅格特征数据提取单元,用于根据至少一个所述栅格的一条或多条所述栅格数据,提取所述一级栅格在所述目标时间段中的栅格特征数据,所述栅格特征数据表示所述目标时间段中经过所述目标区域的用户的行为规律或偏好。
在第八方面的第一种可能的实现方式中,所述栅格化单元还用于根据所述用户关联数据中携带的用户信息,确定所述用户关联数据对应的用户历史栅格集。
结合第八方面,或者第八方面第一种可能的实现方式,在第二种可能的实现方式中在根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据的方面,所述位置信息获取单元具体用于在所述用户行为数据携带位置信息的情况下,将所述用户行为数据作为所述对应的用户关联数据;在所述用户行为数据不携带位置信息的情况下,根据所述用户行为数据的产生时间和用户信息,获得产生时间与所述用户行为数据的产生时间最接近的同一用户的用户位置数据,所述用户位置数据包括位置信息;将所述用户位置数据中的位置信息关联到所述用户行为数据,以得到所述用户行为数据对应的用户关联数据;在所述用户位置数据的产生时间与所述用户行为数据的产生时间之间的间隔大于关联时间阈值的情况下,计算所述用户关联数据的关联置信度以及根据所述关联置信度处理所述用户关联数据。
与现有的技术相比,本发明实施例具有如下有益效果:
在本发明实施例的数据栅格化的方法和装置中,根据目标区域内产生的用户行为数据获得用户关联数据,每处理一条用户关联数据,都根据这条用户关联数据对应的用户历史栅格集或者通过二级矩形栅格的辅助,将这条用户关联数据匹配到相应的栅格内以生成对应的栅格数据,这个过程提高了数据栅格化的数据处理效率,减少了对计算资源的占用,增强了栅格化方法的数据处理能力,并且简化了数据栅格化的过程,更适合基于大量多样化的实时栅格数据的用户行为规律或偏好分析,更能满足当下的实体商业机构的选址或为商业推广提供定量或定性的参考中的数据分析需求。
在本发明实施例的用户行为分析的方法和装置中,根据目标区域内产生的用户行为数据获得用户关联数据,每处理一条用户关联数据,都根据这条用户关联数据对应的用户历史栅格集或者通过二级矩形栅格的辅助,将这条用户关联数据匹配到相应的栅格内以生成对应的栅格数据,并根据栅格数据提取栅格特征数据,从而完成对用户行为的分析,这个过程提高了数据栅格化的数据处理效率,并且简化了数据栅格化的过程,从而更好的实现了基于大量多样化的实时栅格数据的用户行为规律或偏好分析,更能满足当下的实体商业机构的选址或为商业推广提供定量或定性的参考中的数据分析需求。
具体实施方式
本发明实施例提供了一种栅格特征的提取方法和装置,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的方法根据需要处理的数据的来源以及数据量的大小可应用于多种组网环境,可以在一台个人计算机上实现,也可以使用一个计算机集群进行处理。需要处理的数据可以维护在数据处理设备本地,也可以维护在网络中的其他数据存储设备,需要处理时,由数据处理设备向数据存储设备请求数据或者由数据存储设备向数据处理设备主动发送数据,本发明实施例对待处理的用户数据的来源和数据处理设备如何获得待处理的用户数据均不作限定。
图1所示的是本发明实施例在处理某一区域数据的场景下的一种系统架构图。比如,需要分析深圳会展中心地区的人流信息和人群喜好等信息,会展中心地区的网络基站或者通信基站收集到来自位于会展中心地区的终端的用户位置数据,比如张X在2014年10月23日10:00:00分,位置为经度113.5678,纬度23.111,以及用户行为数据其中包括用户的行为信息,比如一条用户行为数据:张X在2014年10月23日10:00:00分打了一次电话,时长2分钟,其中的行为信息就是打了一次电话,时长两分钟;又如一条用户行为数据“百度用户xyz在xx时间搜索了“西餐”,其中的行为信息就是搜索了“西餐”。会展中心地区的网络基站或者通信基站将这些数据提供给网络中的数据处理设备如服务器或中央计算机或计算机集群,由一台或者几台数据处理设备对数据进行处理,具体的,数据处理设备的组成和具体形式本发明实施例不做限定,比如,当需要处理的数据量不大的情况下,甚至可以使用个人计算机或者基站本身的计算机,而当需要大规模的数据栅格化时,也可以采用计算机集群(如服务器集群)联合处理。或者,基站将这些数据上报到网络中数据库所在的存储设备,数据处理设备从存储设备中获得数据并进行处理,存储设备可以是一台或多台独立的设备。
需要说明的是,本发明实施例中,用户位置数据是运营商通过给用户提供服务的基站采集到的用户在某个时刻所在的位置,包括用户信息,产生时间以及位置信息。用户行为数据则是用户在某个时间,通过某个终端产生的行为属性数据,包括用户信息,产生时间以及行为信息,其中行为信息就是对用户行为的记录,如完成一笔消费、搜索一次关键字、通过网站点评某店铺等等,本发明实施例对行为信息不做具体限定。
图2a和图2c所示的是本发明实施例提供的数据栅格化方法的流程示意图,所示方法可以应用于各种具备数据处理能力计算节点中,包括各种设备或者设备集群,比如服务器、大型计算机、计算机集群或者具备一定计算能力的终端如个人计算机等,本发明实施例不做限定。图2a和图2c通过描述处理数据库中的用户行为数据的流程来描述方法,数据库用于保存产生于所述目标区域内的多条用户行为数据和多条用户位置数据。需要理解的是,在图2a和图2c所示的数据栅格化方法应用的过程中,可以是多条甚至是千百条数据并行处理的,也可以是处理完一条后再取下一条数据如此循环处理的,并且本发明实施例并不限定用户行为数据的来源。可选的,处理的用户行为数据和用户位置数据来自数据处理设备的存储单元,如硬盘、缓存或者内存等等。
图2a所述方法用于栅格化产生于目标区域的目标时间段内的数据,目标时间段用于界定需要处理的数据的产生时间,目标区域用于界定需要处理的数据的产生区域,包括以下步骤:
S201a:根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据,所述用户关联数据包括一个或多个用户的位置信息和所述一个或多个用户的行为信息。
具体的,S201a包括:在在所述用户行为数据携带位置信息的情况下,将所述用户行为数据作为所述对应的用户关联数据;
在所述用户行为数据不携带位置信息的情况下,根据所述用户行为数据的产生时间和用户信息,获得产生时间与所述用户行为数据的产生时间最接近的同一用户的用户位置数据,所述用户位置数据包括位置信息;
将所述用户位置数据中的位置信息关联到所述用户行为数据,以得到所述用户行为数据对应的用户关联数据;
在所述用户位置数据的产生时间与所述用户行为数据的产生时间之间的间隔大于关联时间阈值的情况下,计算所述用户关联数据的关联置信度以及根据所述关联置信度处理所述用户关联数据。
其中,关联时间阈值用于表示在关联时间阈值内,同一用户的用户行为数据和用户位置数据是在同一位置产生的。
关联置信度表示用户关联数据的准确程度。
具体的,设定关联时间阈值为Δt和关联置信度confidence,其中,关联时间阈值用于表示在关联时间阈值内,同一用户的用户行为数据和用户位置数据是在同一位置产生的。关联置信度表示用户关联数据的准确程度。
对于一条具体的用户行为数据,执行如下方法:
判断这条用户行为数据是否携带位置信息,如果携带,则将这条用户行为数据作为这条用户行为数据对应的用户关联数据;
如果不携带,根据所述用户行为数据的产生时间t1和用户信息,从所述数据库中获得产生时间t2与所述行为数据时间最接近的同一用户的用户位置数据,如果|t2-t1|<Δt,则将这条用户位置数据的位置信息赋值给这条用户行为数据,从而生成这条用户行为数据对应的用户关联数据;如果|t2-t1|≥Δt,计算所述用户关联数据的关联置信度,confidence=Δt/|t2-t1|,在这条用户关联数据的行为信息是数值属性信息的情况下,将数值乘以置信度,在这条用户关联数据的行为信息是文本属性信息的情况下,设定置信度阈值th,在confidence大于等于th的情况下,保留此条数据,否则过滤此条数据。
S202a:根据所述位置信息,与所述用户关联数据对应的用户历史栅格集中的栅格的位置信息进行匹配,以得到与所述用户关联数据对应的栅格的栅格标识。
具体的,S202a之前,还包括:
根据所述用户关联数据中携带的用户信息,确定所述用户关联数据对应的用户历史栅格集。
具体的,用户历史栅格集中对应的每个栅格对应有已生成的其他一条或多条栅格数据,每个用户历史栅格集对应一个唯一的用户。可选的,所述其他一条或多条栅格数据对应的用户行为数据产生于所述目标时间段内。用户历史栅格集数据栅格化之前为空。
可选的,采用用户信息,如用户ID标识各不同的用户历史栅格集。本发明实施例不限制用户信息的具体形式。
S203a:在获得所述栅格标识的情况下,根据所述用户关联数据与所述栅格标识,得到所述用户关联数据对应的栅格数据;
在未获得所述栅格标识的情况下,将所述位置信息与所述目标区域的不在所述用户历史栅格集中的栅格的位置信息进行匹配,以得到所述用户关联数据对应的栅格的栅格标识,关联所述栅格标识与所述用户关联数据以得到所述用户关联数据对应的栅格数据,以及将所述栅格标识加入所述用户关联数据对应的用户历史栅格集;
其中所述栅格数据包括所述行为信息和所述栅格标识,所述栅格数据用于分析所述目标时间段中经过所述目标区域的用户的行为规律或偏好。
具体的,所述栅格数据携带所述匹配的栅格所对应的栅格标识。栅格标识可以是栅格编号。栅格ID等,本发明实施例不限定栅格标识的形式。
图2a所示的方法,根据目标区域内产生的用户行为数据获得用户关联数据,每处理一条用户关联数据,都根据用户关联数据对应的用户历史栅格集,将这条用户关联数据匹配到相应的栅格内,将这条用户关联数据匹配到相应的栅格内以生成对应的栅格数据,增强了栅格化方法的数据处理能力,并且简化了数据栅格化的过程,提高了数据栅格化的数据处理效率,减少了对计算资源的占用,更适合基于大量多样化的实时栅格数据的用户行为规律或偏好分析,更能满足当下的实体商业机构的选址或为商业推广提供定量或定性的参考中的数据分析需求。
基于与图2a对应的数据栅格化方法,可以得到如图2c所示的用户行为分析方法,图2c所示的用户行为分析方法中,包括以下步骤:
其中,S201c:根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据,所述用户关联数据包括一个或多个用户的位置信息和所述一个或多个用户的行为信息。
具体的,S201c包括S201a中的全部内容,请参阅相关段落,此处不再赘述。
S202c:根据所述位置信息,与所述用户关联数据对应的用户历史栅格集中的栅格的位置信息进行匹配,以得到与所述用户关联数据对应的栅格的栅格标识.
具体的,S202c包括S202a的相关的全部叙述内容,请参阅相关段落,此处不再赘述。
S203c:在获得所述栅格标识的情况下,根据所述用户关联数据与所述栅格标识,得到所述用户关联数据对应的栅格数据,其中所述栅格数据包括所述行为信息和所述栅格标识;
在未获得所述栅格标识的情况下,将所述位置信息与所述目标区域的不在所述用户历史栅格集中的栅格的位置信息进行匹配,以得到所述用户关联数据对应的栅格的栅格标识,关联所述栅格标识与所述用户关联数据以得到所述用户关联数据对应的栅格的栅格数据,以及将所述栅格标识加入所述用户关联数据对应的用户历史栅格集,其中所述栅格数据包括所述行为信息和所述栅格标识。
具体的,S203c包括S203a的相关的全部叙述内容,请参阅相关段落,此处不再赘述。
S204c:根据至少一个所述栅格的一条或多条所述栅格数据,提取所述一级栅格在所述目标时间段中的栅格特征数据,所述栅格特征数据表示所述目标时间段中经过所述目标区域的用户的行为规律或偏好。
其中,提取可以理解为生成或者计算,在生成所述用户关联数据对应的一条栅格数据后,可以将这条栅格数据维护起来,在需要以栅格为单位进行分析的情况下,可以与这条栅格数据对应的栅格的其他栅格数据一起处理或者单独处理,从而获得栅格特征数据。
具体的,处理方法为分别处理所述栅格数据中的数值数据和文本数据,以便获得所述栅格数据对应的栅格的栅格特征数据。
需要说明的是,栅格特征数据是根据栅格内的栅格数据计算或生成的统计数据。通常,栅格特征数据是按照栅格来计算或生成的,即通过对同一栅格内的一条或多条栅格数据进行计算获得此栅格的栅格特征数据,再通过比较和计算,获得目标区域以栅格为单位表示的栅格特征数据所表示出的数据的规律,进而通过栅格特征数据反映所述目标时间段中经过所述目标区域的用户的行为规律或偏好。栅格数据可以体现栅格内多条栅格数据的特点,也可以用于比较不同栅格的栅格数据,栅格特征数据多根据数据处理的要求来设定,可以分为数值型特征比如求平均人流量等,或者文本型特征比如词语搜索频率分析等。
具体的,对于数值型特征,可根据求平均,求和,求方差等数学处理方式等对同一栅格在目标时间段内的栅格数据进行聚合,从而提取出相应的栅格特征数据。又比如某些特征需要按照时间段计算特征趋势。例如特征attr在第一个时间段到第N个时间段的值分别为a1,…an,从第2个时间段开始,属性趋势值计算为a2/a1,a3/a2,…an/an-1。
对于文本类栅格特征,可以将同一栅格在目标时间段内所有与待分析的特征有关的词语(例如通过搜索关键词的方法)组成一个词语矩阵,即文本,利用文本聚类方法,比如文档主题生成模型(LDA,Latent Dirichlet Allocation)、概率潜语义分析(PLSA,Probability Latent Semantic Analysis)等方法聚类出多个主题特征。
图2c所示的方法,根据目标区域内产生的用户行为数据获得用户关联数据,每处理一条用户关联数据,都根据用户关联数据对应的用户历史栅格集,将这条用户关联数据匹配到相应的栅格内以生成对应的栅格数据,并根据栅格数据提取栅格的栅格特征数据,从而完成对用户行为的分析,这个过程提高了数据栅格化的数据处理效率,并且简化了数据栅格化的过程,从而更好的实现了基于大量多样化的实时栅格数据的用户行为规律或偏好分析,更能满足当下的实体商业机构的选址或为商业推广提供定量或定性的参考中的数据分析需求。
由于用户关联数据所要匹配的原始栅格是已定的,但是这些原始栅格的参数往往在栅格匹配过程中抽象成栅格的编号,并且原始栅格的划分多种多样,划分原则往往是按照基站的分布或者按照社区、街道划分,因此原始栅格的形状和大小往往不等,栅格需要较多的位置参数来描述,这些参数也缺乏规律性,增加了数据栅格化的计算量。图2b所述方法用于栅格化产生于目标区域的目标时间段内的数据,目标时间段用于界定需要处理的数据的产生时间,目标区域用于界定需要处理的数据的产生区域,包括以下步骤:
S201b:根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据,所述用户关联数据包括一个或多个用户的位置信息和所述一个或多个用户的行为信息。
具体的,S201b包括:在所述用户行为数据携带位置信息的情况下,将所述用户行为数据作为所述对应的用户关联数据;
在所述用户行为数据不携带位置信息的情况下,根据所述用户行为数据的产生时间和用户信息,获得产生时间与所述用户行为数据的产生时间最接近的同一用户的用户位置数据,所述用户位置数据包括位置信息;
将所述用户位置数据中的位置信息关联到所述用户行为数据,以得到所述用户行为数据对应的用户关联数据;
在所述用户位置数据的产生时间与所述用户行为数据的产生时间之间的间隔大于关联时间阈值的情况下,计算所述用户关联数据的关联置信度以及根据所述关联置信度处理所述用户关联数据。
其中,关联时间阈值用于表示在关联时间阈值内,同一用户的用户行为数据和用户位置数据是在同一位置产生的。
关联置信度表示用户关联数据的准确程度。
更进一步的说明请参看S201a的内容,此处不再赘述。
S202b:根据所述用户关联数据中的位置信息,计算所述用户关联数据对应的二维编号。
具体的,根据所述用户关联数据中的位置信息,计算所述位置信息表示的位置点相对于所述目标区域的标准点的位置参数,所述标准点为所述目标区域中或与所述目标区域相交的二维矩形栅格上经纬度的值已知的一个点;
将所述位置参数转化为所述用户关联数据对应的二维编号。
可选的,标准点可以是所述目标区域中或与所述目标区域相交的二维矩形栅格上经度和纬度的值最小的一个点,或者是所述目标区域中或与所述目标区域相交的二维矩形栅格上经度和纬度的值最大的一个点。标准点的选择可以以方便计算为标准,也可以任选所述目标区域中或与所述目标区域相交的二维矩形栅格上经纬度的值已知的一个点,本发明实施例不做限定。
S203b:以所述二维编号为查询条件,在二维索引号集中获得与所述二维编号匹配的二维索引号,其中所述二维编号落入所述匹配的二维索引号的取值范围,或者所述二维编号与所述匹配的二维索引号相同,其中所述匹配的二维索引号表示的二级矩形栅格为所述用户关联数据匹配的二级矩形栅格,所述二维索引号集包括多个二维索引号,每个所述二维索引号表示所述目标区域内或者与所述目标区域相交的一个二维矩形栅格。
需要说明的是,二级矩形栅格是数据栅格化之前或者数据栅格化过程中,重新划定的辅助栅格,通过重新划定辅助网格,提高数据栅格化的效率,节约计算资源。
可选的,在S203b前,还包括:设置二级矩形栅格的网格尺寸;根据所述网格尺寸,将所述目标区域按所述二级矩形栅格划分;根据每个所述二级矩形栅格对应的位置信息,计算每个所述二级矩形栅格对应的二维索引号。
可选的,二级矩形栅格的网格设置为正方形。
可选的,每个二级矩形栅格的大小相等。
S204b:根据所述二级矩形栅格与所述一级栅格之间的对应关系,确定所述用户关联数据匹配的二级矩形栅格所对应的一级栅格的栅格标识,所述二级矩形栅格在所述目标区域的栅格密度大于所述目标区域的一级栅格的栅格密度;
具体的,S204b包括:确定所述区域内的每个二级矩形栅格顶点所在的一级栅格;
计算所述二级矩形栅格在所述目标区域内的每个顶点与所述一级栅格的网格的位置关系,以确定每个所述顶点所对应的一级栅格;
根据每个所述顶点与所述一级栅格的对应关系,确定在所述目标区域内或与所述目标区域相交的所述二级矩形栅格对应的一级栅格;
根据所述用户关联数据匹配的二级栅格的二维索引号,获得所述用户关联数据匹配的二级具体的,二级矩形栅格可以在目标区域有多种栅格密度,也可以在目标区域和非目标区域设定不同的栅格密度。
需要说明的是,栅格密度是单位面积中的网格数,是一个平均值。
矩形栅格对应的一级栅格的栅格标识。
具体的,可以根据二级矩形栅格顶点所在的二级矩形栅格与所述一级栅格之间的对应关系可以是映射表、函数关系等形式,本发明实施例不做限定。
S205b:关联所述一级栅格的栅格标识与所述用户关联数据,以得到所述一级栅格的所述用户关联数据对应的栅格数据,所述栅格数据包括所述行为信息和所述栅格标识,所述栅格数据用于分析所述目标时间段中经过所述目标区域的用户的行为规律或偏好。
图2b所示的方法,根据目标区域内产生的用户行为数据获得用户关联数据,每处理一条用户关联数据,都计算这条用户关联数据的在二级矩形栅格下的二维编号,根据一级栅格与二级矩形栅格的对应关系,从而将这条用户关联数据匹配到相应的一级栅格内以生成对应的栅格数据,增强了栅格化方法的数据处理能力,并且简化了数据栅格化的过程,提高了数据栅格化的数据处理效率,减少了对计算资源的占用,更适合基于大量多样化的实时栅格数据的用户行为规律或偏好分析,更能满足当下的实体商业机构的选址或为商业推广提供定量或定性的参考中的数据分析需求。
基于与图2b对应的数据栅格化方法,可以得到如图2d所示的用户行为分析方法,图2d所示的用户行为分析方法中,包括以下步骤:
其中,S201d:根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据,所述用户关联数据包括一个或多个用户的位置信息和所述一个或多个用户的行为信息。
具体的,S201d包括S201b中的全部内容,请参阅相关段落,此处不再赘述。
S202d:根据所述用户关联数据中的位置信息,计算所述用户关联数据对应的二维编号。
具体的,S202d包括S202b中的全部内容,请参阅相关段落,此处不再赘述。
S203d:以所述二维编号为查询条件,在二维索引号集中获得与所述二维编号匹配的二维索引号,其中所述二维编号落入所述匹配的二维索引号的取值范围,或者所述二维编号与所述匹配的二维索引号相同,其中所述匹配的二维索引号表示的二级矩形栅格为所述用户关联数据匹配的二级矩形栅格,所述二维索引号集包括多个二维索引号,每个所述二维索引号表示所述目标区域内或者与所述目标区域相交的一个二维矩形栅格。
具体的,S203d包括S203b中的全部内容,请参阅相关段落,此处不再赘述。
S204d:根据所述二级矩形栅格与所述一级栅格之间的对应关系,确定所述用户关联数据匹配的二级矩形栅格所对应的一级栅格的栅格标识,所述二级矩形栅格在所述目标区域的栅格密度大于所述目标区域的一级栅格的栅格密度。
具体的,S204d包括S204b中的全部内容,请参阅相关段落,此处不再赘述。
S205d:关联所述一级栅格的栅格标识与所述用户关联数据,以得到所述一级栅格的所述用户关联数据对应的栅格数据,所述栅格数据包括所述行为信息和所述栅格标识。
具体的,S205d包括S205b中的全部内容,请参阅相关段落,此处不再赘述。
S206d:关联所述一级栅格的栅格标识与所述用户关联数据,以得到所述一级栅格的所述用户关联数据对应的栅格数据,所述栅格数据包括所述行为信息和所述栅格标识,所述栅格数据用于分析所述目标时间段中经过所述目标区域的用户的行为规律或偏好。
其中,提取可以理解为生成或者计算,在生成所述用户关联数据对应的一条栅格数据后,可以将这条栅格数据维护起来(如储存起来),在需要以栅格为单位进行分析的情况下,可以与这条栅格数据对应的栅格的其他栅格数据一起处理或者单独处理,从而获得栅格特征数据。具体的,处理方法为分别处理所述栅格数据中的数值数据和文本数据,以便获得所述栅格数据对应的栅格的栅格特征数据。
需要说明的是,栅格特征数据是根据栅格内的栅格数据计算或生成的统计数据。通常,栅格特征数据是按照栅格来计算或生成的,即通过对同一栅格内的一条或多条栅格数据进行计算获得此栅格的栅格特征数据,再通过比较和计算,获得目标区域以栅格为单位表示的栅格特征数据所表示出的数据的规律,进而通过栅格特征数据反映所述目标时间段中经过所述目标区域的用户的行为规律或偏好。栅格数据可以体现栅格内多条栅格数据的特点,也可以用于比较不同栅格的栅格数据,栅格特征数据多根据数据处理的要求来设定,可以分为数值型特征比如求平均人流量等,或者文本型特征比如词语搜索频率分析等。
栅格特征数据是根据一个栅格内的栅格数据计算或生成的统计数据,可以体现栅格内多条栅格数据的特点,栅格特征数据多根据数据处理的要求来设定,可以分为数值型特征比如求平均人流量等,或者文本型特征比如词语搜索频率分析等。
具体的,对于数值型特征,可根据求平均,求和,求方差等处理方式等对同一栅格在目标时间段内的栅格数据进行聚合,从而提取出相应的栅格特征;又比如某些特征需要按照时间段计算特征趋势,例如特征attr在第一个时间段到第N个时间段的值分别为a1,…an,从第2个时间段开始,属性趋势值计算为a2/a1,a3/a2,…an/an-1。
对于文本类栅格特征,可以将同一栅格在目标时间段内所有与待分析的特征有关的词语(例如通过搜索关键词的方法)组成一个词语矩阵,即文本,利用文本聚类方法,比如文档主题生成模型(LDA,Latent Dirichlet Allocation)、概率潜语义分析(PLSA,Probability Latent Semantic Analysis)等方法聚类出多个主题特征。
图2d所示的方法,根据目标区域内产生的用户行为数据获得用户关联数据,每处理一条用户关联数据,都计算这条用户关联数据的在二级矩形栅格下的二维编号,根据一级栅格与二级矩形栅格的对应关系,将这条用户关联数据匹配到相应的栅格内以生成对应的栅格数据,并根据栅格数据提取栅格特征数据,从而完成对用户行为的分析,这个过程提高了数据栅格化的数据处理效率,并且简化了数据栅格化的过程,从而更好的实现了基于大量多样化的实时栅格数据的用户行为规律或偏好分析,更能满足当下的实体商业机构的选址或为商业推广提供定量或定性的参考中的数据分析需求。
图3所示的是图2a或者图2b所示的数据栅格化方法具体应用于根据目标区域在目标时间段内产生的用户行为数据和用户位置数据,提取目标区域在目标时间段内的栅格特征,从而完成图2c或者图2d所示的用户行为分析方法的实施例。这一过程在计算节点上实现,计算节点可以是一台计算机中或者一组计算机集群,所述计算机可以是运营商的核心网中的一台服务器或者具备数据计算能力的其他设备,图3所示的实施例不做限定。为了方便理解,叙述过程中,结合分析2014年10月到11月,深圳市岗厦村的区域内的人群的饮食偏好和晚饭时间(下午5点到9点)的人流密度的场景进行举例说明,应当明白这个场景的举例仅用于加强理解,图3所示的实施例不仅仅局限于这一个场景。需要说明的是,每条用户行为数据和每条用户位置数据都包括数据产生的时间、产生数据的用户的标识,每条用户位置数据都包括数据产生的位置信息。并且,需要理解的是,数据栅格化前,目标区域对应的用于数据分析的栅格已划分好。
需要说明的是,已经获得2014年10月到11月,深圳市岗厦村的区域内产生的用户行为信息和用户位置信息,本发明实施例对用户行为信息和用户位置信息的采集方法和筛选方法不做限定。比如,可以通过岗厦村区域的基站获得在此区域内采用无线蜂窝网络浏览大众点评用户搜索有关美食的信息或者打向岗厦村区域的饭店、酒店的订餐电话的记录获得用户行为信息,可以通过人流量监测点或者基站采集用户携带的终端的位置信息从而获得用户位置信息,可以通过用户终端上报网络的支付信息或者餐馆的收银台的POS机收集用户的有关饮食的支付信息等等。
还需要说明是,图3所示实施例中,不限定收集到的用户行为数据和用户位置数据的维护方式和传输方式。也就是说,一方面,收集到的用户行为信息和用户位置信息可以存储在执行这一过程的一台计算机中或者一组计算机集群中,也可以存储在其他存储设备如另一台计算机中;另一方面,收集到的数据如何传输到将这些数据栅格化的计算设备中,不在本申请文件的叙述范围。
图3所示的实施例包括以下步骤:
S301:根据收集到的用户行为数据,获得用户行为数据对应的用户关联数据,每条用户关联数据都携带位置信息。
具体的,设定关联时间阈值为Δt和关联置信度confidence,其中,关联时间阈值用于表示在关联时间阈值内,同一用户的用户行为数据和用户位置数据是在同一位置产生的。关联置信度表示用户关联数据的准确程度。
对于一条具体的用户行为数据,执行如下方法:
判断这条用户行为数据是否携带位置信息,如果携带,则将这条用户行为数据作为这条用户行为数据对应的用户关联数据;
如果不携带,根据所述用户行为数据的产生时间t1和用户信息,从所述数据库中获得产生时间t2与所述行为数据时间最接近的同一用户的用户位置数据,如果|t2-t1|<Δt,则将这条用户位置数据的位置信息赋值给这条用户行为数据,从而生成这条用户行为数据对应的用户关联数据;如果|t2-t1|≥Δt,计算所述用户关联数据的关联置信度,confidence=Δt/|t2-t1|,在这条用户关联数据的行为信息是数值属性信息的情况下,将数值乘以置信度,在这条用户关联数据的行为信息是文本属性信息的情况下,设定置信度阈值th,在confidence大于等于th的情况下,保留此条数据,否则过滤此条数据。
需要说明的是,图2a和图2b所示的实施例同样可采用以上步骤获得用户关联数据。
S302:将生成的用户关联数据进行栅格化,生成用户关联数据对应的栅格数据,栅格数据中包括用户关联数据中的行为信息和用户关联数据对应的栅格标识。
可选的,栅格数据中还包括用户关联数据中的用户信息。
需要说明的是,栅格化的目的是将用户关联数据映射到栅格中,生成栅格数据,即判断用户关联数据中携带的位置信息(比如经纬度)在哪个栅格中,属于哪个栅格,输出一条包含该栅格的栅格标识(比如栅格的ID)以及用户的行为信息的栅格数据。
由于每个用户的行为具有一定的规律性,活动的区域一般较固定,所经过的栅格个数有限,在一种实施方式中,本步骤可以采用图2a所示的方法逐条处理生成的用户关联数据,实现方式的描述请结合前文图2a的S202a和S203a的叙述内容,描述的图2a的S202a和S203a的内容适用于此处,不再赘述,为方便理解,在图2a的叙述内容的基础上参阅以下内容及图4的流程图:
具体的,可以利用分布式平台(如spark),根据数据中携带的用户信息,给每个用户建立一个历史栅格集,每个用户历史栅格集具有唯一的标识,可以是数据中携带的用户信息比如用户ID,每个用户栅格集在进行数据栅格化前为空,每栅格化一条用户关联数据,优先从该用户的用户历史栅格集中的栅格进行匹配,若成功,输出栅格数据;若失败,再匹配目标区域中除用户历史栅格集中的栅格的其他栅格,输出栅格数据,并将这条栅格数据对应的栅格标识(比如栅格ID值),加入这条用户关联数据的用户栅格集中。
需要说明的是,以上借助用户历史栅格集进行栅格化的过程同样适用于图2a的S202a和S203a的实施例。
由于用户关联数据所要匹配的原始栅格是已定的,但是这些原始栅格的参数往往在栅格匹配过程中抽象成栅格的标号,并且原始栅格的划分多种多样,划分原则往往是按照基站的分布或者按照社区、街道划分,因此原始栅格的形状和大小往往不等,栅格需要较多的位置参数来描述,这些参数也缺乏规律性,增加了数据栅格化的计算量。
在另一种实施方式中,本步骤可以采用图2b所示的方法生成的用户关联数据,实现方式的描述请结合前文图2b的S202b到S205b的叙述内容,其中,提到的一级栅格就是原始栅格,用户关联信息中的位置信息就是经纬度信息,即描述图2b的S202b到S205b的叙述内容适用于此处,不再赘述,为方便理解,在图2a的叙述内容的基础上参阅以下内容:
将目标区域如岗厦村的行政区域划分成具有相同大小的规则的多边形网格,如矩形,这些网格覆盖整个岗厦村的行政区域,边缘的网格可以有部分在行政区域外,这些网格就是为了便于将用户关联数据栅格化而划分的二级矩形栅格。为方便说明,此处设定二级矩形栅格的每个网格都是边长为25米的正方形,由于此区域中的一级栅格按照区域内街道划分,二级矩形栅格小于一级栅格,需要说明的是,本发明实施例对于二级矩形栅格的具体尺寸和形状均不作限定。则经线方向,25米对应的经度差值为△Lng,纬线方向,25米对应的纬度差值为△Lat。假设,岗厦村的行政区域中,经度和纬度最大点的经纬度坐标为(Lat_Max,Lng_Max),经度和纬度最小点的经纬度坐标为(Lat_min,Lng_Min)。为了便于计算,一种实施方式下,将经度和纬度最小点作为标准点进行计算。需要说明的是,本发明实施例并不限定标准点的取法,只要是唯一的确定经纬度信息的点即可,例如也可以是经度和纬度最大点等等。为了便于理解,可以参看图5的示意图,图中黑色的小方格示意二级矩形栅格,其覆盖区域是目标区域,例如在这里可看作是岗厦村的行政区域,需要注意的是,图5只是抽象示意图,黑色小方格的覆盖区域和地图岗厦村的行政区域的形状可能不符,本领域技术人员应理解。
计算所有岗厦村行政区域内以及与岗厦村行政区域相交的二级矩形栅格的二维编号。
若对于某个二级正方形栅格,其最小经纬度为(Lat0,Lng0),其最大经纬对为(Latm,Lngm)则本实施例的一种情况下,采用如下计算方法计算这个二维正方形栅格的二维索引号,:
[a,b]=[floor((Lat0-Lat_min)/△Lat),floor((Lng0-Lng_min)/△Lng)]
其中,floor函数表示向下取整。
对于任意一条用户关联数据,若位置经纬度为(latx,lngx),则根据以下计算方法直接算出其属于哪个二维正方形栅格,[x,y]是这条用户关联数据的二维编号。采用以下公式计算的情况下,等于那个二维正方形栅格的二维索引号。
或者,在本实施例的另一种情况下,采用如下计算方法计算这个二维正方形栅格的二维索引号的范围:
二维索引号的范围可以表示为[a,b],其中a和b的取值范围如下表示:
floor((Lat0-Lat_min)/△Lat)≤a≤floor((Lat m-Lat_min)/△Lat)
floor((Lng0-Lng_min)/△Lng)≤b≤floor((Lng m-Lng_min)/△Lng)
其中,floor函数表示向下取整。
对于任意一条用户关联数据,若位置经纬度为(latx,lngx),则根据以下计算方法直接算出其属于哪个二维正方形栅格,[x,y]是这条用户关联数据的二维编号。采用以下公式计算的情况下,[x,y]中,x的取值以及y的取值在这条用户关联数据对应的二维正方形栅格的二维索引号取值范围内:
本领域技术人员可知,对于二级矩形栅格的形状是矩形的情况下,可以按照类似方法计算。在本发明实施例中,不限定二级矩形栅格和二维编号的具体的计算方法。
假设岗厦村行政区域内以及与岗厦村行政区域相交的二级矩形栅格共有w个,依次判断w个二维正方形栅格的4个顶点属于哪个一级栅格内,根据顶点与一级栅格的对应关系,建立二级矩形栅格的二维编号与一级栅格的栅格编号之间的映射关系,其中还包括相交重合度,形式可以是([x,y],g,r),其中[x,y]为二级矩形栅格的二维编号,g为一级栅格的栅格编号,r为相交重合度。r定义如下:若4个顶点处于同一个一级栅格内,那么r=1,若一个二级矩形栅格处于2个或多个一级栅格内,那么其中m个顶点处于一级栅格g内,那么栅格g的相交重合度简单定义为:r=m/4。
可选的,可以只维护r不为0的映射关系。
根据待栅格化的用户关联数据对应的二维编号,获得所述用户关联数据对应的一级栅格,从而生成所述用户关联数据对应的栅格数据。具体的,栅格数据包括一级栅格的ID和用户的行为信息。优选的,还包括用户的行为信息的产生时间和/或用户的ID。
具体的,根据待栅格化的用户关联数据对应的二维编号,获得二维编号与一级栅格的栅格编号之间的映射关系,可以直接将相交重合度最大的一级栅格作为所述用户关联数据对应的一级栅格。在这种情况下,不论生成多少条栅格数据,都只需要采用射线法判断4w次,大大减少了计算量,提高了效率和数据数据处理能力。或者,为了进行更准确的数据栅格化,可选的,可以根据二维编号与一级栅格的栅格编号之间的映射关系确定用户关联数据可能对应的一级栅格的集合,再将用户关联数据的位置信息与集合中的一级栅格匹配,从而生成所述用户关联数据对应的栅格数据。这种情况同样大大减少了计算量,提高了效率和数据数据处理能力。
并且如果考察的目标区域确定,仅仅是目标时间段不同,可以不再重复划定二级矩形栅格,直接调用已获得的二级矩形栅格和一级栅格的对应关系,对计算量的减少和计算效率的提高更加明显。
需要说明的是,本发明实施例不限定具体的二维索引号、二维编号以及相交重合度的计算方法。
需要说明的是,以上借助二维矩形栅格进行栅格化的过程同样适用于图2b的S202b和S203b的实施例。
以上,为采用图2a或者图2b所示的方法完成数据栅格化的过程,在这个过程中,根据目标区域内产生的用户行为数据获得用户关联数据,每处理一条用户关联数据,都根据这条用户关联数据对应的用户历史栅格集或者通过二级矩形栅格的辅助,将这条用户关联数据匹配到相应的栅格内以生成对应的栅格数据,这个过程提高了数据栅格化的数据处理效率,减少了对计算资源的占用,增强了栅格化方法的数据处理能力,并且简化了数据栅格化的过程,更适合基于大量多样化的实时栅格数据的用户行为规律或偏好分析,更能满足当下的实体商业机构的选址或为商业推广提供定量或定性的参考中的数据分析需求。
S303:将生成的栅格数据按照一级栅格进行聚合分析,获得所需的栅格特征数据。
具体的,栅格特征数据是与深圳市岗厦村的区域相交以及深圳市岗厦村的区域内的每个栅格中,在2014年10月到11月,人群饮食偏好和晚饭时间(下午5点到9点)的人流密度。
其中,人群饮食偏好属于文本类栅格特征。对于文本类栅格特征,可以将同一栅格在此时间段内所有与饮食有关的词语(例如通过搜索关键词的方法)组成一个词语矩阵,即文本,利用文本聚类方法,比如文档主题生成模型(LDA,Latent Dirichlet Allocation)、概率潜语义分析(PLSA,Probability Latent SemanticAnalysis)等方法聚类出多个主题特征,比如川菜,湘菜,粤菜等,此主题特征即为栅格的偏好特征,这里具体为人群饮食偏好。
晚饭时间的人流密度属于数值类栅格特征,采用求和、求平均等计算方法聚合即可得到所需结果。
综上,图3所示的实施例详细地描述了数据栅格化方法应用于栅格特征提取从而完成用户行为分析的过程,根据目标区域内产生的用户行为数据获得用户关联数据,每处理一条用户关联数据,都根据这条用户关联数据对应的用户历史栅格集或者通过二级矩形栅格的辅助,将这条用户关联数据匹配到相应的栅格内以生成对应的栅格数据,并根据栅格数据提取栅格特征数据,从而完成对用户行为的分析,这个过程提高了数据栅格化的数据处理效率,并且简化了数据栅格化的过程,从而更好的实现了基于大量多样化的实时栅格数据的用户行为规律或偏好分析,更能满足当下的实体商业机构的选址或为商业推广提供定量或定性的参考中的数据分析需求。
图6所示的是一种用户行为分析装置600的示意图,其中用户行为分析装置600中包括与之对应的一种数据栅格化装置。用户行为分析装置600和数据栅格化装置均可以位于个人计算机等终端、服务器等大型计算机或者计算机集群中,在一种实施方式中,这种用户行为分析装置600包括:
位置信息获取单元601,用于根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据,所述用户关联数据包括一个或多个用户的位置信息和所述一个或多个用户的行为信息。
栅格化单元602,用于根据所述用户关联数据中的位置信息,计算所述用户关联数据对应的二维编号;
以所述二维编号为查询条件,在二维索引号集中获得与所述二维编号匹配的二维索引号,其中所述二维编号落入所述匹配的二维索引号的取值范围,或者所述二维编号与所述匹配的二维索引号相同,其中所述匹配的二维索引号表示的二级矩形栅格为所述用户关联数据匹配的二级矩形栅格,所述二维索引号集包括多个二维索引号,每个所述二维索引号表示所述目标区域内或者与所述目标区域相交的一个二维矩形栅格;根据所述二级矩形栅格与所述一级栅格之间的对应关系,确定所述用户关联数据匹配的二级矩形栅格所对应的一级栅格的栅格标识,所述二级矩形栅格在所述目标区域的栅格密度大于所述目标区域的一级栅格的栅格密度。
栅格特征数据提取单元604,用于根据至少一个所述一级栅格的一条或多条所述栅格数据,提取所述一级栅格在所述目标时间段中的栅格特征数据,所述栅格特征数据表示所述目标时间段中经过所述目标区域的用户的行为规律或偏好。
具体的,还包括二级网格划分单元603,用于设置二级矩形栅格的网格尺寸;根据所述网格尺寸,将所述目标区域按所述二级矩形栅格划分;根据每个所述二级矩形栅格对应的位置信息,计算每个所述二级矩形栅格对应的二维索引号。
进一步的,所述栅格化单元602具体用于根据所述用户关联数据中的位置信息,计算所述位置信息表示的位置点相对于所述目标区域的标准点的位置参数,所述标准点为所述目标区域中或与所述目标区域相交的二维矩形栅格上经纬度值已知的一个点;将所述位置参数转化为所述用户关联数据对应的二维编号。
进一步的,所述栅格化单元602具体用于计算所述二级矩形栅格在所述目标区域内的每个顶点与所述一级栅格的网格的位置关系,以确定每个所述顶点所对应的一级栅格;
根据每个所述顶点与所述一级栅格的对应关系,确定在所述目标区域内或与所述目标区域相交的所述二级矩形栅格对应的一级栅格;
根据所述用户关联数据匹配的二级栅格的二维索引号,获得所述用户关联数据匹配的二级矩形栅格对应的一级栅格的栅格标识。
进一步的,位置信息获取单元601具体用于在所述用户行为数据携带位置信息的情况下,将所述用户行为数据作为所述对应的用户关联数据;
在所述用户行为数据不携带位置信息的情况下,根据所述用户行为数据的产生时间和用户信息,获得产生时间与所述用户行为数据的产生时间最接近的同一用户的用户位置数据,所述用户位置数据包括位置信息;
将所述用户位置数据中的位置信息关联到所述用户行为数据,以得到所述用户行为数据对应的用户关联数据;
在所述用户位置数据的产生时间与所述用户行为数据的产生时间之间的间隔大于关联时间阈值的情况下,计算所述用户关联数据的关联置信度以及根据所述关联置信度处理所述用户关联数据。
在这种情况下,图6所示的用户行为分析装置根据目标区域内产生的用户行为数据获得用户关联数据,每处理一条用户关联数据,都计算这条用户关联数据的在二级矩形栅格下的二维编号,根据一级栅格与二级矩形栅格的对应关系,将这条用户关联数据匹配到相应的栅格内以生成对应的栅格数据,并根据栅格数据提取栅格特征数据,从而完成对用户行为的分析,这个过程提高了数据栅格化的数据处理效率,并且简化了数据栅格化的过程,从而更好的实现了基于大量多样化的实时栅格数据的用户行为规律或偏好分析,更能满足当下的实体商业机构的选址或为商业推广提供定量或定性的参考中的数据分析需求。
需要说明的是,图6所示的用户行为分析装置600中包括的与之对应的一种数据栅格化装置,这种数据栅格化装置包括栅格化单元602和位置信息获取单元601,更进一步的包括二级网格划分单元603,请参阅上文叙述用户行为分析装置600中相应单元的内容,此处不再赘述,连接关系请参阅图6,也不再另附图说明。并且,本领域技术人员应当明白,在这种情况下,数据栅格化装置不一定是用户行为分析装置600的一部分,可以独立。
在图6这种情况下对应的实施例所包括的数据栅格化装置中,根据目标区域内产生的用户行为数据获得用户关联数据,每处理一条用户关联数据,都根据这条用户关联数据对应的用户历史栅格集或者通过二级矩形栅格的辅助,将这条用户关联数据匹配到相应的栅格内以生成对应的栅格数据,这个过程提高了数据栅格化的数据处理效率,减少了对计算资源的占用,增强了栅格化方法的数据处理能力,并且简化了数据栅格化的过程,更适合基于大量多样化的实时栅格数据的用户行为规律或偏好分析,更能满足当下的实体商业机构的选址或为商业推广提供定量或定性的参考中的数据分析需求。
图6所示的是一种用户行为分析装置600还有其他的实现方式,类似的,在另一种实现方式下,用户行为分析装置600中同样包括与之对应的一种数据栅格化装置。用户行为分析装置600和数据栅格化装置均可以位于个人计算机等终端、服务器等大型计算机或者计算机集群中,在这种实施方式中,这种用户行为分析装置600包括:
位置信息获取单元601,用于根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据,所述用户关联数据包括一个或多个用户的位置信息和所述一个或多个用户的行为信息;
栅格化单元602,用于根据所述位置信息,与所述用户关联数据对应的用户历史栅格集中的栅格的位置信息进行匹配,以得到与所述用户关联数据对应的栅格的栅格标识;
在获得所述栅格标识的情况下,根据所述用户关联数据与所述栅格标识,得到所述用户关联数据对应的栅格数据,其中所述栅格数据包括所述行为信息和所述栅格标识;
在未获得所述栅格标识的情况下,将所述位置信息与所述目标区域的不在所述用户历史栅格集中的栅格的位置信息进行匹配,以得到所述用户关联数据对应的栅格的栅格标识,关联所述栅格标识与所述用户关联数据以得到所述用户关联数据对应的栅格的栅格数据,以及将所述栅格标识加入所述用户关联数据对应的用户历史栅格集,其中所述栅格数据包括所述行为信息和所述栅格标识;
栅格特征数据提取单元604,用于根据至少一个所述栅格的一条或多条所述栅格数据,提取所述一级栅格在所述目标时间段中的栅格特征数据,所述栅格特征数据表示所述目标时间段中经过所述目标区域的用户的行为规律或偏好。
进一步的,栅格化单元602还用于根据所述用户关联数据中携带的用户信息,确定所述用户关联数据对应的用户历史栅格集。
进一步的,在根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据的方面,所述位置信息获取单元601具体用于在所述用户行为数据携带位置信息的情况下,将所述用户行为数据作为所述对应的用户关联数据;在所述用户行为数据不携带位置信息的情况下,根据所述用户行为数据的产生时间和用户信息,获得产生时间与所述用户行为数据的产生时间最接近的同一用户的用户位置数据,所述用户位置数据包括位置信息;将所述用户位置数据中的位置信息关联到所述用户行为数据,以得到所述用户行为数据对应的用户关联数据;在所述用户位置数据的产生时间与所述用户行为数据的产生时间之间的间隔大于关联时间阈值的情况下,计算所述用户关联数据的关联置信度以及根据所述关联置信度处理所述用户关联数据。
在这种情况下,图6所示的用户行为分析装置根据目标区域内产生的用户行为数据获得用户关联数据,每处理一条用户关联数据,都根据用户关联数据对应的用户历史栅格集,将这条用户关联数据匹配到相应的栅格内,将这条用户关联数据匹配到相应的栅格内以生成对应的栅格数据,并根据栅格数据提取栅格特征数据,从而完成对用户行为的分析,这个过程提高了数据栅格化的数据处理效率,并且简化了数据栅格化的过程,从而更好的实现了基于大量多样化的实时栅格数据的用户行为规律或偏好分析,更能满足当下的实体商业机构的选址或为商业推广提供定量或定性的参考中的数据分析需求。
需要说明的是,图6所示的用户行为分析装置600中包括的与之对应的一种数据栅格化装置,具体的,这种数据栅格化装置包括栅格化单元602和位置信息获取单元601,请参阅这种实现的方式下,叙述用户行为分析装置600中相应单元的内容,此处不再赘述,连接关系请参阅图6,也不再另附图说明。并且,本领域技术人员应当明白,在这种情况下,数据栅格化装置不一定是用户行为分析装置600的一部分,可以是独立的装置且包括栅格化单元602和位置信息获取单元601。
在图6对应的此种情况下的实施例所包括的数据栅格化装置中,根据目标区域内产生的用户行为数据获得用户关联数据,每处理一条用户关联数据,都根据这条用户关联数据对应的用户历史栅格集,将这条用户关联数据匹配到相应的栅格内以生成对应的栅格数据,这个过程提高了数据栅格化的数据处理效率,减少了对计算资源的占用,增强了栅格化方法的数据处理能力,并且简化了数据栅格化的过程,更适合基于大量多样化的实时栅格数据的用户行为规律或偏好分析,更能满足当下的实体商业机构的选址或为商业推广提供定量或定性的参考中的数据分析需求。
图7是本发明实施例一种数据栅格化装置700的结构示意图。所述数据栅格化装置700可包括,输入/输出(I/O,Input/Output)设备701(比如:网卡)、处理器702和存储器703。
存储器703可以包括只读存储器和随机存取存储器,并向处理器702提供指令和数据。存储器703的一部分还可以包括非易失性随机存取存储器(NVRAM)。
存储器703存储了如下的元素,可执行模块或者数据结构,或者它们的子集,或者它们的扩展集:
操作指令:包括各种操作指令,用于实现各种操作。
操作系统:包括各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。
在本发明实施例中,处理器702通过调用存储器703存储的操作指令(该操作指令可存储在操作系统中),执行如下操作:
根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据,所述用户关联数据包括一个或多个用户的位置信息和所述一个或多个用户的行为信息;
根据所述用户关联数据中的位置信息,计算所述用户关联数据对应的二维编号;
以所述二维编号为查询条件,在二维索引号集中获得与所述二维编号匹配的二维索引号,其中所述二维编号落入所述匹配的二维索引号的取值范围,或者所述二维编号与所述匹配的二维索引号相同,其中所述匹配的二维索引号表示的二级矩形栅格为所述用户关联数据匹配的二级矩形栅格,所述二维索引号集包括多个二维索引号,每个所述二维索引号表示所述目标区域内或者与所述目标区域相交的一个二维矩形栅格;
根据所述二级矩形栅格与所述一级栅格之间的对应关系,确定所述用户关联数据匹配的二级矩形栅格所对应的一级栅格的栅格标识,所述二级矩形栅格在所述目标区域的栅格密度大于所述目标区域的一级栅格的栅格密度;
关联所述一级栅格的栅格标识与所述用户关联数据,以得到所述一级栅格的所述用户关联数据对应的栅格数据,所述栅格数据包括所述行为信息和所述栅格标识,所述栅格数据用于分析所述目标时间段中经过所述目标区域的用户的行为规律或偏好。
具体的,在根据所述用户关联数据中的位置信息,计算所述用户关联数据对应的二维编号的方面,处理器702通过调用存储器703存储的操作指令(该操作指令可存储在操作系统中),执行如下操作:
根据所述用户关联数据中的位置信息,计算所述位置信息表示的位置点相对于所述目标区域的标准点的位置参数,所述标准点为所述目标区域中或与所述目标区域相交的二维矩形栅格上经纬度的值已知的一个点;
将所述位置参数转化为所述用户关联数据对应的二维编号。
具体的,处理器702通过调用存储器703存储的操作指令(该操作指令可存储在操作系统中),还执行如下操作:设置二级矩形栅格的网格尺寸;根据所述网格尺寸,将所述目标区域按所述二级矩形栅格划分;根据每个所述二级矩形栅格对应的区域的位置信息,计算每个所述二级矩形栅格对应的二维索引号。
具体的,在根据所述二级矩形栅格与所述一级栅格之间的对应关系,确定所述用户关联数据匹配的二级矩形栅格所对应的一级栅格的栅格标识的方面,处理器702通过调用存储器703存储的操作指令(该操作指令可存储在操作系统中),执行如下操作:计算所述二级矩形栅格在所述目标区域内的每个顶点与所述一级栅格的网格的位置关系,以确定每个所述顶点所对应的一级栅格;根据每个所述顶点与所述一级栅格的对应关系,确定在所述目标区域内或与所述目标区域相交的每个所述二级矩形栅格对应的一级栅格;根据所述用户关联数据匹配的二级栅格的二维索引号,获得所述用户关联数据匹配的二级矩形栅格对应的一级栅格的栅格标识。
具体的,在根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据的方面,执行如下操作:在所述用户行为数据携带位置信息的情况下,将所述用户行为数据作为所述对应的用户关联数据;在所述用户行为数据不携带位置信息的情况下,根据所述用户行为数据的产生时间和用户信息,获得产生时间与所述用户行为数据的产生时间最接近的同一用户的用户位置数据,所述用户位置数据包括位置信息;将所述用户位置数据中的位置信息关联到所述用户行为数据,以得到所述用户行为数据对应的用户关联数据;在所述用户位置数据的产生时间与所述用户行为数据的产生时间之间的间隔大于关联时间阈值的情况下,计算所述用户关联数据的关联置信度以及根据所述关联置信度处理所述用户关联数据。
在这种情况下,图7所示的装置根据目标区域内产生的用户行为数据获得用户关联数据,每处理一条用户关联数据,都计算这条用户关联数据的在二级矩形栅格下的二维编号,根据一级栅格与二级矩形栅格的对应关系,从而将这条用户关联数据匹配到相应的一级栅格内,将这条用户关联数据匹配到相应的栅格内以生成对应的栅格数据,增强了栅格化方法的数据处理能力,并且简化了数据栅格化的过程,提高了数据栅格化的数据处理效率,减少了对计算资源的占用,更适合基于大量多样化的实时栅格数据的用户行为规律或偏好分析,更能满足当下的实体商业机构的选址或为商业推广提供定量或定性的参考中的数据分析需求。
在图7对应的另一个实施例中,数据栅格化装置700的处理器702通过调用存储器703存储的操作指令(该操作指令可存储在操作系统中),执行如下操作:根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据,所述用户关联数据包括一个或多个用户的位置信息和所述一个或多个用户的行为信息;
根据所述位置信息,与所述用户关联数据对应的用户历史栅格集中的栅格的位置信息进行匹配,以得到与所述用户关联数据对应的栅格的栅格标识;在获得所述栅格标识的情况下,根据所述用户关联数据与所述栅格标识,得到所述用户关联数据对应的栅格数据;在未获得所述栅格标识的情况下,将所述位置信息与所述目标区域的不在所述用户历史栅格集中的栅格的位置信息进行匹配,以得到所述用户关联数据对应的栅格的栅格标识,关联所述栅格标识与所述用户关联数据以得到所述用户关联数据对应的栅格数据,以及将所述栅格标识加入所述用户关联数据对应的用户历史栅格集;其中所述栅格数据包括所述行为信息和所述栅格标识,所述栅格数据用于分析所述目标时间段中经过所述目标区域的用户的行为规律或偏好。
具体的,处理器702通过调用存储器703存储的操作指令(该操作指令可存储在操作系统中),还执行如下操作:根据所述用户关联数据中携带的用户信息,确定所述用户关联数据对应的用户历史栅格集。
具体的,在根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据的方面,处理器702通过调用存储器703存储的操作指令(该操作指令可存储在操作系统中),执行如下操作:在所述用户行为数据携带位置信息的情况下,将所述用户行为数据作为所述对应的用户关联数据;
在所述用户行为数据不携带位置信息的情况下,根据所述用户行为数据的产生时间和用户信息,获得产生时间与所述用户行为数据的产生时间最接近的同一用户的用户位置数据,所述用户位置数据包括位置信息;
将所述用户位置数据中的位置信息关联到所述用户行为数据,以得到所述用户行为数据对应的用户关联数据;
在所述用户位置数据的产生时间与所述用户行为数据的产生时间之间的间隔大于关联时间阈值的情况下,计算所述用户关联数据的关联置信度以及根据所述关联置信度处理所述用户关联数据。
在这种情况下,图7所示的装置根据目标区域内产生的用户行为数据获得用户关联数据,每处理一条用户关联数据,都根据用户关联数据对应的用户历史栅格集,将这条用户关联数据匹配到相应的栅格内以生成对应的栅格数据,增强了栅格化方法的数据处理能力,并且简化了数据栅格化的过程,提高了数据栅格化的数据处理效率,减少了对计算资源的占用,更适合基于大量多样化的实时栅格数据的用户行为规律或偏好分析,更能满足当下的实体商业机构的选址或为商业推广提供定量或定性的参考中的数据分析需求。
另一方面,图7也可以表示本发明实施例一种用户行为分析装置700的结构示意图。所述用户行为分析装置700可包括,输入/输出(I/O,Input/Output)设备701(比如:网卡)、处理器702和存储器703。
存储器703可以包括只读存储器和随机存取存储器,并向处理器702提供指令和数据。存储器703的一部分还可以包括非易失性随机存取存储器(NVRAM)。
存储器703存储了如下的元素,可执行模块或者数据结构,或者它们的子集,或者它们的扩展集:
操作指令:包括各种操作指令,用于实现各种操作。
操作系统:包括各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。
在本发明实施例中,处理器702通过调用存储器703存储的操作指令(该操作指令可存储在操作系统中),执行如下操作:根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据,所述用户关联数据包括一个或多个用户的位置信息和所述一个或多个用户的行为信息;
根据所述用户关联数据中的位置信息,计算所述用户关联数据对应的二维编号;
以所述二维编号为查询条件,在二维索引号集中获得与所述二维编号匹配的二维索引号,其中所述二维编号落入二维索引号的范围,或者所述二维编号与二维索引号相同,其中所述匹配的二维索引号表示的二级矩形栅格为所述用户关联数据匹配的二级矩形栅格,所述二维索引号集包括多个二维索引号,每个所述二维索引号表示所述目标区域内或者与所述目标区域相交的一个二维矩形栅格;
根据所述二级矩形栅格与所述一级栅格之间的对应关系,确定所述用户关联数据匹配的二级矩形栅格所对应的一级栅格的栅格标识,所述二级矩形栅格在所述目标区域的栅格密度大于所述目标区域的一级栅格的栅格密度;
关联所述一级栅格的栅格标识与所述用户关联数据,以得到所述一级栅格的所述用户关联数据对应的栅格数据,所述栅格数据包括所述行为信息和所述栅格标识;
根据至少一个所述一级栅格的一条或多条所述栅格数据,提取所述一级栅格在所述目标时间段中的栅格特征数据,所述栅格特征数据表示所述目标时间段中经过所述目标区域的用户的行为规律或偏好。
具体的,在根据所述用户关联数据中的位置信息,计算所述用户关联数据对应的二维编号的方面,处理器702通过调用存储器703存储的操作指令(该操作指令可存储在操作系统中),执行如下操作:
根据所述用户关联数据中的位置信息,计算所述位置信息表示的位置点相对于所述目标区域的标准点的位置参数,所述标准点为所述目标区域中或与所述目标区域相交的二维矩形栅格上经纬度的值已知的一个点;
将所述位置参数转化为所述用户关联数据对应的二维编号。
具体的,处理器702通过调用存储器703存储的操作指令(该操作指令可存储在操作系统中),还执行如下操作:设置二级矩形栅格的网格尺寸;根据所述网格尺寸,将所述目标区域按所述二级矩形栅格划分;根据每个所述二级矩形栅格对应的区域的位置信息,计算每个所述二级矩形栅格对应的二维索引号。
具体的,在根据所述二级矩形栅格与所述一级栅格之间的对应关系,确定所述用户关联数据匹配的二级矩形栅格所对应的一级栅格的栅格标识的方面,处理器702通过调用存储器703存储的操作指令(该操作指令可存储在操作系统中),执行如下操作:计算所述二级矩形栅格在所述目标区域内的每个顶点与所述一级栅格的网格的位置关系,以确定每个所述顶点所对应的一级栅格;根据每个所述顶点与所述一级栅格的对应关系,确定在所述目标区域内或与所述目标区域相交的每个所述二级矩形栅格对应的一级栅格;根据所述用户关联数据匹配的二级栅格的二维索引号,获得所述用户关联数据匹配的二级矩形栅格对应的一级栅格的栅格标识。
具体的,在根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据的方面,执行如下操作:在所述用户行为数据携带位置信息的情况下,将所述用户行为数据作为所述对应的用户关联数据;在所述用户行为数据不携带位置信息的情况下,根据所述用户行为数据的产生时间和用户信息,获得产生时间与所述用户行为数据的产生时间最接近的同一用户的用户位置数据,所述用户位置数据包括位置信息;将所述用户位置数据中的位置信息关联到所述用户行为数据,以得到所述用户行为数据对应的用户关联数据;在所述用户位置数据的产生时间与所述用户行为数据的产生时间之间的间隔大于关联时间阈值的情况下,计算所述用户关联数据的关联置信度以及根据所述关联置信度处理所述用户关联数据。
在这种情况下,图7所对应的实施例中描述的用户行为分析装置700,根据目标区域内产生的用户行为数据获得用户关联数据,每处理一条用户关联数据,都计算这条用户关联数据的在二级矩形栅格下的二维编号,根据一级栅格与二级矩形栅格的对应关系,将这条用户关联数据匹配到相应的栅格内以生成对应的栅格数据,并根据栅格数据提取栅格特征数据,从而完成对用户行为的分析,这个过程提高了数据栅格化的数据处理效率,并且简化了数据栅格化的过程,从而更好的实现了基于大量多样化的实时栅格数据的用户行为规律或偏好分析,更能满足当下的实体商业机构的选址或为商业推广提供定量或定性的参考中的数据分析需求。
图7在表示本发明实施例一种用户行为分析装置700的情况下,还可以有另一种实施方式,在这种实施方式下,处理器702通过调用存储器703存储的操作指令(该操作指令可存储在操作系统中),执行如下操作:根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据,所述用户关联数据包括一个或多个用户的位置信息和所述一个或多个用户的行为信息;
根据所述位置信息,与所述用户关联数据对应的用户历史栅格集中的栅格的位置信息进行匹配,以得到与所述用户关联数据对应的栅格的栅格标识;
在获得所述栅格标识的情况下,根据所述用户关联数据与所述栅格标识,得到所述用户关联数据对应的栅格数据,其中所述栅格数据包括所述行为信息和所述栅格标识;
在未获得所述栅格标识的情况下,将所述位置信息与所述目标区域的不在所述用户历史栅格集中的栅格的位置信息进行匹配,以得到所述用户关联数据对应的栅格的栅格标识,关联所述栅格标识与所述用户关联数据以得到所述用户关联数据对应的栅格的栅格数据,以及将所述栅格标识加入所述用户关联数据对应的用户历史栅格集,其中所述栅格数据包括所述行为信息和所述栅格标识;
根据至少一个所述栅格的一条或多条所述栅格数据,提取所述一级栅格在所述目标时间段中的栅格特征数据,所述栅格特征数据表示所述目标时间段中经过所述目标区域的用户的行为规律或偏好。
具体的,处理器702通过调用存储器703存储的操作指令(该操作指令可存储在操作系统中),还执行如下操作:根据所述用户关联数据中携带的用户信息,确定所述用户关联数据对应的用户历史栅格集。
具体的,在根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应的用户关联数据的方面,处理器702通过调用存储器703存储的操作指令(该操作指令可存储在操作系统中),还执行如下操作:在所述用户行为数据携带位置信息的情况下,将所述用户行为数据作为所述对应的用户关联数据;在所述用户行为数据不携带位置信息的情况下,根据所述用户行为数据的产生时间和用户信息,获得产生时间与所述用户行为数据的产生时间最接近的同一用户的用户位置数据,所述用户位置数据包括位置信息;将所述用户位置数据中的位置信息关联到所述用户行为数据,以得到所述用户行为数据对应的用户关联数据;在所述用户位置数据的产生时间与所述用户行为数据的产生时间之间的间隔大于关联时间阈值的情况下,计算所述用户关联数据的关联置信度以及根据所述关联置信度处理所述用户关联数据。
在这种情况下,图7所示的用户行为分析装置根据目标区域内产生的用户行为数据获得用户关联数据,每处理一条用户关联数据,都根据用户关联数据对应的用户历史栅格集,将这条用户关联数据匹配到相应的栅格内,将这条用户关联数据匹配到相应的栅格内以生成对应的栅格数据,并根据栅格数据提取栅格特征数据,从而完成对用户行为的分析,这个过程提高了数据栅格化的数据处理效率,并且简化了数据栅格化的过程,从而更好的实现了基于大量多样化的实时栅格数据的用户行为规律或偏好分析,更能满足当下的实体商业机构的选址或为商业推广提供定量或定性的参考中的数据分析需求。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件(例如处理器)来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上为本发明实施例所提供的一种数据栅格化方法和装置,以及一种用户行为分析的方法和装置,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。