CN112819544A - 基于大数据的广告投放方法、装置、设备及存储介质 - Google Patents
基于大数据的广告投放方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112819544A CN112819544A CN202110209011.0A CN202110209011A CN112819544A CN 112819544 A CN112819544 A CN 112819544A CN 202110209011 A CN202110209011 A CN 202110209011A CN 112819544 A CN112819544 A CN 112819544A
- Authority
- CN
- China
- Prior art keywords
- data
- area
- target
- advertisement delivery
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000003860 storage Methods 0.000 title claims abstract description 21
- 238000004140 cleaning Methods 0.000 claims abstract description 99
- 230000000694 effects Effects 0.000 claims abstract description 76
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 75
- 230000002776 aggregation Effects 0.000 claims abstract description 42
- 238000004220 aggregation Methods 0.000 claims abstract description 42
- 238000004364 calculation method Methods 0.000 claims abstract description 35
- 230000006399 behavior Effects 0.000 claims description 21
- 238000002716 delivery method Methods 0.000 claims description 21
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims 2
- 238000005516 engineering process Methods 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 12
- 238000007621 cluster analysis Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000009826 distribution Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013524 data verification Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 238000010224 classification analysis Methods 0.000 description 2
- 238000000586 desensitisation Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004308 accommodation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002537 cosmetic Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
- G06Q30/0244—Optimization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0277—Online advertisement
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及大数据领域,公开了一种基于大数据的广告投放方法、装置、设备及存储介质。本方法包括:对获取到的目标区域内所有目标商户的地址信息进行数据清洗,得到目标商户的位置数据;根据预置第一聚类算法对目标商户的位置数据进行聚类,确定目标商户的聚集区域;获取初始广告投放区域中历史客户的位置数据,并根据预置第二聚类算法对历史客户的位置数据进行轨迹计算,确定历史客户的活动区域;基于目标商户的聚集区域和历史客户的活动区域,确定目标区域内的广告投放区域。解决了无法针对商户密度高的商圈进行精准投放营销,数据精准率低的技术问题,提高了营销效果。此外,本发明还涉及区块链技术,各位置数据可存储于区块链中。
Description
技术领域
本发明涉及大数据领域,尤其涉及一种基于大数据的广告投放方法、装置、设备及存储介质。
背景技术
目前市场上主流的广告投放平台,如腾讯广点通,头条巨量引擎均支持一定的定向客户群体投放功能,可以帮助客户有针对性的对指定客群进行广告投放,以增加广告投放的有效性。
但是此类功能及其有限,如地点投放,只支持客户上传地点形式的定向地理区域投放,定向投放只有功能,缺少必要数据支持,即使投放的地点是林地,山地,沙漠这种荒芜人烟的地方也不会做任何提示,做法粗放盲目,投放效果难以保证,客观上导致了定位数据精准率低的结果。
发明内容
本发明的主要目的是解决无法针对商户密度高的商圈进行精准投放营销,定位数据精准率低的技术问题。
本发明第一方面提供了一种基于大数据的广告投放方法,包括:
获取预设区域内所有商户的地址信息;
根据预置第一聚类算法对所述商户的地址信息进行聚类,确定所述预设区域内商户的聚集区域,其中,所述商户的聚集区域为广告投放区域的初始广告投放区域;
对所述商户的地址信息进行数据清洗,得到所述初始广告投放区域内目标商户的位置数据,其中,所述目标商户的位置数据包括名称字段和地址信息,所述目标商户是指所述初始广告投放区域内所有的商户;
分别获取所述目标商户对应历史客户的位置数据,并根据预置第二聚类算法对所述历史客户的位置数据进行轨迹计算,确定所述历史客户的活动区域;
根据所述目标商户的聚集区域和所述历史客户的活动区域,确定所述预设区域内的目标广告投放区域。
可选地,在本发明第一方面的第一种实现方式中,所述对所述商户的地址信息进行数据清洗,得到所述初始广告投放区域内目标商户的位置数据包括:
接收数据清洗请求,其中,所述数据清洗请求包括用户输入的查询关键字,所述数据清洗是指过滤不符合要求的数据;
根据所述数据清洗请求,确定数据清洗规则,其中,所述数据清洗规则包括:清洗特征因子和所述清洗特征因子满足的清洗条件;
获取目标区域内所有目标商户的地址信息,根据所述目标商户的地址信息确定所述清洗特征因子对应的特征因子值;
根据所述数据清洗规则和所述特征因子值对所述待清洗数据进行清洗,得到目标商户的位置数据。
可选地,在本发明第一方面的第二种实现方式中,所述根据预置第一聚类算法对所述商户的地址信息进行聚类,确定所述预设区域内商户的聚集区域包括:
确定所述目标商户的位置数据中包含的所有名称字段;
将所述目标区域划分为N个第一区域;
根据所述名称字段,确定所述目标商户所属的第一区域;
通过预置第一聚类算法对所述N个第一区域进行聚类,确定所述目标商户的聚集区域。
可选地,在本发明第一方面的第三种实现方式中,所述分别获取所述目标商户对应历史客户的位置数据,并根据预置第二聚类算法对所述历史客户的位置数据进行轨迹计算,确定所述历史客户的活动区域包括:
从预置数据库中获取所述初始广告投放区域中历史客户在预设时间内对应的位置数据;
调用预置第二聚类算法对获取的各个历史客户的位置数据进行轨迹计算,得到各个历史客户对应的至少一种行为轨迹数据;
基于所述行为轨迹数据,确定所述历史客户的活动区域。
可选地,在本发明第一方面的第四种实现方式中,所述根据所述目标商户的聚集区域和所述历史客户的活动区域,确定所述预设区域内的目标广告投放区域包括:
根据预设地标信息确定与所述目标商户的聚集区域匹配的精准商圈;
基于所述目标商户的聚集区域,获取与所述精准商圈匹配的至少一个特定地标;
根据所述目标客户的活动区域和所述至少一个特定地标,确定所述目标区域内的目标广告投放区域。
可选地,在本发明第一方面的第五种实现方式中,在所述根据所述目标商户的聚集区域和所述历史客户的活动区域,确定所述预设区域内的目标广告投放区域之后,还包括:
采集所述目标广告投放区域中多个历史用户的基础数据,其中,所述用户基础数据包括所述用户的个人信息数据、消费记录数据以及出行轨迹数据;
对所述基础数据进行特征提取,以生成数据标签;
根据所述数据标签构建所述多个历史用户的用户画像;
根据所述用户画像,筛选与所述用户画像匹配的广告,并将所述广告投放至所述目标广告投放区域。
本发明第二方面提供了一种基于大数据的广告投放装置,包括:
解析模块,用于获取预设区域内所有商户的地址信息;
聚类模块,用于根据预置第一聚类算法对所述商户的地址信息进行聚类,确定所述预设区域内商户的聚集区域,其中,所述商户的聚集区域为广告投放区域的初始广告投放区域;
数据清洗模块,用于对所述商户的地址信息进行数据清洗,得到所述初始广告投放区域内目标商户的位置数据,其中,所述目标商户的位置数据包括名称字段和地址信息,所述目标商户是指所述初始广告投放区域内所有的商户;
计算模块,用于分别获取所述目标商户对应历史客户的位置数据,并根据预置第二聚类算法对所述历史客户的位置数据进行轨迹计算,确定所述历史客户的活动区域;
确定模块,用于根据所述目标商户的聚集区域和所述历史客户的活动区域,确定所述预设区域内的目标广告投放区域。
可选地,在本发明第二方面的第一种实现方式中,所述基于大数据的广告投放装置还包括:
采集模块,用于采集所述目标广告投放区域中多个历史用户的基础数据,其中,所述用户基础数据包括所述用户的个人信息数据、消费记录数据以及出行轨迹数据;
特征提取模块,用于对所述基础数据进行特征提取,以生成数据标签;
构建模块,用于根据所述数据标签,筛选与所述用户画像匹配的广告,构建所述多个历史用户的用户画像;
投放模块,用于根据所述用户画像,筛选与所述用户画像匹配的广告,并将所述广告投放至所述目标广告投放区域。
可选地,在本发明第二方面的第二种实现方式中,所述数据清洗模块具体用于:
接收数据清洗请求,其中,所述数据清洗请求包括用户输入的查询关键字,所述数据清洗是指过滤不符合要求的数据;
根据所述数据清洗请求,确定数据清洗规则,其中,所述数据清洗规则包括:清洗特征因子和所述清洗特征因子满足的清洗条件;
获取目标区域内所有目标商户的地址信息,根据所述目标商户的地址信息确定所述清洗特征因子对应的特征因子值;
根据所述数据清洗规则和所述特征因子值对所述待清洗数据进行清洗,得到目标商户的位置数据。
可选地,在本发明第二方面的第三种实现方式中,所述聚类模块包括:
第一确定单元,用于确定所述目标商户的位置数据中包含的所有名称字段;
划分单元,用于将所述目标区域划分为N个第一区域;
第二确定单元,用于根据所述名称字段,确定所述目标商户所属的第一区域;
聚类单元,用于通过预置第一聚类算法对所述N个第一区域进行聚类,确定所述目标商户的聚集区域。
可选地,在本发明第二方面的第四种实现方式中,所述计算模块具体用于:
从预置数据库中获取所述初始广告投放区域中历史客户在预设时间内对应的位置数据;
调用预置第二聚类算法对获取的各个历史客户的位置数据进行轨迹计算,得到各个历史客户对应的至少一种行为轨迹数据;
基于所述行为轨迹数据,确定所述历史客户的活动区域。
可选地,在本发明第二方面的第五种实现方式中,所述确定模块具体用于:
根据预设地标信息确定与所述目标商户的聚集区域匹配的精准商圈;
基于所述目标商户的聚集区域,获取与所述精准商圈匹配的至少一个特定地标;
根据所述目标客户的活动区域和所述至少一个特定地标,确定所述目标区域内的目标广告投放区域。
本发明第三方面提供了一种基于大数据的广告投放设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于大数据的广告投放设备执行上述的基于大数据的广告投放方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的基于大数据的广告投放方法。
本发明提供的技术方案中,通过对获取到的目标区域内所有目标商户的地址信息进行数据清洗,得到目标商户的位置数据;根据预置第一聚类算法对目标商户的位置数据进行聚类,确定目标商户的聚集区域;获取初始广告投放区域中历史客户的位置数据,并根据预置第二聚类算法对历史客户的位置数据进行轨迹计算,确定历史客户的活动区域;基于目标商户的聚集区域和历史客户的活动区域,确定目标区域内的广告投放区域。解决了无法针对商户密度高的商圈进行精准投放营销,数据精准率低的技术问题,提高了营销效果。
附图说明
图1为本发明基于大数据的广告投放方法的第一个实施例示意图;
图2为本发明基于大数据的广告投放方法的第二个实施例示意图;
图3为本发明基于大数据的广告投放方法的第三个实施例示意图;
图4为本发明基于大数据的广告投放方法的第四个实施例示意图;
图5为本发明基于大数据的广告投放方法的第五个实施例示意图;
图6为本发明基于大数据的广告投放装置的第一个实施例示意图;
图7为本发明基于大数据的广告投放装置的第二个实施例示意图;
图8为本发明基于大数据的广告投放设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种基于大数据的广告投放方法、装置、设备及存储介质,本发明的技术方案中,首先对获取到的目标区域内所有目标商户的地址信息进行数据清洗,得到目标商户的位置数据;根据预置第一聚类算法对目标商户的位置数据进行聚类,确定目标商户的聚集区域;获取初始广告投放区域中历史客户的位置数据,并根据预置第二聚类算法对历史客户的位置数据进行轨迹计算,确定历史客户的活动区域;基于目标商户的聚集区域和历史客户的活动区域,确定目标区域内的广告投放区域。解决了无法针对商户密度高的商圈进行精准投放营销,数据精准率低的技术问题,提高了营销效果。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中基于大数据的广告投放方法的第一个实施例包括:
101、获取预设区域内所有商户的地址信息;
本实施例中,采用地图API提供的地址解析接口对目标区域内的所有商户店铺的详细地址信息进行解析,返回店铺所在地图的经纬度,得到所述目标区域内所有商户的地址信息。
本实施例中,采用地图API提供的地址解析接口对目标区域内的所有商户店铺的详细地址信息进行解析。得到目标区域中商户店铺的位置数据,其中,位置数据包括名称字段和地址信息,地址信息中包括商户店铺具体地址。为保证所获取的商户位置数据不影响反映实际地址分布的密度差异,实际抽取数据的区域应针对具体进行商户分布区域布局的全部地理范围。同时,对所获取的目标商户的位置数据按照给定的范围进行数据清洗,去除冗余数据和错误数据。因数据需要真实反映此处对商圈聚集区的业务需求,所以不同时间重复的同一地址应为同一地址的重复业务服务,数据清洗时应做地址计数,而不能清洗为单一数据,同一时间的重复的同一地址但商户类型不同的应为同一地址内对不同客户的业务服务,数据清洗时也应做地址计数,不能清洗为单一数据。这些地址计数需要计算到地址分布密度中。
本实施例中,基于位置服务(Location Based Services,位置)是指围绕地理位置数据而展开的服务,其由移动终端使用无线通信网络(或卫星定位系统),基于空间数据库,获取用户的地理位置坐标信息并与其他信息集成以向用户提供所需的与位置相关的增值服务。服务提供商获得移动对象的位置以后,用户可以进行与该位置相关的查询。位置是将移动通信技术和定位技术相结合而提供与位置有关的一种增值服务,用户通过使用移动设备的定位技术来获得自身的地理位置,位置并根据用户的位置信息和查询信息以及通过网络为用户提供与位置相关的各种服务。
同时,根据信息的获取方式不同,位置服务分为主动获取服务和被动接收服务两种。主动获取服务是指用户通过终端设备主动发送明确的服务请求,服务提供商根据用户所处的位置以及用户的需求将信息返回给用户。比如用户通过手机终端发送一个请求“离我最近的加油站在哪里”给服务提供商。被动接收服务与主动获取服务相反,用户没有明确发送服务请求,而是当用户到达一个地点时,服务提供商自动将相关信息返回给用户。最常见的就是在坐火车的长途旅行中,每到一个城市,用户就会接收到该城市的天气预报以及住宿相关的广告信息。位置的主要特点包括:覆盖范围广、定位精度高、操作简便、应用广泛。
102、根据预置第一聚类算法对商户的地址信息进行聚类,确定预设区域内商户的聚集区域,其中,商户的聚集区域为广告投放区域的初始广告投放区域;
本实施例中,用于对获取到的并经噪声点删除后的所有商户店铺地址做聚类处理,基于商户店铺地址的经纬度数据映射的密度进行聚类分析,得到多个类簇,再对每一个类簇设置目标函数最小化点(x,y),其中每一类簇中的目标函数最小化点(x,y)到该类簇中的所有点的欧式距离之和最小;在聚类分析中保留除最大类簇以外的所有类簇;获取聚类分析中的最大类簇,根据最大类簇修改聚类处理的参数;重复进行聚类分析,直到符合所设置的目标要求(例如,当目标函数最小化点(x,y)收敛到设定条件时即为达到符合设置的目标要求),确定所选择的目标区域内商户的聚集区域。
本实施例中的聚类处理为DBSCAN聚类。DBSCAN聚类分析的具体实施方式为:首先为距离在半径Eps邻域之内的所有核心点之间赋予一条边,然后基于每组连通的核心点形成一个簇,再将每个边界点指派到一个与之关联的核心点的簇中,以此得到N个类簇,最后在每一个类簇中设置目标函数最小化点(x,y),(x,y)到该类簇中的所有点的欧式距离之和最小。
本实施例中,聚类与分类的不同在于,聚类所要求划分的类是未知的。比如,聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。
从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。
103、对商户的地址信息进行数据清洗,得到初始广告投放区域内目标商户的位置数据;
本实施例中,数据清洗数据清洗包括数据脱敏、数据校验和数据转换。其中,数据脱敏用于对目标商户的地址信息中的敏感数据进行加密处理。数据校验用于查询目标商户的地址信息中是否存在脏数据,并删除该脏数据,以消除脏数据对商圈聚类结果的影响。服务器针对各个类型的数据设置了脏数据判定方法,根据预设的判定方法检测是否为脏数据。比如,可设置每个类型的数据的字符长度范围或数值的大小范围等,当某一类型的数据的字符长度不处于预设范围之内,或数值的大小不处于预设的大小范围之内,则判定该数据为脏数据。数据校验是将存在多种不同表述方式的数据统一转换成同一种预设表述方式的过程。
服务器针对每种类型的数据设置了一种对应的表述方式,当检测到某一类型的数据与所设置的表述方式不一致时,可根据该类型数据的表述方式和所设置的表述方式之间的转换关系,将其转换成所设置的表述方式。比如,该数据为药品类数据,同一药品的编码在不同地区所使用的编码不同,服务器可设置该药品类数据的编码方式,并将检测到的编码方式与所设置的不同的数据,根据对应的转换关系,将其转换成对应设置的编码,从而形成统一的编码。在完成对目标商户的地址信息的清洗后,将清洗后的数据保存为目标商户的位置数据。所述目标商户是指所述初始广告投放区域内所有的商户。
本实施例中,位置信息可以包括经纬度、城市、区、社区信息,社区行业类型、经纬度所在建筑,所在商圈,道路信息及POI(Points of Interest,带点坐标信息,城市中的兴趣点)地标信息。其中,POI地标信息包括地标名称、行业类型以及所在商圈。POI信息可以理解为日常常用的场所数据,大到饭店,商店,加油站,银行等日常常用设施,小到井盖,消防栓等。
104、分别获取目标商户对应历史客户的位置数据,并根据预置第二聚类算法对历史客户的位置数据进行轨迹计算,确定历史客户的活动区域;
本实施例中,历史客户的位置数据包括地理位置信息数据、及提供的与地理位置信息数据相关的各类服务信息数据,行为轨迹数据包括行程类型轨迹数据、及/或,娱乐类型轨迹数据;行程类型轨迹数据包括行程时间和行程标识(例如,中午某个时间段经常去某家餐馆吃午饭),娱乐类型轨迹数据包括娱乐时间和地址标识(例如,周末去确定的地点旅游)。
通常,移动定位服务系统用来找到移动终端用户的当前地理位置,并搜索离当前地理位置一定范围内的可提供服务的场所的名称和地址(例如,宾馆、影院、图书馆、加油站等的名称和地址),然后推荐搜索到的相关名称和地址给移动终端用户,以使移动终端用户根据推荐的名称和地址选择对应的服务。其中,当移动终端用户选择服务后,移动定位服务系统会记录用户的当前地理位置(即所述地理位置信息数据)和所选择的服务(即所述相关的服务信息数据),并存储于数据库中。
本实施例中,聚类(Clustering)就是一种寻找数据之间内在结构的技术。聚类把全体数据实例组织成一些相似组,而这些相似组被称作簇。处于相同簇中的数据实例彼此相同,处于不同簇中的实例彼此不同。聚类技术通常又被称为无监督学习,与监督学习不同的是,在簇中那些表示数据类别的分类或者分组信息是没有的。数据之间的相似性是通过定义一个距离或者相似性系数来判别的。聚类分析可以应用在数据预处理过程中,对于复杂结构的多维数据可以通过聚类分析的方法对数据进行聚集,使复杂结构数据标准化。比如,在商业上,聚类分析是细分市场的有效工具,被用来发现不同的客户群,并且它通过对不同的客户群的特征的刻画,被用于研究消费者行为,寻找新的潜在市场。
本实施例中,利用预先确定的第二聚类算法对获取的各个历史客户的位置数据进行轨迹计算,以分别计算出各个历史客户对应的至少一种行为轨迹数据,在本实施例,预先确定的第二聚类算法为基于密度的聚类算法(例如,DBSCAN聚类算法)。
本实施例中,基于密度的聚类方法的主要目标是寻找被低密度区域分离的高密度区域。与基于距离的聚类算法不同的是,基于距离的聚类算法的聚类结果是球状的簇,而基于密度的聚类算法可以发现任意形状的簇。
基于密度的聚类方法是从数据对象分布区域的密度着手的。如果给定类中的数据对象在给定的范围区域中,则数据对象的密度超过某一阈值就继续聚类。
这种方法通过连接密度较大的区域,能够形成不同形状的簇,而且可以消除孤立点和噪声对聚类质量的影响,以及发现任意形状的簇。其中,基于密度的聚类方法中最具代表性的是DBSAN算法、OPTICS算法和DENCLUE算法。
进一步地,以获取的m个历史用户的位置数据为例说明具体的聚类分析过程,首先,需要预定义核心点,核心点密度可达的区域,以及密度可达区域的边界点,在本实施例中,以获取到的m个历史用户在预设时间间隔内经常定位过的某一地理位置为核心点,例如,m个历史用户在一个月内在中午12点钟定位餐厅E的次数超过了预设的次数(20次),则以该餐厅E的地理位置为核心点,若在预设的时间内(一个月内)若地理位置F被m个历史用户位过的第二次数大于或等于第一次数,则该地理位置F为核心点B密度可达区域中的点,由各个核心点密度可达区域中的点构成的区域为核心点密度可达区域,若在预设的时间内地理位置G被m个历史用户定位过的第三次数等于第一次数,则该地理位置G为密度可达区域的边界点,这样,就可以得知m个历史用户在预设时间内频繁定位过的场所,进而根据频繁定位过的场所得到m个历史用户的行为轨迹数据,例如,中午某个时间段经常去某家餐馆吃午饭,或者,周末去确定的地点旅游等,进一步地确定潜客密集区,如批发类商品城,高密度小区底商商铺聚集区等。
105、根据目标商户的聚集区域和历史客户的活动区域,确定预设区域内的目标广告投放区域。
本实施例中,通过对商户GPS地址进行聚类,得到潜客密集区,比如,批发类商品城,高密度小区底商商铺聚集区等,并将确定的商户的聚集区域作为初始候选投放点;进一步地,获取所述初始广告投放区域内一段时间中历史客户的位置数据信息,确定客户的行为轨迹数据,地确定客户的常出没地点;进一步得到目标区域A内(比如以一定区域大小(如500x500米)为一个单元)将整个目标区域A分为N个格子,将商户和客户的地址投射到格子中,这样,我们就获得了每个商户聚集区域的客户数量以及信息,以确定目标区域A内广告的投放区域。
本实施例中,向用户/商户密集区域定向投放广告,可以根据广告主的要求进行区域投放,例如针对学校区域,可以投放一些和学生用品,学习方向的广告等,投放的介质可以是户外广告屏幕或移动终端实时推送等。
本实施例中,通过历史用户密集区域,向用户密集区域定向投放广告,不仅实现实时进行广告投放,还可以保证投放效果,提升广告的曝光效果,降低了获客成本,避免资源浪费。提高了营销效果。
本发明实施例中,通过对获取到的目标区域内所有目标商户的地址信息进行数据清洗,得到目标商户的位置数据;根据预置第一聚类算法对目标商户的位置数据进行聚类,确定目标商户的聚集区域;获取初始广告投放区域中历史客户的位置数据,并根据预置第二聚类算法对历史客户的位置数据进行轨迹计算,确定历史客户的活动区域;基于目标商户的聚集区域和历史客户的活动区域,确定目标区域内的广告投放区域。解决了无法针对商户密度高的商圈进行精准投放营销,数据精准率低的技术问题,提高了营销效果。
请参阅图2,本发明实施例中基于大数据的广告投放方法的第二个实施例包括:
201、获取目标区域内所有目标商户的地址信息;
202、根据预置第一聚类算法对商户的地址信息进行聚类,确定预设区域内商户的聚集区域,其中,商户的聚集区域为广告投放区域的初始广告投放区域;
203、接收数据清洗请求,其中,数据清洗请求包括用户输入的查询关键字,数据清洗是指过滤不符合要求的数据;
本实施例中,所述数据清洗请求,可以为用户在输入查询关键字后触发的异常数据查询请求。所述查询关键字,可以为查询字段中包括的内容。比如,对于地址信息的查询字段中,包括多个具体的地址信息,所述查询关键字可以为地址信息中的查询字段中的具体的名称字段。所述数据清洗是指用于过滤那些不符合要求的数据,将过滤的结果查找和记录,以便于确认是否过滤掉,或者由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据等。
对于数据量非常大的数据清洗,可以根据预定的时间段,对数据进行划分,在一个时间段内,针对一段固定的历史数据进行清洗,避免实时对数据清洗时,由于数据增加所带来的数据清洗次数显著增加,以及避免对数据的多次重复清洗。
204、根据数据清洗请求,确定数据清洗规则,其中,数据清洗规则包括:清洗特征因子和清洗特征因子满足的清洗条件;
本实施例中,不同的数据清洗请求可以有对应的业务场景,不同的业务场景对应有数据需要满足的规则或条件。例如:对于返佣业务场景,通常返佣政策会设置一定的门槛,只有达到这个门槛的交易才会进行返佣,或者,购物平台的促销活动,也需要满足一定的条件才能参与促销活动。本说明书实施例可以根据数据清洗请求,确定出数据清洗的业务场景,获取对应业务场景的业务需求,根据业务需求定义对应的数据清洗规则,数据清洗规则中可以包括清洗特征因子和清洗特征因子满足的清洗条件。其中,清洗特征因子可以表示数据清洗的关键特征。
205、获取目标区域内所有目标商户的地址信息,根据目标商户的地址信息确定清洗特征因子对应的特征因子值;
本实施例中,定义好数据清洗规则后,可以获取待清洗数据--预设区域内所有目标商户的地址信息,如:可以根据数据清洗请求从数据库中获取对应的原始数据,再根据待清洗数据确定出清洗特征因子对应的特征因子值。例如:若对某目标区域内商户的地址信息进行数据清洗,则可以根据数据清洗请求获取到该区域内商户的具体经纬度信息,根据该经纬度信息可以获取到与该区域内商户有关的位置数据数据即待清洗数据。再根据待清洗数据可以获取到清洗特征因子对应的特征因子值,如:商户的具体地址信息、是否某类型商户、商户是否支持线上交易等。
需要说明的是,本说明书实施例中,还可以在接收到数据清洗请求时,即获取数据清洗请求对应的待清洗数据,具体获取的时间可以根据实际需要进行设置,本说明书实施例不作具体限定。
206、根据数据清洗规则和特征因子值对待清洗数据进行清洗,得到目标商户的位置数据;
本实施例中,确定出清洗特征因子对应的特征因子值后,可以根据数据清洗规则进行数据清洗,判断待清洗数据中的各条数据是否满足数据清洗规则,若满足,则保留,若不满足,则可以将该数据删除,将保留下来满足数据清洗规则的数据作为清洗结果数据。
207、分别获取目标商户对应历史客户的位置数据,并根据预置第二聚类算法对历史客户的位置数据进行轨迹计算,确定历史客户的活动区域;
208、根据目标商户的聚集区域和历史客户的活动区域,确定预设区域内的目标广告投放区域。
本实施例中步骤201-202、207-208与第一实施例中的步骤101-102、104-105类似,此处不再赘述。
本发明实施例中,通过对获取到的目标区域内所有目标商户的地址信息进行数据清洗,得到目标商户的位置数据;根据预置第一聚类算法对目标商户的位置数据进行聚类,确定目标商户的聚集区域;获取初始广告投放区域中历史客户的位置数据,并根据预置第二聚类算法对历史客户的位置数据进行轨迹计算,确定历史客户的活动区域;基于目标商户的聚集区域和历史客户的活动区域,确定目标区域内的广告投放区域。解决了无法针对商户密度高的商圈进行精准投放营销,数据精准率低的技术问题,提高了营销效果。
请参阅图3,本发明实施例中基于大数据的广告投放方法的第三个实施例包括:
301、获取预设区域内所有目标商户的地址信息;
302、确定目标商户的位置数据中包含的所有名称字段;
本实施例中,通过利用网络获取到的目标区域中商户店铺的地址数据,所述地址数据包括名称字段、地址信息以及多个相关信息;本实施例中,所述多个相关信息为对应至少一个预设属性的信息包括:经纬度、地址、建筑物名称或所囊括单位名称等。
本实施例中,通过利用网络获取到的目标区域中商户店铺的地址数据,所述地址数据包括名称字段和地址信息,比如name:万科地产集团上海公司;address:上海市徐汇区财富中心B座写字楼24楼,其中“万科地产集团上海公司”为名称,“上海市徐汇区财富中心B座写字楼24楼”为的地址,通过对地址的经纬度解析可以获得此地址所在的经纬度信息,比如地址“上海市徐汇区财富中心B座写字楼24楼”经纬度解析得到的经纬度为:东经:102.733445北纬:25.08108。另外,需要统计该信息在互联网上出现的次数以及记录来源。
303、将目标区域划分为N个第一区域;
本实施例中,终端可以接收用户输入的目标区域,该目标区域可以为地级市城市或直辖市城市,如珠海市、深圳市、上海市等。终端可以将该目标区域的边缘(如左下角)作为坐标原点,构建一个平面坐标系(x轴,y轴)。终端可以从该平面坐标系的坐标原点开始将目标区域划分成N个固定大小的第一区域。其中,N可以为大于或等于2的整数,每个第一区域的形状可以为规则的矩形。每个城市划分的第一区域的大小可以调整,比如深圳市可以划分为多个250*250平方米的第一区域,上海市可以划分为多个320*320平方米的第一区域。
在一些可行的实施方式中,为便于区分上述目标区域划分出的N个第一区域,终端在将上述目标区域划分为N个第一区域之后,可以对该N个第一区域中的每个第一区域进行编号,得到该每个第一区域的区域编号。
304、根据名称字段,确定目标商户所属的第一区域;
本实施例中,根据目标区域对应的商户的位置数据,获取该目标区域内的各个目标商户的地理位置信息。终端可以获取上述N个第一区域中各个第一区域的地理位置信息,并可以根据该各个目标商户的地理位置信息以及该各个第一区域的地理位置信息确定该各个目标商户所属的第一区域。其中,该目标区域对应的位置数据包括目标区域内目标商户的商户标识(用于唯一标识一个商户)、商户类型(如服装、彩妆、便利店、超市、电子产品等)、所处地理位置等信息。地理位置信息可以包括经纬度或地址信息,如地理位置信息为东经E113°46'、北纬N22°27';或者地理位置信息为xx市xx区xx街道xx路xx号。
本实施例所涉及的经纬度用于表示经度和纬度的统称,即经纬度与经度和纬度同义。
例如,假设地理位置信息中包括地址。终端从目标区域对应的商户数据库中获取目标区域内各个目标商户的地址。假设目标商户A的地址为杭州市萧山区科技园科苑路15号,第一区域12的地址为杭州萧山区科技园,第一区域5的地址为深圳市南山区布心街道。终端检测到目标商户A的地址位于第一区域12内,将第一区域12确定为目标商户A所属的第一区域。又如,假设地理位置信息中包括经纬度。终端从目标区域对应的商户数据库中获取目标区域内各个目标商户的经度和纬度。假设目标商户B的经纬度为东经E113°46.50'、北纬N22°52.38',第一区域34的经纬度为东经E113°46'~E113°46.13',北纬N22°52.37'~N22°52.379',第一区域11的经纬度为东经E113°46'~E113°46.51',北纬N22°52.37'~N22°52.388'。终端检测到目标商户B的地址位于第一区域11内,将第一区域11确定为目标商户B所属的第一区域。
305、通过预置第一聚类算法对N个第一区域进行聚类,确定目标商户的聚集区域;
本实施例中,聚类是指依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入一类。各指标之间具有一定的相关关系。聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析区别于分类分析(classification analysis),后者是有监督的学习。
306、对商户的地址信息进行数据清洗,得到初始广告投放区域内目标商户的位置数据;
307、分别获取目标商户对应历史客户的位置数据,并根据预置第二聚类算法对历史客户的位置数据进行轨迹计算,确定历史客户的活动区域;
308、根据目标商户的聚集区域和历史客户的活动区域,确定预设区域内的目标广告投放区域。
本实施例中步骤301、306-308与第一实施例中的步骤101、103-105类似,此处不再赘述。
本发明实施例中,通过对获取到的目标区域内所有目标商户的地址信息进行数据清洗,得到目标商户的位置数据;根据预置第一聚类算法对目标商户的位置数据进行聚类,确定目标商户的聚集区域;获取初始广告投放区域中历史客户的位置数据,并根据预置第二聚类算法对历史客户的位置数据进行轨迹计算,确定历史客户的活动区域;基于目标商户的聚集区域和历史客户的活动区域,确定目标区域内的广告投放区域。解决了无法针对商户密度高的商圈进行精准投放营销,数据精准率低的技术问题,提高了营销效果。
请参阅图4,本发明实施例中基于大数据的广告投放方法的第四个实施例包括:
401、获取预设区域内所有目标商户的地址信息;
402、根据预置第一聚类算法对商户的地址信息进行聚类,确定预设区域内商户的聚集区域,其中,商户的聚集区域为广告投放区域的初始广告投放区域;
403、对商户的地址信息进行数据清洗,得到初始广告投放区域内目标商户的位置数据;
404、从预置数据库中获取初始广告投放区域中历史客户在预设时间内对应的位置数据;
本实施例中,历史客户在预设时间内对应的位置数据包括地理位置信息数据、及提供的与地理位置信息数据相关的各类服务信息数据,行为轨迹数据包括行程类型轨迹数据、及/或,娱乐类型轨迹数据;行程类型轨迹数据包括行程时间和行程标识(例如,中午某个时间段经常去某家餐馆吃午饭),娱乐类型轨迹数据包括娱乐时间和地址标识(例如,周末去确定的地点旅游)。
通常,移动定位服务系统用来找到移动终端用户的当前地理位置,并搜索离当前地理位置一定范围内的可提供服务的场所的名称和地址(例如,宾馆、影院、图书馆、加油站等的名称和地址),然后推荐搜索到的相关名称和地址给移动终端用户,以使移动终端用户根据推荐的名称和地址选择对应的服务。
405、调用预置第二聚类算法对获取的各个历史客户的位置数据进行轨迹计算,得到各个历史客户对应的至少一种行为轨迹数据;
本实施例中,将物理或抽象对象的集合分组成为有类似的对象组成的多个簇的过程被称为聚类计算。由聚类计算所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其它簇中的对象相异。在许多应用中,可以将一个簇中的数据对象作为一个整体来对待。聚类计算的算法很多,例如层次聚类算法,划分式聚类算法,K-means算法等等。
利用预先确定的第二聚类算法对获取的各个历史客户的位置数据进行聚类分析,以分别分析出各个用户对应的至少一种行为轨迹数据,在本实施例,预先确定的第一聚类算法为基于密度的聚类算法(例如,DBSCAN聚类算法)。
进一步地,以获取的各个历史客户的位置数据为例说明具体的聚类分析过程,首先,需要预定义核心点,核心点密度可达的区域,以及密度可达区域的边界点。在本实施例中,以获取到的各个历史客户在预设时间间隔内经常定位过的某一地理位置为核心点,例如,各个历史客户的位置数据在一个月内在中午12点钟定位餐厅E的第一次数超过了预设的次数(20次),则以该餐厅E的地理位置为核心点,若在预设的时间内(一个月内)若地理位置F被各个历史客户定位过的第二次数大于或等于第一次数,则该地理位置F为核心点B密度可达区域中的点。这样,就可以获得各个历史客户在预设时间内频繁定位过的场所,进而根据频繁定位过的场所得到各个历史客户的行为轨迹数据,例如,中午某个时间段经常去某家餐馆吃午饭,或者,周末去确定的地点旅游等。
406、基于行为轨迹数据,确定历史客户的活动区域;
本实施例中,目标用户是指在预设时间段内在预设区域内进行各种活动的用户,根据目标用户的历史定位数据进行聚类计算得到对应的聚类计算结果后,根据事先获取的目标用户的行为规律数据对聚类计算运算结果进行划分,得到目标用户在预设时间段对应的目标用户活动区域。通过本区域内历史客户的出行轨迹,确定客户活动的主要区域范围。
407、根据目标商户的聚集区域和历史客户的活动区域,确定预设区域内的目标广告投放区域。
本实施例中步骤401-403、407与第一实施例中的步骤101-103、105类似,此处不再赘述。
本发明实施例中,通过对获取到的目标区域内所有目标商户的地址信息进行数据清洗,得到目标商户的位置数据;根据预置第一聚类算法对目标商户的位置数据进行聚类,确定目标商户的聚集区域;获取初始广告投放区域中历史客户的位置数据,并根据预置第二聚类算法对历史客户的位置数据进行轨迹计算,确定历史客户的活动区域;基于目标商户的聚集区域和历史客户的活动区域,确定目标区域内的广告投放区域。解决了无法针对商户密度高的商圈进行精准投放营销,数据精准率低的技术问题,提高了营销效果。
请参阅图5,本发明实施例中基于大数据的广告投放方法的第五个实施例包括:
501、获取预设区域内所有商户的地址信息;
502、根据预置第一聚类算法对商户的地址信息进行聚类,确定预设区域内商户的聚集区域,其中,商户的聚集区域为广告投放区域的初始广告投放区域;
503、对商户的地址信息进行数据清洗,得到初始广告投放区域内目标商户的位置数据;
504、分别获取目标商户对应历史客户的位置数据,并根据预置第二聚类算法对历史客户的位置数据进行轨迹计算,确定历史客户的活动区域;
505、根据预设地标信息确定与目标商户的聚集区域匹配的精准商圈;
本实施例中,精准商圈可以是用户在进行广告投放前,选择的将要投放的商圈,例如:万象城商圈、二七商圈、万达商圈等。每个商圈有自己确定的经纬度信息,并且每个商圈中还包含了餐饮、金融等各种行业。用户在广告投放前,要确定与所述目标商户的聚集区域匹配的精准商圈。因位置信息中至少包括商圈信息、行业信息和地标信息。因此,可以从预先获取到的位置信息中获取与精准商圈信息匹配的精准商圈。
506、基于目标商户的聚集区域,获取与精准商圈匹配的至少一个特定地标;
本实施例中,从位置信息中的行业信息中查找均与精准商圈和特定行业信息匹配的至少一个特定地标。特定地标可以是在某个商圈中针对某个行业,将商圈按经纬度划分成不同的区域后,收集这些区域的广告投放量信息,设定一个阈值,当某个区域广告投放量在这个阈值范围内,则可以作为特定地标。例如,用户需要在西单商圈投放和餐饮行业相关的广告,设定一个阈值,假设广告投放量的阈值为2万~7万,根据预先获取的位置信息,输入西单商圈和餐饮之后,广告投放量在这个阈值中的只有一个区域,则可以把这个区域做成特定地标信息。
507、根据目标客户的活动区域和至少一个特定地标,确定目标区域内的目标广告投放区域;
本实施例中,根据目标客户的活动区域和该活动区域中的精准商圈(也就是潜客密集区,比如,批发类商品城,高密度小区底商商铺聚集区等)信息获取特定地标,然后根据该地标确定出广告的投放区域。根据计算出来的精准商圈,进行精准投放营销后,可以针对商户密度高的商圈进行有的放矢,重点关注,保证了投放的经济性,降低获客成本。
508、采集目标广告投放区域中多个历史用户的基础数据;
本实施例中,采集多个用户的基础数据可通过多个渠道进行获取。例如,基础数据可以是来自手机业务平台,QQ、微信、来往等实时聊天平台等。所述基础数据具体可以为用户在各个渠道作出的行为,例如基础数据可以是用户在购物平台中的购物行为,又或者可以是用户在论坛网页中浏览的论坛文章等等。
509、对基础数据进行特征提取,以生成数据标签;
本实施例中,若所述基础数据为文本格式数据,对所述基础数据进行特征提取,以生成数据标签具体为:对所述基础数据进行关键词提取,并将所提取的关键词作为所述数据标签。对所述单词列表进行关键词提取可通过预设的关键词提取算法实现。其中,预设的关键词提取算法可以为TF-IDF(Term Frequency-Inverse DocumentFrequency,词项频率-逆向文本频率)算法、LSA(Latent Semantic Analysis,隐性语义分析)算法或者PLSA(Probabilisitic Latent Semantic Analysis,概率隐性语义分析)算法等。
510、根据数据标签构建多个历史用户的用户画像;
本实施例中,假设A用户对应的数据标签为“本科”、“年龄25~30”、“医生”、;B用户对应的数据标签为“研究生”、“年龄30~35”、“律师”。则A用户的用户画像为“本科”、“年龄25~30”、“医生”,B用户的用户画像为“研究生”、“年龄30~35”、“律师”。用户画像数据库中可包括多个用户画像,通过为每一个用户画像设定画像标识符以区分不同用户的用户画像。
511、根据用户画像,筛选与用户画像匹配的广告,并将广告投放至目标广告投放区域。
本实施例中,根据所述用户画像,选取在该广告区域内最合适的广告进行投放。比如,若与所述当前用户的用户画像相匹配的用户对餐饮和护肤品化妆品等娱乐消费产品的购买可能性较大,此时,该区域投放对应行业的产品,广告投放的收益比将会更高。综合考虑了历史客群申请情况,可以保证投放后获得客户的营销效果。
本实施例中步骤501-504与第一实施例中的101-104类似,此处不再赘述。
在本发明实施例中,通过对获取到的目标区域内所有目标商户的地址信息进行数据清洗,得到目标商户的位置数据;根据预置第一聚类算法对目标商户的位置数据进行聚类,确定目标商户的聚集区域;获取初始广告投放区域中历史客户的位置数据,并根据预置第二聚类算法对历史客户的位置数据进行轨迹计算,确定历史客户的活动区域;基于目标商户的聚集区域和历史客户的活动区域,确定目标区域内的广告投放区域。解决了无法针对商户密度高的商圈进行精准投放营销,数据精准率低的技术问题,提高了营销效果。
上面对本发明实施例中基于大数据的广告投放方法进行了描述,下面对本发明实施例中基于大数据的广告投放装置进行描述,请参阅图6,本发明实施例中基于大数据的广告投放装置的第一个实施例包括:
解析模块601,用于获取预设区域内所有商户的地址信息;
聚类模块602,用于根据预置第一聚类算法对所述商户的地址信息进行聚类,确定所述预设区域内商户的聚集区域,其中,所述商户的聚集区域为广告投放区域的初始广告投放区域;
数据清洗模块603,用于对所述商户的地址信息进行数据清洗,得到所述初始广告投放区域内目标商户的位置数据,其中,所述目标商户的位置数据包括名称字段和地址信息;
计算模块604,用于分别获取所述目标商户对应历史客户的位置数据,并根据预置第二聚类算法对所述历史客户的位置数据进行轨迹计算,确定所述历史客户的活动区域;
确定模块605,用于根据所述目标商户的聚集区域和所述历史客户的活动区域,确定所述预设区域内的目标广告投放区域。
本发明实施例中,通过对获取到的目标区域内所有目标商户的地址信息进行数据清洗,得到目标商户的位置数据;根据预置第一聚类算法对目标商户的位置数据进行聚类,确定目标商户的聚集区域;获取初始广告投放区域中历史客户的位置数据,并根据预置第二聚类算法对历史客户的位置数据进行轨迹计算,确定历史客户的活动区域;基于目标商户的聚集区域和历史客户的活动区域,确定目标区域内的广告投放区域。解决了无法针对商户密度高的商圈进行精准投放营销,数据精准率低的技术问题,提高了营销效果。
请参阅图7,本发明实施例中基于大数据的广告投放装置的第二个实施例,该基于大数据的广告投放装置具体包括:
解析模块601,用于获取预设区域内所有商户的地址信息;
聚类模块602,用于根据预置第一聚类算法对所述商户的地址信息进行聚类,确定所述预设区域内商户的聚集区域,其中,所述商户的聚集区域为广告投放区域的初始广告投放区域;
数据清洗模块603,用于对所述商户的地址信息进行数据清洗,得到所述初始广告投放区域内目标商户的位置数据,其中,所述目标商户的位置数据包括名称字段和地址信息,所述目标商户是指所述初始广告投放区域内所有的商户;
计算模块604,用于分别获取所述目标商户对应历史客户的位置数据,并根据预置第二聚类算法对所述历史客户的位置数据进行轨迹计算,确定所述历史客户的活动区域;
确定模块605,用于根据所述目标商户的聚集区域和所述历史客户的活动区域,确定所述预设区域内的目标广告投放区域。
本实施例中,所述基于大数据的广告投放装置还包括:
采集模块606,用于采集所述目标广告投放区域中多个历史用户的基础数据,其中,所述用户基础数据包括所述用户的个人信息数据、消费记录数据以及出行轨迹数据;
特征提取模块607,用于对所述基础数据进行特征提取,以生成数据标签;
构建模块608,用于根据所述数据标签,构建所述多个历史用户的用户画像;
投放模块609,用于根据所述用户画像,筛选与所述用户画像匹配的广告,并将所述广告投放至所述目标广告投放区域。
本实施例中,所述数据清洗模块602具体用于:
接收数据清洗请求,其中,所述数据清洗请求包括用户输入的查询关键字,所述数据清洗是指过滤不符合要求的数据;
根据所述数据清洗请求,确定数据清洗规则,其中,所述数据清洗规则包括:清洗特征因子和所述清洗特征因子满足的清洗条件;
获取目标区域内所有目标商户的地址信息,根据所述目标商户的地址信息确定所述清洗特征因子对应的特征因子值;
根据所述数据清洗规则和所述特征因子值对所述待清洗数据进行清洗,得到目标商户的位置数据。
本实施例中,所述聚类模块603包括:
第一确定单元6031,用于确定所述目标商户的位置数据中包含的所有名称字段;
划分单元6032,用于将所述目标区域划分为N个第一区域;
第二确定单元6033,用于根据所述名称字段,确定所述目标商户所属的第一区域;
聚类单元6034,用于通过预置第一聚类算法对所述N个第一区域进行聚类,确定所述目标商户的聚集区域。
本实施例中,所述计算模块604具体用于:
从预置数据库中获取所述初始广告投放区域中历史客户在预设时间内对应的位置数据;
调用预置第二聚类算法对获取的各个历史客户的位置数据进行轨迹计算,得到各个历史客户对应的至少一种行为轨迹数据;
基于所述行为轨迹数据,确定所述历史客户的活动区域。
本实施例中,所述确定模块605具体用于:
根据预设地标信息确定与所述目标商户的聚集区域匹配的精准商圈;
基于所述目标商户的聚集区域,获取与所述精准商圈匹配的至少一个特定地标;
根据所述目标客户的活动区域和所述至少一个特定地标,确定所述目标区域内的目标广告投放区域。
本发明实施例中,通过对获取到的目标区域内所有目标商户的地址信息进行数据清洗,得到目标商户的位置数据;根据预置第一聚类算法对目标商户的位置数据进行聚类,确定目标商户的聚集区域;获取初始广告投放区域中历史客户的位置数据,并根据预置第二聚类算法对历史客户的位置数据进行轨迹计算,确定历史客户的活动区域;基于目标商户的聚集区域和历史客户的活动区域,确定目标区域内的广告投放区域。解决了无法针对商户密度高的商圈进行精准投放营销,数据精准率低的技术问题,提高了营销效果。
上面图6和图7从模块化功能实体的角度对本发明实施例中的基于大数据的广告投放装置进行详细描述,下面从硬件处理的角度对本发明实施例中基于大数据的广告投放设备进行详细描述。
图8是本发明实施例提供的一种基于大数据的广告投放设备的结构示意图,该基于大数据的广告投放设备800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)810(例如,一个或一个以上处理器)和存储器820,一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对基于大数据的广告投放设备800中的一系列指令操作。更进一步地,处理器810可以设置为与存储介质830通信,在基于大数据的广告投放设备800上执行存储介质830中的一系列指令操作,以实现上述各方法实施例提供的基于大数据的广告投放方法的步骤。
基于大数据的广告投放设备800还可以包括一个或一个以上电源840,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口860,和/或,一个或一个以上操作系统831,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图8示出的基于大数据的广告投放设备结构并不构成对本申请提供的基于大数据的广告投放设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行上述基于大数据的广告投放方法的步骤。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本发明中,各目标商户的位置数据可存储于区块链中和目标商户中历史客户的位置数据均可以存储于区块链中。
所述领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于大数据的广告投放方法,其特征在于,所述基于大数据的广告投放方法包括:
获取预设区域内所有商户的地址信息,其中,所述预设区域是待投放广告的区域;
根据预置第一聚类算法对所述商户的地址信息进行聚类,确定所述预设区域内商户的聚集区域,其中,所述商户的聚集区域为广告投放区域的初始广告投放区域;
对所述商户的地址信息进行数据清洗,得到所述初始广告投放区域内目标商户的位置数据,其中,所述目标商户的位置数据包括名称字段和地址信息,所述目标商户是指所述初始广告投放区域内所有的商户;
分别获取所述目标商户对应历史客户的位置数据,并根据预置第二聚类算法对所述历史客户的位置数据进行轨迹计算,确定所述历史客户的活动区域;
根据所述目标商户的聚集区域和所述历史客户的活动区域,确定所述预设区域内的目标广告投放区域。
2.根据权利要求1所述的基于大数据的广告投放方法,其特征在于,所述对所述商户的地址信息进行数据清洗,得到所述初始广告投放区域内目标商户的位置数据包括:
接收数据清洗请求,其中,所述数据清洗请求包括用户输入的查询关键字,所述数据清洗是指过滤不符合要求的数据;
根据所述数据清洗请求,确定数据清洗规则,其中,所述数据清洗规则包括:清洗特征因子和所述清洗特征因子满足的清洗条件;
获取目标区域内所有目标商户的地址信息,根据所述目标商户的地址信息确定所述清洗特征因子对应的特征因子值;
根据所述数据清洗规则和所述特征因子值对所述待清洗数据进行清洗,得到目标商户的位置数据。
3.根据权利要求1所述的基于大数据的广告投放方法,其特征在于,所述根据预置第一聚类算法对所述商户的地址信息进行聚类,确定所述预设区域内商户的聚集区域包括:
确定所述目标商户的位置数据中包含的所有名称字段;
将所述目标区域划分为N个第一区域;
根据所述名称字段,确定所述目标商户所属的第一区域;
通过预置第一聚类算法对所述N个第一区域进行聚类,确定所述目标商户的聚集区域。
4.根据权利要求3所述的基于大数据的广告投放方法,其特征在于,所述分别获取所述目标商户对应历史客户的位置数据,并根据预置第二聚类算法对所述历史客户的位置数据进行轨迹计算,确定所述历史客户的活动区域包括:
从预置数据库中获取所述初始广告投放区域中历史客户在预设时间内对应的位置数据;
调用预置第二聚类算法对获取的各个历史客户的位置数据进行轨迹计算,得到各个历史客户对应的至少一种行为轨迹数据;
基于所述行为轨迹数据,确定所述历史客户的活动区域。
5.根据权利要求3所述的基于大数据的广告投放方法,其特征在于,所述根据所述目标商户的聚集区域和所述历史客户的活动区域,确定所述预设区域内的目标广告投放区域包括:
根据预设地标信息确定与所述目标商户的聚集区域匹配的精准商圈;
基于所述目标商户的聚集区域,获取与所述精准商圈匹配的至少一个特定地标;
根据所述目标客户的活动区域和所述至少一个特定地标,确定所述目标区域内的目标广告投放区域。
6.根据权利要求1所述的基于大数据的广告投放方法,其特征在于,在所述根据所述目标商户的聚集区域和所述历史客户的活动区域,确定所述预设区域内的目标广告投放区域之后,还包括:
采集所述目标广告投放区域中多个历史用户的基础数据,其中,所述用户的基础数据包括所述用户的个人信息数据、消费记录数据以及出行轨迹数据;
对所述基础数据进行特征提取,以生成数据标签;
根据所述数据标签构建所述多个历史用户的用户画像;
根据所述用户画像,筛选与所述用户画像匹配的广告,并将所述广告投放至所述目标广告投放区域。
7.一种基于大数据的广告投放装置,其特征在于,所述基于大数据的广告投放装置包括:
解析模块,用于获取预设区域内所有商户的地址信息;
聚类模块,用于根据预置第一聚类算法对所述商户的地址信息进行聚类,确定所述预设区域内商户的聚集区域,其中,所述商户的聚集区域为广告投放区域的初始广告投放区域;
数据清洗模块,用于对所述商户的地址信息进行数据清洗,得到所述初始广告投放区域内目标商户的位置数据,其中,所述目标商户的位置数据包括名称字段和地址信息,所述目标商户是指所述初始广告投放区域内所有的商户;
计算模块,用于分别获取所述目标商户对应历史客户的位置数据,并根据预置第二聚类算法对所述历史客户的位置数据进行轨迹计算,确定所述历史客户的活动区域;
确定模块,用于根据所述目标商户的聚集区域和所述历史客户的活动区域,确定所述预设区域内的目标广告投放区域。
8.根据权利要求7所述的基于大数据的广告投放装置,其特征在于,所述基于大数据的广告投放装置还包括:
采集模块,用于采集所述目标广告投放区域中多个历史用户的基础数据,其中,所述用户基础数据包括所述用户的个人信息数据、消费记录数据以及出行轨迹数据;
特征提取模块,用于对所述基础数据进行特征提取,以生成数据标签;
构建模块,用于根据所述数据标签,构建所述多个历史用户的用户画像;
投放模块,用于根据所述用户画像,筛选与所述用户画像匹配的广告,并将所述广告投放至所述目标广告投放区域。
9.一种基于大数据的广告投放设备,其特征在于,所述基于大数据的广告投放设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于大数据的广告投放设备执行如权利要求1-6中任一项所述的基于大数据的广告投放方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的基于大数据的广告投放方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110209011.0A CN112819544A (zh) | 2021-02-25 | 2021-02-25 | 基于大数据的广告投放方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110209011.0A CN112819544A (zh) | 2021-02-25 | 2021-02-25 | 基于大数据的广告投放方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112819544A true CN112819544A (zh) | 2021-05-18 |
Family
ID=75865391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110209011.0A Pending CN112819544A (zh) | 2021-02-25 | 2021-02-25 | 基于大数据的广告投放方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112819544A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113342915A (zh) * | 2021-06-22 | 2021-09-03 | 深圳壹账通智能科技有限公司 | 地址脱敏方法、装置、电子设备及存储介质 |
CN116894699A (zh) * | 2023-09-11 | 2023-10-17 | 太逗科技集团有限公司 | 一种自适应视频广告投放系统 |
CN117436952A (zh) * | 2023-09-28 | 2024-01-23 | 书行科技(北京)有限公司 | 广告受众的确定方法及相关产品 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934618A (zh) * | 2019-01-31 | 2019-06-25 | 北京三快在线科技有限公司 | 一种广告投放区域推荐方法、装置、设备及可读存储介质 |
CN110009401A (zh) * | 2019-03-18 | 2019-07-12 | 康美药业股份有限公司 | 基于用户画像的广告投放方法、装置和存储介质 |
CN110335068A (zh) * | 2019-06-18 | 2019-10-15 | 平安普惠企业管理有限公司 | 一种商户聚集区域确定方法及装置 |
CN110969466A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 一种确定广告投放区域的方法和装置 |
CN112347214A (zh) * | 2020-11-06 | 2021-02-09 | 平安科技(深圳)有限公司 | 目标区域划分方法、装置、电子设备及存储介质 |
-
2021
- 2021-02-25 CN CN202110209011.0A patent/CN112819544A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110969466A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 一种确定广告投放区域的方法和装置 |
CN109934618A (zh) * | 2019-01-31 | 2019-06-25 | 北京三快在线科技有限公司 | 一种广告投放区域推荐方法、装置、设备及可读存储介质 |
CN110009401A (zh) * | 2019-03-18 | 2019-07-12 | 康美药业股份有限公司 | 基于用户画像的广告投放方法、装置和存储介质 |
CN110335068A (zh) * | 2019-06-18 | 2019-10-15 | 平安普惠企业管理有限公司 | 一种商户聚集区域确定方法及装置 |
CN112347214A (zh) * | 2020-11-06 | 2021-02-09 | 平安科技(深圳)有限公司 | 目标区域划分方法、装置、电子设备及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113342915A (zh) * | 2021-06-22 | 2021-09-03 | 深圳壹账通智能科技有限公司 | 地址脱敏方法、装置、电子设备及存储介质 |
CN116894699A (zh) * | 2023-09-11 | 2023-10-17 | 太逗科技集团有限公司 | 一种自适应视频广告投放系统 |
CN116894699B (zh) * | 2023-09-11 | 2023-11-17 | 太逗科技集团有限公司 | 一种自适应视频广告投放系统 |
CN117436952A (zh) * | 2023-09-28 | 2024-01-23 | 书行科技(北京)有限公司 | 广告受众的确定方法及相关产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | A trajectory clustering approach based on decision graph and data field for detecting hotspots | |
Dong et al. | Predicting neighborhoods’ socioeconomic attributes using restaurant data | |
Liu et al. | Automated identification and characterization of parcels with OpenStreetMap and points of interest | |
CN106570722B (zh) | 一种智能推荐系统及智能推荐方法 | |
Yuan et al. | Discovering urban functional zones using latent activity trajectories | |
Le Falher et al. | Where is the Soho of Rome? Measures and algorithms for finding similar neighborhoods in cities | |
Fu et al. | Identifying spatiotemporal urban activities through linguistic signatures | |
CN112819544A (zh) | 基于大数据的广告投放方法、装置、设备及存储介质 | |
CN105719191B (zh) | 多尺度空间下不确定行为语义的社交群体发现方法 | |
Agryzkov et al. | Analysing successful public spaces in an urban street network using data from the social networks Foursquare and Twitter | |
CN112861972B (zh) | 一种展业区域的选址方法、装置、计算机设备和介质 | |
CN111949834A (zh) | 选址方法和选址平台 | |
JP6725718B2 (ja) | 位置基盤情報探索方法およびコンピュータ装置 | |
KR20170025454A (ko) | 소셜 미디어 데이터의 시공간 분석 시스템 및 방법 | |
McKenzie et al. | Measuring urban regional similarity through mobility signatures | |
Jia et al. | Measuring the vibrancy of urban neighborhoods using mobile phone data with an improved PageRank algorithm | |
CN106030627A (zh) | 真实世界位置的基于位置的评级 | |
Yuan et al. | Exploring the effectiveness of location‐based social media in modeling user activity space: A case study of Weibo | |
Lansley et al. | Challenges to representing the population from new forms of consumer data | |
Chen et al. | An analysis of movement patterns between zones using taxi GPS data | |
CN111209487A (zh) | 用户数据分析方法、服务器及计算机可读存储介质 | |
Rodríguez-Echeverría et al. | Density-based spatial clustering and ordering points approach for characterizations of tourist behaviour | |
Kilic et al. | Effects of reverse geocoding on OpenStreetMap tag quality assessment | |
Nuzir et al. | Dynamic Land-Use Map Based on Twitter Data. | |
Vavpotič et al. | Using a market basket analysis in tourism studies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210518 |
|
WD01 | Invention patent application deemed withdrawn after publication |