CN116757737A - 基于地址信息的营销方法及装置 - Google Patents

基于地址信息的营销方法及装置 Download PDF

Info

Publication number
CN116757737A
CN116757737A CN202311001180.0A CN202311001180A CN116757737A CN 116757737 A CN116757737 A CN 116757737A CN 202311001180 A CN202311001180 A CN 202311001180A CN 116757737 A CN116757737 A CN 116757737A
Authority
CN
China
Prior art keywords
address
data
address information
new client
grid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311001180.0A
Other languages
English (en)
Other versions
CN116757737B (zh
Inventor
康科
谢曦霖
马志俊
樊雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mountain View Intelligent Beijing Technology Co ltd
Original Assignee
Mountain View Intelligent Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mountain View Intelligent Beijing Technology Co ltd filed Critical Mountain View Intelligent Beijing Technology Co ltd
Priority to CN202311001180.0A priority Critical patent/CN116757737B/zh
Publication of CN116757737A publication Critical patent/CN116757737A/zh
Application granted granted Critical
Publication of CN116757737B publication Critical patent/CN116757737B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0204Market segmentation
    • G06Q30/0205Location or geographical consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Remote Sensing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于地址信息的营销方法及装置,该方法包括:获取客户和商户的地址信息;根据所述地址信息,构建倒排索引表;在获得新客户的地址信息后,基于新客户的地址信息中的关键词检索倒排索引表,获得新客户的候选地址数据;将新客户的地址信息与新客户的候选地址数据进行匹配,获得匹配地址;将新客户划分至匹配地址对应的地址网格中,所述地址网格是对地理空间进行划分获得的;基于地址网格中的画像数据,对新客户进行营销分析。本发明可以将客户地址和营销地址进行精确匹配,使得更能准确地分析客户地址数据与营销地址的关系,实现精准营销。

Description

基于地址信息的营销方法及装置
技术领域
本发明涉及金融技术领域,尤其涉及基于地址信息的营销方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
目前针对客户的营销方案多种多样,但是因为考虑的因素不全,都不能做到精准营销。现有的营销方案存在的问题是:
(1)人工效率低:网格化推进过程中大量资源和精力被投入于客户的识别和分类,网点营销人员投入和产出不平衡,网格化营销效果不理想。
(2)睡眠客户服务网点不匹配:大量睡眠客户归属机构与实际日常活动区域不匹配,客户处于服务盲区,流失风险高。
(3)营销资源错配:营销活动的资源供给和客户的需求不匹配。在缺乏数据支撑的情况下,网点组织营销活动受原始路径依赖影响,客户群体单一,无法满足细分客群的个性化诉求和特定需求。
因此,目前需要一种更优化的针对客户的营销方案。
发明内容
本发明实施例提供一种基于地址信息的营销方法,用以将客户地址和营销地址进行精确匹配,使得更能准确地分析客户地址数据与营销地址的关系,实现精准营销,该方法包括:
获取客户和商户的地址信息;
根据所述地址信息,构建倒排索引表;
在获得新客户的地址信息后,基于新客户的地址信息中的关键词检索倒排索引表,获得新客户的候选地址数据;
将新客户的候选地址数据与候选的地址信息进行匹配,获得匹配地址;
将新客户划分至匹配地址对应的地址网格中,所述地址网格是对地理空间进行划分获得的;
基于地址网格中的画像数据,对新客户进行营销分析。
本发明实施例还提供一种基于地址信息的营销装置,用以将客户地址和营销地址进行精确匹配,使得更能准确地分析客户地址数据与营销地址的关系,实现精准营销,该装置包括:
地址信息获取模块,用于获取客户和商户的地址信息;
倒排索引表构建模块,用于根据所述地址信息,构建倒排索引表;
检索模块,用于在获得新客户的地址信息后,基于新客户的地址信息中的关键词检索倒排索引表,获得新客户的候选地址数据;
匹配模块,用于将新客户的候选地址数据与新客户的地址信息进行匹配,获得匹配地址;
新客户划分模块,用于将新客户划分至匹配地址对应的地址网格中,所述地址网格是对地理空间进行划分获得的;
营销分析模块,用于基于地址网格中的画像数据,对新客户进行营销分析。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于地址信息的营销方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于地址信息的营销方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述基于地址信息的营销方法。
本发明实施例中,获取客户和商户的地址信息;根据所述地址信息,构建倒排索引表;在获得新客户的地址信息后,基于新客户的地址信息中的关键词检索倒排索引表,获得新客户的候选地址数据;将新客户的地址信息与新客户的候选地址数据进行匹配,获得匹配地址;将新客户划分至匹配地址对应的地址网格中,所述地址网格是对地理空间进行划分获得的;基于地址网格中的画像数据,对新客户进行营销分析。与现有技术中相比,本发明实施例通过倒排索引,解决了后续需要进行匹配时检索量大,匹配速度慢的问题;将新客户划分至匹配地址对应的地址网格中,实现了对客户的精准定位;对新客户进行营销分析时,充分考虑了准确定位后的地址网格中的画像数据,实现了精准营销。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中基于地址信息的营销方法的流程图;
图2为本发明实施例中构建倒排索引表的流程图;
图3为本发明实施例中对地址信息进行预处理的流程图;
图4为本发明实施例中将所述地址信息转换为候选地址数据的流程图;
图5为本发明实施例中进行网格划分的流程图;
图6为本发明实施例中获得每个地址网格中的画像数据的流程图;
图7为本发明实施例中对新客户进行营销分析的流程图;
图8为本发明实施例中基于地址信息的营销装置的示意图;
图9为本发明实施例中基于地址信息的营销装置的又一示意图;
图10为本发明实施例中基于地址信息的营销装置的再一示意图;
图11为本发明实施例中计算机设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
首先,对本发明实施例中涉及的术语进行解释。
1. 编辑距离
编辑距离(Edit Distance),又称 Levenshtein Distance,是指两个字串之间,由一个转换成另一个所需的最少编辑操作次数,如果它们的编辑距离越大,说明它们越是不同。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符等。编辑距离的大小一定程度反映了两个字符串的相似程度。
2. 杰卡德距离
杰卡德距离 (Jaccard Distance),也称杰卡德系数,是用来衡量两个集合差异性的一种指标,常用于文本查重。杰卡德距离的计算方式也很简单,按照以下方式计算即可:
去掉junk字符。junk字符就是不希望计入匹配的字词,可以自定义。
计算两字符串之间所有匹配片段的长度之和M,则杰卡德距离的计算公式:两字符串长度之和若两个字符串完全相同,则结果为1,完全不相同结果为0。其结果将会在区间[0,1] 之间。举个例子,计算以下两个字符串的杰卡德系数:
S1 = '今天中午吃什么'
S2 = '今天中午什么都不想吃'
默认不添加junk字符,那么S1中的7个字符都能在S2中匹配到同样的字符,所有匹配片段的长度就是7,则杰卡德系数的计算公式是7×2/(7+10),计算结果为0.8235294117647058。
3. 余弦相似度
余弦相似度就是通过一个向量空间中两个向量夹角的余弦值作为衡量两个个体之间差异的大小。把1设为相同,0设为不同,那么相似度的值就是在0~1之间,所有的事物的相似度范围都应该是0 ~1。余弦相似度的特点是余弦值接近于1,夹角趋于0,表明两个向量越相似。根据这种理论,将文本转化为向量,再计算其余弦相似度即可。
图1为本发明实施例中基于地址信息的营销方法的流程图,基于地址信息的营销方法包括:
步骤101,获取客户和商户的地址信息;
步骤102,根据所述地址信息,构建倒排索引表;
步骤103,在获得新客户的地址信息后,基于新客户的地址信息中的关键词检索倒排索引表,获得新客户的候选地址数据;
步骤104,将新客户的地址信息与新客户的候选地址数据进行匹配,获得匹配地址;
步骤105,将新客户划分至匹配地址对应的地址网格中,所述地址网格是对地理空间进行划分获得的;
步骤106,基于地址网格中的画像数据,对新客户进行营销分析。
本发明实施例通过倒排索引,解决了后续需要进行匹配时检索量大,匹配速度慢的问题;将新客户划分至匹配地址对应的地址网格中,实现了对客户的精准定位;对新客户进行营销分析时,充分考虑了准确定位后的地址网格中的画像数据,实现了精准营销。
下面进行详细介绍。
在步骤101,步骤101,获取客户和商户的地址信息;
其中,客户的地址信息为行内数据,上述的地址信息为外部数据;行内数据还包括银行客户基础信息、资产信息、交易信息等;外部数据还包括经纬度信息的地址数据、客户和商户的住宅等关键地理位置信息。
在步骤102,根据所述地址信息,构建倒排索引表;
参见图2,在一实施例中,根据所述地址信息,构建倒排索引表,包括:
步骤201,将所述地址信息转换为候选地址数据;
步骤202,根据所述候选地址数据,构建倒排索引表。
在一实施例中,在将所述地址信息转换为候选地址数据之前,还包括:
对所述地址信息进行预处理;
将所述地址信息转换为候选地址数据,包括:
将预处理后的地址信息转换为候选地址数据。
由于地址信息数据量较大,且存在信息缺失、编码不统一等类型数据质量问题,因此按预设周期(例如,月)为单位进行数据清洗和汇总,在进行数据清洗前,根据建模关键字段对地址数据的空值进行剔除。
参见图3,在一实施例中,对所述地址信息进行预处理,包括:
步骤301,按照预设周期,对地址信息中的空值进行剔除处理;
步骤302,对剔除处理后的地址信息进行数据清洗和汇总。具体地,数据清洗和汇总包括去掉文本地址中的特殊字符(如:?、*、%等),其次去掉以数字结尾的数字字符并删除“单元”后的字符。
参见图4,在一实施例中,将所述地址信息转换为候选地址数据,包括:
步骤401,对地址信息进行解析,将地址信息结构化输出为多个区域级别的字段数据和区域代码,所述区域代码为多个区域级别中最小区域的行政代码;
由于客户地址存在填写不详细和不规范的问题,因此需要将地址中的省、市、区补全,转化为候选地址数据,候选地址数据为结构化地址数据。本发明实施例使用CPCA库对地址信息进行解析,将地址信息结构化输出为省、市、区县、详细地址、行政区划代码五个字段,其中,省、市、区县、详细地址为多个区域级别的字段,行政区划代码为区域代码,为针对区县的区域代码。表1为一个示例。
表1
步骤402,将多个区域级别的字段数据和区域代码作为预处理后的地址信息的候选地址数据。
在一实施例中,根据所述候选地址数据,构建倒排索引表,包括:
将候选地址数据根据区域代码进行分组,对每个分组构建单独的倒排索引表。
具体实施时,由于计算资源有限,使用全量地址信息遍历搜索时,容易存在内存资源不足,匹配速度慢的问题,因此本发明实施例使用了倒排索引技术。在构建倒排索引表时,先将候选地址数据根据区域代码进行分组,对每个分组构建单独的倒排索引表,即对每个区县构建单独的倒排索引表,保证在匹配过程中区县保持一致。
在步骤103,在获得新客户的地址信息后,基于新客户的地址信息中的关键词检索倒排索引表,获得新客户的候选地址数据;
本发明实施例通过前面分组获得了多个倒排索引表,这里可先根据地址信息中的区域代码,找到对应的倒排索引表,然后根据关键词进行检索,不仅减小内存消耗,而且后续匹配速度显著提升。
在步骤104,将新客户的地址信息与新客户的候选地址数据进行匹配,获得匹配地址;
在一实施例中,基于新客户的地址信息中的关键词检索倒排索引表,获得新客户的候选地址数据,包括:
基于新客户的地址信息中的关键词检索倒排索引表,获得新客户的至少一个候选地址数据;
由于地址信息的不准确性,可能从倒排索引表检索到多个相关的候选地址数据;
将新客户的地址信息与新客户的候选地址数据进行匹配,获得匹配地址,包括:
对每个候选地址数据,计算该候选地址数据与新客户的地址信息的编辑距离;
选择编辑距离最小的候选地址数据作为匹配地址。
具体实施时,也可以根据编辑距离阈值筛选获得匹配地址。
在本发明实施例中,可以计算该候选地址数据与新客户的地址信息的编辑距离,还可以计算杰卡德距离、余弦相似度,来分析匹配地址,相关变化例均应落入本发明的保护范围。
在步骤105,将新客户划分至匹配地址对应的地址网格中,所述地址网格是对地理空间进行划分获得的;
本发明实施例需要进行网格构建,网格构建的基本思路是借鉴无监督学习中层次聚类的思想,将地理空间上分布接近和密集的地点优先聚集,依据一定的距离阈值形成聚类的簇,在此基础上结合地点和区县边界构建泰勒多边形形成彼此相连的网格。
参见图5,所述方法还包括:
采用如下步骤对地理空间进行网格划分,获得地址网格:
步骤501,对地理空间的经纬度数据进行区域等积投影,获得地址的平面坐标;
由于层次聚类主要根据地理空间中地点之间的相似度(即空间距离)来进行聚合,因此需要计算地点之间的距离值,而经纬度数据是基于椭球的球面坐标系数据需要按照计算椭球弧度来方式来计算距离,此方法较为繁琐且存在一定误差。
为简化地点之间的距离计算,本发明实施例选择对地址经纬度数据进行区域等积投影,在尽可能小的精度损失下将经纬度转换为平面坐标。
步骤502,根据地址的平面坐标,计算地址之间的欧式距离;
步骤503,使用Birch算法,以预设的半径对地址的平面坐标进行合并,得到中心点数据;
完成投影后,得到地址的平面坐标(x,y)后,直接对平面坐标的数据进行层次聚类将需要存储一个数量级很大的的距离矩阵,这将消耗大量的内存和计算量。因此为减少建模对内存和时间的消耗,需要对坐标进行进一步压缩。
通过抽样分析发现:大量数据点在空间分布上非常密集,因此使用Birch算法以适当的半径对坐标进行合并。Birch算法通过建立聚类特征树(CFT)将给定数据按照距离远近压缩成特征树的叶节点(CF Nodes)。基于该特点,Birch算法能够对较大量级的数据进行压缩,并能输出中心点数据作为下一步全局层次聚类的数据点。
步骤504,对中心点数据进行层次聚类计算,得到聚类簇,确定中心点数据所归属的簇标签;
经过Birch算法压缩后,可以得到中心点数据,相较于原始数据点的数量大幅减少。借助scipy库的scipy.cluster.hierarchy完成对Birch中心点数据的层次聚类计算,得到聚类簇,确定中心点数据所归属的簇标签。
步骤505,根据聚类簇和中心点数据所归属的簇标签,生成多个泰森多边形,确定多个泰森多边形为划分的多个地址网格。
得到所有中心数据点所归属的簇标签,但是还未完成对地理区域的完整划分。因此格网构建的最后一步为泰森多边形的生成。
泰森多边形是对空间平面的一种剖分,其特点是多边形内的任何位置离该多边形的样点的距离最近,离相邻多边形内样点的距离远,且每个多边形内含且仅包含一个样点。由于泰森多边形在空间剖分上的等分性特征,因此可用于解决最近点、最小封闭圆等问题,以及许多空间分析问题,如邻接、接近度和可达性分析等。
在步骤106,基于地址网格中的画像数据,对新客户进行营销分析。
参见图6,在一实施例中,所述方法还包括:
采用如下步骤,获得每个地址网格中的画像数据:
步骤601,统计地址网格中所有客户和商户;
步骤602,根据所有客户的数据,分析客户的特征数据;所有客户可称为行内CRM客户;客户的特征数据包括客户基本信息特征、客户产品持有信息特征、客户资产信息特征等,还包括客户的资产情况、年龄分布、性别分布等多维特征。
步骤603,根据所有商户的数据,分析商户的特征数据;所有商户可称为POI数据;商户的特征数据包括餐饮服务、生活服务、购物服务、体育休闲服务、公司企业和商务住宅等特征;
步骤604,将客户的特征数据和商户的特征数据形成网格特征数据宽表,作为地址网格中的画像数据。
网格特征数据宽表是对上述特征数据的汇总,可包括100+维度。
参见图7,在一实施例中,基于地址网格中的画像数据,对新客户进行营销分析,包括:
步骤701,确定地址网格的网格编号;
可利用经纬度数据和网格边界数据判断地址网格所在的网格编号;
步骤702,对地址网格中的画像数据进行分析,分析该网格编号内的客户的客群行为特征;
客群行为特征包括客户人口、资产属性及相关产品;
步骤703,根据所述客群行为特征,设计营销活动;
步骤704,确定营销活动在不同渠道的触发方式。
根据不同触达渠道的特色实施差异化的触达策略,充分发掘商圈周边人口分布及资产情况。
通过上述过程,可以精准获取其周边行内客户和潜在客户分布以及画像等信息,在此基础上根据营销目的联合商户开展特色消费,构建经营活动矩阵,提升客户黏性。
综上所述,在本发明实施例提出的方法中,获取客户和商户的地址信息;根据所述地址信息,构建倒排索引表;在获得新客户的地址信息后,基于新客户的地址信息中的关键词检索倒排索引表,获得新客户的候选地址数据;将新客户的地址信息与新客户的候选地址数据进行匹配,获得匹配地址;将新客户划分至匹配地址对应的地址网格中,所述地址网格是对地理空间进行划分获得的;基于地址网格中的画像数据,对新客户进行营销分析。与现有技术中相比,本发明实施例通过倒排索引,解决了后续需要进行匹配时检索量大,匹配速度慢的问题;将新客户划分至匹配地址对应的地址网格中,实现了对客户的精准定位;对新客户进行营销分析时,充分考虑了准确定位后的地址网格中的画像数据,实现了精准营销。解决了营销过程中地址数据不规范、信息不匹配而导致的营销覆盖率低的问题,使得地址信息匹配效率及准确率相较于银行传统方法有了质的飞跃,具备良好的可移植性及可复用性,可应对不同场景的地址匹配需求。
本发明实施例中还提供了一种基于地址信息的营销装置,如下面的实施例所述。由于该装置解决问题的原理与基于地址信息的营销方法相似,因此该装置的实施可以参见基于地址信息的营销方法的实施,重复之处不再赘述。
图8为本发明实施例中基于地址信息的营销装置的示意图,包括:
地址信息获取模块801,用于获取客户和商户的地址信息;
倒排索引表构建模块802,用于根据所述地址信息,构建倒排索引表;
检索模块803,用于在获得新客户的地址信息后,基于新客户的地址信息中的关键词检索倒排索引表,获得新客户的候选地址数据;
匹配模块804,用于将新客户的地址信息与新客户的候选地址数据进行匹配,获得匹配地址;
新客户划分模块805,用于将新客户划分至匹配地址对应的地址网格中,所述地址网格是对地理空间进行划分获得的;
营销分析模块806,用于基于地址网格中的画像数据,对新客户进行营销分析。
在一实施例中,倒排索引表构建模块具体用于:
将所述地址信息转换为候选地址数据;
根据所述候选地址数据,构建倒排索引表。
在一实施例中,倒排索引表构建模块具体用于:
在将所述地址信息转换为候选地址数据之前,对所述地址信息进行预处理;
将所述地址信息转换为候选地址数据,包括:
将预处理后的地址信息转换为候选地址数据。
在一实施例中,倒排索引表构建模块具体用于:
按照预设周期,对地址信息中的空值进行剔除处理;
对剔除处理后的地址信息进行数据清洗和汇总。
在一实施例中,倒排索引表构建模块具体用于:
对地址信息进行解析,将地址信息结构化输出为多个区域级别的字段数据和区域代码,所述区域代码为多个区域级别中最小区域的行政代码;
将多个区域级别的字段数据和区域代码作为预处理后的地址信息的候选地址数据。
在一实施例中,倒排索引表构建模块具体用于:
将候选地址数据根据区域代码进行分组,对每个分组构建单独的倒排索引表。
在一实施例中,检索模块具体用于:
基于新客户的地址信息中的关键词检索倒排索引表,获得新客户的至少一个候选地址数据;
将新客户的地址信息与新客户的候选地址数据进行匹配,获得匹配地址,包括:
对每个候选地址数据,计算该候选地址数据与新客户的地址信息的编辑距离;
选择编辑距离最小的候选地址数据作为匹配地址。
参见图9,在一实施例中,所述装置还包括网格划分模块901,用于:
采用如下步骤对地理空间进行网格划分,获得地址网格:
对地理空间的经纬度数据进行区域等积投影,获得地址的平面坐标;
根据地址的平面坐标,计算地址之间的欧式距离;
使用Birch算法,以预设的半径对地址的平面坐标进行合并,得到中心点数据;
对中心点数据进行层次聚类计算,得到聚类簇,确定中心点数据所归属的簇标签;
根据聚类簇和中心点数据所归属的簇标签,生成多个泰森多边形,确定多个泰森多边形为划分的多个地址网格。
参见图10,在一实施例中,所述装置还包括画像数据构建模块1001,用于:
采用如下步骤,获得每个地址网格中的画像数据:
统计地址网格中所有客户和商户;
根据所有客户的数据,分析客户的特征数据;
根据所有商户的数据,分析商户的特征数据;
将客户的特征数据和商户的特征数据形成网格特征数据宽表,作为地址网格中的画像数据。
在一实施例中,营销分析模块具体用于:
确定地址网格的网格编号;
对地址网格中的画像数据进行分析,分析该网格编号内的客户的客群行为特征;
根据所述客群行为特征,设计营销活动;
确定营销活动在不同渠道的触发方式。
综上所述,在本发明实施例提出的装置中,获取客户和商户的地址信息;根据所述地址信息,构建倒排索引表;在获得新客户的地址信息后,基于新客户的地址信息中的关键词检索倒排索引表,获得新客户的候选地址数据;将新客户的地址信息与新客户的候选地址数据进行匹配,获得匹配地址;将新客户划分至匹配地址对应的地址网格中,所述地址网格是对地理空间进行划分获得的;基于地址网格中的画像数据,对新客户进行营销分析。与现有技术中相比,本发明实施例通过倒排索引,解决了后续需要进行匹配时检索量大,匹配速度慢的问题;将新客户划分至匹配地址对应的地址网格中,实现了对客户的精准定位;对新客户进行营销分析时,充分考虑了准确定位后的地址网格中的画像数据,实现了精准营销。解决了营销过程中地址数据不规范、信息不匹配而导致的营销覆盖率低的问题,使得地址信息匹配效率及准确率相较于银行传统方法有了质的飞跃,具备良好的可移植性及可复用性,可应对不同场景的地址匹配需求。
本发明实施例还提供一种计算机设备,图11为本发明实施例中计算机设备的示意图,所述计算机设备1100包括存储器1210、处理器1120及存储在存储器1110上并可在处理器1120上运行的计算机程序1130,所述处理器1120执行所述计算机程序1130时实现上述基于地址信息的营销方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于地址信息的营销方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述基于地址信息的营销方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种基于地址信息的营销方法,其特征在于,包括:
获取客户和商户的地址信息;
根据所述地址信息,构建倒排索引表;
在获得新客户的地址信息后,基于新客户的地址信息中的关键词检索倒排索引表,获得新客户的候选地址数据;
将新客户的地址信息与新客户的候选地址数据进行匹配,获得匹配地址;
将新客户划分至匹配地址对应的地址网格中,所述地址网格是对地理空间进行划分获得的;
基于地址网格中的画像数据,对新客户进行营销分析。
2.如权利要求1所述的方法,其特征在于,根据所述地址信息,构建倒排索引表,包括:
将所述地址信息转换为候选地址数据;
根据所述候选地址数据,构建倒排索引表。
3.如权利要求2所述的方法,其特征在于,将所述地址信息转换为候选地址数据,包括:
对地址信息进行解析,将地址信息结构化输出为多个区域级别的字段数据和区域代码,所述区域代码为多个区域级别中最小区域的行政代码;
将多个区域级别的字段数据和区域代码作为预处理后的地址信息的候选地址数据。
4.如权利要求2所述的方法,其特征在于,根据所述候选地址数据,构建倒排索引表,包括:
将候选地址数据根据区域代码进行分组,对每个分组构建单独的倒排索引表。
5.如权利要求1所述的方法,其特征在于,基于新客户的地址信息中的关键词检索倒排索引表,获得新客户的候选地址数据,包括:
基于新客户的地址信息中的关键词检索倒排索引表,获得新客户的至少一个候选地址数据;
将新客户的地址信息与新客户的候选地址数据进行匹配,获得匹配地址,包括:
对每个候选地址数据,计算该候选地址数据与新客户的地址信息的编辑距离;
选择编辑距离最小的候选地址数据作为匹配地址。
6.如权利要求1所述的方法,其特征在于,还包括:
采用如下步骤对地理空间进行网格划分,获得地址网格:
对地理空间的经纬度数据进行区域等积投影,获得地址的平面坐标;
根据地址的平面坐标,计算地址之间的欧式距离;
使用Birch算法,以预设的半径对地址的平面坐标进行合并,得到中心点数据;
对中心点数据进行层次聚类计算,得到聚类簇,确定中心点数据所归属的簇标签;
根据聚类簇和中心点数据所归属的簇标签,生成多个泰森多边形,确定多个泰森多边形为划分的多个地址网格。
7.如权利要求1所述的方法,其特征在于,还包括:
采用如下步骤,获得每个地址网格中的画像数据:
统计地址网格中所有客户和商户;
根据所有客户的数据,分析客户的特征数据;
根据所有商户的数据,分析商户的特征数据;
将客户的特征数据和商户的特征数据形成网格特征数据宽表,作为地址网格中的画像数据。
8.如权利要求1所述的方法,其特征在于,基于地址网格中的画像数据,对新客户进行营销分析,包括:
确定地址网格的网格编号;
对地址网格中的画像数据进行分析,分析该网格编号内的客户的客群行为特征;
根据所述客群行为特征,设计营销活动;
确定营销活动在不同渠道的触发方式。
9.一种基于地址信息的营销装置,其特征在于,包括:
地址信息获取模块,用于获取客户和商户的地址信息;
倒排索引表构建模块,用于根据所述地址信息,构建倒排索引表;
检索模块,用于在获得新客户的地址信息后,基于新客户的地址信息中的关键词检索倒排索引表,获得新客户的候选地址数据;
匹配模块,用于将新客户的地址信息与新客户的候选地址数据进行匹配,获得匹配地址;
新客户划分模块,用于将新客户划分至匹配地址对应的地址网格中,所述地址网格是对地理空间进行划分获得的;
营销分析模块,用于基于地址网格中的画像数据,对新客户进行营销分析。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任一所述方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至8任一所述方法。
CN202311001180.0A 2023-08-10 2023-08-10 基于地址信息的营销方法及装置 Active CN116757737B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311001180.0A CN116757737B (zh) 2023-08-10 2023-08-10 基于地址信息的营销方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311001180.0A CN116757737B (zh) 2023-08-10 2023-08-10 基于地址信息的营销方法及装置

Publications (2)

Publication Number Publication Date
CN116757737A true CN116757737A (zh) 2023-09-15
CN116757737B CN116757737B (zh) 2023-12-19

Family

ID=87951678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311001180.0A Active CN116757737B (zh) 2023-08-10 2023-08-10 基于地址信息的营销方法及装置

Country Status (1)

Country Link
CN (1) CN116757737B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106296241A (zh) * 2015-05-21 2017-01-04 中国联合网络通信集团有限公司 划分网格的方法及装置
CN109684425A (zh) * 2018-11-27 2019-04-26 泰康保险集团股份有限公司 保单用户地址匹配方法及装置
CN110930180A (zh) * 2019-11-04 2020-03-27 苏宁云计算有限公司 基于区域化会员营销场景的数据解析方法、系统和计算机设备
CN112307169A (zh) * 2020-10-30 2021-02-02 中国平安财产保险股份有限公司 地址数据的匹配方法、装置、计算机设备及存储介质
WO2021042829A1 (zh) * 2019-09-03 2021-03-11 南京华苏科技有限公司 一种基于泰森多边形的邻区规划的方法及装置
CN113378055A (zh) * 2021-06-24 2021-09-10 上海微问家信息技术有限公司 基于访客信息的企业推送方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106296241A (zh) * 2015-05-21 2017-01-04 中国联合网络通信集团有限公司 划分网格的方法及装置
CN109684425A (zh) * 2018-11-27 2019-04-26 泰康保险集团股份有限公司 保单用户地址匹配方法及装置
WO2021042829A1 (zh) * 2019-09-03 2021-03-11 南京华苏科技有限公司 一种基于泰森多边形的邻区规划的方法及装置
CN110930180A (zh) * 2019-11-04 2020-03-27 苏宁云计算有限公司 基于区域化会员营销场景的数据解析方法、系统和计算机设备
CN112307169A (zh) * 2020-10-30 2021-02-02 中国平安财产保险股份有限公司 地址数据的匹配方法、装置、计算机设备及存储介质
CN113378055A (zh) * 2021-06-24 2021-09-10 上海微问家信息技术有限公司 基于访客信息的企业推送方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
罗有志;熊华斌;: "基于差异化密度聚类的电力客户画像分析", 湖南电力, no. 2, pages 118 - 120 *

Also Published As

Publication number Publication date
CN116757737B (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
US10019442B2 (en) Method and system for peer detection
CN104573130B (zh) 基于群体计算的实体解析方法及装置
Wei et al. On the spatial distribution of buildings for map generalization
CN114298417A (zh) 反欺诈风险评估方法、训练方法、装置及可读存储介质
CN112070577A (zh) 一种商品推荐方法、系统、设备及介质
WO2016029230A1 (en) Automated creation of join graphs for unrelated data sets among relational databases
CN103455555B (zh) 基于移动终端相似度的推荐方法及推荐装置
CN114579584B (zh) 数据表处理方法、装置、计算机设备和存储介质
Wu et al. $ K $-Ary Tree Hashing for Fast Graph Classification
CN110909540B (zh) 短信垃圾新词识别方法、装置及电子设备
Gao et al. Real-time social media retrieval with spatial, temporal and social constraints
Guo et al. Modeling of spatial stratified heterogeneity
CN110795613A (zh) 商品搜索方法、装置、系统及电子设备
KR101467707B1 (ko) 지식 베이스의 개체 매칭 방법 및 이를 위한 장치
Zou et al. An innovative GPS trajectory data based model for geographic recommendation service
Rastin et al. A new sparse representation learning of complex data: Application to dynamic clustering of web navigation
CN112685452A (zh) 企业案例检索方法、装置、设备和存储介质
CN116757737B (zh) 基于地址信息的营销方法及装置
CN112100177A (zh) 数据存储方法、装置、计算机设备及存储介质
De Vries et al. Parallel streaming signature em-tree: A clustering algorithm for web scale applications
Dhoot et al. Efficient Dimensionality Reduction for Big Data Using Clustering Technique
Xie et al. Efficient storage management for social network events based on clustering and hot/cold data classification
Charpentier et al. Tree sampling divergence: an information-theoretic metric for hierarchical graph clustering
Repke et al. Visualising large document collections by jointly modeling text and network structure
Renjith et al. An empirical research and comparative analysis of clustering performance for processing categorical and numerical data extracts from social media

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant