CN110400160B - 识别竞品用户的方法、装置、电子设备和存储介质 - Google Patents
识别竞品用户的方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN110400160B CN110400160B CN201810372071.2A CN201810372071A CN110400160B CN 110400160 B CN110400160 B CN 110400160B CN 201810372071 A CN201810372071 A CN 201810372071A CN 110400160 B CN110400160 B CN 110400160B
- Authority
- CN
- China
- Prior art keywords
- consumption behavior
- user
- target user
- competitive product
- behavior index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供一种识别竞品用户的方法、装置、电子设备和存储介质。所述方法包括针对预设区域预设时间段内每一目标用户,获取消费行为指标,所述消费行为指标包括目标用户的消费行为和/或目标用户的社交圈的消费行为;根据所述消费行为指标,以及预先建立的识别模型,识别所述目标用户是否为竞品用户,所述识别模型表示消费行为指标与竞品用户的对应关系。所述方法通过获取消费行为指标,并根据所述消费行为指标,以及预先建立的识别模型,可精准地对目标用户进行识别,以提高竞品用户识别的准确率。
Description
技术领域
本发明实施例涉及通信技术领域,特别是一种识别竞品用户的方法、装置、电子设备和存储介质。
背景技术
大市场运营中,各行各业都存在着激烈的客户市场竞争,想要争夺竞争对手的客户,需要先精准地识别出哪些是竞品用户(即竞争对手的客户)。
现有技术中识别竞品用户的方案主要有三种:
第一种是通过网络爬虫,爬取竞争对手官方网站目标竞品的访问数据,通过模型推算竞品用户数量及来源;
第二种是通过竞争对手的季度/年度财报,获得竞品用户的相关数据;
第三种是建立持续的产品市场信息收集小组,通过抽样调研或者第三方机构的各种数据,识别竞品用户。
上述三种方法由于覆盖用户数过低,或使用非黑即白的方式将不是自己的客户就即归为竞品用户,识别准确率较低、误判率过高。
发明内容
针对现有技术的缺陷,本发明实施例提供一种识别竞品用户的方法、装置、电子设备和存储介质。
一方面,本发明实施例提供一种识别竞品用户的方法,所述方法包括:
针对预设区域预设时间段内每一目标用户,获取消费行为指标,所述消费行为指标包括目标用户的消费行为和/或目标用户的社交圈的消费行为;
根据所述消费行为指标,以及预先建立的识别模型,识别所述目标用户是否为竞品用户,所述识别模型表示消费行为指标与竞品用户的对应关系。
另一方面,本发明实施例提供一种识别竞品用户的装置,所述装置包括:
获取模块,用于针对预设区域预设时间段内每一目标用户,获取消费行为指标,所述消费行为指标包括目标用户的消费行为和/或目标用户的社交圈的消费行为;
识别模块,用于根据所述消费行为指标,以及预先建立的识别模型,识别所述目标用户是否为竞品用户,所述识别模型表示消费行为指标与竞品用户的对应关系。
另一方面,本发明实施例还提供一种电子设备,包括存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以上方法的步骤。
另一方面,本发明实施例还提供一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上方法的步骤。
由上述技术方案可知,本发明实施例提供的识别竞品用户的方法、装置、电子设备和存储介质,所述方法通过获取消费行为指标,并根据所述消费行为指标,以及预先建立的识别模型,可精准地对目标用户进行识别,以提高竞品用户识别的准确率。
附图说明
图1为本发明实施例提供的一种识别竞品用户的方法的流程示意图;
图2为本发明又一实施例提供的建模过程示意图;
图3为本发明又一实施例提供的识别竞品用户的装置协作流程图;
图4为本发明又一实施例提供的一种识别竞品用户的装置的结构示意图;
图5为本发明又一实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明实施例一部分实施例,而不是全部的实施例。
图1示出了本发明实施例提供的一种识别竞品用户的方法的流程示意图。
如图1所示,本发明实施例提供的方法具体包括以下步骤:
步骤11、针对预设区域预设时间段内每一目标用户,获取消费行为指标,所述消费行为指标包括目标用户的消费行为和/或目标用户的社交圈的消费行为;
可选地,本发明实施例提供的方法在识别竞品用户的装置上实现,识别竞品用户的装置可为计算机。
可选地,目标用户是指待识别的用户,可将预设区域预设时间段的用户,作为目标用户。
可选地,所述消费行为指标是描述用户的消费行为的特征,具体可为一个目标用户的消费行为,也可为目标用户的社交圈的消费行为,还可为一个目标用户的消费行为以及目标用户的社交圈的消费行为。
可选地,一个目标用户的消费行为是指目标用户的终端消费水平、使用流量信息、上网内容信息和通话信息。
举例来说,消费水平是终端的账户总余额和3个月内月平均话费,使用流量信息可为夜间消耗的流量和理财类APP(Application,应用程序)消耗的流量,上网内容信息是网关是异网还是本网、APP的个数和内容索引值,通话信息可为3个月与目标用户存在语音通话的月平均人数。
可选地,目标用户与多个用户存在通话记录,将目标用户以及存在通话记录的多个用户称为目标用户的社交圈,社交圈内的用户的消费行为称为目标用户的社交圈的消费行为。
举例来说,目标用户的社交圈的消费行为是社交圈内的用户的终端消费水平、使用流量信息、上网内容信息和通话信息。
为了更清楚的说明本发明实施例,下面以家庭宽带(简称家宽)的竞争对手的竞品用户为例说明。
家宽是一种在固定地点(如家中)使用的产品,用户必须要在固定的地点才能使用,因此本发明实施例需要圈定多个夜间会固定驻留在某个地点的用户作为目标用户。
可选地,计算机通过S1口采集预设区域预设时间段的XDR(Extremely DetailedRecords,极其详细的记录)信令,每一XDR信令包括用户的标识以及小区的标识,用户上报一个小区的标识,相当于在该小区出现一次。
可选地,预设区域可为广东省,预设时间段可为工作日22点-6点。
可选地,针对一个月内多个预设时间段,统计每一用户在每一个小区出现的次数。
可选地,选取一个月内在同一小区出现超过10天的用户,获取用户的标识,并抽取未办理本网家宽的用户作为目标用户。
可选地,用户在一个小区的夜间长时间停留,认为该小区为用户的家对应的小区,该用户为目标用户。
可选地,针对目标用户,获取消费行为指标,可包括目标用户的消费行为和/或目标用户的社交圈的消费行为。
应当说明的是,一个目标用户的消费能力与自身相关,通过一个目标用户的消费行为可描述目标用户的消费能力。
可选地,将目标用户置于社交圈中,目标用户的消费能力除了与自身相关,还与社交圈中的用户的消费能力相关,具有相同消费能力的用户,倾向于选择相同的产品,通过社交圈的用户的消费行为可准确描述目标用户的消费能力。
可选地,既获取目标用户的消费行为,也获取目标用户的社交圈的消费行为,可更准确描述目标用户的消费能力。目标用户的消费能力对目标用户使用哪家公司的产品具有直接影响。
步骤12、根据所述消费行为指标,以及预先建立的识别模型,识别所述目标用户是否为竞品用户,所述识别模型表示消费行为指标与竞品用户的对应关系。
可选地,获取预先建立识别模型,将消费行为指标输入至所述识别模型,经过识别模型对所述目标用户进行分类,输出所述目标用户的类型:属于竞品用户,或不属于竞品用户。
可选地,若所述目标用户是竞品用户,则可不针对竞品用户进行营销活动,或者进行反挖。
若所述目标用户不是竞品用户,但又是具有需求潜力的未购买用户,则重点投入资源加大优惠力度营销。
通过本发明实施例的识别模型,可精准地识别出哪些目标用户是竞品用户,若是竞品用户,不再针对该目标用户进行营销,或者进行反挖;若所述目标用户不是竞品用户,则针对所述目标用户开展营销活动,以使所述目标用户选择本公司的产品。在避免浪费营销活动的资源的同时,还可达到理想的营销效果。
本发明实施例提供的识别竞品用户的方法,通过获取消费行为指标,并根据所述消费行为指标,以及预先建立的识别模型,可精准地对目标用户进行识别,以提高竞品用户识别的准确率。
在上述实施例的基础上,本发明又一实施例提供的识别竞品用户的方法,根据所述消费行为指标,以及预先建立的识别模型,识别所述目标用户是否为竞品用户的步骤之前,所述方法还包括:
对初步确定的变量进行筛选,得到所述消费行为指标,所述消费行为指标是具有代表性的变量;
将预先获取的正负样本以及对应的消费行为指标输入至逻辑回归模型进行训练,得到所述识别模型。
可选地,在应用识别模型进行竞品用户的识别之前,需预先建立识别模型。
构建本发明实施例的识别模型的方式有多种,本发明实施例以其中一种方式为例进行说明。
可选地,抽取识别模型训练所需的正负样本,正负样本包括正样本和负样本,正样本是已知的竞品用户,负样本是已知的非竞品用户。
可选地,可采用现有技术的手段取得正负样本。以家宽为例,可通过外呼和调研等方式可确定用户使用了何种宽带,若是竞争对手的家宽,则将该用户作为正样本输入。
可选地,选择正样本可作为参照体系,以供后续能够区分出未知的目标用户的倾向,即是竞品用户或不是竞品用户。
可选地,变量是指初步确定的指标,若在建模的过程包含过多的变量,则会由于多重共线性问题,导致部分变量不显著,影响识别模型的准确性。
可选地,初步确定的变量数量较多,需进行变量选择,筛选得到对识别模型起显著作用、具有代表性的变量,将对识别模型起显著作用、具有代表性的变量称为消费行为指标。
本发明实施例其他步骤与前述实施例步骤相似,本发明实施例不再赘述。
本发明实施例提供的识别竞品用户的方法,对初步确定的变量进行筛选,得到具有代表性的消费行为指标,可突出竞品用户和非竞品用户的特征,从而提高识别模型的识别准确率。
在上述实施例的基础上,本发明又一实施例提供的识别竞品用户的方法,对初步确定的变量进行筛选,得到所述消费行为指标的步骤具体为:
针对每一变量,根据正负样本的数量,计算每一变量对应的证据重量WOE;
根据所述WOE,计算信息价值IV;
根据所述IV,对所述变量从大到小排序;
选取IV排序前m%的变量,作为所述消费行为指标,m为正数。
筛选所述消费行为指标的方式有多种,本发明实施例以其中一种方式为例进行说明。
可选地,WOE(weight of evidence,证据重量)是用于衡量一个变量的趋势的数值。
可选地,所述正负样本是在预设区域内随机抽取的,所述正负样本的数量可以表示预设区域内一个变量的趋势。
可选地,对变量进行分箱操作。对于连续型变量,一个合理的分箱是应该使得每个箱内的数据量较为均衡,不宜过多或者过少,同时各个箱内负样本的占比应呈现单调上升或下降的趋势,这里采用WOE,它既可以衡量各个分箱的趋势情况,也是后续的回归模型的变量输入。
一个变量的WOE可根据以下公式计算:
其中,正样本占比是预设区域内正样本的数量和总量的比值,负样本占比是预设区域内负样本的数量和总量的比值,总量是指正负样本的数量之和。
可选地,根据WOE,计算IV(information value,信息价值或者信息量),由IV大小选择指标。IV可用来衡量一个变量的预测能力,IV越大,说明该变量的判别能力越强。
可选地,针对每一WOE,根据以下公式,计算该变量对应的一个IV。
其中,n为各变量的箱个数。对于离散型变量,在变量的取值不多的时候,可直接按其取值作为分箱并求取WOE值和IV值;在取值较多的时候,可对某些取值进行合并,再求对应的WOE值和IV值。
可选地,根据各变量的IV大小,对变量进行降序排序。
可选地,m可根据实际情况取值,例如20,选取排序前20%的变量,这些变量对模型起显著作用,称为消费行为指标,从而可剔除预测能力不强的变量。
可选地,将选取的所述消费行为指标输入至逻辑回归模型进行训练,得到所述识别模型。
本发明实施例其他步骤与前述实施例步骤相似,本发明实施例不再赘述。
本发明实施例提供的识别竞品用户的方法,针对每一变量,计算每一变量对应的证据重量WOE,根据所述WOE,计算信息价值IV,根据所述IV,可准确的选择具代表性的消费行为指标。
在上述实施例的基础上,本发明又一实施例提供的识别竞品用户的方法,根据所述目标用户的消费行为指标,以及预先建立的识别模型,识别所述目标用户是否为竞品用户的步骤具体为:
根据所述目标用户的消费行为指标,以及预先训练得到的每一消费行为指标对应的权重系数,识别所述目标用户是否为竞品用户。
识别所述目标用户是否为竞品用户的方式有多种,本发明实施例以其中一种方式为例进行说明。
可选地,每个目标用户判断为竞品用户的概率可用P表示,则可采用以下公式表示逻辑回归模型:
其中,xi(i=1,2,...,s)为消费行为指标,β=(β0,β1,...,βs)T是消费行为指标对应的权重系数。
可选地,P取值在0到1之间,即识别模型输出是一个数值,如果输出的数值接近1,那么认为是竞品用户,如果接近0,那么不是竞品用户。
可选地,本发明实施例的识别模型,每一消费行为指标都分别对应一个权重系数,表示每一消费行为指标的重要程度,该权重系数可根据已知的正负样本训练得到。
可选地,β的取值可如表1所示:
表1
本发明实施例其他步骤与前述实施例步骤相似,本发明实施例不再赘述。
本发明实施例提供的识别竞品用户的方法,通过预先训练得到每一消费行为指标对应的权重系数,考虑每一消费行为指标的重要程度的差异,进行竞品用户的识别,进一步提高识别准确率。
在上述实施例的基础上,本发明又一实施例提供的识别竞品用户的方法,根据所述目标用户的消费行为指标,以及预先训练得到的每一消费行为指标对应的权重系数,识别所述目标用户是否为竞品用户的步骤具体为:
根据所述目标用户的消费行为指标、预先训练得到的每一消费行为指标对应的权重系数、至少一个惩罚指标以及预先训练得到的每一惩罚指标对应的惩罚系数,识别所述目标用户是否为竞品用户。
识别所述目标用户是否为竞品用户的方式有多种,本发明实施例以其中一种方式为例进行说明。
可选地,每个目标用户判断为竞品用户的概率可用P表示,则可采用以下公式表示识别模型:
其中,xi(i=1,2,...,s)为消费行为指标,β=(β0,β1,...,βs)T是消费行为指标对应的权重系数,是惩罚指标,所述惩罚指标是权重系数大于预设门限的消费行为指标,是惩罚指标的惩罚系数。
可选地,不同的消费行为指标的权重系数不同,若某一消费行为指标的权重系数大于预设门限,则将该消费行为指标称为惩罚指标。
可选地,识别模型具有多个消费行为指标,每一消费行为指标都具有对应的权重系数,各个消费行为指标的差异并不很大,但在实际应用中,应当侧重特定的某一项或某几项消费行为指标。
实际应用中,上网内容信息是衡量目标用户是否为竞品用户的重要的消费行为指标,理应有所侧重。
在训练过程求解权重系数的过程中,为了确保上网内容信息方面的指标在识别模型贡献较高的权重,考虑添加惩罚项。
可选地,惩罚项是应当侧重的消费行为指标,惩罚项的权重系数称为惩罚系数,通过惩罚项的关系约束每一项非上网内容信息的消费行为指标的权重系数与上网内容信息的权重系数,使得上网内容信息的消费行为指标的权重系数大于其他指标的系数。
本发明实施例其他步骤与前述实施例步骤相似,本发明实施例不再赘述。
本发明实施例提供的识别竞品用户的方法,若判断应当侧重某一消费行为指标,则对该消费行为指标增加惩罚指标,使增加惩罚指标的影响,进一步提高识别准确率。
在上述实施例的基础上,本发明又一实施例提供的识别竞品用户的方法,根据所述目标用户的消费行为指标,以及预先建立的识别模型,识别所述目标用户是否为竞品用户的步骤之后,所述方法还包括:
将预设区域划分为多个网格;
将每一竞品用户映射至一个网格内。
确定竞品用户的物理位置的方式有多种,本发明实施例以其中一种方式为例进行说明。
可选地,通过地理网格化(又称空间聚类法),对竞品用户的位置进行跟踪。
可选地,基于XDR携带的小区的标识,统计得到竞品用户的常驻小区。
针对每一竞品用户,以一个月出现位置频率最高的小区作为竞品用户的常驻小区。得到常驻用户与常驻小区的对应关系,相当于将目标用户定位至小区级别。
在进行市场营销时,仅有小区级别的定位精度是远远不够的。
为了进一步定位竞品用户的具体物理位置,可采用空间聚类法实现目标用户线上地址(XDR中的小区标识)与线下地址(具体网格)的智能匹配。
可选地,空间聚类法是将预设区域划分为若干个网格,每一网格可为矩形,每一网格的覆盖面积小于小区的覆盖面积,每一网格包括物理上实际存在的街道和楼宇。
可选地,将竞品用户映射至一个网格中,相当于将竞品用户的定位精度从小区级别提高至网格级别,从而提高竞品用户的定位精度。
可选地,统计每一网格中竞品用户的数量,若数量大于预设门限,说明网格内竞品用户非常多,该网格内竞争对手的产品占有率高。
可选地,若数量小于预设门限,说明网格内竞品用户还不很多,可开展营销活动,抢占市场。
本发明实施例其他步骤与前述实施例步骤相似,本发明实施例不再赘述。
本发明实施例提供的识别竞品用户的方法,将用户的经纬度映射至一个网格中,从而提高竞品用户的定位精度。
在上述实施例的基础上,本发明又一实施例提供的识别竞品用户的方法,若XDR中包括竞品用户的小区的标识,相应地,根据所述目标用户的消费行为指标,以及预先建立的识别模型,识别所述目标用户是否为竞品用户的步骤之后,所述方法还包括:
根据每一小区的基站的经纬度和多个楼盘的经纬度,分别计算基站和多个楼盘的距离;
将与基站的距离最小的楼盘,作为竞品用户的位置。
确定竞品用户的物理位置的方式有多种,本发明实施例以其中一种方式为例进行说明。
可选地,XDR中可能不包括用户的经纬度,可采用最小距离法实现目标用户线上地址(XDR中的小区标识)与线下地址(具体楼盘)的智能匹配。
可选地,查找工参表,得到竞品用户的小区对应的基站的经纬度。
可选地,针对每一小区的基站,计算与多个楼盘的距离,将与基站的距离最小的楼盘确定为该小区匹配的物理地址,即竞品用户所在的物理地址,该楼盘为后续营销活动展开的地点。
本发明实施例其他步骤与前述实施例步骤相似,本发明实施例不再赘述。
本发明实施例提供的识别竞品用户的方法,可采用最小距离法实现目标用户线上地址与线下地址的智能匹配,可以准确的得到竞品用户的位置。
为了更充分理解本发明的技术内容,在上述实施例的基础上,详细说明本发明实施例提供的识别竞品用户的方法。
本发明实施例基于位置轨迹和互联网大数据的竞品用户识别和定位的方法与装置,使用数据挖掘模型的方法降低了识别的人工成本、也保证了竞品用户识别的准确性。同时,本发明实施例基于地理网格化的线上地址与线下地址智能匹配方法,精准地定位了竞品用户的位置,为运营人员开展竞品用户反挖营销以及扩大本网市场占有率提供用户数据信息支持。
(一)方案概述
本发明实施例基于位置轨迹和互联网大数据对竞品用户识别和定位,核心是利用移动手机用户位置轨迹和互联网大数据分析不同用户的使用特征,对竞品用户进行精准识别,并基于地理网格化对竞品用户定位。
图2为本发明又一实施例提供的建模过程示意图。
如图2所示,整个方案的主要流程是:先基于用户位置轨迹变动的规律,计算圈定在某段时间在某一特定位置出现的用户群,剔除工作地和居住地在这一位置的用户;然后抽取其中的本网用户作为正样本,其中的非本网用户作为负样本;利用IV值筛选重要变量,构建基于互联网大数据的竞品用户识别模型,最后基于地理网格化实现线下地址智能匹配,从而实现对竞品用户精准识别和定位。
(二)本发明实施例的具体步骤
下面以移动家宽竞争对手宽带用户识别为案例,详述本发明实施例的步骤:
1.基于位置轨迹圈定目标用户
移动宽带是一种固定地点使用的产品,用户必须要在固定的地点才能使用,因此需要圈定一批在夜间会固定驻留在某个地点的用户作为目标用户。
首先,基于信令位置统计用户在工作日22-6时所出现的位置和出现的频率,其次提取其中频率最高的三个小区作为每天top3小区,然后统计这些小区在一个月内出现的天数,最后选取同一小区出现超过10天的用户作为目标用户。
2.抽取模型训练所需的正负样本
要建立竞品用户识别模型,必须先选择出一部分标准的正样本,作为参照体系,能够区分出哪些用户更有可能是竞品用户,哪些用户不太可能是竞品用户,后续的识别模型的构建基于这些数据进行分析。
为了选取用户行为较为确定的客户作为正样本,在上面圈定的目标客户的基础上再进一步进行筛选:
以办理了移动宽带作为主要依据,并且为了使正样本数据更为准确,还要进一步做一些条件筛选和剔除,选取筛选剔除后的数据作为正样本,避免训练后述模型结果产生偏差,即抽取作为正样本的号码需要同时满足以下三个条件:
1)入网3个月及以上客户;
2)剔除当月新增宽带客户;
3)剔除当月无宽带流量的客户;
抽取未办理移动宽带同时满足消费大于等于30且流量大于等于30M的客户作为负样本,正负样本比例为1:10,正负样本的合集即为标准的样本数据,用于后续竞品用户识别模型的训练。
3.使用IV值方法筛选模型指标
为了识别竞品用户,构建多维度的指标体系:使用流量信息、上网内容信息、通话信息以及其他信息。
在建模的过程若包含过多的变量,则会由于多重共线性导致部分变量的检验统计不显著,降低模型的解释性和影响模型的准确性,所以有必要进行变量选择。
为了选取对模型起显著作用的指标,主要是根据WOE(weight of evidence)值,计算IV(information value)值,由IV值大小选择指标。IV值可以衡量移动宽带用户的指标值分布和非移动宽带用户的指标值分布之间的差异
为了计算指标的WOE值和IV值,需要对指标进行分箱。对于连续型指标,一个合理的分箱是应该使得每个箱内的数据量较为均衡,不宜过多或者过少,同时各个箱内负样本的占比应呈现单调上升或下降的趋势,这里采用值,它既可以衡量各个分箱的趋势情况,也是后续的回归模型的变量输入,其计算公式如下:
IV的中文意思是信息价值,或者信息量,用来衡量一个变量的预测能力。信息价值应当尽可能的大,信息价值越大,说明评估指标的判别能力越强。每个指标的IV值计算公式如下:
对于离散型指标,在指标的取值不多的时候,可直接按其取值作为分箱并求取WOE值和IV值;在取值较多的时候,可对某些取值进行合并,再求对应的WOE值和IV值。
根据各指标的IV值大小,对指标进行降序排序,选取排序前20%的对模型起显著作用的指标进入模型训练,剔除预测能力不强的指标。
4.基于上网内容的竞品宽带用户识别的逻辑回归模型构建
逻辑回归在判别模型中使用比较广泛,它的结构简单,系数的作用容易在业务上解释。对抽取的正负样本的因变量分别使用1和0进行标识,将使用IV值筛选后的指标全部进入逻辑回归模型。
每个用户为判断为竞品用户的概率可用P表示,则逻辑回归模型可表示为
其中xi(i=1,2,...,s)为指标,由于P取值在0到1之间,而通过逻辑(logit)变换后,取值范围可变换为任意实数值,需要求解的是β=(β0,β1,...,βs)T,模型训练求解公式为:
在进行逻辑回归模型预测中,对于进入到模型的全部变量,并没有所侧重,但在实际应用中,上网内容数据中异网网关接触、内容搜索是衡量客户是否为竞品用户的重要变量,理应对信令数据有所侧重。记上网内容数据指标为对应的指标模型系数为因此,模型训练求解的过程中,为了确保信令数据方面的指标在模型贡献较高过的关系约束每一项非上网内容指标系数与上网内容信息指标系数,使得上网内容数据指标的系数必须大于其他指标的系数,而λ为惩罚系数,一般为常数。
综上则有基于上网内容自适应的逻辑回归模型β=(β0,β1,...,βs)T的估计量定义为
竞品用户的自适应的逻辑回归模型。最后求解得到的模型表达式为:
5.基于地理网格化的竞品用户定位计算
基于信令位置数据,我们计算得到竞品用户的常驻小区:先取出客户每天指定时段的常住小区位置(工作日以22-6时、周末以6-12时所在位置),再以一个月出现位置频率最高的小区作为常驻小区。
虽然有了线上的基站常驻小区,但进行市场营销时,仅有基站数据是远远不够的。为了定位竞品用户的线下的物理位置,我们采用两种方法实现客户线上地址与线下地址的智能匹配:
(1)在粗精度情况下,我们采用空间聚类法实现基于地理网格化实现线上地址与线下地址智能匹配。
空间聚类法将空间区域划分为若干个具有层次结构的矩形单元,不同层次的单元对应不用的分辨率网格,把数据集中的所有数据都映射到不同的单元网格中,算法所有的处理都是已单个单元网格为对象,其处理速度要远比以元组为处理对象的效率要高得多。
(2)在细精度情况下,我们采用最小距离法实现线上地址与线下地址智能匹配。
通过生成基站和楼盘的距离的矩阵,找到基站对应最小距离的楼盘,完成地址匹配。
(三)竞品用户识别装置
本发明实施例提出的竞品用户识别装置,主要包括基于位置轨迹圈定目标用户模块、标准样本抽取模块、指标分箱处理及计算模块、竞品用户识别模型计算模块、竞品用户定位计算模块。
竞品用户识别装置协作过程:
首先,通过基于位置轨迹圈定目标用户模块,圈定每月有10天以上工作日夜间22-6点有固定驻留地的用户作为目标用户;其次,通过标准样本抽取模块,抽取出标准样本数据用于后续建模;接着,指标分箱处理及计算模块对用户的使用流量信息、上网内容信息、通话等信息进行分箱处理,得到WOE值,指标的WOE值推送到后续的基于上网内容自适应的逻辑回归模型训练模块;然后,竞品用户识别模型计算模块利用基于上网内容的自适应竞品用户识别方法评估用户是否为竞品用户;最后,竞品用户定位计算模块基于地理位置网格化,使用用户的常驻小区地址与线下地址智能匹配。
图3为本发明又一实施例提供的识别竞品用户的装置协作流程图。
如图3所示,基于位置轨迹圈定目标用户模块用于圈定工作日夜间22-6点有10天以上固定驻留地的用户作为目标用户。
标准样本抽取模块用于抽取入网3个月及以上、办理了移动宽带且当月有宽带流量的用户,再剔除当月新增宽带用户为正样本,未办理移动宽带同时满足消费大于等于30且流量大于等于30M的用户作为负样本。
指标分箱处理及计算模块用于对用户的使用流量信息、上网内容信息、通话等信息进行分箱处理,得到WOE值,指标的WOE值推送到后续的基于上网内容自适应的逻辑回归模型训练模块。
竞品用户识别模型计算模块首先构建一个逻辑回归模型,再利用上网内容数据中的使用异网宽带相关app的次数和使用非移动网络访问移动页面次数两个指标对其他指标的系数进行自适应地控制,对作用不显著的指标的系数进行自动压缩处理,确保上网内容数据方面的指标贡献较高的权重。
竞品用户定位计算模块首先利用信令位置数据,计算得到竞品用户的常驻小区,再根据营销需要采用空间聚类法或欧氏最小距离法实现基于地理网格化实现线上地址与线下地址智能匹配。
对比于现有技术,本发明实施例所能带来的效益对比如表2:
表2
对比于现有的粗犷识别竞品用户的技术,本发明实施例基于用户位置轨迹圈定目标用户,减少噪声数据干扰,构建了基于互联网大数据的逻辑回归模型,保证了竞品用户识别模型在筛选指标的时候保持稳定并体现互联网大数据的重要作用,使得模型指标业务解释性更加合理。同时,对比现有的规则无法定位用户的缺憾,本发明实施例基于地理网格化的线上地址与线下地址智能匹配方法,精准地定位了竞品用户的位置。
图4示出了本发明又一实施例提供的一种识别竞品用户的装置的结构示意图。
参照图4,在上述实施例的基础上,本发明实施例提供的识别竞品用户的装置,所述装置包括获取模块41和识别模块42,其中:
获取模块41用于针对预设区域预设时间段内每一目标用户,获取消费行为指标,所述消费行为指标包括目标用户的消费行为和/或目标用户的社交圈的消费行为;识别模块42用于根据所述消费行为指标,以及预先建立的识别模型,识别所述目标用户是否为竞品用户,所述识别模型表示消费行为指标与竞品用户的对应关系。
本发明实施例提供的识别竞品用户的装置,可用于执行上述方法实施例的方法,本实施不再赘述。
本发明实施例提供的识别竞品用户的装置,通过获取模块获取消费行为指标,识别模块根据所述消费行为指标,以及预先建立的识别模型,可精准地对目标用户进行识别,以提高竞品用户识别的准确率。
图5示出了本发明又一实施例提供的一种电子设备的结构示意图。
参阅图5,本发明实施例提供的电子设备,所述电子设备包括存储器(memory)51、处理器(processor)52、总线53以及存储在存储器51上并可在处理器上运行的计算机程序。其中,所述存储器51、处理器52通过所述总线53完成相互间的通信。
所述处理器52用于调用所述存储器51中的程序指令,以执行所述程序时实现如图1的方法。
在另一种实施方式中,所述处理器执行所述程序时实现如下方法:
根据所述消费行为指标,以及预先建立的识别模型,识别所述目标用户是否为竞品用户的步骤之前,所述方法还包括:
对初步确定的变量进行筛选,得到所述消费行为指标,所述消费行为指标是具有代表性的变量;
将预先获取的正负样本以及对应的消费行为指标输入至逻辑回归模型进行训练,得到所述识别模型。
在另一种实施方式中,所述处理器执行所述程序时实现如下方法:
对初步确定的变量进行筛选,得到所述消费行为指标的步骤具体为:
针对每一变量,根据正负样本的数量,计算每一变量对应的证据重量WOE;
根据所述WOE,计算信息价值IV;
根据所述IV,对所述变量从大到小排序;
选取IV排序前m%的变量,作为所述消费行为指标,m为正数。
在另一种实施方式中,所述处理器执行所述程序时实现如下方法:
根据所述目标用户的消费行为指标,以及预先建立的识别模型,识别所述目标用户是否为竞品用户的步骤具体为:
根据所述目标用户的消费行为指标,以及预先训练得到的每一消费行为指标对应的权重系数,识别所述目标用户是否为竞品用户。
在另一种实施方式中,所述处理器执行所述程序时实现如下方法:
根据所述目标用户的消费行为指标,以及预先训练得到的每一消费行为指标对应的权重系数,识别所述目标用户是否为竞品用户的步骤具体为:
根据所述目标用户的消费行为指标、预先训练得到的每一消费行为指标对应的权重系数、至少一个惩罚指标以及预先训练得到的每一惩罚指标对应的惩罚系数,识别所述目标用户是否为竞品用户。
在另一种实施方式中,所述处理器执行所述程序时实现如下方法:
根据所述目标用户的消费行为指标,以及预先建立的识别模型,识别所述目标用户是否为竞品用户的步骤之后,所述方法还包括:
将预设区域划分为多个网格;
将每一竞品用户映射至一个网格内。
在另一种实施方式中,所述处理器执行所述程序时实现如下方法:
若XDR中包括竞品用户的小区的标识,相应地,根据所述目标用户的消费行为指标,以及预先建立的识别模型,识别所述目标用户是否为竞品用户的步骤之后,所述方法还包括:
根据每一小区的基站的经纬度和多个楼盘的经纬度,分别计算基站和多个楼盘的距离;
将与基站的距离最小的楼盘,作为竞品用户的位置。
本发明实施例提供的电子设备,可用于执行上述方法实施例的方法对应的程序,本实施不再赘述。
本发明实施例提供的电子设备,通过所述处理器执行所述程序时实现通过获取消费行为指标,并根据所述消费行为指标,以及预先建立的识别模型,可精准地对目标用户进行识别,以提高竞品用户识别的准确率。
本发明又一实施例提供的一种存储介质,所述存储介质上存储有计算机程序,所述程序被处理器执行时实现如图1的步骤。
在另一种实施方式中,所述程序被处理器执行时实现如下方法:
根据所述消费行为指标,以及预先建立的识别模型,识别所述目标用户是否为竞品用户的步骤之前,所述方法还包括:
对初步确定的变量进行筛选,得到所述消费行为指标,所述消费行为指标是具有代表性的变量;
将预先获取的正负样本以及对应的消费行为指标输入至逻辑回归模型进行训练,得到所述识别模型。
在另一种实施方式中,所述程序被处理器执行时实现如下方法:
对初步确定的变量进行筛选,得到所述消费行为指标的步骤具体为:
针对每一变量,根据正负样本的数量,计算每一变量对应的证据重量WOE;
根据所述WOE,计算信息价值IV;
根据所述IV,对所述变量从大到小排序;
选取IV排序前m%的变量,作为所述消费行为指标,m为正数。
在另一种实施方式中,所述程序被处理器执行时实现如下方法:
根据所述目标用户的消费行为指标,以及预先建立的识别模型,识别所述目标用户是否为竞品用户的步骤具体为:
根据所述目标用户的消费行为指标,以及预先训练得到的每一消费行为指标对应的权重系数,识别所述目标用户是否为竞品用户。
在另一种实施方式中,所述程序被处理器执行时实现如下方法:
根据所述目标用户的消费行为指标,以及预先训练得到的每一消费行为指标对应的权重系数,识别所述目标用户是否为竞品用户的步骤具体为:
根据所述目标用户的消费行为指标、预先训练得到的每一消费行为指标对应的权重系数、至少一个惩罚指标以及预先训练得到的每一惩罚指标对应的惩罚系数,识别所述目标用户是否为竞品用户。
在另一种实施方式中,所述程序被处理器执行时实现如下方法:
根据所述目标用户的消费行为指标,以及预先建立的识别模型,识别所述目标用户是否为竞品用户的步骤之后,所述方法还包括:
将预设区域划分为多个网格;
将每一竞品用户映射至一个网格内。
在另一种实施方式中,所述程序被处理器执行时实现如下方法:
若XDR中包括竞品用户的小区的标识,相应地,根据所述目标用户的消费行为指标,以及预先建立的识别模型,识别所述目标用户是否为竞品用户的步骤之后,所述方法还包括:
根据每一小区的基站的经纬度和多个楼盘的经纬度,分别计算基站和多个楼盘的距离;
将与基站的距离最小的楼盘,作为竞品用户的位置。
本发明实施例提供的存储介质,所述程序被处理器执行时实现上述方法实施例的方法,本实施不再赘述。
本发明实施例提供的存储介质,通过获取消费行为指标,并根据所述消费行为指标,以及预先建立的识别模型,可精准地对目标用户进行识别,以提高竞品用户识别的准确率。
本发明又一实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:
针对预设区域预设时间段内每一目标用户,获取消费行为指标,所述消费行为指标包括目标用户的消费行为和/或目标用户的社交圈的消费行为;
根据所述消费行为指标,以及预先建立的识别模型,识别所述目标用户是否为竞品用户,所述识别模型表示消费行为指标与竞品用户的对应关系。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。
本领域技术人员可以理解,实施例中的各步骤可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (7)
1.一种识别竞品用户的方法,其特征在于,所述方法包括:
针对预设区域预设时间段内每一目标用户,获取消费行为指标,所述消费行为指标包括目标用户的消费行为和/或目标用户的社交圈的消费行为;其中,所述消费行为指标是描述用户的消费行为的特征,所述消费行为包括终端消费水平、使用流量信息、上网内容信息和通话信息;
根据所述消费行为指标,以及预先建立的识别模型,识别所述目标用户是否为竞品用户,所述识别模型表示消费行为指标与竞品用户的对应关系,所述竞品用户为竞争对手的客户;
根据所述目标用户的消费行为指标,以及预先建立的识别模型,识别所述目标用户是否为竞品用户的步骤具体为:
根据所述目标用户的消费行为指标,以及预先训练得到的每一消费行为指标对应的权重系数,识别所述目标用户是否为竞品用户;
根据所述目标用户的消费行为指标,以及预先训练得到的每一消费行为指标对应的权重系数,识别所述目标用户是否为竞品用户的步骤具体为:
根据所述目标用户的消费行为指标、预先训练得到的每一消费行为指标对应的权重系数、至少一个惩罚指标以及预先训练得到的每一惩罚指标对应的惩罚系数,识别所述目标用户是否为竞品用户;其中,若任一消费行为指标的权重系数大于预设门限,则将该消费行为指标作为所述惩罚指标;
根据所述目标用户的消费行为指标,以及预先建立的识别模型,识别所述目标用户是否为竞品用户的步骤之后,所述方法还包括:
将预设区域划分为多个网格;
基于XDR携带的小区的标识,统计得到竞品用户的常驻小区;
采用空间聚类算法将所述竞品用户的常驻小区与所述网格进行匹配,将每一竞品用户映射至一个网格内;
统计每个网格内竞品用户的数量,若所述数量小于预设门限,则在所述网格内开展营销活动。
2.根据权利要求1所述的方法,其特征在于:根据所述消费行为指标,以及预先建立的识别模型,识别所述目标用户是否为竞品用户的步骤之前,所述方法还包括:
对初步确定的变量进行筛选,得到所述消费行为指标,所述消费行为指标是具有代表性的变量;
将预先获取的正负样本以及对应的消费行为指标输入至逻辑回归模型进行训练,得到所述识别模型。
3.根据权利要求2所述的方法,其特征在于:对初步确定的变量进行筛选,得到所述消费行为指标的步骤具体为:
针对每一变量,根据正负样本的数量,计算每一变量对应的证据重量WOE;
根据所述WOE,计算信息价值IV;
根据所述IV,对所述变量从大到小排序;
选取IV排序前m%的变量,作为所述消费行为指标,m为正数。
4.根据权利要求1所述的方法,其特征在于:若XDR中包括竞品用户的小区的标识,相应地,根据所述目标用户的消费行为指标,以及预先建立的识别模型,识别所述目标用户是否为竞品用户的步骤之后,所述方法还包括:
根据每一小区的基站的经纬度和多个楼盘的经纬度,分别计算基站和多个楼盘的距离;
将与基站的距离最小的楼盘,作为竞品用户的位置。
5.一种识别竞品用户的装置,其特征在于,所述装置包括:
获取模块,用于针对预设区域预设时间段内每一目标用户,获取消费行为指标,所述消费行为指标包括目标用户的消费行为和/或目标用户的社交圈的消费行为;其中,所述消费行为指标是描述用户的消费行为的特征,所述消费行为包括终端消费水平、使用流量信息、上网内容信息和通话信息;
识别模块,用于根据所述消费行为指标,以及预先建立的识别模型,识别所述目标用户是否为竞品用户,所述识别模型表示消费行为指标与竞品用户的对应关系,所述竞品用户为竞争对手的客户;
所述识别模块用于:根据所述目标用户的消费行为指标,以及预先训练得到的每一消费行为指标对应的权重系数,识别所述目标用户是否为竞品用户;
所述识别模块用于:根据所述目标用户的消费行为指标、预先训练得到的每一消费行为指标对应的权重系数、至少一个惩罚指标以及预先训练得到的每一惩罚指标对应的惩罚系数,识别所述目标用户是否为竞品用户;其中,若任一消费行为指标的权重系数大于预设门限,则将该消费行为指标作为所述惩罚指标;
还包括处理器,用于:
将预设区域划分为多个网格;
基于XDR携带的小区的标识,统计得到竞品用户的常驻小区;
采用空间聚类算法将所述竞品用户的常驻小区与所述网格进行匹配,将每一竞品用户映射至一个网格内;
统计每个网格内竞品用户的数量,若所述数量小于预设门限,则在所述网格内开展营销活动。
6.一种电子设备,其特征在于,包括存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1-4任意一项的步骤。
7.一种存储介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现如权利要求1-4任意一项的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810372071.2A CN110400160B (zh) | 2018-04-24 | 2018-04-24 | 识别竞品用户的方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810372071.2A CN110400160B (zh) | 2018-04-24 | 2018-04-24 | 识别竞品用户的方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110400160A CN110400160A (zh) | 2019-11-01 |
CN110400160B true CN110400160B (zh) | 2022-09-16 |
Family
ID=68320176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810372071.2A Active CN110400160B (zh) | 2018-04-24 | 2018-04-24 | 识别竞品用户的方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110400160B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114339859B (zh) * | 2020-09-27 | 2023-08-15 | 中国移动通信集团广东有限公司 | 识别全屋无线网络WiFi潜在用户的方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106204106A (zh) * | 2016-06-28 | 2016-12-07 | 武汉斗鱼网络科技有限公司 | 一种特定用户识别方法及系统 |
CN107122890A (zh) * | 2017-04-07 | 2017-09-01 | 信雅达系统工程股份有限公司 | 个人信用得分优化评价方法 |
CN107798029A (zh) * | 2017-02-17 | 2018-03-13 | 平安科技(深圳)有限公司 | 贬损客户预测方法和装置 |
CN107818133A (zh) * | 2017-09-21 | 2018-03-20 | 北京市天元网络技术股份有限公司 | 一种基于大数据的居民区网络能力分析方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160098735A1 (en) * | 2014-10-07 | 2016-04-07 | Adobe Systems Incorporated | Marketing channel attribution |
-
2018
- 2018-04-24 CN CN201810372071.2A patent/CN110400160B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106204106A (zh) * | 2016-06-28 | 2016-12-07 | 武汉斗鱼网络科技有限公司 | 一种特定用户识别方法及系统 |
CN107798029A (zh) * | 2017-02-17 | 2018-03-13 | 平安科技(深圳)有限公司 | 贬损客户预测方法和装置 |
CN107122890A (zh) * | 2017-04-07 | 2017-09-01 | 信雅达系统工程股份有限公司 | 个人信用得分优化评价方法 |
CN107818133A (zh) * | 2017-09-21 | 2018-03-20 | 北京市天元网络技术股份有限公司 | 一种基于大数据的居民区网络能力分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110400160A (zh) | 2019-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110991875B (zh) | 一种平台用户质量评估系统 | |
CN109615122B (zh) | 配送范围的生成方法、装置、电子设备和存储介质 | |
CN109493119B (zh) | 一种基于poi数据的城市商业中心识别方法及系统 | |
CN110417607B (zh) | 一种流量预测方法、装置及设备 | |
CN111078818B (zh) | 地址分析方法、装置、电子设备及存储介质 | |
CN106408325A (zh) | 基于用户支付信息的用户消费行为预测分析方法及系统 | |
CN111797188B (zh) | 一种基于开源地理空间矢量数据的城市功能区定量识别方法 | |
Bachir et al. | Using mobile phone data analysis for the estimation of daily urban dynamics | |
CN113205383A (zh) | 一种房产智能推荐方法及系统 | |
CN108038734B (zh) | 基于点评数据的城市商业设施空间分布探测方法及系统 | |
CN115456695A (zh) | 一种店铺选址的分析方法、装置、系统及介质 | |
CN114004654A (zh) | 基于大数据分析的互联网卡用户画像构建方法及系统 | |
CN110633401A (zh) | 一种门店数据的预测模型及其建立方法 | |
CN110400160B (zh) | 识别竞品用户的方法、装置、电子设备和存储介质 | |
CN111985576B (zh) | 基于决策树的店铺选址方法 | |
CN109995549B (zh) | 一种评估流量价值的方法及装置 | |
KR20100123408A (ko) | Gis 기반의 가맹점 마케팅 지원 시스템 및 방법 | |
CN113191681A (zh) | 网点选址方法、装置、电子设备及可读存储介质 | |
CN111310340B (zh) | 基于人类移动的城市区域交互异常关系识别方法及设备 | |
CN113408867B (zh) | 基于手机用户和poi数据的城市入室盗窃犯罪风险评估方法 | |
WO2024001102A1 (zh) | 一种通信行业家庭圈智能识别的方法、装置及设备 | |
CN115392351A (zh) | 风险用户识别方法、装置、电子设备及存储介质 | |
CN111581318B (zh) | 一种共享单车骑行目的推断方法、装置及存储介质 | |
CN113988639A (zh) | 资产价值动态管理系统 | |
CN109919811A (zh) | 基于大数据的保险代理人培养方案生成方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |