CN109086787A - 用户画像获取方法、装置、计算机设备以及存储介质 - Google Patents
用户画像获取方法、装置、计算机设备以及存储介质 Download PDFInfo
- Publication number
- CN109086787A CN109086787A CN201810574121.5A CN201810574121A CN109086787A CN 109086787 A CN109086787 A CN 109086787A CN 201810574121 A CN201810574121 A CN 201810574121A CN 109086787 A CN109086787 A CN 109086787A
- Authority
- CN
- China
- Prior art keywords
- user
- information data
- population
- user information
- portrait
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Probability & Statistics with Applications (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请揭示了用户画像获取方法、装置、计算机设备以及存储介质,其中,用户画像获取方法,包括:获取目标产品对应的第一指定数据库中的各第一用户信息数据;根据预设规则对各所述第一用户信息数据进行分类,得到不同的用户种群;分析各用户种群购买或配置所述目标产品中各个产品类别分别对应的占比概率,将占比概率达到预设阈值的产品类别设定为相应的用户种群对应的指定产品类别;将所述不同的用户种群分别与各自对应的所述指定产品类别进行关联,以获取所述不同的用户种群的用户画像。本申请通过聚类算法实现对数据库中的用户信息数据进行聚类,以便根据共有的特征信息区别并分隔成不同的用户种群,以便得到更精准的用户画像。
Description
技术领域
本申请涉及到大数据领域,特别是涉及到用户画像获取方法、装置、计算机设备以及存储介质。
背景技术
用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。在实际操作的过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待联结起来。作为实际用户的虚拟代表,用户画像所形成的用户角色并不是脱离产品和市场之外所构建出来的,形成的用户角色需要有代表性,能代表产品的主要受众和目标群体。但现有用户画像中没有将用户种群与产品类别相匹配,使得用户画像的精准度不够。
发明内容
本申请的主要目的为提供一种产品的用户种群的用户画像获取方法,旨在解决现有用户种群未与健康保险产品的产品类别相匹配,用户画像的精准度不高的技术问题。
本申请提出一种用户画像获取方法,包括:
获取目标产品对应的第一指定数据库中的各第一用户信息数据,其中,各所述第一用户信息数据具有与其一一对应的第一用户;
根据预设规则对各所述第一用户信息数据进行分类,得到不同的用户种群;
分析各所述用户种群购买或配置所述目标产品中各个产品类别分别对应的占比概率,将占比概率达到预设阈值的产品类别设定为相应的用户种群对应的指定产品类别;
将所述不同的用户种群分别与各自对应的所述指定产品类别进行关联,以获取所述不同的用户种群的用户画像。
优选地,所述根据预设规则对各所述第一用户信息数据进行分类,得到不同的用户种群的步骤,包括:
将各所述第一用户信息数据输入到基于支持向量机的聚类算法中;
获取所述聚类算法输出的各所述第一用户信息数据分别对应的聚类簇;
为各所述聚类簇匹配用户种群标签,以形成不同的用户种群。
优选地,所述获取所述聚类算法输出的各所述第一用户信息数据分别对应的聚类簇的步骤,包括:
根据所述聚类算法的最小化损失函数将各所述第一用户信息数据的分类问题转化为两个变量μ和α的最大最小值问题;
根据随机镜像下降法对随机初始化的μ0和α0进行多次迭代至达到预设停止迭代的条件;
输出迭代后的μ和α的值,以获得所述最大最小值问题的解,即鞍点(μ,α);
根据所述鞍点(μ,α)对不同聚类簇进行标记,得到各所述第一用户信息数据分别对应的聚类簇。
优选地,所述根据随机镜像下降法对随机初始化的μ0和α0进行多次迭代至达到预设停止迭代的条件的步骤,包括:
判断上一次的迭代输出与当前的迭代输出的差量是否在预设范围内;
若是,则判定达到停止迭代的预设条件。
优选地,所述将所述不同的用户种群分别与各自对应的所述指定产品类别进行关联,以获取所述不同的用户种群的用户画像的步骤之后,包括:
接收新入库用户的第二用户信息数据;
根据所述第二用户信息数据获取所述新入库用户的特征信息;
查找与所述特征信息匹配度最高的用户种群标签;
将所述第二用户信息数据归纳到匹配度最高的用户种群标签所对应的第一聚类簇。
优选地,所述的将所述第二用户信息数据归纳到匹配度最高的用户种群标签所对应的第一聚类簇步骤之后,包括:
获取与所述第一聚类簇相关联的第一产品类别,将所述第一产品类别推送给所述新入库用户。
优选地,所述将所述不同的用户种群分别与各自对应的所述指定产品类别进行关联,以获取所述不同的用户种群的用户画像的步骤之后,包括:
在第二指定数据库中搜寻与所述第一指定数据库中得到的第二聚类簇的用户种群标签匹配度最高的第三用户信息数据;
将所述第三用户信息数据汇总到所述第二聚类簇;
获取与所述第二聚类簇相关联的第二产品类别,将所述第二产品类别推送给所述第三用户信息数据相对应的用户。
本申请还提供了一种用户画像获取装置,包括:
第一获取模块,用于获取目标产品对应的第一指定数据库中的各第一用户信息数据,其中,各所述第一用户信息数据具有与其一一对应的第一用户;
得到模块,用于根据预设规则对各所述第一用户信息数据进行分类,得到不同的用户种群;
设定模块,用于分析各所述用户种群购买或配置所述目标产品中各个产品类别分别对应的占比概率,将占比概率达到预设阈值的产品类别设定为相应的用户种群对应的指定产品类别;
关联模块,用于将所述不同的用户种群分别与各自对应的所述指定产品类别进行关联,以获取所述用户种群的用户画像。
本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
本申请通过聚类算法实现对数据库中的用户信息数据进行聚类,以便根据共有的特征信息区别并分隔成不同的用户种群,以便得到更精准的用户画像,与具体产品的匹配效果更匹配。本申请通过对不同的用户种群与不同的具体健康保险产品相关联,实现用户种群与产品类别相匹配,有利于准确投放或推送具体的健康保险产品,有利于向指定用户种群提供更匹配的服务。本申请通过基于向量机的聚类算法,使得数据处理的效果更高;且通过最小损失函数将没有分类标准的模糊分类问题转化为求解最大最小化问题,并通过随机镜像下降算法求解得到相应的鞍点,使聚类簇的分类标准更明确,分类处理更高效。
附图说明
图1本申请一实施例的用户画像获取方法的流程示意图;
图2本申请一实施例的用户画像获取装置的结构示意图;
图3本申请一实施例的得到模块的结构示意图;
图4本申请一实施例的获取子模块的结构示意图;
图5本申请一实施例的迭代单元的结构示意图;
图6本申请再一实施例的用户画像获取装置的结构示意图;
图7本申请另一实施例的用户画像获取装置的结构示意图;
图8本申请一实施例的计算机设备的内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请以目标产品为健康保险产品为例,本申请的用户画像获取方法,包括:
S1:获取健康保险产品对应的第一指定数据库中的各第一用户信息数据,其中,各所述第一用户信息数据具有与其一一对应的第一用户。
本步骤的“第一”用于区别,不用于限定,其他处的“第一”、“第二”作用相同,不赘述。本实施例的第一用户信息数据,包括用户的工作状态、年龄、性别、常住地理区域、文化程度、民族等基础信息。比如,工作状态包括在职、待业、失业等。本实施例的第一用户信息数据来自用户购买健康保险产品时的输入的个人信息,或评估预购买健康保险产品时录入的个人信息。
S2:根据预设规则对各所述第一用户信息数据进行分类,得到不同的用户种群。
根据上述的用户的姓名、年龄、性别、常住地理区域、文化程度、民族、职业等几种基础信息进行用户种群分类。举例地,根据用户的年龄、性别、职业将健康保险产品第一指定数据库中的第一用户分为几个大的用户种群,25岁以下的学生种群、25岁至60岁的上班族女士的用户种群、25岁至60岁的上班族男士的用户种群以及60岁以上的退休人的用户种群。在划分用户种群时,选用的基础信息越多,则用户种群的划分类别就越细致,但计算量也越大,本实施例优选3至4个基础信息对用户种群进行分类,即能满足对第一指定数据库中进行划分用户种群的需要,且计算量适当,能满足实时处理的效率要求。
S3:分析各用户种群购买或配置上述目标产品中各个产品类别分别对应的占比概率,将占比概率达到预设阈值的产品类别设定为相应的用户种群对应的指定产品类别。
本实施例的用户种群可能购买或配置健康保险产品中的多种产品类别,比如,一个第一用户购买或配置了A、B、C三个产品类别的健康保险产品,通过计算各产品类别占比用户种群中总用户的占比概率分别为10%、30%、70%,并分析占比概率达到预设阈值的产品类别,如预设阈值为50%,则找到用户种群对应的指定产品类别为C产品类别。当用户种群中有多个产品类别的占比概率达到预设阈值,则用户种群对应的指定产品类别至少为一个。
S4:将不同的用户种群分别与各自对应的健康保险产品的指定产品类别进行关联,以获取不同的用户种群的用户画像。
本步骤通过将用户种群与健康保险产品的具体产品类别(险种)相关联,实现对健康保险产品的第一指定数据库中的第一用户信息数据进行有效分类,包括对用户种群的划分以及对健康保险产品的产品类别的区分,并通过将用户种群的划分与健康保险产品的产品类别的区分进行有效关联,以提高健康保险产品的精准用户画像,即实现特定用户群体对应特定的健康保险产品,有利于为特定人群组成的用户种群推送更合适的健康保险产品的具体险种,有利于有目标地挖掘目标用户,有利于建立信息匹配的市场策划等。举例地,为25岁以下的学生用户种群关联教育基金险,为25岁至60岁的上班族男士用户种群关联意外险,为25岁至60岁的上班族女士用户种群关联意外险和生育险等,以便合理推送具体保险险种,形成信息匹配的推送模式,增大匹配成功的几率,提高推送的效果。
进一步地,上述步骤S2,包括:
S20:将各所述第一用户信息数据输入到基于支持向量机的聚类算法中。
本实施例的聚类算法基于支持向量机,支持向量机(Support Vector Machine,SVM)在解决小样本、非线性及高维模式识别中表现出特有优势,可以高效进行分析数据、识别模式、分类和回归分析。由于支持向量机可根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折中,即得到具有一定学习能力的复杂度较低的模型,以求获得最好的推广能力,使得本实施例的聚类算法相比于传统的聚类算法具有处理的效率更高,使得输出的分类数据得到最大化的最小间隔,更有利于建立健康保险产品中具体产品类别分别对应的用户种群的精准用户画像。
S21:获取所述聚类算法输出的各所述第一用户信息数据分别对应的聚类簇。
本实施例通过将购买健康保险产品的第一指定数据库中的各第一用户信息数据作为基于支持向量机的聚类算法的输入,以便通过聚类算法输出各所述第一用户信息数据分别对应的聚类簇,以便通过对各第一用户信息数据进行归类分簇,实现对第一指定数据库中的各第一用户信息数据进行用户种群划分,以便将通过对各第一用户信息数据进行归类分簇,达到用户种群与具体健康保险产品进行更精准的匹配。
S22:为各所述聚类簇匹配用户种群标签,以形成不同的用户种群。
本实施例的用户种群标签用于识别与区分各聚类簇分别对应的不同的用户种群,以便根据各用户种群标签得到对应的用户种群的特征信息,以便准确推送合适的健康保险产品以及提供更满足信息对称要求的专业服务。本实施例的用户种群标签中包括各用户种群共同的特征信息,以便对各用户种群更详尽的识别与区分,实现分别对各用户种群的有效管理。举例地,25岁至60岁的上班族女士的用户种群的特征信息包括:年龄25岁至60岁,女士,上班族等。
进一步地,上述步骤S21,包括:
S210:根据所述聚类算法的最小化损失函数,将各所述第一用户信息数据的分类问题转化为两个变量μ和α的最大最小值问题。
本实施例的聚类算法中通过最小化损失函数,将对各第一用户信息数据进行归类分簇的问题,转化为两个变量μ和α的最大最小值问题,以便更精准的获得对各第一用户信息数据进行归类分簇的分类标准。本实施例的最小化损失函数如下:
假设训练数据集是δ={(x1,y1),(x2,y2)...(xm,ym)},其中,ω是缩放比例,ζ和ε分别是x,y的预测值到决策边界平均值的偏离程度。λ/m是对于偏离程度设置的比重,通过对预测值到决策边界的偏离平方作为误差,使得最小化误差得到最优的分类划分方式。另外,B是通过领域专业知识,选择出来的候选数据集,本实施例中B为第一指定数据库中的第一用户信息数据。要使得最后的聚类簇y,以及缩放比例ω,还有相对决策边界平均值的偏离量满足误差最小,需要满足条件的参数量太多,本实施例通过两次对偶进行问题转换,分别以μ,μ∈M和α,α∈A为对偶变量,将对各第一用户信息数据进行归类分簇的问题,转化为关于两个变量μ和α函数的最大最小值问题,表示为:以便更精准地解析到分类标准,实现清楚、准确的分类问题,有利于将第一指定数据库中的各第一用户信息数据进行精准地划分用户种群。
S211:根据随机镜像下降法对随机初始化的μ0和α0进行多次迭代至达到停止迭代的预设条件。
本实施例通过随机镜像下降法的迭代过程,对上述两个变量μ和α进行求解,以便确定最佳的分类标准量。随机镜像下降法即随机梯度下降法,为在无法建立准确数学模型情况下的最优化求解方式,通过迭代逼近真实值的方法,不断降低模型输出误差,随机梯度下降法对单个样本的近似优化过程,能达到快速收敛的效果,计算量小。本实施例通过输入的各第一用户信息数据以及最大迭代数,对初始化μ0和α0进行多次迭代,直到达到停止迭代的预设条件,其中,初始化μ0和α0可以为零或其他数值,本实施例通过优选初始化μ0和α0为零,以提高找到准确分类量值的概率。本实施例的最大迭代数的选择直接影响迭代过程的计算量以及计算准确度,本实施例的最大迭代数根据多次实验求平均的方法确定,以便优化迭代计算过程。
S212:输出迭代后的μ和α的值,以获得所述最大最小值问题的解,即鞍点(μ,α)。
本实施例的输出迭代后的μ和α的值,即为对购买健康保险产品的第一指定数据库中的各第一用户信息数据的有效分类标准的真实值。
S213:根据所述鞍点(μ,α)对不同聚类簇进行标记,得到各所述第一用户信息数据分别对应的聚类簇。
本实施例通过记号对各聚类簇进行标记,以便方便识别各聚类簇,其中y为聚类簇,B为第一指定数据库中的第一用户信息数据,K表示聚类簇y共同的特征信息。
进一步地,上述步骤S211,包括:
S2110:判断上一次的迭代输出与当前的迭代输出的差量是否在预设范围内。
本实施例的停止迭代的预设条件为,相邻两次的迭代输出的差量在预设范围内。本实施例的预设范围可根据实际需要进行设定,或通过多次实验得到的平均参考值。比如,本实施例的预设范围为2-5等。以便在满足迭代要求的前提下,快速满足收敛,减小计算量。
S2111:若是,则判定达到停止迭代的预设条件。
进一步地,上述步骤S4之后,包括:
S40:接收新入库用户的第二用户信息数据。
本步骤为对第一指定数据库中的各第一用户信息数据分类后的具体应用,用于识别第一指定数据库中新入库的第二用户信息数据,以便及时将第二用户信息数据归纳到指定的聚类簇中,方便数据管理和整合。本实施例的第二用户信息数据所包含内容同第一用户信息数据,区别仅在于所对应的用户不同,第二用户信息数据为新入库用户的信息数据。
S41:根据所述第二用户信息数据获取所述新入库用户的特征信息;
比如,获取到第二用户信息数据中包含的新入库用户的特征信息为:35岁,A公司财务、已婚女士、联系方式、家庭住址等。
S42:查找与所述特征信息匹配度最高的用户种群标签;
本实施例的匹配度最高为新入库用户的特征信息包含相应聚类簇的用户种群标签中所有的共同的特征信息,且与用户种群标签的共同的特征信息完全一一对应,即相应用户种群标签的共同的特征信息与该新入库用户的特征信息完全吻合时,才能纳入到该聚类簇。举例地,上述新入库用户的特征信息中的35岁,A公司财务、已婚女士分别与第一聚类簇的用户种群标签的25岁至60岁、上班族、女士建立一一对应关系,则匹配度最高,则将上述新入库用户纳入到第一聚类簇。
S43:将所述第二用户信息数据归纳到匹配度最高的用户种群标签所对应的第一聚类簇。
将上述的特征信息与数据库中各聚类簇对应的用户种群标签相对照,得到本实施例的新入库用户对应的第二用户信息数据,应归纳入的聚类簇为25岁至60岁的上班族女士的用户种群。
进一步地,上述步骤S43之后,包括:
S44:获取与所述第一聚类簇相关联的所述健康保险产品的第一产品类别,将所述第一产品类别推送给所述新入库用户。
举例地,将与25岁至60岁的上班族女士的用户种群相关联的意外险和生育险推送给新入库用户,以便提高推送产品成功率。
本申请另一实施例中,步骤S4之后,包括:
S45:在第二指定数据库中搜寻与所述第一指定数据库中得到的第二聚类簇的用户种群标签匹配度最高的第三用户信息数据。
本实施例的第二指定数据库为区别于健康保险产品第一指定数据库的其他数据库,比如医院收集的用户数据形成的数据库、通讯公司收集的用户数据形成的数据库等新领域的数据库。本实施例通过在新领域数据库中搜寻与所述第一指定数据库中得到的第二聚类簇的用户种群标签匹配度最高的第三用户信息数据,以便在新领域数据库中挖掘潜在客户。本实施例的第二聚类簇不限于上述列举的25岁以下的学生用户种群、25岁至60岁的上班族女士用户种群、25岁至60岁的上班族男士用户种群以及60岁以上的退休人用户种群中的任何一种用户种群对应的聚类簇,本实施例的第三用户信息数据的内容同第一用户信息数据,第二聚类簇的用户种群标签与第三用户信息数据的匹配度最高的规则同步骤S42。
S46:将所述第三用户信息数据汇总到所述第二聚类簇。
举例地,本实施例的第二聚类簇为25岁以下的学生用户种群,则将新领域数据库中的各学生用户的信息数据整合成各第三用户信息数据,并汇总到第一指定数据库的25岁以下的学生用户种群所对应的聚类簇中。
S47:将与所述第二聚类簇相关联的所述健康保险产品的第二产品类别,将第二产品类别推送给所述第三用户信息数据相对应的用户。
举例地,将与25岁以下的学生用户种群相关联的教育基金险,向新领域的第三用户信息数据相对应的学生用户进行推送与匹配,提高产品匹配成功率。
进一步地,上述步骤S47或S44之后,包括:
S470:收集所述第三用户信息数据相对应的用户或所述新入库用户对推送的所述健康保险产品的产品类别的满意度。
本实施例通过收集反馈信息分析产品推送的匹配成功率或用户对推送产品的满意度,实现对第一指定数据库中划分的聚类簇的合理性进行反馈,以及聚类簇与具体险种的匹配合理性的反馈。
S471:根据所述满意度判断根据所述第一指定数据库的聚类簇的分类标准,以及各聚类簇与各所述健康保险产品的产品类别的关联匹配度是否达到预期。
本实施例通过分析上述反馈信息中的满意度,来判定聚类簇的分类标准,以及各聚类簇与各具体险种的匹配是否满足预期。比如,本实施例的预期为反馈信息中的满意度达到85%以上。
S472:若否,则优化所述随机镜像下降法的迭代参量重新进行分类计算。
若未达到预期,可通过调整随机镜像下降算法中的常规参量、最大迭代数、停止迭代的预设条件等,进一步优化鞍点(μ,α)的输出,以便进一步优化各聚类簇之间的最优间隔分布,实现最优化分类。
本实施例通过聚类算法实现对数据库中的用户信息进行聚类,以便根据共有的特征信息区别并分隔成不同的用户种群,以便得到更精准的用户画像,与具体产品的匹配效果更匹配。本实施例通过对不同的用户种群与不同的具体健康保险产品相关联,实现用户种群与产品类别相匹配,有利于准确投放或推送具体的健康保险产品,有利于向指定用户种群提供更匹配的服务。本实施例通过基于向量机的聚类算法,使得数据处理的效果更高;且通过最小损失函数将没有分类标准的模糊分类问题转化为求解最大最小化问题,并通过随机镜像下降算法求解得到相应的鞍点,使聚类簇的分类标准更明确,分类处理更高效。
参照图2,本申请以健康保险产品为例,本申请的用户画像获取装置,包括:
第一获取模块1:用于获取健康保险产品对应的第一指定数据库中的各第一用户信息数据,其中,各所述第一用户信息数据具有与其一一对应的第一用户。
本实施例的“第一”用于区别,不用于限定,其他处的“第一”、“第二”作用相同,不赘述。本实施例的第一用户信息数据,包括用户的工作状态、年龄、性别、常住地理区域、文化程度、民族等基础信息。比如,工作状态包括在职、待业、失业等。本实施例的第一用户信息数据来自用户购买健康保险产品时的输入的个人信息,或评估预购买健康保险产品时录入的个人信息。
得到模块2:用于根据预设规则对各所述第一用户信息数据进行分类,得到不同的用户种群。
根据上述的用户的姓名、年龄、性别、常住地理区域、文化程度、民族、职业等几种基础信息进行用户种群分类。举例地,根据用户的年龄、性别、职业将健康保险产品第一指定数据库中的第一用户分为几个大的用户种群,25岁以下的学生种群、25岁至60岁的上班族女士的用户种群、25岁至60岁的上班族男士的用户种群以及60岁以上的退休人的用户种群。在划分用户种群时,选用的基础信息越多,则用户种群的划分类别就越细致,但计算量也越大,本实施例优选3至4个基础信息对用户种群进行分类,即能满足对第一指定数据库中进行划分用户种群的需要,且计算量适当,能满足实时处理的效率要求。
设定模块3:分析各用户种群购买或配置上述目标产品中各个产品类别分别对应的占比概率,将占比概率达到预设阈值的产品类别设定为相应的用户种群对应的指定产品类别。
本实施例的用户种群中可能购买或配置健康保险产品中的多种产品类别,比如,一个第一用户购买或配置了A、B、C三个产品类别的健康保险产品,通过计算各产品类别占比用户种群中总用户的占比概率分别为10%、30%、70%,并分析占比概率达到预设阈值的产品类别,如预设阈值为50%,则找到用户种群对应的指定产品类别为C产品类别。当用户种群中有多个产品类别的占比概率达到预设阈值,则用户种群对应的指定产品类别至少为一个。
关联模块4:用于将不同的用户种群分别与各自对应的所述健康保险产品的指定产品类别进行关联,以获取不同的用户种群的用户画像。
本实施例通过将用户种群与健康保险产品的具体产品类别(险种)相关联,实现对健康保险产品的第一指定数据库中的第一用户信息数据进行有效分类,包括对用户种群的划分以及对健康保险产品的产品类别的区分,并通过将用户种群的划分与健康保险产品的产品类别的区分进行有效关联,以提高健康保险产品的精准用户画像,即实现特定用户群体对应特定的健康保险产品,有利于为特定人群组成的用户种群推送更合适的健康保险产品的具体险种,有利于有目标地挖掘目标用户,有利于建立信息匹配的市场策划等。举例地,为25岁以下的学生用户种群的关联教育基金险,为25岁至60岁的上班族男士用户种群关联意外险,为25岁至60岁的上班族女士用户种群关联意外险和生育险等,以便合理推送具体保险险种,形成信息匹配的推送模式,增大匹配成功的几率,提高推送的效果。
参照图3,上述得到模块2,包括:
输入子模块20:用于将各所述第一用户信息数据输入到基于支持向量机的聚类算法中。
本实施例的聚类算法基于支持向量机,支持向量机(Support Vector Machine,SVM)在解决小样本、非线性及高维模式识别中表现出特有优势,可以高效进行分析数据、识别模式、分类和回归分析。由于支持向量机可根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折中,即得到具有一定学习能力的复杂度较低的模型,以求获得最好的推广能力,使得本实施例的聚类算法相比于传统的聚类算法具有处理的效率更高,使得输出的分类数据得到最大化的最小间隔,更有利于建立健康保险产品中具体产品类别分别对应的用户种群的精准用户画像。
获取子模块21:用于获取所述聚类算法输出的各所述第一用户信息数据分别对应的聚类簇。
本实施例通过将购买健康保险产品的第一指定数据库中的各第一用户信息数据作为基于支持向量机的聚类算法的输入,以便通过聚类算法输出各所述第一用户信息数据分别对应的聚类簇,以便通过对各第一用户信息数据进行归类分簇,实现对第一指定数据库中的各第一用户信息数据进行用户种群划分,以便将通过对各第一用户信息数据进行归类分簇,达到用户种群与具体健康保险产品进行更精准的匹配。
匹配子模块22:用于为各所述聚类簇匹配用户种群标签,以形成不同的用户种群。
本实施例的用户种群标签用于识别与区分各聚类簇分别对应的不同的用户种群,以便根据各用户种群标签得到对应的用户种群的特征信息,以便准确推送合适的健康保险产品以及提供更满足信息对称要求的专业服务。本实施例的用户种群标签中包括各用户种群共同的特征信息,以便对各用户种群更详尽的识别与区分,实现对各用户种群的有效管理。举例地,25岁至60岁的上班族女士的用户种群的特征信息包括:年龄25岁至60岁,女士,上班族等。
参照图4,上述获取子模块21,包括:
转化单元210:用于根据所述聚类算法的最小化损失函数,将各所述第一用户信息数据的分类问题转化为两个变量μ和α的最大最小值问题。
本实施例的聚类算法中通过最小化损失函数,将对各第一用户信息数据进行归类分簇的问题,转化为两个变量μ和α的最大最小值问题,以便更精准的获得对各第一用户信息数据进行归类分簇的分类标准。本实施例的最小化损失函数如下:
假设训练数据集是δ={(x1,y1),(x2,y2)...(xm,ym)},其中,ω是缩放比例,ζ和ε分别是x,y的预测值到决策边界平均值的偏离程度。λ/m是对于偏离程度设置的比重,通过对预测值到决策边界的偏离平方作为误差,使得最小化误差得到最优的分类划分方式。另外,B是通过领域专业知识,选择出来的候选数据集,本实施例中B为第一指定数据库中的第一用户信息数据。要使得最后的聚类簇y,以及缩放比例ω,还有相对决策边界平均值的偏离量满足误差最小,需要满足条件的参数量太多,本实施例通过两次对偶进行问题转换,分别以μ,μ∈M和α,α∈A为对偶变量,将对各第一用户信息数据进行归类分簇的问题,转化为关于两个变量μ和α函数的最大最小值问题,表示为:以便更精准地解析到分类标准,实现清楚、准确的分类问题,有利于将第一指定数据库中的各第一用户信息数据进行精准地划分用户种群。
迭代单元211:用于根据随机镜像下降法对随机初始化的μ0和α0进行多次迭代至达到停止迭代的预设条件。
本实施例通过随机镜像下降法的迭代过程,对上述两个变量μ和α进行求解,以便确定最佳的分类标准量。随机镜像下降法即随机梯度下降法,为在无法建立准确数学模型情况下的最优化求解方式,通过迭代逼近真实值的方法,不断降低模型输出误差,随机梯度下降法对单个样本的近似优化过程,能达到快速收敛的效果,计算量小。本实施例通过输入的各第一用户信息数据以及最大迭代数,对初始化μ0和α0进行多次迭代,直到达到停止迭代的预设条件,其中,初始化μ0和α0可以为零或其他数值,本实施例通过优选初始化μ0和α0为零,以提高找到准确分类量值的概率。本实施例的最大迭代数的选择直接影响迭代过程的计算量以及计算准确度,本实施例的最大迭代数根据多次实验求平均的方法确定,以便优化迭代计算过程。
输出单元212:用于输出迭代后的μ和α的值,以获得所述最大最小值问题的解,即鞍点(μ,α)。
本实施例的输出迭代后的μ和α的值,即为对购买健康保险产品的第一指定数据库中的各第一用户信息数据的有效分类标准的真实值。
标记单元213:用于根据所述鞍点(μ,α)对不同聚类簇进行标记,得到各所述第一用户信息数据分别对应的聚类簇。
本实施例通过记号对各聚类簇进行标记,以便方便识别各聚类簇,其中y为聚类簇,B为第一指定数据库中的第一用户信息数据,K表示聚类簇y共同的特征信息。
参照图5,上述迭代单元211,包括:
判断子单元2110:用于判断上一次的迭代输出与当前的迭代输出的差量是否在预设范围内。
本实施例的停止迭代的预设条件为,相邻两次的迭代输出的差量在预设范围内。本实施例的预设范围可根据实际需要进行设定,或通过多次实验得到的平均参考值。比如,本实施例的预设范围为2至5等。以便在满足迭代要求的前提下,快速满足收敛,减小计算量。
判定子单元2111:用于若差量在预设范围内,则判定达到停止迭代的预设条件。
参照图6,本申请再一实施例的用户画像获取装置,包括:
接收模块40:用于接收新入库用户的第二用户信息数据。
本实施例为对第一指定数据库中的各第一用户信息数据分类后的具体应用,用于识别第一指定数据库中新入库的第二用户信息数据,以便及时将第二用户信息数据归纳到指定的聚类簇中,方便数据管理和整合。本实施例的第二用户信息数据所包含内容同第一用户信息数据,区别仅在于所对应的用户不同,第二用户信息数据为新入库用户的信息数据。
第二获取模块41:用于根据所述第二用户信息数据获取所述新入库用户的特征信息;
比如,获取到第二用户信息数据中包含的新入库用户的特征信息为:35岁,A公司财务、已婚女士、联系方式、家庭住址等。
查找模块42:用于查找与所述特征信息匹配度最高的用户种群标签;
本实施例的匹配度最高为新入库用户的特征信息包含相应聚类簇的用户种群标签中所有的共同的特征信息,且与用户种群标签的共同的特征信息完全一一对应,即相应用户种群标签的共同的特征信息与该新入库用户的特征信息完全吻合时,才能纳入到该聚类簇。举例地,上述新入库用户的特征信息中的35岁,A公司财务、已婚女士分别与第一聚类簇的用户种群标签的25岁至60岁、上班族、女士建立一一对应关系,则匹配度最高,则将上述新入库用户纳入到第一聚类簇。
归纳模块43:用于将所述第二用户信息数据归纳到匹配度最高的用户种群标签所对应的第一聚类簇。
将上述的特征信息与数据库中各聚类簇对应的用户种群标签相对照,得到本实施例的新入库用户对应的第二用户信息数据,应归纳入的聚类簇为25岁至60岁的上班族女士的用户种群。
进一步地,本实施例的用户画像获取装置,包括:
第一推送模块44:用于获取与所述第一聚类簇相关联的所述健康保险产品的第一产品类别,将第一产品类别推送给所述新入库用户。
举例地,将与25岁至60岁的上班族女士的用户种群相关联的意外险和生育险推送给新入库用户,以便提高推送产品成功率。
参照图7,本申请另一实施例中,用户画像获取装置包括:
搜寻模块45:用于在第二指定数据库中搜寻与所述第一指定数据库中得到的第二聚类簇的用户种群标签匹配度最高的第三用户信息数据。
本实施例的第二指定数据库为区别于健康保险产品第一指定数据库的其他数据库,比如医院收集的用户数据形成的数据库、通讯公司收集的用户数据形成的数据库等新领域的数据库。本实施例通过在新领域数据库中搜寻与所述第一指定数据库中得到的第二聚类簇的用户种群标签匹配度最高的第三用户信息数据,以便在新领域数据库中挖掘潜在客户。本实施例的第二聚类簇不限于上述列举的25岁以下的学生用户种群、25岁至60岁的上班族女士用户种群、25岁至60岁的上班族男士用户种群以及60岁以上的退休人用户种群中的任何一种用户种群对应的聚类簇,本实施例的第三用户信息数据的内容同第一用户信息数据,第二聚类簇的用户种群标签与第三用户信息数据的匹配度最高的规则同查找模块42。
汇总模块46:用于将所述第三用户信息数据汇总到所述第二聚类簇。
举例地,本实施例的第二聚类簇为25岁以下的学生用户种群,则将新领域数据库中的各学生用户的信息数据整合成各第三用户信息数据,并汇总到第一指定数据库的25岁以下的学生用户种群所对应的聚类簇中。
第二推送模块47:用于将与所述第二聚类簇相关联的所述健康保险产品的第二产品类别,将第二产品类别推送给所述第三用户信息数据相对应的用户。
举例地,将与25岁以下的学生用户种群相关联的教育基金险,向新领域的第三用户信息数据相对应的学生用户进行推送与匹配,提高产品匹配成功率。
进一步地,本申请再一实施例或另一实施例中,用户画像获取装置包括:
收集模块470:用于收集所述第三用户信息数据相对应的用户或所述新入库用户对推送的所述健康保险产品的产品类别的满意度。
本实施例通过收集反馈信息分析产品推送的匹配成功率或用户对推送产品的满意度,实现对第一指定数据库中划分的聚类簇的合理性进行反馈,以及聚类簇与具体险种的匹配合理性的反馈。
判断模块471:用于根据所述满意度判断根据所述第一指定数据库的聚类簇的分类标准,以及各聚类簇与各所述健康保险产品的产品类别的关联匹配度是否达到预期。
本实施例通过分析上述反馈信息中的满意度,来判定聚类簇的分类标准,以及各聚类簇与各具体险种的匹配是否满足预期。比如,本实施例的预期为反馈信息中的满意度达到85%以上。
优化模块472:用于若未达到预期,则优化所述随机镜像下降法的迭代参量重新进行分类计算。
若未达到预期,可通过调整随机镜像下降算法中的常规参量、最大迭代数、停止迭代的预设条件等,进一步优化鞍点(μ,α)的输出,以便进一步优化各聚类簇之间的最优间隔分布,实现最优化分类。
参照图8,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储用户画像获取过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现用户画像获取方法。
上述处理器执行上述用户画像获取方法,包括:获取目标产品对应的第一指定数据库中的各第一用户信息数据,其中,各所述第一用户信息数据具有与其一一对应的第一用户;根据预设规则对各所述第一用户信息数据进行分类,得到不同的用户种群;分析各用户种群购买或配置所述目标产品中各个产品类别分别对应的占比概率,将占比概率达到预设阈值的产品类别设定为相应的用户种群对应的指定产品类别;将所述不同的用户种群分别与各自对应的所述指定产品类别进行关联,以获取所述不同的用户种群的用户画像。
上述计算机设备,通过聚类算法实现对数据库中的用户信息数据进行聚类,以便根据共有的特征信息区别并分隔成不同的用户种群,以便得到更精准的用户画像,与具体产品的匹配效果更匹配。本申请通过对不同的用户种群与不同的具体健康保险产品相关联,实现用户种群与产品类别相匹配,有利于准确投放或推送具体的健康保险产品,有利于向指定用户种群提供更匹配的服务。本申请通过基于向量机的聚类算法,使得数据处理的效果更高;且通过最小损失函数将没有分类标准的模糊分类问题转化为求解最大最小化问题,并通过随机镜像下降算法求解得到相应的鞍点,使聚类簇的分类标准更明确,分类处理更高效。
在一个实施例中,上述处理器根据预设规则对各所述第一用户信息数据进行分类,得到不同的用户种群的步骤,包括:将各所述第一用户信息数据输入到基于支持向量机的聚类算法中;获取所述聚类算法输出的各所述第一用户信息数据分别对应的聚类簇;为各所述聚类簇匹配用户种群标签,以形成不同的用户种群。
在一个实施例中,上述处理器获取所述聚类算法输出的各所述第一用户信息数据分别对应的聚类簇的步骤,包括:根据所述聚类算法的最小化损失函数,将各所述第一用户信息数据的分类问题转化为两个变量μ和α的最大最小值问题;根据随机镜像下降法对随机初始化的μ0和α0进行多次迭代至达到预设停止迭代的条件;输出迭代后的μ和α的值,以获得所述最大最小值问题的解,即鞍点(μ,α);根据所述鞍点(μ,α)对不同聚类簇进行标记,得到各所述第一用户信息数据分别对应的聚类簇。
在一个实施例中,上述处理器根据随机镜像下降法对随机初始化的μ0和α0进行多次迭代至达到预设停止迭代的条件的步骤,包括:判断上一次的迭代输出与当前的迭代输出的差量是否在预设范围内;若是,则判定达到停止迭代的预设条件。
在一个实施例中,上述处理器将所述不同的用户种群分别与各自对应的所述指定产品类别进行关联,以获取所述不同的用户种群的用户画像的步骤之后,包括:接收新入库用户的第二用户信息数据;根据所述第二用户信息数据获取所述新入库用户的特征信息;查找与所述特征信息匹配度最高的用户种群标签;将所述第二用户信息数据归纳到匹配度最高的用户种群标签所对应的第一聚类簇。
在一个实施例中,上述处理器将所述第二用户信息数据归纳到匹配度最高的用户种群标签所对应的第一聚类簇步骤之后,包括:获取与所述第一聚类簇相关联的第一产品类别,将所述第一产品类别推送给所述新入库用户。
在一个实施例中,上述处理器将所述不同的用户种群分别与各自对应的所述指定产品类别进行关联,以获取所述不同的用户种群的用户画像的步骤之后,包括:在第二指定数据库中搜寻与所述第一指定数据库中得到的第二聚类簇的用户种群标签匹配度最高的第三用户信息数据;将所述第三用户信息数据汇总到所述第二聚类簇;获取与所述第二聚类簇相关联的第二产品类别,将所述第二产品类别推送给所述第三用户信息数据相对应的用户。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现用户画像获取方法,包括:获取目标产品对应的第一指定数据库中的各第一用户信息数据,其中,各所述第一用户信息数据具有与其一一对应的第一用户;根据预设规则对各所述第一用户信息数据进行分类,得到不同的用户种群;分析各用户种群购买或配置所述目标产品中各个产品类别分别对应的占比概率,将占比概率达到预设阈值的产品类别设定为相应的用户种群对应的指定产品类别;将所述不同的用户种群分别与各自对应的指定产品类别进行关联,以获取所述不同的用户种群的用户画像。
上述计算机可读存储介质,通过聚类算法实现对数据库中的用户信息数据进行聚类,以便根据共有的特征信息区别并分隔成不同的用户种群,以便得到更精准的用户画像,与具体产品的匹配效果更匹配。本申请通过对不同的用户种群与不同的具体健康保险产品相关联,实现用户种群与产品类别相匹配,有利于准确投放或推送具体的健康保险产品,有利于向指定用户种群提供更匹配的服务。本申请通过基于向量机的聚类算法,使得数据处理的效果更高;且通过最小损失函数将没有分类标准的模糊分类问题转化为求解最大最小化问题,并通过随机镜像下降算法求解得到相应的鞍点,使聚类簇的分类标准更明确,分类处理更高效。
在一个实施例中,上述处理器根据预设规则对各所述第一用户信息数据进行分类,得到不同的用户种群的步骤,包括:将各所述第一用户信息数据输入到基于支持向量机的聚类算法中;获取所述聚类算法输出的各所述第一用户信息数据分别对应的聚类簇;为各所述聚类簇匹配用户种群标签,以形成不同的用户种群。
在一个实施例中,上述处理器获取所述聚类算法输出的各所述第一用户信息数据分别对应的聚类簇的步骤,包括:根据所述聚类算法的最小化损失函数,将各所述第一用户信息数据的分类问题转化为两个变量μ和α的最大最小值问题;根据随机镜像下降法对随机初始化的μ0和α0进行多次迭代至达到预设停止迭代的条件;输出迭代后的μ和α的值,以获得所述最大最小值问题的解,即鞍点(μ,α);根据所述鞍点(μ,α)对不同聚类簇进行标记,得到各所述第一用户信息数据分别对应的聚类簇。
在一个实施例中,上述处理器根据随机镜像下降法对随机初始化的μ0和α0进行多次迭代至达到预设停止迭代的条件的步骤,包括:判断上一次的迭代输出与当前的迭代输出的差量是否在预设范围内;若是,则判定达到停止迭代的预设条件。
在一个实施例中,上述处理器将所述不同的用户种群分别与各自对应的所述指定产品类别进行关联,以获取所述不同的用户种群的用户画像的步骤之后,包括:接收新入库用户的第二用户信息数据;根据所述第二用户信息数据获取所述新入库用户的特征信息;查找与所述特征信息匹配度最高的用户种群标签;将所述第二用户信息数据归纳到匹配度最高的用户种群标签所对应的第一聚类簇。
在一个实施例中,上述处理器将所述第二用户信息数据归纳到匹配度最高的用户种群标签所对应的第一聚类簇步骤之后,包括:获取与所述第一聚类簇相关联的第一产品类别,将所述第一产品类别推送给所述新入库用户。
在一个实施例中,上述处理器将所述不同的用户种群分别与各自对应的所述指定产品类别进行关联,以获取所述不同的用户种群的用户画像的步骤之后,包括:在第二指定数据库中搜寻与所述第一指定数据库中得到的第二聚类簇的用户种群标签匹配度最高的第三用户信息数据;将所述第三用户信息数据汇总到所述第二聚类簇;获取与所述第二聚类簇相关联的第二产品类别,将所述第二产品类别推送给所述第三用户信息数据相对应的用户。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种用户画像获取方法,其特征在于,包括:
获取目标产品对应的第一指定数据库中的各第一用户信息数据,其中,各所述第一用户信息数据具有与其一一对应的第一用户;
根据预设规则对各所述第一用户信息数据进行分类,得到不同的用户种群;
分析各用户种群购买或配置所述目标产品中各个产品类别分别对应的占比概率,将占比概率达到预设阈值的产品类别设定为相应的用户种群对应的指定产品类别;
将所述不同的用户种群分别与各自对应的指定产品类别进行关联,以获取所述不同的用户种群的用户画像。
2.根据权利要求1所述的用户画像获取方法,其特征在于,所述根据预设规则对各所述第一用户信息数据进行分类,得到不同的用户种群的步骤,包括:
将各所述第一用户信息数据输入到基于支持向量机的聚类算法中;
获取所述聚类算法输出的各所述第一用户信息数据分别对应的聚类簇;
为各所述聚类簇匹配用户种群标签,以形成不同的用户种群。
3.根据权利要求2所述的用户画像获取方法,其特征在于,所述获取所述聚类算法输出的各所述第一用户信息数据分别对应的聚类簇的步骤,包括:
根据所述聚类算法的最小化损失函数,将各所述第一用户信息数据的分类问题转化为两个变量μ和α的最大最小值问题;
根据随机镜像下降法对随机初始化的μ0和α0进行多次迭代至达到预设停止迭代的条件;
输出迭代后的μ和α的值,以获得所述最大最小值问题的解,即鞍点(μ,α);
根据所述鞍点(μ,α)对不同聚类簇进行标记,得到各所述第一用户信息数据分别对应的聚类簇。
4.根据权利要求3所述的用户画像获取方法,其特征在于,所述根据随机镜像下降法对随机初始化的μ0和α0进行多次迭代至达到预设停止迭代的条件的步骤,包括:
判断上一次的迭代输出与当前的迭代输出的差量是否在预设范围内;
若是,则判定达到停止迭代的预设条件。
5.根据权利要求2所述的用户画像获取方法,其特征在于,所述将所述不同的用户种群分别与各自对应的所述指定产品类别进行关联,以获取所述不同的用户种群的用户画像的步骤之后,包括:
接收新入库用户的第二用户信息数据;
根据所述第二用户信息数据获取所述新入库用户的特征信息;
查找与所述特征信息匹配度最高的用户种群标签;
将所述第二用户信息数据归纳到匹配度最高的用户种群标签所对应的第一聚类簇。
6.根据权利要求5所述的用户画像获取方法,其特征在于,所述将所述第二用户信息数据归纳到匹配度最高的用户种群标签所对应的第一聚类簇步骤之后,包括:
获取与所述第一聚类簇相关联的第一产品类别,将所述第一产品类别推送给所述新入库用户。
7.根据权利要求2所述的用户画像获取方法,其特征在于,所述将所述不同的用户种群分别与各自对应的所述指定产品类别进行关联,以获取所述不同的用户种群的用户画像的步骤之后,包括:
在第二指定数据库中搜寻与所述第一指定数据库中得到的第二聚类簇的用户种群标签匹配度最高的第三用户信息数据;
将所述第三用户信息数据汇总到所述第二聚类簇;
获取与所述第二聚类簇相关联的第二产品类别,将所述第二产品类别推送给所述第三用户信息数据相对应的用户。
8.一种用户画像获取装置,其特征在于,包括:
第一获取模块,用于获取目标产品对应的第一指定数据库中的各第一用户信息数据,其中,各所述第一用户信息数据具有与其一一对应的第一用户;
得到模块,用于根据预设规则对各所述第一用户信息数据进行分类,得到不同的用户种群;
设定模块,用于分析各所述用户种群购买或配置所述目标产品中各个产品类别分别对应的占比概率,将占比概率达到预设阈值的产品类别设定为所述用户种群对应的指定产品类别;
关联模块,用于将所述不同的所述用户种群分别与各自对应的所述指定产品类别进行关联,以获取不同的所述用户种群的用户画像。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810574121.5A CN109086787B (zh) | 2018-06-06 | 2018-06-06 | 用户画像获取方法、装置、计算机设备以及存储介质 |
PCT/CN2018/095460 WO2019232891A1 (zh) | 2018-06-06 | 2018-07-12 | 用户画像获取方法、装置、计算机设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810574121.5A CN109086787B (zh) | 2018-06-06 | 2018-06-06 | 用户画像获取方法、装置、计算机设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109086787A true CN109086787A (zh) | 2018-12-25 |
CN109086787B CN109086787B (zh) | 2023-07-25 |
Family
ID=64839427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810574121.5A Active CN109086787B (zh) | 2018-06-06 | 2018-06-06 | 用户画像获取方法、装置、计算机设备以及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109086787B (zh) |
WO (1) | WO2019232891A1 (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109711733A (zh) * | 2018-12-28 | 2019-05-03 | 上海盛付通电子支付服务有限公司 | 用于生成聚类模型的方法、电子设备和计算机可读介质 |
CN110147821A (zh) * | 2019-04-15 | 2019-08-20 | 中国平安人寿保险股份有限公司 | 目标用户群体确定方法、装置、计算机设备及存储介质 |
CN110245964A (zh) * | 2019-06-14 | 2019-09-17 | 北京市商汤科技开发有限公司 | 信息推送方法和装置以及存储介质 |
CN110322274A (zh) * | 2019-05-30 | 2019-10-11 | 深圳壹账通智能科技有限公司 | 基于数据分析的人群画像生成方法、装置和计算机设备 |
CN110363387A (zh) * | 2019-06-14 | 2019-10-22 | 平安科技(深圳)有限公司 | 基于大数据的画像分析方法、装置、计算机设备及存储介质 |
CN110688406A (zh) * | 2019-09-06 | 2020-01-14 | 平安医疗健康管理股份有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN110909222A (zh) * | 2019-10-12 | 2020-03-24 | 中国平安人寿保险股份有限公司 | 基于聚类的用户画像建立方法、装置、介质及电子设备 |
CN111046902A (zh) * | 2019-10-30 | 2020-04-21 | 平安科技(深圳)有限公司 | 基于聚类算法的分类方法、装置、计算机设备及存储介质 |
WO2020151152A1 (zh) * | 2019-01-24 | 2020-07-30 | 平安科技(深圳)有限公司 | 基于用户画像的聚类方法、电子装置及存储介质 |
CN111737587A (zh) * | 2020-08-21 | 2020-10-02 | 北京每日优鲜电子商务有限公司 | 设备操作方法、装置、电子设备和计算机可读介质 |
CN111737320A (zh) * | 2020-06-30 | 2020-10-02 | 中国平安财产保险股份有限公司 | 群体用户行为基线的建立方法、装置和计算机设备 |
CN112633988A (zh) * | 2020-12-30 | 2021-04-09 | 平安证券股份有限公司 | 用户产品推荐方法、装置、电子设备及可读存储介质 |
WO2022062449A1 (zh) * | 2020-09-25 | 2022-03-31 | 平安科技(深圳)有限公司 | 用户分群方法、装置、电子设备及存储介质 |
CN115408586A (zh) * | 2022-08-25 | 2022-11-29 | 广东博成网络科技有限公司 | 一种智能渠道运营数据分析方法、系统、设备及存储介质 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126470B (zh) * | 2019-12-18 | 2023-05-02 | 创新奇智(青岛)科技有限公司 | 基于深度度量学习的图片数据迭代聚类分析方法 |
CN111753186A (zh) * | 2020-05-09 | 2020-10-09 | 杭州数跑科技有限公司 | 群体筛选方法、装置、设备及存储介质 |
CN112085114B (zh) * | 2020-09-14 | 2024-07-12 | 杭州中奥科技有限公司 | 线上线下身份匹配方法、装置、设备及存储介质 |
CN112131475B (zh) * | 2020-09-25 | 2023-10-10 | 重庆邮电大学 | 一种可解释、可交互的用户画像方法及装置 |
CN112233740B (zh) * | 2020-09-28 | 2024-03-29 | 广州金域医学检验中心有限公司 | 患者身份识别方法、装置、设备和介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107274242A (zh) * | 2016-04-08 | 2017-10-20 | 上海旭薇物联网科技有限公司 | 一种基于关联分析算法的商品推荐方法 |
CN107977411A (zh) * | 2017-11-21 | 2018-05-01 | 腾讯科技(成都)有限公司 | 群组推荐方法、装置、存储介质以及服务器 |
CN108108451A (zh) * | 2017-12-27 | 2018-06-01 | 合肥美的智能科技有限公司 | 群体的群体用户画像获取方法和装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893406A (zh) * | 2015-11-12 | 2016-08-24 | 乐视云计算有限公司 | 群体用户画像方法及系统 |
CN105893407A (zh) * | 2015-11-12 | 2016-08-24 | 乐视云计算有限公司 | 个体用户画像方法和系统 |
CN106649517A (zh) * | 2016-10-17 | 2017-05-10 | 北京京东尚科信息技术有限公司 | 数据挖掘方法、装置及系统 |
CN107578270A (zh) * | 2017-08-03 | 2018-01-12 | 中国银联股份有限公司 | 一种金融标签的构建方法、装置及计算设备 |
CN107578294B (zh) * | 2017-09-28 | 2020-07-24 | 北京小度信息科技有限公司 | 用户行为预测方法、装置及电子设备 |
CN108021929B (zh) * | 2017-11-16 | 2023-01-10 | 华南理工大学 | 基于大数据的移动端电商用户画像建立与分析方法及系统 |
-
2018
- 2018-06-06 CN CN201810574121.5A patent/CN109086787B/zh active Active
- 2018-07-12 WO PCT/CN2018/095460 patent/WO2019232891A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107274242A (zh) * | 2016-04-08 | 2017-10-20 | 上海旭薇物联网科技有限公司 | 一种基于关联分析算法的商品推荐方法 |
CN107977411A (zh) * | 2017-11-21 | 2018-05-01 | 腾讯科技(成都)有限公司 | 群组推荐方法、装置、存储介质以及服务器 |
CN108108451A (zh) * | 2017-12-27 | 2018-06-01 | 合肥美的智能科技有限公司 | 群体的群体用户画像获取方法和装置 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109711733A (zh) * | 2018-12-28 | 2019-05-03 | 上海盛付通电子支付服务有限公司 | 用于生成聚类模型的方法、电子设备和计算机可读介质 |
WO2020151152A1 (zh) * | 2019-01-24 | 2020-07-30 | 平安科技(深圳)有限公司 | 基于用户画像的聚类方法、电子装置及存储介质 |
CN110147821A (zh) * | 2019-04-15 | 2019-08-20 | 中国平安人寿保险股份有限公司 | 目标用户群体确定方法、装置、计算机设备及存储介质 |
CN110322274A (zh) * | 2019-05-30 | 2019-10-11 | 深圳壹账通智能科技有限公司 | 基于数据分析的人群画像生成方法、装置和计算机设备 |
CN110363387A (zh) * | 2019-06-14 | 2019-10-22 | 平安科技(深圳)有限公司 | 基于大数据的画像分析方法、装置、计算机设备及存储介质 |
CN110245964A (zh) * | 2019-06-14 | 2019-09-17 | 北京市商汤科技开发有限公司 | 信息推送方法和装置以及存储介质 |
CN110363387B (zh) * | 2019-06-14 | 2023-09-05 | 平安科技(深圳)有限公司 | 基于大数据的画像分析方法、装置、计算机设备及存储介质 |
CN110688406A (zh) * | 2019-09-06 | 2020-01-14 | 平安医疗健康管理股份有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN110909222B (zh) * | 2019-10-12 | 2023-07-25 | 中国平安人寿保险股份有限公司 | 基于聚类的用户画像建立方法、装置、介质及电子设备 |
CN110909222A (zh) * | 2019-10-12 | 2020-03-24 | 中国平安人寿保险股份有限公司 | 基于聚类的用户画像建立方法、装置、介质及电子设备 |
CN111046902A (zh) * | 2019-10-30 | 2020-04-21 | 平安科技(深圳)有限公司 | 基于聚类算法的分类方法、装置、计算机设备及存储介质 |
CN111046902B (zh) * | 2019-10-30 | 2024-02-02 | 平安科技(深圳)有限公司 | 基于聚类算法的分类方法、装置、计算机设备及存储介质 |
CN111737320A (zh) * | 2020-06-30 | 2020-10-02 | 中国平安财产保险股份有限公司 | 群体用户行为基线的建立方法、装置和计算机设备 |
CN111737587A (zh) * | 2020-08-21 | 2020-10-02 | 北京每日优鲜电子商务有限公司 | 设备操作方法、装置、电子设备和计算机可读介质 |
WO2022062449A1 (zh) * | 2020-09-25 | 2022-03-31 | 平安科技(深圳)有限公司 | 用户分群方法、装置、电子设备及存储介质 |
CN112633988A (zh) * | 2020-12-30 | 2021-04-09 | 平安证券股份有限公司 | 用户产品推荐方法、装置、电子设备及可读存储介质 |
CN115408586A (zh) * | 2022-08-25 | 2022-11-29 | 广东博成网络科技有限公司 | 一种智能渠道运营数据分析方法、系统、设备及存储介质 |
CN115408586B (zh) * | 2022-08-25 | 2024-01-23 | 广东博成网络科技有限公司 | 一种智能渠道运营数据分析方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109086787B (zh) | 2023-07-25 |
WO2019232891A1 (zh) | 2019-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109086787A (zh) | 用户画像获取方法、装置、计算机设备以及存储介质 | |
Marqués et al. | On the suitability of resampling techniques for the class imbalance problem in credit scoring | |
Xiao et al. | Feature-selection-based dynamic transfer ensemble model for customer churn prediction | |
Yoseph et al. | The impact of big data market segmentation using data mining and clustering techniques | |
Nivetha et al. | Developing a prediction model for stock analysis | |
CN106844407B (zh) | 基于数据集相关性的标签网络产生方法和系统 | |
Kim et al. | Inter-cluster connectivity analysis for technology opportunity discovery | |
Seret et al. | A new SOM-based method for profile generation: Theory and an application in direct marketing | |
CN113762703A (zh) | 确定企业画像的方法和装置、计算设备和存储介质 | |
CN108241867A (zh) | 一种分类方法及装置 | |
Chitraa et al. | Web log data analysis by enhanced Fuzzy C Means clustering | |
Lo et al. | An emperical study on application of big data analytics to automate service desk business process | |
Thakong et al. | Fast learning and testing for imbalanced multi-class changes in streaming data by dynamic multi-stratum network | |
Silveira et al. | Analysis of classifiers in a predictive model of academic success or failure for institutional and trace data | |
Hafez et al. | A comparative performance study of naïve and ensemble algorithms for e-commerce | |
Tsapatsoulis et al. | Quo Vadis Computer Science? The topics of the influential papers during the period 2014-2021 | |
KR102221267B1 (ko) | 기술 경쟁 정보 제공 장치 및 방법 | |
Dubey et al. | Learning data mining techniques | |
Wedashwara et al. | Evolutionary rule based clustering for making fuzzy object oriented database models | |
Pushpa et al. | Web Page Recommendation System using Self Organizing Map Technique | |
Boytcheva et al. | Company investment recommendation based on data mining techniques | |
Thazhackal et al. | A hybrid deep learning model to predict business closure from reviews and user attributes using sentiment aligned topic model | |
Andersen et al. | More Sustainable Text Classification via Uncertainty Sampling and a Human-in-the-Loop | |
Alami Chehboune et al. | Transferable deep metric learning for clustering | |
Cui et al. | A pruned DOM-based iterative strategy for approximate global optimization in crowdsourcing microtasks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |