CN110008977A - 聚类模型构建方法以及装置 - Google Patents

聚类模型构建方法以及装置 Download PDF

Info

Publication number
CN110008977A
CN110008977A CN201811482909.XA CN201811482909A CN110008977A CN 110008977 A CN110008977 A CN 110008977A CN 201811482909 A CN201811482909 A CN 201811482909A CN 110008977 A CN110008977 A CN 110008977A
Authority
CN
China
Prior art keywords
clustering
data
clustering model
sample
data sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811482909.XA
Other languages
English (en)
Other versions
CN110008977B (zh
Inventor
韩伟伟
任建伟
周扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811482909.XA priority Critical patent/CN110008977B/zh
Publication of CN110008977A publication Critical patent/CN110008977A/zh
Application granted granted Critical
Publication of CN110008977B publication Critical patent/CN110008977B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供聚类模型构建方法以及装置,所述聚类模型构建方法,包括:对业务数据进行特征处理,获得数据样本及其业务特征指标;根据所述业务特征指标确定数据库中与所述数据样本相似的历史数据样本;基于所述数据样本,采用聚类方法构建聚类模型;所述聚类方法包括基于所述历史数据样本进行聚类模型构建所采用的聚类学习算法。所述聚类模型构建方法实现了聚类模型构建的自动化,无需人工介入,减少人力分析成本,降低聚类方法的使用难度。

Description

聚类模型构建方法以及装置
技术领域
本申请涉及机器学习技术领域,特别涉及一种聚类模型构建方法。本申请同时涉及一种聚类模型构建装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
随着网络技术和电子商务快速发展,网络平台已成为用户进行日常消费的重要工具,企业也逐渐将更多的营销资源投入到互联网营销中,来适应用户行为的变化。在推荐系统或营销方案中,往往会涉及将一些信息填写不完整或者历史消费行为较少的用户样本,比如初次购买的用户。通常而言,因为用户样本的信息填写不完整或者历史消费行为较少,往往导致推荐系统无法获得用户样本标签来推荐或者预测用户复购。
目前,每当遇到样本量较少或者用户信息填写不完整的用户样本的营销场景,需要对这个营销场景进行分析,在该营销场景下进行大量的特征工程,从而建立相应的聚类模型。并且,每当营销场景发生变化时,需要进行人工的聚类分析,对用户样本进行定量的分析后,然后采用相关适合聚类的方法,将用户样本进行数据清洗后加入聚类模型进行聚类,人力分析成本较高,业务方对聚类算法的使用难度也比较高。
发明内容
有鉴于此,本申请实施例提供了一种聚类模型构建方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种聚类模型构建装置,一种计算设备,以及一种计算机可读存储介质。
本申请实施例公开了一种聚类模型构建方法,包括:
对业务数据进行特征处理,获得数据样本及其业务特征指标;
根据所述业务特征指标确定数据库中与所述数据样本相似的历史数据样本;
基于所述数据样本,采用聚类方法构建聚类模型;
其中,所述聚类方法包括,基于所述历史数据样本进行聚类模型构建所采用的聚类学习算法。
可选的,所述基于所述数据样本,采用聚类方法构建聚类模型步骤执行之后,包括:
将所述数据样本输入所述聚类模型进行数据聚类,获得聚类样本;
基于所述数据样本和所述聚类样本确定所述聚类模型的聚类效果;
将所述聚类模型的聚类效果与所述数据库存储的历史聚类效果进行比对;所述历史聚类效果包括所述历史数据样本输入所述数据库存储的历史聚类模型进行数据聚类的聚类效果;
根据比对结果确定适配所述数据样本和/或所述历史数据样本的目标聚类模型。
可选的,所述基于所述数据样本和所述聚类样本确定所述聚类模型的聚类效果,包括:
确定所述数据样本中聚类需求对应数据的初始数据浓度,以及所述聚类样本中所述聚类需求对应数据的聚类后数据浓度;
对所述初始数据浓度与所述聚类后数据浓度进行分析,获得所述聚类模型的聚类效果。
可选的,所述根据比对结果确定适配所述数据样本和/或所述历史数据样本的目标聚类模型,包括:
若比对结果为所述聚类模型的聚类效果优于所述历史聚类模型的历史聚类效果,则将所述聚类模型作为所述目标聚类模型,并基于所述目标聚类模型替换所述数据库中存储的所述历史聚类模型;
若比对结果为所述历史聚类模型的历史聚类效果优于所述聚类模型的聚类效果,则将所述历史聚类模型作为所述目标聚类模型。
可选的,所述基于所述数据样本,采用聚类方法构建聚类模型步骤执行之后,包括:
将所述历史数据样本输入所述聚类模型进行数据聚类,获得第二聚类样本;
基于所述历史数据样本和所述第二聚类样本确定所述聚类模型的聚类效果;
将所述聚类模型的聚类效果与所述数据库存储的历史聚类效果进行比对;所述历史聚类效果包括所述历史数据样本输入所述数据库存储的历史聚类模型进行数据聚类的聚类效果;
根据比对结果确定适配所述业务数据和/或所述历史数据样本的目标聚类模型。
可选的,所述对业务数据进行特征处理,获得数据样本及其业务特征指标步骤执行之前,包括:
判断所述业务数据是否携带有特征标签,若是,则将所述业务数据加入带标签数据集中;所述带标签数据集中的带标签数据被输入有监督模型进行数据聚类处理;
若否,执行所述对业务数据进行特征处理,获得数据样本及其业务特征指标步骤。
可选的,所述对业务数据进行特征处理,获得数据样本及其业务特征指标步骤执行之前,包括:
按照预设读取条件从所述带标签数据集中读取业务数据子集;
针对所述业务数据子集包含的至少一条带标签数据,执行如下操作:
判断所述带标签数据的特征缺失值是否大于预设特征阈值;
若是,将所述带标签数据作为进行所述聚类模型构建的业务数据,并执行所述对业务数据进行特征处理,获得数据样本及其业务特征指标步骤。
可选的,所述对业务数据进行特征处理,获得数据样本及其业务特征指标,包括:
对所述业务数据进行特征清洗,特征清洗之后获得所述数据样本;
获取基于所述数据样本进行数据聚类的聚类需求;
统计所述数据样本的业务特征指标;
将所述业务特征指标存入所述数据库。
可选的,所述对所述业务数据进行特征清洗,包括:
对所述业务数据的缺失特征进行填充;
按照列名对所述业务数据进行去重处理;
和/或,对线性相关性高于预设相关性阈值的业务数据进行去重处理。
可选的,所述业务特征指标,包括下述至少一项:
噪声点、数据维度、数据样本量和离群样本的数据量。
可选的,所述聚类学习算法,包括下述至少一项:
k均值算法、密度聚类算法、层次聚类算法、谱聚类算法、均值飘移算法和分区聚类算法。
本申请还提供一种聚类模型构建装置,包括:
特征处理模块,被配置为对业务数据进行特征处理,获得数据样本及其业务特征指标;
历史数据样本确定模块,被配置为根据所述业务特征指标确定数据库中与所述数据样本相似的历史数据样本;
聚类模型构建模块,被配置为基于所述数据样本,采用聚类方法构建聚类模型;
其中,所述聚类方法包括,基于所述历史数据样本进行聚类模型构建所采用的聚类学习算法。
本申请还提供一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
对业务数据进行特征处理,获得数据样本及其业务特征指标;
根据所述业务特征指标确定数据库中与所述数据样本相似的历史数据样本;
基于所述数据样本,采用聚类方法构建聚类模型;
其中,所述聚类方法包括,基于所述历史数据样本进行聚类模型构建所采用的聚类学习算法。
本申请还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述聚类模型构建方法的步骤。
与现有技术相比,本申请具有如下优点:
本申请提供一种聚类模型构建方法,包括:对业务数据进行特征处理,获得数据样本及其业务特征指标;根据所述业务特征指标确定数据库中与所述数据样本相似的历史数据样本;基于所述数据样本,采用聚类方法构建聚类模型;其中,所述聚类方法包括,基于所述历史数据样本进行聚类模型构建所采用的聚类学习算法。
本申请提供的聚类模型构建方法,根据业务数据的数据样本相似的历史数据样本,以及历史数据样本进行数据聚类所采用的聚类方法,并在所述业务数据的数据样本的基础上采用历史数据样本进行数据聚类所采用的聚类方法进行聚类模型构建,从而实现聚类模型构建的自动化,无需人工介入,减少人力分析成本,降低聚类方法的使用难度。
附图说明
图1是本申请实施例提供的一种聚类模型构建方法处理流程图;
图2是本申请实施例提供的一种聚类模型构建过程的处理流程图;
图3是本申请实施例提供的一种聚类模型构建装置的示意图;
图4是本申请实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本申请提供一种聚类模型构建方法,本申请还提供一种聚类模型构建装置,一种计算设备,以及一种计算机可读存储介质。以下分别结合本申请提供的实施例的附图逐一进行详细说明,并且对方法的各个步骤进行说明。
本申请提供的一种聚类模型构建方法实施例如下:
参照附图1,其示出了本实施例提供的一种聚类模型构建方法处理流程图,参照附图2,其示出了本申请实施例提供的一种聚类模型构建过程的处理流程图。
步骤S102,对业务数据进行特征处理,获得数据样本及其业务特征指标。
营销推荐场景中,营销推荐的核心就是围绕营销的对象-用户样本进行精细化的数据聚类处理,从而对聚类处理之后得到的用户聚类进行更加精准化的营销推荐,提高面向不同用户群体进行推荐的推荐效率,尤其是对于营销推荐场景中样本量较少或者样本特征信息较少的业务数据,通过有针对性的数据聚类分析来进行相应的营销推荐。
本申请实施例提供的聚类模型构建方法,根据当前来临的业务数据,根据业务数据的数据样本相似的历史数据样本,以及历史数据样本进行数据聚类所采用的聚类方法,根据历史数据样本进行数据聚类所采用的聚类方法为所述业务数据的数据样本匹配聚类方法,并在所述业务数据的数据样本的基础上采用匹配到的聚类方法进行聚类模型构建,从而实现聚类模型构建的自动化,无需人工介入,减少人力分析成本,降低营销推荐场景中的业务方对聚类方法的使用难度。
进一步,还可以将上述聚类模型构建方法接入营销推荐场景中的智能营销系统,在上述根据业务数据的数据样本采用相似的历史数据样本进行聚类建模所采用的聚类方法进行自动化建模的基础上,可将业务数据输入构建好的聚类模型进行数据聚类,从而实现数据聚类自动化,进一步降低营销推荐场景中人力成本。
本申请实施例提供的一种优选实施方式中,对业务数据进行特征处理,获得数据样本及其业务特征指标,具体包括:
1)对所述业务数据进行特征清洗,特征清洗之后获得所述数据样本;
本申请实施例提供下述三种针对所述业务数据进行特征清洗的优选实施方式:
a、对所述业务数据的缺失特征进行填充;
b、按照列名对所述业务数据进行去重处理;
c、对线性相关性高于预设相关性阈值的业务数据进行去重处理。
需要说明的是,具体实施时,可采用上述三种针对所述业务数据进行特征清洗的实施方式中的任意一种或者两种进行特征清洗处理,也可同时采用上述提供的三种实施方式对所述业务数据进行特征清洗处理。除此之外,还可根据实际业务需求采用与上述三种实施方式类似的特征清洗方式对所述业务数据进行特征清洗处理,或者,采用与上述三种实施方式类似的特征清洗方式的组合对所述业务数据进行特征清洗处理,本实施例对此不做限定。
2)获取基于所述数据样本进行数据聚类的聚类需求;
例如,业务方需要营销等级为VIP、高价值用户和普通用户这三类用户的业务数据,则当前聚类的聚类需求就是将业务数据分为VIP、高价值用户和普通用户这三类,具体的,聚类需求可由业务方通过点选实现输入。
3)统计所述数据样本的业务特征指标;
优选的,所述业务特征指标,包括下述至少一项:噪声点、数据维度、数据样本量和离群样本的数据量。
4)将所述业务特征指标存入所述数据库。
上述统计到所述数据样本的业务特征指标之后,将统计获得的所述数据样本的业务特征指标存入数据库,所述业务特征指标存入数据库之后,用作对与所述数据样本相似的历史数据样本进行分类的分类依据。
本步骤对业务数据进行特征处理,获得数据样本及其业务特征指标,为下述步骤S104根据所述业务特征指标确定数据库中与所述数据样本相似的历史数据样本做准备,同时为下述步骤S106在所述数据样本的基础上采用历史数据样本进行聚类模型构建所采用的聚类学习算法构建聚类模型做准备。
在具体实施时,上述对所述业务数据进行特征处理,获得所述数据样本及其业务特征指标之前,还可对所述业务数据进行预处理,所述预处理具体可以是针对复购用户(之前是否有过购买行为)和新用户(特征信息较少)进行区分,从而后续能够在此基础上分别对二者进行相应的营销推荐,使面向用户的营销推荐更加精准。
本申请实施例提供的一种优选实施方式中,在对所述业务数据进行特征处理,获得所述数据样本及其业务特征指标之前,首先判断所述业务数据是否携带有特征标签,若是,将所述业务数据加入带标签数据集中;所述带标签数据集中的带标签数据被输入有监督模型进行数据聚类处理;若否,则执行上述对所述业务数据进行特征处理,获得所述数据样本及其业务特征指标这一逻辑。
例如,推荐系统中新的业务数据来临后,通过判断业务数据是否携带有特征标签,从而来判断业务数据对应的用户是否为复购用户(之前是否有过购买行为),即业务数据对应的该用户的用户信息是否完备;如果新来临的业务数据携带有特征标签,则表明新来临的业务数据对应的用户之前有过购买行为,则针对新来临的业务数据执行构建聚类模型对应的逻辑分支;如果新来临的业务数据并未携带特征标签,则表明新来临的业务数据对应的用户之前尚未有过购买行为,或者新来临的业务数据对应的该用户的用户信息不完备,则针对新来临的业务数据执行有监督模型对应的逻辑分支即可。
上述在对所述业务数据进行特征处理,获得所述数据样本及其业务特征指标之前,对所述业务数据进行是否携带有特征标签判断的基础上,为了更加快速的找到相应的业务数据,优选的,还可以按照预设读取条件从所述带标签数据集中读取业务数据子集,并且针对所述业务数据子集包含的至少一条带标签数据,执行如下操作:
判断所述带标签数据的特征缺失值是否大于预设特征阈值,若是,将所述带标签数据作为进行所述聚类模型构建的业务数据,并执行上述对所述业务数据进行特征处理,获得所述数据样本及其业务特征指标这一过程;若否,继续有监督模型对应逻辑分支的执行即可。
例如,在有监督模型的变量集合中输出有监督模型的前30个有效果变量(比如特征重要性比较高的变量),然后针对这30个有效果变量,分别判断每个有效果变量的特征缺失是否大于50%;如果特征缺失大于50%,则表明该有效果变量的特征缺失较多,则将该有效果变量加入上述进行聚类模型构建的业务数据中;如果特征缺失小于或者等于50%,则表明该有效果变量的特征缺失较少,继续有监督模型对应逻辑分支的执行即可。
步骤S104,根据所述业务特征指标确定数据库中与所述数据样本相似的历史数据样本。
上述步骤S102对所述业务数据进行特征处理,获得所述数据样本及其业务特征指标之后,本步骤在所述数据样本的业务特征指标的基础上,进一步确定所述数据库中与所述数据样本相似的历史数据样本。
步骤S106,基于所述数据样本,采用聚类方法构建聚类模型。
本申请实施例构建聚类模型采用的聚类方法,是指所述历史数据样本进行聚类模型构建所采用的聚类学习算法。优选的,所述聚类学习算法,包括下述至少一项:k均值算法、层次聚类算法、谱聚类算法、密度聚类算法、均值飘移算法和分区聚类算法。
以下分别对上述提供的6种聚类学习算法的特点进行详述:
1)k均值算法(K-means算法)
K-means算法是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算,具体的,K-means算法接受输入量k,然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高,而不同聚类中的对象相似度较小。K-means算法具有容易解释、速度快、依赖初始点的选择对离群噪声点敏感的特点。
2)层次聚类算法(Agglomerative Clustering算法)
Agglomerative Clustering算法是一种自底而上的层次聚类方法,它能够根据指定的相似度或距离定义计算出类之间的距离。
Agglomerative Clustering算法具有容易解释、稳定、运算复杂度高的特点。
3)谱聚类算法
谱聚类算法具有受离群点干扰小、稳定性检测任意形状的类、对参数敏感和运算速度慢的特点。
4)密度聚类算法(DBSCAN算法)
DBSCAN算法具有对离群噪声点不敏感、能检测任意形状的类、参数敏感、速度慢的特点。
5)均值飘移算法(MEAN SHIFT算法)
MEAN SHIFT算法具有对离群噪声点不敏感、依赖初始点的选择、参数调整敏感、特征需要显著的特点,其中,特征需要显著这一特点多用于视频追踪场景。
6)分区聚类算法(HDBSCAN算法)
HDBSCAN算法具有对离群噪声点不敏感、参数不敏感、聚类结果稳定,易聚成大类的特点。
例如,在推荐系统中,新的业务数据来临后,并且对业务数据进行特征清洗后获得数据样本后,对业务数据进行特征清洗后获得数据样本进行判断,如果数据样本的数目比较大,则不会进入采用Agglomerative Clustering算法或者MEAN SHIFT算法进行模型构建的逻辑,而是通过建立一个数据库来实现聚类模型构建过程的自动化。
需要说明的是,除上述提供的6中聚类学习算法之外,还可以在所述的数据样本基础上采用其他聚类算法进行聚类模型构建,比如SOM(Self-organizingMaps,自组织映射)聚类算法等,本实施例对此不做限定。
上述在对所述业务数据进行特征处理获得的所述数据样本的基础上,采用所述历史数据样本进行聚类模型构建所采用的聚类学习算法进行聚类模型构建,获得构建好的聚类模型之后,还可进一步对构建好的聚类模型的聚类效果进行检测验证。
本申请实施例提供的一种优选实施方式中,对构建好的聚类模型的聚类效果进行检测验证具体如下:
1)通过将所述数据样本输入所述聚类模型进行数据聚类,获得聚类样本;
例如,推荐系统中新的业务数据来临后,对业务数据进行特征清洗,特征清洗后获得业务数据的数据样本,并统计数据样本的业务特征指标,根据数据样本的业务特征指标确定数据库中与数据样本相似的历史数据样本,然后,在业务数据的数据样本的基础上,采用历史数据样本进行聚类模型构建所采用的聚类学习算法构建聚类模型,构建完成后获得新的聚类模型;最后,将业务数据的数据样本作为新的聚类模型的输入,输入聚类模型进行数据聚类,从而获得的数据样本进行数据聚类后的数据分类,即聚类样本。
2)基于所述数据样本和所述聚类样本确定所述聚类模型的聚类效果;
优选的,所述聚类模型的聚类效果可采用下述方式确定:首先确定所述数据样本中聚类需求对应数据的初始数据浓度,以及所述聚类样本中所述聚类需求对应数据的聚类后数据浓度,然后对所述初始数据浓度与所述聚类后数据浓度进行分析,获得所述聚类模型的聚类效果。
例如,在推荐系统中,数据聚类的目标(聚类需求)是将业务数据中与诈骗相关的数据聚集到一起,新的业务数据来临后,业务数据的数据样本中与诈骗相关的数据的初始数据浓度为10%;
如果将数据样本输入聚类模型进行数据聚类后获得的各个数据分类中与诈骗相关的数据的聚类后数据浓度依然在10%左右,则表明输入聚类模型进行数据聚类的过程并未实现将与诈骗相关的数据聚合到一个数据分类中,聚类效果较差;
如果将数据样本输入聚类模型进行数据聚类后获得的各个数据分类中,其中一个数据分类中与诈骗相关的数据的聚类后数据浓度接近90%至100%这一区间,其他数据分类中与诈骗相关的数据的聚类后数据浓度接近0%至5%,则表明输入聚类模型进行数据聚类这一过程,成功将与诈骗相关的数据聚合到一个数据分类中,聚类效果较好。
3)将所述聚类模型的聚类效果与所述数据库存储的历史聚类效果进行比对;
所述历史聚类效果包括所述历史数据样本输入所述数据库存储的历史聚类模型进行数据聚类的聚类效果。
4)根据比对结果确定适配所述数据样本和/或所述历史数据样本的目标聚类模型。
需要说明的是,所述历史数据样本是根据所述数据样本的业务特征指标确定的与所述数据样本相似的历史数据样本,可见,所述数据样本与所述历史数据样本二者在数据特征指标层面具有相似性,因此,本实施例与所述数据样本适配的目标聚类模型,与所述历史数据样本同样具有适配性。
优选的,若上述比对结果为所述聚类模型的聚类效果优于所述历史聚类模型的历史聚类效果,则将所述聚类模型作为所述目标聚类模型,并基于所述目标聚类模型替换所述数据库中存储的所述历史聚类模型;若比对结果为所述历史聚类模型的历史聚类效果优于所述聚类模型的聚类效果,则将所述历史聚类模型作为所述目标聚类模型。
沿用上例,将上述聚类模型的聚类效果与数据库中存储的历史聚类效果进行比对,具体的,历史聚类效果是指历史数据样本输入数据库存储的历史聚类模型进行数据聚类的聚类效果;如果上述聚类模型的聚类效果比历史聚类模型的历史聚类效果好,则利用上述聚类模型替换数据库中存储的历史聚类模型,即:将聚类效果比较好的聚类模型作为优选聚类模型(目标聚类模型)存储在数据库中,以待后用;如果上述聚类模型的聚类效果比历史聚类模型的历史聚类效果差,依旧在数据库中保存聚类效果比较好的历史聚类模型(目标聚类模型)即可。
由此可见,通过将业务方的反馈集中到数据库这一特性,实现数据库中存储的聚类数据的共享,使聚类模型构建过程变得更为简单快捷,同时形成一个闭环系统,使用数据库中存储的聚类方法和聚类模型的人员和业务方越多,数据库中存储的聚类方法和聚类模型的可靠性和效果也就越好。
本申请实施例提供的第二种优选实施方式中,在上述构建好的聚类模型的基础上,对构建好的聚类模型的聚类效果进行检测验证具体如下:
1)将所述历史数据样本输入所述聚类模型进行数据聚类,获得第二聚类样本;
例如,推荐系统中新的业务数据来临后,对业务数据进行特征清洗,特征清洗后获得业务数据的数据样本,以及数据样本的业务特征指标,然后,根据数据样本的业务特征指标确定数据库中与数据样本相似的历史数据样本,进一步,在业务数据的数据样本的基础上,采用历史数据样本进行聚类模型构建所采用的聚类学习算法构建聚类模型,构建完成后获得新的聚类模型;最后,将历史数据样本作为构建完成后获得新的聚类模型的输入,输入聚类模型进行数据聚类,从而获得的历史数据样本的数据分类,即第二聚类样本。
2)基于所述历史数据样本和所述第二聚类样本确定所述聚类模型的聚类效果;
具体的,所述聚类模型的聚类效果可采用下述方式确定:首先确定所述历史数据样本中聚类需求对应数据的初始数据浓度,以及所述第二聚类样本中所述聚类需求对应数据的聚类后数据浓度,然后对所述初始数据浓度与所述聚类后数据浓度进行分析,获得所述聚类模型的聚类效果。
3)将所述聚类模型的聚类效果与所述数据库存储的历史聚类效果进行比对;
所述历史聚类效果包括所述历史数据样本输入所述数据库存储的历史聚类模型进行数据聚类的聚类效果。
4)根据比对结果确定适配所述业务数据和/或所述历史数据样本的目标聚类模型。
具体的,若比对结果为所述聚类模型的聚类效果优于所述历史聚类模型的历史聚类效果,则基于所述聚类模型替换所述数据库中存储的所述历史聚类模型;若比对结果为所述历史聚类模型的历史聚类效果优于所述聚类模型的聚类效果,保持所述数据库中存储的所述历史聚类模型即可。
下述结合附图2提供一个聚类模型构建的例子对聚类模型构建方法进行说明:
步骤S202,推荐系统中新的业务数据来临;
步骤S204,通过判断业务数据是否携带有特征标签,从而来判断业务数据对应的用户是否为复购用户(之前是否有过购买行为),即业务数据对应的该用户的用户信息是否完备;
如果新来临的业务数据携带有特征标签,则表明新来临的业务数据对应的用户之前有过购买行为,则针对新来临的业务数据执行构建聚类模型对应的逻辑分支,即执行步骤S206;
如果新来临的业务数据并未携带特征标签,则表明新来临的业务数据对应的用户之前尚未有过购买行为,或者新来临的业务数据对应的该用户的用户信息不完备,则针对新来临的业务数据执行有监督模型对应的逻辑分支即可。
步骤S206,对业务数据进行特征清洗,特征清洗后获得业务数据的数据样本;
步骤S208,统计数据样本的业务特征指标;
步骤S210,根据数据样本的业务特征指标确定数据库中与数据样本相似的历史数据样本;
步骤S212,在业务数据的数据样本的基础上,采用数据库中存储的历史数据样本进行聚类模型构建所采用的聚类学习算法构建聚类模型,构建完成后获得新的聚类模型;
步骤S214,将业务数据的数据样本作为新的聚类模型的输入,输入聚类模型进行数据聚类,从而获得的数据样本进行数据聚类后的数据分类,即聚类样本;
步骤S216,对数据样本中聚类需求对应数据的初始数据浓度以及聚类样本中该聚类需求对应数据的聚类后数据浓度进行分析,获得聚类模型的聚类效果;
步骤S218,将聚类模型的聚类效果与数据库中存储的历史聚类效果进行比对,如果聚类模型的聚类效果比历史聚类模型的历史聚类效果好,则利用聚类模型替换数据库中存储的历史聚类模型,即:将聚类效果比较好的聚类模型作为优选聚类模型(目标聚类模型)存储在数据库中,以待后用;如果聚类模型的聚类效果比历史聚类模型的历史聚类效果差,依旧在数据库中保存聚类效果比较好的历史聚类模型(目标聚类模型)即可。
综上所述,本申请提供的聚类模型构建方法,根据业务数据的数据样本相似的历史数据样本,以及历史数据样本进行数据聚类所采用的聚类方法,并在所述业务数据的数据样本的基础上采用历史数据样本进行数据聚类所采用的聚类方法进行聚类模型构建,从而实现聚类模型构建的自动化,无需人工介入,减少人力分析成本,降低聚类方法的使用难度。
本申请提供的一种聚类模型构建装置实施例如下:
在上述的实施例中,提供了一种聚类模型构建方法,与之相对应的,本申请还提供了一种聚类模型构建装置,下面结合附图进行说明。
参照附图3,其示出了本申请提供的一种聚类模型构建装置实施例的示意图。
由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关的部分请参见上述提供的方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。
本申请提供一种聚类模型构建装置,包括:
特征处理模块302,被配置为对业务数据进行特征处理,获得数据样本及其业务特征指标;
历史数据样本确定模块304,被配置为根据所述业务特征指标确定数据库中与所述数据样本相似的历史数据样本;
聚类模型构建模块306,被配置为基于所述数据样本,采用聚类方法构建聚类模型;
其中,所述聚类方法包括,基于所述历史数据样本进行聚类模型构建所采用的聚类学习算法。
可选的,所述聚类模型构建装置,包括:
数据聚类模块,被配置为将所述数据样本输入所述聚类模型进行数据聚类,获得聚类样本;
聚类效果确定模块,被配置为基于所述数据样本和所述聚类样本确定所述聚类模型的聚类效果;
聚类效果比对模块,被配置为将所述聚类模型的聚类效果与所述数据库存储的历史聚类效果进行比对;所述历史聚类效果包括所述历史数据样本输入所述数据库存储的历史聚类模型进行数据聚类的聚类效果;
目标聚类模型适配模块,被配置为根据比对结果确定适配所述数据样本和/或所述历史数据样本的目标聚类模型。
可选的,所述聚类效果确定模块,包括:
数据浓度确定子模块,被配置为确定所述数据样本中聚类需求对应数据的初始数据浓度,以及所述聚类样本中所述聚类需求对应数据的聚类后数据浓度;
数据浓度分析子模块,被配置为对所述初始数据浓度与所述聚类后数据浓度进行分析,获得所述聚类模型的聚类效果。
可选的,所述目标聚类模型适配模块,包括:
第一适配子模块,被配置为若比对结果为所述聚类模型的聚类效果优于所述历史聚类模型的历史聚类效果,则将所述聚类模型作为所述目标聚类模型,并基于所述目标聚类模型替换所述数据库中存储的所述历史聚类模型;
第二适配子模块,被配置为若比对结果为所述历史聚类模型的历史聚类效果优于所述聚类模型的聚类效果,则将所述历史聚类模型作为所述目标聚类模型。
可选的,所述聚类模型构建装置,包括:
第二数据聚类模块,被配置为将所述历史数据样本输入所述聚类模型进行数据聚类,获得第二聚类样本;
第二聚类效果确定模块,被配置为基于所述历史数据样本和所述第二聚类样本确定所述聚类模型的聚类效果;
第二聚类效果比对模块,被配置为将所述聚类模型的聚类效果与所述数据库存储的历史聚类效果进行比对;所述历史聚类效果包括所述历史数据样本输入所述数据库存储的历史聚类模型进行数据聚类的聚类效果;
第二目标聚类模型适配模块,被配置为根据比对结果确定适配所述业务数据和/或所述历史数据样本的目标聚类模型。
可选的,所述聚类模型构建装置,包括:
特征标签判断模块,被配置为判断所述业务数据是否携带有特征标签,若是,则将所述业务数据加入带标签数据集中;所述带标签数据集中的带标签数据被输入有监督模型进行数据聚类处理;若否,运行所述特征处理模块302。
可选的,所述聚类模型构建装置,包括:
数据子集读取模块,被配置为按照预设读取条件从所述带标签数据集中读取业务数据子集;
针对所述业务数据子集包含的至少一条带标签数据,运行特征缺失判断模块;
所述特征缺失判断模块,被配置为判断所述带标签数据的特征缺失值是否大于预设特征阈值;若是,将所述带标签数据作为进行所述聚类模型构建的业务数据,并运行所述特征处理模块302。
可选的,所述特征处理模块302,包括:
特征清洗子模块,被配置为对所述业务数据进行特征清洗,特征清洗之后获得所述数据样本;
聚类需求获取子模块,被配置为获取基于所述数据样本进行数据聚类的聚类需求;
业务特征指标统计子模块,被配置为统计所述数据样本的业务特征指标;
业务特征指标存储子模块,被配置为将所述业务特征指标存入所述数据库。
可选的,所述特征清洗子模块,包括:
第一清洗子模块,被配置为对所述业务数据的缺失特征进行填充;
第二清洗子模块,被配置为按照列名对所述业务数据进行去重处理;
和/或,第三清洗子模块,被配置为对线性相关性高于预设相关性阈值的业务数据进行去重处理。
可选的,所述业务特征指标,包括下述至少一项:
噪声点、数据维度、数据样本量和离群样本的数据量。
可选的,所述聚类学习算法,包括下述至少一项:
k均值算法、密度聚类算法、层次聚类算法、谱聚类算法、均值飘移算法和分区聚类算法。
本申请提供的一种计算设备实施例如下:
图4是示出了根据本说明书一实施例的计算设备400的结构框图。该计算设备400的部件包括但不限于存储器410和处理器420。处理器420与存储器410通过总线430相连接,数据库450用于保存数据。
计算设备400还包括接入设备440,接入设备440使得计算设备400能够经由一个或多个网络460通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备440可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备400的上述以及图4中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图4所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备400可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备400还可以是移动式或静止式的服务器。
本申请提供一种计算设备,包括存储器410、处理器420及存储在存储器上并可在处理器上运行的计算机指令,所述处理器420用于执行如下计算机可执行指令:
对业务数据进行特征处理,获得数据样本及其业务特征指标;
根据所述业务特征指标确定数据库中与所述数据样本相似的历史数据样本;
基于所述数据样本,采用聚类方法构建聚类模型;
其中,所述聚类方法包括,基于所述历史数据样本进行聚类模型构建所采用的聚类学习算法。
可选的,所述基于所述数据样本,采用聚类方法构建聚类模型指令执行之后,所述处理器420还用于执行如下计算机可执行指令:
将所述数据样本输入所述聚类模型进行数据聚类,获得聚类样本;
基于所述数据样本和所述聚类样本确定所述聚类模型的聚类效果;
将所述聚类模型的聚类效果与所述数据库存储的历史聚类效果进行比对;所述历史聚类效果包括所述历史数据样本输入所述数据库存储的历史聚类模型进行数据聚类的聚类效果;
根据比对结果确定适配所述数据样本和/或所述历史数据样本的目标聚类模型。
可选的,所述基于所述数据样本和所述聚类样本确定所述聚类模型的聚类效果,包括:
确定所述数据样本中聚类需求对应数据的初始数据浓度,以及所述聚类样本中所述聚类需求对应数据的聚类后数据浓度;
对所述初始数据浓度与所述聚类后数据浓度进行分析,获得所述聚类模型的聚类效果。
可选的,所述根据比对结果确定适配所述数据样本和/或所述历史数据样本的目标聚类模型,包括:
若比对结果为所述聚类模型的聚类效果优于所述历史聚类模型的历史聚类效果,则将所述聚类模型作为所述目标聚类模型,并基于所述目标聚类模型替换所述数据库中存储的所述历史聚类模型;
若比对结果为所述历史聚类模型的历史聚类效果优于所述聚类模型的聚类效果,则将所述历史聚类模型作为所述目标聚类模型。
可选的,所述基于所述数据样本,采用聚类方法构建聚类模型指令执行之后,所述处理器420还用于执行如下计算机可执行指令:
将所述历史数据样本输入所述聚类模型进行数据聚类,获得第二聚类样本;
基于所述历史数据样本和所述第二聚类样本确定所述聚类模型的聚类效果;
将所述聚类模型的聚类效果与所述数据库存储的历史聚类效果进行比对;所述历史聚类效果包括所述历史数据样本输入所述数据库存储的历史聚类模型进行数据聚类的聚类效果;
根据比对结果确定适配所述业务数据和/或所述历史数据样本的目标聚类模型。
可选的,所述对业务数据进行特征处理,获得数据样本及其业务特征指标指令执行之前,所述处理器420还用于执行如下计算机可执行指令:
判断所述业务数据是否携带有特征标签,若是,则将所述业务数据加入带标签数据集中;所述带标签数据集中的带标签数据被输入有监督模型进行数据聚类处理;
若否,执行所述对业务数据进行特征处理,获得数据样本及其业务特征指标指令。
可选的,所述对业务数据进行特征处理,获得数据样本及其业务特征指标指令执行之前,所述处理器420还用于执行如下计算机可执行指令:
按照预设读取条件从所述带标签数据集中读取业务数据子集;
针对所述业务数据子集包含的至少一条带标签数据,执行如下操作:
判断所述带标签数据的特征缺失值是否大于预设特征阈值;
若是,将所述带标签数据作为进行所述聚类模型构建的业务数据,并执行所述对业务数据进行特征处理,获得数据样本及其业务特征指标指令。
可选的,所述对业务数据进行特征处理,获得数据样本及其业务特征指标,包括:
对所述业务数据进行特征清洗,特征清洗之后获得所述数据样本;
获取基于所述数据样本进行数据聚类的聚类需求;
统计所述数据样本的业务特征指标;
将所述业务特征指标存入所述数据库。
可选的,所述对所述业务数据进行特征清洗,包括:
对所述业务数据的缺失特征进行填充;
按照列名对所述业务数据进行去重处理;
和/或,对线性相关性高于预设相关性阈值的业务数据进行去重处理。
可选的,所述业务特征指标,包括下述至少一项:
噪声点、数据维度、数据样本量和离群样本的数据量。
可选的,所述聚类学习算法,包括下述至少一项:
k均值算法、密度聚类算法、层次聚类算法、谱聚类算法、均值飘移算法和分区聚类算法。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如下:
对业务数据进行特征处理,获得数据样本及其业务特征指标;
根据所述业务特征指标确定数据库中与所述数据样本相似的历史数据样本;
基于所述数据样本,采用聚类方法构建聚类模型;
其中,所述聚类方法包括,基于所述历史数据样本进行聚类模型构建所采用的聚类学习算法。
可选的,所述基于所述数据样本,采用聚类方法构建聚类模型指令执行之后,包括:
将所述数据样本输入所述聚类模型进行数据聚类,获得聚类样本;
基于所述数据样本和所述聚类样本确定所述聚类模型的聚类效果;
将所述聚类模型的聚类效果与所述数据库存储的历史聚类效果进行比对;所述历史聚类效果包括所述历史数据样本输入所述数据库存储的历史聚类模型进行数据聚类的聚类效果;
根据比对结果确定适配所述数据样本和/或所述历史数据样本的目标聚类模型。
可选的,所述基于所述数据样本和所述聚类样本确定所述聚类模型的聚类效果,包括:
确定所述数据样本中聚类需求对应数据的初始数据浓度,以及所述聚类样本中所述聚类需求对应数据的聚类后数据浓度;
对所述初始数据浓度与所述聚类后数据浓度进行分析,获得所述聚类模型的聚类效果。
可选的,所述根据比对结果确定适配所述数据样本和/或所述历史数据样本的目标聚类模型,包括:
若比对结果为所述聚类模型的聚类效果优于所述历史聚类模型的历史聚类效果,则将所述聚类模型作为所述目标聚类模型,并基于所述目标聚类模型替换所述数据库中存储的所述历史聚类模型;
若比对结果为所述历史聚类模型的历史聚类效果优于所述聚类模型的聚类效果,则将所述历史聚类模型作为所述目标聚类模型。
可选的,所述基于所述数据样本,采用聚类方法构建聚类模型指令执行之后,包括:
将所述历史数据样本输入所述聚类模型进行数据聚类,获得第二聚类样本;
基于所述历史数据样本和所述第二聚类样本确定所述聚类模型的聚类效果;
将所述聚类模型的聚类效果与所述数据库存储的历史聚类效果进行比对;所述历史聚类效果包括所述历史数据样本输入所述数据库存储的历史聚类模型进行数据聚类的聚类效果;
根据比对结果确定适配所述业务数据和/或所述历史数据样本的目标聚类模型。
可选的,所述对业务数据进行特征处理,获得数据样本及其业务特征指标指令执行之前,包括:
判断所述业务数据是否携带有特征标签,若是,则将所述业务数据加入带标签数据集中;所述带标签数据集中的带标签数据被输入有监督模型进行数据聚类处理;
若否,执行所述对业务数据进行特征处理,获得数据样本及其业务特征指标指令。
可选的,所述对业务数据进行特征处理,获得数据样本及其业务特征指标指令执行之前,包括:
按照预设读取条件从所述带标签数据集中读取业务数据子集;
针对所述业务数据子集包含的至少一条带标签数据,执行如下操作:
判断所述带标签数据的特征缺失值是否大于预设特征阈值;
若是,将所述带标签数据作为进行所述聚类模型构建的业务数据,并执行所述对业务数据进行特征处理,获得数据样本及其业务特征指标指令。
可选的,所述对业务数据进行特征处理,获得数据样本及其业务特征指标,包括:
对所述业务数据进行特征清洗,特征清洗之后获得所述数据样本;
获取基于所述数据样本进行数据聚类的聚类需求;
统计所述数据样本的业务特征指标;
将所述业务特征指标存入所述数据库。
可选的,所述对所述业务数据进行特征清洗,包括:
对所述业务数据的缺失特征进行填充;
按照列名对所述业务数据进行去重处理;
和/或,对线性相关性高于预设相关性阈值的业务数据进行去重处理。
可选的,所述业务特征指标,包括下述至少一项:
噪声点、数据维度、数据样本量和离群样本的数据量。
可选的,所述聚类学习算法,包括下述至少一项:
k均值算法、密度聚类算法、层次聚类算法、谱聚类算法、均值飘移算法和分区聚类算法。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的聚类模型构建方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述聚类模型构建方法的技术方案的描述。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (14)

1.一种聚类模型构建方法,其特征在于,包括:
对业务数据进行特征处理,获得数据样本及其业务特征指标;
根据所述业务特征指标确定数据库中与所述数据样本相似的历史数据样本;
基于所述数据样本,采用聚类方法构建聚类模型;
其中,所述聚类方法包括,基于所述历史数据样本进行聚类模型构建所采用的聚类学习算法。
2.根据权利要求1所述的聚类模型构建方法,其特征在于,所述基于所述数据样本,采用聚类方法构建聚类模型步骤执行之后,包括:
将所述数据样本输入所述聚类模型进行数据聚类,获得聚类样本;
基于所述数据样本和所述聚类样本确定所述聚类模型的聚类效果;
将所述聚类模型的聚类效果与所述数据库存储的历史聚类效果进行比对;所述历史聚类效果包括所述历史数据样本输入所述数据库存储的历史聚类模型进行数据聚类的聚类效果;
根据比对结果确定适配所述数据样本和/或所述历史数据样本的目标聚类模型。
3.根据权利要求2所述的聚类模型构建方法,其特征在于,所述基于所述数据样本和所述聚类样本确定所述聚类模型的聚类效果,包括:
确定所述数据样本中聚类需求对应数据的初始数据浓度,以及所述聚类样本中所述聚类需求对应数据的聚类后数据浓度;
对所述初始数据浓度与所述聚类后数据浓度进行分析,获得所述聚类模型的聚类效果。
4.根据权利要求3所述的聚类模型构建方法,其特征在于,所述根据比对结果确定适配所述数据样本和/或所述历史数据样本的目标聚类模型,包括:
若比对结果为所述聚类模型的聚类效果优于所述历史聚类模型的历史聚类效果,则将所述聚类模型作为所述目标聚类模型,并基于所述目标聚类模型替换所述数据库中存储的所述历史聚类模型;
若比对结果为所述历史聚类模型的历史聚类效果优于所述聚类模型的聚类效果,则将所述历史聚类模型作为所述目标聚类模型。
5.根据权利要求1所述的聚类模型构建方法,其特征在于,所述基于所述数据样本,采用聚类方法构建聚类模型步骤执行之后,包括:
将所述历史数据样本输入所述聚类模型进行数据聚类,获得第二聚类样本;
基于所述历史数据样本和所述第二聚类样本确定所述聚类模型的聚类效果;
将所述聚类模型的聚类效果与所述数据库存储的历史聚类效果进行比对;所述历史聚类效果包括所述历史数据样本输入所述数据库存储的历史聚类模型进行数据聚类的聚类效果;
根据比对结果确定适配所述业务数据和/或所述历史数据样本的目标聚类模型。
6.根据权利要求1所述的聚类模型构建方法,其特征在于,所述对业务数据进行特征处理,获得数据样本及其业务特征指标步骤执行之前,包括:
判断所述业务数据是否携带有特征标签,若是,则将所述业务数据加入带标签数据集中;所述带标签数据集中的带标签数据被输入有监督模型进行数据聚类处理;
若否,执行所述对业务数据进行特征处理,获得数据样本及其业务特征指标步骤。
7.根据权利要求6所述的聚类模型构建方法,其特征在于,所述对业务数据进行特征处理,获得数据样本及其业务特征指标步骤执行之前,包括:
按照预设读取条件从所述带标签数据集中读取业务数据子集;
针对所述业务数据子集包含的至少一条带标签数据,执行如下操作:
判断所述带标签数据的特征缺失值是否大于预设特征阈值;
若是,将所述带标签数据作为进行所述聚类模型构建的业务数据,并执行所述对业务数据进行特征处理,获得数据样本及其业务特征指标步骤。
8.根据权利要求1所述的聚类模型构建方法,其特征在于,所述对业务数据进行特征处理,获得数据样本及其业务特征指标,包括:
对所述业务数据进行特征清洗,特征清洗之后获得所述数据样本;
获取基于所述数据样本进行数据聚类的聚类需求;
统计所述数据样本的业务特征指标;
将所述业务特征指标存入所述数据库。
9.根据权利要求8所述的聚类模型构建方法,其特征在于,所述对所述业务数据进行特征清洗,包括:
对所述业务数据的缺失特征进行填充;
按照列名对所述业务数据进行去重处理;
和/或,对线性相关性高于预设相关性阈值的业务数据进行去重处理。
10.根据权利要求8所述的聚类模型构建方法,其特征在于,所述业务特征指标,包括下述至少一项:
噪声点、数据维度、数据样本量和离群样本的数据量。
11.根据权利要求1至10任意一项所述的聚类模型构建方法,其特征在于,所述聚类学习算法,包括下述至少一项:
k均值算法、密度聚类算法、层次聚类算法、谱聚类算法、均值飘移算法和分区聚类算法。
12.一种聚类模型构建装置,其特征在于,包括:
特征处理模块,被配置为对业务数据进行特征处理,获得数据样本及其业务特征指标;
历史数据样本确定模块,被配置为根据所述业务特征指标确定数据库中与所述数据样本相似的历史数据样本;
聚类模型构建模块,被配置为基于所述数据样本,采用聚类方法构建聚类模型;
其中,所述聚类方法包括,基于所述历史数据样本进行聚类模型构建所采用的聚类学习算法。
13.一种计算设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
对业务数据进行特征处理,获得数据样本及其业务特征指标;
根据所述业务特征指标确定数据库中与所述数据样本相似的历史数据样本;
基于所述数据样本,采用聚类方法构建聚类模型;
其中,所述聚类方法包括,基于所述历史数据样本进行聚类模型构建所采用的聚类学习算法。
14.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至11任意一项所述方法的步骤。
CN201811482909.XA 2018-12-05 2018-12-05 聚类模型构建方法以及装置 Active CN110008977B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811482909.XA CN110008977B (zh) 2018-12-05 2018-12-05 聚类模型构建方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811482909.XA CN110008977B (zh) 2018-12-05 2018-12-05 聚类模型构建方法以及装置

Publications (2)

Publication Number Publication Date
CN110008977A true CN110008977A (zh) 2019-07-12
CN110008977B CN110008977B (zh) 2023-08-11

Family

ID=67165052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811482909.XA Active CN110008977B (zh) 2018-12-05 2018-12-05 聚类模型构建方法以及装置

Country Status (1)

Country Link
CN (1) CN110008977B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866328A (zh) * 2019-10-12 2020-03-06 中国平安财产保险股份有限公司 数据模型的替换方法、装置、计算机设备及存储介质
CN111522797A (zh) * 2020-04-27 2020-08-11 支付宝(杭州)信息技术有限公司 用于基于业务数据库构建业务模型的方法和装置
CN111783818A (zh) * 2020-04-10 2020-10-16 南通大学 一种基于Xgboost和DBSCAN的精准营销方法
CN112631415A (zh) * 2020-12-31 2021-04-09 Oppo(重庆)智能科技有限公司 Cpu频率调整方法、装置、电子设备及存储介质
CN114611850A (zh) * 2020-12-03 2022-06-10 中国移动通信集团广东有限公司 业务分析方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104464280A (zh) * 2014-09-05 2015-03-25 广州市香港科大霍英东研究院 车辆行进开销的预测方法及系统
CN105474166A (zh) * 2013-03-15 2016-04-06 先进元素科技公司 用于有目的计算的方法和系统
CN105654207A (zh) * 2016-01-07 2016-06-08 国网辽宁省电力有限公司锦州供电公司 基于风速、风向信息的风电功率预测方法
CN107689008A (zh) * 2017-06-09 2018-02-13 平安科技(深圳)有限公司 一种用户投保行为预测的方法及装置
CN107798597A (zh) * 2017-10-09 2018-03-13 上海二三四五金融科技有限公司 一种动态高风险客群检测方法及系统
CN108446712A (zh) * 2018-02-02 2018-08-24 广东省电信规划设计院有限公司 Odn网智能规划方法、装置及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105474166A (zh) * 2013-03-15 2016-04-06 先进元素科技公司 用于有目的计算的方法和系统
CN104464280A (zh) * 2014-09-05 2015-03-25 广州市香港科大霍英东研究院 车辆行进开销的预测方法及系统
CN105654207A (zh) * 2016-01-07 2016-06-08 国网辽宁省电力有限公司锦州供电公司 基于风速、风向信息的风电功率预测方法
CN107689008A (zh) * 2017-06-09 2018-02-13 平安科技(深圳)有限公司 一种用户投保行为预测的方法及装置
CN107798597A (zh) * 2017-10-09 2018-03-13 上海二三四五金融科技有限公司 一种动态高风险客群检测方法及系统
CN108446712A (zh) * 2018-02-02 2018-08-24 广东省电信规划设计院有限公司 Odn网智能规划方法、装置及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866328A (zh) * 2019-10-12 2020-03-06 中国平安财产保险股份有限公司 数据模型的替换方法、装置、计算机设备及存储介质
CN111783818A (zh) * 2020-04-10 2020-10-16 南通大学 一种基于Xgboost和DBSCAN的精准营销方法
CN111783818B (zh) * 2020-04-10 2023-09-26 南通大学 一种基于Xgboost和DBSCAN的精准营销方法
CN111522797A (zh) * 2020-04-27 2020-08-11 支付宝(杭州)信息技术有限公司 用于基于业务数据库构建业务模型的方法和装置
CN111522797B (zh) * 2020-04-27 2023-06-02 支付宝(杭州)信息技术有限公司 用于基于业务数据库构建业务模型的方法和装置
CN114611850A (zh) * 2020-12-03 2022-06-10 中国移动通信集团广东有限公司 业务分析方法、装置及电子设备
CN112631415A (zh) * 2020-12-31 2021-04-09 Oppo(重庆)智能科技有限公司 Cpu频率调整方法、装置、电子设备及存储介质
CN112631415B (zh) * 2020-12-31 2022-09-02 Oppo(重庆)智能科技有限公司 Cpu频率调整方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110008977B (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
CN110008977A (zh) 聚类模型构建方法以及装置
US20210133536A1 (en) Load prediction method and apparatus based on neural network
AU2013202350B2 (en) Network data analysis
CN111309824A (zh) 实体关系图谱显示方法及系统
CN110335123B (zh) 基于社交电商平台的商品推荐方法、系统、计算机可读介质以及装置
CN109858948A (zh) 电力客户营销策略的确定方法和装置
CN114282122A (zh) 一种高效非采样的图卷积网络推荐方法
CN110134783A (zh) 个性化推荐的方法、装置、设备和介质
CN106294788B (zh) 安卓应用的推荐方法
CN113744023B (zh) 一种基于图卷积网络的双通道协同过滤推荐方法
CN118071400A (zh) 基于图计算技术在信息消费领域的应用方法及系统
CN116467466A (zh) 基于知识图谱的编码推荐方法、装置、设备及介质
CN107871286A (zh) 用户与联系人间亲密度判定方法/系统、存储介质及设备
Biswas et al. Development of product recommendation engine by collaborative filtering and association rule mining using machine learning algorithms
CN113327154B (zh) 基于大数据的电商用户讯息推送方法及系统
CN113610608B (zh) 一种用户偏好推荐方法、装置、电子设备及存储介质
CN109446432A (zh) 一种信息推荐方法及装置
CN114610967A (zh) 一种应用于用户画像领域的数据增广方法
CN112131569B (zh) 一种基于图网络随机游走的风险用户预测方法
Desmet Buying behavior study with basket analysis: pre-clustering with a Kohonen map
CN113158027A (zh) 一种智能设备推荐方法、系统及智能终端
CN112434019A (zh) 应用于户变关系变更的历史电量溯源清洗方法及电力中心
CN115035349B (zh) 图数据的点表征学习方法、表征方法及其装置和存储介质
CN110532619A (zh) 链路预测算法类型的确定方法以及装置
Praba et al. Real Time Automation on Real Estate using API

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201013

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

Effective date of registration: 20201013

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant