CN112148942B - 基于数据聚类的业务指标数据分类方法及装置 - Google Patents

基于数据聚类的业务指标数据分类方法及装置 Download PDF

Info

Publication number
CN112148942B
CN112148942B CN201910570514.3A CN201910570514A CN112148942B CN 112148942 B CN112148942 B CN 112148942B CN 201910570514 A CN201910570514 A CN 201910570514A CN 112148942 B CN112148942 B CN 112148942B
Authority
CN
China
Prior art keywords
clustering
clustering result
combined
index data
objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910570514.3A
Other languages
English (en)
Other versions
CN112148942A (zh
Inventor
吴曙楠
王方舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN201910570514.3A priority Critical patent/CN112148942B/zh
Publication of CN112148942A publication Critical patent/CN112148942A/zh
Application granted granted Critical
Publication of CN112148942B publication Critical patent/CN112148942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Administration (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开公开了一种基于数据聚类的业务指标数据分类方法及装置,解决了当初始输入的业务指标数据本身的组间距离过大或者过小时,导致业务指标数据分类准确性低的问题,该方法包括:采用预设的凝聚层次聚类算法,针对业务指标数据集生成相应的初始聚类集合,所述初始聚类集合中至少包含每一轮聚类过程中针对的待合并对象,以及各个待合并对象之间的邻近距离,基于预设的邻近距离阈值,将筛选出的邻近距离未超过邻近距离阈值的待合并对象,作为最终的聚类结果输出。本公开采用邻近距离阈值作为约束聚类过程结束的条件,及时剔除相似度低的待合并对象,减少聚类合并的时间,降低业务分析的计算数量级,提高分类准确性。

Description

基于数据聚类的业务指标数据分类方法及装置
技术领域
本公开涉及计算机技术领域,尤其涉及一种基于数据聚类的业务指标数据分类方法及装置。
背景技术
随着科学技术的发展,用户通过智能终端使用各类应用业务的过程中,会形成海量的业务指标数据,通过对获取的所述海量的业务指标数据进行分析,可以描述出用户的业务使用状态,根据用户的业务使用状态进行软件更新,可以提供给用户更好的用户体验。
相关技术中,通常采用凝聚层次聚类方式对业务指标数据集进行归类分析,生成一个N×4的聚类矩阵,其中,所述聚类矩阵表征该业务指标数据集最终确定的聚类个数。
然而,目前采用凝聚层次聚类方式进行业务指标数据集的聚类也存在其应用的局限性。
具体的,采用凝聚层次聚类方式对业务指标数据集进行归类分析时,输入的各个业务指标数据之间的组间距离,会影响到最终输出的聚类个数,进而降低指标分类准确性,以及降低业务的可解释性。
例如,假设输入的各个业务指标数据之间的组间距离足够大,那么,经过凝聚层次聚类后,得到的最终的聚类个数与输入时的设定类别个数一致,这样,没有达到对各个业务指标数据进行归类的目的,也无法减轻设备分析聚类后的业务指标数据簇时的负担,降低指标分类准确性。
又例如,假设输入的各个业务指标数据之间的组间距离足够小,那么,经过凝聚层次聚类方式后,得到的最终聚类个数为一类,这样,忽视了各个业务指标数据之间的微小差异性,对指标分类准确性的影响,同时,针对业务指标数据确定的最终聚类个数过少,也降低了业务的可解释性。
显然,上述两种结果均不符合业务分析需求,通常发生这种情况都需要算法工程师进行人工的干预,但是如果针对每一个场景下输出的每一个矩阵,都进行人工参数的选择,将会加大指标聚类的成本,加大人工成本,以及降低工作效率。
发明内容
本公开提供一种基于数据聚类的业务指标数据分类方法及装置,以至少解决相关技术中的业务指标数据分类准确性低问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种方法,包括:
根据本公开实施例的第一方面,提供一种基于数据聚类的业务指标数据分类方法,包括:
获取业务指标数据集,基于预设的凝聚层次聚类算法,生成所述业务指标数据集的初始聚类集合;所述初始聚类矩阵中至少包含每一轮聚类过程中针对的待合并对象,以及各个待合并对象之间的邻近距离;
基于预设的邻近距离阈值,筛选出在聚类过程中,邻近距离未超过所述邻近距离阈值的待合并对象;
将筛选出的各个待合并对象作为最终的聚类结果输出,其中,一个待合并对象对应一种聚类。
可选的,获取业务指标数据集,基于预设的凝聚层次聚类算法,生成所述业务指标数据集的初始聚类集合之后,进一步包括:
基于所述初始聚类集合,确定所述各个待合并对象之间的邻近距离在聚类过程中的变化趋势特征;
基于所述变化趋势特征,确定所述邻近距离阈值。
可选的,基于所述变化趋势特征,确定所述邻近距离阈值,包括:
基于所述初始聚类集合,计算指定的L轮聚类过程中,各个待合并对象之间的邻近距离的二阶差分值,其中,L为预设自然数,一个邻近距离对应的二阶差分值表征所述一个邻近距离的变化趋势特征;
若获得的各个二阶差分值中存在转折点,所述转折点的二阶差分值,相较于上一轮中的二阶差分值,和下一轮中的二阶差分值最小,则将所述转折点对应的邻近距离确定为所述邻近距离阈值;
否则,将取值最小的二阶差分值对应的邻近距离确定为所述邻近距离阈值。
可选的,基于所述邻近距离阈值,筛选出在聚类过程中,邻近距离未超过所述邻近距离阈值的待合并对象,包括:
确定截止到计算出所述邻近距离阈值时,已获得的所有待合并对象;
将所述已获得的待合并对象,判定为邻近距离未超过所述邻近距离阈值的待合并对象。
可选的,基于所述邻近距离阈值,筛选出在聚类过程中,邻近距离未超过所述邻近距离阈值的待合并对象之后,在将筛选出的各个待合并对象作为最终的聚类结果输出之前,进一步包括:
针对所述业务指标数据集,采用系统树形图算法,生成所述业务指标数据集的树状图,其中,所述树状图中包含有节点,一个节点表示聚类结果中包含的一种聚类;
根据获得的节点,确定所述系统树形图算法对应的预测聚类结果;
将筛选出的各个待合并对象对应的当前聚类结果,与所述预测聚类结果进行比较,获得比较结果;
根据所述比较结果,确定相较于所述预测聚类结果,所述各个待合并对象对应的当前聚类结果符合预设的业务需求。
可选的,将筛选出的各个待合并对象对应的当前聚类结果,与所述预测聚类结果进行比较,获得比较结果,包括:
基于所述业务指标数据集,采用聚类数目算法,计算所述业务指标数据集的目标聚类结果,并分别计算所述目标聚类结果与所述当前聚类结果之间的第一聚类结果差值,以及所述目标聚类结果与所述预测聚类结果之间的第二聚类结果差值,将第一聚类结果差值与所述第二聚类结果差值进行比较,获得比较结果;
根据所述比较结果,确定相较于所述预测聚类结果,所述各个待合并对象对应的当前聚类结果符合预设的业务需求,包括:
若所述第二聚类结果差值高于所述第一聚类结果差值,则确定所述各个待合并对象对应的当前聚类结果,相较于所述预测聚类结果,符合预设的业务需求。
可选的,基于所述业务指标数据集,采用聚类数目算法,计算所述业务指标数据集的目标聚类结果,包括:
获取所述业务指标数据集中的业务指标数据总数;
将所述业务指标数据总数经过平方根运算后得到的值,进行向上取整运算后输出的值,确定所述业务指标数据集的目标聚类结果。
根据本公开实施例的第二方面,提供一种基于数据聚类的业务指标数据分类装置,包括:
获取单元,被配置为获取业务指标数据集,基于预设的凝聚层次聚类算法,生成所述业务指标数据集的初始聚类集合;所述初始聚类集合中至少包含每一轮聚类过程中针对的待合并对象,以及各个待合并对象之间的邻近距离;
处理单元,被配置为基于预设的邻近距离阈值,筛选出在聚类过程中,邻近距离未超过所述邻近距离阈值的待合并对象;
分类单元,被配置为将筛选出的各个待合并对象作为最终的聚类结果输出,其中,一个待合并对象对应一种聚类。
可选的,获取业务指标数据集,基于预设的凝聚层次聚类算法,生成所述业务指标数据集的初始聚类集合之后,所述处理单元被进一步配置为:
基于所述初始聚类集合,确定所述各个待合并对象之间的邻近距离,在聚类过程中的变化趋势特征;
基于所述变化趋势特征,确定所述邻近距离阈值。
可选的,基于所述变化趋势特征,确定所述邻近距离阈值,所述处理单元被配置为:
基于所述初始聚类矩阵,计算指定的L轮聚类过程中,各个待合并对象之间的邻近距离的二阶差分值,其中,L为预设自然数,一个邻近距离对应的二阶差分值表征所述一个邻近距离的变化趋势特征;
判断获得的各个二阶差分值中,是否存在转折点,所述转折点的二阶差分值,相较于上一轮中的二阶差分值,和下一轮中的二阶差分值最小;
若是,则将所述转折点对应的邻近距离确定为所述邻近距离阈值;
否则,将取值最小的二阶差分值对应的邻近距离确定为所述邻近距离阈值。
可选的,基于所述邻近距离阈值,筛选出在聚类过程中,邻近距离未超过所述邻近距离阈值的待合并对象,所述处理单元被配置为:
确定截止到计算出所述邻近距离阈值时,已获得的所有待合并对象;
将所述已获得的待合并对象,判定为邻近距离未超过所述邻近距离阈值的待合并对象。
可选的,基于所述邻近距离阈值,筛选出在聚类过程中,邻近距离未超过所述邻近距离阈值的待合并对象之后,在将筛选出的各个待合并对象作为最终的聚类结果输出之前,所述处理单元被进一步配置为:
针对所述业务指标数据集,采用系统树形图算法,生成所述业务指标数据集的树状图,其中,所述树状图中包含有节点,一个节点表示聚类结果中包含的一种聚类;
根据获得的节点,确定所述系统树形图算法对应的预测聚类结果;
将筛选出的各个待合并对象对应的当前聚类结果,与所述预测聚类结果进行比较,获得比较结果;
根据所述比较结果,确定相较于所述预测聚类结果,所述各个待合并对象对应的当前聚类结果符合预设的业务需求。
可选的,将筛选出的各个待合并对象对应的当前聚类结果,与所述预测聚类结果进行比较,获得比较结果,所述处理单元被配置为:
基于所述业务指标数据集,采用聚类数目算法,计算所述业务指标数据集的目标聚类结果,并分别计算所述目标聚类结果与所述当前聚类结果之间的第一聚类结果差值,以及所述目标聚类结果与所述预测聚类结果之间的第二聚类结果差值,将第一聚类结果差值与所述第二聚类结果差值进行比较,获得比较结果;
根据所述比较结果,确定相较于所述预测聚类结果,所述各个待合并对象对应的当前聚类结果符合预设的业务需求,包括:
若所述第二聚类结果差值高于所述第一聚类结果差值,则确定所述各个待合并对象对应的当前聚类结果,相较于所述预测聚类结果,符合预设的业务需求。
可选的,基于所述业务指标数据集,采用聚类数目算法,计算所述业务指标数据集的目标聚类结果,所述处理单元被配置为:
获取所述业务指标数据集中的业务指标数据总数;
将所述业务指标数据总数经过平方根运算后得到的值,进行向上取整运算后输出的值,确定所述业务指标数据集的目标聚类结果。
根据本公开实施例的第三方面,提供一种计算设备,包括:
存储器,用于存储可执行指令;
处理器,用于读取并执行所述存储器中存储的可执行指令,以实现上述任一项方法。
根据本公开实施例的第四方面,提供一种存储介质,当所述存储介质中的指令由处理器执行时,使得能够执行上述任一项方法的步骤。
本公开的实施例提供的技术方案至少带来以下有益效果:
在本公开实施例中,采用预设的凝聚层次聚类算法,针对业务指标数据集生成相应的初始聚类集合,以及基于预设的邻近距离阈值,进而将筛选出的邻近距离未超过邻近距离阈值的待合并对象,作为最终的聚类结果输出,这样,基于邻近距离阈值确定聚类过程结束的条件,降低业务分析的计算数量级,提高业务指标数据分类准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种基于数据聚类的业务指标数据分类方法的流程图。
图2是根据一示例性实施例示出的基于表1所示的初始聚类矩阵生成的树状图。
图3是根据一示例性实施例示出的一种基于数据聚类的业务指标数据分类装置的框图。
图4是根据一示例性实施例示出的一种计算设备的结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
用户通过智能终端使用各类应用业务的过程中,会形成海量的业务指标数据,直接对海量的业务指标数据逐条分析,不仅耗时长,庞大的计算量也会占用大量的设备资源,因而先对获取的海量业务指标数据进行聚类整合,再对聚类后的各类业务指标数据集进行分析,将大大减小设备计算量,提高设备分析能力,同时,同类业务指标数据集中的各个业务指标数据集具有相似性,各类业务指标数据集具有明显的不相关性,因此,采用聚类后的各类业务指标数据集可以更好地描绘用户业务画像,呈现用户使用需求,对软件进行更新,或者实现用户精准推荐功能。如,用户在视频网站上的浏览视频列表、观看视频、评论视频等行为,将被转换为相应的视频浏览历史记录、视频观看记录、视频评论记录等,经过聚类后发现该用户最近常浏览、观看美妆视频,可以在用户浏览网站时向其推送其他美妆视频。
可是当各个业务指标数据的组间距离足够大或者足够小时,会出现最终输出的聚类个数过多或者过少的情况,这样不能准确描绘用户画像,而用户浏览的近视眼镜、防风眼镜,因为组间距离足够小,因此,可能出现过度聚类的情况,将两个业务指标数据都归为眼镜类或者配饰类中,但是近视眼镜和防风眼镜的应用场所完全不同,若为查找近视眼镜的用户推送防风眼镜的话,不符合该用户的当前需求,导致用户体验度低。
参阅图1所示,本公开实施例中,基于数据聚类的业务指标数据分类的详细过程如下:
S101,获取业务指标数据集,基于预设的凝聚层次聚类算法,生成业务指标数据集的初始聚类集合;该初始聚类集合中至少包含每一轮聚类过程中针对的待合并对象,以及各个待合并对象之间的邻近距离。
用户通过智能终端使用各类应用业务的过程中,会形成业务指标数据,所谓的业务指标数据是指对用户使用各类应用业务中产生的业务数据标签化后的数据,如,每日活跃用户数、用户每日在线时长、用户使用时长,等等。在本公开实施例中,采用矩阵的形式记录所述初始聚类集合,因此,又称为初始聚类矩阵。
本公开实施例中,在执行S101时,具体的执行过程如下:
首先,智能终端在业务指标数据集中提取出N个业务指标数据,并设置相应的N个聚类索引值,其中,可选的,各个业务指标数据采用时间序列的形式记录;
其次,智能终端将提取出的N个业务指标数据作为待合并对象,采用单链(Single-link)、全链(Complete-link)、平均链(Average-link)中任一邻近距离算法,在每一轮聚类过程中,计算各个待合并对象与其他待合并对象之间的邻近距离,将取值最小的邻近距离关联的两个待合并对象进行合并,形成新的待合并对象,即,也可以视为形成新的聚类,并为新的聚类设置新的聚类索引值;
最后,智能终端输出一个N*4的初始聚类矩阵,表征基于输入的业务指标数据集最终确定的聚类个数。具体的,在上述初始聚类矩阵中,N表征初始输入的业务指标数据的数目;以及,初始聚类矩阵中的每一行表征将待合并对象合并为新的聚类;以及,第一列和第二列中的元素表征各轮聚类过程中待合并对象的聚类索引值,其中,位于同一行且分属第一列和第二列的两个元素,分别表征在一轮聚类过程中,两个待合并对象的聚类索引值;以及,第三列中的元素,表示两个待合并对象之间的邻近距离;以及,第四列中的元素表征为将两个待合并对象进行聚类后,获得的新的待合并对象中所包含的业务指标个数。
例如,智能终端获取14个业务指标数据,将其对应的业务数据索引值分别设置为1~14,经过多轮凝聚层级聚类后,生成如表1所示的14*4的初始聚类矩阵:
表1
S102,基于预设的邻近距离阈值,筛选出在聚类过程中,邻近距离未超过邻近距离阈值的待合并对象。
在本公开实施例中,可以采用预先设定某个邻近距离值,确定为邻近距离阈值的方式;还可以基于初始聚类集合,确定各个待合并对象之间的邻近距离,在聚类过程中的变化趋势特征;基于该变化趋势特征,确定邻近距离阈值,具体过程描述如下:
具体的,基于初始聚类矩阵,计算指定的L轮聚类过程中,各个待合并对象之间的邻近距离的二阶差分值,其中,L为预设自然数,一个邻近距离对应的二阶差分值表征所述一个邻近距离的变化量。
判断获得的各个二阶差分值中,是否存在转折点,该转折点的二阶差分值,相较于上一轮中的二阶差分值,和下一轮中的二阶差分值最小。
若是,则将转折点对应的邻近距离确定为邻近距离阈值;否则,将取值最小的二阶差分值对应的邻近距离确定为邻近距离阈值。
例如,基于初始聚类矩阵,计算初始聚类矩阵里最后10轮中各个待合并对象之间的邻近距离的二阶差分值,如,在初始聚类矩阵中,针对第三列中的元素,计算倒数10行的各个元素的二阶差分值,其中,假设倒数第7轮中的二阶差分值,既小于倒数第6轮中的二阶差分值,又小于倒数第8轮中的二阶差分值,因此,将倒数第7轮的二阶差分值确定为转折点,并将倒数第7轮的二阶差分值对应的邻近距离确定为邻近距离阈值。
其中,二阶差分值表示邻近距离的变化量,随着聚类过程的进行,待合并对象之间的邻近距离会越来越大,直到出现一组待合并对象的邻近距离足够远的情况,若在上述待合并对象形成的新的聚类的基础上,继续进行聚类的话,会令之后输出的各组待合并对象之间的邻近距离更加远,进而降低了业务指标数据的分类准确性。因此,在本公开实施例中,基于二阶差分值寻找到变化程度最大的邻近距离,并将变化程度最大的邻近距离确定为邻近距离阈值,进而确定出聚类结束的条件,这样,不仅可以降低聚类过程中的计算量,还可以提高业务指标分类准确性。
又例如,基于初始聚类矩阵,计算初始聚类矩阵里最后10轮中各个待合并对象之间的邻近距离的二阶差分值,如,在初始聚类矩阵中,针对第三列中的元素,计算倒数10行的各个元素的二阶差分值,其中,假设倒数10轮中的二阶差分值依次递减,不存在某一轮中的二阶差分值满足相较于上一轮中的二阶差分值,和下一轮中的二阶差分值最小这一条件时,则将倒数第10轮中的二阶差分值所对应的邻近距离确定为邻近距离阈值。
具体的,确定截止到计算出邻近距离阈值时,已获得的所有待合并对象;并将已获得的待合并对象,判定为邻近距离未超过所述邻近距离阈值的待合并对象。
在执行步骤S102之后,在执行步骤103之前,进一步地,还可以执行以下操作:
A、针对业务指标数据集,采用系统树形图算法,生成业务指标数据集的树状图,其中,树状图中包含有节点,一个节点表示聚类结果中包含的一种聚类。
具体的,首先,基于上述初始聚类矩阵,采用系统树形图算法,生成初始聚类矩阵的树状图,树状图包含有节点、以及连接各节点的边。其中,节点表征为初始聚类矩阵中的待合并对象,以及合并后形成的新的待合并对象;以及,连接各节点的边,表征为初始聚类矩阵中两个待合并对象之间的邻近距离。
例如,将如表1所示的初始聚类矩阵,转换为如图2所示的树状图。
B、根据获得的节点,确定系统树形图算法对应的预测聚类结果。
例如,树状图中的一个节点表示聚类结果中包含的一种聚类,因此,可以对树状图中的各节点设置不同的颜色,用于区别不同的聚类,同时,通过与节点不同颜色的边,来连接各个节点,这样,通过获取树状图中的颜色总数目并减1,从而确定节点数目,进而确定所述系统树形图算法对应的预测聚类结果。
C、将筛选出的各个待合并对象对应的当前聚类结果,与预测聚类结果进行比较,获得比较结果。
具体的,在将当前聚类结果与预测聚类结果进行比较之前,需要设置所述业务指标数据集的目标聚类结果,具体设置过程如下:
首先,基于智能终端在业务指标数据集中提取的N个业务指标数据,采用聚类数目算法,对业务指标数据总数N进行平方根运算后向上取整,生成期望聚类个数s,并将该期望聚类个数确定为业务指标数据集的目标聚类结果。
其次,分别计算目标聚类结果与当前聚类结果之间的第一聚类结果差值,以及目标聚类结果与预测聚类结果之间的第二聚类结果差值。
例如,假设初始输入的20个业务指标数据对应的目标聚类结果为5个,基于系统树形图算法生成的预测聚类结果为2个,基于邻近距离阈值生成的当前聚类结果为4个,则目标聚类结果与当前聚类结果之间的第一聚类结果差值为1,而目标聚类结果与预测聚类结果之间的第二聚类结果差值为3。
最后,将第一聚类结果差值与第二聚类结果差值进行比较,获得比较结果,根据上述比较结果,确定相较于预测聚类结果,各个待合并对象对应的当前聚类结果符合预设的业务需求。
具体的,若第二聚类结果差值高于第一聚类结果差值,则确定各个待合并对象对应的当前聚类结果,相较于预测聚类结果,符合预设的业务需求。
例如,目标聚类结果与当前聚类结果之间的第一聚类结果差值为1,而目标聚类结果与预测聚类结果之间的第二聚类结果差值为3,此时第二聚类结果差值明显高于第一聚类结果差值,说明当前聚类结果更接近目标聚类结果,因此,当前聚类结果更符合预设的业务需求。
本公开实施例中,只有在相较于预测聚类结果,各个待合并对象对应的当前聚类结果更符合预设的业务需求时,才会使用当前聚类结果作为最终输出,即智能终端才会进一步执行步骤S103。
S103,将筛选出的各个待合并对象作为最终的聚类结果输出,其中,一个待合并对象对应一种聚类。
例如,假设初始输入的20个业务指标数据对应的目标聚类结果为5个,基于系统树形图算法生成的预测聚类结果为2个,基于邻近距离阈值生成的当前聚类结果为4个,此时,计算得到的第一聚类结果差值为1,第二聚类结果差值为3,因此,将基于邻近距离阈值筛选出的4个待合并对象,作为最终的聚类结果输出。其中,输出的4个待合并对象可以是同一轮聚类中形成的新的聚类,也可以是不同轮次聚类中形成的新的聚类。
基于上述实施例,进一步地,在步骤102中,若第二聚类结果差值不超过第一聚类结果差值,则确定系统树形图对应的预测聚类结果,相较于各个待合并对象对应的当前聚类结果,更符合预设的业务需求,则将预测聚类结果作为最终的聚类结果输出;
例如,假设初始输入的20个业务指标数据对应的目标聚类结果为5个,基于系统树形图算法生成的预测聚类结果为4个,基于邻近距离阈值生成的当前聚类结果为3个,此时,计算得到的第一聚类结果差值为2,第二聚类结果差值为1,挡第二聚类结果差值低于第一聚类结果差值时,将基于系统树形图生成的4个聚类,作为最终的聚类结果输出。
实际中,若只采用基于初始聚类矩阵生成的树状图,确定业务指标数据集的最终聚类结果,可能会出现不满足业务需求的情况,如,初始输入34个业务指标数据作为待合并对象,最终基于树状图获取的预测聚类结果为2类,由于分类个数过少,降低了业务的可解释性。同样地,若只采用基于邻近距离阈值筛选出的待合并对象,作为业务指标数据集的最终聚类结果,可能出现由于划分的聚类数目过多的情况,进而降低业务的可解释性。因此,采用设置目标聚类结果,将预测聚类结果与当前聚类结果相比较的方式,选取最符合预设业务需求的聚类结果,作为业务指标数据集的最终聚类结果输出,剔除聚类个数过多或者过少的结果,进一步提高指标分类准确性和业务的可解释性。
基于上述实施例,参阅图3所示,本公开实施例中,提供一种基于数据聚类的业务指标数据分类装置,至少包括获取单元301、处理单元302和分类单元303,其中,
获取单元301,被配置为获取业务指标数据集,基于预设的凝聚层次聚类算法,生成所述业务指标数据集的初始聚类集合;所述初始聚类集合中至少包含每一轮聚类过程中针对的待合并对象,以及各个待合并对象之间的邻近距离;
处理单元302,被配置为基于预设的邻近距离阈值,筛选出在聚类过程中,邻近距离未超过所述邻近距离阈值的待合并对象;
分类单元303,被配置为将筛选出的各个待合并对象作为最终的聚类结果输出,其中,一个待合并对象对应一种聚类。
可选的,获取业务指标数据集,基于预设的凝聚层次聚类算法,生成所述业务指标数据集的初始聚类集合之后,所述处理单元302被进一步配置为:
基于所述初始聚类集合,确定所述各个待合并对象之间的邻近距离,在聚类过程中的变化趋势特征;
基于所述变化趋势特征,确定所述邻近距离阈值。
可选的,基于所述变化趋势特征,确定所述邻近距离阈值,所述处理单元302被配置为:
基于所述初始聚类矩阵,计算指定的L轮聚类过程中,各个待合并对象之间的邻近距离的二阶差分值,其中,L为预设自然数,一个邻近距离对应的二阶差分值表征所述一个邻近距离的变化趋势特征;
判断获得的各个二阶差分值中,是否存在转折点,所述转折点的二阶差分值,相较于上一轮中的二阶差分值,和下一轮中的二阶差分值最小;
若是,则将所述转折点对应的邻近距离确定为所述邻近距离阈值;
否则,将取值最小的二阶差分值对应的邻近距离确定为所述邻近距离阈值。
可选的,基于所述邻近距离阈值,筛选出在聚类过程中,邻近距离未超过所述邻近距离阈值的待合并对象,所述处理单元302被配置为:
确定截止到计算出所述邻近距离阈值时,已获得的所有待合并对象;
将所述已获得的待合并对象,判定为邻近距离未超过所述邻近距离阈值的待合并对象。
可选的,基于所述邻近距离阈值,筛选出在聚类过程中,邻近距离未超过所述邻近距离阈值的待合并对象之后,在将筛选出的各个待合并对象作为最终的聚类结果输出之前,所述处理单元302被进一步配置为:
针对所述业务指标数据集,采用系统树形图算法,生成所述业务指标数据集的树状图,其中,所述树状图中包含有节点,一个节点表示聚类结果中包含的一种聚类;
根据获得的节点,确定所述系统树形图算法对应的预测聚类结果;
将筛选出的各个待合并对象对应的当前聚类结果,与所述预测聚类结果进行比较,获得比较结果;
根据所述比较结果,确定相较于所述预测聚类结果,所述各个待合并对象对应的当前聚类结果符合预设的业务需求。
可选的,将筛选出的各个待合并对象对应的当前聚类结果,与所述预测聚类结果进行比较,获得比较结果,所述处理单元302被配置为:
基于所述业务指标数据集,采用聚类数目算法,计算所述业务指标数据集的目标聚类结果,并分别计算所述目标聚类结果与所述当前聚类结果之间的第一聚类结果差值,以及所述目标聚类结果与所述预测聚类结果之间的第二聚类结果差值,将第一聚类结果差值与所述第二聚类结果差值进行比较,获得比较结果;
根据所述比较结果,确定相较于所述预测聚类结果,所述各个待合并对象对应的当前聚类结果符合预设的业务需求,包括:
若所述第二聚类结果差值高于所述第一聚类结果差值,则确定所述各个待合并对象对应的当前聚类结果,相较于所述预测聚类结果,符合预设的业务需求。
可选的,基于所述业务指标数据集,采用聚类数目算法,计算所述业务指标数据集的目标聚类结果,所述处理单元302被配置为:
获取所述业务指标数据集中的业务指标数据总数;
将所述业务指标数据总数经过平方根运算后得到的值,进行向上取整运算后输出的值,确定所述业务指标数据集的目标聚类结果。
基于上述实施例,参阅图4所示,本公开实施例中,提供一种计算设备,至少包括存储器401和处理器402,其中,
存储器401,用于存储可执行指令;
处理器402,用于读取并执行所述存储器中存储的可执行指令,以实现上述任一项方法。
基于上述实施例,提供一种存储介质,至少包括:当所述存储介质中的指令由的处理器执行时,使得能够执行上述任一项方法的步骤。
综上所述,在本公开实施例中,采用预设的凝聚层次聚类算法,针对业务指标数据集生成相应的初始聚类集合,该初始聚类集合中至少包含每一轮聚类过程中针对的待合并对象,以及各个待合并对象之间的邻近距离,基于预设的邻近距离阈值,将筛选出的邻近距离未超过邻近距离阈值的待合并对象,作为最终的聚类结果输出。
显然,当初始输入的各个业务指标数据的组间距离足够大的时候,经过凝聚层次聚类后,可能出现输出的最终聚类个数过多的情况;或者,当初始输入的各个业务指标数据的组间距离足够小的时候,可能出现因过度聚类,导致输出的最终聚类个数过少,由于针对业务指标数据确定的最终聚类个数过多或者过少,均会影响业务的可解释性,因此,为了保证业务的可解释性,在本公开实施例中,采用邻近距离阈值作为约束聚类过程结束的条件,这样,可以通过邻近距离阈值,将未超过邻近距离阈值的待合并对象筛选出来,及时剔除相似度低的待合并对象,减少聚类合并的时间,降低业务分析的计算量,提高业务指标数据分类准确性。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种基于数据聚类的业务指标数据分类方法,其特征在于,包括:
获取业务指标数据集,基于预设的凝聚层次聚类算法,生成所述业务指标数据集的初始聚类集合;所述初始聚类集合中至少包含:每一轮聚类过程中针对的待合并对象,以及每一轮聚类过程中待合并对象之间的邻近距离;
基于所述初始聚类集合,计算在指定的L轮聚类中,每一轮聚类过程中邻近距离的二阶差分值,其中,L为预设自然数,一个邻近距离对应的二阶差分值表征:所述一个邻近距离的变化趋势特征;
若获得的各个二阶差分值中存在相较于上一轮中的二阶差分值,和下一轮中的二阶差分值最小的二阶差分值,则确定将所述二阶差分值作为转折点,并将所述转折点对应的邻近距离确定为所述邻近距离阈值;否则,将取值最小的二阶差分值对应的邻近距离,确定为所述邻近距离阈值;
确定截止到计算出所述邻近距离阈值时,在所述初始聚类集合中已获得的待合并对象,并将已获得的待合并对象,判定为邻近距离未超过所述邻近距离阈值的待合并对象;
将筛选出的各个待合并对象作为最终的聚类结果输出,其中,一个待合并对象对应一种聚类。
2.如权利要求1所述的方法,其特征在于,在将已获得的待合并对象,判定为邻近距离未超过所述邻近距离阈值的待合并对象之后,在将筛选出的各个待合并对象作为最终的聚类结果输出之前,进一步包括:
针对所述业务指标数据集,采用系统树形图算法,生成所述业务指标数据集的树状图,其中,所述树状图中包含有节点,一个节点表示聚类结果中包含的一种聚类;
根据获得的节点,确定所述系统树形图算法对应的预测聚类结果;
将筛选出的各个待合并对象对应的当前聚类结果,与所述预测聚类结果进行比较,获得比较结果;
根据所述比较结果,确定相较于所述预测聚类结果,所述各个待合并对象对应的当前聚类结果符合预设的业务需求。
3.如权利要求2所述的方法,其特征在于,将筛选出的各个待合并对象对应的当前聚类结果,与所述预测聚类结果进行比较,获得比较结果,包括:
基于所述业务指标数据集,采用聚类数目算法,计算所述业务指标数据集的目标聚类结果,并分别计算所述目标聚类结果与所述当前聚类结果之间的第一聚类结果差值,以及所述目标聚类结果与所述预测聚类结果之间的第二聚类结果差值,将第一聚类结果差值与所述第二聚类结果差值进行比较,获得比较结果;
根据所述比较结果,确定相较于所述预测聚类结果,所述各个待合并对象对应的当前聚类结果符合预设的业务需求,包括:
若所述第二聚类结果差值高于所述第一聚类结果差值,则确定所述各个待合并对象对应的当前聚类结果,相较于所述预测聚类结果,符合预设的业务需求。
4.根据权利要求3所述的方法,其特征在于,基于所述业务指标数据集,采用聚类数目算法,计算所述业务指标数据集的目标聚类结果,包括:
获取所述业务指标数据集中的业务指标数据总数;
将所述业务指标数据总数经过平方根运算后得到的值,进行向上取整运算后输出的值,确定所述业务指标数据集的目标聚类结果。
5.一种基于数据聚类的业务指标数据分类装置,其特征在于,包括:
获取单元,被配置为获取业务指标数据集,基于预设的凝聚层次聚类算法,生成所述业务指标数据集的初始聚类集合;所述初始聚类集合中至少包含:每一轮聚类过程中针对的待合并对象,以及每一轮聚类过程中待合并对象之间的邻近距离;
基于所述初始聚类集合,计算在指定的L轮聚类中,每一轮聚类过程中邻近距离的二阶差分值,其中,L为预设自然数,一个邻近距离对应的二阶差分值表征:所述一个邻近距离的变化趋势特征;
若获得的各个二阶差分值中存在相较于上一轮中的二阶差分值,和下一轮中的二阶差分值最小的二阶差分值,则确定将所述二阶差分值作为转折点,并将所述转折点对应的邻近距离确定为所述邻近距离阈值;否则,将取值最小的二阶差分值对应的邻近距离,确定为所述邻近距离阈值;
处理单元,被配置为确定截止到计算出所述邻近距离阈值时,在所述初始聚类集合中已获得的待合并对象,并将已获得的待合并对象,判定为邻近距离未超过所述邻近距离阈值的待合并对象;
分类单元,被配置为将筛选出的各个待合并对象作为最终的聚类结果输出,其中,一个待合并对象对应一种聚类。
6.如权利要求5所述的装置,其特征在于,在将已获得的待合并对象,判定为邻近距离未超过所述邻近距离阈值的待合并对象之后,在将筛选出的各个待合并对象作为最终的聚类结果输出之前,所述处理单元被进一步配置为:
针对所述业务指标数据集,采用系统树形图算法,生成所述业务指标数据集的树状图,其中,所述树状图中包含有节点,一个节点表示聚类结果中包含的一种聚类;
根据获得的节点,确定所述系统树形图算法对应的预测聚类结果;
将筛选出的各个待合并对象对应的当前聚类结果,与所述预测聚类结果进行比较,获得比较结果;
根据所述比较结果,确定相较于所述预测聚类结果,所述各个待合并对象对应的当前聚类结果符合预设的业务需求。
7.如权利要求6所述的装置,其特征在于,将筛选出的各个待合并对象对应的当前聚类结果,与所述预测聚类结果进行比较,获得比较结果,所述处理单元被配置为:
基于所述业务指标数据集,采用聚类数目算法,计算所述业务指标数据集的目标聚类结果,并分别计算所述目标聚类结果与所述当前聚类结果之间的第一聚类结果差值,以及所述目标聚类结果与所述预测聚类结果之间的第二聚类结果差值,将第一聚类结果差值与所述第二聚类结果差值进行比较,获得比较结果;
根据所述比较结果,确定相较于所述预测聚类结果,所述各个待合并对象对应的当前聚类结果符合预设的业务需求,包括:
若所述第二聚类结果差值高于所述第一聚类结果差值,则确定所述各个待合并对象对应的当前聚类结果,相较于所述预测聚类结果,符合预设的业务需求。
8.根据权利要求7所述的装置,其特征在于,基于所述业务指标数据集,采用聚类数目算法,计算所述业务指标数据集的目标聚类结果,所述处理单元被配置为:
获取所述业务指标数据集中的业务指标数据总数;
将所述业务指标数据总数经过平方根运算后得到的值,进行向上取整运算后输出的值,确定所述业务指标数据集的目标聚类结果。
9.一种计算设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于读取并执行所述存储器中存储的可执行指令,以实现如权利要求1至4中任一项所述的基于数据聚类的业务指标数据分类方法。
10.一种存储介质,当所述存储介质中的指令由处理器执行时,使得能够执行如权利要求1至4中任一项所述的基于数据聚类的业务指标数据分类方法。
CN201910570514.3A 2019-06-27 2019-06-27 基于数据聚类的业务指标数据分类方法及装置 Active CN112148942B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910570514.3A CN112148942B (zh) 2019-06-27 2019-06-27 基于数据聚类的业务指标数据分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910570514.3A CN112148942B (zh) 2019-06-27 2019-06-27 基于数据聚类的业务指标数据分类方法及装置

Publications (2)

Publication Number Publication Date
CN112148942A CN112148942A (zh) 2020-12-29
CN112148942B true CN112148942B (zh) 2024-04-09

Family

ID=73868879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910570514.3A Active CN112148942B (zh) 2019-06-27 2019-06-27 基于数据聚类的业务指标数据分类方法及装置

Country Status (1)

Country Link
CN (1) CN112148942B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113448954B (zh) * 2021-06-29 2024-02-06 平安证券股份有限公司 业务数据执行方法、装置、电子设备及计算机存储介质
CN113626670B (zh) * 2021-07-13 2023-01-24 北京格灵深瞳信息技术股份有限公司 基于时空关系的对象聚类方法、装置和电子设备
CN114004529A (zh) * 2021-11-10 2022-02-01 广东电网有限责任公司 一种配电网故障停电影响指标降维预处理方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537380A (zh) * 2014-12-30 2015-04-22 小米科技有限责任公司 聚类方法和装置
CN105183780A (zh) * 2015-08-12 2015-12-23 中国工程物理研究院计算机应用研究所 基于改进agnes算法的协议分类方法
CN105809203A (zh) * 2016-03-15 2016-07-27 浙江大学 一种基于层次聚类的系统稳态检测算法
CN105824955A (zh) * 2016-03-30 2016-08-03 北京小米移动软件有限公司 短信聚类方法及装置
CN105956628A (zh) * 2016-05-13 2016-09-21 北京京东尚科信息技术有限公司 数据分类方法和用于数据分类的装置
CN106203502A (zh) * 2016-07-08 2016-12-07 中国科学院西安光学精密机械研究所 基于流形结构的集成聚类数据处理方法
CN109101633A (zh) * 2018-08-15 2018-12-28 北京神州泰岳软件股份有限公司 一种层次聚类方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9984145B2 (en) * 2015-10-26 2018-05-29 Conduent Business Services, Llc Latent student clustering using a hierarchical block clustering method
CN110362814B (zh) * 2018-04-10 2023-06-23 普天信息技术有限公司 一种基于改进损失函数的命名实体识别方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537380A (zh) * 2014-12-30 2015-04-22 小米科技有限责任公司 聚类方法和装置
CN105183780A (zh) * 2015-08-12 2015-12-23 中国工程物理研究院计算机应用研究所 基于改进agnes算法的协议分类方法
CN105809203A (zh) * 2016-03-15 2016-07-27 浙江大学 一种基于层次聚类的系统稳态检测算法
CN105824955A (zh) * 2016-03-30 2016-08-03 北京小米移动软件有限公司 短信聚类方法及装置
CN105956628A (zh) * 2016-05-13 2016-09-21 北京京东尚科信息技术有限公司 数据分类方法和用于数据分类的装置
CN106203502A (zh) * 2016-07-08 2016-12-07 中国科学院西安光学精密机械研究所 基于流形结构的集成聚类数据处理方法
CN109101633A (zh) * 2018-08-15 2018-12-28 北京神州泰岳软件股份有限公司 一种层次聚类方法及装置

Also Published As

Publication number Publication date
CN112148942A (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
CN108921221B (zh) 用户特征的生成方法、装置、设备及存储介质
CN112148942B (zh) 基于数据聚类的业务指标数据分类方法及装置
JP3494368B2 (ja) 動映像の検索、ブラウジングまたは要約を行うための動映像表現方法と、その処理装置および処理方法
CN108090208A (zh) 融合数据处理方法及装置
CN104053023B (zh) 一种确定视频相似度的方法及装置
CN110909182A (zh) 多媒体资源搜索方法、装置、计算机设备及存储介质
CN113779303B (zh) 视频集合的索引方法、装置和存储介质及电子设备
CN111144950B (zh) 模型筛选方法、装置、电子设备及存储介质
CN113821657A (zh) 基于人工智能的图像处理模型训练方法及图像处理方法
CN104391879A (zh) 层次聚类的方法及装置
CN108459965B (zh) 一种结合用户反馈和代码依赖的软件可追踪生成方法
KR20220070482A (ko) 이미지 증분 클러스터링 방법, 장치, 전자 기기, 저장 매체 및 프로그램 제품
CN108804454B (zh) 一种群画像方法、群画像装置及服务器
CN111639230A (zh) 一种相似视频的筛选方法、装置、设备和存储介质
WO2022111095A1 (zh) 一种产品推荐方法、装置、计算机存储介质及系统
CN111125199A (zh) 一种数据库访问方法、装置及电子设备
CN113009839B (zh) 场景推荐方法和装置、存储介质及电子设备
CN114221991A (zh) 基于大数据的会话推荐反馈处理方法及深度学习服务系统
CN107193979B (zh) 一种同源图片检索的方法
CN117493920A (zh) 一种数据分类方法及装置
CN105893515B (zh) 一种信息处理方法及服务器
CN110569447B (zh) 一种网络资源的推荐方法、装置及存储介质
JP5929532B2 (ja) イベント検出装置、イベント検出方法およびイベント検出プログラム
CN111683280A (zh) 视频处理方法、装置及电子设备
CN109245948B (zh) 安全感知的虚拟网络映射方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant