CN116340845A - 标签生成方法、装置、存储介质及电子设备 - Google Patents

标签生成方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN116340845A
CN116340845A CN202310317446.6A CN202310317446A CN116340845A CN 116340845 A CN116340845 A CN 116340845A CN 202310317446 A CN202310317446 A CN 202310317446A CN 116340845 A CN116340845 A CN 116340845A
Authority
CN
China
Prior art keywords
data
target
query
feature
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310317446.6A
Other languages
English (en)
Inventor
黄军军
吴士泓
徐静
陈文旋
甘小芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yuanguang Software Co Ltd
Original Assignee
Yuanguang Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yuanguang Software Co Ltd filed Critical Yuanguang Software Co Ltd
Priority to CN202310317446.6A priority Critical patent/CN116340845A/zh
Publication of CN116340845A publication Critical patent/CN116340845A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种标签生成方法、装置、存储介质及电子设备,涉及数据科学应用领域。该方法包括:获取待处理的数据集,其中,数据集中至少包括目标对象的目标数据,目标数据用于表征目标对象的属性信息;通过自适应映射的方式对目标数据进行特征转换处理,得到数据特征集合;通过目标降维算法对数据特征集合中的数据特征进行降维处理,得到降维后的数据特征集合;通过目标聚类算法对降维后的数据特征集合中的数据特征进行聚类处理,得到M个数据类别,其中,M为正整数;根据M个数据类别,确定目标对象的M个标签。本发明解决了现有技术中通过人工标注数据,存在标签生成效率低的技术问题。

Description

标签生成方法、装置、存储介质及电子设备
技术领域
本发明涉及数据科学应用领域,具体而言,涉及一种标签生成方法、装置、存储介质及电子设备。
背景技术
标签学习是指通过机器学习算法(例如,有监督学习算法或无监督学习算法)对数据集划分类别,旨在将相似的对象尽可能聚在一起,将不相似的对象尽可能分开。有监督学习算法需要通过大量的标注样本训练学习有监督模型,通过模型进行后续的类别预测和划分,这些标注样本往往需要专业领域的专家手工标注,导致标签生成效率较低。无监督学习虽然不依赖于额外的手工标注信息,但是需要进行手工繁琐的特征工程任务,例如,特征选择等,在实际学习过程中也大大迟滞了标签学习的应用,影响标签生成效率。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种标签生成方法、装置、存储介质及电子设备,以至少解决现有技术中通过人工标注数据,存在标签生成效率低的技术问题。
根据本发明实施例的一个方面,提供了一种标签生成方法,包括:获取待处理的数据集,其中,数据集中至少包括目标对象的目标数据,目标数据用于表征目标对象的属性信息;通过自适应映射的方式对目标数据进行特征转换处理,得到数据特征集合;通过目标降维算法对数据特征集合中的数据特征进行降维处理,得到降维后的数据特征集合;通过目标聚类算法对降维后的数据特征集合中的数据特征进行聚类处理,得到M个数据类别,其中,M为正整数;根据M个数据类别,确定目标对象的M个标签。
进一步地,通过自适应映射的方式对目标数据进行特征转换处理,得到数据特征集合,包括:获取预设的特征优先级,其中,特征优先级用于表征对目标数据进行数值映射的先后顺序;根据特征优先级,自适应地对目标数据进行数值映射,得到目标数据的特征得分数值,并根据特征得分数值,生成数据特征集合,其中,特征得分数值表征目标数据的评价分数。
进一步地,通过目标聚类算法对降维后的数据特征集合中的数据特征进行聚类处理,得到M个数据类别,包括:获取数据集的数据处理需求,并根据数据处理需求,从预设的多个聚类算法中确定目标聚类算法;通过目标聚类算法对降维后的数据特征集合中的M个数据特征进行聚类计算,得到M个数据簇;确定M个数据簇中的每个数据簇对应的目标样本数据,并根据每个目标样本数据,生成M个数据类别,其中,目标样本数据用于表征数据簇的特征。
进一步地,根据M个数据类别,确定目标对象的M个标签,包括:根据数据处理需求,确定当前业务场景对应的M个目标标签;根据M个目标标签与每个数据类别进行标签匹配,得到每个数据类别对应的标签;依据每个数据类别对应的标签,确定目标对象的M个标签。
进一步地,标签生成方法还包括:在根据M个数据类别,确定目标对象的M个标签之后,通过目标组件对M个标签进行渲染处理,得到目标画像;在向第一对象展示目标画像之后,获取第一对象基于目标画像的评价分数,其中,评价分数用于指导目标聚类算法调优。
进一步地,标签生成方法还包括:在根据M个数据类别,确定目标对象的M个标签之后,在接收到查询请求的情况下,获取查询请求的请求信息,其中,请求信息至少包括第一标签信息;根据请求信息确定目标查询方法,并基于目标查询方法,生成目标查询结果。
进一步地,目标查询方法为以下之一:第一查询方法、第二查询方法、第三查询方法,第一查询方法对应的查询粒度小于第二查询方法对应的查询粒度,第二查询方法对应的查询粒度小于第三查询方法对应的查询粒度,其中,基于目标查询方法,生成目标查询结果,包括:若目标查询方法为第一查询方法,则计算第一标签信息对应的第二对象与多个待查询对象的相似度,得到多个第一相似度,并确定相似度对应的数值大于第一阈值的第一相似度对应的待查询对象为目标查询对象,生成目标查询结果;若目标查询方法为第二查询方法,则根据请求信息中的筛选条件,从多个待查询对象中确定第一待查询对象集合,并计算第二对象与第一待查询对象集合中的每个待查询对象的相似度,得到多个第二相似度,确定相似度对应的数值大于第二阈值的第二相似度对应的待查询对象为目标查询对象,生成目标查询结果;若目标查询方法为第三查询方法,则根据请求信息中的操作行为信息,从多个待查询对象中确定第二待查询对象集合,并计算第二对象与第二待查询对象集合中的每个待查询对象的相似度,得到多个第三相似度,确定相似度对应的数值大于第三阈值的第三相似度对应的待查询对象为目标查询对象,生成目标查询结果。
根据本发明实施例的另一方面,还提供了一种标签生成装置,包括:第一获取模块,用于获取待处理的数据集,其中,数据集中至少包括目标对象的目标数据,目标数据用于表征目标对象的属性信息;第一处理模块,用于通过自适应映射的方式对目标数据进行特征转换处理,得到数据特征集合;第二处理模块,用于通过目标降维算法对数据特征集合中的数据特征进行降维处理,得到降维后的数据特征集合;第三处理模块,用于通过目标聚类算法对降维后的数据特征集合中的数据特征进行聚类处理,得到M个数据类别,其中,M为正整数;第一确定模块,用于根据M个数据类别,确定目标对象的M个标签。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述的标签生成方法。
根据本发明实施例的另一方面,还提供了一种电子设备,该电子设备包括一个或多个处理器;存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现用于运行程序,其中,程序被设置为运行时执行上述的标签生成方法。
在本发明实施例中,采用自动完成特征预处理的方式,首先获取待处理的数据集,然后通过自适应映射的方式对目标数据进行特征转换处理,得到数据特征集合,然后通过目标降维算法对数据特征集合中的数据特征进行降维处理,得到降维后的数据特征集合,然后通过目标聚类算法对降维后的数据特征集合中的数据特征进行聚类处理,得到M个数据类别,然后根据M个数据类别,确定目标对象的M个标签。其中,数据集中至少包括目标对象的目标数据,目标数据用于表征目标对象的属性信息,M为正整数。
在上述过程中,通过自适应映射的方式对目标数据进行特征转换处理,实现了自动化地完成特征预处理,提高了标签生成效率;通过目标降维算法对数据特征集合中的数据特征进行降维处理,既能去除预处理后的数据特征的冗余信息,又能保持原始数据的全局结构和局部结构,为后续标签学习任务提供了便利;在学习到的低维数据特征下,对聚类模型学习标签而言,不仅去除了特征间的冗余信息,同时在不丢失过多信息的情况下也减少了其训练时间,进一步提高了标签生成效率。
由此可见,通过本发明的技术方案,实现了提高标签生成效率的技术效果,解决了现有技术中通过人工标注数据,存在标签生成效率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的标签生成方法的流程图;
图2是根据本发明实施例的一种可选的标签生成系统的工作流程示意图;
图3是根据本发明实施例的一种可选的标签学习的流程图;
图4是根据本发明实施例的一种可选的数据预处理的流程图;
图5是根据本发明实施例的一种可选的画像渲染的示意图;
图6是根据本发明实施例的一种可选的第一查询方法的流程图;
图7是根据本发明实施例的一种可选的第二查询方法的流程图;
图8是根据本发明实施例的一种可选的第三查询方法的流程图;
图9是根据本发明实施例的一种可选的标签生成装置的示意图;
图10是根据本发明实施例的一种可选的电子设备的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,本发明所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。例如,本系统和相关用户或机构间设置有接口,在获取相关信息之前,需要通过接口向前述的用户或机构发送获取请求,并在接收到前述的用户或机构反馈的同意信息后,获取相关信息。
实施例1
根据本发明实施例,提供了一种标签生成方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的标签生成方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,获取待处理的数据集,其中,数据集中至少包括目标对象的目标数据,目标数据用于表征目标对象的属性信息。
在上述过程中,可以通过应用系统、处理器、电子设备等装置获取待处理的数据集。可选的,通过标签生成系统获取待处理的数据集,目标对象可以是进行标签学习的对象,例如目标员工、目标产品等,本实施例中,以目标员工为例进行介绍。待处理的数据集可以包括员工的年龄、性别、学历、毕业时间等数据,目标数据可以是非数值型的数据,例如,性别、学历等文本数据。
图2是根据本发明实施例的一种可选的标签生成系统的工作流程示意图,如图2所示,包括预处理模块、非线性降维模块、标签学习算法模块、画像渲染模块、智能推荐检索。具体地,获取待处理的数据集(即输入数据),通过预处理模块将文本等非数值嵌入为数值型,多值型广播为多个子特征,然后通过非线性降维模块降维去除冗余,然后通过标签学习算法模块输出标签,并且,还可以通过画像渲染模块进行可视化展示,以及具备智能推荐检索功能。
步骤S102,通过自适应映射的方式对目标数据进行特征转换处理,得到数据特征集合。
具体地,由于数据源中含有多值属性或文本信息属性(即目标数据),无法直接用于机器学习算法,因此,需要通过预处理模块进行特征转换处理,将目标数据转换为算法可直接训练学习的数值特征(即数值向量),得到数据特征集合。
需要说明的是,在本实施例中,通过预处理模块采用自适应映射的方式对目标数据进行特征转换处理,实现了自动化地完成特征预处理,降低了人力成本,提高了标签生成效率。
步骤S103,通过目标降维算法对数据特征集合中的数据特征进行降维处理,得到降维后的数据特征集合。
具体地,在预处理模块中,存在单值或多值属性的特征,其数值嵌入比较直接,会产生大量的信息冗余,即预处理后的特征维度较高且存在信息冗余,不利于后续的标签学习任务,因此,通过非线性降维模块对数据特征集合中的数据特征进行降维处理。
可选地,目标降维算法可以是非线性无监督降维算法中的UMAP算法,通过非线性降维模块采用UMAP算法对数据特征集合中的数据特征做低维嵌入,得到降维后的数据特征集合。其中,非线性降维模块通过修改UMAP算法中的一些重要的参数(例如,所需要降维的维数、近邻数、最小间隔距离等),实现对降维与信息量的反馈的修改,以找到最佳的嵌入空间(即最佳的降维特征),例如,默认内置降维后所要保留的信息量与原始信息至少为70%,近邻数及最小距离设置经少量的网格搜索,多次尝试找到最佳的降维特征。
需要说明的是,通过目标降维算法对数据特征集合中的数据特征进行降维处理,既能去除预处理后的数据特征的冗余信息,又能保持原始数据的全局结构和局部结构,为后续标签学习任务提供了便利。
步骤S104,通过目标聚类算法对降维后的数据特征集合中的数据特征进行聚类处理,得到M个数据类别,其中,M为正整数。
具体地,标签学习算法模块集成了多种聚类算法,包括硬聚类算法中的K-Means聚类算法、模糊聚类算法中的FCM(Fuzzy C-Means)聚类算法、概率聚类算法中的高斯混合模型GMM、层次聚类算法(Hierarchical Clustering,HC)、密度聚类算法(Density-BasedSpatial Clustering of Applications with Noise,DBSCAN)、谱聚类算法(SpectralClustering,SC)以及基于异常值稀疏的鲁棒聚类算法(K-Means with Outlier Removal,KMOR),应用于非线性降维后的特征(即降维后的数据特征集合中的数据特征)上,进行标签学习探索,得到M个数据类别。
可选地,目标聚类算法可以是根据数据集的数据处理需求从预设的多个聚类算法中确定出的聚类算法,默认为KMOR算法。例如,数据处理需求为需要清晰划分类别,且类与类之间分类明显,可以采用K均值聚类算法(即硬聚类Kmeans算法);数据处理需求为模糊标签学习场景下的需求,有些员工既是会计师类别,又是经济师类别,属于复合型人才,可以采用高斯混合模型GMM。
需要说明的是,在学习到的低维数据特征下,对聚类模型学习标签而言,不仅去除了特征间的冗余信息,同时在不丢失过多信息的情况下也减少了其训练时间,进一步提高了标签生成效率。
步骤S105,根据M个数据类别,确定目标对象的M个标签。
具体地,根据业务场景的实际意义对学习到的标签赋以实际的层级意义,得到目标对象的M个标签。例如,结合业务梳理学习到的综合标签可以是学识背景、业务能力、管理水平、工作经验等。
基于上述步骤S101至步骤S105所限定的方案,可以获知,在本发明实施例中,采用自动完成特征预处理的方式,首先获取待处理的数据集,然后通过自适应映射的方式对目标数据进行特征转换处理,得到数据特征集合,然后通过目标降维算法对数据特征集合中的数据特征进行降维处理,得到降维后的数据特征集合,然后通过目标聚类算法对降维后的数据特征集合中的数据特征进行聚类处理,得到M个数据类别,然后根据M个数据类别,确定目标对象的M个标签。其中,数据集中至少包括目标对象的目标数据,目标数据用于表征目标对象的属性信息,M为正整数。
容易注意到的是,在上述过程中,通过自适应映射的方式对目标数据进行特征转换处理,实现了自动化地完成特征预处理,提高了标签生成效率;通过目标降维算法对数据特征集合中的数据特征进行降维处理,既能去除预处理后的数据特征的冗余信息,又能保持原始数据的全局结构和局部结构,为后续标签学习任务提供了便利;在学习到的低维数据特征下,对聚类模型学习标签而言,不仅去除了特征间的冗余信息,同时在不丢失过多信息的情况下也减少了其训练时间,进一步提高了标签生成效率。
由此可见,通过本发明的技术方案,实现了提高标签生成效率的技术效果,解决了现有技术中通过人工标注数据,存在标签生成效率低的技术问题。
在一种可选的实施例中,通过如图3所示的流程实现标签学习过程,具体地,获取待标签学习的json或字典格式的输入数据后,使用python包pandas将其读取为数据框格式的数据集,在预处理模块完成数据预处理(例如,将文本嵌入为数值、缺失值填充、特征广播、去重、归一化等),此时预处理模块中将文本等非数值信息嵌入为数值向量(即得到数值型的数据框data),并判断数据预处理是否成功,若成功,则判断去重后的data是否<类数,若小于,则抛出异常:数据集重复度过高,小于类数;若数据预处理不成功,则抛出异常:数据预处理失败。然后利用非线性降维模块根据UMAP算法,自适应的确定最佳的嵌入维度后,将其降维到低维数据空间,即X=最小最大归一化data,判断是否X的维数>5,若大于,则X_embed=UMAP降维X,进行降维处理。若不大于,或者在样本完成非线性降维后,当面临数据中夹带异常值或噪声影响下,在标签学习聚类算法模块中可选择KMOR算法训练学习类别标签,在聚类学习成功的情况下,按照相似度最大原则寻找原数据集中最接近簇心向量的典型样本(即寻找簇心对应源数据的典型样例),在聚类学习失败的情况下,抛出异常:KMOR聚类失败。然后在典型样例寻找成功的情况下,输出类别分层信息,以及本次标签学习的评价信息(例如,误差均方和、轮廓系数等),即计算聚类评估轮廓系数,计算成功则汇总结果,汇总成功则输出:标签/样例等结果out_put;计算失败则抛出异常:轮廓系数计算失败。汇总结果失败则抛出异常:学习结果汇总失败。
需要说明的是,预处理模块的处理完全自动化实现,无需人工介入,大大简化了传统特征工程的繁琐,降低了人力成本和时间成本,提高了标签生成效率。
在一种可选的实施例中,在通过自适应映射的方式对目标数据进行特征转换处理,得到数据特征集合的过程中,首先获取预设的特征优先级,然后根据特征优先级,自适应地对目标数据进行数值映射,得到目标数据的特征得分数值,并根据特征得分数值,生成数据特征集合。其中,特征优先级用于表征对目标数据进行数值映射的先后顺序,特征得分数值表征目标数据的评价分数。
具体地,数据源含有多值属性或文本信息属性,通过预处理模块采用自适应映射的方式进行特征转换处理,将目标数据转换为算法可直接训练学习的数值特征(即数值向量),得到数据特征集合。
可选地,在非数值特征映射时,结合业务需求对多值特征基于多维度统计信息值进行粗粒度替代(例如,均值、频数、最大最小等),对文本属性特征以业务需求优先级排序打分,自动化地完成特征预处理过程。以财务人员数据为例,展示原始数据集部分属性列名称如下表1所示:
表1属性列名称
Figure BDA0004151504530000081
Figure BDA0004151504530000091
可选地,为了提高特征工程的效率,尤其是对非数值的文本属性列转换、多值类属性特征等处理,通过预处理模块采用自适应映射的方式进行特征转换处理。具体地,对于单个取值为文本的属性数据,预处理模块获取预设的特征优先级(即用户指定的特征取值的优先级),然后根据用户指定的特征取值的优先级,自动化地对文本取值由高到低赋予不同的数值得分映射,即根据特征优先级,自适应地对目标数据进行数值映射,得到目标数据的特征得分数值,并根据特征得分数值,生成数据特征集合。例如,对于全日制学历属性数据,优先级为博士>硕士>本科>专科,对于技术职称属性数据,优先级为高级会计师>会计师>助理会计师。
可选地,对于一些没有优先级比较或者无法比较的特征,预处理模块会根据文本取值的种类,将其平均映射到[0,1]中,例如,岗位类型有四类,分别为A、B、C、D,则A映射为1/4,B映射为2/4,C映射为3/4,D映射为1。
可选地,对于多值类属性特征,通过预处理模块实施广播机制,引入额外的统计维度将其扩展成多个子属性特征,再传给后续的聚类算法。例如,将样本i的执业资格获得时间原始特征[2020.12.03,2020.08.15,2020.05.01],转为数值型=[24,18,15](距当前时间2022.12的月份数),再计算样本i在该特征上的统计信息(例如,均值、最大值、最小值、多值个数等),将其广播成多特征,例如,广播后引入的5个子特征分别是执业资格证书_mean=19,执业资格证书_max=24,执业资格证书_min=15,执业资格证书_num=3。
图4是根据本发明实施例的一种可选的数据预处理的流程图,如图4所示,首先判断该属性中的不同取值是否事先给权值priority,即是否存在预设的优先级,若存在,则将各属性中的文本值转为priority的数值。若不存在,则对不同类型的属性列进行处理,具体地,对于文本型特征做数值转换,若不同文本取值共x个,则自然映射到0.1到0.1x;对于多值非结构化特征做数值转换,若为多值的非数值型特征,则将多值非数值的(例如,文本)先转为数值,若不是多值的非数值型特征,或者将多值非数值的特征转换为数值后,进行广播,例如,将v=[1,4,5,3]扩展为三个衍生特征:值为max(v)、min(v)、length(v),即5,1,4;对于时间型特征做数值转换,转成该时间与当前时间的间隔年份数或月份数。
需要说明的是,预处理模块可处理的数据类型包含数值型、文本型(字符串)、时间型,以及上述的多值属性等,转换后的特征均为算法可直接训练学习的数值特征,并且,转换数值型后,可以选择常见的归一化算法消除量纲等影响,在此不做赘述。
在一种可选的实施例中,在通过目标聚类算法对降维后的数据特征集合中的数据特征进行聚类处理,得到M个数据类别的过程中,首先获取数据集的数据处理需求,并根据数据处理需求,从预设的多个聚类算法中确定目标聚类算法,然后通过目标聚类算法对降维后的数据特征集合中的M个数据特征进行聚类计算,得到M个数据簇,然后确定M个数据簇中的每个数据簇对应的目标样本数据,并根据每个目标样本数据,生成M个数据类别,其中,目标样本数据用于表征数据簇的特征。
可选地,基于现有聚类模型进行标签学习,只能满足特定场景的标签学习,例如,基于硬聚类标签划分,样本排他性的只有一种标签类别,这在某些模糊标签学习场景中可能是不适用的,例如,有些员工既是会计师类别,又是经济师类别,属于复合型人才,其标签学习应当选取其他模糊划分的聚类模型更合适。因此,在本实施例中,标签学习算法模块集成了多种聚类算法,可以灵活地应用于各种标签学习场景中。
可选地,标签学习算法模块集成了多种聚类算法,包括硬聚类算法中的K-Means聚类算法、模糊聚类算法中的FCM(Fuzzy C-Means)聚类算法、概率聚类算法中的高斯混合模型GMM、层次聚类算法(Hierarchical Clustering,HC)、密度聚类算法(Density-BasedSpatial Clustering of Applications with Noise,DBSCAN)、谱聚类算法(SpectralClustering,SC)以及基于异常值稀疏的鲁棒聚类算法(K-Means with Outlier Removal,KMOR)。其中,从参数模型上划分,层次聚类HC和密度聚类DBSCAN属于非参方法,其他均为参数类模型。从软硬标签划分样本的视角看,K-Means、KMOR、HC、DBSCAN以及谱聚类SC均属于硬聚类范畴,即样本只能完全地隶属于一个类别,而模糊聚类FCM和GMM属于软聚类范畴,它们允许样本以不同的程度隶属于多个类别,后者在一些模糊场景中,例如,复合型人才、跨行业企业实体等的标签类别学习时更为恰当。从流形结构学习类别标签看,密度聚类DBSCAN可以学习任意形状或结构的簇,因此在面对复杂流形结构混合的数据集时,模块嵌入的密度聚类方法也能允许用户做更多的标签学习探索。并且,标签学习聚类算法模块具有相当的扩展性,它可以持续性地添加更多的机器学习中的聚类模型或其他无监督算法,从而在各个场景下,从多个角度可以最大程度地满足用户的标签学习功能与探索。
具体地,首先获取数据集的数据处理需求,并根据数据处理需求,从预设的多个聚类算法中确定目标聚类算法,例如,目标聚类算法为KMOR算法,它不仅可以达到标签学习的目的,同时能发现样本中异常或极其特殊的样本,对探测某些异常状态或类别的样本有一定的参考,即通过KMOR算法应对样本夹带异常值或噪声的影响,该算法假定异常值的个数是少量的、稀疏的特点,模型如下:
Figure BDA0004151504530000111
其中,n为样本数量,k为类别数,xi为第i个样本,zl为第l个类,同时满足异常值个数的约束条件如下:
Figure BDA0004151504530000112
其中,第k+1个类表示为异常类,样本的异常值的个数假定小于n0,其中,D(U,Z)的定义如下:
Figure BDA0004151504530000113
具体地,KMOR模型的超参数有两个:异常值的最大个数n0,超参数γ。当已知样本中的异常值个数s时,可设置γ=1,n0=s。一般取默认值为γ=0.3,n0=[0.5n](n为样本数,[]为向下取整函数)。
进一步地,通过目标聚类算法对降维后的数据特征集合中的M个数据特征进行聚类计算,得到M个数据簇。可选地,在随机初始簇心后,该模型的优化采用块坐标下降法BCD求解(即固定簇心zl,更新类别标签uil;固定签uil,更新簇心zl),直到目标函数P(U,Z)前后误差满足给定的界限时停机。
具体地,当U已知为U*,Ui,k+1已知,更新Z的格式为:
Figure BDA0004151504530000114
具体地,当Z已知为Z*固定时,更新U,例如,更新Uil,首先计算样本xi到所有的簇心zl*的距离dil,然后选择到某簇心最小的距离dil’,该uil’=1,其他的uil都等于0,如果此最小的距离dil’比D(U,Z)大,则该样本不属于任何簇,属于异常值,即所有的uil都等于0。
进一步地,确定M个数据簇中的每个数据簇对应的目标样本数据,并根据每个目标样本数据,生成M个数据类别。具体地,当模型收敛停机,即簇心和成员隶属确定后,希望学习到的簇心向量能找到原始数据集中最典型的样本,以方便用户感知该学习对应的原样本。为此,模块增加了典型样本的计算,通过计算所有样本的嵌入向量到簇心的距离,找出距离最近的数个典型样本,输出原始样本的索引,以及此次聚类学习的类别评价,例如,误差均方和,轮廓系数等。
在一种可选的实施例中,在根据M个数据类别,确定目标对象的M个标签的过程中,根据数据处理需求,确定当前业务场景对应的M个目标标签,然后根据M个目标标签与每个数据类别进行标签匹配,得到每个数据类别对应的标签,然后依据每个数据类别对应的标签,确定目标对象的M个标签。
在一种可选的实施例中,在根据M个数据类别,确定目标对象的M个标签之后,通过目标组件对M个标签进行渲染处理,得到目标画像;在向第一对象展示目标画像之后,获取第一对象基于目标画像的评价分数,其中,评价分数用于指导目标聚类算法调优。
具体地,根据数据处理需求,确定当前业务场景对应的M个目标标签,即根据业务场景的实际意义对学习到的类别赋以实际的标签层级意义,也就是根据M个目标标签与每个数据类别进行标签匹配,得到每个数据类别对应的标签,然后通过画像渲染模块(例如,渲染组件即目标组件)以人物画像或组织画像的形式可视化展现。
图5是根据本发明实施例的一种可选的画像渲染的示意图,如图5所示,人才画像图展示了员工张三(虚拟姓名)的基础信息,根据系统聚类算法库的标签学习,得到张三的标签为管理水平一般、工作经验丰富、学识背景A+、业务能力高管高技。
可选地,如图5所示,为了后续系统持续性的优化再升级,提供了对无监督学习到的标签打分,构成系统使用的评价反馈机制,此部分可视为用户基于系统使用后的监督信息,作为后续系统进一步升级优化的额外数据信息,即在向第一对象(即用户,例如,管理人员)展示目标画像之后,获取第一对象基于目标画像的评价分数,以指导目标聚类算法调优。
可选地,在本实施例中,由于整体学习性能关于样本量是接近线性的,因此,本系统支持在线式标签学习,支持用户多次反复学习以得到稳定的标签。
在一种可选的实施例中,在根据M个数据类别,确定目标对象的M个标签之后,在接收到查询请求的情况下,获取查询请求的请求信息,其中,请求信息至少包括第一标签信息;根据请求信息确定目标查询方法,并基于目标查询方法,生成目标查询结果。
在一种可选的实施例中,目标查询方法为以下之一:第一查询方法、第二查询方法、第三查询方法,第一查询方法对应的查询粒度小于第二查询方法对应的查询粒度,第二查询方法对应的查询粒度小于第三查询方法对应的查询粒度,其中,在基于目标查询方法,生成目标查询结果的过程中,若目标查询方法为第一查询方法,则计算第一标签信息对应的第二对象与多个待查询对象的相似度,得到多个第一相似度,并确定相似度对应的数值大于第一阈值的第一相似度对应的待查询对象为目标查询对象,生成目标查询结果;若目标查询方法为第二查询方法,则根据请求信息中的筛选条件,从多个待查询对象中确定第一待查询对象集合,并计算第二对象与第一待查询对象集合中的每个待查询对象的相似度,得到多个第二相似度,确定相似度对应的数值大于第二阈值的第二相似度对应的待查询对象为目标查询对象,生成目标查询结果;若目标查询方法为第三查询方法,则根据请求信息中的操作行为信息,从多个待查询对象中确定第二待查询对象集合,并计算第二对象与第二待查询对象集合中的每个待查询对象的相似度,得到多个第三相似度,确定相似度对应的数值大于第三阈值的第三相似度对应的待查询对象为目标查询对象,生成目标查询结果。
可选地,根据学习到的类别标签,系统可以做相应的推荐检索应用。具体地,在接收到查询请求的情况下,获取查询请求的请求信息,根据请求信息确定目标查询方法,并基于目标查询方法,生成目标查询结果。
可选地,目标查询方法为以下之一:第一查询方法、第二查询方法、第三查询方法,具体地,第一查询方法输入的筛选条件较少,第一查询方法对应普通查询场景,第二查询方法输入的筛选条件多于第一查询方法,第二查询方法对应高级查询场景,第三查询方法输入的筛选条件多于第二查询方法,第三查询方法对应智能推荐场景,即第一查询方法对应的查询粒度小于第二查询方法对应的查询粒度,第二查询方法对应的查询粒度小于第三查询方法对应的查询粒度。
图6是根据本发明实施例的一种可选的第一查询方法的流程图,如图6所示,在接收到查询请求的情况下,获取查询请求的请求信息,即输入源数据和筛选条件,普通查询场景下首先进行源数据和筛选数据数值化预处理,若处理失败,则抛出异常:普通查询数据预处理失败;若处理成功,则pandas整理成数据框数据,并根据用户感兴趣的一个兴趣目标(即第一标签信息),计算匹配度和匹配对象id,若计算匹配度失败,则抛出异常:相似匹配度计算失败;若计算成功,则输出推荐列表结果,推荐与用户感兴趣的一个兴趣目标相似度较高的其他对象,若查询输出失败,则抛出异常:普通查询输出失败;若查询输出成功,则推荐对象的列表按照计算的匹配度从高到低排序,即计算第一标签信息对应的第二对象与多个待查询对象的相似度,得到多个第一相似度,并确定相似度对应的数值大于第一阈值的第一相似度对应的待查询对象为目标查询对象,生成目标查询结果。
图7是根据本发明实施例的一种可选的第二查询方法的流程图,如图7所示,输入源数据和筛选条件,高级查询场景根据用户预先给定的一些筛选条件,结合学习到的样本标签推荐其可能感兴趣的即相似度较高的对象,即选择满足条件对象,即根据请求信息中的筛选条件,从多个待查询对象中确定第一待查询对象集合,若选择条件数据失败,则抛出异常:选择条件数据失败;若成功,则解析参数,并进行源数据和筛选数据数值化预处理,若解析参数失败,则抛出异常:解析参数失败;若数据预处理失败,则抛出异常:高级查询数据预处理失败;若数据预处理成功,则pandas整理成数据框数据,计算匹配度和匹配对象id,即计算第二对象与第一待查询对象集合中的每个待查询对象的相似度,得到多个第二相似度,若计算匹配度失败,则抛出异常:高级相似匹配计算失败;若计算匹配度成功,则输出推荐列表结果,即确定相似度对应的数值大于第二阈值的第二相似度对应的待查询对象为目标查询对象,生成目标查询结果,若高级查询输出失败,则抛出异常:高级查询输出失败;若输出成功,则输出推荐相似度由高到低的对象,即推荐对象的列表按照计算的匹配度从高到低排序。
图8是根据本发明实施例的一种可选的第三查询方法的流程图,如图8所示,输入源数据和筛选条件,智能推荐场景是根据用户已经浏览的多个对象,综合评估用户的目标群体,即根据请求信息中的操作行为信息(例如,点击、收藏等行为),从多个待查询对象中确定第二待查询对象集合,即选择满足条件对象,若选择条件数据失败,则抛出异常:选择条件数据失败;若成功,则进行源数据和筛选数据数值化预处理,若数据预处理失败,则抛出异常:智能推荐预处理失败;若数据预处理成功,则pandas整理成数据框数据,计算匹配度和匹配对象id,计算其感兴趣的对象,即计算第二对象与第二待查询对象集合中的每个待查询对象的相似度,得到多个第三相似度,若计算匹配度失败,则抛出异常:相似匹配计算失败;若计算匹配度成功,则输出推荐列表结果,即确定相似度对应的数值大于第三阈值的第三相似度对应的待查询对象为目标查询对象,生成目标查询结果,若智能推荐输出失败,则抛出异常:智能推荐输出失败;若输出成功,则输出推荐相似度由高到低的对象,即推荐对象的列表按照计算的匹配度从高到低排序。
需要说明的是,在发明实施例中,提供了一种基于多种无监督学习算法进行标签学习的标签生成系统,主要由自动化特征预处理、无监督的降维UMAP算法和多种聚类算法组成,并结合业务知识将学习到的标签意义赋值,最终以人物画像或组织画像的形式可视化展现,并应用学习到的标签做智能推荐和检索。基于不使用任何手工标注信息的无监督学习算法,实现了多种类型的聚类算法,可以支持用户更灵活地调用和探索不同场景的样本类别标签学习,并结合业务知识构建样本的类别层级标签。由于不依赖外部的特定领域专家的标注样本信息,因此数据采集成本低,训练更为方便。
此外,针对无监督学习中前期繁琐的特征工程任务,基于自动化特征预处理及UMAP非线性降维技术,在保持原始特征全局结构和局部结构下,自动地降维学习稠密的低维特征,提高了标签生成效率。在学习到的低维特征下,对聚类模型学习标签而言,不仅去除了特征间的冗余信息,同时在不丢失过多信息的情况下也减少了其训练时间。另外,为了满足更多场景下的标签学习任务,集成了多种聚类算法,可灵活地应用于各种标签学习场景中,从而根据业务场景的实际意义对学习到的标签赋以层级意义,并以人物画像或组织画像的形式可视化。并且,设计了用户反馈环节,允许用户对学习到的类别标签评价,该信息反馈可持续地用于系统算法优化升级。
由此可见,通过本发明的技术方案,达到了减少报表分析处理的人力成本和时间成本的目的,从而实现了提高报表分析处理的处理效率的技术效果,进而解决了现有技术中通过人工标注数据,存在标签生成效率低的技术问题。
实施例2
根据本发明实施例,提供了一种标签生成装置的实施例,其中,图9是根据本发明实施例的一种可选的标签生成装置的示意图,如图9所示,该装置包括:第一获取模块901,用于获取待处理的数据集,其中,数据集中至少包括目标对象的目标数据,目标数据用于表征目标对象的属性信息;第一处理模块902,用于通过自适应映射的方式对目标数据进行特征转换处理,得到数据特征集合;第二处理模块903,用于通过目标降维算法对数据特征集合中的数据特征进行降维处理,得到降维后的数据特征集合;第三处理模块904,用于通过目标聚类算法对降维后的数据特征集合中的数据特征进行聚类处理,得到M个数据类别,其中,M为正整数;第一确定模块905,用于根据M个数据类别,确定目标对象的M个标签。
需要说明的是,上述第一获取模块901、第一处理模块902、第二处理模块903、第三处理模块904以及第一确定模块905对应于上述实施例中的步骤S101至步骤S105,五个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。
可选地,第一处理模块包括:第二获取模块,用于获取预设的特征优先级,其中,特征优先级用于表征对目标数据进行数值映射的先后顺序;第一映射模块,用于根据特征优先级,自适应地对目标数据进行数值映射,得到目标数据的特征得分数值,并根据特征得分数值,生成数据特征集合,其中,特征得分数值表征目标数据的评价分数。
可选地,第三处理模块包括:第三获取模块,用于获取数据集的数据处理需求,并根据数据处理需求,从预设的多个聚类算法中确定目标聚类算法;第一计算模块,用于通过目标聚类算法对降维后的数据特征集合中的M个数据特征进行聚类计算,得到M个数据簇;第一生成模块,用于确定M个数据簇中的每个数据簇对应的目标样本数据,并根据每个目标样本数据,生成M个数据类别,其中,目标样本数据用于表征数据簇的特征。
可选地,第一确定模块包括:第二确定模块,用于根据数据处理需求,确定当前业务场景对应的M个目标标签;第三确定模块,用于根据M个目标标签与每个数据类别进行标签匹配,得到每个数据类别对应的标签;第四确定模块,用于依据每个数据类别对应的标签,确定目标对象的M个标签。
可选地,标签生成装置还包括:第四处理模块,用于通过目标组件对M个标签进行渲染处理,得到目标画像;第四获取模块,用于在向第一对象展示目标画像之后,获取第一对象基于目标画像的评价分数,其中,评价分数用于指导目标聚类算法调优。
可选地,标签生成装置还包括:第五获取模块,用于在接收到查询请求的情况下,获取查询请求的请求信息,其中,请求信息至少包括第一标签信息;第二生成模块,用于根据请求信息确定目标查询方法,并基于目标查询方法,生成目标查询结果。
可选地,目标查询方法为以下之一:第一查询方法、第二查询方法、第三查询方法,第一查询方法对应的查询粒度小于第二查询方法对应的查询粒度,第二查询方法对应的查询粒度小于第三查询方法对应的查询粒度,第二生成模块包括:第五确定模块,用于若目标查询方法为第一查询方法,则计算第一标签信息对应的第二对象与多个待查询对象的相似度,得到多个第一相似度,并确定相似度对应的数值大于第一阈值的第一相似度对应的待查询对象为目标查询对象,生成目标查询结果;第六确定模块,用于若目标查询方法为第二查询方法,则根据请求信息中的筛选条件,从多个待查询对象中确定第一待查询对象集合,并计算第二对象与第一待查询对象集合中的每个待查询对象的相似度,得到多个第二相似度,确定相似度对应的数值大于第二阈值的第二相似度对应的待查询对象为目标查询对象,生成目标查询结果;第七确定模块,用于若目标查询方法为第三查询方法,则根据请求信息中的操作行为信息,从多个待查询对象中确定第二待查询对象集合,并计算第二对象与第二待查询对象集合中的每个待查询对象的相似度,得到多个第三相似度,确定相似度对应的数值大于第三阈值的第三相似度对应的待查询对象为目标查询对象,生成目标查询结果。
实施例3
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述的标签生成方法。
实施例4
根据本发明实施例的另一方面,还提供了一种电子设备,其中,图10是根据本发明实施例的一种可选的电子设备的示意图,如图10所示,电子设备包括一个或多个处理器;存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现用于运行程序,其中,程序被设置为运行时执行上述的标签生成方法。处理器执行程序时实现以下步骤:获取待处理的数据集,其中,数据集中至少包括目标对象的目标数据,目标数据用于表征目标对象的属性信息;通过自适应映射的方式对目标数据进行特征转换处理,得到数据特征集合;通过目标降维算法对数据特征集合中的数据特征进行降维处理,得到降维后的数据特征集合;通过目标聚类算法对降维后的数据特征集合中的数据特征进行聚类处理,得到M个数据类别,其中,M为正整数;根据M个数据类别,确定目标对象的M个标签。
可选地,处理器执行程序时还实现以下步骤:获取预设的特征优先级,其中,特征优先级用于表征对目标数据进行数值映射的先后顺序;根据特征优先级,自适应地对目标数据进行数值映射,得到目标数据的特征得分数值,并根据特征得分数值,生成数据特征集合,其中,特征得分数值表征目标数据的评价分数。
可选地,处理器执行程序时还实现以下步骤:获取数据集的数据处理需求,并根据数据处理需求,从预设的多个聚类算法中确定目标聚类算法;通过目标聚类算法对降维后的数据特征集合中的M个数据特征进行聚类计算,得到M个数据簇;确定M个数据簇中的每个数据簇对应的目标样本数据,并根据每个目标样本数据,生成M个数据类别,其中,目标样本数据用于表征数据簇的特征。
可选地,处理器执行程序时还实现以下步骤:根据数据处理需求,确定当前业务场景对应的M个目标标签;根据M个目标标签与每个数据类别进行标签匹配,得到每个数据类别对应的标签;依据每个数据类别对应的标签,确定目标对象的M个标签。
可选地,处理器执行程序时还实现以下步骤:在根据M个数据类别,确定目标对象的M个标签之后,通过目标组件对M个标签进行渲染处理,得到目标画像;在向第一对象展示目标画像之后,获取第一对象基于目标画像的评价分数,其中,评价分数用于指导目标聚类算法调优。
可选地,处理器执行程序时还实现以下步骤:在根据M个数据类别,确定目标对象的M个标签之后,在接收到查询请求的情况下,获取查询请求的请求信息,其中,请求信息至少包括第一标签信息;根据请求信息确定目标查询方法,并基于目标查询方法,生成目标查询结果。
可选地,目标查询方法为以下之一:第一查询方法、第二查询方法、第三查询方法,第一查询方法对应的查询粒度小于第二查询方法对应的查询粒度,第二查询方法对应的查询粒度小于第三查询方法对应的查询粒度,处理器执行程序时还实现以下步骤:若目标查询方法为第一查询方法,则计算第一标签信息对应的第二对象与多个待查询对象的相似度,得到多个第一相似度,并确定相似度对应的数值大于第一阈值的第一相似度对应的待查询对象为目标查询对象,生成目标查询结果;若目标查询方法为第二查询方法,则根据请求信息中的筛选条件,从多个待查询对象中确定第一待查询对象集合,并计算第二对象与第一待查询对象集合中的每个待查询对象的相似度,得到多个第二相似度,确定相似度对应的数值大于第二阈值的第二相似度对应的待查询对象为目标查询对象,生成目标查询结果;若目标查询方法为第三查询方法,则根据请求信息中的操作行为信息,从多个待查询对象中确定第二待查询对象集合,并计算第二对象与第二待查询对象集合中的每个待查询对象的相似度,得到多个第三相似度,确定相似度对应的数值大于第三阈值的第三相似度对应的待查询对象为目标查询对象,生成目标查询结果。
本文中的设备可以是服务器、PC、PAD、手机等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种标签生成方法,其特征在于,包括:
获取待处理的数据集,其中,所述数据集中至少包括目标对象的目标数据,所述目标数据用于表征所述目标对象的属性信息;
通过自适应映射的方式对所述目标数据进行特征转换处理,得到数据特征集合;
通过目标降维算法对所述数据特征集合中的数据特征进行降维处理,得到降维后的数据特征集合;
通过目标聚类算法对所述降维后的数据特征集合中的数据特征进行聚类处理,得到M个数据类别,其中,M为正整数;
根据所述M个数据类别,确定所述目标对象的M个标签。
2.根据权利要求1所述的方法,其特征在于,通过自适应映射的方式对所述目标数据进行特征转换处理,得到数据特征集合,包括:
获取预设的特征优先级,其中,所述特征优先级用于表征对所述目标数据进行数值映射的先后顺序;
根据所述特征优先级,自适应地对所述目标数据进行数值映射,得到所述目标数据的特征得分数值,并根据所述特征得分数值,生成所述数据特征集合,其中,所述特征得分数值表征所述目标数据的评价分数。
3.根据权利要求1所述的方法,其特征在于,通过目标聚类算法对所述降维后的数据特征集合中的数据特征进行聚类处理,得到M个数据类别,包括:
获取所述数据集的数据处理需求,并根据所述数据处理需求,从预设的多个聚类算法中确定所述目标聚类算法;
通过所述目标聚类算法对所述降维后的数据特征集合中的M个数据特征进行聚类计算,得到M个数据簇;
确定所述M个数据簇中的每个数据簇对应的目标样本数据,并根据每个目标样本数据,生成所述M个数据类别,其中,所述目标样本数据用于表征所述数据簇的特征。
4.根据权利要求3所述的方法,其特征在于,根据所述M个数据类别,确定所述目标对象的M个标签,包括:
根据所述数据处理需求,确定当前业务场景对应的M个目标标签;
根据所述M个目标标签与每个数据类别进行标签匹配,得到每个数据类别对应的标签;
依据所述每个数据类别对应的标签,确定所述目标对象的M个标签。
5.根据权利要求1所述的方法,其特征在于,在根据所述M个数据类别,确定所述目标对象的M个标签之后,所述方法还包括:
通过目标组件对所述M个标签进行渲染处理,得到目标画像;
在向第一对象展示所述目标画像之后,获取所述第一对象基于所述目标画像的评价分数,其中,所述评价分数用于指导所述目标聚类算法调优。
6.根据权利要求1所述的方法,其特征在于,在根据所述M个数据类别,确定所述目标对象的M个标签之后,所述方法还包括:
在接收到查询请求的情况下,获取所述查询请求的请求信息,其中,所述请求信息至少包括第一标签信息;
根据所述请求信息确定目标查询方法,并基于所述目标查询方法,生成目标查询结果。
7.根据权利要求6所述的方法,其特征在于,所述目标查询方法为以下之一:第一查询方法、第二查询方法、第三查询方法,所述第一查询方法对应的查询粒度小于所述第二查询方法对应的查询粒度,所述第二查询方法对应的查询粒度小于所述第三查询方法对应的查询粒度,其中,基于所述目标查询方法,生成目标查询结果,包括:
若所述目标查询方法为所述第一查询方法,则计算所述第一标签信息对应的第二对象与多个待查询对象的相似度,得到多个第一相似度,并确定相似度对应的数值大于第一阈值的第一相似度对应的待查询对象为目标查询对象,生成所述目标查询结果;
若所述目标查询方法为所述第二查询方法,则根据所述请求信息中的筛选条件,从所述多个待查询对象中确定第一待查询对象集合,并计算所述第二对象与所述第一待查询对象集合中的每个待查询对象的相似度,得到多个第二相似度,确定相似度对应的数值大于第二阈值的第二相似度对应的待查询对象为所述目标查询对象,生成所述目标查询结果;
若所述目标查询方法为所述第三查询方法,则根据所述请求信息中的操作行为信息,从所述多个待查询对象中确定第二待查询对象集合,并计算所述第二对象与所述第二待查询对象集合中的每个待查询对象的相似度,得到多个第三相似度,确定相似度对应的数值大于第三阈值的第三相似度对应的待查询对象为所述目标查询对象,生成所述目标查询结果。
8.一种标签生成装置,其特征在于,包括:
第一获取模块,用于获取待处理的数据集,其中,所述数据集中至少包括目标对象的目标数据,所述目标数据用于表征所述目标对象的属性信息;
第一处理模块,用于通过自适应映射的方式对所述目标数据进行特征转换处理,得到数据特征集合;
第二处理模块,用于通过目标降维算法对所述数据特征集合中的数据特征进行降维处理,得到降维后的数据特征集合;
第三处理模块,用于通过目标聚类算法对所述降维后的数据特征集合中的数据特征进行聚类处理,得到M个数据类别,其中,M为正整数;
第一确定模块,用于根据所述M个数据类别,确定所述目标对象的M个标签。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的标签生成方法。
10.一种电子设备,其特征在于,所述电子设备包括一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现用于运行程序,其中,所述程序被设置为运行时执行所述权利要求1至7任一项中所述的标签生成方法。
CN202310317446.6A 2023-03-27 2023-03-27 标签生成方法、装置、存储介质及电子设备 Pending CN116340845A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310317446.6A CN116340845A (zh) 2023-03-27 2023-03-27 标签生成方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310317446.6A CN116340845A (zh) 2023-03-27 2023-03-27 标签生成方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN116340845A true CN116340845A (zh) 2023-06-27

Family

ID=86887442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310317446.6A Pending CN116340845A (zh) 2023-03-27 2023-03-27 标签生成方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN116340845A (zh)

Similar Documents

Publication Publication Date Title
US11500818B2 (en) Method and system for large scale data curation
US9646262B2 (en) Data intelligence using machine learning
EP4195112A1 (en) Systems and methods for enriching modeling tools and infrastructure with semantics
CN103513983B (zh) 用于预测性警报阈值确定工具的方法和系统
US10423889B2 (en) Native machine learning integration for a data management product
US7107254B1 (en) Probablistic models and methods for combining multiple content classifiers
US8280915B2 (en) Binning predictors using per-predictor trees and MDL pruning
CN111627552B (zh) 一种医疗流式数据血缘关系分析、存储方法及装置
Akerkar Advanced data analytics for business
US20210081876A1 (en) Systems and methods for process design including inheritance
CN114119058A (zh) 用户画像模型的构建方法、设备及存储介质
CN111192176A (zh) 一种支持教育信息化评估的在线数据采集方法及装置
CN112749330B (zh) 信息推送方法、装置、计算机设备和存储介质
Rupnik et al. Integrating data mining and decision support through data mining based decision support system
CN115168736A (zh) 一种评标专家推荐方法、装置、设备及介质
CN115062676B (zh) 数据处理方法、装置及计算机可读存储介质
CN116340845A (zh) 标签生成方法、装置、存储介质及电子设备
Venkataramanan et al. Knowledge Graph Empowered Machine Learning Pipelines for Improved Efficiency, Reusability, and Explainability
CN116894152B (zh) 一种多源数据调研与实时分析方法
AU2020104034A4 (en) IML-Cloud Data Performance: Cloud Data Performance Improved using Machine Learning.
CN117453805B (zh) 一种不确定性数据的可视化分析方法
AU2020103522A4 (en) DAMA- Dataset Discovery: Dataset Discovery in Data Analytics and Machine Learning Algorithm
CN109299381B (zh) 一种基于语义概念的软件缺陷检索和分析系统及方法
US20230214679A1 (en) Extracting and classifying entities from digital content items
Lal et al. Predicting Movie Ratings at IMDb

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination