CN113128536A - 无监督学习方法、系统、计算机设备及可读存储介质 - Google Patents

无监督学习方法、系统、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN113128536A
CN113128536A CN201911419421.7A CN201911419421A CN113128536A CN 113128536 A CN113128536 A CN 113128536A CN 201911419421 A CN201911419421 A CN 201911419421A CN 113128536 A CN113128536 A CN 113128536A
Authority
CN
China
Prior art keywords
sample data
label
training
classification
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911419421.7A
Other languages
English (en)
Inventor
汤良
张卓
黄传明
吕考考
商清华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qianxin Technology Group Co Ltd
Secworld Information Technology Beijing Co Ltd
Original Assignee
Qianxin Technology Group Co Ltd
Secworld Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qianxin Technology Group Co Ltd, Secworld Information Technology Beijing Co Ltd filed Critical Qianxin Technology Group Co Ltd
Priority to CN201911419421.7A priority Critical patent/CN113128536A/zh
Publication of CN113128536A publication Critical patent/CN113128536A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

本发明公开了一种无监督学习方法、系统、计算机设备及可读存储介质,包括:将样本数据集进行聚类,以得到聚类结果;基于所述聚类结果,将所述样本数据集中的目标样本数据打上对应的第一分类标签,以得到多个第一标签数据;将所述多个第一标签数据作为训练集输入至基准训练模型中以对所述基准训练模型进行训练,得到分类模型;从所述分类模型中获取所述多个第一标签数据的置信度;当所述训练集中的至少一个目标第一标签数据的置信度高于预设置信度时,将所述至少一个目标第一标签数据打上对应的第二分类标签,以得到至少一个第二标签数据。本发明能够极大的提高图像数据分类的准确率。

Description

无监督学习方法、系统、计算机设备及可读存储介质
技术领域
本发明涉及图像技术领域,具体涉及一种无监督学习方法、系统、计算机设备及可读存储介质。
背景技术
随着人工智能技术的发展,能够实现对图像的识别和分类。在对无标签图像数据的分类的过程中,一般通过将采样数据输入到聚类算法或者其他无监督学习算法中,然后输出标注后的样本数据,以实现对图像数据的分类。然而,利用无监督学习算法对图像数据分类的方法,图像数据分类结果准确率低。
故,本发明旨在解决如何提高图像数据分类的准确率的问题。
发明内容
本发明的目的在于提供一种无监督学习方法、系统、计算机设备及可读存储介质,用于解决现有技术中图像数据分类准确率低的缺陷。
根据本发明的一个方面,提供了一种无监督学习方法,该方法包括如下步骤:
将样本数据集进行聚类,以得到聚类结果,所述样本数据集包括多个未标注的样本数据;
基于所述聚类结果,将所述样本数据集中的目标样本数据打上对应的第一分类标签,以得到多个第一标签数据;
将所述多个第一标签数据作为训练集输入至基准训练模型中以对所述基准训练模型进行训练,得到分类模型;
从所述分类模型中获取所述多个第一标签数据的置信度;
当所述训练集中的至少一个目标第一标签数据的置信度高于预设置信度时,将所述至少一个目标第一标签数据打上对应的第二分类标签,以得到至少一个第二标签数据。
可选的,所述将样本数据集进行聚类,以得到聚类结果,包括:
获取所述样本数据集,并对所述样本数据集进行处理,以获取所述样本数据集中每个样本数据的特征向量;
将所述特征向量按照预设聚类算法进行聚类,以获取所述聚类结果,其中所述预设聚类算法至少包括Kmeans算法。
可选的,所述获取样本数据集,并对所述样本数据集进行处理,以获取所述样本数据集中每个样本数据的特征向量,包括:
将所述样本数据集通过自编码器结构进行特征学习以得到所述特征向量。
可选的,所述基于所述聚类结果,将所述样本数据集中的目标样本数据打上对应的第一分类标签,以得到多个第一标签数据,包括:
根据所述聚类结果,将聚类中心预设距离范围内的预设比例的所述目标样本数据归为一类,并获取归类结果;
根据所述归类结果,将所述目标样本数据打上对应的第一分类标签,以得到所述多个第一标签数据。
可选的,所述无监督学习方法,还包括:
记录所述训练集的训练次数;
判断所述训练次数是否等于所述预设次数;
当所述训练次数等于所述预设次数时,则结束训练,所述样本数据集无监督学习完成。
可选的,所述判断所述训练次数是否等于所述预设次数之后,还包括:
当所述训练次数不等于所述预设次数时,根据所述至少一个第二标签数据更新所述训练集,以对所述分类模型重新训练,继续所述样本数据集无监督学习。
为了实现上述目的,本发明还提供一种无监督学习系统,该系统具体包括以下组成部分:
聚类模块,用于将样本数据集进行聚类,以得到聚类结果,所述样本数据集包括多个未标注的样本数据;
第一标签模块,用于基于所述聚类结果,将所述样本数据集中的目标样本数据打上对应的第一分类标签,以得到多个第一标签数据;
训练模块,用于将所述多个第一标签数据作为训练集输入至基准训练模型中以对所述基准训练模型进行训练,得到分类模型;
获取模块,用于从所述分类模型中获取所述多个第一标签数据的置信度;
第二标签模块,用于当所述训练集中的至少一个目标第一标签数据的置信度高于预设置信度时,将所述至少一个目标第一标签数据打上对应的第二分类标签,以得到至少一个第二标签数据。
可选的,所述第一标签模块还用于:
根据所述聚类结果,将聚类中心预设距离范围内的预设比例的所述目标样本数据归为一类,并获取归类结果;
根据所述归类结果,将所述目标样本数据打上对应的第一分类标签,以得到所述多个第一标签数据。
为了实现上述目的,本发明还提供一种计算机设备,该计算机设备具体包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述介绍的无监督学习方法的步骤。
为了实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述介绍的无监督学习方法的步骤。
本发明提供的无监督学习方法、系统、计算机设备及可读存储介质,通过将样本数据进行聚类,并根据聚类结果得到对样本数据打上对应的第一分类标签,然后将打上对应分类标签的样本数据进行模型的训练,将置信度高的数据打上对应的第二分类标签,本实施例通过将无监督算法和有监督算法相结合进行数据的学习,极大的提高了图像数据分类的准确率。在一个具体实施例中,可以利用本发明在无标签情况下进行图像分类。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本公开实施例提供的无监督学习方法的一种可选的应用环境图;
图2为本公开实施例提供的样本数据集聚类的示意图;
图3为本公开实施例提供的无监督学习方法的一种可选的流程示意图;
图4为所述图3中步骤S100的一种可选的具体流程示意图;
图5为所述图3中步骤S102的一种可选的具体流程示意图;
图6为本公开实施例提供的无监督学习方法的另一种可选的流程示意图;
图7为本公开实施例提供的无监督学习系统的一种可选的程序模块示意图;
图8为本公开实施例提供的计算机设备的一种可选的硬件架构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的无监督学习方法一种可选的应用环境图。计算机设备B将样本数据集进行学习,并训练出分类模型,以将所述样本数据集分类并打上对应的标签并完成所述样本数据集的分类,然后通过显示终端A将分类结果输出。所述样本数据为图像数据。本实施例通过将无监督算法和有监督算法相结合进行数据的学习,极大的提高了图像数据分类的准确率。在一个具体实施例中,可以利用本发明在无标签情况下进行图像分类。另外,使得样本数据训练时占用的计算机资源得到了有效的利用。
图2为本发明实施例提供的样本数据集聚类的示意图。样本数据集包括多个未标注的样本数据1、样本数据2…样本数据n。经过聚类形成以聚类中心1、聚类中心2…为聚类中心的聚类结果。在图2中仅以聚类中心1和聚类中心2的聚类结果为例进行说明。然后,将所述聚类中心1中的目标样本数据打上标签a,将所述聚类中心2中的目标样本数据打上标签b。
下面结合附图对本发明提供的无监督学习方法进行说明。
图3为本发明无监督学习方法的一种可选的流程示意图,该方法应用于计算机设备中,如图3所示,该方法具体包括以下步骤:
步骤S100:将样本数据集进行聚类,以得到聚类结果,所述样本数据集包括多个未标注的样本数据。
具体地,将样本数据集的多个未标注的样本数据通过聚类算法进行聚类,并得到聚类结果。例如:请参阅图2,样本数据集I包括未标注的样本数据1、样本数据2、样本数据3…样本数据n,通过聚类算法将样本数据1、样本数据5、样本数据6和样本数据7聚集为一类,该聚类的中心为聚类中心1;将样本数据2和样本数据4聚集为一类,该聚类的中心为聚类中心2…依此得到聚类结果。
步骤S102:基于所述聚类结果,将所述样本数据集中的目标样本数据打上对应的第一分类标签,以得到多个第一标签数据。
请继续参阅图2,将聚集为一类的样本数据1、样本数据5、样本数据6和样本数据7按照预设的规则,将样本数据1、样本数据5和样本数据6打上标签a,样本数据1、样本数据5和样本数据6则为第一标签a数据;聚集为一类的样本数据2和样本数据4符合所述预设的规则,则将聚集为一类的样本数据2和样本数据4均打上标签b,样本数据2和样本数据4则为第一标签b数据。
步骤S104:将所述多个第一标签数据作为训练集输入至基准训练模型中以对所述基准训练模型进行训练,得到分类模型。
请继续参阅图2,将所述标签a数据和所述标签b数据作为训练接输入至基准训练模型中,以对所述基准训练模型进行训练,确定所述基准训练模型的参数值,得到分类模型。
步骤S106:从所述分类模型中获取所述多个第一标签数据的置信度。
示例性地,参阅图2,所述分类模型计算样本数据1、样本数据5和样本数据6划分为标签a的置信度,样本数据2和样本数据4划分为标签b的置信度,例如:计算出样本数据1、样本数据5和样本数据6的置信度分别为0.9、0.95和0.7,计算出样本数据2和样本数据4的置信度分别为0.91和0.96。然后,所述计算机设备从所述分类模型中分别获取样本数据1、样本数据5和样本数据6、样本数据2和样本数据4的置信度。
需要说明的是,置信度表示该样本数据分类结果的可靠程度。置信度越高,表示该样本数据分类结果的可靠程度越高,是可信的。置信度越低,表示该样本数据分类结果的可靠程度越低,是不可信的。在本发明实施例中,设定置信度阈值为0.9,当分类模型输出样本数据的置信度等于或高于置信度阈值0.9时,则样本数据分类结果就是可信的。
步骤S108:当所述训练集中的至少一个目标第一标签数据的置信度不低于预设置信度时,将所述至少一个目标第一标签数据打上对应的第二分类标签,并得到至少一个第二标签数据。
示例性地,结合图2,由于样本数据1、样本数据5、样本数据2和样本数据4的置信度均不低于置信度阈值0.9,样本数据6的置信度低于置信度阈值,则样本数据1、样本数据5、样本数据2和样本数据4为目标标签数据,并将样本数据1和样本数据5打上标签A,将样本数据2和样本数据4打上标签B,重新打上标签A的样本数据1和样本数据5成为第二标签A数据,重新打上标签B的样本数据2和样本数据4称为第二标签B数据。
在示例性的实施例中,如图4所示,所述步骤S100可以包括步骤S200~S202。
步骤S200:获取所述样本数据集,并对所述样本数据集进行处理,以获取所述样本数据集中每个样本数据的特征向量。
具体地,将所述样本数据集通过自编码器结构进行特征学习以得到每个样本数据的特征向量。
步骤S202:将所述特征向量按照预设聚类算法进行聚类,以获取所述聚类结果,其中所述预设聚类算法至少包括Kmeans算法。
具体地,根据Kmeans聚类算法将每个样本数据的特征向量进行聚类,并获取对应的聚类结果。当然在其他实施例中,还可以根据其他的聚类算法将所述每个样本数据的特征向量进行聚类,在此不作限定,本发明实施例中仅以Kmeans聚类算法为例进行说明。
在示例性的实施例中,如图5所示,所述步骤S102可以包括步骤S300~S302。
步骤S300:根据所述聚类结果,将聚类中心预设距离范围内的预设比例的所述目标样本数据归为一类,并获取归类结果。
示例性地,获取以所述聚类中心1为中心的聚类,并与所述聚类中心1距离为d范围内的所有样本数据,将所述d范围内的所有样本数据中的50%归为一类。当然,在其他实施例中,可以从所有样本数据中选择任意比例的样本数据归为一类,也可以选择所有样本数据的归为一类,也即预设比例为100%。参阅图2,将与聚类中心1距离为d的所有样本数据(包括样本数据1、样本数据5和样本数据7)归为一类,将与聚类中心2距离为d的所有样本数据(包括样本数据2和样本数据4)归为一类。
步骤S302:根据所述归类结果,将所述目标样本数据打上对应的第一分类标签,以得到所述多个第一标签数据。
示例性地,结合图2,将样本数据1、样本数据5和样本数据7打上标签a,得到第一标签a数据;将样本数据2和样本数据4打上标签b,得到第一标签b数据。
在示例性的实施例中,如图6所示,所述无监督学习方法还可以包括步骤S400~S406。
步骤S400:记录所述训练集的训练次数。
步骤S402:判断所述训练次数是否等于所述预设次数,当所述训练次数等于所述预设次数时,则执行步骤S404,否则执行步骤S406。
步骤S404:结束训练,所述样本数据集无监督学习完成。
步骤S406:根据所述至少一个第二标签数据更新所述训练集,以对所述分类模型重新训练,继续所述样本数据集无监督学习。
示例性地,当将训练集输入至所述分类模型中以对所述训练集进行训练时,统计所述训练集的训练次数,当所述训练集的训练次数达到预设次数m次时,则将所述分类模型训练完成,所述样本数据集无监督学习完成,所述样本数据集中的数据全部打上对上的第二标签;当所述训练集的训练次数未达到预设次数时,则继续更新所述训练集,以对所述分类模型重新训练,继续所述样本数据集的无监督学习,直至所述训练集的训练次数达到预设次数m次,以此将所述分类模型训练到最佳,并将所述样本数据集中的数据更精准的分类。
在另一示例性的实施例中,当从所述分类模型中获取到置信度高于所述预设置信度的样本数据的数量达到预设数量,也即所述分类模型的训练达到一预设精度时,所述分类模型训练完成,所述样本数据集完成无监督学习。
基于上述实施例中提供的无监督学习方法,本实施例中提供一种无监督学习系统,具体地,图7示出了该无监督学习系统的可选的结构框图,该无监督学习系统被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合描述无监督学习系统在存储介质中的执行过程,以下描述将具体介绍本实施例各程序模块的功能。
如图7所示,无监督学习系统具体包括以下组成部分:
聚类模块201,用于将样本数据集进行聚类,以得到聚类结果,所述样本数据集包括多个未标注的样本数据。
具体地,所述聚类模块201将样本数据集的多个未标注的样本数据通过聚类算法进行聚类,并得到聚类结果。例如:请参阅图2,样本数据集I包括未标注的样本数据1、样本数据2、样本数据3…样本数据n,通过聚类算法将样本数据1、样本数据5、样本数据6和样本数据7聚集为一类,该聚类的中心为聚类中心1;将样本数据2和样本数据4聚集为一类,该聚类的中心为聚类中心2…依此得到聚类结果。
第一标签模块202,用于基于所述聚类结果,将所述样本数据集中的目标样本数据打上对应的第一分类标签,以得到多个第一标签数据。
请继续参阅图2,所述第一标签模块202将聚集为一类的样本数据1、样本数据5、样本数据6和样本数据7按照预设的规则,将样本数据1、样本数据5和样本数据6打上标签a,样本数据1、样本数据5和样本数据6则为第一标签a数据;聚集为一类的样本数据2和样本数据4符合所述预设的规则,则将聚集为一类的样本数据2和样本数据4均打上标签b,样本数据2和样本数据4则为第一标签b数据。
训练模块203,用于将所述多个第一标签数据作为训练集输入至基准训练模型中以对所述基准训练模型进行训练,得到分类模型。
请继续参阅图2,所述训练模块203将所述标签a数据和所述标签b数据作为训练接输入至基准训练模型中,以对所述基准训练模型进行训练,确定所述基准训练模型的参数值,得到分类模型。
获取模块204,用于从所述分类模型中获取所述多个第一标签数据的置信度。
示例性地,参阅图2,所述分类模型计算样本数据1、样本数据5和样本数据6划分为标签a的置信度,样本数据2和样本数据4划分为标签b的置信度,例如:计算出样本数据1、样本数据5和样本数据6的置信度分别为0.9、0.95和0.7,计算出样本数据2和样本数据4的置信度分别为0.91和0.96。然后,所述获取模块204从所述分类模型中分别获取样本数据1、样本数据5和样本数据6、样本数据2和样本数据4的置信度。
需要说明的是,置信度表示该样本数据分类结果的可靠程度。置信度越高,表示该样本数据分类结果的可靠程度越高,是可信的。置信度越低,表示该样本数据分类结果的可靠程度越低,是不可信的。在本发明实施例中,设定置信度阈值为0.9,当分类模型输出样本数据的置信度等于或高于置信度阈值0.9时,则样本数据分类结果就是可信的。
第二标签模块205,用于当所述训练集中的至少一个目标第一标签数据的置信度高于预设置信度时,将所述至少一个目标第一标签数据打上对应的第二分类标签,以得到至少一个第二标签数据。
示例性地,结合图2,由于样本数据1、样本数据5、样本数据2和样本数据4的置信度均不低于置信度阈值0.9,样本数据6的置信度低于置信度阈值,则样本数据1、样本数据5、样本数据2和样本数据4为目标标签数据,所述第二标签模块205将样本数据1和样本数据5打上标签A,将样本数据2和样本数据4打上标签B,重新打上标签A的样本数据1和样本数据5成为第二标签A数据,重新打上标签B的样本数据2和样本数据4称为第二标签B数据。
在另一示例性的实施例中,所述聚类模块201还用于获取所述样本数据集,并对所述样本数据集进行处理,以获取所述样本数据集中每个样本数据的特征向量;将所述特征向量按照预设聚类算法进行聚类,以获取所述聚类结果,其中所述预设聚类算法至少包括Kmeans算法。
具体地,所述聚类模块201将所述样本数据集通过自编码器结构进行特征学习以得到每个样本数据的特征向量。然后,根据Kmeans聚类算法将每个样本数据的特征向量进行聚类,并获取对应的聚类结果。当然在其他实施例中,还可以根据其他的聚类算法将所述每个样本数据的特征向量进行聚类,在此不作限定,本发明实施例中仅以Kmeans聚类算法为例进行说明。
在另一示例性的实施例中,所述第一标签模块202还用于根据所述聚类结果,将聚类中心预设距离范围内的预设比例的所述目标样本数据归为一类,并获取归类结果;根据所述归类结果,将所述目标样本数据打上对应的第一分类标签,以得到所述多个第一标签数据。
示例性地,结合图2,所述第一标签模块202获取以所述聚类中心1为中心的聚类,并与所述聚类中心1距离为d范围内的所有样本数据,将所述d范围内的所有样本数据中的50%归为一类。当然,在其他实施例中,可以从所有样本数据中选择任意比例的样本数据归为一类,也可以选择所有样本数据的归为一类,也即预设比例为100%。参阅图2,将与聚类中心1距离为d的所有样本数据(包括样本数据1、样本数据5和样本数据7)归为一类,将与聚类中心2距离为d的所有样本数据(包括样本数据2和样本数据4)归为一类。然后,所述第一标签模块202将样本数据1、样本数据5和样本数据7打上标签a,得到第一标签a数据;将样本数据2和样本数据4打上标签b,得到第一标签b数据。
在另一示例性的实施例中,所述无监督学习系统还包括记录单元、判断单元和学习单元。
所述记录单元,用于记录所述训练集的训练次数。
所述判断单元,用于判断所述训练次数是否等于所述预设次数。
所述学习单元,用于当所述训练次数等于所述预设次数时,结束训练,所述样本数据集无监督学习完成;当所述训练次数不等于所述预设次数时,根据所述至少一个第二标签数据更新所述训练集,以对所述分类模型重新训练,继续所述样本数据集无监督学习。
示例性地,当将训练集输入至所述分类模型中以对所述训练集进行训练时,统计所述训练集的训练次数,当所述训练集的训练次数达到预设次数m次时,则将所述分类模型训练完成,所述样本数据集无监督学习完成,所述样本数据集中的数据全部打上对上的第二标签;当所述训练集的训练次数未达到预设次数时,则继续更新所述训练集,以对所述分类模型重新训练,继续所述样本数据集的无监督学习,直至所述训练集的训练次数达到预设次数m次。
在另一示例性的实施例中,当从所述分类模型中获取到置信度高于所述预设置信度的样本数据的数量达到预设数量,也即所述分类模型的训练达到一预设精度时,所述分类模型训练完成,所述样本数据集完成无监督学习。
本发明实施例还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图8所示,本实施例的计算机设备30至少包括但不限于:可通过系统总线相互通信连接的存储器301、处理器302。需要指出的是,图8仅示出了具有组件301-302的计算机设备30,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器301(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器301可以是计算机设备30的内部存储单元,例如该计算机设备30的硬盘或内存。在另一些实施例中,存储器301也可以是计算机设备30的外部存储设备,例如该计算机设备30上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器301还可以既包括计算机设备30的内部存储单元也包括其外部存储设备。在本实施例中,存储器301通常用于存储安装于计算机设备30的操作系统和各类应用软件,例如无监督学习系统的程序代码等。此外,存储器301还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器302在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器302通常用于控制计算机设备30的总体操作。
具体的,在本实施例中,处理器302用于执行处理器302中存储的无监督学习方法的程序,所述无监督学习方法的程序被执行时实现如下步骤:
将样本数据集进行聚类,以得到聚类结果,所述样本数据集包括多个未标注的样本数据;
基于所述聚类结果,将所述样本数据集中的目标样本数据打上对应的第一分类标签,以得到多个第一标签数据;
将所述多个第一标签数据作为训练集输入至基准训练模型中以对所述基准训练模型进行训练,得到分类模型;
从所述分类模型中获取所述多个第一标签数据的置信度;
当所述训练集中的至少一个目标第一标签数据的置信度高于预设置信度时,将所述至少一个目标第一标签数据打上对应的第二分类标签,以得到至少一个第二标签数据。
上述方法步骤的具体实施例过程可参见上述无监督学习方法实施例,本实施例在此不再重复赘述。
本发明实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,所述计算机程序被处理器执行时实现如下方法步骤:
将样本数据集进行聚类,以得到聚类结果,所述样本数据集包括多个未标注的样本数据;
基于所述聚类结果,将所述样本数据集中的目标样本数据打上对应的第一分类标签,以得到多个第一标签数据;
将所述多个第一标签数据作为训练集输入至基准训练模型中以对所述基准训练模型进行训练,得到分类模型;
从所述分类模型中获取所述多个第一标签数据的置信度;
当所述训练集中的至少一个目标第一标签数据的置信度高于预设置信度时,将所述至少一个目标第一标签数据打上对应的第二分类标签,以得到至少一个第二标签数据。
上述方法步骤的具体实施例过程可参见上述无监督学习方法实施例,本实施例在此不再重复赘述。
本实施例提供的无监督学习方法、系统、计算机设备及可读存储介质,将样本数据进行聚类,并根据聚类结果得到对样本数据打上对应的第一分类标签,然后将打上对应分类标签的样本数据进行模型的训练,将置信度高的数据打上对应的第二分类标签,本实施例通过将无监督算法和有监督算法相结合进行数据的学习,极大的提高了图像数据分类的准确率。在一个具体实施例中,可以利用本发明在无标签情况下进行图像分类。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种无监督学习方法,其特征在于,所述方法包括:
将样本数据集进行聚类,以得到聚类结果,所述样本数据集包括多个未标注的样本数据;
基于所述聚类结果,将所述样本数据集中的目标样本数据打上对应的第一分类标签,以得到多个第一标签数据;
将所述多个第一标签数据作为训练集输入至基准训练模型中以对所述基准训练模型进行训练,得到分类模型;
从所述分类模型中获取所述多个第一标签数据的置信度;
当所述训练集中的至少一个目标第一标签数据的置信度高于预设置信度时,将所述至少一个目标第一标签数据打上对应的第二分类标签,以得到至少一个第二标签数据。
2.如权利要求1所述的无监督学习方法,其特征在于,所述将样本数据集进行聚类,以得到聚类结果,包括:
获取所述样本数据集,并对所述样本数据集进行处理,以获取所述样本数据集中每个样本数据的特征向量;
将所述特征向量按照预设聚类算法进行聚类,以获取所述聚类结果,其中所述预设聚类算法至少包括Kmeans算法。
3.如权利要求2所述的无监督学习方法,其特征在于,所述获取样本数据集,并对所述样本数据集进行处理,以获取所述样本数据集中每个样本数据的特征向量,包括:
将所述样本数据集通过自编码器结构进行特征学习以得到所述特征向量。
4.如权利要求1所述的无监督学习方法,其特征在于,所述基于所述聚类结果,将所述样本数据集中的目标样本数据打上对应的第一分类标签,以得到多个第一标签数据,包括:
根据所述聚类结果,将聚类中心预设距离范围内的预设比例的所述目标样本数据归为一类,并获取归类结果;
根据所述归类结果,将所述目标样本数据打上对应的第一分类标签,以得到所述多个第一标签数据。
5.如权利要求1所述的无监督学习方法,其特征在于,还包括:
记录所述训练集的训练次数;
判断所述训练次数是否等于所述预设次数;
当所述训练次数等于所述预设次数时,则结束训练,所述样本数据集无监督学习完成。
6.如权利要求5所述的无监督学习方法,其特征在于,所述判断所述训练次数是否等于所述预设次数之后,还包括:
当所述训练次数不等于所述预设次数时,根据所述至少一个第二标签数据更新所述训练集,以对所述分类模型重新训练,继续所述样本数据集无监督学习。
7.一种无监督学习系统,其特征在于,所述系统包括:
聚类模块,用于将样本数据集进行聚类,以得到聚类结果,所述样本数据集包括多个未标注的样本数据;
第一标签模块,用于基于所述聚类结果,将所述样本数据集中的目标样本数据打上对应的第一分类标签,以得到多个第一标签数据;
训练模块,用于将所述多个第一标签数据作为训练集输入至基准训练模型中以对所述基准训练模型进行训练,得到分类模型;
获取模块,用于从所述分类模型中获取所述多个第一标签数据的置信度;
第二标签模块,用于当所述训练集中的至少一个目标第一标签数据的置信度高于预设置信度时,将所述至少一个目标第一标签数据打上对应的第二分类标签,以得到至少一个第二标签数据。
8.如权利要求7所述的无监督学习方法,其特征在于,所述第一标签模块还用于:
根据所述聚类结果,将聚类中心预设距离范围内的预设比例的所述目标样本数据归为一类,并获取归类结果;
根据所述归类结果,将所述目标样本数据打上对应的第一分类标签,以得到所述多个第一标签数据。
9.一种计算机设备,所述计算机设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述无监督学习方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述无监督学习方法的步骤。
CN201911419421.7A 2019-12-31 2019-12-31 无监督学习方法、系统、计算机设备及可读存储介质 Pending CN113128536A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911419421.7A CN113128536A (zh) 2019-12-31 2019-12-31 无监督学习方法、系统、计算机设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911419421.7A CN113128536A (zh) 2019-12-31 2019-12-31 无监督学习方法、系统、计算机设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN113128536A true CN113128536A (zh) 2021-07-16

Family

ID=76769555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911419421.7A Pending CN113128536A (zh) 2019-12-31 2019-12-31 无监督学习方法、系统、计算机设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113128536A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113488166A (zh) * 2021-07-28 2021-10-08 联仁健康医疗大数据科技股份有限公司 糖尿病数据分析模型训练及数据管理方法、装置和设备
CN113627610A (zh) * 2021-08-03 2021-11-09 北京百度网讯科技有限公司 用于表箱预测的深度学习模型训练方法及表箱预测方法
CN113705648A (zh) * 2021-08-19 2021-11-26 杭州海康威视数字技术股份有限公司 一种数据处理方法、装置及设备
CN113792760A (zh) * 2021-08-19 2021-12-14 北京爱笔科技有限公司 聚类分析方法、装置、计算机设备和存储介质
CN113919936A (zh) * 2021-09-22 2022-01-11 百融至信(北京)征信有限公司 样本数据的处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020161763A1 (en) * 2000-10-27 2002-10-31 Nong Ye Method for classifying data using clustering and classification algorithm supervised
CN109145937A (zh) * 2018-06-25 2019-01-04 北京达佳互联信息技术有限公司 一种模型训练的方法及装置
CN109460795A (zh) * 2018-12-17 2019-03-12 北京三快在线科技有限公司 分类器训练方法、装置、电子设备及计算机可读介质
CN109960800A (zh) * 2019-03-13 2019-07-02 安徽省泰岳祥升软件有限公司 基于主动学习的弱监督文本分类方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020161763A1 (en) * 2000-10-27 2002-10-31 Nong Ye Method for classifying data using clustering and classification algorithm supervised
CN109145937A (zh) * 2018-06-25 2019-01-04 北京达佳互联信息技术有限公司 一种模型训练的方法及装置
CN109460795A (zh) * 2018-12-17 2019-03-12 北京三快在线科技有限公司 分类器训练方法、装置、电子设备及计算机可读介质
CN109960800A (zh) * 2019-03-13 2019-07-02 安徽省泰岳祥升软件有限公司 基于主动学习的弱监督文本分类方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113488166A (zh) * 2021-07-28 2021-10-08 联仁健康医疗大数据科技股份有限公司 糖尿病数据分析模型训练及数据管理方法、装置和设备
CN113627610A (zh) * 2021-08-03 2021-11-09 北京百度网讯科技有限公司 用于表箱预测的深度学习模型训练方法及表箱预测方法
CN113627610B (zh) * 2021-08-03 2022-07-05 北京百度网讯科技有限公司 用于表箱预测的深度学习模型训练方法及表箱预测方法
CN113705648A (zh) * 2021-08-19 2021-11-26 杭州海康威视数字技术股份有限公司 一种数据处理方法、装置及设备
CN113792760A (zh) * 2021-08-19 2021-12-14 北京爱笔科技有限公司 聚类分析方法、装置、计算机设备和存储介质
CN113705648B (zh) * 2021-08-19 2024-03-01 杭州海康威视数字技术股份有限公司 一种数据处理方法、装置及设备
CN113919936A (zh) * 2021-09-22 2022-01-11 百融至信(北京)征信有限公司 样本数据的处理方法及装置
CN113919936B (zh) * 2021-09-22 2022-08-05 百融至信(北京)征信有限公司 样本数据的处理方法及装置

Similar Documents

Publication Publication Date Title
CN113128536A (zh) 无监督学习方法、系统、计算机设备及可读存储介质
US11295123B2 (en) Classification of character strings using machine-learning
CN108830329B (zh) 图片处理方法和装置
CN113785305A (zh) 一种检测倾斜文字的方法、装置及设备
CN111753863A (zh) 一种图像分类方法、装置、电子设备及存储介质
CN110659667A (zh) 图片分类模型训练方法、系统和计算机设备
CN110866115A (zh) 序列标注方法、系统、计算机设备及计算机可读存储介质
CN114330588A (zh) 一种图片分类方法、图片分类模型训练方法及相关装置
CN110796210A (zh) 一种标签信息的识别方法及装置
CN110414622B (zh) 基于半监督学习的分类器训练方法及装置
CN110928889A (zh) 训练模型更新方法、设备以及计算机存储介质
CN113159133A (zh) 数据标注方法及装置、电子设备、存储介质
CN113239883A (zh) 分类模型的训练方法、装置、电子设备以及存储介质
CN112861934A (zh) 一种嵌入式终端的图像分类方法、装置及嵌入式终端
CN113971741A (zh) 一种图像标注方法、分类模型的训练方法、计算机设备
CN112560463B (zh) 文本多标注方法、装置、设备及存储介质
CN109190467A (zh) 一种基于关键点回归的多物体检测方法、系统、终端和存储介质
CN112699908B (zh) 标注图片的方法、电子终端、计算机可读存储介质及设备
CN111767710B (zh) 印尼语的情感分类方法、装置、设备及介质
CN113128496B (zh) 一种从图像中提取结构化数据的方法、装置和设备
CN114021670A (zh) 分类模型的学习方法及终端
CN109902724B (zh) 基于支持向量机的文字识别方法、装置和计算机设备
CN112347957A (zh) 行人重识别方法、装置、计算机设备及存储介质
CN114118449B (zh) 基于偏标记学习模型的图片标签识别方法、介质及设备
CN112418321A (zh) 标志图像的识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination