CN113221995A - 基于半监督深度分类算法的数据分类方法、设备及装置 - Google Patents

基于半监督深度分类算法的数据分类方法、设备及装置 Download PDF

Info

Publication number
CN113221995A
CN113221995A CN202110488533.9A CN202110488533A CN113221995A CN 113221995 A CN113221995 A CN 113221995A CN 202110488533 A CN202110488533 A CN 202110488533A CN 113221995 A CN113221995 A CN 113221995A
Authority
CN
China
Prior art keywords
data
semi
supervised
target
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110488533.9A
Other languages
English (en)
Other versions
CN113221995B (zh
Inventor
孙翀
何开杰
王江晴
帖军
郑禄
夏梦
王雪言
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alashankou Municipal Science And Technology Bureau
South Central Minzu University
Original Assignee
South Central University for Nationalities
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South Central University for Nationalities filed Critical South Central University for Nationalities
Priority to CN202110488533.9A priority Critical patent/CN113221995B/zh
Publication of CN113221995A publication Critical patent/CN113221995A/zh
Application granted granted Critical
Publication of CN113221995B publication Critical patent/CN113221995B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据处理技术领域,公开了一种基于半监督深度分类算法的数据分类方法、设备及装置。该方法包括:根据有标签数据和无标签数据构建的训练数据集对初始半监督分类模型进行训练,得到目标半监督分类模型,通过目标半监督分类模型对从数据源获取的原始数据进行处理,以获取目标数据,通过目标数据对预设分类器进行训练,得到训练后的目标分类器,并通过目标分类器对待分类数据进行分类。由此,由有标签数据和无标签数据训练构建的初始半监督分类模型,使得到的目标半监督分类模型学习了数据全样本分布,并通过目标半监督分类模型得到优化数据对分类器训练,使用于分类器训练的数据具有全面性与准确性,从而使分类器具有较高分类准确性。

Description

基于半监督深度分类算法的数据分类方法、设备及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于半监督深度分类算法的数据分类方法、设备及装置。
背景技术
随着大数据时代的到来,数字化已成为当下潮流,海量数据充斥着人们的日常生活,而根据不同人群的不同需求,人们对数据的需求也有所不同,因此,如何对海量数据进行准确分类以得到人们所需的目标数据成为当前亟待解决的问题。
传统数据分类方法大多采用分类器进行数据分类,但在传统方法中,对于分类器训练所使用的数据不具有完整性,使得训练得到的分类器分类能力不强,分类准确率不高。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种基于半监督深度分类算法的数据分类方法、设备及装置,旨在解决现有技术数据分类准确率不高的技术问题。
为实现上述目的,本发明提供了一种基于半监督深度分类算法的数据分类方法,所述方法包括以下步骤:
根据有标签数据和无标签数据构建的训练数据集对初始半监督分类模型进行训练,得到目标半监督分类模型;
通过所述目标半监督分类模型对从数据源获取的原始数据进行处理,以得到目标数据;
通过所述目标数据对预设分类器进行训练,得到训练后的目标分类器,并通过所述训练后的目标分类器对待分类数据进行分类。
可选地,所述根据有标签数据和无标签数据构建的训练数据集对初始半监督分类模型进行训练,得到目标半监督分类模型,包括:
将有标签数据和无标签数据构建的训练数据集输入至初始半监督分类模型,以获得预测数据;
从数据源获取标准数据,并通过所述初始半监督分类模型中的鉴别器获取所述预测数据与所述标准数据对应的鉴别结果;
判断所述鉴别结果是否达标;
在所述鉴别结果不达标时,对所述初始半监督分类模型进行迭代训练,获得迭代训练后的半监督分类模型;
基于所述迭代训练后的半监督分类模型,返回所述将有标签数据和无标签数据构建的训练数据集输入至初始半监督分类模型,以获得预测数据的步骤,直至判断出鉴别结果达标;
基于鉴别结果达标时的中继半监督分类模型生成目标半监督分类模型。
可选地,所述基于鉴别结果达标时的中继半监督分类模型生成目标半监督分类模型,具体包括:
获取鉴别结果达标时对应的预测数据,并通过所述中继半监督分类模型的编码器获取所述预测数据对应的隐藏变量及所述隐藏变量所对应的隐藏变量分布;
获取隐藏变量的先验分布,并根据wasserstein距离对所述先验分布及所述隐藏变量分布进行度量,获取度量结果;
在所述度量结果未达到预设度量结果时,根据所述中继半监督分类模型的超参数对所述中继半监督分类模型进行迭代训练,获得目标半监督分类模型。
可选地,所述通过所述目标半监督分类模型对从数据源获取的原始数据进行处理,以得到目标数据,包括:
从数据源获取原始数据;
将所述原始数据输入至所述目标半监督分类模型中,得到分类数据;
将所述分类数据作为所述目标数据。
可选地,所述通过所述目标数据对预设分类器进行训练,得到训练后的目标分类器,并通过所述训练后的目标分类器对待分类数据进行分类,包括:
将所述目标数据输入至预设分类器中进行训练,并检测训练结果;
在检测到训练结果满足预设条件时,获取训练后的目标分类器;
获取待分类数据,将所述待分类数据输入至所述训练后的目标分类器进行数据分类。
可选地,所述在所述检测结果满足预设条件时,所述将所述目标数据输入至预设分类器中进行训练,并检测训练结果,包括:
获取分类器的分类错误率,并以所述分类错误率作为检测结果;
当所述分类错误率处于预设范围时,判定所述检测结果满足预设条件,并以所述分类错误率所对应的分类器作为目标分类器。
此外,为实现上述目的,本发明还提出一种基于半监督深度分类算法的数据分类装置,所述基于半监督深度分类算法的数据分类装置包括:
模型获取模块,用于根据有标签数据和无标签数据构建的训练数据集对初始半监督分类模型进行训练,得到目标半监督分类模型;
数据获取模块,用于通过所述目标半监督分类模型对从数据源获取的原始进行处理,以获取目标数据;
数据分类模块,用于通过所述目标数据对预设分类器进行训练,得到训练后的目标分类器,并通过所述训练后的目标分类器对待分类数据进行分类。
此外,为实现上述目的,本发明还提出一种基于半监督深度分类算法的数据分类设备,所述基于半监督深度分类算法的数据分类设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于半监督深度分类算法的数据分类程序,所述基于半监督深度分类算法的数据分类程序配置为实现如上文所述的基于半监督深度分类算法的数据分类方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有基于半监督深度分类算法的数据分类程序,所述基于半监督深度分类算法的数据分类程序被处理器执行时实现如上文所述的基于半监督深度分类算法的数据分类方法的步骤。
本发明根据有标签数据和无标签数据构建的训练数据集对初始半监督分类模型进行训练,得到目标半监督分类模型,通过所述目标半监督分类模型对从数据源获取的原始数据进行处理,以得到目标数据,通过所述目标数据对预设分类器进行训练,得到训练后的目标分类器,并通过所述训练后的目标分类器对待分类数据进行分类。由此,通过有标签数据和无标签数据训练构建的初始半监督分类模型,得到学习了全样本分布的目标半监督分类模型,并在模型训练过程中,引入了对抗方法,具体包括模型中的生成器与鉴别器之间的对抗,编码器与隐变量鉴别器之间的对抗,促使生成器与鉴别器、编码器与隐变量鉴别器之间的共同成长,使得到的模型能在最大程度上得到优化,进一步通过所述目标半监督分类模型得到筛选的优化数据,并通过所述优化数据对分类器进行训练,使得供所述分类器学习的数据能够更完整且更优化,特别是能够让分类器学习到原数据的全体分布,由此达到让目标分类器具有较高分类准确性的目的。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的基于半监督深度分类算法的数据分类设备的结构示意图;
图2为本发明基于半监督深度分类算法的数据分类方法第一实施例的流程示意图;
图3为本发明基于半监督深度分类算法的数据分类方法第二实施例的流程示意图;
图4为本发明基于半监督深度分类算法的数据分类方法第三实施例的流程示意图;
图5为本发明基于半监督深度分类算法的数据分类方法第三实施例涉及的半监督分类器构建流程图;
图6为本发明基于半监督深度分类算法的数据分类方法第四实施例的流程示意图;
图7为本发明基于半监督深度分类算法的数据分类方法一实施例的半监督分类模型的模型构建示意图;
图8本发明基于半监督深度分类算法的数据分类装置一实施例涉及的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的基于半监督深度分类算法的数据分类设备结构示意图。
如图1所示,该基于半监督深度分类算法的数据分类设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-VolatileMemory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对基于半监督深度分类算法的数据分类设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于半监督深度分类算法的数据分类程序。
在图1所示的基于半监督深度分类算法的数据分类设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明基于半监督深度分类算法的数据分类设备中的处理器1001、存储器1005可以设置在基于半监督深度分类算法的数据分类设备中,所述基于半监督深度分类算法的数据分类设备通过处理器1001调用存储器1005中存储的基于半监督深度分类算法的数据分类程序,并执行本发明实施例提供的基于半监督深度分类算法的数据分类方法。
本发明实施例提供了一种基于半监督深度分类算法的数据分类方法,参照图2,图2为本发明基于半监督深度分类算法的数据分类方法第一实施例的流程示意图。
本实施例中,所述基于半监督深度分类算法的数据分类方法包括以下步骤:
步骤S10:根据有标签数据和无标签数据构建的训练数据集对初始半监督分类模型进行训练,得到目标半监督分类模型;
需要说明的是,本实施例的执行主体可以是具有数据处理、网络通信以及程序运行功能的计算机设备,例如个人电脑,或者其他具有相似功能的电子设备。所述有标签数据可以是用户根据自己实际数据需求进行的人工数据标记的数据,相应的,所述无标签数据可以是用户未进行标记的数据。所述初始半监督分类模型可以是用户根据所处理的数据特点而构建的模型,在本实施例中,所述半监督分类模型中包括编码器、生成器、鉴别器及隐变量鉴别器。
可以理解的是,模型构建后需要对所述模型进行数据输入以进行模型训练,从而得到满足用户需求的目标模型,进行训练的数据优劣会直接影响到所述目标模型的训练质量,进而影响最终生成的目标模型的质量。在本实施例中,充分考虑数据整体性,模型训练时选择的数据是有标签数据以及无标签数据,以使所述模型能学习到样本数据的全体分布。
在具体实施中,对所述模型的训练,具体包括对生成器的训练及编码器的训练,生成器针对的是真实数据,编码器针对的是真实数据的低维数据表示,通过对两个不同维度的数据考量,使得最终得到的模型具有更高的数据处理能力。
为使从数据源获取数据后,优化模型中的生成器与鉴别器,进一步得到目标半监督分类模型,在一些更具体的实施例中,所述步骤S10包括:
步骤S101:将有标签数据和无标签数据构建的训练数据集输入至初始半监督分类模型,以获得预测数据;
需要说明的是,所述预测数据可理解为,经初始模型中的生成器处理得到的数据,并命名为“假数据”。
易于理解的是,当模型构建后,对构建得到的模型输入数据,模型会根据自身的数据处理功能得到对应的预测数据,也称为拟合数据,具体结果的得出需根据模型的数据处理能力而定。
步骤S102:从数据源获取标准数据,并通过所述初始半监督分类模型中的鉴别器获取所述预测数据与所述标准数据对应的鉴别结果;
需要说明的是,所述数据源可以是用户根据自身需求设定的包含多个特定数据的数据存储结构,例如,某用户A的数据需求方向为区分水果图片,此时的数据源即为包含多种不同水果的图片数据,某用户B的数据需求方向为区分猫与狗的图片,此时的数据源即为包含多种不同外形的猫、狗的图片数据。所述标准数据可理解为从数据源直接获取的未经任何处理的数据,并命名为“真数据”,所述鉴别器,用于鉴别数据的“真”“假”。
在具体实施中,所述鉴别器的具体输出形式为判别数据为“真”或者为“假”的概率。
为了便于理解,本实施例对步骤S102举例进行具体说明。
例如,在图片生成示例中,生成器根据有标签数据及无标签数据生成了一图像记做G(z),鉴别器用来判别一张图片是不是“真实的”。它的输入参数是x,x代表一张图片,输出D(x)代表x为真实图片的概率,如果为1,就代表100%是真实的图片,即,此图片并非生成器生成的,若输出为0,就代表不是真实的图片,即,此图片为生成器生成的图片(“假数据”),在训练过程中,生成器G的目标是尽量生成真实的图片去“欺骗”鉴别器D。而鉴别器D的目标就是尽量把G生成的图片和真实的图片鉴别开来。这样,生成器G和鉴别器D构成了一个动态的“博弈过程”,在最理想的状态下,生成器G可以生成足以“以假乱真”的图片G(z)。对于鉴别器D来说,它难以判定生成器G生成的图片究竟是否真实,因此D(G(z))=0.5。此时目的达成,得到一个优化的生成器G,并用所述生成器G用以生成相似度高且清晰的图片。
步骤S103:判断所述鉴别结果是否达标;
在具体实施中,可以设定鉴别器的鉴别结果为表示数据为“真”的概率,若所述鉴别结果满足第一预设结果,例如为(1,0.7)或(0,0.3),又或(1,0.6)或(0,0.4)表示鉴别器可以在误差范围内区分出“真数据”与“假数据”,表明此时的鉴别结果还未达标,当所述鉴别结果为[0.4,0.6]或0.5时,表明此时的鉴别器无法准确区分出真假数据,判定所述鉴别结果达标。
步骤S104:在所述鉴别结果不达标时,对所述初始半监督分类模型进行迭代训练,获得迭代训练后的半监督分类模型;
易于理解的是,当所述鉴别结果还不达标时,表明此时模型中的生成器生成的数据质量还不够高,即模型还未达标,还需要进一步输入数据对所述模型进行迭代训练,促进所述鉴别器与所述生成器的共同成长。
步骤S105:基于所述迭代训练后的半监督分类模型,返回所述将有标签数据和无标签数据构建的训练数据集输入至初始半监督分类模型,以获得预测数据的步骤,直至判断出鉴别结果达标;
容易理解的是,当鉴别结果未达标时,迭代训练就会一直进行,直至所述鉴别结果达标,即所述鉴别器无法鉴别出存在于鉴别器中的数据是生成器输入的“假数据”还是从数据源获取的“真数据”,说明此时的鉴别器与生成器的共同成长达到了期望,此时生成器生成的数据已经足够逼近于原始数据,使得鉴别器无法做出具体区分。
步骤S106:基于鉴别结果达标时的中继半监督分类模型生成目标半监督分类模型。
容易理解的,当所述鉴别结果达标时,说明此时模型中的生成器与鉴别器已达到最优,但模型中的其他部分还未达到最优,因此,此时得到的是中继半监督模型。
步骤S20:通过所述目标半监督分类模型对从数据源获取的原始数据进行处理,以得到目标数据;
需要说明的是,所述从数据源获取的原始数据可以是需要处理的待处理数据,包括有标签数据及无标签数据,所述目标数据可以是经过所述目标半监督分类模型处理得到的优化数据,在具体实施中,所述优化数据可理解为一清晰的目标图片。
步骤S30:通过所述目标数据对预设分类器进行训练,得到训练后的目标分类器,并通过所述训练后的目标分类器对待分类数据进行分类。
需要说明的是,所述预设分类器可理解为初始分类器,此时分类器的分类错误率较高。所述目标分类器,可理解为经通过所述目标半监督分类模型得到的最新数据训练过后的分类器,此时,所述目标分类器已学习到了真实数据的总体分布,分类错误率在原基础上得到了改进。所述待分类数据可理解为用户需要进行处理的数据,例如众多待分类图像数据。
本实施例通过引入无标签数据与有标签数据构建的训练数据集,充分考虑半监督学习模型中的全样本分布,更好地建立半监督分类模型,并通过所述模型得到的最新目标数据对分类器进行训练,使得得到的目标分类器能够学习到真实数据的总体分布,从而提高了分类准确率。
进一步地,为了能进一步考虑到有标签数据和无标签数据的特征空间边际分布和总体数据的边际分布之间的相似度,使得模型能够更进一步优化,基于上述第一实施例,提出本发明第二实施例。
参考图3,图3为本发明一种基于半监督深度分类算法的数据分类方法第二实施例的流程示意图。
基于上述第一实施例,本实施例基于半监督深度分类算法的数据分类方法,步骤S106具体包括:
步骤S1061:获取鉴别结果达标时对应的预测数据,并通过所述中继半监督分类模型的编码器获取所述预测数据对应的隐藏变量及所述隐藏变量所对应的隐藏变量分布;
需要说明的是,所述编码器可理解为,用以得到数据的低维表示的模型。所述中继半监督分类模型可理解为还未考虑边际分布的半成品模型。所述隐藏变量可以是经所述编码器得到的数据的低维表示,所述隐藏变量分布可以理解为经编码器处理得到的隐藏变量的特征空间边际分布。
步骤S1062:获取隐藏变量的先验分布,并根据wasserstein距离对所述先验分布及所述隐藏变量分布进行度量,获取度量结果;
需要说明的是,所述先验分布可以理解为源数据的边际分布,所述wasserstein距离,用于度量两个概率分布之间的距离。当所述wasserstein距离越小时,即获取的度量结果越小时,两概率之间的分布越相似,在本实施例中,通过wasserstein距离对两概率分布进行度量,来判断所述中继半监督分类模型是否达到训练期望,理想情况下,当所述wasserstein距离W=0时,判断两概率分布足够相似。
步骤S1063:在所述度量结果未达到预设度量结果时,根据所述中继半监督分类模型的超参数对所述中继半监督分类模型进行迭代训练,获得目标半监督分类模型。
需要说明的是,所述预设度量结果可以是用户根据实际需求具体设定的度量值,例如0.2或是0.1又或是0,当所述度量结果还未达到预设度量结果时,说明所述先验分布和所述通过编码器得到的隐藏变量分布差距还较大,此时隐变量鉴别器会较容易将两分布区分开来,即编码器的编码能力还不足,得到的隐藏变量分布与标准分布还不够相似,因此,所述编码器还需要进一步学习,进而调整分类模型中的超参数,使隐变量鉴别器与编码器之间对抗成长,以使所述编码器编码得到的隐藏变量分布与先验分布足够相似,当两分布之间的wasserstein距离足够小时,说明模型已学习到了总体数据的边际分布,使得样本特征空间的边际分布和总体数据的边际分布达到足够相似的程度。当然,在具体实施中,达到预设度量结果的具体判定可根据具体实施场景具体设定,本实施例对此不做限定。
所述目标半监督分类模型的优化目标公式如下所示:
Figure BDA0003050494370000101
其中,Pa(x,y)是全体数据分布,PGX(x)是生成器生成数据的边际分布,Pa(x)是全体数据的边际分布,x是输入的原始数据,G(z)是生成器通过隐藏变量z得到的新数据,W是Wasserstein距离的缩写,E(z)是隐藏变量z的条件后验分布,也称隐藏变量分布,P(z)是先验分布,λ是超参数且λ>0。
需要补充说明的是,为了使生成的样本足够优化,例如使生成的图片足够清晰,本实施例采用Wasserstein距离来度量数据真实分布与模型预测分布之间的距离,规避了传统方法中使用KL散度的方法,在一定程度上使得数据处理得更优化。
在具体实施中,当获得目标半监督模型之后,就需要得到经模型处理得到目标数据,所述通过所述目标半监督分类模型对从数据源获取的原始数据进行处理,以得到目标数据,包括:
从数据源获取原始数据;
将所述原始数据输入至所述目标半监督分类模型中,得到分类数据;
将所述分类数据作为所述目标数据。
容易理解的,当所述模型达到训练期望时,模型处理得到的数据必定是最大程度上的优化数据。
本实施例通过编码器获取预测数据对应的隐藏变量及隐藏变量所对应的隐藏变量分布,获取隐藏变量的先验分布,并根据wasserstein距离对所述先验分布及所述隐藏变量分布进行度量,通过对度量结果的检测,在检测结果未达标时,相应地对模型进行迭代优化训练,从另一维度优化了模型训练结果。
参考图4及图5,图4为本发明一种基于半监督深度分类算法的数据分类方法第三实施例的流程示意图,图5为本发明基于半监督深度分类算法的数据分类方法第三实施例涉及的半监督分类器构建流程图。
在得到目标半监督分类模型的基础上,为得到目标分类器,达到让分类器准确分类数据的目的,提出本发明基于半监督深度分类算法的数据分类方法的第三实施例。
基于上述第二实施例,本实施例基于半监督深度分类算法的数据分类方法步骤S30,包括:
步骤S301:将所述目标数据输入至预设分类器中进行训练,并检测训练结果;
需要说明的是,所述目标数据可以是经目标半监督分类模型处理生成的数据。所述训练结果的具体形式为检测到的分类器的分类错误率。
步骤S302:在检测到训练结果满足预设条件时,获取训练后的目标分类器;
需要说明的是,所述预设条件可以为用户按需所设定的目标条件,当检测所述分类器的训练结果不满足预设条件时,即,还未达到用户需求时,说明还需要对所述分类器再次输入经目标半监督分类模型处理得到的目标数据进行迭代训练,直至所述分类器的检测结果满足预设条件,得到所述目标分类器。
步骤S303:获取待分类数据,将所述待分类数据输入至所述训练后的目标分类器进行数据分类。
易于理解的,当训练获得目标训练器后,即可通过所述目标分类器进行数据分类。
在一些实施例中,所述将所述目标数据输入至预设分类器中进行训练,并检测训练结果,包括以下步骤:
获取分类器的分类错误率,并以所述分类错误率作为检测结果;
当所述分类错误率处于预设范围时,判定所述检测结果满足预设条件,并以所述分类错误率所对应的分类器作为目标分类器。
需要说明的是,衡量一个分类器的性能是通过分类器的分类错误率来确定的,若检测到某一分类器的分类错误率达到1,说明此分类器的分类能力差,若检测到某一分类器的分类错误率为0,则说明所述分类器已经达到最优情况。
在具体实施中,所述目标分类器的分类错误率将随着迭代训练次数的增加而降低,直至所述分类错误率趋于稳定,即所述分类错误率的波动值在标准误差范围内时,说明所述分类器已达到此模型下的最优情况,当然,此分类错误率的具体数值范围为(0,1),当所述分类错误率趋于稳定时,判定所述分类错误率所对应的分类器为目标分类器。当然,判定所述分类错误率达到预设条件的具体数值可根据具体场景具体确定,本发明对此不做限定。
为便于理解,本实施例结合图5做具体说明。
参考图5,将从数据源获取的原始数据及通过目标半监督分类模型(WCVAE)生成器生成的数据输入至半监督分类模型中的鉴别器,由鉴别器来判定数据“真”“假”,若能鉴别出,说明还需要对半监督分类模型中的生成器与鉴别器进行训练,直至所述鉴别器无法鉴别出数据真假。进一步地,通过目标半监督分类模型中的隐变量鉴别器来鉴别半监督分类模型中编码器编码得到的隐藏变量分布与先验分布之间的相似程度,当两分布不相似时,说明还需要对半监督分类模型中的隐变量鉴别器及编码器进行训练,直至两分布足够相似,说明模型中的隐变量鉴别器与编码器达到了期望效果,此时半监督分类模型已达到目标训练期望,得到了目标半监督分类模型。进一步地,利用目标半监督分类模型得到优化数据并进行分类器训练。
本实施例通过由目标半监督分类模型得到的数据对预设分类器进行训练,得到目标分类器,并检测分类器的分类错误率,并通过迭代训练的方法,使分类器逐渐优化,充分考虑样本数据的整体性,使得目标分类器具有较高的分类准确率。
参考图6,图6为本发明一种基于半监督深度分类算法的数据分类方法第四实施例的流程示意图。
基于上述第一实施例,本实施例基于半监督深度分类算法的数据分类方法在所述步骤S10之前,还包括:
步骤S11:从数据源获取第一无标签数据;
需要说明的是,所述数据源可为用户根据数据分类需求而输入的数据,例如,用户需要对包含有数字的图片进行分类,数据源即为多个包含有任意数字的图片,又如,用户需要对包含有水果的图片进行分类,数据源即为包含有任意水果的图片。
步骤S12:对所述第一无标签数据进行特征标记,以生成有标签数据;
需要说明的是,所述第一无标签数据可为从数据原获取的未进行人工标记的数据,针对用户的个人需求,对所述从数据源获取的数据进行特征标记,以得到有标签数据。例如,对一张图片而言,里面一个苹果,此时就需要人工打上标签,标记这是苹果,另外给定多张图片,里面可能是有梨,橘子,或其他水果等等,此时,标记了苹果的图片即为有标签数据,其余图片即为无标签数据。
步骤S13:从数据源中获取第二无标签数据,并根据所述第二无标签数据及所述有标签数据构建训练数据集。
需要说明的是,所述构建的训练数据集包含有标签数据以及无标签数据,所述训练数据集的构建可以针对用户具体需求具体构建,即,针对分类方向自行选择目标数据进行标记,以产生对应的有标签数据和无标签数据。具体数据标记的确定可根据具体场景具体设定,本实施例对此不加以限定。
本实施例通过从数据源获取第一无标签数据,对所述第一无标签数据进行特征标记,以生成有标签数据,从数据源中获取第二无标签数据,并根据所述第二无标签数据及所述有标签数据构建训练数据集。由此,可实现对不同数据分类需求的不同数据集的构建,以实现对多种数据分类的需求。
下面结合图7以及上述各实施例对本发明半监督分类模型的模型构建做具体说明。
参考图7,从测试集Train中提取源数据x,包括有标签及无标签数据,并对源数据中的数据打上标签信息y,同时放入编码器E中,通过所述编码器得到标签数据的隐藏变量z及隐藏变量分布E(z),同时获取数据的先验分布,通过隐变量鉴别器Dγ对两分布进行度量。另一方面,将数据放入生成器G中,使数据转换得到生成器的输出数据xG,并从测试集Test,包含有标签数据集L及无标签数据集U中获取有标签数据及无标签数据x,并将两不同来源的数据放入鉴别器D中,通过鉴别器来对生成器G的数据生成能力进行改进优化,当检测到所述生成器G和所述编码器E(z)的生成能力达到训练期望时,将生成器G生成的目标数据(xG,y),即含标签信息的数据放入分类器中进行分类器训练,得到分类器的条件分布PA(y|x),通过对分类器的分类错误率的检验,当分类错误率达到用户期望时,获得最终的目标分类器。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有基于半监督深度分类算法的数据分类程序,所述基于半监督深度分类算法的数据分类程序被处理器执行时实现如上文所述的基于半监督深度分类算法的数据分类方法的步骤。
参照图8,图8为本发明基于半监督深度分类算法的数据分类装置一实施例涉及的结构框图。
如图8所示,本发明实施例提出的基于半监督深度分类算法的数据分类装置包括:
模型获取模块10,用于根据有标签数据和无标签数据构建的训练数据集对初始半监督分类模型进行训练,得到目标半监督分类模型;
数据获取模块20,用于通过所述目标半监督分类模型对从数据源获取的原始数据进行处理,以得到目标数据;
数据分类模块30,用于通过所述目标数据对预设分类器进行训练,得到训练后的目标分类器,并通过所述训练后的目标分类器对待分类数据进行分类。
应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
本实施例通过根据有标签数据和无标签数据构建的训练数据集对初始半监督分类模型进行训练,得到目标半监督分类模型,通过所述目标半监督分类模型对从数据源获取的原始数据进行处理,以得到目标数据,通过所述目标数据对预设分类器进行训练,得到训练后的目标分类器,并通过所述训练后的目标分类器对待分类数据进行分类。由此,通过有标签数据和无标签数据训练构建的初始半监督分类模型,得到学习了全样本的目标半监督分类模型,并通过所述目标半监督分类模型得到筛选的优化数据,进一步通过所述优化数据对分类器进行训练,使得供所述分类器学习的数据能够更完整且更优化,使得所述目标分类器具有较高的分类准确性。
本发明基于半监督深度分类算法的数据分类装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的基于半监督深度分类算法的数据分类方法,此处不再赘述。
此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory,ROM)/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于半监督深度分类算法的数据分类方法,其特征在于,所述方法包括以下步骤:
根据有标签数据和无标签数据构建的训练数据集对初始半监督分类模型进行训练,得到目标半监督分类模型;
通过所述目标半监督分类模型对从数据源获取的原始数据进行处理,以得到目标数据;
通过所述目标数据对预设分类器进行训练,得到训练后的目标分类器,并通过所述训练后的目标分类器对待分类数据进行分类。
2.如权利要求1所述的方法,其特征在于,所述根据有标签数据和无标签数据构建的训练数据集对初始半监督分类模型进行训练,得到目标半监督分类模型,包括:
将有标签数据和无标签数据构建的训练数据集输入至初始半监督分类模型,以获得预测数据;
从数据源获取标准数据,并通过所述初始半监督分类模型中的鉴别器获取所述预测数据与所述标准数据对应的鉴别结果;
判断所述鉴别结果是否达标;
在所述鉴别结果不达标时,对所述初始半监督分类模型进行迭代训练,获得迭代训练后的半监督分类模型;
基于所述迭代训练后的半监督分类模型,返回所述将有标签数据和无标签数据构建的训练数据集输入至初始半监督分类模型,以获得预测数据的步骤,直至判断出鉴别结果达标;
基于鉴别结果达标时的中继半监督分类模型生成目标半监督分类模型。
3.如权利要求2所述的方法,其特征在于,所述基于鉴别结果达标时的中继半监督分类模型生成目标半监督分类模型,具体包括:
获取鉴别结果达标时对应的预测数据,并通过所述中继半监督分类模型的编码器获取所述预测数据对应的隐藏变量及所述隐藏变量所对应的隐藏变量分布;
获取隐藏变量的先验分布,并根据wasserstein距离对所述先验分布及所述隐藏变量分布进行度量,获取度量结果;
在所述度量结果未达到预设度量结果时,根据所述中继半监督分类模型的超参数对所述中继半监督分类模型进行迭代训练,获得目标半监督分类模型。
4.如权利要求1~3任一项所述的方法,其特征在于,所述根据有标签数据和无标签数据构建的训练数据集对初始半监督分类模型进行训练之前,包括:
从数据源获取第一无标签数据;
对所述第一无标签数据进行特征标记,以生成有标签数据;
从数据源中获取第二无标签数据,并根据所述第二无标签数据及所述有标签数据构建训练数据集。
5.如权利要求1~3任一项所述的方法,其特征在于,所述通过所述目标半监督分类模型对从数据源获取的原始数据进行处理,以得到目标数据,包括:
从数据源获取原始数据;
将所述原始数据输入至所述目标半监督分类模型中,得到分类数据;
将所述分类数据作为所述目标数据。
6.如权利要求1~3任一项所述的方法,其特征在于,所述通过所述目标数据对预设分类器进行训练,得到训练后的目标分类器,并通过所述训练后的目标分类器对待分类数据进行分类,包括:
将所述目标数据输入至预设分类器中进行训练,并检测训练结果;
在检测到训练结果满足预设条件时,获取训练后的目标分类器;
获取待分类数据,将所述待分类数据输入至所述训练后的目标分类器进行数据分类。
7.如权利要求6所述的方法,其特征在于,所述将所述目标数据输入至预设分类器中进行训练,并检测训练结果,包括:
获取分类器的分类错误率,并以所述分类错误率作为检测结果;
当所述分类错误率处于预设范围时,判定所述检测结果满足预设条件,并以所述分类错误率所对应的分类器作为目标分类器。
8.一种基于半监督深度分类算法的数据分类装置,其特征在于,所述基于半监督深度分类算法的数据分类装置包括:
模型获取模块,用于根据有标签数据和无标签数据构建的训练数据集对初始半监督分类模型进行训练,得到目标半监督分类模型;
数据获取模块,用于通过所述目标半监督分类模型对从数据源获取的原始进行处理,以获取目标数据;
数据分类模块,用于通过所述目标数据对预设分类器进行训练,得到训练后的目标分类器,并通过所述训练后的目标分类器对待分类数据进行分类。
9.一种基于半监督深度分类算法的数据分类设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于半监督深度分类算法的数据分类程序,所述基于半监督深度分类算法的数据分类程序配置为实现如权利要求1至7中任一项所述的基于半监督深度分类算法的数据分类方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有基于半监督深度分类算法的数据分类程序,所述基于半监督深度分类算法的数据分类程序被处理器执行时实现如权利要求1至7任一项所述的基于半监督深度分类算法的数据分类方法的步骤。
CN202110488533.9A 2021-04-30 2021-04-30 基于半监督深度分类算法的数据分类方法、设备及装置 Active CN113221995B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110488533.9A CN113221995B (zh) 2021-04-30 2021-04-30 基于半监督深度分类算法的数据分类方法、设备及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110488533.9A CN113221995B (zh) 2021-04-30 2021-04-30 基于半监督深度分类算法的数据分类方法、设备及装置

Publications (2)

Publication Number Publication Date
CN113221995A true CN113221995A (zh) 2021-08-06
CN113221995B CN113221995B (zh) 2023-06-30

Family

ID=77090868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110488533.9A Active CN113221995B (zh) 2021-04-30 2021-04-30 基于半监督深度分类算法的数据分类方法、设备及装置

Country Status (1)

Country Link
CN (1) CN113221995B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117370844A (zh) * 2023-11-02 2024-01-09 重庆数字城市科技有限公司 一种空间大数据治理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015109781A1 (zh) * 2014-01-27 2015-07-30 华为技术有限公司 基于期望最大确定统计模型参数的方法和装置
CN108416370A (zh) * 2018-02-07 2018-08-17 深圳大学 基于半监督深度学习的图像分类方法、装置和存储介质
US20210097387A1 (en) * 2019-09-26 2021-04-01 Naver Corporation Semi-Supervised Variational Autoencoder for Indoor Localization
CN112699960A (zh) * 2021-01-11 2021-04-23 华侨大学 基于深度学习的半监督分类方法、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015109781A1 (zh) * 2014-01-27 2015-07-30 华为技术有限公司 基于期望最大确定统计模型参数的方法和装置
CN108416370A (zh) * 2018-02-07 2018-08-17 深圳大学 基于半监督深度学习的图像分类方法、装置和存储介质
US20210097387A1 (en) * 2019-09-26 2021-04-01 Naver Corporation Semi-Supervised Variational Autoencoder for Indoor Localization
CN112699960A (zh) * 2021-01-11 2021-04-23 华侨大学 基于深度学习的半监督分类方法、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
付晓 等: "基于半监督编码生成对抗网络的图像分类模型" *
杨灿;: "一种结合GAN和伪标签的深度半监督模型研究" *
聂锦燃;魏蛟龙;唐祖平;: "基于变分自编码器的无监督文本风格转换" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117370844A (zh) * 2023-11-02 2024-01-09 重庆数字城市科技有限公司 一种空间大数据治理方法及系统

Also Published As

Publication number Publication date
CN113221995B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN112990432B (zh) 目标识别模型训练方法、装置及电子设备
CN111181939B (zh) 一种基于集成学习的网络入侵检测方法及装置
US11282295B2 (en) Image feature acquisition
CN101937513A (zh) 信息处理设备、信息处理方法和程序
JP6897749B2 (ja) 学習方法、学習システム、および学習プログラム
US20140058989A1 (en) Data processing apparatus and method for automatically generating a classification component
CN110717554A (zh) 图像识别方法、电子设备及存储介质
CN116595463B (zh) 窃电识别模型的构建方法、窃电行为识别方法及装置
CN116453438B (zh) 一种显示屏参数检测方法、装置、设备及存储介质
CN107016416B (zh) 基于邻域粗糙集和pca融合的数据分类预测方法
CN112446441A (zh) 模型训练数据筛选方法、装置、设备及存储介质
CN115186012A (zh) 一种用电量数据检测方法、装置、设备及存储介质
CN113221995A (zh) 基于半监督深度分类算法的数据分类方法、设备及装置
CN110147798A (zh) 一种可用于网络信息检测的语义相似度学习方法
CN115408527B (zh) 文本分类方法、装置、电子设备及存储介质
CN113269433B (zh) 税收风险预测方法、设备、介质及计算机程序产品
CN112699908B (zh) 标注图片的方法、电子终端、计算机可读存储介质及设备
CN114067401A (zh) 目标检测模型的训练及身份验证方法和装置
CN110728615B (zh) 基于序贯假设检验的隐写分析方法、终端设备及存储介质
CN113743431B (zh) 一种数据选择方法及装置
CN108664992B (zh) 一种基于遗传优化和核极限学习机的分类方法及装置
CN111143552B (zh) 文本信息的类别预测方法和装置、服务器
CN118094215A (zh) 样本数据的平衡、模型训练、分类方法、装置与设备
CN117688370A (zh) 日志的风险类型确定方法、装置及电子设备
CN117667673A (zh) 测试用例的处理方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230519

Address after: 430000, No. 708, 823, Minzu Avenue, Hongshan District, Wuhan City, Hubei Province

Applicant after: SOUTH CENTRAL University FOR NATIONALITIES

Applicant after: Alashankou Municipal Science and Technology Bureau

Address before: Central South University for nationalities, No.182 Minzu Avenue, Hongshan District, Wuhan City, Hubei Province

Applicant before: SOUTH CENTRAL University FOR NATIONALITIES

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant