CN112396084A - 数据处理方法、装置、设备及存储介质 - Google Patents
数据处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112396084A CN112396084A CN201910765590.XA CN201910765590A CN112396084A CN 112396084 A CN112396084 A CN 112396084A CN 201910765590 A CN201910765590 A CN 201910765590A CN 112396084 A CN112396084 A CN 112396084A
- Authority
- CN
- China
- Prior art keywords
- sample
- type
- samples
- types
- classification model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000013145 classification model Methods 0.000 claims abstract description 125
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 31
- 230000009467 reduction Effects 0.000 claims description 30
- 238000012549 training Methods 0.000 description 29
- 230000006870 function Effects 0.000 description 20
- 238000012216 screening Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 8
- 230000015654 memory Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 239000000126 substance Substances 0.000 description 5
- 230000005291 magnetic effect Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 239000002699 waste material Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 229940088594 vitamin Drugs 0.000 description 1
- 229930003231 vitamin Natural products 0.000 description 1
- 235000013343 vitamin Nutrition 0.000 description 1
- 239000011782 vitamin Substances 0.000 description 1
- 150000003722 vitamin derivatives Chemical class 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据处理方法、装置、设备及存储介质。方法包括:确定从历史样本中筛选的特征样本和所述特征样本的类型;所述特征样本的类型构成第一类型集合;确定目标样本和所述目标样本的类型;所述目标样本的类型构成第二类型集合;所述第二类型集合与所述第一类型集合不同;根据所述特征样本、所述特征样本的类型、所述目标样本以及所述目标样本的类型,调整第一分类模型的参数,得到第二分类模型;所述第一分类模型能够识别所述第一类型集合所包括的类型;所述第二分类模型能够识别第三类型集合所包括的类型;所述第三类型集合为所述第一类型集合和所述第二类型集合的并集。
Description
技术领域
本申请涉及机器学习领域,尤其涉及一种数据处理方法、装置、设备及存储介质。
背景技术
目前,当分类模型存在不能识别的新类型时,基于新类型对应的训练数据和原有类型对应的原始数据重新进行模型的训练,从而得到能够识别新类型的分类模型,而存储所有原始数据以便支持模型的更新,占用了大量的存储资源,尤其在物联网设备等资源受限的条件下,造成存储资源的浪费。
发明内容
本申请实施例提供一种数据处理方法、装置、设备及存储介质。
本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供了一种数据处理方法,包括:
确定从历史样本中筛选的特征样本和所述特征样本的类型;所述特征样本的类型构成第一类型集合;
确定目标样本和所述目标样本的类型;所述目标样本的类型构成第二类型集合;所述第二类型集合与所述第一类型集合不同;
根据所述特征样本、所述特征样本的类型、所述目标样本以及所述目标样本的类型,调整第一分类模型的参数,得到第二分类模型;所述第一分类模型能够识别所述第一类型集合所包括的类型;所述第二分类模型能够识别第三类型集合所包括的类型;所述第三类型集合为所述第一类型集合和所述第二类型集合的并集。
第二方面,本申请实施例提供了一种数据处理装置,包括:
第一确定单元,用于确定从历史样本中筛选的特征样本和所述特征样本的类型;所述特征样本的类型构成第一类型集合;
第二确定单元,用于确定目标样本和所述目标样本的类型;所述目标样本的类型构成第二类型集合;所述第二类型集合与所述第一类型集合不同;
调整单元,用于根据所述特征样本、所述特征样本的类型、所述目标样本以及所述目标样本的类型,调整第一分类模型的参数,得到第二分类模型;所述第一分类模型能够识别所述第一类型集合所包括的类型;所述第二分类模型能够识别第三类型集合所包括的类型;所述第三类型集合为所述第一类型集合和所述第二类型集合的并集。
第三方面,本申请实施例提供一种数据处理设备,所述设备至少包括:处理器和配置为存储可执行指令的存储介质,其中:所述处理器配置为执行存储的可执行指令;
所述可执行指令配置为执行上述的数据处理方法。
第八方面,本申请实施例提供一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令配置为执行上述的数据处理方法。
本申请实施例提供的数据处理方法,结合从历史样本中筛选的特征样本和涉及新类型的目标样本对已有的能够识别历史样本的第一分类模型进行训练,得到能够识别历史样本的类型和目标样本所涉及的新类型的第二分类模型,从而充分利用已有的第一分类模型,结合从历史样本中筛选的特征样本以及目标样本的联合训练机制,自动化构建出新的第二分类模型,确保学习的准确率的同时,减少了训练第二分类模型所使用的数据的数量,从而节省了存储资源。
附图说明
在附图(其不一定是按比例绘制的)中,相似的附图标记可在不同的视图中描述相似的部件。附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例。
图1为本申请实施例的数据处理方法的一种可选的流程示意图;
图2为本申请实施例的数据处理方法的一种可选的流程示意图;
图3为本申请实施例的分类模型的一种可选的结构示意图;
图4为本申请实施例的数据处理方法的一种可选的流程示意图;
图5为本申请实施例的可持续学习的一种可选的流程示意图;
图6为本申请实施例所提供的种数据处理装置的一种可选的组成结构示意图;
图7为本申请实施例所提供的种数据处理设备的一种可选的硬件结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的具体技术方案做进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
为了便于理解本申请实施例的方案,首先对本申请实施例所应用的持续学习进行说明:
持续学习为能够根据新的训练数据学习新的概念,同时不会忘记已经学习到的概念。例如,对于一个家用机器人,一开始仅能识别跑步、走路等行为,但当增加了“摔倒”的训练数据后,其能够以较高准确率识别“摔倒”行为的同时,仍然能够以较高的准确率识别已能够识别的“跑步”、“走路”等行为。
目前持续学习的方案包括以下几种:
方案一、基于原标签数据和新获得的标签数据重新进行模型训练,以得到更新后的模型;
方案二、通过训练数据的更新和隐马尔科夫模型实现的模型的更新。
在上述方案一中,需要存储所有原数据以便支持模型的更新,造成存储资源的浪费;在上述方案二中,需要对训练数据进行不断的更新,且需要存储原有的数据以支持模型的更新,造成存储资源的浪费。
基于相关技术所存在的上述问题,本申请实施例提供一种数据处理方法,充分利用已有的第一分类模型,结合从历史样本中筛选的特征样本以及目标样本的联合训练机制,自动化构建出新的第二分类模型,确保学习的准确率的同时,减少了训练第二分类模型所使用的数据的数量,从而节省了存储资源。
本申请实施例提供的数据处理方法可应用于各种形式的作为数据处理设备的电子设备中,本申请实施提供的电子设备可以实施为各种终端,例如移动电话(手机)、平板电脑、笔记本电脑、物联网设备等具有无线通信能力的移动终端,又例如台式计算机、桌面电脑等。另外,电子设备也可以实施为一台服务器或由多台服务器构成的服务器集群,在此不加以限定。
图1为本申请实施例提供的数据处理方法的流程示意图,如图1所示,包括以下步骤:
步骤S101,确定从历史样本中筛选的特征样本和所述特征样本的类型;所述特征样本的类型构成第一类型集合。
历史样本为样本中已经被用于训练分类模型的样本。对历史样本进行筛选,将保留的历史样本称为特征样本。这里,所有特征样本的类型构成第一类型集合。
本申请实施例中,根据设定的筛选规则从历史样本中筛选特征样本,筛选规则包括以下之一:
规则1、随机选取;
规则2、根据样本的类型,每一类型的样本中选取设定数量的样本作为该类型对应的特征样本;
规则3、根据样本的类型,每一类型的样本中选取密度大于设定值的样本作为该类型对应的特征样本。
筛选规则的规则内容可根据实际需求进行设施,本申请实施例对此不进行限定。
这里,将历史样本数据训练的分类模型称为第一分类模型,第一分类模型能够识别每一历史样本的类型,即第一分类模型能够识别特征样本的类型构成的第一分类模型中的类型。
在本申请实施例中,数据处理设备可以任务的方式确定样本所在的样本集合,将不同任务包括的样本称为不同的样本集合,且每一样本集合中的数量可为一个或多个,且不同样本集合中的数量可不同,也可相同。将第i个任务的样本集合即第i个样本集合称为Di,其中,Di={Xij,j=1,2,...,n},Xij为样本集合Di的第j个样本,且样本集合Di包括有n个样本,n为大于1的整数。样本集合中的样本的类型构成的类型集合为Yi,Yi={yij,j=1,2,...,n},其中,yij为样本Xij的类型。这里,将从样本集合Di中抽取的特征样本构成的特征样本集合可称为Ei。
在本申请实施例中,每一样本可包括至少一个维度的参数,比如:不同样本为不同用户的身体指标,每个用户的身体指标包括:身高、体重、性别三个维度的参数。在本申请实施例中,对样本表征的含义以及样本所包括的维度的数量以及不同维度的参数不进行任何的限定。此时,为样本Xij的第s维度的参数,Xij的维度的数量为m,m为大于0的整数。类型yij可通过l维度的数据进行表征,即
步骤S102,确定目标样本和所述目标样本的类型;所述目标样本的类型构成第二类型集合;所述第二类型集合与所述第一类型集合不同。
目标样本为未被用于训练分类模型的样本。其中,目标样本为新的任务对应的样本集合中的样本,这里,将目标样本所在的样本集合称为目标样本集合,目标样本集合中的目标样本的类型构成第二分类集合。第一分类集合和第二分类集合不同。第二分类集合中包括有第一分类集合中不具有的类型,即包括有第一分类模型无法识别的类型。比如:第一分类集合中的类型包括:类型1、类型2和类型3,第二分类集合中的类型包括:类型4。又比如:第一分类集合中的类型包括:类型1、类型2和类型3,第二分类集合中的类型包括:类型2和类型4。再比如:第一分类集合中的类型包括:类型1、类型2和类型3,第二分类集合中的类型包括:类型4和类型5。
在本申请实施例中,可将目标样本所在的目标样本集合定义为Di,将Di中的目标样本的类型构成的第二类型集合定义为Yi。将目标样本结集合之前的D1、D2至Di-1分别称为历史样本集合,将历史样本集合D1、D2至Di-1中的历史样本训练的第一分类模型定义为Ni-1。从D1、D2至Di-1中进行特征样本的抽取得到的特征样本集合分别为:E1、E2至Ei-1。第一类型集合Ti-1包括E1、E2至Ei-1中各特征样本的类型,即Ti-1=Y1∪Y2∪…∪Yi-1。Ni-1
步骤S103,根据所述特征样本、所述特征样本的类型、所述目标样本以及所述目标样本的类型,调整第一分类模型的参数,得到第二分类模型。
所述第一分类模型能够识别所述第一类型集合所包括的类型;所述第二分类模型能够识别第三类型集合所包括的类型;所述第三类型集合为所述第一类型集合和所述第二类型集合的并集。
本申请实施例中,根据E1、E2至Ei-1中的特征样本和目标样本集合Di中的目标样本,以及E1、E2至Ei-1中的特征样本的类型构成的第一类型集合Ti-1和Di中的目标样本的类型构成的第二类型集合Yi,对第一分类模型Ni-1的参数进行调整,直到第一分类模型Ni-1收敛,将收敛后的第一分类模型Ni-1称为第二分类模型定义为Ni,第二分类模型Ni能够识别的第三分类集合Ti为第一分类集合Ti-1和第二分类集合Yi的并集,即Ti=Ti-1∪Yi=Y1∪Y2∪…∪Yi-1∪Yi,从而得到既能够识别历史样本的类型又能识别新的样本中的新类型的分类模型。
这里,可将E1、E2至Ei-1中的特征样本和目标样本集合Di中的目标样本作为第一分类模型Ni-1的输入,将得到的输出分别和第一类型集合Ti-1和第二类型集合Yi中各样本的类型进行比较,并根据比较结果对第一分类模型Ni-1的参数进行调整,再次将E1、E2至Ei-1中的特征样本和目标样本集合Di中的目标样本作为参数调整后的第一分类模型Ni-1的输入,直到第一分类模型Ni-1收敛,即将E1、E2至Ei-1中的特征样本和目标样本集合Di中的目标样本输入第一分类模型Ni-1后得出的输出结果与第一类型集合Ti-1和第二类型集合Yi中各样本的类型相同且不再变化,得到第二分类模型Ni。
这里,第二分类模型Ni的目标函数可如公式(1)所示:
本申请实施例中,对第一分类模型Ni-1训练时所使用的目标函数不进行任何的限定。
需要说明的是,在本申请实施例中,分类模型Ni-1的训练方法也可参见步骤S101至步骤S103描述的方法,此时,历史样本集合为D1、D2至Di-2,对应的特征集合分别为E1、E2至Ei-2,目标样本集合为Ei-1,根据E1、E2至Ei-2中的特征样本和Di-1中的目标样本,以及E1、E2至Ei-1中的特征样本的类型构成的类型集合Ti-2和Di-1中的目标样本的类型构成的类型集合Yi-1,对分类模型Ni-2的参数进行调整,直到分类模型Ni-2收敛,得到分类模型定义为Ni-1,分类模型Ni-1能够识别的分类集合Ti-1为分类集合Ti-2和分类集合Yi-1的并集,即Ti-1=Ti-2∪Yi-1=Y1∪Y2∪…∪Yi-1。
本申请实施例中,当样本数据中出现当前分类模型无法识别的新的类型时,将新的类型对应的任务的样本数据作为目标样本数据,将当前分类模型的训练所使用的即当前分类模型能够识别的类型对应的任务的样本数据作为历史样本数据,通过从历史样本数据中筛选的特征样本和目标样本数据对当前分类模型进行训练,直到分类模型收敛,得到能够识别新的类型的分类模型。
本申请实施例中的分类模型所采用的学习算法和网络结构可根据实际需求进行设置,本申请实施例对此不进行限定。
本申请实施例提供的数据处理方法,结合从历史样本中筛选的特征样本和涉及新类型的目标样本对已有的能够识别历史样本的第一分类模型进行训练,得到能够识别历史样本的类型和目标样本所涉及的新类型的第二分类模型,从而充分利用已有的第一分类模型,结合从历史样本中筛选的特征样本以及目标样本的联合训练机制,自动化构建出新的第二分类模型,确保学习的准确率的同时,减少了训练第二分类模型所使用的数据的数量,从而节省了存储资源。
在一些实施例中,在执行S101之前,所述方法还包括:
将所述历史样本进行降维;从降维后的历史样本中选取所述特征样本。
历史样本集合D1、D2至Di-1中的历史样本X1j、X2j、X(i-1)j进行降维,将维度数量m变换为m',从而对历史样本的大小进行压缩和加密。这里,将降维后的X1j、X2j、X(i-1)(j)可定义为且 以此类推。此时,在选取特征样本时,从降维后的历史样本构成的历史样本集合中筛选各历史样本集合中的特征样本。
这里,将历史样本集合D1、D2至Di-1中的历史样本X1j、X2j、X(i-1)j进行降维后,构成的历史样本集合可定义为其中,至中的降维后的历史样本可分别定义为f(X1j)、f(X2j)至f(X(i-1)j)。其中,f(x)对历史样本进行降维所采用的降维函数。
在本申请实施例中,对历史样本进行降维所采用的降维方法可包括:主成分分析(Principal Component Analysis,PCA)、线性判别分析(Discriminant Analysis,LDA)等线性映射方法,以及核方法(核+线性),二维化和张量化(二维+线性),流形学习等非线性映射方法。本发明实施例对降维所采用的降维方法不进行任何的限定。
在一些实施例中,在执行S101之前,所述方法还包括:从历史样本中筛选特征样本。从历史样本中筛选特征样本的执行可如图2所示,包括:
步骤S100a,根据不同历史样本的类型,将所述历史样本构成的历史样本集合划分为至少一个样本子集合。
根据一历史样本集合中不同历史样本的类型,对历史样本集合中的历史样本进行分类,将类型相同的历史样本划分至同一样本子集合中,此时,属于同一样本子集合的历史样本的类型相同,属于不同样本子集合的历史样本的类型不同。
比如:历史样本集合Di-1中的历史样本包括:样本1、样本2、样本3至样本10,对应的类型分别为:类型1、类型2、类型3、类型2、类型2、类型3、类型1、类型2、类型3、和类型1,则将样本1、样本7和样本10归为一个样本子集合,将样本2、样本4、样本5、样本8归为一个样本子集合,将样本3、样本6和样本9归为一个样本子集合。
当一个历史样本集合中所有的历史样本相同即包括的历史样本的类型为一种时,则该历史样本集合中的历史样本集合为一个样本子集合。当一个历史样本集合中的历史样本的类型为两种时,将历史样本集合划分为两个样本子集合。当一个历史样本集合中的历史样本的类型为三种时,将历史样本集合划分为三个样本子集合。可见,所划分的样本子集合的数量同历史样本集合中的历史样本的类型的数量。
步骤S100b,从所述至少一个样本子集合所包括的历史样本中选取相应样本子集合中的特征样本。
将历史样本集合划分为样本子集合后,从各样本子集合中进行各类型的特征样本的筛选,比如:从各样本子集合中随机筛选设定数量的特征样本,又比如:根据样本子集合中各历史样本的密度筛选密度大的设定数量的特征样本。
需要说明的是,在本申请实施例中,各样本子集合中筛选的特征样本的数量可相同,也可不同。本申请实施例中对筛选特征样本的筛选方法以及所筛选的数量不进行任何的限定。
在一些实施例中,步骤S100b从所述至少一个样本子集合所包括的历史样本中选取相应样本子集合中的特征样本,可执行为:
对于每一样本子集合,分别执行以下处理,得到相应样本子集合中的特征样本:确定所述样本子集合中各历史样本的密度;根据各历史样本的密度对所述样本子集合中的历史样本进行排序;将排序在前的设定数量个历史样本作为所述样本子集合的特征样本。
在从至少一个样本子集合中进行特征样本的筛选时,以样本子集合为筛选单位,分别从每一个样本子集合中筛选相应样本子集合中所包括的特征样本,即以类型为筛选单位,筛选历史样本集合中每种类型所对应的特征样本。
这里,定义历史样本集合Di-1或中类别为k的历史样本构成的样本子集合为Ik,分别计算Ik中每一历史样本的密度,并基于各历史样本的密度对Ik中的所有历史样本进行排序,将排序在前的设定数量个历史样本作为特征样本,构成Ik对应的特征样本集合e(i-1)k。
比如:同上例,一个样本子集合中的样本包括:样本2、样本4、样本5和样本8,在而分别计算样本2、样本4、样本5和样本8的密度,并根据密度对样本2、样本4、样本5和样本8进行排序,得到的排序为:样本2>样本8>样本5>样本4,当设定的数量为2时,则该样本子集合中的特征样本为样本2和样本8。
在一示例中,当通过上述筛选特征样本的方法分别从包括将样本1、样本7和样本10的一个样本子集合以及包括样本3、样本6和样本9的样本子集合中提供筛选的特征样本分别为:(样本7、样本10)、以及(样本3、样本9)时,历史样本集合合Di-1或中的特征样本包括:样本2、样本8、样本7、样本10、样本3和样本9。
在一些实施例中,所述确定所述样本子集合中各历史样本的密度,包括:
对于所述样本子集合中的每一历史样本,分别执行以下处理,得到相应历史样本的密度:确定所述历史样本分别与所述样本子集合中其他历史样本之间的距离;将所确定的距离相加,得到所述历史样本的密度。
在一些实施例中,所述根据所述特征样本、所述特征样本的类型、所述目标样本以及所述目标样本的类型,调整第一分类模型的参数,得到第二分类模型,包括:
对所述目标样本进行降维;
根据所述特征样本、所述特征样本的类型、降维后的目标样本以及所述目标样本的类型,调整第一分类模型的参数,得到第二分类模型。
在本申请实施例中,在对第一分类模型进行训练时所使用的目标样本也可为经过降维的目标样本。
目标样本集合Di中的目标样本Xij进行降维,将维度数量m变换为m',从而对历史样本的大小进行压缩和加密,得到降维后的且此时,在进行第二分类模型的训练时,基于降维后的目标样本、从历史样本中筛选的特征样本以及各样本的类型对第一分类模型的参数进行调整,得到第二分类模型。
在本申请实施例中,对历史样本进行降维所采用的降维方法可包括:PCA、LDA等线性映射方法,以及核方法(核+线性),二维化和张量化(二维+线性),流形学习等非线性映射方法。本发明实施例中,对历史样本进行降维和对目标样本进行降维所采用的降维方法可相同,也可不同。
在一些实施例中,所述根据所述特征样本、所述特征样本的类型、降维后的目标样本以及所述目标样本的类型,调整第一分类模型的参数,得到第二分类模型,包括:
对所述降维后的目标样本进行升维,得到更新后的目标样本;
将所述更新后的目标样本作为第三分类模型的输入,得到所述第三分类模型输出的将所述更新后的目标样本识别为对应类型的概率;所述第三分类模型能够识别第二类型集合所包括的类型;
根据所述特征样本、所述特征样本的类型、降维后的目标样本以及相应的更新后的目标样本对应概率,调整第一分类模型的参数,得到第二分类模型。
对降维后的目标样本f(Xij)进行升维,将f(Xij)的维度扩展至m维,得到更新后的目标样本g(f(Xij))。其中,g(x)为对降维后的目标样本进行升维所采用的升维函数。本申请中对降维后的目标样本f(Xij)进行升维所采用的升维方法不进行任何限定。
第三分类模型可定义为 能够识别的类型为目标样本的类型构成的第二类型集合Yi。将更新后的目标样本g(f(Xij))作为第三分类模型的输入,得到第三分类模型将g(f(Xij))识别为Yij的概率其中,Yij为Xij的类型。
此时,根据E1、E2至Ei-1中的特征样本和中的降维后目标样本f(Xij),以及E1、E2至Ei-1中的特征样本的类型构成的第一类型集合Ti-1和中各f(Xij)对应的g(f(Xij)),对第一分类模型Ni-1的参数进行调整,直到第一分类模型Ni-1收敛,得到第二分类模型定义为Ni。
此时,公式(2)可替换为公式(5):
公式(3)可替换为公式(6):
在一些实施例中,可通过以下步骤的执行得到第三训练模型:
将所述目标样本输入设置的网络模型,得到所述网络模型的输出结果;
将所述目标样本对应的输出结果和相应目标样本的类型进行比较,根据比较结果调整所述网络模型的参数,直到所述网络模型收敛,得到所述第三分类模型。
将目标样本集合Di中的目标样本作为设置的网络模型的输入,将得到的输出分别和第二类型集合Yi中各样本的类型进行比较,并根据比较结果对设置的网络模型的参数进行调整,再次将目标样本集合Di中的目标样本作为参数调整后的设置的网络模型的输入,直到设置的网络模型收敛,即将目标样本集合Di中的目标样本输入设置的网络模型Ni-1后得出的输出结果与第二类型集合Yi中各样本的类型相同且不再变化,得到第三分类模型
其中,l是交叉熵损失函数,如公式(8)表示:
设置的网络模型的结构可如图3所示,包括:卷积层1、池化层1、卷积层2、池化层2、全连接层和输出层。其中,卷积层1的卷积核的大小可为5×5,且卷积核的数量为32,池化层1的卷积核的大小可为2×2,卷积层1的卷积核的大小可为5×5,且卷积核的数量为64,池化层1的卷积核的大小可为2×2,全连接层的维度可为1024。
需要说明的是,本申请实施例中,对设置的网络模型的网络结构和目标函数不进行任何的限定,可根据实际需求进行限定。
下面,通过具体的应用场景对本申请实施例提供的数据处理方法进行说明。
如图4所示,包括:
其中,在步骤S401中,训练数据集为Di-1={X(i-1)j,j=1,2,...,n},其中,根据训练数据集Di-1及对应标记集Y(i-1)={y(i-1)j,j=1,2,...,n},其中,分类器为可采用的如图3所示的深度学习模型的网络结构。
步骤S402中,利用随机函数f(x)对原始数据Di-1中的样本Xi-1进行压缩加密,得到压缩后的数据f(Xi-1),压缩到m'维;利用函数g(x)将f(Xi-1)扩展到m维,得到g(f(Xi-1)),将作用于g(f(Xi-1)),构建压缩后的数据集
在步骤S403中,基于数据集得到数据集的特征点集合Ei-1;假设数据集中包括有类别ci-1个,类别为k的特征样本集合为e(i-1)k,假设数据集中类别为k的数据样本Ik中样本g与Ik中其它样本h的距离为dgh,d为距离阈值,则其中样本g的密度ρg可由下式计算得到:
则Ei-1中的类别的总数为ti-1=ci-1*t。
以上述损失函数为目标函数,使用随机梯度下降算法训练得到新的分类器Ni,如下式所示:
通过本申请实施例提供的数据处理方法,可实现如图5所示的持续学习方法,如图5所示:
通过图5所示的学习方法,结合之前任务的特征样本集合和现任务样本集合进行联合训练得到模型的机制能够在涉及到新的类别、新的训练数据增加时,充分利用已有的模型、数据,自动化构建出新的模型,以较高的准确率完成之前所有任务。
本发明实施例提供的方法中,一方面,通过原始样本中筛选的特征样本对已有模型进行训练,能够减少存储训练数据所需的存储空间,节省存储设备的资源,尤其在物联网设备的存储资源有限的条件下,效果尤为明显。另一方面,对样本进行压缩加密,降低了数据存储量的同时,保护了数据隐私。
基于前述的实施例,本申请实施例提供一种数据处理装置,该装置包括所包括的各模块、以及各模块所包括的各部件,可以通过数据处理设备中的处理器来实现;当然也可通过逻辑电路实现;在实施的过程中,处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。
图6为本申请实施例所提供的一种数据处理装置的组成结构示意图,如图6所示,该数据处理装置600包括:
第一确定单元601,用于确定从历史样本中筛选的特征样本和所述特征样本的类型;所述特征样本的类型构成第一类型集合;
第二确定单元602,用于确定目标样本和所述目标样本的类型;所述目标样本的类型构成第二类型集合;所述第二类型集合与所述第一类型集合不同;
调整单元603,用于根据所述特征样本、所述特征样本的类型、所述目标样本以及所述目标样本的类型,调整第一分类模型的参数,得到第二分类模型;所述第一分类模型能够识别所述第一类型集合所包括的类型;所述第二分类模型能够识别第三类型集合所包括的类型;所述第三类型集合为所述第一类型集合和所述第二类型集合的并集。
在其他实施例中,所述装置还包括:第一筛选单元,用于:
将所述历史样本进行降维;
从降维后的历史样本中选取所述特征样本。
在其他实施例中,所述装置还包括:第二筛选单元,用于:
根据不同历史样本的类型,将所述历史样本构成的历史样本集合划分为至少一个样本子集合;属于同一样本子集合的历史样本的类型相同,属于不同样本子集合的历史样本的类型不同;
从所述至少一个样本子集合所包括的历史样本中选取相应样本子集合中的特征样本。
在其他实施例中,第二筛选单元,还用于:
对于每一样本子集合,分别执行以下处理,得到相应样本子集合中的特征样本:
确定所述样本子集合中各历史样本的密度;
根据各历史样本的密度对所述样本子集合中的历史样本进行排序;
将排序在前的设定数量个历史样本作为所述样本子集合的特征样本。
在其他实施例中,第二筛选单元,还用于:
对于所述样本子集合中的每一历史样本,分别执行以下处理,得到相应历史样本的密度:
确定所述历史样本分别与所述样本子集合中其他历史样本之间的距离;
将所确定的距离相加,得到所述历史样本的密度。
在其他实施例中,调整单元603,还用于:
对所述目标样本进行降维;
根据所述特征样本、所述特征样本的类型、降维后的目标样本以及所述目标样本的类型,调整第一分类模型的参数,得到第二分类模型。
在其他实施例中,调整单元603,还用于:
对所述降维后的目标样本进行升维,得到更新后的目标样本;
将所述更新后的目标样本作为第三分类模型的输入,得到所述第三分类模型输出的将所述更新后的目标样本识别为对应类型的概率;所述第三分类模型能够识别第二类型集合所包括的类型;
根据所述特征样本、所述特征样本的类型、降维后的目标样本以及相应的更新后的目标样本对应概率,调整第一分类模型的参数,得到第二分类模型。
在其他实施例中,调整单元603,还用于:
将所述目标样本输入设置的网络模型,得到所述网络模型的输出结果;
将所述目标样本对应的输出结果和相应目标样本的类型进行比较,根据比较结果调整所述网络模型的参数,直到所述网络模型收敛,得到所述第三分类模型。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述的数据处理方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实施例不限制于任何特定的硬件和软件结合。
对应的,本申请实施例提供一种数据处理设备,图7为本申请实施例所提供的数据处理设备的组成结构示意图,如图7所示,所述数据处理设备700至少包括:处理器701、通信接口702和配置为存储可执行指令的存储介质703,其中:处理器701通常控制所述数据处理设备700的总体操作。
通信接口702可以使数据处理设备通过网络与其他终端或服务器通信。
存储介质703配置为存储由处理器701可执行的指令和应用,还可以缓存待处理器701和数据处理设备700中各模块待处理或已处理的数据,可以通过闪存(FLASH)或随机访问存储器(Random Access Memory,RAM)实现。
在示例性实施例中,本发明实施例还提供了一种存储介质,即计算机可读存储介质,例如包括计算机程序的存储器,上述计算机程序可由数据处理设备的处理器701执行,以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器、磁碟或者光盘等各种可以存储程序代码的介质。或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (11)
1.一种数据处理方法,其特征在于,所述方法包括:
确定从历史样本中筛选的特征样本和所述特征样本的类型;所述特征样本的类型构成第一类型集合;
确定目标样本和所述目标样本的类型;所述目标样本的类型构成第二类型集合;所述第二类型集合与所述第一类型集合不同;
根据所述特征样本、所述特征样本的类型、所述目标样本以及所述目标样本的类型,调整第一分类模型的参数,得到第二分类模型;所述第一分类模型能够识别所述第一类型集合所包括的类型;所述第二分类模型能够识别第三类型集合所包括的类型;所述第三类型集合为所述第一类型集合和所述第二类型集合的并集。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述历史样本进行降维;
从降维后的历史样本中选取所述特征样本。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据不同历史样本的类型,将所述历史样本构成的历史样本集合划分为至少一个样本子集合;属于同一样本子集合的历史样本的类型相同,属于不同样本子集合的历史样本的类型不同;
从所述至少一个样本子集合所包括的历史样本中选取相应样本子集合中的特征样本。
4.根据权利要求3所述的方法,其特征在于,所述从所述至少一个样本子集合所包括的历史样本中选取相应样本子集合中的特征样本,包括:
对于每一样本子集合,分别执行以下处理,得到相应样本子集合中的特征样本:
确定所述样本子集合中各历史样本的密度;
根据各历史样本的密度对所述样本子集合中的历史样本进行排序;
将排序在前的设定数量个历史样本作为所述样本子集合的特征样本。
5.根据权利要求4所述的方法,其特征在于,所述确定所述样本子集合中各历史样本的密度,包括:
对于所述样本子集合中的每一历史样本,分别执行以下处理,得到相应历史样本的密度:
确定所述历史样本分别与所述样本子集合中其他历史样本之间的距离;
将所确定的距离相加,得到所述历史样本的密度。
6.根据权利要求1或2所述的方法,其特征在于,所述根据所述特征样本、所述特征样本的类型、所述目标样本以及所述目标样本的类型,调整第一分类模型的参数,得到第二分类模型,包括:
对所述目标样本进行降维;
根据所述特征样本、所述特征样本的类型、降维后的目标样本以及所述目标样本的类型,调整第一分类模型的参数,得到第二分类模型。
7.根据权利要求6所述的方法,其特征在于,所述根据所述特征样本、所述特征样本的类型、降维后的目标样本以及所述目标样本的类型,调整第一分类模型的参数,得到第二分类模型,包括:
对所述降维后的目标样本进行升维,得到更新后的目标样本;
将所述更新后的目标样本作为第三分类模型的输入,得到所述第三分类模型输出的将所述更新后的目标样本识别为对应类型的概率;所述第三分类模型能够识别第二类型集合所包括的类型;
根据所述特征样本、所述特征样本的类型、降维后的目标样本以及相应的更新后的目标样本对应概率,调整第一分类模型的参数,得到第二分类模型。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
将所述目标样本输入设置的网络模型,得到所述网络模型的输出结果;
将所述目标样本对应的输出结果和相应目标样本的类型进行比较,根据比较结果调整所述网络模型的参数,直到所述网络模型收敛,得到所述第三分类模型。
9.一种数据处理装置,其特征在于,所述装置包括:
第一确定单元,用于确定从历史样本中筛选的特征样本和所述特征样本的类型;所述特征样本的类型构成第一类型集合;
第二确定单元,用于确定目标样本和所述目标样本的类型;所述目标样本的类型构成第二类型集合;所述第二类型集合与所述第一类型集合不同;
调整单元,用于根据所述特征样本、所述特征样本的类型、所述目标样本以及所述目标样本的类型,调整第一分类模型的参数,得到第二分类模型;所述第一分类模型能够识别所述第一类型集合所包括的类型;所述第二分类模型能够识别第三类型集合所包括的类型;所述第三类型集合为所述第一类型集合和所述第二类型集合的并集。
10.一种数据处理设备,其特征在于,所述设备至少包括:处理器和配置为存储可执行指令的存储介质,其中:所述处理器配置为执行存储的可执行指令;
所述可执行指令配置为执行上述权利要求1至8任一项所提供的数据处理方法。
11.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令配置为执行上述权利要求1至8任一项所提供的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910765590.XA CN112396084A (zh) | 2019-08-19 | 2019-08-19 | 数据处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910765590.XA CN112396084A (zh) | 2019-08-19 | 2019-08-19 | 数据处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112396084A true CN112396084A (zh) | 2021-02-23 |
Family
ID=74603509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910765590.XA Pending CN112396084A (zh) | 2019-08-19 | 2019-08-19 | 数据处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112396084A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080205750A1 (en) * | 2007-02-28 | 2008-08-28 | Porikli Fatih M | Method for Adaptively Boosting Classifiers for Object Tracking |
CN102568236A (zh) * | 2010-12-08 | 2012-07-11 | 罗伯特·博世有限公司 | 识别交通标志并将其与交通标志信息比较的方法和装置 |
WO2015124006A1 (zh) * | 2014-02-19 | 2015-08-27 | 清华大学 | 一种具有自定义功能的音频检测分类方法 |
CN106126751A (zh) * | 2016-08-18 | 2016-11-16 | 苏州大学 | 一种具有时间适应性的分类方法及装置 |
CN106919980A (zh) * | 2017-01-24 | 2017-07-04 | 南京大学 | 一种基于神经节分化的增量式目标识别系统 |
CN107273500A (zh) * | 2017-06-16 | 2017-10-20 | 中国电子技术标准化研究院 | 文本分类器生成方法、文本分类方法、装置及计算机设备 |
CN109492673A (zh) * | 2018-10-19 | 2019-03-19 | 南京理工大学 | 一种基于谱聚类采样的不平衡数据预测方法 |
-
2019
- 2019-08-19 CN CN201910765590.XA patent/CN112396084A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080205750A1 (en) * | 2007-02-28 | 2008-08-28 | Porikli Fatih M | Method for Adaptively Boosting Classifiers for Object Tracking |
CN102568236A (zh) * | 2010-12-08 | 2012-07-11 | 罗伯特·博世有限公司 | 识别交通标志并将其与交通标志信息比较的方法和装置 |
WO2015124006A1 (zh) * | 2014-02-19 | 2015-08-27 | 清华大学 | 一种具有自定义功能的音频检测分类方法 |
CN106126751A (zh) * | 2016-08-18 | 2016-11-16 | 苏州大学 | 一种具有时间适应性的分类方法及装置 |
CN106919980A (zh) * | 2017-01-24 | 2017-07-04 | 南京大学 | 一种基于神经节分化的增量式目标识别系统 |
CN107273500A (zh) * | 2017-06-16 | 2017-10-20 | 中国电子技术标准化研究院 | 文本分类器生成方法、文本分类方法、装置及计算机设备 |
CN109492673A (zh) * | 2018-10-19 | 2019-03-19 | 南京理工大学 | 一种基于谱聚类采样的不平衡数据预测方法 |
Non-Patent Citations (2)
Title |
---|
范支菊;张公敬;杨嘉东;: "基于密度裁剪的SVM分类算法", 青岛大学学报(自然科学版), no. 03, 15 August 2018 (2018-08-15) * |
黄伟楠;朱秋煜;王越;王嘉扬;: "基于典型样本的卷积神经网络增量学习研究", 电子测量技术, no. 06, 23 March 2018 (2018-03-23) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Supervised feature selection with a stratified feature weighting method | |
Fawagreh et al. | Random forests: from early developments to recent advancements | |
CN101937513B (zh) | 信息处理设备、信息处理方法 | |
JP4697670B2 (ja) | 識別用データ学習システム、学習装置、識別装置及び学習方法 | |
WO2019125874A1 (en) | Neural entropy enhanced machine learning | |
CN112528025A (zh) | 基于密度的文本聚类方法、装置、设备及存储介质 | |
CN110046634B (zh) | 聚类结果的解释方法和装置 | |
Meng et al. | Adaptive scaling of cluster boundaries for large-scale social media data clustering | |
CN110414550B (zh) | 人脸识别模型的训练方法、装置、系统和计算机可读介质 | |
CN109903082B (zh) | 基于用户画像的聚类方法、电子装置及存储介质 | |
KR20190135129A (ko) | 문서 구조와 딥러닝을 이용한 문서 분류 장치 및 방법 | |
Teng et al. | Customer credit scoring based on HMM/GMDH hybrid model | |
CN109829154B (zh) | 基于语义的人格预测方法、用户设备、存储介质及装置 | |
CN112668482B (zh) | 人脸识别训练方法、装置、计算机设备及存储介质 | |
US20220383157A1 (en) | Interpretable machine learning for data at scale | |
WO2023279694A1 (zh) | 车辆置换预测方法、装置、设备及存储介质 | |
CN115879508A (zh) | 一种数据处理方法及相关装置 | |
CN110232154B (zh) | 基于随机森林的产品推荐方法、装置及介质 | |
CN113656699B (zh) | 用户特征向量确定方法、相关设备及介质 | |
CN113010705A (zh) | 标签预测方法、装置、设备及存储介质 | |
JP5929532B2 (ja) | イベント検出装置、イベント検出方法およびイベント検出プログラム | |
CN111382254A (zh) | 电子名片推荐方法、装置、设备及计算机可读存储介质 | |
CN116304518A (zh) | 用于信息推荐的异质图卷积神经网络模型构建方法及系统 | |
CN112396084A (zh) | 数据处理方法、装置、设备及存储介质 | |
Kwon et al. | Improved memory-based collaborative filtering using entropy-based similarity measures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |