CN111626376A - 一种基于判别联合概率的域适配方法及系统 - Google Patents
一种基于判别联合概率的域适配方法及系统 Download PDFInfo
- Publication number
- CN111626376A CN111626376A CN202010515089.0A CN202010515089A CN111626376A CN 111626376 A CN111626376 A CN 111626376A CN 202010515089 A CN202010515089 A CN 202010515089A CN 111626376 A CN111626376 A CN 111626376A
- Authority
- CN
- China
- Prior art keywords
- domain
- data set
- joint probability
- label
- source domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006978 adaptation Effects 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000013145 classification model Methods 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 13
- 238000013480 data collection Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000005315 distribution function Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 239000004576 sand Substances 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 3
- 238000012850 discrimination method Methods 0.000 claims 1
- 238000009826 distribution Methods 0.000 abstract description 39
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000013508 migration Methods 0.000 description 9
- 230000005012 migration Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 7
- 238000013526 transfer learning Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000003042 antagnostic effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001617 migratory effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供的基于判别联合概率的域适配方法及系统,包括获取历史流量数据集;根据历史流量数据集,构建带标签的源域数据集和带标签的目标域数据集;根据带标签的源域数据集和带标签的目标域数据集,计算源域和目标域之间的联合概率差异;根据联合概率差异获取最小化联合概率差异;基于最小化联合概率差异,将带标签的源域数据集向带标签的目标域数据集进行域适配。本发明实施例提供的域适配方法及系统,通过直接计算最小化联合概率差异,度量边际分布和条件分布的差异,构造了对实质分布差异有效且鲁棒的特征表示,提高了域的可转移性和类的可识别性。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种基于判别联合概率的域适配方法及系统。
背景技术
近年来,随着跨领域知识之间适应问题的出现,开发迁移学习算法引起了越来越多的研究兴趣。在现实应用中,能够获取的源域与目标域往往存在较大的差异。因此,如何有效的利用有标注的源域数据集并迁移到相关的无标注的目标域,受到极大的关注和发展。迁移学习在图像分类和标记、目标识别和特征学习等方面都有很好的应用前景。迁移学习不要求源域数据与目标域数据服从同一分布,能通过共享子空间或者共享特征把从源域学习到的信息迁移转换到目标域中,以解决目标域带标签样本数据量少的分类问题。
数据集偏移是机器学习领域中一个不容忽视的问题。数据集是描述现实世界物体的片面化表述,在描述同一个物体集合的数据集上训练相同结构的模型,泛化能力往往存在偏差。域适配被尝试着用于解决数据集偏移问题,以基于源领域和目标领域间的相似性及差异性,提高模型在目标领域数据上的表现。域适配是迁移学习的一类方法,该方法不再要求训练数据与测试数据分布相同,可以利用相关领域的大量数据辅助目标域任务进行分类学习,能有效的解决源域与目标数据分布不同的分类学习问题。因此,随着迁移学习的发展,许多学者开始研究域适配问题。
其一,现有技术1提供了一种基于深度网络和对抗技术的领域适配方法,其中涉及到深度学习,迁移学习,领域适配,卷积神经网络以及对抗网络等技术。该方法在微调Alexnet的基础上,增加两个对抗子网,用于对抗式的修正不同领域样本间的差异,以在high-level层学习到可共享特征。最终训练好的网络可以有效的替代人工标记过程,从而获得更多,更准确的有标记样本。
现有技术1的方案是通过在微调Alexnet的基础上,增加两个对抗子网,用于对抗式的修正不同领域样本间的差异,在high-level层学习到可共享特征。该算法在新的目标风险误差上界基础上做出了创新,算法流程主要包括初始化阶段和网络训练阶段。在初始化阶段,根据新的误差上界和构建新的神经元层,同时增加相应的损失和正则化项,并对网络和数据集进行初始化工作;在训练阶段,通过概率闭值取代原有超参数,根据概率迭代的SGD算法运行若干个迭代周期,直至满足条件,训练结束。该方法虽然能够对域进行适配,但是神经网络的迭代次数过多,导致耗时较长。
其二,现有技术2提供了一种基于表示学习和迁移学习的领域适配方法,该方法基于源域的少量真实标签实现,从而减少对有标签数据的依赖。通过Center Loss与SoftmaxLoss联合损失函数能够使得源域的数据特征扩大类间距,缩小类内距,从而获得源域的可分离的特征。通过定义源域特征和目标域特征之间的距离的损失函数即MMD Loss损失函数,能够再通过神经网络的训练过程降低MMD Loss损失函数的值,从而拉近源域和目标域的距离,最终提高目标域的准确率。
现有技术2的方案,首先针对源域和目标域的数据,通过CNN模型的卷积池化提取特征;然后,借助于Ceter loss与SoftWare Loss联合损失函数获得可分离的源域特征;最后,通过MMD Loss拉近源域特征,即与目标域特征分布的距离。该方法虽然能够提高目标域的准确率,但是不能够很好地提高不同域之间的差异。
其三,现有技术3提供了一种基于K-means和MMD的人脸图像深度聚类方法。该方法通过自动编码器提取图像特征信息,结合K-means算法和MMD距离确定loss函数,通过训练来对特征信息进行修正,最终有效提高整个无监督算法对人脸识别的分类准确率。将MMD作为损失函数,从而增加类的可识别性,为聚类算法提供辅助作用,从而提高聚类算法对图像数据集的聚类准确率。但是该方法虽然能够提高聚类算法的准确率,但是具有运用上的局限性。
有鉴于此,亟需提供一种运算更简单,更准确,且适应性强的域适配方法。
发明内容
本发明实施例提供一种基于判别联合概率的域适配方法及系统,用于克服或部分解决现有技术在基于判别联合概率的域适配中存在的安全性能差、操作步骤繁琐等缺陷。
第一方面,本发明实施例提供一种基于判别联合概率的域适配方法,主要包括:
获取历史流量数据集;根据历史流量数据集进行预处理,构建带标签的源域数据集和带标签的目标域数据集;根据带标签的源域数据集和带标签的目标域数据集,计算源域和目标域之间的联合概率差异;根据联合概率差异获取最小化联合概率差异;基于最小化联合概率差异,将带标签的源域数据集向带标签的目标域数据集进行域适配。
作为可选地,上述计算源域和目标域之间的联合概率差异,主要包括:
计算带标签的源域数据集和所述带标签的目标域数据集之间相同类别的联合概率差异;计算带标签的源域数据集和带标签的目标域数据集之间不同类别的联合概率差异。
作为可选地,上述计算带标签的源域数据集和带标签的目标域数据集之间相同类别的联合概率差异,具体为:
计算带标签的源域数据集和带标签的目标域数据集之间相同类别的联合概率差异,具体为:
其中,C为源域的标签集、c为源域标签的类别、为目标域的标签集为目标域标签的类别;Mt为源域与目标域之间相同类别的联合概率差异、Md为源域与目标域之间不同类别之间的联合概率差异;Xs为源域数据集中的数据、Xt为目标域数据集中的数据;为源域的c类标签、为目标域的类标签;P为概率;ns为源域中的数据量,nt为目标域的数据量,为第i个源域的数据;A为线性映射的权重矩阵、AT为A的转置矩阵;为第j个目标域数据;为目标域中标签为的数据量;为源域中标签为c的数据量。
作为可选地,所述根据联合概率差异获取最小化联合概率差异,具体为:
其中,d(Ds,Dt)为联合概率差异;Ds为源域、Dt为目标域;μ为权衡参数,且μ>0;F为分布函数;Ns表示源域独热编码标签归一化矩阵,Nt表示预测的目标域独热编码标签归一化矩阵;Ys表示源域独热编码标签矩阵,表示预测的目标域独热编码标签矩阵;ns为源域中的数据量,nt为目标域的数据量;Ys(:,c)表示Ys的第c列,表示的第2行及以后;Hs和Ht均为中间变量。
作为可选地,上述对历史流量数据集进行预处理,构建带标签的源域数据集和带标签的目标域数据集,主要包括:
对历史流量数据集中的数据进行哑变量编码,获取数值型特征值集;对数值型特征值集进行Z-score标准化处理,获取标准化数据集;将标准化数据集按预设比例划分为带标签的源域训练集和带标签的源域测试集;将带标签的源域训练集确定为带标签的源域数据集,将带标签的源域测试集确定为带标签的目标域数据集。
作为可选地,上述基于最小化联合概率差异,完成将带标签的源域数据集向所述带标签的目标域数据集的域适配,主要包括:
S51,构建KNN分类模型;
S51,将带标签的源域数据集和带标签的目标域数据集输入至KNN分类模型;
S53,KNN分类模型根据最小化联合概率差异,输出分类结果;
S54,若分类结果的准确率低于预设阈值,则将域适配后的带标签的源域数据集和带标签的目标域数据集输入至KNN分类模型进行再分类,并获取此时的最小化联合概率差异;
S55,迭代执行S53-S54,直至分类结果的准确率大于或等于预设阈值,获取由所述KNN分类模型输出的带标签的目标域数据集。
作为可选地,上述KNN分类模型的目标函数可以为:
J=Jclassifier+d(Ds,Dt)
其中,N为类别的数量;yic为指示变量,若类别c和数据i的类别相同就是1,否则是0;pic为数据i属于类别c的预测概率;d(Ds,Dt)为联合概率差异;Ds为源域、Dt为目标域;Jclassifier为交叉熵损失函数。
第二方面,本发明实施例提供一种基于判别联合概率的域适配系统,主要包括:数据收集单元、数据集构建单元、联合概率差异运算单元、联合概率差异比对单元和域适配迭代单元。
数据收集单元用于获取历史流量数据集;数据集构建单元用于根据历史流量数据集,构建带标签的源域数据集和带标签的目标域数据集;联合概率差异运算单元用于根据带标签的源域数据集和带标签的目标域数据集,计算源域和目标域之间的联合概率差异;联合概率差异比对单元用于根据联合概率差异获取最小化联合概率差异;域适配迭代单元用于基于最小化联合概率差异,将带标签的源域数据集向带标签的目标域数据集进行域适配。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现如第一方面任一所述的基于判别联合概率的域适配方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面任一所述的基于判别联合概率的域适配方法的步骤。
本发明实施例提供的基于判别联合概率的域适配方法及系统,通过直接计算最小化联合概率差异,度量边际分布和条件分布的差异,构造了对实质分布差异有效且鲁棒的特征表示,提高了域的可转移性和类的可识别性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于判别联合概率的域适配方法流程示意图;
图2为本发明实施例提供的一种基于判别联合概率的域适配系统结构示意图;
图3为本发明实施例提供的一种电子设备的实体结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
迁移学习的核心问题是,找到新问题和原问题之间的相似性,才可以顺利地实现知识的迁移。迁移学习:是指利用数据、任务、或模型之间的相似性,将在旧领域学习过的模型,应用于新领域的一种学习过程。其基本思想是对源域样本进行重采样,从而使得重采样后的源域样本和目标域样本分布基本一致,在重采样的样本集合上重新学习分类器
在迁移学习中,有两个基本的概念,即领域(Domain)和任务(Task),一般定义如下:Domain是进行学习的主体,主要由两部分构成:数据和生成这些数据的概率分布。特别地,因为涉及到迁移,所以对应于两个基本的领域:源领域(Source Domain)和目标领域(Target Domain)。源领域就是有知识、有大量数据标注的领域,是被迁移的对象;目标领域就是最终要赋予知识、赋予标注的对象。知识从源领域传递到目标领域,就完成了迁移。值得注意的是,概率分布P通常只是一个逻辑上的概念,即一般认为不同领域有不同的概率分布,却一般不给出(也难以给出)P的具体形式。
随着迁移计算的发展,迁移学习不再要求两个相关领域数据服从相同的概率分布,目的是通过共享子空间或者共享特征把从源域学习到的信息迁移转换到目标域中,以解决目标域带标签样本数据量较少甚至一个都没有的分类问题。其中,域适配是迁移学习的一类方法,该方法不再要求训练数据与测试数据分布相同,可以利用相关领域的大量数据辅助目标域任务进行分类学习,很好的解决了源域与目标域的数据分布不同的分类学习问题。
有鉴于此,本发明实施例提供一种基于判别联合概率的域适配方法,如图1所示,包括但不限于:
步骤S1,获取历史流量数据集;
步骤S2,根据历史流量数据集,构建带标签的源域数据集和带标签的目标域数据集;
步骤S3,根据带标签的源域数据集和带标签的目标域数据集,计算源域和目标域之间的联合概率差异;
步骤S4,根据联合概率差异获取最小化联合概率差异;
步骤S5,基于最小化联合概率差异,将带标签的源域数据集向带标签的目标域数据集进行域适配。
跨域问题中,通常从不同的概率分布中抽取源数据和目标数据。因此,迁移学习的一个主要计算问题是减少域之间的分布差异。现有的方法大多是基于边际分布或条件分布来度量分布差异。然而,源域和目标域在边际分布和条件分布上都是不同的,并且目标域没有标记数据。
本发明实施例提供的基于判别联合概率的域适配方法,首先,获取构建数据集的历史流量数据,包括:源域数据集Xs、源域标签Ys,目标域数据集Xt、目标域标签Yt。其中,源域数据集Xs中的每一类别分别标注有一个源域标签;目标域数据集Xt中的每一类别分别标注有一个目标域标签。
进一步地,利用非参数最大平均偏差(MMD)来度量边际分布和条件分布的差异,构造了对实质分布差异有效且鲁棒的特征表示,即利用数学统计方法,通过计算获取到源域与目标域这两个域之间的联合概率差异,并获取到联合概率差异的极小值——最小化联合概率差异。
最后,利用最小化联合概率差异作为度量边际分布和条件分布的差异标准,利用迭代验证的方法,实现将带标签的源域数据集向带标签的目标域数据集的域适配。
本发明实施例提供的基于判别联合概率的域适配方法,通过直接计算最小化联合概率差异,度量边际分布和条件分布的差异,构造了对实质分布差异有效且鲁棒的特征表示,提高了域的可转移性和类的可识别性。
基于上述实施例的内容,作为一种可选实施例,上述计算源域和目标域之间的联合概率差异的方法,具体可以包括:计算带标签的源域数据集和带标签的目标域数据集之间相同类别的联合概率差异;计算带标签的源域数据集和带标签的目标域数据集之间不同类别的联合概率差异。
具体地,上述计算带标签的源域数据集和带标签的目标域数据集之间相同类别的联合概率差异,具体可以为:
上述计算带标签的源域数据集和所述带标签的目标域数据集之间相同类别的联合概率差异,具体可以为:
其中,C为源域的标签集、c为源域标签的类别;为目标域的标签集、为目标域标签的类别;Mt为源域与目标域之间相同类别的联合概率差异、Md为源域与目标域之间不同类别之间的联合概率差异;Xs为源域数据集中的数据、Xt为目标域数据集中的数据;为源域的c类标签、为目标域的类标签;P为概率;ns为源域中的数据量,nt为目标域的数据量,为第i个源域的数据;A为线性映射的权重矩阵、AT为A的转置矩阵;为第j个目标域数据;为中标签为的数据量;为源域中标签为c的数据量。
基于上述实施例的内容,作为一种可选实施例,根据联合概率差异获取最小化联合概率差异,具体为:
其中,d(Ds,Dt)为联合概率差异;Ds为源域、Dt为目标域;μ为权衡参数,且μ>0;F为分布函数;Ns表示源域独热编码标签归一化矩阵,Nt表示预测的目标域独热编码标签归一化矩阵;Ys表示源域独热编码标签矩阵,表示预测的目标域独热编码标签矩阵;ns为源域中的数据量,nt为目标域的数据量;Ys(:,c)表示Ys的第c列,表示的第2行及以后;Hs和Ht均为中间变量。
本发明实施例提供的基于判别联合概率的域适配方法,在进行域适配之前,先确定出最小化联合概率差异作为最大平均偏差,并基于判别联合概率非参数最大平均偏差(MMD)的域适配方法,通过扩展MMD来度量边际分布和条件分布的差异,构造了对实质分布差异有效且鲁棒的特征表示,同时通过直接考虑联合概率MMD,相较于其他的部分MMD更加准确,可以同时提高域的可转移性和类的可识别性。
基于上述实施例的内容,作为一种可选实施例,上述步骤S2中所述的对历史流量数据集进行预处理,构建带标签的源域数据集和带标签的目标域数据集,包括但不限于以下步骤:
步骤S21,对历史流量数据集中的数据进行哑变量编码,获取数值型特征值集;步骤S22,对数值型特征值集进行Z-score标准化处理,获取标准化数据集;步骤S23,将标准化数据集按预设比例划分为带标签的源域训练集和带标签的源域测试集;步骤S24,将带标签的源域训练集确定为所述带标签的源域数据集,将所述带标签的源域测试集确定为带标签的目标域数据集。
具体地,步骤S21,将数据中的字符型特征值转换为数值型特征值,即对字符型特征进行哑变量编码,实现将特征由41维变成了122维,将类别标签由1维变成2维。
其中,哑变量编码又称虚拟变量编码,在虚拟变量的设置中,将基础类型、肯定类型的特征取值设为1;而将比较类型、否定类型的特征取值设为0。本发明实施例通过对字符型特征进行哑变量编码转化成字符型特征值,一方面能够分离异常因素的影响,用时可以检验不同属性类型对因变量的作用;另一方面,能够进一步提高模型的精度,相当于将不同属性的样本合并,扩大了样本容量,从而增加了误差自由度,从而降低了误差方差。
步骤S22,将数据进行Z-score标准化处理,得到标准化后的数据集。
其中,Z-score标准化处理,又称标准分数(Z分数)处理,是将一个数与平均数的求差后再除以标准差的运算步骤。这一数据处理过程是以标准差为尺子去度量某一原始分数偏离平均数的距离。这一距离含有几个标准差,则z分数则为几,即处理后获取的Z分数是以标准差为单位的离均差。其计算公式可以为:Z=(x-μ)/σ;其中Z为标准分数;x为某一数值型特征值的分数,μ为平均数,σ为标准差。
进一步地,在实现对标准化数据集中的所有数据的标准化处理后,将其按预设比例划分为带标签的源域训练集和带标签的源域测试集。上述预设比例可以根据训练和测试精度的需求进行设定,例如可以设置为7:3或8:2等。
最后,将划分后的获取的源域训练集作为源域数据集,将源域测试集作为目标域数据集,按照上述步骤S3-S5的步骤进行域适配,在此将不作赘述。
本发明实施例提供的基于判别联合概率的域适配方法,。通过对获取的任一历史流量数据集进行数据的统一编码以及标准化处理,能够有效的提高后期联合概率差异化计算的计算量以及计算精度,进而提高了域适配的效率。
基于上述实施例的内容,作为一种可选实施例,步骤S5所述的基于最小化联合概率差异,完成将带标签的源域数据集向所述带标签的目标域数据集的域适配,主要包括以下步骤:
S51,构建KNN分类模型;
S52,将带标签的源域数据集和带标签的目标域数据集输入至KNN分类模型;
S53,KNN分类模型根据最小化联合概率差异,输出分类结果;
S54,若分类结果的准确率低于预设阈值,则将域适配后的带标签的源域数据集和带标签的目标域数据集输入至KNN分类模型进行再分类,并获取此时的最小化联合概率差异;
S55,迭代执行S53-S54,直至分类结果的准确率大于或等于预设阈值,获取由KNN分类模型输出的带标签的目标域数据集。
步骤S5主要是在计算获取到源域与目标域之间的最小化联合概率差异之后,通过将其扩展至分类模型中,以实现度量边际分布和条件分布的差异,进而实现源域与目标域的适配。通过上述迭代步骤,构造了对实质分布差异有效且鲁棒的特征表示,同时,通过直接考虑联合概率MMD,本发明实施例提供的域适配方法,比考虑其他的部分的MMD更加准确,可以同时提高域的可转移性和类的可识别性。
具体地,上述KNN分类模型的目标函数可以设置为:
J=Jclassifier+d(Ds,Dt)
其中,N为类别的数量;yic为指示变量,若类别c和数据i的类别相同就是1,否则是0;pic为数据i属于类别c的预测概率;d(Ds,Dt)为联合概率差异;Ds为源域、Dt为目标域;Jclassifier为交叉熵损失函数。
为了详细的说明本发明实施例提供的基于判别联合概率的域适配方法,以下列实施例进行详细的说明:
首先,在步骤S1中。获取NSL-KDD数据集,并从中构建域数据集Xs、源域标签Ys,目标域数据集Xt、目标域标签Yt,部分原始数据显示如表1所示:
表1
作为一种可选的实施例,在步骤S2中,对步骤S1中获取的数据统一进行预处理,具体步骤如下:
S21:将数据中的字符型特征值转换为数值型特征值,即对字符型特征进行哑变量编码,特征由41维变成了122维,类别标签由1维变成2维;
S22:将数据进行Z-score标准化处理,得到标准化后的数据集,部分数据显示如表2所示:
表2
进一步地,将获取的NSL-KDD数据集中的训练集按7:3划分为练集和源域测试集,并将NSL-KDD数据集中的测试集作为目标域数据集,则获取的源域数据集有125973条,目标域数据集有22544条。
进一步地,在步骤S3中,计算源域和目标域间的联合概率差异,可以包括:
步骤S31,计算源域和目标域相同类别的联合概率差异;
其中,C为源域的标签集、c为其中标签的类别;为目标域的标签集、为其中标签的类别;Mt为源域与目标域之间相同类别的联合概率差异、Md为源域与目标域之间不同类别之间的联合概率差异;Xs为源域数据集中的数据、Xt为目标域数据集中的数据;为源域的c类标签、为目标域的类标签;P为概率;ns为源域中的数据量,nt为目标域的数据量,为第i个源域的数据;A为线性映射的权重矩阵、AT为A的转置矩阵;为第j个目标域数据;为目标域中标签为的数据量;为源域中标签为c的数据量。
步骤S32,计算源域和目标域不同类别的联合概率差异;
步骤S4,根据联合概率差异获取最小化联合概率差异,具体为:
其中,d(Ds,Dt)为联合概率差异;Ds为源域、Dt为目标域;μ为权衡参数,且μ>0;F为分布函数;Ns表示源域独热编码标签归一化矩阵,Nt表示预测的目标域独热编码标签归一化矩阵;Ys表示源域独热编码标签矩阵,表示预测的目标域独热编码标签矩阵;ns为源域中的数据量,nt为目标域的数据量;Ys(:,c)表示Ys的第c列,表示的第2行及以后;Hs和Ht均为中间变量。
进一步地,在步骤S5中,包括步骤S51,构建KNN分类模型,测试性能。
将当前获取的带标签的源域数据集和带标签的目标域数据集输入至KNN分类模型中,进行模型的分类。
KNN分类模型基于两个域当前的最小化联合概率差异,输出分类结果。其中,必然有一部分源域数据已经实现了域适配,从而造成带标签的源域数据集和带标签的目标域数据集中数据量的变化,进而影响两个域之间的最小化联合概率差异。
根据预设的阈值,对分类结果进行判断,例如将预设阈值设置为分类结果的准确率为85%。在分类结果的准确率的低于该阈值时,则表明域适配的结果不理想。
此时,将步骤S53中获取的经过了分类处理后、新的带标签的源域数据集和带标签的目标域数据集再次输入至KNN分类模型,以实现迭代分类处理,直至分类结果的准确率达到预设阈值,则最终获取由KNN分类模型输出的分类结果中的带标签的目标域数据集,从而实现了将带标签的源域数据集向带标签的目标域数据集的域适配。
具体地,至上述实施例的基础上,如表3所示为分类模型输出各次迭代过程的准确率。
表3
迭代次数 | 准确率 |
1 | 0.538 |
5 | 0.813 |
10 | 0.815 |
15 | 0.815 |
20 | 0.816 |
如表3所示,若预设阈值设置为0.816,则在进行到第20次迭代后,则终止迭代,输出的分类结果则为域适配的结果。
本发明实施例提供一种基于判别联合概率的域适配系统,如图2所示,包括但不限于:数据收集单元1、数据集构建单元2、联合概率差异运算单元3、联合概率差异比对单元4和域适配迭代单元5,其中:
数据收集单元1主要用于获取历史流量数据集;数据集构建单元2主要用于对历史流量数据集进行预处理,构建带标签的源域数据集和带标签的目标域数据集;联合概率差异运算单元3主要用于根据带标签的源域数据集和所述带标签的目标域数据集,计算源域和目标域之间的联合概率差异;联合概率差异比对单元4用于根据联合概率差异获取最小化联合概率差异;域适配迭代单元5主要用于基于最小化联合概率差异,将带标签的源域数据集向带标签的目标域数据集进行域适配。
作为一种可选实施例,本发明实施例提供的基于判别联合概率的域适配系统,首先利用数据收集单元1从历史数据库中截取部分数据集,以构建历史流量数据集。其中获取数据及的方法可以是采用NFDS-HM网络流量数据采样方法来实现,对此本实施例不作具体地限定。进一步地,可以利用数据集构建单元2对历史流量数据集中的所有流量数据进行归一化、标准化、数值化处理,并将处理后的数据集,划分为源域数据集Xs、源域标签Ys,目标域数据集Xt、目标域标签Yt。其中,源域数据集Xs中的每一类别分别标注有一个源域标签;目标域数据集Xt中的每一类别分别标注有一个目标域标签。
进一步地,利用联合概率差异运算单元3基于非参数最大平均偏差(MMD)来度量边际分布和条件分布的差异,以计算获取到源域和目标域之间的联合概率差异。
进一步地,可以利用联合概率差异比对单元4根据计算到的各个不同的源域与目标域之间的联合概率差异,确定出最小联合概率差异。
最后,域适配迭代单元5基于联合概率差异比对单元4所确定的最小联合概率差异,作为度量边际分布和条件分布的差异标准,利用迭代验证的方法,实现将带标签的源域数据集向带标签的目标域数据集的域适配。
需要说明的是,本发明实施例提供的基于判别联合概率的域适配系统,在具体运行时,可用于执行上述任一实施例中所述的基于判别联合概率的域适配方法,在此不作一一赘述。
本发明实施例提供的基于判别联合概率的域适配系统,通过直接计算最小化联合概率差异,度量边际分布和条件分布的差异,构造了对实质分布差异有效且鲁棒的特征表示,提高了域的可转移性和类的可识别性。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行如下方法:获取历史流量数据集;对历史流量数据集进行预处理,构建带标签的源域数据集和带标签的目标域数据集;根据带标签的源域数据集和带标签的目标域数据集,计算源域和目标域之间的联合概率差异;根据联合概率差异获取最小化联合概率差异;基于最小化联合概率差异,完成将带标签的源域数据集向带标签的目标域数据集的域适配。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的基于判别联合概率的域适配方法,例如包括:获取历史流量数据集;对历史流量数据集进行预处理,构建带标签的源域数据集和带标签的目标域数据集;根据带标签的源域数据集和带标签的目标域数据集,计算源域和目标域之间的联合概率差异;根据联合概率差异获取最小化联合概率差异;基于最小化联合概率差异,完成将带标签的源域数据集向带标签的目标域数据集的域适配。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于判别联合概率的域适配方法,其特征在于,包括:
获取历史流量数据集;
根据所述历史流量数据集,构建带标签的源域数据集和带标签的目标域数据集;
根据所述带标签的源域数据集和所述带标签的目标域数据集,计算源域和目标域之间的联合概率差异;
根据所述联合概率差异获取最小化联合概率差异;
基于所述最小化联合概率差异,将所述带标签的源域数据集向所述带标签的目标域数据集进行域适配。
2.根据权利要求1所述的基于判别联合概率的域适配方法,其特征在于,所述计算源域和目标域之间的联合概率差异,包括:
计算所述带标签的源域数据集和所述带标签的目标域数据集之间相同类别的联合概率差异;
计算所述带标签的源域数据集和所述带标签的目标域数据集之间不同类别的联合概率差异。
3.根据权利要求2所述的基于判别联合概率的域适配方法,其特征在于,所述计算所述带标签的源域数据集和所述带标签的目标域数据集之间相同类别的联合概率差异,具体为:
所述计算所述带标签的源域数据集和所述带标签的目标域数据集之间相同类别的联合概率差异,具体为:
5.根据权利要求1所述的基于判别联合概率的域适配方法,其特征在于,所述对所述历史流量数据集进行预处理,构建带标签的源域数据集和带标签的目标域数据集,包括:
对所述历史流量数据集中的数据进行哑变量编码,获取数值型特征值集;
对所述数值型特征值集进行Z-score标准化处理,获取标准化数据集;
将所述标准化数据集按预设比例划分为带标签的源域训练集和带标签的源域测试集;
将所述带标签的源域训练集确定为所述带标签的源域数据集,将所述带标签的源域测试集确定为所述带标签的目标域数据集。
6.根据权利要求1所述的基于判别联合概率的域适配方法,其特征在于,所述基于所述最小化联合概率差异,完成将所述带标签的源域数据集向所述带标签的目标域数据集的域适配,包括:
S51,构建KNN分类模型;
S52,将所述带标签的源域数据集和所述带标签的目标域数据集输入至所述KNN分类模型;
S53,所述KNN分类模型根据所述最小化联合概率差异,输出分类结果;
S54,若所述分类结果的准确率低于预设阈值,则将域适配后的带标签的源域数据集和带标签的目标域数据集输入至所述KNN分类模型进行再分类,并获取此时的最小化联合概率差异;
S55,迭代执行S53-S54,直至分类结果的准确率大于或等于预设阈值,获取由所述KNN分类模型输出的带标签的目标域数据集。
8.一种基于判别联合概率的域适配系统,其特征在于,包括:
数据收集单元、数据集构建单元、联合概率差异运算单元、联合概率差异比对单元和域适配迭代单元;
所述数据收集单元用于获取历史流量数据集;
所述数据集构建单元用于根据所述历史流量数据集,构建带标签的源域数据集和带标签的目标域数据集;
所述联合概率差异运算单元用于根据所述带标签的源域数据集和所述带标签的目标域数据集,计算源域和目标域之间的联合概率差异;
所述联合概率差异比对单元用于根据所述联合概率差异获取最小化联合概率差异;
所述域适配迭代单元用于基于所述最小化联合概率差异,将所述带标签的源域数据集向所述带标签的目标域数据集进行域适配。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于判别联合概率的域适配方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述基于判别联合概率的域适配方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010515089.0A CN111626376A (zh) | 2020-06-08 | 2020-06-08 | 一种基于判别联合概率的域适配方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010515089.0A CN111626376A (zh) | 2020-06-08 | 2020-06-08 | 一种基于判别联合概率的域适配方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111626376A true CN111626376A (zh) | 2020-09-04 |
Family
ID=72271435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010515089.0A Pending CN111626376A (zh) | 2020-06-08 | 2020-06-08 | 一种基于判别联合概率的域适配方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111626376A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990985A (zh) * | 2021-04-26 | 2021-06-18 | 北京楚梵基业科技有限公司 | 标签联合概率分析方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107704926A (zh) * | 2017-11-23 | 2018-02-16 | 清华大学 | 一种大数据跨领域分析的深度迁移学习方法 |
CN108460134A (zh) * | 2018-03-06 | 2018-08-28 | 云南大学 | 基于多源域集成迁移学习的文本主题分类模型及分类方法 |
-
2020
- 2020-06-08 CN CN202010515089.0A patent/CN111626376A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107704926A (zh) * | 2017-11-23 | 2018-02-16 | 清华大学 | 一种大数据跨领域分析的深度迁移学习方法 |
CN108460134A (zh) * | 2018-03-06 | 2018-08-28 | 云南大学 | 基于多源域集成迁移学习的文本主题分类模型及分类方法 |
Non-Patent Citations (2)
Title |
---|
ZHANG, WEN等: "Discriminative Joint Probability Maximum Mean Discrepancy (DJP-MMD) for Domain Adaptation" * |
凌捷等: "基于CFA 和BP 神经网络的入侵检测方法" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990985A (zh) * | 2021-04-26 | 2021-06-18 | 北京楚梵基业科技有限公司 | 标签联合概率分析方法及系统 |
CN112990985B (zh) * | 2021-04-26 | 2023-08-22 | 北京楚梵基业科技有限公司 | 标签联合概率分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109933670B (zh) | 一种基于组合矩阵计算语义距离的文本分类方法 | |
CN111832647A (zh) | 异常流量检测系统及方法 | |
CN109034186B (zh) | 基于da-rbm分类器模型的手写数据识别方法 | |
CN109063743B (zh) | 基于半监督多任务学习的医疗数据分类模型的构建方法 | |
CN105184298A (zh) | 一种快速局部约束低秩编码的图像分类方法 | |
CN115661550B (zh) | 基于生成对抗网络的图数据类别不平衡分类方法及装置 | |
Samadiani et al. | A neural network-based approach for recognizing multi-font printed English characters | |
Zhang et al. | A nonlinear neural network model of mixture of local principal component analysis: application to handwritten digits recognition | |
CN113849648A (zh) | 分类模型训练方法、装置、计算机设备和存储介质 | |
CN112884570A (zh) | 一种模型安全性的确定方法、装置和设备 | |
CN112132257A (zh) | 基于金字塔池化及长期记忆结构的神经网络模型训练方法 | |
Yaiprasert | Artificial intelligence for para rubber identification combining five machine learning methods | |
CN108388918B (zh) | 具有结构保持特性的数据特征选择方法 | |
CN112905793B (zh) | 一种基于Bilstm+Attention文本分类的案例推荐方法及系统 | |
CN111626376A (zh) | 一种基于判别联合概率的域适配方法及系统 | |
CN114036947B (zh) | 一种半监督学习的小样本文本分类方法和系统 | |
Ye et al. | TS2V: A transformer-based Siamese network for representation learning of univariate time-series data | |
CN115936003A (zh) | 基于神经网络的软件功能点查重方法、装置、设备及介质 | |
CN116089605A (zh) | 基于迁移学习和改进词袋模型的文本情感分析方法 | |
CN115393631A (zh) | 基于贝叶斯层图卷积神经网络的高光谱图像分类方法 | |
CN111581467B (zh) | 基于子空间表示和全局消歧方法的偏标记学习方法 | |
CN114529063A (zh) | 一种基于机器学习的金融领域数据预测方法、设备及介质 | |
CN111767402B (zh) | 一种基于对抗学习的限定域事件检测方法 | |
Chen et al. | Group norm for learning structured SVMs with unstructured latent variables | |
CN111882441A (zh) | 一种基于理财产品推荐场景的用户预测解释Treeshap方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200904 |