CN109670535A - 一种异质网络大数据分类中多响应参数优化方法 - Google Patents

一种异质网络大数据分类中多响应参数优化方法 Download PDF

Info

Publication number
CN109670535A
CN109670535A CN201811425318.9A CN201811425318A CN109670535A CN 109670535 A CN109670535 A CN 109670535A CN 201811425318 A CN201811425318 A CN 201811425318A CN 109670535 A CN109670535 A CN 109670535A
Authority
CN
China
Prior art keywords
parameter
heterogeneous network
represented
classification
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811425318.9A
Other languages
English (en)
Inventor
胡锐
王磊
黄凯
胡书涵
张梓霄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University of Science and Technology
Original Assignee
Suzhou University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University of Science and Technology filed Critical Suzhou University of Science and Technology
Priority to CN201811425318.9A priority Critical patent/CN109670535A/zh
Publication of CN109670535A publication Critical patent/CN109670535A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Genetics & Genomics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Physiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种异质网络大数据分类中多响应参数优化方法,该方法基于支持向量机理论对分类参数进行分析,根据分析结果选择需要优化的参数;采用浮点数编码方法对异质网络种群中的个体进行编码,方法构建适应度函数对支持向量机的分类性能进行评价,根据适应度函数值和海明距离得到个体共享后的适应度,迭代小生遗传算法,对种群中的个体进行选择、交叉、变异处理获得最优种群,完成异质网络大数据分类中多响应参数的优化。

Description

一种异质网络大数据分类中多响应参数优化方法
技术领域
本发明涉及一种异质网络大数据分类,具体说是一种异质网络大数据分类中多响应参数优化方法。
背景技术
异质网络中具有多种类型的边和节点,是一种信息网络,在异质网络中存在海量的语义信息,为了满足用户的需求,需要对异质网络中的大数据进行分类处理。而目前分类处理的方法可分为三个方向:
(1)Vapnik等人提出了支持向量机,支持向量机是一种统计学习方法,在农业信息学、模式识别、生物信息学、网络入侵和故障诊断等领域中的应用较为频繁。支持向量机存在泛化能力强和学习速度快的特点,约束常数、支持向量机核函数参数以及核函数的类型对大数据分类的影响较大。对异质网络中的大数据进行分类时,需要人为确定一些参数,易出现不是最优参数的现象。当前大数据分类中参数优化方法存在分类效率低和分类结果准确率低的问题,需要对大数据分类中参数优化方法进行研究。
(2)丁胜、张进、李波提出了一种基于MEA的SVM参数优化方法,该方法将“反思”机制和“学习”机制引入思维进化算法中,通过子群体之间存在的信息共享特性进行学习,比较子群体之间的适应度值,根据比较结果进行反思,完成大数据分类参数的优化,将该方法优化后的参数应用在大数据分类中,分类所用的时间较长,存在分类效率低的问题。
(3)林怡、季昊魏等人提出了一种基于鱼群算法的分类参数优化方法,该方法首先对分类参数进行分析,采用仿生鱼群算法对正则化参数和小波核参数进行寻优,根据寻优结果建立参数优化后的分类模型,完成异质网络中大数据的分类,该方法得到的分类结果与实际结果不符,存在分类结果准确率低的问题。
(4)王震宇、梁雪春提出了一种基于CFOA的分类参数优化方法,该方法采用混沌果蝇优化算法对异质网络大数据分类中的重要参数进行调整,通过基于Lozi’s映射的混沌算法对果蝇种群搜索和多样性的遍历性进行优化,避免出现局部最优,完成分类参数的优化,该方法分类所用的时间较长,存在分类效率低的问题。
综上所述,提出一种异质网络大数据分类中多响应参数优化方法。
发明内容
为解决前面揭示的问题,本发明的目的是提供一种异质网络大数据分类中多响应参数优化方法。
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
采用当前方法对大数据分类中的参数进行优化时,计算样本分布半径的期望值,根据计算结果得到不同类型样本的分布期望半径。设置目标函数,通过样本分布半径的期望值和样本的分布期望半径得到目标函数的最小值,完成大数据分类参数的优化。
附图说明
图1是本发明一种异质网络大数据分类中多响应参数优化方法工作流程图;
图2是本发明一种异质网络大数据分类中多响应参数优化方法中优化参数选择工作原理图;
具体实施方式
本发明一种异质网络大数据分类中多响应参数优化方法,包括以下具体的优化参数选择和多响应参数优化方法。
参考图1所示,本发明一种异质网络大数据分类中多响应参数优化方法实现的具体步骤如下:
代表的是分类核函数中需要优化的参数;代表的是优化参数的取值范围,其中代表的是参数的初始值。
代表的是所有样本在训练过程中分布的期望半径,其计算公式为:
(1)
式中,代表的是训练样本的总数;代表的是异质网络中存在的第个训练样本;代表的是异质网络大数据分类的核函数。
分别代表的是第一、二类样本分布在异质网络大数据分类中的期望半径,其计算公式如下:
(2)
式中,代表的是异质网络中存在的训练样本的类型,代表的是异质网络中存在的第类别中的第个样本;代表的是第类型的样本在异质网络中存在的总数。
代表的是目标函数,大数据分类参数的优化目标是使函数最小化,通过下式对目标函数进行最小化处理:
(3)
式中,为分子,代表的是不同类型的训练样本的类内距离在异质网络中的平均值;为分母,代表的是不同类型训练样本在异质网络中的类间距离。类间距离代表的是两个不同类别的样本在异质网络中的分类边界之间存在的距离。使目标函数最小的目的是使样本之间存在最大的分类间隔,提高推广能力。
给参数设置步长,通过公式(1)、(2)、(3)得到一个新的目标函数值,并将新的目标函数值与原来的目标函数值进行对比,留下函数值较小的目标函数和函数对应的参数。采用公式(1)、(2)、(3)对训练样本进行循环迭代,直至参数,结束迭代。终止循环后,得到最小的目标函数值,和目标函数值相应的参数,此时得到的参数为大数据分类中的最优参数,完成大数据分类中参数的优化。
本发明一种异质网络大数据分类中多响应参数优化方法中多响应参数优化方法工作原理,具体如下:
对异质网络大数据分类中的多响应参数进行优化之前,需要选择优化的参数。异质网络大数据分类中多响应参数优化方法在支持向量机理论基础上对参数进行分析,确定需要进行优化的参数。
采用支持向量机分类方法对异质网络中的大数据进行分类时,将低维线性问题通过核函数映射到高维空间中,将不可分问题转变为可分问题。最初的支持向量机优化问题如下:
(4)
式中,代表的是目标函数,目标函数越小越好;代表的是偏移量;代表的是权重向量;代表的是异质网络大数据分类中的样本总数。离群点的出现会使目标函数变大,此时将参数优化问题变为下式:
(5)
式中,代表的是损失,通过惩罚因子在目标函数中加入损失,此时惩罚因子为异质网络大数据分类中需要优化的参数。离群点造成的损失程度通过惩罚因子决定,当损失保持不变时,目标函数的损失随着惩罚因子的增大而增大,表明离散点的重视程度较高,将惩罚因子设置为无限大是最极端的情况,此时只要存在一个点离群,目标函数的值就接近无限大,此时优化问题无解。所以对异质网络大数据分类中多响应参数进行优化时,在多响应参数可以设置一样识别率的情况下,选取惩罚因子最小的参数,可以解决支持向量机过学习的问题,提高大数据分类的精准度。
通常情况下RBF核为支持向量机默认的核函数,设代表的是RBF核中的参数,通过参数对支持向量之间存在的相关程度进行反映。当参数的值过小时,支持向量之间的关联较为松弛;当参数的值过大时,支持向量之间的相互影响力过强,模型的精度较低。
通过上述分析得到异质网络大数据分类中需要优化的多响应参数,分别是惩罚因子和参数
本发明一种异质网络大数据分类中多响应参数优化方法中多响应参数优化方法工作原理,具体如下:
采用小生境遗传算法对异质网络大数据分类中存在的多响应参数进行优化,对异质网络种群中的个体进行编码,计算个体的适应度函数,根据计算结果得到个体共享后适应度,通过迭代选择、交叉、变异,获得最优种群,完成异质网络大数据分类中多响应参数的优化。
在异质网络中随机生成种群,将其作为初始种群,通过浮点数编码方法对种群个体进行编码。采用NLOO方法对支持向量机的分类性能进行评价,对异质网络中的个样本进行分类,将其分成个小组,通过对每个小组进行表示,其中。在个小组中选择一个小组进行测试,其他的个小组作为训练样本。
将目标函数与个小组的支持向量机输出之间的误差平方和倒数当做异质网络中第个样本的评价函数,评价函数的值越大,异质网络中的样本质量越高。评价函数的表达式如下:
(6)式中,为设置的常数,用来避免分母为零;代表的是目标函数与小组支持向量机输出之间的误差平方和。
代表的是个体与个体之间存在的海明距离;代表的是个体共享之后的适应度,采用小生境遗传算法计算得到
(7)
式中,代表的是种群中存在的第个、第个个体。通过上式得到适应度
(8)
式中,代表的是种群在异质网络中的大小;分母代表的是个体在异质网络中的共享度。设置阈值,当大于两个个体间存在的海明距离时,将较小的惩罚因子与较小的个体适应度相乘,使个体的适应度更小,提高个体在进化中被剔除的概率,保持在范围内有且只有一个优良个体。
代表的是个体的选择概率,的计算公式如下:
(9)
代表的是父母个体,通过公式(10)对进行交叉处理:
(10)
式中,代表的是交叉概率,在区间[0,1]内取值。通过交叉处理对个体在异质网络中的步长进行改变,根据改变结果对其进行变异处理,设代表的是交叉后的个体,的表达式如下:
(11)
式中,代表的是变异概率,在区间[0,1]内取值;代表的是待优化参数可搜索的最大空间;代表的是待优化参数可搜索的最小空间。
通过变异概率、交叉概率和选择概率利用公式(9)、(10)、(11)得到新的种群。重复上述步骤,直到生成的种群中存在的最优个体在多次迭代中未进行改进,终止迭代。得到最优惩罚因子和核参数

Claims (3)

1.一种异质网络大数据分类中多响应参数优化方法,其特征在于,包括具体的优化参数选择和多响应参数优化方法。
2.根据权利要求1所述的一种异质网络大数据分类中多响应参数优化方法,其特征在于优化参数选择,具体步骤如下:
代表的是分类核函数中需要优化的参数;代表的是优化参数的取值范围,其中代表的是参数的初始值,设代表的是所有样本在训练过程中分布的期望半径,其计算公式为:
(1)
式中,代表的是训练样本的总数;代表的是异质网络中存在的第个训练样本;代表的是异质网络大数据分类的核函数,设分别代表的是第一、二类样本分布在异质网络大数据分类中的期望半径,其计算公式如下:
(2)
式中,代表的是异质网络中存在的训练样本的类型,代表的是异质网络中存在的第类别中的第个样本;代表的是第类型的样本在异质网络中存在的总数,设代表的是目标函数,大数据分类参数的优化目标是使函数最小化,通过下式对目标函数进行最小化处理:
(3)
式中,为分子,代表的是不同类型的训练样本的类内距离在异质网络中的平均值;为分母,代表的是不同类型训练样本在异质网络中的类间距离,类间距离代表的是两个不同类别的样本在异质网络中的分类边界之间存在的距离,使目标函数最小的目的是使样本之间存在最大的分类间隔,提高推广能力,给参数设置步长,通过公式(1)、(2)、(3)得到一个新的目标函数值,并将新的目标函数值与原来的目标函数值进行对比,留下函数值较小的目标函数和函数对应的参数,采用公式(1)、(2)、(3)对训练样本进行循环迭代,直至参数,结束迭代,终止循环后,得到最小的目标函数值,和目标函数值相应的参数,此时得到的参数为大数据分类中的最优参数,完成大数据分类中参数的优化,本发明一种异质网络大数据分类中多响应参数优化方法中优化参数选择工作原理,具体如下:
对异质网络大数据分类中的多响应参数进行优化之前,需要选择优化的参数,异质网络大数据分类中多响应参数优化方法在支持向量机理论基础上对参数进行分析,确定需要进行优化的参数,采用支持向量机分类方法对异质网络中的大数据进行分类时,将低维线性问题通过核函数映射到高维空间中,将不可分问题转变为可分问题,最初的支持向量机优化问题如下:
(4)
式中,代表的是目标函数,目标函数越小越好;代表的是偏移量;代表的是权重向量;代表的是异质网络大数据分类中的样本总数,离群点的出现会使目标函数变大,此时将参数优化问题变为下式:
(5)
式中,代表的是损失,通过惩罚因子在目标函数中加入损失,此时惩罚因子为异质网络大数据分类中需要优化的参数,离群点造成的损失程度通过惩罚因子决定,当损失保持不变时,目标函数的损失随着惩罚因子的增大而增大,表明离散点的重视程度较高,将惩罚因子设置为无限大是最极端的情况,此时只要存在一个点离群,目标函数的值就接近无限大,此时优化问题无解,所以对异质网络大数据分类中多响应参数进行优化时,在多响应参数可以设置一样识别率的情况下,选取惩罚因子最小的参数,可以解决支持向量机过学习的问题,提高大数据分类的精准度,通常情况下RBF核为支持向量机默认的核函数,设代表的是RBF核中的参数,通过参数对支持向量之间存在的相关程度进行反映,当参数的值过小时,支持向量之间的关联较为松弛;当参数的值过大时,支持向量之间的相互影响力过强,模型的精度较低,通过上述分析得到异质网络大数据分类中需要优化的多响应参数,分别是惩罚因子和参数
3.根据权利要求1所述的一种异质网络大数据分类中多响应参数优化方法,其特征在于多响应参数优化方法,具体步骤如下:
对异质网络大数据分类中的多响应参数进行优化之前,需要选择优化的参数,异质网络大数据分类中多响应参数优化方法在支持向量机理论基础上对参数进行分析,确定需要进行优化的参数,采用支持向量机分类方法对异质网络中的大数据进行分类时,将低维线性问题通过核函数映射到高维空间中,将不可分问题转变为可分问题,最初的支持向量机优化问题如下:
(4)
式中,代表的是目标函数,目标函数越小越好;代表的是偏移量;代表的是权重向量;代表的是异质网络大数据分类中的样本总数,离群点的出现会使目标函数变大,此时将参数优化问题变为下式:
(5)
式中,代表的是损失,通过惩罚因子在目标函数中加入损失,此时惩罚因子为异质网络大数据分类中需要优化的参数,离群点造成的损失程度通过惩罚因子决定,当损失保持不变时,目标函数的损失随着惩罚因子的增大而增大,表明离散点的重视程度较高,将惩罚因子设置为无限大是最极端的情况,此时只要存在一个点离群,目标函数的值就接近无限大,此时优化问题无解,所以对异质网络大数据分类中多响应参数进行优化时,在多响应参数可以设置一样识别率的情况下,选取惩罚因子最小的参数,可以解决支持向量机过学习的问题,提高大数据分类的精准度,通常情况下RBF核为支持向量机默认的核函数,设代表的是RBF核中的参数,通过参数对支持向量之间存在的相关程度进行反映,当参数的值过小时,支持向量之间的关联较为松弛;当参数的值过大时,支持向量之间的相互影响力过强,模型的精度较低,通过上述分析得到异质网络大数据分类中需要优化的多响应参数,分别是惩罚因子和参数,本发明一种异质网络大数据分类中多响应参数优化方法中多响应参数优化方法工作原理,具体如下:
采用小生境遗传算法对异质网络大数据分类中存在的多响应参数进行优化,对异质网络种群中的个体进行编码,计算个体的适应度函数,根据计算结果得到个体共享后适应度,通过迭代选择、交叉、变异,获得最优种群,完成异质网络大数据分类中多响应参数的优化,在异质网络中随机生成种群,将其作为初始种群,通过浮点数编码方法对种群个体进行编码,采用NLOO方法对支持向量机的分类性能进行评价,对异质网络中的个样本进行分类,将其分成个小组,通过对每个小组进行表示,其中,在个小组中选择一个小组进行测试,其他的个小组作为训练样本,将目标函数与个小组的支持向量机输出之间的误差平方和倒数当做异质网络中第个样本的评价函数,评价函数的值越大,异质网络中的样本质量越高,评价函数的表达式如下:
(6)
式中,为设置的常数,用来避免分母为零;代表的是目标函数与小组支持向量机输出之间的误差平方和,设代表的是个体与个体之间存在的海明距离;代表的是个体共享之后的适应度,采用小生境遗传算法计算得到 (7)
式中,代表的是种群中存在的第个、第个个体,通过上式得到适应度
(8)
式中,代表的是种群在异质网络中的大小;分母代表的是个体在异质网络中的共享度,设置阈值,当大于两个个体间存在的海明距离时,将较小的惩罚因子与较小的个体适应度相乘,使个体的适应度更小,提高个体在进化中被剔除的概率,保持在范围内有且只有一个优良个体,设代表的是个体的选择概率,的计算公式如下:
(9)
代表的是父母个体,通过公式(10)对进行交叉处理:
(10)
式中,代表的是交叉概率,在区间[0,1]内取值,通过交叉处理对个体在异质网络中的步长进行改变,根据改变结果对其进行变异处理,设代表的是交叉后的个体,的表达式如下:
(11)
式中,代表的是变异概率,在区间[0,1]内取值;代表的是待优化参数可搜索的最大空间;代表的是待优化参数可搜索的最小空间,通过变异概率、交叉概率和选择概率利用公式(9)、(10)、(11)得到新的种群,重复上述步骤,直到生成的种群中存在的最优个体在多次迭代中未进行改进,终止迭代,得到最优惩罚因子和核参数
CN201811425318.9A 2018-11-27 2018-11-27 一种异质网络大数据分类中多响应参数优化方法 Pending CN109670535A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811425318.9A CN109670535A (zh) 2018-11-27 2018-11-27 一种异质网络大数据分类中多响应参数优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811425318.9A CN109670535A (zh) 2018-11-27 2018-11-27 一种异质网络大数据分类中多响应参数优化方法

Publications (1)

Publication Number Publication Date
CN109670535A true CN109670535A (zh) 2019-04-23

Family

ID=66143139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811425318.9A Pending CN109670535A (zh) 2018-11-27 2018-11-27 一种异质网络大数据分类中多响应参数优化方法

Country Status (1)

Country Link
CN (1) CN109670535A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114387457A (zh) * 2021-12-27 2022-04-22 腾晖科技建筑智能(深圳)有限公司 一种基于调参的人脸类内类间距优化方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114387457A (zh) * 2021-12-27 2022-04-22 腾晖科技建筑智能(深圳)有限公司 一种基于调参的人脸类内类间距优化方法

Similar Documents

Publication Publication Date Title
Pulkkinen et al. Fuzzy classifier identification using decision tree and multiobjective evolutionary algorithms
Xu et al. Classification by nonlinear integral projections
Ho et al. Design of accurate classifiers with a compact fuzzy-rule base using an evolutionary scatter partition of feature space
Donalek Supervised and unsupervised learning
CN110059852A (zh) 一种基于改进随机森林算法的股票收益率预测方法
CN109086412A (zh) 一种基于自适应加权Bagging-GBDT的不平衡数据分类方法
Nugraha et al. Particle swarm optimization–Support vector machine (PSO-SVM) algorithm for journal rank classification
CN109670535A (zh) 一种异质网络大数据分类中多响应参数优化方法
CN113688960A (zh) 基于灰狼优化ghfcm的居民电力数据聚类方法及装置
CN109934286A (zh) 基于文本特征提取和不平衡处理策略的Bug报告严重程度识别方法
Chiu et al. Exploring stock market dynamism in multi-nations with genetic algorithm, support vector regression, and optimal technical analysis
Abd-el Fattah et al. A TOPSIS based method for gene selection for cancer classification
Ojha et al. Multi-objective optimisation of multi-output neural trees
Zhang et al. A K-harmonic means clustering algorithm based on enhanced differential evolution
Zhu et al. Stock index prediction based on principal component analysis and machine learning
Wei et al. Covariance matrix adaptive strategy for a multi-objective evolutionary algorithm based on reference point
Demidova et al. Novel modifications of the multi-objective genetic algorithm for SVM classifier
Youssef A new hybrid evolutionary-based data clustering using fuzzy particle swarm optimization
Zahiri et al. Using multi-objective particle swarm optimization for designing novel classifiers
Chen et al. Complex portfolio selection using improving particle swarm optimization approach
CN105912887B (zh) 一种改进型基因表达式编程-模糊c均值作物数据分类方法
Di Nuovo et al. Linguistic modifiers to improve the accuracy-interpretability trade-off in multi-objective genetic design of fuzzy rule based classifier systems
CN113792765B (zh) 一种基于三角质心权重的过采样方法
Ye et al. An overview of event based directional change for algorithmic trading
Ke et al. Asset risk diversity and portfolio optimization with genetic algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190423