CN108376261B - 一种基于密度和在线半监督学习烟草分类方法 - Google Patents
一种基于密度和在线半监督学习烟草分类方法 Download PDFInfo
- Publication number
- CN108376261B CN108376261B CN201810119422.9A CN201810119422A CN108376261B CN 108376261 B CN108376261 B CN 108376261B CN 201810119422 A CN201810119422 A CN 201810119422A CN 108376261 B CN108376261 B CN 108376261B
- Authority
- CN
- China
- Prior art keywords
- point
- density
- sample
- points
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 235000002637 Nicotiana tabacum Nutrition 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 23
- 244000061176 Nicotiana tabacum Species 0.000 title 1
- 241000208125 Nicotiana Species 0.000 claims abstract description 34
- 238000012216 screening Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 9
- 230000001174 ascending effect Effects 0.000 claims description 6
- 235000019504 cigarettes Nutrition 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 2
- 244000025254 Cannabis sativa Species 0.000 claims 1
- 238000012549 training Methods 0.000 abstract description 6
- 230000009286 beneficial effect Effects 0.000 description 3
- 210000003462 vein Anatomy 0.000 description 3
- 238000013480 data collection Methods 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000006386 neutralization reaction Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于密度和在线半监督学习烟草分类方法,首先利用少量有标签的烟草样本进行初始训练,然后利用一批数量上大于有标签样本数的无标签样本,基于密度和距离筛选有用样本,进行在线学习,因此不断筛选更新,并获得最终的学习模型,最后的模型就可以应用于烟草的分类。本发明相比一般的半监督学习,通过密度和距离的算法增加了一个机选样本的过程,提高了模型的训练效率,运用在线学习提高模型的训练速度和适用性。
Description
技术领域
本发明属于机器学习领域,是一种基于密度和在线半监督学习,用于烟叶级别的自动分类。
背景技术
烟叶是卷烟的基础材料,烟叶的质量等级直接决定卷烟的品质。而对烟叶进行科学的自动分级一直是烟草研究领域的重点问题之一。国内对烟叶的分级主要还是人工操作,要求繁多,例如挑选人员要求、挑选工艺要求、挑后烟叶标识、存放要求等,其中既有客观要求,又有主观因素。研制出一套完善可用的烟叶等级的自动识别系统将能有效解决这一问题。而鉴别一个烟叶的特征有许多,如图1,例如脉相(主脉、支脉、叶柄),叶形(叶尖、形状),身份(密度、厚度),叶片(叶面、叶片结构、质地)、叶色(浓度、一致性、色域)。
传统的监督学习用大量的有标签样本进行学习训练模型,然后用训练好的模型对无标记样本预测,若任务是分类,那么预测的是类别;如果是回归,预测的就是实数输出。随着数据收集和存储能力的提升,数据采集变得越来越容易,但是这些数据中,仅有极少部分是有标签的样本,其余都是无标签的。若只使用无标记样本,则浪费了有标记样本的有用信息;反之,只使用极少量的有标记样本训练模型,得到的模型很难具有较好的泛化性。获取已标记样本成本昂贵,这致使半监督学习成为近十几年来学者们研究的一个重要话题。
发明内容
本发明为了解决现有技术中存在的问题,提供一种可降低人工操作的主观因素,提高烟叶分级的准确度和效率的基于密度和在线半监督学习算法,实现烟叶的自动分级。
为了达到上述目的,本发明提出的技术方案为:一种基于密度和在线半监督学习烟草分类方法,包括如下步骤:
步骤1、对于一个标准的烟叶数据库U,将其中有标签数据样本记作x,无标签数据样本记作X;并对数据进行预处理;
步骤2、设置网络模型,设有N个有标签数据样本,(xj,tj)表示第j个数据样本的属性和标签,n、L、m分别是网络的输入层节点数、隐层节点数和输出层节点个数,输入层与隐层之间的权重和偏置都随机给定,其中
T是矩阵转置符号,R表示实数矩阵;
那么网络模型为
上述网络模型的损失函数可表示如下
目标函数为:
上式用矩阵表示为
H·β=T
其中H是样本数据对应于隐层节点的输出,β是输出权重,T是样本的期望输出,H、β、T分别定义如下
步骤3、以每个有标签样本xi为一个类中心,在烟草数据库U中筛选出与xi属于一类的点,不断更新H和β;
步骤4、将未分类的样本的数据输入训练好的网络模型,得到的输出即为烟草的级别,从而完成烟草分级。
步骤1中数据预处理的步骤为:
步骤1.1、进行数据归一化,消除数值数量级上的差距;
步骤1.2、将数据库中每个样本数据看作一个点,然后计算任意两点间距离,形成距离矩阵,并确定截断距离dc;
步骤1.3、计算样本密度ρ和每个点的相对距离δ;
步骤1.4、选定聚类中心。
步骤3数据库U寻找和xi同一类的点的方法为:计算所有点与xi的距离,并升序排列,记 dist_sort是升序的距离矩阵,orddist是对应点的原始序号,对dist_sort从小到大寻点,对应的点orddist和点xi进行密度对比,找到密度大于xi的点则为和xi同一类的点。
步骤3数据库U寻找和xi同一类的点的方法为:通过对每个点的密度进行降序排列,记 rho_sort为排列后的距离矩阵,ordrho是对应原始序号,然后对所有点进行循环,找到与当前点距离最小的点,若该距离最小的点为xi点,则当前点为和xi同一类的点。
本发明的有益效果为:
本发明技术方案中训练好的模型可以有效的对烟叶进行分级,方便进一步的精细化加工,从而提高烟叶的等级纯度和使用价值,为卷烟生产提供优质原料,有利于贯彻以质论价,优质优价的价格政策。
本发明的技术方案利用少量人工标记的样本,大量无标记的辅助样本,训练高质量的模型,可以减少人工成本和避免人工操作的失误,增加分级的质量,提高工作的效率。
附图说明
图1为本发明方法流程图。
具体实施方式
下面结合附图以及具体实施例对本发明进行详细说明。
实施例
如图1所示,本实施例的烟草分级方法的具体流程为:
对于一个标准的烟叶的数据库U(若干标准特征),其中有标签样本记作x,无标签样本记作X。
步骤1、对烟叶数据库进行预处理;
步骤1.1、若各个样本数值在数量级上有差距,则需要数据归一化,预先进行归一化有助于提高计算速度和学习精度;
步骤1.2、把每个数据看作一个点,然后计算各点间距离矩阵,进而求出局部密度ρ和每个点的相对距离δ,公式如下:
局部密度ρi:
其中dij是样本xi和样本xj之间的距离(一般使用欧氏距离),待分类数据集指标集IS={1,2,…,N},参数dc是截断距离,取值太大太小都不行,太大会使得每个数据点的密度都很大致使区分度不高,极端情况就是所有数据点都是同一个类别;如果取得太小,同一个类别可能被分为多个,极端情况就是没一个数据点都单独成为一个类别。如果直接去取值,会很依赖具体问题,所以通过一个比例t来确定截断距离的值,降低该参数对具体问题的依赖性。t的范围锁定在1%-2%内,提高了算法的鲁棒性。满足使得每个数据点的平均邻居数约为总数据个数的1%-2%,邻居是指在截断距离范围内的样本。本实施例中将t设定一个2%的比例,对所有两点间距离进行从小到大排序,通过这个比例确定截断距离dc
本方法使用高斯核的方法获得的ρi是连续值,避免了出现密度值重复的可能,并且距离小于dc的点越多,ρi值越大,越符合要求。
相对距离δi:
那么
则上式的定义是,计算该点到局部密度比该点大的所有点的最小距离,如果该点已经是局部密度最大点,那么δi就取到所有点的最大距离,相对距离δ是用来衡量样本间的相似性。
步骤1.3、选定聚类中心,确定聚类中心目的是根据数据集的类别个数,将数据集分成几类;密度聚类的核心思想就是聚类中心的选择,通过密度ρ为横坐标,距离δ为纵坐标画出决策图,同时具有高ρ和高δ的点才可能是类中心作为聚类中心,且需要满足两个条件:1.自身的局部密度大于周围每个点的密度。2.努力离密度比自己大的点远一点。
步骤2、构建网络结构;初始化网络,设置网络输入层与隐层的输入权值,隐层的偏置权重,隐层节点数,计算隐层和输出层之间的输出权重。
设有N个有标签数据样本,(xj,tj)表示第j个数据样本的属性和标签,n、L、m分别是输入节点数、隐层节点数和输出层节点个数,输入层与隐藏层之间的权重和偏置都随机给定,其中
T是矩阵转置符号,R表示实数矩阵。
那么网络模型的输出是
损失函数可表示如下
目标就是找到最优的β,使得网络的输出值与实际输出值误差最小,也就是存在ai,bi,βi,使得E=0,即
将上式用矩阵表示为
H·β=T (6)
其中H是样本对应于隐层节点的输出,β是输出权重,T是样本的期望输出,H、β、 T分别定义如下
由于输入层与隐藏层之间的权重和偏置都是随机给定的,所以隐层输出矩阵H也就确定了,那么就是求解一个线性模型。
步骤3、以每个有标签样本xi为类中心,在烟草数据库U中筛选出属于一类的点,不断更新在线模型。
找出所有xj和Xj中可能和xi同一类的点,记retrain。寻找和xi同一类的点,本实施例中可通过两种方法寻找。
其一,就是寻找密度比xi大且距离最近的点,即寻找xi周围一片范围内的中心点。通过计算其他所有点与其的距离,并升序排列,记dist_sort是升序的距离矩阵,orddist是对应点的原始序号,dist_sort从小到大寻点,对应的点orddist和点xi进行密度对比,找到密度大于xi就停止,并存入retrain中。
其二,寻找那些密度比自己大且最近的点恰是xi的点,即以xi为类中心的点。通过对密度进行降序排列,记rho_sort为排列后的距离矩阵,ordrho是对应原始序号。然后对所有点进行循环,因为密度是降序排列,所以会先从密度比自己大的点开始判断,然后找到最小距离的点,并判断是否是xi点,如果是就加入retrain中。最后删除retrain中的类中心点和使用过的点,去除这些点可以提高学习速度。
用上一步获得的模型对retrain进行标签。并更新网络模型,跟新网络模型的具体操作为:
其中T泛指样本的期望输出,也就是实际的样本类别、级别。
假设初始化时,存在N0个训练样本X0,表示为
为了使得网络的输出值与实际值的误差最小,应对||H0β-T0||进行最小化,其中
其中T0是初始的样本标签矩阵。
通过下式可计算出||H0β-T0||的最小化解:
其中
其中T1是第一批加入的新样本的标签矩阵。
对两组训练样本X0和X1进行综合考虑,此时的输出权值β的表达式为
其中
为了满足在线学习要求,需要将β(1)的表达变换关于β(0)、K1、H1和T1的表达式,上标(1)表示在线学习阶段学习的次数,其中
因此,式(19)可以进一步写成:
综合上述分析,当新样本到达时,对最小二乘解的更新类似于一般的递归。假设第K+1 组的样本到达,该数据可表示为
其中,Nk+1表示第K+1组新样本的个数。式(23)的输出权值的表达式变为
其中
当有新样本进入模型时,根据式(27)和式(30)更新在线模型。
利用上述训练好的模型可以直接将未分类的样本的数据即特征,当作输入,输入上述模型中,模型的网络的输入层节点数、隐层节点数和输出层节点个数已知,输入层与隐层之间的权重和偏置都随机给定,输出权重为上述方法中更新好的,得到的输出就是烟草的级别,这样既可有效的对烟叶进行分级。
本发明的技术方案不局限于上述各实施例,凡采用等同替换方式得到的技术方案均落在本发明要求保护的范围内。
Claims (3)
1.一种基于密度和在线半监督学习烟草分类方法,其特征在于,包括如下步骤:
步骤1、对于一个标准的烟叶数据库U,将其中有标签数据样本记作x,无标签数据样本记作X;并对数据进行预处理;
步骤1.1、进行数据归一化,消除数值数量级上的差距;
步骤1.2、将数据库中每个样本数据看作一个点,然后计算任意两点间距离,形成距离矩阵,并确定截断距离dc;
步骤1.3、计算样本密度ρ和每个点的相对距离δ;
步骤1.4、选定聚类中心;
步骤2、设置网络模型,设有N个有标签数据样本,(xj,tj)表示第j个数据样本的属性和标签,n、L、m分别是网络的输入层节点数、隐层节点数和输出层节点个数,输入层与隐层之间的权重和偏置都随机给定,其中
T是矩阵转置符号,R表示实数矩阵;
那么网络模型为
上述网络模型的损失函数可表示如下
目标函数为:
上式用矩阵表示为
H·β=T
其中H是样本数据对应于隐层节点的输出,β是输出权重,T是样本的期望输出,H、β、T分别定义如下
步骤3、以每个有标签样本xi为一个类中心,在烟草数据库U中筛选出与xi属于一类的点,不断更新H和β;
步骤4、将未分类的样本的数据输入训练好的网络模型,得到的输出即为烟草的级别,从而完成烟草分级。
2.根据权利要求1所述一种基于密度和在线半监督学习烟草分类方法,其特征在于,步骤3数据库U寻找和xi同一类的点的方法为:计算所有点与xi的距离,并升序排列,记dist_sort是升序的距离矩阵,orddist是对应点的原始序号,对dist_sort从小到大寻点,对应的点orddist和点xi进行密度对比,找到密度大于xi的点则为和xi同一类的点。
3.根据权利要求1所述一种基于密度和在线半监督学习烟草分类方法,其特征在于,步骤3数据库U寻找和xi同一类的点的方法为:通过对每个点的密度进行降序排列,记rho_sort为排列后的距离矩阵,ordrho是对应原始序号,然后对所有点进行循环,找到与当前点距离最小的点,若该距离最小的点为xi点,则当前点为和xi同一类的点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810119422.9A CN108376261B (zh) | 2018-02-06 | 2018-02-06 | 一种基于密度和在线半监督学习烟草分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810119422.9A CN108376261B (zh) | 2018-02-06 | 2018-02-06 | 一种基于密度和在线半监督学习烟草分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108376261A CN108376261A (zh) | 2018-08-07 |
CN108376261B true CN108376261B (zh) | 2022-03-15 |
Family
ID=63017464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810119422.9A Active CN108376261B (zh) | 2018-02-06 | 2018-02-06 | 一种基于密度和在线半监督学习烟草分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108376261B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930302A (zh) * | 2012-10-18 | 2013-02-13 | 山东大学 | 基于在线序贯极限学习机的递增式人体行为识别方法 |
CN103177267A (zh) * | 2013-04-22 | 2013-06-26 | 山东师范大学 | 一种时频联合的支持向量机半监督学习方法 |
CN105069479A (zh) * | 2015-08-19 | 2015-11-18 | 西安电子科技大学 | 基于在线序列极限学习机的极化sar图像分类方法 |
CN106446440A (zh) * | 2016-10-11 | 2017-02-22 | 天津大学 | 基于在线贯序极限学习机的短期光伏发电功率预测方法 |
CN107316081A (zh) * | 2017-06-12 | 2017-11-03 | 大连理工大学 | 一种基于极限学习机的不确定数据分类方法 |
CN107508287A (zh) * | 2017-08-25 | 2017-12-22 | 南方电网科学研究院有限责任公司 | 电网变电站负荷分群方法、装置、存储介质和计算机设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9146941B2 (en) * | 2012-08-03 | 2015-09-29 | Adobe Systems Incorporated | Image tag pair graph for image annotation |
-
2018
- 2018-02-06 CN CN201810119422.9A patent/CN108376261B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930302A (zh) * | 2012-10-18 | 2013-02-13 | 山东大学 | 基于在线序贯极限学习机的递增式人体行为识别方法 |
CN103177267A (zh) * | 2013-04-22 | 2013-06-26 | 山东师范大学 | 一种时频联合的支持向量机半监督学习方法 |
CN105069479A (zh) * | 2015-08-19 | 2015-11-18 | 西安电子科技大学 | 基于在线序列极限学习机的极化sar图像分类方法 |
CN106446440A (zh) * | 2016-10-11 | 2017-02-22 | 天津大学 | 基于在线贯序极限学习机的短期光伏发电功率预测方法 |
CN107316081A (zh) * | 2017-06-12 | 2017-11-03 | 大连理工大学 | 一种基于极限学习机的不确定数据分类方法 |
CN107508287A (zh) * | 2017-08-25 | 2017-12-22 | 南方电网科学研究院有限责任公司 | 电网变电站负荷分群方法、装置、存储介质和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108376261A (zh) | 2018-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109523018B (zh) | 一种基于深度迁移学习的图片分类方法 | |
CN104834748B (zh) | 一种利用基于深度语义排序哈希编码的图像检索方法 | |
CN112232413B (zh) | 基于图神经网络与谱聚类的高维数据特征选择方法 | |
CN110807760B (zh) | 一种烟叶分级方法及系统 | |
CN111160750A (zh) | 一种基于关联规则挖掘的配网分析和投资决策方法 | |
CN112613536B (zh) | 一种基于smote和深度学习的近红外光谱柴油牌号识别方法 | |
CN110210973A (zh) | 基于随机森林与朴素贝叶斯模型的内幕交易识别方法 | |
CN111612519A (zh) | 一种识别金融产品潜在客户的方法、装置及存储介质 | |
CN109492682A (zh) | 一种多分枝随机森林数据分类方法 | |
CN115688613A (zh) | 基于多目标蜉蝣算法优化的碳酸盐岩储层渗透率预测方法 | |
CN111078859B (zh) | 一种基于引用次数的作者推荐方法 | |
CN117910875B (zh) | 一种披碱草属资源抗逆性评价系统 | |
CN113837266A (zh) | 一种基于特征提取和Stacking集成学习的软件缺陷预测方法 | |
CN117575745A (zh) | 基于ai大数据的课程教学资源个性推荐方法 | |
CN108376261B (zh) | 一种基于密度和在线半监督学习烟草分类方法 | |
CN115114968A (zh) | 基于随机森林的铸坯裂纹智能预测方法 | |
CN106611181A (zh) | 基于代价敏感二维尺度决策树构造方法 | |
CN110348479A (zh) | 一种基于近邻传播的股票预测方法、系统、装置和介质 | |
CN115983877A (zh) | 一种基于深度图和语义学习的专利价值评估方法 | |
CN115841269A (zh) | 一种基于多维指标分析的期刊动态评价方法 | |
CN108664763A (zh) | 一种参数最优的肺癌癌细胞检测仪 | |
CN109829500B (zh) | 一种职位构图和自动聚类方法 | |
Ma | The Research of Stock Predictive Model based on the Combination of CART and DBSCAN | |
CN108182288A (zh) | 一种基于人工免疫的推荐方法 | |
CN113296947A (zh) | 基于改进XGBoost模型的资源需求预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |