CN110414621A - 基于多示例学习的分类器构建方法及装置 - Google Patents
基于多示例学习的分类器构建方法及装置 Download PDFInfo
- Publication number
- CN110414621A CN110414621A CN201910721180.5A CN201910721180A CN110414621A CN 110414621 A CN110414621 A CN 110414621A CN 201910721180 A CN201910721180 A CN 201910721180A CN 110414621 A CN110414621 A CN 110414621A
- Authority
- CN
- China
- Prior art keywords
- data
- tags
- label data
- classifier
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 claims description 55
- 230000009977 dual effect Effects 0.000 claims description 13
- 239000012141 concentrate Substances 0.000 claims description 10
- 230000001037 epileptic effect Effects 0.000 description 8
- 238000013480 data collection Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 241001269238 Data Species 0.000 description 5
- 206010015037 epilepsy Diseases 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 206010010904 Convulsion Diseases 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000001212 derivatisation Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 208000028329 epileptic seizure Diseases 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于多示例学习的分类器构建方法,包括:获取包括第一标签数据集合、第二标签数据集合及第三标签数据集合的训练数据集;将训练数据集中的各个样本数据输入至预先构建的相似度模型中,以确定训练数据集中的各个样本数据的分别与预先设置的第一标签组、第二标签组及第三标签组的相似度;依据所述第一标签数据集合中的各个样本数据与所述第一标签组的相似度,将所述第一标签数据集合划分为第一子数据集合及第二子数据集合;基于相似度,分别为第一子数据集合、第二子数据集合、第二标签数据集合及所述第三标签数据集合分配相似度权重;依据各个所述相似度权重构建分类器。应用多种类型标签数据构建分类器,提升了分类器的识别精度。
Description
技术领域
本发明涉及机器学习领域,特别涉及一种基于多示例学习的分类器构建方法及装置。
背景技术
随着信息技术的发展,多示例学习也越来越广泛的应用在各个领域中。例如,应用于图像分类和检索、网络挖掘、垃圾邮件检测、计算机安全、人脸检测和计算机辅助医学诊断等领域。在多示例学习中,训练集由多个包组成,每个包中含有多个示例,其中,若一个包中含有至少一个正示例,那么这个包就标记为正包,若一个包中所有的示例为负示例,那这个包就被标记为负包。
经本发明人研究发现,现有的多示例学习中,构建分类器时,训练集仅仅由正包样本和负包样本组成,而仅由正包样本和负包样本进行分类器的构建,往往会因为样本的局限性,造成分类器的识别精度不高。
发明内容
本发明所要解决的技术问题是提供一种基于多示例学习的分类器构建方法,能够应用第一标签数据集合、第二标签数据集合及第三标签数据集合构建分类器,能帮助分类器更好的区分正包数据及负包数据,提升分类器的识别精度。
本发明还提供了一种基于多示例学习的分类器构建装置,用以保证上述方法在实际中的实现及应用。
一种基于多示例学习的分类器构建方法,包括:
获取预先设置的训练数据集,所述训练数据集包括第一标签数据集合、第二标签数据集合及第三标签数据集合;
将所述第一标签数据集合中的各个样本数据、第二标签数据集合中的各个样本数据及第三标签数据集合中的各个样本数据,输入至预先构建的相似度模型中,以确定所述训练数据集中的各个样本数据的分别与预先设置的第一标签组、第二标签组及第三标签组的相似度;
依据所述第一标签数据集合中的各个样本数据与所述第一标签组的相似度,将所述第一标签数据集合划分为第一子数据集合及第二子数据集合;其中,所述第一子数据集合中的各个样本数据与所述第一标签组的相似度均大于所述第二子数据集合中的各个样本数据与所述第一标签组的相似度;
基于所述训练数据集中的各个样本数据分别与预先设置的第一标签组、第二标签组及第三标签组的相似度,分别为所述第一子数据集合、所述第二子数据集合、所述第二标签数据集合及所述第三标签数据集合分配相似度权重;
依据各个所述相似度权重构建分类器。
上述的方法,可选的,所述依据所述第一标签数据集合中的各个样本数据与所述第一标签组的相似度,将所述第一类型集合划分为第一子数据集合及第二子数据集合,包括:
划分子单元,用于按所述第一标签数据集合中的各个样本数据与所述第一标签组的相似度由大至小的顺序,在所述第一标签数据集合中选取预设数目的样本数据,以得到第一子数据集合,将所述第一标签数据集合中除所述第一子数据集合之外的各个样本数据确定为第二子数据集合。
上述的方法,可选的,还包括:
应用所述分类器对所述第一标签数据集合进行数据分类,得到第一分类集合及第二分类集合;
判断所述第一分类集合中包含的样本数据是否与所述第一子数据集合包含的样本数据一致;
若所述第一分类集合中包含的样本数据与所述第一子数据集合中包含的样本数据不一致,则依据所述第一分类集合、所述第二分类集合、所述第二标签数据及所述第三标签数据训练所述分类器。
上述的方法,可选的,还包括:
判断所述分类器是否满足预先设置的停止迭代条件;
若所述分类器不满足所述停止迭代条件,则应用所述第一标签数据集合、所述第二标签数据集合及所述第三标签数据集合,对所述分类器训练,直至所述分类器满足所述停止迭代条件。
上述的方法,可选的,所述依据各个所述相似度权重构建分类器,包括:
将各个所述相似度权重确定分类器的目标方程;
确定与所述目标方程对应的对偶方程;
对所述对偶方程进行求解,得到所述分类器。
一种基于多示例学习的分类器构建装置,包括:
获取单元,用于获取预先设置的训练数据集,所述训练数据集包括第一标签数据集合、第二标签数据集合及第三标签数据集合;
确定单元,用于将所述第一标签数据集合中的各个样本数据、第二标签数据集合中的各个样本数据及第三标签数据集合中的各个样本数据,输入至预先构建的相似度模型中,以确定所述训练数据集中的各个样本数据的分别与预先设置的第一标签组、第二标签组及第三标签组的相似度;
划分单元,用于依据所述第一标签数据集合中的各个样本数据与所述第一标签组的相似度,将所述第一标签数据集合划分为第一子数据集合及第二子数据集合;其中,所述第一子数据集合中的各个样本数据与所述第一标签组的相似度均大于所述第二子数据集合中的各个样本数据与所述第一标签组的相似度;
分配单元,用于依据所述训练数据集中的各个样本数据分别与预先设置的第一标签组、第二标签组及第三标签组的相似度,分别为所述第一子数据集合、所述第二子数据集合、所述第二标签数据集合及所述第三标签数据集合分配相似度权重;
构建单元,用于依据各个所述相似度权重构建分类器。
上述的装置,可选的,所述划分单元,包括:
按所述第一标签数据集合中的各个样本数据与所述第一标签组的相似度由大至小的顺序,在所述第一标签数据集合中选取预设数目的样本数据,以得到第一子数据集合,将所述第一标签数据集合中除所述第一子数据集合之外的各个样本数据确定为第二子数据集合。
上述的装置,可选的,还包括:
分类单元,应用所述分类器对所述第一标签数据集合进行数据分类,得到第一分类集合及第二分类集合;
第一判断单元,用于判断所述第一分类集合中包含的样本数据是否与所述第一子数据集合包含的样本数据一致;
训练单元,用于当所述第一分类集合中包含的样本数据与所述第一子数据集合中包含的样本数据不一致时,依据所述第一分类集合、所述第二分类集合、所述第二标签数据及所述第三标签数据训练所述分类器。
上述的装置,可选的,还包括:
第二判断单元,用于判断所述分类器是否大于预先设置的停止迭代条件;
第二训练单元,用于当所述分类器不满足所述停止迭代条件时,应用所述第一标签数据集合、所述第二标签数据集合及所述第三标签数据集合,对所述分类器训练,直至所述分类器满足所述停止迭代条件。
上述的装置,可选的,所述构建单元,包括:
第一确定子单元,用于将各个所述相似度权重确定分类器的目标方程;
第二确定单元,用于确定与所述目标方程对应的对偶方程;
生成单元,用于对所述对偶方程进行求解,得到所述分类器。
与现有技术相比,本发明包括以下优点:
本发明提供的基于多示例学习的分类器构建方法,包括:获取预先设置的训练数据集,所述训练数据集包括第一标签数据集合、第二标签数据集合及第三标签数据集合;将所述第一标签数据集合中的各个样本数据、第二标签数据集合中的各个样本数据及第三标签数据集合中的各个样本数据,输入至预先构建的相似度模型中,以确定所述训练数据集中的各个样本数据的分别与预先设置的第一标签组、第二标签组及第三标签组的相似度;依据所述第一标签数据集合中的各个样本数据与所述第一标签组的相似度,将所述第一标签数据集合划分为第一子数据集合及第二子数据集合;其中,所述第一子数据集合中的各个样本数据与所述第一标签组的相似度均大于所述第二子数据集合中的各个样本数据与所述第一标签组的相似度;基于所述训练数据集中的各个样本数据分别与预先设置的第一标签组、第二标签组及第三标签组的相似度,分别为所述第一子数据集合、所述第二子数据集合、所述第二标签数据集合及所述第三标签数据集合分配相似度权重;依据各个所述相似度权重构建分类器。能够应用第一标签数据集合、第二标签数据集合及第三标签数据集合构建分类器,能帮助分类器更好的区分正包数据及负包数据,提升分类器的识别精度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于多示例学习的分类器构建方法的方法流程图;
图2为本发明提供的一种基于多示例学习的分类器构建方法的又一方法流程图;
图3为本发明提供的一种基于多示例学习的分类器构建装置的结构示意图;
图4为本发明提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本发明实施例提供了一种基于多示例学习的分类器构建方法,该方法可以应用在多种系统平台,其执行主体可以为计算机终端或各种移动设备的处理器,所述方法的方法流程图如图1所示,具体包括:
S101:获取预先设置的训练数据集,所述训练数据集包括第一标签数据集合、第二标签数据集合及第三标签数据集合。
本发明实施例提供的方法中,第一标签数据集合包含多个带正类标签的数据包,第二标签数据集包含多个带负类标签的数据包,第三标签集合中包含多个除正类标签及负类标签之外的第三标签的数据包;每个数据包均包含有多个样本示例,即样本数据。例如,本发明实施例应用在脑电信号检测时,以检测癫痫患者为例,可以将健康人的脑电信号作为第一标签数据集合中的样本数据;可以将癫痫患者发病时的脑电信号作为第二标签数据集合中的样本数据,可以将癫痫患者不发病时的脑电信号作为第三标签集合中的样本数据。
本发明实施例提供的方法中,接收到构建指令时,解析该构建指令,得到该指令中包含的指令信息,基于该指令信息,获取预先设置的训练数据集。
S102:将所述第一标签数据集合中的各个样本数据、第二标签数据集合中的各个样本数据及第三标签数据集合中的各个样本数据,输入至预先构建的相似度模型中,以确定所述训练数据集中的各个样本数据的分别与预先设置的第一标签组、第二标签组及第三标签组的相似度;
本发明实施例提供的方法中,第一标签组可以包含多个第一标签数据;第二标签组可以包含多个第二标签数据;第三标签组可以包含多个第三标签数据;其中,该第一标签组可以为该第一标签数据集合;该第二标签组可以为该第二标签数据集合;该第三标签组可以为第三标签数据集合。
本发明实施例提供的方法中,通过将训练数据集中的各个样本数据输入至预先构建的相似度模型中,可以得到每个样本数据与第一标签组、第二标签组及第三标签组的相似度。
S103:依据所述第一标签数据集合中的各个样本数据与所述第一标签组的相似度,将所述第一数据集合划分为第一子数据集合及第二子数据集合;其中,所述第一子数据集合中的各个样本数据与所述第一标签组的相似度均大于所述第二子数据集合中的各个样本数据与所述第一标签组的相似度。
本发明实施例提供的方法中,将第一标签数据集合中的各个样本数据划分为第一子数据集合及第二子数据集合。
S104:基于所述训练数据集中的各个样本数据的分别与预先设置的第一标签组、第二标签组及第三标签组的相似度,分别为所述第一子数据集合、所述第二子数据集合、所述第二标签数据集合、所述第三标签数据集合分配相似度权重。
本发明实施例提供的方法中,第一子数据集合中的各个样本数据的相似度权重,可以为m+(x)=1,m-(x)=0,mu(x)=0;第二子数据集合中的各个样本数据的相似度权重,可以为0≤m-(x),m+(x)≤0;第二标签数据集合中的各个样本数据将相似度权重,可以为m+(x)=0,m-(x)=1,mu(x)=0;第三标签数据集合中的各个样本数据的相似度权重,可以为m+(x)=0,m-(x)=0,0≤mu(x)≤1;其中,m+(x)为训练数据集中的各个样本数据与第一标签组对应的相似度权重,m-(x)为训练数据集中的各个样本数据与第二标签组对应的相似度权重,mu(x)为训练数据集中的各个样本数据与第三标签组对应的相似度权重。
S105:依据各个所述相似度权重构建分类器。
本发明实施例提供的方法中,将各个所述相似度权重,代入预先设置的分类器构建函数中,得到与该分类器对应的目标方程,对该目标方程进行求解,得到该分类器。
本发明实施例提供的基于多示例学习的分类器构建方法,包括:获取预先设置的训练数据集,所述训练数据集包括第一标签数据集合、第二标签数据集合及第三标签数据集合;将所述第一标签数据集合中的各个样本数据、第二标签数据集合中的各个样本数据及第三标签数据集合中的各个样本数据,输入至预先构建的相似度模型中,以确定所述训练数据集中的各个样本数据的分别与预先设置的第一标签组、第二标签组及第三标签组的相似度;依据所述第一标签数据集合中的各个样本数据与所述第一标签组的相似度,将所述第一标签数据集合划分为第一子数据集合及第二子数据集合;其中,所述第一子数据集合中的各个样本数据与所述第一标签组的相似度均大于所述第二子数据集合中的各个样本数据与所述第一标签组的相似度;基于所述训练数据集中的各个样本数据分别与预先设置的第一标签组、第二标签组及第三标签组的相似度,分别为所述第一子数据集合、所述第二子数据集合、所述第二标签数据集合及所述第三标签数据集合分配相似度权重;依据各个所述相似度权重构建分类器。能够应用第一标签数据集合、第二标签数据集合及第三标签数据集合构建分类器,能帮助分类器更好的区分正包数据及负包数据,提升分类器的识别精度。
本发明实施例提供的方法中,基于上述的实施过程,具体的,所述依据所述第一标签数据集合中的各个样本数据与所述第一标签组的相似度,将所述第一类型集合划分为第一子数据集合及第二子数据集合,包括:
按所述第一标签数据集合中的各个样本数据与所述第一标签组的相似度由大至小的顺序,在所述第一标签数据集合中选取预设数目的样本数据,以得到第一子数据集合,将所述第一标签数据集合中除所述第一子数据集合之外的各个样本数据确定为第二子数据集合。
具体的,可以确定所述第一标签数据集合中各个携带正类标签的数据包;
分别在每个所述数据包中选取出与所述第一标签组相似度最大的目标样本数据;
将各个所述目标样本数据确定为第一子数据集合,并将所述第一标签数据集合中除所述第一子数据集合之外的各个样本数据确定为第二子数据集合。
本发明实施例提供的方法中,可以将第一标签数据集合中的各个样本数据与所述第一标签组的相似度确定为第一相似度;依据各个第一相似度的大小,对各个第一相似度进行排序,并按各个第一相似度由大至小的顺序选取预设数目相似度;将已选取的各个第一相似度对应的各个样本数据确定为第一子数据集合;将未选取的各个第一相似度对应的各个样本数据确定为第二子数据集合。
可选的,还可以将各个第一相似度与预先设置的第一相似度阈值进行比较,得到多个大于第一相似度阈值的第一相似度,并按所述多个大于所述相似度阈值的所述第一相似度由大至小的顺序,选取预设数目个第一相似度,将已选取的各个第一相似度对应的各个样本数据确定为第一子数据集合;将未选取的各个第一相似度对应的各个样本数据确定为第二子数据集合。
本发明实施例提供的方法中,基于上述的实施过程,具体的,还包括:
应用所述分类器对所述第一标签数据集合进行数据分类,得到第一分类集合及第二分类集合;
判断所述第一分类集合中包含的样本数据是否与所述第一子数据集合包含的样本数据一致;
若所述第一分类集合中包含的样本数据与所述第一子数据集合中包含的样本数据不一致,则依据所述第一分类集合、所述第二分类集合、所述第二标签数据及所述第三标签数据训练所述分类器。
本发明实施例提供的方法中,依据所述第一分类集合、所述第二分类集合、所述第二标签数据及所述第三标签数据训练所述分类器的过程,可以为,执行第一操作,直至第一分类集合中的各个样本数据与第一子分类数据集合中的各个样本数据一致。第一操作包括:将第一分类集合确定为新的第一子数据集合,将第二分类集合确定为新的第二子数据集合,基于所述训练数据集中的各个样本数据的分别与预先设置的第一标签组、第二标签组及第三标签组的相似度,分别为所述第一分类数据集合、所述第二分类数据集合、所述第二标签数据集合及所述第三标签数据集合分配相似度权重。基于所述第一分类数据集合、所述第二分类数据集合、所述第二标签数据集合及所述第三标签数据集合的相似度权重,训练该分类器,并应用该分类器对第一数据集合进行分类,得到新的第一分类集合,及新的第二分类集合,判断新的第一分类集合是否为与新的第一子分类数据集合中的各个样本数据一致,若不一致,则执行所述第一操作。
本发明实施例提供的方法中,基于上述的实施过程,具体的,还包括:
判断所述分类器是否大于预先设置的停止迭代条件;
当所述分类器不满足所述停止迭代条件时,应用所述第一标签数据集合、所述第二标签数据集合及所述第三标签数据集合,对所述分类器训练,直至所述分类器满足所述停止迭代条件。
本发明实施例提供的方法中,若当前分类器的迭代次数为0,则记录当前分类器的目标方程的目标最小化值f^{n},并执行迭代操作,所述迭代操作为:应用所述第一标签数据集合、所述第二标签数据集合及所述第三标签数据集合,对所述分类器训练,获取当前目标方程的目标最小化值f^{n},其中,n表示第n次迭代,判断所述分类器是否满足停止迭代条件,若当前得到的目标最小化值f^{n}与前一次计算得的目标最小化值f^{n-1}满足f^{n-1}-f^{n}<0.1*f^{n-1},则停止该迭代操作;若f^{n-1}-f^{n}≥0.1*f^{n-1},则继续执行该迭代操作。
本发明实施例提供的方法中,可选的,还可以判断所述分类器的预测准确率是否大于预先设置的准确率阈值;
若所述分类器的预测准确率不大于所述准确率阈值,则应用所述第一标签数据集合、所述第二标签数据集合及所述第三标签数据集合,对所述分类器训练,直至所述分类器的预测准确率大于预先设置的准确率阈值。
本发明实施例提供的方法中,基于上述的实施过程,具体的,依据各个所述相似度权重构建分类器,如图2所示,可以包括:
S201:将各个所述相似度权重确定分类器的目标方程。
本发明实施例提供的方法中,该目标方程如下:
其中,C1,C2,C3,C4,C5是惩罚参数,εi,εj,εk,εg是第一标签数据集合及第二标签数据集合中样本数据的松弛变量,ψm,是第三标签数据集合的松弛变量。δ是用户定义的超参数用于使第三标签数据集合中的样本数据在分类器中处于正负样本之间。m+(xj),m-(xk),mu(xm)为相似度权重。Sa为第一子数据集合,Sp为第二子数据集合;Sn为第二标签数据集合;Su为第三标签数据集合。
S202:确定与所述目标方程对应的对偶方程。
本发明实施例提供的方法中,在原目标方程的基础上,对参数进行定义,如下:
由此,可得对偶方程为:
S203:对所述对偶方程进行求解,得到所述分类器。
本发明实施例提供的方法中,该分类器可以为支持向量机分类器。本发明实施例可以应用在多个领域中,例如可以应用在脑电信号识别领域中,下面将以癫痫病患的脑电信号识别为例,进行详细说明:
采集健康人的脑电信号作为第一标签数据集合;采集癫痫病患者的脑电信号作为第二标签数据集合;采集癫痫患者未发病时的脑电信号作为第三标签数据集合;在采集脑电信号过程中,采用滑动窗技术,依据脑电信号生成的时间顺序对脑电信号进行划分,得到多个脑电信号示例数据,并对划分得到的各个脑电信号示例数据依次进行存储。获取预先存储的训练数据集,训练数据集包括第一标签数据集合、第二标签数据集合及第三标签数据集合;将所述第一标签数据集合中的各个样本数据、第二标签数据集合中的各个样本数据及第三标签数据集合中的各个样本数据,输入至预先构建的相似度模型中,以确定所述训练数据集中的各个样本数据的分别与预先设置的第一标签组、第二标签组及第三标签组的相似度;依据所述第一标签数据集合中的各个样本数据与所述第一标签组的相似度,将所述第一标签数据集合划分为第一子数据集合及第二子数据集合;其中,所述第一子数据集合中的各个样本数据与所述第一标签组的相似度均大于所述第二子数据集合中的各个样本数据与所述第一标签组的相似度;基于所述训练数据集中的各个样本数据分别与预先设置的第一标签组、第二标签组及第三标签组的相似度,分别为所述第一子数据集合、所述第二子数据集合、所述第二标签数据集合及所述第三标签数据集合分配相似度权重;依据各个所述相似度权重构建分类器,并训练该分类器。
本发明实施例提供的方法中,考虑癫痫病信号的先验知识,癫痫病人癫痫未发做时的信号既不能看作正包(不同于健康病人的信号),也不能看作负包(不同于癫痫病发作时的信号),但可以提供某些关于癫痫病人脑电波信号的先验知识,应用第一标签数据集合、第二标签数据集合及第三标签数据集合构建分类器,能有效的提升分类器的分类精度。
本发明实施例提供的方法中,该相似度模型的构建过程,可以为:
给的一个训练集和第三标签数据集合。其中分别代表第i个正类包,负类包和第三标签数据集合的Universum数据包,在这个训练集的基础上,建立新的集合S+,S-,Su,分别包含所有正包,负包和Universum包中的所有示例样本。
然后对三个新集合中的样本重新编号后将其定义为如下的基于相似度的数据模型:
{x,m+(x),m-(x),mu(x)}
其中,分别代表示例m+(x),m-(x),mu(x)的相似度权重,它们的定义如下:
R(x,S)为样本x与集合S之间的相似度且有:
上述各个具体的实现方式,及各个实现方式的衍生过程,均在本发明保护范围内。
与图1所述的方法相对应,本发明实施例还提供了一种基于多示例学习的分类器构建装置,用于对图1中方法的具体实现,本发明实施例提供的基于多示例学习的分类器构建装置可以应用计算机终端或各种移动设备中,其结构示意图如图3所示,具体包括:
获取单元301,用于获取预先设置的训练数据集,所述训练数据集包括第一标签数据集合、第二标签数据集合及第三标签数据集合;
确定单元302,用于将所述第一标签数据集合中的各个样本数据、第二标签数据集合中的各个样本数据及第三标签数据集合中的各个样本数据,输入至预先构建的相似度模型中,以确定所述训练数据集中的各个样本数据的分别与预先设置的第一标签组、第二标签组及第三标签组的相似度;
划分单元303,用于依据所述第一标签数据集合中的各个样本数据与所述第一标签组的相似度,将所述第一标签数据集合划分为第一子数据集合及第二子数据集合;其中,所述第一子数据集合中的各个样本数据与所述第一标签组的相似度均大于所述第二子数据集合中的各个样本数据与所述第一标签组的相似度;
分配单元304,用于依据所述训练数据集中的各个样本数据分别与预先设置的第一标签组、第二标签组及第三标签组的相似度,分别为所述第一子数据集合、所述第二子数据集合、所述第二标签数据集合及所述第三标签数据集合分配相似度权重;
构建单元305,用于依据各个所述相似度权重构建分类器。
本发明实施例提供的基于多示例学习的分类器构建装置中,所述划分单元303,包括:
划分子单元,用于按所述第一标签数据集合中的各个样本数据与所述第一标签组的相似度由大至小的顺序,在所述第一标签数据集合中选取预设数目的样本数据,以得到第一子数据集合,将所述第一标签数据集合中除所述第一子数据集合之外的各个样本数据确定为第二子数据集合。
本发明实施例提供的基于多示例学习的分类器构建装置中,还包括:
分类单元,应用所述分类器对所述第一标签数据集合进行数据分类,得到第一分类集合及第二分类集合;
第一判断单元,用于判断所述第一分类集合中包含的样本数据是否与所述第一子数据集合包含的样本数据一致;
训练单元,用于当所述第一分类集合中包含的样本数据与所述第一子数据集合中包含的样本数据不一致时,依据所述第一分类集合、所述第二分类集合、所述第二标签数据及所述第三标签数据训练所述分类器。
本发明实施例提供的基于多示例学习的分类器构建装置中,还包括:
第二判断单元,用于判断所述分类器的预测准确率是否大于预先设置的准确率阈值;
第二训练单元,用于当所述分类器的预测准确率不大于所述准确率阈值时,应用所述第一类型数据集合、所述第二类型数据集合及所述第三数据集合,对所述分类器训练,直至所述分类器的预测准确率大于预先设置的准确率阈值。
本发明实施例提供的基于多示例学习的分类器构建装置中,所述构建单元305,包括:
第一确定子单元,用于将各个所述相似度权重确定分类器的目标方程;
第二确定单元,用于确定与所述目标方程对应的对偶方程;
生成单元,用于对所述对偶方程进行求解,得到所述分类器。
本发明实施例提供的基于多示例学习的分类器构建装置,通过获取预先设置的训练数据集,所述训练数据集包括第一标签数据集合、第二标签数据集合及第三标签数据集合;将所述第一标签数据集合中的各个样本数据、第二标签数据集合中的各个样本数据及第三标签数据集合中的各个样本数据,输入至预先构建的相似度模型中,以确定所述训练数据集中的各个样本数据的分别与预先设置的第一标签组、第二标签组及第三标签组的相似度;依据所述第一标签数据集合中的各个样本数据与所述第一标签组的相似度,将所述第一标签数据集合划分为第一子数据集合及第二子数据集合;其中,所述第一子数据集合中的各个样本数据与所述第一标签组的相似度均大于所述第二子数据集合中的各个样本数据与所述第一标签组的相似度;基于所述训练数据集中的各个样本数据分别与预先设置的第一标签组、第二标签组及第三标签组的相似度,分别为所述第一子数据集合、所述第二子数据集合、所述第二标签数据集合及所述第三标签数据集合分配相似度权重;依据各个所述相似度权重构建分类器。能够应用第一标签数据集合、第二标签数据集合及第三标签数据集合构建分类器,能帮助分类器更好的区分正包数据及负包数据,提升分类器的识别精度。
本发明实施例还提供了一种电子设备,其结构示意图如图4所示,具体包括存储器401,以及一个或者一个以上的指令402,其中一个或者一个以上指令402存储于存储器401中,且经配置以由一个或者一个以上处理器403执行所述一个或者一个以上指令402进行以下操作:
获取预先设置的训练数据集,所述训练数据集包括第一标签数据集合、第二标签数据集合及第三标签数据集合;
将所述第一标签数据集合中的各个样本数据、第二标签数据集合中的各个样本数据及第三标签数据集合中的各个样本数据,输入至预先构建的相似度模型中,以确定所述训练数据集中的各个样本数据的分别与预先设置的第一标签组、第二标签组及第三标签组的相似度;
依据所述第一标签数据集合中的各个样本数据与所述第一标签组的相似度,将所述第一标签数据集合划分为第一子数据集合及第二子数据集合;其中,所述第一子数据集合中的各个样本数据与所述第一标签组的相似度均大于所述第二子数据集合中的各个样本数据与所述第一标签组的相似度;
基于所述训练数据集中的各个样本数据分别与预先设置的第一标签组、第二标签组及第三标签组的相似度,分别为所述第一子数据集合、所述第二子数据集合、所述第二标签数据集合及所述第三标签数据集合分配相似度权重;
依据各个所述相似度权重构建分类器。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明所提供的基于多示例学习的分类器构建方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于多示例学习的分类器构建方法,其特征在于,包括:
获取预先设置的训练数据集,所述训练数据集包括第一标签数据集合、第二标签数据集合及第三标签数据集合;
将所述第一标签数据集合中的各个样本数据、第二标签数据集合中的各个样本数据及第三标签数据集合中的各个样本数据,输入至预先构建的相似度模型中,以确定所述训练数据集中的各个样本数据的分别与预先设置的第一标签组、第二标签组及第三标签组的相似度;
依据所述第一标签数据集合中的各个样本数据与所述第一标签组的相似度,将所述第一标签数据集合划分为第一子数据集合及第二子数据集合;其中,所述第一子数据集合中的各个样本数据与所述第一标签组的相似度均大于所述第二子数据集合中的各个样本数据与所述第一标签组的相似度;
基于所述训练数据集中的各个样本数据分别与预先设置的第一标签组、第二标签组及第三标签组的相似度,分别为所述第一子数据集合、所述第二子数据集合、所述第二标签数据集合及所述第三标签数据集合分配相似度权重;
依据各个所述相似度权重构建分类器。
2.根据权利要求1所述的方法,其特征在于,所述依据所述第一标签数据集合中的各个样本数据与所述第一标签组的相似度,将所述第一类型集合划分为第一子数据集合及第二子数据集合,包括:
按所述第一标签数据集合中的各个样本数据与所述第一标签组的相似度由大至小的顺序,在所述第一标签数据集合中选取预设数目的样本数据,以得到第一子数据集合,将所述第一标签数据集合中除所述第一子数据集合之外的各个样本数据确定为第二子数据集合。
3.根据权利要求1所述的方法,其特征在于,还包括:
应用所述分类器对所述第一标签数据集合进行数据分类,得到第一分类集合及第二分类集合;
判断所述第一分类集合中包含的样本数据是否与所述第一子数据集合包含的样本数据一致;
若所述第一分类集合中包含的样本数据与所述第一子数据集合中包含的样本数据不一致,则依据所述第一分类集合、所述第二分类集合、所述第二标签数据及所述第三标签数据训练所述分类器。
4.根据权利要求1所述的方法,其特征在于,还包括:
判断所述分类器是否满足预先设置的停止迭代条件;
若所述分类器不满足所述停止迭代条件,则应用所述第一标签数据集合、所述第二标签数据集合及所述第三标签数据集合,对所述分类器训练,直至所述分类器满足所述停止迭代条件。
5.根据权利要求1所述的方法,其特征在于,依据各个所述相似度权重构建分类器,包括:
将各个所述相似度权重确定分类器的目标方程;
确定与所述目标方程对应的对偶方程;
对所述对偶方程进行求解,得到所述分类器。
6.一种基于多示例学习的分类器构建装置,其特征在于,包括:
获取单元,用于获取预先设置的训练数据集,所述训练数据集包括第一标签数据集合、第二标签数据集合及第三标签数据集合;
确定单元,用于将所述第一标签数据集合中的各个样本数据、第二标签数据集合中的各个样本数据及第三标签数据集合中的各个样本数据,输入至预先构建的相似度模型中,以确定所述训练数据集中的各个样本数据的分别与预先设置的第一标签组、第二标签组及第三标签组的相似度;
划分单元,用于依据所述第一标签数据集合中的各个样本数据与所述第一标签组的相似度,将所述第一标签数据集合划分为第一子数据集合及第二子数据集合;其中,所述第一子数据集合中的各个样本数据与所述第一标签组的相似度均大于所述第二子数据集合中的各个样本数据与所述第一标签组的相似度;
分配单元,用于依据所述训练数据集中的各个样本数据分别与预先设置的第一标签组、第二标签组及第三标签组的相似度,分别为所述第一子数据集合、所述第二子数据集合、所述第二标签数据集合及所述第三标签数据集合分配相似度权重;
构建单元,用于依据各个所述相似度权重构建分类器。
7.根据权利要求6所述的装置,其特征在于,所述划分单元,包括:
划分子单元,用于按所述第一标签数据集合中的各个样本数据与所述第一标签组的相似度由大至小的顺序,在所述第一标签数据集合中选取预设数目的样本数据,以得到第一子数据集合,将所述第一标签数据集合中除所述第一子数据集合之外的各个样本数据确定为第二子数据集合。
8.根据权利要求6所述的装置,其特征在于,还包括:
分类单元,应用所述分类器对所述第一标签数据集合进行数据分类,得到第一分类集合及第二分类集合;
第一判断单元,用于判断所述第一分类集合中包含的样本数据是否与所述第一子数据集合包含的样本数据一致;
训练单元,用于当所述第一分类集合中包含的样本数据与所述第一子数据集合中包含的样本数据不一致时,依据所述第一分类集合、所述第二分类集合、所述第二标签数据及所述第三标签数据训练所述分类器。
9.根据权利要求6所述的装置,其特征在于,还包括:
第二判断单元,用于判断所述分类器是否大于预先设置的停止迭代条件;
第二训练单元,用于当所述分类器不满足所述停止迭代条件时,应用所述第一标签数据集合、所述第二标签数据集合及所述第三标签数据集合,对所述分类器训练,直至所述分类器满足所述停止迭代条件。
10.根据权利要求6所述的装置,其特征在于,所述构建单元,包括:
第一确定子单元,用于将各个所述相似度权重确定分类器的目标方程;
第二确定单元,用于确定与所述目标方程对应的对偶方程;
生成单元,用于对所述对偶方程进行求解,得到所述分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910721180.5A CN110414621B (zh) | 2019-08-06 | 2019-08-06 | 基于多示例学习的分类器构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910721180.5A CN110414621B (zh) | 2019-08-06 | 2019-08-06 | 基于多示例学习的分类器构建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110414621A true CN110414621A (zh) | 2019-11-05 |
CN110414621B CN110414621B (zh) | 2022-03-22 |
Family
ID=68366102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910721180.5A Expired - Fee Related CN110414621B (zh) | 2019-08-06 | 2019-08-06 | 基于多示例学习的分类器构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110414621B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353300A (zh) * | 2020-02-14 | 2020-06-30 | 中科天玑数据科技股份有限公司 | 一种数据集构建和相关信息获取方法及其装置 |
CN111539493A (zh) * | 2020-07-08 | 2020-08-14 | 北京必示科技有限公司 | 一种告警预测方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069473A (zh) * | 2015-08-05 | 2015-11-18 | 广东工业大学 | 面向在线不确定图像识别的多示例加权包学习方法 |
CN106127247A (zh) * | 2016-06-21 | 2016-11-16 | 广东工业大学 | 基于多任务多示例支持向量机的图像分类方法 |
CN106504255A (zh) * | 2016-11-02 | 2017-03-15 | 南京大学 | 一种基于多标签多示例学习的多目标图像联合分割方法 |
CN109767457A (zh) * | 2019-01-10 | 2019-05-17 | 厦门理工学院 | 在线多示例学习目标跟踪方法、终端设备及存储介质 |
CN109919231A (zh) * | 2019-03-11 | 2019-06-21 | 广东工业大学 | 多示例学习分类器构建方法、系统及电子设备和存储介质 |
-
2019
- 2019-08-06 CN CN201910721180.5A patent/CN110414621B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069473A (zh) * | 2015-08-05 | 2015-11-18 | 广东工业大学 | 面向在线不确定图像识别的多示例加权包学习方法 |
CN106127247A (zh) * | 2016-06-21 | 2016-11-16 | 广东工业大学 | 基于多任务多示例支持向量机的图像分类方法 |
CN106504255A (zh) * | 2016-11-02 | 2017-03-15 | 南京大学 | 一种基于多标签多示例学习的多目标图像联合分割方法 |
CN109767457A (zh) * | 2019-01-10 | 2019-05-17 | 厦门理工学院 | 在线多示例学习目标跟踪方法、终端设备及存储介质 |
CN109919231A (zh) * | 2019-03-11 | 2019-06-21 | 广东工业大学 | 多示例学习分类器构建方法、系统及电子设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
YANSHAN XIAO ET AL: "A Similarity-Based Classification Framework For Multiple-Instance For Multiple-Instance Learning", 《IEEE TRANSACTIONS ON CYBERNETICS》 * |
佟乐: "添加 Universum 数据双支持向量机", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
刘建伟等: "域自适应学习研究进展", 《自动化学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353300A (zh) * | 2020-02-14 | 2020-06-30 | 中科天玑数据科技股份有限公司 | 一种数据集构建和相关信息获取方法及其装置 |
CN111353300B (zh) * | 2020-02-14 | 2023-09-01 | 中科天玑数据科技股份有限公司 | 一种数据集构建和相关信息获取方法及其装置 |
CN111539493A (zh) * | 2020-07-08 | 2020-08-14 | 北京必示科技有限公司 | 一种告警预测方法、装置、电子设备及存储介质 |
CN111539493B (zh) * | 2020-07-08 | 2020-11-27 | 北京必示科技有限公司 | 一种告警预测方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110414621B (zh) | 2022-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106611052B (zh) | 文本标签的确定方法及装置 | |
Seversky et al. | On time-series topological data analysis: New data and opportunities | |
Kandemir et al. | Computer-aided diagnosis from weak supervision: A benchmarking study | |
Liu et al. | Unsupervised embedding of single-cell Hi-C data | |
CN105378762A (zh) | 使用交替方向乘子法的深度学习 | |
CN104966105A (zh) | 一种鲁棒机器错误检索方法与系统 | |
CN104239858A (zh) | 一种人脸特征验证的方法和装置 | |
CN104517113B (zh) | 一种图像的特征提取方法、图像的分类方法及相关装置 | |
Balabka | Semi-supervised learning for human activity recognition using adversarial autoencoders | |
CN112863683A (zh) | 基于人工智能的病历质控方法、装置、计算机设备及存储介质 | |
CN111126347B (zh) | 人眼状态识别方法、装置、终端及可读存储介质 | |
CN110414624A (zh) | 基于多任务学习的分类模型构建方法及装置 | |
CN110363098B (zh) | 一种暴力行为预警方法、装置、可读存储介质及终端设备 | |
CN110414621A (zh) | 基于多示例学习的分类器构建方法及装置 | |
CN114496083A (zh) | 细胞类型确定方法、装置、设备以及存储介质 | |
CN111709941A (zh) | 一种面向病理图像的轻量级自动化深度学习系统及方法 | |
Zhang et al. | scPretrain: multi-task self-supervised learning for cell-type classification | |
Guo et al. | Continuous human action recognition in real time | |
CN110413856B (zh) | 分类标注方法、装置、可读存储介质及设备 | |
CN112466401B (zh) | 利用人工智能ai模型组分析多类数据的方法及装置 | |
CN111667018A (zh) | 一种对象聚类的方法、装置、计算机可读介质及电子设备 | |
Nikolaev et al. | Reusing the same coloring in the child nodes of the search tree for the maximum clique problem | |
CN115860835A (zh) | 基于人工智能的广告推荐方法、装置、设备及存储介质 | |
Bruch et al. | Evaluation of semi-supervised learning using sparse labeling to segment cell nuclei | |
CN114999566A (zh) | 基于词向量表征和注意力机制的药物重定位方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220322 |