CN111967495A - 一种分类识别模型构建方法 - Google Patents

一种分类识别模型构建方法 Download PDF

Info

Publication number
CN111967495A
CN111967495A CN202010639556.0A CN202010639556A CN111967495A CN 111967495 A CN111967495 A CN 111967495A CN 202010639556 A CN202010639556 A CN 202010639556A CN 111967495 A CN111967495 A CN 111967495A
Authority
CN
China
Prior art keywords
data set
target domain
decision tree
threshold
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010639556.0A
Other languages
English (en)
Other versions
CN111967495B (zh
Inventor
陈益强
张迎伟
于汉超
吕泽平
杨威文
李青
杨晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN202010639556.0A priority Critical patent/CN111967495B/zh
Publication of CN111967495A publication Critical patent/CN111967495A/zh
Application granted granted Critical
Publication of CN111967495B publication Critical patent/CN111967495B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种分类识别模型构建方法,用于构建用于小样本目标域的分类识别模型,包括如下步骤:S1、获得一个源域模型,其中所述源域模型是利用源域数据集训练集成模型生成的,所述源域模型包括多个个体分类器;S2、基于源域模型中每个个体分类器对源域数据集和目标域数据集的信息增益确定该个体分类器的特征信息增益评估指标;S3、基于每个分类器对应的特征信息增益评估指标采用预设调整策略对每个分类器进行重构,所有重构后的分类器组成目标域分类识别模型。本发明综合考虑了当前源域模型对目标域数据的分割准确度,及当前源域模型是否覆盖目标域中具有重要参考价值的属性特征,能够适应于样本数量小、标注困难的医疗诊断场景。

Description

一种分类识别模型构建方法
技术领域
本发明涉及机器模型迁移学习领域,具体来说涉及分类识别模型的迁移学习,更具体地说,涉及一种用于小样本目标域的分类识别模型构建方法。
背景技术
随着机器学习技术的成熟度越来越高,机器模型被越来越广泛的应用在各个领域,尤其是分类识别相关方面体现出了优秀的分类识别准确率。但是对于一些特殊的场景中,由于小样本问题,难以构建适应度高和分类准确度高的评估模型,特别是在一些样本取样困难的领域,像老年医疗、智能看护等。例如,老年痴呆的最显著症状特征为认知功能衰退,是老年人群中最常见的神经退行性疾病,如何有效的识别老年痴呆的前期症状对于老年痴呆的预防具有重要意义。根据世界卫生组织(World Health Organization,WHO)2019年的最新统计数据,全球约有5000万人患有痴呆症状,60岁以上老年人群中,老年痴呆的发生率约在5%至8%之间,每年将出现大约一千万老年痴呆新增病例。痴呆这类病理性认知功能衰退是老年人致残和丧失基本生活能力的主要原因,给其看护者、家庭和社会带来沉重的照料和经济负担。2015年,全球范围内,老年痴呆造成的经济负担约为8180亿美元,相当于全球经济生产总值的1.1%。为应对老年人群认知能力衰退带来的挑战,许多研究者致力于通过步态分析和手势识别等人类日常行为来评估认知功能状态。然而,已有的研究往往受限于小样本问题的影响,难以实现高精准的认知能力评估模型构建。其中,造成小样本问题的原因有三个方面:首先,数据收集过程中,难以招募大量认知功能衰退的老年人;其次,医疗数据标记耗时且较为复杂,需要较强的专家医疗知识;最后,数据收集往往需要支付被试者被试费用,且收集设备的购买和维护费用一般较高。该问题不仅存在于老年人认知功能评估的场景,其他存在小样本数据问题的场景同样存在高精准模型构建困难以致于标注困难的问题。因此,如何根据已有的小样本构建高精准的识别评估模型实现有效标注是一个突出的难点。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种新构建分类识别模型的方法。
本发明的一种分类识别模型构建方法,用于构建用于小样本目标域的分类识别模型,包括如下步骤:S1、获得一个源域模型,其中所述源域模型是利用源域数据集训练集成模型生成的,所述源域模型包括多个个体分类器;S2、基于源域模型中每个个体分类器对源域数据集和目标域数据集的信息增益确定该个体分类器的特征信息增益评估指标;S3、基于每个分类器对应的特征信息增益评估指标采用预设调整策略对每个分类器进行重构,所有重构后的分类器组成目标域分类识别模型。
优选的,所述集成模型为随机森林模型,所述随机森林模型包含多个决策树,每个决策树为一个个体分类器。所述步骤S3包括:基于每个决策树对应的特征信息增益评估指标采用不同的调整策略对每个决策树进行重构,所有重构后的决策树组成目标域分类识别模型;其中,特征信息增益评估指标小于第一阈值的决策树,采用目标域数据集重构决策树策略对该决策树进行重构;特征信息增益评估指标大于等于第一阈值且小于第二阈值的决策树,采用修改子树策略对该决策树进行重构;特征信息增益评估指标大于等于第二阈值且小于第三阈值的决策树,采用分割叶子节点策略对该决策树进行重构;特征信息增益评估指标大于等于第三阈值的决策树,采用更新属性阈值策略对该决策树进行重构。优选的,所述第一阈值、第二阈值、第三阈值是通过网格搜索方法确定的最优阈值参数,且第一阈值小于第二阈值,第二阈值小于第三阈值。在本发明的一些实施例中,每个决策树的特征信息增益评估指标通过如下方式确定:
Figure RE-GDA0002720900670000021
其中,hj表示第j颗决策树,Aj表示构造决策树hj的特征集合,
Figure RE-GDA0002720900670000022
表示源域数据集,
Figure RE-GDA0002720900670000023
表示特征a对应的信息增益在源域数据集上的所有特征的信息增益集合中的排序,
Figure RE-GDA0002720900670000024
表示目标域数据集,
Figure RE-GDA0002720900670000025
表示特征a对应的信息增益在目标域数据集上的所有特征的信息增益集合中的排序, sgn(x)是符号函数,λ是权重系数,
Figure RE-GDA0002720900670000031
表示目标域数据集中的第i个样本,
Figure RE-GDA0002720900670000032
表示第i个样本的属性,
Figure RE-GDA0002720900670000033
表示第i个样本的标签,nT表示目标域数据集的数据个数。
其中,所述用目标域数据集会重构决策树策略是以目标域数据集作为待重构决策树的输入采用递归学习的方式学习获得最优的决策树结构。所述修改子树策略是对待重构决策树中相对于到达该节点的有标签样数据集的分布差异小于分布差异阈值的节点为根节点的子树进行重建。
优选的,所述分布差异通过如下方式确定:
Figure RE-GDA0002720900670000034
Figure RE-GDA0002720900670000035
其中,DI表示当前节点相对于到达该节点的目标域数据集中的有标签样本数据集的分布差异,当前节点将到达该节点的目标域数据集中的有标签样本数据集分割为左子集P和右子集Q,M=(P+Q)/2,dm是决策树的最大深度,dc是当前结点的当前深度,
Figure RE-GDA0002720900670000036
目标域的标签域。所述分布差异阈值是通过网格搜索方法确定的最优阈值参数。
所述分割叶子节点策略是指将待重构决策树中相对于目标域数据集不纯的叶子节点重新训练将其进一步分割以扩展决策树。其中,所述相对于目标域数据集不纯的叶子节点是到达该节点的目标域数据集中的有标签样本数据集的大小大于2且该数据集中至少包含两种不同的样本。
决策树中每个节点为一个分割属性,且每个分割属性对应一个分割属性阈值,所述更新属性阈值策略是采用某节点相对于目标域数据集中的信息增益更新决策树中该节点对应的分割属性阈值。
与现有技术相比,本发明的优点在于:本发明综合考虑了当前源域模型对目标域数据的分割准确度,及当前源域模型是否覆盖目标域中具有重要参考价值的属性特征。最终通过定义统一评估准则,对所有个体分类器进行量化评估。根据量化评估结果,制定了不同的个体分类器模型迁移方法,包括修改子树、分割叶子结点和更新属性阈值等,不同生长机制适应于不同适应度的个体分类器,均可实现源域与目标域数据的适配,实现了源域与目标域之间的有效迁移,能够适应于样本数量小、标注困难的医疗诊断场景。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1为根据本发明实施例的分类识别模型构建方法流程示意图;
图2为根据本发明实施例的源域到目标域上的特征相关性示意图;
图3为根据本发明实施例的实验示例示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如背景技术所述,在很多比较特别的领域其数据样本(例如医疗数据) 收集困难,导致数据集中数据样本非常少,难以据此训练出合适的认知评估模型。
发明人通过研究迁移学习技术,获得了解决数据小样本和标注困难等问题的新思路。尽管迁移学习在计算机视觉领域取得了较好的成果,但是对于其他领域,尤其是数据小样本特点比较突出的医疗数据领域,迁移学习的研究还比较匮乏,这类领域的数据集不同于计算机视觉领域的数据集,该类领域的数据集往往较小,通常只包含十余个受试者,在如此小的样本集合中,难以使用计算机视觉领域使用的梯度下降算法优化深度神经网络模型以获得评估模型,而且模型可解释性不强。但是,在医疗相关的评估模型构建中,模型的可解释性至关重要,有助于发掘与健康相关的诊疗指标,因此,本发明将机器模型(尤其是随机森林模型)与迁移学习结合,提出一种建议有效的自适应认知评估模型的方法。
本发明的方法是一种跨任务的迁移学习方法,可称为细粒度自适应随机森林(Fine-Grained Adaptation Random Forest,FAT),本方法仅依靠目标域中的少量训练样本,即可实现源域模型到目标域模型之间的自适应迁移。FAT首先采用基于信息增益的模型评估策略(Information Gain based Model Evaluation Strategy,IGME)来评估随机森林中的单个树结构对目标域数据分布的适应程度;之后,根据评估结果,使用领域自适应决策树生长机制(Domain Adaptation Tree Growing Mechanism,DATG) 为每棵树选择不同的生长策略,以此获得适应于目标域的评估识别模型。
由此,本发明提供一种分类识别模型构建方法,用于构建用于小样本目标域的分类识别模型,概括来说,包括:S1、获得一个源域模型,其中所述源域模型是利用源域数据集训练集成模型生成的所述源域模型包括多个个体分类器;S2、基于源域模型中每个个体分类器对源域数据集和目标域数据集的信息增益确定该个体分类器的特征信息增益评估指标;S3、基于每个分类器对应的特征信息增益评估指标采用不同的预设调整策略对每个分类器进行重构,所有重构后的分类器组成目标域分类识别模型。
准确地说,本发明的方法是一种采用改进的迁移学习技术构建模型的方法,其目的是将一个与训练的模型(源域模型)改进后,重新用在另一个任务中(目标域)。其中,涉及两个重要的概念,即源域和目标域。源域一般数据量较大,且有标注,能建立较好的识别模型;目标域一般数据量较小,甚至有时候数据无标注,难以建立较好的识别模型。本发明的目标是使用源域中建立的模型,经过优化和适配,改造成目标域模型,用作目标域的识别。
其中,迁移学习旨在利用源领域学习的知识解决目标域的识别问题。通常,源域中的数据表示为
Figure RE-GDA0002720900670000051
其中
Figure RE-GDA0002720900670000052
为源域的大小。目标域中的数据标记为
Figure RE-GDA0002720900670000053
其中
Figure RE-GDA0002720900670000054
是目标域的大小。
Figure RE-GDA0002720900670000055
为特征空间,
Figure RE-GDA0002720900670000056
是类别空间,
Figure RE-GDA0002720900670000057
Figure RE-GDA0002720900670000058
分别是特征空间大小和识别类别数目。
本发明的方法主要采用两方面策略进行模型的构建,第一方面策略是基于信息增益的模型评估策略(Information Gain based Model Evaluation Strategy,IGME);第二方面策略是领域自适应决策树生长机制(Domain Adaptation Tree Growing Mechanism,DATG)。
其中,基于信息增益的模型评估策略通过定义基于信息增益和分割准确度的评估准则,评估集成学习模型中个体分类器的分类准确度和分割特征分布。IGME策略着重考虑两个方面问题,当前源域模型对目标域数据的分割准确度,及当前源域模型是否覆盖目标域中具有重要参考价值的属性特征。最终,通过定义的统一评估准则,IGME策略可实现对源域模型中个体分类器的量化度量。
根据本发明的一个实施例,集成模型采用随机森林模型,所述随机森林模型包含多个决策树,每个决策树为一个个体分类器。其中,随机森林旨在学习包含
Figure RE-GDA00027209006700000620
个决策树
Figure RE-GDA00027209006700000621
的分类器
Figure RE-GDA0002720900670000061
Figure RE-GDA0002720900670000062
为此时的训练数据集合。对于样本
Figure RE-GDA0002720900670000063
而言,个体决策树hj的识别结果为
Figure RE-GDA0002720900670000064
其中
Figure RE-GDA0002720900670000065
是个体分类器hj在第
Figure RE-GDA0002720900670000066
个类别上的分类结果。为了构建第j个个体分类器,随机森林使用bootstrap数据采样方法,从原始训练样本集合
Figure RE-GDA0002720900670000067
中筛选训练子集
Figure RE-GDA0002720900670000068
该子集包含nS个样本。在第j个体分类决策树的分割结点划分时,随机森林算法使用特征随机化方法从特征空间
Figure RE-GDA0002720900670000069
中选择k个特征,之后根据分割标准(包括信息增益、信息增益率、基尼指数等)从候选特征集中选择最佳特征。
Figure RE-GDA00027209006700000610
的输出通过平均法、投票法、学习法等组合策略计算,以绝对多数投票法为例,最终计算结果为
Figure RE-GDA00027209006700000611
Figure RE-GDA00027209006700000612
领域自适应决策树生长机制用于对量化度量后的个体分类器提供不同的生长机制使决策树进行重构。具体来说,本发明作为一种迁移学习框架,使用小规模的有标注训练集合将给定的源域模型传递到目标域,使现有的认知评估模型能够适应新任务上的认知状态评估。其中,影响决策树模型重构的因素可被归纳为一个非线性函数:
Figure RE-GDA00027209006700000613
其中,
Figure RE-GDA00027209006700000614
是源域或目标域中的特征数目(亦即:
Figure RE-GDA00027209006700000615
Figure RE-GDA00027209006700000616
),
Figure RE-GDA00027209006700000617
是特征的最大可能取值数目,
Figure RE-GDA00027209006700000618
是样本数目(亦即:nT)。决策树模型领域自适应的成本与样本空间的大小、源域和目标域中特征空间的大小和取值多样性成正比。具体而言:
·分裂特征的选择会影响个体决策树的结构。当具有区分能力的特征数量
Figure RE-GDA00027209006700000619
增加或特征集合改变时,决策树的最佳结构将发生变化。
·不理想的分裂特征组合会导致叶子结点中样本的不纯,继续分裂其上样本可扩展为一棵完整的子树。
·类似识别问题中,决策树模型往往具有相似的树结构。但是,在模型迁移过程中,一般还需要修改指定特征的阈值
Figure RE-GDA00027209006700000622
以适应当前问题。
因此,基于上述因素,本发明提出自适应的决策树生长机制,如,修改子树:通过定义分布差异概念,评估内部结点的分裂能力,从而查找不适应于目标域数据的模型子结构,并对其进行替换和重新学习;分割叶子结点:解决叶子结点不纯的问题,在某些情况下,源域决策树难以分割目标域中的所有样本,导致叶子结点不纯,因此需要进一步分割叶子结点以扩展现有源域模型;更新属性阈值:自上而下地更新每个分割属性的阈值,对于目标域数据可达到的内部结点,该策略能够根据信息增益重新计算该结点的阈值。
根据本发明的一个实施例,如图1所示,以随机森林模型为例,本发明的构建分类识别模型的方法包括如下步骤:
T1、用源域数据集训练随机森林模型以获得源域模型,所述源域模型包括多个决策树,用hj表示第j个决策树;
T2、评估源域和目标域中的重要属性,计算基于重要属性对源域和目标域进行分类识别时源域模型中每个个体分类器对源域数据集和目标域数据集的信息增益;
T3、基于源域模型中每个个体分类器对源域数据集和目标域数据集的信息增益以及源域模型对目标域样本的分类准确度确定该个体分类器的特征信息增益评估指标S(hj);
T4、若S(hj)<δ1,则使用目标域数据重构决策树策略重构决策树hj;若 S(hj)<δ2,则使用修改子树策略重构决策树hj;若S(hj)<δ3,则使用分割叶子结点策略重构决策树hj;否则,使用更新属性阈值策略重构决策树hj。其中,δ1<δ2<δ3,分别表示第一阈值、第二阈值、第三阈值,均是通过网格搜索方法确定的最优阈值参数。
本发明中涉及到的信息增益,主要是用于评估源域模型相对于目标域的不适应评估。其中,根据个体决策树的评估标准,主要有三个层次的模型不适应,即:模型结构不当,叶子节点不纯或阈值不适应。本发明提出的方法是一种集成学习模型中的迁移策略,具体而言,本发明将为每个个体分类器分别选择不同的模型迁移策略。本发明提出IGME的基本思想是,根据个体决策树中分割特征的信息增益来对其进行评估;之后,对所有个体分类器进行排名,并个性化地更新各个模型的结构或参数;在模型迁移过程中,最关键的问题是量化个体分类器的不适应程度。因而,本发明提出了一种新的个体分类器评估准则,即基于信息增益的模型评估策略 (IGME),其能够同时评估个体分类器的分类准确度和分割特征分布。
在信息论理论中,信息增益一般用于衡量一个分割的质量:
Figure RE-GDA0002720900670000071
其中,a为分割属性(a为源域和目标域中的重要属性),
Figure RE-GDA0002720900670000072
Figure RE-GDA0002720900670000073
为当前数据集D上的信息熵,pk是特征集合D上第k个样本的概率pk
Figure RE-GDA0002720900670000081
是当使用属性a划分数据集合
Figure RE-GDA0002720900670000082
为V个子集合时的条件概率(指示的是该属性对应的分类准确度)。所有特征的信息增益可构成一个信息增益集合
Figure RE-GDA0002720900670000083
为评估各个信息增益的数值,对
Figure RE-GDA0002720900670000084
进行排序,之后使用
Figure RE-GDA0002720900670000085
表示各个特征信息增益的排序(代表属性的重要性)。例如,如果
Figure RE-GDA0002720900670000086
为{2.3,6.7,4.5,1.2,则
Figure RE-GDA0002720900670000087
为{3,1,2,4}。
假设Aj为构造第j棵个体决策树时的特征集合,
Figure RE-GDA0002720900670000088
为源域上的信息增益集合,
Figure RE-GDA0002720900670000089
为目标域集合上的信息增益集合。
Figure RE-GDA00027209006700000810
Figure RE-GDA00027209006700000811
是信息增益的序列集合。为评估各个个体决策树,本发明定义了以下的初始评估指标:
Figure RE-GDA00027209006700000812
其中,
Figure RE-GDA00027209006700000813
用于衡量属性a在源域和目标域上的重要性差异,+1的作用是了避免
Figure RE-GDA00027209006700000814
S(hj)定义了源域到目标域上四种类型的特征相关,如图2所示:
·情形1:当S(hj)数值较小时,源域中构造第j棵个体决策树的特征,在目标域也有类似的重要程度。
·情形2:当S(hj)数值略有增加时,大多数用于构造第j棵个体决策树的特征,在目标域也有类似的重要程度。
·情形3:此时,仅有部分用于构造第j棵个体决策树的特征,在目标域也有类似的重要程度。
·情形4:当S(hj)数值很大时,用于构造第j棵个体决策树的特征,在目标域几乎没有类似的重要程度。
另外,评估个体决策树时,目标域的测试准确度也是重要指标。因此,本发明结合初始S(hi)指标和目标域的测试准确度,重新定义了S(hi)指标:
Figure RE-GDA00027209006700000815
其中,sgn(x)是符号函数,λ是权重系数。在公式(1)的前半部分,使用|Aj| 正则化了特征耦合度,以保证该部分数值在[0,1/2]之间;在公式(1)的后半部分,识别错误率hj的数值被限制在[0,1/2]之间。
根据公式(1),对单个决策树有四个层次的适应度。本发明根据S(hj)的数值对源域模型进行更新,并定义了三种决策树的领域自适应决策树生长机制。
a)、修改子树
修改子树中的核心问题是筛选应该被更改的子树,假设结点v将数据集 S分割为两部分,左子集为P=v.substlft,右子集为Q=v.substrgt。为了评估内部结点的分裂能力,定义分布差异的概念以测量左子集和右子集的分布:
Figure RE-GDA0002720900670000091
Figure RE-GDA0002720900670000092
其中dm是决策树的最大深度,dc是结点v的当前深度,M=(P+Q)/2,
Figure RE-GDA0002720900670000093
是目标域的标签域。分布差异概念依赖于Jensen-Shannon分布和Kullback- Leibler分布,如公式(3)所示。本发明用
Figure RE-GDA0002720900670000094
加权分布差异,以确保决策树中浅层结点有更大可能性被修改。修改子树定义了一个自上而下的修改过程,伪代码如表1所示,其中“%...%”是对代码的释义。
表1
Figure RE-GDA0002720900670000095
b)、分割叶子结点
分割叶节点的目标是解决叶子结点不纯的问题。在某些情况下,源域决策树分类能力难以分割目标域中的所有样本,导致叶子结点不纯,因此需要进一步分割叶子结点以扩展现有源域模型。如果到达叶子结点v的数据集S满足两个条件,叶节点v将被重新训练,以进一步分割叶子结点:1)S 的大小大于预定义的阈值2;2)数据集S至少包含两种不同类别的样本。分割叶子结点的伪代码如表2所示,其中“%...%”是对代码的释义:
表2
Figure RE-GDA0002720900670000101
c)、更新属性阈值
决策树在相似问题上有类似的树结构,更新属性阈值正是受该思想启发设计的。因此,决策树分割阈值在不同任务下,具有不同数值。更新属性阈值自上而下地更新每个分割属性的阈值,对于目标域数据可达到的内部结点,更新属性阈值策略能够根据信息增益重新计算该结点的阈值。伪代码如表3所示,其中“%...%”是对代码的释义:
表3
Figure RE-GDA0002720900670000102
Figure RE-GDA0002720900670000111
d)、目标域数据重构决策树
目标域数据重构过程类似于决策树模型构建过程。重构过程中,以目标域数据集
Figure RE-GDA0002720900670000112
为输入,目标是学习最优的决策树结构,决策树建模是一个递归过程,具体如下:
第1步,生成节点node,判断
Figure RE-GDA0002720900670000113
中样本是否均来自同一类别,若是,则结束递归,返回节点node;否则,继续进行递归过程。
第2步,判断
Figure RE-GDA0002720900670000114
中是否还有其他未使用分割属性,若无,则结束递归,输出为
Figure RE-GDA0002720900670000115
中多数类别;否则,继续进行递归过程。
第3步,从目标域数据的属性集合中,选择一个未用的最优属性a,作为之后的分割属性。
第4步,以a作为分割属性,递归划分目标域数据集,分成左右子树,分别
Figure RE-GDA0002720900670000116
Figure RE-GDA0002720900670000117
之后,重复上述第1步、第2步、第3步和第4步分割步骤,直至建模结束。
根据本发明的一个实施例,基于上述策略的描述,如表4所示的伪代码指示了基于随机森林构建分类识别模型的实现过程,其中“%...%”是对代码的释义。其输入为源域的已有集成学习模型
Figure RE-GDA0002720900670000118
和源域的信息增益集
Figure RE-GDA0002720900670000119
首先,FAT计算目标域的信息增益,并计算目标域数据
Figure RE-GDA00027209006700001110
在已有模型上的分割结果;之后,计算所有个体分类器的S(hj)指标;最终,对不同个体分类器按照不同模型更新策略进行更新,实现目标域模型的细粒度更新。
表4
Figure RE-GDA0002720900670000121
为了验证本发明的效果,下面结合实验数据进行说明。
根据本发明的一个示例,在认知评估数据集上进行实验以验证采用本发明的方法构建的分类识别模型的性能。
1、数据集和预处理:
使用基于触摸屏的认知评估测试(根据Box-and-Block测试设计)来评估老年人的认知状态,其中包括4种不同的单任务和12种不同的双任务。四种单任务分别为单任务I(如图3(a)所示,将色块从开始区域逐个移动到目标区域)、单任务II(如图3(b)所示,将色块从开始区域逐个移动到指定目标区域)、单任务III(如图3(c)所示,将色块从开始区域逐个顺次放置于目标区域)和单任务IV(如图3(d)所示,将色块从开始区域逐个移动到固定位置)。12种双任务由4个单任务和3个语言评估任务结合而成,即,一边讲话一边执行单任务,包括双任务BI、双任务CI、双任务 DI、双任务BII、双任务CII、双任务DII、双任务BIII、双任务CIII、双任务DIII、双任务BIV、双任务CIV和双任务DIV。3种语言能力评估任务分别是倒数(从100开始倒数)、动物命名(枚举动物名字)和100减 7(从100逐个减7)。认知评估任务的原型系统在Android Studio 2.2.2 集成开发系统上开发实现,在两种场景下进行数据收集:
·场景一(记为TL),原型系统运行在Huawei M5平板电脑上(屏幕尺寸10.1英寸,分辨率1920×1200)。61名受试参与数据采集,其中包括20名轻度认知功能障碍患者(年龄:68.25±6.15,8名男性和12名女性)和41名健康人(年龄:67.36±4.76,21名男性和20名女性)。数据采集过程中,所有受试执行四个评估任务,包括单任务I、单任务II、单任务III和单任务IV。
·场景二(记为VS),原型系统运行在NanoPi M4单片机上(屏幕尺寸21.5英寸,分辨率1920×1200)。37名受试参与数据采集,其中包括25名轻度认知功能障碍患者(年龄:65.08±9.68,16名和9名女性)和12名健康人(年龄:39.44±2.31,7名男性和5 名女性)。数据采集过程中,所有受试执行四个评估任务,包括单任务II、双任务AII、双任务BII和双任务CII。
本实验中提取了五种类型的特征,包括基于数量的特征(∈R10)、基于时间的特征(∈R50)、基于速度的特征(∈R130)、基于角度的特征(∈R60)和基于落点分布的特征(∈R70)
2、实验对比方法和参数细节
基于前面收集到的数据样本,采用多种方法构建的模型和本发明方法构建的分类识别模型进行对比验证,获得如表5所示的实验数据,每个数据代表不同的方法构建的模型执行不同任务所对应的精度。其中,前3种对比方法构建的模型为仅使用源域数据构建的模型(Src)、仅使用目标域数据构建的模型(Tar)、同时使用源域和目标域数据构建的模型(Com),这是三种不涉及模型迁移的简单方法。后6种对比方法构建的模型包括决策树结构扩张/约减构建的模型(SER)、结构迁移构建的模型(Struct)、 SER与Struct的混合方法构建的模型(Mix)、分层迁移构建的模型(STL)、迁移成分分析算法构建的模型(TCA)和测地线流式核方法构建的模型 (GFK),其中,SER、Struct和Mix是基于随机森林的模型迁移方法,TCA、 STL和GFK是有代表性的特征迁移算法,可将源域和目标域数据映射至统一空间,以减少两者分布差异。FAT代表本发明的方法构建的模型。
在联想ThinkStation台式机(Intel Core i7-6700/16GB DDR3)上开展实验,代码运行环境为Matlab R2018b平台。所有9种对比方法均使用随机森林作为基础分类器,设置随机森林中个体决策树个数为
Figure RE-GDA0002720900670000141
每个分割结点上候选特征为
Figure RE-GDA0002720900670000142
(
Figure RE-GDA0002720900670000143
为特征总数),结点停止分裂的最小样本数为2,单个个体决策树的最大深度为max=10。另外,STL、TCA和GFK这三种基于属性迁移的学习方法需要对维度进行约减,本发明设置约减后维度为30。FAT的δ123三个参数分为别0.6、0.7、0.8。
表5
Figure RE-GDA0002720900670000144
Figure RE-GDA0002720900670000151
Figure RE-GDA0002720900670000161
此外,为测试FAT性能,本实验交替使用场景一和场景二采集的数据作为源域和目标域。每次实验中,目标域数据的30%用于调优已有源域模型,目标域数据的70%用于测试调优后的模型。由于场景一和场景二均包含4 项测试,所以共有56种不同源域和目标域的组合(TL→VS:4×4,VS→ TL:4×4,TL→TL:4×3,VS→VS:4×3)。FAT和9种对比方法上的实验结果如表5所示,通过表5的对比分析,可得出如下结论:
·10种方法中,FAT效果最优,最高识别精度为92.8%,最低识别精度为 73.4%;
·在56种迁移学习任务中,FAT在其中55种上取得最佳效果。当将场景一的单任务IV迁移至场景二的单任务II上时,Struct取得最佳结果;·使用配对样本T检验(显着性水平为0.05)衡量FAT是否显著优于其他对比方法,在0.05的置信度下,FAT在56种迁移任务中的54种上,显著优于其他对比方法。
本发明综合考虑了当前源域模型对目标域数据的分割准确度,及当前源域模型是否覆盖目标域中具有重要参考价值的属性特征。最终通过定义统一评估准则,对所有个体分类器进行量化评估。根据量化评估结果,制定了不同的个体分类器模型迁移方法,包括修改子树、分割叶子结点和更新属性阈值等,不同生长机制适应于不同适应度的个体分类器,均可实现源域与目标域数据的适配,实现了源域与目标域之间的有效迁移,能够适应于样本数量小、标注困难的医疗诊断场景。
需要说明的是,虽然上文按照特定顺序描述了各个步骤,但是并不意味着必须按照上述特定顺序来执行各个步骤,实际上,这些步骤中的一些可以并发执行,甚至改变顺序,只要能够实现所需要的功能即可。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (13)

1.一种分类识别模型构建方法,用于构建用于小样本目标域的分类识别模型,其特征在于,包括:
S1、获得一个源域模型,其中所述源域模型是利用源域数据集训练集成模型生成的,所述源域模型包括多个个体分类器;
S2、基于源域模型中每个个体分类器对源域数据集和目标域数据集的信息增益确定该个体分类器的特征信息增益评估指标;
S3、基于每个分类器对应的特征信息增益评估指标采用预设调整策略对每个分类器进行重构,所有重构后的分类器组成目标域分类识别模型。
2.根据权利要求1所述的一种分类识别模型构建方法,其特征在于,
所述集成模型为随机森林模型,所述随机森林模型包含多个决策树,每个决策树为一个个体分类器;
步骤S3包括:基于每个决策树对应的特征信息增益评估指标采用不同的调整策略对每个决策树进行重构,所有重构后的决策树组成目标域分类识别模型;
其中,特征信息增益评估指标小于第一阈值的决策树,采用目标域数据集重构决策树策略对该决策树进行重构;特征信息增益评估指标大于等于第一阈值且小于第二阈值的决策树,采用修改子树策略对该决策树进行重构;特征信息增益评估指标大于等于第二阈值且小于第三阈值的决策树,采用分割叶子节点策略对该决策树进行重构;特征信息增益评估指标大于等于第三阈值的决策树,采用更新属性阈值策略对该决策树进行重构。
3.根据权利要求2所述的一种分类识别模型构建方法,其特征在于,所述第一阈值、第二阈值、第三阈值是通过网格搜索方法确定的最优阈值参数,且第一阈值小于第二阈值,第二阈值小于第三阈值。
4.根据权利要求2-3之一所述的一种分类识别模型构建方法,其特征在于,
每个决策树的特征信息增益评估指标通过如下方式确定:
Figure FDA0002570396160000011
其中,hj表示第j颗决策树,Aj表示构造决策树hj的特征集合,
Figure FDA0002570396160000021
表示源域数据集,
Figure FDA0002570396160000022
表示特征a对应的信息增益在源域数据集上的所有特征的信息增益集合中的排序,
Figure FDA0002570396160000023
表示目标域数据集,
Figure FDA0002570396160000024
表示特征a对应的信息增益在目标域数据集上的所有特征的信息增益集合中的排序,sgn(x)是符号函数,λ是权重系数,
Figure FDA0002570396160000025
表示目标域数据集中的第i个样本,
Figure FDA0002570396160000026
表示第i个样本的属性,
Figure FDA0002570396160000027
表示第i个样本的标签,nT表示目标域数据集的数据个数。
5.根据权利要求4所述的一种分类识别模型构建方法,其特征在于,
所述用目标域数据集会重构决策树策略是以目标域数据集作为待重构决策树的输入采用递归学习的方式学习获得最优的决策树结构。
6.根据权利要求4所述的一种分类识别模型构建方法,其特征在于,
所述修改子树策略是对待重构决策树中相对于到达该节点的有标签样数据集的分布差异小于分布差异阈值的节点为根节点的子树进行重建。
7.根据权利要求6所述的一种分类识别模型构建方法,其特征在于,
所述分布差异通过如下方式确定:
Figure FDA0002570396160000028
Figure FDA0002570396160000029
其中,DI表示当前节点相对于到达该节点的目标域数据集中的有标签样本数据集的分布差异,当前节点将到达该节点的目标域数据集中的有标签样本数据集分割为左子集P和右子集Q,M=(P+Q)/2,dm是决策树的最大深度,dc是当前结点的当前深度,
Figure FDA00025703961600000210
目标域的标签域。
8.根据权利要求7所述的一种分类识别模型构建方法,其特征在于,所述分布差异阈值是通过网格搜索方法确定的最优阈值参数。
9.根据权利要求4所述的一种分类识别模型构建方法,其特征在于,
所述分割叶子节点策略是指将待重构决策树中相对于目标域数据集不纯的叶子节点重新训练将其进一步分割以扩展决策树。
10.根据权利要求9所述的一种分类识别模型构建方法,其特征在于,
所述相对于目标域数据集不纯的叶子节点是到达该节点的目标域数据集中的有标签样本数据集的大小大于2且该数据集中至少包含两种不同的样本。
11.根据权利要求4所述的一种分类识别模型构建方法,其特征在于,
决策树中每个节点为一个分割属性,且每个分割属性对应一个分割属性阈值,所述更新属性阈值策略是采用某节点相对于目标域数据集中的信息增益更新决策树中该节点对应的分割属性阈值。
12.一种计算机可读存储介质,其特征在于,其上包含有计算机程序,所述计算机程序可被处理器执行以实现权利要求1至11任一所述方法的步骤。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求1至11中任一项所述方法的步骤。
CN202010639556.0A 2020-07-06 2020-07-06 一种分类识别模型构建方法 Active CN111967495B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010639556.0A CN111967495B (zh) 2020-07-06 2020-07-06 一种分类识别模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010639556.0A CN111967495B (zh) 2020-07-06 2020-07-06 一种分类识别模型构建方法

Publications (2)

Publication Number Publication Date
CN111967495A true CN111967495A (zh) 2020-11-20
CN111967495B CN111967495B (zh) 2024-06-14

Family

ID=73361182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010639556.0A Active CN111967495B (zh) 2020-07-06 2020-07-06 一种分类识别模型构建方法

Country Status (1)

Country Link
CN (1) CN111967495B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117793A (zh) * 2018-08-16 2019-01-01 厦门大学 基于深度迁移学习的直推式雷达高分辨距离像识别方法
CN112686313A (zh) * 2020-12-31 2021-04-20 江西理工大学 基于信息论改进的并行深度森林分类方法
CN112861796A (zh) * 2021-03-12 2021-05-28 中国科学院计算技术研究所 特征自适应的动作识别方法
CN113011503A (zh) * 2021-03-17 2021-06-22 彭黎文 一种电子设备的数据取证方法、存储介质及终端
CN113641961A (zh) * 2021-09-07 2021-11-12 浙江省林业科学研究院 一种测算单株毛竹扩散能力及关键调节因子的方法
CN114068012A (zh) * 2021-11-15 2022-02-18 北京智精灵科技有限公司 一种面向认知决策的多维分层漂移扩散模型建模方法
CN114202039A (zh) * 2022-02-17 2022-03-18 深圳消安科技有限公司 一种基于cim模型的城市信息多源数据融合方法
CN114372497A (zh) * 2021-08-18 2022-04-19 中电长城网际系统应用有限公司 多模态安全数据分类方法和分类系统
WO2023087917A1 (zh) * 2021-11-17 2023-05-25 北京智精灵科技有限公司 基于多维分层漂移扩散模型的认知决策评估方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100150393A1 (en) * 2008-12-16 2010-06-17 Microsoft Corporation Sentiment classification using out of domain data
CN109376578A (zh) * 2018-08-27 2019-02-22 杭州电子科技大学 一种基于深度迁移度量学习的小样本目标识别方法
CN109389037A (zh) * 2018-08-30 2019-02-26 中国地质大学(武汉) 一种基于深度森林和迁移学习的情感分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100150393A1 (en) * 2008-12-16 2010-06-17 Microsoft Corporation Sentiment classification using out of domain data
CN109376578A (zh) * 2018-08-27 2019-02-22 杭州电子科技大学 一种基于深度迁移度量学习的小样本目标识别方法
CN109389037A (zh) * 2018-08-30 2019-02-26 中国地质大学(武汉) 一种基于深度森林和迁移学习的情感分类方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117793B (zh) * 2018-08-16 2021-10-29 厦门大学 基于深度迁移学习的直推式雷达高分辨距离像识别方法
CN109117793A (zh) * 2018-08-16 2019-01-01 厦门大学 基于深度迁移学习的直推式雷达高分辨距离像识别方法
CN112686313B (zh) * 2020-12-31 2022-05-13 韶关学院 基于信息论改进的并行深度森林分类方法
CN112686313A (zh) * 2020-12-31 2021-04-20 江西理工大学 基于信息论改进的并行深度森林分类方法
CN112861796A (zh) * 2021-03-12 2021-05-28 中国科学院计算技术研究所 特征自适应的动作识别方法
CN113011503A (zh) * 2021-03-17 2021-06-22 彭黎文 一种电子设备的数据取证方法、存储介质及终端
CN114372497A (zh) * 2021-08-18 2022-04-19 中电长城网际系统应用有限公司 多模态安全数据分类方法和分类系统
CN113641961A (zh) * 2021-09-07 2021-11-12 浙江省林业科学研究院 一种测算单株毛竹扩散能力及关键调节因子的方法
CN113641961B (zh) * 2021-09-07 2023-08-25 浙江省林业科学研究院 一种测算单株毛竹扩散能力及关键调节因子的方法
CN114068012A (zh) * 2021-11-15 2022-02-18 北京智精灵科技有限公司 一种面向认知决策的多维分层漂移扩散模型建模方法
CN114068012B (zh) * 2021-11-15 2022-05-10 北京智精灵科技有限公司 一种面向认知决策的多维分层漂移扩散模型建模方法
WO2023087917A1 (zh) * 2021-11-17 2023-05-25 北京智精灵科技有限公司 基于多维分层漂移扩散模型的认知决策评估方法及系统
CN114202039B (zh) * 2022-02-17 2022-06-14 深圳消安科技有限公司 一种基于cim模型的城市信息多源数据融合方法
CN114202039A (zh) * 2022-02-17 2022-03-18 深圳消安科技有限公司 一种基于cim模型的城市信息多源数据融合方法

Also Published As

Publication number Publication date
CN111967495B (zh) 2024-06-14

Similar Documents

Publication Publication Date Title
CN111967495B (zh) 一种分类识别模型构建方法
Giovannucci et al. CaImAn an open source tool for scalable calcium imaging data analysis
CN112017198B (zh) 基于自注意力机制多尺度特征的右心室分割方法及装置
Sahu et al. FINE_DENSEIGANET: Automatic medical image classification in chest CT scan using Hybrid Deep Learning Framework
CN102422323B (zh) 年龄估计装置、年龄估计方法
CN109830303A (zh) 基于互联网一体化医疗平台的临床数据挖掘分析与辅助决策方法
CN111180068A (zh) 一种基于多任务学习模型的慢病预测系统
CN114242236A (zh) 结构-功能脑网络双向映射模型构建方法及脑网络双向映射模型
CN111242233B (zh) 一种基于融合网络的阿尔兹海默病分类方法
CN111090764A (zh) 基于多任务学习和图卷积神经网络的影像分类方法及装置
CN110046707A (zh) 一种神经网络模型的评估优化方法和系统
CN115272295A (zh) 基于时域-空域联合状态的动态脑功能网络分析方法及系统
Bansal et al. An improved hybrid classification of brain tumor MRI images based on conglomeration feature extraction techniques
Lonij et al. Open-world visual recognition using knowledge graphs
Jung et al. Inter-regional high-level relation learning from functional connectivity via self-supervision
Behnisch et al. Urban data-mining: spatiotemporal exploration of multidimensional data
Ganesh et al. Multi class Alzheimer disease detection using deep learning techniques
CN114417969A (zh) 基于细粒度迁移的跨场景认知能力评估方法及系统
CN114120035A (zh) 一种医学影像识别训练方法
Li et al. Developing a dynamic graph network for interpretable analysis of multi-modal MRI data in parkinson’s disease diagnosis
Moretti et al. Autoencoding topographic factors
Rajakumaran et al. An efficient machine learning based tongue color analysis for automated disease diagnosis model
Binaco et al. Automated analysis of the clock drawing test for differential diagnosis of mild cognitive impairment and Alzheimer’s Disease
CN115631386B (zh) 一种基于机器学习的病理图像分类方法和系统
Adin et al. Multivariate Disease Mapping Models to Uncover Hidden Relationships Between Different Cancer Sites

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant