CN114417969A - 基于细粒度迁移的跨场景认知能力评估方法及系统 - Google Patents

基于细粒度迁移的跨场景认知能力评估方法及系统 Download PDF

Info

Publication number
CN114417969A
CN114417969A CN202111551153.1A CN202111551153A CN114417969A CN 114417969 A CN114417969 A CN 114417969A CN 202111551153 A CN202111551153 A CN 202111551153A CN 114417969 A CN114417969 A CN 114417969A
Authority
CN
China
Prior art keywords
scene
individual
data
target domain
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111551153.1A
Other languages
English (en)
Inventor
陈益强
张迎伟
于汉超
杨晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN202111551153.1A priority Critical patent/CN114417969A/zh
Publication of CN114417969A publication Critical patent/CN114417969A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/259Fusion by voting

Abstract

本发明提出一种基于细粒度迁移的跨场景认知能力评估方法,包括:以用户在第一场景下的认知数据为源域数据,以该用户在第二场景下的认知数据为目标域数据;以源域数据集为训练集,训练随机森林分类器,生成源域模型;获得该个体分类器对目标域数据集的测试准确率,以及从源域特征到目标域特征的信息增益差;根据该测试准确率和该信息增益差,将所有该个体分类器聚类为多个簇;对各簇中的个体分类器采用对应的生长机制进行更新,获得目标域模型;通过该目标域模型对该用户在该第二场景下的认知能力进行评估。本发明还提出一种基于细粒度迁移的跨场景认知能力评估系统,以及一种数据处理装置。

Description

基于细粒度迁移的跨场景认知能力评估方法及系统
技术领域
本发明涉及普适计算技术领域,具体涉及一种基于有细粒度迁移学习的、面向跨任务的认知功能评估方法及系统。
背景技术
认知健康是一种清晰地思考、学习和记忆的能力,是大脑健康的重要组成部分。认知健康关系到个体全生命周期的正常发展,从认知能力不断发展的青少年阶段、到认知能力达到最佳的成年阶段、再到认知能力逐渐退化的老年阶段,拥有健康认知能力是独立生活、学习技能和适应社会的基础。近年来,许多与生活习惯、环境等相关的因素——如睡眠不足、缺乏体育锻炼、吸烟、酗酒、摄入过量高脂肪或高钠食品、人口老龄化、环境变化——均使个体认知健康愈发成为一个严峻的家庭和社会危机。德国海德堡大学医学院的统计数据表明,注意力缺陷多动症(Attention Deficit Hyperactivity Disorder,ADHD)在儿童群体的发病率约5%~7%,全球约有5110万儿童受到注意力缺陷多动症的影响。此外,2019年世界卫生组织(World Health Organization,WHO)的统计数据表明,全球约有5000万老年人存在认知能力衰退症状,在60岁以上的老年群体中,痴呆发病率高达5%~8%。目前,针对注意力缺陷多动症、老年痴呆等认知健康相关疾病尚无有效治疗方案。关注发病早期阶段的训练与康复、缓解特异性症状、延缓病情发展,是目前唯一可行的应对方法。
普适计算(Ubiquitous Computing)是适应计算技术发展出现的一种新型计算模式,强调融合信息、物理和社会空间,通过无所不在的计算服务突破传统计算模式的时空限制。区别于传统受限环境下的认知健康监护,普适非受限环境下的认知健康监护能够通过可穿戴设备、自然人机交互和自适应计算实现无约束、长时间、跨场景认知健康监护。然而,在医疗问诊、社区生活、居家监护等不同普适计算场景下,由于数据感知设备、感知流程的不同,往往带来不同场景下数据分布不一致的问题,使已有模型难以跨场景适配。迁移学习放宽了传统机器学习中的数据分布一致性要求,能够通过模拟人类类比推理过程,将在已知领域上学习到的知识用于其他相关领域的推理分析上,为解决普适环境下认知能力评估的跨场景适用提供了新思路。如,Long等人融合特征迁移和深度神经网络,实现了计算机视觉模型的跨域迁移。尽管迁移学习在计算机视觉领域取得了优异的实验效果,但受限于医疗问诊的可解释性需求强和数据的小样本等问题,传统迁移学习方法在医疗健康领域的应用还存在一定挑战。相较于计算机视觉领域常用数据集,认知能力评估相关研究由于患者数量有限、标注困难、数据采集成本高昂等因素影响,相关数据集往往规模更小,通常只包含十余个受试者,已有的研究往往受限于小样本问题,难以实现高精准的认知能力评估模型构建。传统迁移学习方法多基于深度神经网络设计,而在如此小规模的样本集合中,难以使用梯度下降算法优化深度神经网络模型。另外,在医疗相关的认知评估模型构建过程中,模型的可解释性也至关重要,可解释能力是进一步发掘与健康相关诊疗指标的基础。
发明内容
针对上述问题,本发明将可解释性较强的随机森林模型与迁移学习思想相结合,以建立有效的自适应认知评估模型,本发明的跨场景认知能力评估方法包括:以用户在第一场景下的认知数据为源域数据,以该用户在第二场景下的认知数据为目标域数据;以源域数据集为训练集,训练随机森林分类器,生成源域模型;以目标域数据集为测试集,对该源域模型的个体分类器进行测试,获得该个体分类器的测试准确率;提取该源域数据集的源域特征和该目标域数据集的目标域特征,获得从该源域特征到该目标域特征的信息增益差;根据该测试准确率和该信息增益差,将所有该个体分类器聚类为多个簇;对各簇中的个体分类器采用对应的生长机制进行更新,获得目标域模型;通过该目标域模型对该用户在该第二场景下的认知能力进行评估。
本发明所述的跨场景认知能力评估方法,其中对该个体分类器进行聚类的步骤包括:以该测试准确率和该信息增益差获取该个体分类器的特征集合适应度和分割阈值适应度,以该特征集合适应度和该分割阈值适应度为先验知识,对该个体分类器进行融合先验知识的聚类操作。
本发明所述的跨场景认知能力评估方法,对该个体分类器采用融合先验知识的高斯混合聚类。
本发明所述的跨场景认知能力评估方法,其中该生长机制包括:参数调整机制,更改该个体分类器分割属性的阈值;结构调整机制,分裂或删除该个体分类器。
本发明还提出一种基于细粒度迁移的跨场景认知能力评估系统,包括:数据获取模块,用于获取源域数据和目标域数据;其中,以用户在第一场景下的认知数据为该源域数据,以该用户在第二场景下的认知数据为该目标域数据;模型生成模块,用于以源域数据集为训练集,训练多个个体分类器,以生成初始决策树模型;聚类模块,用于对该源域模型的个体分类器进行聚类;其中,以目标域数据集为测试集,对该个体分类器进行测试,获得该个体分类器的测试准确率;提取该源域数据集的源域特征和该目标域数据集的目标域特征,获得从该源域特征到该目标域特征的信息增益差;根据该测试准确率和该信息增益差,将所有该个体分类器聚类为多个簇;更新模块,用于对各簇中的个体分类器采用对应的生长机制进行更新,以获得目标域模型;评估模块,用于通过该目标域模型对该用户在该第二场景下的认知能力进行评估。
本发明所述的跨场景认知能力评估系统,其聚类模块具体包括:以该测试准确率和该信息增益差获取该个体分类器的特征集合适应度和分割阈值适应度,以该特征集合适应度和该分割阈值适应度为先验知识,对该个体分类器进行融合先验知识的聚类操作。
本发明所述的跨场景认知能力评估系统,其聚类模块采用融合先验知识的高斯混合聚类方法,对该个体分类器进行聚类操作。
本发明所述的跨场景认知能力评估系统,其特征在于,该更新模块中该生长机制包括:更新阈值机制:更改该个体分类器分割属性的阈值;结构调整机制:分裂或删除该个体分类器。
本发明还提出一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,当该计算机可执行指令被执行时,实现如前所述的基于细粒度迁移的跨场景认知能力评估方法。
本发明还提出一种数据处理装置,包括如前所述的计算机可读存储介质,当该数据处理装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指令时,该数据处理装置执行基于细粒度迁移的跨场景认知能力评估。
本发明的基于细粒度迁移的跨场景认知能力评估方法实现了源域与目标域之间的有效迁移,能够适应于样本数量小、标注困难的场景。
附图说明
图1是本发明的基于细粒度迁移的跨场景认知能力评估方法流程图。
图2是本发明的参数自适应的细粒度迁移学习方法框架图。
图3是本发明的消融实验结果示意图。
图4A、4B是本发明的参数敏感性分析实验结果示意图。
图5A、5B、5C、5D、5E、5F是本发明的时间复杂度分析实验结果示意图。
图6是本发明的数据处理装置示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明提出的基于细粒度迁移的跨场景认知能力评估方法和系统进一步详细说明。应当理解,此处所描述的具体实施方法仅仅用以解释本发明,并不用于限定本发明。
为解决认知功能评估中的小样本和标注困难挑战,本发明提出了一种跨场景迁移学习方法,即参数自适应的细粒度迁移学习方法(ParameterAdapative Fine-GrainedTransfer Learning,以下简称PAFG-TL),PAFG-TL方法仅依靠目标域中的少量训练样本,即可实现源域模型到目标域模型之间的自适应迁移。PAFG-TL是一种适用于集成学习的通用模型迁移学习框架,基于随机森林模型实现,由参数自适应的个体分类器评估策略(Parameter Adapation based Model Evaluation strategy,以下简称PAME)和领域自适应的决策树生长机制(DomainAdaptative Tree Growing mechinism,以下简称DATG)两部分构成。
其中,PAME基于决策树特征集合和阈值适应度,以聚类方式对不同个体分类器进行聚类划分;具体来说,PAME通过衡量各个个体分类器的分割阈值和特征集合,来衡量源域模型在目标域数据中的适应度。PAME使用源域-目标域构建特征的信息增益差和目标域数据的测试准确率分别衡量特征集合适应度和分割阈值适应度,并使用二维向量描述各个个体分类器;之后,通过融合先验知识的高斯混合聚类方法,对不同个体分类器进行聚类分析。
DATG则通过不同策略实现决策树的细粒度进化生长。完成不同个体分类器的聚类分析后,DATG对聚类后的个体分类器提供不同的生长机制。如,更新属性阈值:自上而下地更新每个分割属性的阈值,对于目标域数据可达到的内部结点,该策略能够根据信息增益重新计算该结点的阈值;结构调整:包括结构的扩展和缩减两部分,能够通过减少无用的内部节点和分裂不纯的叶子节点更新已有模型。
换言之,本发明提供一种面向认知功能评估的模型迁移方法,该方法是基于集成学习的参数自适应细粒度迁移学习方法。本发明的的方法首先基于源域-目标域构建特征的信息增益差和目标域数据的测试准确率,对集成学习中各个个体分类器进行量化评估;之后,根据量化评估结果,使用融合先验知识的高斯混合聚类方法,对不同个体分类器进行聚类分析;最后,对不同簇中的个体分类器,采用不同自适应生长策略,以实现源域到目标域模型之间的迁移更新。
为了评估PAFG-TL的有效性,本发明在临床认知评估和公开基准数据集上均进行了试验验证。实验结果表明,PAFG-TL能够有效提升跨场景认知能力评估效果。
一、首先进行如下定义:
迁移学习:迁移学习利用在源域学习的知识解决目标域的数据预测问题,通常,源域数据表示为
Figure BDA0003417631200000051
nS=|DS|为源域的数据规模;目标域数据表示为
Figure BDA0003417631200000052
nT=|DT|为目标域的数据规模。
Figure BDA0003417631200000053
为特征空间,
Figure BDA0003417631200000054
为类别空间,
Figure BDA0003417631200000055
为预测问题中特征数目,
Figure BDA0003417631200000056
为预测问题中类别数目。具体到本发明,DS可以是用户在第一场景下的认知健康数据,DT可以是用户在第二场景下的认知健康数据,其中第一场景和第二场景为医疗问诊、社区生活、居家监护等不同普适计算场景,且第一场景不同于第二场景,但本发明并不以此为限。
随机森林:随机森林旨在学习包含
Figure BDA0003417631200000057
个决策树h的集成分类器
Figure BDA0003417631200000058
Figure BDA0003417631200000059
以源域数据
Figure BDA00034176312000000510
为训练数据集,训练数据集中的任一样本
Figure BDA00034176312000000511
在个体分类器hj上的预测结果可表示为
Figure BDA00034176312000000512
是个体分类hj在类别
Figure BDA00034176312000000513
上的预测结果,
Figure BDA00034176312000000514
在第j个个体分类器构建过程中,随机森林使用bootstrap数据采样方法,从训练数据集DS中筛选包含nS个样本的训练子集
Figure BDA0003417631200000061
在选择分割属性时,随机森林使用特征随机化方法从
Figure BDA0003417631200000062
个特征中选择k个特征作为候选特征,之后根据信息增益等分割指标从候选特征集中选择最佳特征。
Figure BDA0003417631200000064
的最终预测结果可通过平均法、投票法、学习法等不同模型融合策略计算,以投票法为例,最终计算结果
Figure BDA0003417631200000063
其中,wj表示加权投票的权重。
二、本发明的参数自适应的细粒度迁移学习方法
图1是本发明的基于细粒度迁移的跨场景认知能力评估方法流程图。如图1所示,本发明的跨场景认知能力评估方法包括:
步骤S1、获取用户在第一场景下的认知数据,作为源域数据;获取用户在第二场景下的认知数据,作为目标域数据;
步骤S2、以源域数据为训练数据集,训练随机森林模型以获得源域模型;
步骤S3、计算源域模型对目标域样本的特征集合适应度;
步骤S4、计算源域模型对目标域样本的分割阈值适应度;
步骤S5、通过融合先验知识的高斯混合聚类方法对不同个体分类器进行聚类;
步骤S6、获取C1、C2、C3和C4不同聚类簇;
对于C1簇中个体分类器,使用目标域数据重建分类器;
对于C2簇中个体分类器,使用更新阈值策略更新分类器;
对于C3簇中个体分类器,使用结构调整策略更新分类器;
对于C4簇中个体分类器,保持个体分类器不变;
步骤S7、合并各个簇中个体分类器R=C1∪C2∪C3∪C4
本发明的参数自适应的细粒度迁移学习(Parameter Adapative Fine-GrainedTransfer Learning,PAFG-TL)方法是一种模型迁移方法,使用小规模目标域数据通过有监督的方式实现源域到目标域的模型的适应。PAFG-TL方法的总体框架图如图2所示,由参数自适应的个体分类器评估策略(Parameter Adapation based Model Evaluationstrategy,PAME)和领域自适应的决策树生长机制(Domain Adaptative Tree Growingmechinism,DATG)两部分构成,分别用于评估个体分类器和对个体分类器进行进化更新。
PAFG-TL基于随机森林实现,由多个决策树集成而成。根据Krogh等人的误差-分歧分解(error-ambiguity decomposition)理论,集成学习模型的泛化误差可表示为:
Figure BDA0003417631200000071
其中,Err、
Figure BDA0003417631200000072
Figure BDA0003417631200000073
分别表示集成学习的模型误差、个体分类器的平均泛化误差和个体分类器的“分歧”程度,集成学习模型的整体性能由个体分类器精准率和多样性两者决定,提升目标域模型性能的关键是改善个体分类器在目标域上的适应度并增大个体分类器的多样性。因此,PAFG-TL方法的基本思路是分别评估各个个体分类器,根据已有源域模型与目标域数据的匹配程度,个性化制定不同的生长策略,保证个体分类器的个性化进化更新并提升整体集成学习模型的多样性。
1、参数自适应的个体分类器评估策略
个体决策树呈二叉或多叉树形结构,通过每个节点上的属性类别和分割阈值决定决策路径。因而,分割阈值的确定和特征集合的选择是衡量源域模型在目标域数据中适应度的关键,本发明使用源域-目标域构建特征的信息增益差和目标域数据的测试准确率分别衡量特征集合适应度和分割阈值适应度。
信息增益是衡量决策树中节点分割质量的常用指标:IG(D,a)=Ent(D)-Ent(D|a),其中,a为分割属性,
Figure BDA0003417631200000074
为当前数据集D上的信息熵,pl为数据集D上第l类样本的概率,
Figure BDA0003417631200000075
是当使用属性a划分数据集D为
Figure BDA0003417631200000076
个子集合时的条件概率。所有特征的信息增益可构成信息增益集合
Figure BDA0003417631200000077
为评估各个特征的信息增益值,本发明对
Figure BDA0003417631200000078
进行排序,并使用
Figure BDA0003417631200000079
表示各个特征信息增益的排序结果。例如,若
Figure BDA00034176312000000710
为{2.3,6.7,4.5,1.2},则
Figure BDA00034176312000000711
为{3,1,2,4}。假设Am为构造第m棵个体决策树时的特征集合,IG(DS,Am)为源域数据DS上的信息增益集合,IG(DT,Am)为目标域集合DT上的信息增益集合,IGR(DS,Am)和IGR(DT,Am)分别是信息增益的排序结果。为评估各个个体决策树的特征集合适应度,本发明定义了如下指标:
(1)最终特征集合适应度指标F(hm)
在信息论理论中,信息增益一般用于衡量一个分割的质量F'(hm):
Figure BDA0003417631200000081
其中,|IGR(DS,a)-IGR(DT,a)|用于衡量属性a在源域和目标域上的重要程度差异,+1用于避免IGR(DS,a)=IGR(DT,a)时出现的差值为零情况。
本发明使用|Am|归一化F'(hm)数值获得F(hm),使F(hm)的取值范围限制在[0,1]之间:
Figure BDA0003417631200000082
F(hm)数值越接近于1,则表示源域模型hm对目标域数据的特征集合适应度越高;否则,数值越接近于0,则表示源域模型hm对目标域数据的特征集合适应度越低。
(2)目标域数据的测试准确率T(hm)
本发明使用目标域数据的测试准确率衡量分割阈值适应度,定义为:
Figure BDA0003417631200000083
其中,
Figure BDA0003417631200000084
是符号函数,|DT|用于将个体决策树hm的识别准确率归一化在[0,1]之间。T(hm)数值越接近于1,则表示源域模型hm对目标域数据的分割阈值适应度越高;否则,数值越接近于0,则表示源域模型hm对目标域数据的分割阈值适应度越低。
为实现高斯混合聚类,定义包含
Figure BDA0003417631200000085
个混合成分的高斯混合分布:
Figure BDA0003417631200000086
Figure BDA0003417631200000087
其中μk和∑k分别表示第k个高斯分布的参数,αk表示混合系数且满足
Figure BDA0003417631200000088
若训练集D={x1,x2,…,xn}由高斯混合分布生成,令随机变量
Figure BDA0003417631200000089
表示生成样本xi的高斯混合成分,zi的先验概率P(zi=k)为αk。根据贝叶斯定理,zi的后验分布γik为:
Figure BDA00034176312000000810
另外,当高斯分布已知时,高斯混合聚类将样本集D划分为
Figure BDA00034176312000000811
个聚类簇
Figure BDA00034176312000000812
Figure BDA00034176312000000813
样本xi的簇标记λi可表示为:
Figure BDA0003417631200000091
融合先验知识的高斯混合聚类(Prior Knowledge based Gaussian MixtureModel,PGMM)过程如与标准高斯混合聚类过程类似,不同之处在于PGMM方法需预先指定各个聚类中心的分布范围,并在后续过程中不断限制聚类中心分布于限制范围内。本发明设置聚类中心数目为
Figure BDA0003417631200000092
并将
Figure BDA0003417631200000093
个个体分类器划分为四个聚类簇
Figure BDA0003417631200000094
定义各个聚类簇的高斯均值分布在μk∈Rk范围内,其中
Figure BDA0003417631200000095
Figure BDA0003417631200000096
PGMM聚类过程中,本发明将对
Figure BDA0003417631200000097
四个聚类簇的预估先验,融入聚类分析过程。初始阶段,将高斯分布均值初始化范围限制在
Figure BDA0003417631200000098
范围内,并在聚类过程中根据
Figure BDA0003417631200000099
进一步调整聚类中心位置。
2、领域自适应的决策树生长机制
(1)更新阈值过程使用散度指标微调调已有随机森林模型的特征阈值,该指标定义如下:
Figure BDA00034176312000000910
2JSD(P,Q)=KL(P||M)+KL(Q||M) (7)
其中Dv是可到达节点v的数据集,a(v)是节点v的分割属性,τ(v)是节点v的现有分割阈值。QL和QR是当阈值为τ(v)时数据集Dv的标签分布,Q'L和Q'R是当使用新的阈值时数据集Dv的标签分布。M=(P+Q)/2是分布P和Q的均值,Jensen-Shanno散度(Jensen-ShannonDivergence,JSD)是Kullback-Leibler散度(Kullback-LeiblerDivergence,KL)的对称扩展,能够衡量两个分布的距离并计算出距离度量值。特别地,JSD(Q'L,QL)和JSD(Q'R,QR)分别表示当节点v使用已有阈值τ(v)和候选阈值时,其左子树和右子树的JSD距离。因此,在考虑目标训练数据的情况下,散度值可以优化节点v的特征阈值。
(2)结构调整包括结构的扩展和缩减两部分,能够通过减少无用的内部节点和分裂不纯的叶子节点更新已有模型。结构调整为内部节点v定义了两种损失度量指标,包括子树损失和叶子损失,分别评估以v为根节点的子树的损失值和将节点v裁剪为叶子节点时的损失值,子树损失大于叶子损失的节点或数据不可到达的节点将会被裁剪。
3、参数自适应的细粒度迁移随机森林
在参数自适应的细粒度迁移随机森林算法的实现过程中,算法输入为源域的已有集成学习模型
Figure BDA0003417631200000107
源域的信息增益集合
Figure BDA0003417631200000108
和目标域数据DT;输出为更新后的集成学习模型。PAFG-TL首先计算目标域的信息增益集合
Figure BDA0003417631200000109
并对
Figure BDA00034176312000001011
Figure BDA00034176312000001012
分别进行排序,获取
Figure BDA00034176312000001013
Figure BDA00034176312000001010
之后,根据公式(2)和公式(3)计算二维集合
Figure BDA0003417631200000106
用于从特征集合适应度和分割阈值适应度两个方面描述各个个体分类器;最后,通过融合先验知识的高斯混合聚类方法对个体分类器进行聚类分析,并使用不同更新策略对不同集合中个体分类器进行增量更新。
三、实验评估
(1)数据集和预处理
临床认知评估数据集:临床认知评估数据集使用基于触摸屏的认知评估测试衡量老年人的认知状态,该测试由4种不同的单任务和12种不同的双任务构成。实验过程中,在两种场景下分别进行数据采集:1)场景一(标记为TL):61名受试者参与数据采集,包括20名轻度认知功能障碍患者(年龄:68.25±6.15,8名男性和12名女性)和41名健康老年人(年龄:67.36±4.76,21名男性和20名女性)。测试系统运行在Huawei M5平板电脑上(屏幕尺寸10.1英寸,分辨率1920×1200);数据采集过程中,所有受试者均执行4种评估任务,分别为单任务I、单任务II、单任务III和单任务IV。2)场景二(标记为VS):37名受试者参与数据采集,其中包括25名轻度认知功能障碍患者(年龄:65.08±9.68,16名男性和9名女性)和12名健康人(年龄:39.44±2.31,7名男性和5名女性)。测试系统运行在NanoPi M4单片机上(屏幕尺寸21.5英寸,分辨率1920×1200);数据采集过程中,所有受试者均执行4种评估任务,包括单任务II、双任务AII、双任务BII和双任务CII。针对临床认知评估数据集,本发明提取了五类特征,包括基于数量的特征
Figure BDA0003417631200000101
基于时间的特征
Figure BDA0003417631200000102
基于速度的特征
Figure BDA0003417631200000103
基于角度的特征
Figure BDA0003417631200000104
和基于落点分布的特征
Figure BDA0003417631200000105
公开基准数据集:目前,针对认知能力评估,尚缺乏基准的迁移学习数据集。但认知障碍与行为能力密不可分,瑞士伯尔尼大学的Roebers等人和荷兰鹿特丹伊拉斯姆斯大学医学中心的Verlinden等人的研究揭示了这种内在关联;爱丁堡运动评估测试(Edinburgh Motor Assessment,EMAS)、共济失调评定量表(Scale for the Assessmentand Rating of Cerebellar Ataxia,SARA)和统一帕金森评定量表(the UnifiedParkinson's Disease Rating Scale,UPDRS)等多种临床常用认知能力评估量表也将行为能力作为衡量认知障碍的重要指标。因此,本发明选择四种常用的行为能力评估数据集作为公开基准数据集,很多迁移学习相关的研究也使用了相关数据集。四种公开基准数据集的简要介绍如表1所示,包括:1)DSADS数据集(标记为D)通过佩戴于5个位置的传感器采集8名受试者的19种行为;2)UCI-HAR数据集(标记为H)通过佩戴于腰部的传感器采集30名受试者的6种行为;3)USC-HAD数据集(标记为U)通过佩戴于前右臀部的传感器采集14名受试者的12种行为;4)PAMAP数据集(标记为P)通过佩戴于3个位置的传感器采集9名受试者的18种行为。由于不同数据集均采集自不同传感器、佩戴于不同位置并包含不同行为,因此,为实现不同数据集间迁移,本发明对初始数据集进行了统一化处理,仅使用同种传感器、同种行为和同一位置的数据进行迁移。具体而言,本发明使用三轴合成后的加速度和陀螺仪数据作为训练数据,每种传感器分别提取19种、共38种时域和频域特征;使用右臂、腰部、右前髋部和右腕四种位置数据并筛选躺下、走路、上楼梯和下楼梯四种行为的数据作为训练数据集。
Figure BDA0003417631200000111
表1
(2)对比方法和参数细节
为验证PAFG-TL方法的实验效果,本发明选择10种已有方法作为对比方法,包括:
·分层迁移方法(Stratified Transfer Learning,STL);
·迁移成分分析方法(Transfer Component Analysis,TCA);
·测地线流式核方法(Geodesic Flow Kernel,GFK);
·仅使用目标域数据构建识别模型(TarOnly,Tar);
·仅使用源域数据构建识别模型(SrcOnly,Src);
·同时使用源域和目标域数据构建识别模型(ComOnly,Com);
·决策树结构扩张/约减(Structure Expansion/Reduction,SER);
·结构迁移(Structure Transfer,Struct);
·SER与Struct的混合方法(Mix of SER and Struct,Mix);
·细粒度迁移学习方法(Fine-Grained Adaptation Random Forest,FAT)。
其中,Src、Tar和Com是批量学习方法;STL、TCA、GFK、SER、Struct、Mix和FAT是迁移学习方法。SER、Struct、Mix和FAT是基于随机森林的模型迁移方法;TCA、STL和GFK是有代表性的特征迁移方法,能够可将源域和目标域数据映射至统一空间、减少数据分布差异。实验环境为Dell Precision 5530(Intel Core i9-8950HK/32GB DDR3),集成开发环境为Matlab R2020a。除STL、Tar和GFK外,其余所有对比方法均使用随机森林作为基础分类器。实验过程中,设置随机森林中个体决策树个数为
Figure BDA0003417631200000121
每个分割节点上候选特征为
Figure BDA0003417631200000122
(
Figure BDA0003417631200000123
为特征总数),节点停止分裂的最小样本数为2,单个个体决策树的最大深度为maxD=10。另外,STL、TCA和GFK这三种基于属性迁移的学习方法需要对维度进行约减,本发明设置约减后维度为30;FAT的δ123三个参数分别设置为0.6,0.7,0.8。
(3)对比实验结果
Figure BDA0003417631200000124
Figure BDA0003417631200000131
表2对比实验结果表
对比实验结果如表2所示,每种迁移实验重复10次,因此,对于公开基准数据集,表2中数值为10次实验平均识别准确率;另外,对于临床认知评估数据集,由于不同场景(即TL和VS)分别包含四种不同测试任务,因此两两场景间的迁移过程TL→VS、VS→TL、VS→VS和TL→TL分别包含16、16、12和12种不同的迁移任务,临床认知评估数据集实验结果为同种迁移任务10次实验结果平均后不同迁移任务下识别准确率的平均。根据表2所示实验结果,在临床认知评估数据集上,本发明所提出的PAFG-TL方法平均准确率为79.4%,优于10种对比方法,相较于次优方法准确率提升1.6%;对于不同场景间的迁移结果而言,PAFG-TL在四种迁移过程中均优于对比方法。在公开基准数据集上,本发明提出的PAFG-TL方法平均准确率为69.8%,优于前九种对比方法,但相较于FAT方法准确率降低0.7%;对于12种不同的迁移任务而言,PAFG-TL方法在4种迁移任务下取得了最佳的识别精度,FAT方法在剩余8种迁移任务下取得了最佳的识别精度。总体而言,在公开基准数据集上,PAFG-TL优于前九种对比方法,劣于前述工作中提出的FAT方法,一种可能的解释是PAFG-TL是FAT参数无关的改进方法,难以通过全局参数优化实现准确率最优化。
(4)消融实验
消融实验过程中,将PAFG-TL方法中的融合先验知识的高斯混合聚类方法逐一替换成K均值聚类(K-means)和传统高斯混合聚类(Gaussian Mixture Model,GMM)方法,并分别计算识别准确率。消融实验结果如图3A、3B所示,同样,每种不同迁移任务重复10次,图3A中每个柱状图及误差线分别为56种不同迁移任务下的实验结果平均值和标准差;图3B中每个柱状图及误差线分别为12种不同迁移任务下的实验结果平均值和标准差。临床认知评估数据集上的实验结果如图3A所示,K-means、GMM、PGMM三种聚类方法下的识别准确率分别为80.6%、81.9%和82.9%,标准差分别为7.8%、6.5%和6.8%,本发明提出的PGMM方法优于其余两种对比方法,准确率分别提升2.3%和1.0%。公开基准数据集上的实验结果如图3B所示,K-means、GMM、PGMM三种聚类方法下的识别准确率分别为68.6%、67.8%和70.2%,标准差分别为6.2%、4.8%和6.0%,本发明提出的PGMM方法优于其余两种对比方法,准确率分别提升1.6%和2.4%。
(5)参数敏感性分析
由于PAFG-TL是一种参数无关的迁移学习方法,随机森林模型中的决策树数量
Figure BDA0003417631200000141
是该方法的唯一显著影响变量,因此,本发明仅分析参数
Figure BDA0003417631200000142
对识别准确率的影响。参数敏感性分析实验过程中,设置
Figure BDA0003417631200000143
依次计算
Figure BDA0003417631200000144
在不同取值下的识别准确率。同样,每种不同迁移任务重复10次,实验结果如图4A、4B所示。图4A中每条折线和误差带分别为56种不同迁移任务下的实验结果平均值和标准差;图4B中每条折线和误差带分别为12种不同迁移任务下的实验结果平均值和标准差。临床认知评估数据集上的实验结果如图4A所示,从图4A可知,PAFG-TL与七种对比方法的识别准确率均与参数
Figure BDA0003417631200000145
相关,随着
Figure BDA0003417631200000146
的提升,识别准确率逐步提升;PAFG-TL较七种对比方法,当参数
Figure BDA0003417631200000147
时,均能取得更好的识别准确率,可能原因是随
Figure BDA0003417631200000148
的提升,PAFG-TL具有更好的模型多样性,从而能够取得较好的识别准确率。公开基准数据集上的实验结果如图4B所示,同样,随参数
Figure BDA0003417631200000149
的提升,识别准确率逐步提升;相较于七种对比方法,当参数
Figure BDA00034176312000001410
时,PAFG-TL均能取得更好的识别准确率。
(6)时间复杂度分析
本发明依次分析了当参数
Figure BDA00034176312000001413
取不同数值时,Tar、Src、Com、Ser、Struct、Mix、FAT和PAFG-TL方法在临床认知评估数据集和公开基准数据集上的模型训练、更新和测试耗时,实验结果如图5A-5F所示,其中,图5A展示了临床认知评估数据集的训练耗时,图5B展示了临床认知评估数据集的更新耗时,图5C展示了临床认知评估数据集的测试耗时,图5D展示了公开基准数据集的训练耗时,图5E展示了公开基准数据集的更新耗时,图5F展示了公开基准数据集的测试耗时。从图5A-5F可知,参数
Figure BDA00034176312000001411
与模型训练、更新和测试耗时显著相关,随着参数
Figure BDA00034176312000001412
的提升,模型训练、更新和测试耗时显著提升。在模型训练耗时方面,PAFG-TL与FAT方法接近,训练耗时长于Src和Com方法,短于Struct、Mix、Tar和Ser方法;在模型更新耗时方面,PAFG-TL显著高于其他七种对比方法,一种可能原因是PAFG-TL方法中个体分类器模型聚类过程较为耗时;模型测试耗时的结果与模型训练耗时结果接近,测试耗时长于Src和Com方法,短于Struct、Mix、Tar和Ser方法。
图6是本发明的数据处理装置示意图。如图6所示,本发明实施例还提供一种计算机可读存储介质,以及一种数据处理装置。本发明的计算机可读存储介质存储有计算机可执行指令,计算机可执行指令被数据处理装置的处理器执行时,实现上述基于细粒度迁移的跨场景认知能力评估方法。本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器、FPGA、ASIC等)完成,所述程序可以存储于可读存储介质中,如只读存储器、磁盘或光盘等。上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块可以采用硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明实施例不限制于任何特定形式的硬件和软件的结合。
本发明提出的一种基于集成学习的模型迁移学习方法和系统,是一种面向认知功能评估的迁移学习方法和系统。该系统主要包含参数自适应的个体分类器评估策略和领域自适应的决策树生长机制两个模块,其中,参数自适应的个体分类器评估策略用于评估源域模型的各个分类器对目标域数据的适应程度。该策略从特征集合适应度和分割属性适应度两个方面分别评估各个个体分类器,建立二维度量向量;并使用融合先验知识的高斯混合聚类方法,对所有个体分类器进行聚类分析;领域自适应的决策树生长机制定义了不同的个体分类器模型迁移方法,包括更新阈值、结构调整等,不同生长机制适应于不同的个体分类器簇,可用于实现不同粒度的源域与目标域数据适配。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变形,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (10)

1.一种基于细粒度迁移的跨场景认知能力评估方法,其特征在于,包括:
以用户在第一场景下的认知数据为源域数据,以该用户在第二场景下的认知数据为目标域数据;
以源域数据集为训练集,训练随机森林分类器,生成源域模型;
以目标域数据集为测试集,对该源域模型的个体分类器进行测试,获得该个体分类器的测试准确率;提取该源域数据集的源域特征和该目标域数据集的目标域特征,获得从该源域特征到该目标域特征的信息增益差;根据该测试准确率和该信息增益差,将所有该个体分类器聚类为多个簇;
对各簇中的个体分类器采用对应的生长机制进行更新,获得目标域模型;
通过该目标域模型对该用户在该第二场景下的认知能力进行评估。
2.如权利要求1所述的跨场景认知能力评估方法,其特征在于,对该个体分类器进行聚类的步骤包括:
以该测试准确率和该信息增益差获取该个体分类器的特征集合适应度和分割阈值适应度,以该特征集合适应度和该分割阈值适应度为先验知识,对该个体分类器进行融合先验知识的聚类操作。
3.如权利要求2所述的跨场景认知能力评估方法,其特征在于,对该个体分类器采用融合先验知识的高斯混合聚类。
4.如权利要求1所述的跨场景认知能力评估方法,其特征在于,该生长机制包括:
参数调整机制,更改该个体分类器分割属性的阈值;
结构调整机制,分裂或删除该个体分类器。
5.一种基于细粒度迁移的跨场景认知能力评估系统,其特征在于,包括:
数据获取模块,用于获取源域数据和目标域数据;其中,以用户在第一场景下的认知数据为该源域数据,以该用户在第二场景下的认知数据为该目标域数据;
模型生成模块,用于以源域数据集为训练集,训练多个个体分类器,以生成初始决策树模型;
聚类模块,用于对该源域模型的个体分类器进行聚类;其中,以目标域数据集为测试集,对该个体分类器进行测试,获得该个体分类器的测试准确率;提取该源域数据集的源域特征和该目标域数据集的目标域特征,获得从该源域特征到该目标域特征的信息增益差;根据该测试准确率和该信息增益差,将所有该个体分类器聚类为多个簇;
更新模块,用于对各簇中的个体分类器采用对应的生长机制进行更新,以获得目标域模型;
评估模块,用于通过该目标域模型对该用户在该第二场景下的认知能力进行评估。
6.如权利要求5所述的跨场景认知能力评估系统,其特征在于,该聚类模块具体包括:以该测试准确率和该信息增益差获取该个体分类器的特征集合适应度和分割阈值适应度,以该特征集合适应度和该分割阈值适应度为先验知识,对该个体分类器进行融合先验知识的聚类操作。
7.如权利要求6所述的跨场景认知能力评估系统,其特征在于,该聚类模块采用融合先验知识的高斯混合聚类方法,对该个体分类器进行聚类操作。
8.如权利要求5所述的跨场景认知能力评估系统,其特征在于,该更新模块中该生长机制包括:
更新阈值机制:更改该个体分类器分割属性的阈值;
结构调整机制:分裂或删除该个体分类器。
9.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,当该计算机可执行指令被执行时,实现如权利要求1~4任一项所述的基于细粒度迁移的跨场景认知能力评估方法。
10.一种数据处理装置,包括如权利要求9所述的计算机可读存储介质,当该数据处理装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指令时,该数据处理装置执行基于细粒度迁移的跨场景认知能力评估。
CN202111551153.1A 2021-12-17 2021-12-17 基于细粒度迁移的跨场景认知能力评估方法及系统 Pending CN114417969A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111551153.1A CN114417969A (zh) 2021-12-17 2021-12-17 基于细粒度迁移的跨场景认知能力评估方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111551153.1A CN114417969A (zh) 2021-12-17 2021-12-17 基于细粒度迁移的跨场景认知能力评估方法及系统

Publications (1)

Publication Number Publication Date
CN114417969A true CN114417969A (zh) 2022-04-29

Family

ID=81266923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111551153.1A Pending CN114417969A (zh) 2021-12-17 2021-12-17 基于细粒度迁移的跨场景认知能力评估方法及系统

Country Status (1)

Country Link
CN (1) CN114417969A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076962A (zh) * 2023-10-13 2023-11-17 腾讯科技(深圳)有限公司 应用于人工智能领域的数据分析方法、装置及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076962A (zh) * 2023-10-13 2023-11-17 腾讯科技(深圳)有限公司 应用于人工智能领域的数据分析方法、装置及设备
CN117076962B (zh) * 2023-10-13 2024-01-26 腾讯科技(深圳)有限公司 应用于人工智能领域的数据分析方法、装置及设备

Similar Documents

Publication Publication Date Title
Kumar et al. Performance analysis of machine learning algorithms on diabetes dataset using big data analytics
CN109036553B (zh) 一种基于自动抽取医疗专家知识的疾病预测方法
Bhakta et al. Prediction of depression among senior citizens using machine learning classifiers
CN107403072A (zh) 一种基于机器学习的2型糖尿病预测预警方法
CN111967495A (zh) 一种分类识别模型构建方法
CN111009321A (zh) 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法
CN110503155A (zh) 一种信息分类的方法及相关装置、服务器
CN113593697B (zh) 一种基于呼吸气味判断疾病的系统、设备及介质
Habib et al. Machine learning based healthcare system for investigating the association between depression and quality of life
CN112052874A (zh) 一种基于生成对抗网络的生理数据分类方法及系统
CN114417969A (zh) 基于细粒度迁移的跨场景认知能力评估方法及系统
CN109583272B (zh) 一种能够获取人体生活状态的足迹系统
CN116739037A (zh) 具有人格特征的人格模型构建方法及装置
Wang et al. Early Diagnosis of Parkinson's Disease with Speech Pronunciation Features Based on XGBoost Model
Kundu et al. Predicting autism spectrum disorder in infants using machine learning
Young Imputation for random forests
Riyaz et al. Ensemble Learning for Coronary Heart Disease Prediction
Angayarkanni Predictive analytics of chronic kidney disease using machine learning algorithm
SP et al. An enhanced weighted associative classification algorithm without preassigned weight based on ranking hubs
Zhou The application of machine learning in activity recognition with healthy older people using a batteryless wearable sensor
Mamidi et al. A Hybrid Approach to Parkinson's Disease Detection using Speech Attributes: The Combination of SMOTE and Active Learning
Ema et al. Integration of Fuzzy C-Means and Artificial Neural Network with Principle Component Analysis for Heart Disease Prediction
Zhou et al. Research on intelligent diagnosis algorithm of diseases based on machine learning
CN116226629B (zh) 一种基于特征贡献的多模型特征选择方法及系统
Jackowski et al. Ensemble classifier systems for headache diagnosis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination