CN111178408B - 基于联邦随机森林学习的健康监护模型构建方法、系统 - Google Patents

基于联邦随机森林学习的健康监护模型构建方法、系统 Download PDF

Info

Publication number
CN111178408B
CN111178408B CN201911317900.8A CN201911317900A CN111178408B CN 111178408 B CN111178408 B CN 111178408B CN 201911317900 A CN201911317900 A CN 201911317900A CN 111178408 B CN111178408 B CN 111178408B
Authority
CN
China
Prior art keywords
client
data
model
random forest
splitting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911317900.8A
Other languages
English (en)
Other versions
CN111178408A (zh
Inventor
陈益强
胡春雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201911317900.8A priority Critical patent/CN111178408B/zh
Publication of CN111178408A publication Critical patent/CN111178408A/zh
Application granted granted Critical
Publication of CN111178408B publication Critical patent/CN111178408B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H80/00ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于联邦随机森林学习的健康监护模型构建方法,包括:于任一客户端,对本地的当前数据集进行分类,以构建客户端决策树的当前节点,获取该当前节点的分裂属性、分裂值和信息增益为该客户端的中间结果,并将该中间结果发送至协作端;于该协作端,从所有客户端的中间结果中选取具有最大信息增益者对应的分裂属性和分裂值作为分裂信息,并将该分裂信息分发至所有客户端;于任一该客户端,根据该分裂信息对本地的当前数据集进行划分;并以划分后的当前数据集构建本地的当前节点的左右子树;重复顺序执行上述步骤以进行迭代,直到该当前节点满足迭代终止条件,以当前的客户端决策树组成的随机森林模型为客户端健康监护模型。

Description

基于联邦随机森林学习的健康监护模型构建方法、系统
技术领域
本发明涉及普适计算、可穿戴健康监护和行为识别领域,特别涉及一种面向健康监护的联邦随机森林学习方法。
背景技术
近年来,慢性疾病已经成为导致成年人死亡的主要原因之一。根据世界健康组织的报道,不良的饮食习惯和饮食过量、缺乏锻炼和吸烟是慢性病的三个主要诱因。其中,缺乏锻炼每年会导致超过190多万人的死亡。因此,实时、准确的监测人们的日常行为对于预防慢性疾病具有重要现实意义。微型、可穿戴式传感器件的诞生与发展为日常行为监护提供了新的途径。其体积小、低功耗的特性使得长时间、实时的行为识别成为可能。传统的可穿戴健康监护应用通常要求集合所有用户信息来构建一个具有较好泛化性能的监护模型。但是,在实际应用中,由于不同用户使用不同厂商生产的健康监护产品,用户数据通常是孤立的,由于用户隐私问题,很难通过数据共享的方式在不同厂商之间交换用户数据。用户数据的隐私保护成为可穿戴健康监护中面临的一个重要挑战。
联邦学习是近年来人工智能领域出现的一项新兴技术,它为在不共享隐私数据条件下进行协同训练提供了一种新的框架。联邦学习不用汇聚模型训练所需的数据进行集中计算,而是分散机器学习的计算到参与各方的数据库上进行加密的分布式计算。常见的联邦学习分为横向联邦学习、垂直联邦学习和联邦迁移学习三大类。本发明聚焦于横向迁移学习问题,两个数据集的用户特征一致,而用户不同。其主要适用于不同健康监护公司期望能够在保护数据隐私的前提下,协同创建一个具有更优监护性能的健康监护模型的场景。
已有的健康监护系统很少关注数据共享中存在的用户隐私问题,通常情况下,不同公司利用各自收集到的用户数据进行建模,公司之间很少会共享收集到的数据。这种运营模式下构建的健康监护模型通常会因为数据量不足而导致模型泛化能力低的问题,即根据已有数据构建的模型不能很好的适用于新用户。因此,如何在保护用户数据隐私的前提下,构建出泛化性能更好的健康监护模型是健康监护领域关注的主要问题。
发明内容
针对传统健康监护模型无法同时兼顾用户数据隐私和模型泛化能力的问题,本发明以客户端与协作端的协同工作方式,在各客户端之间不暴露用户数据的条件下,构建出具有良好泛化性能的随机森林模型。
具体来说,本发明提出了一种基于联邦随机森林学习的健康监护模型构建方法,包括:步骤1,对于多个相互之间数据隔离的客户端,于任一客户端,对本地的当前数据集进行分类,以构建客户端决策树的当前节点,获取该当前节点的分裂属性、分裂值和信息增益为该客户端的中间结果,并将该中间结果发送至协作端;步骤2,于该协作端,从所有客户端的中间结果中选取具有最大信息增益者对应的分裂属性和分裂值作为分裂信息,并将该分裂信息分发至所有客户端;步骤3,于任一该客户端,根据该分裂信息对本地的当前数据集进行划分;并以划分后的当前数据集构建本地的当前节点的左右子树;步骤4,重复顺序执行步骤1-3以进行迭代,直到该当前节点满足迭代终止条件,以当前的客户端决策树组成的随机森林模型为客户端健康监护模型。
本发明所述的健康监护模型构建方法,还包括:以所有该分裂信息,构建该协作端的随机森林模型为协作端健康监护模型。3、如权利要求1所述的健康监护模型构建方法,其特征在于,该迭代终止条件为:该当前节点中的数据均属于同一类别。
本发明所述的健康监护模型构建方法,其中,该当前数据集包括该客户端从用户的健康数据中提取的特征数据;该特征数据包括时域特征数据和频域特征数据,该时域特征数据包括:该健康数据的均值、标准差、最小值、最大值、众数、区间和过均值点次数;该频域特征数据包括:该健康数据的直流分量,该健康数据进行快速傅里叶变换后的峰值、均值、标准差、能量熵。
本发明还提出一种基于联邦随机森林学习的健康监护模型构建系统,包括:中间结果获取模块,用于获取客户端决策树的当前节点生成的中间结果;其中,对于多个相互之间数据隔离的客户端,于任一客户端,对本地的当前数据集进行分类,以构建客户端决策树的当前节点,获取该当前节点的分裂属性、分裂值和信息增益为该客户端的中间结果,并将该中间结果发送至协作端;分裂信息获取模块,用于获取构建该当前节点左右子树的分裂信息;其中,于该协作端,从所有客户端的中间结果中选取具有最大信息增益者对应的分裂属性和分裂值作为分裂信息,并将该分裂信息分发至所有客户端;节点子树构建模块,用于在任一该客户端,根据该分裂信息对本地的当前数据集进行划分;并以划分后的当前数据集构建本地的当前节点的左右子树;客户端模型构建模块,用于构建该客户端的健康监护模型;其中,重复顺序调用该中间结果获取模块、该分裂信息获取模块和该节点子树构建模块以进行迭代,直到该当前节点满足迭代终止条件,以当前客户端决策树组成的随机森林模型为客户端健康监护模型。
本发明所述的健康监护模型构建系统,还包括:协作端模型构建模块,用于构建该协作端的健康监护模型;其中,以所有该分裂信息,构建该协作端的随机森林模型为协作端健康监护模型。
本发明所述的健康监护模型构建系统,其中该迭代终止条件为:该当前节点中的数据均属于同一类别。
本发明所述的健康监护模型构建系统,其中该数据集包括该客户端从用户的健康数据中提取的特征数据;该特征数据包括时域特征数据和频域特征数据,该时域特征数据包括:该健康数据的均值、标准差、最小值、最大值、众数、区间和过均值点次数;该频域特征数据包括:该健康数据的直流分量,该健康数据进行快速傅里叶变换后的峰值、均值、标准差、能量熵。
本发明还提出一种计算机可读存储介质,存储有计算机可执行指令,该计算机可执行指令用于执行如前所述的基于联邦随机森林学习的健康监护模型构建方法。
本发明还提出一种数据处理装置,包括:多个相互之间数据隔离的客户端,设置有如前所述的计算机可读存储介质,该客户端的处理器调取并执行该计算机可读存储介质中的计算机可执行指令,以构建客户端健康监护模型;协作端,设置有如前述的计算机可读存储介质,该协作端的处理器调取并执行该计算机可读存储介质中的计算机可执行指令,以获取用于构建该客户端健康监护模型的分裂信息,并构建协作端健康监护模型。
附图说明
图1是本发明的基于联邦随机森林学习的健康监护模型构建方法流程图。
图2是本发明的基于联邦随机森林学习的健康监护模型构建系统框架图。
图3是本发明的数据处理装置示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明提出的基于联邦随机森林学习的健康监护方法和系统进一步详细说明。应当理解,此处所描述的具体实施方法仅仅用以解释本发明,并不用于限定本发明。
相比已有方法,本发明是针对可穿戴健康监护领域的第一个横向联邦学习框架,它能够在保护用户数据隐私的情况下,构建跨组织或用户的具有强泛化能力的健康监护模型;此外,本发明提出的健康监护系统可扩展性强,它适用于多家机构或组织协同构建健康模型,当参与单位动态增加时,本发明能够实现高效适应。
在健康监护中,假设有N个客户端,每个客户端有si个用户的数据u,则对于第i个客户端获取的用户的健康数据
Figure BDA0002326348580000041
为了获得一个具有较优性能的健康监护模型,传统方法需要将所有客户端上的数据进行汇总,得到传统数据集D=C1∪C2∪……∪Ci∪……∪CN,然后利用传统数据集D构建模型Mall。在本发明中,每个客户端的数据都不会暴露给其他客户端,本发明构建的联邦模型记为Mfed。本发明要解决的问题为在保护用户数据隐私的情况下构建一个精度逼近传统方法的健康监护模型,即:Acc(Mall)-Acc(Mfed)<Δ
其中,Acc(·)表示模型精度,Δ是一个非负极小值,为本发明拟构建的健康监护模型的精度阈值。
图1是本发明的基于联邦随机森林学习的健康监护方法模型构建流程图。如图1所示,本发明提出的基于联邦随机森林学习的健康监护模型构建方法,具体包括:
步骤S1,通过客户端获取用户的健康数据并构建为当前数据集;当前数据集包括从用户的健康数据中提取的特征数据;其中,特征数据包括时域特征数据和频域特征数据,该时域特征数据包括:该健康数据的均值、标准差、最小值、最大值、众数、区间和过均值点次数;该频域特征数据包括:该健康数据的直流分量,该健康数据进行快速傅里叶变换后的峰值、均值、标准差、能量熵;
步骤S2,对当前数据集进行分类,构建客户端决策树的当前节点,将当前节点的中间结果进行加密,上传至协作端;这里的中间结果是在随机森林模型的构建过程中将每一步选择的结果,即决策树当前节点的分裂属性、分裂值及信息增益;于本发明实施例中,包括多个客户端,生成多个数据集,因此,每个客户端的随机森林模型构建过程中均产生不同的中间结果,需要将所有中间结果都上传至协作端;
步骤S3,在协作端,从所有中间结果中,选取具有最大信息增益者对应的分裂属性和分裂值作为分裂信息,将分裂信息分发至所有客户端,各客户端将接收到的分裂信息对当前数据集进行划分,并以划分后的数据集构建当前节点的左右子树;
步骤S4,重复步骤S2-S3以不断进行迭代,使客户端的决策树不断分裂,直到决策树的当前节点满足迭代终止条件,进入步骤S5;其中,迭代终止条件为随机森林模型的当前节点中的数据均属于同一类别,例如,当数据集为用户的运动数据时,如果当前节点的数据都属于如行走、上楼、平躺等中的某一种行为所产生的数据,即认为达到迭代终止条件;又例如,当数据集为疾病辅助诊断数据时,如果当前节点的数据属于如患者或者非患者中某一类数据,即认为达到迭代终止条件;迭代终止条件根据客户端实际获得的用户健康数据来确定;
步骤S5,以当前客户端决策树组成随机森林模型,以此时的随机森林模型为客户端的健康监护模型;若任一客户端存在多个数据集,则重复步骤S1-S4依次构建针对各数据集的多棵客户端决策树,以客户端的所有客户端决策树组成随机森林模型,以此时的随机森林模型为客户端的健康监护模型。
应当清楚的是,为保护用户隐私,各客户端之间相互数据隔离,但所采集的健康数据是对齐的,当各客户端都是根据协作端选取的分裂信息统一进行当前节点的左右子树构建时,各客户端所构建的决策树也是相同的,因此,最终由决策树构建的随机森林模型也是相同的,即,所有客户端虽然相互之间不进行数据沟通,但在协作端的调配下,仍能最终构建出相同的健康监护模型。
于本发明的另一实施例中,协作端与客户端同步构建决策树,并根据选取的分裂信息,同步构建决策树当前节点的左右子树,并在客户端的当前节点满足迭代终止条件时,构建协作端的随机森林模型,作为协作端的健康监护模型;基于相同的分裂信息,因此,协作端的随机森林模型与各客户端的随机森林模型也是完全相同的,如此一来,当有新的客户端加入时,协作端可以将本地的健康监护模型发送至新加入的客户端,如此一来,即可保证新加入的客户端与原有客户端使用相同的健康监护模型。当然,协作端也可以不构建本地的健康监护模型,而是在新的客户端加入时,从任一客户端调取健康监护模型转发至新加入的客户端,以保持所有客户端使用相同的健康监护模型,本发明并不以此为限。
图2是本发明的基于联邦随机森林学习的健康监护模型构建系统框架图。如图2所示,本发明的联邦随机森林模型构建系统主要组成部分包括客户端和协作端,其中客户端只能获取自己对应的用户数据,协作端无法获得任何用户数据,只能获得加密的中间计算结果,构建联邦随机森林模型的主要步骤包括:
1)各客户端Ci分别获得对应的用户数据
Figure BDA0002326348580000061
2)客户端利用获得的用户数据构建随机森林模型(图2中的模型M),在随机森林模型的构建过程中将每一步的中间计算结果(选择的分裂属性、分裂值及信息增益)加密上传至第三方协作端;
3)协作端比较从各个客户端接收到的中间计算结果并比较并选择信息增益最大的分裂属性和分裂值作为当前节点的分裂信息;
4)将步骤3)中选出的分裂属性和分裂值分发到各客户端;
5)各客户端将接收到的分裂属性和分裂值作为当前节点的分裂信息,并对当前数据集进行划分,其左右子树的构建过程遵从步骤2)-5)不断迭代,直至满足迭代终止条件(当前节点中的所有数据属于同一类);
6)系统结束。
在上述方法中,如何在保护用户隐私前提下,利用客户端和协作端协同训练构建具有良好泛化性能的健康监测模型是本发明的要解决的关键问题。为此,本发明提出了一种联邦随机森林学习方法作为解决方案。该方案主要包含两部分内容:客户端模型构建和协作端模型构建。
本发明的一种基于联邦随机森林学习的健康监护系统,主要包含两个部分。图3是本发明的数据处理装置示意图。如图3所示,本发明实施例还提供一种计算机可读存储介质,以及一种数据处理装置。其中:计算机可读存储介质存储有用于执行如前所述的基于联邦随机森林学习的健康监护方法的计算机可执行指令;数据处理装置包括客户端和协作端,客户端和协作端均设置有前述的计算机可读存储介质,客户端的处理器通过调用计算机可读存储介质中的计算机可执行指令,以获得的用户的健康数据构建数据集,构建决策树的当前节点,并进一步构建本客户端的随机森林模型,向协作端提供随机森林模型构建过程中的中间结果,根据分裂信息对数据集进行划分以构建当前节点的左右子树,对构建左右子树的过程进行迭代,以满足迭代终止条件的决策树构建的随机森林模型为健康监护模型;协作端的处理器通过调用可读存储介质中的可执行指令,以从所有客户端上传的中间结果中选取分裂信息,讲该分裂信息分发至各客户端以进行左右子树构建,并于协作端本地同步构建随机森林模型为协作端的健康监护模型。本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器、FPGA、ASIC等)完成,所述程序可以存储于可读存储介质中,如只读存储器、磁盘或光盘等。上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块可以采用硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明实施例不限制于任何特定形式的硬件和软件的结合。
该方法及系统有效地解决了传统健康监护模型无法保护用户数据隐私的问题,能够在不暴露用户信息的条件下,构建具有良好泛化能力的健康监护模型。此外,该方法具有良好的可扩展性,能够在客户端数目动态变化的情况下有效工作。
联邦随机森利学习系统主要包括两个模块:客户端模型构建模块以及协作端模型构建模块。客户端可以利用自身获得的数据进行模型构建,并将模型构建过程中得到的中间结果加密传送给协作端;协作端将客户端获得加密中间结果进行解密并进行优化选择,将得到的最优结果加密返回各个客户端。通过这种加密协作的机制,实现在不暴露用户数据条件下,充分利用全局信息构建具有良好泛化性能的联邦随机森林模型。
1.协作端模型构建
1)从客户端获得样本编号(假设样本编号总数为n)及属性编号(假设属性编号总数为k)并进行解密;
2)假设要构建的随机森林有m棵树,在构建每棵树的过程中进行以下操作:
a)随机有放回的从样本编号池中选出n’(n’<n)个样本编号,随机无放回的从属性编号池中选出k’(k’<k)个属性。
b)将选中的样本编号加密分别发送给具有相应样本的客户端,同时将选出的属性加密发送个各个客户端。
c)从各个客户端接收加密的计算中间值并进行解密,选出具有最优信息增益
Figure BDA0002326348580000081
d)从第j个客户端接收加密的分裂属性及分裂值,并将该分类信息作为协作端要构建的联邦模型的当前树节点的分类信息。此外,将该分裂信息加密广播至各客户端。
e)重复c)-d)构建当前节点的左右子树。
f)当所有客户端都停止构建决策树,协作端停止迭代。
g)存储构建好的决策树。
3)构建好的m棵决策树共同组成协作端的联邦随机森林模型Mfed
2.客户端模型构建
本发明客户端模型构建过程采用智能硬件设备内置的加速度传感器、陀螺仪等收集到的数据进行模型构建。
1)将样本编号及属性编号加密传送至协作端;
2)假设要构建的随机森林有m棵树,在构建每棵树的过程中进行以下操作:
a)从协作端接收构建当前决策树所用到的样本子集和属性子集。
b)计算该属性子集中每个属性的分裂信息增益,选择具有最优信息增益的分裂属性和分裂值,并将相应的信息增益pi加密发送至协作端。
c)从协作端接收是否发送分裂信息的请求,如果本客户端的分裂属性和分裂值别选中为最优分裂信息,则将本客户端在步骤b)中得到的分裂属性和分裂值加密传送至协作端。
d)从协作端接收加密的最优分裂属性和分裂值,解密后将该分裂信息作为当前树节点的分裂信息。
e)根据当前节点的分裂信息对客户端的数据进行划分;
f)重复b)-e)分别构建当前节点的左右子树。
g)当前节点中样本为同一类别样本或样本数目小于预设的阈值时,迭代停止。
h)存储构建好的决策树。
3)构建好的m棵决策树共同组成客户端的随机森林模型Mi
在测试阶段,当一个测试样本到达时,联邦随机森林学习系统的具体实施过程如下:
1)对于联邦随机森林中的每棵决策树,迭代执行以下操作:
a)如果测试样本在当前节点的分裂属性上的值大于分裂值,则将测试样本划分到当前节点的右子树上;否则,将测试样本划分到当前节点的左子树上。
b)迭代上述过程直到测试样本被划分到一个叶子节点中,记录叶子节点中的标记值。
2)将测试样本在m棵决策树中得到的分类结果进行投票,将得票最多的标记作为测试样本的标记,并返回给用户。
实验
为了进一步验证本发明提出的特征增量行为识别方法和系统的有效性以及说明本发明的使用方法,发明人还以运动行为识别为例进行了实验。实验采用加州大学欧文分校(University of California Irvine)用于机器学习数据库的日常运动行为数据集Human Activity Recognition Using Smartphones Data Set,其中包含30名用户采集的6类日常运动行为。
1)数据
在该组实验中,每个用户都在腰部佩戴一部智能手机,利用手机内嵌的加速度计和陀螺仪以50Hz的频率采集用户的运动数据。为了构建实验所需场景,在本实验中将编号1-15的用户数据作为客户端A所获得的数据,将编号16-30的用户数据作为客户端B所获得的数据,其中将两组数据均进行训练集与测试集划分,其中70%的数据作为训练集,30%的数据作为测试集。本实验的目标就是在协作端不获得任何数据的情况下构建一个具有良好泛化性能的分类模型。
2)特征提取
从获取到的运动行为数据中提取特征。这些特征包括两大类:(1)时域特征:均值,标准差,最小值,最大值,众数,区间,过均值点次数(2)频域特征:直流分量,快速傅里叶变换后的峰值、均值、标准差、能量熵等。单个传感器提取27维特征共提取15个传感器的405维特征。
3)实验结果
经过特征提取后得到初始分类器所需的特征向量,为了说明本发明方法的有效性,我们将客户端A上的由编号1-15的用户测试数据组成的测试集称为测试集A,将客户端B上的由编号16-30的用户测试数据组成的测试集称为测试集B,将由客户端A上的训练数据训练得到的随机森林模型称为随机森林A,将由客户端B上的训练数据训练得到的随机森林模型称为随机森林B,将用本发明所描述方法构建的模型称为联邦随机森林。表1列出了测试精度的实验结果。
表1.测试精度实验结果
随机森林A 随机森林B 联邦随机森林
测试集A 95.20% 90.61% 93.64%
测试集B 89.79% 96.78% 95.64%
从表1中可以发现,传统的随机森林模型只能利用可获得的用户数据构建模型,得到的模型只能在已获得的用户的测试数据上获得较好的测试精度,对于未知用户识别效果较差。本发明提出的联邦随机森林系统能够在保护用户数据隐私的前提下,获得较高的泛化能力,充分利用不同客户端获得的数据,构建具有较强泛化能力和分类精度的健康监护模型。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变形,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (8)

1.一种基于联邦随机森林学习的健康监护模型构建方法,其特征在于,包括:
步骤1,对于多个相互之间数据隔离的客户端,于任一客户端,对本地的当前数据集进行分类,以构建客户端决策树的当前节点,获取该当前节点的分裂属性、分裂值和信息增益为该客户端的中间结果,并将该中间结果发送至协作端;
步骤2,于该协作端,从所有客户端的中间结果中选取具有最大信息增益者对应的分裂属性和分裂值作为分裂信息,并将该分裂信息分发至所有客户端;
步骤3,于任一该客户端,根据该分裂信息对本地的当前数据集进行划分;并以划分后的当前数据集构建本地的当前节点的左右子树;
步骤4,重复顺序执行步骤1-3以进行迭代,直到该当前节点中的数据均属于同一类别,以当前的客户端决策树组成的随机森林模型为客户端健康监护模型。
2.如权利要求1所述的健康监护模型构建方法,其特征在于,还包括:以所有该分裂信息,构建该协作端的随机森林模型为协作端健康监护模型。
3.如权利要求1所述的健康监护模型构建方法,其特征在于,该当前数据集包括该客户端从用户的健康数据中提取的特征数据;其中,该特征数据包括时域特征数据和频域特征数据,该时域特征数据包括:该健康数据的均值、标准差、最小值、最大值、众数、区间和过均值点次数;该频域特征数据包括:该健康数据的直流分量,该健康数据进行快速傅里叶变换后的峰值、均值、标准差、能量熵。
4.一种基于联邦随机森林学习的健康监护模型构建系统,其特征在于,包括:
中间结果获取模块,用于获取客户端决策树的当前节点生成的中间结果;其中,对于多个相互之间数据隔离的客户端,于任一客户端,对本地的当前数据集进行分类,以构建客户端决策树的当前节点,获取该当前节点的分裂属性、分裂值和信息增益为该客户端的中间结果,并将该中间结果发送至协作端;
分裂信息获取模块,用于获取构建该当前节点左右子树的分裂信息;其中,于该协作端,从所有客户端的中间结果中选取具有最大信息增益者对应的分裂属性和分裂值作为分裂信息,并将该分裂信息分发至所有客户端;
节点子树构建模块,用于在任一该客户端,根据该分裂信息对本地的当前数据集进行划分;并以划分后的当前数据集构建本地的当前节点的左右子树;
客户端模型构建模块,用于构建该客户端的健康监护模型;其中,重复顺序调用该中间结果获取模块、该分裂信息获取模块和该节点子树构建模块以进行迭代,直到该当前节点中的数据均属于同一类别,以当前客户端决策树组成的随机森林模型为客户端健康监护模型。
5.如权利要求4所述的健康监护模型构建系统,其特征在于,还包括:
协作端模型构建模块,用于构建该协作端的健康监护模型;其中,以所有该分裂信息,构建该协作端的随机森林模型为协作端健康监护模型。
6.如权利要求4所述的健康监护模型构建系统,其特征在于,该数据集包括该客户端从用户的健康数据中提取的特征数据;其中,该特征数据包括时域特征数据和频域特征数据,该时域特征数据包括:该健康数据的均值、标准差、最小值、最大值、众数、区间和过均值点次数;该频域特征数据包括:该健康数据的直流分量,该健康数据进行快速傅里叶变换后的峰值、均值、标准差、能量熵。
7.一种计算机可读存储介质,存储有计算机可执行指令,该计算机可执行指令用于执行如权利要求1~3任一项所述的基于联邦随机森林学习的健康监护模型构建方法。
8.一种数据处理装置,包括:
多个相互之间数据隔离的客户端,设置有如权利要求7所述的计算机可读存储介质,该客户端的处理器调取并执行该计算机可读存储介质中的计算机可执行指令,以构建客户端健康监护模型;
协作端,设置有如权利要求7所述的计算机可读存储介质,该协作端的处理器调取并执行该计算机可读存储介质中的计算机可执行指令,以获取用于构建该客户端健康监护模型的分裂信息,并构建协作端健康监护模型。
CN201911317900.8A 2019-12-19 2019-12-19 基于联邦随机森林学习的健康监护模型构建方法、系统 Active CN111178408B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911317900.8A CN111178408B (zh) 2019-12-19 2019-12-19 基于联邦随机森林学习的健康监护模型构建方法、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911317900.8A CN111178408B (zh) 2019-12-19 2019-12-19 基于联邦随机森林学习的健康监护模型构建方法、系统

Publications (2)

Publication Number Publication Date
CN111178408A CN111178408A (zh) 2020-05-19
CN111178408B true CN111178408B (zh) 2023-06-20

Family

ID=70653989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911317900.8A Active CN111178408B (zh) 2019-12-19 2019-12-19 基于联邦随机森林学习的健康监护模型构建方法、系统

Country Status (1)

Country Link
CN (1) CN111178408B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598186B (zh) * 2020-06-05 2021-07-16 腾讯科技(深圳)有限公司 基于纵向联邦学习的决策模型训练方法、预测方法及装置
CN112232518B (zh) * 2020-10-15 2024-01-09 成都数融科技有限公司 一种轻量级分布式联邦学习系统及方法
WO2022094884A1 (zh) * 2020-11-05 2022-05-12 浙江大学 一种面向决策树的横向联邦学习方法
CN112308157B (zh) * 2020-11-05 2022-07-22 浙江大学 一种面向决策树的横向联邦学习方法
CN112364908B (zh) * 2020-11-05 2022-11-11 浙江大学 一种面向决策树的纵向联邦学习方法
CN112101577B (zh) * 2020-11-13 2021-04-13 同盾控股有限公司 基于XGBoost的跨样本联邦学习、测试方法、系统、设备和介质
CN112365194A (zh) * 2020-12-01 2021-02-12 未鲲(上海)科技服务有限公司 企业数据处理方法、装置、设备及计算机存储介质
CN112699947A (zh) * 2020-12-30 2021-04-23 深圳前海微众银行股份有限公司 基于决策树的预测方法、装置、设备、介质及程序产品
WO2022144001A1 (zh) * 2020-12-31 2022-07-07 京东科技控股股份有限公司 一种联邦学习模型的训练方法、装置及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007147166A2 (en) * 2006-06-16 2007-12-21 Quantum Leap Research, Inc. Consilence of data-mining

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100594497C (zh) * 2008-07-31 2010-03-17 中国科学院计算技术研究所 一种实现网络查询缓存的系统和查询方法
GB2516493A (en) * 2013-07-25 2015-01-28 Ibm Parallel tree based prediction
US20170124152A1 (en) * 2015-11-02 2017-05-04 LeapYear Technologies, Inc. Differentially private processing and database storage
US20190374160A1 (en) * 2017-01-05 2019-12-12 The Trustees Of Princeton University Hierarchical health decision support system and method
CN108764282A (zh) * 2018-04-19 2018-11-06 中国科学院计算技术研究所 一种类别增量行为识别方法和系统
CN109034398B (zh) * 2018-08-10 2023-09-12 深圳前海微众银行股份有限公司 基于联邦训练的梯度提升树模型构建方法、装置及存储介质
CN109299728B (zh) * 2018-08-10 2023-06-27 深圳前海微众银行股份有限公司 基于构建梯度树模型的样本联合预测方法、系统及介质
CN109284626A (zh) * 2018-09-07 2019-01-29 中南大学 面向差分隐私保护的随机森林算法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007147166A2 (en) * 2006-06-16 2007-12-21 Quantum Leap Research, Inc. Consilence of data-mining

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Chao Wang ; Siwen Chen ; Yanwei Yang ; Feng Hu ; Fugang Liu ; Jie Wu ; .Literature Review on Wireless Sensing――Wi-Fi Signal-Based Recognition of Human Activities.Tsinghua Science and Technology.2018,(第02期),全文. *

Also Published As

Publication number Publication date
CN111178408A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN111178408B (zh) 基于联邦随机森林学习的健康监护模型构建方法、系统
Xu et al. EdgeSanitizer: Locally differentially private deep inference at the edge for mobile data analytics
CN103093133B (zh) 面向ieee802.15.6的生物身份认证方法
CN103530428B (zh) 一种基于开发者实践技能相似性的同行推荐方法
CN109063094A (zh) 一种建立中医药知识图谱的方法
CN103886235B (zh) 一种正面人脸图像生物密钥生成方法
CN103733190A (zh) 在保留网络属性的同时保护网络实体数据
CN109992978A (zh) 信息的传输方法、装置及存储介质
CN109829320A (zh) 一种信息的处理方法和装置
Simonsen Diffusion and networks: A powerful combination!
Omer et al. Privacy-preserving of SVM over vertically partitioned with imputing missing data
Aoki et al. Limited negative surveys: Privacy-preserving participatory sensing
Ren Multiple tree model integration for transportation mode recognition
Wong et al. An Optimized Multi-Task Learning Model for Disaster Classification and Victim Detection in Federated Learning Environments
Gupta et al. Measures of cosine similarity intended for fuzzy sets, intuitionistic and interval-valued intuitionistic fuzzy sets with application in medical diagnoses
Wang et al. A novel visual analytics approach for clustering large-scale social data
Nguyen et al. Intelligent collective: some issues with collective cardinality
Ito et al. What is he/she like? estimating Twitter user attributes from contents and social neighbors
Longtong et al. Suspect tracking based on call logs analysis and visualization
CN105516971B (zh) 低通信开销的无线体域网密钥产生方法
Kroll A graph theoretic linkage attack on microdata in a metric space
CN104063516B (zh) 基于分布式矩阵分解特征提取的社交网络垃圾过滤方法
Raut et al. An approach to mining association rules in horizontally distributed databases with anonymous ID assignment
CN109032342A (zh) 一种融合运动、生理和位置传感数据的复杂活动识别方法
Rodríguez On non-separable L^ 1 L 1-spaces of a vector measure

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant