CN110929877B

CN110929877B - 基于迁移学习的模型建立方法、装置、设备及存储介质

Info

Publication number: CN110929877B
Application number: CN201910993029.7A
Authority: CN
Inventors: 廖希洋
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2023-09-15
Anticipated expiration: 2039-10-18
Also published as: CN110929877A

Abstract

本申请涉及人工智能领域，提供一种基于迁移学习的模型建立方法、装置、设备及存储介质，方法包括：将第一研究数据和第二研究数据合并成目标多中心研究数据；分析所述目标多中心研究数据得到第一数据集和第二数据集；通过预置的阈值化双边岭比准则TDRR算法分析所述目标多中心研究数据，获得特征空间维数；根据所述特征空间维数对所述第一数据集和所述第二数据集进行基于最大均值差的降维迁移学习，获得降维数据；通过预置的分类算法和所述降维数据训练初始模型，获得目标模型。采用本方案，能够提高经过模型处理后的数据可靠性。

Description

基于迁移学习的模型建立方法、装置、设备及存储介质

技术领域

本申请涉及智能决策领域，尤其涉及基于迁移学习的模型建立的方法、装置、设备及存储介质。

背景技术

目前的智能决策中，通过获取训练数据，将训练数据输入到模型中，对模型进行训练，获得数据分析模型，通过数据分析模型对目标数据进行分析与处理，得到数据分析结果。

由于训练的数据分析模型用于不同地区、不同的机构和不同的研究中心，输入数据分析模型的数据与实际检测数据存在差异，这种数据差异又往往被默认为误差或者是检测数据超出指标范围，而这种数据差异大部分是由不同地区、不同机构或者中心间的检测仪器存在较大差异和对于指标合理范围的不同定义所造成的，因而，导致经过模型处理后的数据可靠性低。

发明内容

本申请提供了一种基于迁移学习的模型建立方法、装置、设备及存储介质，用于对数据进行降维处理和迁移学习，并根据经过降维处理和迁移学习的数据对初始模型进行训练得到目标模型，提高了经过模型处理后的数据可靠性。

第一方面，本申请提供一种基于迁移学习的模型建立方法，所述方法包括：

获取经过数据预处理的第一研究数据和第二研究数据，将所述第一研究数据和所述第二研究数据合并成目标多中心研究数据，其中，所述第一研究数据包括各中心或各机构的检测数据，所述第二研究数据包括各中心或各机构的实验室研究数据；

分析所述目标多中心研究数据得到第一数据集和第二数据集，所述第一数据集用于指示标记的目标多中心研究数据，所述第二数据集用于指示未标记的目标多中心研究数据；

通过预置的阈值化双边岭比准则TDRR算法分析所述目标多中心研究数据，获得特征空间维数；

根据所述特征空间维数对所述第一数据集和所述第二数据集进行基于最大均值差异的降维迁移学习，获得降维数据；

通过预置的分类算法和所述降维数据训练初始模型；

调用预置公式计算所述初始模型的检测综合值，并将所述检测综合值达到第一预设阈值的初始模型作为最终的目标模型，所述预置公式如下：

，

其中，所述F-score表示为所述检测综合值，所述β表示为特定目标多中心研究数据的场景参数，所述P表示为所述初始模型的准确率，所述R表示为所述初始模型的召回率。

一种可能的设计中，所述通过预置的阈值化双边岭比准则TDRR算法分析所述目标多中心研究数据，获得特征空间维数，包括：

对所述目标多中心研究数据进行特征提取，得到特征信息，所述特征信息包括所述实验室研究数据对应的指标范围与指标属性和所述指标对应的目标多中心研究数据；

通过预置的基于阈值化双边岭比准则TDRR算法，获取所述特征信息的特征空间维数，其中，所述特征空间维数的获取公式如下：

，，

，

其中，所述S_j为比率，所述λ为所述特征空间维数，j=1,2,3......p，所述q为所述维数，所述c_1n为脊线，所述c_2n为脊线，α为阈值，0<α<1。

一种可能的设计中，所述根据所述特征空间维数对所述第一数据集和所述第二数据集进行基于最大均值差异的降维迁移学习，获得降维数据，包括：

计算所述第一数据集和所述第二数据集的最大均值差异，并根据所述最大均值差异获取核矩阵，其中，所述最大均值差异的计算公式如下：

，

所述核矩阵的计算公式如下：

，，，

其中，所述X₁表示所述第一数据集的特征矩阵，所述X₂表示所述第二数据集的特征矩阵，所述n₁表示所述第一数据集的数据的数量，所述n₂表示所述第二数据集的数据的数量，所述x₁表示所述第一数据集，所述x₂表示所述第二数据集，所述表示特征映射核函数，所述K表示所述核矩阵，所述L表示编码所述第一数据集和所述第二数据集的矩阵；

根据所述核矩阵对所述第一数据集和所述第二数据集进行分析，得到更新后的第一数据集和第二数据集；

通过预置的学习分类器对更新后的第一数据集和第二数据集进行回归处理和预测处理，得到第一预测标签信息；

当检测到所述更新后的第一数据集和第二数据集映射到所述特征空间维数对应的特征空间中时，调用预置的调和函数根据所述第一预测标签信息对所述更新后的第一数据集和第二数据集进行处理，得到降维数据。

一种可能的设计中，所述根据所述特征空间维数对所述第一数据集和所述第二数据集进行基于最大均值差异的降维迁移学习，获得降维数据之后，所述通过预置的分类算法和所述降维数据训练初始模型之前，所述方法还包括：

对所述第一数据集和所述第二数据集进行特征提取，得到目标特征信息；

对所述目标特征信息中的各特征向量进行敏感度分析，获得关联指数，其中，所述关联指数包括与所述检测数据相关的危险因素的影响程度；

根据所述关联指数对所述目标特征信息中的属性进行优先级顺序的设置和标记，其中，所述优先级顺序包括按照从高到低排序的第一优先级、第二优先级、第三优先级、第四优先级和第五优先级。

一种可能的设计中，所述通过预置的分类算法和所述降维数据训练初始模型，包括：

将标记所述第一优先级对应的属性作为父节点，将标记所述第二优先级、所述第三优先级、所述第四优先级和所述第五优先级的属性分别作为第一子节点、第二子节点、第三子节点和第四子节点；

将预设测试条件作为连接边，根据所述节点、所述第一子节点、所述第二子节点、所述第三子节点、所述第四子节点和所述节点创建预测决策树，其中，所述预设测试条件用于指示各中心或各机构对应的指标定义范围；

通过所述预测决策树对所述目标特征信息进行递归调用处理，以对初始模型进行训练。

一种可能的设计中，所述对所述目标特征信息中的属性进行优先级顺序的设置和标记，所述方法还包括：

根据预设提取规则获取所述目标特征信息的属性；

计算所述属性的增益比率值，其中，所述属性的增益比率值的计算公式如下：

，

其中，所述m表示所述目标特征信息D中维度C的个数，所述P_i表示所述目标特征信息中任意一个维度对应的特征信息属于C_i的概率，所述G(R)表示属性R给分类带来的信息量，所述k表示属性R中不同的取值的个数，所述P_j表示所述目标特征信息中任意一个维度对应的特征信息属于R_j的概率；

比较所述增益比率值的大小，并按照所述增益比率值从大到小的顺序设置并标记所述属性的优先级。

一种可能的设计中，所述对所述学习分类器进行训练之后，所述通过预置的分类算法和所述降维数据训练初始模型，包括：

通过预置的分类算法对所述降维数据进行回归处理，得到预处理结果，并计算所述预处理结果的错误率，所述错误率的计算公式如下：

，

所述m表示所述降维数据的数据的个数，所述x_i表示所述降维数据，所述表示所述降维数据的权重向量，所述E_t表示所述错误率，所述h_t（x_i）表示所述预置分类算法；

当所述错误率大于第二预设阈值时，更新所述初始模型中各数据的权重,完成对初始模型的训练；

当所述错误率小于或等于第二预设阈值时，获取所述初始模型中各数据的权重的调整速率；

若所述调整速率为预设范围值，则完成对初始模型的训练。

第二方面，本申请提供一种用于基于迁移学习的模型建立装置，具有实现对应于上述第一方面提供的基于迁移学习的模型建立方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。

一种可能的设计中，所述装置包括：

收发模块，用于接收经过数据预处理的第一研究数据和第二研究数据；

处理模块，用于将所述收发模块接收的过数据预处理的所述第一研究数据和所述第二研究数据合并成目标多中心研究数据，所述第一研究数据包括各中心或各机构的检测数据，所述第二研究数据包括各中心或各机构的实验室研究数据；分析所述目标多中心研究数据得到第一数据集和第二数据集，所述第一数据集用于指示标记的目标多中心研究数据，所述第二数据集用于指示未标记的目标多中心研究数据；通过预置的阈值化双边岭比准则TDRR算法分析所述目标多中心研究数据，获得特征空间维数；根据所述特征空间维数对所述第一数据集和所述第二数据集进行基于最大均值差异的降维迁移学习，获得降维数据；通过预置的分类算法和所述降维数据训练初始模型；调用预置公式计算所述初始模型的检测综合值，并将所述检测综合值达到第一预设阈值的初始模型作为最终的目标模型，

所述预置获取所述检测综合值的计算公式如下：，其中，所述F-score表示为所述检测综合值，所述β表示为某一特定实验室研究数据的场景参数，所述P表示为所述初始模型的准确率，所述R表示为所述初始模型的召回率。

一种可能的设计中，所述处理模块还用于：

，，

，

其中，所述S_j为比率，所述λ为所述特征信息，j=1,2,3......p，所述q为所述特征空间维数，所述c_1n为脊线，所述c_2n为脊线，所述α为阈值，0<α<1。

一种可能的设计中，所述处理模块还用于：

，

所述核矩阵的计算公式如下：

，，，

一种可能的设计中，所述处理模块在执行所述根据所述特征空间维数对所述第一数据集和所述第二数据集进行基于最大均值差异的降维迁移学习，获得降维数据之后，所述通过预置的分类算法和所述降维数据训练初始模型之前，还用于：

一种可能的设计中，所述处理模块还用于：

根据预设提取规则获取所述目标特征信息的属性；

，

一种可能的设计中，所述处理模块还用于：

，

所述m表示所述降维数据的数据的个数，所述x_i表示所述降维数据，所述表示所述降维数据的权重向量，所述E_t表示所述错误率，所述h_t（x_i）表示所述预置的分类算法；

若所述调整速率为预设范围值，则完成对初始模型的训练。

本申请又一方面提供了一种计算机设备，其包括至少一个连接的处理器、存储器和收发器，其中，所述存储器用于存储程序代码，所述处理器用于调用所述存储器中的程序代码来执行上述第一方面所述的方法。

本申请又一方面提供了一种计算机存储介质，其包括指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

相较于现有技术，本申请提供的方案中，通过将第一研究数据和第二研究数据合并成目标多中心研究数据；分析所述目标多中心研究数据得到第一数据集和第二数据集；通过预置的阈值化双边岭比准则TDRR算法分析所述目标多中心研究数据，获得特征空间维数；根据所述特征空间维数对所述第一数据集和所述第二数据集进行基于最大均值差的降维迁移学习，获得降维数据；通过预置的分类算法和所述降维数据训练初始模型，获得目标模型。由于第一数据集和第二数据集是从多个中心或多个机构中获取的多中心研究数据，并通过基于迁移学习的降维处理方法对所获取的第一数据集和第二数据集进行处理，以提高目标模型的性能、泛化能力和数据处理的效率，进而解决所输出的分析数据存在的差异较大、训练系统兼容性和数据格式等问题，因而，本申请能够提高经过模型处理后的数据可靠性。

附图说明

图1为本申请实施例中基于迁移学习的模型建立方法的一种流程示意图；

图2为本申请实施例中用于基于迁移学习的模型建立装置的一种结构示意图；

图3为本申请实施例中计算机装置的一种结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行。

请参照图1，以下对本申请提供一种基于迁移学习的模型建立方法，包括：

101、获取经过数据预处理的第一研究数据和第二研究数据，将第一研究数据和第二研究数据合并成目标多中心研究数据，第一研究数据包括各中心或各机构的检测数据，第二研究数据包括各中心或各机构的实验室研究数据。

终端获取经过数据预处理的第一研究数据和第二研究数据，将第一研究数据和第二研究数据合并成目标多中心研究数据，第一研究数据包括各中心或各机构的检测数据，第二研究数据包括各中心或各机构的实验室研究数据。

例如，第一研究数据为就诊者的个人基本信息、既往病史和体检数据，第二研究数据为关于II型糖尿病的实验室研究数据，第一研究数据为从多个地区的多个医院、体检中心和多个研究中心中收集的糖尿病患者与非糖尿病患者的就诊数据和体检数据。关于II型糖尿病的实验室研究数据包括但不限于血常规、糖化血红蛋白、空腹血糖、随机血糖、肝功能指标和肾功能指标对应的各项数据。

对第一研究数据进行数据预处理，以提高第一研究数据的质量和便于后续对第一研究数据的处理和数据挖掘。对第二研究数据进行数据预处理，以提高第二研究数据的质量和便于后续对第二研究数据的处理和数据挖掘。数据预处理包括但不限于缺失值填写处理、噪声光滑处理、离群点识别或删除处理和一致性处理。为了保证保存原有数据的关键信息和避免因误删或其他操作造成的误差或数据的丢失，将第一研究数据和第二研究数据合并成合并作为目标多中心研究数据。

可选的，在本申请的一些实施例中，上述的获取经过数据预处理的第一研究数据和第二研究数据，包括：

建立决策树，根据决策树分别对第一研究数据和第二研究数据进行缺失值处理；

通过马氏距离Mahalanobis算法，分别对经过缺失值处理的第一研究数据中的极度异常点和经过缺失值处理的第二研究数据中的极度异常点进行检测与标识，并删除标识的极度异常点，Mahalanobis算法公式如下：

，

其中，是b与的距离，是经过缺失值处理的第一研究数据的均值向量或经过缺失值处理的第二研究数据的均值向量，b是为经过缺失值处理的第一研究数据中的其他对象或经过缺失值处理的第二研究数据中的其他对象，S是协方差矩阵；

对经过极度异常点删除处理的第一研究数据进行排序和相似度计算，以对经过极度异常点删除的第一研究数据进行去重处理，以及对经过极度异常点删除处理的第二研究数据进行排序和相似度计算，以对经过极度异常点删除的第二研究数据进行去重处理。

102、分析目标多中心研究数据得到第一数据集和第二数据集，第一数据集用于指示标记的目标多中心研究数据，第二数据集用于指示未标记的目标多中心研究数据。

终端分析目标多中心研究数据得到第一数据集和第二数据集，第一数据集用于指示标记的目标多中心研究数据，第二数据集用于指示未标记的目标多中心研究数据。

可将第一数据集作为标记的源领域数据，以第二数据集作为未标记的目标领域数据，第一数据集为标记的作为源领域的第一中心或第一机构的目标多中心研究数据，第二数据集为标记的作为迁移学习的目标领域的第二中心或第二机构的目标多中心研究数据。以第一数据集和第二数据集的存储空间作为原始特征空间。

103、通过预置的阈值化双边岭比准则TDRR算法分析目标多中心研究数据，获得特征空间维数。

终端通过预置的阈值化双边岭比准则TDRR算法分析目标多中心研究数据，获得特征空间维数。

通过一种阈值化双边岭比准则TDRR确定目标多中心研究数据的特征空间维数，使其能够保证目标多中心研究数据在原有空间数据的关键信息，避免关键信息的损失。通过在充分降维、回归模型检验和近似因子模型三方面进行特征空间维数确定。构建激励和规范标准，获取目标多中心研究数据的特征值，对特征值进行初始岭比标准分析，对经过初始岭比标准分析的特征值进行阈值化双边岭比标准分析，其中，阈值化双边岭比标准为比值小于阈值的指数之间的最大指数可以定义为估计值，按照局部模型序列估计特征空间维数，通过近似因子模型确定特征空间维数。

可选的，在本申请的一些实施例中，上述的通过预置的阈值化双边岭比准则TDRR算法分析目标多中心研究数据，获得特征空间维数，包括：

对目标多中心研究数据进行特征提取，得到特征信息，特征信息包括实验室研究数据对应的指标范围与指标属性和指标对应的目标多中心研究数据；

通过预置的基于阈值化双边岭比准则TDRR算法，获取特征信息的特征空间维数，其中，特征空间维数的获取公式如下：

，，

，

其中，S_j为比率，λ为特征信息，j=1,2,3......p，q为特征空间维数，c_1n为脊线，c_2n为脊线，α为阈值，0<α<1。

对于特征空间维数的获取，可采用基于阈值化双边岭比准则TDRR的维数确定方法，以保证特征空间维数包含目标多中心研究数据的关键信息的不丢失。例如，维数包括但不限于第一研究数据中的医院、体检中心和研究中心的数量、范围和属性，以及糖尿病患者与非糖尿病患者的就诊数据和体检数据的范围和属性，和关于II型糖尿病的实验室研究数据项的数量、范围和属性，以及关于II型糖尿病的实验室研究数据项的数量、范围和属性。第二数据集包括血常规、糖化血红蛋白、空腹血糖、随机血糖、肝功能指标和肾功能指标的关于II型糖尿病的实验室研究数据，关于II型糖尿病的实验室研究数据项的数量为6，每个关于II型糖尿病的实验室研究数据项又分别有特定的一个或者一个以上的判断范围值，每个关于II型糖尿病的实验室研究数据项对应的属性的数量也包括多个。

通过基于阈值化双边岭比准则的维度确定方法确定特征空间维数，以高效便捷的方式准确而快速地确定维数，能够保证目标多中心研究数据在原有空间数据的关键信息。

104、根据特征空间维数对第一数据集和第二数据集进行基于最大均值差异的降维迁移学习，获得降维数据。

终端根据特征空间维数对第一数据集和第二数据集进行基于最大均值差异的降维迁移学习，获得降维数据。

可采用域对抗神经网络（Domain-Adversarial Neural Network，DANN）将对第一数据集和第二数据集的领域适配和特征学习整合到模型训练过程中，并将领域适配嵌入在特征表示的学习过程中，以对第一数据集和第二数据集进行既有区分力又对领域变换具有不变性的降维迁移学习。在另一实施例中，也可通过获取第一数据集和第二数据集的共同参数或先验分布，并对共同参数或先验分布进行处理后，对其进行降维迁移学习。

通过对第一数据集和第二数据集进行降维迁移学习，一方面，解决不同检验仪器差异大导致的数据分布严重不同的问题，另一方面，避免因为实验室研究数据的不同造成模型不稳定和预测评估结果偏倚的问题。

可先对第一数据集和第二数据集进行降维迁移学习处理，将经过降维迁移学习处理的第一数据集和第二数据集再进行半定规划处理。通过降维迁移学习处理减少轻维数灾难和高维空间中不相关属性，以促进对第一数据集和第二数据集的分类与压缩。降维迁移学习中的降维处理可采用结合去掉取值变化小的特征和单变量特征选择的方式。通过半定规划处理对。降维迁移学习处理后的数据进行优化处理，以获取较佳质量的降维后的第一数据集和第二数据集。

其中，本申请方法还包括以下公式获取降维数据：

，

其中，为K矩阵在一维空间中第一数据集、第二数据集中各数据向量的均值，L为第一数据集和第二数据集的数据样本，λ为第二数据集的特征值。

可选的，在本申请的一些实施例中，上述的根据特征空间维数对第一数据集和第二数据集进行基于最大均值差异的降维迁移学习，获得降维数据，包括：

计算第一数据集和第二数据集的最大均值差异，并根据最大均值差异获取核矩阵，其中，最大均值差异的计算公式如下：

，

核矩阵的计算公式如下：

，，，

其中，X₁表示第一数据集的特征矩阵，X₂表示第二数据集的特征矩阵，n₁表示第一数据集的数据的数量，n₂表示第二数据集的数据的数量，x₁表示第一数据集，x₂表示第二数据集，表示特征映射核函数，K表示核矩阵，L表示编码第一数据集和第二数据集的矩阵；

根据核矩阵对第一数据集和第二数据集进行分析，得到更新后的第一数据集和第二数据集；

当检测到更新后的第一数据集和第二数据集映射到特征空间维数对应的特征空间中时，调用预置的调和函数根据第一预测标签信息对更新后的第一数据集和第二数据集进行处理，得到降维数据。

通过降维迁移学习解决不同仪器的检测差异大所导致的数据分布严重不同的问题，避免因为检验指标标准不同造成数据分析不稳定和分析结果偏倚或其他问题。

可选的，在本申请的一些实施例中，上述的根据所述特征空间维数对所述第一数据集和所述第二数据集进行基于最大均值差异的降维迁移学习，获得降维数据，包括：

构建深度卷积神经网络DCNN模型，并调用DCNN模型中的特征提取器分别对第一数据集和第二数据集进行特征提取，以分别获取第一特征信息和第二特征信息，其中，DCNN模型包括特征提取器、第一分类标签器、第二分类标签器和域分类器；

分别获取第一特征信息的第一维数和第二特征信息的第二维数，以及通过分析第一维数和第二维数，确定降维特征空间；

通过第一分类标签器对第一特征信息进行分类和标记，获得第一标记特征信息，以及通过第二分类标签器对第二特征信息进行分类和标记，获得第二标记特征信息；

调用域分类器对第一标记特征信息和第二标记特征信息进行分类，获得目标分类信息；

将目标分类信息输入至DCNN模型中的池化层，通过池化层将目标分类信息映射到降维特征空间中，获得降维数据。

通过在大型数据集（即第一数据集和第二数据集）上预训练一个深度卷积神经网络（Deep Convolutional Neural Networks，DCNN），将所训练的DCNN的权重作为对维度特征信息进行提取以及对维度特征信息进行预测和评估的特征提取器，以对第一数据集和第二数据集进行降维迁移学习。

105、通过预置的分类算法和降维数据训练初始模型。

分类算法可采用决策树分类法或贝叶斯分类算法或基于支持向量机的分类器或神经网络法或k-最近邻法或模糊分类法或基于关联规则的分类。

本申请实施例中，分类算法可采用人工神经网络算法，输入降维数据至输入层，将输入层中处理的降维数据输入至隐层中，在隐层中，将前一个隐层的输出与后一个隐层的权值进行运算所得值再加上后一个隐层的偏置值，以获取后一个隐层的输出值，如此类推，进行多个隐层的输出与输入，最终在输出层获取输出值，并对输出层的输出值进行误差修正，以获得最终的输出结果。通过机器学习中的分类算法提高经过模型处理后的数据可靠性。

可选的，在本申请的一些实施例中，上述的根据特征空间维数对第一数据集和第二数据集进行基于最大均值差异的降维迁移学习，获得降维数据之后，上述的通过预置的分类算法和降维数据训练初始模型之前，本申请方法还包括：

对第一数据集和第二数据集进行特征提取，得到目标特征信息；

对目标特征信息中的各特征向量进行敏感度分析，获得关联指数，其中，关联指数包括与检测数据相关的危险因素的影响程度；

根据关联指数对目标特征信息中的属性进行优先级顺序的设置和标记，其中，优先级顺序包括按照从高到低排序的第一优先级、第二优先级、第三优先级、第四优先级和第五优先级。

可选的，在本申请的一些实施例中，上述的通过预置的分类算法和降维数据训练初始模型，包括：

将标记第一优先级对应的属性作为父节点，将标记第二优先级、第三优先级、第四优先级和第五优先级的属性分别作为第一子节点、第二子节点、第三子节点和第四子节点；

将预设测试条件作为连接边，根据节点、第一子节点、第二子节点、第三子节点、第四子节点和节点创建预测决策树，其中，预设测试条件用于指示各中心或各机构对应的指标定义范围；

通过预测决策树对目标特征信息进行递归调用处理，以对初始模型进行训练。

通过预测决策树获取降维数据中对目标多中心研究数据中的检测结果影响较大的因素，以及目标多中心研究数据中的检测结果对于各中心或各机构的差异，从而能更好地对其影响较大的因素和差异进行处理，以减少目标多中心研究数据在数据分析中所导致的异常或者误差。通过预测决策树对降维数据进行递归调用处理，以对初始模型进行训练。

可选的，在本申请的一些实施例中，上述的对目标特征信息中的属性进行优先级顺序的设置和标记，包括：

根据预设提取规则获取目标特征信息的属性；

计算属性的增益比率值，其中，属性的增益比率值的计算公式如下：

，

其中，m表示目标特征信息D中维度C的个数，Pi表示目标特征信息中任意一个维度对应的特征信息属于Ci的概率，G(R)表示属性R给分类带来的信息量，k表示属性R中不同的取值的个数，P_j表示目标特征信息中任意一个维度对应的特征信息属于R_j的概率；

比较增益比率值的大小，并按照增益比率值从大到小的顺序设置并标记属性的优先级。

其中，预设提取规则为属性提取的标准。通过比较增益比率值的大小设置属性的优先级，以使目标特征信息变得有序并能快速而准确地获取确定的目标特征信息。

通过预置的分类算法对降维数据进行回归处理，得到预处理结果，并计算预处理结果的错误率，错误率的计算公式如下：

，

m表示降维数据的数据的个数，x_i表示降维数据，表示降维数据的权重向量，E_t表示错误率，h_t（x_i）表示预置的分类算法；

当错误率大于第二预设阈值时，更新初始模型中各数据的权重,完成对初始模型的训练；

当错误率小于或等于第二预设阈值时，获取初始模型中各数据的权重的调整速率；

若调整速率为预设范围值，则完成对初始模型的训练。

例如，通过预置的分类算法构建的分类器对降维数据进行逻辑回归处理，得到预处理结果，计算预处理结果的错误率，以分析降维数据是否保存降维之前的关键信息以及是否降低多个中心或多个机构之间由于检查设备和指标范围的差异所造成的差异，采用梯度下降算法的预置的分类算法对模型进行优化训练，调整速率为权重的更新规则中梯度项前乘以的系数，该系数为学习速率；预置的第二预设阈值为30%，若错误率为40%，40%大于30%，则说明训练的初始模型还未满足要求，需要不断地更新初始模型中的各数据对应的权重，得到目标权重值，完成对初始模型的训练；若错误率为20%，20%小于30%，则说明初始模型初步满足训练的要求，由于调整速率太小会导致收敛过慢，调整速率太大会导致代价函数振荡，因而还需要对调整速率（即学习速率）进行分析，调整速率预设范围值内对应的初始模型才是最终完成训练所需的初始模型，如：预设范围值为0.01-0.03，若调整速率为0.025，则完成对初始模型的训练，若整速率为0.005或0.05，则继续对初始模型进行训练，直到整速率为0.01-0.03。通过对预处理结果的错误率进行检测以及调整，获取较好性能的分类算法，以提高通过对降维数据进行处理的准确性。其中，更新初始模型中各数据的权重的计算公式如下：

，，，

，

，其中，D_d表示不同分布的降维数据，D_s表示相同分布的降维数据，x_i为降维数据，n表示来自的数据的个数，m表示来自的数据的个数，P_t表示初始模型中各数据的权重分布，w_t和均表示初始模型中各数据的权重向量，表示前一个的权重向量值，E_t表示错误率，h_t（x_i）表示预置的分类算法。

106、调用预置公式计算初始模型的检测综合值，以检测综合值达到第一预设阈值的初始模型作为最终的目标模型，预置公式如下：

，其中，F-score表示为检测综合值，β表示为特定目标多中心研究数据的场景参数，P表示为初始模型的准确率，R表示为初始模型的召回率。

终端调用预置公式计算初始模型的检测综合值，以检测综合值达到第一预设阈值的初始模型作为最终的目标模型。

通过计算F-score来获取和分析目标模型的检测综合值以判断目标模型的鲁棒性，F-score值越大，鲁棒性越好，当检测综合值达到第一预设阈值时的模型的鲁棒性为最佳。通过分析目标模型的检测综合值以检测目标模型的鲁棒性来保证目标模型的质量和性能，以有效地解决系统对数据分析的准确性低的问题。目标模型是用于对前期的数据预处理，例如，通过目标模型对输入的就诊者的个人基本信息、既往病史和体检数据进行处理分析，得到分析结果后，再通过患病风险模型对分析结果进行进一步的分析，以及预测和风险评估，得到评估结果，最后对评估结果进行解释处理，结合医学指导意见，生成风险评估报告。

与现有机制相比，本申请实施例中，通过将第一研究数据和第二研究数据合并成目标多中心研究数据；分析目标多中心研究数据得到第一数据集和第二数据集；通过预置的阈值化双边岭比准则TDRR算法分析目标多中心研究数据，获得特征空间维数；根据特征空间维数对第一数据集和第二数据集进行基于最大均值差的降维迁移学习，获得降维数据；通过预置的分类算法和降维数据训练初始模型，获得目标模型。由于第一数据集和第二数据集是从多个机构中获取的多中心研究数据，并通过基于迁移学习的降维处理方法对所获取的第一数据集和第二数据集进行处理，以提高目标模型的性能、泛化能力和数据处理的效率，进而解决所输出的分析数据存在的差异较大、训练系统兼容性和数据格式等问题，因而，本申请能够提高经过模型处理后的数据可靠性。

上述图1对应的实施例或图1对应的实施例中的任一可选实施例或可选实施方式中所提及的技术特征也同样适用于本申请中的图2和图3所对应的实施例，后续类似之处不再赘述。

以上对本申请中一种基于迁移学习的模型建立方法进行说明，以下对执行上述基于迁移学习的模型建立方法的装置进行描述。

如图2所示的一种用于基于迁移学习的模型建立装置20的结构示意图。本申请实施例中的装置20能够实现对应于上述图1对应的实施例或图1对应的实施例中的任一可选实施例或可选实施方式中所执行的基于迁移学习的模型建立方法的步骤。装置20实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，模块可以是软件和/或硬件。装置20可包括收发模块201和处理模块202，收发模块201和处理模块202的功能实现可参考图1对应的实施例或图1对应的实施例中的任一可选实施例或可选实施方式中所执行的操作，此处不作赘述。处理模块202可用于控制收发模块201的收发操作。

一些实施方式中，收发模块201，用于接收经过数据预处理的第一研究数据和第二研究数据；

处理模块202，用于将收发模块201接收的经过数据预处理的第一研究数据和第二研究数据合并成目标多中心研究数据；分析目标多中心研究数据得到第一数据集和第二数据集，第一数据集用于指示标记的目标多中心研究数据，第二数据集用于指示未标记的目标多中心研究数据；通过预置的阈值化双边岭比准则TDRR算法分析目标多中心研究数据，获得特征空间维数；根据特征空间维数对第一数据集和第二数据集进行基于最大均值差异的降维迁移学习，获得降维数据；通过预置的分类算法和降维数据训练初始模型；调用预置公式计算初始模型的检测综合值，以检测综合值达到第一预设阈值的初始模型作为最终

的目标模型，预置公式如下：，其中，F-score表示为检测综合值，β表示为特定目标多中心研究数据的场景参数，P表示为初始模型的准确率，R表示为初始模型的召回率。

其中，第一研究数据包括各中心或各机构的检测数据，第二研究数据包括各中心或各机构的实验室研究数据；

第一数据集用于指示标记的目标多中心研究数据，第二数据集用于指示未标记的目标多中心研究数据。

本申请实施例中，处理模块202通过将第一研究数据和第二研究数据合并成目标多中心研究数据；分析目标多中心研究数据得到第一数据集和第二数据集；通过预置的阈值化双边岭比准则TDRR算法分析目标多中心研究数据，获得特征空间维数；根据特征空间维数对第一数据集和第二数据集进行基于最大均值差的降维迁移学习，获得降维数据；通过预置的分类算法和降维数据训练初始模型。由于第一数据集和第二数据集是从多个机构中获取的多中心研究数据，并通过基于迁移学习的降维处理方法对所获取的第一数据集和第二数据集进行处理，以提高目标模型的性能、泛化能力和数据处理的效率，进而解决所输出的分析数据存在的差异较大、训练系统兼容性和数据格式等问题，因而，本申请能够提高经过模型处理后的数据可靠性。

可选的，在本申请的一些实施方式中，上述基于迁移学习的模型建立方法的任一实施例或实施方式中所提及的技术特征也同样适用于本申请中的对执行上述基于迁移学习的模型建立方法的装置20，后续类似之处不再赘述。

上面从模块化功能实体的角度分别介绍了本申请实施例中的装置20，以下从硬件角度介绍一种计算机装置，如图3所示，其包括：处理器、存储器、收发器（也可以是输入输出单元，图3中未标识出）以及存储在所述存储器中并可在所述处理器上运行的计算机程序。例如，该计算机程序可以为图1对应的实施例或图1对应的实施例中的任一可选实施例或可选实施方式中基于迁移学习的模型建立方法对应的程序。例如，当计算机装置实现如图2所示的装置20的功能时，所述处理器执行所述计算机程序时实现上述图2所对应的实施例中由装置20执行的基于迁移学习的模型建立方法中的各步骤；或者，所述处理器执行所述计算机程序时实现上述图2所对应的实施例的装置20中各模块的功能。又例如，该计算机程序可以为图1对应的实施例或图1对应的实施例中的任一可选实施例或可选实施方式的方法对应的程序。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、视频数据等）等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述收发器也可以用接收器和发送器代替，可以为相同或者不同的物理实体。为相同的物理实体时，可以统称为收发器。该收发器可以为输入输出单元。图3中的收发模块对应的实体设备可以为图2中的收发器。

所述存储器可以集成在所述处理器中，也可以与所述处理器分开设置。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM）中，包括若干指令用以使得一台终端（可以是手机，计算机，服务器或者网络设备等）执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本申请的保护之内。

Claims

1.一种基于迁移学习的模型建立方法，其特征在于，包括：

获取经过数据预处理的第一研究数据和第二研究数据，将所述第一研究数据和所述第二研究数据合并成目标多中心研究数据，所述第一研究数据包括各中心或各机构对目标疾病患者与非目标疾病患者的检测数据，所述第二研究数据包括各中心或各机构对目标疾病的实验室研究数据，所述检测数据包括的就诊数据和体检数据，所述就诊数据包括个人基本信息和既往病史；

通过预置的分类算法和所述降维数据训练初始模型；

调用预置公式计算所述初始模型的检测综合值，并将所述检测综合值达到第一预设阈值的初始模型作为最终的目标模型，所述目标模型用于对所述个人基本信息、所述既往病史和所述体检数据进行处理分析，所述预置公式如下：

，

2.根据权利要求1所述的方法，其特征在于，所述通过预置的阈值化双边岭比准则TDRR算法分析所述目标多中心研究数据，获得特征空间维数，包括：

，

3.根据权利要求1所述的方法，其特征在于，所述根据所述特征空间维数对所述第一数据集和所述第二数据集进行基于最大均值差异的降维迁移学习，获得降维数据，包括：

，

所述核矩阵的计算公式如下：

，，，

4.根据权利要求1所述的方法，其特征在于，所述根据所述特征空间维数对所述第一数据集和所述第二数据集进行基于最大均值差异的降维迁移学习，获得降维数据之后，所述通过预置的分类算法和所述降维数据训练初始模型之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述通过预置的分类算法和所述降维数据训练初始模型，包括：

6.根据权利要求4所述的方法，其特征在于，所述目标特征信息中的属性进行优先级顺序的设置和标记，包括：

根据预设提取规则获取所述目标特征信息的属性；

，

7.根据权利要求1-6中任一项所述的基于迁移学习的模型建立方法，其特征在于，所述通过预置的分类算法和所述降维数据训练初始模型，包括：

，

若所述调整速率为预设范围值，则完成对初始模型的训练。

8.一种用于基于迁移学习的模型建立装置，其特征在于，所述装置包括：

处理模块，用于将所述收发模块接收的经过数据预处理的所述第一研究数据和所述第二研究数据合并成目标多中心研究数据，所述第一研究数据包括各中心或各机构对目标疾病患者与非目标疾病患者的检测数据，所述第二研究数据包括各中心或各机构对目标疾病的实验室研究数据，所述检测数据包括的就诊数据和体检数据，所述就诊数据包括个人基本信息和既往病史；分析所述目标多中心研究数据得到第一数据集和第二数据集，所述第一数据集用于指示标记的目标多中心研究数据，所述第二数据集用于指示未标记的目标多中心研究数据；通过预置的阈值化双边岭比准则TDRR算法分析所述目标多中心研究数据，获得特征空间维数；根据所述特征空间维数对所述第一数据集和所述第二数据集进行基于最大均值差异的降维迁移学习，获得降维数据；通过预置的分类算法和所述降维数据训练初始模型；调用预置公式计算所述初始模型的检测综合值，并将所述检测综合值达到第一预设阈值的初始模型作为最终的目标模

型，所述目标模型用于对所述个人基本信息、所述既往病史和所述体检数据进行处理分析，所述预置公式如下：，其中，所述F-score表示为所述检测综合值，所述β表示为特定目标多中心研究数据的场景参数，所述P表示为所述初始模型的准确率，所述R表示为所述初始模型的召回率。

9.一种计算机设备，其特征在于，所述计算机设备包括：

至少一个处理器、存储器和收发器；

其中，所述存储器用于存储程序代码，所述处理器用于调用所述存储器中存储的程序代码来执行如权利要求1-7中任一项所述的方法。

10.一种计算机存储介质，其特征在于，其包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-7中任一项所述的方法。