CN113780378A

CN113780378A - 一种疾病高危人群预测装置

Info

Publication number: CN113780378A
Application number: CN202110990938.2A
Authority: CN
Inventors: 王睿; 颜慧燃; 崔增皓
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2021-12-10
Anticipated expiration: 2041-08-26
Also published as: CN113780378B

Abstract

本发明提供一种疾病高危人群预测装置，属于医学疾病辅诊领域。所述装置包括：特征提取模块，用于对目标疾病训练集中的样本进行特征提取，将提取的特征输入分类模块和特征损失模块；分类模块，用于根据接收到的特征，对样本进行分类，并计算分类损失；其中，所述特征提取模块和分类模块组成疾病高危预测模型；特征损失模块，用于根据接收到的特征，计算特征层面的特征距离损失；训练模块，用于将分类损失和特征距离损失进行加权结合，根据结合后的损失，输入训练集对所述疾病高危预测模型进行训练，以便利用训练好的疾病高危预测模型，预测待测人员所属的类别。采用本发明，能够提高疾病高危人群分类精确度。

Description

一种疾病高危人群预测装置

技术领域

本发明涉及医学疾病辅诊领域，特别是指一种疾病高危人群预测装置。

背景技术

随着人工智能的发展，智能化渗透到人类生活的许多方面，智慧出行，智慧生活，智慧医疗等，都离不开人工智能的帮助。其中，医学疾病辅诊智能模型则是非常重要的一项发展，其优点表现在：成本较低，能辅助医生做出正确判断，提高医生判断精度。建立的智能模型若能根据日常属性和简单的临床检查结果在早期就可较为准确预测出某人疾病发病概率，帮助高危人群做好预防工作，早发现早预防早治疗，则会大大降低某些疾病的患病概率。可见，疾病高危预测模型是非常有意义的一项工作。

然而，由于疾病人群的数量相对于正常人的数量往往十分少，疾病判定模型通常会遇到数据比例极其不均衡的困难，这使得疾病判定模型的建立已具有一定难度。不过，单纯的类别数据不均问题可以通过扩充样本等手段来均衡类间样本比例，从而被较好的解决。

但是，对于疾病高危预测模型，除了疾病高危人群和正常人群的数量极其不均衡外，疾病高危人群与正常人群在大多数日常属性以及简单的临床检查结果上表现得结果都极为相近，这意味着疾病高危预测模型不仅是一个单纯的不均衡学习问题，更伴随着类间样本高度重叠，边界样本较多的问题。这些附加的问题让不均衡数据的建模变得十分困难，也是目前疾病高危预测模型建模的最关键难题。

目前针对不均衡数据学习的处理思路主要可分为两种：

一类做法是主要关注对于训练样本的改造，对数据使用算法(例如SMOTE、KNN等算法)生成新的少数类别样本，或者减少多数类别样本，使训练样本趋近于均衡，以便于模型平等的关注到每个类；然而这种做法虽然在单纯的不均衡场景下表现得很好，但由于它们太过于关注均衡样本之间的数量，而过分放大了少数类的特性(过分扩充少数类)，极可能引入了少数类的噪声特性，或者是大大浪费了多数类的内部信息(减少多数类)；

另一类做法是对于学习算法进行改进，使用代价敏感的学习算法，在学习过程中为不同类型的错误分配不同的代价，使得分类时，高代价错误产生的数量和错误分类的代价总和最小，这种思路主要使用代价矩阵对不同类型的错误进行代价调整，需要领域先验知识对代价矩阵进行设置；但是这类算法应用在单模型上会导致网络在训练后期过于关注少数类别样本，使神经网络发生较大的震荡，可能为模型带来高度过拟合的风险。

上述传统的不均衡数据学习算法大多仅仅以均衡多数类与少数类的地位为目标，过分扩充少数类的数目，或者是给予精巧的权重设计，此后仍然把寻找分类边界的问题单纯的交由分类器来判别。诸如此类的做法在单纯的不均衡场景下或许能获得不错的效果，但是在建立疾病高危预测模型时，由于疾病高危人群和正常人群在大多数属性的取值上表现十分接近，这使得找到正常人群与疾病高危人群之间的合理的分类界限对于分类器来说变得更为困难及具有挑战性。这些方法几乎没有利用数据本身蕴含的信息，而是单纯的依靠分类器来解决分类任务，然而分类器在这种场景下往往会很难找到合适的分类界限。其实比起分类方法的精妙设计，数据本身蕴含的丰富信息足以能帮助分类器找到良好的分类界限。

上述这些做法的普遍问题在于过于重视均衡样本之间的数量，以及太过注意分类方法的选取，将解决任务的步骤完全依赖于分类器。这些做法不仅浪费了数据内部蕴含的丰富信息，忽略了边界样本对于分类效果的重要性，而且还难以使分类模型在类间分布重叠严重的情况下，独自探索到良好的分类界限，找出疾病高危人群。

发明内容

本发明实施例提供了疾病高危人群预测装置，能够提高疾病高危预测模型在类间分布重叠严重的不平衡数据的背景下的疾病高危人群分类精确度。所述技术方案如下：

本发明实施例提供了一种疾病高危人群预测装置，包括：

特征提取模块，用于对目标疾病训练集中的样本进行特征提取，将提取的特征输入分类模块和特征损失模块，样本的类别包括：正常人群和目标疾病高危人群；

分类模块，用于根据接收到的特征，对样本进行分类，并计算分类损失；其中，所述特征提取模块和分类模块组成疾病高危预测模型；

特征损失模块，用于根据接收到的特征，计算特征层面的特征距离损失；

训练模块，用于将分类损失和特征距离损失进行加权结合，根据结合后的损失，输入训练集对所述疾病高危预测模型进行训练，以便利用训练好的疾病高危预测模型，预测待测人员所属的类别。

进一步地，所述装置还包括：

数据预处理模块，用于对正常人及目标疾病病人的数据进行清洗以及预处理，得到目标疾病训练集；其中，训练集中正常人的类别为正常人群，目标疾病病人的类别为目标疾病高危人群；

其中，所述清洗用于去除多余重复数据；

所述预处理包括：缺失值填充和归一化处理。

进一步地，所述特征提取模块，用于对目标疾病训练集中的样本进行特征提取，得到训练样本在非线性空间的特征表示，将提取的特征作为分类模块和特征损失模块的输入。

进一步地，所述分类模块，具体用于根据接收到的特征，对样本类别进行预测，得到预测值y^pred，将预测值y^pred与真实类别y^label进行比较，得到分类损失

其中，θ表示特征提取模块的网络权重参数与偏置参数集合，

表示分类模块的网络权重参数与偏置参数集合，S_tr表示训练集。

进一步地，所述特征损失模块，用于打乱训练样本顺序后，将训练样本两两组合，获得样本对，根据样本对的特征，计算特征层面的特征距离损失；

所述样本对中的样本属于同一类别：均属于正常人群，或者均属于目标疾病高危人群；或者，

所述样本对中的样本属于不同类别：一个属于正常人群，另一个属于目标疾病高危人群。

进一步地，特征层面的特征距离损失表示为：

L_feat(θ；S_tr)＝Min(d(positive pair))+Max(d(negative pair))

其中，L_feat(θ；S_tr)表示特征层面的特征距离损失，d(·)表示距离，Positive Pair表示样本对中的样本属于同一类别；Negative Pair表示样本对中的样本属于不同类别。

进一步地，结合后的损失表示为：

其中，γ为权重系数。

进一步地，所述训练模块，用于将分类损失和特征距离损失进行加权结合，根据结合后的损失和基于分类硬度评价函数的强调训练策略，输入训练集对所述疾病高危预测模型进行训练，以便利用训练好的疾病高危预测模型，预测待测人员所属的类别。

进一步地，所述训练模块的训练步骤包括：

A1，在第一个训练周期内，输入训练集至特征提取模块，通过特征提取模块对训练集中的样本进行特征提取，将提取的特征输入分类模块和特征损失模块，由分类模块计算分类损失，特征损失模块计算特征距离损失，将分类损失和特征距离损失进行加权结合，得到结合后的损失，结合后的损失反向传播，对所述疾病高危预测模型进行训练；

A2，在下一轮训练周期之前，将整个训练集输入至训练后的疾病高危预测模型进行一次预测，根据预测结果分别从每个类中等量的选择硬度分数最高的多个训练样本组成硬样本，存储入强调数据集E；

A3，在下一轮训练周期内，在按照步骤A1，使用训练集对疾病高危预测模型进行训练的同时，每隔t次迭代，强调数据集E中的样本将被强调一次；其中，强调的步骤包括：

通过特征提取模块对强调数据集E中的样本进行特征提取，将提取的特征输入分类模块和特征损失模块，由分类模块计算分类损失，特征损失模块计算特征距离损失，将分类损失和特征距离损失进行加权结合，得到结合后的损失，结合后的损失反向传播，对所述疾病高危预测模型进行训练；

A4，重复步骤A2-A3的迭代训练过程，当结合后的损失连续多次波动范围不超过预设的第一阈值，则视疾病高危预测模型训练达到收敛，停止训练。

进一步地，所述分类硬度评价函数，用于衡量样本的误分类程度。

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明实施例中，通过特征损失模块挖掘数据本身蕴含的类间差异特征信息，促使特征提取模块能提取出具有类间差异性大的特征，以便更好的辅助分类模块快速找到类间分布重叠严重的不平衡数据之间的分类界限，从而提高了疾病高危预测模型在类间分布重叠严重的不平衡数据的背景下的疾病高危人群分类精确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的疾病高危人群预测装置的结构示意图；

图2为本发明实施例提供的疾病高危人群预测装置的工作流程示意图；

图3是本发明实施例提供的强调训练策略的工作流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

正常人及目标疾病病人的数据内部携带的丰富信息对于分类等任务准确率的提升有着巨大的潜力。挖掘出数据内部蕴含的分类信息对于提高疾病高危人群的预测准确率十分重要，尤其在疾病高危预测这种典型的类间分布重叠严重的分类问题中，挖掘不同类数据之间的隐含差异能极大地帮助分类任务准确的找到分类标准，从而获得良好的准确率。为此，本发明实施例提供了一种疾病高危人群预测装置。

如图1所示，本发明实施例提供了一种疾病高危人群预测装置，包括：

特征提取模块11，用于对目标疾病训练集中的样本进行特征提取，将提取的特征输入分类模块和特征损失模块，样本的类别包括：正常人群和目标疾病高危人群；

分类模块12，用于根据接收到的特征，对样本进行分类，并计算分类损失；其中，所述特征提取模块和分类模块组成疾病高危预测模型；

特征损失模块13，用于根据接收到的特征，计算特征层面的特征距离损失；

训练模块14，用于将分类损失和特征距离损失进行加权结合，根据结合后的损失，输入训练集对所述疾病高危预测模型进行训练，以便利用训练好的疾病高危预测模型，预测待测人员所属的类别。

本发明实施例提供的疾病高危人群预测装置，通过特征损失模块挖掘数据本身蕴含的类间差异特征信息，促使特征提取模块能提取出具有类间差异性大的特征，以便更好的辅助分类模块快速找到类间分布重叠严重的不平衡数据之间的分类界限，从而提高了疾病高危预测模型在类间分布重叠严重的不平衡数据的背景下的疾病高危人群分类精确度。

在前述疾病高危人群预测装置的具体实施方式中，进一步地，由图2所示，所述装置还包括：

其中，所述清洗用于去除多余重复数据；

所述预处理包括：缺失值填充和归一化处理。

本发明实施例提供的疾病高危人群预测装置，旨在通过常见的日常属性以及简单的临床属性就能良好的预测出目标疾病的高危人群，而无须通过昂贵的精密检测手段便能尽量准确的预测出疾病的高危人群，目标疾病训练集中的样本应记录正常人与目标疾病病人在同样的属性下的取值。依照本发明目标，目标疾病训练集的属性不需要引入昂贵的检查结果，比如基因检测等精密手段，目标疾病训练集的属性主要包括以下四个方面的常见属性：

1.身体素质属性，包括：身高、体重、bmi等；

2.心理健康属性，包括：心情、性格等；

3.日常习惯属性，包括：饮食习惯、运动习惯、抽烟、饮酒习惯等；

4.根据不同疾病需求，临床属性有所不同，简单常见的临床属性，包括：临床触诊、体检结果、b超等常见临床检查结果。

本实施例中，获取以上四个方面的常见属性的属性值，得到正常人及目标疾病病人的数据。

本实施例中，通过数据预处理模块对正常人及目标疾病病人的数据进行清洗、归一化处理以及缺失值填充等基本操作后，得到目标疾病训练集S_tr，流入特征提取模块，这样，通过数据预处理操作能够减少原始数据含有的噪声干扰，从而避免脏数据对整体模型的噪声影响。

本实施例中，可以假设所述目标疾病训练集的高危人群(正类)与正常人群(负类)的比例差异大约为350∶1，数据集共有约140个属性，包括常见的身体素质属性：如身高，体重，bmi等，以及日常习惯属性，比如：饮食习惯，运动习惯，抽烟，激素服用情况，饮酒习惯等，还有简单常见的临床属性：比如临床触诊，b超检查，药物服用情况，患相关病症情况等常见临床检查结果等属性，记录了该病症的正常人群与高危人群在同样的上述属性下的取值。然而，高危人群(正类)与正常人群(负类)在绝大多数属性上的取值非常相似，故意味着这两个类除了不平衡之外还极度重叠。

在前述疾病高危人群预测装置的具体实施方式中，进一步地，所述特征提取模块，用于对目标疾病训练集中的样本进行特征提取，得到训练样本在非线性空间的特征表示，将提取的特征作为分类模块和特征损失模块的输入。也就是说：特征提取模块提取的特征被设计为两个并行流向：1.流向分类模块；2.流向特征损失模块。

本实施例中，为特征提取模块这部分网络的选取提供了较高自由性的选择空间，可根据不同目标场景灵活选择。假设，特征提取模块选取简单的三层全连接神经网络，其结构为：输入样本-64维-32维-16维特征输出，令特征提取模块的网络权重参数与偏置参数集合记为符号θ，训练集S_tr(该训练集含有n个样本)将会被输入至特征提取模块F_θ(·)，提取的特征表示为F_θ(S_tr)。经过三层的全连接神经网络处理后，训练集的每个样本将会被处理为16维的向量，是训练集样本的高维非线性提取，提取的特征将被用于两个并行的训练需求：1.输入至分类模块，计算分类损失；2.输入至特征损失模块，计算特征层面的损失。

在前述疾病高危人群预测装置的具体实施方式中，进一步地，所述分类模块，具体用于根据接收到的特征，对样本类别进行预测，得到预测值y^pred，将预测值y^pred与真实类别y^label进行比较，得到分类损失

本实施例中，在第一个流向中，分类模块

根据接收到的特征提取模块提取的特征F_θ(S_tr)，对样本进行分类，得到样本类别的预测值y^pred——即是属于正常人群，还是属于目标疾病高危人群，将预测值y^pred与真实类别y^label进行比较，得到分类损失

不同于传统不均衡学习方法对于分类模块的精细设计，本实施例中，可选择简单的分类器，如全连接神经网络，作为分类模块，分类模块的简单设计简化了人工设计与训练难度。该部分模块的其目标为：缩小分类模块输出的预测值与真实类别之间的差距，以此促使分类模块找寻分类界限，此部分可选用常见的分类损失，也是大多神经网络训练时选取的常见做法。但简单的分类损失在面对类间分布重叠严重的疾病高危人群预测任务显得较为无力，不仅无法为类间分布重叠严重的正常人数据与目标疾病病人数据快速的找到良好分类界限，甚至出现过拟合现象。

针对分类模块存在的不足，也是大多数现有不均衡学习方法存在的先天不足，本实施例在上述分类模块的基础上，额外设计了特征损失模块，用于挖掘数据本身携带的差异特征信息。本实施例在特征提取层面插入特殊损失设计，这一步目的是促使特征提取模块部分能提取出具有类间差异性大的特征，更好的辅助分类模块快速找到不同类别的差异，获取良好的分类界限。此部分的特征距离损失可由特征之间的距离等(或其他自由定义的函数)进行实现，例如使用同类本对的平均距离减去异类样本对的平均距离等，具体形式设计十分灵活，可以根据不同实施场景更改，具有灵活性。

本实施例中，在计算特征层面的特征距离损失之前，所述特征损失模块，用于打乱训练样本顺序后，将训练样本两两组合，获得样本对，所述样本对存在两种情况：

1.Positive Pair:样本对中的样本属于同一类别：均属于正常人群，或者均属于目标疾病高危人群；

2.Negative Pair:样本对中的样本属于不同类别：一个属于正常人群，另一个属于目标疾病高危人群。

本实施例中，所述特征损失模块根据样本对的特征，计算特征层面的特征距离损失：

L_feat(θ；S_tr)＝Min(d(positive pair))+Max(d(negative pair))

其中，L_feat(θ；S_tr)表示特征层面的特征距离损失，d()表示距离，Positive Pair表示样本对中的样本属于同一类别；Negative Pair表示样本对中的样本属于不同类别。

本实施例中，所述特征损失模块的训练目标的设计迫使属于同一类别的样本对的特征之间的距离尽可能靠近；迫使来自不同类别的样本对的样本特征之间的距离尽可能远离；促使特征提取模块发掘不同类样本中蕴含的差异性特征，同类样本中蕴含的相似特征。

本实施例中，两种损失(分类损失和特征距离损失)并行结合后，训练特征提取模块的参数θ以及分类模块的参数

其中，结合后的损失表示为：

其中，γ为权重系数，可用于决定具体侧重于哪个损失。

本实施例中，可以选用γ＝1.0。可以注意到，两种损失共同作用于特征提取模块的参数θ，共同训练特征提取模块，充分挖掘数据内部信息，提取具有类间辨识度的特征，为分类任务提供良好基础，提高对于疾病高危预测的精度。

本实施例中，结合后的损失以梯度下降策略(可自由选择优化策略，如Adam等)反向传播，训练特征提取模块以及分类模块(即：疾病高危预测模型)，将特征损失模块以及分类模块相结合，使疾病高危预测模型的整体训练过程具有关注类间分布差异的导向性，使得疾病高危预测模型能深层次的挖掘具有类间差异性大，类内相似性大的特征。这一步的设计是从挖掘数据本身蕴含的信息的角度出发，来帮助分类模块找寻类间分布重叠严重的数据之间的分类界限。

在前述疾病高危人群预测装置的具体实施方式中，进一步地，所述训练模块，用于将分类损失和特征距离损失进行加权结合，根据结合后的损失和基于分类硬度评价函数的强调训练策略，输入训练集对所述疾病高危预测模型进行训练，以便利用训练好的疾病高危预测模型，预测待测人员所属的类别。

本实施例中，为进一步提高疾病高危预测模型对于目标疾病高危人群判别的精确度，针对正常人群类别与目标疾病高危人群类别存在的边界样本，如图2和图3所示，本实施例在训练过程中提出了一种全新的辅助训练策略：基于分类硬度评价函数的强调训练策略，用于提高分类模块在边界模糊样本的分类性能，该策略旨在强调边界样本对于辅助找寻高危类别与正常类别的分类界限的重要性。所述分类硬度评价函数与疾病高危预测模型性能有关，此函数能显式的体现一个样本的难分辨程度，即用于评价将样本分类到正确对应类别的难度。直观上，边界模糊样本通常具有更高的硬度分数。

本实施例中，令疾病高危预测模型为M，将样本的硬度表示为

更具体地说，给定一个输入x和真实标签y，以及由M输出的预测结果

则这个样本的硬度是预测和真实标签之间的差距。因此该分类硬度评价函数

可以衡量样本的误分类程度。直观上，边界模糊样本因为难以分类，通常具有更高的硬度分数(即：分类硬度分数)，称它们为“硬样本”。

本发明构建了一个固定大小的数据子集：强调数据集E，来记录每个训练周期中具有高硬度分数的训练样本；具体的，每训练一个周期，疾病高危预测模型将会达到一个平稳的新阶段，此时用此阶段的疾病高危预测模型对整个训练集进行一次预测，从每个类别中分别选择预测效果最差(即硬度分数最高)的若干等量训练样本(称为“硬样本”)组成强调数据集E。在下一轮的训练周期中，除去利用训练集对疾病高危预测模型进行正常的训练外，强调数据集E会被额外的输入至疾病高危预测模型训练若干次，以强调边界样本的信息，帮助疾病高危预测模型注意到边界样本的分类信息。

本实施例中，强调数据集E中的“硬样本”不会被连续训练多次，因为这可能会导致整个疾病高危预测模型过拟合。相反，“硬样本”只会在一个训练周期中每隔几百次迭代才被输入训练一次，强调的频率由训练过程的进行，由低逐渐变高，并且每次被强调时，强调数据集E中的“硬样本”在输入至特征损失模块计算特征距离损失之前，都会被打乱以产生不同的样本对，这有利于提升疾病高危预测模型的鲁棒性。此外，该强调训练策略并不会剥夺疾病高危预测模型从简单样本中学到的知识，而边界样本可以同时被强调给疾病高危预测模型，使得疾病高危预测模型得以关注边界样本带来的分类信息，以提高整个疾病高危预测模型的分类精度。

本实施例中，所述训练模块的训练步骤包括：

A1，在第一个训练周期内，输入训练集至特征提取模块，通过特征提取模块对训练集中的样本进行特征提取，将提取的特征输入分类模块和特征损失模块，由分类模块计算分类损失，特征损失模块计算特征距离损失，将分类损失和特征距离损失进行加权结合，得到结合后的损失，结合后的损失反向传播，对所述疾病高危预测模型进行训练，以更新特征提取器模块的参数θ以及分类模块的参数

A2，在下一轮训练周期之前，将整个训练集输入至初步训练后的疾病高危预测模型进行一次预测，根据预测结果分别从每个类中等量的选择硬度分数最高的多个(例如，前128个)训练样本组成硬样本，存储入强调数据集E；

A3，在下一轮训练周期内，在按照步骤A1，使用训练集对疾病高危预测模型进行训练的同时，每隔t次(例如，100次)迭代，强调数据集E中的样本将被强调一次；其中，强调的步骤包括：

通过特征提取模块对强调数据集E中的样本进行特征提取，将提取的特征输入分类模块和特征损失模块，由分类模块计算分类损失，特征损失模块打乱硬样本顺序后，将硬样本两两组合，获得样本对，根据样本对的特征，计算特征层面的特征距离损失，将分类损失和特征距离损失进行加权结合，得到结合后的损失，结合后的损失反向传播，对所述疾病高危预测模型进行训练。这意味着E中的硬样本在每次被进行强调时，都会更新特征提取器模块的参数θ以及分类模块的参数

然而，E中的样本只会在一个训练周期中每隔t次迭代才被强调一次，并且每次强调时，E中的样本都会被打乱以产生不同的样本对，这有利于提高特征损失模块的鲁棒性。此外，整个疾病高危预测模型的泛化能力不会受到该强调训练策略的影响，因为疾病高危预测模型在训练过程的大部分时间主要是通过大多数平凡的训练样本进行训练，使之具有良好的稳定性，而E中的硬样本在一个训练周期中仅仅会被训练几次到十几次不等。这意味着强调训练策略不会剥夺疾病高危预测模型从简单样本中学到的知识，而这些边界模糊样本可以同时被疾病高危预测模型所注意。

A4，重复以上步骤A2-A3的迭代训练过程，当结合后的损失的变化趋于平稳，具体指：结合后的损失连续多次(例如，10次)波动范围不超过预设的第一阈值(例如，0.001)，则视疾病高危预测模型训练达到收敛，停止训练。

本实施例中，在疾病高危预测模块训练完毕后，输入测试集测试样本至特征提取模块，由分类模块对特征提取模块输出的特征进行分类，得到测试样本所属的类别。

本实施例中，在分类任务中，可以使用以下两种使用方法：

1.分类模块可以认为是目标疾病的分类任务，即分类模块

训练完毕后可以直接用于对高危人群的预测。在训练过程中，将分类模块、特征提取模块当成一个整体进行训练，这种使用方法整体较为简便。

2.分类模块也可以认为是特征损失模块θ的辅助任务，通过引入分类任务，促使特征提取模块的提取更具有分类的导向性，会更注意提取类间差异性与分类辅助性的特征。待特征提取模块训练完毕，即基本收敛后，特征提取模块θ可以单独另接新的分类器，再冻结训练完毕的特征提取模块θ，单独训练新的分类模块。训练完毕后，使用新的分类模块进行高危人群的预测。即本发明同时可以用于预训练特征提取模块，使之获取具有类间差异性的特征，为下游的分类任务打好基础，这种使用方法对于分类模块的结构与深度选取更为自由。

综上，本发明实施例提供的疾病高危人群预测装置具有以下优点：

1)本发明以疾病高危预测模型为背景，从挖掘数据本身信息的角度，同时关注边界样本的分类，以提高疾病高危人群分类精确度为目的，为解决类间分布重叠严重的不均衡分类问题开拓了一种新思路，具体的：通过特征损失模块更大程度的挖掘了数据本身蕴含的类间差异特征信息，促使特征提取模块能提取出具有类间差异性大的特征，提高了特征提取模块提取具有类间差异特征的能力，以便更好的辅助分类模块快速找到类间分布重叠严重的不平衡数据之间的分类界限，从而提高了整个疾病高危预测模型在类间分布重叠严重的不平衡数据的背景下的疾病高危人群分类精确度，从而克服现有学习技术过于关注平衡不同类数据比例，忽视数据本身携带的丰富分类信息及忽略边界样本对于分类效果的重要性而造成预测效果低下的缺陷，解决了在疾病高危预测模型在建模过程中最为关键的难题：在类间分布重叠严重，边界样本较多背景下的数据不均衡分类问题。

2)特征提取模块和特征损失模块的具体结构以及损失函数可以通过灵活的方式选取，具体的：可以根据不同的建模需求设计不同的网络结构以及选取不同的损失函数，具有较高的灵活度以及自由度，适用范围广。

3)针对边界模糊样本的存在，本实施例提出了一种全新的辅助训练策略—基于分类硬度评价函数的强调训练策略，通过对不平衡数据集中的“硬样本”进行分类，使得疾病高危预测模型更多关注到不同类边界样本之间的分布差异与边界样本带来的分类信息上，同时该策略不会影响整个疾病高危预测模型的泛化能力；此训练策略同时也适用于许多传统的不平衡学习方法，适用范围较广。

本发明实施例提供了一种疾病高危人群预测装置可适用于多种常见疾病的高危人群预测场景，针对不同的疾病可以单独使用本发明为目标疾病单独建模，来为不同的疾病预测高危人群。此外，此发明也适用于故障预测等类似场景。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种疾病高危人群预测装置，其特征在于，包括：

2.根据权利要求1所述的疾病高危人群预测装置，其特征在于，所述装置还包括：

其中，所述清洗用于去除多余重复数据；

所述预处理包括：缺失值填充和归一化处理。

3.根据权利要求1所述的疾病高危人群预测装置，其特征在于，所述特征提取模块，用于对目标疾病训练集中的样本进行特征提取，得到训练样本在非线性空间的特征表示，将提取的特征作为分类模块和特征损失模块的输入。

4.根据权利要求1所述的疾病高危人群预测装置，其特征在于，所述分类模块，具体用于根据接收到的特征，对样本类别进行预测，得到预测值y^pred，将预测值y^pred与真实类别y^label进行比较，得到分类损失

5.根据权利要求4所述的疾病高危人群预测装置，其特征在于，所述特征损失模块，用于打乱训练样本顺序后，将训练样本两两组合，获得样本对，根据样本对的特征，计算特征层面的特征距离损失；

6.根据权利要求5所述的疾病高危人群预测装置，其特征在于，特征层面的特征距离损失表示为：

L_feat(θ；S_tr)＝Min(d(positive pair))+Max(d(negative pair))

7.根据权利要求6所述的疾病高危人群预测装置，其特征在于，结合后的损失表示为：

其中，γ为权重系数。

8.根据权利要求1所述的疾病高危人群预测装置，其特征在于，所述训练模块，用于将分类损失和特征距离损失进行加权结合，根据结合后的损失和基于分类硬度评价函数的强调训练策略，输入训练集对所述疾病高危预测模型进行训练，以便利用训练好的疾病高危预测模型，预测待测人员所属的类别。

9.根据权利要求8所述的疾病高危人群预测装置，其特征在于，所述训练模块的训练步骤包括：

10.根据权利要求9所述的疾病高危人群预测装置，其特征在于，所述分类硬度评价函数，用于衡量样本的误分类程度。