CN113792798A

CN113792798A - 基于多源数据的模型训练方法、装置及计算机设备

Info

Publication number: CN113792798A
Application number: CN202111086467.9A
Authority: CN
Inventors: 徐啸
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2021-12-14

Abstract

本发明公开了一种基于多源数据的模型训练方法、装置及计算机设备，主要在于能够能够消除不同数据源上已有的标签体系存在的差异，提高训练模型的预测精度。其中方法包括：从多个数据源中确定标注目标标签信息的第一数据源，以及未标注所述目标标签信息的第二数据源；基于所述第一样本患者对应的心电数据，构建所述目标标签信息对应的预设目标标签预测模型；利用所述预设目标标签预测模型对所述第二数据源中的第二样本患者进行标签预测，得到所述第二样本患者的第一预测结果；基于所述第一预测结果对所述第二数据源进行目标标签信息的标注，并根据标注后的第二数据源和所述第一数据源，训练预设标签预测模型。本发明涉及人工智能和数字医疗领域。

Description

基于多源数据的模型训练方法、装置及计算机设备

技术领域

本发明涉及人工智能领域，尤其是涉及一种基于多源数据的模型训练方法、装置及计算机设备。

背景技术

心电图是临床最常用的检查之一，记录心脏的电活动，是各种心脏疾病诊断的重要依据，随着人工智能领域的发展，可以将海量的心电数据作为样本数据，以支持模型的训练。

目前，在模型训练的过程中，通常会收集来自不同数据源的心电数据，如不同国家、不同地区或者不同医院的心电数据。然而，由于不同的数据源来自不同区域，因此数据源上已有的标签体系很可能存在差异，如数据源A具有8种标签，数据源B具有5种标签，这会导致在模型训练的过程中，不同数据源的心电数据无法进行充分的融合，进而导致某些标签类型无法得到正确、充分的训练，从而会影响模型的预测精度。

发明内容

本发明提供了一种基于多源数据的模型训练方法、装置及计算机设备，主要在于能够消除不同数据源上已有的标签体系存在的差异，从而能够使不同的数据源进行充分融合，提高训练模型的预测精度。

根据本发明的第一个方面，提供一种基于多源数据的模型训练方法，包括：

获取用于模型训练的多个数据源及其分别对应的标签信息；

根据所述标签信息，确定所述多个数据源没有统一标注的目标标签信息，并从所述多个数据源中确定标注所述目标标签信息的第一数据源，以及未标注所述目标标签信息的第二数据源；

基于所述第一数据源中第一样本患者对应的心电数据，构建所述目标标签信息对应的预设目标标签预测模型；

利用所述预设目标标签预测模型对所述第二数据源中的第二样本患者进行标签预测，得到所述第二样本患者针对所述目标标签信息的第一预测结果；

基于所述第一预测结果对所述第二数据源进行目标标签信息的标注，并根据标注后的第二数据源和所述第一数据源，训练预设标签预测模型。

根据本发明的第二个方面，提供一种基于多源数据的模型训练装置，包括：

获取单元，用于获取用于模型训练的多个数据源及其分别对应的标签信息；

确定单元，用于根据所述标签信息，确定所述多个数据源没有统一标注的目标标签信息，并从所述多个数据源中确定标注所述目标标签信息的第一数据源，以及未标注所述目标标签信息的第二数据源；

构建单元，用于基于所述第一数据源中第一样本患者对应的心电数据，构建所述目标标签信息对应的预设目标标签预测模型；

预测单元，用于利用所述预设目标标签预测模型对所述第二数据源中的第二样本患者进行标签预测，得到所述第二样本患者针对所述目标标签信息的第一预测结果；

标注单元，用于基于所述第一预测结果对所述第二数据源进行目标标签信息的标注，并根据标注后的第二数据源和所述第一数据源，训练预设标签预测模型。

根据本发明的第三个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：

获取用于模型训练的多个数据源及其分别对应的标签信息；

根据本发明的第四个方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

获取用于模型训练的多个数据源及其分别对应的标签信息；

本发明提供的一种基于多源数据的模型训练方法、装置及计算机设备，与目前直接利用多源数据的方式相比，本发明能够获取用于模型训练的多个数据源及其分别对应的标签信息；根据所述标签信息，确定所述多个数据源没有统一标注的目标标签信息，并从所述多个数据源中确定标注所述目标标签信息的第一数据源，以及未标注所述目标标签信息的第二数据源；与此同时，基于所述第一数据源中第一样本患者对应的心电数据，构建所述目标标签信息对应的预设目标标签预测模型；并利用所述预设目标标签预测模型对所述第二数据源中的第二样本患者进行标签预测，得到所述第二样本患者针对所述目标标签信息的第一预测结果；最终基于所述第一预测结果对所述第二数据源进行目标标签信息的标注，并根据标注后的第二数据源和所述第一数据源，训练预设标签预测模型，由此通过确定多个数据源没有进行统一标注的目标标签信息，并利用具有该目标标签信息的第一数据源，构建预设目标标签预测模型，能够对目前不具有该目标标签信息的第二数据源进行目标标签预测，并利用预测结果对第二数据源进行目标标签信息的标注，从而能够消除不同数据源已有的标签体系存在的差异，进而能够使不同的数据源进行充分融合，提高训练模型的预测精度。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了本发明实施例提供的一种基于多源数据的模型训练方法流程图；

图2示出了本发明实施例提供的另一种基于多源数据的模型训练方法流程图；

图3示出了本发明实施例提供的一种基于多源数据的模型训练装置的结构示意图；

图4示出了本发明实施例提供的另一种基于多源数据的模型训练装置的结构示意图；

图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

目前，由于不同的数据源来自不同区域，因此数据源上已有的标签体系很可能存在差异，这会导致在模型训练的过程中，不同数据源的心电数据无法进行充分的融合，进而导致某些标签类型无法得到正确、充分的训练，从而会影响模型的预测精度。

为了解决上述问题，本发明实施例提供了一种基于多源数据的模型训练方法，如图1所示，所述方法包括：

101、获取用于模型训练的多个数据源及其分别对应的标签信息。

其中，多个数据源为来自于不同国家、地区或者医院的数据源，标签信息为每个数据源的标签系统中当前已有的标签，如数据源A包括标签1、标签2和标签3，数据源B包括标签1和标签2，数据源C包括标签4和标签5，不同数据源的标签信息可以存在交集，也可以没有交集，本发明实施例不做具体限定。为了克服现有技术中由于多源数据的标签体系存在差异进而导致多源数据无法进行充分融合，模型预测精度较低的缺陷，本发明实施例能够利用具有目标标签信息的第一数据源，构建预设目标标签预测模型，并利用该模型对目前不具有该目标标签信息的第二数据源进行目标标签预测，根据预测结果对第二数据源进行目标标签信息的标注，从而能够消除不同数据源已有的标签体系存在的差异，进而能够使不同的数据源进行充分融合，提高训练模型的预测精度。本发明实施例的执行主体为能够利用多源数据进行模型训练的装置或者设备，具体可以设置在服务器一侧。

对于本发明实施例，为了构建预设标签预测模型，需要预先获取多个数据源，不同源数据可以来自于不同的国家、地区或者医院，之后确定每个数据源的标签体系中所涉及的标签信息，如数据A涉及8种标签信息，数据源B涉及5种标签信息，数据源C涉及6种每种标签信息，不同数据源之间的标签信息可以有交集，也可以没有交集。需要说明的是，本发明实施例中的数据源的数量可以为两个或者两个以上，每种数据源至少具有一种标签类型。此外，数据源中的数据具体可以为样本患者的心电数据，患者在进行心电诊断的过程中，医护人员会在患者的身体上布置多个导联，例如，患者在进行心电图检测的过程中，患者小腿和手臂上通常会设置有12个导联，可以采集每个导联产生的心电数据，并将患者在每个导联下的心电数据作为样本数据，每个数据源中都包括大量样本患者的样本数据，且在数据源中的每个样本患者都标注有相应的标签信息(疾病标签)，只是不同数据源对应的标签体系可能存在差异。

102、根据所述标签信息，确定所述多个数据源没有统一标注的目标标签信息，并从所述多个数据源中确定标注所述目标标签信息的第一数据源，以及未标注所述目标标签信息的第二数据源。

对于本发明实施例，为了消除不同数据源的标签体系存在的差异，可以根据多个数据源分别对应的标签信息，确定多个数据源之间存在差异的目标标签信息，即多个数据源没有进行统一标注的目标标签信息。例如，数据源A对应的标签体系中包括标签1、标签2和标签3，数据源B对应的标签体系包括标签2和标签3，数据源C对应的标签体系包括标签1和标签3，由于标签1在数据源B对应的标签体系中不存在，标签2在数据源C对应的标签体系中不存在，因此可以确定标签1和标签2是没有进行统一标注的目标标签信息。

进一步地，在确定目标标签信息之后，需要找到标签系统中具有该目标标签信息的第一数据源，以及标签体系中没有该目标标签信息的第二数据源。紧接上面的例子，针对标签1，数据源A和数据源C对应的标签体系中均包括标签1，因此数据源A和数据源C为第一数据源，数据源B对应的标签体系中不包括标签1，因此数据源B为第二数据源，针对标签2，数据源A和数据源B对应的标签体系中均包括标签2，因此数据A和数据源B为第一数据源，数据源C对应的标签体系中不包括标签2，因此数据源C为第二数据源。

103、基于所述第一数据源中第一样本患者对应的心电数据，构建所述目标标签信息对应的预设目标标签预测模型。

对于本发明实施例，由于第一数据源对应的标签体系中包括目标标签信息，而第二数据源对应的标签体系中不包括目标标签信息，为了消除不同数据源的标签体系之间的差异，可以利用第一数据源构建目标标签信息对应的目标标签预测模型，并利用构建的目标标签预测模型对第二数据源进行目标标签信息的预测，基于预测结果对第二数据源进行目标标签信息的标注，从而能够消除第一数据源和第二数据源的标签体系之间存在的差异。

具体地，在构建预设目标标签预测模型的过程中，由于第一数据源对应的标签体系中存在目标标签信息，因此可以根据第一数据源中的第一样本患者实际上是否具有目标标签信息来对第一样本患者进行标注，如果第一样本患者实际具有该目标标签信息，则将该第一样本患者标注为1；如果第一样本患者实际不具有该目标标签信息，则将该第一样本患者标注为0，将标注后的第一样本患者在多个导联下的心电数据作为训练数据集，之后构建目标标签信息对应的第一初始多层感知器，并利用该训练数据集对第一初始多层感知器进行训练，构建预设目标标签预测模型，该预设目标标签预测模型的输入数据为患者在多个导联下的心电数据，输出数据为该患者是否具有目标标签信息，该目标标签信息具体可以为疾病标签，如患者是否具有某种心脏疾病。

例如，第一数据源对应的标签体系中包括疾病标签m、疾病标签n和疾病标签k，目标标签信息为疾病标签k，第一数据源中的第一样本患者包括样本患者1、样本患者2和样本患者3，其中，样本患者1对应的疾病标签为m，样本患者2对应的疾病标签n，样本患者3对应的疾病标签为k，当前需要利用第一数据源训练疾病标签k对应的预设目标标签预测模型，根据样本患者1、样本患者2和样本患者3是否具有疾病标签k，分别对其进行标注，由于样本患者1和样本患者2不具有疾病标签k，因此将样本患者1和样本患者2分别标注为0，由于样本患者3具有疾病标签k，因此将样本患者3标注为1，之后将标注后的样本患者1、样本患者2和样本患者3分别在多个导联下心电数据作为训练数据集，基于该训练数据集，对疾病标签k对应的第一初始多层感知器进行训练，构建疾病标签k对应的预设目标标签预测模型，该预设目标标签预测模型用于预测第二数据源中的第二样本患者是否具有疾病标签k。

104、利用所述预设目标标签预测模型对所述第二数据源中的第二样本患者进行标签预测，得到所述第二样本患者针对所述目标标签信息的第一预测结果。

对于本发明实施例，虽然第二数据源对应的标签体系中不存在目标标签信息，但不意味着第二数据源中的第二样本患者实际不具有该目标标签信息，为了消除标签体系之间的差异，可以利用构建的预设目标标签预测模型对第二数据源中的第二样本患者进行预测，具体地，将第二数据源中第二样本患者在多个导联下的心电数据输入至预设目标标签预测模型进行预测，得到第二样本患者具有该目标标签信息的第一概率值，以及不具有该目标标签信息的第二概率值，该第一概率值越大，或者第二概率值越小，说明第二样本患者具有该目标标签信息的可能性越大，相反第二概率值越大，或者第一概率值越小，说明第二样本患者不具有该目标标签信息的可能性越大，因此从第二数据源的第二样本患者中筛选出第一概率值大于第一预设概率值，或者第二概率值小于第二预设概率值的目标样本患者，并将其标注为1，同时还要筛选出第二概率值待遇第一预设概率值，或者第一概率值小于第二预设概率值的目标样本患者，并将其标注为0，进一步地，将第二样本患者中标注后的目标样本对应的心电数据加入至第一数据源中，得到更新后的第一数据源，利用更新后的第一数据源重新构建目标标签信息对应的预设目标标签预测模型，之后再利用重新构建的预设目标标签预测模型对剩余的第二样本患者进行预测，直至第二数据源中的第二样本患者全部标注完成，或者没有满足上述概率值要求的第二样本，停止迭代过程。

105、基于所述第一预测结果对所述第二数据源进行目标标签信息的标注，并根据标注后的第二数据源和所述第一数据源，训练预设标签预测模型。

对于本发明实施例，在利用预设目标标签预测模型完成对第二数据源中所有第二样本患者针对目标标签信息的预测后，根据该预测结果能够确定第二样本患者是否具有该目标标签信息，进而能够对第二样本患者进行针对目标标签信息的标注，例如，如果某个第二样本患者的预测结果是具有疾病标签k，则对该第二样本患者打上疾病标签k的标注；如果某个第二样本患者的预测结果是不具有疾病标签k，则不对该第二样本患者进行标注，由此能够消除第一数据源和第二数据源的标签体系之间的差异，即能够保证第一数据源和第二数据源具有相同的标签信息，进而能够使不同数据源进行更好的融合，基于融合后的多源数据，能够针对任意一个标签信息进行充分训练，因此利用融合后的多源数据，训练得到的预设标签预测模型具有较高的预测精度。

例如，标注后的第二数据源和第一数据源对应的标签体系中均包括疾病标签m、疾病标签n和疾病标签k，将标注后的第二数据源和第一数据源进行融合，将融合后的多源数据作为训练集，同时构建该训练集对应的第二初始多层感知器，利用该训练集对该第二初始多层感知器进行训练，构建预设标签预测模型，该预设标签预测模型的输入数据为待预测患者在多个导联下的心电数据，输出为待预测患者属于疾病标签m、疾病标签n和疾病标签k的概率值，将最大概率值对应的疾病标签，确定为待预测患者对应的预测标签。由此能够保证在训练预设标签预测模型的过程中，疾病标签m、疾病标签n和疾病标签k都有足够多的样本数据，因此都能得到充分的训练。

本发明实施例提供的一种基于多源数据的模型训练方法，与目前直接利用多源数据的方式相比，本发明能够获取用于模型训练的多个数据源及其分别对应的标签信息；根据所述标签信息，确定所述多个数据源没有统一标注的目标标签信息，并从所述多个数据源中确定标注所述目标标签信息的第一数据源，以及未标注所述目标标签信息的第二数据源；与此同时，基于所述第一数据源中第一样本患者对应的心电数据，构建所述目标标签信息对应的预设目标标签预测模型；并利用所述预设目标标签预测模型对所述第二数据源中的第二样本患者进行标签预测，得到所述第二样本患者针对所述目标标签信息的第一预测结果；最终基于所述第一预测结果对所述第二数据源进行目标标签信息的标注，并根据标注后的第二数据源和所述第一数据源，训练预设标签预测模型，由此通过确定多个数据源没有进行统一标注的目标标签信息，并利用具有该目标标签信息的第一数据源，构建预设目标标签预测模型，能够对目前不具有该目标标签信息的第二数据源进行目标标签预测，并利用预测结果对第二数据源进行目标标签信息的标注，从而能够消除不同数据源已有的标签体系存在的差异，进而能够使不同的数据源进行充分融合，提高训练模型的预测精度。

进一步的，为了更好的说明上述消除不同数据源标签体系差异的过程，作为对上述实施例的细化和扩展，本发明实施例提供了另一种多源数据的标注方法，如图2所示，所述方法包括：

201、获取用于模型训练的多个数据源及其分别对应的标签信息。

对于本发明实施例，为了构建预测标签预测模型，需要收集来自不同国家、地区或者医院的数据源，并确定每个数据源标签系统中的标签信息，以及利用多个数据源及其分别对应的标签信息，训练预设标签预测模型。

202、根据所述标签信息，确定所述多个数据源没有统一标注的目标标签信息，并从所述多个数据源中确定标注所述目标标签信息的第一数据源，以及未标注所述目标标签信息的第二数据源。

对于本发明实施例，为了消除不同数据源的标签体系存在的差异，需要预先确定没有被多个数据源统一标注的目标标签信息，以及标签体系中存在该目标标签信息的第一数据源和标签体系中不存在该目标标签信息的第二数据源，上述确定第一数据源和第二数据源的具体过程与步骤102完全相同，在此不再赘述。

203、基于所述第一数据源中第一样本患者对应的心电数据，构建所述目标标签信息对应的预设目标标签预测模型。

对于本发明实施例，为了构建目标标签信息对应的预设目标标签预测模型，步骤203具体包括：构建所述目标标签信息对应的初始目标标签预测模型和初始特征提取模型；利用所述初始特征提取模型对所述第一数据源中第一样本患者对应的心电数据进行特征提取，得到所述第一样本患者对应的心电特征向量；将所述第一样本患者对应的心电特征向量输入至所述初始目标标签预测模型中，预测所述第一样本患者针对所述目标标签信息的第二预测结果；根据所述第二预测结果，以及所述第一样本患者实际是否具有所述目标标签信息，共同对所述初始特征提取模型和所述初始目标标签预测模型进行训练，构建所述目标标签信息对应的预设目标标签预测模型和预设特征提取模型。进一步地，所述初始特征提取模型包括多个第一初始卷积神经网络，所述利用所述初始特征提取模型对所述第一数据源中第一样本患者对应的心电数据进行特征提取，得到所述第一样本患者对应的心电特征向量，包括：将所述第一样本患者在多个导联下的心电数据分别输入至相应的第一初始卷积神经网络中进行特征提取，得到所述第一样本患者分别在所述多个导联下的特征向量；将所述第一样本患者分别在所述多个导联下的特征向量进行横向拼接，得到所述第一样本患者对应的心电特征向量。其中，初始目标标签预测模型为疾病标签k对应的第一初始多层感知器。

例如，目标标签信息为疾病标签k，构建疾病标签k对应的第一初始多层感知器，以及多个第一初始卷积神经网络，构建的第一初始卷神经网络的数量与导联的数量相同，不同导联对应不同的第一初始卷积神经网络，之后将第一数据源中第一样本患者在多个导联下的心电数据输入至相应的第一初速卷积神经网络进行特征提取，得到第一样本患者在多个导联下的特征向量，之后将多个导联的特征向量进行横向拼接，得到第一样本患者对应心电特征向量，进一步地，将第一样本患者对应的心电特征向量输入至初始目标标签预测模型中进行疾病标签预测，即预测第一样本患者是否具有该疾病标签k，此外由于第一数据源对应的标签系统中包含疾病标签k，因此第一数据源中的第一样本患者实际上是否具有该疾病标签k是已知的，根据针对疾病标签k的预测结果和已知结果，构建疾病标签k对应的损失函数，并基于该疾病标签k对应的损失函数共同对第一初始多层感知器和多个第一初始卷积神经网络进行训练，构建疾病标签k对应的预设目标标签预测模型和多个第一预设卷积神经网络，以便利用该预设目标标签预测模型和多个第一预设卷积神经网络预测第二数据源中的第二样本患者是否具有疾病标签k。

204、利用所述预设目标标签预测模型对所述第二数据源中的第二样本患者进行标签预测，得到所述第二样本患者针对所述目标标签信息的第一预测结果。

对于本发明实施例，为了利用预设目标标签预测模型对第二数据源中的第二样本患者进行预测，步骤204具体包括：将所述第二数据源中第二样本患者在多个导联下的心电数据输入至相应的预设卷积神经网络中进行特征提取，得到所述第二样本患者分别在所述多个导联下的特征向量；将所述第二样本患者分别在所述多个导联下的特征向量进行横向拼接，得到所述第二样本患者对应的心电特征向量；将所述第二样本患者对应的心电特征向量输入至所述预设目标标签预测模型进行标签预测，得到所述第二样本患者具有所述目标标签信息的第一概率值，以及不具有所述目标标签信息的第二概率值。

紧接上面的例子，将第二数据源中第二样本患者在多个导联下的心电数据输入至相应的第一预设卷积神经网络中进行特征提取，得到第二样本患者在多个导联下的特征向量，并将多个导联下的特征向量进行横向拼接，得到第二样本患者对应的心电特征向量，之后将第二样本患者对应的心电特征向量输入至疾病标签k对应的预设目标标签预测模型中进行标签预测，得到第二样本患者具有疾病标签k的第一概率值，以及不具有疾病标签k的第二概率值，基于第一概率值和第二概率值，能够确定第二样本患者是否具有疾病标签k。具体地，预设目标标签预测模型可以为第一预设多层感知器，该第一预设多层感知器包括输入层、隐藏层和输出层，在预测第二样本患者是否具有疾病标签k的过程中，将第二样本患者对应的心电特征向量通过第一预设多层感知器的输入层输入至隐藏层，通过该隐藏层输出的结果为：

f(W₁x+b₁)

其中，x为第二样本患者对应的心电特征向量，W1为隐藏层的权重，也是多层感知器的连接系数，b1为隐藏层的偏置系数，f函数通常可以采用sigmoid函数或者tanh函数，如下所示：

sigmoid(x)＝1/(1+e^-x)

tanh(x)＝(e^x-e^-x)/(e_x+e^-x)

进一步地，再将该结果输入至输出层，通过该输出层进行分类，得到的分类结果为：

softmax(W₂f(W₁x+b₁)+b₂)

其中，W2为输出层的权重系数，b2为输出层的偏置系数，通过第一预设多层感知器的输出层能够输出第二样本患者具有该疾病标签k的第一概率值，以及不具有该疾病标签k的第二概率值。

205、基于所述第一预测结果对所述第二数据源进行目标标签信息的标注。

对于本发明实施例，步骤205具体包括：若所述第一概率值大于第一预设概率值，或者所述第二概率值小于第二预设概率值，则标注所述第二样本患者具有所述目标标签信息；若所述第二概率值大于第一预设概率值，或者所述第一概率值小于第二预设概率值，则标注所述第二样本患者不具有所述目标标签信息；将所述第二数据源中标注后的第二样本患者加入至所述第一数据源中，基于更新后的第一数据源，重新构建所述预设目标标签预测模型，并利用重新构建的预设目标标签预测模型对剩余的第二样本患者进行目标标签信息的标注，直至所述剩余的第二样本患者全部标注完成或者没有满足预设概率条件的第二样本患者。其中，第一预设概率值和第二预设概率值可以根据实际的业务需求进行设定。

具体地，如果第一概率值大于第一预设概率值，或者第二概率值小于第二预设概率值，则说明第二样本患者具有该目标标签信息；如果第二概率值大于第一预设概率值，或者第一概率值小于第二预设概率值，则说明第二样本患者不具有该目标标签信息，将满足上述预设概率条件的第二样本患者筛选出来，并将其加入至第一数据源中，基于更新后的第一数据源重新对预设目标标签预测模型进行训练，之后基于重新构建的预设目标标签预测模型对剩余的第二样本患者继续进行预测，重复上述过程，直至第二数据源中的第二样本患者全部标注完成，或者第二数据源中没有满足上述概率条件的第二样本患者，停止迭代。进一步地，在完成第二数据源中所有的第二患者样本的预测之后，根据预测结果对第二患者样本进行标注，如将相应的第二患者样本打上疾病标签k，由此能够在第二数据源对应的标签体系中增加疾病标签k，进而能够消除不同数据源的标签体系之间的差异。需要说明的是，如果目标标签信息除了k疾病标签，还存在其他疾病疾病标签，如m疾病标签，则还需要确定标签体系中存在m疾病标签的第第一数据源，以及标签体系中不存在m标签的第二数据源，继续利用第一数据源构建m疾病标签对应的预设目标标签预测模型，进而利用构建的预设目标标签预测模型对第二数据源进行m疾病标签的标注。

206、对标注后的第二数据源和所述第一数据源进行融合，得到融合后的多源数据，将所述融合后的多源数据作为训练集，并构建所述训练集对应的初始标签预测模型、初始数据源预测模型和多个第二初始卷积神经网络。

对于本发明实施例，由于在模型训练的过程中，不同数据源可能会带来该源头本身的一些特征，如心电采集设备带来的差异、医院所在区域人群特征的差异，这会导致最终构建的预设标签预测模型预测的标签结果，可能不是依据疾病相同特征，而是基于数据源本身的差异，从而影响模型的泛化性，为了克服上述缺陷，本发明实施例在训练预设标签预测模型的过程中，通过对损失函数进行调整，能够消除数据源本申请特征的差异。

例如，第一数据源对应的标签体系包括疾病标签m、疾病标签n和疾病标签k，第二数据源对应的标签体系包括疾病标签m和疾病标签n，在对第二数据源完成针对k疾病标签的标注后，将标注后的第二数据源与第一数据源进行融合，得到融合后的多源数据，并将融合后的多源数据作为训练集，该训练及对应的标签体系包括疾病标签m、疾病标签n和疾病标签k，之后分别构建该数据集对应的初始标签预测模型、初始数据源模型和多个第二初始卷积神经网络，其中，初始标签预测模型为第二初始多层感知器，初始数据源模型为第三初始多层感知器，不同导联对应不同的第二初始卷积神经网络。

207、将所述训练集中第三样本患者在多个导联下的心电数据输入至相应的第二初始卷积神经网络中进行特征提取，得到所述第三样本患者在所述多个导联下的特征向量，并将所述所述第三样本患者在所述多个导联下的特征向量进行横向拼接，得到所述第三样本患者对应的心电特征向量。

208、将所述第三样本患者对应的心电特征向量分别输入至所述初始标签预测模型和初始数据源预测模型进行预测，得到所述第三样本患者对应的预测标签信息和预测数据源。

对于本发明实施例，在获取第三样本患者对应的心电特征向量之后，将该心电特征向量输入至第二初始多层感知器中进行标签预测，得到第三样本患者对应的预测标签信息，与此同时，将该心电特征向量输入至第三初始多层感知器中进行数据源预测，得到第三样本患者对应的预测数据源，利用第二初始多层感知器获取预测标签信息的过程，以及利用第三初始多层感知器获取预测数据源的过程与步骤204中的预测过程完全相同，在此不再赘述。

209、基于所述预测标签信息和所述预测数据源，共同对所述初始标签预测模型、所述初始数据源预测模型和多个所述第二初始卷积神经网络进行训练，构建所述预设标签预测模型。

对于本发明实施例，为了构建预设标签预测模型，步骤209具体包括：基于所述预测标签信息和所述第三样本患者对应的实际标签信息，构建所述训练集对应的第一损失函数；基于所述预测数据源和所述第三样本患者所属的实际数据源，构建所述训练集对应的第二损失函数；分别确定所述第一损失函数和所述第二损失函数对应的权重，基于所述权重，将所述第一损失函数和所述第二损失函数相减，得到所述训练集对应的总损失函数；基于所述总损失函数，共同对所述初始标签预测模型、所述初始数据源预测模型和多个所述第二初始卷积神经网络进行训练，构建所述预设标签预测模型。

具体地，训练集中第三样本患者实际对应的标签信息是已知的，在利用第二初始多层感知器得到第三样本患者对应的预测标签信息之后，基于该预测标签信息和第三样本患者对应的实际标签信息，构建第一损失函数L₁，与此同时，训练集中第三样本患者实际所属的数据源也是已知的，在利用第三初始多层感知器得到第三样本患者对应的预测数据源之后，基于该预测数据源和第三样本患者对应的实际数据源，构建第二损失函数L₂，进一步地，分别确定第一损失函数L₁和第二损失函数L₂分别对应的权重，基于该权重，将第一损失函数和第二损失函数相加，得到总损失函数，具体公式如下：

L₃＝aL₁-bL₂

其中，a和b分别为第一损失函数L₁和第二损失函数L₂对应的权重，L₃为总损失函数，当总损失函数L₃最小时，第二损失函数最大，由此能够弱化不同数据源本身特征所带来的差异。基于构建的总损失函数，共同对第二初始多层感知器、第三初始多层感知器和多个第二初始卷积神经网络进行训练，构建所述预设标签预测模型。

本发明实施例提供的另一种基于多源数据的模型训练方法，与目前直接利用多源数据的方式相比，本发明能够获取用于模型训练的多个数据源及其分别对应的标签信息；根据所述标签信息，确定所述多个数据源没有统一标注的目标标签信息，并从所述多个数据源中确定标注所述目标标签信息的第一数据源，以及未标注所述目标标签信息的第二数据源；与此同时，基于所述第一数据源中第一样本患者对应的心电数据，构建所述目标标签信息对应的预设目标标签预测模型；并利用所述预设目标标签预测模型对所述第二数据源中的第二样本患者进行标签预测，得到所述第二样本患者针对所述目标标签信息的第一预测结果；最终基于所述第一预测结果对所述第二数据源进行目标标签信息的标注，并根据标注后的第二数据源和所述第一数据源，训练预设标签预测模型，由此通过确定多个数据源没有进行统一标注的目标标签信息，并利用具有该目标标签信息的第一数据源，构建预设目标标签预测模型，能够对目前不具有该目标标签信息的第二数据源进行目标标签预测，并利用预测结果对第二数据源进行目标标签信息的标注，从而能够消除不同数据源已有的标签体系存在的差异，进而能够使不同的数据源进行充分融合，提高训练模型的预测精度。

进一步地，作为图1的具体实现，本发明实施例提供了一种基于多源数据的模型训练装置，如图3所示，所述装置包括：获取单元31、确定单元32、构建单元33、预测单元34和标注单元35。

所述获取单元31，可以用于获取用于模型训练的多个数据源及其分别对应的标签信息。

所述确定单元32，可以用于根据所述标签信息，确定所述多个数据源没有统一标注的目标标签信息，并从所述多个数据源中确定标注所述目标标签信息的第一数据源，以及未标注所述目标标签信息的第二数据源。

所述构建单元33，可以用于基于所述第一数据源中第一样本患者对应的心电数据，构建所述目标标签信息对应的预设目标标签预测模型。

所述预测单元34，可以用于利用所述预设目标标签预测模型对所述第二数据源中的第二样本患者进行标签预测，得到所述第二样本患者针对所述目标标签信息的第一预测结果。

所述标注单元35，可以用于基于所述第一预测结果对所述第二数据源进行目标标签信息的标注，并根据标注后的第二数据源和所述第一数据源，训练预设标签预测模型。

在具体应用场景中，构建所述目标标签信息对应的预设目标标签预测模型，所述构建单元33，如图4所示，包括：第一构建模块331、第一提取模块332和第一预测模块333。

所述第一构建模块331，可以用于构建所述目标标签信息对应的初始目标标签预测模型和初始特征提取模型。

所述第一提取模块332，可以用于利用所述初始特征提取模型对所述第一数据源中第一样本患者对应的心电数据进行特征提取，得到所述第一样本患者对应的心电特征向量。

所述第一预测模块333，可以用于将所述第一样本患者对应的心电特征向量输入至所述初始目标标签预测模型中，预测所述第一样本患者针对所述目标标签信息的第二预测结果。

所述第一构建模块331，还可以用于根据所述第二预测结果，以及所述第一样本患者实际是否具有所述目标标签信息，共同对所述初始特征提取模型和所述初始目标标签预测模型进行训练，构建所述目标标签信息对应的预设目标标签预测模型和预设特征提取模型。

进一步地，所述初始特征提取模型包括多个第一初始卷积神经网络，所述第一提取模块332，包括：提取子模块和拼接子模块。

所述提取子模块，可以用于将所述第一样本患者在多个导联下的心电数据分别输入至相应的第一初始卷积神经网络中进行特征提取，得到所述第一样本患者分别在所述多个导联下的特征向量。

所述拼接子模块，可以用于将所述第一样本患者分别在所述多个导联下的特征向量进行横向拼接，得到所述第一样本患者对应的心电特征向量。

在具体应用场景中，为了得到所述第二样本患者针对所述目标标签信息的第一预测结果，所述预测单元34，包括：第二提取模块341、拼接模块342和第二预测模块343。

所述第二提取模块341，可以用于将所述第二数据源中第二样本患者在多个导联下的心电数据输入至相应的预设卷积神经网络中进行特征提取，得到所述第二样本患者分别在所述多个导联下的特征向量。

所述拼接模块342，可以用于将所述第二样本患者分别在所述多个导联下的特征向量进行横向拼接，得到所述第二样本患者对应的心电特征向量。

所述第二预测模块343，可以用于将所述第二样本患者对应的心电特征向量输入至所述预设目标标签预测模型进行标签预测，得到所述第二样本患者具有所述目标标签信息的第一概率值，以及不具有所述目标标签信息的第二概率值。

进一步地，为了对第二数据源进行标注，所述标注单元35，包括：标注模块351和第二构建模块352。

所述标注模块351，可以用于若所述第一概率值大于第一预设概率值，或者所述第二概率值小于第二预设概率值，则标注所述第二样本患者具有所述目标标签信息。

所述标注模块351，还可以用于若所述第二概率值大于第一预设概率值，或者所述第一概率值小于第二预设概率值，则标注所述第二样本患者不具有所述目标标签信息。

所述第二构建模块352，可以用于将所述第二数据源中标注后的第二样本患者加入至所述第一数据源中，基于更新后的第一数据源，重新构建所述预设目标标签预测模型，并利用重新构建的预设目标标签预测模型对剩余的第二样本患者进行目标标签信息的标注，直至所述剩余的第二样本患者全部标注完成或者没有满足预设概率条件的第二样本患者。

进一步地，为了训练预设标签预测模型，所述标注单元35，还包括：融合模块351、第三构建模块352、第三提取模块353和第三预测模块354。

所述融合模块351，可以用于对所述标注后的第二数据源和所述第一数据源进行融合，得到融合后的多源数据。

所述第三构建模块352，可以用于将所述融合后的多源数据作为训练集，并构建所述训练集对应的初始标签预测模型、初始数据源预测模型和多个第二初始卷积神经网络。

所述第三提取模块353，可以用于将所述训练集中第三样本患者在多个导联下的心电数据输入至相应的第二初始卷积神经网络中进行特征提取，得到所述第三样本患者在所述多个导联下的特征向量，并将所述所述第三样本患者在所述多个导联下的特征向量进行横向拼接，得到所述第三样本患者对应的心电特征向量。

所述第三预测模块354，可以用于将所述第三样本患者对应的心电特征向量分别输入至所述初始标签预测模型和初始数据源预测模型进行预测，得到所述第三样本患者对应的预测标签信息和预测数据源。

所述所述第三构建模块352，还可以用于基于所述预测标签信息和所述预测数据源，共同对所述初始标签预测模型、所述初始数据源预测模型和多个所述第二初始卷积神经网络进行训练，构建所述预设标签预测模型。

进一步地，所述第三构建模块352，包括：构建子模块和相减子模块。

所述构建子模块，可以用于基于所述预测标签信息和所述第三样本患者对应的实际标签信息，构建所述训练集对应的第一损失函数。

所述构建子模块，还可以用于基于所述预测数据源和所述第三样本患者所属的实际数据源，构建所述训练集对应的第二损失函数。

所述相减子模块，可以用于分别确定所述第一损失函数和所述第二损失函数对应的权重，基于所述权重，将所述第一损失函数和所述第二损失函数相减，得到所述训练集对应的总损失函数。

所述构建子模块，还可以用于基于所述总损失函数，共同对所述初始标签预测模型、所述初始数据源预测模型和多个所述第二初始卷积神经网络进行训练，构建所述预设标签预测模型。

需要说明的是，本发明实施例提供的一种基于多源数据的模型训练装置所涉及各功能模块的其他相应描述，可以参考图1所示方法的对应描述，在此不再赘述。

基于上述如图1所示方法，相应的，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：获取用于模型训练的多个数据源及其分别对应的标签信息；根据所述标签信息，确定所述多个数据源没有统一标注的目标标签信息，并从所述多个数据源中确定标注所述目标标签信息的第一数据源，以及未标注所述目标标签信息的第二数据源；基于所述第一数据源中第一样本患者对应的心电数据，构建所述目标标签信息对应的预设目标标签预测模型；利用所述预设目标标签预测模型对所述第二数据源中的第二样本患者进行标签预测，得到所述第二样本患者针对所述目标标签信息的第一预测结果；基于所述第一预测结果对所述第二数据源进行目标标签信息的标注，并根据标注后的第二数据源和所述第一数据源，训练预设标签预测模型。

基于上述如图1所示方法和如图3所示装置的实施例，本发明实施例还提供了一种计算机设备的实体结构图，如图5所示，该计算机设备包括：处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序，其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤：获取用于模型训练的多个数据源及其分别对应的标签信息；根据所述标签信息，确定所述多个数据源没有统一标注的目标标签信息，并从所述多个数据源中确定标注所述目标标签信息的第一数据源，以及未标注所述目标标签信息的第二数据源；基于所述第一数据源中第一样本患者对应的心电数据，构建所述目标标签信息对应的预设目标标签预测模型；利用所述预设目标标签预测模型对所述第二数据源中的第二样本患者进行标签预测，得到所述第二样本患者针对所述目标标签信息的第一预测结果；基于所述第一预测结果对所述第二数据源进行目标标签信息的标注，并根据标注后的第二数据源和所述第一数据源，训练预设标签预测模型。

通过本发明的技术方案，能够获取用于模型训练的多个数据源及其分别对应的标签信息；根据所述标签信息，确定所述多个数据源没有统一标注的目标标签信息，并从所述多个数据源中确定标注所述目标标签信息的第一数据源，以及未标注所述目标标签信息的第二数据源；与此同时，基于所述第一数据源中第一样本患者对应的心电数据，构建所述目标标签信息对应的预设目标标签预测模型；并利用所述预设目标标签预测模型对所述第二数据源中的第二样本患者进行标签预测，得到所述第二样本患者针对所述目标标签信息的第一预测结果；最终基于所述第一预测结果对所述第二数据源进行目标标签信息的标注，并根据标注后的第二数据源和所述第一数据源，训练预设标签预测模型，由此通过确定多个数据源没有进行统一标注的目标标签信息，并利用具有该目标标签信息的第一数据源，构建预设目标标签预测模型，能够对目前不具有该目标标签信息的第二数据源进行目标标签预测，并利用预测结果对第二数据源进行目标标签信息的标注，从而能够消除不同数据源已有的标签体系存在的差异，进而能够使不同的数据源进行充分融合，提高训练模型的预测精度。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种基于多源数据的模型训练方法，其特征在于，包括：

获取用于模型训练的多个数据源及其分别对应的标签信息；

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一数据源中第一样本患者对应的心电数据，构建所述目标标签信息对应的预设目标标签预测模型，包括：

构建所述目标标签信息对应的初始目标标签预测模型和初始特征提取模型；

利用所述初始特征提取模型对所述第一数据源中第一样本患者对应的心电数据进行特征提取，得到所述第一样本患者对应的心电特征向量；

将所述第一样本患者对应的心电特征向量输入至所述初始目标标签预测模型中，预测所述第一样本患者针对所述目标标签信息的第二预测结果；

根据所述第二预测结果，以及所述第一样本患者实际是否具有所述目标标签信息，共同对所述初始特征提取模型和所述初始目标标签预测模型进行训练，构建所述目标标签信息对应的预设目标标签预测模型和预设特征提取模型。

3.根据权利要求2所述的方法，其特征在于，所述初始特征提取模型包括多个第一初始卷积神经网络，所述利用所述初始特征提取模型对所述第一数据源中第一样本患者对应的心电数据进行特征提取，得到所述第一样本患者对应的心电特征向量，包括：

将所述第一样本患者在多个导联下的心电数据分别输入至相应的第一初始卷积神经网络中进行特征提取，得到所述第一样本患者分别在所述多个导联下的特征向量；

将所述第一样本患者分别在所述多个导联下的特征向量进行横向拼接，得到所述第一样本患者对应的心电特征向量。

4.根据权利要求1所述的方法，其特征在于，所述利用所述预设目标标签预测模型对所述第二数据源中的第二样本患者进行标签预测，得到所述第二样本患者针对所述目标标签信息的第一预测结果，包括：

将所述第二数据源中第二样本患者在多个导联下的心电数据输入至相应的预设卷积神经网络中进行特征提取，得到所述第二样本患者分别在所述多个导联下的特征向量；

将所述第二样本患者分别在所述多个导联下的特征向量进行横向拼接，得到所述第二样本患者对应的心电特征向量；

将所述第二样本患者对应的心电特征向量输入至所述预设目标标签预测模型进行标签预测，得到所述第二样本患者具有所述目标标签信息的第一概率值，以及不具有所述目标标签信息的第二概率值。

5.根据权利要求4所述的方法，其特征在于，所述基于所述第一预测结果对所述第二数据源进行目标标签信息的标注，包括：

若所述第一概率值大于第一预设概率值，或者所述第二概率值小于第二预设概率值，则标注所述第二样本患者具有所述目标标签信息；

若所述第二概率值大于第一预设概率值，或者所述第一概率值小于第二预设概率值，则标注所述第二样本患者不具有所述目标标签信息；

将所述第二数据源中标注后的第二样本患者加入至所述第一数据源中，基于更新后的第一数据源，重新构建所述预设目标标签预测模型，并利用重新构建的预设目标标签预测模型对剩余的第二样本患者进行目标标签信息的标注，直至所述剩余的第二样本患者全部标注完成或者没有满足预设概率条件的第二样本患者。

6.根据权利要求1所述的方法，其特征在于，所述根据标注后的第二数据源和所述第一数据源，训练预设标签预测模型，包括：

对所述标注后的第二数据源和所述第一数据源进行融合，得到融合后的多源数据；

将所述融合后的多源数据作为训练集，并构建所述训练集对应的初始标签预测模型、初始数据源预测模型和多个第二初始卷积神经网络；

将所述训练集中第三样本患者在多个导联下的心电数据输入至相应的第二初始卷积神经网络中进行特征提取，得到所述第三样本患者在所述多个导联下的特征向量，并将所述所述第三样本患者在所述多个导联下的特征向量进行横向拼接，得到所述第三样本患者对应的心电特征向量；

将所述第三样本患者对应的心电特征向量分别输入至所述初始标签预测模型和初始数据源预测模型进行预测，得到所述第三样本患者对应的预测标签信息和预测数据源；

基于所述预测标签信息和所述预测数据源，共同对所述初始标签预测模型、所述初始数据源预测模型和多个所述第二初始卷积神经网络进行训练，构建所述预设标签预测模型。

7.根据权利要求6所述的方法，其特征在于，所述基于所述预测标签信息和所述预测数据源，共同对所述初始标签预测模型、所述初始数据源预测模型和多个所述第二初始卷积神经网络进行训练，构建所述预设标签预测模型，包括：

基于所述预测标签信息和所述第三样本患者对应的实际标签信息，构建所述训练集对应的第一损失函数；

基于所述预测数据源和所述第三样本患者所属的实际数据源，构建所述训练集对应的第二损失函数；

分别确定所述第一损失函数和所述第二损失函数对应的权重，基于所述权重，将所述第一损失函数和所述第二损失函数相减，得到所述训练集对应的总损失函数；

基于所述总损失函数，共同对所述初始标签预测模型、所述初始数据源预测模型和多个所述第二初始卷积神经网络进行训练，构建所述预设标签预测模型。

8.一种基于多源数据的模型训练装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。