CN113723519A - 基于对比学习的心电数据处理方法、装置及存储介质 - Google Patents

基于对比学习的心电数据处理方法、装置及存储介质 Download PDF

Info

Publication number
CN113723519A
CN113723519A CN202111015974.3A CN202111015974A CN113723519A CN 113723519 A CN113723519 A CN 113723519A CN 202111015974 A CN202111015974 A CN 202111015974A CN 113723519 A CN113723519 A CN 113723519A
Authority
CN
China
Prior art keywords
electrocardio
samples
unlabeled
sample
electrocardiogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111015974.3A
Other languages
English (en)
Other versions
CN113723519B (zh
Inventor
徐啸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202111015974.3A priority Critical patent/CN113723519B/zh
Publication of CN113723519A publication Critical patent/CN113723519A/zh
Application granted granted Critical
Publication of CN113723519B publication Critical patent/CN113723519B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明涉及人工智能及数字医疗领域,提供了一种基于对比学习的心电数据处理方法、装置及存储介质。该方法包括:获取无标签心电样本和有标签心电样本,并构建卷积神经网络模型;通过卷积神经网络模型,得到无标签心电样本的特征向量组合;对无标签心电样本进行片段截取,并根据片段截取结果生成正负样本,对卷积神经网络模型进行训练,得到心电特征提取器;以有标签心电样本在心电特征提取器中输出的特征向量组合为输入,以有标签心电样本的分类标签为输出,对多层感知机模型进行训练,得到心电数据处理模型;获取待处理的心电数据,通过心电数据处理模型得到待处理的心电数据的分类结果。上述方法能够有效的增加模型的样本量并提升模型性能。

Description

基于对比学习的心电数据处理方法、装置及存储介质
技术领域
本发明涉及人工智能技术及数字医疗技术领域,尤其是涉及一种基于对比学习的心电数据处理方法、装置、存储介质及计算机设备。
背景技术
心电图(英文:Electrocardiograph,缩写:ECG)是一种利用心电图机从人体体表记录心脏每一次心动周期所产生的电活动变化图形的技术。通过心电图,可以表征出人类的多种心脏疾病,医生也可以根据心电图判断出病人的心脏状况。
近年来,随着人工智能技术的不断发展,特别是深度学习技术的发展,各类心电数据处理模型逐渐应运而生。目前,大多数的心电数据处理模型都是通过有分类标签的心电样本训练得到的,但是,有分类标签的心电样本是十分有限的,而仅基于这些少量的有分类标签的心电样本,是很难训练出高性能的心电数据处理模型的,相应的,这种模型输出的心电数据的分类结果,其准确性也是很难得到保证的。
发明内容
有鉴于此,本申请提供了一种基于对比学习的心电数据处理方法、装置、存储介质及计算机设备,主要目的在于解决心电数据处理模型训练样本少、训练难度大、模型性能低和输出分类结果准确性低等技术问题。
根据本发明的第一个方面,提供了一种基于对比学习的心电数据处理方法,该方法包括:
获取多组无标签心电样本和多组有标签心电样本,并根据多组无标签心电样本构建一组卷积神经网络模型;
通过卷积神经网络模型,根据多组无标签心电样本,得到多组无标签心电样本的特征向量组合;
对多组无标签心电样本进行片段截取,并根据截取的心电样本片段的特征向量组合构建多组无标签心电样本的正样本和负样本,对卷积神经网络模型进行训练,得到心电特征提取器;
构建一个多层感知机模型,并以多组有标签心电样本在心电特征提取器中输出的特征向量组合为输入,以多组有标签心电样本的分类标签为输出,对多层感知机模型进行训练,得到心电数据处理模型;
获取待处理的心电数据,并将待处理的心电数据输入到心电数据处理模型中,得到待处理的心电数据的分类结果。
根据本发明的第二个方面,提供了一种基于对比学习的心电数据处理装置,该装置包括:
心电样本获取模块,用于获取多组无标签心电样本和多组有标签心电样本,并根据多组无标签心电样本构建一组卷积神经网络模型;
心电样本处理模块,用于通过卷积神经网络模型,根据多组无标签心电样本,得到多组无标签心电样本的特征向量组合;
特征提取器训练模块,用于对多组无标签心电样本进行片段截取,并根据截取的心电样本片段的特征向量组合构建多组无标签心电样本的正样本和负样本,对卷积神经网络模型进行训练,得到心电特征提取器;
心电处理模型训练模块,用于构建一个多层感知机模型,并以多组有标签心电样本在心电特征提取器中输出的特征向量组合为输入,以多组有标签心电样本的分类标签为输出,对多层感知机模型进行训练,得到心电数据处理模型;
心电数据处理模块,用于获取待处理的心电数据,并将待处理的心电数据输入到心电数据处理模型中,得到待处理的心电数据的分类结果。
根据本发明的第三个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述基于对比学习的心电数据处理方法。
根据本发明的第四个方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于对比学习的心电数据处理方法。
本发明提供的一种基于对比学习的心电数据处理方法、装置、存储介质及计算机设备,首先通过无标签心电样本构建模型的正样本和负样本,然后通过构建出的正样本和负样本对卷积神经网络模型进行训练,得到心电特征提取器,继而借助于心电特征提取器和数量有限的有标签心电样本对多层感知机模型进行训练,得到心电数据处理模型,最后通过训练好的心电数据处理模型对待处理的心电数据进行处理,得到心电数据的分类结果。上述方法充分利用了海量的无标签心电样本,通过对比学习的方式有效的提升了模型训练的样本量和心电特征提取器的鲁棒性,同时,也有效的提升了心电数据处理模型的稳定性和准确性,进而提高了心电数据的分类准确度。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明实施例提供的一种基于对比学习的心电数据处理方法的流程示意图;
图2示出了本发明实施例提供的一种基于对比学习的心电数据处理装置的结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
目前,心电数据处理模型大多是基于丰富的历史标签数据训练得到的,然而,有分类标签的心电数据是十分有限的,尤其是针对一些出现比例较低的分类标签,其对应的心电数据的数量更加稀少,因此,仅基于有分类标签的心电数据很难训练出精准度高的心电数据处理模型,与此同时,海量的无标签心电样本尚没有得到充分的利用。
基于此,在一个实施例中,如图1所示,提供了一种基于对比学习的心电数据处理方法,以该方法应用于服务器等计算机设备为例进行说明,其中,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。上述方法包括以下步骤:
101、获取多组无标签心电样本和多组有标签心电样本,并根据多组无标签心电样本构建一组卷积神经网络模型。
其中,心电样本指的是心电数据处理模型训练过程中所需的心电数据,心电数据指的是通过心电设备从人体体表采集的记录了心脏每一次心动周期所产生的电活动变化的图形。心电数据可以通过智能手环、心电图机等智能采集设备进行采集,采集的心电样本包含有至少一导联的心电数据,且每一导联的心电数据均由一系列的心电波形组成。在这些心电波形中,蕴含了非常多的特征信息,这些特征信息可以通过一些深度学习模型进行提取。
进一步的,卷积神经网络(Convolutional Neural Networks,CNN)指的是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),它是深度学习(deep learning)的代表算法之一。卷积神经网络具有表征学习(representationlearning)的能力,能够按数据的阶层结构对输入信息进行平移不变分类(shift-invariant classification),因此,卷积神经网络模型可以用来提取心电样本的各个导联的心电数据中的特征信息。
具体的,计算机设备可以通过多种途径获取到多组心电样本,其中,每组心电样本均可以包含N导联心电数据。在获取到心电样本之后,计算机设备可以按照有无分类标签将心电样本划分为无标签心电样本和有标签心电样本,其中,心电样本的分类标签可以是心电样本对应的疾病名称,也可以是心电样本对应的某疾病的预测概率等等。在本实施例中,无标签心电样本的数量通常比有标签心电样本的数量要多出许多,例如,无标签心电样本的数量可能有10万组,而有标签心电样本的数量可能只有1千组。进一步的,计算机设备可以根据无标签心电样本中的信息,构建一组卷积神经网络模型,这组卷积神经网络模型的数量可以与心电样本的导联数量相同,即每一个卷积神经网络可以对应心电样本中一个导联的心电数据,并可用于将对应导联的心电数据转换为特征向量。
102、通过卷积神经网络模型,根据多组无标签心电样本,得到多组无标签心电样本的特征向量组合。
具体的,在构建完成一组卷积神经网络模型之后,计算机设备可以将每组无标签心电样本的每个导联的心电数据依次输入到各个导联对应的卷积神经网络模型中,得到每组无标签心电样本的每个导联的心电数据的特征向量,然后,计算机设备可以将每组无标签心电样本的每个导联的心电数据的特征向量进行拼接,以得到每组无标签心电样本的特征向量组合。在本实施例中,初始构建的卷积神经网络模型的模型参数是随机的,因此,此阶段输出的特征向量组合还无法代表心电样本的特征表达,只能作为模型训练的原始样本。
103、对多组无标签心电样本进行片段截取,并根据截取的心电样本片段的特征向量组合构建多组无标签心电样本的正样本和负样本,对卷积神经网络模型进行训练,得到心电特征提取器。
具体的,计算机设备可以将每组无标签心电样本随机截取出若干个心电样本片段,其中,每个心电样本片段中可以包含N导联心电数据片段,然后计算机设备可以将每个心电样本片段通过卷积神经网络模型转换为各个导联对应的特征向量,再拼接为心电样本片段的特征向量组合,继而根据截取出的各个心电样本片段的特征向量组合,构建每组无标签心电样本的正样本和负样本,其中,每个无标签心电样本的特征向量组合的正样本为该样本的心电样本片段的特征向量组合,每个无标签心电样本的特征向量组合的负样本为其他样本的心电样本片段的特征向量组合,最后计算机设备可以通过多组无标签心电样本的正样本和负样本,对步骤101中构建的一组卷积神经网络模型进行训练,得到心电特征提取器,其中,上述心电特征提取器包括训练完成的一组卷积神经网络模型。
在本实施例中,正样本和负样本的构建方法主要通过自监督学习方法中的对比学习方法实现。在自监督学习任务中,输入数据同时被用作数据源和目标数据。对比学习的核心思想是:将正样本与原始样本的距离拉近,将正样本和负样本的距离拉远。为了实现这一目的,就需要构建多组正样本和负样本进行对比学习,从而使模型能够分辨出哪些样本是正样本,哪些样本是负样本。在本实施例中,从原始样本上截取的心电样本片段的特征向量组合可以代表原始样本的信息,因此作为原始样本的正样本;而从其他样本上截取的心电样本片段的特征向量组合无法代表原始样本的信息,因此可以作为原始样本的负样本,其中,负样本的数量可以为多个。可以理解的是,一个原始样本的负样本的数量越多,对比学习的效果越佳。
104、构建一个多层感知机模型,并以多组有标签心电样本在心电特征提取器中输出的特征向量组合为输入,以多组有标签心电样本的分类标签为输出,对多层感知机模型进行训练,得到心电数据处理模型。
其中,多层感知机(MLP,Multilayer Perceptron)也称为人工神经网络(ANN,Artificial Neural Network),该模型除了输入层和输出层,中间还有多个全连接的隐层,在理论上,多层感知机模型除可以模拟任何复杂的函数,因此可以用来进行心电数据的分类处理。
具体的,计算机设备可以首先构建一个多层感知机模型,然后将多组有标签心电样本输入到训练好的心电特征提取器中,得到多组有标签心电样本的特征向量组合,继而以多组有标签心电样本的特征向量组合为输入,以多组有标签心电样本的分类标签为输出,通过预设的参数调整策略,对上述多层感知机模型的参数进行训练,得到最终的心电数据处理模型。在本实施例中,多层感知机模型的参数主要包括模型中各个层之间的连接权重以及偏置,参数调整策略可以根据实际情况进行选择,较为简单的一种参数调整策略是梯度下降法(SGD),即首先随机初始化模型中的各个参数,然后迭代地训练,不断地计算梯度和更新参数,直至满足某个条件为止(比如误差足够小、迭代次数足够多时),模型即训练完成。
相较于传统的特征提取模型仅能将心电数据表示为计算机可以处理的数值向量或者进一步抽象为更高层的特征向量,心电特征提取器可以通过无标签心电样本中各个导联心电数据之间的关联性和互补性,剔除掉各导联心电数据的冗余性,从而学习到心电数据更好的特征表达。进一步的,通过心电特征提取器提取出有标签心电样本的特征向量组合后,即可利用有标签心电样本的分类标签对多层感知机模型训练,从而得到具有分类功能的心电数据处理模型。在本实施例中,心电特征提取器和心电数据处理模型相辅相成,前者能够提高有标签心电样本特征表达的准确性,后者能够利用准确的特征表达学习出心电数据的分类标签,因此,两个模型可以从整体上提高心电数据处理的准确性。
105、获取待处理的心电数据,并将待处理的心电数据输入到心电数据处理模型中,得到待处理的心电数据的分类结果。
具体的,在训练得到心电数据处理模型之后,计算机设备可以通过数据接口获取到待处理的心电数据,并将该待处理的心电数据输入到训练好的心电数据处理模型中,得到该心电数据的分类结果,即得到该心电数据对应的疾病名称或得到该心电数据对应的某种疾病的预测概率等等。在本实施例中,在得到待处理的心电数据之后,计算机设备还可以对该心电数据重复执行上述步骤101至步骤104,以此增加无标签心电样本的数据量并优化心电特征提取器和心电数据处理模型的参数,从而进一步提高心电特征提取器和心电数据处理模型的准确度。
本实施例提供的基于对比学习的心电数据处理方法,首先通过无标签心电样本构建模型的正样本和负样本,然后通过构建出的正样本和负样本对卷积神经网络模型进行训练,得到心电特征提取器,继而借助于心电特征提取器和数量有限的有标签心电样本对多层感知机模型进行训练,得到心电数据处理模型,最后通过训练好的心电数据处理模型对待处理的心电数据进行处理,得到心电数据的分类结果。上述方法充分利用了海量的无标签心电样本,通过对比学习的方式有效的提升了模型训练的样本量和心电特征提取器的鲁棒性,同时,也有效的提升了心电数据处理模型的稳定性和准确性,进而提高了心电数据的分类准确度。
在一个实施例中,上述步骤101可以通过以下方法实现:首先获取多组无标签心电样本和多组有标签心电样本,其中,每组无标签心电样本和每组有标签心电样本中均包含N导联心电数据,然后根据多组无标签心电样本,构建一组卷积神经网络模型,其中,一组卷积神经网络模型中包含与N导联心电数据一一对应的N个卷积神经网络模型。在本实施例中,获取到的心电样本中可能包含有单导联数据、三导联数据和十二导联数据等各类型的心电样本,假设在获取到的心电样本中大多数的心电样本都是十二导联数据,那么,就可以构建十二个卷积神经网络模型,并分别对应心电样本的十二导联的心电数据,同时,对于心电样本中的单导联数据、三导联数据和缺失导联的心电数据可以暂不做考虑。同理,如果心电样本中的单导联数据和三导联数据的数据量足够,也可以采用同样的方法,构建一个卷积神经网络模型对应单导联的心电数据,或者构建三个卷积神经网络模型分别对应三导联的心电数据。通过这种方式,可以充分利用卷积神经网络的表征学习的能力,提取出心电样本中各个导联的心电数据中的特征信息。
在一个实施例中,上述步骤102可以通过以下方法实现:首先将多组无标签心电样本的N导联心电数据分别输入到对应的N个卷积神经网络模型中,得到每组无标签心电样本的N个特征向量,然后分别对每组无标签心电样本的N个特征向量进行拼接,以得到每组无标签心电样本的特征向量组合。在本实施例中,在对特征向量组合进行拼接时,可以首先对无标签心电样本的N个特征向量之间进行分隔,然后再对分隔后的多个特征向量进行拼接。例如,可以以[SEP]为分隔符对各个导联的特征向量进行分隔,然后在每个样本的开始处拼接[CLS]分隔符,最后再将分隔后的各个导联的特征向量拼接在一起,得到各样本的特征向量组合。其中,[SEP]分隔符可以将样本中各导联的特征向量分隔开,[CLS]分隔符可以便于后续特征向量组合的提取。本实施例通过拼接的方式得到无标签心电样本的特征向量组合,可以有效的提高特征向量组合的生成效率和提取效率。
在一个实施例中,上述步骤103可以通过以下方法实现:首先从每组无标签心电样本中截取出至少一段心电样本片段,其中,心电样本片段中包含N导联心电数据片段,然后通过卷积神经网络模型,根据多组无标签心电样本的每个心电样本片段,得到多个无标签心电样本的每个心电样本片段的特征向量组合,进一步的,对于每个无标签心电样本,将属于无标签心电样本的心电样本片段的特征向量组合作为正样本,将不属于无标签心电样本的心电样本片段的特征向量组合作为负样本,最后根据每个无标签心电样本的正样本和负样本,对卷积神经网络模型进行训练,得到心电特征提取器。本实施通过片段截取的方式构造原始样本的正样本和负样本,可以有效的降低构造正负样本的难度和工作量,从而可以通过对比学习的方式有效的提升模型训练的样本量。在本实施例中,负样本的数量越多,对比学习的效果越佳,但是考虑到模型训练的训练难度,负样本的数量可以控制在一个合理的范围内,例如,可以控制在3至20个左右。
在一个实施例中,上述实施例中得到每个心电样本片段的特征向量组合的方法可以通过以下方法实现:首先将每组无标签心电样本的每个心电样本片段的N导联心电数据片段分别输入到N个卷积神经网络模型中,得到每组无标签心电样本的每个心电样本片段的N个特征向量,然后分别对每组无标签心电样本的每个心电样本片段的N个特征向量进行拼接,得到多个无标签心电样本的每个心电样本片段的特征向量组合。在本实施例中,心电样本片段的特征向量组合的拼接方式可以参考无标签心电样本的特征向量组合的拼接方式,本实施例在此不再赘述。
在一个实施例中,上述实施例中对卷积神经网络模型进行训练的方法可以通过以下方法实现:首先计算每个无标签心电样本的正样本和负样本与无标签心电样本的特征向量组合之间的距离,然后根据每个无标签心电样本的正样本和负样本与无标签心电样本的特征向量组合之间的距离,计算心电特征提取器的损失函数并训练多层感知机模型,最后当心电特征提取器的损失函数达到预设损失值时,停止训练,得到心电特征提取器。本实施例通过计算心电样本片段的特征向量组合与无标签心电样本的特征向量组合之间的距离的方式来计算特征提取器的损失函数,可以使特征提取器能够较为直观和准确的分辨出哪些样本是正样本,哪些样本是负样本,从而有效的提升特征提取器的特征提取准确度。
在一个实施例中,在步骤104之后,基于对比学习的心电数据处理方法还可以包括以下步骤:以多组有标签心电样本在心电特征提取器中输出的特征向量组合为输入,以多组有标签心电样本的分类标签为输出,在对多层感知机模型进行训练的同时,对心电特征提取器的参数进行优化训练,最终得到训练完成的心电数据处理模型和优化后的心电特征提取器。本实施例通过有标签心电样本对多层感知机模型进行训练的同时,还可以同步对心电特征提取器的模型参数进行同步优化训练,通过这种方式,可以进一步提高心电特征提取器的性能,从而使心电特征提取器能够学习到更准确的特征表达。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的实施过程,本实施例提供了一种基于对比学习的心电数据处理方法,该方法的核心思路是:先利用海量的无标签心电样本训练出心电特征提取器,然后再利用少量的有标签心电样本训练出心电数据处理模型。
具体的,利用海量的无标签心电样本训练心电特征提取器的工作流程包括以下步骤:首先获取N组(如10万组)无标签的12导联心电数据D={D1,D2...,DN},其中Di包含12个心电波形数据{Di (1)~Di (12)},然后利用N组无标签的12导联心电数据中的信息,构建出12个CNN模型(卷积神经网络模型),继而针对每组数据的每个导联,利用每个导联对应的CNN模型得到embedding Ei (k),将各组数据的各个导联的embedding(特征向量)拼接起来,形成各组数据的embedding Ei(特征向量组合),最后将每组数据随机截成若干时间段(比如1秒一个片段),然后用每个导联的CNN模型得到每一小段每个导联的embedding,拼接起来得到e(心电样本片段的特征向量组合)。
进一步的,任取一组数据的一个时间段的embeddinge,根据其是否属于某组数据来构造正负样本。具体的,对于e而言,其如果属于Di(从Di中抽取的片段),则记为正样本;随机选取T个别组数据(例如Dj),记为负样本,负样本数量例如可以是10-20个左右,然后计算e与某数据embedding Ei的距离(即两个向量之间的距离),对于向量距离来说,正样本越小越好,负样本越大越好,其中,距离的计算公式如下:
Figure BDA0003239828100000101
进一步的,可以采用InfoNCE损失函数同步训练12个CNN模型,即可得到心电特征提取器(所有正样本都可以得到一个下式,叠加在一起作为最终整体的损失函数,τ是超参数),损失函数的计算公式如下:
Figure BDA0003239828100000111
进一步的,利用少量的有标签心电样本训练出心电数据处理模型的工作流程包括以下步骤:给定M组(如一千组)有分类标签的心电数据(M<<N),对每一组数据的每一个导联,用对应的CNN模型生成embedding Ei (k),然后拼接得到该组数据的embedding Ei,继而构建一个多层感知机(MLP)模型,输入每组数据的embedding,输出该组数据对应的分类标签,以此训练这个网络(即训练MLP模型的所有参数,并fine-tuning(优化训练)所有12个CNN的参数),训练完毕时,所得到的12个CNN模型和MLP模型,就是所需的心电数据处理模型。
本实施例提出的心电数据处理方法与现有的心电数据处理方法相比,可以利用无标签心电样本,根据对比学习的方法,训练出心电特征提取器,并且利用心电特征提取器进一步训练出心电数据处理模型。这种方法充分利用了无标签心电样本,克服了有标签的心电数据数据量有限的困难,并且,通过应用大量的无标签数据训练模型,其精确度也要高于现有技术中利用少量数据所训练出的模型,因而可以有效的提高心电数据处理的精确度。
进一步的,作为图1所示方法的具体实现,本实施例提供了一种基于对比学习的心电数据处理装置,如图2所示,该装置包括:心电样本获取模块21、心电样本处理模块22、特征提取器训练模块23、心电处理模型训练模块24、心电数据处理模块25,其中:
心电样本获取模块21,可用于获取多组无标签心电样本和多组有标签心电样本,并根据多组无标签心电样本构建一组卷积神经网络模型;
心电样本处理模块22,可用于通过卷积神经网络模型,根据多组无标签心电样本,得到多组无标签心电样本的特征向量组合;
特征提取器训练模块23,可用于对多组无标签心电样本进行片段截取,并根据截取的心电样本片段的特征向量组合构建多组无标签心电样本的正样本和负样本,对卷积神经网络模型进行训练,得到心电特征提取器;
心电处理模型训练模块24,可用于构建一个多层感知机模型,并以多组有标签心电样本在心电特征提取器中输出的特征向量组合为输入,以多组有标签心电样本的分类标签为输出,对多层感知机模型进行训练,得到心电数据处理模型;
心电数据处理模块25,可用于获取待处理的心电数据,并将待处理的心电数据输入到心电数据处理模型中,得到待处理的心电数据的分类结果。
在具体的应用场景中,心电样本获取模块21,具体可用于获取多组无标签心电样本和多组有标签心电样本,其中,每组无标签心电样本和每组有标签心电样本中均包含N导联心电数据;根据多组无标签心电样本,构建一组卷积神经网络模型,其中,一组卷积神经网络模型中包含与N导联心电数据一一对应的N个卷积神经网络模型。
在具体的应用场景中,心电样本处理模块22,具体可用于将多组无标签心电样本的N导联心电数据分别输入到对应的N个卷积神经网络模型中,得到每组无标签心电样本的N个特征向量;分别对每组无标签心电样本的N个特征向量进行拼接,得到每组无标签心电样本的特征向量组合。
在具体的应用场景中,特征提取器训练模块23,具体可用于从每组无标签心电样本中截取出至少一段心电样本片段,其中,心电样本片段中包含N导联心电数据片段;通过卷积神经网络模型,根据多组无标签心电样本的每个心电样本片段,得到多个无标签心电样本的每个心电样本片段的特征向量组合;对于每个无标签心电样本,将属于无标签心电样本的心电样本片段的特征向量组合作为正样本,将不属于无标签心电样本的心电样本片段的特征向量组合作为负样本;根据每个无标签心电样本的正样本和负样本,对卷积神经网络模型进行训练,得到心电特征提取器。
在具体的应用场景中,特征提取器训练模块23,具体还可用于将每组无标签心电样本的每个心电样本片段的N导联心电数据片段分别输入到N个卷积神经网络模型中,得到每组无标签心电样本的每个心电样本片段的N个特征向量;分别对每组无标签心电样本的每个心电样本片段的N个特征向量进行拼接,得到多个无标签心电样本的每个心电样本片段的特征向量组合。
在具体的应用场景中,特征提取器训练模块23,具体还可用于计算每个无标签心电样本的正样本和负样本与无标签心电样本的特征向量组合之间的距离;根据每个无标签心电样本的正样本和负样本与无标签心电样本的特征向量组合之间的距离,计算心电特征提取器的损失函数;当心电特征提取器的损失函数达到预设损失值时,停止训练卷积神经网络模型,得到心电特征提取器。
在具体的应用场景中,本装置还包括特征提取器优化模块26,其中,特征提取器优化模块26可用于以多组有标签心电样本在心电特征提取器中输出的特征向量组合为输入,以多组有标签心电样本的分类标签为输出,对心电特征提取器的参数进行优化训练,得到优化后的心电特征提取器。
需要说明的是,本实施例提供的一种基于对比学习的心电数据处理装置所涉及各功能单元的其它相应描述,可以参考图1中的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1所示的基于对比学习的心电数据处理方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该待识别软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1所示的方法,以及图2所示的基于对比学习的心电数据处理装置实施例,为了实现上述目的,本实施例还提供了一种基于对比学习的心电数据处理的实体设备,具体可以为个人计算机、服务器、智能手机、平板电脑、智能手表、或者其它网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1所示的方法。
可选的,该实体设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种基于对比学习的心电数据处理的实体设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述实体设备硬件和待识别软件资源的程序,支持信息处理程序以及其它待识别软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与信息处理实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本申请的技术方案,首先通过无标签心电样本构建多组无标签心电样本的正样本和负样本,并通过构建出的正样本和负样本对卷积神经网络模型进行训练,得到心电特征提取器,然后借助于心电特征提取器和数量有限的有标签心电样本对多层感知机模型进行训练,得到心电数据处理模型,最后通过训练好的心电数据处理模型对待处理的心电数据进行处理,得到心电数据的分类结果。与现有技术相比,上述方法充分利用了海量的无标签心电样本,通过对比学习的方式有效的提升了模型训练的样本量和心电特征提取器的鲁棒性,同时,也有效的提升了心电数据处理模型的稳定性和准确性,进而提高了心电数据的分类准确度。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种基于对比学习的心电数据处理方法,其特征在于,所述方法包括:
获取多组无标签心电样本和多组有标签心电样本,并根据所述多组无标签心电样本构建一组卷积神经网络模型;
通过所述卷积神经网络模型,根据所述多组无标签心电样本,得到所述多组无标签心电样本的特征向量组合;
对所述多组无标签心电样本进行片段截取,并根据截取的心电样本片段的特征向量组合构建所述多组无标签心电样本的正样本和负样本,对所述卷积神经网络模型进行训练,得到心电特征提取器;
构建一个多层感知机模型,并以所述多组有标签心电样本在所述心电特征提取器中输出的特征向量组合为输入,以所述多组有标签心电样本的分类标签为输出,对所述多层感知机模型进行训练,得到心电数据处理模型;
获取待处理的心电数据,并将所述待处理的心电数据输入到所述心电数据处理模型中,得到所述待处理的心电数据的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述获取多组无标签心电样本和多组有标签心电样本,并根据所述多组无标签心电样本构建一组卷积神经网络模型,包括:
获取多组无标签心电样本和多组有标签心电样本,其中,每组所述无标签心电样本和每组所述有标签心电样本中均包含N导联心电数据;
根据所述多组无标签心电样本,构建一组卷积神经网络模型,其中,所述一组卷积神经网络模型中包含与所述N导联心电数据一一对应的N个卷积神经网络模型。
3.根据权利要求2所述的方法,其特征在于,所述通过所述卷积神经网络模型,根据所述多组无标签心电样本,得到所述多组无标签心电样本的特征向量组合,包括:
将所述多组无标签心电样本的N导联心电数据分别输入到对应的所述N个卷积神经网络模型中,得到每组所述无标签心电样本的N个特征向量;
分别对每组所述无标签心电样本的N个特征向量进行拼接,得到每组所述无标签心电样本的特征向量组合。
4.根据权利要求3所述的方法,其特征在于,所述对所述多组无标签心电样本进行片段截取,并根据截取的心电样本片段的特征向量组合构建所述多组无标签心电样本的正样本和负样本,对所述卷积神经网络模型进行训练,得到心电特征提取器,包括:
从每组所述无标签心电样本中截取出至少一段心电样本片段,其中,所述心电样本片段中包含N导联心电数据片段;
通过所述卷积神经网络模型,根据所述多组无标签心电样本的每个心电样本片段,得到所述多个无标签心电样本的每个心电样本片段的特征向量组合;
对于每个所述无标签心电样本,将属于所述无标签心电样本的心电样本片段的特征向量组合作为正样本,将不属于所述无标签心电样本的心电样本片段的特征向量组合作为负样本;
根据每个所述无标签心电样本的正样本和负样本,对所述卷积神经网络模型进行训练,得到心电特征提取器。
5.根据权利要求4所述的方法,其特征在于,所述通过所述卷积神经网络模型,根据所述多组无标签心电样本的每个心电样本片段,得到所述多个无标签心电样本的每个心电样本片段的特征向量组合,包括:
将每组所述无标签心电样本的每个心电样本片段的N导联心电数据片段分别输入到对应的所述N个卷积神经网络模型中,得到每组所述无标签心电样本的每个心电样本片段的N个特征向量;
分别对每组所述无标签心电样本的每个心电样本片段的N个特征向量进行拼接,得到多个所述无标签心电样本的每个心电样本片段的特征向量组合。
6.根据权利要求4所述的方法,其特征在于,所述根据每个所述无标签心电样本的正样本和负样本,对所述卷积神经网络模型进行训练,得到心电特征提取器,所述:
计算每个所述无标签心电样本的正样本和负样本与所述无标签心电样本的特征向量组合之间的距离;
根据所述每个无标签心电样本的正样本和负样本与所述无标签心电样本的特征向量组合之间的距离,计算所述心电特征提取器的损失函数;
利用所述心电特征提取器的损失函数,对所述卷积神经网络模型的参数进行迭代训练,得到心电特征提取器。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
以所述多组有标签心电样本在所述心电特征提取器中输出的特征向量组合为输入,以所述多组有标签心电样本的分类标签为输出,对所述心电特征提取器的参数进行优化训练,得到优化后的心电特征提取器。
8.一种基于对比学习的心电数据处理装置,其特征在于,所述装置包括:
心电样本获取模块,用于获取多组无标签心电样本和多组有标签心电样本,并根据所述多组无标签心电样本构建一组卷积神经网络模型;
心电样本处理模块,用于通过所述卷积神经网络模型,根据所述多组无标签心电样本,得到多组无标签心电样本的特征向量组合;
特征提取器训练模块,用于对所述多组无标签心电样本进行片段截取,并根据截取的心电样本片段的特征向量组合构建所述多组无标签心电样本的正样本和负样本,对所述卷积神经网络模型进行训练,得到心电特征提取器;
心电处理模型训练模块,用于构建一个多层感知机模型,并以所述多组有标签心电样本在所述心电特征提取器中输出的特征向量组合为输入,以所述多组有标签心电样本的分类标签为输出,对所述多层感知机模型进行训练,得到心电数据处理模型;
心电数据处理模块,用于获取待处理的心电数据,并将所述待处理的心电数据输入到所述心电数据处理模型中,得到所述待处理的心电数据的分类结果。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202111015974.3A 2021-08-31 2021-08-31 基于对比学习的心电数据处理方法、装置及存储介质 Active CN113723519B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111015974.3A CN113723519B (zh) 2021-08-31 2021-08-31 基于对比学习的心电数据处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111015974.3A CN113723519B (zh) 2021-08-31 2021-08-31 基于对比学习的心电数据处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN113723519A true CN113723519A (zh) 2021-11-30
CN113723519B CN113723519B (zh) 2023-07-25

Family

ID=78680035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111015974.3A Active CN113723519B (zh) 2021-08-31 2021-08-31 基于对比学习的心电数据处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113723519B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115429286A (zh) * 2022-10-11 2022-12-06 郑州大学 一种心电表征自监督学习方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097130A (zh) * 2019-05-07 2019-08-06 深圳市腾讯计算机系统有限公司 分类任务模型的训练方法、装置、设备及存储介质
CN111160139A (zh) * 2019-12-13 2020-05-15 中国科学院深圳先进技术研究院 心电信号的处理方法、装置及终端设备
CN111242098A (zh) * 2020-02-27 2020-06-05 西安交通大学 一种结合特征提取和inception网络的心电数据分类方法及系统
CN111797916A (zh) * 2020-06-30 2020-10-20 东华大学 一种恒星光谱分类方法
WO2021157863A1 (ko) * 2020-02-05 2021-08-12 주식회사 스파이더코어 준 지도 학습을 위한 오토인코더 기반 그래프 설계

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097130A (zh) * 2019-05-07 2019-08-06 深圳市腾讯计算机系统有限公司 分类任务模型的训练方法、装置、设备及存储介质
CN111160139A (zh) * 2019-12-13 2020-05-15 中国科学院深圳先进技术研究院 心电信号的处理方法、装置及终端设备
WO2021157863A1 (ko) * 2020-02-05 2021-08-12 주식회사 스파이더코어 준 지도 학습을 위한 오토인코더 기반 그래프 설계
CN111242098A (zh) * 2020-02-27 2020-06-05 西安交通大学 一种结合特征提取和inception网络的心电数据分类方法及系统
CN111797916A (zh) * 2020-06-30 2020-10-20 东华大学 一种恒星光谱分类方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115429286A (zh) * 2022-10-11 2022-12-06 郑州大学 一种心电表征自监督学习方法

Also Published As

Publication number Publication date
CN113723519B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
US11564612B2 (en) Automatic recognition and classification method for electrocardiogram heartbeat based on artificial intelligence
CN110807495B (zh) 多标签分类方法、装置、电子设备及存储介质
WO2020253852A1 (zh) 图片识别方法、识别模型训练方法、装置及存储介质
CN107194158A (zh) 一种基于图像识别的疾病辅助诊断方法
CN111785366B (zh) 患者治疗方案的确定方法、装置及计算机设备
KR102390326B1 (ko) 심전도 데이터 분류를 위한 심층 신경망 사전 학습 방법
CN113673613A (zh) 基于对比学习的多模态数据特征表达方法、装置及介质
CN115919330A (zh) 基于多层次se注意力和图卷积的eeg情绪状态分类方法
Wang et al. Clustering ECG heartbeat using improved semi‐supervised affinity propagation
CN113693611B (zh) 基于机器学习的心电数据分类方法及装置
CN113723519B (zh) 基于对比学习的心电数据处理方法、装置及存储介质
Berger et al. Generative adversarial networks in electrocardiogram synthesis: Recent developments and challenges
Perveen et al. Multidimensional Attention-Based CNN Model for Identifying Apple Leaf Disease.
CN113707323A (zh) 基于机器学习的疾病预测方法、装置、设备及介质
CN110613445B (zh) 一种基于dwnn框架的心电信号的识别方法
CN113693610B (zh) 少导联心电数据处理方法、装置、存储介质及计算机设备
US20230101539A1 (en) Physiological electric signal classification processing method and apparatus, computer device and storage medium
CN114224354B (zh) 心律失常分类方法、装置及可读存储介质
CN116649899A (zh) 一种基于注意力机制特征融合的心电信号分类方法
CN115985513A (zh) 一种基于多组学癌症分型的数据处理方法、装置及设备
CN115631371A (zh) 一种脑电信号核心网络的提取方法
CN113627391B (zh) 一种考虑个体差异的跨模式脑电信号识别方法
Giordano et al. An AI-based framework for supporting large scale automated analysis of video capsule endoscopy
CN113855044B (zh) 缺失导联的心电数据的分类处理方法、装置及存储介质
CN110786847B (zh) 心电信号的建库方法和分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant