CN111476282A - 数据分类方法、装置、存储介质及电子设备 - Google Patents

数据分类方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN111476282A
CN111476282A CN202010230613.XA CN202010230613A CN111476282A CN 111476282 A CN111476282 A CN 111476282A CN 202010230613 A CN202010230613 A CN 202010230613A CN 111476282 A CN111476282 A CN 111476282A
Authority
CN
China
Prior art keywords
data
filtering
classification
image
support vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010230613.XA
Other languages
English (en)
Inventor
朱宝峰
何光宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN202010230613.XA priority Critical patent/CN111476282A/zh
Publication of CN111476282A publication Critical patent/CN111476282A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种数据分类方法、装置、存储介质及电子设备,以解决相关技术中数据分类存在的问题,减少数据分类过程中耗费的人力和时间,提高数据分类效率。该数据分类方法包括:对数据进行滤波处理,以去除所述数据中的噪声信号,其中,所述数据为时域波形数据;将滤波后的所述数据转换为图像;将转换为图像后的所述数据输入数据分类模型中,得到所述数据的分类结果,其中,所述数据分类模型是根据未标注的样本数据进行无监督训练得到的。

Description

数据分类方法、装置、存储介质及电子设备
技术领域
本公开涉及计算机技术领域,具体地,涉及一种数据分类方法、装置、存储介质及电子设备。
背景技术
随着大数据时代的来临,如何对海量数据进行分类,以便后续对分类的数据进行相应的处理,越来越成为人们关心的问题。例如,在医疗数据领域,随着患者数量的不断增加,产生了海量的医疗数据,如果可以对海量医疗数据进行分类,则可以更加高效地对海量医疗数据进行分析和整理。
相关技术中,通常是基于深度学习卷积神经网络的方式进行数据分类。然而,此种方式需要预先人工标注大量样本数据对卷积神经网络进行训练。在医疗数据领域,对于样本数据的标注通常需要专业医生进行标注,但是医生数量有限、精力有限,从而导致对获取的样本数据进行标注需要消耗大量的时间,影响数据分类的效率。
发明内容
本公开的目的是提供一种数据分类方法、装置、存储介质及电子设备,以解决相关技术中数据分类存在的问题。
为了实现上述目的,第一方面,本公开提供一种数据分类方法,所述方法包括:
对数据进行滤波处理,以去除所述数据中的噪声信号,其中,所述数据为时域波形数据;
将滤波后的所述数据转换为图像;
将转换为图像后的所述数据输入数据分类模型中,得到所述数据的分类结果,其中,所述数据分类模型是根据未标注的样本数据进行无监督训练得到的。
可选地,所述数据为心电波形数据,所述样本数据包括房颤数据和正常心律数据,所述将转换为图像后的所述数据输入数据分类模型中,得到所述数据的分类结果,包括:
将转换为图像后的所述数据输入所述数据分类模型中,得到所述数据为房颤数据或正常心律数据的分类结果。
可选地,所述数据分类模型包括深度信念网络和支持向量机,所述数据分类模型是通过如下方式得到的:
针对未标注的样本数据进行滤波处理;
将滤波后的所述样本数据转换为图像输入所述深度信念网络进行无监督训练,并通过所述深度信念网络提取滤波后的所述样本数据的特征信息;
将提取到的所述特征信息输入所述支持向量机进行训练,得到所述数据分类模型。
可选地,所述支持向量机的核函数为径向基函数,所述方法还包括:
针对所述支持向量机的惩罚系数和所述径向基函数的系数,通过网格搜索的方式在预设数值范围内进行遍历,所述惩罚系数用于表征所述支持向量机对于误分类的容错率,所述径向基函数的系数用于表征待分类的数据被确定为支持向量的概率值;
所述将提取到的所述特征信息输入所述支持向量机进行训练,包括:
针对提取到的所述特征信息,通过交叉验证的方式,在遍历过的所有数值中,确定所述支持向量机的最优惩罚系数和所述径向基函数的最优系数。
可选地,所述将滤波后的所述数据转换为图像,包括:
针对滤波后的所述数据,按照预设时长对所述数据进行分段;
将分段后的每一个数据分别转换为图像。
可选地,所述对数据进行滤波处理,包括:
通过高斯滤波对所述数据进行一次滤波处理;
针对高斯滤波后的所述数据,通过巴特沃斯滤波器进行二次滤波处理,以去除所述数据中的工频干扰信号、高频肌电信号和低频基线漂移中的至少一者。
可选地,所述通过高斯滤波对所述数据进行一次滤波处理,包括:
通过多个不同的模糊半径,确定用于高斯滤波的多个高斯核;
根据预设权重值,对所述多个高斯核进行加权求和,得到目标高斯核;
通过所述目标高斯核对所述数据进行高斯滤波。
第二方面,本公开还提供一种数据分类装置,所述装置包括:
滤波模块,用于对数据进行滤波处理,以去除所述数据中的噪声信号,其中,所述数据为时域波形数据;
转换模块,用于将滤波后的所述数据转换为图像;
分类模块,用于将转换为图像后的所述数据输入数据分类模型中,得到所述数据的分类结果,所述数据分类模型是根据未标注的样本数据进行无监督训练得到的。
第三方面,本公开还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一项所述方法的步骤。
第四方面,本公开还提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现第一方面中任一项所述方法的步骤。
通过上述技术方案,针对时域波形数据,可以先根据未标注的样本数据进行无监督训练得到数据分类模型,然后将滤波后的数据转换为图像,最后将转换为图像后的数据输入数据分类模型中,得到数据的分类结果,由于可以通过无监督训练得到数据分类模型,无需人工预先标注样本数据,因此可以减少数据分类过程中用于样本数据标注而耗费的人力和时间,提高数据分类的效率和智能性。并且,将数据转换为二维图像输入数据分类模型中进行分类,相较于直接对数据进行分类的方式,更能发现数据的变化趋势特征,从而提高数据分类的准确性。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据本公开一示例性实施例示出的一种数据分类方法的流程图;
图2是根据本公开一示例性实施例示出的一种数据分类方法中深度信念网络的结构示意图;
图3是根据本公开另一示例性实施例示出的一种数据分类方法的流程图;
图4是根据本公开一示例性实施例示出的一种数据分类装置的框图;
图5是根据本公开一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
正如背景技术所言,相关技术通常是基于深度学习卷积神经网络的方式进行数据分类。然而,此种方式需要预先人工标注大量样本数据对卷积神经网络进行训练。在医疗数据领域,对于样本数据的标注通常需要专业医生进行标注,但是医生数量有限、精力有限,从而导致对获取的样本数据进行标注需要消耗大量的时间,影响数据分类的效率。
有鉴于此,本公开实施例提供一种数据分类方法、装置、存储介质及电子设备,以解决相关技术中存在的问题,提高数据分类的效率。
图1是根据本公开一示例性实施例示出的一种数据分类方法的流程图。参照图1,该数据分类方法包括:
步骤101,对数据进行滤波处理,以去除所述数据中的噪声信号。其中,所述数据为时域波形数据。
步骤102,将滤波后的所述数据转换为图像。
步骤103,将转换为图像后的所述数据输入数据分类模型中,得到所述数据的分类结果。其中,所述数据分类模型是根据未标注的样本数据进行无监督训练得到的。
在可能的方式中,本公开实施例中的数据可以是心电波形数据,样本数据可以包括房颤数据和正常心律数据。相应地,将转换为图像后的数据输入数据分类模型中,得到数据的分类结果可以是:将转换为图像后的数据输入数据分类模型中,得到数据为房颤数据或正常心律数据的分类结果。
也即是说,本公开实施例可以应用于医疗数据领域中的心电数据分类。通过本公开实施例中的方式,由于可以通过无监督训练得到数据分类模型,无需人工预先标注样本数据,因此可以减少用于样本数据标注的人力和时间,从而可以提高医疗数据领域中心电数据分类的智能性和效率,更加高效地对心电数据进行分析和整理。
示例地,在对心电数据进行分类的应用中,实施场景可以包括心电数据检测设备、第一终端、第二终端。其中,心电数据检测设备可以是例如心电监护仪等可以监测患者心脏的电活动情况的设备,第一终端可以是用于数据分类的终端,第二终端可以是用于显示或者存储分类后数据的终端。在可能的情况下,第一终端和第二终端可以是例如电脑、服务器等不同类型的电子设备,本公开实施例对此不作限定。
在此种实施场景下,心电数据检测设备可以将检测到的患者心脏的电活动情况(表现为时域波形信号)发送给第一终端。第一终端可以对接收到的数据进行滤波处理,以去除数据中的噪声信号,提高后续数据分类结果的准确性。然后,第一终端可以将滤波后的数据转换为图像输入数据分类模型中。由于数据分类模型是通过未标注的房颤数据和正常心律数据进行无监督训练得到的,因此可以得到该数据属于房颤数据或者正常心律数据的分类结果。接着,第一终端可以将该数据的分类结果发送给第二终端。第二终端可以对该数据分类结果进行显示,以供医护人员查看。或者,第二终端可以根据该数据分类结果对该数据进行对应的类别存储,等等,本公开实施例不作限定。
为了使得本领域技术人员更加理解本公开实施例中的数据分类方法,下面对上述各步骤进行详细举例说明。
示例地,在步骤101中,对数据进行滤波处理可以是:先通过高斯滤波对所述数据进行一次滤波处理,然后针对高斯滤波后的数据,通过巴特沃斯滤波器进行二次滤波处理,以去除数据中的工频干扰信号、高频肌电信号和低频基线漂移中的至少一者。其中,工频干扰信号是由电力系统引起的一种干扰。高频肌电信号是众多肌纤维中运动单元动作电位在时间和空间上的叠加干扰。低频基线漂移是信号基线随时间定向的缓慢的变化干扰。
例如,在对于心电数据分类的场景中,由于体表心电信号有着较强的噪声与随机性,对心电信号的质量有着非常大的影响,因此在进行数据分类之前对获取的数据进行滤波降噪是必须的。具体的,本公开实施例先采用了一维时序信号的高斯滤波方法,然后针对高斯滤波后的数据通过巴特沃斯滤波器进行滤波,相较于其他滤波方式,对于数据的处理过程更加简单,从而可以进一步提高数据分类效率。
示例地,高斯滤波是一种线性平滑滤波器,适用于消除高斯噪声。其中,一维高斯滤波器的表达式为:
Figure BDA0002429170150000071
其中,σ表示高斯函数的标准差,也可以称为模糊系数,t表示待滤波数据中的每个数据点。
应当理解的是,一维高斯滤波的主要过程是针对某一模糊半径,将待滤波数据中的目标数据点以及该目标数据点模糊半径范围内的数据点代入公式(1)进行计算,得到用于高斯滤波的高斯核。然后可以根据得到的高斯核进行卷积计算,实现对数据的高斯滤波。
在可能的方式中,为了进一步避免高斯噪声的干扰,还可以通过多个不同的模糊半径,确定用于高斯滤波的多个高斯核。然后根据预设权重值,对该多个高斯核进行加权求和,得到目标高斯核。最后,通过目标高斯核对数据进行高斯滤波。
例如,可分别取模糊半径为r1、r2、……、ri,求出该不同模糊半径下的高斯核G1、G2、……、Gi。然后可以根据预设权重值对不同模糊半径下的高斯核进行加权求和,得到目标高斯核。也即是说,目标高斯核可以表示为:G=w1×G1+w2×G2+……+wi×Gi,其中,w1、w2、……、wi表示预设权重值。应当理解的是,该多个预设权重值可以根据实际情况进行设定,只有保证预设权重值的总和为1即可,本公开实施例对此不作限定。比如,该多个预设权重值可以各不相同,也可以部分相同,等等。在得到目标高斯核之后,可以根据该目标高斯核进行卷积计算,从而实现对数据的高斯滤波,减少高斯噪声对后续数据分类的影响。
进一步,在对数据进行高斯滤波之后,可以将滤波后的数据输入一阶巴特沃斯带通滤波器,进行二次滤波,以过滤掉数据中频率在0.25Hz至40Hz之外的噪声部分,以实现了对数据的整体去噪。
通过上述滤波方式,可以去除数据中的工频干扰信号、高频肌电信号和低频基线漂移中的至少一者,以避免噪声干扰信号对后续数据分类的影响,从而提高数据分类的准确性。
在对数据进行滤波处理后,可以将滤波后的数据转换为二维图像。在可能的方式中,可以针对滤波后的数据,按照预设时长对该数据进行分段,然后将分段后的每一个数据分别转换为图像。其中,预设时长可以根据实际情况设定,比如,在心电数据分类的场景中,考虑到心电波形数据的周期通常不会超过1秒,则可以将预设时长设定为1秒。当然,也可以将预设时长设定为0.98秒或者1.03秒,等等,本公开实施例对此不作限定。
例如,预设时长为1秒,滤波后的数据持续时间为4秒,那么可以将该滤波后的数据按照1秒的时间间隔进行分段,得到4个持续时间为1秒的数据。然后,可以将该分段后的每一个数据分别转换为图像,最后将转换为图像后的数据输入数据分类模型,以得到该数据的数据分类结果。通过此种方式,可以得到时间长度一致的多个数据进行图像的转换,从而保证转换后的图像尺度一致,便于后续的数据分类过程,进一步提高数据分类效率。
应当理解的是,将分段后的每一个数据分别转换为图像输入数据分类模型中,可以是按照分段后的每一个数据在分段前数据中的时域位置分别进行图像转换后输入数据分类模型中。比如,在上述举例中,得到4个持续时间为1秒的数据分别为数据A、数据B、数据C和数据D。其中,数据A对应于分段前数据的第一秒,数据B对应于分段前数据的第二秒,数据C对应于分段前数据的第三秒,数据D对应于分段前数据的第四秒。在此种情况下,可以按照数据A、数据B、数据C和数据D分别进行图像转换后输入数据分类模型中,以保证在数据分类过程可以根据时域顺序依次进行数据特征的提取进行数据分类,进而保证数据分类的准确性。
下面对本公开实施例中的数据分类模型的训练过程进行说明。
在可能的方式中,数据分类模型可以包括深度信念网络和支持向量机,相应地,数据分类模型可以是通过如下方式得到的:针对未标注的样本数据进行滤波处理。然后,将滤波后的样本数据转换为图像输入深度信念网络进行无监督训练,并通过该深度信念网络提取滤波后的样本数据的特征信息。接着,将提取到的特征信息输入支持向量机进行训练,得到数据分类模型。
本公开实施例可以通过未标注的样本数据进行无监督训练得到深度信念网络。通过训练好的深度信念网络基本可以实现对于数据分类的需求,即,将待分类数据输入训练好的深度信念网络中,可以得到粗略的数据分类结果。而在本公开实施例中,为了提高数据分类的准确性,还可以进一步通过该深度信念网络提取滤波后的样本数据的特征信息。然后将提取到的特征信息输入支持向量机(SVM)分类器中进行训练,以得到数据分类模型。
相应地,通过本公开实施例的数据分类模型进行数据分类时,可以先将滤波后的数据转换为图像输入深度信念网络进行特征提取,然后将提取到的特征输入支持向量机进行分类,以得到分类结果。
示例地,参照图2,深度信念网络可以包括四层受限玻尔兹曼机结构(RBM)。受限玻尔兹曼机是玻尔兹曼机(BM)的一种特殊拓扑结构。玻尔兹曼机是一种拥有两层结构(可见层和隐藏层)的神经网络,这两层网络间的神经元只有激活与未激活两种状态,即0状态和1状态。应当理解的是,对于深度信念网络中的每一层受限玻尔兹曼机的训练方式可以与相关技术中类似。比如,可以通过相关技术中的对比散度算法训练受限玻尔兹曼机,下面对此种训练受限玻尔兹曼机的方式进行简要说明。
首先,应当理解的是,受限玻尔兹曼机中每个神经元的状态取决于概率值,而概率值通常由能量公式确定。具体的,可以根据如下能量公式(2)计算得到E(v,h),然后根据E(v,h)代入概率分布公式(3)中计算神经元的概率分布,从而确定神经元的状态。
Figure BDA0002429170150000101
Figure BDA0002429170150000102
其中,nv表示受限玻尔兹曼机中可见层神经元的数量,nh表示受限玻尔兹曼机中隐藏层神经元的数量,ai表示受限玻尔兹曼机中可见层第i个神经元的偏置向量,bj表示受限玻尔兹曼机中隐藏层第j个神经元的偏置向量,vi表示受限玻尔兹曼机中可见层第i个神经元的状态向量,hj表示受限玻尔兹曼机中可见层第j个神经元的偏置向量,w表示转移矩阵,Z表示归一化系数。
进一步,可以采用逻辑回归函数(也被称为sigmoid激活函数),当已知可见层上所有神经元的状态时,隐含层中某个神经单元被激活的概率为:
Figure BDA0002429170150000103
其中,bk表示深度神经网络中第k层受限兹曼机中隐藏层的偏置向量,wk表示深度神经网络中第k层受限兹曼机的转移矩阵。
同时,当已知隐藏层上所有神经元的状态时可见层中某个神经单元被激活的概率为:
Figure BDA0002429170150000104
其中,ak表示深度神经网络中第k层受限玻尔兹曼机中可见层的偏置向量,wk表示深度神经网络中第k层受限兹曼机的转移矩阵。
然后,根据上述公式(4)和(5)可以按照如下步骤迭代训练深度信念网络中的每一层受限玻尔兹曼机:
1)用极小值初始化参数w、a、b和c。其中,a表示受限玻尔兹曼机中可见层的偏置向量,表示受限玻尔兹曼机中隐藏层的偏置向量,表示预设调整系数。
2)计算隐含层概率分布:
Figure BDA0002429170150000105
其中,参数的上标表示迭代次数。比如,v0表示第0次迭代中受限玻尔兹曼机的可见层。
3)根据概率分布
Figure BDA0002429170150000111
通过吉布斯采样得到
Figure BDA0002429170150000112
4)计算可见层的概率分布:
Figure BDA0002429170150000113
5)根据概率分布
Figure BDA0002429170150000114
通过吉布斯采样得到
Figure BDA0002429170150000115
6)迭代计算隐含层的概率分布:
Figure BDA0002429170150000116
7)根据概率分布
Figure BDA0002429170150000117
通过吉布斯采样得到
Figure BDA0002429170150000118
8)更新参数:
Figure BDA0002429170150000119
a+=c×(v1-v2) (7)
Figure BDA00024291701500001110
其中,吉布斯抽样算法流程为:
1)包含m个神经元,设变量为X=(x1、x2、……、xm)。
2)神经元的初始化状态为x0,设初始时间t为0,最低转移次数为d。
3)对神经元xi,按照
Figure BDA00024291701500001111
概率进行采样。
4)令t=t+1,若t小于d,则返回步骤3),否则进入步骤5)。
5)返回X,即为采样得到的数据。
通过上述方式可以训练得到包括四层受限玻尔兹曼机的深度信念网络。进一步,为了提高数据分类的准确性,还可以通过该深度信念网络提取滤波后的样本数据的特征信息。然后将提取到的特征信息输入支持向量机(SVM)分类器中进行训练,以得到数据分类模型。
在可能的方式中,支持向量机的核函数可以是径向基函数,那么还可以针对支持向量机的惩罚系数和径向基函数的系数,通过网格搜索的方式在预设数值范围内进行遍历。相应地,将提取到的特征信息输入所述支持向量机进行训练可以是:针对提取到的特征信息,通过交叉验证的方式,在遍历过的所有数值中,确定支持向量机的最优惩罚系数和径向基函数的最优系数。其中,预设数值范围可以是根据实际情况设定的,本公开实施例不作限定。
其中,惩罚系数可以用于表征支持向量机对于误分类的容错率。惩罚系数越大,损失函数也会越大,这表明在分类过程中不会放弃比较远的离群点,从而可以得到更多的支持向量,进而支持向量和超平面的模型也会变得越复杂,更容易过拟合。反之,惩罚系数越小,这表明在分类过程中可以放弃比较远的离群点,从而会选择较少的样本作为支持向量,进而支持向量和超平面的模型也会相对简单,更容易欠拟合。
径向基函数的系数可以用于表征待分类的数据被确定为支持向量的概率值。该系数可以定义单个样本对整个分类超平面的影响。当该系数比较小时,单个样本对整个分类超平面的影响比较小,不容易被选择为支持向量。反之,当该系数比较大时,单个样本对整个分类超平面的影响比较大,更容易被选择为支持向量,或者说整个模型的支持向量也会更多。
在本公开实施例中,为了提高数据分类的准确性,可以采用网格搜索方式在预设数值范围内搜索以确定惩罚系数和径向基函数的系数。例如,可以将预设数值范围设定为[0.01,100],那么可以采用网格搜索方式在[0.01,100]的范围内搜索以确定惩罚系数和径向基函数的系数。具体的,可以在[0.01,100]中将惩罚系数和径向基函数的系数可能的取值进行列举,得到数值可能性表格,该表格中的每一个单元格即为一个网格。比如在[0.01,100]中惩罚系数有100种可能,径向基函数的系数有120种可能,则可以得到100×120的表格,然后可以按照表格的单元格进行网格搜索遍历。
针对每一次遍历,可以采取交叉验证的方式,以确定最优惩罚系数和径向基函数的最优系数。比如,交叉验证系数选择4,即,将样本数据分成4份来进行交叉验证,其中可以将1份数据作为用于训练模型的数据,另外3份数据作为待进行分类的数据进行交叉验证。当然,也可以进行其他数据划分以实现交叉验证,本公开实施例对此不作限定。在划分样本数据后,可以进行模型的迭代训练,直到训练次数达到预设的最大迭代次数。其中,为了提升训练速度,可以设定选取最大迭代次数为1000次。
然后,可以将待进行分类的数据(即,未用于训练的数据)输入模型中进行数据分类,得到数据分类结果。通过这样的方式,每一次遍历的数值,都可以得到对应的数据分类结果,从而可以根据数据分类结果,将更加准确的数据分类结果所对应的惩罚参数确定为最优惩罚参数,并将更加准确的数据分类结果所对应的径向基函数的系数确定为该径向基函数的最优系数。
通过上述方式,可以训练得到包括深度信念网络和支持向量机的数据分类模型,在此训练过程中,无需人工预先标注样本数据,因此可以减少用于样本数据标注的人力和时间,从而提高数据分类的效率和智能性。
下面以待分类数据为心电波形数据、数据分类模型包括深度信念网络和支持向量机为例对本公开中的数据分类方法进行说明。参照图3,该数据分类方法可以包括:
步骤301,针对未标注的样本数据进行滤波处理。其中,样本数据包括房颤样本数据和正常心律样本数据。
步骤302,将滤波后的样本数据转换为图像输入深度信念网络进行无监督训练,并通过深度信念网络提取滤波后的样本数据的特征信息。
步骤303,针对提取到的特征信息,通过网格搜索和交叉验证的方式,确定支持向量机的最优惩罚系数和径向基函数的最优系数。
步骤304,通过多个不同的模糊半径,确定用于高斯滤波的多个高斯核。
步骤305,根据预设权重值,对多个高斯核进行加权求和,得到目标高斯核。
步骤306,通过目标高斯核对数据进行高斯滤波。
步骤307,针对高斯滤波后的数据,通过巴特沃斯滤波器进行滤波处理。
步骤308,针对滤波后的数据,按照预设时长对数据进行分段。
步骤309,将分段后的每一个数据分别转换为图像。
步骤310,将分别转换为图像后的数据输入训练好的深度信念网络进行特征提取。
步骤311,将提取到的特征输入训练好的支持向量机中,得到数据分类结果。其中,该数据分类结果用于表征数据为房颤数据或正常心律数据。
上述各步骤的具体实施方式已在上文进行详细举例说明,这里不再赘述。另外应当理解的是,对于上述方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受上文所描述的动作顺序的限制。其次,本领域技术人员也应该知悉,上文所描述的实施例属于优选实施例,所涉及的步骤并不一定是本公开所必须的。
通过上述方式,针对心电数据分类,无需人工预先标注样本数据,因此可以减少数据分类过程中用于样本数据标注的人力和时间,提高数据分类的效率和智能性。并且,可以将数据转换为二维图像输入数据分类模型中进行分类,相较于直接对数据进行分类的方式,更能发现数据的变化趋势特征,从而可以提高数据分类的准确性。例如,通过上述方式对房颤样本数据集进行分类,经测试分类准确率可达到90%以上。
基于同一发明构思,本公开实施例还提供一种数据分类装置,该数据分类装置可以通过软件、硬件或者两者结合的方式成为电子设备的部分或全部。参照图4,数据分类装置400可以包括:
滤波模块401,用于对数据进行滤波处理,以去除所述数据中的噪声信号,其中,所述数据为时域波形数据;
转换模块402,用于将滤波后的所述数据转换为图像;
分类模块403,用于将转换为图像后的数据输入数据分类模型中,得到所述数据的分类结果,所述数据分类模型是根据未标注的样本数据进行无监督训练得到的。
可选地,所述数据为心电波形数据,所述样本数据包括房颤数据和正常心律数据,所述分类模块403用于:
将转换为图像后的数据输入所述数据分类模型中,得到所述数据为房颤数据或正常心律数据的分类结果。
可选地,所述数据分类模型包括深度信念网络和支持向量机,所述数据分类模型是通过如下模块得到的:
样本滤波模块,用于针对未标注的样本数据进行滤波处理;
第一训练模块,用于将滤波后的所述样本数据转换为图像输入所述深度信念网络进行无监督训练,并通过所述深度信念网络提取滤波后的所述样本数据的特征信息;
第二训练模块,用于将提取到的所述特征信息输入所述支持向量机进行训练,得到所述数据分类模型。
可选地,所述支持向量机的核函数为径向基函数,所述装置400还包括:
遍历模块,用于针对所述支持向量机的惩罚系数和所述径向基函数的系数,通过网格搜索的方式在预设数值范围内进行遍历,所述惩罚系数用于表征所述支持向量机对于误分类的容错率,所述径向基函数的系数用于表征待分类的数据被确定为支持向量的概率值;
所述第二训练模块用于:
针对提取到的所述特征信息,通过交叉验证的方式,在遍历过的所有数值中,确定所述支持向量机的最优惩罚系数和所述径向基函数的最优系数。
可选地,所述转换模块402用于:
针对滤波后的所述数据,按照预设时长对所述数据进行分段;
将分段后的每一个数据分别转换为图像。
可选地,所述滤波模块401用于:
通过高斯滤波对所述数据进行一次滤波处理;
针对高斯滤波后的所述数据,通过巴特沃斯滤波器进行二次滤波处理,以去除所述数据中的工频干扰信号、高频肌电信号和低频基线漂移中的至少一者。
可选地,所述所述滤波模块401用于:
通过多个不同的模糊半径,确定用于高斯滤波的多个高斯核;
根据预设权重值,对所述多个高斯核进行加权求和,得到目标高斯核;
通过所述目标高斯核对所述数据进行高斯滤波。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
基于同一发明构思,本公开实施例还提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现上述任一数据分类方法的步骤。
在可能的方式中,该电子设备的框图可以如图5所示。参照图5,该电子设备500可以包括处理器501和存储器502,还可以包括多媒体组件503,输入/输出(I/O)接口504,以及通信组件505中的一者或多者。
其中,处理器501用于控制该电子设备500的整体操作,以完成上述的数据分类方法中的全部或部分步骤。存储器502用于存储各种类型的数据以支持在该电子设备500的操作,这些数据例如可以包括用于在该电子设备500上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如数据分类结果等等。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static RandomAccess Memory,简称SRAM),电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口504为处理器501和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件505用于该电子设备500与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near Field Communication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件505可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备500可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的数据分类方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的数据分类方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器502,上述程序指令可由电子设备500的处理器501执行以完成上述的数据分类方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的数据分类方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (10)

1.一种数据分类方法,其特征在于,所述方法包括:
对数据进行滤波处理,以去除所述数据中的噪声信号,其中,所述数据为时域波形数据;
将滤波后的所述数据转换为图像;
将转换为图像后的所述数据输入数据分类模型中,得到所述数据的分类结果,其中,所述数据分类模型是根据未标注的样本数据进行无监督训练得到的。
2.根据权利要求1所述的方法,其特征在于,所述数据为心电波形数据,所述样本数据包括房颤数据和正常心律数据,所述将转换为图像后的所述数据输入数据分类模型中,得到所述数据的分类结果,包括:
将转换为图像后的所述数据输入所述数据分类模型中,得到所述数据为房颤数据或正常心律数据的分类结果。
3.根据权利要求1或2所述的方法,其特征在于,所述数据分类模型包括深度信念网络和支持向量机,所述数据分类模型是通过如下方式得到的:
针对未标注的样本数据进行滤波处理;
将滤波后的所述样本数据转换为图像输入所述深度信念网络进行无监督训练,并通过所述深度信念网络提取滤波后的所述样本数据的特征信息;
将提取到的所述特征信息输入所述支持向量机进行训练,得到所述数据分类模型。
4.根据权利要求3所述的方法,其特征在于,所述支持向量机的核函数为径向基函数,所述方法还包括:
针对所述支持向量机的惩罚系数和所述径向基函数的系数,通过网格搜索的方式在预设数值范围内进行遍历,所述惩罚系数用于表征所述支持向量机对于误分类的容错率,所述径向基函数的系数用于表征待分类的数据被确定为支持向量的概率值;
所述将提取到的所述特征信息输入所述支持向量机进行训练,包括:
针对提取到的所述特征信息,通过交叉验证的方式,在遍历过的所有数值中,确定所述支持向量机的最优惩罚系数和所述径向基函数的最优系数。
5.根据权利要求1或2所述的方法,其特征在于,所述将滤波后的所述数据转换为图像,包括:
针对滤波后的所述数据,按照预设时长对所述数据进行分段;
将分段后的每一个数据分别转换为图像。
6.根据权利要求1或2所述的方法,其特征在于,所述对数据进行滤波处理,包括:
通过高斯滤波对所述数据进行一次滤波处理;
针对高斯滤波后的所述数据,通过巴特沃斯滤波器进行二次滤波处理,以去除所述数据中的工频干扰信号、高频肌电信号和低频基线漂移中的至少一者。
7.根据权利要求6所述的方法,其特征在于,所述通过高斯滤波对所述数据进行一次滤波处理,包括:
通过多个不同的模糊半径,确定用于高斯滤波的多个高斯核;
根据预设权重值,对所述多个高斯核进行加权求和,得到目标高斯核;
通过所述目标高斯核对所述数据进行高斯滤波。
8.一种数据分类装置,其特征在于,所述装置包括:
滤波模块,用于对数据进行滤波处理,以去除所述数据中的噪声信号,其中,所述数据为时域波形数据;
转换模块,用于将滤波后的所述数据转换为图像;
分类模块,用于将转换为图像后的所述数据输入数据分类模型中,得到所述数据的分类结果,所述数据分类模型是根据未标注的样本数据进行无监督训练得到的。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-7中任一项所述方法的步骤。
CN202010230613.XA 2020-03-27 2020-03-27 数据分类方法、装置、存储介质及电子设备 Pending CN111476282A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010230613.XA CN111476282A (zh) 2020-03-27 2020-03-27 数据分类方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010230613.XA CN111476282A (zh) 2020-03-27 2020-03-27 数据分类方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN111476282A true CN111476282A (zh) 2020-07-31

Family

ID=71750316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010230613.XA Pending CN111476282A (zh) 2020-03-27 2020-03-27 数据分类方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN111476282A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652108A (zh) * 2020-05-28 2020-09-11 中国人民解放军32802部队 抗干扰的信号识别方法、装置、计算机设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106805965A (zh) * 2016-12-19 2017-06-09 深圳先进技术研究院 一种心电信号分类方法及装置
CN107844755A (zh) * 2017-10-23 2018-03-27 重庆邮电大学 一种结合dae和cnn的脑电信号特征提取与分类方法
CN108197666A (zh) * 2018-01-30 2018-06-22 咪咕文化科技有限公司 一种图像分类模型的处理方法、装置及存储介质
CN108464827A (zh) * 2018-03-08 2018-08-31 四川大学 一种弱监督下的心电图像识别方法
CN110090012A (zh) * 2019-03-15 2019-08-06 上海图灵医疗科技有限公司 一种基于机器学习的人体疾病检测方法及检测产品
CN110491416A (zh) * 2019-07-26 2019-11-22 广东工业大学 一种基于lstm和sae的电话语音情感分析与识别方法
KR20190141326A (ko) * 2018-06-14 2019-12-24 한국과학기술원 심층 컨볼루션 신경망을 이용한 심전도 부정맥 분류 방법 및 장치
CN110766099A (zh) * 2019-11-08 2020-02-07 哈尔滨理工大学 结合判别式深度置信网络和主动学习的心电分类方法
CN110840402A (zh) * 2019-11-19 2020-02-28 山东大学 一种基于机器学习的房颤信号识别方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106805965A (zh) * 2016-12-19 2017-06-09 深圳先进技术研究院 一种心电信号分类方法及装置
CN107844755A (zh) * 2017-10-23 2018-03-27 重庆邮电大学 一种结合dae和cnn的脑电信号特征提取与分类方法
CN108197666A (zh) * 2018-01-30 2018-06-22 咪咕文化科技有限公司 一种图像分类模型的处理方法、装置及存储介质
CN108464827A (zh) * 2018-03-08 2018-08-31 四川大学 一种弱监督下的心电图像识别方法
KR20190141326A (ko) * 2018-06-14 2019-12-24 한국과학기술원 심층 컨볼루션 신경망을 이용한 심전도 부정맥 분류 방법 및 장치
CN110090012A (zh) * 2019-03-15 2019-08-06 上海图灵医疗科技有限公司 一种基于机器学习的人体疾病检测方法及检测产品
CN110491416A (zh) * 2019-07-26 2019-11-22 广东工业大学 一种基于lstm和sae的电话语音情感分析与识别方法
CN110766099A (zh) * 2019-11-08 2020-02-07 哈尔滨理工大学 结合判别式深度置信网络和主动学习的心电分类方法
CN110840402A (zh) * 2019-11-19 2020-02-28 山东大学 一种基于机器学习的房颤信号识别方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MENG HUANHUAN ET AL.: "Classification of Electrocardiogram Signals with Deep Belief Networks", pages 1 - 6 *
TAE JOON JUN ET AL.: "ECG arrhythmia classification using a 2-D convolutional neural network", 《ARXIV》, pages 1 - 22 *
孟欢欢: "心电信号自动分析的几种算法研究", pages 136 - 50 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652108A (zh) * 2020-05-28 2020-09-11 中国人民解放军32802部队 抗干扰的信号识别方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
Aayesha et al. Machine learning-based EEG signals classification model for epileptic seizure detection
US10869610B2 (en) System and method for identifying cardiac arrhythmias with deep neural networks
CN111160139B (zh) 心电信号的处理方法、装置及终端设备
CN112353402B (zh) 心电信号分类模型的训练方法、心电信号分类方法及装置
Alickovic et al. Effect of multiscale PCA de-noising in ECG beat classification for diagnosis of cardiovascular diseases
Tuncer et al. Tetromino pattern based accurate EEG emotion classification model
Dogan et al. Primate brain pattern-based automated Alzheimer's disease detection model using EEG signals
Dong et al. Subject sensitive EEG discrimination with fast reconstructable CNN driven by reinforcement learning: A case study of ASD evaluation
Malviya et al. A novel technique for stress detection from EEG signal using hybrid deep learning model
CN114027786B (zh) 基于自监督式记忆网络的睡眠呼吸障碍检测方法及系统
Chen et al. Negative-ResNet: noisy ambulatory electrocardiogram signal classification scheme
CN113469218A (zh) 基于深度学习的心电信号危急值处理方法、系统及介质
Diker et al. Examination of the ECG signal classification technique DEA-ELM using deep convolutional neural network features
Jain et al. Effective de‐noising of ECG by optimised adaptive thresholding on noisy modes
Khatar et al. Advanced detection of cardiac arrhythmias using a three-stage CBD filter and a multi-scale approach in a combined deep learning model
Khan et al. A novel framework for classification of two-class motor imagery EEG signals using logistic regression classification algorithm
CN111476282A (zh) 数据分类方法、装置、存储介质及电子设备
Rouhani et al. A comparison of different feature extraction methods for diagnosis of valvular heart diseases using PCG signals
Mogili et al. K-means monarchy butterfly optimization for feature selection and Bi-LSTM for arrhythmia classification
Jabari et al. Fusing handcrafted and deep features for multi-class cardiac diagnostic decision support model based on heart sound signals
Shojaedini et al. A new method for detecting p300 signals by using deep learning: hyperparameter tuning in high-dimensional space by minimizing nonconvex error function
Sampath et al. Sparse based recurrent neural network long short term memory (rnn-lstm) model for the classification of ecg signals.
Meng et al. Biosignal Classification Based on Multi-Feature Multi-Dimensional WaveNet-LSTM Models.
EP4193918A1 (en) Apparatus, methods and computer programs for identifying characteristics of biological samples
Morabbi et al. A new method for P300 detection in deep belief networks: Nesterov momentum and drop based learning rate

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200731

RJ01 Rejection of invention patent application after publication