CN110020714B - 模型训练及数据分析方法、装置、设备以及存储介质 - Google Patents

模型训练及数据分析方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN110020714B
CN110020714B CN201810022981.8A CN201810022981A CN110020714B CN 110020714 B CN110020714 B CN 110020714B CN 201810022981 A CN201810022981 A CN 201810022981A CN 110020714 B CN110020714 B CN 110020714B
Authority
CN
China
Prior art keywords
data
time sequence
training
time series
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810022981.8A
Other languages
English (en)
Other versions
CN110020714A (zh
Inventor
谢志辉
盖永波
赵钰
王骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Banma Zhixing Network Hongkong Co Ltd
Original Assignee
Banma Zhixing Network Hongkong Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Banma Zhixing Network Hongkong Co Ltd filed Critical Banma Zhixing Network Hongkong Co Ltd
Priority to CN201810022981.8A priority Critical patent/CN110020714B/zh
Publication of CN110020714A publication Critical patent/CN110020714A/zh
Application granted granted Critical
Publication of CN110020714B publication Critical patent/CN110020714B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Automatic Analysis And Handling Materials Therefor (AREA)

Abstract

本公开提供了一种针对时序数据的模型训练及数据分析方法、装置、设备以及存储介质。构造训练样本,训练样本包括一个或多个时序数据,不同的时序数据对应于不同的特征维度,每个时序数据分别包括多个按时间顺序排列的数据;使用一个或多个训练样本训练时序数据分析模型,时序数据分析模型用于对包括一个或多个时序数据的样本所属的类别进行分析。由此,利用训练好的模型可以实现对时序数据的自动判读。

Description

模型训练及数据分析方法、装置、设备以及存储介质
技术领域
本公开涉及数据分析领域,特别是涉及针对时序数据的模型训练及数据分析方法、装置、设备以及存储介质。
背景技术
针对诸多领域中的时序数据,目前大多是由行业内经验丰富的专家通过人工判读的方式对生成的时序数据进行分析,以确定时序数据所属的类别。这种人工判断方式对人力资源要求较高,且不能实现对大规模时序数据的快速判断。
例如,在石油领域里,测井资料可以提供地下油层分部结构和沉积特性的大量信息。测井数据是以等距方式采集一组物理量的数据,并以关系模式形式记录,常常用一组曲线形式直观显示,称为测井曲线,测井曲线是一种地质岩石物理特性随深度变化的响应信号。因此,测井数据也可以视为一种时序数据。而目前对这些测量数据的判断,完全是依赖于技术人员的人工判断,只是将信息传递过程做了优化,成立了集中的分发中心,但限于人力有限,无法规模化应用,而且整个流程耗时耗力,无法快速实现对大规模时序数据的判读。
因此,需要一种能够对时序数据进行自动分析的数据分析方案。
发明内容
本公开的主要目的在于提供一种能够无需依赖人力即可自动实现对时序数据的分析的模型训练及数据分析方法、装置、设备以及存储介质。
根据本公开的第一个方面,提供了一种模型训练方法,包括:构造训练样本,训练样本包括一个或多个时序数据,不同的时序数据对应于不同的特征维度,每个时序数据分别包括多个按时间顺序排列的数据;使用一个或多个训练样本训练时序数据分析模型,时序数据分析模型用于对包括一个或多个时序数据的样本所属的类别进行分析。
优选地,训练样本还包括一个或多个时序数据所对应的标记,标记用于标记训练样本所属的类别。
优选地,一个或多个时序数据是下述信息中的一项:用户的一项或多项身体指标;一项或多项油气探测指标;一项或多项光伏切片制造工艺参数;一项或多项风能机组性能参数;一项或多项环保设备监测参数;一项或多项交通运输数据;一项或多项空港生产参数。
优选地,一个或多个时序数据可以包括以下一项或多项身体指标:心率数据曲线;脑电图;呼吸仪成像;血压数据曲线。
优选地,不同的时序数据对应于不同的油气探测指标,每个时序数据包括多个以等距方式先后采集的对应不同地表深度的地质测量数据,并且一个或多个时序数据可以包括以下一项或多项油气探测指标:电阻率;孔隙率;渗透率;伽马能谱质量密度;声波速度;中子孔隙度;光谱噪声。
优选地,时序数据分析模型是特定结构的卷积神经网络模型。
优选地,卷积神经网络模型包括位于卷积层和激活函数层之间的批标准化层,批标准化层用于对卷积层输出的数据分批次地进行随机梯度下降训练,对每批下降训练后的数据进行归一化处理,并将归一化处理后的数据输入激活函数层。
优选地,卷积神经网络模型还包括预定层数的特征提取层,每层特征提取层包括依次连接的卷积层、批标准化层、激活函数层、网络节点丢弃层、卷积层以及最大池化层。
优选地,构造训练样本的步骤可以包括:在一个类别的训练样本的数量低于第三预定阈值的情况下,基于该类别的训练样本的时序数据,构造新的时序数据,以得到属于该类别的新的训练样本。
优选地,使用上采样的方式构造新的时序数据;或者使用SMOTE算法构造新的时序数据。
优选地,训练样本分为正样本和负样本,在其中一个类别的训练样本的数量低于第四预定阈值的情况下,构造训练样本的步骤还可以包括:对另一个类别的训练样本进行下采样,以减少另一个类别的训练样本的数量。
优选地,该方法还可以包括:针对数据量小于第一预定阈值的时序数据,对时序数据进行增补,以使其数据量大于或等于第一预定阈值。
优选地,对其时序数据进行增补的步骤可以包括:插入预定数量的零值;并且/或者插入预定数量的时序数据的均值;并且/或者根据插入位置的在前数据和在后数据,使用线性插值算法确定插入位置的数据。
优选地,该方法还可以包括:剔除数据量小于第二预定阈值的时序数据。
优选地,时序数据分析模型将样本划分为预设的第一类别或第二类别,并且用于分析包括一个或多个时序数据的样本属于第一类别或第二类别。
根据本公开的第二个方面,还提供了一种数据分析方法,包括:获取对应于一种或多种特征维度的时序信息;将时序信息上传至服务器;以及接收服务器对时序信息进行分析的分析结果,所述分析结果包括根据所述时序信息确定的类别。
优选地,所述将时序信息上传至服务器的步骤包括:基于所述时序信息生成样本,样本包括一个或多个时序数据,不同的时序数据对应于不同的特征维度,每个时序数据分别包括多个按时间顺序排列的数据;将样本上传至服务器。
优选地,时序信息是下述信息中的一项:用户的一项或多项身体指标;一项或多项油气探测指标;一项或多项光伏切片制造工艺参数;一项或多项风能机组性能参数;一项或多项环保设备监测参数;一项或多项交通运输数据;一项或多项空港生产参数。
优选地,时序信息可以包括以下一项或多项身体指标:心率数据曲线;脑电图;呼吸仪成像;血压数据曲线。
优选地,该方法还可以包括:在分析结果表明时序信息属于预设类别的情况下,提示用户联系医生。
优选地,该方法还可以包括:在分析结果表明时序信息属于预设类别的情况下,向用户展示医生针对时序信息的复判结果。
根据本公开的第三个方面,还提供了一种数据分析方法,包括:获取用户通过客户端上传的对应于一种或多种特征维度的时序信息;使用预先训练好的时序数据分析模型对时序信息进行分析,以确定时序信息的类别;以及向用户下发分析结果。
优选地,时序数据分析模型可以是使用上文第一个方面述及的模型训练方法训练得到的。
优选地,时序信息是下述信息中的一项:用户的一项或多项身体指标;一项或多项油气探测指标;一项或多项光伏切片制造工艺参数;一项或多项风能机组性能参数;一项或多项环保设备监测参数;一项或多项交通运输数据;一项或多项空港生产参数。
优选地,使用预先训练好的时序数据分析模型对时序信息进行分析的步骤可以包括:从时序信息中提取一个或多个时序数据,以生成包括所述一个或多个时序数据的样本,不同的时序数据对应于不同的特征维度,每个时序数据包括多个按时间顺序排列的数据;使用预先训练好的时序数据分析模型对样本所属的类别进行分析。
优选地,该方法还可以包括:在提取的时序数据的数据量小于第一预定阈值的情况下,对时序数据进行增补,以使其数据量大于或等于第一预定阈值。
优选地,对时序数据进行增补的步骤可以包括:插入预定数量的零值;并且/或者插入预定数量的时序数据的均值;并且/或者根据插入位置的在前数据和在后数据,使用线性插值算法确定插入位置的数据。
优选地,该方法还可以包括:在提取的时序数据的数据量小于第二预定阈值的情况下,重新获取用户通过客户端上传的时序信息。
根据本公开的第四个方面,还提供了一种模型训练装置,包括:训练样本构造装置,用于构造训练样本,训练样本包括一个或多个时序数据,不同的时序数据对应于不同的特征维度,每个时序数据分别包括多个按时间顺序排列的数据;模型训练装置,用于使用一个或多个训练样本训练时序数据分析模型,时序数据分析模型用于对包括一个或多个时序数据的样本所属的类别进行分析。
根据本公开的第五个方面,还提供了一种数据分析设备,包括:数据采集装置,用于采集对应于一种或多种特征维度的时序信息;以及第一通信装置,用于将时序信息上传至服务器,并接收服务器对时序信息进行分析的分析结果,所述分析结果包括根据所述时序信息确定的类别。
优选地,数据分析设备还可以包括数据处理装置,用于基于时序信息生成样本,样本包括一个或多个时序数据,不同的时序数据对应于不同的特征维度,每个时序数据分别包括多个按时间顺序排列的数据,第一通信装置将样本上传至服务器。
优选地,时序信息是下述信息中的一项:用户的一项或多项身体指标;一项或多项油气探测指标;一项或多项光伏切片制造工艺参数;一项或多项风能机组性能参数;一项或多项环保设备监测参数;一项或多项交通运输数据;一项或多项空港生产参数。
优选地,数据采集装置可以包括:心率采集装置,用于采集用户的心率数据曲线;和/或脑电图采集装置,用于采集用户的脑电图;和/或呼吸成像装置,用于采集用户的呼吸参数并成像;和/或血压采集装置,用于采集用户的血压数据曲线。
优选地,数据分析设备还可以包括:提示装置,用于在分析结果表明时序信息属于预设类别的情况下,提示用户联系医生。
优选地,数据分析设备还可以包括:展示装置,用于在在分析结果表明时序信息属于预设类别的情况下,向用户展示医生针对时序数据的复判结果。
根据本公开的第六个方面,还提供了一种数据分析设备,包括:第二通信装置,通过与客户端通信,获取用户通过客户端上传的对应于一种或多种特征维度的时序信息;信息处理装置,用于利用预先训练好的时序数据分析模型对时序信息进行分析,以确定时序信息的类别,并通过第二通信装置向用户下发分析结果。
优选地,数据分析设备还可以包括:模型训练装置,用于使用上文第一个方面述及的模型训练方法训练时序数据分析模型。
优选地,时序信息是下述信息中的一项:用户的一项或多项身体指标;一项或多项油气探测指标;一项或多项光伏切片制造工艺参数;一项或多项风能机组性能参数;一项或多项环保设备监测参数;一项或多项交通运输数据;一项或多项空港生产参数。
优选地,信息处理装置从时序信息中提取一个或多个时序数据,以生成包括一个或多个时序数据的样本,不同的时序数据对应于不同的特征维度,每个时序数据包括多个按时间顺序排列的数据,信息处理装置使用时序数据分析模型对样本所属的类别进行分析。
优选地,在提取的时序数据的数据量小于第一预定阈值的情况下,信息处理装置还对时序数据进行增补,以使其数据量大于或等于第一预定阈值。
优选地,信息处理装置通过插入预定数量的零值,实现对时序数据的增补,以及/或者信息处理装置通过插入预定数量的时序数据的均值,实现对时序数据的增补,以及/或者信息处理装置根据插入位置的在前数据和在后数据,使用线性插值算法确定插入位置的数据。
优选地,在提取的时序数据的数据量小于第二预定阈值的情况下,重新通过第二通信装置获取用户上传的时序信息。
根据本公开的第七个方面,还提供了一种数据分析装置,包括:第一获取装置,用于获取对应于一种或多种特征维度的时序信息;上传装置,用于将时序信息上传至服务器;以及接收装置,用于接收服务器对时序信息进行分析的分析结果,所述分析结果包括根据所述时序信息确定的类别。
根据本公开的第八个方面,还提供了一种数据分析装置,包括:第二获取装置,用于获取客户端上传的对应于一种或多种特征维度的时序信息;分析装置,用于使用预先训练好的时序数据分析模型对时序信息进行分析,以确定所述时序信息的类别;以及发送装置,用于向用户下发分析结果。
根据本公开的第九个方面,还提供了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当可执行代码被处理器执行时,使处理器执行如上文第一个方面至第三个方面中任何一方面述及的方法。
根据本公开的第十个方面,还提供了一种非暂时性机器可读存储介质,其上存储有可执行代码,当可执行代码被电子设备的处理器执行时,使处理器执行如上文第一个方面至第三个方面中任何一方面述及的方法。
利用本公开的模型训练方案可以训练出能够自动对包括一个或多个时序数据的样本的类型进行识别的模型,由此可以利用训练好的模型实现对时序数据的自动判读。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了本公开的一个示意性的卷积神经网络模型的结构图。
图2示出了卷积层的工作原理示意图。
图3示出了最大池化层的工作原理示意图。
图4示出了全连接层的一种结构示意图。
图5示出了根据本公开一实施例的模型训练方法的示意性流程图。
图6示出了本公开一实施例的数据分析方法的示意性流程图。
图7示出了根据本公开一实施例的数据分析设备的结构示意图。
图8示出了根据本公开另一实施例的数据分析设备的结构示意图。
图9示出了根据本公开一实施例的模型训练装置的结构的示意性方框图。
图10示出了根据本公开一实施例的数据分析装置的结构的示意性方框图。
图11示出了根据本公开另一实施例的数据分析装置的结构的示意性方框图。
图12示出了可以用于执行本公开的计算设备的示意性框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
【概述】
时序数据是指时间序列数据。时间序列数据是按时间顺序记录的对应于同一指标(也即同一特征维度)的数据列。在同一数据列中的各个数据必须是同口径的,要求具有可比性。时序数据可以是时期数,也可以是时点数。
本公开述及的时序数据可以是各个领域中的时间序列数据。优选地可以是需要根据时序数据所体现的时序特征进行类别判断的时序数据。例如,油气勘探领域中的测井数据,如可以包括电阻率、孔隙率、渗透率、伽马能谱;质量密度;声波速度;中子孔隙度;光谱噪声等时序数据;医疗领域中的心脏曲线、脑电图、呼吸仪成像、血压数据曲线等时序数据;科学研究领域中的天文观测、气象图像等时序数据;金融领域如股市中随时间变化的交易价格、交易量等时序数据。这些时序数据的时序特征能够反映对相应领域内的特定指标进行分析,例如根据油气勘探领域中的测井数据可以分析地下是否有油气,根据天文观测、气象图像等时序数据可以预测天气,根据交易价格、交易量等时序数据可以预测股价,根据心脏曲线、脑电图、呼吸仪成像、血压数据曲线等时序数据可以预测身体是否异常等等。
另外,还可以是根据对应一项或多项光伏切片制造工艺参数的时序数据,评价制造业的光伏切片制造工艺;根据对应一项或多项风能机组性能参数的时序数据,判断风能机组是否产生故障;根据对应一项或多项环保设备监测参数的时序数据,判断设备是否异常;根据对应一项或多项交通运输数据的时序数据,判断交通运输质量;根据对应一项或多项空港生产参数的时序数据,进行空港生产预警等等。
针对上述诸多领域中产生的时序数据,目前大多是由行业内经验丰富的专家通过人工判读的方式对时序数据进行分析。这种人工判断方式对人力资源要求较高,且不能实现对大规模时序数据的快速判断。
有鉴于此,为了实现对时序数据的自动判读,本发明的发明人注意到,可以将时序数据作为训练样本,利用一定的训练方式进行模型训练,以得到能够对包括时序数据的样本所属的类别进行自动判读的时序数据分析模型。由此,利用训练好的模型可以识别包括一个或多个时序数据的样本所属的类别,从而可以实现对时序数据的自动分析。
【模型的结构】
在模型训练过程中,本发明的发明人尝试了使用QAN(Quality Aware Network,质量感知网络)、机器学习中的生成模型、GBM(Gradient Boosting Method,梯度下降法)、CNN(Convolutional Neural Network,卷积神经网络)等多种方式生成训练模型。
使用QAN训练模型时,原本期望通过对不同的输入数据赋权,以换取更大的网络容量,但是最终训练得到的模型效果不如CNN,准确率大约差了6%。分析原因可能是QAN所预测的是一组样本的类别,以至于只需要发现一例异常即可判定异常,这样间接降低了训练的难度,使得最终的得到的模型在单个样本的测试中效果偏差。
使用GBM最终训练得到的模型可以达到不错的准确率,但是发明人注意到该模型严重依赖于个别特征,而且所得到的模型对序列不敏感,换句话说,将时序数据打乱后得到的输出结果是一样的。
另外也可以通过生成模型直接训练判别器,实现对时序数据的分类判断。
经过多次尝试后,本发明的发明人注意到,CNN结构训练的模型效果最佳。因此作为优选,可以训练CNN模型作为时序数据分析模型。其中CNN的结构可以有多种选择。根据以往经验,为了使得CNN的模型效果最佳,需要多层的网络迭代,并且考虑到用户给与的数据量有限,可能存在过拟合问题,需要克服。
图1示出了本公开的一个示意性的卷积神经网络模型的结构图。
图中各个字段表示的含义为,input为输入层,Conv为卷积层,BN为批标准化层,ReLU为激活函数层,Dropout为网络节点丢弃层,Maxpoool为最大池化层,Dense为全连接层,Softmax为分类器。
input主要用于接收样本(时序数据)的输入。在本公开中,输入层可以将时序数据转换为矩阵形式进行处理,即,可以按照时序数据的数据排列顺序,将时序数据所包括的多个数据转换为预定尺寸的矩阵。
Conv可以对输入数据做卷积,将得到的结果当作下一层的输入。例如图2所示,可以选取5x5的过滤器做卷积,以得到第一层隐藏层。
在海量数据处理过程中,每一层的数据在进入激活函数的数值是很关键的,直接决定了之后生成的概率值。而网络除了输出层外,其它层因为低层网络在训练的时候更新了参数,而引起后面层输入数据分布的变化。为了减小该变化,本公开在Conv和ReLU之间设置了BN,用于Conv输出的数据分批次地进行随机梯度下降训练,对每批下降训练后的数据进行标准化(归一化)处理,并将归一化处理后的数据输入下一层(即ReLU)。
ReLU,rectified linear unit,线性整流激活函数,用来防止梯度消失。做法是对上一层的结果x,输出的值f(x)满足如下关系,f(x)=max{0,x}。
Dropout主要用于防止模型过拟合,也即模型的学习将基于更广泛的特征而非当前训练样本特有的特征,从而是学习的过程更有效,在碰到其他真实数据集的时候也更准确。做法为以一定的概率抛弃某些节点,从而在网络传导过程中认为的减少很多节点之间的联系。
Maxpoool,最大子采样函数取区域内所有神经元的最大值。如图3所示,以步长为2的最大池化,将一个4x4的矩阵按照2x2的小块分割后取每一小块的最大值代表原小块,从而对矩阵进行了压缩。该步骤对应于神经网络学习的translation invariant,即不是特别在乎特征的具体位置,但是在乎特征在某个大致区域的存在性。
Dense,全联接,即每一个节点都与下一层的每个节点连接。如图4所示,一个简单的三层全连接神经网络,每层的任意节点都与之相邻层的每个节点连接。
Softmax用于对向量对概率归一化,它是一个映射,对于一个向量z=(z,z2,…,zn),我们将从新对z的n个分量进行赋值是的各分量的和为1。Softmax的诸多之一好处是得到的结果可以直接当作概率模型的结果输出。
Figure BDA0001544163150000101
如图1所示,本公开的卷积神经网络模型可以包括N层特征提取层,在input和N层特征提取层之间可以依次设置Conv、BN以及ReLU,在N层特征提取层和全连接层之间可以依次设置BN以及ReLU。其中,每层特征提取层可以包括依次连接的卷积层、批标准化层、激活函数层、网络节点丢弃层、卷积层以及最大池化层。优选地,N可以取6。
对于图1所示的CNN结构,模型的过拟合问题在以上CNN结构中得到了缓解,网络的层数可以优选地控制在了6层,最终选取了合适的padding的输入长度,其中做卷积的stride为1个单位,卷积之后的Maxpool的kernel大小为3,stride为2。最终输出之前并非全卷积结构,加入了一层全连接。
本公开的卷积神经网络模型可以专注于做二分类判读,即对包括时序数据的样本仅仅做是非判断,比如只在两种类别,第一类别A和第二类别B之间做出判断,二分类判读即判断样本属于A类,或者不属于A类(B类)。当然,对于多种类别的判读,也可以选择多次迭代的模型,或者在原模型中使用输出结果向量化的方法达到多类别判断。总体来说,二分类是基石,由此可以方便地衍生出更复杂的决策模型。
至此,就本公开的时序数据判断的实现原理及模型的选取做了简要说明,下面就时序数据分析模型的训练过程做进一步详细说明。
【模型的训练】
图5示出了根据本公开一实施例的模型训练方法的示意性流程图。
参见图5,在步骤S110,构造训练样本。
每个训练样本可以包括一个或多个时序数据,不同的时序数据对应于不同的特征维度,每个时序数据分别包括多个按时间顺序排列的数据。每个训练样本还可以包括所述一个或多个时序数据所对应的标记,该标记可以用于标记训练样本所属的类别。
在步骤S120,使用一个或多个训练样本训练时序数据分析模型,时序数据分析模型用于对包括一个或多个时序数据的样本所属的类别进行分析。
由此,每个训练样本可以包括一个对应于某一特征维度的时序数据,也可以包括多个分别对应于不同特征维度的时序数据。最终训练得到的时序数据分析模型可以对包括单个时序数据的样本的类别进行分析,也可以对包括多个时序数据的样本的类别进行分析。
例如,训练样本可以包括与用户的心率曲线数据对应的时序数据,训练样本的标记可以包括两类,正常和异常。由此训练得到的时序数据分析模型可以对采集的用户的心率数据曲线所属的类别进行分析,识别出用户的心率数据曲线是属于正常还是属于异常。
再例如,训练样本可以包括多个与油气探测领域中不同探测指标对应的时序数据,此处述及的时序数据可以是以等距方式先后采集的对应不同地表深度的地质测量数据。例如可以是电阻率、孔隙率、渗透率以及伽马能谱等多种时序数据。训练样本的标记也可以包括两类,地下有油气的正标记,地下没有油气的负标记。由此,训练得到的时序数据分析模型可以对不同地方采集的电阻率、孔隙率、渗透率以及伽马能谱等多种时序数据所属得到类别进行分析,识别出这多种时序数据对应的地下是否有油气。
如上文所述,可以利用QAN(Quality Aware Network,质量感知网络)、机器学习中的生成模型、GBM(Gradient Boosting Method,梯度下降法)、CNN(Convolutional NeuralNetwork,卷积神经网络)等多种方式生成训练模型,优选地可以训练CNN模型作为时序数据分析模型,其中,CNN模型的结构可以是上文图1所示的网络结构。
需要说明的是,利用本公开训练得到的时序数据分析模型也可以适用于对时序数据的检索。例如,可以对安全领域中的声纹时序数据进行检索。其中,此处述及的检索可以是指从多个时序数据中检索出符合特定类别的数据。
【时序数据】
本公开述及的时序数据可以是对使用设备或人工的方式原始采集得到的时序信息作进一步处理后得到的按时间顺序排列的数列。例如,可以是对使用心率采集设备采集得到的用户的心率数据曲线这一时序信号进行模数转换后,转换为数据化的时序信息,然后从中抽取多个按时间顺利排列的数据,以得到时序数据。其中,在获取不同领域的时序数据时,所使用的采集设备或人工采集方式也不尽相同,此处不再赘述。
获取的时序数据可能包含不同的数据量。在时序数据的数据量不充分(例如小于第一预定阈值)的情况下,可以对时序数据进行增补,以使其数据量满足要求,例如可以使增补后的数据量大于或等于第一预定阈值。其中,可以通过插零值、插平均值、线性插值等多种方式进行增补。
具体来说,可以插入预定数量的零值,例如可以在时序数据的两端插零值;也可以插入预定数量的均值,均值可以是时序数据的所有值的平均值;还可以根据插入位置的在前数据和在后数据,首先使用线性插值算法首先确定该插入位置的数据,然后将确定的数据插入该位置以实现增补。当然还可以有其它多种增补方式,此处不再赘述。
另外,在采集的时序数据的数据量过小(例如小于第二预定阈值)的情况下,此时进行插值处理可以认为误差较大,因此可以不再对其进行插值处理,而直接剔除该时序数据。其中,第二预定阈值小于第一预定阈值。
【训练样本】
在构造训练样本的过程中出现样本不均衡或者样本的数量较少(如低于第三预定阈值)的情况下,如在一个类别的训练样本的数量较少(如低于第三预定阈值)或相对较少的情况下,可以基于该类别已有的训练样本的时序数据,构造新的时序数据,得到属于该类别的新的训练样本,以丰富训练样本。例如,可以使用上采样的方式构造新的时序数据,也可以使用SMOTE算法构造虚假的但是很接近该类别的新的时序数据,当然还可以有多种其它构造方式,其中关于上采样和SMOTE算法为本领域人员所公知,此处不再赘述。
以二分类为例,训练样本可以分为正样本和负样本,一般来说,在油气探测领域,负样本较多,正样本较少,在医疗数据判断领域,正样本较多,负样本较少。在其中一个类别的训练样本的数量较少(例如小于第四预定阈值)或相对较少的情况下,除了可以使用上采样的方式或者SMOTE算法增加该类样本,还可以对另一个类别的训练样本进行下采样,以减少另一个类别的训练样本的数量,从而使得正负样本数量可以持平。
至此,结合图5就本公开的时序数据分析模型的训练方法做了详细说明。
对于多种领域中产生的时序数据,均可以利用本公开述及的模型训练方法预先训练相应的时序数据分析模型。由此,对于相应领域中产生的大量时序数据,均可以利用预先训练好的时序数据分析模型实现对时序数据的自动判读,识别出时序数据所属的类别。
下面以对于用户的身体指标相关的时序数据进行分析为例,就时序数据分析的实现流程进行说明。应该知道,基于本公开还可以实现对其他多种领域的时序数据的判读。
图6示出了本公开一实施例的数据分析方法的示意性流程图。如图6所示,本公开的数据分析方法可以由客户端和服务器协同实现。其中,客户端优选地是指安装在便携式移动设备上的客户端,如手机客户端。服务器可以是提供数据分析功能的云端服务器。
在步骤S210,可以获取对应于一种或多种特征维度的时序信息,如可以由客户端获取与用户的一项或多项身体指标相关联的时序信息。例如,可以包括心率数据曲线、脑电图、呼吸仪成像、血压数据曲线等一项或多项时序信息。
此处获取的时序信息可以是实时采集得到的,也可以是用户上传至客户端的之前采集的信息。例如,用户可以通过客户端提供的心率数据采集功能、脑电图采集功能、呼吸仪成像功能、血压数据采集功能等一项或多项身体指标采集功能实时采集时序信息。再例如,用户也可以通过其它客户端设备,如专门采集身体指标数据的医疗设备,采集时序信息,将采集的时序信息上传至客户端,以得到时序信息。
采集的时序信息优选地为数字化的信息。其中,在采集的时序信息为时序信号的情况下,可以经过模数转换,转换为数字化的时序信息,可以是数据曲线,也可以是采样后的时序数据。
在步骤S220,将时序信息上传至服务器。
上传的时序信息可以是原始采集数据,也可以是对原始采集数据做进一步处理得到的时序数据。例如可以基于时序信息生成样本,样本包括一个或多个时序数据,不同的时序数据对应于不同的特征维度,每个时序数据分别包括多个按时间顺序排列的数据,由此可以将样本上传至服务器。
在步骤S310,提取时序数据。
在客户端上传的时序信息为原始采集数据,例如心率数据曲线、脑电图、呼吸仪成像、血压数据曲线等一项或多项时序信息的情况下。服务器在接收到客户端上传的时序信息后,可以对时序信息进行处理,例如采样,以得到包括一个或多个时序数据的样本,其中,不同的时序数据对应不同的特征维度,每个时序数据包括多个按时间顺序排列的数据的时序数据。
客户端上传的时序信息的长度可能不一,因此在提取的时序数据的数据量不足(例如小于第一预定阈值)的情况下,可以对时序数据进行增补,以使其数据量大于或等于所述第一预定阈值。其中关于增补的方式可以参见上文相关描述。在提取的时序数据的数据量过小(例如小于第二预定阈值,第二预定阈值小于第一预定阈值)的情况下,可以提示用户重新上传符合要求的时序信息,并重新获取用户上传的时序信息。
另外,如上文所述,客户端上传的时序信息也可以是经过采样后的包括一个或多个时序数据的样本,如此服务器在接收到客户端上传的样本后,也可以不执行提取操作,而直接对样本进行分析。
在步骤S320,分析时序数据。
服务器可以利用预先训练好的时序数据分析模型对生成的包括一个或多个时序数据的样本进行分析,以得到分析结果,该分析结果可以表明样本所属的类别,样本的类别即为对应的时序信息的类别。由此,可以实现时序数据的自动判读。
在步骤S330,下发分析结果至客户端。
在分析结果表明时序信息属于预设类别(例如时序信息异常类别,也即健康异常类别)的情况下,可以提示用户联系医生。并且在分析结果表明时序信息属于预设类别的情况下,还可以进一步地向用户展示医生针对时序信息的复判结果。
图7示出了根据本公开一实施例的数据分析设备的结构示意图。其中图7所示的数据分析设备为客户端数据分析设备。下面仅就数据分析设备可以具有的功能模块以及各功能模块可以执行的操作做简要说明,对于其中涉及的细节部分可以参见上文描述,这里不再赘述。
参见图7,数据分析设备700包括第一通信装置710和数据采集装置720。
数据采集装置720用于采集对应于一种或多种特征维度的时序信息,例如可以采集与用户的一项或多项身体指标相关联的时序信息。第一通信装置710用于将所述时序信息上传至服务器,并接收所述服务器对时序信息进行分析的分析结果,其中分析结果包括根据时序信息确定的类别。
如图7所示,数据分析设备700还可以可选地包括数据处理装置750。数据处理装置750可以基于时序信息生成样本,例如可以通过采样的方式得到样本,样本包括一个或多个时序数据,不同的时序数据对应于不同的特征维度,每个所述时序数据分别包括多个按时间顺序排列的数据。第一通信装置710可以将样本上传至服务器。
如图7所示,数据采集装置720可以包括心率采集装置721、脑电图采集装置723、呼吸成像装置725以及血压采集装置727。
心率采集装置721可以用于采集用户的心率数据曲线。脑电图采集装置723可以用于采集用户的脑电图。呼吸成像装置725可以用于采集用户的呼吸参数并成像。血压采集装置727可以用于采集用户的血压数据曲线。其中,各个采集装置采集的数据可以是时序信号,所采集的时序信号可以通过模数转换转换成数字信号,再由服务器处理,以得到包括多个按时间顺利排列的数据的时序数据。
如图7所示,数据分析设备700还可以可选地包括提示装置730。提示装置730可以用于在分析结果表明时序信息属于预设类别(如健康异常类别)的情况下,提示用户联系医生。
如图7所示,数据分析设备700还可以可选地包括展示装置740。展示装置740可以用于在在分析结果表明时序信息属于预设类别的情况下,向用户展示医生针对时序数据的复判结果。
图8示出了根据本公开另一实施例的数据分析设备的结构示意图。其中图8所示的数据分析设备可以是位于服务器端的数据分析设备。
参见图8,数据分析设备800可以包括第二通信装置810和信息处理装置820。
第二通信装置810可以通过与客户端通信,获取用户通过客户端上传的对应于一种或多种特征维度的时序信息。
信息处理装置820可以从时序信息中提取一个或多个时序数据,以生成包括一个或多个时序数据的样本,其中,不同的时序数据对应于不同的特征维度,每个时序数据包括多个按时间顺序排列的数据,利用预先训练好的时序数据分析模型可以对生成的样本进行分析,以确定样本所属的类别,并通过第二通信装置向用户下发分析结果。
并且,在提取的时序数据的数据量小于第一预定阈值的情况下,信息处理装置820还可以对时序数据进行增补,以使其数据量大于或等于第一预定阈值。
具体地,信息处理装置820可以通过插入预定数量的零值,实现对时序数据的增补,也可以通过插入预定数量的时序数据的均值,实现对时序数据的增补,还可以根据插入位置的在前数据和在后数据,使用线性插值算法确定插入位置的数据。
另外,在提取的时序数据的数据量小于第二预定阈值的情况下,可以重新通过第二通信装置810获取用户上传的时序信息。
如图8所示,数据分析设备800还可以可选地包括模型训练装置830。模型训练装置830可以使用上文述及的训练方法训练时序数据分析模型。
图9示出了根据本公开一实施例的模型训练装置的结构的示意性方框图。其中图9所示的模型训练装置900可以用于执行上文结合图5描述的模型训练方法,并且所训练的模型的结构可以参见上文结合图1至图4的描述。下面仅就模型训练装置900可以具有的功能模块以及各功能模块可以执行的操作做简要说明,对于其中涉及的细节部分可以参见上文描述,这里不再赘述。
如图9所示,模型训练装置900可以包括训练样本构造装置910和模型训练装置920。
训练样本构造装置910用于构造训练样本,所述训练样本包括一个或多个时序数据,不同的时序数据对应于不同的特征维度,每个所述时序数据分别包括多个按时间顺序排列的数据。
模型训练装置920用于使用一个或多个所述训练样本训练时序数据分析模型,所述时序数据分析模型用于对包括一个或多个时序数据的样本所属的类别进行分析。
另外,本公开的方案还可以实施为一种数据分析装置。图10和图11分别示出了根据本公开实施例的数据分析装置的结构的示意性方框图。
其中,数据分析装置1000和数据分析装置1100功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是,图10和图11所描述的功能模块可以组合起来或者划分成子模块,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。
下面仅就数据分析装置1000和数据分析装置1100可以具有的功能模块以及各功能模块可以执行的操作做简要说明,对于其中涉及的细节部分可以参见上文描述,这里不再赘述。
参见图10,数据分析装置1000包括第一获取装置1010、上传装置1020以及接收装置1030。
第一获取装置1010用于获取对应于一种或多种特征维度的时序信息,如可以获取与用户的一项或多项身体指标相关联的时序信息。例如,时序信息可以是心率数据曲线、脑电图、呼吸仪成像以及血压数据曲线等一项或多项与用户的身体指标相关联的信息。
上传装置1020用于将所述时序信息上传至服务器。
接收装置1030用于接收所述服务器对所述时序信息进行分析的分析结果,分析结果包括根据时序信息确定的类别。
在分析结果表明所述时序信息属于第一类别(例如健康异常)的情况下,可以提示用户联系医生。并且,在分析结果表明所述时序信息属于第一类别的情况下,还可以向用户展示医生针对所述时序信息的复判结果。由此,可以根据实时采集的用户的心率数据曲线、脑电图、呼吸仪成像以及血压数据曲线等数据,实时确定用户的健康情况。
参见图11,数据分析装置1100包括第二获取装置1110、分析装置1120以及发送装置1130。
第二获取装置1110用于获取用户通过客户端上传的对应于一种或多种特征维度的时序信息,例如可以是与用户的一项或多项身体指标相关联的时序信息。具体地,第二获取装置1110可以获取用户上传的一条或多条时序信息,不同的时序信息可以与用户的不同维度的身体指标相对应。第二获取装置1110可以从每条时序信息中提取时序数据,每个时序数据包括多个按时间顺序排列的数据,以得到包括一个或多个时序数据的样本。并且,在提取的时序数据的数据量小于第一预定阈值(例如2000)的情况下,可以对时序数据进行增补,以使其数据量大于或等于第一预定阈值。在提取的所述时序数据的数据量小于第二预定阈值(例如1000)的情况下,可以重新获取用户上传的时序信息。
分析装置1120用于使用预先训练好的时序数据分析模型对所述时序信息进行分析,以确定时序信息的类别。其中,时序数据分析模型可以是使用上文述及的模型训练方法训练得到的。发送装置1130用于向用户下发分析结果。
本公开还提供了一种可以用于执行本公开的模型训练方法或数据分析方法的计算设备。
图12是可以用于执行本公开的计算设备的示意性框图。
如图12所示,该计算设备1200可以包括处理器1210和存储器1230。存储器1230上存储有可执行代码。当处理器1210执行该可执行代码时,使得处理器1210执行上面描述的模型训练方法或数据分析方法。
上文中已经参考附图详细描述了根据本发明的模型训练及数据分析方法、装置及设备。
此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。
或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (41)

1.一种模型训练方法,其特征在于,包括:
构造训练样本,所述训练样本包括一个或多个时序数据,不同的时序数据对应于不同的特征维度,每个所述时序数据分别包括多个按时间顺序排列的数据;所述一个或多个时序数据包括以下一项或多项身体指标:心率数据曲线;脑电图;呼吸仪成像;血压数据曲线;
使用一个或多个所述训练样本训练时序数据分析模型,所述时序数据分析模型用于对包括一个或多个时序数据的样本所属的类别进行分析;其中,所述时序数据分析模型是特定结构的卷积神经网络模型,所述卷积神经网络模型包括位于卷积层和激活函数层之间的批标准化层,所述批标准化层用于对所述卷积层输出的数据分批次地进行随机梯度下降训练,对每批下降训练后的数据进行归一化处理,并将归一化处理后的数据输入所述激活函数层。
2.根据权利要求1所述的模型训练方法,其特征在于,
所述训练样本还包括所述一个或多个时序数据所对应的标记,所述标记用于标记所述训练样本所属的类别。
3.根据权利要求1所述的模型训练方法,其特征在于,所述一个或多个时序数据是下述信息中的一项:
一项或多项油气探测指标;
一项或多项光伏切片制造工艺参数;
一项或多项风能机组性能参数;
一项或多项环保设备监测参数;
一项或多项交通运输数据;
一项或多项空港生产参数。
4.根据权利要求3所述的模型训练方法,其特征在于,不同的时序数据对应于不同的油气探测指标,每个所述时序数据包括多个以等距方式先后采集的对应不同地表深度的地质测量数据,所述一个或多个时序数据包括以下一项或多项油气探测指标:
电阻率;
孔隙率;
渗透率;
伽马能谱;
质量密度;
声波速度;
中子孔隙度;
光谱噪声。
5.根据权利要求1所述的模型训练方法,其特征在于,
所述卷积神经网络模型还包括预定层数的特征提取层,每层所述特征提取层包括依次连接的卷积层、批标准化层、激活函数层、网络节点丢弃层、卷积层以及最大池化层。
6.根据权利要求2所述的模型训练方法,其特征在于,所述构造训练样本的步骤包括:
在一个类别的训练样本的数量低于第三预定阈值的情况下,基于该类别的训练样本的时序数据,构造新的时序数据,以得到属于该类别的新的训练样本。
7.根据权利要求6所述的模型训练方法,其特征在于,
使用上采样的方式构造所述新的时序数据;或者
使用SMOTE算法构造新的时序数据。
8.根据权利要求6所述的模型训练方法,其特征在于,
所述训练样本分为正样本和负样本,在其中一个类别的训练样本的数量低于第四预定阈值的情况下,所述构造训练样本的步骤还包括:
对另一个类别的训练样本进行下采样,以减少所述另一个类别的训练样本的数量。
9.根据权利要求1所述的模型训练方法,其特征在于,还包括:
针对数据量小于第一预定阈值的时序数据,对所述时序数据进行增补,以使其数据量大于或等于所述第一预定阈值。
10.根据权利要求9所述的模型训练方法,其特征在于,所述对其时序数据进行增补的步骤包括:
插入预定数量的零值;并且/或者
插入预定数量的所述时序数据的均值;并且/或者
根据插入位置的在前数据和在后数据,使用线性插值算法确定所述插入位置的数据。
11.根据权利要求1所述的模型训练方法,其特征在于,还包括:
剔除数据量小于第二预定阈值的时序数据。
12.根据权利要求1所述的模型训练方法,其特征在于,
所述时序数据分析模型将所述样本划分为预设的第一类别或第二类别,并且用于分析包括所述一个或多个时序数据的样本属于第一类别或第二类别。
13.一种数据分析方法,其特征在于,包括:
获取对应于一种或多种特征维度的时序信息,所述时序信息包括以下一项或多项身体指标:心率数据曲线;脑电图;呼吸仪成像;血压数据曲线;
将所述时序信息上传至服务器;以及
接收所述服务器使用预先训练好的时序数据分析模型对所述时序信息进行分析的分析结果,所述分析结果包括根据所述时序信息确定的类别;其中,所述时序数据分析模型是特定结构的卷积神经网络模型,所述卷积神经网络模型包括位于卷积层和激活函数层之间的批标准化层,所述批标准化层用于对所述卷积层输出的数据分批次地进行随机梯度下降训练,对每批下降训练后的数据进行归一化处理,并将归一化处理后的数据输入所述激活函数层。
14.根据权利要求13所述的数据分析方法,其特征在于,所述将时序信息上传至服务器的步骤包括:
基于所述时序信息生成样本,所述样本包括一个或多个时序数据,不同的时序数据对应于不同的特征维度,每个所述时序数据分别包括多个按时间顺序排列的数据;
将所述样本上传至服务器。
15.根据权利要求14所述的数据分析方法,其特征在于,所述时序信息是下述信息中的一项:
一项或多项油气探测指标;
一项或多项光伏切片制造工艺参数;
一项或多项风能机组性能参数;
一项或多项环保设备监测参数;
一项或多项交通运输数据;
一项或多项空港生产参数。
16.根据权利要求13所述的数据分析方法,其特征在于,还包括:
在所述分析结果表明所述时序信息属于预设类别的情况下,提示用户联系医生。
17.根据权利要求13所述的数据分析方法,其特征在于,还包括:
在所述分析结果表明所述时序信息属于预设类别的情况下,向用户展示医生针对所述时序信息的复判结果。
18.一种数据分析方法,其特征在于,包括:
获取用户通过客户端上传的对应于一种或多种特征维度的时序信息,所述时序信息包括以下一项或多项身体指标:心率数据曲线;脑电图;呼吸仪成像;血压数据曲线;
使用预先训练好的时序数据分析模型对所述时序信息进行分析,以确定所述时序信息的类别;其中,所述时序数据分析模型是特定结构的卷积神经网络模型,所述卷积神经网络模型包括位于卷积层和激活函数层之间的批标准化层,所述批标准化层用于对所述卷积层输出的数据分批次地进行随机梯度下降训练,对每批下降训练后的数据进行归一化处理,并将归一化处理后的数据输入所述激活函数层;以及
向所述用户下发分析结果。
19.根据权利要求18所述的数据分析方法,其特征在于,
所述时序数据分析模型是使用权利要求1至12中任何一项所述的模型训练方法训练得到的。
20.根据权利要求18所述的数据分析方法,其特征在于,所述时序信息是下述信息中的一项:
一项或多项油气探测指标;
一项或多项光伏切片制造工艺参数;
一项或多项风能机组性能参数;
一项或多项环保设备监测参数;
一项或多项交通运输数据;
一项或多项空港生产参数。
21.根据权利要求18所述的数据分析方法,其特征在于,所述使用预先训练好的时序数据分析模型对所述时序信息进行分析的步骤包括:
从所述时序信息中提取一个或多个时序数据,以生成包括所述一个或多个时序数据的样本,不同的时序数据对应于不同的特征维度,每个所述时序数据包括多个按时间顺序排列的数据;
使用预先训练好的时序数据分析模型对所述样本所属的类别进行分析。
22.根据权利要求21所述的数据分析方法,其特征在于,还包括:
在提取的所述时序数据的数据量小于第一预定阈值的情况下,对所述时序数据进行增补,以使其数据量大于或等于所述第一预定阈值。
23.根据权利要求22所述的数据分析方法,其特征在于,所述对时序数据进行增补的步骤包括:
插入预定数量的零值;并且/或者
插入预定数量的所述时序数据的均值;并且/或者
根据插入位置的在前数据和在后数据,使用线性插值算法确定所述插入位置的数据。
24.根据权利要求21所述的数据分析方法,其特征在于,还包括:
在提取的所述时序数据的数据量小于第二预定阈值的情况下,重新获取所述用户通过客户端上传的时序信息。
25.一种模型训练装置,其特征在于,包括:
训练样本构造装置,用于构造训练样本,所述训练样本包括一个或多个时序数据,不同的时序数据对应于不同的特征维度,每个所述时序数据分别包括多个按时间顺序排列的数据;所述一个或多个时序数据包括以下一项或多项身体指标:心率数据曲线;脑电图;呼吸仪成像;血压数据曲线;
模型训练装置,用于使用一个或多个所述训练样本训练时序数据分析模型,所述时序数据分析模型用于对包括一个或多个时序数据的样本所属的类别进行分析;其中,所述时序数据分析模型是特定结构的卷积神经网络模型,所述卷积神经网络模型包括位于卷积层和激活函数层之间的批标准化层,所述批标准化层用于对所述卷积层输出的数据分批次地进行随机梯度下降训练,对每批下降训练后的数据进行归一化处理,并将归一化处理后的数据输入所述激活函数层。
26.一种数据分析设备,其特征在于,包括:
数据采集装置,用于采集对应于一种或多种特征维度的时序信息,所述时序信息包括以下一项或多项身体指标:心率数据曲线;脑电图;呼吸仪成像;血压数据曲线;以及
第一通信装置,用于将所述时序信息上传至服务器,并接收所述服务器使用预先训练好的时序数据分析模型对所述时序信息进行分析的分析结果,所述分析结果包括根据所述时序信息确定的类别;其中,所述时序数据分析模型是特定结构的卷积神经网络模型,所述卷积神经网络模型包括位于卷积层和激活函数层之间的批标准化层,所述批标准化层用于对所述卷积层输出的数据分批次地进行随机梯度下降训练,对每批下降训练后的数据进行归一化处理,并将归一化处理后的数据输入所述激活函数层。
27.根据权利要求26所述的数据分析设备,其特征在于,还包括:
数据处理装置,用于基于所述时序信息生成样本,所述样本包括一个或多个时序数据,不同的时序数据对应于不同的特征维度,每个所述时序数据分别包括多个按时间顺序排列的数据,
所述第一通信装置将所述样本上传至服务器。
28.根据权利要求26所述数据分析设备,其特征在于,所述时序信息是下述信息中的一项:
一项或多项油气探测指标;
一项或多项光伏切片制造工艺参数;
一项或多项风能机组性能参数;
一项或多项环保设备监测参数;
一项或多项交通运输数据;
一项或多项空港生产参数。
29.根据权利要求26所述数据分析设备,其特征在于,还包括:
提示装置,用于在所述分析结果表明所述时序信息属于预设类别的情况下,提示用户联系医生。
30.根据权利要求26所述数据分析设备,其特征在于,该包括:
展示装置,用于在在所述分析结果表明所述时序信息属于预设类别的情况下,向用户展示医生针对所述时序数据的复判结果。
31.一种数据分析设备,其特征在于,包括:
第二通信装置,通过与客户端通信,获取用户通过客户端上传的对应于一种或多种特征维度的时序信息,所述时序信息包括以下一项或多项身体指标:心率数据曲线;脑电图;呼吸仪成像;血压数据曲线;以及
信息处理装置,用于利用预先训练好的时序数据分析模型对所述时序信息进行分析,以确定所述时序信息的类别,并通过所述第二通信装置向所述用户下发分析结果;其中,所述时序数据分析模型是特定结构的卷积神经网络模型,所述卷积神经网络模型包括位于卷积层和激活函数层之间的批标准化层,所述批标准化层用于对所述卷积层输出的数据分批次地进行随机梯度下降训练,对每批下降训练后的数据进行归一化处理,并将归一化处理后的数据输入所述激活函数层。
32.根据权利要求31所述的数据分析设备,其特征在于,还包括:
模型训练装置,用于使用权利要求1至12中任何一项所述的模型训练方法训练所述时序数据分析模型。
33.根据权利要求31所述的数据分析设备,其特征在于,所述时序信息是下述信息中的一项:
一项或多项油气探测指标;
一项或多项光伏切片制造工艺参数;
一项或多项风能机组性能参数;
一项或多项环保设备监测参数;
一项或多项交通运输数据;
一项或多项空港生产参数。
34.根据权利要求31所述的数据分析设备,其特征在于,
所述信息处理装置从所述时序信息中提取一个或多个时序数据,以生成包括所述一个或多个时序数据的样本,不同的时序数据对应于不同的特征维度,每个所述时序数据包括多个按时间顺序排列的数据,
所述信息处理装置使用所述时序数据分析模型对所述样本所属的类别进行分析。
35.根据权利要求34所述的数据分析设备,其特征在于,
在提取的所述时序数据的数据量小于第一预定阈值的情况下,所述信息处理装置还对所述时序数据进行增补,以使其数据量大于或等于所述第一预定阈值。
36.根据权利要求35所述的数据分析设备,其特征在于,
所述信息处理装置通过插入预定数量的零值,实现对所述时序数据的增补,以及/或者
所述信息处理装置通过插入预定数量的所述时序数据的均值,实现对所述时序数据的增补,以及/或者
所述信息处理装置根据插入位置的在前数据和在后数据,使用线性插值算法确定所述插入位置的数据。
37.根据权利要求34所述的数据分析设备,其特征在于,
在提取的所述时序数据的数据量小于第二预定阈值的情况下,重新通过第二通信装置获取所述用户上传的时序信息。
38.一种数据分析装置,其特征在于,包括:
第一获取装置,用于获取对应于一种或多种特征维度的时序信息,所述时序信息包括以下一项或多项身体指标:心率数据曲线;脑电图;呼吸仪成像;血压数据曲线;
上传装置,用于将所述时序信息上传至服务器;以及
接收装置,用于接收所述服务器使用预先训练好的时序数据分析模型对所述时序信息进行分析的分析结果,所述分析结果包括根据所述时序信息确定的类别;其中,所述时序数据分析模型是特定结构的卷积神经网络模型,所述卷积神经网络模型包括位于卷积层和激活函数层之间的批标准化层,所述批标准化层用于对所述卷积层输出的数据分批次地进行随机梯度下降训练,对每批下降训练后的数据进行归一化处理,并将归一化处理后的数据输入所述激活函数层。
39.一种数据分析装置,其特征在于,包括:
第二获取装置,用于获取用户通过客户端上传的对应于一种或多种特征维度的时序信息,所述时序信息包括以下一项或多项身体指标:心率数据曲线;脑电图;呼吸仪成像;血压数据曲线;
分析装置,用于使用预先训练好的时序数据分析模型对所述时序信息进行分析,以确定所述时序信息的类别;其中,所述时序数据分析模型是特定结构的卷积神经网络模型,所述卷积神经网络模型包括位于卷积层和激活函数层之间的批标准化层,所述批标准化层用于对所述卷积层输出的数据分批次地进行随机梯度下降训练,对每批下降训练后的数据进行归一化处理,并将归一化处理后的数据输入所述激活函数层;以及
发送装置,用于向所述用户下发分析结果。
40.一种计算设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-24中任何一项所述的方法。
41.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至24中任一项所述的方法。
CN201810022981.8A 2018-01-10 2018-01-10 模型训练及数据分析方法、装置、设备以及存储介质 Active CN110020714B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810022981.8A CN110020714B (zh) 2018-01-10 2018-01-10 模型训练及数据分析方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810022981.8A CN110020714B (zh) 2018-01-10 2018-01-10 模型训练及数据分析方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
CN110020714A CN110020714A (zh) 2019-07-16
CN110020714B true CN110020714B (zh) 2023-05-30

Family

ID=67188021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810022981.8A Active CN110020714B (zh) 2018-01-10 2018-01-10 模型训练及数据分析方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN110020714B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110618082B (zh) * 2019-10-29 2021-06-04 中国石油大学(北京) 基于神经网络的储层微观孔隙结构评价方法及装置
CN111160383A (zh) * 2019-11-21 2020-05-15 国网江苏省电力有限公司电力科学研究院 一种自适应的油浸式变压器火灾模型预警检测方法
CN111696660B (zh) * 2020-05-13 2023-07-25 平安科技(深圳)有限公司 基于人工智能的患者分群方法、装置、设备及存储介质
CN112001442B (zh) * 2020-08-24 2024-03-19 北京达佳互联信息技术有限公司 特征检测方法、装置、计算机设备及存储介质
CN112215268A (zh) * 2020-09-27 2021-01-12 浙江工业大学 一种灾害天气卫星云图分类方法和装置
CN112966213B (zh) * 2021-02-26 2023-09-29 北京三一智造科技有限公司 一种机械设备的数据预测方法、装置、介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106101222A (zh) * 2016-06-08 2016-11-09 腾讯科技(深圳)有限公司 信息的推送方法和装置
CN106780466A (zh) * 2016-12-21 2017-05-31 广西师范大学 一种基于卷积神经网络的宫颈细胞图像识别方法
CN106872657A (zh) * 2017-01-05 2017-06-20 河海大学 一种多变量水质参数时序数据异常事件检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106101222A (zh) * 2016-06-08 2016-11-09 腾讯科技(深圳)有限公司 信息的推送方法和装置
CN106780466A (zh) * 2016-12-21 2017-05-31 广西师范大学 一种基于卷积神经网络的宫颈细胞图像识别方法
CN106872657A (zh) * 2017-01-05 2017-06-20 河海大学 一种多变量水质参数时序数据异常事件检测方法

Also Published As

Publication number Publication date
CN110020714A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN110020714B (zh) 模型训练及数据分析方法、装置、设备以及存储介质
CN107609503A (zh) 智能癌变细胞识别系统及方法、云平台、服务器、计算机
CN106408030B (zh) 基于中层语义属性和卷积神经网络的sar图像分类方法
CN107506692A (zh) 一种基于深度学习的密集人群计数与人员分布估计方法
CN105595990A (zh) 一种用于心电信号质量评估判别的智能终端设备
CN110674841A (zh) 一种基于聚类算法的测井曲线识别方法
CN107480679B (zh) 基于卷积神经网络的分类和连通区域分析的路网提取方法
CN107622233A (zh) 一种表格识别方法、识别系统及计算机装置
CN106874929B (zh) 一种基于深度学习的珍珠分类方法
CN109410238A (zh) 一种基于PointNet++网络的枸杞识别计数方法
CN103886030B (zh) 基于代价敏感决策树的信息物理融合系统数据分类方法
CN107301409A (zh) 基于Wrapper特征选择Bagging学习处理心电图的系统及方法
Xu et al. Intelligent emotion detection method based on deep learning in medical and health data
CN113033714A (zh) 多模态多粒度遥感影像面向对象自动机器学习方法及系统
CN110533100A (zh) 一种基于机器学习进行cme检测和跟踪的方法
CN108038499A (zh) 一种基于深度学习的树种分类方法与系统
CN108171119A (zh) 基于残差网络的sar图像变化检测方法
CN117475236B (zh) 用于矿产资源勘探的数据处理系统及其方法
CN105825046A (zh) 一种医疗数据的收集及处理方法及装置
CN106935038B (zh) 一种停车检测系统及检测方法
CN103310235A (zh) 一种基于参数识别与估计的隐写分析方法
CN110718301B (zh) 基于动态脑功能网络的阿尔茨海默病辅助诊断装置及方法
CN117475191A (zh) 一种特征对齐域对抗神经网络的轴承故障诊断方法
CN115410258A (zh) 基于注意力图像的人脸表情识别方法
Huang et al. Integrating remotely sensed data, GIS and expert knowledge to update object-based land use/land cover information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40010949

Country of ref document: HK

TA01 Transfer of patent application right

Effective date of registration: 20201125

Address after: Room 603, 6 / F, Roche Plaza, 788 Cheung Sha Wan Road, Kowloon, China

Applicant after: Zebra smart travel network (Hong Kong) Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant