CN113761034B - 一种数据处理方法及其装置 - Google Patents

一种数据处理方法及其装置 Download PDF

Info

Publication number
CN113761034B
CN113761034B CN202111079611.6A CN202111079611A CN113761034B CN 113761034 B CN113761034 B CN 113761034B CN 202111079611 A CN202111079611 A CN 202111079611A CN 113761034 B CN113761034 B CN 113761034B
Authority
CN
China
Prior art keywords
data
sample
fluctuation
entropy
calculation formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111079611.6A
Other languages
English (en)
Other versions
CN113761034A (zh
Inventor
梁东莺
梁麟
郑玮琨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Information Technology
Original Assignee
Shenzhen Institute of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Information Technology filed Critical Shenzhen Institute of Information Technology
Priority to CN202111079611.6A priority Critical patent/CN113761034B/zh
Publication of CN113761034A publication Critical patent/CN113761034A/zh
Application granted granted Critical
Publication of CN113761034B publication Critical patent/CN113761034B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据处理方法及其装置。该方案包括获取所有的样本数据,对样本数据进行数据分类,生成半结构数据样本和结构数据样本;对结构数据样本进行数据处理,生成每个结构数据样本的横纵坐标及样本值,存储到综合样本数据;对半结构数据样本进行数据处理,生成每个半结构数据样本的横纵坐标及样本值,存储到综合样本数据;根据综合样本数据计算数据波动熵和超级波动熵;进行两组样本数据的数据关联度计算;将波动熵和超级波动熵超过预设值的数据进行标记;将全部的所有的数据关联度按照样本编号,存储为数据关联度矩阵。该方案通过波动熵和超级波动熵计算获得样本数据的数据关联程度和数据特征,标记关键波动,并存储数据间关联程度。

Description

一种数据处理方法及其装置
技术领域
本发明涉及电气与电子领域技术领域,更具体地,涉及一种数据处理方法及其装置。
背景技术
近年来,随着电力电子技术的不断发展,越来越多的领域开始了利用电力电子设备进行数据处理和分析。尤其是图像处理和传感技术领域中的应用。为了能够有效的数据展示和分析,在进行数据展示使用之前需要对数据进行高效和准确的数据处理。
现有技术中,数据处理技术手段主要是针对结构化数据进行的,但是当获取的数据既包含结构化也包括半结构化数据,现有的技术极少能够快速有效的处理,并根据数据的分布和各个数据直接关系进行数据的关联分析和数据的异常提取。
发明内容
鉴于上述问题,本发明提出了一种数据处理方法及其装置,通过波动熵和超级波动熵计算获得样本数据的数据关联程度和数据特征,标记关键波动,并存储数据间关联程度。
根据本发明实施例第一方面,提供一种数据处理方法。
在一个或多个实施例中,优选地,所述一种数据处理方法包括:
获取所有的样本数据,对样本数据进行数据分类,生成半结构数据样本和结构数据样本;
对所述结构数据样本进行数据处理,生成每个所述结构数据样本的横纵坐标及样本值,存储到综合样本数据;
对所述半结构数据样本进行数据处理,生成每个所述半结构数据样本的横纵坐标及样本值,存储到所述综合样本数据;
根据所述综合样本数据计算数据波动熵和超级波动熵;
获取两组样本数据对应的波动熵和超级波动熵,并进行所述两组样本数据的数据关联度计算;
获取全部的所述波动熵和所述超级波动熵,将波动熵和超级波动熵超过预设值的数据进行标记;
将全部的所有的数据关联度按照样本编号,存储为数据关联度矩阵。
在一个或多个实施例中,优选地,所述对所述结构数据样本进行数据处理,生成每个所述结构数据样本的横纵坐标及样本值,存储到综合样本数据,具体包括:
获取所述结构数据样本,对所述结构数据样本生成数据序列,每10000个数据作为一个样本组;
对所述数据序列生成具有100行、100列的数据矩阵;
将所述数据矩阵的行号作为结构数据样本的横坐标;
将所述数据矩阵的列号作为结构数据样本的纵坐标;
将所述数据序列中的数据作为所述综合样本数据的前一半样本值。
在一个或多个实施例中,优选地,所述对所述半结构数据样本进行数据处理,生成每个所述半结构数据样本的横纵坐标及样本值,存储到所述综合样本数据,具体包括:
对所述半结构数据按照固定时间间隔进行数据二次采集;
对所述数据二次采集后,生成第二数据序列,每10000个数据作为一个样本组;
对所述第二数据序列生成具有100行、100列的第二数据矩阵;
将所述第二数据矩阵的行号作为所述半结构数据样本的横坐标;
将所述第二数据矩阵的列号作为所述半结构数据样本的纵坐标;
将所述第二数据序列中的数据作为所述综合样本数据的后一半样本值。
在一个或多个实施例中,优选地,所述根据所述综合样本数据计算数据波动熵和超级波动熵,具体包括:
获取全部的采样样本,利用第一计算公式计算样本均值;
根据所述样本均值利用第二计算公式计算第一波动特征;
根据所述样本均值利用第三计算公式计算第二波动特征;
根据所述第一波动特征和第二波动特征利用第四计算公式计算波动熵;
根据所述第一波动特征和第二波动特征利用第五计算公式计算超级波动熵;
所述第一计算公式为:
Figure DEST_PATH_IMAGE001
其中,
Figure DEST_PATH_IMAGE002
为所述样本均值,n为所述样本均值的总数,i为样本编号,x i 为采样样本;
所述第二计算公式为:
Figure DEST_PATH_IMAGE003
其中,D1为所述第一波动特征;
所述第三计算公式为:
Figure DEST_PATH_IMAGE004
其中,D2为所述第二波动特征;
所述第四计算公式为:
Figure DEST_PATH_IMAGE005
其中,En为所述波动熵;
所述第五计算公式为:
Figure DEST_PATH_IMAGE006
其中,H为所述超级波动熵。
在一个或多个实施例中,优选地,所述获取两组样本数据对应的波动熵和超级波动熵,并进行所述两组样本数据的数据关联度计算,具体包括:
获取两组样本数据对应的所述波动熵和所述超级波动熵;
利用第六计算公式获得两组样本数据之间的距离;
根据所述样本数据利用第七计算公式获得数据簇总分;
利用第八计算公式计算两组样本数据的相似度;
所述第六计算公式:
Figure DEST_PATH_IMAGE007
其中,da,b为样本a与样本b之间的距离,Ea为样本a的期望,Eb为样本b的期望,En_a为样本a的波动熵,En_b为样本b的波动熵,Ha为样本a的超级波动熵,Hb为样本b的超级波动熵;
所述第七计算公式:
Figure DEST_PATH_IMAGE008
其中,
Figure DEST_PATH_IMAGE009
为样本的数据簇总分,M为样本总数据量,x为样本的元素横坐标,y为样本的元素纵坐标,j为样本的编号;
所述第八计算公式:
Figure DEST_PATH_IMAGE010
其中,Sa,b为样本a与样本b的相似度,
Figure DEST_PATH_IMAGE011
为样本a的数据簇总分,
Figure DEST_PATH_IMAGE012
为样本b的数据簇总分;
其中,
Figure DEST_PATH_IMAGE013
为样本a对应利用第七计算公式获得的样本a的数据簇总分;
其中,
Figure 489376DEST_PATH_IMAGE012
为样本b对应利用第七计算公式获得的样本b的数据簇总分。
在一个或多个实施例中,优选地,所述获取全部的所述波动熵和所述超级波动熵,将波动熵和超级波动熵超过预设值的数据进行标记,具体包括:
获取全部的所述波动熵和所述超级波动熵,将波动熵和超级波动熵超过预设值的数据进行标记;
获取当前的波动熵预设限值;
对比所述波动熵与所述波动熵预设限值之间的关系,当所述波动熵大于所述波动熵预设限值时,对所述波动熵进行标记,并存储到监测数据库内;
获取当前的超级波动熵限值;
对比所述超级波动熵与所述超级波动熵限值之间的关系,当所述超级波动熵大于所述超级波动熵限值时,对所述超级波动熵进行标记,并存储到监测数据库内。
在一个或多个实施例中,优选地,所述将全部的所有的数据关联度按照样本编号,存储为数据关联度矩阵,具体包括:
将全部的所有数据关联度按照样本编号,存储为数据关联度矩阵;
获取全部的样本数据的编号;
将所述样本数据的编号以矩阵形式将样本数据直接的关联关系生成为关联度矩阵;
对于所述样本数据的编号相同数据的矩阵值设置为1;
根据所述样本数据的编号生成数据关联度矩阵,存储在监测数据库内。
根据本发明实施例第二方面,提供一种数据处理装置。
在一个或多个实施例中,优选地,所述一种数据处理装置包括:
数据分类子模块,用于获取所有的样本数据,对样本数据进行数据分类,生成半结构数据样本和结构数据样本;
第一处理子模块,用于对所述结构数据样本进行数据处理,生成每个所述结构数据样本的横纵坐标及样本值,存储到综合样本数据;
第二处理子模块,用于对所述半结构数据样本进行数据处理,生成每个所述半结构数据样本的横纵坐标及样本值,存储到所述综合样本数据;
综合样本熵提取子模块,用于根据所述综合样本数据计算数据波动熵和超级波动熵;
关联度计算子模块,用于获取两组样本数据对应的波动熵和超级波动熵,并进行所述两组样本数据的数据关联度计算;
波动分析子模块,用于获取全部的所述波动熵和所述超级波动熵,将波动熵和超级波动熵超过预设值的数据进行标记;
关联度分析子模块,用于将全部的所有的数据关联度按照样本编号,存储为数据关联度矩阵。
根据本发明实施例第三方面,提供一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如本发明实施例第一方面中任一项所述的方法。
根据本发明实施例第四方面,提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现本发明实施例第一方面中任一项所述的步骤。
本发明的实施例提供的技术方案可以包括以下有益效果:
1)在本发明实施例中,根据结构化数据和半结构化数据进行数据处理,合并生成综合样本数据,用于进行统一的数据处理。
2)本发明实施例中,根据自定义的超级波动熵和波动熵,对于超过预设裕度的数据波动进行在线提取,并对数据进行标记处理。
3)本发明实施例中,对于预设的数据组进行数据组之间的关联程度的分析,并将分析结果存储到一个关联矩阵中。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的一种数据处理方法的流程图。
图2是本发明一个实施例的一种数据处理方法中的对所述结构数据样本进行数据处理,生成每个所述结构数据样本的横纵坐标及样本值,存储到综合样本数据的流程图。
图3是本发明一个实施例的一种数据处理方法中的对所述半结构数据样本进行数据处理,生成每个所述半结构数据样本的横纵坐标及样本值,存储到所述综合样本数据的流程图。
图4是本发明一个实施例的一种数据处理方法中的根据所述综合样本数据计算数据波动熵和超级波动熵的流程图。
图5是本发明一个实施例的一种数据处理方法中的获取两组样本数据对应的波动熵和超级波动熵,并进行所述两组样本数据的数据关联度计算的流程图。
图6是本发明一个实施例的一种数据处理方法中的获取全部的所述波动熵和所述超级波动熵,将波动熵和超级波动熵超过预设值的数据进行标记的流程图。
图7是本发明一个实施例的一种数据处理方法中的将全部的所有的数据关联度按照样本编号,存储为数据关联度矩阵的流程图。
图8是本发明一个实施例的一种数据处理装置的结构图。
图9是本发明一个实施例中一种电子设备的结构图。
具体实施方式
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
近年来,随着电力电子技术的不断发展,越来越多的领域开始了利用电力电子设备进行数据处理和分析。尤其是图像处理和传感技术领域中的应用。为了能够有效的数据展示和分析,在进行数据展示使用之前需要对数据进行高效和准确的数据处理。
现有技术中,数据处理技术手段主要是针对结构化数据进行的,但是当获取的数据既包含结构化也包括半结构化数据,现有的技术极少能够快速有效的处理,并根据数据的分布和各个数据直接关系进行数据的关联分析和数据的异常提取。
本发明实施例中,提供了一种数据处理方法及其装置。该方案通过波动熵和超级波动熵计算获得样本数据的数据关联程度和数据特征,标记关键波动,并存储数据间关联程度。
根据本发明实施例第一方面,提供一种数据处理方法。
图1是本发明一个实施例的一种数据处理方法的流程图。
如图1所示,在一个或多个实施例中,优选地,所述一种数据处理方法包括:
S101、获取所有的样本数据,对样本数据进行数据分类,生成半结构数据样本和结构数据样本;
S102、对所述结构数据样本进行数据处理,生成每个所述结构数据样本的横纵坐标及样本值,存储到综合样本数据;
S103、对所述半结构数据样本进行数据处理,生成每个所述半结构数据样本的横纵坐标及样本值,存储到所述综合样本数据;
S104、根据所述综合样本数据计算数据波动熵和超级波动熵;
S105、获取两组样本数据对应的波动熵和超级波动熵,并进行所述两组样本数据的数据关联度计算;
S106、获取全部的所述波动熵和所述超级波动熵,将波动熵和超级波动熵超过预设值的数据进行标记;
S107、将全部的所有的数据关联度按照样本编号,存储为数据关联度矩阵。
在本发明实施例中,在原始的样本数据基础上,进行数据的分类处理,在提取数据时,按照固定时间间隔进行数据采集,采集获得输入量若超过预设的数量范围,则认为样本数据为半结构化数据。在进行数据处理时,都统一处理为标准化的样本数据,对于不同的数值分为不同的数据簇进行存储。最终都存储到一个数据表中,作为综合样本数据,综合样本数据是以数据库表形式存储的。最终进行样本的熵运算,确定哪些样本是特殊样本,哪些样本组之间存在强关联性,并将关联性和熵运算结果进行存储。
图2是本发明一个实施例的一种数据处理方法中的对所述结构数据样本进行数据处理,生成每个所述结构数据样本的横纵坐标及样本值,存储到综合样本数据的流程图。
如图2所示,在一个或多个实施例中,优选地,所述对所述结构数据样本进行数据处理,生成每个所述结构数据样本的横纵坐标及样本值,存储到综合样本数据,具体包括:
S201、获取所述结构数据样本,对所述结构数据样本生成数据序列,每10000个数据作为一个样本组;
S202、对所述数据序列生成具有100行、100列的数据矩阵;
S203、将所述数据矩阵的行号作为结构数据样本的横坐标;
S204、将所述数据矩阵的列号作为结构数据样本的纵坐标;
S205、将所述数据序列中的数据作为所述综合样本数据的前一半样本值。
在本发明实施例中,对于每组结构化的数据以固定的流程进行数据组的分合,并对数据组中的数据生成100行、100列的数据矩阵,进而形成实际数据的横纵坐标,这些坐标则可以用于进行数据的关联度的分析。
图3是本发明一个实施例的一种数据处理方法中的对所述半结构数据样本进行数据处理,生成每个所述半结构数据样本的横纵坐标及样本值,存储到所述综合样本数据的流程图。
如图3所示,在一个或多个实施例中,优选地,所述对所述半结构数据样本进行数据处理,生成每个所述半结构数据样本的横纵坐标及样本值,存储到所述综合样本数据,具体包括:
S301、对所述半结构数据按照固定时间间隔进行数据二次采集;
S302、对所述数据二次采集后,生成第二数据序列,每10000个数据作为一个样本组;
S303、对所述第二数据序列生成具有100行、100列的第二数据矩阵;
S304、将所述第二数据矩阵的行号作为所述半结构数据样本的横坐标;
S305、将所述第二数据矩阵的列号作为所述半结构数据样本的纵坐标;
S306、将所述第二数据序列中的数据作为所述综合样本数据的后一半样本值。
在本发明实施例中,对于半结构化数据,由于存在不固定时间间隔不确定数据量的多少的问题,因此,通过强制的按照固定时间间隔进行采样的方式,使获得的半结构化数据具有了与结构化数据有统一的存储方式,进而利用10000个数据作为一个样本组的兴衰,完成了对于半结构化数据的存储。
图4是本发明一个实施例的一种数据处理方法中的根据所述综合样本数据计算数据波动熵和超级波动熵的流程图。
如图4所示,在一个或多个实施例中,优选地,所述根据所述综合样本数据计算数据波动熵和超级波动熵,具体包括:
S401、获取全部的采样样本,利用第一计算公式计算样本均值;
S402、根据所述样本均值利用第二计算公式计算第一波动特征;
S403、根据所述样本均值利用第三计算公式计算第二波动特征;
S404、根据所述第一波动特征和第二波动特征利用第四计算公式计算波动熵;
S405、根据所述第一波动特征和第二波动特征利用第五计算公式计算超级波动熵;
所述第一计算公式为:
Figure 406517DEST_PATH_IMAGE001
其中,
Figure 999303DEST_PATH_IMAGE002
为所述样本均值,n为所述样本均值的总数,i为样本编号,x i 为采样样本;
所述第二计算公式为:
Figure 394512DEST_PATH_IMAGE003
其中,D1为所述第一波动特征;
所述第三计算公式为:
Figure 84251DEST_PATH_IMAGE004
其中,D2为所述第二波动特征;
所述第四计算公式为:
Figure 969030DEST_PATH_IMAGE005
其中,En为所述波动熵;
所述第五计算公式为:
Figure 49113DEST_PATH_IMAGE006
其中,H为所述超级波动熵。
在本发明实施例中,在获取综合的样本数据的基础上,进一步进行了数据波动状态的分析。其中,一方面,波动熵主要用于进行计算数据的波动水平的分析,进而获知异常波动的数据组,并在系统中进行特殊标记;另一方面,对于超级波动熵主要用于分析综合样本数据产生的关键数据波动。此外,所述超级波动熵和所述波动熵还能够进一步进行综合样本的相关性分析。
图5是本发明一个实施例的一种数据处理方法中的获取两组样本数据对应的波动熵和超级波动熵,并进行所述两组样本数据的数据关联度计算的流程图。
如图5所示,在一个或多个实施例中,优选地,所述获取两组样本数据对应的波动熵和超级波动熵,并进行所述两组样本数据的数据关联度计算,具体包括:
S501、获取两组样本数据对应的所述波动熵和所述超级波动熵;
S502、利用第六计算公式获得两组样本数据之间的距离;
S503、根据所述样本数据利用第七计算公式获得数据簇总分;
S504、利用第八计算公式计算两组样本数据的相似度;
所述第六计算公式:
Figure 310330DEST_PATH_IMAGE015
其中,da,b为样本a与样本b之间的距离,Ea为样本a的期望,Eb为样本b的期望,En_a为样本a的波动熵,En_b为样本b的波动熵,Ha为样本a的超级波动熵,Hb为样本b的超级波动熵;
所述第七计算公式:
Figure 979209DEST_PATH_IMAGE008
其中,
Figure 782692DEST_PATH_IMAGE009
为样本的数据簇总分,M为样本总数据量,x为样本的元素横坐标,y为样本的元素纵坐标,j为样本的编号;
所述第八计算公式:
Figure 537021DEST_PATH_IMAGE010
其中,Sa,b为样本a与样本b的相似度,
Figure 336350DEST_PATH_IMAGE011
为样本a的数据簇总分,
Figure 859735DEST_PATH_IMAGE012
为样本b的数据簇总分;
其中,
Figure 102629DEST_PATH_IMAGE013
为样本a对应利用第七计算公式获得的样本a的数据簇总分;
其中,
Figure 344255DEST_PATH_IMAGE012
为样本b对应利用第七计算公式获得的样本b的数据簇总分。
在本发明实施例中,对于所述综合的样本数据,进行二次的数据处理,主要获得了任意两组样本数据之间的数据关联度,当数据关联度高时,则认为若改组数据发生较大波动时,对于的高关联度的数据组也需要进行显示和数据分析。进而实现联动的数据展示。
图6是本发明一个实施例的一种数据处理方法中的获取全部的所述波动熵和所述超级波动熵,将波动熵和超级波动熵超过预设值的数据进行标记的流程图。
如图6所示,在一个或多个实施例中,优选地,所述获取全部的所述波动熵和所述超级波动熵,将波动熵和超级波动熵超过预设值的数据进行标记,具体包括:
S601、获取全部的所述波动熵和所述超级波动熵,将波动熵和超级波动熵超过预设值的数据进行标记;
S602、获取当前的波动熵预设限值;
S603、对比所述波动熵与所述波动熵预设限值之间的关系,当所述波动熵大于所述波动熵预设限值时,对所述波动熵进行标记,并存储到监测数据库内;
S604、获取当前的超级波动熵限值;
S605、对比所述超级波动熵与所述超级波动熵限值之间的关系,当所述超级波动熵大于所述超级波动熵限值时,对所述超级波动熵进行标记,并存储到监测数据库内。
在本发明实施例中,首先,限定了具体的波动熵和超级波动熵的限制值,因此,对于全部的波动熵也超级波动熵,通过颜色标记的方式,存储到一个监测数据库内。
图7是本发明一个实施例的一种数据处理方法中的将全部的所有的数据关联度按照样本编号,存储为数据关联度矩阵的流程图。
如图7所示,在一个或多个实施例中,优选地,所述将全部的所有的数据关联度按照样本编号,存储为数据关联度矩阵,具体包括:
S701、将全部的所有数据关联度按照样本编号,存储为数据关联度矩阵;
S702、获取全部的样本数据的编号;
S703、将所述样本数据的编号以矩阵形式将样本数据直接的关联关系生成为关联度矩阵;
S704、对于所述样本数据的编号相同数据的矩阵值设置为1;
S705、根据所述样本数据的编号生成数据关联度矩阵,存储在监测数据库内。
在本发明实施例中,对数据组之间的关联程度,通过样本数据进行提取,进而获取实际的关联数据及其关联程度,并通过矩阵的形式进行数据的存储。关联度矩阵为一个方阵,其中,该关联度矩阵的对角线为1,其它位置通过计算获得关联关系填入。例如,矩阵的第i行第j列为第i组数据和第j组数据的关联度。在此种情况下,第i行第j列与第j行第i列的数据是一样的。
根据本发明实施例第二方面,提供一种数据处理装置。
图8是本发明一个实施例的一种数据处理装置的结构图。
如图8所示,在一个或多个实施例中,优选地,所述一种数据处理装置包括:
数据分类子模块 801,用于获取所有的样本数据,对样本数据进行数据分类,生成半结构数据样本和结构数据样本;
第一处理子模块 802,用于对所述结构数据样本进行数据处理,生成每个所述结构数据样本的横纵坐标及样本值,存储到综合样本数据;
第二处理子模块803,用于对所述半结构数据样本进行数据处理,生成每个所述半结构数据样本的横纵坐标及样本值,存储到所述综合样本数据;
综合样本熵提取子模块804,用于根据所述综合样本数据计算数据波动熵和超级波动熵;
关联度计算子模块805,用于获取两组样本数据对应的波动熵和超级波动熵,并进行所述两组样本数据的数据关联度计算;
波动分析子模块806,用于获取全部的所述波动熵和所述超级波动熵,将波动熵和超级波动熵超过预设值的数据进行标记;
关联度分析子模块807,用于将全部的所有的数据关联度按照样本编号,存储为数据关联度矩阵。
根据本发明实施例第三方面,提供一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如本发明实施例第一方面中任一项所述的方法。
根据本发明实施例第四方面,提供一种电子设备。图9是本发明一个实施例中一种电子设备的结构图。图9所示的电子设备为通用数据处理装置,其包括通用的计算机硬件结构,其至少包括处理器901和存储器902。处理器901和存储器902通过总线903连接。存储器902适于存储处理器901可执行的指令或程序。处理器901可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器901通过执行存储器902所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线903将上述多个组件连接在一起,同时将上述组件连接到显示控制器904和显示装置以及输入/输出(I/O)装置905。输入/输出(I/O)装置905可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置905通过输入/输出(I/O)控制器906与系统相连。
本发明的实施例提供的技术方案可以包括以下有益效果:
1)在本发明实施例中,根据结构化数据和半结构化数据进行数据处理,合并生成综合样本数据,用于进行统一的数据处理。
2)本发明实施例中,根据自定义的超级波动熵和波动熵,对于超过预设裕度的数据波动进行在线提取,并对数据进行标记处理。
3)本发明实施例中,对于预设的数据组进行数据组之间的关联程度的分析,并将分析结果存储到一个关联矩阵中。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种数据处理方法,其特征在于,该方法包括:
获取所有的样本数据,对样本数据进行数据分类,生成半结构数据样本和结构数据样本;
对所述结构数据样本进行数据处理,生成每个所述结构数据样本的横纵坐标及样本值,存储到综合样本数据;
对所述半结构数据样本进行数据处理,生成每个所述半结构数据样本的横纵坐标及样本值,存储到所述综合样本数据;
根据所述综合样本数据计算数据波动熵和超级波动熵;
获取两组样本数据对应的波动熵和超级波动熵,并进行所述两组样本数据的数据关联度计算;
获取全部的所述波动熵和所述超级波动熵,将波动熵和超级波动熵超过预设值的数据进行标记;
将全部的所有的数据关联度按照样本编号,存储为数据关联度矩阵;
在获取所有的样本数据后,在原始的样本数据基础上,进行数据的分类处理,在提取数据时,按照固定时间间隔进行数据采集,采集获得输入量若超过预设的数量范围,则认为样本数据为所述半结构数据样本,否则,为所述结构数据样本;
其中,根据所述综合样本数据计算数据波动熵和超级波动熵,具体包括:
获取全部的采样样本,利用第一计算公式计算样本均值;
根据所述样本均值利用第二计算公式计算第一波动特征;
根据所述样本均值利用第三计算公式计算第二波动特征;
根据所述第一波动特征和第二波动特征利用第四计算公式计算波动熵;
根据所述第一波动特征和第二波动特征利用第五计算公式计算超级波动熵;
所述第一计算公式为:
Figure FDA0003638918620000011
其中,
Figure FDA0003638918620000012
为所述样本均值,n为所述样本均值的总数,i为样本编号,xi为采样样本;
所述第二计算公式为:
Figure FDA0003638918620000013
其中,D1为所述第一波动特征;
所述第三计算公式为:
Figure FDA0003638918620000021
其中,D2为所述第二波动特征;
所述第四计算公式为:
Figure FDA0003638918620000022
其中,En为所述波动熵;
所述第五计算公式为:
Figure FDA0003638918620000023
其中,H为所述超级波动熵;
其中,获取两组样本数据对应的波动熵和超级波动熵,并进行所述两组样本数据的数据关联度计算,具体包括:
获取两组样本数据对应的所述波动熵和所述超级波动熵;
利用第六计算公式获得两组样本数据之间的距离;
根据所述样本数据利用第七计算公式获得数据簇总分;
利用第八计算公式计算两组样本数据的相似度;
所述第六计算公式:
Figure FDA0003638918620000024
其中,da,b为样本a与样本b之间的距离,Ea为样本a的期望,Eb为样本b的期望,En_a为样本a的波动熵,En_b为样本b的波动熵,Ha为样本a的超级波动熵,Hb为样本b的超级波动熵;
所述第七计算公式:
Figure FDA0003638918620000025
其中,
Figure FDA0003638918620000026
为样本的数据簇总分,M为样本总数据量,x为样本的元素横坐标,y为样本的元素纵坐标,j为样本的编号;
所述第八计算公式:
Figure FDA0003638918620000031
其中,Sa,b为样本a与样本b的相似度,
Figure FDA0003638918620000032
为样本a的数据簇总分,
Figure FDA0003638918620000033
为样本b的数据簇总分;
其中,
Figure FDA0003638918620000034
为样本a对应利用第七计算公式获得的样本a的数据簇总分;
其中,
Figure FDA0003638918620000035
为样本b对应利用第七计算公式获得的样本b的数据簇总分。
2.如权利要求1所述的一种数据处理方法,其特征在于,所述对所述结构数据样本进行数据处理,生成每个所述结构数据样本的横纵坐标及样本值,存储到综合样本数据,具体包括:
获取所述结构数据样本,对所述结构数据样本生成数据序列,每10000个数据作为一个样本组;
对所述数据序列生成具有100行、100列的数据矩阵;
将所述数据矩阵的行号作为结构数据样本的横坐标;
将所述数据矩阵的列号作为结构数据样本的纵坐标;
将所述数据序列中的数据作为所述综合样本数据的前一半样本值。
3.如权利要求1所述的一种数据处理方法,其特征在于,所述对所述半结构数据样本进行数据处理,生成每个所述半结构数据样本的横纵坐标及样本值,存储到所述综合样本数据,具体包括:
对所述半结构数据按照固定时间间隔进行数据二次采集;
对所述数据二次采集后,生成第二数据序列,每10000个数据作为一个样本组;
对所述第二数据序列生成具有100行、100列的第二数据矩阵;
将所述第二数据矩阵的行号作为所述半结构数据样本的横坐标;
将所述第二数据矩阵的列号作为所述半结构数据样本的纵坐标;
将所述第二数据序列中的数据作为所述综合样本数据的后一半样本值。
4.如权利要求1所述的一种数据处理方法,其特征在于,所述获取全部的所述波动熵和所述超级波动熵,将波动熵和超级波动熵超过预设值的数据进行标记,具体包括:
获取全部的所述波动熵和所述超级波动熵,将波动熵和超级波动熵超过预设值的数据进行标记;
获取当前的波动熵预设限值;
对比所述波动熵与所述波动熵预设限值之间的关系,当所述波动熵大于所述波动熵预设限值时,对所述波动熵进行标记,并存储到监测数据库内;
获取当前的超级波动熵限值;
对比所述超级波动熵与所述超级波动熵限值之间的关系,当所述超级波动熵大于所述超级波动熵限值时,对所述超级波动熵进行标记,并存储到监测数据库内。
5.如权利要求1所述的一种数据处理方法,其特征在于,所述将全部的所有的数据关联度按照样本编号,存储为数据关联度矩阵,具体包括:
将全部的所有数据关联度按照样本编号,存储为数据关联度矩阵;
获取全部的样本数据的编号;
将所述样本数据的编号以矩阵形式将样本数据直接的关联关系生成为关联度矩阵;
对于所述样本数据的编号相同数据的矩阵值设置为1;
根据所述样本数据的编号生成数据关联度矩阵,存储在监测数据库内。
6.一种数据处理装置,其特征在于,该装置包括:
数据分类子模块,用于获取所有的样本数据,对样本数据进行数据分类,生成半结构数据样本和结构数据样本;
第一处理子模块,用于对所述结构数据样本进行数据处理,生成每个所述结构数据样本的横纵坐标及样本值,存储到综合样本数据;
第二处理子模块,用于对所述半结构数据样本进行数据处理,生成每个所述半结构数据样本的横纵坐标及样本值,存储到所述综合样本数据;
综合样本熵提取子模块,用于根据所述综合样本数据计算数据波动熵和超级波动熵;
关联度计算子模块,用于获取两组样本数据对应的波动熵和超级波动熵,并进行所述两组样本数据的数据关联度计算;
波动分析子模块,用于获取全部的所述波动熵和所述超级波动熵,将波动熵和超级波动熵超过预设值的数据进行标记;
关联度分析子模块,用于将全部的所有的数据关联度按照样本编号,存储为数据关联度矩阵;
在获取所有的样本数据后,在原始的样本数据基础上,进行数据的分类处理,在提取数据时,按照固定时间间隔进行数据采集,采集获得输入量若超过预设的数量范围,则认为样本数据为所述半结构数据样本,否则,为所述结构数据样本;
其中,根据所述综合样本数据计算数据波动熵和超级波动熵,具体包括:
获取全部的采样样本,利用第一计算公式计算样本均值;
根据所述样本均值利用第二计算公式计算第一波动特征;
根据所述样本均值利用第三计算公式计算第二波动特征;
根据所述第一波动特征和第二波动特征利用第四计算公式计算波动熵;
根据所述第一波动特征和第二波动特征利用第五计算公式计算超级波动熵;
所述第一计算公式为:
Figure FDA0003638918620000051
其中,
Figure FDA0003638918620000052
为所述样本均值,n为所述样本均值的总数,i为样本编号,xi为采样样本;
所述第二计算公式为:
Figure FDA0003638918620000053
其中,D1为所述第一波动特征;
所述第三计算公式为:
Figure FDA0003638918620000054
其中,D2为所述第二波动特征;
所述第四计算公式为:
Figure FDA0003638918620000055
其中,En为所述波动熵;
所述第五计算公式为:
Figure FDA0003638918620000056
其中,H为所述超级波动熵;
其中,获取两组样本数据对应的波动熵和超级波动熵,并进行所述两组样本数据的数据关联度计算,具体包括:
获取两组样本数据对应的所述波动熵和所述超级波动熵;
利用第六计算公式获得两组样本数据之间的距离;
根据所述样本数据利用第七计算公式获得数据簇总分;
利用第八计算公式计算两组样本数据的相似度;
所述第六计算公式:
Figure FDA0003638918620000061
其中,da,b为样本a与样本b之间的距离,Ea为样本a的期望,Eb为样本b的期望,En_a为样本a的波动熵,En_b为样本b的波动熵,Ha为样本a的超级波动熵,Hb为样本b的超级波动熵;
所述第七计算公式:
Figure FDA0003638918620000062
其中,
Figure FDA0003638918620000063
为样本的数据簇总分,M为样本总数据量,x为样本的元素横坐标,y为样本的元素纵坐标,j为样本的编号;
所述第八计算公式:
Figure FDA0003638918620000064
其中,Sa,b为样本a与样本b的相似度,
Figure FDA0003638918620000065
为样本a的数据簇总分,
Figure FDA0003638918620000066
为样本b的数据簇总分;
其中,
Figure FDA0003638918620000067
为样本a对应利用第七计算公式获得的样本a的数据簇总分;
其中,
Figure FDA0003638918620000068
为样本b对应利用第七计算公式获得的样本b的数据簇总分。
7.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-5中任一项所述的方法。
8.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-5任一项所述的方法。
CN202111079611.6A 2021-09-15 2021-09-15 一种数据处理方法及其装置 Active CN113761034B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111079611.6A CN113761034B (zh) 2021-09-15 2021-09-15 一种数据处理方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111079611.6A CN113761034B (zh) 2021-09-15 2021-09-15 一种数据处理方法及其装置

Publications (2)

Publication Number Publication Date
CN113761034A CN113761034A (zh) 2021-12-07
CN113761034B true CN113761034B (zh) 2022-06-17

Family

ID=78795774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111079611.6A Active CN113761034B (zh) 2021-09-15 2021-09-15 一种数据处理方法及其装置

Country Status (1)

Country Link
CN (1) CN113761034B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110080A (zh) * 2019-03-29 2019-08-09 平安科技(深圳)有限公司 文本分类模型训练方法、装置、计算机设备及存储介质
CN111096730A (zh) * 2020-01-10 2020-05-05 上海大学 基于自发动力学活动的波动熵的自闭症分类方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6142727B2 (ja) * 2013-08-12 2017-06-07 富士通株式会社 データアクセス分析プログラム、データアクセス分析方法、及びデータアクセス分析装置
JP6903595B2 (ja) * 2018-01-22 2021-07-14 株式会社日立製作所 データ分析支援システム及びデータ分析支援方法
CN110334952A (zh) * 2019-07-05 2019-10-15 广西电力职业技术学院 一种基于改进灰色关联度的配电网规划后评价方法
CN112257756A (zh) * 2020-09-25 2021-01-22 北京三快在线科技有限公司 模型训练数据的选取方法及装置
CN113159162B (zh) * 2021-04-19 2022-04-01 南京理工大学紫金学院 一种基于信息融合与灰色关联度的故障诊断方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110080A (zh) * 2019-03-29 2019-08-09 平安科技(深圳)有限公司 文本分类模型训练方法、装置、计算机设备及存储介质
CN111096730A (zh) * 2020-01-10 2020-05-05 上海大学 基于自发动力学活动的波动熵的自闭症分类方法

Also Published As

Publication number Publication date
CN113761034A (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
Killick et al. changepoint: An R package for changepoint analysis
Kumar et al. MEGA3: integrated software for molecular evolutionary genetics analysis and sequence alignment
CN113065101B (zh) 逻辑回归模型的可视化解释方法及装置
CN108664538B (zh) 一种输变电设备疑似家族性缺陷的自动辨识方法及系统
CN109933502B (zh) 电子装置、用户操作记录的处理方法和存储介质
CN107004141A (zh) 对大样本组的高效标注
Snowsill et al. Finding surprising patterns in textual data streams
CN109947815B (zh) 一种基于离群点算法的窃电辨识方法
CN113592019A (zh) 基于多模型融合的故障检测方法、装置、设备及介质
CN113268403B (zh) 时间序列的分析预测方法、装置、设备及存储介质
CN113327136A (zh) 归因分析方法、装置、电子设备及存储介质
CN110632546A (zh) 基于全网域证据集的电子式互感器可信度评估方法和装置
CN105302730A (zh) 一种检测计算模型的方法、测试服务器及业务平台
CN111651340A (zh) 告警数据规则挖掘方法、装置及电子设备
CN113761034B (zh) 一种数据处理方法及其装置
CN117501275A (zh) 用于分析由大量单独消息组成的数据的方法、计算机程序产品和计算机系统
CN111209158B (zh) 服务器集群的挖矿监控方法及集群监控系统
CN114117354A (zh) 一种时序数据的异常检测方法、装置及设备
Rodrigues et al. Making decisions for structural genomics
Groulx et al. The EZ Diffusion Model: An overview with derivation, software, and an application to the Same-Different task
CN113220551A (zh) 指标趋势预测及预警方法、装置、电子设备及存储介质
CN117251532B (zh) 一种基于动态多级匹配的大规模文献机构消歧方法
James Common statistical errors in morphometry
CN117973566B (zh) 训练数据处理方法、装置及相关设备
CN107992567A (zh) 数据采集方法及数据采集系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant