CN111488364A - 一种数据处理方法、装置、设备及计算机可读存储介质 - Google Patents
一种数据处理方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111488364A CN111488364A CN201910085532.2A CN201910085532A CN111488364A CN 111488364 A CN111488364 A CN 111488364A CN 201910085532 A CN201910085532 A CN 201910085532A CN 111488364 A CN111488364 A CN 111488364A
- Authority
- CN
- China
- Prior art keywords
- data
- scale
- source data
- current input
- metadata
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本申请公开了一种数据处理方法、装置、设备和计算机可读存储介质,所述方法包括以下步骤:按设定的不同的分割尺度数据对源数据进行统计形成多尺度元数据并存入多尺度元数据库;根据输入的源数据更新多尺度元数据库。本申请的技术方案提出多尺度的元数据概念,能够比较精确地对数据特征进行画像描述,并提供了严谨的数据画像更新机制。多尺度元数据概括了数据的大部分特性,增加了对数据全局了解,大大缩短了其他用户的数据探索时间,有助于知识的有效共享和传递。
Description
技术领域
本公开一般涉及数据处理技术领域,具体涉及一种数据处理方法、装置、设备及计算机可读存储介质。
背景技术
当前数据挖掘缺乏对数据源全局了解,分析时需花大量时间去了解数据特性,一般了解数据所花时间已占到整个数据挖掘时间的60%以上,急切需要优化,并且从数据中学习的知识不能有效传递下去。
不同人对同一份数据分析程度不同,导致理解不同,分析出的结果各不相同,不能真实反映数据价值,急需规范化;
当前存在一份数据经过不同人多次处理,增加质量风险,需花费大量时间来保证数据质量;
当已接入的周期性数据出现数据丢失、数据更改等不易发现的问题时,会对结果造成很大影响。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种数据处理方法、装置、设备及计算机可读存储介质。
第一方面本申请提供一种数据处理方法,包括以下步骤:
按设定的不同的分割尺度数据对源数据进行统计形成多尺度元数据并存入多尺度元数据库;
根据输入的源数据更新多尺度元数据库。
根据本申请实施例提供的技术方案,所述根据输入的源数据更新多尺度元数据库包括以下步骤:
根据上一输入周期内的源数据的多尺度元数据和当前输入周期内源数据的数据属性信息统计当前输入周期内源数据的多尺度元数据;
根据当前输入周期内的源数据的多尺度元数据更新多尺度元数据库;
所述数据属性信息包括数据来源信息、数据的接入周期信息、表名称信息、字段名称信息、字段含义信息、字段类型信息、字段结果及代表的含义信息。
根据本申请实施例提供的技术方案,所述根据输入的源数据更新多尺度元数据库包括以下步骤:
验证当前输入周期内的源数据与上一输入周期内的源数据的一致性,输出验证结果,所述验证结果包括验证一致结果和验证不一致结果;
响应于验证不一致结果,启动异常调查;
响应于异常调查结果统计当前输入周期内的源数据的多尺度元数据;
根据当前输入周期内的源数据的多尺度元数据更新多尺度元数据库。
根据本申请实施例提供的技术方案,所述响应于异常调查结果统计当前输入周期内的源数据的多尺度元数据具体包括以下步骤:
根据上一周期内源数据的多尺度元数据和当前输入源数据的数据属性信息:
判断异常调查结果为数据缺失时,复原缺失数据,更新当前输入源数据的数据属性信息后,以更新的数据属性信息统计当前输入周期内源数据的多尺度元数据;
判断异常调查结果为数据异常时,删除或用默认值替代异常数据后,更新当前输入源数据的数据属性信息,以更新的数据属性信息统计当前输入周期内源数据的多尺度元数据;
判断异常调查结果为数据特殊时,更新分割尺度数据,以更新的分割尺度数据和当前输入源数据的数据属性信息统计当前输入周期内源数据的多尺度元数据。
根据本申请实施例提供的技术方案,所述验证当前输入周期内的源数据与上一输入周期的源数据的一致性,输出验证结果具体包括以下步骤:
将源数据内的字符型数据转化为数值;
确定源数据内各列数据的密度分布图,所述各列数据对应有不同的字段;
响应于所述密度分布图为单一正态分布图,使用T-test算法验证当前输入周期内的源数据与上一输入周期的源数据的属于相同字段的数据列的拟合度;
响应于所述密度分布图为多态分布图,对源数据的各列数据进行离散化处理得到离散数据;使用卡方验证函数验证当前输入周期内的源数据与上一输入周期的源数据的属于相同字段的数据列的离散数据的拟合度;所述离散数据包括离散值和与所述离散值对应的数据的数量;
响应于所述拟合值大于等于设定误差阀值,输出验证不一致结果。
根据本申请实施例提供的技术方案,所述对源数据的各列数据进行离散化处理得到离散数据具体包括以下步骤:
确定所述多态分布图中的各个峰值;
对应各个峰值设定不同的离散值;
在所述多态分布图中确定以各个峰值为中心的正态分布区域;
统计各个离散值对应的正态分布区域内的数据的数量。
第二方面本申请还提供一种数据处理装置,包括:
多尺度元数据库,配置用于存储多尺度元数据;
决策模块,配置用于设定若干分割尺度数据和根据输入源数据更新多尺度元数据库;
所述多尺度元数据由不同的分割尺度数据对源数据进行统计形成。
根据本申请实施例提供的技术方案,还包括元数据库,配置用于存储所述多尺度元数据库的镜像结果;
所述元数据库设有对应各个分割尺度数据的增加单元、删除单元、查询单元和修改单元。
根据本申请实施例提供的技术方案,所述决策模块还配置用于更新所述分割尺度数据,所述装置还包括数据分析模块:配置用于根据上一输入周期内的源数据的多尺度元数据和当前输入周期内源数据的数据属性信息统计当前输入周期内源数据的多尺度元数据并发送给所述决策模块;
所述决策模块依据前输入周期内源数据的多尺度元数据更新所述多尺度元数据库;
所述数据属性信息包括数据来源信息、数据的接入周期信息、表名称信息、字段名称信息、字段含义信息、字段类型信息、字段结果及代表的含义信息。
根据本申请实施例提供的技术方案,还包括验证模块,配置用于验证当前输入周期内的源数据与上一输入周期的源数据的一致性,向所述决策模块输出验证结果,所述验证结果包括证一致结果和验证不一致结果;
所述决策模块配置用于:响应于接收到的验证不一致结果向所述数据分析模块发出异常调查命令;
所述数据分析模块响应于接收到的异常调查命令启动异常调查。
根据本申请实施例提供的技术方案,所述数据分析模块配置具体配置用于按以下步骤启动异常调查:
根据上一周期内源数据的多尺度元数据和当前输入源数据的数据属性信息判断数据缺失时,复原缺失数据,更新当前输入源数据的数据属性信息;
判断数据异常时,删除或用默认值替代异常数据后,更新当前输入源数据的数据属性信息;
判断数据特殊时,向决策模块发送分割尺度更新提醒;
所述决策模块更新分割尺度后更新所述多尺度元数据库。
第三方面本申请还提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项目所述数据处理方法的步骤。
第四方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质有计算机程序,所述计算机程序被处理器执行时实现如上述任意一种数据处理方法的步骤。
本申请的技术方案提出多尺度的元数据概念,能够比较精确地对数据特征进行画像描述,并提供了严谨的数据画像更新机制。多尺度元数据概括了数据的大部分特性,增加了对数据全局了解,大大缩短了其他用户的数据探索时间,的有助于知识的有效共享和传递。
根据本申请某些实施例提供的技术方案,引入元数据库来保存数据在多时间尺度的镜像,便于用户全面、快捷地获取多时间尺度上的数据画像。将数据源的变更或规律及时以镜像的形式存储起来,有助于用户全面地认识数据在多时间尺度上画像,便于选择合适的数据进行建模。为多用户、多环节的数据分析流程提供一个统一的认知平台
根据本申请某些实施例提供的技术方案,有助于提前发现数据异常,避免数据在异常没被处理、记录的操作下流传到下一环节。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请第一种实施例的流程图;
图2为本申请第一种实施例中步骤s200的流程图;
图3为本申请第二种实施例的流程图;
图4为本申请第三种实施例相对于实施例二所增加的步骤流程图;
图5为本申请中一种实施例的数据的密度分布图;
图6为本申请中另一种实施例的密度分布图;
图7为对应图6的离散数据分布图;
图8为本申请第四种实施例的原理框图;
图9为本申请第五种实施例的原理框图;
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
请参考图1为本申请一种数据处理方法一种实施例的流程图,包括以下步骤:
s100、按设定的不同的分割尺度数据对源数据进行统计形成多尺度元数据并存入多尺度元数据库,所以,在本方案中,多尺度元数据是对源数据的数据属性在多个尺度上的聚合描述。
本方案中的分割尺度数据指的是时间尺度上的数据;例如以星期为分割尺度,则分割尺度数据有:星期一、星期二、星期三、星期四、星期五、星期六、星期日;又例如以上下班时间为分割尺度,则分割尺度数据有:上班时间和下班时间;再例如以工作日和放假日为分割尺度,则分割尺度数据有:工作日和放假日;在其他实施例中,分析人员可以根据数据的本身的时间特性设定分割尺度。
例如如下表1所示为对一周内的邮件源数据的多尺度元数据库:
scale | value | num | min | max | mean | std | one_four | median | three_four |
时段 | 下班 | 92 | 397619 | 980690 | 727051.6086956522 | 183063.7507917204 | 509090.0 | 792624.5 | 870606.0 |
时段 | 上班 | 92 | 593751 | 4617492 | 3131144.9565217393 | 1620376.2268564133 | 899107.0 | 4080340.5 | 4320669.75 |
星期 | 星期六 | 13 | 1172781 | 5110329 | 1725251.7692307692 | 1028318.0124802634 | 1365539.0 | 1427362.0 | 1577012.0 |
星期 | 星期四 | 13 | 1260347 | 5324042 | 4758217.538461538 | 1071407.2269977941 | 4756725.5 | 5074121.0 | 5218314.0 |
星期 | 星期一 | 13 | 1404374 | 5436007 | 4520566.076923077 | 1396648.3691530628 | 4732460.0 | 5032774.0 | 5256586.5 |
星期 | 星期三 | 14 | 1230914 | 5522535 | 4816529.5 | 1059252.2905382 | 4818419.25 | 5060882.0 | 5312962.5 |
星期 | 星期日 | 13 | 1025394 | 4884024 | 1460532.0 | 1032919.1001799221 | 1107584.0 | 1154913.0 | 1263674.5 |
星期 | 星期二 | 13 | 1345267 | 5427751 | 4743976.0 | 1047778.979962934 | 4748837.0 | 5002584.0 | 5203797.0 |
星期 | 星期五 | 13 | 1209092 | 5529639 | 4908585.153846154 | 1136062.4092523735 | 4934247.0 | 5216053.0 | 5396038.0 |
工作 | 工作日 | 62 | 4599473 | 5529639 | 5091154.774193549 | 240911.65857609012 | 4883681.0 | 5103741.5 | 5300967.75 |
工作 | 放假日 | 30 | 1025394 | 1785929 | 1310082.9333333333 | 171830.26672190073 | 1168314.0 | 1307671.0 | 1414171.75 |
日期 | 每天 | 92 | 1025394 | 5529639 | 3858196.565217391 | 1795704.914274665 | 1414171.75 | 4885013.5 | 5205494.0 |
表1
表1的多尺度元数据库的分割尺度有四个:分别为时段、星期、工作和日期。
s200、根据输入的源数据更新多尺度元数据库;源数据的导入周期决定了多尺度元数据库的更新周期。
如图2所示,在本实施例中,步骤s200具体包括以下步骤:
s210、根据上一输入周期内的源数据的多尺度元数据和当前输入周期内源数据的数据属性信息统计当前输入周期内源数据的多尺度元数据;
所述数据属性信息包括数据来源信息、数据的接入周期信息、表名称信息、字段名称信息、字段含义信息、字段类型信息、字段结果及代表的含义信息。例如对于下表2示的输入元数据,其第1列的数据的数据属性如下:数据来源信息为:csv文件;数据的接入的数据周期信息为:1天;表名称信息:邮件详情表;字段名称信息:发送时间,字段类型信息为:String;字段结果:list;字段结果及代表的含义信息:邮件发送的UTC格式的时间戳
表2中的每一列数据都有一行上述数据属性信息。
datetime | eventid | messageid |
2018-11-07T08:55:44.171Z | CNSZ17PW0003ll.com | CNSZ17VW0058 |
2018-11-07T08:57:34.672Z | CNSZ17PW0003ll.com | CNSZ17VW0059 |
2018-11-07T08:57:35.071Z | CNSZ17VW0059ll.com | CNSZ17VW0050 |
2018-11-07T08:57:35.078Z | CNSZ17VW0059 | CNSZ17VW0050ll.com |
表2
s220、根据当前输入周期内的源数据的多尺度元数据更新多尺度元数据库;
有了数据属性信息后,即可根据设定的分割尺度信息对源数据按不同的分割尺度数据进行统计。
如图3所示本申请的第二种实施例的流程图所示,本申请提供的数据处理方法,还包括以下步骤:
s300、将多尺度元数据库的镜像结果存入元数据库。
实施例三:
在实施例二的基础上步骤s200还包括以下步骤:
s230、验证当前输入周期内的源数据与上一输入周期内的源数据的一致性,输出验证结果,所述验证结果包括验证一致结果和验证不一致结果;
验证方法可以采用如下方法:
s231、将源数据内的字符型数据转化为数值;例如在邮箱数据中有字段表示发件国家,例如中国、美国等,则可以给“国家”这个字段的数据用其数字代码代替,例如001表示中国,002表示美国,等等。
s232、确定源数据内各列数据的密度分布图,所述各列数据对应有不同的字段;例如如表2中的字段有“datetime”、“eventied”和“messiged”。
例如如图5所示为字段I的两个时间段的数据的密度分布图,其中深灰色的为时间段I内的密度分布图,浅灰色为时间段II内的密度分布图;在该图中可以看出字段I的数据呈单一正态分布。
例如图6所示为字段II的两个时间段的数据的密度分布图,其中深灰色的为时间段I内的密度分布图,浅灰色为时间段II内的密度分布图;在该图中可以看出字段II的数据呈多态分布。
s233、响应于所述密度分布图为单一正态分布图,使用T-test算法验证当前输入周期内的源数据与上一输入周期的源数据的属于相同字段的数据列的拟合度;T-test算法是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。T-test算法经常被用来对数值型数据进行一致性检测,但是,T-test假定数据符合单一正态分布,并且只关注两个样本平均值是否有显著差异。因此,当数据呈多态分布时,需要按照以下步骤来验证数据的一致性。
s234、响应于所述密度分布图为多态分布图,对源数据的各列数据进行离散化处理得到离散数据;离散化处理的具体步骤如下:
s234-1、确定所述多态分布图中的各个峰值;例如在图4所示的多态分布图中,具有6个峰值,分别为10、210、420、450、550、750;
s234-2、对应各个峰值设定不同的离散值;例如对应上述峰值分别设置离散值6、2、5、1、4、3;
s234-3、在所述多态分布图中确定以各个峰值为中心的正态分布区域;正态分布区域的确定以峰值数据为中心,取其两侧最大的对称分布的数据范围,例如取700为中心的时候,其两侧最大的对称分布的数据范围为从650-750。
s234-4、统计各个离散值对应的正态分布区域内的数据的数量。例如对应图6的多态分布图中,各个离散值的正态分布区域内的数据数量,即频数如图7所示。最后使用卡方验证函数验证当前输入周期内的源数据与上一输入周期的源数据的属于相同字段的数据列的离散数据的拟合度;所述离散数据包括离散值和与所述离散值对应的数据的数量;例如如图7所示的两个时间段的两组离散数据(深灰色和浅灰色)的一致性。
s235、响应于所述拟合值大于等于设定误差阀值,输出验证不一致结果。
不管是T-test算法还是卡方验证函数,都基于经验给定设定的误差阀值;一般情况下,同质数据的分布情况是保持一致的,误差不会超出设定阈值。如果数据分布超出设定阈值,则认为数据出现异常。
通常,p-value表示两个样本“合适”的概率。用卡方验证函数验证拟合度检测中设定误差阀值用p-value表示,p-value低于0.05表示数据集一致,p-value大于等于0.05则表示数据集不一致。
s240、响应于验证不一致结果,启动异常调查;
s250、响应于异常调查结果统计当前输入周期内的源数据的多尺度元数据;
根据上一周期内源数据的多尺度元数据和当前输入源数据的数据属性信息:
判断异常调查结果为数据缺失时,复原缺失数据,更新当前输入源数据的数据属性信息后,以更新的数据属性信息统计当前输入周期内源数据的多尺度元数据;判断异常调查结果为数据异常时,删除或用默认值替代异常数据后,更新当前输入源数据的数据属性信息,以更新的数据属性信息统计当前输入周期内源数据的多尺度元数据;
上述数据的缺失和数据异常的判断可以通过人为查询当前输入周期内的源数据判断出来,也可以通过对源数据的各个字段的内容与上一周期内源数据的多尺度元数据的范围比较,不在该范围内时,若数值为0则判为数值缺失,若非零,则判断为异常;
数据分析人员可自行使用工具对数据进行复原或剔除;
判断异常调查结果为数据特殊时,更新分割尺度数据,以更新的分割尺度数据和当前输入源数据的数据属性信息统计当前输入周期内源数据的多尺度元数据。
通过数据属性分析出当前输入的源数据没有缺失和异常,但是和上一输入周期内的源数据不一致时;更换一个与其分割尺度数据相同的历史数据再进行验证,例如当前输入源数据的时间为周六,数据输入周期为1天时,上一输入周期内的源数据为周五,该两组数据不一致,此时可以调用上周六的数据与本次数据做验证;若还是不一致,继续与其分割尺度数据相同的历史数据再进行验证;直至所有的分割尺度数据试验完后还是不一致时,判断当前为数据特殊,增加分割尺度,例如当前输入的源数据为第1个双11的物流数据,和以往的任何一个历史数据都不一致,数据分析人员可增加一个双11的分割尺度数据。
s260、根据当前输入周期内的源数据的多尺度元数据更新多尺度元数据库。
在上述实施例中,分析人员在遇到不一致的验证结果时,才增加分割尺度,在其他实施例中,分析人员也可以根据实际需求增加分割尺度。
优选地,在上述实施例一至实施例三的所有处理步骤之前,还包括以下步骤:
s400、对源数据做规范化处理,并提取源数据的数据属性信息。例如对于表1的表格数据,首先将表1的元数据转化成csv格式,然后导入spark中,再根据分隔符切割。
在其他实施例中,对于字段型存储的数据可直接导入spark,然后利用正则匹配找到每个字段对应的值;
最后对不同的数据再利用scala语言映射成DataFrame,DataFrame(规范的临时缓存数据)。
实施例四:
如图4所示为本申请提供的一种数据处理装置100的原理框图;
该装置包括:
多尺度元数据库110,配置用于存储多尺度元数据;
决策模块120,配置用于配置用于设定若干分割尺度数据和根据输入源数据更新多尺度元数据库;
所述多尺度元数据由不同的分割尺度数据对源数据进行统计形成。
实施例五:
如图8所示为本申请提供的一种数据处理装置的原理框图;在实施例四的基础上,该装置包括:元数据库130,配置用于存储有所述多尺度元数据库110的镜像结果;
所述元数据库130设有对应各个分割尺度数据的增加单元、删除单元、查询单元和修改单元。所述决策模块还配置用于更新所述分割尺度数据和所述多尺度元数据库。
优选地,还包括数据分析模块150:配置用于根据上一输入周期内的源数据的多尺度元数据和当前输入周期内源数据的数据属性信息统计当前输入周期内源数据的多尺度元数据并发送给所述决策模块;
所述决策模块依据前输入周期内源数据的多尺度元数据更新所述多尺度元数据库;
所述数据属性信息包括数据来源信息、数据的接入周期信息、表名称信息、字段名称信息、字段含义信息、字段类型信息、字段结果及代表的含义信息。
优选地,还包括验证模块140,配置用于验证当前输入周期内的源数据与上一输入周期的源数据的一致性,向所述决策模块输出验证结果,所述验证结果包括证一致结果和验证不一致结果;
所述决策模块配置用于:响应于接收到的验证不一致结果向所述数据分析模块发出异常调查命令;
所述数据分析模块响应于接收到的异常调查命令启动异常调查,异常调查具体包括以下步骤:
根据上一周期内源数据的多尺度元数据和当前输入源数据的数据属性信息判断数据缺失时,复原缺失数据,更新当前输入源数据的数据属性信息;
判断数据异常时,删除或用默认值替代异常数据后,更新当前输入源数据的数据属性信息;
判断数据特殊时,向决策模块发送分割尺度更新提醒;
所述决策模块更新分割尺度后更新所述多尺度元数据库。
优选地,还包括数据源模块150,配置用于:
对源数据做规范化处理,并提取源数据的数据属性信息。
应当理解,装置100中记载的诸单元或模块与参考图5描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于装置100及其中包含的单元,在此不再赘述。装置100可以预先实现在电子设备的浏览器或其他安全应用中,也可以通过下载等方式而加载到电子设备的浏览器或其安全应用中。装置100中的相应单元可以与电子设备中的单元相互配合以实现本申请实施例的方案。
实施例六:
为本申请提供的一种数据处理设备的原理框图,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如实施例一中的实体关系查询方法的步骤。
下面参考图9,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统700的结构示意图。
如图9所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本公开的实施例,上文参考图1-4描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行图2的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
实施例四:
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行实施例一中所述的数据处理方法的步骤。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (12)
1.一种数据处理方法,其特征在于,包括以下步骤:
按设定的不同的分割尺度数据对源数据进行统计形成多尺度元数据并存入多尺度元数据库;
根据输入的源数据更新所述多尺度元数据库。
2.根据权利要求1所述的数据处理方法,其特征在于,所述根据输入的源数据更新多尺度元数据库包括以下步骤:
根据上一输入周期内的源数据的多尺度元数据和当前输入周期内源数据的数据属性信息统计当前输入周期内源数据的多尺度元数据;
根据当前输入周期内的源数据的多尺度元数据更新多尺度元数据库;
所述数据属性信息包括数据来源信息、数据的接入周期信息、表名称信息、字段名称信息、字段含义信息、字段类型信息、字段结果及代表的含义信息。
3.根据权利要求2所述的数据处理方法,其特征在于,所述根据输入的源数据更新多尺度元数据库包括以下步骤:
验证当前输入周期内的源数据与上一输入周期内的源数据的一致性,输出验证结果,所述验证结果包括验证一致结果和验证不一致结果;
响应于验证不一致结果,启动异常调查;
响应于异常调查结果统计当前输入周期内的源数据的多尺度元数据;
根据当前输入周期内的源数据的多尺度元数据更新多尺度元数据库。
4.根据权利要求3所述的数据处理方法,其特征在于,所述响应于异常调查结果统计当前输入周期内的源数据的多尺度元数据具体包括以下步骤:
根据上一周期内源数据的多尺度元数据和当前输入源数据的数据属性信息:
判断异常调查结果为数据缺失时,复原缺失数据,更新当前输入源数据的数据属性信息后,以更新的数据属性信息统计当前输入周期内源数据的多尺度元数据;
判断异常调查结果为数据异常时,删除或用默认值替代异常数据后,更新当前输入源数据的数据属性信息,以更新的数据属性信息统计当前输入周期内源数据的多尺度元数据;
判断异常调查结果为数据特殊时,更新分割尺度数据,以更新的分割尺度数据和当前输入源数据的数据属性信息统计当前输入周期内源数据的多尺度元数据。
5.根据权利要求3所述的数据处理方法,其特征在于,所述验证当前输入周期内的源数据与上一输入周期的源数据的一致性,输出验证结果具体包括以下步骤:
将源数据内的字符型数据转化为数值;
确定源数据内各列数据的密度分布图,所述各列数据对应有不同的字段;
响应于所述密度分布图为单一正态分布图,使用T-test算法验证当前输入周期内的源数据与上一输入周期的源数据的属于相同字段的数据列的拟合度;
响应于所述密度分布图为多态分布图,对源数据的各列数据进行离散化处理得到离散数据;使用卡方验证函数验证当前输入周期内的源数据与上一输入周期的源数据的属于相同字段的数据列的离散数据的拟合度;所述离散数据包括离散值和与所述离散值对应的数据的数量;
响应于所述拟合值大于等于设定误差阀值,输出验证不一致结果。
6.一种数据处理装置,其特征在于,包括:
多尺度元数据库,配置用于存储多尺度元数据;
决策模块,配置用于设定若干分割尺度数据和根据输入源数据更新多尺度元数据库;
所述多尺度元数据由不同的分割尺度数据对源数据进行统计形成。
7.根据权利要求6所述的数据处理装置,其特征在于,还包括元数据库,配置用于存储所述多尺度元数据库的镜像结果;
所述元数据库设有对应各个分割尺度数据的增加单元、删除单元、查询单元和修改单元。
8.根据权利要求7所述的数据处理装置,其特征在于,所述决策模块还配置用于更新所述分割尺度数据;
所述装置还包括数据分析模块:配置用于根据上一输入周期内的源数据的多尺度元数据和当前输入周期内源数据的数据属性信息统计当前输入周期内源数据的多尺度元数据并发送给所述决策模块;
所述决策模块依据前输入周期内源数据的多尺度元数据更新所述多尺度元数据库;
所述数据属性信息包括数据来源信息、数据的接入周期信息、表名称信息、字段名称信息、字段含义信息、字段类型信息、字段结果及代表的含义信息。
9.根据权利要求8所述的数据处理装置,其特征在于,还包括验证模块,配置用于验证当前输入周期内的源数据与上一输入周期的源数据的一致性,向所述决策模块输出验证结果,所述验证结果包括证一致结果和验证不一致结果;
所述决策模块配置用于:响应于接收到的验证不一致结果向所述数据分析模块发出异常调查命令;
所述数据分析模块响应于接收到的异常调查命令启动异常调查。
10.根据权利要求9所述的数据处理装置,其特征在于,所述数据分析模块配置具体配置用于按以下步骤启动异常调查:
根据上一周期内源数据的多尺度元数据和当前输入源数据的数据属性信息判断数据缺失时,复原缺失数据,更新当前输入源数据的数据属性信息;
判断数据异常时,删除或用默认值替代异常数据后,更新当前输入源数据的数据属性信息;
判断数据特殊时,向决策模块发送分割尺度更新提醒;
所述决策模块更新分割尺度后更新所述多尺度元数据库。
11.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5任意一项目所述数据处理方法的步骤。
12.一种计算机可读存储介质,所述计算机可读存储介质有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任意一项所述数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910085532.2A CN111488364A (zh) | 2019-01-29 | 2019-01-29 | 一种数据处理方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910085532.2A CN111488364A (zh) | 2019-01-29 | 2019-01-29 | 一种数据处理方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111488364A true CN111488364A (zh) | 2020-08-04 |
Family
ID=71811629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910085532.2A Pending CN111488364A (zh) | 2019-01-29 | 2019-01-29 | 一种数据处理方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111488364A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008192102A (ja) * | 2007-02-08 | 2008-08-21 | Sony Computer Entertainment Inc | メタデータ生成装置およびメタデータ生成方法 |
US20130080375A1 (en) * | 2011-09-23 | 2013-03-28 | Krishnamurthy Viswanathan | Anomaly detection in data centers |
CN104126307A (zh) * | 2012-02-29 | 2014-10-29 | 杜比实验室特许公司 | 用于改善的图像处理和内容传递的图像元数据创建 |
CN106648446A (zh) * | 2015-10-30 | 2017-05-10 | 阿里巴巴集团控股有限公司 | 一种用于时序数据的存储方法、装置及电子设备 |
-
2019
- 2019-01-29 CN CN201910085532.2A patent/CN111488364A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008192102A (ja) * | 2007-02-08 | 2008-08-21 | Sony Computer Entertainment Inc | メタデータ生成装置およびメタデータ生成方法 |
US20130080375A1 (en) * | 2011-09-23 | 2013-03-28 | Krishnamurthy Viswanathan | Anomaly detection in data centers |
CN104126307A (zh) * | 2012-02-29 | 2014-10-29 | 杜比实验室特许公司 | 用于改善的图像处理和内容传递的图像元数据创建 |
CN106648446A (zh) * | 2015-10-30 | 2017-05-10 | 阿里巴巴集团控股有限公司 | 一种用于时序数据的存储方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11113413B2 (en) | Calculating differentially private queries using local sensitivity on time variant databases | |
US10311044B2 (en) | Distributed data variable analysis and hierarchical grouping system | |
US20200057757A1 (en) | Data quality analysis | |
CN110851428B (zh) | 基于规则算子动态编排的数据库分析方法、装置及介质 | |
US20070005297A1 (en) | Automatic determination of high significance alert thresholds for system performance metrics using an exponentially tailed model | |
WO2022095379A1 (zh) | 数据降维处理方法、装置、计算机设备及存储介质 | |
CN112000808A (zh) | 一种数据处理方法及装置、可读存储介质 | |
US20230153281A1 (en) | Maintaining a dataset based on periodic cleansing of raw source data | |
CN113051308A (zh) | 告警信息处理方法、设备、存储介质及装置 | |
CN110738511A (zh) | 智能客服方法及装置 | |
CN111415192A (zh) | 基于大数据的用户用水性质预测方法 | |
Zumel et al. | vtreat: a data. frame Processor for Predictive Modeling | |
CN106874332B (zh) | 数据库访问方法和装置 | |
CN113901037A (zh) | 数据管理方法、装置及存储介质 | |
CN113222057A (zh) | 数据预测模型训练、数据预测方法、装置、设备及介质 | |
CN112084262A (zh) | 数据信息筛选方法、装置、计算机设备及存储介质 | |
CN111488364A (zh) | 一种数据处理方法、装置、设备及计算机可读存储介质 | |
CN114495137B (zh) | 票据异常检测模型生成方法与票据异常检测方法 | |
EP4174678A1 (en) | Cloud analysis scenario-based hybrid query method and system, and storage medium | |
CN112559641B (zh) | 拉链表的处理方法及装置、可读存储介质、电子设备 | |
US10614091B1 (en) | Warehouse based reporting and operational reporting integration | |
US11095544B1 (en) | Robust anomaly and change detection utilizing sparse decomposition | |
CN114581219A (zh) | 一种反电信网络诈骗预警方法及系统 | |
CN112862179A (zh) | 一种用能行为的预测方法、装置及计算机设备 | |
CN113377604A (zh) | 一种数据处理方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |