CN109597805A - 一种数据处理方法、电子设备及存储介质 - Google Patents
一种数据处理方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN109597805A CN109597805A CN201811330589.6A CN201811330589A CN109597805A CN 109597805 A CN109597805 A CN 109597805A CN 201811330589 A CN201811330589 A CN 201811330589A CN 109597805 A CN109597805 A CN 109597805A
- Authority
- CN
- China
- Prior art keywords
- data
- mentioned
- target
- assessment result
- quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 22
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 238000000034 method Methods 0.000 claims abstract description 67
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000007781 pre-processing Methods 0.000 claims abstract description 36
- 230000008569 process Effects 0.000 claims abstract description 27
- 238000011835 investigation Methods 0.000 claims description 31
- 238000000586 desensitisation Methods 0.000 claims description 27
- 238000011156 evaluation Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 9
- 238000013500 data storage Methods 0.000 abstract description 7
- 238000010606 normalization Methods 0.000 abstract description 2
- 238000006243 chemical reaction Methods 0.000 description 10
- 241001269238 Data Species 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000007689 inspection Methods 0.000 description 9
- 230000004044 response Effects 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000012546 transfer Methods 0.000 description 6
- 238000012423 maintenance Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 3
- 238000012372 quality testing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000013499 data model Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例公开了一种数据处理方法、电子设备及存储介质,涉及数据处理及数据标准化技术,其中方法包括:获取待处理的原始数据;采用预处理规则对所述原始数据进行预处理,获得目标数据;评估所述目标数据以获得数据评估结果;判断所述数据评估结果是否满足数据质量要求;若不满足,将所述目标数据标记为无效数据,便于获得规范数据以进行后续的数据存储或者处理过程,可以提高数据处理的效率和准确度。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法、电子设备及计算机存储介质。
背景技术
大数据已经被广泛认为是一种战略性的新型资源,可以定义当今时代产生的海量数据以及相关的技术发展与服务创新。大数据蕴藏着巨大的商业价值。在数据流通领域,随着数据量迅速增长,不同数据源的数据质量参次不齐,数据质量有不同的概念和标准,数据质量一般包括数据的准确性、完整性、及时性、一致性等定量描述。对于大数据时代下的用户来说,其所需存储、处理的数据量大,数据来源和数据结构繁多复杂,为大数据的分析和应用带来很多挑战。用户要想充分发挥大数据所赋予的机遇和优势,前提是必须拥有可靠、准确、及时的高质量的数据,只有从高质量的大规模数据中提取隐含的、有用的信息,才能做出更加精准、更加符合市场和客户需求的决策。为此,用户更加注重数据质量及其重要性。
在医疗保健领域,在各方面都需要处理大量的医保数据,因此数据处理依然需要在保证准确性的前提下,提高处理效率。一般而言,可以通过采集接收的数据或者购买的数据进行数据比对分析和处理,实现获取有效信息的目的,但数据本身可能存在一定的误差,其数据类型等可能差异较大,因此在数据处理和分析的过程中不能准确有效地获得分析结果,以及会导致系统出现误差甚至错误,数据处理的准确率和处理效率较低。
发明内容
本申请实施例提供一种数据处理方法、电子设备及存储介质,便于获得规范数据以进行后续的数据存储或者处理过程,可以提高数据处理的效率和准确度。
第一方面,本申请实施例提供了一种数据处理方法,该方法包括:
获取待处理的原始数据;采用预处理规则对所述原始数据进行预处理,获得目标数据;
评估所述目标数据以获得数据评估结果;
判断所述数据评估结果是否满足数据质量要求;
若不满足,将所述目标数据标记为无效数据。
作为一种可能的实施方式,所述判断所述数据评估结果是否满足数据质量要求之后,所述方法还包括:
将所述数据评估结果满足所述数据质量要求的目标数据标记为有效数据,并将所述有效数据存储于存储空间。
作为一种可能的实施方式,所述采用预处理规则对所述原始数据进行预处理,获得目标数据包括:
按照脱敏规则对所述原始数据进行脱敏处理,获得满足所述脱敏规则的目标数据。
作为一种可能的实施方式,所述采用预处理规则对所述原始数据进行预处理,获得目标数据还包括:
按照目标数据结构对所述原始数据进行数据转码,获得与所述目标数据结构匹配的目标数据。
作为一种可能的实施方式,所述评估所述目标数据以获得数据评估结果之前,所述方法还包括:
确定所述目标数据的目标类型,获取所述目标类型对应的排查规则;
所述评估所述目标数据以获得数据评估结果包括:
按照所述排查规则对所述目标数据进行评估以获得所述数据评估结果。
作为一种可能的实施方式,所述按照所述排查规则对所述目标数据进行检测以获得所述数据评估结果包括:
获取所述目标类型的预存数据模板,将所述目标数据与所述预存数据模板进行数据比对,获得数据评分;
所述判断所述数据评估结果是否满足数据质量要求包括:
判断所述数据评分是否高于第一分数阈值,若高于,则所述数据评估结果满足所述数据质量要求,若不高于,则所述数据评估结果不满足所述数据质量要求。
作为一种可能的实施方式,所述将所述目标数据标记为无效数据之后,所述方法还包括:
生成所述原始数据的数据评估报告,所述数据评估报告包括所述原始数据的数据评估时刻和所述数据评分;
将所述无效数据删除,和/或获取所述无效数据的发送方的联系地址,向所述联系地址发送提示信息,所述提示信息用于提示来自所述发送方的原始数据中有无效数据。
第二方面,本申请实施例提供了一种电子设备,包括:获取模块、预处理模块、评估模块、判断模块和标记模块,其中:
所述获取模块,用于获取待处理的原始数据;
所述预处理模块,用于采用预处理规则对所述原始数据进行预处理,获得目标数据;
所述评估模块,用于评估所述目标数据以获得数据评估结果;
所述判断模块,用于判断所述数据评估结果是否满足数据质量要求
所述标记模块,用于若所述数据评估结果不满足数据质量要求,将所述目标数据标记为无效数据。
第三方面,本申请实施例还提供了一种电子设备,包括:处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如第一方面及其任一种可能的实施方式所述的方法。
第四方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面及其任一种可能的实施方式的方法。
本申请实施例通过获取待处理的原始数据,采用预处理规则对所述原始数据进行预处理,获得目标数据,再评估所述目标数据以获得数据评估结果,判断所述数据评估结果是否满足数据质量要求,若不满足,将所述目标数据标记为无效数据,便于获得规范数据以进行后续的数据存储或者处理过程,可以提高数据处理的效率和准确度。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1是本申请实施例提供的一种数据处理方法的流程示意图;
图2是本申请另一实施例提供的一种数据处理方法的流程示意图;
图3是本申请实施例提供的一种电子设备的结构示意图;
图4是本申请实施例提供的另一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
为了能够更好地理解本申请实施例,下面将对应用本申请实施例的方法进行介绍。
本申请实施例中提到的电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备(例如智能手表、智能手环、计步器等)、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(User Equipment,UE),移动台(MobileStation,MS),终端设备(terminal device)等等。为方便描述,上面提到的设备统称为电子设备。
请参见图1,是本申请实施例提供的一种数据处理方法的示意流程图,本方法可以应用于电子设备,如图1所示该方法可包括:
101、获取待处理的原始数据,采用预处理规则对上述原始数据进行预处理,获得目标数据。
本申请实施例中的原始数据可以为医疗保险数据,医疗保险一般指基本医疗保险,是为了补偿劳动者因疾病风险造成的经济损失而建立的一项社会保险制度。通过用人单位与个人缴费,建立医疗保险基金,参保人员患病就诊发生医疗费用后,由医疗保险机构对其给予一定的经济补偿。在上述过程中会涉及到大量的医保数据处理。
上述原始数据可以是各类型文档中的数据,比如WORD、EXCEL等文字编辑软件产生的文件中的数据。
电子设备可以与终端设备进行通信,接收来自终端设备的原始数据,在接收到上述原始数据之后可以立即执行步骤101,而电子设备中可以存储预设执行时刻,即用户可以提前设置数据处理的时间,进而可以在上述预设执行时刻执行上述步骤101。
数据在不断使用和变化的过程中,如果不维护,数据质量会不断下降。数据录入时,可能存在随意性;数据从不同数据源导入,会导致数据重复,格式不一致,单位不一致,含义不一致。数据很可能没有跟着真实事物的变化而变化。比如,一条数据包含了公司名称,地址,电话和联系人。过了段时间,这个联系人离职了,联系电话也变了;又过段时间,公司搬家了,又合资成另一家公司了。这时,再要用这条数据时就发现,已经很难联系上了。由此可见提高数据质量,减少重复和不一致,就是非常有必要的了。
本申请实施例中的数据预处理(data preprocessing)是指在主要的处理以前对数据进行的一些处理。如对大部分地球物理面积性观测数据在进行转换或增强处理之前,首先将不规则分布的测网经过插值转换为规则网的处理,以利于计算机的运算。另外,对于一些剖面测量数据,如地震资料预处理有垂直叠加、重排、加道头、编辑、重新取样、多路编辑等。
具体的,上述采用预处理规则对原始数据进行预处理,获得目标数据可以包括:按照脱敏规则对上述原始数据进行脱敏处理,获得满足上述脱敏规则的目标数据。
数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。数据库安全技术之一,数据库安全技术主要包括:数据库漏扫、数据库加密、数据库防火墙、数据脱敏、数据库安全审计系统。数据库安全风险包括:拖库、刷库、撞库。
本申请实施例中可以预先设置上述脱敏规则,上述脱敏规则可以包括针对上述各类敏感数据的处理参数,比如设置身份证号、手机号、卡号、客户号进行脱敏,也可以设置对某种预定类型的数据进行脱敏。可以根据实际情况设置上述脱敏规则,选择需要进行脱敏的数据种类。存储在上述电子设备中,在进行预处理时,在医保领域使用数据脱敏处理,可以提高数据安全性,保障用户隐私。
可选的,上述采用预处理规则对原始数据进行预处理,获得目标数据还包括:
按照目标数据结构对上述原始数据进行数据转码,获得与上述目标数据结构匹配的目标数据。
数据转码又叫数据转换(data transfer),是将数据从一种表示形式变为另一种表现形式的过程。在医保系统中的数据传递,常存在数据库的更换、数据结构的更换,从而可以进行数据本身的转换。
可选的,本申请实施例中可以通过数据转换标准实现规范的数据转码。
数据转换标准包括一整套使数据按字段、记录和文件要求进行编码的规划,以便通过指定的介质进行转换。数据模型是研制编码规则的先决条件,转换标准的中介性质是一种主要的特征。转换标准优化后可使所有的数据准行有效的通信,而对产品和数据库结构进行优化后则可进行有效的存贮、应用及维护。
预处理之后获得目标数据,可以执行步骤102。
可选的,上述采用预处理规则对原始数据进行预处理,获得目标数据过程中,还可以采用数据去重方法进行预处理,具体包括:
数据去重又称重复数据删除,是指在一个数字文件集合中,找出重复的数据并将其删除,只保存唯一的数据单元。
在删除的同时,要考虑数据重建,即虽然文件的部分内容被删除,但当需要时,仍然将完整的文件内容重建出来,这就需要保留文件与唯一数据单元之间的索引信息。
本申请实施例中,针对海量医保数据,通过数据去重,可以节省存储空间。通过重复数据删除,可以大大降低需要的存储介质数量,进而降低成本。甚至可以使基于硬盘的存储系统成本低于磁带库,同时提供更好的性能。因此,支持数据去重技术的存储系统,特别适合用来做数据的备份。
数据去重还可以提升写入性能。磁盘的写入性能是有限的,通常顺序写入在100MB/s左右,如果在写入数据的时候就进行数据去重,可以避免一部分的数据写入磁盘,从而提升写入性能。
数据去重还可以节省网络带宽。如果在客户端进行数据去重,仅将新增的数据传输到存储系统,可以减少网络上的数据传输量,从而节省网络带宽。
102、评估上述目标数据以获得数据评估结果。
数据质量评价是指对数据质量进行评估的方法和过程,常用的评价方法有演绎推算、内部验证、与原始资料(或更高精度的独立原始资料)对比、独立抽样检查、多边形叠加检查、有效值检查等。数据质量可以包括一下几个方面:完整性、规范性、一致性、准确性、唯一性、关联性。
具体的,可以对上述目标数据的数据质量进行评估,电子设备可以存储有数据质量评估规则,按照上述数据质量评估规则对上述目标数据进行检测,获得上述数据评估结果,反应数据质量。其中,上述数据质量评估规则可以涉及以下方面的数据检测项:数据齐全、数据有效(数据的类型,范围是否满足物理量定义,满足算法需求)、数据在时间上面的稳定性(是否存在数据缺失情况)、数据的准确性(是实际采集的物理量保持一致几个维度去衡量项目数据)等,可以根据实际情况设置上述数据检测项来对数据质量进行评估。
可选的,上述数据检测项的检测过程中还可以使用预存数据模板,电子设备可以存储有上述预存数据模板,其中包含多种类型的数据模板。在获得上述目标数据之后,可以获取上述预存数据模板,将上述目标数据与上述预存数据模板进行数据比对,并按照上述数据质量评估规则获得数据评分,上述数据评估结果可以包括上述数据评分。
在获得上述数据评估结果之后可以执行步骤103。
103、判断上述数据评估结果是否满足数据质量要求。
上述数据质量评估规则中还可以包括数据质量要求,即规定了什么样的数据才满足质量要求,在获得上述数据评估结果之后可以判断上述数据评估结果是否满足上述数据质量要求,若不满足,可以执行步骤104;若满足,可以执行步骤105。
104、将上述目标数据标记为无效数据。
具体的,若不满足上述数据质量要求,可以将上述目标数据标记为无效数据,无效数据的数据质量不满足要求,因此可以以标记的形式提醒用户。
可选的,可以打回上述无效数据,不能进入电子设备的数据库中,即将所述无效数据删除,和/或获取上述无效数据的发送方的联系地址,向上述联系地址发送提示信息,上述提示信息用于提示来自所述发送方的原始数据中有无效数据,以通知上述无效数据的发送方重新发送上述无效数据,获取满足质量要求的数据。
105、将上述数据评估结果满足上述数据质量要求的目标数据标记为有效数据,并将上述有效数据存储于存储空间。
具体的,数据评估结果满足上述数据质量要求的目标数据可以被确定并标记为有效数据,可以将上述有效数据存储于存储空间。在获得上述有效数据之后,可以对上述有效数据进行后续的数据处理过程,比如分组进行进一步的数据排查和分值计算等。标记为有效数据的目标数据可以被系统识别,利用这些数据可以进行数据分析处理,以及可以将其存储到预设空间进行保存,便于后续调用。
可选的,该方法还包括:生成上述原始数据的数据评估报告,上述数据评估报告包括上述原始数据的数据评估时刻、上述数据评分、数据有效率和/或数据无效率。其中,上述数据有效率为有效数据占所有目标数据的百分比,数据无效率为无效数据占所有目标数据的百分比。通过上述数据评估报告,可以清晰地反应数据质量情况,便于用户对数据的维护和数据获取、数据处理系统的完善和改进。
本申请实施例通过获取待处理的原始数据,采用预处理规则对所述原始数据进行预处理,获得目标数据,再评估所述目标数据以获得数据评估结果,判断所述数据评估结果是否满足数据质量要求,若不满足,将所述目标数据标记为无效数据,便于获得规范数据以进行后续的数据存储或者处理过程,可以提高数据处理的效率和准确度。
参见图2,是本申请实施例提供的另一种数据处理方法的示意流程图,图2所示的实施例可以是在图1所示的实施例的基础上得到的,如图2所示该方法可包括:
201、获取待处理的原始数据,采用预处理规则对上述原始数据进行预处理,获得目标数据。
上述步骤201可以参考图1所示的实施例步骤101中的具体描述,此处不再赘述。
202、确定上述目标数据的目标类型,获取上述目标类型对应的排查规则。
数据质量评价是指对数据质量进行评估的方法和过程,常用的评价方法有演绎推算、内部验证、与原始资料(或更高精度的独立原始资料)对比、独立抽样检查、多边形叠加检查、有效值检查等。
具体的,可以对上述目标数据的数据质量进行评估,首先确定上述目标数据的目标类型,即识别目标数据的数据种类。对数据的分类可以有多种方法,比如依据实际情况分成几个大类再进行细分类。
举例来说,在医保数据中,可以按照患者基本信息、住院过程信息、诊疗信息和费用信息分为四种项目类别,不同的项目类别中包括不同项目名称,比如患者基本信息可以包括:新生儿出生体重、新生儿入院体重、病案号、性别、出生日期、年龄、医疗付款方式、健康卡号、患者姓名、身份证号、电话号码、联系人关系、联系人姓名、联系人电话等项目,不同项目涉及的数据排查规则是不同的,在确定上述目标类型之后,可以获取该目标类型对应的排查规则,执行步骤203。
203、按照上述排查规则对上述目标数据进行评估以获得上述数据评估结果。
具体的,电子设备可以存储有上述预存数据模板,其中包含多种类型的数据模板。在获得上述排查规则之后,可以获取上述预存数据模板,将上述目标数据与上述预存数据模板进行数据比对,并按照上述排查规则获得数据评分,上述数据评估结果可以包括上述数据评分。
上述排查规则可以包括针对数据值域的评分细则。值域:数学名词,函数经典定义中,因变量改变而改变的取值范围叫做这个函数的值域,在函数现代定义中是指定义域中所有元素在某个对应法则下对应的所有的象所组成的集合,本申请实施例中可以理解为数据转化为数值的范围。
针对不同的数据项目,可以有不同的排查规则,该排查规则可以理解为针对数据值域的评分规则,比如,职业不在值域范围时,排查规则可包括:填写不在值域范围内扣0.5分;值域范围:11,13,17,21,24,27,31,37,51,54,70,80,9。又如:现住址等三项均未填写时,排查规则可包括:现住址、户口地址和工作单位地址三项中至少填写一项,否则扣0.5分;(三填其一)。上述排查规则可以根据实际情况进行编写,以获得完整的评分规则,从而获得数据评估结果。
204、判断上述数据评估结果是否满足数据质量要求。
具体的,在获得上述数据评估结果之后,可以判断是否满足数据质量要求。具体的,在步骤203中获得数据评分,可以判断上述数据评分是否高于第一分数阈值。
电子设备中可以存储上述第一分数阈值,在按照上述排查规则对目标数据进行数据评估之后,获得数据评估结果之后,针对上述数据评估结果中的数据评分,可以判断上述数据评分数据评分是否高于第一分数阈值,若上述数据评分高于第一分数阈值,则数据评估结果满足上述数据质量要求,可以执行步骤205;若上述数据评分不高于上述第一分数阈值,上述数据评估结果不满足上述数据质量要求,可以执行步骤206。
可选的,电子设备中还可以存储多个分数阈值,通过与上述数据评分的比较,可以确定目标数据的质量等级。比如可以设置高于上述第一评分阈值的第二分数阈值,针对上述数据评估结果中的数据评分,可以判断上述数据评分数据评分是否高于第二分数阈值,若上述数据评分高于第二分数阈值,则数据评估结果满足上述数据质量要求,并且数据质量等级为优,若上述数据评分高于上述第一分数阈值但不高于上述第二评分阈值,上述数据评估结果满足上述数据质量要求,但数据质量等级为良。
通过对目标数据进行数据质量等级的评估可以将数据按照数据质量情况进行整理,直观地了解数据质量情况,便于参考数据质量执行后续数据处理步骤。
205、将上述数据评估结果满足上述数据质量要求的目标数据标记为有效数据,并将上述有效数据存储于存储空间。
上述步骤205可以参考图1所示的实施例步骤105中的具体描述,此处不再赘述。
206、将上述目标数据标记为无效数据。
上述步骤206可以参考图1所示的实施例步骤104中的具体描述,此处不再赘述。
207、将上述无效数据删除,获取上述无效数据的发送方的联系地址,向上述联系地址发送提示信息,上述提示信息用于提示来自上述发送方的原始数据中有无效数据。
在确定上述无效数据之后,可以不执行上述目标数据的后续数据处理流程,不准入上述无效数据,即上述无效数据,不能进入电子设备的数据库中,可以将上述无效数据删除。可选的,还可以获取上述无效数据的发送方的联系地址,向上述联系地址发送提示信息,上述提示信息用于提示来自所述发送方的原始数据中有无效数据,以通知上述无效数据的发送方重新发送上述无效数据,获取满足质量要求的数据。
可选的,该方法还包括:生成上述原始数据的数据评估报告,上述数据评估报告包括上述原始数据的数据评估时刻、上述数据评分、数据有效率和/或数据无效率。其中,上述数据有效率为有效数据占所有目标数据的百分比,数据无效率为无效数据占所有目标数据的百分比。通过上述数据评估报告,可以清晰地反应数据质量情况,可以对数据的获取和处理提供有效的参考,便于用户对数据的维护和数据获取、数据处理系统的完善和改进。
本申请实施例通过获取待处理的原始数据,采用预处理规则对上述原始数据进行预处理,获得目标数据,确定上述目标数据的目标类型,获取上述目标类型对应的排查规则,再按照上述排查规则对上述目标数据进行评估以获得上述数据评估结果,进而判断上述数据评估结果是否满足数据质量要求,将数据评估结果满足上述数据质量要求的有效数据存储于存储空间,若不满足上述数据质量要求,可以将上述目标数据标记为无效数据,以及可以将上述无效数据删除,获取上述无效数据的发送方的联系地址,向上述联系地址发送提示信息,上述提示信息用于提示来自上述发送方的原始数据中有无效数据,可以便于获得规范数据以进行后续的数据存储或者处理过程,可以提高数据处理的效率和准确度。
请参见图3,图3是本申请实施例提供的一种电子设备300的结构示意图,该电子设备300包括获取模块310、预处理模块320、评估模块330、判断模块340和标记模块350,其中:
获取模块310,用于获取待处理的原始数据;
预处理模块320,用于采用预处理规则对上述原始数据进行预处理,获得目标数据;
评估模块330,用于评估上述目标数据以获得数据评估结果;
判断模块340,用于判断上述数据评估结果是否满足数据质量要求;
标记模块350,用于若上述数据评估结果不满足数据质量要求,将上述目标数据标记为无效数据。
本申请实施例中的原始数据可以为医疗保险数据,医疗保险一般指基本医疗保险,是为了补偿劳动者因疾病风险造成的经济损失而建立的一项社会保险制度。通过用人单位与个人缴费,建立医疗保险基金,参保人员患病就诊发生医疗费用后,由医疗保险机构对其给予一定的经济补偿。在上述过程中会涉及到大量的医保数据处理。
上述原始数据可以是各类型文档中的数据,比如WORD、EXCEL等文字编辑软件产生的文件中的数据。
电子设备300可以与终端设备进行通信,接收来自终端设备的原始数据,在接收到上述原始数据之后可以由获取模块310获取待处理的原始数据,而电子设备300中可以存储预设执行时刻,即用户可以提前设置数据处理的时间,进而可以在上述预设执行时刻执行。
本申请实施例中的数据预处理(data preprocessing)是指在主要的处理以前对数据进行的一些处理。如对大部分地球物理面积性观测数据在进行转换或增强处理之前,首先将不规则分布的测网经过插值转换为规则网的处理,以利于计算机的运算。另外,对于一些剖面测量数据,如地震资料预处理有垂直叠加、重排、加道头、编辑、重新取样、多路编辑等。
具体的,上述预处理模块320具体可以用于:按照脱敏规则对上述原始数据进行脱敏处理,获得满足上述脱敏规则的目标数据。
数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。数据库安全技术之一,数据库安全技术主要包括:数据库漏扫、数据库加密、数据库防火墙、数据脱敏、数据库安全审计系统。数据库安全风险包括:拖库、刷库、撞库。
本申请实施例中可以预先设置上述脱敏规则参数,上述脱敏规则参数可以包括针对上述各类敏感数据的处理参数,比如设置身份证号、手机号、卡号、客户号进行脱敏,也可以设置对某种预定类型的数据进行脱敏。可以根据实际情况设置上述脱敏规则参数,选择需要进行脱敏的数据种类。存储在上述电子设备300中,在进行预处理时,在医保领域使用数据脱敏处理,可以提高数据安全性,保障用户隐私。
可选的,上述预处理模块320具体还可以用于:按照目标数据结构对上述原始数据进行数据转码,获得与上述目标数据结构匹配的目标数据。
数据转码又叫数据转换(data transfer),是将数据从一种表示形式变为另一种表现形式的过程。在医保系统中的数据传递,常存在数据库的更换、数据结构的更换,从而可以进行数据本身的转换。
可选的,本申请实施例中可以通过数据转换标准实现规范的数据转码。
数据转换标准包括一整套使数据按字段、记录和文件要求进行编码的规划,以便通过指定的介质进行转换。数据模型是研制编码规则的先决条件,转换标准的中介性质是一种主要的特征。转换标准优化后可使所有的数据准行有效的通信,而对产品和数据库结构进行优化后则可进行有效的存贮、应用及维护。
可选的,上述预处理模块320采用预处理规则对原始数据进行预处理,获得目标数据过程中,还可以采用数据去重方法进行预处理,具体包括:
数据去重又称重复数据删除,是指在一个数字文件集合中,找出重复的数据并将其删除,只保存唯一的数据单元。
在删除的同时,要考虑数据重建,即虽然文件的部分内容被删除,但当需要时,仍然将完整的文件内容重建出来,这就需要保留文件与唯一数据单元之间的索引信息。
本申请实施例中,针对海量医保数据,通过数据去重,可以节省存储空间。通过重复数据删除,可以大大降低需要的存储介质数量,进而降低成本。甚至可以使基于硬盘的存储系统成本低于磁带库,同时提供更好的性能。因此,支持数据去重技术的存储系统,特别适合用来做数据的备份。
数据去重还可以提升写入性能。磁盘的写入性能是有限的,通常顺序写入在100MB/s左右,如果在写入数据的时候就进行数据去重,可以避免一部分的数据写入磁盘,从而提升写入性能。
数据去重还可以节省网络带宽。如果在客户端进行数据去重,仅将新增的数据传输到存储系统,可以减少网络上的数据传输量,从而节省网络带宽。
数据质量评价是指对数据质量进行评估的方法和过程,常用的评价方法有演绎推算、内部验证、与原始资料(或更高精度的独立原始资料)对比、独立抽样检查、多边形叠加检查、有效值检查等。具体的,评估模块330可以对上述目标数据的数据质量进行评估,电子设备300可以存储有数据质量评估规则,评估模块330可以按照上述数据质量评估规则对上述目标数据进行检测,获得上述数据评估结果,反应数据质量。其中,上述数据质量评估规则可以涉及以下方面的数据检测项:数据齐全、数据有效(数据的类型,范围是否满足物理量定义,满足算法需求)、数据在时间上面的稳定性(是否存在数据缺失情况)、数据的准确性(是实际采集的物理量保持一致几个维度去衡量项目数据)等,可以根据实际情况设置上述数据检测项来对数据质量进行评估。
可选的,上述数据检测项的检测过程中还可以使用预存数据模板,电子设备300可以存储有上述预存数据模板,其中包含多种类型的数据模板。在获得上述目标数据之后,评估模块330可以获取上述预存数据模板,将上述目标数据与上述预存数据模板进行数据比对,并按照上述数据质量评估规则获得数据评分,上述数据评估结果可以包括上述数据评分。
上述数据质量评估规则中还可以包括数据质量要求,即规定了什么样的数据才满足质量要求,在获得上述数据评估结果之后判断模块340可以判断上述数据评估结果是否满足上述数据质量要求。
可选的,上述评估模块330具体可以用于:
确定上述目标数据的目标类型,获取上述目标类型对应的排查规则;
按照上述排查规则对上述目标数据进行评估以获得上述数据评估结果。
上述评估模块330具体还可以用于:获取上述目标类型的预存数据模板,将上述目标数据与上述预存数据模板进行数据比对,获得数据评分;
判断上述数据评分是否高于第一分数阈值,若高于,上述数据评估结果满足上述数据质量要求,若不高于,上述数据评估结果不满足上述数据质量要求。
具体的,电子设备300可以存储有上述预存数据模板,其中包含多种类型的数据模板。在获得上述排查规则之后,评估模块330可以获取上述预存数据模板,将上述目标数据与上述预存数据模板进行数据比对,并按照上述排查规则获得数据评分,上述数据评估结果可以包括上述数据评分。
上述排查规则可以包括针对数据值域的评分细则。值域:数学名词,函数经典定义中,因变量改变而改变的取值范围叫做这个函数的值域,在函数现代定义中是指定义域中所有元素在某个对应法则下对应的所有的象所组成的集合,本申请实施例中可以理解为数据转化为数值的范围。
针对不同的数据项目,可以有不同的排查规则,该排查规则可以理解为针对数据值域的评分规则,比如,职业不在值域范围时,排查规则可包括:填写不在值域范围内扣0.5分;值域范围:11,13,17,21,24,27,31,37,51,54,70,80,9。又如:现住址等三项均未填写时,排查规则可包括:现住址、户口地址和工作单位地址三项中至少填写一项,否则扣0.5分;(三填其一)。上述排查规则可以根据实际情况进行编写,以获得完整的评分规则,从而获得数据评估结果。
具体的,在获得上述数据评估结果之后,评估模块330可以判断是否满足数据质量要求。具体的,可以判断上述数据评分是否高于第一分数阈值。
电子设备300中可以存储上述第一分数阈值,在按照上述排查规则对目标数据进行数据评估之后,获得数据评估结果之后,针对上述数据评估结果中的数据评分,评估模块330可以判断上述数据评分数据评分是否高于第一分数阈值,若上述数据评分高于第一分数阈值,则数据评估结果满足上述数据质量要求;若上述数据评分不高于上述第一分数阈值,上述数据评估结果不满足上述数据质量要求。
可选的,电子设备300中还可以存储多个分数阈值,通过与上述数据评分的比较,可以确定目标数据的质量等级。比如可以设置高于上述第一评分阈值的第二分数阈值,针对上述数据评估结果中的数据评分,可以判断上述数据评分数据评分是否高于第二分数阈值,若上述数据评分高于第二分数阈值,则数据评估结果满足上述数据质量要求,并且数据质量等级为优,若上述数据评分高于上述第一分数阈值但不高于上述第二评分阈值,上述数据评估结果满足上述数据质量要求,但数据质量等级为良。
通过对目标数据进行数据质量等级的评估可以将数据按照数据质量情况进行整理,直观地了解数据质量情况,便于参考数据质量执行后续数据处理步骤。
具体的,若不满足上述数据质量要求,标记模块350可以将上述目标数据标记为无效数据,无效数据的数据质量不满足要求,因此可以以标记的形式提醒用户。
可选的,标记模块350还可以用于,将上述数据评估结果满足上述数据质量要求的目标数据标记为有效数据,并将上述有效数据存储于存储空间。
可选的,该电子设备300还包括删除模块360,用于将上述无效数据删除。可以打回上述无效数据,不能进入电子设备300的数据库中,即将上述无效数据删除。
可选的,该电子设备300还包括发送模块370,用于获取上述无效数据的发送方的联系地址,向上述联系地址发送提示信息,上述提示信息用于提示来自上述发送方的原始数据中有无效数据,以通知上述无效数据的发送方重新发送上述无效数据,获取满足质量要求的数据。
可选的,该电子设备300还包括存储模块380,用于将上述有效数据存储于上述存储空间。在获得上述有效数据之后,可以对上述有效数据进行后续的数据处理过程,比如分组进行进一步的数据排查和分值计算等。标记为有效数据的目标数据可以被系统识别,利用这些数据可以进行数据分析处理,以及可以将其存储到预设空间进行保存,便于后续调用。
可选的,该电子设备300还包括生成模块390,用于生成上述原始数据的数据评估报告,上述数据评估报告包括上述原始数据的数据评估时刻、上述数据评分、数据有效率和/或数据无效率。其中,上述数据有效率为有效数据占所有目标数据的百分比,数据无效率为无效数据占所有目标数据的百分比。通过上述数据评估报告,可以清晰地反应数据质量情况,便于用户对数据的维护和数据获取、数据处理系统的完善和改进。
根据本申请实施例的具体实施方式,图1与图2所示的数据处理方法涉及的步骤101~105、201~207可以是由图3所示的电子设备300中的各个模块来执行的。例如,图1中的步骤101~105可以分别由图3中所示的获取模块310、预处理模块320、评估模块330、判断模块340和标记模块350来执行。
通过本申请实施例的电子设备300,电子设备300可以获取待处理的原始数据,采用预处理规则对上述原始数据进行预处理,获得目标数据,再对上述目标数据的数据质量进行评估,获得数据评估结果,然后,判断上述数据评估结果是否满足数据质量要求,若满足,将上述数据评估结果满足上述数据质量要求的目标数据标记为有效数据,并将上述有效数据存储于存储空间,若不满足,将上述目标数据标记为无效数据,便于获得规范数据以进行后续的数据存储或者处理过程,可以提高数据处理的效率和准确度。
请参阅图4,图4是本申请实施例公开的另一种电子设备的结构示意图。如图4所示,该电子设备400包括处理器401和存储器402,其中,电子设备400还可以包括总线403,处理器401和存储器402可以通过总线403相互连接,总线403可以是外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线403可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。其中,电子设备400还可以包括输入输出设备404,输入输出设备404可以包括显示屏,例如液晶显示屏。存储器402用于存储包含指令的一个或多个程序;处理器401用于调用存储在存储器402中的指令执行上述图1和图2实施例中提到的部分或全部方法步骤。
应当理解,在本申请实施例中,所称处理器401可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备402可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等,输出设备403可以包括显示器(LCD等)、扬声器等。
该存储器404可以包括只读存储器和随机存取存储器,并向处理器401提供指令和数据。存储器404的一部分还可以包括非易失性随机存取存储器。例如,存储器404还可以存储设备类型的信息。
通过本申请实施例的电子设备400,电子设备400可以获取待处理的原始数据,采用预处理规则对上述原始数据进行预处理,获得目标数据,再对上述目标数据的数据质量进行评估,获得数据评估结果,然后,判断上述数据评估结果是否满足数据质量要求,若满足,将上述数据评估结果满足上述数据质量要求的目标数据标记为有效数据,并将上述有效数据存储于存储空间,若不满足,将上述目标数据标记为无效数据,便于获得规范数据以进行后续的数据存储或者处理过程,可以提高数据处理的效率和准确度。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种数据处理方法的部分或全部步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
获取待处理的原始数据;采用预处理规则对所述原始数据进行预处理,获得目标数据;
评估所述目标数据以获得数据评估结果;
判断所述数据评估结果是否满足数据质量要求;
若不满足,将所述目标数据标记为无效数据。
2.根据权利要求1所述的方法,其特征在于,所述判断所述数据评估结果是否满足数据质量要求之后,所述方法还包括:
将所述数据评估结果满足所述数据质量要求的目标数据标记为有效数据,并将所述有效数据存储于存储空间。
3.根据权利要求1所述的方法,其特征在于,所述采用预处理规则对所述原始数据进行预处理,获得目标数据包括:
按照脱敏规则对所述原始数据进行脱敏处理,获得满足所述脱敏规则的目标数据。
4.根据权利要求1所述的方法,其特征在于,所述采用预处理规则对所述原始数据进行预处理,获得目标数据还包括:
按照目标数据结构对所述原始数据进行数据转码,获得与所述目标数据结构匹配的目标数据。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述评估所述目标数据以获得数据评估结果之前,所述方法还包括:
确定所述目标数据的目标类型,获取所述目标类型对应的排查规则;
所述评估所述目标数据以获得数据评估结果包括:
按照所述排查规则对所述目标数据进行评估以获得所述数据评估结果。
6.根据权利要求5所述的方法,其特征在于,所述按照所述排查规则对所述目标数据进行检测以获得所述数据评估结果包括:
获取所述目标类型的预存数据模板,将所述目标数据与所述预存数据模板进行数据比对,获得数据评分;
所述判断所述数据评估结果是否满足数据质量要求包括:
判断所述数据评分是否高于第一分数阈值,若高于,则所述数据评估结果满足所述数据质量要求,若不高于,则所述数据评估结果不满足所述数据质量要求。
7.根据权利要求6所述的方法,其特征在于,所述将所述目标数据标记为无效数据之后,所述方法还包括:
生成所述原始数据的数据评估报告,所述数据评估报告包括所述原始数据的数据评估时刻和所述数据评分;
将所述无效数据删除,和/或获取所述无效数据的发送方的联系地址,向所述联系地址发送提示信息,所述提示信息用于提示来自所述发送方的原始数据中有无效数据。
8.一种电子设备,其特征在于,包括:获取模块、预处理模块、评估模块、判断模块和标记模块,其中:
所述获取模块,用于获取待处理的原始数据;
所述预处理模块,用于采用预处理规则对所述原始数据进行预处理,获得目标数据;
所述评估模块,用于评估所述目标数据以获得数据评估结果;
所述判断模块,用于判断所述数据评估结果是否满足数据质量要求;
所述标记模块,用于若所述数据评估结果不满足数据质量要求,将所述目标数据标记为无效数据。
9.一种电子设备,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811330589.6A CN109597805A (zh) | 2018-11-07 | 2018-11-07 | 一种数据处理方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811330589.6A CN109597805A (zh) | 2018-11-07 | 2018-11-07 | 一种数据处理方法、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109597805A true CN109597805A (zh) | 2019-04-09 |
Family
ID=65958190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811330589.6A Pending CN109597805A (zh) | 2018-11-07 | 2018-11-07 | 一种数据处理方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109597805A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263016A (zh) * | 2019-05-20 | 2019-09-20 | 平安普惠企业管理有限公司 | 数据处理方法、终端设备及计算机存储介质 |
CN110309131A (zh) * | 2019-04-12 | 2019-10-08 | 北京星网锐捷网络技术有限公司 | 海量结构化数据的质量评估方法及装置 |
CN110619083A (zh) * | 2019-08-19 | 2019-12-27 | 深圳市鹏海运电子数据交换有限公司 | 数据过滤方法及装置 |
CN110731762A (zh) * | 2019-09-18 | 2020-01-31 | 平安科技(深圳)有限公司 | 基于相似度预处理脉搏波的方法、装置、计算机系统及可读存储介质 |
CN112667624A (zh) * | 2021-01-21 | 2021-04-16 | 厦门信息集团大数据运营有限公司 | 一种数据质量管理方法及其系统 |
CN112948380A (zh) * | 2021-02-24 | 2021-06-11 | 深圳壹账通智能科技有限公司 | 基于大数据的数据存储方法、装置、电子设备及存储介质 |
CN113379219A (zh) * | 2021-06-04 | 2021-09-10 | 广东省电信规划设计院有限公司 | 应急管理数据的质量评估方法及装置 |
CN113449009A (zh) * | 2021-03-30 | 2021-09-28 | 广州朗国电子科技股份有限公司 | 畜牧业生产管理用的智能管理方法、设备以及介质 |
CN113822602A (zh) * | 2021-11-22 | 2021-12-21 | 武汉龙津科技有限公司 | 一种数据价值评估方法、装置、设备和存储介质 |
CN113850395A (zh) * | 2021-09-24 | 2021-12-28 | 北京九章云极科技有限公司 | 一种数据处理方法及系统 |
CN117195113A (zh) * | 2023-09-19 | 2023-12-08 | 港华数智能源科技(深圳)有限公司 | 能源数据的质量评价方法、系统及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5307262A (en) * | 1992-01-29 | 1994-04-26 | Applied Medical Data, Inc. | Patient data quality review method and system |
CN105808951A (zh) * | 2016-03-10 | 2016-07-27 | 宁波金唐软件有限公司 | 一种电子病历的质量控制方法及其装置 |
CN107679418A (zh) * | 2017-09-30 | 2018-02-09 | 武汉汉思信息技术有限责任公司 | 数据脱敏方法、服务器及存储介质 |
US20180232407A1 (en) * | 2017-02-10 | 2018-08-16 | Wipro Limited | Method and system for assessing quality of incremental heterogeneous data |
CN108564286A (zh) * | 2018-04-19 | 2018-09-21 | 天合泽泰(厦门)征信服务有限公司 | 一种基于大数据征信的人工智能金融风控授信评定方法和系统 |
CN108629014A (zh) * | 2018-05-07 | 2018-10-09 | 中国平安人寿保险股份有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
-
2018
- 2018-11-07 CN CN201811330589.6A patent/CN109597805A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5307262A (en) * | 1992-01-29 | 1994-04-26 | Applied Medical Data, Inc. | Patient data quality review method and system |
CN105808951A (zh) * | 2016-03-10 | 2016-07-27 | 宁波金唐软件有限公司 | 一种电子病历的质量控制方法及其装置 |
US20180232407A1 (en) * | 2017-02-10 | 2018-08-16 | Wipro Limited | Method and system for assessing quality of incremental heterogeneous data |
CN107679418A (zh) * | 2017-09-30 | 2018-02-09 | 武汉汉思信息技术有限责任公司 | 数据脱敏方法、服务器及存储介质 |
CN108564286A (zh) * | 2018-04-19 | 2018-09-21 | 天合泽泰(厦门)征信服务有限公司 | 一种基于大数据征信的人工智能金融风控授信评定方法和系统 |
CN108629014A (zh) * | 2018-05-07 | 2018-10-09 | 中国平安人寿保险股份有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309131A (zh) * | 2019-04-12 | 2019-10-08 | 北京星网锐捷网络技术有限公司 | 海量结构化数据的质量评估方法及装置 |
CN110263016A (zh) * | 2019-05-20 | 2019-09-20 | 平安普惠企业管理有限公司 | 数据处理方法、终端设备及计算机存储介质 |
CN110619083A (zh) * | 2019-08-19 | 2019-12-27 | 深圳市鹏海运电子数据交换有限公司 | 数据过滤方法及装置 |
CN110619083B (zh) * | 2019-08-19 | 2022-04-19 | 深圳市鹏海运电子数据交换有限公司 | 数据过滤方法及装置 |
CN110731762B (zh) * | 2019-09-18 | 2022-02-08 | 平安科技(深圳)有限公司 | 基于相似度预处理脉搏波的方法、装置、计算机系统及可读存储介质 |
CN110731762A (zh) * | 2019-09-18 | 2020-01-31 | 平安科技(深圳)有限公司 | 基于相似度预处理脉搏波的方法、装置、计算机系统及可读存储介质 |
CN112667624A (zh) * | 2021-01-21 | 2021-04-16 | 厦门信息集团大数据运营有限公司 | 一种数据质量管理方法及其系统 |
CN112948380A (zh) * | 2021-02-24 | 2021-06-11 | 深圳壹账通智能科技有限公司 | 基于大数据的数据存储方法、装置、电子设备及存储介质 |
WO2022179122A1 (zh) * | 2021-02-24 | 2022-09-01 | 深圳壹账通智能科技有限公司 | 基于大数据的数据存储方法、装置、电子设备及存储介质 |
CN113449009A (zh) * | 2021-03-30 | 2021-09-28 | 广州朗国电子科技股份有限公司 | 畜牧业生产管理用的智能管理方法、设备以及介质 |
CN113379219A (zh) * | 2021-06-04 | 2021-09-10 | 广东省电信规划设计院有限公司 | 应急管理数据的质量评估方法及装置 |
CN113850395A (zh) * | 2021-09-24 | 2021-12-28 | 北京九章云极科技有限公司 | 一种数据处理方法及系统 |
CN113822602A (zh) * | 2021-11-22 | 2021-12-21 | 武汉龙津科技有限公司 | 一种数据价值评估方法、装置、设备和存储介质 |
CN117195113A (zh) * | 2023-09-19 | 2023-12-08 | 港华数智能源科技(深圳)有限公司 | 能源数据的质量评价方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109597805A (zh) | 一种数据处理方法、电子设备及存储介质 | |
CN109299085A (zh) | 一种数据处理方法、电子设备及存储介质 | |
CN109545317B (zh) | 基于住院预测模型判定住院行为的方法及相关产品 | |
CN108446210A (zh) | 系统性能的度量方法、存储介质和服务器 | |
US20140006044A1 (en) | System and method for preparing healthcare service bundles | |
CN108683562A (zh) | 异常检测定位方法、装置、计算机设备及存储介质 | |
CN103370722B (zh) | 通过小波和非线性动力学预测实际波动率的系统和方法 | |
CN109522301A (zh) | 一种数据处理方法、电子设备及存储介质 | |
CN109102394A (zh) | 风险评估方法、装置及计算机可读存储介质 | |
MX2010007291A (es) | Sistema de evaluacion de declaracion de impuestos. | |
CN110706026A (zh) | 一种异常用户的识别方法、识别装置及可读存储介质 | |
CN110490750B (zh) | 数据识别的方法、系统、电子设备及计算机存储介质 | |
CN110135711A (zh) | 一种情报管理方法及装置 | |
CN110874744A (zh) | 一种数据异常检测方法及装置 | |
CN111371776A (zh) | Http请求数据的异常检测方法、装置、服务器及存储介质 | |
CN111340062A (zh) | 一种映射关系确定方法及装置 | |
CN108648091A (zh) | 保单风险评估方法、装置、设备和计算机存储介质 | |
CN109784352A (zh) | 一种评估分类模型的方法和装置 | |
CN110265127B (zh) | 病种费用测算方法、装置及终端设备 | |
CN109711849B (zh) | 以太坊地址画像生成方法、装置、电子设备及存储介质 | |
CN102918522B (zh) | 用于生成统计研究信息的系统、方法以及设备 | |
CN113935788B (zh) | 模型评估方法、装置、设备及计算机可读存储介质 | |
CN114595765A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN109360111B (zh) | 问卷数据修正方法、装置、计算机设备和存储介质 | |
CN110175276A (zh) | 侵权信息获取方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |