CN112988719B - 一种数据质量检测方法、装置、可读介质及电子设备 - Google Patents
一种数据质量检测方法、装置、可读介质及电子设备 Download PDFInfo
- Publication number
- CN112988719B CN112988719B CN201911211100.8A CN201911211100A CN112988719B CN 112988719 B CN112988719 B CN 112988719B CN 201911211100 A CN201911211100 A CN 201911211100A CN 112988719 B CN112988719 B CN 112988719B
- Authority
- CN
- China
- Prior art keywords
- data
- period
- statistical
- historical
- periodic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Debugging And Monitoring (AREA)
- Testing Or Calibration Of Command Recording Devices (AREA)
Abstract
本发明公开了一种数据质量检测方法、装置、可读介质及电子设备,包括:通过数据源获取第一时段对应的第一统计数据;所述第一时段包括至少一个历史周期;通过所述数据源获取第二时段对应的第二统计数据;所述第二时段包括所述至少一个历史周期;基于所述第一统计数据和所述第二统计数据,计算各历史周期对应的数据质量指标;并根据所述数据质量指标,对所述数据源中对应所述历史周期内的数据进行质量检测;实现了针对时段内的各个历史周期进行数据质量的检测,以便于准确的发现各历史周期内的数据统计是否产生出入,也确保每周期内的数据数量适当,使得本实施例所述的质量检测有足够精确的粒度,由此使得数据质量检测过程更加完善准确。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据质量检测方法、装置、可读介质及电子设备。
背景技术
数据质量管理(Data Quality Management,简称DQM),包含了对于数据质量和数据组织的改善和管理。数据质量管理能够直接影响数据分析的效果,所以其在当前热门的人工智能、大数据分析领域存在重要的价值。
现有的数据质量管理中对于数据准确性的检测,通常是将一定时间范围内的数据统计汇总,并通过数据总量的变化情况进行分析和检测。但是这种检测方式无法发现对于历史数据统计上产生的出入。
发明内容
本发明提供及一种数据质量检测方法、装置、可读介质及电子设备,针对时段内的各个历史周期进行数据质量的检测,以便于准确的发现各历史周期内的数据统计是否产生出入。
第一方面,本发明提供了一种数据质量检测方法,包括:
通过数据源获取第一时段对应的第一统计数据;所述第一时段包括至少一个历史周期;
通过所述数据源获取第二时段对应的第二统计数据;所述第二时段包括所述至少一个历史周期;
基于所述第一统计数据和所述第二统计数据,计算各历史周期对应的数据质量指标;
并根据所述数据质量指标,对所述数据源中对应所述历史周期内的数据进行质量检测。
优选地,所述通过数据源获取第一时段对应的第一统计数据包括:
获取所述数据源中,与所述第一时段中各历史周期对应的数据;
根据所述第一时段中各历史周期对应的数据,计算得到所述第一时段中各历史周期对应第一周期性数据;
将各所述第一周期性数据合并为所述第一统计数据。
优选地,所述通过数据源获取第二时段对应的第二统计数据包括:
获取所述数据源中,与所述第二时段中各历史周期对应的数据;
根据所述第二时段中各历史周期对应的数据,计算得到所述第二时段中各历史周期对应第二周期性数据;
将各所述第二周期性数据合并为所述第二统计数据。
优选地,所述第二时段还包括至少一个新增周期,则还包括:
获取所述数据源中,与所述第二时段中各新增周期对应的数据;
根据所述第二时段中各新增周期对应的数据,计算得到所述第二时段中各新增周期对应第三周期性数据。
优选地,通过数据源获取第二时段对应的第二统计数据包括:
将各所述第二周期性数据和各所述第三周期性数据,合并为所述第二统计数据。
优选地,所述基于所述第一统计数据和所述第二统计数据,计算各历史周期对应的数据质量指标包括:
基于所述历史周期对应的第一周期性数据和第二周期性数据,计算所述历史周期对应的数据质量指标。
优选地,所述根据所述数据质量指标,对所述数据源中对应所述历史周期的数据进行质量检测包括:
当所述数据质量指标超过预设的阈值,则针对所述数据质量指标对应的第二周期性数据生成质量预警信息。
第二方面,本发明提供了一种数据质量检测装置,包括:
第一统计数据模块,用于通过数据源获取第一时段对应的第一统计数据;所述第一时段包括至少一个历史周期;
第二统计数据模块,用于通过所述数据源获取第二时段对应的第二统计数据;所述第二时段包括至少一个历史周期;
指标计算模块,用于基于所述第一统计数据和所述第二统计数据,计算各历史周期对应的数据质量指标;
质量检测模块,用于根据所述数据质量指标,对所述数据源中对应所述历史周期的数据进行质量检测。
第三方面,本发明提供了一种可读介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述电子设备执行如第一方面中任一所述的方法。
第四方面,本发明提供了一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如第一方面中任一所述的方法。
本发明提供了一种数据质量检测方法、装置、可读介质及电子设备,通过基于所述第一统计数据和所述第二统计数据,计算各历史周期对应的数据质量指标,并根据所述数据质量指标,对所述数据源中对应所述历史周期的数据进行质量检测,实现了针对时段内的各个历史周期进行数据质量的检测,以便于准确的发现各历史周期内的数据统计是否产生出入,也确保每周期内的数据数量适当,使得本实施例所述的质量检测有足够精确的粒度,由此使得数据质量检测过程更加完善准确。
上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
为了更清楚地说明本发明实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种数据质量检测方法的流程示意图;
图2为本发明一实施例提供的另一种数据质量检测方法的流程示意图;
图3为本发明一实施例提供的另一种数据质量检测方法的流程示意图;
图4为本发明一实施例提供的一种数据质量检测装置的结构示意图
图5为本发明一实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
前述已知,现有的数据质量管理中对于数据准确性的检测,通常是将一定时间范围内的数据统计汇总,并通过数据总量的变化情况进行分析和检测。但是这种检测方式无法发现对于历史数据统计上产生的出入。
例如,以医疗领域中的数据,具体为患者表数据为例。假设针对特定数据源A医院进行1~3月的数据统计,得到数据(患者表)共3052份;一段时间后,再次针对A医院进行1~4月的数据统计,得到数据共4155份。那么现有技术中一般将其中的增量共4155-3052=1103份数据,确定为4月的新增数据。但是实际上,两次统计中关于1~3月的数据量也可能存在出入。现有技术中,无法发现这部分数据存在出入的具体情况。
有鉴于此,本发明中提供一种数据质量检测方法、装置、可读介质及电子设备,针对时段内的各个历史周期进行数据质量的检测,以便于准确的发现各历史周期内的数据统计是否产生出入。
参见图1所示,为本发明提供的数据质量检测方法的具体实施例。本实施例中,所述方法具体包括以下步骤:
步骤101、获取第一时段对应的第一统计数据;所述第一时段包括至少一个历史周期。
本实施例中,获取第一统计数据将通过数据源。所述数据源,可以指本实施例中待进行质量检测的数据的来源。具体可以是特定的医院、医学研究机构,也可以是医院中具体的科室,或者还可以是符合特定条件的多个医院或机构共同作为一个数据源。本实施例中对此不做限定。
其中,待进行检测的数据,具体可以是患者表,就诊表,检查报告表或检验报告表等。本实施例中在获取数据后,还需将数据中的内容进行统计汇总,得到相应的统计数据。统计数据中,可以包括数据数量、特定数据项的有值率/空值率、表达违规率、唯一主键率等等统计项。当然,在实际情况下还可根据需求获取其他类型的数据,并计算其他类型的统计项。在此不做限定。
本实施例中,将获取一个特定时间范围,即第一时段内对应的第一统计数据。第一时段的具体范围可根据需求进行设定。并且,第一时段中包括了至少一个时间周期,时间周期即本实施例中进行数据质量检测所依据的基本时间单位。该时间周期的长度,可以取决于数据源的数据量。一般来说,数据量越大则时间周期越短,数据量越小则时间周期越长。由此确保每时间周期内的数据数量适当,使得本实施例所述的质量检测有足够精确的粒度。
而第一时段中包括的每个时间周期,均称之为历史周期。或者说,第一时段是由至少一个历史周期组成。例如,第一时段为1~3月,且每月为一个时间周期。则第一时段中包括的1月、2月、3月各自为一个历史周期。
步骤102、获取第二时段对应的第二统计数据;所述第二时段包括所述至少一个历史周期。
通常在时序上,第二时段为第一时段之后的某个特定时段。并且,第二时段与第一时段有一定程度的重合。也就是说,第二时段中需要至少一个历史周期。并且,通常由于第二时段在第一时段之后,所以第二时段中还可能包括历史周期以外的其他时间周期,即新增周期。例如,第二时段为1~4月,且每月为一个时间周期。则第二时段中包括了1月、2月、3月、4月共四个时间周期。并且其中1月、2月、3月为三个历史周期,且与第一时段重合。而4月为第二时段相对于第一时段的新增周期。
而第二统计数据即第二时段内对应的数据的统计数据。同理于第一统计数据,在此不做赘述。
步骤103、基于所述第一统计数据和所述第二统计数据,计算各历史周期对应的数据质量指标。
本实施例中,所述第一统计数据可以对应到第一时段内的各历史周期。例如,可以确定第一时段(例如1~3月)内某个历史周期(例如1月)的数据数量、特定数据项的有值率/空值率、表达违规率、唯一主键率等等统计项。同理的,所述第二统计数据可以对应到第二时段内的各历史周期。
则可进一步的基于所述第一统计数据和所述第二统计数据,计算各历史周期对应的数据质量指标。例如,可基于第一统计数据中对应“1月”的统计项,和第二统计数据中对应“1月”的统计项,计算得到“1月”的数据质量指标。
步骤104、根据所述数据质量指标,对所述历史周期内的数据进行质量检测。
可以认为,上述的数据质量指标体现了两次统计过程中(即获取第一统计数据和第二统计数据的过程中),对应“1月”这一历史周期的数据是否存在出入。也就是反应了数据源的数据质量。进而,可以根据所述数据质量指标,对所述数据源中对应所述历史周期的数据进行质量检测。
通过以上技术方案可知,本实施例存在的有益效果是:通过基于所述第一统计数据和所述第二统计数据,计算各历史周期对应的数据质量指标,并根据所述数据质量指标,对所述数据源中对应所述历史周期的数据进行质量检测,实现了针对时段内的各个历史周期进行数据质量的检测,以便于准确的发现各历史周期内的数据统计是否产生出入,也确保每周期内的数据数量适当,使得本实施例所述的质量检测有足够精确的粒度,由此使得数据质量检测过程更加完善准确。
图1所示仅为本发明所述方法的基础实施例,在其基础上进行一定的优化和拓展,还能够得到所述方法的其他优选实施例。
如图2所示,为本发明所述数据质量检测方法的另一个具体实施例。本实施例在前述实施例的基础上,进一步公开质量检测的具体过程,所述方法具体包括以下步骤:
步骤201、获取所述数据源中,与所述第一时段中各历史周期对应的数据。
步骤202、根据所述第一时段中各历史周期对应的数据,计算得到所述第一时段中各历史周期对应第一周期性数据。
参考图1所示实施例,本步骤中将从数据源分别的获取所述第一时段中各历史周期内产生的数据,以用于进行后续的统计计算。通过对所述数据的计算,可得到所述第一时段中各历史周期对应第一周期性数据。所以第一周期性数据即反应了本实施例的第一次统计过程中统计过程中,该历史周期内产生的数据的具体统计信息。
可以理解的是,本实施例中将各所述第一周期性数据合并,即为图1所示实施例中所述第一统计数据。
步骤203、获取所述数据源中,与所述第二时段中各历史周期对应的数据。
步骤204、根据所述第二时段中各历史周期对应的数据,计算得到所述第二时段中各历史周期对应第二周期性数据。
同理与步骤201~步骤202,通过统计计算得到的第二周期性数据,即反应了本实施例的第二次统计过程中,相应历史周期内产生的数据的具体统计信息。
可以理解的是,本实施例中将各所述第二周期性数据合并,即为图1所示实施例中所述第二统计数据。
步骤205、基于所述历史周期对应的第一周期性数据和第二周期性数据,计算所述历史周期对应的数据质量指标。
具体的,可以将特定历史周期对应的第一周期性数据和第二周期性数据的比值,作为所述数据质量指标。所述数据质量指标即反应了两次统计过程中,特定历史周期对应的数据统计意义上的浮动。
理论上,如果两次统计都足够准确,则数据在统计意义上应当没有浮动。也就是说,第一周期性数据和第二周期性数据的比值,即所述数据质量指标的数值应当等于1。在这种情况下,数据质量达到理论上的最优。相反如果数据质量指标的数值偏离数值1越大,则说明两次统计之间浮动越明显,数据质量越差。
还需要说明的是,所述第二时段可以是相比第一时段多一个新增周期的时段。例如,第一时段为1~3月,且每月为一个周期;则第二时段为1~4月,其中1月、2月、3月为三个历史周期,4月为新增周期。这种情况下,计算其中某个历史周期的数据质量指标,即为统计学上的环比计算。
或者,所述第二时段可以是相比第一时段多至少两个个新增周期的时段。例如,第一时段为1~3月,且每月为一个周期;则第二时段为1~6月,其中1月、2月、3月为三个历史周期,4月、5月、6月为新增周期。这种情况下,可将第一时段中各历史周期对应的第一周期性数据作为“标准”,而结合第二周期性数据计算其中某个历史周期的数据质量指标,即为统计学上的同比计算。
在实际计算过程中,也可选取多个不同的第二时段,根据需求进行同比、环比相结合的统计计算。此为常规的数学运算过程,在此无需限定。任何相同或类似原理的算法均可结合在本实施例的整体方案之下。
步骤206、当所述数据质量指标超过预设的阈值,则针对所述数据质量指标对应的第二周期性数据生成质量预警信息。
前述已知,数据质量指标的最优数值为1。而偏离该数值越多,则说明数据质量越差。则本实施例中优选的,将偏离最优值10%以内,即0.9<数据质量指标<1.1视为正常。超出这一范围,则认为所述数据质量指标超过预设的阈值。也就是说,此时特定历史周期的第二周期性数据相对于第一周期性数据浮动过大。如果将历史周期对应的第一周期性数据作为“标准”,那么可以认为第二周期性数据不准确。也就是说,第二次统计得到的该历史周期对应的数据质量较差。
则针对所述数据质量指标对应的第二周期性数据生成质量预警信息,以实现数据质量的检测,提示出数据统计过程出现的具体问题。
参见图3所示,为本发明所述数据质量检测方法的另一个具体实施例。本实施例在前述实施例的基础上,结合具体应用场景进行进一步的叙述。本实施例中,所述方法具体包括以下步骤:
步骤301、获取所述数据源中,与所述第一时段中各历史周期对应的数据。
本实施例中,假设第一时段为1~3月,每月为一个周期。即第一时段包括三个历史周期。所述数据具体为患者表,格式如表1所示:
表1
需要说明的是,表1仅仅为患者表的示例性格式。在实际情况下患者表的格式还可以有其他形式,并且所述数据还可以进一步包括就诊表,检查报告表或检验报告表等,本发明对此不做限定。
本实施例中,将获取数据源在第一时段内产生的所有数据。具体可以通过患者表中“创建时间”这一数据项,确定此份数据是否对应于第一时段内的某个特定历史周期。例如,如果创建时间为2月1日,则此份数据对应第一时段内“2月”这一历史周期。
步骤302、根据所述第一时段中各历史周期对应的数据,计算得到所述第一时段中各历史周期对应第一周期性数据。
本实施例中,可具体包括患者表数量这一具体的统计项。当然在其他情况下,也可根据需求进一步统计例如患者标识空值率、患者姓名空值率、患者性别空值率等其他各种统计项。本发明对此不做限定。
基于上述获得的数据,针对各历史周期进行统计计算,得到各历史周期对应第一周期性数据,然后合并为第一统计数据如表2所示。表2中每列即一个历史周期对应的第一周期性数据。
表2
1月 | 2月 | 3月 | |
患者表数量 | 2083 | 2088 | 2309 |
步骤303、获取所述数据源中,与所述第二时段中各历史周期对应的数据,和各新增周期对应的数据。
本实施例中,第二时段包括至少一个历史周期和至少一个新增周期。具体的,第二时段可以是1~4月,每月为一个周期。则其中1月、2月、3月为历史周期,4月为(相对于第一时段)新增周期。
步骤304、根据所述第二时段中各历史周期对应的数据,计算得到所述第二时段中各历史周期对应第二周期性数据。
步骤305、根据所述第二时段中各新增周期对应的数据,计算得到所述第二时段中各新增周期对应第三周期性数据。
第二周期性数据和第三周期性数据的计算过程同理于步骤302。在此不重复叙述。则经过计算可将各所述第二周期性数据和各所述第三周期性数据,合并为所述第二统计数据,具体如表3所示。表3中“1月”“2月”“3月”对应的列为历史周期对应第二周期性数据;“4月”对应的列为新增周期对应的
第三周期性数据。所述第三周期性数据可根据实际情况应用到其他任何数据分析过程中,本实施例对此不做限定。
表3
1月 | 2月 | 3月 | 4月 | |
患者表数量 | 1089 | 1400 | 2323 | 2933 |
步骤306、基于所述历史周期对应的第一周期性数据和第二周期性数据,计算所述历史周期对应的数据质量指标。
具体的,本实施例中将第二周期性数据于第一周期性数据的比值,作为所述历史周期对应的数据质量指标。则各历史周期基于“患者表数量”这一统计项计算得到的数据质量指标如表4所示:
表4
1月 | 2月 | 3月 | |
数据质量指标 | 52.28% | 67.05% | 100.61% |
步骤307、当所述数据质量指标超过预设的阈值,则针对所述数据质量指标对应的第二周期性数据生成质量预警信息。
通过对比表2和表3可以发现,两次统计过程中,对于1月的患者表数量,20和2月的患者表数量的统计数据相差非常明显。若将第一周期性数据作为“标准”,则可认为第二周期性数据不准确。也就是说在针对第二时段的统计过程中,对于1月和2月两个历史周期的患者表数量统计,存在比较严重的数据缺失。换言之,即说明了从所述数据源中获取的与所述第二时段对应的数据(特别是对应1月和2月两个历史周期的数据)数据质量比较差。
反映在表4中,即1月的数据质量指标为52.28%,2月的数据质量指标为67.05%,均与最优值100%有较明显的偏离。
本实施例中,优选的将预设的阈值设为±10%。也就是说,数据质量指标的数值在90%~110%之间,则认为数据质量达标。否则即为不达标。显然,表4中1月和2月的数据质量指标超出了预设的阈值。则此时可以针对1月的第二周期性数据(即1089)和2月的第二周期性数据(即1400)生成质量预警信息,由此体现出在针对第二时段的统计过程中,对于1月和2月两个历史周期的患者表数量统计不准确,数据质量不达标。
至此,本实施例实现了数据质量的检测。
如图4所示,为本发明所述数据质量检测装置的一个具体实施例。本实施例所述装置,即用于执行图1~3所述方法的实体装置。其技术方案本质上与上述实施例一致,上述实施例中的相应描述同样适用于本实施例中。本实施例中所述装置包括:
第一统计数据模块401,用于通过数据源获取第一时段对应的第一统计数据;所述第一时段包括至少一个历史周期。
第二统计数据模块402,用于通过所述数据源获取第二时段对应的第二统计数据;所述第二时段包括至少一个历史周期。
指标计算模块403,用于基于所述第一统计数据和所述第二统计数据,计算各历史周期对应的数据质量指标。
质量检测模块404,用于根据所述数据质量指标,对所述数据源中对应所述历史周期的数据进行质量检测。
另外在图4所示实施例的基础上,优选的,第一统计数据模块401可以包括:
第一数据获取单元,用于获取数据源中,与所述第一时段中各历史周期对应的数据。
第一周期性数据计算单元,用于根据所述第一时段中各历史周期对应的数据,计算得到所述第一时段中各历史周期对应第一周期性数据。
第一统计数据确定单元,用于将各所述第一周期性数据合并为所述第一统计数据。
优选的,所述第二统计数据模块402可以包括:
第二数据获取单元,用于获取所述数据源中,与所述第二时段中各历史周期对应的数据,与所述第二时段中各新增周期对应的数据。
第二周期性数据计算单元,用于根据所述第二时段中各历史周期对应的数据,计算得到所述第二时段中各历史周期对应第二周期性数据。
第三周期性数据计算单元,用于根据所述第二时段中各新增周期对应的数据,计算得到所述第二时段中各新增周期对应第三周期性数据。
第二统计数据确定单元,用于将各所述第二周期性数据和各所述第三周期性数据,合并为所述第二统计数据。
优选的,所述指标计算模块403可以包括:
比值计算单元,用于计算所述历史周期对应的第一周期性数据和第二周期性数据的比值。
数据质量指标确定单元,用于根据所述比值确定所述历史周期对应的数据质量指标。
优选的,所述装置还包括:
预警模块,用于在所述数据质量指标超过预设的阈值时,针对所述数据质量指标对应的第二周期性数据生成质量预警信息。
图5是本发明实施例提供的一种电子设备的结构示意图。在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放执行指令。具体地,执行指令即可被执行的计算机程序。存储器可以包括内存和非易失性存储器,并向处理器提供执行指令和数据。
在一种可能实现的方式中,处理器从非易失性存储器中读取对应的执行指令到内存中然后运行,也可从其它设备上获取相应的执行指令,以在逻辑层面上形成数据质量检测装置。处理器执行存储器所存放的执行指令,以通过执行的执行指令实现本发明任一实施例中提供的数据质量检测方法。
上述如本发明图4所示实施例提供的数据质量检测装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
本发明实施例还提出了一种可读介质,该可读存储介质存储有执行指令,存储的执行指令被电子设备的处理器执行时,能够使该电子设备执行本发明任一实施例中提供的数据质量检测方法,并具体用于执行如图1~图3所示的方法。
前述各个实施例中所述的电子设备可以为计算机。
本领域内的技术人员应明白,本发明的实施例可提供为方法或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或软件和硬件相结合的形式。
本发明中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (9)
1.一种数据质量检测方法,其特征在于,包括:
获取第一时段对应的第一统计数据;所述第一时段包括至少一个历史周期;所述第一统计数据包括各所述历史周期对应第一周期性数据;
获取第二时段对应的第二统计数据;所述第二时段包括所述至少一个历史周期和新增周期;其中所述第二时段为所述第一时段之后的某个特定时段,且所述第二时段与所述第一时段有重合;所述第二统计数据包括各所述历史周期对应第二周期性数据;
基于所述第一统计数据和所述第二统计数据,计算各历史周期对应的数据质量指标,包括:计算所述历史周期对应的第一周期性数据和第二周期性数据的比值,根据所述比值确定所述历史周期对应的数据质量指标;
根据所述数据质量指标,对所述历史周期内的数据进行质量检测。
2.根据权利要求1所述方法,其特征在于,所述获取第一时段对应的第一统计数据包括:
获取数据源中,与所述第一时段中各历史周期对应的数据;
根据所述第一时段中各历史周期对应的数据,计算得到所述第一时段中各历史周期对应第一周期性数据;
将各所述第一周期性数据合并为所述第一统计数据。
3.根据权利要求2所述方法,其特征在于,所述获取第二时段对应的第二统计数据包括:
获取所述数据源中,与所述第二时段中各历史周期对应的数据;
根据所述第二时段中各历史周期对应的数据,计算得到所述第二时段中各历史周期对应第二周期性数据;
将各所述第二周期性数据合并为所述第二统计数据。
4.根据权利要求3所述方法,其特征在于,还包括:
获取所述数据源中,与所述第二时段中各新增周期对应的数据;
根据所述第二时段中各新增周期对应的数据,计算得到所述第二时段中各新增周期对应第三周期性数据。
5.根据权利要求4所述方法,其特征在于,通过数据源获取第二时段对应的第二统计数据包括:
将各所述第二周期性数据和各所述第三周期性数据,合并为所述第二统计数据。
6.根据权利要求1所述方法,其特征在于,所述根据所述数据质量指标,对所述历史周期内的数据进行质量检测包括:
当所述数据质量指标超过预设的阈值,则针对所述数据质量指标对应的第二周期性数据生成质量预警信息。
7.一种数据质量检测装置,其特征在于,包括:
第一统计数据模块,用于获取第一时段对应的第一统计数据;所述第一时段包括至少一个历史周期;所述第一统计数据包括各所述历史周期对应第一周期性数据;
第二统计数据模块,用于获取第二时段对应的第二统计数据;所述第二时段包括至少一个历史周期和新增周期;其中所述第二时段为所述第一时段之后的某个特定时段,且所述第二时段与所述第一时段有重合;所述第二统计数据包括各所述历史周期对应第二周期性数据;
指标计算模块,用于基于所述第一统计数据和所述第二统计数据,计算各历史周期对应的数据质量指标,包括:计算所述历史周期对应的第一周期性数据和第二周期性数据的比值,根据所述比值确定所述历史周期对应的数据质量指标;
质量检测模块,用于根据所述数据质量指标,对所述历史周期的数据进行质量检测。
8.一种可读介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述电子设备执行如权利要求1至6中任一权项所述的数据质量检测方法。
9.一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如权利要求1至6中任一权项所述的数据质量检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911211100.8A CN112988719B (zh) | 2019-12-02 | 2019-12-02 | 一种数据质量检测方法、装置、可读介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911211100.8A CN112988719B (zh) | 2019-12-02 | 2019-12-02 | 一种数据质量检测方法、装置、可读介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112988719A CN112988719A (zh) | 2021-06-18 |
CN112988719B true CN112988719B (zh) | 2023-04-04 |
Family
ID=76331063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911211100.8A Active CN112988719B (zh) | 2019-12-02 | 2019-12-02 | 一种数据质量检测方法、装置、可读介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112988719B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1145115A (ja) * | 1997-07-25 | 1999-02-16 | Toshiba Corp | 履歴データ表示装置 |
CN105868349A (zh) * | 2016-03-29 | 2016-08-17 | 北京派得伟业科技发展有限公司 | 一种作物品种区域试验数据采集方法 |
CN108876785A (zh) * | 2018-06-29 | 2018-11-23 | 山东鲁能智能技术有限公司 | 封闭空间水情监测方法及系统 |
CN109614291A (zh) * | 2018-12-11 | 2019-04-12 | 上海连尚网络科技有限公司 | 报警方法和装置 |
CN109933500A (zh) * | 2019-03-27 | 2019-06-25 | 新奥数能科技有限公司 | 设备故障告警方法、装置、可读介质及电子设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102420724B (zh) * | 2011-12-15 | 2014-07-23 | 大唐移动通信设备有限公司 | 一种北向性能指标测试方法及装置 |
CN105159162B (zh) * | 2015-08-14 | 2017-11-07 | 北京拓盛电子科技有限公司 | 计量系统中的非计量数据的处理方法 |
CN105678635B (zh) * | 2016-01-05 | 2021-03-16 | 中国电力科学研究院 | 一种适用于电网调度计算的数据构建方法及系统 |
CN106096226B (zh) * | 2016-05-27 | 2018-12-11 | 腾讯科技(深圳)有限公司 | 一种数据评估方法、装置及服务器 |
CN108512900A (zh) * | 2018-02-09 | 2018-09-07 | 深圳明创自控技术有限公司 | 污水管网智能监测系统 |
CN108234524B (zh) * | 2018-04-02 | 2020-08-21 | 广州广电研究院有限公司 | 网络数据异常检测的方法、装置、设备及存储介质 |
CN110069411A (zh) * | 2019-04-15 | 2019-07-30 | 网易(杭州)网络有限公司 | 客户端性能质量报告生成方法、装置、介质及电子设备 |
CN110245778B (zh) * | 2019-05-07 | 2023-10-31 | 创新先进技术有限公司 | 分摊数据检测方法以及装置 |
-
2019
- 2019-12-02 CN CN201911211100.8A patent/CN112988719B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1145115A (ja) * | 1997-07-25 | 1999-02-16 | Toshiba Corp | 履歴データ表示装置 |
CN105868349A (zh) * | 2016-03-29 | 2016-08-17 | 北京派得伟业科技发展有限公司 | 一种作物品种区域试验数据采集方法 |
CN108876785A (zh) * | 2018-06-29 | 2018-11-23 | 山东鲁能智能技术有限公司 | 封闭空间水情监测方法及系统 |
CN109614291A (zh) * | 2018-12-11 | 2019-04-12 | 上海连尚网络科技有限公司 | 报警方法和装置 |
CN109933500A (zh) * | 2019-03-27 | 2019-06-25 | 新奥数能科技有限公司 | 设备故障告警方法、装置、可读介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112988719A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109558295B (zh) | 一种性能指标异常检测方法及装置 | |
CN110008080B (zh) | 基于时间序列的业务指标异常检测方法、装置和电子设备 | |
CN111242793B (zh) | 医保数据异常的检测方法和装置 | |
CN110543483A (zh) | 一种数据稽核方法、装置及电子设备 | |
CN111160012A (zh) | 医学术语识别方法、装置和电子设备 | |
CN109934268B (zh) | 异常交易检测方法及系统 | |
JP2019114158A (ja) | カバレッジテスト支援装置およびカバレッジテスト支援方法 | |
US20180210925A1 (en) | Reliability measurement in data analysis of altered data sets | |
CN109933507B (zh) | 一种程序性能检测方法、系统、设备及存储介质 | |
CN111783999A (zh) | 数据处理方法及装置 | |
CN106033574B (zh) | 一种作弊行为的识别方法及装置 | |
CN111104438A (zh) | 时间序列的周期性确定方法、装置及电子设备 | |
CN110795324B (zh) | 一种数据处理方法及装置 | |
Juddoo et al. | A qualitative assessment of machine learning support for detecting data completeness and accuracy issues to improve data analytics in big data for the healthcare industry | |
CN112988719B (zh) | 一种数据质量检测方法、装置、可读介质及电子设备 | |
CN109597745B (zh) | 异常数据处理方法及装置 | |
CN111192691A (zh) | 一种医学评估表的确定方法、装置、可读介质及电子设备 | |
CN111275086B (zh) | 医保群体欺诈异常行为的检测方法、装置和电子设备 | |
CN111765676A (zh) | 一种多联机的制冷剂充注量故障诊断方法和装置 | |
CN113886373A (zh) | 一种数据处理方法、装置及电子设备 | |
CN110265127B (zh) | 病种费用测算方法、装置及终端设备 | |
CN111180078A (zh) | 一种评估治疗效果的方法、装置、可读介质及电子设备 | |
CN111863163A (zh) | 一种基于贝叶斯网络和三维数学模型的药品疗效多指标评价方法 | |
WO2020082809A1 (zh) | 基于数据分析的医疗项目风控方法、装置、服务器及介质 | |
CN115547509A (zh) | 临床路径的变异检测方法、装置以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |