CN111913942A - 一种数据质量检测方法及装置 - Google Patents

一种数据质量检测方法及装置 Download PDF

Info

Publication number
CN111913942A
CN111913942A CN202010738681.7A CN202010738681A CN111913942A CN 111913942 A CN111913942 A CN 111913942A CN 202010738681 A CN202010738681 A CN 202010738681A CN 111913942 A CN111913942 A CN 111913942A
Authority
CN
China
Prior art keywords
detection
data
quality detection
data stream
detection task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010738681.7A
Other languages
English (en)
Other versions
CN111913942B (zh
Inventor
周行
王中伟
李建伟
陈维强
孙永良
于涛
王玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense TransTech Co Ltd
Original Assignee
Hisense TransTech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense TransTech Co Ltd filed Critical Hisense TransTech Co Ltd
Priority to CN202010738681.7A priority Critical patent/CN111913942B/zh
Publication of CN111913942A publication Critical patent/CN111913942A/zh
Application granted granted Critical
Publication of CN111913942B publication Critical patent/CN111913942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04847Interaction techniques to control parameter settings, e.g. interaction with sliders or dials

Abstract

本公开涉及数据质量领域,特别涉及一种数据质量检测方法及装置,用于提高数据质量检测过程的可扩展性,该方法为:在显示屏显示配置界面时,响应于用户配置的检测任务,获取待检测的数据流,若检测任务中包含质量检测任务,则基于质量检测任务对应的质量检测规则,对数据流进行质量检测,其中,质量检测规则是根据预设的基础检测模板和用户配置的参数范围生成的。这样,通过预设的基础检测模板和用户配置的参数范围生成质量检测规则,而不再是采用固定的质量检测规则,避免了规则更改时进行源码修改,提高了数据质量检测过程的可扩展性,同时,从数据流中进行检测,简化了检测过程,缩短了数据质量检测时间。

Description

一种数据质量检测方法及装置
技术领域
本公开涉及数据质量检测领域,特别涉及一种数据质量检测方法及装置。
背景技术
随着信息技术的发展和大数据时代的到来,数据信息朝着海量、多样化的方向发展,数据质量日益受到各企业以及政府部门的重视。其中,如何对数据质量进行灵活、准确、高效的检测是一个非常值得关注的研究方向。
目前,对于数据质量的检测,通常需要开发人员或用户采用特定的程序语言,编写数据检测规则对应的代码,进而根据数据检测规则,对待检测数据进行检测。然而,现有的数据质量检测方式中,若数据检测规则出现更改、增加等变更时,需要开发人员或用户修改源码,因此,可扩展性较差。
发明内容
本公开提供了一种数据质量检测方法及装置,用以提高数据质量检测过程的可扩展性。
本公开实施例提供的具体技术方案如下:
第一方面,一种数据质量检测装置,包括:
显示屏,被配置为显示界面;
处理器,被配置为:
在所述显示屏显示配置界面时,响应于用户配置的检测任务,获取待检测的数据流;
若所述检测任务中包含质量检测任务,则基于所述质量检测任务对应的质量检测规则,对所述数据流进行质量检测;其中,所述质量检测规则是根据预设的基础检测模板和用户配置的参数范围生成的。
可选的,获取待检测的数据流时,所述处理器被配置为:
根据所述检测任务中包含的数据流标识,采用数据实时计算引擎,从数据实时采集引擎中实时获取所述数据流标识对应的数据流,作为待检测的数据流。
可选的,基于所述质量检测任务对应的质量检测规则,对所述数据流进行质量检测时,所述处理器被配置为:
采用质量检测引擎,根据所述质量检测任务中配置的至少一个检测字段,基于所述质量检测任务对应的质量检测规则,对所述数据流中的所述至少一个检测字段进行质量检测。
可选的,所述检测任务中还包含波动检测任务,
获取待检测的数据流之后,所述处理器被配置为:
根据所述波动检测任务中配置的检测周期,获取相应的数据数目,并根据所述波动检测任务中配置的基准数量和所述数据数目,确定相应的波动率;
将所述波动率和所述波动检测任务中配置的波动率阈值进行匹配,确定波动率检测结果。
可选的,根据所述波动检测任务中配置的检测周期,获取相应的数据数目,并根据所述波动检测任务中配置的基准数量和所述数据数目,确定相应的波动率时,所述处理器被配置为:
若所述波动检测任务为表级波动检测任务,则根据所述检测周期,统计获取的数据流的数据总数目,并根据所述基准数量和所述数据总数目,确定表级波动率;
若所述波动检测任务为字段级波动检测任务,则根据字段级波动检测任务中配置的指定字段和所述检测周期,统计获取的数据流的指定字段中包含的同一属性值出现的数目,并根据所述基准数量和所述同一属性值出现的数目,确定字段级波动率。
第二方面,一种数据质量检测方法,包括:
在数据质量检测装置的显示屏显示配置界面时,响应于用户配置的检测任务,获取待检测的数据流;
若所述检测任务中包含质量检测任务,则基于所述质量检测任务对应的质量检测规则,对所述数据流进行质量检测;其中,所述质量检测规则是根据预设的基础检测模板和用户配置的参数范围生成的。
可选的,获取待检测的数据流,具体包括:
根据所述检测任务中包含的数据流标识,采用数据实时计算引擎,从数据实时采集引擎中实时获取所述数据流标识对应的数据流,作为待检测的数据流。
可选的,基于所述质量检测任务对应的质量检测规则,对所述数据流进行质量检测,具体包括:
采用质量检测引擎,根据所述质量检测任务中配置的至少一个检测字段,基于所述质量检测任务对应的质量检测规则,对所述数据流中的所述至少一个检测字段进行质量检测。
可选的,所述检测任务中还包含波动检测任务,
获取待检测的数据流之后,还包括:
根据所述波动检测任务中配置的检测周期,获取相应的数据数目,并根据所述波动检测任务中配置的基准数量和所述数据数目,确定相应的波动率;
将所述波动率和所述波动检测任务中配置的波动率阈值进行匹配,确定波动率检测结果。
可选的,根据所述波动检测任务中配置的检测周期,获取相应的数据数目,并根据所述波动检测任务中配置的基准数量和所述数据数目,确定相应的波动率时,具体包括:
若所述波动检测任务为表级波动检测任务,则根据所述检测周期,统计获取的数据流的数据总数目,并根据所述基准数量和所述数据总数目,确定表级波动率;
若所述波动检测任务为字段级波动检测任务,则根据字段级波动检测任务中配置的指定字段,所述检测周期,统计获取的数据流的指定字段中包含的同一属性值出现的数目,并根据所述基准数量和所述同一属性值出现的数目,确定字段级波动率。
第三方面,一种数据质量检测装置,包括:
配置模块,被配置为在数据质量检测装置的显示屏显示配置界面时,响应于用户配置的检测任务,获取待检测的数据流;
数据实时计算模块,被配置为若所述检测任务中包含质量检测任务,则基于所述质量检测任务对应的质量检测规则,对所述数据流进行质量检测;其中,所述质量检测规则是根据预设的基础检测模板和用户配置的参数范围生成的。
第四方面,一种存储介质,当所述存储介质中的指令由处理器执行时,使得所述处理器能够执行如上述任一项所述的数据质量检测方法。
综上所述,本公开实施例中,在显示屏显示配置界面时,响应于用户配置的检测任务,获取待检测的数据流,若检测任务中包含质量检测任务,则基于质量检测任务对应的质量检测规则,对数据流进行质量检测,其中,质量检测规则是根据预设的基础检测模板和用户配置的参数范围生成的。这样,通过预设的基础检测模板和用户配置的参数范围生成质量检测规则,而不再是采用固定的质量检测规则,避免了规则更改时进行源码修改,提高了数据质量检测过程的可扩展性,同时,从数据流中进行检测,简化了检测过程,缩短了数据质量检测时间。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例中提供的一种数据质量检测装置的实体结构示意图;
图2为本公开实施例中提供的一种数据质量检测装置的逻辑结构示意图;
图3A为本公开实施例中提供的一种配置基础检测模板的配置界面示意图;
图3B为本公开实施例中提供的一种配置表级波动检测任务的配置界面示意图;
图3C为本公开实施例中提供的一种配置字段级波动检测任务的配置界面示意图;
图3D为本公开实施例中提供的一种配置质量检测任务的配置界面示意图;
图4为本公开实施例中提供的一种数据质量检测方法的流程示意图。
具体实施方式
为了使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
本公开实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本公开的描述中,需要说明的是,除非另有明确的规定和限定,术语“连接”应做广义理解,例如,可以是直接相连,也可以通过中间媒介间接相连,可以是两个器件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本公开中的具体含义。
针对现有技术中数据检测过程可扩展性较差的问题,为了提高数据质量检测过程的可扩展性,在本公开实施例中,提供一种用于数据质量检测的解决方案。
该方案为:在数据质量检测装置的显示屏显示配置界面时,响应于用户配置的检测任务,获取待检测的数据流,若检测任务中包含质量检测任务,则基于质量检测任务对应的质量检测规则,对数据流进行质量检测,其中,质量检测规则是根据预设的基础检测模板和用户配置的参数范围生成的。
需要说明的是,上述解决方案可应用于各种需要进行数据质量检测的场景,例如,网购、政府、企业等场景,针对网购,可以对交易信息进行数据质量检测,针对政府业务,可以对政务服务数据进行数据质量检测,针对企业业务,可以对企业业务数据进行数据质量检测,为了便于描述,下文中,仅以购物场景进行举例。
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
参阅图1所示,为本公开实施例中提供的一种数据质量检测装置的实体结构示意图。
下面以数据质量检测装置100为例对实施例进行具体说明。应该理解的是,图1所示数据质量检测装置100仅是一个范例,并且数据质量检测装置100可以具有比图1中所示的更多的或者更少的部件,可以组合两个或多个的部件,或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
如图1所示,数据质量检测装置100包括:射频(radio frequency,RF)电路110、存储器120、显示单元130、传感器140、音频电路150、无线保真(Wireless Fidelity,Wi-Fi)模块160、处理器170、蓝牙模块171、以及电源180等部件。
RF电路110可用于在收发信息或通话过程中信号的接收和发送,可以接收基站的下行数据后交给处理器170处理;可以将上行数据发送给基站。通常,RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等器件。
存储器120可用于存储软件程序及数据。处理器170通过运行存储在存储器120的软件程序或数据,从而执行数据质量检测装置100的各种功能以及数据处理。存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器120存储有使得数据质量检测装置100能运行的操作系统。本申请中存储器120可以存储操作系统及各种应用程序,还可以存储执行本公开实施例所述方法的代码。
显示单元130可用于接收输入的数字或字符信息,产生与数据质量检测装置100的用户设置以及功能控制有关的信号输入,具体地,显示单元130可以包括设置在数据质量检测装置100正面的触摸屏131,可收集用户在其上或附近的触摸操作,例如点击按钮,拖动滚动框等。
显示单元130还可用于显示由用户输入的信息或提供给用户的信息以及数据质量检测装置100的各种菜单的图形用户界面(graphical user interface,GUI)。具体地,显示单元130可以包括设置在数据质量检测装置100正面的显示屏132。其中,显示屏132可以采用液晶显示器、发光二极管等形式来配置。显示单元130可以用于显示本申请中所述的各种图形用户界面。
其中,触摸屏131可以覆盖在显示屏132之上,也可以将触摸屏131与显示屏132集成而实现数据质量检测装置100的输入和输出功能,集成后可以简称触摸显示屏。本申请中显示单元130可以显示应用程序以及对应的操作步骤。
数据质量检测装置100还可以包括至少一种传感器140,比如加速度传感器141、距离传感器142、指纹传感器143、温度传感器144。数据质量检测装置100还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。
音频电路150、扬声器151、麦克风152可提供用户与数据质量检测装置100之间的音频接口。音频电路150可将接收到的音频数据转换后的电信号,传输到扬声器151,由扬声器151转换为声音信号输出。数据质量检测装置100还可配置音量按钮,用于调节声音信号的音量。另一方面,麦克风152将收集的声音信号转换为电信号,由音频电路150接收后转换为音频数据,再将音频数据输出至RF电路110以发送给其他设备,或者将音频数据输出至存储器120以便进一步处理。本申请中麦克风152可以获取用户的语音。
Wi-Fi属于短距离无线传输技术,数据质量检测装置100可以通过Wi-Fi模块160帮助用户收发电子邮件、浏览网页和访问流媒体等,它为用户提供了无线的宽带互联网访问。还可以通过Wi-Fi模块来与其他具有Wi-Fi模块的设备进行信息交互。
处理器170是数据质量检测装置100的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器120内的软件程序,以及调用存储在存储器120内的数据,执行数据质量检测装置100的各种功能和处理数据。在一些实施例中,处理器170可包括一个或多个处理单元;处理器170还可以集成应用处理器和基带处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,基带处理器主要处理无线通信。可以理解的是,上述基带处理器也可以不集成到处理器170中。本申请中处理器170可以运行操作系统、应用程序、用户界面显示及触控响应,以及本公开实施例所述的处理方法。另外,处理器170与显示单元130可以是耦接。
蓝牙模块171,用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。
数据质量检测装置100还包括给各个部件供电的电源180(比如电池)。电源可以通过电源管理系统与处理器170逻辑相连,从而通过电源管理系统实现管理充电、放电以及功耗等功能。数据质量检测装置100还可配置有电源按钮,用于终端的开机和关机,以及锁屏等功能。
图2是本公开实施例提供的一种数据质量检测装置100的逻辑结构示意图。
其中,所述数据质量检测装置100至少包括配置模块201、数据实时计算模块202、数据实时采集模块203、质量检测模块204。
其中,配置模块201,被配置为在数据质量检测装置的显示屏显示配置界面时,接收用户配置的检测任务,该检测任务可以包含但不限于质量检测任务、表级波动检测任务、字段级波动检测任务中的任一项或任意组合。
数据实时计算模块202,被配置为根据检测任务中包含的数据流标识,采用数据实时计算引擎,从数据实时采集引擎中获取数据流标识对应的数据流,作为待检测的数据流。
在一些实施例中,数据实时计算模块202被配置为,若检测任务中还包含波动检测任务,根据波动检测任务中配置的检测周期,获取相应的数据数目,并根据波动检测任务中配置的基准数量和数据数目,确定相应的波动率;将波动率和波动检测任务中配置的波动率阈值进行匹配,确定波动率检测结果。
在一些实施例中,数据实时计算模块202被配置为若波动检测任务为表级波动检测任务,则根据检测周期,统计获取的数据流的数据总数目,并根据基准数量和数据总数目,确定表级波动率;
若波动检测任务为字段级波动检测任务,则根据字段级波动检测任务中配置的指定字段和检测周期,统计获取的数据流的指定字段中包含的同一属性值出现的数目,并根据基准数量和所述同一属性值出现的数目,确定字段级波动率。
数据实时采集模块203,被配置为采用数据实时采集引擎实时获取数据流。
质量检测模块204,被配置为采用质量检测引擎,根据质量检测任务中配置的至少一个检测字段,基于质量检测任务对应的质量检测规则,对数据流中的至少一个检测字段进行质量检测。
图3A-图3D是本公开实施例提供的一组数据质量检测装置100的交互示意图。
参阅图3A所示,为数据质量检测装置100显示屏显示的一种配置界面,通过该配置界面,接收用户配置的基础检测模板,该基础检测模板为根据质量检测引擎的编程语言编写的检测代码。其中,基础检测模板可以包括但不限于中文函数名称、英文函数名称、函数参数等各项信息。在一些实施例中,数据质量检测装置100中也可以预先设置基础检测模板。
参阅图3B所示,为数据质量检测装置100显示屏显示的另一种配置界面,通过该配置界面,接收用户配置的表级波动检测任务,其中,用户可以输入表级波动检测任务的开始时间、结束时间、窗口时间、窗口报警、基准数量、波动率等信息。
参阅图3C所示,为数据质量检测装置100显示屏显示的另一种配置界面,通过该配置界面,接收用户配置的字段级波动检测任务,其中,用户可以输入表级波动检测任务的开始时间、结束时间、窗口时间、窗口报警、基准数量、波动率以及需要检测的指定字段等信息。
参阅图3D所示,为数据质量检测装置100显示屏显示的另一种配置界面,通过该配置界面,接收用户配置的质量检测任务,其中,用户可以输入质量检测任务的检测字段、参数范围、特征参数等信息。
本公开实施例中的数据质量检测装置100可以为手机、平板电脑、可穿戴设备、笔记本电脑以及电视等。
参阅图4所示,本公开实施例中,数据质量检测流程如下:
步骤S410:在数据质量检测装置的显示屏显示配置界面时,响应于用户配置的检测任务,获取待检测的数据流。
需要说明的是,本公开实施例中,执行步骤S410之前,响应于用户输入的特征参数、参数范围、检测字段、数据流标识,生成质量检测任务。
例如,参阅图3D所示,响应于用户输入的特征参数“字符串长度”、参数范围“11”、检测字段“手机号码”、数据流标识JSON1,生成质量检测任务1,质量检测任务1用于检测数据流JSON1中,“手机号码”字段的属性值的字符串长度是否为11。
需要说明的是,本公开实施例中,数据流可以但不限于是JS对象简谱(JavaScriptObject Notation,JSON)、字符串等数据格式,上述仅为举例。
在数据质量检测装置的显示屏显示配置界面时,响应于用户配置的检测任务,根据当前的检测任务中包含的数据流标识,采用数据实时计算引擎,从数据实时采集引擎中实时获取数据流标识对应的数据流,作为待检测的数据流。
其中,数据实时计算引擎可以采用但不限于Apache Flink,Apache Flink是一种开源流处理框架,Apache Flink以数据并行和流水线方式执行任意流数据程序。
数据实时采集引擎可以采用但不限于Apache Kafka,Apache Kafka是一种高吞吐量的分布式发布订阅消息系统,用于构建实时数据管道和流式应用程序。
本公开实施例中,数据实时采集引擎采用Apache Kafka时,数据流标识可以采用话题(Topic)字符串标识。
例如,在数据质量检测装置的显示屏显示配置界面时,响应于用户配置的检测任务,根据当前的检测任务中包含的数据流标识JSON1,采用Apache Flink,从Apache Kafka中实时获取数据流标识JSON1对应的数据流,作为待检测的数据流,其中,JSON1对应的数据流表征网购过程中的交易信息流,该交易信息流包含“姓名”、“手机号码”等字段。
步骤S420:若检测任务中包含质量检测任务,则基于质量检测任务对应的质量检测规则,对数据流进行质量检测,其中,质量检测规则是根据预设的基础检测模板和用户配置的参数范围生成的。
本公开实施中,若当前的检测任务中包含质量检测任务,可以采用但不限于以下方式确定质量检测任务对应的质量检测规则:
基于质量检测任务中用户配置的特征参数,根据特征参数与基础检测模板之间的对应关系,确定特征参数对应的基础检测模板;
基于质量检测任务中用户配置的参数范围和基础检测模板,生成质量检测任务对应的质量检测规则。
其中,基础检测模板是指根据质量检测引擎的编程语言编写的检测代码,该基础检测模板可以是根据实际业务场景预先设置的,也可以是用户预先配置的,本公开对此并不限定。
例如,基于质量检测任务中用户配置的特征参数“字符串长度”,根据特征参数“字符串长度”与基础检测模板之间的对应关系,确定特征参数对应的基础检测模板为基础检测模板baseFunLength,然后,基于质量检测任务中用户配置的参数范围“11”和基础检测模板baseFunLength,生成质量检测任务1对应的质量检测规则1。
本公开实施例中,可以在确定质量检测任务对应的质量检测规则之后,将质量检测规则注册到质量检测引擎,使得质量检测引擎能够基于质量检测规则进行质量检测。
进而,采用质量检测引擎,根据质量检测任务中配置的至少一个检测字段,基于质量检测任务对应的质量检测规则,对数据流中的至少一个检测字段进行质量检测。
其中,质量检测引擎可以采用但不限于JavaScript(JS)引擎,JS引擎用于处理JavaScript脚本。
其中,数据流是数据实时计算引擎传递至质量检测引擎的,质量检测任务中配置的至少一个检测字段可以是数据实时计算引擎通过参数形式传递至质量检测引擎的。
例如,Apache Flink将数据流JSON1传递至JS引擎,以及将检测字段“手机号码”以参数形式传递至JS引擎,采用JS引擎,根据质量检测任务1中配置的检测字段“手机号码”,基于质量检测任务1对应的质量检测规则1,对数据流JSON1中的检测字段“手机号码”进行质量检测,即,检测数据流JSON1中“手机号码”字段的属性值的字符串长度是否为11。
为了实现在检测任务不间断的情况下,更新质量检测规则,本公开实施例中还可以采用热加载的方式,进行质量检测规则的更新。
对数据流进行质量检测的过程中,若检测出不符合质量检测规则的异常数据,则将异常数据进行持久化。
其中,将异常数据进行持久化也可以理解为将异常数据进行存储,例如,可以将异常数据存储至数据库中,也可以将异常数据存储于指定的存储位置,本公开对此并不限定,在此不再赘述。
例如,对数据流JSON1进行质量检测的过程中,若检测出不符合质量检测规则的异常数据,则将异常数据存储于数据库中,其中,该异常数据中“手机号码”字段的属性值的字符串长度为10。
本公开实施例中,执行步骤S410之前,还可以响应于用户输入的检测周期、基准数量、波动率阈值,生成相应的波动检测任务。
例如,假设,参阅图3B所示,采用时间窗口表示第一检测周期,用户输入的第一窗口时间、第一基准数量、表级波动率阈值分别为50秒、2000、21,响应于用户输入的第一检测周期、第一基准数量、表级波动率阈值,生成表级波动检测任务。
又例如,假设,参阅图3C所示,采用时间窗口表示第二检测周期,用户输入的第二窗口时间、第二基准数量、字段级波动率阈值、指定字段分别为30秒、10、21、“姓名”,响应于用户输入的第二检测周期、第二基准数量、字段级波动率阈值、指定字段,生成字段级波动检测任务。
进一步的,若检测任务中还包含波动检测任务,则根据波动检测任务的类型,分别执行以下操作:
第一种类型:波动检测任务为表级波动检测任务。
具体的,采用Apache Flink,根据表级波动检测任务中配置的第一检测周期,统计获取的数据流的数据总数目,并根据表级波动检测任务中配置的第一基准数量和数据总数目,确定表级波动率。
其中,表级波动率的计算公式可以根据实际应用场景进行设定,例如,表级波动率可以表示为数据总数目与第一基准数量之间的差值在第一基准数量中的占比,也可以表示为数据总数目与第一基准数量之间的方差在第一基准数量中的占比,还可以直接表示为数据总数目与第一基准数量之间的差值,本公开对此并不限定。
例如,参阅图3B所示,采用时间窗口表示第一检测周期,表级波动检测任务中配置的第一窗口时间、第一基准数量分别为50秒、2000,即,第一检测周期50秒/次,采用ApacheFlink,根据表级波动检测任务中配置的第一检测周期10秒/次,当前检测周期内,统计获取的数据流JSON1的数据总数目为2010,并根据表级波动检测任务中配置的第一基准数量2000和数据总数目2010,确定表级波动率为10。
采用Apache Flink,将表级波动率和表级波动检测任务中配置的表级波动率阈值进行匹配,确定表级波动率检测结果。
例如,参阅图3B所示,表级波动检测任务中配置的表级波动率阈值为21,将表级波动率10和波动检测任务中配置的表级波动率阈值21进行匹配,采用Apache Flink,确定当前检测周期内不存在表级波动异常。
第二种:波动检测任务为字段级波动检测任务。
具体的,采用Apache Flink,根据字段级波动检测任务中配置的指定字段和第二检测周期,统计获取的数据流的指定字段中包含的同一属性值出现的数目,并根据字段级波动检测任务中配置的第二基准数量和同一属性值出现的数目,确定字段级波动率。
其中,字段级波动率的计算公式可以根据实际应用场景进行设定,例如,字段级波动率可以表示为同一属性值出现的数目之和与第一基准数量之间的差值在第二基准数量中的占比,也可以直接表示为同一属性值出现的数目之和与第二基准数量之间的差值,还可以直接表示为同一属性值出现的数目之和的平均值与第二基准数量之间的差值,本公开对此并不限定。
例如,参阅图3C所示,采用时间窗口表示第二检测周期,字段级波动检测任务中配置的第二窗口时间、第二基准数量、指定字段分别为30秒、10、“姓名”,即,第一检测周期30秒/次,采用Apache Flink,根据字段级波动检测任务中配置的第二检测周期30秒/次,当前检测周期内,统计获取的数据流JSON1的“姓名”字段中,属性值“张三”出现的数目为2,属性值“李四”出现的数目为3,然后,根据同一属性值出现的数目和第二基准数量10,确定字段级波动率为5,该字段级波动表示为同一属性值出现的数目之和5和第二基准数量10之间的差值。
采用Apache Flink,将字段级波动率和字段级波动检测任务中配置的字段波动率阈值进行匹配,确定字段级波动率检测结果。
例如,参阅图3C所示,字段级波动检测任务中配置的字段级波动率阈值为21,采用Apache Flink,将字段级波动率5和字段级波动率阈值21进行匹配,确定当前检测周期内不存在字段级波动异常。
又例如,假设,字段级波动率为33,字段级波动检测任务中配置的字段级波动率阈值为21,采用Apache Flink,将字段级波动率5和字段级波动率阈值21进行匹配,确定当前检测周期内存在字段级波动异常,该字段级波动异常表征当前检测周期的数据流中存在过于频繁下单的用户。
进一步的,将统计的数据总数目和同一属性值出现的数目写入Apache Flink,将波动率检测结果为异常波动进行存储。
需要说明的是,本公开实施例中,字段级波动检测任务和表级波动检测任务可以同时配置,也可以单独配置,本公开对此并不限制。
这样,通过提供表级和字段级的波动检测,对一定时间范围内的数据进行波动检测,能够提高数据质量的可信度,也丰富了数据质量的检测维度。
基于同一发明构思,本公开实施例提供一种存储介质,当所述存储介质中的指令由处理器执行时,使得所述处理器能够执行上述流程中数据质量检测装置实现的任一项方法。
综上所述,本公开实施例中,在显示屏显示配置界面时,响应于用户配置的检测任务,获取待检测的数据流,若检测任务中包含质量检测任务,则基于质量检测任务对应的质量检测规则,对数据流进行质量检测,其中,质量检测规则是根据预设的基础检测模板和用户配置的参数范围生成的。这样,通过预设的基础检测模板和用户配置的参数范围生成质量检测规则,而不再是采用固定的质量检测规则,避免了规则更改时进行源码修改,提高了数据质量检测过程的可扩展性,同时,从数据流中进行检测,简化了检测过程,缩短了数据质量检测时间。
对于系统/装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者一个操作与另一个实体或者另一个操作区分开来,而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本公开的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本公开范围的所有变更和修改。
显然,本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样,倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内,则本公开也意图包含这些改动和变型在内。

Claims (10)

1.一种数据质量检测装置,其特征在于,包括:
显示屏,被配置为显示界面;
处理器,被配置为:
在所述显示屏显示配置界面时,响应于用户配置的检测任务,获取待检测的数据流;
若所述检测任务中包含质量检测任务,则基于所述质量检测任务对应的质量检测规则,对所述数据流进行质量检测;其中,所述质量检测规则是根据预设的基础检测模板和用户配置的参数范围生成的。
2.如权利要求1所述的装置,其特征在于,获取待检测的数据流时,所述处理器被配置为:
根据所述检测任务中包含的数据流标识,采用数据实时计算引擎,从数据实时采集引擎中实时获取所述数据流标识对应的数据流,作为待检测的数据流。
3.如权利要求1或2所述的装置,其特征在于,基于所述质量检测任务对应的质量检测规则,对所述数据流进行质量检测时,所述处理器被配置为:
采用质量检测引擎,根据所述质量检测任务中配置的至少一个检测字段,基于所述质量检测任务对应的质量检测规则,对所述数据流中的所述至少一个检测字段进行质量检测。
4.如权利要求1或2所述的装置,其特征在于,所述检测任务中还包含波动检测任务,
获取待检测的数据流之后,所述处理器被配置为:
根据所述波动检测任务中配置的检测周期,获取相应的数据数目,并根据所述波动检测任务中配置的基准数量和所述数据数目,确定相应的波动率;
将所述波动率和所述波动检测任务中配置的波动率阈值进行匹配,确定波动率检测结果。
5.如权利要求4所述的装置,其特征在于,根据所述波动检测任务中配置的检测周期,获取相应的数据数目,并根据所述波动检测任务中配置的基准数量和所述数据数目,确定相应的波动率时,所述处理器被配置为:
若所述波动检测任务为表级波动检测任务,则根据所述检测周期,统计获取的数据流的数据总数目,并根据所述基准数量和所述数据总数目,确定表级波动率;
若所述波动检测任务为字段级波动检测任务,则根据字段级波动检测任务中配置的指定字段和所述检测周期,统计获取的数据流的指定字段中包含的同一属性值出现的数目,并根据所述基准数量和所述同一属性值出现的数目,确定字段级波动率。
6.一种数据质量检测方法,其特征在于,应用于数据质量检测装置,包括:
在数据质量检测装置的显示屏显示配置界面时,响应于用户配置的检测任务,获取待检测的数据流;
若所述检测任务中包含质量检测任务,则基于所述质量检测任务对应的质量检测规则,对所述数据流进行质量检测;其中,所述质量检测规则是根据预设的基础检测模板和用户配置的参数范围生成的。
7.如权利要求6所述的方法,其特征在于,获取待检测的数据流,具体包括:
根据所述检测任务中包含的数据流标识,采用数据实时计算引擎,从数据实时采集引擎中实时获取所述数据流标识对应的数据流,作为待检测的数据流。
8.如权利要求6或7所述的方法,其特征在于,基于所述质量检测任务对应的质量检测规则,对所述数据流进行质量检测,具体包括:
采用质量检测引擎,根据所述质量检测任务中配置的至少一个检测字段,基于所述质量检测任务对应的质量检测规则,对所述数据流中的所述至少一个检测字段进行质量检测。
9.如权利要求6或7所述的方法,其特征在于,所述检测任务中还包含波动检测任务,
获取待检测的数据流之后,还包括:
根据所述波动检测任务中配置的检测周期,获取相应的数据数目,并根据所述波动检测任务中配置的基准数量和所述数据数目,确定相应的波动率;
将所述波动率和所述波动检测任务中配置的波动率阈值进行匹配,确定波动率检测结果。
10.如权利要求9所述的方法,其特征在于,根据所述波动检测任务中配置的检测周期,获取相应的数据数目,并根据所述波动检测任务中配置的基准数量和所述数据数目,确定相应的波动率时,具体包括:
若所述波动检测任务为表级波动检测任务,则根据所述检测周期,统计获取的数据流的数据总数目,并根据所述基准数量和所述数据总数目,确定表级波动率;
若所述波动检测任务为字段级波动检测任务,则根据字段级波动检测任务中配置的指定字段,所述检测周期,统计获取的数据流的指定字段中包含的同一属性值出现的数目,并根据所述基准数量和所述同一属性值出现的数目,确定字段级波动率。
CN202010738681.7A 2020-07-28 2020-07-28 一种数据质量检测方法及装置 Active CN111913942B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010738681.7A CN111913942B (zh) 2020-07-28 2020-07-28 一种数据质量检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010738681.7A CN111913942B (zh) 2020-07-28 2020-07-28 一种数据质量检测方法及装置

Publications (2)

Publication Number Publication Date
CN111913942A true CN111913942A (zh) 2020-11-10
CN111913942B CN111913942B (zh) 2024-02-27

Family

ID=73286364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010738681.7A Active CN111913942B (zh) 2020-07-28 2020-07-28 一种数据质量检测方法及装置

Country Status (1)

Country Link
CN (1) CN111913942B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108021A (zh) * 2023-04-11 2023-05-12 北方健康医疗大数据科技有限公司 基于标准数据集进行多维度数据质控的方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140149273A1 (en) * 2012-11-29 2014-05-29 Rick Angell Market Microstructure Data Method and Appliance
CN111161815A (zh) * 2019-12-27 2020-05-15 深圳中兴网信科技有限公司 医疗数据检测方法、装置、终端和计算机可读存储介质
US10719219B1 (en) * 2019-09-20 2020-07-21 Chicago Mercantile Exchange Inc. Combined data display with historic data analysis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140149273A1 (en) * 2012-11-29 2014-05-29 Rick Angell Market Microstructure Data Method and Appliance
US10719219B1 (en) * 2019-09-20 2020-07-21 Chicago Mercantile Exchange Inc. Combined data display with historic data analysis
CN111161815A (zh) * 2019-12-27 2020-05-15 深圳中兴网信科技有限公司 医疗数据检测方法、装置、终端和计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨家芳;赖冬林;张丰;杜震洪;刘仁义;: "基于规则引擎的土地数据质量检查方法", 国土资源科技管理, no. 02 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108021A (zh) * 2023-04-11 2023-05-12 北方健康医疗大数据科技有限公司 基于标准数据集进行多维度数据质控的方法、装置及设备
CN116108021B (zh) * 2023-04-11 2023-09-08 北方健康医疗大数据科技有限公司 基于标准数据集进行多维度数据质控的方法、装置及设备

Also Published As

Publication number Publication date
CN111913942B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
JP6630276B2 (ja) 端末デバイスにおけるユーザインタフェースを用いたユーザ行動および関与の計測機
CN107534685B (zh) 一种业务处理方法、装置、可读存储介质及芯片系统
CN106294308B (zh) 命名实体识别方法及装置
CN111078556B (zh) 应用测试方法及装置
CN112540996B (zh) 一种业务数据的校验方法、装置、电子设备及存储介质
CN106598358B (zh) 接近检测方法、装置及终端
CN109429102A (zh) 用于显示应用的电子装置及其操作方法
CN110781373A (zh) 榜单更新方法、装置、可读介质和电子设备
CN112231144A (zh) 一种数据处理方法、装置及电子设备
CN106055598B (zh) 信息显示方法及装置
CN108365982A (zh) 设备异常调试方法、装置、设备和存储介质
CN111708824A (zh) 数据处理方法、装置、设备及存储介质
CN114760339A (zh) 故障预测方法、装置、设备、介质及产品
CN116976898B (zh) 一种数据获取方法、数据可视化方法、装置及相关产品
CN111913942B (zh) 一种数据质量检测方法及装置
CN114117225A (zh) 图书推荐方法及图书推荐设备
US20210132855A1 (en) Method and device for detecting slow node and computer-readable storage medium
CN108848122B (zh) 用于推送信息、展现信息的方法和设备
CN115600213A (zh) 基于应用程序的漏洞管理方法、装置、介质及设备
US11567822B2 (en) Method of monitoring closed system, apparatus thereof and monitoring device
CN109451295A (zh) 一种获取虚拟信息的方法和系统
CN114217961A (zh) 校园信息的获取系统、获取方法、教学服务器及移动终端
CN110334763B (zh) 模型数据文件生成、图像识别方法、装置、设备及介质
CN112667868A (zh) 一种数据检测方法以及装置
CN114064376A (zh) 一种页面监测方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant