CN118035217A - 数据处理方法、装置、电子设备及可读存储介质 - Google Patents

数据处理方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN118035217A
CN118035217A CN202410100978.9A CN202410100978A CN118035217A CN 118035217 A CN118035217 A CN 118035217A CN 202410100978 A CN202410100978 A CN 202410100978A CN 118035217 A CN118035217 A CN 118035217A
Authority
CN
China
Prior art keywords
data
detection
task
data detection
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410100978.9A
Other languages
English (en)
Inventor
孙若愚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xumi Yuntu Space Technology Co Ltd
Original Assignee
Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Xumi Yuntu Space Technology Co Ltd filed Critical Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority to CN202410100978.9A priority Critical patent/CN118035217A/zh
Publication of CN118035217A publication Critical patent/CN118035217A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及数据处理技术领域,提供了一种数据处理方法、装置、电子设备及可读存储介质。该方法包括:接收用户输入的任务指令,基于任务指令配置数据检测任务;基于数据检测任务调用数据检测任务对应的至少一个数据源;基于至少一个数据源,获取对应的至少一个数据库的数据信息;基于数据检测任务对应的数据检测规则,对至少一个数据库的数据信息进行数据质量检测,得到至少一个数据库的数据信息对应的检测结果;根据至少一个数据库的数据信息对应的检测结果,确定至少一个数据库的数据信息对应的告警方式。解决现有技术中数据检测任务过程复杂并且拓展性弱的问题,构建标准化的数据质量检测方法,提升数据检测的准确性,保障数据质量。

Description

数据处理方法、装置、电子设备及可读存储介质
技术领域
本公开涉及数据处理技术领域,尤其涉及一种数据处理方法、装置、电子设备及可读存储介质。
背景技术
随着大数据应用的发展,应用的数据也愈来愈多,但伴随着众多的数据信息而来的往往也有数据质量问题。在出现数据质量问题时,需要逐层定位问题并重新运行数据,浪费大量资源。在出现数据问题时,若依靠人工单点解决,链路较长,需要依靠客户报事给一线业务人员,业务人员再反馈给技术人员,技术人员内部再排查问题,甚至下游系统问题需要追溯多个上游系统才能解决,解决问题被动且滞后;此外,依靠单点解决数据问题,业务及技术人员均需投入大量时间,问题易复发、效率低。现有技术中也存在对数据进行质量检测的数据质量平台,但现有的数据质量平台在进行数据质量检测时需要依靠平台自身的性能和大数据徐建,并且数据检测任务只能作定时配置,拓展性能较弱。
发明内容
有鉴于此,本公开实施例提供了一种数据处理方法、装置、电子设备及可读存储介质,以解决现有技术中数据检测任务过程复杂并且拓展性弱的问题。
本公开实施例的第一方面,提供了一种数据处理方法,包括:接收用户输入的任务指令,基于任务指令配置对应的数据检测任务;基于数据检测任务调用数据检测任务对应的至少一个数据源;基于至少一个数据源,获取对应的至少一个数据库的数据信息;基于数据检测任务对应的数据检测规则,对至少一个数据库的数据信息进行数据质量检测,得到至少一个数据库的数据信息对应的检测结果;根据至少一个数据库的数据信息对应的检测结果,确定至少一个数据库的数据信息对应的告警方式。
本公开实施例的第二方面,提供了一种数据处理装置,包括:任务生成模块,用于接收用户输入的任务指令,基于任务指令配置对应的数据检测任务;调用模块,用于基于数据检测任务调用数据检测任务对应的至少一个数据源;获取模块,用于基于至少一个数据源,获取对应的至少一个数据库的数据信息;检测模块,用于基于数据检测任务对应的数据检测规则,对至少一个数据库的数据信息进行数据质量检测,得到至少一个数据库的数据信息对应的检测结果;告警模块,用于根据至少一个数据库的数据信息对应的检测结果,确定至少一个数据库的数据信息对应的告警方式。
本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本公开实施例的第四方面,提供了一种可读存储介质,该可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本公开实施例与现有技术相比存在的有益效果是:该方法可以接收用户发布的任务指令,任务指令描述用户想执行的具体操作或者希望达到的目标。根据任务指令明确数据检测的目标以及要求,配置相对应的数据检测任务。根据已经配置的数据检测任务,确定对应的至少一个数据源,并基于至少一个数据源,获取数据检测任务对应的至少一个数据库的数据信息。使用数据检测任务对应的数据检测规则对至少一个数据库的数据信息进行数据质量检测,用于评估数据信息的完整性、准确性、一致性等质量属性,得到关于至少一个数据库的数据信息的数据质量的检测结果,并根据检测结果采取对应的告警方式通知相关人员,以提醒相关人员及时针对数据问题进行相应的后续处理。本公开的数据处理方法提供了一个完整的自动化的数据质量保障流程,可以对数据问题进行发现、分析、评估和跟进,确保数据的准确性和完整性,满足用户的需求,解决现有技术中数据检测任务过程复杂并且拓展性弱的问题,构建易用、标准化的数据质量检测方法,提升数据检测的准确性,保障数据库中的数据质量。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例的应用场景的场景示意图;
图2是本公开实施例提供的一种数据处理方法的流程示意图;
图3是本公开实施例提供的一种数据处理装置的结构示意图;
图4是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本公开。在其他情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
下面将结合附图详细说明根据本公开实施例的一种数据处理方法和装置。
图1是本公开实施例的应用场景的场景示意图。该应用场景可以包括终端设备1、2和3、服务器4以及网络5。
终端设备1、2和3可以是硬件,也可以是软件。当终端设备1、2和3为硬件时,其可以是具有显示屏且支持与服务器4通信的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等;当终端设备1、2和3为软件时,其可以安装在如上的电子设备中。终端设备1、2和3可以实现为多个软件或软件模块,也可以实现为单个软件或软件模块,本公开实施例对此不作限制。进一步地,终端设备1、2和3上可以安装有各种应用,例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。
服务器4可以是提供各种服务的服务器,例如,对与其建立通信连接的终端设备发送的请求进行接收的后台服务器,该后台服务器可以对终端设备发送的请求进行接收和分析等处理,并生成处理结果。服务器4可以是一台服务器,也可以是由若干台服务器组成的服务器集群,或者还可以是一个云计算服务中心,本公开实施例对此不作限制。
需要说明的是,服务器4可以是硬件,也可以是软件。当服务器4为硬件时,其可以是为终端设备1、2和3提供各种服务的各种电子设备。当服务器4为软件时,其可以是为终端设备1、2和3提供各种服务的多个软件或软件模块,也可以是为终端设备1、2和3提供各种服务的单个软件或软件模块,本公开实施例对此不作限制。
网络5可以是采用同轴电缆、双绞线和光纤连接的有线网络,也可以是无需布线就能实现各种通信设备互联的无线网络,例如,蓝牙(Bluetooth)、近场通信(Near FieldCommunication,NFC)、红外(Infrared)等,本公开实施例对此不作限制。
用户可以通过终端设备1、2和3经由网络5与服务器4建立通信连接,以接收或发送信息等。具体地,服务器4接收用户输入的任务指令,基于任务指令配置对应的数据检测任务;基于数据检测任务调用数据检测任务对应的至少一个数据源;基于至少一个数据源,获取对应的至少一个数据库的数据信息;基于数据检测任务对应的数据检测规则,对至少一个数据库的数据信息进行数据质量检测,得到至少一个数据库的数据信息对应的检测结果;根据至少一个数据库的数据信息对应的检测结果,确定至少一个数据库的数据信息对应的告警方式。
需要说明的是,终端设备1、2和3、服务器4以及网络5的具体类型、数量和组合可以根据应用场景的实际需求进行调整,本公开实施例对此不作限制。
图2是本公开实施例提供的一种数据处理方法的流程示意图。图2的数据处理方法可以由图1的服务器执行。如图2所示,该数据处理方法包括:
步骤201,接收用户输入的任务指令,基于任务指令配置对应的数据检测任务。
在一些实施例中,任务指令是用户发布或输入的用户希望执行的操作或者希望达到的目标,例如,以通用标准(或自定义标准)检测数据源A对应的数据信息的数据质量。本公开不对任务指令的形式做出限制,可以是以文本的形式,也可以是图形界面的选择,也可以是以音频的形式,任务指令的具体形式在现实实践中根据具体要求和具体情况设定。接收用户输入的任务指令后,需要对任务指令进行解析,识别用户的意图和需求,确定检测对象和检测目标,并根据检测对象和检测目标从预设数据检测任务库中确定数据检测任务。预设数据检测任务库中包含多个预先设置的候选数据检测任务,可以通过相似度匹配的方法计算任务指令与预设数据库中各个候选数据检测任务的相似度,选取其中相似度高的候选数据检测任务作为与任务指令对应的数据检测任务。接收用户提供的任务指令并基于指令配置对应的数据检测任务,可以实现灵活和定制化的数据质量管理,有助于确保数据的准确性和完整性。
步骤202,基于数据检测任务调用数据检测任务对应的至少一个数据源。
在一些实施例中,数据源是指数据的来源,数据源提供了一种连接到数据库的路径,数据源包含了访问数据库所需的信息,例如地址、用户名、密码等。通过数据源,可以建立与数据库的连接。与通过指定文件名称可以在文件系统中找到文件类似,通过提供正确的数据源的名称,可以找到相应的数据库连接并访问获取对应的数据库的数据信息。
在一些实施例中,对于数据检测任务都预先配置有对应的至少一个数据源,基于上述数据检测任务,与上述数据检测任务预先配置的至少一个数据源建立连接,以确保后续能够正常地通过数据源获取对应的数据库的数据信息。对于一些数据检测任务,可以涉及到需要调用不同数据源的数据信息。例如,对于一个电商平台的营业额数据对比监控任务,营业额的数据信息存储在销售系统的数据库中,销售系统的数据库存在对应的一个数据源,同时数据中台的数据库也存储有营业额的数据信息,数据中台的数据库存在对应的一个数据源,配置营业额数据对比监控任务可以用来对比两个数据库中的营业额是否一致,可以用presto查询引擎来实现跨数据源查询对比。在一些实施例中,在与对应的至少一个数据源建立连接之后,可以对至少一个数据源进行验证和测试,以确保能够正常地获取数据,可以包括检查连接是否正常、数据传输是否稳定、数据格式是否符合预期等。验证和测试过程有助于确保后续的数据质量检测任务能够顺利执行。基于数据检测任务调用数据检测任务对应的至少一个数据源是保障数据质量检测顺利进行的重要步骤。通过正确地配置和验证数据源,可以根据数据源获取数据检测任务所需的数据,进而进行质量检测和分析,以提供一个稳定可靠的数据质量管理系统。
步骤203,基于至少一个数据源,获取对应的至少一个数据库的数据信息。
在一些实施例中,数据源是指数据的来源,数据库是一种组织结构良好、经过管理的数据集合,可以用于存储、管理和检索数据。数据源提供连接到数据库的路径,包含访问数据库所需的信息,例如访问地址、访问登录的用户名、访问登录的密码等。通过至少一个数据源,可以建立与数据库的连接,并进行数据的读取操作,获取至少一个数据源对应的至少一个数据库的数据信息。通过使用数据源和数据库,可以建立与数据的连接,进行数据的存储、检索、管理等操作,对数据进行质量检测和分析,以提供一个稳定可靠的数据质量管理系统。
在一些实施例中,可以对数据源配置连接池,连接池则可以用于管理数据库连接,连接池提供了一种高效的方式来管理和复用数据库连接。连接池可以创建并维护一组数据库连接,从而使得在需要时可以重用上述连接,并且再次使用上述数据库的数据信息时可以不需要重新建立连接。当与数据库进行交互时,可以从连接池中获取一个可用的连接,获取完毕后将连接归还给连接池,且不关闭连接。通过创建数据库连接池可以避免频繁地创建和关闭数据库连接,从而提高调用数据进行数据处理的响应速度。
步骤204,基于数据检测任务对应的数据检测规则,对至少一个数据库的数据信息进行数据质量检测,得到至少一个数据库的数据信息对应的检测结果。
在一些实施例中,数据检测是确保数据质量、准确性和一致性的重要过程。基于数据检测任务对应的数据检测规则,可以对至少一个数据库的数据信息进行质量检查,并得出与这些数据信息对应的检测结果。在基于数据检测任务对应的数据检测规则对至少一个数据库的数据信息进行数据质量检测之前,需要定义数据检测任务对应的数据检测规则。各个数据检测任务均有对应的预先设置的数据检测规则,各个数据检测规则均为针对特定数据检测任务的规则集。上述规则决定了数据的质量标准以及如何评估数据是否满足上述质量标准,例如,规则可以包括检查数据的完整性、准确性、一致性或时效性等规则。具体地,对于一个具体的数据检测任务,即检测营业额的完整性和有效性,该数据检测任务对应的数据检测规则可以为一个规则集,包含两条规则,第一条规则定义数据字段非空,第二条规则定义营业额数值大于零,并设置不同的告警条件。应用上述数据检测任务对应的数据检测规则对至少一个数据库中的数据信息进行全面的数据质量检测,可以包含读取数据库中的表、字段、记录和其他相关信息,并根据之前定义的数据检测规则进行比较、验证和分析,生成对应的检测结果。上述检测结果可以包含至少一个数据库的数据信息中存在的问题,例如缺失值、异常值、不一致性或其他潜在的错误或异常。此外,检测结果还可以包括数据质量的其他详细信息,如准确率、完整性,异常对象等。基于数据检测规则对数据库中的数据信息进行质量检测,得到检测结果,并通过后续分析检测结果,可以识别、定位乃至解决数据中存在的问题,从而提高数据的整体质量,确保数据的准确性和可靠性。
步骤105,根据至少一个数据库的数据信息对应的检测结果,确定至少一个数据库的数据信息对应的告警方式。
在一些实施例中,告警方式可以包括强告警和弱告警两种告警方式,两种告警方式的触发条件均在规则配置的过程中进行设置。基于上述至少一个数据库的数据信息对应的检测结果,可以向相关人员或系统进行两种告警方式中的一种进行告警处理。弱告警方式可以包括电子邮件通知、短信提醒、系统通知等,告警方式的选择可以取决于具体需求和偏好。例如,若检测结果显示某个字段的数据存在异常值,可以自动发送一封电子邮件给数据管理员,用以提醒数据管理员检查该字段的数据并进行必要的清理或修复。根据数据质量检测的结果确定相应的告警方式,可以确保及时响应数据问题并采取对应的纠正措施。通过合理配置告警机制,可以提高对数据质量的监控能力,从而更好地保障数据的准确性和可靠性。
通过本公开提供的数据处理方法,接收用户发布的任务指令,任务指令描述用户想执行的具体操作或者希望达到的目标。根据任务指令明确数据检测的目标以及要求,配置相对应的数据检测任务。根据已经配置的数据检测任务,确定对应的至少一个数据源,并基于至少一个数据源,获取数据检测任务对应的至少一个数据库的数据信息。使用数据检测任务对应的数据检测规则对至少一个数据库的数据信息进行数据质量检测,用于评估数据信息的完整性、准确性、一致性等质量属性,得到关于至少一个数据库的数据信息的数据质量的检测结果,并根据检测结果采取对应的告警方式通知相关人员,以提醒相关人员及时针对数据问题进行相应的后续处理。本公开的数据处理方法提供了一个完整的自动化的数据质量保障流程,可以对数据问题进行发现、分析、评估和跟进,确保数据的准确性和完整性,满足用户的需求,解决现有技术中数据检测任务过程复杂并且拓展性弱的问题,构建易用、标准化的数据质量检测方法,提升数据检测的准确性,保障数据库中的数据质量。
在一些实施例中,基于任务指令配置对应的数据检测任务,包括:对任务指令进行解析,确定数据检测对象和数据检测目标;基于数据检测对象和数据检测目标,从预设数据检测任务库中确定数据检测任务。
在一些实施例中,任务指令可以以文本或语音或者其他形式提供,任务指令中包含有关数据检测任务的指导信息。上述数据检测对象是需要被检查的具体数据集,可以是数据库中的某个表、外部文件或API返回的数据。数据检测对象的数量可以是一个也可以是多个。数据检测目标定义数据检测任务的期望结果,可以是验证检测对象的完整性、查找异常值、确保数据满足特定格式要求等等。上述预设数据检测任务库存储着各种数据检测任务集合,各个数据检测任务已经过预先定义和配置。根据已经解析出的数据检测对象和数据检测目标,从预设数据检测任务库中匹配或选择最符合要求的数据检测任务,可以基于任务的相似性、目标匹配度或任务的优先级等因素进行匹配或选择。基于任务指令配置对应的数据检测任务,对任务指令进行解析并从预设数据检测任务库中选择合适的数据检测任务进行执行,可以有效提高对数据质量的监控能力并确保数据的准确性和可靠性。
在一些实施例中,预设数据检测任务库包含多个预设数据检测任务:各个预设数据检测任务是包括至少一个预设数据检测规则和告警方式预设条件以及预设数据检测任务的调度方式,预设数据检测规则是采用SQL语言对数据质量标准的映射。
在一些实施例中,上述数据质量标准一般可以包括数据质量的六大标准,包括:
准确性:衡量数据是否符合预设的目标值,例如字段的最大值、最小值、总和是否经过验证;
完整性:衡量数据是否存在遗漏,例如数据记录是否完整,字段是否有空值;
及时性:衡量数据达到预设目标的及时性;
唯一性:衡量数据记录和属性是否出现重复,例如主键值是否有重复;
有效性:衡量数据是否符合规定的类型、格式和数据范围等规则;
一致性:衡量数据是否符合业务逻辑,对记录间的逻辑进行验证,例如:同步作业的源表和目标表的数据量和内容是否相符。
在预设数据检测任务库中包含多个标准的预设数据检测任务,各个预设数据检测任务针对不同类型的数据和不同的数据质量标准进行预配置。各个预设数据检测任务至少由一个数据检测规则组成。数据检测规则定义了如何评估数据的准确性、完整性、一致性等质量标准。例如,数据检测规则可以检查是否有缺失值、数据是否在合理范围内等。各个预设数据检测任务配置相对应的告警方式,当检测到与预设数据检测任务相关的数据问题时,可以根据预设条件触发相应的告警,通知相关人员。预设数据检测任务的调度方式决定对应的预设数据检测任务的执行频率、时间或其他调度参数。例如,预设数据检测任务A可以配置为每天15点自动执行,预设数据检测任务B可以仅在特定条件下触发,特定条件可以是工作流的某个上游节点完成的标识。数据检测规则使用SQL语言编写,通过SQL语言,可以精确地定义数据质量标准,并编写相应的查询验证这些数据质量标准。通过合理配置和使用预设数据检测任务库,可以快速、准确地监控其数据的健康状况并采取必要的措施来确保数据的准确性和可靠性。
在一些实施例中,基于数据检测任务对应的数据检测规则,对至少一个数据库的数据信息进行数据质量检测,包括:采用至少一个数据库的数据信息对数据检测任务对应的数据检测规则进行部分替换,生成可执行的至少一个数据库的数据信息对应的至少一个数据检测规则的标准化语言;基于至少一个数据库的数据信息对应的至少一个数据检测规则的标准化语言,生成至少一个数据库的数据信息对应的检测结果。
在一些实施例中,在数据检测规则中,对于SQL中需要自定义的部分(例如数据库,表格,过滤条件等),使用占位符的方式进行定义。在进行数据质量检测的过程中,某些占位符可以会被具体的至少一个数据库的数据信息进行替换。通过部分替换,数据检测规则被转换为与特定数据库相关的标准化语言,即SQL语言,标准化语言确保了规则的准确性和可执行性,并能针对对应的数据库的数据进行有效的质量检测。在数据检测规则被转换为标准化语言之后,可以根据上述转换后的标准化语言对对应的数据库中的数据信息进行实际的质量检测,得到检测结果,检测结果可以表述出数据库的数据信息中存在的问题、异常或不符合质量标准的数据项。通过采用至少一个数据库的数据信息对数据检测规则进行部分替换并生成标准化语言,可以确保数据质量检测的准确性和相关性。基于上述生成的标准化语言,可以生成针对至少一个数据库的数据信息的检测结果,从而更好地理解其数据的健康状况并采取必要的措施以确保数据的准确性和可靠性。
在一些实施例中,告警方式包括弱告警和强告警,根据至少一个数据库的数据信息对应的检测结果,确定至少一个数据库的数据信息对应的告警方式之后,还包括:对至少一个数据库的数据信息对应的检测结果和告警方式预设条件进行比对,确定告警方式;在告警方式为弱告警时,将至少一个数据库的数据信息对应的检测结果发送给所有配置用户;在告警方式为强告警时,基于预设多个告警人的配置次序,依次对告警人进行电话通知。
在一些实施例中,告警是数据质量监控流程中的重要步骤,可以将数据检测结果通过告警及时通知相关人员,并且在检测到数据异常或不符合预设标准时,可以帮助用户分析异常数据对象,提前定位问题并解决问题。弱告警可以用于通知相对不紧急或重要性较低的数据问题以及数据质量健康,弱告警可以通过电子邮件、企业通用办公软件、短信等方式发送给所有用户。强告警可以用于指示严重或紧急的数据问题,需要立即引起注意,强告警可以通过更直接和即时的通信方式发送,如电话通知。在得到至少一个数据库的数据信息对应的检测结果后,首先根据检测结果确定相应的告警方式,将至少一个数据库的数据信息对应的检测结果与预设的告警条件进行比对,例如,如果检测到的数据错误率超过了某个预设阈值,确定告警方式为强告警。在告警方式为弱告警时,可以将至少一个数据库的数据信息对应的检测结果通过电子邮件或系统通知等方式发送给所有配置的用户,弱告警适用于不需要立即响应,但仍需要关注的数据问题。在告警方式为强告警时,可以采取更紧急的通知措施,基于预设的多个告警人的配置次序,可以依次对告警人进行电话通知,到达一定的重试次数后将对下一个告警人进行通知,直到确认有告警人收到通知或者所有的告警人都通知完才结束,确保关键人员能够尽快得知并处理问题。强告警更适用于处理需要立即干预的严重数据问题。通过细分告警方式为弱告警和强告警,并根据检测结果的严重程度采取相应的通知措施,可以更有效地响应和处理数据质量问题,有助于维护数据的准确性和可靠性,并提高整体数据质量检测平台的运营效率。
在一些实施例中,数据检测任务包括定时数据检测任务和工作流触发数据检测任务:在预设数据检测任务的调度方式为定时调度时,预设数据检测任务为定时数据检测任务,定时数据检测任务的触发条件为设置的时间;在预设数据检测任务的调度方式为工作流触发时,预设数据检测任务为工作流触发数据检测任务,工作流触发数据检测任务的触发条件为上游任务的检测结果。
在一些实施例中,数据检测任务是确保数据质量的重要内容,可以在不同的条件下被触发以验证数据的完整性、准确性或其他质量标准。在预设数据检测任务的调度方式被设置为定时调度时,该数据检测任务被确定为定时数据检测任务,定时数据检测任务的触发是基于预先设置的时间点或时间间隔,如每日、每周或每月的特定时间。在一些实施例中,数据质量检测平台定期扫描所有预设数据检测任务,对于定时数据检测任务,根据定时数据检测任务中设定的定时时间(如每天上午9点)计算下次执行时间,在确定下次执行时间后,可以生成对应的执行计划,执行计划包含定时数据检测任务的所有必要信息以及预计的运行时间。执行计划生成后被放入延迟队列中。为了确保定时数据检测任务在正确的时间执行,计算下次执行时间与当前时间的差值,即延迟时间,延迟时间被设置为延迟队列中该执行计划的属性,从而在检查队列时,可以明确还需要等待多久才能执行任务。在延迟时间到期时,可以从延迟队列中取出执行计划,并触发相应的定时数据检测任务进行执行。
在预设数据检测任务的调度方式被设置为工作流触发时,该数据检测任务被确定为工作流触发数据检测任务。工作流触发数据检测任务的触发不是基于时间,而是依赖于上游任务的完成情况和检测结果。在上游任务(可以是一个或多个任务)成功完成,并且其检测结果满足特定条件时,工作流触发数据检测任务从而被激活。在一些实施例中,当一个或多个上游任务被配置为与工作流触发数据检测任务相关联时,上述上游任务的完成条件将被设置为触发工作流触发数据检测任务的API,上述上游任务可以是数据处理、数据转换或其他数据处理步骤。在上述上游任务成功完成时,工作流引擎将检查其完成条件并识别到上游任务已完成。并调用数据质量检测平台的API,传递必要的参数和上下文信息。数据质量检测平台接收到API的调用请求后,根据传入的参数和上下文信息生成一个立即执行的执行计划,生成该执行计划后,并将触发相应的工作流触发数据检测任务进行立即执行。
在一些实施例中,定时数据检测任务和工作流触发数据检测任务是两种不同的数据检测任务类型,分别基于时间和上游任务的完成情况进行触发。通过上述两种类型的数据检测任务的调度方式使得数据检测过程更加灵活、高效,并能够适应各种复杂的数据处理场景。
在一些实施例中,数据质量标准包括通用质量标准和自定义质量标准;预设数据检测规则是采用SQL语言对通用质量标准和自定义质量标准的标准化映射,预设数据检测规则是对数据检测对象是否符合数据检测目标的标准化描述。
在一些实施例中,本公开提供的数据处理的方法不仅支持通用数据质量规则的数据质量检测,还支持自定义的数据质量规则的数据质量检测,满足复杂场景下的规则校验。通用质量标准为一般可以为数据质量的六大标准,包括准确性、完整性、一致性、及时性、唯一性和有效性。自定义质量标准可以是针对特定项目的具体需求而定义的数据质量准则。预设数据检测规则是采用SQL语言(或其他查询语言)进行编写,是用于对数据进行质量检查的逻辑表达式或查询语句。预设数据检测规则是对通用质量标准和自定义质量标准的标准化映射,即通过SQL语言(或其他查询语言)将质量标准的抽象转化为具体的、可执行的检测逻辑,将质量标准中的要求转化为统一的、标准化的SQL语言,质量标准的各项要求被分解为具体的检测点,并且每个检测点都被映射到一个或多个SQL语言上。预设数据检测规则是对数据检测对象是否符合数据检测目标的标准化描述,各个预设数据检测规则明确描述它所检查的数据检测对象、检测的方法以及期望的结果。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图3是本公开实施例提供的一种数据处理装置的示意图。如图3所示,该数据处理装置包括:
任务生成模块301,用于接收用户输入的任务指令,基于任务指令配置对应的数据检测任务;
调用模块302,用于基于数据检测任务调用数据检测任务对应的至少一个数据源;
获取模块303,用于基于至少一个数据源,获取对应的至少一个数据库的数据信息;
检测模块304,用于基于数据检测任务对应的数据检测规则,对至少一个数据库的数据信息进行数据质量检测,得到至少一个数据库的数据信息对应的检测结果;
告警模块305,用于根据至少一个数据库的数据信息对应的检测结果,确定至少一个数据库的数据信息对应的告警方式。
根据本公开实施例提供的技术方案,通过任务生成模块301接收用户发布的任务指令,任务指令描述用户想执行的具体操作或者希望达到的目标。根据任务指令明确数据检测的目标以及要求,配置相对应的数据检测任务。调用模块302根据已经配置的数据检测任务,确定对应的至少一个数据源,获取模块303并基于至少一个数据源,获取数据检测任务对应的至少一个数据库的数据信息。检测模块304使用数据检测任务对应的数据检测规则对至少一个数据库的数据信息进行数据质量检测,用于评估数据信息的完整性、准确性、一致性等质量属性,得到关于至少一个数据库的数据信息的数据质量的检测结果,告警模块305并根据检测结果采取对应的告警方式通知相关人员,以提醒相关人员及时针对数据问题进行相应的后续处理。本公开的数据处理方法提供了一个完整的自动化的数据质量保障流程,可以对数据问题进行发现、分析、评估和跟进,确保数据的准确性和完整性,满足用户的需求,解决现有技术中数据检测任务过程复杂并且拓展性弱的问题,构建易用、标准化的数据质量检测方法,提升数据检测的准确性,保障数据库中的数据质量。
在一些实施例中,任务生成模块301被配置为,基于任务指令配置对应的数据检测任务,包括对任务指令进行解析,确定数据检测对象和数据检测目标;基于数据检测对象和数据检测目标,从预设数据检测任务库中确定数据检测任务。
在一些实施例中,预设数据检测任务库包含多个预设数据检测任务,数据处理装置被配置为各个预设数据检测任务是包括至少一个预设数据检测规则和告警方式预设条件以及预设数据检测任务的调度方式,预设数据检测规则是采用SQL语言对数据质量标准的映射。
在一些实施例中,检测模块304被配置为基于数据检测任务对应的数据检测规则,对至少一个数据库的数据信息进行数据质量检测,包括采用至少一个数据库的数据信息对数据检测任务对应的数据检测规则进行部分替换,生成可执行的至少一个数据库的数据信息对应的至少一个数据检测规则的标准化语言;基于至少一个数据库的数据信息对应的至少一个数据检测规则的标准化语言,生成至少一个数据库的数据信息对应的检测结果。
在一些实施例中,告警方式包括弱告警和强告警,数据处理装置被配置为根据至少一个数据库的数据信息对应的检测结果,确定至少一个数据库的数据信息对应的告警方式之后,对至少一个数据库的数据信息对应的检测结果和告警方式预设条件进行比对,确定告警方式;在告警方式为弱告警时,将至少一个数据库的数据信息对应的检测结果发送给所有配置用户;在告警方式为强告警时,基于预设多个告警人的配置次序,依次对告警人进行电话通知。
在一些实施例中,数据检测任务包括定时数据检测任务和工作流触发数据检测任务,数据处理装置被配置为在预设数据检测任务的调度方式为定时调度时,预设数据检测任务为定时数据检测任务,定时数据检测任务的触发条件为设置的时间;在预设数据检测任务的调度方式为工作流触发时,预设数据检测任务为工作流触发数据检测任务,工作流触发数据检测任务的触发条件为上游任务的检测结果。
在一些实施例中,数据质量标准包括通用质量标准和自定义质量标准,数据处理装置被配置为预设数据检测规则是采用SQL语言对通用质量标准和自定义质量标准的标准化映射,预设数据检测规则是对数据检测对象是否符合数据检测目标的标准化描述。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。
图4是本公开实施例提供的电子设备400的示意图。如图4所示,该实施例的电子设备400包括:处理器401、存储器402以及存储在该存储器402中并且可在处理器401上运行的计算机程序403。处理器401执行计算机程序403时实现上述各个方法实施例中的步骤。或者,处理器401执行计算机程序403时实现上述各装置实施例中各模块/单元的功能。
电子设备400可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备400可以包括但不仅限于处理器401和存储器402。本领域技术人员可以理解,图4仅仅是电子设备400的示例,并不构成对电子设备400的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器401可以是中央处理单元(Central Processing Unit,CPU),也可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器402可以是电子设备400的内部存储单元,例如,电子设备400的硬盘或内存。存储器402也可以是电子设备400的外部存储设备,例如,电子设备400上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器402还可以既包括电子设备400的内部存储单元也包括外部存储设备。存储器402用于存储计算机程序以及电子设备所需的其他程序和数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读存储介质(例如计算机可读存储介质)中。基于这样的理解,本公开实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、电载波信号、电信信号以及软件分发介质等。
以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围,均应包含在本公开的保护范围之内。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
接收用户输入的任务指令,基于所述任务指令配置对应的数据检测任务;
基于所述数据检测任务调用所述数据检测任务对应的至少一个数据源;
基于至少一个所述数据源,获取对应的至少一个数据库的数据信息;
基于所述数据检测任务对应的数据检测规则,对至少一个所述数据库的数据信息进行数据质量检测,得到至少一个所述数据库的数据信息对应的检测结果;
根据至少一个所述数据库的数据信息对应的检测结果,确定至少一个所述数据库的数据信息对应的告警方式。
2.根据权利要求1所述数据处理方法,其特征在于,所述基于所述任务指令配置对应的数据检测任务,包括:
对所述任务指令进行解析,确定数据检测对象和数据检测目标;
基于所述数据检测对象和所述数据检测目标,从预设数据检测任务库中确定所述数据检测任务。
3.根据权利要求2所述数据处理方法,其特征在于,所述预设数据检测任务库包含多个预设数据检测任务:
各个所述预设数据检测任务是包括至少一个预设数据检测规则和告警方式预设条件以及所述预设数据检测任务的调度方式,所述预设数据检测规则是采用SQL语言对数据质量标准的映射。
4.根据权利要求3所述数据处理方法,其特征在于,所述基于所述数据检测任务对应的数据检测规则,对至少一个所述数据库的数据信息进行数据质量检测,包括:
采用至少一个所述数据库的数据信息对所述数据检测任务对应的数据检测规则进行部分替换,生成可执行的至少一个所述数据库的数据信息对应的至少一个所述数据检测规则的标准化语言;
基于至少一个所述数据库的数据信息对应的至少一个所述数据检测规则的标准化语言,生成至少一个所述数据库的数据信息对应的检测结果。
5.根据权利要求3所述数据处理方法,其特征在于,所述告警方式包括弱告警和强告警,所述根据至少一个所述数据库的数据信息对应的检测结果,确定至少一个所述数据库的数据信息对应的告警方式之后,还包括:
对至少一个所述数据库的数据信息对应的检测结果和所述告警方式预设条件进行比对,确定所述告警方式;
在所述告警方式为弱告警时,将至少一个所述数据库的数据信息对应的检测结果发送给所有配置用户;
在所述告警方式为强告警时,基于预设多个告警人的配置次序,依次对所述告警人进行电话通知。
6.根据权利要求3所述数据处理方法,其特征在于,所述数据检测任务包括定时数据检测任务和工作流触发数据检测任务:
在所述预设数据检测任务的调度方式为定时调度时,所述预设数据检测任务为定时数据检测任务,所述定时数据检测任务的触发条件为设置的时间;
在所述预设数据检测任务的调度方式为工作流触发时,所述预设数据检测任务为工作流触发数据检测任务,所述工作流触发数据检测任务的触发条件为上游任务的检测结果。
7.根据权利要求3所述数据处理方法,其特征在于:
所述数据质量标准包括通用质量标准和自定义质量标准;
所述预设数据检测规则是采用SQL语言对所述通用质量标准和自定义质量标准的标准化映射,所述预设数据检测规则是对数据检测对象是否符合数据检测目标的标准化描述。
8.一种数据处理装置,其特征在于,包括:
任务生成模块,用于接收用户输入的任务指令,基于所述任务指令配置对应的数据检测任务;
调用模块,用于基于所述数据检测任务调用所述数据检测任务对应的至少一个数据源;
获取模块,用于基于至少一个所述数据源,获取对应的至少一个数据库的数据信息;
检测模块,用于基于所述数据检测任务对应的数据检测规则,对至少一个所述数据库的数据信息进行数据质量检测,得到至少一个所述数据库的数据信息对应的检测结果;
告警模块,用于根据至少一个所述数据库的数据信息对应的检测结果,确定至少一个所述数据库的数据信息对应的告警方式。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。
10.一种可读存储介质,所述可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
CN202410100978.9A 2024-01-24 2024-01-24 数据处理方法、装置、电子设备及可读存储介质 Pending CN118035217A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410100978.9A CN118035217A (zh) 2024-01-24 2024-01-24 数据处理方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410100978.9A CN118035217A (zh) 2024-01-24 2024-01-24 数据处理方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN118035217A true CN118035217A (zh) 2024-05-14

Family

ID=90992397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410100978.9A Pending CN118035217A (zh) 2024-01-24 2024-01-24 数据处理方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN118035217A (zh)

Similar Documents

Publication Publication Date Title
US11886464B1 (en) Triage model in service monitoring system
US10942960B2 (en) Automatic triage model execution in machine data driven monitoring automation apparatus with visualization
US11539578B2 (en) Generating actionable alert messages for resolving incidents in an information technology environment
US11362912B2 (en) Support ticket platform for improving network infrastructures
CN111190888A (zh) 一种管理图数据库集群的方法和装置
CN110737726B (zh) 一种确定待测试接口的测试数据的方法和装置
CN113839977A (zh) 消息推送方法、装置、计算机设备及存储介质
CN112445860B (zh) 一种处理分布式事务的方法和装置
CN114153703A (zh) 微服务的异常定位方法、装置、电子设备和程序产品
CN110866031B (zh) 数据库访问路径的优化方法、装置、计算设备以及介质
CN115705190A (zh) 依赖程度的确定方法及装置
CN112954056A (zh) 监控数据处理方法、装置、电子设备及存储介质
CN112860538B (zh) 基于线上日志进行接口回归测试的方法和装置
CN112084114B (zh) 用于测试接口的方法和装置
CN118035217A (zh) 数据处理方法、装置、电子设备及可读存储介质
CN115187364A (zh) 银行分布式场景下保证金风险监控的方法及装置
CN113434382A (zh) 数据库性能监控方法、装置、电子设备及计算机可读介质
CN113760874A (zh) 数据质量检测的方法、装置、电子设备和存储介质
CN113762910A (zh) 一种单据监控方法和装置
CN112860770A (zh) 报表生成的方法、装置、电子设备和存储介质
CN113094268B (zh) 测试方法、装置、设备和介质
CN114089712B (zh) 一种数据处理方法和装置
CN112732471B (zh) 接口返回数据的纠错方法和纠错装置
CN116401138B (zh) 操作系统的运行状态检测方法、装置、电子设备和介质
CN117573478A (zh) 性能监控方法、装置、设备、介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination