CN112232881A - 一种数据检测方法、装置、电子设备及存储介质 - Google Patents
一种数据检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112232881A CN112232881A CN202011140085.5A CN202011140085A CN112232881A CN 112232881 A CN112232881 A CN 112232881A CN 202011140085 A CN202011140085 A CN 202011140085A CN 112232881 A CN112232881 A CN 112232881A
- Authority
- CN
- China
- Prior art keywords
- data
- detection
- detected
- protocol
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Databases & Information Systems (AREA)
- Game Theory and Decision Science (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及计算机技术领域,具体是一种数据检测方法、装置、电子设备及存储介质,所述方法包括:实时获取各个数据上报端发送的待检测数据,确定所述待检测数据对应的数据协议及协议标识;根据所述数据协议对所述待检测数据进行解析处理,生成解析结果数据;基于所述协议标识,从预设检测规则库中获取与所述数据协议对应的数据检测模板,所述数据检测模板包括预设的模板数据以及对应的检测规则;根据所述检测规则对所述解析结果数据和所述模板数据进行比对,根据比对结果确定所述待检测数据的检测结果,所述检测结果用于指示所述待检测数据检测通过或者检测不通过。本发明的数据检测方法能够提高数据检测效率和检测数据的准确性。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种数据检测方法、装置、电子设备及存储介质。
背景技术
随着信息技术的发展和大数据时代的到来,数据信息朝着海量、多样化的方向发展,数据质量日益受到各企业以及政府部门的重视。其中,如何对数据质量进行灵活、准确、高效的检测是一个非常值得关注的研究方向。
互联网广告(以下简称广告)作为在互联网进行信息推广的典型技术,已经成为用户获取信息、以及广告主提升知名度和宣传产品的重要途径,包括网页广告、视频广告和应用内广告等几种典型的广告形式。用户对广告进行操作会生成点击数据、曝光数据和转化数据(包括应用下载数据、公众号关注数据)等广告数据,这些广告数据具有多源上报、传输方式各异以及数据校验点庞大的特点。
目前,对广告数据质量的检测,主要有两种方案,第一种是在数据上报源处进行数据检测,由于广告数据具有多个上报源,不同上报源获取到的数据具有不同的数据格式,因此需要设计不同的检测方法以适配不同的上报源,检测成本高,操作复杂。第二种是在数据落地处进行测试,由于广告数据出库落地耗时较长,不是实时的,因此这种方案对广告数据的检测也不是实时进行的。对于数据检测,现有方案需要通过人工逐条校验所有数据点,需要耗费大量人力成本,并且容易出现误检漏检的情况,数据检测效率和检测数据的准确性难以得到保证。
发明内容
针对现有技术的上述问题,本发明的目的在于提供一种数据检测方法、装置、电子设备及存储介质,能够提高数据检测效率和检测数据的准确性。
为了解决上述问题,本发明一方面提供一种数据检测方法,包括:
实时获取各个数据上报端发送的待检测数据,确定所述待检测数据对应的数据协议及协议标识;
根据所述数据协议对所述待检测数据进行解析处理,生成解析结果数据;
基于所述协议标识,从预设检测规则库中获取与所述数据协议对应的数据检测模板,所述数据检测模板包括预设的模板数据以及对应的检测规则;
根据所述检测规则对所述解析结果数据和所述模板数据进行比对,根据比对结果确定所述待检测数据的检测结果,所述检测结果用于指示所述待检测数据检测通过或者检测不通过。
本发明另一方面提供一种数据检测装置,包括:
第一获取模块,用于实时获取各个数据上报端发送的待检测数据,确定所述待检测数据对应的数据协议及协议标识;
解析模块,用于根据所述数据协议对所述待检测数据进行解析处理,生成解析结果数据;
第二获取模块,用于基于所述协议标识,从预设检测规则库中获取与所述数据协议对应的数据检测模板,所述数据检测模板包括预设的模板数据以及对应的检测规则;
检测模块,用于根据所述检测规则对所述解析结果数据和所述模板数据进行比对,根据比对结果确定所述待检测数据的检测结果,所述检测结果用于指示所述待检测数据检测通过或者检测不通过。
本发明另一方面提供一种电子设备,包括处理器和存储器,所述存储器中存储有至少一条指令或者至少一段程序,所述至少一条指令或者所述至少一段程序由所述处理器加载并执行以实现上述的数据检测方法。
本发明另一方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或者至少一段程序,所述至少一条指令或者所述至少一段程序由处理器加载并执行以实现如上述的数据检测方法。
本发明另一方面提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的数据检测方法。
由于上述技术方案,本发明具有以下有益效果:
本发明的数据检测方法,对各个数据上报端发送的待检测数据,在数据出库落地之前,基于所述待检测数据对应的数据协议对所述待检测数据进行解析,以及基于规则库中对应的模板数据及检测规则,对所述待检测数据进行实时检测,符合检测规则的数据检测通过,不符合检测规则的数据检测不通过,能够对各个数据上报端发送的数据进行实时监控及分析,提高数据检测效率和检测数据的准确性,同时降低数据检测的成本。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明一个实施例提供的实施环境示意图;
图2是本发明一个实施例提供的广告数据检测场景的系统架构图;
图3是本发明一个实施例提供的数据检测方法的流程图;
图4是本发明一个实施例提供的利用改进的实时流数据处理进行数据检测的流程图;
图5是本发明一个实施例提供的改进的实时流数据处理的体系架构图;
图6是本发明另一个实施例提供的数据检测方法的流程图;
图7是本发明一个实施例提供的数据展示界面示意图;
图8是本发明另一个实施例提供的数据检测方法的流程图;
图9是本发明一个实施例提供的数据检测装置的结构示意图;
图10是本发明一个实施例提供的服务器的结构示意图。
具体实施方式
大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。具体地,本发明实施例提供的数据检测方法涉及大数据领域的数据挖掘、分布式数据库技术等。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,本发明实施例对下述概念进行解释:
大数据采集交换平台tdbank:主要负责数据的实时采集,分发以及配置管理工作,旨在统一数据入口,对外提供多样的数据接入方式,以及高效实时地分发数据。
java:一种由Sun公司于1995年5月推出的面向对象的程序设计语言。
测试数据池tpg:一种用来做大数据处理平台运算结果展示及小数据量分析的数据库。
Json:一种轻量级的数据交换格式,它采用完全独立于编程语言的文本格式来存储和表示数据。
控制器driver:是实时流数据处理的管理者,通过driver来启动接收器receiver,定时去启动任务的处理。
hbase:一个分布式的、面向列的开源数据库。
参考说明书附图1,其示出了本发明一个实施例提供的一种实施环境示意图。该实施环境可以包括至少一个数据上报端110和服务器端120。所述数据上报端110和所述服务器端120可以通过有线或无线通信方式进行直接或间接地连接,本发明实施例对此不做限制。具体地,所述服务器端120可对所述数据上报端110提供的数据进行数据接入。
所述数据上报端110可以包括智能手机、平板电脑、笔记本电脑、台式计算机、数字助理、智能音箱、智能可穿戴设备、车载终端、服务器等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等,但并不局限于此。本发明实施例中的数据上报端110上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。
所述服务器端120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在实际应用中,所述数据上报端110可以实时采集产生的业务数据,将所述业务数据上报至所述服务器端120,所述服务器端120可以采用本发明实施例提供的方法对所述业务数据进行实时的精准测试。
需要说明的是,图1仅仅是一种示例。
本发明实施例提供的方法可以应用于各个平台的数据检测场景中,如广告数据检测场景,可以在新产生的广告数据出库落地之前,对广告数据进行实时检测及数据分析,达到降低数据检测人力成本、提高数据检测的准确性的目的。
示例性地,如图2所示,其示出了本发明一个实施例提供的广告数据检测场景的系统架构,所述系统可以包括多个数据上报服务器210、大数据采集交换平台220和数据检测服务器230,所述数据上报服务器210可以包括广告业务服务器211、客户端服务器212和合作方服务器213。
用户对广告进行操作,会生成以下数据:点击数据、曝光数据、行为数据、转化数据和回传数据等,其中转化数据包括应用下载数据、公众号关注数据等。所述广告业务服务器211可以用于采集并上报点击数据、曝光数据和行为数据至所述大数据采集交换平台220,所述客户端服务器212可以用于采集并上报转化数据至所述大数据采集交换平台220,所述合作方服务器213可以用于采集并上报回传数据至所述大数据采集交换平台220,所述数据检测服务器230可以用于对所述大数据采集交换平台220接收到的数据进行实时检测,自动检测单条数据上报是否准确,将检测通过的数据写入测试数据池;同时对数据进行聚合分析,多维度分析数据是否有漏报。
参考说明书附图3,其示出了本发明一个实施例提供的一种数据检测方法的流程,该方法可以应用于图1中的服务器端,具体的如图3所示,所述方法可以包括以下步骤:
S310:实时获取各个数据上报端发送的待检测数据,确定所述待检测数据对应的数据协议及协议标识。
本发明实施例中,所述待检测数据为各个所述数据上报端采集得到,各个所述数据上报端采集到新的数据后,可以根据预先定义的数据协议对所述数据进行上报,因此各个所述数据上报端发送的待检测数据均对应一个数据协议。具体地,所述数据上报端可以根据所述数据协议确定上报数据的数据格式,将采集到的数据按照这种数据格式进行上报。
本发明实施例中,可以预先定义多种数据协议,不同的数据上报端可以根据不同的数据协议上报数据,因此不同的数据上报端发送的待检测数据的数据格式也就可能不同。示例性地,在广告数据中,点击数据和曝光数据是通过广告业务服务器上报到大数据采集交换平台tdbank,数据格式是Json;转化数据是通过客户端服务器上报到tdbank,数据格式是类似一维数组。
现有技术的实时流数据处理sparkstreaming的原理是:由接收器receiver接收一条一条的实时数据,再按照配置的时间间隔对实时数据切片,生成弹性分布式数据集(resilient distributed dataset,rdd)序列,最后控制器driver对每个rdd进行操作,但无法真正的做到实时处理,且使用rdd与开源数据库hbase进行交互,在时间分片结束时会有瞬时峰值。
在实际应用中,可以通过改造receiver来改进实时流数据处理,使得receiver接收到数据后立即处理,通过定制receiver,用户可以在进程函数(process函数)中开发对数据的实时处理逻辑,在process函数中对数据的处理就是纯实时进行的。在一个示例中,结合参考说明书附图4,数据检测服务器接收到待检测数据流后,可以利用改进的实时流数据处理,结合预设检测规则库对所述待检测数据流中的每个数据进行并行处理,得到各个数据的检测结果。其中,所述预设检测规则库为根据待检测数据的数据协议定义的符合相应要求或规范的规则库,所述预设检测规则库中存储有多个数据检测模板,所述数据检测模板与所述数据协议一一对应,所述数据检测模板包括预设的模板数据以及对应的检测规则。
具体地,结合参考说明书附图5,所述改进的实时流数据处理可以在接收器中定义队列消费者和消息处理类:
队列消费者TubeConsumer:负责从tdbank消费实时数据;
消息处理类MsgProcessor:其中processAndEmitStoreData(msg)是一个用户自定义的消息处理函数,TubeConsumer接收到一条数据以后会调用该函数对数据进行处理。具体地,所述消息处理函数可以执行利用附图3中步骤S320-步骤S340所示的方法进行数据检测的操作,还可以实现数据发送、数据库读写、数据存储和实时数据监控等功能。
S320:根据所述数据协议对所述待检测数据进行解析处理,生成解析结果数据。
本发明实施例中,由于各个数据上报端是根据预先定义的数据协议上报数据的,因此只需要确定所述待检测数据对应的数据协议,即可根据该数据协议对所述待检测数据进行解析,得到解析后的数据。
在一个可能的实施例中,所述根据所述数据协议对所述待检测数据进行解析处理,生成解析结果数据可以包括:
根据所述数据协议确定与之对应的数据处理类,所述数据处理类包含用于利用所述数据协议进行数据解析的逻辑;
利用反射机制对所述数据处理类进行实例化,得到与所述数据协议对应的数据解析工具;
利用所述数据解析工具对所述待检测数据进行解析处理,生成所述解析结果数据。
本发明实施例中,在预先定义数据协议的同时,可以根据定义的数据协议编写对应的数据解析逻辑,并结合所述数据解析逻辑生成对应的数据处理类。示例性地,可以通过proto文件编写对应的数据解析逻辑,再通过对应的编译器预编译java类,得到所述数据处理类。生成所述数据处理类后,可以利用表格等形式存储所述数据协议与所述数据处理类的对应关系,得到对应关系表。在获取到待检测数据之后,可以根据所述待检测数据对应的数据协议从所述对应关系表中确定与之对应的数据处理类。
在实际应用中,实例化即为创建对象的过程,反射机制是一种在运行时动态获取以及动态调用信息(包括类的属性和方法、对象的方法等)的方法。在确定所述数据处理类之后,可以通过反射机制使用Class类的newInstance方法来创建所述数据处理类的对象(事实上,这个newInstance方法调用无参的构造器创建对象),作为数据解析工具,所述数据解析工具利用反射机制可以调用所述数据处理类中的利用所述数据协议进行数据解析的逻辑来对所述待检测数据进行解析处理,得到所述解析结果数据。
本发明实施例中,由于各个数据上报端上报的待检测数据是序列化后的数据(即是一串字符串),因此需要使用所述数据解析工具对所述待检测数据进行解析处理,确定所述待检测数据中的字符表示的字段及对应的字段信息,即所述解析结果数据可以包括多个字段及对应的字段信息。
S330:基于所述协议标识,从预设检测规则库中获取与所述数据协议对应的数据检测模板,所述数据检测模板包括预设的模板数据以及对应的检测规则。
本发明实施例中,所述预设检测规则库为根据待检测数据的数据协议定义的符合相应要求或规范的规则库,所述预设检测规则库中存储有多个数据检测模板,所述数据检测模板与所述数据协议一一对应,所述数据检测模板包括预设的模板数据以及对应的检测规则。在预先定义数据协议的同时,还可以根据所述数据协议预先定义对应的检测规则,以及预先定义对应的模板数据,所述模板数据为预先确定的上报数据的值或者范围,所述检测规则为对所述解析结果数据和所述模板数据进行比对的规则。
S340:根据所述检测规则对所述解析结果数据和所述模板数据进行比对,根据比对结果确定所述待检测数据的检测结果,所述检测结果用于指示所述待检测数据检测通过或者检测不通过。
本发明实施例中,所述模板数据可以包括多个字段及对应的字段信息,所述模板数据和所述解析结果数据的各个字段的数据类型均相同,数据检测的重点就是验证数据的准确性,可以通过将所述解析结果数据和所述模板数据的各个字段进行对比,最终确定上报的数据的准确性。
在一个可能的实施例中,所述根据所述检测规则对所述解析结果数据和所述模板数据进行比对,根据比对结果确定所述待检测数据的检测结果可以包括:
针对所述多个字段中的每个字段,确定所述解析结果数据中所述字段的第一字段信息和所述模板数据中所述字段的第二字段信息;
判断各个所述字段的第一字段信息和第二字段信息之间是否符合所述检测规则;
根据判断结果确定所述待检测数据的检测结果,所述检测结果用于指示所述待检测数据检测通过或者检测不通过。
其中,所述根据判断结果确定所述待检测数据的检测结果可以包括:
若各个所述字段的第一字段信息和第二字段信息之间均符合所述检测规则,则确定所述待检测数据检测通过;
若存在至少一个字段的第一字段信息和第二字段信息之间不符合所述检测规则,则确定所述待检测数据检测不通过。
具体地,针对所述多个字段中的每个字段,可以先获取所述字段的字段标识,再获取所述解析结果数据中与所述字段标识对应的字段信息,作为第一字段信息,获取所述模板数据中与所述字段标识对应的字段信息,作为第二字段信息。其中,所述第二字段信息是在定义数据检测模板时设置的,所述第二字段信息可以为一个值或者一个取值范围。
具体地,所述检测规则包括各个字段各自对应的规则,所述判断各个所述字段的第一字段信息和第二字段信息之间是否符合所述检测规则,可以针对整型/字符串类型的数据进行判断,对不同的字段由于对应规则的不同可以采用不同的判断方法,包括判断第一字段信息和第二字段信息是否相等,判断第一字段信息和第二字段信息的大小,或者判断第一字段信息是否属于第二字段信息所表示的取值范围内等等,还可以判断重要字段的数据是否缺失。如果所述解析结果数据和所述模板数据中所有字段的第一字段信息和第二字段信息之间均符合对应的规则,则可以判定所述待检测数据检测通过。
示例性地,假设某个字段为客户端版本,所述字段在解析结果数据中的第一字段信息为3(表示客户端版本为客户端3.0版),在模板数据中的第二字段信息为0,校验规则为解析结果数据的客户端版本需要大于或者等于模板数据的客户端版本,由于第一字段信息3大于所述第二字段信息0,则可以判定所述解析结果数据和所述模板数据中的客户端版本信息符合所述校验规则。
在一个可能的实施例中,所述实时获取各个数据上报端发送的待检测数据,确定所述待检测数据对应的数据协议及协议标识之后,还可以包括:
检测所述数据协议是否有更新;
若所述数据协议有更新,则基于所述协议标识从所述预设检测规则库中获取与所述数据协议对应的数据检测模板;
根据所述数据协议更新所述数据检测模板中的模板数据以及对应的检测规则。
具体地,当所述待检测数据对应的数据协议有更新时,可以相应地更新所述预设检测规则库中对应的数据检测模板,包括更新所述数据检测模板中的模板数据以及对应的检测规则。同时,还可以相应地更新利用所述数据协议进行数据解析的逻辑,进而更新所述数据协议对应的数据处理类。
在一个可能的实施例中,用户还可以添加新的数据协议,在添加新的数据协议的同时还需要创建对应的数据处理类,以及在所述预设检测规则库中添加对应的数据检测模板,包括添加模板数据以及对应的检测规则。
在一个可能的实施例中,结合参考说明书附图6,所述根据所述检测规则对所述解析结果数据和所述模板数据进行比对,根据比对结果确定所述待检测数据的检测结果之后,还可以包括步骤:
S350:若所述待检测数据检测通过,则将所述检测结果和所述待检测数据进行组装,生成预设格式的待存储数据,将所述待存储数据存储至测试数据池中。
S360:若所述待检测数据检测不通过,则通过第一预设方式发出告警通知。
具体地,如果所述待检测数据检测通过,说明所述待检测数据是准确的,可以将所述待检测数据和所述检测结果进行组装后存储至测试数据池tpg中。其中,所述预设格式的待存储数据包括消息(msg)字段和检测结果(checkresult)字段,可以将所述待检测数据存入msg字段中,将所述检测结果存入checkresult字段中。
具体地,所述第一预设方式可以包括短信和/或邮件等方式,如果所述待检测数据检测不通过,则可以通过短信和/或邮件等形式通知用户上报数据不准确。
在一个可能的实施例中,当获取到所述待检测数据的检测结果后,可以对所述解析结果数据、所述模板数据和/或所述比对结果进行展示,方便用户根据所述比对结果对上报的数据进行分析,对数据链路问题进行排查。示例性地,可以通过如图7所示的界面展示所述解析结果数据、所述模板数据以及所述比对结果。
在一个可能的实施例中,还可以从测试数据池中读取数据并通过指定页面进行展示,也可以针对各项指标对数据进行筛选,并展示筛选后的数据,方便用户对上报的数据进行查看,所述指标可以包括上报时间、协议标识、用户标识和广告标识等信息。
在一个可能的实施例中,结合参考说明书附图8,所述方法还可以包括以下步骤:
S810:响应于数据分析指令,从所述测试数据池中获取满足一个或者多个筛选条件的目标数据。
S820:对所述目标数据进行聚合分析,根据分析结果生成分析报告并展示。
S830:根据所述分析报告确定是否存在遗漏的数据,若存在遗漏的数据,则通过第二预设方式发出告警通知。
本发明实施例中,可以根据用户的数据分析指令,针对所述数据分析指令中的一个或者多个筛选条件对所述测试数据池中的数据进行筛选,对筛选后的数据进行聚合分析,多维度分析数据是否有漏报。其中,所述筛选条件可以包括上报时间、协议标识、用户标识和广告标识等,也可以包括手机系统、网络情况和版本信息等。
本发明实施例中,所述对所述目标数据进行聚合分析可以包括对筛选后的数据进行分类,并通过个数统计函数对不同分类的数据进行统计,得到各个分类数据的数据量。其中,对筛选后的数据进行分类的依据可以为协议标识、手机系统、网络情况和版本信息等。可以根据各个分类数据的数据量确定是否存在遗漏的数据。例如,可以判断各个分类数据的数据量是否大于预设阈值,如果各个分类数据的数据量均大于或等于预设阈值,则可以判定不存在遗漏的数据;如果某个分类数据的数据量小于预设阈值,则可以判定存在遗漏的数据,此时可以通过第二预设方式发出告警通知,所述第二预设方式可以包括短信和/或邮件等方式。
在一个示例中,可以通过时间/账号/系统来判断数据是否有漏报,例如筛选通过多个手机操作的数据,对筛选后的数据进行聚合分析得到不同手机操作系统不同数据协议对应的数据量,如果苹果操作系统(iphone Operating System,iOS)的某个数据协议没有数据(或者数据量异常低),则可以判定数据有漏报。
在一个可能的实施例中,还可以通过其他聚合分析方法对所述目标数据进行分析,例如通过聚合函数确定某字段的最大值、最小值,计算和、平均值等。根据分析结果生成分析报告后,还可以将所述分析报告通过指定界面展示给用户,用户可以通过所述分析报告发现数据上报过程中的问题。
综上所述,本发明的数据检测方法具有以下有益效果:
本发明的数据检测方法,对各个数据上报端发送的待检测数据,在数据出库落地之前,基于所述待检测数据对应的数据协议对所述待检测数据进行解析,以及基于规则库中对应的模板数据及检测规则,对所述待检测数据进行实时检测,符合检测规则的数据检测通过,不符合检测规则的数据检测不通过,能够对各个数据上报端发送的数据进行实时监控及分析,提高数据检测效率和检测数据的准确性,同时降低数据检测的成本。
参考说明书附图9,其示出了本发明一个实施例提供的一种数据检测装置的结构。如图9所示,所述装置可以包括:
第一获取模块910,用于实时获取各个数据上报端发送的待检测数据,确定所述待检测数据对应的数据协议及协议标识;
解析模块920,用于根据所述数据协议对所述待检测数据进行解析处理,生成解析结果数据;
第二获取模块930,用于基于所述协议标识,从预设检测规则库中获取与所述数据协议对应的数据检测模板,所述数据检测模板包括预设的模板数据以及对应的检测规则;
检测模块940,用于根据所述检测规则对所述解析结果数据和所述模板数据进行比对,根据比对结果确定所述待检测数据的检测结果,所述检测结果用于指示所述待检测数据检测通过或者检测不通过。
在一个可能的实施例中,所述装置还可以包括:
存储模块950,用于若所述待检测数据检测通过,则将所述检测结果和所述待检测数据进行组装,生成预设格式的待存储数据,将所述待存储数据存储至测试数据池中;
第一告警模块960,用于若所述待检测数据检测不通过,则通过第一预设方式发出告警通知。
在一个可能的实施例中,所述装置还可以包括:
筛选模块,用于响应于数据分析指令,从所述测试数据池中获取满足一个或者多个筛选条件的目标数据;
分析模块,用于对所述目标数据进行聚合分析,根据分析结果生成分析报告并展示;
第二告警模块,用于根据所述分析报告确定是否存在遗漏的数据,若存在遗漏的数据,则通过第二预设方式发出告警通知。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与相应方法实施例属于同一构思,其具体实现过程详见对应方法实施例,这里不再赘述。
本发明一个实施例还提供了一种电子设备,该电子设备包括处理器和存储器,该存储器中存储有至少一条指令或者至少一段程序,该至少一条指令或者该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的数据检测方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本发明实施例所提供的方法实施例可以在终端、服务器或者类似的运算装置中执行,即上述电子设备可以包括终端、服务器或者类似的运算装置。以运行在服务器上为例,如图10所示,其示出了本发明实施例提供的运行数据检测方法的服务器的结构示意图。该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Unit,CPU)1010(例如,一个或一个以上处理器)和存储器1030,一个或一个以上存储应用程序1023或数据1022的存储介质1020(例如一个或一个以上海量存储设备)。其中,存储器1030和存储介质1020可以是短暂存储或持久存储。存储在存储介质1020的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1010可以设置为与存储介质1020通信,在服务器1000上执行存储介质1020中的一系列指令操作。服务器1000还可以包括一个或一个以上电源1060,一个或一个以上有线或无线网络接口1050,一个或一个以上输入输出接口1040,和/或,一个或一个以上操作系统1021,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口1040可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1000的通信供应商提供的无线网络。在一个实例中,输入输出接口1040包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口1040可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯,所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobilecommunication,GSM)、通用分组无线服务(General Packet Radio Service,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code DivisionMultiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
本领域普通技术人员可以理解,图10所示的结构仅为示意,服务器1000还可包括比图10中所示更多或者更少的组件,或者具有与图10所示不同的配置。
本发明一个实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质可设置于电子设备之中以保存用于实现一种数据检测方法相关的至少一条指令或者至少一段程序,该至少一条指令或者该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的数据检测方法。
可选地,在本发明实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本发明一个实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现例中提供的数据检测方法。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种数据检测方法,其特征在于,包括:
实时获取各个数据上报端发送的待检测数据,确定所述待检测数据对应的数据协议及协议标识;
根据所述数据协议对所述待检测数据进行解析处理,生成解析结果数据;
基于所述协议标识,从预设检测规则库中获取与所述数据协议对应的数据检测模板,所述数据检测模板包括预设的模板数据以及对应的检测规则;
根据所述检测规则对所述解析结果数据和所述模板数据进行比对,根据比对结果确定所述待检测数据的检测结果,所述检测结果用于指示所述待检测数据检测通过或者检测不通过。
2.根据权利要求1所述的方法,其特征在于,所述根据所述检测规则对所述解析结果数据和所述模板数据进行比对,根据比对结果确定所述待检测数据的检测结果之后,还包括:
若所述待检测数据检测通过,则将所述检测结果和所述待检测数据进行组装,生成预设格式的待存储数据,将所述待存储数据存储至测试数据池中;
若所述待检测数据检测不通过,则通过第一预设方式发出告警通知。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
响应于数据分析指令,从所述测试数据池中获取满足一个或者多个筛选条件的目标数据;
对所述目标数据进行聚合分析,根据分析结果生成分析报告并展示;
根据所述分析报告确定是否存在遗漏的数据,若存在遗漏的数据,则通过第二预设方式发出告警通知。
4.根据权利要求1、2或3所述的方法,其特征在于,所述模板数据包括多个字段;
所述根据所述检测规则对所述解析结果数据和所述模板数据进行比对,根据比对结果确定所述待检测数据的检测结果包括:
针对所述多个字段中的每个字段,确定所述解析结果数据中所述字段的第一字段信息和所述模板数据中所述字段的第二字段信息;
判断各个所述字段的第一字段信息和第二字段信息之间是否符合所述检测规则;
根据判断结果确定所述待检测数据的检测结果,所述检测结果用于指示所述待检测数据检测通过或者检测不通过。
5.根据权利要求4所述的方法,其特征在于,所述根据判断结果确定所述待检测数据的检测结果包括:
若各个所述字段的第一字段信息和第二字段信息之间均符合所述检测规则,则确定所述待检测数据检测通过;
若存在至少一个字段的第一字段信息和第二字段信息之间不符合所述检测规则,则确定所述待检测数据检测不通过。
6.根据权利要求1、2或3所述的方法,其特征在于,所述根据所述数据协议对所述待检测数据进行解析处理,生成解析结果数据包括:
根据所述数据协议确定与之对应的数据处理类,所述数据处理类包含用于利用所述数据协议进行数据解析的逻辑;
利用反射机制对所述数据处理类进行实例化,得到与所述数据协议对应的数据解析工具;
利用所述数据解析工具对所述待检测数据进行解析处理,生成所述解析结果数据。
7.根据权利要求1、2或3所述的方法,其特征在于,所述实时获取各个数据上报端发送的待检测数据,确定所述待检测数据对应的数据协议及协议标识之后,还包括:
检测所述数据协议是否有更新;
若所述数据协议有更新,则基于所述协议标识从所述预设检测规则库中获取与所述数据协议对应的数据检测模板;
根据所述数据协议更新所述数据检测模板中的模板数据以及对应的检测规则。
8.一种数据检测装置,其特征在于,包括:
第一获取模块,用于实时获取各个数据上报端发送的待检测数据,确定所述待检测数据对应的数据协议及协议标识;
解析模块,用于根据所述数据协议对所述待检测数据进行解析处理,生成解析结果数据;
第二获取模块,用于基于所述协议标识,从预设检测规则库中获取与所述数据协议对应的数据检测模板,所述数据检测模板包括预设的模板数据以及对应的检测规则;
检测模块,用于根据所述检测规则对所述解析结果数据和所述模板数据进行比对,根据比对结果确定所述待检测数据的检测结果,所述检测结果用于指示所述待检测数据检测通过或者检测不通过。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1-7任意一项所述的数据检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1-7任意一项所述的数据检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011140085.5A CN112232881A (zh) | 2020-10-22 | 2020-10-22 | 一种数据检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011140085.5A CN112232881A (zh) | 2020-10-22 | 2020-10-22 | 一种数据检测方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112232881A true CN112232881A (zh) | 2021-01-15 |
Family
ID=74109969
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011140085.5A Pending CN112232881A (zh) | 2020-10-22 | 2020-10-22 | 一种数据检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112232881A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732763A (zh) * | 2021-01-20 | 2021-04-30 | 北京千方科技股份有限公司 | 数据的聚合方法、装置、电子设备及介质 |
CN113254357A (zh) * | 2021-07-19 | 2021-08-13 | 国网汇通金财(北京)信息科技有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN114928663A (zh) * | 2022-06-02 | 2022-08-19 | 蜂助手股份有限公司 | 一种识别回调报文的方法及装置 |
CN116910757A (zh) * | 2023-09-13 | 2023-10-20 | 北京安天网络安全技术有限公司 | 一种多进程检测系统、电子设备及存储介质 |
WO2024020898A1 (zh) * | 2022-07-27 | 2024-02-01 | 西门子股份公司 | 数据检错方法、装置、电子设备及存储介质 |
-
2020
- 2020-10-22 CN CN202011140085.5A patent/CN112232881A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732763A (zh) * | 2021-01-20 | 2021-04-30 | 北京千方科技股份有限公司 | 数据的聚合方法、装置、电子设备及介质 |
CN113254357A (zh) * | 2021-07-19 | 2021-08-13 | 国网汇通金财(北京)信息科技有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN114928663A (zh) * | 2022-06-02 | 2022-08-19 | 蜂助手股份有限公司 | 一种识别回调报文的方法及装置 |
WO2024020898A1 (zh) * | 2022-07-27 | 2024-02-01 | 西门子股份公司 | 数据检错方法、装置、电子设备及存储介质 |
CN116910757A (zh) * | 2023-09-13 | 2023-10-20 | 北京安天网络安全技术有限公司 | 一种多进程检测系统、电子设备及存储介质 |
CN116910757B (zh) * | 2023-09-13 | 2023-11-17 | 北京安天网络安全技术有限公司 | 一种多进程检测系统、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112232881A (zh) | 一种数据检测方法、装置、电子设备及存储介质 | |
CN110347716B (zh) | 日志数据处理方法、装置、终端设备及存储介质 | |
WO2017101606A1 (zh) | 一种数据采集分析系统和方法 | |
US8676965B2 (en) | Tracking high-level network transactions | |
CN107957940B (zh) | 一种测试日志处理方法、系统及终端 | |
CN109684052B (zh) | 事务分析方法、装置、设备及存储介质 | |
CN113987074A (zh) | 分布式服务全链路监控方法、装置、电子设备及存储介质 | |
US11347851B2 (en) | System and method for file artifact metadata collection and analysis | |
CN114490268A (zh) | 全链路监控方法、装置、设备、存储介质和程序产品 | |
CN112181767B (zh) | 软件系统异常的确定方法、装置和存储介质 | |
CN111431926B (zh) | 一种数据关联分析的方法、系统、设备及可读存储介质 | |
CN114817968B (zh) | 无特征数据的路径追溯方法、装置、设备及存储介质 | |
CN112162965A (zh) | 一种日志数据处理的方法、装置、计算机设备及存储介质 | |
CN113596078B (zh) | 业务问题定位方法及装置 | |
CN114124861A (zh) | 消息群发方法、装置、计算机设备和存储介质 | |
CN112527600A (zh) | 监控日志处理方法、装置、设备及存储介质 | |
CN112241362A (zh) | 一种测试方法、装置、服务器及存储介质 | |
CN105553770B (zh) | 一种数据采集控制方法和装置 | |
CN110807050B (zh) | 性能分析方法、装置、计算机设备及存储介质 | |
CN108111328B (zh) | 一种异常处理方法及装置 | |
CN109559121A (zh) | 交易路径调用异常分析方法、装置、设备及可读存储介质 | |
CN111431733B (zh) | 服务告警覆盖信息的评估方法及装置 | |
CN112612679A (zh) | 系统运行状态监控方法、装置、计算机设备和存储介质 | |
CN111191103A (zh) | 从互联网中识别分析企业主体信息方法、装置及存储介质 | |
WO2023092981A1 (zh) | 流式数据处理方法、规则插件、流式数据处理模块及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |