CN107133124A - 一种不合规数据的修复方法、数据处理设备及存储介质 - Google Patents

一种不合规数据的修复方法、数据处理设备及存储介质 Download PDF

Info

Publication number
CN107133124A
CN107133124A CN201710294875.0A CN201710294875A CN107133124A CN 107133124 A CN107133124 A CN 107133124A CN 201710294875 A CN201710294875 A CN 201710294875A CN 107133124 A CN107133124 A CN 107133124A
Authority
CN
China
Prior art keywords
data
rule
conform
reparation
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710294875.0A
Other languages
English (en)
Inventor
林浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nubia Technology Co Ltd
Original Assignee
Nubia Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nubia Technology Co Ltd filed Critical Nubia Technology Co Ltd
Priority to CN201710294875.0A priority Critical patent/CN107133124A/zh
Publication of CN107133124A publication Critical patent/CN107133124A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1471Saving, restoring, recovering or retrying involving logging of persistent data for recovery

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供一种不合规数据的修复方法、数据处理设备及存储介质。所述方法包括:接收数据采集端采集的数据;根据所述数据中的不合规数据,判断所述采集端是否埋点错误;如果埋点错误,则设置数据修复规则;根据所述数据修复规则,修复所述数据中的不合规数据。本发明在接收到数据采集端采集的数据之后,对数据进行合规性校验,筛选出不合规数据并进行分析,如果发现不合规数据是因为数据采集端埋点错误导致的,则设置数据修复规则,利用数据修复规则对不合格数据进行自动修复,有效回收已经得到修复的不合规数据,将已经得到修复的不合规数据作为合规数据进行存储,并且作为数据处理和数据分析的基础数据,使不合规数据得到有效利用。

Description

一种不合规数据的修复方法、数据处理设备及存储介质
技术领域
本发明涉及电子技术领域,尤其涉及一种不合规数据的修复方法、数据处理设备及存储介质。
背景技术
在数据统计分析领域中需要大量的基础数据,目前,可以在移动终端中安装SDK(Software Development Kit,软件开发工具包),将SDK作为数据采集端来采集数据,对SDK采集的数据进行数据处理之后,可以进行统计分析。
在数据处理阶段,需要对数据进行合法性校验。合法性校验是指判断数据是否符合预设条件,例如:判断数据采集端采集的数据是否为预设时间段内产生的数据;对于符合预设条件的数据,认定为是合规数据,对于不符合预设条件的数据,认定为是不合规数据。对于校验通过的合规数据可以进行后续的数据处理,对于校验未通过的不合规数据则舍弃。然而,对于合法性校验未通过的不合规数据,有时只是因为数据采集端埋点错误导致的某一个或某几个字段错误或者缺失造成的,而这些字段的值在当前场景下是可知的。
在现有技术中,因埋点错误被认定为不合规数据的数据不能被回收利用,这部分不合规数据往往会为后续的数据处理带来以下问题:
(1)数据被大量废弃。由于数据采集端通常是移动终端中安装的SDK,某一版本的SDK一旦发布,即便发现埋点错误,也难以回收因埋点错误造成的不合规数据,即使后续修复该埋点错误的问题,也无法挽救已经发布的SDK已经造成的问题。
(2)持续影响统计结果。由于问题(1)的原因,将进一步导致数据统计的计算结果不准确,而这往往是持续性的,如果无法修复这部分因埋点错误造成的不合规数据,将对计算结果产生巨大的消极影响。
发明内容
本发明的主要目的在于提出一种不合规数据的修复方法、数据处理设备及存储介质,旨在解决现有技术中,因埋点错误造成的不合规数据不能被有效回收利用的问题。
为实现上述发明目的,本发明采用下述的技术方案:
本发明提供了一种不合规数据的修复方法,所述方法包括:接收数据采集端采集的数据;根据所述数据中的不合规数据,判断所述采集端是否埋点错误;如果埋点错误,则设置数据修复规则;根据所述数据修复规则,修复所述数据中的不合规数据。
可选地,在所述接收数据采集端采集的数据之后,所述方法还包括:对数据采集端根据预设的埋点字段采集的数据进行合法性校验;将合法性校验未通过的数据作为不合规数据并存储,将合法性校验通过的数据作为合规数据并存储。
可选地,所述设置数据修复规则,包括:通过分析所述不合规数据,确定待修复字段;所述待修复字段包括:所述埋点字段中的缺失字段和/或错误字段;根据所述待修复字段,设置数据修复规则。
可选地,所述根据所述数据修复规则,修复所述数据中的不合规数据,包括:根据所述数据修复规则,将埋点错误造成的不合规数据修复为合规数据,并将修复出的合规数据与其他合规数据一同存储。
可选地,所述根据所述数据修复规则,修复所述数据中的不合规数据,包括:对已经存储的不合规数据进行分类;获取属于预设分类的不合规数据;根据所述数据修复规则,将埋点错误造成的不合规数据修复为合规数据,并将修复出的合规数据与其他合规数据一同存储。
本发明提供了一种数据处理设备,所述数据处理设备包括处理器、存储器;所述处理器用于执行存储器中存储的不合规数据的修复程序,以实现以下步骤:接收数据采集端采集的数据;根据所述数据中的不合规数据,判断所述采集端是否埋点错误;如果埋点错误,则设置数据修复规则;根据所述数据修复规则,修复所述数据中的不合规数据。
可选地,在所述接收数据采集端采集的数据之后,所述处理器还用于执行存储器中存储的不合规数据的修复程序,以实现以下步骤:对数据采集端根据预设的埋点字段采集的数据进行合法性校验;将合法性校验未通过的数据作为不合规数据并存储,将合法性校验通过的数据作为合规数据并存储。
可选地,所述处理器还用于执行存储器中存储的不合规数据的修复程序,以实现以下步骤:通过分析所述不合规数据,确定待修复字段;所述待修复字段包括:所述埋点字段中的缺失字段和/或错误字段;根据所述待修复字段,设置数据修复规则。
可选地,所述处理器还用于执行存储器中存储的不合规数据的修复程序,以实现以下步骤:根据所述数据修复规则,将埋点错误造成的不合规数据修复为合规数据,并将修复出的合规数据与其他合规数据一同存储。
本发明提供了一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述的不合规数据的修复方法。
本发明所提出的不合规数据的修复方法、数据处理设备及存储介质具有如下有益效果:
本发明在移动终端中设置数据采集端,该数据采集端根据预设的埋点字段采集数据;该数据采集端通过移动终端将采集的数据上报数据处理设备;数据处理设备对数据采集端采集的数据进行合法性校验,筛选出数据中的不合规数据和合规数据;如果发现不合规数据是因为数据采集端埋点错误导致的,则设置数据修复规则,利用数据修复规则对不合格数据进行自动修复,有效回收已经得到修复的不合规数据,将已经得到修复的不合规数据作为合规数据进行存储,作为数据处理和数据分析的基础数据,使不合规数据得到有效利用。
附图说明
图1为实现本发明各个实施例一可选的移动终端的硬件结构示意图;
图2为如图1所示的移动终端的无线通信系统示意图;
图3为根据本发明第一实施例的不合规数据的修复方法的流程图;
图4为根据本发明第二实施例的不合规数据的修复方法的具体流程图;
图5为根据本发明第三实施例的数据处理设备的结构图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
终端可以以各种形式来实施。例如,本发明中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant,PDA)、便捷式媒体播放器(Portable Media Player,PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端,以及诸如数字TV、台式计算机等固定终端。
后续描述中将以移动终端为例进行说明,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本发明的实施方式的构造也能够应用于固定类型的终端。
请参阅图1,其为实现本发明各个实施例的一种移动终端的硬件结构示意图,该移动终端100可以包括:RF(Radio Frequency,射频)单元101、WiFi模块102、音频输出单元103、A/V(音频/视频)输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解,图1中示出的移动终端结构并不构成对移动终端的限定,移动终端可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图1对移动终端的各个部件进行具体的介绍:
射频单元101可用于收发信息或通话过程中,信号的接收和发送,具体的,将基站的下行信息接收后,给处理器110处理;另外,将上行的数据发送给基站。通常,射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元101还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA2000(CodeDivision Multiple Access 2000,码分多址2000)、WCDMA(Wideband Code DivisionMultiple Access,宽带码分多址)、TD-SCDMA(Time Division-Synchronous CodeDivision Multiple Access,时分同步码分多址)、FDD-LTE(Frequency DivisionDuplexing-Long Term Evolution,频分双工长期演进)和TDD-LTE(Time DivisionDuplexing-Long Term Evolution,分时双工长期演进)等。
WiFi属于短距离无线传输技术,移动终端通过WiFi模块102可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图1示出了WiFi模块102,但是可以理解的是,其并不属于移动终端的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
音频输出单元103可以在移动终端100处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时,将射频单元101或WiFi模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元103还可以提供与移动终端100执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元103可以包括扬声器、蜂鸣器等等。
A/V输入单元104用于接收音频或视频信号。A/V输入单元104可以包括图形处理器(Graphics Processing Unit,GPU)1041和麦克风1042,图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或WiFi模块102进行发送。麦克风1042可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风1042接收声音(音频数据),并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。麦克风1042可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。
移动终端100还包括至少一种传感器105,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度,接近传感器可在移动终端100移动到耳边时,关闭显示面板1061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1061。
用户输入单元107可用于接收输入的数字或字符信息,以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元107可包括触控面板1071以及其他输入设备1072。触控面板1071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作),并根据预先设定的程式驱动相应的连接装置。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器110,并能接收处理器110发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071,用户输入单元107还可以包括其他输入设备1072。具体地,其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种,具体此处不做限定。
进一步的,触控面板1071可覆盖显示面板1061,当触控面板1071检测到在其上或附近的触摸操作后,传送给处理器110以确定触摸事件的类型,随后处理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图1中,触控面板1071与显示面板1061是作为两个独立的部件来实现移动终端的输入和输出功能,但是在某些实施例中,可以将触控面板1071与显示面板1061集成而实现移动终端的输入和输出功能,具体此处不做限定。
接口单元108用作至少一个外部装置与移动终端100连接可以通过的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端100和外部装置之间传输数据。
存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器109可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器110是移动终端的控制中心,利用各种接口和线路连接整个移动终端的各个部分,通过运行或执行存储在存储器109内的软件程序和/或模块,以及调用存储在存储器109内的数据,执行移动终端的各种功能和处理数据,从而对移动终端进行整体监控。处理器110可包括一个或多个处理单元;优选的,处理器110可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器110中。
移动终端100还可以包括给各个部件供电的电源111(比如电池),优选的,电源111可以通过电源管理系统与处理器110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管图1未示出,移动终端100还可以包括蓝牙模块等,在此不再赘述。
为了便于理解本发明实施例,下面对本发明的移动终端所基于的通信网络系统进行描述。
请参阅图2,图2为本发明实施例提供的一种通信网络系统架构图,该通信网络系统为通用移动通信技术的LTE系统,该LTE系统包括依次通讯连接的UE(User Equipment,用户设备)201,E-UTRAN(Evolved UMTS Terrestrial Radio Access Network,演进式UMTS陆地无线接入网)202,EPC(Evolved Packet Core,演进式分组核心网)203和运营商的IP业务204。
具体地,UE201可以是上述终端100,此处不再赘述。
E-UTRAN202包括eNodeB2021和其它eNodeB2022等。其中,eNodeB2021可以通过回程(backhaul)(例如X2接口)与其它eNodeB2022连接,eNodeB2021连接到EPC203,eNodeB2021可以提供UE201到EPC203的接入。
EPC203可以包括MME(Mobility Management Entity,移动性管理实体)2031,HSS(Home Subscriber Server,归属用户服务器)2032,其它MME2033,SGW(Serving Gate Way,服务网关)2034,PGW(PDN Gate Way,分组数据网络网关)2035和PCRF(Policy andCharging Rules Function,政策和资费功能实体)2036等。其中,MME2031是处理UE201和EPC203之间信令的控制节点,提供承载和连接管理。HSS2032用于提供一些寄存器来管理诸如归属位置寄存器(图中未示)之类的功能,并且保存有一些有关服务特征、数据速率等用户专用的信息。所有用户数据都可以通过SGW2034进行发送,PGW2035可以提供UE 201的IP地址分配以及其它功能,PCRF2036是业务数据流和IP承载资源的策略与计费控制策略决策点,它为策略与计费执行功能单元(图中未示)选择及提供可用的策略和计费控制决策。
IP业务204可以包括因特网、内联网、IMS(IP Multimedia Subsystem,IP多媒体子系统)或其它IP业务等。
虽然上述以LTE系统为例进行了介绍,但本领域技术人员应当知晓,本发明不仅仅适用于LTE系统,也可以适用于其他无线通信系统,例如GSM、CDMA2000、WCDMA、TD-SCDMA以及未来新的网络系统等,此处不做限定。
基于上述移动终端硬件结构以及通信网络系统,提出本发明的不合规数据的修复方法、数据处理设备及存储介质。
本发明的主要思想在于,在移动终端中设置数据采集端,该数据采集端根据预设的埋点字段采集数据;该数据采集端通过移动终端将采集的数据上报数据处理设备;数据处理设备对数据采集端采集的数据进行合法性校验,筛选出数据中的不合规数据和合规数据,对合规数据进行正常的存储、计算流程处理以及数据分析,将不合规数据存储于不合规数据表中;如果发现不合格数据表中存储的不合规数据是因为数据采集端埋点错误导致的,则设置数据修复规则,利用数据修复规则对不合格数据表中的不合规数据进行自动修复,有效回收得到修复的不合规数据,将得到修复的不合规数据可以作为合规数据使用,作为数据处理和数据分析的基础数据,使不合规数据得到有效利用。
以下结合附图以及实施例,对本发明进行进一步详细说明。本领域技术人员应当理解的是,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
实施例一
本发明实施例一,提供一种不合规数据的修复方法。本实施例的执行主体为数据处理设备,数据处理设备例如是服务器。
图3为根据本发明第一实施例的不合规数据的修复方法的流程图。
步骤S310,接收数据采集端采集的数据。
在本实施例中,数据采集端可以是设置在移动终端中的SDK。SDK可以嵌入到移动终端的产品中。SDK埋点可以追踪和记录移动终端中产生的数据,如追踪和记录移动终端中某产品的用户行为数据。
为了采集丰富的基础数据以便用于数据处理和数据分析,可以设置多个埋点字段,SDK在移动终端侧可以根据设置的埋点字段来采集包含埋点字段的数据并上报。例如:希望获得浏览相关的数据,可以将SDK嵌入到移动终端的浏览器中,埋点字段为浏览器标识、浏览器版本号、登陆次数、访问时长、激活率、浏览路径、页面停留时间等。
在本实施例中,可以接收数据采集端批量采集的数据。
在本实施例中,对数据采集端根据预设的埋点字段采集的数据进行合法性校验;将合法性校验未通过的数据作为不合规数据并存储,将合法性校验通过的数据作为合规数据并存储。进一步地,可以根据预设的合规条件对数据采集端采集的数据进行合法性校验;合规条件例如是:数据产生的时间、数据的来源、数据的格式等。
步骤S320,根据所述数据中的不合规数据,判断所述数据采集端是否埋点错误;如果是,则执行步骤S330;如果否,则结束流程。
在本实施例中,埋点错误是指:在设置的埋点字段中缺失某一个或多个字段,或者埋点字段设置错误。其中,缺失的埋点字段可以被称作缺失字段,设置错误的埋点字段可以被称作错误字段。
例如:在进行页面埋点时,没有将浏览器版本号设置为埋点字段,而事实上应当将浏览器版本号设置为埋点字段,这样SDK采集的数据中将缺失浏览器版本号这一数据,这时可以判定SDK埋点错误,如果在对数据进行合法性校验时,校验浏览器版本号是否正确时,将因数据缺失浏览器版本号而被认为是不合规数据。
又如:在进行页面埋点时,将时间戳设置为埋点字段,这样SDK采集的数据中包含时间戳这一字段,SDK采集的时间戳为10位的时间戳,而数据处理设备在进行合法性校验时,仅将精确到毫秒的13位的时间戳作为合规数据,而10位的时间戳则作为不合规数据,这时采集的10位的时间戳认为是埋点错误造成的不合规数据。
步骤S330,设置数据修复规则。
在本实施例中,数据修复规则用于修复不合规数据中的缺失字段和/或错误字段,使修复后的不合规数据通过合法性校验,成为合规数据。
在本实施例中,可以通过分析所述不合规数据,确定待修复字段;所述待修复字段包括:所述埋点字段中的缺失字段和/或错误字段;根据所述待修复字段,设置数据修复规则。进一步地,在确定埋点字段中的缺失字段和错误字段之后,可以通过正则表达式来设置数据修复规则。
步骤S340,根据所述数据修复规则,修复所述数据中的不合规数据。
根据所述数据修复规则,将埋点错误造成的不合规数据修复为合规数据,并将修复出的合规数据与其他合规数据一同存储。
进一步地,根据所述数据修复规则,对埋点错误造成的不合规数据进行修复,之后将对得到修复的不合规数据重新进行合法性校验,确定得到修复的不合规数据是否通过合法性校验,如果通过合法性校验,则认为是合规数据(修复出的合规数据),如果未通过合法性校验,则依旧认为是不合规数据。
例如:在进行页面埋点时,没有将浏览器版本号设置为埋点字段,事实上浏览器版本号是已知的,如浏览器版本号为V1.0,这样可以获取不合规数据,在每个不合规数据的末尾或者开头添加一个字段,记录浏览器版本号V1.0,这样不合规数据就可以通过合法性校验,成为合规数据。
又如:在进行页面埋点时,将时间戳设置为埋点字段,SDK采集的时间戳为10位的时间戳,而数据处理设备在进行合法性校验时,仅将精确到毫秒的13位的时间戳作为合规数据,这样可以获取不合规数据,筛选出包含时间戳的数据,并在只有10位时间戳末尾增加3位0,使10位的时间戳变为13位的时间戳,使不合规数据通过合法性校验,成为合规数据。
数据采集关注采集的数据是否丰富,采集的数据是否准确,因为这些因素都直接影响数据处理、数据分析的准确性。
本实施例在对数据采集端采集的数据进行合法性校验之后,对不合规数据进行分析,判断位于移动终端的数据采集端是否发生了埋点错误的问题,如果发生了埋点错误的问题,分析出错误所在并设置数据修复规则,利用该数据修复规则自动地、批量地修复不合规数据,及时有效地回收利用因埋点错误造成的不合规数据,纠正埋点错误引发的一系列问题,增加合规数据的数据量,使基础数据更加丰富,回收不合规数据,提高数据采集的准确性,提升最终数据分析的精准度。
实施例二
下面给出一种较为具体的实施例,来进一步地描述本发明的不合规数据的修复方法。本实施例的执行主体为数据处理设备。
如图4所示,为根据本发明第二实施例的不合规数据的修复方法的具体流程图。
步骤S410,接收数据采集端根据预设的埋点字段采集的数据。
数据采集端在移动终端侧进行埋点,以便采集移动终端侧的数据。
埋点字段可以根据数据采集的需求进行设置。
如果需要采集与订单相关的数据,那么埋点字段例如是:商品名称、价格、品类、店铺等信息。
如果需要采集与流量监测相关数据,那么埋点字段例如是:访问路径、页面停留时长、跳转率、转化率等等。
步骤S420,对数据采集端采集的数据进行合法性校验。
在本实施例中,对数据采集端采集的批量数据进行合法性校验。
具体而言,对数据采集端采集的批量数据通过校验层进行合法性校验,以便筛选出批量数据中的合法性校验通过的数据(合规数据)和合法性校验未通过的数据(不合规数据)。
其中,合法性校验可以校验数据的采集时间、数据的格式、数据的来源、数据的版本号等是否符合预设的合规条件。
例如:合规条件为数据采集端当天采集的数据,数据的来源为使用浏览器产生的数据,数据的格式为时间戳为精确到毫秒的13位时间戳,数据的版本号为V1.0;符合所述合规条件的数据校验通过,认为是合规数据,不符合所述合规条件的数据校验不通过,认为是不合规数据。
步骤S430,将合法性校验未通过的数据作为不合规数据并存储,将合法性校验通过的数据作为合规数据并存储。
在本实施例中,在数据采集端采集的批量数据中,通过合法性校验的方式,过滤出不合规数据和合规数据并分开存储。
在本实施例中,可以将合规数据作为数据处理和数据分析的基础数据,进行正常的存储、处理和分析流程。可以讲合规数据直接传输到处理层进行正常的数据处理操作。
在本实施例中,可以对合法性校验未通过的不合规数据进行集中化存储。进一步地,可以将预设时间段内的不合规数据存储到不合规数据表中,该不合规数据表可以使trash表。
例如:可以将数据采集端每天采集的不合规数据分别存储到不同的trash(垃圾)表中,这样每天对应一个trash表,可以方便对预设时间段内的不合规数据进行批量处理。
步骤S440,在存在埋点错误的情况下,通过分析所述不合规数据,确定待修复字段;所述待修复字段包括:所述埋点字段中的缺失字段和/或错误字段。
可以将预设时间段内的已经存储的不合规数据提供给管理人员,由管理人员负责对不合规数据进行分析,判断在移动终端侧的数据采集端是否存在埋点错误的问题,如果该数据采集端存在埋点错误的问题,则确定埋点字段中的缺失字段和/或错误字段。
进一步地,为了管理人员可以更加直观的看到不合规数据,可以将存储有不合规数据的trash表提供给管理人员,供管理人员进行分析。管理人员可以在trash表中进行内容筛选,当其中出现因数据采集端埋点错误导致的数据异常时,可以根据异常数据来确定待修复字段。
例如:在trash表中出现了格式为10位的时间戳,而合法性校验只认为13位的时间戳才是合规数据,这时可以认为trash表中出现的10位的时间戳为待修复字段(错误字段)。
又如:在trash表中出现的不合规数据都没有版本号,这意味着在埋点时,版本号没有被设置成埋点字段,然而trash表中的这些不合规数据的版本号是已知的,那么这些不合规数据的版本号为待修复字段(缺失字段)。
步骤S450,根据所述待修复字段,设置数据修复规则。
待管理人员根据对不合规数据的分析,确定在移动终端侧的数据采集端埋点错误的原因,根据在移动终端侧的数据采集端埋点错误的原因,设置用于修复因该埋点错误被判定为不合规数据的数据修复规则。
在具体应用时,该数据修复规则可以采用正则表达式的方式进行设置。这样,当不合规数据出现某个重要字段的缺失,而该缺失字段又是管理人员所知道的,就可以通过正则表达式找出所有符合条件的不合规数据,在对这些不合规数据进行修复,如:在不合规数据中增加该缺失字段,使这些不合规数据得到修复。
例如:针对trash表中出现的格式为10位的时间戳,数据修复规则可以设置为在每个10位的时间戳的某位补充3个0,使10位的时间戳变成13位的时间戳,这样可以使修复后的不合规数据通过合法性校验。
又如:针对在trash表中出现的没有版本号不合规数据,在不合规数据的版本号已知的情况下,数据修复规则可以设置为在不合规数据中添加版本号,这样可以使修复后的不合规数据通过合法性校验。
步骤S460,根据所述数据修复规则,将埋点错误造成的不合规数据修复为合规数据,并将修复出的合规数据与其他合规数据一同存储。
获取预设时间段内的trash表,该trash表中存储有批量的不合规数据;根据所述数据修复规则,对trash表中由于埋点错误造成的不合规数据批量修复为合规数据,并将修复出的合规数据与其他合规数据一同存储。
为了便于后续处理,可以对不合规数据进行分类处理。例如:对已经存储的不合规数据进行分类;获取属于预设分类的不合规数据;根据所述数据修复规则,将埋点错误造成的不合规数据修复为合规数据,并将修复出的合规数据与其他合规数据一同存储。
进一步地,将每天的trash表中不合规数据按一定条件进行分类,并分别生成对应的汇总报表;将汇总报表发送给对应的管理人员;对应的管理人员对汇总报表中的内容进行筛选,当其中出现因数据采集端埋点错误导致的数据异常时,管理人员可以设置数据修复规则。
例如:按照浏览器标识、浏览器版本号、数据的来源进行分类,分别形成相同浏览器标识的不合规数据的汇总报表,相同浏览器版本号的不合规数据的汇总报表,相同数据来源的不合规数据的汇总报表,不同的管理人员分别对不同的汇总报表进行分析,如果发现埋点错误导致的数据异常,则根据异常数据的特征,分别设置数据修复规则,以便修复不同汇总报表中的不合规数据。
在本实施例中,数据修复规则可以进行持久化存储,当有不合规数据被写入trash表后,数据处理设备就执行数据修复程序,尝试匹配所有数据修复规则,以达到自动修复不合规数据的目的,得到修复的不合规数据可以直接被传输到数据处理层,进行正常数据的处理操作,也可以先和合规数据一同存储,然后与合规数据一同被传输到数据处理层进行正常的数据处理操作。
本实施例可以应用在数据采集领域中,将用于数据采集的SDK集成在移动终端的应用程序中,由于埋点错误导致某些批次的数据出现异常时,这部分不合规数据将被写入trash表,如格式错误,type字段是数据统计的必须埋点字段,而某个版本的SDK因为埋点问题缺失了该字段,导致发布出去的该版本的SDK采集的数据都缺失该字段,此时就可以通过本实施例的方法在不合规数据中补充该缺失字段。
本实施例通过分析埋点错误的原因所在,设置数据修复规则,利用该数据修复规则自动地、批量地修复不合规数据,及时有效地回收利用因埋点错误造成的不合规数据,纠正埋点错误引发的一系列问题,增加合规数据的数据量,使基础数据更加丰富,回收不合规数据,提高数据采集的准确性,提升最终数据分析的精准度。
实施例三
本发明提供了一种数据处理设备。
如图5所示,为根据本发明第三实施例的数据处理设备的结构图。
所述数据处理设备500可以是与移动终端连接的服务器。
所述数据处理设备500包括处理器510、存储器520;所述处理器510用于执行存储器520中存储的不合规数据的修复程序,以实现以下步骤:接收数据采集端采集的数据;根据所述数据中的不合规数据,判断所述采集端是否埋点错误;如果埋点错误,则设置数据修复规则;根据所述数据修复规则,修复所述数据中的不合规数据。
可选地,在所述接收数据采集端采集的数据之后,所述处理器510还用于执行存储器520中存储的不合规数据的修复程序,以实现以下步骤:对数据采集端根据预设的埋点字段采集的数据进行合法性校验;将合法性校验未通过的数据作为不合规数据并存储,将合法性校验通过的数据作为合规数据并存储。
可选地,所述处理器510还用于执行存储器520中存储的不合规数据的修复程序,以实现以下步骤:通过分析所述不合规数据,确定待修复字段;所述待修复字段包括:所述埋点字段中的缺失字段和/或错误字段;根据所述待修复字段,设置数据修复规则。
可选地,所述处理器510还用于执行存储器520中存储的不合规数据的修复程序,以实现以下步骤:根据所述数据修复规则,将埋点错误造成的不合规数据修复为合规数据,并将修复出的合规数据与其他合规数据一同存储。
可选地,所述处理器510还用于执行存储器520中存储的不合规数据的修复程序,以实现以下步骤:对已经存储的不合规数据进行分类;获取属于预设分类的不合规数据;根据所述数据修复规则,将埋点错误造成的不合规数据修复为合规数据,并将修复出的合规数据与其他合规数据一同存储。
本实施例在对数据采集端采集的数据进行合法性校验之后,对不合规数据进行分析,判断位于移动终端的数据采集端是否发生了埋点错误的问题,如果发生了埋点错误的问题,分析出错误所在并设置数据修复规则,利用该数据修复规则自动地、批量地修复不合规数据,及时有效地回收利用因埋点错误造成的不合规数据,纠正埋点错误引发的一系列问题,增加合规数据的数据量,使基础数据更加丰富,回收不合规数据,提高数据采集的准确性,提升最终数据分析的精准度。
实施例四
本发明实施例还提供了一种存储介质。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现以下步骤:
接收数据采集端采集的数据;根据所述数据中的不合规数据,判断所述采集端是否埋点错误;如果埋点错误,则设置数据修复规则;根据所述数据修复规则,修复所述数据中的不合规数据。
可选地,在所述接收数据采集端采集的数据之后,所述处理器还用于执行存储器中存储的不合规数据的修复程序,以实现以下步骤:对数据采集端根据预设的埋点字段采集的数据进行合法性校验;将合法性校验未通过的数据作为不合规数据并存储,将合法性校验通过的数据作为合规数据并存储。
可选地,所述处理器还用于执行存储器中存储的不合规数据的修复程序,以实现以下步骤:通过分析所述不合规数据,确定待修复字段;所述待修复字段包括:所述埋点字段中的缺失字段和/或错误字段;根据所述待修复字段,设置数据修复规则。
可选地,所述处理器还用于执行存储器中存储的不合规数据的修复程序,以实现以下步骤:根据所述数据修复规则,将埋点错误造成的不合规数据修复为合规数据,并将修复出的合规数据与其他合规数据一同存储。
可选地,所述处理器还用于执行存储器中存储的不合规数据的修复程序,以实现以下步骤:对已经存储的不合规数据进行分类;获取属于预设分类的不合规数据;根据所述数据修复规则,将埋点错误造成的不合规数据修复为合规数据,并将修复出的合规数据与其他合规数据一同存储。
本实施例在对数据采集端采集的数据进行合法性校验之后,对不合规数据进行分析,判断位于移动终端的数据采集端是否发生了埋点错误的问题,如果发生了埋点错误的问题,分析出错误所在并设置数据修复规则,利用该数据修复规则自动地、批量地修复不合规数据,及时有效地回收利用因埋点错误造成的不合规数据,纠正埋点错误引发的一系列问题,增加合规数据的数据量,使基础数据更加丰富,回收不合规数据,提高数据采集的准确性,提升最终数据分析的精准度。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种不合规数据的修复方法,其特征在于,所述方法包括:
接收数据采集端采集的数据;
根据所述数据中的不合规数据,判断所述采集端是否埋点错误;
如果埋点错误,则设置数据修复规则;
根据所述数据修复规则,修复所述数据中的不合规数据。
2.如权利要求1所述的方法,其特征在于,在所述接收数据采集端采集的数据之后,所述方法还包括:
对数据采集端根据预设的埋点字段采集的数据进行合法性校验;
将合法性校验未通过的数据作为不合规数据并存储,将合法性校验通过的数据作为合规数据并存储。
3.如权利要求2所述的方法,其特征在于,所述设置数据修复规则,包括:
通过分析所述不合规数据,确定待修复字段;所述待修复字段包括:所述埋点字段中的缺失字段和/或错误字段;
根据所述待修复字段,设置数据修复规则。
4.如权利要求2所述的方法,其特征在于,所述根据所述数据修复规则,修复所述数据中的不合规数据,包括:
根据所述数据修复规则,将埋点错误造成的不合规数据修复为合规数据,并将修复出的合规数据与其他合规数据一同存储。
5.如权利要求2所述的方法,其特征在于,所述根据所述数据修复规则,修复所述数据中的不合规数据,包括:
对已经存储的不合规数据进行分类;
获取属于预设分类的不合规数据;
根据所述数据修复规则,将埋点错误造成的不合规数据修复为合规数据,并将修复出的合规数据与其他合规数据一同存储。
6.一种数据处理设备,其特征在于,所述数据处理设备包括处理器、存储器;所述处理器用于执行存储器中存储的不合规数据的修复程序,以实现以下步骤:
接收数据采集端采集的数据;
根据所述数据中的不合规数据,判断所述采集端是否埋点错误;
如果埋点错误,则设置数据修复规则;
根据所述数据修复规则,修复所述数据中的不合规数据。
7.如权利要求6所述的数据处理设备,其特征在于,在所述接收数据采集端采集的数据之后,所述处理器还用于执行存储器中存储的不合规数据的修复程序,以实现以下步骤:
对数据采集端根据预设的埋点字段采集的数据进行合法性校验;
将合法性校验未通过的数据作为不合规数据并存储,将合法性校验通过的数据作为合规数据并存储。
8.如权利要求7所述的数据处理设备,其特征在于,所述处理器还用于执行存储器中存储的不合规数据的修复程序,以实现以下步骤:
通过分析所述不合规数据,确定待修复字段;所述待修复字段包括:所述埋点字段中的缺失字段和/或错误字段;
根据所述待修复字段,设置数据修复规则。
9.如权利要求7中所述的数据处理设备,其特征在于,所述处理器还用于执行存储器中存储的不合规数据的修复程序,以实现以下步骤:
根据所述数据修复规则,将埋点错误造成的不合规数据修复为合规数据,并将修复出的合规数据与其他合规数据一同存储。
10.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~5中任一项所述的不合规数据的修复方法。
CN201710294875.0A 2017-04-28 2017-04-28 一种不合规数据的修复方法、数据处理设备及存储介质 Pending CN107133124A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710294875.0A CN107133124A (zh) 2017-04-28 2017-04-28 一种不合规数据的修复方法、数据处理设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710294875.0A CN107133124A (zh) 2017-04-28 2017-04-28 一种不合规数据的修复方法、数据处理设备及存储介质

Publications (1)

Publication Number Publication Date
CN107133124A true CN107133124A (zh) 2017-09-05

Family

ID=59715486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710294875.0A Pending CN107133124A (zh) 2017-04-28 2017-04-28 一种不合规数据的修复方法、数据处理设备及存储介质

Country Status (1)

Country Link
CN (1) CN107133124A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109491921A (zh) * 2018-11-29 2019-03-19 携程旅游网络技术(上海)有限公司 埋点信息的管理方法和系统
CN109525863A (zh) * 2017-09-20 2019-03-26 北京国双科技有限公司 收视数据展示方法和装置
CN110718052A (zh) * 2019-10-21 2020-01-21 上海米尺网络技术有限公司 一种无线采集装置及数据采集方法
CN111338933A (zh) * 2020-02-07 2020-06-26 北京每日优鲜电子商务有限公司 埋点验证方法、装置、设备及存储介质
CN111506489A (zh) * 2019-01-30 2020-08-07 阿里巴巴集团控股有限公司 测试方法、系统、设备、服务器及存储介质
CN113947284A (zh) * 2021-09-14 2022-01-18 广州市城市规划设计有限公司 一种国土空间规划的数据合规性转换方法、装置及系统
CN115484189A (zh) * 2022-08-31 2022-12-16 未来电视有限公司 数据合规测试方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101542450A (zh) * 2007-05-28 2009-09-23 松下电器产业株式会社 元数据记录装置以及元数据记录方法
CN102307135A (zh) * 2011-05-24 2012-01-04 中国电子科技集团公司第十研究所 利用VxWorks平台实时处理基带数传数据的方法
WO2015147871A1 (en) * 2014-03-28 2015-10-01 Sicpa Security Inks & Systems Usa, Inc. Global management for oil gas assets
CN105224445A (zh) * 2015-10-28 2016-01-06 北京汇商融通信息技术有限公司 分布式跟踪系统
CN106294101A (zh) * 2015-05-19 2017-01-04 阿里巴巴集团控股有限公司 页面打点测试方法和装置
CN106528432A (zh) * 2016-12-12 2017-03-22 北京三快在线科技有限公司 测试场景数据的构建方法及装置、埋点测试方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101542450A (zh) * 2007-05-28 2009-09-23 松下电器产业株式会社 元数据记录装置以及元数据记录方法
CN102307135A (zh) * 2011-05-24 2012-01-04 中国电子科技集团公司第十研究所 利用VxWorks平台实时处理基带数传数据的方法
WO2015147871A1 (en) * 2014-03-28 2015-10-01 Sicpa Security Inks & Systems Usa, Inc. Global management for oil gas assets
CN106294101A (zh) * 2015-05-19 2017-01-04 阿里巴巴集团控股有限公司 页面打点测试方法和装置
CN105224445A (zh) * 2015-10-28 2016-01-06 北京汇商融通信息技术有限公司 分布式跟踪系统
CN106528432A (zh) * 2016-12-12 2017-03-22 北京三快在线科技有限公司 测试场景数据的构建方法及装置、埋点测试方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109525863A (zh) * 2017-09-20 2019-03-26 北京国双科技有限公司 收视数据展示方法和装置
CN109491921A (zh) * 2018-11-29 2019-03-19 携程旅游网络技术(上海)有限公司 埋点信息的管理方法和系统
CN109491921B (zh) * 2018-11-29 2021-10-12 携程旅游网络技术(上海)有限公司 埋点信息的管理方法和系统
CN111506489A (zh) * 2019-01-30 2020-08-07 阿里巴巴集团控股有限公司 测试方法、系统、设备、服务器及存储介质
CN111506489B (zh) * 2019-01-30 2023-05-30 斑马智行网络(香港)有限公司 测试方法、系统、设备、服务器及存储介质
CN110718052A (zh) * 2019-10-21 2020-01-21 上海米尺网络技术有限公司 一种无线采集装置及数据采集方法
CN111338933A (zh) * 2020-02-07 2020-06-26 北京每日优鲜电子商务有限公司 埋点验证方法、装置、设备及存储介质
CN113947284A (zh) * 2021-09-14 2022-01-18 广州市城市规划设计有限公司 一种国土空间规划的数据合规性转换方法、装置及系统
CN113947284B (zh) * 2021-09-14 2024-06-18 广州市城市规划设计有限公司 一种国土空间规划的数据合规性转换方法、装置及系统
CN115484189A (zh) * 2022-08-31 2022-12-16 未来电视有限公司 数据合规测试方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN107133124A (zh) 一种不合规数据的修复方法、数据处理设备及存储介质
CN107145347A (zh) 一种应用灰度发布方法、设备及存储介质
CN107506647A (zh) 漏洞自动修复方法及移动终端
CN107508994A (zh) 触摸屏报点率处理方法、终端及计算机可读存储介质
CN108551411A (zh) 数据采集方法、移动终端及计算机可读存储介质
CN107704571A (zh) 信息智能推荐方法、装置及计算机可读存储介质
CN107133797A (zh) 一种支付异常自动检测方法、终端及计算机可读存储介质
CN107436779A (zh) 一种应用程序管理方法、设备及计算机可读存储介质
CN108052412A (zh) 重启故障定位方法、移动终端及计算机可读存储介质
CN107169150A (zh) 图片推送方法、移动终端以及计算机可读介质
CN107104886A (zh) 一种信息标示方法、设备及计算机可读存储介质
CN107493426A (zh) 一种信息采集方法、设备和计算机可读存储介质
CN107273035A (zh) 应用程序推荐方法及移动终端
CN107341067A (zh) 一种按键失效处理方法、设备及计算机可读存储介质
CN107229390A (zh) 一种桌面图标排列方法、移动终端以及计算机可读存储介质
CN107995060A (zh) 移动终端音频测试方法、装置以及计算机可读存储介质
CN107181865A (zh) 未读短信的处理方法、终端及计算机可读存储介质
CN107566605A (zh) 一种交互界面处理方法、设备及计算机可读存储介质
CN108121613A (zh) 基于内存页的重启定位方法、移动终端及可读存储介质
CN110460568A (zh) 一种自动举报方法、终端及计算机可读存储介质
CN107124718A (zh) 数据传输方法、移动终端及存储介质
CN107480054A (zh) 一种调用链数据处理方法、设备及计算机可读存储介质
CN107197101A (zh) 音频调整方法、移动终端及计算机可读存储介质
CN107222525A (zh) 数据网络连接状态显示方法、终端及计算机可读存储介质
CN107182043A (zh) 验证码短信的标记方法及移动终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170905