CN110427277A - 数据校验方法、装置、设备及存储介质 - Google Patents

数据校验方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110427277A
CN110427277A CN201910695814.4A CN201910695814A CN110427277A CN 110427277 A CN110427277 A CN 110427277A CN 201910695814 A CN201910695814 A CN 201910695814A CN 110427277 A CN110427277 A CN 110427277A
Authority
CN
China
Prior art keywords
data
characteristic
rule
full dose
testing result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910695814.4A
Other languages
English (en)
Other versions
CN110427277B (zh
Inventor
高畅
张冉
贺旭
王意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910695814.4A priority Critical patent/CN110427277B/zh
Publication of CN110427277A publication Critical patent/CN110427277A/zh
Application granted granted Critical
Publication of CN110427277B publication Critical patent/CN110427277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Measurement Of Radiation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请公开了一种数据校验方法、装置、设备及存储介质,该方案包括:获取用户行为的全量数据;调用用户行为对应的目标规则从全量数据中提取特征数据;目标规则中设有特征数据对应的特征维度;检测特征数据中的错误数据,获得特征数据的检测结果;根据检测结果校验特征数据,获得用于机器学习的训练数据。本申请在获取到用户行为的全量数据后,调用对应的目标规则从全量数据中提取特征数据,进而检测特征数据中的错误数据并校验,从而可降低数据处理量,提高数据校验效率和准确性。

Description

数据校验方法、装置、设备及存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种数据校验方法、装置、设备及存储介质。
背景技术
目前,为了获得可用于机器学习的训练数据,需要人工对用户行为的全量数据进行逐一检测和校验。其中,由于全量数据的数据量较为庞大,导致人工检测和校验的效率非常低,且由于人工校验难免出现失误,因此校验结果的准确性也得不到保障。
发明内容
有鉴于此,本申请的目的在于提供一种数据校验方法、装置、设备及存储介质,以提高数据校验效率和准确性。其具体方案如下:
为实现上述目的,一方面,本申请提供了一种数据校验方法,包括:
获取用户行为的全量数据;
调用所述用户行为对应的目标规则从所述全量数据中提取特征数据;所述目标规则中设有所述特征数据对应的特征维度;
检测所述特征数据中的错误数据,获得所述特征数据的检测结果;
根据所述检测结果校验所述特征数据,获得用于机器学习的训练数据。
又一方面,本申请还提供了一种数据校验装置,包括:
获取模块,用于获取用户行为的全量数据;
调用模块,用于调用所述用户行为对应的目标规则从所述全量数据中提取特征数据;所述目标规则中设有所述特征数据的特征维度;
检测模块,用于检测所述特征数据中的错误数据,获得所述特征数据的检测结果;
校验模块,用于根据所述检测结果校验所述特征数据,获得用于机器学习的训练数据。
又一方面,本申请还提供了一种电子设备,所述电子设备包括处理器和存储器;其中,所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现前述数据校验方法。
又一方面,本申请还提供了一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现前述数据校验方法。
本申请在获取到用户行为的全量数据后,调用对应的目标规则从全量数据中提取特征数据,进而检测特征数据中的错误数据并校验,从而可获得用于机器学习的训练数据。其中,目标规则中设有特征数据对应的特征维度,因此可按照目标规则中设置的特征维度从全量数据中提取对应的特征数据,这些特征数据也正是能够用于机器学习的数据,全量数据中还存在着一些机器学习不关注的数据,因此全量数据中的其他数据便可舍弃。本申请在对数据进行检测和校验之前,调用对应的目标规则从中提取出了部分特征数据,进而对提取出的这部分特征数据进行检测和校验,从而降低了数据处理量,也提高了数据校验效率和准确性。
相应地,本申请提供的数据校验装置、设备及存储介质,也同样具有上述技术效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种硬件组成框架示意图;
图2为本申请提供的另一种硬件组成框架示意图;
图3为本申请提供的第一种数据校验方法流程图;
图4为本申请提供的第二种数据校验方法流程图;
图5为本申请提供的第三种数据校验方法流程图;
图6为本申请提供的一种规则库更新方法流程图;
图7为本申请实施例提供的一种数据校验系统架构图;
图8为本申请实施例提供的一种数据校验方法流程图;
图9为本申请提供的一种数据上报柱状图;
图10为本申请提供的一种用户操作页面示意图;
图11为本申请提供的一种数据校验装置示意图。
具体实施方式
目前,为了获得可用于机器学习的训练数据,需要人工对用户行为的全量数据进行逐一检测和校验。其中,由于全量数据的数据量较为庞大,导致人工检测和校验的效率非常低,且由于人工校验难免出现失误,因此校验结果的准确性也得不到保障。鉴于目前所存在的上述问题,本申请提出了一种数据校验方案,通过该技术方案,能够降低数据处理量,提高数据校验效率和准确性。
为了便于理解,先对本申请的提供的数据校验方案所适用的硬件组成框架进行介绍。可以参见图1至图2,其中,图1其示出了本申请公开的方案所适用的硬件组成框架示意图。
由图1可知,该硬件组成框架可以包括:计算机设备10,其中,计算机设备10可以包括:处理器11、存储器12、通信接口13、输入单元14和显示器15和通信总线16。
处理器11、存储器12、通信接口13、输入单元14、显示器15、均通过通信总线16完成相互间的通信。
在本申请实施例中,该处理器11,可以为中央处理器(Central Processing Unit,CPU),特定应用集成电路,数字信号处理器、现成可编程门阵列或者其他可编程逻辑器件等。该处理器可以调用存储器12中存储的程序。具体的,处理器可以执行数据校验方法的实施例中计算机设备侧所执行的操作。
存储器12中用于存放一个或者一个以上程序,程序可以包括程序代码,程序代码包括计算机操作指令,在本申请实施例中,该存储器中至少存储有用于实现以下功能的程序:
获取用户行为的全量数据;
调用用户行为对应的目标规则从全量数据中提取特征数据;目标规则中设有特征数据对应的特征维度;
检测特征数据中的错误数据,获得特征数据的检测结果;
根据检测结果校验特征数据,获得用于机器学习的训练数据。
在一种可能的实现方式中,该存储器12可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、以及至少一个功能(比如声音播放功能、图像播放功能等)所需的应用程序等;存储数据区可存储根据计算机的使用过程中所创建的数据,比如,用户行为数据等。
此外,存储器12也可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
该通信接口13可以为通信模块的接口,如GSM模块的接口。
本申请还可以包括显示器14和输入单元15等等。
当然,图1所示的计算机设备的结构并不构成对本申请实施例中计算机设备的限定,在实际应用中计算机设备可以包括比图1所示的更多或更少的部件,或者组合某些部件。
其中,图1中的计算机设备10可以为终端(如手机、平板电脑等移动终端,或PC机等固定终端)、服务器、智能电子设备(如腕表)。
在本申请实施例中,计算机设备10可以根据通信接口13利用网络接收外界其他设备发送的用户行为的全量数据;也可以通过自身的输入单元14(如键盘、触摸屏、语音输入设备等)获取全量数据。
相应的,计算机设备10中处理器11可以通过通信总线16从通信接口13或者输入单元14获取用户行为的全量数据,并调用存储器12中存储的程序对全量数据进行处理获得特征数据并检测和校验,以得到用于机器学习的训练数据。
可以理解的是,本申请实施例中并不对计算机设备的数量进行限定,其可以是多个计算机设备共同协作完成数据校验功能。在一种可能的情况中,请参考图2。由图2可知,该硬件组成框架可以包括:第一计算机设备101、第二计算机设备102。第一计算机设备101与第二计算机设备102之间通过网络103实现通信连接。
在本申请实施例中,第一计算机设备101与第二计算机设备102的硬件结构可以参考图1中计算机设备10,可以理解为本实施例中具有两个计算机设备10,两者进行数据交互,实现数据校验功能。进一步,本申请实施例中并不对网络103的形式进行限定,如,网络103可以是无线网络(如WIFI、蓝牙等),也可以是有线网络。
其中,第一计算机设备101和第二计算机设备102可以是同一种计算机设备,如第一计算机设备101和第二计算机设备102均为服务器;也可以是不同类型的计算机设备,如,第一计算机设备101可以是存储型服务器,第二计算机设备102可以应用型服务器。
进一步,为了便于技术人员获取训练数据,第二计算机设备102还可以在对全量数据进行提取、检测和校验后,将获得的训练数据输出。本申请实施例并不限定第二计算机设备102对于训练数据的输出形式,如,可以利用显示器输出训练数据,也可以通过语音设备输出训练数据。
其中,第二计算机设备102还可以在对全量数据进行提取和检测后,可获得检测报告,第二计算机设备102可以将此检测报告反馈至第一计算机设备101,以使第一计算机设备101存储检测报告,或输出该检测报告。本申请实施例并不限定第一计算机设备101对于检测报告的输出形式,如,可以利用显示器输出检测报告,也可以通过语音设备输出检测报告。
本实施例中的训练数据用于机器学习。机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。其专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本实施例在获得训练数据后,可利用训练数据进行机器学习,以使机器辨别用户行为,从而给用户推荐与用户行为相似的信息。利用训练数据进行机器学习的具体实现步骤可参考现有技术,为避免赘述,本说明书在此不再赘述。
需要说明的是,机器学习是人工智能的重要分支。人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能软件技术包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。其他方向的技术本实施例鲜有涉及,故在此不再赘述。
结合以上共性,下面对数据校验方法的具体实现步骤进行介绍。图3为本申请实施例提供的第一种数据校验方法流程图。参见图3所示,该数据校验方法可以包括以下步骤:
S301、获取用户行为的全量数据。
在本实施例中,用户行为的全量数据为某一用户行为包括的所有数据。例如:若用户行为是对某一条信息的评论行为,那么全量数据即为:该条信息下所有用户对其的评论,具体可以包括:文字评论、图片评论、表情评论、文字评论和图片评论、文字评论和表情评论等。
S302、调用用户行为对应的目标规则从全量数据中提取特征数据;目标规则中设有特征数据对应的特征维度。
可以理解的是,特征数据为用户行为的全量数据中的部分数据。其中,特征数据具有对应的特征维度。上文所列的文字评论、图片评论、表情评论、文字评论和图片评论、文字评论和表情评论都可以看作用户评论行为的特征维度,因此若特征维度为文字评论,那么特征数据即为仅包含文字的评论信息。其中,目标规则中设置的特征维度至少为一个。
S303、检测特征数据中的错误数据,获得特征数据的检测结果。
需要说明的是,从全量数据中提取出的特征数据可能存在错误,为了确保数据的正确性,需要对提取出的特征数据进行检测,以检测出其中的错误数据,从而获得检测结果。
S304、根据检测结果校验特征数据,获得用于机器学习的训练数据。
在获得检测结果后,根据检测结果校验特征数据中的错误数据,以获得完全正确的特征数据,那么这些完全正确的特征数据便可以作为训练数据,并用于机器学习。
在本实施例中,检测特征数据中的错误数据,获得特征数据的检测结果之后,还包括:按照待检测错误的类型统计错误数据,获得特征数据的检测报告并展示。其中,待检测错误的类型为数据缺失、数据报错和数据重复中的任意一种或组合,因此可以将特征数据中的错误数据按照类型进行划分和统计,从而可明确知悉每种类型下包括的错误数据有哪些,进而将这些按类型统计的错误数据添加至检测报告,即可获得特征数据的检测报告。展示特征数据的检测报告,可以便于技术人员知悉当前特征数据中有哪些错误,每种错误涉及哪些数据,从而可为优化客户端提供数据支持,也可以为错误数据的校正提供依据。
可见,本实施例在获取到用户行为的全量数据后,调用对应的目标规则从全量数据中提取特征数据,进而检测特征数据中的错误数据并校验,从而可获得用于机器学习的训练数据。其中,目标规则中设有特征数据对应的特征维度,因此可按照目标规则中设置的特征维度从全量数据中提取对应的特征数据,这些特征数据也正是能够用于机器学习的数据,全量数据中还存在着一些机器学习不关注的数据,因此全量数据中的其他数据便可舍弃。本申请在对数据进行检测和校验之前,调用对应的目标规则从中提取出了部分特征数据,进而对提取出的这部分特征数据进行检测和校验,从而降低了数据处理量,也提高了数据校验效率和准确性。
图4为本申请实施例提供的第二种数据校验方法流程图。参见图4所示,该数据校验方法可以包括以下步骤:
S401、获取用户行为的全量数据。
S402、确定用户行为的查询关键字。
S403、在规则库中查询与查询关键字对应的目标规则;目标规则中设有特征数据对应的特征维度。
本实施例预设有规则库,规则库中设有多种用户行为对应的目标规则,其中每种用户行为对应有查询关键字,该查询关键字与目标规则相对应。也就是说,用户行为与查询关键字一一对应,查询关键字与规则库中的目标规则一一对应。其中,查询关键字可以是某一种用户行为的简称,如:对于用户评论行为而言,其查询关键字可以为“评论”。
可以理解的是,不同目标规则中的特征维度不同,且每个目标规则中的特征维度与其对应的用户行为相对应。
其中,若在规则库中未查询到与查询关键字对应的目标规则,则用户可以通过人机交互界面即时创建与查询关键字对应的目标规则。
S404、将目标规则转换为目标格式的调用对象。
S405、通过调用所述调用对象从全量数据中提取特征数据。
在本实施例中,为了便于提取特征数据,可以将目标规则转换为具有统一调用格式的调用对象,进而通过调用所述调用对象从全量数据中提取特征数据。其中,目标格式可以为:JSON,相应的,提取到的特征数据也可以转换为JSON格式。
S406、确定特征数据对应的待检测错误的类型。
其中,待检测错误的类型为数据缺失、数据报错和数据重复中的任意一种或组合。当然,待检测错误的类型还可以包括其他,如:数据归类错误。
S407、按照类型检测特征数据中的错误数据,获得检测结果。
S408、根据检测结果校验特征数据,获得用于机器学习的训练数据。
可见,本实施例在获取到用户行为的全量数据后,在规则库中查询与用户行为的查询关键字对应的目标规则,将目标规则转换为目标格式的调用对象后,通过调用所述调用对象从全量数据中提取特征数据;进而确定特征数据对应的待检测错误的类型,按照类型检测特征数据中的错误数据,获得检测结果;最后根据检测结果校验特征数据从而可获得用于机器学习的训练数据。
其中,目标规则中设有特征数据对应的特征维度,因此可按照目标规则中设置的特征维度从全量数据中提取对应的特征数据,这些特征数据也正是能够用于机器学习的数据,全量数据中还存在着一些机器学习不关注的数据,因此全量数据中的其他数据便可舍弃。本申请在对数据进行检测和校验之前,调用对应的目标规则从中提取出了部分特征数据,进而对提取出的这部分特征数据进行检测和校验,从而降低了数据处理量,也提高了数据校验效率和准确性。
图5为本申请实施例提供的第三种数据校验方法流程图。参见图5所示,该数据校验方法可以包括以下步骤:
S501、获取用户行为的全量数据。
S502、调用用户行为对应的目标规则从全量数据中提取特征数据;目标规则中设有特征数据对应的特征维度。
S503、查询特征数据对应的检测任务链。
其中,检测任务链中的检测任务与特征数据对应的待检测错误的类型一一对应。也就是说,检测任务链用于检测特征数据中的错误数据,并且检测任务链中设有多个任务,这些任务共同构成检测任务链。其中,检测任务链中的每个任务与待检测错误的类型相对应,也就是每个任务检测一种错误类型。
S504、利用检测任务链检测特征数据中的错误数据,获得检测结果。
S505、确定待校验的错误数据,并利用字段校验工具校验错误数据。
其中,字段校验工具可以为Schema校验工具,当然还可以是其他校验工具。
S506、将校验后的数据与特征数据中的正确数据共同确定为训练数据。
可见,本实施例在获取到用户行为的全量数据后,调用对应的目标规则从全量数据中提取特征数据,进而检测特征数据中的错误数据并校验,从而可获得用于机器学习的训练数据。其中,目标规则中设有特征数据对应的特征维度,因此可按照目标规则中设置的特征维度从全量数据中提取对应的特征数据,这些特征数据也正是能够用于机器学习的数据,全量数据中还存在着一些机器学习不关注的数据,因此全量数据中的其他数据便可舍弃。本申请在对数据进行检测和校验之前,调用对应的目标规则从中提取出了部分特征数据,进而对提取出的这部分特征数据进行检测和校验,从而降低了数据处理量,也提高了数据校验效率和准确性。
上述提及的目标规则可以集中设置在规则库中。规则库中的规则可以按照实际应用的需要进行更新,因此本实施例提供了一种规则库更新方法。
图6为本申请实施例提供的一种规则库更新方法流程图。参见图6所示,该规则库更新方法可以包括以下步骤:
S601、获取用户更新规则库的指令;
S602、从指令中提取更新数据;更新数据至少包括:待更新规则的标识信息和待更新规则中的待更新特征维度;
S603、按照更新数据更新规则库。
在本实施例中,用户可以通过人机交互界面输入更新规则库的指令,此时同时输入的信息还包括:待更新规则的标识信息和待更新规则中的待更新特征维度,也就是明确需要更新的规则是哪个,更新规则中的哪个特征维度等。其中,待更新规则的标识信息可以是上述提及的查询关键字,当然也可以用其他信息标识规则。需要说明的是,用户还可以通过人机交互界面增加规则或删除规则。
可见,本实施例提供了一种规则库更新方法,使得用户可以根据实际应用需要更新规则库中的规则,从而实现规则库的及时更新,以应对实际应用的需要。
下面通过具体的应用场景实例描述,来介绍本申请提供的数据校验方案。
请参见图7,图7为本申请实施例提供的一种数据校验系统架构图。在图7中,规则输入端用于获取用户输入的规则,其中设有记录规则的行为上报表;MySQL数据库用于存储规则和全量数据;全量数据从Tdw数据库中获取,Tdw数据库存储有客户端日志;后台服务器,用于利用MySQL数据库中的规则从全量数据中提取特征数据,并对特征数据进行检测和校验,从而生成检测报告;检测报告返回至MySQL数据库存储。
请参见图8,图8为本申请实施例提供的一种数据校验方法流程图。图8所示的流程图由图7所示的架构和本申请提供的数据校验方案结合可获得。参见图8所示,该方法可以包括以下步骤:
S801、规则输入端获取用户输入的规则。
S802、规则输入端将规则传输至MySQL数据库存储。
S803、将全量数据从Tdw数据库传输至MySQL数据库存储。
S804、后台服务器从MySQL数据库中获取规则和全量数据。
S805、后台服务器调用规则从全量数据中提取特征数据。
S806、后台服务器检测特征数据中的错误数据,获得特征数据的检测结果。
S807、后台服务器按照待检测错误的类型统计错误数据,获得特征数据的检测报告。
具体的,检测报告可参见表1。表1示意了一种检测报告的可视化表格。
表1
在表1中,数据名称为用户行为数据的具体标识名称,Y表示存在当前类错误,N表示不存在当前类错误,错误详情栏可以填写出现错误的具体信息。
对于某一条数据,如:0X8007626行为数据的场景参数,其具体的上报情况可参见表2-表5。
表2
实际上报值 上报次数
-1 10
1 11
2 22
3 33
其中,表2中存在的异常值,以及异常值对应的上报次数请参见表3。
表3
异常值 上报次数
-1 10
其中,表2中存在的少报值,以及少报值对应的场景请参见表4。
表4
少报值 对应场景
5 关注流
6 图集流
其中,0X8007626行为数据的场景参数预期上报值以及对应场景请参见表5。
表5
预期上报值 对应场景
1 推荐流
2 视频流
3 社交流
4 个人流
5 关注流
6 图集流
表2所示的实际上报值和上报次数可以用柱状图表示,具体请参见图9,图9为本申请实施例提供的一种数据上报柱状图。
需要说明的是,数据上报即为:用户行为数据的上报。当用户基于客户端进行某些操作时,客户端会将用户操作的数据上报至Tdw数据库。例如:用户可通过如图10所示的页面进行评论操作,图10为本申请实施例提供的一种用户操作页面示意图。
S808、后台服务器将检测报告传输至MySQL数据库存储。
S809、后台服务器根据检测结果校验特征数据,获得用于机器学习的训练数据。
需要说明的是,规则输入端设有规则录入及生成模块,后台服务器设有抽样获取数据模块和自动化数据校验模块。其中,规则录入及生成模块用于获取用户输入的字段并生成规则,抽样获取数据模块用于获取全量数据,自动化数据校验模块用于从全量数据中提取特征数据,检测和校验特征数据。
具体的,抽样获取数据模块可以根据实际需求获取指定时间段内指定客户端上报的全量数据。进而通过自动化数据校验模块利用规则从上报的全量数据中提取特征数据,并转换为JSON格式。然后根据检测任务链上设置的错误类型检测特征数据中的错误数据,并利用校验工具校验错误数据。若特征数据对应多个特征维度,则按照各个特征维度统计错误数据,生成检测报告。
可见,本实施例在获取到用户行为的全量数据后,调用对应的目标规则从全量数据中提取特征数据,进而检测特征数据中的错误数据并校验,从而可获得用于机器学习的训练数据。其中,目标规则中设有特征数据对应的特征维度,因此可按照目标规则中设置的特征维度从全量数据中提取对应的特征数据,这些特征数据也正是能够用于机器学习的数据,全量数据中还存在着一些机器学习不关注的数据,因此全量数据中的其他数据便可舍弃。本申请在对数据进行检测和校验之前,调用对应的目标规则从中提取出了部分特征数据,进而对提取出的这部分特征数据进行检测和校验,从而降低了数据处理量,也提高了数据校验效率和准确性。
请参见图11,图11为本申请实施例提供的一种数据校验装置示意图,包括:
获取模块1101,用于获取用户行为的全量数据;
调用模块1102,用于调用用户行为对应的目标规则从全量数据中提取特征数据;目标规则中设有特征数据的特征维度;
检测模块1103,用于检测特征数据中的错误数据,获得特征数据的检测结果;
校验模块1104,用于根据检测结果校验特征数据,获得用于机器学习的训练数据。
在一种具体实施方式中,调用模块包括:
第一确定单元,用于确定用户行为的查询关键字;
第一查询单元,用于在规则库中查询与查询关键字对应的目标规则;
转换单元,用于将目标规则转换为目标格式的调用对象;
提取单元,用于通过调用所述调用对象从全量数据中提取特征数据。
在一种具体实施方式中,检测模块包括:
第二确定单元,用于确定特征数据对应的待检测错误的类型;类型为数据缺失、数据报错和数据重复中的任意一种或组合;
第一检测单元,用于按照类型检测特征数据中的错误数据,获得检测结果。
在一种具体实施方式中,检测模块包括:
第二查询单元,用于查询特征数据对应的检测任务链;检测任务链中的检测任务与特征数据对应的待检测错误的类型一一对应;
第二检测单元,用于利用检测任务链检测特征数据中的错误数据,获得检测结果。
在一种具体实施方式中,还包括:
统计模块,用于按照待检测错误的类型统计错误数据,获得特征数据的检测报告并展示。
在一种具体实施方式中,校验模块包括:
校验单元,用于确定待校验的错误数据,并利用字段校验工具校验错误数据;
第三确定单元,用于将校验后的数据与特征数据中的正确数据共同确定为训练数据。
在一种具体实施方式中,还包括:
指令获取模块,用于获取用户更新规则库的指令;
提取模块,用于从指令中提取更新数据;更新数据至少包括:待更新规则的标识信息和待更新规则中的待更新特征维度;
更新模块,用于按照更新数据更新规则库。
其中,关于本实施例中各个模块、单元更加具体的工作过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本实施例提供了一种数据校验装置,包括:获取模块、调用模块、检测模块和校验模块。首先由获取模块获取用户行为的全量数据;然后调用模块调用用户行为对应的目标规则从全量数据中提取特征数据;目标规则中设有特征数据的特征维度;进而检测模块检测特征数据中的错误数据,获得特征数据的检测结果;最后校验模块根据检测结果校验特征数据,获得用于机器学习的训练数据。如此各个模块之间分工合作,各司其职,从而降低了数据处理量,提高了数据校验效率和准确性。
进一步的,本申请实施例还提供了一种电子设备。其中,上述电子设备既可以是服务器,也可以是终端。该电子设备中处理器和存储器之间的关系可以参考图1。
其中,电子设备中的存储器用于存储计算机程序,所述计算机程序由电子设备中的处理器加载并执行,以实现前述任一实施例公开方法。
进一步的,本申请实施例还公开了一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现前述任一实施例公开的方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
需要指出的是,上述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种数据校验方法,其特征在于,包括:
获取用户行为的全量数据;
调用所述用户行为对应的目标规则从所述全量数据中提取特征数据;所述目标规则中设有所述特征数据对应的特征维度;
检测所述特征数据中的错误数据,获得所述特征数据的检测结果;
根据所述检测结果校验所述特征数据,获得用于机器学习的训练数据。
2.根据权利要求1所述的数据校验方法,其特征在于,所述调用所述用户行为对应的目标规则从所述全量数据中提取特征数据,包括:
确定所述用户行为的查询关键字;
在规则库中查询与所述查询关键字对应的所述目标规则;
将所述目标规则转换为目标格式的调用对象;
通过调用所述调用对象从所述全量数据中提取所述特征数据。
3.根据权利要求1所述的数据校验方法,其特征在于,所述检测所述特征数据中的错误数据,获得所述特征数据的检测结果,包括:
确定所述特征数据对应的待检测错误的类型;所述类型为数据缺失、数据报错和数据重复中的任意一种或组合;
按照所述类型检测所述特征数据中的错误数据,获得所述检测结果。
4.根据权利要求3所述的数据校验方法,其特征在于,所述检测所述特征数据中的错误数据,获得所述特征数据的检测结果,包括:
查询所述特征数据对应的检测任务链;所述检测任务链中的检测任务与所述特征数据对应的待检测错误的类型一一对应;
利用所述检测任务链检测所述特征数据中的错误数据,获得所述检测结果。
5.根据权利要求3所述的数据校验方法,其特征在于,所述检测所述特征数据中的错误数据,获得所述特征数据的检测结果之后,还包括:
按照所述待检测错误的类型统计所述错误数据,获得所述特征数据的检测报告并展示。
6.根据权利要求1所述的数据校验方法,其特征在于,所述根据所述检测结果校验所述特征数据,获得用于机器学习的训练数据,包括:
确定待校验的错误数据,并利用字段校验工具校验所述错误数据;
将校验后的数据与所述特征数据中的正确数据共同确定为所述训练数据。
7.根据权利要求2所述的数据校验方法,其特征在于,还包括:
获取用户更新所述规则库的指令;
从所述指令中提取更新数据;所述更新数据至少包括:待更新规则的标识信息和所述待更新规则中的待更新特征维度;
按照所述更新数据更新所述规则库。
8.一种数据校验装置,其特征在于,包括:
获取模块,用于获取用户行为的全量数据;
调用模块,用于调用所述用户行为对应的目标规则从所述全量数据中提取特征数据;所述目标规则中设有所述特征数据的特征维度;
检测模块,用于检测所述特征数据中的错误数据,获得所述特征数据的检测结果;
校验模块,用于根据所述检测结果校验所述特征数据,获得用于机器学习的训练数据。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器;其中,所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的数据校验方法。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如权利要求1至7任一项所述的数据校验方法。
CN201910695814.4A 2019-07-30 2019-07-30 数据校验方法、装置、设备及存储介质 Active CN110427277B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910695814.4A CN110427277B (zh) 2019-07-30 2019-07-30 数据校验方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910695814.4A CN110427277B (zh) 2019-07-30 2019-07-30 数据校验方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110427277A true CN110427277A (zh) 2019-11-08
CN110427277B CN110427277B (zh) 2021-09-21

Family

ID=68411366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910695814.4A Active CN110427277B (zh) 2019-07-30 2019-07-30 数据校验方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110427277B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111127178A (zh) * 2019-11-26 2020-05-08 泰康保险集团股份有限公司 数据处理方法与装置、存储介质、电子设备
TWI821666B (zh) * 2021-05-13 2023-11-11 中華電信股份有限公司 服務管理系統及服務資訊流程的調適方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8775899B2 (en) * 2011-09-20 2014-07-08 Fujitsu Limited Error correction device, error correction method, and processor
US9594907B2 (en) * 2013-03-14 2017-03-14 Sas Institute Inc. Unauthorized activity detection and classification
CN106650982A (zh) * 2016-08-30 2017-05-10 华北电力大学 一种基于多点nwp的深度学习功率预测方法
CN107229728A (zh) * 2017-06-05 2017-10-03 努比亚技术有限公司 基于神经网络的搜索方法、设备及存储介质
CN107870827A (zh) * 2017-11-07 2018-04-03 中国银行股份有限公司 基于校验的数据质量控制方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8775899B2 (en) * 2011-09-20 2014-07-08 Fujitsu Limited Error correction device, error correction method, and processor
US9594907B2 (en) * 2013-03-14 2017-03-14 Sas Institute Inc. Unauthorized activity detection and classification
CN106650982A (zh) * 2016-08-30 2017-05-10 华北电力大学 一种基于多点nwp的深度学习功率预测方法
CN107229728A (zh) * 2017-06-05 2017-10-03 努比亚技术有限公司 基于神经网络的搜索方法、设备及存储介质
CN107870827A (zh) * 2017-11-07 2018-04-03 中国银行股份有限公司 基于校验的数据质量控制方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111127178A (zh) * 2019-11-26 2020-05-08 泰康保险集团股份有限公司 数据处理方法与装置、存储介质、电子设备
TWI821666B (zh) * 2021-05-13 2023-11-11 中華電信股份有限公司 服務管理系統及服務資訊流程的調適方法

Also Published As

Publication number Publication date
CN110427277B (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
CN109729141A (zh) 用于企业的混合bot框架
US20210326524A1 (en) Method, apparatus and device for quality control and storage medium
CN111177176A (zh) 数据检测方法、装置及存储介质
Ani et al. Design considerations for building credible security testbeds: Perspectives from industrial control system use cases
CN107909466A (zh) 客户关系网络展示方法、装置、设备及可读存储介质
US10997868B1 (en) Systems and methods to measure performance
CN106357719A (zh) 用于网络应用的基于页面的事件相关
CN105205757A (zh) 基于Android的选修系统
CN110109978A (zh) 基于指标的数据分析方法、装置、服务器及可读存储介质
CN109145027A (zh) 数据统计方法、装置、设备及计算机可读存储介质
CN110427277A (zh) 数据校验方法、装置、设备及存储介质
CN111177307A (zh) 一种基于语义理解相似度阀值配置的测试方案及系统
CN107679141A (zh) 数据入库方法、装置、设备及计算机可读存储介质
CN105373533B (zh) 一种页面链接地址的检测方法、客户端及装置
CN116360735A (zh) 一种表单生成方法、装置、设备和介质
US9104573B1 (en) Providing relevant diagnostic information using ontology rules
CN113160009A (zh) 信息推送方法、相关装置、以及计算机介质
Ding et al. An approach for modeling and analyzing mobile push notification services
CN109447862A (zh) 采集培训系统中操作行为并上报学习记录库的方法及系统
CN110489342A (zh) 一种安卓应用测试方法、系统、装置及存储介质
CN114185807A (zh) 测试数据管理方法、装置、计算机设备及存储介质
CN109241208A (zh) 地址定位、地址监测、信息处理方法及装置
CN107193734A (zh) 用于移动Web应用的重放方法及重放系统
CN112286808A (zh) 应用程序的测试方法、装置、电子设备及介质
JP2011198300A (ja) プロセス改善施策評価装置及び方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant