CN110704686A - 半结构化数据的质量检测方法、装置、存储介质及设备 - Google Patents

半结构化数据的质量检测方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN110704686A
CN110704686A CN201910950606.4A CN201910950606A CN110704686A CN 110704686 A CN110704686 A CN 110704686A CN 201910950606 A CN201910950606 A CN 201910950606A CN 110704686 A CN110704686 A CN 110704686A
Authority
CN
China
Prior art keywords
target field
semi
detection
structured data
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910950606.4A
Other languages
English (en)
Other versions
CN110704686B (zh
Inventor
胡立杰
张志远
万月亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN201910950606.4A priority Critical patent/CN110704686B/zh
Publication of CN110704686A publication Critical patent/CN110704686A/zh
Application granted granted Critical
Publication of CN110704686B publication Critical patent/CN110704686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种半结构化数据的质量检测方法、装置、存储介质及设备。该方法包括:通过自描述文件确定半结构化数据中目标字段的业务场景标记;根据目标字段的业务场景标记确定半结构化数据的校验模板;其中,所述校验模板还包括针对目标字段的业务场景标记的检测函数;根据所述检测函数,对目标字段以及与目标字段相关联的关联字段进行全局检测,并生成质量检测结果。通过执行本申请所提供的技术方案,可以实现对半结构化数据的各个字段内容进行更加准确的检测的效果。

Description

半结构化数据的质量检测方法、装置、存储介质及设备
技术领域
本申请实施例涉及设备技术领域,尤其涉及一种半结构化数据的质量检测方法、装置、存储介质及设备。
背景技术
随着科技水平的逐渐提高,各种半结构化数据的使用已经广泛应用到各个领域当中。目前,对于半结构化数据的检测方式仍然是对每一个字段进行单一检测的方式。由于这种检测方式是对该字段值进行正则验证,如果通过则数据入库,如果不通过则丢弃数据。这样就会造成如果检测条件被放宽,则大量不能够使用的数据被入库保存,如果检测条件被束紧,则会导致有价值的数据被丢弃。无论出现上述那种现象,都是我们不想看到的。因此,如何进行半结构化数据的检测,已经成为亟待解决的技术难题。
发明内容
本申请实施例提供一种半结构化数据的质量检测方法、装置、存储介质及设备,可以实现对半结构化数据的各个字段内容进行更加准确的检测的效果。
第一方面,本申请实施例提供了一种半结构化数据的质量检测方法,所述方法包括:
通过自描述文件确定半结构化数据中目标字段的业务场景标记;
根据目标字段的业务场景标记确定半结构化数据的校验模板;其中,所述校验模板还包括针对目标字段的业务场景标记的检测函数;
根据所述检测函数,对目标字段以及与目标字段相关联的关联字段进行全局检测,并生成质量检测结果。
可选的,所述方法还包括:
定义数据检测接口,通过所述数据检测接口对半结构化数据进行检测。
可选的,所述检测函数的命名与检测函数用来进行检测的带有业务场景标记目标字段的业务场景标记名称相关联。
可选的,所述检测函数是根据目标字段在所述半结构化数据中的位置、目标字段的业务场景标记的业务规则以及目标字段在半结构化数据中与其他字段之间的关联关系确定的。
可选的,在生成质量检测结果之后,所述方法还包括:
若所述生成质量检测结果为目标字段内容合理,则将所述目标字段进行入库处理;若所述生成质量检测结果为目标字段内容不合理,则将所述目标字段输出到检测错误目录。
第二方面,本申请实施例还提供了一种半结构化数据的质量检测装置,包括:
业务场景标记获取模块,用于通过自描述文件确定半结构化数据中目标字段的业务场景标记;
校验模板确定模块,用于根据目标字段的业务场景标记确定半结构化数据的校验模板;其中,所述校验模板还包括针对目标字段的业务场景标记的检测函数;
检测结果生成模块,用于根据所述检测函数,对目标字段以及与目标字段相关联的关联字段进行全局检测,并生成质量检测结果。
可选的,所述装置还包括:
检测接口确定模块,用于定义数据检测接口,通过所述数据检测接口对半结构化数据进行检测。
可选的,所述检测函数的命名与检测函数用来进行检测的带有业务场景标记目标字段的业务场景标记名称相关联。
可选的,所述检测函数是根据目标字段在所述半结构化数据中的位置、目标字段的业务场景标记的业务规则以及目标字段在半结构化数据中与其他字段之间的关联关系确定的。
可选的,所述装置还包括:
记录模块,用于若所述生成质量检测结果为目标字段内容合理,则将所述目标字段进行入库处理;若所述生成质量检测结果为目标字段内容不合理,则将所述目标字段输出到检测错误目录。
第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的半结构化数据的质量检测方法。
第四方面,本申请实施例提供了一种设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例所述的半结构化数据的质量检测方法。
本申请实施例所提供的技术方案,所述方法包括:通过自描述文件确定半结构化数据中目标字段的业务场景标记;根据目标字段的业务场景标记确定半结构化数据的校验模板;其中,所述校验模板还包括针对目标字段的业务场景标记的检测函数;根据所述检测函数,对目标字段以及与目标字段相关联的关联字段进行全局检测,并生成质量检测结果。通过采用本申请所提供的技术方案,可以实现对半结构化数据的各个字段内容进行更加准确的检测的效果。
附图说明
图1是本申请实施例一提供的半结构化数据的质量检测方法的流程图;
图2是本申请实施例二提供的数据验证流程的示意图;
图3是本申请实施例三提供的半结构化数据的质量检测装置的结构示意图;
图4是本申请实施例五提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1是本申请实施例一提供的半结构化数据的质量检测方法的流程图,本实施例可适用于对半结构化数据进行质量检测的情况。该方法可以由本申请实施例所提供的半结构化数据的质量检测装置执行,该装置可以由软件和/或硬件的方式来实现,并可集成于智能手机、电脑等电子设备中。
如图1所示,所述半结构化数据的质量检测方法包括:
S110、通过自描述文件确定半结构化数据中目标字段的业务场景标记。
其中,半结构化数据可以是txt、bcp、excel、csv格式的数据,还可以是其他格式的数据。半结构化数据中可以包括多条数据,每个数据可以包括多个字段。其中,每个字段都有自己的实际业务场景,对于每个字段的业务场景的描述就存储在自描述文件当中。例如一个半结构化数据,可以是包括5个字段,其中第1个字段和第3个字段对应一种业务场景,第2个字段、第4个字段以及第5个字段对应另一种业务场景。可以通过自描述文件的描述,可以确定半结构化数据的每个字段的业务场景,进而可以确定各个字段之间是否存在关联关系。
S120、根据目标字段的业务场景标记确定半结构化数据的校验模板;其中,所述校验模板还包括针对目标字段的业务场景标记的检测函数。
可以确定半结构化数据的某些具有重要意义的字段作为目标字段,还可以是将每个字段都作为半结构化数据的目标字段。可以根据目标字段的业务场景确定半结构化数据的校验模板。其中,校验模板可以包括根据目标字段的业务场景标记所确定的检测函数。例如当前目标字段的业务场景标记为租房订单数据,则检测函数可以是与租房业务相关的检测逻辑。如当前目标字段的业务场景标记为出租车订单数据,则检测函数可以是与出租车业务相关的检测逻辑。例如在租房订单中,可以根据租房起始时间、终止时间以及租房单价三个字段可以存在关联关系,并且按照租房业务的相关规则,编写检测函数,对这三个字段同时进行检测。
S130、根据所述检测函数,对目标字段以及与目标字段相关联的关联字段进行全局检测,并生成质量检测结果。
确定目标字段之后,可以根据目标字段的业务场景标记确定关联字段。其中关联字段可以是与目标字段业务场景标记一致的字段,也可以是存在关联关系的字段。在确定校验模板之后,可以根据检测函数,对目标字段以及与目标字段相关联的关联字段进行全局检测,并生成质量检测结果。其中全局检测可以是对目标字段和关联字段同时进行检测。这样的检测方式不仅可以检测目标字段自身是否符合标准,还可以根据各字段之间的关联关系对半结构化数据进行校验。
在通过检测函数进行全局检测之后,可以生成检测结果,即对检测结果进行记录,供用户查看。
在本实施例中,可选的,在生成质量检测结果之后,所述方法还包括:若所述生成质量检测结果为目标字段内容合理,则将所述目标字段进行入库处理;若所述生成质量检测结果为目标字段内容不合理,则将所述目标字段输出到检测错误目录。其中如果是检测目标字段都内容合理的情况下,则将半结构化数据进行入库处理,或者将合格的目标字段进行提取,并进行入库处理。如果检测不合理,则可以将不合理的字段,这里包括目标字段还有关联字段,输出到检测错误目录中,供工作人员进行检查并处理。本技术方案这样设置的好处是可以提高半结构化数据的检测结果的准确性,并且能够使得存在问题的数据进行记录,供工作人员进行检查,以提高半结构化数据的检测质量。
本申请实施例所提供的技术方案,所述方法包括:通过自描述文件确定半结构化数据中目标字段的业务场景标记;根据目标字段的业务场景标记确定半结构化数据的校验模板;其中,所述校验模板还包括针对目标字段的业务场景标记的检测函数;根据所述检测函数,对目标字段以及与目标字段相关联的关联字段进行全局检测,并生成质量检测结果。通过采用本申请所提供的技术方案,可以实现对半结构化数据的各个字段内容进行更加准确的检测的效果。
在上述各技术方案的基础上,可选的,所述方法还包括:定义数据检测接口,通过所述数据检测接口对半结构化数据进行检测。在本技术方案中,可以预先定义一个数据检测接口,该检测接口可以提供各检测函数实现的方法,这样针对各种半结构化数据,只要配置相应的检测函数即可,具体的实现方法可以通过实现该接口所提供的方法来实现,从而减小工作人员对检测函数的编写工作量,以及大多数情况需要进行重复编写的问题。
在上述各技术方案的基础上,可选的,所述检测函数的命名与检测函数用来进行检测的带有业务场景标记目标字段的业务场景标记名称相关联。在本技术方案中,为了便于业务场景相同或者相关联的字段的校验准确性,可以通过将检测函数的命名中带有业务标签标记的名称的方式,来提高检测函数的使用的准确性。
在上述各技术方案的基础上,可选的,所述检测函数是根据目标字段在所述半结构化数据中的位置、目标字段的业务场景标记的业务规则以及目标字段在半结构化数据中与其他字段之间的关联关系确定的。其中,与目标字段相关联的关联字段,可以是根据目标字段在半结构化数据中的位置来确定,或者根据目标字段的业务场景标记的业务规则来确定,还可以是根据目标字段在半结构化数据中与其他字段之间的关联关系确定。本技术方案这样设置的好处是可以准确的确定同时检测多个字段时多个字段的关联关系,以便正确的对半结构化数据进行检测,从而提高半结构化数据的检测质量。
实施例二
为了能够让本领域技术人员更加清楚的了解本方案,本申请还提供了一个优选的实施方式。
本发明是针对带有xml格式自描述文件的半结构化数据的一种校验方法,本发明公开了其数据质量检测方法。
本发明解决的技术问题:本发明的目的是提供一种多字段数据质量验证方法,通过对一条数据的所有字段进行联合校验来判断一条数据的合规性。
为实现上述目的,本发明的解决方案是:
一种半结构化数据质量检测方法,它包括:
a.根据自描述xml文件配置数据验证模板:通常单字段的验证规则包括是对该字段值做是否必填和正则表达式验证,多字段的联合验证规则是对字段设置校验函数进行验证。
b.字段校验函数的编写,字段对应校验函数的入参包括:字段所在数据验证模板、字段所在的整条数据。那么字段校验函数的入参里带有整条数据和数据的业务场景标记和数据的关联关系等全部信息,就可以根据业务规则和字段间的关联关系等编写校验规则验证该字段的合理性,从而判断该条数据的合规性。
本发明的一种多字段数据质量验证方法包括以下步骤:
a.对半结构化数据进行分析找出数据的关键字段,对数据的应用场景进行分析判断关键字段与其它字段的关联关系总结出业务规则写成各类校验函数;
b.配置校验模板,校验模板与半结构化数据进行映射,校验模板包括文件信息标记和字段信息标记,字段信息含有详细描述字段属性的元数据和字段校验函数。
c.读取半结构化数据并与校验模板匹配;
d.循环遍历每条数据,对需要验证的字段匹配字段校验函数进行数据验证。
本发明的优点和积极效果:
由于本发明中,将一条数据作为一个整体进行评估验证,而不是简单的对某一个字段值进行验证来推断这条数据的合规性,这种方法涵盖某个体字段的判断也包括整条数据的判断,非常灵活方便,适应不同的半结构化数据验证场景。另外,本发明不用增加额外的硬件配置。
先定义一个数据校验接口,里边定义一个校验方法包括2个参数:模板参数,数据参数。不同的字段校验函数统一实现该接口的校验方法,便于后续字段校验使用统一接口进行校验。根据自描述文件配置数据校验模板,将字段校验的具体函数类配置到对应字段。程序初始化时读取配置文件,当有数据进来时读取数据与克隆的校验模板匹配,遍历数据对配有校验函数的字段使用统一接口进行校验,按校验函数里的规则验证该字段是否通过,当有false返回时跳出判断,表明该数据未通过。
图2是本申请实施例二提供的数据验证流程的示意图。其数据验证流程如图2所示,具体如下:
定义数据校验接口,该接口提供一个数据校验方法,后边的校验函数全部实现该接口方法,系统默认调用该接口方法进行数据验证。
按照业务场景定义各类关键字段的校验逻辑编写校验函数实现前述内容的统一接口方法,使用同一接口的好处就是所有实现该接口的函数系统都可以通过该接口统一调用。校验函数的命名要带有业务标记便于配置选择。
配置数据校验模板,将校验函数配置到对应关键字段。系统初始化时读取所有配置信息。
读取半结构化数据,系统根据自描述文件找到对应的数据校验模板,克隆出一份数据校验模板套接到当前数据。
使用模板里的元数据信息和校验函数对数据作全局分析验证。
通过采用上述技术方案,可以实现对半结构化数据的各个字段内容进行更加准确的检测的效果。
实施例三
图3是本申请实施例三提供的半结构化数据的质量检测装置的结构示意图。如图3所示,所述半结构化数据的质量检测装置,包括:
业务场景标记获取模块310,用于通过自描述文件确定半结构化数据中目标字段的业务场景标记;
校验模板确定模块320,用于根据目标字段的业务场景标记确定半结构化数据的校验模板;其中,所述校验模板还包括针对目标字段的业务场景标记的检测函数;
检测结果生成模块330,用于根据所述检测函数,对目标字段以及与目标字段相关联的关联字段进行全局检测,并生成质量检测结果。
本申请实施例所提供的技术方案,所述方法包括:通过自描述文件确定半结构化数据中目标字段的业务场景标记;根据目标字段的业务场景标记确定半结构化数据的校验模板;其中,所述校验模板还包括针对目标字段的业务场景标记的检测函数;根据所述检测函数,对目标字段以及与目标字段相关联的关联字段进行全局检测,并生成质量检测结果。通过采用本申请所提供的技术方案,可以实现对半结构化数据的各个字段内容进行更加准确的检测的效果。
可选的,所述装置还包括:
检测接口确定模块,用于定义数据检测接口,通过所述数据检测接口对半结构化数据进行检测。
可选的,所述检测函数的命名与检测函数用来进行检测的带有业务场景标记目标字段的业务场景标记名称相关联。
可选的,所述检测函数是根据目标字段在所述半结构化数据中的位置、目标字段的业务场景标记的业务规则以及目标字段在半结构化数据中与其他字段之间的关联关系确定的。
可选的,所述装置还包括:
记录模块,用于若所述生成质量检测结果为目标字段内容合理,则将所述目标字段进行入库处理;若所述生成质量检测结果为目标字段内容不合理,则将所述目标字段输出到检测错误目录。
上述产品可执行本申请任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
实施例四
本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种半结构化数据的质量检测方法,该方法包括:
通过自描述文件确定半结构化数据中目标字段的业务场景标记;
根据目标字段的业务场景标记确定半结构化数据的校验模板;其中,所述校验模板还包括针对目标字段的业务场景标记的检测函数;
根据所述检测函数,对目标字段以及与目标字段相关联的关联字段进行全局检测,并生成质量检测结果。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到计算机系统。第二计算机系统可以提供程序指令给计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的半结构化数据的质量检测操作,还可以执行本申请任意实施例所提供的半结构化数据的质量检测方法中的相关操作。
实施例五
本申请实施例提供了一种设备,该设备中可集成本申请实施例提供的半结构化数据的质量检测装置。图4是本申请实施例五提供的一种设备的结构示意图。如图4所示,本实施例提供了一种设备400,其包括:一个或多个处理器420;存储装置410,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器420执行,使得所述一个或多个处理器420实现本申请实施例所提供的半结构化数据的质量检测方法,该方法包括:
通过自描述文件确定半结构化数据中目标字段的业务场景标记;
根据目标字段的业务场景标记确定半结构化数据的校验模板;其中,所述校验模板还包括针对目标字段的业务场景标记的检测函数;
根据所述检测函数,对目标字段以及与目标字段相关联的关联字段进行全局检测,并生成质量检测结果。
当然,本领域技术人员可以理解,处理器420还可以实现本申请任意实施例所提供的半结构化数据的质量检测方法的技术方案。
图4显示的设备400仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图4所示,该设备400包括处理器420、存储装置410、输入装置430和输出装置440;设备中处理器420的数量可以是一个或多个,图4中以一个处理器420为例;设备中的处理器420、存储装置410、输入装置430和输出装置440可以通过总线或其他方式连接,图4中以通过总线450连接为例。
存储装置410作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请实施例中的半结构化数据的质量检测方法对应的程序指令。
存储装置410可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储装置410可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置410可进一步包括相对于处理器420远程设置的存储器,这些远程存储器可以通过网络连接。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置430可用于接收输入的数字、字符信息或语音信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏、扬声器等设备。
本申请实施例提供的设备,可以实现对半结构化数据的各个字段内容进行更加准确的检测的效果。
上述实施例中提供的半结构化数据的质量检测装置、存储介质及设备可执行本申请任意实施例所提供的半结构化数据的质量检测方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的半结构化数据的质量检测方法。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。

Claims (10)

1.一种半结构化数据的质量检测方法,其特征在于,包括:
通过自描述文件确定半结构化数据中目标字段的业务场景标记;
根据目标字段的业务场景标记确定半结构化数据的校验模板;其中,所述校验模板还包括针对目标字段的业务场景标记的检测函数;
根据所述检测函数,对目标字段以及与目标字段相关联的关联字段进行全局检测,并生成质量检测结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
定义数据检测接口,通过所述数据检测接口对半结构化数据进行检测。
3.根据权利要求1所述的方法,其特征在于,所述检测函数的命名与检测函数用来进行检测的带有业务场景标记目标字段的业务场景标记名称相关联。
4.根据权利要求1所述的方法,其特征在于,所述检测函数是根据目标字段在所述半结构化数据中的位置、目标字段的业务场景标记的业务规则以及目标字段在半结构化数据中与其他字段之间的关联关系确定的。
5.根据权利要求1所述的方法,其特征在于,在生成质量检测结果之后,所述方法还包括:
若所述生成质量检测结果为目标字段内容合理,则将所述目标字段进行入库处理;若所述生成质量检测结果为目标字段内容不合理,则将所述目标字段输出到检测错误目录。
6.一种半结构化数据的质量检测装置,其特征在于,包括:
业务场景标记获取模块,用于通过自描述文件确定半结构化数据中目标字段的业务场景标记;
校验模板确定模块,用于根据目标字段的业务场景标记确定半结构化数据的校验模板;其中,所述校验模板还包括针对目标字段的业务场景标记的检测函数;
检测结果生成模块,用于根据所述检测函数,对目标字段以及与目标字段相关联的关联字段进行全局检测,并生成质量检测结果。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
检测接口确定模块,用于定义数据检测接口,通过所述数据检测接口对半结构化数据进行检测。
8.根据权利要求6所述的装置,其特征在于,所述检测函数的命名与检测函数用来进行检测的带有业务场景标记目标字段的业务场景标记名称相关联。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的半结构化数据的质量检测方法。
10.一种设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的半结构化数据的质量检测方法。
CN201910950606.4A 2019-10-08 2019-10-08 半结构化数据的质量检测方法、装置、存储介质及设备 Active CN110704686B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910950606.4A CN110704686B (zh) 2019-10-08 2019-10-08 半结构化数据的质量检测方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910950606.4A CN110704686B (zh) 2019-10-08 2019-10-08 半结构化数据的质量检测方法、装置、存储介质及设备

Publications (2)

Publication Number Publication Date
CN110704686A true CN110704686A (zh) 2020-01-17
CN110704686B CN110704686B (zh) 2022-03-18

Family

ID=69196924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910950606.4A Active CN110704686B (zh) 2019-10-08 2019-10-08 半结构化数据的质量检测方法、装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN110704686B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111552713A (zh) * 2020-04-30 2020-08-18 国网信息通信产业集团有限公司 一种数据校验方法及装置
CN114547016A (zh) * 2022-04-26 2022-05-27 支付宝(杭州)信息技术有限公司 数据校验方法以及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021890A (zh) * 2007-03-20 2007-08-22 华为技术有限公司 一种对页面数据进行校验的方法、系统和服务器
CN101105770A (zh) * 2007-08-31 2008-01-16 金蝶软件(中国)有限公司 一种模板测试方法及装置
US20100088343A1 (en) * 2008-10-06 2010-04-08 Itzhack Goldberg Customized Context Menu for Files Based on Their Content
CN105701199A (zh) * 2016-01-08 2016-06-22 广东电网有限责任公司信息中心 一种数据依赖的数据质量检测方法及装置
US20160357809A1 (en) * 2015-06-02 2016-12-08 Vmware, Inc. Dynamically converting search-time fields to ingest-time fields
CN107016025A (zh) * 2016-11-17 2017-08-04 阿里巴巴集团控股有限公司 一种非关系型数据库索引的建立方法及装置
CN109491990A (zh) * 2018-09-17 2019-03-19 武汉达梦数据库有限公司 一种检测数据质量的方法以及检测数据质量的装置
CN109753516A (zh) * 2019-01-31 2019-05-14 北京嘉和美康信息技术有限公司 一种病历搜索结果的排序方法和相关装置
CN110287383A (zh) * 2019-06-28 2019-09-27 深圳前海微众银行股份有限公司 一种字段信息检验方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021890A (zh) * 2007-03-20 2007-08-22 华为技术有限公司 一种对页面数据进行校验的方法、系统和服务器
CN101105770A (zh) * 2007-08-31 2008-01-16 金蝶软件(中国)有限公司 一种模板测试方法及装置
US20100088343A1 (en) * 2008-10-06 2010-04-08 Itzhack Goldberg Customized Context Menu for Files Based on Their Content
US20160357809A1 (en) * 2015-06-02 2016-12-08 Vmware, Inc. Dynamically converting search-time fields to ingest-time fields
CN105701199A (zh) * 2016-01-08 2016-06-22 广东电网有限责任公司信息中心 一种数据依赖的数据质量检测方法及装置
CN107016025A (zh) * 2016-11-17 2017-08-04 阿里巴巴集团控股有限公司 一种非关系型数据库索引的建立方法及装置
CN109491990A (zh) * 2018-09-17 2019-03-19 武汉达梦数据库有限公司 一种检测数据质量的方法以及检测数据质量的装置
CN109753516A (zh) * 2019-01-31 2019-05-14 北京嘉和美康信息技术有限公司 一种病历搜索结果的排序方法和相关装置
CN110287383A (zh) * 2019-06-28 2019-09-27 深圳前海微众银行股份有限公司 一种字段信息检验方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111552713A (zh) * 2020-04-30 2020-08-18 国网信息通信产业集团有限公司 一种数据校验方法及装置
CN114547016A (zh) * 2022-04-26 2022-05-27 支付宝(杭州)信息技术有限公司 数据校验方法以及装置

Also Published As

Publication number Publication date
CN110704686B (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
CN111428462B (zh) 通讯协议模板构建的方法及终端设备
CN107122296B (zh) 用于测试接口的数据断言的方法及设备
CN107092535B (zh) 用于测试接口的数据存储的方法及设备
CN104461894A (zh) 安卓软件的操作录制装置和方法
CN110704686B (zh) 半结构化数据的质量检测方法、装置、存储介质及设备
US8448138B2 (en) Recording user-driven events within a computing system
WO2020237508A1 (zh) 一种断言验证代码绑定方法及装置
CN111277695B (zh) 一种数据校验方法及设备
CN110688245B (zh) 信息获取方法、装置、存储介质及设备
CN110134538B (zh) 快速定位问题日志的方法、装置、介质和电子设备
CN112367220A (zh) 一种接口测试方法、装置、存储介质及电子设备
CN106201859A (zh) 一种回归测试方法及系统
CN112540808A (zh) 一种程序行为层级调用关系的记录方法及相关设备
US20150154103A1 (en) Method and apparatus for measuring software performance
CN115509904A (zh) 一种接口测试用例的断言生成方法及装置
CN113656301A (zh) 一种接口测试方法、装置、设备及存储介质
CN114510300A (zh) 一种在派生类中嵌入目标对象的方法及设备
CN113760696A (zh) 一种程序问题定位方法、装置、电子设备和存储介质
CN113238940A (zh) 一种接口测试结果的比对方法、装置、设备和存储介质
CN110532186B (zh) 利用验证码进行测试的方法、装置、电子设备和存储介质
CN112632211A (zh) 用于移动机器人的语义信息处理方法与设备
CN113010114A (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN112364040B (zh) 一种数据的校对方法、装置、介质及电子设备
CN112783683B (zh) 数据处理方法、装置、设备及存储介质
CN110516439B (zh) 一种检测方法、装置、服务器及计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant