CN110598466A - 离线字段校验方法、装置、设备及计算机可读存储介质 - Google Patents

离线字段校验方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110598466A
CN110598466A CN201910694482.8A CN201910694482A CN110598466A CN 110598466 A CN110598466 A CN 110598466A CN 201910694482 A CN201910694482 A CN 201910694482A CN 110598466 A CN110598466 A CN 110598466A
Authority
CN
China
Prior art keywords
field
data
offline
reference schema
online
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910694482.8A
Other languages
English (en)
Other versions
CN110598466B (zh
Inventor
吴自龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu com Times Technology Beijing Co Ltd
Original Assignee
Baidu com Times Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu com Times Technology Beijing Co Ltd filed Critical Baidu com Times Technology Beijing Co Ltd
Priority to CN201910694482.8A priority Critical patent/CN110598466B/zh
Publication of CN110598466A publication Critical patent/CN110598466A/zh
Application granted granted Critical
Publication of CN110598466B publication Critical patent/CN110598466B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种离线字段校验方法、装置、设备及计算机可读存储介质,方法包括:通过预设的消息中间件,从线上字段数据中获取离线字段数据;对所述离线字段数据进行数据处理,获得样本数据;根据所述样本数据生成基准Schema;通过所述基准Schema对所述消息中间件实时获取到的离线字段数据的合法性进行校验,获得校验结果。从而能够在实现对线上字段数据合法性验证的同时,节约计算资源,并提高在线业务的数据时效性。

Description

离线字段校验方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及计算机领域,尤其涉及一种离线字段校验方法、装置、设备及计算机可读存储介质。
背景技术
在互联网信息流推荐技术中,海量的数据需要做各种策略处理,内容存储,无数的字段被产生,一级字段嵌套二级字段,甚至多级字段,这些字段共同构成一条完整的数据消息。这些消息在数据流上进行流动的过程中,经过一系列模块的处理,融合,交叉改变,促成了字段数量的爆炸性增长以及字段和值的多样性和不可预测性。这种不可预测性,往往会给系统带来很多安全隐患,比如相同字段类型的多样性,理论上一个字段在客户端和服务端协议好的格式下,应该有且只有一种类型,这种类型在整个系统中自始至终应该保持高度一致,如果类型发生变更,出现了二义性,可能会导致系统宕机等风险。
为了实现对字段的校验,现有技术中一般都是在线对字段进行校验。具体地,服务端接收到客户端发送的数据时,线上对该数据进行字段校验,并将校验成功的字段对应的数据存储至预设的存储路径中。
但是,采用上述方法进行字段校验时,在字段类型、值校验方面比较有优势,但是由于需要对全量字段的值和类型进行校验,当字段层级较多时,校验复杂度也随之上升,而且,全量字段基准化配置xml文件的生成工作的繁琐程度也将随之升高,占用线上计算资源较多,因此当数据字段和层级比较庞大的情况下,在线业务的数据时效性也会受到影响。
发明内容
本发明提供一种离线字段校验方法、装置、设备及计算机可读存储介质,用于解决现有的字段校验技术在线上字段校验过程中,占用线上计算资源较多,时效性较差的技术问题。
本发明的第一个方面是提供一种离线字段校验方法,包括:
通过预设的消息中间件,从线上字段数据中获取离线字段数据;
对所述离线字段数据进行数据处理,获得样本数据;
根据所述样本数据生成基准Schema;
通过所述基准Schema对所述消息中间件实时获取到的离线字段数据的合法性进行校验,获得校验结果。
本发明的另一个方面是提供一种离线字段校验装置,包括:
获取模块,用于通过预设的消息中间件,从线上字段数据中获取离线字段数据;
数据处理模块,用于对所述离线字段数据进行数据处理,获得样本数据;
生成模块,用于根据所述样本数据生成基准Schema;
校验模块,用于通过所述基准Schema对所述消息中间件实时获取到的离线字段数据的合法性进行校验,获得校验结果。
本发明的又一个方面是提供一种离线字段校验设备,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:由所述处理器执行如第一方面所述的离线字段校验方法。
本发明的又一个方面是提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所述的离线字段校验方法。
本发明提供的离线字段校验方法、装置、设备及计算机可读存储介质,通过采用预设的消息中间件对线上字段数据引流至线下,获得离线字段数据,并对离线字段数据进行数据处理,获得样本数据,通过该样本数据生成基准Schema,通过基准Schema对消息中间件实时获取到的离线字段数据的合法性进行校验,从而能够在实现对线上字段数据合法性验证的同时,节约计算资源,并提高在线业务的数据时效性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的离线字段校验方法的流程示意图;
图2为本发明实施例二提供的离线字段校验方法的流程示意图;
图3为本发明实施例三提供的离线字段校验装置的结构示意图;
图4为本发明实施例四提供的离线字段校验设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例所获得的所有其他实施例,都属于本发明保护的范围。
针对上述提及的现有的字段校验技术在线上字段校验过程中,占用线上计算资源较多,时效性较差的技术问题,本发明提供了一种离线字段校验方法、装置、设备及计算机可读存储介质。
需要说明的是,本申请提供离线字段校验方法、装置、设备及计算机可读存储介质可运用在对任意一种字段合法性的校验场景中。
图1为本发明实施例一提供的离线字段校验方法的流程示意图,如图1所示,所述方法包括:
步骤101、通过预设的消息中间件,从线上字段数据中获取离线字段数据。
本实施例的执行主体为离线字段校验装置。为了实现对字段合法性的离线校验,获取到在线字段数据之后,可以对该在线字段数据进行引流操作,将在线字段数据引流至线下。具体地,可以通过预设的消息中间件,从线上字段数据中获取离线字段数据。其中,该消息中间件利用高效可靠的消息传递机制将在线字段数据引流至线下,从而可以在线下对字段的合法性进行校验,不会对线上的数据传输以及系统运行造成影响。可以采用任意一种中间件实现对在线字段数据的引流操作,例如Active Messenger等,本发明在此不做限制。
步骤102、对所述离线字段数据进行数据处理,获得样本数据。
在本实施方式中,由于在线字段数据的数据量较为庞大,且在线字段数据中部分数据不符合预设的格式要求,因此,为了提高基准Schema的生成效率,可以预先对离线字段数据进行数据处理,获得样本数据。进一步地,可以将该样本数据存储至预设的样本存储中,以便后续调用。
步骤103、根据所述样本数据生成基准Schema。
步骤104、通过所述基准Schema对所述消息中间件实时获取到的离线字段数据的合法性进行校验,获得校验结果。
在本实施方式中,由于样本数据中包括大量的字段数据,而不同的字段数据具有不同的字段类型,因此,可以根据样本数据生成基准Schema,其中,基准Schema中包括各字段的正确字段类型。由于部分在线字段数据中的字段数据类型不正确,因此,为了实现对字段类型不正确的在线字段数据的及时发现以及处理,可以通过基准Schema对消息中间件实时获取到的离线字段数据的合法性进行校验,获得校验结果。以实际应用举例来说,针对离线字段数据中的字段A,可以将字段A的字段类型与基准Schema中记录的正确字段类型进行比对,若二者一致,则可以判定字段A合法。相应地,若二者不一致,则可以判定字段A不合法。需要对该字段A进行删除等操作。
本实施例提供的离线字段校验方法,通过采用预设的消息中间件对线上字段数据引流至线下,获得离线字段数据,并对离线字段数据进行数据处理,获得样本数据,通过该样本数据生成基准Schema,通过基准Schema对消息中间件实时获取到的离线字段数据的合法性进行校验,从而能够在实现对线上字段数据合法性验证的同时,节约计算资源,并提高在线业务的数据时效性。
进一步地,在上述任一实施例的基础上,步骤102具体包括:
对所述离线字段数据的字段格式进行初步验证;
对初步验证成功的离线字段数据按照预设的抽样规则进行抽样操作,获得所述处理后的离线字段数据。
在本实施例中,由于在线字段数据的数据量较为庞大,且在线字段数据中部分数据不符合预设的格式要求,因此,为了提高基准Schema的生成效率,可以预先对离线字段数据进行数据处理。具体地,首先可以对离线字段数据的字段格式进行初步验证。实际应用中,在线数据传输过程中,若检测到某一字段的字段格式有误,则可以直接将包含该字段的数据丢弃,因此,为了节约计算资源,在合法性验证过程中,也可以不对字段格式有误的离线字段数据进行验证。
具体地,所述对所述离线字段数据的字段格式进行初步验证,包括:
判断所述离线字段数据的字段格式是否满足预设的标准格式,将满足预设的标准格式的离线字段数据作为初步验证成功的离线字段数据。
具体地,为了实现对字段格式有误的离线字段数据的验证,可以将离线字段数据的字段格式与预设的标准格式进行比对,当离线字段数据的字段格式满足预设的标准格式时,将其作为初步验证成功的离线字段数据;相应地,若离线字段数据的字段格式不满足预设的标准格式时,可以直接将包含该字段的数据丢弃,不对其进行合法性验证。从而能够有效地提高基准Schema的生成效率。
进一步地,在获得初步验证成功的离线字段数据之后,由于初步验证成功的离线字段数据中的数据量较大,为了进一步地提高基准Schema的生成效率,节约计算资源,可以对初步验证成功的离线字段数据按照预设的抽样规则进行抽样操作,获得处理后的离线字段数据,将该离线字段数据存储至预设的样本存储中。其中,可以按照字段的某一特征进行抽样,举例来说,可以根据数字/N得到的余数进行抽样。也可以采用其他特征进行抽样操作,本发明在此不做限制。
本实施例提供的离线字段校验方法,通过对离线字段数据进行数据处理,从而能够大大地减少用于生成基准Schema的处理后的离线字段数据的数据量,提高基准Schema的生成效率,为后续的离线字段校验提供了基础。
图2为本发明实施例二提供的离线字段校验方法的流程示意图,在上述任一实施例的基础上,如图2所示,步骤103具体包括:
步骤201、针对所述样本数据中的每一字段,对所述字段的字段类型进行统计,获得统计结果,其中,所述样本数据中包括至少一个层级的字段;
步骤202、根据所述统计结果中出现次数最多的字段类型生成所述待优化基准Schema;
步骤203、通过所述待优化基准Schema对所述线上字段数据进行校验,获得线上字段校验结果;
步骤204、根据所述线上字段校验结果对所述待优化基准Schema进行优化操作,获得所述基准Schema。
在本实施例中,样本数据中可以包括很多字段,针对每一字段,其均具有不同的字段类型,因此,可以对字段的字段类型进行统计,将统计结果中出现次数最多的字段类型作为该字段的标准字段类型,根据多个标准字段类型生成待优化基准Schema。以实际应用举例来说,针对某一具有多个字段类型的字段A,通过统计发现字段类型为string的数据有200条,字段类型为number的数据有2500条,此时,可以将字段类型number作为字段A的标准字段类型。为了进一步地提高基准Schema的准确性,可以对待优化基准Schema进行优化操作。具体地,可以通过该待优化基准Schema对线上字段数据进行校验,获得线上字段校验结果,根据该线上字段校验结果对待优化基准Schema进行优化操作,获得最终版基准Schema,因此后续可以通过该最终版基准Schema对字段进行合法性验证操作。需要说明的是,样本数据中包括多个层级的字段,因此,针对每一个层级的各字段,均可以对其进行统计,根据统计结果生成待优化基准Schema。例如,样本数据中包括还嵌套层级字段,针对二级、三级甚至更深层级的字段,针对每一层级的字段,可以分别对其字段类型进行统计,并将统计后的字段类型记录至该待优化基准Schema中,从而能够实现对各嵌套层级的字段合法性的验证。
具体地,在上述任一实施例的基础上,步骤204包括:
确定所述线上字段校验结果中是否包括不合法字段;
若包括,则获取所述不合法字段对应的真实写入字段类型;
若所述真实写入字段类型与所述不合法字段当前的字段类型不一致,则根据所述不合法字段对所述待优化基准Schema中的字段类型进行修正操作;
返回执行所述通过所述待优化基准Schema对所述线上字段数据进行校验,获得线上字段校验结果的步骤,直至所述线上字段校验结果中不包括不合法字段。
在本实施例中,通过该待优化基准Schema对线上字段数据进行校验,获得线上字段校验结果之后,首先可以确定线上字段校验结果中是否包含不合法字段。具体地,当线上字段校验结果中包含不合法字段时,一种情况时该字段的真实写入类型有误,另一种情况则表征该待优化基准Schema不够准确。因此,在检测到线上字段校验结果中包含不合法字段时,可以确定该不合法字段对应的真实写入字段类型,若真实写入字段类型与不合法字段的类型一致,则表征该不合法字段为字段写入方写入错误,可以通知写入方对写入方案进行调整。相应地,若真实写入字段类型与不合法字段的类型不一致,则表征待优化基准Schema不够准确,此时可以对该待优化基准Schema不够准确进行优化操作,对待优化基准Schema不够准确中记录的字段类型进行调整。重复执行上述步骤,直至通过待优化基准Schema对线上字段数据进行校验过程中,不再出现不合法字段,获得最终版基准Schema,因此后续可以通过该最终版基准Schema对字段进行合法性验证操作。
本实施例提供的离线字段校验方法,通过根据样本数据生成待优化基准Schema,并通过线上数据对该待优化基准Schema进行不断地修正,从而能够有效地提高基准Schema合法性校验的准确性。
进一步地,在上述任一实施例的基础上,步骤103之后,还包括:
定期根据所述样本数据对所述基准Schema进行更新。
在本实施例中,由于消息中间件一直从线上字段数据中获取离线字段数据,因此,对离线字段数据进行数据处理后获得的样本数据的数据量也不断增多,相应地,字段类型也会发生相应变化。因此,为了提高基准Schema的准确度,可以定期根据更新的样本数据对该基准Schema进行更新,从而可以根据更新后的基准Schema对消息中间件实时获取到的离线字段数据的合法性进行校验。具体地,对基准Schema进行更新的周期可以由用户根据实际需求进行设定,本发明在此不做限制。
本实施例提供的离线字段校验方法,通过定期根据所述样本数据对所述基准Schema进行更新,从而能够进一步地提高基准Schema的精准度以及完整性,在节约线上计算资源的基础上,提高了合法性验证的精准度。
进一步地,在上述任一实施例的基础上,步骤104之后,还包括:
若所述校验结果中包括不合法字段,则通过预设的调用接口控制线上存储模块对包含所述不合法字段的数据进行不合法标识,其中,经过不合法标识后的数据不会在前端显示。
在本实施例中,若根据基准Schema确定离线字段数据中包括不合法字段之后,为了保证系统正常运行,可以对线上包含该不合法字段的数据进行删除操作。具体地,可以通过预设的调用接口控制线上存储字段数据的存储模块对包含该不合法字段的数据进行不合法标识。经过该不合法标识后的数据不会在前端进行显示,进而不会影响前端运行。
可选地,在上述任一实施例的基础上,步骤104之后,还包括:
若所述校验结果中包括不合法字段,则根据所述不合法字段生成日志信息;
将所述日志信息发送至运维人员的移动终端。
在本实施例中,为了使运维人员能够对字段的合法性进行及时的了解以及处理,若校验结果中包括不合法字段,则可以根据不合法字段生成日志信息。并将该日志信息发送至运维人员的移动终端进行显示。
需要说明的是,上述两种实施方式可以单独实施,也可以结合实施。当其结合实施时,若校验结果中包括不合法字段,则可以控制线上对包含该不合法字段的数据进行不合法标识,并根据不合法字段生成日志信息并显示给用户。
本实施例提供的离线字段校验方法,通过在校验结果中包括不合法字段时,对线上字段数据中包括该不合法字段的数据进行不合法标识,以实现逻辑删除,和/或,根据不合法字段生成日志信息并显示给用户,从而能够及时对当前的不合法字段进行及时处理,提高处理的实时性。
图3为本发明实施例三提供的离线字段校验装置的结构示意图,如图3所示,所述装置包括:
获取模块31,用于通过预设的消息中间件,从线上字段数据中获取离线字段数据;
数据处理模块32,用于对所述离线字段数据进行数据处理,获得样本数据;
生成模块33,用于根据所述样本数据生成基准Schema;
校验模块34,用于通过所述基准Schema对所述消息中间件实时获取到的离线字段数据的合法性进行校验,获得校验结果。
本实施例提供的离线字段校验装置,通过采用预设的消息中间件对线上字段数据引流至线下,获得离线字段数据,并对离线字段数据进行数据处理,获得样本数据,通过该样本数据生成基准Schema,通过基准Schema对消息中间件实时获取到的离线字段数据的合法性进行校验,从而能够在实现对线上字段数据合法性验证的同时,节约计算资源,并提高在线业务的数据时效性。
进一步地,在上述任一实施例的基础上,所述数据处理模块包括:
初步验证单元,用于对所述离线字段数据的字段格式进行初步验证;
抽样单元,用于对初步验证成功的离线字段数据按照预设的抽样规则进行抽样操作,获得所述样本数据。
进一步地,在上述任一实施例的基础上,所述初步验证单元具体用于:
判断所述离线字段数据的字段格式是否满足预设的标准格式,将满足预设的标准格式的离线字段数据作为初步验证成功的离线字段数据。
进一步地,在上述任一实施例的基础上,所述生成模块,用于包括:
统计单元,用于针对所述样本数据中的每一字段,对所述字段的字段类型进行统计,获得统计结果;
待优化基准Schema生成单元,用于根据所述统计结果中出现次数最多的字段类型生成所述待优化基准Schema,其中,所述样本数据中包括至少一个层级的字段;
校验单元,用于通过所述待优化基准Schema对所述线上字段数据进行校验,获得线上字段校验结果;
优化单元,用于根据所述线上字段校验结果对所述待优化基准Schema进行优化操作,获得所述基准Schema。
进一步地,在上述任一实施例的基础上,所述优化单元,具体用于:
确定所述线上字段校验结果中是否包括不合法字段;
若包括,则获取所述不合法字段对应的真实写入字段类型;
若所述真实写入字段类型与所述不合法字段当前的字段类型不一致,则根据所述不合法字段对所述待优化基准Schema中的字段类型进行修正操作;
返回执行所述通过所述待优化基准Schema对所述线上字段数据进行校验,获得线上字段校验结果的步骤,直至所述线上字段校验结果中不包括不合法字段。
进一步地,在上述任一实施例的基础上,所述组织还包括:
更新模块,用于定期根据所述样本数据对所述基准Schema进行更新。
进一步地,在上述任一实施例的基础上,所述装置还包括:
标识模块,用于若所述校验结果中包括不合法字段,则通过预设的调用接口控制线上存储模块对包含所述不合法字段的数据进行不合法标识,其中,经过不合法标识后的数据不会在前端显示。
进一步地,在上述任一实施例的基础上,所述装置还包括:
日志生成模块,用于若所述校验结果中包括不合法字段,则根据所述不合法字段生成日志信息;
发送模块,用于将所述日志信息发送至运维人员的移动终端。
图4为本发明实施例四提供的离线字段校验设备的结构示意图,如图4所示,所述离线字段校验设备包括:存储器41,处理器42;
存储器41;用于存储所述处理器42可执行指令的存储器41;
其中,所述处理器42被配置为:由所述处理器42执行如上述任一实施例所述的离线字段校验方法。
本发明又一实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述任一实施例所述的离线字段校验方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (11)

1.一种离线字段校验方法,其特征在于,包括:
通过预设的消息中间件,从线上字段数据中获取离线字段数据;
对所述离线字段数据进行数据处理,获得样本数据;
根据所述样本数据生成基准Schema;
通过所述基准Schema对所述消息中间件实时获取到的离线字段数据的合法性进行校验,获得校验结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述离线字段数据进行数据处理,获得样本数据,包括:
对所述离线字段数据的字段格式进行初步验证;
对初步验证成功的离线字段数据按照预设的抽样规则进行抽样操作,获得所述样本数据。
3.根据权利要求2所述的方法,其特征在于,所述对所述离线字段数据的字段格式进行初步验证,包括:
判断所述离线字段数据的字段格式是否满足预设的标准格式,将满足预设的标准格式的离线字段数据作为初步验证成功的离线字段数据。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述样本数据生成基准Schema,包括:
针对所述样本数据中的每一字段,对所述字段的字段类型进行统计,获得统计结果,其中,所述样本数据中包括至少一个层级的字段;
根据所述统计结果中出现次数最多的字段类型生成所述待优化基准Schema;
通过所述待优化基准Schema对所述线上字段数据进行校验,获得线上字段校验结果;
根据所述线上字段校验结果对所述待优化基准Schema进行优化操作,获得所述基准Schema。
5.根据权利要求4所述的方法,其特征在于,所述根据所述线上字段校验结果对所述待优化基准Schema进行优化操作,获得所述基准Schema,包括:
确定所述线上字段校验结果中是否包括不合法字段;
若包括,则获取所述不合法字段对应的真实写入字段类型;
若所述真实写入字段类型与所述不合法字段当前的字段类型不一致,则根据所述不合法字段对所述待优化基准Schema中的字段类型进行修正操作;
返回执行所述通过所述待优化基准Schema对所述线上字段数据进行校验,获得线上字段校验结果的步骤,直至所述线上字段校验结果中不包括不合法字段。
6.根据权利要求1-3、5任一项所述的方法,其特征在于,所述根据所述样本数据生成基准Schema之后,还包括:
定期根据所述样本数据对所述基准Schema进行更新。
7.根据权利要求1-3、5任一项所述的方法,其特征在于,所述通过所述基准Schema对所述消息中间件实时获取到的离线字段数据的合法性进行校验,获得校验结果之后,还包括:
若所述校验结果中包括不合法字段,则通过预设的调用接口控制线上存储模块对包含所述不合法字段的数据进行不合法标识,其中,经过不合法标识后的数据不会在前端显示。
8.根据权利要求1-3、5任一项所述的方法,其特征在于,所述通过所述基准Schema对所述消息中间件实时获取到的离线字段数据的合法性进行校验,获得校验结果之后,还包括:
若所述校验结果中包括不合法字段,则根据所述不合法字段生成日志信息;
将所述日志信息发送至运维人员的移动终端。
9.一种离线字段校验装置,其特征在于,包括:
获取模块,用于通过预设的消息中间件,从线上字段数据中获取离线字段数据;
数据处理模块,用于对所述离线字段数据进行数据处理,获得样本数据;
生成模块,用于根据所述样本数据生成基准Schema;
校验模块,用于通过所述基准Schema对所述消息中间件实时获取到的离线字段数据的合法性进行校验,获得校验结果。
10.一种离线字段校验设备,其特征在于,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:由所述处理器执行如权利要求1-8任一项所述的离线字段校验方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-8任一项所述的离线字段校验方法。
CN201910694482.8A 2019-07-30 2019-07-30 离线字段校验方法、装置、设备及计算机可读存储介质 Active CN110598466B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910694482.8A CN110598466B (zh) 2019-07-30 2019-07-30 离线字段校验方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910694482.8A CN110598466B (zh) 2019-07-30 2019-07-30 离线字段校验方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110598466A true CN110598466A (zh) 2019-12-20
CN110598466B CN110598466B (zh) 2021-06-15

Family

ID=68853132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910694482.8A Active CN110598466B (zh) 2019-07-30 2019-07-30 离线字段校验方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110598466B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114978889A (zh) * 2022-05-13 2022-08-30 厦门兆翔智能科技有限公司 一种机场企业服务总线系统
CN116701381A (zh) * 2023-08-03 2023-09-05 南京莫愁智慧信息科技有限公司 一种分布式数据采集入库用的多级校验系统及校验方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103312698A (zh) * 2013-05-24 2013-09-18 成都秦川科技发展有限公司 离线数据有效性验证方法
US20170061009A1 (en) * 2015-08-24 2017-03-02 Linkedin Corporation Relationship temperature
CN107918865A (zh) * 2017-12-08 2018-04-17 中国平安财产保险股份有限公司 保单数据批改处理方法、装置、服务器和存储介质
CN109471865A (zh) * 2018-11-06 2019-03-15 用友网络科技股份有限公司 一种离线数据管理方法、系统、服务器及存储介质
CN110019269A (zh) * 2017-12-04 2019-07-16 北京京东尚科信息技术有限公司 数据校验的方法、系统及终端设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103312698A (zh) * 2013-05-24 2013-09-18 成都秦川科技发展有限公司 离线数据有效性验证方法
US20170061009A1 (en) * 2015-08-24 2017-03-02 Linkedin Corporation Relationship temperature
CN110019269A (zh) * 2017-12-04 2019-07-16 北京京东尚科信息技术有限公司 数据校验的方法、系统及终端设备
CN107918865A (zh) * 2017-12-08 2018-04-17 中国平安财产保险股份有限公司 保单数据批改处理方法、装置、服务器和存储介质
CN109471865A (zh) * 2018-11-06 2019-03-15 用友网络科技股份有限公司 一种离线数据管理方法、系统、服务器及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114978889A (zh) * 2022-05-13 2022-08-30 厦门兆翔智能科技有限公司 一种机场企业服务总线系统
CN114978889B (zh) * 2022-05-13 2024-04-16 厦门兆翔智能科技有限公司 一种机场企业服务总线系统
CN116701381A (zh) * 2023-08-03 2023-09-05 南京莫愁智慧信息科技有限公司 一种分布式数据采集入库用的多级校验系统及校验方法
CN116701381B (zh) * 2023-08-03 2023-11-03 南京莫愁智慧信息科技有限公司 一种分布式数据采集入库用的多级校验系统及校验方法

Also Published As

Publication number Publication date
CN110598466B (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
CN111666491B (zh) 异常数据查询方法、装置、计算机设备及存储介质
CN111641658A (zh) 一种请求拦截方法、装置、设备及可读存储介质
CN112181804A (zh) 一种参数校验方法、设备以及存储介质
CN110598466B (zh) 离线字段校验方法、装置、设备及计算机可读存储介质
CN107888446B (zh) 一种协议健壮性测试方法及装置
CN105187408A (zh) 网络攻击检测方法和设备
US20230370846A1 (en) Method and apparatus for detecting arbitrary account password reset logic vulnerability, and medium
CN111258798B (zh) 监控数据的故障定位方法、装置、计算机设备及存储介质
US12105687B2 (en) Systems and methods for automated data quality semantic constraint identification using rich data type inferences
CN114650163A (zh) 面向有状态网络协议的模糊测试方法及系统
CN111556080A (zh) 网络节点监控方法、装置、介质及电子设备
CN106713242B (zh) 数据请求的处理方法及处理装置
CN113783860B (zh) 一种基于可视化配置的报文处理方法、装置、设备及存储介质
CN113067802B (zh) 一种用户标识方法、装置、设备及计算机可读存储介质
CN116346961B (zh) 金融报文处理方法、装置、电子设备及存储介质
CN112035366B (zh) 一种测试案例生成方法、装置及设备
US11539730B2 (en) Method, device, and computer program product for abnormality detection
CN111797590B (zh) 数据核对方法、装置和设备
CN111258788B (zh) 磁盘故障预测方法、装置及计算机可读存储介质
CN114492324A (zh) 组件数据统计方法及装置
CN113344576A (zh) 一种业务欺诈监测方法及系统
CN111737242A (zh) 一种监控海量数据处理过程的方法
CN112199082B (zh) 一种http响应处理方法、装置、电子设备及存储介质
CN113301002B (zh) 一种信息处理方法、装置、电子设备以及存储介质
CN118413466B (zh) 基于多源知识引导变异的网络协议模糊测试方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant