CN114153830B - 数据验证方法及其装置、计算机存储介质、电子设备 - Google Patents

数据验证方法及其装置、计算机存储介质、电子设备 Download PDF

Info

Publication number
CN114153830B
CN114153830B CN202111455043.5A CN202111455043A CN114153830B CN 114153830 B CN114153830 B CN 114153830B CN 202111455043 A CN202111455043 A CN 202111455043A CN 114153830 B CN114153830 B CN 114153830B
Authority
CN
China
Prior art keywords
data
detail
database
detail data
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111455043.5A
Other languages
English (en)
Other versions
CN114153830A (zh
Inventor
纪森予
柯伟
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jindi Technology Co Ltd
Original Assignee
Beijing Jindi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jindi Technology Co Ltd filed Critical Beijing Jindi Technology Co Ltd
Priority to CN202111455043.5A priority Critical patent/CN114153830B/zh
Publication of CN114153830A publication Critical patent/CN114153830A/zh
Application granted granted Critical
Publication of CN114153830B publication Critical patent/CN114153830B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Abstract

本申请实施例提供了一种数据验证方法及其装置、计算机存储介质、电子设备,数据验证方法包括:根据ES数据和对应的详情数据,在基准数据库中进行检索,得到基准ES数据和对应的基准详情数据,其中,所述ES数据根据目标检索词得到,所述详情数据根据所述ES数据得到;比对所述ES数据与所述基准ES数据得到第一验证结果,以及比对所述详情数据与所述基准详情数据得到第二验证结果,从而有效地确定出了错误的ES数据,以及所述错误的详情数据,便于进行错误数据的及时纠错处理。

Description

数据验证方法及其装置、计算机存储介质、电子设备
技术领域
本申请涉及数据处理技术领域,具体涉及一种数据验证方法及其装置、计算机存储介质、电子设备。
背景技术
基于大数据解决方案,通过对收集的企业数据进行清洗分析、整理等一系列深度挖掘,进而提供数据综合查询或分类查询服务,比如查询企业相关的信息,包括投资情况、股东情况等,当这些信息有变化时,还可以查询到变化前后的信息。
但是,现有技术中,为了提高查询效率,设置了中间数据库,查询的企业数据都是来自该中间数据库,而中间数据库的数据往往有误,比如由于同步不及时而导致的错误。
因此,亟待提供一种如何确定中间数据库中数据有误的解决方案。
发明内容
本申请实施例提供一种数据验证方法及其装置、计算机存储介质、电子设备,用以克服或者缓解现有技术中存在的上述技术问题。
本申请采用的技术方案为:
一种数据验证方法,其包括:
根据ES数据和对应的详情数据,在基准数据库中进行检索,得到基准ES数据和对应的基准详情数据,其中,所述ES数据根据目标检索词得到,所述详情数据根据所述ES数据得到;
比对所述ES数据与所述基准ES数据得到第一验证结果,以及比对所述详情数据与所述基准详情数据得到第二验证结果。
可选地,所述根据ES数据和对应的详情数据,在基准数据库中进行检索,得到基准ES数据和对应的基准详情数据之前,包括:
对搜索日志进行解析,从中获取实际使用过的搜索词;
从所述实际使用过的搜索词中,选取目标搜索词;
使用所述目标搜索词在ES数据库中进行检索,以得到与所述目标搜索词匹配的所述ES数据。
可选地,所述从所述实际使用过的搜索词中,选取目标搜索词包括:
统计每个实际使用过的搜索词的频次;
根据所述频次的大小,对所述所有搜索词按照预定的顺序进行排序,以形成搜索词队列,所述顺序为频次从高到低的顺序,或者从低到高的顺序;
按照所述预定的顺序,从所述搜索词队列中获取搜索词,以将每次获取到的搜索词作为所述目标搜索词。
可选地,所述对搜索日志进行解析,从中获取实际使用过的搜索词之后,包括:确定所述实际使用过的搜索词的地域来源,并为所述实际使用过的搜索词分配地域标签;
对应地,所述使用目标搜索词在ES数据库中进行检索,以得到与所述目标搜索词匹配的所述ES数据,包括:确定所述目标搜索词的地域标签,以使用所述目标搜索词在与所述地域标签匹配的ES数据库进行检索,以得到与所述目标搜索词匹配的所述ES数据;
对应地,根据ES数据和对应的详情数据,在基准数据库中进行检索,得到基准ES数据和对应的基准详情数据之前,包括:根据所述ES数据,从与所述地域标签匹配的详情数据库中调取所述ES数据对应的详情数据;
对应地,所述根据ES数据和对应的详情数据,在基准数据库中进行检索,得到基准ES数据和对应的基准详情数据,包括:根据所述ES数据和对应的详情数据,在与所述地域标签匹配的基准数据库中进行检索,得到基准ES数据和对应的基准详情数据。
可选地,所述根据ES数据和对应的详情数据,在基准数据库中进行检索,得到基准ES数据和对应的基准详情数据之前,包括:
根据所述ES数据以及检索接口规则,生成详情数据检索请求;
根据所述详情数据检索请求,从详情数据库中调取所述ES数据对应的详情数据。
可选地,所述根据所述ES数据以及检索接口规则,生成详情数据检索请求,包括:对所述ES数据进行解析,以从中提取法人和自然人信息中至少其一;根据提取到的所述法人或者自然人信息之一以及检索接口规则,生成详情数据检索请求;
对应地,所述根据所述详情数据检索请求,从详情数据库中调取所述ES数据对应的详情数据,包括:根据所述详情数据检索请求,从所述详情数据库中调取与所述法人或者自然人信息中至少其一对应的详情数据。
可选地,所述根据ES数据和对应的详情数据,在基准数据库中进行检索,得到基准ES数据和对应的基准详情数据,包括:
确定所述ES数据对应的数据纬度,以及所述数据纬度在所述基准数据库中的数据表以及所述数据维度在所述数据表中的维度字段;
确定所述详情数据中的目标对象的标识;
对所述数据表的ID、所述维度字段,以及所述目标对象的标识进行拼接,以生成基准数据查询请求;
根据所述基准数据查询请求,在基准数据库中进行检索,以获取所述基准ES数据和对应的基准详情数据。
可选地,所述比对所述ES数据与所述基准ES数据得到第一验证结果,以及比对所述详情数据与所述基准详情数据得到第二验证结果之后,还包括:根据所述第一验证结果和第二验证结果,对错误的所述ES数据和所述详情数据进行统计,并生成错误报警消息、错误统计报告误,以对错误的所述ES数据和所述详情数据进行纠错处理。
一种数据验证装置,其包括:
基准数据检索单元,用于根据ES数据和对应的详情数据,在基准数据库中进行检索,得到基准ES数据和对应的基准详情数据,其中,所述ES数据根据目标检索词得到,所述详情数据根据所述ES数据得到;
验证结果生成单元,用于比对所述ES数据与所述基准ES数据得到第一验证结果,以及比对所述详情数据与所述基准详情数据得到第二验证结果。
一种计算机存储介质,所述计算机存储介质上存储有计算机可执行程序,所述计算机可执行程序被运行以实施本申请实施例任一所述数据验证方法。
一种电子设备,所述电子设备包括存储器以及处理器,所述存储器上用于存储计算机可执行程序,所述处理器用于运行所述计算机可执行程序以实施本申请实施例任一所述数据验证方法。
本申请实施例,根据ES数据和对应的详情数据,在基准数据库中进行检索,得到基准ES数据和对应的基准详情数据;比对所述ES数据与所述基准ES数据得到第一验证结果,以及比对所述详情数据与所述基准详情数据得到第二验证结果,从而有效地确定出了错误的ES数据,以及所述错误的详情数据,便于进行错误数据的及时纠错处理。
附图说明
图1为本申请实施例的应用场景示意图;
图2为本申请实施例一种数据正确性的验证验证方法的流程示意图;
图3为本申请实施例一种数据正确性的验证验证方法的流程示意图;
图4为本申请实施例一种数据正确性的验证验证装置的结构示意图;
图5为本申请实施例中电子设备的结构示意图。
具体实施方式
为使本申请要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
图1为本申请实施例的应用场景示意图;如图1所示,该应用场景针对一数据处理系统,该数据处理系统包括终端设备101、数据处理服务器102,数据处理服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端设备101以及上述数据处理服务器102可以通过无线通信方式(如网络)进行直接或间接地连接,本申请在此不做限制。
所述数据处理服务器102上设置有ES数据库和详情数据库,ES数据库中存储有ES数据,所述详情数据库中存储有ES数据对应的详情数据。
另外,所述数据处理服务器102上还设置有基准数据库,所述基准数据库中存储基准ES数据和基准详情数据,该基准ES数据和基准详情数据是准确地。所述ES数据库存储的ES数据和所述详情数据库存储的详情数据是从所述基准数据库同步来的,因此,所述ES数据库和所述详情数据库为中间数据库。因此,由于会发生同步不及时或者其他导致数据的情形(比如被篡改),而导致所述ES数据库存储的ES数据和所述详情数据库存储的详情数据分别跟所述基准数据库存储的基准ES数据和基准详情数据不一致的情形,或者又称之为所述ES数据库存储的ES数据错误,所述详情数据库存储的详情数据错误。
用户使用终端设备进行数据查询时,检索的结果数据是直接来自于所述ES数据库、所述述详情数据库,而由于所述ES数据库存储的ES数据和所述详情数据库存储的详情数据分别跟所述基准数据库存储的基准ES数据和详情数据不一致,由此导致从所述ES数据库查询到的ES数据和从所述详情数据库查询到的详情数据有误。
为此,本申请实施例中,通过在所述数据处理服务器102设置数据验证装置,通过该装置执行如下数据验证方法:
根据ES数据和对应的详情数据,在基准数据库中进行检索,得到基准ES数据和对应的基准详情数据,其中,所述ES数据根据目标检索词得到,所述详情数据根据所述ES数据得到;
比对所述ES数据与所述基准ES数据得到第一验证结果,以及比对所述详情数据与所述基准详情数据得到第二验证结果。
上述技术处理中,通过根据ES数据和对应的详情数据,在基准数据库中进行检索,得到基准ES数据和对应的基准详情数据;比对所述ES数据与所述基准ES数据得到第一验证结果,以及比对所述详情数据与所述基准详情数据得到第二验证结果,从而有效地确定出了错误的ES数据,以及所述错误的详情数据,便于进行错误数据的及时纠错处理。
此处需要说明的是,设置所述ES数据库、所述述详情数据库、所述基准数据库,所述数据验证装置的服务器不做特别限定,比如可以在同一台物理服务上,也可以在不同的物理服务器上。
图2为本申请实施例一种数据验证方法的流程示意图;如图2所示,数据验证方法具体可以包括:
201、根据ES数据和对应的详情数据,在基准数据库中进行检索,得到基准ES数据和对应的基准详情数据;
本实施例中,有关ES数据、详情数据、基准数据库可参见上述图1实施例的记载,在此不再赘述。另外,其中,所述ES数据根据目标检索词得到,所述详情数据根据所述ES数据得到。
比如,在一具体应用场景中,所述ES数据只包括与公司、公司的股东相关的一些关键信息(或者称之概要信息),比如包括了公司名称的数据,包括了股东的数据,而不包括跟该公司,或者股东相关的诉讼信息等。当然,此处仅仅是举例,并非唯一性限定。详情数据为ES数据对应的详细数据,比如,在一应用场景中,所述详情数据包括但不限于与职位名称、关联公司名称、曾任职数量、公司的融资轮次、法定代表人、参与过得投资项目名称、投资机构、公司成立日期、风险信息、公司所处地域等相关的数据。
本实施例中,所述ES数据和对应的详情数据如何获取不做特别限定。获取所述ES数据和对应的详情数据可以包括在图2的实施例中,也可以不包括图2的实施例中。
202、比对所述ES数据与所述基准ES数据得到第一验证结果,以及比对所述详情数据与所述基准详情数据得到第二验证结果。
本实施例中,通过直接比对所述ES数据与所述基准ES数据得到第一验证结果,以及比对所述详情数据与所述基准详情数据,可以准确且快速地确定出所述ES数据是否与所述基准ES数据一致,以及所述详情数据是否与所述基准详情数据一致,以生成数据验证结果。
本实施例中,上述比对的具体实现不做特别限定,可以是任意能确定出所述ES数据是否与所述基准ES数据一致,以及所述详情数据是否与所述基准详情数据一致的方式。比如,通过关键字段比对的方式来实现。
以下图3实施例中,以从实际使用过的搜索词中确定目标搜索词为例进行说明,具体地,在根据ES数据和对应的详情数据,在基准数据库中进行检索,得到基准ES数据和对应的基准详情数据之前,包括:对搜索日志进行解析,从中获取实际使用过的搜索词;从所述实际使用过的搜索词中,选取所述目标搜索词,从而基于所述目标搜索次获取所述ES数据和对应的详情数据。
图3为本申请实施例一种数据验证方法的流程示意图;如图3所示,其可以由数据处理服务器执行,数据验证方法具体可以包括:
301、对搜索日志进行解析,从中获取实际使用过的搜索词,从所述实际使用过的搜索词中,选取所述目标搜索词;
具体地,本实施例中,步骤301中,所述从所述实际使用过的搜索词中,选取所述目标搜索词包括:
统计每个实际使用过的搜索词的频次;
根据所述频次的大小,对所述所有搜索词按照预定的顺序进行排序,以形成搜索词队列,所述顺序为频次从高到低的顺序,或者从低到高的顺序;
按照所述预定的顺序,从所述搜索词队列获取搜索词,以将每次获取到的搜索词作为所述目标搜索词。
本实施例中,通过设置所述搜索词队列可以只将频次较高的搜索词作为目标搜索词,从而降低计算量,减轻数据处理服务器的负载。另外,当有用户实际使用过的搜索词有更新时,直接加入到该搜索词队列中,或者,搜索词的频次有更新时,只要更新其在搜索词队列中的位置即可。
进一步地,本实施例中,考虑到数据查询会有地域的使用要求,因此,步骤301中,所述对搜索日志进行解析,从中获取实际使用过的搜索词之后,从所述实际使用过的搜索词中,选取所述目标搜索词之前,包括:确定所述实际使用过的搜索词的地域来源,并为所述实际使用过的搜索词分配地域标签。比如,使用是在美国进行检索,其使用过的搜索词的地域来源即为美国。
302、使用目标搜索词在ES数据库中进行检索,以得到与所述目标搜索词匹配的ES数据;
本实施例中,所述ES数据库的设置不做特别限定,比如其可以以占用磁盘的方式设置。所述详情数据库的设置不做特别限定,比如其可以以占用内存的方式设置。此处,仅仅是示例,并非唯一性限定。
本实施例中,该目标搜索词除了为用户实际使用过的搜索词。在其他实施例中,该目标检索词还可以为基于机器学习生产的搜索词。所述目标搜索词比如又可以称之为目标查询搜索词。
具体地,步骤301中,在进行检索时,使用目标搜索词在ES数据库中进行检索,以得到与所述目标搜索词匹配的ES数据时,具体调用线上检索接口,以使用目标搜索词在ES数据库中进行检索,以得到与所述目标搜索词匹配的ES数据,从而模仿用户使用所述目标搜索词进行检索的操作,由于所述目标搜索词是用户实际使用过的搜索词,则相当于复现了用户使用所述目标搜索词进行检索的操作。
具体地,本实施例中,如前所述,可以通过确定所述实际使用过的搜索词的地域来源,并为所述实际使用过的搜索词分配地域标签,因此,所述使用目标搜索词在ES数据库中进行检索,以得到与所述目标搜索词匹配的ES数据,包括:确定所述目标搜索的地域标签,以使用所述目标搜索词在与所述地域标签匹配的ES数据库进行检索,以得到与所述目标搜索词匹配的ES数据。
303、根据所述ES数据,从详情数据库中调取所述ES数据对应的详情数据;
具体地,本实施例中,步骤303中所述根据所述ES数据,从详情数据库中调取所述ES数据对应的详情数据,可以具体包括:
313、根据所述ES数据以及检索接口规则,生成详情数据检索请求;
323、根据所述详情数据检索请求,从所述详情数据库中调取所述ES数据对应的详情数据。
具体地,在一应用场景中,步骤313中,所述根据所述ES数据以及检索接口规则,生成详情数据检索请求,包括:
对所述根据所述ES数据进行解析,以从中提取法人和自然人信息中至少其一;
根据提取到的所述法人或者自然人信息之一以及检索接口规则,生成详情数据检索请求。
本实施例中,通过对所述根据所述ES数据进行解析,以从中提取法人和自然人信息中至少其一,从而把提取到的法人、自然人可作为可能的用户,进一步再根据提取到的所述法人或者自然人信息之一以及检索接口规则,生成详情数据检索请求。
进一步地,所述根据所述详情数据检索请求,从所述详情数据库中调取所述ES数据对应的详情数据,包括:根据所述详情数据检索请求,从所述详情数据库中调取与所述法人或者自然人信息中至少其一对应的详情数据。
本实施例中,可以通过确定所述实际使用过的搜索词的地域来源,并为所述实际使用过的搜索词分配地域标签,因此,所述根据所述ES数据,从详情数据库中调取所述ES数据对应的详情数据,包括:根据所述ES数据,从与所述地域标签匹配的详情数据库中调取所述ES数据对应的详情数据;
304、根据ES数据和对应的详情数据,在基准数据库中进行检索,得到基准ES数据和对应的基准详情数据;
本实施例中,在基准数据库中存储有基准ES数据和对应的基准详情数据,因此,在通过模仿用户查询的操作,得到了从所述ES数据库中检索到与所述目标搜索词匹配的ES数据和从所述详情数据库中得到对应的详情数据,根据所述ES数据与详情数据在基准数据库中进行检索,从而可得到准确的基准ES数据和对应的基准详情数据。
具体地,在一应用场景中,步骤304中,所述根据ES数据和对应的详情数据,在基准数据库中进行检索,得到基准ES数据和对应的基准详情数据,可以包括:确定所述ES数据对应的数据纬度,以及所述数据纬度在所述基准数据库中的数据表以及该数据维度在所述数据表中的维度字段;确定所述详情数据中的目标对象的标识;对所述数据表的ID、所述维度字段,以及所述目标对象的标识进行拼接,以生成基准数据查询请求,根据基准数据查询请求在基准数据库中进行检索,从而可得到准确的基准ES数据和对应的基准详情数据。示例性地,该基准数据查询请求的结构比如:select维度字段from数据表ID where目标对象的标识。此处,所述目标兑现的标识比如为GID值(Group Identification,简称GID)。
另外,如前述,由于可以通过确定所述实际使用过的搜索词的地域来源,并为所述实际使用过的搜索词分配地域标签,因此,本实施例中,所述根据ES数据和对应的详情数据,在基准数据库中进行检索,得到基准ES数据和对应的基准详情数据,包括:根据所述ES数据和所述对应的详情数据,在与所述地域标签匹配的基准数据库中进行检索,得到基准ES数据和对应的基准详情数据。
305、比对所述ES数据与所述基准ES数据得到第一验证结果,以及比对所述详情数据与所述基准详情数据得到第二验证结果。
本实施例中,步骤S305类似上述步骤S202,在此不再赘述。
本实施例中,通过确定实际使用过的搜索词的地域来源,并为所述实际使用过的搜索词分配地域标签,从而使得从实际使用的搜索词中确定出的目标搜索词也具有地域标签,从而与该地域标签匹配的ES数据库、详情数据库中分别获取ES数据和详情数据,以及从该地域标签匹配的基准数据库获取基准ES数据和基准详情数据,从而真实地模仿用户查询的操作,保证了后续ES数据和详情数据的正确性判断不会发生由于ES数据库、详情数据库、基准数据库的选取错误,导致误判断。
在上述图3实施例的基础上,在其他实施例中,所述比对所述ES数据与所述基准ES数据得到第一验证结果,以及比对所述详情数据与所述基准详情数据得到第二验证结果之后,还包括:根据所述第一验证结果和第二验证结果,对错误的所述ES数据和所述详情数据进行统计,并生成错误报警消息、错误统计报告误,以对错误的所述ES数据和所述详情数据进行纠错处理。
进一步地,针对所述错误统计报告生成下载链接,便于对所述统计错误报告进行分享。
在上述实施例中,当确定错误的所述ES数据和所述详情数据后,可以对错误的所述ES数据和所述详情数据进行处理优先级的设置并进行排序,比如优先级排序比如为:关联于职位的所述ES数据和所述详情数据>关联于公司名的所述ES数据和所述详情数据>关联于曾任职数量的所述ES数据和所述详情数据>关联于融资轮的所述ES数据和所述详情数据,从而根据优先级进行数据的错误纠正。
图4为本申请实施例一种数据验证装置的结构示意图;如图4所示,数据验证装置包括:
基准数据检索单元401,用于根据ES数据和对应的详情数据,在基准数据库中进行检索,得到基准ES数据和对应的基准详情数据;
验证结果生成单元402,用于比对所述ES数据与所述基准ES数据得到第一验证结果,以及比对所述详情数据与所述基准详情数据得到第二验证结果。
可选地,所述装置还包括:数据获取单元,在根据ES数据和对应的详情数据,在基准数据库中进行检索,得到基准ES数据和对应的基准详情数据之前,用于:
对搜索日志进行解析,从中获取实际使用过的搜索词;
从所述实际使用过的搜索词中,选取目标搜索词;
使用所述目标搜索词在ES数据库中进行检索,以得到与所述目标搜索词匹配的所述ES数据。
可选地,所述数据获取单元具体用于:
统计每个实际使用过的搜索词的频次;
根据所述频次的大小,对所述所有搜索词按照预定的顺序进行排序,以形成搜索词队列,所述顺序为频次从高到低的顺序,或者从低到高的顺序;
按照所述预定的顺序,从所述搜索词队列中获取搜索词,以将每次获取到的搜索词作为所述目标搜索词。
可选地,所述数据获取单元具体用于:在所述对搜索日志进行解析,从中获取实际使用过的搜索词之后,确定所述实际使用过的搜索词的地域来源,并为所述实际使用过的搜索词分配地域标签;
以及确定所述目标搜索词的地域标签,以使用所述目标搜索词在与所述地域标签匹配的ES数据库进行检索,以得到与所述目标搜索词匹配的所述ES数据;
所述数据获取单元还用于:在根据ES数据和对应的详情数据,在基准数据库中进行检索,得到基准ES数据和对应的基准详情数据之前,根据所述ES数据,从与所述地域标签匹配的详情数据库中调取所述ES数据对应的详情数据;
对应地,所述基准数据检索单元具体用于:根据所述ES数据和对应的详情数据,在与所述地域标签匹配的基准数据库中进行检索,得到基准ES数据和对应的基准详情数据。
可选地,所述数据获取单元还用于:在所述根据ES数据和对应的详情数据,在基准数据库中进行检索,得到基准ES数据和对应的基准详情数据之前,根据所述ES数据以及检索接口规则,生成详情数据检索请求;根据所述详情数据检索请求,从详情数据库中调取所述ES数据对应的详情数据。
可选地,所述数据获取单元还具体用于:对所述ES数据进行解析,以从中提取法人和自然人信息中至少其一;根据提取到的所述法人或者自然人信息之一以及检索接口规则,生成详情数据检索请求;以及根据所述详情数据检索请求,从所述详情数据库中调取与所述法人或者自然人信息中至少其一对应的详情数据。
可选地,所述基准数据检索单元具体用于:
确定所述ES数据对应的数据纬度,以及所述数据纬度在所述基准数据库中的数据表以及所述数据维度在所述数据表中的维度字段;
确定所述详情数据中的目标对象的标识;
对所述数据表的ID、所述维度字段,以及所述目标对象的标识进行拼接,以生成基准数据查询请求;
根据所述基准数据查询请求,在基准数据库中进行检索,以获取所述基准ES数据和对应的基准详情数据。
可选地,所述装置还包括:统计单元,用于在比对所述ES数据与所述基准ES数据得到第一验证结果,以及比对所述详情数据与所述基准详情数据得到第二验证结果之后,根据所述第一验证结果和第二验证结果,对错误的所述ES数据和所述详情数据进行统计,并生成错误报警消息、错误统计报告误,以对错误的所述ES数据和所述详情数据进行纠错处理。
本申请实施例还提供一种计算机存储介质,所述计算机存储介质上存储有计算机可执行程序,所述计算机可执行程序被运行以实施本申请实施例任一所述数据验证方法。
图5为本申请实施例中电子设备的结构示意图;如图5所示,电子设备包括:存储器501以及处理器502,所述存储器上存储有计算机可执行程序,所述处理器用于运行所述计算机可执行程序以实施本申请任一实施例中的数据处理方法。
所述电子设备可以作为执行上述方法的数据处理服务器。
以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种数据验证方法, 其特征在于,包括:
根据ES数据和对应的详情数据,在基准数据库中进行检索,得到基准ES数据和对应的基准详情数据,其中,所述ES数据根据目标检索词得到,所述详情数据根据所述ES数据得到;
比对所述ES数据与所述基准ES数据得到第一验证结果,以及比对所述详情数据与所述基准详情数据得到第二验证结果;
其中,所述根据ES数据和对应的详情数据,在基准数据库中进行检索,得到基准ES数据和对应的基准详情数据之前,包括:
对搜索日志进行解析,从中获取实际使用过的搜索词;
从所述实际使用过的搜索词中,选取目标搜索词;
使用所述目标搜索词在ES数据库中进行检索,以得到与所述目标搜索词匹配的所述ES数据。
2.根据权利要求1所述的方法,其特征在于,所述从所述实际使用过的搜索词中,选取目标搜索词包括:
统计每个实际使用过的搜索词的频次;
根据所述频次的大小,对所有搜索词按照预定的顺序进行排序,以形成搜索词队列,所述顺序为频次从高到低的顺序,或者从低到高的顺序;
按照所述预定的顺序,从所述搜索词队列中获取搜索词,以将每次获取到的搜索词作为所述目标搜索词。
3.根据权利要求2所述的方法,其特征在于,所述对搜索日志进行解析,从中获取实际使用过的搜索词之后,包括:确定所述实际使用过的搜索词的地域来源,并为所述实际使用过的搜索词分配地域标签;
对应地,所述使用目标搜索词在ES数据库中进行检索,以得到与所述目标搜索词匹配的所述ES数据,包括:确定所述目标搜索词的地域标签,以使用所述目标搜索词在与所述地域标签匹配的ES数据库进行检索,以得到与所述目标搜索词匹配的所述ES数据;
对应地,根据ES数据和对应的详情数据,在基准数据库中进行检索,得到基准ES数据和对应的基准详情数据之前,包括:根据所述ES数据,从与所述地域标签匹配的详情数据库中调取所述ES数据对应的详情数据;
对应地,所述根据ES数据和对应的详情数据,在基准数据库中进行检索,得到基准ES数据和对应的基准详情数据,包括:根据所述ES数据和对应的详情数据,在与所述地域标签匹配的基准数据库中进行检索,得到基准ES数据和对应的基准详情数据。
4.根据权利要求1所述的方法,其特征在于,所述根据ES数据和对应的详情数据,在基准数据库中进行检索,得到基准ES数据和对应的基准详情数据之前,包括:
根据所述ES数据以及检索接口规则,生成详情数据检索请求;
根据所述详情数据检索请求,从详情数据库中调取所述ES数据对应的详情数据。
5.根据权利要求4所述的方法,其特征在于,所述根据所述ES数据以及检索接口规则,生成详情数据检索请求,包括:对所述ES数据进行解析,以从中提取法人和自然人信息中至少其一;根据提取到的所述法人或者自然人信息之一以及检索接口规则,生成详情数据检索请求;
对应地,所述根据所述详情数据检索请求,从详情数据库中调取所述ES数据对应的详情数据,包括:根据所述详情数据检索请求,从所述详情数据库中调取与所述法人或者自然人信息中至少其一对应的详情数据。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述根据ES数据和对应的详情数据,在基准数据库中进行检索,得到基准ES数据和对应的基准详情数据,包括:
确定所述ES数据对应的数据维度,以及所述数据维度在所述基准数据库中的数据表以及所述数据维度在所述数据表中的维度字段;
确定所述详情数据中的目标对象的标识;
对所述数据表的ID、所述维度字段,以及所述目标对象的标识进行拼接,以生成基准数据查询请求;
根据所述基准数据查询请求,在基准数据库中进行检索,以获取所述基准ES数据和对应的基准详情数据。
7.根据权利要求6所述的方法,其特征在于,所述比对所述ES数据与所述基准ES数据得到第一验证结果,以及比对所述详情数据与所述基准详情数据得到第二验证结果之后,还包括:根据所述第一验证结果和第二验证结果,对错误的所述ES数据和所述详情数据进行统计,并生成错误报警消息、错误统计报告误,以对错误的所述ES数据和所述详情数据进行纠错处理。
8.一种数据验证装置,其特征在于,包括:
基准数据检索单元,用于根据ES数据和对应的详情数据,在基准数据库中进行检索,得到基准ES数据和对应的基准详情数据;
验证结果生成单元,用于比对所述ES数据与所述基准ES数据得到第一验证结果,以及比对所述详情数据与所述基准详情数据得到第二验证结果;
所述装置还包括:数据获取单元,在根据ES数据和对应的详情数据,在基准数据库中进行检索,得到基准ES数据和对应的基准详情数据之前,用于:
对搜索日志进行解析,从中获取实际使用过的搜索词;
从所述实际使用过的搜索词中,选取目标搜索词;
使用所述目标搜索词在ES数据库中进行检索,以得到与所述目标搜索词匹配的所述ES数据。
9.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机可执行程序,所述计算机可执行程序被运行以实施权利要求1-7任一所述数据验证方法。
10.一种电子设备,其特征在于,所述电子设备包括存储器以及处理器,所述存储器上用于存储计算机可执行程序,所述处理器用于运行所述计算机可执行程序以实施权利要求1-7任一所述数据验证方法。
CN202111455043.5A 2021-12-01 2021-12-01 数据验证方法及其装置、计算机存储介质、电子设备 Active CN114153830B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111455043.5A CN114153830B (zh) 2021-12-01 2021-12-01 数据验证方法及其装置、计算机存储介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111455043.5A CN114153830B (zh) 2021-12-01 2021-12-01 数据验证方法及其装置、计算机存储介质、电子设备

Publications (2)

Publication Number Publication Date
CN114153830A CN114153830A (zh) 2022-03-08
CN114153830B true CN114153830B (zh) 2023-03-28

Family

ID=80455654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111455043.5A Active CN114153830B (zh) 2021-12-01 2021-12-01 数据验证方法及其装置、计算机存储介质、电子设备

Country Status (1)

Country Link
CN (1) CN114153830B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6631382B1 (en) * 1996-01-02 2003-10-07 Timeline, Inc. Data retrieval method and apparatus with multiple source capability
CN105978865A (zh) * 2016-04-29 2016-09-28 北京小米移动软件有限公司 应用包名验证方法及装置
CN108319719A (zh) * 2018-02-12 2018-07-24 腾讯科技(深圳)有限公司 数据库数据校验方法、装置、计算机设备和存储介质
CN111291225A (zh) * 2020-05-08 2020-06-16 成都金盘电子科大多媒体技术有限公司 一种医疗健康信息数据标准快速校验的方法及系统
CN112735571A (zh) * 2020-11-03 2021-04-30 江苏汇鑫融智软件科技有限公司 一种医疗健康数据上传管理平台

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7877370B2 (en) * 2006-05-15 2011-01-25 Algebraix Data Corporation Systems and methods for data storage and retrieval using algebraic relations composed from query language statements
CN108647353A (zh) * 2018-05-16 2018-10-12 口碑(上海)信息技术有限公司 一种实时核对数据的方法、装置
CN110555151A (zh) * 2019-09-10 2019-12-10 北京星选科技有限公司 搜索词确定方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6631382B1 (en) * 1996-01-02 2003-10-07 Timeline, Inc. Data retrieval method and apparatus with multiple source capability
CN105978865A (zh) * 2016-04-29 2016-09-28 北京小米移动软件有限公司 应用包名验证方法及装置
CN108319719A (zh) * 2018-02-12 2018-07-24 腾讯科技(深圳)有限公司 数据库数据校验方法、装置、计算机设备和存储介质
CN111291225A (zh) * 2020-05-08 2020-06-16 成都金盘电子科大多媒体技术有限公司 一种医疗健康信息数据标准快速校验的方法及系统
CN112735571A (zh) * 2020-11-03 2021-04-30 江苏汇鑫融智软件科技有限公司 一种医疗健康数据上传管理平台

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Dongjing Miao 等.The parameterized complexity and kernelization of resilience for database queries.《Theoretical Computer Science》.199-211. *
李金涛.用户的思维能力对文献数据库检索中反馈调整的影响研究 ————以西南大学研究生为例.《中国优秀硕士学位论文全文数据库信息科技辑》.2011,I143-47. *
王逍翔 等.基于形近字识别的互联网搜索关键字校验.《第六届云南省科协学术年会暨红河流域发展论坛论文集——专题二:滇南中心智慧城市建设》.2016,194-200. *

Also Published As

Publication number Publication date
CN114153830A (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
CN111459985B (zh) 标识信息处理方法及装置
CN106844730B (zh) 文件内容的显示方法及装置
CN110046155B (zh) 特征数据库的更新、数据特征的确定方法、装置及设备
CN106547646B (zh) 一种数据备份及恢复方法、数据备份及恢复装置
GB2574282A (en) Data consistency verification method and system minimizing load of original database
CN108647357A (zh) 数据查询的方法及装置
CN111767350A (zh) 数据仓库测试方法、装置、终端设备及存储介质
CN112559526A (zh) 数据表导出方法、装置、计算机设备及存储介质
CN110543469B (zh) 一种数据库版本管理方法及服务器
CN105786941B (zh) 一种信息挖掘方法和装置
CN113672692B (zh) 数据处理方法、装置、计算机设备和存储介质
CN106202440B (zh) 数据处理方法、装置及设备
CN111737443B (zh) 答案文本的处理方法和装置、关键文本的确定方法
CN110532254A (zh) 融合数据表的方法和装置
CN113111669A (zh) 基于增量的前端多语言国际化翻译方法及装置
CN114153830B (zh) 数据验证方法及其装置、计算机存储介质、电子设备
CN115481026A (zh) 测试案例的生成方法、装置、计算机设备、存储介质
CN115098738A (zh) 业务数据的提取方法、装置、存储介质及电子设备
CN114237588A (zh) 一种代码仓库选择方法、装置、设备及存储介质
CN114579580A (zh) 存储数据的方法、查询数据的方法和装置
CN114741384A (zh) 一种患者信息处理方法及其装置、计算机可读存储介质
CN112102119A (zh) 知识产权信息地理位置标记方法、装置、系统、计算机设备及存储介质
CN110851517A (zh) 一种源数据抽取方法、装置、设备及计算机存储介质
CN115082045B (zh) 数据校对方法、装置、计算机设备和存储介质
CN112347095B (zh) 数据表的处理方法、装置和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant