CN110377704B - 数据一致性的检测方法、装置和计算机设备 - Google Patents

数据一致性的检测方法、装置和计算机设备 Download PDF

Info

Publication number
CN110377704B
CN110377704B CN201910660233.7A CN201910660233A CN110377704B CN 110377704 B CN110377704 B CN 110377704B CN 201910660233 A CN201910660233 A CN 201910660233A CN 110377704 B CN110377704 B CN 110377704B
Authority
CN
China
Prior art keywords
entity
attribute
identifier
map
attribute information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910660233.7A
Other languages
English (en)
Other versions
CN110377704A (zh
Inventor
刘盼
郭方园
蒋雨倩
晋小玲
邝智杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910660233.7A priority Critical patent/CN110377704B/zh
Publication of CN110377704A publication Critical patent/CN110377704A/zh
Application granted granted Critical
Publication of CN110377704B publication Critical patent/CN110377704B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出一种数据一致性的检测方法、装置和计算机设备,其中,方法包括:获取两版本图谱,确定各实体在两版本图谱中的第一属性信息和第二属性信息;将同一实体的第一属性信息和第二属性信息比对,以确定相应实体各属性项的属性值更新类型;对各属性项,根据更新类型进行统计,得到属性值属于相应更新类型的实体数量;根据对属性项统计得到的属于各更新类型的实体数量,生成一致性报告。该方法能够实现丰富一致性报告的展示内容,便于测试人员阅读该一致性报告。

Description

数据一致性的检测方法、装置和计算机设备
技术领域
本申请涉及互联网技术领域,尤其涉及一种数据一致性的检测方法、装置和计算机设备。
背景技术
知识图谱(Knowledge Graph)是一种揭示实体之间关系的语义网络,可对现实世界的事物及其相互关系进行形式化地描述。知识图谱作为结构化的语义知识库,其基本组成单元为“实体-关系-实体”(SPO)的三元组,以及实体及其相关属性-值对,通过实体间的关系构成网状的知识结构。目前,在互联网信息检索中,知识图谱可以应用于多个领域,拥有海量的数据。因此,如何保证知识图谱数据的准确性,检测图谱数据更新前后的一致性至关重要。
相关技术中,通过以下步骤检测图谱数据更新前后的一致性:(1)标记实体,通常采用md5或实体id唯一标记Base集合和Dev集合中的同一实体;(2)数据排序,针对Base集合和Dev集合,按照标记的字符串顺序对实体数据进行排序;(3)数据融合,将两个集合按照标记分组,增加或者减少的实体组中只包含一条数据;(4)数据对比,逐组进行对比,首先判断两条数据字符串是否相同,若相同则跳过,若不相同则进行单个属性的多层级对比,最终返回变化的属性列表(list);(5)产出报告,以实体为粒度,提供变化属性list以及详细的实体数据对比页面,其中,变化内容通过颜色标记。由此,测试人员可以通过阅读报告,查看增加(ADD)、减少(DEl)、变化(DIFF)实体。
然而这种检测方式,产出的报告内容较为简单,仅展示了实体粒度的变化属性。
发明内容
本申请提出一种数据一致性的检测方法、装置和计算机设备,以实现丰富一致性报告的展示内容,便于测试人员阅读该一致性报告,用于解决现有技术中产出的一致性报告内容较为简单,仅展示了实体粒度的变化属性的技术问题。
本申请第一方面实施例提出了一种数据一致性的检测方法,包括:
获取两版本图谱,确定各实体在所述两版本图谱中的第一属性信息和第二属性信息;
将同一实体的所述第一属性信息和所述第二属性信息比对,以确定相应实体各属性项的属性值更新类型;
对各属性项,根据所述更新类型进行统计,得到属性值属于相应更新类型的实体数量;
根据对属性项统计得到的属于各更新类型的实体数量,生成一致性报告。
本申请实施例的数据一致性的检测方法,通过获取两版本图谱,确定各实体在两版本图谱中的第一属性信息和第二属性信息,之后,将同一实体的第一属性信息和第二属性信息比对,以确定相应实体各属性项的属性值更新类型,接着,对各属性项,根据更新类型进行统计,得到属性值属于相应更新类型的实体数量,最后,根据对属性项统计得到的属于各更新类型的实体数量,生成一致性报告。由此,生成的一致性报告中可以包括实体各属性项的属性值更新类型,以及各更新类型对应的实体数量,可以丰富一致性报告的展示内容,便于测试人员阅读该一致性报告。
本申请第二方面实施例提出了一种数据一致性的检测装置,包括:
获取模块,用于获取两版本图谱,确定各实体在所述两版本图谱中的第一属性信息和第二属性信息;
比对模块,用于将同一实体的所述第一属性信息和所述第二属性信息比对,以确定相应实体各属性项的属性值更新类型;
统计模块,用于对各属性项,根据所述更新类型进行统计,得到属性值属于相应更新类型的实体数量;
生成模块,用于根据对属性项统计得到的属于各更新类型的实体数量,生成一致性报告。
本申请实施例的数据一致性的检测装置,通过获取两版本图谱,确定各实体在两版本图谱中的第一属性信息和第二属性信息,之后,将同一实体的第一属性信息和第二属性信息比对,以确定相应实体各属性项的属性值更新类型,接着,对各属性项,根据更新类型进行统计,得到属性值属于相应更新类型的实体数量,最后,根据对属性项统计得到的属于各更新类型的实体数量,生成一致性报告。由此,生成的一致性报告中可以包括实体各属性项的属性值更新类型,以及各更新类型对应的实体数量,可以丰富一致性报告的展示内容,便于测试人员阅读该一致性报告。
本申请第三方面实施例提出了一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如本申请第一方面实施例提出的数据一致性的检测方法。
本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请第一方面实施例提出的数据一致性的检测方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例一所提供的数据一致性的检测方法的流程示意图;
图2为本申请实施例中的一致性报告的属性区示意图;
图3为本申请实施例二所提供的数据一致性的检测方法的流程示意图;
图4为本申请实施例中实体的标识修改示意图;
图5为本申请实施例三所提供的数据一致性的检测方法的流程示意图;
图6为本申请实施例中属性多层级对比流程示意图;
图7为本申请实施例四所提供的数据一致性的检测方法的流程示意图;
图8为本申请实施例的系统设计架构示意图;
图9为本申请实施例五所提供的数据一致性的检测装置的结构示意图;
图10为本申请实施例六所提供的数据一致性的检测装置的结构示意图;
图11示出了适于用来实现本申请实施方式的示例性计算机设备的框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
知识图谱数据多以Json格式进行存储,SPO之间存在关系约束。传统的差异Diff检测方法包括以下步骤:(1)采用本地Diff工具,对同一实体的base和dev结果进行检测;(2)针对数据的PO值进行逐条对比;(3)结果报表展示实体的全部数据,标记变化的属性。
由于图谱数据的实体属性结构,Json-Diff较友好的展示方式可以帮助测试人员关注到数据升级点,但是,在数据量比较庞大的情况下,逐条数据对比运行时间线性增加,报表结果冗余项较多,加大了测试人员的人工检查成本,而原有的工具也无法对图谱数据特有的SPO约束关系变化进行有效的检测。
目前,普遍采用以下步骤检测图谱数据更新前后的一致性:(1)标记实体,通常采用md5或实体id唯一标记Base集合和Dev集合中的同一实体;(2)数据排序,针对Base集合和Dev集合,按照标记的字符串顺序对实体数据进行排序;(3)数据融合,将两个集合按照标记分组,增加或者减少的实体组中只包含一条数据;(4)数据对比,逐组进行对比,首先判断两条数据字符串是否相同,若相同则跳过,若不相同则进行单个属性的多层级对比,最终返回变化的属性list;(5)产出报告,以实体为粒度,提供变化属性list以及详细的实体数据对比页面,其中,变化内容通过颜色标记。由此,测试人员可以通过阅读报告,查看增加、减少、变化实体,针对疑问数据检查对应实体的属性变化情况。
然而这种检测方式,存在以下问题:
(1)运行速度慢,由于图谱数据量级往往较大,且时效性要求较高,本地排序对比会导致运行时长大幅增加,拉长了数据的上线周期;
(2)资源占用较多,例如,排序对机器的内存资源占用较多,对比也会占用CPU计算资源,从而影响其他程序的运行;
(3)报表低效,由于报表内容较为简单,仅展示了实体粒度的变化属性,而在实际应用中,需要对重要和非重要属性、不同类型的实体进行区分,以贴近业务展示重点关注内容。同时,也没有辅助判断机制,单纯由人工进行检查,成本较高。
因此,本申请主要针对上述现有技术中存在的产出的报告内容较为简单,仅展示了实体粒度的变化属性技术问题,提出一种数据一致性的检测方法。
本申请实施例的数据一致性的检测方法,通过获取两版本图谱,确定各实体在两版本图谱中的第一属性信息和第二属性信息,之后,将同一实体的第一属性信息和第二属性信息比对,以确定相应实体各属性项的属性值更新类型,接着,对各属性项,根据更新类型进行统计,得到属性值属于相应更新类型的实体数量,最后,根据对属性项统计得到的属于各更新类型的实体数量,生成一致性报告。由此,生成的一致性报告中可以包括实体各属性项的属性值更新类型,以及各更新类型对应的实体数量,可以丰富一致性报告的展示内容,便于测试人员阅读该一致性报告。
下面参考附图描述本申请实施例的数据一致性的检测方法、装置和计算机设备。在具体描述本申请实施例之前,为了便于理解,首先对常用术语进行介绍:
SPO三元组形式中的S指:Subject主语;P指:Predicate谓语,用于描述S和O之间的关系;O指:Object宾语。
图1为本申请实施例一所提供的数据一致性的检测方法的流程示意图。
本申请实施例以数据一致性的检测方法被配置于数据一致性的检测装置中来举例说明,该数据一致性的检测装置可以应用于任一计算机设备中,以使该计算机设备可以执行数据一致性的检测功能。
其中,计算机设备可以为个人电脑(Personal Computer,简称PC)、云端设备、移动设备、服务器等,移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
如图1所示,该数据一致性的检测方法包括以下步骤:
步骤101,获取两版本图谱,确定各实体在两版本图谱中的第一属性信息和第二属性信息。
本申请实施例中,两版本图谱可以包括第一谱图和第二图谱,其中,第一图谱可以为更新前的知识图谱,第二图谱可以为更新后的知识图谱,或者,第一图谱可以为更新后的知识图谱,第二图谱可以为更新前的知识图谱,本申请对此并不限制。即两版本图谱可以包括更新前的知识图谱以及更新后的知识图谱,从而本申请的检测方法,可以对更新前后的两版本知识图谱进行数据一致性的检测。
本申请实施例中,实体的属性信息包括多个层级的属性,每一层级属性包括至少一个属性项和对应的属性值。
本申请实施例中,在知识图谱更新后,可以获取更新前后的两版本图谱。由于知识图谱的基本组成单元为“实体-关系-实体”的三元组,以及实体及其相关属性项-属性值对,例如标记为key-value对,因此,在获取两版本图谱后,可以确定各实体在两版本图谱中的第一属性信息和第二属性信息。
步骤102,将同一实体的第一属性信息和第二属性信息比对,以确定相应实体各属性项的属性值更新类型。
本申请实施例中,属性值更新类型包括属性值增加、属性值减少、属性值修改和维持不变中的一个或多个组合。
需要说明的是,图谱数据多以Json格式进行存储,Json数据类型包含数字、字符串、数组、字典等类型,不同类型属性值的比对方法不同,并且,属性往往存在多级嵌套的关系,即属性信息包括多个层级的属性。因此,本申请中,可以遍历每一层级属性,递归对比每一个属性值,得到更新类型。例如,针对每一层级属性,可以获取该层级所有属性至比对列表,对对比列表中属性项和对应的属性值进行逐个对比,如果属性项对应的属性值类型为数字或者字符串,则返回属性值是否相同的比对结果,如果属性项对应的属性值类型为其他类型,比如数组、字典等类型,则存储当前属性至对比列表。根据每一个属性的比对结果,可以得到属性值更新类型。
步骤103,对各属性项,根据更新类型进行统计,得到属性值属于相应更新类型的实体数量。
步骤104,根据对属性项统计得到的属于各更新类型的实体数量,生成一致性报告。
本申请实施例中,在确定每个实体各属性项的属性值更新类型后,针对每个属性项,可以根据上述更新类型进行统计,得到属性值属于相应更新类型的实体数量。之后,可以根据对属性项统计得到属于各更新类型的实体数量,生成一致性报告。
作为一种示例,参见图2,图2为本申请实施例中的一致性报告的属性区示意图。其中,以基线版图谱为第一图谱,开发版图谱为第二图谱示例,对于第一个属性名为cast.coreid的属性项而言,属性值增加(新增)的所有实体个数为1975个,属性值增加且属性值修改的实体个数为1771个、属性值修改的实体个数为307811个,属性值减少(删除)的实体个数为1158个,属性值减少且属性值修改的实体个数为1067个,属性值维持不变的实体个数为506924个。
本申请实施例的数据一致性的检测方法,通过获取两版本图谱,确定各实体在两版本图谱中的第一属性信息和第二属性信息,之后,将同一实体的第一属性信息和第二属性信息比对,以确定相应实体各属性项的属性值更新类型,接着,对各属性项,根据更新类型进行统计,得到属性值属于相应更新类型的实体数量,最后,根据对属性项统计得到的属于各更新类型的实体数量,生成一致性报告。由此,生成的一致性报告中可以包括实体各属性项的属性值更新类型,以及各更新类型对应的实体数量,可以丰富一致性报告的展示内容,便于测试人员阅读该一致性报告。
需要说明的是,在知识图谱数据构建过程中,由于实体可能存在拆分、融合、转化的情况,两版本图谱中会包含实体的标识变迁,而属性值的更新类型是基于实体的标识确定的,因此,若不对变迁的实体进行映射,则会导致确定的属性值更新类型出现部分伪属性值增加和伪属性值减少,降低一致性报告结果的准确性。因此,参见图3,在图1所示实施例的基础上,在步骤102之前,该数据一致性的检测方法还可以包括以下步骤:
步骤201,若同一实体的标识在两版本图谱中存在差异,生成两版本图谱中标识的变更关系,以根据变更关系,修改第一图谱或第二图谱的标识。
本申请实施例中,实体的标识用于唯一标识该实体,比如为实体的ID。
作为一种可能的实现方式,当实体发生转化时,需要将两版本图谱中转化前后的实体的标识进行统一。具体地,若第一图谱中实体的第一标识变化为第二图谱中的第二标识,则生成第一图谱中的第一标识和第二图谱中的第二标识之间的变更关系,之后,可以根据变更关系,将第一图谱中的第一标识修改为第二标识,或者,将第二图谱中的第二标识修改为第一标识。
作为一种示例,参见图4,第一图谱中的实体的第一标识为ID5,转化为第二图谱中的第二标识为ID6,则可以生成第一图谱中ID5和第二图谱中ID6之间的变更关系,根据变更关系,将第一图谱中的ID5修改为ID6。
作为另一种可能的实现方式,当实体发生融合时,例如第一图谱中的两个实体的标识,融合为第二图谱中一个实体的标识,此时,需要在第二图谱中添加缺失的那一个实体的标识。具体地,若第一图谱中第一标识的实体和第二标识的实体融合为第二图谱中第一标识的实体,则生成第一图谱中的第二标识和第二图谱中第一标识之间的变更关系,之后,可以根据第一图谱中的第二标识和第二图谱中第一标识之间的变更关系,对第二图谱中具有第一标识的实体复制属性信息,将复制的属性信息对应实体的标识修改为第二标识。
作为一种示例,参见图4,当第一图谱中ID1的实体和ID2的实体,融合为第二图谱中ID1的实体后,则可以生成第一图谱中ID2和第二图谱中ID1之间的变更关系。由于融合后,ID2的属性关系被ID1所包含,因此,可以根据变更关系,对第二图谱中具有ID1的实体复制属性信息,将复制的属性信息对应实体的标识修改为ID2。即融合后,第二图谱需要拆分或复制为两个实体,一个实体的标识为第二图谱中原有的ID1,另一个实体的标识被替换第一图谱中具有的ID2。
作为又一种可能的实现方式,当实体发生拆分时,比如第一图谱中的一个实体的标识,拆分为第二图谱中两个实体的标识,此时,需要在第一图谱中添加拆分得到的另一个实体的标识。具体地,若第一图谱中具有第二标识的实体拆分为第二图谱中第一标识的实体和第二标识的实体,则生成第一图谱中的第二标识和第二图谱中第一标识之间的变更关系,之后,可以根据第一图谱中的第二标识和第二图谱中第一标识之间的变更关系,对第一图谱中具有第二标识的实体复制属性信息,将复制的属性信息对应实体的标识修改为第一标识。
作为一种示例,参见图4,第一图谱中具有ID3的实体,拆分为第二图谱中ID3的实体和ID4的实体,则可以生成第一图谱中ID3和第二图谱中ID4之间的对应关系,根据对应关系,对第一图谱中具有ID3的实体复制属性信息,将复制的属性信息对应实体的标识修改为ID4。即拆分后,第一图谱需要拆分或者复制为两个实体,一个实体的标识为第一图谱原有的ID3,另一个实体的标识被替换为第二图谱中具有的ID4。
由此,在实体发生转化时,根据变更关系,修改第一图谱或第二图谱的标识,可以避免实体发生转化,而造成属性值更新类型出现伪属性值增加的情况,在实体发生融合时,根据变更关系,修改第一图谱或第二图谱的标识,可以避免实体发生融合,而造成属性值更新类型出现伪属性值减少的情况,在实体发生拆分时,根据变更关系,修改第一图谱或第二图谱的标识,可以避免实体发生拆分,而造成属性值更新类型出现伪属性值增加的情况,进而提升一致性报告结果的准确性。
进一步地,在实体的标识发生变迁时,可由用户配置是否修改第一图谱或第二图谱的标识,例如,用户可以在辅助工具中配置是否需要进行ID修改。最终,测试人员在查看一致性报告中的标识属性变化的即为标识变迁导致的属性值更新,而不会存在伪属性值增加和伪属性值减少的情况。或者,可以通过将实体的标识配置为不关心字段,忽略标识变迁带来的属性值变化的情况。
需要说明的是,在实体的标识未发生变迁的情况下,两版本图谱在更新前后,会产生两份相同标识的数据集合,利用集群计算资源,可以对两版本图谱进行数据的预处理,以实体的标识,对各版本图谱进行归并分桶处理,以得到各版本图谱的数据桶,其中每一个数据桶与实体的标识对应,从而可以对对应同一标识的数据桶,根据属性层级顺序,对比相应属性层级内的属性项和对应的属性值,得到更新类型。下面结合实施例三,对上述过程进行详细说明。
图5为本申请实施例三所提供的数据一致性的检测方法的流程示意图。
如图5所示,该数据一致性的检测方法可以包括以下步骤:
步骤301,获取两版本图谱,确定各实体在两版本图谱中的第一属性信息和第二属性信息。
步骤301的执行过程可以参见上述实施例中步骤101的执行过程,在此不做赘述。
步骤302,根据实体的标识,对各版本图谱进行归并分桶处理,以得到各版本图谱的数据桶;其中,每一个版本图谱的数据桶为多个,每一个数据桶与实体的标识对应,用于存储对应实体的属性信息。
本申请实施例中,在实体的标识,例如ID未发生变迁的情况下,两版本图谱在更新前后,会产生两份相同标识的数据集合,利用分布式集群计算资源,可以对两版本图谱进行数据的预处理,以实体的标识,对各版本图谱进行归并分桶处理,得到各版本图谱的数据桶。即,将相同标识的实体进行归并,分到同一个数据桶中,该数据桶与实体的标识对应,用于存储对应实体的属性信息。
需要说明的是,针对步骤201,当实体发生融合,根据第一图谱中的第二标识和第二图谱中第一标识之间的变更关系,对第二图谱中具有第一标识的实体复制属性信息,将复制的属性信息对应实体的标识修改为第二标识后,复制的属性信息存储于第二图谱中第一标识对应数据桶内。当实体发生拆分,根据第一图谱中的第二标识和第二图谱中第一标识之间的变更关系,对第一图谱中具有第二标识的实体复制属性信息,将复制的属性信息对应实体的标识修改为第一标识后,复制的属性信息可以存储于第一图谱中第二标识对应数据桶内。
也就是说,实体的标识变迁后,可以将不同标识的同一实体,在相同的数据桶进行后续的数据处理。
步骤303,从各版本图谱的数据桶中,获取对应同一标识的数据桶;数据桶中存储的属性信息包括多个层级的属性,每一层级属性包括至少一个属性项和对应的属性值。
本申请实施例中,在得到各版本图谱的数据桶后,可以获取对应同一标识的数据桶,其中,每个数据桶内存储对应实体的属性信息。由于属性往往存在多级嵌套的关系,即属性信息包括多个层级的属性。因此,每个数据桶内存储的属性信息可以包括多个层级的属性,每一层级属性包括至少一个属性项和对应的属性值。
步骤304,对对应同一标识的数据桶,根据属性层级顺序,对比相应属性层级内的属性项和对应的属性值,得到更新类型。
其中,更新类型包括属性值增加、属性值减少、属性值修改和维持不变中的一个或多个组合。
需要说明的是,图谱数据多以Json格式进行存储,Json数据类型包含数字、字符串、数组、字典等类型,不同类型属性值的比对方法不同,并且,属性往往存在多级嵌套的关系,即属性信息包括多个层级的属性。因此,本申请实施例中,针对对应同一标识的数据桶,可以遍历每一层级属性,递归对比每一个属性值,得到更新类型。例如,参见图6,针对每一层级属性,可以获取该层级所有属性至比对列表,对对比列表中属性项和对应的属性值进行逐个对比,如果属性项对应的属性值类型为数字或者字符串,则返回属性值是否相同的比对结果,如果属性项对应的属性值类型为其他类型,比如数组、字典等类型,则存储当前属性至对比列表。可以根据每一个属性的比对结果,可以得到属性值更新类型。重复上述步骤,直至对比列表为空,可以得到最终的属性值更新类型,即图6中的DIFF结果。
作为一种可能的实现方式,待比对的属性项可以由用户进行设置,例如,在属性值对比期间,用户可以配置属性中的非关心字段、Schema校验、顺序相关字段,对配置的属性项进行检测,其中,隶属于非关心字段的属性项放置入单独的队列进行统计,方便一致性报告展示,非关心字段主要应用于数量相关而内容不在重点审查范围内。Schema校验支持最大最小集合,对实体的所有属性进行集合内校验,主要应用于对属性数量强要求的场景。
在实际应用中,存在顺序不相关的数组属性,例如电视剧列表等,由于属性值更新类型的确定本质上属于字符串的对比,在对比过程中可能会误引入顺序不相关数组,造成了审查的内容的冗余。通过增加顺序相关字段的配置,在属性对比阶段进行排序后对比,可以解决该系列问题,提升一致性报告的准确性。
步骤305,对各属性项,根据更新类型进行统计,得到属性值属于相应更新类型的实体数量。
步骤306,根据对属性项统计得到的属于各更新类型的实体数量,生成一致性报告。
参见图2,多层级属性粒度统计第一图谱数量、第二图谱数量、新增实体中的属性值增加、变化实体中的属性值增加、删除实体中的属性值减少、变化实体中的属性值减少、属性值修改数量、属性值维持不变的数量。测试人员可点击链接部分查看抽样后的属性值变化DIFF的实体详情。
通常情况下,测试人员查看一致性报告时,可以根据所掌握的业务知识筛选出产品应用中较为重要的实体和属性进行抽样检查,而原始的一致性报告无法做出辅助筛选,依赖人工纯随机抽样,因此会容易忽略海量数据中对业务影响较大的数据变化。
针对上述问题,本申请中,在得到各版本图谱的数据桶后,还可以基于抽样检测机制,配置设定抽样数量,利用蓄水池抽样检测算法,对数据桶内的属性信息进行抽样,提升测试质量的同时,节约测试人力。
作为一种可能的实习方式,为了减少人工介入的成本,可以模拟人工复核的检查方式,仅将一致性报告限制数量范围外的变化供测试人员查看。下面结合实施例四,对上述过程进行详细说明。
图7为本申请实施例四所提供的数据一致性的检测方法的流程示意图。
如图7所示,在图1所示实施例的基础上,在步骤103之后,该数据一致性的检测方法可以包括以下步骤:
步骤401,获取用户设定的阈值计算策略。
本申请实施例中,用户可以根据业务需求和业务场景,设置对应的阈值计算策略。其中,阈值计算策略可以包括:全局默认实体变化数量及其对应的百分比、分数据类型的实体变化数量及其百分比、分数据类型的属性变化数量及其百分比。同时,参见表1,还可以设置阈值超限的告警等级(警告、失败),以及可扩展的算子(大于、小于、大于等于等)。
Figure BDA0002138285590000101
Figure BDA0002138285590000111
表1阈值设定标准配置项
步骤402,采用阈值计算策略,对历史数据中的实体数量进行计算,以确定阈值。
本申请实施例中,阈值的设定需要借鉴历史数据,可以根据测试人员提供的离线文件为准,定时产出历史数据,供测试人员根据历史数据中的实体数量,调整阈值大小。
具体地,可以采用阈值计算策略,对历史数据中的实体数量进行计算,以确定阈值。
步骤403,若实体数量与阈值不匹配,生成提示信息。
本申请实施例中,当属于相应更新类型的实体数量与阈值不匹配时,生成提示信息,已由测试人员进行人工复核,可以减少人工介入的成本。
本申请实施例中,拉取属性值属于相应更新类型的实体数量结果后,可以本地进行拟合,按实体和属性维度统计,确定最终阈值判定的结果,如实体数量与阈值匹配,则可以增加触发下一环节的应用程序接口(Application Programmers Interface,简称API),实现自动化流程,如实体数量与阈值不匹配,则进行人工复核。其中,阈值设定需要借鉴历史数据,因此,辅助工具集成了对数据的存档,将每一次的属于各更新类型的实体产出存入mongodb中。
作为一种可能的实现方式,一致性报告中还可以展示实体粒度的变化属性。具体地,在将同一实体的第一属性信息和第二属性信息比对之后,可以获取同一实体的第一属性信息和第二属性信息之间的属性差异,其中,属性差异用于指示各属性项的异同以及对应属性值的异同,根据属性差异,生成一致性报告。由此,该一致性报告可以以实体为粒度,确定属性变化的实体数据。
作为一种示例,参见图8,生成的一致性报告可以为动态分区报告,其中,一致性报告分为实体变化区、属性变化区、非关心属性变化区三个区域,对本地合并的数据进行归类,增加抽样检测数据的跳转链接(实体区链接跳转至对应的实体的标识列表,属性区链接跳转至对应的属性列表),属性区链接可以跳转至如图2所示的页面。
本申请实施例的数据一致性的检测方法,能够有效的降低运行时间和资源成本,在真实的应用中提效超过6倍。同时提供的HTML形式的一致性报告,可以按照实体、属性分区,数量排序,支持增加业务相关的schema校验、实体分类、阈值判断机制,提升测试人员审查效率。另外,一致性报告展示采用了权重抽样,变化数量较多、业务相关性较强的内容更容易被测试人员发现,避免海量数据变化带来的不确定性增加,提高了测试人员测试的准确度。
为了实现上述实施例,本申请还提出一种数据一致性的检测装置。
图9为本申请实施例五所提供的数据一致性的检测装置的结构示意图。
如图9所示,该数据一致性的检测装置包括:获取模块101、比对模块102、统计模块103以及生成模块104。
其中,获取模块101,用于获取两版本图谱,确定各实体在两版本图谱中的第一属性信息和第二属性信息。
比对模块102,用于将同一实体的第一属性信息和第二属性信息比对,以确定相应实体各属性项的属性值更新类型。
统计模块103,用于对各属性项,根据更新类型进行统计,得到属性值属于相应更新类型的实体数量。
生成模块104,用于根据对属性项统计得到的属于各更新类型的实体数量,生成一致性报告。
进一步地,在本申请实施例的一种可能的实现方式中,参见图10,在图9所示实施例的基础上,该数据一致性的检测装置还可以包括:
其中,两版本图谱包括第一图谱和第二图谱。
修改模块105,用于若同一实体的标识在两版本图谱中存在差异,生成两版本图谱中标识的变更关系,以根据变更关系,修改第一图谱或第二图谱的标识。
作为一种可能的实现方式,修改模块105,具体用于:若第一图谱中实体的第一标识变化为第二图谱中的第二标识,生成第一图谱中的第一标识和第二图谱中的第二标识之间的变更关系;根据变更关系,将第一图谱中的第一标识修改为第二标识,或者,将第二图谱中的第二标识修改为第一标识。
作为另一种可能的实现方式,修改模块105,具体用于:若第一图谱中第一标识的实体和第二标识的实体融合为第二图谱中第一标识的实体,生成第一图谱中的第二标识和第二图谱中第一标识之间的变更关系;根据第一图谱中的第二标识和第二图谱中第一标识之间的变更关系,对第二图谱中具有第一标识的实体复制属性信息,将复制的属性信息对应实体的标识修改为第二标识。
作为又一种可能的实现方式,修改模块105,具体用于:若第一图谱中具有第二标识的实体拆分为第二图谱中第一标识的实体和第二标识的实体,生成第一图谱中的第二标识和第二图谱中第一标识之间的变更关系;根据第一图谱中的第二标识和第二图谱中第一标识之间的变更关系,对第一图谱中具有第二标识的实体复制属性信息,将复制的属性信息对应实体的标识修改为第一标识。
归并模块106,用于根据实体的标识,对各版本图谱进行归并分桶处理,以得到各版本图谱的数据桶;其中,每一个版本图谱的数据桶为多个,每一个数据桶与实体的标识对应,用于存储对应实体的属性信息。
作为一种可能的实现方式,比对模块102,具体用于:从各版本图谱的数据桶中,获取对应同一标识的数据桶;数据桶中存储的属性信息包括多个层级的属性,每一层级属性包括至少一个属性项和对应的属性值;对对应同一标识的数据桶,根据属性层级顺序,对比相应属性层级内的属性项和对应的属性值,得到更新类型;其中,更新类型包括属性值增加、属性值减少、属性值修改和维持不变中的一个或多个组合。
作为一种可能的实现方式,比对模块102,还用于:根据用户设置,确定待比对的属性项。
处理模块107,用于获取用户设定的阈值计算策略;采用阈值计算策略,对历史数据中的实体数量进行计算,以确定阈值;若实体数量与阈值不匹配,生成提示信息。
作为一种可能的实现方式,生成模块104,还用于:获取同一实体的第一属性信息和第二属性信息之间的属性差异;属性差异,用于指示各属性项的异同以及对应属性值的异同;根据属性差异,生成一致性报告。
需要说明的是,前述对数据一致性的检测方法实施例的解释说明也适用于该实施例的数据一致性的检测装置,此处不再赘述。
本申请实施例的数据一致性的检测装置,通过获取两版本图谱,确定各实体在两版本图谱中的第一属性信息和第二属性信息,之后,将同一实体的第一属性信息和第二属性信息比对,以确定相应实体各属性项的属性值更新类型,接着,对各属性项,根据更新类型进行统计,得到属性值属于相应更新类型的实体数量,最后,根据对属性项统计得到的属于各更新类型的实体数量,生成一致性报告。由此,生成的一致性报告中可以包括实体各属性项的属性值更新类型,以及各更新类型对应的实体数量,可以丰富一致性报告的展示内容,便于测试人员阅读该一致性报告。
为了实现上述实施例,本申请还提出一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时,实现如本申请前述实施例提出的数据一致性的检测方法。
为了实现上述实施例,本申请还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请前述实施例提出的数据一致性的检测方法。
图11示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图11显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图11所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图11未显示,通常称为“硬盘驱动器”)。尽管图11中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的数据一致性的检测方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (20)

1.一种数据一致性的检测方法,其特征在于,所述方法包括:
获取两版本图谱,确定各实体在所述两版本图谱中的第一属性信息和第二属性信息;
将同一实体的所述第一属性信息和所述第二属性信息比对,以确定相应实体各属性项的属性值更新类型;
对各属性项,根据所述更新类型进行统计,得到属性值属于相应更新类型的实体数量;
根据对属性项统计得到的属于各更新类型的实体数量,生成一致性报告;
所述两版本图谱包括第一图谱和第二图谱,所述将同一实体的所述第一属性信息和所述第二属性信息比对,以确定相应实体各属性项的属性值更新类型之前,还包括:
若同一实体的标识在所述两版本图谱中存在差异,生成所述两版本图谱中标识的变更关系,以根据所述变更关系,修改所述第一图谱或所述第二图谱的标识。
2.根据权利要求1所述的检测方法,其特征在于,所述生成所述两版本图谱中标识的变更关系,以根据所述变更关系,修改所述第一图谱或所述第二图谱的标识,包括:
若所述第一图谱中实体的第一标识变化为所述第二图谱中的第二标识,生成所述第一图谱中的第一标识和所述第二图谱中的第二标识之间的变更关系;
根据所述变更关系,将所述第一图谱中的所述第一标识修改为所述第二标识,或者,将所述第二图谱中的所述第二标识修改为所述第一标识。
3.根据权利要求1所述的检测方法,其特征在于,所述生成不同版本图谱中标识的变更关系,以根据所述变更关系,修改所述第一图谱或所述第二图谱的标识,包括:
若所述第一图谱中第一标识的实体和第二标识的实体融合为所述第二图谱中第一标识的实体,生成所述第一图谱中的第二标识和所述第二图谱中第一标识之间的变更关系;
根据所述第一图谱中的第二标识和所述第二图谱中第一标识之间的变更关系,对所述第二图谱中具有所述第一标识的实体复制属性信息,将复制的属性信息对应实体的标识修改为所述第二标识。
4.根据权利要求1所述的检测方法,其特征在于,所述生成不同版本图谱中标识的变更关系,以根据所述变更关系,修改所述第一图谱或所述第二图谱的标识,包括:
若所述第一图谱中具有第二标识的实体拆分为所述第二图谱中第一标识的实体和第二标识的实体,生成所述第一图谱中的第二标识和所述第二图谱中第一标识之间的变更关系;
根据所述第一图谱中的第二标识和所述第二图谱中第一标识之间的变更关系,对所述第一图谱中具有所述第二标识的实体复制属性信息,将复制的属性信息对应实体的标识修改为所述第一标识。
5.根据权利要求1-4任一项所述的检测方法,其特征在于,所述将同一实体的所述第一属性信息和所述第二属性信息比对之前,还包括:
根据实体的标识,对各版本图谱进行归并分桶处理,以得到各版本图谱的数据桶;其中,每一个版本图谱的数据桶为多个,每一个数据桶与实体的标识对应,用于存储对应实体的属性信息。
6.根据权利要求5所述的检测方法,其特征在于,所述将同一实体的所述第一属性信息和所述第二属性信息比对,包括:
从各版本图谱的数据桶中,获取对应同一标识的数据桶;所述数据桶中存储的属性信息包括多个层级的属性,每一层级属性包括至少一个属性项和对应的属性值;
对所述对应同一标识的数据桶,根据属性层级顺序,对比相应属性层级内的属性项和对应的属性值,得到所述更新类型;
其中,所述更新类型包括属性值增加、属性值减少、属性值修改和维持不变中的一个或多个组合。
7.根据权利要求6所述的检测方法,其特征在于,所述对比相应属性层级内的属性项和对应的属性值之前,还包括:
根据用户设置,确定待比对的属性项。
8.根据权利要求1所述的检测方法,其特征在于,所述根据所述更新类型进行统计,得到属性值属于相应更新类型的实体数量之后,还包括:
获取用户设定的阈值计算策略;
采用所述阈值计算策略,对历史数据中的实体数量进行计算,以确定阈值;
若所述实体数量与所述阈值不匹配,生成提示信息。
9.根据权利要求1所述的检测方法,其特征在于,所述将同一实体的所述第一属性信息和所述第二属性信息比对之后,还包括:
获取同一实体的所述第一属性信息和所述第二属性信息之间的属性差异;所述属性差异,用于指示各属性项的异同以及对应属性值的异同;
根据所述属性差异,生成所述一致性报告。
10.一种数据一致性的检测装置,其特征在于,所述装置包括:
获取模块,用于获取两版本图谱,确定各实体在所述两版本图谱中的第一属性信息和第二属性信息;
比对模块,用于将同一实体的所述第一属性信息和所述第二属性信息比对,以确定相应实体各属性项的属性值更新类型;
统计模块,用于对各属性项,根据所述更新类型进行统计,得到属性值属于相应更新类型的实体数量;
生成模块,用于根据对属性项统计得到的属于各更新类型的实体数量,生成一致性报告;
所述两版本图谱包括第一图谱和第二图谱,所述装置还包括:
修改模块,用于若同一实体的标识在所述两版本图谱中存在差异,生成所述两版本图谱中标识的变更关系,以根据所述变更关系,修改所述第一图谱或所述第二图谱的标识。
11.根据权利要求10所述的检测装置,其特征在于,所述修改模块,具体用于:
若所述第一图谱中实体的第一标识变化为所述第二图谱中的第二标识,生成所述第一图谱中的第一标识和所述第二图谱中的第二标识之间的变更关系;
根据所述变更关系,将所述第一图谱中的所述第一标识修改为所述第二标识,或者,将所述第二图谱中的所述第二标识修改为所述第一标识。
12.根据权利要求10所述的检测装置,其特征在于,所述修改模块,具体用于:
若所述第一图谱中第一标识的实体和第二标识的实体融合为所述第二图谱中第一标识的实体,生成所述第一图谱中的第二标识和所述第二图谱中第一标识之间的变更关系;
根据所述第一图谱中的第二标识和所述第二图谱中第一标识之间的变更关系,对所述第二图谱中具有所述第一标识的实体复制属性信息,将复制的属性信息对应实体的标识修改为所述第二标识。
13.根据权利要求10所述的检测装置,其特征在于,所述修改模块,具体用于:
若所述第一图谱中具有第二标识的实体拆分为所述第二图谱中第一标识的实体和第二标识的实体,生成所述第一图谱中的第二标识和所述第二图谱中第一标识之间的变更关系;
根据所述第一图谱中的第二标识和所述第二图谱中第一标识之间的变更关系,对所述第一图谱中具有所述第二标识的实体复制属性信息,将复制的属性信息对应实体的标识修改为所述第一标识。
14.根据权利要求10-13任一项所述的检测装置,其特征在于,所述装置还包括:
归并模块,用于根据实体的标识,对各版本图谱进行归并分桶处理,以得到各版本图谱的数据桶;其中,每一个版本图谱的数据桶为多个,每一个数据桶与实体的标识对应,用于存储对应实体的属性信息。
15.根据权利要求14所述的检测装置,其特征在于,所述比对模块,具体用于:
从各版本图谱的数据桶中,获取对应同一标识的数据桶;所述数据桶中存储的属性信息包括多个层级的属性,每一层级属性包括至少一个属性项和对应的属性值;
对所述对应同一标识的数据桶,根据属性层级顺序,对比相应属性层级内的属性项和对应的属性值,得到所述更新类型;
其中,所述更新类型包括属性值增加、属性值减少、属性值修改和维持不变中的一个或多个组合。
16.根据权利要求15所述的检测装置,其特征在于,所述比对 模块,还用于:
根据用户设置,确定待比对的属性项。
17.根据权利要求10所述的检测装置,其特征在于,所述装置还包括:
处理模块,用于获取用户设定的阈值计算策略;采用所述阈值计算策略,对历史数据中的实体数量进行计算,以确定阈值;若所述实体数量与所述阈值不匹配,生成提示信息。
18.根据权利要求10所述的检测装置,其特征在于,所述生成模块,还用于:
获取同一实体的所述第一属性信息和所述第二属性信息之间的属性差异;所述属性差异,用于指示各属性项的异同以及对应属性值的异同;
根据所述属性差异,生成所述一致性报告。
19.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-9中任一所述的数据一致性的检测方法。
20.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一所述的数据一致性的检测方法。
CN201910660233.7A 2019-07-22 2019-07-22 数据一致性的检测方法、装置和计算机设备 Active CN110377704B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910660233.7A CN110377704B (zh) 2019-07-22 2019-07-22 数据一致性的检测方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910660233.7A CN110377704B (zh) 2019-07-22 2019-07-22 数据一致性的检测方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN110377704A CN110377704A (zh) 2019-10-25
CN110377704B true CN110377704B (zh) 2022-04-22

Family

ID=68254591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910660233.7A Active CN110377704B (zh) 2019-07-22 2019-07-22 数据一致性的检测方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN110377704B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143577B (zh) * 2019-12-27 2023-06-16 北京百度网讯科技有限公司 数据标注方法、装置和系统
CN111177408A (zh) * 2019-12-27 2020-05-19 北京明略软件系统有限公司 一种实现数据处理的方法、装置、计算机存储介质及终端
CN111898759A (zh) * 2020-06-20 2020-11-06 中国建设银行股份有限公司 知识库更新方法、装置、电子设备及可读存储介质
CN112163004A (zh) * 2020-10-14 2021-01-01 上海万向区块链股份公司 基于多链数据融合的列表处理及更新展示系统及方法
CN113742322A (zh) * 2020-11-17 2021-12-03 北京沃东天骏信息技术有限公司 一种数据质量检测方法和装置
CN113160918A (zh) * 2021-05-21 2021-07-23 山东健康医疗大数据有限公司 一种变化数据捕获的统一处理方法及工具
CN113489593B (zh) * 2021-06-30 2022-11-08 深圳前海微众银行股份有限公司 Json报文的核对方法和json报文的核对装置
CN113688616B (zh) * 2021-10-27 2022-02-25 深圳市明源云科技有限公司 图表报告差异检测方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106920067A (zh) * 2017-01-18 2017-07-04 上海爱韦讯信息技术有限公司 可定制化的组织资产管理系统及方法
CN109344262A (zh) * 2018-10-31 2019-02-15 百度在线网络技术(北京)有限公司 知识体系的建立方法、装置及存储介质
CN109582665A (zh) * 2018-11-27 2019-04-05 深圳市关运通科技有限公司 一种报关差错信息的统计方法及装置
CN109597855A (zh) * 2018-11-29 2019-04-09 北京邮电大学 基于大数据驱动的领域知识图谱构建方法及系统
CN109710775A (zh) * 2018-12-29 2019-05-03 北京航天云路有限公司 一种基于多规则的知识图谱动态生成方法
CN109766444A (zh) * 2018-12-10 2019-05-17 北京百度网讯科技有限公司 知识图谱的应用数据库生成方法及其装置
CN109993662A (zh) * 2017-12-30 2019-07-09 广州明领基因科技有限公司 面向采矿作业安全监测信息的大数据挖掘系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10678834B2 (en) * 2017-02-02 2020-06-09 GM Global Technology Operations LLC Methodology for generating a consistent semantic model by filtering and fusing multi-source ontologies

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106920067A (zh) * 2017-01-18 2017-07-04 上海爱韦讯信息技术有限公司 可定制化的组织资产管理系统及方法
CN109993662A (zh) * 2017-12-30 2019-07-09 广州明领基因科技有限公司 面向采矿作业安全监测信息的大数据挖掘系统
CN109344262A (zh) * 2018-10-31 2019-02-15 百度在线网络技术(北京)有限公司 知识体系的建立方法、装置及存储介质
CN109582665A (zh) * 2018-11-27 2019-04-05 深圳市关运通科技有限公司 一种报关差错信息的统计方法及装置
CN109597855A (zh) * 2018-11-29 2019-04-09 北京邮电大学 基于大数据驱动的领域知识图谱构建方法及系统
CN109766444A (zh) * 2018-12-10 2019-05-17 北京百度网讯科技有限公司 知识图谱的应用数据库生成方法及其装置
CN109710775A (zh) * 2018-12-29 2019-05-03 北京航天云路有限公司 一种基于多规则的知识图谱动态生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《中国金融科技研究成果报告》;中国人民银行金融科技(FinTech)委员会;《中国金融科技研究成果报告》;20190131;第【0034】-【0036】页 *

Also Published As

Publication number Publication date
CN110377704A (zh) 2019-10-25

Similar Documents

Publication Publication Date Title
CN110377704B (zh) 数据一致性的检测方法、装置和计算机设备
CN107391744B (zh) 数据存储、读取方法、装置及其设备
US9342570B2 (en) Detecting reference data tables in extract-transform-load processes
US20230115491A1 (en) Information presentation method and apparatus, electronic device, and storage medium
CN107729227B (zh) 应用程序测试范围确定方法、系统、服务器和存储介质
US10353762B2 (en) Hierarchical fault determination in an application performance management system
CN113760891B (zh) 一种数据表的生成方法、装置、设备和存储介质
US20120297364A1 (en) Augmented design structure matrix visualizations for software system analysis
US8954376B2 (en) Detecting transcoding tables in extract-transform-load processes
CN114490375B (zh) 应用程序的性能测试方法、装置、设备及存储介质
JP4383484B2 (ja) メッセージ解析装置、制御方法および制御プログラム
CN111414410A (zh) 数据处理方法、装置、设备和存储介质
CN114860699A (zh) 数据质量检测方法、装置、设备和存储介质
CN113220551A (zh) 指标趋势预测及预警方法、装置、电子设备及存储介质
CN113157671A (zh) 一种数据监控方法及装置
CN111523764A (zh) 业务架构检测方法、装置、工具、电子设备和介质
CN115269519A (zh) 一种日志检测方法、装置及电子设备
CN114706856A (zh) 故障处理方法及装置、电子设备和计算机可读存储介质
KR102217092B1 (ko) 애플리케이션의 품질 정보 제공 방법 및 장치
CN109857632B (zh) 测试方法、装置、终端设备及可读存储介质
CN113608761A (zh) 固件文件匹配方法、装置、电子设备和存储介质
US20190391893A1 (en) Recognition of operational elements by fingerprint in an application performance management system
WO2024113128A1 (en) A code branch managing system for comparing and/or updating a master code branch with a new code branch
CN114579619B (zh) 数据查询方法、装置、电子设备及存储介质
CN113626050B (zh) 医疗应用的更新方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant