CN111428095B - 图数据质量验证方法及图数据质量验证装置 - Google Patents

图数据质量验证方法及图数据质量验证装置 Download PDF

Info

Publication number
CN111428095B
CN111428095B CN202010526495.7A CN202010526495A CN111428095B CN 111428095 B CN111428095 B CN 111428095B CN 202010526495 A CN202010526495 A CN 202010526495A CN 111428095 B CN111428095 B CN 111428095B
Authority
CN
China
Prior art keywords
graph data
node
graph
processed
structure information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010526495.7A
Other languages
English (en)
Other versions
CN111428095A (zh
Inventor
顾凌云
郭志攀
王伟
李海全
张晓丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai IceKredit Inc
Original Assignee
Shanghai IceKredit Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai IceKredit Inc filed Critical Shanghai IceKredit Inc
Priority to CN202010526495.7A priority Critical patent/CN111428095B/zh
Publication of CN111428095A publication Critical patent/CN111428095A/zh
Application granted granted Critical
Publication of CN111428095B publication Critical patent/CN111428095B/zh
Priority to US17/229,002 priority patent/US11170050B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection

Abstract

本发明提供了一种图数据质量验证方法及图数据质量验证装置,能够在向目标图数据库导入待处理图数据之前对待处理图数据进行质量验证,避免基于存在错误的待处理图数据生成目标列表。通过判断目标列表中是否存在离群值,能够对待处理图数据中的异常图数据进行检测,确保向目标图数据库中导入的待处理图数据的数据正确性。通过生成图数据质量报告,能够对待处理图数据在导入过程中是否出错进行验证。如此,可以在导入待处理图数据之前以及导入过程中对图数据质量进行验证,避免待处理图数据的重复导入和清洗,从而提高图数据库的搭建效率并确保图数据库中的图数据的质量。

Description

图数据质量验证方法及图数据质量验证装置
技术领域
本发明涉及图数据处理技术领域,具体而言,涉及一种图数据质量验证方法及图数据质量验证装置。
背景技术
随着社交、电商、金融、零售、物联网等行业的快速发展,现代设备织起了一张庞大而复杂的数据关系网,传统数据库很难处理这些数据之间的关系运算,亟需一种支持海量复杂数据关系运算的数据库。基于此,图数据库应运而生。图数据库能够以“图”这种数据结构存储和查询数据。其中,“图”由节点和关系两个元素组成,每个节点代表一个实体(如,人、地、事物、类别或其他数据),每个关系(如节点连边)代表两个节点的关联方式,这种通用结构可以对各种场景进行建模,从而实现对海量复杂数据的关系运算。在搭建图数据库时,通常是将源数据直接导入图数据库,这样会影响图数据库的搭建效率并难以确保图数据库中的图数据的质量。
发明内容
为了改善上述问题,本发明提供了一种图数据质量验证方法及图数据质量验证装置。
提供一种图数据质量验证方法,包括:
获取目标数据库的第一表结构信息,从预设数据池中获取待处理图数据以及所述待处理图数据的第二表结构信息;其中,所述目标数据库为图数据库;
将所述第一表结构信息与所述第二表结构信息进行比对,判断所述待处理图数据是否满足列表融合条件;
在判定出所述待处理图数据满足所述列表融合条件时,将所述待处理图数据进行融合,得到目标列表;其中,所述目标列表中包括多个图数据节点以及多个节点连边;
根据所述目标列表中的图数据节点和节点连边确定所述目标列表中是否存在离群值,所述离群值包括用于表征图数据节点的节点度的第一离群值和用于表征所述待处理图数据的连通图的成员数的第二离群值中的至少一种;
在所述目标列表中不存在离群值时,将所述待处理图数据导入所述目标数据库中;
将所述目标数据库中的待处理图数据与所述预设数据池中的待处理图数据进行比对,并根据比对结果生成图数据质量报告。
进一步,将所述第一表结构信息与所述第二表结构信息进行比对,判断所述待处理图数据是否满足列表融合条件,包括:
比较所述第一表结构信息中的表节点的第一字段类型与所述第二表结构信息中的表节点的第二字段类型是否一致;
在所述第一字段类型与所述第二字段类型一致时,确定所述第一表结构信息中的每个表节点的字段在所述第二表结构信息中是否唯一;
若所述第一表结构信息中的每个表节点的字段在所述第二表结构信息中唯一,则查询所述第一表结构信息中是否存在所述待处理图数据中的开始节点的第一标识信息以及结束节点的第二标识信息;
若所述第一表结构信息中存在所述待处理图数据中的开始节点的第一标识信息以及结束节点的第二标识信息,则判定所述待处理图数据满足列表融合条件。
进一步,所述方法还包括:
在判定出所述待处理图数据不满足所述列表融合条件时,生成错误提示信息以提示所述待处理图数据存在错误。
进一步,所述方法还包括:
在判定出所述待处理图数据不满足所述列表融合条件时,执行预先配置的自动修复脚本以对所述待处理图数据进行修复。
进一步,根据所述目标列表中的图数据节点和节点连边确定所述目标列表中是否存在离群值,包括:
确定所述目标列表中每个图数据节点对应的节点连边的累计值并将所述累计值作为每个图数据节点的节点度;
按照节点度由大到小的顺序对所述图数据节点进行排序得到图数据节点排序结果;
按照设定比例和所述图数据节点排序结果对所述目标列表中的图数据节点进行划分,得到第一图数据节点集合以及第二图数据节点集合;其中,所述第一图数据节点集合中包括多个排序靠前的图数据节点,所述第二图数据节点集合中包括多个排序靠后的图数据节点;
计算所述第二图数据节点集合对应的平均节点度;
判断所述第一图数据节点集合中的最小节点度与所述平均节点度之间的第一比值是否达到设定比值;若是,则确定所述目标列表中存在第一离群值。
进一步,根据所述目标列表中的图数据节点和节点连边确定所述目标列表中是否存在离群值,包括:
根据所述目标列表中的每个图数据节点及其对应的节点连边,生成所述目标列表对应的多个连通图;其中,每个连通图中包括多个图数据节点,每个连通图中的图数据节点之间通过节点连边连接;
计算每个连通图的成员数;其中,成员数是连通图中的图数据节点的数量;
按照成员数由大到小的顺序对所述连通图进行排序得到连通图排序结果;
按照设定比例和所述连通图排序结果对所述多个连通图进行划分,得到第一连通图集合以及第二连通图集合;其中,所述第一连通图集合中包括多个排序靠前的连通图,所述第二连通图集合中包括多个排序靠后的连通图;
计算所述第二连通图集合对应的平均成员数;
判断所述第一连通图集合中的最小成员数与所述平均成员数之间的第二比值是否达到设定比值;若是,则确定所述目标列表中存在第二离群值。
提供一种图数据质量验证装置,包括:
信息获取模块,用于获取目标数据库的第一表结构信息,从预设数据池中获取待处理图数据以及所述待处理图数据的第二表结构信息;其中,所述目标数据库为图数据库;
条件判断模块,用于将所述第一表结构信息与所述第二表结构信息进行比对,判断所述待处理图数据是否满足列表融合条件;
数据融合模块,用于在判定出所述待处理图数据满足所述列表融合条件时,将所述待处理图数据进行融合,得到目标列表;其中,所述目标列表中包括多个图数据节点以及多个节点连边;
离群检测模块,用于根据所述目标列表中的图数据节点和节点连边确定所述目标列表中是否存在离群值,所述离群值包括用于表征图数据节点的节点度的第一离群值和用于表征所述待处理图数据的连通图的成员数的第二离群值中的至少一种;
数据导入模块,用于在所述目标列表中不存在离群值时,将所述待处理图数据导入所述目标数据库中;
报告生成模块,用于将所述目标数据库中的待处理图数据与所述预设数据池中的待处理图数据进行比对,并根据比对结果生成图数据质量报告。
进一步,所述条件判断模块,具体用于:
比较所述第一表结构信息中的表节点的第一字段类型与所述第二表结构信息中的表节点的第二字段类型是否一致;
在所述第一字段类型与所述第二字段类型一致时,确定所述第一表结构信息中的每个表节点的字段在所述第二表结构信息中是否唯一;
若所述第一表结构信息中的每个表节点的字段在所述第二表结构信息中唯一,则查询所述第一表结构信息中是否存在所述待处理图数据中的开始节点的第一标识信息以及结束节点的第二标识信息;
若所述第一表结构信息中存在所述待处理图数据中的开始节点的第一标识信息以及结束节点的第二标识信息,则判定所述待处理图数据满足列表融合条件。
进一步,所述离群检测模块,具体用于:
确定所述目标列表中每个图数据节点对应的节点连边的累计值并将所述累计值作为每个图数据节点的节点度;
按照节点度由大到小的顺序对所述图数据节点进行排序得到图数据节点排序结果;
按照设定比例和所述图数据节点排序结果对所述目标列表中的图数据节点进行划分,得到第一图数据节点集合以及第二图数据节点集合;其中,所述第一图数据节点集合中包括多个排序靠前的图数据节点,所述第二图数据节点集合中包括多个排序靠后的图数据节点;
计算所述第二图数据节点集合对应的平均节点度;
判断所述第一图数据节点集合中的最小节点度与所述平均节点度之间的第一比值是否达到设定比值;若是,则确定所述目标列表中存在第一离群值。
进一步,所述离群检测模块,具体用于:
根据所述目标列表中的每个图数据节点及其对应的节点连边,生成所述目标列表对应的多个连通图;其中,每个连通图中包括多个图数据节点,每个连通图中的图数据节点之间通过节点连边连接;
计算每个连通图的成员数;其中,成员数是连通图中的图数据节点的数量;
按照成员数由大到小的顺序对所述连通图进行排序得到连通图排序结果;
按照设定比例和所述连通图排序结果对所述多个连通图进行划分,得到第一连通图集合以及第二连通图集合;其中,所述第一连通图集合中包括多个排序靠前的连通图,所述第二连通图集合中包括多个排序靠后的连通图;
计算所述第二连通图集合对应的平均成员数;
判断所述第一连通图集合中的最小成员数与所述平均成员数之间的第二比值是否达到设定比值;若是,则确定所述目标列表中存在第二离群值。
相较于现有技术,本发明实施例提供的图数据质量验证方法及图数据质量验证装置具有以下技术效果:
通过预先将获取到的第一表结构信息和第二表结构信息进行对比从而判断获取到的待处理图数据是否满足列表融合条件,并在满足列表融合条件时将待处理图数据进行融合得到目标列表,能够在向目标图数据库导入待处理图数据之前对待处理图数据进行质量验证,避免基于存在错误的待处理图数据生成目标列表。通过判断目标列表中是否存在离群值,能够对待处理图数据中的异常图数据进行检测,确保向目标图数据库中导入的待处理图数据的数据正确性。通过生成图数据质量报告,能够对待处理图数据在导入过程中是否出错进行验证。如此,可以在导入待处理图数据之前以及导入待处理图数据的过程中实现数据质量的验证,避免待处理图数据的重复导入和清洗,从而提高图数据库的搭建效率并确保图数据库中的图数据的质量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例所提供的图数据质量验证方法的流程图。
图2为本发明实施例所提供的图数据质量验证装置的模块框图。
图3为本发明实施例所提供的图数据质量验证装置所在的电子设备的硬件结构连接的示意图。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
在将源数据直接导入图数据库进行图数据库的搭建时,如果图数据库发出报错信号,则会根据报错信号查找出报错的数据并进行修复,然后对图数据库中的源数据进行清洗并重新进行(修复后的)源数据的导入,这样会针对源数据进行重复的导入和清洗,从而图数据库的搭建效率。
此外,在完成源数据的导入后,由于没有对图数据库中的图数据进行质量验证,这样难以确保图数据库中的图数据的质量。
为改善上述问题,本发明公开了图数据质量验证方法及图数据质量验证装置,能够提高图数据库的搭建效率并确保图数据库中的图数据的质量。
在本发明中,图数据可以是与企业相关的数据,例如企业经营数据、企业投资数据以及企业法人数据等,这些数据之间存在数据关联,因此可以将这些数据以图数据的形式进行表示,然后将这些图数据导入到图数据库中便于后续使用。
请参阅图1,提供了图数据质量验证方法的流程图,该方法包括以下内容。
步骤110,获取目标数据库的第一表结构信息,从预设数据池中获取待处理图数据以及所述待处理图数据的第二表结构信息。
在本发明中,目标数据库为图数据库,数据池可以理解为数据仓库,数据仓库中的图数据是从各个数据源汇聚而来的。
在本发明中,目标数据库的第一表结构信息可以理解为目标数据库的schema,不同的目标数据库的schema的具体内容不同,本发明示例性地给出了目标图数据库的一个schema具体内容。该schema的示例性内容如下:
{
"edgeList": [
{
"startNodeName": "Person",//开始节点名
"endNodeName": "Company",//结束节点名
"name": "WORK_IN",//边名
"properties": [//属性
{
"dataType": "String",//属性字段类型,有数字、字符串、日期等
"description": "角色",//属性描述
"name": "role"//属性名
}
]
}
],
"nodeList": [
{
"name": "Person",//节点名
"properties": [//节点属性、跟边的属性格式一致
{}
],
"uniqueProperties": [//唯一键属性
"id"
]
}
]
}
在本发明中,第二表结构信息中可以包括与第一表结构信息对应的映射表,同样地,本发明示例性地给出了第二表结构信息中的映射表的具体内容。该映射表的示例性内容如下:
{
"nodes": [
{
"name": "Company",
"query": "select name from graph_bc.company_not_repeat",//数据仓库对应的查询
"mode": "INSERT",
"mapping": {//图数据库中字段的名字与数据仓库属性的映射
"name": "name"
}
}
],
"relations": []
}
步骤120,将所述第一表结构信息与所述第二表结构信息进行比对,判断所述待处理图数据是否满足列表融合条件。
若待处理图数据满足列表融合条件,则进入步骤130。
若待处理图数据不满足列表融合条件,则进入步骤170。
步骤130,将所述待处理图数据进行融合,得到目标列表。
在本发明中,所述目标列表中包括多个图数据节点以及多个节点连边。
步骤140,根据所述目标列表中的图数据节点和节点连边确定所述目标列表中是否存在离群值。
在本发明中,所述离群值包括用于表征图数据节点的节点度的第一离群值和用于表征所述待处理图数据的连通图的成员数的第二离群值中的至少一种。其中,若目标列表中不存在离群值,则进入步骤150,若目标列表中存在离群值,则进入步骤160。
步骤150,将所述待处理图数据导入所述目标数据库中。
步骤160,将所述目标数据库中的待处理图数据与所述预设数据池中的待处理图数据进行比对,并根据比对结果生成图数据质量报告。
步骤S170,生成图数据质量报告并报错。
在本发明中,图数据质量报告可以通过多种方式进行呈现,例如可以通过图形形式呈现,也可以通过列表形式呈现。进一步地,图数据质量报告中包括目标数据库中的待处理图数据与预设数据池中的待处理图数据在图数据节点数量、节点连边数据量、图数据节点的连接关系以及图数据节点的节点属性的空值率等多个层面的比较结果。
可以理解,图数据质量报告不仅可以反映待处理图数据在导入目标图数据库的过程中是否存在错误或异常,还可以反映待处理图数据在导入目标图数据库之前的错误信息,例如,可以将待处理数据不满足列表融合条件或目标列表中存在离群值等内容记录在图数据质量报告中。这样,能够将待处理图数据的完整、准确的质量验证结果进行展示。
可以理解,在应用上述步骤110-步骤160所描述的方法时,通过预先将获取到的第一表结构信息和第二表结构信息进行对比从而判断获取到的待处理图数据是否满足列表融合条件,并在满足列表融合条件时将待处理图数据进行融合得到目标列表,能够在向目标图数据库导入待处理图数据之前对待处理图数据进行质量验证,避免基于存在错误的待处理图数据生成目标列表。
通过判断目标列表中是否存在离群值,能够对待处理图数据中的异常图数据进行检测,确保向目标图数据库中导入的待处理图数据的数据正确性。通过生成图数据质量报告,能够对待处理图数据在导入过程中是否出错进行验证。
如此,可以在导入待处理图数据之前以及导入待处理图数据的过程中实现数据质量的验证,避免待处理图数据的重复导入和清洗,从而提高图数据库的搭建效率并确保图数据库中的图数据的质量。
在一个具体示例中,为了准确、全面地判断所述待处理图数据是否满足列表融合条件,步骤120所描述的判断所述待处理图数据是否满足列表融合条件,具体可以通过字段类型、字段唯一性以及标识信息完整性三个方面进行判断。其中,以上三个判断逻辑可以同步进行,也可以依次进行,下面以依次进行判断的方式进行说明。
首先,比较所述第一表结构信息中的表节点的第一字段类型与所述第二表结构信息中的表节点的第二字段类型是否一致。在所述第一字段类型与所述第二字段类型一致时,进一步确定所述第一表结构信息中的每个表节点的字段在所述第二表结构信息中是否唯一。
其次,若所述第一表结构信息中的每个表节点的字段在所述第二表结构信息中唯一,则查询所述第一表结构信息中是否存在所述待处理图数据中的开始节点的第一标识信息以及结束节点的第二标识信息。若所述第一表结构信息中存在所述待处理图数据中的开始节点的第一标识信息以及结束节点的第二标识信息,则判定所述待处理图数据满足列表融合条件。
在本方案中,字段类型可以包括Number和String等类型。在进行字段唯一性验证时,可以根据Schema中的uniqueProperties验证每个表节点的字段在数据仓库中是否唯一,通过进行字段唯一性的判断不仅能加快后续将待处理图数据导入目标图数据库的速度,也能够确保后续的节点连边能够正常地关联。
可以理解,通过从字段类型一致性、字段唯一性以及标识信息完整性这三个层面判断所述待处理图数据是否满足列表融合条件,能够确保判断结果的准确性和全面性,避免将存在问题的待处理图数据导入到目标图数据库中。
可以理解,如果上述三个判断条件中其中一个判断条件不满足,则可以判定出所述待处理图数据不满足所述列表融合条件。进一步地,在所述待处理图数据不满足所述列表融合条件时,该方法还可以包括以下两种处理方式,当然,在具体实施时,并不限于以下两种方式。
第一种处理方式,生成错误提示信息以提示所述待处理图数据存在错误。
例如,可以在图数据质量报告中记录错误提示信息。这样,可以在后期通过图数据质量报告获知待处理图数据在导入之前存在错误。
第二种处理方式,执行预先配置的自动修复脚本以对所述待处理图数据进行修复。
例如,可以执行预先配置的修复脚本对待处理图数据中的第二字段类型进行修改,还可以将待处理图数据对应的标识信息修改为第一表结构信息中存在的标识信息。例如,第一表结构信息中用于表征开始节点的标识信息为g1,用于表征结束节点的标识信息为g2,假设待处理图数据对应的开始节点的第一标识信息为g3,结束节点的第二标识信息为g4,在这种情况下,可以将g3修改为g1,将g4修改为g2。
可以理解,在对待处理图数据库进行修复之后,可以将修复后的待处理图数据进行融合得到目标列表。
在具体实施时,为了准确地判断出目标列表中是否存在离群值,步骤S140所描述的根据所述目标列表中的图数据节点和节点连边确定所述目标列表中是否存在离群值,具体可以通过以下两种方式实现。其中,以下两种方式分别对应第一离群值的确定和第二离群值的确定。
第一种确定目标列表的离群值的方式具体描述如下。
首先,确定所述目标列表中每个图数据节点对应的节点连边的累计值并将所述累计值作为每个图数据节点的节点度,按照节点度由大到小的顺序对所述图数据节点进行排序得到图数据节点排序结果。
在本发明中,可以采用度中心算法计算每个图数据节点的节点度。
其次,按照设定比例和所述图数据节点排序结果对所述目标列表中的图数据节点进行划分,得到第一图数据节点集合以及第二图数据节点集合。
在本发明中,所述第一图数据节点集合中包括多个排序靠前的图数据节点,所述第二图数据节点集合中包括多个排序靠后的图数据节点。例如,设定比例可以是10%,则第一图数据节点集合可以是图数据节点排序结果中前10%的节点度对应的图数据节点形成的集合,第二图数据节点集合可以是图数据节点排序结果中后90%的节点度对应的图数据节点形成的集合。
然后,计算所述第二图数据节点集合对应的平均节点度。
最后,判断所述第一图数据节点集合中的最小节点度与所述平均节点度之间的第一比值是否达到设定比值;若是,则确定所述目标列表中存在第一离群值。
例如,平均节点度为5,设定比值可以为1000。假设第一图数据节点集合中的最小节点度为6000,则确定出第一比值为1200,在这种情况下,可以确定目标列表中存在第一离群值。
可选地,在确定目标列表中是否存在第一离群值时,还可以通过判断所述第一图数据节点集合中是否存在与平均节点度之间的第一比值达到设定比值的目标节点度来实现。例如,第一图数据节点集合中存在目标节点度,则确定目标列表中存在第一离群值。
第二种确定目标列表的离群值的方式具体描述如下。
首先,根据所述目标列表中的每个图数据节点及其对应的节点连边,生成所述目标列表对应的多个连通图,并计算每个连通图的成员数。
在本发明中,每个连通图中包括多个图数据节点,每个连通图中的图数据节点之间通过节点连边连接,成员数是连通图中的图数据节点的数量。
其次,按照成员数由大到小的顺序对所述连通图进行排序得到连通图排序结果。
然后,按照设定比例和所述连通图排序结果对所述多个连通图进行划分,得到第一连通图集合以及第二连通图集合。
在本发明中,所述第一连通图集合中包括多个排序靠前的连通图,所述第二连通图集合中包括多个排序靠后的连通图。例如,设定比例可以是10%,则第一连通图集合可以是连通图排序结果中前10%的成员数对应的连通图形成的集合,第二连通图集合可以是连通图排序结果中后90%的成员数对应的连通图形成的集合。
进一步地,计算所述第二连通图集合对应的平均成员数。
最后,判断所述第一连通图集合中的最小成员数与所述平均成员数之间的第二比值是否达到设定比值;若是,则确定所述目标列表中存在第二离群值。
例如,平均成员数为8,设定比值可以为1000。假设第一连通图集合中的最小成员数为8000,则确定出第二比值为1000,在这种情况下,可以确定目标列表中存在第二离群值。
可选地,在确定目标列表中是否存在第二离群值时,还可以通过判断所述第一连通图集合中是否存在与平均成员数间的第二比值达到设定比值的目标成员数来实现。例如,第一连通图集合中存在目标成员数,则确定目标列表中存在第二离群值。
通过上述步骤所描述的内容,可以准确地判断出目标列表中是否存在离群值。
在上述基础上,请结合参阅图2,提供了与上述图数据质量验证方法对应的图数据质量验证装置200的模块框图,所述图数据质量验证装置200包括信息获取模块210、条件判断模块220、数据融合模块230、离群检测模块240、数据导入模块250以及报告生成模块260。
信息获取模块210,用于获取目标数据库的第一表结构信息,从预设数据池中获取待处理图数据以及所述待处理图数据的第二表结构信息;其中,所述目标数据库为图数据库;
条件判断模块220,用于将所述第一表结构信息与所述第二表结构信息进行比对,判断所述待处理图数据是否满足列表融合条件;
数据融合模块230,用于在判定出所述待处理图数据满足所述列表融合条件时,将所述待处理图数据进行融合,得到目标列表;其中,所述目标列表中包括多个图数据节点以及多个节点连边;
离群检测模块240,用于根据所述目标列表中的图数据节点和节点连边确定所述目标列表中是否存在离群值,所述离群值包括用于表征图数据节点的节点度的第一离群值和用于表征所述待处理图数据的连通图的成员数的第二离群值中的至少一种;
数据导入模块250,用于在所述目标列表中不存在离群值时,将所述待处理图数据导入所述目标数据库中;
报告生成模块260,用于将所述目标数据库中的待处理图数据与所述预设数据池中的待处理图数据进行比对,并根据比对结果生成图数据质量报告。
结果报错模块270,用于在判定出所述待处理图数据不满足所述列表融合条件或在所述目标列表中存在离群值时,生成图数据质量报告并报错。
可选地,所述条件判断模块220,具体用于:
比较所述第一表结构信息中的表节点的第一字段类型与所述第二表结构信息中的表节点的第二字段类型是否一致;
在所述第一字段类型与所述第二字段类型一致时,确定所述第一表结构信息中的每个表节点的字段在所述第二表结构信息中是否唯一;
若所述第一表结构信息中的每个表节点的字段在所述第二表结构信息中唯一,则查询所述第一表结构信息中是否存在所述待处理图数据中的开始节点的第一标识信息以及结束节点的第二标识信息;
若所述第一表结构信息中存在所述待处理图数据中的开始节点的第一标识信息以及结束节点的第二标识信息,则判定所述待处理图数据满足列表融合条件。
可选地,所述离群检测模块240,具体用于:
确定所述目标列表中每个图数据节点对应的节点连边的累计值并将所述累计值作为每个图数据节点的节点度;
按照节点度由大到小的顺序对所述图数据节点进行排序得到图数据节点排序结果;
按照设定比例和所述图数据节点排序结果对所述目标列表中的图数据节点进行划分,得到第一图数据节点集合以及第二图数据节点集合;其中,所述第一图数据节点集合中包括多个排序靠前的图数据节点,所述第二图数据节点集合中包括多个排序靠后的图数据节点;
计算所述第二图数据节点集合对应的平均节点度;
判断所述第一图数据节点集合中的最小节点度与所述平均节点度之间的第一比值是否达到设定比值;若是,则确定所述目标列表中存在第一离群值。
可选地,所述离群检测模块240,具体用于:
根据所述目标列表中的每个图数据节点及其对应的节点连边,生成所述目标列表对应的多个连通图;其中,每个连通图中包括多个图数据节点,每个连通图中的图数据节点之间通过节点连边连接;
计算每个连通图的成员数;其中,成员数是连通图中的图数据节点的数量;
按照成员数由大到小的顺序对所述连通图进行排序得到连通图排序结果;
按照设定比例和所述连通图排序结果对所述多个连通图进行划分,得到第一连通图集合以及第二连通图集合;其中,所述第一连通图集合中包括多个排序靠前的连通图,所述第二连通图集合中包括多个排序靠后的连通图;
计算所述第二连通图集合对应的平均成员数;
判断所述第一连通图集合中的最小成员数与所述平均成员数之间的第二比值是否达到设定比值;若是,则确定所述目标列表中存在第二离群值。
关于上述信息获取模块210、条件判断模块220、数据融合模块230、离群检测模块240、数据导入模块250、报告生成模块260以及结果报错模块270的说明,可以参阅对图1所示的方法步骤的说明。
在上述基础上,请结合参阅图3,为本公开揭示的图数据质量验证装置200所在的电子设备300的硬件结构示意图,所述电子设备300包括处理器310和存储器320,处理器310和存储器320通过通信接口330连接。处理器310通过通信接口330从存储器320中调取计算机程序,通过执行该计算机程序实现上述的图数据质量验证方法。
综上,本发明提供的图数据质量验证方法及图数据质量验证装置,通过预先将获取到的第一表结构信息和第二表结构信息进行对比从而判断获取到的待处理图数据是否满足列表融合条件,并在满足列表融合条件时将待处理图数据进行融合得到目标列表,能够在向目标图数据库导入待处理图数据之前对待处理图数据进行质量验证,避免基于存在错误的待处理图数据生成目标列表。
通过判断目标列表中是否存在离群值,能够对待处理图数据中的异常图数据进行检测,确保向目标图数据库中导入的待处理图数据的数据正确性。通过生成图数据质量报告,能够对待处理图数据在导入过程中是否出错进行验证。
如此,可以在导入待处理图数据之前以及导入待处理图数据的过程中实现数据质量的验证,避免待处理图数据的重复导入和清洗,从而提高图数据库的搭建效率并确保图数据库中的图数据的质量。此外,通过执行预先配置的自动修复脚本以对待处理图数据进行修复,能够减少开发的工作量。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (8)

1.一种图数据质量验证方法,其特征在于,包括:
获取目标数据库的第一表结构信息,从预设数据池中获取待处理图数据以及所述待处理图数据的第二表结构信息;其中,所述目标数据库为图数据库;
将所述第一表结构信息与所述第二表结构信息进行比对,判断所述待处理图数据是否满足列表融合条件;
在判定出所述待处理图数据满足所述列表融合条件时,将所述待处理图数据进行融合,得到目标列表;其中,所述目标列表中包括多个图数据节点以及多个节点连边;
根据所述目标列表中的图数据节点和节点连边确定所述目标列表中是否存在离群值,所述离群值包括用于表征图数据节点的节点度的第一离群值和用于表征所述图数据节点的连通图的成员数的第二离群值中的至少一种;
在所述目标列表中不存在离群值时,将所述待处理图数据导入所述目标数据库中;
将所述目标数据库中的待处理图数据与所述预设数据池中的待处理图数据进行比对,并根据比对结果生成图数据质量报告;
其中,将所述第一表结构信息与所述第二表结构信息进行比对,判断所述待处理图数据是否满足列表融合条件,具体包括:
比较所述第一表结构信息中的表节点的第一字段类型与所述第二表结构信息中的表节点的第二字段类型是否一致;
在所述第一字段类型与所述第二字段类型一致时,确定所述第一表结构信息中的每个表节点的字段在所述第二表结构信息中是否唯一;
若所述第一表结构信息中的每个表节点的字段在所述第二表结构信息中唯一,则查询所述第一表结构信息中是否存在所述待处理图数据中的开始节点的第一标识信息以及结束节点的第二标识信息;
若所述第一表结构信息中存在所述待处理图数据中的开始节点的第一标识信息以及结束节点的第二标识信息,则判定所述待处理图数据满足列表融合条件。
2.根据权利要求1所述的图数据质量验证方法,其特征在于,所述方法还包括:
在判定出所述待处理图数据不满足所述列表融合条件时,生成错误提示信息以提示所述待处理图数据存在错误。
3.根据权利要求1所述的图数据质量验证方法,其特征在于,所述方法还包括:
在判定出所述待处理图数据不满足所述列表融合条件时,执行预先配置的自动修复脚本以对所述待处理图数据进行修复。
4.根据权利要求1所述的图数据质量验证方法,其特征在于,根据所述目标列表中的图数据节点和节点连边确定所述目标列表中是否存在离群值,包括:
确定所述目标列表中每个图数据节点对应的节点连边的累计值并将所述累计值作为每个图数据节点的节点度;
按照节点度由大到小的顺序对所述图数据节点进行排序得到图数据节点排序结果;
按照设定比例和所述图数据节点排序结果对所述目标列表中的图数据节点进行划分,得到第一图数据节点集合以及第二图数据节点集合;其中,所述第一图数据节点集合中包括多个排序靠前的图数据节点,所述第二图数据节点集合中包括多个排序靠后的图数据节点;
计算所述第二图数据节点集合对应的平均节点度;
判断所述第一图数据节点集合中的最小节点度与所述平均节点度之间的第一比值是否达到设定比值;若是,则确定所述目标列表中存在第一离群值。
5.根据权利要求1所述的图数据质量验证方法,其特征在于,根据所述目标列表中的图数据节点和节点连边确定所述目标列表中是否存在离群值,包括:
根据所述目标列表中的每个图数据节点及其对应的节点连边,生成所述目标列表对应的多个连通图;其中,每个连通图中包括多个图数据节点,每个连通图中的图数据节点之间通过节点连边连接;
计算每个连通图的成员数;其中,成员数是连通图中的图数据节点的数量;
按照成员数由大到小的顺序对所述连通图进行排序得到连通图排序结果;
按照设定比例和所述连通图排序结果对所述多个连通图进行划分,得到第一连通图集合以及第二连通图集合;其中,所述第一连通图集合中包括多个排序靠前的连通图,所述第二连通图集合中包括多个排序靠后的连通图;
计算所述第二连通图集合对应的平均成员数;
判断所述第一连通图集合中的最小成员数与所述平均成员数之间的第二比值是否达到设定比值;若是,则确定所述目标列表中存在第二离群值。
6.一种图数据质量验证装置,其特征在于,包括:
信息获取模块,用于获取目标数据库的第一表结构信息,从预设数据池中获取待处理图数据以及所述待处理图数据的第二表结构信息;其中,所述目标数据库为图数据库;
条件判断模块,用于将所述第一表结构信息与所述第二表结构信息进行比对,判断所述待处理图数据是否满足列表融合条件;
数据融合模块,用于在判定出所述待处理图数据满足所述列表融合条件时,将所述待处理图数据进行融合,得到目标列表;其中,所述目标列表中包括多个图数据节点以及多个节点连边;
离群检测模块,用于根据所述目标列表中的图数据节点和节点连边确定所述目标列表中是否存在离群值,所述离群值包括用于表征图数据节点的节点度的第一离群值和用于表征所述图数据节点的连通图的成员数的第二离群值中的至少一种;
数据导入模块,用于在所述目标列表中不存在离群值时,将所述待处理图数据导入所述目标数据库中;
报告生成模块,用于将所述目标数据库中的待处理图数据与所述预设数据池中的待处理图数据进行比对,并根据比对结果生成图数据质量报告;
其中,所述条件判断模块,具体用于:
比较所述第一表结构信息中的表节点的第一字段类型与所述第二表结构信息中的表节点的第二字段类型是否一致;
在所述第一字段类型与所述第二字段类型一致时,确定所述第一表结构信息中的每个表节点的字段在所述第二表结构信息中是否唯一;
若所述第一表结构信息中的每个表节点的字段在所述第二表结构信息中唯一,则查询所述第一表结构信息中是否存在所述待处理图数据中的开始节点的第一标识信息以及结束节点的第二标识信息;
若所述第一表结构信息中存在所述待处理图数据中的开始节点的第一标识信息以及结束节点的第二标识信息,则判定所述待处理图数据满足列表融合条件。
7.根据权利要求6所述的图数据质量验证装置,其特征在于,所述离群检测模块,具体用于:
确定所述目标列表中每个图数据节点对应的节点连边的累计值并将所述累计值作为每个图数据节点的节点度;
按照节点度由大到小的顺序对所述图数据节点进行排序得到图数据节点排序结果;
按照设定比例和所述图数据节点排序结果对所述目标列表中的图数据节点进行划分,得到第一图数据节点集合以及第二图数据节点集合;其中,所述第一图数据节点集合中包括多个排序靠前的图数据节点,所述第二图数据节点集合中包括多个排序靠后的图数据节点;
计算所述第二图数据节点集合对应的平均节点度;
判断所述第一图数据节点集合中的最小节点度与所述平均节点度之间的第一比值是否达到设定比值;若是,则确定所述目标列表中存在第一离群值。
8.根据权利要求6所述的图数据质量验证装置,其特征在于,所述离群检测模块,具体用于:
根据所述目标列表中的每个图数据节点及其对应的节点连边,生成所述目标列表对应的多个连通图;其中,每个连通图中包括多个图数据节点,每个连通图中的图数据节点之间通过节点连边连接;
计算每个连通图的成员数;其中,成员数是连通图中的图数据节点的数量;
按照成员数由大到小的顺序对所述连通图进行排序得到连通图排序结果;
按照设定比例和所述连通图排序结果对所述多个连通图进行划分,得到第一连通图集合以及第二连通图集合;其中,所述第一连通图集合中包括多个排序靠前的连通图,所述第二连通图集合中包括多个排序靠后的连通图;
计算所述第二连通图集合对应的平均成员数;
判断所述第一连通图集合中的最小成员数与所述平均成员数之间的第二比值是否达到设定比值;若是,则确定所述目标列表中存在第二离群值。
CN202010526495.7A 2020-06-11 2020-06-11 图数据质量验证方法及图数据质量验证装置 Active CN111428095B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010526495.7A CN111428095B (zh) 2020-06-11 2020-06-11 图数据质量验证方法及图数据质量验证装置
US17/229,002 US11170050B1 (en) 2020-06-11 2021-04-13 Method and device for graph data quality verification

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010526495.7A CN111428095B (zh) 2020-06-11 2020-06-11 图数据质量验证方法及图数据质量验证装置

Publications (2)

Publication Number Publication Date
CN111428095A CN111428095A (zh) 2020-07-17
CN111428095B true CN111428095B (zh) 2020-08-28

Family

ID=71551414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010526495.7A Active CN111428095B (zh) 2020-06-11 2020-06-11 图数据质量验证方法及图数据质量验证装置

Country Status (2)

Country Link
US (1) US11170050B1 (zh)
CN (1) CN111428095B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463785B (zh) * 2020-12-08 2024-04-16 中国人寿保险股份有限公司 一种数据质量监控方法、装置、电子设备及存储介质
CN112711659B (zh) * 2020-12-31 2024-03-15 南京冰鉴信息科技有限公司 基于海量图数据的模型计算方法及装置
CN115329151B (zh) * 2022-10-17 2023-03-14 北方健康医疗大数据科技有限公司 图数据库的优化方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101291289B (zh) * 2007-04-20 2013-07-03 Sap股份公司 将数据质量包括在数据流中的方法和系统
CN107016210A (zh) * 2016-12-21 2017-08-04 哈尔滨工业大学 一种菲涅尔衍射光学系统的成像质量仿真方法
CN107256247A (zh) * 2017-06-07 2017-10-17 九次方大数据信息集团有限公司 大数据数据治理方法和装置
CN108447534A (zh) * 2018-05-18 2018-08-24 灵玖中科软件(北京)有限公司 一种基于nlp的电子病历数据质量管理方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3271850A4 (en) * 2015-03-17 2018-11-07 Agency For Science, Technology And Research Bioinformatics data processing systems
US10339179B2 (en) * 2016-04-11 2019-07-02 Oracle International Corporation Graph processing system that can define a graph view from multiple relational database tables
US10452717B2 (en) * 2016-09-22 2019-10-22 Intel Corporation Technologies for node-degree based clustering of data sets
US20180232403A1 (en) * 2017-02-15 2018-08-16 Ca, Inc. Exposing databases via application program interfaces

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101291289B (zh) * 2007-04-20 2013-07-03 Sap股份公司 将数据质量包括在数据流中的方法和系统
CN107016210A (zh) * 2016-12-21 2017-08-04 哈尔滨工业大学 一种菲涅尔衍射光学系统的成像质量仿真方法
CN107256247A (zh) * 2017-06-07 2017-10-17 九次方大数据信息集团有限公司 大数据数据治理方法和装置
CN108447534A (zh) * 2018-05-18 2018-08-24 灵玖中科软件(北京)有限公司 一种基于nlp的电子病历数据质量管理方法

Also Published As

Publication number Publication date
CN111428095A (zh) 2020-07-17
US11170050B1 (en) 2021-11-09

Similar Documents

Publication Publication Date Title
CN111428095B (zh) 图数据质量验证方法及图数据质量验证装置
CN108132957B (zh) 一种数据库处理方法及装置
CN106033436B (zh) 一种数据库的合并方法
CN110716539B (zh) 一种故障诊断分析方法和装置
CN113434485A (zh) 一种基于多维分析技术的数据质量健康度分析方法及系统
CN104756113A (zh) 用于检测数据源中的偏差的方法、设备和计算机程序
Ebden et al. Network analysis on provenance graphs from a crowdsourcing application
CN112907026A (zh) 一种基于可编辑网状指标体系的综合评估方法
CN114036347A (zh) 一种支持数字融合业务的云平台及工作方法
CN115328883A (zh) 一种数据仓库建模方法和系统
CN115587670A (zh) 一种基于指标图谱的产品质量诊断方法及装置
CN111241079A (zh) 一种数据清洗方法、装置及计算机可读存储介质
CN111784246B (zh) 物流路径的估测方法
CN116955469A (zh) 一种基于血缘分析的业务告警溯源方法
CN109063151B (zh) 一种商业银行数据融合方法及装置
CN113744885B (zh) 一种医院智慧系统中多个系统之间的数据传输方法及设备
CN113792114A (zh) 一种城市领域知识图谱可信评估方法及系统
CN109325063B (zh) 数据管理方法及装置
CN112560952A (zh) 供应商考核方法、装置、电子设备和存储介质
CN112948469A (zh) 数据挖掘方法、装置、计算机设备及存储介质
Weber et al. Detecting inconsistencies in multi-view uml models
CN111984617A (zh) 基于互联网的图片检索及关联附件的质量溯源方法
CN111898961A (zh) 一种适用于同类电力设备台账数据相同字段的查错方法
CN113570333B (zh) 一种适用于集成的流程设计方法
CN115391087A (zh) 一种报文校验的方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant