CN111522807A - 一种数据库错误数据修复方法 - Google Patents

一种数据库错误数据修复方法 Download PDF

Info

Publication number
CN111522807A
CN111522807A CN202010350654.2A CN202010350654A CN111522807A CN 111522807 A CN111522807 A CN 111522807A CN 202010350654 A CN202010350654 A CN 202010350654A CN 111522807 A CN111522807 A CN 111522807A
Authority
CN
China
Prior art keywords
data
database
node
knowledge base
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010350654.2A
Other languages
English (en)
Other versions
CN111522807B (zh
Inventor
侯孟书
杨键
查尔斯·罗兰·哈鲁纳
罗坤明
董浩
周世杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010350654.2A priority Critical patent/CN111522807B/zh
Publication of CN111522807A publication Critical patent/CN111522807A/zh
Application granted granted Critical
Publication of CN111522807B publication Critical patent/CN111522807B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种数据库错误数据修复方法,首先通过数据库访问模块获取目标数据库中的数据表,根据数据表中现有数据建立数据库表不同属性列之间的关系模式;然后利用建立好的关系模式通过正确属性列中的数据从领域知识库查询以获取正确的数据;最后,通过数据库访问模块将正确数据写回数据库中。本发明通过建立显式和隐式的关系模式,通过查询知识库以获取正确的数据,可以在修复的时候结合整个数据库中不同表的关联数据在知识库中进行数据的查找,因此可以有效提高数据库中无显式实际意义的外键列的错误数据修复效率,从而提高整个数据库错误数据的修复效率。

Description

一种数据库错误数据修复方法
技术领域
本发明涉及数据清洗技术领域,尤其涉及一种数据库错误数据修复方法。
背景技术
错误数据修复是一种提高信息系统中数据质量的技术。在现有信息系统数据库中,存在有部分由于输入错误、对相同实体的不同描述、数据记录英文缩写不标准等错误数据。这些数据散落在信息系统中,将对上层业务的高效支撑产生影响。
知识库是一种用于知识管理的特殊数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是特定领域知识的集合,包括基本事实、规则和其它有关信息。利用知识库中丰富的领域知识信息,可以对数据库中的错误数据进行修复。
目前基于知识库的错误数据修复技术主要针对数据库单表建立知识库映射,以单个数据表为单位修复错误数据;而针对于整个数据库,如何解决不同数据表外键列的相关依赖对错误数据修复的影响,同时利用知识库的知识检索能力修复数据,目前尚未提出有效的解决方法。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种数据库错误数据修复方法,旨在解决现有技术中不同数据表外键列的相关依赖对错误数据修复的影响的技术问题。
为实现上述目的,本发明的第一方面,提供一种数据库错误数据修复方法,所述方法包括如下步骤:访问数据库并读取数据库中的数据表;根据数据表中的现有数据访问并查找知识库中的领域知识;建立数据库表不同属性列之间的关系模式;利用建立好的关系模式从领域知识库中获取正确数据;将正确数据写入数据库。
进一步的,所述建立数据库表不同属性列之间的关系模式包括显式关系模式的建立:取数据表中任意列C与其它任意表中任意列C’在知识库中匹配关联关系,根据关联关系建立关系模式,所述关系模式中的顶点为数据库的属性列,所述关系模式中的边是知识库中对数据库属性列对应实体的关系。
进一步的,所述建立数据库表不同属性列之间的关系模式还包括隐式关系模式的建立:在现有关系模式中,选取数据表中所有表属性列节点对应的度最大的节点A与其余数据表中度最大的节点B,在知识库中匹配节点A与节点B存在的关联关系,取节点B所在表中列值数量最高的列节点F,在节点A与节点B存在关联关系,且列节点F的值等于C的值时建立编码关系。
进一步的,所述隐式关系模式的建立过程中,若在知识库中节点A与节点B不存在关联关系,则将数据表中度次大的节点作为节点A,并重新判断节点A与节点B的关联关系。
进一步的,所述隐式关系模式的建立过程中,若节点A与节点B的存在关联关系,但列节点F的值与节点C的值不相等时,将列值不重复数量次高的节点作为节点F,并重新判断节点F与节点C的值是否相等。
进一步的,所述利用建立好的关系模式从领域知识库中获取正确数据为:计算每个表所有节点的度数和,找到度数最小的表,在关系模式中匹配错误数据D对应的边,若错误数据D对应的边是未编码的关系,在所有相关列的基础上,通过现有数据和关联关系从知识库中查询正确数据。
进一步的,所述利用建立好的关系模式从领域知识库中获取正确数据的过程中,若错误数据D对应的边是已编码的关系,则对关系进行解码,对错误数据所在C列相同元组的A列的值从知识库中计算对应的B列值,将B列值中频次最多的数据作为B列数据v,在关系模式中以v获取对应的F值作为正确数据。
进一步的,所述方法还包括在将正确数据写入数据库后判断错误数据清洗是否完成的步骤,若未完成则将下一个错误数据D在关系模式中继续进行对应边的匹配;所述方法还包括在错误数据D在关系模式中对应边匹配失败后进行下一错误数据D的对应边的匹配。
本发明的第二方面,提供一种数据库错误数据修复系统,所述系统包括数据库访问模块、知识库访问模块和修复计算模块;其中:
进一步的,所述修复计算模块包括关系模式发现模块、数据修复模块,通过关系模式发现模块建立数据库表不同属性列之间的关系模式并获取正确数据,经由数据修复模块将正确数据对数据库进行回写,用于修复数据库中数据的流程控制及计算;
进一步的,所述知识库访问模块用于连接修复计算模块与目标数据库,用于获取领域知识,为修复计算模块提供知识库查询的接口;
进一步的,所述数据库访问模块用于连接修复计算模块与目标数据库,用于访问数据库数据,为数据库提供数据的读写操作的接口。
进一步的,所述关系模式发现模块包括显式关系发现模块和隐式关系发现模块,用于获取数据库中数据表不同属性列间存在的关系,并将所述关系构建为关系模式图,供数据修复模块使用。
进一步的,所述数据修复模块包括正确数据获取模块和数据写回模块,通过读取数据表,根据建立的数据库表不同属性列之间的关系模式图找出和错误数据相关联的数据,通过对知识库的查询使用现有数据修复错误数据。
进一步的,所述数据修复模块还包括存储器,所述存储器用于存储关系模式发现模块构建的关系模式图,并将该关系模式图送于数据修复模块。
本发明的第三方面,提供一种实现数据库错误数据修复的终端设备,所述终端设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的数据库错误数据修复方法。
本发明的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,该指令被处理器执行时实现上述的数据库错误数据修复方法。
本发明中,通过建立显式和隐式的关系模式,通过查询知识库以获取正确的数据。由于显式关系模式代表数据库实体及其属性之间的联系,隐式关系模式代表数据库外键关系,可以在修复的时候结合整个数据库中不同表的关联数据在知识库中进行数据的查找,因此可以有效提高数据库中无显式实际意义的外键列的错误数据修复效率,从而提高整个数据库错误数据的修复效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明提出的一种数据库错误数据修复系统的结构原理示意图;
图2为本发明提出的一种数据库错误数据修复方法的整体流程结构示意图;
图3为本发明提出的一种数据库错误数据修复方法的关系发现流程结构示意图;
图4为本发明提出的一种数据库错误数据修复方法的编码方式示意图;
图5为本发明提出的一种数据库错误数据修复方法的数据修复流程结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当人认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
在本实施例中,一种数据库错误数据修复的方法,该方法用于数据库中错误数据的删除,该方法包括:根据数据库中现有数据生成数据库关系模式并与知识库建立映射;基于知识库中存在的关系,修复数据库中的错误数据。
优选的/可选的,根据数据库中现有数据生成数据库关系模式并与知识库建立映射包括:对于所有的数据表,通过查询知识库获取列间显式关联关系,对于没有找到直接关联的数据列尝试利用知识库及数据表间关系寻找隐式关联关系,建立关系模式,其中模式中的顶点是数据库的属性列,模式中的边是知识库中对数据库属性列对应实体的关系。如果没有查找到显式关系,则对于模式中两个属性列对应的顶点暂不建立关系,转用隐式关联关系发现。
优选的/可选的,寻找隐式关联关系发现通过现有显式关联关系生成的模式图顶点度的排序,按照顶点度从高到低在知识库中匹配不同表的属性列以寻找隐式关系。查找到的隐式关系将关联四个属性列,通过编辑特殊关系关联其中度最大的两个顶点属性列以提高查询效率。
优选的/可选的,所述建立隐式关联关系,用于建立对数据库中不同数据表外建列的联系。
优选的/可选的,基于知识库中存在的关系,修复数据库中的错误数据包括:通过数据库表中现有正确数据,结合关系模式查找知识库中对应的数据。其中,关系数据库表中正确数据所在列可能是关系出发列,也可能是关系到达列。将知识库中查询到的匹配数据写回数据库表以修复数据库中的错误数据。
优选的/可选的,在知识库中无法直接用显式关系查询到目标数据时,使用隐式关系快速查找相关的四个属性列,修复数据库的数据。
如图1所示,本发明另一方面提供了一种数据库错误数据修复装置,该数据库错误数据修复装置用于对关系型数据库中错误数据的删除。该装置包括:数据库访问模块,用于访问关系型数据库中的数据;知识库访问模块,用于访问知识库以查询存储在知识库中的领域数据;关系模式发现模块,用于通过现有的数据库中的数据在知识库中查询属性列之间的关系,通过发现的关系建立关系模式;数据修复模块,用于通过使用建立的模式查询知识库修复数据库中的错误数据。
优选的/可选的,数据库访问模块用于访问待进行数据修复的关系数据库,为关系模式发现模块和数据修复模块提供数据库统一访问接口。
优选的/可选的,知识库访问模块用于访问知识库以查询存储在知识库中的领域数据,为关系模式发现模块和数据修复模块提供知识库统一访问接口。
优选的/可选的,关系模式发现模块用于发现并生成数据库属性列间的关系模式,其中,关系模式中的边代表知识库中对应属性列的关系。
优选的/可选的,数据修复模块通过按照生成的关系模式查询知识库,获取正确的数据重新写回目标数据库。
本实施例中,本发明的数据库错误数据删除装置,可以通过建立显式和隐式的关系模式,通过查询知识库以获取正确的数据。由于显式关系模式代表数据库实体及其属性之间的联系,隐式关系模式代表数据库外键关系,可以在修复的时候结合整个数据库中不同表的关联数据在知识库中进行数据的查找,因此可以有效提高数据库中无显式实际意义的外键列的错误数据修复效率,从而提高整个数据库错误数据的效率。
具体的,如图2所示,本发明提出了数据库错误数据修复方法的一种实施例,首先通过数据库访问模块获取目标数据库中的数据表,然后根据数据表中现有数据,通过知识库访问模块获取领域知识,建立数据库表不同属性列之间的关系模式;然后利用建立好的关系模式通过正确属性列中的数据构建领域知识库查询以获取正确的数据;最后,通过数据库访问模块将正确数据写回数据库中。
所述方法包括如下步骤:读取数据,访问数据库并读取数据库中的数据表;关系发现,根据数据表中的现有数据访问并查找知识库中的领域知识,建立数据库表不同属性列之间的关系模式;数据修复,利用建立好的关系模式从领域知识库中获取正确数据;数据写回,将正确数据写入数据库。
需要理解的是,如图3所示,所述建立数据库表不同属性列之间的关系模式包括显式关系模式的建立以及隐式关系模式的建立。
显式关系模式:取数据表中任意列C与其它任意表中任意列C’在知识库中匹配关联关系,根据关联关系建立关系模式,所述关系模式中的顶点为数据库的属性列,所述关系模式中的边是知识库中对数据库属性列对应实体的关系。
隐式关系模式:在现有关系模式中,选取数据表中所有表属性列节点对应的度最大的节点A与其余数据表中度最大的节点B,在知识库中匹配节点A与节点B存在的关联关系,取节点B所在表中列值数量最高的列节点F,在节点A与节点B存在关联关系,且列节点F的值等于C的值时建立编码关系。
隐式关系发现是找到外键列的关键,由于表的外键列在存储时候需要节省空间,往往不会将整个字段全部存储进表中,而是将id等数据存储在表中。隐式关系发现先尝试找到外键列指向的关系表,然后从关系表中建立属性列的连接,通过辅助的两个属性列建立关系。同时,为了在数据修复时候快速检索到目标列,采用类似于索引的编码方式,可以通过关系解码快速定位到所需列进行修复。为了便于理解,以下是一个具体的例子。
如图4所示,其中,Player表为T,team_id 对应属性列C,Player的name列为A,Team表为 T’’,Team 表的 name 为 B,Team 表的 id 为 F。
发现的关系模式存储在存储器中,在表结构不变的情况下可以重复利用现有的关系模式进行数据修复,这可以提升用户在数据库访问过程中由于不当操作产生的错误数据修复效率。
在本实施例中,所述隐式关系模式的建立过程中,若在知识库中节点A与节点B不存在关联关系,则将数据表中度次大的节点作为节点A,并重新判断节点A与节点B的关联关系。
在本实施例中,所述隐式关系模式的建立过程中,若节点A与节点B的存在关联关系,但列节点F的值与节点C的值不相等时,将列值不重复数量次高的节点作为节点F,并重新判断节点F与节点C的值是否相等。
需要理解的是,如图5所示,所述利用建立好的关系模式从领域知识库中获取正确数据为:计算每个表所有节点的度数和,找到度数最小的表,在关系模式中匹配错误数据D对应的边,若错误数据D对应的边是未编码的关系,在所有相关列的基础上,通过现有数据和关联关系从知识库中查询正确数据。
需要理解的是,所述利用建立好的关系模式从领域知识库中获取正确数据的过程中,若错误数据D对应的边是已编码的关系,则对关系进行解码,对错误数据所在C列相同元组的A列的值从知识库中计算对应的B列值,将B列值中频次最多的数据作为B列数据v,在关系模式中以v获取对应的F值作为正确数据。
需要理解的是,所述方法还包括在将正确数据写入数据库后判断错误数据清洗是否完成的步骤,若未完成则将下一个错误数据D在关系模式中继续进行对应边的匹配;所述方法还包括在错误数据D在关系模式中对应边匹配失败后进行下一错误数据D的对应边的匹配。
数据修复流程通过上一步骤生成在存储器中的关系模型,结合知识库查找完成错误数据的修复。其中能直接通过关系模型中的关系边从知识库查询到正确的数据的流程,为显式关系错误数据修复,如果需要经过编码的关系解码查询另一个表的数据获取正确的数据的流程,为隐式关系错误数据修复。通过判断持久化在关系模型中的边是否可以按照编码规则解编码,可以轻松判断该错误数据所在列是否需要进行隐式关系错误数据修复。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种数据库错误数据修复方法,其特征在于,所述方法包括如下步骤:
访问数据库并读取数据库中的数据表;
根据数据表中的现有数据访问并查找知识库中的领域知识;
建立数据库表不同属性列之间的关系模式;
利用建立好的关系模式从领域知识库中获取正确数据;
将正确数据写入数据库。
2.如权利要求1所述的一种数据库错误数据修复方法,其特征在于,所述建立数据库表不同属性列之间的关系模式包括显式关系模式的建立:取数据表中任意列C与其它任意表中任意列C’在知识库中匹配关联关系,根据关联关系建立关系模式,所述关系模式中的顶点为数据库的属性列,所述关系模式中的边是知识库中对数据库属性列对应实体的关系。
3.如权利要求2所述的一种数据库错误数据修复方法,其特征在于,所述建立数据库表不同属性列之间的关系模式还包括隐式关系模式的建立:在现有关系模式中,选取数据表中所有表属性列节点对应的度最大的节点A与其余数据表中度最大的节点B,在知识库中匹配节点A与节点B存在的关联关系,取节点B所在表中列值数量最高的列节点F,在节点A与节点B存在关联关系,且列节点F的值等于C的值时建立编码关系。
4.如权利要求3所述的一种数据库错误数据修复方法,其特征在于,所述隐式关系模式的建立过程中,若在知识库中节点A与节点B不存在关联关系,则将数据表中度次大的节点作为节点A,并重新判断节点A与节点B的关联关系。
5.如权利要求3所述的一种数据库错误数据修复方法,其特征在于,所述隐式关系模式的建立过程中,若节点A与节点B存在关联关系,但列节点F的值与节点C的值不相等时,将列值不重复数量次高的节点作为节点F,并重新判断节点F与节点C的值是否相等。
6.如权利要求3所述的一种数据库错误数据修复方法,其特征在于,所述利用建立好的关系模式从领域知识库中获取正确数据为:计算每个表所有节点的度数和,找到度数最小的表,在关系模式中匹配错误数据D对应的边,若错误数据D对应的边是未编码的关系,在所有相关列的基础上,通过现有数据和关联关系从知识库中查询正确数据。
7.如权利要求6所述的一种数据库错误数据修复方法,其特征在于,所述利用建立好的关系模式从领域知识库中获取正确数据的过程中,若错误数据D对应的边是已编码的关系,则对关系进行解码,对错误数据所在C列相同元组的A列的值从知识库中计算对应的B列值,将B列值中频次最多的数据作为B列数据v,在关系模式中以v获取对应的F值作为正确数据。
8.如权利要求7所述的一种数据库错误数据修复方法,其特征在于,所述方法还包括在将正确数据写入数据库后判断错误数据清洗是否完成的步骤,若未完成则将下一个错误数据D在关系模式中继续进行对应边的匹配;所述方法还包括在错误数据D在关系模式中对应边匹配失败后进行下一错误数据D的对应边的匹配。
CN202010350654.2A 2020-04-28 2020-04-28 一种数据库错误数据修复方法 Active CN111522807B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010350654.2A CN111522807B (zh) 2020-04-28 2020-04-28 一种数据库错误数据修复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010350654.2A CN111522807B (zh) 2020-04-28 2020-04-28 一种数据库错误数据修复方法

Publications (2)

Publication Number Publication Date
CN111522807A true CN111522807A (zh) 2020-08-11
CN111522807B CN111522807B (zh) 2023-05-30

Family

ID=71902691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010350654.2A Active CN111522807B (zh) 2020-04-28 2020-04-28 一种数据库错误数据修复方法

Country Status (1)

Country Link
CN (1) CN111522807B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646111A (zh) * 2012-02-16 2012-08-22 中国测绘科学研究院 一种基于知识库的通用关联信息查询树的快速构建方法
CN104268216A (zh) * 2014-09-24 2015-01-07 江苏名通信息科技有限公司 一种基于互联网信息的数据清洗系统
CN104866593A (zh) * 2015-05-29 2015-08-26 中国电子科技集团公司第二十八研究所 一种基于知识图谱的数据库搜索方法
CN105045807A (zh) * 2015-06-04 2015-11-11 浙江力石科技股份有限公司 互联网交易信息的数据清洗算法
CN109542901A (zh) * 2018-11-12 2019-03-29 北京懿医云科技有限公司 数据处理方法、装置、计算机可读存储介质及电子设备
CN110704413A (zh) * 2019-09-30 2020-01-17 东莞市盟大塑化科技有限公司 一种基于深度学习的知识图谱构建方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646111A (zh) * 2012-02-16 2012-08-22 中国测绘科学研究院 一种基于知识库的通用关联信息查询树的快速构建方法
CN104268216A (zh) * 2014-09-24 2015-01-07 江苏名通信息科技有限公司 一种基于互联网信息的数据清洗系统
CN104866593A (zh) * 2015-05-29 2015-08-26 中国电子科技集团公司第二十八研究所 一种基于知识图谱的数据库搜索方法
CN105045807A (zh) * 2015-06-04 2015-11-11 浙江力石科技股份有限公司 互联网交易信息的数据清洗算法
CN109542901A (zh) * 2018-11-12 2019-03-29 北京懿医云科技有限公司 数据处理方法、装置、计算机可读存储介质及电子设备
CN110704413A (zh) * 2019-09-30 2020-01-17 东莞市盟大塑化科技有限公司 一种基于深度学习的知识图谱构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
W. FAN等: "Interaction between record matching and data repairing" *

Also Published As

Publication number Publication date
CN111522807B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
CN107247808B (zh) 一种分布式NewSQL数据库系统及图片数据查询方法
US9400815B2 (en) Method of two pass processing for relational queries in a database system and corresponding database system
Arasu et al. Transformation-based framework for record matching
Enderle et al. Joining interval data in relational databases
US20210256006A1 (en) Hash multi-table join implementation method based on grouping vector
CN110990402B (zh) 由行存储到列存储的格式转化方法、查询方法及装置
CN109582831B (zh) 一种支持非结构化数据存储与查询的图数据库管理系统
CN102867066B (zh) 数据汇总装置和数据汇总方法
CN111639075B (zh) 一种基于扁平化r树的非关系数据库矢量数据管理方法
CN110659282B (zh) 数据路由的构建方法、装置、计算机设备和存储介质
CN113641669B (zh) 一种基于混合引擎的多维数据查询方法及装置
CN113901279B (zh) 一种图数据库的检索方法和装置
KR101549220B1 (ko) 데이터베이스 관리 방법, 시스템 및 데이터베이스 트리 구조
CN112632065A (zh) 一种数据存储方法、装置、存储介质及服务器
CN113704248B (zh) 一种基于外置索引的区块链查询优化方法
CN108549666B (zh) 一种数据表的排序方法、装置、设备及存储介质
US8548980B2 (en) Accelerating queries based on exact knowledge of specific rows satisfying local conditions
CN110020001A (zh) 字符串数据的存储、查询方法以及相应的设备
CN116680445B (zh) 基于知识图谱的电力光通信系统多源异构数据融合方法及系统
CN111897837B (zh) 数据查询方法、装置、设备和介质
CN111522807A (zh) 一种数据库错误数据修复方法
Zheng et al. INSPIRE: A framework for incremental spatial prefix query relaxation
CN115048377A (zh) 一种混合存储区块链环境下的时空关键字查询方法
CN114218277A (zh) 一种关系数据库的高效查询方法和装置
CN114564621A (zh) 一种关联数据的方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant