CN112905853A - 知识图谱构建过程的故障检测方法、装置、设备和介质 - Google Patents
知识图谱构建过程的故障检测方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN112905853A CN112905853A CN202110244417.2A CN202110244417A CN112905853A CN 112905853 A CN112905853 A CN 112905853A CN 202110244417 A CN202110244417 A CN 202110244417A CN 112905853 A CN112905853 A CN 112905853A
- Authority
- CN
- China
- Prior art keywords
- data
- attribute
- edge
- node
- dataset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 230000008569 process Effects 0.000 title claims abstract description 54
- 238000010276 construction Methods 0.000 title claims abstract description 43
- 238000001514 detection method Methods 0.000 title claims abstract description 23
- 238000004590 computer program Methods 0.000 claims description 25
- 239000000758 substrate Substances 0.000 claims 3
- 238000004891 communication Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 230000009471 action Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Educational Technology (AREA)
- Software Systems (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Educational Administration (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Debugging And Monitoring (AREA)
Abstract
本公开提供了一种用于知识图谱构建过程的故障检测方法,包括:获取用于构建知识图谱的原始数据的第一元数据集;获取描述通过知识图谱构建过程中基于原始数据构建的知识图谱中的数据的第二元数据集;将第一元数据集与第二元数据集进行对比;以及基于对比的结果,检测知识图谱构建过程中的故障。
Description
技术领域
本公开涉及计算机技术领域,特别是涉及一种用于知识图谱构建过程的故障检测方法、装置、计算机设备、存储介质和程序产品。
背景技术
与传统数据库相比,用于构建知识图谱的图数据库技术还处于发展中。由于图数据的结构、存储和使用的特殊性,知识图谱元数据的管理尤为重要。目前,在知识图谱的使用中,容易出现元数据不清晰、无法确认正确与否、无法发现错误等问题。
在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
发明内容
提供一种缓解、减轻或甚至消除上述问题中的一个或多个的机制将是有利的。
根据本公开的一方面,提供了一种用于知识图谱构建过程的故障检测方法,包括:获取第一元数据集,所述第一元数据集描述用于构建知识图谱的原始数据;获取第二元数据集,所述第二元数据集描述通过所述知识图谱构建过程基于所述原始数据构建的知识图谱中的数据;将所述第一元数据集与所述第二元数据集进行对比;以及基于所述对比的结果,检测所述知识图谱构建过程中的故障。
根据本公开的另一方面,提供了一种用于知识图谱构建过程的故障检测装置,包括:第一获取模块,被配置为获取第一元数据集,所述第一元数据集描述用于构建知识图谱的原始数据;第二获取模块,被配置为获取第二元数据集,所述第二元数据集描述通过所述知识图谱构建过程基于所述原始数据构建的知识图谱中的数据;对比模块,被配置为将所述第一元数据集与所述第二元数据集进行对比;以及检测模块,被配置为基于所述对比的结果,检测所述知识图谱构建过程中的故障。
根据本公开的另一方面,提供了一种计算机设备,包括:存储器、处理器以及存储在所述存储器上的计算机程序。所述处理器被配置为执行所述计算机程序以实现如上所述方法的步骤。
根据本公开的另一方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序。所述计算机程序被处理器执行时实现如上所述方法的步骤。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序被处理器执行时实现如上所述方法的步骤。
根据在下文中所描述的实施例,本公开的这些和其它方面将是清楚明白的,并且将参考在下文中所描述的实施例而被阐明。
附图说明
在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
图1是图示出根据示例性实施例的可以在其中实施本文描述的各种方法的示例系统的示意图;
图2是图示出根据示例性实施例的用于知识图谱构建过程的故障检测方法的流程图;
图3是图示出根据示例性实施例的知识图谱元数据的示例的示意图;
图4A和图4B是图示出根据示例性实施例的第一元数据集和第二元数据集的示例的示意图;
图5A、图5B和图5C是图示出图2的方法中将第一元数据集与第二元数据集进行对比的示例过程的流程图;
图6是图示出根据示例性实施例的用于知识图谱构建过程的故障检测装置的示意性框图;并且
图7是图示出能够应用于示例性实施例的示例性计算机设备的框图。
具体实施方式
在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。如本文使用的,术语“多个”意指两个或更多,并且术语“基于”应解释为“至少部分地基于”。此外,术语“和/或”以及“……中的至少一个”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
在介绍本公开的示例性实施例之前,首先对本文中使用的若干术语进行解释。
1、知识图谱
知识图谱(Knowledge Graph)又称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识实体及知识之间的相互联系。
2、元数据
任何管理系统中的数据分为数据和元数据。例如在文件管理系统中,数据是指普通文件中的实际数据,而元数据指用来描述一个文件的特征的系统数据,诸如访问权限、文件拥有者以及文件数据块的分布信息等等。在知识图谱的情况下,元数据可以包括节点数据、边数据和属性数据。
下面结合附图详细描述本公开的示例性实施例。
图1是图示出根据示例性实施例的可以在其中实施本文描述的各种方法的示例系统100的示意图。
参考图1,该系统100包括客户端设备110、服务器120、以及将客户端设备110与服务器120通信地耦合的网络130。
客户端设备110包括显示器114和可经由显示器114显示的客户端应用(APP)112。客户端应用112可以为运行前需要下载和安装的应用程序或者作为轻量化应用程序的小程序(liteapp)。在客户端应用112为运行前需要下载和安装的应用程序的情况下,客户端应用112可以被预先安装在客户端设备110上并被激活。在客户端应用112为小程序的情况下,用户102可以通过在宿主应用中搜索客户端应用112(例如,通过客户端应用112的名称等)或扫描客户端应用112的图形码(例如,条形码、二维码等)等方式,在客户端设备110上直接运行客户端应用112,而无需安装客户端应用112。在一些实施例中,客户端设备110可以是任何类型的移动计算机设备,包括移动计算机、移动电话、可穿戴式计算机设备(例如智能手表、头戴式设备,包括智能眼镜,等)或其他类型的移动设备。在一些实施例中,客户端设备110可以替换地是固定式计算机设备,例如台式机、服务器计算机或其他类型的固定式计算机设备。
服务器120典型地为由互联网服务提供商(ISP)或互联网内容提供商(ICP)部署的服务器。服务器120可以代表单台服务器、多台服务器的集群、分布式系统、或者提供基础云服务(诸如云数据库、云计算、云存储、云通信)的云服务器。将理解的是,虽然图1中示出服务器120与仅一个客户端设备110通信,但是服务器120可以同时为多个客户端设备提供后台服务。
网络130的示例包括局域网(LAN)、广域网(WAN)、个域网(PAN)、和/或诸如互联网之类的通信网络的组合。网络130可以是有线或无线网络。在一些实施例中,使用包括超文本标记语言(HTML)、可扩展标记语言(XML)等的技术和/或格式来处理通过网络130交换的数据。此外,还可以使用诸如安全套接字层(SSL)、传输层安全(TLS)、虚拟专用网络(VPN)、网际协议安全(IPsec)等加密技术来加密所有或者一些链路。在一些实施例中,还可以使用定制和/或专用数据通信技术来取代或者补充上述数据通信技术。
为了本公开实施例的目的,在图1的示例中,客户端应用112可以为提示知识图谱构建故障的应用程序,该应用程序可以例如提供有关哪个元数据在知识图谱构建过程中出错的提示等功能。与此相应,服务器120可以是与该应用程序一起使用的服务器。该服务器120可以向客户端设备110中运行的客户端应用112提供故障检测服务,例如元数据对比、校验和分析等功能。
图2是图示出根据示例性实施例的用于知识图谱构建过程的故障检测方法200的流程图。参考图2,方法200包括:获取第一元数据集,所述第一元数据集描述用于构建知识图谱的原始数据(步骤201);获取第二元数据集,所述第二元数据集描述通过所述知识图谱构建过程基于所述原始数据构建的知识图谱中的数据(步骤203);将所述第一元数据集与所述第二元数据集进行对比(步骤205);以及基于所述对比的结果,检测所述知识图谱构建过程中的故障(步骤207)。
下面具体描述方法200的各个步骤。
在步骤201中,获取第一元数据集,该第一元数据集描述用于构建知识图谱的原始数据。
根据一些实施例,服务器120通过程序接口提取描述用于构建知识图谱的原始数据的第一元数据集,并将提取的第一元数据集存储于存储介质(例如,图数据库)中以供后续使用。根据一些实施方式,利用包含例如深度学习算法的模型对原始数据进行转换,以便可以通过知识图谱构建过程,基于转换后的原始数据来构建知识图谱。所述转换可以包括例如对原始数据进行实体关系的抽取,以形成对应实体之间的关系。在这一过程中,可以归纳得到描述原始数据的元数据,以形成第一元数据集。
在步骤203中,获取第二元数据集,该第二元数据集描述通过知识图谱构建过程基于原始数据构建的知识图谱中的数据。
根据一些实施例,可以从存储介质(例如,图数据库)中获取第二元数据集。取决于图数据库的实现方式,可以使用各种不同的方法来获取第二元数据集。例如,图数据库可以提供程序接口、命令来使得能够访问第二元数据集。
在步骤205中,对比第一元数据集和第二元数据集。
根据一些实施例,将步骤201中获得的第一元数据集与步骤203中获得的第二元数据集进行对比,得到差异数据集,如稍后将进一步描述的。
在步骤207中,基于对比结果,检测知识图谱构建过程中的故障。
根据一些实施例,通过分析步骤205中得到的差异数据集,能够找到在知识图谱构建过程中出现的故障,例如在知识图谱中出现的实体缺失,实体关系对应错误等问题。
根据本公开的实施例,通过将构建知识图谱之前和之后的元数据进行对比,能够高效率地排查出现错误的原始数据,方便对知识图谱数据进行修正,保证知识图谱在使用过程中的数据正确率。
出于说明性目的,图3示出了根据示例性实施例的知识图谱元数据300的示例。元数据300是一种课程管理系统中的元数据,其包括节点数据、边数据和属性数据。如图3所示,参考数字301代表教师节点,参考数字304代表课程节点,并且参考数字307代表学生节点,其中教师节点301通过课程节点304与学生节点307相关联。边1代表哪个/哪些教师教授哪门/哪些课程,并且边2代表哪个/哪些学生选修哪门/哪些课程。参考数字302、305、308和309所指示的诸如姓名、年龄、类型和性别等信息均为属性数据,其描述了对应的节点301、304和307的属性。另外,指示边1和边2的创建时间的参考数字303和306也是属性数据,其分别描述教师节点301与课程节点304之间的关联关系以及课程节点304与学生节点307之间的关联关系被创建的时间。
根据一些实施例,在方法200中,将第一元数据集与第二元数据集进行对比(步骤205)可以包括:将第一元数据集中的数据划分为第一节点数据集、第一边数据集和第一属性数据集;将第二元数据集中的数据划分为第二节点数据集、第二边数据集和第二属性数据集;以及将第一节点数据集、第一边数据集和第一属性数据集分别与第二节点数据集、第二边数据集和第二属性数据集进行对比。
图4A是图示出根据示例性实施例的第一元数据集411的节点数据、边数据和属性数据的示例410的示意图。
在该示例中,第一元数据集411被划分为参考数字412指示的第一节点数据集、参考数字413指示的第一边数据集、以及参考数字414指示的第一属性数据集。
图4B是图示出根据示例性实施例的第二元数据集421的节点数据、边数据和属性数据的示例420的示意图。
在该示例中,第二元数据集421被划分为参考数字422指示的第二节点数据集、参考数字423指示的第二边数据集、以及参考数字424指示的第二属性数据集。
根据一些实施例,在步骤205中,将第一节点数据集、第一边数据集和第一属性数据集分别与第二节点数据集、第二边数据集和第二属性数据集进行对比,可以包括:将第一节点数据集与第二节点数据集进行对比,以得到节点相同数据集和节点差异数据集;将第一边数据集与第二边数据集进行对比,以得到边相同数据集和边差异数据集;以及将第一属性数据集与第二属性数据集进行对比,以得到属性相同数据集和属性差异数据集。
在这样的实施例中,在方法200中,基于对比的结果,检测知识图谱构建过程中的故障(步骤207)可以包括:基于节点差异数据集、边差异数据集和属性差异数据集,检测知识图谱构建过程中的故障。
进一步地,根据一些实施例,将第一节点数据集、第一边数据集和第一属性数据集分别与第二节点数据集、第二边数据集和第二属性数据集进行对比,还可以包括:在节点差异数据集内标注节点缺失数据和节点多余数据,节点缺失数据指示在第一节点数据集内存在而在第二节点数据集内不存在的数据,节点多余数据指示在第一节点数据集内不存在而在第二节点数据集内存在的数据;在边差异数据集内标注边缺失数据和边多余数据,边缺失数据指示在第一边数据集内存在而在第二边数据集内不存在的数据,边多余数据指示在第一边数据集内不存在而在第二边数据集内存在的数据;以及在属性差异数据集内标注属性缺失数据和属性多余数据,属性缺失数据指示在第一属性数据集内存在而在第二属性数据集内不存在的数据,属性多余数据指示在第一属性数据集内不存在而在第二属性数据集内存在的数据。
在这样的实施例中,在步骤207中,基于节点差异数据集、边差异数据集和属性差异数据集,检测知识图谱构建过程中的故障,可以包括:基于节点缺失数据和节点多余数据、边缺失数据和边多余数据、以及属性缺失数据和属性多余数据,检测知识图谱构建过程中的故障。
图5A是图示出图2的方法200中将第一元数据集与第二元数据集中各自的节点数据集进行对比的示例过程510的流程图。
在步骤511中,对比第一节点数据集和第二节点数据集。根据一些实施例,对比第一节点数据集412和第二节点数据集422。
在步骤512中,判断是否存在相同数据。根据一些实施例,判断第一节点数据集412与第二节点数据集422是否存在相同数据。按照判断的结果,可以将结果数据集分为节点相同数据集和节点差异数据集。
在步骤513中,收集相同数据,组成节点相同数据集。
在步骤514中,收集差异数据,组成节点差异数据集。
根据一些实施例,通过分析节点差异数据集,可以精确定位到在构建知识图谱过程中存在故障的原始元数据的第一节点数据。
在步骤515中,判断差异数据最初存在的数据集。
根据一些实施例,通过判断差异数据最初存在的数据集,即判断差异数据是仅存在于第一节点数据集412还是仅存在于第二节点数据集422,来对节点差异数据集进一步进行分类。
在步骤516中,存在于第一节点数据集中而不存在于第二节点数据集中的数据被标注为节点缺失数据。
根据一些实施例,节点缺失数据说明原始数据中存在该节点,但基于该原始数据构建的知识图谱中的数据并不存在该节点。该节点的缺失即是在知识图谱构建过程中出现的故障。
在步骤517中,存在于第二节点数据集而不存在于第一节点数据集的数据被标注为节点多余数据。
根据一些实施例,节点多余数据说明原始数据中不存在该节点,但基于该原始数据构建的知识图谱中的数据却存在该节点。该节点的多余即是在知识图谱构建过程中出现的故障。
图5B是图示出图2的方法200中将第一元数据集与第二元数据集中各自的边数据集进行对比的示例过程520的流程图。
在步骤521中,对比第一边数据集和第二边数据集。根据一些实施例,对比第一边数据集413和第二边数据集423。
在步骤522中,判断是否存在相同数据。根据一些实施例,判断第一边数据集413与第二边数据集423是否存在相同数据。按照判断的结果,可以将结果数据集分为边相同数据集和边差异数据集。
在步骤523中,收集相同数据,组成边相同数据集。
在步骤524中,收集差异数据,组成边差异数据集。
根据一些实施例,分析边差异数据集,可以精确定位到在构建知识图谱过程中存在故障的原始元数据的第一边数据。
在步骤525中,判断差异数据最初存在的数据集。
根据一些实施例,通过判断差异数据最初存在的数据集,即判断差异数据是仅存在于第一边数据集413还是仅存在于第二边数据集423,来对边差异数据集进一步进行分类。
在步骤526中,存在于第一边数据集而不存在于第二边数据集的数据被标注为边缺失。
根据一些实施例,边缺失数据说明原始数据中存在该边,但基于该原始数据构建的知识图谱中的数据并不存在该边。该边的缺失即是在知识图谱构建过程中出现的故障。
在步骤527中,存在于第二边数据集而不存在于第一边数据集的数据被标注为边多余。
根据一些实施例,边多余数据说明原始数据中不存在该边特征,但基于该原始数据构建的知识图谱中的数据却存在该边特征。该边的多余即是在知识图谱构建过程中出现的故障。
图5C是图示出图2的方法中将第一元数据集与第二元数据集中各自的属性数据集进行对比的示例过程530的流程图。
在步骤531中,对比第一属性数据集和第二属性数据集。根据一些实施例,对比第一属性数据集414和第二属性数据集424。
在步骤532中,判断是否存在相同数据。根据一些实施例,判断第一属性数据集414与第二属性数据集424是否存在相同数据。按照判断的结果,结果数据集可以分为属性相同数据集和属性差异数据集。
在步骤533中,收集相同数据,组成属性相同数据集。
在步骤534中,收集差异数据,组成属性差异数据集。
根据一些实施例,分析属性差异数据集,可以精确定位到在构建知识图谱过程中存在故障的原始元数据的第一属性数据。
在步骤535中,判断差异数据最初存在的数据集。
根据一些实施例,通过判断差异数据最初存在的数据集,即判断差异数据是仅存在于第一属性数据集414还是仅存在于第二属性数据集424,来对属性差异数据集进一步进行分类。
在步骤536中,存在于第一属性数据集而不存在于第二属性数据集的数据被标注为属性缺失。
根据一些实施例,属性缺失数据说明原始数据中存在该属性特征,但基于该原始数据构建的知识图谱中的数据并不存在该属性特征。该属性的缺失即是在知识图谱构建过程中出现的故障。
在步骤537中,存在于第二属性数据集而不存在于第一属性数据集的数据被标注为属性多余。
根据一些实施例,属性多余数据说明原始数据中不存在该属性特征,但基于该原始数据构建的知识图谱中的数据却存在该属性特征。该属性的多余即是在知识图谱构建过程中出现的故障。
因此,在上面描述的实施例中,基于节点缺失数据和节点多余数据、边缺失数据和边多余数据、以及属性缺失数据和属性多余数据,可以确定知识图谱构建过程中针对原始数据中的哪些数据的操作发生了错误。
图6是图示出根据示例性实施例的用于知识图谱构建过程的故障检测装置600的示意性框图。
参考图6,故障检测装置600包括第一获取模块601、第二获取模块602、对比模块603以及检测模块604。第一获取模块601被配置为:获取第一元数据集,其中第一元数据集描述用于构建知识图谱的原始数据;第二获取模块602被配置为:获取第二元数据集,其中第二元数据集描述通过知识图谱构建过程基于原始数据构建的知识图谱中的数据;对比模块603被配置为:将所述第一元数据集与所述第二元数据集进行对比;检测模块604被配置为:基于所述对比的结果,检测所述知识图谱构建过程中的故障。
应当理解,装置600的在图6中示出的各个模块以及其他潜在的模块可以与参考图2描述的方法200中的各个步骤相对应。由此,上面针对方法200描述的操作、特征和优点同样适用于装置600及其包括的模块。为了简洁起见,某些操作、特征和优点在此不再赘述。
虽然上面参考特定模块讨论了特定功能,但是应当注意,本文讨论的各个模块的功能可以分为多个模块,和/或多个模块的至少一些功能可以组合成单个模块。本文讨论的特定模块执行动作包括该特定模块本身执行该动作,或者替换地该特定模块调用或以其他方式访问执行该动作(或结合该特定模块一起执行该动作)的另一个组件或模块。因此,执行动作的特定模块可以包括执行动作的该特定模块本身和/或该特定模块调用或以其他方式访问的、执行动作的另一模块。
还应当理解,本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。上面关于图6描述的各个模块可以在硬件中或在结合软件和/或固件的硬件中实现。例如,这些模块可以被实现为计算机程序代码/指令,该计算机程序代码/指令被配置为在一个或多个处理器中执行并存储在计算机可读存储介质中。可替换地,这些模块可以被实现为硬件逻辑/电路。
根据本公开的另一方面,提供了一种计算机设备,包括:存储器、处理器以及存储在存储器上的计算机程序。处理器被配置为执行计算机程序以实现方法200的步骤。
根据本公开的另一方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序。计算机程序被处理器执行时实现方法200的步骤。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序。计算机程序被处理器执行时实现方法200的步骤。
在下文中,结合图7描述这样的计算机设备、非暂态计算机可读存储介质和计算机程序产品的说明性示例。
图7示出了可以被用来实施本文所描述的方法的计算机设备700的示例配置。举例来说,图1中所示的服务器120和/或客户端设备110可以包括类似于计算机设备700的架构。上述知识图谱构建障碍检测设备/装置也可以全部或至少部分地由计算机设备700或类似设备或系统实现。
计算机设备700可以是各种不同类型的设备,例如服务提供商的服务器、与客户端(例如,客户端设备)相关联的设备、片上系统、和/或任何其它合适的计算机设备或计算系统。计算机设备700的示例包括但不限于:台式计算机、服务器计算机、笔记本电脑或上网本计算机、移动设备(例如,平板电脑、蜂窝或其他无线电话(例如,智能电话)、记事本计算机、移动台)、可穿戴设备(例如,眼镜、手表)、娱乐设备(例如,娱乐器具、通信地耦合到显示设备的机顶盒、游戏机)、电视或其他显示设备、汽车计算机等等。因此,计算机设备700的范围可以从具有大量存储器和处理器资源的全资源设备(例如,个人计算机、游戏控制台)到具有有限的存储器和/或处理资源的低资源设备(例如,传统的机顶盒、手持游戏控制台)。
计算机设备700可以包括能够诸如通过系统总线714或其他适当的连接彼此通信的至少一个处理器702、存储器704、(多个)通信接口706、显示设备708、其他输入/输出(I/O)设备710以及一个或更多大容量存储设备712。
处理器702可以是单个处理单元或多个处理单元,所有处理单元可以包括单个或多个计算单元或者多个核心。处理器702可以被实施成一个或更多微处理器、微型计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令来操纵信号的任何设备。除了其他能力之外,处理器702可以被配置成获取并且执行存储在存储器704、大容量存储设备712或者其他计算机可读介质中的计算机可读指令,诸如操作系统716的程序代码、应用程序718的程序代码、其他程序720的程序代码等。
存储器704和大容量存储设备712是用于存储指令的计算机可读存储介质的示例,所述指令由处理器702执行来实施前面所描述的各种功能。举例来说,存储器704一般可以包括易失性存储器和非易失性存储器二者(例如RAM、ROM等等)。此外,大容量存储设备712一般可以包括硬盘驱动器、固态驱动器、可移除介质、包括外部和可移除驱动器、存储器卡、闪存、软盘、光盘(例如CD、DVD)、存储阵列、网络附属存储、存储区域网等等。存储器704和大容量存储设备712在本文中都可以被统称为存储器或计算机可读存储介质,并且可以是能够把计算机可读、处理器可执行程序指令存储为计算机程序代码的非暂态介质,所述计算机程序代码可以由处理器702作为被配置成实施在本文的示例中所描述的操作和功能的特定机器来执行。
多个程序模块可以存储在大容量存储设备712上。这些程序包括操作系统716、一个或多个应用程序718、其他程序720和程序数据722,并且它们可以被加载到存储器704以供执行。这样的应用程序或程序模块的示例可以包括例如用于实现以下部件/功能的计算机程序逻辑(例如,计算机程序代码或指令):第一获取模块601、第二获取模块、对比模块、检测模块、方法200和流程示例500(包括方法200、流程实例l300的任何合适的步骤)、和/或本文描述的另外的实施例。
模块716、718、720和722或者其部分可以使用可由计算机设备700访问的任何形式的计算机可读介质来实施。如本文所使用的,“计算机可读介质”至少包括两种类型的计算机可读介质,也就是计算机存储介质和通信介质。
计算机存储介质包括通过用于存储信息的任何方法或技术实施的易失性和非易失性、可移除和不可移除介质,所述信息诸如是计算机可读指令、数据结构、程序模块或者其他数据。计算机存储介质包括而不限于RAM、ROM、EEPROM、闪存或其他存储器技术,CD-ROM、数字通用盘(DVD)、或其他光学存储装置,磁盒、磁带、磁盘存储装置或其他磁性存储设备,或者可以被用来存储信息以供计算机设备访问的任何其他非传送介质。
与此相对,通信介质可以在诸如载波或其他传送机制之类的已调数据信号中具体实现计算机可读指令、数据结构、程序模块或其他数据。本文所定义的计算机存储介质不包括通信介质。
计算机设备700还可以包括一个或更多通信接口706,以用于诸如通过网络、直接连接等等与其他设备交换数据,正如前面所讨论的那样。这样的通信接口可以是以下各项中的一个或多个:任何类型的网络接口(例如,网络接口卡(NIC))、有线或无线(诸如IEEE802.11无线LAN(WLAN))无线接口、全球微波接入互操作(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、BluetoothTM接口、近场通信(NFC)接口等。通信接口706可以促进在多种网络和协议类型内的通信,其中包括有线网络(例如LAN、电缆等等)和无线网络(例如WLAN、蜂窝、卫星等等)、因特网等等。通信接口706还可以提供与诸如存储阵列、网络附属存储、存储区域网等等中的外部存储装置(未示出)的通信。
在一些示例中,可以包括诸如监视器之类的显示设备708,以用于向用户显示信息和图像。其他I/O设备710可以是接收来自用户的各种输入并且向用户提供各种输出的设备,并且可以包括触摸输入设备、手势输入设备、摄影机、键盘、遥控器、鼠标、打印机、音频输入/输出设备等等。
虽然在附图和前面的描述中已经详细地说明和描述了本公开,但是这样的说明和描述应当被认为是说明性的和示意性的,而非限制性的;本公开不限于所公开的实施例。通过研究附图、公开内容和所附的权利要求书,本领域技术人员在实践所要求保护的主题时,能够理解和实现对于所公开的实施例的变型。在权利要求书中,词语“包括”不排除未列出的其他元件或步骤,并且词语“一”或“一个”不排除多个。在相互不同的从属权利要求中记载了某些措施的仅有事实并不表明这些措施的组合不能用来获益。
Claims (13)
1.一种用于知识图谱构建过程的故障检测方法,包括:
获取第一元数据集,所述第一元数据集描述用于构建知识图谱的原始数据;
获取第二元数据集,所述第二元数据集描述通过所述知识图谱构建过程基于所述原始数据构建的知识图谱中的数据;
将所述第一元数据集与所述第二元数据集进行对比;以及
基于所述对比的结果,检测所述知识图谱构建过程中的故障。
2.根据权利要求1所述的方法,
其中,所述第一元数据集和所述第二元数据集均包括节点数据、边数据和属性数据,
其中,所述将所述第一元数据集与所述第二元数据集进行对比包括:
将所述第一元数据集中的数据划分为第一节点数据集、第一边数据集和第一属性数据集;
将所述第二元数据集中的数据划分为第二节点数据集、第二边数据集和第二属性数据集;以及
将所述第一节点数据集、所述第一边数据集和所述第一属性数据集分别与所述第二节点数据集、所述第二边数据集和所述第二属性数据集进行对比。
3.根据权利要求2所述的方法,
其中,所述将所述第一节点数据集、所述第一边数据集和所述第一属性数据集分别与所述第二节点数据集、所述第二边数据集和所述第二属性数据集进行对比,包括:
将所述第一节点数据集与所述第二节点数据集进行对比,以得到节点相同数据集和节点差异数据集;
将所述第一边数据集与所述第二边数据集进行对比,以得到边相同数据集和边差异数据集;以及
将所述第一属性数据集与所述第二属性数据集进行对比,以得到属性相同数据集和属性差异数据集,
其中,所述基于所述对比的结果,检测所述知识图谱构建过程中的故障包括:
基于所述节点差异数据集、所述边差异数据集和所述属性差异数据集,检测所述知识图谱构建过程中的故障。
4.根据权利要求3所述的方法,
其中,所述将所述第一节点数据集、所述第一边数据集和所述第一属性数据集分别与所述第二节点数据集、所述第二边数据集和所述第二属性数据集进行对比,还包括:
在所述节点差异数据集内标注节点缺失数据和节点多余数据,所述节点缺失数据指示在所述第一节点数据集内存在而在所述第二节点数据集内不存在的数据,所述节点多余数据指示在所述第一节点数据集内不存在而在所述第二节点数据集内存在的数据;
在所述边差异数据集内标注边缺失数据和边多余数据,所述边缺失数据指示在所述第一边数据集内存在而在所述第二边数据集内不存在的数据,所述边多余数据指示在所述第一边数据集内不存在而在所述第二边数据集内存在的数据;以及
在所述属性差异数据集内标注属性缺失数据和属性多余数据,所述属性缺失数据指示在所述第一属性数据集内存在而在所述第二属性数据集内不存在的数据,所述属性多余数据指示在所述第一属性数据集内不存在而在所述第二属性数据集内存在的数据,
其中,所述基于所述节点差异数据集、所述边差异数据集和所述属性差异数据集,检测所述知识图谱构建过程中的故障,包括:
基于所述节点缺失数据和节点多余数据、所述边缺失数据和边多余数据、以及所述属性缺失数据和属性多余数据,检测所述知识图谱构建过程中的故障。
5.根据权利要求4所述的方法,其中,所述基于所述节点缺失数据和节点多余数据、所述边缺失数据和边多余数据、以及所述属性缺失数据和属性多余数据,检测所述知识图谱构建过程中的故障,包括:
基于所述节点缺失数据和节点多余数据、所述边缺失数据和边多余数据、以及所述属性缺失数据和属性多余数据,确定所述知识图谱构建过程中针对所述原始数据中的哪些数据的操作发生错误。
6.一种用于知识图谱构建过程的故障检测装置,包括:
第一获取模块,被配置为获取第一元数据集,所述第一元数据集描述用于构建知识图谱的原始数据;
第二获取模块,被配置为获取第二元数据集,所述第二元数据集描述通过所述知识图谱构建过程基于所述原始数据构建的知识图谱中的数据;
对比模块,被配置为将所述第一元数据集与所述第二元数据集进行对比;以及
检测模块,被配置为基于所述对比的结果,检测所述知识图谱构建过程中的故障。
7.根据权利要求6所述的装置,
其中,所述第一元数据集和所述第二元数据集均包括节点数据、边数据和属性数据,
其中,所述对比模块被配置为通过执行包括以下各项的操作来将所述第一元数据集与所述第二元数据集进行对比:
将所述第一元数据集中的数据划分为第一节点数据集、第一边数据集和第一属性数据集;
将所述第二元数据集中的数据划分为第二节点数据集、第二边数据集和第二属性数据集;以及
将所述第一节点数据集、所述第一边数据集和所述第一属性数据集分别与所述第二节点数据集、所述第二边数据集和所述第二属性数据集进行对比。
8.根据权利要求7所述的装置,
其中,所述将所述第一节点数据集、所述第一边数据集和所述第一属性数据集分别与所述第二节点数据集、所述第二边数据集和所述第二属性数据集进行对比,包括:
将所述第一节点数据集与所述第二节点数据集进行对比,以得到节点相同数据集和节点差异数据集;
将所述第一边数据集与所述第二边数据集进行对比,以得到边相同数据集和边差异数据集;以及
将所述第一属性数据集与所述第二属性数据集进行对比,以得到属性相同数据集和属性差异数据集,
其中,所述检测模块被配置为:
基于所述节点差异数据集、所述边差异数据集和所述属性差异数据集,检测所述知识图谱构建过程中的故障。
9.根据权利要求8所述的装置,
其中,所述将所述第一节点数据集、所述第一边数据集和所述第一属性数据集分别与所述第二节点数据集、所述第二边数据集和所述第二属性数据集进行对比,还包括:
在所述节点差异数据集内标注节点缺失数据和节点多余数据,所述节点缺失数据指示在所述第一节点数据集内存在而在所述第二节点数据集内不存在的数据,所述节点多余数据指示在所述第一节点数据集内不存在而在所述第二节点数据集内存在的数据;
在所述边差异数据集内标注边缺失数据和边多余数据,所述边缺失数据指示在所述第一边数据集内存在而在所述第二边数据集内不存在的数据,所述边多余数据指示在所述第一边数据集内不存在而在所述第二边数据集内存在的数据;以及
在所述属性差异数据集内标注属性缺失数据和属性多余数据,所述属性缺失数据指示在所述第一属性数据集内存在而在所述第二属性数据集内不存在的数据,所述属性多余数据指示在所述第一属性数据集内不存在而在所述第二属性数据集内存在的数据,
其中,所述检测模块被配置为:
基于所述节点缺失数据和节点多余数据、所述边缺失数据和边多余数据、以及所述属性缺失数据和属性多余数据,检测所述知识图谱构建过程中的故障。
10.根据权利要求9所述的装置,其中,所述检测模块被配置为:
基于所述节点缺失数据和节点多余数据、所述边缺失数据和边多余数据、以及所述属性缺失数据和属性多余数据,确定所述知识图谱构建过程中针对所述原始数据中的哪些数据的操作发生错误。
11.一种计算机设备,包括:
存储器、处理器以及存储在所述存储器上的计算机程序,
其中,所述处理器被配置为执行所述计算机程序以实现权利要求1-5中任一项所述方法的步骤。
12.一种非暂态计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
13.一种计算机程序产品,包括计算机程序,其中,所述计算机程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110244417.2A CN112905853A (zh) | 2021-03-05 | 2021-03-05 | 知识图谱构建过程的故障检测方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110244417.2A CN112905853A (zh) | 2021-03-05 | 2021-03-05 | 知识图谱构建过程的故障检测方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112905853A true CN112905853A (zh) | 2021-06-04 |
Family
ID=76107742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110244417.2A Pending CN112905853A (zh) | 2021-03-05 | 2021-03-05 | 知识图谱构建过程的故障检测方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112905853A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657066A (zh) * | 2018-11-19 | 2019-04-19 | 平安科技(深圳)有限公司 | 基于多视角的知识图谱构建方法、装置和计算机设备 |
US10339420B1 (en) * | 2018-08-30 | 2019-07-02 | Accenture Global Solutions Limited | Entity recognition using multiple data streams to supplement missing information associated with an entity |
CN110209827A (zh) * | 2018-02-07 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 搜索方法、装置、计算机可读存储介质和计算机设备 |
CN110377751A (zh) * | 2019-06-17 | 2019-10-25 | 深圳壹账通智能科技有限公司 | 课件智能生成方法、装置、计算机设备及存储介质 |
WO2020063092A1 (zh) * | 2018-09-30 | 2020-04-02 | 北京国双科技有限公司 | 知识图谱的处理方法及装置 |
CN111444181A (zh) * | 2020-03-20 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 知识图谱更新方法、装置及电子设备 |
CN111753021A (zh) * | 2020-06-17 | 2020-10-09 | 第四范式(北京)技术有限公司 | 构建知识图谱的方法、装置、设备和可读存储介质 |
-
2021
- 2021-03-05 CN CN202110244417.2A patent/CN112905853A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110209827A (zh) * | 2018-02-07 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 搜索方法、装置、计算机可读存储介质和计算机设备 |
US10339420B1 (en) * | 2018-08-30 | 2019-07-02 | Accenture Global Solutions Limited | Entity recognition using multiple data streams to supplement missing information associated with an entity |
WO2020063092A1 (zh) * | 2018-09-30 | 2020-04-02 | 北京国双科技有限公司 | 知识图谱的处理方法及装置 |
CN109657066A (zh) * | 2018-11-19 | 2019-04-19 | 平安科技(深圳)有限公司 | 基于多视角的知识图谱构建方法、装置和计算机设备 |
CN110377751A (zh) * | 2019-06-17 | 2019-10-25 | 深圳壹账通智能科技有限公司 | 课件智能生成方法、装置、计算机设备及存储介质 |
CN111444181A (zh) * | 2020-03-20 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 知识图谱更新方法、装置及电子设备 |
CN111753021A (zh) * | 2020-06-17 | 2020-10-09 | 第四范式(北京)技术有限公司 | 构建知识图谱的方法、装置、设备和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9355081B2 (en) | Transforming HTML forms into mobile native forms | |
US11847480B2 (en) | System for detecting impairment issues of distributed hosts | |
US20180012145A1 (en) | Machine learning based analytics platform | |
US10152512B2 (en) | Metadata-driven program code generation for clinical data analysis | |
WO2021079262A1 (en) | Automatic delineation and extraction of tabular data using machine learning | |
US10462211B2 (en) | System and method for providing more appropriate question/answer responses based upon profiles | |
US20170371504A1 (en) | Method and system for visual requirements and component reuse driven rapid application composition | |
CN112905805B (zh) | 知识图谱构建方法及装置、计算机设备和存储介质 | |
US9823922B1 (en) | Source code mapping through context specific key word indexes and fingerprinting | |
US20200050534A1 (en) | System error detection | |
US11314609B2 (en) | Diagnosing and remediating errors using visual error signatures | |
US20150379112A1 (en) | Creating an on-line job function ontology | |
Hall et al. | Using H2O driverless ai | |
US10747390B1 (en) | Graphical composer for policy management | |
US10025697B2 (en) | Generation of automated unit tests for a controller layer system and method | |
US9772986B2 (en) | Transforming HTML forms into mobile native forms | |
US20220100636A1 (en) | Assisted detection of application performance issues using serverless compute templates | |
EP3422200A1 (en) | Method and system for handling one or more issues in a computing environment | |
US11854433B2 (en) | Systems and methods for item response modelling of digital assessments | |
KR20180076020A (ko) | 애플리케이션 테스트 자동화 장치 및 방법 | |
CN112905853A (zh) | 知识图谱构建过程的故障检测方法、装置、设备和介质 | |
US20170140080A1 (en) | Performing And Communicating Sheet Metal Simulations Employing A Combination Of Factors | |
Azarmi | Learning Kibana 5.0 | |
US11308407B1 (en) | Anomaly detection with feedback | |
US11423797B2 (en) | Annotate a passage to graphically displays locations and types of mistakes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |