发明内容
基于此,有必要针对上述技术问题,提供一种知识图谱工程化构建方法、装置、计算机设备和存储介质。
一种知识图谱工程化构建方法,所述方法包括:
获取至少一个标识解析体系中的结构化数据样本对应的编码标识,所述编码标识用于唯一表示所述结构化数据样本中的实体数据;
解析所述结构化数据样本对应的编码标识,得到对应的实体数据的基本信息;
根据解析出的所述实体数据的基本信息与工程流程数据进行数据匹配,得到所述结构化数据样本中各实体数据间的属性关联关系;
根据所述属性关联关系以及预设的属性图模型,生成对应的知识图谱。
本实施例中,通过解析标识解析体系中的实体数据的标识编码得到实体数据的基本信息,进而进行知识图谱的关系构建,保证了知识图谱中数据的结构化程度,同时通过标识解析体系中实体数据包含的基本信息和工程流程数据进行匹配,抽取实体数据间的属性关系,提高了知识图谱的工程化构建程度。
在其中一个实施例中,在所述解析所述结构化数据样本对应的编码标识之前,所述方法还包括:
识别所述结构化数据样本中每一所述实体数据对应的编码标识;
若所述实体数据的编码标识为非通用标识体系中的编码标识,则根据预设的标识转换关系,在所述实体数据的编码标识中添加预设的标识前缀,得到所述实体数据转换后的编码标识。
本实施例中,通过正则表达式预先识别获取到的结构化数据样本中每一实体数据的编码标识,并根据预设的编码转换规则对非通用编码标识进行转换,保证了不同标识解析体系下的实体数据可以通过转换后编码标识进行唯一表示。
在其中一个实施例中,根据解析出的所述实体数据的基本信息与工程流程数据进行数据匹配,得到所述结构化数据样本中各实体数据间的属性关联关系,包括:
获取所述标识解析体系对应的工程流程数据,所述工程流程数据中包含工作流程应用场景下的操作实体和对应的操作属性;
根据所述操作实体和对应的操作属性在所述实体数据的基本信息中进行匹配和关系抽取,得到所述结构化数据样本中各所述实体数据间的属性关联关系。
本实施例中,通过工程流程数据(例如,业务流程等)与解析出的实体数据的基本信息进行自动匹配,抽取匹配后的实体数据间的属性关联关系,无需技术人员凭经验筛选抽取,提高了知识图谱各实体数据间关联关系的抽取准确性和构建效率,同时节约了人力资源成本。
在其中一个实施例中,在所述根据所述属性关联关系以及预设的属性图模型,生成对应的知识图谱之前,所述方法还包括:
根据所述结构化数据样本对应的所属领域获取外源数据,所述外源数据为所述标识解析体系之外其他来源的结构化数据;
根据解析出的所述实体数据的基本信息,抽取所述外源数据中的实体概念之间的相互关系;
根据所述实体概念之间的相互关系对各所述实体数据间的属性关联关系进行扩充,得到扩充后的各实体数据间的属性关联关系;
所述根据所述属性关联关系以及预设的属性图模型,生成对应的知识图谱,包括:
根据所述扩充后的各实体数据间的属性关联关系以及预设的属性图模型,生成对应的扩充后的知识图谱。
本实施例中,通过外源数据对根据标识解析体系得到的各实体数据间的属性关联关系进行扩充,增强了知识图谱的知识覆盖率。
在其中一个实施例中,所述根据所述结构化数据样本对应的所属领域获取外源数据,包括:
根据所述结构化数据样本的所属领域在网络平台获取候选外源数据;
根据预设的数据范围阈值,对所述候选外源数据进行数据清洗,得到外源数据。
本实施例中,通过对其他来源的数据(即候选外源数据)进行数据转化、数据清洗等,得到规范的结构化数据样本,作为外源数据,以用于对知识图谱中的知识进行扩充,增加知识图谱的知识覆盖率。
在其中一个实施例中,在所述根据所述属性关联关系以及预设的属性图模型,生成对应的知识图谱之前,所述方法还包括:
计算所述实体数据间属性关联关系中所述实体数据间的相似度,根据预设相似度阈值,确定各所述实体数据间属性关联关系中的冗余实体数据,将所述冗余实体数据合并至相似度最大的实体数据中;
根据预设的字段过滤规则、数据范围过滤规则、参照完整性过滤规则和唯一性规则,对所述知识图谱对应的所述实体数据间属性关联关系中的各所述实体数据和属性关系信息进行数据处理,得到处理后的规范化的实体数据间的属性关联关系。
本实施例中,通过预设的知识图谱各实体数据间关联关系(也称为各条知识)的规范化处理方法,对得到的各实体数据间的关联关系冗余实体处理、字段过滤处理、数据范围过滤处理等,修正冗余格式,删除数据或字段错误,提高了知识图谱规范化和知识准确性。
在其中一个实施例中,所述方法还包括:
按照预设的时间周期在网络平台上爬取目标领域的热门数据信息,识别并抽取所述热门数据信息中包含的实体数据以及对应的属性关系信息,得到热门实体数据间的属性关联关系,所述目标领域为所述标识解析体系中结构化数据样本对应的所属领域;
根据所述热门实体数据间的属性关联关系更新当前所述实体数据间的属性关联关系,并根据更新后的实体数据间的属性关联关系以及所述预设的属性图模型得到更新后的知识图谱。
本实施例中,根据预设的时间周期在网络平台上爬取目标领域热门数据信息进而得到热门实体数据间的属性关联关系,利用热门实体数据间的属性关联关系对当前的知识图谱中的知识进行更新,保证了知识图谱的知识及时性和信息覆盖率。
在其中一个实施例中,所述方法还包括:
获取多组实体数据间的属性关联关系,每一组实体数据间的属性关联关系对应一个知识图谱;
将多组所述实体数据间的属性关联关系中包含的全部所述实体数据,通过预设的实体数据对齐算法进行两两对齐融合,得到等价实体数据对,并根据所述等价实体数据对以及预设的分类模型,得到所述等价实体数据对的分类实体融合结果;
将多组所述实体数据间的属性关联关系中包含的全部属性关系信息,通过预设的相似度计算算法进行两两对齐融合,得到等价属性关系信息对,并将所述等价属性关系信息对中使用频次高的属性作为属性融合结果;
根据所述分类实体融合结果和所述属性融合结果以及预设的所述属性图模型,得到融合后的知识图谱。
在其中一个实施例中,所述根据所述分类实体融合结果和所述属性融合结果以及预设的所述属性图模型,得到融合后的知识图谱,包括:
根据预设的格式规则和停用词处理规则对所述分类实体融合结果和所述属性融合结果进行错误冲突修正检验,得到修正后的分类实体融合结果和修正后的属性融合结果;
根据预设的字段过滤规则、数据范围过滤规则、参照完整性过滤规则和唯一性规则,对所述修正后的分类实体融合结果和所述修正后的属性融合结果进行数据标准化处理,得到规范化的分类实体融合结果和规范化的属性融合结果;
根据所述规范化的分类实体融合结果和所述规范化的属性融合结果以及预设的所述属性图模型,得到融合后的知识图谱。
本实施例中,通过实体数据对齐方法、属性关系信息对齐方法可以将多个知识图谱对应的实体数据间的属性关联关系进行融合,得到融合后的知识图谱,实现了知识图谱的灵活合并。
一种知识图谱工程化构建装置,所述装置包括:
获取模块,用于获取至少一个标识解析体系中的结构化数据样本对应的编码标识,所述编码标识用于唯一表示所述结构化数据样本中的实体数据;
解析模块,用于解析所述结构化数据样本对应的编码标识,得到对应的实体数据的基本信息;
抽取匹配模块,用于根据解析出的所述实体数据的基本信息与工程流程数据进行数据匹配,得到所述结构化数据样本中各实体数据间的属性关联关系;
生成模块,用于根据所述属性关联关系以及预设的属性图模型,生成对应的知识图谱。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取至少一个标识解析体系中的结构化数据样本对应的编码标识,所述编码标识用于唯一表示所述结构化数据样本中的实体数据;
解析所述结构化数据样本对应的编码标识,得到对应的实体数据的基本信息;
根据解析出的所述实体数据的基本信息与工程流程数据进行数据匹配,得到所述结构化数据样本中各实体数据间的属性关联关系;
根据所述属性关联关系以及预设的属性图模型,生成对应的知识图谱。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取至少一个标识解析体系中的结构化数据样本对应的编码标识,所述编码标识用于唯一表示所述结构化数据样本中的实体数据;
解析所述结构化数据样本对应的编码标识,得到对应的实体数据的基本信息;
根据解析出的所述实体数据的基本信息与工程流程数据进行数据匹配,得到所述结构化数据样本中各实体数据间的属性关联关系;
根据所述属性关联关系以及预设的属性图模型,生成对应的知识图谱。
上述知识图谱工程化构建方法、装置、计算机设备和存储介质,获取至少一个标识解析体系中的结构化数据样本对应的编码标识,所述编码标识用于唯一表示所述结构化数据样本中的实体数据;解析所述结构化数据样本对应的编码标识,得到对应的实体数据的基本信息;根据解析出的所述实体数据的基本信息与工程流程数据进行数据匹配,得到所述结构化数据样本中各实体数据间的属性关联关系;根据所述属性关联关系以及预设的属性图模型,生成对应的知识图谱,采用本方法,通过解析标识解析体系中的实体数据的标识编码得到实体数据的基本信息,进而进行知识图谱的关系构建,保证了知识图谱中数据的结构化程度,同时通过标识解析体系中实体数据包含的基本信息和工程流程数据进行匹配,抽取实体数据间的属性关系,提高了知识图谱的工程化构建程度。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种知识图谱工程化构建方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤101,获取至少一个标识解析体系中的结构化数据样本对应的编码标识,编码标识用于唯一表示结构化数据样本中的实体数据。
其中,工业互联网标识解析体系(类似于互联网的域名解析系统),是全球工业互联网安全运行的核心基础设施之一,是实现全球供应链系统和企业生产系统的精准对接,是产品全生命周期管理和智能化服务的前提和基础。目前存在多种类型的标识解析体系,如OID(Object Identifier,对象标识符)体系、Handle(标码)体系和Ecode(物联网标识)体系。
在实施中,以某一领域下的典型企业为代表,获取典型企业在至少一种类型的标识解析体系下的结构化数据样本对应的编码标识,其中编码标识用于唯一表示结构化数据样本中的实体数据。以Ecode体系下的编码为例进行说明,Ecode编码基本长度为96bits、128bits、256bits等,具有结构清晰、编码容量大等特点,对应编码可以存储在一维码(Codel28编码)、二维码以及RFID(Radio Frequency Identification,射频识别)标签等类型的载体中。通过解析编码可以对应获得结构化数据样本的实体数据的基本信息,其中,实体数据的基本信息可以表征该实体数据的概念和类别。
步骤102,解析结构化数据样本对应的编码标识,得到对应的实体数据的基本信息。
在实施中,计算机设备解析结构化数据样本对应的编码标识,得到对应的实体数据的基本信息。
具体地,以工业互联网标识解析体系中的典型企业对应的实体数据为例,可以对应解析出该典型企业的产品、生产设备和原材料数据对应的编码,进而得到产品、生产设备和原材料对应的基本信息。
步骤103,根据解析出的实体数据的基本信息与工程流程数据进行数据匹配,得到结构化数据样本中各实体数据间的属性关联关系。
在实施中,计算机设备根据解析出的实体数据的基本信息与工程流程数据进行数据匹配,得到结构化数据样本中各实体数据间的属性关联关系。
具体地,根据该结构化数据样本所属领域的具体的制造或业务流程的文本数据,与解析出的实体数据进行匹配,将实体数据作为概念主体,抽取概念主体(实体数据)之间的属性关联关系。
步骤104,根据属性关联关系以及预设的属性图模型,生成对应的知识图谱。
在实施中,计算机设备根据属性关联关系以及预设的属性图模型,将属性关联关系中的“实体数据”与“属性关系”的值全部存储在“节点”和“边”的变量中,生成对应的知识图谱。
具体地,属性图模型中对应有实体数据和关系(也即上文中的“属性关联关系”)的属性值,属性图模型将实体数据表示为“节点”,属性关联关系数据表示为“边”,此种表示方法类似于RDF(资源描述框架,Resource Description Framework)模型中的“实体”和“对象属性”,但是,属性图模型中对应的属性值可以全部存储在“节点”和“边”的变量中,因此,属性图模型与RDF的数据属性不同,属性图模型不需要显示化地以节点(例如,节点显示为椭圆形)和边(例如,边显示为线段)的形式将知识图谱中的每一条知识展示出来。
以具体的轮胎制造企业中抽取出的一条实体数据属性关联关系为例,根据“某企业轮胎(编码为86.1000/tyre.1234)产地是廊坊”这条实体数据间的属性关联关系,以SPO三元组可表示为:<handle:86.1000/tyre.1234,made in,Langfang>,如图2所示,其中,handle:86.1000/tyre.1234,是知识图谱中用来唯一表示这一轮胎实体的标识,类似身份证号。“轮胎”(图2中用轮胎编码表示)和“廊坊(图2中用langfang表示)”对应为两个实体数据,而“产地”(图2中用made in表示)为两个实体数据间的属性关联关系。
上述知识图谱工程化构建方法中,获取至少一个标识解析体系中的结构化数据样本对应的编码标识,编码标识用于唯一表示结构化数据样本中的实体数据;解析结构化数据样本对应的编码标识,得到对应的实体数据的基本信息;根据解析出的实体数据的基本信息与工程流程数据进行数据匹配,得到结构化数据样本中各实体数据间的属性关联关系;根据属性关联关系以及预设的属性图模型,将属性关联关系中的“实体数据”与“属性”的值全部存储在“节点”和“边”的变量中,生成对应的知识图谱。采用本方法,基于工业互联网的标识解析体系构建知识图谱,保证了知识图谱中知识所需数据的结构化程度,同时通过标识解析体系中实体数据包含的基本信息和工程流程数据进行匹配,抽取实体数据间的属性关系,提高了知识图谱的工程化构建程度。
在一个实施例中,如图3所示,在步骤102之前,该方法还包括以下步骤:
步骤301,识别结构化数据样本中每一实体数据对应的编码标识。
在实施中,由于获取至少一个标识解析体系下的结构化数据样本,且不同标识解析体系下对于实体数据的编码标识规则可能不同,因此,在对标识解析体系中的结构化数据样本对应的编码进行解析之前,计算机设备利用正则表达式算法预先识别结构化数据样本中每一实体数据对应的编码标识,以便于区分该实体数据的编码对应的所属标识解析体系。
步骤302,若实体数据的编码标识为非通用标识体系中的编码标识,则根据预设的标识转换关系,在实体数据的编码标识中添加预设的标识前缀,得到实体数据转换后的编码标识。
通用标识解析体系为OID体系、Handle体系和Ecode体系等,其中,通用标识解析体系对应的编码标识可唯一确定实体数据,不会产生表示歧义。非通用标识解析体系为存在实体数据的编码标识在不同的标识解析体系下对应不同的实体概念。
在实施中,若实体数据的编码标识为非通用标识体系中的编码标识,则根据预设的标识转换关系,在该实体数据的编码标识中添加预设的标识前缀(即用于唯一表示该实体的标识前缀),得到实体数据转换后的编码标识。
具体地,如图4所示,获取的结构化数据样本中的数据来源有两种,包括目标领域下Handle标识解析体系(通用标识解析体系)中对应的数据和该领域内某企业内部自有编码解析体系,则针对每一实体数据的编码标识进行识别的过程中,首先先判断该实体数据的编码标识的所属体系,若为非通用标识解析体系下的编码标识,则进一步确认,该编码标识表示的实体数据是否与通用标识解析体系下的编码标识存在冲突,若存在冲突,则将非通用标识解析体系下的该实体数据的编码标识前加上所属领域的行业标识和该企业的企业标识,以用于唯一表示该实体数据。若非通用编码标识体系下的实体数据的编码标识与通用标识解析体系下的编码标识不存在冲突,由于是企业内部自定义的编码标识,因此需要在该实体数据的编码标识前,添加行业标识以用于唯一表示所属领域。若为通用标识解析体系下的编码标识,则默认编码格式为:“前缀:原有通用编码标识”,该前缀仅为区分通用标识解析体系类型。
具体地,如轮胎制造领域,获取的结构化数据样本来源为Handle标识解析体系(通用标识解析体系)(Ecode、OID体系等通用标识编码体系的转换规则同理)和企业自有编码解析体系(非通用标识解析体系)中的数据,则数据识别过程为:Handle标识解析体系中实体数据,例如,编码为86.1000/tyre.1234,其编码结构分为权威域(前缀)/本地命名(后缀)。权威域下可下辖若干子权威域,自左向右用“.”分隔。前缀与后缀之间用“/”分隔。编码含义如下:86为中国,1000为企业代码,tyre为轮胎,1234为产品序列号。即被转换为:handle:86.1000/tyre.1234(即前缀:原有通用编码标识)。企业内部自有编码体系中的实体数据,需判断是否与通用标识编码体系存在冲突。如果与通用标识编码体系存在冲突,即编码结构相同,可能被通用标识体系解析为其他产品,采用的转换规则是:行业标识:企业标识:产品编码;如果与通用标识编码体系不存在冲突,则仅在原编码前加上行业标识前缀,即行业标识:产品编码,其中,行业标识编码,采用国民经济行业分类国家标准(GB/T4754-2017)。
本实施例中,通过正则表达式预先识别获取到的结构化数据样本中每一实体数据的编码标识,并根据预设的编码转换规则对非通用编码标识进行转换,保证了不同标识解析体系下的实体数据可以通过转换后编码标识进行唯一表示。
在一个实施例中,如图5所示,步骤103的具体处理过程如下所示:
步骤501,获取标识解析体系对应的工程流程数据,工程流程数据中包含工作流程应用场景下的操作实体和对应的操作属性。
在实施中,计算机设备获取标识解析体系对应的工程流程数据,工程流程数据中包含工作流程应用场景下的操作实体和对应的操作属性
步骤502,根据操作实体和对应的操作属性在实体数据的基本信息中进行匹配和关系抽取,得到结构化数据样本中各实体数据间的属性关联关系。
在实施中,计算机设备根据操作实体和对应的操作属性在实体数据的基本信息中进行匹配和关系抽取,得到结构化数据样本中各实体数据间的属性关联关系。
具体地,以轮胎制造业为例进行说明,在该领域的核心操作实体有:橡胶、密炼机、胶料;核心操作属性有:橡胶是作为生产胶料的原材料;操作属性还包括具体的原材料配比,生产时间等。根据轮胎制造业的工程流程数据(业务流程文本数据信息)中操作实体和对应的操作属性,在标识解析体系下解析出的实体数据的基本信息中进行匹配和关系抽取,如图6所示,构建得到轮胎制造业的对应于知识图谱的各实体数据间的属性关联关系。
本实施例中,通过工程流程数据(例如,业务流程等)与解析出的实体数据的基本信息进行自动匹配,抽取匹配后的实体数据间的属性关联关系,无需技术人员凭经验筛选抽取,提高了知识图谱各实体数据间关联关系的抽取准确性和构建效率,同时节约了人力资源成本。
在一个实施例中,如图7所示,步骤104之前,该方法还包括:
步骤701,根据结构化数据样本对应的所属领域获取外源数据,外源数据为标识解析体系之外其他来源的结构化数据。
在实施中,计算机设备根据结构化数据样本对应的所属领域获取外源数据,其中,外源数据为标识解析体系之外其他来源的结构化数据,例如,由企业内部业务系统或数据库导出的数据、在网络平台上爬取的数据(比如,维基百科、百度百科)等,对于外源数据的数据来源,本实施例中不做限定。
可选的,对于外源数据的获取应尽量选择结构化程度较高的数据样本,以降低处理数据抽取实体概念关系的成本,同时在得到外源数据后也可以先由技术人员进行根据外源数据中的实体概念进行判断、修正和补充。
步骤702,根据解析出的实体数据的基本信息,抽取外源数据中的实体概念之间的相互关系。
在实施中,计算机设备根据解析出的实体数据的基本信息,抽取外源数据中的实体概念之间的相互关系。例如,抽取出的实体概念之间的一条相互关系包括关系两端的实体数据和两个实体数据间的关系的属性信息:即,轮胎(实体数据1)—产地(属性关系)—廊坊(实体数据2);
具体地,以工业物联网领域为例,实体概念主体(class)(也即实体数据)可以包括:生产设备、人、物、料四大类;实体数据间文本属性关系信息(object)可以包括:原材料(将具体材料归为原材料属性类)、组件(将生产设备器件归为组件属性类),实体数据间数值属性关系信息(Data Property)值:数量、生产时间、位置坐标等。
步骤703,根据实体概念之间的相互关系对各实体数据间的属性关联关系进行扩充,得到扩充后的各实体数据间的属性关联关系。
在实施中,计算机设备根据实体概念之间的相互关系对由标识解析体系得到的各实体数据间的属性关联关系进行扩充,得到扩充后的各实体数据间的属性关联关系。
具体地,针对标识解析体系下得到的各实体数据间的属性关联关系,每个实体数据对应有该实体数据的基本信息,根据基本信息中表征实体数据的概念和类别,将其与外源数据得到的实体概念之间的相互关系进行匹配,进行关系的扩充和延伸,从而得到整体的扩充后的各实体数据间的属性关联关系。
则步骤104具体处理过程为:
步骤704,根据扩充后的各实体数据间的属性关联关系以及预设的属性图模型,生成对应的扩充后的知识图谱。
在实施中,计算机设备根据扩充后的各实体数据间的属性关联关系以及预设的属性图模型,生成对应的扩充后的知识图谱。
本实施例中,通过外源数据对根据标识解析体系得到的各实体数据间的属性关联关系进行扩充,增强了知识图谱的知识覆盖率。
可选的,在得到知识图谱后,可以通过技术人员的抽样测试结合预设的指标对知识图谱进行评价,具体评价指标如下表1所示:
表1
其中,一致性指标的评估包括:冗余实体检测:通过计算实体间的相似度,检测识别知识图谱中的冗余实体,进而对知识图谱进行相应评估。实体、属性、关系和属性值的一致性检测均通过属性对齐的算法实现,完成错误冲突修正和规范化。为保证知识图谱的准确性和时效性,采用人工抽样评估法:由本领域专家(人工)抽取样本数据,检查数据的缺失率。完整性指标的评估:计算机设备识别该领域在wikipedia(维基百科)、百度百科和互动百科中出现的实体、属性等的概念信息,计算当前知识图谱对百科中相关概念对应的实体、属性、关系、属性值(即基于属性图模型转化赋值的实体数据和其属性关系信息的数据值)的覆盖程度。进而对根据各评价指标对当前知识图谱进行评价和调整。
在一个实施例中,如图8所示,步骤701的具体处理过程如下所示:
步骤801,根据结构化数据样本的所属领域在网络平台获取候选外源数据。
在实施中,计算机设备根据获取的结构化数据样本的所属领域在网络平台上获取数据,作为候选外源数据。具体地,以轮胎制造业领域为例,除了标识解析体系中包含的实体数据,计算机设备还可以针对轮胎制造领域在维基百科、百度百科等网络“百科全书”中获取相关数据信息,作为候选外源数据。
步骤802,根据预设的数据范围阈值,对候选外源数据进行数据清洗,得到外源数据。
在实施中,计算机设备根据预设的数据范围阈值,对候选外源数据进行数据清洗,得到最终外源数据。
具体地,根据行业需求,对数据转化和清洗规则进行预定义,使得计算机设备可以获得该目标领域的基本认知框架,即包括该领域的实体数据和属性关系信息的基本概念和分类类别,该领域的基本属性信息以及属性值的类别和范围作为数据转化和清洗规则的标准或阈值。例如,以轮胎制造业领域中“轮胎”实体作为概念关系主体,其中,轮胎实体包括乘用轮胎、载重轮胎、工程轮胎、农机轮胎这四个子类;轮胎的“生产制造厂商”属性关系信息中其合理取值为某一企业;轮胎的“气压”这一属性关系信息,其取值范围是200-400千帕(Kpa)之间;另外,针对轮胎的“气压”这一属性关系信息的数值如果与预定义的清洗规则的数值范围的单位不统一,则预先根据单位转化公式转化数值数据,然后再根据范围进行数据清洗,例如,数据清洗规则中的轮胎气压数值范围为200-400千帕,外源数据中提供的轮胎气压的属性关系信息以bar(巴)为单位进行的概念定义,因此,先根据单位转化公式1bar=102kpa,对应转化外源数据中的轮胎气压数据。
本实施例中,通过对其他来源的数据(即候选外源数据)进行数据转化、数据清洗等,得到规范的结构化数据样本,作为外源数据,以用于对知识图谱中的知识进行扩充,增加知识图谱的知识覆盖率。
在一个实施例中,如图9所示,步骤104或者步骤704之前,该方法还包括:
步骤901,计算实体数据间属性关联关系中实体数据间的相似度,根据预设相似度阈值,确定各实体数据间属性关联关系中的冗余实体数据,将冗余实体数据合并至相似度最大的实体数据中。
在实施中,计算机设备计算抽取得到的各实体数据间属性关联关系中各实体数据间的相似度,根据预设的相似度阈值,判断两两实体数据间的相似性关系,当两实体数据间的相似度超过预设的相似度阈值时,确定实体数据间存在冗余实体数据,将冗余实体数据合并至与冗余实体数据自身相似度最大的实体数据中。
步骤902,根据预设的字段过滤规则、数据范围过滤规则、参照完整性过滤规则和唯一性规则,对知识图谱对应的实体数据间属性关联关系中的各实体数据和属性关系信息进行数据处理,得到处理后的规范化的实体数据间的属性关联关系。
在实施中,计算机设备根据预设的字段过滤规则、数值范围过滤规则、参照完整性过滤规则和唯一性规则等,对知识图谱对应的实体数据间属性关联关系中的各实体数据和属性关系信息进行数据处理,得到处理后的规范化的实体数据间的属性关联关系,对各实体数据间属性关联关系进行规范化,以使根据规范化的实体数据间的属性关联关系得到更标准的知识图谱。
本实施例中,通过预设的知识图谱各实体数据间关联关系(也称为各条知识)的规范化处理方法,对得到的各实体数据间的关联关系冗余实体处理、字段过滤处理、数据范围过滤处理等,修正冗余格式,删除数据或字段错误,提高了知识图谱规范化和知识准确性。
在一个实施例中,如图10所示,该方法还包括:
步骤1001,按照预设的时间周期在网络平台上爬取目标领域的热门数据信息,识别并抽取热门数据信息中包含的实体数据以及对应的属性关系信息,得到热门实体数据间的属性关联关系,目标领域为标识解析体系中结构化数据样本对应的所属领域。
在实施中,计算机设备按照预设的时间周期在网络平台上定期爬取目标领域的热门数据信息,识别并抽取热门数据信息中包含的实体数据以及对应的属性关系信息,得到热门实体数据间的属性关联关系,其中,目标领域为标识解析体系中结构化数据样本对应的所属领域。
步骤1002,根据热门实体数据间的属性关联关系更新当前实体数据间的属性关联关系,并根据更新后的实体数据间的属性关联关系以及预设的属性图模型得到更新后的知识图谱。
在实施中,计算机设备根据热门实体数据间的属性关联关系更新当前实体数据间的属性关联关系,并根据更新后的实体数据间的属性关联关系以及预设的属性图模型得到更新后的知识图谱。
可选的,在根据热门实体数据间的属性关联关系更新当前实体数据间的属性关联关系(当前知识图谱)时,需要预先判断当前知识图谱中是否已存在该热门实体数据,若存在则无需进行更新操作,若不存在,根据该热门实体数据间的属性关联关系更新当前知识图谱,更进一步地,根据更新后的知识图谱中实体数据间的属性关联关系中各实体数据的基本信息会根据检索、使用频次或者时间推移产生变化,因此,需要根据时间周期同步更新各实体数据的基本信息。
本实施例中,根据预设的时间周期在网络平台上爬取目标领域热门数据信息进而得到热门实体数据间的属性关联关系,利用热门实体数据间的属性关联关系对当前的知识图谱中的知识进行更新,保证了知识图谱的知识及时性和信息覆盖率。
在一个实施例中,如图11所示,该方法还包括:
步骤1101,获取多组实体数据间的属性关联关系,每一组实体数据间的属性关联关系对应一个知识图谱。
在实施中,计算机设备获取多组实体数据间的属性关联关系,其中,每一组实体数据间的属性关联关系对应一个知识图谱,即计算机设备获取多个知识谱对应的多组实体数据间的属性关联关系。
步骤1102,将多组实体数据间的属性关联关系中包含的全部实体数据,通过预设的实体数据对齐算法进行两两对齐融合,得到等价实体数据对,并根据等价实体数据对以及预设的分类模型,得到等价实体数据对的分类实体融合结果。
在实施中,计算机设备将多组实体数据间的属性关联关系中包含的全部实体数据,通过预设的实体数据对齐算法进行两两对齐融合,得到等价实体数据对,并根据等价实体数据对以及预设的分类模型,得到等价实体数据对的分类实体融合结果。
具体地,实体数据对齐方法中首先要识别不同来源的数据是否表示同一实体(此问题在编码标识识别、转化过程中已解决),另外需要判断相同或不同数据集中的多个实体是否指向客观世界同一实体,解决一个实体对应多个名称的问题。比如Beijing,北京,帝都,中国首都等,都对应北京这个实体。基于此,实体数据对齐的基本流程可以包括:数据预处理、分块处理、数据两两成对,以及实体数据对的集体对齐四个步骤,其中,步骤一,数据预处理用于解决实体数据命名不统一的问题,主要方法包括去除实体数据的数据名称上的标点符号、进行同义词扩展等。步骤二,对实体数据进行分块处理,例如,针对上述例子中的:原材料、生产设备、产品这3大类对实体数据进行分块归类,不同类的实体数据也无需进行两两对齐处理,以提高实体数据对齐效率。步骤三,针对属于同一类的实体数据(分配到同一块中)进行两两成对处理(即得到等价实体数据对),实体数据的成对对齐仅根据一个等价实体数据对中的两个实体数据本身的基本信息进行匹配,本质上是一个二元分类问题。步骤四,对知识图谱对应的全部实体数据进行集体对齐处理,得到对齐后的知识图谱全部实体数据的分类融合结果。
其中,步骤三中实体数据对齐方法可以有多种,例如:1、利用监督学习的成对对齐方法:通过以现有的知识图谱中的等价实体数据对作为训练集,训练分类器,例如基于支持向量机算法、决策树、神经网络等方法的分类器,得到训练好的实体数据分类器,利用训练好的实体数据分类器进行实体数据两两对齐(即两两分类)。2、无监督学习的成对对齐方法:与现有的知识图谱中的等价实体数据对间进行相似度判断,例如,翻译词典、同义词典、实体名称相似度(相似度评价指标Jaccard系数、Dice系数和编辑距离等)。
步骤四中集体对齐针对整个知识图谱的全部实体数据信息进行匹配。该方法主要分为两种:一种是基于相似度传播的方法,基本思路是基于初始匹配经过迭代计算产生新的匹配。另一种是基于概率模型的方法,基本思路是将全局实体匹配的概率最大化,常用的方法包括贝叶斯网络、LDA(Latent Dirichlet Allocation,文档主题生成模型)、条件随机场和马尔可夫逻辑网等。故针对上述实体数据的对齐方法本实施例不做限定。
步骤1103,将多组实体数据间的属性关联关系中包含的全部属性关系信息,通过预设的相似度计算算法进行两两对齐融合,得到等价属性关系信息对,并将等价属性关系信息对中使用频次高的属性作为属性融合结果。
在实施中,计算机设备将多组实体数据间的属性关联关系中包含的全部属性关系信息通过预设的相似度计算算法进行两两对齐融合,得到等价属性关系信息对,并将等价属性关系信息对中使用频次高的属性作为属性融合结果。
具体地,属性关系信息对齐方法包括的基本流程为:“生成+过滤+验证”。在生成步骤中,为全部属性关系信息两两计算相似度,得到候选的等价属性关系信息对。常用的方法有基于属性关系名称的相似性计算(如度量字符串相似度的指标,包括Jaccard系数、Dice系数和编辑距离等);基于外部同义词词库(如同义词字典和百度汉语等)的方法;基于属性关系取值相似度(包括属性值集合的相似度和属性值类型的相似度)的方法。在过滤步骤中,根据属性关系分类规则过滤掉其中的错误等价属性对(即不在同一类的属性关系组成的错误等价属性对)。对于每个等价属性关系信息对,使用两者中出现频次(也即使用频次)较高的那个属性名称来表示这对等价属性关系。在验证步骤中,可以通过人工校验的方式,验证等价属性关系信息对的准确性。
步骤1104,根据分类实体融合结果和属性融合结果以及预设的属性图模型,得到融合后的知识图谱。
在实施中,计算机设备根据分类实体融合结果和属性融合结果以及预设的属性图模型,得到融合后的知识图谱。其中,具体的根据融合结果得到知识图谱的过程与上述步骤104的处理过程相同,本实施例不再赘述。
本实施例中,通过实体数据对齐方法、属性关系信息对齐方法可以将多个知识图谱对应的实体数据间的属性关联关系进行融合,得到融合后的知识图谱,实现了知识图谱的灵活合并。
在一个实施例中,如图12所示,步骤1104具体处理过程如下所示
步骤1201,根据预设的格式规则和停用词处理规则对分类实体融合结果和属性融合结果进行错误冲突修正检验,得到修正后的分类实体融合结果和修正后的属性融合结果。
在实施中,计算机设备根据预设的格式规则和停用词处理规则对分类实体融合结果和属性融合结果进行错误冲突修正检验,得到修正后的分类实体融合结果和修正后的属性融合结果。
步骤1202,根据预设的字段过滤规则、数据范围过滤规则、参照完整性过滤规则和唯一性规则,对修正后的分类实体融合结果和修正后的属性融合结果进行数据标准化处理,得到规范化的分类实体融合结果和规范化的属性融合结果。在实施中,计算机设备根据预设的字段过滤规则、数据范围过滤规则、参照完整性过滤规则和唯一性规则,对修正后的分类实体融合结果和修正后的融合结果进行数据标准化处理,得到规范化的分类实体融合结果和规范化的属性融合结果。
可选地,不论是外源数据规范化处理,知识(实体数据间属性关联关系)以及知识融合结果的规范化(或称为标准化)处理等,均可采用相同的处理流程,即基于上述字段过滤规则、数据范围过滤规则、参照完整性过滤规则和唯一性过滤规则等规则进行处理,本实施例不再赘述。
步骤1203,根据规范化的分类实体融合结果和规范化的属性融合结果以及预设的属性图模型,得到融合后的知识图谱。
在实施中,计算机设备根据规范化的分类实体融合结果和规范化的属性融合结果以及预设的属性图模型,得到融合后的知识图谱。
应该理解的是,虽然图1,图3-5,图7-12的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1,图3-5,图7-12中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图13所示,提供了一种知识图谱工程化构建装置1300,包括:获取模块1310、解析模块1320、抽取匹配模块1330和生成模块1340,其中:
获取模块1310,用于获取至少一个标识解析体系中的结构化数据样本对应的编码标识,编码标识用于唯一表示结构化数据样本中的实体数据;
解析模块1320,用于解析结构化数据样本对应的编码标识,得到对应的实体数据的基本信息;
抽取匹配模块1330,用于根据解析出的实体数据的基本信息与工程流程数据进行数据匹配,得到结构化数据样本中各实体数据间的属性关联关系;
生成模块1340,用于根据属性关联关系以及预设的属性图模型,生成对应的知识图谱。
在一个实施例中,该知识图谱工程化构建装置1300还包括:
识别模块,用于识别结构化数据样本中每一实体数据对应的编码标识;
添加模块,用于若实体数据的编码标识为非通用标识体系中的编码标识,则根据预设的标识转换关系,在实体数据的编码标识中添加预设的标识前缀,得到实体数据转换后的编码标识。
在一个实施例中,解析模块1320具体用于获取标识解析体系对应的工程流程数据,工程流程数据中包含工作流程应用场景下的操作实体和对应的操作属性;
根据操作实体和对应的操作属性在实体数据的基本信息中进行匹配和关系抽取,得到结构化数据样本中各实体数据间的属性关联关系。
在一个实施例中,该知识图谱工程化构建装置1300还包括:
第二获取模块,用于根据结构化数据样本对应的所属领域获取外源数据,外源数据为标识解析体系之外其他来源的结构化数据;
概念抽取模块,用于根据解析出的实体数据的基本信息,抽取外源数据中的实体概念之间的相互关系;
扩充模块,用于根据实体概念之间的相互关系对各实体数据间的属性关联关系进行扩充,得到扩充后的各实体数据间的属性关联关系;
则生成模块1340具体用于根据扩充后的各实体数据间的属性关联关系以及预设的属性图模型,生成对应的扩充后的知识图谱。
在一个实施例中,第二获取模块具体用于根据结构化数据样本的所属领域在网络平台获取候选外源数据;
根据预设的数据范围阈值,对候选外源数据进行数据清洗,得到外源数据。
在一个实施例中,该知识图谱工程化构建装置1300还包括:
冗余合并模块,用于计算实体数据间属性关联关系中实体数据间的相似度,根据预设相似度阈值,确定各实体数据间属性关联关系中的冗余实体数据,将冗余实体数据合并至相似度最大的实体数据中;
规范化处理模块,用于根据预设的字段过滤规则、数据范围过滤规则、参照完整性过滤规则和唯一性规则,对知识图谱对应的实体数据间属性关联关系中的各实体数据和属性关系信息进行数据处理,得到处理后的规范化的实体数据间的属性关联关系。
在一个实施例中,该知识图谱工程化构建装置1300还包括:
爬取模块,用于按照预设的时间周期在网络平台上爬取目标领域的热门数据信息,识别并抽取热门数据信息中包含的实体数据以及对应的属性关系信息,得到热门实体数据间的属性关联关系,目标领域为标识解析体系中结构化数据样本对应的所属领域;
更新模块,用于根据热门实体数据间的属性关联关系更新当前实体数据间的属性关联关系,并根据更新后的实体数据间的属性关联关系以及预设的属性图模型得到更新后的知识图谱。
在一个实施例中,该知识图谱构建装置1300还包括:
第三获取模块,用于获取多组实体数据间的属性关联关系,每一组实体数据间的属性关联关系对应一个知识图谱;
第一分类融合模块,用于将多组实体数据间的属性关联关系中包含的全部实体数据,通过预设的实体数据对齐算法进行两两对齐融合,得到等价实体数据对,并根据等价实体数据对以及预设的分类模型,得到等价实体数据对的分类实体融合结果;
第二分类融合模块,用于将多组实体数据间的属性关联关系中包含的全部属性关系信息,通过预设的相似度计算算法进行两两对齐融合,得到等价属性关系信息对,并将等价属性关系信息对中使用频次高的属性作为属性融合结果;
错误修正模块,用于根据预设的格式规则和停用词处理规则对分类实体融合结果和属性融合结果进行错误冲突修正检验,得到修正后的分类实体融合结果和修正后的属性融合结果;
规范化处理模块,用于根据预设的字段过滤规则、数据范围过滤规则、参照完整性过滤规则和唯一性规则,对修正后的分类实体融合结果和修正后的属性融合结果进行数据标准化处理,得到规范化的分类实体融合结果和规范化的属性融合结果;
生成模块,用于根据规范化的分类实体融合结果和规范化的属性融合结果以及预设的属性图模型,得到融合后的知识图谱。
上述知识图谱工程化构建装置,采用本装置,基于工业互联网的标识解析体系构建知识图谱,保证了知识图谱中知识所需数据的结构化程度,同时通过标识解析体系中实体数据包含的基本信息和工程流程数据进行匹配,抽取实体数据间的属性关系,提高了知识图谱的工程化构建程度。
关于知识图谱工程化构建装置的具体限定可以参见上文中对于知识图谱工程化构建方法的限定,在此不再赘述。上述知识图谱工程化构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种知识图谱工程化构建方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图14中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。