CN115640406A

CN115640406A - 一种基于多源异构大数据分析处理与知识图谱构建方法

Info

Publication number: CN115640406A
Application number: CN202211251994.5A
Authority: CN
Inventors: 金仲存; 田伟; 郝美萍; 王沿甲; 张美晶; 吴越; 窦林涛; 朱威
Original assignee: Xi'an Yinjiang Wisdom City Technology Co ltd
Current assignee: Xi'an Yinjiang Wisdom City Technology Co ltd
Priority date: 2022-10-13
Filing date: 2022-10-13
Publication date: 2023-01-24

Abstract

本发明公开了一种基于多源异构大数据分析处理与知识图谱构建方法，包括如下步骤：步骤一、数据源：先分别借助公知信息数据手段和网络检索数据手段获得结构化数据、半结构化数据和非结构化数据，形成初步知识图谱数据混合库，先通过大范围、多领域和各种渠道获取海量数据源，再由知识抽取对获取的各种海量数据库进行预先知识抽取处理，后依次经过构建领域本体库构建和全局本体库构建获取更为精准的知识图谱数据库，最后经过实体对齐和实体链接规则处理后，以应用平台的方式供与用户操作和管控，实现多领域多需求的海量数据中按照语义一致和结构一致的高精度多数据融合搭建效果，大大降低了知识图谱的使用局限性。

Description

一种基于多源异构大数据分析处理与知识图谱构建方法

技术领域

本发明涉及知识图谱构建技术领域，具体为一种基于多源异构大数据分析处理与知识图谱构建方法。

背景技术

知识图谱，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

在海量数据面前，目前借助知识谱图手段最为有效，而现阶段使用的知识谱图在构建时，大多在同一领域数据中进行搭建使用，无法对多领域多需求的海量数据中按照语义一致和结构一致的高精度多数据融合搭建，极大的提高了知识图谱的使用局限性，无法全面对多领域多需求的海量数据进行精准操作和管控，满足不了大环境下知识图谱的全面使用，为此，提出基于多源异构大数据分析处理与知识图谱构建方法。

发明内容

本发明的目的在于提供基于多源异构大数据分析处理与知识图谱构建方法，以解决上述背景技术中提出的无法对多领域多需求的海量数据中按照语义一致和结构一致的高精度多数据融合搭建的问题。

为实现上述目的，本发明提供如下技术方案：一种基于多源异构大数据分析处理与知识图谱构建方法，包括如下步骤：

步骤一、数据源：先分别借助公知信息数据手段和网络检索数据手段获得结构化数据、半结构化数据和非结构化数据，形成初步知识图谱数据混合库；

步骤二、知识抽取：再从初步形成的知识图谱数据混合库中按照实体数据、语义关系和重点特性条件进行抽取筛选，初步剔除歧义、重合以及错误的数据，进一步形成较为精准的知识图谱数据精简库；

步骤三、知识图谱本体构建：针对不同领域和不同应用需求，利用OWL从含有多种数据库的知识图谱数据精简库中构建相应的领域本体库，再通过映射成全局本体库；

A、领域本体库构建：领域本体库的构建数据主要来源于步骤一中的各种数据源，也可利用相关领域的相关官方网站上搜索补充，首先，由于领域内的关系数据库是针对特定领域而创建的，该数据库包含了领域内的表达方法和具体应用的详细信息，因此，先从领域的关系数据库中抽取出关系模式，分析关系数据库中表的信息和字段信息，建立相应的概念模型；其次，由于关系模式包括表与字段之间的关系，以及表与表之间的联系，而本体库则是包括概念与概念之间的关系、概念与属性间的联系，因此，要利用一定的规则将关系模式映射为本体模型，通过设计一系列转换规则，如：将关系模式中的表名转换为本体中的概念名，表与表间的关系转换为本体中的概念与概念的关系，将关系模式中的字段名转换为本体的属性名等，可以获得领域本体模型；最后，对领域本体模型进行评估和校验，该部分重点是对所构造的领域本体模型进行检验，查看是否满足本体库的构建原则，本体模型中的术语是否正确，本体模型中的概念及其关系是否完整等，通过对本体模型评估后，即可建立领域内的本体库；

B、全局本体库构建：为了能便于构建多数据融合的知识图谱，需要将多个领域内的本体库进行融合，在构建的领域本体库基础上，通过相似性检测和冲突解决等规则，将多个领域的本体库融合在一起组成了全局本体库，首先，对不同领域内的本体可能存在一些相同或相似的概念和属性的情况，采用相似性检测规则对它们进行检测，如：语义相似性检测、概念相似性检测、属性相似性检测、数据格式相似性检测等，通过这些相似性检测，能将不同领域内的相同或相似本体进行统一，但还不能解决它们之间的冲突；其次，采用冲突解决规则对上面存在的相似概念或属性等问题进行解决，通过冲突解决规则可以消除概念的歧义，剔除冗余和错误概念，从而保证全局本体库的质量，主要是对上述存在相似的概念或属性进行消除，使其达到统一，并合并为全局本体；最后，将剩余的领域本体经过冲突解决和实体消岐等处理，映射到全局本体库，与各个领域本体库相结合，从而实现全局本体的构建；

步骤四、实体对齐：首先对开放链接数据及行业领域的百科数据中实体进行提取得到了实体的同义名称集合，再将实体对齐问题看成全局匹配评分目标函数的优化问题进行建模，再通过贪婪优化算法求得其相似解，再通过实体对齐的方法，将这些实体与上述构建的知识图谱中的实体进行匹配，把结果作为实体合并的候选实体集；最后将这些候选实体集中的实体，通过比对它们的上层概念，如果具有相同的上层概念，则将它们合并为一个实体；

步骤五、实体链接：再从文本中抽取得到的实体对象，将其链接到知识图谱中对应的正确实体对象的操作，且在给定的知识图谱中，预测出缺失的实体间的关系，丰富和拓展知识图谱，后根据给定三元组的头(尾)实体和关系，从知识图谱中或其它相关文本数据中选出一组候选实体对象，然后通过实体链接预测算法，计算出正确的尾(头)实体，最后将知识图谱中的实体和关系通过嵌入方式投影到低维向量空间，并在向量空间中通过向量平移转换操作，计算头、尾实体及关系在向量空间中的损失函数值，实现头尾实体的关系链接，同时再基于约束嵌入转换算法，在原有向量嵌入转换算法的基础上，增加关系语义约束条件，使得所预测出实体间的关系要满足关系的语义类型，如：对于关系“出生于”，其头实体通常是人或动物，而尾实体通常是时间或地点；

步骤六、应用平台：将实体对齐和实体链接处理后的知识图谱数据库中的多数据进行融合，形成最终版知识图谱数据总库，再采用Neo4j作为图的存储数据库，以Bootstrap前端网页框架设计布局，并使用D3.js数据驱动的可视化套件实现实体与关系的动态展示效果，即可完成应用平台搭建，最后用户再通过应用平台从全局层面对融合多个数据源的数据进行管理和使用。

优选的，所述在步骤一数据源中：公知信息数据由生活、工业、医疗、环境等领域中的基本常识、基本知识以及常规技术中获得，网络检索数据由百度、雅虎、谷歌等搜索引擎中获得数据。

优选的，所述在步骤一数据源中：结构化数据主要来源于关系数据库，如：政府数据库、各大医院数据库、各厂矿企业数据库、环境数据库等中获得，半结构化数据主要来源于地理位置信息数据库、厂矿企业信息数据库、医院病人病历数据库、各地环境和气象数据库等，非结构化数据主要来源于文本资料数据、账单发票凭证、音视频数据等。

优选的，所述在步骤一数据源中：为了扩充和完善数据源汇总的数据库，对互动百科数据、维基百科数据、百度百科数据、贴吧数据、微博数据和短视频数据通过网页爬虫技术获取相应的知识数据，再对获取的知识数据进行实体过滤，筛选歧义、重合和错位的数据信息，再对各渠道获取的数据合并后计入数据源，并将半结构化数据通过转换规则转换为结构化数据，对于分结构化数据和无结构数据，可通过人工抽取方式提取相应知识。

优选的，所述在步骤三知识图谱本体构建中的领域本体库构建时：选取步骤一中数据源中的结构化数据表格转换成相应的本体概念及属性进行描述，将数据源获取数据库中的关系名转换为本体中的概念，字段名转换为本体中的属性，将关系名转换为本体中概念的OWL语言如下：

(OWL：Class rdf：ID＝“Patient”/)

(OWL：Class rdf：ID＝“PediatricPatient”/)

(OWL：Class rdf：ID＝“Doctor”/)

(OWL：Class rdf：ID＝“Inpatient”/)

(OWL：Class rdf：ID＝“Hospital”/)

...。

优选的，所述在步骤三知识图谱本体构建中的领域本体库构建时：将字段名转换为属性名的OWL语言如下：

(OWL：ObjectProperty rdf：ID＝“HospitalID”)

(OWL：DatatypeProperty rdf：ID＝“PatientID”)

(RDFS：domain rdf：resource＝“#Doctor”/)

(RDFS：range rdf：resource＝“#Hospital”/)

...。

优选的，所述在步骤六应用平台中，搭建的应用平台中针对用户操作内容和时间，预设有时间戳、安全日志和访问任务，时间戳精确到年月日时分秒，如：客户甲在2020年9月20号早上10点35分28秒查看数据库相关数据，且安全日志和访问任务以excel表格形式生成，并历经180天周期覆盖。

优选的，所述在步骤六应用平台中，用户可借助应用平台进行融合多种数据源的基本信息，用户也可借助应用平台进行实体链接预测，对知识图谱中可能存在着缺失的实体与实体间的关系进行链接，用户亦可借助应用平台进行知识图谱实体关系网络的可视化操作。

与现有技术相比，本发明的有益效果是：

本发明中，先通过大范围、多领域和各种渠道获取海量数据源，再由知识抽取对获取的各种海量数据库进行预先知识抽取处理，后依次经过构建领域本体库构建和全局本体库构建获取更为精准的知识图谱数据库，最后经过实体对齐和实体链接规则处理后，以应用平台的方式供与用户操作和管控，实现多领域多需求的海量数据中按照语义一致和结构一致的高精度多数据融合搭建效果，大大降低了知识图谱的使用局限性，可全面对多领域多需求的海量数据进行精准操作和管控，满足大环境下知识图谱的全面使用。

附图说明

图1为本发明的流程图；

图2为本发明的领域本体库构建流程图；

图3为本发明的全局本体库构建流程图；

图4为本发明的实体对齐流程图；

图5为本发明的实体链接转换算法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参阅图1-图5，本发明提供一种技术方案：一种基于多源异构大数据分析处理与知识图谱构建方法，包括如下步骤：

步骤六、应用平台：将实体对齐和实体链接处理后的知识图谱数据库中的多数据进行融合，形成最终版知识图谱数据总库，再采用Neo4j作为图的存储数据库，以Bootstrap前端网页框架设计布局，并使用D3.js数据驱动的可视化套件实现实体与关系的动态展示效果，即可完成应用平台搭建，最后用户再通过应用平台从全局层面对融合多个数据源的数据进行管理和使用，先通过大范围、多领域和各种渠道获取海量数据源，再由知识抽取对获取的各种海量数据库进行预先知识抽取处理，后依次经过构建领域本体库构建和全局本体库构建获取更为精准的知识图谱数据库，最后经过实体对齐和实体链接规则处理后，以应用平台的方式供与用户操作和管控，实现多领域多需求的海量数据中按照语义一致和结构一致的高精度多数据融合搭建效果，大大降低了知识图谱的使用局限性，可全面对多领域多需求的海量数据进行精准操作和管控，满足大环境下知识图谱的全面使用。

实施例2

步骤一、数据源：先分别借助公知信息数据手段和网络检索数据手段获得结构化数据、半结构化数据和非结构化数据，形成初步知识图谱数据混合库，公知信息数据由生活、工业、医疗、环境等领域中的基本常识、基本知识以及常规技术中获得，网络检索数据由百度、雅虎、谷歌等搜索引擎中获得数据，结构化数据主要来源于关系数据库，如：政府数据库、各大医院数据库、各厂矿企业数据库、环境数据库等中获得，半结构化数据主要来源于地理位置信息数据库、厂矿企业信息数据库、医院病人病历数据库、各地环境和气象数据库等，非结构化数据主要来源于文本资料数据、账单发票凭证、音视频数据等，为了扩充和完善数据源汇总的数据库，对互动百科数据、维基百科数据、百度百科数据、贴吧数据、微博数据和短视频数据通过网页爬虫技术获取相应的知识数据，再对获取的知识数据进行实体过滤，筛选歧义、重合和错位的数据信息，再对各渠道获取的数据合并后计入数据源，并将半结构化数据通过转换规则转换为结构化数据，对于分结构化数据和无结构数据，可通过人工抽取方式提取相应知识，增加数据源获取各种数据库的渠道，使数据源获取的各数据库数据更加全面；

A、领域本体库构建：领域本体库的构建数据主要来源于步骤一中的各种数据源，也可利用相关领域的相关官方网站上搜索补充，首先，由于领域内的关系数据库是针对特定领域而创建的，该数据库包含了领域内的表达方法和具体应用的详细信息，因此，先从领域的关系数据库中抽取出关系模式，分析关系数据库中表的信息和字段信息，建立相应的概念模型；其次，由于关系模式包括表与字段之间的关系，以及表与表之间的联系，而本体库则是包括概念与概念之间的关系、概念与属性间的联系，因此，要利用一定的规则将关系模式映射为本体模型，通过设计一系列转换规则，如：将关系模式中的表名转换为本体中的概念名，表与表间的关系转换为本体中的概念与概念的关系，将关系模式中的字段名转换为本体的属性名等，可以获得领域本体模型；最后，对领域本体模型进行评估和校验，该部分重点是对所构造的领域本体模型进行检验，查看是否满足本体库的构建原则，本体模型中的术语是否正确，本体模型中的概念及其关系是否完整等，通过对本体模型评估后，即可建立领域内的本体库，选取步骤一中数据源中的结构化数据表格转换成相应的本体概念及属性进行描述，将数据源获取数据库中的关系名转换为本体中的概念，字段名转换为本体中的属性，将关系名转换为本体中概念的OWL语言如下：

(OWL：Class rdf：ID＝“Patient”/)

(OWL：Class rdf：ID＝“PediatricPatient”/)

(OWL：Class rdf：ID＝“Doctor”/)

(OWL：Class rdf：ID＝“Inpatient”/)

(OWL：Class rdf：ID＝“Hospital”/)

...；

将字段名转换为属性名的OWL语言如下：

(OWL：ObjectProperty rdf：ID＝“HospitalID”)

(OWL：DatatypeProperty rdf：ID＝“PatientID”)

(RDFS：domain rdf：resource＝“#Doctor”/)

(RDFS：range rdf：resource＝“#Hospital”/)

...；

步骤六、应用平台：将实体对齐和实体链接处理后的知识图谱数据库中的多数据进行融合，形成最终版知识图谱数据总库，再采用Neo4j作为图的存储数据库，以Bootstrap前端网页框架设计布局，并使用D3.js数据驱动的可视化套件实现实体与关系的动态展示效果，即可完成应用平台搭建，且搭建的应用平台中针对用户操作内容和时间，预设有时间戳、安全日志和访问任务，时间戳精确到年月日时分秒，如：客户甲在2020年9月20号早上10点35分28秒查看数据库相关数据，且安全日志和访问任务以excel表格形式生成，并历经180天周期覆盖，在用户出现违规操作和非法盗取数据时，方便后期追踪溯源，第一时间查询责任人，最后用户再通过应用平台从全局层面对融合多个数据源的数据进行管理和使用，用户可借助应用平台进行融合多种数据源的基本信息，为用户提供高级数据搜索、统计、分析等服务；用户也可借助应用平台进行实体链接预测，对知识图谱中可能存在着缺失的实体与实体间的关系进行链接，实现丰富和拓展知识图谱，用户亦可借助应用平台进行知识图谱实体关系网络的可视化操作。实现概念、属性、实例等多个维度的知识图谱展示，将知识图谱中的实体之间的关系通过可视化的形式展示出来，先通过大范围、多领域和各种渠道获取海量数据源，再由知识抽取对获取的各种海量数据库进行预先知识抽取处理，后依次经过构建领域本体库构建和全局本体库构建获取更为精准的知识图谱数据库，最后经过实体对齐和实体链接规则处理后，以应用平台的方式供与用户操作和管控，实现多领域多需求的海量数据中按照语义一致和结构一致的高精度多数据融合搭建效果，大大降低了知识图谱的使用局限性，可全面对多领域多需求的海量数据进行精准操作和管控，满足大环境下知识图谱的全面使用。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于多源异构大数据分析处理与知识图谱构建方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种基于多源异构大数据分析处理与知识图谱构建方法，其特征在于：所述在步骤一数据源中：公知信息数据由生活、工业、医疗、环境等领域中的基本常识、基本知识以及常规技术中获得，网络检索数据由百度、雅虎、谷歌等搜索引擎中获得数据。

3.根据权利要求1所述的一种基于多源异构大数据分析处理与知识图谱构建方法，其特征在于：所述在步骤一数据源中：结构化数据主要来源于关系数据库，如：政府数据库、各大医院数据库、各厂矿企业数据库、环境数据库等中获得，半结构化数据主要来源于地理位置信息数据库、厂矿企业信息数据库、医院病人病历数据库、各地环境和气象数据库等，非结构化数据主要来源于文本资料数据、账单发票凭证、音视频数据等。

4.根据权利要求1所述的一种基于多源异构大数据分析处理与知识图谱构建方法，其特征在于：所述在步骤一数据源中：为了扩充和完善数据源汇总的数据库，对互动百科数据、维基百科数据、百度百科数据、贴吧数据、微博数据和短视频数据通过网页爬虫技术获取相应的知识数据，再对获取的知识数据进行实体过滤，筛选歧义、重合和错位的数据信息，再对各渠道获取的数据合并后计入数据源，并将半结构化数据通过转换规则转换为结构化数据，对于分结构化数据和无结构数据，可通过人工抽取方式提取相应知识。

5.根据权利要求1所述的一种基于多源异构大数据分析处理与知识图谱构建方法，其特征在于：所述在步骤三知识图谱本体构建中的领域本体库构建时：选取步骤一中数据源中的结构化数据表格转换成相应的本体概念及属性进行描述，将数据源获取数据库中的关系名转换为本体中的概念，字段名转换为本体中的属性，将关系名转换为本体中概念的OWL语言如下：

(OWL：Class rdf：ID＝“Patient”/)

(OWL：Class rdf：ID＝“PediatricPatient”/)

(OWL：Class rdf：ID＝“Doctor”/)

(OWL：Class rdf：ID＝“Inpatient”/)

(OWL：Class rdf：ID＝“Hospital”/)

...。

6.根据权利要求1所述的一种基于多源异构大数据分析处理与知识图谱构建方法，其特征在于：所述在步骤三知识图谱本体构建中的领域本体库构建时：将字段名转换为属性名的OWL语言如下：

(OWL：ObjectProperty rdf：ID＝“HospitalID”)

(OWL：DatatypeProperty rdf：ID＝“PatientID”)

(RDFS：domain rdf：resource＝“#Doctor”/)

(RDFS：range rdf：resource＝“#Hospital”/)

...。

7.根据权利要求1所述的一种基于多源异构大数据分析处理与知识图谱构建方法，其特征在于：所述在步骤六应用平台中，搭建的应用平台中针对用户操作内容和时间，预设有时间戳、安全日志和访问任务，时间戳精确到年月日时分秒。

8.根据权利要求1所述的一种基于多源异构大数据分析处理与知识图谱构建方法，其特征在于：所述在步骤六应用平台中，用户可借助应用平台进行融合多种数据源的基本信息，用户也可借助应用平台进行实体链接预测，对知识图谱中可能存在着缺失的实体与实体间的关系进行链接，用户亦可借助应用平台进行知识图谱实体关系网络的可视化操作。