CN110704413A

CN110704413A - 一种基于深度学习的知识图谱构建方法

Info

Publication number: CN110704413A
Application number: CN201910943933.7A
Authority: CN
Inventors: 章志容; 李实�; 彭添才
Original assignee: DONGGUAN MENGDA PLASTICIZING TECHNOLOGY Co Ltd
Current assignee: DONGGUAN MENGDA PLASTICIZING TECHNOLOGY Co Ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-01-17

Abstract

本发明涉及知识图谱技术领域，具体公开了一种基于深度学习的知识图谱构建方法，包括：分析数据表结构信息，将数据表栏位信息进行关联；对数据表栏位数据属性进行头实体识别、关系识别和尾实体识别，对数据对象进行文本分词处理或信息识别，构建数据对象的实关系和虚关系的知识图谱。其通过数据表栏位关联和文本识别处理，可以将数据库中的各项数据之间的关系有效地关联起来，任意数据之间只要有任何属性和关系之间的现有或潜在的联系，均会进行相应关联，并通过知识图谱展现出来，为事务决策提供参考，从而可以更好地挖掘出大数据的潜在价值。

Description

一种基于深度学习的知识图谱构建方法

技术领域

本发明涉及知识图谱技术领域，具体涉及一种基于深度学习的知识图谱构建方法。

背景技术

随着互联网的深入发展，各类数据爆炸式增长，这些海量数据埋藏着巨大的潜在价值，但如果只靠人工去分析，要达到精准和精细分析，这基本是不可能完成的任务。因此这得需要依靠计算机进行智能分析。

在对大数据进行智能分析的技术中，知识图谱是一种结构化的分析方式，其构建的关系结构可以为后续的许多事务决策提供重要参考。

那么，如何更为有效地构建知识图谱，是具有海量数据的互联网平台需要考虑的，尤其是对于业务繁多且数据复杂的多平台运营商，更是急需一种有效的知识图谱构建方式，将各种数据之间的关系确切有效地关联起来，从而挖掘出大数据下的巨大潜在价值。

发明内容

为了解决现有技术中存在的难题，本发明的目的在于提供一种有效的基于深度学习的知识图谱构建方法。

为实现上述目的，本发明采用如下方案。

一种基于深度学习的知识图谱构建方法，包括：

分析数据表结构信息，将数据表栏位信息进行关联；

对数据表栏位数据属性进行头实体识别、关系识别和尾实体识别，对数据对象进行文本分词处理或信息识别，构建数据对象的实关系和虚关系的知识图谱。

作为优选实施例，依据语义相关性分析方法来分析数据表结构信息，将相同含义的栏位进行关联。

进一步地，信息识别包括：

取一数据对象h的特征向量，与数据库中的任一同类型数据对象t进行比较，

Dist(h,t)＝|t_t-h_t|+EditDist(t_attribute,h_attribute)表示它们的相似度，其中，t_t表示t的时间，h_t表示h的时间，t_attribute表示t的特征向量，h_attribute表示h的特征向量，EditDist(t_attribute,h_attribute)表示特征向量之间的编辑距离，通过特征向量维度的欧式距离计算编辑距离，当编辑距离小于预先定义的值时，则数据对象h和数据对象t为同一数据对象，且产生相同数据对象的关系；否则，数据对象h和数据对象t为不同的数据对象。

作为优选实施例，对数据对象的文本信息进行分词处理，去除分词结果中的预设停用词和标点符号，将剩余词汇按照词频降序排列，选取排列在前面预设数目的词汇，得出文本信息对应的词汇表；

通过TF-IDF矩阵，依次计算词汇表中的每个词与文本类别的关联程度，获得一个得分值，将得分值降序排列，选取预设数目的词汇作为关键词。

具体地，数据表的头实体、关系和尾实体均可进行自定义扩展延伸或删减。

优选地，头实体、关系和尾实体的自定义扩展延伸包括：

确定业务知识图谱需求，定义业务名称；

根据业务知识图谱需求建立一个最核心的业务图谱主体：实体-关系-实体三元组；

根据业务图谱需求在所述最核心的业务图谱主体上增加其他的知识体系。

另外，还包括，预先定义数据表结构的数据类型、对应的分析方法以及分析方法所对应的SQL脚本。

本发明的知识图谱构建方法可采用计算机程序自动实现，因此本发明还提供了一种计算机可读存储设备，存储有计算机程序，所述计算机程序被处理器执行以实现所述的知识图谱构建方法。

同时，本发明还提供了相应的终端、系统来实现上述知识图谱构建方法。

本发明的有益效果：本发明提供了一种基于深度学习的知识图谱构建方法，通过数据表栏位关联和文本识别处理，可以将数据库中的各项数据之间的关系有效地关联起来，任意数据之间只要有任何属性和关系之间的现有或潜在的联系，均会进行相应关联，并通过知识图谱展现出来，为事务决策提供参考，从而可以更好地挖掘出大数据的潜在价值。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。

本发明实施例提供了一种基于深度学习的知识图谱构建方法，方法包括以下。

在构建知识图谱之前，在系统中，比如在数据分析模块，预先定义数据表结构的数据类型、对应的分析方法以及分析方法所对应的SQL脚本，例如：数值型用汇总分析法，字符型、日期型等用计数分析法。

除了系统平台自身数据，还可以通过网络爬虫技术从第三方平台获取相关信息，并通过数据清洗，存储到平台。将平台或第三方数据源对应地接入数据分析模块。之后，自动分析各数据表结构信息，记录表名、栏位名称、栏位数据属性(比如说，所属企业库或产品库或关系库或属性库)，将栏位按其代表的含义，生成对应的业务名称，例如表T1的栏位为(姓名、年龄、性别)，则对应生成业务名称为(d1＝姓名、d2＝年龄、d3＝性别)，并将业务名称记录到业务名称数据表，表T2的栏位为(年纪、社保金额)，则依据语义相关性分析方法，其栏位对应的业务名称为(d2＝年龄、d4＝社保金额)，且表T1与T2通过d2存在关联性。由此方法将所有接入的数据表栏位信息进行关联。

对于业务名称数据表中的业务名称，数据分析模块将依据语义关联性分析法分析业务名称是否语义相同，如具有相同的业务含义，则视为相同的业务名称，且产生相同业务名称的关系。

为了方便理解，在本实施例中，以构建企业的知识图谱为例，因此，本实施例以分析企业的相关数据信息为例。

比如，有的企业在A平台注册是用公司简称，而在B平台注册是用公司全称，对此，可以通过算法模型将企业信息进行统一，当然不限于企业，也可以是产品、订单等等具有多维向量特征的任意实体对象。这里主要以企业名称作为举例说明实体信息的统一性，步骤如下：

取当前企业1(设为h)的特征向量，与企业库中的任意一企业，假设为企业2(设为t)进行比较，对应的关系为r；

Dist(h,t)＝|t_t-h_t|+EditDist(t_attribute,h_attribute)表示它们的相似度，其中，t_t表示t的时间，h_t表示h的时间，t_attribute表示t的特征向量，h_attribute表示h的特征向量，EditDist(t_attribute,h_attribute)表示特征向量之间的编辑距离，通过特征向量维度的欧式距离计算编辑距离，当编辑距离小于预先定义的值时，则企业1和企业2为同一企业，且产生相同企业的关系。

另外，在企业知识图谱的构建中，可以依据企业的经营范围栏位信息进行企业主营产品信息提炼。

首先，对企业经营范围文本信息进行分词处理，得到所述文本所对应的词汇表。

对文本的分词结果做进一步的筛选，去除分词结果中的预设停用词和标点符号，并将剩余词汇按照词频降序排列，选取排列在前面预设数目的词汇，由筛选得到的词汇构成文本步骤中的词汇表。

具体的，去除预设停用词，如去除“的”，“了”以及一些对行业分类没有用途的预设词，将去除停用词和标点符号后得到的词汇按照词频降序排序，可选的，选取排序结果中前90％的词，去除排序结果中排在后10％的词，将最终的筛选结果作为所述词汇表；通过TF-IDF矩阵，可以计算得到一个词与文本类别的关联程度，得到一个得分值，得分越高的词，类别区分能力越高，在本步骤中，可通过TF-IDF依次计算得到的词汇列表中每个词汇对于该文本的重要度的值，将计算结果降序排列，选取第一预设数目的词汇作为关键词。例如，词汇列表中有50个词，通过TF-IDF依次计算每个词的值，将计算结果降序排列，选取排序结果中的前20％的词作为关键词。即为企业主营产品。

通过企业知识图谱关系模型，建立企业库、产品库、事件库、属性库等等各种知识库所形成的关系库中的关系，具体步骤：将前述步骤中记录的所有数据表的相关信息进行统一，统一为头实体-关系-尾实体，系统自动识别，通过栏位数据属性进行头实体识别、关系识别、尾实体识别，如此完成所有数据表的关系识别，包括企业与企业、企业与产品、企业与地区、产品与产能、事件与对象等等关系识别，同时采用脚本预先定义的统计方法对头实体对应的关系-尾实体的数据进行统计(根据各数据库栏位的统计方法由系统进行自动统计)，最终形成企业知识图谱；以上构成企业实关系的知识图谱。具体的，实关系指的是已经事实发生过联系的关系，比如说，竞争关系、已经产生交易的上下游关系等等。

另外，还可以通过深度学习构建企业虚关系的知识图谱。虚关系则是指潜在有可能发生的联系。

例如对于企业库中某一企业的主营产品(比如手机外壳)中的产品工艺图谱，可知企业对某个原料(例如PVC)的采购需求量比较大，则通过虚关系来关联图谱中的生产PVC的企业信息，形成头实体(手机外壳生产企业)-上游关系-尾实体(PVC原料生产企业)的虚关系。

例如对企业A的某一产品进行分析，首先对产品的知识图谱进行识别(即对产品的实关系知识图谱进行识别)，选择产品库中当前产品，选择当前产品对应的关系库中的原料关系，选择产品库中与当前产品的原料关系对应的产品即为当前产品的原料；对于最终所选的原料，逐一进行如下分析：假设选择其中一原料A，选择原料A在关系库中对应的生产关系，选择企业库中与原料A为生产关系的企业B，则企业B为企业A的原料提供商，同时判断企业A和企业B是否存在上下游关系(即企业B为企业A的上游企业)；具体判断方法：选择企业库的企业A，选择企业A在关系库中对应的上游关系，判断上游关系中是否存在企业B。

如存在上下游关系，则判断上游关系中的企业B是否存在与企业A的交易关系，且交易属性为原料A，如基于此关系没有属性为原料A的交易关系，在此上下游关系上，同时企业B具备发生属性为原料A的虚交易关系，如基于此关系有属性为原料A的交易关系，则不需要建立虚关系和关系属性。

如不存在上下游关系，则企业A与企业B建立上下游虚关系(即：企业B为企业A的上游)，同时企业B与企业A基于此关系基础上存在一种属性为原料A的交易关系。

同时通过尾实体的属性(区域特征)来统计各区域PVC原料的生产企业。

建立此虚关系和虚属性的用意是给平台或用户带来新的客户和产品资源。此方案只以此为例进行阐述，对于其他虚关系和虚属性的建立不做限制。对于本领域技术人员而言，可以根据本实施例很容易理解，对于产品、订单等信息数据，同样可以采用上述方式来构建知识图谱；比如，企业C是电脑整机销售商，企业D是机箱生产商，企业E是电源生产商，企业F是显示器生产商，用户甲是电脑购买者等等，那么上述这些实体将通过企业属性或历史交易数据关联起来，构成一个网状关系的知识图谱。

正如以上实施例所体现的，本发明方案将整个知识图谱的构建简单化和可自定义化，因为本发明方案的知识图谱的构建只需基于三元组结构：头实体-关系-尾实体，无需再创建其它模型；而对于存在多业务或不断有新开发业务的平台而言，其实用性不言而喻；当有新的业务需求需要建立知识图谱时，平台系统只需自定义一个新的三元组结构，当业务需求有更改时，只需修改或删除或添加三元组结构中的任一实体库或关系库。

比如说，对于一个产品a销售商A，销售商A原先只需要了解生产制造商B以更好地寻求到货源，那么，其相应建立的三元组结构关系为：头实体(产品a)-关系(生产)-尾实体(制造商B)，此处制造商B并非指具体的企业对象，而是指制造产品a的企业库，同样的，三元组结构下的销售商A也是指企业库，实体和关系对应的都是相应的数据库，而非具体对象；当销售商A寻求到足够的货源时，便有可能会产生一个新的业务需求—仓储；那么相应地可以在图谱中自定义一个新的业务名称，对实体(销售商A)自定义扩展一个关系—仓储，从而衍生出一个新的三元组，而对于这个仓储关系，还可以进一步衍生出其它实体，比如说，租赁式仓库或产权式仓库；等等。

实体和关系均可以自定义扩展延伸或删减，可以在关系上延伸添加和删减实体，同时也可以在实体上延伸添加和删减关系。完全可以根据平台的不同业务需求来做不同的定制化，从而使得本发明方案可对接于多种电商平台或交易相关平台或其他类型平台。

具体的，知识图谱的自定义扩展延伸可以如下：

1.首先确定一个业务知识图谱需求，可以由专业的业务管理人员来定义业务名称。

2.根据业务知识图谱需求建立一个最核心的业务图谱主体，即：实体-关系-实体三元组，这个最核心的业务图谱主体中头实体和尾实体可根据业务知识图谱需求可选择定义为数据库中存储的任意实体库类型，例如可以是企业库、产品库、概念库、事件库、活动库等等实体库，同时这个最核心的业务图谱主体中关系可以根据业务知识图谱需求选择关系库中存储的业务关系，例如上下游关系、原料关系、中介关系等等业务关系。

3.依据业务知识图谱需求进行图谱结构的拓展，即：可根据业务图谱需求在核心的业务图谱主体上增加其他的知识体系，例如：可以在核心的业务图谱主体的关系上增加基于某一关系实体库，核心业务图谱主体的头实体和尾实体产生的业务关系，同时，可以由此处添加关系实体库拓展与当前分析业务相关的关系以及与之对应的关系实体。也可以根据业务图谱需求在核心的业务图谱主体的头实体或尾实体上增加基于某一实体关系以及与之对应的关系实体，可以根据业务知识图谱的需求，依此方法不断地在关系上延伸实体，在实体上延伸关系以及与之对应的实体，进而依据不同的业务知识图谱的需求，自定义产生对应的知识图谱。

4.需要强调的是以上核心的业务图谱主体以及后续的延伸，都是基于业务知识图谱的需求，由用户或者系统通过对前述步骤1中定义的业务需求名称经过语义解析后，自定义产生。

除了对图谱进行自定义扩展延伸外，对应地，对于一个已有的知识图谱，同样可以进行自定义删减或更改，以满足变化的业务需求。

上述实体和关系的扩展延伸并非现有技术通常采用的知识图谱补全，本发明不采用补全的手段，因为毫无目的性的关系补全并不能提供有针对性的知识图谱，对于用户而言，面对一个大而全的知识图谱，却无法快速精准地获取想要的数据信息，那么，这个大而全的知识图谱便是毫无价值的。用户真正需要的是精准对应需求的数据。

作为本发明方案的另一实施例，为了提高普通用户的使用体验，系统可以对知识图谱的生成提供多个选项：自定义生成和默认方式生成。也即，当用户对知识图谱体系有明确需求和目标时，可以对知识图谱的结构进行自定义并由系统生成相应的知识图谱，而当用户对知识图谱体系并没有明确需求，只是想做一般了解时，则可以选择让系统以默认方式来生成知识图谱，即，当用户选择业务名称或业务类型或选择其中一个数据表时，数据分析模块自动生成与当前业务名称或业务类型或数据表关联的所有表信息的关联图谱，以及展示数据表的分析数据，同时用户还可以二次检索得到的相关信息形成的关联图谱信息。用户可点击关系图谱上的特殊表或栏位或关联关系，查看对应的详细信息，例如用户选择某个商品栏位，即可看到商品“加入购物车”、“待支付”、“浏览量”、“历史采购用户数量”、“已收货”等相关信息，同时分析模型可以进一步通过聚类算法和神经网络模型预测商品未来销量等信息。用户可通过二次检索某个账户的用户画像，并通过聚类算法和风控模型判断账户进行各业务类型的意愿度、风险度等等。

默认生成方式生成的知识图谱可以为用户提供相关信息的参考，在用户了解相关信息后或者通过二次检索获得有用信息后，可以再采用自定义的方式来生成一个针对性的知识图谱，从而让用户更有效地获得有价值的数据信息。

本实施例提供的企业知识图谱构建方法，通过数据表栏位关联和文本识别处理，可以将数据库中的各项数据之间的关系有效地关联起来，任意数据之间只要有任何属性和关系之间的现有或潜在的联系，均会进行相应关联，并通过知识图谱展现出来，为事务决策提供参考，从而可以更好地挖掘出大数据的潜在价值。

相比于现有大部分通过训练模型或预测模型来关联数据的方案，本发明方案更为简单有效并且精准，其无需预测，而是通过各种历史事件数据，将数据之间的关系关联起来，其反映出来的知识图谱将更为精准，可以为用户提供更有价值的决策参考。

尤其对于业务繁多且数据复杂的多平台运营商，面对错综复杂的数据，通过构建企业知识图谱，挖掘企业与企业的关系、企业与产品的关系、企业特征等等，有利于平台清晰地了解平台核心企业、核心产品、核心交易等等行业信息，对产业链价值服务地进一步深挖起到关键性的作用。

另外需要说明的是，本领域普通技术人员可以理解：实现上述方法实施的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序指令可以存储于一计算机可读取存储介质或存储设备中，该程序指令在执行时，执行上述企业知识图谱构建方法的步骤；而前述存储介质或存储设备包括但不限于：ROM、RAM、磁盘或者光盘等各种可以存储程序代码的介质。

因此相应地，本发明实施例还提供了一种计算机可读存储设备，存储有计算机程序，所述计算机程序被处理器执行以实现上述企业知识图谱构建方法。

进一步地，本发明还配套提供了一种相应的移动终端、系统来实现上述企业知识图谱构建方法，具体为：

一种移动终端，包括：

处理器，适于执行程序指令；

存储设备，适于存储程序指令，所述程序指令适于由处理器加载并执行以实现上述企业知识图谱构建方法。

一种基于深度学习的企业知识图谱构建系统，包括服务器；服务器包括处理器和存储设备；

处理器，适于执行程序指令；

以上内容仅为本发明的较佳实施例，对于本领域的普通技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于深度学习的知识图谱构建方法，其特征在于，包括：

分析数据表结构信息，将数据表栏位信息进行关联；

2.根据权利要求1所述的知识图谱构建方法，其特征在于，包括，依据语义相关性分析方法来分析数据表结构信息，将相同含义的栏位进行关联。

3.根据权利要求1所述的知识图谱构建方法，其特征在于，信息识别包括：

取一数据对象h的特征向量，与数据库中的任一同类型数据对象t进行比较，Dist(h,t)＝|t_t-h_t|+EditDist(t_attribute,h_attribute)表示它们的相似度，其中，t_t表示t的时间，h_t表示h的时间，t_attribute表示t的特征向量，h_attribute表示h的特征向量，EditDist(t_attribute,h_attribute)表示特征向量之间的编辑距离，通过特征向量维度的欧式距离计算编辑距离，当编辑距离小于预先定义的值时，则数据对象h和数据对象t为同一数据对象，且产生相同数据对象的关系；否则，数据对象h和数据对象t为不同的数据对象。

4.根据权利要求1所述的知识图谱构建方法，其特征在于，对数据对象的文本信息进行分词处理，去除分词结果中的预设停用词和标点符号，将剩余词汇按照词频降序排列，选取排列在前面预设数目的词汇，得出文本信息对应的词汇表；

5.根据权利要求1所述的知识图谱构建方法，其特征在于，数据表的头实体、关系和尾实体均可进行自定义扩展延伸或删减。

6.根据权利要求5所述的知识图谱构建方法，其特征在于，头实体、关系和尾实体的自定义扩展延伸包括：

确定业务知识图谱需求，定义业务名称；

7.根据权利要求1所述的知识图谱构建方法，其特征在于，还包括，预先定义数据表结构的数据类型、对应的分析方法以及分析方法所对应的SQL脚本。

8.一种计算机可读存储设备，存储有计算机程序，其特征在于，所述计算机程序被处理器执行以实现权利要求1至7任意一项所述的知识图谱构建方法。

9.一种移动终端，其特征在于，包括：

处理器，适于执行程序指令；

存储设备，适于存储程序指令，所述程序指令适于由处理器加载并执行以实现权利要求1至7任意一项所述的知识图谱构建方法。

10.一种知识图谱构建系统，其特征在于，包括服务器；

服务器包括处理器和存储设备；

处理器，适于执行程序指令；