CN112084383B

CN112084383B - 基于知识图谱的信息推荐方法、装置、设备及存储介质

Info

Publication number: CN112084383B
Application number: CN202010930264.2A
Authority: CN
Inventors: 曾思敏; 张旭; 林静; 郑越; 梁智豪
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2023-08-18
Anticipated expiration: 2040-09-07
Also published as: CN112084383A

Abstract

本申请涉及人工智能技术领域，揭露一种基于知识图谱的信息推荐方法、装置、设备及存储介质，其中方法包括获取初始数据，并识别初始数据中的实体和实体间的关系，构建知识图谱；当确定目标客户时，从知识图谱中提取目标客户的初始数据，构建子图，然后采用子图和预先构建的产品特征向量对图卷积神经网络GCN进行训练，并将基础数据中的产品信息数据输入到训练好的图卷积神经网络GCN中，进行二分类处理，得到每种产品的选择概率，并根据选择概率，选择对应的产品信息数据作为待推荐信息，并将待推荐信息推送给目标客户。本申请还涉及区块链技术，初始数据存储于区块链中。本申请通过构建知识图谱，以提高信息推荐的效率。

Description

基于知识图谱的信息推荐方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及基于知识图谱的信息推荐方法、装置、设备及存储介质。

背景技术

信息推荐是一种用于根据用户偏好，向用户推送用户关注的数据信息的方式，精准的信息推荐，一方面，有利于数据提供方想用户推送自己的数据信息，另一方面，也有利于的用户获取到自己想要的信息。近年来推荐系统越来越火，并用于各种不同的领域，包括电影、音乐、新闻、书籍等等。如电商平台也都有他们自己专门的推荐系统为客户们提供他们可能喜欢的产品。在合理的设置下，它可以有效的提升利润、点击率、转化率等等，为用户提供更好的体验。

现有的信息推荐系统，通过设置埋点的方法，收集用户数据，通过对用户数据进行分析，得出用户的偏好信息，并根据用户的偏好信息将推送信息推送给用户。但是，其分析用户的偏好信息的手段是仅仅根据用户选择某一产品来界定，没有充分考虑到产品属性间的关系，以及客户与产品间的关系，导致得出的用户的偏好信息有所偏差，使得推荐信息的转化率不高，从而导致信息推荐效率较低。现在亟需一种能够提高信息推荐效率的方法。

发明内容

本申请实施例的目的在于提出一种基于知识图谱的信息推荐方法，通过构建知识图谱的方式，对用户进行产品信息推荐，以提高信息推荐效率。

为了解决上述技术问题，本申请实施例提供一种基于知识图谱的信息推荐方法，包括：

获取初始数据，所述初始数据包括客户信息数据和产品信息数据；

通过自然语言处理NLP技术，识别所述初始数据中的实体和实体间的关系，并根据所述实体和实体间的关系构建知识图谱；

当确定目标客户时，从所述知识图谱中提取所述目标客户的初始数据，将每条所述目标客户的初始数据作为一条基础数据，并根据所有所述基础数据构建子图，其中，所述子图由所述知识图谱中所述目标客户对应节点与其相关联节点及关系边共同构成；

采用所述子图和预先构建的产品特征向量对图卷积神经网络GCN进行训练，得到训练好的图卷积神经网络GCN；

将基础数据中的产品信息数据输入到所述训练好的图卷积神经网络GCN中，进行二分类处理，得到每种产品的选择概率，并对所述选择概率进行从大到小的排列，得到概率序列；

从所述概率序列中，依次按照前往后的顺序选取预设数量的选择概率，作为目标选择概率，将所述目标选择概率对应产品的产品信息数据，作为待推荐信息，并将所述待推荐信息推送给所述目标客户。

进一步的，所述通过自然语言处理NLP技术，识别所述客户信息数据与所述产品信息数据中的实体和实体间的关系，并根据所述实体和实体间的关系构建知识图谱包括：

将所述客户信息数据和产品信息数据进行预处理，并按照预设方式进行分类，得到分类数据；

针对每一类分类数据，采用自然文本识别NLP技术，识别所述分类数据中的实体和实体间的关系，得到每一类分类数据的实体和实体间的关系；

根据所述每一类分类数据的实体和实体间的关系，分别构建图谱，得到每一类分类数据的初始图谱；

将不同分类数据的初始图谱进行融合，得到所述知识图谱。

进一步的，所述将不同分类数据的初始图谱进行融合，得到所述知识图谱包括：

通过构建数据映射关系，将所述每一类分类数据的初始图谱中的实体和实体间的关系，映射到同一数据库中；

通过统计实体间相似度值的方式，判断所述数据库中，是否存在同一实体；

当判定所述数据库中存在同一实体时，采用实体融合与节点互联的方式，对所述同一实体的初始图谱进行融合，得到所述知识图谱。

进一步的，在所述针对每一类分类数据，采用自然文本识别NLP技术，识别所述分类数据中的实体和实体间的关系，得到每一类分类数据的实体和实体间的关系之后，所述方法还包括：

分别对所述每一类分类数据的实体进行特征编码，得到实体特征编码；

将所述实体特征编码投射至同一空间后，计算所述实体特征编码投射的向量距离，并将所述向量距离作为实体的相似度值；

将所述相似度值高于预设阈值的实体，作为同一实体，并保留同一实体其中一个实体。

进一步的，在所述根据所述每一类分类数据的实体和实体间的关系，分别构建图谱，得到每一类分类数据的初始图谱之后，所述方法还包括：

针对所述每一类分类数据的初始图谱，采用正则匹配的方式，对所述实体与实体属性进行匹配，得到匹配结果；

若检测到所述匹配结果中的实体与实体属性不匹配时，则判定所述实体与所述实体属性匹配错误，并重新获取所述实体的实体属性。

进一步的，在所述采用所述子图和预先构建的产品特征向量对图卷积神经网络GCN进行训练，得到训练好的图卷积神经网络GCN之前，所述方法还包括：

获取所述子图的节点属性；

通过预设的方式，对所述节点属性进行数值化处理。

进一步的，将所述初始数据存储于区块链中。

为了解决上述技术问题，本申请实施例提供一种基于知识图谱的信息推荐装置，包括：

初始数据获取模块，用于获取初始数据，所述初始数据包括客户信息数据和产品信息数据；

知识图谱构建模块，用于通过自然语言处理NLP技术，识别所述初始数据中的实体和实体间的关系，并根据所述实体和实体间的关系构建知识图谱；

目标客户确定模块，用于当确定目标客户时，从所述知识图谱中提取所述目标客户的初始数据，将每条所述目标客户的初始数据作为一条基础数据，并根据所有所述基础数据构建子图，所述子图由所述知识图谱中所述目标客户对应节点与其相关联节点及关系边共同构成。；

神经网络训练模块，用于采用所述子图和预先构建的产品特征向量对图卷积神经网络GCN进行训练，得到训练好的图卷积神经网络GCN；

选择概率计算模块，用于将基础数据中的产品信息数据输入到所述训练好的图卷积神经网络GCN中，进行二分类处理，得到每种产品的选择概率，并对所述选择概率进行从大到小的排列，得到概率序列；

推荐产品推荐模块，用于从所述概率序列中，依次按照前往后的顺序选取预设数量的选择概率，作为目标选择概率，将所述目标选择概率对应产品的产品信息数据，作为待推荐信息，并将所述待推荐信息推送给所述目标客户。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种计算机设备，包括，一个或多个处理器；存储器，用于存储一个或多个程序，使得一个或多个处理器实现上述任意一项所述的基于知识图谱的信息推荐方案。

为解决上述技术问题，本发明采用的一个技术方案是：一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的基于知识图谱的信息推荐方案。

以上方案中的一种基于知识图谱的信息推荐方法，通过识别客户信息数据与产品信息数据中的实体和实体间的关系，构建知识图谱，使得客户与产品间的关系更加清晰，便于确定目标客户；然后根据确定的目标客户，构建子图，并通过训练，得到训练好的图卷积神经网络GCN，然后根据训练好的图卷积神经网络GCN得到目标客户选择不同产品的概率，进行信息推送，实现获取目标客户不同产品的意向，有利于提高产品信息的推荐转化率，进而提高信息推荐的效率。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的基于知识图谱的信息推荐方法的应用环境示意图；

图2根据本申请实施例提供的基于知识图谱的信息推荐方法的一实现流程图；

图3是本申请实施例提供的基于知识图谱的信息推荐方法中步骤S2的一实现流程图；

图4是本申请实施例提供的基于知识图谱的信息推荐方法中步骤S24的一实现流程图；

图5是本申请实施例提供的基于知识图谱的信息推荐装置示意图；

图6是本申请实施例提供的计算机设备的示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

下面结合附图和实施方式对本发明进行详细说明。

请参阅图1，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、搜索类应用、即时通信工具等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的一种基于知识图谱的信息推荐方法一般由服务器执行，相应地，一种基于知识图谱的信息推荐装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

请参阅图2，图2示出了基于知识图谱的信息推荐方法的一种具体实施方式。

需注意的是，若有实质上相同的结果，本发明的方法并不以图2所示的流程顺序为限，该方法包括如下步骤：

S1：获取初始数据，初始数据包括客户信息数据和产品信息数据。

具体的，由于本发明涉及对客户进行推荐产品信息，故而需要获取获取客户信息数据和产品信息数据。

其中，客户信息数据包括客户的姓名、职业、所属机构等信息，产品信息数据包括产品说明文档、服务描述等信息

S2：通过自然语言处理NLP技术，识别初始数据中的实体和实体间的关系，并根据实体和实体间的关系构建知识图谱。

具体的，客户信息数据和产品信息数据包括结构化数据和非结构化数据，对于不同的格式的数据，构建知识图谱的方式有所不同。知识图谱构建具体过程详见步骤S21-S24，为了避免重复，此处不再累赘。

对于结构化数据，从结构化数据中提取出客户的姓名、职业、所属机构等实体和实体间的关系，将它们分别构造为孤立的知识节点，然后再学习各个节点之间的关系，将存在关系的节点连接起来，从而形成知识图谱。其中，结构化数据也称作行数据，是由二维表结构来逻辑表达和实现的数据，严格地遵循数据格式与长度规范，主要通过关系型数据库进行存储和管理。在本发明中，结构化数据包括客户的出生日期、电话号码、地址、财务金额和产品名称等等。

对于从非结构化的数据，非结构化文本一般是指自然语言文本，例如产品说明文档、客户电话录音记录、服务描述等。通过这些非结构化的文本，使用自然语言处理技术自动识别其中的实体，学习各个实体之间的关系，以及实体对应的属性特征，辅助构建知识图谱。其中，非结构化数据是数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML,HTML、各类报表、图像和音频/视频信息等等。在本发明中，非结构化数据包括产品说明文档、客户电话录音记录、服务描述等等。

S3：当确定目标客户时，从知识图谱中提取目标客户的初始数据，将每条目标客户的初始数据作为一条基础数据，并根据所有基础数据构建子图。

具体的，当确定目标客户时，从知识图谱中提取目标客户的信息数据，并根据目标客户的信息数据构建目标客户子图；其中，子图包含所有目标客户与目标客户相关联的其他节点信息，如房产节点、车辆节点等。

其中，目标客户为需要进行产品信息推荐的客户。从客户信息数据中，可以提取到目标客户的信息数据。

其中，子图由知识图谱中所述目标客户对应节点与其相关联节点及关系边共同构成。在本发明中，当确定了目标客户，则通过目标客户的信息数据，构建目标客户的子图，以便后续对目标客户进行精准的信息推送。

S4：采用子图和预先构建的产品特征向量对图卷积神经网络GCN进行训练，得到训练好的图卷积神经网络GCN。

具体的，通过对子图的节点属性进行数值化处理，并结合预先构建的各产品特征向量，形成训练数据，再通过训练数据对图卷积神经网络GCN进行训练；其中，将子图的节点以及节点属性设定为N，产品特征向量设定为D，由子图的节点以及节点属性N和产品特征向量D组成N*D维的矩阵X，由子图的节点以及节点属性N组成N*N维的矩阵A，亦称为邻接矩阵，则矩阵X和矩阵A为训练数据，即图卷积神经网络GCN的输入。在训练过程中，使用交叉熵训练误差进行下降，以F1分数作为训练的评价指标，F1分数越高，即在验证集上的表现越高，说明二分类模型的精确度越高，故选择在验证集上表现最好的模型作为训练好的图卷积神经网络GCN，并在生产环境中进行部署。其中，训练好的图卷积神经网络GCN为一个二分类模型，用于后续步骤的二分类处理，得到产品选择概率。

其中，产品特征向量表示包括但不限于产品的类型、产品让利金额，产品热门程度等等维度特征向量。

其中，图卷积神经网络GCN属于深度学习中的一种模型，其实际上跟卷积神经CNN的作用一样，是一个特征提取器，它的对象是图数据。GCN设计了一种从图数据中提取特征的方法，从而让可以使用这些特征去对图数据进行节点分类(node classification)、图分类(graph classification)、边预测(link prediction)等等处理。

其中，交叉熵(Cross Entropy)是Shannon信息论中一个重要概念，主要用于度量两个概率分布间的差异性信息。交叉熵的意义是用该模型对文本识别的难度，或者从压缩的角度来看，每个词平均要用几个位来编码。

其中，F1分数(F1 Score)，是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。F1分数可以看作是模型精确率和召回率的一种调和平均，它的最大值是1，最小值是0。

S5：将基础数据中的产品信息数据输入到训练好的图卷积神经网络GCN中，进行二分类处理，得到每种产品的选择概率，并对选择概率进行从大到小的排列，得到概率序列。

具体的，由于上述步骤确认了目标客户，并获取到了目标客户的基础数据，在进行此步骤之前，将基础数据中的与目标客户相关的产品信息数据进行二值化处理，将产品信息数据处理为目标客户选择产品Y_offer，此处Y_offer值为0或1，Y_offer为1代表目标客户选择了此产品，Y_offer为0代表目标客户未选择了此产品。将处理后的产品信息数据输入到训练好的图卷积神经网络GCN，并进行二分类处理，得到每种产品的选择概率，并对选择概率进行从大到小的排列，得到概率序列。

其中，二分类处理是通过图卷积神经网络GCN对输入的数据，进行预测，得到目标客户选择某一产品的概率。在此过程中，使用F1分数衡量二分类处理的精确度。

其中，选择概率为通过图卷积神经网络GCN预测目标客户选择某一产品的概率。

S6：从概率序列中，依次按照前往后的顺序选取预设数量的选择概率，作为目标选择概率，将目标选择概率对应产品的产品信息数据，作为待推荐信息，并将待推荐信息推送给目标客户。

具体的，由于选择概率越大，目标客户选择该产品的可能性就越大，所以根从概率序列中，依次按照前往后的顺序选取预设数量的选择概率，作为目标选择概率，将目标选择概率对应产品的产品信息数据，作为待推荐信息，并将待推荐信息推送给目标客户。

需要说明的是，预设数量根据实际情况而设定，此处不做限定。在一具体实施例中，预设数量为5个。

在本发明中，通过识别客户信息数据与产品信息数据中的实体和实体间的关系，构建知识图谱，使得客户与产品间的关系更加清晰，便于确定目标客户；然后根据确定的目标客户，构建子图，并通过训练，得到训练好的图卷积神经网络GCN，然后根据训练好的图卷积神经网络GCN得到目标客户选择不同产品的概率，进行信息推送，实现获取目标客户不同产品的意向，有利于提高产品信息的推荐转化率，进而提高信息推荐的效率。

请参阅图3，图3示出了步骤S2的一种具体实施方式，步骤S2中通过自然语言处理NLP技术，识别初始数据中的实体和实体间的关系，并根据实体和实体间的关系构建知识图谱的具体实现过程，详叙如下：

S21：将客户信息数据和产品信息数据进行预处理，并按照预设方式进行分类，得到分类数据。

具体的，预处理包括对客户信息数据和产品信息数据进行数据清洗等等，预处理过后，按照数据类型，得到结构化数据和非结构化数据；预设方式包括产品类型进行分类等等，即产品信息数据属于某一类产品或者是相关产品的，亦包括某些客户选择了该类产品或者相关产品的，将这一些数据分为同一分类数据。如保险产品类型、汽车产品类型等等。

S22：针对每一类分类数据，采用自然文本识别NLP技术，识别分类数据中的实体和实体间的关系，得到每一类分类数据的实体和实体间的关系。

具体的，由于后续步骤会将每一个分类数据进行单独构建知识图谱，故而，识别出每一类分类数据的实体和实体间的关系。

其中，实体间的关系包括实体间有关系和实体间无关系。

S23：根据每一类分类数据的实体和实体间的关系，分别构建图谱，得到每一类分类数据的初始图谱。

具体的，针对每一类分类数据，将分类数据的实体作为节点，将分类数据的实体间的关系中有关系的作为连接线，将节点进行互连，构建图谱，最终得到每一类分类数据的初始图谱。

S24：将不同分类数据的初始图谱进行融合，得到知识图谱。

具体的，通过前面步骤构建出初始图谱。但此时的初始图谱之间的联系仍不够紧密。例如客户知识图谱中，某客户节点的属性“所属机构”为“深圳”，而这一“深圳”节点可以与机构知识图谱中的“深圳”节点相融合。此外，客户节点还有一个“历史服务”属性指向“打蜡”节点，而这一“打蜡”节点可以与服务知识图谱中的“打蜡”节点相融合。故而将存在联系的初始图谱进行融合，形成最终的知识图谱。具体的融合过程详见步骤S241-S243，为了避免重复，此处不再累赘。

本实施例中，通过将客户信息数据和产品信息数据进行预处理，并按照预设方式进行分类，得到分类数据，针对每一类分类数据，采用自然文本识别NLP技术，识别分类数据中的实体和实体间的关系，得到每一类分类数据的实体和实体间的关系，并根据每一类分类数据的实体和实体间的关系，分别构建图谱，得到每一类分类数据的初始图谱，最后将不同分类数据的初始图谱进行融合，得到知识图谱，使得客户信息和产品信息通过图谱的形式进行展示，有利于后续进行目标客户对产品选择的概率计算，实现提高产品推荐的效率。

请参阅图4，图4示出了步骤S24的一种具体实施方式，步骤S24中将不同分类数据的初始图谱进行融合，得到知识图谱的具体实现过程，详叙如下：

S241：通过构建数据映射关系，将每一类分类数据的初始图谱中的实体和实体间的关系，映射到同一数据库中。

具体的，将通过自然文本识别NLP技术识别出来的每一类分类数据的实体和实体间的关系，映射到同一数据库中，便于识别出同一实体，从而进行图谱的融合。

S242：通过统计实体间相似度值的方式，判断数据库中，是否存在同一实体。

通过相同方式的相似度计算方式，在数据库中，计算实体间的相似度值，并通过判断该相似度值是否超过设定阈值，当超过设定阈值时，则判定这几个实体为同一实体。

其中，相同方式的相似度值的计算包括但不限于：特征工程、闵可夫斯基距离(Minkowski Distance)、曼哈顿距离(Manhattan Distance)和欧氏距离(EuclideanDistance)等。

其中，设定阈值根据实际情况而设定，此处不做限定；在一具体实施例中，设定阈值为0.85。

S243：当判定数据库中存在同一实体时，采用实体融合与节点互联的方式，对同一实体的初始图谱进行融合，得到知识图谱。

具体的，当存在数据库中同一实体时，可以将相同实体的初始图谱根据实体融合与节点互联的方式，进行图谱融合，得到知识图谱。

本实施例中，通过构建数据映射关系，将每一类分类数据的初始图谱中的实体和实体间的关系，映射到同一数据库中，并通过统计实体间相似度值的方式，判断数据库中，是否存在同一实体，当判定数据库中存在同一实体时，采用实体融合与节点互联的方式，对同一实体的初始图谱进行融合，得到知识图谱，实现将不同领域、不同分类的图谱进行融合，形成知识图谱，为后续构建子图提供基础，进而提高信息推荐的效率。

进一步的，在步骤S22之后，该基于知识图谱的信息推荐方法还包括：

分别对每一类分类数据的实体进行特征编码，得到实体特征编码。

具体的，来源于不同领域的各个实体，在现实世界中可能属于同一实体，需要将具有相同指征的命名实体聚集到一起添加进知识图谱中。例如不同系统间某一实体名称可能为“代驾”、“代驾服务、“代驾方案A”，在现实世界中它们都指向“代驾”这一服务实体，故而为了减少知识图谱的冗余实体，需要合并相同的实体。

具体的，采用独热编码对每一类分类数据的实体进行特征编码，得到实体特征编码。

其中，独热编码即One-Hot编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。

将实体特征编码投射至同一空间后，计算实体特征编码投射的向量距离，并将向量距离作为实体的相似度值。

具体的，通过计算实体相似度值的方式，识别出每一类分类数据中，存在的相同实体，进而减少实体冗余，便于有效构建图谱。

将相似度值高于预设阈值的实体，作为同一实体，并保留同一实体其中一个实体。

具体的，将高度相似的实体，作为同一实体，保留其中一个实体，作为后续构建图谱的实体，多余的实体进行删除，避免数据冗余。

其中，预设阈值根据实际情况而设定，此处不做限定；在一具体实施例中，预设阈值为0.85。

本实施例中，通过对每一类分类数据的实体进行特征编码，得到实体特征编码，将实体特征编码投射至同一空间后，计算实体特征编码投射的向量距离，并将向量距离作为实体的相似度值，将相似度值高于预设阈值的实体，作为同一实体，并保留同一实体其中一个实体，减少相同实体的冗余，提高后续构建知识图谱的效率，进而提高信息推荐的效率。

进一步的，在步骤S23之后，该基于知识图谱的信息推荐方法还包括：

针对每一类分类数据的初始图谱，采用正则匹配的方式，对实体与实体属性进行匹配，得到匹配结果。

具体的，由于本发明采用了大量自动化构建图谱的方式方法，可能会存在一定的抽取属性缺失或抽取结果错误，该现象多发生于在非结构化抽取的情境。通常利用自然文本识别NLP技术通过文本描述抽取的属性可能会存在错误。另外利用语音文本抽取的用户特征也存在一定程度的错误。这些错误可能会导致实体属性标签错误，更严重的可能会影响接下来图谱融合时的图结构。因此，需要对实体与实体属性进行检测，减少构建知识图谱的错误，进而提高后续信息推荐的准确性。

实体与实体属性的匹配过程：将通过自然文本识别NLP技术抽取出来的实体和实体属性映射到与初始数据同一数据库中，并通过构建正则表达式，将抽取出的实体与对应初始数据中同一实体进行对应实体属性的匹配，若两者的实体属性相同，则匹配结果中的实体与实体属性相匹配，否则为不匹配。

若检测到匹配结果中的实体与实体属性不匹配时，则判定实体与实体属性匹配错误，并重新获取实体的实体属性。

具体的，当匹配结果中的实体与实体属性不匹配时，说明实体属性抽取存在错误，则利用自然文本识别NLP技术，重新进行实体属性的抽取，避免后续进行构建产品特征向量出现错误。

本实施例中，针对每一类分类数据的初始图谱，采用正则匹配的方式，对实体与实体属性进行匹配，得到匹配结果，若检测到匹配结果中的实体与实体属性不匹配时，则判定实体与实体属性匹配错误，并重新获取实体的实体属性，实现减少实体属性抽取错误，，避免后续进行构建产品特征向量出现错误，进而减少图卷积神经网络GCN训练的错误，以提高信息推荐的效率。

进一步的，在步骤S4之前，该基于知识图谱的信息推荐方法还包括：

获取子图的节点属性。

具体的，由于子图的节点属性信息很多是非数值型的，无法直接使用图卷积神经网络GCN直接进行建模。因此通过获取子图的节点属性，为后续将子图节点属性信息进行数值化提供基础。

通过预设的方式，对节点属性进行数值化处理。

进一步的，针对不同数据类型的数据，采用不同的数值化处理方式。例如：对类别型数据，采用独热编码one-hot的方式；针对数值型数据，对数据进行归一化操作；针对自然语言文本，用BERT模型进行语义编码。

本实施例中，通过获取子图的节点属性，并通过预设的方式，对节点属性进行数值化处理，为构建子图提供基础。

需要强调的是，为进一步保证上述初始数据的私密和安全性，上述初始数据还可以存储于一区块链的节点中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

请参考图5，作为对上述图2所示方法的实现，本申请提供了一种基于知识图谱的信息推荐装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的基于知识图谱的信息推荐装置包括：初始数据获取模块71、知识图谱构建模块72、目标客户确定模块73、神经网络训练模块74、选择概率计算模块75及推荐产品推荐模块76，其中：

初始数据获取模块71，用于获取初始数据，初始数据包括客户信息数据和产品信息数据；

知识图谱构建模块72，用于通过自然语言处理NLP技术，识别初始数据中的实体和实体间的关系，并根据实体和实体间的关系构建知识图谱；

目标客户确定模块73，用于当确定目标客户时，从知识图谱中提取目标客户的初始数据，将每条目标客户的初始数据作为一条基础数据，并根据所有基础数据构建子图，其中，子图由知识图谱中目标客户对应节点与其相关联节点及关系边共同构成；

神经网络训练模块74，用于采用子图和预先构建的产品特征向量对图卷积神经网络GCN进行训练，得到训练好的图卷积神经网络GCN；

选择概率计算模块75，用于将基础数据中的产品信息数据输入到训练好的图卷积神经网络GCN中，进行二分类处理，得到每种产品的选择概率，并对选择概率进行从大到小的排列，得到概率序列；

推荐产品推荐模块76，用于从概率序列中，依次按照前往后的顺序选取预设数量的选择概率，作为目标选择概率，将目标选择概率对应产品的产品信息数据，作为待推荐信息，并将待推荐信息推送给目标客户

进一步的，知识图谱构建模块72包括：

分类数据获取单元，用于将客户信息数据和产品信息数据进行预处理，并按照预设方式进行分类，得到分类数据；

分类数据识别单元，用于针对每一类分类数据，采用自然文本识别NLP技术，识别分类数据中的实体和实体间的关系，得到每一类分类数据的实体和实体间的关系；

初始图谱获取单元，用于根据每一类分类数据的实体和实体间的关系，分别构建图谱，得到每一类分类数据的初始图谱；

初始图谱融合单元，用于将不同分类数据的初始图谱进行融合，得到知识图谱。

进一步的，初始图谱融合单元包括：

映射关系构建子单元，用于通过构建数据映射关系，将每一类分类数据的初始图谱中的实体和实体间的关系，映射到同一数据库中；

同一实体判断子单元，用于通过统计实体间相似度值的方式，判断数据库中，是否存在同一实体；

知识图谱确定子单元，用于当判定数据库中存在同一实体时，采用实体融合与节点互联的方式，对同一实体的初始图谱进行融合，得到知识图谱。

进一步的，在分类数据识别单元之后，该基于知识图谱的信息推荐还包括：

实体特征编码单元，用于分别对每一类分类数据的实体进行特征编码，得到实体特征编码；

相似度值计算单元，用于将实体特征编码投射至同一空间后，计算实体特征编码投射的向量距离，并将向量距离作为实体的相似度值；

同一实体保留单元，用于将相似度值高于预设阈值的实体，作为同一实体，并保留同一实体其中一个实体。

进一步的，在初始图谱获取单元之后，该基于知识图谱的信息推荐还包括：

匹配结果获取单元，用于针对每一类分类数据的初始图谱，采用正则匹配的方式，对实体与实体属性进行匹配，得到匹配结果；

实体属性获取单元，用于若检测到匹配结果中的实体与实体属性不匹配时，则判定实体与实体属性匹配错误，并重新获取实体的实体属性。

进一步的，神经网络训练模块74还包括：

节点属性获取单元，用于获取子图的节点属性；

节点属性数值化单元，用于通过预设的方式，对节点属性进行数值化处理。

进一步的，该基于知识图谱的信息推荐还包括：

初始数据存储模块，用于将初始数据存储于区块链中。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图6，图6为本实施例计算机设备基本结构框图。

计算机设备8包括通过系统总线相互通信连接存储器81、处理器82、网络接口83。需要指出的是，图中仅示出了具有三种组件存储器81、处理器82、网络接口83的计算机设备8，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

存储器81至少包括一种类型的可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器81可以是计算机设备8的内部存储单元，例如该计算机设备8的硬盘或内存。在另一些实施例中，存储器81也可以是计算机设备8的外部存储设备，例如该计算机设备8上配备的插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器81还可以既包括计算机设备8的内部存储单元也包括其外部存储设备。本实施例中，存储器81通常用于存储安装于计算机设备8的操作系统和各类应用软件，例如基于知识图谱的信息推荐方法的程序代码等。此外，存储器81还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器82在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器82通常用于控制计算机设备8的总体操作。本实施例中，处理器82用于运行存储器81中存储的程序代码或者处理数据，例如运行一种基于知识图谱的信息推荐方法的程序代码。

网络接口83可包括无线网络接口或有线网络接口，该网络接口83通常用于在计算机设备8与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，计算机可读存储介质存储有服务器维护程序，服务器维护程序可被至少一个处理器执行，以使至少一个处理器执行如上述的一种基于知识图谱的信息推荐方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例的方法。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于知识图谱的信息推荐方法，其特征在于，包括：

当判定所述数据库中存在同一实体时，采用实体融合与节点互联的方式，对所述同一实体的初始图谱进行融合，得到知识图谱；

2.根据权利要求1所述的基于知识图谱的信息推荐方法，其特征在于，在所述针对每一类分类数据，采用自然文本识别NLP技术，识别所述分类数据中的实体和实体间的关系，得到每一类分类数据的实体和实体间的关系之后，所述方法还包括：

3.根据权利要求1所述的基于知识图谱的信息推荐方法，其特征在于，在所述根据所述每一类分类数据的实体和实体间的关系，分别构建图谱，得到每一类分类数据的初始图谱之后，所述方法还包括：

4.根据权利要求1至3任一项所述的基于知识图谱的信息推荐方法，其特征在于，在所述采用所述子图和预先构建的产品特征向量对图卷积神经网络GCN进行训练，得到训练好的图卷积神经网络GCN之前，所述方法还包括：

获取所述子图的节点属性；

通过预设的方式，对所述节点属性进行数值化处理。

5.根据权利要求1至3任一项所述的基于知识图谱的信息推荐方法，其特征在于，将所述初始数据存储于区块链中。

6.一种基于知识图谱的信息推荐装置，其特征在于，包括：

知识图谱构建模块，用于将所述客户信息数据和产品信息数据进行预处理，并按照预设方式进行分类，得到分类数据；针对每一类分类数据，采用自然文本识别NLP技术，识别所述分类数据中的实体和实体间的关系，得到每一类分类数据的实体和实体间的关系；根据所述每一类分类数据的实体和实体间的关系，分别构建图谱，得到每一类分类数据的初始图谱；通过构建数据映射关系，将所述每一类分类数据的初始图谱中的实体和实体间的关系，映射到同一数据库中；通过统计实体间相似度值的方式，判断所述数据库中，是否存在同一实体；当判定所述数据库中存在同一实体时，采用实体融合与节点互联的方式，对所述同一实体的初始图谱进行融合，得到知识图谱；

目标客户确定模块，用于当确定目标客户时，从所述知识图谱中提取所述目标客户的初始数据，将每条所述目标客户的初始数据作为一条基础数据，并根据所有所述基础数据构建子图，其中，所述子图由所述知识图谱中所述目标客户对应节点与其相关联节点及关系边共同构成；

7.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的基于知识图谱的信息推荐方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的基于知识图谱的信息推荐方法。