CN111488462A

CN111488462A - 基于知识图谱的推荐方法、装置、设备及介质

Info

Publication number: CN111488462A
Application number: CN202010253452.6A
Authority: CN
Inventors: 周岩; 王鑫; 田国良
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Jiangsu Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Jiangsu Co Ltd
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2020-08-04
Anticipated expiration: 2040-04-02
Also published as: CN111488462B

Abstract

本发明实施例提供一种基于知识图谱的推荐方法、装置、设备及介质。该方法包括：获取第一文本数据；基于第一文本数据构建知识图谱，基于知识图谱的三元组数据对第一模型进行训练，得到分布式表示模型，第一模型是将预设的关系偏移量添加至翻译嵌入TransE模型得到的，对第一文本数据中每条文本数据进行关键词提取，得到每条文本数据的第一关键词集，获取第二文本数据，对第二文本数据进行关键词提取，得到第二文本数据的第二关键词集，基于分布式表示模型将每个第一关键词集和第二关键词集分别映射到向量空间，基于向量空间确定针对第二文本数据的推荐结果。基于该分布式表示模型融合知识图谱进行推荐，能够提高推荐结果的准确性。

Description

基于知识图谱的推荐方法、装置、设备及介质

技术领域

本发明涉及知识图谱技术领域，尤其涉及一种基于知识图谱的推荐方法、装置、设备和计算机可读存储介质。

背景技术

随着互联网技术和产业的迅速发展，接入互联网的服务器数量和网页数量也呈指数级上升。用户面临着海量的信息，使得信息的利用率反而降低，因此，推荐系统和推荐算法备受青睐。

目前，运营商可以根据现有的问题处理库数据，利用词袋模型推荐算法，对用户投诉问题进行相关解决方案的推荐。

但是，基于传统的推荐算法，仅根据词汇的文字匹配进行数据搜索，推荐结果发散性不足，无法匹配一些类似语义下的解决方案，推荐的准确性有待进一步提升。

发明内容

本发明实施例提供了一种基于知识图谱的推荐方法、装置、设备和计算机可读存储介质，能够为搜索样本提供更多的语义关系，深层次地发现用户敢兴趣内容，提高推荐结果的准确性。

第一方面，本发明实施例提供一种知识图谱的分布式表示模型训练方法，该方法包括：获取第一文本数据；基于第一文本数据构建知识图谱；基于知识图谱的三元组数据对第一模型进行训练，得到分布式表示模型；其中，第一模型是将预设的关系偏移量添加至翻译嵌入(Translating Embedding，TransE)模型中并进行调整而得到的。

在第一方面的一些可实现方式中，第一文本数据包括业务规则文本数据和/或工单文本数据。

在第一方面的一些可实现方式中，关系偏移量使用周期性衰减震荡函数表示。

第二方面，本发明实施例提供一种基于知识图谱的推荐方法，该方法包括：获取知识图谱，其中，知识图谱基于第一文本数据构建，第一文本数据包括多条文本数据；提取知识图谱的三元组数据中的实体词汇文本和关系词汇文本，得到第一词汇集；基于第一词汇集对第一文本数据中每条文本数据进行关键词提取，得到第一文本数据中每条文本数据的第一关键词集；获取第二文本数据，并基于第一词汇集对第二文本数据进行关键词提取，得到第二文本数据的第二关键词集；基于分布式表示模型将每个第一关键词集和第二关键词集分别映射到向量空间；基于向量空间确定针对第二文本数据的推荐结果，其中，分布式表示模型基于第一方面或者第一方面任一可实现方式中所述的知识图谱的分布式表示模型训练方法得到。

在第二方面的一些可实现方式中，基于分布式表示模型将每个第一关键词集和第二关键词集分别映射到向量空间，包括：将每个第一关键词集和第二关键词集输入到分布式表示模型进行映射，得到每个第一关键词集在向量空间的第一向量结果和第二关键词集在向量空间的第二向量结果。

在第二方面的一些可实现方式中，基于向量空间确定针对第二文本数据的推荐结果，包括：基于每个第一向量结果和第二向量结果进行词移距离计算，得到第一文本数据中每条文本数据与第二文本数据之间的损失值，根据每个损失值确定针对第二文本数据的推荐结果。

在第二方面的一些可实现方式中，该方法还包括：确定第一文本数据中每条文本数据的第一主题词，以及第二文本数据的至少一个第二主题词；基于至少一个第二主题词中每个第二主题词的词频数，确定每个第二主题词的主题因子；根据每个损失值确定针对第二文本数据的推荐结果，包括：根据每个损失值、第一文本数据中每条文本数据的第一主题词和每个第二主题词的主题因子，确定针对第二文本数据的推荐结果。

第三方面，本发明实施例提供一种知识图谱的分布式表示模型训练装置，该装置包括：获取模块，用于获取第一文本数据；构建模块，用于基于第一文本数据构建知识图谱；训练模块，用于基于知识图谱的三元组数据对第一模型进行训练，得到分布式表示模型；其中，第一模型是将预设的关系偏移量添加至TransE模型中并进行调整而得到的。

在第三方面的一些可实现方式中，第一文本数据包括业务规则文本数据和/或工单文本数据。

在第三方面的一些可实现方式中，关系偏移量使用周期性衰减震荡函数表示。

第四方面，本发明实施例提供一种基于知识图谱的推荐装置，该装置包括：获取模块，用于获取知识图谱，其中，知识图谱基于第一文本数据构建，第一文本数据包括多条文本数据；提取模块，用于提取知识图谱的三元组数据中的实体词汇文本和关系词汇文本，得到第一词汇集；提取模块还用于基于第一词汇集对第一文本数据中每条文本数据进行关键词提取，得到第一文本数据中每条文本数据的第一关键词集；提取模块还用于获取第二文本数据，并基于第一词汇集对第二文本数据进行关键词提取，得到第二文本数据的第二关键词集；映射模块，用于基于分布式表示模型将每个第一关键词集和第二关键词集分别映射到向量空间；确定模块，用于基于向量空间确定针对第二文本数据的推荐结果，其中，分布式表示模型基于第一方面或者第一方面任一可实现方式中所述的知识图谱的分布式表示模型训练方法得到。

在第四方面的一些可实现方式中，映射模块具体用于：将每个第一关键词集和第二关键词集输入到分布式表示模型进行映射，得到每个第一关键词集在向量空间的第一向量结果和第二关键词集在向量空间的第二向量结果。

在第四方面的一些可实现方式中，确定模块具体用于：基于每个第一向量结果和第二向量结果进行词移距离计算，得到第一文本数据中每条文本数据与第二文本数据之间的损失值，根据每个损失值确定针对第二文本数据的推荐结果。

在第四方面的一些可实现方式中，确定模块还用于：确定第一文本数据中每条文本数据的第一主题词，以及第二文本数据的至少一个第二主题词；基于至少一个第二主题词中每个第二主题词的词频数，确定每个第二主题词的主题因子；根据每个损失值、第一文本数据中每条文本数据的第一主题词和每个第二主题词的主题因子，确定针对第二文本数据的推荐结果。

第五方面，本发明实施例提供一种基于知识图谱的推荐设备，该设备包括：处理器以及存储有计算机程序指令的存储器；处理器执行计算机程序指令时实现第一方面或者第一方面任一些可实现方式中所述的知识图谱的分布式表示模型训练方法，或者，处理器执行计算机程序指令时实现第二方面所述的基于知识图谱的推荐方法。

第六方面，本发明实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现第一方面或者第一方面任一些可实现方式中所述的知识图谱的分布式表示模型训练方法，或者，计算机程序指令被处理器执行时实现第二方面所述的基于知识图谱的推荐方法。

本发明实施例提供的一种知识图谱的分布式表示模型训练方法、基于知识图谱的推荐方法、装置、设备和计算机可读存储介质。本发明的知识图谱的分布式表示模型训练方法、装置，通过第一文本数据构建知识图谱，并基于知识图谱的三元组数据对第一模型进行训练，得到分布式表示模型，其中，第一模型是将预设的关系偏移量添加至TransE模型中并进行调整而得到的，基于预设的关系偏移量既能对关系映射进行微调，又能保证多次调整不会出现调整过度的情况，因此，该分布式表示模型能够提升对知识图谱复杂关系的映射表示，提高表示效果。本发明的基于知识图谱的推荐方法、装置能够基于知识图谱，得到第一词汇集，基于第一词汇集进行关键词提取，得到第一文本数据中每条文本数据的第一关键词集和第二文本数据的第二关键词集，通过分布式表示模型将每个第一关键词集和第二关键词集分别映射到向量空间，在向量空间确定针对第二文本数据的推荐结果。如此，基于分布式表示模型融合知识图谱进行推荐，能够为搜索样本提供更多的语义关系，深层次地发现用户敢兴趣内容，提高推荐结果的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种知识图谱的分布式表示模型训练方法的流程示意图；

图2是本发明实施例提供的一种第一模型示意图；

图3是本发明实施例提供的一种周期性衰减震荡函数示意图；

图4是本发明实施例提供的一种基于知识图谱的推荐方法的流程示意图；

图5是本发明实施例提供的另一种基于知识图谱的推荐方法的流程示意图；

图6是本发明实施例提供的一种知识图谱的分布式表示模型训练装置的结构示意图；

图7是本发明实施例提供的一种基于知识图谱的推荐装置的结构示意图；

图8是本发明实施例提供的一种基于知识图谱的推荐设备的结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

但是，基于传统的推荐算法，仅根据词汇的文字匹配进行数据搜索，推荐结果发散性不足，无法匹配一些类似语义下的解决方案，推荐结果的准确性不高，往往不能满足用户所需。

针对于此，本发明实施例提供了一种知识图谱的分布式表示模型训练方法、基于知识图谱的推荐方法、装置、设备和计算机可读存储介质。

首先，本发明实施例的知识图谱的分布式表示模型训练方法通过第一文本数据构建知识图谱，并基于知识图谱的三元组数据对第一模型进行训练，得到分布式表示模型，其中，第一模型是将预设的关系偏移量添加至TransE模型中并进行调整而得到的，基于预设的关系偏移量既能对关系映射进行微调，又能保证多次调整不会出现调整过度的情况，因此，该分布式表示模型能够提升对知识图谱复杂关系的映射表示。

而且，本发明实施例的基于知识图谱的推荐方法能够基于知识图谱，得到第一词汇集，基于第一词汇集进行关键词提取，得到第一文本数据中每条文本数据的第一关键词集和第二文本数据的第二关键词集，通过分布式表示模型将每个第一关键词集和第二关键词集分别映射到向量空间，在向量空间确定针对第二文本数据的推荐结果。如此，基于分布式表示模型融合知识图谱进行推荐，能够为搜索样本提供更多的语义关系，深层次地发现用户敢兴趣内容，提高推荐结果的准确性。

由于本发明实施例提供的基于知识图谱的推荐方法需要使用到分布式表示模型，因此，下面首先结合附图对本发明实施例所提供的知识图谱的分布式表示模型训练方法进行介绍。

图1是本发明实施例提供的一种知识图谱的分布式表示模型训练方法的流程示意图。如图1所示，该知识图谱的分布式表示模型训练方法100可以包括S110至S130。

S110，获取第一文本数据。

可以通过知识库获取第一文本数据，其中，第一文本数据可以包括业务规则文本数据和/或工单文本数据。例如，第一文本数据可以包括业务规则文档、业务支撑平台工单、客服服务工单、投诉处理工单。

S120，基于第一文本数据构建知识图谱。

其中，知识图谱可以基于三元组数据(h，r，t)进行构建，通过三元组数据可以进行实体之间的语义关联，其中，h和t表示一条关系的头结点和尾节点，也可以说，h和t表示一条关系的头实体和尾实体，r表示关系，例如<身份证-绑定-号码>。具体地，可以对第一文本数据进行数据结构化预处理，例如可以对第一文本数据进行归档整理、数据抽取、数据清洗、格式化存储等等，接着可以对预处理后的文本数据进行知识的抽取，具体地，可以通过实体抽取、属性抽取以及关系抽取实现知识的抽取，可选地，可以利用DeepDive对预处理后的第一数据进行知识的抽取，然后将知识以三元组数据的形式存储，同时可以以人工确认的方式作辅助手段实现知识图谱的构建。

S130，基于知识图谱的三元组数据对第一模型进行训练，得到分布式表示模型。

需要说明的是，对于构建的知识图谱中的三元组数据，若是想要将其实际应用，需要将其中的词汇文本进行数字化的转换，以供后续的计算使用。具体地，可以通过知识图谱的分布式表示学习，得到三元组数据中的词汇文本在向量空间的映射，即词汇文本在向量空间中对应的向量，其中，实体对应实体向量，关系对应关系向量。

其中，知识图谱的关系按照其两端连接的实体数量可以划分为一对一、一对多、多对一以及多对多关系，其中，一对多、多对一以及多对多关系是复杂关系，比如说(h1，r1，t1)、(h1，r1，t2)、(h1，r1，t3)表示r1这一复杂关系。对于分布式学习，经过发明人的研究发现，用于分布式表示学习的TransE模型在处理一对一关系时良好，处理复杂关系时能力不足，存在诸多问题。针对于此，可以在TransE模型中添加预设的关系偏移量并进行相应的调整，得到第一模型，并基于知识图谱的三元组数据对第一模型进行训练，得到分布式表示模型。通过分布式表示模型可以实现词汇文本在向量空间的表示，即能够在向量空间中以向量形式映射其语义与结构关系，其中，语义上相似的词汇对应的向量应分布的相对集中，从而可通过向量之间的距离计算对应词汇之间的相似性。

下面结合图2对第一模型进行详细说明，图2是本发明实施例提供的一种第一模型示意图，如图2所示，在向量空间中，存在一个头实体h1对应的向量，三个尾实体t1、t2、t3对应的向量，即多个尾实体对应同一个头实体，r1为一对多的复杂关系对应的向量，r1-2、r1-3是通过第一模型中的关系偏移量调整r1关系对应的向量得到的。由图2可以看出，通过第一模型可以对复杂关系对应的向量进行微调，又能保证多次调整不会出现调整过度的情况，将相同头实体下的多个尾实体在向量空间中映射的比较集中。

在一些实施例中，第一模型可以用以下公式表示：

H+(1-δ)R≈T (1)

T-(1-δ)R≈H (2)

其中，H表示三元组数据(h，r，t)中的头实体h在向量空间中对应的向量，T表示三元组数据(h，r，t)中的尾实体t在向量空间中对应的向量，R表示三元组数据(h，r，t)中的关系r在向量空间中对应的向量，δ表示关系偏移量，可以使用周期性衰减震荡函数表示，例如周期性衰减震荡函数可以用以下公式表示：

其中，i表示的是复杂关系下第i个对应的三元组数据对应的序号值，例如，复杂关系下第3个三元组数据，序号值为3，则i＝3。使用该关系偏移量既可以对关系对应的向量进行微调，又能保证多次调整不会出现调整过度的情况，可将复杂关系的相关实体映射在相对集中的位置。其函数表示可以如图3所示，图3是本发明实施例提供的一种周期性衰减震荡函数示意图，由图3可知，0＜|δ|＜0.5。

第一模型的目标函数可以用以下公式表示：

L＝∑∑max(0,f(H_1,T_1)+γ-f(H′,T′)) (4)

其中max(0，f(x))是最大间隔函数，f(x)是损失函数，其可以用以下公式表示：

f(x)＝f(H_1,T_1)+γ-f(H′,T′) (5)

其中，f(H_1,T_1)可以用以下公式表示：

f(H_1,T_1)＝||H_1+R_1-T_1||₂ (6)

其中，f(H′,T′)可以用以下公式表示：

f(H′,T′)＝||H′+R′-T′||₂ (7)

其中，H_1、R_1、T_1，是正三元组采样，H′、R′、T′是负三元组采样，γ是正负采样的间距，是一个常数。||*||范数采用L2范数。

在一些实施例中，将知识图谱的三元组数据作为训练数据，使用公式(4)的目标函数进行训练，可选地，可以使用小批量随机梯度下降方法进行学习，学习率参数可以使用随机初始化的方式进行初始化，映射矩阵初始化使用单位矩阵。

本发明实施例的知识图谱的分布式表示模型训练方法，通过第一文本数据构建知识图谱，并基于知识图谱的三元组数据对第一模型进行训练，得到分布式表示模型，其中，第一模型是将预设的关系偏移量添加至TransE模型中并进行调整而得到的，基于预设的关系偏移量既能对关系映射进行微调，又能保证多次调整不会出现调整过度的情况，因此，该分布式表示模型能够提升对知识图谱复杂关系的映射表示，提高表示效果。

基于本发明实施例的知识图谱的分布式表示模型训练方法，本发明实施例还提供了一种基于知识图谱的推荐方法，如图4所示，图4是本发明实施例提供的一种基于知识图谱的推荐方法的流程示意图，该基于知识图谱的推荐方法200可以包括S210至S260。

S210，获取知识图谱。

其中，知识图谱可以基于第一文本数据构建，而且第一文本数据可以包括多条文本数据。

S220，提取知识图谱的三元组数据中的实体词汇文本和关系词汇文本，得到第一词汇集。

S230，基于第一词汇集对第一文本数据中每条文本数据进行关键词提取，得到第一文本数据中每条文本数据的第一关键词集。

可以对第一文本数据进行推荐预处理，例如可以对第一文本数据中的每条文本数据进行格式化整理，提取每条文本数据的问题描述、解决方案、提出时间、所属业务等等。接着，可以基于第一词汇集对每条文本数据的问题描述进行关键词提取，得到每条文本数据的第一关键词集。

S240，获取第二文本数据，并基于第一词汇集对第二文本数据进行关键词提取，得到第二文本数据的第二关键词集。

首先，可以利用结巴分词对第二文本数据进行分词处理，其次，利用停用词库数据对分词后的文本数据的无效文本进行剔除，然后，基于第一词汇集对剔除后的文本数据进行关键词提取，得到第二文本数据的第二关键词集。可选地，第二文本数据可以是用户提出的文本数据，例如用户需要反馈问题时，输入的相关问题的场景描述。

S250，基于分布式表示模型将每个第一关键词集和第二关键词集分别映射到向量空间。

可以将每个第一关键词集和第二关键词集输入到分布式表示模型进行映射，得到每个第一关键词集在向量空间的第一向量结果和第二关键词集在向量空间的第二向量结果。可以理解，第一向量结果可以包括第一关键词集中的每个关键词映射到向量空间得到的向量，第二向量结果可以包括第二关键词集中的每个关键词映射到向量空间得到的向量。

S260，基于向量空间确定针对第二文本数据的推荐结果。

可以基于每个第一向量结果和第二向量结果进行词移距离计算，得到第一文本数据中每条文本数据与第二文本数据之间的损失值，根据每个损失值确定针对第二文本数据的推荐结果。其中，分布式表示模型基于图1所述的知识图谱的分布式表示模型训练方法得到。

在一些实施例中，可以根据以下公式进行词移距离计算，得到每条文本数据与第二文本数据之间的损失值：

其中，D可以表示第一文本数据中每条文本数据与第二文本数据之间的损失值，c(k，j)可以表示k，j两个词的欧式距离，即k，j两个词在向量空间中对应的向量的欧式距离，其中，k可以表示第一文本数据中每条文本数据的第一关键词集中的关键词，j可以表示第二文本数据的第二关键词集中的关键词，T为加权矩阵，其权重取值可以利用第一文本数据中每条文本数据与第二文本数据对应的词频-逆向文件频率(termfrequency–inversedocument frequency，TF-IDF)计算获得，m可以表示第一文本数据中每条文本数据的第一关键词集中的关键词数量，n可以表示第二文本数据中的第二关键词集中的关键词数量。公式(8)可以表示为文本1要转换为文本2所需要付出的损失值。文本间转换的损失值越小，则说明文本的关联性越大，故而可以根据每个损失值确定针对第二文本数据的推荐结果，例如选取第一文本数据中损失值较小的前K个文本数据作为推荐结果。

本发明实施例的基于知识图谱的推荐方法，能够基于知识图谱，得到第一词汇集，基于第一词汇集进行关键词提取，得到第一文本数据中每条文本数据的第一关键词集和第二文本数据的第二关键词集，通过分布式表示模型将每个第一关键词集和第二关键词集分别映射到向量空间，在向量空间确定针对第二文本数据的推荐结果。如此，基于分布式表示模型融合知识图谱进行推荐，能够为搜索样本提供更多的语义关系，深层次地发现用户敢兴趣内容，提高推荐结果的准确性。

为了进一步提高推荐的准确度，可以考虑将主题词纳入推荐过程，下面结合一个实施例对此进行说明，具体内容如下：

可以确定第一文本数据中每条文本数据的第一主题词，以及第二文本数据的至少一个第二主题词，基于至少一个第二主题词中每个第二主题词的词频数，确定每个第二主题词的主题因子。

作为一个示例，可以在对第一文本数据中每条文本数据进行推荐预处理时，利用每条文本数据的业务归属名词设定每条文本数据的第一主题词。此外，可以根据第二文本数据的第二关键词集提取第二文本数据的至少一个第二主题词。

可以根据以下公式进行计算，得到每个第二主题词的主题因子：

其中，Z表示每个第二主题词的参数因子，f表示每个第二主题词的词频数，

表示每个第二主题词的词频数累加之和。

然后，可以根据每个损失值、第一文本数据中每条文本数据的第一主题词和每个第二主题词的主题因子，确定针对第二文本数据的推荐结果。

作为一个示例，可以根据第一文本数据中每条文本数据的第一主题词和每个第二主题词的主题因子，确定第一文本数据中第一主题词与第二主题词的主题因子对应的至少一个第三文本数据，例如，若第一主题词与第二主题词语义相近，则第一主题词与第二主题词的主题因子对应。然后可以根据每个损失值确定每个第三文本数据的损失值，根据每个第三文本数据的损失值与每个第三文本数据对应的第二主题词的主题因子，确定每个第三文本数据与第二文本数据之间的差异值。

可以根据以下公式进行计算，得到每个第三文本数据与第二文本数据之间的差异值：

S＝A*B (10)

其中，S表示每个第三文本数据与第二文本数据之间的差异值，A表示每个第三文本数据对应的第二主题词的主题因子，B表示每个第三文本数据的损失值。可以根据每个差异值确定针对第二文本数据的推荐结果，例如选取第三文本数据中差异值较小的前K个文本数据作为推荐结果。

下面以用户投诉场景为例，结合图5对本发明实施例的基于知识图谱的推荐方法进行详细介绍，图5是本发明实施例提供的另一种基于知识图谱的推荐方法的流程示意图，具体步骤如下：

S301，获取第一文本数据。

可以基于运营商现有的知识库中的业务规则文档、业务支撑平台工单、客服服务工单、投诉处理工单获取第一文本数据。

S302，数据结构化。

可以对第一文本数据进行归档整理、数据抽取、数据清洗、格式化存储等预处理。

S303，知识抽取。

可以利用DeepDive对预处理后的第一数据进行知识的抽取。

S304，数据存储(三元组数据)。

可以将知识以三元组数据的形式存储，同时可以以人工确认的方式作辅助手段实现运营商的业务知识图谱的构建。

S305，词汇文本提取。

可以提取知识图谱的三元组数据中的实体词汇文本和关系词汇文本，得到第一词汇集，将其应用于后续的关键词提取。

S306，分布式表示训练。

可以将已构建的业务知识图谱的三元组数据作为训练数据进行基于第一模型的分布式表示训练，得到分布式表示模型。

S307，关键词提取，主题词提取。

可以对第一文本数据中的每条文本数据进行格式化整理，提取每条文本数据的问题描述、解决方案、提出时间、所属业务等预处理。接着可以基于第一词汇集对每条文本数据的问题描述进行关键词提取，得到每条文本数据的第一关键词集。然后可以利用每条文本数据的业务归属名词设定每条文本数据的第一主题词。

S308，获取第二文本数据。

获取用户输入场景描述文本作为第二文本数据，例如，“用户12912341234销户报错，亲情号已经退出，还是无法销户，请帮忙处理！”。

S309，关键词提取，主题词提取。

可以利用结巴分词对第二文本数据进行分词处理，其次，利用停用词库数据对分词后的文本数据的无效文本进行剔除，然后，基于第一词汇集对剔除后的文本数据进行关键词提取，得到第二文本数据的第二关键词集，接着可以根据第二文本数据的第二关键词集提取第二文本数据的至少一个第二主题词。继续S308中的示例，第二关键词集可以是“用户、销户、报错、亲情号、销户”，至少一个第二主题词可以是“销户、亲情号”，其主题因子Z1＝3/2，Z2＝3。

S310，推荐计算。

基于分布式表示模型对第一文本数据与第二文本数据进行损失值计算，差异值计算。

继续S308、S309的示例，待匹配文本a“销户显示服务请求超时，这个顾客手机号停机好几年没有用，一直保号，这个月刚复机”，对其进行关键词提取的结果是“销户、服务请求、超时、顾客、手机号码、停机、保号、复机”，主题词提取的结果是“销户”。其计算的损失值是126，对应的主题因子为Z1，其差异值为189。待匹配文本b“用户13911112222昨天办理的全国亲情网今天至营业厅又加入的几个成员，日志里面显示处理中”，对其对其进行关键词提取的结果是“用户、全国亲情网、成员、营业厅、日志”，主题词提取的结果是“亲情网”。其计算的损失值是94，对应的主题因子为Z2，其差异值为282。待匹配文本c“3522221111该用户至我处办理手机号码销户业务，因系统问题一直显示通用效验失败导致无法销户，请贵处为其协助处理，谢谢”，对其进行关键词提取的结果是“用户、手机号码、销户、系统问题、通用校验、失败”，主题词提取的结果是“销户”。其计算的损失值是101，对应的主题因子为Z1，其差异值为150。

S311，推荐结果反馈。

可以选取差异值较小的前K个文本数据作为推荐结果。继续S308、S309、S310的示例，则推荐结果是c>a>b。

图6是本发明实施例提供的一种知识图谱的分布式表示模型训练装置的结构示意图，如图6所示，该知识图谱的分布式表示模型训练装置300可以包括：获取模块310、构建模块320、训练模块330。

其中，获取模块310，用于获取第一文本数据。构建模块320，用于基于第一文本数据构建知识图谱。训练模块330，用于基于知识图谱的三元组数据对第一模型进行训练，得到分布式表示模型，其中，第一模型是将预设的关系偏移量添加至TransE模型中并进行调整而得到的。

在一些实施例中，第一文本数据包括业务规则文本数据和/或工单文本数据。

在一些实施例中，关系偏移量使用周期性衰减震荡函数表示。

本发明实施例的知识图谱的分布式表示模型训练装置，通过第一文本数据构建知识图谱，并基于知识图谱的三元组数据对第一模型进行训练，得到分布式表示模型，其中，第一模型是将预设的关系偏移量添加至TransE模型中并进行调整而得到的，基于预设的关系偏移量既能对关系映射进行微调，又能保证多次调整不会出现调整过度的情况，因此，该分布式表示模型能够提升对知识图谱复杂关系的映射表示，提高表示效果。

可以理解的是，本发明实施例的知识图谱的分布式表示模型训练装置300，可以对应于本发明实施例图1中的知识图谱的分布式表示模型训练方法的执行主体，知识图谱的分布式表示模型训练装置300的各个模块/单元的操作和/或功能的具体细节可以参见上述本发明实施例图1的知识图谱的分布式表示模型训练方法中的相应部分的描述，为了简洁，在此不再赘述。

图7是本发明实施例提供的一种基于知识图谱的推荐装置的结构示意图，如图7所示，该基于知识图谱的推荐装置400可以包括：获取模块410、提取模块420、映射模块430、确定模块440。

其中，获取模块410，用于获取知识图谱，其中，知识图谱基于第一文本数据构建，第一文本数据包括多条文本数据。提取模块420，用于提取知识图谱的三元组数据中的实体词汇文本和关系词汇文本，得到第一词汇集。提取模块420还用于基于第一词汇集对第一文本数据中每条文本数据进行关键词提取，得到第一文本数据中每条文本数据的第一关键词集。提取模块420还用于获取第二文本数据，并基于第一词汇集对第二文本数据进行关键词提取，得到第二文本数据的第二关键词集。映射模块430，用于基于分布式表示模型将每个第一关键词集和第二关键词集分别映射到向量空间。确定模块440，用于基于向量空间确定针对第二文本数据的推荐结果，其中，分布式表示模型基于图1所述的知识图谱的分布式表示模型训练方法得到。

在一些实施例中，映射模块430具体用于：将每个第一关键词集和第二关键词集输入到分布式表示模型进行映射，得到每个第一关键词集在向量空间的第一向量结果和第二关键词集在向量空间的第二向量结果。

在一些实施例中，确定模块440具体用于：基于每个第一向量结果和第二向量结果进行词移距离计算，得到第一文本数据中每条文本数据与第二文本数据之间的损失值，根据每个损失值确定针对第二文本数据的推荐结果。

在一些实施例中，确定模块440还用于：确定第一文本数据中每条文本数据的第一主题词，以及第二文本数据的至少一个第二主题词。基于至少一个第二主题词中每个第二主题词的词频数，确定每个第二主题词的主题因子。根据每个损失值、第一文本数据中每条文本数据的第一主题词和每个第二主题词的主题因子，确定针对第二文本数据的推荐结果。

本发明实施例的基于知识图谱的推荐装置，能够基于知识图谱，得到第一词汇集，基于第一词汇集进行关键词提取，得到第一文本数据中每条文本数据的第一关键词集和第二文本数据的第二关键词集，通过分布式表示模型将每个第一关键词集和第二关键词集分别映射到向量空间，在向量空间确定针对第二文本数据的推荐结果。如此，基于分布式表示模型融合知识图谱进行推荐，能够为搜索样本提供更多的语义关系，深层次地发现用户敢兴趣内容，提高推荐结果的准确性。

可以理解的是，本发明实施例的基于知识图谱的推荐装置400，可以对应于本发明实施例图4中的基于知识图谱的推荐方法的执行主体，基于知识图谱的推荐装置400的各个模块/单元的操作和/或功能的具体细节可以参见上述本发明实施例图4的基于知识图谱的推荐方法中的相应部分的描述，为了简洁，在此不再赘述。

图8是本发明实施例提供的一种基于知识图谱的推荐设备的硬件结构示意图。

如图8所示，本实施例中的基于知识图谱的推荐设备500包括输入设备501、输入接口502、中央处理器503、存储器504、输出接口505、以及输出设备506。其中，输入接口502、中央处理器503、存储器504、以及输出接口505通过总线510相互连接，输入设备501和输出设备506分别通过输入接口502和输出接口505与总线510连接，进而与基于知识图谱的推荐设备500的其他组件连接。

具体地，输入设备501接收来自外部的输入信息，并通过输入接口502将输入信息传送到中央处理器503；中央处理器503基于存储器504中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器504中，然后通过输出接口505将输出信息传送到输出设备506；输出设备506将输出信息输出到基于知识图谱的推荐设备500的外部供用户使用。

在一个实施例中，图8所示的基于知识图谱的推荐设备500包括：存储器504，用于存储程序，处理器503，用于运行存储器中存储的程序，以执行图1所示实施例提供的知识图谱的分布式表示模型训练方法或图4所示实施例提供的基于知识图谱的推荐方法。

本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令，该计算机程序指令被处理器执行时实现图1所示实施例提供的知识图谱的分布式表示模型训练方法或图4所示实施例提供的基于知识图谱的推荐方法。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，做出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、只读存储器(Read-Only Memory，ROM)、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(Radio Frequency，RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种知识图谱的分布式表示模型训练方法，其特征在于，所述方法包括：

获取第一文本数据；

基于所述第一文本数据构建知识图谱；

基于所述知识图谱的三元组数据对所述第一模型进行训练，得到分布式表示模型；

其中，所述第一模型是将预设的关系偏移量添加至翻译嵌入TransE模型中并进行调整而得到的。

2.根据权利要求1所述的方法，其特征在于，所述第一文本数据包括业务规则文本数据和/或工单文本数据。

3.根据权利要求1所述的方法，其特征在于，所述关系偏移量使用周期性衰减震荡函数表示。

4.一种基于知识图谱的推荐方法，其特征在于，所述方法包括：

获取知识图谱，其中，所述知识图谱基于第一文本数据构建，所述第一文本数据包括多条文本数据；

提取所述知识图谱的三元组数据中的实体词汇文本和关系词汇文本，得到第一词汇集；

基于所述第一词汇集对所述第一文本数据中每条文本数据进行关键词提取，得到所述第一文本数据中每条文本数据的第一关键词集；

获取第二文本数据，并基于所述第一词汇集对所述第二文本数据进行关键词提取，得到所述第二文本数据的第二关键词集；

基于分布式表示模型将每个第一关键词集和所述第二关键词集分别映射到向量空间；

基于所述向量空间确定针对所述第二文本数据的推荐结果，其中，所述分布式表示模型基于权利要求1-3任意一项所述的知识图谱的分布式表示模型训练方法得到。

5.根据权利要求4所述的方法，其特征在于，所述基于分布式表示模型将每个第一关键词集和所述第二关键词集分别映射到向量空间，包括：

将所述每个第一关键词集和所述第二关键词集输入到所述分布式表示模型进行映射，得到所述每个第一关键词集在所述向量空间的第一向量结果和所述第二关键词集在所述向量空间的第二向量结果。

6.根据权利要求5所述的方法，其特征在于，所述基于所述向量空间确定针对所述第二文本数据的推荐结果，包括：

基于每个第一向量结果和所述第二向量结果进行词移距离计算，得到所述第一文本数据中每条文本数据与所述第二文本数据之间的损失值，根据每个损失值确定针对所述第二文本数据的推荐结果。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

确定所述第一文本数据中每条文本数据的第一主题词，以及所述第二文本数据的至少一个第二主题词；

基于所述至少一个第二主题词中每个第二主题词的词频数，确定所述每个第二主题词的主题因子；

所述根据每个损失值确定针对所述第二文本数据的推荐结果，包括：

根据所述每个损失值、所述第一文本数据中每条文本数据的第一主题词和所述每个第二主题词的主题因子，确定针对所述第二文本数据的推荐结果。

8.一种知识图谱的分布式表示模型训练装置，其特征在于，所述装置包括：

获取模块，用于获取第一文本数据；

构建模块，用于基于所述第一文本数据构建知识图谱；

训练模块，用于基于所述知识图谱的三元组数据对所述第一模型进行训练，得到分布式表示模型；

9.一种基于知识图谱的推荐装置，其特征在于，所述装置包括：

获取模块，用于获取知识图谱，其中，所述知识图谱基于第一文本数据构建，所述第一文本数据包括多条文本数据；

提取模块，用于提取所述知识图谱的三元组数据中的实体词汇文本和关系词汇文本，得到第一词汇集；

所述提取模块还用于基于所述第一词汇集对所述第一文本数据中每条文本数据进行关键词提取，得到所述第一文本数据中每条文本数据的第一关键词集；

所述提取模块还用于获取第二文本数据，并基于所述第一词汇集对所述第二文本数据进行关键词提取，得到所述第二文本数据的第二关键词集；

映射模块，用于基于分布式表示模型将每个第一关键词集和所述第二关键词集分别映射到向量空间；

确定模块，用于基于所述向量空间确定针对所述第二文本数据的推荐结果，其中，所述分布式表示模型基于权利要求1-3任意一项所述的知识图谱的分布式表示模型训练方法得到。

10.一种基于知识图谱的推荐设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1-3任意一项所述的知识图谱的分布式表示模型训练方法，或者，所述处理器执行所述计算机程序指令时实现如权利要求4-7任意一项所述的基于知识图谱的推荐方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-3任意一项所述的知识图谱的分布式表示模型训练方法，或者，所述计算机程序指令被处理器执行时实现如权利要求4-7任意一项所述的基于知识图谱的推荐方法。