CN116628247A

CN116628247A - 基于强化学习和知识图谱的影像推荐方法

Info

Publication number: CN116628247A
Application number: CN202310907191.9A
Authority: CN
Inventors: 许晓航; 张广益; 李洁; 张丽; 邹圣兵
Original assignee: Beijing Shuhui Spatiotemporal Information Technology Co ltd
Current assignee: Beijing Shuhui Spatiotemporal Information Technology Co ltd
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-08-22
Anticipated expiration: 2043-07-24
Also published as: CN116628247B

Abstract

本发明提供了一种基于强化学习和知识图谱的影像推荐方法，涉及影像推荐领域，该方法包括：S1获取用户的查询信息、属性信息，根据查询信息得到影像数据、可用域数据；S2根据查询信息、属性信息、影像数据、可用域数据构建得到知识图谱，基于强化学习对知识图谱进行优化，根据优化后的知识图谱进行路径跟踪得到最优推荐路径；S3根据最优推荐路径得到推荐结果。本发明通过结合知识图谱和强化学习提高影像推荐的准确度，并提出一种新的图谱融合方法，增加知识图谱的推荐能力。

Description

基于强化学习和知识图谱的影像推荐方法

技术领域

本发明涉及影像推荐领域，尤其涉及一种基于强化学习和知识图谱的影像推荐方法。

背景技术

作为一种重要基础性资源，遥感卫星数据在国防、经济、交通、能源、环保等诸多领域都有着广泛应用。遥感卫星数据具有海量、多源、异构等特点，例如，卫星数据覆盖范围广、时间跨度大，已积累有海量的历史遥感卫星数据，同时地球上空飞行着上千颗卫星，这些卫星可以搭载的各种模式载荷，每时每刻都产生着新的遥感卫星数据，越来越多的卫星升空造成卫星数据体量呈现爆炸式增长。另外，遥感卫星数据来源多样，包括可见光、红外、微波、高光谱等多种传感器类型，且不同传感器类型、不同分辨率和不同波段范围的遥感卫星数据适用于对应的应用需求。此外，卫星数据具有观测周期性，能够对同一区域进行不同角度的长时序观测，而不同卫星来源的遥感数据在存储格式、组织方式、元数据标准等诸多方面均存在差异，使得传统的数据管理方式难以实现对多源卫星数据的统筹管理，从而无法满足个性化的数据定制需求。

随着在轨卫星数量和数据质量的逐步提升，遥感卫星数据的产品种类、数量不断增加，对卫星数据的需求越来越多，数据的应用领域也不断拓宽，这对遥感卫星数据的存储管理及服务方式带来了巨大挑战。现有的遥感卫星数据存储的信息较为简单，多以基础属性为主，较少考虑和体现异构数据之间的关联关系及数据本身的高层特征，使得难以满足高时效性的应用需求。另外，用户在利用推荐系统查询遥感卫星数据过程中，主要通过简单的“元数据”和人工经验来检索得到所需要的卫星数据。但是，受限于用户的专业知识水平，上述检索方式难以保证检索结果的准确性，并且随着卫星数据的体量的增大，上述检索方式也难以保障检索结果的时效性。此外，当用户输入查询需求时，推荐系统不能很好的理解用户输入的查询信息的语义信息，导致检索结果的准确性较低，无法满足用户的检索需求。

发明内容

基于上述技术问题，本发明提供一种基于强化学习和知识图谱的影像推荐方法，通过结合知识图谱和强化学习提高影像推荐的准确度，并提出一种新的图谱融合方法，增加知识图谱的推荐能力。

为达到上述技术目的，本发明提供一种基于强化学习的遥感影像个性化推荐方法，包括：

S1 获取用户的查询信息、属性信息，根据查询信息得到影像数据、可用域数据；

S2 根据查询信息、属性信息、影像数据、可用域数据构建得到知识图谱，基于强化学习对知识图谱进行优化，根据优化后的知识图谱进行路径跟踪得到最优推荐路径；

S3 根据最优推荐路径得到推荐结果。

于本发明一实施例中，步骤S2包括：

S21 根据用户的查询信息、属性信息构建得到第一图谱，根据影像数据构建得到第二图谱，根据可用域数据构建得到第三图谱；

S22 将第一图谱、第二图谱、第三图谱进行融合得到知识图谱；

S23利用强化学习框架对知识图谱进行多轮优化，根据多轮优化的知识图谱进行多轮推荐，得到多个推荐路径，根据用户对多个推荐路径的反馈选择最优推荐路径。

于本发明一实施例中，步骤S21包括：

用户的查询信息包括查询条件和目标范围，属性信息包括用户的历史记录、习惯记录、偏好预测，对查询条件进行关键词提取，以查询条件-目标范围-属性信息为三元组构建第一图谱；

影像数据包括影像元数据、影像特征数据、影像采集范围，以影像元数据、影像特征数据、影像采集范围为三元组构建第二图谱；

可用域数据包括可用域元数据、可用域质量评分、可用域特征数据，以可用域元数据、可用域质量评分、可用域特征数据为三元组构建第三图谱。

于本发明一实施例中，步骤S22包括：

S221利用图神经网络模型将第二图谱和第三图谱进行图谱融合，将知识对齐，得到融合图谱；

S222采用知识表示学习方法分别对融合图谱和第一图谱进行知识表示学习，得到与融合图谱和第一图谱各自对应的实体向量集和关系向量集，并将融合图谱和第一图谱各自的向量集同时映射到一个低维空间中，以对融合图谱和第一图谱进行融合，得到所述知识图谱。

于本发明一实施例中，步骤S222中，对融合图谱和第一图谱进行融合包括以下步骤：

步骤一、在同一个低维空间中，分别对融合图谱和第一图谱的实体向量集作k均值聚类，得到k个第一聚类中心C={c₁,c₂,...,c_k}和k个第二聚类中心D={d₁,d₂,...,d_k}，将k个第一聚类中心C={c₁,c₂,...,c_k}作为第一图谱的代表性实体向量的集合，将k个第二聚类中心D={d₁,d₂,...,d_k}作为融合图谱的代表性实体向量的集合，k为正整数；

步骤二、以C为基准，从C中选取任意一个第一聚类中心c_i，计算该第一聚类中心c_i与D中每个第二聚类中心之间的距离，将k个第二聚类中心中与该第一聚类中心c_i之间的距离最小的一个第二聚类中心d_j与该第一聚类中心c_i进行匹配，得到一个代表实体对(c_i,d_j)，其中i和j为正整数；

步骤三、重复步骤二，直至C中的k个第一聚类中心均与第二聚类中心匹配完毕，得到k个代表实体对，并据此得到代表实体对集合X={C,D}，其中，k个代表实体对中第一聚类中心和第二聚类中心均不重复；

步骤四、利用TransE方法对第一图谱和融合图谱进行联合训练，训练过程中，保持代表实体对集合的向量值不变，更新其他实体向量值，进而影响并优化关系向量值；

步骤五、采用迭代融合方法对融合图谱和第一图谱进行融合，得到融合实体对集合，并据此得到所述知识图谱。

于本发明一实施例中，所述采用迭代融合方法对融合图谱和第一图谱进行融合，得到融合实体对集合包括以下步骤：

第一步、将第一图谱的实体集合E1与代表实体对集合X做交叉比对，从第一图谱的实体集合E1中选取一个不属于代表实体对集合X的实体e1，将该实体e1作为当前待配对实体；

第二步、将融合图谱的实体集合E2中的所有实体e2作为候选实体集，从候选实体集中选取不属于代表实体对集合X的单个实体e2作为当前候选实体，计算当前待配对实体与当前候选实体之间的距离，若确定该距离小于阈值，则将当前候选实体确定为与该当前待配对实体对应的匹配实体；

第三步、重复第二步，得到与当前待配对实体对应的匹配实体集，并将当前待配对实体与该当前待配对实体对应的匹配实体集作为匹配实体对，将该匹配实体对加入代表实体对集合X中；

第四步、重复第一步至第三步的步骤，直至达到最大迭代次数或检测到第一图谱的实体集合E1中不存在未配对的实体，将得到最终的代表实体对集合作为融合实体对集合。

于本发明一实施例中，步骤S23包括：

S231构建强化学习框架，包括环境和智能体：

环境由知识图谱构成；

智能体表示为策略网络，策略网络根据当前智能体所处的状态构建状态向量映射到一个随机策略，智能体根据当前所处环境，基于策略对环境施加动作，以对环境的状态进行更新，每更新一次状态，即输出一次推荐列表，根据用户对推荐列表的反馈得到相应的奖励，奖励随着时间累计，将累计奖励作为回报；

其中，状态向量包括智能体当前位于知识图谱的实体位置、当前的实体位置与智能体即将到达的下一个实体位置之间的距离；

S232 策略网络为全连接神经网络，包括策略函数，策略函数如下所示：

其中，s表示当前状态，a为当前策略选择的动作，θ为全连接神经网络的参数，表示转移概率；

S233 根据策略函数将状态向量映射为所有动作的概率分布；

S234 在当前环境下，智能体根据所有动作的概率分布选取对应的动作，并对环境施加该动作，同时对环境进行更新，智能体转移到下一个状态；

S235 根据智能体对环境的动作得到一次推荐路径，将该推荐路径的推荐结果展示给用户，用户对该推荐路径进行反馈，根据反馈构建奖励函数，基于奖励函数获得该推荐路径的奖励值；

S236 根据奖励值对回报函数进行更新，回报函数如下所示：

其中，J(θ)是累计奖励，即回报，是策略函数的期望，/>表示t时刻的状态和动作对应的奖励，s表示当前状态，a为当前策略选择的动作，θ为全连接神经网络的参数，A表示一系列可用的动作，/>为策略函数；

S237 根据更新后的回报函数得到更新参数θ，利用更新参数θ对策略网络进行更新，并转至步骤S233；

S238 迭代执行步骤S233-S237，直至得到最大累计奖励，则停止迭代，输出得到最优推荐路径。

于本发明一实施例中，利用随机梯度下降方法更新策略网络：

其中，R_total是奖励值，表示随机梯度下降，/>表示t时刻策略的log函数。

于本发明一实施例中，在步骤S235中，推荐路径为智能体在知识图谱中的起始实体位置到目标实体位置之间的路线，推荐路径的推荐结果为该路线上的所有实体对应的数据；

用户对推荐路径的反馈包括正反馈和负反馈，根据正反馈、负反馈、以及对应的推荐路径的推荐结果构建奖励函数，根据奖励函数得到该推荐路径的奖励值，其中，该奖励值是使用以下公式得到的：

其中，R_total表示奖励值，r₁是质量奖励项，r₂是时序奖励项，r₃是范围奖励项，r₄是反馈奖励项，α、β、γ、δ分别是质量奖励项、时序奖励项、范围奖励项和反馈奖励项各自对应的权重系数。

于本发明一实施例中，质量奖励项、时序奖励项、范围奖励项和反馈奖励项分别是使用以下公式得到的：

r₁={(+2, if quality>0.6), (0, if quality=0.6), (-2, if quality<0.6)}，quality为质量评分，取值为[0,1]；

r₂={(+1, if time∈μ₁), (-1, if time ∉ μ₁)}，time为采集时间，μ₁为第一阈值，第一阈值为一个采集时间的范围；

r₃={(+1, if spatial range> μ₂), (0, if spatial range= μ₂), (-1, ifspatial range< μ₂)}，spatial range为采集范围，μ₂为第二阈值，第二阈值用于表征针对目标范围的覆盖率阈值；

r₄={(+3, if feedback is positive), (-3, if feedback is negative)}，feedback表示反馈，positive表示正反馈，negative表示负反馈。

本发明的有益效果为：

（1）本发明通过结合知识图谱和强化学习，利用强化学习的互动式优势，并最大程度的挖掘知识图谱的推荐和学习能力，从而得到较为准确的影像推荐。

（2）本发明通过先融合第二图谱和第三图谱，由于第二图谱和第三图谱中的知识有大部分重叠，因而在融合时能融合的更好，并能够互相互补，增加知识图谱的推荐能力，从而有利于提高影像推荐的准确性和精确性。

（3）本发明提出了一种新的图谱融合方式，将第一图谱和融合图谱进行融合，通过选取具有代表性的实体对作为监督信息，对两个图谱进行联合训练，并采用迭代融合的方法对两个图谱的实体对进行融合，进而得到最终的知识图谱，该方法能够极大的提高知识图谱的能力和知识底蕴，提高了推荐路径的精准性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的基于强化学习和知识图谱的影像推荐方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

请参阅图1，本发明提供了一种基于强化学习和知识图谱的影像推荐方法，该基于强化学习和知识图谱的影像推荐方法包括步骤S1~S3。

在步骤S1，获取用户的查询信息、属性信息，根据查询信息得到影像数据、可用域数据。

基于海量的卫星数据，可以预先构建遥感卫星数据库。该遥感卫星数据库中存储有遥感数据的元数据、数据的文件属性、数据的内容属性、标签信息和可用域数据等。其中，数据的文件属性例如包括数据来源、数据分辨率、数据波谱、成像时间、传感器类型、空间地理范围等。数据的内容属性例如包括遥感数据所包含的地物类别、场景信息等。可用域数据用于评估影像数据可用性。每张遥感影像对应一组可用域数据，每个可用域数据对应一个质量评分。对每张遥感影像对应的一组可用域数据进行归一化处理之后，可以得到该张遥感影像的质量评分。

在本发明的实施例中，属性信息例如包括用户的历史记录、习惯记录、偏好预测。用户的查询信息例如包括查询条件和目标范围。查询条件用于指示用户的查询意图。查询条件例如包括遥感影像的采集时间、适用的场景类型等。例如，场景类型例如包括但不限于耕地、园地、林地、草地、水体、道路、建筑区、荒漠和裸露地表。目标范围用于指示用户需要的遥感影像所对应的区域范围。

在一个示例中，用户可以通过用户界面输入上述查询信息。例如，通过用户界面输入遥感影像的采集时间、目标范围和场景类型等信息，以便利用这些信息获取对应的遥感影像数据和可用域数据。

本发明的实施例中，在获取查询条件之后，可以对查询条件进行关键词提取，并基于提取的关键词从遥感卫星数据库中检索得到对应的影像数据和可用域数据。

在本发明一实施例中，可以利用预训练的语义模型对查询条件进行关键词提取。上述语义模型的训练过程如下：

例如，获取场景资料库，所述场景资料库中包括场景描述、场景特点、场景大类、场景细分类等资料，所述场景资料库中还包含了丰富的有关遥感影像各类大小场景的背景信息。将场景资料库中的场景描述、场景特点等自然语句作为语料库，并将场景大类、场景细分类作为标签，建立语料库与标签之间对应的关系。还可以获取与语料库相关的同义词、近义词等作为扩增语料库以辅助模型训练。其中，同义词、近义词的标签与对应的场景描述词相同。

对所述语料库进行分词，分词指的是将一个文字序列切分成一个单独的词。词是最小的能够独立活动的有意义的语言成分，分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。分词的算法可以是基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法。

本实施例中，所述语义模型可采用基于统计的分词方法，具体为对语料库中的字组频度进行统计，形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料库中相邻共现的各个字的组合的频度进行统计，计算其互现信息。定义两个字的互现信息，计算两个字X和Y的相邻共现概率。互现信息体现了字与字之间结合关系的紧密程度。当紧密程度高于阈值时，便判定该字组构成一个词。

之后，训练语义模型对语料库进行分类即可视为一个多标签分类的过程，本实施例中，语义模型采用深度学习语义分割网络，其输入为语料库，其输出为标签，每个语料均分配有一个场景大类和一个场景细分类，直至分类的准确率达到停止条件，则训练结束。

在步骤S2，根据查询信息、属性信息、影像数据、可用域数据构建得到知识图谱，基于强化学习对知识图谱进行优化，根据优化后的知识图谱进行路径跟踪得到最优推荐路径。

在本发明的实施例中，上述步骤S2例如可以包括步骤S21~S23。

在步骤S21，根据用户的查询信息、属性信息构建得到第一图谱，根据影像数据构建得到第二图谱，根据可用域数据构建得到第三图谱。

具体地，在步骤S21中，用户的查询信息包括查询条件和目标范围，属性信息包括用户的历史记录、习惯记录、偏好预测，对查询条件进行关键词提取，以查询条件-目标范围-属性信息为三元组构建第一图谱。

影像数据包括影像元数据、影像特征数据、影像采集范围，以影像元数据、影像特征数据、影像采集范围为三元组构建第二图谱。

在本发明的实施例中，第一图谱的构建过程包括如下步骤。

（1）知识获取。从不同来源提取知识信息，以手动、半自动或者自动的方式整合为结构化的知识。在本实施例中，获取的知识至少包括用户输入的语音、文本查询信息、用户当前属性信息、用户历史属性信息、用户历史查询信息、与当前用户属性相似的其他用户的历史查询信息，等等。其中，用户历史查询信息、用户当前查询信息例如均可以包括查询条件和目标范围，查询条件至少包括采集时间、影像质量、星源、分辨率等。

（2）知识存储。将上一步收集到的知识进行存储，建立基于表或图的存储数据库。在对知识进行存储时，例如可以是以知识的原始形式进行存储。

（3）知识整合。对得到的多源异构知识进行知识评定、清理和精化，以消除矛盾和歧义。例如包括对知识进行特征提取、知识对齐、冗余知识去除等。其中，知识对齐包括将同一实体不同的概念进行统一化、将特定称谓对应多个不同实体的情况进行区分等。另外，在进行知识整合时，为了方便知识对齐，可以对存储的知识进行关键词提取、特征提取等，以简化知识的表达形式。

（4）图谱构建。将整合后的知识进行实体、关系的识别和提取，建立实体-关系-实体的三元组，并对所有实体之间的关系进行预测，以连接多个三元组，形成第一图谱。

在本发明的实施例中，第二图谱的构建过程包括如下步骤。

（1）模式设计，例如包括概念层设计、属性定义、领域规则定义。模式设计具体是指本体设计，本体将现实世界的对象抽象成概念，并对概念通过属性与属性约束进行明确，规范化的描述。本体由类、子类、属性、属性约束构成。类是对特定领域的概念抽象，例如，“遥感影像”为类，“多光谱遥感影像”为子类。属性是对类的描述，可对类进行拓展并约束构建图谱，例如，“低层住宅的高度小于10米”。本体对知识与数据进行结构化组织，将数据赋予语义关联。遥感本体的关系分为有语义关系、空间关系、时间关系。语义关系包括“从属”、“等同”、“相似”、“互斥”等关系。空间关系分为拓扑关系，邻近关系与距离关系。时间关系在时间点层面包括“早于”、“晚于”、“同时”等关系，在时间段层面例如包括“期间”、“交叠”等关系。

（2）数据获取。在收集有关遥感领域的数据时，除了领域数据、遥感类的文本数据、影像数据、元数据等，还可以收集与遥感影像所摄空间范围的地理数据、气候数据、季节数据等等，以及对收集到的数据进行格式转换、数据清洗等处理。

（3）知识抽取。将上一步收集到的所有数据进行统一格式对齐后，形成遥感相关的文本知识和图像知识。文本知识的抽取主要使用词汇挖掘技术，包括同义词挖掘、缩略词挖掘、短语挖掘等。图像知识的抽取可采用图像实体标注的形式实现。

（4）实体发现。例如通过命名实体识别方法识别实体，并通过实体对齐的方式去除重复的实体。

（5）关系发现。可基于链接预测的方式得到实体之间的关系，同时通过对图像进行解译得到实体间的空间关系，并通过属性融合方法去除重复或错误的关系。

（6）质量控制，例如包括对知识进行补全、纠错和更新。示例性地，例如包括对实体的补全、对关系的预测、对知识的对齐等。

（7）形成图谱。对实体、关系形成多个三元组，进而构建第二图谱，并采用推理器对第二图谱进行推理补全和更新，推理器用于对图谱进行逻辑推理和深度学习推理等。

本发明一实施例中，第三图谱的构建过程与上述第二图谱的构建过程类似，两者的区别在于，在构建第三图谱过程中，例如在数据获取时，除了获取上述所述所有的数据之外，还需要获取可用域在形成时的质量评分、可用域的质检项。其中，可用域数据是通过对影像数据进行质检后形成的。

例如，针对一张遥感影像，可以对该遥感影像进行云量、曝光度、条带、空值、边缘等质量检测。其中，每个质量检测项有其对应的评判标准，基于该评判标准可以对遥感影像中的每个像素进行对应质检项的可用与否的判定。基于上述判定方式，分别得到符合云量可用性的像素集、符合曝光度可用性的像素集、符合条带可用性的像素集、符合空值可用性的像素集、符合边缘可用性的像素集，将这些像素集作为云量可用域、曝光度可用域、条带可用域、空值可用域、边缘可用域。在得到这些可用域后，若某些可用域中有明显的细小图斑，还可以采用连通域算法和形态学算法对这些可用域进行后处理，以便后续处理。

在步骤S22，将第一图谱、第二图谱、第三图谱进行融合得到知识图谱。

在本发明的实施例中，上述步骤S22可以包括如下步骤S221~S222。

在步骤S221，将第二图谱和第三图谱进行图谱融合，将知识对齐，得到融合图谱。

在步骤S222，采用知识表示学习方法分别对融合图谱和第一图谱进行知识表示学习，得到与融合图谱和第一图谱各自对应的实体向量集和关系向量集，并将融合图谱和第一图谱各自的向量集同时映射到一个低维空间中，以对融合图谱和第一图谱进行融合，得到知识图谱。

在本发明一实施例中，先将第二图谱和第三图谱进行图谱融合，由于第二图谱和第三图谱中的知识有大部分重叠，因而在融合时能融合的更好，并能够互相互补，由此可以增加知识图谱的推荐能力，从而有利于提高影像推荐的准确性和精确性。

在本发明的实施例中，将第二图谱和第三图谱进行图谱融合例如可以包括如下步骤。

可以理解，第二图谱和第三图谱均是基于知识图谱技术构建的图数据。图数据包括多个节点以及节点之间的边。可以利用图神经网络模型来处理第二图谱和第三图谱，以便将第二图谱和第三图谱进行图谱融合，得到融合图谱。

在本发明的实施例中，图神经网络模型例如包括关系图卷积网络模型（Relational Graph Convolutional Network，R-GCN）。当然，本发明的方案并不局限于此，具体可以根据实际需要选择相应的图神经网络模型。

以图神经网络模型为R-GCN模型为例。例如，将第二图谱和第三图谱输入R-GCN模型，由于R-GCN模型能够识别图数据中的同构子特征，而实体对周围存在相似的邻居，例如实体3与实体对（实体1-实体2）具有一定的同构特征，则利用R-GCN模型对第二图谱和第三图谱进行识别得到同构特征，将从第二图谱和第三图谱中学习到的描述同一目标的实体进行合并，得到合并实体集。之后，采用条件随机场对合并实体集的局部和全局信息进行多方位链接，对第二图谱和第三图谱完成融合，得到融合图谱。

在本发明一实施例中，可以采用如下方式将融合图谱和第一图谱进行融合。

例如，将第一图谱记为KG1，融合图谱记为KG2。利用知识表示学习算法分别对第一图谱KG1和融合图谱KG2进行学习，得到第一图谱KG1和融合图谱KG2各自对应的实体和关系的低维向量，分别记为E1、R1、E2、R2。其中E表示实体集合，R表示关系集合。本实施例中，知识表示学习算法例如为PtransE算法。

在知识表示学习的过程中，根据有监督训练算法对第一图谱KG1和融合图谱KG2知识表示学习进行监督训练。将这两个图谱中的实体和关系统一映射到一个向量空间。之后利用迭代融合算法对这两个图谱进行融合处理，直至达到迭代停止条件，得到完善后的知识图谱。

本实施例中，以第一图谱进行知识表示学习为例进行说明，PtransE算法流程如下：

第一图谱KG1={(h,r,t)}，h为头实体，r为关系，t为尾实体。在将第一图谱KG1输入PtransE模型后，先进行数据预处理，预处理的过程包括增加反三元组，以及计算路径的能量函数和置信度。具体为：

（1）将第一图谱KG1={(h,r,t)}、实体集合E1、关系集合R1输入PtransE模型，对于第一图谱KG1中的每个三元组(h,r,t)，模型自动添加一个反关系的三元组(t,r*,h)，这个r*是虚拟的关系。模型每处理一个三元组，则将该三元组和对应的反关系的三元组加入预处理图谱PKG中，直至原本的第一图谱KG1为空集，此时，将所得到的PKG的实体集合记为E，关系集合记为R。

（2）计算PKG中每个三元组的路径能量函数和置信度。

定义能量函数为G(h,r,t)，其表达式如下：

G(h, r, t)=F(h, r, t)+F(h, P, t)

其中，F(h,r,t)为图谱中原始直接路径的能量函数值，表示L2范数，路径p连接的是头实体h和尾实体t，令路径p=(r₁,...,r_n)，当头实体h到尾实体t之间可能存在多个不同长度的路径时，定义P为h与t之间所有路径的集合，F(h,P,t)表示的是头实体h和尾实体t之间所有路径能量函数值的加权平均值。

对于路径p的置信度，根据路径p所关联的资源总数来计算p作为头实体h和尾实体t之间有效路径的置信度。路径p的置信度的计算公式如下：

其中，头实体h沿着路径p=(r₁,r₂,...,r_i)到达尾实体，S表示当前路径经过时的资源集合，S₀=h，e∈S_i，当e为尾实体时，其关于关系r_i的直接头实体集合表示为S_i-1(·, e)∈S_i-1，S_i(m, ·)表示当实体m作为头实体时，其关于关系r_i的直接尾实体集合。

将计算得到的每个三元组的能量函数值和置信度进行保存。

（3）设定向量维度为k，对每个三元组中的实体和关系进行向量初始化，初始化的方式k维随机均匀分布，表达式如下：

其中，r为关系，e为实体，N为正态分布函数。在对每个实体和关系进行向量初始化时，还增加一个约束，即设定PKG的模趋近于A，A为PKG中三元组的数量。

（4）对PKG进行迭代训练，训练中，随机选择单个三元组，该三元组包括原始的(h,r, t)以及计算得到的路径能量函数值和置信度。之后替换该三元组中的h或t，形成第一错误三元组，将该三元组和其对应的第一错误三元组作为第一训练对象。同时，替换该三元组中的r，形成第二错误三元组，将该三元组和其对应的第二错误三元组作为第二训练对象。

将第一训练对象和第二训练对象进行训练，采用第一损失函数对第一训练对象进行优化，采用第二损失函数对第二训练对象进行优化，直至第一损失函数和第二损失函数均最小化，得到PKG中每个向量的优化值。

本实施例中，第一损失函数为：

其中，L₁为第一损失函数，γ是间隔值，F(h,r,t)是原始三元组的能量函数值，F(h’,r,t’)是第一错误三元组的能量函数值。

在训练时，以梯度下降的方式训练第一损失函数，以更新向量。

第二损失函数为：

其中，L₂为第二损失函数，R’为头实体h到尾实体t所有路径的平均置信度，γ是间隔值，F(r,p)=F(h,p,t)，表示的是路径p的能量函数值，F(r’,p)表示的是第二错误三元组的能量函数值。

具体地：

其中，R_p(t)是路径p的置信度，p是头实体h到尾实体t的单条路径，P(h,t)是头实体h到尾实体t所有路径的集合，Z指的是集合P(h,t)中路径的数量。

在训练时，以梯度下降的方式训练第二损失函数，以更新向量。

在本发明的实施例中，对融合图谱进行知识表示学习的方法与第一图谱相同或类似，这里不再赘述。

在对融合图谱和第一图谱进行知识表示学习得到优化的实体向量集和关系向量集之后，将得到的实体向量集和关系向量集同时映射到一个低维空间中，之后对融合图谱和第一图谱进行融合，过程如下：

步骤一、在同一个低维空间中，分别对融合图谱和第一图谱的实体向量集作k均值聚类，得到k个第一聚类中心C={c₁,c₂,...,c_k}和k个第二聚类中心D={d₁,d₂,...,d_k}，将k个第一聚类中心C={c₁,c₂,...,c_k}作为第一图谱的代表性实体向量的集合，将k个第二聚类中心D={d₁,d₂,...,d_k}作为融合图谱的代表性实体向量的集合，k为正整数。

步骤二、以C为基准，从C中选取任意一个第一聚类中心c_i，计算该第一聚类中心c_i与D中每个第二聚类中心之间的距离，将k个第二聚类中心中与该第一聚类中心c_i之间的距离最小的一个第二聚类中心d_j与该第一聚类中心c_i进行匹配，得到一个代表实体对(c_i,d_j)，其中i和j为正整数。

步骤三、重复步骤二，直至C中的k个第一聚类中心均与第二聚类中心匹配完毕，得到k个代表实体对，并据此得到代表实体对集合X={C, D}，其中，k个代表实体对中第一聚类中心和第二聚类中心均不重复。

步骤四、利用TransE方法对第一图谱和融合图谱进行联合训练，训练过程中，保持代表实体对集合的向量值不变，更新其他实体向量值，进而影响并优化关系向量值。

步骤五、采用迭代融合方法对融合图谱和第一图谱进行融合，在融合时，利用代表实体对集合进行监督，直至达到迭代停止条件，得到融合实体对集合，进而得到最终的知识图谱。

本实施例中，采用迭代融合方法对融合图谱和第一图谱进行融合，得到融合实体对集合包括以下步骤。

第一步、将第一图谱的实体集合E1与代表实体对集合X做交叉比对，从第一图谱的实体集合E1中选取一个不属于代表实体对集合X的实体e1，将该实体e1作为当前待配对实体。

第二步、将融合图谱的实体集合E2中的所有实体e2作为候选实体集，从候选实体集中选取不属于代表实体对集合X的单个实体e2作为当前候选实体，计算当前待配对实体与当前候选实体之间的距离，若确定该距离小于阈值，则将当前候选实体确定为与该当前待配对实体对应的匹配实体。

第三步、重复第二步，得到与当前待配对实体对应的匹配实体集，并将当前待配对实体与该当前待配对实体对应的匹配实体集作为匹配实体对，将该匹配实体对加入代表实体对集合X中。

本实施例中，迭代融合的迭代停止条件为达到最大迭代次数或不再找到新的融合实体对。

需要说明的是，本发明的图谱融合方式采用了多次知识表示学习方法，将实体的语义信息表示为稠密低维实值向量，挖掘实体之间的结构特征，并通过将实体编码，隐含了现实中实体之间的逻辑关系，实现跨语言融合。在对两个图谱进行融合的过程中，通过选取具有代表性的实体对作为监督信息来对两个图谱进行迭代融合，能够快速高效的完成图谱融合过程。

需要注意的是，第三图谱中包含了可用域质量评分，而可用域数据是根据影像数据进行质量检测和评估得到的，在对第二图谱和第三图谱进行融合时，将质量评分泛化至融合图谱中，根据图谱的学习性能，对融合后的实体确定一个合理的质量评分，例如，可用域数据对应的质量评分为原来的质量评分，影像数据对应的质量评分则为对应的可用域数据的质量评分的平均值等。

在步骤S23，利用强化学习框架对知识图谱进行多轮优化，根据多轮优化的知识图谱进行多轮推荐，得到多个推荐路径，根据用户对多个推荐路径的反馈选择最优推荐路径。

在本发明的实施例中，上述步骤S23例如可以包括步骤S231~S238。

在步骤S231，构建强化学习框架，包括环境和智能体。

环境由知识图谱构成。智能体表示为策略网络，策略网络根据当前智能体所处的状态构建状态向量映射到一个随机策略，智能体根据当前所处环境，基于策略对环境施加动作，以对环境的状态进行更新，每更新一次状态，即输出一次推荐列表，根据用户对推荐列表的反馈得到相应的奖励，奖励随着时间累计，将累计奖励作为回报。

状态向量包括智能体当前位于知识图谱的实体位置、当前的实体位置与智能体即将到达的下一个实体位置之间的距离。

在步骤S232，策略网络为全连接神经网络，包括策略函数，策略函数如下所示：

其中，s表示当前状态，a为当前策略选择的动作，θ为全连接神经网络的参数，表示当前状态和动作对应的转移概率。

在步骤S233，根据策略函数将状态向量映射为所有动作的概率分布。

在步骤S234，在当前环境下，智能体根据所有动作的概率分布选取对应的动作，并对环境施加该动作，同时对环境进行更新，智能体转移到下一个状态。

在步骤S235，根据智能体对环境的动作得到一次推荐路径，将该推荐路径的推荐结果展示给用户，用户对该推荐路径进行反馈，根据反馈构建奖励函数，基于奖励函数获得该推荐路径的奖励值。

在步骤S236，根据奖励值对回报函数进行更新，回报函数如下所示：

在步骤S237，根据更新后的回报函数得到更新参数θ，利用更新参数θ对策略网络进行更新，并转至步骤S233。

在步骤S238，迭代执行步骤S233-S237，直至得到最大累计奖励，则停止迭代，输出得到最优推荐路径。

利用随机梯度下降方法更新策略网络：

在步骤S235中，推荐路径为智能体在知识图谱中的起始实体位置到目标实体位置之间的路线，推荐路径的推荐结果为该路线上的所有实体对应的数据；用户对推荐路径的反馈包括正反馈和负反馈，根据正反馈、负反馈、以及对应的推荐路径的推荐结果构建奖励函数，根据奖励函数得到该推荐路径的奖励值，其中，该奖励值由多个奖励项线性组合而成，奖励函数的公式如下所示：

质量奖励项、时序奖励项、范围奖励项和反馈奖励项分别是使用以下公式得到的。

r₃={(+1, if spatial range> μ₂), (0, if spatial range= μ₂), (-1, ifspatial range< μ₂)}，spatial range为采集范围，μ₂为第二阈值，第二阈值用于表征针对目标范围的覆盖率阈值。

在本实施例中，第一阈值是指以用户查询条件中的采集时间为中心选取的前后一年内的时间范围。在一个示例中，第二阈值例如为60%，也即针对目标范围的覆盖率阈值为60%。在一些实施例中，第二阈值还可以是一个覆盖率范围，例如，第二阈值为60%~70%。具体可以根据实际设定，本发明对此不做限定。

在本发明一具体实施例中，步骤S23的执行流程为：首先，建立一个强化学习框架，强化学习框架是由两个部分构成，一个是智能体，一个是环境，强化学习的过程就是智能体与环境不断交互的过程。在本实施例中，环境指的就是知识图谱，智能体由一个策略网络表示，策略网络根据当前智能体所处的状态构建状态向量映射到一个随机策略，智能体根据当前所处环境，基于策略对环境施加动作，与环境进行交互，并对环境的状态进行更新，每更新一次状态，即输出一次推荐列表，输出了一个推荐列表后，将其推荐给用户，用户根据自身的需求对该推荐列表进行反馈。反馈包括了正反馈和负反馈，根据用户对推荐列表的反馈的类型和对应的推荐列表的结果构建奖励函数，根据奖励函数得到相应的奖励，奖励随着时间累计，将累计奖励作为回报，在不断交互的过程中，回报不断改变，以此更新回报函数，而回报函数与策略网络中的策略函数共用一个网络参数，根据回报函数更新后的网络参数对策略函数进行更新，即策略网络也进行了更新，从而重新映射一个随机策略，进而重复智能体与环境的交互过程。在得到最大的累计奖励后，即当某一次交互过程后得到的奖励并没有增加回报值，则停止强化学习的整个过程，将最后一次交互中智能体活动的路线作为最优推荐路径，也可以将倒数第二次交互中智能体活动的路线作为最优推荐路径。

返回图1，如图1所示，在步骤S3，根据最优推荐路径得到推荐结果。

具体地，将最优推荐路径上的实体对应的影像作为推荐结果推荐给用户。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种基于强化学习和知识图谱的影像推荐方法，其特征在于，包括：

S3 根据最优推荐路径得到推荐结果。

2.根据权利要求1所述的方法，其特征在于，步骤S2包括：

3.根据权利要求2所述的方法，其特征在于，步骤S21包括：

4.根据权利要求2所述的方法，其特征在于，步骤S22包括：

5.根据权利要求4所述的方法，其特征在于，步骤S222中，对融合图谱和第一图谱进行融合包括以下步骤：

6.根据权利要求5所述的方法，其特征在于，所述采用迭代融合方法对融合图谱和第一图谱进行融合，得到融合实体对集合包括以下步骤：

7.根据权利要求3所述的方法，其特征在于，步骤S23包括：

S231构建强化学习框架，包括环境和智能体：

环境由知识图谱构成；

S233 根据策略函数将状态向量映射为所有动作的概率分布；

S236 根据奖励值对回报函数进行更新，回报函数如下所示：

8.根据权利要求7所述的方法，其特征在于，利用随机梯度下降方法更新策略网络：

9.根据权利要求8所述的方法，其特征在于，在步骤S235中，推荐路径为智能体在知识图谱中的起始实体位置到目标实体位置之间的路线，推荐路径的推荐结果为该路线上的所有实体对应的数据；

10.根据权利要求9所述的方法，其特征在于，质量奖励项、时序奖励项、范围奖励项和反馈奖励项分别是使用以下公式得到的：

r₃={(+1, if spatial range> μ₂), (0, if spatial range= μ₂), (-1, if spatialrange< μ₂)}，spatial range为采集范围，μ₂为第二阈值，第二阈值用于表征针对目标范围的覆盖率阈值；