CN111858972A

CN111858972A - 一种基于家庭知识图谱的电影推荐方法

Info

Publication number: CN111858972A
Application number: CN202010736142.XA
Authority: CN
Inventors: 李玉军; 孙国强; 胡伟凤; 高雪松; 林森
Original assignee: Qingdao Bo Tian Tian Tong Information Technology Co Ltd; Shandong University
Current assignee: Shandong University
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-10-30
Anticipated expiration: 2040-07-28
Also published as: CN111858972B

Abstract

本发明涉及一种基于家庭知识图谱的电影推荐方法，包括步骤如下：A、构建并训练获取上下文感知推荐模型(1)构建家庭知识图谱：(2)数据预处理：(3)构建上下文感知推荐模型：(4)融入家庭成员相似度：(5)训练上下文感知推荐模型：B、通过训练好的上下文感知推荐模型预测出家庭成员对每一部已知电影的评分，并为其推荐。本发明构建三维张量模型，融入家庭知识图谱的上下文信息，将家庭成员的相似度关系融入评分预测模型，可以显著地缓解数据稀疏问题，从而提高推荐的精准度。

Description

一种基于家庭知识图谱的电影推荐方法

技术领域

本发明涉及一种基于家庭知识图谱的电影推荐方法，属于智能推荐技术领域。

背景技术

社会科技的进步带动着许多行业的发展。近年科技、经济突飞猛进，人民的生活水平也得到了提升，对生活质量的追求也更加精益求精，而生活的智能就是一个突出表现的方面。智能家居，智能家用机器人等科技产品也慢慢的被人们关注起来。在智能家庭中，智能家居可以更好地为我们提供便利的服务，在生活中给我们提供重要的信息，能对我们的日常生活进行合理的安排，充分的利用我们的时间和资源。

随着家庭智能化的提升，人们在及时获取到海量丰富信息的同时，也遇到了信息过载问题。信息过载问题是信息时代过于丰富的信息造成的负面影响之一，指的是海量的信息内容超出了个人或系统所能承受、处理或有效使用的范围，并导致出现故障的状况。信息过载使得个人或系统需要花费大量的时间和精力去甄选适合自己需求的信息，造成了大量人力和物力资源的浪费。

对于家庭成员来说，从大量的信息中发现对自己有用或者自己感兴趣的信息是一件耗时枯燥的事情，同时对信息的可靠性和准确度进行评定更是一个极其苦难的过程。为用户提供有针对性的信息来满足其需求，是提高用户生活质量，提高家庭智能化的重要手段。搜索引擎可以在用户需求明确的情况下提供用户需求的信息，但是，由于海量的信息足够庞大，用户可能并不能够从自己的需求中提取适当的关键词，同时单个关键词检索到的结果数量对用户来说可能同样庞大，因此，这种方式并不能够很好的解决用户在面对信息过载问题时候的困扰。不同用户在进行关键词的检索时目的可能并不相同，而当前的搜索引擎只是根据用户输入的关键词信息进行简单的检索和反馈，并不能考虑到用户的实际情况，即不同的用户可以根据相同的关键词从搜索引擎得到相同的结果，在这些检索结果中同样存在很多用户不需要的垃圾信息。此外，在很多家庭生活场景中，用户对现有需求并不明确或无法准确描述，因此，家庭场景中还需要一个更加主动和具有个性化的平台来解决信息过载问题和用户隐性需求问题，提高家庭智能化。

推荐系统被认为是一种能够有效帮助用户解决信息过载问题和隐性需求问题的个性化平台，它会在收集用户相关信息的基础上个性化地为用户推荐最有可能满足其需求的商品或信息。尽管推荐系统与搜索引擎平台同样基于信息检索和信息过滤技术，但不同之处在于推荐系统能够通过主动的收集和分析用户的行为和历史信息，并建立以用户需求为基础的模型进行物品和信息的推荐，其工作方相较于搜索引擎平台更加的主动和智能，因此能够展示给用户更加具有针对性和个性化的结果。

家庭场景中推荐系统具有很强的实用性，它能根据用户的兴趣特性帮助用户发现并推荐给他们感兴趣的信息，既提升了用户体验又提高用户对该系统的依赖度。智能家电和家居设备是为家庭用户提供服务的主要执行者，也是智能推荐系统主要部署终端，是实现智慧生活的基础和保证。家庭场景应用丰富，为满足用户多种多样的需求，家庭终端种类与数量日益增多，智能化程度逐渐增强，但在应用中仍面临着设备之间相对独立导致数据松散服务单一、带屏设备提供海量视频导致信息过载，无法为用户筛选最佳内容，这些问题限制了智能终端为用户提供更好服务的能力，影响了带屏设备的用户体验，妨碍了智慧生活产业的发展。因此，面向家庭场景的智能推荐技术就有了重要的作用。

传统的推荐系统主要依赖用户对物品的行为信息，来挖掘用户的兴趣。但是在现实世界中物品的数量往往十分庞大，并且用户能够接触到的物品数量十分有限，从而导致用户对物品的行为信息往往十分稀疏，这就导致了传统推荐算法的效果不佳。传统推荐系统无法融入家庭智能设备获取的多维度属性信息，无法做到准确、智能、人性化的推荐。现有面向家庭场景的推荐技术通常使用二维用户物品矩阵，没有考虑类似心情、时间等上下文信息对用户观影的影响。例如，在用户高兴的时候对喜剧片的喜好会高于悲情片，用户在非工作日的观影喜好与工作日也会略有不同。在家庭场景中可以获取大量的上下文信息，这些信息对提高推荐的准确性有着极大的帮助。因此，我们在传统推荐算法中添加家庭上下文信息提高推荐系统的准确性，使家庭推荐系统更懂用户。现有面向家庭场景的推荐通常没有考虑家庭成员相关性信息，例如家庭中夫妻双方由于年龄等因素，其观影兴趣可能大致相同，而家庭中儿童可能更喜好动画片等。全面分析家庭成员的相关性，可以缓解信息稀疏的问题，从而提高推荐准确性。而家庭知识图谱可以精准的描述用户物品属性及各种类型的关系，能够为推荐系统提供大量上下文信息和高效的用户行为信息，提高推荐系统的性能。因此家庭知识图谱与推荐技术结合提升家庭场景推荐性能已经成为了一个研究的热点。

面向家庭场景的智能推荐技术的主要困难：家庭成员的多维度属性的有效应用。一个家庭场景中会有多种智能设备，这些智能设备可以获取用户多维度属性。有效利用这些属性信息，是提高推荐准确率的关键。

发明内容

针对现有技术的不足，基于智能推荐概念，本发明提供了一种基于家庭知识图谱的电影推荐方法；

本发明提出了一种融合上下文信息与家庭成员相似度的智能推荐技术，结合家庭知识图谱，利用张量分解融合家庭角色信息可以合理、有效地提高家庭场景的推荐准确率。

术语解释：

1、知识图谱，知识图谱是结构化的语义知识库，使用符号来描述物理世界中的概念及其相互关系，基本组成单位为“实体-关系-实体”三元组，以及实体及其相关属性—值对，实体间通过关系相互联结，构成网状的知识结构。things，not string是知识图谱的核心。以前的搜索，都是将要搜索的内容看作字符串，将结果与字符串进行匹配，匹配程度高的排在前面。利用知识图谱之后，搜索的内容不再看作字符串，而是看作一个个的个体。例如，搜索比尔盖茨的时候，搜索引擎不是搜索“比尔盖茨”这个字符串，而是搜索比尔盖茨这个人，围绕比尔盖茨这个人，展示与他相关的人和事。搜索结果页面会把比尔盖茨的基本情况和他的主要关系都列出来了，搜索的人很容易找到自己感兴趣的结果。

2、张量，张量(tensor)是基于向量和矩阵的推广，在数学里，张量是一种几何实体，或者说广义上的“数量”。张量概念包括标量、向量和线性算子。张量可以用坐标系统来表达，记作标量的数组。传统推荐系统使用的是“用户-物品”二维评分矩阵来判断用户对某物品的喜好程度，没有考虑时间、心情等上下文信息。例如，在用户心情较好的时候可能更倾向于点播喜剧片，加入上下文信息可以进一步提高推荐的准确率。我们将用户-物品-评分，以及心情等可用的上下文信息，建模为一个三维张量(如图1所示)，并用此张量针对家庭成员进行个性化推荐。

3、张量分解，定义一个关于用户i在上下文c下对物品j的评分为r_ijc，评分张量的大小为m×n×d，用户的索引为i∈{1，2，3，...，m}，物品的索引为j∈{1，2，3，...，n}，上下文的索引为c∈{1，2，3，...，d}。张量分解后会得到三个矩阵，这三个矩阵分别是：大小为m×k的用户因子矩阵U(user-factor matrix)、大小为n×k的物品因子矩阵V(item-factormatrix)和大小为d×k的上下文因子矩阵W(context-factor matrix)。常见的张量分解方法有Tucker分解与CP张量分解。

本发明的技术方案为：

一种面向家庭场景基于互联互通平台的用户隐性行为和情感分析智能推荐方法，包括步骤如下：

A、构建并训练获取上下文感知推荐模型

(1)构建家庭知识图谱：

家庭知识图谱展示了实体和实体之间的关系，是对现实家庭事物及关系进行形式化地描述，如图2所示，使用三元组D＝(E，C，S)来表示家庭知识图谱，D表示知识库；E＝{e₁，e₂，...e_i，...e_j，...，e_|E|}，表示D中的主体实体集合，主体实体集合中有|E|种主体实体；主体实体包括家庭成员、智能设备、观看影片；例如：张三、智能电视、复仇者联盟；C＝{c₁，c₂，...，c_i...，e_j...，c_|C|}，表示D中的关系集合，关系集合有|C|种不同的关系；关系包括成员的亲属关系、观影时长、当前心情等，例如父子、20min、开心。S＝{s₁，s₂，...s_i，...s_j，...，s_|S|}，表示与主体实体集合E对应的客体实体集合，客体实体集合中有|S|种客体实体；三元组D的基本形式为<e_i，c_i，s_i>；实体是D中最基本的元素，不同实体之间存在不同的关系；

(2)数据预处理：

由于在真实的家庭场景中，用户对电影的评分行为并不多，因此难以获取有效的用户物品评分矩阵。利用用户对电影的观看时长自动构建评分机制，获取用户-电影-评分矩阵；

(3)构建融入家庭成员相似度的上下文感知推荐模型：

计算用户之间的相似关系，包括步骤如下：

获取家庭知识图谱中与e_v有连接的s_v，e_v是指用户v的主体实体，s_v是指用户v的客体实体，统计客体实体s_v中包含的影视列表I_(v)；例如，《肖申克的救赎》《阿甘正传》《泰坦尼克号》等。

利用所有家庭成员的交互的所有影视信息判断其兴趣相似度，计算家庭成员u，v间的兴趣相似度sim(u，v)，如式(I)所示：

式(I)中，I_(u)、I_(v)分别表示与家庭成员u、v有过交互的电影集合；r_uj、r_vj分别表示家庭成员u、v对电影j的实际评分；sim(u，v)越接近1表明家庭成员u，v间的兴趣越相似。

定义相似用户特征矩阵W^M×D，W^M×D表示M个用户的D维特征矩阵，M为所有用户数量，D为特征矩阵维度；

用一个邻接矩阵T＝[t_uv]_M×M表示用户之间的相似关系，sim(u，v)＞0.5时，t_uv＝1，表示用户u与用户v相似，否则，t_uv＝0；

引入C中的c_i，将其作为步骤(2)中用户-电影-评分矩阵的第三维信息，并将其建模为一个三维张量，通过CP分解的方式学习原张量模型并对空缺值进行填充，包括步骤如下：

将来自M个用户在K种上下文C下对N个电影的打分记作张量R，R包含M×N×K个记录，r_uic表示用户u在C下对电影i的实际打分；

融入家庭成员间兴趣相似度的评分预测模型

如式(II)所示：

式(II)中，

表示用户u在C下对电影i的预测评分，U_u′、I_i、C_c分别为用户、电影、上下文信息的特征矩阵，U′_ud、I_id、C_cd分别是U′_u、I_i、C_c中的元素，将在步骤(5)中通过SGD计算得出；b_u、b_i、b_c分别为用户、电影、上下文偏置，μ为全局平均分，D代表特征维数；

利用用户u的特征向量U_u′融合家庭成员相似关系与相似用户特征矩阵W，构建评分预测模型中用户u更精确的特征向量U_u′，如式(III)所示：

式(III)中，T_u是指与用户u相似的用户集合，|T_u|是指与用户u相似的用户数量，W_v表示与用户v的相似的用户特征向量；

通过此方法将家庭成员的相似度关系融入评分预测模型可以显著地缓解数据稀疏问题，从而提高推荐的精准度。

(5)训练上下文感知推荐模型：

(6)通过步骤(5)训练好的上下文感知推荐模型，获得完整的三维张量R，R中元素为某家庭成员在某种心情下对某电影的评分数据，当家庭成员有观影意向时，获取该成员当前心情，并对该成员在该心情下的电影评分进行从高到低排序，为其推荐得分最高的电影。

根据本发明优选的，步骤(1)，通过信息抽取构建家庭知识图谱，信息抽取又名为知识抽取，是家庭知识图谱构建的第一步，是指能够从不同来源的数据中进行知识抽取，形成知识存入到家庭知识图谱；包括：

家庭场景的数据来源包括家庭中的智能设备运行状态日志；由于运行状态日志格式单一，例如，智能电视的工作日志格式为<时间，播放内容>，因此，通过对家庭成员、智能设备、播放内容的统计完成家庭知识图谱的实体抽取；通过远程监督学习的方法自动完成关系抽取与实体补充；假设两个电影实体e₁，e₂在已知的知识库D₁中存在一定的关系r(e₁，e₂)，则通过知识库D₁中的两个实体e₁和e₂以及实体所对应的关系r，进行家庭知识谱图D中r(e₁，e₂)的标注。

根据本发明优选的，步骤(2)中，利用用户对电影的观看时长自动构建评分机制，获取用户-电影-评分矩阵，包括步骤如下：

从C中获取用户与电影的观影时长c_time，根据c_time占该电影总时长Time_总时长的比重n判断其对该电影的评分r，c_time占该电影总时长Time_总时长的比重n的计算公式如式(IV)所示，根据比重n判断其对该电影的评分r的计算公式如式(V)所示：

通过式(IV)、式(V)，根据用户对影片的观看时长构建用户-电影-评分矩阵，即评分机制；解决了真实家庭场景中该矩阵难以获取的问题，也方便后续推荐模型的构建。

根据本发明优选的，步骤(5)中，在上下文感知推荐模型中，对于每一个已知评分r_uic，其目标损失函数L如式(VI)所示：

使用机器学习中常用的随机梯度下降法(SGD)来训练上下文感知推荐模型的参数，如式(VIII)至式(XIV)所示：

U_u←U_u+γ·(e_uic·I_i⊙C_c-λ·U_u) (XI)

I_i←I_i+γ·(e_uic·U_u′⊙C_c-λ·I_i) (XII)

C_c←C_c+γ·(e_uic·U′_u⊙I_i-λ·C_c) (XIII)

式(VIII)至式(XIV)中，

是指实际评分与预测评分之间的误差，γ代表学习率，⊙代表向量的哈达玛积。

本发明的有益效果为：

1、本发明利用家庭成员的操作行为构建用户-物品-评分矩阵，解决了实际家庭环境中无法直接获取有效用户-物品-评分矩阵的问题。

2、结合实际家庭应用环境，考虑到家庭环境与其他应用环境的不同，充分利用心情、时间、天气等上下文因素对用户观影的影响，在传统用户-物品-评分矩阵的基础上加入上述上下文信息，使推荐更加智能，推荐结果更加精确。本发明构建三维张量模型，融入家庭知识图谱的上下文信息，有效解决了实际家庭环境中推荐准确率低下的问题。

3、家庭场景中，夫妻双方通常会有较高的兴趣相似度，而与夫妻双方年龄相差较大的孩子或老人兴趣相似度通常较低，例如老人与中年人通常不喜欢观看动画片，而小孩对动画片格外痴迷。将成员的相似度融入评分预测模型后可以在缓解数据稀疏的同时，提高对不同家庭成员个性化推荐的准确度。本发明将家庭成员的相似度关系融入评分预测模型可以显著地缓解数据稀疏问题，从而提高推荐的精准度。

附图说明

图1是三维张量的示意图；

图2是家庭知识图谱示意图；

图3是本发明基于家庭知识图谱的电影推荐方法的计算示意图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

一种面向家庭场景基于互联互通平台的用户隐性行为和情感分析智能电影推荐方法，如图3所示，包括步骤如下：

A、构建并训练获取上下文感知推荐模型

(1)构建家庭知识图谱：

家庭知识图谱展示了实体和实体之间的关系，是对现实家庭事物及关系进行形式化地描述，如图2所示，使用三元组D＝(E，C，S)来表示家庭知识图谱，D表示知识库；E＝{e₁，e₂，...e_i，...e_j，...，e_|E|}，表示D中的主体实体集合，主体实体集合中有|E|种主体实体；主体实体包括家庭成员、智能设备、观看影片；例如：张三、智能电视、复仇者联盟；C＝{c₁，c₂，...，c_i...，c_j...，c_|C|}，表示D中的关系集合，关系集合有|C|种不同的关系；关系包括成员的亲属关系、观影时长、当前心情等，例如父子、20min、开心。S＝{s₁，s₂，...s_i，...s_j，...，s_|S|}，表示与主体实体集合E对应的客体实体集合，客体实体集合中有|S|种客体实体；三元组D的基本形式为<e_i，c_i，s_i>；实体是D中最基本的元素，不同实体之间存在不同的关系；

(2)数据预处理：

(3)构建融入家庭成员相似度的上下文感知推荐模型：

计算用户之间的相似关系，包括步骤如下：

融入家庭成员间兴趣相似度的评分预测模型

如式(II)所示：

式(II)中，

表示用户u在C下对电影i的预测评分，U_u′、I_i、C_c分别为用户、电影、上下文信息的特征矩阵，U′_ud、I_id、C_cd分别是U_u′、I_i、C_c中的元素，将在步骤(5)中通过SGD计算得出；b_u、b_i、b_c分别为用户、电影、上下文偏置，μ为全局平均分，D代表特征维数；

与现有技术相比，融入上下文信息后的RMSE降低15.07％，MAE降低11.09％。融入评分预测模型后的RMSE降低5.88％，MAE降低6.05％。

(5)训练上下文感知推荐模型：

实施例2

根据实施例1所述的一种面向家庭场景基于互联互通平台的用户隐性行为和情感分析智能电影推荐方法，其区别在于：

步骤(1)，通过信息抽取构建家庭知识图谱，信息抽取又名为知识抽取，是家庭知识图谱构建的第一步，是指能够从不同来源的数据中进行知识抽取，形成知识存入到家庭知识图谱；包括：

步骤(2)中，利用用户对电影的观看时长自动构建评分机制，获取用户-电影-评分矩阵，包括步骤如下：

步骤(5)中，在上下文感知推荐模型中，对于每一个已知评分r_uic，其目标损失函数L如式(VI)所示：

U_u←U_u+γ·(e_uic·I_i⊙C_c-λ·U_u) (XI)

I_i←I_i+γ·(e_uic·U′_u⊙C_c-λ·I_i) (XII)

C_c←C_c+γ·(e_uic·U′_u⊙I_i-λ-C_c) (XIII)

式(VIII)至式(XIV)中，

本发明方案的RMSE为0.8565，MAE为0.6586，优于现有家庭场景中的推荐效果。

Claims

1.一种基于家庭知识图谱的电影推荐方法，其特征在于，包括步骤如下：

A、构建并训练获取上下文感知推荐模型

(1)构建家庭知识图谱：

家庭知识图谱展示了实体和实体之间的关系，是对现实家庭事物及关系进行形式化地描述，使用三元组D＝(E,C,S)来表示家庭知识图谱，D表示知识库；E＝{e₁,e₂,…e_i,…e_j,…,e_|E|}，表示D中的主体实体集合，主体实体集合中有|E|种主体实体；C＝{c₁,c₂,…,c_i…,c_j…,c_|C|}，表示D中的关系集合，关系集合有|C|种不同的关系；S＝{s₁,s₂,…s_i,…s_j,…,s_|S|}，表示与主体实体集合E对应的客体实体集合，客体实体集合中有|S|种客体实体；三元组D的基本形式为<e_i，c_i，s_i>；

(2)数据预处理：

利用用户对电影的观看时长自动构建评分机制，获取用户-电影-评分矩阵；

(3)构建融入家庭成员相似度的上下文感知推荐模型：

计算用户之间的相似关系，包括步骤如下：

获取家庭知识图谱中与e_v有连接的s_v，e_v是指用户v的主体实体，s_v是指用户v的客体实体，统计客体实体s_v中包含的影视列表I_(v)；

利用所有家庭成员的交互的所有影视信息判断其兴趣相似度，计算家庭成员u,v间的兴趣相似度sim(u,v)，如式(I)所示：