CN114827728B

CN114827728B - 节目数据推荐方法及系统

Info

Publication number: CN114827728B
Application number: CN202210720285.0A
Authority: CN
Inventors: 殷复莲; 邢彤彤; 冯小丽; 吴肇良; 付睿翎; 冀美琪
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2022-09-13
Anticipated expiration: 2042-06-23
Also published as: CN114827728A

Abstract

本发明提供了一种节目数据推荐方法及系统，基于知识图谱与图学习增强表示实现节目数据的推荐，其中的方法包括：从预设用户节目收视数据库中提取训练数据和验证数据；根据训练数据对预设的NPR‑KGER模型进行训练，并根据验证数据和训练好的NPR‑KGER模型确定NPR‑KGER模型的参数和信息的组合方式；根据所述参数和信息的组合方式确定所述NPR‑KGER模型的入模参数；基于所述入模参数和NPR‑KGER模型进行用户观看节目的预测和推荐。本发明通过提出NPR‑KGER算法，利用知识图谱学习邻居用户和邻居节目的2‑hop集合表示，融合节目自身信息与邻居节目集合、用户历史观看行为与邻居用户集合，实现对节目与用户的增强表示，综合提升模型的动态性与泛化性，并提高推荐系统的准确性和排序性指标值。

Description

节目数据推荐方法及系统

技术领域

本发明涉及人工智能领域下的智能推荐领域，更为具体地，涉及一种基于知识图谱与图学习增强表示的节目数据推荐方法及系统。

背景技术

随着互联网逐步进入存量时代，推荐的重要性正在进一步提升，经过信息世界的数据漫灌后，推荐算法能够为相对固定的用户群体更高效地获取价值增量。推荐算法经过市场的检验，在音乐推荐、电子商务、医疗推荐、新闻以及电影等多个领域进行了广泛应用，为不少互联网公司、甚至其他组织机构带来了巨大的便利和收益，逐渐成为互联网中不可或缺的一部分。

现有的节目推荐算法多种多样，比如，中国专利申请CN113613081A公开的一种基于目标节目推荐模型的节目推荐方法与装置，通过提取第一节目向量，计算所述第一节目向量与各个节目推荐模型预设的推荐向量之间的相似度，并进行相似度比较，根据比较结果选取目标节目推荐模型，并将第一节目向量输入至目标节目推荐模型中，得到节目推荐结果。中国专利申请CN106878772A公开的一种节目推荐方法及装置，利用用户的反馈信息，动态的调整节目推荐系统中各节目推荐模型的权重，并根据调整后的权重更新节目推荐列表。然而，现有的广播电视节目推荐在使用辅助信息缓解数据稀疏性方面还不够深入，对于学习用户的动态兴趣与泛化兴趣不够全面，仍存在改进与优化的空间。

因此，研究一种能够更为深入的使用辅助信息缓解数据稀疏性的广播电视节目推荐方案是十分有必要的。

发明内容

鉴于上述问题，本发明的目的是通过提出基于知识图谱和增强表示的神经推荐算法，利用知识图谱学习邻居用户和邻居节目的2-hop集合表示，融合节目自身信息与邻居节目集合、用户历史观看行为与邻居用户集合，实现对节目与用户的增强表示，将其应用于广播电视节目推荐中，综合提升模型的动态性与泛化性，并提高推荐系统的准确性和排序性指标值。

根据本发明的一个方面，提供了一种节目数据推荐方法，用于基于知识图谱与图学习增强表示实现节目数据的推荐，所述方法包括：

从预设用户节目收视数据库中提取规定时间阶段的用户收视数据作为训练数据和验证数据；

根据所述训练数据对预设的NPR-KGER模型进行训练，并根据所述验证数据和训练好的NPR-KGER模型确定所述NPR-KGER模型的参数和信息的组合方式；

在所述规定时间阶段后紧邻的时间周期的节目单中，根据所述参数和信息的组合方式确定所述NPR-KGER模型的入模参数；

基于所述入模参数和所述NPR-KGER模型进行用户观看节目的预测和推荐；

其中，所述NPR-KGER模型包括节目编码器、用户编码器和个性化节目推荐模块；其中，所述节目编码器合并了节目自身信息编码器和2-hop邻居节目编码器；所述用户编码器整合了用户历史观看节目编码器和2-hop邻居用户编码器；所述个性化节目推荐模块用于通过对增强表示的节目编码与用户编码进行点乘计算，得到候选节目会被用户观看的概率，以实现对用户的个性化节目推荐。

根据本发明的另一方面，提供了一种节目数据推荐系统，用于基于知识图谱与图学习增强表示实现节目数据的推荐，所述系统包括：

数据提取单元，用于从预设用户节目收视数据库中提取规定时间阶段的用户收视数据作为训练数据和验证数据；

模型训练、验证单元，用于根据所述训练数据对预设的NPR-KGER模型进行训练，并根据所述验证数据和训练好的NPR-KGER模型确定所述NPR-KGER模型的参数和信息的组合方式；

入参确定单元，用于在所述规定时间阶段后紧邻的时间周期的节目单中，根据所述参数和信息的组合方式确定所述NPR-KGER模型的入模参数；

预测推荐单元，用于基于所述入模参数和所述NPR-KGER模型进行用户观看节目的预测和推荐；

上述根据本发明的节目数据推荐方法及系统，通过提出基于知识图谱与图学习增强表示的神经推荐算法，并探究不同辅助信息组合对模型有效性的影响，一方面将面向节目的异构信息数据，利用神经网络与注意力网络学习节目自身信息编码器与用户历史观看节目编码器；另一方面以用户-节目交互数据为基础，使用知识图谱技术与图学习结构，挖掘用户与节目之间的高阶关联性，整合邻居用户和邻居节目的2-hop集合表示，融合节目自身信息与邻居节目集合、用户历史观看行为与邻居用户集合，学习用户与节目编码的增强表示，最终实现对用户观看节目的合理预测，综合提升模型的动态性与泛化性，并提高推荐系统的准确性和排序性指标值。

为了实现上述以及相关目的，本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而，这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外，本发明旨在包括所有这些方面以及它们的等同物。

附图说明

通过参考以下结合附图的说明及权利要求书的内容，并且随着对本发明的更全面理解，本发明的其它目的及结果将更加明白及易于理解。在附图中：

图1为根据本发明实施例的节目数据推荐方法的流程图；

图2为根据本发明实施例的NPR-KGER模型的训练过程示意图；

图3为根据本发明实施例的节目数据推荐系统的方框示意图。

在所有附图中相同的标号指示相似或相应的特征或功能。

具体实施方式

在下面的描述中，出于说明的目的，为了提供对一个或多个实施例的全面理解，阐述了许多具体细节。然而，很明显，也可以在没有这些具体细节的情况下实现这些实施例。在其它例子中，为了便于描述一个或多个实施例，公知的结构和设备以方框图的形式示出。

随着知识图谱以及图神经网络等技术的发展，这些新兴技术与推荐系统结合备受关注。故本发明提出基于知识图谱与图学习增强表示的神经推荐方案，并探究不同辅助信息组合对模型有效性的影响。该方案的核心在于：一方面将面向节目的异构信息数据，利用神经网络与注意力网络学习节目自身信息编码器与用户历史观看节目编码器；另一方面以用户-节目交互数据为基础，使用知识图谱技术与图学习结构，挖掘用户与节目之间的高阶关联性，学习用户与节目编码的增强表示，最终实现对用户观看节目的合理预测。

以下将结合附图对本发明的具体实施例进行详细描述。

图1示出了根据本发明的节目数据推荐方法的流程图。

如图1所示，本发明提供的节目数据推荐方法，用于基于知识图谱与图学习增强表示实现节目数据的推荐，包括如下步骤：

S110：从预设用户节目收视数据库中提取规定时间阶段的用户收视数据作为训练数据和验证数据；

S120：根据所述训练数据对预设的NPR-KGER模型进行训练，并根据所述验证数据和训练好的NPR-KGER模型确定所述NPR-KGER模型的参数和信息的组合方式；

S130：在所述规定时间阶段后紧邻的时间周期的节目单中根据所述参数和信息的组合方式确定所述NPR-KGER模型的入模参数；

S140：基于所述入模参数和所述NPR-KGER模型进行用户观看节目的预测和推荐。

整体而言，本发明提供的基于知识图谱与图学习增强表示的节目数据推荐方法包括三个数据处理阶段：数据库的构建以及参数设置、模型训练、模型应用。以下将结合上述步骤对这三个数据处理阶段做示例性说明。

数据库的构建以及参数设置

为了训练模型，首先需要获取模型的训练数据，本发明首先从预设用户节目收视数据库中提取规定时间阶段的用户收视数据作为训练数据和验证数据。

具体的，作为示例，本发明使用某地区110个用户于某两个月内的电视节目收视数据作为预设用户节目收视数据。基于该预设用户节目收视数据，平均每个用户包含10140条收视记录，每条收视记录包含用户ID，用户收看的节目、节目所在频道、节目标签、节目播出时间、用户观看时间等信息。

本实施例中，使用前一个月的收视数据中的90%作为模型训练数据集，剩余10%作为模型验证数据集，使用后一个月第一周的收视数据作为模型测试数据集。其中，验证数据主要是在训练模型之后根据验证数据所在时间段的节目单进行用户节目预测验证，以确定模型的参数信息的组合方式；测试数据用来测试模型的有效性。通过构建NPR-KGER（Neutral TV Program Recommendation with Knowledge Graph，基于知识图谱与图学习增强表示的神经电视节目推荐）模型来预测用户在未来一周内观看节目的概率。

对于电视用户来说，只有当一个节目有关的信息符合自己的兴趣偏好时，才会选择观看该节目。对于用户选择观看的节目来说，用户对于每个节目的第一直观认识来源于节目名称，因此，节目名称是他们能够获得的第一条有效且代表性信息；而节目标签是能够涵盖节目特征的短小精悍的词语，可以帮助用户补充了解节目的重要特征，进而匹配用户自身兴趣，因此，节目标签可以用来判断该节目是否符合他们的喜好；节目播放频道则反映了用户的节目观看行为，与用户实际观看习惯息息相关。因此节目名称、标签和频道信息对于节目表示的构建非常重要，本实施例中选择使用“节目名称、标签以及频道”的文本型辅助信息。

由于实验已有的用户-节目收视记录数据中，节目标签只有节目自带的两个标签，因此在本实施例中对节目标签数据进行了进一步补充，通过在互联网影视平台利用数据爬虫技术获得每个节目的标签信息，然后将两者进行整合，汇总得到节目最终的标签数据。由于时间对节目特征的构建和用户动态兴趣的影响，在本实施例中使用了节目的播出时间、用户观看时间等数值型信息数据，将文本型辅助信息和数据型信息数据组合作为推荐模型的输入特征数据。一些带有用户ID、节目名称、标签、频道及播出时间信息展示如下表1所示。

表1 用户ID、节目名称、标签、频道及播出时间信息展示

本发明中，通过NPR-KGER模型使用知识图谱技术学习用户和节目之间的高阶关联，将用户和节目分别作为知识图谱中的两类节点，设定节目的辅助信息作为对应节目节点的属性，连接用户节点和节目节点之间的观看关系表示为边，观看次数的累计表示为边的权重，值得注意的是，本发明规定只有不同类型的节点之间存在连接的边。对于每一个节点，通过一条边连接而成的节点整理为1-hop节点集合，经两条边连接而成的节点整理为2-hop节点集合，最终将该集合中的节点按照对应边的权重降序排列，得到该节点的同类型邻居节点集合。下表2是根据本实施例的部分用户的邻居用户集合展示。下表3是根据本实施例的部分节目的邻居节目集合展示。

表2 部分用户的邻居用户集合展示

表3 部分节目的邻居用户集合展示

本实施例中，设置节目文本类辅助信息词语嵌入维度为300维，节目播出时间信息嵌入维度为100维，注意力网络中使用的查询向量维度为100维，使用全连接Dense层用于统一维度，采用Adam作为模型的优化器，学习率为0.001，批次大小设置为30。根据验证的实验参数结果，设置使用的节目标签个数为4，每次训练中的负样本数为5，用于构建用户表示的观看节目个数为30。在NPR-KGER模型中，设定采用的邻居节目/用户集合长度为H，以5为间隔进行参数验证实验，参数H的取值集合为[5, 10, 15, 20, 25]。

模型训练

本发明提出的模型主要是基于知识图谱与图学习增强表示的节目推荐模型。通过构建模型，可以预测用户在未来一周内观看节目的概率。

具体的，作为示例，本发明中所采用的节目推荐预测模型为NPR-KGER（Neutral TVProgram Recommendation with Knowledge Graph，基于知识图谱与图学习增强表示的神经电视节目推荐）模型，该NPR-KGER模型主要利用知识图谱技术学习用户和节目的2-hop邻居集合，并将邻居集合编码器分别与节目自身信息编码器和用户历史观看节目编码器相结合，完成对节目编码和用户编码的增强表示，实现对用户个性化兴趣推荐的优化建模，提升模型的泛化性。

在本发明的一个具体实施方式中，在上述数据库的构建以及参数设置的基础上对NPR-KGER模型进行预训练，NPR-KGER模型的训练过程如图2所示，具体包括如下步骤：

S210：分别通过所述节目自身信息编码器将所述训练数据中的节目自身信息进行编码为节目自身信息编码表示，以及，通过所述2-hop邻居节目编码器对以所述节目为中心节点的2-hop层节点的2-hop邻居节目进行编码为2-hop邻居节目编码表示；然后通过所述节目编码器节目对所述节目自身信息编码表示与所述2-hop邻居节目编码表示进行拼接操作，得到节目编码表示；

S220：分别通过所述用户历史观看节目编码器将所述节目编码表示与对应节目的注意力权重相结合，得到用户历史观看节目的编码表示，以及，通过所述2-hop邻居用户编码器对以所述用户为中心节点的2-hop层节点的2-hop邻居用户进行编码为2-hop邻居用户编码表示；然后通过所述用户编码器所述将用户的历史观看节目编码表示与2-hop邻居用户编码表示进行拼接操作，得到用户编码表示；

S230：将所述节目编码表示和所述用户编码表示，进行点乘计算和归一化处理，以确定用户对候选节目的观看概率；

S240：根据所述用户对候选节目的观看概率进行节目数据推荐。

与图2所示的模型训练过程相对应，NPR-KGER模型主要包括三个主要模块，分别是基于NPR-KGER模型由节目编码器、用户编码器和个性化节目推荐模块。其中，节目编码器合并了节目自身信息编码器和2-hop邻居节目编码器。用户编码器整合了用户历史观看节目编码器和2-hop邻居用户编码器。个性化节目推荐模块用于通过对增强表示的节目编码与用户编码进行点乘计算，得到候选节目会被用户观看的概率，实现对用户的个性化节目推荐。

具体的，本实例中的节目编码器为融合异构信息与图增强表示的节目编码器。在本实施例的节目编码器中， NPR-KGER模型不仅充分利用了嵌入在节目辅助信息中的语义关联，而且还使用图学习结构来获得节目和用户之间的高阶关联。具体来说，一方面利用节目的异质信息数据，包括节目的名称、标签、频道和播出时间信息来构成节目自身信息编码器。另一方面，利用知识图谱技术构建每个节目的2-top邻居节目集合，使邻居节目ID通过嵌入层和关注网络层，从而得到2-top邻居节目编码器。最后，将节目自身信息编码器和2-top邻居节目编码器这两部分的编码器串联起来，得到整个节目的编码器。

下面将对这两个编码器分别做详细说明。

1）节目自身信息编码器

在节目自身信息编码器中，将每个节目的节目名称信息、标签信息、频道信息以及播出时间信息作为模块的输入数据。

对于节目名称信息，具体的编码表示分为如下三个步骤：

首先，对节目名称信息进行分词和向量化处理。

分词后得到的该节目名称信息的词语表示为

，其中，M是节目名称分词后的词语集合长度。对每个分词后的词语通过使用Word2Vec方法进行处理，将这些词语转化为「可计算」「结构化」的向量，最终整理得到这些词语的向量表示集合为

。

其次，确定分词后的词语之间的语义关联。

由于节目名称信息中词语之间蕴含一定的语义关联，而卷积神经网络CNN可以学习每个词语的上下文语义表示，因此本发明使用CNN和非线性激活函数ReLU学习这些词语之间的语义关联，得到的词语表示为

。该类节目名称信息中第i 个单词

的上下文表示定义如公式（1）所示：

, （1）

其中，

是从

到

的位置的词嵌入的拼接，

和

是CNN 网络中的参数。

最后，确定每个词语的重要性权重。

由于每个词语包含的信息量不同，对于表示节目特征、构建节目编码的重要性也不同。例如在节目名称《加菲猫的幸福生活》中，“加菲猫”是一个卡通形象和猫的品种，而 “幸福”则是具有积极情感倾向的形容词，显然“幸福”比“加菲猫”包含更多的信息，因此学习每个词语的重要性权重是很有必要的。在本发明的一个实施例中，使用注意力机制学习每个词语的重要性，该类节目名称信息中第i个词语

的注意力权重表示如公式（2）-（3）所示：

, （2）

, （3）

其中，

和

是单词级注意力模型中的训练参数，

是注意力模型中的查询向量。将词语的嵌入表示与注意力权重相结合，得到最终的节目名称信息向量表示

如公式（4）所示：

, （4）

对于节目标签信息、频道信息、播出时间信息，具体的编码表示分为如下三个步骤：

首先，对节目标签信息、频道信息、播出时间信息进行预处理。

对于节目标签信息来说，由于节目标签信息包括多个词语，且其中的词语与词语之间不存在语义关联，因此首先对该节目标签信息进行离散化处理，然后通过使用 Word2Vec方法将离散化处理后的节目标签信息转换为数值型向量，所有节目标签信息对应的向量表示集为

, N是节目标签信息的个数。

然后对上述所有节目标签信息的对应的向量表示集进行均值处理，得到平均后的节目标签信息向量表示均值

如公式（5）所示：

, （5）

最后，使用非线性激活函数ReLU函数统一节目标签信息向量表示均值的维度，得到最终的节目标签信息向量表示

如公式（6）所示：

, （6）

其中，

和

是ReLU函数的参数。

对于节目频道的信息来说，由于每个节目频道的信息都为一个词语的形式，因此同节目标签信息的处理方法类似，直接使用Word2Vec方法将其转换为数值型向量，对应的频道信息向量表示为

。对于节目的播出时间信息，可以将所有的播出时间信息数据统一为“XXXX|XX|XX”格式，通过嵌入层对该播出时间信息进行嵌入编码，经Word2Vec方法转换为数值型向量，得到对应的播出时间向量表示为

。

接下来，使用注意力机制对向量表示的节目名称信息、标签信息、频道信息以及播出时间信息这四类信息进行整合，设置节目的节目名称信息注意力权重为

，节目的标签信息注意力权重为

，节目的播放频道信息注意力权重为

，节目的播出时间信息注意力权重为

，各信息的注意力权重的具体计算方法如公式（7）-（14）所示：

其中，公式（7）-（10）是直接通过各类信息查询向量计算得到的四类信息的注意力分值，公式（11）-（14）是进行归一化得到四类信息的每一项的注意力权重。

，

，

，

，

，

，

与

是NPR-KGER模型中的一层注意力网络中的训练参数，由于节目名称、节目标签、频道信息、播出时间四类信息的结构不同，所以该注意力网络为异构注意力网络；

，

，

，

分别为四类信息的信息向量表示（节目名称向量表示、节目标签向量表示、频道信息向量表示、播出时间向量表示），

，

，

与

分别是对四类信息的查询向量。最后，将这些信息的编码表示基于注意力权重加权求和，得到节目

的自身信息编码表示

如公式（15）所示：

（15）

2）2-hop邻居节目编码器

对于每一个节目，可以将该节目视为中心节点，使用用户-节目交互数据构建知识图谱。进而针对该中心节点，学习其1-hop层节点，即找到观看过该节目的历史用户集合

。接下来学习其2-hop层节点，即找到历史用户所有观看过的其他节目，最终将所有最外层节点整理得到每个节目的2-hop邻居节目集合

，H为邻居节目集合的长度。

对该邻居节目集合的所有节目ID进行嵌入编码，得到对应的节目ID表示

，接下来使用注意力机制学习不同邻居节目对中心节目的重要性，设置邻居节目集合中第i个节目ID的注意力权重为

，具体计算方法如公式（16）-（17）所示：

, （16）

, （17）

其中，

与

是注意力模型中的训练参数，

是注意力模型中的查询向量。将每个邻居节目的ID编码表示与对应注意力权重相结合，得到2-hop邻居节目编码表示

如公式（18）所示：

（18）

最终，将节目自身信息编码表示

与2-hop邻居节目编码表示

进行拼接操作，得到用户编码表示

。

对于用户编码器，在本实施例中，用户编码器是融合动态兴趣与图增强表示的用户编码器，它整合了用户历史观看节目编码器和2-hop邻居用户编码器。

在构建用户编码器时，可以使用用户的历史观看节目可以学习用户的兴趣偏好以及动态行为变化，但当用户历史行为较为稀疏时，仅使用历史观看数据很难学习到准确的用户兴趣表示。因此，本发明提出的NPR-KGER模型不仅使用户历史观看节目编码器作为用户编码器的一部分，还通过知识图谱技术学习用户与节目之间的高阶关联，构建邻居用户集合的编码器，最终将这两部分的编码表示整合学习得到的用户编码器的增强表示，实现对用户泛化兴趣的学习，从而改善用户行为数据的稀疏性问题，进而提高推荐模型的泛化能力。下面将分别对用户历史观看节目编码器和2-hop邻居用户编码器分别做具体的示例性说明。

1）用户历史观看节目编码器

在现实生活中，用户的兴趣可以分为两类：相对稳定的长期兴趣和容易变化的短期兴趣。例如，在观看节目的过程中，由于环境和自身价值观等因素的影响，用户会持续关注某类节目。这种大多数用户会一直看晚间新闻和天气预报的收视行为是相对稳定的长期兴趣表现。而用户可能会受到当前时期其他因素的影响。例如，在奥运会期间，用户可能更关注体育节目。当一个新的优质节目出现时，用户可能会转向这种新节目，这是相对不稳定的短期兴趣的体现。因此，从长期和短期的角度来看，很有必要去学习用户兴趣的动态变化，进而改进推荐模型的动态性。

对于用户观看过的节目列表

，通过节目编码器获得对应的节目表示

，将该历史节目列表中的节目按照被用户观看的先后顺序进行排序，使用卷积神经网络CNN层学习用户的短期兴趣表示，使用门控循环单元GRU层学习用户的长序列兴趣表示，得到历史节目列表的编码表示

。最终，通过加入个性化注意力机制，计算节目序列中不同节目对用户兴趣编码的不同重要性。设置用户

对节目

的注意力权重

的计算方法如公式（19）-（20）所示：

, （19）

, （20）

其中，

与

是用户个性化注意力模型中的训练参数，

是注意力模型中的查询向量，K是用户观看的节目数量。将节目编码表示与对应节目的注意力权重相结合，得到用户历史观看节目的编码表示

：

, （21）

2）2-hop邻居节目编码器

对于每一个用户，将该用户视为中心节点，使用用户-节目交互数据构建知识图谱。针对中心节点，学习其1-hop层节点，即找到该用户的历史观看节目集合

。接着学习其2-hop层节点，即找到观看过该历史节目集合的其他用户，最终将所有最外层节点整理得到每个用户的2-hop邻居用户集合

，H为邻居用户集合的长度。

接下来，对该邻居用户集合的所有用户ID进行嵌入编码，得到对应的邻居用户ID 表示

，使用注意力机制学习每个邻居用户对中心用户的重要性，设置邻居用户集合中第i个用户ID的注意力权重为

，具体计算如公式（22）所示：

, （22）

, （23）

其中，

与

是注意力模型中的训练参数，

是注意力模型中的查询向量。将每个邻居用户的ID编码表示与对应注意力权重加权求和，得到2-hop邻居用户编码表示

如公式（24）所示：

（24）

最终，将用户的历史观看节目编码表示

与2-hop邻居用户编码表示

进行拼接操作，得到用户编码表示

。

本实施例中的个性化节目推荐模块，首先使用节目编码器将候选节目

编码表示为节目编码表示

，将用户

的用户编码表示

与其进行点乘计算，并使用Softmax函数对计算结果进行归一化处理，得到用户

对候选节目

的观看概率

，具体计算方法如公式（25）所示：

（25）

其中，

表示节目编码表示

的转置。

应用本发明提出的NPR-KGER模型可以计算出用户观看每个节目的概率。为了评估NPR-KGER模型的有效性，在本发明的一个具体实施例中，使用如下三个评价指标评估NPR-KGER模型的有效性，分别是ROC曲线下面积AUC（Area under the Curve of ROC）、命中率HR（Hits Ratio）以及归一化折损累计增益NDCG（Normalized Discounted CumulativeGain），特别地，NDCG包括NDCG@5与NDCG@10。对于这三个指标来说，均为数值越大时表示推荐系统效果越好。

AUC是ROC曲线下面积，ROC曲线的横坐标是实际为假但判断为真的概率，纵坐标是实际为真且判断也为真的概率。AUC的计算公式如下：

（26）

其中，P是预测用户会观看与用户真实观看的节目集合，

是节目i的排名，

是对所有正样本的序号加和，M是正样本即用户观看过的节目的数量，N是负样本即用户没有观看过的节目的数量。

HR是衡量模型在召回任务的常用指标，核心在于用户想要的东西是否被推荐。HR的计算公式为公式（27）：

（27）

其中，N表示用户观看的节目总数，

取值为0或1，如果模型预测推荐商品i，

取取值为1，否则为0。

NDCG是由折损累计增益DCG与IDCG两部分组成，其中，DCG为每个位置上累计增益与该位置权重的整合值，IDCG是在理想情况下的折损累计增益最大值。NDCG的计算方法如公式（28）所示：

（28）

其中，N为推荐列表长度，

是第i次预测的索引位置（从1开始）。

通过以上实施例可以看出，本发明提供的节目数据推荐方法，是针对广播电视领域的节目推荐系统中节目属性特征以及用户兴趣挖掘不充分问题，采用了电视节目的异质信息数据和神经网络方法来探索节目特征和用户兴趣，考虑到用户兴趣会随时间流逝发生动态变化，学习长期和短期动态兴趣变化的规律，解决模型动态性的问题。在此基础上，针对推荐模型泛化性较差的问题，提出的一种基于知识图谱与图学习增强表示的神经推荐算法（NPR-KGER）模型的节目数据推荐方案，的采用具有异质注意力获取节目和用户编码器的增强表示，以提高模型的泛化性表现。本发明提出的NPR-KGER模型，在AUC、HR、NDCG5、NDCG10等指标上与现有的推荐方法相比均有明显提升。

在模型训练完毕，即可以根据前述10%的验证数据和训练好的NPR-KGER模型，共同确定NPR-KGER模型的参数和信息的组合方式；然后在规定时间阶段后紧邻的时间周期的节目单中根据所确定的参数和信息的组合方式确定NPR-KGER模型的入模参数；并基于所述入模参数和所述NPR-KGER模型进行用户观看节目的预测和推荐。

具体的，作为示例，为了验证本发明的有效性，可以通过实验将NPR-KGER模型与基础推荐算法（如NCF、FM、Wide & Deep、DeepFM、NFM、DAN）以及其他先进推荐模型（如NGCF、LightGCN）进行如下比较。

表4 NPR-KGER模型对比实验结果

*在p < 0.001的标准下，对所有基线方法的改进都是显著的。

从表4中可以看出：

第一，使用了用户-项目图交互结构的NGCF、LightGCN以及深度神经网络DeepFM、NFM、DAN、NPR-KGER模型在排序性指标NDCG5与NDCG10上的表现明显优于NCF模型，这是因为NCF模型只能学习用户-节目的简单交互关系，而图嵌入学习与神经网络都可以学习用户-节目之间的关联特征，从而进行更准确的节目编码表示和用户编码表示，提高模型的推荐性能。

第二， NPR-KGER模型在这些评价指标上均优于其他推荐模型。这是因为NPR-KGER模型在面向异构信息数据，使用神经网络与多层注意力网络学习节目自身编码表示与用户观看节目编码表示的基础上，融合了知识图谱与图学习结构挖掘用户与节目之间的高阶关联，得到每个用户和节目的2-hop邻居集合，并对相应的邻居ID集合进行嵌入编码，通过整合节目自身信息编码器与邻居节目编码器、用户观看节目编码器与邻居用户编码器，最终得到节目与用户编码的增强表示。NPR-KGER模型不仅能够缓解用户历史数据的稀疏性问题，还提高了推荐模型在动态性与泛化性方面的表现。

另外，还可以通过实验探究邻居用户与节目集合长度来验证模型的性能。

为了探究邻居用户与节目集合长度H参数对于模型性能的影响，将H分别取值为[5, 10, 15, 20, 25]，得到的相应指标效果如下表5所示。从表5中可以看出，不同的邻居集合长度H的取值对模型性能有很大影响。当邻居集合中节点个数较少时，忽略了部分邻居对节目编码器与用户编码器的贡献，模型性能仍存在提升空间。当邻居集合中节点个数较多时，过多的邻居ID嵌入表示可能会对模型学习产生干扰，导致模型推荐效果有所下降。当模型参数H取值为15时，即邻居用户与邻居节目集合长度为15时，模型性能最佳。

表5 不同H下的模型指标结果

为了进一步验证NPR-KGER模型的性能，还可以在NPR-KGER模型上进行消融实验探究，实验对象有两个，分别为用于学习用户与节目之间高阶关联性的2-hop邻居节目编码器与2-hop邻居用户编码器。分别将这两个编码器在模型实验中消去，在测试集上得到的实验结果如表6所示。

表6 消融实验结果

从表6中可以看出，第一，添加2-hop邻居用户编码器比添加2-hop邻居节目编码器更能显著提高模型的性能。在NPR-KGER方法中，候选节目可以通过节目名称、标签、频道和播出时间信息直接建模，而当不添加2-hop邻居用户编码器时，候选用户只能通过历史观看的节目表示进行学习。因此，添加2-hop邻居用户编码器，学习邻居用户的ID编码表示可以帮助模型更好地学习用户表示。第二，在模型中加入2-hop邻居用户编码器与2-hop邻居节目编码器时，可以获得最佳的模型性能。通过使用知识图谱技术建立邻居用户与邻居节目集合，依据2-hop图学习得到用户与节目之间的更高阶特征，使得NPR-KGER模型形成了更好的推荐表示。

如上参照图1、图2描述了根据本发明的基于知识图谱与图学习增强表示的节目数据推荐方法。本发明的上述节目数据推荐方法，可以采用软件实现，也可以采用硬件实现，或采用软件和硬件组合的方式实现。

与上述节目数据推荐方法相对应，本发明还提供一种基于知识图谱与图学习增强表示的节目数据推荐系统。图3示出了根据本发明的节目数据推荐系统300的方框示意图。如图3所示，节目数据推荐系统300用于基于知识图谱与图学习增强表示实现节目数据的推荐，包括数据提取单元310、模型训练单元320、模型验证单元330、入参确定单元340以及预测推荐单元350。本发明所述单元也可以称之为模块，指的是一种能够被电子设备的处理器所执行，并且能够完成某一固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

数据提取单元310，用于从预设用户节目收视数据库中提取规定时间阶段的用户收视数据作为训练数据和验证数据；

模型训练单元320，用于根据所述训练数据对预设的NPR-KGER模型进行训练；

模型验证单元330，用于根据所述验证数据和训练好的NPR-KGER模型确定所述NPR-KGER模型的参数和信息的组合方式；

入参确定单元340，用于在所述规定时间阶段后紧邻的时间周期的节目单中根据所述参数和信息的组合方式确定所述NPR-KGER模型的入模参数；

预测推荐单元350，用于基于所述入模参数和所述NPR-KGER模型进行用户观看节目的预测和推荐。

进一步，模型训练单元320还可以包括节目编码器、用户编码器和个性化节目推荐模块；其中，所述节目编码器合并了节目自身信息编码器和2-hop邻居节目编码器；所述用户编码器整合了用户历史观看节目编码器和2-hop邻居用户编码器；所述个性化节目推荐模块用于通过对增强表示的节目编码与用户编码进行数据处理，得到候选节目会被用户观看的概率，以实现对用户的个性化节目推荐。

具体的，所述节目自身信息编码器用于将所述训练数据中的节目自身信息进行编码为节目自身信息编码表示，所述2-hop邻居节目编码器用于对以所述节目为中心节点的2-hop层节点的2-hop邻居节目进行编码为2-hop邻居节目编码表示；所述节目编码器节目用于对所述节目自身信息编码表示与所述2-hop邻居节目编码表示进行拼接操作，得到节目编码表示；

所述用户历史观看节目编码器用于将所述节目编码表示与对应节目的注意力权重相结合，得到用户历史观看节目的编码表示，所述2-hop邻居用户编码器用于对以所述用户为中心节点的2-hop层节点的2-hop邻居用户进行编码为2-hop邻居用户编码表示；所述用户编码器用于将用户的历史观看节目编码表示与2-hop邻居用户编码表示进行拼接操作，得到用户编码表示；

个性化节目推荐模块用于将所述节目编码表示和所述用户编码表示，进行点乘计算和归一化处理，以确定用户对候选节目的观看概率。

本发明所提供的上述基于知识图谱与图学习增强表示的节目数据推荐系统的更为具体的实现方式，均可以参照上述对基于知识图谱与图学习增强表示的节目数据推荐方法的实施例表述，在此不再一一列举。

如上参照附图以示例的方式描述根据本发明的基于知识图谱与图学习增强表示的节目数据推荐方法及系统。但是，本领域技术人员应当理解，对于上述本发明所提出的基于知识图谱与图学习增强表示的节目数据推荐方法及系统，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

1.一种节目数据推荐方法，用于基于知识图谱与图学习增强表示实现节目数据的推荐，所述方法包括：

根据所述训练数据对预设的基于知识图谱与图学习增强表示的神经电视节目推荐NPR-KGER模型进行训练，并根据所述验证数据和训练好的NPR-KGER模型确定所述NPR-KGER模型的参数和信息的组合方式；其中，所述NPR-KGER为Neutral TV ProgramRecommendation with Knowledge Graph and Enhanced Representation；

2.如权利要求1所述的节目数据推荐方法，其中，所述NPR-KGER模型的训练过程包括：

分别通过所述节目自身信息编码器将所述训练数据中的节目自身信息进行编码为节目自身信息编码表示，以及，通过所述2-hop邻居节目编码器对以所述节目为中心节点的2-hop层节点的2-hop邻居节目进行编码为2-hop邻居节目编码表示；然后通过所述节目编码器节目对所述节目自身信息编码表示与所述2-hop邻居节目编码表示进行拼接操作，得到节目编码表示；

分别通过所述用户历史观看节目编码器将所述节目编码表示与对应节目的注意力权重相结合，得到用户历史观看节目的编码表示，以及，通过所述2-hop邻居用户编码器对以所述用户为中心节点的2-hop层节点的2-hop邻居用户进行编码为2-hop邻居用户编码表示；然后通过所述用户编码器将所述用户的历史观看节目编码表示与2-hop邻居用户编码表示进行拼接操作，得到用户编码表示；

将所述节目编码表示和所述用户编码表示，进行点乘计算和归一化处理，以确定用户对候选节目的观看概率；

根据所述用户对候选节目的观看概率进行节目数据推荐。

3.如权利要求2所述的节目数据推荐方法，其中，所述节目自身信息包括每个节目的节目名称信息、标签信息、频道信息以及播出时间信息。

4.如权利要求3所述的节目数据推荐方法，其中，通过所述节目自身信息编码器将所述训练数据中的节目自身信息进行编码为节目自身信息编码表示，包括：

对节目标签信息、频道信息、播出时间信息进行预处理，以确定所述节目标签信息、频道信息、播出时间信息的向量表示信息；

使用注意力机制对所述节目名称信息、标签信息、频道信息以及播出时间信息这四类信息进行整合。

5.如权利要求4所述的节目数据推荐方法，其中，对所述节目标签信息、进行预处理，以确定所述节目标签信息的向量表示信息，包括：

对所述节目标签信息进行离散化处理，然后通过使用Word2Vec方法将离散化处理后的节目标签信息转换为数值型向量，得到所有节目标签信息对应的向量表示集为

, N是节目标签信息的个数；

对所述所有节目标签信息的对应的向量表示集进行均值处理，得到平均后的节目标签信息向量表示均值

：

,

使用非线性激活函数ReLU函数统一所述节目标签信息向量表示均值的维度，得到最终的节目标签信息向量表示

：

,

其中，

和

是ReLU函数的参数。

6.如权利要求5所述的节目数据推荐方法，其中，使用注意力机制对所述节目名称信息、标签信息、频道信息以及播出时间信息进行整合，包括：

设置节目的节目名称信息注意力权重为

，节目的标签信息注意力权重为

，节目的播放频道信息注意力权重为

，节目的播出时间信息注意力权重为

，各信息的注意力权重的具体计算方法如下所示：

其中，

，

，

，

，

，

，

与

是所述NPR-KGER模型中的一层注意力网络中的训练参数，

，

，

与

分别是对所述节目名称信息、标签信息、频道信息以及播出时间信息的查询向量；

将所述节目名称信息、标签信息、频道信息以及播出时间信息的编码表示基于注意力权重加权求和，得到节目

的自身信息编码表示

如下所示：

。

7.如权利要求6所述的节目数据推荐方法，其中，通过所述2-hop邻居节目编码器对以所述节目为中心节点的2-hop层节点的2-hop邻居节目进行编码为2-hop邻居节目编码表示，包括：

对于每一个节目，将所述节目视为中心节点，使用用户-节目交互数据构建知识图谱；

针对所述中心节点，学习其1-hop层节点，找到观看过该节目的历史用户集合

；然后学习其2-hop层节点，找到历史用户所有观看过的其他节目，最终将所有最外层节点整理得到每个节目的2-hop邻居节目集合

，H为邻居节目集合的长度；

对所述邻居节目集合的所有节目ID进行嵌入编码，得到对应的节目ID表示

；

来使用注意力机制学习不同邻居节目对中心节目的重要性，设置邻居节目集合中第i个节目ID的注意力权重为

，

，

，

其中

与

是注意力模型中的训练参数，

是注意力模型中的查询向量；将每个邻居节目的ID编码表示与对应注意力权重相结合，得到2-hop邻居节目编码表示

如下所示：

。

8.如权利要求7所述的节目数据推荐方法，其中，通过所述用户历史观看节目编码器将所述节目编码表示与对应节目的注意力权重相结合，得到用户历史观看节目的编码表示，包括：

将历史节目列表中的节目按照被用户观看的先后顺序进行排序，使用卷积神经网络CNN层学习用户的短期兴趣表示，使用门控循环单元GRU层学习用户的长序列兴趣表示，得到历史节目列表的编码表示

；

通过加入个性化注意力机制，计算节目序列中不同节目对用户兴趣编码的不同重要性；其中，设置用户

对节目

的注意力权重

的计算方法如下所示：

,

,

其中，

与

是用户个性化注意力模型中的训练参数，

是注意力模型中的查询向量，K是用户观看的节目数量；

将节目编码表示与对应节目的注意力权重相结合，得到用户历史观看节目的编码表示

：

。

9.如权利要求2-8中任一项所述的节目数据推荐方法，其中，将所述节目编码表示和所述用户编码表示，进行点乘计算和归一化处理，以确定用户对候选节目的观看概率，包括：

将候选节目

的节目编码表示

和用户

的用户编码表示

进行点乘计算；

使用Softmax函数对所述点乘计算结果进行归一化处理，得到用户

对候选节目

的观看概率

：

；

其中，

表示节目编码表示

的转置。

10.一种节目数据推荐系统，用于基于知识图谱与图学习增强表示实现节目数据的推荐，所述系统包括：

模型训练单元，用于根据所述训练数据对预设的基于知识图谱与图学习增强表示的神经电视节目推荐NPR-KGER模型进行训练；其中，所述NPR-KGER为Neutral TV ProgramRecommendation with Knowledge Graph and Enhanced Representation；

模型验证单元，用于根据所述验证数据和训练好的NPR-KGER模型确定所述NPR-KGER模型的参数和信息的组合方式；