CN114827728B - 节目数据推荐方法及系统 - Google Patents

节目数据推荐方法及系统 Download PDF

Info

Publication number
CN114827728B
CN114827728B CN202210720285.0A CN202210720285A CN114827728B CN 114827728 B CN114827728 B CN 114827728B CN 202210720285 A CN202210720285 A CN 202210720285A CN 114827728 B CN114827728 B CN 114827728B
Authority
CN
China
Prior art keywords
program
user
information
representation
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210720285.0A
Other languages
English (en)
Other versions
CN114827728A (zh
Inventor
殷复莲
邢彤彤
冯小丽
吴肇良
付睿翎
冀美琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN202210720285.0A priority Critical patent/CN114827728B/zh
Publication of CN114827728A publication Critical patent/CN114827728A/zh
Application granted granted Critical
Publication of CN114827728B publication Critical patent/CN114827728B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44222Analytics of user selections, e.g. selection of programs or purchase activity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4666Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4667Processing of monitored end-user data, e.g. trend analysis based on the log file of viewer selections
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4668Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Social Psychology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种节目数据推荐方法及系统,基于知识图谱与图学习增强表示实现节目数据的推荐,其中的方法包括:从预设用户节目收视数据库中提取训练数据和验证数据;根据训练数据对预设的NPR‑KGER模型进行训练,并根据验证数据和训练好的NPR‑KGER模型确定NPR‑KGER模型的参数和信息的组合方式;根据所述参数和信息的组合方式确定所述NPR‑KGER模型的入模参数;基于所述入模参数和NPR‑KGER模型进行用户观看节目的预测和推荐。本发明通过提出NPR‑KGER算法,利用知识图谱学习邻居用户和邻居节目的2‑hop集合表示,融合节目自身信息与邻居节目集合、用户历史观看行为与邻居用户集合,实现对节目与用户的增强表示,综合提升模型的动态性与泛化性,并提高推荐系统的准确性和排序性指标值。

Description

节目数据推荐方法及系统
技术领域
本发明涉及人工智能领域下的智能推荐领域,更为具体地,涉及一种基于知识图谱与图学习增强表示的节目数据推荐方法及系统。
背景技术
随着互联网逐步进入存量时代,推荐的重要性正在进一步提升,经过信息世界的数据漫灌后,推荐算法能够为相对固定的用户群体更高效地获取价值增量。推荐算法经过市场的检验,在音乐推荐、电子商务、医疗推荐、新闻以及电影等多个领域进行了广泛应用,为不少互联网公司、甚至其他组织机构带来了巨大的便利和收益,逐渐成为互联网中不可或缺的一部分。
现有的节目推荐算法多种多样,比如,中国专利申请CN113613081A公开的一种基于目标节目推荐模型的节目推荐方法与装置,通过提取第一节目向量,计算所述第一节目向量与各个节目推荐模型预设的推荐向量之间的相似度,并进行相似度比较,根据比较结果选取目标节目推荐模型,并将第一节目向量输入至目标节目推荐模型中,得到节目推荐结果。中国专利申请CN106878772A公开的一种节目推荐方法及装置,利用用户的反馈信息,动态的调整节目推荐系统中各节目推荐模型的权重,并根据调整后的权重更新节目推荐列表。然而,现有的广播电视节目推荐在使用辅助信息缓解数据稀疏性方面还不够深入,对于学习用户的动态兴趣与泛化兴趣不够全面,仍存在改进与优化的空间。
因此,研究一种能够更为深入的使用辅助信息缓解数据稀疏性的广播电视节目推荐方案是十分有必要的。
发明内容
鉴于上述问题,本发明的目的是通过提出基于知识图谱和增强表示的神经推荐算法,利用知识图谱学习邻居用户和邻居节目的2-hop集合表示,融合节目自身信息与邻居节目集合、用户历史观看行为与邻居用户集合,实现对节目与用户的增强表示,将其应用于广播电视节目推荐中,综合提升模型的动态性与泛化性,并提高推荐系统的准确性和排序性指标值。
根据本发明的一个方面,提供了一种节目数据推荐方法,用于基于知识图谱与图学习增强表示实现节目数据的推荐,所述方法包括:
从预设用户节目收视数据库中提取规定时间阶段的用户收视数据作为训练数据和验证数据;
根据所述训练数据对预设的NPR-KGER模型进行训练,并根据所述验证数据和训练好的NPR-KGER模型确定所述NPR-KGER模型的参数和信息的组合方式;
在所述规定时间阶段后紧邻的时间周期的节目单中,根据所述参数和信息的组合方式确定所述NPR-KGER模型的入模参数;
基于所述入模参数和所述NPR-KGER模型进行用户观看节目的预测和推荐;
其中,所述NPR-KGER模型包括节目编码器、用户编码器和个性化节目推荐模块;其中,所述节目编码器合并了节目自身信息编码器和2-hop邻居节目编码器;所述用户编码器整合了用户历史观看节目编码器和2-hop邻居用户编码器;所述个性化节目推荐模块用于通过对增强表示的节目编码与用户编码进行点乘计算,得到候选节目会被用户观看的概率,以实现对用户的个性化节目推荐。
根据本发明的另一方面,提供了一种节目数据推荐系统,用于基于知识图谱与图学习增强表示实现节目数据的推荐,所述系统包括:
数据提取单元,用于从预设用户节目收视数据库中提取规定时间阶段的用户收视数据作为训练数据和验证数据;
模型训练、验证单元,用于根据所述训练数据对预设的NPR-KGER模型进行训练,并根据所述验证数据和训练好的NPR-KGER模型确定所述NPR-KGER模型的参数和信息的组合方式;
入参确定单元,用于在所述规定时间阶段后紧邻的时间周期的节目单中,根据所述参数和信息的组合方式确定所述NPR-KGER模型的入模参数;
预测推荐单元,用于基于所述入模参数和所述NPR-KGER模型进行用户观看节目的预测和推荐;
其中,所述NPR-KGER模型包括节目编码器、用户编码器和个性化节目推荐模块;其中,所述节目编码器合并了节目自身信息编码器和2-hop邻居节目编码器;所述用户编码器整合了用户历史观看节目编码器和2-hop邻居用户编码器;所述个性化节目推荐模块用于通过对增强表示的节目编码与用户编码进行点乘计算,得到候选节目会被用户观看的概率,以实现对用户的个性化节目推荐。
上述根据本发明的节目数据推荐方法及系统,通过提出基于知识图谱与图学习增强表示的神经推荐算法,并探究不同辅助信息组合对模型有效性的影响,一方面将面向节目的异构信息数据,利用神经网络与注意力网络学习节目自身信息编码器与用户历史观看节目编码器;另一方面以用户-节目交互数据为基础,使用知识图谱技术与图学习结构,挖掘用户与节目之间的高阶关联性,整合邻居用户和邻居节目的2-hop集合表示,融合节目自身信息与邻居节目集合、用户历史观看行为与邻居用户集合,学习用户与节目编码的增强表示,最终实现对用户观看节目的合理预测,综合提升模型的动态性与泛化性,并提高推荐系统的准确性和排序性指标值。
为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等同物。
附图说明
通过参考以下结合附图的说明及权利要求书的内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1为根据本发明实施例的节目数据推荐方法的流程图;
图2为根据本发明实施例的NPR-KGER模型的训练过程示意图;
图3为根据本发明实施例的节目数据推荐系统的方框示意图。
在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施方式
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。在其它例子中,为了便于描述一个或多个实施例,公知的结构和设备以方框图的形式示出。
随着知识图谱以及图神经网络等技术的发展,这些新兴技术与推荐系统结合备受关注。故本发明提出基于知识图谱与图学习增强表示的神经推荐方案,并探究不同辅助信息组合对模型有效性的影响。该方案的核心在于:一方面将面向节目的异构信息数据,利用神经网络与注意力网络学习节目自身信息编码器与用户历史观看节目编码器;另一方面以用户-节目交互数据为基础,使用知识图谱技术与图学习结构,挖掘用户与节目之间的高阶关联性,学习用户与节目编码的增强表示,最终实现对用户观看节目的合理预测。
以下将结合附图对本发明的具体实施例进行详细描述。
图1示出了根据本发明的节目数据推荐方法的流程图。
如图1所示,本发明提供的节目数据推荐方法,用于基于知识图谱与图学习增强表示实现节目数据的推荐,包括如下步骤:
S110:从预设用户节目收视数据库中提取规定时间阶段的用户收视数据作为训练数据和验证数据;
S120:根据所述训练数据对预设的NPR-KGER模型进行训练,并根据所述验证数据和训练好的NPR-KGER模型确定所述NPR-KGER模型的参数和信息的组合方式;
S130:在所述规定时间阶段后紧邻的时间周期的节目单中根据所述参数和信息的组合方式确定所述NPR-KGER模型的入模参数;
S140:基于所述入模参数和所述NPR-KGER模型进行用户观看节目的预测和推荐。
整体而言,本发明提供的基于知识图谱与图学习增强表示的节目数据推荐方法包括三个数据处理阶段:数据库的构建以及参数设置、模型训练、模型应用。以下将结合上述步骤对这三个数据处理阶段做示例性说明。
数据库的构建以及参数设置
为了训练模型,首先需要获取模型的训练数据,本发明首先从预设用户节目收视数据库中提取规定时间阶段的用户收视数据作为训练数据和验证数据。
具体的,作为示例,本发明使用某地区110个用户于某两个月内的电视节目收视数据作为预设用户节目收视数据。基于该预设用户节目收视数据,平均每个用户包含10140条收视记录,每条收视记录包含用户ID,用户收看的节目、节目所在频道、节目标签、节目播出时间、用户观看时间等信息。
本实施例中,使用前一个月的收视数据中的90%作为模型训练数据集,剩余10%作为模型验证数据集,使用后一个月第一周的收视数据作为模型测试数据集。其中,验证数据主要是在训练模型之后根据验证数据所在时间段的节目单进行用户节目预测验证,以确定模型的参数信息的组合方式;测试数据用来测试模型的有效性。通过构建NPR-KGER(Neutral TV Program Recommendation with Knowledge Graph,基于知识图谱与图学习增强表示的神经电视节目推荐)模型来预测用户在未来一周内观看节目的概率。
对于电视用户来说,只有当一个节目有关的信息符合自己的兴趣偏好时,才会选择观看该节目。对于用户选择观看的节目来说,用户对于每个节目的第一直观认识来源于节目名称,因此,节目名称是他们能够获得的第一条有效且代表性信息;而节目标签是能够涵盖节目特征的短小精悍的词语,可以帮助用户补充了解节目的重要特征,进而匹配用户自身兴趣,因此,节目标签可以用来判断该节目是否符合他们的喜好;节目播放频道则反映了用户的节目观看行为,与用户实际观看习惯息息相关。因此节目名称、标签和频道信息对于节目表示的构建非常重要,本实施例中选择使用“节目名称、标签以及频道”的文本型辅助信息。
由于实验已有的用户-节目收视记录数据中,节目标签只有节目自带的两个标签,因此在本实施例中对节目标签数据进行了进一步补充,通过在互联网影视平台利用数据爬虫技术获得每个节目的标签信息,然后将两者进行整合,汇总得到节目最终的标签数据。由于时间对节目特征的构建和用户动态兴趣的影响,在本实施例中使用了节目的播出时间、用户观看时间等数值型信息数据,将文本型辅助信息和数据型信息数据组合作为推荐模型的输入特征数据。一些带有用户ID、节目名称、标签、频道及播出时间信息展示如下表1所示。
表1 用户ID、节目名称、标签、频道及播出时间信息展示
Figure DEST_PATH_IMAGE001
本发明中,通过NPR-KGER模型使用知识图谱技术学习用户和节目之间的高阶关联,将用户和节目分别作为知识图谱中的两类节点,设定节目的辅助信息作为对应节目节点的属性,连接用户节点和节目节点之间的观看关系表示为边,观看次数的累计表示为边的权重,值得注意的是,本发明规定只有不同类型的节点之间存在连接的边。对于每一个节点,通过一条边连接而成的节点整理为1-hop节点集合,经两条边连接而成的节点整理为2-hop节点集合,最终将该集合中的节点按照对应边的权重降序排列,得到该节点的同类型邻居节点集合。下表2是根据本实施例的部分用户的邻居用户集合展示。下表3是根据本实施例的部分节目的邻居节目集合展示。
表2 部分用户的邻居用户集合展示
Figure 991329DEST_PATH_IMAGE002
表3 部分节目的邻居用户集合展示
Figure DEST_PATH_IMAGE003
本实施例中,设置节目文本类辅助信息词语嵌入维度为300维,节目播出时间信息嵌入维度为100维,注意力网络中使用的查询向量维度为100维,使用全连接Dense层用于统一维度,采用Adam作为模型的优化器,学习率为0.001,批次大小设置为30。根据验证的实验参数结果,设置使用的节目标签个数为4,每次训练中的负样本数为5,用于构建用户表示的观看节目个数为30。在NPR-KGER模型中,设定采用的邻居节目/用户集合长度为H,以5为间隔进行参数验证实验,参数H的取值集合为[5, 10, 15, 20, 25]。
模型训练
本发明提出的模型主要是基于知识图谱与图学习增强表示的节目推荐模型。通过构建模型,可以预测用户在未来一周内观看节目的概率。
具体的,作为示例,本发明中所采用的节目推荐预测模型为NPR-KGER(Neutral TVProgram Recommendation with Knowledge Graph,基于知识图谱与图学习增强表示的神经电视节目推荐)模型,该NPR-KGER模型主要利用知识图谱技术学习用户和节目的2-hop邻居集合,并将邻居集合编码器分别与节目自身信息编码器和用户历史观看节目编码器相结合,完成对节目编码和用户编码的增强表示,实现对用户个性化兴趣推荐的优化建模,提升模型的泛化性。
在本发明的一个具体实施方式中,在上述数据库的构建以及参数设置的基础上对NPR-KGER模型进行预训练,NPR-KGER模型的训练过程如图2所示,具体包括如下步骤:
S210:分别通过所述节目自身信息编码器将所述训练数据中的节目自身信息进行编码为节目自身信息编码表示,以及,通过所述2-hop邻居节目编码器对以所述节目为中心节点的2-hop层节点的2-hop邻居节目进行编码为2-hop邻居节目编码表示;然后通过所述节目编码器节目对所述节目自身信息编码表示与所述2-hop邻居节目编码表示进行拼接操作,得到节目编码表示;
S220:分别通过所述用户历史观看节目编码器将所述节目编码表示与对应节目的注意力权重相结合,得到用户历史观看节目的编码表示,以及,通过所述2-hop邻居用户编码器对以所述用户为中心节点的2-hop层节点的2-hop邻居用户进行编码为2-hop邻居用户编码表示;然后通过所述用户编码器所述将用户的历史观看节目编码表示与2-hop邻居用户编码表示进行拼接操作,得到用户编码表示;
S230:将所述节目编码表示和所述用户编码表示,进行点乘计算和归一化处理,以确定用户对候选节目的观看概率;
S240:根据所述用户对候选节目的观看概率进行节目数据推荐。
与图2所示的模型训练过程相对应,NPR-KGER模型主要包括三个主要模块,分别是基于NPR-KGER模型由节目编码器、用户编码器和个性化节目推荐模块。其中,节目编码器合并了节目自身信息编码器和2-hop邻居节目编码器。用户编码器整合了用户历史观看节目编码器和2-hop邻居用户编码器。个性化节目推荐模块用于通过对增强表示的节目编码与用户编码进行点乘计算,得到候选节目会被用户观看的概率,实现对用户的个性化节目推荐。
具体的,本实例中的节目编码器为融合异构信息与图增强表示的节目编码器。在本实施例的节目编码器中, NPR-KGER模型不仅充分利用了嵌入在节目辅助信息中的语义关联,而且还使用图学习结构来获得节目和用户之间的高阶关联。具体来说,一方面利用节目的异质信息数据,包括节目的名称、标签、频道和播出时间信息来构成节目自身信息编码器。另一方面,利用知识图谱技术构建每个节目的2-top邻居节目集合,使邻居节目ID通过嵌入层和关注网络层,从而得到2-top邻居节目编码器。最后,将节目自身信息编码器和2-top邻居节目编码器这两部分的编码器串联起来,得到整个节目的编码器。
下面将对这两个编码器分别做详细说明。
1)节目自身信息编码器
在节目自身信息编码器中,将每个节目的节目名称信息、标签信息、频道信息以及播出时间信息作为模块的输入数据。
对于节目名称信息,具体的编码表示分为如下三个步骤:
首先,对节目名称信息进行分词和向量化处理。
分词后得到的该节目名称信息的词语表示为
Figure 377311DEST_PATH_IMAGE004
,其中,M是节目名称分词 后的词语集合长度。对每个分词后的词语通过使用Word2Vec方法进行处理,将这些词语转 化为「可计算」「结构化」的向量,最终整理得到这些词语的向量表示集合为
Figure DEST_PATH_IMAGE005
其次,确定分词后的词语之间的语义关联。
由于节目名称信息中词语之间蕴含一定的语义关联,而卷积神经网络CNN可以学 习每个词语的上下文语义表示,因此本发明使用CNN和非线性激活函数ReLU学习这些词语 之间的语义关联,得到的词语表示为
Figure 829152DEST_PATH_IMAGE006
。该类节目名称信息中第i 个单词
Figure 630886DEST_PATH_IMAGE007
的上下文表示定义如公式(1)所示:
Figure 648521DEST_PATH_IMAGE008
, (1)
其中,
Figure 736563DEST_PATH_IMAGE009
是从
Figure 410121DEST_PATH_IMAGE010
Figure 140179DEST_PATH_IMAGE011
的位置的词嵌入的拼接,
Figure 215583DEST_PATH_IMAGE012
Figure 740105DEST_PATH_IMAGE013
是CNN 网络中的参数。
最后,确定每个词语的重要性权重。
由于每个词语包含的信息量不同,对于表示节目特征、构建节目编码的重要性也 不同。例如在节目名称《加菲猫的幸福生活》中,“加菲猫”是一个卡通形象和猫的品种,而 “幸福”则是具有积极情感倾向的形容词,显然“幸福”比“加菲猫”包含更多的信息,因此学 习每个词语的重要性权重是很有必要的。在本发明的一个实施例中,使用注意力机制学习 每个词语的重要性,该类节目名称信息中第i个词语
Figure 697697DEST_PATH_IMAGE007
的注意力权重表示如公式(2)-(3) 所示:
Figure 838303DEST_PATH_IMAGE014
, (2)
Figure 564951DEST_PATH_IMAGE015
, (3)
其中,
Figure 401320DEST_PATH_IMAGE016
Figure 846208DEST_PATH_IMAGE017
是单词级注意力模型中的训练参数,
Figure 652490DEST_PATH_IMAGE018
是注意力模型中的查 询向量。将词语的嵌入表示与注意力权重相结合,得到最终的节目名称信息向量表示
Figure 702485DEST_PATH_IMAGE019
如 公式(4)所示:
Figure 568810DEST_PATH_IMAGE020
, (4)
对于节目标签信息、频道信息、播出时间信息,具体的编码表示分为如下三个步骤:
首先,对节目标签信息、频道信息、播出时间信息进行预处理。
对于节目标签信息来说,由于节目标签信息包括多个词语,且其中的词语与词语 之间不存在语义关联,因此首先对该节目标签信息进行离散化处理,然后通过使用 Word2Vec方法将离散化处理后的节目标签信息转换为数值型向量,所有节目标签信息对应 的向量表示集为
Figure 438677DEST_PATH_IMAGE021
, N是节目标签信息的个数。
然后对上述所有节目标签信息的对应的向量表示集进行均值处理,得到平均后的 节目标签信息向量表示均值
Figure 48650DEST_PATH_IMAGE022
如公式(5)所示:
Figure 953152DEST_PATH_IMAGE023
, (5)
最后,使用非线性激活函数ReLU函数统一节目标签信息向量表示均值的维度,得 到最终的节目标签信息向量表示
Figure 928061DEST_PATH_IMAGE024
如公式(6)所示:
Figure 409858DEST_PATH_IMAGE025
, (6)
其中,
Figure 526037DEST_PATH_IMAGE026
Figure 144100DEST_PATH_IMAGE027
是ReLU函数的参数。
对于节目频道的信息来说,由于每个节目频道的信息都为一个词语的形式,因此 同节目标签信息的处理方法类似,直接使用Word2Vec方法将其转换为数值型向量,对应的 频道信息向量表示为
Figure 493173DEST_PATH_IMAGE028
。对于节目的播出时间信息,可以将所有的播出时间信息数据统一 为“XXXX|XX|XX”格式,通过嵌入层对该播出时间信息进行嵌入编码,经Word2Vec方法转换 为数值型向量,得到对应的播出时间向量表示为
Figure 462266DEST_PATH_IMAGE029
接下来,使用注意力机制对向量表示的节目名称信息、标签信息、频道信息以及播 出时间信息这四类信息进行整合,设置节目的节目名称信息注意力权重为
Figure 289407DEST_PATH_IMAGE030
,节目的标签 信息注意力权重为
Figure 965239DEST_PATH_IMAGE031
,节目的播放频道信息注意力权重为
Figure 609847DEST_PATH_IMAGE032
,节目的播出时间信息注意 力权重为
Figure 941603DEST_PATH_IMAGE033
,各信息的注意力权重的具体计算方法如公式(7)-(14)所示:
Figure 697069DEST_PATH_IMAGE034
其中,公式(7)-(10)是直接通过各类信息查询向量计算得到的四类信息的注意力 分值,公式(11)-(14)是进行归一化得到四类信息的每一项的注意力权重。
Figure 899512DEST_PATH_IMAGE035
Figure 715021DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
Figure 737335DEST_PATH_IMAGE038
Figure 30913DEST_PATH_IMAGE039
Figure 412828DEST_PATH_IMAGE040
Figure 9025DEST_PATH_IMAGE041
Figure 440007DEST_PATH_IMAGE042
是NPR-KGER模型中的一层注意力网络中的训练参数,由于节目名称、节 目标签、频道信息、播出时间四类信息的结构不同,所以该注意力网络为异构注意力网络;
Figure 412642DEST_PATH_IMAGE019
Figure 245469DEST_PATH_IMAGE024
Figure 12568DEST_PATH_IMAGE028
Figure 665266DEST_PATH_IMAGE029
分别为四类信息的信息向量表示(节目名称向量表示、节目标签向量表 示、频道信息向量表示、播出时间向量表示),
Figure 441592DEST_PATH_IMAGE043
Figure 269871DEST_PATH_IMAGE044
Figure 598084DEST_PATH_IMAGE045
Figure 410182DEST_PATH_IMAGE046
分别是对四类信息的查询向 量。最后,将这些信息的编码表示基于注意力权重加权求和,得到节目
Figure 990199DEST_PATH_IMAGE047
的自身信息编码表 示
Figure 532039DEST_PATH_IMAGE048
如公式(15)所示:
Figure 909449DEST_PATH_IMAGE049
(15)
2)2-hop邻居节目编码器
对于每一个节目,可以将该节目视为中心节点,使用用户-节目交互数据构建知识 图谱。进而针对该中心节点,学习其1-hop层节点,即找到观看过该节目的历史用户集合
Figure 271160DEST_PATH_IMAGE050
。接下来学习其2-hop层节点,即找到历史用户所有观看过的其他节目,最终将 所有最外层节点整理得到每个节目的2-hop邻居节目集合
Figure 389289DEST_PATH_IMAGE051
H为邻居 节目集合的长度。
对该邻居节目集合的所有节目ID进行嵌入编码,得到对应的节目ID表示
Figure 785635DEST_PATH_IMAGE052
,接下来使用注意力机制学习不同邻居节目对中心节 目的重要性,设置邻居节目集合中第i个节目ID的注意力权重为
Figure 331017DEST_PATH_IMAGE053
,具体计算方法如公式 (16)-(17)所示:
Figure 117708DEST_PATH_IMAGE054
, (16)
Figure 898582DEST_PATH_IMAGE055
, (17)
其中,
Figure 290380DEST_PATH_IMAGE056
Figure 131297DEST_PATH_IMAGE057
是注意力模型中的训练参数,
Figure 608546DEST_PATH_IMAGE058
是注意力模型中的查询向 量。将每个邻居节目的ID编码表示与对应注意力权重相结合,得到2-hop邻居节目编码表示
Figure 927532DEST_PATH_IMAGE059
如公式(18)所示:
Figure 173837DEST_PATH_IMAGE060
(18)
最终,将节目自身信息编码表示
Figure 185655DEST_PATH_IMAGE061
与2-hop邻居节目编码表示
Figure 884621DEST_PATH_IMAGE059
进行拼接操 作,得到用户编码表示
Figure 272877DEST_PATH_IMAGE062
对于用户编码器,在本实施例中,用户编码器是融合动态兴趣与图增强表示的用户编码器,它整合了用户历史观看节目编码器和2-hop邻居用户编码器。
在构建用户编码器时,可以使用用户的历史观看节目可以学习用户的兴趣偏好以及动态行为变化,但当用户历史行为较为稀疏时,仅使用历史观看数据很难学习到准确的用户兴趣表示。因此,本发明提出的NPR-KGER模型不仅使用户历史观看节目编码器作为用户编码器的一部分,还通过知识图谱技术学习用户与节目之间的高阶关联,构建邻居用户集合的编码器,最终将这两部分的编码表示整合学习得到的用户编码器的增强表示,实现对用户泛化兴趣的学习,从而改善用户行为数据的稀疏性问题,进而提高推荐模型的泛化能力。下面将分别对用户历史观看节目编码器和2-hop邻居用户编码器分别做具体的示例性说明。
1)用户历史观看节目编码器
在现实生活中,用户的兴趣可以分为两类:相对稳定的长期兴趣和容易变化的短期兴趣。例如,在观看节目的过程中,由于环境和自身价值观等因素的影响,用户会持续关注某类节目。这种大多数用户会一直看晚间新闻和天气预报的收视行为是相对稳定的长期兴趣表现。而用户可能会受到当前时期其他因素的影响。例如,在奥运会期间,用户可能更关注体育节目。当一个新的优质节目出现时,用户可能会转向这种新节目,这是相对不稳定的短期兴趣的体现。因此,从长期和短期的角度来看,很有必要去学习用户兴趣的动态变化,进而改进推荐模型的动态性。
对于用户观看过的节目列表
Figure 370758DEST_PATH_IMAGE063
,通过节目编码器获得对应的节目表示
Figure 553478DEST_PATH_IMAGE064
,将该历史节目列表中的节目按照被用户观看的先后顺序进行排序,使用卷积 神经网络CNN层学习用户的短期兴趣表示,使用门控循环单元GRU层学习用户的长序列兴趣 表示,得到历史节目列表的编码表示
Figure 5319DEST_PATH_IMAGE065
。最终,通过加入个性化注意力机制, 计算节目序列中不同节目对用户兴趣编码的不同重要性。设置用户
Figure 931687DEST_PATH_IMAGE066
对节目
Figure 418163DEST_PATH_IMAGE047
的注意力权 重
Figure 912729DEST_PATH_IMAGE067
的计算方法如公式(19)-(20)所示:
Figure 710921DEST_PATH_IMAGE068
, (19)
Figure 316346DEST_PATH_IMAGE069
, (20)
其中,
Figure 250804DEST_PATH_IMAGE037
Figure 916271DEST_PATH_IMAGE041
是用户个性化注意力模型中的训练参数,
Figure 201759DEST_PATH_IMAGE045
是注意力模型中的查询 向量,K是用户观看的节目数量。将节目编码表示与对应节目的注意力权重相结合,得到用 户历史观看节目的编码表示
Figure 345296DEST_PATH_IMAGE070
Figure 399839DEST_PATH_IMAGE071
, (21)
2)2-hop邻居节目编码器
对于每一个用户,将该用户视为中心节点,使用用户-节目交互数据构建知识图 谱。针对中心节点,学习其1-hop层节点,即找到该用户的历史观看节目集合
Figure 236208DEST_PATH_IMAGE072
。接 着学习其2-hop层节点,即找到观看过该历史节目集合的其他用户,最终将所有最外层节点 整理得到每个用户的2-hop邻居用户集合
Figure 743413DEST_PATH_IMAGE073
H为邻居用户集合的长 度。
接下来,对该邻居用户集合的所有用户ID进行嵌入编码,得到对应的邻居用户ID 表示
Figure 478589DEST_PATH_IMAGE074
,使用注意力机制学习每个邻居用户对中心用户的重要 性,设置邻居用户集合中第i个用户ID的注意力权重为
Figure 528585DEST_PATH_IMAGE075
,具体计算如公式(22)所示:
Figure 394910DEST_PATH_IMAGE076
, (22)
Figure 530356DEST_PATH_IMAGE077
, (23)
其中,
Figure 874749DEST_PATH_IMAGE078
Figure 920197DEST_PATH_IMAGE079
是注意力模型中的训练参数,
Figure 36052DEST_PATH_IMAGE080
是注意力模型中的查询向 量。将每个邻居用户的ID编码表示与对应注意力权重加权求和,得到2-hop邻居用户编码表 示
Figure 783428DEST_PATH_IMAGE081
如公式(24)所示:
Figure 866266DEST_PATH_IMAGE082
(24)
最终,将用户的历史观看节目编码表示
Figure 359695DEST_PATH_IMAGE070
与2-hop邻居用户编码表示
Figure 833402DEST_PATH_IMAGE081
进行拼 接操作,得到用户编码表示
Figure 677861DEST_PATH_IMAGE083
本实施例中的个性化节目推荐模块,首先使用节目编码器将候选节目
Figure 629637DEST_PATH_IMAGE047
编码表示 为节目编码表示
Figure 446414DEST_PATH_IMAGE084
,将用户
Figure 825443DEST_PATH_IMAGE066
的用户编码表示
Figure 157198DEST_PATH_IMAGE085
与其进行点乘计算,并使用Softmax函数对计 算结果进行归一化处理,得到用户
Figure 912664DEST_PATH_IMAGE066
对候选节目
Figure 646265DEST_PATH_IMAGE047
的观看概率
Figure 461774DEST_PATH_IMAGE086
,具体计算方法如公式 (25)所示:
Figure 280826DEST_PATH_IMAGE087
(25)
其中,
Figure 574404DEST_PATH_IMAGE088
表示节目编码表示
Figure 962179DEST_PATH_IMAGE084
的转置。
应用本发明提出的NPR-KGER模型可以计算出用户观看每个节目的概率。为了评估NPR-KGER模型的有效性,在本发明的一个具体实施例中,使用如下三个评价指标评估NPR-KGER模型的有效性,分别是ROC曲线下面积AUC(Area under the Curve of ROC)、命中率HR(Hits Ratio)以及归一化折损累计增益NDCG(Normalized Discounted CumulativeGain),特别地,NDCG包括NDCG@5与NDCG@10。对于这三个指标来说,均为数值越大时表示推荐系统效果越好。
AUC是ROC曲线下面积,ROC曲线的横坐标是实际为假但判断为真的概率,纵坐标是实际为真且判断也为真的概率。AUC的计算公式如下:
Figure 823955DEST_PATH_IMAGE089
(26)
其中,P是预测用户会观看与用户真实观看的节目集合,
Figure 254937DEST_PATH_IMAGE090
是节目i的排名,
Figure 227572DEST_PATH_IMAGE091
是对所有正样本的序号加和,M是正样本即用户观看过的节目的数量,N是 负样本即用户没有观看过的节目的数量。
HR是衡量模型在召回任务的常用指标,核心在于用户想要的东西是否被推荐。HR的计算公式为公式(27):
Figure 935765DEST_PATH_IMAGE092
(27)
其中,N表示用户观看的节目总数,
Figure 93077DEST_PATH_IMAGE093
取值为0或1,如果模型预测推荐商品i
Figure 886720DEST_PATH_IMAGE093
取取值为1,否则为0。
NDCG是由折损累计增益DCG与IDCG两部分组成,其中,DCG为每个位置上累计增益与该位置权重的整合值,IDCG是在理想情况下的折损累计增益最大值。NDCG的计算方法如公式(28)所示:
Figure 522101DEST_PATH_IMAGE094
(28)
其中,N为推荐列表长度,
Figure 615959DEST_PATH_IMAGE095
是第i次预测的索引位置(从1开始)。
通过以上实施例可以看出,本发明提供的节目数据推荐方法,是针对广播电视领域的节目推荐系统中节目属性特征以及用户兴趣挖掘不充分问题,采用了电视节目的异质信息数据和神经网络方法来探索节目特征和用户兴趣,考虑到用户兴趣会随时间流逝发生动态变化,学习长期和短期动态兴趣变化的规律,解决模型动态性的问题。在此基础上,针对推荐模型泛化性较差的问题,提出的一种基于知识图谱与图学习增强表示的神经推荐算法(NPR-KGER)模型的节目数据推荐方案,的采用具有异质注意力获取节目和用户编码器的增强表示,以提高模型的泛化性表现。本发明提出的NPR-KGER模型,在AUC、HR、NDCG5、NDCG10等指标上与现有的推荐方法相比均有明显提升。
在模型训练完毕,即可以根据前述10%的验证数据和训练好的NPR-KGER模型,共同确定NPR-KGER模型的参数和信息的组合方式;然后在规定时间阶段后紧邻的时间周期的节目单中根据所确定的参数和信息的组合方式确定NPR-KGER模型的入模参数;并基于所述入模参数和所述NPR-KGER模型进行用户观看节目的预测和推荐。
具体的,作为示例,为了验证本发明的有效性,可以通过实验将NPR-KGER模型与基础推荐算法(如NCF、FM、Wide & Deep、DeepFM、NFM、DAN)以及其他先进推荐模型(如NGCF、LightGCN)进行如下比较。
表4 NPR-KGER模型对比实验结果
Figure 819538DEST_PATH_IMAGE096
*在p < 0.001的标准下,对所有基线方法的改进都是显著的。
从表4中可以看出:
第一,使用了用户-项目图交互结构的NGCF、LightGCN以及深度神经网络DeepFM、NFM、DAN、NPR-KGER模型在排序性指标NDCG5与NDCG10上的表现明显优于NCF模型,这是因为NCF模型只能学习用户-节目的简单交互关系,而图嵌入学习与神经网络都可以学习用户-节目之间的关联特征,从而进行更准确的节目编码表示和用户编码表示,提高模型的推荐性能。
第二, NPR-KGER模型在这些评价指标上均优于其他推荐模型。这是因为NPR-KGER模型在面向异构信息数据,使用神经网络与多层注意力网络学习节目自身编码表示与用户观看节目编码表示的基础上,融合了知识图谱与图学习结构挖掘用户与节目之间的高阶关联,得到每个用户和节目的2-hop邻居集合,并对相应的邻居ID集合进行嵌入编码,通过整合节目自身信息编码器与邻居节目编码器、用户观看节目编码器与邻居用户编码器,最终得到节目与用户编码的增强表示。NPR-KGER模型不仅能够缓解用户历史数据的稀疏性问题,还提高了推荐模型在动态性与泛化性方面的表现。
另外,还可以通过实验探究邻居用户与节目集合长度来验证模型的性能。
为了探究邻居用户与节目集合长度H参数对于模型性能的影响,将H分别取值为[5, 10, 15, 20, 25],得到的相应指标效果如下表5所示。从表5中可以看出,不同的邻居集合长度H的取值对模型性能有很大影响。当邻居集合中节点个数较少时,忽略了部分邻居对节目编码器与用户编码器的贡献,模型性能仍存在提升空间。当邻居集合中节点个数较多时,过多的邻居ID嵌入表示可能会对模型学习产生干扰,导致模型推荐效果有所下降。当模型参数H取值为15时,即邻居用户与邻居节目集合长度为15时,模型性能最佳。
表5 不同H下的模型指标结果
Figure 97549DEST_PATH_IMAGE097
为了进一步验证NPR-KGER模型的性能,还可以在NPR-KGER模型上进行消融实验探究,实验对象有两个,分别为用于学习用户与节目之间高阶关联性的2-hop邻居节目编码器与2-hop邻居用户编码器。分别将这两个编码器在模型实验中消去,在测试集上得到的实验结果如表6所示。
表6 消融实验结果
Figure 943145DEST_PATH_IMAGE098
从表6中可以看出,第一,添加2-hop邻居用户编码器比添加2-hop邻居节目编码器更能显著提高模型的性能。在NPR-KGER方法中,候选节目可以通过节目名称、标签、频道和播出时间信息直接建模,而当不添加2-hop邻居用户编码器时,候选用户只能通过历史观看的节目表示进行学习。因此,添加2-hop邻居用户编码器,学习邻居用户的ID编码表示可以帮助模型更好地学习用户表示。第二,在模型中加入2-hop邻居用户编码器与2-hop邻居节目编码器时,可以获得最佳的模型性能。通过使用知识图谱技术建立邻居用户与邻居节目集合,依据2-hop图学习得到用户与节目之间的更高阶特征,使得NPR-KGER模型形成了更好的推荐表示。
如上参照图1、图2描述了根据本发明的基于知识图谱与图学习增强表示的节目数据推荐方法。本发明的上述节目数据推荐方法,可以采用软件实现,也可以采用硬件实现,或采用软件和硬件组合的方式实现。
与上述节目数据推荐方法相对应,本发明还提供一种基于知识图谱与图学习增强表示的节目数据推荐系统。图3示出了根据本发明的节目数据推荐系统300的方框示意图。如图3所示,节目数据推荐系统300用于基于知识图谱与图学习增强表示实现节目数据的推荐,包括数据提取单元310、模型训练单元320、模型验证单元330、入参确定单元340以及预测推荐单元350。本发明所述单元也可以称之为模块,指的是一种能够被电子设备的处理器所执行,并且能够完成某一固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
数据提取单元310,用于从预设用户节目收视数据库中提取规定时间阶段的用户收视数据作为训练数据和验证数据;
模型训练单元320,用于根据所述训练数据对预设的NPR-KGER模型进行训练;
模型验证单元330,用于根据所述验证数据和训练好的NPR-KGER模型确定所述NPR-KGER模型的参数和信息的组合方式;
入参确定单元340,用于在所述规定时间阶段后紧邻的时间周期的节目单中根据所述参数和信息的组合方式确定所述NPR-KGER模型的入模参数;
预测推荐单元350,用于基于所述入模参数和所述NPR-KGER模型进行用户观看节目的预测和推荐。
进一步,模型训练单元320还可以包括节目编码器、用户编码器和个性化节目推荐模块;其中,所述节目编码器合并了节目自身信息编码器和2-hop邻居节目编码器;所述用户编码器整合了用户历史观看节目编码器和2-hop邻居用户编码器;所述个性化节目推荐模块用于通过对增强表示的节目编码与用户编码进行数据处理,得到候选节目会被用户观看的概率,以实现对用户的个性化节目推荐。
具体的,所述节目自身信息编码器用于将所述训练数据中的节目自身信息进行编码为节目自身信息编码表示,所述2-hop邻居节目编码器用于对以所述节目为中心节点的2-hop层节点的2-hop邻居节目进行编码为2-hop邻居节目编码表示;所述节目编码器节目用于对所述节目自身信息编码表示与所述2-hop邻居节目编码表示进行拼接操作,得到节目编码表示;
所述用户历史观看节目编码器用于将所述节目编码表示与对应节目的注意力权重相结合,得到用户历史观看节目的编码表示,所述2-hop邻居用户编码器用于对以所述用户为中心节点的2-hop层节点的2-hop邻居用户进行编码为2-hop邻居用户编码表示;所述用户编码器用于将用户的历史观看节目编码表示与2-hop邻居用户编码表示进行拼接操作,得到用户编码表示;
个性化节目推荐模块用于将所述节目编码表示和所述用户编码表示,进行点乘计算和归一化处理,以确定用户对候选节目的观看概率。
本发明所提供的上述基于知识图谱与图学习增强表示的节目数据推荐系统的更为具体的实现方式,均可以参照上述对基于知识图谱与图学习增强表示的节目数据推荐方法的实施例表述,在此不再一一列举。
如上参照附图以示例的方式描述根据本发明的基于知识图谱与图学习增强表示的节目数据推荐方法及系统。但是,本领域技术人员应当理解,对于上述本发明所提出的基于知识图谱与图学习增强表示的节目数据推荐方法及系统,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。

Claims (10)

1.一种节目数据推荐方法,用于基于知识图谱与图学习增强表示实现节目数据的推荐,所述方法包括:
从预设用户节目收视数据库中提取规定时间阶段的用户收视数据作为训练数据和验证数据;
根据所述训练数据对预设的基于知识图谱与图学习增强表示的神经电视节目推荐NPR-KGER模型进行训练,并根据所述验证数据和训练好的NPR-KGER模型确定所述NPR-KGER模型的参数和信息的组合方式;其中,所述NPR-KGER为Neutral TV ProgramRecommendation with Knowledge Graph and Enhanced Representation;
在所述规定时间阶段后紧邻的时间周期的节目单中,根据所述参数和信息的组合方式确定所述NPR-KGER模型的入模参数;
基于所述入模参数和所述NPR-KGER模型进行用户观看节目的预测和推荐;
其中,所述NPR-KGER模型包括节目编码器、用户编码器和个性化节目推荐模块;其中,所述节目编码器合并了节目自身信息编码器和2-hop邻居节目编码器;所述用户编码器整合了用户历史观看节目编码器和2-hop邻居用户编码器;所述个性化节目推荐模块用于通过对增强表示的节目编码与用户编码进行点乘计算,得到候选节目会被用户观看的概率,以实现对用户的个性化节目推荐。
2.如权利要求1所述的节目数据推荐方法,其中,所述NPR-KGER模型的训练过程包括:
分别通过所述节目自身信息编码器将所述训练数据中的节目自身信息进行编码为节目自身信息编码表示,以及,通过所述2-hop邻居节目编码器对以所述节目为中心节点的2-hop层节点的2-hop邻居节目进行编码为2-hop邻居节目编码表示;然后通过所述节目编码器节目对所述节目自身信息编码表示与所述2-hop邻居节目编码表示进行拼接操作,得到节目编码表示;
分别通过所述用户历史观看节目编码器将所述节目编码表示与对应节目的注意力权重相结合,得到用户历史观看节目的编码表示,以及,通过所述2-hop邻居用户编码器对以所述用户为中心节点的2-hop层节点的2-hop邻居用户进行编码为2-hop邻居用户编码表示;然后通过所述用户编码器将所述用户的历史观看节目编码表示与2-hop邻居用户编码表示进行拼接操作,得到用户编码表示;
将所述节目编码表示和所述用户编码表示,进行点乘计算和归一化处理,以确定用户对候选节目的观看概率;
根据所述用户对候选节目的观看概率进行节目数据推荐。
3.如权利要求2所述的节目数据推荐方法,其中,所述节目自身信息包括每个节目的节目名称信息、标签信息、频道信息以及播出时间信息。
4.如权利要求3所述的节目数据推荐方法,其中,通过所述节目自身信息编码器将所述训练数据中的节目自身信息进行编码为节目自身信息编码表示,包括:
对节目标签信息、频道信息、播出时间信息进行预处理,以确定所述节目标签信息、频道信息、播出时间信息的向量表示信息;
使用注意力机制对所述节目名称信息、标签信息、频道信息以及播出时间信息这四类信息进行整合。
5.如权利要求4所述的节目数据推荐方法,其中,对所述节目标签信息、进行预处理,以确定所述节目标签信息的向量表示信息,包括:
对所述节目标签信息进行离散化处理,然后通过使用Word2Vec方法将离散化处理后的节目标签信息转换为数值型向量,得到所有节目标签信息对应的向量表示集为
Figure 455559DEST_PATH_IMAGE001
, N是节目标签信息的个数;
对所述所有节目标签信息的对应的向量表示集进行均值处理,得到平均后的节目标签信息向量表示均值
Figure 147571DEST_PATH_IMAGE002
Figure 71534DEST_PATH_IMAGE003
,
使用非线性激活函数ReLU函数统一所述节目标签信息向量表示均值的维度,得到最终的节目标签信息向量表示
Figure 329340DEST_PATH_IMAGE004
Figure 696867DEST_PATH_IMAGE005
,
其中,
Figure 859864DEST_PATH_IMAGE006
Figure 72671DEST_PATH_IMAGE007
是ReLU函数的参数。
6.如权利要求5所述的节目数据推荐方法,其中,使用注意力机制对所述节目名称信息、标签信息、频道信息以及播出时间信息进行整合,包括:
设置节目的节目名称信息注意力权重为
Figure 903093DEST_PATH_IMAGE008
,节目的标签信息注意力权重为
Figure 175942DEST_PATH_IMAGE009
,节目的播放频道信息注意力权重为
Figure 91814DEST_PATH_IMAGE010
,节目的播出时间信息注意力权重为
Figure 108312DEST_PATH_IMAGE011
,各信息的注意力权重的具体计算方法如下所示:
Figure 589978DEST_PATH_IMAGE012
Figure 502570DEST_PATH_IMAGE013
其中,
Figure 640159DEST_PATH_IMAGE014
Figure 460348DEST_PATH_IMAGE015
Figure 271221DEST_PATH_IMAGE016
Figure 151452DEST_PATH_IMAGE017
Figure 776337DEST_PATH_IMAGE018
Figure 134638DEST_PATH_IMAGE019
Figure 794158DEST_PATH_IMAGE020
Figure 845291DEST_PATH_IMAGE021
是所述NPR-KGER模型中的一层注意力网络中的训练参数,
Figure 957472DEST_PATH_IMAGE022
Figure 119463DEST_PATH_IMAGE023
Figure 571173DEST_PATH_IMAGE024
Figure 42474DEST_PATH_IMAGE025
分别是对所述节目名称信息、标签信息、频道信息以及播出时间信息的查询向量;
将所述节目名称信息、标签信息、频道信息以及播出时间信息的编码表示基于注意力权重加权求和,得到节目
Figure 189422DEST_PATH_IMAGE026
的自身信息编码表示
Figure 607634DEST_PATH_IMAGE027
如下所示:
Figure 726900DEST_PATH_IMAGE028
7.如权利要求6所述的节目数据推荐方法,其中,通过所述2-hop邻居节目编码器对以所述节目为中心节点的2-hop层节点的2-hop邻居节目进行编码为2-hop邻居节目编码表示,包括:
对于每一个节目,将所述节目视为中心节点,使用用户-节目交互数据构建知识图谱;
针对所述中心节点,学习其1-hop层节点,找到观看过该节目的历史用户集合
Figure 103523DEST_PATH_IMAGE029
;然后学习其2-hop层节点,找到历史用户所有观看过的其他节目,最终将所有最外层节点整理得到每个节目的2-hop邻居节目集合
Figure 206608DEST_PATH_IMAGE030
H为邻居节目集合的长度;
对所述邻居节目集合的所有节目ID进行嵌入编码,得到对应的节目ID表示
Figure 789748DEST_PATH_IMAGE031
来使用注意力机制学习不同邻居节目对中心节目的重要性,设置邻居节目集合中第i个节目ID的注意力权重为
Figure 232361DEST_PATH_IMAGE032
Figure 779886DEST_PATH_IMAGE033
Figure 104688DEST_PATH_IMAGE034
其中
Figure 661441DEST_PATH_IMAGE035
Figure 755299DEST_PATH_IMAGE036
是注意力模型中的训练参数,
Figure 739304DEST_PATH_IMAGE037
是注意力模型中的查询向量;将每个邻居节目的ID编码表示与对应注意力权重相结合,得到2-hop邻居节目编码表示
Figure 285823DEST_PATH_IMAGE038
如下所示:
Figure 849528DEST_PATH_IMAGE039
8.如权利要求7所述的节目数据推荐方法,其中,通过所述用户历史观看节目编码器将所述节目编码表示与对应节目的注意力权重相结合,得到用户历史观看节目的编码表示,包括:
将历史节目列表中的节目按照被用户观看的先后顺序进行排序,使用卷积神经网络CNN层学习用户的短期兴趣表示,使用门控循环单元GRU层学习用户的长序列兴趣表示,得到历史节目列表的编码表示
Figure 47160DEST_PATH_IMAGE040
通过加入个性化注意力机制,计算节目序列中不同节目对用户兴趣编码的不同重要性;其中,设置用户
Figure 218379DEST_PATH_IMAGE041
对节目
Figure 501461DEST_PATH_IMAGE026
的注意力权重
Figure 150748DEST_PATH_IMAGE042
的计算方法如下所示:
Figure 406149DEST_PATH_IMAGE043
,
Figure 482690DEST_PATH_IMAGE044
,
其中,
Figure 258928DEST_PATH_IMAGE016
Figure 711906DEST_PATH_IMAGE020
是用户个性化注意力模型中的训练参数,
Figure 352972DEST_PATH_IMAGE024
是注意力模型中的查询向量,K是用户观看的节目数量;
将节目编码表示与对应节目的注意力权重相结合,得到用户历史观看节目的编码表示
Figure 849681DEST_PATH_IMAGE045
Figure 61351DEST_PATH_IMAGE046
9.如权利要求2-8中任一项所述的节目数据推荐方法,其中,将所述节目编码表示和所述用户编码表示,进行点乘计算和归一化处理,以确定用户对候选节目的观看概率,包括:
将候选节目
Figure 301708DEST_PATH_IMAGE026
的节目编码表示
Figure 344750DEST_PATH_IMAGE047
和用户
Figure 12361DEST_PATH_IMAGE041
的用户编码表示
Figure 242485DEST_PATH_IMAGE048
进行点乘计算;
使用Softmax函数对所述点乘计算结果进行归一化处理,得到用户
Figure 286533DEST_PATH_IMAGE041
对候选节目
Figure 918503DEST_PATH_IMAGE026
的观看概率
Figure 757015DEST_PATH_IMAGE049
Figure 740014DEST_PATH_IMAGE050
其中,
Figure 322174DEST_PATH_IMAGE051
表示节目编码表示
Figure 543071DEST_PATH_IMAGE047
的转置。
10.一种节目数据推荐系统,用于基于知识图谱与图学习增强表示实现节目数据的推荐,所述系统包括:
数据提取单元,用于从预设用户节目收视数据库中提取规定时间阶段的用户收视数据作为训练数据和验证数据;
模型训练单元,用于根据所述训练数据对预设的基于知识图谱与图学习增强表示的神经电视节目推荐NPR-KGER模型进行训练;其中,所述NPR-KGER为Neutral TV ProgramRecommendation with Knowledge Graph and Enhanced Representation;
模型验证单元,用于根据所述验证数据和训练好的NPR-KGER模型确定所述NPR-KGER模型的参数和信息的组合方式;
入参确定单元,用于在所述规定时间阶段后紧邻的时间周期的节目单中,根据所述参数和信息的组合方式确定所述NPR-KGER模型的入模参数;
预测推荐单元,用于基于所述入模参数和所述NPR-KGER模型进行用户观看节目的预测和推荐;
其中,所述NPR-KGER模型包括节目编码器、用户编码器和个性化节目推荐模块;其中,所述节目编码器合并了节目自身信息编码器和2-hop邻居节目编码器;所述用户编码器整合了用户历史观看节目编码器和2-hop邻居用户编码器;所述个性化节目推荐模块用于通过对增强表示的节目编码与用户编码进行点乘计算,得到候选节目会被用户观看的概率,以实现对用户的个性化节目推荐。
CN202210720285.0A 2022-06-23 2022-06-23 节目数据推荐方法及系统 Active CN114827728B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210720285.0A CN114827728B (zh) 2022-06-23 2022-06-23 节目数据推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210720285.0A CN114827728B (zh) 2022-06-23 2022-06-23 节目数据推荐方法及系统

Publications (2)

Publication Number Publication Date
CN114827728A CN114827728A (zh) 2022-07-29
CN114827728B true CN114827728B (zh) 2022-09-13

Family

ID=82521308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210720285.0A Active CN114827728B (zh) 2022-06-23 2022-06-23 节目数据推荐方法及系统

Country Status (1)

Country Link
CN (1) CN114827728B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118200673B (zh) * 2024-05-16 2024-07-23 海看网络科技(山东)股份有限公司 一种用于节目推荐的模型训练方法、系统、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1606746A (zh) * 2000-11-22 2005-04-13 皇家菲利浦电子有限公司 具有确定时变条件概率的间歇式简档的电视节目推荐
CN104363474A (zh) * 2014-11-14 2015-02-18 四川长虹电器股份有限公司 一种基于多用户的智能电视节目推荐系统及方法
CN109327737A (zh) * 2018-11-14 2019-02-12 深圳创维-Rgb电子有限公司 电视节目推荐方法、终端、系统及存储介质
CN110263216A (zh) * 2019-06-13 2019-09-20 腾讯科技(深圳)有限公司 一种视频分类的方法、视频分类模型训练的方法及装置
CN112805743A (zh) * 2018-10-16 2021-05-14 三星电子株式会社 用于基于知识图谱来提供内容的系统和方法
CN114116995A (zh) * 2021-10-11 2022-03-01 上海交通大学 基于增强图神经网络的会话推荐方法、系统及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9264784B2 (en) * 2013-03-12 2016-02-16 Verizon Patent And Licensing Inc. Social network-based automated program channel recommender
CN112732936B (zh) * 2021-01-11 2022-03-29 电子科技大学 一种基于知识图谱和用户微观行为的广电节目推荐方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1606746A (zh) * 2000-11-22 2005-04-13 皇家菲利浦电子有限公司 具有确定时变条件概率的间歇式简档的电视节目推荐
CN104363474A (zh) * 2014-11-14 2015-02-18 四川长虹电器股份有限公司 一种基于多用户的智能电视节目推荐系统及方法
CN112805743A (zh) * 2018-10-16 2021-05-14 三星电子株式会社 用于基于知识图谱来提供内容的系统和方法
CN109327737A (zh) * 2018-11-14 2019-02-12 深圳创维-Rgb电子有限公司 电视节目推荐方法、终端、系统及存储介质
CN110263216A (zh) * 2019-06-13 2019-09-20 腾讯科技(深圳)有限公司 一种视频分类的方法、视频分类模型训练的方法及装置
CN114116995A (zh) * 2021-10-11 2022-03-01 上海交通大学 基于增强图神经网络的会话推荐方法、系统及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《融媒体领域知识图谱建设和应用实践》;靳巾;《现代电视技术》;20201015;全文 *

Also Published As

Publication number Publication date
CN114827728A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN111444428B (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
CN113626719B (zh) 信息推荐方法、装置、设备、存储介质及计算机程序产品
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
US20220245213A1 (en) Content recommendation method and apparatus, electronic device, and storage medium
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN110516160A (zh) 基于知识图谱的用户建模方法、序列推荐方法
CN109670121A (zh) 基于注意力机制的项目级和特征级深度协同过滤推荐算法
CN109062962B (zh) 一种融合天气信息的门控循环神经网络兴趣点推荐方法
CN113569001A (zh) 文本处理方法、装置、计算机设备及计算机可读存储介质
CN109376222A (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN112464100B (zh) 信息推荐模型训练方法、信息推荐方法、装置及设备
CN111831924A (zh) 内容推荐方法、装置、设备及可读存储介质
CN114827728B (zh) 节目数据推荐方法及系统
CN115659008A (zh) 大数据信息反馈的信息推送系统、方法、电子设备及介质
CN113741759B (zh) 评论信息的展示方法、装置、计算机设备和存储介质
CN113868466B (zh) 视频推荐的方法、装置、设备和存储介质
CN115618024A (zh) 多媒体推荐方法、装置及电子设备
CN116701791B (zh) 基于人工智能的课程推荐方法及系统
CN113688633A (zh) 一种提纲确定方法及装置
CN117056601A (zh) 一种基于超图的音乐推荐方法与系统
CN116956183A (zh) 多媒体资源推荐方法、模型训练方法、装置及存储介质
CN113157892B (zh) 用户意图处理方法、装置、计算机设备及存储介质
CN111291904B (zh) 偏好预测方法、装置及计算机设备
CN116484085A (zh) 一种信息投放方法、装置、设备及存储介质、程序产品
CN114022233A (zh) 一种新型的商品推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant