CN112559764B - 一种基于领域知识图谱的内容推荐方法 - Google Patents

一种基于领域知识图谱的内容推荐方法 Download PDF

Info

Publication number
CN112559764B
CN112559764B CN202011435336.2A CN202011435336A CN112559764B CN 112559764 B CN112559764 B CN 112559764B CN 202011435336 A CN202011435336 A CN 202011435336A CN 112559764 B CN112559764 B CN 112559764B
Authority
CN
China
Prior art keywords
content
user
entity
vector
interest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011435336.2A
Other languages
English (en)
Other versions
CN112559764A (zh
Inventor
郑晨烨
孙剑
乔胜勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Television Information Technology Beijing Co ltd
Original Assignee
China Television Information Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Television Information Technology Beijing Co ltd filed Critical China Television Information Technology Beijing Co ltd
Priority to CN202011435336.2A priority Critical patent/CN112559764B/zh
Publication of CN112559764A publication Critical patent/CN112559764A/zh
Application granted granted Critical
Publication of CN112559764B publication Critical patent/CN112559764B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明提供一种基于领域知识图谱的内容推荐方法,包括:将用户历史点击内容输入基于实体表示的候选内容生成模型,生成用户可能感兴趣的第一候选内容;基于知识图谱兴趣采样的内容表示学习模型,生成内容表示向量;再根据内容表示向量,得到用户对内容的点击概率分布,生成用户可能感兴趣的第二候选内容;将第一候选内容和第二候选内容中的各个内容进行排序,得到内容推荐列表。优点为:本发明实现的基于知识图谱的内容推荐方法,能够通过知识图谱建立内容之间的关系,使得向用户推荐的内容与用户历史点击内容具有关联关系,推荐结果更具有解释性。本发明能够解决内容冷启动问题,同时,在缺乏用户历史行为数据的情况下,提高了推荐性能。

Description

一种基于领域知识图谱的内容推荐方法
技术领域
本发明属于信息处理技术领域,具体涉及一种基于领域知识图谱的内容推荐方法。
背景技术
近年来,随着互联网和大数据技术的快速发展,人们面临着在海量信息中快速找到有效信息的挑战,推荐系统可以通过分析人们的历史行为,帮助人们有效过滤信息,并为用户推荐其感兴趣的信息。
现有推荐方法一般分为两种:1、使用协同过滤的方式建立用户与用户之间的相似度关系,或内容与内容之间的相似度关系,然后,为用户推荐与其历史观看相似的内容。2、对内容和用户历史行为进行编码,然后,使用深度学习方法对用户历史行为和内容进行建模,使用模型计算用户对内容的点击概率,进而为用户推荐点击概率最高的内容。
上述两种方法存在以下问题:一方面,需要大量用户历史行为数据,在缺乏用户历史行为数据的情况下,存在冷启动的问题。另一方面,上述方法仅使用用户历史行为数据,或数据标签信息,缺乏内容相关的多源特征,对用户潜在兴趣挖掘的能力较差,推荐内容具有较大局限性。此外,上述两种方法使用的特征均具有稀疏性,导致推荐效果不佳,且计算资源消耗大。
发明内容
针对现有技术存在的缺陷,本发明提供一种基于领域知识图谱的内容推荐方法,可有效解决上述问题。
本发明采用的技术方案如下:
本发明提供一种基于领域知识图谱的内容推荐方法,包括以下步骤:
步骤1,构建知识图谱G(V,E);其中,V为知识图谱中所有实体的集合;知识图谱中每个实体用v表示;E为知识图谱中所有实体与实体之间关系的集合;
步骤2,使用图表示学习模型GraphSAGE,对知识图谱G(V,E)中的实体进行学习,每个实体v均学习得到对应的一个低维稠密的实体表示向量hv,其中,hv∈H,H为所有实体表示向量集合;实体表示向量hv包含了实体v的邻域信息,知识图谱中存在路径的两个实体的实体表示向量相似度更大;
步骤3,建立内容库C;内容库C包括NC个内容c;
步骤4,对于内容库C中的每个内容ci,通过实体链接方法,建立内容ci与知识图谱G(V,E)中实体之间的关系,得到内容-实体映射表;其中,内容ci映射到知识图谱G(V,E)中多个实体,多个实体形成实体集合;
步骤5,将用户历史点击内容输入基于实体表示的候选内容生成模型,生成用户可能感兴趣的第一候选内容;
步骤5.1,内容库C中的每个内容ci,映射到对应的一个实体集合;实体集合包括L个实体;实体集合中的每个实体对应一个实体表示向量,因此,共得到L个内容ci相关的实体表示向量,分别为:形成实体表示向量集合/>
内容ci和相关的实体表示向量集合表示为:/>其中,/>
步骤5.2,预设置实体表示向量集合包括的实体表示向量的最大数量L0,即:实体表示向量集合长度的最大数量;
对于内容库C中的每个内容ci,判断步骤5.1得到的实体表示向量集合长度是否达到最大数量L0,如果没有达到,则在末位补0,从而使每个内容ci对应的实体表示向量集合的长度相等,均为L0
步骤5.3,对于内容库C中的每个内容ci,生成对应的内容特征向量ri,方法为:
对内容ci对应的实体表示向量集合中的各个实体表示向量,即:进行平均加权,得到对应的内容特征向量ri,其中,采用的公式为:/> 内容特征向量ri保存了内容ci相关的所有实体信息;
步骤5.4,内容相似性分析:
使用KD树的最近邻搜索算法,在内容库C中对内容特征向量ri进行最近邻搜索,得到与内容ci∈C最相似的N个相似内容即:/>
步骤5.5,根据用户历史点击内容产生候选内容:
用户u的历史点击内容序列具有时序性,表示为其中,/>表示用户u点击的第i个内容,K为用户u最大历史点击内容数量;将每个内容对应的最相似的N个相似内容,作为用户u可能感兴趣的第一候选内容cand1(u),即
步骤6,基于知识图谱兴趣采样的内容表示学习模型,生成内容表示向量;再根据内容表示向量,得到用户对内容的点击概率分布;
步骤6.1,构造训练样本:
用户u的历史点击内容序列令k依次等于1,2,...,K-1;对于每个k值,均按序截取用户u的历史点击内容序列的前k个内容作为一个样本,然后在该样本中进行(K-k)次重复采样,形成长度为K的训练样本,该样本对应的标签为多分类标签,该多分类标签由两部分组成:
(1)用户u的历史点击内容序列中第k+1个内容作为样本多分类标签中的一个标签,即,
(2)在内容库C中对用户未点击过的内容进行负采样,得到Knegtive个负采样内容,即:作为负采样标签。
多分类标签表示为:
步骤6.2,构造基于知识图谱兴趣采样的内容表示学习模型;所述基于知识图谱兴趣采样的内容表示学习模型,包括实体卷积网络层、全连接神经网络层和softmax层;
使用正态分布对基于知识图谱兴趣采样的内容表示学习模型的模型参数进行初始化;模型参数包括实体卷积层参数、全连接层参数以及softmax层参数;其中,softmax层参数的意义为融合了用户兴趣的内容表示向量,NC为内容库中的内容总数,C0为内容表示向量的维度;
向基于知识图谱兴趣采样的内容表示学习模型输入用户内容偏好特征、用户直接兴趣偏好特征和用户间接兴趣偏好特征,模型使用交叉熵作为模型训练的损失函数,模型输出用户对内容库中各个内容的用户点击概率分布;具体方法为:
1)获取用户内容偏好特征Rc
将用户u的历史点击内容序列转化为初始的内容表示向量序列/>其中,内容表示向量wi∈Wsoftmax;对K个内容表示向量进行加权平均计算,得到用户内容偏好特征Rc
2)获取用户直接兴趣偏好特征RE
对于用户u的历史点击内容序列中的每个内容根据步骤4得到的内容-实体映射表,映射得到的实体集合称为用户直接兴趣实体集合ME∈RK×L×D;其中,D为内容/>映射的每个实体的实体表示向量的维度;
将ME作为实体卷积网络的输入,实体卷积网络分别使用d个形状为[1,D,K]的卷积核和d个形状为[2,D,K]的卷积核,对ME进行卷积计算,最后,将不同卷积核的计算结果进行拼接,得到用户直接兴趣偏好特征RE∈R1×2d
3)获取用户间接兴趣偏好特征RE′
3.1,基于知识图谱的用户兴趣采样,得到与直接兴趣实体v关联的N个间接兴趣实体:
将用户u的历史点击内容序列中的每个内容/>映射到的实体称为直接兴趣实体v,在知识图谱G(V,E)中,对直接兴趣实体v进行长度为L的N次随机游走采样,采样结果表示为/>vl∈V,n∈N为当前随机游走的次数;每个采样结果称为间接兴趣实体;因此,得到与直接兴趣实体v关联的N个间接兴趣实体,完成对用户潜在兴趣的挖掘和扩展;
其中,随机游走采样方法为:通过知识图谱G(V,E)中实体间关系,计算实体之间的转移概率,第1实体到第2实体的转移概率表示为p12=1/N1,其中,N1为第1实体的一阶邻域内的实体数量;
基于实体之间的转移概率,在知识图谱G(V,E)中进行随机游走;
3.2,通过聚合函数对N个间接兴趣实体进行聚合,得到直接兴趣实体v的间接兴趣偏好特征RE′
聚合函数表示为其中,/>为第n次随机游走时,第l个被采样到的实体表示向量;聚合函数的目的是将直接兴趣实体v的N个间接兴趣实体进行聚合,将用户点击的内容转化为间接兴趣表示向量ME′∈RK×L×D,设计实体卷积网络,将ME′作为实体卷积网络的输入,实体卷积网络分别使用d个形状为[1,D,K]的卷积核和d个形状为[2,D,K]的卷积核对ME′进行卷积计算,然后,将不同卷积核的计算结果进行拼接,得到间接兴趣偏好特征RE′∈R1×2d
4)将用户内容偏好特征Rc、用户直接兴趣偏好特征RE和用户间接兴趣偏好特征RE′按照(Rc,RE,RE′)的顺序进行拼接,然后,输入到全连接神经网络层中,全连接神经网络层的输出为表示用户整体偏好的用户表示向量U;将用户表示向量U输入到softmax层,通过softmax层计算多标签分类的概率分布,即计算用户对内容库中各个内容的点击概率分布,用户对内容库中每个内容ci的点击概率分布称为内容表示向量Ri
步骤7,基于内容表示向量的候选内容生成模型,使用KD树的最近邻搜索算法,对每个内容表示向量Ri进行最近邻计算,得到与内容ci∈C最相似的Ni个内容;
将与内容ci∈C最相似的Ni个内容,作为用户可能感兴趣的第二候选内容;
步骤8,将步骤5得到的用户可能感兴趣的第一候选内容和步骤7得到的用户可能感兴趣的第二候选内容中的各个内容进行排序,得到内容推荐列表。
优选的,步骤8具体为:
基于内容实体的候选内容排序模型,对第一候选内容和第二候选内容中的各个内容进行排序。
优选的,步骤8具体为:
步骤8.1,确定候选内容集合:
将步骤5得到的用户可能感兴趣的第一候选内容和步骤7得到的用户可能感兴趣的第二候选内容进行并集操作,得到候选内容集合;
步骤8.2,生成候选内容向量:
候选内容集合中的每个候选内容ch,对应L0个实体表示向量h1,h2,...,将L0个实体表示向量h1,h2,...,/>拼接后,输入全连接神经网络中,得到候选内容ch对应的候选内容向量/>其中,W1和b1为全连接神经网络的参数;
步骤8.3,生成用户向量:
对于用户u的历史点击内容序列中的每个内容对应L个实体表示向量/>将L个实体表示向量/>拼接后,输入全连接神经网络中,得到用户点击内容/>对应的点击内容向量/> 其中,W2和b2为全连接神经网络的参数;
对用户u的历史点击内容序列中各个内容对应的点击内容向量zui进行加权计算,得到用户向量zu
步骤8.4,将候选内容ch对应的候选内容向量zh与用户向量zu进行拼接,然后,输入全连接神经网络中,得到用户u点击候选内容ch的点击概率/>
步骤8.5,对于用户u,取点击概率最高的N”个候选内容,作为推荐结果列表,并推荐给用户u。
本发明提供的一种基于领域知识图谱的内容推荐方法具有以下优点:
1、本发明实现的基于知识图谱的内容推荐方法,能够有效挖掘用户潜在兴趣,同时,利用知识图谱,对用户兴趣进行合理扩展,使推荐内容具有多样性。
2、本发明实现的基于知识图谱的内容推荐方法,能够通过知识图谱建立内容之间的关系,使得向用户推荐的内容与用户历史点击内容具有关联关系,推荐结果更具有解释性。
3、本发明实现的基于知识图谱的内容推荐方法,能够解决内容冷启动问题,同时,在缺乏用户历史行为数据的情况下,提高了推荐性能。
附图说明
图1是本发明实现的基于领域知识图谱的内容推荐方法流程图;
图2是图1所示基于实体表示的候选内容生成流程图;
图3是图1所示基于知识图谱兴趣采样的内容表示学习模型的流程图;
图4是图1所示基于知识图谱兴趣采样的内容表示学习模型示意图;
图5是图3所示实体卷积网络结构示意图;
图6是图1所示基于内容实体的候选内容排序模型结构示意图。
具体实施方式
为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供了一种基于知识图谱的个性化内容推荐方法,使用实体链接的方法建立内容与知识图谱之间的关系,并使用知识图谱习得的实体表示构建内容特征,使内容特征不依赖于用户行为数据,解决了推荐系统内容冷启动的问题。使用随机游走的方式,在知识图谱中对用户直接兴趣实体进行采样,得到用户间接兴趣实体。使用基于知识图谱兴趣采样的内容表示学习模型对用户直接兴趣和间接兴趣进行学习,从而提高推荐系统对用户潜在兴趣挖掘的能力。使用KD树最近邻算法,对基于实体表示的候选内容生成模型和基于知识图谱兴趣采样的内容表示学习模型输出的内容表示,进行相似内容计算,可以基于用户历史点击内容快速得到用户感兴趣的候选内容。使用基于内容实体的候选内容排序模型对候选内容进行排序,从而得到最终的推荐结果。
本发明能够利用知识图谱中的先验知识挖掘用户的潜在兴趣,推荐更符合用户兴趣的内容,增强用户体验,解决了推荐系统冷启动问题,并在一定程度上增加了推荐系统的可解释性。
知识图谱将真实世界中纷繁复杂的信息,以拓扑图的方式组织起来,建立了信息之间的关联关系。知识图谱中的知识以(实体,关系,实体)或(实体,属性,属性值)的三元组方式存储。
针对现有推荐系统存在冷启动问题,对用户潜在兴趣挖掘能力差,以及在缺乏用户历史行为数据的情况下,推荐性能较差的问题,本发明提出了一种基于领域知识图谱的内容推荐方法,该方法包括基于实体表示的候选内容生成模型,基于知识图谱兴趣采样的内容表示学习模型和基于内容实体的候选内容排序模型。
本发明提供一种基于领域知识图谱的内容推荐方法,包括以下步骤:
步骤1,构建知识图谱G(V,E);其中,V为知识图谱中所有实体的集合;知识图谱中每个实体用v表示;E为知识图谱中所有实体与实体之间关系的集合;
步骤2,使用图表示学习模型GraphSAGE,对知识图谱G(V,E)中的实体进行学习,每个实体v均学习得到对应的一个低维稠密的实体表示向量hv,其中,hv∈H,H为所有实体表示向量集合;实体表示向量hv包含了实体v的邻域信息,知识图谱中存在路径的两个实体的实体表示向量相似度更大;
步骤3,建立内容库C;内容库C包括NC个内容c;
步骤4,对于内容库C中的每个内容ci,通过实体链接方法,建立内容ci与知识图谱G(V,E)中实体之间的关系,得到内容-实体映射表;其中,内容ci映射到知识图谱G(V,E)中多个实体,多个实体形成实体集合;
内容-实体映射表具体通过以下方式实现:
1)建立分词词表。使用知识图谱中的全部实体的实体名和其对应的别名属性建立分词词表。
2)内容分词。对内容库中的内容进行分词,得到每个内容对应的分词词表。
3)实体链接。将内容对应的分词词表与实体名列表进行交集计算,得到内容-实体映射表。
步骤5,将用户历史点击内容输入基于实体表示的候选内容生成模型,生成用户可能感兴趣的第一候选内容;
步骤5.1,内容库C中的每个内容ci,映射到对应的一个实体集合;实体集合包括L个实体;实体集合中的每个实体对应一个实体表示向量,因此,共得到L个内容ci相关的实体表示向量,分别为:形成实体表示向量集合/>
内容ci和相关的实体表示向量集合表示为:/>其中,/>
步骤5.2,预设置实体表示向量集合包括的实体表示向量的最大数量L0,即:实体表示向量集合长度的最大数量;
对于内容库C中的每个内容ci,判断步骤5.1得到的实体表示向量集合长度是否达到最大数量L0,如果没有达到,则在末位补0,从而使每个内容ci对应的实体表示向量集合的长度相等,均为L0
步骤5.3,对于内容库C中的每个内容ci,生成对应的内容特征向量ri,方法为:
对内容ci对应的实体表示向量集合中的各个实体表示向量,即:进行平均加权,得到对应的内容特征向量ri,其中,采用的公式为:/> 内容特征向量ri保存了内容ci相关的所有实体信息;
当内容库有新增内容时,可以通过实体链接方法快速得到内容相关的实体集合,并根据实体集合得到实体表示向量集合;最后,根据实体表示向量集合构建内容特征向量,从而实现在不依赖于用户行为数据的情况下,建立内容之间的关联。同时,基于实体表示向量得到的低维稠密的内容特征向量相较稀疏特征向量,节省了后续模型的计算资源,增加模型性能。
步骤5.4,内容相似性分析:
使用KD树的最近邻搜索算法,在内容库C中对内容特征向量ri进行最近邻搜索,得到与内容ci∈C最相似的N个相似内容即:/>
步骤5.5,根据用户历史点击内容产生候选内容:
用户u的历史点击内容序列具有时序性,表示为其中,/>表示用户u点击的第i个内容,K为用户u最大历史点击内容数量;将每个内容对应的最相似的N个相似内容,作为用户u可能感兴趣的第一候选内容cand1(u),即
步骤6,基于知识图谱兴趣采样的内容表示学习模型,生成内容表示向量;再根据内容表示向量,得到用户对内容的点击概率分布;
基于知识图谱兴趣采样的内容表示学习模型。在本实施例中,如图3所示,基于知识图谱兴趣采样的内容表示学习模型的输入为用户内容偏好特征,用户直接兴趣偏好特征和用户间接兴趣偏好特征,其中,间接兴趣通过基于知识图谱的用户兴趣采样得到。模型由实体卷积网络层、全连接神经网络层和softmax层构成,其中实体卷积网络用于处理用户直接兴趣以及间接兴趣,softmax层参数为用户表示向量。通过上述网络结构进行内容特征向量学习,输出内容对应的内容表示向量。
步骤6.1,构造训练样本:
用户u的历史点击内容序列令k依次等于1,2,...,K-1;对于每个k值,均按序截取用户u的历史点击内容序列的前k个内容作为一个样本,然后在该样本中进行(K-k)次重复采样,形成长度为K的训练样本,该样本对应的标签为多分类标签,该多分类标签由两部分组成:
(1)用户u的历史点击内容序列中第k+1个内容作为样本多分类标签中的一个标签,即,
(2)在内容库C中对用户未点击过的内容进行负采样,得到Knegtive个负采样内容,即:作为负采样标签。
多分类标签表示为:
步骤6.2,构造基于知识图谱兴趣采样的内容表示学习模型;所述基于知识图谱兴趣采样的内容表示学习模型,包括实体卷积网络层、全连接神经网络层和softmax层;实体卷积网络层用于提取用户偏好特征,包括用户直接兴趣偏好特征和用户间接兴趣偏好特征,全连接神经网络层用于对两类用户偏好特征进行特征融合,softmax层用于根据融合后的用户偏好特征计算用户对内容的点击概率分布。
使用正态分布对基于知识图谱兴趣采样的内容表示学习模型的模型参数进行初始化;模型参数包括实体卷积层参数、全连接层参数以及softmax层参数;其中,softmax层参数的意义为融合了用户兴趣的内容表示向量,NC为内容库中的内容总数,C0为内容表示向量的维度;
向基于知识图谱兴趣采样的内容表示学习模型输入用户内容偏好特征、用户直接兴趣偏好特征和用户间接兴趣偏好特征,模型使用交叉熵作为模型训练的损失函数,模型输出用户对内容库中各个内容的用户点击概率分布;具体方法为:
1)获取用户内容偏好特征Rc
将用户u的历史点击内容序列转化为初始的内容表示向量序列/>其中,内容表示向量wi∈Wsoftmax;对K个内容表示向量进行加权平均计算,得到用户内容偏好特征Rc
2)获取用户直接兴趣偏好特征RE
对于用户u的历史点击内容序列中的每个内容根据步骤4得到的内容-实体映射表,映射得到的实体集合称为用户直接兴趣实体集合ME∈RK×L×D;其中,D为内容/>映射的每个实体的实体表示向量的维度;
将ME作为实体卷积网络的输入,实体卷积网络分别使用d个形状为[1,D,K]的卷积核和d个形状为[2,D,K]的卷积核,对ME进行卷积计算,最后,将不同卷积核的计算结果进行拼接,得到用户直接兴趣偏好特征RE∈R1×2d
在本实施例中,如图5所示实体卷积网络结构示意图,其中实体卷积网络的输入为ME∈R3×8×6,即用户点击了3个内容,每个内容包含8个实体,每个实体的表示向量的维度为6。分别使用3个形状为[1,6,3]和3个形状为[2,6,3]的卷积核,对ME进行卷积计算,每个卷积核计算得到1个卷积特征图。然后,对得到的卷积特征图进行最大池化,最后,将计算结果进行拼接,得到用户直接兴趣偏好特征RE∈R1×6
3)获取用户间接兴趣偏好特征RE′
3.1,基于知识图谱的用户兴趣采样,得到与直接兴趣实体v关联的N个间接兴趣实体:
将用户u的历史点击内容序列中的每个内容/>映射到的实体称为直接兴趣实体v,在知识图谱G(V,E)中,对直接兴趣实体v进行长度为L的N次随机游走采样,采样结果表示为/>vl∈V,n∈N为当前随机游走的次数;每个采样结果称为间接兴趣实体;因此,得到与直接兴趣实体v关联的N个间接兴趣实体,完成对用户潜在兴趣的挖掘和扩展;
其中,随机游走采样方法为:通过知识图谱G(V,E)中实体间关系,计算实体之间的转移概率,第1实体到第2实体的转移概率表示为p12=1/N1,其中,N1为第1实体的一阶邻域内的实体数量;
基于实体之间的转移概率,在知识图谱G(V,E)中进行随机游走;
3.2,通过聚合函数对N个间接兴趣实体进行聚合,得到直接兴趣实体v的间接兴趣偏好特征RE′
聚合函数表示为其中,/>为第n次随机游走时,第l个被采样到的实体表示向量;聚合函数的目的是将直接兴趣实体v的N个间接兴趣实体进行聚合,将用户点击的内容转化为间接兴趣表示向量ME′∈RK×L×D,设计实体卷积网络,将ME′作为实体卷积网络的输入,实体卷积网络分别使用d个形状为[1,D,K]的卷积核和d个形状为[2,D,K]的卷积核对ME′进行卷积计算,然后,将不同卷积核的计算结果进行拼接,得到间接兴趣偏好特征RE′∈R1×2d
4)将用户内容偏好特征Rc、用户直接兴趣偏好特征RE和用户间接兴趣偏好特征RE′按照(Rc,RE,RE′)的顺序进行拼接,然后,输入到全连接神经网络层中,全连接神经网络层的输出为表示用户整体偏好的用户表示向量U;将用户表示向量U输入到softmax层,通过softmax层计算多标签分类的概率分布,即计算用户对内容库中各个内容的点击概率分布,用户对内容库中每个内容ci的点击概率分布称为内容表示向量Ri;在模型训练过程中,将模型参数R迭代的作为步骤模型输入,可以增加模型收敛速度,提高模型性能。
在本实施例中,如图4所示,用户表示向量的计算过程可表示为U=ReLU(W2ReLU(W1(concat(Rc,RE)+b1))+b2),其中,W1,W2,b1,b2为模型参数。用户点击各内容的概率分布其中,u为用户表示,R为softmax层参数,即模型习得的内容表示向量。
步骤7,基于内容表示向量的候选内容生成模型,使用KD树的最近邻搜索算法,对每个内容表示向量Ri进行最近邻计算,得到与内容ci∈C最相似的Ni个内容;
将与内容ci∈C最相似的Ni个内容,作为用户可能感兴趣的第二候选内容;
步骤8,将步骤5得到的用户可能感兴趣的第一候选内容和步骤7得到的用户可能感兴趣的第二候选内容中的各个内容进行排序,得到内容推荐列表。
步骤8具体为:
基于内容实体的候选内容排序模型,对第一候选内容和第二候选内容中的各个内容进行排序。
步骤8.1,确定候选内容集合:
将步骤5得到的用户可能感兴趣的第一候选内容和步骤7得到的用户可能感兴趣的第二候选内容进行并集操作,得到候选内容集合;
步骤8.2,生成候选内容向量:
候选内容集合中的每个候选内容ch,对应L0个实体表示向量h1,h2,...,将L0个实体表示向量h1,h2,...,/>拼接后,输入全连接神经网络中,得到候选内容ch对应的候选内容向量/>其中,W1和b1为全连接神经网络的参数;
步骤8.3,生成用户向量:
对于用户u的历史点击内容序列中的每个内容对应L个实体表示向量/>将L个实体表示向量/>拼接后,输入全连接神经网络中,得到用户点击内容/>对应的点击内容向量/> 其中,W2和b2为全连接神经网络的参数;
对用户u的历史点击内容序列中各个内容对应的点击内容向量zui进行加权计算,得到用户向量zu
步骤8.4,将候选内容ch对应的候选内容向量zh与用户向量zu进行拼接,然后,输入全连接神经网络中,得到用户u点击候选内容ch的点击概率/>
步骤8.5,对于用户u,取点击概率最高的N”个候选内容,作为推荐结果列表,并推荐给用户u。
本发明提供的一种基于领域知识图谱的内容推荐方法,具有以下特点:
1、本发明使用实体链接的方法建立内容与知识图谱之间的关系,并使用知识图谱习得的实体表示向量构建内容特征向量,使内容特征向量不依赖于用户行为数据,解决了推荐系统内容冷启动的问题。
2、本发明利用知识图谱的拓扑图结构,采用随机游走的方式对用户直接兴趣实体进行间接兴趣实体采样,并使用兴趣聚合函数进行特征聚合,得到实体的间接兴趣表示。
3、本发明使用实体卷积网络与全连接神经网络构成基于知识图谱兴趣采样的内容表示学习模型,将用户历史点击内容相关的内容、直接兴趣特征以及间接兴趣特征作为模型的输入,习得内容表示向量,从而完成潜在兴趣的挖掘。
4、本发明在基于知识图谱兴趣采样的内容表示学习模型训练过程中,迭代的将习得的内容表示向量,作为模型的输入,可以增加模型收敛速度,提高模型性能。
5、本发明使用KD树最近邻算法,计算得到与该内容相似的内容集合,并根据用户历史点击内容,将相似内容作为用户的候选内容。
6、本发明使用基于内容实体的候选内容排序模型对候选内容进行内容点击概率计算。
本发明提供的一种基于领域知识图谱的内容推荐方法,具有以下优点:
1、本发明实现的基于知识图谱的内容推荐方法,能够有效挖掘用户潜在兴趣,同时,利用知识图谱,对用户兴趣进行合理扩展,使推荐内容具有多样性。
2、本发明实现的基于知识图谱的内容推荐方法,能够通过知识图谱建立内容之间的关系,使得向用户推荐的内容与用户历史点击内容具有关联关系,推荐结果更具有解释性。
3、本发明实现的基于知识图谱的内容推荐方法,能够解决内容冷启动问题,同时,在缺乏用户历史行为数据的情况下,提高了推荐性能。
因此,本发明利用知识图谱将内容与知识图谱中的先验知识进行关联,可以对新增内容快速建立特征,解决了在缺乏用户行为数据情况下的内容冷启动问题。此外,通过知识图谱挖掘用户历史点击内容中包含的兴趣点,并在图谱上进行兴趣扩展,提高了对用户潜在兴趣挖掘的能力,同时一定程度上增加了推荐内容的多样性。此外,使用知识图谱习得的实体表示,得到内容对应的稠密特征,减少了计算资源的消耗,且提高了推荐结果指标和效率。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (3)

1.一种基于领域知识图谱的内容推荐方法,其特征在于,包括以下步骤:
步骤1,构建知识图谱G(V,E);其中,V为知识图谱中所有实体的集合;知识图谱中每个实体用v表示;E为知识图谱中所有实体与实体之间关系的集合;
步骤2,使用图表示学习模型GraphSAGE,对知识图谱G(V,E)中的实体进行学习,每个实体v均学习得到对应的一个低维稠密的实体表示向量hv,其中,hv∈H,H为所有实体表示向量集合;实体表示向量hv包含了实体v的邻域信息,知识图谱中存在路径的两个实体的实体表示向量相似度更大;
步骤3,建立内容库C;内容库C包括NC个内容c;
步骤4,对于内容库C中的每个内容ci,通过实体链接方法,建立内容ci与知识图谱G(V,E)中实体之间的关系,得到内容-实体映射表;其中,内容ci映射到知识图谱G(V,E)中多个实体,多个实体形成实体集合;
步骤5,将用户历史点击内容输入基于实体表示的候选内容生成模型,生成用户可能感兴趣的第一候选内容;
步骤5.1,内容库C中的每个内容ci,映射到对应的一个实体集合;实体集合包括L个实体;实体集合中的每个实体对应一个实体表示向量,因此,共得到L个内容ci相关的实体表示向量,分别为:形成实体表示向量集合/>
内容ci和相关的实体表示向量集合表示为:ci:/>其中,
步骤5.2,预设置实体表示向量集合包括的实体表示向量的最大数量L0,即:实体表示向量集合长度的最大数量;
对于内容库C中的每个内容ci,判断步骤5.1得到的实体表示向量集合长度是否达到最大数量L0,如果没有达到,则在末位补0,从而使每个内容ci对应的实体表示向量集合的长度相等,均为L0
步骤5.3,对于内容库C中的每个内容ci,生成对应的内容特征向量ri,方法为:
对内容ci对应的实体表示向量集合中的各个实体表示向量,即:进行平均加权,得到对应的内容特征向量ri,其中,采用的公式为:/> 内容特征向量ri保存了内容ci相关的所有实体信息;
步骤5.4,内容相似性分析:
使用KD树的最近邻搜索算法,在内容库C中对内容特征向量ri进行最近邻搜索,得到与内容ci∈C最相似的N个相似内容即:/>
步骤5.5,根据用户历史点击内容产生候选内容:
用户u的历史点击内容序列具有时序性,表示为其中,/>表示用户u点击的第i个内容,K为用户u最大历史点击内容数量;将每个内容/>对应的最相似的N个相似内容,作为用户u可能感兴趣的第一候选内容cand1(u),即
步骤6,基于知识图谱兴趣采样的内容表示学习模型,生成内容表示向量;再根据内容表示向量,得到用户对内容的点击概率分布;
步骤6.1,构造训练样本:
用户u的历史点击内容序列令k依次等于1,2,...,K-1;对于每个k值,均按序截取用户u的历史点击内容序列的前k个内容作为一个样本,然后在该样本中进行(K-k)次重复采样,形成长度为K的训练样本;
该样本对应的标签为多分类标签,该多分类标签由两部分组成:
(1)用户u的历史点击内容序列中第k+1个内容作为样本多分类标签中的一个标签,即,
(2)在内容库C中对用户未点击过的内容进行负采样,得到Knegtive个负采样内容,即:作为负采样标签;
多分类标签表示为:
步骤6.2,构造基于知识图谱兴趣采样的内容表示学习模型;所述基于知识图谱兴趣采样的内容表示学习模型,包括实体卷积网络层、全连接神经网络层和softmax层;
使用正态分布对基于知识图谱兴趣采样的内容表示学习模型的模型参数进行初始化;模型参数包括实体卷积层参数、全连接层参数以及softmax层参数;其中,softmax层参数的意义为融合了用户兴趣的内容表示向量,NC为内容库中的内容总数,C0为内容表示向量的维度;
向基于知识图谱兴趣采样的内容表示学习模型输入用户内容偏好特征、用户直接兴趣偏好特征和用户间接兴趣偏好特征,模型使用交叉熵作为模型训练的损失函数,模型输出用户对内容库中各个内容的用户点击概率分布;具体方法为:
1)获取用户内容偏好特征Rc
将用户u的历史点击内容序列转化为初始的内容表示向量序列/>其中,内容表示向量wi∈Wsoftmax;对K个内容表示向量进行加权平均计算,得到用户内容偏好特征Rc
2)获取用户直接兴趣偏好特征RE
对于用户u的历史点击内容序列中的每个内容/>根据步骤4得到的内容-实体映射表,映射得到的实体集合称为用户直接兴趣实体集合ME∈RK ×L×D;其中,D为内容/>映射的每个实体的实体表示向量的维度;
将ME作为实体卷积网络的输入,实体卷积网络分别使用d个形状为[1,D,K]的卷积核和d个形状为[2,D,K]的卷积核,对ME进行卷积计算,最后,将不同卷积核的计算结果进行拼接,得到用户直接兴趣偏好特征RE∈R1×2d
3)获取用户间接兴趣偏好特征RE′
3.1,基于知识图谱的用户兴趣采样,得到与直接兴趣实体v关联的N个间接兴趣实体:
将用户u的历史点击内容序列中的每个内容/>映射到的实体称为直接兴趣实体v,在知识图谱G(V,E)中,对直接兴趣实体v进行长度为L的N次随机游走采样,采样结果表示为/>vl∈V,n∈N为当前随机游走的次数;每个采样结果称为间接兴趣实体;因此,得到与直接兴趣实体v关联的N个间接兴趣实体,完成对用户潜在兴趣的挖掘和扩展;
其中,随机游走采样方法为:通过知识图谱G(V,E)中实体间关系,计算实体之间的转移概率,第1实体到第2实体的转移概率表示为p12=1/N1,其中,N1为第1实体的一阶邻域内的实体数量;
基于实体之间的转移概率,在知识图谱G(V,E)中进行随机游走;
3.2,通过聚合函数对N个间接兴趣实体进行聚合,得到直接兴趣实体v的间接兴趣偏好特征RE′
聚合函数表示为其中,/>为第n次随机游走时,第l个被采样到的实体表示向量;聚合函数的目的是将直接兴趣实体v的N个间接兴趣实体进行聚合,将用户点击的内容转化为间接兴趣表示向量ME′∈RK×L×D,设计实体卷积网络,将ME′作为实体卷积网络的输入,实体卷积网络分别使用d个形状为[1,D,K]的卷积核和d个形状为[2,D,K]的卷积核对ME′进行卷积计算,然后,将不同卷积核的计算结果进行拼接,得到间接兴趣偏好特征RE′∈R1×2d
4)将用户内容偏好特征Rc、用户直接兴趣偏好特征RE和用户间接兴趣偏好特征RE′按照(Rc,RE,RE′)的顺序进行拼接,然后,输入到全连接神经网络层中,全连接神经网络层的输出为表示用户整体偏好的用户表示向量U;将用户表示向量U输入到softmax层,通过softmax层计算多标签分类的概率分布,即计算用户对内容库中各个内容的点击概率分布,用户对内容库中每个内容ci的点击概率分布称为内容表示向量Ri
步骤7,基于内容表示向量的候选内容生成模型,使用KD树的最近邻搜索算法,对每个内容表示向量Ri进行最近邻计算,得到与内容ci∈C最相似的Ni个内容;
将与内容ci∈C最相似的Ni个内容,作为用户可能感兴趣的第二候选内容;
步骤8,将步骤5得到的用户可能感兴趣的第一候选内容和步骤7得到的用户可能感兴趣的第二候选内容中的各个内容进行排序,得到内容推荐列表。
2.根据权利要求1所述的基于领域知识图谱的内容推荐方法,其特征在于,步骤8具体为:
基于内容实体的候选内容排序模型,对第一候选内容和第二候选内容中的各个内容进行排序。
3.根据权利要求2所述的基于领域知识图谱的内容推荐方法,其特征在于,步骤8具体为:
步骤8.1,确定候选内容集合:
将步骤5得到的用户可能感兴趣的第一候选内容和步骤7得到的用户可能感兴趣的第二候选内容进行并集操作,得到候选内容集合;
步骤8.2,生成候选内容向量:
候选内容集合中的每个候选内容ch,对应L0个实体表示向量将L0个实体表示向量/>拼接后,输入全连接神经网络中,得到候选内容ch对应的候选内容向量/>其中,W1和b1为全连接神经网络的参数;
步骤8.3,生成用户向量:
对于用户u的历史点击内容序列中的每个内容/>对应L个实体表示向量/>将L个实体表示向量/>拼接后,输入全连接神经网络中,得到用户点击内容/>对应的点击内容向量其中,W2和b2为全连接神经网络的参数;
对用户u的历史点击内容序列中各个内容对应的点击内容向量zui进行加权计算,得到用户向量zu
步骤8.4,将候选内容ch对应的候选内容向量zh与用户向量zu进行拼接,然后,输入全连接神经网络中,得到用户u点击候选内容ch的点击概率/>
步骤8.5,对于用户u,取点击概率最高的N″个候选内容,作为推荐结果列表,并推荐给用户u。
CN202011435336.2A 2020-12-10 2020-12-10 一种基于领域知识图谱的内容推荐方法 Active CN112559764B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011435336.2A CN112559764B (zh) 2020-12-10 2020-12-10 一种基于领域知识图谱的内容推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011435336.2A CN112559764B (zh) 2020-12-10 2020-12-10 一种基于领域知识图谱的内容推荐方法

Publications (2)

Publication Number Publication Date
CN112559764A CN112559764A (zh) 2021-03-26
CN112559764B true CN112559764B (zh) 2023-12-01

Family

ID=75060613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011435336.2A Active CN112559764B (zh) 2020-12-10 2020-12-10 一种基于领域知识图谱的内容推荐方法

Country Status (1)

Country Link
CN (1) CN112559764B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094587B (zh) * 2021-04-23 2024-04-16 东南大学 一种基于知识图谱路径的隐式推荐方法
CN113159891B (zh) * 2021-04-24 2022-05-17 桂林电子科技大学 一种基于多种用户表示融合的商品推荐方法
CN113254789B (zh) * 2021-06-30 2021-09-17 中国气象局公共气象服务中心(国家预警信息发布中心) 一种推送气象服务内容的方法及装置
CN113590965B (zh) * 2021-08-05 2023-06-13 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种融合知识图谱与情感分析的视频推荐方法
CN113704440B (zh) * 2021-09-06 2022-02-18 中国计量大学 一种基于物品图网络中路径表征的会话推荐方法
CN114817737B (zh) * 2022-05-13 2024-01-02 北京世纪超星信息技术发展有限责任公司 一种基于知识图谱的文物热点推送方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063188A (zh) * 2018-08-28 2018-12-21 国信优易数据有限公司 一种实体推荐方法和装置
CN110188208A (zh) * 2019-06-04 2019-08-30 河海大学 一种基于知识图谱的信息资源查询推荐方法和系统
CN110717106A (zh) * 2019-10-14 2020-01-21 支付宝(杭州)信息技术有限公司 信息推送的方法及装置
WO2020083020A1 (zh) * 2018-10-23 2020-04-30 腾讯科技(深圳)有限公司 确定用户对物品的兴趣度的方法与装置、设备和存储介质
CN111680219A (zh) * 2020-06-09 2020-09-18 腾讯科技(深圳)有限公司 内容推荐方法、装置、设备及可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063188A (zh) * 2018-08-28 2018-12-21 国信优易数据有限公司 一种实体推荐方法和装置
WO2020083020A1 (zh) * 2018-10-23 2020-04-30 腾讯科技(深圳)有限公司 确定用户对物品的兴趣度的方法与装置、设备和存储介质
CN110188208A (zh) * 2019-06-04 2019-08-30 河海大学 一种基于知识图谱的信息资源查询推荐方法和系统
CN110717106A (zh) * 2019-10-14 2020-01-21 支付宝(杭州)信息技术有限公司 信息推送的方法及装置
CN111680219A (zh) * 2020-06-09 2020-09-18 腾讯科技(深圳)有限公司 内容推荐方法、装置、设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于知识图谱技术的推荐算法研究及应用;谭珺琳;中国优秀硕士学位论文全文数据库 信息科技辑(第03期);全文 *

Also Published As

Publication number Publication date
CN112559764A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN112559764B (zh) 一种基于领域知识图谱的内容推荐方法
CN112214685B (zh) 一种基于知识图谱的个性化推荐方法
Mienye et al. Prediction performance of improved decision tree-based algorithms: a review
CN107609009B (zh) 文本情感分析方法、装置、存储介质和计算机设备
CN109299342B (zh) 一种基于循环生成式对抗网络的跨模态检索方法
CN111563164B (zh) 一种基于图神经网络的特定目标情感分类方法
CN111368074A (zh) 一种基于网络结构和文本信息的链路预测方法
CN111061856A (zh) 一种基于知识感知的新闻推荐方法
CN111797321A (zh) 一种面向不同场景的个性化知识推荐方法及系统
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN112966091A (zh) 一种融合实体信息与热度的知识图谱推荐系统
CN111340187B (zh) 基于对抗注意力机制的网络表征方法
CN110717090A (zh) 一种旅游景点网络口碑评价方法、系统及电子设备
Wang et al. Accelerated manifold embedding for multi-view semi-supervised classification
Jiang et al. Boosting facial expression recognition by a semi-supervised progressive teacher
CN114461890A (zh) 分层多模态的知识产权搜索引擎方法与系统
CN114528479B (zh) 一种基于多尺度异构图嵌入算法的事件检测方法
CN114202035B (zh) 一种多特征融合的大规模网络社区检测算法
CN115687760A (zh) 一种基于图神经网络的用户学习兴趣标签预测方法
Sun et al. Graph force learning
CN113590965B (zh) 一种融合知识图谱与情感分析的视频推荐方法
CN116452241B (zh) 一种基于多模态融合神经网络的用户流失概率计算方法
CN117370674A (zh) 融合用户行为和知识图谱的多任务推荐算法
CN114896514B (zh) 一种基于图神经网络的Web API标签推荐方法
CN116244464A (zh) 一种基于多模态数据融合的手绘图像实时检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant