CN112989215A - 一种基于稀疏用户行为数据的知识图谱增强的推荐系统 - Google Patents

一种基于稀疏用户行为数据的知识图谱增强的推荐系统 Download PDF

Info

Publication number
CN112989215A
CN112989215A CN201911279154.8A CN201911279154A CN112989215A CN 112989215 A CN112989215 A CN 112989215A CN 201911279154 A CN201911279154 A CN 201911279154A CN 112989215 A CN112989215 A CN 112989215A
Authority
CN
China
Prior art keywords
user
recommendation
recommendation result
behavior data
user behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911279154.8A
Other languages
English (en)
Other versions
CN112989215B (zh
Inventor
宋世波
梁斌
梁家卿
肖仰华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201911279154.8A priority Critical patent/CN112989215B/zh
Publication of CN112989215A publication Critical patent/CN112989215A/zh
Application granted granted Critical
Publication of CN112989215B publication Critical patent/CN112989215B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于稀疏用户行为数据的知识图谱增强的推荐系统,用于在稀疏用户历史行为记录数据场景下,完成高准确率的用户兴趣挖掘从而生成与用户兴趣相关的用户推荐结果并推荐给用户,其特征在于,包括:用户兴趣挖掘模块,用于对各个用户的用户行为数据进行挖掘从而得到对应用户兴趣的初步推荐结果;以及推荐结果重排模块,用于对初步推荐结果进行重排和调整从而得到更契合用户兴趣的用户推荐结果,其中,用户兴趣挖掘模块包括预处理部、用户画像构建部、语义扩展部、标签池构建部、标签过滤部以及标签采样部,推荐结果重排模块包括访问对象扩展部以及推荐结果调整部。

Description

一种基于稀疏用户行为数据的知识图谱增强的推荐系统
技术领域
本发明属于用户兴趣推荐领域,涉及一种基于用户行为数据的推荐系统,具体涉及一种基于稀疏用户行为数据的知识图谱增强的推荐系统。
背景技术
互联网的出现和普及给用户带来了大量的信息,满足了用户在信息时代对信息的需求,但随着网络的迅速发展而带来的网上信息量的大幅增长,使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了,这就是所谓的信息超载(information overload)问题。
解决信息超载问题一个非常有潜力的办法是推荐系统,它是根据用户的信息需求、兴趣等,将用户感兴趣的信息、产品等推荐给用户的个性化信息推荐系统。和搜索引擎相比推荐系统通过研究用户的兴趣偏好,进行个性化计算,由系统发现用户的兴趣点,从而引导用户发现自己的信息需求。一个好的推荐系统不仅能为用户提供个性化的服务,还能和用户之间建立密切关系,让用户对推荐产生依赖。
现有的技术中,主要的推荐方法有:1)基于内容的推荐,该方法建立在项目的内容信息上做出推荐,不依据用户意见,考察用户与预测结果间的匹配程度;2)协同过滤推荐,协同过滤采用最近邻技术,利用用户历史信息计算用户间距,之后利用近邻用户预测目标用户的喜欢物品;3)基于关联规则推荐,方法多数采用频繁模式挖掘等方法,发掘商品销售的相关性,对相关商品做出推荐;4)组合推荐,组合推荐是各种推荐方法的组合,使用最多的是内容推荐和协同过滤推荐的组合,这也是目前实际情况中多数采用的方法。
然而,上述现有的推荐方法中,大多数需要足够和有效的用户行为历史数据,在历史用户行为数据不足的场景下它往往不能达到理想效果,事实上这种场景更接近冷启动的推荐。由于历史数据的缺乏,无法按照传统的协同过滤方法以得到符合需求的相似用户,也不便于进行相关的物品进行关联规则推荐,在实际生产环境中这往往需要大量的人力资源进行推荐需求的数据标注。
发明内容
为解决上述问题,提供一种在稀疏用户历史行为记录数据场景下,利用知识图谱进行增强的推荐系统,本发明采用了如下技术方案:
本发明提供了一种基于稀疏用户行为数据的知识图谱增强的推荐系统,用于根据稀疏的用户行为数据完成用户兴趣挖掘从而生成与用户兴趣相关的用户推荐结果并推荐给用户,其特征在于,包括:用户兴趣挖掘模块,用于对各个用户的用户行为数据进行挖掘从而得到对应用户兴趣的初步推荐结果;以及推荐结果重排模块,用于对初步推荐结果进行重排和调整从而得到更契合用户兴趣的用户推荐结果,其中,用户兴趣挖掘模块包括:预处理部,用于对用户行为数据进行预处理从而得到各个用户画像的静态信息,用户画像构建部,用于根据静态信息对用户行为数据中的关键词进行提取从而构建对应各个用户的用户行为画像以及对应用户所在群组的用户组画像;语义扩展部,用于根据预定的知识图谱对用户行为画像进行语义扩展从而生成对应各个用户的扩展关键词;标签池构建部,用于根据用户行为数据、用户行为画像、用户组画像以及扩展关键词构建各个用户的初始标签池;标签过滤部,用于对初始标签池中的关键词进行过滤从而形成推荐标签池;以及标签采样部,用于对推荐标签池进行采样从而获得用户的初步推荐结果,推荐结果重排模块包括:访问对象扩展部,用于通过协同过滤对初步推荐结果进行扩展从而形成扩展推荐结果;以及推荐结果调整部,用于根据用户的用户访问行为分别对各个用户的扩展推荐结果进行排序调整以及后处理从而得到用户推荐结果并输出。
本发明提供的基于稀疏用户行为数据的知识图谱增强的推荐系统,还可以具有这样的技术特征,其中,预处理部包括:问题数据过滤单元,用于去除用户行为数据中的问题数据;静态信息获取单元,用于从用户行为数据中获取关于用户属性的结构化数据作为静态信息;以及特征值得分获取单元,用于对计算互信息得分从而获取静态信息中各个关键词的特征值得分。
本发明提供的基于稀疏用户行为数据的知识图谱增强的推荐系统,还可以具有这样的技术特征,其中,特征值得分获取单元通过如下方法获取特征值得分:依次计算各个关键词的互信息得分I(X,Y):
Figure BDA0002316260770000031
式中,p(x)和p(y)为x和y的边缘概率分布函数,p(x,y)为x,y的联合分布概率,计算所有互信息得分的平均值作为特征值得分Ffield
Figure BDA0002316260770000041
式中,I(Xi,Yi)为第i个关键词的互信息得分,N为关键词的总数。
本发明提供的基于稀疏用户行为数据的知识图谱增强的推荐系统,还可以具有这样的技术特征,其中,标签池构建部包括:判断值获取单元,用于获取判断值,该判断值通过计算用户历史行为记录数量与阈值N的比例获得:
Figure BDA0002316260770000042
式中,nu为;预期使用率获取单元,用于获取预期使用率,该预期使用率通过计算用户历史行为记录数量与存储阈值之比并取平方根获得;用户行为画像采样单元,随机生成0-1个随机值并根据判断值N0对该随机值进行判定,若随机值小于判断值N0则对用户行为画像采样一次,若随机值不小于判断值N0则对用户行为画像总共采样10次;
用户组画像采样单元,根据特征值得分以及累积值计算每个关键词的权重和,并将用户组画像中的组关键词送入知识图谱中进行语义扩展得到组扩展关键词,进一步将组关键词与组扩展关键词各采样一半并去除同义词,第i个关键词的累积值为Wi为:
Figure BDA0002316260770000043
标签池构建单元,将用户行为画像采样单元的采样结果以及用户组画像采样单元的采样结果作为初始标签池。
本发明提供的基于稀疏用户行为数据的知识图谱增强的推荐系统,还可以具有这样的技术特征,其中,用户画像构建部包括:时间权重分配单元,用于为与用户对应的访问对象分配时间权重:用户行为画像构建单元,用于从访问对象中提取关键词,并根据每个访问对象的时间权重为每个关键词赋予关键词权重,进一步根据每个用户对应的所有关键词以及关键词权重构建用户的用户行为画像;以及用户组画像构建单元,用于根据静态信息对所有用户进行分类从而构建对应用户所在群组的用户组画像。
本发明提供的基于稀疏用户行为数据的知识图谱增强的推荐系统,还可以具有这样的技术特征,其中,语义扩展部在生成扩展关键词时,将用户行为画像中所有的关键词作为实体集,并以该实体集为起点、以知识图谱为图对实体集中的实体进行扩展,实体的权重计算包括:基本权重计算,设置初始节点1的重量,每个扩展节点v的重量d(v):d(v)=min(σw(u,v)*d(u),1),式中,w(u,v)为边缘的重量,σ为,d(u)为;相关词权重计算,根据扩展的实体的基本权重对相关实体进行加权,相关实体包括与用户相关的实体和与意图相关的实体。
本发明提供的基于稀疏用户行为数据的知识图谱增强的推荐系统,还可以具有这样的技术特征,其中,访问对象扩展部对初步推荐结果进行扩展的方法包括:计算初步推荐结果中访问对象的相似度,该相似度为预先计算的访问用户交集和文本相似度的和:
Figure BDA0002316260770000051
式中,A,B是访问对象a,b的访问用户群集合,Ta和Tb是访问对象a、b的文本内容,生成访问对象之间的用户兴趣相似性,将用户兴趣相似性作为访问对象之间的边的权重,并利用随机游走算法获取扩展推荐结果。
本发明提供的基于稀疏用户行为数据的知识图谱增强的推荐系统,还可以具有这样的技术特征,其中,推荐结果调整部包括:排序调整单元,用于通过预先训练好的Ranknet网络调整扩展推荐结果的顺序;后处理单元,用于对调整顺序后的扩展推荐结果进行后处理从而得到用户推荐结果。
发明作用与效果
根据本发明的基于稀疏用户行为数据的知识图谱增强的推荐系统,由于通过兴趣挖掘模块中的预处理部提取用户行为数据的静态信息,并通过用户画像构建部构建用户个人的用户行为画像以及用户群组的用户组画像,从而使得标签池构建部以及标签过滤部能够根据这些画像构建推荐标签池,因此可以在少量的用户历史行为数据的支持下,就完成推荐标签池的构建,使得本系统在稀疏用户历史行为数据下的推荐有效且准确,解决了现有系统依赖大量用户历史行为数据的弊端。同时,在构建推荐标签池前,还由于通过语义扩展部根据知识图谱对画像进行了扩展,因此能对用户兴趣进行更有深度的刻画,还能去除部分对用户兴趣不准确的刻画关键词以及噪音。最后,由于通过推荐结果重排模块对初始推荐结果进行重排以及后处理,除了对冷启动有优化之外,也有效的提升了推荐结果的召回率。
附图说明
图1是本发明实施例中基于稀疏用户行为数据的知识图谱增强的推荐系统的流程图;
图2是本发明实施例中基于稀疏用户行为数据的知识图谱增强的推荐系统的结构框图
图3是本发明实施例中用户兴趣挖掘模块的流程示意图;
图4是本发明实施例中用户画像构建流程的示意图;以及
图5是本发明实施例中知识图谱语义扩展的示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的基于稀疏用户行为数据的知识图谱增强的推荐系统作具体阐述。
<实施例>
本实施例中,基于稀疏用户行为数据的知识图谱增强的推荐系统的输入为用户的相关信息(即用户行为数据),通过一系列流程,输出相关的推荐结果。该系统的总体结构如图1所示,在整个推荐过程中,主要分为构建用户的兴趣标签池,然后重新整理推荐结果。在提取用户兴趣的过程中,通过对用户历史行为数据的提取,计算相似用户与推荐用户的关系,利用知识图谱进行语义扩展,并对关键词进行共现分析,得到了更准确的用户兴趣相关关键词描述。在随后的重排过程中,根据用户特征和项目特征对推荐结果进行重排,最后输出推荐结果。
图2是本发明实施例中基于稀疏用户行为数据的知识图谱增强的推荐系统的结构框图。
如图2所示,基于稀疏用户行为数据的知识图谱增强的推荐系统100包括用户兴趣挖掘模块1以及推荐结果重排模块2。
本实施例中,推荐系统100通过一台计算机执行,用户兴趣挖掘模块1以及推荐结果重排模块2为计算机中封装的计算机代码,计算机通过执行这些代码以实现各个模块所对应的功能。
用户兴趣挖掘模块1用于从用户行为数据(例如用户的历史行为数据)和自身信息(例如用户的部门信息、项目信息、工作信息等能用于表示用户自身特性的信息)中,挖掘出用户的兴趣点。本实施例中,如图3所示,用户兴趣挖掘模块1主要通过计算与待推荐的用户相似的相似用户群,同时提取用户行为数据的关键字形成初步的兴趣标签池,进一步基于知识图的语义扩展等方法对初步的兴趣标签池进行扩展以及过滤从而构建出描述待推荐的用户的兴趣标签池,最后就可以根据该兴趣标签池采样输出刻画用户兴趣的相关兴趣标签(即初步的推荐结果)。
本实施例中,用户兴趣挖掘模块1包括预处理部11、用户画像构建部12、语义扩展部13、标签池构建部14、标签过滤部15以及标签采样部16。
预处理部11用于对用户行为数据进行预处理从而得到各个用户画像的静态信息。
本实施例中,推荐系统100的应用场景以办公场景为例,此时,用户之间的群组关系为用户所属的部门,用户行为数据为稀疏的、用户访问企业中文档的历史访问记录,推荐系统100最终向用户推荐其他的用户感兴趣的文档。
本实施例中,在进行用户兴趣提取之前,预处理部11对数据进行了相关的预处理,从而提取了用户画像的静态信息(即用户的描述信息或固定信息,如用户所属的部门),在实际使用中,这些静态信息被构建到用户静态信息数据库中,从而用作后续用户画像更新的底层数据库。该预处理部11包括问题数据过滤单元111、静态信息获取单元112以及特征值得分计算单元113。
问题数据过滤单元111用于去除用户行为数据中的问题数据,如重复的用户历史行为数据,以及各种无实义的访问行为,如搜索没有实际意义的单词等。
静态信息获取单元112用于从用户行为数据中直接获取关于用户属性的结构化数据,并将这些字段作为静态信息。
特征值得分计算单元113用于对静态信息以及用户的历史行为评分计算互信息得分从而得到静态信息中各个字段的特征值得分。
本实施例中,在用户行为数据中存在多个领域,如用户部门信息、业务信息、功能信息、项目信息、产品信息等。太多的字段信息使得构建推荐标签池非常困难。很难得到主题清晰的标签集,得到的标签可能不符合用户的兴趣。因此本实施例采用特征选择计算个人信息各领域与个人兴趣的关联度。
同时,用户的历史行为评分为事先根据用户行为数据中的访问行为进行评分得到。
本实施例中,在进行特征选择时,特征值得分计算单元113会从现有的M个特征中选择N个特征进行系统性的优化,能有效地的降低原始特征的维度,其中,M个特征指的是静态画像的字段,所进行的特征选择是针对静态信息进行的。M的数量大于N(如50和10),N的数量为字段特征值得分大于阈值的特征个数。
具体地,即:依次将每个字段对应的用户信息和各个用户行为数据做对比,本实施例中,对每个值提取相关的用户行为数据,以用户评分作为各历史行为互信息的特征值,计算各历史行为的特征值,
特征值得分计算单元113计算的互信息得分I(X;Y)如下:
Figure BDA0002316260770000101
式中,X和Y分别为用户的具体字段值和用户评分,x、y则分别为X和Y的具体数值(例如,X为部门名称所有取值的集合,x为部门名称具体取值,则x就可以为如“海思研发中心”等具体取值,X则为一级部门所有可取值的集合),p(x)和p(y)为x和y的边缘概率分布函数,p(x,y)为x、y的联合分布概率,计算得分反映了两者的相关性。
进一步,特征值得分计算单元113计算字段field的特征值得分Ffield,该特征值得分是其特征值的所有计算互信息得分的平均值,即:
Figure BDA0002316260770000102
式中,I(Xi,Yi)为第i个的互信息得分,N为field的字段数。
此处得到的特征值得分即表示静态信息中的字段与用户行为相关的紧密程度,作为之后推荐使用的用户字段初始权重。
用户画像构建部12用于根据静态信息对用户行为数据中的关键词进行提取从而构建对应各个用户的用户行为画像以及对应用户所在群组的用户组画像。
本实施例中,构建了两种用户画像,从而通过这些用户画像来描述用户的兴趣点和行为,分别是用户行为画像和用户组画像,反映在相应用户信息的每个字段中。用户的静态画像的描述已经在预处理中进行了描述,因此,进一步使用用户的动态画像来描述用户的兴趣,使用用户组的画像来扩展单个用户的兴趣。
图4是本发明实施例中用户画像构建部构建用户画像的流程图。
如图4所示,用户画像构建部12通过用户行为数据,提取用户访问文档的关键词,构建用户行为画像;然后根据静态信息对每个用户进行聚合,形成用户组画像。
本实施例中,作为用户行为数据的历史访问记录中含有相应的访问文档连接,因此用户画像构建部12可以通过这些连接从文档库中得到用户访问的文档。
本实施例中,用户画像构建部12包括时间权重分配单元121、用户行为画像构建单元122以及用户组画像构建单元123。
时间权重分配单元121用于为用户访问的访问对象分配时间权重。
用户的阅读行为会随着时间而改变。一般来说,用户越接近当前的行为数据,该用户对当前行为的贡献就越大。因此,本实施例中通过时间权重分配单元121将时间权重赋给用户u的文档d(即访问对象),如下式所示:
Figure BDA0002316260770000121
式中,α为时间衰减参数,超参数(经验值设为1);tnow表示当前时间,
Figure BDA0002316260770000122
是用户u访问文档d的行为发生的时间,f(ud)为对用户u的文档d分配的时间权重。
用户行为画像构建单元122用于从访问对象中提取关键词并赋予关键词权重,从而根据每个用户的关键词以及关键词权重依次构建各个用户的用户行为画像。
本实施例中,用户行为画像构建单元122在从文档中提取关键词时,首先对文档进行分词,然后将分词结果与领域词和新单词相结合,构造trie tree,并将每个文档匹配trie作为模式字符串,为每个文档生成标签。然后使用tfidf算法提取关键词。同时,因为关键词中有很多噪声,所以需要过滤关键词。关键词过滤策略如下:规则过滤(只有一个单词,超过15个,纯数字)、部分语音过滤(形容词,代词等)、停止词、日期等。
此外,需要为每个过滤后的关键词赋予一个权重。一个关键词的权重wkeyword计算如下:
wkeyword=f(ud)*tfidf*h(d)
式中,h(d)表示文档的权重,tfidf为词频权重与逆词频(tfidf=tf*idf,即词频(term frequency,tf)与逆向文件频率(inverse document frequency,idf)的相乘)。h(d)可以通过下式得到:
Figure BDA0002316260770000131
式中,m(d)表示点击文档d的用户数,n(d)文档被点击的次数。另外,在此基础上,如果关键词属于领域词,需要加权(上述权重*3,经小样本试验,该参数效果最佳)。此时,当一个用户所有文档的关键词提取出来后,就可以作为该用户的行为画像。
用户组画像构建单元123用于对所有用户进行分类,并构建每个群组的组画像(即、每个群组所有用户的关键字的联合集)。部门(即群组)整体形象的构建是概括性的,需要消除噪声,关键字权重wk的计算方法如下:
Figure BDA0002316260770000132
式中,φ是wk的分布,
Figure BDA0002316260770000133
表示用户u的关键字k的权重,W为关键字的全集。
由于本实施例中用户行为数据是稀疏的,因此还使得用户组画像构建单元123计算推荐用户的相似用户,具体计算方法如下:
Figure BDA0002316260770000134
式中,A、B为用户a、b访问的文档集合,α为超参数,ai,bj为用户的静态信息字段,θ为字段信息是否相同,相同为1,不同为0,Fi,j为该字段对应的特征值分数,similarityusera,b为用户a、b的相似度得分。
通过上述方法获得了由静态信息所匹配的固定关联用户(如正进行同一项目的成员用户等)以及相似用户,相似用户为通过用户访问行为挖掘得到的具有相同兴趣的用户。将两者的分布合并起来并取一跳的扩展,如相似兴趣用户可以增加一跳从相似的a、b用户到a、c用户的链接(依据是b,c为同一部门的员工)。
语义扩展部13用于根据预定的知识图谱对用户行为画像进行语义扩展从而生成对应各个用户的扩展关键词。
本实施例中,语义扩展部13以输入实体集为起点,以知识图为图,采用广度优先搜索算法对输入实体进行扩展。如图5所示,知识图谱由实体与实体间的关系所构成,这里是将输入实体集送入,取出与其关联的所有实体。
本实施例中,语义扩展部13对输入实体的权重计算包括两个部分,即:基本权重计算和相关词权重计算。
A、基本权重计算。设置初始节点1的重量,每个扩展节点v的重量d(v)=min(σw(u,v)*d(u),1),其中w(u,v)边缘的重量,并可配置选项(通常是计算某种类型的边缘的重量乘以边缘本身)的重量。为了限制扩展的复杂性,将节点过滤到某个阈值以下。
B、对知识图中扩展的实体进行基本权重计算后,对相关实体进行加权(即进行相关词权重计算)。这些相关实体包括与用户相关的实体和与意图相关的实体。简单地说,取用户画像相关实体(或意图相关实体)与查询相关实体的交集,交集中的实体权重=用户相关实体权重(或意图相关实体权重)+查询相关实体权重。
由于直接相似的物品是相对固定的,在实际操作中我们可以提前离线计算不同项目之间的相似性,将结果存储在表中,计算用户之间可能的得分,并将它存储在用户侧。
通过上述相似性的计算,即可通过交集中的实体权重从知识图谱中得到相应的扩展关键词。
标签池构建部14用于构建各个用户的初始标签池。该标签池的主要来源有:用户画像关键词、组关键词、知识图谱扩展获取的关键词。
本实施例中,标签池构建部14在构建标签池时通过判断值获取单元141、预期使用率获取单元142、用户行为画像采样单元143、用户组画像采样单元144以及标签池构建单元145。
判断值获取单元141,用于获取判断值,该判断值通过计算用户历史行为记录数量与阈值的比例获得,作为用户画像关键词的比例。判断值N0如下:
Figure BDA0002316260770000151
式中,nu为用户u的用户行为数据中的历史记录数量,N为存储阈值,取值为50。
预期使用率获取单元142,用于获取预期使用率,该预期使用率为对用户历史记录关键词的使用比例,通过计算用户历史行为记录数量与存储阈值之比并取平方根获得。
用户行为画像采样单元143,每次随机生成0-1个随机值并根据判断值N0对该随机值进行判断。若该随机数小于N0,则对用户行为画像采样一次,否则,用户行为画像总共采样10次,用户画像标签数量为10*N0左右波动。
用户组画像采样单元144,根据特征值得分以及累积值计算每个关键词的权重和,并将用户组画像中的组关键词送入知识图谱中进行语义扩展得到组扩展关键词,进一步将两部分的关键字进行采样并进行汇总,即、将组关键词与组扩展关键词各采样一半并去除同义词,第i个关键词的累积值为Wi为:
Figure BDA0002316260770000161
式中,Fk为第k个字段的特征值得分,wi为第i个关键词的TFIDF分数。
标签池构建单元145,用于将用户行为画像采样单元的采样结果以及用户组画像采样单元的采样结果作为初始标签池。
标签过滤部15用于对初始标签池中的关键词进行过滤从而得到用户标签池。
由于随机采样过程,以及脏数据的问题,得到推荐标签池必然会带来噪声,因此通过标签过滤部15对得到的推荐标签关键字(即初始标签池)进行过滤,本实施例使用wordembedding及索引分数进行关键字过滤。
本实施例中,标签过滤部15使用word2vec在推荐文档数据库的基础上对embedding进行预训练。首先,使用词向量来判断关键词之间的语义相关性,并过滤低相关对。接下来将w1、w2两个单词分别用于单独的查询,查询结果为S1、S2,并使用w1、w2两个单词作为搜索歌词,用ES进行联合查询,将查询结果设置为S3。这里是为了保证不出现同类词汇但又符合相关在过滤过程中,计算式如下:
Figure BDA0002316260770000162
式中,N为设置的阈值,小于置信阈值的为相关词,否则为无关,S1,S2,S3为查询分数。
标签采样部16用于对推荐标签池进行采样从而获得用户的初步推荐结果。
本实施例中,每个推荐标签池有多个关键词,为了确保推荐的多样性,进行多次随机抽样直到得到足够数量的推荐结果,每次取样后后在池里做记录。并对推荐关键字进行最多允许一次放回的抽取。
由于本实施例中访问对象为用户访问的文档,因此推荐结果即为用户的文档推荐结果。
推荐结果重排模块2用于重排模块旨在对用户兴趣标签获取得到的推荐结果,通过Ranknet和后处理进行重排和调整,使推荐结果更加契合用户的兴趣。
本实施例中,推荐结果重排模块2包括访问对象扩展部21以及推荐结果调整部22。
访问对象扩展部21通过协同过滤对初步推荐结果进行扩展从而形成扩展推荐结果。
本实施例中,访问对象扩展部21主要对初步的文档推荐结果使用协同过滤进行扩展,其中文档间的相似度是预先计算的访问用户交集和文本相似度的和。采用的是Jaccard距离和Levenshtein距离,计算权重的公式为:
Figure BDA0002316260770000171
式中,A和B是文档a和b的访问用户群集合,Ta和Tb是文档a、b的文本内容,
Figure BDA0002316260770000181
为文本内容Ta,Tb的标题的编辑距离。
但由于稀疏的用户历史行为,协同过滤只能得到少部分文档的扩展。因此本实施例的访问对象扩展部21在用户的协同过滤中,还生成了文档之间的用户兴趣相似性。通过在文档之间建立边,并将用户兴趣相似性作为边的权重,最后利用随机游走算法将链推荐结果给出给用户,即用户点击后的扩展推荐结果。
推荐结果调整部22用于根据用户的用户访问行为分别对各个用户的推荐结果进行排序调整以及后处理从而得到用户推荐结果。
本实施例中,推荐结果调整部22包括排序调整单元221以及后处理单元222。
在访问对象扩展部21扩展得到的扩展推荐结果后,排序调整单元221通过预先训练好的Ranknet网络调整扩展推荐结果的顺序。
由于用户历史行为数据的稀疏性,本实施例中使用了长期(最多6个月)的用户访问数据作为用户访问行为。对用户个性化数据进行训练,并将用户的相关信息作为特征添加到Ranknet网络中。训练完成后,每次输入生成的扩展推荐结果,就能得到作为输出的重新排序的推荐结果。
后处理单元222,用于对调整顺序后的扩展推荐结果进行后处理从而得到用户推荐结果。
推荐系统与搜索的显著区别在于推荐对象的多样性。考虑到多样性,本实施例中通过排序调整单元221使用多个标签对搜索结果进行采样并重新排序,但是在对结果进行汇总后,不可避免的会出现重复和冲突,因此还需要通过后处理单元222进行后处理来消除问题。
后处理包括:
1)删除高度相似的推荐结果
聚合多个结果不同的样本会导致类似和重复的结果,比如两篇文档5g运营商的整体架构图和运营商的知识地图,尽管这两个结果来自不同批次的重排结果。本实施例中后处理单元222通过计算文本相似度将相似度过高的文档从扩展推荐结果中进行消除。
2)计算时效性
由于用户历史行为数据稀疏、陈旧,推荐结果中出现了一些不具有时效性的文档。因此后处理单元222会计算文档的时效性,并根据该时效性去除扩展推荐结果中时效性不足的文档。
通过上述处理后,即得到最终的用户推荐结果,该用户推荐结果可以输出给用户从而推荐其查看感兴趣的文档(访问对象)、或是输出给其他系统让这些系统进行用户兴趣的分析。
实施例作用与效果
根据本实施例提供的基于稀疏用户行为数据的知识图谱增强的推荐系统,由于通过兴趣挖掘模块中的预处理部提取用户行为数据的静态信息,并通过用户画像构建部构建用户个人的用户行为画像以及用户群组的用户组画像,从而使得标签池构建部以及标签过滤部能够根据这些画像构建推荐标签池,因此可以在少量的用户历史行为数据的支持下,就完成推荐标签池的构建,使得本系统在稀疏用户历史行为数据下的推荐有效且准确,解决了现有系统依赖大量用户历史行为数据的弊端。同时,在构建推荐标签池前,还由于通过语义扩展部根据知识图谱对画像进行了扩展,因此能对用户兴趣进行更有深度的刻画,还能去除部分对用户兴趣不准确的刻画关键词以及噪音。最后,由于通过推荐结果重排模块对初始推荐结果进行重排以及后处理,除了对冷启动有优化之外,也有效的提升了推荐结果的召回率。
另外,实施例中,由于构建用户组画像,因此多个维度的用户信息进行分解,通过多个相关的用户属性进行频繁模式挖掘以得到关联物品结果
另外,本实施例中,由于此通过互信息得到每个用户行为数据的特征值得分,因此能够更准确地完成用户行为数据中关键词的提取,从而有利于后续进行更准确的用户画像刻画。
另外,本实施例中,由于通过用户历史数据、知识图谱、用户行为画像以及用户组画像等多个来源构建用户兴趣标签池,并使用采样等多个方式提取推荐结果,因此最终提取到的用户推荐结果能更符合用户的兴趣,提升了本实施例的推荐系统的推荐效果。
另外,实施例中,由于引入知识图谱进行语义扩展并使用word2vec模型得到的词向量与词之间的共现关系对用户兴趣进行过滤,因此能更好地去除用户推荐结果中的无关结果,从而最终提升推荐效果。
另外,实施例中,由于通过Ranknet模型、文档扩展以及推荐规则对推荐结果进行调整和优化,因此能够更进一步地使得最终得到的用户推荐结果符合用户的兴趣。
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。

Claims (8)

1.一种基于稀疏用户行为数据的知识图谱增强的推荐系统,用于根据稀疏的用户行为数据完成用户兴趣挖掘从而生成与用户兴趣相关的用户推荐结果并推荐给用户,其特征在于,包括:
用户兴趣挖掘模块,用于对各个所述用户的所述用户行为数据进行挖掘从而得到对应用户兴趣的初步推荐结果;以及
推荐结果重排模块,用于对所述初步推荐结果进行重排和调整从而得到更契合用户兴趣的用户推荐结果,
其中,所述用户兴趣挖掘模块包括:
预处理部,用于对所述用户行为数据进行预处理从而得到各个用户画像的静态信息;
用户画像构建部,用于根据所述静态信息对所述用户行为数据中的关键词进行提取从而构建对应各个用户的用户行为画像以及对应所述用户所在群组的用户组画像;
语义扩展部,用于根据预定的知识图谱对所述用户行为画像进行语义扩展从而生成对应各个所述用户的扩展关键词;
标签池构建部,用于根据所述用户行为数据、所述用户行为画像、所述用户组画像以及所述扩展关键词构建各个所述用户的初始标签池;
标签过滤部,用于对所述初始标签池中的关键词进行过滤从而形成推荐标签池;以及
标签采样部,用于对所述推荐标签池进行采样从而获得用户的初步推荐结果,
所述推荐结果重排模块包括:
访问对象扩展部,用于通过协同过滤对所述初步推荐结果进行扩展从而形成扩展推荐结果;以及
推荐结果调整部,用于根据所述用户的用户访问行为分别对各个用户的所述扩展推荐结果进行排序调整以及后处理从而得到用户推荐结果并输出。
2.根据权利要求1所述的基于稀疏用户行为数据的知识图谱增强的推荐系统,其特征在于:
其中,所述预处理部包括:
问题数据过滤单元,用于去除所述用户行为数据中的问题数据;
静态信息获取单元,用于从所述用户行为数据中获取关于用户属性的结构化数据作为所述静态信息;以及
特征值得分获取单元,用于对所述静态信息以及所述用户的历史行为评分计算互信息得分从而获取所述静态信息中各个关键词的特征值得分。
3.根据权利要求2所述的基于稀疏用户行为数据的知识图谱增强的推荐系统,其特征在于:
其中,所述特征值得分获取单元通过如下方法获取所述特征值得分:
依次计算各个所述关键词的互信息得分I(X,Y):
Figure FDA0002316260760000031
式中,X为用户的具体字段值,Y为用户评分,x、y分别为X、Y的具体数值,p(x)和p(y)分别为x和y的边缘概率分布函数,p(x,y)为x、y的联合分布概率,
计算所有所述互信息得分的平均值作为所述特征值得分Ffield
Figure FDA0002316260760000032
式中,I(Xi,Yi)为第i个所述关键词的所述互信息得分,N为所述关键词的总数。
4.根据权利要求2所述的基于稀疏用户行为数据的知识图谱增强的推荐系统,其特征在于:
其中,所述标签池构建部包括:
判断值获取单元,用于获取判断值,该判断值通过计算用户历史行为记录数量与阈值N的比例获得:
Figure FDA0002316260760000033
式中,nu为用户u的所述用户行为数据的记录数量,N为存储阈值,该存储阈值N的取值为50;
预期使用率获取单元,用于获取预期使用率,该预期使用率通过计算用户历史行为记录数量与存储阈值之比并取平方根获得;
用户行为画像采样单元,随机生成10个随机值并根据所述判断值N0对该随机值进行判定,若所述随机值小于所述判断值N0则对所述用户行为画像采样一次。
用户组画像采样单元,根据所述特征值得分以及累积值计算每个所述关键词的权重和,并将所述用户组画像中的组关键词送入所述知识图谱中进行语义扩展得到组扩展关键词,进一步将所述组关键词与所述组扩展关键词各采样一半并去除同义词,第i个所述关键词的所述累积值为Wi为:
Figure FDA0002316260760000041
标签池构建单元,将所述用户行为画像采样单元的采样结果以及所述用户组画像采样单元的采样结果作为所述初始标签池。
5.根据权利要求1所述的基于稀疏用户行为数据的知识图谱增强的推荐系统,其特征在于:
其中,所述用户画像构建部包括:
时间权重分配单元,用于为与用户对应的访问对象分配时间权重:
用户行为画像构建单元,用于从所述访问对象中提取关键词,并根据每个所述访问对象的所述时间权重为每个所述关键词赋予关键词权重,进一步根据每个所述用户对应的所有所述关键词以及关键词权重构建所述用户的用户行为画像;以及
用户组画像构建单元,用于根据所述静态信息对所有所述用户进行分类从而构建对应用户所在群组的用户组画像。
6.根据权利要求1所述的基于稀疏用户行为数据的知识图谱增强的推荐系统,其特征在于:
其中,所述语义扩展部在生成所述扩展关键词时,将所述用户行为画像中所有的关键词作为实体集,并以该实体集为起点、以所述知识图谱为图对所述实体集中的实体进行扩展,所述实体的权重计算包括:
基本权重计算,设置初始节点1的重量,每个扩展节点v的重量d(v)为:
d(v)=min(σw(u,v)*d(u),1)
式中,w(u,v)为边缘的重量,σ为u、v关联边的边权重,d(u)为初始节点的自身权重;
相关词权重计算,根据扩展的所述实体的基本权重对相关实体进行加权,并根据加权后的权重从所述知识图谱中获取所述扩展关键词,所述相关实体包括与用户相关的实体和与意图相关的实体。
7.根据权利要求1所述的基于稀疏用户行为数据的知识图谱增强的推荐系统,其特征在于:
其中,所述访问对象扩展部对所述初步推荐结果进行扩展的方法包括:
计算所述初步推荐结果中所述访问对象的相似度,该相似度为预先计算的访问用户交集和文本相似度的和:
Figure FDA0002316260760000051
式中,A,B是所述访问对象a,b的访问用户群集合,Ta和Tb是所述访问对象a、b的文本内容,
生成所述访问对象之间的用户兴趣相似性,将所述用户兴趣相似性作为所述访问对象之间的边的权重,并利用随机游走算法获取所述扩展推荐结果。
8.根据权利要求1所述的基于稀疏用户行为数据的知识图谱增强的推荐系统,其特征在于:
其中,所述推荐结果调整部包括:
排序调整单元,用于通过预先训练好的Ranknet网络调整所述扩展推荐结果的顺序;
后处理单元,用于对调整顺序后的所述扩展推荐结果进行后处理从而得到所述用户推荐结果。
CN201911279154.8A 2019-12-13 2019-12-13 一种基于稀疏用户行为数据的知识图谱增强的推荐系统 Active CN112989215B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911279154.8A CN112989215B (zh) 2019-12-13 2019-12-13 一种基于稀疏用户行为数据的知识图谱增强的推荐系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911279154.8A CN112989215B (zh) 2019-12-13 2019-12-13 一种基于稀疏用户行为数据的知识图谱增强的推荐系统

Publications (2)

Publication Number Publication Date
CN112989215A true CN112989215A (zh) 2021-06-18
CN112989215B CN112989215B (zh) 2022-06-14

Family

ID=76332136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911279154.8A Active CN112989215B (zh) 2019-12-13 2019-12-13 一种基于稀疏用户行为数据的知识图谱增强的推荐系统

Country Status (1)

Country Link
CN (1) CN112989215B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343108A (zh) * 2021-06-30 2021-09-03 中国平安人寿保险股份有限公司 推荐信息处理方法、装置、设备及存储介质
CN114971744A (zh) * 2022-07-07 2022-08-30 北京淇瑀信息科技有限公司 一种依据稀疏矩阵的用户画像确定方法及装置
CN115630170A (zh) * 2022-12-08 2023-01-20 中孚安全技术有限公司 一种文档推荐方法、系统、终端机及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008153625A2 (en) * 2007-05-25 2008-12-18 Peerset Inc. Recommendation systems and methods
US20150262069A1 (en) * 2014-03-11 2015-09-17 Delvv, Inc. Automatic topic and interest based content recommendation system for mobile devices
CN107122399A (zh) * 2017-03-16 2017-09-01 中国科学院自动化研究所 基于公共文化知识图谱平台的综合推荐系统
CN110175299A (zh) * 2019-05-28 2019-08-27 腾讯科技(上海)有限公司 一种推荐信息确定的方法及服务器
CN110427563A (zh) * 2019-08-30 2019-11-08 杭州智策略科技有限公司 一种基于知识图谱的专业领域系统冷启动推荐方法
CN112214685A (zh) * 2020-09-27 2021-01-12 电子科技大学 一种基于知识图谱的个性化推荐方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008153625A2 (en) * 2007-05-25 2008-12-18 Peerset Inc. Recommendation systems and methods
US20150262069A1 (en) * 2014-03-11 2015-09-17 Delvv, Inc. Automatic topic and interest based content recommendation system for mobile devices
CN107122399A (zh) * 2017-03-16 2017-09-01 中国科学院自动化研究所 基于公共文化知识图谱平台的综合推荐系统
CN110175299A (zh) * 2019-05-28 2019-08-27 腾讯科技(上海)有限公司 一种推荐信息确定的方法及服务器
CN110427563A (zh) * 2019-08-30 2019-11-08 杭州智策略科技有限公司 一种基于知识图谱的专业领域系统冷启动推荐方法
CN112214685A (zh) * 2020-09-27 2021-01-12 电子科技大学 一种基于知识图谱的个性化推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DEQING YANG等: "Knowledge Embedding towards the Recommendation with Sparse User-Item Interactions", 《ACM INTERNATIONAL CONFERENCE ON ADVANCES IN SOCIAL NETWORKS ANALYSIS AND MINING》, 31 August 2019 (2019-08-31) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343108A (zh) * 2021-06-30 2021-09-03 中国平安人寿保险股份有限公司 推荐信息处理方法、装置、设备及存储介质
CN114971744A (zh) * 2022-07-07 2022-08-30 北京淇瑀信息科技有限公司 一种依据稀疏矩阵的用户画像确定方法及装置
CN114971744B (zh) * 2022-07-07 2022-11-15 北京淇瑀信息科技有限公司 一种依据稀疏矩阵的用户画像确定方法及装置
CN115630170A (zh) * 2022-12-08 2023-01-20 中孚安全技术有限公司 一种文档推荐方法、系统、终端机及存储介质

Also Published As

Publication number Publication date
CN112989215B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
US7844592B2 (en) Ontology-content-based filtering method for personalized newspapers
CN105045875B (zh) 个性化信息检索方法及装置
CN112989215B (zh) 一种基于稀疏用户行为数据的知识图谱增强的推荐系统
CN106339502A (zh) 一种基于用户行为数据分片聚类的建模推荐方法
CN103838833A (zh) 基于相关词语语义分析的全文检索系统
CN105787068B (zh) 基于引用网络及用户熟练度分析的学术推荐方法及系统
CN102968419B (zh) 交互式互联网实体名称的消歧方法
CN107895303B (zh) 一种基于ocean模型的个性化推荐的方法
CN111309944B (zh) 一种基于图数据库的数字人文搜索方法
CN115905489B (zh) 一种提供招投标信息搜索服务的方法
CN115712780A (zh) 一种基于云计算和大数据的信息推送方法及装置
JP2022035314A (ja) 情報処理装置及びプログラム
CN112784049B (zh) 一种面向文本数据的在线社交平台多元知识获取方法
Hoang et al. Academic event recommendation based on research similarity and exploring interaction between authors
CN105447013A (zh) 一种新闻推荐系统
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN116431895A (zh) 安全生产知识个性化推荐方法及系统
Hybridised OntoKnowNHS: Ontology Driven Knowledge Centric Novel Hybridised Semantic Scheme for Image Recommendation Using Knowledge Graph
Irshad et al. SwCS: Section-Wise Content Similarity Approach to Exploit Scientific Big Data.
Kanaan et al. kNN Arabic text categorization using IG feature selection
CN117556118B (zh) 基于科研大数据预测的可视化推荐系统及方法
Ayorinde et al. Topic Clustering Using Induced Squared Correlation Thresholding with Dimension Reduction
Cai et al. Marriage Recommendation Algorithm Based on KD-KNN-LR Model
CN112434212B (zh) 基于神经自回归分布估计的涉案新闻主题模型构建方法及装置
Yang et al. Research on E-Commerce User Interest Recommendation Method Based on TF-IDF Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant