CN112732927A - 基于知识图谱的内容相似性分析方法和装置 - Google Patents

基于知识图谱的内容相似性分析方法和装置 Download PDF

Info

Publication number
CN112732927A
CN112732927A CN202011641686.4A CN202011641686A CN112732927A CN 112732927 A CN112732927 A CN 112732927A CN 202011641686 A CN202011641686 A CN 202011641686A CN 112732927 A CN112732927 A CN 112732927A
Authority
CN
China
Prior art keywords
content
contents
nodes
similarity
recommended
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011641686.4A
Other languages
English (en)
Inventor
王昊
张乐情
罗水权
刘剑
李果夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Asset Management Co Ltd
Original Assignee
Ping An Asset Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Asset Management Co Ltd filed Critical Ping An Asset Management Co Ltd
Priority to CN202011641686.4A priority Critical patent/CN112732927A/zh
Publication of CN112732927A publication Critical patent/CN112732927A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及人工智能,公开了一种基于知识图谱的内容相似性分析方法、装置、计算机设备和存储介质。该方法包括:根据历史浏览数据,获取最近浏览的前T个内容;基于预先构建的知识图谱,以T个内容,作为查询节点,获取查询节点的N阶邻居节点,得到候选内容;其中,知识图谱以内容为节点,以内容间的内容属性特征的相似度为边预先建立;根据浏览时间对查询节点进行排序,得到浏览顺序;按照查询节点的浏览顺序以及邻接权重,计算候选内容的推荐分值;其中,推荐分值与对应查询节点在正序浏览顺序的排序呈负相关,推荐分值与相似度邻接权重呈正相关;将推荐分值最高的前K个候选内容作为推荐内容进行推荐。该方法能够降低合规风险。

Description

基于知识图谱的内容相似性分析方法和装置
技术领域
本申请涉及人工智能技术领域,特别是涉及一种基于知识图谱的内容相似性分析方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术以及智能移动终端技术的发展,人们的生活越来越离不开互联网产品。为提高用户对产品的粘性,通过分析用户喜好对用户进行内容推荐。内容推荐的精准性越高,越能够提高用户粘性。
传统的内容推荐方法,通过搜集用户信息,如用户的观看记录,购买记录等,对用户进行用户画像,得到用户标签。进而根据用户标签推荐相关内容。如一个用户的标签为乒乓球,则推荐内容包括了乒乓球新闻。而传统的对用户画像,需要搜集用户信息,涉及用户隐私。用户隐私属于敏感问题,容易产生合规风险。
发明内容
基于此,有必要针对上述技术问题,提供一种能够降低合规风险的基于知识图谱的内容相似性分析方法、装置、计算机设备和存储介质。
一种基于知识图谱的内容相似性分析方法,所述方法包括:
根据历史浏览数据,获取最近浏览的前T个内容;
基于预先构建的知识图谱,以所述T个内容,作为查询节点,获取所述查询节点的N阶邻居节点,得到候选内容;其中,所述知识图谱以内容为节点,以内容间的内容属性特征的相似度为边预先建立,节间点的邻接权重与所述相似度成正相关;
根据浏览时间对所述查询节点进行排序,得到浏览顺序;
按照所述查询节点的浏览顺序以及邻接权重,确定所述候选内容的推荐分值;其中,所述推荐分值与对应查询节点在正序浏览顺序的排序呈负相关,所述推荐分值与所述相似度邻接权重呈正相关;
将推荐分值最高的前K个候选内容作为推荐内容进行推荐。
在其中一个实施例中,预先构建知识图谱的方式,包括:
获取内容属性特征;
根据所述内容属性特征间的相似度,构建相似度矩阵;
根据所述相似度矩阵,以内容为节点,内容之间的相似度为边,构建知识图谱,其中,节间点的邻接权重与所述相似度成正相关。
在其中一个实施例中,获取内容属性特征,包括:
对内容进行分析,获取内容的类别特征和词频特征;
根据所述类别特征、词频特征以及作者和发布时间构建内容属性特征。
在其中一个实施例中,所述方法还包括:
获取对所述推荐内容的反馈;
根据所述反馈,更新所述知识图谱中所述推荐内容的在先内容至所述推荐内容的邻接权重;
根据更新的所述邻接权重,更新所述知识图谱。
在其中一个实施例中,根据所述反馈,更新所述知识图谱中所述推荐内容的在先内容至所述推荐内容的邻接权重,包括:
若用户点击了推荐内容或肯定了推荐内容,则增加所述推荐内容的在先内容至所述推荐内容的邻接权重;若用户未点击所述推荐内容或否定了所述推荐内容,则减少所述推荐内容的在先内容至所述推荐内容的邻接权重。
在其中一个实施例中,在所述根据所述反馈,更新所述知识图谱中所述推荐内容的在先内容至所述推荐内容的邻接权重之后,还包括:
若更新后所述邻接权重小于零,则删除所述在先内容与推荐内容的邻接关系,并获取所述在先内容与推荐内容的邻接节点的传递权重,将传递权重最高的节点作为在先内容的邻接节点。
在其中一个实施例中,在所述根据所述反馈,更新所述知识图谱中所述推荐内容的在先内容至所述推荐内容的邻接权重之后,还包括:
若更新后所述邻接权重大于1,则将在先内容的所有的邻接节点的邻接权重进行归一化处理。
一种基于知识图谱的内容相似性分析装置,所述装置包括:
浏览记录处理模块,用于根据历史浏览数据,获取最近浏览的前T个内容;
候选确定模块,用于基于预先构建的知识图谱,以所述T个内容,作为查询节点,获取所述查询节点的N阶邻居节点,得到候选内容;其中,所述知识图谱以内容为节点,以内容间的内容属性特征的相似度为边预先建立,节间点的邻接权重与所述相似度成正相关;
排序模块,用于根据浏览时间对所述查询节点进行排序,得到浏览顺序;
推荐分值处理模块,用于按照所述查询节点的浏览顺序以及邻接权重,确定所述候选内容的推荐分值;其中,所述推荐分值与对应查询节点在正序浏览顺序的排序呈负相关,所述推荐分值与所述相似度邻接权重呈正相关;
推荐模块,用于将推荐分值最高的前K个候选内容作为推荐内容进行推荐。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
根据历史浏览数据,获取最近浏览的前T个内容;
基于预先构建的知识图谱,以所述T个内容,作为查询节点,获取所述查询节点的N阶邻居节点,得到候选内容;其中,所述知识图谱以内容为节点,以内容间的内容属性特征的相似度为边预先建立,节间点的邻接权重与所述相似度成正相关;
根据浏览时间对所述查询节点进行排序,得到浏览顺序;
按照所述查询节点的浏览顺序以及邻接权重,确定所述候选内容的推荐分值;其中,所述推荐分值与对应查询节点在正序浏览顺序的排序呈负相关,所述推荐分值与所述相似度邻接权重呈正相关;
将推荐分值最高的前K个候选内容作为推荐内容进行推荐。
一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
根据历史浏览数据,获取最近浏览的前T个内容;
基于预先构建的知识图谱,以所述T个内容,作为查询节点,获取所述查询节点的N阶邻居节点,得到候选内容;其中,所述知识图谱以内容为节点,以内容间的内容属性特征的相似度为边预先建立,节间点的邻接权重与所述相似度成正相关;
根据浏览时间对所述查询节点进行排序,得到浏览顺序;
按照所述查询节点的浏览顺序以及邻接权重,计算候选内容的推荐分值;其中,所述推荐分值与对应查询节点在正序浏览顺序的排序呈负相关,所述推荐分值与所述相似度邻接权重呈正相关;
将推荐分值最高的前K个候选内容作为推荐内容进行推荐。
上述基于知识图谱的内容相似性分析方法、装置、计算机设备和存储介质,获取到最近浏览的前T个内容后,基于预先构建的知识图谱,以T个内容,作为查询节点,获取查询节点的N阶邻居节点,得到候选内容,进而按照查询节点的浏览顺序以及邻接权重从候选内容中确定推荐内容。由于知识图谱以内容为节点,内容间的内容属性特征的相似度为边,即预先以知识图谱记录内容间的相似关系,进而以知识图谱确定候选内容,再根据查询节点的浏览顺序以及邻接权重从候选内容中确定推荐内容,整个过程只需要考虑内容的相似性以及浏览顺序,不需要搜集用户信息,能够降低合规风险,并且,通过考虑相似性和浏览顺序,能够考虑用户最近兴趣并为用户推荐与最近兴趣相似的内容,使推荐内容符合用户预期,提高用户对推荐内容的点击率。
附图说明
图1为一个实施例中基于知识图谱的内容相似性分析方法的应用场景图;
图2为一个实施例中基于知识图谱的内容相似性分析方法的流程示意图;
图3为一个实施例中预先构建知识图谱的步骤的流程示意图;
图4为一个实施例中基于知识图谱的内容相似性分析装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的基于知识图谱的内容相似性分析方法,可以应用于如图1所示的应用环境中。其中,多个终端102通过网络与服务器104通过网络进行通信。各个终端102记录了用户的浏览数据。获取最近浏览的前T个内容,发送至服务器,由服务器进行基于知识图谱的内容相似性分析。具体地,根据历史浏览数据,获取最近浏览的前T个内容;基于预先构建的知识图谱,以T个内容,作为查询节点,获取查询节点的N阶邻居节点,得到候选内容;其中,知识图谱以内容为节点,以内容间的内容属性特征的相似度为边预先建立,节间点的邻接权重与相似度成正相关;根据浏览时间对查询节点进行排序,得到浏览顺序;按照查询节点的浏览顺序以及邻接权重,确定候选内容的推荐分值;其中,推荐分值与对应查询节点在正序浏览顺序的排序呈负相关,推荐分值与相似度邻接权重呈正相关;将推荐分值最高的前K个候选内容作为推荐内容进行推荐。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种基于知识图谱的内容相似性分析方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,根据历史浏览数据,获取最近浏览的前T个内容。
其中,内容是指以一定载体记录的信息,载体形式包括但不限于文字、语音、视频等。因此,内容可以为文章、语音、图片和视频。
历史浏览数据是指用户在历史浏览记录,将历史浏览记录中的前T个作内容作为查询基础,为用户进行推荐。历史浏览数据保存在用户端,只取最近浏览的前T(如10)篇内容(如文章)。
步骤204,基于预先构建的知识图谱,以T个内容,作为查询节点,获取查询节点的N阶邻居节点,得到候选内容;其中,知识图谱以内容为节点,以内容间的内容属性特征的相似度为边预先建立,节间点的邻接权重与相似度成正相关。
具体地,知识图谱是预先根据内容间的相似度建立的,以内容为节点,以内容的相似度为边,建立知识图谱。
也就是说,预先用知识图谱表征内容之间的相似关系,节点间的邻接权重越大,表明两个节点间的相似度越高。其中,直接通过边连接的节点互为1阶邻居节点,二阶及其以上的N阶邻居节点为一个节点的N-1阶邻居节点的邻居节点。如,节点A的二阶邻居节点,是节点A的一阶邻居节点的邻居节点。
以T个内容作为查询节点,分别查询这T个内容的N阶邻居节点,得到候选内容。由于知识图谱是根据节点之间的相似度建立的,因而,查找到的N阶邻居节点是与查询节点直接相似,或间接相似的内容。
在实际应用时,对于T个查询节点,分别查找邻接权重最大的前N个邻接节点,得到候选内容。基于用户浏览历史,按先后顺序倒序排序(1号为最近浏览的文章,T号为最远浏览的文章),查找T个内容的邻居,最大数量为T*M(由于某些节点共享邻居,一般达不到这个数量)。
步骤206,根据浏览时间对查询节点进行排序,得到浏览顺序。
具体地,对最近浏览的前T个内容,根据浏览时间的正序或倒序对查询节点进行排序。例如,根据浏览时间正序进行排序,得到查询节点的浏览顺序。正序排序即是按时间的先后顺序进行排序。如,前面三个内容A、B和C的浏览时间分别是9点,9点十分,8点五十分,则查询节点的浏览顺序为C-A-B。
步骤208,按照查询节点的浏览顺序以及邻接权重,确定候选内容的推荐分值;其中,推荐分值与对应查询节点在正序浏览顺序的排序呈负相关,推荐分值与相似度邻接权重呈正相关。
推荐分值与对应查询节点的正序浏览顺序的排序呈负相关,即在正序浏览顺序的排序越靠前,表明其距离当前时间越远,推荐分值则越低。即相对而言,浏览时间距离当前时间更近的查询节点的N阶邻居节点,相对能够得到较高的推荐分值。
推荐分值与相似度邻接权重呈正相关,与查询节点的相似度邻接权重越大,表明与查询节点的相似度值越大,对应N阶邻居节点的推荐分值也越大,即相对而言,与查询节点越相似的N阶邻居节点,相对能够得到较高的推荐分值。
具体地,一阶邻居节点的推荐分值计算公式如下:
Figure BDA0002880156410000071
其中wit为第t号内容与邻居节点i的相似度权重,t为在正序浏览顺序的排序序号,取值为1到T,alpha为超参数,用以调节不同文章score的差异度,可取0.1。
具体会,二阶邻居节点的推荐分值计算公式如下:
Figure BDA0002880156410000072
步骤210,将推荐分值最高的前K个候选内容作为推荐内容进行推荐。
具体地,按照推荐分值从高到低,返回前K个候选基于知识图谱的内容相似性分析给用户。在实际应用中,如果用户没有浏览历史,则随机推荐若干篇文章。
上述的基于知识图谱的内容相似性分析方法,获取到最近浏览的前T个内容后,基于预先构建的知识图谱,以T个内容,作为查询节点,获取查询节点的N阶邻居节点,得到候选内容,进而按照查询节点的浏览顺序以及邻接权重从候选内容中确定推荐内容。由于知识图谱以内容为节点,内容间的内容属性特征的相似度为边,即预先以知识图谱记录内容间的相似关系,进而以知识图谱确定候选内容,再根据查询节点的浏览顺序以及邻接权重从候选内容中确定推荐内容,整个过程只需要考虑内容的相似性以及浏览顺序,不需要搜集用户信息,能够降低合规风险,并且,通过考虑相似性和浏览顺序,能够考虑用户最近兴趣并为用户推荐与最近兴趣相似的内容,使推荐内容符合用户预期,提高用户对推荐内容的点击率。
在另一个实施例中,预先构建知识图谱的方式,如图3所示,包括:
S302,获取内容属性特征。
具体地,内容属性特征是内容自身属性的特征,与其它因素无关,包括但不限于内容类别、词频特征、作者和时间等。
准备阶段,获取数据集,仅通过内容本身的属性构建特征。以数据集为新闻库,新闻库数据集,文章数为N,获取N个文章的内容属性特征,构建知识图谱。
具体地,获取内容属性特征,包括:对内容进行分析,获取内容的类别特征和词频特征;根据类别特征、词频特征以及作者和发布时间构建内容属性特征。
类别特征是指内容所属的标签类别,与内容所涉及的主题有关。
词频特征可通过对内容进行词频分析得到。具体地,利用词频分析方法,对数据库中的每个文本进行词频分析,得到词频特征。其中,词频分析方法可采用TF-IDF(termfrequency–inverse document frequency),TF-IDF是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse DocumentFrequency)。
作者即内容的发布者。
根据类别特征、词频特征以及作者和发布时间构建内容属性特征,从而得到的内容属性特征只与内容本身相关,不受其它因素的影响。
S304,根据内容属性特征间的相似度,构建相似度矩阵。
具体地,首先利用相似度计算公式计算做任意两个内容间的相似度,相似度计算公式可采用余弦相似度,再根据内容间的余弦相似度构建相似度矩阵R,具体为:
Figure BDA0002880156410000081
其中ri,j代表文本i和文本j的相似度,Vi,m代表文本i向量第m维的数值。
S306,根据相似度矩阵,以内容为节点,内容之间的相似度为边,构建知识图谱,其中,节间点的邻接权重与相似度成正相关。
具体地,知识图谱的节点为每一个内容的ID。以内容ID为节点,内容间的相似度为边构造知识图谱。对任意一篇内容,只取与其相似度最大的前M(如20)篇内容,作为邻居节点,邻接权重为其相似度,邻接关系为双向,即在知识图谱中,假设A与B的相似度为0.5,B与A的相似度可能为0(即没有直接连接,因为B不是A的前20大相似文章)。
本实施例中,根据内容属性特征之间的相似度构建知识图谱,用知识图谱记录内容之间的相似度,能够直观地获取内容之间的相似信息。
在另一个实施例中,基于知识图谱的内容相似性分析方法还包括:获取对推荐内容的反馈;根据反馈,根据反馈,更新知识图谱中推荐内容的在先内容至推荐内容的邻接权重,更新知识图谱。
推荐内容的在先内容是指在查看推荐内容之前用户所浏览的内容,即是在在先内容的基础上,向用户推荐的推荐内容。若用户点击了推荐内容,则在查看推荐内容之前用户所浏览的内容为推荐内容的在先内容。例如,用户在查看内容A,接收到了推荐内容B,用户点击了推荐内容B,则内容A为推荐内容B的在先内容。
具体地,对推荐内容的反馈是指用户收到推荐内容后,用户对推荐内容的操作。用户对推荐内容的操作包括点击、未点击。在实际应用场景中,还可在显示推荐内容的同时,显示推荐评价选项。推荐评价选项包括肯定和否定两个选项,其表现形式有很多,如可以用笑脸表示肯定,用哭脸表示否定,又如点赞表示肯定,直接的方式也可以用文字表示。如显示“不要给我推荐该文章”表示否定。
根据用户对推荐内容的反馈,知识图谱中推荐内容的在先内容至推荐内容的邻接权重,能够随着用户对推荐内容的反馈,调整内容间的邻接权重,使知识图谱得到更新,更新后的知识图谱能够反应基于用户浏览记录记录的各内容之间的联系,从而基于知识图谱进行推荐能够符合用户习惯,提高推荐的精准度。
具体地,若用户点击了推荐内容或肯定了推荐内容,则增加推荐内容的在先内容至推荐内容的邻接权重;若用户未点击推荐内容或否定了推荐内容,则减少推荐内容的在先内容至推荐内容的邻接权重。
具体地,每次推荐若干文章给用户后,如果用户点开了推荐的某篇内容B,且浏览时间大于阈值threshold,该文章之前的文章为A,则更新知识图谱中内容A至内容B的邻接权重wAB,更新为(1+beta)*wAB,对于未点开的推荐内容C、D、E等,邻接权重更新为
Figure BDA0002880156410000101
如果在某次推荐后,用户显式的在某篇推荐文章F上点击了“不要给我推荐该文章”,则该内容与其在先内容的邻接权重更新为
Figure BDA0002880156410000102
如果用户显示的给推荐文章F点赞,该内容与其在先内容的邻接权重更新为
Figure BDA0002880156410000103
在根据反馈,更新知识图谱中推荐内容的在先内容至推荐内容的邻接权重之后,还包括:若更新后邻接权重小于零,则删除在先内容与推荐内容的邻接关系,并获取在先内容与推荐内容的邻接节点的传递权重,将传递权重最高的节点作为在先内容的邻接节点。
具体地,若更新后,在先内容与推荐内容间的邻接权重小于零,则删除该推荐内容节点,即删除该推荐内容与在先内容之间的邻接关系。删除后,将在先内容与推荐内容节点的邻接节点中传递权重最高的节点作为补充的在先内容的邻接节点。可以理解的是,推荐内容的邻接节点,即为在先内容的二阶邻接节点。
例如,如果某次更新后,在先内容与推荐内容间的邻接权重wAB小于0,则断掉该邻接关系,在剩余的连接邻居中,计算在先内容A与邻居节点B的邻居节点的传递权重
Figure BDA0002880156410000104
取得分最高的节点,作为在先内容A的直接邻居插入,权重为该得分。
在先内容与推荐内容间的邻接权重小于零时,通过将推荐内容节点删除,从与推荐内容节点相关的二阶邻接节点中确定传递权重最高的节点补充为邻接节点,能够使知识图谱得到更新,及时删除并补充节点间的有效邻接关系。
在另一个实施例中,在根据反馈,更新知识图谱中推荐内容的在先内容至推荐内容的邻接权重之后,还包括:若更新后邻接权重大于1,则将在先内容的所有的邻接节点的邻接权重进行归一化处理。
具体地,若更新后,知识图谱中节点间的邻接权重若大于1,则将在先内容所有的邻接节点的邻接权重进行归一化处理。即某次更新后在先内容A与邻居节点B的邻接权重wAB大于1,则将A的所有邻居权重更新为
Figure BDA0002880156410000111
即做一次归一化,保证知识库的权重稳定。
本申请的基于知识图谱的内容相似性分析方法,以相似度构建知识图谱,在进行推荐时,根据浏览顺序和邻接权重计算候选推荐内容的推荐分值,并根据反馈更新邻接权重。该方法不需要考虑用户特征,仅考虑内容属性特征,无需搜集用户隐私,能够规避合规风险。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种基于知识图谱的内容相似性分析装置,包括:
浏览记录处理模块402,用于根据历史浏览数据,获取最近浏览的前T个内容。
候选确定模块404,用于基于预先构建的知识图谱,以所述T个内容,作为查询节点,获取所述查询节点的N阶邻居节点,得到候选内容;其中,所述知识图谱以内容为节点,以内容间的内容属性特征的相似度为边预先建立,节间点的邻接权重与所述相似度成正相关。
排序模块406,用于根据浏览时间对所述查询节点进行排序,得到浏览顺序.
推荐分值处理模块408,用于按照查询节点的浏览顺序以及邻接权重,确定候选内容的推荐分值;其中,推荐分值与对应查询节点在正序浏览顺序的排序呈负相关,推荐分值与相似度邻接权重呈正相关。
推荐模块410,用于将推荐分值最高的前K个候选内容作为推荐内容进行推荐。
上述基于知识图谱的内容相似性分析装置,获取到最近浏览的前T个内容后,基于预先构建的知识图谱,以T个内容,作为查询节点,获取查询节点的N阶邻居节点,得到候选内容,进而按照查询节点的浏览顺序以及邻接权重从候选内容中确定推荐内容。由于知识图谱以内容为节点,内容间的内容属性特征的相似度为边,即预先以知识图谱记录内容间的相似关系,进而以知识图谱确定候选内容,再根据查询节点的浏览顺序以及邻接权重从候选内容中确定推荐内容,整个过程只需要考虑内容的相似性以及浏览顺序,不需要搜集用户信息,能够降低合规风险,并且,通过考虑相似性和浏览顺序,能够考虑用户最近兴趣并为用户推荐与最近兴趣相似的内容,使推荐内容符合用户预期,提高用户对推荐内容的点击率。
在另一个实施例中,基于知识图谱的内容相似性分析装置还包括:
内容特征获取模块,用于获取内容属性特征;
相似度矩阵模块,用于根据内容属性特征间的相似度,构建相似度矩阵;
知识图谱构建模块,用于根据相似度矩阵,以内容为节点,内容之间的相似度为边,构建知识图谱,其中,节间点的邻接权重与相似度成正相关。
在另一个实施例中,内容特征获取模块,用于对内容进行分析,获取内容的类别特征和词频特征;根据类别特征、词频特征以及作者和发布时间构建内容属性特征。
在另一个实施例中,还包括:
反馈获取模块,用于获取对推荐内容的反馈;
邻接权重更新模块,用于根据反馈,更新知识图谱中推荐内容的在先内容至推荐内容的邻接权重;
图谱更新模块,用于根据更新的邻接权重,更新知识图谱。
在另一个实施例中,邻接权重更新模块,用于若用户点击了推荐内容或肯定了推荐内容,则增加推荐内容的在先内容至推荐内容的邻接权重;若用户未点击推荐内容或否定了推荐内容,则减少推荐内容的在先内容至推荐内容的邻接权重。
在另一个实施例中,邻接权重更新模块,还用于若更新后邻接权重小于零,则删除在先内容与推荐内容的邻接关系,并获取在先内容与推荐内容的邻接节点的传递权重,将传递权重最高的节点作为在先内容的邻接节点。
在另一个实施例中,邻接权重更新模块,还用于若更新后邻接权重大于1,则将在先内容的所有的邻接节点的邻接权重进行归一化处理。
关于基于知识图谱的内容相似性分析装置的具体限定可以参见上文中对于基于知识图谱的内容相似性分析方法的限定,在此不再赘述。上述基于知识图谱的内容相似性分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储知识图谱。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于知识图谱的内容相似性分析方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
根据历史浏览数据,获取最近浏览的前T个内容;
基于预先构建的知识图谱,以所述T个内容,作为查询节点,获取所述查询节点的N阶邻居节点,得到候选内容;其中,所述知识图谱以内容为节点,以内容间的内容属性特征的相似度为边预先建立,节间点的邻接权重与所述相似度成正相关;
根据浏览时间对所述查询节点进行排序,得到浏览顺序;
按照查询节点的浏览顺序以及邻接权重,确定候选内容的推荐分值;其中,推荐分值与对应查询节点在正序浏览顺序的排序呈负相关,推荐分值与相似度邻接权重呈正相关;
将推荐分值最高的前K个候选内容作为推荐内容进行推荐。
在其中一个实施例中,预先构建知识图谱的方式,包括:
获取内容属性特征;
根据内容属性特征间的相似度,构建相似度矩阵;
根据相似度矩阵,以内容为节点,内容之间的相似度为边,构建知识图谱,其中,节间点的邻接权重与相似度成正相关。
在其中一个实施例中,获取内容属性特征,包括:
对内容进行分析,获取内容的类别特征和词频特征;
根据类别特征、词频特征以及作者和发布时间构建内容属性特征。
在其中一个实施例中,方法还包括:
获取对推荐内容的反馈;
根据反馈,更新知识图谱中推荐内容的在先内容至推荐内容的邻接权重;
根据更新的邻接权重,更新知识图谱。
在其中一个实施例中,根据反馈,更新知识图谱中推荐内容的在先内容至推荐内容的邻接权重,包括:
若用户点击了推荐内容或肯定了推荐内容,则增加推荐内容的在先内容至推荐内容的邻接权重;若用户未点击推荐内容或否定了推荐内容,则减少推荐内容的在先内容至推荐内容的邻接权重。
在其中一个实施例中,在根据反馈,更新知识图谱中推荐内容的在先内容至推荐内容的邻接权重之后,还包括:
若更新后邻接权重小于零,则删除在先内容与推荐内容的邻接关系,并获取在先内容与推荐内容的邻接节点的传递权重,将传递权重最高的节点作为在先内容的邻接节点。
在其中一个实施例中,在根据反馈,更新知识图谱中推荐内容的在先内容至推荐内容的邻接权重之后,还包括:
若更新后邻接权重大于1,则将在先内容的所有的邻接节点的邻接权重进行归一化处理。
在一个实施例中,提供了一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
根据历史浏览数据,获取最近浏览的前T个内容;
基于预先构建的知识图谱,以所述T个内容,作为查询节点,获取所述查询节点的N阶邻居节点,得到候选内容;其中,所述知识图谱以内容为节点,以内容间的内容属性特征的相似度为边预先建立,节间点的邻接权重与所述相似度成正相关;
根据浏览时间对所述查询节点进行排序,得到浏览顺序;
按照查询节点的浏览顺序以及邻接权重,确定候选内容的推荐分值;其中,推荐分值与对应查询节点在正序浏览顺序的排序呈负相关,推荐分值与相似度邻接权重呈正相关;
将推荐分值最高的前K个候选内容作为推荐内容进行推荐。
在其中一个实施例中,预先构建知识图谱的方式,包括:
获取内容属性特征;
根据内容属性特征间的相似度,构建相似度矩阵;
根据相似度矩阵,以内容为节点,内容之间的相似度为边,构建知识图谱,其中,节间点的邻接权重与相似度成正相关。
在其中一个实施例中,获取内容属性特征,包括:
对内容进行分析,获取内容的类别特征和词频特征;
根据类别特征、词频特征以及作者和发布时间构建内容属性特征。
在其中一个实施例中,方法还包括:
获取对推荐内容的反馈;
根据反馈,更新知识图谱中推荐内容的在先内容至推荐内容的邻接权重;
根据更新的邻接权重,更新知识图谱。
在其中一个实施例中,根据反馈,更新知识图谱中推荐内容的在先内容至推荐内容的邻接权重,包括:
若用户点击了推荐内容或肯定了推荐内容,则增加推荐内容的在先内容至推荐内容的邻接权重;若用户未点击推荐内容或否定了推荐内容,则减少推荐内容的在先内容至推荐内容的邻接权重。
在其中一个实施例中,在根据反馈,更新知识图谱中推荐内容的在先内容至推荐内容的邻接权重之后,还包括:
若更新后邻接权重小于零,则删除在先内容与推荐内容的邻接关系,并获取在先内容与推荐内容的邻接节点的传递权重,将传递权重最高的节点作为在先内容的邻接节点。
在其中一个实施例中,在根据反馈,更新知识图谱中推荐内容的在先内容至推荐内容的邻接权重之后,还包括:
若更新后邻接权重大于1,则将在先内容的所有的邻接节点的邻接权重进行归一化处理。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于知识图谱的内容相似性分析方法,所述方法包括:
根据历史浏览数据,获取最近浏览的前T个内容;
基于预先构建的知识图谱,以所述T个内容,作为查询节点,获取所述查询节点的N阶邻居节点,得到候选内容;其中,所述知识图谱以内容为节点,以内容间的内容属性特征的相似度为边预先建立,节间点的邻接权重与所述相似度成正相关;
根据浏览时间对所述查询节点进行排序,得到浏览顺序;
按照所述查询节点的浏览顺序以及邻接权重,确定所述候选内容的推荐分值;其中,所述推荐分值与对应查询节点在正序浏览顺序的排序呈负相关,所述推荐分值与所述相似度邻接权重呈正相关;
将推荐分值最高的前K个候选内容作为推荐内容进行推荐。
2.根据权利要求1所述的方法,其特征在于,预先构建知识图谱的方式,包括:
获取内容属性特征;
根据所述内容属性特征间的相似度,构建相似度矩阵;
根据所述相似度矩阵,以内容为节点,内容之间的相似度为边,构建知识图谱,其中,节间点的邻接权重与所述相似度成正相关。
3.根据权利要求2所述的方法,其特征在于,获取内容属性特征,包括:
对内容进行分析,获取内容的类别特征和词频特征;
根据所述类别特征、词频特征以及作者和发布时间构建内容属性特征。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取对所述推荐内容的反馈;
根据所述反馈,更新所述知识图谱中所述推荐内容的在先内容至所述推荐内容的邻接权重;
根据更新的所述邻接权重,更新所述知识图谱。
5.根据权利要求4所述的方法,其特征在于,根据所述反馈,更新所述知识图谱中所述推荐内容的在先内容至所述推荐内容的邻接权重,包括:
若用户点击了推荐内容或肯定了推荐内容,则增加所述推荐内容的在先内容至所述推荐内容的邻接权重;若用户未点击所述推荐内容或否定了所述推荐内容,则减少所述推荐内容的在先内容至所述推荐内容的邻接权重。
6.根据权利要求4所述的方法,其特征在于,在所述根据所述反馈,更新所述知识图谱中所述推荐内容的在先内容至所述推荐内容的邻接权重之后,还包括:
若更新后所述邻接权重小于零,则删除所述在先内容与推荐内容的邻接关系,并获取所述在先内容与推荐内容的邻接节点的传递权重,将传递权重最高的节点作为在先内容的邻接节点。
7.根据权利要求4所述的方法,其特征在于,在所述根据所述反馈,更新所述知识图谱中所述推荐内容的在先内容至所述推荐内容的邻接权重之后,还包括:
若更新后所述邻接权重大于1,则将在先内容的所有的邻接节点的邻接权重进行归一化处理。
8.一种基于知识图谱的内容相似性分析装置,其特征在于,所述装置包括:
浏览记录处理模块,用于根据历史浏览数据,获取最近浏览的前T个内容;
候选确定模块,用于基于预先构建的知识图谱,以所述T个内容,作为查询节点,获取所述查询节点的N阶邻居节点,得到候选内容;其中,所述知识图谱以内容为节点,以内容间的内容属性特征的相似度为边预先建立,节间点的邻接权重与所述相似度成正相关;
排序模块,用于根据浏览时间对所述查询节点进行排序,得到浏览顺序;
推荐分值处理模块,用于按照所述查询节点的浏览顺序以及邻接权重,确定所述候选内容的推荐分值;其中,所述推荐分值与对应查询节点在正序浏览顺序的排序呈负相关,所述推荐分值与所述相似度邻接权重呈正相关;
推荐模块,用于将推荐分值最高的前K个候选内容作为推荐内容进行推荐。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202011641686.4A 2020-12-31 2020-12-31 基于知识图谱的内容相似性分析方法和装置 Pending CN112732927A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011641686.4A CN112732927A (zh) 2020-12-31 2020-12-31 基于知识图谱的内容相似性分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011641686.4A CN112732927A (zh) 2020-12-31 2020-12-31 基于知识图谱的内容相似性分析方法和装置

Publications (1)

Publication Number Publication Date
CN112732927A true CN112732927A (zh) 2021-04-30

Family

ID=75609231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011641686.4A Pending CN112732927A (zh) 2020-12-31 2020-12-31 基于知识图谱的内容相似性分析方法和装置

Country Status (1)

Country Link
CN (1) CN112732927A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254671A (zh) * 2021-06-22 2021-08-13 平安科技(深圳)有限公司 基于query分析的图谱优化方法、装置、设备及介质
CN116302863A (zh) * 2023-05-22 2023-06-23 中信证券股份有限公司 报警处理方法、装置、设备和计算机可读介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150213368A1 (en) * 2012-10-08 2015-07-30 Tencent Technology (Shenzhen) Company Limited Information recommendation method, apparatus, and server
CN109063104A (zh) * 2018-07-27 2018-12-21 百度在线网络技术(北京)有限公司 推荐信息的刷新方法、装置、存储介质和终端设备
CN109460519A (zh) * 2018-12-28 2019-03-12 上海晶赞融宣科技有限公司 浏览对象推荐方法及装置、存储介质、服务器
CN110188208A (zh) * 2019-06-04 2019-08-30 河海大学 一种基于知识图谱的信息资源查询推荐方法和系统
CN111651610A (zh) * 2020-05-27 2020-09-11 仲恺农业工程学院 基于知识图谱的农产品智能推荐方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150213368A1 (en) * 2012-10-08 2015-07-30 Tencent Technology (Shenzhen) Company Limited Information recommendation method, apparatus, and server
CN109063104A (zh) * 2018-07-27 2018-12-21 百度在线网络技术(北京)有限公司 推荐信息的刷新方法、装置、存储介质和终端设备
CN109460519A (zh) * 2018-12-28 2019-03-12 上海晶赞融宣科技有限公司 浏览对象推荐方法及装置、存储介质、服务器
CN110188208A (zh) * 2019-06-04 2019-08-30 河海大学 一种基于知识图谱的信息资源查询推荐方法和系统
CN111651610A (zh) * 2020-05-27 2020-09-11 仲恺农业工程学院 基于知识图谱的农产品智能推荐方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254671A (zh) * 2021-06-22 2021-08-13 平安科技(深圳)有限公司 基于query分析的图谱优化方法、装置、设备及介质
CN116302863A (zh) * 2023-05-22 2023-06-23 中信证券股份有限公司 报警处理方法、装置、设备和计算机可读介质
CN116302863B (zh) * 2023-05-22 2023-07-25 中信证券股份有限公司 报警处理方法、装置、设备和计算机可读介质

Similar Documents

Publication Publication Date Title
CN109086394B (zh) 搜索排序方法、装置、计算机设备和存储介质
CN110543598B (zh) 信息推荐方法、装置及终端
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
CN108959644B (zh) 搜索排序方法、装置、计算机设备和存储介质
US7912816B2 (en) Adaptive archive data management
CN109063108B (zh) 搜索排序方法、装置、计算机设备和存储介质
WO2022142027A1 (zh) 基于知识图谱的模糊匹配方法、装置、计算机设备和存储介质
CN108334632B (zh) 实体推荐方法、装置、计算机设备和计算机可读存储介质
CN108228745B (zh) 一种基于协同过滤优化的推荐算法和装置
CN110880006B (zh) 用户分类方法、装置、计算机设备和存储介质
CN110674144A (zh) 用户画像生成方法、装置、计算机设备和存储介质
CN110555164B (zh) 群体兴趣标签的生成方法、装置、计算机设备和存储介质
CN112732927A (zh) 基于知识图谱的内容相似性分析方法和装置
CN112560444A (zh) 文本处理方法、装置、计算机设备和存储介质
AU2018313274B2 (en) Diversity evaluation in genealogy search
CN110688516A (zh) 图像检索方法、装置、计算机设备和存储介质
CN114741489A (zh) 文档检索方法、装置、存储介质以及电子设备
CN116610853A (zh) 搜索推荐方法、搜索推荐系统、计算机设备及存储介质
CN115114415A (zh) 问答知识库更新方法、装置、计算机设备和存储介质
CN112765453A (zh) 内容推荐方法、装置、计算机设备和存储介质
Zeng et al. Learn to rank images: A unified probabilistic hypergraph model for visual search
CN112445973B (zh) 一种寻找项目的方法、装置、存储介质和计算机设备
CN113837846B (zh) 商品推荐方法、装置、计算机设备和存储介质
CN113792210B (zh) 一种基于语义实时分析的热控方法及系统
WO2023155306A1 (zh) 基于图神经网络的数据推荐方法及装置、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210430