CN111522889B - 用户兴趣标签扩展方法、装置、电子设备及存储介质 - Google Patents
用户兴趣标签扩展方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111522889B CN111522889B CN202010332953.3A CN202010332953A CN111522889B CN 111522889 B CN111522889 B CN 111522889B CN 202010332953 A CN202010332953 A CN 202010332953A CN 111522889 B CN111522889 B CN 111522889B
- Authority
- CN
- China
- Prior art keywords
- user
- tag
- interest
- label
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开一种用户兴趣标签扩展方法,包括:获取标签集合A={t1,t2,……tn},n为自然数且n>1,标签集合A内包括兴趣标签t;获取用户u的原始兴趣标签集合B={t1,t2,……tk},其中k为自然数且1≤k<n,且获取至少一个知识图谱,其至少包括与标签t对应的节点Nt及与原始兴趣标签集合B的子集S对应的节点集合C;根据节点Nt与节点集合C内节点之间的关联关系计算用户u与所述标签t之间的兴趣度,进而得到用户‑标签异构信息网络;分解用户‑标签异构信息网络得到用户向量与标签向量;根据用户向量与所述标签向量生成用户的扩展兴趣标签。上述方法可快速得到用户的扩展兴趣标签。此外,本申请还公开一种用户兴趣标签扩展装置、电子设备及存储介质。
Description
技术领域
本申请涉及计算机技术领域,更具体地,涉及智能推荐系统技术领域。
背景技术
用户画像是一个将用户的特征和属于抽象化并以标签来表示的模型。一个标签概括了用户的一个特征,例如性别、年龄、学历、消费习惯、兴趣偏好等。用户画像技术支撑了个性化推荐,广告营销等应用,为公司或企业提供了信息基础,帮助企业精准定位到用户需求。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。例如,通过对网络上海量的文本数据进行NLP处理,提取文章的关键字,解析语义,并进一步分析,可以得到各种领域的知识图谱。
另一方面,通过对用户经常访问的内容进行自然语言的分析与处理,可以得到用户的兴趣标签,其基本思想是用户如果经常点击某一个主题的信息,那么用户画像中会生成一个该主题的标签。而不同页面的主题信息是通过自然语言处理得到的。例如:用户经常点击关于明星A的信息,那么用户的兴趣画像标签中会生成一个标签“明星A”。
然而这种基于点击日志生成的画像标签取决于给用户展示了什么样的信息,当没有产生足够量的点击记录时,无法得出足够全面及精准的用户画像标签。要得到相对精准的用户画像标签,需要很长时间的日志记录操作,这无疑给用户画像技术的应用带来了时间长的障碍。
发明内容
本申请实施例提出了一种基于元路径学习的用户兴趣标签扩展方法、装置、电子设备及存储介质。
第一方面,本申请实施例提供一种用户兴趣标签扩展方法,其包括:
获取标签集合A={t1,t2,……tn},其中n为自然数且n>1,标签集合A内包括兴趣标签t;获取用户u的原始兴趣标签集合B={t1,t2,……tk},其中k为自然数且1≤k<n,且 获取至少一个知识图谱,知识图谱至少包括与标签t对应的节点Nt及与原始兴趣标签集合B的子集S对应的节点集合C;根据所述节点Nt与所述节点集合C内节点之间的关联关系计算所述用户u与所述标签t之间的兴趣度,进而得到用户-标签异构信息网络;分解用户-标签异构信息网络得到用户向量与标签向量;根据用户向量与所述标签向量生成用户的扩展兴趣标签。
第二方面,本申请实施例提供了一种电子设备,包括:标签获取模块、原始兴趣标签获取模块、知识图谱获取模块、异构信息网络生成模块、矩阵分解模块、及扩展兴趣标签生成模块。
标签获取模块用于获取标签集合A={t1,t2,……tn},其中n为自然数且n>1,所述标签集合A内包括兴趣标签t。原始兴趣标签获取模块用于获取用户u的原始兴趣标签集合B={t1,t2,……tk},其中k为自然数且1≤k<n,且知识图谱获取模块用于获取至少一个知识图谱,所述知识图谱至少包括与所述标签t对应的节点Nt及与所述原始兴趣标签集合B的子集S对应的节点集合C;异构信息网络生成模块用于根据所述节点Nt与所述节点集合C内节点之间的关联关系计算所述用户u与所述标签t之间的兴趣度,进而得到用户-标签异构信息网络;矩阵分解模块,用于分解所述用户-标签异构信息网络得到用户向量与标签向量;扩展兴趣标签生成模块,用于根据所述用户向量与所述标签向量生成所述用户的扩展兴趣标签。
第三方面,本申请实施例提供了一种电子设备,包括:存储器;一个或多个处理器,与所述存储器耦接;一个或多个应用程序,其中,一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个应用程序配置用于执行上述第一方面提供的用户兴趣标签扩展方法。
第四方面,本申请实施例提供了一种计算机可读取存储介质,计算机可读取存储介质中存储有程序代码,程序代码可被处理器调用执行上述第一方面提供的用户兴趣标签扩展方法。
本申请实施例提供的基于元路径学习的用户兴趣标签扩展方法,从知识图谱及用户的原始兴趣标签出发,可以快速得到用户的扩展标签,进而给智能推荐应用提供了精准的数据源,提升了智能推荐系统的效率与准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一个示例性实施例提供的用户兴趣标签扩展方法的流程图。
图2示出了本申请一个示例性实施例提供的知识图谱的局部示意图。
图3示出了本申请一个示例性实施例中根据知识图谱及用户的原始兴趣标签获取用户的扩展兴趣标签的流程示意图。
图4示出了本申请一个示例性实施例提供的知识图谱的局部示意图。
图5示出了本申请另一个示例性实施例提供的用户兴趣标签扩展方法的流程图。
图6示出了本申请再一个示例性实施例提供的用户兴趣标签扩展方法的流程图。
图7示出了本申请一个示例性实施例提供的用户兴趣标签扩展装置的结构框图。
图8示出了本申请另一个示例性实施例提供的用户兴趣标签扩展装置的结构框图。
图9示出了本申请一个示例性实施例提供的服务器的结构框图。
图10示出了本申请实施例提供的一种计算机可读取存储介质的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
术语定义
兴趣标签(Tag):反映用户兴趣的关键短语,可以是抽象的概念词语如:跑车、恐怖电影,也可以是具体的实体词如:比亚迪秦EV450,神雕侠侣等。对于一个确定的系统或者说应用,所有的兴趣标签构成一个集合A={t1,t2,……tn},其中n为自然数且n>1。
知识图谱:是指一种图状且具有关联性的知识集合。图中的节点是实体,实体之间可以通过关系互联。例如:“明星A”是知识图谱中的一个实体,“明星B”是知识图谱中的另一个实体,“明星A”和“明星B”之间可以通过“配偶”关系进行关联。
异构信息网络(Heterogeneous Information Network,HIN):网络节点的类型大于1或者网络节点之间的链接关系大于1的网络图,如:由用户-标签之间的关系构成的网络就是一个异构网络,因为节点是多类型的,用户和标签是两种不同性质的节点
元路径(Meta Path):在网络图中链接两个对象的一条路径,如:路径“明星B(丈夫)明星A(电影作品)无间道”就是一条连接“明星B”和“无间道”的元路径。
参阅图1,其示出了本申请一个示例性实施例提供的用户兴趣标签扩展方法的流程图。
该方法包括以下步骤:
步骤S1,获取用户的原始兴趣标签集合B。
例如,可以通过记录用户的浏览、点击、发文、购物记录,从这些记录中提取出相关主题作为用户的兴趣标签。例如,用户经常浏览明星A的相关文章,那么“明星A”就可以作为该用户的兴趣标签。又例如,用户发表的文章提及某部电影,那么该电脑就可以作为该用户的兴趣标签。可以理解的是,这里的初始兴趣标签获取的方式并没有任何的限定,现有技术中所有的用户兴趣标签画像技术均可应用来获取用户的原始兴趣标签。
此外,以上的获取方式示例仅为说明,并非是指本申请的方法必须经过这些步骤。例如,可以直接从数据库中读取用户的原始兴趣标签,或者调用应用程序编程接口来获取。亦即,用户的原始兴趣标签的获取过程可能是由其他系统完成的。在步骤S1中仅仅只是使用。
步骤S2,基于知识图谱及用户的原始兴趣标签获取用户的扩展兴趣标签。
用户兴趣标签可以对应上知识图谱中的实体(节点)。此处的对应是指标签1所描述的对象就是知识图谱中节点对应的实体。
知识图谱中的实体之间存在着丰富的关联关系,利用知识图谱中实体之间的关联关系,可以给用户生成扩展兴趣标签。
参阅图2,其为一个知识图谱的局部示意图。知识图谱中包括3个实体(节点):明星A、明星B以及电影《少年的你》。明星A与明星B均为电影《少年的你》的主演。现假设用户A具有的兴趣标签包含:明星A和明星B,而这两个标签在知识图谱中都和《少年的你》这部电影有关联关系,那么《少年的你》很有可能是用户A的潜在兴趣标签。
根据上述,从知识图谱实体(节点)之间的关联关系可以得到用户与某些标签的兴趣度信息,进而可以用户的扩展兴趣标签。但这里并不限制获得扩展信息标签的具体方式。
知识图谱数据可以存储在本机的存储装置中,可以存储在数据库中,还可以通过调用第三方的应用程序编程接口获取。
知识图谱的产生方式并不受限制,例如,可以直接通过采集现有网络上公开的海量文本,然后经过自然语言处理,提取其中各种主题的关键信息,这里的关键信息例如是指人与人之间的关联,人与事物之间的关系以及事物与事物之间的关系。当然,知识图谱的构建也可以借助于用户去创建各种关联。
图3示出了本申请一个示例性实施例中根据知识图谱及用户的原始兴趣标签获取用户的扩展兴趣标签的流程示意图,其包括以下步骤:
步骤S21,生成用户-标签异构信息网络。
知识图谱可包括标签1、标签2、标签3……标签m。这些标签之间会具有不同类型的关联关系,在图3中用箭头表示了标签之间的关联关系。标签1与标签3、标签m关联,标签3与标签2关联。这里的关联关系种类不限,例如可以是人与人之间的关系,人与物之间的关系,物与物之间的关系,只要是知识图谱所能表达的类型均可支持。
异构信息网络的数学形式是一个矩阵M,M的行是用户,M的列是标签,M的值Mut表示用户u和标签t的紧密程度。其数据结构可如表1所示。
表1用户标签异构信息网络矩阵
标签1 | 标签2 | 标签3 | … | 标签m | |
用户1 | 0.8 | 0 | 0 | … | 0.5 |
用户2 | 0 | 0.6 | 0.5 | … | 0 |
… | … | … | |||
用户n | 0 | 0 | 0 | … | 0 |
由上述描述可知,标签是可知的,而用户数据也是已知的,因此要想得到上述的矩阵M,重点是得到用户u(1≤i≤n)与标签t(1≤t≤m)的兴趣程度Mut。
用户的原始兴趣标签是根据用户行为统计提取得到,用户u的每一个标签t都有一个权重Wut。Wut反映用户u对标签t的兴趣程度,这是根据用户行为数据得到的已知数值。因此,对于用户的原始兴趣标签,可以有Mut=Wut。Wut的值与用户浏览点击相关主题信息的频次密切相关。频率越高,浏览量越大,兴趣程度越高。
由于用户的原始兴趣标签的数量是有限的,因此仅利用用户行为数据,得到的矩阵M是不全的,亦即,对于任意用户u,可能会有一个或多个标签t缺少兴趣程度数据。此时,可以借助知识图谱中节点之间的关系来间接求取任意用户u与任意标签t之间的兴趣程度Mut。具体地,可以根据式(1)来计算Mut:
其中,k表示用户u的原始兴趣标签个数,ti表示用户u的第i个原始兴趣标签,表示用户u对原始兴趣标签ti的兴趣度,Path(t,ti)表示候选标签t和用户原始兴趣标签ti的元路径分数。元路径分数可以根据式(2)计算:
Path(t,ti)=∏jRj (2)
其中Rj表示路径中第j个关系的分数。一般情况下,我们只考虑元路径长度小等于2的情况,即两个节点联系只能最多通过二度关系建立,三度以上的我们认为Path(t,ti)是0。当然这里仅为示例,也可以考虑更多层级的关系,例如,两个节点(标签)只要能通过3层或者更多层的关系关联到,一样可以计算,其不同之处在于计算量会随着度数增加急剧增大。
参阅图4,其示出了一个知识图谱的局部示意图,知识图谱中包括三个节点:朱某、刘某及无间道,其中朱某与刘某是夫妻,而刘某是无间道的主演。现假设用户u的原始的兴趣标签里有无间道,但没有刘某及朱某,那么依据图4所示的知识图谱,标签无间道与刘某之间的元路径分数为R2,标签无间道与朱某之间的元路径分数为R2×R1。再进一步根据式(1),即可得到用户u与标签刘某及朱某之间的兴趣度。
针对知识图谱中的每一种关系,可定义一个权重,如人物之间的亲密关系:丈夫,妻子,父母等关系权重相对较高,朋友,搭档等相对普遍的关系,权重相对较小。在一个具体的实例中,关系的权重都小于1。
通过上述方式,我们可以得到用户-标签异构信息网络,异构信息网络中既包含用户兴趣信息,也包含了标签之间的知识图谱关联性。
步骤S22,对步骤S21中生成的异构信息网络进行非负矩阵分解得到用户向量及标签向量。
非负矩阵分解(Nonnegative Matrix Factorization,NMF),其思想是对于任意给定的一个非负矩阵M,其能够寻找到一个非负矩阵U和一个非负矩阵T,满足条件M=U*T,从而将一个非负的矩阵分解为左右两个非负矩阵的乘积。其中表示用户的数量,m表示标签的数量,d为矩阵分解后的子矩阵维度。此外,矩阵U可以看作是用户矩阵,每一行表示一个用户的向量表示,矩阵T是标签矩阵,每一列表示一个标签的向量,向量的维度都是d。
此外,步骤S22中的非负矩阵分解方法只是一种将异构网络矩阵M分解的方式,这一环节并不是固定的,只要是常见的矩阵分解方法即可,例如,还可采用奇异值分解(Singular Value Decomposition,SVD),交替最小二乘法(Alternative Least Square,ALS)等。
步骤S23,根据步骤S22中得到的用户向量及标签向量生成用户的扩展兴趣标签。
通过步骤S22我们可以得到用户的向量表示和标签的向量表示,用户向量包含了用户对各主题(标签)的兴趣分布信息,标签向量包含了标签属于各主题(标签)的权重信息。
计算用户u的扩展标签时,可将用户u的向量和所有的候选标签向量计算余弦相似度并按照相似度排序,其中候选标签是指不是用户u的原始兴趣标签中的标签。
根据相似度排序的结果,选取相似度最高的预定个数的候选标签作为用户画像的扩展兴趣标签。
余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间。
两个向量间的余弦值可以通过使用欧几里得点积公式求出:
a·b=||a||||b||cosθ.
给定两个属性向量,A和B,其余弦相似性θ由点积和向量长度给出,如下所示:
这里的Ai,Bi分别代表向量A和B的各分量。
给出的相似性范围从-1到1:-1意味着两个向量指向的方向正好截然相反,1表示它们的指向是完全相同的,0通常表示它们之间是独立的,而在这之间的值则表示中间的相似性或相异性。
通过上述的方法,从知识图谱及用户的原始兴趣标签出发,可以快速得到用户的扩展标签,进而给智能推荐应用提供了精准的数据源,提升了智能推荐系统的效率与准确性。
参阅图5,其示出了本申请一个示例性实施例提供的用户兴趣标签扩展方法的流程图。
该方法包括以下步骤:
步骤S11,获取标签集合A={t1,t2,……tn},其中n为自然数且n>1,所述标签集合A内包括兴趣标签t。
步骤S13,获取至少一个知识图谱,所述知识图谱至少包括与所述标签t对应的节点Nt及与所述原始兴趣标签集合B的子集S对应的节点集合C;
步骤S14,根据所述节点Nt与所述节点集合C内节点之间的关联关系计算所述用户u与所述标签t之间的兴趣度,进而得到用户-标签异构信息网络;
步骤S15,分解所述用户-标签异构信息网络得到用户向量与标签向量;
步骤S16,根据所述用户向量与所述标签向量生成所述用户的扩展兴趣标签。
通过上述的方法,从知识图谱及用户的原始兴趣标签出发,可以快速得到用户的扩展标签,进而给智能推荐应用提供了精准的数据源,提升了智能推荐系统的效率与准确性。
参阅图6,其示出了本申请一个示例性实施例提供的用户兴趣标签扩展方法的流程图。图5所示的方法与图1所示的方法相似,其不同之处在于,在步骤S16之后还包括:
步骤S17,根据扩展兴趣标签进行信息投放。此处的信息投放是指根据的扩展标签生成对应的内容供用户浏览、观看、使用等。例如,进行新闻、视频、文章、购物的推荐。
具体而言,对于各种待分发的内容,比如网页、视频、音乐等,可以采用自然语言处理的方式去分析内容所对应的主题标签,在要对扩展兴趣标签进行信息投放时,是指当用户请求访问某些内容时,先获取用户的扩展兴趣标签,然后根据与扩展兴趣标签匹配的主题标签来获取对应的内容发送给用户。例如,在一个新闻应用中,用户首次登陆或者刷新页面时,先获取用户的扩展兴趣标签,然后根据与扩展兴趣标签匹配的主题标签来获取对应的新闻列表发送给用户供用户进行选择。当然,在获取内容时可以将用户的现有兴趣标签与扩展兴趣标签混合使用。也就是部分内容是根据现有的兴趣标签获取的,而部分内容是根据扩展兴趣标签获取的。这种方式,可以在确保推荐的内容符合用户的兴趣,但同时也可以测试用户对于扩展兴趣标签的兴趣程度。
步骤S18,根据用户的使用反馈更新知识图谱及原始兴趣标签。
由于扩展兴趣标签是根据用户的原始兴趣标签以及知识图谱实体之间的关联关系得到,其精准性并未受实际的使用来验证。因此,当采用扩展兴趣标签进行了信息投放后,就可以根据用户的实际使用反馈来实际检验用户对每个标签的实际兴趣程度。可以根据实际的浏览、点击、使用统计来得到实际的兴趣程度。在得到足够的数据之后,就可以将用户的扩展兴趣标签更新为其原始兴趣标签。
此外,在上述的步骤S22中,知识图谱中的每一种关系的权重是预先定义的,而用户u与扩展兴趣标签之间的兴趣程度与这个权重是密切相关的,当获取到扩展兴趣标签的实际使用信息后,可以根据用户对某个标签的实际兴趣程度来相应调整知识图谱中预定义的关系权重。
例如,对于用户u,根据上述的方法得到了扩展兴趣标签ti,其兴趣程度为Wuti,根据历史数据统计,平均来说,用户对于兴趣程度为Wuti的信息主题的实际点击率为r,在步骤S4,根据实际的统计数据得到用户对于展兴趣标签ti相关的信息的实际点击率为r’,当r’与r相等时,可以视为知识图谱中对于权重的定义是准确的;当r’>r时,得到扩展兴趣标签ti的元路径中某个元路径分数偏低;当r’<r时,得到扩展兴趣标签ti的元路径中某个元路径分数偏高。当然,由于得到扩展兴趣标签ti的元路径可能有多个,因此并不能准确确定是哪一个权重定义有偏差,这里可以采用动态的调整方法,去逐渐逼近最合理的权重定义。
通过上述的方法,可根据实际的访问信息来更新知识图谱的权重及的原始兴趣标签的数量,这使得后续的兴趣标签的扩展更加的精准,进一步提升了用户兴趣标签的获取效率。
参阅图7,其示出了本申请一个示例性实施例提供的用户兴趣标签扩展装置的结构框图。该装置包括:
标签获取模块11、原始兴趣标签获取模块12、知识图谱获取模块13、异构信息网络生成模块14,矩阵分解模块15及扩展兴趣标签生成模块16。
标签获取模块11用于获取标签集合A={t1,t2,……tn},其中n为自然数且n>1,所述标签集合A内包括兴趣标签t。
原始兴趣标签获取模块12用于获取用户的原始兴趣标签。例如,可以通过记录用户的浏览、点击、发文、购物记录,从这些记录中提取出相关主题作为用户的兴趣标签。例如,用户经常浏览明星A的相关文章,那么“明星A”就可以作为该用户的兴趣标签。又例如,用户发表的文章提及某部电影,那么该电脑就可以作为该用户的兴趣标签。可以理解的是,这里的初始兴趣标签获取的方式并没有任何的限定,现有技术中所有的用户兴趣标签画像技术均可应用来获取用户的原始兴趣标签。此外,以上的获取方式示例仅为说明,并非是指本申请的方法必须经过这些步骤。例如,原始兴趣标签获取模块11仅仅是可以直接从数据库中读取用户的原始兴趣标签,或者调用应用程序编程接口来获取。亦即,用户的原始兴趣标签的获取过程可能是由其他系统完成的。
知识图谱获取模块13用于获取至少一个知识图谱,所述知识图谱至少包括与所述标签t对应的节点Nt及与所述原始兴趣标签集合B的子集S对应的节点集合C;
异构信息网络生成模块14用于生成用户标签异构信息网络,异构信息网络的数学形式是一个矩阵M,M的行是用户,M的列是标签,M的值Mut表示用户u和标签t的紧密程度。生成用户标签异构信息网络的具体过程可进一步参考上述的式(1)与式(2)。
矩阵分解模块15用于对矩阵M进行分解从而得到用户向量及标签向量。在一个具体的实施方式中,可以采用非负矩阵分解对矩阵M进行分解从而得到用户向量及标签向量。
扩展兴趣标签生成模块16用于根据用户向量及标签向量生成用户的扩展兴趣标签。计算用户u的扩展标签时,可将用户u的向量和所有的候选标签向量计算余弦相似度并按照相似度排序,其中候选标签是指不是用户u的原始兴趣标签中的标签。根据相似度排序的结果,选取相似度最高的预定个数的候选标签作为用户画像的扩展兴趣标签。
通过上述的装置,从知识图谱及用户的原始兴趣标签出发,可以快速得到用户的扩展兴趣标签,进而给智能推荐应用提供了精准的数据源,提升了智能推荐系统的效率与准确性。
参阅图8,其示出了本申请一个示例性实施例提供的用户兴趣标签扩展装置的结构框图。图8所示的装置与图7所示的装置相似,其不同之处在于,还包括:
更新模块17,根据用户的使用反馈更新知识图谱及原始兴趣标签。
由于扩展兴趣标签是根据用户的原始兴趣标签以及知识图谱实体之间的关联关系得到,其精准性并未受实际的使用来验证。因此,当采用扩展兴趣标签进行了信息投放后,就可以根据用户的实际反馈来实际检验用户对每个标签的实际兴趣程度。可以根据实际的浏览、点击、使用统计来得到实际的兴趣程度。在得到足够的数据之后,就可以将用户的扩展兴趣标签更新为其原始兴趣标签。
此外,知识图谱中的每一种关系的权重是预先定义的,而用户u与扩展兴趣标签之间的兴趣程度与这个权重是密切相关的,当步骤S4中获取到扩展信息的实际使用信息后,可以根据用户对某个标签的实际兴趣程度来相应调整知识图谱中预定义的关系权重。
例如,对于用户u,根据上述的装置得到了扩展兴趣标签ti,其兴趣程度为Wuti,根据历史数据统计,平均来说,用户对于兴趣程度为Wuti的信息主题的实际点击率为r,在步骤S4,根据实际的统计数据得到用户对于展兴趣标签ti相关的信息的实际点击率为r’,当r’与r相等时,可以视为知识图谱中对于权重的定义是准确的;当r’>r时,得到扩展兴趣标签ti的元路径中某个元路径分数偏低;当r’<r时,得到扩展兴趣标签ti的元路径中某个元路径分数偏高。当然,由于得到扩展兴趣标签ti的元路径可能有多个,因此并不能准确确定是哪一个权重定义有偏差,这里可以采用动态的调整方法,去逐渐逼近最合理的权重定义。
通过上述的装置,可根据实际的访问信息来更新知识图谱的权重及的原始兴趣标签的数量,这使得后续的兴趣标签的扩展更加的精准,进一步提升了用户兴趣标签的获取效率。
请参阅图9,其示出了本申请实施例提供的一种服务器的结构框图。该服务器100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)101和一个或一个以上的存储器102,其中,所述存储器102中存储有至少一条指令,所述至少一条指令由所述处理器101加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
请参考图10,其示出了本申请实施例提供的一种计算机可读取存储介质的结构框图。该计算机可读取存储介质200中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读取存储介质200可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读取存储介质200包括非易失性计算机可读取存储介质(Non-Transitory Computer-Readable Storage Medium)。计算机可读取存储介质200具有执行上述方法中的任何方法步骤的程序代码201的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码201可以例如以适当形式进行压缩。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (9)
1.一种用户兴趣标签扩展方法,其特征在于,包括:
获取标签集合A={t1,t2,……tn},其中n为自然数且n>1,所述标签集合A内包括兴趣标签t;
获取至少一个知识图谱,所述知识图谱至少包括与所述标签t对应的节点Nt及与所述原始兴趣标签集合B的子集S对应的节点集合C;
根据所述节点Nt与所述节点集合C内节点之间的关联关系计算所述用户u与所述标签t之间的兴趣度,进而得到用户-标签异构信息网络;
分解所述用户-标签异构信息网络得到用户向量与标签向量;
根据所述用户向量与所述标签向量生成所述用户的扩展兴趣标签;
其中,所述兴趣度采用下式计算:
其中,Rj表示从节点Nt到与原始兴趣标签ti对应的节点的元路径中第j个关系的分数,Rj基于所述第j个关系对应的两个节点之间的关系确定。
2.如权利要求1所述的用户兴趣标签扩展方法,其特征在于,分解所述用户-标签异构信息网络得到用户向量与标签向量包括:采用非负矩阵分解法分解所述用户-标签异构信息网络得到用户向量与标签向量。
3.如权利要求1或2所述的用户兴趣标签扩展方法,其特征在于,还包括:
根据所述兴趣标签t进行信息投放;以及
当用户对于与所述兴趣标签t对应的信息的兴趣度超过预定值时,更新所述原始兴趣标签集合B使t∈B。
4.如权利要求1或2所述的用户兴趣标签扩展方法,其特征在于,还包括:
根据所述兴趣标签t进行信息投放;以及
根据用户对于与所述兴趣标签t对应的信息的兴趣度动态调整所述知识图谱中节点之间不同关系对应的分数。
5.如权利要求1或2所述的用户兴趣标签扩展方法,其特征在于,所述根据所述用户向量与所述标签向量生成所述用户的扩展兴趣标签包括:
计算所述用户向量和标签向量的相似度,并选取相似度最高的预定个数的标签作为所述扩展兴趣标签。
6.如权利要求5所述的用户兴趣标签扩展方法,其特征在于,所述计算所述用户向量和标签向量的相似度包括:计算所述用户向量与所述标签向量的余弦相似度。
7.一种用户兴趣标签扩展装置,其特征在于,所述装置包括:
标签获取模块,用于获取标签集合A={t1,t2,……tn},其中n为自然数且n>1,所述标签集合A内包括兴趣标签t;
知识图谱获取模块,用于获取至少一个知识图谱,所述知识图谱至少包括与所述标签t对应的节点Nt及与所述原始兴趣标签集合B的子集S对应的节点集合C;
异构信息网络生成模块,用于根据所述节点Nt与所述节点集合C内节点之间的关联关系计算所述用户u与所述标签t之间的兴趣度,进而得到用户-标签异构信息网络;
矩阵分解模块,用于分解所述用户-标签异构信息网络得到用户向量与标签向量;
扩展兴趣标签生成模块,用于根据所述用户向量与所述标签向量生成所述用户的扩展兴趣标签;
其中,所述兴趣度采用下式计算:
其中,Rj表示从节点Nt到与原始兴趣标签ti对应的节点的元路径中第j个关系的分数,Rj基于所述第j个关系对应的两个节点之间的关系确定。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1-6任一项所述的方法。
9.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010332953.3A CN111522889B (zh) | 2020-04-24 | 2020-04-24 | 用户兴趣标签扩展方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010332953.3A CN111522889B (zh) | 2020-04-24 | 2020-04-24 | 用户兴趣标签扩展方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111522889A CN111522889A (zh) | 2020-08-11 |
CN111522889B true CN111522889B (zh) | 2022-09-27 |
Family
ID=71904082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010332953.3A Active CN111522889B (zh) | 2020-04-24 | 2020-04-24 | 用户兴趣标签扩展方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111522889B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069352B (zh) * | 2020-09-18 | 2022-05-17 | 四川长虹电器股份有限公司 | 一种基于改进的content-based的电视音乐推荐方法 |
CN112131472B (zh) * | 2020-09-24 | 2024-05-24 | 腾讯科技(深圳)有限公司 | 信息推荐方法、装置、电子设备和存储介质 |
CN112732880A (zh) * | 2020-12-30 | 2021-04-30 | 平安科技(深圳)有限公司 | 用户画像生成方法、装置、计算机设备及存储介质 |
CN113641791A (zh) * | 2021-08-12 | 2021-11-12 | 卓尔智联(武汉)研究院有限公司 | 专家推荐方法、电子设备及存储介质 |
CN115168603B (zh) * | 2022-06-27 | 2023-04-07 | 天翼爱音乐文化科技有限公司 | 一种彩铃业务流程自动反馈应答方法、装置及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095966A (zh) * | 2016-06-15 | 2016-11-09 | 成都品果科技有限公司 | 一种用户可扩展的标签标注方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103729360A (zh) * | 2012-10-12 | 2014-04-16 | 腾讯科技(深圳)有限公司 | 一种兴趣标签推荐方法及系统 |
CN103955535A (zh) * | 2014-05-14 | 2014-07-30 | 南京大学镇江高新技术研究院 | 一种基于元路径的个性化推荐方法及系统 |
CN108334632B (zh) * | 2018-02-26 | 2021-03-23 | 深圳市腾讯计算机系统有限公司 | 实体推荐方法、装置、计算机设备和计算机可读存储介质 |
CN108876470B (zh) * | 2018-06-29 | 2022-03-01 | 腾讯科技(深圳)有限公司 | 标签用户扩展方法、计算机设备及存储介质 |
-
2020
- 2020-04-24 CN CN202010332953.3A patent/CN111522889B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095966A (zh) * | 2016-06-15 | 2016-11-09 | 成都品果科技有限公司 | 一种用户可扩展的标签标注方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于学术论文的学者研究兴趣标签发现研究;池雪花等;《情报工程》;20190415(第02期);29-40 * |
Also Published As
Publication number | Publication date |
---|---|
CN111522889A (zh) | 2020-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111522889B (zh) | 用户兴趣标签扩展方法、装置、电子设备及存储介质 | |
WO2020207196A1 (zh) | 用户标签生成方法、装置、存储介质和计算机设备 | |
Mao et al. | Multiobjective e-commerce recommendations based on hypergraph ranking | |
Ahmadian et al. | A deep learning based trust-and tag-aware recommender system | |
US20190147231A1 (en) | Predictive analysis of target behaviors utilizing rnn-based user embeddings | |
Zhang et al. | Enabling kernel-based attribute-aware matrix factorization for rating prediction | |
US10102503B2 (en) | Scalable response prediction using personalized recommendation models | |
Ead et al. | Intelligent Systems of Machine Learning Approaches for developing E-services portals | |
Wen et al. | Neural attention model for recommendation based on factorization machines | |
Jiang et al. | Cloud service recommendation based on unstructured textual information | |
Bi et al. | A deep neural networks based recommendation algorithm using user and item basic data | |
Ma et al. | MMM: multi-source multi-net micro-video recommendation with clustered hidden item representation learning | |
Peng et al. | Multi-level preference regression for cold-start recommendations | |
Li et al. | HHMF: hidden hierarchical matrix factorization for recommender systems | |
CN112446739B (zh) | 一种基于分解机和图神经网络的点击率预测方法及系统 | |
Misuraca et al. | BMS: An improved Dunn index for Document Clustering validation | |
Chung et al. | Categorization for grouping associative items using data mining in item-based collaborative filtering | |
CN111291563B (zh) | 词向量对齐方法和词向量对齐模型训练方法 | |
Olatunji et al. | Context-aware helpfulness prediction for online product reviews | |
Colace et al. | A content-based recommendation approach based on singular value decomposition | |
Du et al. | Polar: Attention-based cnn for one-shot personalized article recommendation | |
Sulthana et al. | Context based classification of Reviews using association rule mining, fuzzy logics and ontology | |
Lee | Extraction of competitive factors in a competitor analysis using an explainable neural network | |
Natarajan et al. | CD-SemMF: Cross-domain semantic relatedness based matrix factorization model enabled with linked open data for user cold start issue | |
Sola et al. | Deep embeddings and Graph Neural Networks: using context to improve domain-independent predictions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40028340 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |