CN110059271A - 运用标签知识网络的搜索方法及装置 - Google Patents
运用标签知识网络的搜索方法及装置 Download PDFInfo
- Publication number
- CN110059271A CN110059271A CN201910529138.3A CN201910529138A CN110059271A CN 110059271 A CN110059271 A CN 110059271A CN 201910529138 A CN201910529138 A CN 201910529138A CN 110059271 A CN110059271 A CN 110059271A
- Authority
- CN
- China
- Prior art keywords
- article
- label
- user
- tag
- knowledge network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000013507 mapping Methods 0.000 claims abstract description 15
- 238000010276 construction Methods 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 230000003542 behavioural effect Effects 0.000 claims description 3
- 239000012141 concentrate Substances 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 2
- 230000003472 neutralizing effect Effects 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 2
- 230000006399 behavior Effects 0.000 description 19
- 238000001914 filtration Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013138 pruning Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 210000000988 bone and bone Anatomy 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种运用标签知识网络的搜索方法及装置。方法包括:获取多个推荐物品,对每个推荐物品相关的文本信息进行标签提取得到对应的一个或多个物品标签,并确定由所有物品标签构成的物品标签集;确定用户对不同物品的历史行为数据,根据历史行为数据分析出用户偏好的用户标签,并确定由所有用户标签构成的用户标签集;通过物品标签集、知识图谱以及word2vec模型构建标签知识网络;根据物品标签集、用户标签集以及标签知识网络生成推荐物品的物品特征向量以及用户的用户特征向量;通过物品特征向量或用户特征向量分别检索得到相关物品或相关用户;从而既能保证内容算法召回结果的相关性,又能解决标签召回结果语义局限,扩展性差的缺陷。
Description
技术领域
本申请涉及智能搜索技术领域,具体而言,涉及一种运用标签知识网络的搜索方法及装置。
背景技术
随着互联网技术和社会化网络的发展,每天有大量的信息包括文字资讯,图片,视频等发布到互联网上。传统的搜索技术已经无法满足用户对信息发现的需求,而个性化推荐系统正是为了解决信息过载问题应运而生。它能根据用户的兴趣和行为,向用户推荐所需要的信息,帮助用户在海量的信息中快速发现和满足,以此来提高用户对产品的黏性,提高用户留存,提高产品的竞争力。
目前常用的推荐算法有基于内容的召回算法,基于协同过滤的召回算法(基于用户的协同过滤和基于物品的协同过滤),基于模型学习的召回算法(从简单的逻辑回归模型到梯度提升树,再到深度学习)等。其中基于内容的召回算法是一种最普遍但又非常重要的推荐算法。它的关键点是标签体系的构建和挖掘,要先将推荐的物品(比如资讯,图片,视频等)分解为一系列的标签;然后根据用户对物品的行为(比如浏览,点击,购买等)将用户也描述为一系列的标签集合,这一系列的标签就是我们对用户特征的刻画,即用户画像;最后我们通过用户喜欢的标签来召回用户喜欢的物品。
本文在基于内容召回算法的基础上引入标签知识网络,设计一种基于标签知识网络的搜索应用系统,基于标签知识网络将用户和物品特征向量化,然后通过向量搜索来进行相似物品、相似用户、用户喜欢的物品的召回。
基于内容的召回算法有较多优势,比如能从物品(item,下文item等同于物品)数据中可以挖掘很多有效信息,能够使得新物品被快速推出,有非常好的解释性。但是它也有如下缺点:
1. 召回结果语义局限,扩展性差
基于内容的召回算法都是通过标签来召回结果,但是由于标签固定,导致召回的结果很局限,而且延伸比较难。比如通过“孙悟空”这个标签只能召回和孙悟空相关的信息,像孙悟空三打白骨精,孙悟空大闹天宫等信息,但是很难召回有关猪八戒的信息(孙悟空和猪八戒西游记里的主角之一,是师兄弟关系),除非某个物品同时包含孙悟空和猪八戒两个标签。毕竟对于广大的西游迷而言,孙悟空和猪八戒缺一不可。
2. 相似用户和相似物品挖掘精度较差
推荐系统较少使用标签来挖掘相似用户和物品,主要因为标签太精细,扩展性差。物品的标签一般都是根据物品的文本信息使用机器来生成,因为面对海量的物品,人工标注成本太高。而简易模型不像知识专家有丰富的先验知识,无法辨别“刘德华”和“华仔”是否是同一语义的标签。
针对相关技术中召回结果语义局限,扩展性差,以及相似用户和相似物品挖掘精度较差的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种运用标签知识网络的搜索方法及装置,以解决相关技术中存在的至少一个问题。
为了实现上述目的,根据本申请的一个方面,提供了一种运用标签知识网络的搜索方法。
获取多个推荐物品,对每个推荐物品相关的文本信息进行标签提取得到对应的一个或多个物品标签,并确定由所有所述物品标签构成的物品标签集;
确定用户对不同物品的历史行为数据,根据所述历史行为数据分析出所述用户偏好的用户标签,并确定由所有所述用户偏好的用户标签构成的用户标签集;
通过所述物品标签集、知识图谱以及word2vec模型构建标签知识网络;其中,所述标签知识网络是以标签为节点,标签之间的关联度为边的网络;
根据所述物品标签集、用户标签集以及所述标签知识网络生成所述推荐物品的物品特征向量以及所述用户的用户特征向量;
通过需要进行检索的所述所述物品特征向量或需要进行检索的用户特征向量检索得到相关物品或相关用户。
进一步的,如前述的运用标签知识网络的搜索方法,所述获取多个推荐物品;对每个推荐物品相关的文本信息进行标签提取得到对应的一个或多个物品标签,并确定由所有所述物品标签构成的物品标签集,包括:
确定每个所述推荐物品的文本;其中,所述文本包括:标题及描述内容;
对所述文本进行分词,得到多个词组;
确定每个所述词组的特征;其中,所述特征包括:词性、出现频率、是否是无用词;
根据每个所述词组的特征对其进行评分,并保留满足第一分数阈值要求的词组作为其对应的所述推荐物品的物品标签;
确定每个所述推荐物品的所有所述物品标签,并得到所述物品标签集。
进一步的,如前述的运用标签知识网络的搜索方法,所述根据所述历史行为数据分析出所述用户偏好的用户标签,包括:
根据所述历史行为数据确定对应的物品;
确定每个所述对应的物品对应的第二物品标签;
将所有的所述第二物品标签进行加权合并,并确定每个加权合并后的第二物品标签的分数;
取分数满足第二分数阈值要求的所述加权合并后的第二物品标签作为所述用户偏好的用户标签。
进一步的,如前述的运用标签知识网络的搜索方法,所述确定每个加权合并后的第二物品标签的分数的方法如下所述:
;
其中,N表示用户点击过的物品item个数, 表示点击的物品item是否包含物品标签tag,包含返回1,不包含返回0, 表示当前时间戳,表示用户点击对应物品时的时间戳。
进一步的,如前述的运用标签知识网络的搜索方法,所述通过所述物品标签集、知识图谱以及word2vec模型构建标签知识网络;包括:
将所述物品标签集当作语料,使用word2vec模型生成每个标签的向量;
根据所述每个物品标签的向量并通过余弦相似值计算不同标签间的相似度 ,生成标签关联网络 ;其中V tag 为所述标签关联网络的顶点集,即所有标签的集合;E tag 为所述标签关联网络的边集,即不同标签间的相似度wtag集合;
将所述知识图谱中实体与实体之间的关系转换成关联权重 ,生成知识网络;其中,V k 为所述知识网络的顶点集,即所述知识图谱中所有标签实体集合;E k 为所述知识网络的边集,即不同标签实体间的关联权重wgraph集合;
将所述知识网络 和标签关联网络以所述标签关联网络的节点为基础进行合并生成所述标签知识网络 ;其中,为所述标签知识网络的顶点集,所述标签知识网络的顶点集和所述标签关联网络的顶点集 完全一致,即;为标签知识网络的边集,所述标签知识网络的边集是标签关联网络的边集和知识网络的边集子集构成的合集,所述知识网络的边集子集是知识网络中包含 标签的所有标签实体形成的边集,即,中的关联权重;
将所述 中的关联权重we低于的关联关系全部去掉,并得到,为关联权重阈值。
进一步的,如前述的运用标签知识网络的搜索方法,根据所述物品标签集以及所述标签知识网络生成所述推荐物品的物品特征向量,包括:
根据所述物品标签集以及所述标签知识网络确定所述物品标签集中每个标签的标签向量T;
根据每个物品中包括的标签向量确定每个物品的物品特征向量I,如下所述:
其中,N表示物品包含的标签数,表示第i个标签的标签向量。
进一步的,如前述的运用标签知识网络的搜索方法,所述标签向量的向量维度为中边的个数,其中和标签的节点直接相连的边的取值为,其它的为0。
进一步的,如前述的运用标签知识网络的搜索方法,根据所述用户标签集以及所述标签知识网络生成所述用户的用户特征向量,包括:
根据所述用户标签集以及所述标签知识网络计算所述用户特征向量U,如下所述:
其中,K表示用户喜欢的标签数,表示用户对第i个标签的喜欢程度,表示第i个标签的标签向量。
进一步的,如前述的运用标签知识网络的搜索方法,所述通过需要进行检索的物品特征向量或需要进行检索的用户特征向量分别检索得到相关物品或相关用户,包括:
计算所述需要进行检索的物品特征向量分别与各个召回物品的第二物品特征向量的第一余弦值;或
计算所述需要进行检索的用户特征向量U分别与各个召回用户的第二用户特征向量的第二余弦值;
根据所述第一余弦值和第二余弦值确定若干个满足相似度阈值要求的相关物品或相关用户。
为了实现上述目的,根据本申请的另一方面,提供了一种运用标签知识网络的搜索装置。
根据本申请的运用标签知识网络的搜索装置包括:
标签构建模块,用于获取多个推荐物品,对每个推荐物品相关的文本信息进行标签提取得到对应的一个或多个物品标签,并确定由所有所述物品标签构成的物品标签集;
用户建模模块,用于确定用户对不同物品的历史行为数据,根据所述历史行为数据分析出所述用户偏好的用户标签,并确定由所有所述用户偏好的用户标签构成的用户标签集;
标签知识网络构建模块 ,用于通过所述物品标签集、知识图谱以及word2vec模型构建标签知识网络;其中,所述标签知识网络是以标签为节点,标签之间的关联度为边的网络;
用户和物品特征构建模块,用于根据所述物品标签集、用户标签集以及所述标签知识网络生成所述推荐物品的物品特征向量以及所述用户的用户特征向量;
向量搜索模块,用于通过需要进行检索的所述所述物品特征向量或需要进行检索的用户特征向量检索得到相关物品或相关用户。
在本申请实施例中,采用一种运用标签知识网络的搜索方法及装置。方法包括:获取多个推荐物品,对每个推荐物品相关的文本信息进行标签提取得到对应的一个或多个物品标签,并确定由所有所述物品标签构成的物品标签集;确定用户对不同物品的历史行为数据,根据所述历史行为数据分析出所述用户偏好的用户标签,并确定由所有所述用户标签构成的用户标签集;通过所述物品标签集、知识图谱以及word2vec模型构建标签知识网络;其中,所述标签知识网络是以标签为节点,标签之间的关联度为边的网络;根据所述物品标签集、用户标签集以及所述标签知识网络生成所述推荐物品的物品特征向量以及所述用户的用户特征向量;通过所述物品特征向量或用户特征向量分别检索得到相关物品或相关用户;因而能够在基于内容召回算法的基础上引入标签知识网络,使用标签网络的关系向量化表示用户和物品,基于向量搜索设计召回策略;此外对于标签间的相关性维度爆炸问题可以通过对标签知识网络的剪枝来解决,从而实现了既能保证内容算法召回结果的相关性,又能有效的解决标签召回结果语义局限,扩展性差的缺陷的技术效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请一种实施例的运用标签知识网络的搜索方法的方法流程示意图;
图2是根据本申请一种实施例中的方法构建的标签知识网络的结构示意图;
图3是根据本申请一种实施例的运用标签知识网络的搜索装置的功能模块连接结构示意图;以及
图4是通过图3所示的运用标签知识网络的搜索装置进行搜索的系统流程图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了实现上述目的,根据本申请的一个方面,提供了一种运用标签知识网络的搜索方法。如图1所示,该方法包括如下的步骤S1至步骤S5:
S1. 获取多个推荐物品,对每个推荐物品相关的文本信息进行标签提取得到对应的一个或多个物品标签,并确定由所有所述物品标签构成的物品标签集;
具体的,所述推荐物品可以是文章,商品等,一般的,在互联网上的文章或者商品都是通过文字对其功能、属性或者文章内容进行描述的;因此获取所述多个推荐物品的同时,即可获取到与每个所述推荐物品相关的文本信息;在通过对所述文本信息进行标签提取时即可获得能够代表其一部分特征的标签;例如:在进行网上购物时,可以通过输入若干个关键信息,匹配得到相应特征的产品;且一个产品往往包括多个特征;
S2. 确定用户对不同物品的历史行为数据,根据所述历史行为数据分析出所述用户偏好的用户标签,并确定由所有所述用户偏好的用户标签构成的用户标签集;
具体的,获取所述用户对不同物品的历史行为数据,用于通过大量的历史行为数据对用户进行分析,确定其偏好的标签,例如:当获取用户浏览过的行为数据包括:西游记师徒四人西天取经,孙悟空大闹天宫和孙悟空三打白骨精;则可以判定其中共有的(用户偏好的)标签就是孙悟空;当获取用户浏览过的行为数据包括:猪八戒娶媳妇和猪八戒的前世今生;则可以判定其中共有的(用户偏好的)标签就是猪八戒;当同一个用户同时浏览过上述内容之后,则确定该用户的用户标签集包括:孙悟空和猪八戒;
S3. 通过所述物品标签集、知识图谱以及word2vec模型构建标签知识网络;其中,所述标签知识网络是以标签为节点,标签之间的关联度为边的网络;
具体的,可以将所述物品标签集中的各个标签以关联度为连接边的形式直观地表现各个标签之间的关系,其中,所述关联度用于表征同一个物品中不同的标签之间的关联关系的强弱,若两个标签关联关系强则通过关联度为连接边,一般的,在确定物品中用户偏好的标签之后,将该物品中的其他标签与该用户偏好的标签通过所述关联度相互关联;因而能够更加明确地表现出不同的标签之间联系;
S4. 根据所述物品标签集、用户标签集以及所述标签知识网络生成所述推荐物品的物品特征向量以及所述用户的用户特征向量;
具体的,之所以要获取物品标签集,不是为了获取所述物品包括哪些特征,而是为了最终确定物品在包括各个标签的基础上,哪个标签的权重更大,因此就需要通过物品标签集以及所述标签知识网络获得所述物品特征向量;同时,之所以要获取用户标签集,不仅仅是为了获取所述用于历史数据中浏览过哪些特征的标签,而是为了最终确定用户对那些标签有最大的喜欢程度,喜欢程度越大的标签的则权重也越大,因此就需要通过用户标签集以及所述标签知识网络获得所述用户特征向量;因为用户对某个标签有偏好,是建立在该物品中其偏好的标签占有较大的权重的基础上,如果一个所述用户被推荐了一个其偏好的标签所占权重很小的物品,无法满足用户与物品之间的契合度,则势必影响用户的体验;
S5. 获取需要进行检索的第一物品的所述物品特征向量或第一用户的用户特征向量,通过所述第一物品的所述物品特征向量或第一用户的用户特征向量检索得到相关物品或相关用户;
具体的,本步骤用于能够实现通过已知的第一物品的物品特征向量和第一用户的用户特征向量,召回或检索得到与所述第一物品相似的相关物品,或者与所述第一物品匹配的相关用户,或者与所述第一用户相似的相关用户,或者与所述第一用户的匹配的物品;进而能够提供全面的匹配规则,搜索到满足每个用户偏好的产品甚至匹配得到具有相同偏好的其他用户。
在一些实施例中,如前述的运用标签知识网络的搜索方法,所述获取多个推荐物品;对每个推荐物品相关的文本信息进行标签提取得到对应的一个或多个物品标签,并确定由所有所述物品标签构成的物品标签集,包括:
确定每个所述推荐物品的文本;其中,所述文本包括:标题及描述内容;
对所述文本进行分词,得到多个词组;
确定每个所述词组的特征;其中,所述特征包括:词性、出现频率、是否是无用词;
根据每个所述词组的特征对其进行评分,并保留满足第一分数阈值要求的词组作为其对应的所述推荐物品的物品标签;
确定每个所述推荐物品的所有所述物品标签,并得到所述物品标签集。
具体的,本实施例用于对推荐物品的文本信息进行标签提取,是基于内容召回算法中不可或缺的一环。首先将物品中的标题,描述等文本进行中文分词,然后根据各个词的词性、出现频率、是否是无用词等特征进行综合打分(其中,打分可以通过预先设定的各种阈值或判定方法进行,在此不再赘述),保留分数较高的词作为待推荐物品的标签。表格1给出了物品标签集示例(描述太长未列出,标签中的词一定在标题或描述中出现过):
在一些实施例中,如前述的运用标签知识网络的搜索方法,所述根据所述历史行为数据分析出所述用户偏好的用户标签,包括:
根据所述历史行为数据确定对应的物品;
具体的,所述历史行为数据可以是用户浏览或购买记录数据;且对应的物品可以是浏览或购买记录数据中相应的产品、文章;
确定每个所述对应的物品对应的第二物品标签;
具体的,可以通过将所述对应的物品中的标题,描述等文本进行中文分词,然后根据各个词的词性、出现频率、是否是无用词等特征进行综合打分,保留分数较高的词作为对应的物品对应的第二物品标签。
将所有的所述第二物品标签进行加权合并,并确定每个加权合并后的第二物品标签的分数;
取分数满足第二分数阈值要求的所述加权合并后的第二物品标签作为所述用户偏好的用户标签;具体的,所述第二分数阈值可以根据具体场景以及标签筛选的要求进行具体限定。
在一些实施例中,如前述的运用标签知识网络的搜索方法,所述确定每个加权合并后的第二物品标签的分数的方法如下所述:
;
其中,N表示用户点击过的物品item个数,表示点击的物品item是否包含物品标签tag,包含返回1,不包含返回0,表示当前时间戳,表示用户点击对应物品时的时间戳。
具体的,采用此方法计算得到的所述第二物品标签的分数能够准确抓取出其中用户的偏好的标签,因而能最终匹配到用户偏好的物品。
在一些实施例中,如前述的运用标签知识网络的搜索方法,所述通过所述物品标签集、知识图谱以及word2vec模型构建标签知识网络;包括:
将所述物品标签集当作语料,使用word2vec模型生成每个标签的向量;
根据所述每个物品标签的向量并通过余弦相似值计算不同标签间的相似度,生成标签关联网络;其中Vtag表示标签关联网络的顶点集,也就是所有标签的集合,Etag表示标签关联网络的边集,也就是不同标签间的相似度wtag集合;
将所述知识图谱中实体与实体之间的关系转换成关联权重,生成知识网络,其中Vk表示知识网络的顶点集,也就是图谱中所有标签实体集合,Ek表示知识网络的边集,也就是不同标签实体间的关联权重wgraph集合;
将所述知识网络和标签关联网络以所述标签关联网络的节点为基础进行合并生成所述标签知识网络;其中,表示标签知识网络的顶点集,该集合和标签关联网络的顶点集 完全一致,即 ;表示标签知识网络的边集,该集合是标签关联网络的边集和知识网络的边集子集 构成的合集,该子集 是知识网络中包含标签的所有标签实体形成的边集,即,中的关联权重;
将所述中的关联权重we低于的关联关系全部去掉(即:使用剪枝法对边集合进行剪枝),并得到,为关联权重阈值;
具体的,采用此方法构建标签知识网络,能够准确地表明各个标签之间的关联度;举例的,根据所述表格1中的物品标签集可以构建如图2所示的标签知识网络。
在一些实施例中,如前述的运用标签知识网络的搜索方法,根据所述物品标签集以及所述标签知识网络生成所述推荐物品的物品特征向量,包括:
根据所述物品标签集以及所述标签知识网络确定所述物品标签集中每个标签的标签向量T;
优选的,每个标签的向量为T,T的向量维度为中边的个数,其中和标签节点直接相连的边的取值为,其它的为0。按照上图2所示,标签孙悟空的特征向量;
根据每个物品中包括的标签向量确定每个物品的物品特征向量I,如下所述:
其中,N表示物品包含的标签数,Ti表示第i个标签的标签向量。
采用此方法能够简单快速地计算得到每个物品的物品特征向量,同时能够准确地表征出该物品中的每个标签受用户的偏好程度。
在一些实施例中,如前述的运用标签知识网络的搜索方法,根据所述用户标签集以及所述标签知识网络生成所述用户的用户特征向量,包括:
根据所述用户标签集以及所述标签知识网络计算所述用户特征向量U,如下所述:
其中,K表示用户喜欢的标签数,表示用户对第i个标签的喜欢程度,Ti表示第i个标签的标签向量。
采用此方法能够简单快速地计算得到每个用户对应的用户特征向量U,同时能够准确地表征出该用户所喜欢的每个标签的具体的喜欢程度,使的用户特征向量U中包含的信息更为全面及准确。
在一些实施例中,如前述的运用标签知识网络的搜索方法,所述通过所述第一物品的所述物品特征向量或第一用户的用户特征向量分别检索得到相关物品或相关用户,包括:
计算所述物品特征向量分别与各个召回物品的第二物品特征向量的第一余弦值;其中,所述召回物品为在数据库或互联网上用于与所述待检索物品进行相似度匹配的物品;
计算所述用户特征向量U分别与各个召回用户的第二用户特征向量的第二余弦值;其中,所述召回用户为在数据库或互联网上用于与所述待检索用户进行相似度匹配的用户;
分别根据所述第一余弦值和第二余弦值确定若干个满足相似度阈值要求的相关物品或相关用户。
通过该实施例中的方法可以做如下召回(检索):
a) 物品召回相关物品,即物品之间的相似度;
b) 用户召回相关用户,即用户之间的相似度;
c) 用户召回相关物品,即用户和物品的相似度。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,还提供了一种用于实施上述运用标签知识网络的搜索方法的运用标签知识网络的搜索装置,如图3所示,该装置包括:
标签构建模块1,用于获取多个推荐物品,对每个推荐物品相关的文本信息进行标签提取得到对应的一个或多个物品标签,并确定由所有所述物品标签构成的物品标签集;
用户建模模块2,用于确定用户对不同物品的历史行为数据,根据所述历史行为数据分析出所述用户偏好的用户标签,并确定由所有所述用户偏好的用户标签构成的用户标签集;
标签知识网络构建模块3 ,用于通过所述物品标签集、知识图谱以及word2vec模型构建标签知识网络;其中,所述标签知识网络是以标签为节点,标签之间的关联度为边的网络;
用户和物品特征构建模块4,用于根据所述物品标签集、用户标签集以及所述标签知识网络生成所述推荐物品的物品特征向量以及所述用户的用户特征向量;
向量搜索模块5,用于通过所述物品特征向量或用户特征向量分别检索得到相关物品或相关用户。
具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
如图4所示,为通过图3所示的运用标签知识网络的搜索装置进行搜索的系统流程图。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种运用标签知识网络的搜索方法,其特征在于,包括:
获取多个推荐物品,对每个推荐物品相关的文本信息进行标签提取得到对应的一个或多个物品标签,并确定由所有所述物品标签构成的物品标签集;
确定用户对不同物品的历史行为数据,根据所述历史行为数据分析出所述用户偏好的用户标签,并确定由所有所述用户偏好的用户标签构成的用户标签集;
通过所述物品标签集、知识图谱以及word2vec模型构建标签知识网络;其中,所述标签知识网络是以标签为节点,标签之间的关联度为边的网络;
根据所述物品标签集、用户标签集以及所述标签知识网络生成所述推荐物品的物品特征向量以及所述用户的用户特征向量;
通过需要进行检索的物品特征向量或需要进行检索的用户特征向量检索得到相关物品或相关用户。
2.根据权利要求1所述的运用标签知识网络的搜索方法,其特征在于,所述获取多个推荐物品;对每个推荐物品相关的文本信息进行标签提取得到对应的一个或多个物品标签,并确定由所有所述物品标签构成的物品标签集,包括:
确定每个所述推荐物品的文本;其中,所述文本包括:标题及描述内容;
对所述文本进行分词,得到多个词组;
确定每个所述词组的特征;其中,所述特征包括:词性、出现频率、是否是无用词;
根据每个所述词组的特征对其进行评分,并保留满足第一分数阈值要求的词组作为其对应的所述推荐物品的物品标签;
确定每个所述推荐物品的所有所述物品标签,并得到所述物品标签集。
3.根据权利要求1所述的运用标签知识网络的搜索方法,其特征在于,所述根据所述历史行为数据分析出所述用户偏好的用户标签,包括:
根据所述历史行为数据确定对应的物品;
确定每个所述对应的物品对应的第二物品标签;
将所有的所述第二物品标签进行加权合并,并确定每个加权合并后的第二物品标签的分数;
取分数满足第二分数阈值要求的所述加权合并后的第二物品标签作为所述用户偏好的用户标签。
4.根据权利要求3所述的运用标签知识网络的搜索方法,其特征在于,所述确定每个加权合并后的第二物品标签的分数的方法如下所述:
;
其中,N表示用户点击过的物品item个数,表示点击的物品item是否包含物品标签tag,包含返回1,不包含返回0,表示当前时间戳,表示用户点击对应物品时的时间戳。
5.根据权利要求1所述的运用标签知识网络的搜索方法,其特征在于,所述通过所述物品标签集、知识图谱以及word2vec模型构建标签知识网络;包括:
将所述物品标签集当作语料,使用word2vec模型生成每个标签的向量;
根据所述每个物品标签的向量并通过余弦相似值计算不同标签间的相似度,生成标签关联网络;其中Vtag为所述标签关联网络的顶点集,即所有标签的集合;Etag为所述标签关联网络的边集,即不同标签间的相似度wtag集合;
将所述知识图谱中实体与实体之间的关系转换成关联权重,生成知识网络;其中,Vk为所述知识网络的顶点集,即所述知识图谱中所有标签实体集合;Ek为所述知识网络的边集,即不同标签实体间的关联权重wgraph集合;
将所述知识网络和标签关联网络以所述标签关联网络的节点为基础进行合并生成所述标签知识网络;其中,为所述标签知识网络的顶点集,所述标签知识网络的顶点集和所述标签关联网络的顶点集完全一致,即;为标签知识网络的边集,所述标签知识网络的边集是标签关联网络的边集和知识网络的边集子集构成的合集,所述知识网络的边集子集是知识网络中包含标签的所有标签实体形成的边集,即,中的关联权重;
将所述中的关联权重we低于的关联关系全部去掉,并得到,为关联权重阈值。
6.根据权利要求5所述的运用标签知识网络的搜索方法,其特征在于,根据所述物品标签集以及所述标签知识网络生成所述推荐物品的物品特征向量,包括:
根据所述物品标签集以及所述标签知识网络确定所述物品标签集中每个标签的标签向量T;
根据每个物品中包括的标签向量确定每个物品的物品特征向量I,如下所述:
其中,N表示物品包含的标签数,表示第i个标签的标签向量。
7.根据权利要求6所述的运用标签知识网络的搜索方法,其特征在于,所述标签向量的向量维度为中边的个数,其中和标签的节点直接相连的边的取值为,其它的为0。
8.根据权利要求1所述的运用标签知识网络的搜索方法,其特征在于,根据所述用户标签集以及所述标签知识网络生成所述用户的用户特征向量,包括:
根据所述用户标签集以及所述标签知识网络计算所述用户特征向量U,如下所述:
其中,K表示用户喜欢的标签数,表示用户对第i个标签的喜欢程度,表示第i个标签的标签向量。
9.根据权利要求1所述的运用标签知识网络的搜索方法,其特征在于,所述通过需要进行检索的物品特征向量或需要进行检索的用户特征向量检索得到相关物品或相关用户,包括:
计算所述需要进行检索的物品特征向量分别与各个召回物品的第二物品特征向量的第一余弦值;或
计算所述需要进行检索的用户特征向量U分别与各个召回用户的第二用户特征向量的第二余弦值;
根据所述第一余弦值和第二余弦值确定若干个满足相似度阈值要求的相关物品或相关用户。
10.一种运用标签知识网络的搜索装置,其特征在于,包括:
标签构建模块,用于获取多个推荐物品,对每个推荐物品相关的文本信息进行标签提取得到对应的一个或多个物品标签,并确定由所有所述物品标签构成的物品标签集;
用户建模模块,用于确定用户对不同物品的历史行为数据,根据所述历史行为数据分析出所述用户偏好的用户标签,并确定由所有所述用户偏好的用户标签构成的用户标签集;
标签知识网络构建模块 ,用于通过所述物品标签集、知识图谱以及word2vec模型构建标签知识网络;其中,所述标签知识网络是以标签为节点,标签之间的关联度为边的网络;
用户和物品特征构建模块,用于根据所述物品标签集、用户标签集以及所述标签知识网络生成所述推荐物品的物品特征向量以及所述用户的用户特征向量;
向量搜索模块,用于通过需要进行检索的物品特征向量或需要进行检索的用户特征向量检索得到相关物品或相关用户。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910529138.3A CN110059271B (zh) | 2019-06-19 | 2019-06-19 | 运用标签知识网络的搜索方法及装置 |
PCT/CN2020/095370 WO2020253591A1 (zh) | 2019-06-19 | 2020-06-10 | 运用标签知识网络的搜索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910529138.3A CN110059271B (zh) | 2019-06-19 | 2019-06-19 | 运用标签知识网络的搜索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110059271A true CN110059271A (zh) | 2019-07-26 |
CN110059271B CN110059271B (zh) | 2020-01-10 |
Family
ID=67325752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910529138.3A Active CN110059271B (zh) | 2019-06-19 | 2019-06-19 | 运用标签知识网络的搜索方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110059271B (zh) |
WO (1) | WO2020253591A1 (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110941740A (zh) * | 2019-11-08 | 2020-03-31 | 腾讯科技(深圳)有限公司 | 视频推荐方法及计算机可读存储介质 |
CN111177410A (zh) * | 2019-12-27 | 2020-05-19 | 浙江理工大学 | 基于进化R-tree的知识图谱存储和相似性检索方法 |
CN111353300A (zh) * | 2020-02-14 | 2020-06-30 | 中科天玑数据科技股份有限公司 | 一种数据集构建和相关信息获取方法及其装置 |
CN111368141A (zh) * | 2020-03-18 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 视频标签的扩展方法、装置、计算机设备和存储介质 |
CN111598644A (zh) * | 2020-04-01 | 2020-08-28 | 华瑞新智科技(北京)有限公司 | 一种物品推荐方法、装置以及介质 |
CN111932321A (zh) * | 2020-09-23 | 2020-11-13 | 北京每日优鲜电子商务有限公司 | 针对用户的物品信息推送方法、装置、电子设备和介质 |
CN112016003A (zh) * | 2020-08-19 | 2020-12-01 | 重庆邮电大学 | 基于cnn的社交小众用户标签挖掘及相似用户推荐方法 |
WO2020253591A1 (zh) * | 2019-06-19 | 2020-12-24 | 达而观信息科技(上海)有限公司 | 运用标签知识网络的搜索方法及装置 |
CN112206512A (zh) * | 2020-10-28 | 2021-01-12 | 网易(杭州)网络有限公司 | 一种信息处理方法、装置、电子设备和存储介质 |
CN112256979A (zh) * | 2020-12-24 | 2021-01-22 | 上海二三四五网络科技有限公司 | 一种近似物品推荐的控制方法及装置 |
CN112381627A (zh) * | 2021-01-14 | 2021-02-19 | 北京崔玉涛儿童健康管理中心有限公司 | 育儿知识下的商品评分处理推荐方法、装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115640458A (zh) * | 2022-09-30 | 2023-01-24 | 中国四维测绘技术有限公司 | 一种遥感卫星资讯推荐方法、系统及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080243817A1 (en) * | 2007-03-30 | 2008-10-02 | Chan James D | Cluster-based management of collections of items |
CN104035917A (zh) * | 2014-06-10 | 2014-09-10 | 复旦大学 | 一种基于语义空间映射的知识图谱管理方法和系统 |
CN106959966A (zh) * | 2016-01-12 | 2017-07-18 | 腾讯科技(深圳)有限公司 | 一种信息推荐方法及系统 |
CN108334558A (zh) * | 2018-01-02 | 2018-07-27 | 南京师范大学 | 一种结合标签和时间因素的协同过滤推荐方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593792B (zh) * | 2013-11-13 | 2016-09-28 | 复旦大学 | 一种基于中文知识图谱的个性化推荐方法与系统 |
CN110059271B (zh) * | 2019-06-19 | 2020-01-10 | 达而观信息科技(上海)有限公司 | 运用标签知识网络的搜索方法及装置 |
-
2019
- 2019-06-19 CN CN201910529138.3A patent/CN110059271B/zh active Active
-
2020
- 2020-06-10 WO PCT/CN2020/095370 patent/WO2020253591A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080243817A1 (en) * | 2007-03-30 | 2008-10-02 | Chan James D | Cluster-based management of collections of items |
CN104035917A (zh) * | 2014-06-10 | 2014-09-10 | 复旦大学 | 一种基于语义空间映射的知识图谱管理方法和系统 |
CN106959966A (zh) * | 2016-01-12 | 2017-07-18 | 腾讯科技(深圳)有限公司 | 一种信息推荐方法及系统 |
CN108334558A (zh) * | 2018-01-02 | 2018-07-27 | 南京师范大学 | 一种结合标签和时间因素的协同过滤推荐方法 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020253591A1 (zh) * | 2019-06-19 | 2020-12-24 | 达而观信息科技(上海)有限公司 | 运用标签知识网络的搜索方法及装置 |
CN110941740A (zh) * | 2019-11-08 | 2020-03-31 | 腾讯科技(深圳)有限公司 | 视频推荐方法及计算机可读存储介质 |
CN110941740B (zh) * | 2019-11-08 | 2023-07-14 | 深圳市雅阅科技有限公司 | 视频推荐方法及计算机可读存储介质 |
CN111177410A (zh) * | 2019-12-27 | 2020-05-19 | 浙江理工大学 | 基于进化R-tree的知识图谱存储和相似性检索方法 |
CN111353300A (zh) * | 2020-02-14 | 2020-06-30 | 中科天玑数据科技股份有限公司 | 一种数据集构建和相关信息获取方法及其装置 |
CN111353300B (zh) * | 2020-02-14 | 2023-09-01 | 中科天玑数据科技股份有限公司 | 一种数据集构建和相关信息获取方法及其装置 |
CN111368141B (zh) * | 2020-03-18 | 2023-06-02 | 腾讯科技(深圳)有限公司 | 视频标签的扩展方法、装置、计算机设备和存储介质 |
CN111368141A (zh) * | 2020-03-18 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 视频标签的扩展方法、装置、计算机设备和存储介质 |
CN111598644A (zh) * | 2020-04-01 | 2020-08-28 | 华瑞新智科技(北京)有限公司 | 一种物品推荐方法、装置以及介质 |
CN111598644B (zh) * | 2020-04-01 | 2023-05-02 | 华瑞新智科技(北京)有限公司 | 一种物品推荐方法、装置以及介质 |
CN112016003A (zh) * | 2020-08-19 | 2020-12-01 | 重庆邮电大学 | 基于cnn的社交小众用户标签挖掘及相似用户推荐方法 |
CN111932321A (zh) * | 2020-09-23 | 2020-11-13 | 北京每日优鲜电子商务有限公司 | 针对用户的物品信息推送方法、装置、电子设备和介质 |
CN112206512A (zh) * | 2020-10-28 | 2021-01-12 | 网易(杭州)网络有限公司 | 一种信息处理方法、装置、电子设备和存储介质 |
CN112206512B (zh) * | 2020-10-28 | 2024-04-19 | 网易(杭州)网络有限公司 | 一种信息处理方法、装置、电子设备和存储介质 |
CN112256979A (zh) * | 2020-12-24 | 2021-01-22 | 上海二三四五网络科技有限公司 | 一种近似物品推荐的控制方法及装置 |
CN112381627A (zh) * | 2021-01-14 | 2021-02-19 | 北京崔玉涛儿童健康管理中心有限公司 | 育儿知识下的商品评分处理推荐方法、装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2020253591A1 (zh) | 2020-12-24 |
CN110059271B (zh) | 2020-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059271A (zh) | 运用标签知识网络的搜索方法及装置 | |
CN103729359B (zh) | 一种推荐搜索词的方法及系统 | |
Ding et al. | Entity discovery and assignment for opinion mining applications | |
US20090119281A1 (en) | Granular knowledge based search engine | |
CN105426550B (zh) | 一种基于用户质量模型的协同过滤标签推荐方法及系统 | |
CN105843796A (zh) | 一种微博情感倾向分析方法及装置 | |
CN110909536A (zh) | 用于自动生成产品的文章的系统和方法 | |
CN112948575B (zh) | 文本数据处理方法、装置和计算机可读存储介质 | |
CN106897437B (zh) | 一种知识系统的高阶规则多分类方法及其系统 | |
CN112966091A (zh) | 一种融合实体信息与热度的知识图谱推荐系统 | |
CN108572992A (zh) | 一种商品排序的方法及装置 | |
CN109977316A (zh) | 一种并行式文章推荐方法、装置、设备及存储介质 | |
Sharma et al. | A multi-criteria review-based hotel recommendation system | |
CN113254711A (zh) | 一种互动图像的显示方法、装置、计算机设备和存储介质 | |
CN111311385B (zh) | 一种基于商品卖点的商品推荐话术生成方法及系统 | |
CN111639255A (zh) | 搜索关键词的推荐方法、装置、存储介质及电子设备 | |
Shrivastava et al. | Product recommendations using textual similarity based learning models | |
CN114443847A (zh) | 文本分类、文本处理方法、装置、计算机设备及存储介质 | |
Visa | Technology of text mining | |
Ren et al. | Resource recommendation algorithm based on text semantics and sentiment analysis | |
Yuan et al. | Matching recommendations based on siamese network and metric learning | |
CN111223014B (zh) | 一种从大量细分教学内容在线生成细分场景教学课程的方法和系统 | |
AL-Khassawneh et al. | Improving triangle-graph based text summarization using hybrid similarity function | |
CN107315735A (zh) | 用于笔记整理的方法及设备 | |
CN114298058B (zh) | 文章替换词推荐方法、系统、计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: Room 501, 502, 503, No. 66 Boxia Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, March 2012 Patentee after: Daguan Data Co.,Ltd. Address before: Room 310, Building Y1, No. 112, Liangxiu Road, Pudong New Area, Shanghai, March 2012 Patentee before: DATAGRAND INFORMATION TECHNOLOGY (SHANGHAI) Co.,Ltd. |
|
CP03 | Change of name, title or address |