CN107944946B - 商品标签生成方法及装置 - Google Patents
商品标签生成方法及装置 Download PDFInfo
- Publication number
- CN107944946B CN107944946B CN201711071583.7A CN201711071583A CN107944946B CN 107944946 B CN107944946 B CN 107944946B CN 201711071583 A CN201711071583 A CN 201711071583A CN 107944946 B CN107944946 B CN 107944946B
- Authority
- CN
- China
- Prior art keywords
- label
- commodity
- distribution
- text
- theme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000009826 distribution Methods 0.000 claims abstract description 153
- 239000013598 vector Substances 0.000 claims description 24
- 238000004800 variational method Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000009827 uniform distribution Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 description 10
- 239000000284 extract Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 101100391182 Dictyostelium discoideum forI gene Proteins 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
- G06Q30/0627—Directed, with specific intent or strategy using item specifications
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种商品标签生成方法及装置,该方法包括:服务器根据商品集合内每个商品对应的文本描述信息,获取每个商品的文本特征;商品集合包括至少两个商品;服务器根据用户的行为序列,获取每个商品的邻近对象;邻近对象包括:在用户的行为序列中,且与商品出现的时间间隔小于预设的时间间隔阈值的商品;服务器确定商品集合内部分商品的初始标签集;服务器根据文本特征、邻近对象及初始标签集,采用异源标签主题模型,为商品集合内的商品生成标签。本发明实施例提供的标签生成方法,不需要用户参与商品标签的分配,成本较低,适用性更广;另外同时利用了商品的文本描述信息以及提取自用户序列的商品邻近对象,准确率较高。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种商品标签生成方法及装置。
背景技术
随着互联网技术的不断发展,越来越多的用户通过互联网进行相关活动,如浏览新闻、购物等。为了帮助用户对商品进行更细致的分类和整理,也为了方便用户更快地定位感兴趣的商品,很多互联网应用中为商品分配标签,细化对商品的描述和分类,同时服务器也可以根据标签向用户推荐相应的商品。其中,标签是指用来描述商品相关属性的短语。
目前,提取标签的方法,一般采用如下两种方式:人工分配商品标签,或服务器通过分析商品的相关描述信息,提取合适的标签;其中,商品相关描述信息例如包括商品的文字描述、用户对于商品的评论等文本信息。
上述第一种方式,由于互联网上的新商品层出不穷,仅依赖少量人力人工分配商品标签存在效率低的问题;第二种方式,仅根据商品的相关描述信息,存在准确度低、不全面的问题。
发明内容
本发明提供一种商品标签生成方法及装置,以实现准确自动生成商品标签的目的。
第一方面,本发明实例提供一种商品标签生成方法,包括:
服务器根据商品集合内每个商品对应的文本描述信息,获取每个商品的文本特征;所述商品集合包括至少两个商品;
所述服务器根据用户的行为序列,获取每个商品的邻近对象;所述邻近对象包括:在所述用户的行为序列中,且与所述商品出现的时间间隔小于预设的时间间隔阈值的商品;
所述服务器确定所述商品集合内部分商品的初始标签集;每个初始标签集包括至少一个标签;
所述服务器根据所述文本特征、所述邻近对象及所述初始标签集,采用异源标签主题模型,为所述商品集合内的商品生成标签。
第二方面,本发明实例提供一种商品标签生成装置,包括:
获取模块,用于根据商品集合内每个商品对应的文本描述信息,获取每个商品的文本特征;所述商品集合包括至少两个商品;
所述获取模块,还用于根据用户的行为序列,获取每个商品的邻近对象;所述邻近对象包括:在所述用户的行为序列中,且与所述商品出现的时间间隔小于预设的时间间隔阈值的商品;
标签确定模块,用于确定所述商品集合内部分商品的初始标签集;每个初始标签集包括至少一个标签;
处理模块,用于根据所述文本特征、所述邻近对象及所述初始标签集,采用异源标签主题模型,为所述商品集合内的商品生成标签。
本发明实例提供的商品标签生成方法及装置,通过对商品文本描述信息和用户行为序列的分析,获取商品的文本特征和邻近对象,另外由少量人工确定部分商品的初始标签集,然后采用异源标签主题模型,模拟商品文本特征、临近对象和商品标签的生成过程,确定商品隐含主题分布和标签主题分布,进一步为所有商品生成标签。该商品标签的生成过程中,仅需要少量的人工参与,无需用户参与分配商品标签,因此相对成本低,适用范围广。另外,在异源标签主题模型中,商品的文本特征信息和邻近对象信息被同时用于生成商品标签,从而与仅基于商品文本描述信息生成标签的传统方法相比,本发明实例提供的商品标签生成方法生成的标签准确度和召回率都比较高。
附图说明
图1为本发明商品标签生成方法一实施例的流程图;
图2为本发明商品标签生成方法所适用的异源标签主题模型模拟商品标签的生成过程的概率图;
图3为本发明标签生成方法一实施例的提取商品邻近对象示意图;
图4为本发明商品标签生成装置一实施例的结构图。
具体实施方式
图1为本发明标签生成方法一实施例的流程图。本实施例的执行主体为服务器,适用于电子商务情境下,需要为商品自动生成标签的场景。具体的,本实施例包括如下步骤:
101、服务器根据商品集合内每个商品对应的文本描述信息,获取每个商品的文本特征;所述商品集合包括至少两个商品;
本步骤中,电子商务平台中的服务器,即互联网服务器,搜集商品的文本描述信息,经过分词、去除高频词和停用词等操作,将商品的文本描述信息中的每一个单词视作一个文本特征,将该单词在文本描述出现频次视作对应该文本特征对应的取值,可以以向量形式存储;所述商品为电子商务平台上交易的一般消费品或服务。
假设所有的文本特征都属于集合V,V={v1,v2,…,v|V|}, 为商品i所对应的文本特征的向量表示,其中,表示商品i的文本描述中,文本特征vj出现了次。特别的,对于的文本特征称为商品i的文本特征,同时定义也就是商品i的文本特征的个数。
102、所述服务器根据用户的行为序列,获取每个商品的邻近对象;所述邻近对象包括:在所述用户的行为序列中,且与所述商品出现的时间间隔小于预设的时间间隔阈值的商品;
本步骤中,所述服务器根据用户的行为序列提取所述商品的邻近对象及相应频次,并以向量形式存储。所述用户为电子商务平台上的一般消费者,所述行为序列为所述用户在电子商务平台上进行交互时的记录,包括所述用户在浏览、下载、搜索、购买等行为记录,所述邻近对象为针对某一特定商品,在所述用户的行为序列中与该商品在较短的时间间隔内先后或同时参与交互的其他商品,即在所述用户的行为序列中,且与该商品出现的时间间隔小于预设的时间间隔阈值的商品。
具体的,所述服务器通过以下方式提取商品的邻近对象:遍历所有用户的行为序列,预设的时间间隔阈值内同时或先后出现在同一用户行为序列的商品互为邻近对象。例如,对于一个具体的商品A和具体的用户U,如果用户U在与商品A交互的时,在时间间隔阈值内,也与商品B发生了交互,则商品B为商品A的邻近对象。商品B作为商品A的邻近对象的发生频次也相应增加1次;为统计商品A的所有邻近对象,需要遍历所有用户的行为序列。
假设所有的商品都属于集合D,D={d1,d2,…,d|D|},为商品i所对应的邻近对象的向量表示,其中,表示在商品的所有邻近对象中,特定商品dj出现了次。特别的,对于的邻近对象称为商品i的邻近对象,同时定义也就是商品i的邻近对象的个数。
103、所述服务器确定所述商品集合内部分商品的初始标签集;每个初始标签集包括至少一个标签;
本步骤中,服务器根据存储的商品丰富信息,确定商品集合内部分商品的初始标签集,这部分工作量相对较少,可以通过少量人工完成。
假设所有的初始标签都属于集合T,T={l1,l2,…,l|T|},Li=(li1,li2,…,li|T|)表示商品i对应的初始标签集合的0/1向量表示,其中lij∈{0,1},lij=1表示商品i被分配了初始标签lj。特别的,对于lij>0的初始标签称为商品i的初始标签,同时定义Mi=‖Li‖0,也就是商品i的初始标签的个数。
104、所述服务器根据所述特征、所述邻近对象、及所述标签集,采用异源标签主题模型,为商品集内的商品生成标签。
本步骤中,服务器根据101中获得的商品的文本特征以及102中获得的商品的邻近对象,采用异源标签主题模型,对于一个具体的需要生成标签的商品,模拟商品的文本特征、邻近对象和标签的生成过程,确定商品隐含主题分布和标签主题分布,将与商品隐含主题分布契合程度高的标签作为所述商品的标签。
本发明实例提供的商品标签生成方法,通过对商品文本描述信息和用户行为序列的分析,获取商品的文本特征和邻近对象,另外由少量人工确定商品的初始标签集,然后采用异源标签主题模型,模拟商品文本特征、临近对象和商品标签的生成过程,确定商品隐含主题分布和标签主题分布,进一步为所有商品生成标签。该商品标签的生成过程中,仅需要少量的人工参与,无需用户参与分配商品标签,因此相对成本低,适用范围广。另外,在异源标签主题模型中,商品的文本特征信息和邻近对象信息被同时用于生成商品标签,从而与仅基于商品文本描述信息生成标签的传统方法相比,本发明实例提供的商品标签生成方法生成的标签准确度和召回率都比较高。
在上述过程的基础上,步骤104具体可以采用如下方式实现:
所述服务器根据所述文本特征、所述邻近对象、所述初始标签集,以及所述异源标签主题模型,采用0阶展开的变分法获取所述商品的隐含主题分布和所述隐含主题分布对应的标签分布;
所述服务器将所述隐含主题分布和所述标签分布的内积的向量中,大于预设阈值的元素对应的标签作为所述商品的标签。
具体的,服务器根据异源标签生成主题模型,采用0阶展开的变分法求解所述商品隐含主题分布θ以及所述标签主题分布;所述商品隐含主题分布θ和所述标签主题分布的内积为维度与标签数量相同的向量,将该向量中取值高于某一阈值的对应标签作为所述商品的标签。
一般来说,传统的文档主题生成模型(Latent Dirichlet Allocation,简称LDA)中,每个文档对应一个特定的主题分布,而每个主题也对应一个特定的词分布。在生成一篇文档中的某个词的时候,首先要在该文档的主题分布中选择一个特定的主题,然后在该主题的词分布中选择一个特定的词,作为最终生成的词。而本发明实施实例采用的异源标签主题模型中,每一个所述商品对应一个文档,有一个特定的主题分布,该主题是无法观测到的,但是商品所具有的文本特征以及邻近对象均与该商品的隐含主题有关,同时商品所具有的标签也是这种隐含主题的反映。所述文本特征以及所述邻近对象均对应文档中的一个词,对应不同的主题,它们各有一个独立的分布。在不同的主题下,商品标签也有着不同的分布。简单来说,一个商品首先具有一个隐含主题分布,该商品的每个文本特征及邻近对象都反映了它的某个主题,然而并不是该商品的所有文本特征或邻近对象都与该商品的标签相关的,挑选其中几个文本特征或邻近对象用于指示商品的标签,这些文本特征或邻近对象的主题与所指示的商品标签的主题相同,商品的实际标签也是根据这些主题对应的标签分布挑选出来。
即所述异源标签主题模型下,所述商品对应一个文档,所述商品的每一个文本特征以及邻近对象对应所述文档中的一个词,所述文本特征或所述邻近对象对应不同的隐含主题,所述隐含主题对应不同的文本特征分布、不同的邻近对象以及标签分布。
下面,对本发明如何采用异源标签主题模型,为商品生成标签做详细说明。
上述步骤中,所述服务器根据储存的信息为所有所述商品提取所述文本特征和所述邻近对象,并根据部分所述商品的初始标签集,采用异源标签主题模型,为所述商品生成标签,具体为:所述服务器确定所述商品的候选标签集,所述候选标签集为步骤103中所有部分商品的初始标签集的并集;所述服务器为所述D个商品提取所述文本特征和所述邻近对象,采用异源标签主题模型,针对每一个所述商品模拟所述商品特征、所述邻近对象及标签的生成过程,为所述商品生成标签。
所述异源标签主题模型,包括:
所述服务器针对商品i,根据所述商品i的隐含主题分布θi,从所述隐含主题分布θi的多项分布中随机选取隐含主题和分别作为所述商品i的第j个文本特征对应的隐含主题以及所述商品i的第r个邻近对象对应的隐含主题;i的取值范围为从1到所述商品集合的商品总个数;j的取值范围为从1到所述商品i的文本特征个数;r的取值范围为从1到所述商品i的邻近对象个数;
所述服务器针对隐含主题k,根据所述隐含主题对应的文本特征分布φk,以及隐含主题对应的邻近对象分布ψk,从所述文本特征分布φk和邻近对象分布ψk的多项分布随机选取一个文本特征和邻近对象k的取值范围为从1到K;所述K为隐含主题总个数,且为大于1的整数;
所述服务器针对所述商品i的标签lt,获取所述标签lt的指示变量,根据所述指示变量所对应的隐含主题以及所述隐含主题对应的标签分布从所述标签分布的多项分布中随机选取一个标签,作为所述商品i的标签;lt∈T={l1,l2,…,l|T|};|T|表示集合T的元素个数;所述T为所述初始标签集的并集;
其中,对于所述隐含主题k,所述文本特征分布φk满足变量为β的狄利克雷分布;所述β为预设参数;所述邻近对象分布ψk满足变量为γ的狄利克雷分布;所述γ为预设参数;所述标签分布满足变量为η的狄利克雷分布;所述η为预设参数;
对于所述商品i,所述隐含主题分布θi满足变量为α的狄利克雷分布;所述α为预设参数。
具体的,所述服务器根据所述商品i的隐含主题分布θi为每一个所述文本特征或所述邻近对象随机选取一个隐含主题k,假设共有K个隐含主题,则k∈{1,2,…,K},所述主题分布θi为用于限定所述商品的隐含主题的多项概率分布;所述服务器针对所述选择的主题k,根据所述主题k对应的文本特征分布φk或对应的邻近对象分布ψk,随机选取一个文本特征或邻近对象,所述文本特征分布φk或对应的邻近对象分布ψk为用于限定使得所述选取的文本特征或邻近对象满足特定条件的多项概率分布;待生成商品i的所有的文本特征及邻近对象之后,针对每一个所述初始标签,随机均匀选取一个所述文本特征或所述邻近对象作为所述初始标签的指示器,并以所述所选取一个文本特征或邻近对象对应的所述隐含主题,作为该所述初始标签的主题,并根据所述主题对应的标签分布随机选取一个标签,所述标签分布为用于限定使得所述选取的标签满足特定条件的多项概率分布。具体可参见图2.
图2为本发明商品标签生成方法所适用的异源标签生成主题模型模拟商品特征、邻近对象及标签的生成过程的概率图。参考图2,该概率图可以分解为三个个主要的物理过程:
该过程表示在生成商品i的特征及邻近对象时,首先,确定商品i的主题分布θi,即商品i的隐含主题分布,该主题分布θi为一个取决于参数α的多项分布;然后,从主题分布θi的多项分布中随机采样主题作为商品i的第j个特征的隐含主题,同时从主题分布θi的多项分布中随机采样主题作为商品i的第r个邻近对象的隐含主题。
该过程表示生成商品i的第t个初始标签lt,首先变量yit选择某一文本特征或邻近对象作为该初始标签的指示变量,具体的,当时,选择商品i的第yit个文本特征作为指示变量,当时,选择商品i的第个邻近对象作为指示变量,根据相应指示变量所对应的主题zyit=k以及对应的标签分布随机采样一个标签作为最终生成的标签。
采用异源标签主题模型模拟所述商品标签的生成过程中满足如下条件:
第二、对于每个商品i∈D,有主题分布θi~Dir(α),其中α是先验参数,
第三、对于每个商品i∈D:
上述生成过程中的参数θ,可通过0阶展开的变分法求解(CollapsedVariational Bayes with 0-order expansion,简称CVB0)。具体的,假设隐变量和yit的后验分布相互独立,并分别取样自以μij,vir,λit为参数的多项分布,则这些参数的更新公式为:
其中,θi为θik组成的向量;为组成的向量; mk·=∑lmkl;1(lit=l)表示当lit=l时取值为1;l∈T;lit表示商品i被分配了标签lt;为商品i对应的文本特征的向量表示,其中,表示商品i的文本描述信息中,文本特征vj出现了次;vj∈V={v1,v2,…,v|V|};|V|表示集合V的元素个数;为商品i对应的邻近对象的向量表示,其中, 表示在商品i的所有邻近对象中,商品dr出现了次;dr∈D={d1,d2,…,d|D|};|D|表示集合D的元素个数;
其中,Γ()为伽玛函数; 表示时取值为1;表示时取值为1;表示计算n时不考虑对应的参数ij;表示计算n时不考虑对应的参数ir;表示计算m时不考虑对应的参数it;Mi为所述商品i的初始标签集的元素个数。∝表示正相关。
下面,以电子商务平台具体为360手机应用市场为例,对本发明的商品标签生成方法做详细说明。
360手机应用市场中的手机应用既有文本描述信息,同时又有大量用户浏览、下载手机应用的行为序列记录。
首先,所述手机应用市场服务器根据手机应用的文本描述信息提取手机应用的文本特征。
其次,所述手机应用市场服务器根据手机应用。服务器通过对于分析用户的浏览、下载记录,选择其中10万个用户在3个月内行为序列记录作为输入,提取手机应用的邻近对象。
具体的,图3为本发明标签生成方法一实施例的提取商品邻近对象示意图。如图3所示,假设总手机应用数为5个,总用户为3个,包括:用户1、用户2和用户3,他们对应的行为序列在图中以一串小方格表示,其中每一个小方格代表一个手机应用,相邻小方格之间的交互时间间隔为3分钟。选取3分钟作为提取邻近对象的时间间隔阈值,图3表示了在此标准下提取手机应用1的邻近对象的相关过程,最后可以得到在此情境下,手机应用1的对应的邻近对象向量表示为手机应用1的邻近对象为手机应用2、3、4,邻近对象个数为
然后,根据手机应用的相关描述信息以及使用体验,由公司少量员工为部分手机应用手动添加合适的标签,作为手机应用的初始标签集。
最后,根据提取的所述文本特征和所述邻近对象,并根据部分手机应用的初始标签集,采用异源标签生成主题模型,通过0阶展开的变分法求解所有手机应用隐含主题分布θ以及手机应用标签主题分布并将该向量中取值高于某一阈值的对应标签作为手机应用的标签。
另外,本实例可通过计算Top n(n为3,5,8)的标签的标准折算累积获得(normalized Discounted Cumulative Gain,简称nDCG)值来衡量采用本发明实施例提供的标签生成方法的准确度,通过计算生成Top n(n为3,5,8)的标签的召回率来衡量本发明实施例提供的标签生成方法的所生成标签的全面性。具体的,通过与现有发现,本发明实施例所提供的商品标签生成方法的Top n(n为3,5,8)的标签的nDCG和召回率(n为3,5,8)均比对比的次优方法高10%左右。
图4为本发明提供的商品标签生成装置一实施例的结构图,如图4所示,本实施例的商品标签生成装置可以包括:
获取模块,用于根据商品集合内每个商品对应的文本描述信息,获取每个商品的文本特征;所述商品集合包括至少两个商品;
所述获取模块,还用于根据用户的行为序列,获取每个商品的邻近对象;所述邻近对象包括:在所述用户的行为序列中,且与所述商品出现的时间间隔小于预设的时间间隔阈值的商品;
标签确定模块,用于确定所述商品集合内部分商品的初始标签集;每个初始标签集包括至少一个标签;
处理模块,用于根据所述文本特征、所述邻近对象及所述初始标签集,采用异源标签主题模型,为所述商品集合内的商品生成标签。
可选的,还包括:
模型建立模块,用于根据所述文本特征、所述邻近对象和所述标签的生成过程,建立所述异源标签主题模型。
可选的,所述处理模块,具体用于:
根据所述文本特征、所述邻近对象、所述初始标签集,以及所述异源标签主题模型,采用0阶展开的变分法获取所述商品的隐含主题分布和所述隐含主题分布对应的标签分布;
将所述隐含主题分布和所述标签分布的内积的向量中,大于预设阈值的元素对应的标签作为所述商品的标签。
可选的,所述异源标签主题模型,包括:
所述服务器针对商品i,根据所述商品i的隐含主题分布θi,从所述隐含主题分布θi的多项分布中随机选取隐含主题和分别作为所述商品i的第j个文本特征对应的隐含主题以及所述商品i的第r个邻近对象对应的隐含主题;i的取值范围为从1到所述商品集合的商品总个数;j的取值范围为从1到所述商品i的文本特征个数;r的取值范围为从1到所述商品i的邻近对象个数;
所述服务器针对隐含主题k,根据所述隐含主题对应的文本特征分布φk,以及隐含主题对应的邻近对象分布ψk,从所述文本特征分布φk和邻近对象分布ψk的多项分布随机选取一个文本特征和邻近对象k的取值范围为从1到K;所述K为隐含主题总个数,且为大于1的整数;
所述服务器针对所述商品i的标签lt,获取所述标签lt的指示变量,根据所述指示变量所对应的隐含主题以及所述隐含主题对应的标签分布从所述标签分布的多项分布中随机选取一个标签,作为所述商品i的标签;lt∈T={l1,l2,…,l|T|};|T|表示集合T的元素个数;所述T为所述初始标签集的并集;
其中,对于所述隐含主题k,所述文本特征分布φk满足变量为β的狄利克雷分布;所述β为预设参数;所述邻近对象分布ψk满足变量为γ的狄利克雷分布;所述γ为预设参数;所述标签分布满足变量为η的狄利克雷分布;所述η为预设参数;
对于所述商品i,所述隐含主题分布θi满足变量为α的狄利克雷分布;所述α为预设参数。
可选的,获取所述标签lt的指示变量,具体包括:
可选的,所述处理模块,具体用于:
其中,θi为θik组成的向量;为组成的向量; mk.=∑lmkl;1(lit=l)表示当lit=l时取值为1;l∈T;lit表示商品i被分配了标签lt;为商品i对应的文本特征的向量表示,其中,表示商品i的文本描述信息中,文本特征vj出现了次;vj∈V={v1,v2,…,v|V|};|V|表示集合V的元素个数;为商品i对应的邻近对象的向量表示,其中, 表示在商品i的所有邻近对象中,商品dr出现了次;dr∈D={d1,d2,…,d|D|};|D|表示集合D的元素个数;
其中,Γ()为伽玛函数; 表示时取值为1;表示时取值为1;表示计算n时不考虑对应的参数ij;表示计算n时不考虑对应的参数ir;表示计算m时不考虑对应的参数it;Mi为所述商品i的初始标签集的元素个数。
可选的,所述获取模块具体用于:
对所述商品对应的文本描述信息进行分词操作,获取所述文本描述信息中的单词,将所述单词在所述文本描述信息中的出现频次作为所述文本特征中与所述单词对应的元素的取值。
本实施例的装置,可以用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (9)
1.一种商品标签生成方法,其特征在于,包括:
服务器根据商品集合内每个商品对应的文本描述信息,获取每个商品的文本特征;所述商品集合包括至少两个商品;
所述服务器根据用户的行为序列,获取每个商品的邻近对象;所述邻近对象包括:在所述用户的行为序列中,且与所述商品出现的时间间隔小于预设的时间间隔阈值的商品;
所述服务器确定所述商品集合内部分商品的初始标签集;每个初始标签集包括至少一个标签;
所述服务器根据所述文本特征、所述邻近对象及所述初始标签集,采用异源标签主题模型,为所述商品集合内的商品生成标签;
所述异源标签主题模型,包括:
所述服务器针对商品i,根据所述商品i的隐含主题分布θi,从所述隐含主题分布θi的多项分布中随机选取隐含主题和分别作为所述商品i的第j个文本特征对应的隐含主题以及所述商品i的第r个邻近对象对应的隐含主题;i的取值范围为从1到所述商品集合的商品总个数;j的取值范围为从1到所述商品i的文本特征个数;r的取值范围为从1到所述商品i的邻近对象个数;
所述服务器针对隐含主题k,根据所述隐含主题对应的文本特征分布φk,以及隐含主题对应的邻近对象分布ψk,从所述文本特征分布φk和邻近对象分布ψk的多项分布随机选取一个文本特征和邻近对象k的取值范围为从1到K;所述K为隐含主题总个数,且为大于1的整数;
所述服务器针对所述商品i的标签lt,获取所述标签lt的指示变量,根据所述指示变量所对应的隐含主题以及所述隐含主题对应的标签分布从所述标签分布的多项分布中随机选取一个标签,作为所述商品i的标签;lt∈T={l1,l2,...,l|T|};|T|表示集合T的元素个数;所述T为所述初始标签集的并集;
其中,对于所述隐含主题k,所述文本特征分布φk满足变量为β的狄利克雷分布;所述β为预设参数;所述邻近对象分布ψk满足变量为γ的狄利克雷分布;所述γ为预设参数;所述标签分布满足变量为η的狄利克雷分布;所述η为预设参数;
对于所述商品i,所述隐含主题分布θi满足变量为α的狄利克雷分布;所述α为预设参数。
2.根据权利要求1所述的方法,其特征在于,采用异源标签主题模型,为所述商品集合内的商品生成标签之前,还包括:
所述服务器根据所述文本特征、所述邻近对象和所述标签的生成过程,建立所述异源标签主题模型。
3.根据权利要求2所述的方法,其特征在于,所述服务器根据所述文本特征、所述邻近对象及所述初始标签集,采用异源标签主题模型,为所述商品集合内的商品生成标签,具体包括:
所述服务器根据所述文本特征、所述邻近对象、所述初始标签集,以及所述异源标签主题模型,采用0阶展开的变分法获取所述商品的隐含主题分布和所述隐含主题分布对应的标签分布;
所述服务器将所述隐含主题分布和所述标签分布的内积的向量中,大于预设阈值的元素对应的标签作为所述商品的标签。
5.根据权利要求4所述的方法,其特征在于,采用0阶展开的变分法获取所述商品的隐含主题分布和所述隐含主题分布对应的标签分布,具体包括:
其中,θi为θik组成的向量;为组成的向量; mk·=∑lmkl;1(lit=l)表示当lit=l时取值为1;l∈T;lit表示商品i被分配了标签lt;为商品i对应的文本特征的向量表示,其中, 表示商品i的文本描述信息中,文本特征vj出现了次;vj∈V={v1,v2,...,v|V|};|V|表示集合V的元素个数;为商品i对应的邻近对象的向量表示,其中, 表示在商品i的所有邻近对象中,商品dr出现了次;dr∈D={d1,d2,...,d|D|};|D|表示集合D的元素个数;
6.根据权利要求1-3任一项所述的方法,其特征在于,提取所述商品的文本特征,具体包括:
对所述商品对应的文本描述信息进行分词操作,获取所述文本描述信息中的单词,将所述单词在所述文本描述信息中的出现频次作为所述文本特征中与所述单词对应的元素的取值。
7.一种商品标签生成装置,其特征在于,包括:
获取模块,用于根据商品集合内每个商品对应的文本描述信息,获取每个商品的文本特征;所述商品集合包括至少两个商品;
所述获取模块,还用于根据用户的行为序列,获取每个商品的邻近对象;所述邻近对象包括:在所述用户的行为序列中,且与所述商品出现的时间间隔小于预设的时间间隔阈值的商品;
标签确定模块,用于确定所述商品集合内部分商品的初始标签集;每个初始标签集包括至少一个标签;
处理模块,用于根据所述文本特征、所述邻近对象及所述初始标签集,采用异源标签主题模型,为所述商品集合内的商品生成标签;
所述异源标签主题模型,包括:
服务器针对商品i,根据所述商品i的隐含主题分布θi,从所述隐含主题分布θi的多项分布中随机选取隐含主题和分别作为所述商品i的第j个文本特征对应的隐含主题以及所述商品i的第r个邻近对象对应的隐含主题;i的取值范围为从1到所述商品集合的商品总个数;j的取值范围为从1到所述商品i的文本特征个数;r的取值范围为从1到所述商品i的邻近对象个数;
所述服务器针对隐含主题k,根据所述隐含主题对应的文本特征分布φk,以及隐含主题对应的邻近对象分布ψk,从所述文本特征分布φk和邻近对象分布ψk的多项分布随机选取一个文本特征和邻近对象k的取值范围为从1到K;所述K为隐含主题总个数,且为大于1的整数;
所述服务器针对所述商品i的标签lt,获取所述标签lt的指示变量,根据所述指示变量所对应的隐含主题以及所述隐含主题对应的标签分布从所述标签分布的多项分布中随机选取一个标签,作为所述商品i的标签;lt∈T={l1,l2,...,l|T|};|T|表示集合T的元素个数;所述T为所述初始标签集的并集;
其中,对于所述隐含主题k,所述文本特征分布φk满足变量为β的狄利克雷分布;所述β为预设参数;所述邻近对象分布ψk满足变量为γ的狄利克雷分布;所述γ为预设参数;所述标签分布满足变量为η的狄利克雷分布;所述η为预设参数;
对于所述商品i,所述隐含主题分布θi满足变量为α的狄利克雷分布;所述α为预设参数。
8.根据权利要求7所述的装置,其特征在于,还包括:
模型建立模块,用于根据所述文本特征、所述邻近对象和所述标签的生成过程,建立所述异源标签主题模型。
9.根据权利要求7或8所述的装置,其特征在于,所述处理模块,具体用于:
根据所述文本特征、所述邻近对象、所述初始标签集,以及所述异源标签主题模型,采用0阶展开的变分法获取所述商品的隐含主题分布和所述隐含主题分布对应的标签分布;
将所述隐含主题分布和所述标签分布的内积的向量中,大于预设阈值的元素对应的标签作为所述商品的标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711071583.7A CN107944946B (zh) | 2017-11-03 | 2017-11-03 | 商品标签生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711071583.7A CN107944946B (zh) | 2017-11-03 | 2017-11-03 | 商品标签生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107944946A CN107944946A (zh) | 2018-04-20 |
CN107944946B true CN107944946B (zh) | 2020-10-16 |
Family
ID=61933263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711071583.7A Active CN107944946B (zh) | 2017-11-03 | 2017-11-03 | 商品标签生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107944946B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165380B (zh) * | 2018-07-26 | 2022-07-01 | 咪咕数字传媒有限公司 | 一种神经网络模型训练方法及装置、文本标签确定方法及装置 |
CN110134794B (zh) * | 2019-04-17 | 2020-08-14 | 北京三快在线科技有限公司 | 一种实体画像的构建方法和装置 |
CN112966176B (zh) * | 2021-02-01 | 2022-08-26 | 北京三快在线科技有限公司 | 对象展示方法、装置、电子设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003067473A1 (en) * | 2002-02-04 | 2003-08-14 | Cataphora, Inc. | A method and apparatus for sociological data mining |
CN106599194A (zh) * | 2016-12-14 | 2017-04-26 | 北京小米移动软件有限公司 | 标签确定方法及装置 |
CN106682169A (zh) * | 2016-12-27 | 2017-05-17 | 北京奇虎科技有限公司 | 一种应用标签挖掘方法、装置和应用搜索方法、服务器 |
CN106776571A (zh) * | 2016-12-27 | 2017-05-31 | 北京奇虎科技有限公司 | 一种标签的生成方法及装置 |
-
2017
- 2017-11-03 CN CN201711071583.7A patent/CN107944946B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003067473A1 (en) * | 2002-02-04 | 2003-08-14 | Cataphora, Inc. | A method and apparatus for sociological data mining |
CN106599194A (zh) * | 2016-12-14 | 2017-04-26 | 北京小米移动软件有限公司 | 标签确定方法及装置 |
CN106682169A (zh) * | 2016-12-27 | 2017-05-17 | 北京奇虎科技有限公司 | 一种应用标签挖掘方法、装置和应用搜索方法、服务器 |
CN106776571A (zh) * | 2016-12-27 | 2017-05-31 | 北京奇虎科技有限公司 | 一种标签的生成方法及装置 |
Non-Patent Citations (2)
Title |
---|
基于标签-主题模型的标签推荐研究;胡蓉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140115;全文 * |
融合主题模型和协同过滤的多样化移动应用推荐;黄璐等;《软件学报》;20170331;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107944946A (zh) | 2018-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020128B (zh) | 一种搜索结果排序方法及装置 | |
CN106959966A (zh) | 一种信息推荐方法及系统 | |
Malik et al. | EPR-ML: E-Commerce Product Recommendation Using NLP and Machine Learning Algorithm | |
CN106294500B (zh) | 内容项目的推送方法、装置及系统 | |
CN107944946B (zh) | 商品标签生成方法及装置 | |
CN114581207B (zh) | 一种面向电商平台的商品图像大数据精准推送方法及系统 | |
CN111340566B (zh) | 一种商品分类方法、装置、电子设备及存储介质 | |
CN111782765A (zh) | 一种基于图注意力机制的推荐方法 | |
CN111651678A (zh) | 一种基于知识图谱的个性化推荐方法 | |
CN118250516B (zh) | 一种针对用户的分级处理方法 | |
Fry et al. | Can we group similar amazon reviews: a case study with different clustering algorithms | |
Ranggadara et al. | Applying customer loyalty classification with RFM and Naïve Bayes for better decision making | |
CN105159898B (zh) | 一种搜索的方法和装置 | |
CN106886934B (zh) | 用于确定商家品类的方法、系统和装置 | |
JP6308339B1 (ja) | クラスタリングシステム、方法およびプログラム、並びに、レコメンドシステム | |
CN118193806A (zh) | 一种目标检索方法、装置、电子设备及存储介质 | |
Anusha et al. | Segmentation of retail mobile market using HMS algorithm | |
CN108717436A (zh) | 一种基于显著性检测的商品目标快速检索方法 | |
Bhargavi et al. | Comparative study of consumer purchasing and decision pattern analysis using pincer search based data mining method | |
CN114266921A (zh) | 图像描述信息获取方法、装置、服务器及存储介质 | |
Huang et al. | Clustering analysis on e-commerce transaction based on k-means clustering | |
CN113609270A (zh) | 一种可标签区分客户的用户行为数据分析系统 | |
CN111027326A (zh) | 商品归类方法、存储介质及电子设备 | |
CN113822691A (zh) | 用户账号的识别方法、装置、系统和介质 | |
CN110111183A (zh) | 一种产品推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |