CN107944946B - 商品标签生成方法及装置 - Google Patents

商品标签生成方法及装置 Download PDF

Info

Publication number
CN107944946B
CN107944946B CN201711071583.7A CN201711071583A CN107944946B CN 107944946 B CN107944946 B CN 107944946B CN 201711071583 A CN201711071583 A CN 201711071583A CN 107944946 B CN107944946 B CN 107944946B
Authority
CN
China
Prior art keywords
label
commodity
distribution
text
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711071583.7A
Other languages
English (en)
Other versions
CN107944946A (zh
Inventor
刘红岩
刘申
何军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201711071583.7A priority Critical patent/CN107944946B/zh
Publication of CN107944946A publication Critical patent/CN107944946A/zh
Application granted granted Critical
Publication of CN107944946B publication Critical patent/CN107944946B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • G06Q30/0627Directed, with specific intent or strategy using item specifications

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种商品标签生成方法及装置,该方法包括:服务器根据商品集合内每个商品对应的文本描述信息,获取每个商品的文本特征;商品集合包括至少两个商品;服务器根据用户的行为序列,获取每个商品的邻近对象;邻近对象包括:在用户的行为序列中,且与商品出现的时间间隔小于预设的时间间隔阈值的商品;服务器确定商品集合内部分商品的初始标签集;服务器根据文本特征、邻近对象及初始标签集,采用异源标签主题模型,为商品集合内的商品生成标签。本发明实施例提供的标签生成方法,不需要用户参与商品标签的分配,成本较低,适用性更广;另外同时利用了商品的文本描述信息以及提取自用户序列的商品邻近对象,准确率较高。

Description

商品标签生成方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种商品标签生成方法及装置。
背景技术
随着互联网技术的不断发展,越来越多的用户通过互联网进行相关活动,如浏览新闻、购物等。为了帮助用户对商品进行更细致的分类和整理,也为了方便用户更快地定位感兴趣的商品,很多互联网应用中为商品分配标签,细化对商品的描述和分类,同时服务器也可以根据标签向用户推荐相应的商品。其中,标签是指用来描述商品相关属性的短语。
目前,提取标签的方法,一般采用如下两种方式:人工分配商品标签,或服务器通过分析商品的相关描述信息,提取合适的标签;其中,商品相关描述信息例如包括商品的文字描述、用户对于商品的评论等文本信息。
上述第一种方式,由于互联网上的新商品层出不穷,仅依赖少量人力人工分配商品标签存在效率低的问题;第二种方式,仅根据商品的相关描述信息,存在准确度低、不全面的问题。
发明内容
本发明提供一种商品标签生成方法及装置,以实现准确自动生成商品标签的目的。
第一方面,本发明实例提供一种商品标签生成方法,包括:
服务器根据商品集合内每个商品对应的文本描述信息,获取每个商品的文本特征;所述商品集合包括至少两个商品;
所述服务器根据用户的行为序列,获取每个商品的邻近对象;所述邻近对象包括:在所述用户的行为序列中,且与所述商品出现的时间间隔小于预设的时间间隔阈值的商品;
所述服务器确定所述商品集合内部分商品的初始标签集;每个初始标签集包括至少一个标签;
所述服务器根据所述文本特征、所述邻近对象及所述初始标签集,采用异源标签主题模型,为所述商品集合内的商品生成标签。
第二方面,本发明实例提供一种商品标签生成装置,包括:
获取模块,用于根据商品集合内每个商品对应的文本描述信息,获取每个商品的文本特征;所述商品集合包括至少两个商品;
所述获取模块,还用于根据用户的行为序列,获取每个商品的邻近对象;所述邻近对象包括:在所述用户的行为序列中,且与所述商品出现的时间间隔小于预设的时间间隔阈值的商品;
标签确定模块,用于确定所述商品集合内部分商品的初始标签集;每个初始标签集包括至少一个标签;
处理模块,用于根据所述文本特征、所述邻近对象及所述初始标签集,采用异源标签主题模型,为所述商品集合内的商品生成标签。
本发明实例提供的商品标签生成方法及装置,通过对商品文本描述信息和用户行为序列的分析,获取商品的文本特征和邻近对象,另外由少量人工确定部分商品的初始标签集,然后采用异源标签主题模型,模拟商品文本特征、临近对象和商品标签的生成过程,确定商品隐含主题分布和标签主题分布,进一步为所有商品生成标签。该商品标签的生成过程中,仅需要少量的人工参与,无需用户参与分配商品标签,因此相对成本低,适用范围广。另外,在异源标签主题模型中,商品的文本特征信息和邻近对象信息被同时用于生成商品标签,从而与仅基于商品文本描述信息生成标签的传统方法相比,本发明实例提供的商品标签生成方法生成的标签准确度和召回率都比较高。
附图说明
图1为本发明商品标签生成方法一实施例的流程图;
图2为本发明商品标签生成方法所适用的异源标签主题模型模拟商品标签的生成过程的概率图;
图3为本发明标签生成方法一实施例的提取商品邻近对象示意图;
图4为本发明商品标签生成装置一实施例的结构图。
具体实施方式
图1为本发明标签生成方法一实施例的流程图。本实施例的执行主体为服务器,适用于电子商务情境下,需要为商品自动生成标签的场景。具体的,本实施例包括如下步骤:
101、服务器根据商品集合内每个商品对应的文本描述信息,获取每个商品的文本特征;所述商品集合包括至少两个商品;
本步骤中,电子商务平台中的服务器,即互联网服务器,搜集商品的文本描述信息,经过分词、去除高频词和停用词等操作,将商品的文本描述信息中的每一个单词视作一个文本特征,将该单词在文本描述出现频次视作对应该文本特征对应的取值,可以以向量形式存储;所述商品为电子商务平台上交易的一般消费品或服务。
假设所有的文本特征都属于集合V,V={v1,v2,…,v|V|},
Figure GDA0002529756980000031
Figure GDA0002529756980000032
为商品i所对应的文本特征的向量表示,其中,
Figure GDA0002529756980000033
表示商品i的文本描述中,文本特征vj出现了
Figure GDA0002529756980000034
次。特别的,对于
Figure GDA0002529756980000035
的文本特征称为商品i的文本特征,同时定义
Figure GDA0002529756980000036
也就是商品i的文本特征的个数。
102、所述服务器根据用户的行为序列,获取每个商品的邻近对象;所述邻近对象包括:在所述用户的行为序列中,且与所述商品出现的时间间隔小于预设的时间间隔阈值的商品;
本步骤中,所述服务器根据用户的行为序列提取所述商品的邻近对象及相应频次,并以向量形式存储。所述用户为电子商务平台上的一般消费者,所述行为序列为所述用户在电子商务平台上进行交互时的记录,包括所述用户在浏览、下载、搜索、购买等行为记录,所述邻近对象为针对某一特定商品,在所述用户的行为序列中与该商品在较短的时间间隔内先后或同时参与交互的其他商品,即在所述用户的行为序列中,且与该商品出现的时间间隔小于预设的时间间隔阈值的商品。
具体的,所述服务器通过以下方式提取商品的邻近对象:遍历所有用户的行为序列,预设的时间间隔阈值内同时或先后出现在同一用户行为序列的商品互为邻近对象。例如,对于一个具体的商品A和具体的用户U,如果用户U在与商品A交互的时,在时间间隔阈值内,也与商品B发生了交互,则商品B为商品A的邻近对象。商品B作为商品A的邻近对象的发生频次也相应增加1次;为统计商品A的所有邻近对象,需要遍历所有用户的行为序列。
假设所有的商品都属于集合D,D={d1,d2,…,d|D|},
Figure GDA0002529756980000041
为商品i所对应的邻近对象的向量表示,其中,
Figure GDA0002529756980000042
表示在商品的所有邻近对象中,特定商品dj出现了
Figure GDA0002529756980000043
次。特别的,对于
Figure GDA0002529756980000044
的邻近对象称为商品i的邻近对象,同时定义
Figure GDA0002529756980000045
也就是商品i的邻近对象的个数。
103、所述服务器确定所述商品集合内部分商品的初始标签集;每个初始标签集包括至少一个标签;
本步骤中,服务器根据存储的商品丰富信息,确定商品集合内部分商品的初始标签集,这部分工作量相对较少,可以通过少量人工完成。
假设所有的初始标签都属于集合T,T={l1,l2,…,l|T|},Li=(li1,li2,…,li|T|)表示商品i对应的初始标签集合的0/1向量表示,其中lij∈{0,1},lij=1表示商品i被分配了初始标签lj。特别的,对于lij>0的初始标签称为商品i的初始标签,同时定义Mi=‖Li0,也就是商品i的初始标签的个数。
104、所述服务器根据所述特征、所述邻近对象、及所述标签集,采用异源标签主题模型,为商品集内的商品生成标签。
本步骤中,服务器根据101中获得的商品的文本特征以及102中获得的商品的邻近对象,采用异源标签主题模型,对于一个具体的需要生成标签的商品,模拟商品的文本特征、邻近对象和标签的生成过程,确定商品隐含主题分布和标签主题分布,将与商品隐含主题分布契合程度高的标签作为所述商品的标签。
本发明实例提供的商品标签生成方法,通过对商品文本描述信息和用户行为序列的分析,获取商品的文本特征和邻近对象,另外由少量人工确定商品的初始标签集,然后采用异源标签主题模型,模拟商品文本特征、临近对象和商品标签的生成过程,确定商品隐含主题分布和标签主题分布,进一步为所有商品生成标签。该商品标签的生成过程中,仅需要少量的人工参与,无需用户参与分配商品标签,因此相对成本低,适用范围广。另外,在异源标签主题模型中,商品的文本特征信息和邻近对象信息被同时用于生成商品标签,从而与仅基于商品文本描述信息生成标签的传统方法相比,本发明实例提供的商品标签生成方法生成的标签准确度和召回率都比较高。
在上述过程的基础上,步骤104具体可以采用如下方式实现:
所述服务器根据所述文本特征、所述邻近对象、所述初始标签集,以及所述异源标签主题模型,采用0阶展开的变分法获取所述商品的隐含主题分布和所述隐含主题分布对应的标签分布;
所述服务器将所述隐含主题分布和所述标签分布的内积的向量中,大于预设阈值的元素对应的标签作为所述商品的标签。
具体的,服务器根据异源标签生成主题模型,采用0阶展开的变分法求解所述商品隐含主题分布θ以及所述标签主题分布
Figure GDA0002529756980000051
;所述商品隐含主题分布θ和所述标签主题分布
Figure GDA0002529756980000052
的内积
Figure GDA0002529756980000053
为维度与标签数量相同的向量,将该向量中取值高于某一阈值的对应标签作为所述商品的标签。
一般来说,传统的文档主题生成模型(Latent Dirichlet Allocation,简称LDA)中,每个文档对应一个特定的主题分布,而每个主题也对应一个特定的词分布。在生成一篇文档中的某个词的时候,首先要在该文档的主题分布中选择一个特定的主题,然后在该主题的词分布中选择一个特定的词,作为最终生成的词。而本发明实施实例采用的异源标签主题模型中,每一个所述商品对应一个文档,有一个特定的主题分布,该主题是无法观测到的,但是商品所具有的文本特征以及邻近对象均与该商品的隐含主题有关,同时商品所具有的标签也是这种隐含主题的反映。所述文本特征以及所述邻近对象均对应文档中的一个词,对应不同的主题,它们各有一个独立的分布。在不同的主题下,商品标签也有着不同的分布。简单来说,一个商品首先具有一个隐含主题分布,该商品的每个文本特征及邻近对象都反映了它的某个主题,然而并不是该商品的所有文本特征或邻近对象都与该商品的标签相关的,挑选其中几个文本特征或邻近对象用于指示商品的标签,这些文本特征或邻近对象的主题与所指示的商品标签的主题相同,商品的实际标签也是根据这些主题对应的标签分布挑选出来。
即所述异源标签主题模型下,所述商品对应一个文档,所述商品的每一个文本特征以及邻近对象对应所述文档中的一个词,所述文本特征或所述邻近对象对应不同的隐含主题,所述隐含主题对应不同的文本特征分布、不同的邻近对象以及标签分布。
下面,对本发明如何采用异源标签主题模型,为商品生成标签做详细说明。
上述步骤中,所述服务器根据储存的信息为所有所述商品提取所述文本特征和所述邻近对象,并根据部分所述商品的初始标签集,采用异源标签主题模型,为所述商品生成标签,具体为:所述服务器确定所述商品的候选标签集,所述候选标签集为步骤103中所有部分商品的初始标签集的并集;所述服务器为所述D个商品提取所述文本特征和所述邻近对象,采用异源标签主题模型,针对每一个所述商品模拟所述商品特征、所述邻近对象及标签的生成过程,为所述商品生成标签。
所述异源标签主题模型,包括:
所述服务器针对商品i,根据所述商品i的隐含主题分布θi,从所述隐含主题分布θi的多项分布中随机选取隐含主题
Figure GDA0002529756980000061
Figure GDA0002529756980000062
分别作为所述商品i的第j个文本特征对应的隐含主题以及所述商品i的第r个邻近对象对应的隐含主题;i的取值范围为从1到所述商品集合的商品总个数;j的取值范围为从1到所述商品i的文本特征个数;r的取值范围为从1到所述商品i的邻近对象个数;
所述服务器针对隐含主题k,根据所述隐含主题
Figure GDA0002529756980000071
对应的文本特征分布φk,以及隐含主题
Figure GDA0002529756980000072
对应的邻近对象分布ψk,从所述文本特征分布φk和邻近对象分布ψk的多项分布随机选取一个文本特征
Figure GDA0002529756980000073
和邻近对象
Figure GDA0002529756980000074
k的取值范围为从1到K;所述K为隐含主题总个数,且为大于1的整数;
所述服务器针对所述商品i的标签lt,获取所述标签lt的指示变量,根据所述指示变量所对应的隐含主题以及所述隐含主题对应的标签分布
Figure GDA0002529756980000076
从所述标签分布
Figure GDA0002529756980000075
的多项分布中随机选取一个标签,作为所述商品i的标签;lt∈T={l1,l2,…,l|T|};|T|表示集合T的元素个数;所述T为所述初始标签集的并集;
其中,对于所述隐含主题k,所述文本特征分布φk满足变量为β的狄利克雷分布;所述β为预设参数;所述邻近对象分布ψk满足变量为γ的狄利克雷分布;所述γ为预设参数;所述标签分布
Figure GDA0002529756980000077
满足变量为η的狄利克雷分布;所述η为预设参数;
对于所述商品i,所述隐含主题分布θi满足变量为α的狄利克雷分布;所述α为预设参数。
具体的,所述服务器根据所述商品i的隐含主题分布θi为每一个所述文本特征或所述邻近对象随机选取一个隐含主题k,假设共有K个隐含主题,则k∈{1,2,…,K},所述主题分布θi为用于限定所述商品的隐含主题的多项概率分布;所述服务器针对所述选择的主题k,根据所述主题k对应的文本特征分布φk或对应的邻近对象分布ψk,随机选取一个文本特征或邻近对象,所述文本特征分布φk或对应的邻近对象分布ψk为用于限定使得所述选取的文本特征或邻近对象满足特定条件的多项概率分布;待生成商品i的所有的文本特征及邻近对象之后,针对每一个所述初始标签,随机均匀选取一个所述文本特征或所述邻近对象作为所述初始标签的指示器,并以所述所选取一个文本特征或邻近对象对应的所述隐含主题,作为该所述初始标签的主题,并根据所述主题对应的标签分布
Figure GDA0002529756980000081
随机选取一个标签,所述标签分布
Figure GDA0002529756980000082
为用于限定使得所述选取的标签满足特定条件的多项概率分布。具体可参见图2.
图2为本发明商品标签生成方法所适用的异源标签生成主题模型模拟商品特征、邻近对象及标签的生成过程的概率图。参考图2,该概率图可以分解为三个个主要的物理过程:
过程一、
Figure GDA0002529756980000083
以及
Figure GDA0002529756980000084
该过程表示在生成商品i的特征及邻近对象时,首先,确定商品i的主题分布θi,即商品i的隐含主题分布,该主题分布θi为一个取决于参数α的多项分布;然后,从主题分布θi的多项分布中随机采样主题
Figure GDA0002529756980000085
作为商品i的第j个特征的隐含主题,同时从主题分布θi的多项分布中随机采样主题
Figure GDA0002529756980000086
作为商品i的第r个邻近对象的隐含主题。
过程二、
Figure GDA0002529756980000087
以及
Figure GDA0002529756980000088
该过程表示生成商品i的第j个特征或第r个邻近对象,根据主题
Figure GDA0002529756980000089
对应的文本特征分布φk,随机采样一个特征作为最终生成的
Figure GDA00025297569800000810
同时根据主题
Figure GDA00025297569800000811
对应的邻近对象分布ψk,随机采样一个邻近对象作为最终生成的
Figure GDA00025297569800000812
过程三、
Figure GDA00025297569800000813
该过程表示生成商品i的第t个初始标签lt,首先变量yit选择某一文本特征或邻近对象作为该初始标签的指示变量,具体的,当
Figure GDA00025297569800000814
时,选择商品i的第yit个文本特征作为指示变量,当
Figure GDA00025297569800000815
时,选择商品i的第
Figure GDA00025297569800000816
个邻近对象作为指示变量,根据相应指示变量所对应的主题zyit=k以及对应的标签分布
Figure GDA00025297569800000817
随机采样一个标签作为最终生成的标签。
采用异源标签主题模型模拟所述商品标签的生成过程中满足如下条件:
第一、对于每个隐含主题k∈1,..,K,该主题对应的文本特征分布满足φk~Dir(β),邻近对象分布满足ψk~Dir(γ),标签分布满足
Figure GDA0002529756980000091
其中β,γ,η为对应狄利克雷分布的先验参数。
第二、对于每个商品i∈D,有主题分布θi~Dir(α),其中α是先验参数,
第三、对于每个商品i∈D:
(a)从θi的多项分布Multi(θi)中随机采样一个主题
Figure GDA0002529756980000092
Figure GDA0002529756980000093
(b)从主题
Figure GDA0002529756980000094
的多项分布
Figure GDA0002529756980000095
中随机采样一个文本特征
Figure GDA0002529756980000096
Figure GDA0002529756980000097
(c)从θi的多项分布Multi(θi)中随机采样一个主题
Figure GDA0002529756980000098
Figure GDA0002529756980000099
(d)从主题
Figure GDA00025297569800000910
的多项分布
Figure GDA00025297569800000911
中随机采样一个邻近对象
Figure GDA00025297569800000912
Figure GDA00025297569800000913
第四、对于每个商品i∈D,商品i有
Figure GDA00025297569800000914
个文本特征和
Figure GDA00025297569800000915
个邻近对象,针对商品i的第t个标签lt
(a)从均匀分布
Figure GDA00025297569800000916
中随机生成一个变量yit
(b)如果
Figure GDA00025297569800000917
则该标签的主题为
Figure GDA00025297569800000918
如果
Figure GDA00025297569800000919
则该标签的主题为
Figure GDA00025297569800000920
然后从多项分布
Figure GDA00025297569800000921
中随机采样一个标签lt,有
Figure GDA00025297569800000925
其中,
Figure GDA00025297569800000922
表示商品i所包含的隐含主题分布,
Figure GDA00025297569800000923
为主题k生成各个标签的概率,即各个标签与该主题的相对关联性。
上述生成过程中的参数θ,
Figure GDA00025297569800000924
可通过0阶展开的变分法求解(CollapsedVariational Bayes with 0-order expansion,简称CVB0)。具体的,假设隐变量
Figure GDA0002529756980000101
和yit的后验分布相互独立,并分别取样自以μij,virit为参数的多项分布,则这些参数的更新公式为:
Figure GDA0002529756980000102
Figure GDA0002529756980000103
其中,θi为θik组成的向量;
Figure GDA0002529756980000104
Figure GDA0002529756980000105
组成的向量;
Figure GDA0002529756980000106
Figure GDA0002529756980000107
mk·=∑lmkl;1(lit=l)表示当lit=l时取值为1;l∈T;lit表示商品i被分配了标签lt
Figure GDA0002529756980000108
为商品i对应的文本特征的向量表示,其中,
Figure GDA0002529756980000109
表示商品i的文本描述信息中,文本特征vj出现了
Figure GDA00025297569800001010
次;vj∈V={v1,v2,…,v|V|};|V|表示集合V的元素个数;
Figure GDA00025297569800001011
为商品i对应的邻近对象的向量表示,其中,
Figure GDA00025297569800001012
Figure GDA00025297569800001013
表示在商品i的所有邻近对象中,商品dr出现了
Figure GDA00025297569800001014
次;dr∈D={d1,d2,…,d|D|};|D|表示集合D的元素个数;
Figure GDA00025297569800001015
Figure GDA00025297569800001016
Figure GDA00025297569800001017
其中,Γ()为伽玛函数;
Figure GDA00025297569800001018
Figure GDA00025297569800001019
表示
Figure GDA00025297569800001020
时取值为1;
Figure GDA00025297569800001021
表示
Figure GDA00025297569800001022
时取值为1;
Figure GDA00025297569800001023
表示计算n时不考虑对应的参数ij;
Figure GDA00025297569800001024
表示计算n时不考虑对应的参数ir;
Figure GDA0002529756980000118
表示计算m时不考虑对应的参数it;Mi为所述商品i的初始标签集的元素个数。∝表示正相关。
Figure GDA0002529756980000111
是θik的估计值,表示商品i中第k个隐含主题的相关程度,
Figure GDA0002529756980000112
Figure GDA0002529756980000113
的估计值,表示第k个隐含主题中标签l的相对关联性。
最后,服务器根据商品的主题分布θi和每个主题k下的标签分布
Figure GDA0002529756980000114
为商品生成标签,
Figure GDA0002529756980000115
越大表明越应该将标签l分配给商品d。
下面,以电子商务平台具体为360手机应用市场为例,对本发明的商品标签生成方法做详细说明。
360手机应用市场中的手机应用既有文本描述信息,同时又有大量用户浏览、下载手机应用的行为序列记录。
首先,所述手机应用市场服务器根据手机应用的文本描述信息提取手机应用的文本特征。
其次,所述手机应用市场服务器根据手机应用。服务器通过对于分析用户的浏览、下载记录,选择其中10万个用户在3个月内行为序列记录作为输入,提取手机应用的邻近对象。
具体的,图3为本发明标签生成方法一实施例的提取商品邻近对象示意图。如图3所示,假设总手机应用数为5个,总用户为3个,包括:用户1、用户2和用户3,他们对应的行为序列在图中以一串小方格表示,其中每一个小方格代表一个手机应用,相邻小方格之间的交互时间间隔为3分钟。选取3分钟作为提取邻近对象的时间间隔阈值,图3表示了在此标准下提取手机应用1的邻近对象的相关过程,最后可以得到在此情境下,手机应用1的对应的邻近对象向量表示为
Figure GDA0002529756980000116
手机应用1的邻近对象为手机应用2、3、4,邻近对象个数为
Figure GDA0002529756980000117
然后,根据手机应用的相关描述信息以及使用体验,由公司少量员工为部分手机应用手动添加合适的标签,作为手机应用的初始标签集。
最后,根据提取的所述文本特征和所述邻近对象,并根据部分手机应用的初始标签集,采用异源标签生成主题模型,通过0阶展开的变分法求解所有手机应用隐含主题分布θ以及手机应用标签主题分布
Figure GDA0002529756980000121
并将该向量
Figure GDA0002529756980000122
中取值高于某一阈值的对应标签作为手机应用的标签。
另外,本实例可通过计算Top n(n为3,5,8)的标签的标准折算累积获得(normalized Discounted Cumulative Gain,简称nDCG)值来衡量采用本发明实施例提供的标签生成方法的准确度,通过计算生成Top n(n为3,5,8)的标签的召回率来衡量本发明实施例提供的标签生成方法的所生成标签的全面性。具体的,通过与现有发现,本发明实施例所提供的商品标签生成方法的Top n(n为3,5,8)的标签的nDCG和召回率(n为3,5,8)均比对比的次优方法高10%左右。
图4为本发明提供的商品标签生成装置一实施例的结构图,如图4所示,本实施例的商品标签生成装置可以包括:
获取模块,用于根据商品集合内每个商品对应的文本描述信息,获取每个商品的文本特征;所述商品集合包括至少两个商品;
所述获取模块,还用于根据用户的行为序列,获取每个商品的邻近对象;所述邻近对象包括:在所述用户的行为序列中,且与所述商品出现的时间间隔小于预设的时间间隔阈值的商品;
标签确定模块,用于确定所述商品集合内部分商品的初始标签集;每个初始标签集包括至少一个标签;
处理模块,用于根据所述文本特征、所述邻近对象及所述初始标签集,采用异源标签主题模型,为所述商品集合内的商品生成标签。
可选的,还包括:
模型建立模块,用于根据所述文本特征、所述邻近对象和所述标签的生成过程,建立所述异源标签主题模型。
可选的,所述处理模块,具体用于:
根据所述文本特征、所述邻近对象、所述初始标签集,以及所述异源标签主题模型,采用0阶展开的变分法获取所述商品的隐含主题分布和所述隐含主题分布对应的标签分布;
将所述隐含主题分布和所述标签分布的内积的向量中,大于预设阈值的元素对应的标签作为所述商品的标签。
可选的,所述异源标签主题模型,包括:
所述服务器针对商品i,根据所述商品i的隐含主题分布θi,从所述隐含主题分布θi的多项分布中随机选取隐含主题
Figure GDA0002529756980000131
Figure GDA0002529756980000132
分别作为所述商品i的第j个文本特征对应的隐含主题以及所述商品i的第r个邻近对象对应的隐含主题;i的取值范围为从1到所述商品集合的商品总个数;j的取值范围为从1到所述商品i的文本特征个数;r的取值范围为从1到所述商品i的邻近对象个数;
所述服务器针对隐含主题k,根据所述隐含主题
Figure GDA0002529756980000133
对应的文本特征分布φk,以及隐含主题
Figure GDA0002529756980000134
对应的邻近对象分布ψk,从所述文本特征分布φk和邻近对象分布ψk的多项分布随机选取一个文本特征
Figure GDA0002529756980000135
和邻近对象
Figure GDA0002529756980000136
k的取值范围为从1到K;所述K为隐含主题总个数,且为大于1的整数;
所述服务器针对所述商品i的标签lt,获取所述标签lt的指示变量,根据所述指示变量所对应的隐含主题以及所述隐含主题对应的标签分布
Figure GDA0002529756980000139
从所述标签分布
Figure GDA00025297569800001310
的多项分布中随机选取一个标签,作为所述商品i的标签;lt∈T={l1,l2,…,l|T|};|T|表示集合T的元素个数;所述T为所述初始标签集的并集;
其中,对于所述隐含主题k,所述文本特征分布φk满足变量为β的狄利克雷分布;所述β为预设参数;所述邻近对象分布ψk满足变量为γ的狄利克雷分布;所述γ为预设参数;所述标签分布
Figure GDA0002529756980000137
满足变量为η的狄利克雷分布;所述η为预设参数;
对于所述商品i,所述隐含主题分布θi满足变量为α的狄利克雷分布;所述α为预设参数。
可选的,获取所述标签lt的指示变量,具体包括:
从均匀分布
Figure GDA0002529756980000138
中随机获取所述标签lt的指示变量yit
Figure GDA0002529756980000141
则所述标签t对应的隐含主题为
Figure GDA0002529756980000142
Figure GDA0002529756980000143
则所述标签t对应的隐含主题为
Figure GDA0002529756980000144
其中,所述
Figure GDA0002529756980000145
Figure GDA0002529756980000146
分布为所述商品i的文本特征个数和邻近对象个数。
可选的,所述处理模块,具体用于:
根据如下公式确定所述商品i的隐含主题分布θ和所述标签分布
Figure GDA0002529756980000147
Figure GDA0002529756980000148
Figure GDA0002529756980000149
其中,θi为θik组成的向量;
Figure GDA00025297569800001410
Figure GDA00025297569800001411
组成的向量;
Figure GDA00025297569800001412
Figure GDA00025297569800001426
mk.=∑lmkl;1(lit=l)表示当lit=l时取值为1;l∈T;lit表示商品i被分配了标签lt
Figure GDA00025297569800001413
为商品i对应的文本特征的向量表示,其中,
Figure GDA00025297569800001414
表示商品i的文本描述信息中,文本特征vj出现了
Figure GDA00025297569800001415
次;vj∈V={v1,v2,…,v|V|};|V|表示集合V的元素个数;
Figure GDA00025297569800001416
为商品i对应的邻近对象的向量表示,其中,
Figure GDA00025297569800001417
Figure GDA00025297569800001418
表示在商品i的所有邻近对象中,商品dr出现了
Figure GDA00025297569800001419
次;dr∈D={d1,d2,…,d|D|};|D|表示集合D的元素个数;
Figure GDA00025297569800001420
Figure GDA00025297569800001421
Figure GDA00025297569800001422
其中,Γ()为伽玛函数;
Figure GDA00025297569800001423
Figure GDA00025297569800001424
表示
Figure GDA00025297569800001425
时取值为1;
Figure GDA0002529756980000151
表示
Figure GDA0002529756980000152
时取值为1;
Figure GDA0002529756980000153
表示计算n时不考虑对应的参数ij;
Figure GDA0002529756980000154
表示计算n时不考虑对应的参数ir;
Figure GDA0002529756980000155
表示计算m时不考虑对应的参数it;Mi为所述商品i的初始标签集的元素个数。
可选的,所述获取模块具体用于:
对所述商品对应的文本描述信息进行分词操作,获取所述文本描述信息中的单词,将所述单词在所述文本描述信息中的出现频次作为所述文本特征中与所述单词对应的元素的取值。
本实施例的装置,可以用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (9)

1.一种商品标签生成方法,其特征在于,包括:
服务器根据商品集合内每个商品对应的文本描述信息,获取每个商品的文本特征;所述商品集合包括至少两个商品;
所述服务器根据用户的行为序列,获取每个商品的邻近对象;所述邻近对象包括:在所述用户的行为序列中,且与所述商品出现的时间间隔小于预设的时间间隔阈值的商品;
所述服务器确定所述商品集合内部分商品的初始标签集;每个初始标签集包括至少一个标签;
所述服务器根据所述文本特征、所述邻近对象及所述初始标签集,采用异源标签主题模型,为所述商品集合内的商品生成标签;
所述异源标签主题模型,包括:
所述服务器针对商品i,根据所述商品i的隐含主题分布θi,从所述隐含主题分布θi的多项分布中随机选取隐含主题
Figure FDA0002633179920000011
Figure FDA0002633179920000012
分别作为所述商品i的第j个文本特征对应的隐含主题以及所述商品i的第r个邻近对象对应的隐含主题;i的取值范围为从1到所述商品集合的商品总个数;j的取值范围为从1到所述商品i的文本特征个数;r的取值范围为从1到所述商品i的邻近对象个数;
所述服务器针对隐含主题k,根据所述隐含主题
Figure FDA0002633179920000013
对应的文本特征分布φk,以及隐含主题
Figure FDA0002633179920000014
对应的邻近对象分布ψk,从所述文本特征分布φk和邻近对象分布ψk的多项分布随机选取一个文本特征
Figure FDA0002633179920000015
和邻近对象
Figure FDA0002633179920000016
k的取值范围为从1到K;所述K为隐含主题总个数,且为大于1的整数;
所述服务器针对所述商品i的标签lt,获取所述标签lt的指示变量,根据所述指示变量所对应的隐含主题以及所述隐含主题对应的标签分布
Figure FDA0002633179920000017
从所述标签分布
Figure FDA0002633179920000018
的多项分布中随机选取一个标签,作为所述商品i的标签;lt∈T={l1,l2,...,l|T|};|T|表示集合T的元素个数;所述T为所述初始标签集的并集;
其中,对于所述隐含主题k,所述文本特征分布φk满足变量为β的狄利克雷分布;所述β为预设参数;所述邻近对象分布ψk满足变量为γ的狄利克雷分布;所述γ为预设参数;所述标签分布
Figure FDA0002633179920000021
满足变量为η的狄利克雷分布;所述η为预设参数;
对于所述商品i,所述隐含主题分布θi满足变量为α的狄利克雷分布;所述α为预设参数。
2.根据权利要求1所述的方法,其特征在于,采用异源标签主题模型,为所述商品集合内的商品生成标签之前,还包括:
所述服务器根据所述文本特征、所述邻近对象和所述标签的生成过程,建立所述异源标签主题模型。
3.根据权利要求2所述的方法,其特征在于,所述服务器根据所述文本特征、所述邻近对象及所述初始标签集,采用异源标签主题模型,为所述商品集合内的商品生成标签,具体包括:
所述服务器根据所述文本特征、所述邻近对象、所述初始标签集,以及所述异源标签主题模型,采用0阶展开的变分法获取所述商品的隐含主题分布和所述隐含主题分布对应的标签分布;
所述服务器将所述隐含主题分布和所述标签分布的内积的向量中,大于预设阈值的元素对应的标签作为所述商品的标签。
4.根据权利要求1所述的方法,其特征在于,获取所述标签lt的指示变量,具体包括:
从均匀分布
Figure FDA0002633179920000022
中随机获取所述标签lt的指示变量yit
Figure FDA0002633179920000023
则所述标签t对应的隐含主题为
Figure FDA0002633179920000024
Figure FDA0002633179920000025
则所述标签t对应的隐含主题为
Figure FDA0002633179920000026
其中,所述
Figure FDA0002633179920000027
Figure FDA0002633179920000028
分布为所述商品i的文本特征个数和邻近对象个数。
5.根据权利要求4所述的方法,其特征在于,采用0阶展开的变分法获取所述商品的隐含主题分布和所述隐含主题分布对应的标签分布,具体包括:
根据如下公式确定所述商品i的隐含主题分布θi和所述标签分布
Figure FDA0002633179920000031
Figure FDA0002633179920000032
Figure FDA0002633179920000033
其中,θi为θik组成的向量;
Figure FDA0002633179920000034
Figure FDA0002633179920000035
组成的向量;
Figure FDA0002633179920000036
Figure FDA0002633179920000037
m=∑lmkl;1(lit=l)表示当lit=l时取值为1;l∈T;lit表示商品i被分配了标签lt
Figure FDA0002633179920000038
为商品i对应的文本特征的向量表示,其中,
Figure FDA0002633179920000039
Figure FDA00026331799200000310
表示商品i的文本描述信息中,文本特征vj出现了
Figure FDA00026331799200000311
次;vj∈V={v1,v2,...,v|V|};|V|表示集合V的元素个数;
Figure FDA00026331799200000312
为商品i对应的邻近对象的向量表示,其中,
Figure FDA00026331799200000313
Figure FDA00026331799200000314
表示在商品i的所有邻近对象中,商品dr出现了
Figure FDA00026331799200000315
次;dr∈D={d1,d2,...,d|D|};|D|表示集合D的元素个数;
Figure FDA00026331799200000316
Figure FDA00026331799200000317
Figure FDA00026331799200000318
其中,Γ( )为伽玛函数;
Figure FDA00026331799200000319
Figure FDA00026331799200000320
Figure FDA00026331799200000321
表示
Figure FDA00026331799200000322
时取值为1;
Figure FDA00026331799200000323
表示
Figure FDA00026331799200000324
时取值为1;
Figure FDA00026331799200000326
表示计算n时不考虑对应的参数ij;
Figure FDA00026331799200000325
表示计算n时不考虑对应的参数ir;
Figure FDA0002633179920000041
表示计算m时不考虑对应的参数it;Mi为所述商品i的初始标签集的元素个数。
6.根据权利要求1-3任一项所述的方法,其特征在于,提取所述商品的文本特征,具体包括:
对所述商品对应的文本描述信息进行分词操作,获取所述文本描述信息中的单词,将所述单词在所述文本描述信息中的出现频次作为所述文本特征中与所述单词对应的元素的取值。
7.一种商品标签生成装置,其特征在于,包括:
获取模块,用于根据商品集合内每个商品对应的文本描述信息,获取每个商品的文本特征;所述商品集合包括至少两个商品;
所述获取模块,还用于根据用户的行为序列,获取每个商品的邻近对象;所述邻近对象包括:在所述用户的行为序列中,且与所述商品出现的时间间隔小于预设的时间间隔阈值的商品;
标签确定模块,用于确定所述商品集合内部分商品的初始标签集;每个初始标签集包括至少一个标签;
处理模块,用于根据所述文本特征、所述邻近对象及所述初始标签集,采用异源标签主题模型,为所述商品集合内的商品生成标签;
所述异源标签主题模型,包括:
服务器针对商品i,根据所述商品i的隐含主题分布θi,从所述隐含主题分布θi的多项分布中随机选取隐含主题
Figure FDA0002633179920000042
Figure FDA0002633179920000043
分别作为所述商品i的第j个文本特征对应的隐含主题以及所述商品i的第r个邻近对象对应的隐含主题;i的取值范围为从1到所述商品集合的商品总个数;j的取值范围为从1到所述商品i的文本特征个数;r的取值范围为从1到所述商品i的邻近对象个数;
所述服务器针对隐含主题k,根据所述隐含主题
Figure FDA0002633179920000044
对应的文本特征分布φk,以及隐含主题
Figure FDA0002633179920000045
对应的邻近对象分布ψk,从所述文本特征分布φk和邻近对象分布ψk的多项分布随机选取一个文本特征
Figure FDA0002633179920000046
和邻近对象
Figure FDA0002633179920000051
k的取值范围为从1到K;所述K为隐含主题总个数,且为大于1的整数;
所述服务器针对所述商品i的标签lt,获取所述标签lt的指示变量,根据所述指示变量所对应的隐含主题以及所述隐含主题对应的标签分布
Figure FDA0002633179920000052
从所述标签分布
Figure FDA0002633179920000053
的多项分布中随机选取一个标签,作为所述商品i的标签;lt∈T={l1,l2,...,l|T|};|T|表示集合T的元素个数;所述T为所述初始标签集的并集;
其中,对于所述隐含主题k,所述文本特征分布φk满足变量为β的狄利克雷分布;所述β为预设参数;所述邻近对象分布ψk满足变量为γ的狄利克雷分布;所述γ为预设参数;所述标签分布
Figure FDA0002633179920000054
满足变量为η的狄利克雷分布;所述η为预设参数;
对于所述商品i,所述隐含主题分布θi满足变量为α的狄利克雷分布;所述α为预设参数。
8.根据权利要求7所述的装置,其特征在于,还包括:
模型建立模块,用于根据所述文本特征、所述邻近对象和所述标签的生成过程,建立所述异源标签主题模型。
9.根据权利要求7或8所述的装置,其特征在于,所述处理模块,具体用于:
根据所述文本特征、所述邻近对象、所述初始标签集,以及所述异源标签主题模型,采用0阶展开的变分法获取所述商品的隐含主题分布和所述隐含主题分布对应的标签分布;
将所述隐含主题分布和所述标签分布的内积的向量中,大于预设阈值的元素对应的标签作为所述商品的标签。
CN201711071583.7A 2017-11-03 2017-11-03 商品标签生成方法及装置 Active CN107944946B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711071583.7A CN107944946B (zh) 2017-11-03 2017-11-03 商品标签生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711071583.7A CN107944946B (zh) 2017-11-03 2017-11-03 商品标签生成方法及装置

Publications (2)

Publication Number Publication Date
CN107944946A CN107944946A (zh) 2018-04-20
CN107944946B true CN107944946B (zh) 2020-10-16

Family

ID=61933263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711071583.7A Active CN107944946B (zh) 2017-11-03 2017-11-03 商品标签生成方法及装置

Country Status (1)

Country Link
CN (1) CN107944946B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165380B (zh) * 2018-07-26 2022-07-01 咪咕数字传媒有限公司 一种神经网络模型训练方法及装置、文本标签确定方法及装置
CN110134794B (zh) * 2019-04-17 2020-08-14 北京三快在线科技有限公司 一种实体画像的构建方法和装置
CN112966176B (zh) * 2021-02-01 2022-08-26 北京三快在线科技有限公司 对象展示方法、装置、电子设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003067473A1 (en) * 2002-02-04 2003-08-14 Cataphora, Inc. A method and apparatus for sociological data mining
CN106599194A (zh) * 2016-12-14 2017-04-26 北京小米移动软件有限公司 标签确定方法及装置
CN106682169A (zh) * 2016-12-27 2017-05-17 北京奇虎科技有限公司 一种应用标签挖掘方法、装置和应用搜索方法、服务器
CN106776571A (zh) * 2016-12-27 2017-05-31 北京奇虎科技有限公司 一种标签的生成方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003067473A1 (en) * 2002-02-04 2003-08-14 Cataphora, Inc. A method and apparatus for sociological data mining
CN106599194A (zh) * 2016-12-14 2017-04-26 北京小米移动软件有限公司 标签确定方法及装置
CN106682169A (zh) * 2016-12-27 2017-05-17 北京奇虎科技有限公司 一种应用标签挖掘方法、装置和应用搜索方法、服务器
CN106776571A (zh) * 2016-12-27 2017-05-31 北京奇虎科技有限公司 一种标签的生成方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于标签-主题模型的标签推荐研究;胡蓉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140115;全文 *
融合主题模型和协同过滤的多样化移动应用推荐;黄璐等;《软件学报》;20170331;全文 *

Also Published As

Publication number Publication date
CN107944946A (zh) 2018-04-20

Similar Documents

Publication Publication Date Title
CN110020128B (zh) 一种搜索结果排序方法及装置
CN106959966A (zh) 一种信息推荐方法及系统
Malik et al. EPR-ML: E-Commerce Product Recommendation Using NLP and Machine Learning Algorithm
CN106294500B (zh) 内容项目的推送方法、装置及系统
CN107944946B (zh) 商品标签生成方法及装置
CN114581207B (zh) 一种面向电商平台的商品图像大数据精准推送方法及系统
CN111340566B (zh) 一种商品分类方法、装置、电子设备及存储介质
CN111782765A (zh) 一种基于图注意力机制的推荐方法
CN111651678A (zh) 一种基于知识图谱的个性化推荐方法
CN118250516B (zh) 一种针对用户的分级处理方法
Fry et al. Can we group similar amazon reviews: a case study with different clustering algorithms
Ranggadara et al. Applying customer loyalty classification with RFM and Naïve Bayes for better decision making
CN105159898B (zh) 一种搜索的方法和装置
CN106886934B (zh) 用于确定商家品类的方法、系统和装置
JP6308339B1 (ja) クラスタリングシステム、方法およびプログラム、並びに、レコメンドシステム
CN118193806A (zh) 一种目标检索方法、装置、电子设备及存储介质
Anusha et al. Segmentation of retail mobile market using HMS algorithm
CN108717436A (zh) 一种基于显著性检测的商品目标快速检索方法
Bhargavi et al. Comparative study of consumer purchasing and decision pattern analysis using pincer search based data mining method
CN114266921A (zh) 图像描述信息获取方法、装置、服务器及存储介质
Huang et al. Clustering analysis on e-commerce transaction based on k-means clustering
CN113609270A (zh) 一种可标签区分客户的用户行为数据分析系统
CN111027326A (zh) 商品归类方法、存储介质及电子设备
CN113822691A (zh) 用户账号的识别方法、装置、系统和介质
CN110111183A (zh) 一种产品推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant