CN110580285A - 一种产品标签确定方法及装置,电子设备 - Google Patents
一种产品标签确定方法及装置,电子设备 Download PDFInfo
- Publication number
- CN110580285A CN110580285A CN201810589804.8A CN201810589804A CN110580285A CN 110580285 A CN110580285 A CN 110580285A CN 201810589804 A CN201810589804 A CN 201810589804A CN 110580285 A CN110580285 A CN 110580285A
- Authority
- CN
- China
- Prior art keywords
- product
- vector
- label
- determining
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种产品标签确定方法,属于计算机技术领域,解决现有技术中存在的确定的产品标签对产品信息表达不准确的问题。本申请的实施例公开的产品标签确定方法包括:确定目标产品的序列化文本信息和类目信息;确定表示所述序列化文本信息的第一向量和表示所述类目信息的第二向量;将所述第一向量和所述第二向量输入至预先训练的标签预测模型,确定所述目标产品的标签。本申请的实施例公开的产品标签确定方法,通过结合产品的序列化文本信息和类目信息,抽取产品的标签,有效提升了产品标签对产品信息表达的准确度。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种产品标签确定方法及装置,电子设备。
背景技术
产品标签作为产品的一个属性,在搜索和推荐领域具有重要的价值。搜索和推荐引擎可以根据产品标签与查询词的匹配度,确定更加丰富和准确的查询结果。现有技术中,主要通过用户行为的方式对设置产品的产品标签。例如,将搜索成单的搜索词作为成单的产品的产品标签,或者取出商品名字的一部分作为产品的产品标签。现有技术中的产品标签确定方法具有一定的局限性,比如,对没有用户行为的产品则无法确定产品标签,存在冷启动和数据稀疏的问题。另一方便,在一些应用场景中(如在美食的场景),有些产品取名比较文艺,例如蛋糕的名字为“福如东海”,如果直接将“福如东海”作为产品的产品标签,将无法搜索到目标蛋糕。
综上,现有技术中的产品标签确定方法至少存在对产品信息表达不准确的缺陷。
发明内容
本申请提供一种产品标签确定方法,至少解决现有技术中存在的确定的产品标签对产品信息表达不准确的问题。
为了解决上述问题,第一方面,本申请实施例提供了一种产品标签确定方法包括:
确定目标产品的序列化文本信息和类目信息;
确定表示所述序列化文本信息的第一向量和表示所述类目信息的第二向量;
将所述第一向量和所述第二向量输入至预先训练的标签预测模型,确定所述目标产品的标签。
第二方面,本申请实施例提供了一种产品标签确定装置,包括:
待识别信息确定模块,用于确定目标产品的序列化文本信息和类目信息;
输入向量确定模块,用于确定表示所述序列化文本信息的第一向量和表示所述类目信息的第二向量;
标签预测模块,用于将所述第一向量和所述第二向量输入至预先训练的标签预测模型,确定所述目标产品的标签。
第三方面,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的产品标签确定方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的产品标签确定方法的步骤。
本申请的实施例公开的产品标签确定方法,通过确定目标产品的序列化文本信息和类目信息,然后,确定表示所述序列化文本信息的第一向量和表示所述类目信息的第二向量,最后,将所述第一向量和所述第二向量输入至预先训练的标签预测模型,确定所述目标产品的标签,解决了现有技术中存在的确定的产品标签对产品信息表达不准确的问题。本申请的实施例公开的产品标签确定方法,通过结合产品的序列化文本信息和类目信息,抽取产品的标签,有效提升了产品标签对产品信息表达的准确度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一的产品标签确定方法流程图;
图2是本申请实施例二的产品标签确定方法流程图;
图3是本申请实施例二的产品标签确定方法中标签预测模型结构示意图;
图4是本申请实施例三的产品标签确定装置结构示意图之一;
图5是本申请实施例三的产品标签确定装置的结构示意图之二。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
本实施例公开了一种产品标签确定方法,如图1所示,该方法包括:步骤110至步骤130。
步骤110,确定目标产品的序列化文本信息和类目信息。
本申请的实施例中,目标产品是指待确定标签的产品,目标产品的序列号文本信息包括:目标产品的名称、描述信息等,目标产品的类目信息包括目标产品所属的一级类目,二级类目,三级类目等类别信息。
具体实施时,通过平台接口可以获取到目标产品的序列号,文本信息和类目信息。
步骤120,确定表示所述序列化文本信息的第一向量和表示所述类目信息的第二向量。
本申请在具体实施时,通过将目标产品的序列化文本信息以及类目信息通过字向量表示,将目标产品的高维特征,转化为低维特征进行标签推荐,在便于通过模型进行标签推荐的同时,可以提升计算效率。具体实施时,表示成单产品的序列化文本信息的第一向量和表示所述成单产品的类目信息的第二向量,可以通过预先训练字向量模型获得,也可以通过现有技术中的文本向量提取方法(如skip-gram、fasttext)获得。
当通过预先训练字向量模型确定成单产品的文本信息(包括序列化文本信息和类目信息)的字向量时,首先需要根据查询词对应的用户行为序列所操作产品的序列化文本信息生成语料库,然后,基于生成的语料库训练(word2vec)字向量模型。
步骤130,将所述第一向量和所述第二向量输入至预先训练的标签预测模型,确定所述目标产品的标签。
序列化文本信息通常是从目标产品的名字和详细信息维度对目标产品进行刻画,而类目信息是从类别维度对目标产品进行刻画,将序列化文本信息和类目信息结合,后输入至预先训练的标签预测模型,可以通过更加丰富的产品信息,确定所述目标产品的标签,以提升确定的标签的准确性。
本申请具体实施时,首先根据平台上成单产品的查询词、序列化文本信息的向量和类目信息,构造训练样本,将表示序列化文本信息的第一向量和表示类目信息的第二向量作为样本输入部分,将查询词作为样本输出部分,并基于所述训练样本训练标签预测模型。然后,在标签推荐过程中,通过将目标产品的表示序列化文本信息的第一向量和表示所述类目信息的第二向量输入至预先训练的标签预测模型,确定所述目标产品的标签。
本申请的实施例公开的产品标签确定方法,通过确定目标产品的序列化文本信息和类目信息,然后,确定表示所述序列化文本信息的第一向量和表示所述类目信息的第二向量,最后,将所述第一向量和所述第二向量输入至预先训练的标签预测模型,确定所述目标产品的标签,解决了现有技术中存在的确定的产品标签对产品信息表达不准确的问题。本申请的实施例公开的产品标签确定方法,通过结合产品的序列化文本信息和类目信息,抽取产品的标签,有效提升了产品标签对产品信息表达的准确度。
实施例二
本实施例公开了一种产品标签确定方法,如图2所示,该方法包括:步骤210至步骤250。
步骤210,根据搜索日志生成训练预料,并训练字向量模型。
本实施例中,以通过预先训练字向量模型确定成单产品的序列化文本信息的字向量为例,阐述产品标签确定方法。具体实施时,根据查询词对应的用户行为序列所操作产品的序列化文本信息,构建语料库,并基于所述语料库训练字向量模型。
例如,用户A在某一平台的美食频道输入查询词“西红柿”后,平台召回了“西红柿”、“西红柿炒鸡蛋”、“西红柿炖牛肉”,之后,用户点击了“西红柿炒鸡蛋”和“西红柿炖牛肉”,则将“西红柿炒鸡蛋”、西红柿炒鸡蛋的序列化文本信息(如详细描述)、“西红柿炖牛肉”,以及西红柿炖牛肉的序列化文本信息,组合为一条语料,加入字向量模型的语料库。
最后,基于字向量模型的语料库训练word2vec模型,以得到字向量模型。word2vec模型的具体训练方法参见现有技术,本实施例中不再赘述。
步骤220,根据成单产品的关联信息构建训练样本,并训练标签预测模型。
具体实施时,所述根据成单产品的关联信息构建训练样本,包括:将成单产品的表示序列化文本信息的第一向量和表示类目信息的第二向量,作为标签预测模型的输入,将所述成单产品的查询词作为所述标签预测模型的输出,构建一条有监督训练样本。
本申请的实施例中所述的成单产品是指用户通过查询词进行查询后,购买的基于该查询词召回的产品。每一个成单产品,都会对应一个或多个查询词。具体实施时,通过对平台的日志数据进行分析处理,可以确定平台的成单产品,以及所述成单产品的关联信息。其中,所述成单产品的关联信息包括但不限于:成单产品对应的查询词、成单产品的序列化文本信息(如名称、详细介绍)和类目信息。
例如,用户A在某一平台的美食频道输入查询词“西红柿”后,平台召回了“西红柿”、“西红柿炒鸡蛋”、“西红柿炖牛肉”,之后,用户购买了“西红柿炖牛肉”这道菜,那么,“西红柿炖牛肉”就是根据平台的日志数据确定的一个成单产品,该成单产品对应的查询词为“西红柿”。再例如,用户A在某一平台的美食频道输入查询词“牛肉”后,平台召回了“牛肉”、“牛肉烧土豆”、“西红柿炖牛肉”,之后,用户购买了“西红柿炖牛肉”这道菜,那么,“西红柿炖牛肉”就是根据平台的日志数据确定的一个成单产品,该成单产品对应的查询词为“牛肉”。基于上述日志数据,可以确定成单产品“西红柿炖牛肉”对应的查询词包括:“西红柿”和“牛肉”。
进一步的,平台日志数据中还会记录成单产品的类目信息,如成单产品“西红柿炖牛肉”对应的类目信息包括:美食、荤菜、炖菜。
通过对平台的成单记录进行分析,可以确定每个成单产品对应的查询词,进一步的,还可以确定每个成单产品的表示序列化文本信息的第一向量和表示类目信息的第二向量。具体实施时,对于每个成单产品,首先通过预先训练的字向量模型确定该成单产品的表示序列化文本信息的第一向量和表示类目信息的第二向量,然后,将该成单产品的所述第一向量和所述第二向量,作为样本输入部分,将该成单产品的查询词做为对应样本的样本输出部分(即样本标签),生成一条训练样本。
按照上述方法,根据成单记录生成若干训练样本,然后,基于所述训练样本进行有监督训练,最终得到标签预测模型。
优选的,所述根据成单产品的关联信息构建训练样本,包括:确定成单产品与查询词的关联关系;当成单产品关联的查询词数量大于第一数量阈值时,确定与所述成单产品的序列化文本信息包含相同文字的所述查询词,作为所述成单产品对应的产品标签;否则,确定所述查询词作为所述成单产品对应的产品标签;当所述产品标签对应的成单产品数量大于第二数量阈值时,将所述成单产品的表示序列化文本信息的第一向量和表示类目信息的第二向量,作为标签预测模型的输入,将所述产品标签作为所述标签预测模型的输出,构建一条有监督训练样本。
在一种情况中,通常会出现某一个成单产品对应多个查询词的情况,即输入该成单产品对应的每个查询词,都可以召回该成单产品,在这种情况下,为了提升训练得到的标签预测模型的准确性,需要对该成单产品的查询词进行筛选,准确确定该成单产品的产品标签。具体实施时,当成单产品关联的查询词数量大于第一数量阈值(如5个)时,确定与所述成单产品的序列化文本信息包含相同文字的所述查询词,作为所述成单产品对应的产品标签。例如,成单产品“米饭”对应得查询词包括:酸菜鱼、烧茄子、豆角、米饭,则通过上述规则对查询词进行筛选后,确定查询词“米饭”作为成单产品“米饭”的产品标签。
在另一种情况中,会出现一个查询词对应很少成单产品,在这种情况下,可能是因为查询词不够准确,将不会根据该查询词和成单产品的对应关系训练标签预测模型。具体实施时,在确定了成单产品对应的产品标签之后,需要进一步判断每个产品标签对应的成单产品的数量,只有当所述产品标签对应的成单产品数量大于第二数量阈值(如2个)时,才根据所述产品标签和该产品标签对应的成单产品的表示序列化文本信息的第一向量和表示类目信息的第二向量,生成训练样本,用于训练标签预测模型。
进一步的,基于生成的训练样本,训练标签预测模型。
具体实施时,如图3所示,所述标签预测模型由序列到序列模型310和卷积神经网络组成320。所述序列到序列模型为加入注意力机制的序列到序列模型。如图3所示,所述标签预测模型的工作原理如下:将产品的所述第一向量输入至所述序列到序列模型310的编码器3101,以及,将所述第二向量输入至所述卷积神经网络320;然后,控制所述标签预测模型将所述编码器3101输出的隐层向量和所述卷积神经网络320的隐层向量合并后,输入至所述序列到序列模型310的解码器3102;根据所述解码器3102的输出确定所述目标产品的标签。
序列到序列模型(seq2seq模型)是通过神经网络模型(如LSTM),将输入的序列映射成与之对应的输出序列,这个过程由编码(encode)和解码(decode)两部分组成。其中,编码过程通过编码器实现,解码过程通过解码器实现。
通常,编码器可以表示为:
其中,xt为t层的输入特征向量,ht为t层的输出特征向量,ht-1为t-1层的预测值,c为编码器的输出。
在seq2seq模型中,编码过程就是将不同长度的输入序列x通过循环神经网络编码成抽象特征向量c,其中,x为输入的文本,h为隐层向量。特征向量c一般为循环神经网络中的最后的节点的隐层向量。具体实施时,也可以将各隐节点的隐层向量的加权和作为特征向量c,即加入注意力机制。
通常,解码器可以表示为:
P(yt|y1,…,yt-1,c)=p(yt-1,st,c),st=g(yt-1,st-1,c),其中,解码器将由编码抽象得到的特征向量c,通过循环神经网络进行解码,即翻译为目标序列Y。解码的过程,就是使用贪心算法求得局部最优解的过程。解码器使用函数p表示输出yt的概率,其中st为t时刻解码器的隐层变量,g为循环神经网络的单元。
上述seq2seq模型通常应用于翻译领域,如将中文翻译为英文。本申请的目的是根据产品的相关信息确定产品的标签,与翻译有本质区别,通过现有技术中的seq2seq模型无法确定准确、全面反映产品信息的标签。因此,本申请在具体实施时,对现有技术中的seq2seq模型进行改造,通过增加注意力机制和与卷积神经网络结合,构造标签预测模型。
改进后的标签预测模型如图3所示,图3中,对于每条训练样本,将训练样本中产品的序列化文本的向量输入至序列到序列模型310的编码器3101,编码器3101将输出编码后的隐层向量,并通过注意力机制,得到第一特征向量;将训练样本中产品的第二向量输入至卷积神经网络320,取卷积神经网络320的最后一层的隐层向量作为与所述类目信息对应的第二特征向量;然后,将所述第一特征向量和第二特征向量拼接为一个第三特征向量;最后,将所述第三特征向量作为序列到序列模型310的解码器3102的输入,解码器3102将预测出与该条训练样本对应的产品标签。具体实施时,标签预测模型可以表示为:
其中,yt为t时刻解码器的输出;c为x1,…,xN经过编码器编码和attention机制处理后得到的隐层向量,通过公式ht=f(xt,ht-1)得到;e=q(z1,…,zM),e为第二向量z1,…,zM通过卷积神经网络卷积处理后得到的隐层向量。具体实施时,通过最大化 确定标签预测模型的最优参数,完成模型训练。
本申请具体实施时,卷积神经网络可以选择一层的卷积神经网络,并通过最大池化层(max-pooling)选择最具有代表性的语义表示,作为所述卷积神经网络输出的隐层向量。
加入注意力机制(attention机制)后,seq2seq模型在解码阶段可以从抽象出的特征向量中选择出贡献度较大的特征进行后续处理,并在解码每个输出时,可以充分使用输入序列的所有信息。为了更好的理解attention机制,本实施例通过一个美食标签推荐的实例对采用注意力机制的序列到序列模型的作用进行解释说明。比如产品的名字为“麻辣小火锅”,经标签预测模型进行预测之后,得到的标签为“川菜”,attention机制的作用就是标识出“麻辣小火锅”中的每个字对模型解码结果“川菜”贡献度。本例中,通过attention机制可以确定“麻辣”两个字的贡献度要高于“小火锅”。
通过将序列到序列模型与卷积神经网络结合,将产品的类目信息融入到产品标签中,可以提升产品标签预测的准确性。比如对于产品“橙子”,如果在进行标签预测时输入的类目信息为饮品,则通过本申请训练的标签预测模型进行预测,得到的标签将为“橙汁”,如果在进行标签预测时输入的类目信息为果蔬,则通过本申请训练的标签预测模型进行预测,得到的标签将为“橙子”。
步骤230,确定目标产品的序列化文本信息和类目信息。
本申请的实施例中,目标产品是指待确定标签的产品,目标产品的序列号文本信息包括:目标产品的名称、描述信息等,目标产品的类目信息包括目标产品所属的一级类目,二级类目,三级类目等类别信息。
具体实施时,通过平台接口可以获取到目标产品的序列号,文本信息和类目信息。
步骤240,确定表示所述序列化文本信息的第一向量和表示所述类目信息的第二向量。
本实施例中,所述确定表示所述序列化文本信息的第一向量和表示所述类目信息的第二向量,包括:通过所述字向量模型确定表示所述序列化文本信息的第一向量和表示所述类目信息的第二向量。
本申请通过将目标产品的序列化文本信息以及类目信息通过字向量表示,将目标产品的高维特征,转化为低维特征进行标签推荐,在便于通过模型进行标签推荐的同时,可以提升计算效率。
步骤250,将所述第一向量和所述第二向量输入至预先训练的标签预测模型,确定所述目标产品的标签。
具体实施时,所述将所述第一向量和所述第二向量输入至预先训练的标签预测模型,确定所述目标产品的标签,包括:将所述第一向量输入至所述序列到序列模型的编码器,以及,将所述第二向量输入至所述卷积神经网络;将所述编码器输出的隐层向量和所述卷积神经网络的隐层向量合并后,输入至所述序列到序列模型的解码器;根据所述解码器的输出确定所述目标产品的标签。
具体实施时,假设目标产品的序列化信息为“西红柿炒鸡蛋,原料为有机西红柿和柴鸡蛋”,类目信息为:炒菜,下面详细介绍确定目标产品的标签的过程。首先,通过预先训练的字向量模型,确定目标产品的序列化信息为“西红柿炒鸡蛋,原料为有机西红柿和柴鸡蛋”的字向量,表示为vec;然后,将vec输入至预先训练的标签预测模型中序列到序列模型的编码器,将类目信息“炒菜”的向量输入至预先训练的标签预测模型中卷积神经网络;最后,所述标签预测模型将输出所述目标产品的标签,例如“西红柿”、“鸡蛋”,“西红柿鸡蛋”。
本申请具体实施时,首先根据平台上成单产品的查询词、表示序列化文本信息的第一向量和表示类目信息的第二向量,构造训练样本,将第一向量和第二向量作为样本的输入部分,将查询词作为样本的输出部分,即样本标签,并基于所述训练样本训练标签预测模型。然后,在标签推荐过程中,通过将目标产品的表示序列化文本信息的第一向量和表示所述类目信息的第二向量输入至预先训练的标签预测模型,确定所述目标产品的标签。
本申请的实施例公开的产品标签确定方法,通过首先根据成单产品的关联信息构建训练样本,并训练标签预测模型,在具体标签确定过程中,确定目标产品的序列化文本信息和类目信息之后,确定表示所述序列化文本信息的第一向量和表示所述类目信息的第二向量,最后,将所述第一向量和所述第二向量输入至预先训练的标签预测模型,确定所述目标产品的标签,解决了现有技术中存在的确定的产品标签对产品信息表达不准确的问题。
序列化文本信息通常是从目标产品的名字和详细信息维度对目标产品进行刻画,而类目信息是从类别维度对目标产品进行刻画,本申请的实施例公开的产品标签确定方法,通过结合产品的序列化文本信息和类目信息,抽取产品的标签,将序列化文本信息和类目信息结合后输入至预先训练的标签预测模型,可以通过更加丰富的产品信息,确定所述目标产品的标签,以提升确定的标签的准确性。
实施例三
本实施例公开的一种产品标签确定装置,如图4所示,所述装置包括:
待识别信息确定模块410,用于确定目标产品的序列化文本信息和类目信息;
输入向量确定模块420,用于确定表示所述序列化文本信息的第一向量和表示所述类目信息的第二向量;
标签预测模块430,用于将所述第一向量和所述第二向量输入至预先训练的标签预测模型,确定所述目标产品的标签。
本申请的实施例公开的产品标签确定装置,通过确定目标产品的序列化文本信息和类目信息,然后,确定表示所述序列化文本信息的第一向量和表示所述类目信息的第二向量,最后,将所述第一向量和所述第二向量至预先训练的标签预测模型,确定所述目标产品的标签,解决了现有技术中存在的确定的产品标签对产品信息表达不准确的问题。本申请的实施例公开的产品标签确定方法,通过结合产品的序列化文本信息和类目信息,抽取产品的标签,有效提升了产品标签对产品信息表达的准确度。
可选的,所述标签预测模型由序列到序列模型和卷积神经网络组成,所述标签预测模块430进一步用于:
将所述第一向量输入至所述序列到序列模型的编码器,以及,将所述第二向量输入至所述卷积神经网络;
将所述编码器输出的隐层向量和所述卷积神经网络的隐层向量合并后,输入至所述序列到序列模型的解码器;
根据所述解码器的输出确定所述目标产品的标签。
通过将序列到序列模型与卷积神经网络结合,将产品的类目信息融入到产品标签中,可以提升产品标签预测的准确性。
可选的,所述序列到序列模型为加入注意力机制的序列到序列模型。
可选的,如图5所示,所述装置还包括:
标签预测模型训练模块440,用于根据成单产品的关联信息构建训练样本,并训练标签预测模型。
可选的,所述标签预测模型训练模块440进一步用于:
将成单产品的表示序列化文本信息的第一向量和表示类目信息的第二向量,作为标签预测模型的输入,将所述成单产品的查询词作为所述标签预测模型的输出,构建一条有监督训练样本。
可选的,在另一个具体实施例中,所述标签预测模型训练模块440进一步用于:
确定成单产品与查询词的关联关系;
当成单产品关联的查询词数量大于第一数量阈值时,确定与所述成单产品的序列化文本信息包含相同文字的所述查询词,作为所述成单产品对应的产品标签;否则,确定所述查询词作为所述成单产品对应的产品标签;
当所述产品标签对应的成单产品数量大于第二数量阈值时,将所述成单产品的表示序列化文本信息的第一向量和表示类目信息的第二向量,作为标签预测模型的输入,将所述产品标签作为所述标签预测模型的输出,构建一条有监督训练样本。
可选的,如图5所示,所述装置还包括:
字向量模型训练模块450,用于根据查询词对应的用户行为序列所操作产品的序列化文本信息,构建语料库,并基于所述语料库训练字向量模型;
所述输入向量确定模块420,进一步用于:
通过所述字向量模型确定表示所述序列化文本信息的第一向量和表示所述类目信息的第二向量。
本实施例中公开的产品标签确定装置,用于实现实施例一和实施例二中所述的产品标签确定方法,所述产品标签确定装置的各个模块的具体实施方式参见实施例一和实施例二相应的方法步骤,本实施例不再赘述。
本申请的实施例公开的产品标签确定装置,通过首先根据成单产品的关联信息构建训练样本,并训练标签预测模型,在具体标签确定过程中,确定目标产品的序列化文本信息和类目信息之后,确定表示所述序列化文本信息的第一向量和表示所述类目信息的第二向量,最后,将所述第一向量和所述第二向量输入至预先训练的标签预测模型,确定所述目标产品的标签,解决了现有技术中存在的确定的产品标签对产品信息表达不准确的问题。
序列化文本信息通常是从目标产品的名字和详细信息维度对目标产品进行刻画,而类目信息是从类别维度对目标产品进行刻画,本申请的实施例公开的产品标签确定装置,通过结合产品的序列化文本信息和类目信息,抽取产品的标签,将序列化文本信息和类目信息结合,后输入至预先训练的标签预测模型,可以通过更加丰富的产品信息,确定所述目标产品的标签,以提升确定的标签的准确性。
本申请的实施例中,第一向量和第二向量分别由所述序列化文本信息中的文字的字向量和所述类目信息中文字的字向量组成。具体实施时,也可以分别由所述序列化文本信息中的词语的词向量和所述类目信息中词语的词向量组成,都可以达到本申请的效果。
相应的,本申请还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例一和实施例二所述的产品标签确定方法。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。
本申请还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例一和实施例二所述的产品标签确定方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请提供的一种产品标签确定方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
Claims (16)
1.一种产品标签确定方法,其特征在于,包括:
确定目标产品的序列化文本信息和类目信息;
确定表示所述序列化文本信息的第一向量和表示所述类目信息的第二向量;
将所述第一向量和所述第二向量输入至预先训练的标签预测模型,确定所述目标产品的标签。
2.根据权利要求1所述的方法,其特征在于,所述标签预测模型由序列到序列模型和卷积神经网络组成,所述将所述第一向量和所述第二向量输入至预先训练的标签预测模型,确定所述目标产品的标签的步骤,包括:
将所述第一向量输入至所述序列到序列模型的编码器,以及,将所述第二向量输入至所述卷积神经网络;
将所述编码器输出的隐层向量和所述卷积神经网络的隐层向量合并后,输入至所述序列到序列模型的解码器;
根据所述解码器的输出确定所述目标产品的标签。
3.根据权利要求2所述的方法,其特征在于,所述序列到序列模型为加入注意力机制的序列到序列模型。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述将所述第一向量和所述第二向量输入至预先训练的标签预测模型的步骤之前,还包括:
根据成单产品的关联信息构建训练样本,并训练标签预测模型。
5.根据权利要求4所述的方法,其特征在于,所述根据成单产品的关联信息构建训练样本的步骤,包括:
将成单产品的表示序列化文本信息的第一向量和表示类目信息的第二向量,作为标签预测模型的输入,将所述成单产品的查询词作为所述标签预测模型的输出,构建一条有监督训练样本。
6.根据权利要求4所述的方法,其特征在于,所述根据成单产品的关联信息构建训练样本的步骤,包括:
确定成单产品与查询词的关联关系;
当成单产品关联的查询词数量大于第一数量阈值时,确定与所述成单产品的序列化文本信息包含相同文字的所述查询词,作为所述成单产品对应的产品标签;否则,确定所述查询词作为所述成单产品对应的产品标签;
当所述产品标签对应的成单产品数量大于第二数量阈值时,将所述成单产品的表示序列化文本信息的第一向量和表示类目信息的第二向量,作为标签预测模型的输入,将所述产品标签作为所述标签预测模型的输出,构建一条有监督训练样本。
7.根据权利要求1所述的方法,其特征在于,所述确定表示所述序列化文本信息的第一向量和表示所述类目信息的第二向量的步骤之前,还包括:
根据查询词对应的用户行为序列所操作产品的序列化文本信息,构建语料库,并基于所述语料库训练字向量模型;
所述确定表示所述序列化文本信息的第一向量和表示所述类目信息的第二向量的步骤,包括:
通过所述字向量模型确定表示所述序列化文本信息的第一向量和表示所述类目信息的第二向量。
8.一种产品标签确定装置,其特征在于,包括:
待识别信息确定模块,用于确定目标产品的序列化文本信息和类目信息;
输入向量确定模块,用于确定表示所述序列化文本信息的第一向量和表示所述类目信息的第二向量;
标签预测模块,用于将所述第一向量和所述第二向量输入至预先训练的标签预测模型,确定所述目标产品的标签。
9.根据权利要求8所述的装置,其特征在于,所述标签预测模型由序列到序列模型和卷积神经网络组成,所述标签预测模块进一步用于:
将所述第一向量输入至所述序列到序列模型的编码器,以及,将所述第二向量输入至所述卷积神经网络;
将所述编码器输出的隐层向量和所述卷积神经网络的隐层向量合并后,输入至所述序列到序列模型的解码器;
根据所述解码器的输出确定所述目标产品的标签。
10.根据权利要求9所述的装置,其特征在于,所述序列到序列模型为加入注意力机制的序列到序列模型。
11.根据权利要求8至10任一项所述的装置,其特征在于,还包括:
标签预测模型训练模块,用于根据成单产品的关联信息构建训练样本,并训练标签预测模型。
12.根据权利要求11所述的装置,其特征在于,所述标签预测模型训练模块进一步用于:
将成单产品的表示序列化文本信息的第一向量和表示类目信息的第二向量,作为标签预测模型的输入,将所述成单产品的查询词作为所述标签预测模型的输出,构建一条有监督训练样本。
13.根据权利要求11所述的装置,其特征在于,所述标签预测模型训练模块进一步用于:
确定成单产品与查询词的关联关系;
当成单产品关联的查询词数量大于第一数量阈值时,确定与所述成单产品的序列化文本信息包含相同文字的所述查询词,作为所述成单产品对应的产品标签;否则,确定所述查询词作为所述成单产品对应的产品标签;
当所述产品标签对应的成单产品数量大于第二数量阈值时,将所述成单产品的表示序列化文本信息的第一向量和表示类目信息的第二向量,作为标签预测模型的输入,将所述产品标签作为所述标签预测模型的输出,构建一条有监督训练样本。
14.根据权利要求8所述的装置,其特征在于,还包括:
字向量模型训练模块,用于根据查询词对应的用户行为序列所操作产品的序列化文本信息,构建语料库,并基于所述语料库训练字向量模型;
所述输入向量确定模块,进一步用于:
通过所述字向量模型确定表示所述序列化文本信息的第一向量和表示所述类目信息的第二向量。
15.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任意一项所述的产品标签确定方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7任意一项所述的产品标签确定方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810589804.8A CN110580285B (zh) | 2018-06-08 | 2018-06-08 | 一种产品标签确定方法及装置,电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810589804.8A CN110580285B (zh) | 2018-06-08 | 2018-06-08 | 一种产品标签确定方法及装置,电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110580285A true CN110580285A (zh) | 2019-12-17 |
CN110580285B CN110580285B (zh) | 2021-09-24 |
Family
ID=68809125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810589804.8A Active CN110580285B (zh) | 2018-06-08 | 2018-06-08 | 一种产品标签确定方法及装置,电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110580285B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800248A (zh) * | 2021-01-19 | 2021-05-14 | 天河超级计算淮海分中心 | 相似病例检索方法、装置、计算机设备及存储介质 |
CN113743430A (zh) * | 2020-05-29 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | 标签匹配度检测模型的建立方法及装置、存储介质及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9830315B1 (en) * | 2016-07-13 | 2017-11-28 | Xerox Corporation | Sequence-based structured prediction for semantic parsing |
CN107436922A (zh) * | 2017-07-05 | 2017-12-05 | 北京百度网讯科技有限公司 | 文本标签生成方法和装置 |
CN107783960A (zh) * | 2017-10-23 | 2018-03-09 | 百度在线网络技术(北京)有限公司 | 用于抽取信息的方法、装置和设备 |
CN107836000A (zh) * | 2015-07-07 | 2018-03-23 | 触摸式有限公司 | 用于语言建模和预测的改进的人工神经网络 |
CN108073677A (zh) * | 2017-11-02 | 2018-05-25 | 中国科学院信息工程研究所 | 一种基于人工智能的多级文本多标签分类方法及系统 |
-
2018
- 2018-06-08 CN CN201810589804.8A patent/CN110580285B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107836000A (zh) * | 2015-07-07 | 2018-03-23 | 触摸式有限公司 | 用于语言建模和预测的改进的人工神经网络 |
US9830315B1 (en) * | 2016-07-13 | 2017-11-28 | Xerox Corporation | Sequence-based structured prediction for semantic parsing |
CN107436922A (zh) * | 2017-07-05 | 2017-12-05 | 北京百度网讯科技有限公司 | 文本标签生成方法和装置 |
CN107783960A (zh) * | 2017-10-23 | 2018-03-09 | 百度在线网络技术(北京)有限公司 | 用于抽取信息的方法、装置和设备 |
CN108073677A (zh) * | 2017-11-02 | 2018-05-25 | 中国科学院信息工程研究所 | 一种基于人工智能的多级文本多标签分类方法及系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743430A (zh) * | 2020-05-29 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | 标签匹配度检测模型的建立方法及装置、存储介质及设备 |
CN112800248A (zh) * | 2021-01-19 | 2021-05-14 | 天河超级计算淮海分中心 | 相似病例检索方法、装置、计算机设备及存储介质 |
CN112800248B (zh) * | 2021-01-19 | 2022-08-05 | 天河超级计算淮海分中心 | 相似病例检索方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110580285B (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bandi et al. | The power of generative ai: A review of requirements, models, input–output formats, evaluation metrics, and challenges | |
US11501182B2 (en) | Method and apparatus for generating model | |
Malmaud et al. | What's cookin'? interpreting cooking videos using text, speech and vision | |
US20180293499A1 (en) | Unsupervised neural attention model for aspect extraction | |
CN110298436B (zh) | 基于指针生成网络的数据到文本的生成模型 | |
CN108694647B (zh) | 一种商户推荐理由的挖掘方法及装置,电子设备 | |
CN116821308B (zh) | 生成方法、模型的训练方法、设备及存储介质 | |
CN109857844B (zh) | 基于点餐对话文本的意图识别方法、装置、电子设备 | |
CN110782308B (zh) | 推荐套餐的推送方法、装置、电子设备及可读存储介质 | |
CN109582952A (zh) | 诗歌生成方法、装置、计算机设备和介质 | |
CN107832300A (zh) | 面向微创医疗领域文本摘要生成方法及装置 | |
Nishimura et al. | Structure-aware procedural text generation from an image sequence | |
JP6920136B2 (ja) | 情報処理システム | |
JP2018180937A (ja) | クラスタリング装置、回答候補生成装置、方法、及びプログラム | |
CN110580285B (zh) | 一种产品标签确定方法及装置,电子设备 | |
KR20220151453A (ko) | 상품의 가격 예측 방법 | |
CN110909021A (zh) | 查询改写模型的构建方法、装置及其应用 | |
Chhikara et al. | Fire: Food image to recipe generation | |
CN117520793A (zh) | 意图槽位识别模型的生成方法、装置、及电子设备 | |
CN110738051A (zh) | 菜名实体识别方法、装置、电子设备及存储介质 | |
KR20210017973A (ko) | 샴쌍둥이 네트워크를 이용한 식재료 페어링 예측 방법 및 서버 | |
Zhang et al. | Sequential learning for ingredient recognition from images | |
CN109919699B (zh) | 项目推荐方法、项目推荐系统以及计算机可读介质 | |
CN114519353B (zh) | 模型的训练方法、情感消息生成方法和装置、设备、介质 | |
CN113157892B (zh) | 用户意图处理方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |