发明内容
本公开提供一种商品关键词的识别方法及装置,以至少解决现有技术中存在的以上技术问题。
本公开一方面提供一种商品关键词的识别方法,包括:
确定目标关键词映射的所有样本商品;
获取所述样本商品对应的多种文本数据,所述文本数据包括:标题文本数据、标签文本数据和评论文本数据;
获取每种所述文本数据的多个初始词向量;
根据每种所述文本数据的多个初始词向量,确定每种所述文本数据的一个第一词向量;
根据所述目标关键词的词向量和每种所述文本数据的多个初始词向量,确定每种所述文本数据的一个第二词向量;
构建所述样本商品对应的样本数据,所述样本数据包括:所述目标关键词的词向量、每种所述文本数据的第一词向量和第二词向量和所述样本商品的属性特征;
根据所述目标关键词映射的所有样本商品对应的样本数据,训练所述目标关键词对应的二分类模型;
构建目标商品对应的目标数据,所述目标数据包括:所述目标关键词的词向量、所述目标商品对应的每种所述文本数据的第一词向量和第二词向量和所述目标商品的属性特征;
通过所述二分类模型对所述目标数据进行计算,确定所述目标关键词是否为所述目标商品的关键词。
在一可实施方式中,所述文本数据为标题文本数据或标签文本数据时,获取所述文本数据的多个初始词向量,包括:
获取样本商品对应的所有初始关键词,所述初始关键词包括所述目标关键词;
对于每个所述初始关键词:从所述文本数据中去除该初始关键词,并构建对应的滑动窗口,通过该滑动窗口对去除了该初始关键词的文本数据进行采集,得到该初始关键词对应的训练样本,根据所述训练样本得到该初始关键词对应的初始词向量集合,所述初始词向量集合包括至少一个初始词向量:
所有初始关键词对应的初始词向量集合组成了所述文本数据的多个初始词向量。
在一可实施方式中,所述根据每种所述文本数据的多个初始词向量,确定每种所述文本数据的一个第一词向量,包括:
根据所述标题文本数据对应的所有初始词向量和每个初始词向量的权重,得到所述标题文本数据对应的一个第一词向量;
根据所述标签文本数据对应的所有初始词向量,得到所述标签文本数据中每个标签对应的中间词向量,根据所述中间词向量和中间词向量的权重,得到所述标签文本数据对应的一个第一词向量;
计算每条所述评论文本数据对应的权重,根据所述权重和所述评论文本数据对应的初始词向量,得到所有评论文本数据对应的一个第一词向量。
在一可实施方式中,所述根据所述标签文本数据对应的所有初始词向量,得到所述标签文本数据中每个标签对应的中间词向量,包括:
获取每个标签对应的所有初始词向量;
对每个标签对应的所有初始词向量进行求和,再除以每个标签对应的所有初始词向量的个数,得到所述标签文本数据中每个标签对应的中间词向量。
在一可实施方式中,所述根据所述目标关键词的词向量和每种所述文本数据的多个初始词向量,确定每种所述文本数据的一个第二词向量,包括:
所述文本数据为标题文本数据或评论文本数据时,计算所述目标关键词的词向量和所述文本数据的每个初始词向量的相似度,按照相似度从大到小选取设定数量的初始词向量,根据选取的多个初始词向量,确定所述文本数据的一个第二词向量;
所述文本数据为标签文本数据时,计算所述目标关键词的词向量和所述文本数据的每个中间词向量的相似度,按照相似度从大到小选取设定数量的中间词向量,根据选取的多个中间词向量,确定所述文本数据的一个第二词向量。
在一可实施方式中,所述确定目标关键词映射的所有样本商品,包括:
根据样本商品的属性特征对样本商品进行聚类处理,得到多个簇,将同一个簇中的多个样本商品映射到同一所述目标关键词。
本公开另一方面提供一种商品关键词的识别装置,包括:
获取模块,用于确定目标关键词映射的所有样本商品;
获取所述样本商品对应的多种文本数据,所述文本数据包括:标题文本数据、标签文本数据和评论文本数据;
还用于获取每种所述文本数据的多个初始词向量;
处理模块,用于根据每种所述文本数据的多个初始词向量,确定每种所述文本数据的一个第一词向量;
根据所述目标关键词的词向量和每种所述文本数据的多个初始词向量,确定每种所述文本数据的一个第二词向量;
还用于构建所述样本商品对应的样本数据,所述样本数据包括:所述目标关键词的词向量、每种所述文本数据的第一词向量和第二词向量和所述样本商品的属性特征;
训练模块,用于根据所述目标关键词映射的所有样本商品对应的样本数据,训练所述目标关键词对应的二分类模型;
计算模块,用于构建目标商品对应的目标数据,所述目标数据包括:所述目标关键词的词向量、所述目标商品对应的每种所述文本数据的第一词向量和第二词向量和所述目标商品的属性特征;
还用于通过所述二分类模型对所述目标数据进行计算,确定所述目标关键词是否为所述目标商品的关键词。
在一可实施方式中,所述获取模块还用于获取样本商品对应的所有初始关键词,所述初始关键词包括所述目标关键词;
对于每个所述初始关键词:从所述文本数据中去除该初始关键词,并构建对应的滑动窗口,通过该滑动窗口对去除了该初始关键词的文本数据进行采集,得到该初始关键词对应的训练样本,根据所述训练样本得到该初始关键词对应的初始词向量集合,所述初始词向量集合包括至少一个初始词向量:
所有初始关键词对应的初始词向量集合组成了所述文本数据的多个初始词向量。
本公开再一方面提供一种电子设备,包括:存储器和处理器,所述存储器存储由所述处理器可执行的计算机程序,所述处理器执行所述计算机程序时实现上述商品关键词的识别方法。
本公开还一方面提供一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被读取并执行时,实现上述商品关键词的识别方法。
基于上述方案,本公开提供一种商品关键词的识别方法,获取关键词映射下的样本商品的属性特征和文本数据特征,文本数据特征包括能够反应商品有效信息的标题文本数据、评论文本数据和标签文本数据,通过对文本数据特征进行处理,得到能够进一步表征文本数据特征语义的第一词向量和第二词向量,以第一词向量、第二词向量、关键词的词向量以及反应样本商品更细致信息的属性特征作为样本数据,训练出用于识别目标关键词是否为目标商品的关键词的二分类模型,通过训练多个针对不同目标关键词进行识别的二分类模型,将商品库中的目标商品的目标数据分别输入所有的二分类模型,能够识别目标关键词是否为目标商品的关键词,对于目标商品的关键词的识别效果较好。
具体实施方式
为使本公开的目的、特征、优点能够更加的明显和易懂,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而非全部实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
为了更好的识别商品的关键词,如图1所示,本公开一实施例提供了一种商品关键词的识别方法,包括:
101,确定目标关键词映射的所有样本商品;
在一示例中,商品依据商品类型进行划分,商品类型具有多种,如衣物、护肤品或药品等,不同的商品类型对应有相同或不同的关键词,每种商品类型对应至少一个关键词。
如商品类型为护肤品时,可分解该商品类型对应的多个关键词,有补水、保湿、清洁、细腻、滋润、光滑和祛痘等。每个关键词都映射了多个样本商品,如关键词为补水,对应补水的样本商品的种类可能有多种补水霜、补水精华和爽肤水等;如关键词为祛痘,对应祛痘的样本商品的种类可能有多种祛痘洗面奶、祛痘精华和爽肤水等。
因此,在电商平台搜索相关商品时,只需要搜索商品类型下对应的关键词即可。如搜索补水,可展现上述提及的关键词为补水所映射的护肤品。
为了训练能够对商品的关键词进行识别的二分类模型,确定与二分类模型对应的目标关键词,需要先确定目标关键词映射的所有样本商品。
需要注意的是,对应目标关键词的二分类模型应用于同一商品类型的关键词识别,因此应先确定商品类型,再确定该商品类型下的目标关键词,故目标关键词映射的所有样本商品需要属于同一商品类型。
例如,假设关键词为网红,若不进行商品类型的区分,在电商平台上搜索关键词网红,出现的商品可对应有衣物,也可对应有护肤品,因此,若将衣物和护肤品这两种不同商品类型作为训练一个二分类模型的的样本商品,显然并不合适。在以关键词为网红进行二分类模型的训练时,应预先确定是属于哪个商品类型下的二分类模型,如商品类型确定为衣物,则训练以网红为关键词对应的二分类模型时,样本商品只选择该商品类型下的衣物,可以为外套、裤子或者毛衣等;如商品类型确定为护肤品,则训练以网红为关键词对应的二分类模型时,样本商品只选择该商品类型下的护肤品,可以为爽肤水、精华或者面霜等。
102,获取所述样本商品对应的多种文本数据,所述文本数据包括:标题文本数据、标签文本数据和评论文本数据;
如图2至图4所示,在一示例中,电商平台所展示的样本商品对应多种文本数据,如都对应有标题文本数据、标签文本数据和评论文本数据。
一个样本商品通常具有一个标题,多个标签以及多条评论,因此可以获取到对应的标题文本数据、多个标签文本数据以及多条评论文本数据。应该理解的是,无论标签文本数据和评论文本数据有多少,都需要全部获取。
以一个面霜为例,对应的标题文本数据为“xx面霜六胜肽深层补水保湿紧致抗皱抗初老面霜秋冬”,对应的标签文本数据为 “改善红血丝(3)”、“闭口粉刺(15)”和“缩毛孔(36)”,对应的评论文本数据包括“吸收慢,使用滋润(赞同17,反对5)”、“感觉好吸收紧致,保湿效果好(赞同21,反对3)”和“使用感受好,滋润不油腻,必须回购(赞同14,反对4)”。
其中,标签文本数据中每个标签的括号内容表示该标签的频次,评论文本数据中每条评论的括号内容表示该条评论的赞同数和反对数。
103,获取每种所述文本数据的多个初始词向量;
词向量是基于词语为单位进行获取的,因此在获取词向量之前,应对文本数据进行分词处理。
根据步骤101和步骤102中所述,可知标签文本数据由多个标签组成,处于已经完成分词的状态,因此只需对标题文本数据和评论文本数进行分词处理。
由于评论文本数据包括多条评论,每条评论包括多个词语,噪音较大,因此需要先对评论文本数据进行预处理,预处理包括脏预料的剔除、异常字符的过滤、长度的限制以及无关语料信息的过滤等,再对经过预处理的评论文本数据中的每条评论进行分词处理,获取经过分词处理的评论文本数据的初始词向量。
获取标题文本数据的初始词向量和获取标签文本数据的初始词向量之前,先获取样本商品对应的所有初始关键词,初始关键词即指样本商品在被获取之前具有的关键词,初始关键词包括目标关键词。
对于标题文本数据进行初始词向量的获取时,先对标题文本数据进行分词处理,对每个初始关键词,从标题文本数据中去除该初始关键词,构建对应的步长为n、长度为2n的滑动窗口,对去除了初始关键词的标题文本数据通过滑动窗口进行采集,得到该初始关键词对应的训练样本,根据训练样本得到该初始关键词对应的初始词向量集合,初始词向量集合包括至少一个初始词向量。
应该理解的是,若初始关键词有三个,则对标题文本数据针对三个初始关键词去除三次,也构建三次滑动窗口,最终标题文本数据中的每个词语对应的初始词向量为三个。
例如,目标关键词为抗皱,标题文本数据为“套装复颜抗皱紧致护肤礼盒化妆品水乳补水保湿面霜”,经过分词处理后的标题文本数据为“套装 复颜 抗皱 紧致 护肤 礼盒化妆品 水乳 补水 保湿 面霜”,再去除标题文本数据中的关键词“抗皱”,得到“套装 复颜紧致 护肤 礼盒 化妆品 水乳 补水 保湿 面霜”,构建步长为2、长度为4 滑动窗口,对去除了关键词的标题文本数据通过滑动窗口进行采集,得到的训练样本包括[套装,复颜,紧致,护肤]、[紧致,护肤,礼盒,化妆品]、[礼盒,化妆品,水乳,补水]、[水乳,补水,保湿,面霜],通过该训练样本,得到抗皱对应的初始词向量集合。
通常一个样本商品对应的初始关键词有多个,对于上述样本商品来说,初始关键词除抗皱外,还包括补水和紧致,因此,需要对上述标题文本数据进行相同的处理。
若初始关键词为补水,该标题文本数据“套装复颜抗皱紧致护肤礼盒化妆品水乳补水保湿面霜”,得到的训练样本包括[套装,复颜,抗皱,紧致]、[抗皱,紧致,护肤,礼盒]、[护肤,礼盒,化妆品,水乳]和[化妆品,水乳,保湿,面霜],通过该训练样本,得到补水对应的初始词向量集合。
关键词为紧致,该标题文本数据“套装复颜抗皱紧致护肤礼盒化妆品水乳补水保湿面霜”,得到的训练样本包括[套装,复颜,抗皱,护肤]、[抗皱,护肤,礼盒,化妆品]、[礼盒,化妆品,水乳,补水]和[水乳,补水,保湿,面霜],通过该训练样本,得到紧致对应的初始词向量集合。
对于标签文本数据进行词向量的获取时,与标题文本数据的处理相同,对于每个初始关键词:从标签文本数据中去除该初始关键词,并构建对应的步长为n、长度为2n的滑动窗口,对去除了初始关键词的标签文本数据通过滑动窗口进行采集,得到该初始关键词对应的训练样本,根据训练样本得到该初始关键词对应的初始词向量集合,初始词向量集合包括至少一个初始词向量。具体的处理方法与标题文本数据相同,在此不多赘述,若仍以上述标题文本数据中的初始关键词为例,标签文本数据中的每个标签都对应有三个初始词向量,分别是该标签文本数据对应于抗皱的初始词向量、对应于补水的初始词向量和对应于紧致的初始词向量。
应该理解的是,以上的词向量提取,采用word2vec的skip-gram模型,但此处仅用于举例以示说明,具体不做限定。
因此,通过本步骤的操作,可获取标题文本数据的初始词向量、标签文本数据的初始词向量和评论文本数据的初始词向量;
104,根据每种所述文本数据的多个初始词向量,确定每种所述文本数据的一个第一词向量;
根据标题文本数据对应的所有初始词向量和每个初始词向量的权重,得到标题文本数据对应的一个第一词向量。
每个初始词向量的权重均为1,获取标题文本数据的所有初始词向量,将每个初始词向量和各自的权重相乘再求和,最后除以所有初始词向量的个数,得到标题文本数据的一个第一词向量。
具体计算公式为:
n为标题文本数据对应的所有初始词向量的个数,
为第i个初始词向量,
为第i
个初始词向量的权重,
为标题文本数据的一个第一词向量。
例如,若标题文本数据有三个词语,假设初始关键词为步骤103中列举的三个,则每个词语都对应有三个初始词向量,则该标题文本数据对应的全部初始词向量对应的词语个数为九个,将全部初始词向量相加再除以九,即可得到标题文本数据的一个第一次向量。
根据标签文本数据对应的所有初始词向量,得到标签文本数据中每个标签对应的中间词向量,根据中间词向量和中间词向量的权重,得到标签文本数据对应的一个第一词向量;
获取每个标签对应的所有初始词向量,对每个标签对应的所有初始词向量进行求和,再除以每个标签对应的所有初始词向量的个数,得到所述标签文本数据中每个标签对应的中间词向量。
计算每个中间词向量的权重,用权重乘以各中间词向量再求和,得到所述标签文本数据的第一词向量。
具体计算公式为:
为第i个初始词向量,m为每个标签对应的所有初始词向量的个数,
为第i个中
间词向量,
为第i个中间词向量的权重,M为标题文本数据对应的所有中间词向量的个数,
为标题文本数据的一个第一词向量。
应该理解的是,若同一标签只对应一个初始词向量,则该标签对应的中间词向量即为初始词向量。由于每个标签均对应有频次,因此获取标签文本数据的每个标签对应的频次,将频次归一化后可得到每个中间词向量的权重。
例如,若标签文本数据有三个标签,假设初始关键词有103中列举的三个,则每个标签都对应有三个初始词向量,则每个标签的三个初始词向量求和再除以三,即可得到每个标签的中间词向量。
确定评论文本数据的一个第一词向量时,计算每条评论文本数据对应的权重,用权重乘以各自所属的评论对应的初始词向量再求和,得到一个第一词向量。其中,计算每条评论文本数据对应的权重,包括获取每条评论文本数据对应的威尔逊分数,将威尔逊分数归一化后得到每条评论文本数据的权重。
具体计算公式为:
j为多条评论文本数据的条数,
为第i条评论文本数据的初始词向量,
为第i条
评论文本数据的权重,
为评论文本数据的一个第一词向量。
105,根据所述目标关键词的词向量和每种所述文本数据的多个初始词向量,确定每种所述文本数据的一个第二词向量;
计算目标关键词的词向量和标题文本数据的每个初始词向量的相似度,按照相似度从大到小选取设定数量的标题文本数据的初始词向量,根据选取的多个标题文本数据的初始词向量,确定标题文本数据的一个第二词向量,其中,除初始词向量的个数不同,确定标题文本数据的一个第二词向量的计算方法与步骤104中,通过标题文本数据的全部初始词向量计算一个对应的第一词向量的方法相同。
计算目标关键词的词向量和标签文本数据的所有中间词向量的相似度,按照相似度从大到小选取设定数量的中间词向量,根据选取的多个中间词向量,确定标签文本数据的一个第二词向量,其中,除选取的中间词向量的个数不同,确定标签文本数据的一个第二词向量的计算方法与步骤104中,通过标签文本数据的全部中间词向量计算一个对应的第一词向量的方法相同。
计算目标关键词的词向量和评论文本数据的所有初始词向量的相似度,按照相似度从大到小选取设定数量的评论文本数据的初始词向量,根据选取的多个评论文本数据的初始词向量,确定评论文本数据的一个第二词向量,其中,除初始词向量的个数不同,确定评论文本数据的一个第二词向量的计算方法与步骤104中,通过评论文本数据的全部初始词向量计算一个对应的第一词向量的方法相同。
106,构建所述样本商品对应的样本数据,所述样本数据包括:所述目标关键词的词向量、每种所述文本数据的第一词向量和第二词向量和所述样本商品的属性特征;
在一示例中,每种样本商品都有自己对应的属性特征,属性特征包括商品属性、商品效果、商品用途和商品剂型。而商品属性又包括重量、类别、产地、品牌和是否进口等;商品效果包括清洁型、护肤型、基础型、美容型和疗效型等;商品用途包括肤用化妆品、发用化妆品和美容化妆品等;商品剂型包括液体、乳液、膏霜、粉类、块状和油状等。
在一示例中,根据属性特征对样本商品进行聚类处理,得到多个簇,将同一个簇中的多个样本商品映射到同一目标关键词。
以商品类型为护肤品为例,获取的目标关键词包括补水保湿和补水,补水保湿映射有n个样本商品,补水映射有m个样本商品,n<<m,通过对属性特征进行聚类处理,发现补水保湿映射的n个样本商品与补水映射的m个样本商品分为同一个簇,则可将n个样本商品与m个样本商品合并为映射于目标关键词为补水的样本商品,即目标关键词为补水时,补水映射有m+n个样本商品。
通过根据属性特征进行聚类的方式,将目标关键词映射下的个数稀少样本商品合并到属性特征相近的、关键词映射下的个数较多样本商品,可有效解决后续模型训练的过拟合或欠拟合的问题。
107,根据所述目标关键词映射的所有样本商品对应的样本数据,训练所述目标关键词对应的二分类模型;
在一示例中,根据步骤101已知,确定了商品类型后,再确定该商品类型下的目标关键词,如商品类型为护肤品,则当目标关键词为补水时,获取补水映射下的属于护肤品的所有样本商品,并获取每个样本商品对应的样本数据,得到与样本商品数量对应的多个样本数据,通过该样本数据可训练得到商品类型为护肤品时,用于识别是否补水的二分类模型。
因此,确定商品类型后,该商品类型下包括有多少目标关键词,则训练有多少二分类模型,每个二分类模型对应于一个目标关键词。
108,构建目标商品对应的目标数据,所述目标数据包括:所述目标关键词的词向量、所述目标商品对应的每种所述文本数据的第一词向量和第二词向量和所述目标商品的属性特征;
获取需要进行关键词识别的目标商品,构建目标商品对应的目标数据。
109,通过所述二分类模型对所述目标数据进行计算,确定所述目标关键词是否为所述目标商品的关键词;
通过获取目标商品所属的商品类型下的全部二分类模型,对该目标商品的目标数据进行计算,可得到目标商品所属商品类型下包括的所有目标关键词的概率值,根据实际应用情况设置阈值,满足阈值的概率值所对应的目标关键词,即为该目标商品的关键词。
基于上述方案,本公开提供一种商品关键词的识别方法,获取关键词映射下的样本商品的属性特征和文本数据特征,文本数据特征包括能够反应商品有效信息的标题文本数据、评论文本数据和标签文本数据,通过对文本数据特征进行处理,得到能够进一步表征文本数据特征语义的第一词向量和第二词向量,以第一词向量、第二词向量、关键词的词向量以及反应样本商品更细致信息的属性特征作为样本数据,训练出用于识别目标关键词是否为目标商品的关键词的二分类模型,通过训练多个针对不同目标关键词进行识别的二分类模型,将商品库中的目标商品的目标数据分别输入所有的二分类模型,能够识别目标关键词是否为目标商品的关键词,对于目标商品的关键词的识别效果较好。
在一示例中,如图5所示,本公开还提供了一种用上述方法执行的具体实施例,包括:
201,确定商品类型为护肤品,获取护肤品对应的所有关键词作为目标关键词,每个目标关键词映射多个样本商品,获取每个样本商品的全部属性特征;
以目标关键词为补水为例,假设共有四个样本商品,第一个样本商品为一号爽肤水,获取爽肤水的商品属性包括:产地为中国,重量为200g,商品效果包括:护肤型,商品用途包括:肤用化妆品,商品剂型包括:液体;
第二个样本商品为二号爽肤水,获取爽肤水的商品属性包括:产地为中国,重量为250g,商品效果包括:基础型,商品用途包括:肤用化妆品,商品剂型包括:液体;
第三个样本商品为精华,获取精华的商品属性包括:产地为韩国,重量为50g,商品效果包括:护肤型,商品用途包括:肤用化妆品,商品剂型包括:乳液;
第四个样本商品为面霜,获取面霜的商品属性包括:产地为中国,重量为50g,商品效果包括:护肤型,商品用途包括:肤用化妆品,商品剂型包括:膏霜;
再以目标关键词为保湿为例,假设映射有一个样本商品,该样本商品为三号爽肤水,获取爽肤水的商品属性包括:产地为中国,重量为150g,商品效果包括:护肤型,商品用途包括:肤用化妆品,商品剂型包括:液体;
将三号爽肤水与上述目标关键词为补水所映射的四个样本商品,以属性特征作为聚类处理的标识,当满足聚类处理的条件时,可将三号爽肤水合并至目标关键词为补水的样本商品下。
因此目标关键词为补水时,映射的样本商品有五个,分别为一号爽肤水、二号爽肤水、三号爽肤水、精华和面霜。
需要强调的是,此处聚类处理的目的在于将关键词映射下的个数稀少样本商品合并到属性特征相近的、关键词映射下的个数较多样本商品的簇内,可有效解决后续模型训练的过拟合或欠拟合的问题,因此若每个关键词映射下的样本商品数量较多,不存在数量稀少的情况,是否进行聚类处理可灵活调整。
202,获取所述样本商品对应的标题文本数据、标签文本数据和评论文本数据;
以下仅以关键词为补水,样本商品为某一面霜为例。
获取面霜对应的标题文本数据为“面霜六胜肽深层补水保湿紧致抗皱抗初老秋冬”,标签文本数据包括“红血丝(3)”、“闭口(15)”和“缩毛孔(36)”,评论文本数据包括“吸收慢,使用滋润(赞同17,反对5)”、“感觉好吸收紧致,保湿效果好(赞同21,反对3)”和“使用感受好,滋润不油腻,必须回购(赞同14,反对4)”。
203,对标题文本数据和评论文本数据分词处理,获取目标关键词、标签文本数据、经过分词处理的标题文本数据和经过分词处理的评论文本数据的初始词向量;
将标题文本数据和评论文本数据分词,对关键词、标签文本数据、经过分词处理的标题文本数据和评论文本数据进行初始词向量的获取,使用word2vec的skip-gram(跳字模型)训练词语的embedding(嵌入)向量。
其中,在对标题文本数据和标签文本数据提取初始词向量的过程中,将初始关键词从标题文本数据中去除。其中,获取标题文本数据和标签文本数据的初始关键词,目标关键词也属于初始关键词。
仍以步骤202中为例,得到分词处理后的标题文本数据为“面霜 六胜肽 深层 补水 保湿 紧致 抗皱 抗初老 秋冬”,去除目标关键词补水的标题文本数据为“面霜 六胜肽深层 保湿 紧致 抗皱 抗初老 秋冬”,构建步长为2、长度为4的滑动窗口,多次滑动构建,可得到标题文本数据的语境词即训练样本,包括[面霜,六胜肽,深层,保湿]、[ 深层,保湿,紧致,抗皱]、[ 紧致,抗皱,抗初老,秋冬],通过对训练样本的处理,得到与标题文本数据中词语对应的且对应于补水的初始词向量,此处对应于补水的初始词向量集合中的初始词向量的个数为9。
对于该面霜来说,初始关键词除补水外,还包括保湿,因此还需将保湿从标题文本数据中去除,去除目标关键词后的标题文本数据为“面霜 六胜肽 深层 补水 紧致 抗皱抗初老 秋冬”,构建步长为2、长度为4的滑动窗口,多次滑动构建,可得到标题文本数据的语境词即训练样本,包括[面霜,六胜肽,深层,补水]、[ 深层,补水,紧致,抗皱]、[紧致,抗皱,抗初老,秋冬],通过对训练样本的处理,得到与标题文本数据中词语对应的且对应于保湿的初始词向量,此处对应于保湿的初始词向量集合中的初始词向量的个数为9。
仍以步骤202中为例,若标签文本数据既没有目标关键词补水、也没有初始关键词保湿,则直接对标签文本数据进行初始词向量的获取,得到的全部的标签文本数据为“红血丝(3)”、“闭口(15)”和“缩毛孔(36)”,构建步长为1、长度为2的滑动窗口,多次滑动构建,可得到标签文本数据的语境词即训练样本,包括[红血丝,闭口]和[闭口,缩毛孔],通过对训练样本的处理,得到与标签文本数据中词语对应的且对应于补水的初始词向量,此处对应于补水的初始词向量的个数为3。
仍以步骤202中为例,获取全部的评论文本数据为“吸收慢,使用滋润(赞同17,反对5)”、“感觉好吸收紧致,保湿效果好(赞同21,反对3)”和“使用感受好,滋润不油腻,必须回购(赞同14,反对4)”。
假设经过分词处理的第一条评论为“吸收慢 使用 滋润”,则该评论获取的初始词向量的个数为3。
204,从关键词的初始词向量、标题文本数据的初始词向量、标签文本数据的初始词向量和评论文本数据的初始词向量中分别确定一个第一词向量;
以步骤203中的标题文本数据的初始词向量为例,计算标题文本数据的一个第一词向量时,将对应于补水的9个初始词向量于对应于保湿的9个初始词向量相加再除以18,即可得到标题文本数据的一个第一词向量。
以步骤203中的标签文本数据的初始词向量为例,红血丝对应的词向量的频次为
3,闭口对应的词向量的频次为15,缩毛孔对应的词向量的频次为36,因此红血丝对应的词
向量的权重为
,闭口对应的词向量的权重为
,缩毛孔对应的词向量的权重为
,将
乘以红血丝对应的词向量与
乘以闭口对应的词向量以及
乘以缩毛孔对应的词向量相
加,得到标签文本数据的一个第一词向量。
以步骤203中的评论文本数据的初始词向量为例,计算评论文本数据的第一词向量时,先计算每条评论文本数据对应的威尔逊分数,将威尔逊分数归一化后得到每条评论文本数据的权重。
计算每条评论文本数据对应的威尔逊分数,包括按照如下公式计算:
u为每条评论文本数据的赞同数量,v为每条评论文本数据的反对数量,zα为置信水平的统计量常数1.96,Score为威尔逊分数。
对于第一条评论文本数据“吸收慢,使用滋润(赞同17,反对5)”,u为17,v为5;对于第二条评论文本数据“感觉好吸收紧致,保湿效果好(赞同21,反对3)”,u为21,v为3;对于第三条评论文本数据“感觉好吸收紧致,保湿效果好(赞同21,反对3)”,u为14,v为4。
因此,分别计算第一条评论文本数据的威尔逊分数为S
1,第二条评论文本数据的
威尔逊分数为S
2,第三条评论文本数据的威尔逊分数为S
3,则第一条评论文本数据的权重为
,第二条评论文本数据的权重为
,第三条评论文本数据的权重为
。
将
乘以第一条评论文本数据对应的初始词向量与
乘以第二条评
论文本数据对应的初始词向量以及
乘以第三条评论文本数据对应的初始词向量
相加,得到标评论文本数据的一个第一词向量。
205,根据目标关键词的词向量、标题文本数据的初始词向量、标签文本数据的初始词向量和评论文本数据的初始词向量,分别计算得到标题文本数据的一个第二词向量、标签文本数据的一个第二词向量和评论文本数据的一个第二词向量;
计算标题文本数据的一个第二词向量时,分别计算目标关键词的词向量和标题文本数据的每个初始词向量的相似度,相似度按从大到小的顺序排序,取排名前k个相似度对应的初始词向量,按照步骤204中计算标题文本数据的第一词向量的方法,计算对应的第二词向量。
计算标签文本数据的一个第二词向量时,通过每个标签对应的初始词向量获取对应的中间词向量,分别计算目标关键词的词向量和标签文本数据的每个中间词向量的相似度,相似度按从大到小的顺序排序,取排名前k个相似度对应的中间词向量,按照步骤204中计算标题文本数据的第一词向量的方法,计算对应的第二词向量。
计算评论文本数据的一个第二词向量时,分别计算目标关键词的词向量和评论文本数据的每个初始词向量的相似度,相似度按从大到小的顺序排序,取排名前k个相似度对应的初始词向量,按照步骤204中计算第评论文本数据第一词向量的方法,计算对应的第二词向量。
此处的k可根据实际应用进行灵活调整,在此不做具体的数值限定。
206,将样本商品对应的全部属性特征、目标关键词的词向量、标题文本数据对应的第一词向量和第二词向量、标签文本数据对应第一词向量和第二词向量和评论文本数据对应的第一词向量和第二词向量作为样本,对预设模型进行训练,得到对应目标关键词的二分类模型;
仍以步骤201中的商品类型为护肤品,目标关键词为补水为例,获取步骤201至步骤205计算得到的对应于补水的全部属性特征、目标关键词的词向量、标题文本数据对应的第一词向量和第二词向量、标签文本数据对应第一词向量和第二词向量和评论文本数据对应的第一词向量和第二词向量作为样本。
需要强调的是,准备样本时,每个具备当前训练模型的目标关键词的均为正样本,负样本从其他关键词中随机采样,如当前训练的是化妆品的补水的二分类模型,则所有具有补水的目标关键词的样本商品为正样本,所有具有其他关键词的样本商品均可为负样本。
预设模型可以为广义线性模型,如使用GBM(Gradient Boosting Machine)类算法或Wide&Deep模型等,通过获取上述样本,可得到对应于目标关键词为补水的一个二分类模型。
依照步骤201至本步骤的方法,可依次计算目标关键词为补水、祛痘和抗皱等相应的二分类模型,同一商品类型下,二分类模型的数量与目标关键词的数量对应。
207,构建目标商品对应的目标数据,通过二分类模型对目标数据进行计算,识别目标关键词是否为目标商品的关键词;
仍以步骤201中的商品类型为护肤品,目标关键词为补水为例,现获取目标商品为面霜,构建面霜对应的目标数据,通过对应补水的二分类模型对目标数据计算,得到的概率值大于阈值,判定该面霜具备补水的关键词。在一示例中,若该面霜的初始关键词中没有补水,则对该面霜提出修正建议,为漏标,建议增加补水作为关键词;若该面霜的初始关键词中有补水,则该对应于该补水的关键词无需改动。
再例如,现已经训练好分别对应补水、祛痘和抗皱的三个二分类模型,仍假设目标商品为面霜,该面霜的初始关键词为补水和祛痘,将该面霜的目标数据依次通过补水对应的二分类模型、祛痘对应的二分类模型和抗皱对应的二分类模型进行计算,确定该面霜的关键词为补水、祛痘和抗皱,因此可确定该面霜的修正的关键词为补水、祛痘和抗皱,可给出的修正建议为可能存在漏标。
假设该面霜的初始关键词为补水,将该面霜依次通过补水对应的二分类模型、祛痘对应的二分类模型和抗皱对应的二分类模型进行计算,确定该面霜的关键词为祛痘,因此可确定该面霜的修正的关键词为祛痘,可给出的修正建议为可能存在错标。
假设该面霜的初始关键词为补水和抗皱,将该面霜依次通过补水对应的二分类模型、祛痘对应的二分类模型和抗皱对应的二分类模型进行计算,确定该面霜的关键词为补水,因此可确该面霜的修正的关键词为补水,可给出的修正建议为可能存在夸大功效。
除位于商品库中已经带有初始关键词的目标商品,目标商品还包括新入库的只有属性特征、而没有标签和评论类的商品,可对现有商品库中的目标商品根据属性特征进行聚类,找到与新入库的目标商品属性特征相似度较高的前k个现有商品库中的目标商品,获取这前k个目标商品的标签文本数据和评论文本数据,计算各自的相似度的值作为权重,将这前k个目标商品的标签文本数据和评论文本数据分别对应的第一词向量和第二词向量与各自的权重相乘再求和,即可分别作为新入库的目标商品的标签文本数据和评论文本数据的第一词向量和第二词向量,再通过上述模型对新入库的目标商品做初始关键词的识别。
应该理解的是,每间隔周期,都对商品库中经过关键词修正的商品重新获取,以重新参与模型训练,不断提高识别的精度。
本公开一实施例还提供了一种商品关键词的识别装置,如图6所示,该装置包括:
获取模块10,用于确定目标关键词映射的所有样本商品;
获取所述样本商品对应的多种文本数据,所述文本数据包括:标题文本数据、标签文本数据和评论文本数据;
所述获取模块10还用于获取每种所述文本数据的多个初始词向量;
处理模块20,用于根据每种所述文本数据的多个初始词向量,确定每种所述文本数据的一个第一词向量;
根据所述目标关键词的词向量和每种所述文本数据的多个初始词向量,确定每种所述文本数据的一个第二词向量;
所述处理模块20还用于构建所述样本商品对应的样本数据,所述样本数据包括:所述目标关键词的词向量、每种所述文本数据的第一词向量和第二词向量和所述样本商品的属性特征;
训练模块30,用于根据所述目标关键词映射的所有样本商品对应的样本数据,训练所述目标关键词对应的二分类模型;
计算模块40,用于构建目标商品对应的目标数据,所述目标数据包括:所述目标关键词的词向量、所述目标商品对应的每种所述文本数据的第一词向量和第二词向量和所述目标商品的属性特征;
所述计算模块40还用于通过所述二分类模型对所述目标数据进行计算,确定所述目标关键词是否为所述目标商品的关键词。
所述获取模块10,还用于获取样本商品对应的所有初始关键词,所述初始关键词包括所述目标关键词;
对于每个所述初始关键词:从所述文本数据中去除该初始关键词,并构建对应的滑动窗口,通过该滑动窗口对去除了该初始关键词的文本数据进行采集,得到该初始关键词对应的训练样本,根据所述训练样本得到该初始关键词对应的初始词向量集合,所述初始词向量集合包括至少一个初始词向量:
所有初始关键词对应的初始词向量集合组成了所述文本数据的多个初始词向量。
除了上述方法和装置以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。