CN110807083A - 关键词评估方法和装置 - Google Patents
关键词评估方法和装置 Download PDFInfo
- Publication number
- CN110807083A CN110807083A CN201810868216.8A CN201810868216A CN110807083A CN 110807083 A CN110807083 A CN 110807083A CN 201810868216 A CN201810868216 A CN 201810868216A CN 110807083 A CN110807083 A CN 110807083A
- Authority
- CN
- China
- Prior art keywords
- word
- title
- similar
- training
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 53
- 230000011218 segmentation Effects 0.000 claims abstract description 70
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims description 141
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 8
- 229920000742 Cotton Polymers 0.000 description 27
- 238000010586 diagram Methods 0.000 description 9
- 238000007493 shaping process Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 3
- 238000007639 printing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 241000208202 Linaceae Species 0.000 description 1
- 235000004431 Linum usitatissimum Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供一种关键词评估方法和装置。关键词评估装置查询与目标物品标识对应的物品标题名,对物品标题名进行分词处理,以得到标题分词,利用预设的词向量模型,查询标题分词的相似词,计算相似词的相似词竞争指标,按照相似词竞争指标从大到小的顺序,选取预定数量的相似词以作为评估结果。本公开通过将用户更容易检索到的相关用词提供给商家,为商家确定商品标题时提供决策参考。
Description
技术领域
本公开涉及信息处理领域,特别涉及一种关键词评估方法和装置。
背景技术
目前,通过对商品标题进行分词处理,并对分词结果进行统计分析,可为商家确定商品标题时提供决策参考。
发明内容
发明人通过研究发现,由于相关技术仅是对标题分词进行统计分析,并没有进行深入挖掘,商家无法从分析结果中获得相应的优化指示。
为此,本公开提供一种通过对物品标题关键词进行评估以提供相应优化指示的方案。
根据本公开的一个或多个实施例的一个方面,提供一种关键词评估方法,包括:查询与目标物品标识对应的物品标题名;对物品标题名进行分词处理,以得到标题分词;利用预设的词向量模型,查询标题分词的相似词;计算相似词的相似词竞争指标,其中相似词竞争指标与对应相似词的搜索点击量或搜索量相关联;按照相似词竞争指标从大到小的顺序,选取预定数量的相似词以作为评估结果。
在一些实施例中,上述方法还包括:计算标题分词的标题竞争指标,其中标题竞争指标与对应标题分词的搜索点击量或搜索量相关联;判断相似词的相似词竞争指标是否大于对应标题分词的标题竞争指标;在相似词的相似词竞争指标大于对应标题分词的标题竞争指标的情况下,用相似词替换相对应标题分词,以便对物品标题名进行优化。
在一些实施例中,上述方法还包括:查询与目标物品标识对应的属性词;计算属性词的属性词竞争指标,其中属性词竞争指标与对应属性词的搜索点击量或搜索量相关联;按照属性词竞争指标从大到小的顺序,选取预定数量的属性词以作为评估结果。
在一些实施例中,上述方法还包括:判断属性词的属性词竞争指标是否大于全部标题竞争指标中预定数量的指标;在属性词的属性词竞争指标大于全部标题竞争指标中预定数量的指标的情况下,将属性词加入物品标题名中,以便对物品标题名进行优化。
在一些实施例中,上述方法还包括:查询与训练物品标识对应的训练物品标题名;对训练物品标题名进行分词处理,以得到训练标题分词;利用训练标题分词对训练模型进行训练;判断训练模型是否满足预定条件;若训练模型不满足预定条件,则调整训练模型的模型参数,并重复执行利用训练标题分词对训练模型进行训练的步骤;若训练模型满足预定条件,则将训练后的训练模型作为词向量模型。
在一些实施例中,在进行分词处理所使用的分词词库中,包括物品的产品词、品牌词或属性词中的至少一项。
在一些实施例中,判断训练模型是否满足预定条件包括:从分词词库中提取出分词V;利用训练模型,查询与分词V距离最近的第一预定数量个相似词;针对查询出的每个相似词SV,利用训练模型,查询与相似词SV距离最近的第二预定数量个相似词SV1;检测分词V在查询到的全部相似词SV1中的出现次数;若出现次数低于预定门限,则确定训练模型满足预定条件;若出现次数不低于预定门限,则确定训练模型不满足预定条件。
根据本公开的一个或多个实施例的一个方面,提供一种关键词评估装置,包括:查询模块,被配置为查询与目标物品标识对应的物品标题名;分词处理模块,被配置为对物品标题名进行分词处理,以得到标题分词;相似词查询模块,被配置为利用预设的词向量模型,查询标题分词的相似词;指标计算模块,被配置为计算相似词的相似词竞争指标,其中相似词竞争指标与对应相似词的搜索点击量或搜索量相关联;结果选取模块,被配置为按照相似词竞争指标从大到小的顺序,选取预定数量的相似词以作为评估结果。
在一些实施例中,上述装置还包括优化模块,其中:指标计算模块还被配置为计算标题分词的标题竞争指标,其中标题竞争指标与对应标题分词的搜索点击量或搜索量相关联;优化模块,被配置为判断相似词的相似词竞争指标是否大于对应标题分词的标题竞争指标,在相似词的相似词竞争指标大于对应标题分词的标题竞争指标的情况下,用相似词替换相对应标题分词,以便对物品标题名进行优化。
在一些实施例中,查询模块还被配置为查询与目标物品标识对应的属性词;指标计算模块还被配置为计算属性词的属性词竞争指标,其中属性词竞争指标与对应属性词的搜索点击量或搜索量相关联;结果选取模块还被配置为按照属性词竞争指标从大到小的顺序,选取预定数量的属性词以作为评估结果。
在一些实施例中,优化模块还被配置为判断属性词的属性词竞争指标是否大于全部标题竞争指标中预定数量的指标,在属性词的属性词竞争指标大于全部标题竞争指标中预定数量的指标的情况下,将属性词加入物品标题名中,以便对物品标题名进行优化。
在一些实施例中,上述装置还包括训练模块,其中,查询模块还被配置为查询与训练物品标识对应的训练物品标题名;分词处理模块还被配置为对训练物品标题名进行分词处理,以得到训练标题分词;训练模块,被配置为利用训练标题分词对训练模型进行训练,判断训练模型是否满足预定条件,若训练模型不满足预定条件,则调整训练模型的模型参数,并重复执行利用训练标题分词对训练模型进行训练的操作,若训练模型满足预定条件,则将训练后的训练模型作为词向量模型。
在一些实施例中,在进行分词处理所使用的分词词库中,包括物品的产品词、品牌词或属性词中的至少一项。
在一些实施例中,训练模块还被配置为从分词词库中提取出分词V,利用训练模型,查询与分词V距离最近的第一预定数量个相似词,针对查询出的每个相似词SV,利用训练模型,查询与相似词SV距离最近的第二预定数量个相似词SV1,检测分词V在查询到的全部相似词SV1中的出现次数,若出现次数低于预定门限,则确定训练模型满足预定条件,若出现次数不低于预定门限,则确定训练模型不满足预定条件。
根据本公开的一个或多个实施例的一个方面,提供一种关键词评估装置,包括:存储器,被配置为存储指令;处理器,耦合到存储器,处理器被配置为基于存储器存储的指令执行实现如上述任一实施例涉及的方法。
根据本公开的一个或多个实施例的另一个方面,提供一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机指令,指令被处理器执行时实现如上述任一实施例涉及的方法。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开一个实施例的关键词评估方法的示例性流程图;
图2为本公开另一个实施例的关键词评估方法的示例性流程图;
图3为本公开又一个实施例的关键词评估方法的示例性流程图;
图4为本公开又一个实施例的关键词评估方法的示例性流程图;
图5为本公开一个实施例的模型训练方法的示例性流程图;
图6为本公开一个实施例的关键词评估装置的示例性框图;
图7为本公开另一个实施例的关键词评估装置的示例性框图;
图8为本公开又一个实施例的关键词评估装置的示例性框图;
图9为本公开一个实施例的词向量模型训练的示例性流程图;
图10为本公开一个实施例的SKU标题优化的示例性流程图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1为本公开一个实施例的关键词评估方法的示例性流程图。在一些实施例中,本实施例的方法步骤可由关键词评估装置执行。
在步骤101,查询与目标物品标识对应的物品标题名。
例如,对于女装品牌茵曼来说,相应信息如下:
SKUID:11488717440
SKUName:茵曼年夏装新款文艺范印花棉质T恤女短袖宽松上衣【18820VP22701】粉红色M
在步骤102,对物品标题名进行分词处理,以得到标题分词。
在一些实施例中,在进行分词处理所使用的分词词库中,包括物品的产品词、品牌词或属性词中的至少一项。通过上述设置,可获得更加精确的分词结果。
例如,对于上述女装品牌茵曼来说,相应的产品词、品牌词、属性词如下所示:
产品词:T恤
品牌词:茵曼
属性词:25-29周岁、简约、圆领、复古、棉/丝光棉、2018夏季、常规袖、修身型、休闲、常规款、黑色系、200-499、文艺、短袖等。
在一些实施例中,还可对分词结果进行过滤,以去除纯数字、单个英文字母和符号,以得到相应的词训练训练语料。
在步骤103,利用预设的词向量模型,查询标题分词的相似词。
在一些实施例中,词向量模型为经过训练的word2vec模型。
在步骤104,计算相似词的相似词竞争指标,其中相似词竞争指标与对应相似词的搜索点击量或搜索量相关联。
需要说明的是,尽管这里可选用搜索点击量或搜索量来计算指标,但所采用的公式都是一致的。例如,若采用搜索点击量进行指标计算,相应的公式如下:
式中:X为目标词指标,γ为目标词TF-IDF(Term Frequency-Inverse DocumentFrequency,词频-逆文档频率)系数,Xi为包含目标词的搜索点击关键词记录数,ai为搜索点击关键词的权重,ai=目标词数/搜索点击关键词词数,C为所有包含目标词搜索点击记录。
在步骤105,按照相似词竞争指标从大到小的顺序,选取预定数量的相似词以作为评估结果。
例如,通过对上述SKUName进行分词处理,得到的分词结果为:M、T恤、上衣、印花、夏装、女短袖、宽松、文艺范、新款、棉质、粉红色、茵曼。
通过查询标题分词的相似词,并将相似词按相似词竞争指标从大到小排序,得到排在前10位的相似词如表1所示。
恤女 | 9471646 |
套装 | 7519434 |
短袖 | 4648062 |
新品 | 3489209 |
夏季 | 3303927 |
春装 | 2967079 |
休闲 | 2734686 |
白色 | 1547695 |
棉麻 | 1521195 |
黑色 | 1040045 |
表1
在表1中,指标数值越大,表明该词被用户检索到的概率也就越大。由此,商家可根据表1给出的结果对物品标题名进行优化,以便进一步增加物品被用户检索到的概率。
在本公开上述实施例提供的关键词评估方法中,通过利用词向量模型查询物品标题词的相似词,并通过计算相似词的竞争指标,以便将用户更容易检索到的相关用词提供给商家,为商家确定商品标题时提供决策参考。
图2为本公开另一个实施例的关键词评估方法的示例性流程图。在一些实施例中,本实施例的方法步骤可由关键词评估装置执行。
在步骤201,查询与目标物品标识对应的物品标题名。
在步骤202,对物品标题名进行分词处理,以得到标题分词。
在步骤203,利用预设的词向量模型,查询标题分词的相似词。
在一些实施例中,词向量模型为经过训练的word2vec模型。
在步骤204,计算相似词的相似词竞争指标,其中相似词竞争指标与对应相似词的搜索点击量或搜索量相关联。计算标题分词的标题竞争指标,其中标题竞争指标与对应标题分词的搜索点击量或搜索量相关联。
在一些实施例中,可利用上述公式(1)计算相应指标。
在步骤205,判断相似词的相似词竞争指标是否大于对应标题分词的标题竞争指标。
在步骤206,在相似词的相似词竞争指标大于对应标题分词的标题竞争指标的情况下,用相似词替换相对应标题分词,以便对物品标题名进行优化。
在步骤207,按照相似词竞争指标从大到小的顺序,选取预定数量的相似词以作为评估结果。
例如,通过对上述SKUName进行分词处理,得到的分词结果中包括“棉质”一词。通过计算,得到该分词的搜索点击指标为10606.33。通过word2vec模型找到“棉质”的相似词,并计算相应的搜索点击指标。相应内容如下:女棉:指标为33858.11,纯棉女:指标为32604.57,全棉:指标为38115.95,纯棉:指标为398764.92。指标数值越大,表明该词被用户检索到的概率越大。根据计算结果,可以发现相似词中存在比“棉质”更优的词,则可以这些词对其进行替换。例如,用“纯棉”替代标题名中的“棉质”。对标题中的其他词也可以采用相同的方法进行优化。
图3为本公开又一个实施例的关键词评估方法的示例性流程图。在一些实施例中,本实施例的方法步骤可由关键词评估装置执行。
在步骤301,查询与目标物品标识对应的物品标题名和属性词。
例如,对于女装品牌茵曼来说,相应信息如下:
SKUID:11488717440
SKUName:茵曼年夏装新款文艺范印花棉质T恤女短袖宽松上衣【18820VP22701】粉红色M
属性词:25-29周岁、简约、圆领、复古、棉/丝光棉、2018夏季、常规袖、修身型、休闲、常规款、黑色系、200-499、文艺、短袖等。
在步骤302,对物品标题名进行分词处理,以得到标题分词。
在步骤303,利用预设的词向量模型,查询标题分词的相似词。
在一些实施例中,词向量模型为经过训练的word2vec模型。
在步骤304,计算相似词的相似词竞争指标,其中相似词竞争指标与对应相似词的搜索点击量或搜索量相关联。计算属性词的属性词竞争指标,其中属性词竞争指标与对应属性词的搜索点击量或搜索量相关联。
在一些实施例中,可利用上述公式(1)计算相应指标。
在步骤305,按照相似词竞争指标从大到小的顺序,选取预定数量的相似词。按照属性词竞争指标从大到小的顺序,选取预定数量的属性词。将选取出的相似词和属性词作为评估结果。
例如,选取出的相似词可如表1所示。选取出的属性词可如表2所示。
L | 749829.7 |
纯棉 | 729729.5 |
民族风 | 574291.1 |
2018夏季 | 421214.8 |
蓝色 | 251413.3 |
粉色 | 247142.1 |
修身型 | 241843.1 |
复古 | 239258.5 |
紫色 | 194306 |
绿色 | 178423.2 |
表2
在表2中,指标数值越大,表明该词被用户检索到的概率也就越大。由此,商家可根据表1给出的结果对物品标题名进行优化,以便进一步增加物品被用户检索到的概率。
图4为本公开另一个实施例的关键词评估方法的示例性流程图。在一些实施例中,本实施例的方法步骤可由关键词评估装置执行。
在步骤401,查询与目标物品标识对应的物品标题名和属性词。
在步骤402,对物品标题名进行分词处理,以得到标题分词。
在步骤403,利用预设的词向量模型,查询标题分词的相似词。
在一些实施例中,词向量模型为经过训练的word2vec模型。
在步骤404,计算相似词的相似词竞争指标,其中相似词竞争指标与对应相似词的搜索点击量或搜索量相关联。计算标题分词的标题竞争指标,其中标题竞争指标与对应标题分词的搜索点击量或搜索量相关联。还计算属性词的属性词竞争指标,其中属性词竞争指标与对应属性词的搜索点击量或搜索量相关联。
在一些实施例中,可利用上述公式(1)计算相应指标。
下面可分别执行步骤405a和步骤405b。
在步骤405a,判断相似词的相似词竞争指标是否大于对应标题分词的标题竞争指标。
在步骤406a,在相似词的相似词竞争指标大于对应标题分词的标题竞争指标的情况下,用相似词替换相对应标题分词,以便对物品标题名进行优化。然后执行步骤407。
在步骤405b,判断属性词的属性词竞争指标是否大于全部标题竞争指标中预定数量的指标。
在步骤406b,在属性词的属性词竞争指标大于全部标题竞争指标中预定数量的指标的情况下,将属性词加入物品标题名中,以便对物品标题名进行优化。
在步骤407,按照相似词竞争指标从大到小的顺序,选取预定数量的相似词。按照属性词竞争指标从大到小的顺序,选取预定数量的属性词。将选取出的相似词和属性词作为评估结果。
例如,在上述女装品牌商品来说,在其属性词中,休闲的指标为1958943.23,2018夏季的指标为167648.11,复古的指标为109775.06,修身型的指标为93824,圆领的指标为78164.08,文艺的指标为34398.87,这些属性词的表现均高于商品标题中75%的分词的指标,所以可在商品标题名中加入这些属性词,以提高商品的搜索点击率。
图5为本公开一个实施例的模型训练方法的示例性流程图。在一些实施例中,本实施例的方法步骤可由关键词评估装置执行。
在步骤501,查询与训练物品标识对应的训练物品标题名。
在步骤502,对训练物品标题名进行分词处理,以得到训练标题分词。
在一些实施例中,在进行分词处理所使用的分词词库中,包括物品的产品词、品牌词或属性词中的至少一项。由此可提供分词处理的精确度。
在步骤503,利用训练标题分词对训练模型进行训练。
在一些实施例中,训练模型为word2vec模型。
在步骤504,判断训练模型是否满足预定条件。
若训练模型不满足预定条件,则执行步骤505;若训练模型满足预定条件,则执行步骤506。
在步骤505,调整训练模型的模型参数,并重复执行步骤503。
在步骤506,将训练后的训练模型作为词向量模型。
这里需要说明的是,目前对word2vec模型的评价方式大多采用将其输出结果输入到下游模型中,以便根据下游模型的效果提升程度来简介评价word2vec模型的优劣。但在本公开中,word2vec模型并没有下游模型,因此需要根据应用场景直接评价该模型的优劣。
在一些实施例中,上述判断训练模型是否满足预定条件的步骤可包括:从分词词库中提取出分词V。利用训练模型,查询与分词V距离最近的第一预定数量个相似词。针对查询出的每个相似词SV,利用训练模型,查询与相似词SV距离最近的第二预定数量个相似词SV1。检测分词V在查询到的全部相似词SV1中的出现次数。若出现次数低于预定门限,则确定训练模型满足预定条件;若出现次数不低于预定门限,则确定训练模型不满足预定条件。
例如,从分词词库中随机抽取100个词V,并利用训练模型分别对这100个词进行处理,以便为每个词V查询到距离最近的10个相似词SV。这里的距离可以为欧氏距离、余弦距离等。接下来,针对每个相似词SV,再通过训练模型查找距离最近的10个相似词。也就是说,针对每个词V,查找到100个相似词。进而通过该词V在这100个相似词中的出现次数。每出现一次计分0.1,整个模型最高得分100。得分越高,说明模型分布越均匀;得分越低,说明模型分布整体分散、局部集中。针对本公开的应用场景,分数越低越好。
图6为本公开一个实施例的关键词评估装置的示例性框图。如图6所示,关键词评估装置包括查询模块61、分词处理模块62、相似词查询模块63、指标计算模块64和结果选取模块65。
查询模块61被配置为查询与目标物品标识对应的物品标题名。
分词处理模块62被配置为对物品标题名进行分词处理,以得到标题分词。
相似词查询模块63被配置为利用预设的词向量模型,查询标题分词的相似词。
在一些实施例中,预设的词向量模型为word2vec模型。
指标计算模块64被配置为计算相似词的相似词竞争指标,其中相似词竞争指标与对应相似词的搜索点击量或搜索量相关联。
在一些实施例中,利用上述公式(1)计算相应指标。
结果选取模块65被配置为按照相似词竞争指标从大到小的顺序,选取预定数量的相似词以作为评估结果。
在本公开上述实施例提供的关键词评估装置中,通过利用词向量模型查询物品标题词的相似词,并通过计算相似词的竞争指标,以便将用户更容易检索到的相关用词提供给商家,为商家确定商品标题时提供决策参考。
图7为本公开另一个实施例的关键词评估装置的示例性框图。图7与图6的不同之处在于,在图7所示实施例中,还包括优化模块66。
指标计算模块64被配置为计算标题分词的标题竞争指标,其中标题竞争指标与对应标题分词的搜索点击量或搜索量相关联。
在一些实施例中,指标计算模块64采用上述公式(1)计算相应指标。
优化模块66被配置为判断相似词的相似词竞争指标是否大于对应标题分词的标题竞争指标,在相似词的相似词竞争指标大于对应标题分词的标题竞争指标的情况下,用相似词替换相对应标题分词,以便对物品标题名进行优化。
例如,物品标题名中包括“棉质”一词。通过计算,得到该分词的搜索点击指标为10606.33。通过word2vec模型找到“棉质”的相似词,并计算相应的搜索点击指标。相应内容如下:女棉:指标为33858.11,纯棉女:指标为32604.57,全棉:指标为38115.95,纯棉:指标为398764.92。根据计算结果,可以发现相似词中存在比“棉质”更优的词,则可以这些词对其进行替换。例如,用“纯棉”替代标题名中的“棉质”。对标题中的其他词也可以采用相同的方法进行优化。
在一些实施例中,查询模块61还被配置为查询与目标物品标识对应的属性词。
指标计算模块64还被配置为计算属性词的属性词竞争指标,其中属性词竞争指标与对应属性词的搜索点击量或搜索量相关联。
结果选取模块65还被配置为按照属性词竞争指标从大到小的顺序,选取预定数量的属性词以作为评估结果。
在一些实施例中,优化模块66还被配置为判断属性词的属性词竞争指标是否大于全部标题竞争指标中预定数量的指标,在属性词的属性词竞争指标大于全部标题竞争指标中预定数量的指标的情况下,将属性词加入物品标题名中,以便对物品标题名进行优化。
例如,在SKUID相应的属性词中,休闲的指标为1958943.23,2018夏季的指标为167648.11,复古的指标为109775.06,修身型的指标为93824,圆领的指标为78164.08,文艺的指标为34398.87,这些属性词的表现均高于商品标题中75%的分词的指标,所以可在商品标题名中加入这些属性词,以提高商品的搜索点击率。
在一些实施例中,如图7所示,关键词评估装置还包括训练模块67。
查询模块61还被配置为查询与训练物品标识对应的训练物品标题名。
分词处理模块62还被配置为对训练物品标题名进行分词处理,以得到训练标题分词。
训练模块67被配置为利用训练标题分词对训练模型进行训练,判断训练模型是否满足预定条件,若训练模型不满足预定条件,则调整训练模型的模型参数,并重复执行利用训练标题分词对训练模型进行训练的操作,若训练模型满足预定条件,则将训练后的训练模型作为词向量模型。
在一些实施例中,在进行分词处理所使用的分词词库中,包括物品的产品词、品牌词或属性词中的至少一项,以便提升分词的精确度。
在一些实施例中,训练模块67还被配置为从分词词库中提取出分词V,利用训练模型,查询与分词V距离最近的第一预定数量个相似词,针对查询出的每个相似词SV,利用训练模型,查询与相似词SV距离最近的第二预定数量个相似词SV1,检测分词V在查询到的全部相似词SV1中的出现次数,若出现次数低于预定门限,则确定训练模型满足预定条件,若出现次数不低于预定门限,则确定训练模型不满足预定条件。
图8为本公开又一个实施例的关键词评估装置的示例性框图。如图8所示,关键词评估装置包括存储器81和处理器82。
存储器81用于存储指令,处理器82耦合到存储器81,处理器82被配置为基于存储器存储的指令执行实现如图1至图5中任一实施例涉及的方法。
如图8所示,该关键词评估装置还包括通信接口83,用于与其它设备进行信息交互。同时,该装置还包括总线84,处理器82、通信接口83、以及存储器81通过总线84完成相互间的通信。
存储器81可以包含高速RAM存储器,也可还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。存储器81也可以是存储器阵列。存储器81还可能被分块,并且块可按一定的规则组合成虚拟卷。
此外,处理器82可以是一个中央处理器CPU,或者可以是专用集成电路ASIC,或者是被配置成实施本公开实施例的一个或多个集成电路。
本公开同时还涉及一种计算机可读存储介质,其中计算机可读存储介质存储有计算机指令,指令被处理器执行时实现如图1至图5中任一实施例涉及的方法。
图9为本公开一个实施例的词向量模型训练的示例性流程图。
在步骤901,查询与训练物品标识对应的训练物品标题名。
在步骤902,建立分词词库。其中在分词词库中,包括物品的产品词、品牌词或属性词中的至少一项。
在步骤903,利用分词词库对训练物品标题名进行分词处理,以得到训练标题分词。
在步骤904,对得到的训练标题分词进行过滤,以去除纯数字、单个英文字母和符号。
在步骤905,利用训练标题分词对训练模型进行训练。
在一些实施例中,训练模型为word2vec模型。
在步骤906,对训练模型进行评价,以判断训练模型是否满足预定条件。
若训练模型不满足预定条件,则调整训练模型的模型参数,并重复执行步骤905;若训练模型满足预定条件,则执行步骤907。
在步骤907,将训练后的训练模型作为词向量模型。
图10为本公开一个实施例的SKU标题优化的示例性流程图。
在步骤1001,查询与目标物品标识对应的物品标题名和属性词。
在步骤1002,对物品标题名进行分词处理,以得到标题分词。
在步骤1003,对得到的标题分词进行过滤,以去除纯数字、单个英文字母和符号。
在步骤1004,利用经过训练的词向量模型word2vec,查询标题分词的相似词。
在步骤1005,计算相关词的指标。其中,计算相似词的相似词竞争指标,其中相似词竞争指标与对应相似词的搜索点击量或搜索量相关联。计算标题分词的标题竞争指标,其中标题竞争指标与对应标题分词的搜索点击量或搜索量相关联。还计算属性词的属性词竞争指标,其中属性词竞争指标与对应属性词的搜索点击量或搜索量相关联。
在步骤1006,对相似词进行优化。其中,通过判断相似词的相似词竞争指标是否大于对应标题分词的标题竞争指标。若相似词的相似词竞争指标大于对应标题分词的标题竞争指标,则用相似词替换相对应标题分词,以便对物品标题名进行优化。然后执行步骤1008。
在步骤1007,对属性词进行优化。其中,通过判断属性词的属性词竞争指标是否大于全部标题竞争指标中预定数量的指标。若属性词的属性词竞争指标大于全部标题竞争指标中预定数量的指标的情况下,则将属性词加入物品标题名中,以便对物品标题名进行优化。
在步骤1008,生成SKU粒度的关键词表。通过按照相似词竞争指标从大到小的顺序,选取预定数量的相似词。按照属性词竞争指标从大到小的顺序,选取预定数量的属性词。将选取出的相似词和属性词作为评估结果。
在一些实施例中,在上面所描述的功能单元模块可以实现为用于执行本公开所描述功能的通用处理器、可编程逻辑控制器(Programmable Logic Controller,简称:PLC)、数字信号处理器(Digital Signal Processor,简称:DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,简称:ASIC)、现场可编程门阵列(Field-ProgrammableGate Array,简称:FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本公开的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用,并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。
Claims (16)
1.一种关键词评估方法,包括:
查询与目标物品标识对应的物品标题名;
对所述物品标题名进行分词处理,以得到标题分词;
利用预设的词向量模型,查询所述标题分词的相似词;
计算所述相似词的相似词竞争指标,其中所述相似词竞争指标与对应相似词的搜索点击量或搜索量相关联;
按照相似词竞争指标从大到小的顺序,选取预定数量的相似词以作为评估结果。
2.根据权利要求1所述的方法,还包括:
计算所述标题分词的标题竞争指标,其中所述标题竞争指标与对应标题分词的搜索点击量或搜索量相关联;
判断所述相似词的相似词竞争指标是否大于对应标题分词的标题竞争指标;
在所述相似词的相似词竞争指标大于对应标题分词的标题竞争指标的情况下,用所述相似词替换相对应标题分词,以便对所述物品标题名进行优化。
3.根据权利要求2所述的方法,还包括:
查询与目标物品标识对应的属性词;
计算所述属性词的属性词竞争指标,其中所述属性词竞争指标与对应属性词的搜索点击量或搜索量相关联;
按照属性词竞争指标从大到小的顺序,选取预定数量的属性词以作为评估结果。
4.根据权利要求3所述的方法,还包括:
判断所述属性词的属性词竞争指标是否大于全部标题竞争指标中预定数量的指标;
在所述属性词的属性词竞争指标大于全部标题竞争指标中预定数量的指标的情况下,将所述属性词加入所述物品标题名中,以便对所述物品标题名进行优化。
5.根据权利要求1-4中任一项所述的方法,还包括:
查询与训练物品标识对应的训练物品标题名;
对所述训练物品标题名进行分词处理,以得到训练标题分词;
利用所述训练标题分词对训练模型进行训练;
判断所述训练模型是否满足预定条件;
若所述训练模型不满足预定条件,则调整所述训练模型的模型参数,并重复执行利用所述训练标题分词对训练模型进行训练的步骤;
若所述训练模型满足预定条件,则将训练后的训练模型作为词向量模型。
6.根据权利要求5所述的方法,其中,在进行分词处理所使用的分词词库中,包括物品的产品词、品牌词或属性词中的至少一项。
7.根据权利要求6所述的方法,判断所述训练模型是否满足预定条件包括:
从所述分词词库中提取出分词V;
利用所述训练模型,查询与分词V距离最近的第一预定数量个相似词;
针对查询出的每个相似词SV,利用所述训练模型,查询与相似词SV距离最近的第二预定数量个相似词SV1;
检测分词V在查询到的全部相似词SV1中的出现次数;
若出现次数低于预定门限,则确定所述训练模型满足预定条件;
若出现次数不低于预定门限,则确定所述训练模型不满足预定条件。
8.一种关键词评估装置,包括:
查询模块,被配置为查询与目标物品标识对应的物品标题名;
分词处理模块,被配置为对所述物品标题名进行分词处理,以得到标题分词;
相似词查询模块,被配置为利用预设的词向量模型,查询所述标题分词的相似词;
指标计算模块,被配置为计算所述相似词的相似词竞争指标,其中所述相似词竞争指标与对应相似词的搜索点击量或搜索量相关联;
结果选取模块,被配置为按照相似词竞争指标从大到小的顺序,选取预定数量的相似词以作为评估结果。
9.根据权利要求8所述的装置,还包括优化模块,其中:
指标计算模块还被配置为计算所述标题分词的标题竞争指标,其中所述标题竞争指标与对应标题分词的搜索点击量或搜索量相关联;
优化模块,被配置为判断所述相似词的相似词竞争指标是否大于对应标题分词的标题竞争指标,在所述相似词的相似词竞争指标大于对应标题分词的标题竞争指标的情况下,用所述相似词替换相对应标题分词,以便对所述物品标题名进行优化。
10.根据权利要求9所述的装置,其中,
查询模块还被配置为查询与目标物品标识对应的属性词;
指标计算模块还被配置为计算所述属性词的属性词竞争指标,其中所述属性词竞争指标与对应属性词的搜索点击量或搜索量相关联;
结果选取模块还被配置为按照属性词竞争指标从大到小的顺序,选取预定数量的属性词以作为评估结果。
11.根据权利要求10所述的装置,其中,
优化模块还被配置为判断所述属性词的属性词竞争指标是否大于全部标题竞争指标中预定数量的指标,在所述属性词的属性词竞争指标大于全部标题竞争指标中预定数量的指标的情况下,将所述属性词加入所述物品标题名中,以便对所述物品标题名进行优化。
12.根据权利要求8-11中任一项所述的装置,还包括训练模块,其中,
查询模块还被配置为查询与训练物品标识对应的训练物品标题名;
分词处理模块还被配置为对所述训练物品标题名进行分词处理,以得到训练标题分词;
训练模块,被配置为利用所述训练标题分词对训练模型进行训练,判断所述训练模型是否满足预定条件,若所述训练模型不满足预定条件,则调整所述训练模型的模型参数,并重复执行利用所述训练标题分词对训练模型进行训练的操作,若所述训练模型满足预定条件,则将训练后的训练模型作为词向量模型。
13.根据权利要求12所述的装置,其中,在进行分词处理所使用的分词词库中,包括物品的产品词、品牌词或属性词中的至少一项。
14.根据权利要求13所述的装置,其中,
训练模块还被配置为从所述分词词库中提取出分词V,利用所述训练模型,查询与分词V距离最近的第一预定数量个相似词,针对查询出的每个相似词SV,利用所述训练模型,查询与相似词SV距离最近的第二预定数量个相似词SV1,检测分词V在查询到的全部相似词SV1中的出现次数,若出现次数低于预定门限,则确定所述训练模型满足预定条件,若出现次数不低于预定门限,则确定所述训练模型不满足预定条件。
15.一种关键词评估装置,包括:
存储器,被配置为存储指令;
处理器,耦合到存储器,处理器被配置为基于存储器存储的指令执行实现如权利要求1-7中任一项的方法。
16.一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机指令,指令被处理器执行时实现如权利要求1-7中任一项的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810868216.8A CN110807083A (zh) | 2018-08-02 | 2018-08-02 | 关键词评估方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810868216.8A CN110807083A (zh) | 2018-08-02 | 2018-08-02 | 关键词评估方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110807083A true CN110807083A (zh) | 2020-02-18 |
Family
ID=69486792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810868216.8A Pending CN110807083A (zh) | 2018-08-02 | 2018-08-02 | 关键词评估方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110807083A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113536778A (zh) * | 2020-04-14 | 2021-10-22 | 北京沃东天骏信息技术有限公司 | 标题的生成方法、装置和计算机可读存储介质 |
CN113761335A (zh) * | 2020-11-19 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 资源处理方法和装置 |
CN115169337A (zh) * | 2022-08-24 | 2022-10-11 | 中教畅享(北京)科技有限公司 | 一种商品标题优化中关键词得分的计算方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488136A (zh) * | 2015-11-25 | 2016-04-13 | 北京京东尚科信息技术有限公司 | 选购热点标签的挖掘方法 |
CN106326259A (zh) * | 2015-06-26 | 2017-01-11 | 苏宁云商集团股份有限公司 | 搜索引擎中商品标签的构建方法、系统及搜索方法和系统 |
WO2017157198A1 (zh) * | 2016-03-17 | 2017-09-21 | 阿里巴巴集团控股有限公司 | 属性获取方法和装置 |
CN107679119A (zh) * | 2017-09-19 | 2018-02-09 | 北京京东尚科信息技术有限公司 | 生成品牌衍生词的方法和装置 |
CN108255881A (zh) * | 2016-12-29 | 2018-07-06 | 北京国双科技有限公司 | 一种生成投放关键词的方法及装置 |
-
2018
- 2018-08-02 CN CN201810868216.8A patent/CN110807083A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106326259A (zh) * | 2015-06-26 | 2017-01-11 | 苏宁云商集团股份有限公司 | 搜索引擎中商品标签的构建方法、系统及搜索方法和系统 |
CN105488136A (zh) * | 2015-11-25 | 2016-04-13 | 北京京东尚科信息技术有限公司 | 选购热点标签的挖掘方法 |
WO2017157198A1 (zh) * | 2016-03-17 | 2017-09-21 | 阿里巴巴集团控股有限公司 | 属性获取方法和装置 |
CN108255881A (zh) * | 2016-12-29 | 2018-07-06 | 北京国双科技有限公司 | 一种生成投放关键词的方法及装置 |
CN107679119A (zh) * | 2017-09-19 | 2018-02-09 | 北京京东尚科信息技术有限公司 | 生成品牌衍生词的方法和装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113536778A (zh) * | 2020-04-14 | 2021-10-22 | 北京沃东天骏信息技术有限公司 | 标题的生成方法、装置和计算机可读存储介质 |
CN113761335A (zh) * | 2020-11-19 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 资源处理方法和装置 |
CN115169337A (zh) * | 2022-08-24 | 2022-10-11 | 中教畅享(北京)科技有限公司 | 一种商品标题优化中关键词得分的计算方法 |
CN115169337B (zh) * | 2022-08-24 | 2023-02-14 | 中教畅享(北京)科技有限公司 | 一种商品标题优化中关键词得分的计算方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104063523B (zh) | 一种电子商务搜索评分与排名的方法及系统 | |
CN110019658B (zh) | 检索项的生成方法及相关装置 | |
CN104866474B (zh) | 个性化数据搜索方法及装置 | |
KR101700585B1 (ko) | 온라인 제품 검색 방법 및 시스템 | |
US10423648B2 (en) | Method, system, and computer readable medium for interest tag recommendation | |
CN106156204A (zh) | 文本标签的提取方法和装置 | |
WO2017157198A1 (zh) | 属性获取方法和装置 | |
CN109960756B (zh) | 新闻事件信息归纳方法 | |
CN106599054B (zh) | 一种题目分类及推送的方法及系统 | |
CN103246980B (zh) | 信息输出方法及服务器 | |
CN107203507B (zh) | 特征词汇提取方法及装置 | |
CN110807083A (zh) | 关键词评估方法和装置 | |
US20150088894A1 (en) | Producing sentiment-aware results from a search query | |
JP2016532173A (ja) | 意味情報、キーワード拡張及びそれに関するキーワード検索の方法及びシステム | |
CN109597990B (zh) | 一种社会热点与商品品类的匹配方法 | |
CN105069086A (zh) | 一种优化电子商务商品搜索的方法及系统 | |
WO2011112236A1 (en) | Categorizing products | |
CN103810198A (zh) | 一种商品信息的搜索方法及装置 | |
CN107180093A (zh) | 信息搜索方法及装置和时效性查询词识别方法及装置 | |
CN106372122B (zh) | 一种基于维基语义匹配的文档分类方法及系统 | |
CN107665217A (zh) | 一种用于搜索业务的词汇处理方法及系统 | |
CN105512333A (zh) | 基于情感倾向的产品评论主题搜索方法 | |
CN102789452A (zh) | 类似内容提取方法 | |
CN104951435A (zh) | 聊天过程中智能显示关键词的方法及装置 | |
CN114611010A (zh) | 一种商品搜索推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |