CN108108497A - 关键词推荐方法及设备 - Google Patents
关键词推荐方法及设备 Download PDFInfo
- Publication number
- CN108108497A CN108108497A CN201810086544.2A CN201810086544A CN108108497A CN 108108497 A CN108108497 A CN 108108497A CN 201810086544 A CN201810086544 A CN 201810086544A CN 108108497 A CN108108497 A CN 108108497A
- Authority
- CN
- China
- Prior art keywords
- candidate keywords
- vector
- descriptive labelling
- split
- participle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90324—Query formulation using system suggestions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的目的是提供一种关键词推荐方法及设备,本发明从候选关键词与商品描述信息的相似度、候选关键词与商品描述信息所属类目的相关度、和候选关键词的市场搜索数据三方面衡量候选关键词的可用性,可以选取可用性高的关键词添加到目标推荐词推广组,从而保证的推荐词的精确度。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种关键词推荐方法及设备。
背景技术
现有的商品关键词的推荐方案存在不准确的问题。
发明内容
本发明的一个目的是提供一种关键词推荐方法及设备,能够解决现有的商品关键词的推荐方案存在不准确的问题。
根据本发明的一个方面,提供了一种关键词推荐方法,该方法包括:
获取待推荐关键词的商品描述信息及其对应的类目;
将所述待推荐关键词的商品描述信息进行拆分得到对应的分词片段;
从关键词词库获取所述类目中包含所述分词片段的候选关键词,及获取所述候选关键词与所述类目的相关性分数,和获取所述候选关键词的搜索数据;
将所述候选关键词进行拆分得到对应的分词片段;
根据所述商品描述信息所拆分得到的分词片段,得到所述商品描述信息的向量,及根据所述候选关键词所拆分得到的分词片段,得到所述候选关键词的向量;
根据所述商品描述信息的向量和候选关键词的向量计算所述商品描述信息与每一个候选关键词的相似度;
根据所述相似度、相关性分数和搜索数据计算各个候选关键词的综合分值;
获取综合分值大于预设阈值的候选关键词。
进一步的,上述方法中,根据所述商品描述信息所拆分得到的分词片段,得到所述商品描述信息的向量,及根据所述候选关键词所拆分得到的分词片段,得到所述候选关键词的向量,包括:
将所述商品描述信息所拆分得到的分词片段和所述候选关键词所拆分得到的分词片段进行合并,得到分词语料;
利用所述分词语料创建向量化模型,基于所述创建向量化模型分别得到所述商品描述信息的向量和候选关键词的向量。
进一步的,上述方法中,将所述待推荐关键词的商品描述信息进行拆分得到对应的分词片段,包括:
将所述待推荐关键词的商品描述信息进行拆分得到对应的分词片段和每个分词片段对应的词性;
将所述候选关键词进行拆分得到对应的分词片段,包括:
将所述候选关键词进行拆分得到对应的分词片段和每个分词片段对应的词性;
根据所述商品描述信息所拆分得到的分词片段,得到所述商品描述信息的向量,及根据所述候选关键词所拆分得到的分词片段,得到所述候选关键词的向量,包括:
根据所述商品描述信息所拆分得到的分词片段,得到所述商品描述信息的初始向量,及根据所述候选关键词所拆分得到的分词片段,得到的所述候选关键词的初始向量;
获取所述商品描述信息和候选关键词中各个分词片段对应的词性所对应的权重;
根据对应的权重分别对所述商品描述信息的初始向量和候选关键词的初始向量进行调整,得到调整后的商品描述信的向量和候选关键词的向量。
进一步的,上述方法中,根据所述商品描述信息的向量和候选关键词的向量计算所述商品描述信息与每一个候选关键词的相似度,包括:
利用预设的两个相关性分数算法,分别计算调整后的商品描述信的向量和候选关键词的向量的相似度分数。
进一步的,上述方法中,根据所述相似度、相关性分数和搜索数据计算各个候选关键词的综合分值,包括:
根据如下公式计算各个候选关键词的综合分值F:
其中,α×D+(1-α)表示商品描述信息与某一个候选关键词的最终相似度,R表示所述相关性分数,I表示候选关键词的搜索数据,α表示所述相似度分数的权重,D和J分别表示一个相似度分数。
根据本发明的另一方面,还提供了一种关键词推荐设备,该设备包括:
第一获取模块,用于获取待推荐关键词的商品描述信息及其对应的类目;
第一分词模块,用于将所述待推荐关键词的商品描述信息进行拆分得到对应的分词片段;
第二获取模块,用于从关键词词库获取所述类目中包含所述分词片段的候选关键词,及获取所述候选关键词与所述类目的相关性分数,和获取所述候选关键词的搜索数据;
第二分词模块,用于将所述候选关键词进行拆分得到对应的分词片段;
向量模块,用于根据所述商品描述信息所拆分得到的分词片段,得到所述商品描述信息的向量,及根据所述候选关键词所拆分得到的分词片段,得到所述候选关键词的向量;
相似度模块,用于根据所述商品描述信息的向量和候选关键词的向量计算所述商品描述信息与每一个候选关键词的相似度;
计算模块,用于根据所述相似度、相关性分数和搜索数据计算各个候选关键词的综合分值,获取综合分值大于预设阈值的候选关键词。
进一步的,上述设备中,所述向量模块,用于将所述商品描述信息所拆分得到的分词片段和所述候选关键词所拆分得到的分词片段进行合并,得到分词语料;利用所述分词语料创建向量化模型,基于所述创建向量化模型分别得到所述商品描述信息的向量和候选关键词的向量。
进一步的,上述设备中,所述第一分词模块,用于将所述待推荐关键词的商品描述信息进行拆分得到对应的分词片段和每个分词片段对应的词性;
所述第二分词模块,用于将所述候选关键词进行拆分得到对应的分词片段和每个分词片段对应的词性;
所述向量模块,用于根据所述商品描述信息所拆分得到的分词片段,得到所述商品描述信息的初始向量,及根据所述候选关键词所拆分得到的分词片段,得到的所述候选关键词的初始向量;获取所述商品描述信息和候选关键词中各个分词片段对应的词性所对应的权重;根据对应的权重分别对所述商品描述信息的初始向量和候选关键词的初始向量进行调整,得到调整后的商品描述信的向量和候选关键词的向量。
进一步的,上述设备中,所述相似度模块,用于利用预设的两个相关性分数算法,分别计算调整后的商品描述信的向量和候选关键词的向量的相似度分数。
进一步的,上述设备中,所述计算模块,用于根据如下公式计算各个候选关键词的综合分值F:
其中,α×D+(1-α)表示商品描述信息与某一个候选关键词的最终相似度,R表示所述相关性分数,I表示候选关键词的搜索数据,α表示所述相似度分数的权重,D和J分别表示一个相似度分数。
根据本发明的另一面,还提供一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:
获取待推荐关键词的商品描述信息及其对应的类目;
将所述待推荐关键词的商品描述信息进行拆分得到对应的分词片段;
从关键词词库获取所述类目中包含所述分词片段的候选关键词,及获取所述候选关键词与所述类目的相关性分数,和获取所述候选关键词的搜索数据;
将所述候选关键词进行拆分得到对应的分词片段;
根据所述商品描述信息所拆分得到的分词片段,得到所述商品描述信息的向量,及根据所述候选关键词所拆分得到的分词片段,得到所述候选关键词的向量;
根据所述商品描述信息的向量和候选关键词的向量计算所述商品描述信息与每一个候选关键词的相似度;
根据所述相似度、相关性分数和搜索数据计算各个候选关键词的综合分值;
获取综合分值大于预设阈值的候选关键词。
根据本发明的另一面,还提供一种计算器设备,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取待推荐关键词的商品描述信息及其对应的类目;
将所述待推荐关键词的商品描述信息进行拆分得到对应的分词片段;
从关键词词库获取所述类目中包含所述分词片段的候选关键词,及获取所述候选关键词与所述类目的相关性分数,和获取所述候选关键词的搜索数据;
将所述候选关键词进行拆分得到对应的分词片段;
根据所述商品描述信息所拆分得到的分词片段,得到所述商品描述信息的向量,及根据所述候选关键词所拆分得到的分词片段,得到所述候选关键词的向量;
根据所述商品描述信息的向量和候选关键词的向量计算所述商品描述信息与每一个候选关键词的相似度;
根据所述相似度、相关性分数和搜索数据计算各个候选关键词的综合分值;
获取综合分值大于预设阈值的候选关键词。
与现有技术相比,本发明从候选关键词与商品描述信息的相似度、候选关键词与商品描述信息所属类目的相关度、和候选关键词的市场搜索数据三方面衡量候选关键词的可用性,可以选取可用性高的关键词添加到目标推荐词推广组,从而保证的推荐词的精确度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的一种关键词推荐方法及设备的原理图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
在给定目标商品描述信息(商品标题+属性值,商品所属类目ID),和词性的权重的场景下,如图1所示,本发明提供一种商品的关键词推荐方法的处理流程如下:
步骤S101,将商品标题+属性值分词,得到分词片段Item_terms和对应的词性Item_term_tags;
在此,这里的词性是指,分词时拆分出的分词片段所描述的商品的特征属性,如“波西比亚长裙”一词,分词为“波西米亚”、“长”和”裙”,其中,“波西米亚”描述的是商品的风格,可标记词性为:风格词,“长”描述的是产品的一般性特征,可标记词性为:一般描述词,“裙”可标记词性为产品词;
步骤S102,根据Item_terms从关键词词库取出商品所属类目ID下的所有相关关键词和对应的类目相关性分数Relevance_Score;随后取出候选词的大盘数据;
取词时可以添加包含词和排除词,可以检测商品信息中的常见别词,如长/短、春/夏/秋/冬等,加入到排除项;
步骤S103,将所取得的关键词分词得到各关键词对应的分词片段和词性,KW_terms,KW_term_tags;
步骤S104,合并Item_terms和KW_terms得到商品+关键词的分词语料Terms;Item_term_tags和KW_term_tags合并得到所有词段对应的词性Term_Tags;
步骤S105,利用分词语料Terms创建向量化模型,基于所述创建向量化模型分别得到所述商品描述信息和候选关键词对应的词向量矩阵M1、M2和矩阵对应的特征名称(分词片段)Featur_Names;
向量化模型可使用word2vec和TFIDF模型,也可以直接计数向量化。
步骤S106,根据提前设定好的词性的权重Tag_weights,结合Term_tags和Featur_Names,通过对应关系得到Featur_Names对应的权重Featur_Weights,
在此词性的权重是一个可选的做法,如果能准确分析出商品标题中的产品词,核心修饰词,一般修饰词等类别,结果比按词性给分词片段分配权重更准确;
步骤S107,将步骤S105中得到的词向量矩阵M1、M2分别乘以对应的词性权重Feature_Weights,得到矫正权重的词向量矩阵Weight_Ajusted_M1、Weight_Ajusted_M2;
步骤S107,利用Weight_Ajusted_M1、Weight_Ajusted_M2计算所要用到的相似度分数Scores,其中,计算相似度分数Scores的算法可以有如下几种:
–
–
–
–
–
其中,A为Weight_Ajusted_M1,B为Weight_Ajusted_M2,可以使用上述计算相似度分数Scores的算法中的任意两种,通过线性加和达到最终的相似性分数.可以JaccardSimilarity Coefficient(Jaccard Similarity)和参照Overlap Similarity定义的描述性分数Descriptive Score;
步骤S108,结合计算好的相似度分数Scores(Similarity1,Similarity2),相关性分数R(Relevance_Score)和从大盘数据中取出的数据指标,计算最终的排序分数:
–Weight,W=
[α·Similarity1+(1-α)·Similarity2]·Relevance_Score
–Market Data Indicator,I
–Final Score,F=W·I
其中,[α·Similarity1+(1-α)·Similarity2]表示商品描述信息与某一个候选关键词的最终相似度,α表示所述相似度分数的权重,Similarity1,Similarity2分别表示一个相似度分数;
R表示所述相关性分数;
I表示候选关键词的搜索数据。
在此,不同的策略可使用不同的大盘数据(市场数据)指标计算最终分数.比如,长尾策略注重关键词的转化效果,可以使用转化率,成交笔数,投入产出比等指标;品牌引流策略重在引入流量,可以展现量作为指标.
步骤S109,将候选词按最终的排序分数降序排列,取top N个关键词作为推荐词。
下面通过一具体的应用实施例对上述方法进行描述:
步骤S201,获取用户的商品信息:商品标题+属性值,如“夏季粉色露背吊带雪纺波西米亚长裙吊带裙”;
步骤S202,对上述商品信息分词,得到分词片段Item_terms和相应的词性标签Item_term_tags:
分词片段 | 词性标签 |
夏季 | 时间季节 |
粉色 | 颜色 |
露背 | 风格样式 |
吊带 | 风格样式 |
雪纺 | 材质 |
波西米亚 | 风格 |
长 | 属性词 |
裙 | 产品词 |
步骤S203,利用分词片段到关键词词库的该商品描述信息所属类目的词中取候选关键词,比如通过“吊带”可以取出“吊带长裙粉色”一词,假定该词在给定的商品所属类目下,并且类目相关性分数Relevance_Score为0.7,该词的搜索数据为10000000;
步骤S204,对“吊带长裙粉色”分词,可得到分词片段KW_terms:“吊带”,“长”,“裙”,“粉色”;
步骤S205,利用商品描述信息和关键词分词的分词片段构建向量模型,并使用自定义好的词性权重来矫正模型中的向量权重.如使用简单的计数方式构建计数向量模型为:
其中,上表中词性权重(Tag_weights)中的每一例表示一个词性权重Featur_Weights,
用上表中自定义的词性权重Featur_Weights矫正后,商品描述信息A的向量为[1,1,3,6,2,3,4,10],候选关键词的向量B为[0,0,0,3,0,0,4,5];
步骤S206,根据所用的相似度公式计算关键词与商品属性的相关性,如广义Jaccard相似度可按下面的方式计算
描述性分数可按公式计算为
步骤S207,将两个相似度的分数线性加和,得到最终的相似度分数,如取两个相似度的权重相等,则最终的相似性分数为0.413793×0.5+0.477273×0.5=0.445533,
步骤S208,结合我们前面取词时获取到的词的类目相关性分数和搜索数据,“吊带长裙粉色”一词的最终分数计算为
步骤S209,按以上方法计算所有取出的关键词的最终分数,然后将取出的关键词按其最终分数降序排列。使用时,可以根据实际情况取前N个关键词作为推荐词。
本发明的商品的关键词推荐方法一实施例中,一种商品的关键词推荐方法,包括:
步骤S1,获取待推荐关键词的商品描述信息及其对应的类目;
步骤S2,将所述待推荐关键词的商品描述信息进行拆分得到对应的分词片段;
步骤S3,从关键词词库获取所述类目中包含所述分词片段的候选关键词,及获取所述候选关键词与所述类目的相关性分数,和获取所述候选关键词的搜索数据;
在此,所述候选关键词的搜索数据可以是候选关键词的大盘数据、市场数据,不同的策略可使用不同的市场数据指标计算最终分数,比如,长尾策略注重关键词的转化效果,可以使用转化率、成交笔数、投入产出比等指标;品牌引流策略重在引入流量,可以展现量作为指标;
所述相关性分数是用来描述候选关键词与商品描述信息所在类目的相似度,即表示候选关键词可用在该类目的可能性,相似性分数可以用一个概率值表示;
步骤S4,将所述候选关键词进行拆分得到对应的分词片段;
步骤S5,根据所述商品描述信息所拆分得到的分词片段,得到所述商品描述信息的向量,及根据所述候选关键词所拆分得到的分词片段,得到所述候选关键词的向量;
步骤S5,根据所述商品描述信息的向量和候选关键词的向量计算所述商品描述信息与每一个候选关键词的相似度;
步骤S6,根据所述相似度、相关性分数和搜索数据计算各个候选关键词的综合分值;
步骤S7,获取综合分值大于预设阈值的候选关键词。
在此,与商品描述信息的相似度越高且市场搜索数据值越高的候选关键词,则关键词的综合分值越高,该关键词越适合作为所述商品描述信息的推荐词。
本实施从候选关键词与商品描述信息的相似度、候选关键词与商品描述信息所属类目的相关度、和候选关键词的市场搜索数据三方面衡量候选关键词的可用性,可以选取可用性高的关键词添加到目标推荐词推广组,从而保证的推荐词的精确度。
本发明的商品的关键词推荐方法一实施例中,步骤S5,根据所述商品描述信息所拆分得到的分词片段,得到所述商品描述信息的向量,及根据所述候选关键词所拆分得到的分词片段,得到所述候选关键词的向量,包括:
将所述商品描述信息所拆分得到的分词片段和所述候选关键词所拆分得到的分词片段进行合并,得到分词语料;
利用所述分词语料创建向量化模型,基于所述创建向量化模型分别得到所述商品描述信息的向量和候选关键词的向量,从而可以准确获取到所述商品描述信息的向量和候选关键词的向量,便于后续候选关键词的精确推荐。
本发明的商品的关键词推荐方法一实施例中,步骤S2,将所述待推荐关键词的商品描述信息进行拆分得到对应的分词片段,包括:
将所述待推荐关键词的商品描述信息进行拆分得到对应的分词片段和每个分词片段对应的词性;
在此,这里的词性是指,分词时拆分出的分词片段所描述的商品的特征属性,如“波西比亚长裙”一词,分词为“波西米亚”、“长”和”裙”,其中,“波西米亚”描述的是商品的风格,可标记词性为:风格词,“长”描述的是产品的一般性特征,可标记词性为:一般描述词,“裙”可标记词性为产品词;
对于词性,可以使用已有的商品属性及属性值数据建立词性库,作为分词词典使用,在分词时同时得到分词片段的词性标签,或者在分词结束后,用得到的分词片段到数据库中查找相似的属性值的标签;
步骤S4,将所述候选关键词进行拆分得到对应的分词片段,包括:
将所述候选关键词进行拆分得到对应的分词片段和每个分词片段对应的词性;
步骤S5,根据所述商品描述信息所拆分得到的分词片段,得到所述商品描述信息的向量,及根据所述候选关键词所拆分得到的分词片段,得到所述候选关键词的向量,包括:
步骤S51,根据所述商品描述信息所拆分得到的分词片段,得到所述商品描述信息的初始向量,及根据所述候选关键词所拆分得到的分词片段,得到的所述候选关键词的初始向量;
步骤S52,获取所述商品描述信息和候选关键词中各个分词片段对应的词性所对应的权重;
在此,词性所对应的权重即词性标签的权重,可以根据实际情况自行设定,当前使用时,可以对不同类别的商品的词性标签设定不同的权重,可如下:
词性权重 | 1 | 1 | 3 | 3 | 2 | 3 | 4 | 5 |
词性标签 | 时间季节 | 颜色 | 风格样式 | 风格样式 | 材质 | 风格样式 | 属性词 | 产品词 |
步骤S53,根据对应的权重分别对所述商品描述信息的初始向量和候选关键词的初始向量进行调整,得到调整后的商品描述信的向量和候选关键词的向量,从而进一步保证商品描述信的向量和候选关键词的向量的精确性。
本发明的商品的关键词推荐方法一实施例中,步骤S5,根据所述商品描述信息的向量和候选关键词的向量计算所述商品描述信息与每一个候选关键词的相似度,包括:
利用预设的两个相关性分数算法,分别计算调整后的商品描述信的向量和候选关键词的向量的相似度分数,从而保证获得的商品描述信的向量和候选关键词的向量的相似度分数的准确性。
本发明的商品的关键词推荐方法一实施例中,步骤S6,根据所述相似度、相关性分数和搜索数据计算各个候选关键词的综合分值,包括:
根据如下公式计算各个候选关键词的综合分值F:
其中,α×D+(1-α)表示商品描述信息与某一个候选关键词的最终相似度,R表示所述相关性分数,I表示候选关键词的搜索数据,α表示所述相似度分数的权重,D和J分别表示一个相似度分数。
根据本发明的另一面,还提供一种关键词推荐设备,其中,该设备包括:
第一获取模块,用于获取待推荐关键词的商品描述信息及其对应的类目;
第一分词模块,用于将所述待推荐关键词的商品描述信息进行拆分得到对应的分词片段;
第二获取模块,用于从关键词词库获取所述类目中包含所述分词片段的候选关键词,及获取所述候选关键词与所述类目的相关性分数,和获取所述候选关键词的搜索数据;
第二分词模块,用于将所述候选关键词进行拆分得到对应的分词片段;
向量模块,用于根据所述商品描述信息所拆分得到的分词片段,得到所述商品描述信息的向量,及根据所述候选关键词所拆分得到的分词片段,得到所述候选关键词的向量;
相似度模块,用于根据所述商品描述信息的向量和候选关键词的向量计算所述商品描述信息与每一个候选关键词的相似度;
计算模块,用于根据所述相似度、相关性分数和搜索数据计算各个候选关键词的综合分值,获取综合分值大于预设阈值的候选关键词。
本发明的关键词推荐设备一实施例中,所述向量模块,用于将所述商品描述信息所拆分得到的分词片段和所述候选关键词所拆分得到的分词片段进行合并,得到分词语料;利用所述分词语料创建向量化模型,基于所述创建向量化模型分别得到所述商品描述信息的向量和候选关键词的向量。
本发明的关键词推荐设备一实施例中,所述第一分词模块,用于将所述待推荐关键词的商品描述信息进行拆分得到对应的分词片段和每个分词片段对应的词性;
所述第二分词模块,用于将所述候选关键词进行拆分得到对应的分词片段和每个分词片段对应的词性;
所述向量模块,用于根据所述商品描述信息所拆分得到的分词片段,得到所述商品描述信息的初始向量,及根据所述候选关键词所拆分得到的分词片段,得到的所述候选关键词的初始向量;获取所述商品描述信息和候选关键词中各个分词片段对应的词性所对应的权重;根据对应的权重分别对所述商品描述信息的初始向量和候选关键词的初始向量进行调整,得到调整后的商品描述信的向量和候选关键词的向量。
本发明的关键词推荐设备一实施例中,所述相似度模块,用于利用预设的两个相关性分数算法,分别计算调整后的商品描述信的向量和候选关键词的向量的相似度分数。
本发明的关键词推荐设备一实施例中,所述计算模块,用于根据如下公式计算各个候选关键词的综合分值F:
其中,α×D+(1-α)表示商品描述信息与某一个候选关键词的最终相似度,R表示所述相关性分数,I表示候选关键词的搜索数据,α表示所述相似度分数的权重,D和J分别表示一个相似度分数。
根据本发明的另一面,还提供一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:
获取待推荐关键词的商品描述信息及其对应的类目;
将所述待推荐关键词的商品描述信息进行拆分得到对应的分词片段;
从关键词词库获取所述类目中包含所述分词片段的候选关键词,及获取所述候选关键词与所述类目的相关性分数,和获取所述候选关键词的搜索数据;
将所述候选关键词进行拆分得到对应的分词片段;
根据所述商品描述信息所拆分得到的分词片段,得到所述商品描述信息的向量,及根据所述候选关键词所拆分得到的分词片段,得到所述候选关键词的向量;
根据所述商品描述信息的向量和候选关键词的向量计算所述商品描述信息与每一个候选关键词的相似度;
根据所述相似度、相关性分数和搜索数据计算各个候选关键词的综合分值;
获取综合分值大于预设阈值的候选关键词。
根据本发明的另一面,还提供一种计算器设备,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取待推荐关键词的商品描述信息及其对应的类目;
将所述待推荐关键词的商品描述信息进行拆分得到对应的分词片段;
从关键词词库获取所述类目中包含所述分词片段的候选关键词,及获取所述候选关键词与所述类目的相关性分数,和获取所述候选关键词的搜索数据;
将所述候选关键词进行拆分得到对应的分词片段;
根据所述商品描述信息所拆分得到的分词片段,得到所述商品描述信息的向量,及根据所述候选关键词所拆分得到的分词片段,得到所述候选关键词的向量;
根据所述商品描述信息的向量和候选关键词的向量计算所述商品描述信息与每一个候选关键词的相似度;
根据所述相似度、相关性分数和搜索数据计算各个候选关键词的综合分值;
获取综合分值大于预设阈值的候选关键词。
本发明的计算机可读存储介质及设备各实施例的详细内容,具体可参见各方法实施例的对应部分,在此不再赘述。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (12)
1.一种关键词推荐方法,其中,该方法包括:
获取待推荐关键词的商品描述信息及其对应的类目;
将所述待推荐关键词的商品描述信息进行拆分得到对应的分词片段;
从关键词词库获取所述类目中包含所述分词片段的候选关键词,及获取所述候选关键词与所述类目的相关性分数,和获取所述候选关键词的搜索数据;
将所述候选关键词进行拆分得到对应的分词片段;
根据所述商品描述信息所拆分得到的分词片段,得到所述商品描述信息的向量,及根据所述候选关键词所拆分得到的分词片段,得到所述候选关键词的向量;
根据所述商品描述信息的向量和候选关键词的向量计算所述商品描述信息与每一个候选关键词的相似度;
根据所述相似度、相关性分数和搜索数据计算各个候选关键词的综合分值;
获取综合分值大于预设阈值的候选关键词。
2.根据权利要求1所述的方法,其中,根据所述商品描述信息所拆分得到的分词片段,得到所述商品描述信息的向量,及根据所述候选关键词所拆分得到的分词片段,得到所述候选关键词的向量,包括:
将所述商品描述信息所拆分得到的分词片段和所述候选关键词所拆分得到的分词片段进行合并,得到分词语料;
利用所述分词语料创建向量化模型,基于所述创建向量化模型分别得到所述商品描述信息的向量和候选关键词的向量。
3.根据权利要求1或2所述的方法,其中,将所述待推荐关键词的商品描述信息进行拆分得到对应的分词片段,包括:
将所述待推荐关键词的商品描述信息进行拆分得到对应的分词片段和每个分词片段对应的词性;
将所述候选关键词进行拆分得到对应的分词片段,包括:
将所述候选关键词进行拆分得到对应的分词片段和每个分词片段对应的词性;
根据所述商品描述信息所拆分得到的分词片段,得到所述商品描述信息的向量,及根据所述候选关键词所拆分得到的分词片段,得到所述候选关键词的向量,包括:
根据所述商品描述信息所拆分得到的分词片段,得到所述商品描述信息的初始向量,及根据所述候选关键词所拆分得到的分词片段,得到的所述候选关键词的初始向量;
获取所述商品描述信息和候选关键词中各个分词片段对应的词性所对应的权重;
根据对应的权重分别对所述商品描述信息的初始向量和候选关键词的初始向量进行调整,得到调整后的商品描述信的向量和候选关键词的向量。
4.根据权利要求3所述的方法,其中,根据所述商品描述信息的向量和候选关键词的向量计算所述商品描述信息与每一个候选关键词的相似度,包括:
利用预设的两个相关性分数算法,分别计算调整后的商品描述信的向量和候选关键词的向量的相似度分数。
5.根据权利要求1或2所述的方法,其中,根据所述相似度、相关性分数和搜索数据计算各个候选关键词的综合分值,包括:
根据如下公式计算各个候选关键词的综合分值F:
<mrow>
<mi>F</mi>
<mo>=</mo>
<mo>&lsqb;</mo>
<mi>&alpha;</mi>
<mo>&times;</mo>
<mi>D</mi>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>&alpha;</mi>
<mo>)</mo>
</mrow>
<mi>J</mi>
<mo>&rsqb;</mo>
<mo>&times;</mo>
<mi>R</mi>
<mo>&times;</mo>
<msub>
<mi>log</mi>
<mn>10</mn>
</msub>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>+</mo>
<msqrt>
<mi>I</mi>
</msqrt>
<mo>)</mo>
</mrow>
</mrow>
其中,α×D+(1-α)表示商品描述信息与某一个候选关键词的最终相似度,R表示所述相关性分数,I表示候选关键词的搜索数据,α表示所述相似度分数的权重,D和J分别表示一个相似度分数。
6.一种关键词推荐设备,其中,该设备包括:
第一获取模块,用于获取待推荐关键词的商品描述信息及其对应的类目;
第一分词模块,用于将所述待推荐关键词的商品描述信息进行拆分得到对应的分词片段;
第二获取模块,用于从关键词词库获取所述类目中包含所述分词片段的候选关键词,及获取所述候选关键词与所述类目的相关性分数,和获取所述候选关键词的搜索数据;
第二分词模块,用于将所述候选关键词进行拆分得到对应的分词片段;
向量模块,用于根据所述商品描述信息所拆分得到的分词片段,得到所述商品描述信息的向量,及根据所述候选关键词所拆分得到的分词片段,得到所述候选关键词的向量;
相似度模块,用于根据所述商品描述信息的向量和候选关键词的向量计算所述商品描述信息与每一个候选关键词的相似度;
计算模块,用于根据所述相似度、相关性分数和搜索数据计算各个候选关键词的综合分值,获取综合分值大于预设阈值的候选关键词。
7.根据权利要求6所述的设备,其中,所述向量模块,用于将所述商品描述信息所拆分得到的分词片段和所述候选关键词所拆分得到的分词片段进行合并,得到分词语料;利用所述分词语料创建向量化模型,基于所述创建向量化模型分别得到所述商品描述信息的向量和候选关键词的向量。
8.根据权利要求6或7所述的设备,其中,所述第一分词模块,用于将所述待推荐关键词的商品描述信息进行拆分得到对应的分词片段和每个分词片段对应的词性;
所述第二分词模块,用于将所述候选关键词进行拆分得到对应的分词片段和每个分词片段对应的词性;
所述向量模块,用于根据所述商品描述信息所拆分得到的分词片段,得到所述商品描述信息的初始向量,及根据所述候选关键词所拆分得到的分词片段,得到的所述候选关键词的初始向量;获取所述商品描述信息和候选关键词中各个分词片段对应的词性所对应的权重;根据对应的权重分别对所述商品描述信息的初始向量和候选关键词的初始向量进行调整,得到调整后的商品描述信的向量和候选关键词的向量。
9.根据权利要求8所述的设备,其中,所述相似度模块,用于利用预设的两个相关性分数算法,分别计算调整后的商品描述信的向量和候选关键词的向量的相似度分数。
10.根据权利要求6或7所述的设备,其中,所述计算模块,用于根据如下公式计算各个候选关键词的综合分值F:
<mrow>
<mi>F</mi>
<mo>=</mo>
<mo>&lsqb;</mo>
<mi>&alpha;</mi>
<mo>&times;</mo>
<mi>D</mi>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>&alpha;</mi>
<mo>)</mo>
</mrow>
<mi>J</mi>
<mo>&rsqb;</mo>
<mo>&times;</mo>
<mi>R</mi>
<mo>&times;</mo>
<msub>
<mi>log</mi>
<mn>10</mn>
</msub>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>+</mo>
<msqrt>
<mi>I</mi>
</msqrt>
<mo>)</mo>
</mrow>
</mrow>
其中,α×D+(1-α)表示商品描述信息与某一个候选关键词的最终相似度,R表示所述相关性分数,I表示候选关键词的搜索数据,α表示所述相似度分数的权重,D和J分别表示一个相似度分数。
11.一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:
获取待推荐关键词的商品描述信息及其对应的类目;
将所述待推荐关键词的商品描述信息进行拆分得到对应的分词片段;
从关键词词库获取所述类目中包含所述分词片段的候选关键词,及获取所述候选关键词与所述类目的相关性分数,和获取所述候选关键词的搜索数据;
将所述候选关键词进行拆分得到对应的分词片段;
根据所述商品描述信息所拆分得到的分词片段,得到所述商品描述信息的向量,及根据所述候选关键词所拆分得到的分词片段,得到所述候选关键词的向量;
根据所述商品描述信息的向量和候选关键词的向量计算所述商品描述信息与每一个候选关键词的相似度;
根据所述相似度、相关性分数和搜索数据计算各个候选关键词的综合分值;
获取综合分值大于预设阈值的候选关键词。
12.一种计算器设备,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取待推荐关键词的商品描述信息及其对应的类目;
将所述待推荐关键词的商品描述信息进行拆分得到对应的分词片段;
从关键词词库获取所述类目中包含所述分词片段的候选关键词,及获取所述候选关键词与所述类目的相关性分数,和获取所述候选关键词的搜索数据;
将所述候选关键词进行拆分得到对应的分词片段;
根据所述商品描述信息所拆分得到的分词片段,得到所述商品描述信息的向量,及根据所述候选关键词所拆分得到的分词片段,得到所述候选关键词的向量;
根据所述商品描述信息的向量和候选关键词的向量计算所述商品描述信息与每一个候选关键词的相似度;
根据所述相似度、相关性分数和搜索数据计算各个候选关键词的综合分值;
获取综合分值大于预设阈值的候选关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810086544.2A CN108108497A (zh) | 2018-01-29 | 2018-01-29 | 关键词推荐方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810086544.2A CN108108497A (zh) | 2018-01-29 | 2018-01-29 | 关键词推荐方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108108497A true CN108108497A (zh) | 2018-06-01 |
Family
ID=62221300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810086544.2A Pending CN108108497A (zh) | 2018-01-29 | 2018-01-29 | 关键词推荐方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108108497A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110197391A (zh) * | 2019-04-16 | 2019-09-03 | 广州大麦信息科技有限公司 | 一种添加关键词的方法、系统、平台及存储介质 |
CN110889285A (zh) * | 2018-08-16 | 2020-03-17 | 阿里巴巴集团控股有限公司 | 确定核心词的方法、装置、设备和介质 |
CN111767738A (zh) * | 2020-03-30 | 2020-10-13 | 北京沃东天骏信息技术有限公司 | 一种标签校验方法、装置、设备和存储介质 |
CN111882401A (zh) * | 2020-08-03 | 2020-11-03 | 施兴明 | 一种电商自动提醒方法及系统 |
CN112307183A (zh) * | 2020-10-30 | 2021-02-02 | 北京金堤征信服务有限公司 | 搜索数据识别方法、装置、电子设备以及计算机存储介质 |
CN112464654A (zh) * | 2020-11-27 | 2021-03-09 | 科技日报社 | 关键词生成方法、装置、电子设备和计算机可读介质 |
CN117171587A (zh) * | 2023-09-27 | 2023-12-05 | 珠海云建数据信息技术有限公司 | 材料信息的编码方法、平台、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110145823A1 (en) * | 2009-12-10 | 2011-06-16 | The Go Daddy Group, Inc. | Task management engine |
CN103425799A (zh) * | 2013-09-04 | 2013-12-04 | 北京邮电大学 | 基于主题的个性化研究方向推荐系统和推荐方法 |
CN104090890A (zh) * | 2013-12-12 | 2014-10-08 | 深圳市腾讯计算机系统有限公司 | 关键词相似度获取方法、装置及服务器 |
CN104636334A (zh) * | 2013-11-06 | 2015-05-20 | 阿里巴巴集团控股有限公司 | 一种关键词推荐方法和装置 |
CN104778255A (zh) * | 2015-04-20 | 2015-07-15 | 百度在线网络技术(北京)有限公司 | 搜索结果的推荐方法和装置 |
-
2018
- 2018-01-29 CN CN201810086544.2A patent/CN108108497A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110145823A1 (en) * | 2009-12-10 | 2011-06-16 | The Go Daddy Group, Inc. | Task management engine |
CN103425799A (zh) * | 2013-09-04 | 2013-12-04 | 北京邮电大学 | 基于主题的个性化研究方向推荐系统和推荐方法 |
CN104636334A (zh) * | 2013-11-06 | 2015-05-20 | 阿里巴巴集团控股有限公司 | 一种关键词推荐方法和装置 |
CN104090890A (zh) * | 2013-12-12 | 2014-10-08 | 深圳市腾讯计算机系统有限公司 | 关键词相似度获取方法、装置及服务器 |
CN104778255A (zh) * | 2015-04-20 | 2015-07-15 | 百度在线网络技术(北京)有限公司 | 搜索结果的推荐方法和装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110889285A (zh) * | 2018-08-16 | 2020-03-17 | 阿里巴巴集团控股有限公司 | 确定核心词的方法、装置、设备和介质 |
CN110889285B (zh) * | 2018-08-16 | 2023-06-16 | 阿里巴巴集团控股有限公司 | 确定核心词的方法、装置、设备和介质 |
CN110197391A (zh) * | 2019-04-16 | 2019-09-03 | 广州大麦信息科技有限公司 | 一种添加关键词的方法、系统、平台及存储介质 |
CN111767738A (zh) * | 2020-03-30 | 2020-10-13 | 北京沃东天骏信息技术有限公司 | 一种标签校验方法、装置、设备和存储介质 |
CN111882401A (zh) * | 2020-08-03 | 2020-11-03 | 施兴明 | 一种电商自动提醒方法及系统 |
CN112307183A (zh) * | 2020-10-30 | 2021-02-02 | 北京金堤征信服务有限公司 | 搜索数据识别方法、装置、电子设备以及计算机存储介质 |
CN112307183B (zh) * | 2020-10-30 | 2024-04-19 | 北京金堤征信服务有限公司 | 搜索数据识别方法、装置、电子设备以及计算机存储介质 |
CN112464654A (zh) * | 2020-11-27 | 2021-03-09 | 科技日报社 | 关键词生成方法、装置、电子设备和计算机可读介质 |
CN117171587A (zh) * | 2023-09-27 | 2023-12-05 | 珠海云建数据信息技术有限公司 | 材料信息的编码方法、平台、电子设备及存储介质 |
CN117171587B (zh) * | 2023-09-27 | 2024-03-22 | 珠海云建数据信息技术有限公司 | 材料信息的编码方法、平台、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108108497A (zh) | 关键词推荐方法及设备 | |
CN109885692B (zh) | 知识数据存储方法、装置、计算机设备和存储介质 | |
US20180158078A1 (en) | Computer device and method for predicting market demand of commodities | |
US7958136B1 (en) | Systems and methods for identifying similar documents | |
US9342590B2 (en) | Keywords extraction and enrichment via categorization systems | |
CN105975459B (zh) | 一种词项的权重标注方法和装置 | |
US20120323907A1 (en) | Web searching | |
CN108121737A (zh) | 一种业务对象属性标识的生成方法、装置和系统 | |
CN106033416A (zh) | 一种字符串处理方法及装置 | |
CN110390106B (zh) | 基于双向关联的语义消歧方法、装置、设备及存储介质 | |
US20120330962A1 (en) | Method and Apparatus of Providing Suggested Terms | |
CN112633000B (zh) | 一种文本中实体的关联方法、装置、电子设备及存储介质 | |
CN108334640A (zh) | 一种视频推荐方法及装置 | |
CN105260362A (zh) | 新词提取方法和装置 | |
JP6966158B2 (ja) | 検索データを処理するための方法、装置及びプログラム | |
CN108763321A (zh) | 一种基于大规模相关实体网络的相关实体推荐方法 | |
CN110162778B (zh) | 文本摘要的生成方法及装置 | |
KR102371437B1 (ko) | 엔티티를 추천하는 방법과 장치, 전자기기 및 컴퓨터 판독가능 매체 | |
CN107291755B (zh) | 一种终端推送方法及装置 | |
CN112395412B (zh) | 文本分类的方法、装置以及计算机可读介质 | |
CN104978356A (zh) | 一种同义词的识别方法及装置 | |
CN107665221A (zh) | 关键词的分类方法和装置 | |
Yao et al. | Mobile phone name extraction from internet forums: a semi-supervised approach | |
CN112434533A (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
CN107665222B (zh) | 关键词的拓展方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180601 |