CN110889285B - 确定核心词的方法、装置、设备和介质 - Google Patents
确定核心词的方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN110889285B CN110889285B CN201810936412.4A CN201810936412A CN110889285B CN 110889285 B CN110889285 B CN 110889285B CN 201810936412 A CN201810936412 A CN 201810936412A CN 110889285 B CN110889285 B CN 110889285B
- Authority
- CN
- China
- Prior art keywords
- word
- determining
- words
- candidate
- core
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种确定核心词的方法、装置、设备和介质,所述方法包括:获取对象信息,对象信息包括对象的参数、描述文本和所属分类,其中,描述文本包括至少一个候选词,候选词具有对应的参数;确定对象的参数与候选词对应的参数的差异度;确定所属分类与候选词的相似度;根据差异度和相似度,在所述至少一个候选词中确定核心词,核心词为表征对象实质属性的词。采用本发明实施例后,能够提高确定核心词的准确性。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种确定核心词的方法、装置、设备和计算机存储介质。
背景技术
商品的标题中包含很多重要的描述信息。在商品的标题中,往往存在多个候选词,且候选词之间存在修饰关系。核心词是表征商品类别的最重要的候选词。
商品的标题中,存在修饰关系的多个候选词,借助多个候选词之间的修饰关系,可以在多个候选词中确定核心词。
但在实际的商品的标题中,为了获取更多搜索流量,在商品的标题中存在未依据语法杂乱堆砌的候选词,因此难以准确确定核心词。
发明内容
本发明实施例提供了一种确定核心词的方法、装置、设备和计算机存储介质,能够提高确定核心词的准确性。
一种确定核心词的方法,包括:
获取对象信息,所述对象信息包括对象的参数、描述文本和所属分类,其中,所述描述文本包括至少一个候选词,所述候选词具有对应的参数;
确定所述对象的参数与所述候选词对应的参数的差异度;
确定所述所属分类与所述候选词的相似度;
根据所述差异度和所述相似度,在所述至少一个候选词中确定核心词,所述核心词为表征所述对象实质属性的词。
所述根据所述差异度参数和所述相似度,在所述至少一个候选词中确定核心词,包括:
根据所述差异度和所述相似度,确定所述候选词的评分;
将评分大于预设阈值的候选词作为核心词。
所述根据所述差异度和所述相似度,确定所述候选词的评分,包括:
根据所述差异度和所述相似度,以及所述差异度的权重和所述相似度的权重,确定所述候选词的评分。
所述候选词是与词库匹配成功的第一词,所述第一词是对所述对象的描述文本进行分词所得到的至少一个词。
所述对象的所属分类的特征向量是所述第二词的特征向量的平均值,所述第二词是对所述所属分类进行分词所得到的词。
所述候选词对应的参数是在预设周期内所述候选词的参数的均值。
所述第二词的特征向量、所述候选词的特征向量采用word2vec模型生成。
所述差异度为对象的参数与候选词的参数之差的绝对值与对象的参数的比值。
所述确定所述所属分类与所述候选词的相似度,包括:
根据所述所属分类的特征向量和所述候选词的特征向量,确定所述所属分类与所述候选词的相似度。
一种确定核心词的方法,包括:
获取对象信息,所述对象信息包括对象的价格、标题和所属分类,其中,所述标题包括至少一个候选词,所述候选词具有对应的价格;
确定所述对象的价格与所述候选词对应的价格的差异度;
确定所述所属分类与所述候选词的相似度;
根据所述差异度和所述相似度,在所述至少一个候选词中确定核心词,所述核心词为表征所述对象实质属性的词。
所述根据所述差异度和所述相似度,在所述至少一个候选词中确定核心词,包括:
根据所述差异度和所述相似度,确定所述候选词的评分;
将评分大于预设阈值的候选词作为核心词。
所述根据所述差异度和所述相似度,确定所述候选词的评分,包括:
根据所述差异度和所述相似度,以及所述差异度的权重和所述相似度的权重,确定所述候选词的评分。
所述差异度为对象的价格与候选词的价格之差的绝对值与对象的价格的比值。
所述确定所述所属分类与所述候选词的相似度,包括:
根据所述所属分类的特征向量和所述候选词的特征向量,确定所述所属分类与所述候选词的相似度。
一种确定核心词的装置,其中,包括:
获取模块,用于获取对象信息,所述对象信息包括对象的参数、描述文本和所属分类,其中,所述描述文本包括至少一个候选词,所述候选词具有对应的参数;
差异模块,用于确定所述对象的参数与所述候选词对应的参数的差异度;
匹配模块,用于确定所述所属分类与所述候选词的相似度;
确定模块,用于根据所述差异度和所述相似度,在所述至少一个候选词中确定核心词,所述核心词为表征所述对象实质属性的词。
一种确定核心词的装置,包括:
获取模块,用于获取对象信息,所述对象信息包括对象的价格、标题和所属分类,其中,所述标题包括至少一个候选词,所述候选词具有对应的价格;
差异模块,用于确定所述对象的价格与所述候选词对应的价格的差异度;
匹配模块,用于确定所述所属分类与所述候选词的相似度;
确定模块,用于根据所述差异度和所述相似度,在所述至少一个候选词中确定核心词,所述核心词为表征所述对象实质属性的词。
一种确定核心词的设备,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行如上述确定核心词的方法。
一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被处理器执行时实现如上述确定核心词的方法。
从上述技术方案中可以看出,首先从参数的角度,获知对象的描述文本中候选词与对象的差异度。其次,从对象的所属分类的角度,确定所属分类与候选词的相似性。最后,从两个角度考虑,基于差异度和相似度,在候选词中确定核心词,因此能够提高确定核心词的准确性。
附图说明
从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明其中,相同或相似的附图标记表示相同或相似的特征。
图1是本发明实施例手机壳的价格范围示意图;
图2是本发明实施例手机的价格范围示意图;
图3是本发明实施例商品的详情示意图;
图4是本发明实施例确定核心词的方法流程示意图;
图5是本发明另一个实施例确定核心词的方法流程示意图;
图6是本发明实施例确定核心词的装置结构示意图;
图7是本发明另一个实施例确定核心词的装置结构示意图;
图8是本发明实施例确定核心词的方法和装置的计算设备的示例性硬件架构的结构图。
具体实施方式
为使本发明的目的、技术方案和优点表达得更加清楚明白,下面结合附图及具体实施例对本发明再作进一步详细的说明。
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本申请,并不被配置为限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在电子商务系统、社交网络、广告推荐或搜索引擎等中,均可以基于对象的描述文本进行推荐、搜索以及展示等。其中,对象可以包括实体物品,作为一个示例,对象可以是电子商务场景下的实体商品,例如电脑、玩具或服装等;对象也可以包括非实体物品,作为一个示例,对象可以是电子商务场景下的虚拟商品,例如视频音频资源、电子书、游戏点卡、皮肤等,也可以是社交场景下的用户、视频网站场景下的视频条目或新闻资讯场景下的资讯对象等。
一般来说,可以以描述文本的形式描述对象,描述文本包括多个字和多个词,多个字和多个词用于描述对象。作为一个示例,对象是商品,商品的描述文本可以是:华为手机新款韩版手机壳。作为另一个示例,对象是社交场景下的用户,该用户的描述文本可以是:男游戏办公宠物足球健身。
对象的描述文本包括候选词,候选词的数目可以是一个或多个。候选词是描述文本中描述对象的词语,具体地,可以将描述文本中的所有词都作为候选词,也可以将描述文本中属于特定词性(例如名词、形容词等)的词作为候选词。候选词用于描述对象,不过,在一种可能的情况下,多个候选词之间存在修饰关系,不同的候选词对描述对象所作出的贡献不一样。有些候选词描述的是对象的实质属性,这些候选词为核心词;有些候选词仅作为核心词的修饰词,这些候选词为非核心词,其描述的是对象的非实质属性。因此,有必要从多个候选词中确定核心词,从而确定对象的实质属性。
作为一个示例:对象是商品,商品的描述文本可以是商品的标题。商品的标题是:华为手机新款韩版手机壳。候选词可以是标题中的所有名词,包括:“手机”和“手机壳”。该商品实质上是“手机壳”并非“手机”,因此核心词是“手机壳”,“手机”为非核心词。
目前,可以通过商品的标题中不同候选词的上下文语法规则确定核心词。作为一个示例,对象是商品,商品的文字商品的描述文本可以是商品的标题。商品的标题中位置靠后的候选词就是核心词。作为一个示例,华为手机新款韩版手机壳。候选词可以包括:“手机”和“手机壳”;核心词是“手机壳”。
在上述商品的标题中,词语的排列符合上下文语法规则,作为一个示例:候选词中包括修饰词和核心词,修饰词放在前面,核心词放在后面。如,自行车坐垫;汽车脚垫。
但是商品的标题中,常常为了获取更多的搜索流量,在商品的标题中杂乱堆砌词,不符合正常的上下文语法规则,通过词语的排列获取核心词就很容易出错。
作为一个示例,商品的标题是:土豪金手机壳适合华为手机小米手机,候选词包括:“手机壳”和“手机”。依据正常的上下文语法规则,可以将靠后的候选词作为核心词,核心词为:“手机”。显然,核心词并非是“手机”,应该是“手机壳”。
对象可以包括实体物品,也可以包括其他非实体物品。每个对象存在对应的参数,即对象的参数。作为一个示例,对象包括商品,商品的参数即价格。作为另一个示例,对象包括视频网站场景下的视频条目,视频条目的参数即观看次数。
下面以对象具体是商品为例,对本发明实施例进行说明。需要说明的是,对象具体为商品并不构成对本发明实施例的限定。
对于商品而言,商品的参数可以为价格。在本发明实施例中所称的价格可以是成交价格。同一个商品的价格有高有低,但是价格整体分布通常符合正态分布。
在本发明的一个实施例中,可以通过在电子商务网站,搜索商品的成交均价,将该成交均价作为商品的价格。
具体而言,选择一个时间周期,时间周期可基于具体的商品而设定。作为一个示例,商品为中央处理器(Central Processing Unit,CPU),考虑到CPU的价格随时间变化的幅度比较大,那么可以将CPU的时间周期设定为30天。作为另一个示例,商品为玻璃杯,玻璃杯的价格随时间变化的幅度较小,即:玻璃杯的价格稳定,那么可以将玻璃杯的时间周期设定为90天。
在设定商品的时间周期后,可以基于商品的搜索词,统计该商品对应的价格。作为一个示例,商品为CPU,以“CPU”为搜索词,在电子商务网站上搜索CPU商品。然后,统计搜索到的CPU的价格。将搜索到价格的平均值,即平均价格作为CPU的价格。作为另一个示例,可以获取CPU在某个时间周期(例如30天)内在电子商务网站上的成交记录,将各成交记录中的成交价格的平均值作为CPU的价格。
下面分别以商品为手机壳,以及商品为手机为例,结合图1和图2,对商品的价格进行说明。
参见图1,图1是本发明实施例手机壳的价格范围示意图。可以在电子商务网站中以“手机壳”为关键词进行搜索,得到“手机壳”的价格分布。图1中右侧以柱状图代表不同价格区间的用户比例。其中,价格区间在20元-56元价格区间的用户比例最高,该价格区间的用户比例为57%。那么,可以认为“手机壳”的价格大部分集中在20元-56元这个价位。作为一个示例,将计算得到“手机壳”的平均价格作为手机壳的价格。手机壳的价格是35元。
参见图2,图2是本发明实施例手机的价格范围示意图。可以获取电子商务网站中“手机”的成交价格分布。图2中右侧以柱状图代表不同价格区间的用户比例。其中,价格区间在320元-1020元价格区间的用户比例最高,该价格区间的用户比例为36%。那么,可以认为“手机”的价格大部分集中在320元-1020元这个价位。作为一个示例,将计算得到“手机”的平均价格作为手机壳的价格。手机的价格是680元。
商品的描述文本是用于描述商品的词语的组合。可以将商品的描述文本切分为一个一个单独的词。其中,在本发明的实施例中单独的词可以作为候选词。
在本发明的一个实施例中,可以基于词库分词或基于统计分词,将商品的描述文本切分为候选词。基于词库分词,按照一定的策略将商品的描述文本与一个已建立好的词库中的词进行匹配,若找到某个词,则说明匹配成功,已识别候选词。其中,策略可以包括以下几种方式:按照扫描方向的不同,词库分词可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最长匹配和最短匹配。
基于统计分词,可以将商品的描述文本切分为候选词。基于统计分词是在给定大量已经分词的文本的前提下,利用统计机器学习模型学习词语切分的规律,从而实现对商品的描述文本的切分。主要的统计模型有:N元文法模型(N-gram),隐马尔可夫模型(HiddenMarkov Model,HMM),最大熵模型(ME),条件随机场模型(Conditional Random Fields,CRF)等。
此外,可以结合基于词库分词和基于统计分词,既发挥词库分词切分速度快、效率高的特点,又利用了统计分词结合上下文识别生词、自动消除歧义的优点。
参见图3,图3是本发明实施例商品的详情示意图。图3中商品是头盔。商品的描述文本具体为头盔的标题。
头盔的标题是:美利达单车骑行头盔男女通用透气山地公路自行车超轻一体安全帽。
头盔的价格是:88元。
可以结合预先设置的产品词库,通过产品词库分词,将商品的标题中的产品词作为候选词,即,候选词为:单车、头盔、自行车和安全帽。
商品的描述文本中候选词也有对应的参数,称为候选词对应的参数。对于商品而言,商品的参数可以为价格。那么,认为商品的描述文本中候选词也可以是商品。同样的,候选词对应的参数可以为价格。
继续参见图3,图3中候选词包括:单车、头盔、自行车和安全帽。每个候选词都有对应的价格。作为一个示例,可以基于候选词,统计候选词对应的价格。单车对应的价格是180元;头盔对应的价格是76元;自行车对应的价格是190元;安全帽对应的价格是59元。
由上述内容可知,头盔的价格是88元。候选词对应的价格分别为:单车对应的价格是180元;头盔对应的价格是76元;自行车对应的价格是190元;安全帽对应的价格是59元。
商品的价格与候选词对应的价格存在一定的关系。候选词对应的价格与商品的价格越接近,该候选词是核心词的可能性越大;候选词对应的价格与商品的价格越远离,该候选词是核心词的可能性越小。
可以利用商品的价格与候选词对应的价格的差异度来衡量商品与候选词之间的差异。在本发明实施例中,差异度具体可以表征商品与候选词的差异程度。
作为一个示例,差异度等于商品的价格与候选词对应的价格的差的绝对值。差异度越小,则说明该候选词与商品的差异越小;差异度越大,则说明该候选词与商品的差异越大。作为另一个示例,考虑到商品的价格与候选词对应的价格的相对性,为了与商品的价格相比较,更好的衡量产品商品与候选词的差异。差异度等于商品的价格与候选词对应的价格的差的绝对值与商品的价格的比值。差异度越小,则说明该候选词与商品的差异越小;差异度越大,则说明该候选词与商品的差异越大。
沿用图3中的示例,可以利用公式(1)计算得到每个候选词的差异度。
差异度=|商品的价格-候选词对应的价格|/商品的价格(1)
参见表1,表1是候选词对应的差异度。其中,差异度是利用公式(1)计算得到的参数。
表1
候选词 | 单车 | 头盔 | 自行车 | 安全帽 |
候选词对应的价格 | 180元 | 76元 | 190元 | 59元 |
差异度 | 1.05 | 0.14 | 1.16 | 0.3 |
不论对象是实体物品,或是其他非实体物品。对象存在其所属分类。也就是说,可以基于对象自身的实质属性确定对象的所属分类。作为一个示例,对象包括商品,商品具体为手机。相应的,手机的所属分类为通信工具。作为另一个示例,对象包括新闻资讯场景下的资讯对象,咨询对象具体为北京新闻。相应的,北京新闻的所属分类为国内新闻。
对象可以包括商品。商品的所属分类可以以向量表征。在本发明的一个实施例中,可以采用word2vec模型,以生成商品的所属分类的特征向量。作为一个示例,商品的所属分类的特征向量是v=[v_1,v_2,…,v_n],其中v_i(i=1,2,……,n)表征特征向量的第i维元素,商品的所属分类的特征向量是n维向量。这样,商品的所属分类可以被处理为特征向量。
word2vec是用于词向量计算的工具。word2vec不仅可以在百万数量级的词典和上亿的数据集上进行高效地训练,还可以得到训练结果—词向量(word embedding),可以很好地度量词与词之间的相似程度。
word2vec中,主要有skip-gram算法和cbow算法。skip-gram算法是给定输入对象预测上下文。而cbow算法是给定上下文,预测输入对象。
类似的,可以采用训练好的word2vec模型,以生成候选词的特征向量。
商品的所属分类可以包括多个分词。在实际应用中,不同的分词对语义的影响不同,例如“的”一般在语义中的影响较小,相应的,可以预先确定每个分词的权重系数,分词的权重系数可以根据实际应用情况预先设置。然后,将每个分词的特征向量分别乘以相应的权重系数后进行向量平均值计算,计算得到的向量可以作为商品的所属分类的特征向量。这样可以更加准确的反映出商品的所属分类的语义。当然,这里每个分词所对应的权重系数可以相同,与可以不同。
沿用图3中的示例,图3中商品的所属分类是:骑行头具。“骑行头具”是一个短语,由两个分词“骑行”和“头具”组成,两个分词的权重系数可相同,均为0.5。那么,采用把“骑行”和“头具”两个分词的特征向量取进行加权平均的方式,得到“骑行头具”的特征向量。
候选词越接近商品的所属分类,则说明该候选词是核心词的可能性越大;候选词越远离商品的所属分类,则说明该候选词是核心词的可能性越小。
在本发明的一个实施例中,可以根据商品的所属分类的特征向量和候选词的特征向量,匹配候选词与商品的所属分类的关系。其中,候选词与商品的所属分类的关系可以以相似度来衡量。
在本发明的一个实施例中,相似度可以是商品的所属分类的特征向量和候选词的特征向量之间的余弦距离。上述余弦距离越小,则说明相似度越低;上述余弦距离越大,则说明相似度越高。
在本发明的一个实施例中,相似度还可以等于下述距离当中的任意一个:欧氏距离、标准化欧氏距离、余弦距离、曼哈顿距离和马氏距离。上述距离越小,则说明相似度越高;上述距离越大,则说明相似度越低。
沿用图3中的示例,可以利用根据商品的所属分类的特征向量和候选词的特征向量,确定每个候选词与商品的所属分类的相似度。
参见表2,表2是候选词的相似度。
表2
候选词 | 单车 | 头盔 | 自行车 | 安全帽 |
相似度 | 0.52 | 0.98 | 0.56 | 0.95 |
由表2可以获知,“头盔”与商品的所属分类的相似度最高;“单车”与商品的所属分类的相似度最低。
在本发明实施例中,为了在商品的描述文本中候选词中确定核心词,一方面从商品的参数,衡量候选词与商品的差异;另一方面,从商品的所属分类,考虑候选词与商品的相似性。
差异度可以衡量候选词与商品的差异;相似度可以度量候选词与商品的相似性。那么,则可以依据差异度和相似度,在候选词中确定核心词。
在本发明的一个实施例中,为了同时参考差异度和相似度,可以预先设置上述两个参数的权重系数,依据差异度和相似度,以及差异度的权重和相似度的权重,在候选词中确定核心词。这样可以基于具体情况,基于参数的权重系数,选择性的在候选词中确定核心词。也就是说,当参数A的重要性高于另一个参数B,则可以设置参数A的权重系数大于参数B的权重系数。权重系数的具体数值可基于实际的需要进行设置。
在本发明的一个实施例中,首先依据差异度和相似度,确定候选词的评分。然后,将评分大于预设阈值的候选词作为核心词。作为一个示例,可以依据差异度和相似度计算候选词的分数。以候选词的分数评价候选词。候选词的分数越高,则对该候选词的评价越高;候选词的分数越低,则对该候选词的评价越低。最后,在候选词中将大于预设阈值的候选词作为最接近预设阈值的候选词,即将大于预设阈值的候选词作为核心词。预设阈值可根据实际的情况预先设置。
沿用图3中的示例,考虑到相似度与候选词的分数是正相关,差异度与候选词的分数是负相关。换言之,相似度越大,候选词的分数越高;相似度越小,候选词的分数越低。差异度越大,候选词的分数越低;差异度越小,候选词的分数越高。
作为一个示例,预先设置相似度的权重系统等于0.5,预先设置差异度的权重系数等于-0.5,
候选词的分数=0.5*相似度–0.5*差异度(2)
候选词包括单车、头盔、自行车和安全帽。按照公式(2)计算每个候选词的分数。
参见表3,表3是候选词的参数列表。
表3
候选词 | 单车 | 头盔 | 自行车 | 安全帽 |
差异度 | 1.05 | 0.14 | 1.16 | 0.3 |
相似度 | 0.52 | 0.98 | 0.56 | 0.95 |
候选词分数 | -0.265 | 0.42 | -0.3 | 0.325 |
从表3可知,“头盔”和“安全帽”的分数远远大于“单车”和“自行车”。在实际应用时,预设阈值可以等于0.2,即当候选词的分数大于0.2,则将该候选词确定为核心词。
在图3中的示例中,可以将“头盔”和“安全帽”作为核心词。
通过本发明实施例结合图1、图2和图3的描述,本发明实施例的技术方案可以总结为下述内容。
参见图4,图4是本发明实施例确定核心词的方法流程示意图,具体包括:
S401、获取对象信息,对象信息包括对象的参数、描述文本和所属分类,其中,描述文本包括至少一个候选词,候选词具有对应的参数。
在本发明实施例中,对象既可以是实体物品,也可以是非实体物品。每个对象存在相应的对象信息,对象信息包括对象的参数、描述文本和所属分类。例如,对象可以是商品,对象的参数可以是商品的价格,描述文本可以是商品的标题,所属分类可以是商品所属的类别。
对象的描述文本是用于描述对象的词语的组合。在本发明的一个实施例中,可以将对象的描述文本切分为一个一个单独的词,切分后的词为候选词。在本发明的另一个实施例中,可以将对象的描述文本中的名词作为候选词,即,先将对象的描述文本进行分词,得到至少一个词。为了便于描述且与下文中所属分类的分词结果进行区分,将对描述文本进行分词所得到的词记为第一词,将对所属分类进行分词所得到的词记为第二词。在将对象的描述文本进行分词,得到至少一个第一词后,分别将各第一词与预设的名词词库进行匹配,将匹配成功的第一词作为候选词。
每个候选词都有对应的参数,即候选词对应的参数。在本发明的一个实施例中,候选词的参数随时间的变化而变化,换言之,候选词的参数的时间敏感性较强。可以将预设周期内候选词的参数的均值作为候选词对应的参数。作为一个示例,候选词在第一时间点的参数是10;候选词在第二时间点的参数是20。其中,预设周期包括第一时间点和第二时间点。可以将第一时间点的参数和第二时间点的参数的均值作为候选词对应的参数,即候选词对应的参数等于15。
需要说明的是,可以基于候选词进行搜索,将搜索得到的参数作为候选词的参数。也就是说,候选词的参数是依据候选词搜索后得到的参数。作为一个示例,候选词是苹果手机6S,候选词的参数是价格。以关键词“苹果手机6S”进行搜索,将搜索到的价格作为候选词的参数。
S402、确定对象的参数与候选词对应的参数的差异度。
从参数的角度分析对象与候选词的差异,具体来说,可以基于对象的参数和对象的描述文本中候选词对应的参数,获知候选词的差异度,差异度为表征所述对象与候选词的差异程度。差异度越大,对象与候选词的差异越大;差异度越小,对象与候选词的差异越小。
在本发明的一个实施例中,可以将对象的参数与候选词的参数之差的绝对值与对象的参数的比值作为对象与候选词的差异度。
S403、确定所属分类与候选词的相似度。
相似度越大,候选词越接近商品的所属分类;相似度越小,候选词越远离商品的所属分类。
在本发明的一个实施例中,根据所属分类的特征向量和候选词的特征向量,确定所属分类与候选词的相似度。具体地,相似度为余弦距离,即,可以将对象的所属分类与候选词的特征向量之间的余弦距离作为所属分类与候选词的相似度。
在本发明的一个实施例中,对象的所属分类由至少一个第二词组成,每个第二词均有相应的特征向量,每个第二词也可以具有相应的权重,相应地,对象的所属分类的特征向量为各第二词的特征向量的加权平均值。在一个实施例中,各第二词的权重相同,相应地,所属分类的特征向量为各第二词的特征向量的平均值。
在本发明的一个实施例中,对象的所属分类的特征向量(当所属分类仅由一个第二词组成时)、第二词的特征向量以及候选词的特征向量均可以采用word2vec模型生成。
S404、根据差异度和相似度,在至少一个候选词中确定核心词,核心词为表征对象实质属性的词。
可以从两方面考虑,在候选词中确定核心词。一方面,从对象的参数与候选词对应的参数,考虑对象与候选词的差异。另一方面,从对象的所属分类与候选词的相似程度,考虑对象与对象的所属分类的相似性。
在本发明实施例中,可以从两个维度确定核心词。一种维度是从对象的参数,另一个维度是从对象的所属分类,这样能够从各个维度分析候选词,进而可以提高确定核心词的准确性。
在本发明的一个实施例中,可以根据差异度和相似度,确定候选词的评分。在候选词中,将评分大于预设阈值的候选词作为核心词。
由于评分是从差异度和相似度得到的,评分能够从两方面进行评价,提高了评价的准确性。此外,将评分大于预设阈值的候选词作为核心词。
在本发明的一个实施例中,可以通过差异度的权重和相似度的权重结合差异度和相似度,来确定候选词的评分,即,候选词的评分为差异度与相似度的加权求和结果。可以预先设置差异度的权重和相似度的权重。作为一个示例,差异度与核心词负相关,则可设置差异度的权重为负数。相似度与核心词正相关,则可设置差异度的权重为正数。
参见图5,图5是本发明另一个实施例确定核心词的方法流程示意图。图5的技术方案是以对象具体是商品为例,说明本发明的技术方案。图5的技术方案,具体包括:
S501、获取对象信息,对象信息包括对象的价格、标题和所属分类,其中,标题包括至少一个候选词,候选词具有对应的价格。
在本发明的一个实施例中,对象具体是商品,相应地,对象信息包括对象(即商品)的价格、标题和所属分类。商品的标题中包括多个候选词,可以将商品的标题中的名词作为候选词,即,先将商品的标题进行分词,得到至少一个第一词,然后分别将各第一词与预设的名词词库进行匹配,将匹配成功的第一词作为候选词。这样,每个候选词均为名词,该名词也是一个商品,具有相应的价格,即,每个候选词有对应的价格。
S502、确定对象的价格与候选词对应的价格的差异度。
在本发明的一个实施例中,差异度为对象的价格与候选词的价格之差的绝对值与对象的价格的比值。
S503、确定对象所属分类与候选词的相似度。
在本发明的一个实施例中,可以根据商品的所属分类的特征向量和候选词的特征向量,确定商品所属分类与候选词的相似度。具体来说,具体地,相似度为余弦距离,即,可以将对象的所属分类与候选词的特征向量之间的余弦距离作为所属分类与候选词的相似度。
在本发明的一个实施例中,对象的所属分类由至少一个第二词组成,每个第二词均有相应的特征向量,每个第二词也可以具有相应的权重,相应地,对象的所属分类的特征向量为各第二词的特征向量的加权平均值。在一个实施例中,各第二词的权重相同,相应地,所属分类的特征向量为各第二词的特征向量的平均值。
在本发明的一个实施例中,对象的所属分类的特征向量(当所属分类由一个第二词组成时)、第二词的特征向量以及候选词的特征向量均可以采用word2vec模型生成。
S504、根据差异度和相似度,在至少一个候选词中确定核心词,核心词为表征对象实质属性的词。
依据差异度和相似度,从两个维度考虑在候选词中确定核心词。进而可以提高确定核心词的准确性。
在本发明的一个实施例中,可以针对每个候选词,基于依据差异度和相似度,确定候选词的评分。将评分大于预设阈值的候选词作为核心词。
在本发明的一个实施例中,在候选词中确定核心词的过程中,可以预先设置差异度的权重,以及预先设置相似度的权重。然后,差异度的权重、相似度的权重结合差异度和相似度,确定候选词的评分。不同的权重代表参数的相关性。也就是说,权重越大,则说明该参数与核心词的相关性越大;权重越小,则说明该参数与核心词的相关性越小。
通过设置权重,可以充分考虑影响确定核心词的各种因素,进而提高确定核心词的准确性。
参见图6,图6是本发明实施例确定核心词的装置结构示意图,确定核心词的装置与确定核心词的方法相对应,确定核心词的装置具体包括:
获取模块601,用于获取对象信息,对象信息包括对象的参数、描述文本和所属分类,其中,描述文本包括至少一个候选词,候选词具有对应的参数。
差异模块602,用于确定对象的参数与候选词对应的参数的差异度。
匹配模块603,用于确定所属分类与候选词的相似度。
确定模块604,用于根据差异度和相似度,在至少一个候选词中确定核心词,核心词为表征对象实质属性的词。
在本发明的一个实施例中,确定模块603,具体用于根据差异度和相似度,确定所述候选词的评分;
将评分大于预设阈值的候选词作为核心词。
在本发明的一个实施例中,确定模块603,具体用于根据差异度和相似度,以及差异度的权重和相似度的权重,确定候选词的评分。
在本发明的一个实施例中,差异模块602,具体用于将对象的参数与候选词的参数之差的绝对值与对象的价格的比值作为差异度。
在本发明的一个实施例中,匹配模块603,具体用于根据所属分类的特征向量和候选词的特征向量,确定所属分类与候选词的相似度。
在本发明的一个实施例中,候选词是与词库匹配成功的第一词,第一词是对对象的描述文本进行分词所得到的至少一个词。
在本发明的一个实施例中,所属分类包括至少一个第二词,对象的所属分类的特征向量是第二词的特征向量的平均值。
在本发明的一个实施例中,第二词的特征向量、所述候选词的特征向量采用word2vec模型生成。
在本发明的一个实施例中,差异度为对象的参数与候选词的参数之差的绝对值与对象的参数的比值。
在本发明的一个实施例中,差异度为对象的所属分类的特征向量和候选词的特征向量之间的余弦距离。
参见图7,图7是本发明另一个实施例确定核心词的装置结构示意图,确定核心词的装置与确定核心词的方法相对应,确定核心词的装置具体包括:
获取模块701,用于获取对象信息,对象信息包括对象的参数、描述文本和所属分类,其中,描述文本包括至少一个候选词,候选词具有对应的参数。
差异模块702,用于确定对象的价格与候选词对应的价格的差异度。
匹配模块703,用于确定所属分类与候选词的相似度。
确定模块704,用于根据差异度和相似度,在至少一个候选词中确定核心词,核心词为表征商品实质属性的词。
在本发明的一个实施例中,确定模块704,具体用于依据差异度和相似度,确定候选词的评分;将最评分大于预设阈值的候选词作为核心词。
在本发明的一个实施例中,确定模块704,具体用于根据差异度和相似度,以及差异度的权重和相似度的权重,确定候选词的评分。
在本发明的一个实施例中,差异模块702,具体用于将对象的价格与候选词的价格之差的绝对值与对象的价格的比值作为差异度。
在本发明的一个实施例中,匹配模块703,具体用于根据所属分类的特征向量和候选词的特征向量,确定所属分类与候选词的相似度。
图8是示出能够实现根据本发明实施例获确定核心词的方法和装置的计算设备的示例性硬件架构的结构图。
如图8所示,计算设备800包括输入设备801、输入接口802、中央处理器803、存储器804、输出接口805、以及输出设备806。其中,输入接口802、中央处理器803、存储器804、以及输出接口805通过总线810相互连接,输入设备801和输出设备806分别通过输入接口802和输出接口805与总线810连接,进而与计算设备800的其他组件连接。
具体地,输入设备801接收来自外部的输入信息,并通过输入接口802将输入信息传送到中央处理器803;中央处理器803基于存储器804中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器804中,然后通过输出接口805将输出信息传送到输出设备806;输出设备806将输出信息输出到计算设备800的外部供用户使用。
也就是说,图8所示的计算设备也可以被实现为包括:存储有计算机可执行指令的存储器;以及处理器,该处理器在执行计算机可执行指令时可以实现结合图1至图7描述的确定核心词的方法和装置。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使对应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (18)
1.一种确定核心词的方法,包括:
获取对象信息,所述对象信息包括对象的参数、描述文本和所属分类,其中,所述描述文本包括至少一个候选词,所述候选词具有对应的参数;
确定所述对象的参数与所述候选词对应的参数的差异度;
确定所述所属分类与所述候选词的相似度;
根据所述差异度和所述相似度以及所述差异度的权重和所述相似度的权重,确定所述候选词的评分;
将所述至少一个候选词中评分大于预设阈值的候选词作为核心词,所述核心词为表征所述对象实质属性的词。
2.根据权利要求1所述确定核心词的方法,其中,所述候选词是与词库匹配成功的第一词,所述第一词是对所述描述文本进行分词所得到的至少一个词。
3.根据权利要求1所述确定核心词的方法,其中,所述候选词对应的参数是在预设周期内所述候选词的参数的均值。
4.根据权利要求1所述确定核心词的方法,其中,所述差异度为对象的参数与候选词的参数之差的绝对值与对象的参数的比值。
5.根据权利要求1所述确定核心词的方法,其中,所述确定所述所属分类与所述候选词的相似度,包括:
根据所述所属分类的特征向量和所述候选词的特征向量,确定所述所属分类与所述候选词的相似度。
6.根据权利要求5所述确定核心词的方法,其中,所述相似度为余弦距离。
7.根据权利要求5所述确定核心词的方法,其中,所述对象的所属分类的特征向量是第二词的特征向量的平均值,所述第二词是对所述所属分类进行分词所得到的词。
8.根据权利要求7所述确定核心词的方法,其中,所述第二词的特征向量、所述候选词的特征向量采用word2vec模型生成。
9.一种确定核心词的方法,包括:
获取对象信息,所述对象信息包括对象的价格、标题和所属分类,其中,所述标题包括至少一个候选词,所述候选词具有对应的价格;
确定所述对象的价格与所述候选词对应的价格的差异度,其中,所述差异度为对象的价格与候选词的价格之差的绝对值与对象的价格的比值;
确定所述所属分类与所述候选词的相似度;
根据所述差异度和所述相似度,在所述至少一个候选词中确定核心词,所述核心词为表征所述对象实质属性的词。
10.根据权利要求9所述确定核心词的方法,其中,所述根据所述差异度和所述相似度,在所述至少一个候选词中确定核心词,包括:
根据所述差异度和所述相似度,确定所述候选词的评分;
将评分大于预设阈值的候选词作为核心词。
11.根据权利要求10所述确定核心词的方法,其中,所述根据所述差异度和所述相似度,确定所述候选词的评分,包括:
根据所述差异度和所述相似度,以及所述差异度的权重和所述相似度的权重,确定所述候选词的评分。
12.根据权利要求11所述确定核心词的方法,其中,所述确定所述所属分类与所述候选词的相似度,包括:
根据所述所属分类的特征向量和所述候选词的特征向量,确定所述所属分类与所述候选词的相似度。
13.一种确定核心词的装置,其中,包括:
获取模块,用于获取对象信息,所述对象信息包括对象的参数、描述文本和所属分类,其中,所述描述文本包括至少一个候选词,所述候选词具有对应的参数;
差异模块,用于确定所述对象的参数与所述候选词对应的参数的差异度;
匹配模块,用于确定所述所属分类与所述候选词的相似度;
确定模块,用于根据所述差异度和所述相似度以及所述差异度的权重和所述相似度的权重,确定所述候选词的评分;
将所述至少一个候选词中评分大于预设阈值的候选词作为核心词,所述核心词为表征所述对象实质属性的词。
14.一种确定核心词的设备,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行如权利要求1-8任一所述确定核心词的方法。
15.一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被处理器执行时实现如权利要求1-8中任一项所述确定核心词的方法。
16.一种确定核心词的装置,包括:
获取模块,用于获取对象信息,所述对象信息包括对象的价格、标题和所属分类,其中,所述标题包括至少一个候选词,所述候选词具有对应的价格;
差异模块,用于确定所述对象的价格与所述候选词对应的价格的差异度,其中,所述差异度为对象的价格与候选词的价格之差的绝对值与对象的价格的比值;
匹配模块,用于确定所述所属分类与所述候选词的相似度;
确定模块,用于根据所述差异度和所述相似度,在所述至少一个候选词中确定核心词,所述核心词为表征所述对象实质属性的词。
17.一种确定核心词的设备,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行如权利要求9-12任一所述确定核心词的方法。
18.一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被处理器执行时实现如权利要求9-12中任一项所述确定核心词的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810936412.4A CN110889285B (zh) | 2018-08-16 | 2018-08-16 | 确定核心词的方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810936412.4A CN110889285B (zh) | 2018-08-16 | 2018-08-16 | 确定核心词的方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110889285A CN110889285A (zh) | 2020-03-17 |
CN110889285B true CN110889285B (zh) | 2023-06-16 |
Family
ID=69744188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810936412.4A Active CN110889285B (zh) | 2018-08-16 | 2018-08-16 | 确定核心词的方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110889285B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103164454A (zh) * | 2011-12-15 | 2013-06-19 | 百度在线网络技术(北京)有限公司 | 关键词分组方法及系统 |
CN105447004A (zh) * | 2014-08-08 | 2016-03-30 | 百度在线网络技术(北京)有限公司 | 查询推荐词的挖掘、相关查询方法及装置 |
CN105808526A (zh) * | 2016-03-30 | 2016-07-27 | 北京京东尚科信息技术有限公司 | 商品短文本核心词提取方法和装置 |
CN106484664A (zh) * | 2016-10-21 | 2017-03-08 | 竹间智能科技(上海)有限公司 | 一种短文本间相似度计算方法 |
CN106897266A (zh) * | 2017-02-16 | 2017-06-27 | 北京光年无限科技有限公司 | 用于智能机器人的文本处理方法及系统 |
CN108108497A (zh) * | 2018-01-29 | 2018-06-01 | 上海名轩软件科技有限公司 | 关键词推荐方法及设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7895205B2 (en) * | 2008-03-04 | 2011-02-22 | Microsoft Corporation | Using core words to extract key phrases from documents |
CN103646074B (zh) * | 2013-12-11 | 2017-06-23 | 北京奇虎科技有限公司 | 一种确定图片簇描述文本核心词的方法及装置 |
KR101536520B1 (ko) * | 2014-04-28 | 2015-07-14 | 숭실대학교산학협력단 | 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버 |
-
2018
- 2018-08-16 CN CN201810936412.4A patent/CN110889285B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103164454A (zh) * | 2011-12-15 | 2013-06-19 | 百度在线网络技术(北京)有限公司 | 关键词分组方法及系统 |
CN105447004A (zh) * | 2014-08-08 | 2016-03-30 | 百度在线网络技术(北京)有限公司 | 查询推荐词的挖掘、相关查询方法及装置 |
CN105808526A (zh) * | 2016-03-30 | 2016-07-27 | 北京京东尚科信息技术有限公司 | 商品短文本核心词提取方法和装置 |
CN106484664A (zh) * | 2016-10-21 | 2017-03-08 | 竹间智能科技(上海)有限公司 | 一种短文本间相似度计算方法 |
CN106897266A (zh) * | 2017-02-16 | 2017-06-27 | 北京光年无限科技有限公司 | 用于智能机器人的文本处理方法及系统 |
CN108108497A (zh) * | 2018-01-29 | 2018-06-01 | 上海名轩软件科技有限公司 | 关键词推荐方法及设备 |
Non-Patent Citations (4)
Title |
---|
Ran Ji等.Extracting Keywords of UAVs Wireless Communication Protocols Based on Association Rules Learning.《2016 12th International Conference on Computational Intelligence and Security (CIS)》.2017,全文. * |
薛炜明 ; 侯霞 ; 李宁 ; .一种基于word2vec的文本分类方法.北京信息科技大学学报(自然科学版).2018,(第01期),全文. * |
马慧芳 ; 朱志强 ; 成玉丹 ; 贾俊杰 ; .基于核心词项平均划分相似度的短文本聚类算法.计算机工程与科学.2017,(第08期),全文. * |
黄贤英 ; 李沁东 ; 刘英涛 ; .结合词性的短文本相似度算法及其在文本分类中的应用.电讯技术.2017,(第01期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN110889285A (zh) | 2020-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lin et al. | A structured self-attentive sentence embedding | |
WO2020182019A1 (zh) | 图像检索方法、装置、设备及计算机可读存储介质 | |
CN110516247B (zh) | 基于神经网络的命名实体识别方法及计算机存储介质 | |
US9251292B2 (en) | Search result ranking using query clustering | |
JP2018518788A (ja) | ウェブページトレーニング方法及び装置、検索意図識別方法及び装置 | |
CN107480143A (zh) | 基于上下文相关性的对话话题分割方法和系统 | |
CN103729360A (zh) | 一种兴趣标签推荐方法及系统 | |
CN110727862B (zh) | 一种商品搜索的查询策略的生成方法及装置 | |
US20100306214A1 (en) | Identifying modifiers in web queries over structured data | |
CN112329460B (zh) | 文本的主题聚类方法、装置、设备及存储介质 | |
CN106649605B (zh) | 一种推广关键词的触发方法及装置 | |
CN106372122A (zh) | 一种基于维基语义匹配的文档分类方法及系统 | |
Liu et al. | Open intent discovery through unsupervised semantic clustering and dependency parsing | |
CN111859940A (zh) | 一种关键词提取方法、装置、电子设备及存储介质 | |
CN106372956B (zh) | 一种基于用户搜索日志进行意图实体识别的方法和系统 | |
CN111274366A (zh) | 搜索推荐方法及装置、设备、存储介质 | |
Magnani et al. | Neural product retrieval at walmart. com | |
CN114328798B (zh) | 搜索文本的处理方法、装置、设备、存储介质和程序产品 | |
CN105808737B (zh) | 一种信息检索方法及服务器 | |
CN110502755B (zh) | 基于融合模型的字符串识别方法及计算机存储介质 | |
CN110889285B (zh) | 确定核心词的方法、装置、设备和介质 | |
CN109344319B (zh) | 一种基于集成学习的线上内容热度预测方法 | |
CN113807073A (zh) | 文本内容异常检测方法、装置以及存储介质 | |
CN111523311A (zh) | 一种搜索意图识别方法及装置 | |
CN115827990A (zh) | 搜索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |