CN106919619A - 一种商品聚类方法、装置及电子设备 - Google Patents
一种商品聚类方法、装置及电子设备 Download PDFInfo
- Publication number
- CN106919619A CN106919619A CN201511000890.7A CN201511000890A CN106919619A CN 106919619 A CN106919619 A CN 106919619A CN 201511000890 A CN201511000890 A CN 201511000890A CN 106919619 A CN106919619 A CN 106919619A
- Authority
- CN
- China
- Prior art keywords
- commodity
- picture
- commercial
- commercial goods
- goods labelses
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Databases & Information Systems (AREA)
- Finance (AREA)
- Theoretical Computer Science (AREA)
- Accounting & Taxation (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种商品聚类方法、装置及电子设备,一种文本摘要的生成方法、装置及电子设备,一种图片摘要的生成方法、装置及电子设备,一种图片质量的评测方法、装置及电子设备,以及一种商品标签名重要度的生成方法、装置及电子设备。其中所述商品聚类方法包括:获取待分类的商品集;根据各个待聚类商品所属的商品类目、及预先生成的商品类目与商品标签集的对应关系,生成各个待聚类商品的商品标签集;根据所述各个待聚类商品的商品标签集,通过预设的聚类算法,对所述商品集中的商品进行聚类。采用本申请提供的方法,能够将商品集中的相似商品自动聚合于同一类别,避免商品同质化现象的发生,从而达到提高用户体验的效果。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及一种商品聚类方法、装置及电子设备。本申请同时涉及一种文本摘要的生成方法、装置及电子设备,一种图片摘要的生成方法、装置及电子设备,一种图片质量的评测方法、装置及电子设备,以及一种商品标签名重要度的生成方法、装置及电子设备。
背景技术
在传统的购物网站中,对于用户而言,商品标签的作用包括:1)帮助用户筛选符合购买意图的商品,即:通过标签导购的方式,帮助用户进行商品的筛选;2)帮助用户进行意图商品的对比。当前,主流的标签系统主要用于筛选商品,而不会用于商品的聚类。
用户在购物网站中搜索某个商品或者某类商品时,搜索结果大都会有若干重复或者相似的商品。由于商品的聚类概念不突出,因而导致对于具有同样标签的商品,不能以商品聚类的形式将商品展现给用户,即:商品同质化。商品同质化现象会带来两方面问题,一方面会使得用户迷失在不是其购买意图的商品中,难以准确的直达其最想购买的商品,从而失去购物的兴趣;另一方面,如果搜索结果列表页面存在着多个购买意图商品,由于这些商品是分散在众多商品之中的,因此,用户将很难对比这些商品,找到最符合其意图的商品。
为了解决商品同质化的问题,现有的购物网站主要通过人工运营的方式,对商品进行聚类,或是网站运营人员,或是网站卖家。然而,人工运营聚类方式存在两个问题:1)人力成本巨大;2)能够通过人工聚类的商品主要局限于标准商品,而对于非标准商品,人工标注很难保证准确。更严重问题的是,如果网站改变了商品聚类的规则,则需要人工重新对商品进行聚类,从而导致极高的运营成本。
综上所述,现有技术存在无法自动对商品进行聚类的问题。
发明内容
本申请提供一种商品聚类方法、装置及电子设备,以解决现有技术存在无法自动对商品进行聚类的问题。本申请另外提供一种文本摘要的生成方法、装置及电子设备,一种图片摘要的生成方法、装置及电子设备,一种图片质量的评测方法、装置及电子设备,以及一种商品标签名重要度的生成方法、装置及电子设备。
本申请提供一种商品聚类方法,包括:
获取待聚类的商品集;
针对所述待聚类的商品集中各个待聚类商品,根据所述待聚类商品所属的商品类目、及预先生成的商品类目与商品标签集的对应关系,生成所述待聚类商品的商品标签集;
根据所述各个待聚类商品的商品标签集,通过预设的聚类算法,对所述商品集中的商品进行聚类。
可选的,所述根据所述待聚类商品所属的商品类目、及预先生成的商品类目与商品标签集的对应关系,生成所述待聚类商品的商品标签集,包括:
根据所述待聚类商品所属的商品类目、及预先生成的商品类目与商品标签集的对应关系,获取所述待聚类商品所属的商品类目的商品标签集;
将所述待聚类商品的属性与所述待聚类商品所属的商品类目的商品标签集中各个商品标签分别进行文本匹配,将匹配成功的商品标签作为所述待聚类商品的商品标签。
可选的,所述商品类目与商品标签集的对应关系,采用如下方式生成:
根据所述商品类目包括的商品属性,生成所述商品类目与商品标签集的对应关系。
可选的,所述根据所述商品类目包括的商品属性,生成所述商品类目与商品标签集的对应关系,包括:
获取所述商品类目包括的所述商品属性;
通过预设的标签选取算法,从所述商品类目包括的所述商品属性中选取具有商品区分意义的属性组成所述商品类目的商品标签集。
可选的,所述预设的标签选取算法包括:基于规则的标签选取算法和基于信息熵的标签选取算法的至少一者。
可选的,所述基于规则的标签选取算法所基于的选取规则包括以下规则的至少一者:
去除不具有商品区分意义的商品属性名所对应的商品属性;所述不具有商品区分意义的商品属性名包括:商品产地或商品新旧程度;
去除不具有商品区分意义的商品属性值所对应的商品属性;所述不具有商品区分意义的商品属性值包括:日期或运营性质。
可选的,所述预设的标签选取算法采用所述基于信息熵的标签选取算法;
所述通过预设的标签选取算法,从所述商品类目包括的所述商品属性中选取具有商品区分意义的属性组成所述商品类目的商品标签集,包括:
获取所述商品类目中商品的属性名;
针对各个所述属性名,根据所述属性名对应的属性值,计算所述属性名的信息熵;
将所述属性名的信息熵小于等于最大信息熵阈值的属性名作为具有商品区分意义的属性名;
将所述具有商品区分意义的属性名对应的商品属性作为所述具有商品区分意义的属性,生成所述商品类目的商品标签集。
可选的,所述属性名的信息熵,采用如下公式计算:
其中,pi为所述属性名的第i个属性值的出现频率。
可选的,所述属性值包括系统属性值或自定义属性值。
可选的,所述预设的聚类算法包括K-means聚类算法或密度聚类算法。
可选的,所述预设的聚类算法包括基于频繁项集挖掘和累积权重匹配的聚类算法;
所述根据所述各个待聚类商品的商品标签集,通过预设的聚类算法,对所述商品集中的商品进行聚类,包括:
根据所述各个待聚类商品的商品标签集,通过频繁项集挖掘算法,生成多个频繁商品标签集;
针对各个所述待聚类商品,根据预先生成的标签名的权重,计算所述待聚类商品的商品标签集分别与各个所述频繁商品标签集的相似度;并选取所述相似度排在高位的所述频繁商品标签集,作为与所述待聚类商品对应的频繁商品标签集;
将与同一所述频繁商品标签集对应的多个所述待聚类商品聚为一类。
可选的,所述频繁商品标签集与所述商品类目相对应;所述通过频繁项集挖掘算法,生成多个频繁商品标签集,包括:
根据所述待聚类商品所属的商品类目,获取所述商品集与所述商品类目的对应关系;
针对所述对应关系中的各个商品类目,将属于所述商品类目的所述待聚类商品的商品标签集作为与所述商品类目对应的候选频繁商品标签集;
针对与所述商品类目对应的各个所述候选频繁商品标签集,根据属于所述商品类目的各个所述待聚类商品的预设事务属性的属性值,计算各个所述候选频繁商品标签集的出现频率;所述出现频率是指,包括所述候选频繁商品标签集的所述预设事务属性的属性值的种类数;
针对所述各个商品类目,选取所述出现频率大于预设的最小支持度阈值的所述候选频繁商品标签集,作为属于所述商品类目的所述频繁商品标签集。
可选的,所述预设事务属性包含商品标识或公司标识。
可选的,所述根据预先生成的标签名的权重,计算所述待聚类商品的商品标签集分别与各个所述频繁商品标签集的相似度,包括:
针对各个所述频繁商品标签集,判断所述频繁商品标签集中的各个商品标签是否均存在于所述待聚类商品的商品标签集中;
若上述判断结果为是,则所述相关度为所述频繁商品标签集中各个所述标签名的权重之和;
若上述判断结果为否,则所述相关度为0。
可选的,所述标签名的权重,采用如下步骤生成:
获取历史查询词及与其对应的与用户行为相关的商品搜索结果;
针对各个历史查询词,根据与所述历史查询词对应的所述与用户行为相关的商品搜索结果,获取与所述历史查询词对应的商品类目,生成历史查询词与商品类目的对应关系;
针对所述历史查询词与商品类目的对应关系中各个商品类目,根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数;并根据各个标签名的出现次数,计算各个标签名的权重。
可选的,所述根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数,包括:
针对与所述商品类目对应的各个所述历史查询词,将所述历史查询词与所述商品类目的商品标签集中各个标签的标签值进行文本匹配;若匹配成功,则将匹配成功的标签值的出现次数加一;
根据各个商品标签的标签值的出现次数,计算所述各个标签名的出现次数。
可选的,所述根据各个标签名的出现次数,计算各个标签名的重要度,包括:
根据所述商品类目的商品标签集中各个标签名的出现次数,计算标签名的出现总次数;
将所述商品类目的商品标签集中各个标签名的出现次数、与所述出现总次数的比值,作为各个标签名的重要度。
可选的,所述与用户行为相关的商品搜索结果包括被用户点击的商品搜索结果或成交的商品搜索结果。
可选的,还包括:
针对各个商品聚类,为所述商品聚类生成文本摘要。
可选的,所述为所述商品聚类生成文本摘要,包括:
将所述商品聚类的商品标签集包括的商品标签与所述商品聚类所属商品类目的名称进行文字拼接,生成所述商品聚类的多个候选文本摘要;
根据预先生成的语言模型,计算各个所述候选文本摘要的语言得分;
选取所述语言得分大于预设的分数阈值的特定候选文本摘要,作为所述商品聚类的文本摘要。
可选的,所述语言模型,采用如下方式生成:
根据预先存储的语料库,生成所述语言模型。
可选的,所述语言模型包括N-GRAM语言模型。
可选的,所述根据所述预先生成的语言模型,计算所述候选文本摘要的语言得分,采用如下公式计算:
其中,W为所述候选文本摘要,p(W)为所述候选文本摘要的似然概率值,S为所述候选文本摘要的起始符,N为所述候选文本摘要包括的词数量,i为词位置。
可选的,在所述将所述商品聚类的商品标签集包括的商品标签与所述商品聚类所属商品类目的名称进行文字拼接之前,还包括:
根据预设的无效词词典,从所述商品标签集和所述商品聚类所属商品类目的名称中去除无效词。
可选的,在所述将所述商品聚类的商品标签集包括的商品标签与所述商品聚类所属商品类目的名称进行文字拼接之前,还包括:
从所述商品标签集和所述商品聚类所属商品类目的名称中去除重复词。
可选的,所述将所述商品聚类的商品标签集包括的商品标签与所述商品聚类所属商品类目的名称进行文字拼接,生成所述商品聚类的候选文本摘要,采用如下方式:
通过预设的剪枝算法,将所述商品聚类的商品标签集包括的商品标签与所述商品聚类所属商品类目的名称进行文字拼接,生成所述候选文本摘要。
可选的,所述预设的剪枝算法包括:定向搜索剪枝算法或柱搜索剪枝算法。
可选的,还包括:
针对各个商品聚类,为所述商品聚类生成图片摘要。
可选的,所述为所述商品聚类生成图片摘要,包括:
获取所述商品聚类中各个所述待聚类商品的商品图片的质量得分;以及获取各个所述待聚类商品的与用户行为相关的历史统计数据;
根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,计算各个所述商品图片作为图片摘要的得分;
选取所述作为图片摘要的得分大于预设的分数阈值的特定商品图片,作为所述商品聚类的图片摘要。
可选的,所述商品图片的质量得分,采用如下步骤计算:
获取所述商品图片的对图片质量产生影响的图片特征;
根据获取的所述图片特征,通过预先生成的图片质量预测模型,计算所述商品图片的质量得分。
可选的,所述图片特征包括:图片高度、图片宽度、图片宽高比、图片边框面积的占比、图片的子图数量、图片中干扰部分的占比、图片背景的复杂度、图片前景的醒目度和图片白背景率的至少一者。
可选的,所述图片质量预测模型,采用如下方式生成:
通过机器学习算法,从已标注图片质量的历史图片特征集中学习获得所述图片质量预测模型。
可选的,所述机器学习算法包括回归算法;所述回归算法包括线性回归算法、逻辑回归算法或GBDT回归决策树算法。
可选的,所述与用户行为相关的历史统计数据包括:商品转换率得分、商品交易数或商品点击数。
可选的,所述商品转换率得分,采用如下公式计算:
cvr_score=∑e-λΔt(w1*click_cnt+w2*trade_cnt)
其中,crv_score为商品转换率得分,为时间衰减因子,click_cnt为商品点击数,w1为商品点击数的权重,trade_cnt为商品交易数,w2为商品交易数的权重。
可选的,所述根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,计算所述商品图片作为图片摘要的得分,采用如下方式:
根据为所述商品图片的质量预设的权重、及为各个所述用户行为相关的历史统计数据分别预设的权重,对所述商品图片的质量得分和所述与用户行为相关的历史统计数据进行线性加权组合,将加权组合值作为所述商品图片作为图片摘要的得分。
可选的,各个所述预设的权重包括经验值;所述用户行为相关的历史统计数据采用商品转换率得分;所述根据所述商品图片的质量得分和所述用户行为相关的历史统计数据,计算所述商品图片作为图片摘要的得分,采用如下公式计算:
abs_scoreoffer=w3*cvr_scoreoffer+w4*pic_scorreoffer
其中,abs_scoreoffer为所述商品图片作为图片摘要的得分,crv_scoreoffer为所述商品转换率得分,w3为所述商品转换率得分的权重,pic_scoreoffer为所述商品图片的质量得分,w4为所述商品图片的质量得分的权重。
可选的,所述根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,计算所述商品图片作为图片摘要的得分,采用如下方式:
根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,通过预先生成的图片摘要得分预测模型,计算所述商品图片作为图片摘要的得分。
可选的,通过机器学习算法,从已标注商品图片作为图片摘要的得分的历史图片摘要特征集中学习获得所述图片摘要得分预测模型;所述图片摘要特征包括:历史商品的商品图片的质量、及历史商品的与用户行为相关的历史统计数据。
可选的,还包括:
根据所述待聚类商品所属的商品聚类,分类显示所述待聚类商品。
可选的,在所述获取待聚类的商品集之后,还包括:
对所述待聚类商品进行筛选,去除无效商品。
可选的,所述无效商品包括:曝光次数低于预设的最小曝光次数阈值的商品、信息质量低于预设的最小信息质量阈值的商品或被评测为欺诈的商品。
相应的,本申请还提供一种商品聚类装置,包括:
获取单元,用于获取待聚类的商品集;
生成标签单元,用于针对所述待聚类的商品集中各个待聚类商品,根据所述待聚类商品所属的商品类目、及预先生成的商品类目与商品标签集的对应关系,生成所述待聚类商品的商品标签集;
聚类单元,用于根据所述各个待聚类商品的商品标签集,通过预设的聚类算法,对所述商品集中的商品进行聚类。
可选的,所述生成标签单元包括:
获取子单元,用于根据所述待聚类商品所属的商品类目、及预先生成的商品类目与商品标签集的对应关系,获取所述待聚类商品所属的商品类目的商品标签集;
匹配子单元,用于将所述待聚类商品的属性与所述待聚类商品所属的商品类目的商品标签集中各个商品标签分别进行文本匹配,将匹配成功的商品标签作为所述待聚类商品的商品标签。
可选的,还包括:
生成对应关系单元,用于生成所述商品类目与商品标签集的对应关系。
可选的,所述生成对应关系单元包括:
获取子单元,用于获取所述商品类目包括的所述商品属性;
选取子单元,用于通过预设的标签选取算法,从所述商品类目包括的所述商品属性中选取具有商品区分意义的属性组成所述商品类目的商品标签集。
可选的,所述预设的标签选取算法采用基于信息熵的标签选取算法;
所述选取子单元包括:
获取子单元,用于获取所述商品类目中商品的属性名;
计算子单元,用于针对各个所述属性名,根据所述属性名对应的属性值,计算所述属性名的信息熵;
选取子单元,用于将所述属性名的信息熵小于等于最大信息熵阈值的属性名作为具有商品区分意义的属性名;
生成子单元,用于将所述具有商品区分意义的属性名对应的商品属性作为所述具有商品区分意义的属性,生成所述商品类目的商品标签集。
可选的,所述预设的聚类算法包括基于频繁项集挖掘和累积权重匹配的聚类算法;
所述聚类单元包括:
生成子单元,用于根据所述各个待聚类商品的商品标签集,通过频繁项集挖掘算法,生成多个频繁商品标签集;
匹配子单元,用于针对各个所述待聚类商品,根据预先生成的标签名的权重,计算所述待聚类商品的商品标签集分别与各个所述频繁商品标签集的相似度;并选取所述相似度排在高位的所述频繁商品标签集,作为与所述待聚类商品对应的频繁商品标签集;
聚类子单元,用于将与同一所述频繁商品标签集对应的多个所述待聚类商品聚为一类。
可选的,所述频繁商品标签集与所述商品类目相对应;所述生成子单元包括:
获取子单元,用于根据所述待聚类商品所属的商品类目,获取所述商品集与所述商品类目的对应关系;
生成候选子单元,用于针对所述对应关系中的各个商品类目,将属于所述商品类目的所述待聚类商品的商品标签集作为与所述商品类目对应的候选频繁商品标签集;
计算子单元,用于针对与所述商品类目对应的各个所述候选频繁商品标签集,根据属于所述商品类目的各个所述待聚类商品的预设事务属性的属性值,计算各个所述候选频繁商品标签集的出现频率;所述出现频率是指,包括所述候选频繁商品标签集的所述预设事务属性的属性值的种类数;
选取子单元,用于针对所述各个商品类目,选取所述出现频率大于预设的最小支持度阈值的所述候选频繁商品标签集,作为属于所述商品类目的所述频繁商品标签集。
可选的,所述匹配子单元包括:
计算子单元,用于根据预先生成的标签名的权重,计算所述待聚类商品的商品标签集分别与各个所述频繁商品标签集的相似度;
所述计算子单元包括:
判断子单元,用于针对各个所述频繁商品标签集,判断所述频繁商品标签集中的各个商品标签是否均存在于所述待聚类商品的商品标签集中;
判断是子单元,用于若上述判断结果为是,则所述相关度为所述频繁商品标签集中各个所述标签名的权重之和;
判断否子单元,用于若上述判断结果为否,则所述相关度为0。
可选的,还包括:
生成权重单元,用于生成所述标签名的权重。
可选的,所述生成权重单元包括:
获取子单元,用于获取历史查询词及与其对应的与用户行为相关的商品搜索结果;
生成子单元,用于针对各个历史查询词,根据与所述历史查询词对应的所述与用户行为相关的商品搜索结果,获取与所述历史查询词对应的商品类目,生成历史查询词与商品类目的对应关系;
计算子单元,用于针对所述历史查询词与商品类目的对应关系中各个商品类目,根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数;并根据各个标签名的出现次数,计算各个标签名的权重。
可选的,所述计算子单元包括:
第一计算子单元,用于根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数;
所述第一计算子单元包括:
匹配子单元,用于针对与所述商品类目对应的各个所述历史查询词,将所述历史查询词与所述商品类目的商品标签集中各个标签的标签值进行文本匹配;若匹配成功,则将匹配成功的标签值的出现次数加一;
计算频度子单元,用于根据各个商品标签的标签值的出现次数,计算所述各个标签名的出现次数。
可选的,所述计算子单元包括:
第二计算子单元,用于根据各个标签名的出现次数,计算各个标签名的重要度;
所述第二计算子单元包括:
计算总频度子单元,用于根据所述商品类目的商品标签集中各个标签名的出现次数,计算标签名的出现总次数;
计算权重子单元,用于将所述商品类目的商品标签集中各个标签名的出现次数、与所述出现总次数的比值,作为各个标签名的重要度。
可选的,还包括:
生成文本摘要单元,用于针对各个商品聚类,为所述商品聚类生成文本摘要。
可选的,所述生成文本摘要单元包括:
生成候选摘要子单元,用于将所述商品聚类的商品标签集包括的商品标签与所述商品聚类所属商品类目的名称进行文字拼接,生成所述商品聚类的多个候选文本摘要;
计算子单元,用于根据预先生成的语言模型,计算各个所述候选文本摘要的语言得分;
选取子单元,用于选取所述语言得分大于预设的分数阈值的特定候选文本摘要,作为所述商品聚类的文本摘要。
可选的,所述生成文本摘要单元还包括:
生成语言模型子单元,用于生成所述语言模型。
可选的,所述生成文本摘要单元还包括:
第一过滤子单元,用于根据预设的无效词词典,从所述商品标签集和所述商品聚类所属商品类目的名称中去除无效词。
可选的,所述生成文本摘要单元还包括:
第二过滤子单元,用于从所述商品标签集和所述商品聚类所属商品类目的名称中去除重复词。
可选的,还包括:
生成图片摘要单元,用于针对各个商品聚类,为所述商品聚类生成图片摘要。
可选的,所述生成图片摘要单元包括:
获取子单元,用于获取所述商品聚类中各个所述待聚类商品的商品图片的质量得分;以及获取各个所述待聚类商品的与用户行为相关的历史统计数据;
计算子单元,用于根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,计算各个所述商品图片作为图片摘要的得分;
选取子单元,用于选取所述作为图片摘要的得分大于预设的分数阈值的特定商品图片,作为所述商品聚类的图片摘要。
可选的,所述生成图片摘要单元还包括:
生成图片质量子单元,用于计算所述商品图片的质量得分。
可选的,所述生成图片质量子单元包括:
获取子单元,用于获取所述商品图片的对图片质量产生影响的图片特征;
计算子单元,用于根据获取的所述图片特征,通过预先生成的图片质量预测模型,计算所述商品图片的质量得分。
可选的,所述生成图片摘要单元还包括:
生成模型子单元,用于生成所述图片质量预测模型。
可选的,还包括:
显示单元,用于根据所述待聚类商品所属的商品聚类,分类显示所述待聚类商品。
可选的,还包括:
筛选单元,用于对所述待聚类商品进行筛选,去除无效商品。
相应的,本申请还提供一种电子设备,包括:
显示器;
处理器;以及
存储器,所述存储器被配置成存储商品聚类装置,所述商品聚类装置被所述处理器执行时,包括如下步骤:获取待聚类的商品集;针对所述待聚类的商品集中各个待聚类商品,根据所述待聚类商品所属的商品类目、及预先生成的商品类目与商品标签集的对应关系,生成所述待聚类商品的商品标签集;根据所述各个待聚类商品的商品标签集,通过预设的聚类算法,对所述商品集中的商品进行聚类。
此外,本申请还提供一种文本摘要的生成方法,用于对象聚类,包括:
获取待处理的对象聚类及其标签集;所述对象聚类包括的对象属于同一对象类目;
将所述标签集包括的标签与所述对象类目的名称进行文字拼接,生成所述对象聚类的多个候选文本摘要;
通过预先生成的语言模型,计算各个所述候选文本摘要的语言得分;
选取所述语言得分大于预设的分数阈值的特定候选文本摘要,作为所述对象聚类的文本摘要。
可选的,所述语言模型,采用如下方式生成:
根据预先存储的语料库,生成所述语言模型。
可选的,所述语言模型包括N-GRAM语言模型。
可选的,所述根据所述预先生成的语言模型,计算所述候选文本摘要的语言得分,采用如下公式计算:
其中,W为所述候选文本摘要,p(W)为所述候选文本摘要的似然概率值,S为所述候选文本摘要的起始符,N为所述候选文本摘要包括的词数量,i为词位置。
可选的,在所述将所述标签集包括的标签与所述对象类目的名称进行文字拼接之前,还包括:
根据预设的无效词词典,从所述标签集和所述对象类目的名称中去除无效词。
可选的,在所述将所述标签集包括的标签与所述对象类目的名称进行文字拼接之前,还包括:
从所述标签集和所述对象类目的名称中去除重复词。
可选的,所述将所述标签集包括的标签与所述对象类目的名称进行文字拼接,生成所述对象聚类的多个候选文本摘要,采用如下方式:
通过预设的剪枝算法,将所述标签集中的各个标签与所述对象类目的名称进行文字拼接,生成所述候选文本摘要。
可选的,所述预设的剪枝算法包括:定向搜索剪枝算法或柱搜索剪枝算法。
可选的,所述对象包括商品对象。
相应的,本申请还提供一种文本摘要的生成装置,用于对象聚类,包括:
获取单元,用于获取待处理的对象聚类及其标签集;所述对象聚类包括的对象属于同一对象类目;
生成候选单元,用于将所述标签集包括的标签与所述对象类目的名称进行文字拼接,生成所述对象聚类的多个候选文本摘要;
计算单元,用于通过预先生成的语言模型,计算各个所述候选文本摘要的语言得分;
选取单元,用于选取所述语言得分大于预设的分数阈值的特定候选文本摘要,作为所述对象聚类的文本摘要。
可选的,还包括:
生成模型单元,用于根据预先存储的语料库,生成所述语言模型。
可选的,还包括:
第一过滤单元,用于根据预设的无效词词典,从所述标签集和所述对象类目的名称中去除无效词。
可选的,还包括:
第二过滤单元,用于从所述标签集和所述对象类目的名称中去除重复词。
相应的,本申请还提供一种电子设备,包括:
显示器;
处理器;以及
存储器,所述存储器被配置成存储文本摘要的生成装置,所述文本摘要的生成装置被所述处理器执行时,包括如下步骤:获取待处理的对象聚类及其标签集;所述对象聚类包括的对象属于同一对象类目;将所述标签集包括的标签与所述对象类目的名称进行文字拼接,生成所述对象聚类的多个候选文本摘要;通过预先生成的语言模型,计算各个所述候选文本摘要的语言得分;选取所述语言得分大于预设的分数阈值的特定候选文本摘要,作为所述对象聚类的文本摘要。
此外,本申请还提供一种图片摘要的生成方法,包括:
获取待处理的商品集中各个商品的商品图片的质量得分;以及获取各个所述商品的与用户行为相关的历史统计数据;
根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,计算各个所述商品图片作为图片摘要的得分;
选取所述作为图片摘要的得分大于预设的分数阈值的特定商品图片,作为所述商品集的图片摘要。
可选的,所述商品图片的质量得分,采用如下步骤计算:
获取所述商品图片的对图片质量产生影响的图片特征;
根据获取的所述图片特征,通过预先生成的图片质量预测模型,计算所述商品图片的质量得分。
可选的,所述图片特征包括:图片高度、图片宽度、图片宽高比、图片边框面积的占比、图片的子图数量、图片中干扰部分的占比、图片背景的复杂度、图片前景的醒目度和图片白背景率的至少一者。
可选的,所述图片质量预测模型,采用如下方式生成:
通过机器学习算法,从已标注图片质量的历史图片特征集中学习获得所述图片质量预测模型。
可选的,所述机器学习算法包括回归算法;所述回归算法包括线性回归算法、逻辑回归算法或GBDT回归决策树算法。
可选的,所述与用户行为相关的历史统计数据包括:商品转换率得分、商品交易数或商品点击数。
可选的,所述商品转换率得分,采用如下公式计算:
cvr_score=∑e-λΔt(w1*click_cnt+w2*trade_cnt)
其中,crv_score为商品转换率得分,为时间衰减因子,click_cnt为商品点击数,w1为商品点击数的权重,trade_cnt为商品交易数,w2为商品交易数的权重。
可选的,所述根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,计算所述商品图片作为图片摘要的得分,采用如下方式:
根据为所述商品图片的质量预设的权重、及为各个所述用户行为相关的历史统计数据分别预设的权重,对所述商品图片的质量得分和所述与用户行为相关的历史统计数据进行线性加权组合,将加权组合值作为所述商品图片作为图片摘要的得分。
可选的,各个所述预设的权重包括经验值;所述用户行为相关的历史统计数据采用商品转换率得分;所述根据所述商品图片的质量得分和所述用户行为相关的历史统计数据,计算所述商品图片作为图片摘要的得分,采用如下公式计算:
abs_scoreoffer=w3*cvr_scoreoffer+w4*pic_scoreoffer
其中,abs_scoreoffer为所述商品图片作为图片摘要的得分,crv_scoreoffer为所述商品转换率得分,w3为所述商品转换率得分的权重,pic_scoreoffer为所述商品图片的质量得分,w4为所述商品图片的质量得分的权重。
可选的,所述根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,计算所述商品图片作为图片摘要的得分,采用如下方式:
根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,通过预先生成的图片摘要得分预测模型,计算所述商品图片作为图片摘要的得分。
可选的,通过机器学习算法,从已标注商品图片作为图片摘要的得分的历史图片摘要特征集中学习获得所述图片摘要得分预测模型;所述图片摘要特征包括:历史商品的商品图片的质量、及历史商品的与用户行为相关的历史统计数据。
相应的,本申请还提供一种图片摘要的生成的装置,包括:
获取单元,用于获取待处理的商品集中各个商品的商品图片的质量得分;以及获取各个所述商品的与用户行为相关的历史统计数据;
计算单元,用于根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,计算各个所述商品图片作为图片摘要的得分;
选取单元,用于选取所述作为图片摘要的得分大于预设的分数阈值的特定商品图片,作为所述商品集的图片摘要。
可选的,还包括:
生成图片质量单元,用于计算所述商品图片的质量得分。
可选的,所述生成图片质量单元包括:
获取子单元,用于获取所述商品图片的对图片质量产生影响的图片特征;
计算子单元,用于根据获取的所述图片特征,通过预先生成的图片质量预测模型,计算所述商品图片的质量得分。
可选的,还包括:
生成模型子单元,用于通过机器学习算法,从已标注图片质量的历史图片特征集中学习获得所述图片质量预测模型。
相应的,本申请还提供一种电子设备,包括:
显示器;
处理器;以及
存储器,所述存储器被配置成存储图片摘要的生成装置,所述图片摘要的生成装置被所述处理器执行时,包括如下步骤:获取待处理的商品集中各个商品的商品图片的质量得分;以及获取各个所述商品的与用户行为相关的历史统计数据;根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,计算各个所述商品图片作为图片摘要的得分;选取所述作为图片摘要的得分大于预设的分数阈值的特定商品图片,作为所述商品集的图片摘要。
此外,本申请还提供一种图片质量的评测方法,包括:
获取待计算图片的对图片质量产生影响的图片特征;
根据获取的所述图片特征,通过预先生成的图片质量预测模型,计算所述待计算图片的质量得分。
可选的,所述图片特征包括:图片高度、图片宽度、图片宽高比、图片边框面积的占比、图片的子图数量、图片中干扰部分的占比、图片背景的复杂度、图片前景的醒目度和图片白背景率的至少一者。
可选的,所述图片质量预测模型,采用如下方式生成:
通过机器学习算法,从已标注图片质量的历史图片特征集中学习获得所述图片质量预测模型。
可选的,所述机器学习算法包括回归算法;所述回归算法包括线性回归算法、逻辑回归算法或GBDT回归决策树算法。
相应的,本申请还提供一种图片质量的评测装置,包括:
获取单元,用于获取待计算图片的对图片质量产生影响的图片特征;
计算单元,用于根据获取的所述图片特征,通过预先生成的图片质量预测模型,计算所述待计算图片的质量得分。
可选的,还包括:
生成单元,用于通过机器学习算法,从已标注图片质量的历史图片特征集中学习获得所述图片质量预测模型。
相应的,本申请还提供一种电子设备,包括:
显示器;
处理器;以及
存储器,所述存储器被配置成存储图片质量的评测装置,所述图片质量的评测装置被所述处理器执行时,包括如下步骤:获取待计算图片的对图片质量产生影响的图片特征;根据获取的所述图片特征,通过预先生成的图片质量预测模型,计算所述待计算图片的质量得分。
此外,本申请还提供一种商品标签名重要度的生成方法,包括:
获取历史查询词及与其对应的与用户行为相关的商品搜索结果;
针对各个历史查询词,根据与所述历史查询词对应的所述与用户行为相关的商品搜索结果,获取与所述历史查询词对应的商品类目,生成历史查询词与商品类目的对应关系;
针对所述历史查询词与商品类目的对应关系中各个商品类目,根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数;并根据各个标签名的出现次数,计算各个标签名的权重。
可选的,所述根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数,包括:
针对与所述商品类目对应的各个所述历史查询词,将所述历史查询词与所述商品类目的商品标签集中各个标签的标签值进行文本匹配;若匹配成功,则将匹配成功的标签值的出现次数加一;
根据各个商品标签的标签值的出现次数,计算所述各个标签名的出现次数。
可选的,所述根据各个标签名的出现次数,计算各个标签名的重要度,包括:
根据所述商品类目的商品标签集中各个标签名的出现次数,计算标签名的出现总次数;
将所述商品类目的商品标签集中各个标签名的出现次数、与所述出现总次数的比值,作为各个标签名的重要度。
可选的,所述与用户行为相关的商品搜索结果包括被用户点击的商品搜索结果或成交的商品搜索结果。
可选的,所述商品类目的商品标签集,采用如下方式生成:
根据所述商品类目包括的商品属性,生成所述商品类目的商品标签集。
可选的,所述根据所述商品类目包括的商品属性,生成所述商品类目的商品标签集,包括:
获取所述商品类目包括的所述商品属性;
通过预设的标签选取算法,从所述商品类目包括的所述商品属性中选取具有商品区分意义的属性组成所述商品类目的商品标签集。
可选的,所述预设的标签选取算法包括:基于规则的标签选取算法或基于信息熵的标签选取算法的至少一者。
可选的,所述基于规则的标签选取算法所基于的选取规则包括以下规则的至少一者:
去除不具有商品区分意义的商品属性名所对应的商品属性;所述不具有商品区分意义的商品属性名包括:商品产地或商品新旧程度;
去除不具有商品区分意义的商品属性值所对应的商品属性;所述不具有商品区分意义的商品属性值包括:日期或运营性质。
可选的,所述预设的标签选取算法采用所述基于信息熵的标签选取算法;
所述通过预设的标签选取算法,从所述商品类目包括的所述商品属性中选取具有商品区分意义的属性组成所述商品类目的商品标签集,包括:
获取所述商品类目中商品的属性名;
针对各个所述属性名,根据所述属性名对应的属性值,计算所述属性名的信息熵;
将所述属性名的信息熵小于等于最大信息熵阈值的属性名作为具有商品区分意义的属性名;
将所述具有商品区分意义的属性名对应的商品属性作为所述具有商品区分意义的属性,生成所述商品类目的商品标签集。
可选的,所述属性名的信息熵,采用如下公式计算:
其中,pi为所述属性名的第i个属性值的出现频率。
可选的,所述属性值包括系统属性值或自定义属性值。
相应的,本申请还提供一种商品标签名重要度的生成装置,包括:
获取单元,用于获取历史查询词及与其对应的与用户行为相关的商品搜索结果;
生成单元,用于针对各个历史查询词,根据与所述历史查询词对应的所述与用户行为相关的商品搜索结果,获取与所述历史查询词对应的商品类目,生成历史查询词与商品类目的对应关系;
计算单元,用于针对所述历史查询词与商品类目的对应关系中各个商品类目,根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数;并根据各个标签名的出现次数,计算各个标签名的权重。
可选的,所述计算单元包括:
第一计算子单元,用于根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数;
所述第一计算子单元包括:
匹配子单元,用于针对与所述商品类目对应的各个所述历史查询词,将所述历史查询词与所述商品类目的商品标签集中各个标签的标签值进行文本匹配;若匹配成功,则将匹配成功的标签值的出现次数加一;
计算频度子单元,用于根据各个商品标签的标签值的出现次数,计算所述各个标签名的出现次数。
可选的,所述计算单元包括:
第二计算子单元,用于根据各个标签名的出现次数,计算各个标签名的重要度;
所述第二计算子单元包括:
计算总频度子单元,用于根据所述商品类目的商品标签集中各个标签名的出现次数,计算标签名的出现总次数;
计算权重子单元,用于将所述商品类目的商品标签集中各个标签名的出现次数、与所述出现总次数的比值,作为各个标签名的重要度。
可选的,还包括:
生成单元,用于根据所述商品类目包括的商品属性,生成所述商品类目的商品标签集。
可选的,所述生成单元包括:
获取子单元,用于获取所述商品类目包括的所述商品属性;
选取子单元,用于通过预设的标签选取算法,从所述商品类目包括的所述商品属性中选取具有商品区分意义的属性组成所述商品类目的商品标签集。
可选的,所述预设的标签选取算法采用所述基于信息熵的标签选取算法;
所述选取子单元包括:
获取子单元,用于获取所述商品类目中商品的属性名;
计算子单元,用于针对各个所述属性名,根据所述属性名对应的属性值,计算所述属性名的信息熵;
选取子单元,用于将所述属性名的信息熵小于等于最大信息熵阈值的属性名作为具有商品区分意义的属性名;
生成子单元,用于将所述具有商品区分意义的属性名对应的商品属性作为所述具有商品区分意义的属性,生成所述商品类目的商品标签集。
相应的,本申请还提供一种电子设备,包括:
显示器;
处理器;以及
存储器,所述存储器被配置成存储商品标签名重要度的生成装置,所述商品标签名重要度的生成装置被所述处理器执行时,包括如下步骤:获取历史查询词及与其对应的与用户行为相关的商品搜索结果;针对各个历史查询词,根据与所述历史查询词对应的所述与用户行为相关的商品搜索结果,获取与所述历史查询词对应的商品类目,生成历史查询词与商品类目的对应关系;针对所述历史查询词与商品类目的对应关系中各个商品类目,根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数;并根据各个标签名的出现次数,计算各个标签名的权重。
与现有技术相比,本申请具有以下优点:
本申请提供的商品聚类方法、装置及电子设备,通过获取待分类的商品集;根据各个待聚类商品所属的商品类目、及预先生成的商品类目与商品标签集的对应关系,生成各个待聚类商品的商品标签集;根据各个待聚类商品的商品标签集,通过预设的聚类算法,将商品集中的相似商品自动聚合于同一类别,进而能够以聚类列表的方式将商品展现给用户,而非以商品列表的方式将商品展现给用户,避免商品同质化现象的发生,从而达到提高用户体验的效果。
附图说明
图1是本申请的商品聚类方法实施例的流程图;
图2是本申请的商品聚类方法实施例生成商品类目与商品标签集的对应关系的具体流程图;
图3是本申请的商品聚类方法实施例步骤S203的具体流程图;
图4是本申请的商品聚类方法实施例生成待聚类商品的商品标签集的具体流程图;
图5是本申请的商品聚类方法实施例步骤S105的具体流程图;
图6是本申请的商品聚类方法实施例步骤S1051的具体流程图;
图7是本申请的商品聚类方法实施例生成标签名权重的具体流程图;
图8是本申请的商品聚类方法实施例生成文本摘要的具体流程图;
图9是本申请的商品聚类方法实施例生成图片摘要的具体流程图;
图10是本申请的商品聚类装置实施例的示意图;
图11是本申请的商品聚类装置实施例生成标签单元103的具体示意图;
图12是本申请的商品聚类装置实施例的具体示意图;
图13是本申请的商品聚类装置实施例生成对应关系单元201的具体示意图;
图14是本申请的商品聚类装置实施例聚类单元105的具体示意图;
图15是本申请的商品聚类装置实施例生成权重单元203的具体示意图;
图16是本申请的商品聚类装置实施例生成文本摘要单元205的具体示意图;
图17是本申请的商品聚类装置实施例生成图片摘要单元207的具体示意图;
图18是本申请的电子设备实施例的示意图;
图19是本申请的文本摘要的生成方法实施例的流程图;
图20是本申请的文本摘要的生成装置实施例的示意图;
图21是本申请的又一电子设备实施例的示意图;
图22是本申请的图片摘要的生成方法实施例的流程图;
图23是本申请的图片摘要的生成装置实施例的示意图;
图24是本申请的又一电子设备实施例的示意图;
图25是本申请的图片质量的评测方法实施例的流程图;
图26是本申请的图片质量的评测装置实施例的示意图;
图27是本申请的又一电子设备实施例的示意图;
图28是本申请的商品标签名重要度的生成方法实施例的流程图;
图29是本申请的商品标签名重要度的生成方法实施例生成商品类目与商品标签集的对应关系的具体流程图;
图30是本申请的商品标签名重要度的生成装置实施例的示意图;
图31是本申请的又一电子设备实施例的示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请中,提供了一种商品聚类方法、装置及电子设备,一种商品标签名重要度的生成方法、装置及电子设备,一种文本摘要的生成方法、装置及电子设备,一种图片摘要的生成方法、装置及电子设备,一种图片质量的评测方法、装置及电子设备,以及一种商品标签名重要度的生成方法、装置及电子设备。在下面的实施例中逐一进行详细说明。
本申请实施例提供的商品聚类方法,其核心的基本思想是:基于待聚类商品的商品标签集,通过预设的聚类算法,对商品进行聚类。由于本申请提供的方法基于商品的标签对商品进行聚类,使得相似的商品能够自动聚于同一类别,避免商品同质化现象的发生。
请参考图1,其为本申请的商品聚类方法实施例的流程图。所述方法包括如下步骤:
步骤S101:获取待聚类的商品集。
本申请实施例所述的待聚类的商品集包括多个待聚类商品。所述的待聚类商品是指,具有多个属性的用于交换的产品。在实际应用中,待聚类商品,既可以是有形的商品,例如,电视、服装等;还可以是无形的服务,例如,保险产品、金融产品等。
所述的待聚类商品的属性是指,商品本身所固有的性质,是商品在不同领域差异性(不同于其他商品的性质)的集合。也就是说,商品属性是商品性质的集合,是商品差异性的集合。商品在每个属性领域所体现出来的性质在商品运作的过程中所起的作用不同、地位不同、权重不同。呈现在消费者眼前的商品就是这些不同属性交互作用的结果。例如,一个名为“苹果5s”的手机商品,该商品的属性包括:“iphone型号:5s”、“品牌:苹果”、“类目:手机”等属性,其中,iphone型号、品牌及类目为属性名,与这些属性名分别对应的属性值为5s、苹果及手机。
需要说明的是,在实际应用中,商品的属性可以分为两种类型:系统属性和自定义属性。其中,系统属性是系统设置的,自定义属性是用户自定义的。以电商平台为例,平台商品的系统属性由网站运营人员进行运营,往往简短而且有较强的区分性,而自定义属性往往由买家填写,填写方式更多元凌乱。例如,运营人员为手表类商品设置的系统属性包括:“操作方式:全自动机械表”、“操作方式:半自动机械表”、“操作方式:机械表”、“操作方式:电子表”和“操作方式:智能手表”等;而用户为手表类商品添加的自定义属性为“操作方式:智能手表”。自定义属性的产生原因主要在于:用户对业务领域的知识更新超过系统属性设置人员的知识更新。相对于自定义属性,系统属性往往属于为大众所认知的商品属性。
步骤S103:针对所述待聚类的商品集中各个待聚类商品,根据所述待聚类商品所属的商品类目、及预先生成的商品类目与商品标签集的对应关系,生成所述待聚类商品的商品标签集。
本申请实施例提供的商品聚类方法,基于各个待聚类商品的商品标签,通过预设的聚类算法,获取各个待聚类商品所属的商品聚类。因此,要实施本申请提供的方法,首先需要根据各个待聚类商品所属的商品类目、及预先生成的商品类目与商品标签集的对应关系,生成各个待聚类商品的商品标签集。
标签(TAG)是一种分类系统,它不同于一般的目录结构的分类方法。相对目录结构的分类方法,TAG可以自由地不考虑目录结构的给对象进行分类,各个TAG之间的关系是一种平行的关系,但是又可以根据其作相关性分析,将经常一起出现的TAG关联起来,而产生一种相关性的分类。总之,TAG能以较少的代价细化分类,更加利于对象的查找。
本申请实施例所述的商品类目是指,用于商品分类的目录结构。例如,商品一级类目包括大家电行业、服装行业等,大家电行业的商品二级类目包括电视、冰箱、洗衣机等,更进一步的,商品类目还可以包括商品三级类目等更细分的商品类目。
本申请实施例所述的商品标签集是指多个商品标签组成的集合。商品标签集可以是一个商品对应的标签集,用于表征商品的特性;可以是一个商品类目对应的标签集(即:所述的商品类目与商品标签集的对应关系),用于表征商品类别的特性;还可以是一个商品聚类对应的标签集,用于表征商品聚类的特性。与商品对应的标签集中的各个标签属于该商品,与商品类目对应的标签集中的各个标签属于该商品类目,与商品聚类对应的标签集中的各个标签属于该商品聚类。
本申请实施例所述的待聚类商品的商品标签集是指,属于一个待聚类商品的商品标签集,例如,一个名为“苹果5s”的手机商品,该商品的商品标签集包括:“iphone型号:5s”、“品牌:苹果”、“类目:手机”等标签,其中,iphone型号、品牌及类目为标签名,与这些标签名分别对应的标签值为5s、苹果及手机。
本申请实施例提供的商品聚类方法,根据待聚类商品所属的商品类目、及预先生成的商品类目与商品标签集的对应关系,生成待聚类商品的商品标签集。其中,所述的商品类目与商品标签集的对应关系,采用如下方式生成:根据所述商品类目包括的商品属性,生成所述商品类目与商品标签集的对应关系。
本申请实施例所述的商品类目与商品标签集的对应关系中的商品标签来源于商品类目包括的商品属性。一个商品类目下的各个商品所具有的商品属性构成该商品类目的商品标签集,即:商品类目与商品标签集的对应关系。
请参考图2,其为本申请的商品聚类方法实施例生成商品类目与商品标签集的对应关系的具体流程图。在本实施例中,生成商品类目与商品标签集的对应关系,包括如下步骤:
步骤S201:获取所述商品类目包括的所述商品属性。
本申请实施例所述的商品属性包括系统属性和自定义属性。其中,系统属性通常预先存储在系统属性表中,可以直接获取;对于自定义属性,可能需要在商品信息中进行提取,通常不同于系统属性的属性即可以被视为自定义属性。
步骤S203:通过预设的属性选取算法,从所述商品类目包括的所述商品属性中选取具有商品区分意义的属性组成所述商品类目的商品标签集。
一个商品通常具有多个属性,其中只有部分属性属于具有商品区分意义的属性,例如,型号、品牌等属性名对应的属性具有商品区分意义,而产地、新旧程度等属性名对应的属性不具有商品区分意义;或者,年份、运营性质等属性值对应的属性不具有商品区分意义。可见,具有商品区分意义的属性是指,属性名及属性值均具有商品区分意义的属性。以“苹果5s”的手机为例,该商品的属性包括:“iphone型号:5s”、“品牌:苹果”、“类目:手机”、“产地:中国”等属性,其中,“产地:中国”这个属性对商品并没有实际区分意义。
本申请实施例所述的预设的标签选取算法,包括:基于规则的标签选取算法和基于信息熵的标签选取算法的至少一者。下面分别对上述两种算法进行说明。
1)基于规则的标签选取算法
本申请实施例所述的基于规则的标签选取算法,根据预先设定的选取规则对商品属性进行选取。所述的选取规则包括但不限于:1)去除不具有商品区分意义的属性名所对应的商品属性;所述不具有商品区分意义的属性名包括:商品产地、商品新旧程度;2)去除不具有商品区分意义的属性值所对应的商品属性;所述不具有商品区分意义的属性值包括:日期或运营性质。在实际应用中,还可以根据具体业务情况,设置其它选取规则,只要能够去除不具有商品区分意义的属性即可,同样可以实现本申请的技术方案,因此也在本申请的保护范围之内。
2)基于信息熵的标签选取算法。
本申请实施例提供的基于信息熵的标签选取算法,能够过滤掉商品属性中不具有商品区分意义的属性名所对应的属性。
请参考图3,其为本申请的商品聚类方法实施例步骤S203的具体流程图。在本实施例中,采用基于信息熵的标签选取算法实现步骤S203,包括如下步骤:
步骤S301:获取所述商品类目中商品的属性名。
本申请实施例提供的基于信息熵的标签选取算法,基于商品类目中商品的属性名的信息熵,对商品类目包括的商品属性进行过滤。因此,首先需要获取商品类目中商品的属性名。商品信息通常存储在数据库中,商品的属性名即描述商品实体的字段名,可以直接获取。
步骤S303:针对各个所述属性名,根据所述属性名对应的属性值,计算所述属性名的信息熵。
要基于属性名的信息熵对商品属性进行过滤,还需要计算各个属性名的信息熵。本申请实施例提供的基于信息熵的标签选取算法,根据属性名对应的属性值,计算属性名的信息熵。其中,属性名对应的属性值包括系统属性值或自定义属性值。
信息熵描述信源的不确定度,信息熵越大,不确定性越大。本申请实施例所述的属性名的信息熵,用于表示属性名区分商品的价值,属性名的信息熵越大,则属性名越不具有商品区分意义。计算一个属性名的信息熵的采用如下公式:该公式中的pi为属性名对应的第i个属性值的出现频率。
步骤S305:将所述属性名的信息熵小于等于最大信息熵阈值的属性名作为具有商品区分意义的属性名。
获取到各个属性名的信息熵后,将其中信息熵小于等于最大信息熵阈值的属性名作为具有商品区分意义的属性名。最大信息熵阈值可以根据经验获取。
步骤S307:将所述具有商品区分意义的属性名对应的商品属性作为所述具有商品区分意义的属性,生成所述商品类目的商品标签集。
最后,从商品类目包括的多个商品属性中选取具有商品区分意义的属性组成商品类目的商品标签集,其中,具有商品区分意义的属性即为:具有商品区分意义的属性名对应的商品属性。
以上对步骤S203可应用的两种标签选取算法进行了说明。需要说明的是,在实际应用中,还可以根据具体业务情况,采用其它标签选取算法,只要能够选取出具有商品区分意义的属性即可,同样可以实现本申请的技术方案,因此也在本申请的保护范围之内。此外,在实际应用中,可以采用上述其中一种或多种标签选取算法的组合,从所述商品类目包括的商品属性中选取具有商品区分意义的属性。
生成商品类目与商品标签集的对应关系后,就可以根据待聚类商品所属的商品类目、及预先生成的商品类目与商品标签集的对应关系,生成待聚类商品的商品标签集。下面对生成待聚类商品的商品标签集的步骤进行说明。
请参考图4,其为本申请的方法实施例生成待聚类商品的商品标签集的具体流程图。在本实施例中,生成待聚类商品的商品标签集,包括如下步骤:
步骤S401:根据所述待聚类商品所属的商品类目、及预先生成的商品类目与商品标签集的对应关系,获取所述待聚类商品所属的商品类目的商品标签集。
本申请实施例所述的待聚类商品的商品标签集是指,待聚类商品所属的商品类目的商品标签子集,即:待聚类商品的商品标签集中的各个商品标签均包含在待聚类商品所属的商品类目的商品标签集中。因此,要生成待聚类商品的商品标签集,首先需要获取所述待聚类商品所属的商品类目的商品标签集。
在本实施例中,以所述待聚类商品所属的商品类目为查询条件,在预先生成的商品类目与商品标签集的对应关系中进行检索,以获取待聚类商品所属的商品类目的商品标签集。
步骤S403:将所述待聚类商品的属性与所述待聚类商品所属的商品类目的商品标签集中各个商品标签分别进行文本匹配,将匹配成功的商品标签作为所述待聚类商品的商品标签。
获取到待聚类商品所属的商品类目的商品标签集后,将待聚类商品的各个属性分别与所述待聚类商品所属的商品类目的商品标签集中各个商品标签进行文本匹配,将匹配成功的标签作为待聚类商品的商品标签,从而形成待聚类商品的商品标签集。
例如,一个名为“苹果5s”的手机商品,该商品的属性包括:“iphone型号:5s”、“品牌:苹果”、“类目:手机”等;该商品所属的手机类目的商品标签集包括:“iphone型号:4s”、“iphone型号:5s”、“iphone型号:6s”、“品牌:苹果”、“品牌:三星”、“品牌:华为”等商品标签;通过文本匹配,商品标签“iphone型号:5s”与该商品的属性“iphone型号:5s”相匹配,商品标签“品牌:苹果”与该商品的属性“品牌:苹果”相匹配,因此,该商品的商品标签集包括:“iphone型号:5s”和“品牌:苹果”两个商品标签。
获取到各个待聚类商品的商品标签集后,就可以进入步骤S105,根据各个待聚类商品的商品标签集,通过预设的聚类算法,对商品集中的商品进行聚类。
步骤S105:根据所述各个待聚类商品的商品标签集,通过预设的聚类算法,对所述商品集中的商品进行聚类。
本申请实施例提供的商品聚类方法,将待聚类商品的商品标签集中的各个商品标签作为待聚类商品的商品特征,并根据商品特征,通过预设的聚类算法,对待聚类商品进行商品聚类。
本申请实施例所述的预设的聚类算法,用于对待聚类商品进行聚类分析。聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大,即:聚类后同一类的数据尽可能聚集到一起,不同数据尽量分离。
目前,主要的聚类算法可以划分为如下几种类型:划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法。每一类中都存在着得到广泛应用的算法,例如:划分方法中的k-means聚类算法、层次方法中的凝聚型层次聚类算法、基于模型方法中的神经网络聚类算法等。
聚类问题的研究不仅仅局限于上述的硬聚类,即每一个数据只能被归为一类,模糊聚类也是聚类分析中研究较为广泛的一个分支。模糊聚类通过隶属函数来确定每个数据隶属于各个簇的程度,而不是将一个数据对象硬性地归类到某一簇中。目前,已有很多关于模糊聚类的算法被提出,例如,著名的FCM算法等。
本申请实施例提供的商品聚类方法,可以应用上述已有的聚类算法之一,根据各个待聚类商品的商品标签集,对待聚类商品进行聚类。例如,采用k-means聚类算法对待聚类商品进行聚类,其过程如下:1)随机的选取任意k个待聚类商品作为初始聚类的质心,初始地代表一个商品聚类;2)对剩余的每个待聚类商品测量其到每个质心的距离,并把它归到最近的质心的类;3)重新计算已经得到的各个聚类的质心;4)迭代2~3步直至新的质心与原质心相等或小于指定阈值,算法结束。
在上述第2步计算距离时,需要综合考虑各个标签名的权重。例如,商品A为“夏普黑色显示器”、商品B为“明基黑色显示器”及商品C为“夏普红色显示器”,如果标签名“品牌”的权重大于标签名“颜色”的权重,则商品A与商品C之间距离小于商品A与商品B之间距离;如果标签名“品牌”的权重小于标签名“颜色”的权重,则商品A与商品B之间距离小于商品A与商品C之间距离。可见,步骤S103生成的待聚类商品的商品标签集表示了待聚类商品的各种特征。
然而,k-means算法包括如下缺点:1)在K-means算法中K是事先给定的,这个K值的选定是非常难以估计的,很多时候,事先并不知道给定的商品集应该分成多少个类别才最合适;2)在K-means算法中,首先需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响,一旦初始值选择的不好,可能无法得到有效的聚类结果;3)该算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量非常大时,算法的时间开销是非常大的。
为了得到更好的聚类效果,本申请实施例提出一种基于频繁项集挖掘和累积权重匹配的聚类算法。请参考图5,其为本申请的方法实施例步骤S105的具体流程图。在本实施例中,步骤S105包括如下步骤:
步骤S1051:根据所述各个待聚类商品的商品标签集,通过频繁项集挖掘算法,生成多个频繁商品标签集。
本申请实施例提供的基于频繁项集挖掘和累积权重匹配的聚类算法,在对待聚类商品进行聚类之前,首先需要根据各个待聚类商品的商品标签集,通过频繁项集挖掘算法,生成多个频繁商品标签集。一个频繁商品标签集与一个商品聚类相对应。
项的集合称为项集。包含k个项的项集称为k-项集,例如,集合{“iphone型号:5s”,“品牌:苹果”}是一个二项集。项集的出现频率是包含项集的事务数,简称为项集的频率、支持度计数或计数。如果一个项集的频率满足预定义的最小频率阈值,则该项集是频繁项集。在本实施例中,被挖掘的项集中的项为商品标签,因此,被挖掘的项集为各个待聚类商品的商品标签集,而生成的频繁项集为频繁商品标签集。
目前,频繁项集挖掘已经有很多比较成熟的算法,在网上也可以找到相关的优秀论文或源代码。算法中最经典的莫过于Apriori算法,它可以算得上是频繁项集挖掘算法的鼻祖,后续很多的改进算法也是基于Apriori算法的。在实际应用中,可以选取任意一种频繁项集挖掘算法实现步骤S1051,此处不再赘述。
需要注意的是,本申请实施例所述的商品集中的各个待聚类商品,既可能属于同一商品类目,也可能属于不同的商品类目。所述的频繁商品标签集,既可以是与商品类目对应的频繁商品标签集,还可以是不与商品类目对应的频繁商品标签集。
在实际应用中,通常认为属于同一商品类目的商品才具有可比性,即:可聚类。为了满足这个实际需求,需要按商品类目对待聚类商品进行聚类,即:一个商品聚类中的商品属于同一商品类目。因此,需要按商品类目生成频繁商品标签集,即:频繁商品标签集与商品类目相对应。
请参考图6,其为本申请的方法实施例步骤S1051的具体流程图。在本实施例中,生成的频繁商品标签集与商品类目相对应,步骤S1051包括如下步骤:
步骤S601:根据各个所述待聚类商品所属的商品类目,获取所述商品集与所述商品类目的对应关系。
要按照商品类目生成与商品类目相对应的频繁商品标签集,首先需要获取商品集对应的多个商品类目,即:商品集与商品类目的对应关系。根据各个待聚类商品所属的商品类目,可以形成所述商品集与所述商品类目的对应关系。
步骤S603:针对所述对应关系中的各个商品类目,将属于所述商品类目的所述待聚类商品的商品标签集作为与所述商品类目对应的候选频繁商品标签集。
针对多个商品类目中的任意一个商品类目,属于该商品类目的各个待聚类商品的商品标签集均可以作为候选频繁商品标签集。最终,候选频繁商品标签集中满足支持度条件的候选频繁商品标签集将被保留,不满足条件的将被舍弃。
步骤S605:针对与所述商品类目对应的各个所述候选频繁商品标签集,根据属于所述商品类目的各个所述待聚类商品的预设事务属性的属性值,计算各个所述候选频繁商品标签集的出现频率。
针对各个候选频繁商品标签集,根据与候选频繁商品标签集对应的商品类目,能够获取属于该商品类目的各个待聚类商品;然后,再根据属于该商品类目的各个待聚类商品的预设事务属性的属性值,计算该候选频繁商品标签集的出现频率。所述的出现频率是指,包括候选频繁商品标签集的预设事务属性的属性值的种类数,即:候选频繁商品标签集的事务数。
频繁项集挖掘算法将频繁出现的商品标签集归结为一个商品聚类。频繁出现的衡量依赖于预设事务属性的事务数。对于商品聚类而言,可应用的预设事务属性包括但不限于:商品标识或公司标识,即:频繁出现是指频繁出现的商品数或频繁出现的公司数等。
在本实施例中,采用公司标识作为预设事务属性,而非商品标识。主要原因在于:对于各个待聚类商品,将不同公司的相似商品聚为一类供用户比较更有价值。如果选用商品标识作为预设事务属性,那么,当商品数据存在噪音数据时,则可能将同一公司的相似商品聚为一类供用户比较,可见,这样的商品聚类对用户而言价值较低,用户更希望对不同公司的相似商品进行比较。噪音数据包括:同一公司以不同商品名发布的多个同一商品,该数据的产生原因在于:公司为提高其商品被用户搜索到的概率,对同一商品采用不同的商品名进行发布。
步骤S607:针对所述各个商品类目,选取所述出现频率大于预设的最小支持度阈值的所述候选频繁商品标签集,作为属于所述商品类目的所述频繁商品标签集。
获取到各个候选频繁商品标签集的出现频率后,针对各个商品类目,从与商品类目对应的多个候选频繁商品标签集中,选取出现频率大于预设的最小支持度阈值的多个候选频繁商品标签集,作为属于商品类目的频繁商品标签集,即生成了与商品类目对应的多个频繁商品标签集。其中最小支持度阈值可以根据经验设定。
为了能够直观地说明本申请实施例通过频繁项集挖掘算法实现步骤S1051的过程,下面采用形式化的方法对此过程进行说明。在本实施例中,通过频繁项集挖掘算法,生成与一个商品类目对应的多个频繁商品标签集的过程,主要包含如下步骤:
1)每个待聚类商品可以表示为三元组:[offer_id,tag_set,company_id],其中,offer_id为商品标识,tag_set为商品标签集,company_id为发布该商品的公司标识。
2)对于每个商品类目,统计该类目下待聚类商品的商品标签集以及商品标签集对应的公司数:[tag_set1,companyCnt1],…,[tag_setN,companyCntN],其中,companyCnt为公司数。
3)对于每个商品类目,从中选出companyCnt大于最小支持度阈值的商品标签集作为该商品类目下的所有商品聚类,标记为[cluster1,tag_set1],…,[clusterN,tag_setN]。其中,每个tag_set表示为标签值和标签值对应的标签名的权重,即:tag_setj={tagj,1,weightj,1;…;tagj,T,weightj,T},tagj,1…tagj,T均为标签值,weightj,1…weightj,T为标签名的权重。
在生成多个频繁商品标签集后,就可以进入步骤S1053,为各个待聚类商品选取最合适的商品聚类。
步骤S1053:针对各个所述待聚类商品,根据预先生成的标签名的权重,计算所述待聚类商品的商品标签集分别与各个所述频繁商品标签集的相似度;并选取所述相似度排在高位的所述频繁商品标签集,作为与所述待聚类商品对应的频繁商品标签集。
通过步骤S1051生成的多个频繁商品标签集,也就是各个待聚类商品可能属于的商品聚类,一个频繁商品标签集对应一个商品聚类。针对每一个待聚类商品,需要计算该待聚类商品的商品标签集分别与各个频繁商品标签集的相似度;然后,选取相似度排在高位的频繁商品标签集,作为与该待聚类商品对应的频繁商品标签集,即:获取到该待聚类商品所属的商品聚类。
需要注意的是,如果生成的频繁商品标签集与商品类目相对应,那么,针对各个待聚类商品,首先需要获取与待聚类商品所属的商品类目相对应的多个频繁商品标签集;然后,仅需计算待聚类商品的商品标签集分别与该商品类目对应的各个频繁商品标签集之间的相似度;最后,从中选取相似度排在高位的频繁商品标签集,作为与待聚类商品对应的频繁商品标签集,以避免属于不同商品类目的多个待聚类商品聚为一类。
在本实施例中,根据预先生成的标签名的权重,计算待聚类商品的商品标签集与频繁商品标签集的相似度,即:累计权重匹配值,包括如下步骤:判断频繁商品标签集中的各个商品标签是否均存在于待聚类商品的商品标签集中;若上述判断结果为是,则二者间的相关度为频繁商品标签集中各个标签名的权重之和;若频繁商品标签集中存在某些标签不在待聚类商品的商品标签集中,则二者间的相关度为0。
例如,一个名为“苹果5s”的手机商品,该商品的商品标签集包括:“iphone型号:5s”、“品牌:苹果”、“颜色:白”等标签,该商品所属的“手机”类目对应多个频繁商品标签集,其中一个频繁商品标签集包括两个商品标签:“iphone型号:5s”和“品牌:苹果”,可见,由于该频繁商品标签集中的商品标签均存在于“苹果5s”的商品标签集中,因此,“名为“苹果5s”的手机商品的商品标签集与该频繁商品标签集之间的相似度为“iphone型号”的权重与“品牌”的权重之和。上述判断过程的形式化表示如下:
需要注意的是,在实际应用中,本步骤所述的选取相似度排在高位的频繁商品标签集作为与待聚类商品对应的频繁商品标签集,其常见的选取方式为:选取相似度最大的频繁商品标签集,即:
要基于累积权重匹配的方法实现对商品的聚类,还需要预先生成各个标签名的权重。本申请实施例所述的标签名的权重是指,在商品类目的商品标签集中,商品标签集所包括的各个标签名在该商品类目的所有标签名中所占的比重。例如,手机类目中的标签名包括:型号、品牌等,对于商品聚类而言,型号的权重可能高于品牌的权重。在本实施例中,标签名的权重用于计算待聚类商品的商品标签集与频繁商品标签集的相似度。
请参考图7,其为本申请的方法实施例生成标签名权重的具体流程图。在本实施例中,在所述商品类目与商品标签集的对应关系(即:标签字典)基础上生成各个标签名的权重,包括如下步骤:
步骤S701:获取历史查询词及与其对应的与用户行为相关的商品搜索结果。
在实际应用中,标签名的权重与历史查询词及与其对应的与用户对搜索结果的操作有关,例如,用户浏览网站时输入的查询词中包含了商品标签,说明用户更关注此类标签,则对应标签名的权重应该增加;被用户点击过的商品搜索结果表示用户对该商品的感兴趣度更高,感兴趣度取决于该商品的各种属性,不同属性对感兴趣度的影响程度不同,对感兴趣度的影响程度越深的属性,其权重值也越大。因此,本申请实施例提供的商品聚类方法,根据历史查询词及与其对应的与用户行为相关的商品搜索结果,计算各个标签名的权重。
本申请实施例所述的历史查询词及与其对应的与用户行为相关的商品搜索结果,通常存储在以商品维度构建的搜索日志中,即:信息点击曝光日志。通过读取搜索日志,能够获取历史查询词及与其对应的与用户行为相关的商品搜索结果。
本申请实施例所述的与用户行为相关的商品搜索结果包括但不限于:被用户点击的商品搜索结果或成交的商品搜索结果,还可以是其它与用户行为相关的商品搜索结果。由于成交的商品搜索结果过于限制了可依据的已有搜索结果,可能降低依据其计算获取的标签名权重的准确度。在实际应用中,通常选用被用户点击的商品搜索结果计算标签名的权重,由此计算获取的标签名权重的准确度较高。
步骤S703:针对各个历史查询词,根据与所述历史查询词对应的所述与用户行为相关的商品搜索结果,获取与所述历史查询词对应的商品类目,生成历史查询词与商品类目的对应关系。
获取历史查询词及与其对应的与用户行为相关的商品搜索结果之后,就可以分别针对各个历史查询词,根据与历史查询词对应的与用户行为相关的商品搜索结果,获取与历史查询词对应的商品类目,生成历史查询词与商品类目的对应关系。与历史查询词对应的各个商品类目、均存在于商品搜索结果涉及到的商品类目中。
步骤S705:针对所述历史查询词与商品类目的对应关系中各个商品类目,根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数;并根据各个标签名的出现次数,计算各个标签名的权重。
对于历史查询词与商品类目的对应关系中的各个商品类目,首先需要根据与商品类目对应的历史查询词,计算商品类目的商品标签集中各个标签名的出现次数;然后,再根据各个标签名的出现次数,计算各个标签名在商品类目的所有标签名中所占的比重,作为标签名的权重。
在本实施例中,所述根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数,包括如下步骤:1)针对与所述商品类目对应的各个所述历史查询词,将所述历史查询词与所述商品类目的商品标签集中各个标签的标签值进行文本匹配;若匹配成功,则将匹配成功的标签值的出现次数加一;2)根据各个商品标签的标签值的出现次数,计算所述各个标签名的出现次数。
在本实施例中,针对各个所述商品类目,所述根据各个标签名的出现次数,计算各个标签名的重要度,包括如下步骤:1)根据所述商品类目的商品标签集中各个标签名的出现次数,计算标签名的出现总次数;2)将所述商品类目的商品标签集中各个标签名的出现次数、与所述出现总次数的比值,作为各个标签名的重要度。
综上所述,标签名的权重计算,主要是通过对用户查询词和被用户点击的商品搜索结果的商品类目中的商品标签的标签值进行匹配,对于匹配成功的标签值所对应的标签名,则增加该标签名的匹配频次及权重。
为了能够直观地说明步骤S705的过程,下面采用形式化的方法对此过程进行说明,其中,与用户行为相关的商品搜索结果采用被用户点击的商品搜索结果。在本实施例中,步骤S705主要包含如下步骤:
1)初始输入数据为用户查询词及被用户点击的商品组成的数据对<query,offer_id>,其中offer_id为商品标识;
2)通过offer_id找到商品对应的商品类目,形成查询词与商品类目组成的数据对<query,cate_id>,其中cate_id为商品类目标识;
3)找到商品类目对应的标签字典(即:商品标签集),将查询词和标签字典中的每个标签值进行匹配,如果匹配成功,则对应的标签值的频率ftag_value自增;
4)通过标签值的频率,计算标签名的出现频率,计算公式为:
其中,ftag_name为标签名tag_name的出现频率,ftag_value为标签值tag_value的出现频率。
5)计算标签名的权重,计算公式为:
该公式中的weighttag_name为标签名tag_name的权重,ftag_name为标签名tag_name的出现频率,cate_id为商品类目。
获取到与各个待聚类商品分别对应的频繁商品标签集之后,就可以进入步骤S1055,对待聚类商品进行聚类。
步骤S1055:将与同一所述频繁商品标签集对应的多个所述待聚类商品聚为一类。
根据与各个待聚类商品分别对应的频繁商品标签集,将与同一频繁商品标签集对应的多个待聚类商品聚为一类,从而完成对待聚类商品进行商品聚类的处理。在本实施例中,频繁商品标签集与商品类目相对应,不同商品类目的商品不会聚为一类。
本申请实施例提供的商品聚类方法,将所有相似的待聚类商品都聚合于同一类别。在展现给用户的时候,可以不再是以商品列表的方式展现给用户,而是以商品聚类列表的方式展现给用户。如果用户对某个特定聚类有兴趣,通过点击该聚类,进入聚类展示页查看相似商品。在聚类展示页中,该类所有商品会展现给用户,以方便用户进行对比。同时,用户可以对商品的标签进行增、删等导购操作,以快速选择到最感兴趣的商品。
此外,出于用户友好性的考虑,对于已经聚成一类的商品,在展现给用户的时候,需要告诉用户这类商品共有的特性。因此,需要为该类商品生成图文摘要,以描述该商品聚类。
在本实施例中,在对各个待聚类商品进行聚类后,还包括:针对各个商品聚类,为所述商品聚类生成文本摘要及图片摘要。
要实现为商品聚类生成图文摘要,可以采用各种现有的图文摘要系统。然而,现有的图文摘要系统,主要通过人工运营的方式进行标注,分别为每个商品聚类选取图片和文字标题。这种通过人工进行图文标注的方式,至少存在两个缺点:1)运营成本巨大,特别是面对海量商品数据的聚类;2)对于一类商品的文本摘要,很多时候都只能描述成一个品牌或者材料等,或者简单的将某个商品的标题作为文本摘要,并没有一个完整的句子描述商品类别各方面的性质,即:无法对一类商品进行完整描述;对于一类商品的图片摘要,往往随机选用其中一个商品的图片作为图片摘要,因而不具有代表性。
综上所述,生成文字摘要的现有技术存在文字摘要准确性低的问题,生成图片摘要的现有技术存在图片摘要准确性低的问题。
本申请实施例提供的商品聚类方法,提出一种新的文本摘要的生成方法及一种新的图片摘要的生成方法,以解决文字摘要效果差及图片摘要准确性低的问题。在下面的实施例中逐一进行详细说明。
本申请实施例提供的文本摘要的生成方法,其核心的基本思想是:对商品聚类所属的商品类目名以及商品聚类的商品标签等进行文字组合,选择语言模型得分最高的文字组合作为商品聚类的文本摘要。由于该方法综合考虑商品聚类所在的类目名以及商品聚类的商品标签,因此,生成的文本摘要的概括性更强且准确性更高;由于根据语言模型得分对各种组合进行选择,因此,文本摘要的语句更为通顺,从而达到提高用户体验的效果。
请参考图8,其为本申请的方法实施例生成文本摘要的具体流程图。在本实施例中,为所述商品聚类生成文本摘要,包括如下步骤:
步骤S801:将所述商品聚类的商品标签集包括的商品标签与所述商品聚类所属商品类目的名称进行文字拼接,生成所述商品聚类的多个候选文本摘要。
对于聚合成一类的商品,在展现的时候,不能简单的将某个商品的标题进行展现,而需要综合考虑商品聚类中所有商品的标题。本申请实施例提供的商品聚类方法,已经对商品聚类的共性作了抽取,即:商品聚类对应的商品标签集。商品标签集中的各个商品标签可以被视为构成文本摘要的摘要短语。要形成商品聚类的文本摘要,需要将这些摘要短语和商品聚类所属商品类目的名称组合成一段完整的语句。
根据摘要短语和类目名称,能够产生大量的文本组合,从理论上讲,各种组合均可能成为文本摘要。然而,由于组合的数量较多,并且部分组合明显不适于作为文本摘要,因此,本实施例通过预设的剪枝算法,将摘要短语与商品类目的名称进行文字拼接,生成候选文本摘要。
在实际应用中,可以采用各种现有的剪枝算法,例如,定向搜索(beam-search)剪枝算法或柱搜索剪枝算法。不同算法生成的候选文本摘要的准确度不同,不同算法的计算复杂度也不相同,在实际应用中,根据具体应用需求,可以选择任意一种剪枝算法生成候选文本摘要。上述各种不同的剪枝算法都只是具体实施方式的变更,都不偏离本申请的核心,因此都在本申请的保护范围之内。
在本实施例中,采用定向搜索剪枝算法生成商品聚类的多个候选文本摘要。定向搜索剪枝算法的描述为:对于前k个单词的组合,均保留概率最高的N个结果,作为第k个位置上的结果,最终保留概率最高的N个所有单词的组合作为候选文本摘要。剪枝过程中应用的概率计算公式为:
该计算公式中的w为k个单词的文本组合,p(w)为所述k个单词的文本组合的似然概率值,S为所述k个单词的文本组合的起始符,i为词位置。
获取到各个候选文本摘要后,就可以进入到步骤S803,计算各个候选文本摘要的语言得分。
步骤S803:根据预先生成的语言模型,计算各个所述候选文本摘要的语言得分。
语言模型(Language Model,简写为LM)是自然语言处理领域的基础问题,其在词性标注、句法分析、机器翻译、信息检索等任务中起到了重要作用。简而言之,统计语言模型表示为:在词序列中,给定一个词和上下文中所有词,这个序列出现的概率。借助语言模型能够保证句子的流畅度。
本申请实施例所述的预先生成的语言模型是根据语言客观事实而进行的语言抽象数学建模,是一种对应关系,体现了一种语言本身的性质。在语言模型中,候选文本摘要的语言得分是指文本摘要的句子概率。
要计算候选文本摘要的语言得分,首先需要生成语言模型。本申请实施例根据预先存储的语料库生成语言模型,生成的语言模型包括N-GRAM语言模型。N值越大,则对下一个词出现的约束信息越多,具有更大的辨别力;N值越小,则在语料中出现的次数越多,具有更可靠的统计信息,即具有更高的可靠性。理论上,N值越大越好,然而在实际应用中,N的值不能太大,否则计算量太大,常用的是二元语言模型(即:Bi-Gram语言模型)和三元语言模型(即:Tri-Gram语言模型)。原则上,能用二元语言模型解决,绝不使用三元语言模型。本申请实施例构建的语言模型为二元语言模型。
获取到语言模型后,就可以根据语言模型,计算各个候选文本摘要的语言得分。计算候选文本摘要的语言得分所应用的公式如下:
该公式中的W为候选文本摘要,p(W)为候选文本摘要的似然概率值,S为候选文本摘要的起始符,N为候选文本摘要包括的词数量,i为词位置。通过该公式计算获取各个候选文本摘要的语言得分。
步骤S805:选取所述语言得分大于预设的分数阈值的特定候选文本摘要,作为所述商品聚类的文本摘要。
最后,根据各个候选文本摘要的语言得分,从中选取语言得分大于预设的分数阈值的特定候选文本摘要,作为商品聚类的文本摘要。在实际应用中,通常选用语言得分最高的候选文本摘要作为商品聚类的文本摘要。
需要注意的是,在商品聚类的商品标签集所包括的商品标签、及商品类目的名称中,可能存在无效词和重复词。为了提高文本摘要的准确度,在执行步骤S801之前,通常还包括如下处理:1)根据预设的无效词词典,从商品标签集和商品聚类所属商品类目的名称中去除无效词;2)从商品标签集和商品聚类所属商品类目的名称中去除重复词。其中,无效词包括停用词等。
本申请实施例提供的图片摘要的生成方法,其核心的基本思想是:综合考虑商品的图片质量及商品的与用户行为相关的历史统计数据,选择综合得分最高的商品图片作为商品聚类的代表图片。由于该方法综合考虑图片质量及与用户行为相关的历史统计数据,因此,图片摘要的图片质量及准确性更高,从而达到提高用户体验的效果。
请参考图9,其为本申请的方法实施例生成图片摘要的具体流程图。在本实施例中,为所述商品聚类生成图片摘要,包括如下步骤:
步骤S901:获取所述商品聚类中各个所述待聚类商品的商品图片的质量得分;以及获取各个所述待聚类商品的与用户行为相关的历史统计数据。
对于聚合成一类的商品,在展现的时候,不能简单的将某个商品的图片进行展现,而需要综合考虑商品聚类中所有商品的图片,选择图片质量较高及商品转化率等与用户行为相关的历史统计数据较高的图片作为代表图片。因此,首先需要获取各个商品的图片质量的得分、及与用户行为相关的历史统计数据两方面数据。
在本实施例中,商品图片的质量得分,采用如下步骤计算:1)获取所述商品图片的对图片质量产生影响的图片特征;2)根据获取的所述图片特征,通过预先生成的图片质量预测模型,计算所述商品图片的质量得分。
1)获取所述商品图片的对图片质量产生影响的图片特征。
本申请实施例所述的对图片质量产生影响的图片特征是指,能够从各种角度描述图片质量的特征,包括但不限于:图片高度、图片宽度、图片宽高比、图片边框面积的占比、图片包括的子图数量、图片中干扰部分的占比、图片背景的复杂度、图片前景的醒目度和图片白背景率的至少一者。其中,图片中的干扰部分包括牛皮癣,例如,文字、商标等干扰部分。
2)根据获取的所述图片特征,通过预先生成的图片质量预测模型,计算所述商品图片的质量得分。
本申请实施例所述的商品图片的质量得分,通过预先生成的图片质量预测模型计算获取,模型的输入为各个图片特征,模型的输出即为商品图片的质量得分。
要计算商品图片的质量得分,首先需要生成图片质量预测模型。在本实施例中,通过机器学习算法,从已标注图片质量的历史图片特征集中学习获得图片质量预测模型。在实际应用中,可以采用的机器学习算法包括回归算法。具体的,可以采用线性回归算法、逻辑回归算法或GBDT回归决策树算法。
需要注意的是,不同算法生成的图片质量预测模型的质量不同,不同算法的计算复杂度也不相同。在实际应用中,根据具体应用需求,可以选择任意一种机器学习算法生成图片质量预测模型。上述各种不同的机器学习算法都只是具体实施方式的变更,都不偏离本申请的核心,因此都在本申请的保护范围之内。
在本实施例中,采用逻辑回归算法生成图片质量预测模型,商品图片的质量得分的计算公式如下:
该公式中的pic_score为商品图片的质量得分,xi为第i个图片特征,wi为第i个图片特征的权重。
本申请实施例所述的商品图片作为图片摘要的得分,还依赖于商品的与用户行为相关的历史统计数据。所述的与用户行为相关的历史统计数据,包括但不限于:商品转换率得分、商品交易数或商品点击数。所述的商品交易数是指,一个商品被实际购买的次数。所述的商品点击数是指,用户对一个商品详情页的浏览次数。所述的商品转换率得分是指,商品交易数和商品点击数的组合得分。在本实施例中,采用如下公式计算商品转换率得分:
cvr_score=∑e-λΔt(w1*click_cnt+w2*trade_cnt)
该公式中的crv_score为商品转换率得分,为时间衰减因子,click_cnt为商品点击数,w1为商品点击数的权重,trade_cnt为商品交易数,w2为商品交易数的权重。该公式中的各个权重选择可以依据经验而定。
步骤S903:根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,计算各个所述商品图片作为图片摘要的得分。
对于一个商品,需要综合考虑商品的图片质量及商品的与用户行为相关的历史统计数据,计算该商品的商品图片作为图片摘要的得分。在实际应用中,步骤S903可以有很多种具体的实施方式,下面列举两种可选的具体实施方式。
方式一、根据为所述商品图片的质量预设的权重、及为各个所述用户行为相关的历史统计数据分别预设的权重,对所述商品图片的质量得分和所述与用户行为相关的历史统计数据进行线性加权组合,将加权组合值作为所述商品图片作为图片摘要的得分。
方式一中的各个所述预设的权重可以依据经验而定。在本实施例中,所述用户行为相关的历史统计数据采用商品转换率得分;所述根据所述商品图片的质量得分和所述用户行为相关的历史统计数据,计算所述商品图片作为图片摘要的得分,采用如下公式计算:
abs_scoreoffer=w3*cvr_scoreoffer+w4*pic_scoreoffer
该公式中的abs_scoreoffer为商品图片作为图片摘要的得分,crv_scoreoffer为商品转换率得分,w3为商品转换率得分的权重,pic_scoreoffer为商品图片的质量得分,w4为商品图片的质量得分的权重。
方式二、根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,通过预先生成的图片摘要得分预测模型,计算所述商品图片作为图片摘要的得分。
方式二中的图片摘要得分预测模型是指,通过机器学习算法,从已标注商品图片作为图片摘要的得分的历史图片摘要特征集中学习获得的图片摘要得分预测模型。所述的图片摘要特征包括:历史商品的商品图片的质量、及历史商品的与用户行为相关的历史统计数据。
步骤S905:选取所述作为图片摘要的得分大于预设的分数阈值的特定商品图片,作为所述商品聚类的图片摘要。
最后,根据各个商品的商品图片作为图片摘要的得分,选取大于预设的分数阈值的特定商品图片,作为商品聚类的图片摘要。所述的分数阈值可以依据经验而定。通常,选取最高值得分的商品图片作为商品聚类的图片摘要,其形式化表示如下:
在上述的实施例中,提供了一种商品聚类方法,与之相对应的,本申请还提供一种商品聚类装置。该装置是与上述方法的实施例相对应。
请参看图10,其为本申请的商品聚类装置实施例的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的商品聚类装置实施例仅仅是示意性的。
本实施例的一种商品聚类装置,包括:
获取单元101,用于获取待聚类的商品集;
生成标签单元103,用于针对所述待聚类的商品集中各个待聚类商品,根据所述待聚类商品所属的商品类目、及预先生成的商品类目与商品标签集的对应关系,生成所述待聚类商品的商品标签集;
聚类单元105,用于根据所述各个待聚类商品的商品标签集,通过预设的聚类算法,对所述商品集中的商品进行聚类。
请参看图11,其为本申请的商品聚类装置实施例生成标签单元103的具体示意图。可选的,所述生成标签单元103包括:
获取子单元1031,用于根据所述待聚类商品所属的商品类目、及预先生成的商品类目与商品标签集的对应关系,获取所述待聚类商品所属的商品类目的商品标签集;
匹配子单元1033,用于将所述待聚类商品的属性与所述待聚类商品所属的商品类目的商品标签集中各个商品标签分别进行文本匹配,将匹配成功的商品标签作为所述待聚类商品的商品标签。
请参看图12,其为本申请的商品聚类装置实施例的具体示意图。可选的,还包括:
生成对应关系单元201,用于生成所述商品类目与商品标签集的对应关系。
请参看图13,其为本申请的商品聚类装置实施例生成对应关系单元201的具体示意图。可选的,所述生成对应关系单元包括:
获取子单元2011,用于获取所述商品类目包括的所述商品属性;
选取子单元2013,用于通过预设的标签选取算法,从所述商品类目包括的所述商品属性中选取具有商品区分意义的属性组成所述商品类目的商品标签集。
可选的,所述预设的标签选取算法采用基于信息熵的标签选取算法;
所述选取子单元2013包括:
获取子单元,用于获取所述商品类目中商品的属性名;
计算子单元,用于针对各个所述属性名,根据所述属性名对应的属性值,计算所述属性名的信息熵;
选取子单元,用于将所述属性名的信息熵小于等于最大信息熵阈值的属性名作为具有商品区分意义的属性名;
生成子单元,用于将所述具有商品区分意义的属性名对应的商品属性作为所述具有商品区分意义的属性,生成所述商品类目的商品标签集。
可选的,所述预设的聚类算法包括基于频繁项集挖掘和累积权重匹配的聚类算法;
请参看图14,其为本申请的商品聚类装置实施例聚类单元105的具体示意图。可选的,所述聚类单元105包括:
生成子单元1051,用于根据所述各个待聚类商品的商品标签集,通过频繁项集挖掘算法,生成多个频繁商品标签集;
匹配子单元1053,用于针对各个所述待聚类商品,根据预先生成的标签名的权重,计算所述待聚类商品的商品标签集分别与各个所述频繁商品标签集的相似度;并选取所述相似度排在高位的所述频繁商品标签集,作为与所述待聚类商品对应的频繁商品标签集;
聚类子单元1055,用于将与同一所述频繁商品标签集对应的多个所述待聚类商品聚为一类。
可选的,所述频繁商品标签集与所述商品类目相对应;所述生成子单元1051包括:
获取子单元,用于根据所述待聚类商品所属的商品类目,获取所述商品集与所述商品类目的对应关系;
生成候选子单元,用于针对所述对应关系中的各个商品类目,将属于所述商品类目的所述待聚类商品的商品标签集作为与所述商品类目对应的候选频繁商品标签集;
计算子单元,用于针对与所述商品类目对应的各个所述候选频繁商品标签集,根据属于所述商品类目的各个所述待聚类商品的预设事务属性的属性值,计算各个所述候选频繁商品标签集的出现频率;所述出现频率是指,包括所述候选频繁商品标签集的所述预设事务属性的属性值的种类数;
选取子单元,用于针对所述各个商品类目,选取所述出现频率大于预设的最小支持度阈值的所述候选频繁商品标签集,作为属于所述商品类目的所述频繁商品标签集。
可选的,所述匹配子单元1053包括:
计算子单元,用于根据预先生成的标签名的权重,计算所述待聚类商品的商品标签集分别与各个所述频繁商品标签集的相似度;
所述计算子单元包括:
判断子单元,用于针对各个所述频繁商品标签集,判断所述频繁商品标签集中的各个商品标签是否均存在于所述待聚类商品的商品标签集中;
判断是子单元,用于若上述判断结果为是,则所述相关度为所述频繁商品标签集中各个所述标签名的权重之和;
判断否子单元,用于若上述判断结果为否,则所述相关度为0。
可选的,所述装置还包括:
生成权重单元203,用于生成所述标签名的权重。
请参看图15,其为本申请的商品聚类装置实施例生成权重单元203的具体示意图。可选的,所述生成权重单元203包括:
获取子单元2031,用于获取历史查询词及与其对应的与用户行为相关的商品搜索结果;
生成子单元2033,用于针对各个历史查询词,根据与所述历史查询词对应的所述与用户行为相关的商品搜索结果,获取与所述历史查询词对应的商品类目,生成历史查询词与商品类目的对应关系;
计算子单元2035,用于针对所述历史查询词与商品类目的对应关系中各个商品类目,根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数;并根据各个标签名的出现次数,计算各个标签名的权重。
可选的,所述计算子单元2035包括:
第一计算子单元,用于根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数;
所述第一计算子单元包括:
匹配子单元,用于针对与所述商品类目对应的各个所述历史查询词,将所述历史查询词与所述商品类目的商品标签集中各个标签的标签值进行文本匹配;若匹配成功,则将匹配成功的标签值的出现次数加一;
计算频度子单元,用于根据各个商品标签的标签值的出现次数,计算所述各个标签名的出现次数。
可选的,所述计算子单元2035包括:
第二计算子单元,用于根据各个标签名的出现次数,计算各个标签名的重要度;
所述第二计算子单元包括:
计算总频度子单元,用于根据所述商品类目的商品标签集中各个标签名的出现次数,计算标签名的出现总次数;
计算权重子单元,用于将所述商品类目的商品标签集中各个标签名的出现次数、与所述出现总次数的比值,作为各个标签名的重要度。
可选的,所述装置还包括:
生成文本摘要单元205,用于针对各个商品聚类,为所述商品聚类生成文本摘要。
请参看图16,其为本申请的商品聚类装置实施例生成文本摘要单元205的具体示意图。可选的,所述生成文本摘要单元205包括:
生成候选摘要子单元2051,用于将所述商品聚类的商品标签集包括的商品标签与所述商品聚类所属商品类目的名称进行文字拼接,生成所述商品聚类的多个候选文本摘要;
计算子单元2053,用于根据预先生成的语言模型,计算各个所述候选文本摘要的语言得分;
选取子单元2055,用于选取所述语言得分大于预设的分数阈值的特定候选文本摘要,作为所述商品聚类的文本摘要。
可选的,所述生成文本摘要单元205还包括:
生成语言模型子单元,用于生成所述语言模型。
可选的,所述生成文本摘要单元205还包括:
第一过滤子单元,用于根据预设的无效词词典,从所述商品标签集和所述商品聚类所属商品类目的名称中去除无效词。
可选的,所述生成文本摘要单元205还包括:
第二过滤子单元,用于从所述商品标签集和所述商品聚类所属商品类目的名称中去除重复词。
可选的,所述装置还包括:
生成图片摘要单元207,用于针对各个商品聚类,为所述商品聚类生成图片摘要。
请参看图17,其为本申请的商品聚类装置实施例生成图片摘要单元207的具体示意图。可选的,所述生成图片摘要单元207包括:
获取子单元2071,用于获取所述商品聚类中各个所述待聚类商品的商品图片的质量得分;以及获取各个所述待聚类商品的与用户行为相关的历史统计数据;
计算子单元2073,用于根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,计算各个所述商品图片作为图片摘要的得分;
选取子单元2075,用于选取所述作为图片摘要的得分大于预设的分数阈值的特定商品图片,作为所述商品聚类的图片摘要。
可选的,所述生成图片摘要单元207还包括:
生成图片质量子单元,用于计算所述商品图片的质量得分。
可选的,所述生成图片质量子单元包括:
获取子单元,用于获取所述商品图片的对图片质量产生影响的图片特征;
计算子单元,用于根据获取的所述图片特征,通过预先生成的图片质量预测模型,计算所述商品图片的质量得分。
可选的,所述生成图片摘要单元207还包括:
生成模型子单元,用于生成所述图片质量预测模型。
可选的,所述装置还包括:
显示单元209,用于根据所述待聚类商品所属的商品聚类,分类显示所述待聚类商品。
可选的,所述装置还包括:
筛选单元211,用于对所述待聚类商品进行筛选,去除无效商品。
请参考图18,其为本申请的电子设备实施例的示意图。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:显示器1801;处理器1802;以及存储器1803,所述存储器1803被配置成存储商品聚类装置,所述商品聚类装置被所述处理器1802执行时,包括如下步骤:获取待聚类的商品集;针对所述待聚类的商品集中各个待聚类商品,根据所述待聚类商品所属的商品类目、及预先生成的商品类目与商品标签集的对应关系,生成所述待聚类商品的商品标签集;根据所述各个待聚类商品的商品标签集,通过预设的聚类算法,对所述商品集中的商品进行聚类。
本申请实施例提供的商品聚类方法、装置及电子设备,通过获取待分类的商品集;根据各个待聚类商品所属的商品类目、及预先生成的商品类目与商品标签集的对应关系,生成各个待聚类商品的商品标签集;根据各个待聚类商品的商品标签集,通过预设的聚类算法,将商品集中的相似商品自动聚合于同一类别,进而能够以聚类列表的方式将商品展现给用户,而非以商品列表的方式将商品展现给用户,避免商品同质化现象的发生,从而达到提高用户体验的效果。
与上述的商品聚类方法相对应,本申请还提供一种文字摘要的生成方法。现有技术存在文字摘要准确性低的问题。本申请提供一种文字摘要的生成方法、装置及电子设备,以解决现有技术存在文字摘要准确性低的问题。
本申请实施例提供的文本摘要的生成方法,其核心的基本思想是:将对象聚类所属的对象类目名以及对象聚类的标签进行文字组合,选择语言模型得分最高的文字组合作为对象聚类的文本摘要。由于该方法综合考虑对象聚类所在的类目名以及对象聚类的标签,因此,生成的文本摘要的概括性更强且准确性更高;由于根据语言模型得分对各种组合进行选择,因此,文本摘要的语句更为通顺,从而达到提高用户体验的效果。
请参考图19,其为本申请的文字摘要的生成方法实施例的流程图,本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。本申请提供的一种文字摘要的生成方法,用于对象聚类,包括如下步骤:
步骤S1901:获取待处理的对象聚类及其标签集。
本申请实施例所述的对象聚类是指,属于同一对象类目的对象集。所述的对象类目是指,用于对象分类的目录结构。以商品对象为例,商品一级类目包括大家电行业、服装行业等,大家电行业的商品二级类目包括电视、冰箱、洗衣机等,更进一步的,商品类目还可以包括商品三级类目等更细分的商品类目。所述的对象是指对客观事物的抽象,例如,商品对象等。所述的对象具有属性,属性用于描述对象的性质,是一个对象区别于其他对象的特征。
例如,一个名为“苹果5s”的手机商品对象,该商品对象的属性包括:“iphone型号:5s”、“品牌:苹果”、“类目:手机”等属性,其中,iphone型号、品牌及类目为属性名,与这些属性名分别对应的属性值为5s、苹果及手机。进一步的,例如,“手机”商品类目包括的多个手机商品对象构成一个手机商品聚类。
本申请实施例所述的标签集是指多个标签组成的集合。对象聚类的标签集,用于表征对象聚类的特性。例如,“手机”商品类目的标签集包括:“iphone型号:4s”、“iphone型号:5s”、“iphone型号:6s”、“品牌:苹果”、“品牌:三星”、“品牌:华为”等商品标签。
获取到待处理的对象聚类及其标签集之后,就可以进入步骤S1903,生成对象聚类的多个候选文本摘要。
步骤S1903:将所述标签集包括的标签与所述对象类目的名称进行文字拼接,生成所述对象聚类的多个候选文本摘要。
步骤S1903与上述步骤S801相对应,不同之处仅在于:步骤S801的处理对象为商品聚类,而步骤S1903为对象聚类,商品是一种典型的对象,相应的商品聚类是一种典型的对象聚类。两个步骤相同之处此处不再赘述,相关说明详见步骤S801部分。
优选的,所述将所述标签集包括的标签与所述对象类目的名称进行文字拼接,生成所述对象聚类的多个候选文本摘要,采用如下方式:
通过预设的剪枝算法,将所述标签集中的各个标签与所述对象类目的名称进行文字拼接,生成所述候选文本摘要。
可选的,所述预设的剪枝算法包括:定向搜索剪枝算法或柱搜索剪枝算法。
生成各个候选文本摘要后,就可以进入到步骤S1905,计算各个候选文本摘要的语言得分。
步骤S1905:通过预先生成的语言模型,计算各个所述候选文本摘要的语言得分。
步骤S1905与上述步骤S803相对应,两个步骤相同之处此处不再赘述,相关说明详见步骤S803部分。
在本实施例中,所述预先生成的语言模型,采用如下方式生成:根据预先存储的语料库,生成所述语言模型。
优选的,所述语言模型采用N-GRAM语言模型。
在本实施例中,所述根据所述预先生成的语言模型,计算所述候选文本摘要的语言得分,采用如下公式计算:
其中,W为所述候选文本摘要,p(W)为所述候选文本摘要的似然概率值,S为所述候选文本摘要的起始符,N为所述候选文本摘要包括的词数量,i为词位置。
步骤S1907:选取所述语言得分大于预设的分数阈值的特定候选文本摘要,作为所述对象聚类的文本摘要。
步骤S1907与上述步骤S805相对应,两个步骤相同之处此处不再赘述,相关说明详见步骤S805部分。
优选的,在所述将所述标签集包括的标签与所述对象类目的名称进行文字拼接之前,还包括:根据预设的无效词词典,从所述标签集和所述对象类目的名称中去除无效词。
优选的,在所述将所述标签集包括的标签与所述对象类目的名称进行文字拼接之前,还包括:从所述标签集和所述对象类目的名称中去除重复词。
在上述的实施例中,提供了一种文字摘要的生成方法,与之相对应的,本申请还提供一种文字摘要的生成装置。该装置是与上述方法的实施例相对应。
请参看图20,其为本申请的文字摘要的生成装置实施例的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本实施例的一种文字摘要的生成装置,用于对象聚类,包括:
获取单元2001,用于获取待处理的对象聚类及其标签集;所述对象聚类包括的对象属于同一对象类目;
生成候选单元2003,用于将所述标签集包括的标签与所述对象类目的名称进行文字拼接,生成所述对象聚类的多个候选文本摘要;
计算单元2005,用于通过预先生成的语言模型,计算各个所述候选文本摘要的语言得分;
选取单元2007,用于选取所述语言得分大于预设的分数阈值的特定候选文本摘要,作为所述对象聚类的文本摘要。
可选的,还包括:
生成模型单元,用于根据预先存储的语料库,生成所述语言模型。
可选的,还包括:
第一过滤单元,用于根据预设的无效词词典,从所述标签集和所述对象类目的名称中去除无效词。
可选的,还包括:
第二过滤单元,用于从所述标签集和所述对象类目的名称中去除重复词。
请参考图21,其为本申请的电子设备实施例的示意图。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:显示器2101;处理器2102;以及存储器2103,所述存储器被配置成存储文本摘要的生成装置,所述文本摘要的生成装置被所述处理器执行时,包括如下步骤:获取待处理的对象聚类及其标签集;所述对象聚类包括的对象属于同一对象类目;将所述标签集包括的标签与所述对象类目的名称进行文字拼接,生成所述对象聚类的多个候选文本摘要;通过预先生成的语言模型,计算各个所述候选文本摘要的语言得分;选取所述语言得分大于预设的分数阈值的特定候选文本摘要,作为所述对象聚类的文本摘要。
本申请实施例提供的文本摘要的生成方法、装置及电子设备,用于对象聚类,通过获取待处理的对象聚类及其标签集,其中对象聚类包括的对象属于同一对象类目,并将标签集包括的标签与对象类目的名称进行文字拼接,生成对象聚类的多个候选文本摘要,然后,再通过预先生成的语言模型,计算各个候选文本摘要的语言得分,并选取语言得分大于预设的分数阈值的特定候选文本摘要,作为对象聚类的文本摘要。采用本申请提供的方法,能够生成概括性更强、准确性更高且语句更为通顺的文本摘要,从而达到提高用户体验的效果。
与上述的商品聚类方法相对应,本申请还提供一种图片摘要的生成方法。现有技术存在图片摘要准确性低的问题。本申请提供一种图片摘要的生成方法、装置及电子设备,以解决现有技术存在图片摘要准确性低的问题。
本申请实施例提供的文本摘要的生成方法,其核心的基本思想是:综合考虑商品的图片质量及商品的与用户行为相关的历史统计数据,选择综合得分最高的商品图片作为商品集的代表图片。由于该方法综合考虑图片质量及与用户行为相关的历史统计数据,因此,图片摘要的图片质量及准确性更高,从而达到提高用户体验的效果。
请参考图22,其为本申请的图片摘要的生成方法实施例的流程图,本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。本申请提供的一种图片摘要的生成方法包括:
步骤S2201:获取待处理的商品集中各个商品的商品图片的质量得分;以及获取各个所述商品的与用户行为相关的历史统计数据。
本申请实施例所述的商品是指,具有多个属性的用于交换的产品。在实际应用中,商品既可以是有形的商品,例如,电视、服装等;还可以是无形的服务,例如,保险产品、金融产品等。
在本实施例中,所述商品图片的质量得分,采用如下步骤计算:1)获取所述商品图片的对图片质量产生影响的图片特征;2)根据获取的所述图片特征,通过预先生成的图片质量预测模型,计算所述商品图片的质量得分。
本申请实施例所述的图片特征包括:图片高度、图片宽度、图片宽高比、图片边框面积的占比、图片的子图数量、图片中干扰部分的占比、图片背景的复杂度、图片前景的醒目度和图片白背景率的至少一者。
本申请实施例所述的图片质量预测模型,采用如下方式生成:通过机器学习算法,从已标注图片质量的历史图片特征集中学习获得所述图片质量预测模型。所述的机器学习算法包括回归算法;所述回归算法包括线性回归算法、逻辑回归算法或GBDT回归决策树算法。
本申请实施例所述的与用户行为相关的历史统计数据包括:商品转换率得分、商品交易数或商品点击数。在本实施例中,所述商品转换率得分,采用如下公式计算:cvr_score=∑e-λΔt(w1*click_cnt+w2*trade_cnt),其中,crv_score为商品转换率得分,为时间衰减因子,click_cnt为商品点击数,w1为商品点击数的权重,trade_cnt为商品交易数,w2为商品交易数的权重。
获取到商品图片的质量得分、及与用户行为相关的历史统计数据之后,就可以进入步骤S2203,计算各个商品图片作为图片摘要的得分。
步骤S2203:根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,计算各个所述商品图片作为图片摘要的得分。
步骤S2203与上述步骤S903相对应,两个步骤相同之处此处不再赘述,相关说明详见步骤S903部分。
步骤S2203可以采用如下方式实现:根据为所述商品图片的质量预设的权重、及为各个所述用户行为相关的历史统计数据分别预设的权重,对所述商品图片的质量得分和所述与用户行为相关的历史统计数据进行线性加权组合,将加权组合值作为所述商品图片作为图片摘要的得分。
本申请实施例所述的各个所述预设的权重包括经验值;所述用户行为相关的历史统计数据采用商品转换率得分;所述根据所述商品图片的质量得分和所述用户行为相关的历史统计数据,计算所述商品图片作为图片摘要的得分,采用如下公式计算:abs_scoreoffer=w3*cvr_scoreoffer+w4*pic_scoreoffer,其中,abs_scoreoffer为所述商品图片作为图片摘要的得分,crv_scoreoffer为所述商品转换率得分,w3为所述商品转换率得分的权重,pic_scoreoffer为所述商品图片的质量得分,w4为所述商品图片的质量得分的权重。
步骤S2203还可以采用如下方式实现:根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,通过预先生成的图片摘要得分预测模型,计算所述商品图片作为图片摘要的得分。
在本实施例中,通过机器学习算法,从已标注商品图片作为图片摘要的得分的历史图片摘要特征集中学习获得所述图片摘要得分预测模型;所述图片摘要特征包括:历史商品的商品图片的质量、及历史商品的与用户行为相关的历史统计数据。
步骤S2205:选取所述作为图片摘要的得分大于预设的分数阈值的特定商品图片,作为所述商品集的图片摘要。
步骤S2205与上述步骤S905相对应,两个步骤相同之处此处不再赘述,相关说明详见步骤S905部分。
在上述的实施例中,提供了一种图片摘要的生成方法,与之相对应的,本申请还提供一种图片摘要的生成装置。该装置是与上述方法的实施例相对应。
请参看图23,其为本申请的图片摘要的生成装置实施例的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本实施例的一种图片摘要的生成装置,包括:
获取单元2301,用于获取待处理的商品集中各个商品的商品图片的质量得分;以及获取各个所述商品的与用户行为相关的历史统计数据;
计算单元2303,用于根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,计算各个所述商品图片作为图片摘要的得分;
选取单元2305,用于选取所述作为图片摘要的得分大于预设的分数阈值的特定商品图片,作为所述商品集的图片摘要。
可选的,还包括:
生成图片质量单元,用于计算所述商品图片的质量得分。
可选的,所述生成图片质量单元包括:
获取子单元,用于获取所述商品图片的对图片质量产生影响的图片特征;
计算子单元,用于根据获取的所述图片特征,通过预先生成的图片质量预测模型,计算所述商品图片的质量得分。
可选的,还包括:
生成模型子单元,用于通过机器学习算法,从已标注图片质量的历史图片特征集中学习获得所述图片质量预测模型。
请参考图24,其为本申请的电子设备实施例的示意图。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:显示器2401;处理器2402;以及存储器2403,所述存储器被配置成存储图片摘要的生成装置,所述图片摘要的生成装置被所述处理器执行时,包括如下步骤:获取待处理的商品集中各个商品的商品图片的质量得分;以及获取各个所述商品的与用户行为相关的历史统计数据;根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,计算各个所述商品图片作为图片摘要的得分;选取所述作为图片摘要的得分大于预设的分数阈值的特定商品图片,作为所述商品集的图片摘要。
本申请实施例提供的图片摘要的生成方法、装置及电子设备,通过获取待处理的商品集中各个商品的商品图片的质量得分、以及获取各个所述商品的与用户行为相关的历史统计数据;并根据商品图片的质量得分和与用户行为相关的历史统计数据,计算各个商品图片作为图片摘要的得分;选取作为图片摘要的得分大于预设的分数阈值的特定商品图片,作为商品集的图片摘要。采用本申请提供的方法,能够生成图片质量及准确性更高的图片摘要,从而达到提高用户体验的效果。
与上述的商品聚类方法相对应,本申请还提供一种图片质量的评测方法。现有技术存在无法自动评测图片质量的问题。本申请提供一种图片质量的评测方法、装置及电子设备,以解决现有技术存在无法自动评测图片质量的问题。
本申请实施例提供的图片质量的评测方法,其核心的基本思想是:综合考虑图片的各方面特征对图片质量进行评测。由于该方法综合考虑图片的各方面特征,因此,提高了图片质量的评测准确度。
请参考图25,其为本申请的图片质量的评测方法实施例的流程图,本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。本申请提供的一种图片质量的评测方法,包括如下步骤:
步骤S2501:获取待计算图片的对图片质量产生影响的图片特征。
本申请实施例所述的图片特征包括:图片高度、图片宽度、图片宽高比、图片边框面积的占比、图片的子图数量、图片中干扰部分的占比、图片背景的复杂度、图片前景的醒目度和图片白背景率的至少一者。
步骤S2503:根据获取的所述图片特征,通过预先生成的图片质量预测模型,计算所述待计算图片的质量得分。
要实施本申请提供的图片质量的评测方法,首先需要生成所述图片质量预测模型。在本实施例中,通过机器学习算法,从已标注图片质量的历史图片特征集中学习获得所述图片质量预测模型。
本申请实施例所述的机器学习算法包括回归算法。在实际应用中,可以选用各种现有的回归算法,包括:线性回归算法、逻辑回归算法或GBDT回归决策树算法等。
生成图片质量预测模型之后,就可以将步骤S2501获取到的各个图片特征作为图片质量预测模型的输入,通过图片质量预测模型,计算待计算图片的质量得分。
在上述的实施例中,提供了一种图片质量的评测方法,与之相对应的,本申请还提供一种图片质量的评测装置。该装置是与上述方法的实施例相对应。
请参看图26,其为本申请的图片质量的评测装置实施例的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本实施例的一种图片质量的评测装置,包括:
获取单元2601,用于获取待计算图片的对图片质量产生影响的图片特征;
计算单元2603,用于根据获取的所述图片特征,通过预先生成的图片质量预测模型,计算所述待计算图片的质量得分。
可选的,还包括:
生成单元,用于通过机器学习算法,从已标注图片质量的历史图片特征集中学习获得所述图片质量预测模型。
请参考图27,其为本申请的又一电子设备实施例的示意图。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的又一种电子设备,该电子设备包括:显示器2701;处理器2702;以及存储器2703,所述存储器被配置成存储图片质量的评测装置,所述图片质量的评测装置被所述处理器执行时,包括如下步骤:获取待计算图片的对图片质量产生影响的图片特征;根据获取的所述图片特征,通过预先生成的图片质量预测模型,计算所述待计算图片的质量得分。
本申请实施例提供的图片质量的评测方法、装置及电子设备,通过获取待计算图片的对图片质量产生影响的图片特征,并根据获取的所述图片特征,通过预先生成的图片质量预测模型,计算待计算图片的质量得分,能够提高图片质量的评测准确度。
与上述的商品聚类方法相对应,本申请还提供一种商品标签名重要度的生成方法。现有技术存在无法自动生成商品标签名重要度的问题。本申请提供一种商品标签名重要度的生成方法、装置及电子设备,以解决现有技术存在无法自动生成商品标签名重要度的问题。
本申请实施例提供的商品标签名重要度的生成方法,其核心的基本思想是:根据历史查询词及与其对应的与用户行为相关的商品搜索结果,对各个商品类目中的标签名的权重进行评测。由于该方法以历史查询词及与其对应的与用户行为相关的商品搜索结果为依据,计算标签名的权重,因此,提高了标签名的权重的准确度。
请参考图28,其为本申请的商品标签名重要度的生成方法实施例的流程图,本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。本申请提供的一种商品标签名重要度的生成方法,包括如下步骤:
步骤S2801:获取历史查询词及与其对应的与用户行为相关的商品搜索结果。
步骤S2801与上述步骤S701相对应,两个步骤相同之处此处不再赘述,相关说明详见步骤S701部分。
本申请实施例所述的与用户行为相关的商品搜索结果包括但不限于:被用户点击的商品搜索结果或成交的商品搜索结果。
步骤S2803:针对各个历史查询词,根据与所述历史查询词对应的所述与用户行为相关的商品搜索结果,获取与所述历史查询词对应的商品类目,生成历史查询词与商品类目的对应关系。
步骤S2803与上述步骤S703相对应,两个步骤相同之处此处不再赘述,相关说明详见步骤S703部分。
步骤S2805:针对所述历史查询词与商品类目的对应关系中各个商品类目,根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数;并根据各个标签名的出现次数,计算各个标签名的权重。
步骤S2805与上述步骤S705相对应,两个步骤相同之处此处不再赘述,相关说明详见步骤S705部分。
在本实施例中,所述根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数,包括如下步骤:1)针对与所述商品类目对应的各个所述历史查询词,将所述历史查询词与所述商品类目的商品标签集中各个标签的标签值进行文本匹配;若匹配成功,则将匹配成功的标签值的出现次数加一;2)根据各个商品标签的标签值的出现次数,计算所述各个标签名的出现次数。
在本实施例中,所述根据各个标签名的出现次数,计算各个标签名的重要度,包括如下步骤:1)根据所述商品类目的商品标签集中各个标签名的出现次数,计算标签名的出现总次数;2)将所述商品类目的商品标签集中各个标签名的出现次数、与所述出现总次数的比值,作为各个标签名的重要度。
本申请实施例所述的商品类目的商品标签集,可以采用如下方式生成:根据所述商品类目包括的商品属性,生成所述商品类目的商品标签集。
请参考图29,其为本申请的商品标签名重要度的生成方法实施例生成商品类目与商品标签集的对应关系的具体流程图。在本实施例中,所述根据所述商品类目包括的商品属性,生成所述商品类目的商品标签集,包括:
步骤S2901:获取所述商品类目包括的所述商品属性。
步骤S2901与上述步骤S201相对应,两个步骤相同之处此处不再赘述,相关说明详见步骤S201部分。
步骤S2903:通过预设的标签选取算法,从所述商品类目包括的所述商品属性中选取具有商品区分意义的属性组成所述商品类目的商品标签集。
步骤S2903与上述步骤S203相对应,两个步骤相同之处此处不再赘述,相关说明详见步骤S203部分。
本申请实施例所述的预设的标签选取算法,包括但不限于:基于规则的标签选取算法或基于信息熵的标签选取算法的至少一者。其中,所述基于规则的标签选取算法所基于的选取规则包括以下规则的至少一者:1)去除不具有商品区分意义的商品属性名所对应的商品属性;所述不具有商品区分意义的商品属性名包括:商品产地或商品新旧程度;2)去除不具有商品区分意义的商品属性值所对应的商品属性;所述不具有商品区分意义的商品属性值包括:日期或运营性质。
在本实施例中,采用所述基于信息熵的标签选取算法,从所述商品类目包括的所述商品属性中选取具有商品区分意义的属性组成所述商品类目的商品标签集,包括如下步骤:1)获取所述商品类目中商品的属性名;2)针对各个所述属性名,根据所述属性名对应的属性值,计算所述属性名的信息熵;3)将所述属性名的信息熵小于等于最大信息熵阈值的属性名作为具有商品区分意义的属性名;4)将所述具有商品区分意义的属性名对应的商品属性作为所述具有商品区分意义的属性,生成所述商品类目的商品标签集。
上述步骤中,计算信息熵所依据的属性值包括系统属性值或自定义属性值。所述属性名的信息熵,采用如下公式计算:其中的pi为所述属性名的第i个属性值的出现频率。
需要说明的是,在实际应用中,还可以根据具体业务情况,采用其它标签选取算法,只要能够选取出具有商品区分意义的属性即可,同样可以实现本申请的技术方案,因此也在本申请的保护范围之内。此外,在实际应用中,可以采用上述其中一种或多种标签选取算法的组合,从所述商品类目包括的商品属性中选取具有商品区分意义的属性。
在上述的实施例中,提供了一种商品标签名重要度的生成方法,与之相对应的,本申请还提供一种商品标签名重要度的生成装置。该装置是与上述方法的实施例相对应。
请参看图30,其为本申请的商品标签名重要度的生成装置实施例的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本实施例的一种商品标签名重要度的生成装置,包括:
获取单元3001,用于获取历史查询词及与其对应的与用户行为相关的商品搜索结果;
生成单元3003,用于针对各个历史查询词,根据与所述历史查询词对应的所述与用户行为相关的商品搜索结果,获取与所述历史查询词对应的商品类目,生成历史查询词与商品类目的对应关系;
计算单元3005,用于针对所述历史查询词与商品类目的对应关系中各个商品类目,根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数;并根据各个标签名的出现次数,计算各个标签名的权重。
可选的,其特征在于,所述计算单元3005包括:
第一计算子单元,用于根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数;
所述第一计算子单元包括:
匹配子单元,用于针对与所述商品类目对应的各个所述历史查询词,将所述历史查询词与所述商品类目的商品标签集中各个标签的标签值进行文本匹配;若匹配成功,则将匹配成功的标签值的出现次数加一;
计算频度子单元,用于根据各个商品标签的标签值的出现次数,计算所述各个标签名的出现次数。
获取单元,用于获取历史查询词及与其对应的与用户行为相关的商品搜索结果;
生成单元,用于针对各个历史查询词,根据与所述历史查询词对应的所述与用户行为相关的商品搜索结果,获取与所述历史查询词对应的商品类目,生成历史查询词与商品类目的对应关系;
计算单元,用于针对所述历史查询词与商品类目的对应关系中各个商品类目,根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数;并根据各个标签名的出现次数,计算各个标签名的权重。
可选的,所述计算单元3005包括:
第二计算子单元,用于根据各个标签名的出现次数,计算各个标签名的重要度;
所述第二计算子单元包括:
计算总频度子单元,用于根据所述商品类目的商品标签集中各个标签名的出现次数,计算标签名的出现总次数;
计算权重子单元,用于将所述商品类目的商品标签集中各个标签名的出现次数、与所述出现总次数的比值,作为各个标签名的重要度。
可选的,其特征在于,还包括:
生成单元,用于根据所述商品类目包括的商品属性,生成所述商品类目的商品标签集。
可选的,所述生成单元包括:
获取子单元,用于获取所述商品类目包括的所述商品属性;
选取子单元,用于通过预设的标签选取算法,从所述商品类目包括的所述商品属性中选取具有商品区分意义的属性组成所述商品类目的商品标签集。
可选的,所述预设的标签选取算法采用所述基于信息熵的标签选取算法;
所述选取子单元包括:
获取子单元,用于获取所述商品类目中商品的属性名;
计算子单元,用于针对各个所述属性名,根据所述属性名对应的属性值,计算所述属性名的信息熵;
选取子单元,用于将所述属性名的信息熵小于等于最大信息熵阈值的属性名作为具有商品区分意义的属性名;
生成子单元,用于将所述具有商品区分意义的属性名对应的商品属性作为所述具有商品区分意义的属性,生成所述商品类目的商品标签集。
请参考图31,其为本申请的又一电子设备实施例的示意图。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的又一种电子设备,该电子设备包括:显示器3101;处理器3102;以及存储器3103,所述存储器被配置成存储商品标签名重要度的生成装置,所述商品标签名重要度的生成装置被所述处理器执行时,包括如下步骤:获取历史查询词及与其对应的与用户行为相关的商品搜索结果;针对各个历史查询词,根据与所述历史查询词对应的所述与用户行为相关的商品搜索结果,获取与所述历史查询词对应的商品类目,生成历史查询词与商品类目的对应关系;针对所述历史查询词与商品类目的对应关系中各个商品类目,根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数;并根据各个标签名的出现次数,计算各个标签名的权重。
本申请实施例提供的商品标签名重要度的生成方法、装置及电子设备,通过获取历史查询词及与其对应的与用户行为相关的商品搜索结果;针对各个历史查询词,根据与所述历史查询词对应的所述与用户行为相关的商品搜索结果,获取与所述历史查询词对应的商品类目,生成历史查询词与商品类目的对应关系;针对所述历史查询词与商品类目的对应关系中各个商品类目,根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数;并根据各个标签名的出现次数,计算各个标签名的权重。采用本申请提供的商品标签名重要度的生成方法,能够自动获取标签名的权重,且标签名的权重的准确度较高。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
Claims (122)
1.一种商品聚类方法,其特征在于,包括:
获取待聚类的商品集;
针对所述待聚类的商品集中各个待聚类商品,根据所述待聚类商品所属的商品类目、及预先生成的商品类目与商品标签集的对应关系,生成所述待聚类商品的商品标签集;
根据所述各个待聚类商品的商品标签集,通过预设的聚类算法,对所述商品集中的商品进行聚类。
2.根据权利要求1所述的商品聚类方法,其特征在于,所述根据所述待聚类商品所属的商品类目、及预先生成的商品类目与商品标签集的对应关系,生成所述待聚类商品的商品标签集,包括:
根据所述待聚类商品所属的商品类目、及预先生成的商品类目与商品标签集的对应关系,获取所述待聚类商品所属的商品类目的商品标签集;
将所述待聚类商品的属性与所述待聚类商品所属的商品类目的商品标签集中各个商品标签分别进行文本匹配,将匹配成功的商品标签作为所述待聚类商品的商品标签。
3.根据权利要求1所述的商品聚类方法,其特征在于,所述商品类目与商品标签集的对应关系,采用如下方式生成:
根据所述商品类目包括的商品属性,生成所述商品类目与商品标签集的对应关系。
4.根据权利要求3所述的商品聚类方法,其特征在于,所述根据所述商品类目包括的商品属性,生成所述商品类目与商品标签集的对应关系,包括:
获取所述商品类目包括的所述商品属性;
通过预设的标签选取算法,从所述商品类目包括的所述商品属性中选取具有商品区分意义的属性组成所述商品类目的商品标签集。
5.根据权利要求4所述的商品聚类方法,其特征在于,所述预设的标签选取算法包括:基于规则的标签选取算法和基于信息熵的标签选取算法的至少一者。
6.根据权利要求5所述的商品聚类方法,其特征在于,所述基于规则的标签选取算法所基于的选取规则包括以下规则的至少一者:
去除不具有商品区分意义的商品属性名所对应的商品属性;所述不具有商品区分意义的商品属性名包括:商品产地或商品新旧程度;
去除不具有商品区分意义的商品属性值所对应的商品属性;所述不具有商品区分意义的商品属性值包括:日期或运营性质。
7.根据权利要求5所述的商品聚类方法,其特征在于,所述预设的标签选取算法采用所述基于信息熵的标签选取算法;
所述通过预设的标签选取算法,从所述商品类目包括的所述商品属性中选取具有商品区分意义的属性组成所述商品类目的商品标签集,包括:
获取所述商品类目中商品的属性名;
针对各个所述属性名,根据所述属性名对应的属性值,计算所述属性名的信息熵;
将所述属性名的信息熵小于等于最大信息熵阈值的属性名作为具有商品区分意义的属性名;
将所述具有商品区分意义的属性名对应的商品属性作为所述具有商品区分意义的属性,生成所述商品类目的商品标签集。
8.根据权利要求7所述的商品聚类方法,其特征在于,所述属性名的信息熵,采用如下公式计算:
其中,pi为所述属性名的第i个属性值的出现频率。
9.根据权利要求7所述的商品聚类方法,其特征在于,所述属性值包括系统属性值或自定义属性值。
10.根据权利要求1所述的商品聚类方法,其特征在于,所述预设的聚类算法包括K-means聚类算法或密度聚类算法。
11.根据权利要求1所述的商品聚类方法,其特征在于,所述预设的聚类算法包括基于频繁项集挖掘和累积权重匹配的聚类算法;
所述根据所述各个待聚类商品的商品标签集,通过预设的聚类算法,对所述商品集中的商品进行聚类,包括:
根据所述各个待聚类商品的商品标签集,通过频繁项集挖掘算法,生成多个频繁商品标签集;
针对各个所述待聚类商品,根据预先生成的标签名的权重,计算所述待聚类商品的商品标签集分别与各个所述频繁商品标签集的相似度;并选取所述相似度排在高位的所述频繁商品标签集,作为与所述待聚类商品对应的频繁商品标签集;
将与同一所述频繁商品标签集对应的多个所述待聚类商品聚为一类。
12.根据权利要求11所述的商品聚类方法,其特征在于,所述频繁商品标签集与所述商品类目相对应;所述通过频繁项集挖掘算法,生成多个频繁商品标签集,包括:
根据所述待聚类商品所属的商品类目,获取所述商品集与所述商品类目的对应关系;
针对所述对应关系中的各个商品类目,将属于所述商品类目的所述待聚类商品的商品标签集作为与所述商品类目对应的候选频繁商品标签集;
针对与所述商品类目对应的各个所述候选频繁商品标签集,根据属于所述商品类目的各个所述待聚类商品的预设事务属性的属性值,计算各个所述候选频繁商品标签集的出现频率;所述出现频率是指,包括所述候选频繁商品标签集的所述预设事务属性的属性值的种类数;
针对所述各个商品类目,选取所述出现频率大于预设的最小支持度阈值的所述候选频繁商品标签集,作为属于所述商品类目的所述频繁商品标签集。
13.根据权利要求12所述的商品聚类方法,其特征在于,所述预设事务属性包含商品标识或公司标识。
14.根据权利要求11所述的商品聚类方法,其特征在于,所述根据预先生成的标签名的权重,计算所述待聚类商品的商品标签集分别与各个所述频繁商品标签集的相似度,包括:
针对各个所述频繁商品标签集,判断所述频繁商品标签集中的各个商品标签是否均存在于所述待聚类商品的商品标签集中;
若上述判断结果为是,则所述相关度为所述频繁商品标签集中各个所述标签名的权重之和;
若上述判断结果为否,则所述相关度为0。
15.根据权利要求11所述的商品聚类方法,其特征在于,所述标签名的权重,采用如下步骤生成:
获取历史查询词及与其对应的与用户行为相关的商品搜索结果;
针对各个历史查询词,根据与所述历史查询词对应的所述与用户行为相关的商品搜索结果,获取与所述历史查询词对应的商品类目,生成历史查询词与商品类目的对应关系;
针对所述历史查询词与商品类目的对应关系中各个商品类目,根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数;并根据各个标签名的出现次数,计算各个标签名的权重。
16.根据权利要求15所述的商品聚类方法,其特征在于,所述根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数,包括:
针对与所述商品类目对应的各个所述历史查询词,将所述历史查询词与所述商品类目的商品标签集中各个标签的标签值进行文本匹配;若匹配成功,则将匹配成功的标签值的出现次数加一;
根据各个商品标签的标签值的出现次数,计算所述各个标签名的出现次数。
17.根据权利要求15所述的商品聚类方法,其特征在于,所述根据各个标签名的出现次数,计算各个标签名的重要度,包括:
根据所述商品类目的商品标签集中各个标签名的出现次数,计算标签名的出现总次数;
将所述商品类目的商品标签集中各个标签名的出现次数、与所述出现总次数的比值,作为各个标签名的重要度。
18.根据权利要求15所述的商品聚类方法,其特征在于,所述与用户行为相关的商品搜索结果包括被用户点击的商品搜索结果或成交的商品搜索结果。
19.根据权利要求1所述的商品聚类方法,其特征在于,还包括:
针对各个商品聚类,为所述商品聚类生成文本摘要。
20.根据权利要求19所述的商品聚类方法,其特征在于,所述为所述商品聚类生成文本摘要,包括:
将所述商品聚类的商品标签集包括的商品标签与所述商品聚类所属商品类目的名称进行文字拼接,生成所述商品聚类的多个候选文本摘要;
根据预先生成的语言模型,计算各个所述候选文本摘要的语言得分;
选取所述语言得分大于预设的分数阈值的特定候选文本摘要,作为所述商品聚类的文本摘要。
21.根据权利要求20所述的商品聚类方法,其特征在于,所述语言模型,采用如下方式生成:
根据预先存储的语料库,生成所述语言模型。
22.根据权利要求20所述的商品聚类方法,其特征在于,所述语言模型包括N-GRAM语言模型。
23.根据权利要求20所述的商品聚类方法,其特征在于,所述根据所述预先生成的语言模型,计算所述候选文本摘要的语言得分,采用如下公式计算:
其中,W为所述候选文本摘要,p(W)为所述候选文本摘要的似然概率值,S为所述候选文本摘要的起始符,N为所述候选文本摘要包括的词数量,i为词位置。
24.根据权利要求20所述的商品聚类方法,其特征在于,在所述将所述商品聚类的商品标签集包括的商品标签与所述商品聚类所属商品类目的名称进行文字拼接之前,还包括:
根据预设的无效词词典,从所述商品标签集和所述商品聚类所属商品类目的名称中去除无效词。
25.根据权利要求20所述的商品聚类方法,其特征在于,在所述将所述商品聚类的商品标签集包括的商品标签与所述商品聚类所属商品类目的名称进行文字拼接之前,还包括:
从所述商品标签集和所述商品聚类所属商品类目的名称中去除重复词。
26.根据权利要求20所述的商品聚类方法,其特征在于,所述将所述商品聚类的商品标签集包括的商品标签与所述商品聚类所属商品类目的名称进行文字拼接,生成所述商品聚类的候选文本摘要,采用如下方式:
通过预设的剪枝算法,将所述商品聚类的商品标签集包括的商品标签与所述商品聚类所属商品类目的名称进行文字拼接,生成所述候选文本摘要。
27.根据权利要求26所述的商品聚类方法,其特征在于,所述预设的剪枝算法包括:定向搜索剪枝算法或柱搜索剪枝算法。
28.根据权利要求1所述的商品聚类方法,其特征在于,还包括:
针对各个商品聚类,为所述商品聚类生成图片摘要。
29.根据权利要求28所述的商品聚类方法,其特征在于,所述为所述商品聚类生成图片摘要,包括:
获取所述商品聚类中各个所述待聚类商品的商品图片的质量得分;以及获取各个所述待聚类商品的与用户行为相关的历史统计数据;
根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,计算各个所述商品图片作为图片摘要的得分;
选取所述作为图片摘要的得分大于预设的分数阈值的特定商品图片,作为所述商品聚类的图片摘要。
30.根据权利要求29所述的商品聚类方法,其特征在于,所述商品图片的质量得分,采用如下步骤计算:
获取所述商品图片的对图片质量产生影响的图片特征;
根据获取的所述图片特征,通过预先生成的图片质量预测模型,计算所述商品图片的质量得分。
31.根据权利要求30所述的商品聚类方法,其特征在于,所述图片特征包括:图片高度、图片宽度、图片宽高比、图片边框面积的占比、图片的子图数量、图片中干扰部分的占比、图片背景的复杂度、图片前景的醒目度和图片白背景率的至少一者。
32.根据权利要求30所述的商品聚类方法,其特征在于,所述图片质量预测模型,采用如下方式生成:
通过机器学习算法,从已标注图片质量的历史图片特征集中学习获得所述图片质量预测模型。
33.根据权利要求32所述的商品聚类方法,其特征在于,所述机器学习算法包括回归算法;所述回归算法包括线性回归算法、逻辑回归算法或GBDT回归决策树算法。
34.根据权利要求29所述的商品聚类方法,其特征在于,所述与用户行为相关的历史统计数据包括:商品转换率得分、商品交易数或商品点击数。
35.根据权利要求34所述的商品聚类方法,其特征在于,所述商品转换率得分,采用如下公式计算:
cvr_score=∑e-λΔt(w1*click_cnt+w2*trade_cnt)
其中,crv_score为商品转换率得分,为时间衰减因子,click_cnt为商品点击数,w1为商品点击数的权重,trade_cnt为商品交易数,w2为商品交易数的权重。
36.根据权利要求29所述的商品聚类方法,其特征在于,所述根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,计算所述商品图片作为图片摘要的得分,采用如下方式:
根据为所述商品图片的质量预设的权重、及为各个所述用户行为相关的历史统计数据分别预设的权重,对所述商品图片的质量得分和所述与用户行为相关的历史统计数据进行线性加权组合,将加权组合值作为所述商品图片作为图片摘要的得分。
37.根据权利要求36所述的商品聚类方法,其特征在于,各个所述预设的权重包括经验值;所述用户行为相关的历史统计数据采用商品转换率得分;所述根据所述商品图片的质量得分和所述用户行为相关的历史统计数据,计算所述商品图片作为图片摘要的得分,采用如下公式计算:
abs_scoreoffer=w3*cvr_scoreoffer+w4*pic_scoreoffer
其中,abs_scoreoffer为所述商品图片作为图片摘要的得分,crv_scoreoffer为所述商品转换率得分,w3为所述商品转换率得分的权重,pic_scoreoffer为所述商品图片的质量得分,w4为所述商品图片的质量得分的权重。
38.根据权利要求29所述的商品聚类方法,其特征在于,所述根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,计算所述商品图片作为图片摘要的得分,采用如下方式:
根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,通过预先生成的图片摘要得分预测模型,计算所述商品图片作为图片摘要的得分。
39.根据权利要求38所述的商品聚类方法,其特征在于,通过机器学习算法,从已标注商品图片作为图片摘要的得分的历史图片摘要特征集中学习获得所述图片摘要得分预测模型;所述图片摘要特征包括:历史商品的商品图片的质量、及历史商品的与用户行为相关的历史统计数据。
40.根据权利要求1所述的商品聚类方法,其特征在于,还包括:
根据所述待聚类商品所属的商品聚类,分类显示所述待聚类商品。
41.根据权利要求40所述的商品聚类方法,其特征在于,在所述获取待聚类的商品集之后,还包括:
对所述待聚类商品进行筛选,去除无效商品。
42.根据权利要求41所述的商品聚类方法,其特征在于,所述无效商品包括:曝光次数低于预设的最小曝光次数阈值的商品、信息质量低于预设的最小信息质量阈值的商品或被评测为欺诈的商品。
43.一种商品聚类装置,其特征在于,包括:
获取单元,用于获取待聚类的商品集;
生成标签单元,用于针对所述待聚类的商品集中各个待聚类商品,根据所述待聚类商品所属的商品类目、及预先生成的商品类目与商品标签集的对应关系,生成所述待聚类商品的商品标签集;
聚类单元,用于根据所述各个待聚类商品的商品标签集,通过预设的聚类算法,对所述商品集中的商品进行聚类。
44.根据权利要求43所述的商品聚类装置,其特征在于,所述生成标签单元包括:
获取子单元,用于根据所述待聚类商品所属的商品类目、及预先生成的商品类目与商品标签集的对应关系,获取所述待聚类商品所属的商品类目的商品标签集;
匹配子单元,用于将所述待聚类商品的属性与所述待聚类商品所属的商品类目的商品标签集中各个商品标签分别进行文本匹配,将匹配成功的商品标签作为所述待聚类商品的商品标签。
45.根据权利要求43所述的商品聚类装置,其特征在于,还包括:
生成对应关系单元,用于生成所述商品类目与商品标签集的对应关系。
46.根据权利要求45所述的商品聚类装置,其特征在于,所述生成对应关系单元包括:
获取子单元,用于获取所述商品类目包括的所述商品属性;
选取子单元,用于通过预设的标签选取算法,从所述商品类目包括的所述商品属性中选取具有商品区分意义的属性组成所述商品类目的商品标签集。
47.根据权利要求46所述的商品聚类装置,其特征在于,所述预设的标签选取算法采用基于信息熵的标签选取算法;
所述选取子单元包括:
获取子单元,用于获取所述商品类目中商品的属性名;
计算子单元,用于针对各个所述属性名,根据所述属性名对应的属性值,计算所述属性名的信息熵;
选取子单元,用于将所述属性名的信息熵小于等于最大信息熵阈值的属性名作为具有商品区分意义的属性名;
生成子单元,用于将所述具有商品区分意义的属性名对应的商品属性作为所述具有商品区分意义的属性,生成所述商品类目的商品标签集。
48.根据权利要求43所述的商品聚类装置,其特征在于,所述预设的聚类算法包括基于频繁项集挖掘和累积权重匹配的聚类算法;
所述聚类单元包括:
生成子单元,用于根据所述各个待聚类商品的商品标签集,通过频繁项集挖掘算法,生成多个频繁商品标签集;
匹配子单元,用于针对各个所述待聚类商品,根据预先生成的标签名的权重,计算所述待聚类商品的商品标签集分别与各个所述频繁商品标签集的相似度;并选取所述相似度排在高位的所述频繁商品标签集,作为与所述待聚类商品对应的频繁商品标签集;
聚类子单元,用于将与同一所述频繁商品标签集对应的多个所述待聚类商品聚为一类。
49.根据权利要求48所述的商品聚类装置,其特征在于,所述频繁商品标签集与所述商品类目相对应;所述生成子单元包括:
获取子单元,用于根据所述待聚类商品所属的商品类目,获取所述商品集与所述商品类目的对应关系;
生成候选子单元,用于针对所述对应关系中的各个商品类目,将属于所述商品类目的所述待聚类商品的商品标签集作为与所述商品类目对应的候选频繁商品标签集;
计算子单元,用于针对与所述商品类目对应的各个所述候选频繁商品标签集,根据属于所述商品类目的各个所述待聚类商品的预设事务属性的属性值,计算各个所述候选频繁商品标签集的出现频率;所述出现频率是指,包括所述候选频繁商品标签集的所述预设事务属性的属性值的种类数;
选取子单元,用于针对所述各个商品类目,选取所述出现频率大于预设的最小支持度阈值的所述候选频繁商品标签集,作为属于所述商品类目的所述频繁商品标签集。
50.根据权利要求48所述的商品聚类装置,其特征在于,所述匹配子单元包括:
计算子单元,用于根据预先生成的标签名的权重,计算所述待聚类商品的商品标签集分别与各个所述频繁商品标签集的相似度;
所述计算子单元包括:
判断子单元,用于针对各个所述频繁商品标签集,判断所述频繁商品标签集中的各个商品标签是否均存在于所述待聚类商品的商品标签集中;
判断是子单元,用于若上述判断结果为是,则所述相关度为所述频繁商品标签集中各个所述标签名的权重之和;
判断否子单元,用于若上述判断结果为否,则所述相关度为0。
51.根据权利要求48所述的商品聚类装置,其特征在于,还包括:
生成权重单元,用于生成所述标签名的权重。
52.根据权利要求51所述的商品聚类装置,其特征在于,所述生成权重单元包括:
获取子单元,用于获取历史查询词及与其对应的与用户行为相关的商品搜索结果;
生成子单元,用于针对各个历史查询词,根据与所述历史查询词对应的所述与用户行为相关的商品搜索结果,获取与所述历史查询词对应的商品类目,生成历史查询词与商品类目的对应关系;
计算子单元,用于针对所述历史查询词与商品类目的对应关系中各个商品类目,根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数;并根据各个标签名的出现次数,计算各个标签名的权重。
53.根据权利要求52所述的商品聚类装置,其特征在于,所述计算子单元包括:
第一计算子单元,用于根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数;
所述第一计算子单元包括:
匹配子单元,用于针对与所述商品类目对应的各个所述历史查询词,将所述历史查询词与所述商品类目的商品标签集中各个标签的标签值进行文本匹配;若匹配成功,则将匹配成功的标签值的出现次数加一;
计算频度子单元,用于根据各个商品标签的标签值的出现次数,计算所述各个标签名的出现次数。
54.根据权利要求52所述的商品聚类装置,其特征在于,所述计算子单元包括:
第二计算子单元,用于根据各个标签名的出现次数,计算各个标签名的重要度;
所述第二计算子单元包括:
计算总频度子单元,用于根据所述商品类目的商品标签集中各个标签名的出现次数,计算标签名的出现总次数;
计算权重子单元,用于将所述商品类目的商品标签集中各个标签名的出现次数、与所述出现总次数的比值,作为各个标签名的重要度。
55.根据权利要求43所述的商品聚类装置,其特征在于,还包括:
生成文本摘要单元,用于针对各个商品聚类,为所述商品聚类生成文本摘要。
56.根据权利要求55所述的商品聚类装置,其特征在于,所述生成文本摘要单元包括:
生成候选摘要子单元,用于将所述商品聚类的商品标签集包括的商品标签与所述商品聚类所属商品类目的名称进行文字拼接,生成所述商品聚类的多个候选文本摘要;
计算子单元,用于根据预先生成的语言模型,计算各个所述候选文本摘要的语言得分;
选取子单元,用于选取所述语言得分大于预设的分数阈值的特定候选文本摘要,作为所述商品聚类的文本摘要。
57.根据权利要求56所述的商品聚类装置,其特征在于,所述生成文本摘要单元还包括:
生成语言模型子单元,用于生成所述语言模型。
58.根据权利要求56所述的商品聚类装置,其特征在于,所述生成文本摘要单元还包括:
第一过滤子单元,用于根据预设的无效词词典,从所述商品标签集和所述商品聚类所属商品类目的名称中去除无效词。
59.根据权利要求56所述的商品聚类装置,其特征在于,所述生成文本摘要单元还包括:
第二过滤子单元,用于从所述商品标签集和所述商品聚类所属商品类目的名称中去除重复词。
60.根据权利要求43所述的商品聚类装置,其特征在于,还包括:
生成图片摘要单元,用于针对各个商品聚类,为所述商品聚类生成图片摘要。
61.根据权利要求60所述的商品聚类装置,其特征在于,所述生成图片摘要单元包括:
获取子单元,用于获取所述商品聚类中各个所述待聚类商品的商品图片的质量得分;以及获取各个所述待聚类商品的与用户行为相关的历史统计数据;
计算子单元,用于根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,计算各个所述商品图片作为图片摘要的得分;
选取子单元,用于选取所述作为图片摘要的得分大于预设的分数阈值的特定商品图片,作为所述商品聚类的图片摘要。
62.根据权利要求61所述的商品聚类装置,其特征在于,所述生成图片摘要单元还包括:
生成图片质量子单元,用于计算所述商品图片的质量得分。
63.根据权利要求62所述的商品聚类装置,其特征在于,所述生成图片质量子单元包括:
获取子单元,用于获取所述商品图片的对图片质量产生影响的图片特征;
计算子单元,用于根据获取的所述图片特征,通过预先生成的图片质量预测模型,计算所述商品图片的质量得分。
64.根据权利要求63所述的商品聚类装置,其特征在于,所述生成图片摘要单元还包括:
生成模型子单元,用于生成所述图片质量预测模型。
65.根据权利要求43所述的商品聚类装置,其特征在于,还包括:
显示单元,用于根据所述待聚类商品所属的商品聚类,分类显示所述待聚类商品。
66.根据权利要求43所述的商品聚类装置,其特征在于,还包括:
筛选单元,用于对所述待聚类商品进行筛选,去除无效商品。
67.一种电子设备,其特征在于,包括:
显示器;
处理器;以及
存储器,所述存储器被配置成存储商品聚类装置,所述商品聚类装置被所述处理器执行时,包括如下步骤:获取待聚类的商品集;针对所述待聚类的商品集中各个待聚类商品,根据所述待聚类商品所属的商品类目、及预先生成的商品类目与商品标签集的对应关系,生成所述待聚类商品的商品标签集;根据所述各个待聚类商品的商品标签集,通过预设的聚类算法,对所述商品集中的商品进行聚类。
68.一种文本摘要的生成方法,用于对象聚类,其特征在于,包括:
获取待处理的对象聚类及其标签集;所述对象聚类包括的对象属于同一对象类目;
将所述标签集包括的标签与所述对象类目的名称进行文字拼接,生成所述对象聚类的多个候选文本摘要;
通过预先生成的语言模型,计算各个所述候选文本摘要的语言得分;
选取所述语言得分大于预设的分数阈值的特定候选文本摘要,作为所述对象聚类的文本摘要。
69.根据权利要求68所述的文本摘要的生成方法,其特征在于,所述语言模型,采用如下方式生成:
根据预先存储的语料库,生成所述语言模型。
70.根据权利要求68所述的文本摘要的生成方法,其特征在于,所述语言模型包括N-GRAM语言模型。
71.根据权利要求68所述的文本摘要的生成方法,其特征在于,所述根据所述预先生成的语言模型,计算所述候选文本摘要的语言得分,采用如下公式计算:
其中,W为所述候选文本摘要,p(W)为所述候选文本摘要的似然概率值,S为所述候选文本摘要的起始符,N为所述候选文本摘要包括的词数量,i为词位置。
72.根据权利要求68所述的文本摘要的生成方法,其特征在于,在所述将所述标签集包括的标签与所述对象类目的名称进行文字拼接之前,还包括:
根据预设的无效词词典,从所述标签集和所述对象类目的名称中去除无效词。
73.根据权利要求68所述的文本摘要的生成方法,其特征在于,在所述将所述标签集包括的标签与所述对象类目的名称进行文字拼接之前,还包括:
从所述标签集和所述对象类目的名称中去除重复词。
74.根据权利要求68所述的文本摘要的生成方法,其特征在于,所述将所述标签集包括的标签与所述对象类目的名称进行文字拼接,生成所述对象聚类的多个候选文本摘要,采用如下方式:
通过预设的剪枝算法,将所述标签集中的各个标签与所述对象类目的名称进行文字拼接,生成所述候选文本摘要。
75.根据权利要求68所述的文本摘要的生成方法,其特征在于,所述预设的剪枝算法包括:定向搜索剪枝算法或柱搜索剪枝算法。
76.根据权利要求68所述的用于对象聚类的文本摘要生成方法,其特征在于,所述对象包括商品对象。
77.一种文本摘要的生成装置,用于对象聚类,其特征在于,包括:
获取单元,用于获取待处理的对象聚类及其标签集;所述对象聚类包括的对象属于同一对象类目;
生成候选单元,用于将所述标签集包括的标签与所述对象类目的名称进行文字拼接,生成所述对象聚类的多个候选文本摘要;
计算单元,用于通过预先生成的语言模型,计算各个所述候选文本摘要的语言得分;
选取单元,用于选取所述语言得分大于预设的分数阈值的特定候选文本摘要,作为所述对象聚类的文本摘要。
78.根据权利要求77所述的文本摘要的生成装置,其特征在于,还包括:
生成模型单元,用于根据预先存储的语料库,生成所述语言模型。
79.根据权利要求77所述的文本摘要的生成装置,其特征在于,还包括:
第一过滤单元,用于根据预设的无效词词典,从所述标签集和所述对象类目的名称中去除无效词。
80.根据权利要求77所述的文本摘要的生成装置,其特征在于,还包括:
第二过滤单元,用于从所述标签集和所述对象类目的名称中去除重复词。
81.一种电子设备,其特征在于,包括:
显示器;
处理器;以及
存储器,所述存储器被配置成存储文本摘要的生成装置,所述文本摘要的生成装置被所述处理器执行时,包括如下步骤:获取待处理的对象聚类及其标签集;所述对象聚类包括的对象属于同一对象类目;将所述标签集包括的标签与所述对象类目的名称进行文字拼接,生成所述对象聚类的多个候选文本摘要;通过预先生成的语言模型,计算各个所述候选文本摘要的语言得分;选取所述语言得分大于预设的分数阈值的特定候选文本摘要,作为所述对象聚类的文本摘要。
82.一种图片摘要的生成方法,其特征在于,包括:
获取待处理的商品集中各个商品的商品图片的质量得分;以及获取各个所述商品的与用户行为相关的历史统计数据;
根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,计算各个所述商品图片作为图片摘要的得分;
选取所述作为图片摘要的得分大于预设的分数阈值的特定商品图片,作为所述商品集的图片摘要。
83.根据权利要求82所述的图片摘要的生成方法,其特征在于,所述商品图片的质量得分,采用如下步骤计算:
获取所述商品图片的对图片质量产生影响的图片特征;
根据获取的所述图片特征,通过预先生成的图片质量预测模型,计算所述商品图片的质量得分。
84.根据权利要求83所述的图片摘要的生成方法,其特征在于,所述图片特征包括:图片高度、图片宽度、图片宽高比、图片边框面积的占比、图片的子图数量、图片中干扰部分的占比、图片背景的复杂度、图片前景的醒目度和图片白背景率的至少一者。
85.根据权利要求83所述的图片摘要的生成方法,其特征在于,所述图片质量预测模型,采用如下方式生成:
通过机器学习算法,从已标注图片质量的历史图片特征集中学习获得所述图片质量预测模型。
86.根据权利要求85所述的图片摘要的生成方法,其特征在于,所述机器学习算法包括回归算法;所述回归算法包括线性回归算法、逻辑回归算法或GBDT回归决策树算法。
87.根据权利要求82所述的图片摘要的生成方法,其特征在于,所述与用户行为相关的历史统计数据包括:商品转换率得分、商品交易数或商品点击数。
88.根据权利要求87所述的图片摘要的生成方法,其特征在于,所述商品转换率得分,采用如下公式计算:
cvr_score=∑e-λΔt(w1*click_cnt+w2*trade_cnt)
其中,crv_score为商品转换率得分,为时间衰减因子,click_cnt为商品点击数,w1为商品点击数的权重,trade_cnt为商品交易数,w2为商品交易数的权重。
89.根据权利要求82所述的图片摘要的生成方法,其特征在于,所述根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,计算所述商品图片作为图片摘要的得分,采用如下方式:
根据为所述商品图片的质量预设的权重、及为各个所述用户行为相关的历史统计数据分别预设的权重,对所述商品图片的质量得分和所述与用户行为相关的历史统计数据进行线性加权组合,将加权组合值作为所述商品图片作为图片摘要的得分。
90.根据权利要求82所述的图片摘要的生成方法,其特征在于,各个所述预设的权重包括经验值;所述用户行为相关的历史统计数据采用商品转换率得分;所述根据所述商品图片的质量得分和所述用户行为相关的历史统计数据,计算所述商品图片作为图片摘要的得分,采用如下公式计算:
abs_scoreoffer=w3*cvr_scoreoffer+w4*pic_scoreoffer
其中,abs_scoreoffer为所述商品图片作为图片摘要的得分,crv_scoreoffer为所述商品转换率得分,w3为所述商品转换率得分的权重,pic_scoreoffer为所述商品图片的质量得分,w4为所述商品图片的质量得分的权重。
91.根据权利要求82所述的图片摘要的生成方法,其特征在于,所述根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,计算所述商品图片作为图片摘要的得分,采用如下方式:
根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,通过预先生成的图片摘要得分预测模型,计算所述商品图片作为图片摘要的得分。
92.根据权利要求91所述的图片摘要的生成方法,其特征在于,通过机器学习算法,从已标注商品图片作为图片摘要的得分的历史图片摘要特征集中学习获得所述图片摘要得分预测模型;所述图片摘要特征包括:历史商品的商品图片的质量、及历史商品的与用户行为相关的历史统计数据。
93.一种图片摘要的生成的装置,其特征在于,包括:
获取单元,用于获取待处理的商品集中各个商品的商品图片的质量得分;以及获取各个所述商品的与用户行为相关的历史统计数据;
计算单元,用于根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,计算各个所述商品图片作为图片摘要的得分;
选取单元,用于选取所述作为图片摘要的得分大于预设的分数阈值的特定商品图片,作为所述商品集的图片摘要。
94.根据权利要求93所述的图片摘要的生成装置,其特征在于,还包括:
生成图片质量单元,用于计算所述商品图片的质量得分。
95.根据权利要求94所述的图片摘要的生成装置,其特征在于,所述生成图片质量单元包括:
获取子单元,用于获取所述商品图片的对图片质量产生影响的图片特征;
计算子单元,用于根据获取的所述图片特征,通过预先生成的图片质量预测模型,计算所述商品图片的质量得分。
96.根据权利要求95所述的图片摘要的生成装置,其特征在于,还包括:
生成模型子单元,用于通过机器学习算法,从已标注图片质量的历史图片特征集中学习获得所述图片质量预测模型。
97.一种电子设备,其特征在于,包括:
显示器;
处理器;以及
存储器,所述存储器被配置成存储图片摘要的生成装置,所述图片摘要的生成装置被所述处理器执行时,包括如下步骤:获取待处理的商品集中各个商品的商品图片的质量得分;以及获取各个所述商品的与用户行为相关的历史统计数据;根据所述商品图片的质量得分和所述与用户行为相关的历史统计数据,计算各个所述商品图片作为图片摘要的得分;选取所述作为图片摘要的得分大于预设的分数阈值的特定商品图片,作为所述商品集的图片摘要。
98.一种图片质量的评测方法,其特征在于,包括:
获取待计算图片的对图片质量产生影响的图片特征;
根据获取的所述图片特征,通过预先生成的图片质量预测模型,计算所述待计算图片的质量得分。
99.根据权利要求98所述的图片质量的评测方法,其特征在于,所述图片特征包括:图片高度、图片宽度、图片宽高比、图片边框面积的占比、图片的子图数量、图片中干扰部分的占比、图片背景的复杂度、图片前景的醒目度和图片白背景率的至少一者。
100.根据权利要求98所述的图片质量的评测方法,其特征在于,所述图片质量预测模型,采用如下方式生成:
通过机器学习算法,从已标注图片质量的历史图片特征集中学习获得所述图片质量预测模型。
101.根据权利要求100所述的图片质量的评测方法,其特征在于,所述机器学习算法包括回归算法;所述回归算法包括线性回归算法、逻辑回归算法或GBDT回归决策树算法。
102.一种图片质量的评测装置,其特征在于,包括:
获取单元,用于获取待计算图片的对图片质量产生影响的图片特征;
计算单元,用于根据获取的所述图片特征,通过预先生成的图片质量预测模型,计算所述待计算图片的质量得分。
103.根据权利要求102所述的图片质量的评测装置,其特征在于,还包括:
生成单元,用于通过机器学习算法,从已标注图片质量的历史图片特征集中学习获得所述图片质量预测模型。
104.一种电子设备,其特征在于,包括:
显示器;
处理器;以及
存储器,所述存储器被配置成存储图片质量的评测装置,所述图片质量的评测装置被所述处理器执行时,包括如下步骤:获取待计算图片的对图片质量产生影响的图片特征;根据获取的所述图片特征,通过预先生成的图片质量预测模型,计算所述待计算图片的质量得分。
105.一种商品标签名重要度的生成方法,其特征在于,包括:
获取历史查询词及与其对应的与用户行为相关的商品搜索结果;
针对各个历史查询词,根据与所述历史查询词对应的所述与用户行为相关的商品搜索结果,获取与所述历史查询词对应的商品类目,生成历史查询词与商品类目的对应关系;
针对所述历史查询词与商品类目的对应关系中各个商品类目,根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数;并根据各个标签名的出现次数,计算各个标签名的权重。
106.根据权利要求105所述的商品标签名重要度的生成方法,其特征在于,所述根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数,包括:
针对与所述商品类目对应的各个所述历史查询词,将所述历史查询词与所述商品类目的商品标签集中各个标签的标签值进行文本匹配;若匹配成功,则将匹配成功的标签值的出现次数加一;
根据各个商品标签的标签值的出现次数,计算所述各个标签名的出现次数。
107.根据权利要求105所述的商品标签名重要度的生成方法,其特征在于,所述根据各个标签名的出现次数,计算各个标签名的重要度,包括:
根据所述商品类目的商品标签集中各个标签名的出现次数,计算标签名的出现总次数;
将所述商品类目的商品标签集中各个标签名的出现次数、与所述出现总次数的比值,作为各个标签名的重要度。
108.根据权利要求105所述的商品标签名重要度的生成方法,其特征在于,所述与用户行为相关的商品搜索结果包括被用户点击的商品搜索结果或成交的商品搜索结果。
109.根据权利要求105所述的商品标签名重要度的生成方法,其特征在于,所述商品类目的商品标签集,采用如下方式生成:
根据所述商品类目包括的商品属性,生成所述商品类目的商品标签集。
110.根据权利要求109所述的商品标签名重要度的生成方法,其特征在于,所述根据所述商品类目包括的商品属性,生成所述商品类目的商品标签集,包括:
获取所述商品类目包括的所述商品属性;
通过预设的标签选取算法,从所述商品类目包括的所述商品属性中选取具有商品区分意义的属性组成所述商品类目的商品标签集。
111.根据权利要求110所述的商品标签名重要度的生成方法,其特征在于,所述预设的标签选取算法包括:基于规则的标签选取算法或基于信息熵的标签选取算法的至少一者。
112.根据权利要求111所述的商品标签名重要度的生成方法,其特征在于,所述基于规则的标签选取算法所基于的选取规则包括以下规则的至少一者:
去除不具有商品区分意义的商品属性名所对应的商品属性;所述不具有商品区分意义的商品属性名包括:商品产地或商品新旧程度;
去除不具有商品区分意义的商品属性值所对应的商品属性;所述不具有商品区分意义的商品属性值包括:日期或运营性质。
113.根据权利要求111所述的商品标签名重要度的生成方法,其特征在于,所述预设的标签选取算法采用所述基于信息熵的标签选取算法;
所述通过预设的标签选取算法,从所述商品类目包括的所述商品属性中选取具有商品区分意义的属性组成所述商品类目的商品标签集,包括:
获取所述商品类目中商品的属性名;
针对各个所述属性名,根据所述属性名对应的属性值,计算所述属性名的信息熵;
将所述属性名的信息熵小于等于最大信息熵阈值的属性名作为具有商品区分意义的属性名;
将所述具有商品区分意义的属性名对应的商品属性作为所述具有商品区分意义的属性,生成所述商品类目的商品标签集。
114.根据权利要求113所述的商品标签名重要度的生成方法,其特征在于,所述属性名的信息熵,采用如下公式计算:
其中,pi为所述属性名的第i个属性值的出现频率。
115.根据权利要求113所述的商品标签名重要度的生成方法,其特征在于,所述属性值包括系统属性值或自定义属性值。
116.一种商品标签名重要度的生成装置,其特征在于,包括:
获取单元,用于获取历史查询词及与其对应的与用户行为相关的商品搜索结果;
生成单元,用于针对各个历史查询词,根据与所述历史查询词对应的所述与用户行为相关的商品搜索结果,获取与所述历史查询词对应的商品类目,生成历史查询词与商品类目的对应关系;
计算单元,用于针对所述历史查询词与商品类目的对应关系中各个商品类目,根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数;并根据各个标签名的出现次数,计算各个标签名的权重。
117.根据权利要求116所述的商品标签名重要度的生成装置,其特征在于,所述计算单元包括:
第一计算子单元,用于根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数;
所述第一计算子单元包括:
匹配子单元,用于针对与所述商品类目对应的各个所述历史查询词,将所述历史查询词与所述商品类目的商品标签集中各个标签的标签值进行文本匹配;若匹配成功,则将匹配成功的标签值的出现次数加一;
计算频度子单元,用于根据各个商品标签的标签值的出现次数,计算所述各个标签名的出现次数。
118.根据权利要求116所述的商品标签名重要度的生成装置,其特征在于,所述计算单元包括:
第二计算子单元,用于根据各个标签名的出现次数,计算各个标签名的重要度;
所述第二计算子单元包括:
计算总频度子单元,用于根据所述商品类目的商品标签集中各个标签名的出现次数,计算标签名的出现总次数;
计算权重子单元,用于将所述商品类目的商品标签集中各个标签名的出现次数、与所述出现总次数的比值,作为各个标签名的重要度。
119.根据权利要求116所述的商品标签名重要度的生成装置,其特征在于,还包括:
生成单元,用于根据所述商品类目包括的商品属性,生成所述商品类目的商品标签集。
120.根据权利要求119所述的商品标签名重要度的生成装置,其特征在于,所述生成单元包括:
获取子单元,用于获取所述商品类目包括的所述商品属性;
选取子单元,用于通过预设的标签选取算法,从所述商品类目包括的所述商品属性中选取具有商品区分意义的属性组成所述商品类目的商品标签集。
121.根据权利要求120所述的商品标签名重要度的生成装置,其特征在于,所述预设的标签选取算法采用所述基于信息熵的标签选取算法;
所述选取子单元包括:
获取子单元,用于获取所述商品类目中商品的属性名;
计算子单元,用于针对各个所述属性名,根据所述属性名对应的属性值,计算所述属性名的信息熵;
选取子单元,用于将所述属性名的信息熵小于等于最大信息熵阈值的属性名作为具有商品区分意义的属性名;
生成子单元,用于将所述具有商品区分意义的属性名对应的商品属性作为所述具有商品区分意义的属性,生成所述商品类目的商品标签集。
122.一种电子设备,其特征在于,包括:
显示器;
处理器;以及
存储器,所述存储器被配置成存储商品标签名重要度的生成装置,所述商品标签名重要度的生成装置被所述处理器执行时,包括如下步骤:获取历史查询词及与其对应的与用户行为相关的商品搜索结果;针对各个历史查询词,根据与所述历史查询词对应的所述与用户行为相关的商品搜索结果,获取与所述历史查询词对应的商品类目,生成历史查询词与商品类目的对应关系;针对所述历史查询词与商品类目的对应关系中各个商品类目,根据与所述商品类目对应的所述历史查询词,计算所述商品类目的商品标签集中各个标签名的出现次数;并根据各个标签名的出现次数,计算各个标签名的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511000890.7A CN106919619B (zh) | 2015-12-28 | 2015-12-28 | 一种商品聚类方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511000890.7A CN106919619B (zh) | 2015-12-28 | 2015-12-28 | 一种商品聚类方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106919619A true CN106919619A (zh) | 2017-07-04 |
CN106919619B CN106919619B (zh) | 2021-09-07 |
Family
ID=59456213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511000890.7A Active CN106919619B (zh) | 2015-12-28 | 2015-12-28 | 一种商品聚类方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106919619B (zh) |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644085A (zh) * | 2017-09-22 | 2018-01-30 | 百度在线网络技术(北京)有限公司 | 体育赛事新闻的生成方法和装置 |
CN107729900A (zh) * | 2017-09-15 | 2018-02-23 | 广州唯品会研究院有限公司 | 一种利用图片属性提取完成录入信息补全的方法及设备 |
CN107862070A (zh) * | 2017-11-22 | 2018-03-30 | 华南理工大学 | 基于文本聚类的线上课堂讨论短文本即时分组方法及系统 |
CN108776911A (zh) * | 2018-07-02 | 2018-11-09 | 浪潮软件股份有限公司 | 一种基于机器学习的商品竞争关系分析方法 |
CN108959516A (zh) * | 2018-06-28 | 2018-12-07 | 北京百度网讯科技有限公司 | 会话消息处理方法和装置 |
CN109408645A (zh) * | 2018-10-15 | 2019-03-01 | 国信优易数据有限公司 | 一种实体类型确定方法和装置 |
CN109543512A (zh) * | 2018-10-09 | 2019-03-29 | 中国科学院自动化研究所 | 图文摘要的评价方法 |
CN109754295A (zh) * | 2017-11-06 | 2019-05-14 | 北京京东尚科信息技术有限公司 | 用于输出信息的方法和装置 |
CN109885683A (zh) * | 2019-01-29 | 2019-06-14 | 桂林远望智能通信科技有限公司 | 一种基于K-means模型和神经网络模型的生成文本摘要的方法 |
CN110059543A (zh) * | 2019-03-06 | 2019-07-26 | 阿里巴巴集团控股有限公司 | 一种人脸留底静默注册的方法、装置、服务器和终端 |
CN110069665A (zh) * | 2017-12-13 | 2019-07-30 | 优酷信息技术(北京)有限公司 | 一种筛选项的提供方法、客户端及服务器 |
CN110163703A (zh) * | 2018-02-12 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 一种分类模型建立方法、文案推送方法和服务器 |
CN110309464A (zh) * | 2018-03-01 | 2019-10-08 | 北京京东尚科信息技术有限公司 | 信息展示系统、方法及装置 |
CN110455343A (zh) * | 2019-09-03 | 2019-11-15 | 高亚青 | 一种基于大数据的商品质量检测系统 |
CN110489624A (zh) * | 2019-07-12 | 2019-11-22 | 昆明理工大学 | 基于句子特征向量的汉越伪平行句对抽取的方法 |
CN110704605A (zh) * | 2018-06-25 | 2020-01-17 | 北京京东尚科信息技术有限公司 | 物品摘要自动生成方法、系统、设备及可读存储介质 |
CN111476061A (zh) * | 2019-01-23 | 2020-07-31 | 阿里巴巴集团控股有限公司 | 商品生产中的计数处理方法、装置、系统及电子设备 |
CN111475741A (zh) * | 2019-01-24 | 2020-07-31 | 北京京东尚科信息技术有限公司 | 用于确定用户兴趣标签的方法和装置 |
CN111783445A (zh) * | 2019-06-26 | 2020-10-16 | 北京沃东天骏信息技术有限公司 | 数据生成方法、装置、介质及电子设备 |
CN111897963A (zh) * | 2020-08-06 | 2020-11-06 | 沈鑫 | 一种基于文本信息和机器学习的商品分类方法 |
CN111915391A (zh) * | 2020-06-16 | 2020-11-10 | 北京迈格威科技有限公司 | 商品数据的处理方法、装置及电子设备 |
CN112199451A (zh) * | 2020-09-30 | 2021-01-08 | 京东数字科技控股股份有限公司 | 商品识别方法、装置、计算机设备及存储介质 |
CN112418878A (zh) * | 2020-10-28 | 2021-02-26 | 深圳市橡树黑卡网络科技有限公司 | 权益业务数据处理方法、装置、设备及存储介质 |
US10984343B2 (en) * | 2017-02-23 | 2021-04-20 | International Business Machines Corporation | Training and estimation of selection behavior of target |
CN112950247A (zh) * | 2019-12-11 | 2021-06-11 | 北京沃东天骏信息技术有限公司 | 一种选品方法和装置 |
CN113222697A (zh) * | 2021-05-11 | 2021-08-06 | 湖北三赫智能科技有限公司 | 商品信息推送方法、装置计算机设备及可读存储介质 |
CN113298609A (zh) * | 2021-01-27 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 对象识别码处理方法、对象发布方法、装置、设备及介质 |
CN111178624B (zh) * | 2019-12-26 | 2023-10-20 | 浙江大学 | 一种新产品需求预测的方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020009312A (ko) * | 2000-07-26 | 2002-02-01 | 전창오 | 전자상거래를 위한 디지털 상품 카탈로그 라이브러리데이터베이스 구축방법 및 그 시스템 |
CN102236850A (zh) * | 2010-04-21 | 2011-11-09 | 腾讯科技(深圳)有限公司 | 一种商品特征属性的显示方法及装置 |
CN102542061A (zh) * | 2011-12-30 | 2012-07-04 | 互动在线(北京)科技有限公司 | 一种产品的智能分类方法 |
CN102622396A (zh) * | 2011-11-30 | 2012-08-01 | 浙江大学 | 一种基于标签的web服务聚类方法 |
CN102682005A (zh) * | 2011-03-10 | 2012-09-19 | 阿里巴巴集团控股有限公司 | 偏好类目的确定方法及装置 |
CN103412948A (zh) * | 2013-08-27 | 2013-11-27 | 北京交通大学 | 基于聚类的协同过滤的商品推荐方法及系统 |
CN103559267A (zh) * | 2013-11-04 | 2014-02-05 | 北京中搜网络技术股份有限公司 | 一种基于商品属性归一和聚类识别产品的方法 |
CN103927309A (zh) * | 2013-01-14 | 2014-07-16 | 阿里巴巴集团控股有限公司 | 一种对业务对象标注信息标签的方法及装置 |
US20140289246A1 (en) * | 2012-05-18 | 2014-09-25 | California Institute Of Technology | Systems and Methods for the Distributed Categorization of Source Data |
CN104778209A (zh) * | 2015-03-13 | 2015-07-15 | 国家计算机网络与信息安全管理中心 | 一种针对千万级规模新闻评论的观点挖掘方法 |
-
2015
- 2015-12-28 CN CN201511000890.7A patent/CN106919619B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020009312A (ko) * | 2000-07-26 | 2002-02-01 | 전창오 | 전자상거래를 위한 디지털 상품 카탈로그 라이브러리데이터베이스 구축방법 및 그 시스템 |
CN102236850A (zh) * | 2010-04-21 | 2011-11-09 | 腾讯科技(深圳)有限公司 | 一种商品特征属性的显示方法及装置 |
CN102682005A (zh) * | 2011-03-10 | 2012-09-19 | 阿里巴巴集团控股有限公司 | 偏好类目的确定方法及装置 |
CN102622396A (zh) * | 2011-11-30 | 2012-08-01 | 浙江大学 | 一种基于标签的web服务聚类方法 |
CN102542061A (zh) * | 2011-12-30 | 2012-07-04 | 互动在线(北京)科技有限公司 | 一种产品的智能分类方法 |
US20140289246A1 (en) * | 2012-05-18 | 2014-09-25 | California Institute Of Technology | Systems and Methods for the Distributed Categorization of Source Data |
CN103927309A (zh) * | 2013-01-14 | 2014-07-16 | 阿里巴巴集团控股有限公司 | 一种对业务对象标注信息标签的方法及装置 |
CN103412948A (zh) * | 2013-08-27 | 2013-11-27 | 北京交通大学 | 基于聚类的协同过滤的商品推荐方法及系统 |
CN103559267A (zh) * | 2013-11-04 | 2014-02-05 | 北京中搜网络技术股份有限公司 | 一种基于商品属性归一和聚类识别产品的方法 |
CN104778209A (zh) * | 2015-03-13 | 2015-07-15 | 国家计算机网络与信息安全管理中心 | 一种针对千万级规模新闻评论的观点挖掘方法 |
Non-Patent Citations (2)
Title |
---|
CHUNPING OUYANG 等: "Formal concept analysis support for web document clustering based on social tagging", 《2012 INTERNATIONAL CONFERENCE ON UNCERTAINTY REASONING AND KNOWLEDGE ENGINEERING》 * |
郭伟光: "我国B2C电子商务个性化商品推荐服务实证研究", 《价值工程》 * |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11423324B2 (en) * | 2017-02-23 | 2022-08-23 | International Business Machines Corporation | Training and estimation of selection behavior of target |
US10984343B2 (en) * | 2017-02-23 | 2021-04-20 | International Business Machines Corporation | Training and estimation of selection behavior of target |
CN107729900A (zh) * | 2017-09-15 | 2018-02-23 | 广州唯品会研究院有限公司 | 一种利用图片属性提取完成录入信息补全的方法及设备 |
CN107729900B (zh) * | 2017-09-15 | 2021-04-27 | 广州唯品会研究院有限公司 | 一种利用图片属性提取完成录入信息补全的方法及设备 |
CN107644085A (zh) * | 2017-09-22 | 2018-01-30 | 百度在线网络技术(北京)有限公司 | 体育赛事新闻的生成方法和装置 |
CN107644085B (zh) * | 2017-09-22 | 2020-12-11 | 百度在线网络技术(北京)有限公司 | 体育赛事新闻的生成方法和装置 |
CN109754295A (zh) * | 2017-11-06 | 2019-05-14 | 北京京东尚科信息技术有限公司 | 用于输出信息的方法和装置 |
CN107862070A (zh) * | 2017-11-22 | 2018-03-30 | 华南理工大学 | 基于文本聚类的线上课堂讨论短文本即时分组方法及系统 |
CN107862070B (zh) * | 2017-11-22 | 2021-08-10 | 华南理工大学 | 基于文本聚类的线上课堂讨论短文本即时分组方法及系统 |
CN110069665A (zh) * | 2017-12-13 | 2019-07-30 | 优酷信息技术(北京)有限公司 | 一种筛选项的提供方法、客户端及服务器 |
CN110069665B (zh) * | 2017-12-13 | 2021-09-17 | 阿里巴巴(中国)有限公司 | 一种筛选项的提供方法、客户端及服务器 |
CN110163703A (zh) * | 2018-02-12 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 一种分类模型建立方法、文案推送方法和服务器 |
CN110309464A (zh) * | 2018-03-01 | 2019-10-08 | 北京京东尚科信息技术有限公司 | 信息展示系统、方法及装置 |
CN110704605A (zh) * | 2018-06-25 | 2020-01-17 | 北京京东尚科信息技术有限公司 | 物品摘要自动生成方法、系统、设备及可读存储介质 |
CN108959516B (zh) * | 2018-06-28 | 2019-08-13 | 北京百度网讯科技有限公司 | 会话消息处理方法和装置 |
CN108959516A (zh) * | 2018-06-28 | 2018-12-07 | 北京百度网讯科技有限公司 | 会话消息处理方法和装置 |
CN108776911A (zh) * | 2018-07-02 | 2018-11-09 | 浪潮软件股份有限公司 | 一种基于机器学习的商品竞争关系分析方法 |
CN109543512A (zh) * | 2018-10-09 | 2019-03-29 | 中国科学院自动化研究所 | 图文摘要的评价方法 |
CN109408645A (zh) * | 2018-10-15 | 2019-03-01 | 国信优易数据有限公司 | 一种实体类型确定方法和装置 |
CN111476061B (zh) * | 2019-01-23 | 2023-05-02 | 阿里巴巴集团控股有限公司 | 商品生产中的计数处理方法、装置、系统及电子设备 |
CN111476061A (zh) * | 2019-01-23 | 2020-07-31 | 阿里巴巴集团控股有限公司 | 商品生产中的计数处理方法、装置、系统及电子设备 |
CN111475741A (zh) * | 2019-01-24 | 2020-07-31 | 北京京东尚科信息技术有限公司 | 用于确定用户兴趣标签的方法和装置 |
CN109885683B (zh) * | 2019-01-29 | 2022-12-02 | 桂林远望智能通信科技有限公司 | 一种基于K-means模型和神经网络模型的生成文本摘要的方法 |
CN109885683A (zh) * | 2019-01-29 | 2019-06-14 | 桂林远望智能通信科技有限公司 | 一种基于K-means模型和神经网络模型的生成文本摘要的方法 |
CN110059543A (zh) * | 2019-03-06 | 2019-07-26 | 阿里巴巴集团控股有限公司 | 一种人脸留底静默注册的方法、装置、服务器和终端 |
CN110059543B (zh) * | 2019-03-06 | 2023-10-03 | 创新先进技术有限公司 | 一种人脸留底静默注册的方法、装置、服务器和终端 |
CN111783445A (zh) * | 2019-06-26 | 2020-10-16 | 北京沃东天骏信息技术有限公司 | 数据生成方法、装置、介质及电子设备 |
CN110489624B (zh) * | 2019-07-12 | 2022-07-19 | 昆明理工大学 | 基于句子特征向量的汉越伪平行句对抽取的方法 |
CN110489624A (zh) * | 2019-07-12 | 2019-11-22 | 昆明理工大学 | 基于句子特征向量的汉越伪平行句对抽取的方法 |
CN110455343B (zh) * | 2019-09-03 | 2020-06-12 | 浙江雲禾健康管理有限公司 | 一种基于大数据的商品质量检测系统 |
CN110455343A (zh) * | 2019-09-03 | 2019-11-15 | 高亚青 | 一种基于大数据的商品质量检测系统 |
CN112950247A (zh) * | 2019-12-11 | 2021-06-11 | 北京沃东天骏信息技术有限公司 | 一种选品方法和装置 |
CN111178624B (zh) * | 2019-12-26 | 2023-10-20 | 浙江大学 | 一种新产品需求预测的方法 |
CN111915391A (zh) * | 2020-06-16 | 2020-11-10 | 北京迈格威科技有限公司 | 商品数据的处理方法、装置及电子设备 |
CN111897963A (zh) * | 2020-08-06 | 2020-11-06 | 沈鑫 | 一种基于文本信息和机器学习的商品分类方法 |
CN112199451A (zh) * | 2020-09-30 | 2021-01-08 | 京东数字科技控股股份有限公司 | 商品识别方法、装置、计算机设备及存储介质 |
CN112418878B (zh) * | 2020-10-28 | 2023-09-29 | 深圳市橡树黑卡网络科技有限公司 | 权益业务数据处理方法、装置、设备及存储介质 |
CN112418878A (zh) * | 2020-10-28 | 2021-02-26 | 深圳市橡树黑卡网络科技有限公司 | 权益业务数据处理方法、装置、设备及存储介质 |
CN113298609A (zh) * | 2021-01-27 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 对象识别码处理方法、对象发布方法、装置、设备及介质 |
CN113222697A (zh) * | 2021-05-11 | 2021-08-06 | 湖北三赫智能科技有限公司 | 商品信息推送方法、装置计算机设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106919619B (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106919619A (zh) | 一种商品聚类方法、装置及电子设备 | |
CN106919689B (zh) | 基于术语释义知识单元的专业领域知识图谱动态构建方法 | |
Day et al. | Deep learning for financial sentiment analysis on finance news providers | |
Agarwal | Data mining: Data mining concepts and techniques | |
US10754883B1 (en) | System and method for insight automation from social data | |
Kaushik et al. | A comprehensive study of text mining approach | |
CN108363821A (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
Liu et al. | Combining enterprise knowledge graph and news sentiment analysis for stock price prediction | |
CN108733748B (zh) | 一种基于商品评论舆情的跨境产品质量风险模糊预测方法 | |
CN106649455A (zh) | 一种大数据开发的标准化系统归类、命令集系统 | |
CN107688870B (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
CN107357793A (zh) | 信息推荐方法和装置 | |
CN112632228A (zh) | 一种基于文本挖掘的辅助评标方法及系统 | |
CN110717654B (zh) | 基于用户评论的产品质量评价方法和系统 | |
CN111897963A (zh) | 一种基于文本信息和机器学习的商品分类方法 | |
Bhardwaj et al. | Review of text mining techniques | |
CN105205163A (zh) | 一种科技新闻的增量学习多层次二分类方法 | |
Baishya et al. | SAFER: sentiment analysis-based fake review detection in e-commerce using deep learning | |
Beheshti-Kashi et al. | Trendfashion-a framework for the identification of fashion trends | |
Saikia et al. | Modelling social context for fake news detection: a graph neural network based approach | |
CN109062551A (zh) | 基于大数据开发命令集的开发框架 | |
CN115048503A (zh) | 一种基于内容分析的用户偏好标签设计方法 | |
Hirsch et al. | Evolving Lucene search queries for text classification | |
Cherednichenko et al. | Item Matching Model in E-Commerce: How Users Benefit | |
Vollset et al. | Making use of external company data to improve the classification of bank transactions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211123 Address after: Room 201, floor 2, building 15, No. 1999, Yizhou Avenue, hi tech Zone, Chengdu, Sichuan Patentee after: Alibaba (Chengdu) Software Technology Co.,Ltd. Address before: Box 847, four, Grand Cayman capital, Cayman Islands, UK Patentee before: ALIBABA GROUP HOLDING Ltd. |