CN104915440B - 一种商品排重方法和系统 - Google Patents

一种商品排重方法和系统 Download PDF

Info

Publication number
CN104915440B
CN104915440B CN201510362399.2A CN201510362399A CN104915440B CN 104915440 B CN104915440 B CN 104915440B CN 201510362399 A CN201510362399 A CN 201510362399A CN 104915440 B CN104915440 B CN 104915440B
Authority
CN
China
Prior art keywords
commodity
weight
template
similarity score
solr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510362399.2A
Other languages
English (en)
Other versions
CN104915440A (zh
Inventor
石业明
肖建
王建健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suningcom Group Co Ltd
Original Assignee
Suningcom Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suningcom Group Co Ltd filed Critical Suningcom Group Co Ltd
Priority to CN201510362399.2A priority Critical patent/CN104915440B/zh
Publication of CN104915440A publication Critical patent/CN104915440A/zh
Application granted granted Critical
Publication of CN104915440B publication Critical patent/CN104915440B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及电子商务领域,公开了一种商品排重方法,该方法包括:根据商品类型及属性定制排重模板;获取商家申请的所述商品类型及属性;根据所述商品类型调用相应模版,根据所述属性计算相似度分值;将所述相似度分值与所述排重模板的阈值比较,若大于阈值,则所述商品重复。本发明通过计算相似度分值和设置排重模板的阈值,解决了重复商品过多、商家、商品难以管理,以及同一商品多个商家重复申请的问题,避免了用户/消费者前台搜索时同一商品出现过多的情形。

Description

一种商品排重方法和系统
技术领域
本发明涉及电子商务领域,尤其涉及一种商品排重方法和系统。
背景技术
随着互联网技术的飞速发展以及人们消费观念的逐渐转变,电子商务开始迅猛发展,电子商务平台随着海量商家的入驻,对千万级商品的管理成为开放电子商务平台的难题,商品重复过多,消费者在前台搜索后出现的商品太多,为消费者挑选商品造成了困难,同时也为电子商务平台的管理带来了不便。
发明内容
本发明所要解决的技术问题是,提供一种商品排重方法和系统,以解决由于商品重复过多,商家、商品难以管理,商家搜索商品造成的一品多商的问题。
本发明解决上述技术问题所采用的技术方案是提供一种商品排重方法,该方法包括步骤:
S1、根据商品类型和商品属性定制排重模板;
S2、获取商家申请商品的所述商品类型和商品属性;
S3、根据所述商品类型调用相应模板,根据所述商品属性计算相似度分值;
S4、将所述相似度分值与所述排重模版的排重阈值相比较;
S5、若所述分值大于所述阈值,则所述商品重复;
S6、若所述分值小于所述阈值,则新建所述商品。
优选地,步骤S1中,所述排重模板包括所述商品属性的排重阈值、排重参数和所述参数的权重,其中,所述排重参数包括品牌、重量和体积等参数。
优选地,步骤S3中,将所述商品属性输入到solr(企业级搜索应用服务器)中,查询并打分,得到所述相似度分值。
优选地,在所述solr中得到所述相似度分值包括步骤:
S301、读取用户输入的查询词;
S302、所述solr对所述查询词进行分词处理,将所述分词输入到所述solr中进行查询;
S303、根据相似度计算公式
计算所述相似度分值,其中,
q为所述查询词,t为所述分词,d为所述查询词需匹配的模板;
tf(t in d)统计所述分词t在所述模板中的词频;
boost(t,field in d)在索引过程中设置字段参数;
lengthNorm(t,feild in d)计算在索引过程存储的分词的数目;
S304、将得到的所述相似度分值由高到低排列并返回至商家。
优选地,步骤S303中,所述相似度分值score(t)在(0,1]之间,分值越高,所述查询词与所述模板d匹配度越高。
另一方面,本发明提供一种商品排重系统,所述系统包括:
模板制定单元,用于根据商品类型和商品属性制定排重模版;
第一输入单元,用于输入商家申请的所述商品类型和商品属性;
solr计算单元,用于根据所述商品类型调用相应模板,并根据所述商品属性计算相似度分值;
判断单元,用于判断所述相似度分值是否超过所述排重模板中的阈值,若超过,则所述商品重复,若未超过,则新建所述商品。
优选地,所述排重模版包括所述商品属性的排重阈值、排重参数和所述参数的权重,其中,所述排重参数包括品牌、重量和体积等参数。
优选地,所述solr计算单元将所述商品属性输入到solr(企业级搜索应用服务器)中,查询并打分,得到所述相似度分值。
优选地,所述solr计算单元包括:
第二输入单元,用于将商家输入的查询词输入到所述solr中;
分词单元,用于对所述查询词进行分词处理;
打分单元,用于根据相似度计算公式计算所述相似度分值;
输出单元,用于按照得分高低排列所述相似度分值,并将查询结果输出至商家。
优选地,所述打分单元中得到的所述相似度分值在(0,1]之间,分值越高,所述查询词与所述排重模板匹配度越高。
本发明中,根据所述商品类型调用相应的排重模板,利用所述商品属性计算相似度分值,并将所述相似度分值与设定好的阈值相比较,确定该商品是否重复,滤除掉大部分重复商品,防止重复商品过多、商家和商品难以管理,同时,解决了同一商品多个商家重复申请的问题。
附图说明
图1是本发明的一个优选实施例中商品排重方法的流程图;
图2是本发明的一个优选实施例中商品排重系统的结构图。
具体实施方式
以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。说明书后续描述为实施本发明的较佳实施方式,然所述描述乃以说明本发明的一般原则为目的,并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。
下面结合附图和具体实施例对本发明做进一步详细说明。
如图1所示,为本发明的一个优选实施例,公开了一种商品排重方法,该方法包含步骤:
S1、根据商品类型和商品属性定制排重模板;
S2、获取商家申请商品的商品类型和商品属性;
S3、根据商品类型调用相应模板,根据商品属性计算相似度分值;
S4、将相似度分值与排重模版的排重阈值相比较;
S5、若分值大于所述阈值,则商品重复;
S6、若分值小于阈值,则新建商品。
本实施例中,根据商品类型调用相应的排重模板,利用商品属性计算相似度分值,并通过与设定好的阈值相比较,确定该商品是否重复,这样可以根据对阈值的设定滤除掉大部分重复商品,防止重复商品过多,商家和商品难以管理,解决了同一商品多个商家重复申请的问题。
进一步地,步骤S1中,排重模板包括商品属性的排重阈值、排重参数和参数的权重,其中,排重参数包括品牌、重量和体积等参数。
本实施例中,排重模板包括阈值和品牌、重量以及体积等参数以及这些参数所占的权重,能够使电子商务平台客观的根据商家输入的商品类型和属性判断该商品与排重模板之间的相似度。
进一步地,步骤S3中,将商品属性输入到solr(企业级搜索应用服务器)中,查询并打分,得到相似度分值。
进一步地,在solr中得到相似度分值包括步骤:
S301、读取用户输入的查询词;
S302、solr对查询词进行分词处理,将分词输入到solr中进行查询;
S303、根据相似度计算公式
计算相似度分值,其中,
q为查询词,t为分词,d为查询词需匹配的模板;
tf(t in d)统计分词t在模板中的词频;
boost(t,field in d)在索引过程中设置字段参数;
lengthNorm(t,feild in d)计算在索引过程存储的分词的数目;
S304、将得到的相似度分值由高到低排列并返回至商家。
更进一步地,步骤S303中,相似度分值score(t)在(0,1]之间,分值越高,查询词与模板d匹配度越高。
本实施例中,通过solr查询商品并对其进行打分,通过优化相似度计算公式
将idf(t)、queryNorm(q)和coord(q,d)均记为1,得到新的计算公式
经过优化,得到的相似度分值在(0,1]之间浮动,且分数越高,商品与对应的排重模板相似度越高,这样电子商务平台能够直观的反映商品的相似度,并按照分数由高到低排列商品,低于排重模板阈值,则商家可以商家产品,而高于排重模板阈值,则表示是同一商品的可能性高,不可以申请上架新商品。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而所述的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。因此,本领域相关技术人员应能理解,与本发明的方法相对应的,本发明还同时包括一种商品排重系统,参见图2,与上述方法步骤一一对应地,该系统包括:
模板制定单元,用于根据商品类型和商品属性制定排重模版;
第一输入单元,用于输入商家申请商品的商品类型和商品属性;
solr计算单元,用于根据商品类型调用相应模板,并根据商品属性计算相似度分值;
判断单元,用于判断相似度分值是否超过排重模板中的阈值,若超过,则商品重复,若未超过,则新建商品。
本实施例中,系统通过solr计算单元计算商品与排重模板的相似度分值,并通过判断单元判断商品是否重复,解决了重复商品过多,商家、商品难以管理所造成的一品多商的问题。
进一步地,排重模版包括商品属性的排重阈值、排重参数和参数的权重,其中,排重参数包括品牌、重量和体积等参数。
本实施例中,排重模板包括阈值和品牌、重量以及体积等参数以及这些参数所占的权重,能够使电子商务平台客观的根据商家输入的商品类型和属性判断该商品与排重模板之间的相似度。
进一步地,solr计算单元将商品属性输入到solr(企业级搜索应用服务器)中,查询并打分,得到相似度分值。
进一步地,solr计算单元包括:
第二输入单元,用于将商家输入的查询词输入到solr中;
分词单元,用于对查询词进行分词处理;
打分单元,用于根据相似度计算公式计算相似度分值;
输出单元,用于按照得分高低排列相似度分值,并将查询结果输出至商家。
更进一步地,打分单元中得到的相似度分值在(0,1]之间,分值越高,查询词与排重模板匹配度越高。
本实施例中,solr计算单元通过分词单元、打分单元和输出单元对商品与排重模板之间的相似度进行计算,得到的相似度分值在(0,1]之间浮动,且分数越高,商品与对应的排重模板相似度越高,这样电子商务平台能够直观的反映商品的相似度,并按照分数由高到低排列商品,低于排重模板阈值的商品不会出现在搜索结果中,消除了同一商品多个商家重复申请的现象,减少冗余。
值得注意的是,以上所述仅为本发明的较佳实施例,并非因此限定本发明的专利保护范围,本发明还可以对上述各种零部件的构造进行材料和结构的改进,或者是采用技术等同物进行替换。故凡运用本发明的说明书及图示内容所作的等效结构变化,或直接或间接运用于其他相关技术领域均同理皆包含于本发明所涵盖的范围内。

Claims (7)

1.一种商品排重方法,其特征在于,所述方法包括步骤:
S1、根据商品类型和商品属性定制排重模板;
S2、获取商家申请商品的所述商品类型和商品属性;
S3、根据所述商品类型调用相应模板,根据所述商品属性计算相似度分值;
S4、将所述相似度分值与所述排重模版的排重阈值相比较;
S5、若所述分值大于所述阈值,则所述商品重复;
S6、若所述分值小于所述阈值,则新建所述商品;
其中步骤S3中,将所述商品属性输入到solr中,查询并打分,得到所述相似度分值;
在所述solr中得到所述相似度分值包括步骤:
S301、读取商家输入的查询词;
S302、所述solr对所述查询词进行分词处理,将所述分词输入到所述solr中进行查询;
S303、计算所述相似度分值;
S304、将得到的所述相似度分值由高到低排列并返回至商家。
2.如权利要求1所述的一种商品排重方法,其特征在于,步骤S1中,所述排重模板包括所述商品属性的排重阈值、排重参数和所述参数的权重,其中,所述排重参数包括品牌、重量和体积参数。
3.如权利要求1所述的一种商品排重方法,其特征在于,步骤S303中,所述相似度分值的计算公式为
其中,
q为所述查询词,t为所述分词,d为所述查询词需匹配的模板;
tf(t in d)统计所述分词t在所述模板中的词频;
boost(t,field in d)在索引过程中设置字段参数;
lengthNorm(t,feild in d)计算在索引过程存储的分词的数目。
4.如权利要求1所述的一种商品排重方法,其特征在于,步骤S303中,所述相似度分值score(t)在(0,1]之间,分值越高,所述查询词与所述模板d匹配度越高。
5.一种商品排重系统,其特征在于,所述系统包括:
模板制定单元,用于根据商品类型和商品属性制定排重模版;
第一输入单元,用于输入商家申请的所述商品类型和商品属性;
solr计算单元,用于根据所述商品类型调用相应模板,并根据所述商品属性计算相似度分值;
判断单元,用于判断所述相似度分值是否超过所述排重模板中的阈值,若超过,则所述商品重复,若未超过,则新建所述商品;
所述solr计算单元将所述商品属性输入到solr中,查询并打分,得到所述相似度分值;
所述solr计算单元包括:
第二输入单元,用于将商家输入的查询词输入到所述solr中;
分词单元,用于对所述查询词进行分词处理;
打分单元,用于根据相似度计算公式计算所述相似度分值;
输出单元,用于按照得分高低排列所述相似度分值,并将查询结果输出至商家。
6.如权利要求5所述的一种商品排重系统,其特征在于,所述排重模版包括所述商品属性的排重阈值、排重参数和所述参数的权重,其中,所述排重参数包括品牌、重量和体积参数。
7.如权利要求5所述的一种商品排重系统,其特征在于,所述打分单元中得到的所述相似度分值在(0,1]之间,分值越高,所述查询词与所述排重模板匹配度越高。
CN201510362399.2A 2015-06-26 2015-06-26 一种商品排重方法和系统 Active CN104915440B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510362399.2A CN104915440B (zh) 2015-06-26 2015-06-26 一种商品排重方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510362399.2A CN104915440B (zh) 2015-06-26 2015-06-26 一种商品排重方法和系统

Publications (2)

Publication Number Publication Date
CN104915440A CN104915440A (zh) 2015-09-16
CN104915440B true CN104915440B (zh) 2018-12-11

Family

ID=54084503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510362399.2A Active CN104915440B (zh) 2015-06-26 2015-06-26 一种商品排重方法和系统

Country Status (1)

Country Link
CN (1) CN104915440B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909139A (zh) * 2019-11-08 2020-03-24 出门问问信息科技有限公司 一种问答方法、装置及电子设备

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108614811B (zh) * 2016-12-09 2021-11-05 腾讯科技(深圳)有限公司 一种数据分析方法及装置
CN108388555A (zh) * 2018-02-01 2018-08-10 口碑(上海)信息技术有限公司 基于行业类别的商品去重方法及装置
CN111371858B (zh) * 2020-02-25 2022-11-01 同盾控股有限公司 群控设备识别方法、装置、介质及电子设备
US20210304121A1 (en) * 2020-03-30 2021-09-30 Coupang, Corp. Computerized systems and methods for product integration and deduplication using artificial intelligence
US20220067638A1 (en) * 2020-08-28 2022-03-03 Coupang Corp. Systems and methods of processing metadata for product registration

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004171051A (ja) * 2002-11-15 2004-06-17 Fujitsu Ltd 類似商品検索方法および類似商品検索プログラム
JP2007293696A (ja) * 2006-04-26 2007-11-08 Nippon Telegr & Teleph Corp <Ntt> 商品検索装置、商品検索方法および商品検索プログラム
CN103106585A (zh) * 2011-11-11 2013-05-15 阿里巴巴集团控股有限公司 产品信息的实时去重方法和装置
CN103605815A (zh) * 2013-12-11 2014-02-26 焦点科技股份有限公司 一种适用于b2b电子商务平台的商品信息自动分类推荐方法
CN104715374A (zh) * 2013-12-11 2015-06-17 世纪禾光科技发展(北京)有限公司 一种电子商务平台重复产品的治理方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004171051A (ja) * 2002-11-15 2004-06-17 Fujitsu Ltd 類似商品検索方法および類似商品検索プログラム
JP2007293696A (ja) * 2006-04-26 2007-11-08 Nippon Telegr & Teleph Corp <Ntt> 商品検索装置、商品検索方法および商品検索プログラム
CN103106585A (zh) * 2011-11-11 2013-05-15 阿里巴巴集团控股有限公司 产品信息的实时去重方法和装置
CN103605815A (zh) * 2013-12-11 2014-02-26 焦点科技股份有限公司 一种适用于b2b电子商务平台的商品信息自动分类推荐方法
CN104715374A (zh) * 2013-12-11 2015-06-17 世纪禾光科技发展(北京)有限公司 一种电子商务平台重复产品的治理方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
短信专业计费系统的设计;刘晓红;《中国优秀硕士学位论文全文数据库信息科技辑》;20041215;论文第20页 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909139A (zh) * 2019-11-08 2020-03-24 出门问问信息科技有限公司 一种问答方法、装置及电子设备

Also Published As

Publication number Publication date
CN104915440A (zh) 2015-09-16

Similar Documents

Publication Publication Date Title
CN104915440B (zh) 一种商品排重方法和系统
CN105069086B (zh) 一种优化电子商务商品搜索的方法及系统
US7814107B1 (en) Generating similarity scores for matching non-identical data strings
WO2021057250A1 (zh) 一种商品搜索的查询策略的生成方法及装置
JP5913736B2 (ja) キーワードの推薦
TWI512653B (zh) Information providing method and apparatus, method and apparatus for determining the degree of comprehensive relevance
CN110020128B (zh) 一种搜索结果排序方法及装置
CN104252456B (zh) 一种权重估计方法、装置及系统
US20140172642A1 (en) Analyzing commodity evaluations
CN104268175B (zh) 一种数据搜索的装置及其方法
US9898464B2 (en) Information extraction supporting apparatus and method
WO2016000555A1 (zh) 基于社交网络的内容、新闻推荐方法和系统
CN110458641A (zh) 一种电商推荐方法及系统
CN104881798A (zh) 基于商品图像特征的个性化搜索装置及方法
US8838618B1 (en) System and method for identifying feature phrases in item description information
WO2014008139A2 (en) Generating search results
CN105095222B (zh) 单元词替换方法、搜索方法及装置
CN106372956B (zh) 一种基于用户搜索日志进行意图实体识别的方法和系统
CN106686460A (zh) 一种视频节目推荐方法及视频节目推荐装置
JP7393475B2 (ja) 画像を検索するための方法、装置、システム、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
CN105955957A (zh) 一种商家总体评论中方面评分的确定方法及装置
CN106933878B (zh) 一种信息处理方法及装置
US9430793B2 (en) Dictionary generation device, dictionary generation method, dictionary generation program and computer-readable recording medium storing same program
CN113191145B (zh) 关键词的处理方法、装置、电子设备和介质
CN107766229B (zh) 一种利用蜕变测试评价商品搜索系统正确性的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 210000, 1-5 story, Jinshan building, 8 Shanxi Road, Nanjing, Jiangsu.

Applicant after: SUNING.COM Co.,Ltd.

Address before: 210042 15, 1 Suning Road, Xuanwu District, Nanjing, Jiangsu.

Applicant before: SUNING COMMERCE GROUP Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method and system for product weight reduction

Effective date of registration: 20231220

Granted publication date: 20181211

Pledgee: Bank of China Limited Nanjing Gulou Branch

Pledgor: SUNING.COM Co.,Ltd.

Registration number: Y2023980071946

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20181211

Pledgee: Bank of China Limited Nanjing Gulou Branch

Pledgor: SUNING.COM Co.,Ltd.

Registration number: Y2023980071946

PC01 Cancellation of the registration of the contract for pledge of patent right