CN112181968A - 统一商品信息的方法、装置、系统及存储介质 - Google Patents

统一商品信息的方法、装置、系统及存储介质 Download PDF

Info

Publication number
CN112181968A
CN112181968A CN202011054227.6A CN202011054227A CN112181968A CN 112181968 A CN112181968 A CN 112181968A CN 202011054227 A CN202011054227 A CN 202011054227A CN 112181968 A CN112181968 A CN 112181968A
Authority
CN
China
Prior art keywords
commodity information
information
commodity
level
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011054227.6A
Other languages
English (en)
Inventor
施建文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JD Digital Technology Holdings Co Ltd
Original Assignee
JD Digital Technology Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JD Digital Technology Holdings Co Ltd filed Critical JD Digital Technology Holdings Co Ltd
Priority to CN202011054227.6A priority Critical patent/CN112181968A/zh
Publication of CN112181968A publication Critical patent/CN112181968A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0641Shopping interfaces
    • G06Q30/0643Graphical representation of items or shoppers

Abstract

本发明实施例涉及一种统一商品信息的方法、装置、系统及存储介质,该方法包括:获取供应方提供的商品数据信息;从至少两级商品信息中提取第一级商品信息;匹配第一级商品信息与第一基准商品信息之间的相似度;当确定相似度大于或者等于第一预设阈值时,建立第一级商品信息与第一基准商品信息之间的映射关系;直至当至少两级商品信息中每一级商品信息均与与之对应的基准商品信息完成映射操作后,确定完成商品数据信息的统一。将不同供应方提供的商品数据信息按照统一规格完成归类和统一。保证用户按照任一供应方提供的商品信息在系统中进行搜索时,系统都可以进行精准展示,而且还可以全面展示所有供应方提供的该类商品。

Description

统一商品信息的方法、装置、系统及存储介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种统一商品信息的方法、装置、系统及存储介质。
背景技术
数据更新过程中,数据统一对于商品售卖方而言,是至关重要的。因为当用户期望看到某种商品时,售卖方可以将用户期望看到的与该商品有关的所有信息展示给用户。例如用户要购买某种汽车,由于在前期录入的有关该种汽车信息不够统一,比如生产该种汽车的商家包括多个,每个商家对于车辆的名称、车型信息等说明都不统一,售卖方自身数据库中对于该种汽车也有自身的一套表示信息。
因此当用户按照供应方提供的信息搜索某种汽车时,由于系统不能完全匹配到用户搜索内容,进而不能对其进行准确展示。
发明内容
鉴于此,为解决现有技术中上述技术问题,本发明实施例提供一种统一商品信息的方法、装置、系统及存储介质。
第一方面,本发明实施例提供一种统一商品信息的方法,该方法包括:
获取供应方提供的商品数据信息,商品数据信息中包括至少两级商品信息;
从至少两级商品信息中提取第一级商品信息;
匹配第一级商品信息与第一基准商品信息之间的相似度;
当确定相似度大于或者等于第一预设阈值时,建立第一级商品信息与第一基准商品信息之间的映射关系,其中,第一级商品信息为至少两级商品信息中任一级商品信息,第一基准商品信息为预设定的与第一级商品信息对应的基准商品信息;
直至当至少两级商品信息中每一级商品信息均与与之对应的基准商品信息完成映射操作后,确定完成商品数据信息的统一。
在一个可能的实施方式中,当确定第一级商品信息与第一基准商品信息之间的相似度小于第一预设阈值时,舍弃商品数据信息。
在一个可能的实施方式中,从至少两级商品信息中提取第一级商品信息,具体包括:
对商品数据信息进行分词操作,获取分词结果;
从分词结果中获取第一级商品信息。
在一个可能的实施方式中,匹配第一级商品信息与第一基准商品信息之间的相似度,具体包括:
统计第一级商品信息在分词结果中的出现频率;
根据出现频率,生成与第一级商品信息对应的词频向量;
根据第一级商品信息对应的词频向量,以及预获取的与第一基准商品信息对应的词频向量,确定相似度。
在一个可能的实施方式中,比较相似度与第一预设阈值之间的大小之前,方法还包括:
根据相似度,从多个候选阈值中选取第一预设阈值。
在一个可能的实施方式中,商品数据信息包括至少两条,根据相似度,从多个候选阈值中选取第一预设阈值,具体包括:
遍历每一个候选阈值,分别将每一个候选阈值与相似度进行比较;
当多个候选阈值中第一候选阈值,使得至少两条商品数据中预设数量的商品数据信息满足预设要求时,确定第一候选阈值为第一预设阈值,其中预设条件为:至少两条商品数据信息中预设比例的商品数据信息满足,第一级商品信息与第一基准商品信息之间的相似度均大于或等于第一候选阈值。
在一个可能的实施方式中,当多个候选阈值均满足预设条件时,从多个候选阈值中选取最大候选阈值作为第一预设阈值。
第二方面,本发明实施例提供一种统一商品信息的装置,该装置包括:
获取单元,用于获取供应方提供的商品数据信息,商品数据信息中包括至少两级商品信息;
提取单元,用于从至少两级商品信息中提取第一级商品信息;
匹配单元,用于匹配第一级商品信息与第一基准商品信息之间的相似度;
处理单元,用于当确定相似度大于或者等于第一预设阈值时,建立第一级商品信息与第一基准商品信息之间的映射关系,其中,第一级商品信息为至少两级商品信息中任一级商品信息,第一基准商品信息为预设定的与第一级商品信息对应的基准商品信息;
直至当至少两级商品信息中每一级商品信息均与与之对应的基准商品信息完成映射操作后,确定完成商品数据信息的统一。
第三方面,本发明实施例提供一种统一商品信息的系统,该系统包括:至少一个处理器和存储器;
处理器用于执行存储器中存储的统一商品信息的程序,以实现如第一方面任一实施方式所介绍的统一商品信息的方法。
第四方面,本发明实施例提供一种计算机存储介质,该计算机存储介质存储有一个或者多个程序,一个或者多个程序可被如第三方面所介绍的统一商品信息的系统执行,以实现如第一方面任一实施方式所介绍的统一商品信息的方法。
本发明实施例提供的一种统一商品信息的方法,获取供应方提供的商品数据信息。其中,商品数据信息包括至少两级商品信息,从至少两级商品信息中提取第一级商品信息,并确定其与第一基准商品信息之间的相似度。如果相似度大于第一预设阈值,则说明第一级商品信息实际是和第一基准商品信息相同,但是叫法不同的商品信息。为了将不同供应方提供的商品信息能够进行统一,则统一建立和第一基准商品信息之间的映射关系。实际上,对于至少两级商品信息中任一级商品信息,均执行类似上述操作,区别在于,不同级别商品信息对应的基准商品信息不同,相似度阈值可能不同。所有级别执行完成映射操作后,也就完成了商品数据信息的统一。即,将不同供应方提供的商品数据信息按照统一规格完成归类和统一。保证用户按照任一供应方提供的商品信息在系统中进行搜索时,系统都可以进行精准展示,而且还可以全面展示所有供应方提供的该类商品。
附图说明
图1为本发明实施例提供的一种统一商品信息的方法流程示意图;
图2为本发明提供的商品数据信息进行格式统一的模板示意图;
图3为本发明提供的批量导入某一商家提供的商品数据信息的具体表现形式示意图;
图4为本发明提供的统一商品信息的方法简易流程示意图;
图5为本发明提供的一种统一商品信息的装置结构示意图;
图6本发明实施例提供一种统一商品信息的系统结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。
图1为本发明实施例提供的一种统一商品信息的方法流程示意图,如图1所示,该方法包括:
步骤110,获取供应方提供的商品数据信息,商品数据信息中包括至少两级商品信息。
具体的,商品数据信息例如是汽车商品数据信息。那么,商品数据信息中可以包括生产厂商、品牌、车系、年款以及车型信息等。具体参见表1和表2所示。表1中展示的是供应方提供的车辆商品数据信息,表2是售卖方系统中统计到车辆商品数据信息。
Figure BDA0002709606610000051
表1
Figure BDA0002709606610000061
表2
由表1和表2就可以看出,售卖方的系统中存储的车辆商品信息和供应方提供的车辆商品信息存在一定的区别。如果采用现有技术的方法,例如,模糊匹配like方法,可以采用前模糊匹配A%匹配,后模糊匹配A%,或者覆盖模糊匹配%A%(中间部分匹配)。这些方法对于商品信息过长的,例如表1和表2中商品信息过长的情况,其匹配率将会非常低,准确度不高。因此,提出了本申请中提出了统一商品信息的方法。如表1或表2所示,商品数据信息中包括至少两级商品信息,例如表1或表2中,第1级商品信息为厂商,第2级商品信息为品牌,第3级商品信息为车系,第4级商品信息为年款,第5级商品信息为车型信息。
步骤120,从至少两级商品信息中提取第一级商品信息。
具体的,对于商品信息的提取,可以采用分词方法首先对商品数据进行分词操作,获取分词结果。
在具体执行时,可以采用矢量分词方法,例如采用IK分词方法进行中文分词。经过分词处理后,从分词结果中提取第一级商品信息。这里所说的第一级商品信息是至少两级分词商品信息中的任一级商品信息。在具体操作时,一般是先提取第1级商品信息,例如上文中的生产厂家信息。
然后,执行步骤130。
步骤130,匹配第一级商品信息与第一基准商品信息之间的相似度。
具体的,在执行步骤120的分词操作之后,可以统计第一级商品信息在分词结果中出现的频率。例如,生产厂家信息在分词结果,也即是所有分词中,其出现的频率。然后,基于生产厂家这个词汇占所有词汇中出现频率,生成与生产厂及这一词汇对应的词频向量。也即是根据出现频率,生成与第一级商品信息对应的词频向量。
最终根据第一级商品信息对应的词频向量,以及预获取的与第一基准商品信息对应的词频向量,确定相似度。
在具体执行时,可以采用余弦定理计算第一级商品信息对应的词频向量,与第一基准商品信息对应的词频向量之间的相似度。
通常而言,向量是多维空间中有方向的线段。如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角了。
余弦定理描述了三角形中任何一个夹角和三个边的关系,换句话说,给定三角形的三条边,我们可以用余弦定理求出三角形各个角的角度。假定三角形的三条边为a,b和c,对应的三个角为A,B和C,那么角A的余弦:
Figure BDA0002709606610000071
如果我们将三角形的两边b和c看成是两个向量,那么上述公式等价于:
Figure BDA0002709606610000081
其中分母表示两个向量b和c的长度,分子表示两个向量的内积。举一个具体的例子,假如文本X和文本Y对应向量分别是x1,x2,…,xn,y1,y2,…,yn;
那么它们夹角的余弦等于:
Figure BDA0002709606610000082
当两个文本向量夹角的余弦等于1时,这两个文本完全重复;当夹角的余弦接近于一时,两个文本相似;夹角的余弦越小,两个文本越不相关。因此,再计算上述实施例中匹配第一级商品信息与第一基准商品信息之间的相似度时,具体计算方式于下面的例子原理相同,为了更加方便读者理解,列举下面更加接近生活的例子,作为具体说明,参见如下:
假设有下面两个句子:
A:我喜欢看电视,不喜欢看电影。B:我不喜欢看电视,也不喜欢看电影。
第一步:分词
A:我/喜欢/看/电视,不/喜欢/看/电影。
B:我/不/喜欢/看/电视,也/不/喜欢/看/电影。
第二步:列出所有的词、字
我,喜欢,看,电视,电影,不,也
第三步:计算词频
A:我1,喜欢2,看2,电视1,电影1,不1,也0。
B:我1,喜欢2,看2,电视1,电影1,不2,也1。
第四步:描述词频向量
A:[1,2,2,1,1,1,0]
B:[1,2,2,1,1,2,1]
第五步:计算夹角余弦
将词频向量带入到公式3中,就可以得到,句子A与句子B的夹角的余弦。
余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫”余弦相似性”。因此,可以通过上述方式也可以计算得到本申请实施例中的第一级商品信息与第一基准商品信息之间的相似度。
例如,第一级商品信息为表1中的厂商-奥迪汽车;第一基准商品信息为表2中的奥迪(进口)。经过分词后,可以获取到词汇包括:奥迪、汽车以及进口3个词汇。
在第一级商品信息中,奥迪出现次数:1次,汽车出现次数1次,进口次数0次。在基准商品信息中,奥迪出现次数1次,汽车出现次数0次,进口出现次数1次。
那么,可以获取词向量包括:(x1,x2,x3)为:(1,1,0),以及(y1,y2,y3)为:(1,0,1)。将这两个词向量带入到公式2中,既可获取到第一级商品信息和第一基准商品信息之间的相似度了。
步骤140,当确定相似度大于或者等于第一预设阈值时,建立第一级商品信息与第一基准商品信息之间的映射关系。
具体的,当相似度大于或者等于第一预设阈值时,则说明第一级商品信息和第一基准商品信息属于同一信息,但是表述形式不同。需要建立二者之间的映射关系,以便当系统获取到用户输入的表述形式时,可以根据映射关系确定用户需要查看的商品,进而对其进行展示。
需要说明的是,不同级商品信息对应的基准商品信息不同。例如,表1中第一列生产厂家这级商品信息是奥迪汽车,对应的系统中的基准商品信息(表2)是奥迪(进口)。表1中第一列第二级商品信息品牌对应的实际信息是奥迪。而表2中相应位置展示的基准商品信息是奥迪。
不同级商品信息,相似度对应的阈值同样是不同的。这里的第一预设阈值,仅仅是与第一级商品信息对应的预设阈值。举个例子,生产厂家这级商品信息对应的相似度阈值可能是0.6,而品牌这级商品信息对应的相似度阈值可能是0.8。即,在比较相似度与第一预设阈值之间的大小之前,还需要确定第一预设阈值。具体的每一级商品信息对应的相似度阈值(即预设阈值)具体是多少可以根据经验设定,也可以通过如下方式确定:
根据相似度,从多个候选阈值中选取第一预设阈值。
在具体执行过程中,考虑到商品数据信息可能包括至少两条,甚至是很多条。那么,根据相似度,从多个候选阈值中选取第一预设阈值,具体包括:
遍历每一个候选阈值,分别将每一个候选阈值与相似度进行比较;
当多个候选阈值中第一候选阈值,使得至少两条商品数据中预设数量的商品数据信息满足预设要求时,确定第一候选阈值为第一预设阈值,其中预设条件为:至少两条商品数据信息中预设比例的商品数据信息满足,第一级商品信息与第一基准商品信息之间的相似度均大于或等于第一候选阈值。
在一个具体的例子中,假设每一级商品信息所对应的相似度候选阈值都可以包括0.1,0.2,0.3,……,1等共10个后选值。
以生产厂家这一级商品信息为例,假设有50条商品数据信息。每一条商品数据信息中都包括生产厂家。其中,50条数据中有10%以上的数据符合:商品数据信息中生产厂家和系统中生产厂家之间的相似度大于或等于0.9,有20%以上的数据符合:商品数据信息中生产厂家和系统中生产厂家之间的相似度大于或等于0.8。有30%以上的数据符合,商品数据信息中生产厂家和系统中生产厂家之间的相似度大于或等于0.7。有80%以上的数据符合商品数据信息中生产厂家和系统中生产厂家之间的相似度大于0.5。
为了满足实际需求,需要80%以上的数据符合商品数据信息中生产厂家和系统中生产厂家之间的相似度大于或者等于第一预设阈值,那么可以将第一预设阈值设定为0.5。
可选的,在另一个具体的例子中,假设有80%以上的数据符合商品数据信息中生产厂家和系统中生产厂家之间的相似度大于0.5。同样有80%以上的数据符合商品数据信息中生产厂家和系统中生产厂家之间的相似度大于0.6。那么,则可以将0.6设定为第一预设阈值。
即,当多个候选阈值均满足预设条件时,从多个候选阈值中选取最大候选阈值作为第一预设阈值。
可选的,考虑到一次性获取的商品信息条数太多时,容易导致服务器性能不稳定。因此,还可以限定单次获取商品数据信息的条数。例如,每次仅获取50条。
进一步可选的,由于商品信息供应方不同,其提供的商品数据信息统计格式也不同。为了尽量保证数据一致性,该方法还可以包括:在获取供应方提供商品数据信息后,对所有商品数据信息首先进行预处理,也即是进行格式统一。
具体参见图2所示,图2示出了商品数据信息进行格式统一的模板。其可以按照外部车型ID、厂商名称、品牌名称、车系名称、年款名称、车型名称以及映射商家标识的形式完成数据汇总。
图3示出了批量导入某一商家提供的商品数据信息的具体表现形式。
实际上,建立映射关系时,可以分别根据每一级商品信息建立与基准商品信息之间的映射关系,也可以是直接建立如表1和表2中商品编号之间建立映射关系。
还需要说明的是,建立的映射关系,一定是至少两级商品信息中每一级商品信息均与与之对应的基准信息完成映射操作后,才会存在。否则,任一级商品信息与与之对应的基准信息匹配后,相似度小于与该级商品信息对应的相似度阈值时,则舍弃该条商品数据信息。
并继续处理下一条商品数据信息,重复执行上述所有操作。
图4示出了上述操作过程的简易架构图。在建立映射关系后,还可以包括去重操作。即如果之前某一条相同数据已经和系统中数据进行建立映射关系了,这里重复建立映射关系不会再存储映射关系数据库,而是直接舍弃掉,最终还可以输出映射关系报表,供工作人员进行查看和校验等。
本发明实施例提供的统一商品信息的方法,获取供应方提供的商品数据信息。其中,商品数据信息包括至少两级商品信息,从至少两级商品信息中提取第一级商品信息,并确定其与第一基准商品信息之间的相似度。如果相似度大于第一预设阈值,则说明第一级商品信息实际是和第一基准商品信息相同,但是叫法不同的商品信息。为了将不同供应方提供的商品信息能够进行统一,则统一建立和第一基准商品信息之间的映射关系。实际上,对于至少两级商品信息中任一级商品信息,均执行类似上述操作,区别在于,不同级别商品信息对应的基准商品信息不同,相似度阈值可能不同。所有级别执行完成映射操作后,也就完成了商品数据信息的统一。即,将不同供应方提供的商品数据信息按照统一规格完成归类和统一。保证用户按照任一供应方提供的商品信息在系统中进行搜索时,系统都可以进行精准展示,而且还可以全面展示所有供应方提供的该类商品。
图5为本发明实施例提供的一种统一商品信息的装置,该装置包括:获取单元501、提取单元502、匹配单元503以及处理单元504。
获取单元501,用于获取供应方提供的商品数据信息,商品数据信息中包括至少两级商品信息;
提取单元502,用于从至少两级商品信息中提取第一级商品信息;
匹配单元503,用于匹配第一级商品信息与第一基准商品信息之间的相似度;
处理单元504,用于当确定相似度大于或者等于第一预设阈值时,建立第一级商品信息与第一基准商品信息之间的映射关系,其中,第一级商品信息为至少两级商品信息中任一级商品信息,第一基准商品信息为预设定的与第一级商品信息对应的基准商品信息;
直至当至少两级商品信息中每一级商品信息均与与之对应的基准商品信息完成映射操作后,确定完成商品数据信息的统一。
可选的,处理单元504还用于,当确定第一级商品信息与第一基准商品信息之间的相似度小于第一预设阈值时,舍弃商品数据信息。
可选的,提取单元502具体用于,对商品数据信息进行分词操作,获取分词结果;
从分词结果中获取第一级商品信息。
可选的,匹配单元503具体用于,统计第一级商品信息在分词结果中的出现频率;
根据出现频率,生成与第一级商品信息对应的词频向量;
根据第一级商品信息对应的词频向量,以及预获取的与第一基准商品信息对应的词频向量,确定相似度。
可选的,处理单元504还用于,根据相似度,从多个候选阈值中选取第一预设阈值。
可选的,商品数据信息包括至少两条,处理单元504具体用于,遍历每一个候选阈值,分别将每一个候选阈值与相似度进行比较;
当多个候选阈值中第一候选阈值,使得至少两条商品数据中预设数量的商品数据信息满足预设要求时,确定第一候选阈值为第一预设阈值,其中预设条件为:至少两条商品数据信息中预设比例的商品数据信息满足,第一级商品信息与第一基准商品信息之间的相似度均大于或等于第一候选阈值。
可选的,处理单元504还用于,当多个候选阈值均满足预设条件时,从多个候选阈值中选取最大候选阈值作为第一预设阈值。
本实施例提供的统一商品信息的装置中各功能部件所执行的功能均已在图1对应的实施例中做了详细介绍,因此这里不再赘述。
本发明实施例提供的一种统一商品信息的装置,获取供应方提供的商品数据信息。其中,商品数据信息包括至少两级商品信息,从至少两级商品信息中提取第一级商品信息,并确定其与第一基准商品信息之间的相似度。如果相似度大于第一预设阈值,则说明第一级商品信息实际是和第一基准商品信息相同,但是叫法不同的商品信息。为了将不同供应方提供的商品信息能够进行统一,则统一建立和第一基准商品信息之间的映射关系。实际上,对于至少两级商品信息中任一级商品信息,均执行类似上述操作,区别在于,不同级别商品信息对应的基准商品信息不同,相似度阈值可能不同。所有级别执行完成映射操作后,也就完成了商品数据信息的统一。即,将不同供应方提供的商品数据信息按照统一规格完成归类和统一。保证用户按照任一供应方提供的商品信息在系统中进行搜索时,系统都可以进行精准展示,而且还可以全面展示所有供应方提供的该类商品。
图6为本发明实施例提供的一种统一商品信息的系统的结构示意图,图6所示的统一商品信息的系统600包括:至少一个处理器601、存储器602、至少一个网络接口603和其他用户接口604。统一商品信息的统一商品信息的系统600中的各个组件通过总线系统605耦合在一起。可理解,总线系统605用于实现这些组件之间的连接通信。总线系统605除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图6中将各种总线都标为总线系统605。
其中,用户接口604可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
可以理解,本发明实施例中的存储器602可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本文描述的存储器602旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器602存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统6021和应用程序6022。
其中,操作系统6021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序6022,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序6022中。
在本发明实施例中,通过调用存储器602存储的程序或指令,具体的,可以是应用程序6022中存储的程序或指令,处理器601用于执行各方法实施例所提供的方法步骤,例如包括:
获取供应方提供的商品数据信息,商品数据信息中包括至少两级商品信息;
从至少两级商品信息中提取第一级商品信息;
匹配第一级商品信息与第一基准商品信息之间的相似度;
当确定相似度大于或者等于第一预设阈值时,建立第一级商品信息与第一基准商品信息之间的映射关系,其中,第一级商品信息为至少两级商品信息中任一级商品信息,第一基准商品信息为预设定的与第一级商品信息对应的基准商品信息;
直至当至少两级商品信息中每一级商品信息均与与之对应的基准商品信息完成映射操作后,确定完成商品数据信息的统一。
可选的,当确定第一级商品信息与第一基准商品信息之间的相似度小于第一预设阈值时,舍弃商品数据信息。
可选的,对商品数据信息进行分词操作,获取分词结果;
从分词结果中获取第一级商品信息。
可选的,统计第一级商品信息在分词结果中的出现频率;
根据出现频率,生成与第一级商品信息对应的词频向量;
根据第一级商品信息对应的词频向量,以及预获取的与第一基准商品信息对应的词频向量,确定相似度。
可选的,根据相似度,从多个候选阈值中选取第一预设阈值。
可选的,遍历每一个候选阈值,分别将每一个候选阈值与相似度进行比较;
当多个候选阈值中第一候选阈值,使得至少两条商品数据中预设数量的商品数据信息满足预设要求时,确定第一候选阈值为第一预设阈值,其中预设条件为:至少两条商品数据信息中预设比例的商品数据信息满足,第一级商品信息与第一基准商品信息之间的相似度均大于或等于第一候选阈值。
可选的,当多个候选阈值均满足预设条件时,从多个候选阈值中选取最大候选阈值作为第一预设阈值。
上述本发明实施例揭示的方法可以应用于处理器601中,或者由处理器601实现。处理器601可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器601可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器602,处理器601读取存储器602中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSPDevice,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文功能的单元来实现本文的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本实施例提供的统一商品信息的系统可以是如图6中所示的统一商品信息的系统,可执行如图1中统一商品信息的方法的所有步骤,进而实现图1所示统一商品信息的方法的技术效果,具体请参照图1相关描述,为简洁描述,在此不作赘述。
本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在统一商品信息的系统侧执行的统一商品信息的方法。
处理器用于执行存储器中存储的统一商品信息的程序,以实现以下在统一商品信息的系统侧执行的统一商品信息的方法的步骤:
获取供应方提供的商品数据信息,商品数据信息中包括至少两级商品信息;
从至少两级商品信息中提取第一级商品信息;
匹配第一级商品信息与第一基准商品信息之间的相似度;
当确定相似度大于或者等于第一预设阈值时,建立第一级商品信息与第一基准商品信息之间的映射关系,其中,第一级商品信息为至少两级商品信息中任一级商品信息,第一基准商品信息为预设定的与第一级商品信息对应的基准商品信息;
直至当至少两级商品信息中每一级商品信息均与与之对应的基准商品信息完成映射操作后,确定完成商品数据信息的统一。
可选的,当确定第一级商品信息与第一基准商品信息之间的相似度小于第一预设阈值时,舍弃商品数据信息。
可选的,对商品数据信息进行分词操作,获取分词结果;
从分词结果中获取第一级商品信息。
可选的,统计第一级商品信息在分词结果中的出现频率;
根据出现频率,生成与第一级商品信息对应的词频向量;
根据第一级商品信息对应的词频向量,以及预获取的与第一基准商品信息对应的词频向量,确定相似度。
可选的,根据相似度,从多个候选阈值中选取第一预设阈值。
可选的,遍历每一个候选阈值,分别将每一个候选阈值与相似度进行比较;
当多个候选阈值中第一候选阈值,使得至少两条商品数据中预设数量的商品数据信息满足预设要求时,确定第一候选阈值为第一预设阈值,其中预设条件为:至少两条商品数据信息中预设比例的商品数据信息满足,第一级商品信息与第一基准商品信息之间的相似度均大于或等于第一候选阈值。
可选的,当多个候选阈值均满足预设条件时,从多个候选阈值中选取最大候选阈值作为第一预设阈值。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种统一商品信息的方法,其特征在于,所述方法包括:
获取供应方提供的商品数据信息,所述商品数据信息中包括至少两级商品信息;
从所述至少两级商品信息中提取第一级商品信息;
匹配所述第一级商品信息与第一基准商品信息之间的相似度;
当确定所述相似度大于或者等于第一预设阈值时,建立所述第一级商品信息与所述第一基准商品信息之间的映射关系,其中,第一级商品信息为所述至少两级商品信息中任一级商品信息,所述第一基准商品信息为预设定的与第一级商品信息对应的基准商品信息;
直至当所述至少两级商品信息中每一级商品信息均与与之对应的基准商品信息完成映射操作后,确定完成所述商品数据信息的统一。
2.根据权利要求1所述的方法,其特征在于,当确定所述第一级商品信息与第一基准商品信息之间的相似度小于第一预设阈值时,舍弃所述商品数据信息。
3.根据权利要求1所述的方法,其特征在于,所述从所述至少两级商品信息中提取第一级商品信息,具体包括:
对所述商品数据信息进行分词操作,获取分词结果;
从所述分词结果中获取第一级商品信息。
4.根据权利要求3所述的方法,其特征在于,所述匹配所述第一级商品信息与第一基准商品信息之间的相似度,具体包括:
统计所述第一级商品信息在所述分词结果中的出现频率;
根据所述出现频率,生成与所述第一级商品信息对应的词频向量;
根据所述第一级商品信息对应的词频向量,以及预获取的与所述第一基准商品信息对应的词频向量,确定所述相似度。
5.根据权利要求1-4任一项所述的方法,其特征在于,比较所述相似度与所述第一预设阈值之间的大小之前,所述方法还包括:
根据所述相似度,从多个候选阈值中选取所述第一预设阈值。
6.根据权利要求5所述的方法,其特征在于,所述商品数据信息包括至少两条,所述根据所述相似度,从多个候选阈值中选取所述第一预设阈值,具体包括:
遍历每一个候选阈值,分别将每一个候选阈值与所述相似度进行比较;
当所述多个候选阈值中第一候选阈值,使得至少两条商品数据中预设数量的商品数据信息满足预设要求时,确定所述第一候选阈值为第一预设阈值,其中所述预设条件为:所述至少两条商品数据信息中预设比例的商品数据信息满足,所述第一级商品信息与第一基准商品信息之间的相似度均大于或等于所述第一候选阈值。
7.根据权利要求6所述的方法,其特征在于,当多个候选阈值均满足所述预设条件时,该方法还包括:
从所述多个候选阈值中选取最大候选阈值作为所述第一预设阈值。
8.一种统一商品信息的装置,其特征在于,所述装置包括:
获取单元,用于获取供应方提供的商品数据信息,所述商品数据信息中包括至少两级商品信息;
提取单元,用于从所述至少两级商品信息中提取第一级商品信息;
匹配单元,用于匹配所述第一级商品信息与第一基准商品信息之间的相似度;
处理单元,用于当确定所述相似度大于或者等于第一预设阈值时,建立所述第一级商品信息与所述第一基准商品信息之间的映射关系,其中,第一级商品信息为所述至少两级商品信息中任一级商品信息,所述第一基准商品信息为预设定的与第一级商品信息对应的基准商品信息;
直至当所述至少两级商品信息中每一级商品信息均与与之对应的基准商品信息完成映射操作后,确定完成所述商品数据信息的统一。
9.一种统一商品信息的系统,其特征在于,所述系统包括:至少一个处理器和存储器;
所述处理器用于执行所述存储器中存储的统一商品信息的程序,以实现权利要求1~7中任一项所述的统一商品信息的方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一个或者多个程序,所述一个或者多个程序可被如权利要求9所述的统一商品信息的系统执行,以实现权利要求1~7中任一项所述的统一商品信息的方法。
CN202011054227.6A 2020-09-29 2020-09-29 统一商品信息的方法、装置、系统及存储介质 Pending CN112181968A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011054227.6A CN112181968A (zh) 2020-09-29 2020-09-29 统一商品信息的方法、装置、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011054227.6A CN112181968A (zh) 2020-09-29 2020-09-29 统一商品信息的方法、装置、系统及存储介质

Publications (1)

Publication Number Publication Date
CN112181968A true CN112181968A (zh) 2021-01-05

Family

ID=73947115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011054227.6A Pending CN112181968A (zh) 2020-09-29 2020-09-29 统一商品信息的方法、装置、系统及存储介质

Country Status (1)

Country Link
CN (1) CN112181968A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115545809A (zh) * 2022-12-02 2022-12-30 广州数说故事信息科技有限公司 电商商品的标品库构建方法、数据对齐方法、装置和设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193936A (zh) * 2010-03-09 2011-09-21 阿里巴巴集团控股有限公司 一种数据分类的方法及装置
US20130182899A1 (en) * 2012-01-16 2013-07-18 Toshiba Tec Kabushiki Kaisha Information processing apparatus, store system and method
CN105740380A (zh) * 2016-01-27 2016-07-06 北京邮电大学 数据融合方法及系统
CN107464162A (zh) * 2017-07-28 2017-12-12 腾讯科技(深圳)有限公司 商品关联方法、装置及计算机可读存储介质
CN107563360A (zh) * 2017-09-30 2018-01-09 百度在线网络技术(北京)有限公司 信息获取方法和装置
CN107844882A (zh) * 2017-08-24 2018-03-27 北京小度信息科技有限公司 配送任务处理方法、装置及电子设备
CN110874755A (zh) * 2018-08-31 2020-03-10 阿里巴巴集团控股有限公司 店铺数据的处理方法、装置及电子设备
CN111353055A (zh) * 2020-03-02 2020-06-30 中国传媒大学 基于智能标签扩展元数据的编目方法及系统
CN111598648A (zh) * 2020-04-16 2020-08-28 上海源慧信息科技股份有限公司 一种基于快消行业商品的全链路线上营销方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193936A (zh) * 2010-03-09 2011-09-21 阿里巴巴集团控股有限公司 一种数据分类的方法及装置
US20130182899A1 (en) * 2012-01-16 2013-07-18 Toshiba Tec Kabushiki Kaisha Information processing apparatus, store system and method
CN105740380A (zh) * 2016-01-27 2016-07-06 北京邮电大学 数据融合方法及系统
CN107464162A (zh) * 2017-07-28 2017-12-12 腾讯科技(深圳)有限公司 商品关联方法、装置及计算机可读存储介质
CN107844882A (zh) * 2017-08-24 2018-03-27 北京小度信息科技有限公司 配送任务处理方法、装置及电子设备
CN107563360A (zh) * 2017-09-30 2018-01-09 百度在线网络技术(北京)有限公司 信息获取方法和装置
CN110874755A (zh) * 2018-08-31 2020-03-10 阿里巴巴集团控股有限公司 店铺数据的处理方法、装置及电子设备
CN111353055A (zh) * 2020-03-02 2020-06-30 中国传媒大学 基于智能标签扩展元数据的编目方法及系统
CN111598648A (zh) * 2020-04-16 2020-08-28 上海源慧信息科技股份有限公司 一种基于快消行业商品的全链路线上营销方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115545809A (zh) * 2022-12-02 2022-12-30 广州数说故事信息科技有限公司 电商商品的标品库构建方法、数据对齐方法、装置和设备
CN115545809B (zh) * 2022-12-02 2023-05-12 广州数说故事信息科技有限公司 电商商品的标品库构建方法、数据对齐方法、装置和设备

Similar Documents

Publication Publication Date Title
US11238225B2 (en) Reading difficulty level based resource recommendation
US9477703B1 (en) Item version similarity scoring system
US10528649B2 (en) Recognizing unseen fonts based on visual similarity
CA2781326C (en) System, method and computer program product for parcel assessment
US20170255603A1 (en) Dynamic facet tree generation
US20130226945A1 (en) Natural language processing system, method and computer program product useful for automotive data mapping
US20160140389A1 (en) Information extraction supporting apparatus and method
CN110264315B (zh) 介绍信息生成方法和装置
US10699112B1 (en) Identification of key segments in document images
CN111324698B (zh) 深度学习方法、评价观点提取方法、装置和系统
CN111783867A (zh) 机器学习算法选择方法及装置
JPWO2009110550A1 (ja) 属性抽出方法、システム及びプログラム
CN111680165A (zh) 信息匹配方法、装置、可读存储介质和电子设备
CN110928992A (zh) 文本搜索方法、装置、服务器及存储介质
CN112199451A (zh) 商品识别方法、装置、计算机设备及存储介质
CN110874534A (zh) 数据处理方法和数据处理装置
CN112181968A (zh) 统一商品信息的方法、装置、系统及存储介质
US20080244501A1 (en) Method for reading information from a hierarchical design
CN113343700B (zh) 数据处理方法、装置、设备及存储介质
CN112052647A (zh) 一种文档编辑方法、装置、电子设备和可读存储介质
CN116204692A (zh) 网页数据提取方法、装置、电子设备及存储介质
CN112241453B (zh) 情感属性确定方法、装置及电子设备
US20210318949A1 (en) Method for checking file data, computer device and readable storage medium
US20080005159A1 (en) Method and computer program product for collection-based iterative refinement of semantic associations according to granularity
CN113919352A (zh) 数据库敏感数据识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant before: Jingdong Digital Technology Holding Co., Ltd