CN109754295A - 用于输出信息的方法和装置 - Google Patents

用于输出信息的方法和装置 Download PDF

Info

Publication number
CN109754295A
CN109754295A CN201711077137.7A CN201711077137A CN109754295A CN 109754295 A CN109754295 A CN 109754295A CN 201711077137 A CN201711077137 A CN 201711077137A CN 109754295 A CN109754295 A CN 109754295A
Authority
CN
China
Prior art keywords
attribute information
candidate
article
similarity
aggregate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711077137.7A
Other languages
English (en)
Inventor
李中林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201711077137.7A priority Critical patent/CN109754295A/zh
Publication of CN109754295A publication Critical patent/CN109754295A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了用于输出信息的方法和装置。该方法的一具体实施方式包括:接收待筛选的物品的属性信息,其中,属性信息包括类别;确定与类别匹配的至少一个候选物品;获取至少一个候选物品中每个候选物品的属性信息,并组成候选属性信息集合;确定候选属性信息集合中每个候选属性信息与物品的属性信息之间的相似度,得到相似度集合;若相似度集合中的每个相似度小于预定相似度阈值,则将物品的属性信息添加到候选属性信息集合中,并输出添加后的候选属性信息集合。该实施方式提高了物品筛选的效率。

Description

用于输出信息的方法和装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及用于输出信息的方法和装置。
背景技术
随着互联网技术的高速发展,通过网络展示的物品的品类、数量变得非常庞大,物品SKU(Stock Keeping Unit,库存量单位)数量已经达到千万级。如此庞大的SKU量级的物品运营,仅凭借组建大量的人工运营团队也很难做到很好的运营选品。并且人工运营成本将随着物品SKU数量的增加变得越来越高。
面对大量的物品,其同质化非常严重,同一品牌的某款物品,在颜色、尺寸、款式套装等方面都有很多选择,称这些物品同属一款物品SPU(Standard Product Unit,标准产品单位),对服饰鞋业方面的物品尤其明显,往往同一款物品SPU中的物品SKU多达上百种,甚至上千种,然而对终端用户而言,这些物品无论是在价格上、还是物品的其他属性上都是同一款物品,如果将这些物品都展示给用户,将无法保障用户的购物体验。因此物品的去重过滤将是一个重要的过程。
发明内容
本申请实施例的目的在于提出一种用于输出信息的方法和装置。
第一方面,本申请实施例提供了一种用于输出信息的方法,该方法包括:接收待筛选的物品的属性信息,其中,属性信息包括类别;确定与类别匹配的至少一个候选物品;获取至少一个候选物品中每个候选物品的属性信息,并组成候选属性信息集合;确定候选属性信息集合中每个候选属性信息与物品的属性信息之间的相似度,得到相似度集合;若相似度集合中的每个相似度小于预定相似度阈值,则将物品的属性信息添加到候选属性信息集合中,并输出添加后的候选属性信息集合。
在一些实施例中,确定候选属性信息集合中每个候选属性信息与物品的属性信息之间的相似度,包括:基于最小编辑距离确定候选属性信息集合中每个候选属性信息与物品的属性信息之间的相似度。
在一些实施例中,确定候选属性信息集合中每个候选属性信息与物品的属性信息之间的相似度,包括:将物品的属性信息和候选属性信息集合中每个候选属性信息分别转换成标量;基于欧式距离确定转换成标量后的物品的属性信息与转换成标量后的候选属性信息集合中每个候选属性信息之间的相似度。
在一些实施例中,确定候选属性信息集合中每个候选属性信息与物品的属性信息之间的相似度,包括:将物品的属性信息和候选属性信息集合中每个候选属性信息分别进行编码;将编码后的物品的属性信息的长度和编码后的候选属性信息集合中每个候选属性信息的长度进行对齐;基于汉明距离确定对齐后的物品的属性信息与对齐后的候选属性信息集合中每个候选属性信息之间的相似度。
在一些实施例中,将物品的属性信息添加到候选属性信息集合中,包括:确定候选属性信息集合对应的候选物品的数量是否超过预定数量阈值;若未超过,则将物品的属性信息添加到候选属性信息集合中;若超过,则确定相似度集合中最高的相似度对应的候选属性信息,并用物品的属性信息替换确定出的候选属性信息。
在一些实施例中,属性信息包括有效时间和/或价格;以及接收待筛选的物品的属性信息,包括:根据有效时间检测属性信息是否过期,若过期,则过滤掉属性信息;和/或根据价格检测属性信息的价格变化量是否超过预定变化量阈值,若超过,则过滤掉属性信息。
在一些实施例中,属性信息包括有效时间和/或价格;以及该方法还包括:根据有效时间检测出候选属性信息集合中过期的候选属性信息,从候选属性信息集合中删除过期的候选属性信息;和/或根据价格检测出候选属性信息集合中价格变化量超过预定变化量阈值的候选属性信息,并从候选属性信息集合中删除价格变化量超过预定变化量阈值的候选属性信息。
第二方面,本申请实施例提供了一种用于输出信息的装置,该装置包括:接收单元,用于接收待筛选的物品的属性信息,其中,属性信息包括类别;类别确定单元,用于确定与类别匹配的至少一个候选物品;获取单元,用于获取至少一个候选物品中每个候选物品的属性信息,并组成候选属性信息集合;相似度确定单元,用于确定候选属性信息集合中每个候选属性信息与物品的属性信息之间的相似度,得到相似度集合;输出单元,用于若相似度集合中的每个相似度小于预定相似度阈值,则将物品的属性信息添加到候选属性信息集合中,并输出添加后的候选属性信息集合。
在一些实施例中,相似度确定单元进一步用于:基于最小编辑距离确定候选属性信息集合中每个候选属性信息与物品的属性信息之间的相似度。
在一些实施例中,相似度确定单元进一步用于:将物品的属性信息和候选属性信息集合中每个候选属性信息分别转换成标量;基于欧式距离确定转换成标量后的物品的属性信息与转换成标量后的候选属性信息集合中每个候选属性信息之间的相似度。
在一些实施例中,相似度确定单元进一步用于:将物品的属性信息和候选属性信息集合中每个候选属性信息分别进行编码;将编码后的物品的属性信息的长度和编码后的候选属性信息集合中每个候选属性信息的长度进行对齐;基于汉明距离确定对齐后的物品的属性信息与对齐后的候选属性信息集合中每个候选属性信息之间的相似度。
在一些实施例中,输出单元进一步用于:确定候选属性信息集合对应的候选物品的数量是否超过预定数量阈值;若未超过,则将物品的属性信息添加到候选属性信息集合中;若超过,则确定相似度集合中最高的相似度对应的候选属性信息,并用物品的属性信息替换确定出的候选属性信息。
在一些实施例中,属性信息包括有效时间和/或价格;以及接收单元进一步用于:根据有效时间检测属性信息是否过期,若过期,则过滤掉属性信息;和/或根据价格检测属性信息的价格变化量是否超过预定变化量阈值,若超过,则过滤掉属性信息。
在一些实施例中,属性信息包括有效时间和/或价格;以及该装置还包括删除单元,用于:根据有效时间检测出候选属性信息集合中过期的候选属性信息,从候选属性信息集合中删除过期的候选属性信息;和/或根据价格检测出候选属性信息集合中价格变化量超过预定变化量阈值的候选属性信息,并从候选属性信息集合中删除价格变化量超过预定变化量阈值的候选属性信息。
第三方面,本申请实施例提供了一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中任一的方法。
本申请实施例提供的用于输出信息的方法和装置,根据待筛选的物品的类别确定出至少一个候选物品的属性信息。再根据待筛选的物品的属性信息和至少一个候选物品的属性信息之间的相似度,确定候选物品中是否存在与待筛选的物品相似的物品,如果不存在,则将该待筛选的物品的属性信息添加到候选属性信息集合并输出。从而有效利用了物品的属性信息,提高了物品筛选的效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的用于输出信息的方法的一个实施例的流程图;
图3是根据本申请的最小编辑距离基本操作的流程图;
图4是根据本申请的用于输出信息的方法的一个应用场景的示意图;
图5是根据本申请的用于输出信息的方法的又一个实施例的流程图;
图6是根据本申请的用于输出信息的装置的一个实施例的结构示意图;
图7是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于输出信息的方法或用于输出信息的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group AudioLayer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的物品信息网页提供支持的后台网页服务器。后台网页服务器可以对接收到的待筛选的物品的属性信息等数据进行分析等处理,并将处理结果(例如过滤后的物品的属性信息)反馈给终端设备。
需要说明的是,本申请实施例所提供的用于输出信息的方法一般由服务器105执行,相应地,用于输出信息的装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的用于输出信息的方法的一个实施例的流程200。该用于输出信息的方法,包括以下步骤:
步骤201,接收待筛选的物品的属性信息。
在本实施例中,用于输出信息的方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从用户利用其进行物品筛选请求的终端接收待筛选的物品的属性信息,其中,待筛选的物品的属性信息包括了类别。其中物品的属性信息来源可以有多种渠道,如运营提报、用户提报和促销通知,促销通知可以是消息队列方式的消息订阅通知。属性信息还可以包括有效时间、价格、规格等信息。用于对待筛选的物品进行初选,将属性信息不符合预定要求的待筛选的物品过滤掉。无需再进行进一步的相似度比较,提高筛选速度。
在本实施例的一些可选的实现方式中,属性信息包括有效时间和/或价格;以及接收待筛选的物品的属性信息,包括:根据有效时间检测属性信息是否过期,若过期,则过滤掉该属性信息;和/或根据价格检测属性信息的价格变化量是否超过预定变化量阈值,若超过,则过滤掉该属性信息。可以采用一种或多种过滤条件筛选物品。如果该物品的属性信息不满足时效性和/或价格,则将该物品的属性信息过滤掉,不加入候选属性信息集合中。例如,只保留有效期为11月11日的物品的属性信息。或者为了只保留价格未发生变化的物品的属性信息,则可将预定变化量阈值设置为0。
步骤202,确定与类别匹配的至少一个候选物品。
在本实施例中,因为需要将待筛选的物品与候选物品进行对比,候选物品的数量如果过大会导致筛选的速度降低。因此,通过类别对物品进行筛选,如果找不到类别匹配的候选物品,则可将该物品的属性信息过滤掉,不加入候选属性信息集合中。
步骤203,获取至少一个候选物品中每个候选物品的属性信息,并组成候选属性信息集合。
在本实施例中,候选属性信息集合中每个候选属性信息与一个候选物品的属性信息相对应。
步骤204,确定候选属性信息集合中每个候选属性信息与物品的属性信息之间的相似度,得到相似度集合。
在本实施例中,为了确定该待筛选的物品是否与候选物品相似,需要将待筛选的物品的属性信息与每个候选物品的属性信息一一作对比。可使用常见的相似度计算方法确定待筛选的物品的属性信息和候选物品的属性信息之间的相似度。例如,欧氏距离算法、曼哈顿距离算法、余弦相似度等。
在本实施例的一些可选的实现方式中,确定候选属性信息集合中每个候选属性信息与物品的属性信息之间的相似度,包括:基于最小编辑距离确定候选属性信息集合中每个候选属性信息与物品的属性信息之间的相似度。LD(Levenshtein distance,莱文斯坦距离)又被称为最小编辑距离,是把一个源字符串(source)通过“插入、删除和替换”这样的编辑操作变成另外一个目标字符串(target)所需要的最少编辑次数,也就是两个字符串之间的编辑距离(edit distance)。
图3为最小编辑距离基本操作的流程图。假设源字符串有m个字符,目标字符串有n个字符,如果将问题定义为求解将源字符串的m个字符转换为目标字符串的n个字符所需要的最少编辑次数(最小编辑距离)。记Xm={x1,x2,…xm}和Yn={y1,…,yn}分别为源字符串和目标字符串。基本算法如下:
步骤1:如果X与Y的第一个字符相同,则计算X[2,...,i,...,m]和Y[2,...,j,...,n]的距离。
步骤2:如果X与Y的第一个字符不相同,那么可以进行如下操作:
1)替换X的第一个字符,然后计算X[2,...,m]和Y[2,...,n]的距离;
2)插入Y的第一个字符到X的第一个字符之前,然后计算X[1,...,m]和Y[2,...,n]的距离;
3)删除X的第一个字符,然后计算X[2,...,m]和Y[1,...,n]的距离;
总结上述过程,我们用LD[i,j]表示源字符串[1..i]到目标字符串[1..j]之间的最小编辑距离,其中,i为源字符串中的字符数量,j为目标字符串中的字符数量。则最优子结构可以描述为:
当i=0时,LD[i,j]=j。
当j=0时,LD[i,j]=i。
当xi=yj时,不需要任何操作,直接比较i-1和j-1,即LD[i,j]=LD[i-1,j-1]。
当xi≠yj时,LD[i,j]=min(LD[i-1,j-1]+1,LD[i-1,j]+1,LD[i,j-1]+1)。
其中:
LD[i-1,j-1]+1表示对源字符串替换成目标字符串操作后计算最小编辑距离。
LD[i,j-1]+1表示对源字符串执行插入操作后计算最小编辑距离。
LD[i-1,j]+1表示对源字符串执行删除操作后计算最小编辑距离。
通过上述最小编辑距离算法可以比较两个字符串的相似度,即匹配度,根据这个算法思想,可以通过提取两个物品的属性信息来判断两个物品的相似度。属性信息可以包括物品名称、颜色、尺寸、价格、套装类型等物品所表现出来的性状信息。在计算相似度之前,还可对属性信息做预算处理。删除属性信息中的特殊字符(例如,引号,破折号等)。假设有物品的属性信息A={attr1,attr2,…attrn},n为属性信息的数量。对各个属性信息进行特殊字符剔除处理,得到处理数据A’={charSequence1,charSequence2,…charSequencen}。由于最小编辑距离算法对字符串的扫描比较是对等的,因此字符排列顺序对最小编辑距离算法结果没有影响,因此这里将各个字符串按照顺序连接。
物品A(用skuA表示)通过属性信息预处理后,分别与候选物品集合中的候选物品(用skuB表示)进行最小编辑距离计算,用LD(skuA,skuB)表示物品A和物品B的最小编辑距离。
由LD(skuA,skuB)定义可知,该值越大则物品A与物品B相似度越低,两个物品越具有差异,可定义物品A与物品B的相似度为sim(skuA,skuB),如下式所示:
其中当skuA与skuB相同时,定义相似度为1,由定义可知sim(skuA,skuB)值越小相似度越低,反之亦然。
在本实施例的一些可选的实现方式中,确定候选属性信息集合中每个候选属性信息与物品的属性信息之间的相似度,包括:将物品的属性信息和候选属性信息集合中每个候选属性信息分别转换成标量;基于欧式距离确定转换成标量后的物品的属性信息与转换成标量后的候选属性信息集合中每个候选属性信息之间的相似度。
两点之间或多点之间的距离表示法,又称之为欧式距离,它定义于欧几里德空间中,如点x=(x1,...,xn)和y=(y1,...,yn)之间的距离d(x,y)如下式所示,其中,n为点的数量。
基于欧式距离的属性信息相似度算法能够实施的前提是各属性信息的标量化处理。因此在基于欧式距离进行相似度计算前要对属性信息进行预处理以将属性信息转换成标量。
在本实施例的一些可选的实现方式中,确定候选属性信息集合中每个候选属性信息与物品的属性信息之间的相似度,包括:将物品的属性信息和候选属性信息集合中每个候选属性信息分别进行编码;将编码后的物品的属性信息的长度和编码后的候选属性信息集合中每个候选属性信息的长度进行对齐;基于汉明距离确定对齐后的物品的属性信息与对齐后的候选属性信息集合中每个候选属性信息之间的相似度。
将两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数,即对两个字符串进行异或运算,并结果为1的数量即为汉明距离。例如字符串“1111”与“1001”之间的汉明距离为2。
基于汉明距离的属性信息相似度算法能够实施的前提是各属性信息组合后的字符进行编码,并将编码的长度进行对齐。因此在计算相似度之前要对属性信息进行预处理,得到长度相等的属性信息。
步骤205,若相似度集合中的每个相似度小于预定相似度阈值,则将物品的属性信息添加到候选属性信息集合中,并输出添加后的候选属性信息集合。
在本实施例中,若相似度集合中的每个相似度小于预定相似度阈值,则说明待筛选的物品与候选物品存在差异,可将其确定为候选物品进行展示。之后再接收到的待筛选的物品的属性信息,将与更新后的候选属性信息集合作比较。因此,可以过滤掉与候选物品差异小的待筛选的物品的属性信息。
在本实施例的一些可选的实现方式中,属性信息包括有效时间和/或价格;以及该方法还包括:根据有效时间检测出候选属性信息集合中过期的候选属性信息,从候选属性信息集合中删除过期的候选属性信息;和/或根据价格检测出候选属性信息集合中价格变化量超过预定变化量阈值的候选属性信息,并从候选属性信息集合中删除价格变化量超过预定变化量阈值的候选属性信息。从而实现对候选属性信息集合的监控,对不再符合预定条件的属性信息删除。
继续参见图4,图4是根据本实施例的用于输出信息的方法的应用场景的一个示意图。在图4的应用场景中,用户通过终端采集待筛选的物品的属性信息401并向服务器发送。服务器收到待筛选的物品的属性信息后进行预处理402,将不符合类别、时效等要求的待筛选的物品的属性信息过滤掉。再将预处理后的属性信息基于相似度去重过滤算法处理403。然后将未被滤除的物品的属性信息存入物品池中404。并监控物品池中的属性信息是否符合预定条件,对不再符合预定条件的属性信息删除405。最终将候选属性信息集合通过终端或服务器输出并进行展示406。
本申请的上述实施例提供的方法通过将待筛选的物品的属性信息与候选物品的属性信息作对比,确定出与候选物品存在差异的物品。提高了物品筛选的效率。
进一步参考图5,其示出了用于输出信息的方法的又一个实施例的流程500。该用于输出信息的方法的流程500,包括以下步骤:
步骤501,接收待筛选的物品的属性信息。
步骤502,确定与类别匹配的至少一个候选物品。
步骤503,获取至少一个候选物品中每个候选物品的属性信息,并组成候选属性信息集合。
步骤504,确定候选属性信息集合中每个候选属性信息与物品的属性信息之间的相似度,得到相似度集合。
步骤501-504与步骤201-204基本相同,因此不再赘述。
步骤505,若相似度集合中的每个相似度小于预定相似度阈值,确定候选属性信息集合对应的候选物品的数量。
在本实施例中,如果相似度集合中的每个相似度小于预定相似度阈值,说明该待筛选的物品的属性信息需要保存。这时需要查看候选物品池的容量,
步骤506,判断数量是否超过预定数量阈值。
在本实施例中,如果候选物品的数量还未达到容量上限,则可直接保存该待筛选的物品的属性信息,执行步骤507。否则,执行步骤508。
步骤507,将物品的属性信息添加到所述候选属性信息集合中。
在本实施例中,因为候选物品的数量还未达到容量上限,所述直接将物品的属性信息添加到所述候选属性信息集合中。
步骤508,确定相似度集合中最高的相似度对应的候选属性信息,并用物品的属性信息替换确定出的候选属性信息。
在本实施例中,当候选物品的数量达到容量上限时,通过选择处理,将相似度高的物品从候选物品中淘汰。
步骤509,输出添加后的候选属性信息集合。
在本实施例中,将步骤507或步骤508的执行结果输出。
从图5中可以看出,与图2对应的实施例相比,本实施例中的用于输出信息的方法的流程500突出了对候选物品进行进一步筛选的步骤。由此,本实施例描述的方案可以保证了整个候选物品池中物品具有较大的差异性,进而保证了候选物品池中候选物品的丰富度。
进一步参考图6,作为对上述各图所示方法的实现,本申请提供了一种用于输出信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图6所示,本实施例的用于输出信息的装置600包括:接收单元601、类别确定单元602、获取单元603、相似度确定单元604和输出单元605。其中,接收单元601用于接收待筛选的物品的属性信息,其中,属性信息包括类别;类别确定单元602用于确定与类别匹配的至少一个候选物品;获取单元603用于获取至少一个候选物品中每个候选物品的属性信息,并组成候选属性信息集合;相似度确定单元604用于确定候选属性信息集合中每个候选属性信息与物品的属性信息之间的相似度,得到相似度集合;输出单元605用于若相似度集合中的每个相似度小于预定相似度阈值,则将物品的属性信息添加到候选属性信息集合中,并输出添加后的候选属性信息集合。
在本实施例中,用于输出信息的装置600的接收单元601、类别确定单元602、获取单元603、相似度确定单元604和输出单元605的具体处理可以参考图2对应实施例中的步骤201、步骤202、步骤203、步骤204和步骤205。
在本实施例的一些可选的实现方式中,相似度确定单元604进一步用于:基于最小编辑距离确定候选属性信息集合中每个候选属性信息与物品的属性信息之间的相似度。
在本实施例的一些可选的实现方式中,相似度确定单元604进一步用于:将物品的属性信息和候选属性信息集合中每个候选属性信息分别转换成标量;基于欧式距离确定转换成标量后的物品的属性信息与转换成标量后的候选属性信息集合中每个候选属性信息之间的相似度。
在本实施例的一些可选的实现方式中,相似度确定单元604进一步用于:将物品的属性信息和候选属性信息集合中每个候选属性信息分别进行编码;将编码后的物品的属性信息的长度和编码后的候选属性信息集合中每个候选属性信息的长度进行对齐;基于汉明距离确定对齐后的物品的属性信息与对齐后的候选属性信息集合中每个候选属性信息之间的相似度。
在本实施例的一些可选的实现方式中,输出单元605进一步用于:确定候选属性信息集合对应的候选物品的数量是否超过预定数量阈值;若未超过,则将物品的属性信息添加到候选属性信息集合中;若超过,则确定相似度集合中最高的相似度对应的候选属性信息,并用物品的属性信息替换确定出的候选属性信息。
在本实施例的一些可选的实现方式中,属性信息包括有效时间和/或价格;以及接收单元601进一步用于:根据有效时间检测属性信息是否过期,若过期,则过滤掉属性信息;和/或根据价格检测属性信息的价格变化量是否超过预定变化量阈值,若超过,则过滤掉属性信息。
在本实施例的一些可选的实现方式中,属性信息包括有效时间和/或价格;以及装置600还包括删除单元(未示出),用于:根据有效时间检测出候选属性信息集合中过期的候选属性信息,从候选属性信息集合中删除过期的候选属性信息;和/或根据价格检测出候选属性信息集合中价格变化量超过预定变化量阈值的候选属性信息,并从候选属性信息集合中删除价格变化量超过预定变化量阈值的候选属性信息。
下面参考图7,其示出了适于用来实现本申请实施例的服务器的计算机系统700的结构示意图。图7示出的服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分707;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括接收单元、类别确定单元、获取单元、相似度确定单元和输出单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,接收单元还可以被描述为“接收待筛选的物品的属性信息的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:接收待筛选的物品的属性信息,其中,属性信息包括类别;确定与类别匹配的至少一个候选物品;获取至少一个候选物品中每个候选物品的属性信息,并组成候选属性信息集合;确定候选属性信息集合中每个候选属性信息与物品的属性信息之间的相似度,得到相似度集合;若相似度集合中的每个相似度小于预定相似度阈值,则将物品的属性信息添加到候选属性信息集合中,并输出添加后的候选属性信息集合。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (16)

1.一种用于输出信息的方法,所述方法包括:
接收待筛选的物品的属性信息,其中,所述属性信息包括类别;
确定与所述类别匹配的至少一个候选物品;
获取所述至少一个候选物品中每个候选物品的属性信息,并组成候选属性信息集合;
确定所述候选属性信息集合中每个候选属性信息与所述物品的属性信息之间的相似度,得到相似度集合;
若所述相似度集合中的每个相似度小于预定相似度阈值,则将所述物品的属性信息添加到所述候选属性信息集合中,并输出添加后的候选属性信息集合。
2.根据权利要求1所述的方法,其中,所述确定所述候选属性信息集合中每个候选属性信息与所述物品的属性信息之间的相似度,包括:
基于最小编辑距离确定所述候选属性信息集合中每个候选属性信息与所述物品的属性信息之间的相似度。
3.根据权利要求1所述的方法,其中,所述确定所述候选属性信息集合中每个候选属性信息与所述物品的属性信息之间的相似度,包括:
将所述物品的属性信息和所述候选属性信息集合中每个候选属性信息分别转换成标量;
基于欧式距离确定转换成标量后的所述物品的属性信息与转换成标量后的所述候选属性信息集合中每个候选属性信息之间的相似度。
4.根据权利要求1所述的方法,其中,所述确定所述候选属性信息集合中每个候选属性信息与所述物品的属性信息之间的相似度,包括:
将所述物品的属性信息和所述候选属性信息集合中每个候选属性信息分别进行编码;
将编码后的所述物品的属性信息的长度和编码后的所述候选属性信息集合中每个候选属性信息的长度进行对齐;
基于汉明距离确定对齐后的所述物品的属性信息与对齐后的所述候选属性信息集合中每个候选属性信息之间的相似度。
5.根据权利要求1所述的方法,其中,所述将所述物品的属性信息添加到所述候选属性信息集合中,包括:
确定所述候选属性信息集合对应的候选物品的数量是否超过预定数量阈值;
若未超过,则将所述物品的属性信息添加到所述候选属性信息集合中;
若超过,则确定所述相似度集合中最高的相似度对应的候选属性信息,并用所述物品的属性信息替换确定出的候选属性信息。
6.根据权利要求1所述的方法,其中,所述属性信息包括有效时间和/或价格;以及
所述接收待筛选的物品的属性信息,包括:
根据所述有效时间检测所述属性信息是否过期,若过期,则过滤掉所述属性信息;和/或
根据所述价格检测所述属性信息的价格变化量是否超过预定变化量阈值,若超过,则过滤掉所述属性信息。
7.根据权利要求1所述的方法,其中,所述属性信息包括有效时间和/或价格;以及
所述方法还包括:
根据所述有效时间检测出所述候选属性信息集合中过期的候选属性信息,从所述候选属性信息集合中删除所述过期的候选属性信息;和/或
根据所述价格检测出所述候选属性信息集合中价格变化量超过预定变化量阈值的候选属性信息,并从所述候选属性信息集合中删除所述价格变化量超过预定变化量阈值的候选属性信息。
8.一种用于输出信息的装置,所述装置包括:
接收单元,用于接收待筛选的物品的属性信息,其中,所述属性信息包括类别;
类别确定单元,用于确定与所述类别匹配的至少一个候选物品;
获取单元,用于获取所述至少一个候选物品中每个候选物品的属性信息,并组成候选属性信息集合;
相似度确定单元,用于确定所述候选属性信息集合中每个候选属性信息与所述物品的属性信息之间的相似度,得到相似度集合;
输出单元,用于若所述相似度集合中的每个相似度小于预定相似度阈值,则将所述物品的属性信息添加到所述候选属性信息集合中,并输出添加后的候选属性信息集合。
9.根据权利要求8所述的装置,其中,所述相似度确定单元进一步用于:
基于最小编辑距离确定所述候选属性信息集合中每个候选属性信息与所述物品的属性信息之间的相似度。
10.根据权利要求8所述的装置,其中,所述相似度确定单元进一步用于:
将所述物品的属性信息和所述候选属性信息集合中每个候选属性信息分别转换成标量;
基于欧式距离确定转换成标量后的所述物品的属性信息与转换成标量后的所述候选属性信息集合中每个候选属性信息之间的相似度。
11.根据权利要求8所述的装置,其中,所述相似度确定单元进一步用于:
将所述物品的属性信息和所述候选属性信息集合中每个候选属性信息分别进行编码;
将编码后的所述物品的属性信息的长度和编码后的所述候选属性信息集合中每个候选属性信息的长度进行对齐;
基于汉明距离确定对齐后的所述物品的属性信息与对齐后的所述候选属性信息集合中每个候选属性信息之间的相似度。
12.根据权利要求8所述的装置,其中,所述输出单元进一步用于:
确定所述候选属性信息集合对应的候选物品的数量是否超过预定数量阈值;
若未超过,则将所述物品的属性信息添加到所述候选属性信息集合中;
若超过,则确定所述相似度集合中最高的相似度对应的候选属性信息,并用所述物品的属性信息替换确定出的候选属性信息。
13.根据权利要求8所述的装置,其中,所述属性信息包括有效时间和/或价格;以及
所述接收单元进一步用于:
根据所述有效时间检测所述属性信息是否过期,若过期,则过滤掉所述属性信息;和/或
根据所述价格检测所述属性信息的价格变化量是否超过预定变化量阈值,若超过,则过滤掉所述属性信息。
14.根据权利要求8所述的装置,其中,所述属性信息包括有效时间和/或价格;以及
所述装置还包括删除单元,用于:
根据所述有效时间检测出所述候选属性信息集合中过期的候选属性信息,从所述候选属性信息集合中删除所述过期的候选属性信息;和/或
根据所述价格检测出所述候选属性信息集合中价格变化量超过预定变化量阈值的候选属性信息,并从所述候选属性信息集合中删除所述价格变化量超过预定变化量阈值的候选属性信息。
15.一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN201711077137.7A 2017-11-06 2017-11-06 用于输出信息的方法和装置 Pending CN109754295A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711077137.7A CN109754295A (zh) 2017-11-06 2017-11-06 用于输出信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711077137.7A CN109754295A (zh) 2017-11-06 2017-11-06 用于输出信息的方法和装置

Publications (1)

Publication Number Publication Date
CN109754295A true CN109754295A (zh) 2019-05-14

Family

ID=66401143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711077137.7A Pending CN109754295A (zh) 2017-11-06 2017-11-06 用于输出信息的方法和装置

Country Status (1)

Country Link
CN (1) CN109754295A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989030A (zh) * 2021-03-15 2021-06-18 中国美术学院 一种相似产品关系的可视化方法和系统
CN113919879A (zh) * 2021-10-19 2022-01-11 北京沃东天骏信息技术有限公司 物料处理方法及装置、电子设备和计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105913290A (zh) * 2016-07-01 2016-08-31 中国传媒大学 商品搭配推荐方法及推荐系统
CN106156082A (zh) * 2015-03-31 2016-11-23 华为技术有限公司 一种本体对齐方法及装置
CN106777285A (zh) * 2016-12-29 2017-05-31 中国移动通信集团江苏有限公司 标签聚类的方法和装置
US20170169241A1 (en) * 2015-12-14 2017-06-15 Panasonic Intellectual Property Corporation Of America Search method, search device, search system, and program
CN106919619A (zh) * 2015-12-28 2017-07-04 阿里巴巴集团控股有限公司 一种商品聚类方法、装置及电子设备
CN107301592A (zh) * 2017-07-19 2017-10-27 北京京东尚科信息技术有限公司 用于商品替代品发掘的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156082A (zh) * 2015-03-31 2016-11-23 华为技术有限公司 一种本体对齐方法及装置
US20170169241A1 (en) * 2015-12-14 2017-06-15 Panasonic Intellectual Property Corporation Of America Search method, search device, search system, and program
CN106919619A (zh) * 2015-12-28 2017-07-04 阿里巴巴集团控股有限公司 一种商品聚类方法、装置及电子设备
CN105913290A (zh) * 2016-07-01 2016-08-31 中国传媒大学 商品搭配推荐方法及推荐系统
CN106777285A (zh) * 2016-12-29 2017-05-31 中国移动通信集团江苏有限公司 标签聚类的方法和装置
CN107301592A (zh) * 2017-07-19 2017-10-27 北京京东尚科信息技术有限公司 用于商品替代品发掘的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989030A (zh) * 2021-03-15 2021-06-18 中国美术学院 一种相似产品关系的可视化方法和系统
CN113919879A (zh) * 2021-10-19 2022-01-11 北京沃东天骏信息技术有限公司 物料处理方法及装置、电子设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN106911697B (zh) 访问权限设置方法、装置、服务器及存储介质
CN108228906B (zh) 用于生成信息的方法和装置
CN107911449A (zh) 用于推送信息的方法和装置
CN109359194A (zh) 用于预测信息类别的方法和装置
CN107977678A (zh) 用于输出信息的方法和装置
CN107301179A (zh) 数据库读写分离的方法和装置
CN108595448A (zh) 信息推送方法和装置
CN111339743B (zh) 一种账号生成的方法和装置
CN110084658A (zh) 物品匹配的方法和装置
CN112365202A (zh) 一种多目标对象的评价因子筛选方法及其相关设备
CN110209658A (zh) 数据清洗方法和装置
CN112328657A (zh) 特征衍生方法、装置、计算机设备及介质
CN114461644A (zh) 一种数据采集方法、装置、电子设备及存储介质
CN107357794A (zh) 优化键值数据库的数据存储结构的方法和装置
CN109754295A (zh) 用于输出信息的方法和装置
CN108182180B (zh) 用于生成信息的方法和装置
CN109409419A (zh) 用于处理数据的方法和装置
CN109426998A (zh) 信息推送方法和装置
CN109064464A (zh) 用于检测电池极片毛刺的方法和装置
CN117093619A (zh) 一种规则引擎处理方法、装置、电子设备及存储介质
CN109145230A (zh) 信息输出方法和装置
CN107291923A (zh) 信息处理方法和装置
CN109815433A (zh) 浏览器本地存储方法及装置、存储介质及电子设备
CN108062576A (zh) 用于输出数据的方法和装置
CN109214846A (zh) 信息存储方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190514

RJ01 Rejection of invention patent application after publication