CN107644364A - 对象过滤方法及系统 - Google Patents
对象过滤方法及系统 Download PDFInfo
- Publication number
- CN107644364A CN107644364A CN201710844233.3A CN201710844233A CN107644364A CN 107644364 A CN107644364 A CN 107644364A CN 201710844233 A CN201710844233 A CN 201710844233A CN 107644364 A CN107644364 A CN 107644364A
- Authority
- CN
- China
- Prior art keywords
- similarity
- feature information
- objects
- category
- mentioned
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种对象过滤方法,包括:获取第一对象的第一特征信息和第二对象的第二特征信息;根据获取的第一特征信息和第二特征信息确定第一对象和第二对象的相似度;以及判断相似度是否满足相似度阈值;若相似度满足相似度阈值,则确定第一对象和第二对象是互相过滤对象,其中,当第一对象和第二对象是互相过滤对象时,若用户在第一预设时间对第一对象执行过指定操作,则用户在与第一预设时间间隔时长小于预设时长的第二预设时间不会对第二对象执行指定操作。本公开还提供了一种对象过滤系统、一种计算机系统以及一种计算机可读存储介质。
Description
技术领域
本公开涉及互联网技术领域,具体涉及一种对象过滤方法及系统。
背景技术
随着互联网技术以及电子商务技术的飞速发展,网上购物受到越来越多用户的欢迎。商品推荐系统作为电子商务必不可少的一部分,在解决信息过载问题、帮助用户发现与购买适合自己的商品等方面显得非常重要。好的商品推荐系统可以提升商品的销售率和总体交易额。
在电商推荐过程中,为了提升用户体验,同时提高推荐的转化率,复购过滤逐渐成为一项重要工作。所谓复购过滤是指使用某种方法基于用户短期内的商品购买行为来预测过滤该用户一段时间内不会再次购买的商品,避免向该用户推荐需要过滤的商品而导致影响用户体验和推荐的转化率。
例如,大多数近期购买过“空调”的用户,短时间内考虑再次购买“空调”的可能性较小,如果在推荐中仍然大量推荐“空调”,不仅不利于推荐的转化,而且会影响用户体验,因此需要过滤掉该类商品;而大多数近期购买过“卫生纸”的用户,短时间内考虑再次购买“卫生纸”的可能性较大,如果在推荐中仍然大量推荐“卫生纸”,不仅利于推荐的转化,而且会提高用户体验,因此不应过滤掉该类商品。
目前,在相关技术中提供了一种复购过滤方案,然而,在实现本发明构思的过程中,发明人发现相关技术中至少存在如下缺陷:复购过滤时容易过滤过度或者过滤不充分。
发明内容
有鉴于此,本公开提供了一种能够通过判断商品的相似度来确定是否需要过滤,以提升用户体验和提高推荐转化率的对象过滤方法及其系统。
本公开的一个方面提供了一种对象过滤方法,包括:获取第一对象的第一特征信息和第二对象的第二特征信息;根据获取的上述第一特征信息和上述第二特征信息确定上述第一对象和上述第二对象的相似度;以及判断上述相似度是否满足相似度阈值;若上述相似度满足相似度阈值,则确定上述第一对象和上述第二对象是互相过滤对象,其中,当上述第一对象和上述第二对象是互相过滤对象时,若用户在第一预设时间对上述第一对象执行过指定操作,则上述用户在与上述第一预设时间间隔时长小于预设时长的第二预设时间不会对上述第二对象执行上述指定操作。
根据本公开的实施例,若上述相似度满足相似度阈值,则确定上述第一对象和上述第二对象是互相过滤对象包括:若满足,则根据获取的上述第一特征信息和上述第二特征信息确定上述第一对象和上述第二对象在向量空间中所处的类目区域;判断确定出的类目区域是否属于预设类目区域;以及若确定出的类目区域属于预设类目区域,则确定上述第一对象和上述第二对象是互相过滤对象。
根据本公开的实施例,上述方法还包括:若确定出的类目区域不属于预设类目区域,则确定上述第一对象和上述第二对象不是互相过滤对象。
根据本公开的实施例,获取第一对象的第一特征信息和第二对象的第二特征信息包括:获取上述第一对象对应的第一品类中所有对象的关键词文本;确定上述第一品类中所有对象的关键词文本的分布式表示;对上述第一品类中所有对象的关键词文本的分布式表示求平均,得到上述第一对象的上述第一特征信息的第一特征向量;获取上述第二对象对应的第二品类中所有对象的关键词文本;确定上述第二品类中所有对象的关键词文本的分布式表示;以及对上述第二品类中所有对象的关键词文本的分布式表示求平均,得到上述第二对象的上述第二特征信息的第二特征向量。
根据本公开的实施例,根据获取的上述第一特征信息和上述第二特征信息确定上述第一对象和上述第二对象的相似度包括:将上述第一特征信息的第一特征向量与上述第二特征信息的第二特征向量做差,得到交叉特征向量;和/或求上述第一特征向量与上述第二特征向量的余弦距离;和/或分别根据上述第一特征向量和上述第二特征向量确定上述第一对象和上述第二对象的类目属性;以及根据上述交叉特征向量和/或上述余弦距离和/或上述类目属性确定上述第一对象和上述第二对象的相似度。
根据本公开的实施例,判断上述相似度是否满足相似度阈值包括:对上述相似度进行打分,得到对应的相似度分数;将上述相似度分数输入预先设定的二分类器,以使上述二分类器输出分类结果;判断上述分类结果是否满足第一预设值,其中,若上述分类结果等于上述第一预设值,则确定上述相似度满足上述相似度阈值,若上述分类结果不等于上述第一预设值,则确定上述相似度不满足上述相似度阈值。
本公开的另一个方面提供了一种对象过滤系统,包括获取模块,用于获取第一对象的第一特征信息和第二对象的第二特征信息;第一确定模块,用于根据获取的上述第一特征信息和上述第二特征信息确定上述第一对象和上述第二对象的相似度;以及第一判断模块,用于判断上述相似度是否满足相似度阈值;第二确定模块,用于在上述相似度满足相似度阈值的情况下,确定上述第一对象和上述第二对象是互相过滤对象,其中,当上述第一对象和上述第二对象是互相过滤对象时,若用户在第一预设时间对上述第一对象执行过指定操作,则上述用户在与上述第一预设时间间隔时长小于预设时长的第二预设时间不会对上述第二对象执行上述指定操作。
根据本公开的实施例,上述第二确定模块包括:第一确定单元,用于在上述相似度满足相似度阈值的情况下,根据获取的上述第一特征信息和上述第二特征信息确定上述第一对象和上述第二对象在向量空间中所处的类目区域;第一判断单元,用于判断确定出的类目区域是否属于预设类目区域;以及第二确定单元,用于在确定出的类目区域属于预设类目区域的情况下,确定上述第一对象和上述第二对象是互相过滤对象。
根据本公开的实施例,上述系统还包括:第三确定模块,用于在确定出的类目区域不属于预设类目区域的情况下,确定上述第一对象和上述第二对象不是互相过滤对象。
根据本公开的实施例,上述获取模块包括:第一获取单元,用于获取上述第一对象对应的第一品类中所有对象的关键词文本;第三确定单元,用于确定上述第一品类中所有对象的关键词文本的分布式表示;第一计算单元,用于对上述第一品类中所有对象的关键词文本的分布式表示求平均,得到上述第一对象的上述第一特征信息的第一特征向量;第二获取单元,用于获取上述第二对象对应的第二品类中所有对象的关键词文本;第四确定单元,用于确定上述第二品类中所有对象的关键词文本的分布式表示;以及第二计算单元,用于对上述第二品类中所有对象的关键词文本的分布式表示求平均,得到上述第二对象的上述第二特征信息的第二特征向量。
根据本公开的实施例,上述第一确定模块包括:第三计算单元,用于将上述第一特征信息的第一特征向量与上述第二特征信息的第二特征向量做差,得到交叉特征向量;和/或第四计算单元,用于求上述第一特征向量与上述第二特征向量的余弦距离;和/或第五确定单元,用于分别根据上述第一特征向量和上述第二特征向量确定上述第一对象和上述第二对象的类目属性;以及第六确定单元,用于根据上述交叉特征向量和/或上述余弦距离和/或上述类目属性确定上述第一对象和上述第二对象的相似度。
根据本公开的实施例,上述第一判断模块包括:打分单元,用于对上述相似度进行打分,得到对应的相似度分数;处理单元,用于将上述相似度分数输入预先设定的二分类器,以使上述二分类器输出分类结果;第二判断单元,用于判断上述分类结果是否满足第一预设值,其中,若上述分类结果等于上述第一预设值,则确定上述相似度满足上述相似度阈值,若上述分类结果不等于上述第一预设值,则确定上述相似度不满足上述相似度阈值。
本公开的另一方面提供了一种计算机系统,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现上述实施例中任一项所述的对象过滤方法。
本公开的另一方面提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现上述实施例中任一项所述的对象过滤方法。
根据本公开的实施例,因为采用了通过判断商品的相似度确定是否需要进行过滤操作的技术手段,所以至少部分地克服了相关技术复购过滤时容易过滤过度或者过滤不充分的技术问题,进而达到了提升用户体验和提高过滤准确度的技术效果。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的可以应用对象过滤方法及系统的系统架构;
图2示意性示出了根据本公开实施例的对象过滤方法的流程图;
图3A示意性示出了根据本公开实施例的在相似度满足相似度阈值时确定第一对象和第二对象是互相过滤对象的流程图;
图3B示意性示出了根据本公开另一实施例的对象过滤方法的流程图;
图3C示意性示出了根据本公开实施例的获取第一对象的第一特征信息和第二对象的第二特征信息的流程图;
图3D示意性示出了根据本公开实施例的根据获取的第一特征信息和第二特征信息确定第一对象和第二对象的相似度的流程图;
图3E示意性示出了根据本公开实施例的判断相似度是否满足相似度阈值的流程图;
图4示意性示出了根据本公开实施例的对象过滤系统的框图;
图5A示意性示出了根据本公开实施例的第二确定模块的框图;
图5B示意性示出了根据本公开另一实施例的对象过滤系统的框图;
图5C示意性示出了根据本公开实施例的获取模块的框图;
图5D示意性示出了根据本公开实施例的第一确定模块的框图;
图5E示意性示出了根据本公开实施例的第一判断模块的框图;以及
图6示意性示出了根据本公开实施例的适于实现对象过滤方法的计算机系统的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。本领域技术人员还应理解,实质上任意表示两个或更多可选项目的转折连词和/或短语,无论是在说明书、权利要求书还是附图中,都应被理解为给出了包括这些项目之一、这些项目任一方、或两个项目的可能性。例如,短语“A或B”应当被理解为包括“A”或“B”、或“A和B”的可能性。
本公开的实施例提供了一种用于通过判断商品的相似度来确定过滤对象以此提升用户体验与提高过滤准确度的对象过滤方法以及能够应用该方法的对象过滤系统。该方法包括获取第一对象的第一特征信息和第二对象的第二特征信息,根据获取的第一特征信息和第二特征信息确定第一对象和第二对象的相似度,以及判断相似度是否满足相似度阈值,若相似度满足相似度阈值,则确定第一对象和第二对象是互相过滤对象,其中,当第一对象和第二对象是互相过滤对象时,若用户在第一预设时间对第一对象执行过指定操作,则用户在与第一预设时间间隔时长小于预设时长的第二预设时间不会对第二对象执行指定操作。
图1示意性示出了根据本公开实施例的可以应用对象过滤方法及系统的系统架构。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的对象过滤方法一般可以由服务器105执行。相应地,本公开实施例所提供的对象过滤系统一般可以设置于服务器105中。本公开实施例所提供的对象过滤方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的对象过滤系统也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开的实施例的对象过滤方法的流程图。
如图2所示,该方法可以包括操作S201~S204,其中:
在操作S201,获取第一对象的第一特征信息和第二对象的第二特征信息。
需要说明的是,第一对象和第二对象都可以表示商品,具体地,第一对象可以表示主商品,对应的第一特征信息可以表示为该主商品本身所具有的特征信息(如商品的名称、运行参数、节能属性等);第二对象可以表示可能需要过滤的候选商品,第二特征信息表示为该候选商品本身所具有的特征信息。
在本公开的实施例中,特征信息的表现形式可以包括多种,在此不再赘述。例如,可以用特征向量或者特征分布式表示特征信息。
例如,用户在某电商平台上购买了一款“变频”、“微联智能”、“节能”的“格力空调”,则第一对象可以是“空调1”,对应的第一特征信息可以为“格力空调”、“变频”、“微联智能”、“节能”;相应的,对于一款可能需要过滤的候选商品,如“定频”、“智弧”、“光线感应”的“美的空调”,第二对象可以是“空调2”,对应的第二特征信息可以为“美的空调”、“定频”、“智弧”、“光线感应”。进一步,分别抽取“空调1”的特征信息“格力空调”、“变频”、“微联智能”、“节能”,以及“空调2”的特征信息“美的空调”、“定频”、“智弧”、“光线感应”。
在操作S202,根据获取的第一特征信息和第二特征信息确定第一对象和第二对象的相似度。
在本开的实施例中,确定第一对象和第二对象的相似度的确定方式可以包括多种,在此不再赘述,例如,至少可以通过独立特征向量(包括第一对象的特征向量X1和第二对象的特征向量X2)或者通过独立特征向量结合以下至少之一来确定:交叉特征向量(即两个独立特征向量的差(X1-X2))、X1与X2的余弦距离、第一对象与第二对象的类目属性(其中,若两个对象的类目属性相同,则可以表示为1,否则表示为0)来确定。其中,通过独立特征向量结合交叉特征向量和/或余弦距离和/或类目属性确定时,可以将它们拼接为如下向量(X1,X2,R),R表示交叉特征向量、余弦距离和类目属性中的至少一个,应该理解,若R表示交叉特征向量、余弦距离和类目属性中的任意两个或三个,则表现为拼接形式。例如,R表示交叉特征向量和余弦距离,则R表现为交叉特征向量和余弦距离的拼接形式。
在操作S203,判断相似度是否满足相似度阈值。
在本公开的实施例中,判断相似度是否满足相似度阈值可以包括多种方式,在此不再赘述。例如,对相似度进行打分,得到相似度分数,进一步,判断相似度分数是否大于或者等于预先设定的相似度分数阈值。
例如,设定相似度分数阈值为0.5,若第一对象和第二对象的相似度分数为0.7,由于0.7>0.5,因此表明第一对象和第二对象相似;若第一对象和第二对象的相似度分数为0.3,由于0.3<0.5,因此一对象和第二对象不相似。
在操作S204,若相似度满足相似度阈值,则确定第一对象和第二对象是互相过滤对象。其中,当第一对象和第二对象是互相过滤对象时,若用户在第一预设时间对第一对象执行过指定操作,则用户在与第一预设时间间隔时长小于预设时长的第二预设时间不会对第二对象执行指定操作。
需要说明的是,互相过滤对象表示为,在第一对象和第二对象的相似度满足相似度阈值时,将第二对象确定为相对于第一对象的需要过滤的对象。根据本公开实施例中操作S201中的例子,若“空调1”和“空调2”的相似度满足相似度阈值,则将“空调2”确定为相对于“空调1”的需要过滤的对象。反之,若相似度不满足相似度阈值,则“空调1”和“空调2”不是互相过滤对象。
例如,若用户在2017年5月份购买了“空调1”,则用户在从2017年5月起的一年内,再次购买“空调2”的可能性一般会很小,此时做商品推荐时需要将“空调2”过滤掉。
根据本公开的实施例,通过判断主商品和候选商品的相似度,以确定候选商品是否为需要过滤的商品,克服了相关技术中复购过滤时容易导致过滤不充分或者过滤过度的问题。
下面参考图3A~图3E,结合具体实施例对图2所示的方法做进一步说明。
图3A示意性示出了根据本公开另一实施例的对象过滤方法的流程图。
由于有些商品之间虽然相似度极高,但是实际上可能并不适合作为互相过滤对象,例如,对于属于日常消耗品的商品而言,一般不太适合作为互相过滤对象,此时,在商品推荐过程中如果将任一方作为另一方的互相过滤对象过滤掉,则会导致过滤过度,为了进一步克服过滤过度的问题,本公开还提供了一种可选的实施例。在该实施例中,该对象过滤方法除了可以包括上文参考图2描述的操作S201~S204之外,还可以包括操作S301~S303。为了描述的简洁起见,这里省略对图2中操作S201~S204的描述。如图3A所示,其中:
在操作S301,若相似度满足相似度阈值,则根据获取的第一特征信息和第二特征信息确定第一对象和第二对象在向量空间中所处的类目区域;
在操作S302,判断确定出的类目区域是否属于预设类目区域;以及
在操作S303,若确定出的类目区域属于预设类目区域,则确定第一对象和第二对象是互相过滤对象。
例如,对于第一对象和第二对象都是“空调类”商品的情况下,两者经过相似度判断为是互相过滤对象时,为了防止过滤过度,可以进一步确定两者所属的类目区域,由于两者同属于空调类目区域,而这一类目区域下的商品可以是互相过滤对象。再例如,对于第一对象和第二对象都是“卫生纸类”商品的情况下,两者经过相似度判断为是互相过滤对象时,为了防止过滤过度,可以进一步确定两者所属的类目区域,由于两者同属于卫生纸类目区域,而这一类目区域下的商品一般可以不作为相互过滤对象处理。
例如,若用户在2017年5月份购买了“空调1”,则用户在从2017年5月起的一年内,再次购买“空调2”的可能性一般会很小,此时做商品推荐时需要将“空调2”过滤掉;但是,若用户在2017年7月份购买了“卫生纸1”,用户在短期内购买“卫生纸2”的概率仍然很大。为了避免将“卫生纸2”作为“卫生纸1”的互相过滤对象过滤掉,在经过相似度判断后,再判断两者所属的类目区域,以最终确定是否将两者作为互相过滤对象。
需要说明的是,预设类目区域表示为预先设定好的需要进行过滤的类目区域。
在本公开的实施例中,单纯的通过判断第一对象和第二对象的相似度,以确定是否需要过滤候选商品,会导致过滤过度的现象发生。如“面膜类”商品,处于向量空间中的面膜类目区域,虽然相似度大,但属于消耗品,在短期内,用户多次购买“面膜类”商品的概率依旧很大,因此,“面膜类”商品会被训练好点的模型分类为不需要过滤的商品,即面膜类目区域不属于预设类目区域。又比如“空调1”和“空调2”为“空调类”商品,处于空调类目区域,用户在短期内可能很难再次购买该类目区域的商品,因此,“空调类”商品会通过被训练好的模型分类为需要过滤的对象,即空调类目区域属于预设类目区域,换言之,“空调1”和“空调2”是互相过滤对象。
根据本公开的实施例,在确定主商品和候选商品的相似度满足相似度阈值的条件下,判断主商品和候选商品所处的类目区域,是否为需要进行过滤的预设类目区域,进一步确定主商品和候选商品是否为互相过滤对象,从而可以进一步克服过滤过度的问题,达到了提升用户体验的效果。
图3B示意性示出了根据本公开另一实施例的对象过滤方法的流程图。
在该实施例中,该对象过滤方法除了可以包括上文参考图2和图3A描述的操作S201~S204和S301~S302之外,还可以包括操作S401(即操作S303替换为操作S401)。为了描述的简洁起见,这里省略对图2和图3A中操作S201~S204和S301~S302的描述。如图3B所示,其中:
在操作S401,若确定出的类目区域不属于预设类目区域,则确定第一对象和第二对象不是互相过滤对象。
例如,“面膜1”和“面膜2”处于空间向量中的面膜类目区域,不属于预设类目区域,则“面膜1”和“面膜2”不是互相过滤对象。
根据本公开的实施例,通过判断主商品和候选商品所处的类目区域,不属于预设类目区域,进一步判断主商品和候选商品不是互相过滤对象,从而可以进一步避免过滤过度现象的发生,达到提高推荐质量,并增加推荐转化率的技术效果。
图3C示意性示出了根据本公开实施例的获取第一对象的第一特征信息和第二对象的第二特征信息的流程图。
在该实施例中,该对象过滤方法除了可以包括上文参考图2描述的操作S202~S204之外,还可以包括操作S501~S506(即操作S201可以包括操作S501~S506)。为了描述的简洁起见,这里省略对图2中操作S202~S204的描述。如图3C所示,其中:
在操作S501,获取第一对象对应的第一品类中所有对象的关键词文本;
在操作S502,确定第一品类中所有对象的关键词文本的分布式表示;
在操作S503,对第一品类中所有对象的关键词文本的分布式表示求平均,得到第一对象的第一特征信息的第一特征向量;
在操作S504,获取第二对象对应的第二品类中所有对象的关键词文本;
在操作S505,确定第二品类中所有对象的关键词文本的分布式表示;以及
在操作S506,对第二品类中所有对象的关键词文本的分布式表示求平均,得到第二对象的第二特征信息的第二特征向量。
需要说明的是,第一品类或第二品类可以是“空调类”、“面膜类”、“卫生纸类”,在此不做限定。
在本公开的实施例中,首先确定第一对象的所属品类,选择该品类中所有对象的关键词文本,进行分布式表示的无监督训练。对于第一对象的分布式表示,可以表现为关键词文本的向量形式。进一步,对该分布式表示求平均,即可获得第一对象的特征向量(即第一特征向量)。
例如,对于第一对象“空调1”,其第一品类表示为“空调类”,获取“空调类”中所有空调(如“空调1”、“空调2”……“空调n”)的关键词文本。假如“空调类”商品只包含“空调1”和“空调2”,则“空调类”的分布式表示为[格力空调,变频,微联智能,节能,美的空调,定频,智弧,光线感应]。再一步,对“空调类”的分布式表示求平均,即得到该第一对象“空调1”的特征向量。
同样的,根据上述方法,可以得到第二对象的特征向量(即第二特征向量),在此不再赘述。
根据本公开的实施例,采用分布式表示的方法,可以有效地保留商品关键词文本,此外,对于处于同一类目区域下的商品,用分布式表示后的特征向量,将会处于向量空间中的同一片区域中,这样不仅保留了商品的关键词文本,同时也非常便于使用机器学习分类器对向量空间进行划分,并根据主商品和候选商品是否处于需要过滤的向量空间进行分类。同时,对分布式表示求平均,进一步提高了过滤的准确性。
图3D示意性示出了根据本公开实施例的根据获取的第一特征信息和第二特征信息确定第一对象和第二对象的相似度的流程图。
在该实施例中,该对象过滤方法除了可以包括上文参考图2和图3C描述的操作S203、S204和S501~S506之外,还可以包括操作S601~S604(即操作S202可以包括操作S601~S604)。为了描述的简洁起见,这里省略对图2和图3C中操作S203、S204和S501~S506描述。如图3D所示,其中:
在操作S601,将第一特征信息的第一特征向量与第二特征信息的第二特征向量做差,得到交叉特征向量;和/或
在操作S602,求第一特征向量与第二特征向量的余弦距离;和/或
在操作S603,分别根据第一特征向量和第二特征向量确定第一对象和第二对象的类目属性;以及
在操作S604,根据交叉特征向量和/或余弦距离和/或类目属性确定第一对象和第二对象的相似度。
在本公开的实施例中,确定相似度的方式有多种,优选为根据第一对象和第二对象的交叉特征向量、余弦距离和类目属性三者结合来确定相似度,在此不做限定。具体地,确定相似度可以通过梯度提升树(Gradient Boosting Decision Tree,简称为GBDT)分类器来实现。
例如,通过余弦距离来判断相似度,当余弦距离较小时,表示第一对象和第二对象的相似度较小,若此时的相似度不满足相似度阈值,则第一对象和第二对象不是互相过滤对象,不需要进行过滤操作。但是,当余弦距离较大时,表示相似度较大,进一步,还需要判断第一对象和第二对象处于的类目区域,是否属于预设类目区域,进而确定第一对象和第二对象是否为互相过滤对象。
应该注意,确定相似度是一个有监督的机器学习方法,此时,机器学习的训练集中的训练样本变为((X,X1,R),label),其中,sku表示为第一对象,sku1表示为第二对象,X表示为第一对象的特征向量,X1表示为第二对象的特征向量,R表示为交叉特征向量和/或余弦距离和/或类目属性,label表示为第二对象是否需要过滤。
根据本公开的实施例,对于主商品和候选商品的特征向量来判断相似度,进一步增加了过滤的准确度,同时,提升了用户的体验效果。
图3E示意性示出了根据本公开实施例的用于判断相似度是否满足相似度阈值的流程图。
在该实施例中,该对象过滤方法除了可以包括上文参考图2描述的操作S201、S202和S204之外,还可以包括操作S701~S703(即操作S203可以包括操作S701~S703)。为了描述的简洁起见,这里省略对操作S201、S202和S204的描述。如图3E所示,其中:
在操作S701,对相似度进行打分,得到对应的相似度分数;
在操作S702,将相似度分数输入预先设定的二分类器,以使二分类器输出分类结果;以及
在操作S703,判断分类结果是否满足第一预设值。其中,若分类结果等于第一预设值,则确定相似度满足相似度阈值,若分类结果不等于第一预设值,则确定相似度不满足相似度阈值。
在本公开的实施例中,可以通过打分函数L(sku,sku1)=score对第一对象和第二对象的相似度进行打分,其中,score表示为相似度分数,score∈[0,1]。当score=0时,表明第一对象和第二对象为两个完全不同的商品,不需要过滤;当score=1时,表明第一对象和第二对象为同一商品,需要过滤;当score∈(0,1)时,可以采用一个二分类器进行判断(这是一个有监督的机器学习的方式,训练集是{(sku,sku1)label}),在score>=0.5时,将第二对象标记为需要过滤的商品,此时,label=1,在score<0.5时,将第二对象标记为不需要过滤的商品,此时,label=0。
具体地,在利用打分函数对相似度进行打分时,可以通过GBDT分类器实现,还可以LR(Logistics Regression,逻辑回归)、SVM(Support Vector Machine,支持向量机)或RF(Random Forest,随机森林)实现,在此不做限定。
例如,应用GBDT分类器使用训练集{(sku,ku1),label}中的所有样本进行训练,学习得到一个打分函数L(sku,sku1)。GBDT是一个通过迭代优化创建多个弱分类决策树来构成最终的强分类决策树的分类算法。在GBDT的迭代中,假设前一轮迭代得到的强学习器是ft-1(x),损失函数是L(y,ft-1(x)),则本轮迭代的目标是找到一个CART树(ClassificationAnd Regression Tree,分类回归树)模型的弱学习器ht(x),让本轮的损失L(y,ft-1(x))=L(y,ft(x)+ht(x))最小。也就是说,每轮迭代找到的决策树,要让样本的损失尽量变得更小。
对于二元GBDT分类算法,使用类似逻辑回归的对数损失函数,则损失函数为:
L(y,f(x))=log(1+exp(-yf(x)))y∈{-1,+1}
此时计算负梯度误差与生成的决策树的各叶子节点最佳残差拟合值。
其中负梯度误差为:
rtj=yi/(1+exp(yf(xi)))
各个叶子节点的最佳残差拟合为:
之后更新强学习器:
得到最终强学习器的表达式:
本工作中的打分函数L(sku,skul)输出的score值,即为为上式中的GBDT强分类器表达式f(x)的结果,其中,f(x)中的x为sku与sku1的特征组合featuresku,skul,即,L(sku,skul)=f(featuresku,skul)。如此就将对sku与sku1是否需要过滤的打分函数,转化为将sku与sku1特征进行组合后,使用GBDT二分类器训练得到的分类打分函数。
根据本公开的实施例,利用二分类器对相似度进行打分,进而判断相似度是否满足相似度阈值,提高了判断的准确性,优化了商品推荐效果。
图4示意性示出了根据本公开实施例的对象过滤系统的框图。
在该实施例中,该对象过滤系统400可以包括获取模块410、第一确定模块420、第一判断模块430和第二确定模块440。该对象过滤系统400可以执行上面参考图2、图3A~图3E描述的方法。如图4所示,其中:获取模块410,用于获取第一对象的第一特征信息和第二对象的第二特征信息,第一确定模块420,用于根据获取的第一特征信息和第二特征信息确定第一对象和第二对象的相似度,以及第一判断模块430,用于判断相似度是否满足相似度阈值,第二确定模块440,用于在相似度满足相似度阈值的情况下,确定第一对象和第二对象是互相过滤对象,其中,当第一对象和第二对象是互相过滤对象时,若用户在第一预设时间对第一对象执行过指定操作,则用户在与第一预设时间间隔时长小于预设时长的第二预设时间不会对第二对象执行指定操作。
根据本公开的实施例,通过判断主商品和候选商品的相似度,以确定候选商品是否为需要过滤的商品,克服了相关技术中复购过滤时容易导致过滤不充分或者过滤过度的问题。
图5A示意性示出了根据本公开实施例的第二确定模块的框图。
在该实施例中,该对象过滤系统400除了可以包括上文参考图4描述的相应模块之外,第二确定模块440还可以包括第一确定单元441、第一判断单元442和第二确定单元443。为了描述的简洁起见,这里省略对图4中相应模块的描述。如图5A所示,其中:第一确定单元441,用于在相似度不满足相似度阈值的情况下,根据获取的第一特征信息和第二特征信息确定第一对象和第二对象在向量空间中所处的类目区域,第一判断单元442,用于判断确定出的类目区域是否属于预设类目区域,以及第二确定单元443,用于在确定出的类目区域属于预设类目区域的情况下,确定第一对象和第二对象是互相过滤对象。
根据本公开的实施例,在确定主商品和候选商品的相似度满足相似度阈值的条件下,判断主商品和候选商品所处的类目区域,是否为需要进行过滤的预设类目区域,进一步确定主商品和候选商品是否为互相过滤对象,从而可以进一步克服过滤过度的问题,达到了提升用户体验的效果。
图5B示意性示出了根据本公开另一实施例的对象过滤系统的框图。
在该实施例中,该对象过滤系统400除了可以包括上文参考图4和图5A描述的相应模块之外,还可以包括第三确定模块510。为了描述的简洁起见,这里省略对图4和图5A中相应模块的描述。如图5B所示,其中:第三确定模块510,用于在确定出的类目区域不属于预设类目区域的情况下,确定第一对象和第二对象不是互相过滤对象。
根据本公开的实施例,通过判断主商品和候选商品所处的类目区域,不属于预设类目区域,进一步判断主商品和候选商品不是互相过滤对象,从而可以进一步避免过滤过度现象的发生,达到提高推荐质量,并增加推荐转化率的技术效果。
图5C示意性示出了根据本公开实施例的获取模块的框图。
在该实施例中,该对象过滤系统400除了可以包括上文参考图4描述的相应模块之外,获取模块410还可以包括第一获取单元411、第三确定单元412、第一计算单元413、第二获取单元414、第四确定单元415和第二计算单元416。为了描述的简洁起见,这里省略对图4和图5A中相应模块的描述。如图5C所示,其中:第一获取单元411,用于获取第一对象对应的第一品类中所有对象的关键词文本,第一确定单元412,用于确定第一品类中所有对象的关键词文本的分布式表示,第一计算单元413,用于对第一品类中所有对象的关键词文本的分布式表示求平均,得到第一对象的第一特征信息的第一特征向量,第二获取单元414,用于获取第二对象对应的第二品类中所有对象的关键词文本,第二确定单元415,用于确定第二品类中所有对象的关键词文本的分布式表示,以及,第二计算单元416,用于对第二品类中所有对象的关键词文本的分布式表示求平均,得到第二对象的第二特征信息的第二特征向量。
根据本公开的实施例,采用分布式表示的方法,可以有效地保留商品关键词文本,此外,对于处于同一类目区域下的商品,用分布式表示后的特征向量,将会处于向量空间中的同一片区域中,这样不仅保留了商品的关键词文本,同时也非常便于使用机器学习分类器对向量空间进行划分,并根据主商品和候选商品是否处于需要过滤的向量空间进行分类。同时,对分布式表示求平均,进一步提高了过滤的准确性。
图5D示意性示出了根据本公开实施例的第一确定模块的框图。
在该实施例中,该对象过滤系统400除了可以包括上文参考图4和图5C描述的相应模块之外,第一确定模块420还可以包括第三计算单元421、第四计算单元422、第五确定单元423和第六确定单元424。为了描述的简洁起见,这里省略对图4和图5C中相应模块的描述。如图5D所示,其中:第三计算单元421,用于将第一特征信息的第一特征向量与第二特征信息的第二特征向量做差,得到交叉特征向量,和/或,第四计算单元422,用于求第一特征向量与第二特征向量的余弦距离,和/或,第五确定单元423,用于分别根据第一特征向量和第二特征向量确定第一对象和第二对象的类目属性,以及,第六确定单元425,用于根据交叉特征向量和/或余弦距离和/或类目属性确定第一对象和第二对象的相似度。
根据本公开的实施例,对于主商品和候选商品的特征向量来判断相似度,进一步增加了过滤的准确度,同时,提升了用户的体验效果。
图5E示意性示出了根据本公开实施例的第一判断模块的框图。
在该实施例中,该对象过滤系统400除了可以包括上文参考图4描述的相应模块之外,第一判断模块430还可以包括打分单元431、处理单元432和判断单元433。为了描述的简洁起见,这里省略对图4中相应模块的描述。如图5E所示,其中:打分单元431,用于对相似度进行打分,得到对应的相似度分数,处理单元432,用于将相似度分数输入预先设定的二分类器,以使二分类器输出分类结果,第二判断单元433,用于判断分类结果是否满足第一预设值,其中,若分类结果等于第一预设值,则确定相似度满足相似度阈值,若分类结果不等于第一预设值,则确定相似度不满足相似度阈值。
根据本公开的实施例,利用二分类器对相似度进行打分,进而判断相似度是否满足相似度阈值,提高了判断的准确性,优化了商品推荐效果。
可以理解的是,获取模块410、第一确定模块420、第一判断模块430、第二确定模块440以及第三确定模块510可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的实施例,获取模块410、第一确定模块420、第一判断模块430、第二确定模块440以及第三确定模块510中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式的适当组合来实现。或者,获取模块410、第一确定模块420、第一判断模块430、第二确定模块440以及第三确定模块510中的至少一个可以至少被部分地实现为计算机程序模块,当该程序被计算机运行时,可以执行相应模块的功能。
图6示意性示出了根据本公开实施例的适于实现对象过滤方法的计算机系统的框图。图6示出的计算机系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,根据本公开实施例的计算机系统600包括处理器601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分1008加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。处理器601例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以包括用于执行参考图2、图3A~图3E描述的根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 603中,存储有计算机系统600操作所需的各种程序和数据。处理器601、ROM602以及RAM 603通过总线604彼此相连。处理器601通过执行ROM 602和/或RAM 603中的程序来执行以上参考图2、图3A~图3E描述的各种操作。需要注意,所述程序也可以存储在除ROM 602和RAM 603以外的一个或多个存储器中。处理器601也可以通过执行存储在所述一个或多个存储器中的程序来执行以上参考图2、图3A~图3E描述的各种操作。
根据本公开的实施例,计算机系统600还可以包括输入/输出(I/O)接口605,输入/输出(I/O)接口605也连接至总线604。计算机系统600还可以包括连接至I/O接口605的以下部件中的一项或多项:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
根据本公开的实施例,上文参考流程图描述的方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被处理器601执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。根据本公开的实施例,计算机可读介质可以包括上文描述的ROM 602和/或RAM 603和/或ROM 602和RAM 603以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
作为另一方面,本公开还提供了一种计算机可读介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现上述方法实施例中任一项所述的对象过滤方法。该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备执行:获取第一对象的第一特征信息和第二对象的第二特征信息;根据获取的第一特征信息和第二特征信息确定第一对象和第二对象的相似度;以及判断相似度是否满足相似度阈值;若相似度满足相似度阈值,则确定第一对象和第二对象是互相过滤对象,其中,当第一对象和第二对象是互相过滤对象时,若用户在第一预设时间对第一对象执行过指定操作,则用户在与第一预设时间间隔时长小于预设时长的第二预设时间不会对第二对象执行指定操作。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (14)
1.一种对象过滤方法,包括:
获取第一对象的第一特征信息和第二对象的第二特征信息;
根据获取的所述第一特征信息和所述第二特征信息确定所述第一对象和所述第二对象的相似度;以及
判断所述相似度是否满足相似度阈值;
若满足,则确定所述第一对象和所述第二对象是互相过滤对象,其中,当所述第一对象和所述第二对象是互相过滤对象时,若用户在第一预设时间对所述第一对象执行过指定操作,则所述用户在与所述第一预设时间间隔时长小于预设时长的第二预设时间不会对所述第二对象执行所述指定操作。
2.根据权利要求1所述的方法,其中,若满足,则确定所述第一对象和所述第二对象是互相过滤对象包括:
若满足,则根据获取的所述第一特征信息和所述第二特征信息确定所述第一对象和所述第二对象在向量空间中所处的类目区域;
判断确定出的类目区域是否属于预设类目区域;以及
若属于,则确定所述第一对象和所述第二对象是互相过滤对象。
3.根据权利要求2所述的方法,其中,所述方法还包括:
若不属于,则确定所述第一对象和所述第二对象不是互相过滤对象。
4.根据权利要求1所述的方法,其中,获取第一对象的第一特征信息和第二对象的第二特征信息包括:
获取所述第一对象对应的第一品类中所有对象的关键词文本;
确定所述第一品类中所有对象的关键词文本的分布式表示;
对所述第一品类中所有对象的关键词文本的分布式表示求平均,得到所述第一对象的所述第一特征信息的第一特征向量;
获取所述第二对象对应的第二品类中所有对象的关键词文本;
确定所述第二品类中所有对象的关键词文本的分布式表示;以及
对所述第二品类中所有对象的关键词文本的分布式表示求平均,得到所述第二对象的所述第二特征信息的第二特征向量。
5.根据权利要求4所述的方法,其中,根据获取的所述第一特征信息和所述第二特征信息确定所述第一对象和所述第二对象的相似度包括:
将所述第一特征信息的第一特征向量与所述第二特征信息的第二特征向量做差,得到交叉特征向量;和/或
求所述第一特征向量与所述第二特征向量的余弦距离;和/或
分别根据所述第一特征向量和所述第二特征向量确定所述第一对象和所述第二对象的类目属性;以及
根据所述交叉特征向量和/或所述余弦距离和/或所述类目属性确定所述第一对象和所述第二对象的相似度。
6.根据权利要求1所述的方法,其中,判断所述相似度是否满足相似度阈值包括:
对所述相似度进行打分,得到对应的相似度分数;
将所述相似度分数输入预先设定的二分类器,以使所述二分类器输出分类结果;
判断所述分类结果是否满足第一预设值,其中,若所述分类结果等于所述第一预设值,则确定所述相似度满足所述相似度阈值,若所述分类结果不等于所述第一预设值,则确定所述相似度不满足所述相似度阈值。
7.一种对象过滤系统,包括:
获取模块,用于获取第一对象的第一特征信息和第二对象的第二特征信息;
第一确定模块,用于根据获取的所述第一特征信息和所述第二特征信息确定所述第一对象和所述第二对象的相似度;以及
第一判断模块,用于判断所述相似度是否满足相似度阈值;
第二确定模块,用于在满足的情况下,确定所述第一对象和所述第二对象是互相过滤对象,其中,当所述第一对象和所述第二对象是互相过滤对象时,若用户在第一预设时间对所述第一对象执行过指定操作,则所述用户在与所述第一预设时间间隔时长小于预设时长的第二预设时间不会对所述第二对象执行所述指定操作。
8.根据权利要求7所述的系统,其中,所述第二确定模块包括:
第一确定单元,用于在满足的情况下,根据获取的所述第一特征信息和所述第二特征信息确定所述第一对象和所述第二对象在向量空间中所处的类目区域;
第一判断单元,用于判断确定出的类目区域是否属于预设类目区域;以及
第二确定单元,用于在属于的情况下,确定所述第一对象和所述第二对象是互相过滤对象。
9.根据权利要求8所述的系统,其中,所述系统还包括:
第三确定模块,用于在不属于的情况下,确定所述第一对象和所述第二对象不是互相过滤对象。
10.根据权利要求7所述的系统,其中,所述获取模块包括:
第一获取单元,用于获取所述第一对象对应的第一品类中所有对象的关键词文本;
第三确定单元,用于确定所述第一品类中所有对象的关键词文本的分布式表示;
第一计算单元,用于对所述第一品类中所有对象的关键词文本的分布式表示求平均,得到所述第一对象的所述第一特征信息的第一特征向量;
第二获取单元,用于获取所述第二对象对应的第二品类中所有对象的关键词文本;
第四确定单元,用于确定所述第二品类中所有对象的关键词文本的分布式表示;以及
第二计算单元,用于对所述第二品类中所有对象的关键词文本的分布式表示求平均,得到所述第二对象的所述第二特征信息的第二特征向量。
11.根据权利要求10所述的系统,其中,所述第一确定模块包括:
第三计算单元,用于将所述第一特征信息的第一特征向量与所述第二特征信息的第二特征向量做差,得到交叉特征向量;和/或
第四计算单元,用于求所述第一特征向量与所述第二特征向量的余弦距离;和/或
第五确定单元,用于分别根据所述第一特征向量和所述第二特征向量确定所述第一对象和所述第二对象的类目属性;以及
第六确定单元,用于根据所述交叉特征向量和/或所述余弦距离和/或所述类目属性确定所述第一对象和所述第二对象的相似度。
12.根据权利要求7所述的系统,其中,所述第一判断模块包括:
打分单元,用于对所述相似度进行打分,得到对应的相似度分数;
处理单元,用于将所述相似度分数输入预先设定的二分类器,以使所述二分类器输出分类结果;
第二判断单元,用于判断所述分类结果是否满足第一预设值,其中,若所述分类结果等于所述第一预设值,则确定所述相似度满足所述相似度阈值,若所述分类结果不等于所述第一预设值,则确定所述相似度不满足所述相似度阈值。
13.一种计算机系统,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至6中任一项所述的对象过滤方法。
14.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求1至6中任一项所述的对象过滤方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710844233.3A CN107644364A (zh) | 2017-09-18 | 2017-09-18 | 对象过滤方法及系统 |
PCT/CN2018/093774 WO2019052263A1 (zh) | 2017-09-18 | 2018-06-29 | 对象过滤方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710844233.3A CN107644364A (zh) | 2017-09-18 | 2017-09-18 | 对象过滤方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107644364A true CN107644364A (zh) | 2018-01-30 |
Family
ID=61111682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710844233.3A Pending CN107644364A (zh) | 2017-09-18 | 2017-09-18 | 对象过滤方法及系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107644364A (zh) |
WO (1) | WO2019052263A1 (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109063185A (zh) * | 2018-08-27 | 2018-12-21 | 电子科技大学 | 面向事件检测的社交网络短文本数据过滤方法 |
WO2019052263A1 (zh) * | 2017-09-18 | 2019-03-21 | 北京京东尚科信息技术有限公司 | 对象过滤方法及系统 |
CN110008396A (zh) * | 2018-11-28 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 对象信息推送方法、装置、设备及计算机可读存储介质 |
CN110348935A (zh) * | 2019-05-23 | 2019-10-18 | 平安科技(深圳)有限公司 | 基于对象信息需求的提醒方法、装置、介质及电子设备 |
CN110414625A (zh) * | 2019-08-06 | 2019-11-05 | 北京字节跳动网络技术有限公司 | 确定相似数据的方法、装置、电子设备及存储介质 |
CN110443663A (zh) * | 2018-05-03 | 2019-11-12 | 阿里巴巴集团控股有限公司 | 信息处理方法、装置及计算设备 |
CN110517099A (zh) * | 2018-05-22 | 2019-11-29 | 北京京东尚科信息技术有限公司 | 用于确定关联供应方的方法和装置 |
CN110569789A (zh) * | 2019-09-06 | 2019-12-13 | 创新奇智(重庆)科技有限公司 | 商品组合型sku识别方法及其装置 |
CN110874608A (zh) * | 2018-09-03 | 2020-03-10 | 北京京东金融科技控股有限公司 | 分类方法、系统和电子设备 |
CN111325609A (zh) * | 2020-02-28 | 2020-06-23 | 京东数字科技控股有限公司 | 一种商品推荐列表确定方法、装置、电子设备及存储介质 |
CN113763076A (zh) * | 2020-07-21 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 数据过滤方法和装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8706777B2 (en) * | 2006-12-18 | 2014-04-22 | Microsoft Corporation | Media content catalogs |
CN103150660A (zh) * | 2011-12-06 | 2013-06-12 | 阿里巴巴集团控股有限公司 | 在网络购物平台中产生用户提醒消息的方法和装置 |
CN110135915B (zh) * | 2016-08-22 | 2023-05-02 | 北京京东尚科信息技术有限公司 | 商品推荐方法和系统 |
CN107644364A (zh) * | 2017-09-18 | 2018-01-30 | 北京京东尚科信息技术有限公司 | 对象过滤方法及系统 |
-
2017
- 2017-09-18 CN CN201710844233.3A patent/CN107644364A/zh active Pending
-
2018
- 2018-06-29 WO PCT/CN2018/093774 patent/WO2019052263A1/zh active Application Filing
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019052263A1 (zh) * | 2017-09-18 | 2019-03-21 | 北京京东尚科信息技术有限公司 | 对象过滤方法及系统 |
CN110443663A (zh) * | 2018-05-03 | 2019-11-12 | 阿里巴巴集团控股有限公司 | 信息处理方法、装置及计算设备 |
CN110517099A (zh) * | 2018-05-22 | 2019-11-29 | 北京京东尚科信息技术有限公司 | 用于确定关联供应方的方法和装置 |
CN109063185A (zh) * | 2018-08-27 | 2018-12-21 | 电子科技大学 | 面向事件检测的社交网络短文本数据过滤方法 |
CN110874608A (zh) * | 2018-09-03 | 2020-03-10 | 北京京东金融科技控股有限公司 | 分类方法、系统和电子设备 |
CN110874608B (zh) * | 2018-09-03 | 2024-04-05 | 京东科技控股股份有限公司 | 分类方法、系统和电子设备 |
CN110008396A (zh) * | 2018-11-28 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 对象信息推送方法、装置、设备及计算机可读存储介质 |
CN110008396B (zh) * | 2018-11-28 | 2023-11-24 | 创新先进技术有限公司 | 对象信息推送方法、装置、设备及计算机可读存储介质 |
CN110348935A (zh) * | 2019-05-23 | 2019-10-18 | 平安科技(深圳)有限公司 | 基于对象信息需求的提醒方法、装置、介质及电子设备 |
CN110414625A (zh) * | 2019-08-06 | 2019-11-05 | 北京字节跳动网络技术有限公司 | 确定相似数据的方法、装置、电子设备及存储介质 |
CN110569789B (zh) * | 2019-09-06 | 2023-05-05 | 创新奇智(重庆)科技有限公司 | 商品组合型sku识别方法及其装置 |
CN110569789A (zh) * | 2019-09-06 | 2019-12-13 | 创新奇智(重庆)科技有限公司 | 商品组合型sku识别方法及其装置 |
CN111325609A (zh) * | 2020-02-28 | 2020-06-23 | 京东数字科技控股有限公司 | 一种商品推荐列表确定方法、装置、电子设备及存储介质 |
CN113763076A (zh) * | 2020-07-21 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 数据过滤方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2019052263A1 (zh) | 2019-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107644364A (zh) | 对象过滤方法及系统 | |
Wang et al. | Effects of the aesthetic design of icons on app downloads: evidence from an android market | |
CN107220852A (zh) | 用于确定目标推荐用户的方法、装置和服务器 | |
US11182840B2 (en) | Systems and methods for mapping a predicted entity to a product based on an online query | |
CN108960992A (zh) | 一种信息推荐方法以及相关设备 | |
CN107784390A (zh) | 用户生命周期的识别方法、装置、电子设备及存储介质 | |
US10783561B2 (en) | Systems and methods for optimizing targeted advertising through social media interactions | |
CN107622086A (zh) | 一种点击率预估方法和装置 | |
CN107424007A (zh) | 一种构建电子券敏感度识别模型的方法和装置 | |
CN111950593A (zh) | 一种推荐模型训练的方法及装置 | |
CN107464141A (zh) | 用于信息推广的方法、装置、电子设备及计算机可读介质 | |
CN107590678A (zh) | 商品推荐方法和系统 | |
CN106896937A (zh) | 用于输入信息的方法和装置 | |
CN110119445A (zh) | 生成特征向量和基于特征向量进行文本分类的方法和装置 | |
CN107741967A (zh) | 用于行为数据处理的方法、装置以及电子设备 | |
CN108595448A (zh) | 信息推送方法和装置 | |
CN109101309A (zh) | 用于更新用户界面方法和装置 | |
CN106980629A (zh) | 一种网络资源推荐方法及计算机设备 | |
CN106452809A (zh) | 一种数据处理方法和装置 | |
CN110866625A (zh) | 促销指标信息生成方法和装置 | |
CN112749323A (zh) | 一种构建用户画像的方法和装置 | |
CN109977982A (zh) | 用户分类方法、系统、电子设备及计算机可读介质 | |
CN110490951A (zh) | 一种图像绘制方法和装置 | |
CN111787042A (zh) | 用于推送信息的方法和装置 | |
CN107357847A (zh) | 数据处理方法及其装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180130 |