CN103106585B - 产品信息的实时去重方法和装置 - Google Patents

产品信息的实时去重方法和装置 Download PDF

Info

Publication number
CN103106585B
CN103106585B CN201110358156.3A CN201110358156A CN103106585B CN 103106585 B CN103106585 B CN 103106585B CN 201110358156 A CN201110358156 A CN 201110358156A CN 103106585 B CN103106585 B CN 103106585B
Authority
CN
China
Prior art keywords
product information
information
product
characteristic vector
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110358156.3A
Other languages
English (en)
Other versions
CN103106585A (zh
Inventor
张林锋
廖剑
张恬及
王蔚微
张敏捷
翁晓颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201110358156.3A priority Critical patent/CN103106585B/zh
Priority to TW101107351A priority patent/TW201319982A/zh
Priority to US13/672,336 priority patent/US20130124368A1/en
Priority to PCT/US2012/064330 priority patent/WO2013071026A2/en
Priority to EP12788076.3A priority patent/EP2801042A4/en
Priority to JP2014534837A priority patent/JP5808497B2/ja
Publication of CN103106585A publication Critical patent/CN103106585A/zh
Priority to HK13108672.3A priority patent/HK1181535A1/zh
Application granted granted Critical
Publication of CN103106585B publication Critical patent/CN103106585B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种产品信息的实时去重方法和装置,其中,该方法包括:在线接收用户输入的产品更新信息;在线根据产品更新信息对特征向量集合中对应的特征向量进行更新,其中,特征向量集合包括各个产品信息的特征向量,特征向量用于计算产品信息之间的相关度;在线根据更新后的特征向量集合中的特征向量计算产品信息之间的相关度;在线根据相关度判断互为重复的产品信息,并对互为重复的产品信息进行去重操作。本申请解决了现有技术中无法实现实时地对产品信息进行去重操作的问题,减少了搜索引擎反馈的搜索结果中的冗余信息,提高了搜索结果的准确性。

Description

产品信息的实时去重方法和装置
技术领域
本申请涉及数据处理领域,具体而言,涉及一种产品信息的实时去重方法和装置。
背景技术
目前,基于互联网的电子商务发展速度越来越快,在很多C2C、B2C的电子商务网站上,卖家每天会发布和更新大量的产品信息(称为offer信息)。买家在搜索所需要的产品时,电子商务网站会根据卖家发布的产品信息来展示搜索结果,例如,当买家搜索手机时,电子商务网站在所有卖家发布的产品信息中搜索包含手机信息的产品信息,然后将所有包含手机信息的产品信息在网站上展示给买家,以便买家进行选择。
然而,同一卖家在发布产品信息时可能会发布很多重复的产品信息,这样在买家搜索产品时电子商务网站会返回很多重复的产品信息,从而导致买家选择效率的下降。
为了解决这种问题,现有技术中提出了一种产品信息的去重方法,如图1所示,该产品信息的去重方法包括如下步骤:
S102,将用户发布的产品信息存储在服务器中;
S104,定期在线下对服务器中的产品信息进行特征向量的计算,并根据这些特征向量来计算产品信息之间的相关度。例如,每个月计算一次产品信息之间的相关度;
S106,根据上述的相关度来对产品信息进行去重操作。例如,在买家搜索产品信息时指示哪些信息是重复的产品信息。
但是,这样以离线的方式来计算相关度和去重操作,无法实时地对在线的产品信息进行更新,例如,卖家A在星期一发布了两条重复的手机产品信息,由于离线的去重操作尚未执行(例如,需要到下一个星期一才执行下一次去重操作),因此,在下个星期一之前,当买家B搜索手机产品时仍然会出现重复的手机产品信息,从而使得搜索引擎反馈的搜索结果存在很多冗余信息,无法实现实时地对产品信息进行去重操作。
发明内容
本申请的主要目的在于提供一种产品信息的实时去重方法和装置,以至少解决现有技术中无法实现实时地对产品信息进行去重操作的问题。
根据本申请的一个方面,提供了一种产品信息的实时去重方法,其包括:在线接收用户输入的产品更新信息;在线根据产品更新信息对特征向量集合中对应的特征向量进行更新,其中,特征向量集合包括各个产品信息的特征向量,特征向量用于计算产品信息之间的相关度;在线根据更新后的特征向量集合中的特征向量计算产品信息之间的相关度;在线根据相关度判断互为重复的产品信息,并对互为重复的产品信息进行去重操作。
优选的,在线根据产品更新信息对特征向量集合中对应的特征向量进行更新的步骤包括:判断产品更新信息所指示的是对已有的产品信息进行修改或删除还是增加新的产品信息;当产品更新信息所指示的是对已有的产品信息进行修改时,获取修改后的产品信息的特征向量,并将特征向量集合中与已有的产品信息对应的特征向量更新为修改后的产品信息的特征向量;当产品更新信息所指示的是增加新的产品信息时,获取新的产品信息的特征向量,并在特征向量集合中增加新的产品信息的特征向量;当产品更新信息所指示的是对已有的产品信息进行删除时,从特征向量集合中删除已有的产品信息对应的特征向量。
优选的,在线根据产品更新信息对特征向量集合中对应的特征向量进行更新的步骤包括:若产品更新信息指示更新的特征向量的个数超过预定阈值,则分批次对产品更新信息指示的特征向量进行更新,其中,每一批次更新的特征向量的个数不超预定阈值。
优选的,对互为重复的产品信息进行去重操作的步骤包括:对互为重复的产品信息设置类别标记;根据所设置的类别标记对产品信息进行分类,其中,将设置有同种类别标记的产品信息分为一类;将每一个分类中与用户输入的查询信息的相似度最高的产品信息发送给前端Web页面进行展示。
优选的,根据相关度对产品信息进行分类的步骤包括:根据相关度对同一用户下的所有产品信息进行分类。
优选的,在线根据相关度判断互为重复的产品信息的步骤包括:若在预定的时间内无法判断出互为重复的产品信息,则将待判断的产品信息发送给前端Web页面进行展示。
根据本申请的另一方面,提供了一种产品信息的实时去重装置,其包括:接收单元,用于在线接收用户输入的产品更新信息;更新单元,用于在线根据产品更新信息对特征向量集合中对应的特征向量进行更新,其中,特征向量集合包括各个产品信息的特征向量,特征向量用于计算产品信息之间的相关度;计算单元,用于在线根据更新后的特征向量集合中的特征向量计算产品信息之间的相关度;去重单元,用于在线根据相关度判断互为重复的产品信息,并对互为重复的产品信息进行去重操作。
优选的,更新单元包括:判断模块,用于判断产品更新信息所指示的是对已有的产品信息进行修改或删除还是增加新的产品信息;处理模块,用于当产品更新信息所指示的是对已有的产品信息进行修改时,获取修改后的产品信息的特征向量,并将特征向量集合中与已有的产品信息对应的特征向量更新为修改后的产品信息的特征向量;当产品更新信息所指示的是增加新的产品信息时,获取新的产品信息的特征向量,并在特征向量集合中增加新的产品信息的特征向量;当产品更新信息所指示的是对已有的产品信息进行删除时,从特征向量集合中删除已有的产品信息对应的特征向量。
优选的,处理模块还用于在产品更新信息指示更新的特征向量的个数超过预定阈值时分批次对产品更新信息指示的特征向量进行更新,其中,每一批次更新的特征向量的个数不超预定阈值。
优选的,去重单元包括:分类模块,用于对互为重复的产品信息设置类别标记,并根据所设置的类别标记对产品信息进行分类,其中,将设置有同种类别标记的产品信息分为一类;发布模块,用于将每一个分类中与用户输入的查询信息的相似度最高的产品信息发送给前端Web页面进行展示。
优选的,发布模块还用于在预定的时间内无法判断出互为重复的产品信息时,将待判断的产品信息发送给前端Web页面进行展示。
通过本申请的技术方案,能够达到以下有益效果:
1)通过在线实时地根据所述产品更新信息对特征向量集合中对应的特征向量进行更新,使得用户更新产品信息时相应地会对产品信息之间的相似度进行重新计算,而不是每隔预定的时间计算一次相似度,这样可以实时地根据产品信息的更新来确定互为重复的产品信息,从而解决了现有技术中无法实现实时地对产品信息进行去重操作的问题,减少了搜索引擎反馈的搜索结果中的冗余信息,提高了搜索结果的准确性;
2)对现有的产品信息发布流程进行了改进,在对更新的产品信息进行审核之后,向后台服务器发送特征向量请求消息,这样通过占用很少系统资源的消息指令能够实时地启动相似度计算的操作;
3)通过对每次更新的特征向量的个数进行控制,将每次计算特征向量以及相似度的时间控制在一定的范围之内,从而在用户更新产品信息之后的预定时间内能够实现实时地对产品信息进行去重操作,提高了在线实时处理的效率;
4)通过在线展示每一个分类中相似度最高的产品信息,减少了搜索引擎反馈的搜索结果中的冗余信息,使得搜索结果能够快速的从服务器端传输至客户端,并提高了搜索结果的准确性。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据现有技术中的产品信息的去重方法的流程图;
图2是根据本申请实施例的产品信息的去重方法的流程图;
图3是根据本申请实施例的产品信息的去重装置的一种优选结构示意图;
图4是根据本申请实施例的产品信息的去重装置的另一种优选结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在描述本申请的各实施例的进一步细节之前,将描述可用于实现本申请的原理的一个合适的计算体系结构。在以下描述中,除非另外指明,否则将参考由一个或多个计算机执行的动作和操作的符号表示来描述本申请的各实施例。由此,可以理解,有时被称为计算机执行的这类动作和操作包括计算机的处理单元对以结构化形式表示数据的电信号的操纵。这一操纵转换了数据或在计算机的存储器系统中的位置上维护它,这以本领域的技术人员都理解的方式重配置或改变了计算机的操作。维护数据的数据结构是具有数据的格式所定义的特定属性的存储器的物理位置。然而,尽管在上述上下文中描述本申请,但它并不意味着限制性的,如本领域的技术人员所理解的,后文所描述的动作和操作的各方面也可用硬件来实现。
转向附图,其中相同的参考标号指代相同的元素,本申请的原理被示为在一个合适的计算环境中实现。以下描述基于所述的本申请的实施例,并且不应认为是关于此处未明确描述的替换实施例而限制本申请。
本申请的原理可以使用其它通用或专用计算或通信环境或配置来操作。适用于本申请的众所周知的计算系统、环境和配置的示例包括但不限于,个人计算机、服务器,多处理器系统、基于微处理的系统、小型机、大型计算机、以及包括任一上述系统或设备的分布式计算环境。
在其最基本的配置中,产品信息的实时去重装置可以位于服务器内。服务器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置、用于存储数据的存储装置以及与客户端通信的传输装置。在本说明书和权利要求书中,“产品信息的实时去重装置”也可以被定义为能够执行软件、固件或微码来实现功能的任何硬件组件或硬件组件的组合。产品信息的实时去重装置甚至可以是分布式的,以实现分布式功能。
如本申请所使用的,术语“子模块”、“模块”、“组件”或“单元”可以指在产品信息的实时去重装置上执行的软件对象或例程。此处所描述的不同组件、子模块、模块、单元、引擎和服务可被实现为在产品信息的实时去重装置上执行(例如,作为单独的线程)的对象或进程。尽管此处所描述的系统和方法较佳地以软件来实现,但是硬件或软件和硬件的组合的实现也是可能并被构想的。
实施例1
图2是根据本申请实施例的产品信息的去重方法的流程图,其包括如下步骤:
S202,在线接收用户输入的产品更新信息,优选的,该产品更新信息包括:待更新的产品信息的特征向量,这里,产品信息的特征向量包括:产品的标题、产品的属性(类似于产品的颜色)、产品的关键词等;
S204,在线根据所述产品更新信息对特征向量集合中对应的特征向量进行更新,其中,特征向量集合包括各个产品信息的特征向量,上述特征向量用于计算两个产品信息之间的相关度;例如,假设产品更新信息中指示的待修改的产品信息为A,其对应的特征向量为A1、A2和A3,在更新的过程中,在线将特征向量集合中先前存储的产品信息A的特征向量更新为特征向量A1、A2和A3。
S206,在线根据更新后的特征向量集合中的特征向量计算产品信息之间的相关度;优选的,根据待更新的产品信息的特征向量与特征向量集合中其他产品信息的特征向量来计算待更新的产品信息与各个其他产品信息之间的相关度。例如,假设特征向量集合中包括产品信息B和C的特征向量(B1、B2和B3、以及C1、C2和C3),在计算相关度的过程中,通过(A1、A2和A3)和(B1、B2和B3)以及(C1、C2和C3)来计算产品信息A与B之间的相关度,以及产品信息A与C之间的相关度。以计算产品信息A与B之间的相关度为例,可以通过A1和B1之间的相似度S1、A2和B2之间的相似度S2、A3和B3之间的相似度S3来判断A与B之间的相关度,具体的判断和计算过程可以根据实际需求来进行调整。
S208,在线根据所述相关度判断互为重复的产品信息,并对所述互为重复的产品信息进行去重操作。
在本实施例中,通过在线实时地根据所述产品更新信息对特征向量集合中对应的特征向量进行更新,使得用户更新产品信息时相应地会对产品信息之间的相似度进行重新计算,而不是每隔预定的时间计算一次相似度,这样可以实时地根据产品信息的更新来确定互为重复的产品信息,从而解决了现有技术中无法实现实时地对产品信息进行去重操作的问题,减少了搜索引擎反馈的搜索结果中的冗余信息,使得搜索结果能够快速的从服务器端传输至客户端,并提高了搜索结果的准确性;进一步,由于可以实时地进行去重操作,使得网站无法通过重复发布相同的产品信息来达到增加用户点击这些产品信息的可能性的目的。
在线根据所述产品更新信息对特征向量集合中对应的特征向量进行更新的过程中,首先,判断所述产品更新信息所指示的是对已有的产品信息进行修改或删除还是增加新的产品信息,优选的,特征向量集合中对应的特征向量指的是产品更新信息所指示更新的产品信息在特征向量集合中先前存储的特征向量,优选的,每一个产品信息在特征向量集合中都记录有该产品信息的ID标识以及该产品信息的特征向量。这里判断结果存在以下三种可能:
1)当所述产品更新信息所指示的是对已有的产品信息进行修改时,获取修改后的产品信息的特征向量,并将所述特征向量集合中与所述已有的产品信息对应的特征向量更新为所述修改后的产品信息的特征向量;例如,假设产品更新信息中指示对产品信息A进行修改,并且产品更新信息中记录了修改后的产品信息A的特征向量为A1、A2和A3,在更新的过程中,在线将特征向量集合中先前存储的产品信息A的特征向量更新为特征向量A1、A2和A3。
2)当所述产品更新信息所指示的是增加新的产品信息时,获取所述新的产品信息的特征向量,并在所述特征向量集合中增加所述新的产品信息的特征向量;例如,假设产品更新信息中指示对产品信息B进行增加,并且产品更新信息中记录了增加的产品信息B的特征向量为B1、B2和B3,在更新的过程中,在线将特征向量集合中增加产品信息B的记录项,例如,该记录项包括:产品信息B的ID标识以及特征向量B1、B2和B3。
3)当所述产品更新信息所指示的是对已有的产品信息进行删除时,从所述特征向量集合中删除所述已有的产品信息对应的特征向量。例如,假设产品更新信息中指示对产品信息C进行删除,并且产品更新信息中记录了删除的产品信息C的特征向量为C1、C2和C3,在更新的过程中,在线将特征向量集合中删除产品信息C的记录项,例如,删除该记录项中产品信息C的ID标识以及特征向量C1、C2和C3。
为了实现实时地去重操作,本实施例对现有的产品信息发布流程进行了改进。具体而言,在线接收用户输入的产品更新信息,然后对所述产品更新信息进行审核;若审核通过,则向后台服务器发送获取特征向量请求消息,这里,审核操作可以包括对产品更新信息的发布格式和发布者的权限等进行审核,具体审核步骤可以使用现有技术中的方法,本申请在此不再赘述;所述后台服务器响应所述计算特征向量请求消息计算所述修改后的产品信息的特征向量或者所述新的产品信息的特征向量。在本实施例中,对现有的产品信息发布流程进行了改进,在对更新的产品信息进行审核之后,向后台服务器发送特征向量请求消息,这样通过一条请求消息即能够实时地启动相似度计算的操作。
本实施例还提出了一种对在线实时处理时间进行控制的方案,以便控制每次计算相似度的时间。具体而言,在在线根据所述产品更新信息对特征向量集合中对应的特征向量进行更新的过程中,若所述产品更新信息指示更新的特征向量的个数超过预定阈值,则分批次对所述产品更新信息指示的特征向量进行更新,其中,每一批次更新的特征向量的个数不超所述预定阈值。在本实施例中,通过对每次更新的特征向量的个数进行控制,将每次计算特征向量以及相似度的时间控制在一定的范围之内,从而在用户更新产品信息之后的预定时间内能够实现实时地对产品信息进行去重操作,提高了在线实时处理的效率。
本实施例还提出了一种在线展示方法,以便实时将去重后的产品信息展示在搜索结果中,提高了搜索结果的准确性。具体而言,在对所述互为重复的产品信息进行去重操作的过程中,对所述互为重复的产品信息设置类别标记;根据所设置的类别标记对所述产品信息进行分类,其中,将设置有同种类别标记的产品信息分为一类;将每一个分类中与用户输入的查询信息的相似度最高的产品信息发送给前端Web页面进行展示。在本实施例中,通过在线展示每一个分类中相似度最高的产品信息,减少了搜索引擎反馈的搜索结果中的冗余信息,使得搜索结果能够快速的从服务器端传输至客户端,并提高了搜索结果的准确性。
根据所述相关度对所述产品信息进行分类的步骤包括:根据所述相关度对同一用户下的所有产品信息进行分类。
本申请还提供出一种优选的展示方法,其用于在去重不及时的情况下能够优先将用户的产品信息发送给前端Web页面进行展示。具体而言,在线根据所述相关度判断互为重复的产品信息的步骤包括:若在预定的时间内无法判断出互为重复的产品信息,则将待判断的产品信息发送给前端Web页面进行展示。
实施例2
图3是根据本申请实施例的产品信息的去重装置的一种优选结构示意图,其包括:接收单元302,用于在线接收用户输入的产品更新信息;更新单元304,用于在线根据产品更新信息对特征向量集合中对应的特征向量进行更新,其中,特征向量集合包括各个产品信息的特征向量,特征向量用于计算产品信息之间的相关度;计算单元306,用于在线根据更新后的特征向量集合中的特征向量计算产品信息之间的相关度;去重单元308,用于在线根据相关度判断互为重复的产品信息,并对互为重复的产品信息进行去重操作。
在本实施例中,通过在线实时地根据所述产品更新信息对特征向量集合中对应的特征向量进行更新,使得用户更新产品信息时相应地会对产品信息之间的相似度进行重新计算,而不是每隔预定的时间计算一次相似度,这样可以实时地根据产品信息的更新来确定互为重复的产品信息,从而解决了现有技术中无法实现实时地对产品信息进行去重操作的问题,减少了搜索引擎反馈的搜索结果中的冗余信息,提高了搜索结果的准确性;进一步,由于可以实时地进行去重操作,使得网站无法通过重复发布相同的产品信息来达到增加用户点击这些产品信息的可能性的目的。
更新单元304包括:判断模块3041,用于判断产品更新信息所指示的是对已有的产品信息进行修改或删除还是增加新的产品信息;处理模块3042,用于当产品更新信息所指示的是对已有的产品信息进行修改时,获取修改后的产品信息的特征向量,并将特征向量集合中与已有的产品信息对应的特征向量更新为修改后的产品信息的特征向量;当产品更新信息所指示的是增加新的产品信息时,获取新的产品信息的特征向量,并在特征向量集合中增加新的产品信息的特征向量;当产品更新信息所指示的是对已有的产品信息进行删除时,从特征向量集合中删除已有的产品信息对应的特征向量。
为了实现实时地去重操作,本实施例对现有的产品信息发布流程进行了改进。具体而言,接收单元302在线接收用户输入的产品更新信息,然后接收单元302对所述产品更新信息进行审核;若审核通过,则向更新单元304发送获取特征向量请求消息;所述更新单元304响应所述计算特征向量请求消息计算所述修改后的产品信息的特征向量或者所述新的产品信息的特征向量。在本实施例中,对现有的产品信息发布流程进行了改进,在对更新的产品信息进行审核之后,发送特征向量请求消息,这样通过占用一条请求消息能够实时地启动相似度计算的操作。
本实施例还提出了一种对在线实时处理时间进行控制的方案,以便控制每次计算相似度的时间。具体而言,处理模块3042还用于在产品更新信息指示更新的特征向量的个数超过预定阈值时分批次对产品更新信息指示的特征向量进行更新,其中,每一批次更新的特征向量的个数不超预定阈值。在本实施例中,通过对每次更新的特征向量的个数进行控制,将每次计算特征向量以及相似度的时间控制在一定的范围之内,从而在用户更新产品信息之后的预定时间内能够实现实时地对产品信息进行去重操作,提高了在线实时处理的效率。
本实施例还提出了一种在线展示方案,以便实时将去重后的产品信息展示在搜索结果中,提高了搜索结果的准确性。具体而言,去重单元308包括:分类模块3081,用于对所述互为重复的产品信息设置类别标记,并根据所设置的类别标记对所述产品信息进行分类,其中,将设置有同种类别标记的产品信息分为一类;发布模块3082,用于将每一个分类中与用户输入的查询信息的相似度最高的产品信息发送给前端Web页面进行展示。在本实施例中,通过在线展示每一个分类中与用户输入的查询信息的相似度最高的产品信息,减少了搜索引擎反馈的搜索结果中的冗余信息,提高了搜索结果的准确性。
在所述相关度对所述产品信息进行分类的过程中,分类模块3081根据所述相关度对同一用户下的所有产品信息进行分类。
本申请还提供出一种优选的发布模块,其用于在去重不及时的情况下能够优先将用户的产品信息发送给前端Web页面进行展示。具体而言,所述发布模块还用于在预定的时间内无法判断出互为重复的产品信息时,将待判断的产品信息发送给前端Web页面进行展示。
实施例3
图4是根据本申请实施例的产品信息的去重装置的另一种优选结构示意图,如图4所示,上面部分所示的去重系统主要由Offline(线下)模块、Online(线上)模块、Update(更新)模块、ID(标识)分配器模块、Offer(产品)队列管理模块等组成。
Offline模块主要对网站服务器存储的所有产品(Offer)信息进行聚类,生成各个产品信息的特征向量的主索引文件,并计算得到每个产品信息所属的类别的类标识,然后把这些信息(包括产品信息、该产品信息的特征向量、该产品信息的所属的类别)存入数据库,此模块只在系统使用前被调用一次。优选的,上述不同类别的产品信息为不同的产品信息。
Online模块以服务的形式负责接收传入的Offer,使用主索引和增量数据表进行判断,返回此Offer是否重复及其所属的类别的类标识(ClusterID)等信息,并将此Offer的特征向量信息保存在增量数据表中。
Update模块负责更新索引,此模块使用线上Offer数据库中的信息对主索引和增量数据表中的信息进行过滤,并将主索引和增量数据表中的数据进行合并,生成新的主索引文件,同时调用ID分配器回收所有未使用的类标识(ClusterID)。
ID分配器主要负责配合Online模块进行32位数字ID的分配,用于对每个产品信息的类别进行唯一编号,也就是说,同一个类别中,多个产品信息具有相同的类标识。
Offer队列管理模块主要是应用于服务器端,接收应用端发送的Offer信息,并进行队列管理,依次使用Online模块进行判断,并返回结果,以保证Online模块不过度繁忙。
在实时对产品信息进行去重操作时,本实施例的产品信息的去重装置在初始化的过程中对网站服务器中存储的上亿offer进行分布式的离线计算,得到所有offer之间的相似度关系,并根据相似度来对所有的Offer进行分类,并把这些信息(包括产品信息、该产品信息的特征向量、该产品信息的所属的类别)存到数据库里;同时对于用户实时发布(Post)的offer批量去请求去重系统进行服务,实时得到增量的offer的类别信息,然后根据增量的offer的类别信息来更新数据库。在搜索的过程中,用户输入查询信息到搜索引擎,搜索引擎从数据库中查找与查询信息所对应的一个或多个类别,并在查找到的一个或多个类别中输出并展示与查询信息相似度最高的产品信息,即实现了高效的去重展示,从而防止用户发重复产品的作弊行为。本实施例不仅实时地用户增量offer数据的实时去重展示,而且去重的准确率和搜索展示效率都非常高。
在本实施例中,后台服务器从数据库中得到每个产品的信息及相应的类信息,然后把这些产品放到数据预处理系统进行数据的预处理,最后把数据预处理系统产生的数据发送给用于建立产品索引的服务器。搜索引擎开发去重复的功能,对同一个类别中的产品信息进行排序,展示与用户输入的查询条件的相关性最高的那条offer。
在本实施例中,计算重复offer和搜索引擎底层的程序用c++开发比较适合,相对比较高效;网站所有offer信息的类信息计算需要分布式的数据预处理系统环境,这样可以保证计算效率;数据库系统(oracle)具有比较强大的同步和触发机制,能够保证数据的准确性和一致性。
在本实施例中,对于增量offer数据实时计算每个offer间的相似度,得到类信息,而网站产品信息的相似度判断(重复判断)是利用结构化数据的多维度向量计算相关性来完成的,这种方法是普遍用于判断事物相似度的方法。在本实施例中,对相似度计算算法要求较高,在选择相似度计算(重复判断)算法时,可用如下算法:Match、Shingliing、SimHash(localitysensitivehash)、RandomProjection、SpotSig等。
在本实施例中,从数据库获取到数据(例如,产品信息的特征向量等)后,后台服务器具备异常处理的能力,以保证数据不会被错误的去除。搜索引擎必须对所有的产品判断其类信息,从而进行offer分组排序,每个类里面返回相似度最高的那个offer给前端web页面展示,其中,整个响应时间必须在可接受范围内。
另外,在实时信息去重技术方案时,应按照业务实时性的要求有差别的选择索引构建技术框架,同时需考虑当实时计算相似度超时时,应该有相应的补偿机制。最后,根据不同的商业业务要求,可将横向信息(有限定要求的信息集)替换为纵向信息(无限定要求的信息集合)的去重。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (12)

1.一种产品信息的实时去重方法,其特征在于,包括:
在线接收用户输入的产品更新信息;
在线根据所述产品更新信息对特征向量集合中对应的特征向量进行更新,其中,所述特征向量集合包括各个产品信息的特征向量,所述特征向量用于计算所述产品信息之间的相关度;
在线根据更新后的特征向量集合中的特征向量计算所述产品信息之间的相关度;
在线根据所述相关度判断互为重复的产品信息,并对所述互为重复的产品信息进行去重操作。
2.根据权利要求1所述的方法,其特征在于,在线根据所述产品更新信息对特征向量集合中对应的特征向量进行更新的步骤包括:
判断所述产品更新信息所指示的是对已有的产品信息进行修改或删除还是增加新的产品信息;
当所述产品更新信息所指示的是对已有的产品信息进行修改时,获取修改后的产品信息的特征向量,并将所述特征向量集合中与所述已有的产品信息对应的特征向量更新为所述修改后的产品信息的特征向量;
当所述产品更新信息所指示的是增加新的产品信息时,获取所述新的产品信息的特征向量,并在所述特征向量集合中增加所述新的产品信息的特征向量;
当所述产品更新信息所指示的是对已有的产品信息进行删除时,从所述特征向量集合中删除所述已有的产品信息对应的特征向量。
3.根据权利要求2所述的方法,其特征在于,通过以下步骤获取所述修改后的产品信息的特征向量或者所述新的产品信息的特征向量:
对所述产品更新信息进行审核;
若审核通过,则向后台服务器发送获取特征向量请求消息;
所述后台服务器响应所述计算特征向量请求消息来获取所述修改后的产品信息的特征向量或者所述新的产品信息的特征向量。
4.根据权利要求1所述的方法,其特征在于,在线根据所述产品更新信息对特征向量集合中对应的特征向量进行更新的步骤包括:
若所述产品更新信息指示更新的特征向量的个数超过预定阈值,则分批次对所述产品更新信息指示的特征向量进行更新,其中,每一批次更新的特征向量的个数不超所述预定阈值。
5.根据权利要求1所述的方法,其特征在于,对所述互为重复的产品信息进行去重操作的步骤包括:
对所述互为重复的产品信息设置类别标记;
根据所设置的类别标记对所述产品信息进行分类,其中,将设置有同种类别标记的产品信息分为一类;
将每一个分类中与用户输入的查询信息的相似度最高的产品信息发送给前端Web页面进行展示。
6.根据权利要求5所述的方法,其特征在于,根据所述相关度对所述产品信息进行分类的步骤包括:根据所述相关度对同一用户下的所有产品信息进行分类。
7.根据权利要求1所述的方法,其特征在于,在线根据所述相关度判断互为重复的产品信息的步骤包括:若在预定的时间内无法判断出互为重复的产品信息,则将待判断的产品信息发送给前端Web页面进行展示。
8.一种产品信息的实时去重装置,其特征在于,包括:
接收单元,用于在线接收用户输入的产品更新信息;
更新单元,用于在线根据所述产品更新信息对特征向量集合中对应的特征向量进行更新,其中,特征向量集合包括各个产品信息的特征向量,所述特征向量用于计算所述产品信息之间的相关度;
计算单元,用于在线根据更新后的特征向量集合中的特征向量计算所述产品信息之间的相关度;
去重单元,用于在线根据所述相关度判断互为重复的产品信息,并对所述互为重复的产品信息进行去重操作。
9.根据权利要求8所述的装置,其特征在于,所述更新单元包括:
判断模块,用于判断所述产品更新信息所指示的是对已有的产品信息进行修改或删除还是增加新的产品信息;
处理模块,用于当所述产品更新信息所指示的是对已有的产品信息进行修改时,获取修改后的产品信息的特征向量,并将所述特征向量集合中与所述已有的产品信息对应的特征向量更新为所述修改后的产品信息的特征向量;当所述产品更新信息所指示的是增加新的产品信息时,获取所述新的产品信息的特征向量,并在所述特征向量集合中增加所述新的产品信息的特征向量;当所述产品更新信息所指示的是对已有的产品信息进行删除时,从所述特征向量集合中删除所述已有的产品信息对应的特征向量。
10.根据权利要求9所述的装置,其特征在于,所述处理模块还用于在所述产品更新信息指示更新的特征向量的个数超过预定阈值时分批次对所述产品更新信息指示的特征向量进行更新,其中,每一批次更新的特征向量的个数不超所述预定阈值。
11.根据权利要求8所述的装置,其特征在于,所述去重单元包括:
分类模块,用于对所述互为重复的产品信息设置类别标记,并根据所设置的类别标记对所述产品信息进行分类,其中,将设置有同种类别标记的产品信息分为一类;
发布模块,用于将每一个分类中与用户输入的查询信息的相似度最高的产品信息发送给前端Web页面进行展示。
12.根据权利要求11所述的装置,其特征在于,所述发布模块还用于在预定的时间内无法判断出互为重复的产品信息时,将待判断的产品信息发送给前端Web页面进行展示。
CN201110358156.3A 2011-11-11 2011-11-11 产品信息的实时去重方法和装置 Active CN103106585B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN201110358156.3A CN103106585B (zh) 2011-11-11 2011-11-11 产品信息的实时去重方法和装置
TW101107351A TW201319982A (zh) 2011-11-11 2012-03-05 產品資訊的即時去重複方法和裝置
US13/672,336 US20130124368A1 (en) 2011-11-11 2012-11-08 Performing deduplication on product information search results
EP12788076.3A EP2801042A4 (en) 2011-11-11 2012-11-09 IMPLEMENTING DEDUPLICATION OF PRODUCT INFORMATION SEARCH RESULTS
PCT/US2012/064330 WO2013071026A2 (en) 2011-11-11 2012-11-09 Performing deduplication on product information search results
JP2014534837A JP5808497B2 (ja) 2011-11-11 2012-11-09 製品情報検索結果に対する重複排除の実施
HK13108672.3A HK1181535A1 (zh) 2011-11-11 2013-07-24 產品信息的實時去重方法和裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110358156.3A CN103106585B (zh) 2011-11-11 2011-11-11 产品信息的实时去重方法和装置

Publications (2)

Publication Number Publication Date
CN103106585A CN103106585A (zh) 2013-05-15
CN103106585B true CN103106585B (zh) 2016-05-04

Family

ID=48281555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110358156.3A Active CN103106585B (zh) 2011-11-11 2011-11-11 产品信息的实时去重方法和装置

Country Status (7)

Country Link
US (1) US20130124368A1 (zh)
EP (1) EP2801042A4 (zh)
JP (1) JP5808497B2 (zh)
CN (1) CN103106585B (zh)
HK (1) HK1181535A1 (zh)
TW (1) TW201319982A (zh)
WO (1) WO2013071026A2 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268135B (zh) * 2013-07-30 2018-01-23 深圳市华傲数据技术有限公司 一种记录对决策方法和装置
WO2015013954A1 (en) 2013-08-01 2015-02-05 Google Inc. Near-duplicate filtering in search engine result page of an online shopping system
CN104715374A (zh) * 2013-12-11 2015-06-17 世纪禾光科技发展(北京)有限公司 一种电子商务平台重复产品的治理方法和系统
CN104915440B (zh) * 2015-06-26 2018-12-11 苏宁易购集团股份有限公司 一种商品排重方法和系统
US10218728B2 (en) * 2016-06-21 2019-02-26 Ebay Inc. Anomaly detection for web document revision
CN107451879B (zh) * 2017-06-12 2018-11-02 北京小度信息科技有限公司 信息判断方法及装置
CN107656966A (zh) * 2017-08-28 2018-02-02 深圳市诚壹科技有限公司 一种处理数据的方法及服务器
CN107678856B (zh) * 2017-09-20 2022-04-05 苏宁易购集团股份有限公司 一种处理业务实体中增量信息的方法及装置
CN109299093A (zh) * 2018-09-17 2019-02-01 平安科技(深圳)有限公司 Hive数据库中拉链表的更新方法、装置和计算机设备
CN110012150B (zh) * 2019-02-20 2021-07-30 维沃移动通信有限公司 一种消息显示方法及终端设备
CN110287398B (zh) * 2019-06-26 2021-07-06 腾讯科技(深圳)有限公司 一种信息更新的方法以及相关装置
TWI742568B (zh) * 2020-03-17 2021-10-11 昕力資訊股份有限公司 通用型資料庫模糊搜索的電腦程式產品及裝置
US20210304121A1 (en) * 2020-03-30 2021-09-30 Coupang, Corp. Computerized systems and methods for product integration and deduplication using artificial intelligence
CN112633736A (zh) * 2020-12-30 2021-04-09 上海魔橙网络科技有限公司 基于区块链系统的风险监测方法、系统及装置
WO2024010122A1 (ko) * 2022-07-08 2024-01-11 엘지전자 주식회사 Ess 기반 인공 지능 장치 및 그의 에너지 예측 모델 군집화 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206752A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 电子商务网站相关商品推荐系统及其方法
CN102037465A (zh) * 2008-04-14 2011-04-27 阿尔卡特朗讯 使冗余最小化的Web馈送聚合方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7082426B2 (en) * 1993-06-18 2006-07-25 Cnet Networks, Inc. Content aggregation method and apparatus for an on-line product catalog
US5940807A (en) * 1996-05-24 1999-08-17 Purcell; Daniel S. Automated and independently accessible inventory information exchange system
US6795819B2 (en) * 2000-08-04 2004-09-21 Infoglide Corporation System and method for building and maintaining a database
US6658423B1 (en) * 2001-01-24 2003-12-02 Google, Inc. Detecting duplicate and near-duplicate files
US20040098315A1 (en) * 2002-11-19 2004-05-20 Haynes Leonard Steven Apparatus and method for facilitating the selection of products by buyers and the purchase of the selected products from a supplier
JP2004362503A (ja) * 2003-06-09 2004-12-24 Dainippon Printing Co Ltd 小組データ作成システムおよび小組データ更新方法
US7809695B2 (en) * 2004-08-23 2010-10-05 Thomson Reuters Global Resources Information retrieval systems with duplicate document detection and presentation functions
WO2007041416A2 (en) * 2005-09-30 2007-04-12 Medcom Solutions, Inc. System and method for reviewing and implementing requested updates to a primary database
US20080034058A1 (en) * 2006-08-01 2008-02-07 Marchex, Inc. Method and system for populating resources using web feeds
US8234107B2 (en) * 2007-05-03 2012-07-31 Ketera Technologies, Inc. Supplier deduplication engine
US8494909B2 (en) * 2009-02-09 2013-07-23 Datalogic ADC, Inc. Automatic learning in a merchandise checkout system with visual recognition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206752A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 电子商务网站相关商品推荐系统及其方法
CN102037465A (zh) * 2008-04-14 2011-04-27 阿尔卡特朗讯 使冗余最小化的Web馈送聚合方法

Also Published As

Publication number Publication date
JP2015501469A (ja) 2015-01-15
EP2801042A4 (en) 2015-09-16
WO2013071026A3 (en) 2014-10-09
US20130124368A1 (en) 2013-05-16
HK1181535A1 (zh) 2013-11-08
WO2013071026A2 (en) 2013-05-16
EP2801042A2 (en) 2014-11-12
JP5808497B2 (ja) 2015-11-10
CN103106585A (zh) 2013-05-15
TW201319982A (zh) 2013-05-16

Similar Documents

Publication Publication Date Title
CN103106585B (zh) 产品信息的实时去重方法和装置
CN107464151B (zh) 高并发业务的订单数据处理方法及装置
CN104838377A (zh) 利用映射缩减集成事件处理
WO2013078231A1 (en) Distributed data stream processing method and system
CN109213598A (zh) 一种资源分配方法、装置及计算机可读存储介质
CN110347545A (zh) 一种业务平台缓存策略的测试方法及装置
CN108647357A (zh) 数据查询的方法及装置
CN107302573A (zh) 一种信息推送方法、装置、电子设备及存储介质
CN112287015A (zh) 画像生成系统及其方法、电子设备及存储介质
CN103514181A (zh) 一种搜索方法和装置
CN106339408A (zh) 数据同步方法、数据同步装置和服务器
CN109039817A (zh) 一种用于流量监控的信息处理方法和装置
CN102982112A (zh) 排行榜生成方法、日志生成方法和服务器
CN107918617A (zh) 数据查询方法和装置
CN107967279A (zh) 分布式数据库的数据更新方法及装置
CN113791586A (zh) 一种新型的工业app与标识注册解析集成方法
CN108304591A (zh) 一种标签的定制方法、系统及终端设备
CN111585798A (zh) 一种网络资源参数配置方法、装置和计算机可读存储介质
CN115309767A (zh) 一种数据融合方法和装置
CN110442647A (zh) 数据一致性同步方法、装置及计算机可读存储介质
CN102724290B (zh) 一种获取目标客户群的方法、设备及系统
CN102364475A (zh) 基于身份识别对检索结果排序的系统及方法
CN109977139A (zh) 基于类结构化查询语句的数据处理方法和装置
CN111523921B (zh) 漏斗分析方法、分析设备、电子设备及可读存储介质
CN108985805A (zh) 一种选择性执行推送任务的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1181535

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1181535

Country of ref document: HK