CN104850555B

CN104850555B - 一种提取标准描述信息的方法及装置

Info

Publication number: CN104850555B
Application number: CN201410052145.6A
Authority: CN
Inventors: 农子盛; 金伟; 孟凡光
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba China Network Technology Co Ltd
Priority date: 2014-02-14
Filing date: 2014-02-14
Publication date: 2018-07-10
Anticipated expiration: 2034-02-14
Also published as: HK1208935A1; CN104850555A

Abstract

本发明公开了一种提取标准描述信息的方法，应用于分布式系统，其中，主设备读取需要处理的多条模糊描述信息，模糊描述信息由若干属性及其对应的属性内容表达；主设备根据模糊描述信息的属性及属性内容确定与模糊描述信息一一对应的描述值；主设备根据模糊描述信息对应的描述值对处理设备的数量求余，由所得余数确定模糊描述信息对应的处理设备；主设备将模糊描述信息分发给模糊描述信息对应的处理设备；处理设备对接收到的模糊描述信息进行标准描述信息的提取，由于相同的模糊描述信息可以尽可能地被分发到同一处理设备进行标准描述信息的提取，因此，提取标准描述信息效率高且更加准确。另外，本发明还公开了一种提取标准描述信息的装置。

Description

一种提取标准描述信息的方法及装置

技术领域

本发明涉及计算机应用领域，特别涉及一种提取标准描述信息的方法及装置。

背景技术

具有商品标准描述库对电子商务网站来说是非常重要的，对卖家而言，可以直接利用库中已有的商品标准描述信息发布商品信息，对于买家而言，利用商品标准描述信息进行商品搜索则更加精确，且便于比较同类产品。

目前，为了快速建立商品描述库，通常会首先收集大量的商品模糊描述信息，再将这些商品模糊描述信息随机分发到各个处理设备上进行数据去噪处理，提取到商品标准描述信息。

发明内容

但是，由于不同类型的商品的描述信息呈现不同的特点，随机分发到各个处理设备上进行数据去噪处理，需要处理设备频繁切换处理规则，不仅效率低下，而且所得到的标准描述信息也不够准确。

有鉴于此，本发明的主要目的在于提供一种提取标准描述信息的方法及装置以实现高效率准确地提取到标准描述信息的目的。

在本发明实施例的第一个方面，提供了一种提取标准描述信息的方法，应用于分布式系统中的主设备，其中，所述分布式系统包括至少一个主设备以及至少两个处理设备，例如，该方法可以包括：读取需要处理的多条模糊描述信息，其中，所述模糊描述信息由若干属性及其对应的属性内容表达；根据所述模糊描述信息的属性及属性内容确定与所述模糊描述信息一一对应的描述值；根据所述模糊描述信息对应的描述值对所述处理设备的数量求余，由所得余数确定所述模糊描述信息对应的处理设备；将所述模糊描述信息分发给所述模糊描述信息对应的处理设备，以便处理设备接收主设备分发的模糊描述信息，对接收到的模糊描述信息进行标准描述信息的提取。

在本发明实施例的第二个方面，提供了一种提取标准描述信息的装置，配置于分布式系统中的主设备，其中，所述分布式系统包括至少一个主设备以及至少两个处理设备，例如，该装置可以包括：读取单元，用于读取需要处理的多条模糊描述信息，其中，所述模糊描述信息由若干属性及其对应的属性内容表达；信息描述第一单元，用于根据所述模糊描述信息的属性及属性内容确定与所述模糊描述信息一一对应的描述值；处理设备确定单元，用于根据所述模糊描述信息对应的描述值对所述处理设备的数量求余，由所得余数确定所述模糊描述信息对应的处理设备；分发单元，用于将所述模糊描述信息分发给所述模糊描述信息对应的处理设备，以便处理设备接收主设备分发的模糊描述信息，对接收到的模糊描述信息进行标准描述信息的提取。

在本发明实施例的第三个方面，提供了另一种提取标准描述信息的方法，应用于分布式系统中的处理设备，其中，所述分布式系统包括至少一个主设备以及至少两个处理设备，例如，所述方法可以包括：接收主设备分发的模糊描述信息，其中，所述模糊描述信息由若干属性及其对应的属性内容表达，所述模糊描述信息具体由主设备在读取需要处理的多条模糊描述信息之后，根据所述模糊描述信息的属性及属性内容确定与所述模糊描述信息一一对应的描述值，根据所述模糊描述信息对应的描述值对所述处理设备的数量求余，由所得余数确定所述模糊描述信息对应的处理设备并分发给对应的处理设备；对接收到的模糊描述信息进行标准描述信息的提取。

在本发明实施例的第二个方面，提供了另一种提取标准描述信息的装置，配置于分布式系统中的处理设备，其中，所述分布式系统包括至少一个主设备以及至少两个处理设备，例如，所述装置可以包括：接收单元，用于接收主设备分发的模糊描述信息，其中，所述模糊描述信息由若干属性及其对应的属性内容表达，所述模糊描述信息具体由主设备在读取需要处理的多条模糊描述信息之后，根据所述模糊描述信息的属性及属性内容确定与所述模糊描述信息一一对应的描述值，根据所述模糊描述信息对应的描述值对所述处理设备的数量求余，由所得余数确定所述模糊描述信息对应的处理设备并分发给对应的处理设备；提取单元，用于对接收到的模糊描述信息进行标准描述信息的提取。

可见本发明具有如下有益效果：

由于本发明实施例提供的方法应用于分布式系统，其中，主设备读取的模糊描述信息由若干属性及其对应的属性内容表达，主设备又根据属性及属性内容确定与模糊描述信息一一对应的描述值，再将描述值对处理设备的数量求余，由所得余数确定模糊描述信息对应的处理设备，主设备将模糊描述信息分发给对应的处理设备，因此，相同或相似的模糊描述信息可以尽可能地被分发到同一处理设备进行标准描述信息的提取，可见，一个处理设备所需要处理的模糊描述信息类型相对较少，无需频繁切换不同的处理规则，针对一种类型的模糊描述信息，处理设备所得到的信息量足够多，因此，所提取出的标准描述信息也更加准确。

附图说明

图1是本发明实施例提供的方法应用的系统结构示意图；

图2是本发明实施例提供的提取标准描述信息的方法的流程示意图之一；

图3是本发明实施例涉及的读取内存映射文件的示意图；

图4是本发明实施例提供的提取标准描述信息的方法的流程示意图之二；

图5是本发明实施例提供的提取标准描述信息的装置的结构示意图之一；

图6是本发明实施例提供的提取标准描述信息的装置的结构示意图之二；

图7是本发明实施例提供的提取标准描述信息的方法的流程示意图之三；

图8是本发明实施例提供的提取标准描述信息的方法的流程示意图之四；

图9是本发明实施例提供的提取标准描述信息的装置的结构示意图之三；

图10是本发明实施例提供的提取标准描述信息的装置的结构示意图之四；

图11是本发明实施例提供的提取标准描述信息的装置的结构示意图之五。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明保护的范围。

对于提取标准描述信息的处理设备来说，如果得到的模糊描述信息类型单一，信息量足够大，则可以效率更高，更加准确的提取到标注描述信息。因此，本发明提供如下应用于分布式系统中主设备的提取标准描述信息的方法实施例。其中，本发明实施例所述的分布式系统的架构可以如图1所示，包括至少一个主设备，如主设备110、主设备120，以及至少两个处理设备，如处理设备101、102、103、104。可以理解的是，其中主设备之间，主设备与任意处理设备之间可以具有相应的通信机制以支持数据与消息的互传。

(实施例一)

参见图2，为本发明实施例提供的一种提取标准描述信息的方法的流程图之一，如图所示，该实施例可以包括：

S210、主设备读取需要处理的多条模糊描述信息，其中，所述模糊描述信息由若干属性及其对应的属性内容表达；

例如，所述模糊描述信息可以由商品类别属性及其对应的类别名称、商品名称属性及其对应的商品名称、商品品牌属性及其对应的商品品牌、型号属性及其对应的型号等等来表达。

需要说明的是，本发明实施例中，所述模糊描述信息可以按照一定的收集条件，从例如电子商务网站的后台数据库中收集得到。例如，收集得到的模糊描述信息可以按照一定的格式保存于文件中。其中，所述文件的格式可以按照模糊描述信息的属性，以及属性对应的属性内容来设置。一个文件可以用来保存属于同一类别的模糊描述信息。其中，收集模糊描述信息可以由单独的收集设备收集，也可以由所述主设备收集，在本发明中并不进行限制。

如果本发明实施例所述的分布式系统包括多个主设备，则可以由这些主设备从收集设备读取模糊描述信息，或者由其他主设备从用于收集模糊描述信息的主设备读取模糊描述信息。

S220、主设备根据所述模糊描述信息的属性及属性内容确定与所述模糊描述信息一一对应的描述值；

例如：主设备可以对模糊描述信息的属性及属性内容进行哈希运算，得到与所述模糊描述信息一一对应的哈希值。该哈希值可以作为描述值，或者，也可以将该哈希值进行进一步计算再得到描述值。可以理解的是，对模糊描述信息的属性及属性内容进行哈希运算可以采取一般地哈希算法实现，例如，可以使用Java自带的MD5工具类提供的函数MD5.getMD5ofStr(source)进行哈希计算，得出哈希值，具体过程在本发明中不再详细赘述。

需要说明的是，只要描述值能够唯一表达相同的属性内容即可满足本发明将相同模糊描述信息尽量分发到同一处理设备的需要。因此，还可以存在其他根据模糊描述信息的属性及属性内容确定描述值的具体实现方式，在本发明中并不进行限制。

S230、主设备根据所述模糊描述信息对应的描述值对所述处理设备的数量求余，由所得余数确定所述模糊描述信息对应的处理设备；

例如：主设备可以将对模糊描述信息的属性及属性内容进行哈希运算得到的哈希值对处理设备的数量求余，或者，主设备可以将哈希值进行进一步计算得到的描述值对处理设备的数量求余，由所得余数确定所述模糊描述信息对应的处理设备。

S240、主设备将所述模糊描述信息分发给所述模糊描述信息对应的处理设备，以便处理设备接收主设备分发的模糊描述信息，对接收到的模糊描述信息进行标准描述信息的提取。

其中，所述处理设备对接收到的模糊描述信息进行标准描述信息的提取可以采取一般的提取方式，例如，可以根据商品所属类别的描述信息特点，设置相应的提取规则，再例如，根据不同发布者发布的相同模糊描述信息的记录数超过阈值，确定该模糊描述信息即为标准描述信息，或者，再例如，可以将所接收到的模糊描述信息之间进行比较，将模糊描述信息的属性及属性内容相同的模糊描述信息进行合并，合并出若干个属性及属性内容不同的标准模糊描述信息，或者，还可以有其他实现方式，本发明在此不再赘述。

为了使模糊描述信息以及标准描述信息在读取并映射到内存后，避免被垃圾回收机制给回收掉，可以通过添加SoftReference(软引用)对象的方式来解决数据在内存快速回收的问题。例如，所述模糊描述信息和/或标准描述信息可以在主设备和/或者处理设备上通过添加软引用对象被映射到内存中，在读取所述模糊描述信息和/或标准描述信息时，从内存中读取。例如，所述模糊描述信息可以被写在文件中，而文件可以通过内存映射的方式被映射到内存地址空间，同时允许数据共享。这样，当读取需要处理的多条模糊描述信息和/或标准描述信息时，如图3所示，可以启用若干个并行的进程/线程读取同一文件映射到内存的视图，由于不用采用常规的从磁盘读写文件的方式来操作，极大的减少了对文件输入输出的消耗，使得文件的读取速度有很大的提升。

可见，应用本发明实施例提供的方法，相同或相似的模糊描述信息可以尽可能地被分发到同一处理设备进行标准描述信息的提取，可见，对于针对不同的模糊描述信息类型设置有不同的处理规则的处理设备来说，处理设备所需要处理的模糊描述信息类型相对较少，无需频繁切换不同的处理规则，针对一种类型的模糊描述信息，处理设备所得到的信息量足够大，因此，所提取出的标准描述信息也更加准确。

(实施例二)

在本发明实施例又一种可能的实现方式中，为了使处理设备一次所接收到的模糊描述信息不超过其内存容量的上限，主设备还对所有模糊描述信息进行了切分，分次分发模糊描述信息，从而使得处理设备在一次分发中所接收的模糊描述信息的数据量在处理设备的内存容量的可接受范围内，减轻处理设备的内存负荷，提高传输效率以及处理设备的处理效率。具体地，例如，参见图4所示的提取标准描述信息的方法的流程示意图之二，步骤S220主设备根据模糊描述信息的属性及属性内容确定与所述模糊描述信息一一对应的描述值可以包括：

S221、主设备根据所有需要处理的模糊描述信息的数据量以及处理设备的最大内存容量计算出最少分发份数；以及，主设备对模糊描述信息的属性及属性内容进行哈希运算，得到与所述模糊描述信息一一对应的哈希值；

例如：假设所有需要处理的模糊描述信息的数据量总和为FileTotalLength，单台处理设备的最大内存容量为MaxSize，共有处理设备Factor个，则所有需要处理的模糊描述信息的最少分发份数＝Math.ceil(FileTotalLength/(maxSize*factor))，其中Math.ceil为向上取整。或者，假设根据所有需要处理的模糊描述信息的数据量估计平均单台处理设备需要处理的模糊描述信息的数据量为FileTotalLength，则所有需要处理的模糊描述信息的最少分发份数＝Math.ceil(FileTotalLength/maxSize)*factor。

S222、主设备将所述模糊描述信息对应的哈希值对所述最少分发份数的整数倍进行求余运算，由所得余数确定所述模糊描述信息对应的描述值；

由于将所述模糊描述信息对应的哈希值对所述最少分发份数的整数倍进行求余运算，由所得余数确定所述模糊描述信息对应的描述值，因此，所述描述值分布的范围是[0,最少分发份数的整数倍]的区间。需要说明的是，其中所述最少分发份数的整数倍的优选方式为恰好最少分发份数。

步骤S240主设备将模糊描述信息分发给模糊描述信息对应的处理设备时，其中，对于同一处理设备，按描述值不同划分分发次数，分次将模糊描述信息分发给对应的处理设备。

下面，结合图1所示的系统架构详细说明该实施例主设备分发模糊描述信息的过程。例如：

主设备110以及120分别开启多个线程/进程读取需要处理的100个单位的模糊描述信息；

假设单台处理设备的最大内存容量为2个单位，共有4台处理设备，主设备计算最少分发份数＝Math.ceil(100/8)＝13；

主设备对模糊描述信息的属性及属性内容进行哈希运算，得到与所述模糊描述信息一一对应的哈希值，例如，其中20个单位的模糊描述信息对应的哈希值为11、20个单位的模糊描述信息对应的哈希值为1，20个单位的模糊描述信息对应的哈希值为2，20个单位的模糊描述信息对应的哈希值为20、10个单位的模糊描述信息对应的哈希值为21、10个单位的模糊描述信息对应的哈希值为38；

主设备将模糊信息对应的哈希值对进行求余运算，由所得余数确定所述模糊描述信息对应的描述值，例如，哈希值11的模糊描述信息对应的描述值为11，哈希值1的模糊描述信息对应的描述值为1，哈希值2的模糊描述信息对应的描述值为2，哈希值20的模糊描述信息对应的描述值为7，哈希值21的模糊描述信息对应的描述值为8，哈希值38的模糊描述信息对应的描述值为12；

主设备将模糊描述信息对应的描述值对所述处理设备的数量求余，由所得余数确定所述模糊描述信息对应的处理设备，例如，可以将处理设备进行编号，将所得余数加1得到的数值作为模糊描述信息对应的处理设备的编号，例如，描述值为11的模糊描述信息对应编号为4的处理设备，描述值为1的模糊描述信息对应编号为2的处理设备，描述值为2的模糊描述信息对应编号为3的处理设备，描述值为7的模糊描述信息对应编号为4的处理设备，描述值为8的模糊描述信息对应编号为1的处理设备，描述值为12的模糊描述信息对应编号为1的处理设备；

主设备将模糊描述信息分发给所述模糊描述信息对应的处理设备，其中，分发时，对于同一处理设备，按描述值不同划分分发次数，例如，描述值为11的模糊描述信息与描述值为7的模糊描述信息将会在两次分发中分别发送给编号为4的处理设备，描述值为8的模糊描述信息与描述值为12的模糊描述信息将会在两次分发中分别发送给编号为1的处理设备，描述值为1的模糊描述信息将分发给编号为2的处理设备，描述值为2的模糊描述信息将分发给编号为3的处理设备。

可见，该实施例可以使所有模糊描述信息按照描述值被切分为最少分发份数的整数倍的份数，使得处理设备在一次分发所接收的模糊描述信息的数据量为一份的数据量，在处理设备的内存容量的可接受范围内，因此，可以减轻处理设备的内存负荷，提高传输效率以及处理设备的处理效率。

与上述应用于主设备的提取标准描述信息的方法相应地，本发明实施例还提供了一种提取标准描述信息的装置，可以配置于分布式系统中的主设备，其中，所述分布式系统如图1所示可以包括至少一个主设备以及至少两个处理设备。具体实现方式如下：

(实施例三)

参见图5，为本发明实施例提供的提取标准描述信息的装置的结构示意图之一。如图5所示，该装置可以包括：

读取单元501，可以用于读取需要处理的多条模糊描述信息，其中，所述模糊描述信息由若干属性及其对应的属性内容表达。

信息描述第一单元502，可以用于根据所述模糊描述信息的属性及属性内容确定与所述模糊描述信息一一对应的描述值。

例如：可以对模糊描述信息的属性及属性内容进行哈希运算，得到与所述模糊描述信息一一对应的哈希值。该哈希值可以作为描述值，或者，也可以将该哈希值进行进一步计算再得到描述值。可以理解的是，对模糊描述信息的属性及属性内容进行哈希运算可以采取一般地哈希算法实现，具体过程在本发明中不再详细赘述。

处理设备确定单元503，可以用于根据所述模糊描述信息对应的描述值对所述处理设备的数量求余，由所得余数确定所述模糊描述信息对应的处理设备。

例如：可以将对模糊描述信息的属性及属性内容进行哈希运算得到的哈希值对处理设备的数量求余，或者，可以将哈希值进行进一步计算得到的描述值对处理设备的数量求余，由所得余数确定所述模糊描述信息对应的处理设备。

分发单元504，可以用于将所述模糊描述信息分发给所述模糊描述信息对应的处理设备，以便处理设备接收主设备分发的模糊描述信息，对接收到的模糊描述信息进行标准描述信息的提取。

为了使模糊描述信息以及标准描述信息在读取并映射到内存后，避免被JVM的垃圾回收机制给回收掉，该装置还可以包括第一软引用添加单元，用于通过添加软引用对象将模糊描述信息和/或者标准描述信息映射到内存中，以便在读取所述模糊描述信息和/或标准描述信息时，从内存中读取。

可见，在主设备端配置本发明实施例提供的装置，相同或相似的模糊描述信息可以尽可能地被分发到同一处理设备进行标准描述信息的提取，处理设备所需要处理的模糊描述信息类型相对较少，无需频繁切换不同的处理规则，针对一种类型的模糊描述信息，处理设备所得到的信息量足够大，因此，所提取出的标准描述信息也更加准确。

(实施例四)

在本发明实施例又一种可能的实现方式中，主设备还可以对所有模糊描述信息进行了切分，分次分发模糊描述信息，从而使得处理设备在一次分发中所接收的模糊描述信息的数据量在处理设备的内存容量的可接受范围内，减轻处理设备的内存负荷，提高传输效率以及处理设备的处理效率。具体地，例如，参见图6，为提取标准描述信息的装置的结构示意图之二，所述信息描述第一单元502可以包括：

第一切分子单元502a，可以用于根据所有需要处理的模糊描述信息的数据量以及处理设备的最大内存容量计算出最少分发份数；

第一哈希子单元502b，可以用于对模糊描述信息的属性及属性内容进行哈希运算，得到与所述模糊描述信息一一对应的哈希值；

第一求余子单元502c，可以用于将所述模糊描述信息对应的哈希值对所述最少分发份数的整数倍进行求余运算，由所得余数确定所述模糊描述信息对应的描述值；

其中，所述分发单元504，可以用于在将模糊描述信息分发给模糊描述信息对应的处理设备时，对于同一处理设备，按描述值不同划分分发次数，分次将模糊描述信息分发给对应的处理设备。

与上述应用于主设备的提取标准描述信息的方法相应地，本发明实施例还提供了一种应用于处理设备的提取标准描述信息的方法。具体实现方式如下：

(实施例五)

参见图7，为本发明实施例提供的提取标准描述信息的方法的流程示意图之三，如图7所示，该方法可以包括：

S710、处理设备接收主设备分发的模糊描述信息，其中，所述模糊描述信息由若干属性及其对应的属性内容表达，所述模糊描述信息具体由主设备在读取需要处理的多条模糊描述信息之后，根据所述模糊描述信息的属性及属性内容确定与所述模糊描述信息一一对应的描述值，根据所述模糊描述信息对应的描述值对所述处理设备的数量求余，由所得余数确定所述模糊描述信息对应的处理设备并分发给对应的处理设备；

S720、处理设备对接收到的模糊描述信息进行标准描述信息的提取。

可见，应用本发明实施例提供的方法，处理设备可以尽可能地接收相同或相似的模糊描述信息，对于针对不同的模糊描述信息类型设置有不同的处理规则的处理设备来说，处理设备可以利用与模糊描述信息相对应的处理规则进行标准描述信息的提取，由于所需要处理的模糊描述信息类型相对较少，无需频繁切换不同的处理规则，针对一种类型的模糊描述信息，处理设备所得到的信息量足够大，因此，所提取出的标准描述信息也更加准确。

(实施例六)

在本发明实施例一种可能的实现方式中，分布式系统可以包括两个或两个以上主设备。在这种实现方式中，如果主设备从处理设备得到的标准描述信息为不同类别的标准商品信息则不利于对标准商品信息的进一步聚合处理，因此，为了能够使各个处理设备在得到标准描述信息后，将相同标准描述信息返回到同一主设备进行聚合，如图8所示的提取标准描述信息的方法的流程示意图之四，该实施例的处理设备对接收到的模糊描述信息进行标准描述信息的提取，提取出标准描述信息之后，还可以包括：

S730、处理设备根据所述标准描述信息的属性及属性内容确定与所述标准描述信息一一对应的描述值；

S740、处理设备根据所述标准描述信息对应的描述值对所述主设备的数量求余，由所得余数确定所述标准描述信息对应的主设备；

S750、处理设备将所述标准描述信息返回给所述标准描述信息对应的主设备。

可见，在该实施例中，各个处理设备可以将相同标准描述信息返回到同一主设备进行聚合，使得主设备聚合出的标准描述信息更加准确。其中，本发明实施例主设备对处理设备返回的标准描述信息进行聚合的具体手段不限，例如，可以将各个处理设备返回的标准描述信息进行比较，其中，属性及属性内容相同的标准描述信息只保留一个版本，属性及属性内容不同的标准描述信息全部保留等的实现方式。

(实施例七)

基于与上述实施例二相同的原理，在本发明实施例再一种可能的实现方式中，处理设备根据所述标准描述信息的属性及属性内容确定与所述标准描述信息一一对应的描述值可以包括：

处理设备根据所有需要返回的标准描述信息的数据量以及主设备的最大内存容量计算出最少返回份数；以及，处理设备对标准描述信息的属性及属性内容进行哈希运算，得到与所述标准描述信息一一对应的哈希值；

处理设备将所述标准描述信息对应的哈希值对所述最少返回份数的整数倍进行求余运算，由所得余数确定所述标准描述信息对应的描述值；

其中，处理设备将所述标准描述信息返回给所述标准描述信息对应的主设备时，对于同一主设备，按描述值不同划分返回次数，分次将标准描述信息分发给对应的主设备。

需要说明的是，其中所述最少返回份数的整数倍的优选方式为恰好最少返回份数。

可见，该实施例中，对于同一主设备，可以按描述值不同划分返回次数，从而使得所有标准描述信息按照描述值被切分为最少返回份数的整数倍的份数，使得主设备在一次返回所接收的标准描述信息的数据量为一份的数据量，在主设备的内存容量的可接受范围内，减轻主设备的内存负荷，提高传输效率以及主设备的处理效率。

与上述应用于处理设备的提取标准描述信息的方法相应地，本发明实施例还提供了一种配置于处理设备的提取标准描述信息的装置。具体实现方式如下：

(实施例八)

参见图9，为本发明实施例提供的提取标准描述信息的装置的结构示意图之三。如图9所示，该装置可以包括：

接收单元921，可以用于接收主设备分发的模糊描述信息，其中，所述模糊描述信息由若干属性及其对应的属性内容表达，所述模糊描述信息具体由主设备在读取需要处理的多条模糊描述信息之后，根据所述模糊描述信息的属性及属性内容确定与所述模糊描述信息一一对应的描述值，根据所述模糊描述信息对应的描述值对所述处理设备的数量求余，由所得余数确定所述模糊描述信息对应的处理设备并分发给对应的处理设备；

提取单元922，可以用于对接收到的模糊描述信息进行标准描述信息的提取。

其中，所述提取单元922对接收到的模糊描述信息进行标准描述信息的提取可以采取一般的提取方式，例如，可以根据商品所属类别的描述信息特点，设置相应的提取规则，再例如，根据不同发布者发布的相同模糊描述信息的记录数超过阈值，确定该模糊描述信息即为标准描述信息，或者，再例如，可以将所接收到的模糊描述信息之间进行比较，将模糊描述信息的属性及属性内容相同的模糊描述信息进行合并，合并出若干个属性及属性内容不同的标准模糊描述信息，或者，还可以有其他提取规则，本发明在此不再赘述。

可见，应用本发明实施例提供的装置，处理设备可以尽可能地接收相同或相似的模糊描述信息，对于针对不同的模糊描述信息类型设置有不同的处理规则的处理设备来说，处理设备可以利用与模糊描述信息相对应的处理规则进行标准描述信息的提取，由于所需要处理的模糊描述信息类型相对较少，无需频繁切换不同的处理规则，针对一种类型的模糊描述信息，处理设备所得到的信息量足够大，因此，所提取出的标准描述信息也更加准确。

例如，本发明实施例提供的装置还可以包括设置单元，可以用于针对不同的模糊描述信息类型设置有不同的处理规则。

另外，为了使模糊描述信息以及标准描述信息在读取并映射到内存后，避免被垃圾回收机制给回收掉，本发明实施例提供的装置还可以包括第二软引用添加单元，可以用于通过添加软引用对象将模糊描述信息映射到内存中，以便在读取所述模糊描述信息时，从内存中读取。

(实施例九)

在本发明实施例一种可能的实现方式中，如图1所示，分布式系统可以包括两个或两个以上主设备。参见图10，为本发明实施例提供的提取标准描述信息的装置的结构示意图之四。如图10所示，配置于处理设备的提取标准描述信息的装置还可以包括：

信息描述第二单元923，可以用于在提取单元提取出标准描述信息之后，根据所述标准描述信息的属性及属性内容确定与所述标准描述信息一一对应的描述值；

主设备确定单元924，可以用于根据所述标准描述信息对应的描述值对所述主设备的数量求余，由所得余数确定所述标准描述信息对应的主设备；

返回单元925，可以用于将所述标准描述信息返回给所述标准描述信息对应的主设备。

可见，在该实施例中，各个处理设备可以将相同标准描述信息返回到同一主设备进行聚合，使得主设备聚合出的标准描述信息更加准确。

(实施例十)

基于与上述实施例二相同的原理，在本发明实施例再一种可能的实现方式中，如图11所示的提取标准描述信息的装置的结构示意图之五，所述信息描述第二单元923可以包括：

第二切分子单元923a，可以用于根据所有需要返回的标准描述信息的数据量以及主设备的最大内存容量计算出最少返回份数；

第二哈希子单元923b，可以用于对标准描述信息的属性及属性内容进行哈希运算，得到与所述标准描述信息一一对应的哈希值；

第二求余子单元923c，可以用于将所述标准描述信息对应的哈希值对所述最少返回份数的整数倍进行求余运算，由所得余数确定所述标准描述信息对应的描述值；

其中，所述返回单元925，可以用于在将所述标准描述信息返回给所述标准描述信息对应的主设备时，对于同一主设备，按描述值不同划分返回次数，分次将标准描述信息分发给对应的主设备。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

本发明可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序单元。一般地，程序单元包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序单元可以位于包括存储设备在内的本地和远程计算机存储介质中。

以上所述仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种提取标准描述信息的方法，应用于分布式系统中的主设备，其中，所述分布式系统包括至少一个主设备以及至少两个处理设备，其特征在于，所述方法包括：

读取需要处理的多条模糊描述信息，其中，所述模糊描述信息由若干属性及其对应的属性内容表达；

根据所有需要处理的模糊描述信息的数据量以及处理设备的最大内存容量计算出最少分发份数；以及，对模糊描述信息的属性及属性内容进行哈希运算，得到与所述模糊描述信息一一对应的哈希值；将所述模糊描述信息对应的哈希值对所述最少分发份数的整数倍进行求余运算，由所得余数确定所述模糊描述信息对应的描述值；

根据所述模糊描述信息对应的描述值对所述处理设备的数量求余，由所得余数确定所述模糊描述信息对应的处理设备；

将所述模糊描述信息分发给所述模糊描述信息对应的处理设备，对于同一处理设备，按描述值不同划分分发次数，分次将模糊描述信息分发给对应的处理设备，以便处理设备接收主设备分发的模糊描述信息，对接收到的模糊描述信息进行标准描述信息的提取。

2.根据权利要求1所述的方法，其特征在于，还包括：

通过添加软引用对象将模糊描述信息映射到内存中，以便在读取所述模糊描述信息时，从内存中读取。

3.根据权利要求1所述的方法，其特征在于，所述处理设备中针对不同的模糊描述信息类型设置有不同的处理规则。

4.一种提取标准描述信息的装置，配置于分布式系统中的主设备，其中，所述分布式系统包括至少一个主设备以及至少两个处理设备，其特征在于，所述装置包括：

读取单元，用于读取需要处理的多条模糊描述信息，其中，所述模糊描述信息由若干属性及其对应的属性内容表达；

信息描述第一单元，用于根据所有需要处理的模糊描述信息的数据量以及处理设备的最大内存容量计算出最少分发份数；以及，对模糊描述信息的属性及属性内容进行哈希运算，得到与所述模糊描述信息一一对应的哈希值；将所述模糊描述信息对应的哈希值对所述最少分发份数的整数倍进行求余运算，由所得余数确定所述模糊描述信息对应的描述值；处理设备确定单元，用于根据所述模糊描述信息对应的描述值对所述处理设备的数量求余，由所得余数确定所述模糊描述信息对应的处理设备；

分发单元，用于将所述模糊描述信息分发给所述模糊描述信息对应的处理设备，对于同一处理设备，按描述值不同划分分发次数，分次将模糊描述信息分发给对应的处理设备，以便处理设备接收主设备分发的模糊描述信息，对接收到的模糊描述信息进行标准描述信息的提取。

5.根据权利要求4所述的装置，其特征在于，还包括：

第一软引用添加单元，用于通过添加软引用对象将模糊描述信息映射到内存中，以便在读取所述模糊描述信息时，从内存中读取。

6.一种提取标准描述信息的方法，应用于分布式系统中的处理设备，其中，所述分布式系统包括至少一个主设备以及至少两个处理设备，其特征在于，所述方法包括：

接收主设备分发的模糊描述信息，其中，所述模糊描述信息由若干属性及其对应的属性内容表达，所述模糊描述信息具体由主设备在读取需要处理的多条模糊描述信息之后，根据所有需要处理的模糊描述信息的数据量以及处理设备的最大内存容量计算出最少分发份数；以及，对模糊描述信息的属性及属性内容进行哈希运算，得到与所述模糊描述信息一一对应的哈希值；将所述模糊描述信息对应的哈希值对所述最少分发份数的整数倍进行求余运算，由所得余数确定所述模糊描述信息对应的描述值；根据所述模糊描述信息对应的描述值对所述处理设备的数量求余，由所得余数确定所述模糊描述信息对应的处理设备；对接收到的模糊描述信息进行标准描述信息的提取。

7.根据权利要求6所述的方法，其特征在于，所述分布式系统包括两个以上的主设备；

在提取出标准描述信息之后，还包括：

根据所述标准描述信息的属性及属性内容确定与所述标准描述信息一一对应的描述值；

根据所述标准描述信息对应的描述值对所述主设备的数量求余，由所得余数确定所述标准描述信息对应的主设备；

将所述标准描述信息返回给所述标准描述信息对应的主设备。

8.根据权利要求7所述的方法，其特征在于，所述根据标准描述信息的属性及属性内容确定与所述标准描述信息一一对应的描述值包括：

根据所有需要返回的标准描述信息的数据量以及主设备的最大内存容量计算出最少返回份数；以及，对标准描述信息的属性及属性内容进行哈希运算，得到与所述标准描述信息一一对应的哈希值；

将所述标准描述信息对应的哈希值对所述最少返回份数的整数倍进行求余运算，由所得余数确定所述标准描述信息对应的描述值；

其中，将所述标准描述信息返回给所述标准描述信息对应的主设备时，对于同一主设备，按描述值不同划分返回次数，分次将标准描述信息分发给对应的主设备。

9.根据权利要求6～8任一项所述的方法，其特征在于，还包括：

10.根据权利要求6所述的方法，其特征在于，还包括：

针对不同的模糊描述信息类型设置有不同的处理规则。

11.一种提取标准描述信息的装置，配置于分布式系统中的处理设备，其中，所述分布式系统包括至少一个主设备以及至少两个处理设备，其特征在于，所述装置包括：

接收单元，用于接收主设备分发的模糊描述信息，其中，所述模糊描述信息由若干属性及其对应的属性内容表达，所述模糊描述信息具体由主设备在读取需要处理的多条模糊描述信息之后，根据所有需要处理的模糊描述信息的数据量以及处理设备的最大内存容量计算出最少分发份数；以及，对模糊描述信息的属性及属性内容进行哈希运算，得到与所述模糊描述信息一一对应的哈希值；将所述模糊描述信息对应的哈希值对所述最少分发份数的整数倍进行求余运算，由所得余数确定所述模糊描述信息对应的描述值；根据所述模糊描述信息对应的描述值对所述处理设备的数量求余，由所得余数确定所述模糊描述信息对应的处理设备；

提取单元，用于对接收到的模糊描述信息进行标准描述信息的提取。

12.根据权利要求11所述的装置，其特征在于，所述分布式系统包括两个以上的主设备，所述装置还包括：

信息描述第二单元，用于在提取单元提取出标准描述信息之后，根据所述标准描述信息的属性及属性内容确定与所述标准描述信息一一对应的描述值；

主设备确定单元，用于根据所述标准描述信息对应的描述值对所述主设备的数量求余，由所得余数确定所述标准描述信息对应的主设备；

返回单元，用于将所述标准描述信息返回给所述标准描述信息对应的主设备。

13.根据权利要求12所述的装置，其中，所述信息描述第二单元包括：

第二切分子单元，用于根据所有需要返回的标准描述信息的数据量以及主设备的最大内存容量计算出最少返回份数；

第二哈希子单元，用于对标准描述信息的属性及属性内容进行哈希运算，得到与所述标准描述信息一一对应的哈希值；

第二求余子单元，用于将所述标准描述信息对应的哈希值对所述最少返回份数的整数倍进行求余运算，由所得余数确定所述标准描述信息对应的描述值；

其中，所述返回单元，用于在将所述标准描述信息返回给所述标准描述信息对应的主设备时，对于同一主设备，按描述值不同划分返回次数，分次将标准描述信息分发给对应的主设备。

14.根据权利要求11～13任一项所述的装置，其特征在于，还包括：

第二软引用添加单元，用于通过添加软引用对象将模糊描述信息映射到内存中，以便在读取所述模糊描述信息时，从内存中读取。

15.根据权利要求11所述的装置，其特征在于，还包括：

设置单元，用于针对不同的模糊描述信息类型设置有不同的处理规则。