CN104850555B - 一种提取标准描述信息的方法及装置 - Google Patents

一种提取标准描述信息的方法及装置 Download PDF

Info

Publication number
CN104850555B
CN104850555B CN201410052145.6A CN201410052145A CN104850555B CN 104850555 B CN104850555 B CN 104850555B CN 201410052145 A CN201410052145 A CN 201410052145A CN 104850555 B CN104850555 B CN 104850555B
Authority
CN
China
Prior art keywords
description information
vague
standard
processing equipment
vague description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410052145.6A
Other languages
English (en)
Other versions
CN104850555A (zh
Inventor
农子盛
金伟
孟凡光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Network Technology Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201410052145.6A priority Critical patent/CN104850555B/zh
Publication of CN104850555A publication Critical patent/CN104850555A/zh
Priority to HK15109534.7A priority patent/HK1208935A1/zh
Application granted granted Critical
Publication of CN104850555B publication Critical patent/CN104850555B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种提取标准描述信息的方法,应用于分布式系统,其中,主设备读取需要处理的多条模糊描述信息,模糊描述信息由若干属性及其对应的属性内容表达;主设备根据模糊描述信息的属性及属性内容确定与模糊描述信息一一对应的描述值;主设备根据模糊描述信息对应的描述值对处理设备的数量求余,由所得余数确定模糊描述信息对应的处理设备;主设备将模糊描述信息分发给模糊描述信息对应的处理设备;处理设备对接收到的模糊描述信息进行标准描述信息的提取,由于相同的模糊描述信息可以尽可能地被分发到同一处理设备进行标准描述信息的提取,因此,提取标准描述信息效率高且更加准确。另外,本发明还公开了一种提取标准描述信息的装置。

Description

一种提取标准描述信息的方法及装置
技术领域
本发明涉及计算机应用领域,特别涉及一种提取标准描述信息的方法及装置。
背景技术
具有商品标准描述库对电子商务网站来说是非常重要的,对卖家而言,可以直接利用库中已有的商品标准描述信息发布商品信息,对于买家而言,利用商品标准描述信息进行商品搜索则更加精确,且便于比较同类产品。
目前,为了快速建立商品描述库,通常会首先收集大量的商品模糊描述信息,再将这些商品模糊描述信息随机分发到各个处理设备上进行数据去噪处理,提取到商品标准描述信息。
发明内容
但是,由于不同类型的商品的描述信息呈现不同的特点,随机分发到各个处理设备上进行数据去噪处理,需要处理设备频繁切换处理规则,不仅效率低下,而且所得到的标准描述信息也不够准确。
有鉴于此,本发明的主要目的在于提供一种提取标准描述信息的方法及装置以实现高效率准确地提取到标准描述信息的目的。
在本发明实施例的第一个方面,提供了一种提取标准描述信息的方法,应用于分布式系统中的主设备,其中,所述分布式系统包括至少一个主设备以及至少两个处理设备,例如,该方法可以包括:读取需要处理的多条模糊描述信息,其中,所述模糊描述信息由若干属性及其对应的属性内容表达;根据所述模糊描述信息的属性及属性内容确定与所述模糊描述信息一一对应的描述值;根据所述模糊描述信息对应的描述值对所述处理设备的数量求余,由所得余数确定所述模糊描述信息对应的处理设备;将所述模糊描述信息分发给所述模糊描述信息对应的处理设备,以便处理设备接收主设备分发的模糊描述信息,对接收到的模糊描述信息进行标准描述信息的提取。
在本发明实施例的第二个方面,提供了一种提取标准描述信息的装置,配置于分布式系统中的主设备,其中,所述分布式系统包括至少一个主设备以及至少两个处理设备,例如,该装置可以包括:读取单元,用于读取需要处理的多条模糊描述信息,其中,所述模糊描述信息由若干属性及其对应的属性内容表达;信息描述第一单元,用于根据所述模糊描述信息的属性及属性内容确定与所述模糊描述信息一一对应的描述值;处理设备确定单元,用于根据所述模糊描述信息对应的描述值对所述处理设备的数量求余,由所得余数确定所述模糊描述信息对应的处理设备;分发单元,用于将所述模糊描述信息分发给所述模糊描述信息对应的处理设备,以便处理设备接收主设备分发的模糊描述信息,对接收到的模糊描述信息进行标准描述信息的提取。
在本发明实施例的第三个方面,提供了另一种提取标准描述信息的方法,应用于分布式系统中的处理设备,其中,所述分布式系统包括至少一个主设备以及至少两个处理设备,例如,所述方法可以包括:接收主设备分发的模糊描述信息,其中,所述模糊描述信息由若干属性及其对应的属性内容表达,所述模糊描述信息具体由主设备在读取需要处理的多条模糊描述信息之后,根据所述模糊描述信息的属性及属性内容确定与所述模糊描述信息一一对应的描述值,根据所述模糊描述信息对应的描述值对所述处理设备的数量求余,由所得余数确定所述模糊描述信息对应的处理设备并分发给对应的处理设备;对接收到的模糊描述信息进行标准描述信息的提取。
在本发明实施例的第二个方面,提供了另一种提取标准描述信息的装置,配置于分布式系统中的处理设备,其中,所述分布式系统包括至少一个主设备以及至少两个处理设备,例如,所述装置可以包括:接收单元,用于接收主设备分发的模糊描述信息,其中,所述模糊描述信息由若干属性及其对应的属性内容表达,所述模糊描述信息具体由主设备在读取需要处理的多条模糊描述信息之后,根据所述模糊描述信息的属性及属性内容确定与所述模糊描述信息一一对应的描述值,根据所述模糊描述信息对应的描述值对所述处理设备的数量求余,由所得余数确定所述模糊描述信息对应的处理设备并分发给对应的处理设备;提取单元,用于对接收到的模糊描述信息进行标准描述信息的提取。
可见本发明具有如下有益效果:
由于本发明实施例提供的方法应用于分布式系统,其中,主设备读取的模糊描述信息由若干属性及其对应的属性内容表达,主设备又根据属性及属性内容确定与模糊描述信息一一对应的描述值,再将描述值对处理设备的数量求余,由所得余数确定模糊描述信息对应的处理设备,主设备将模糊描述信息分发给对应的处理设备,因此,相同或相似的模糊描述信息可以尽可能地被分发到同一处理设备进行标准描述信息的提取,可见,一个处理设备所需要处理的模糊描述信息类型相对较少,无需频繁切换不同的处理规则,针对一种类型的模糊描述信息,处理设备所得到的信息量足够多,因此,所提取出的标准描述信息也更加准确。
附图说明
图1是本发明实施例提供的方法应用的系统结构示意图;
图2是本发明实施例提供的提取标准描述信息的方法的流程示意图之一;
图3是本发明实施例涉及的读取内存映射文件的示意图;
图4是本发明实施例提供的提取标准描述信息的方法的流程示意图之二;
图5是本发明实施例提供的提取标准描述信息的装置的结构示意图之一;
图6是本发明实施例提供的提取标准描述信息的装置的结构示意图之二;
图7是本发明实施例提供的提取标准描述信息的方法的流程示意图之三;
图8是本发明实施例提供的提取标准描述信息的方法的流程示意图之四;
图9是本发明实施例提供的提取标准描述信息的装置的结构示意图之三;
图10是本发明实施例提供的提取标准描述信息的装置的结构示意图之四;
图11是本发明实施例提供的提取标准描述信息的装置的结构示意图之五。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明保护的范围。
对于提取标准描述信息的处理设备来说,如果得到的模糊描述信息类型单一,信息量足够大,则可以效率更高,更加准确的提取到标注描述信息。因此,本发明提供如下应用于分布式系统中主设备的提取标准描述信息的方法实施例。其中,本发明实施例所述的分布式系统的架构可以如图1所示,包括至少一个主设备,如主设备110、主设备120,以及至少两个处理设备,如处理设备101、102、103、104。可以理解的是,其中主设备之间,主设备与任意处理设备之间可以具有相应的通信机制以支持数据与消息的互传。
(实施例一)
参见图2,为本发明实施例提供的一种提取标准描述信息的方法的流程图之一,如图所示,该实施例可以包括:
S210、主设备读取需要处理的多条模糊描述信息,其中,所述模糊描述信息由若干属性及其对应的属性内容表达;
例如,所述模糊描述信息可以由商品类别属性及其对应的类别名称、商品名称属性及其对应的商品名称、商品品牌属性及其对应的商品品牌、型号属性及其对应的型号等等来表达。
需要说明的是,本发明实施例中,所述模糊描述信息可以按照一定的收集条件,从例如电子商务网站的后台数据库中收集得到。例如,收集得到的模糊描述信息可以按照一定的格式保存于文件中。其中,所述文件的格式可以按照模糊描述信息的属性,以及属性对应的属性内容来设置。一个文件可以用来保存属于同一类别的模糊描述信息。其中,收集模糊描述信息可以由单独的收集设备收集,也可以由所述主设备收集,在本发明中并不进行限制。
如果本发明实施例所述的分布式系统包括多个主设备,则可以由这些主设备从收集设备读取模糊描述信息,或者由其他主设备从用于收集模糊描述信息的主设备读取模糊描述信息。
S220、主设备根据所述模糊描述信息的属性及属性内容确定与所述模糊描述信息一一对应的描述值;
例如:主设备可以对模糊描述信息的属性及属性内容进行哈希运算,得到与所述模糊描述信息一一对应的哈希值。该哈希值可以作为描述值,或者,也可以将该哈希值进行进一步计算再得到描述值。可以理解的是,对模糊描述信息的属性及属性内容进行哈希运算可以采取一般地哈希算法实现,例如,可以使用Java自带的MD5工具类提供的函数MD5.getMD5ofStr(source)进行哈希计算,得出哈希值,具体过程在本发明中不再详细赘述。
需要说明的是,只要描述值能够唯一表达相同的属性内容即可满足本发明将相同模糊描述信息尽量分发到同一处理设备的需要。因此,还可以存在其他根据模糊描述信息的属性及属性内容确定描述值的具体实现方式,在本发明中并不进行限制。
S230、主设备根据所述模糊描述信息对应的描述值对所述处理设备的数量求余,由所得余数确定所述模糊描述信息对应的处理设备;
例如:主设备可以将对模糊描述信息的属性及属性内容进行哈希运算得到的哈希值对处理设备的数量求余,或者,主设备可以将哈希值进行进一步计算得到的描述值对处理设备的数量求余,由所得余数确定所述模糊描述信息对应的处理设备。
S240、主设备将所述模糊描述信息分发给所述模糊描述信息对应的处理设备,以便处理设备接收主设备分发的模糊描述信息,对接收到的模糊描述信息进行标准描述信息的提取。
其中,所述处理设备对接收到的模糊描述信息进行标准描述信息的提取可以采取一般的提取方式,例如,可以根据商品所属类别的描述信息特点,设置相应的提取规则,再例如,根据不同发布者发布的相同模糊描述信息的记录数超过阈值,确定该模糊描述信息即为标准描述信息,或者,再例如,可以将所接收到的模糊描述信息之间进行比较,将模糊描述信息的属性及属性内容相同的模糊描述信息进行合并,合并出若干个属性及属性内容不同的标准模糊描述信息,或者,还可以有其他实现方式,本发明在此不再赘述。
为了使模糊描述信息以及标准描述信息在读取并映射到内存后,避免被垃圾回收机制给回收掉,可以通过添加SoftReference(软引用)对象的方式来解决数据在内存快速回收的问题。例如,所述模糊描述信息和/或标准描述信息可以在主设备和/或者处理设备上通过添加软引用对象被映射到内存中,在读取所述模糊描述信息和/或标准描述信息时,从内存中读取。例如,所述模糊描述信息可以被写在文件中,而文件可以通过内存映射的方式被映射到内存地址空间,同时允许数据共享。这样,当读取需要处理的多条模糊描述信息和/或标准描述信息时,如图3所示,可以启用若干个并行的进程/线程读取同一文件映射到内存的视图,由于不用采用常规的从磁盘读写文件的方式来操作,极大的减少了对文件输入输出的消耗,使得文件的读取速度有很大的提升。
可见,应用本发明实施例提供的方法,相同或相似的模糊描述信息可以尽可能地被分发到同一处理设备进行标准描述信息的提取,可见,对于针对不同的模糊描述信息类型设置有不同的处理规则的处理设备来说,处理设备所需要处理的模糊描述信息类型相对较少,无需频繁切换不同的处理规则,针对一种类型的模糊描述信息,处理设备所得到的信息量足够大,因此,所提取出的标准描述信息也更加准确。
(实施例二)
在本发明实施例又一种可能的实现方式中,为了使处理设备一次所接收到的模糊描述信息不超过其内存容量的上限,主设备还对所有模糊描述信息进行了切分,分次分发模糊描述信息,从而使得处理设备在一次分发中所接收的模糊描述信息的数据量在处理设备的内存容量的可接受范围内,减轻处理设备的内存负荷,提高传输效率以及处理设备的处理效率。具体地,例如,参见图4所示的提取标准描述信息的方法的流程示意图之二,步骤S220主设备根据模糊描述信息的属性及属性内容确定与所述模糊描述信息一一对应的描述值可以包括:
S221、主设备根据所有需要处理的模糊描述信息的数据量以及处理设备的最大内存容量计算出最少分发份数;以及,主设备对模糊描述信息的属性及属性内容进行哈希运算,得到与所述模糊描述信息一一对应的哈希值;
例如:假设所有需要处理的模糊描述信息的数据量总和为FileTotalLength,单台处理设备的最大内存容量为MaxSize,共有处理设备Factor个,则所有需要处理的模糊描述信息的最少分发份数=Math.ceil(FileTotalLength/(maxSize*factor)),其中Math.ceil为向上取整。或者,假设根据所有需要处理的模糊描述信息的数据量估计平均单台处理设备需要处理的模糊描述信息的数据量为FileTotalLength,则所有需要处理的模糊描述信息的最少分发份数=Math.ceil(FileTotalLength/maxSize)*factor。
S222、主设备将所述模糊描述信息对应的哈希值对所述最少分发份数的整数倍进行求余运算,由所得余数确定所述模糊描述信息对应的描述值;
由于将所述模糊描述信息对应的哈希值对所述最少分发份数的整数倍进行求余运算,由所得余数确定所述模糊描述信息对应的描述值,因此,所述描述值分布的范围是[0,最少分发份数的整数倍]的区间。需要说明的是,其中所述最少分发份数的整数倍的优选方式为恰好最少分发份数。
步骤S240主设备将模糊描述信息分发给模糊描述信息对应的处理设备时,其中,对于同一处理设备,按描述值不同划分分发次数,分次将模糊描述信息分发给对应的处理设备。
下面,结合图1所示的系统架构详细说明该实施例主设备分发模糊描述信息的过程。例如:
主设备110以及120分别开启多个线程/进程读取需要处理的100个单位的模糊描述信息;
假设单台处理设备的最大内存容量为2个单位,共有4台处理设备,主设备计算最少分发份数=Math.ceil(100/8)=13;
主设备对模糊描述信息的属性及属性内容进行哈希运算,得到与所述模糊描述信息一一对应的哈希值,例如,其中20个单位的模糊描述信息对应的哈希值为11、20个单位的模糊描述信息对应的哈希值为1,20个单位的模糊描述信息对应的哈希值为2,20个单位的模糊描述信息对应的哈希值为20、10个单位的模糊描述信息对应的哈希值为21、10个单位的模糊描述信息对应的哈希值为38;
主设备将模糊信息对应的哈希值对进行求余运算,由所得余数确定所述模糊描述信息对应的描述值,例如,哈希值11的模糊描述信息对应的描述值为11,哈希值1的模糊描述信息对应的描述值为1,哈希值2的模糊描述信息对应的描述值为2,哈希值20的模糊描述信息对应的描述值为7,哈希值21的模糊描述信息对应的描述值为8,哈希值38的模糊描述信息对应的描述值为12;
主设备将模糊描述信息对应的描述值对所述处理设备的数量求余,由所得余数确定所述模糊描述信息对应的处理设备,例如,可以将处理设备进行编号,将所得余数加1得到的数值作为模糊描述信息对应的处理设备的编号,例如,描述值为11的模糊描述信息对应编号为4的处理设备,描述值为1的模糊描述信息对应编号为2的处理设备,描述值为2的模糊描述信息对应编号为3的处理设备,描述值为7的模糊描述信息对应编号为4的处理设备,描述值为8的模糊描述信息对应编号为1的处理设备,描述值为12的模糊描述信息对应编号为1的处理设备;
主设备将模糊描述信息分发给所述模糊描述信息对应的处理设备,其中,分发时,对于同一处理设备,按描述值不同划分分发次数,例如,描述值为11的模糊描述信息与描述值为7的模糊描述信息将会在两次分发中分别发送给编号为4的处理设备,描述值为8的模糊描述信息与描述值为12的模糊描述信息将会在两次分发中分别发送给编号为1的处理设备,描述值为1的模糊描述信息将分发给编号为2的处理设备,描述值为2的模糊描述信息将分发给编号为3的处理设备。
可见,该实施例可以使所有模糊描述信息按照描述值被切分为最少分发份数的整数倍的份数,使得处理设备在一次分发所接收的模糊描述信息的数据量为一份的数据量,在处理设备的内存容量的可接受范围内,因此,可以减轻处理设备的内存负荷,提高传输效率以及处理设备的处理效率。
与上述应用于主设备的提取标准描述信息的方法相应地,本发明实施例还提供了一种提取标准描述信息的装置,可以配置于分布式系统中的主设备,其中,所述分布式系统如图1所示可以包括至少一个主设备以及至少两个处理设备。具体实现方式如下:
(实施例三)
参见图5,为本发明实施例提供的提取标准描述信息的装置的结构示意图之一。如图5所示,该装置可以包括:
读取单元501,可以用于读取需要处理的多条模糊描述信息,其中,所述模糊描述信息由若干属性及其对应的属性内容表达。
例如,所述模糊描述信息可以由商品类别属性及其对应的类别名称、商品名称属性及其对应的商品名称、商品品牌属性及其对应的商品品牌、型号属性及其对应的型号等等来表达。
需要说明的是,本发明实施例中,所述模糊描述信息可以按照一定的收集条件,从例如电子商务网站的后台数据库中收集得到。例如,收集得到的模糊描述信息可以按照一定的格式保存于文件中。其中,所述文件的格式可以按照模糊描述信息的属性,以及属性对应的属性内容来设置。一个文件可以用来保存属于同一类别的模糊描述信息。其中,收集模糊描述信息可以由单独的收集设备收集,也可以由所述主设备收集,在本发明中并不进行限制。
如果本发明实施例所述的分布式系统包括多个主设备,则可以由这些主设备从收集设备读取模糊描述信息,或者由其他主设备从用于收集模糊描述信息的主设备读取模糊描述信息。
信息描述第一单元502,可以用于根据所述模糊描述信息的属性及属性内容确定与所述模糊描述信息一一对应的描述值。
例如:可以对模糊描述信息的属性及属性内容进行哈希运算,得到与所述模糊描述信息一一对应的哈希值。该哈希值可以作为描述值,或者,也可以将该哈希值进行进一步计算再得到描述值。可以理解的是,对模糊描述信息的属性及属性内容进行哈希运算可以采取一般地哈希算法实现,具体过程在本发明中不再详细赘述。
处理设备确定单元503,可以用于根据所述模糊描述信息对应的描述值对所述处理设备的数量求余,由所得余数确定所述模糊描述信息对应的处理设备。
例如:可以将对模糊描述信息的属性及属性内容进行哈希运算得到的哈希值对处理设备的数量求余,或者,可以将哈希值进行进一步计算得到的描述值对处理设备的数量求余,由所得余数确定所述模糊描述信息对应的处理设备。
分发单元504,可以用于将所述模糊描述信息分发给所述模糊描述信息对应的处理设备,以便处理设备接收主设备分发的模糊描述信息,对接收到的模糊描述信息进行标准描述信息的提取。
为了使模糊描述信息以及标准描述信息在读取并映射到内存后,避免被JVM的垃圾回收机制给回收掉,该装置还可以包括第一软引用添加单元,用于通过添加软引用对象将模糊描述信息和/或者标准描述信息映射到内存中,以便在读取所述模糊描述信息和/或标准描述信息时,从内存中读取。
可见,在主设备端配置本发明实施例提供的装置,相同或相似的模糊描述信息可以尽可能地被分发到同一处理设备进行标准描述信息的提取,处理设备所需要处理的模糊描述信息类型相对较少,无需频繁切换不同的处理规则,针对一种类型的模糊描述信息,处理设备所得到的信息量足够大,因此,所提取出的标准描述信息也更加准确。
(实施例四)
在本发明实施例又一种可能的实现方式中,主设备还可以对所有模糊描述信息进行了切分,分次分发模糊描述信息,从而使得处理设备在一次分发中所接收的模糊描述信息的数据量在处理设备的内存容量的可接受范围内,减轻处理设备的内存负荷,提高传输效率以及处理设备的处理效率。具体地,例如,参见图6,为提取标准描述信息的装置的结构示意图之二,所述信息描述第一单元502可以包括:
第一切分子单元502a,可以用于根据所有需要处理的模糊描述信息的数据量以及处理设备的最大内存容量计算出最少分发份数;
第一哈希子单元502b,可以用于对模糊描述信息的属性及属性内容进行哈希运算,得到与所述模糊描述信息一一对应的哈希值;
第一求余子单元502c,可以用于将所述模糊描述信息对应的哈希值对所述最少分发份数的整数倍进行求余运算,由所得余数确定所述模糊描述信息对应的描述值;
其中,所述分发单元504,可以用于在将模糊描述信息分发给模糊描述信息对应的处理设备时,对于同一处理设备,按描述值不同划分分发次数,分次将模糊描述信息分发给对应的处理设备。
可见,该实施例可以使所有模糊描述信息按照描述值被切分为最少分发份数的整数倍的份数,使得处理设备在一次分发所接收的模糊描述信息的数据量为一份的数据量,在处理设备的内存容量的可接受范围内,因此,可以减轻处理设备的内存负荷,提高传输效率以及处理设备的处理效率。
与上述应用于主设备的提取标准描述信息的方法相应地,本发明实施例还提供了一种应用于处理设备的提取标准描述信息的方法。具体实现方式如下:
(实施例五)
参见图7,为本发明实施例提供的提取标准描述信息的方法的流程示意图之三,如图7所示,该方法可以包括:
S710、处理设备接收主设备分发的模糊描述信息,其中,所述模糊描述信息由若干属性及其对应的属性内容表达,所述模糊描述信息具体由主设备在读取需要处理的多条模糊描述信息之后,根据所述模糊描述信息的属性及属性内容确定与所述模糊描述信息一一对应的描述值,根据所述模糊描述信息对应的描述值对所述处理设备的数量求余,由所得余数确定所述模糊描述信息对应的处理设备并分发给对应的处理设备;
S720、处理设备对接收到的模糊描述信息进行标准描述信息的提取。
可见,应用本发明实施例提供的方法,处理设备可以尽可能地接收相同或相似的模糊描述信息,对于针对不同的模糊描述信息类型设置有不同的处理规则的处理设备来说,处理设备可以利用与模糊描述信息相对应的处理规则进行标准描述信息的提取,由于所需要处理的模糊描述信息类型相对较少,无需频繁切换不同的处理规则,针对一种类型的模糊描述信息,处理设备所得到的信息量足够大,因此,所提取出的标准描述信息也更加准确。
(实施例六)
在本发明实施例一种可能的实现方式中,分布式系统可以包括两个或两个以上主设备。在这种实现方式中,如果主设备从处理设备得到的标准描述信息为不同类别的标准商品信息则不利于对标准商品信息的进一步聚合处理,因此,为了能够使各个处理设备在得到标准描述信息后,将相同标准描述信息返回到同一主设备进行聚合,如图8所示的提取标准描述信息的方法的流程示意图之四,该实施例的处理设备对接收到的模糊描述信息进行标准描述信息的提取,提取出标准描述信息之后,还可以包括:
S730、处理设备根据所述标准描述信息的属性及属性内容确定与所述标准描述信息一一对应的描述值;
S740、处理设备根据所述标准描述信息对应的描述值对所述主设备的数量求余,由所得余数确定所述标准描述信息对应的主设备;
S750、处理设备将所述标准描述信息返回给所述标准描述信息对应的主设备。
可见,在该实施例中,各个处理设备可以将相同标准描述信息返回到同一主设备进行聚合,使得主设备聚合出的标准描述信息更加准确。其中,本发明实施例主设备对处理设备返回的标准描述信息进行聚合的具体手段不限,例如,可以将各个处理设备返回的标准描述信息进行比较,其中,属性及属性内容相同的标准描述信息只保留一个版本,属性及属性内容不同的标准描述信息全部保留等的实现方式。
(实施例七)
基于与上述实施例二相同的原理,在本发明实施例再一种可能的实现方式中,处理设备根据所述标准描述信息的属性及属性内容确定与所述标准描述信息一一对应的描述值可以包括:
处理设备根据所有需要返回的标准描述信息的数据量以及主设备的最大内存容量计算出最少返回份数;以及,处理设备对标准描述信息的属性及属性内容进行哈希运算,得到与所述标准描述信息一一对应的哈希值;
处理设备将所述标准描述信息对应的哈希值对所述最少返回份数的整数倍进行求余运算,由所得余数确定所述标准描述信息对应的描述值;
其中,处理设备将所述标准描述信息返回给所述标准描述信息对应的主设备时,对于同一主设备,按描述值不同划分返回次数,分次将标准描述信息分发给对应的主设备。
需要说明的是,其中所述最少返回份数的整数倍的优选方式为恰好最少返回份数。
可见,该实施例中,对于同一主设备,可以按描述值不同划分返回次数,从而使得所有标准描述信息按照描述值被切分为最少返回份数的整数倍的份数,使得主设备在一次返回所接收的标准描述信息的数据量为一份的数据量,在主设备的内存容量的可接受范围内,减轻主设备的内存负荷,提高传输效率以及主设备的处理效率。
与上述应用于处理设备的提取标准描述信息的方法相应地,本发明实施例还提供了一种配置于处理设备的提取标准描述信息的装置。具体实现方式如下:
(实施例八)
参见图9,为本发明实施例提供的提取标准描述信息的装置的结构示意图之三。如图9所示,该装置可以包括:
接收单元921,可以用于接收主设备分发的模糊描述信息,其中,所述模糊描述信息由若干属性及其对应的属性内容表达,所述模糊描述信息具体由主设备在读取需要处理的多条模糊描述信息之后,根据所述模糊描述信息的属性及属性内容确定与所述模糊描述信息一一对应的描述值,根据所述模糊描述信息对应的描述值对所述处理设备的数量求余,由所得余数确定所述模糊描述信息对应的处理设备并分发给对应的处理设备;
提取单元922,可以用于对接收到的模糊描述信息进行标准描述信息的提取。
其中,所述提取单元922对接收到的模糊描述信息进行标准描述信息的提取可以采取一般的提取方式,例如,可以根据商品所属类别的描述信息特点,设置相应的提取规则,再例如,根据不同发布者发布的相同模糊描述信息的记录数超过阈值,确定该模糊描述信息即为标准描述信息,或者,再例如,可以将所接收到的模糊描述信息之间进行比较,将模糊描述信息的属性及属性内容相同的模糊描述信息进行合并,合并出若干个属性及属性内容不同的标准模糊描述信息,或者,还可以有其他提取规则,本发明在此不再赘述。
可见,应用本发明实施例提供的装置,处理设备可以尽可能地接收相同或相似的模糊描述信息,对于针对不同的模糊描述信息类型设置有不同的处理规则的处理设备来说,处理设备可以利用与模糊描述信息相对应的处理规则进行标准描述信息的提取,由于所需要处理的模糊描述信息类型相对较少,无需频繁切换不同的处理规则,针对一种类型的模糊描述信息,处理设备所得到的信息量足够大,因此,所提取出的标准描述信息也更加准确。
例如,本发明实施例提供的装置还可以包括设置单元,可以用于针对不同的模糊描述信息类型设置有不同的处理规则。
另外,为了使模糊描述信息以及标准描述信息在读取并映射到内存后,避免被垃圾回收机制给回收掉,本发明实施例提供的装置还可以包括第二软引用添加单元,可以用于通过添加软引用对象将模糊描述信息映射到内存中,以便在读取所述模糊描述信息时,从内存中读取。
(实施例九)
在本发明实施例一种可能的实现方式中,如图1所示,分布式系统可以包括两个或两个以上主设备。参见图10,为本发明实施例提供的提取标准描述信息的装置的结构示意图之四。如图10所示,配置于处理设备的提取标准描述信息的装置还可以包括:
信息描述第二单元923,可以用于在提取单元提取出标准描述信息之后,根据所述标准描述信息的属性及属性内容确定与所述标准描述信息一一对应的描述值;
主设备确定单元924,可以用于根据所述标准描述信息对应的描述值对所述主设备的数量求余,由所得余数确定所述标准描述信息对应的主设备;
返回单元925,可以用于将所述标准描述信息返回给所述标准描述信息对应的主设备。
可见,在该实施例中,各个处理设备可以将相同标准描述信息返回到同一主设备进行聚合,使得主设备聚合出的标准描述信息更加准确。
(实施例十)
基于与上述实施例二相同的原理,在本发明实施例再一种可能的实现方式中,如图11所示的提取标准描述信息的装置的结构示意图之五,所述信息描述第二单元923可以包括:
第二切分子单元923a,可以用于根据所有需要返回的标准描述信息的数据量以及主设备的最大内存容量计算出最少返回份数;
第二哈希子单元923b,可以用于对标准描述信息的属性及属性内容进行哈希运算,得到与所述标准描述信息一一对应的哈希值;
第二求余子单元923c,可以用于将所述标准描述信息对应的哈希值对所述最少返回份数的整数倍进行求余运算,由所得余数确定所述标准描述信息对应的描述值;
其中,所述返回单元925,可以用于在将所述标准描述信息返回给所述标准描述信息对应的主设备时,对于同一主设备,按描述值不同划分返回次数,分次将标准描述信息分发给对应的主设备。
可见,该实施例中,对于同一主设备,可以按描述值不同划分返回次数,从而使得所有标准描述信息按照描述值被切分为最少返回份数的整数倍的份数,使得主设备在一次返回所接收的标准描述信息的数据量为一份的数据量,在主设备的内存容量的可接受范围内,减轻主设备的内存负荷,提高传输效率以及主设备的处理效率。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序单元。一般地,程序单元包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序单元可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述仅是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1.一种提取标准描述信息的方法,应用于分布式系统中的主设备,其中,所述分布式系统包括至少一个主设备以及至少两个处理设备,其特征在于,所述方法包括:
读取需要处理的多条模糊描述信息,其中,所述模糊描述信息由若干属性及其对应的属性内容表达;
根据所有需要处理的模糊描述信息的数据量以及处理设备的最大内存容量计算出最少分发份数;以及,对模糊描述信息的属性及属性内容进行哈希运算,得到与所述模糊描述信息一一对应的哈希值;将所述模糊描述信息对应的哈希值对所述最少分发份数的整数倍进行求余运算,由所得余数确定所述模糊描述信息对应的描述值;
根据所述模糊描述信息对应的描述值对所述处理设备的数量求余,由所得余数确定所述模糊描述信息对应的处理设备;
将所述模糊描述信息分发给所述模糊描述信息对应的处理设备,对于同一处理设备,按描述值不同划分分发次数,分次将模糊描述信息分发给对应的处理设备,以便处理设备接收主设备分发的模糊描述信息,对接收到的模糊描述信息进行标准描述信息的提取。
2.根据权利要求1所述的方法,其特征在于,还包括:
通过添加软引用对象将模糊描述信息映射到内存中,以便在读取所述模糊描述信息时,从内存中读取。
3.根据权利要求1所述的方法,其特征在于,所述处理设备中针对不同的模糊描述信息类型设置有不同的处理规则。
4.一种提取标准描述信息的装置,配置于分布式系统中的主设备,其中,所述分布式系统包括至少一个主设备以及至少两个处理设备,其特征在于,所述装置包括:
读取单元,用于读取需要处理的多条模糊描述信息,其中,所述模糊描述信息由若干属性及其对应的属性内容表达;
信息描述第一单元,用于根据所有需要处理的模糊描述信息的数据量以及处理设备的最大内存容量计算出最少分发份数;以及,对模糊描述信息的属性及属性内容进行哈希运算,得到与所述模糊描述信息一一对应的哈希值;将所述模糊描述信息对应的哈希值对所述最少分发份数的整数倍进行求余运算,由所得余数确定所述模糊描述信息对应的描述值;处理设备确定单元,用于根据所述模糊描述信息对应的描述值对所述处理设备的数量求余,由所得余数确定所述模糊描述信息对应的处理设备;
分发单元,用于将所述模糊描述信息分发给所述模糊描述信息对应的处理设备,对于同一处理设备,按描述值不同划分分发次数,分次将模糊描述信息分发给对应的处理设备,以便处理设备接收主设备分发的模糊描述信息,对接收到的模糊描述信息进行标准描述信息的提取。
5.根据权利要求4所述的装置,其特征在于,还包括:
第一软引用添加单元,用于通过添加软引用对象将模糊描述信息映射到内存中,以便在读取所述模糊描述信息时,从内存中读取。
6.一种提取标准描述信息的方法,应用于分布式系统中的处理设备,其中,所述分布式系统包括至少一个主设备以及至少两个处理设备,其特征在于,所述方法包括:
接收主设备分发的模糊描述信息,其中,所述模糊描述信息由若干属性及其对应的属性内容表达,所述模糊描述信息具体由主设备在读取需要处理的多条模糊描述信息之后,根据所有需要处理的模糊描述信息的数据量以及处理设备的最大内存容量计算出最少分发份数;以及,对模糊描述信息的属性及属性内容进行哈希运算,得到与所述模糊描述信息一一对应的哈希值;将所述模糊描述信息对应的哈希值对所述最少分发份数的整数倍进行求余运算,由所得余数确定所述模糊描述信息对应的描述值;根据所述模糊描述信息对应的描述值对所述处理设备的数量求余,由所得余数确定所述模糊描述信息对应的处理设备;对接收到的模糊描述信息进行标准描述信息的提取。
7.根据权利要求6所述的方法,其特征在于,所述分布式系统包括两个以上的主设备;
在提取出标准描述信息之后,还包括:
根据所述标准描述信息的属性及属性内容确定与所述标准描述信息一一对应的描述值;
根据所述标准描述信息对应的描述值对所述主设备的数量求余,由所得余数确定所述标准描述信息对应的主设备;
将所述标准描述信息返回给所述标准描述信息对应的主设备。
8.根据权利要求7所述的方法,其特征在于,所述根据标准描述信息的属性及属性内容确定与所述标准描述信息一一对应的描述值包括:
根据所有需要返回的标准描述信息的数据量以及主设备的最大内存容量计算出最少返回份数;以及,对标准描述信息的属性及属性内容进行哈希运算,得到与所述标准描述信息一一对应的哈希值;
将所述标准描述信息对应的哈希值对所述最少返回份数的整数倍进行求余运算,由所得余数确定所述标准描述信息对应的描述值;
其中,将所述标准描述信息返回给所述标准描述信息对应的主设备时,对于同一主设备,按描述值不同划分返回次数,分次将标准描述信息分发给对应的主设备。
9.根据权利要求6~8任一项所述的方法,其特征在于,还包括:
通过添加软引用对象将模糊描述信息映射到内存中,以便在读取所述模糊描述信息时,从内存中读取。
10.根据权利要求6所述的方法,其特征在于,还包括:
针对不同的模糊描述信息类型设置有不同的处理规则。
11.一种提取标准描述信息的装置,配置于分布式系统中的处理设备,其中,所述分布式系统包括至少一个主设备以及至少两个处理设备,其特征在于,所述装置包括:
接收单元,用于接收主设备分发的模糊描述信息,其中,所述模糊描述信息由若干属性及其对应的属性内容表达,所述模糊描述信息具体由主设备在读取需要处理的多条模糊描述信息之后,根据所有需要处理的模糊描述信息的数据量以及处理设备的最大内存容量计算出最少分发份数;以及,对模糊描述信息的属性及属性内容进行哈希运算,得到与所述模糊描述信息一一对应的哈希值;将所述模糊描述信息对应的哈希值对所述最少分发份数的整数倍进行求余运算,由所得余数确定所述模糊描述信息对应的描述值;根据所述模糊描述信息对应的描述值对所述处理设备的数量求余,由所得余数确定所述模糊描述信息对应的处理设备;
提取单元,用于对接收到的模糊描述信息进行标准描述信息的提取。
12.根据权利要求11所述的装置,其特征在于,所述分布式系统包括两个以上的主设备,所述装置还包括:
信息描述第二单元,用于在提取单元提取出标准描述信息之后,根据所述标准描述信息的属性及属性内容确定与所述标准描述信息一一对应的描述值;
主设备确定单元,用于根据所述标准描述信息对应的描述值对所述主设备的数量求余,由所得余数确定所述标准描述信息对应的主设备;
返回单元,用于将所述标准描述信息返回给所述标准描述信息对应的主设备。
13.根据权利要求12所述的装置,其中,所述信息描述第二单元包括:
第二切分子单元,用于根据所有需要返回的标准描述信息的数据量以及主设备的最大内存容量计算出最少返回份数;
第二哈希子单元,用于对标准描述信息的属性及属性内容进行哈希运算,得到与所述标准描述信息一一对应的哈希值;
第二求余子单元,用于将所述标准描述信息对应的哈希值对所述最少返回份数的整数倍进行求余运算,由所得余数确定所述标准描述信息对应的描述值;
其中,所述返回单元,用于在将所述标准描述信息返回给所述标准描述信息对应的主设备时,对于同一主设备,按描述值不同划分返回次数,分次将标准描述信息分发给对应的主设备。
14.根据权利要求11~13任一项所述的装置,其特征在于,还包括:
第二软引用添加单元,用于通过添加软引用对象将模糊描述信息映射到内存中,以便在读取所述模糊描述信息时,从内存中读取。
15.根据权利要求11所述的装置,其特征在于,还包括:
设置单元,用于针对不同的模糊描述信息类型设置有不同的处理规则。
CN201410052145.6A 2014-02-14 2014-02-14 一种提取标准描述信息的方法及装置 Active CN104850555B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410052145.6A CN104850555B (zh) 2014-02-14 2014-02-14 一种提取标准描述信息的方法及装置
HK15109534.7A HK1208935A1 (zh) 2014-02-14 2015-09-29 種提取標準描述信息的方法及裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410052145.6A CN104850555B (zh) 2014-02-14 2014-02-14 一种提取标准描述信息的方法及装置

Publications (2)

Publication Number Publication Date
CN104850555A CN104850555A (zh) 2015-08-19
CN104850555B true CN104850555B (zh) 2018-07-10

Family

ID=53850202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410052145.6A Active CN104850555B (zh) 2014-02-14 2014-02-14 一种提取标准描述信息的方法及装置

Country Status (2)

Country Link
CN (1) CN104850555B (zh)
HK (1) HK1208935A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180017B (zh) * 2016-03-11 2021-05-28 阿里巴巴集团控股有限公司 一种样本序列化方法和装置
CN114757734A (zh) * 2018-11-22 2022-07-15 创新先进技术有限公司 业务订单的处理方法、装置和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1984070A (zh) * 2006-05-31 2007-06-20 华为技术有限公司 通讯网络中对数据流的分流方法和装置
CN101286936A (zh) * 2008-05-16 2008-10-15 华为技术有限公司 数据报文的处理方法及装置
CN101527685A (zh) * 2009-04-17 2009-09-09 华为技术有限公司 一种报文传输链路的分配方法和装置
CN102340434A (zh) * 2011-07-07 2012-02-01 杭州华三通信技术有限公司 基于多归属接入的环路避免方法和边缘设备
CN103473121A (zh) * 2013-08-20 2013-12-25 西安电子科技大学 一种基于云计算平台的海量图片并行处理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578008B (zh) * 2012-07-20 2020-08-25 阿里巴巴集团控股有限公司 一种推荐服装产品的方法以及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1984070A (zh) * 2006-05-31 2007-06-20 华为技术有限公司 通讯网络中对数据流的分流方法和装置
CN101286936A (zh) * 2008-05-16 2008-10-15 华为技术有限公司 数据报文的处理方法及装置
CN101527685A (zh) * 2009-04-17 2009-09-09 华为技术有限公司 一种报文传输链路的分配方法和装置
CN102340434A (zh) * 2011-07-07 2012-02-01 杭州华三通信技术有限公司 基于多归属接入的环路避免方法和边缘设备
CN103473121A (zh) * 2013-08-20 2013-12-25 西安电子科技大学 一种基于云计算平台的海量图片并行处理方法

Also Published As

Publication number Publication date
HK1208935A1 (zh) 2016-03-18
CN104850555A (zh) 2015-08-19

Similar Documents

Publication Publication Date Title
JP6991163B2 (ja) 情報をプッシュする方法及びデバイス
CN1806160B (zh) 负荷监视方法
CN104464086B (zh) 一种智能饭菜计费方法、装置、系统及勺子、刷卡机
CN109948121A (zh) 文章相似度挖掘方法、系统、设备及存储介质
CN108268565B (zh) 基于数据仓库处理用户浏览行为数据的方法及系统
CN106570008A (zh) 推荐方法及装置
TW201800988A (zh) 物流資訊處理方法及裝置
CN105354202A (zh) 数据推送方法及装置
CN103632463A (zh) 一种基于图像识别技术的结算方法
CN102930048A (zh) 使用参考和视觉数据的语义自动发现的数据丰富
CN104850555B (zh) 一种提取标准描述信息的方法及装置
CN103377527A (zh) 一种云收银方法及系统
CN110309234A (zh) 一种基于知识图谱的客户持仓预警方法、装置及存储介质
CN108509441A (zh) 一种地址有效性分类器的训练及其验证方法和相关装置
CN204270345U (zh) 异常商品管控系统
CN103984982A (zh) 一种酒店物料管理系统及其实现方法
CN109739854A (zh) 一种数据存储方法及装置
CN109102331A (zh) 货物信息处理方法、服务器、系统、电子设备及存储介质
CN112633988A (zh) 用户产品推荐方法、装置、电子设备及可读存储介质
CN113222687A (zh) 一种基于深度学习的推荐方法及装置
CN109766333A (zh) 数据空值处理方法、装置及终端设备
CN109146383A (zh) 虚拟库存的管理方法及相关产品
CN203025776U (zh) 智能餐饮管理系统
JP2010277571A (ja) 商品選択システムとその方法、及び、商品選択コンピュータプログラム
JP7416237B2 (ja) 処理装置、処理方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1208935

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211109

Address after: No. 699, Wangshang Road, Binjiang District, Hangzhou, Zhejiang

Patentee after: Alibaba (China) Network Technology Co.,Ltd.

Address before: Cayman Islands Grand Cayman capital building, a four storey No. 847 mailbox

Patentee before: ALIBABA GROUP HOLDING Ltd.