CN108388555A

CN108388555A - 基于行业类别的商品去重方法及装置

Info

Publication number: CN108388555A
Application number: CN201810101240.9A
Authority: CN
Inventors: 汤恩清; 陈晨; 彭更红; 李江; 李泽源
Original assignee: Koubei Shanghai Information Technology Co Ltd
Current assignee: Koubei Shanghai Information Technology Co Ltd
Priority date: 2018-02-01
Filing date: 2018-02-01
Publication date: 2018-08-10

Abstract

本发明公开了一种基于行业类别的商品去重方法及装置，方法包括：将待比较的至少两个商品的字段信息进行分词处理，得到每个商品对应的至少一个分词；根据商品的每个分词的分词向量以及每个分词的行业权重，计算商品的商品向量；计算至少两个商品的商品向量之间的距离，根据距离确定是否对至少两个商品中的一个或多个商品进行去重处理。本发明利用了各商品的字段信息在各不同行业中的行业权重，计算商品的商品向量，得到的商品的商品向量与行业相关联，针对不同的行业，商品的商品向量可能存在不同。这样使得在去重时，更贴近商品的实际情况，做到对商品从其本质出发的有效去重。

Description

基于行业类别的商品去重方法及装置

技术领域

本发明涉及软件领域，具体涉及一种基于行业类别的商品去重方法及装置。

背景技术

在O2O(Online To Offline，线上到线下)行业，商户可以利用商户端录入自己店铺的商品，以便展示给客户，方便客户了解商铺的营业范围，从中找到自己需要的商品。商户在录入商品时，有时存在录入重复商品的情况；也有大型商家，具有很多分店，各个分店分别录入商品，很有可能会录入重复的商品。针对这种情况，系统端需要对商户端录入的商品进行识别，避免出现重复录入商品的问题。

现有技术提供的一种处理方式是：通过直接比对两个商品的相似性，例如根据商品名称、商品金额等信息判断商品是否重复。这样处理方式比较呆板，过于粗糙，不能准确地确定重复商品。例如，名称为“鲜花味冰激凌”的商品和名称为“鲜花味道的冰淇淋”的商品其实是同一商品，利用该方法不能准确的确定两者是否为重复商品。且从商品的实际特性考虑，如商品名称为4人套餐和商品名称为6人套餐，套餐一词在餐饮行业出现的频率相当高，套餐一词不是餐饮行业中对商品判断是否为重复商品的重点，现有技术将商品名称整体进行相似性比较，忽略了对商品名称中比较的重点应为4人和6人，因此，现有技术对商品相似性的处理不够准确、不能突出重点的对商品进行比较。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于行业类别的商品去重方法及装置。

根据本发明的一个方面，提供了一种基于行业类别的商品去重方法，其包括：

将待比较的至少两个商品的字段信息进行分词处理，得到每个商品对应的至少一个分词；

根据商品的每个分词的分词向量以及每个分词的行业权重，计算商品的商品向量；

计算至少两个商品的商品向量之间的距离，根据距离确定是否对至少两个商品中的一个或多个商品进行去重处理。

可选地，在计算商品的商品向量之前，方法还包括：

确定商品所属的行业类别；

查询在商品所属的行业类别中每个分词的行业权重。

可选地，方法还包括：

预先统计各行业类别中各分词的热度；其中，热度与各分词在其所属行业类别中出现的次数成正比；

根据各分词的热度得到各分词在其所属行业类别中的行业权重；其中，分词的行业权重与分词的热度成反比。

可选地，根据商品的每个分词的分词向量以及每个分词的行业权重，计算商品的商品向量进一步包括：

将商品的所有分词的分词向量与分词的行业权重的乘积进行累加后，除以商品的所有分词的行业权重之和，得到商品向量。

将商品的所有分词的分词向量与分词的行业权重的乘积进行累加后，除以商品的分词个数，得到商品向量。

可选地，根据距离确定是否对至少两个商品中的一个或多个商品进行去重处理进一步包括：

将距离与预设值进行比较；

若距离小于或等于预设值，则确定对至少两个商品中的一个或多个商品进行去重处理；

若距离大于或等于预设值，则确定不做去重处理。

可选地，若距离小于或等于预设值，方法还包括：

判断至少两个商品的字段信息是否符合预设去重修正规则；

若是，则确定不做去重处理。

可选地，预设值为根据商品所属的行业类别设置的预设值。

可选地，待比较的至少两个商品具体为同一商家的商品，或者具有关联关系的不同商家的商品。

可选地，在确定对至少两个商品中的一个或多个商品进行去重处理之后，方法还包括：

将至少两个商品中的一个或多个商品的去重确认结果信息反馈给客户端，以供客户端根据去重确认结果信息进行去重处理。

可选地，商品的字段信息包括商品名称字段、商品描述字段和/或商品价格字段。

根据本发明的另一方面，提供了一种基于行业类别的商品去重装置，其包括：

分词模块，适于将待比较的至少两个商品的字段信息进行分词处理，得到每个商品对应的至少一个分词；

向量计算模块，适于根据商品的每个分词的分词向量以及每个分词的行业权重，计算商品的商品向量；

距离计算模块，适于计算至少两个商品的商品向量之间的距离，根据距离确定是否对至少两个商品中的一个或多个商品进行去重处理。

可选地，装置还包括：

权重查询模块，适于确定商品所属的行业类别；查询在商品所属的行业类别中每个分词的行业权重。

可选地，装置还包括：

权重计算模块，适于预先统计各行业类别中各分词的热度；其中，热度与各分词在其所属行业类别中出现的次数成正比；根据各分词的热度得到各分词在其所属行业类别中的行业权重；其中，分词的行业权重与分词的热度成反比。

可选地，向量计算模块进一步适于：

可选地，距离计算模块进一步适于：

将距离与预设值进行比较；若距离小于或等于预设值，则确定对至少两个商品中的一个或多个商品进行去重处理；若距离大于或等于预设值，则确定不做去重处理。

可选地，装置还包括：

去重修正模块，适于判断至少两个商品的字段信息是否符合预设去重修正规则；若是，则确定不做去重处理。

可选地，预设值为根据商品所属的行业类别设置的预设值。

可选地，装置还包括：

反馈模块，适于将至少两个商品中的一个或多个商品的去重确认结果信息反馈给客户端，以供客户端根据去重确认结果信息进行去重处理。

根据本发明的又一方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；

存储器用于存放至少一可执行指令，可执行指令使处理器执行上述基于行业类别的商品去重方法对应的操作。

根据本发明的再一方面，提供了一种计算机存储介质，存储介质中存储有至少一可执行指令，可执行指令使处理器执行如上述基于行业类别的商品去重方法对应的操作。

根据本发明提供的基于行业类别的商品去重方法及装置，将待比较的至少两个商品的字段信息进行分词处理，得到每个商品对应的至少一个分词；根据商品的每个分词的分词向量以及每个分词的行业权重，计算商品的商品向量；计算至少两个商品的商品向量之间的距离，根据距离确定是否对至少两个商品中的一个或多个商品进行去重处理。本发明利用了各商品的字段信息在各不同行业中的行业权重，计算商品的商品向量，得到的商品的商品向量与行业相关联，针对不同的行业，商品的商品向量可能存在不同。这样使得在对商品去重时，更贴近商品的实际情况，做到对商品从其本质出发的有效去重。解决了仅考虑商品中字段信息本身的语义，而没有从商品所在行业的角度思考，使得对商品的去重仅流于表面的问题。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的基于行业类别的商品去重方法的流程图；

图2示出了根据本发明另一个实施例的基于行业类别的商品去重方法的流程图；

图3示出了根据本发明一个实施例的基于行业类别的商品去重装置的功能框图；

图4示出了根据本发明另一个实施例的基于行业类别的商品去重装置的功能框图；

图5示出了根据本发明一个实施例的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的基于行业类别的商品去重方法的流程图。如图1所示，基于行业类别的商品去重方法具体包括如下步骤：

步骤S101，将待比较的至少两个商品的字段信息进行分词处理，得到每个商品对应的至少一个分词。

商品的字段信息包括了商品名称字段、商品描述字段、商品价格字段等。具体的，可以由商户在商户端录入商品的字段信息，商品名称字段为一束玫瑰，商品描述字段为鲜花，商品价格字段为10元等。商户在商户端可以录入多个商品的字段信息。

将待比较的至少两个商品的字段信息进行分词处理时，需要将商品的字段信息切分成至少一个分词。其中，分词为最小的词语单位，对应得到的分词向量更精确，后续在计算商品的商品向量时，可以使计算的商品向量更准确。对商品的字段信息进行分词处理得到的分词如商品的字段信息包括一束玫瑰、鲜花、10元等，对其进行分词处理，得到商品对应的一束、玫瑰、鲜花、10元等分词。

对商品的字段信息进行分词处理时，可以使用任一分词工具，如word2vec等分词工具，将商品的字段信息分为对应的分词。对应的，使用的分词工具需要进行训练，先利用大量预标注的商品的字段信息和对应的分词作为样本来训练，以便于得到准确的分词。同时，在进行分词训练时，还需要对各分词的分词向量进行训练。将分词投射至预设维度的空间中，进而得到预设维度的分词向量。如预设维度为100维，分词一束所对应的分词向量为(1，4，2，1，……9)共100维数字值。分词向量与分词本身相关，互为近义词的至少两个分词的分词向量之间的距离近，互为反义词的至少两个分词的分词向量之间的距离远。利用分词工具对商品的字段信息进行分词后，得到商品对应的分词，同时，也得到分词的分词向量。

步骤S102，根据商品的每个分词的分词向量以及每个分词的行业权重，计算商品的商品向量。

计算商品的商品向量，可以有多种方式，如将商品的所有分词的分词向量与分词的行业权重的乘积进行累加后，得到商品向量。但这样得到的商品向量与商品的分词个数密切相关，如一商品的分词为一束、玫瑰、鲜花、10元，另一商品的分词为一束、10枝、玫瑰、花朵、鲜花、10元，两个商品的分词个数不同，会导致累加之后得到的商品向量存在很大的距离。因此，可选地，将商品的所有分词的分词向量与分词的行业权重的乘积进行累加后，除以商品的分词个数，得到商品向量。这样得到的商品的商品向量不受分词个数的限制，在后续计算商品向量的距离时会更准确。或者，还可以将商品的所有分词的分词向量与分词的行业权重的乘积进行累加后，除以商品的所有分词的行业权重之和，得到商品向量。这样即使有些分词的行业权重过大，得到的累加后的商品向量过大时，通过除以商品的所有分词的行业权重之和，可以修正因行业权重过大导致的商品向量过大问题，避免后续计算商品向量距离时发生过大的偏移，导致计算不准确等问题。

由于分词向量为多维的数字值，需要将分词向量中的每一维度的值均与分词的行业权重相乘，得到多维的乘积值，再将每个分词多维的乘积值按照各维分别进行累加，累加之和除以商品的分词个数或商品的所有分词的行业权重之和，得到商品向量。商品向量也是多维的数字值。以累加之和除以商品的所有分词的行业权重之和为例，如商品的分词为一束、玫瑰、鲜花、10元，一束的分词向量为(1，4，2，1，……9)，玫瑰的分词向量为(20，8，5，13，……30)，鲜花的分词向量为(25，7，4，11，……29)，10元的分词向量为(10，2，3，6，……15)，商品所属的行业类别为超市类别，一束的行业权重为0.4，玫瑰的行业权重为0.5，鲜花的行业权重为0.1，10元的行业权重为0.01，商品的商品向量＝((1*0.4+20*0.5+25*0.1+10*0.01)/(0.4+0.5+0.1+0.01)，(4*0.4+8*0.5+7*0.1+2*0.01)/(0.4+0.5+0.1+0.01)，(2*0.4+5*0.5+4*0.1+3*0.01)/(0.4+0.5+0.1+0.01)，(1*0.4+13*0.5+11*0.1+6*0.01)/(0.4+0.5+0.1+0.01)，……(9*0.4+30*0.5+29*0.1+15*0.01)/(0.4+0.5+0.1+0.01))。

分词的行业权重可以预先根据已经收集的大数据，对不同行业类别的不同分词设置其行业权重。同一分词在不同的行业类别的行业权重可能不同。如玫瑰，在花店行业，其行业权重为0.01，在餐饮行业，其行业权重为0.5。根据分词及商品所属的行业类别，可以查找到预先设置的分词在不同行业类别的行业权重。

步骤S103，计算至少两个商品的商品向量之间的距离，根据距离确定是否对至少两个商品中的一个或多个商品进行去重处理。

计算至少两个商品的商品向量之间的距离时，可以利用距离公式计算两两商品的商品向量之间的距离。根据商品向量的多维数据，利用距离公式进行计算，得到商品向量之间的距离。

根据得到的距离来判断至少两个商品中的一个或多个商品是否为重复商品，进而对其进行去重处理。

待比较的至少两个商品可以为同一商家的商品，或者为具有关联关系的不同商家的商品。如至少两个商品均为某一家咖啡店录入的商品，或者至少两个商品为同一品牌商家在不同分店分别录入的商品，或者至少两个商品为具有合作、联合经营、新旧更替等关联关系的不同商家录入的商品。对同一商家的商品进行商品去重处理，可以减少同一商家录入多个相似度极高的商品而导致的商品过多不易管理、对商家经营范围定位不清等问题，也可以使消费者快速的查找到商家的商品。对同一品牌商家在不同分店的商品去重处理，可以使不同分店直接使用一份商品的字段信息，保证了不同分店均提供相同的商品的字段信息，更有利于塑造同一品牌商家的统一性，也减少不同分店各自录入商品导致的商品的字段信息不一致，给消费者造成不是同一品牌商家的印象。同时，也节省了不同分店录入商品字段信息所花费的时间、人工成本等。

可选地，在本实施例中待比较的至少两个商品的字段信息其中一个为在商户录入商品的字段信息时，获取当前录入的商品的字段信息，另至少一个商品的字段信息为已经录入的商品的字段信息，则本实施例在获取到当前录入的商品的字段信息后执行；或者，至少两个商品的字段信息均为已经录入的商品的字段信息，则本实施例可以在录入商品的字段信息后执行，也可以在任一指定操作触发时，获取到至少两个商品的字段信息后执行。具体执行时间根据实施情况进行设置。

根据本发明提供的基于行业类别的商品去重方法，将待比较的至少两个商品的字段信息进行分词处理，得到每个商品对应的至少一个分词；根据商品的每个分词的分词向量以及每个分词的行业权重，计算商品的商品向量；计算至少两个商品的商品向量之间的距离，根据距离确定是否对至少两个商品中的一个或多个商品进行去重处理。本发明利用了各商品的字段信息在各不同行业中的行业权重，计算商品的商品向量，使得得到的商品的商品向量与行业相关联，针对不同的行业，商品的商品向量可能存在不同。这样使得在对商品去重时，更贴近商品的实际情况，做到对商品从其本质出发的有效去重。解决了仅考虑商品中字段信息本身的语义，而没有从商品所在行业的角度思考，使得对商品的去重仅流于表面的问题。

图2示出了根据本发明另一个实施例的基于行业类别的商品去重方法的流程图。如图2所示，基于行业类别的商品去重方法具体包括如下步骤：

步骤S201，预先统计各行业类别中各分词的热度。

通过大数据预先收集各行业类别中出现的各分词，统计各分词在其所属行业类别中出现的次数。如玫瑰，在花店行业中出现3000次，牛奶在超市行业中出现1000次等，根据各行业的分词总数，以及统计各分词出现的次数，设置分词在其所属行业类别中的热度。其中，热度与各分词在其所属行业类别中出现的次数成正比。

进一步，为方便统计各行业类别的分词，可以先对各行业类别进行划分，避免各行业类别范围过小，分词总数过少，统计的分词次数过少，得到的各分词的热度不准确等问题。划分各行业类别时，可以将行业类别分为如餐饮、商超、泛行业(休闲娱乐、K歌、美容美发美甲、运动健身、宠物、婚庆、摄影、亲子、洗衣、书店等)，以及除以上行业外的其他类别(酒店、旅游等)。

步骤S202，根据各分词的热度得到各分词在其所属行业类别中的行业权重。

根据各分词在其所属行业类别中的热度，设置各分词在其所属行业类别中的行业权重。其中，分词的行业权重与分词的热度成反比。具体的，分词在其所属行业类别中的行业权重可以为分词热度的倒数。

如对于泛行业，分词玫瑰、分词百合出现的次数很多，热度高，其行业权重较低，如玫瑰的行业权重为0.001，百合的行业权重为0.002；对于餐饮行业，分词玫瑰、分词百合出现的次数少，热度低，其行业权重较高，如玫瑰的行业权重为0.5，百合的行业权重为0.5。

进一步，对于步骤S201和步骤S202可以执行多次，随着收集到的更多的商品的每个分词进行更新，重新统计得到各行业类别中各分词的热度，设置各分词在其所属行业类别中的行业权重。

步骤S203，将待比较的至少两个商品的字段信息进行分词处理，得到每个商品对应的至少一个分词。

该步骤参考图1实施例中的步骤S101，在此不再赘述。

步骤S204，确定商品所属的行业类别，查询在商品所属的行业类别中每个分词的行业权重。

由于各商户在录入商品时，根据各商户所属的行业类别，可以确定商品所属的行业类别，即商品各分词的行业类别。根据商品各分词的行业类别，可以查询到在其所属的行业类别中商品每个分词的行业权重。

步骤S205，根据商品的每个分词的分词向量以及每个分词的行业权重，计算商品的商品向量。

该步骤参考图1实施例中的步骤S102，在此不再赘述。

步骤S206，计算至少两个商品的商品向量之间的距离，判断距离是否小于或等于预设值。

计算至少两个商品的商品向量之间的距离时，可以利用距离计算公式等算法，分别计算两两商品的商品向量之间的距离。

判断至少两个商品的商品向量之间的距离是否小于或等于预设值，若距离小于或等于预设值，则确定至少两个商品之间的距离很近，至少两个商品为相似商品，执行步骤S207。否则，执行步骤S209。

预设值为根据大数据统计后得到的值，根据实施情况进行设置。预设值可以为固定值，或者，优选地，预设值为根据商品所属的行业类别所设置的，不同行业类别可以使用不同的预设值，这样可以更精确的判断至少两个商品是否为相似商品，便于对相似商品进行去重处理。

步骤S207，判断至少两个商品的字段信息是否符合预设去重修正规则。

对于某些商品，考虑到实际应用时，有些商品的商品向量之间的距离很近，符合距离小于或等于预设值，但这些商品并不是相似商品。如对于花店，商品字段信息为99朵红玫瑰和商品字段信息为999朵红玫瑰的两个商品，其虽然符合距离小于或等于预设值，但这两个商品并不是相似商品。对于这种情况，本实施例还增加了预设去重修正规则。在预设去重修正规则中，对这种商品向量之间的距离很近但不属于相似商品的商品进行了修正，如可以预先整理这些商品字段信息，设置专门用于去重修正的词库，将商品的名称、商品的描述或者商品个数等信息与去重修正词库中的商品字段信息进行比对，若一致，即判断至少两个商品的字段信息符合预设去重修正规则，则认为至少两个商品不是相似商品，执行步骤S209；否则，执行步骤S208。

步骤S208，确定对至少两个商品中的一个或多个商品进行去重处理。

当至少两个商品为相似商品时，需要对至少两个商品中的一个或多个商品进行去重处理。如判断一个商家的多个商品中存在了相似商品时，可以将至少两个商品中的一个或多个商品的去重确认结果信息反馈给客户端，以供客户端根据去重确认结果信息进行去重处理。具体的，将某一个或多个商品为相似商品的去重确认结果信息反馈给客户端，客户端可以选择保留其中一个商品，删除其他相似商品，或者，修改其他相似商品的字段信息，避免成为相似商品等。

步骤S209，确定不做去重处理。

确定至少两个商品不是相似商品，则可以确定不做去重处理，保存录入的商品即可。

根据本发明提供的基于行业类别的商品去重方法，从行业类别的角度出发，预先统计各行业类别中各分词的热度，从而得到各分词在其所属行业类别中的行业权重。这样得到的商品向量可以完全基于行业类别，突出了商品的重要分词所在的比重。通过计算至少两个商品的商品向量之间的距离，判断距离是否小于或等于预设值，来确定至少两个商品是否为相似商品。预设值基于商品所属的行业类别设置，对不同行业类别可以使用不同的预设值，以便更精准的确定商品是否为相似商品。进一步，当商品向量之间的距离很近，符合距离小于或等于预设值时，基于实际考虑，通过设置预设去重修正规则，对这种商品向量之间的距离很近但不属于相似商品的商品进行了修正，提高判断的准确率。

图3示出了根据本发明一个实施例的基于行业类别的商品去重装置的功能框图。如图3所示，基于行业类别的商品去重装置包括如下模块：

分词模块310，适于将待比较的至少两个商品的字段信息进行分词处理，得到每个商品对应的至少一个分词。

分词模块310将待比较的至少两个商品的字段信息进行分词处理时，需要将商品的字段信息切分成至少一个分词。其中，分词为最小的词语单位，对应得到的分词向量更精确，后续在计算商品的商品向量时，可以使计算的商品向量更准确。分词模块310对商品的字段信息进行分词处理得到的分词如商品的字段信息包括一束玫瑰、鲜花、10元等，对其进行分词处理，得到商品对应的一束、玫瑰、鲜花、10元等分词。

分词模块310对商品的字段信息进行分词处理时，可以使用任一分词工具，如word2vec等分词工具，将商品的字段信息分为对应的分词。对应的，分词模块310使用的分词工具需要进行训练，先利用大量预标注的商品的字段信息和对应的分词作为样本来训练，以便于得到准确的分词。同时，分词模块310在进行分词训练时，还需要对各分词的分词向量进行训练。将分词投射至预设维度的空间中，进而得到预设维度的分词向量。如预设维度为100维，分词一束所对应的分词向量为(1，4，2，1，……9)共100维数字值。分词向量与分词本身相关，互为近义词的至少两个分词的分词向量之间的距离近，互为反义词的至少两个分词的分词向量之间的距离远。分词模块310利用分词工具对商品的字段信息进行分词后，得到商品对应的分词，同时，也得到分词的分词向量。

向量计算模块320，适于根据商品的每个分词的分词向量以及每个分词的行业权重，计算商品的商品向量。

向量计算模块320根据商品的每个分词的分词向量以及每个分词的行业权重，计算商品的商品向量，具体的，如向量计算模块320将商品的所有分词的分词向量与分词的行业权重的乘积进行累加后，得到商品向量。但这样得到的商品向量与商品的分词个数密切相关，如一商品的分词为一束、玫瑰、鲜花、10元，另一商品的分词为一束、10枝、玫瑰、花朵、鲜花、10元，两个商品的分词个数不同，会导致累加之后得到的商品向量存在很大的距离。因此，可选地，向量计算模块320将商品的所有分词的分词向量与分词的行业权重的乘积进行累加后，除以商品的分词个数，得到商品向量。这样得到的商品的商品向量不受分词个数的限制，在后续计算商品向量的距离时会更准确。或者，向量计算模块320还可以将商品的所有分词的分词向量与分词的行业权重的乘积进行累加后，除以商品的所有分词的行业权重之和，得到商品向量。这样即使有些分词的行业权重过大，得到的累加后的商品向量过大时，向量计算模块320通过除以商品的所有分词的行业权重之和，可以修正因行业权重过大导致的商品向量过大问题，避免后续计算商品向量距离时发生过大的偏移，导致计算不准确等问题。

由于分词向量为多维的数字值，向量计算模块320需要将分词向量中的每一维度的值均与分词的行业权重相乘，得到多维的乘积值，再将每个分词多维的乘积值按照各维分别进行累加，累加之和除以商品的分词个数或商品的所有分词的行业权重之和，得到商品向量。商品向量也是多维的数字值。以向量计算模块320累加之和除以商品的所有分词的行业权重之和为例，如商品的分词为一束、玫瑰、鲜花、10元，一束的分词向量为(1，4，2，1，……9)，玫瑰的分词向量为(20，8，5，13，……30)，鲜花的分词向量为(25，7，4，11，……29)，10元的分词向量为(10，2，3，6，……15)，商品所属的行业类别为超市类别，一束的行业权重为0.4，玫瑰的行业权重为0.5，鲜花的行业权重为0.1，10元的行业权重为0.01，向量计算模块320得到商品的商品向量＝((1*0.4+20*0.5+25*0.1+10*0.01)/(0.4+0.5+0.1+0.01)，(4*0.4+8*0.5+7*0.1+2*0.01)/(0.4+0.5+0.1+0.01)，(2*0.4+5*0.5+4*0.1+3*0.01)/(0.4+0.5+0.1+0.01)，(1*0.4+13*0.5+11*0.1+6*0.01)/(0.4+0.5+0.1+0.01)，……(9*0.4+30*0.5+29*0.1+15*0.01)/(0.4+0.5+0.1+0.01))。

分词的行业权重可以预先根据已经收集的大数据，对不同行业类别的不同分词设置其行业权重。同一分词在不同的行业类别的行业权重可能不同。如玫瑰，在花店行业，其行业权重为0.01，在餐饮行业，其行业权重为0.5。向量计算模块320根据分词及商品所属的行业类别，可以查找到预先设置的分词在不同行业类别的行业权重。

距离计算模块330，适于计算至少两个商品的商品向量之间的距离，根据距离确定是否对至少两个商品中的一个或多个商品进行去重处理。

距离计算模块330计算至少两个商品的商品向量之间的距离时，可以利用距离公式计算两两商品的商品向量之间的距离。根据商品向量的多维数据，利用距离公式进行计算，得到商品向量之间的距离。

距离计算模块330根据得到的距离来判断至少两个商品中的一个或多个商品是否为重复商品，进而对其进行去重处理。距离计算模块330判断至少两个商品的商品向量之间的距离是否小于或等于预设值，若距离小于或等于预设值，则确定至少两个商品之间的距离很近，至少两个商品为相似商品，进而对其进行去重处理；否则，确定不做去重处理。

其中，预设值为根据大数据统计后得到的值，根据实施情况进行设置。预设值可以为固定值，或者，优选地，预设值为根据商品所属的行业类别所设置的，不同行业类别可以使用不同的预设值，这样距离计算模块330可以更精确的判断至少两个商品是否为相似商品，便于对相似商品进行去重处理。

待比较的至少两个商品可以为同一商家的商品，或者为具有关联关系的不同商家的商品。如至少两个商品均为某一家咖啡店录入的商品，或者至少两个商品为同一品牌商家在不同分店分别录入的商品，或者至少两个商品为具有合作、联合经营、新旧更替等关联关系的不同商家录入的商品。距离计算模块330对同一商家的商品进行商品去重处理，可以减少同一商家录入多个相似度极高的商品而导致的商品过多不易管理、对商家经营范围定位不清等问题，也可以使消费者快速的查找到商家的商品。距离计算模块330对同一品牌商家在不同分店的商品去重处理，可以使不同分店直接使用一份商品的字段信息，保证了不同分店均提供相同的商品的字段信息，更有利于塑造同一品牌商家的统一性，也减少不同分店各自录入商品导致的商品的字段信息不一致，给消费者造成不是同一品牌商家的印象。同时，也节省了不同分店录入商品字段信息所花费的时间、人工成本等。

根据本发明提供的基于行业类别的商品去重装置，将待比较的至少两个商品的字段信息进行分词处理，得到每个商品对应的至少一个分词；根据商品的每个分词的分词向量以及每个分词的行业权重，计算商品的商品向量；计算至少两个商品的商品向量之间的距离，根据距离确定是否对至少两个商品中的一个或多个商品进行去重处理。本发明利用了各商品的字段信息在各不同行业中的行业权重，计算商品的商品向量，使得得到的商品的商品向量与行业相关联，针对不同的行业，商品的商品向量可能存在不同。这样使得在对商品去重时，更贴近商品的实际情况，做到对商品从其本质出发的有效去重。解决了仅考虑商品中字段信息本身的语义，而没有从商品所在行业的角度思考，使得对商品的去重仅流于表面的问题。

图4示出了根据本发明另一个实施例的基于行业类别的商品去重装置的功能框图。如图4所示，与图3相比，基于行业类别的商品去重装置还包括如下模块：

权重查询模块340，适于确定商品所属的行业类别；查询在商品所属的行业类别中每个分词的行业权重。

由于各商户在录入商品时，根据各商户所属的行业类别，可以确定商品所属的行业类别，即商品各分词的行业类别。权重查询模块340根据商品各分词的行业类别，可以查询到在其所属的行业类别中商品每个分词的行业权重。

权重计算模块350，适于预先统计各行业类别中各分词的热度；其中，热度与各分词在其所属行业类别中出现的次数成正比；根据各分词的热度得到各分词在其所属行业类别中的行业权重；其中，分词的行业权重与分词的热度成反比。

权重计算模块350通过大数据预先收集各行业类别中出现的各分词，统计各分词在其所属行业类别中出现的次数。如玫瑰，在花店行业中出现3000次，牛奶在超市行业中出现1000次等，权重计算模块350根据各行业的分词总数，以及统计各分词出现的次数，设置分词在其所属行业类别中的热度。其中，热度与各分词在其所属行业类别中出现的次数成正比。

进一步，为方便统计各行业类别的分词，权重计算模块350可以先对各行业类别进行划分，避免各行业类别范围过小，分词总数过少，统计的分词次数过少，得到的各分词的热度不准确等问题。权重计算模块350划分各行业类别时，可以将行业类别分为如餐饮、商超、泛行业(休闲娱乐、K歌、美容美发美甲、运动健身、宠物、婚庆、摄影、亲子、洗衣、书店等)，以及除以上行业外的其他类别(酒店、旅游等)。

权重计算模块350根据各分词在其所属行业类别中的热度，设置各分词在其所属行业类别中的行业权重。其中，分词的行业权重与分词的热度成反比。具体的，分词在其所属行业类别中的行业权重可以为分词热度的倒数。

进一步，对于权重计算模块350可以执行多次，随着收集到的更多的商品的每个分词进行更新，重新统计得到各行业类别中各分词的热度，设置各分词在其所属行业类别中的行业权重。

去重修正模块360，适于判断至少两个商品的字段信息是否符合预设去重修正规则；若是，则确定不做去重处理。

对于某些商品，考虑到实际应用时，有些商品的商品向量之间的距离很近，符合距离小于或等于预设值，但这些商品并不是相似商品。如对于花店，商品字段信息为99朵红玫瑰和商品字段信息为999朵红玫瑰的两个商品，其虽然符合距离小于或等于预设值，但这两个商品并不是相似商品。对于这种情况，本实施例还增加了去重修正模块360。去重修正模块360在预设去重修正规则中，对这种商品向量之间的距离很近但不属于相似商品的商品进行了修正，如去重修正模块360可以预先整理这些商品字段信息，设置专门用于去重修正的词库，将商品的名称、商品的描述或者商品个数等信息与去重修正词库中的商品字段信息进行比对，若一致，即去重修正模块360判断至少两个商品的字段信息符合预设去重修正规则，则认为至少两个商品不是相似商品，确定不执行去重处理；否则，执行去重处理。

反馈模块370，适于将至少两个商品中的一个或多个商品的去重确认结果信息反馈给客户端，以供客户端根据去重确认结果信息进行去重处理。

距离计算模块330判断一个商家的多个商品中存在了相似商品时，反馈模块370可以将至少两个商品中的一个或多个商品的去重确认结果信息反馈给客户端，以供客户端根据去重确认结果信息进行去重处理。具体的，反馈模块370将某一个或多个商品为相似商品的去重确认结果信息反馈给客户端，客户端可以选择保留其中一个商品，删除其他相似商品，或者，修改其他相似商品的字段信息，避免成为相似商品等。

根据本发明提供的基于行业类别的商品去重装置，从行业类别的角度出发，预先统计各行业类别中各分词的热度，从而得到各分词在其所属行业类别中的行业权重。这样得到的商品向量可以完全基于行业类别，突出了商品的重要分词所在的比重。通过计算至少两个商品的商品向量之间的距离，判断距离是否小于或等于预设值，来确定至少两个商品是否为相似商品。预设值基于商品所属的行业类别设置，对不同行业类别可以使用不同的预设值，以便更精准的确定商品是否为相似商品。进一步，当商品向量之间的距离很近，符合距离小于或等于预设值时，基于实际考虑，通过设置预设去重修正规则，对这种商品向量之间的距离很近但不属于相似商品的商品进行了修正，提高判断的准确率。

本申请还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的基于行业类别的商品去重方法。

图5示出了根据本发明一个实施例的一种电子设备的结构示意图，本发明具体实施例并不对电子设备的具体实现做限定。

如图5所示，该电子设备可以包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中：

处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器502，用于执行程序510，具体可以执行上述基于行业类别的商品去重方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。

处理器502可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存放程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行上述任意方法实施例中的基于行业类别的商品去重方法。程序510中各步骤的具体实现可以参见上述基于行业类别的商品去重实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于行业类别的商品去重装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种基于行业类别的商品去重方法，其包括：

根据所述商品的每个分词的分词向量以及每个分词的行业权重，计算所述商品的商品向量；

计算至少两个商品的商品向量之间的距离，根据距离确定是否对所述至少两个商品中的一个或多个商品进行去重处理。

2.根据权利要求1所述的方法，其中，在所述计算商品的商品向量之前，所述方法还包括：

确定所述商品所属的行业类别；

查询在所述商品所属的行业类别中每个分词的行业权重。

3.根据权利要求2所述的方法，其中，所述方法还包括：

预先统计各行业类别中各分词的热度；其中，所述热度与各分词在其所属行业类别中出现的次数成正比；

4.根据权利要求1-3中任一项所述的方法，其中，所述根据所述商品的每个分词的分词向量以及每个分词的行业权重，计算所述商品的商品向量进一步包括：

将所述商品的所有分词的分词向量与分词的行业权重的乘积进行累加后，除以所述商品的所有分词的行业权重之和，得到所述商品向量。

5.根据权利要求1-3中任一项所述的方法，其中，所述根据所述商品的每个分词的分词向量以及每个分词的行业权重，计算所述商品的商品向量进一步包括：

将所述商品的所有分词的分词向量与分词的行业权重的乘积进行累加后，除以所述商品的分词个数，得到所述商品向量。

6.根据权利要求1-5中任一项所述的方法，其中，所述根据距离确定是否对所述至少两个商品中的一个或多个商品进行去重处理进一步包括：

将所述距离与预设值进行比较；

若所述距离小于或等于预设值，则确定对所述至少两个商品中的一个或多个商品进行去重处理；

若所述距离大于或等于预设值，则确定不做所述去重处理。

7.根据权利要求6所述的方法，其中，若所述距离小于或等于预设值，所述方法还包括：

判断所述至少两个商品的字段信息是否符合预设去重修正规则；

若是，则确定不做所述去重处理。

8.一种基于行业类别的商品去重装置，其包括：

向量计算模块，适于根据所述商品的每个分词的分词向量以及每个分词的行业权重，计算所述商品的商品向量；

距离计算模块，适于计算至少两个商品的商品向量之间的距离，根据距离确定是否对所述至少两个商品中的一个或多个商品进行去重处理。

9.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的基于行业类别的商品去重方法对应的操作。

10.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-7中任一项所述的基于行业类别的商品去重方法对应的操作。