发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于POI数据的连锁品牌采集方法及装置。
依据本发明的一个方面,提供了一种基于POI数据的连锁品牌采集方法,所述方法包括:
获取若干POI数据,从各POI数据中分别提取包括名称和地址的二元组数据;
将各二元组数据中的名称按照预设规则进行分割,并根据分割结果对所述二元组数据进行聚类,以获得各类二元组数据;
获取各类二元组数据中不同地址的数量;
在所述数量超过预设阈值时,将该类二元组数据的分割结果作为连锁品牌。
可选地,所述将各二元组数据中的名称按照预设规则进行分割,进一步包括:
将各二元组数据中的名称按照预设符号进行分割,并将所述预设符号前的部分作为分割结果。
可选地,所述根据分割结果对所述二元组数据进行聚类,以获得各类二元组数据,进一步包括:
将具有相同分割结果的二元组数据聚为一类,以获得各类二元组数据。
可选地,所述获取各类二元组数据中不同地址的数量,进一步包括:
遍历各类二元组数据,并将遍历到的当前类二元组数据按照地址进行去重处理,并统计去重处理后的当前类二元组数据的数量。
可选地,所述将遍历到的当前类二元组数据中的地址进行去重处理之前,所述方法还包括:
将遍历到的当前类二元组数据中的地址进行格式统一处理。
依据本发明的另一个方面,提供了一种基于POI数据的连锁品牌采集装置,所述装置包括:
数据提取器,适于获取若干POI数据,从各POI数据中分别提取包括名称和地址的二元组数据;
分割聚类器,适于将各二元组数据中的名称按照预设规则进行分割,并根据分割结果对所述二元组数据进行聚类,以获得各类二元组数据;
数量获取器,适于获取各类二元组数据中不同地址的数量;
品牌获取器,适于在所述数量超过预设阈值时,将该类二元组数据的分割结果作为连锁品牌。
可选地,所述分割聚类器,进一步适于将各二元组数据中的名称按照预设符号进行分割,并将所述预设符号前的部分作为分割结果。
可选地,所述分割聚类器,进一步适于将具有相同分割结果的二元组数据聚为一类,以获得各类二元组数据。
可选地,所述数量获取器,进一步适于遍历各类二元组数据,并将遍历到的当前类二元组数据按照地址进行去重处理,并统计去重处理后的当前类二元组数据的数量。
可选地,所述数量获取器,还适于将遍历到的当前类二元组数据中的地址进行格式统一处理。
本发明通过从各POI数据中分别提取包括名称和地址的二元组数据,将各二元组数据中的名称按照预设规则进行分割,并根据分割结果对所述二元组数据进行聚类,以获得各类二元组数据,获取各类二元组数据中不同地址的数量,在所述数量超过预设阈值时,将该类二元组数据的分割结果作为连锁品牌,采集连锁品牌的方式非常简便,大幅提高了采集效率,并且准确率和召回率均较高。
具体实施方式
下面结合附图和实施方式,对本发明的具体实施方式作进一步详细描述。以下实施方式用于说明本发明,但不用来限制本发明的范围。
图1是本发明一种实施方式的基于POI数据的连锁品牌采集方法的流程图;参照图1,所述方法包括:
S101:获取若干POI数据,从各POI数据中分别提取包括名称和地址的二元组数据;
需要说明的是,POI数据一般包含名称、类别、地址、经度、纬度、附近的酒店饭店商铺等信息,故而,在各POI数据中均包括有一个二元组数据。
S102:将各二元组数据中的名称按照预设规则进行分割,并根据分割结果对所述二元组数据进行聚类,以获得各类二元组数据;
可理解的是,二元组数据中存在很多未设置分店的店铺,当然,也存在大量的关于某一品牌名的多家分店,这些分店的名称通常采用“品牌名(XXX店)”或“品牌名-XXX店”等形式,比如“庆丰包子铺(昌平沙河店)”、“庆丰包子铺-昌平高教园店”等,其中“庆丰包子铺”则是品牌名。
为获取各二元组数据中的品牌名,需要将各二元组数据中的名称按照预设规则进行分割,在具体实现中,可采用多种方式来进行分割,为提高分割效率,本实施方式中将各二元组数据中的名称按照预设符号进行分割,并将所述预设符号前的部分作为分割结果(即品牌名);
也就是说,根据分店的名称所采用的形式确定预设符号,例如,为了针对“品牌名(XXX店)”这种分店形式,可将符号“(”添加至所述预设符号中,或者,为了针对“品牌名-XXX店”这种分店形式,也可将符号“-”添加至所述预设符号中。
当然,还可采用其他方式来进行分割,本实施方式对此不加以限制。
需要说明的是,根据分割结果可采用多种方式对所述二元组数据进行聚类,例如:可根据分割结果的相似程度来进行聚类,即计算分割结果之间的相似度,当相似度超过一定阈值时,将其聚为一类,但考虑到本身会存在一些相似的品牌名,为提高聚类的精确度,本实施方式中,将具有相同分割结果的二元组数据聚为一类,以获得各类二元组数据,当然,还可采用其他方式对所述二元组数据进行聚类,本实施方式对此不加以限制。
S103:获取各类二元组数据中不同地址的数量;
在具体实现中,由于一类二元组数据中可能具有存在相同地址的不同二元组数据,该情况通常是这些相同地址的不同二元组数据均表征同一家分店,但分店是需要达到一定数量才能称其为连锁品牌的,若仅以各类二元组数据的数量来确定连锁品牌,则必然出现错误,故而,本步骤中需要获取各类二元组数据中不同地址的数据。
下面以一个具体的例子来说明本步骤,但不限定本发明的保护范围。
假设一类二元组数据中包括九个二元组数据,且地址分别为:A、A’、A”、B、B’、C、C’、C”和C”’,但地址A、A’和A”相同,B和B’相同,C、C’、C”和C”’相同,则可获取该类二元组数据中不同地址的数量为3。
S104:在所述数量超过预设阈值时,将该类二元组数据的分割结果作为连锁品牌。
在具体实现中,所述预设阈值可根据需要进行调整,通常设置为3或大于3的数值。
本实施方式通过从各POI数据中分别提取包括名称和地址的二元组数据,将各二元组数据中的名称按照预设规则进行分割,并根据分割结果对所述二元组数据进行聚类,以获得各类二元组数据,获取各类二元组数据中不同地址的数量,在所述数量超过预设阈值时,将该类二元组数据的分割结果作为连锁品牌,采集连锁品牌的方式非常简便,大幅提高了采集效率,并且准确率和召回率均较高。
图2是本发明一种实施方式的基于POI数据的连锁品牌采集方法的流程图;参照图2,所述方法包括:
S201:获取若干POI数据,从各POI数据中分别提取包括名称和地址的二元组数据;
S202:将各二元组数据中的名称按照预设规则进行分割,并根据分割结果对所述二元组数据进行聚类,以获得各类二元组数据;
需要说明的是,步骤S201~S202与图1所示的实施方式的步骤S101~S102相同,在此不再赘述。
S203:遍历各类二元组数据,并将遍历到的当前类二元组数据按照地址进行去重处理,并统计去重处理后的当前类二元组数据的数量;
为了便于获取各类二元组数据中不同地址的数量,本实施方式中,通过遍历各类二元组数据,并将遍历到的当前类二元组数据按照地址进行去重处理。
但由于在去重处理时需要确定地址是否重复,而二元组数据中的地址存在格式不同,若直接将两个地址进行比较,会导致由于相同地址的格式不同,而影响去重效果;
假设第一个地址为:海淀区知春路罗庄西里太月圆3号楼底商(近华润万家超市),第二个地址为:北京海淀区知春路罗庄西里太月圆3号楼底商。
这两个地址实质上指的是同一个地址,但在去重处理时,若直接将这两个地址进行比较,会将这两个地址确定为不同的地址,而不对其进行去重处理,为避免出现该问题,本实施方式中,所述将遍历到的当前类二元组数据中的地址进行去重处理之前,所述方法还包括:
将遍历到的当前类二元组数据中的地址进行格式统一处理。
下面同样以上述两个地址为例来说明格式统一处理,可将所述第一个地址中的括号及括号中的内容进行删除,删除后的第一个地址为:海淀区知春路罗庄西里太月圆3号楼底商;可将所述第二个地址中的北京进行删除,删除后的第二个地址为:海淀区知春路罗庄西里太月圆3号楼底商;
在对格式统一处理后的两个地址进行比较时,则可明确地确定为相同地址,从而,有效地提高去重处理的准确率。
S204:在所述数量超过预设阈值时,将该类二元组数据的分割结果作为连锁品牌。
需要说明的是,步骤S204与图1所示的实施方式的步骤S104相同,在此不再赘述。
对于方法实施方式,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施方式并不受所描述的动作顺序的限制,因为依据本发明实施方式,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施方式均属于优选实施方式,所涉及的动作并不一定是本发明实施方式所必须的。
图3是本发明一种实施方式的基于POI数据的连锁品牌采集装置的结构框图;参照图3,所述装置包括:
数据提取器301,适于获取若干POI数据,从各POI数据中分别提取包括名称和地址的二元组数据;
分割聚类器302,适于将各二元组数据中的名称按照预设规则进行分割,并根据分割结果对所述二元组数据进行聚类,以获得各类二元组数据;
数量获取器303,适于获取各类二元组数据中不同地址的数量;
品牌获取器304,适于在所述数量超过预设阈值时,将该类二元组数据的分割结果作为连锁品牌。
在本发明的一种可选实施方式中,所述分割聚类器302,进一步适于将各二元组数据中的名称按照预设符号进行分割,并将所述预设符号前的部分作为分割结果。
在本发明的一种可选实施方式中,所述分割聚类器302,进一步适于将具有相同分割结果的二元组数据聚为一类,以获得各类二元组数据。
在本发明的一种可选实施方式中,所述数量获取器303,进一步适于遍历各类二元组数据,并将遍历到的当前类二元组数据按照地址进行去重处理,并统计去重处理后的当前类二元组数据的数量。
在本发明的一种可选实施方式中,所述数量获取器303,还适于将遍历到的当前类二元组数据中的地址进行格式统一处理。
对于装置实施方式而言,由于其与方法实施方式基本相似,所以描述的比较简单,相关之处参见方法实施方式的部分说明即可。
应当注意的是,在本发明的装置的各个部件中,根据其要实现的功能而对其中的部件进行了逻辑划分,但是,本发明不受限于此,可以根据需要对各个部件进行重新划分或者组合,例如,可以将一些部件组合为单个部件,或者可以将一些部件进一步分解为更多的子部件。
本发明的各个部件实施方式可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施方式的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施方式对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施方式。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。