CN104572946A

CN104572946A - 黄页数据处理方法及装置

Info

Publication number: CN104572946A
Application number: CN201410844613.3A
Authority: CN
Inventors: 朱瑞贤; 王伯天; 王广健
Original assignee: Xiaomi Inc
Current assignee: Beijing Xiaomi Technology Co Ltd; Xiaomi Inc
Priority date: 2014-12-30
Filing date: 2014-12-30
Publication date: 2015-04-29
Anticipated expiration: 2034-12-30
Also published as: CN104572946B

Abstract

本公开是关于一种黄页数据处理方法及装置，涉及互联网技术领域，用于解决黄页数据不准确不全面的技术问题。所述方法包括：从不同数据源获取关于同一用户的至少两个用户数据；对所述至少两个用户数据进行比对，得到比对结果；根据所述比对结果对所述至少两个用户数据进行合并，得到合并后的用户数据，将所述合并后的用户数据作为所述同一用户的用户数据。本公开用于对不同数据源的用户数据进行分析比对以得到全面准确的用户数据。

Description

黄页数据处理方法及装置

技术领域

本公开涉及互联网技术领域，尤其涉及一种黄页数据处理方法及装置。

背景技术

随着互联网的发展，使得孤立的网络连接起来，也使得散落在各个企业系统中的信息都能够在网络中获取到。而这些信息都是比较混乱的，格式上面不一致，数据准确度有待验证。

相关技术中，一般是采用单一数据源的数据，而舍弃其他数据源的数据。对于不确定的信息，只能通过电话确认等方式人工确认。

相关技术中存在如下问题：采用单一数据源的数据，容易丢掉别的数据源的有效信息。而采用人工确认的方式，效率较低，数据获取成本较高。

发明内容

为克服相关技术中存在的问题，本公开实施例提供一种黄页数据处理方法及装置。

根据本公开实施例的第一方面，提供一种黄页数据处理方法，包括：

从不同数据源获取关于同一用户的至少两个用户数据；

对所述至少两个用户数据进行比对，得到比对结果；

根据所述比对结果对所述至少两个用户数据进行合并，得到合并后的用户数据，将所述合并后的用户数据作为所述同一用户的用户数据。

本实施例中，对于同一用户的来自不同数据源的用户数据，进行分析比对，选取出其中准确的、有价值的数据进行合并，减少数据的损失，提高用户数据全面性、有效性和准确性。

可选的，所述每个用户数据包括至少一个特征信息，所述特征信息用于表征不同类型的用户数据；

所述对所述至少两个用户数据进行比对，得到比对结果，包括：

对所述至少两个用户数据中相同类型的特征信息进行比对，分别得到每种类型特征信息的比对结果；

所述根据所述比对结果对所述至少两个用户数据进行合并，得到合并后的用户数据，，将所述合并后的用户数据作为所述同一用户的用户数据，包括：

根据每个类型特征信息的比对结果，对所述相同类型的特征信息进行合并，得到每个类型合并后的特征信息；

将所述每个类型合并后的特征信息组合后，得到合并后的用户数据。

在可选方案中，对不同数据源中相同类型的特征信息进行直接比对，例如比对不同数据源的用户名称或用户地址等，选择其中最准确的信息作为该类型的特征信息，从而提高用户数据有效性和准确性。

可选的，当每个用户数据包括至少两种类型的特征信息，且比对得到每个类型的特征信息的比对结果时，所述将所述每个类型合并后的特征信息组合后，得到合并后的用户数据，包括：

根据所述比对结果，对其中一种类型的特征信息进行合并，得到所述类型合并后的特征信息。

在可选方案中，还对不同类型的特征信息进行交叉比对，例如根据用户地址确定用户经纬度，这样，使得用户数据更加准确全面。

可选的，当所述特征信息为用户名称时，所述对所述至少两个用户数据中相同类型的特征信息进行比对，分别得到每个类型特征信息的比对结果，包括：

比较所述至少两个用户数据中的用户名称的字符长度，得到用户名称的字符长度的比对结果；

所述根据每个类型特征信息的比对结果，对所述相同类型的特征信息进行合并，得到每个类型合并后的特征信息，包括：

根据所述用户名称的字符长度的比对结果，选择字符长度较长的用户名称作为合并后的用户名称。

在可选方案中，通过对不同数据源的用户名称的比对，得到相对准确、完整的用户名称。

可选的，当所述特征信息为用户地址时，所述对所述至少两个用户数据中相同类型的特征信息进行比对，分别得到每个类型特征信息的比对结果，包括：

提取所述用户地址中的地址信息，所述地址信息包括省份信息、城市信息和街道信息中至少一个信息；

比较所述至少两个用户数据中的用户地址的地址信息的个数，得到用户地址的地址信息的比对结果；

根据用户地址的地址信息的比对结果，选择地址信息个数较多的用户地址作为合并后的用户地址。

在可选方案中，通过对不同数据源的用户地址进行比对，得到相对准确完整的用户地址。

可选的，当所述特征信息为用户电话号码时，所述对所述至少两个用户数据中相同类型的特征信息进行比对，分别得到每个类型特征信息的比对结果，包括：

对所述至少两个用户数据中的用户电话号码的有效性进行验证，得到用户电话号码的有效性比对结果；

当所述至少两个用户数据中的用户电话号码都有效时，将所述至少两个用户数据中的用户电话号码合并，得到合并后的至少两个用户电话号码；

当所述至少两个用户数据中的用户电话号码中至少有一个用户电话号码无效时，将所述有效的用户电话号码作为合并后的用户电话号码。

在可选方案中，通过对不同数据源的用户电话进行比对，得到相对准确、完整、有效的用户电话。

可选的，所述用户数据还包括用户地址，当所述至少两个用户数据中的用户电话号码中至少有一个用户电话号码因缺少区号而无效时，所述根据每个类型特征信息的比对结果，对所述相同类型的特征信息进行合并，得到每个类型合并后的特征信息，还包括：

根据所述用户地址确定所述无效的用户电话号码的区号，从而将所述无效的用户电话号码转换为有效的用户电话号码；

将转换后的用户电话号码与其他用户电话号码合并，得到合并后的至少两个用户电话号码。

在可选方案中，对于缺少区号的电话号码，可以通过用户地址获取的该电话号码的区号，从而得到准确有效的用户电话号码。

可选的，所述方法还包括：

获取所述同一用户的所属领域；

比较所述不同数据源在所述所属领域的可信度；

根据所述不同数据源在所述所属领域的可信度，选择来自可信度较高的数据源的用户数据作为可靠数据；

所述根据所述比对结果对所述至少两个用户数据进行合并，得到合并后的用户数据，包括：

选择所述可靠数据作为合并后的用户数据。

在可选方案中，对于不同类型的用户，每个数据源的可信度不同，通过基于数据源的可信度对数据源进行筛选，进一步提高了用户数据的准确度。

可选的，所述方法还包括：

计算所述至少两个数据源的用户数据的相似度；

当所述至少两个数据源的用户数据的相似度超过预设阈值时，确定所述至少两个数据源对应的用户为同一用户，对所述至少两个数据源的用户数据进行比对，得到比对结果。

在可选方案中，通过预先对不同数据源的用户数据的相似度进行判断，避免将不同用户的用户数据进行比对合并，从而造成的用户数据丢失错误，进一步提高了用户数据的准确度。

根据本公开实施例的第二方面，提供一种黄页数据处理装置，包括：

第一获取模块，用于从不同数据源获取关于同一用户的至少两个用户数据；

比对模块，用于对所述至少两个用户数据进行比对，得到比对结果；

合并模块，用于根据所述比对结果对所述至少两个用户数据进行合并，得到合并后的用户数据，将所述合并后的用户数据作为所述同一用户的用户数据。

所述比对模块，用于对所述至少两个用户数据中相同类型的特征信息进行比对，分别得到每种类型特征信息的比对结果；

所述合并模块包括：

合并子模块，用于根据每个类型特征信息的比对结果，对所述相同类型的特征信息进行合并，得到每个类型合并后的特征信息；

组合子模块，用于将所述每个类型合并后的特征信息组合后，得到合并后的用户数据。

可选的，所述组合子模块，用于当每个用户数据包括至少两种类型的特征信息，且比对得到每个类型的特征信息的比对结果时，根据所述比对结果，对其中一种类型的特征信息进行合并，得到所述类型合并后的特征信息。

可选的，所述比对模块，用于当所述特征信息为用户名称时，比较所述至少两个用户数据中的用户名称的字符长度，得到用户名称的字符长度的比对结果；

所述合并模块，用于根据所述用户名称的字符长度的比对结果，选择字符长度较长的用户名称作为合并后的用户名称。

可选的，所述比对模块，用于当所述特征信息为用户地址时，提取所述用户地址中的地址信息，所述地址信息包括省份信息、城市信息和街道信息中至少一个信息；比较所述至少两个用户数据中的用户地址的地址信息的个数，得到用户地址的地址信息的比对结果；

所述合并模块，用于根据用户地址的地址信息的比对结果，选择地址信息个数较多的用户地址作为合并后的用户地址。

可选的，所述比对模块，用于当所述特征信息为用户电话号码时，对所述至少两个用户数据中的用户电话号码的有效性进行验证，得到用户电话号码的有效性比对结果；

所述合并模块，用于当所述至少两个用户数据中的用户电话号码都有效时，将所述至少两个用户数据中的用户电话号码合并，得到合并后的至少两个用户电话号码；当所述至少两个用户数据中的用户电话号码中至少有一个用户电话号码无效时，将所述有效的用户电话号码作为合并后的用户电话号码。

可选的，所述用户数据还包括用户地址，

所述合并模块，用于当所述至少两个用户数据中的用户电话号码中至少有一个用户电话号码因缺少区号而无效时，根据所述用户地址确定所述无效的用户电话号码的区号，从而将所述无效的用户电话号码转换为有效的用户电话号码；将转换后的用户电话号码与其他用户电话号码合并，得到合并后的至少两个用户电话号码。

可选的，所述装置还包括：

第二获取模块，用于获取所述同一用户的所属领域；

比较模块，用于比较所述不同数据源在所述所属领域的可信度；

所述比对模块，用于根据所述不同数据源在所述所属领域的可信度，选择来自可信度较高的数据源的用户数据作为可靠数据；

所述合并模块，用于选择所述可靠数据作为合并后的用户数据。

可选的，所述装置还包括：

计算模块，用于计算所述至少两个数据源的用户数据的相似度；

所述比对模块，用于当所述至少两个数据源的用户数据的相似度超过预设阈值时，确定所述至少两个数据源对应的用户为同一用户，对所述至少两个数据源的用户数据进行比对，得到比对结果。

根据本公开实施例的第三方面，提供一种黄页数据处理装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

从不同数据源获取关于同一用户的至少两个用户数据；

对所述至少两个用户数据进行比对，得到比对结果；

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种黄页数据处理方法的流程图；

图2是根据另一示例性实施例示出的一种黄页数据处理方法的流程图；

图3是根据另一示例性实施例示出的一种黄页数据处理方法的流程图；

图4是根据另一示例性实施例示出的一种黄页数据处理方法的流程图；

图5是根据另一示例性实施例示出的一种黄页数据处理方法的流程图；

图6是根据一示例性实施例示出的一种黄页数据处理装置的框图；

图7是根据一示例性实施例示出的合并模块框图；

图8是根据另一示例性实施例示出的一种黄页数据处理装置框图；

图9是根据另一示例性实施例示出的一种黄页数据处理装置框图；

图10是根据一示例性实施例示出的一种用于黄页数据处理的装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种黄页数据处理方法的流程图，如图1所示，黄页数据处理方法用于服务器中，包括以下步骤。

在步骤S11中，从不同数据源获取关于同一用户的至少两个用户数据；

在步骤S12中，对至少两个用户数据进行比对，得到比对结果；

在步骤S13中，根据比对结果对至少两个用户数据进行合并，得到合并后的用户数据，将合并后的用户数据作为同一用户的用户数据。

图2是根据另一示例性实施例示出的一种黄页数据处理方法的流程图，如图2所示，可选的，每个用户数据包括至少一个特征信息，所述特征信息用于表征不同类型的用户数据；

上述步骤S12包括：

在步骤S21中，对至少两个用户数据中相同类型的特征信息进行比对，分别得到每种类型特征信息的比对结果；

上述步骤S13包括：

在步骤S22中，根据每个类型特征信息的比对结果，对相同类型的特征信息进行合并，得到每个类型合并后的特征信息；

在步骤S23中，将每个类型合并后的特征信息组合后，得到合并后的用户数据。

可选的，当每个用户数据包括至少两种类型的特征信息，且比对得到每个类型的特征信息的比对结果时，上述步骤S23包括：

根据比对结果，对其中一种类型的特征信息进行合并，得到类型合并后的特征信息。

可选的，当特征信息为用户名称时，上述步骤S21包括：

比较至少两个用户数据中的用户名称的字符长度，得到用户名称的字符长度的比对结果；

上述步骤S22包括：

根据用户名称的字符长度的比对结果，选择字符长度较长的用户名称作为合并后的用户名称。

图3是根据另一示例性实施例示出的一种黄页数据处理方法的流程图，如图3所示，可选的，当特征信息为用户地址时，上述步骤S21包括：

在步骤S31中，提取用户地址中的地址信息，地址信息包括省份信息、城市信息和街道信息中至少一个信息；

在步骤S32中，比较至少两个用户数据中的用户地址的地址信息的个数，得到用户地址的地址信息的比对结果；

上述步骤S22包括：

在步骤S33中，根据用户地址的地址信息的比对结果，选择地址信息个数较多的用户地址作为合并后的用户地址。

可选的，当特征信息为用户电话号码时，上述步骤S21包括：

对至少两个用户数据中的用户电话号码的有效性进行验证，得到用户电话号码的有效性比对结果；

上述步骤S22包括：

当至少两个用户数据中的用户电话号码都有效时，将至少两个用户数据中的用户电话号码合并，得到合并后的至少两个用户电话号码；

当至少两个用户数据中的用户电话号码中至少有一个用户电话号码无效时，将有效的用户电话号码作为合并后的用户电话号码。

可选的，用户数据还包括用户地址，当至少两个用户数据中的用户电话号码中至少有一个用户电话号码因缺少区号而无效时，上述步骤S22还包括：

根据用户地址确定无效的用户电话号码的区号，从而将无效的用户电话号码转换为有效的用户电话号码；

可选的，当用户数据包括当用户地址时，

根据用户地址的地址信息的比对结果，选择地址信息个数较多的用户地址作为合并后的用户地址之后，该方法还包括：

根据合并后的用户地址，生成用户经纬度；

将用户经纬度添加到合并后的用户数据中。

在可选方案中，可以根据用户地址获得用户的经纬度信息，从而得到更加完整全面的用户数据。

图4是根据另一示例性实施例示出的一种黄页数据处理方法的流程图，如图4所示，可选的，该方法还包括：

在步骤S41中，获取同一用户的所属领域；

在步骤S42中，比较不同数据源在所述所属领域的可信度。

上述步骤S12包括：在步骤S43中，根据不同数据源在所属领域的可信度，选择来自可信度较高的数据源的用户数据作为可靠数据；

上述步骤S13包括：在步骤S44中，选择可靠数据作为合并后的用户数据。

在可选方案中，对于不同类型的用户，每个数据源的可信度不同，例如，对于餐馆A，在大众点评网提供的信息的可信度要高于在途牛网提供的信息的可信度，因此，当大众点评网提供的信息和途牛网提供的信息存在误差时，选择大众点评的信息。这样，进一步提高了用户数据的准确度。

图5是根据另一示例性实施例示出的一种黄页数据处理方法的流程图，如图5所示，可选的，该方法还包括：

在步骤S51中，计算至少两个数据源的用户数据的相似度；

在步骤S52中，当至少两个数据源的用户数据的相似度超过预设阈值时，确定至少两个数据源对应的用户为同一用户，对至少两个数据源的用户数据进行比对，得到比对结果。

在可选方案中，在进行用户数据比对之前，需要对用户数据的相似性进行判断，即确定是否为同一用户的用户数据，一般通过用户名称确定，例如，餐馆A的海淀区分店和餐馆A的朝阳区分店，虽然都是餐馆A，但这两家店属于不同用户。确定是否为同一用户的用户数据也可以进一步通过用户地址等信息确定，例如，餐馆A的海淀区分店和餐馆A的朝阳区分店，用户名称都为餐馆A，但用户地址一个为海淀区，一个为朝阳区，这样，也可以判断出这两家店不是同一用户。

下面以一个具体实例对本实施例的方法进行详细说明。

用户XX科技有限公司在数据源1和数据源2中的用户数据分别如下表1所示，

表1

类型	数据源1	数据源2
			用户名称	XX科技	XX科技有限公司
用户地址	北京市海淀区清河中街	清河中街
			用户电话	400xxxxxxx	6060xxxx
官方网站	www.xxxxxxxx.com

通过对用户名称的比对，可以确定这两个用户数据属于同一用户。

首先，对用户名称进行比对，选取字符长度较长的用户名称，即“XX科技有限公司”，作为该用户的用户名称。

对于用户地址，对两个用户地址分别提取省份信息、城市信息和街道信息，数据源2的用户地址只有街道信息，没有省份和城市信息，而数据源1的用户地址包括省份信息、城市信息和街道信息，因此，选择“北京市海淀区清河中街”作为该用户的用户地址。

对于用户电话，可以看出“400xxxxxxx”为有效电话，而“6060xxxx”由于没有区号，则被认为时无效电话，但是，可以根据用户地址“北京市海淀区清河中街”确定省份和城市信息，因此可以得到区号为010，进而得到“010-6060xxxx”这个有效电话，最后，得到合并后的用户电话为“400xxxxxxx，010-6060xxxx”。

对于用户的官方网站，只有数据源1有该用户的官方网站，因此直接采用数据源1的官方网站。

最后得到两个数据源合并后的用户数据如下表2所示，

表2

用户名称	XX科技有限公司
		用户地址	北京市海淀区清河中街
用户电话	400xxxxxxx，010-6060xxxx
		官方网站	www.xxxxxxxx.com

合并后的用户数据信息更加全面准确，可信度也更高。对于经纬度，行业分类，标签，描述等特征信息也采用上述的方法，通过直接的或者交叉的信息比对，从而得出更为准确详细的信息。

图6是根据一示例性实施例示出的一种黄页数据处理装置的框图。如图6所示，该装置包括第一获取模块61，比对模块62和合并模块63。

第一获取模块61被配置为从不同数据源获取关于同一用户的至少两个用户数据；

比对模块62被配置为对所述至少两个用户数据进行比对，得到比对结果；

合并模块63被配置为根据所述比对结果对所述至少两个用户数据进行合并，得到合并后的用户数据，将所述合并后的用户数据作为所述同一用户的用户数据。

可选的，所述每个用户数据包括至少一个特征信息，所述特征信息用于表征不同类型的用户数据；所述比对模块，用于对所述至少两个用户数据中相同类型的特征信息进行比对，分别得到每种类型特征信息的比对结果。图7是根据一示例性实施例示出的合并模块框图。如图7所示，合并模块63包括：

合并子模块71被配置为根据每个类型特征信息的比对结果，对所述相同类型的特征信息进行合并，得到每个类型合并后的特征信息；

组合子模块72被配置为将所述每个类型合并后的特征信息组合后，得到合并后的用户数据。

可选的，组合子模块72被配置为当每个用户数据包括至少两种类型的特征信息，且比对得到每个类型的特征信息的比对结果时，根据所述比对结果，对其中一种类型的特征信息进行合并，得到所述类型合并后的特征信息。

可选的，所述比对模块62被配置为当所述特征信息为用户名称时，比较所述至少两个用户数据中的用户名称的字符长度，得到用户名称的字符长度的比对结果；

所述合并模块63被配置为根据所述用户名称的字符长度的比对结果，选择字符长度较长的用户名称作为合并后的用户名称。

可选的，所述比对模块62被配置为当所述特征信息为用户地址时，提取所述用户地址中的地址信息，所述地址信息包括省份信息、城市信息和街道信息中至少一个信息；比较所述至少两个用户数据中的用户地址的地址信息的个数，得到用户地址的地址信息的比对结果；

所述合并模块63被配置为根据用户地址的地址信息的比对结果，选择地址信息个数较多的用户地址作为合并后的用户地址。

可选的，所述比对模块62被配置为当所述特征信息为用户电话号码时，对所述至少两个用户数据中的用户电话号码的有效性进行验证，得到用户电话号码的有效性比对结果；

所述合并模块63被配置为当所述至少两个用户数据中的用户电话号码都有效时，将所述至少两个用户数据中的用户电话号码合并，得到合并后的至少两个用户电话号码；当所述至少两个用户数据中的用户电话号码中至少有一个用户电话号码无效时，将所述有效的用户电话号码作为合并后的用户电话号码。

可选的，所述用户数据还包括用户地址，所述合并模块63被配置为当所述至少两个用户数据中的用户电话号码中至少有一个用户电话号码因缺少区号而无效时，根据所述用户地址确定所述无效的用户电话号码的区号，从而将所述无效的用户电话号码转换为有效的用户电话号码；将转换后的用户电话号码与其他用户电话号码合并，得到合并后的至少两个用户电话号码。

可选的，当所述用户数据包括当用户地址时，

所述合并模块63被配置为在根据用户地址的地址信息的比对结果，选择地址信息个数较多的用户地址作为合并后的用户地址之后，根据所述合并后的用户地址，生成所述用户经纬度；将所述用户经纬度添加到所述合并后的用户数据中。

图8是根据另一示例性实施例示出的一种黄页数据处理装置框图。如图8所示，可选的，该装置还包括：

第二获取模块64被配置为获取所述同一用户的所属领域；

比较模块65被配置为比较所述不同数据源在所述所属领域的可信度；所述比对模块62被配置为根据所述不同数据源在所述所属领域的可信度，选择来自可信度较高的数据源的用户数据作为可靠数据；

所述合并模块63被配置为选择所述可靠数据作为合并后的用户数据。

图9是根据另一示例性实施例示出的一种黄页数据处理装置框图。如图9所示，可选的，该装置还包括：

计算模块66被配置为计算所述至少两个数据源的用户数据的相似度；

所述比对模块62被配置为当所述至少两个数据源的用户数据的相似度超过预设阈值时，确定所述至少两个数据源对应的用户为同一用户，对所述至少两个数据源的用户数据进行比对，得到比对结果。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本实施例的装置，对于同一用户的来自不同数据源的用户数据，进行分析比对，选取出其中准确的、有价值的数据进行合并，减少数据的损失，提高用户数据全面性、有效性和准确性。

本公开还提供一种黄页数据处理装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

从不同数据源获取关于同一用户的至少两个用户数据；

对所述至少两个用户数据进行比对，得到比对结果；

图10是根据一示例性实施例示出的一种用于黄页数据处理的装置的框图。例如，装置1000可以被提供为一服务器。参照图10，装置1000包括处理组件1022，其进一步包括一个或多个处理器，以及由存储器1032所代表的存储器资源，用于存储可由处理组件1022的执行的指令，例如应用程序。存储器1032中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1022被配置为执行指令，以执行上述方法。

装置1000还可以包括一个电源组件1026被配置为执行装置1000的电源管理，一个有线或无线网络接口1050被配置为将装置1000连接到网络，和一个输入输出(I/O)接口1058。装置1000可以操作基于存储在存储器1032的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1304，上述指令可由装置1300的处理器1320执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种黄页数据处理方法，所述方法包括：

从不同数据源获取关于同一用户的至少两个用户数据；

对所述至少两个用户数据进行比对，得到比对结果；

所述根据所述比对结果对所述用户数据进行合并，得到合并后的用户数据，将所述合并后的用户数据作为所述同一用户的用户数据，包括：

可选的，所述方法还包括：

获取所述同一用户的所属领域；

比较所述不同数据源在所述所属领域的可信度；

选择所述可靠数据作为合并后的用户数据。

可选的，所述方法还包括：

计算所述至少两个数据源的用户数据的相似度；

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种黄页数据处理方法，其特征在于，包括：

从不同数据源获取关于同一用户的至少两个用户数据；

对所述至少两个用户数据进行比对，得到比对结果；

2.根据权利要求1所述的方法，其特征在于，所述每个用户数据包括至少一个特征信息，所述特征信息用于表征不同类型的用户数据；

所述根据所述比对结果对所述至少两个用户数据进行合并，得到合并后的用户数据，将所述合并后的用户数据作为所述同一用户的用户数据，包括：

3.根据权利要求2所述的方法，其特征在于，当每个用户数据包括至少两种类型的特征信息，且比对得到每个类型的特征信息的比对结果时，所述将所述每个类型合并后的特征信息组合后，得到合并后的用户数据，包括：

4.根据权利要求2所述的方法，其特征在于，当所述特征信息为用户名称时，所述对所述至少两个用户数据中相同类型的特征信息进行比对，分别得到每个类型特征信息的比对结果，包括：

5.根据权利要求2或3所述的方法，其特征在于，当所述特征信息为用户地址时，所述对所述至少两个用户数据中相同类型的特征信息进行比对，分别得到每个类型特征信息的比对结果，包括：

6.根据权利要求3所述的方法，其特征在于，当所述特征信息为用户电话号码时，所述对所述至少两个用户数据中相同类型的特征信息进行比对，分别得到每个类型特征信息的比对结果，包括：

7.根据权利要求6所述的方法，其特征在于，所述用户数据还包括用户地址，当所述至少两个用户数据中的用户电话号码中至少有一个用户电话号码因缺少区号而无效时，所述根据每个类型特征信息的比对结果，对所述相同类型的特征信息进行合并，得到每个类型合并后的特征信息，还包括：

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述同一用户的所属领域；

比较所述不同数据源在所述所属领域的可信度；

选择所述可靠数据作为合并后的用户数据。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

计算所述至少两个数据源的用户数据的相似度；

10.一种黄页数据处理装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述每个用户数据包括至少一个特征信息，所述特征信息用于表征不同类型的用户数据；

所述合并模块包括：

12.根据权利要求11所述的装置，其特征在于，

所述组合子模块，用于当每个用户数据包括至少两种类型的特征信息，且比对得到每个类型的特征信息的比对结果时，根据所述比对结果，对其中一种类型的特征信息进行合并，得到所述类型合并后的特征信息。

13.根据权利要求11所述的装置，其特征在于，

所述比对模块，用于当所述特征信息为用户名称时，比较所述至少两个用户数据中的用户名称的字符长度，得到用户名称的字符长度的比对结果；

14.根据权利要求11或12所述的装置，其特征在于，

所述比对模块，用于当所述特征信息为用户地址时，提取所述用户地址中的地址信息，所述地址信息包括省份信息、城市信息和街道信息中至少一个信息；比较所述至少两个用户数据中的用户地址的地址信息的个数，得到用户地址的地址信息的比对结果；

15.根据权利要求12所述的装置，其特征在于，

所述比对模块，用于当所述特征信息为用户电话号码时，对所述至少两个用户数据中的用户电话号码的有效性进行验证，得到用户电话号码的有效性比对结果；

16.根据权利要求15所述的装置，其特征在于，所述用户数据还包括用户地址，

17.根据权利要求10所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于获取所述同一用户的所属领域；

18.根据权利要求10所述的装置，其特征在于，所述装置还包括：

19.一种黄页数据处理装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

从不同数据源获取关于同一用户的至少两个用户数据；

对所述至少两个用户数据进行比对，得到比对结果；