CN104182517A

CN104182517A - 数据处理的方法及装置

Info

Publication number: CN104182517A
Application number: CN201410419633.6A
Authority: CN
Inventors: 王国杰; 史乐
Original assignee: BEIJING YULORE INNOVATION TECHNOLOGY Co Ltd
Current assignee: BEIJING YULORE INNOVATION TECHNOLOGY Co Ltd
Priority date: 2014-08-22
Filing date: 2014-08-22
Publication date: 2014-12-03
Anticipated expiration: 2034-08-22
Also published as: CN104182517B

Abstract

本发明是关于数据处理的方法及装置，用于将近似数据融合，以减少数据中的冗余信息，进而方便数据的利用与呈现。所述方法包括：根据数据的特征字段的内容计算数据间相似度，其中，所述特征字段为预设的字段；根据所述数据间相似度将所述数据中对应于同一对象的数据聚合到同一聚类中；按预设策略对聚类中各条数据的特征字段的内容进行选择，根据选择的特征字段的内容生成所述对象对应的聚合数据。本发明能够将聚类中的多条数据融合成一条聚合数据，而且该条聚合数据具有优选出的特征字段的内容，因而不但减少了数据中的冗余信息，降低了数据组中数据条数，而且对数据中信息进行了优化，提高了数据中信息的准确性。

Description

数据处理的方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及数据处理的方法及装置。

背景技术

随着互联网技术的发展，网络中数据量不断增多。在大量的网络数据中，存在大量相近似或重复的数据。例如，同一公司可能在不同网站发布该公司的介绍信息，这些介绍信息间相近似，甚至相同。又例如，同一视频节目也可能在不同网站中发布该视频节目的简介信息，这些简介信息也会具有很高近似性。因此，如何将网络中近似数据融合，以减少重复数据，进而方便数据的利用与呈现，成为需要解决的问题。

发明内容

为克服相关技术中存在的问题，本发明实施例提供数据处理的方法及装置，用以将近似数据融合，以减少数据中的冗余信息，进而方便数据的利用与呈现。

根据本发明实施例的第一方面，提供一种数据处理的方法，包括：根据数据的特征字段的内容计算数据间相似度，其中，所述特征字段为预设的字段；

根据所述数据间相似度将所述数据中对应于同一对象的数据聚合到同一聚类中；

按预设策略对聚类中各条数据的特征字段的内容进行选择，根据选择的特征字段的内容生成所述对象对应的聚合数据。

在一实施例中，所述根据数据的特征字段的内容计算数据间相似度具体包括：

根据数据中特征字段的内容分别计算所述数据中未被聚合到聚类的数据与已被聚合到聚类的各条数据间的相似度；

所述根据所述数据间相似度将所述数据中对应于同一对象的数据聚合到同一聚类中具体包括：

根据所述数据中未被聚合到聚类的数据与已被聚合到聚类的各条数据间的相似度，判断所述未被聚合到聚类的数据是否属于所述聚类；

当所述未被聚合到聚类的数据属于所述聚类时，将所述未被聚合到聚类的数据聚合到所述聚类中。

在一实施例中，所述根据所述数据中未被聚合到聚类的数据与已被聚合到聚类的各条数据间的相似度，判断所述未被聚合到聚类的数据是否属于所述聚类具体包括：

对于每条已被聚合到聚类的数据，根据所述未被聚合到聚类的数据与所述已被聚合到聚类的数据间的相似度，确定所述未被聚合到聚类的数据与所述已被聚合到聚类的数据是否为同一数据；

根据所述未被聚合到聚类的数据在所述聚类中的同一数据的条数，判断所述未被聚合到聚类的数据是否属于所述聚类。

当所述特征字段中包含至少两个字段时，对于每个字段，根据数据在所述字段中内容计算数据间对应于所述字段的相似度分量；

对于每个字段，根据所述字段的相似度分量的大小、所述字段的内容和/或所述字段的结构确定所述字段所对应的权重；

根据数据间对应于各个字段的相似度分量和各个字段所对应的权重，计算数据间的相似度。

在一实施例中，所述特征字段包括至少一如下字段：

名称字段、地址字段、电话号码字段、分类字段和经纬度字段。

在一实施例中，所述按预设策略对聚类中各条数据的特征字段的内容进行选择具体包括：

根据聚类中各条数据间相似度和/或数据的可信度对聚类的各条数据在所述字段的内容进行选择。

在一实施例中，所述根据聚类中各条数据间相似度和/或数据的可信度对聚类的各条数据在所述字段的内容进行选择具体包括：

当所述特征字段中包含第一预设字段和至少一除所述第一预设字段之外的字段时，对于所述第一预设字段，根据聚类中各条数据间对应于所述第一预设字段的相似度分量和/或数据的可信度，对聚类的各条数据在所述第一预设字段的内容进行选择；

对于除所述第一预设字段之外的字段，根据聚类中各条数据对应于所述字段的相似度分量、数据的可信度、和/或在对应于所述第一预设字段进行选择时数据的选择情况，对聚类的各条数据在所述字段的内容进行选择。

在一实施例中，所述对于每个字段，根据数据在所述字段中内容计算数据间对应于所述字段的相似度分量具体包括：

当所述特征字段包括名称字段时，利用存储的识别数据库解析数据中名称字段的内容，获得格式化的名称信息，根据名称信息中各项信息的内容得到所述名称信息中各项信息的相似度分数，根据所得各项信息的相似度分数计算出数据间对应于名称字段的相似度分量；或者

当所述特征字段包括地址字段时，利用地址词元库解析数据中地址字段的内容，得到行政区划信息和剩余地址信息，根据预设的地理区划隶属关系得到所述行政区划信息的相似度分数，根据剩余地址信息的内容得到所述剩余地址信息的相似度分数，根据所得行政区划信息的相似度分数和剩余地址信息的相似度分数，计算数据间对应于地址字段的相似度分量；或者

当所述特征字段包括电话号码字段时，根据所述数据的电话号码字段的内容确定数据中电话号码的属性，根据确定出的所述电话号码的属性，计算所述数据间对应于所述电话号码字段的相似度分量；或者

当所述特征字段包括分类字段时，根据预设的分类间关系和所述数据中分类字段的内容，计算所述数据间对应于所述分类字段的相似度分量；或者

当所述特征字段包括经纬度字段时，根据所述数据中经纬度字段的内容，计算所述数据所对应的位置间距离，根据所述距离计算所述数据间对应于所述经纬度字段的相似度分量。

根据本发明实施例的第二方面，提供一种数据处理的装置，包括：

计算模块，用于根据数据的特征字段的内容计算数据间相似度，其中，所述特征字段为预设的字段；

聚合模块，用于根据所述数据间相似度将所述数据中对应于同一对象的数据聚合到同一聚类中；

选择模块，用于按预设策略对聚类中各条数据的特征字段的内容进行选择，根据选择的特征字段的内容生成所述对象对应的聚合数据。

在一实施例中，所述计算模块具体用于根据数据中特征字段的内容分别计算所述数据中未被聚合到聚类的数据与已被聚合到聚类的各条数据间的相似度；

所述聚合模块具体包括：

判断单元，用于根据所述数据中未被聚合到聚类的数据与已被聚合到聚类的各条数据间的相似度，判断所述未被聚合到聚类的数据是否属于所述聚类；

聚合单元，用于当所述未被聚合到聚类的数据属于所述聚类时，将所述未被聚合到聚类的数据聚合到所述聚类中。

在一实施例中，所述判断单元具体包括：

第一判断子单元，用于对于每条已被聚合到聚类的数据，根据所述未被聚合到聚类的数据与所述已被聚合到聚类的数据间的相似度，确定所述未被聚合到聚类的数据与所述已被聚合到聚类的数据是否为同一数据；

第二判断子单元，用于根据所述未被聚合到聚类的数据在所述聚类中的同一数据的条数，判断所述未被聚合到聚类的数据是否属于所述聚类。

在一实施例中，所述计算模块具体包括：

相似度分量计算单元，用于当所述特征字段中包含至少两个字段时，对于每个字段，根据数据在所述字段中内容计算数据间对应于所述字段的相似度分量；

权重设置单元，用于对于每个字段，根据所述字段的相似度分量的大小、所述字段的内容和/或所述字段的结构确定所述字段所对应的权重；

相似度计算单元，用于根据数据间对应于各个字段的相似度分量和各个字段所对应的权重，计算数据间的相似度。

在一实施例中，所述特征字段包括至少一如下字段：

在一实施例中，所述选择模块具体包括：

选择子模块，用于根据聚类中各条数据间相似度和/或数据的可信度对聚类的各条数据在所述字段的内容进行选择。

在一实施例中，所述选择子模块具体包括：

第一选择子单元，用于当所述特征字段中包含第一预设字段和至少一除所述第一预设字段之外的字段时，对于所述第一预设字段，根据聚类中各条数据间对应于所述第一预设字段的相似度分量和/或数据的可信度，对聚类的各条数据在所述第一预设字段的内容进行选择；

第二选择子单元，用于对于除所述第一预设字段之外的字段，根据聚类中各条数据对应于所述字段的相似度分量、数据的可信度、和/或在对应于所述第一预设字段进行选择时对数据的选择情况，对聚类的各条数据在所述字段的内容进行选择。

在一实施例中，所述相似度分量计算单元具体用于

本发明的实施例提供的技术方案可以包括以下有益效果：依据数据的相似度将数据聚合到聚类中，能够将对应于同一对象的相近似的数据聚合到同一聚类中；按预设策略对聚类的多条数据的特征字段的内容进行选择，生成对象对应的聚合数据，从而能够将聚类中的多条数据融合成一条聚合数据，而且该条聚合数据具有优选出的特征字段的内容，这样，不但减少了数据中的冗余信息，而且对数据中信息进行了优化，提高了数据中信息的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的数据处理方法的流程图。

图2是根据一示例性实施例示出的数据处理方法中计算相似度的过程的流程图。

图3A是根据一示例性实施例示出的数据处理方法中计算名称字段的相似度分量的示意图。

图3B是根据一示例性实施例示出的数据处理方法中进行名称解析的示意图。

图4A是根据一示例性实施例示出的数据处理方法的聚类过程的示意图。

图4B是根据一示例性实施例示出的数据处理方法的原子聚类过程的示意图。

图5是根据一示例性实施例示出的一种数据处理装置的框图。

图6是根据一示例性实施例示出的另一种数据处理装置的框图。

图7是根据一示例性实施例示出的另一种数据处理装置的框图。

图8是根据一示例性实施例示出的另一种数据处理装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种数据处理方法的流程图。图1中所示的数据处理方法可以应用于网络设备中，例如云端服务器、智能路由器中，上述方法包括如下步骤S101-S103。

在步骤S101中、根据数据的特征字段的内容计算数据间相似度，其中，特征字段为预设的字段。

在一实施例中，抓取网络中数据，对抓取的数据进行数据分层，生成数据组。可以通过多种方式实现对数据分层。例如，根据关键字、索引或者获取路径，将同一条件下抓取的数据归入同一数据组。对应数据组中数据，根据数据的特征字段的内容计算数据间相似度。由此，使得同一数据组中数据的相似性较高，便于进行后续处理。

当对抓取的数据进行数据分层生成多个数据组时，可以使用fork/join(Java7中执行任务的框架)或map-reduce(映射-归约模型)对多个数据组进行并行处理，由此降低了处理时间，增加了处理速度。

在一实施例中，如图2所示，上述步骤S101可实施为如下步骤A1-A3。

在步骤A1中、当所述特征字段中包含至少两个字段时，对于每个字段，根据数据在字段中内容计算数据间对应于字段的相似度分量。

在一具体实施方式中，特征字段包括至少一如下字段：

上述步骤A1可按如下方式实施。

当特征字段包括名称字段时，利用存储的识别数据库解析数据中名称字段的内容，获得格式化的名称信息，根据名称信息中各项信息的内容得到名称信息中各项信息的相似度分数，根据所得各项信息的相似度分数计算出数据间对应于名称字段的相似度分量。

举例而言，如图3A所示，将两条数据中的名称字段的内容分别进行名称解析，得到名称信息，使用动态时间规整算法DTW和编辑距离算法ED处理解析出的名称信息，得到名称信息中各项信息的相似度分数，对名称信息中各项信息的相似度分数加权求和，得到两条数据间对应于名称字段的相似度分量。

名称解析过程如图3B所示，数据中的名称字段，通过名称解析器进行解析，解析出的名称信息具有格式化的名称结构，例如，名称结构为：地点信息+关键字+模糊字+尾项+总部信息+分支结构信息+类别信息。识别数据库可包括：基础知识数据库，专业知识数据库，和单位信息数据库。其中，基础知识数据库包含基本信息，例如国家行政区划表；专业知识数据库包含特定信息。例如人工采集信息；单位信息数据库包含企业信息，例如电话号码信息。

例如，单位名称“北京理工大学良乡分校区”被解析为“北京【地点信息】+理工【关键字】+大学【类别信息】+良乡分校区【分支结构信息】”

将单位名称在识别数据库中进行匹配比较，得到解析后的名称信息，该名称信息的名称结构为地点信息+关键字+类别信息+分支结构信息。

DTW和ED为对字符串进行比较的现有技术。使用DTW和ED对名称信息中各项信息的内容分别进行运算，得到各项内容的DTW相似度分数和ED相似度分数。例如对单位名称中各项信息：地点信息、关键字、类别信息、分支结构信息，分别对应在数据1和数据2中内容，使用DTW和ED进行运算，得到各项信息的DTW相似度分数和ED相似度分数。对DTW和ED所得相似度分数进行归一化，得到归一化后的DTW相似度分数和ED相似度分数。将名称信息中各项的归一化后的DTW相似度分数和ED相似度分数加权求和，得到名称信息中各项信息的相似度分数。将名称信息中各项信息的相似度分数加权求和计算得名称信息的相似度分量。

对DTW相似度分数进行归一化的方法如下所述。

DtwScore＝NormalD(A,B)-ε

\begin{matrix} NormalD (A, B) = 1 - \frac{D (A, B) - Min}{Max - Min} \\ ϵ = {(\frac{Dif (A, B)}{Sum (A, B)})}^{4} \end{matrix}

其中，DtwScore为归一化后的DTW相似度分数；D(A,B)为DTW距离，DTW距离作为前述DTW相似度分数，Sum(A，B)为字符串A与B的总字符数，Dif(A，B)为符串A与B的差异，Min为A、B字符串模板最小值，即所有字符均不一样时的模板最小值；Max为模板最大值。

DtwScore取值区间为[0,1]，

当DtwScore≤0时，DtwScore＝0。

对ED相似度分数进行归一化的方法如下所述。

EdScore＝NormalE(A,B)-ε

\begin{matrix} NormalD (A, B) = 1 - \frac{E (A, B) - Min}{Max - Min} \\ ϵ = {(\frac{Dif (A, B)}{Sum (A, B)})}^{4} \end{matrix}

其中，EdScore为归一化后的ED相似度分数；E(A,B)为Levenshtein距离(编辑距离)，Levenshtein距离作为前述ED相似度分数，Sum(A，B)为字符串A与B的总字符数，Dif(A，B)为符串A与B的差异，Min为A、B字符串相同时的Levenshtein距离，Max为A、B字符串无关时的Levenshtein距离。

EdScore取值区间为[0,1]，

当EdScore≤0时，EdScore＝0。

按如下方法将归一化后的DTW相似度分数和ED相似度分数加权求和，得到相似度分数。

score＝0.66×DtwScore+0.34×EdScore；

其中，DtwScore为归一化后的DTW相似度分数，EdScore为归一化后的ED相似度分数。

本发明中计算出数据间对应于名称字段的相似度分量的实现方式不限于此，例如，可以只利用动态时间规整算法DTW或编辑距离算法ED处理解析出的名称信息，得到名称信息中各项信息的相似度分数，对名称信息中各项信息的相似度分数求和，得到两条数据间对应于名称字段的相似度分量。

当特征字段包括地址字段时，利用地址词元库解析数据中地址字段的内容，得到行政区划信息和剩余地址信息，根据预设的地理区划隶属关系得到行政区划信息的相似度分数，使用动态时间规整算法DTW和编辑距离算法ED得到剩余地址信息的相似度分数，根据所得行政区划信息的相似度分数和剩余地址信息的相似度分数，计算数据间对应于地址字段的相似度分量。

举例而言，地址词元库中包括地址词元，可以根据地址结构对地址信息进行分析得到地址词元。例如，设置如下地址结构：

地址结构1：

行政区划+街道+门牌号

例如：北京市海淀区+中关村南大街+5号地址结构2：

行政区划+街道+小区+楼宇号

例如：北京市海淀区+中关村南大街+双榆树小区+3栋地址结构3：

行政区划+街道+地标

例如：北京市海淀区+中关村南大街+北京理工大学

这些常见的地址结构是有限的，同时可以对地址结构的每一项(例如，行政区划/街道/小区/地标/门牌号)进行特征提取(比如街道常见的结构时以街/大街/大道/道结尾)，然后对每一项进行建库，即可提取到每一项的词元。

地址字段的内容被解析为行政区划信息和剩余地址信息：

Address(地址字段的内容)＝ADN(行政区划信息)+subAddress(剩余地址信息)

例如：

地址一(a1)：北京市朝阳区静安中心被解析为

朝阳区+静安中心

地址二(a2)：北京市海淀区静安中心被解析为

海淀区+静安中心

地址三(a3):北京市朝阳区天虹百货被解析为

朝阳区+天虹百货

在计算相似度时，考量到两方面的因素，一是行政区划信息的隶属关系，二是剩余地址的相似度，例如，将行政区划信息的相似度分数与剩余地址信息的相似度分数相乘，得对应于地址字段的相似度分量，即

Score(a1,a2)＝AdnScore(a1,a2)×subAddressScore(a1,a2)；

行政区划的隶属关系主要考虑的是互斥的行政区划关系(即同一等级的行政区划，例如，朝阳区和海淀区)，完全一样的行政区划关系(例如北京市与北京市)，包含的行政区划关系(例如北京市和海淀区)。可根据行政区划的关系和行政区划的大小(比如海淀区为3级行政单位，北京市为1级行政单位)，给出行政区划信息的相似度分数，行政区划能精确到3级(海淀区或**县)且一样时，得出行政区划信息的相似度分数为1，其余的行政区划关系的相似度分数在[0,1]间取值，例如，北京市与海淀区间得出相似度分数为0.95，海淀区与海淀区之间，得出相似度分数为1.0，北京市与北京市之间，得出相似度分数为0.97。

对于剩余地址信息的相似度分数的计算方法与名称信息的相似度分数计算方法相同，在此不再赘述。

当特征字段包括电话号码字段时，根据数据的电话号码字段的内容确定数据中电话号码的属性，根据确定出的电话号码的属性，计算数据间对应于所述电话号码字段的相似度分量。

电话号码的属性包括：手机号码、固定号码、热线号码、空号。

举例而言，根据确定出的电话号码的属性，计算数据间对应于电话号码字段的相似度分量方法如下所示：

在步骤A11中、根据电话号码的属性提取有效电话。

举例而言，提取非热线电话的电话号码，去除热线电话的电话号码。例如，将400开头的电话去除掉。

在步骤A12中、比较两个电话号码，确定两个电话号码是否一致，根据电话号码的一致性和电话号码所属类型，得出电话号码字段的相似度分量。

举例而言，当两条数据中一对普通电话的电话号码相一致时，电话号码字段的相似度分量为3；当两条数据中一对分级电话的电话号码相一致时，电话号码字段的相似度分量为3.5；当两条数据中两对普通电话的电话号码相一致时，电话号码字段的相似度分量为4。

当特征字段包括分类字段时，根据预设的分类间关系和数据中分类字段的内容，计算数据间对应于分类字段的相似度分量。

举例而言，当特征字段包括分类字段时，根据预设的分类间关系和数据中分类字段的内容，判断数据对应分类是否互斥，如果互斥，则数据间对应于分类字段的相似度分量为0，如果不互斥，则数据间对应于分类字段的相似度分量为1。

例如，分类分成三级，第一级为业务类型或企业，例如生活服务；第二级为业务类型子类，例如餐饮美食；第三级为业务的种类，例如快餐、火锅。对分类间关系进行定义，例如第二级分类中，医疗健康和餐饮美食为互斥分类，不具有交集；第二级分类中，餐饮美食和旅游出行是相交分类，只交集于酒店、中餐第三级分类；第二级分类中的小吃快餐、京津菜、烧烤等为亲近分类。可以根据算法进行互斥分类提取，例如采用贝叶斯算法，对数据进行分类选择，查找交集小于预设值的分类，此为互斥分类；或者直接根据数据库现有数据的分类，查找交集小于预设值的分类，此为互斥分类。根据查找到的互斥分类，判断两条数据对应分类是否属于互斥分类，当两条数据对应分类为互斥分类时，得出相似度分量为0，当两条数据对应分类不为互斥分类时，得出相似度分量为1。并且，在一实施例中，可以将步骤A2前增加如下步骤：

判断数据间对应于分类字段的相似度分量是否为0，当不为0时，执行步骤A2。

本发明中计算对应于分类字段的相似度分量的方法不限于此，也可以根据数据对应分类的交集，设置对应于分类字段的相似度分量的值。

当特征字段包括经纬度字段时，根据数据中经纬度字段的内容，计算数据所对应的位置间距离，根据距离计算数据间对应于经纬度字段的相似度分量。

举例而言，对于两条数据，利用地图工具可以计算出两条数据的经纬度字段中内容所确定的位置间距离。对应不同的距离区间设置不同的经纬度字段的相似度分量的值。例如，

距离属于区间[0,1km]时，对应经纬度字段的相似度分量的值为3；

距离属于区间(1km,2km]时，对应经纬度字段的相似度分量的值为2；

距离属于区间(2km,5km]时，对应经纬度字段的相似度分量的值为1。

在步骤A2中、对于每个字段，根据字段的相似度分量的大小、字段的内容或字段的结构确定字段所对应的权重。

举例而言，名称字段的权重的取值范围为[0,6]，名称字段相似度分量与名称字段对应的权重成正比。此外，还可以根据名称字段的结构调整名称字段对应的权重。例如，当名称结构为总部名称(分部名称)的形式时，如果两条数据的总部和分部名称相同，则将权重调整为6.5，如数据1中具有名称字段“AA快餐店(国展店)”，数据2中具有名称字段“AA快餐店(国展店)”，数据1和数据2间名称字段对应的权重为6.5；当名称结构为主题商户+主题子商户的形式，如果两条数据的主题商户相同，则将权重调整为2.5，如数据1中具有名称字段“BB大酒店”，数据2中具有名称字段“BB大酒店宴会厅”，数据1和数据2间名称字段对应的权重为2.5。

地址字段的权重的取值范围为[0,5]，地址字段相似度分量的大小与地址字段对应的权重的大小成正比。此外，还可以当根据地址字段的结构确定出地址字段精确到门牌号时，将权重调整为5.5。

对于经纬度字段，当经纬度字段的相似度分量的值为3时，经纬度字段对应的权重为5；当经纬度字段的相似度分量的值为2时，经纬度字段对应的权重为2；当经纬度字段的相似度分量的值为1时，经纬度字段对应的权重为1。此外，还可以设置，经纬度字段对应的权重+地址字段对应的权重≤5.5。

对于电话号码字段，数据1和数据2中电话号码字段的内容，判定相同号码的数量，当数据1和数据2中有效电话号码中有N(N≥1)个电话号码相同时，电话号码字段对应的权重＝3+(N-1)×0.5。

对于分类字段，当数据1和数据2中分类字段内容为互斥分类时，分类字段对应的权重为0，否则为1。

在步骤A3中、根据数据间对应于各个字段的相似度分量和各个字段所对应的权重，计算数据间的相似度。

举例而言，对于名称字段、地址字段、电话号码字段、和经纬度字段的相似度分量和权重进行加权求和，分类字段的相似度分量或权重值与加权求和的和值相乘。

在本实施例中，在计算相似度时考量多维参量，并且对相似度分量对应的权重值做动态调整，由此使得相似度能够更加准确地反应数据间的相近似程度。

在步骤S102中、根据数据间相似度将数据中对应于同一对象的数据聚合到同一聚类中。

在一实施例中，上述步骤S101可以实施为如下步骤B1，上述步骤S102可以实施为如下步骤B2-B3。

在步骤B1中、根据数据中特征字段的内容分别计算数据中未被聚合到聚类的数据与已被聚合到聚类的各条数据间的相似度。

在步骤B2中、根据相似度判断未被聚合到聚类的数据是否属于该聚类。

在一具体实施方式中，步骤B2可实施为：对于每条已被聚合到聚类的数据，根据未被聚合到聚类的数据与该已被聚合到聚类的数据间的相似度，确定未被聚合到聚类的数据与所述已被聚合到聚类的数据是否为同一数据；根据未被聚合到聚类的数据在聚类中的同一数据的条数，判断未被聚合到聚类的数据是否属于该聚类。

在步骤B3中、当未被聚合到聚类的数据属于该聚类时，将未被聚合到聚类的数据聚合到该聚类对应的聚类数据组中。

在一实施例中，如图4A所示，未被聚合到聚类的数据d0与聚类数据组G中的各条数据d1～dn分别进行原子聚类。聚类数据组G中数据d1～dn为已被聚合到聚类J的数据。数据d0与聚类数据组G中每条数据进行原子聚类，得出一个决策，该决策表明数据d0与比较的聚类数据组G中数据是否为同一数据。对于每次原子聚类的决策通过投票机制记录下来，最终决定数据d0是否属于聚类J。如果数据d0属于聚类J，则将数据d0添加到聚类数据组G中，如果数据d0不属于聚类J，则按上述方法判断数据d0是否属于其他聚类。如果数据d0不属于任何聚类，则创建一新聚类，数据d0属于新聚类，并且将新聚类对应的聚类数据组初始化为包含数据d0。

如图4B所示，进行原子聚类的过程是根据两个数据的相似度判断两个数是否为同一数据的决策过程。在初始化时，提取输入的数据d0和数据di的特征字段的内容，该特征字段可以包括多个字段；在相似度分量计算时，针对各个字段计算相似度分量；设置权重时，对于每个字段，根据字段的相似度分量的大小、字段的内容和/或字段的结构确定字段所对应的权重；在决策时，根据相似度分量和权重值得相似度，根据相似度判断数据d0和数据di是否为同一数据。例如，设置阈值为9，根据数据间对应于各个字段的相似度分量和各个字段所对应的权重，计算数据间的相似度，当相似度大于9时，确定数据d0和数据di为同一数据。

在本实施例中，计算未被聚合到聚类的数据与聚类中每条已被聚合到聚类的数据间的相似度，根据该相似度确定出未被聚合到聚类的数据与聚类中每条数据间关系，再根据未被聚合到聚类的数据与聚类中每条数据间关系确定未被聚合到聚类的数据与整个聚类间关系。由此，避免了同时计算未被聚合到聚类的数据与聚类中所有数据间关系，降低了计算的复杂度，提高了单条数据的独立性，便于后期数据的维护和更新。

在步骤S103中、按预设策略对聚类中各条数据的特征字段的内容进行选择，根据选择的特征字段的内容生成对象对应的聚合数据。

在一实施例中，按预设策略对聚类中各条数据的特征字段的内容进行选择可实现为：根据聚类中各条数据间相似度和/或数据的可信度对聚类的各条数据在字段的内容进行选择。

在另一实施例中，按预设策略对聚类中各条数据的特征字段的内容进行选择可实现为如下步骤C1-C2：

在步骤C1中，当特征字段中包含第一预设字段和至少一除第一预设字段之外的字段时，对于第一预设字段，根据聚类中各条数据间对应于第一预设字段的相似度分量和数据的可信度，对聚类的各条数据在第一预设字段的内容进行选择；

在步骤C2中，对于除第一预设字段之外的字段，根据聚类中各条数据对应于字段的相似度分量、数据的可信度和在对应于第一预设字段进行选择时数据的选择情况，对聚类的各条数据在字段的内容进行选择。

举例而言，第一预设字段为名称字段，按如下方式对个字段中内容进行选择。

当特征字段包括名称字段时，根据数据中名称字段的结构、数据的可信度、和/或对应于名称字段数据与聚类中其他条数据的相似度分量，从聚类中各条数据的名称字段的内容中选出聚合数据所用的名称字段的内容。

例如，聚类中数据分别具有如下名称：

AA烤全鱼(望京店)，来源为C1网，C2网

AA(望京店)，来源为C3网、C4网

BB烤鱼，来源为C5论坛

AA烤全鱼，来源为C6地图

考量对应于名称字段数据与聚类中其他条数据的相似度分量，当对应于名称字段数据与聚类中其他条数据的相似度分量的平均值小于第一阈值时，该数据的名称字段不被选择。例如四个名称中，“BB烤鱼”与聚类中其他条数据的名称的相似度分量平均值小于第一阈值，则“BB烤鱼”不被选择；或者，根据对应于名称字段数据与聚类中其他条数据的相似度分量的平均值，确定数据的名称字段的第一选择分数simScore。

考量到名称字段的结构，当数据的名称字段的结构满足“总部名称(分部名称)”的形式时，数据的名称字段获得第二选择分数；例如，AA烤全鱼(望京店)和AA(望京店)均满足“总部名称(分部名称)”的形式，则AA烤全鱼(望京店)和AA(望京店)分别获得第二选择分数structureScore。

考量数据的来源信息，根据设置的来源的可信度，确定数据的名称字段的第三选择分数sourceScore。例如，对于生活类的数据，C1网具有最高的权重，C6地图、C5论坛等具有较低的权重。

按如下公式，将选择分数加权求和，例如，最好确定选择得分最高的名称字段，江边城外烤全鱼(望京店)。

Score＝simScore×w1+sourceScore×w2+structureScore×w3；

w1、w2、w3为权重；

simScore为第一选择分数；

structureScore为第二选择分数；

sourceScore为第三选择分数。

当特征字段包括地址字段时，根据数据中地址字段的结构、数据的可信度、在对应于名称字段进行选择时数据的选择情况和数据对应于地址字段与聚类中其他条数据的相似度分量，从聚类中各条数据的地址字段的内容中选出聚合数据所用的地址字段的内容。

如上所述，对于选择考量的各个参量，对于每个参量得出选择分数，将选择分数加权相加。

其中，计算地址字段的选择分值时，将地址字段所在数据的名称字段是否被选择过作为一参考量。

当特征字段包括电话号码字段时，根据数据的可信度、数据对应于电话号码字段与聚类中其他条数据的相似度分量和在对应于名称字段进行选择时数据的选择情况，从聚类中各条数据的电话号码字段的内容中选出聚合数据所用的电话号码字段的内容。

如上所述，对于选择考量的各个参量，对于每个参量得出选择分数，将选择分数加权相加。具体实施方式，请参考选择名称字段中的举例说明，在此不再赘述。

当特征字段包括分类字段时，聚类中各条数据对应于分类字段的相似度分量、数据的可信度、和在对应于名称字段进行选择时数据的选择情况，从聚类中各条数据的分类字段的内容中选出聚合数据所用的分类字段的内容。

并且，利用贝叶斯分类算法，可将数据的分类字段的内容与分类库中词元做比较，得出贝叶斯分类得分，将贝叶斯得分作为一个选择分数，与其他选择分数加权求和。

贝叶斯分类进行方式为：首先会对数据库里面每一个分类进行统计，即对该分类所有商户名称进行分词，然后将各个词出现的频率记录下来，同时统计每个分类里面所有的词的个数(含重复)；最后会统计所有分类里面的词的总个数，即词典总词数。

当特征字段包括经纬度字段时，根据对应于经纬度字段数据与聚类中其他条数据的相似度分量、数据的可信度和在对应于名称字段进行选择时数据的选择情况，从聚类中各条数据的经纬度字段的内容中选出聚合数据所用的经纬度字段的内容。

本发明中选择字段内容的实施方式不限于此，例如，当特征字段包括经纬度字段时，可以根据数据与聚类中其他条数据的位置距离的平均值，从聚类中各条数据中选择平均值最大的数据，将选择的数据的经纬度字段的内容作为聚合数据所用的经纬度字段的内容。

本发明的实施例提供的方法可以包括以下有益效果：依据数据的相似度将数据聚合到聚类中，能够将对应于同一对象的相近似的数据聚合到同一聚类中；按预设策略对聚类的多条数据的特征字段的内容进行选择，生成对象对应的聚合数据，从而能够将聚类中的多条数据融合成一条聚合数据，而且该条聚合数据具有优选出的特征字段的内容，这样，不但减少了数据中的冗余信息，而且对数据中信息进行了优化，提高了数据中信息的准确性。

图5是根据一示例性实施例示出的数据处理装置的框图。图5中所示的数据处理装置可以应用于网络设备中，例如云端服务器、智能路由器中，上述装置包括如下模块。

计算模块51，用于根据数据的特征字段的内容计算数据间相似度。其中，特征字段为预设的字段。

聚合模块52，用于根据数据间相似度将数据中对应于同一对象的数据聚合到同一聚类中。

选择模块53，用于按预设策略对聚类中各条数据的特征字段的内容进行选择，根据选择的特征字段的内容生成对象对应的聚合数据。

在一实施例中，如图6所示，计算模块51具体用于根据数据中特征字段的内容分别计算数据组中未被聚合到聚类的数据与已被聚合到聚类的各条数据间的相似度。

聚合模块52具体包括：

判断单元521，用于根据数据中未被聚合到聚类的数据与已被聚合到聚类的各条数据间的相似度，判断未被聚合到聚类的数据是否属于聚类；

聚合单元522，用于当未被聚合到聚类的数据属于聚类时，将未被聚合到聚类的数据聚合到聚类中。

在一实施例中，如图7所示，判断单元521具体包括：

第一判断子单元5211，用于对于每条已被聚合到聚类的数据，根据未被聚合到聚类的数据与已被聚合到聚类的数据间的相似度，确定未被聚合到聚类的数据与已被聚合到聚类的数据是否为同一数据；

第二判断子单元5212，用于根据未被聚合到聚类的数据在聚类中的同一数据的条数，判断未被聚合到聚类的数据是否属于聚类。

在一实施例中，如图8所示，计算模块51具体包括：

相似度分量计算单元511，用于当特征字段中包含至少两个字段时，对于每个字段，根据数据在字段中内容计算数据间对应于字段的相似度分量；

权重设置单元512，对于每个字段，根据字段的相似度分量的大小、字段的内容和/或字段的结构确定字段所对应的权重；

相似度计算单元513，用于根据数据间对应于各个字段的相似度分量和各个字段所对应的权重，计算数据间的相似度。

在一实施例中，特征字段包括至少一如下字段：

在一实施例中，选择模块具体包括：

选择子模块，用于根据聚类中各条数据间相似度和/或数据的可信度对聚类的各条数据在字段的内容进行选择。

在一实施例中，选择子模块具体包括：

第一选择子单元，用于当特征字段中包含第一预设字段和至少一除第一预设字段之外的字段时，对于第一预设字段，根据聚类中各条数据间对应于第一预设字段的相似度分量和/或数据的可信度，对聚类的各条数据在第一预设字段的内容进行选择；

第二选择子单元，用于对于除第一预设字段之外的字段，根据聚类中各条数据对应于字段的相似度分量、数据的可信度、和/或在对应于第一预设字段进行选择时对数据的选择情况，对聚类的各条数据在字段的内容进行选择。

在一实施例中，相似度分量计算单元具体用于

当特征字段包括名称字段时，利用存储的识别数据库解析数据中名称字段的内容，获得格式化的名称信息，根据名称信息中各项信息的内容得到名称信息中各项信息的相似度分数，根据所得各项信息的相似度分数计算出数据间对应于名称字段的相似度分量；或者

当特征字段包括地址字段时，利用地址词元库解析数据中地址字段的内容，得到行政区划信息和剩余地址信息，根据预设的地理区划隶属关系得到行政区划信息的相似度分数，根据剩余地址信息的内容得到剩余地址信息的相似度分数，根据所得行政区划信息的相似度分数和剩余地址信息的相似度分数，计算数据间对应于地址字段的相似度分量；或者

当特征字段包括电话号码字段时，根据数据的电话号码字段的内容确定数据中电话号码的属性，根据确定出的电话号码的属性，计算数据间对应于电话号码字段的相似度分量；或者

当特征字段包括分类字段时，根据预设的分类间关系和数据中分类字段的内容，计算数据间对应于分类字段的相似度分量；或者

本发明的实施例提供的装置可以包括以下有益效果：依据数据的相似度将数据聚合到聚类中，能够将对应于同一对象的相近似的数据聚合到同一聚类中；按预设策略对聚类的多条数据的特征字段的内容进行选择，生成对象对应的聚合数据，从而能够将聚类中的多条数据融合成一条聚合数据，而且该条聚合数据具有优选出的特征字段的内容，这样，不但减少了数据中的冗余信息，而且对数据中信息进行了优化，提高了数据中信息的准确性。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种数据处理的方法，其特征在于，包括：

根据数据的特征字段的内容计算数据间相似度，其中，所述特征字段为预设的字段；

2.根据权利要求1所述的方法，其特征在于，所述根据数据的特征字段的内容计算数据间相似度具体包括：

3.根据权利要求2所述的方法，其特征在于，

所述根据所述数据中未被聚合到聚类的数据与已被聚合到聚类的各条数据间的相似度，判断所述未被聚合到聚类的数据是否属于所述聚类具体包括：

4.根据权利要求1所述的方法，其特征在于，所述根据数据的特征字段的内容计算数据间相似度具体包括：

5.根据权利要求1所述的方法，其特征在于，所述特征字段包括至少一如下字段：

6.根据权利要求1所述的方法，其特征在于，所述按预设策略对聚类中各条数据的特征字段的内容进行选择具体包括：

7.根据权利要求6所述的方法，其特征在于，所述根据聚类中各条数据间相似度和/或数据的可信度对聚类的各条数据在所述字段的内容进行选择具体包括：

8.根据权利要求4所述的方法，其特征在于，所述对于每个字段，根据数据在所述字段中内容计算数据间对应于所述字段的相似度分量具体包括：

9.一种数据处理的装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，

所述计算模块具体用于根据数据中特征字段的内容分别计算所述数据中未被聚合到聚类的数据与已被聚合到聚类的各条数据间的相似度；

所述聚合模块具体包括：

11.根据权利要求10所述的装置，其特征在于，

所述判断单元具体包括：

12.根据权利要求9所述的装置，其特征在于，所述计算模块具体包括：

13.根据权利要求9所述的装置，其特征在于，所述特征字段包括至少一如下字段：

14.根据权利要求9所述的装置，其特征在于，所述选择模块具体包括：

15.根据权利要求14所述的装置，其特征在于，所述选择子模块具体包括：

16.根据权利要求12所述的方法，其特征在于，所述相似度分量计算单元具体用于