CN107807939B

CN107807939B - 数据对象的整理方法及设备

Info

Publication number: CN107807939B
Application number: CN201610816159.XA
Authority: CN
Inventors: 黄耐寒; 吴保华; 付登坡; 吕秀全; 甘云锋
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-09-09
Filing date: 2016-09-09
Publication date: 2021-12-28
Anticipated expiration: 2036-09-09
Also published as: CN107807939A

Abstract

本申请的一个目的是提供一种数据对象的整理方法及设备，具体地，根据数据对象主属性的属性信息，对数据对象进行分类，获取至少一个数据类别；在每个数据类别下，根据数据对象关键属性的属性信息，对数据对象进行聚类，获取至少一个数据簇；以及在每个数据簇下，对数据对象的冗余属性的属性信息进行信息融合。与现有技术相比，本申请的方案在获取到这些数据对象后，通过主属性对数据对象进行分类后，针对每个数据类别中的数据对象进行聚类处理，由此获取包含类似数据对象的数据簇，然后对每个数据簇中的数据对象进行信息融合，由此得到能够代表该数据簇中所有数据对象的完整信息，避免保留冗余的信息，而产生较多脏数据。

Description

数据对象的整理方法及设备

技术领域

本申请涉及计算机领域，尤其涉及一种数据对象的整理方法及设备。

背景技术

随着互联网的发展，网络上的电视剧信息已非常丰富多样，基于全互联网数据构建一套完善的影视数据体系是可行的，并且对影视行业多种决策都有很大意义。例如影视产品采购及影视投资中经常需要参考已播出的电视剧基本信息、播放情况及舆论反馈等数据进行决策。电视剧信息可以从互联网的多种渠道获得，例如广电总局网站的备案公示、娱乐新闻、视频网站等。由于获取的数据来自于不同数据来源，其覆盖的侧重点不同，这些数据只有经过整理融合才能完整地描述一部电视剧。

但互联网中的电视剧信息大多是人工维护、且没有统一的规范，因此从各个渠道得到的数据都有不同程度的差异，这给电视剧信息的整合带来了很大的困难。目前传统方案在从多种数据来源获取电视剧的相关信息之后，仅会对每部电视剧的信息进行简单的归类和合并，由于不同数据来源中对于同一信息的表述可能存在一定区别，因此简单的归类和合并可能无法实现将表示同一电视剧的多个数据对象合并为一个数据对象，由此产生较多脏数据。

申请内容

本申请的一个目的是提供一种数据对象的整理方法及设备，用以解决现有技术中脏数据较多的问题。

为实现上述目的，本申请提供了一种数据对象的整理方法，所述数据对象由多种数据来源获取，所述数据对象包括主属性和关键属性，其中，所述方法包括：

根据所述数据对象主属性的属性信息，对所述数据对象进行分类，获取至少一个数据类别；

在每个数据类别下，根据所述数据对象关键属性的属性信息，对所述数据对象进行聚类，获取至少一个数据簇，其中，所述数据簇至少包含一个数据对象；

在每个数据簇下，对所述数据对象的冗余属性的属性信息进行信息融合，其中，所述冗余属性为属性信息非空且不唯一的关键属性或主属性。

进一步地，根据所述数据对象主属性的属性信息，对所述数据对象进行分类之前，还包括：

对所述数据对象的主属性和/或关键属性的属性信息进行预处理，获取符合预设形式的属性信息。

进一步地，对所述数据对象的主属性和/或关键属性的属性信息进行预处理，获取符合预设形式的属性信息，包括以下任意一项或多项：

清除主属性和/或关键属性的属性信息中的无效修饰词；

将主属性和/或关键属性的属性信息进行规范化处理；

将主属性和/或关键属性的属性信息的文本格式转换为预设文本格式。

进一步地，在每个数据类别下，根据所述数据对象关键属性的属性信息，对所述数据对象进行聚类，获取至少一个数据簇，包括：

在每个数据类别下，根据所述数据对象关键属性的属性信息，获取任意两个数据对象之间的总体相似度；

根据所述总体相似度，将所述数据对象划分为至少一个数据簇，其中，所述数据簇至少包含一个数据对象，且在数据对象不少于一个的数据簇中，任一数据对象与至少一个其它数据对象的总体相似度大于或等于总体相似度阈值。

进一步地，在每个数据类别下，根据所述数据对象关键属性的属性信息，获取任意两个数据对象之间的总体相似度，包括：

在每个数据类别下，获取第一数据对象和第二数据对象之间的每项属性相似度，其中，所述属性相似度表示：所述第一数据对象的某项关键属性的属性信息、与第二数据对象的同一关键属性的属性信息之间的相似程度；

获取每项关键属性的权重；

根据第一数据对象和第二数据对象之间的每项属性相似度，以及每项关键属性的权重，获取第一数据对象和第二数据对象之间的总体相似度。

进一步地，获取每个关键属性的权重，包括：

将关键属性的属性信息为非空的数据对象的数量与数据对象总数量的比值，作为所述关键属性的数据覆盖率；

将每项关键属性的数据覆盖率与所有关键属性的数据覆盖率之和的比值，作为每项关键属性的权重。

进一步地，根据所述总体相似度，将所述数据对象划分为至少一个数据簇，包括：

将所述总体相似度超过总体相似度阈值的两个数据对象作为数据对；

合并包含相同数据对象的数据对，生成数据簇，以及将每个不包含于任一数据对中的数据对象作为数据簇。

进一步地，在每个数据簇下，对所述数据对象的冗余属性的属性信息进行信息融合，包括：

在每个数据簇下，根据预设规则将所述冗余属性的多种属性信息进行信息融合，以获取唯一的属性信息，其中，所述预设规则包括以下任意一项或多项：

对所述多种属性信息汇总后去重；

选取来源评分最高的数据对象的该项关键属性或主属性的属性信息作为唯一的属性信息；

对所述多种属性信息进行文本评分，选取文本评分最高的属性信息作为唯一的属性信息。

进一步地，所述数据对象为电视剧信息。

基于本申请的另一方面，还提供了一种数据对象的整理设备，所述数据对象由多种数据来源获取，所述数据对象包括主属性和关键属性，其中，所述设备包括：

分类装置，用于根据所述数据对象主属性的属性信息，对所述数据对象进行分类，获取至少一个数据类别；

聚类处理装置，用于在每个数据类别下，根据所述数据对象关键属性的属性信息，对所述数据对象进行聚类，获取至少一个数据簇，其中，所述数据簇至少包含一个数据对象；

融合装置，用于在每个数据簇下，对所述数据对象的冗余属性的属性信息进行信息融合，其中，所述冗余属性为属性信息非空且不唯一的关键属性或主属性。

进一步地，该设备还包括：

预处理装置，用于在根据所述数据对象主属性的属性信息，对所述数据对象进行分类之前，对所述数据对象的主属性和/或关键属性的属性信息进行预处理，获取符合预设形式的属性信息。

进一步地，所述预处理装置对所述数据对象的主属性和/或关键属性的属性信息进行的预处理包括以下任意一项或多项：

清除主属性和/或关键属性的属性信息中的无效修饰词；

将主属性和/或关键属性的属性信息进行规范化处理；

进一步地，所述聚类处理装置，包括：

相似度分析模块，用于在每个数据类别下，根据所述数据对象关键属性的属性信息，获取任意两个数据对象之间的总体相似度；

归一模块，用于根据所述总体相似度，将所述数据对象划分为至少一个数据簇，其中，所述数据簇至少包含一个数据对象，且在数据对象不少于一个的数据簇中，任一数据对象与至少一个其它数据对象的总体相似度大于或等于总体相似度阈值。

进一步地，所述相似度分析模块，用于在每个数据类别下，获取第一数据对象和第二数据对象之间的每项属性相似度，并获取每项关键属性的权重，以及根据第一数据对象和第二数据对象之间的每项属性相似度，以及每项关键属性的权重，获取第一数据对象和第二数据对象之间的总体相似度；其中，所述属性相似度表示：所述第一数据对象的某项关键属性的属性信息、与第二数据对象的同一关键属性的属性信息之间的相似程度。

进一步地，所述相似度分析模块在获取每项关键属性的权重时，用于将关键属性的属性信息为非空的数据对象的数量与数据对象总数量的比值，作为所述关键属性的数据覆盖率；以及将每项关键属性的数据覆盖率与所有关键属性的数据覆盖率之和的比值，作为每项关键属性的权重。

进一步地，所述归一模块，用于将所述总体相似度超过总体相似度阈值的两个数据对象作为数据对；以及合并包含相同数据对象的数据对，生成数据簇，以及将每个不包含于任一数据对中的数据对象作为数据簇。

进一步地，所述融合装置，用于在每个数据簇下，根据预设规则将所述冗余属性的多种属性信息进行信息融合，以获取唯一的属性信息，其中，所述预设规则包括以下任意一项或多项：

对所述多种属性信息汇总后去重；

进一步地，所述数据对象为电视剧信息。

与现有技术相比，本申请提供了一种对来自多种数据来源的数据对象进行整理的方案，在获取到这些数据对象后，通过主属性对数据对象进行分类后，针对每个数据类别中的数据对象进行聚类处理，由此获取包含类似数据对象的数据簇，基于主属性的分类以及在每个数据类别下的聚类处理，使得多个实质相同的数据对象，即使属性信息即使存在一定的区别，也可以被正确地划分至同一数据簇，从而提高处理的精度；而后对每个数据簇中的数据对象进行信息融合，由此得到能够代表该数据簇中所有数据对象的完整信息，能够进一步避免保留冗余的信息，而产生较多脏数据。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请实施例提供的一种数据对象的整理方法的流程图；

图2为采用本申请实施例提供的数据对象的整理方法进行数据整理过程中数据对象的流向示意图；

图3为采用本申请的方案对图书信息进行整理的过程示意图；

图4为采用本申请的方案对电视剧信息进行整理的过程示意图；

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本申请实施例提供了一种数据对象的整理方法，所述数据对象由多种数据来源获取，且所述数据对象包括主属性和关键属性，该方法的具体处理流程如图1所示，包括如下步骤：

步骤S101，根据所述数据对象主属性的属性信息，对所述数据对象进行分类，获取至少一个数据类别；

步骤S102，在每个数据类别下，根据所述数据对象关键属性的属性信息，对所述数据对象进行聚类，获取至少一个数据簇，其中，所述数据簇至少包含一个数据对象；

步骤S103，在每个数据簇下，对所述数据对象的冗余属性的属性信息进行信息融合，其中，所述冗余属性为属性信息非空且不唯一的关键属性或主属性。

本方案所适用的数据对象可以是任意包含属性的信息集合，且该数据对象的各项属性能够用于描述所述数据对象。例如所述数据对象可以是电视剧信息、电影信息、图书信息、音乐信息等，其包含的属性可以是名称、出品公司、题材等等。上述数据对象可以来自于多种数据来源。以电视剧信息为例，其对应的数据来源可以包括广电总局网站的备案公示、娱乐新闻、视频网站等，电视剧的属性可以包括电视剧名称、题材、导演、编剧、主演、上映年份、集数、出品公司、首映频道等。所述属性信息是指电视剧名称、题材、导演、编剧、主演、上映年份、集数、出品公司、首映频道等各项属性的具体内容，例如“2015”即为上映年份这一属性的属性信息。所述冗余属性是指数据簇中各个数据对象的某一项属性的属性信息非空且不唯一，例如数据簇中5部电视剧中主演均为“王一、李二”，或者有4部电视剧的主演为“王一、李二”、剩下一部电视剧没有主演的信息，则这个数据簇中主演属于非冗余属性。反之，若数据簇中5部电视剧中有两部的主演为“王一、李二”，另外三部的主演为“王一、李二、胡三”，则该数据簇中主演这一属性为冗余属性。

在处理过程中，需要将其中至少一项属性确定为主属性，而将除主属性之外的其它属性确定为关键属性，由此进行后续的处理。本实施例中，将电视剧名称作为主属性，实现对数据的分类，即将电视剧名称相同或者相似度超过阈值的数据划分至一个数据类别下，由此形成多个数据类别，而题材、导演、编剧、主演、上映年份、集数、出品公司、首映频道等则作为关键属性，继续用于后续归一整合的处理过程。

由于在各个数据来源的数据对象中，各个属性的格式或者描述方式可能各不相同，从而影响整理的最终效果。为了提高整理的准确性，根据所述数据对象主属性的属性信息，对所述数据对象进行分类之前，可以对所述数据对象的主属性和/或关键属性的属性信息进行预处理，获取符合预设形式的属性信息，以实现清洗及规范化，以提高后续处理的准确性。在实际场景下，在从各个数据来源获取数据对象时，除了与方案相关的主属性以及关键属性之外，可能还包括一些与归一整合处理无关的其它属性。对于所述其它属性，在预处理时也可以一并进行处理，使得整理后所收录的数据包含的所有内容更加规范、精简。具体地，所述预处理的具体方式包括以下几种：

1、清除主属性和/或关键属性的属性信息中的无效修饰词。基于预先构造的无效修饰词词库，清除属性的内容中的无效修饰词，例如主属性电视剧名称中“全网首播”、“独播”等均属于无效修饰词。

2、将主属性和/或关键属性的属性信息进行规范化处理。基于预先构造的规范化词库，将表示相同含义的不同描述方式进行统一。例如对于电视剧信息，会包含导演、编剧、主演等关键属性，可以构建相关的影视名词词库，若某个人存在多个别名，可以基于该影视名词词库将这些别名统一由一个规范的名字替代。

3、将主属性和/或关键属性的属性信息的文本格式转换为预设文本格式。以上映年份、集数等关键属性为例，例如A数据对象上述两个属性的内容分别为“2015”、“40”，B数据对象的上述两个属性的内容分别为“年份2014”、“四十集”，则可以修改B数据对象的格式使其与A数据对象统一。

对于所述步骤S102的聚类处理，其具体过程可以包括如下两个步骤：

步骤S1021，在每个数据类别下，根据所述数据对象关键属性的属性信息，获取任意两个数据对象之间的总体相似度。

步骤S1022，根据所述总体相似度，将所述数据对象划分为至少一个数据簇，其中，所述数据簇至少包含一个数据对象，且在数据对象不少于一个的数据簇中，任一数据对象与至少一个其它数据对象的总体相似度大于或等于总体相似度阈值。

所述总体相似度能够在整体上表征两个数据对象之间的差异程度，使得生成数据簇是存在一定的弹性，即对于差异程度在合理范围内的几个数据对象，也可以被正确地划分至同一数据簇中，由此使得数据对象的划分更加合理，有利于提高处理的精度，减少冗余信息产生的可能性。例如，对于某一数据对象A，在从各个不同的数据源获取到时，可能会分别被描述成数据对象A1和数据对象A2，若数据对象A1和数据对象A2的总体相似度小于总体相似度阈值，则两者都会被认为是数据对象A，而划分至一个数据簇中，而不会划分至两个不同的数据簇。

所述总体相似度能够基于两个数据对象关键属性的属性信息计算得到。本申请提供一种可行的计算方式，具体可参考如下公式：

其中，A、B表示计算总体相似度的两个数据对象，S(A,B)表示A、B两个数据对象的总体相似度，a、b表示A、B两个数据对象的同一项关键属性的属性信息，s_i(a,b)表示A、B两个数据对象关于某一项关键属性的属性相似度，w_i表示相应关键属性的权重。

由于在计算总体相似度时，涉及到各项关键属性的属性相似度。以A、B两个数据对象为例，所述属性相似度表示A数据对象的某项关键属性的属性信息、与B数据对象的同一关键属性的属性信息之间的相似程度。若A、B均为电视剧，则所述属性相似度即表示A电视剧的上映年份与B电视剧的上映年份的相似程度，若两者均为“2015年”，则上映年份这一关键属性的属性相似度为1，表示两者相同。

结合上述的计算公式可知，在每个数据类别下，根据所述数据对象关键属性的属性信息，获取任意两个数据对象之间的总体相似度的具体处理过程为：

首先，在每个数据类别下，获取第一数据对象和第二数据对象之间的每项属性相似度s_i(a,b)，其中，所述属性相似度表示：所述第一数据对象的某项关键属性的属性信息、与第二数据对象的同一关键属性的属性信息之间的相似程度；

然后，获取每项关键属性的权重w_i；

最后，根据第一数据对象和第二数据对象之间的每项属性相似度，以及每项关键属性的权重，获取第一数据对象和第二数据对象之间的总体相似度。

由于各项相关属性对于数据对象之间差异程度的影响程度不同，在结合所有的关键信息的基础上，进一步针对各项不同的关键信息分别设置权重，使得最终计算得到的总体相似度更加合理。在实际场景中，由于关键属性类型各不相同，因此各个关键属性的属性相似度的计算方式需要根据关键属性的类别分别确定。常见关键属性的类型包括互斥类、规范的互补类以及不规范的互补类。若所述关键属性为互斥类属性，则根据如下公式获取所述关键属性的属性相似度：

其中，a、b表示两个数据对象的同一关键属性的内容，s(a,b)表示两个数据对象的所述关键属性的属性相似度。

所述互斥类属性是指属性内容的取值只可能有一种，例如电视剧的上映年份、集数等关键属性即属于互斥类属性。对于所述互斥类属性，可以比较其内容是否相同，若相同，则属性相似度为1，若不相同，则属性相似度为0。仍以前述提及的A、B两个数据对象为例，A数据的上映年份和集数为“2015”、“40”，而B数据对象的上述两个属性经过预处理后分别为“2014”、“40”，由此可以计算出上映年份的属性相似度为0，集数的属性相似度为1。

若所述关键属性为规范的互补类属性，则根据如下公式获取所述关键属性的属性相似度：

s(a,b)＝Count(a∩b)/Min(Count(a),Count(b))

其中，a、b表示两个数据的同一关键属性的内容，s(a,b)表示两个数据对象的所述关键属性的属性相似度，Count(x)表示x中的元素数量，Min(x,y)表示取x和y中最小值。

所述互补类属性是指属性内容的取值可以同时有多种，而规范的互补类属性是指经过预处理之后能够使得同一含义的属性内容的格式或者描述方式完全一致的互补类属性，例如电视剧的题材、主演等关键属性即属于规范的互补类属性。此类关键属性的属性相似度即为a、b交集的元素数量与a、b中元素数量的最小值之比。例如A数据对象中主演的内容包括X、Y、Z，而B数据对象中主演的内容包括U、W、Y、Z，由此可以计算出主演的属性相似度为Count(Y、Z)/Count(X、Y、Z)＝2/3。

此外，若所述关键属性为不规范的互补类属性，则根据如下公式获取所述关键属性的属性相似度：

s(a,b)＝1-L_(|a|,|b|)(a,b)/Max(|a|,|b|)

其中，a、b表示两个数据的同一关键属性的内容，|a|、|b|表示a、b的字符串长度，s(a,b)表示两个数据的所述关键属性的属性相似度，L_(|a|,|b|)(a,b)表示a、b之间的Levenshtein距离(编辑距离)，Max(x,y)表示取x和y中的最大值，Min(x,y)表示取x和y中最小值。

所述不规范的互补类属性是指经过预处理之后，同一含义的属性内容的格式或者描述方式仍无法完全一致的互补类属性，例如电视剧的出品公司、首映频道等关键属性即属于不规范的互补类属性。其中，Levenshtein距离L_(|a|,|b|)(a,b)是指a、b两个关键属性内容的字符串之间，由一个转成另一个所需的最少编辑操作次数，所述字符串可以是中文字符串，也可以是英文等其它文字的字符串，Levenshtein距离的具体计算公式如下：

其中，该计算公式为迭代公式，L_(i,j)(a,b)表示a的前i个字符与b的前j个字符的Levenshtein距离，i的最大值即为a的字符串长度|a|，j的最大值即为b的字符串长度|b|，a_i表示a的第i个字符，b_i表示b的第i个字符。

在此，本领域技术人员应当理解，上述对属性信息类型的区分以及相应的属性相似度的计算方式仅为举例，其目的在于为总体相似度计算提供准确的计算依据，其他现有的或今后可能出现的其它形式的方式如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

另一方面，数据对象的各个关键属性的权重w_i具体采用如下方式获取：将关键属性的属性信息为非空的数据对象的数量与数据对象总数量的比值，作为所述关键属性的数据覆盖率。即对于某一项关键属性p，其数据覆盖率可以采用如下公式表示：

C_p＝Count_m/Count_a

其中，C_p为关键属性p的数据覆盖率，Count_m为所有数据对象中关键属性p的属性信息为非空的数据数量，Count_a表示所有数据对象的数量。例如，数据的总数量为100条，其中有80条数据中包含上映年份的内容，而其它20条数据中没有关于上映年份的内容，则关键属性上映年份的数据覆盖率则为0.8。基于上述方式，可以获取所有关键属性的数据覆盖率C₁,C₂,...C_n，则任一关键属性的属性相似度可以由如下公式确定：

即将每项关键属性的数据覆盖率与所有关键属性的数据覆盖率之和的比值，作为每项关键属性的权重。

在每次处理过程中，从不同数据源获取到的数据中各项关键属性的数据覆盖率均不相同，例如有些数据源获取的数据对象的各项关键属性较为完整，不存在属性信息为空的关键属性，而另外一些数据源获取的数据对象则可能存在多项属性信息为空的关键属性。一般情况下，数据覆盖率较高，表示大部分数据源都会详细描述的该项关键属性，说明该其对于该数据对象识别度的影响也会较高，例如主演、导演等。因此，通过上述设置权重的方式，能够提高数据覆盖率较高的关键属性的权重，从而使计算得到的总体相似度更加合理，有利于降低数据对象整理结果的冗余度。

作为一种优选的实施方式，在根据所述总体相似度，将所述数据对象划分为至少一个数据簇时，具体处理步骤如下：

首先，将所述总体相似度超过总体相似度阈值的两个数据对象作为数据对。例如，某一个数据类别中数据对象的集合为[A,B,C,D,E,F,G,H]，在计算出任意两个数据对象之间的总体相似度后，将该总体相似度与预先设置的总体相似度阈值进行比较，若超过该总体相似度阈值，则将相应的两个数据对象作为数据对。假设本实施例中通过上述处理获得的数据对包括(A,B),(A,C),(B,D),(E,F),(E,G),(F,G)这六对。

其中，所述总体相似度阈值的具体获取方式可以采用构造测试数据的方式获取。即在实施本方案之前，预先构造一组测试数据，该测试数据的结构为[a,b,out]，其中a、b为两个数据对象A、B的关键属性的向量(即每项关键属性的属性信息)，A、B两个数据对象的主属性相同，out为人工标定的布尔值，out为true时表示A、B两个数据对象的是同一数据对象，out为false时表示两个数据对象的不是同一数据对象。通过计算测试数据中任一两个数据对象的总体相似度，同时基于构造的测试数据时所标定的布尔值，能够确定一总体相似度阈值，使得测试数据中各组数据对象的总体相似度与总体相似度阈值的比较结果能够满足人工标定的布尔值。

然后，合并包含相同数据对象的数据对，生成数据簇，以及将每个不包含于任一数据对中的数据对象作为数据簇，由此完成数据的归一处理。使得包含多个数据的数据簇中，任一数据与至少一个其它数据的总体相似度大于或等于总体相似度阈值。在实际场景中，有可能存在某些数据对象与其它任一数据对象的总体相似度均低于总体相似度阈值，则可以将该数据对象单独作为一个数据簇。在上例中，获取的六对数据对中，(A,B)和(A,C)包含相同的数据对象A，(A,B)和(B,D)包含相同的数据对象B，将其合并得到数据簇[A,B,C,D]，同理(E,F)和(E,G)包含相同的数据对象E，(E,G)和(F,G)包含相同的数据对象G，将其合并得到数据簇[E,F,G]，剩余的数据对象H可以单独作为一个数据簇[H]，由此得到三个数据簇。若前述的8个数据对象为电视剧信息，则每个数据簇均表示一部电视剧，在实际处理过程中，可以为每个数据簇生成一个ID用以识别。

所述步骤S104用以完成数据对象的融合处理，处理原则为：对于非冗余属性，则取唯一的属性信息即可，而对于冗余属性，根据预设规则将所述冗余属性的多种属性信息进行信息融合，以获取唯一的属性信息。在此，本实施例提供的信息融合的方式，可以采用如下预设规则中的任意一项或者多项，对冗余信息进行信息融合处理。具体预设规则如下：

a、对所述多种属性信息汇总后去重。主要适用于互补类属性，例如电视剧的题材、主演等。

b、选取来源评分最高的数据对象的该项关键属性或主属性的属性信息作为唯一的属性信息。主要适用于互斥类属性，例如电视剧的导演、编剧、上映年份等。

c、对所述多种属性信息进行文本评分，选取文本评分最高的属性信息作为唯一的属性信息。主要适用于文本描述较长的属性，例如电视剧的剧情介绍等。

在对各项属性的属性信息进行信息融合的过程中，对于不同类型的属性的特点，分别采取了不同的融合方式，使得融合的结果更加合理，能够更加准确地描述所述数据对象。

以数据簇[A,B,C,D]为例，该数据簇中的数据对象皆为电视剧信息，表1示出了采用上述方式对冗余属性进行信息融合处理后的处理结果。

表1

在此，本领域技术人员应当理解上述对冗余属性进行信息融合的预设规则仅为举例，其他现有的或今后可能出现的其它形式的方式如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。在实际业务场景中，各种预设规则可以根据需求单独或者组合使用，以便达到最佳的处理结果。经过对冗余属性的属性信息进行信息融合后，可以最终生成一组能够描述该数据簇所表示的数据对象的唯一的属性信息。

图2示出了在上述数据对象整理方法中，数据对象在整个处理过程中的流向，首先各个数据对象由各个数据来源301中被获取，由模块302进行预处理。对于清洗后的数据对象，则由模块303进行分类，由此获取到多个数据类别。然后，由模块304对同一数据类别下任意两个数据对象的关键属性进行相似度分析获取属性相似度，同时由模块305确定各个关键属性的权重。基于模块304得到的属性相似度和模块305得到的权重，可以计算出同一分类下任意两个数据的总体相似度。此外，模块306可以通过构造的测试数据计算出总体相似度阈值，由此提供模块307进行数据归一处理时的判断标准。模块307会计算出同一数据类别下任意两个数据对象的总体相似度，并将其与总体相似度阈值进行比较，生成数据对，并以此生成每个数据类别中的数据簇。模块308用于对同一数据簇中各个数据对象的每项关键属性的属性信息进行信息融合，以获取最终的处理结果。

以下以一种数据对象(图书信息)为例，对本申请提供的技术方案进行整体说明，图3示出了整个处理过程。本实施例中的图书信息由网上书店、出版社网站、图书馆等各类数据来源获取，图书信息的属性包括：图书名称、作者、编辑、题材、出版社、版次、字数和简介等。为了更好的实现分类，所述主属性可以确定为图书名称，而作者、编辑、校对、出版社、版次、字数和简介等属性则作为关键属性。如下表2示出了获取到6个图书信息的详细属性信息。

表2

上述数据对象仅用于对方案的原理进行说明，其数量可能小于实际场景中进行数据对象整理时所需要的属性数量，但这种省略无疑是以不会影响对本发明进行清楚、充分的公开为前提的。

在从多个数据来源获取到上述数据对象后，首先对各个属性进行预处理。该预处理过程可以基于预先构建的无效修饰词库、图书名词库等，例如图书名称中的“XXX”为记录于无效修饰词库中的无效修饰词，则可以在该步骤中清除，使得图书信息B中的图书名称属性的属性内容调整为“MTG”，而图书名词库中记录有与该领域相关的一些常用名词的别名、或者不同的译名等，使得多个表示同一事物的名词建立关联，在预处理时，基于该图书名词库将所有关联的名词统一。例如，某一编辑的名字e2，其译名为E2，两者表示同一人，因此在预处理过程中可以将译名E2，转化为e2。此外，还可以将一些文本格式进行相应的调整，例如属性信息中数字均采用阿拉伯数字，则需要将图书信息D的版次属性调整为“2015-8第1版”，其字数属性调整为“220,000”。由此，调整后的属性信息如表3所示。

表3

完成预处理后，可以基于主属性的属性信息对这些图书信息进行分类。例如本申请中，将主属性的属性信息相同的图书信息划分为一个数据类别，由此，可以得到两个数据类别，数据类别一包含图书信息A～E，数据类别二包含图书信息F。

然后在每个数据类别下，基于关键属性的属性内容对图书信息进行聚类。由于数据类别二中仅包含一个图书信息F，因此可以直接作为一个数据簇，该数据簇中仅包含一个数据对象，即图书信息F。而对于数据类一，对于各个图书信息的两两组合，分别计算其总体相似度。此处，以图书信息A和图书信息B的组合为例，进行说明。先分别获取每一项关键属性的属性相似度，在所述的关键属性中，作者、编辑、题材属于规范的互补类属性，出版社、版次、字数属于互斥类属性，而简介则属于不规范的互补类属性。基于前述提及的针对所述三类属性的计算方式分别计算其相关度，假设计算结果中各项关键属性的属性相似度依次为{1,1,1,1,0,0,0.8}，结合每项关键属性的权重，可以计算出图书信息A和图书信息B之间最终的总体相似度，记录为{A，B，3.78}。对于其它图书信息之间的总体相似度，可以采用同样的方式进行计算，假设最终获取到所有的总体相似度如下：{A，B，3.78}，{A，C，0.77}，{A，D，2.52}，{A，E，5.2}，{B，C，0.71}，{B，D，2.71}，{B，E，3.78}，{C，D，0.26}，{C，E，0.77}，{D，E，4.32}。

将每个组合的总体相似度与总体相似度阈值进行比较，若总体相似度阈值设定2，则可以得到数据对(A,B),(A,D),(A,E),(B,D),(B,E),(D,E)，由此合并这些数据对可以得到数据簇[A,B,D,E]，由于图书信息C不包含于任一数据对中，因此将其单独作为一个数据簇[C]。此时，能够得到三个数据簇，分别为数据类别一中的数据簇[A,B,D,E]和数据簇[C]，

以及数据类别二下的数据簇[F]。

此后，在每个数据簇中对图书信息的冗余属性的属性信息进行信息融合，所述冗余属性是指属性信息非空且不唯一的关键属性或主属性。由于仅包含一个图书信息的数据簇，不会存在冗余属性，因此无需进行信息融合，而对于数据簇[A,B,D,E]，该数据簇中的冗余属性为编辑、题材、版次、

字数和简介，基于本申请前述部分公开的方式对图书信息A,B,D,E的各项属性的属性信息进行信息融合之后，最终可以获取到该数据簇所对应的图书信息各个属性的唯一一组属性信息，具体如下表4所示：

表4

该整理结果表示对于数据簇[A,B,D,E]，其中的四个图书信息均表示同一本名为MTG的图书，而数据簇[C]的图书信息则表示同名的另一本图书，数据簇[F]表示名为storyof MTG的图书。

以下以另一种数据对象(电视剧信息)为例，对本申请提供的技术方案进行整体说明，图4示出了整个处理过程。本实施例中的电视剧信息由广电总局网站、视频网站、娱乐新闻网站等各类数据来源获取，电视剧信息的属性包括：电视剧名称、导演、主演、题材、出品公司、首映频道、上映日期、集数和简介等。为了更好的实现分类，所述主属性可以确定为电视剧名称，而将导演、主演、题材、出品公司、首映频道、上映日期、集数和简介作为关键属性。如下表5示出了获取到6个电视剧信息的详细属性信息。

表6

在从多个数据来源获取到上述数据对象后，首先对各个属性进行预处理。该预处理过程可以基于预先构建的无效修饰词库、电视剧名词库等，例如电视剧名称中的“独播”、“全网首播”为记录于无效修饰词库中的无效修饰词，则可以在该步骤中清除，使得电视剧信息B和E中的电视剧名称属性的属性内容调整为“ZH传”。而电视剧名词库中记录有与该领域相关的一些常用名词的别名、或者不同的译名等，使得多个表示同一事物的名词建立关联，在预处理时，基于该电视剧名词库将所有关联的名词统一。例如，某一演员的名字为“王德华”，其还有另一艺名为“华仔”，两者表示同一演员，因此在预处理过程中可以将艺名“华仔”，替换为“王德华”；再如，“CNTV-8”为“国家电视台社会频道”英文缩写，也可以统一采用中文的形式，即将电视剧信息F中首映频道的属性信息替换为“国家电视台社会频道”。此外，还可以将一些文本格式进行相应的调整，例如属性信息中数字均采用阿拉伯数字，则需要将电视剧信息B和F的集数属性调整为“40集”和“50集”。同时，将上映日期的格式统一规范为“YYYY-MM”的格式，由此，调整后的属性信息如表7所示。

表7

完成预处理后，可以基于主属性的属性信息对这些电视剧信息进行分类。例如本申请中，将主属性的属性信息相同的电视剧信息划分为一个数据类别，由此，可以得到两个数据类别，数据类别一包含电视剧信息A～E，数据类别二包含电视剧信息F。

然后在每个数据类别下，基于关键属性的属性内容对电视剧信息进行聚类。由于数据类别二中仅包含一个电视剧信息F，因此可以直接作为一个数据簇，该数据簇中仅包含一个数据对象，即电视剧信息F。而对于数据类一，对于各个电视剧信息的两两组合，分别计算其总体相似度。此处，

以电视剧信息A和电视剧信息B的组合为例，进行说明。先分别获取每一项关键属性的属性相似度，在所述的关键属性中，导演、主演和题材属于规范的互补类属性，出品公司、首映频道、上映日期和集数属于互斥类属性，而简介属于不规范的互补类属性。基于前述提及的针对所述三类属性的计算方式分别计算其相关度，假设计算结果中各项关键属性的属性相似度依次为{1,1,1,1,1,1,1,0.8}，结合每项关键属性的权重，可以计算出电视剧信息A和电视剧信息B之间最终的总体相似度，记录为{A，B，6.78}。对于其它电视剧信息之间的总体相似度，可以采用同样的方式进行计算，假设最终获取到所有的总体相似度如下：{A，B，6.78}，{A，C，1.17}，{A，D，4.52}，{A，E，5.2}，{B，C，1.11}，{B，D，4.23}，{B，E，4.98}，{C，D，0.46}，{C，E，0.77}，{D，E，3.79}。

将每个组合的总体相似度与总体相似度阈值进行比较，若总体相似度阈值设定3.5，则可以得到数据对(A,B),(A,D),(A,E),(B,D),(B,E),(D,E)，由此合并这些数据对可以得到数据簇[A,B,D,E]，由于电视剧信息C不包含于任一数据对中，因此将其单独作为一个数据簇[C]。此时，能够得到三个数据簇，分别为数据类别一中的数据簇[A,B,D,E]和数据簇[C]，以及数据类别二下的数据簇[F]。

此后，在每个数据簇中对电视剧信息的冗余属性的属性信息进行信息融合，所述冗余属性是指属性信息非空且不唯一的关键属性或主属性。由于仅包含一个电视剧信息的数据簇，不会存在冗余属性，因此无需进行信息融合，而对于数据簇[A,B,D,E]，该数据簇中的冗余属性为主演、题材和简介，基于本申请前述部分公开的方式对电视剧信息A,B,D,E的各项属性的属性信息进行信息融合之后，最终可以获取到该数据簇所对应的电视剧信息各个属性的唯一一组属性信息，具体如下表8所示：

表8

该整理结果表示对于数据簇[A,B,D,E]，其中的四个电视剧信息均表示同一部名为ZH传的电视剧，而数据簇[C]的电视剧信息则表示同名的另一部电视剧，数据簇[F]表示名为ZH传说的电视剧。

对于其它不同类型的数据对象，其区别仅在于属性的具体内容不同，例如对于音乐信息，其相应的属性可以是：歌名、演唱者、作曲、作词、出品公司、时长、所属专辑、类型、发行时间等等。对于上述属性的处理方式，仍可以参考前述电视剧信息或者图书信息，进而对该类型的数据对象进行整理。

基于同一发明构思，本申请实施例中还提供了一种数据对象的整理设备该设备对应的方法是前述实施例中的对应方法，并且与所述方法解决问题的原理相似，因此所述设备的实施可以参见对应方法的实施，重复之处不再赘述。

本申请提供的所述数据对象的整理设备，包括分类装置、聚类处理装置和融合装置，其中，所述数据对象由多种数据来源获取，所述数据对象包括主属性和关键属性。所述分类装置，用于根据所述数据对象主属性的属性信息，对所述数据对象进行分类，获取至少一个数据类别；所述聚类处理装置，用于在每个数据类别下，根据所述数据对象关键属性的属性信息，对所述数据对象进行聚类，获取至少一个数据簇，其中，所述数据簇至少包含一个数据对象；所述融合装置，用于在每个数据簇下，对所述数据对象的冗余属性的属性信息进行信息融合，其中，所述冗余属性为属性信息非空且不唯一的关键属性或主属性。

进一步地，该设备还包括：

清除主属性和/或关键属性的属性信息中的无效修饰词；

将主属性和/或关键属性的属性信息进行规范化处理；

进一步地，所述聚类处理装置，包括：

对所述多种属性信息汇总后去重；

综上所述，本申请提供了一种对来自多种数据来源的数据对象进行整理的方案，在获取到这些数据对象后，通过主属性对数据对象进行分类后，针对每个数据类别中的数据对象进行聚类处理，由此获取包含类似数据对象的数据簇，基于主属性的分类以及在每个数据类别下的聚类处理，使得多个实质相同的数据对象，即使属性信息即使存在一定的区别，也可以被正确地划分至同一数据簇，从而提高处理的精度；而后对每个数据簇中的数据对象进行信息融合，由此得到能够代表该数据簇中所有数据对象的完整信息，能够进一步避免保留冗余的信息，而产生较多脏数据。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。

Claims

1.一种数据对象的整理方法，所述数据对象由多种数据来源获取，所述数据对象包括主属性和关键属性，其中，所述方法包括：

将每项关键属性的数据覆盖率与所有关键属性的数据覆盖率之和的比值，作为每项关键属性的权重；

根据第一数据对象和第二数据对象之间的每项属性相似度，以及每项关键属性的权重，获取第一数据对象和第二数据对象之间的总体相似度；

根据所述总体相似度，将所述数据对象划分为至少一个数据簇，其中，所述数据簇至少包含一个数据对象，且在数据对象不少于一个的数据簇中，任一数据对象与至少一个其它数据对象的总体相似度大于或等于总体相似度阈值；

在每个数据簇下，根据预设规则将冗余属性的多种属性信息进行信息融合，以获取唯一的属性信息，其中，所述冗余属性为属性信息非空且不唯一的关键属性或主属性，进行信息融合的预设规则包括对所述多种属性信息进行文本评分，选取文本评分最高的属性信息作为唯一的属性信息。

2.根据权利要求1所述的方法，其中，根据所述数据对象主属性的属性信息，对所述数据对象进行分类之前，还包括：

3.根据权利要求2所述的方法，其中，对所述数据对象的主属性和/或关键属性的属性信息进行预处理，获取符合预设形式的属性信息，包括以下任意一项或多项：

清除主属性和/或关键属性的属性信息中的无效修饰词；

将主属性和/或关键属性的属性信息进行规范化处理；

4.根据权利要求1所述的方法，其中，根据所述总体相似度，将所述数据对象划分为至少一个数据簇，包括：

5.根据权利要求1所述的方法，其中，所述预设规则还包括以下任意一项或多项：

对所述多种属性信息汇总后去重；

选取来源评分最高的数据对象的该项关键属性或主属性的属性信息作为唯一的属性信息。

6.根据权利要求1至5种任一项所述的方法，其中，所述数据对象为电视剧信息。

7.一种数据对象的整理设备，所述数据对象由多种数据来源获取，所述数据对象包括主属性和关键属性，其中，所述设备包括：

聚类处理装置，包括相似度分析模块和归一模块；

所述相似度分析模块在每个数据类别下，获取第一数据对象和第二数据对象之间的每项属性相似度，其中，所述属性相似度表示：所述第一数据对象的某项关键属性的属性信息、与第二数据对象的同一关键属性的属性信息之间的相似程度；

所述相似度分析模块将关键属性的属性信息为非空的数据对象的数量与数据对象总数量的比值，作为所述关键属性的数据覆盖率；

所述相似度分析模块将每项关键属性的数据覆盖率与所有关键属性的数据覆盖率之和的比值，作为每项关键属性的权重；

所述相似度分析模块根据第一数据对象和第二数据对象之间的每项属性相似度，以及每项关键属性的权重，获取第一数据对象和第二数据对象之间的总体相似度；

所述归一模块根据所述总体相似度，将所述数据对象划分为至少一个数据簇，其中，所述数据簇至少包含一个数据对象，且在数据对象不少于一个的数据簇中，任一数据对象与至少一个其它数据对象的总体相似度大于或等于总体相似度阈值；

融合装置，用于在每个数据簇下，根据预设规则将冗余属性的多种属性信息进行信息融合，以获取唯一的属性信息，其中，所述冗余属性为属性信息非空且不唯一的关键属性或主属性，进行信息融合的预设规则包括对所述多种属性信息进行文本评分，选取文本评分最高的属性信息作为唯一的属性信息。

8.根据权利要求7所述的设备，其中，该设备还包括：

9.根据权利要求8所述的设备，其中，所述预处理装置对所述数据对象的主属性和/或关键属性的属性信息进行的预处理包括以下任意一项或多项：

清除主属性和/或关键属性的属性信息中的无效修饰词；

将主属性和/或关键属性的属性信息进行规范化处理；

10.根据权利要求7所述的设备，其中，所述归一模块，用于将所述总体相似度超过总体相似度阈值的两个数据对象作为数据对；以及合并包含相同数据对象的数据对，生成数据簇，以及将每个不包含于任一数据对中的数据对象作为数据簇。

11.根据权利要求7所述的设备，其中，所述预设规则还包括以下任意一项或多项：

对所述多种属性信息汇总后去重；

12.根据权利要求7至11种任一项所述的设备，其中，所述数据对象为电视剧信息。