CN110555158A

CN110555158A - 互斥数据处理方法及系统、计算机可读存储介质

Info

Publication number: CN110555158A
Application number: CN201810272267.4A
Authority: CN
Inventors: 李前令; 邵明昊
Original assignee: Guangdong Shenma Search Technology Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2018-03-29
Filing date: 2018-03-29
Publication date: 2019-12-10

Abstract

本申请提供一种互斥数据处理方法及系统、计算机可读存储介质，方法包括：获取候选数据集中各数据的互斥属性，所述数据的互斥属性包括与该数据存在单向互斥关系的互斥数据，其中，所述数据的互斥数据表征：当从所述数据和所述数据的互斥数据中选取需保留的数据时，则选取所述数据作为需保留的数据；根据各数据的互斥属性，从所述候选数据集中存在互斥关系的数据中剔除不需保留的数据，以获得目标数据集。本方案能够基于数据的互斥属性快速准确地进行互斥剔除处理，提高信息聚合的效率和准确性。

Description

互斥数据处理方法及系统、计算机可读存储介质

技术领域

本申请涉及大数据领域，尤其涉及一种互斥数据处理方法及系统、计算机可读存储介质。

背景技术

目前，互联网已经成为人们获取信息的重要途径，而互联网上提供的信息服务也越来越多，比如今日头条、UC头条、搜索引擎、各种新闻资讯类客户端。这些服务提供的信息数据来源不一，通常是根据用户的需求，对不同的来源的多条信息进行聚合、汇总、处理后提供给用户，而不同来源的数据，可能存在互斥的数据。

随着信息技术的不断发展，用户通常需要面对大量信息，花费大量时间浏览才能捕获有用信息。因此对上述存在互斥关系的每对数据需要通过进行互斥剔除处理，即只筛选出其中一项数据保留至最终的信息结果，实现信息聚合，以保证最终数据的精炼。

发明内容

本申请提供一种互斥数据处理方法及系统、计算机可读存储介质，用于高效准确地对存在互斥关系的数据进行筛选。

本申请的第一个方面是提供一种互斥数据处理方法，包括：获取候选数据集中各数据的互斥属性，所述数据的互斥属性包括与该数据存在单向互斥关系的互斥数据，其中，所述数据的互斥数据表征：当从所述数据和所述数据的互斥数据中选取需保留的数据时，则选取所述数据作为需保留的数据；根据各数据的互斥属性，从所述候选数据集中存在互斥关系的数据中剔除不需保留的数据，以获得目标数据集。

本申请的第二个方面是提供一种互斥数据处理系统，包括：获取模块，用于获取候选数据集中各数据的互斥属性，所述数据的互斥属性包括与该数据存在单向互斥关系的互斥数据，其中，所述数据的互斥数据表征：当从所述数据和所述数据的互斥数据中选取需保留的数据时，则选取所述数据作为需保留的数据；处理模块，用于根据各数据的互斥属性，从所述候选数据集中存在互斥关系的数据中剔除不需保留的数据，以获得目标数据集。

本申请的第三个方面是提供一种互斥数据处理系统，包括：至少一个处理器和存储器；所述存储器存储计算机程序；所述至少一个处理器执行所述存储器存储的计算机程序，以执行如前所述的方法。

本申请的第四个方面是提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如前所述的方法。

本申请提供的互斥数据处理方法及系统、计算机可读存储介质，针对候选数据集中存在互斥关系的数据，根据这些数据的互斥属性进行数据的筛选，其中，数据的互斥属性中定义了该数据能够互斥掉的数据，即本方案为数据添加了互斥属性，基于互斥属性能够从存在互斥关系的数据中确定出需要剔除的数据或者确定出需要保留下来作为最终处理结果的数据。基于本申请提供的方案，当候选数据集中有存在互斥关系的数据时，能够基于这些数据的互斥属性快速准确地进行互斥剔除处理，提高信息聚合的效率和准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1A～图1B为本申请实施例一提供的互斥数据处理方法的流程示意图；

图2A～图2C为本申请实施例二提供的互斥数据处理方法的流程示意图；

图3A～图3C为有向图的示例图；

图4A～图4B为本申请实施例三提供的互斥数据处理系统的结构示意图；

图5A～图5B为本申请实施例四提供的互斥数据处理系统的结构示意图；

图6为本申请实施例五提供的互斥数据处理方法的流程示意图；

图7为本申请实施例六提供的互斥数据处理系统的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。

实际应用中，导致互斥关系产生的因素有很多。举例来说，不同来源的数据可能存在重复，数据重复即为导致互斥关系产生的一种因素，需要说明的是，数据重复导致数据之间存在互斥关系，是一种比较常见的场景，但是本申请中的互斥关系并不局限于数据重复这一种情形，也可能是其他冲突因素导致数据之间存在互斥关系。

对于存在互斥关系的数据，一种互斥剔除处理策略是采用贪心算法：根据一定的选取策略，例如，根据数据与用户需求的匹配度，选取某项数据，后续，通过判断选取的每项数据是否可以放入目标数据集，获得最终的目标数据集。具体的，在将某项数据加入目标数据集时，会先判断该数据与当前目标数据集中的数据是否存在重复，如果存在重复则不向目标数据集加入该项数据。

上述方案能够在一定程度上实现信息聚合，但是在从存在互斥关系的数据中选取数据时，选取的策略仅取决于数据加入目标数据集的先后，因此最终获得的目标数据集的准确程度也仅取决于数据加入的先后排序，无法保证信息聚合的准确性和可靠性。

图1A为本申请实施例一提供的一种互斥数据处理方法的流程示意图；参考图1A可知，本实施例提供了一种互斥数据处理方法，用于快速可靠地完成信息聚合。具体的，该互斥数据处理方法包括：

101、获取候选数据集中各数据的互斥属性，所述数据的互斥属性包括与该数据存在单向互斥关系的互斥数据；

102、根据各数据的互斥属性，从所述候选数据集中存在互斥关系的数据中剔除不需保留的数据，以获得目标数据集。

实际应用中，该互斥数据处理方法的执行主体可以为互斥数据处理系统。在实际应用中，该互斥数据处理系统可以通过软件代码实现，该互斥数据处理系统也可以为存储有相关执行代码的介质，例如，U盘等；或者，该互斥数据处理系统还可以为集成或安装有相关执行代码的实体装置，例如，芯片、智能终端、计算机、服务器以及各种电子设备。

其中，所述数据的互斥数据表征：当从所述数据和所述数据的互斥数据中选取需保留的数据时，则选取所述数据作为需保留的数据。所述单向互斥关系指的是两项数据之间存在互斥关系，并且这种互斥关系具备单向属性。举例来说，假设对数据A来说，数据B为与数据A存在单向互斥关系的数据之一，则表明数据B与数据A存在互斥关系，并且，数据A能够互斥掉数据B，但数据B不能互斥掉数据A，即当需要从数据A和数据B中选择一项数据作为保留下来的结果时，则选取数据A保留而剔除数据B。

结合实际场景进行示例：本申请的候选数据集可以结合实际场景获得，本申请并未对候选数据集的获取方式进行限制。例如，在搜索场景，可以基于用户提供的关键词从数据源中搜索出匹配的数据作为候选数据集。实际应用中，对于信息服务提供者(比如搜索引擎服务)，在给用户提供信息数据时，往往会先从具有互斥关系的数据中选择需要剔除的数据，例如剔除掉重复、冗余的信息，以在向用户提供最终的目标数据集时，目标数据集中不会同时出现存在互斥关系的两条数据。

具体的，存在单向互斥关系的两项数据的优先级不同，这里的优先级决定了当这两项数据同时出现在候选数据集时，需要剔除哪项数据保留哪项数据。这里的优先级可以基于需求设定，本申请的方案中，为数据源中的数据增添新的属性，即互斥属性。数据的互斥属性包括与该数据存在单向互斥关系的互斥数据，互斥属性可以预先定义和编辑。可选的，互斥属性可以由用户自定义。例如，用户面对两条存在互斥关系的数据，可以根据数据维护经验确定出相对更有用或者更加匹配用户特征的数据，相应的，对这两项数据之间的单向互斥关系进行编辑，以使更优的数据能够互斥掉另一数据。再可选的，还可以基于特定需求，结合数据分析技术对数据的互斥属性进行编辑。例如，当前的特定需求是信息量更大的数据则更优，相应的，对于存在互斥关系的两项数据，则优选信息量更大的数据，即将信息量较小的数据作为信息量较大的数据的互斥数据，以使信息量更大的数据能够互斥掉信息量较小的数据，最终获得信息量更大的数据加入目标数据集。

可以理解，基于数据的互斥属性，当需要会候选数据集中的数据进行信息聚合时，则可获取候选数据集中各项数据的互斥属性，后续基于各项数据的互斥属性进行互斥剔除处理，即从候选数据集中存在互斥关系的数据中剔除不需保留的数据(被互斥掉的数据)，从而获得最终的目标数据集。本申请的方案除了考虑到数据之间的互斥关系，还通过为数据定义互斥属性，能够结合其它维度的因素和需求，设定存在互斥关系的数据之间的优先级，从而实现基于不同的应用场景和需要快速可靠地进行信息聚合，基于本方案进行信息聚合后获得的目标数据集更能贴合实际的应用场景和需求，因此最终获得的处理结果更加精准可靠。另外，本申请中相互互斥的数据之间的优先级已经通过数据的互斥属性进行设定，因此，在从相互互斥的数据中选取数据时无需先确定数据的优先级，因此能够适用于无序的候选数据集的信息聚合。

经过上述处理后的目标数据集中已经不存在相互互斥的数据。可选的，实际应用中，还可以基于需求对经上述处理获得的目标数据集进行排序，相应的，如图1B所示，在任一实施方式的基础上，该方法还可以包括：

103、对目标数据集中的数据进行排序。

具体的，结合实际的应用场景，有时需要对提供给用户的信息数据进行排序。实际应用中，用户在互联网上访问信息类服务时，服务提供者会将需提供给用户的目标数据集中的数据按照一定策略进行排序，以尽可能帮助用户先看到自己最关注的信息，提高数据的推送效果和用户体验。可选的，本申请的方案中对目标数据集中的数据进行排序的方法可以通过多种方案实现。例如，可以对目标数据集中的多项数据，按照某一策略算出每项数据的权重后，比如以搜索场景为例，可以为每项数据与用户提供的关键词之间的匹配相关度，按照权重将目标数据集中的所有数据进行排列。

本实施例提供的互斥数据处理方法，针对候选数据集中存在互斥关系的数据，根据这些数据的互斥属性进行数据的筛选，其中，数据的互斥属性中定义了该数据能够互斥掉的数据，即本方案为数据添加了互斥属性，基于互斥属性能够从存在互斥关系的数据中确定出需要剔除的数据或者确定出需要保留下来作为最终处理结果的数据。基于本申请提供的方案，当候选数据集中有存在互斥关系的数据时，能够基于这些数据的互斥属性快速准确地进行互斥剔除处理，提高信息聚合的效率和准确性。

基于本方案中的互斥属性，可以对候选数据集中的数据进行互斥剔除处理。可选的，图2A为本申请实施例二提供的一种互斥数据处理方法的流程示意图，参考图2A可知，本实施例提供了一种互斥数据处理方法，用于结合有向图实现高效准确的信息聚合。具体的，在实施例一的基础上，102具体可以包括：

201、建立包含多个节点的有向图，多个节点与各数据一一对应；

202、针对候选数据集中每个数据，根据数据的互斥属性，建立数据对应节点指向数据的互斥数据对应节点的有向边；

203、将当前有向图中，入度为零的第一节点对应的数据添加至目标数据集；

204、删除有向图中的第一节点、第一节点指向的所有下一节点、以及与被删除的节点相关的有向边，并返回执行203，直至当前有向图中不存在节点。

具体的，有向图是计算数据结构理论中的一种数据结构。结合本方案的有向图由多个节点构成，这些节点与候选数据集中的数据一一对应，即每个节点唯一表征一项数据。作为一种示例，假设候选数据集中包含10项数据(数据A～数据J)，相应的，该示例对应的有向图可以如图3A所示，该有向图包含10个节点(节点1～节点10)，每个节点表征的数据已在节点旁边的括号中进行标注。

进一步的，上述有向图中除了表征候选数据集中的各项数据之外，还需要表明数据之间的关系，例如，单向互斥关系。具体的，本实施例中将某项数据与该数据的互斥数据之间的单向互斥关系，通过将该数据对应的节点指向该数据的互斥数据对应的节点来表征。仍结合图3A进行示例，假设候选数据集中的10项数据中，基于各项数据的互斥属性得知，数据C为数据A的互斥数据，数据B为数据C的互斥数据，数据A为数据B的互斥数据，数据F为数据E和数据G的互斥数据，数据H为数据J的互斥数据，数据I为数据H的互斥数据，则基于各项数据的互斥属性建立的有向图如图3A所示。也就是说，有向图中的有向边用于表征各数据之间的单向互斥关系。

通过前述步骤建立完成候选数据集对应的有向图后，该有向图中可能存在以下几种情形：(1)有向图中可能存在一个或者多个孤立节点，所谓的孤立节点是指没有与该孤立节点相关的有向边和节点，即该孤立节点对应的数据不与其它任一数据存在互斥关系，就会在有向图中对应形成孤立节点，例如，图3A中的节点4。(2)有向图中可能存在一个或者多个互斥节点，所谓的互斥节点是指与其它至少一个节点通过有向边连接的节点，即该互斥节点对应的数据与其它至少一个数据之间存在互斥关系，并且基于各数据的互斥属性，这种互斥关系为单向互斥关系，例如，图3A中除节点4以外的其它节点。

基于上述有向图的建立机制，可以理解，有向图中的孤立节点对应的数据与其它数据不存在互斥关系，无需进行剔除，故可以将其加入目标数据集作为待提供给用户的结果。

这里所说的某个节点的入度指的是指向该节点的有向边的数量。结合有向图的特点，入度为零的节点包括孤立节点和未被任一节点指向的节点，其对应的数据包括不与其它数据存在互斥关系的数据，以及与其它数据存在互斥关系且优先级更高的数据，这些数据在信息聚合的过程中会被保留下来作为目标数据集。

具体的，本实施方式中，在当前的有向图中找出入度为零的节点(比如图3A中的节点4、节点5、节点6、节点10)，将其对应的数据(举例中的数据D、数据E、数据G、数据J)加入目标数据集，与此对应的是，经过处理的节点(比如图3A中的节点4、节点5、节点6、节点10)需要从有向图中删除，即有向图中保留的节点均为未经过处理的节点，这里的处理包括将其对应的数据加入目标数据集，也包括将其对应的数据剔除(从候选数据集中删除或者不将其加入目标数据集)。此外，节点(比如图3A中的节点4、节点5、节点6、节点10)被删除的同时需要删除与该节点相关的有向边以及该节点指向的所有下一节点(比如图3A中节点5和节点6指向的节点7、节点10指向的节点8)，可以理解，假设某数据A与数据B和数据C均互斥，并且数据A能够互斥掉数据B和数据C，那么，将数据A加入目标数据集后，为了保证目标数据集中没有存在互斥关系的数据，数据B和数据C不会被加入目标数据集，因此，对于存在单向互斥关系的数据，假设将其中一项数据加入目标数据集，则其余与该数据存在互斥关系的数据会被剔除，相应的，这些被剔除的数据对应的节点会被删除，再相应的，指向被删除节点的有向边同样被删除。依此类推，对于每个被删除的节点，均需要一并删除该节点指向的所有下一节点以及与该节点相关的有向边。仍结合图3A所示的示例进行举例，经过首次执行203和204之后，形成如图3B所示的有向图。

可以理解，每次向目标数据集中加入入度为零的节点对应的数据后，各节点的数量和各节点之间的指向关系会发生变化，可能会导致有向图中产生新的入度为零的节点(比如图3B中的节点9)。因此，在每次执行203和204导致有向图更新后，再次返回执行203，即反复循环执行将当前的入度为零的节点对应的数据加入目标数据集并删除相关节点(入度为零的节点和入度为零的节点指向的下一节点)和相关有向边的步骤，直至所有节点及其对应的数据均被处理完毕，即有向图中不存在节点。

具体的，结合有向图进行信息聚合，能够宏观准确地反映各项数据的整体互斥情况，相比于对各项数据逐个进行处理，本实施例的方案能够避免引入数据处理的先后顺序对最终处理结果的影响，从而进一步提高处理结果的准确性和可靠性。

此外，在上述方案中，还可能存在一种特殊的情形，即基于各项数据的单向互斥关系，形成的有向图中可能会存在构成环路的多个节点，例如，图3A中的节点1、节点2和节点3。这种处于闭合环路的节点中没有入度为零的节点并且基于前述方案在有向图的更新过程中也不会产生入度为零的节点，因此针对此种情形，无法直接通过上述方案实现对这些节点的处理。

对此，图2B为为本申请实施例二提供的另一种互斥数据处理方法的流程示意图，参考图2B可知，本实施例提供了一种互斥数据处理方法，用于对形成环路的节点进行互斥剔除处理。具体的，在实施例二的基础上，所述方法还可以包括：

205、若当前有向图中不存在入度为零的第一节点，且存在形成环路的多个第二节点，则从多个第二节点中选取一个节点；

206、删除指向该节点的所有有向边或者所有上一节点，以使该节点成为入度为零的第一节点，并返回执行203。

实际应用中，在建立候选数据集对应的有向图后，基于各数据之间的单向互斥关系，可能会在有向图中形成围成环路的节点。对于这些节点，需要打破环路逻辑，以便进行互斥剔除处理。

可选的，为了打破环路逻辑，可以针对有向图中形成环路的节点，从中选取一个节点，删除指向该选取的节点的所有上一节点，以使该选中的节点成为入度为零的第一节点，以打破环路逻辑。结合图3B举例来说，假设被选取的节点为节点1，并且仅删除指向该节点的有向边，则执行一次205和206后形成如图3C所示的有向图。环路逻辑被打破后即可通过重复执行前述203和204的步骤，实现对这些节点及其对应的数据进行处理。

再可选的，由于目的仅是打破环路逻辑，故为了保证数据处理的全面性，可以针对有向图中形成环路的节点，从中选取一个节点，删除指向该选取的节点的所有有向边，而不删除指向该节点的节点，即仅打破该节点对应的数据被互斥掉的逻辑关系，而不删除之前能够互斥掉该节点对应数据的数据，同样使该选中的节点成为入度为零的第一节点，打破环路逻辑，并且能够同时避免数据直接被删除，保证数据处理的全面性。同样的，环路逻辑被打破后即可通过重复执行前述203和204的步骤，实现对这些节点及其对应的数据进行处理。

本实施方式，针对其单向互斥关系形成环路的节点，通过打破环路逻辑，形成入度为零的节点，实现对这些节点的互斥剔除处理，保证所有数据均会被处理，提高信息聚合的可靠性。

可选的，从上述形成环路的节点中选取一个节点的选取策略可以预先设定。作为一种示例，该选取策略可以基于获取候选数据集的策略确定，具体的，如图2C所示，在图2B所示实施方式的基础上，在101之前，还包括：

207、按照预设的选取策略，从数据源中选取与所述选取策略匹配的数据，以获得所述候选数据集；

相应的，205中所述从多个第二节点中选取一个节点，具体可以包括：

2051、从多个第二节点中选取与所述选取策略的匹配度最高的节点。

具体的，在通过从形成环路的节点中选取某节点来打破环路逻辑时，选取该节点的策略可以基于之前获取候选数据集的策略确定。举例来说，在搜索场景下，基于用户提供的关键词搜索到与该关键词匹配的数据作为候选数据集，后续当该候选数据集对应的有向图中存在形成环路的节点时，则从这些节点中选取出与用户提供的关键词匹配度最高的数据对应的节点，删除指向该节点的所有有向边或者所有上一节点，使该节点成为入度为零的节点，从而打破环路逻辑，实现后续对这些节点的互斥剔除处理。

本实施方式，在打破环路逻辑时，参照候选数据集的获取策略，能够选取出更加符合应用场景和需求的节点，该节点对应的数据会被加入目标数据集提供给用户，从而提高信息聚合的准确性和可靠性。

本实施例提供的互斥数据处理方法，基于候选数据集中各数据的互斥属性，通过建立对应的有向图，对有向图中的节点进行选取和更新，高效快速地完成信息聚合，并且能够保证结果的准确性和可靠性，获得更加贴合应用场景和需求的处理结果。

图4A为本申请实施例三提供的一种互斥数据处理系统的结构示意图；参考图4A可知，该互斥数据处理系统包括：

获取模块41，用于获取候选数据集中各数据的互斥属性，所述数据的互斥属性包括与该数据存在单向互斥关系的互斥数据，其中，所述数据的互斥数据表征：当从所述数据和所述数据的互斥数据中选取需保留的数据时，则选取所述数据作为需保留的数据；

处理模块42，用于根据各数据的互斥属性，从所述候选数据集中存在互斥关系的数据中剔除不需保留的数据，以获得目标数据集。

实际应用中，该互斥数据处理系统可以通过软件代码实现，该互斥数据处理系统也可以为存储有相关执行代码的介质，例如，U盘等；或者，该互斥数据处理系统还可以为集成或安装有相关执行代码的实体装置，例如，芯片、智能终端、计算机、服务器以及各种电子设备。本申请的候选数据集可以结合实际场景获得，本申请并未对候选数据集的获取方式进行限制。

实际应用中，还可以基于需求对经上述处理获得的目标数据集进行排序，相应的，如图4B所示，在任一实施方式的基础上，该系统还可以包括：

排序模块43，用于对目标数据集中的数据进行排序。

本实施例提供的互斥数据处理系统，为数据添加了互斥属性，基于互斥属性能够从存在互斥关系的数据中确定出需要剔除的数据或者确定出需要保留下来作为最终处理结果的数据。基于本申请提供的方案，当候选数据集中有存在互斥关系的数据时，能够基于这些数据的互斥属性快速准确地进行互斥剔除处理，提高信息聚合的效率和准确性。

可选的，图5A为本申请实施例四提供的一种互斥数据处理系统的结构示意图，参考图5A可知，在实施例三的基础上，处理模块42包括：

建立单元421，用于建立包含多个节点的有向图，所述多个节点与所述各数据一一对应；

建立单元421，还用于针对所述候选数据集中每个数据，根据所述数据的互斥属性，建立所述数据对应节点指向所述数据的互斥数据对应节点的有向边；

处理单元422，用于将当前有向图中，入度为零的第一节点对应的数据添加至目标数据集；

处理单元422，还用于删除有向图中的所述第一节点、所述第一节点指向的所有下一节点、以及与被删除的节点相关的有向边，并返回执行所述将当前有向图中，入度为零的第一节点对应的数据添加至目标数据集的步骤，直至当前有向图中不存在节点。

结合有向图进行信息聚合，能够宏观准确地反映各项数据的整体互斥情况，相比于对各项数据逐个进行处理，本实施例的方案能够避免引入数据处理的先后顺序对最终处理结果的影响，从而进一步提高处理结果的准确性和可靠性。

此外，在上述方案中，还可能存在一种特殊的情形，即基于各项数据的单向互斥关系，形成的有向图中可能会存在构成环路的多个节点。对此，本申请实施例四提供另一种互斥数据处理系统，在实施例二的基础上，

处理单元422，还用于若当前有向图中不存在入度为零的第一节点，且存在形成环路的多个第二节点，则从多个第二节点中选取一个节点；

处理单元422，还用于删除指向该节点的所有有向边或者所有上一节点，以使该节点成为入度为零的第一节点，并返回执行所述将当前有向图中，入度为零的第一节点对应的数据添加至目标数据集的步骤。

可选的，从上述形成环路的节点中选取一个节点的选取策略可以预先设定。作为一种示例，该选取策略可以基于获取候选数据集的策略确定，具体的，如图5B所示，在上一实施方式的基础上，所述系统还包括：

选取模块51，用于按照预设的选取策略，从数据源中选取与所述选取策略匹配的数据，以获得所述候选数据集；

处理单元422，具体用于若当前有向图中不存在入度为零的第一节点，且存在形成环路的多个第二节点，则从多个第二节点中选取与所述选取策略的匹配度最高的节点。

本实施例提供的互斥数据处理系统，基于候选数据集中各数据的互斥属性，通过建立对应的有向图，对有向图中的节点进行选取和更新，高效快速地完成信息聚合，并且能够保证结果的准确性和可靠性，获得更加贴合应用场景和需求的处理结果。

为了更好理解本方案，图6为本申请实施例五提供的互斥数据处理方法的流程示意图，如图6所示，该方法包括：

601、提供候选数据集，获取候选数据集中各数据的互斥属性，执行602；

这里对挑选数据进入候选数据集的策略不做限定，通常的，可以根据用户需求的匹配度进行选取，另外这里的候选数据集可以不用考虑顺序，即候选数据集可以为无序数据集合；

602、根据候选数据集中各数据的互斥属性，建立有向图，执行603；

结合前述实施例二的内容，候选数据集中的每一项数据唯一对应有向图中的一个节点。并且举例来说，如果数据A能够互斥掉数据B，那么有向图中A节点就有一条指向B节点的有向边；

603、将当前有向图中，入度为零的第一节点对应的数据添加至目标数据集，执行604；

604、删除有向图中的第一节点、第一节点指向的所有下一节点、以及与被删除的节点相关的有向边；根据判定条件，决定执行605或者606或者607；

605、若当前有向图中不存在节点，则执行609，否则执行606；

606、若当前有向图中存在入度为零的节点(第一节点)，则返回执行603，否则，执行607；

607、若当前有向图中存在形成环路的多个节点(第二节点)，则从多个第二节点中选取一个节点，并执行608；

608、删除指向该节点的所有有向边或者所有上一节点，并返回执行603。

609、对目标数据集中的数据进行排序。

本实施例中的具体实施方案可以参照前述实施例的内容，在此不再赘述。本实施例提供的互斥数据处理方法，为数据添加了互斥属性，基于互斥属性能够从存在互斥关系的数据中确定出需要剔除的数据或者确定出需要保留下来作为最终处理结果的数据。基于本申请提供的方案，当候选数据集中有存在互斥关系的数据时，能够基于这些数据的互斥属性快速准确地进行互斥剔除处理，提高信息聚合的效率和准确性。

图7为本申请实施例六提供的互斥数据处理系统的结构示意图，如图7所示，该互斥数据处理系统700包括至少一个处理器701、存储器702和通信接口703均通过总线704连接；存储器702存储计算机程序；至少一个处理器701执行存储器702存储的计算机程序，使得互斥数据处理系统通过通信接口703与外部的服务器进行数据交互来执行前述任一实施例的方法。

在上述互斥数据处理系统700的处理器701，可以包括不同类型的处理器，或者包括相同类型的处理器；处理器可以是以下的任一种：中央处理器(Central ProcessingUnit，简称CPU)、ARM处理器、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、专用处理器等具有计算处理能力的器件。一种可选实施方式，至少一个处理器还可以集成为众核处理器。

在上述互斥数据处理系统700中的存储器702可以是以下的任一种或任一种组合：随机存取存储器(Random Access Memory，简称RAM)、只读存储器(read only memory，简称ROM)、非易失性存储器(non-volatile memory，简称NVM)、固态硬盘(Solid State Drives，简称SSD)、机械硬盘、磁盘、磁盘整列等存储介质。

通信接口703用于互斥数据处理系统700与其他设备进行数据交互。通信接口可以是以下的任一种或任一种组合：网络接口(例如以太网接口)、无线网卡等具有网络接入功能的器件。

总线可以包括地址总线、数据总线、控制总线等，为便于表示，图中用一条粗线表示该总线。该总线可以是以下的任一种或任一种组合：工业标准体系结构(IndustryStandard Architecture，简称ISA)总线、外设组件互连标准(Peripheral ComponentInterconnect，简称PCI)总线、扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等有线数据传输的器件。

本申请还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，当处理器执行该计算机程序时，实现上述任一项实施例中的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。需要说明的是，本申请中的各实施方式可以单独实施，也可以在不冲突的前提下结合实施。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种互斥数据处理方法，其特征在于，包括：

获取候选数据集中各数据的互斥属性，所述数据的互斥属性包括与该数据存在单向互斥关系的互斥数据，其中，所述数据的互斥数据表征：当从所述数据和所述数据的互斥数据中选取需保留的数据时，则选取所述数据作为需保留的数据；

根据各数据的互斥属性，从所述候选数据集中存在互斥关系的数据中剔除不需保留的数据，以获得目标数据集。

2.根据权利要求1所述的方法，其特征在于，所述根据各数据的互斥属性，从所述候选数据集中存在互斥关系的数据中剔除不需保留的数据，以获得目标数据集，包括：

建立包含多个节点的有向图，所述多个节点与所述各数据一一对应；

针对所述候选数据集中每个数据，根据所述数据的互斥属性，建立所述数据对应节点指向所述数据的互斥数据对应节点的有向边；

将当前有向图中，入度为零的第一节点对应的数据添加至目标数据集；

删除有向图中的所述第一节点、所述第一节点指向的所有下一节点、以及与被删除的节点相关的有向边，并返回执行所述将当前有向图中，入度为零的第一节点对应的数据添加至目标数据集的步骤，直至当前有向图中不存在节点。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

若当前有向图中不存在入度为零的第一节点，且存在形成环路的多个第二节点，则从多个第二节点中选取一个节点；

删除指向该节点的所有有向边或者所有上一节点，以使该节点成为入度为零的第一节点，并返回执行所述将当前有向图中，入度为零的第一节点对应的数据添加至目标数据集的步骤。

4.根据权利要求2所述的方法，其特征在于，所述获取候选数据集中各数据的互斥属性之前，还包括：

按照预设的选取策略，从数据源中选取与所述选取策略匹配的数据，以获得所述候选数据集；

所述从多个第二节点中选取一个节点，包括：

从多个第二节点中选取与所述选取策略的匹配度最高的节点。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述方法还包括：

对目标数据集中的数据进行排序。

6.一种互斥数据处理系统，其特征在于，包括：

获取模块，用于获取候选数据集中各数据的互斥属性，所述数据的互斥属性包括与该数据存在单向互斥关系的互斥数据，其中，所述数据的互斥数据表征：当从所述数据和所述数据的互斥数据中选取需保留的数据时，则选取所述数据作为需保留的数据；

处理模块，用于根据各数据的互斥属性，从所述候选数据集中存在互斥关系的数据中剔除不需保留的数据，以获得目标数据集。

7.根据权利要求6所述的系统，其特征在于，所述处理模块包括：

建立单元，用于建立包含多个节点的有向图，所述多个节点与所述各数据一一对应；

所述建立单元，还用于针对所述候选数据集中每个数据，根据所述数据的互斥属性，建立所述数据对应节点指向所述数据的互斥数据对应节点的有向边；

处理单元，用于将当前有向图中，入度为零的第一节点对应的数据添加至目标数据集；

所述处理单元，还用于删除有向图中的所述第一节点、所述第一节点指向的所有下一节点、以及与被删除的节点相关的有向边，并返回执行所述将当前有向图中，入度为零的第一节点对应的数据添加至目标数据集的步骤，直至当前有向图中不存在节点。

8.根据权利要求7所述的系统，其特征在于，

所述处理单元，还用于若当前有向图中不存在入度为零的第一节点，且存在形成环路的多个第二节点，则从多个第二节点中选取一个节点；

所述处理单元，还用于删除指向该节点的所有有向边或者所有上一节点，以使该节点成为入度为零的第一节点，并返回执行所述将当前有向图中，入度为零的第一节点对应的数据添加至目标数据集的步骤。

9.根据权利要求7所述的系统，其特征在于，所述系统还包括：

选取模块，用于按照预设的选取策略，从数据源中选取与所述选取策略匹配的数据，以获得所述候选数据集；

所述处理单元，具体用于若当前有向图中不存在入度为零的第一节点，且存在形成环路的多个第二节点，则从多个第二节点中选取与所述选取策略的匹配度最高的节点。

10.根据权利要求6-9中任一项所述的系统，其特征在于，所述系统还包括：

排序模块，用于对目标数据集中的数据进行排序。

11.一种互斥数据处理系统，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机程序；所述至少一个处理器执行所述存储器存储的计算机程序，以执行如权利要求1-5中任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，该计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5中任一项所述的方法。