CN110321435B

CN110321435B - 一种数据源划分方法、装置、设备和存储介质

Info

Publication number: CN110321435B
Application number: CN201910578360.2A
Authority: CN
Inventors: 宋宇航; 云兴海
Original assignee: JD Digital Technology Holdings Co Ltd
Current assignee: JD Digital Technology Holdings Co Ltd; Jingdong Technology Holding Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2020-09-29
Anticipated expiration: 2039-06-28
Also published as: CN110321435A

Abstract

本发明实施例公开了一种数据源划分方法、装置、设备和存储介质，该方法包括：获取多个数据源对应的数据库信息；对每个数据源对应的数据库信息进行分词处理，并根据分词结果确定每个数据源对应的第一特征集；根据各第一特征集中的各个第一特征词，确定两两数据源之间的相似度，并根据各相似度和预设聚类算法对各数据源进行聚类，确定各数据源集合；在数据源集合的数量等于预设业务目录的数量时，将每个数据源集合划分至相应的预设业务目录下。通过本发明实施例的技术方案，可以实现数据源的自动合理划分，提高划分准确性。

Description

一种数据源划分方法、装置、设备和存储介质

技术领域

本发明实施例涉及数据处理技术，尤其涉及一种数据源划分方法、装置、设备和存储介质。

背景技术

目前，越来越多的行业每天会产生大量的数据，比如电商行业每天产生的大量数据可以包括业务、系统、流量、用户等不同主题不同类型的数据。

通常，开发人员需要调研数据来源，以便进行项目开发。可见，大量的数据调研会大大增加开发人员的工作量，降低数据使用效率。针对于此，现有技术中，往往是通过数据库开发人员的人工维护，在申请创建数据源时，将每个数据源手动划分至现有的业务目录中。

然而，在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

现有的数据源划分方式是基于开发人员的经验手动进行划分的，从而增加了运维成本，同时也降低了划分准确性。并且当业务变更时，无法及时变更该业务目录下的数据源，从而导致无法适应于不同业务频繁变更的情况。

发明内容

本发明实施例提供了一种数据源划分方法、装置、设备和存储介质，以实现数据源的自动合理划分，提高划分准确性。

第一方面，本发明实施例提供了一种数据源划分方法，包括：

获取多个数据源对应的数据库信息；

对每个所述数据源对应的数据库信息进行分词处理，并根据分词结果确定每个所述数据源对应的第一特征集；

根据各所述第一特征集中的各个第一特征词，确定两两数据源之间的相似度，并根据各所述相似度和预设聚类算法对各所述数据源进行聚类，确定各数据源集合；

在所述数据源集合的数量等于预设业务目录的数量时，将每个所述数据源集合划分至相应的预设业务目录下。

第二方面，本发明实施例还提供了一种数据源划分装置，包括：

数据库信息获取模块，用于获取多个数据源对应的数据库信息；

第一特征集确定模块，用于对每个所述数据源对应的数据库信息进行分词处理，并根据分词结果确定每个所述数据源对应的第一特征集；

数据源集合确定模块，用于根据各所述第一特征集中的各个第一特征词，确定两两数据源之间的相似度，并根据各所述相似度和预设聚类算法对各所述数据源进行聚类，确定各数据源集合；

数据源集合划分模块，用于在所述数据源集合的数量等于预设业务目录的数量时，将每个所述数据源集合划分至相应的预设业务目录下。

第三方面，本发明实施例还提供了一种设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所提供的数据源划分方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如本发明任意实施例所提供的数据源划分方法。

上述发明中的实施例具有如下优点或有益效果：

通过对每个数据源对应的数据库信息进行分词处理，根据分词结果确定每个数据源对应的第一特征集；根据各第一特征集中的各个第一特征词确定两两数据源之间的相似度，并根据各相似度和预设聚类算法对各数据源进行聚类确定各数据源集合，从而可以将所有数据源按照共同属性进行自动分类，获得各个数据源集合，并在数据源集合的数量等于预设业务目录的数量时，表明聚类结果收敛，此时可以确定每个数据源集合对应的预设业务目录，并将每个数据源集合自动划分至相应的预设业务目录下，从而将现有技术中对每个数据源进行逐个划分的方式转变为对每个数据源集合进行集体划分的方式，大大降低了划分任务量，并实现了数据源的自动划分，提高了划分准确度。

附图说明

图1是本发明实施例一提供的一种数据源划分方法的流程图；

图2是本发明实施例二提供的一种数据源划分方法的流程图；

图3是本发明实施例二所涉及的一种数据源对应的目标字符串的示例；

图4是本发明实施例三提供的一种数据源划分装置的结构示意图；

图5是本发明实施例四提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种数据源划分方法的流程图，本实施例可适用于将所有的数据源划分至相应的业务目录的情况，该方法可以由数据源划分装置来执行，该装置可以由软件和/或硬件的方式来实现，集成于具有数据处理功能的设备中，比如台式电脑、笔记本电脑等。如图1所示，该方法具体包括以下步骤：

S110、获取多个数据源对应的数据库信息。

其中，数据源可以是指用于描述数据库的信息，以便可以根据数据源获得相应的数据库。数据源与数据库是一一对应关系。数据源对应的数据库信息可以是指数据源的库表信息，其可以包括但不限于数据库类型、数据库名称、数据库中的各个表英文名和各个表中文名。示例性地，数据库类型可以为MySQL，Oracle，SqlServer，MongoDB等。

具体地，可以基于当前系统中各个上线数据库，获得当前时刻所有数据源所对应的数据库信息。需要注意的是，本实施例中数据源对应的数据库信息可以基于业务需求或实际场景等情况进行实时更新或者不定期更新。当前系统中的数据源数量也可以随着数据库数量的变化而变化。

S120、对每个数据源对应的数据库信息进行分词处理，并根据分词结果确定每个数据源对应的第一特征集。

其中，第一特征集可以指由数据库信息进行分词后获得的各个特征词组成的集合。

具体地，对于每个数据源对应的数据库信息而言，本实施例可以基于分词词典，对每个数据库信息进行分词处理，比如识别专有名称、中文分词、英文分词以及剔除没有语义的停用词，从而可以获得数据源对应的各个特征词，并将各个特征词组合为数据源对应的第一特征集。

示例性地，S120可以包括：对每个数据源对应的数据库信息中的各个字符串进行分词处理，获得每个数据源对应的各个特征词；统计每个数据源对应的每个特征词对应的第二出现频率，并根据各第二出现频率，对数据源对应的各个特征词进行降序排列；在排列后的各个特征词中，将前预设数量的特征词作为第一特征词，并将各第一特征词组合为数据源对应的第一特征集。

其中，第二出现频率是指特征词在同一数据源中的出现频率。本实施例中的某个特征词可以在同一数据源中出现多次，从而需要统计每个特征词所对应的第二出现频率。预设数量可以基于业务需求和实际场景预先进行设置。示例性地，预设数量可以设置为20。

具体地，本实施例中的数据库信息可以以字符串的形式存在。对于每个数据源而言，可以对该数据源对应的所有字符串进行分词处理，获得该数据源对应的所有特征词，并统计每个特征词在该数据源中的第二出现频率，获得每个特征词对应的第二出现频率，并通过将每个特征词对应的第二出现频率进行降序排列，从而实现对各个特征词的排列，以使排列后的各个特征词所对应的第二出现频率依次降低。对于排序后的各个特征词，将前预设数量的特征词作为第一特征词，并将所有第一特征词组合为数据源对应的第一特征集，此时第一特征集仅包括第二出现频率最高的预设数量的特征词，该第一特征集可以称为频繁项集，以便后续基于该第一特征集可以更加准确地确定出数据源之间的相似度。同理，可以获得每个数据源对应的第一特征集。

S130、根据各第一特征集中的各个第一特征词，确定两两数据源之间的相似度，并根据各相似度和预设聚类算法对各数据源进行聚类，确定各数据源集合。

其中，两两数据源之间的相似度可以是指在所有数据源中，任意两个数据源之间的相似程度。预设聚类算法可以是基于业务场景预先进行设置，其可以是但不限于clique渗透算法。数据源集合可以是由具有共同属性的数据源所组成的集合。

具体地，本实施例可以通过比较每个数据源对应的第一特征集的相似程度，确定出任意两个数据源之间的相似度。基于预设聚类算法和两两数据源之间的相似度，对所有数据源进行聚类，使得每个数据源集合中的任意两个数据源之间的相似度均符合预设相似条件，从而可以确定出多个数据源集合。

示例性地，S130中“根据各第一特征集中的各个第一特征词，确定两两数据源之间的相似度”，可以包括：根据各第一特征集中的各个第一特征词，确定每个数据源对应的目标字符串；根据两两目标字符串之间的编辑距离和每个目标字符串对应的字符长度，确定两两数据源之间的相似度。

其中，目标字符串可以是由第一特征集中的各个第一特征词进行拼接获得的字符串。两两目标字符串之间的编辑距离(也称为莱文斯坦距离Levenshtein Distance)可以是指一个目标字符串转化为另一个目标字符串所需最少的编辑操作次数，许可的编辑操作可以包括将一个字符替换为另一个字符，插入一个字符和删除一个字符。目标字符串对应的字符长度可以是指目标字符串中的字符个数。

具体地，本实施例在获得每个数据源对应的目标字符串时，可以基于预设编辑距离算法确定出任意两个目标字符串之间的编辑距离，并通过编辑距离和目标字符串对应的字符长度可以更加准确地确定出两两数据源之间的相似度。通常，两个目标字符串之间的编辑距离越小，则表示这两个目标字符串之间的相似度越高。

S140、在数据源集合的数量等于预设业务目录的数量时，将每个数据源集合划分至相应的预设业务目录下。

其中，预设业务目录可以是指预设业务在存储相应的数据源信息时所对应的存储位置。每个预设业务均对应一个预设业务目录。本实施例中的预设业务和预设业务目录均可以基于业务场景预先进行设置。示例性地，电商生产系统可以包括多个预设业务，比如电商业务、线上商品业务、线下商品业务等。预设业务目录的数量可以根据当前系统中预设业务的数量进行确定。

具体地，通过检测获得的数据源集合的数量是否等于预设业务目录的数量，确定聚类结果是否收敛。当数据源集合的数量等于预设业务目录的数量时，表明聚类结果收敛到设定的阈值，此时可以基于数据源集合的共有属性，确定出每个数据源集合对应的预设业务目录，将每个数据源集合自动划分至相应的预设业务目录下，从而实现了数据源的自动划分，提高了划分准确度，并且将现有技术中对每个数据源进行逐个划分的方式转变为对每个数据源集合进行集体划分的方式，比如可以将5000个数据源分类为500个数据源集合，并针对于数据源集合进行划分，从而大大降低了划分任务量，减少了人工维护的成本。而且，开发人员在后续开发过程中，可以快速获得某个预设业务所对应的所有数据源信息，有效减少了开发人员在调研数据源过程中花费的时间和沟通成本，同时可以对不同系统的数据使用情况有总体的把握，提高了数据使用效率，并降低了开发维护成本。

需要说明的是，当数据源集合的数量不等于预设业务目录的数量时，表明聚类结果未收敛到设定的阈值，此时可以调整预设数量等其他参数，并基于调整后的参数值，重新执行步骤S120-S140的操作，直到获得的数据源集合的数量等于预设业务目录的数量。

本实施例的技术方案，通过对每个数据源对应的数据库信息进行分词处理，根据分词结果确定每个数据源对应的第一特征集；根据各第一特征集中的各个第一特征词确定两两数据源之间的相似度，并根据各相似度和预设聚类算法对各数据源进行聚类确定各数据源集合，从而可以将所有数据源按照共同属性进行自动分类，获得各个数据源集合，并在数据源集合的数量等于预设业务目录的数量时，表明聚类结果收敛，此时可以确定每个数据源集合对应的预设业务目录，并将每个数据源集合自动划分至相应的预设业务目录下，从而将现有技术中对每个数据源进行逐个划分的方式转变为对每个数据源集合进行集体划分的方式，大大降低了划分任务量，并实现了数据源的自动划分，提高了划分准确度。

在上述技术方案的基础上，S140可以包括：获取上次数据源划分后每个预设业务目录对应的上一数据源集合；根据各上一数据源集合中的每个上一数据源对应的上一预设业务目录，确定当次数据源划分获得的每个当前数据源集合中的当前数据源对应的当前预设业务目录；统计每个当前预设业务目录对应的第一出现频率，其中第一出现频率为当前预设业务目录在同一当前数据源集合中的出现频率；将第一出现频率最高的当前预设业务目录确定为当前数据源对应的目标预设业务目录，并将当前数据源集合划分至目标预设业务目录下。

具体地，当增加新的数据源、删除原有数据源或者更新数据库信息等情况时，可以通过重新执行步骤S110-S140的操作，将当前所有的数据源划分至相应的预设业务目录下，并且可以根据上次数据源划分的结果自动确定出当前数据源划分的结果。示例性地，在进行当次数据源划分时，可以获得上次数据源划分的结果，即每个预设业务目录所存储的上一数据源集合，并基于该信息，可以获得每个上一数据源所对应的上一预设业务目录。基于上一数据源与上一预设业务目录之间的对应关系，可以确定出当次数据源划分获得的每个当前数据源集合中的每个当前数据源对应的当前预设业务目录，比如在某个当前数据源与某个上一数据源相同时，则可以将该上一数据源对应的上一预设业务目录作为该当前数据源对应的当前预设业务目录。对于每个当前数据源集合而言，可以根据该当前数据源集合中的每个当前数据源对应的当前预设业务目录，确定每个当前预设业务目录在该当前数据源集合中的第一出现频率，并获得最高的第一出现频率所对应的当前预设业务目录，并将该当前预设业务目录作为该数据源集合对应的预设业务目录，即目标预设业务目录，从而可以根据上次数据源划分的结果自动确定出当前数据源划分时，每个当前数据源集合对应的目标预设业务目录，并将当前数据源集合划分至目标预设业务目录下，进一步实现了数据源划分的自动化。

需要说明的是，在第一次数据源划分时，可以基于数据源集合的共有属性，人工确定出每个数据源集合对应的预设业务目录，并将每个数据源集合自动划分至相应的预设业务目录下；在后续的数据源划分时，可以基于上次数据源划分的结果自动确定出当前数据源划分的结果。

实施例二

图2为本发明实施例二提供的一种数据源划分方法的流程图，本实施例在上述实施例的基础上，对两两数据源之间的相似度的确定过程以及在预设聚类算法为clique渗透算法时的聚类过程进行了详细描述。其中与上述各实施例相同或相应的术语的解释在此不再赘述。

参见图2，本实施例提供的数据源划分方法具体包括以下步骤：

S210、获取多个数据源对应的数据库信息。

S220、对每个数据源对应的数据库信息进行分词处理，并根据分词结果确定每个数据源对应的第一特征集。

S230、统计各第一特征集中的每个第一特征词对应的第三出现概率，其中第三出现概率是指第一特征词在不同第一特征集中的出现概率。

其中，第一特征集可以是由互不相同的第一特征词组成的。不同的第一特征集中可以存在相同的第一特征词，从而可以统计出各第一特征集中的各个第一特征词在所有第一特征集中的第三出现频率。

S240、在每个第一特征集中，将高于预设频率的第三出现频率所对应的第一特征词进行删除，获得相应的第二特征集。

其中，预设频率可以是基于业务场景和实际需求预先确定的。

具体地，根据每个第一特征词对应的第三出现频率，可以将第三出现频率高于预设频率的第一特征词进行删除，并将删除后获得的第一特征集确定为该数据源对应的第二特征集，此时第二特征集中的每个第二特征词对应的第三出现频率均小于或等于预设频率。本实施例中不同的预设业务均可能存在第三出现频率高的第一特征词，比如，线上商品业务和线下商品业务均存在“订单”这个第一特征词，从而需要将第三出现频率高的第一特征词进行删除，以避免无法识别出该数据源所对应的唯一预设业务目录，进一步提高划分的准确性。

S250、将第二特征集中的各个第二特征词进行拼接，获得数据源对应的目标字符串。

示例性地，S250可以包括：基于第二特征集中的每个第二特征词对应的第三出现频率，将各第二特征词进行降序排列；将排列后的各第二特征词依次进行拼接，获得数据源对应的目标字符串。

具体地，本实施例可以将第二特征集中的各个第二特征词直接进行拼接；也可以基于第二特征词对应的第三出现频率，将各个第二特征词按照第三出现频率从大到小的顺序进行拼接，以便提高计算相似度的准确性。示例性地，图3给出了一种数据源对应的目标字符串的示例。图3中的schema_name表示的是数据源对应的数据库名称；type表示的是数据库类型；attribute表示的是数据源对应的目标字符串。数据源与目标字符串之间的对应关系可以以Map的形式进行存储，即Map(数据源，目标字符串)，比如某个数据源datasource_1与相应的目标字符串Attr_1可以表示为：Map(datasource_1，Attr_1)。

S260、根据两两目标字符串之间的编辑距离和每个目标字符串对应的字符长度，确定两两数据源之间的相似度。

示例性地，可以基于如下公式确定两两数据源之间的相似度：

其中，R_i,j是数据源i与数据源j之间的相似度；L_i是数据源i对应的目标字符串S_i的字符长度；L_j是数据源j对应的目标字符串S_j的字符长度；D(S_i,S_j)是目标字符串S_i和S_j之间的编辑距离。

示例性地，两两数据源之间的相似度可以以矩阵形式进行存储，以便于数据筛选和查找。比如，当存在6个数据源时，这6个数据源对应的相似度矩阵可以表示为：

S270、将各数据源作为顶点，并将相似度大于预设相似度的两个数据源所对应的顶点进行连线，确定连通图。

其中，连通图可以是指以各个数据源为顶点，并将满足预设条件的顶点进行连线所组成的无向图。预设相似度可以是根据业务需求和场景预先进行设置。

具体地，在确定任意两个数据源之间的相似度之后，将每两个数据源(即数据源对)之间的相似度与预设相似度进行比较，若该相似度大于或等于预设相似度，则保留该数据源对(datasource_1,datasource_2)，否则删除该数据源对(datasource_1，datasource_2)，从而可以筛选出相似度大于预设相似度的数据源对的集合，比如{(datasource_1,datasource_2),(datasource_1,datasource_3),(datasource_2,datasource_4)…(datasource_n,datasource_m)}。将各个数据源作为连通图的顶点，并基于筛选出的数据源对，将相应的顶点进行连线，从而可以获得连通图。

S280、确定连通图中的各个目标子图，目标子图中的两两顶点之间均存在连线。

其中，目标子图可以是指连通图中任意两个顶点之间均存在连线时所对应的子图。示例性地，若目标子图中的顶点数量为k，则该目标子图可以称为一个k-clique。

具体地，基于clique渗透算法可以确定出各数据源对应的社区，以便对各数据源进行分类。根据连通图中顶点之间的连线情况，可以获得连通图中的各个目标子图。

S290、根据每个目标子图中的顶点数量，确定各个目标子图对，其中，目标子图对中的两个目标子图具有相同的顶点总数量，且共有顶点的数量比顶点总数量少1。

具体地，在确定连通图中的各个目标子图k-clique后，可以检测任意两个目标子图k-clique之间是否存在k-1个共有顶点，若存在，则表明这两个目标子图是“相邻”的，此时可以确定这两个目标子图为一个目标子图对，从而可以确定出所有的目标子图对。

S291、将具有相同顶点总数量的目标子图对组合为一个数据源集合。

具体地，获取具有相同顶点总数量的目标子图对，并将这些目标子图对中的所有顶点对应的数据源组合为一个数据源集合，即一个社区，从而可以确定出所有的数据源集合。

需要说明的是，由于基于clique渗透算法确定的社区是可以重合的，也就是说某个顶点可以同时属于多个社区，从而不同的数据源集合可以包括相同的数据源，即某个数据源可以同时在多个数据源集合中。

S292、在数据源集合的数量等于预设业务目录的数量时，将每个数据源集合划分至相应的预设业务目录下。

示例性地，在数据源集合的数量不等于预设业务目录的数量时，调整预设相似度，并根据调整后的预设相似度重新确定和划分各数据源集合。

具体地，当检测到数据源集合的数量不等于预设业务目录的数量时，可以通过调整预设相似度、预设数量和/或预设频率的大小，并基于调整后的预设相似度、预设数量和/或预设频率，重新确定各个数据源集合，并在数据源集合的数量等于预设业务目录的数量时，将每个数据源集合划分至相应的预设业务目录下。示例性地，当数据源集合的数量小于预设业务目录的数量时，可以通过增加预设相似度、增加预设数量和/或增加预设频率的方式，使得聚类结果收敛。

本实施例的技术方案，通过基于每个第一特征词对应的第三出现频率，将第三出现频率高于预设频率的第一特征词进行删除，获得数据源对应的第二特征集，从而可以避免无法识别出数据源所对应的唯一预设业务目录，进一步提高数据划分的准确性。并且通过基于clique渗透算法对各数据源进行分类，将数据源目录划分映射为clique渗透算法对应的社区发现问题，从而有效地利用了数据源对应的数据库信息，减少数据研发人员查找、调研和沟通成本，从而提高数据使用效率。

示例性地，在基于clique渗透算法对数据源分类时，clique渗透算法是一种子空间聚类方式，并且应用基于网格的聚类方法，clique聚类算法的核心思想有以下两点：

(1)、处理一个多维空间数据对象的集合，数据对象在数据空间中分布不均匀，该算法区分空间中的稀疏的和密集的区域，从而发现空间数据对象集合的全局分布模式。

(2)、如果一个单元中包含的数据对象点数超过了某个输入的参数，该单元被定义为密集单元，在clique算法中，相连的密集单元的最大集合就被定义为社区，即聚类结果。

示例性地，clique渗透算法的具体步骤如下：

(1)、识别包含社区的子空间：首先遍历一次连通图中的各顶点数据，得到维度为1的稠密网格单元，然后再按以下步骤产生候选的k维稠密网格单元，得到候选的k维稠密网格单元后，再遍历一次顶点数据集来确定实际真正的k维稠密网格单元，重复上述操作直到不再产生候选的稠密单元为止。

insert into C_k

select u₁·[l₁，h₁)，u₂·[l₂，h₂)，...

u₁·[l_k-1，h_k-1)，u₂·[l_k-1，h_k-2)

from D_k-1 u₁，D_k-1 u₂

where u₁·a₁＝u₂·a₁，u₁·l₁＝u₂·l₁，u₁·h₁＝u₂·h₁，

u₁·a₂＝u₂·a₁，u₁·l₂＝u₂·l₂，u₁·h₂＝u₂·h₂，...，

u₁·a_k-2＝u₂·a_k-2，u₁·l_k-2＝u₂·l_k-2，u₁·h_k-2＝u₂·h_k-2，

u₁·a_k-1＜u₂·a_k-1

以上步骤将所有k-1维稠密网格单元的集合D_k-1作为参数，最终得到一个包含所有k维稠密网格单元集合的超集C_k，其中，u_i代表第i个稠密的k-1维网格单元，a_j代表u_i的第j个维，而u_i·h_j和u_i·l_j分别代表u_i所在的第j个维的网格上界和下界。where中的伪代码用于筛选两个相似的k-1维稠密网格单元，它们在k-2个维度上是相同的，然后将它们组成一个候选的k维稠密网格单元。

(2)、社区识别的方法与基于网格的聚类相同，都是将邻接的稠密网格单元结合成为一个社区，具体的说，基于“深度优先原则”，先从k维稠密单元集合C_k中随机选出一个稠密的网格单元，并将它单独初始化为一个社区，之后遍历C_k将与该单元邻接的稠密单元划分到这个社区中，如果遍历完成后仍存在没有被划分的单元，那么在这些单元中随机再取出一个作为新的社区，然后重复以上步骤，直到所有的单元均有各自的社区隶属为止。

(3)、产生社区的“最小描述”：该过程是将某个k维子空间S中的多个互斥的社区(稠密网格单元集合)作为输入，输出的是社区的“最小描述”，这个“最小描述”是一个区域的集合R，其中每个区域都包含在稠密网格单元集合C_k中，并且C_k中的每个稠密单元都要至少属于这些区域中的一个，这显然是一个NP-hard问题，其具体可以分为两步：

a.使用“贪心增长算法”，获得覆盖每个社区的最大区域；

b.通过丢弃被重复覆盖的网格单元，得到社区的“最小描述”。

以下是本发明实施例提供的数据源划分装置的实施例，该装置与上述各实施例的数据源划分方法属于同一个发明构思，在数据源划分装置的实施例中未详尽描述的细节内容，可以参考上述数据源划分方法的实施例。

实施例三

图4为本发明实施例三提供的一种数据源划分装置的结构示意图，本实施例可适用于将所有的数据源划分至相应的业务目录的情况，该装置具体包括：数据库信息获取模块310、第一特征集确定模块320、数据源集合确定模块330和数据源集合划分模块340。

其中，数据库信息获取模块310，用于获取多个数据源对应的数据库信息；第一特征集确定模块320，用于对每个数据源对应的数据库信息进行分词处理，并根据分词结果确定每个数据源对应的第一特征集；数据源集合确定模块330，用于根据各第一特征集中的各个第一特征词，确定两两数据源之间的相似度，并根据各相似度和预设聚类算法对各数据源进行聚类，确定各数据源集合；数据源集合划分模块340，用于在数据源集合的数量等于预设业务目录的数量时，将每个数据源集合划分至相应的预设业务目录下。

可选地，数据源集合划分模块340，具体用于：获取上次数据源划分后每个预设业务目录对应的上一数据源集合；根据各上一数据源集合中的每个上一数据源对应的上一预设业务目录，确定当次数据源划分获得的每个当前数据源集合中的当前数据源对应的当前预设业务目录；统计每个当前预设业务目录对应的第一出现频率，其中第一出现频率为当前预设业务目录在同一当前数据源集合中的出现频率；将第一出现频率最高的当前预设业务目录确定为当前数据源对应的目标预设业务目录，并将当前数据源集合划分至目标预设业务目录下。

可选地，第一特征集确定模块320，具体用于：对每个数据源对应的数据库信息中的各个字符串进行分词处理，获得每个数据源对应的各个特征词；统计每个数据源对应的每个特征词对应的第二出现频率，并根据各第二出现频率，对数据源对应的各个特征词进行降序排列，其中第二出现频率是指特征词在同一数据源中的出现频率；在排列后的各个特征词中，将前预设数量的特征词作为第一特征词，并将各第一特征词组合为数据源对应的第一特征集。

可选地，数据源集合确定模块330包括相似度确定子模块，相似度确定子模块包括：

目标字符串确定单元，用于根据各第一特征集中的各个第一特征词，确定每个数据源对应的目标字符串；

相似度确定单元，用于根据两两目标字符串之间的编辑距离和每个目标字符串对应的字符长度，确定两两数据源之间的相似度。

可选地，目标字符串确定单元，包括：

第三出现概率统计子单元，用于统计各第一特征集中的每个第一特征词对应的第三出现概率，其中第三出现概率是指第一特征词在不同第一特征集中的出现概率；

第二特征集获得子单元，用于在每个第一特征集中，将高于预设频率的第三出现频率所对应的第一特征词进行删除，获得相应的第二特征集；

目标字符串获得子单元，用于将第二特征集中的各个第二特征词进行拼接，获得数据源对应的目标字符串。

可选地，目标字符串获得子单元，具体用于：基于第二特征集中的每个第二特征词对应的第三出现频率，将各第二特征词进行降序排列；将排列后的各第二特征词依次进行拼接，获得数据源对应的目标字符串。

可选地，基于如下公式确定两两数据源之间的相似度：

可选地，预设聚类算法为clique渗透算法；相应地，数据源集合确定模块330，具体用于：

将各数据源作为顶点，并将相似度大于预设相似度的两个数据源所对应的顶点进行连线，确定连通图；确定连通图中的各个目标子图，目标子图中的两两顶点之间均存在连线；根据每个目标子图中的顶点数量，确定各个目标子图对，其中，目标子图对中的两个目标子图具有相同的顶点总数量，且共有顶点的数量比顶点总数量少1；将具有相同顶点总数量的目标子图对组合为一个数据源集合。

可选地，数据源集合划分模块340，还用于：在数据源集合的数量不等于预设业务目录的数量时，调整预设相似度，并根据调整后的预设相似度重新确定和划分各数据源集合。

本发明实施例所提供的数据源划分装置可执行本发明任意实施例所提供的数据源划分方法，具备执行数据源划分方法相应的功能模块和有益效果。

实施例四

图5为本发明实施例四提供的一种设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性设备12的框图。图5显示的设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如系统存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该设备12交互的设备通信，和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与设备12的其它模块通信。应当明白，尽管图中未示出，可以结合设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发实施例所提供的数据源划分方法步骤，该方法包括：

获取多个数据源对应的数据库信息；

对每个数据源对应的数据库信息进行分词处理，并根据分词结果确定每个数据源对应的第一特征集；

根据各第一特征集中的各个第一特征词，确定两两数据源之间的相似度，并根据各相似度和预设聚类算法对各数据源进行聚类，确定各数据源集合；

在数据源集合的数量等于预设业务目录的数量时，将每个数据源集合划分至相应的预设业务目录下。

当然，本领域技术人员可以理解，处理器还可以实现本发明任意实施例所提供的保留库存量的确定方法的技术方案。

实施例五

本实施例五提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的一种数据源划分方法步骤，该方法包括：

获取多个数据源对应的数据库信息；

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种数据源划分方法，其特征在于，包括：

获取多个数据源对应的数据库信息，所述数据库信息是指数据源的库表信息；

在所述数据源集合的数量等于预设业务目录的数量时，获取上次数据源划分后每个预设业务目录对应的上一数据源集合；

根据各所述上一数据源集合中的每个上一数据源对应的上一预设业务目录，确定当次数据源划分获得的每个当前数据源集合中的当前数据源对应的当前预设业务目录；

统计每个所述当前预设业务目录对应的第一出现频率，其中所述第一出现频率为当前预设业务目录在同一当前数据源集合中的出现频率；

将所述第一出现频率最高的当前预设业务目录确定为所述当前数据源对应的目标预设业务目录，并将所述当前数据源集合划分至所述目标预设业务目录下。

2.根据权利要求1所述的方法，其特征在于，对每个所述数据源对应的数据库信息进行分词处理，并根据分词结果确定每个所述数据源对应的第一特征集，包括：

对每个所述数据源对应的数据库信息中的各个字符串进行分词处理，获得每个所述数据源对应的各个特征词；

统计每个所述数据源对应的每个特征词对应的第二出现频率，并根据各所述第二出现频率，对所述数据源对应的各个特征词进行降序排列，其中所述第二出现频率是指特征词在同一数据源中的出现频率；

在排列后的各个特征词中，将前预设数量的特征词作为第一特征词，并将各所述第一特征词组合为所述数据源对应的第一特征集。

3.根据权利要求1所述的方法，其特征在于，根据各所述第一特征集中的各个第一特征词，确定两两数据源之间的相似度，包括：

根据各所述第一特征集中的各个第一特征词，确定每个所述数据源对应的目标字符串；

根据两两所述目标字符串之间的编辑距离和每个所述目标字符串对应的字符长度，确定两两数据源之间的相似度。

4.根据权利要求3所述的方法，其特征在于，根据各所述第一特征集中的各个第一特征词，确定每个所述数据源对应的目标字符串，包括：

统计各所述第一特征集中的每个第一特征词对应的第三出现概率，其中所述第三出现概率是指第一特征词在不同第一特征集中的出现概率；

在每个所述第一特征集中，将高于预设频率的第三出现频率所对应的第一特征词进行删除，获得相应的第二特征集；

将所述第二特征集中的各个第二特征词进行拼接，获得所述数据源对应的目标字符串。

5.根据权利要求4所述的方法，其特征在于，将所述第二特征集中的各个第二特征词进行拼接，获得所述数据源对应的目标字符串，包括：

基于所述第二特征集中的每个第二特征词对应的第三出现频率，将各所述第二特征词进行降序排列；

将排列后的各第二特征词依次进行拼接，获得所述数据源对应的目标字符串。

6.根据权利要求3所述的方法，其特征在于，基于如下公式确定两两数据源之间的相似度：

其中，

是数据源i与数据源j之间的相似度；

是数据源i对应的目标字符串

的字符长度；

是数据源j对应的目标字符串

的字符长度；

是目标字符串

和

之间的编辑距离。

7.根据权利要求1所述的方法，其特征在于，所述预设聚类算法为clique渗透算法；

相应地，根据各所述相似度和预设聚类算法对各所述数据源进行聚类，确定各数据源集合，包括：

将各所述数据源作为顶点，并将所述相似度大于预设相似度的两个数据源所对应的顶点进行连线，确定连通图；

确定所述连通图中的各个目标子图，所述目标子图中的两两顶点之间均存在连线；

根据每个所述目标子图中的顶点数量，确定各个目标子图对，其中，所述目标子图对中的两个目标子图具有相同的顶点总数量，且共有顶点的数量比所述顶点总数量少1；

将具有相同顶点总数量的目标子图对组合为一个数据源集合。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

在所述数据源集合的数量不等于预设业务目录的数量时，调整所述预设相似度，并根据调整后的预设相似度重新确定和划分各数据源集合。

9.一种数据源划分装置，其特征在于，包括：

数据库信息获取模块，用于获取多个数据源对应的数据库信息，所述数据库信息是指数据源的库表信息；

数据源集合划分模块，用于在所述数据源集合的数量等于预设业务目录的数量时，获取上次数据源划分后每个预设业务目录对应的上一数据源集合；根据各所述上一数据源集合中的每个上一数据源对应的上一预设业务目录，确定当次数据源划分获得的每个当前数据源集合中的当前数据源对应的当前预设业务目录；统计每个所述当前预设业务目录对应的第一出现频率，其中所述第一出现频率为当前预设业务目录在同一当前数据源集合中的出现频率；将所述第一出现频率最高的当前预设业务目录确定为所述当前数据源对应的目标预设业务目录，并将所述当前数据源集合划分至所述目标预设业务目录下。

10.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的数据源划分方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的数据源划分方法。