CN110019550A

CN110019550A - 数据仓库管理方法、装置及计算机设备

Info

Publication number: CN110019550A
Application number: CN201711350427.4A
Authority: CN
Inventors: 范涛; 马国强; 陈天健
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2019-07-16
Anticipated expiration: 2037-12-15
Also published as: CN110019550B

Abstract

本发明提出一种数据仓库管理方法、装置及计算机设备，其中，该方法包括：获取待处理数据，其中所述待处理数据中包括所述待处理数据的标识；根据所述待处理数据的标识，将所述待处理数据进行聚类处理；采用预设的数据处理方式，将所述待处理数据进行处理，确定所述待处理数据的第一表现数据；将所述待处理数据的第一表现数据，以所述数据的标识为索引进行存储。由此，通过根据数据仓库中的待处理数据确定表现数据，从而以数据的标识为索引存储表现数据，可以实现根据表现数据直接从数据仓库中请求有价值的数据，减小了数据调研过程所需的时间及成本，改善了用户体验。

Description

数据仓库管理方法、装置及计算机设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据仓库管理方法、装置及计算机设备。

背景技术

随着信息技术与大数据的飞速发展，数据仓库在软硬件领域、互联网和企业内部网解决方案以及数据库方面提供了许多经济高效的计算资源，可以保存大量的数据供分析使用。

在实际运用中，业务方可能需要调研数据仓库中对自己有价值的数据。现有技术，通常是由业务方向数据仓库请求数据权限，然后再对获取到的权限中的数据进行调研，查找有价值数据，这种方式导致了数据调研过程的耗时较长，调研过程中的成本较高，用户体验不好。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明提出一种数据仓库管理方法，通过根据数据仓库中的待处理数据确定表现数据，从而以数据的标识为索引存储表现数据，可以实现根据表现数据直接从数据仓库中请求有价值的数据，减小了数据调研过程所需的时间及成本，改善了用户体验。

本发明还提出一种数据仓库管理装置。

本发明还提出一种计算机设备。

本发明还提出一种计算机可读存储介质。

本发明第一方面实施例提出了一种数据仓库管理方法，包括：获取待处理数据，其中所述待处理数据中包括所述待处理数据的标识；根据所述待处理数据的标识，将所述待处理数据进行聚类处理；采用预设的数据处理方式，将所述待处理数据进行处理，确定所述待处理数据的第一表现数据；将所述待处理数据的第一表现数据，以所述数据的标识为索引进行存储。

本发明实施例的数据仓库管理方法，在获取待处理数据后，可以根据待处理数据的标识，将待处理数据进行聚类处理，然后采用预设的数据处理方式，将待处理数据进行处理，确定待处理数据的第一表现数据，从而将待处理数据的第一表现数据，以数据的标识为索引进行存储。由此，通过根据数据仓库中的待处理数据确定表现数据，从而以数据的标识为索引存储表现数据，可以实现根据表现数据直接从数据仓库中请求有价值的数据，减小了数据调研过程所需的时间及成本，改善了用户体验。

本发明第二方面实施例提出了一种数据仓库管理装置，包括：第一获取模块，用于获取待处理数据，其中所述待处理数据中包括所述待处理数据的标识；第一处理模块，用于根据所述待处理数据的标识，将所述待处理数据进行聚类处理；第二处理模块，用于采用预设的数据处理方式，将所述待处理数据进行处理，确定所述待处理数据的第一表现数据；存储模块，用于将所述待处理数据的第一表现数据，以所述数据的标识为索引进行存储。

本发明实施例的数据仓库管理装置，在获取待处理数据后，可以根据待处理数据的标识，将待处理数据进行聚类处理，然后采用预设的数据处理方式，将待处理数据进行处理，确定待处理数据的第一表现数据，从而将待处理数据的第一表现数据，以数据的标识为索引进行存储。由此，通过根据数据仓库中的待处理数据确定表现数据，从而以数据的标识为索引存储表现数据，可以实现根据表现数据直接从数据仓库中请求有价值的数据，减小了数据调研过程所需的时间及成本，改善了用户体验。

本发明第三方面实施例提出了一种计算机设备，包括：

存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如第一方面所述的数据仓库管理方法。

本发明第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，当所述程序被处理器执行时实现如第一方面所述的数据仓库管理方法。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一个实施例的数据仓库管理方法的流程图；

图2是本发明另一个实施例的数据仓库管理方法的流程图；

图3是本发明另一个实施例的数据仓库管理方法的流程图；

图4是本发明一个实施例的数据仓库管理装置的结构示意图；

图5是本发明另一个实施例的数据仓库管理装置的结构示意图；

图6是本发明一个实施例的计算机设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

具体的，本发明各实施例针对实际运用中，业务方需要调研数据仓库中对自己有价值的数据时，现有技术，通常是由业务方向数据仓库请求数据权限，然后再对获取到的权限中的数据进行调研，查找有价值数据，这种方式导致了数据调研过程的耗时较长，调研过程中的成本较高，用户体验不好的问题，提出一种数据仓库管理方法。

本发明实施例提供的数据仓库管理方法，在获取待处理数据后，可以根据待处理数据的标识，将待处理数据进行聚类处理，然后采用预设的数据处理方式，将待处理数据进行处理，确定待处理数据的第一表现数据，从而将待处理数据的第一表现数据，以数据的标识为索引进行存储。由此，通过根据数据仓库中的待处理数据确定表现数据，从而以数据的标识为索引存储表现数据，可以实现根据表现数据直接从数据仓库中请求有价值的数据，减小了数据调研过程所需的时间及成本，改善了用户体验。

下面参考附图，对本发明实施例提供的数据仓库管理方法、装置及计算机设备进行详细说明。

图1是本发明一个实施例的数据仓库管理方法的流程图。

如图1所示，该数据仓库管理方法包括：

步骤101，获取待处理数据，其中待处理数据中包括待处理数据的标识。

其中，本发明实施例提供的数据仓库管理方法的执行主体，为本发明实施例提供的数据仓库管理装置，该装置可以被配置在任何计算机设备中，以进行数据仓库的管理。

其中，待处理数据，可以是数据仓库中已存储的任意一条数据，或者，也可以是数据仓库新获取的待存储的数据。

待处理数据的标识，用来唯一标识用户或终端设备等，其可以是用户的身份识别(Identification，简称ID)号码、终端设备的ID、手机号等等。

步骤102，根据待处理数据的标识，将待处理数据进行聚类处理。

可以理解的是，用户向数据仓库提交数据时，一个标识对应一条数据，而数据仓库的每个表数据中，每个标识对应的数据记录可能有多条。在本发明实施例中，可以根据待处理数据的标识，将待处理数据进行聚类处理。

具体的，步骤102可以通过以下方式实现：

步骤102a，获取与待处理数据的标识对应的其它数据；

步骤102b，将待处理数据与其它数据进行聚类处理。

具体实现时，获取到待处理数据后，可以将待处理数据和数据仓库中，与其具有相同标识的其它数据进行聚类处理。

举例来说，假设数据仓库中包括身份识别号码为“ID1”的用户分别在网际协议(Internet Protocol，简称IP)地址为IP1和IP2的终端设备中登录应用产生的数据，及身份识别号码为“ID2”的用户分别在IP地址为IP3、IP4和IP5的终端设备中登录应用产生的数据。若数据仓库管理装置获取到了身份识别号码为“ID1”的用户在IP地址为IP6的终端设备上登录应用产生的数据，则可以将“ID1”作为数据标识，将“ID1”在IP地址为IP6的终端设备上登录应用产生的数据，与“ID1”分别在IP地址为IP1和IP2的终端设备上登录应用产生的数据进行聚类处理，得到“ID1”分别对应的各数据。

步骤103，采用预设的数据处理方式，将待处理数据进行处理，确定待处理数据的第一表现数据。

其中，预设的数据处理方式，包括类目特征处理、时间特征处理和/或连续特征处理等处理方式。

具体的，对待处理数据进行处理时的数据处理方式，可以根据数据特征进行确定。比如，具有类目特征的数据，可以采用独热(one-hot)编码或利用聚合算子进行计算等类目特征处理方式进行处理；具有时间特征的数据，可以采用按时间分段等时间特征处理方式进行处理；具有连续特征的数据，可以采用先离散化再进行one-hot编码或进行求和、求平均值、求最大值或求最小值等算子变换等连续特征处理方式进行处理。

需要说明的是，确定待处理数据的第一表现数据时，利用的数据包括待处理数据及数据仓库中与待处理数据具有相同标识、且与待处理数据的数据特征相同的一类数据。举例来说，假设待处理数据为身份识别号码为“ID1”的用户在8：00-9:00之间登录应用产生的数据，则确定待处理数据的第一表现数据时，利用的数据为，身份识别号码为“ID1”的用户在各种时间段内登录应用产生的数据；或者，若待处理数据为身份识别号码为“ID1”的用户在IP地址为IP1的终端设备上登录应用产生的数据，则确定待处理数据的第一表现数据时，利用的数据为，身份识别号码为“ID1”的用户在各具有不同IP地址的终端设备上登录应用产生的数据。

另外，获取待处理数据时，数据仓库管理装置可能已利用之前存储的数据，确定了表现数据，则将待处理数据与数据仓库中其它数据进行聚类处理后，可以利用聚类后的数据，对已确定的表现数据进行更新，以确定第一表现数据。

举例来说，假设将一天24小时分为0:00-5:59、6:00-11:59、12:00-17:59、18:00-23:59 4个时间段，数据仓库管理装置已采用one-hot编码，对身份识别号码为“ID1”的用户在8：00-9:00之间登录应用产生的数据进行了处理，确定了表现数据[0，1，0，0]。则获取到身份识别号码为“ID1”的用户在13：00-14:00之间登录应用产生的数据，并对数据进行聚类处理后，可以采用one-hot编码，对聚类后的数据进行处理，以对已确定的表现数据进行更新，确定第一表现数据[0，1，1，0]。

步骤104，将待处理数据的第一表现数据，以数据的标识为索引进行存储。

具体的，对待处理数据进行处理，确定待处理数据的第一表现数据后，即可将第一表现数据以待处理数据的标识为索引，存储到数据仓库中。

通过上述过程，即可对数据仓库中的各标识对应的数据进行处理，确定不同标识的数据的表现数据。

值得注意的是，由于数据仓库中同一标识的数据可能具有多种数据特征，因此，采用预设的数据处理方式，对数据仓库中的各数据进行处理后，同一标识的数据可能对应多个表现数据。比如，可以根据身份识别号码为“ID1”的用户在各时间段内登录应用产生的数据，确定一个表现数据，还可以根据身份识别号码为“ID1”的用户在各不同IP地址的终端设备上登录应用产生的数据，确定另一个表现数据，等等。

在本发明实施例中，通过确定数据仓库中各数据的表现数据，并将各表现数据以数据标识为索引进行存储，可以使用户在需要请求数据时，根据所需数据的表现数据与数据仓库中各表现数据间的相关度，确定数据仓库中有价值的数据，进而可以从数据仓库中直接请求有价值的数据，以减小数据调研过程所需的时间及成本，改善用户体验。

通过上述分析可知，可以根据数据仓库中的待处理数据确定表现数据，从而以数据的标识为索引存储表现数据。在实际运用中，还可以根据用户所需数据的表现数据与数据仓库中的各表现数据，确定对用户有价值的数据，下面结合图2和图3，对本申请实施例提供的数据仓库管理方法进行进一步说明。

图2是本发明另一个实施例的数据仓库管理方法的流程图。

如图2所示，本发明实施例提供的数据仓库管理方法，还可以包括：

步骤201，获取请求方发送的数据请求，数据请求中包括第二表现数据。

其中，请求方，可以指从数据仓库中请求数据的用户。

具体的，第二表现数据，可以是根据上述实施例中的预设的数据处理方式，对请求方需要请求的数据进行处理确定的。

步骤202，确定第二表现数据与数据仓库中的各表现数据间的各相关度。

步骤203，根据各相关度，确定目标数据。

步骤204，将目标数据的标识返回至请求方。

其中，相关度，用来表征第二表现数据与数据仓库中的各表现数据间的相关程度。相关度越大，表示相关程度越大，数据仓库中与表现数据对应的数据的价值越大，反之越小。

需要说明的是，由于同一标识的数据可能对应多个表现数据，因此步骤202中确定的各相关度，不仅包括不同标识的数据对应的各表现数据，与第二表现数据间的相关度，还包括同一标识的数据对应的各表现数据与第二表现数据间的相关度。

具体的，可以通过计算第二表现数据与数据仓库中的各表现数据间的余弦相似度、皮尔逊系数等，确定第二表现数据与数据仓库中的各表现数据间的各相关度，并将相关度最大的表现数据对应的数据确定为目标数据，从而将目标数据的标识返回至请求方，以使请求方根据数据的标识，从数据仓库中请求最有价值的数据。

具体实现时，可以采用多方安全计算(Secure Multiparty Computations，简称SMC)方法，确定第二表现数据与数据仓库中的各表现数据间的各相关度。由于确定各相关度时，请求方和数据仓库都不能获得对方的表现数据及进行数据处理前的原始数据，从而避免了数据的泄露，保证了数据的安全。

本发明实施例的数据仓库管理方法，在获取到请求方发送的数据请求后，可以确定数据请求中包括的第二表现数据与数据仓库中的各表现数据间的各相关度，并根据各相关度，确定目标数据，从而将目标数据的标识返回至请求方。由此，通过根据请求方发送的数据请求中包括的第二表现数据，与数据仓库中的各表现数据间的各相关度，确定请求方请求的目标数据，可以实现根据表现数据直接从数据仓库中请求有价值的数据，减小了数据调研过程所需的时间及成本，改善了用户体验。

图3是本发明另一个实施例的数据仓库管理方法的流程图。

如图3所示，本发明实施例提供的数据仓库管理方法，还可以包括：

步骤301，获取请求方发送的数据请求，数据请求中包括第二表现数据。

步骤302，确定第二表现数据与数据仓库中的各表现数据间的各相关度。

其中，步骤301-302的具体实现过程及原理，可以参照上述实施例的详细描述，此处不作赘述。

步骤303，将各相关度及分别与各相关度对应的数据标识，返回至请求方。

具体的，确定第二表现数据与数据仓库中的各表现数据间的各相关度后，可以将各相关度及与各相关度对应的数据标识，返回至请求方，从而请求方可以根据各相关度及与各相关度对应的数据标识，从数据仓库中请求所需的数据。

举例来说，假设第二表现数据A、B、C、D与数据仓库中的各表现数据a、b、c、d的各相关度分别为0.1010、0.2000、0.5414、0.9947，而表现数据a、b、c、d分别是由数据仓库中的数据a’、b’、c’、d’确定的，数据a’、b’、c’、d’的标识分别为ID1、ID2、ID3、ID4，则可以将0.1010、0.2000、0.5414、0.9947及与各相关度对应的ID1、ID2、ID3、ID4发送给请求方，以使请求方根据各相关度及与各相关度对应的数据标识，从数据仓库中请求需要的数据。

在一种可能的实现形式中，数据仓库中的某个表现数据可能包括多种表现形式。比如，可以对数据仓库中某一标识下的某种数据特征的数据分别进行求和、求最大值及求最小值算子变换，得到3种不同表现形式的表现数据。

那么，在本发明实施例中，数据仓库中第三表现数据中包括N种表现形式时，可以根据第二表现数据与第三表现数据中的各表现形式间的相关度，确定第二表现数据与第三表现数据的相关度。即，数据仓库中第三表现数据中包括N种表现形式时，步骤302具体可以包括：

步骤302a，确定第二表现数据与第三表现数据中N种表现形式间的N个相关度；

步骤302b，将N个相关度中的最大值，确定为第二表现数据与第三表现数据的相关度。

举例来说，假设第三表现数据包括3种表现形式，第二表现数据与第三表现数据中的各表现形式间的相关度分别为0.1000、0.2100、0.5424，则可以将0.5424确定为第二表现数据与第三表现数据间的相关度。

可以理解的是，数据仓库中第三表现数据中包括N种表现形式时，若第一种表现形式与第二表现数据的相关度最大，而第一种表现形式是对数据仓库中的数据M进行求和算子变换得到的，则表示相比对数据M进行其它处理，对数据M进行求和算子变换时，数据M的价值更大。那么，在本发明实施例中，将第一种表现形式与第二表现数据的相关度，确定为第三表现数据与第二表现数据的相关度后，还可以将第一种表现形式发送给请求方，以使请求方在从数据仓库中请求数据M后，可以对数据M进行求和算子变换，进而利用得到的数据进行后续分析或处理。

即，在步骤302b之后，还可以包括：

将N个相关度中的最大值对应的第三表现数据的表现形式，返回至请求方。

举例来说，假设对数据仓库中的数据X分别进行求和、求最大值及求最小值算子变换，得到了表现形式分别为M1、M2、M3的第三表现数据。获取到请求方发送的数据请求后，确定数据请求中的第二表现数据与第三表现数据中表现形式M1、M2、M3间的各相关度分别为0.1000、0.2100、0.5424，则可以将0.5424确定为第二表现数据与第三表现数据间的相关度。然后，可以将表现形式M3发送给请求方，以使请求方在请求第三表现数据对应的数据X后，可以对数据X进行求最小值算子变换，进而利用得到的数据进行后续分析或处理。

本发明实施例的数据仓库管理方法，在获取到请求方发送的数据请求后，可以确定数据请求中包括的第二表现数据与数据仓库中的各表现数据间的各相关度，并将各相关度及与各相关度对应的数据标识返回至请求方。由此，通过根据请求方发送的数据请求中包括的第二表现数据，与数据仓库中的各表现数据间的各相关度，确定请求方请求的目标数据，可以实现根据表现数据直接从数据仓库中请求有价值的数据，减小了数据调研过程所需的时间及成本，改善了用户体验。

图4是本发明一个实施例的数据仓库管理装置的结构示意图。

如图4所示，该数据仓库管理装置包括：

第一获取模块41，用于获取待处理数据，其中待处理数据中包括待处理数据的标识；

第一处理模块42，用于根据待处理数据的标识，将待处理数据进行聚类处理；

第二处理模块43，用于采用预设的数据处理方式，将待处理数据进行处理，确定待处理数据的第一表现数据；

存储模块44，用于将待处理数据的第一表现数据，以数据的标识为索引进行存储。

具体的，本发明实施例提供的数据仓库管理装置，可以执行本发明实施例提供的数据仓库管理方法，该装置可以被配置在任何计算机设备中，以进行数据仓库的管理。

其中，上述预设的数据处理方式，包括：类目特征处理、时间特征处理和/或连续特征处理。

在本申请实施例一种可能的实现形式中，上述第一处理模块42，具体用于：

获取与待处理数据的标识对应的其它数据；

将待处理数据与其它数据进行聚类处理。

需要说明的是，前述对数据仓库管理方法实施例的解释说明也适用于该实施例的数据仓库管理装置，此处不再赘述。

图5是本发明另一个实施例的数据仓库管理装置的结构示意图。

如图5所示，在图4的基础上，该数据仓库管理装置，还包括：

第二获取模块51，用于获取请求方发送的数据请求，数据请求中包括第二表现数据；

第一确定模块52，用于确定第二表现数据与数据仓库中的各表现数据间的各相关度；

第二确定模块53，用于根据各相关度，确定目标数据；

第一发送模块54，用于将目标数据的标识返回至请求方。

在本申请实施例一种可能的实现形式中，该装置，还可以包括：

第三获取模块，用于获取请求方发送的数据请求，数据请求中包括第二表现数据；

第三确定模块，用于确定第二表现数据与数据仓库中的各表现数据间的各相关度；

第二发送模块，用于将各相关度及分别与各相关度对应的数据标识，返回至请求方。

在本申请实施例另一种可能的实现形式中，上述第一确定模块52及第三确定模块，具体用于：

采用多方安全计算方法，确定第二表现数据与数据仓库中的各表现数据间的各相关度。

在本申请实施例另一种可能的实现形式中，上述数据仓库中第三表现数据中包括N种表现形式，其中N为大于1的正整数；

相应的，上述第一确定模块52及第三确定模块，还用于：

确定第二表现数据与第三表现数据中N种表现形式间的N个相关度；

将N个相关度中的最大值，确定为第二表现数据与第三表现数据的相关度。

在本申请实施例另一种可能的实现形式中，该装置，还可以包括：

第三发送模块，用于将N个相关度中的最大值对应的第三表现数据的表现形式，返回至请求方。

图6为本发明实施例提供的一种计算机设备的结构示意图。

如图6所示，该计算机设备包括：

存储器61、处理器62及存储在存储器61上并可在处理器62上运行的计算机程序。

处理器62执行所述程序时实现上述实施例中提供的数据仓库管理方法。

其中，计算机设备可以是电脑、手机、可穿戴设备等。

进一步地，计算机设备还包括：

通信接口63，用于存储器61和处理器62之间的通信。

存储器61，用于存放可在处理器62上运行的计算机程序。

存储器61可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

处理器62，用于执行所述程序时实现上述实施例所述的数据仓库管理方法。

如果存储器61、处理器62和通信接口63独立实现，则通信接口63、存储器61和处理器62可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture，简称ISA)总线、外部设备互连(PeripheralComponent Interconnect，简称PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture，简称EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅以一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选地，在具体实现时，如果存储器61、处理器62及通信接口63，集成在一块芯片上实现，则存储器61、处理器62及通信接口63可以通过内部接口完成相互间的通信。

处理器62可以是一个中央处理器(Central Processing Unit，简称CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或者是被配置成实施本发明实施例的一个或多个集成电路。

本发明第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，当该程序被处理器执行时实现如前述实施例中的数据仓库管理方法。

本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行如前述实施例中的数据仓库管理方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种数据仓库管理方法，其特征在于，包括：

获取待处理数据，其中所述待处理数据中包括所述待处理数据的标识；

根据所述待处理数据的标识，将所述待处理数据进行聚类处理；

采用预设的数据处理方式，将所述待处理数据进行处理，确定所述待处理数据的第一表现数据；

将所述待处理数据的第一表现数据，以所述数据的标识为索引进行存储。

2.如权利要求1所述的方法，其特征在于，所述将所述待处理数据进行聚类处理，包括：

获取与所述待处理数据的标识对应的其它数据；

将所述待处理数据与所述其它数据进行聚类处理。

3.如权利要求1所述的方法，其特征在于，所述预设的数据处理方式，包括：类目特征处理、时间特征处理和/或连续特征处理。

4.如权利要求1-3任一所述的方法，其特征在于，所述将所述待处理数据的第一表现数据，以所述数据标识为索引进行存储之后，还包括：

获取请求方发送的数据请求，所述数据请求中包括第二表现数据；

确定所述第二表现数据与数据仓库中的各表现数据间的各相关度；

根据所述各相关度，确定目标数据；

将所述目标数据的标识返回至所述请求方。

5.如权利要求1-3任一所述的方法，其特征在于，所述将所述待处理数据的第一表现数据，以所述数据标识为索引进行存储之后，还包括：

将所述各相关度及分别与所述各相关度对应的数据标识，返回至所述请求方。

6.如权利要求4或5所述的方法，其特征在于，所述确定所述第二表现数据与数据仓库中的各表现数据间的各相关度，包括：

采用多方安全计算方法，确定所述第二表现数据与数据仓库中的各表现数据间的各相关度。

7.如权利要求4或5所述的方法，其特征在于，所述数据仓库中第三表现数据中包括N种表现形式，其中N为大于1的正整数；

所述确定所述第二表现数据与数据仓库中的各表现数据间的各相关度，包括：

确定所述第二表现数据与所述第三表现数据中N种表现形式间的N个相关度；

将所述N个相关度中的最大值，确定为所述第二表现数据与所述第三表现数据的相关度。

8.如权利要求7所述的方法，其特征在于，所述将所述N个相关度中的最大值，确定为所述第二表现数据与所述第三表现数据的相关度之后，还包括：

将所述N个相关度中的最大值对应的第三表现数据的表现形式，返回至所述请求方。

9.一种数据仓库管理装置，其特征在于，包括：

第一获取模块，用于获取待处理数据，其中所述待处理数据中包括所述待处理数据的标识；

第一处理模块，用于根据所述待处理数据的标识，将所述待处理数据进行聚类处理；

第二处理模块，用于采用预设的数据处理方式，将所述待处理数据进行处理，确定所述待处理数据的第一表现数据；

存储模块，用于将所述待处理数据的第一表现数据，以所述数据的标识为索引进行存储。

10.如权利要求9所述的装置，其特征在于，所述第一处理模块，具体用于：

获取与所述待处理数据的标识对应的其它数据；

将所述待处理数据与所述其它数据进行聚类处理。

11.如权利要求9所述的装置，其特征在于，所述预设的数据处理方式，包括：类目特征处理、时间特征处理和/或连续特征处理。

12.如权利要求9-11任一所述的装置，其特征在于，还包括：

第二获取模块，用于获取请求方发送的数据请求，所述数据请求中包括第二表现数据；

第一确定模块，用于确定所述第二表现数据与数据仓库中的各表现数据间的各相关度；

第二确定模块，用于根据所述各相关度，确定目标数据；

第一发送模块，用于将所述目标数据的标识返回至所述请求方。

13.如权利要求9-11任一所述的装置，其特征在于，还包括：

第三获取模块，用于获取请求方发送的数据请求，所述数据请求中包括第二表现数据；

第三确定模块，用于确定所述第二表现数据与数据仓库中的各表现数据间的各相关度；

第二发送模块，用于将所述各相关度及分别与所述各相关度对应的数据标识，返回至所述请求方。

14.如权利要求12或13所述的装置，其特征在于，所述第一确定模块及所述第三确定模块，具体用于：

15.如权利要求12或13所述的装置，其特征在于，所述数据仓库中第三表现数据中包括N种表现形式，其中N为大于1的正整数；

所述第一确定模块及所述第三确定模块，还用于：

16.如权利要求15所述的装置，其特征在于，还包括：

第三发送模块，用于将所述N个相关度中的最大值对应的第三表现数据的表现形式，返回至所述请求方。

17.一种计算机设备，包括：

存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-8中任一所述的数据仓库管理方法。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-8中任一所述的数据仓库管理方法。