CN109614978A

CN109614978A - 数据处理方法、装置、设备及计算机可读存储介质

Info

Publication number: CN109614978A
Application number: CN201811152499.2A
Authority: CN
Inventors: 翟毅腾
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2019-04-12

Abstract

本公开实施例提供数据处理方法、装置、设备及计算机可读存储介质。数据处理方法包括：根据待处理数据的数据属性对所述待处理数据进行预处理以获得多个特征；将所述特征输入预设模型以生成树，其中，所述树上的节点为所述特征；根据所述树中的节点所形成的至少一个节点集群，分析所述至少一个节点集群所代表的特征集群的特征集群特性，其中，所述特征集群包括多个特征，可以自动对数据的特征进行集群处理，进而对特征集群特性进行分析，使用户可以以较低的成本更好地理解数据，理解数据特征集群的意义。根据本公开实施例的方案对于数据驱动下的实际应用非常有意义，也帮助数据模型有更鲁棒的产出及更优化的策略。

Description

数据处理方法、装置、设备及计算机可读存储介质

技术领域

本公开实施例涉及计算机领域，尤其涉及数据处理方法、装置、设备及计算机可读存储介质。

背景技术

当前，各种各样的互联网业务产生了大量的数据。即使对于同一业务，在不同情况下产生的数据，其特征也会体现出显著差别。就数据本身而言，解决在算法模型中的最优化节点选择，也是基础数据结构算法中很重要的部分。而在数据处理的过程中，特征工程是很重要的一个环节，如何理解选取特征的关联程度和群体性也成为了很重要的一环。基于数据驱动的数据特征分析方法也非常重要。在特征分析的驱动下，如何选取重要的特征以保障数据模型的良好运行便显得尤为重要。

因此，亟需一种能够有助于对数据特征分析的数据处理方案。

发明内容

有鉴于此，本公开第一方面提供了一种数据处理方法，包括：

根据待处理数据的数据属性对所述待处理数据进行预处理以获得多个特征；

将所述特征输入预设模型以生成树，其中，所述树上的节点为所述特征；

根据所述树中的节点所形成的至少一个节点集群，分析所述至少一个节点集群所代表的特征集群的特征集群特性，其中，所述特征集群包括多个特征。

本公开第二方面提供了一种数据处理装置，包括：

预处理模块，被配置为根据待处理数据的数据属性对所述待处理数据进行预处理以获得多个特征；

树生成模块，被配置为将所述特征输入预设模型以生成树，其中，所述树上的节点为所述特征；

分析模块，被配置为根据所述树中的节点所形成的至少一个节点集群，分析所述至少一个节点集群所代表的特征集群的特征集群特性，其中，所述特征集群包括多个特征。

本公开第三方面提供了一种电子设备，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如第一方面所述的方法。

本公开第四方面提供了一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现如第一方面所述的方法。

在本公开实施方式中，通过根据待处理数据的数据属性对所述待处理数据进行预处理以获得多个特征；将所述特征输入预设模型以生成树，其中，所述树上的节点为所述特征；根据所述树中的节点所形成的至少一个节点集群，分析所述至少一个节点集群所代表的特征集群的特征集群特性，其中，所述特征集群包括多个特征，可以自动对数据的特征进行集群处理，进而对特征集群特性进行分析，使用户可以以较低的成本更好地理解数据，理解数据特征集群的意义。根据本公开实施例的方案对于数据驱动下的实际应用非常有意义，也帮助数据模型有更鲁棒的产出及更优化的策略。

本公开的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本公开实施例或相关技术中的技术方案，下面将对示例性实施例或相关技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本公开的一些示例性实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出根据本公开一实施方式的数据处理方法的流程图；

图2示出根据本公开一实施方式的数据处理方法中的步骤S102的示例的流程图；

图3示出根据本公开一实施方式的数据处理装置的结构框图；

图4示出根据本公开一实施方式的数据处理装置中的树生成模块302的示例的结构框图；

图5示出根据本公开一实施方式的数据处理方案中的覆盖树数据结构的示意图；

图6示出根据本公开一实施方式的设备的结构框图；

图7是适于用来实现根据本公开一实施方式的数据处理方法的计算机系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开方案，下面将结合本公开示例性实施例中的附图，对本公开示例性实施例中的技术方案进行清楚、完整地描述。

在本公开的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本公开示例性实施例中的附图，对本公开示例性实施例中的技术方案进行清楚、完整地描述，显然，所描述的示例性实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。.

图1示出根据本公开一实施方式的数据处理方法的流程图。该方法可以包括步骤S101、S102和S103。

在步骤S101中，根据待处理数据的数据属性对待处理数据进行预处理以获得多个特征。

在步骤S102中，将特征输入预设模型以生成树，其中，树上的节点为特征。

在步骤S103中，根据树中的节点所形成的至少一个节点集群，分析至少一个节点集群所代表的特征集群的特征集群特性，其中，特征集群包括多个特征。

在本公开实施方式中，通过根据待处理数据的数据属性对待处理数据进行预处理以获得多个特征；将特征输入预设模型以生成树，其中，树上的节点为特征；根据树中的节点所形成的至少一个节点集群，分析至少一个节点集群所代表的特征集群的特征集群特性，其中，特征集群包括多个特征，可以自动对数据的特征进行集群处理，进而对特征集群特性进行分析，使用户可以以较低的成本更好地理解数据，理解数据特征集群的意义。根据本公开实施例的方案对于数据驱动下的实际应用非常有意义，也帮助数据模型有更鲁棒的产出及更优化的策略。

在本公开的一个实施例中，预设模型为基于树形数据结构的最近邻算法模型。在本公开的一个实施例中，树形结构为覆盖树数据结构和K维数据结构之一。

在本公开的一个实施例中，最近邻算法(KNN，K-Nearest Neighbors algorithm)是一种用于模式识别领域中分类和回归的非参数统计方法。在相关技术中，最近邻算法通常被用于邻近搜索。例如，基于网络坐标的邻近搜索方法通过将网络中的节点映射到一定的几何空间，使得任意2个节点之间的距离可以用它们对应的网络坐标的函数来近似。然而，空间嵌入不可避免会引入距离预测误差。

然而，与相关技术中采用基于树形数据结构(例如，覆盖树数据结构或K维数据结构)的最近邻算法模型是为了感知和搜索邻近节点来进行分类不同，根据本公开实施方式采用基于树形数据结构的最近邻算法模型的目的不是为了搜索邻近节点，而是为了通过树形数据结构来自动形成节点集群。根据本公开实施方式中的基于树形数据结构的最近邻算法模型可以不必对特征与特征之间的差别进行计算和关注，而是关注特征集群特性所呈现的特征集群本身的功能性。而且，在本公开的一个实施例中，可以对不同场景下的特征形成不同的树用以查看特征在相应场景下的地位及重要程度。因此，本公开实施方式的数据处理方法创新性地应用了基于树形数据结构的算法模型。

例如，当用户进行跨境电商消费或出境旅游时，交易平台需要帮助支付本国货币的用户换汇以相应外币支付给境外收款方。平台为了尽量减少汇率波动的影响，需要预测并预先锁定当天的购汇金额。但是，面对大量用户在不同情况换取不同国家外币的需求时，由于不同交易目的、不同国家的情况，预测并预先锁定每日对各国货币的换汇金额是困难的。而且，由于各个不同交易目的、不同国家的情况存在差异，各个特征集群的特征集群特性也会存在差异。因此，可以将交易平台的针对购汇的历史交易数据输入基于树形数据结构的最近邻算法模型，由此可以生成多个特征集群。而且，基于对所生成的树形结构中的特征的理解所完成的相应特征工程会更加符合实际工程应用的需要。在此情况下，通过对基于树形数据结构的最近邻算法模型自动生成的至少一个节点集群所代表的特征集群的特征集群特性进行分析，可以有助于交易平台构造可靠性高鲁棒性强精准度高的预测系统。

在本公开的一个实施例中，采用基于树形数据结构的最近邻算法模型有利于形成节点集群。在本公开的一个实施例中，最近邻算法模型可以被实现为基于覆盖树数据结构的最近邻算法模型、基于K维树数据结构的最近邻算法模型、基于球树数据结构的最近邻算法模型等等。

在本公开的一个实施例中，覆盖树(Cover Tree)数据结构是一种在相关技术中为了加速KNN算法而提出的树形数据结构。在本公开的一个实施例中，K维树(k-d Tree)是一种在K维欧几里德空间组织点的数据结构。

在本公开的一个实施例中，当树形结构为覆盖树数据结构时，由于在覆盖树数据结构的各层中，特征从根节点自上而下，距离度量越来越小，得出的结果能够充分表述出节点聚类的特性，即，特征集群及每个群体的功能性。因此，使用户可以以较低的成本更好地理解数据，理解数据特征集群的意义。对于数据驱动下的各种生产工作非常有价值，也帮助数据模型有更鲁棒的产出及更优化的策略。

以下参照图2对根据本公开实施方式的数据处理方法中的步骤S102做进一步描述，该实施方式中的预设模型为基于覆盖树数据结构的最近邻算法模型。

图2示出根据本公开一实施方式的数据处理方法中的步骤S102的示例的流程图。如图2所示，步骤S102包括步骤S201和S202。

在步骤S201中，当树形结构为覆盖树数据结构时，对覆盖树的树冠层的节点进行聚类，获得至少一个聚类的节点集群，其中，覆盖树中每层节点是该层节点的上层父亲节点的子集，覆盖树的根节点为最上层节点。

在步骤S202中，根据至少一个聚类的节点集群，分析至少一个节点集群所代表的特征集群的特征集群特性。

图5示出根据本公开一实施方式的数据处理方案中的覆盖树数据结构的示意图。

在如图5所示的覆盖树数据结构中，根节点p位于第i+1层Level i+1，根节点p的子节点q、p和r位于第i层Level i，子节点q的子节点q和s、子节点p的子节点t、p和u、以及子节点r的子节点r和v位于第i-1层Level i-1。即，覆盖树具有多个层，各层的编号沿着从根节点到树冠节点的方向递减，位于第i-1层的节点与其上第i层父亲节点之间的距离不超过β^i，并且任何2个位于第i层的不同节点之间的距离大于β^i，其中，β为距离度量基数，并且β>1，i>1。

例如，第i层的节点p和q之间的距离Dist(p,q)>β^i。即，当前层的节点之间距离大于距离度量基数的当前层编号次幂。

例如，第i-1层的节点s和第i层的节点q之间的距离Dist(q,s)≤β^i。例如，第i层的节点q和第i+1层的节点p之间的距离Dist(p,q)≤β^(i+1)。即，相邻两层的子节点与对应父节点之间距离不超过距离度量基数的父节点所在层的编号次幂。

在本公开的一个实施例中，节点之间的距离的度量形式为欧氏距离度量或相似性度量。在本公开的一个实施例中，相似性度量例如皮尔逊相关系数，这里可以直接把距离问题转化为特征间的关联度。

在一个示例中，当将基于覆盖树数据结构的最近邻算法模型应用于根据本公开实施方式的数据处理方案中时，特征自上而下，距离度量越来越小，得出的结果能够充分表述出聚类的特性，即特征集群及每个群体的功能性。通过对基于覆盖树数据结构的最近邻算法模型自动生成的至少一个节点集群所代表的特征集群的特征集群特性进行分析，可以有助于构造可靠性高鲁棒性强精准度高的预测系统。

图3示出根据本公开一实施方式的数据处理装置的结构框图。如图3所示的数据处理装置包括预处理模块301、树生成模块302和分析模块303。

预处理模块301被配置为根据待处理数据的数据属性对待处理数据进行预处理以获得多个特征。

树生成模块302被配置为将特征输入预设模型以生成树，其中，树上的节点为特征。

分析模块303被配置为根据树中的节点所形成的至少一个节点集群，分析至少一个节点集群所代表的特征集群的特征集群特性，其中，特征集群包括多个特征。

在本公开实施方式中，通过预处理模块，被配置为根据待处理数据的数据属性对待处理数据进行预处理以获得多个特征；分析模块，被配置为将特征输入预设模型以生成树，其中，树上的节点为特征；分析模块，被配置为根据树中的节点所形成的至少一个节点集群，分析至少一个节点集群所代表的特征集群的特征集群特性，其中，特征集群包括多个特征，可以自动对数据的特征进行集群处理，进而对特征集群特性进行分析，使用户可以以较低的成本更好地理解数据，理解数据特征集群的意义。根据本公开实施例的方案对于数据驱动下的实际应用非常有意义，也帮助数据模型有更鲁棒的产出及更优化的策略。

以下参照图4对根据本公开实施方式的数据处理装置中的树生成模块302做进一步描述，该实施方式中的预设模型为基于覆盖树数据结构的最近邻算法模型。

图4示出根据本公开一实施方式的数据处理装置中的树生成模块302的示例的结构框图。如图4所示，树生成模块302包括聚类子模块401和分析子模块402。

聚类子模块401被配置为当树形结构为覆盖树数据结构时，对覆盖树的树冠层的节点进行聚类，获得至少一个聚类的节点集群，其中，覆盖树中每层节点是该层节点的上层父亲节点的子集，覆盖树的根节点为最上层节点。

分析子模块402被配置为根据至少一个聚类的节点集群，分析至少一个节点集群所代表的特征集群的特征集群特性。

以上描述了数据处理装置的内部功能和结构，在一个可能的设计中，该数据处理装置的结构可实现为数据处理设备，如图6中所示，该处理设备600可以包括处理器601以及存储器602。

所述存储器602用于存储支持数据处理装置执行上述任一实施例中数据处理方法的程序，所述处理器601被配置为用于执行所述存储器602中存储的程序。

所述存储器602用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器301执行。

所述处理器601用于执行前述各方法步骤中的全部或部分步骤。

其中，所述数据处理设备的结构中还可以包括通信接口，用于数据处理设备与其他设备或通信网络通信。

本公开示例性实施例还提供了一种计算机存储介质，用于储存所述数据处理装置所用的计算机软件指令，其包含用于执行上述任一实施例中数据处理方法所涉及的程序。

如图7所示，计算机系统700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行上述图1所示的实施方式中的各种处理。在RAM703中，还存储有系统700操作所需的各种程序和数据。CPU701、ROM702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本公开的实施方式，上文参考图1描述的方法可以被实现为计算机软件程序。例如，本公开的实施方式包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行图1的数据处理方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。

附图中的流程图和框图，图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，并且/或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预设模型为基于树形数据结构的最近邻算法模型。

3.根据权利要求2所述的方法，其特征在于，所述树形结构为覆盖树数据结构和K维数据结构之一。

4.根据权利要求3所述的方法，其特征在于，所述根据所述树中的节点所形成的至少一个节点集群，分析所述至少一个节点集群所代表的特征集群的特征集群特性，其中，所述特征集群包括多个特征，包括：

当所述树形结构为覆盖树数据结构时，对所述覆盖树的树冠层的节点进行聚类，获得至少一个聚类的节点集群，其中，所述覆盖树中每层节点是该层节点的上层父亲节点的子集，所述覆盖树的根节点为最上层节点；

根据所述至少一个聚类的节点集群，分析所述至少一个节点集群所代表的特征集群的特征集群特性。

5.根据权利要求3所述的方法，其特征在于，所述覆盖树具有多个层，各层的编号沿着从根节点到树冠节点的方向递减，位于第i-1层的节点与其上第i层父亲节点之间的距离不超过β^i，并且任何2个位于第i层的不同节点之间的距离大于β^i，其中，β为距离度量基数，并且β>1，i>1。

6.根据权利要求5所述的方法，其特征在于，所述节点之间的距离的度量形式为欧氏距离度量或相似性度量。

7.一种数据处理装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述预设模型为基于树形数据结构的最近邻算法模型。

9.根据权利要求8所述的装置，其特征在于，所述树形结构为覆盖树数据结构和K维数据结构之一。

10.根据权利要求9所述的装置，其特征在于，所述树生成模块包括：

聚类子模块，被配置为当所述树形结构为覆盖树数据结构时，对所述覆盖树的树冠层的节点进行聚类，获得至少一个聚类的节点集群，其中，所述覆盖树中每层节点是该层节点的上层父亲节点的子集，所述覆盖树的根节点为最上层节点；

分析子模块，被配置为根据所述至少一个聚类的节点集群，分析所述至少一个节点集群所代表的特征集群的特征集群特性。

11.根据权利要求9所述的装置，其特征在于，所述覆盖树具有多个层，各层的编号沿着从根节点到树冠节点的方向递减，位于第i-1层的节点与其上第i层父亲节点之间的距离不超过β^i，并且任何2个位于第i层的不同节点之间的距离大于β^i，其中，β为距离度量基数，并且β>1，i>1。

12.根据权利要求11所述的方法，其特征在于，所述节点之间的距离的度量形式为欧氏距离度量或相似性度量。

13.一种电子设备，其特征在于，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如权利要求1-6任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现如权利要求1-6任一项所述的方法。