CN117725451A

CN117725451A - 一种多维度交易数据自动对账方法及系统

Info

Publication number: CN117725451A
Application number: CN202311734469.3A
Authority: CN
Inventors: 辛永红; 张德胜; 盛铁路
Original assignee: Beijing Weibao Technology Co ltd
Current assignee: Beijing Weibao Technology Co ltd
Priority date: 2023-12-15
Filing date: 2023-12-15
Publication date: 2024-03-19
Anticipated expiration: 2043-12-15
Also published as: CN117725451B

Abstract

本发明涉及财务数据聚类技术领域，具体涉及一种多维度交易数据自动对账方法及系统，可以应用于新兴软件和新型信息技术服务，以及大数据分析和挖掘服务，获取待对账的两个多维度目标交易数据，根据初始k值进行初始聚类得到多个初始聚类簇，然后根据各初始聚类簇的形状规整程度以及多维度目标交易数据的整体密度情况和数据点距离差异情况，确定数据分布特征指标，由此对初始k值进行修正，然后根据修正后的k值对对应的多维度目标交易数据再次聚类，然后再次聚类的差异情况，获取多源差异特征指标，最后，根据多源差异特征指标，得到目标k值，解决了现有k值获取方式的选取不当的问题，由此得到适合多维交易数据对账的理想聚类结果。

Description

一种多维度交易数据自动对账方法及系统

技术领域

本发明涉及财务数据聚类技术领域，具体涉及一种多维度交易数据自动对账方法及系统。

背景技术

自动对账是指利用计算机程序，自动比对和校验两个或多个不同数据源之间的信息，以确认它们之间的准确性和一致性。交易数据自动对账系统大多运用在金融和商业领域，它可以减少人工错误的风险，提高交易数据管理的效率和业务流程的可靠性。随着大数据时代来临，对账数据所携带的内容也呈几何式的快速增多，因此多维度的交易数据自动对账系统的提升对于对账体系的发展至关重要。

传统的自动对账系统通过遍历查找两个交易数据源，核对两个交易数据源之间的交易数据，以确保它们之间的一致性和准确性。但是当交易数据体量庞大时，遍历交易数据源的时间成本极大，为系统带来高负荷运作的同时也不能满足金融业对高时效性的需求。

为了保证对账时效，需要对自动对账的交易数据进行聚类分割，目前用到的聚类算法为k均值聚类算法，k均值聚类算法中的k值的选取至关重要。然而，k值的选取方式为相关工作人员根据经验或者根据交易数据的具体组成进行选取，当k值选取不当时，即当k值过小时，交易数据分簇个数少，查找的检索范围缩减，聚类对交易数据查找效率的提升效果不明显；当k值过大时，交易数据分簇过多，产生过分割，聚类效果差，同一聚簇易缺少相同特征，导致自动对账的查找效果不佳。

发明内容

有鉴于此，为了解决聚类算法中k值选取不当，影响交易数据对账效果的技术问题，本发明提供一种多维度交易数据自动对账方法及系统。

所采用的技术方案具体如下：

一种多维度交易数据自动对账方法，包括：

获取待对账的两个多维度目标交易数据；

根据初始k值，采用k均值聚类算法对各多维度目标交易数据进行初始聚类，得到初始k值个初始聚类簇；

根据各初始聚类簇的形状规整程度，以及对应多维度目标交易数据的整体密度情况和数据点距离差异情况，确定各多维度目标交易数据对应的数据分布特征指标；

基于所述数据分布特征指标，对所述初始k值进行修正，得到与各多维度目标交易数据对应的中间k值，并根据各中间k值，对对应的多维度目标交易数据再次聚类，得到中间k值个中间聚类簇；

根据两个多维度目标交易数据中所处相同中间聚类簇的数据数量差异情况以及数据密度差异情况，获取多源差异特征指标；

根据所述多源差异特征指标，对所述初始k值进行修正，得到目标k值。

进一步地，所述根据各初始聚类簇的形状规整程度，以及对应多维度目标交易数据的整体密度情况和整体数据点距离差异情况，确定各多维度目标交易数据对应的数据分布特征指标，包括：

对于任意一个多维度目标交易数据，根据该多维度目标交易数据所对应的各初始聚类簇的形状特征，得到该多维度目标交易数据的形状规整指标；

获取该多维度目标交易数据的数据整体密度指标；

获取该多维度目标交易数据中的每一个数据点与其最近邻数据点之间的距离，并获取所有距离的方差，得到数据整体距离差异指标；

根据所述形状规整指标、数据整体密度指标和数据整体距离差异指标，得到该多维度目标交易数据对应的数据分布特征指标，其中，所述数据分布特征指标与所述形状规整指标、数据整体密度指标和数据整体距离差异指标均呈正相关关系。

进一步地，所述根据该多维度目标交易数据所对应的各初始聚类簇的形状特征，得到该多维度目标交易数据的形状规整指标，包括：

获取各初始聚类簇的最小外接矩形，并获取最小外接矩形的长和宽，其中，长大于或者等于宽；

计算各初始聚类簇的长宽比，所述长宽比为长与宽的比值，并计算该多维度目标交易数据所对应的所有初始聚类簇的长宽比的均值，将得到的均值与数值1的差值绝对值作为该多维度目标交易数据的形状规整指标；

所述获取该多维度目标交易数据的数据整体密度指标，包括：

获取该多维度目标交易数据的最小外接矩形，并获取该多维度目标交易数据的最小外接矩形的面积；

获取该多维度目标交易数据所包含的数据总数量；

计算所述数据总数量与所述面积的比值，作为该多维度目标交易数据的数据整体密度指标。

进一步地，基于所述数据分布特征指标，对所述初始k值进行修正，得到与各多维度目标交易数据对应的中间k值，包括：

对于任意一个多维度目标交易数据，将该多维度目标交易数据对应的数据分布特征指标与数值1相加后乘以所述初始k值，得到该多维度目标交易数据对应的中间k值。

进一步地，根据两个多维度目标交易数据中所处相同中间聚类簇的数据数量差异情况以及数据密度差异情况，获取多源差异特征指标，包括：

分别将其中一个多维度目标交易数据映射到另一个多维度目标交易数据中，得到映射前后对应的中间聚类簇中的数据点数量差异；

根据映射前后对应的中间聚类簇中的数据点数量差异，得到整体密度变化指标；

根据映射前后的所述数据点数量差异以及映射前后的中间聚类簇的面积差异，得到内部密度变化指标；

根据所述整体密度变化指标和内部密度变化指标，得到所述多源差异特征指标，所述多源差异特征指标与所述整体密度变化指标和内部密度变化指标均呈正相关关系。

进一步地，分别将其中一个多维度目标交易数据映射到另一个多维度目标交易数据中，得到映射前后对应的中间聚类簇中的数据点数量差异，包括：

设定两个多维度目标交易数据分别是第一多维度目标交易数据和第二多维度目标交易数据；

将第二多维度目标交易数据映射到第一多维度目标交易数据中得到第一映射交易数据，获取第一映射交易数据中与第一多维度目标交易数据相对应的各所述中间聚类簇中的数据点数量，得到映射后的数据点数量，并结合第一多维度目标交易数据中各所述中间聚类簇中的映射前的数据点数量，得到第一多维度目标交易数据的映射前后对应的各中间聚类簇中的数据点数量差异，定义为第一映射数量差异；

将第一多维度目标交易数据映射到第二多维度目标交易数据中得到第二映射交易数据，获取第二映射交易数据中与第二多维度目标交易数据相对应的各所述中间聚类簇中的数据点数量，得到映射后的数据点数量，并结合第二多维度目标交易数据中各所述中间聚类簇中的映射前的数据点数量，得到第二多维度目标交易数据的映射前后对应的各中间聚类簇中的数据点数量差异，定义为第二映射数量差异；

相应地，根据映射前后对应的中间聚类簇中的数据点数量差异，得到整体密度变化指标，包括：

计算第一映射数量差异与第一多维度目标交易数据对应的最小外接矩形的面积的比值，得到第一密度变化指标；

计算第二映射数量差异与第二多维度目标交易数据对应的最小外接矩形的面积的比值，得到第二密度变化指标；

求取所述第一密度变化指标和第二密度变化指标的均值，得到整体密度变化指标。

进一步地，所述根据映射前后的数据点数量差异以及映射前后的中间聚类簇的面积差异，得到内部密度变化指标，包括：

获取第一映射交易数据中与第一多维度目标交易数据相对应的各所述中间聚类簇，与第一多维度目标交易数据中的对应各所述中间聚类簇的区域面积的差值绝对值，将所有所述中间聚类簇对应的区域面积的差值绝对值求和，得到第一面积差异；

获取第一映射交易数据中与第一多维度目标交易数据相对应的各所述中间聚类簇的数据密度，与第一多维度目标交易数据中的对应各所述中间聚类簇的数据密度的差值绝对值，将所有所述中间聚类簇对应的数据密度的差值绝对值求和，得到第一数据密度差异；

获取第二映射交易数据中与第二多维度目标交易数据相对应的各所述中间聚类簇，与第二多维度目标交易数据中的对应各所述中间聚类簇的区域面积的差值绝对值，将所有所述中间聚类簇对应的区域面积的差值绝对值求和，得到第二面积差异；

获取第二映射交易数据中与第二多维度目标交易数据相对应的各所述中间聚类簇的数据密度，与第二多维度目标交易数据中的对应各所述中间聚类簇的数据密度的差值绝对值，将所有所述中间聚类簇对应的数据密度的差值绝对值求和，得到第二数据密度差异；

计算所述第一面积差异和第一数据密度差异的乘积，得到第一乘积；计算所述第二面积差异和第二数据密度差异的乘积，得到第二乘积；计算第一乘积和第二乘积的均值，得到内部密度变化指标。

进一步地，根据所述多源差异特征指标，对所述初始k值进行修正，得到目标k值，包括：

比较所述多源差异特征指标与预设阈值，若所述多源差异特征指标小于预设阈值，获取所述多源差异特征指标的负相关归一化值，并将负相关归一化值与所述初始k值相乘，得到的乘积为所述目标k值。

进一步地，所述获取待对账的两个多维度目标交易数据，包括：

获取待对账的两个多维度初始交易数据；

对各多维度初始交易数据进行PCA主成分分析，获取特征值最大的两个特征向量；

根据所述特征值最大的两个特征向量，得到对应的二维交易数据，作为所述多维度目标交易数据。

一种多维度交易数据自动对账系统，包括：存储器及处理器；所述存储器与所述处理器连接；所述存储器，用于存储程序指令；所述处理器，用于在程序指令被执行时，实现上述的多维度交易数据自动对账方法。

本发明至少具有如下有益效果：先根据初始k值，采用k均值聚类算法对各多维度目标交易数据进行初始聚类，得到初始k值个初始聚类簇，由于初始k值可能选取不当，那么，根据两个多维度目标交易数据的聚类结果的差异情况，具体是根据各初始聚类簇的形状规整程度以及对应多维度目标交易数据的整体密度情况和数据点距离差异情况，确定得到与各多维度目标交易数据相对应的数据分布特征指标，然后基于得到的数据分布特征指标，对初始k值进行修正，得到与各多维度目标交易数据对应的中间k值，并根据各中间k值，对对应的多维度目标交易数据再次聚类，接着根据这两个多维度目标交易数据分别再次聚类的聚类结果之间的差异情况获取多源差异特征指标，最后根据多源差异特征指标对初始k值进行修正，得到目标k值，结合多维度目标交易数据之间的数据差异情况，以及两次聚类结果之间的差异情况对初始k值进行修正，能够得到与这两个多维度目标交易数据密切相关的聚类k值，使得聚类k值与实际情况相符，解决了聚类k值选取不当的技术问题，进而得到适合多维交易数据对账的理想聚类结果，由此提高遍历查找速度，提高自动对账速度与效率。

附图说明

图1是本发明提供的一种多维度交易数据自动对账方法的流程图；

图2是数据分布特征指标获取流程图；

图3是多源差异特征指标获取流程图。

具体实施方式

一种多维度交易数据自动对账方法实施例：

本实施例提供一种多维度交易数据自动对账方法，如图1所示，包括如下步骤：

步骤1：获取待对账的两个多维度目标交易数据：

本实施例中，对账双方为支付API与企业内部订单库，用于分别从支付API与企业内部订单库中下拉对账单，作为对账的两份数据源。作为一个具体实施方式，获取到的两份数据源为两个多维度初始交易数据，用于后续的对账操作。多维度初始交易数据包括多个维度的相关交易数据，比如：交易金额、交易时间、产品代码、交易参与方、交易状态、交易类型、风险评估数据等。本实施例中，对这两个多维度初始交易数据均进行预处理。对于任意一个多维度初始交易数据，该多维度初始交易数据包括多个账单，每一个账单包括多个维度的数据信息，构建一个数据矩阵，该数据矩阵的各行表示各个账单，该数据矩阵的各行表示各个维度的数据，最终构成该数据矩阵，包括多个横向序列，每一个横向序列表示每一个账单，包括多个纵向序列，每一个纵向序列表示每一个维度的数据信息。每一个维度中存放该维度下的所有的数据。

本实施例中，先按照维度序列，可以对多维度初始交易数据进行筛选，为了构建聚类的样本空间，选择多对多模式的维度数据，而不是一对多模式的维度数据。多模式的维度数据即使用该维度的数据作为坐标中的一个指标时，在其他维度的指标中可以找到多个该维度中的数据对应的数据。比如样本空间选择金额与交易参与方，同一金额可能可以对应到多个参与方，同一参与方也可以对应找到多个金额，这两个维度则为多对多模式。如果其中一个数据指标为一对多模式，则数据样本空间会呈现类似时序数据的扁平化聚集，由此通过模式筛选获得多对多模式的维度，可以在后续构成较理想的聚类样本空间。在此通过对历史数据中每个维度序列进行遍历，当该维度序列中存在重复的数值，则说明该维度在别的维度也存在对应值，为多对多模式维度。作为其他的实施方式，还可以不对多维度初始交易数据进行上述筛选过程。

为了便于后续数据处理，对各多维度初始交易数据进行PCA主成分分析，因为要构建二维聚类样本空间，所以选择前2个特征值最大的特征向量，作为主成分分析结果，得到两个特征性最强的维度序列。根据选取得到的特征值最大的两个特征向量，得到对应的二维交易数据，定义为多维度目标交易数据。由此得到第一多维度目标交易数据和第二多维度目标交易数据。以选取得到的两个维度作为二维平面坐标系的两个轴的单位，构建聚类样本空间。

按照以上流程分别获得两个多维度初始交易数据的二维聚类样本空间，实现对这两个多维度初始交易数据的降维操作。通过对多维度初始交易数据进行降维，获得特征性最明显的两个维度，以构建样本空间进行聚类。得到的二维聚类样本空间为用于后续k均值聚类的样本空间。

步骤2：根据初始k值，采用k均值聚类算法对各多维度目标交易数据进行初始聚类，得到初始k值个初始聚类簇：

获取k均值聚类算法的初始k值，该初始k值可以由对账人员根据经验或者根据多维度目标交易数据的实际情况确认得到，可以采用肘部法获得。由于多维度目标交易数据繁杂，不稳定因素多，所以肘部法获得的初始k值的准确性较低，由此需要结合多维度目标交易数据的实际特征，根据样本空间内数据分布特征与多源差异特征，对肘部法获得的初始k值进行修正。

根据初始k值，采用k均值聚类算法分别对每一个多维度目标交易数据进行初始聚类，得到第一多维度目标交易数据对应的初始k值个初始聚类簇，以及第二多维度目标交易数据对应的初始k值个初始聚类簇。

步骤3：根据各初始聚类簇的形状规整程度，以及对应多维度目标交易数据的整体密度情况和数据点距离差异情况，确定各多维度目标交易数据对应的数据分布特征指标：

数据分布特征模型主要由两部分组成，其一为空间形状特征，其二为聚集分布特征。空间形状特征通过聚簇的形状得到聚类结果的k值适应程度，当聚簇的空间形状中存在扁平状形状分布时，说明聚类k值的分类效果较差；聚集分布特征通过历史数据对数据聚集特征的影响得到，在交易数据的对账中，存在较多的历史客户，有相同的订单习惯，导致交易数据中存在较多的相似数据，如金额相同或是交易时间相近，导致数据点集在分布时可能存在多个局部高密度区域，因此局部高密度分布特征越明显，需要划分的k值越多。

对于任意一个多维度目标交易数据，需要根据该多维度目标交易数据三方面的数据特征，分别是：形状规整指标、数据整体密度指标和数据整体距离差异指标，得到该多维度目标交易数据对应的数据分布特征指标，如图2所示。

根据该多维度目标交易数据所对应的各初始聚类簇的形状特征，得到该多维度目标交易数据的形状规整指标。形状规整指标整体上反映了多维度目标交易数据的形状规整情况，由于该多维度目标交易数据分成了多个初始聚类簇，因此，需要根据各个初始聚类簇的形状规整情况得到该多维度目标交易数据的形状规整情况。其中，通常而言，可以根据初始聚类簇的最小外接矩形的形状特征反映初始聚类簇的形状特征，因此，本实施例中，获取各初始聚类簇的最小外接矩形，并获取最小外接矩形的长和宽，其中，长大于宽，特殊情况下，若最小外接矩形为正方形时，长等于宽，因此，整体而言，长大于或者等于宽，然后计算各初始聚类簇的长宽比，长宽比为长与宽的比值，因此，长宽比的数值范围为大于或等于1，数值越大，最小外接矩形的长和宽的差距越大，形状越不规整，最后，计算该多维度目标交易数据所对应的所有初始聚类簇的长宽比的均值，将得到的均值与数值1的差值绝对值作为该多维度目标交易数据的形状规整指标，因此，该多维度目标交易数据的形状规整指标打的数值范围为大于或等于0，数值越大，该多维度目标交易数据的形状越不规整。

该多维度目标交易数据的形状规整指标的计算公式如下：

其中，Z1为该多维度目标交易数据的形状规整指标，k为初始聚类簇的数量，l_i为第i个初始聚类簇的最小外接矩形的长，w_i为第i个初始聚类簇的最小外接矩形的宽，为第i个初始聚类簇的最小外接矩形的长宽比，/>为整体初始聚类簇外形的长宽比水平，当/>等于1时表示长等于宽时的最优长宽比，因此，形状规整指标Z1表示长宽比与最优长宽比的差异。形状规整指标Z1越大，聚簇的空间形状越为扁平状形状分布，说明聚类的分类效果越差。

获取该多维度目标交易数据的数据整体密度指标。在数据集中，通常将数据集所包含的数据的数量与数据集的相关面积的比值作为数据密度，因此，本实施例中，获取该多维度目标交易数据的最小外接矩形，并获取该多维度目标交易数据的最小外接矩形的面积，然后获取该多维度目标交易数据所包含的数据总数量，最后，计算得到的数据总数量与该面积的比值，作为该多维度目标交易数据的数据整体密度指标。

该多维度目标交易数据的数据整体密度指标的计算公式如下：

其中，Z2为该多维度目标交易数据的数据整体密度指标，N为该多维度目标交易数据所包含的数据总数量，S为该多维度目标交易数据的最小外接矩形的面积，为该多维度目标交易数据所对应的数据点集的数据整体密度指标。

获取该多维度目标交易数据中的每一个数据点与其最近邻数据点之间的距离，其中，对于该多维度目标交易数据中的任意一个数据点，获取该数据点与该多维度目标交易数据中的其他各个数据点的距离，距离为两个坐标点之间的欧氏距离，从得到的多个距离中选取最小的距离，该最小的距离所对应的其他数据点为该数据点的最近邻数据点，从而得到各数据点与其最近邻数据点之间的距离。采用上述方式，得到该多维度目标交易数据中的每一个数据点与其最近邻数据点之间的距离，定义为邻近距离。然后，计算获取所有邻近距离的方差，该方差为该多维度目标交易数据所对应的数据整体距离差异指标。该方差表示整体熵值，用于表征该多维度目标交易数据中各个数据点所对应的整体距离差异程度，数据整体距离差异指标越大，数据点之间的距离差异程度越大。

该多维度目标交易数据所对应的数据整体距离差异指标的计算公式如下：

其中，Z3为该多维度目标交易数据的数据整体距离差异指标，d_j为第j个数据点与其最近邻数据点之间的距离，为邻近距离，为所有数据点所对应的邻近距离的平均值，Z3为整体邻近距离的方差，该方差表示整体熵值，方差越大，熵值越大。

最后，根据得到的形状规整指标、数据整体密度指标和数据整体距离差异指标，得到该多维度目标交易数据对应的数据分布特征指标。形状规整指标越大，聚簇的空间形状越为扁平状形状分布，说明聚类的分类效果越差，需要划分的k值越大，数据整体密度指标和数据整体距离差异指标越大，说明聚类结果中存在局部密度区域数量越多，需要划分的k值越大。因此，数据分布特征指标与形状规整指标、数据整体密度指标和数据整体距离差异指标均呈正相关关系。

应当理解，正相关关系可以为相加、相乘等运算表示，作为一个具体实施方式，如下给出该多维度目标交易数据对应的数据分布特征指标D的一种具体的计算过程：

D＝norm(Z1+Z2×Z3)

其中，norm表示归一化运算，将值域归一化为[0，1]。本实施例中的归一化方式可以为最大值最小值归一化，也可以为采用如下归一化计算方式：

y＝1-e^-x

其中，y为归一化后的数值，x为需要归一化的数据，e为自然常数。

数据整体密度指标和数据整体距离差异指标的相乘后的结果表示聚集分布特征程度。

采用上述过程，得到第一多维度目标交易数据对应的数据分布特征指标，以及第二多维度目标交易数据对应的数据分布特征指标。

因此，数据分布特征指标越大，对应的多维度目标交易数据的数据分布特征越复杂，就需要越多的聚类簇数量。

应当理解，每一个多维度目标交易数据均对应有一个数据分布特征指标，这两个多维度目标交易数据所对应的数据分布特征指标可能相同，也可能不同。作为一个具体实施方式，设定第一多维度目标交易数据对应的数据分布特征指标为D1，第二多维度目标交易数据对应的数据分布特征指标为D2。

步骤4：基于所述数据分布特征指标，对所述初始k值进行修正，得到与各多维度目标交易数据对应的中间k值，并根据各中间k值，对对应的多维度目标交易数据再次聚类，得到中间k值个中间聚类簇：

基于数据分布特征指标，对初始k值进行修正，得到与各多维度目标交易数据对应的中间k值，具体地：对于任意一个多维度目标交易数据，以第一多维度目标交易数据为例，将第一多维度目标交易数据对应的数据分布特征指标D1与数值1相加后乘以初始k值，得到第一多维度目标交易数据对应的中间k值，计算公式如下：

k1＝k×(1+D1)

其中，k1为第一多维度目标交易数据对应的中间k值，k为初始k值。

那么，第二多维度目标交易数据对应的中间k值，计算公式如下：

k2＝k×(1+D2)

其中，k2为第二多维度目标交易数据对应的中间k值。

应当理解，由于两个多维度目标交易数据所对应的数据分布特征指标可能不同，因此，这两个多维度目标交易数据的中间k值也可能不同，也可能均为小数。那么，先将这两个多维度目标交易数据的中间k值k1和k2整数化，比如：四舍五入、向上取整、向下取整等等，本实施例以四舍五入为例，得到取整后的k1和k2。然后根据取整后的k1，对第一多维度目标交易数据再次聚类，得到取整后的k1个中间聚类簇；根据取整后的k2，对第二多维度目标交易数据再次聚类，得到取整后的k2个中间聚类簇。而且，聚类之后，获取第一多维度目标交易数据的各个中间聚类簇所包含的数据点数量，以及第二多维度目标交易数据的各个中间聚类簇所包含的数据点数量。

步骤5：根据两个多维度目标交易数据中所处相同中间聚类簇的数据数量差异情况以及数据密度差异情况，获取多源差异特征指标：

由于这两个中间k值不相等，无法直接进行匹配聚类。因为需要对这两个多维度目标交易数据的聚类结果中每个聚簇能够相互匹配，从而在具有相同特征的聚簇内进行查找对账，但是由于两个多维度目标交易数据对应的样本空间内的数据分布存在差异，导致聚簇的匹配性较差，所以需要先对两个多维度目标交易数据的差异特征进行分析，得到多源差异特征指标，进而进一步修正初始k值，得到目标k值。

本实施例中，根据这两个多维度目标交易数据的数据差异情况，具体是根据这两个多维度目标交易数据中所处相同中间聚类簇的数据数量差异情况以及数据密度差异情况，获取这两个多维度目标交易数据之间的多源差异特征指标。

作为一个具体实施方式，如图3所示，多源差异特征指标的获取过程包括：

步骤5-1：分别将其中一个多维度目标交易数据映射到另一个多维度目标交易数据中，得到映射前后对应的中间聚类簇中的数据点数量差异。由于将其中一个多维度目标交易数据映射到另一个多维度目标交易数据，包括：将第二多维度目标交易数据映射到第一多维度目标交易数据中，以及将第一多维度目标交易数据映射到第二多维度目标交易数据中，因此，如下分别对该步骤进行说明：

(1)将第二多维度目标交易数据映射到第一多维度目标交易数据中得到第一映射交易数据，因此，第一映射交易数据包含第一多维度目标交易数据以及第二多维度目标交易数据映射到第一多维度目标交易数据中的数据，本质上为将第二多维度目标交易数据叠加到第一多维度目标交易数据所对应的样本空间中，得到第一映射交易数据。应当理解，本实施例中，映射后若出现多个数据点重合，即多个数据点重叠在同一个点位，则将重叠在同一个点位的多个数据点置为一个数据点。因此，映射后，第一映射交易数据的整体数据点的密度高于第一多维度目标交易数据的数据点的密度。

由于第一多维度目标交易数据聚类为取整后的k1个中间聚类簇，而第一映射交易数据与第一多维度目标交易数据存在于同一样本空间中，因此，第一映射交易数据与第一多维度目标交易数据中的中间聚类簇的数量相同，且一一对应，不同之处在于：第一映射交易数据中的各个中间聚类簇的面积以及所包含的数据点数量与第一多维度目标交易数据中的各对应中间聚类簇的面积以及所包含的数据点数量可能不同。其中，中间聚类簇的面积可以为中间聚类簇所对应凸包区域的面积或者最小外接矩形的面积。

那么，将第二多维度目标交易数据映射到第一多维度目标交易数据中之后，获取第一映射交易数据中与第一多维度目标交易数据相对应的各中间聚类簇中的数据点数量，得到映射后的数据点数量，具体地：由于映射之后，第一映射交易数据所包含的数据点数量高于第一多维度目标交易数据的数量，因此，获取映射之后，第一映射交易数据的各中间聚类簇对应的数据点数量，得到映射后的各中间聚类簇的数据点数量。然后，结合第一多维度目标交易数据中各中间聚类簇中的映射前的数据点数量，得到第一多维度目标交易数据的映射前后对应的各中间聚类簇中的数据点数量差异，定义为第一映射数量差异。因此，第一映射数量差异的获取过程为：计算第一多维度目标交易数据的每一个中间聚类簇在映射前后的数据点数量的差值绝对值，然后将所有中间聚类簇所对应的数据点数量的差值绝对值做加法运算，得到的和值为所有中间聚类簇映射前后的数据点数量总差异，该数据点数量总差异为第一映射数量差异。

(2)与上段映射过程同理，将第一多维度目标交易数据映射到第二多维度目标交易数据中得到第二映射交易数据，因此，第二映射交易数据包含第二多维度目标交易数据以及第一多维度目标交易数据映射到第二多维度目标交易数据中所产生的数据。

由于第二多维度目标交易数据聚类为取整后的k2个中间聚类簇，而第二映射交易数据与第二多维度目标交易数据存在于同一样本空间中，因此，第二映射交易数据与第二多维度目标交易数据中的中间聚类簇的数量相同，且一一对应，不同之处在于：第二映射交易数据中的各个中间聚类簇的区域面积以及所包含的数据点数量与第二多维度目标交易数据中的各对应中间聚类簇的区域面积以及所包含的数据点数量可能不同。其中，中间聚类簇的区域面积可以为中间聚类簇所对应凸包区域的面积或者最小外接矩形的面积。

那么，将第一多维度目标交易数据映射到第二多维度目标交易数据中之后，获取第二映射交易数据中与第二多维度目标交易数据相对应的各中间聚类簇中的数据点数量，得到映射后的数据点数量，具体地：由于映射之后，第二映射交易数据所包含的数据点数量高于第二多维度目标交易数据的数量，因此，获取映射之后，第二映射交易数据的各中间聚类簇对应的数据点数量，得到映射后的各中间聚类簇的数据点数量。然后，结合第二多维度目标交易数据中各中间聚类簇中的映射前的数据点数量，得到第二多维度目标交易数据的映射前后对应的各中间聚类簇中的数据点数量差异，定义为第二映射数量差异。因此，第二映射数量差异的获取过程为：计算第二多维度目标交易数据的每一个中间聚类簇在映射前后的数据点数量的差值绝对值，然后将所有中间聚类簇所对应的数据点数量的差值绝对值做加法运算，得到的和值为所有中间聚类簇映射前后的数据点数量总差异，该数据点数量总差异为第二映射数量差异。

步骤5-2：根据映射前后对应的中间聚类簇中的数据点数量差异，得到整体密度变化指标。应当理解，映射前后的数据点数量差异越大，整体密度变化程度越高，即整体密度变化指标越大，表征第一多维度目标交易数据和第二多维度目标交易数据的数据差异程度越大，聚类数，即k值缩小程度越大。又由于数据点密度与数据对应的区域面积呈反比，则如下给出整体密度变化指标的一种具体获取过程：

计算第一映射数量差异与第一多维度目标交易数据对应的最小外接矩形的面积的比值，得到第一密度变化指标；计算第二映射数量差异与第二多维度目标交易数据对应的最小外接矩形的面积的比值，得到第二密度变化指标；最后求取第一密度变化指标和第二密度变化指标的均值，得到整体密度变化指标，计算公式如下：

其中，M2为整体密度变化指标，ΔN1为第一映射数量差异，S1为第一多维度目标交易数据对应的最小外接矩形的面积，ΔN2为第二映射数量差异，S2为第二多维度目标交易数据对应的最小外接矩形的面积。

为了便于后续运算，得到整体密度变化指标M1之后，对整体密度变化指标M1进行归一化。

步骤5-3：根据映射前后的数据点数量差异以及映射前后的中间聚类簇的面积差异，得到内部密度变化指标。作为一个具体实施方式，如下给出内部密度变化指标的一种具体获取过程：

获取第一映射交易数据中与第一多维度目标交易数据相对应的各中间聚类簇，与第一多维度目标交易数据中的对应各中间聚类簇的区域面积的差值绝对值，即分别计算：第一映射交易数据的每一个中间聚类簇与第一多维度目标交易数据中的对应中间聚类簇的区域面积的差值绝对值，然后将所有中间聚类簇对应的区域面积的差值绝对值求和，得到第一面积差异。

对于任意一个中间聚类簇，中间聚类簇的数据密度等于：中间聚类簇中所包含的数据点数量与中间聚类簇的区域面积的比值。

获取第一映射交易数据中与第一多维度目标交易数据相对应的各中间聚类簇的数据密度，与第一多维度目标交易数据中的对应各中间聚类簇的数据密度的差值绝对值，即分别计算：第一映射交易数据的每一个中间聚类簇与第一多维度目标交易数据中的对应中间聚类簇的数据密度的差值绝对值，然后将所有中间聚类簇对应的数据密度的差值绝对值求和，得到第一数据密度差异。

同理，获取第二映射交易数据中与第二多维度目标交易数据相对应的各中间聚类簇，与第二多维度目标交易数据中的对应各中间聚类簇的区域面积的差值绝对值，将所有中间聚类簇对应的区域面积的差值绝对值求和，得到第二面积差异。

获取第二映射交易数据中与第二多维度目标交易数据相对应的各中间聚类簇的数据密度，与第二多维度目标交易数据中的对应各中间聚类簇的数据密度的差值绝对值，将所有中间聚类簇对应的数据密度的差值绝对值求和，得到第二数据密度差异。

然后，计算第一面积差异和第一数据密度差异的乘积，得到第一乘积；计算第二面积差异和第二数据密度差异的乘积，得到第二乘积。

最后，计算第一乘积和第二乘积的均值，该均值为内部密度变化指标，计算公式如下：

其中，M2为内部密度变化指标，ΔS1为第一面积差异，Δρ1为第一数据密度差异，ΔS2为第二面积差异，Δρ2为第二数据密度差异。

为了便于后续运算，得到内部密度变化指标M2后，对内部密度变化指标M2进行归一化。

因此，从各中间聚类簇之间的区域面积差异以及数据密度差异进行分析，两方面的差异越大，表征第一多维度目标交易数据和第二多维度目标交易数据的数据差异程度越大，聚类数，即k值缩小程度越大。

步骤5-4：根据所述整体密度变化指标和内部密度变化指标，得到所述多源差异特征指标，所述多源差异特征指标与所述整体密度变化指标和内部密度变化指标均呈正相关关系。

根据整体密度变化指标M1和内部密度变化指标M2两个方面反映了第一多维度目标交易数据和第二多维度目标交易数据之间的差异情况，因此，综合考虑整体密度变化指标M1和内部密度变化指标M2两个方面对第一多维度目标交易数据和第二多维度目标交易数据之间的差异情况进行分析，设定多源差异特征指标表征第一多维度目标交易数据和第二多维度目标交易数据之间的整体差异情况，则整体密度变化指标M1和内部密度变化指标M2与多源差异特征指标均呈正相关关系。作为一个具体实施方式，如下给出多源差异特征指标M的计算公式：

M＝norm(M1+M2)

其中，norm为归一化函数。计算公式中的整体密度变化指标M1和内部密度变化指标M2均为归一化之后的整体密度变化指标M1和内部密度变化指标M2。

步骤6：根据所述多源差异特征指标，对所述初始k值进行修正，得到目标k值：

由于多源差异特征指标M越大，第一多维度目标交易数据和第二多维度目标交易数据之间的整体差异越大，第一多维度目标交易数据和第二多维度目标交易数据越难互相匹配相同特征的簇，最终的聚类数量，即最终聚类所需的k值越小。然而，当调整后的k值过小时，将无法有效进行聚类，即多源差异特征指标M过大时，将无法有效进行聚类。因此，预设一个阈值，该阈值由实际聚类需要进行设定，若对聚类数量要求比较严格，则该预设阈值设置的较大一些，本实施例以0.7为例。

比较多源差异特征指标M与预设阈值，若多源差异特征指标M小于预设阈值，则获取多源差异特征指标M的负相关归一化值，由于多源差异特征指标M处于0到1之间，则多源差异特征指标M的负相关归一化值可以为1-M。

最后，计算1-M与初始k值的乘积，得到目标k值，计算公式如下：

k′＝k×(1-M)

其中，k′为目标k值。

为了便于聚类，得到目标k值k′之后，需要对目标k值k′整数化，比如：四舍五入、向上取整、向下取整等等，本实施例以向上取整为例。

在后续中，就可以根据目标k值k′对第一多维度目标交易数据和第二多维度目标交易数据进行聚类，得到适合多维度交易数据对账的聚类结果，从而获得理想的数据聚类结果，然后根据聚类得到的各个聚类簇进行数据对账，在后续的对账查找中对处于同一聚类簇中的数据进行优先查找遍历，缩短查找时间，提高自动对账的效率。

一种多维度交易数据自动对账系统实施例：

本实施例提供一种多维度交易数据自动对账系统，包括：存储器及处理器；所述存储器与所述处理器连接；所述存储器，用于存储程序指令；所述处理器，用于在程序指令被执行时，实现一种多维度交易数据自动对账方法。由于该多维度交易数据自动对账方法在上述一种多维度交易数据自动对账方法实施例中已给出了详细地描述，不再赘述。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，均应包含在本申请的保护范围之内。

Claims

1.一种多维度交易数据自动对账方法，其特征在于，包括：

获取待对账的两个多维度目标交易数据；

2.根据权利要求1所述的多维度交易数据自动对账方法，其特征在于，所述根据各初始聚类簇的形状规整程度，以及对应多维度目标交易数据的整体密度情况和整体数据点距离差异情况，确定各多维度目标交易数据对应的数据分布特征指标，包括：

获取该多维度目标交易数据的数据整体密度指标；

3.根据权利要求2所述的多维度交易数据自动对账方法，其特征在于，所述根据该多维度目标交易数据所对应的各初始聚类簇的形状特征，得到该多维度目标交易数据的形状规整指标，包括：

获取该多维度目标交易数据所包含的数据总数量；

4.根据权利要求1所述的多维度交易数据自动对账方法，其特征在于，基于所述数据分布特征指标，对所述初始k值进行修正，得到与各多维度目标交易数据对应的中间k值，包括：

5.根据权利要求1所述的多维度交易数据自动对账方法，其特征在于，根据两个多维度目标交易数据中所处相同中间聚类簇的数据数量差异情况以及数据密度差异情况，获取多源差异特征指标，包括：

6.根据权利要求5所述的多维度交易数据自动对账方法，其特征在于，分别将其中一个多维度目标交易数据映射到另一个多维度目标交易数据中，得到映射前后对应的中间聚类簇中的数据点数量差异，包括：

7.根据权利要求6所述的多维度交易数据自动对账方法，其特征在于，所述根据映射前后的数据点数量差异以及映射前后的中间聚类簇的面积差异，得到内部密度变化指标，包括：

8.根据权利要求1所述的多维度交易数据自动对账方法，其特征在于，根据所述多源差异特征指标，对所述初始k值进行修正，得到目标k值，包括：

9.根据权利要求1所述的多维度交易数据自动对账方法，其特征在于，所述获取待对账的两个多维度目标交易数据，包括：

获取待对账的两个多维度初始交易数据；

10.一种多维度交易数据自动对账系统，其特征在于，包括：存储器及处理器；所述存储器与所述处理器连接；所述存储器，用于存储程序指令；所述处理器，用于在程序指令被执行时，实现权利要求1-9中任一项所述的多维度交易数据自动对账方法。