CN117150311A

CN117150311A - 数据处理方法、装置、设备和存储介质

Info

Publication number: CN117150311A
Application number: CN202311048095.XA
Authority: CN
Inventors: 李旺; 周境余; 刘智琼; 王昌; 刘静
Original assignee: China Telecom Technology Innovation Center; China Telecom Corp Ltd
Current assignee: China Telecom Technology Innovation Center; China Telecom Corp Ltd
Priority date: 2023-08-18
Filing date: 2023-08-18
Publication date: 2023-12-01

Abstract

本申请涉及一种数据处理方法、装置、设备和存储介质。所述方法包括：首先，分别确定第一业务系统中的目标数据与第二业务系统中的各个候选数据之间的语义相似度，然后，分别确定目标数据与各个候选数据之间的结构相似度，其中，结构相似度用于指示目标数据与第一业务系统中的其他数据的关联关系以及候选数据与第二业务系统中的其他数据的关联关系之间的相似度，最后，根据各个候选数据对应的语义相似度和结构相似度，确定相似度判定结果，根据相似度判定结果从多个候选数据中，确定与目标数据具有对应关系的数据。采用本方法能够实现不同业务系统间的数据的关联，不需要人工进行对比，效率更高。

Description

数据处理方法、装置、设备和存储介质

技术领域

本申请涉及IT与软件开发技术领域，特别是涉及一种数据处理方法、装置、设备和存储介质。

背景技术

随着公司业务系统复杂性和产品的多样性的增加，业务系统应用中使用了大量的主数据，但是不同业务系统之间的主数据的表示方式可能不同，这使得在整合主数据时，不同业务系统间的主数据无法关联。

目前，为了实现不同业务系统主数据的关联，需要对不同业务系统的主数据逐个进行比对，这种方式比较耗时，效率不高。

发明内容

基于此，有必要针对上述技术问题，提供一种效率更高的数据处理方法、装置、设备和存储介质。

第一方面，本申请提供了一种数据处理方法。该方法包括：分别确定第一业务系统中的目标数据与第二业务系统中的各个候选数据之间的语义相似度；分别确定目标数据与各个候选数据之间的结构相似度，结构相似度用于指示目标数据与第一业务系统中的其他数据的关联关系以及候选数据与第二业务系统中的其他数据的关联关系之间的相似度；根据各个候选数据对应的语义相似度和结构相似度，确定相似度判定结果；根据相似度判定结果从多个候选数据中，确定与目标数据具有对应关系的数据。

在其中一个实施例中，分别确定第一业务系统中的目标数据与第二业务系统中的各个候选数据之间的语义相似度，包括：从第一业务系统包括的数据中确定与目标数据关联的第一数据，并根据第一业务系统的业务结构生成目标数据和第一数据对应的第一概念树；对于各候选数据，从第二业务系统包括的数据中确定与候选数据关联的第二数据，并根据第二业务系统的业务结构生成候选数据和第二数据对应的第二概念树；分别确定第一概念树和各个第二概念树之间的相似度，以得到目标数据与各个候选数据之间的语义相似度。

在其中一个实施例中，分别确定目标数据与各个候选数据之间的结构相似度，包括：根据目标数据与各第一数据之间的关联关系，生成第一关联关系图，并根据目标数据的数据内容与各第一数据的数据内容，生成第一关联关系图对应的第一数据属性矩阵；对于各候选数据，根据候选数据与各第二数据之间的关联关系，生成第二关联关系图，并根据候选数据的数据内容与各第二数据的数据内容，生成第二关联关系图对应的第二数据属性矩阵；将第一关联关系图、第一数据属性矩阵、各第二关联关系图和各第二数据属性矩阵输入图神经网络模型，根据图神经网络模型的输出得到目标数据与各个候选数据之间的结构相似度。

在其中一个实施例中，根据各个候选数据对应的语义相似度和结构相似度，确定相似度判定结果，包括：对各候选数据对应的语义相似度和结构相似度进行融合处理，以得到各候选数据对应的综合相似度，并根据各候选数据对应的综合相似度，确定相似度判定结果。

在其中一个实施例中，对各候选数据对应的语义相似度和结构相似度进行融合处理，以得到各候选数据对应的综合相似度，并根据各候选数据对应的综合相似度，确定相似度判定结果，包括：根据各候选数据对应的语义相似度，构建语义相似度矩阵；根据各候选数据对应的结构相似度，构建结构相似度矩阵；对语义相似度矩阵和结构相似度矩阵进行加权求和处理，以得到由各候选数据对应的综合相似度构成的综合相似度矩阵，将综合相似度矩阵作为相似度判定结果。

在其中一个实施例中，综合相似度矩阵包括多个与各候选数据分别对应的多个相似度，根据相似度判定结果从多个候选数据中，确定与目标数据具有对应关系的数据，包括：若所述相似度中的最大值大于预设阈值，将各相似度中的最大值对应的候选数据，确定为与目标数据具有对应关系的数据。

在其中一个实施例中，分别确定第一概念树和各个第二概念树之间的相似度，包括：根据相似度算法，分别确定第一概念树和各个第二概念树之间的相似度，相似度算法包括编辑距离算法、公共子串算法，深度学习模型或者文本嵌入模型中的至少一种。

第二方面，本申请还提供了一种数据处理装置。该装置包括：

第一确定模块，用于分别确定第一业务系统中的目标数据与第二业务系统中的各个候选数据之间的语义相似度；

第二确定模块，用于分别确定目标数据与各个候选数据之间的结构相似度，结构相似度用于指示目标数据与第一业务系统中的其他数据的关联关系以及候选数据与第二业务系统中的其他数据的关联关系之间的相似度；

第三确定模块，用于根据各个候选数据对应的语义相似度和结构相似度，确定相似度判定结果；

第四确定模块，用于根据相似度判定结果从多个候选数据中，确定与目标数据具有对应关系的数据。

在其中一个实施例中，第一确定模块，具体用于从第一业务系统包括的数据中确定与目标数据关联的第一数据，并根据第一业务系统的业务结构生成目标数据和第一数据对应的第一概念树；对于各候选数据，从第二业务系统包括的数据中确定与候选数据关联的第二数据，并根据第二业务系统的业务结构生成候选数据和第二数据对应的第二概念树；分别确定第一概念树和各个第二概念树之间的相似度，以得到目标数据与各个候选数据之间的语义相似度。

在其中一个实施例中，第二确定模块，具体用于根据目标数据与各第一数据之间的关联关系，生成第一关联关系图，并根据目标数据的数据内容与各第一数据的数据内容，生成第一关联关系图对应的第一数据属性矩阵；对于各候选数据，根据候选数据与各第二数据之间的关联关系，生成第二关联关系图，并根据候选数据的数据内容与各第二数据的数据内容，生成第二关联关系图对应的第二数据属性矩阵；将第一关联关系图、第一数据属性矩阵、各第二关联关系图和各第二数据属性矩阵输入图神经网络模型，根据图神经网络模型的输出得到目标数据与各个候选数据之间的结构相似度。

在其中一个实施例中，第三确定模块，具体用于对各候选数据对应的语义相似度和结构相似度进行融合处理，以得到各候选数据对应的综合相似度，并根据各候选数据对应的综合相似度，确定相似度判定结果。

在其中一个实施例中，第三确定模块，具体用于根据各候选数据对应的语义相似度，构建语义相似度矩阵；根据各候选数据对应的结构相似度，构建结构相似度矩阵；对语义相似度矩阵和结构相似度矩阵进行加权求和处理，以得到由各候选数据对应的综合相似度构成的综合相似度矩阵，将综合相似度矩阵作为相似度判定结果。

在其中一个实施例中，综合相似度矩阵包括多个与各候选数据分别对应的多个相似度，第四确定模块，具体用于若所述相似度中的最大值大于预设阈值，将各相似度中的最大值对应的候选数据，确定为与目标数据具有对应关系的数据。

在其中一个实施例中，第一确定模块，具体用于根据相似度算法，分别确定第一概念树和各个第二概念树之间的相似度，相似度算法包括编辑距离算法、公共子串算法，深度学习模型或者文本嵌入模型中的至少一种。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一所述的数据处理方法。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面任一所述的数据处理方法。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述第一方面任一所述的数据处理方法。

上述数据处理方法、装置、设备和存储介质，首先，分别确定第一业务系统中的目标数据与第二业务系统中的各个候选数据之间的语义相似度，然后，分别确定目标数据与各个候选数据之间的结构相似度，其中，结构相似度用于指示目标数据与第一业务系统中的其他数据的关联关系以及候选数据与第二业务系统中的其他数据的关联关系之间的相似度，最后，根据各个候选数据对应的语义相似度和结构相似度，确定相似度判定结果，根据相似度判定结果从多个候选数据中，确定与目标数据具有对应关系的数据。通过这种方式，在确定第一业务系统中的目标数据和第二业务系统中的候选数据的文本相似度和结构相似度后，得到关联的目标数据和候选数据，实现不同业务系统间的数据的关联，不需要人工进行对比，效率更高。

附图说明

图1为一个实施例中数据处理方法的流程示意图；

图2为另一个实施例中数据处理方法的流程示意图；

图3为另一个实施例中语义相似度计算的流程图；

图4为另一个实施例中数据处理方法的流程示意图；

图5为另一个实施例中结构相似度计算的流程图；

图6为另一个实施例中数据处理方法的流程示意图；

图7为另一个实施例中数据处理方法的流程示意图；

图8为另一个实施例中数据处理方法的流程示意图；

图9为一个实施例中数据处理装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种数据处理方法，以该方法应用于终端为例进行说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。该方法包括以下步骤：

步骤101，分别确定第一业务系统中的目标数据与第二业务系统中的各个候选数据之间的语义相似度。

其中，第一业务系统和第二业务系统为不同的业务系统，目标数据可以为第一业务系统中的主数据，候选数据可以为第二业务系统中的主数据，第一业务系统和第二业务系统均可以包括多个主数据。可选的，主数据为不同业务系统之间相同的数据，但是表示方式不同。例如，表示性别，第一业务系统用“F(女)”、“M(男)”，而第二业务系统用“1000(女)”，“2000(男)”。因此，在不同的业务系统进行整合时，需要对主数据进行整合，也即将不同业务系统的主数据进行关联。

语义相似度，也即文本相似度，可选的，可以通过提取第一业务系统中的目标数据和第二业务系统中的各个候选数据之间的语义特征，确定语义相似度。

步骤102，分别确定目标数据与各个候选数据之间的结构相似度。

其中，结构相似度用于指示目标数据与第一业务系统中的其他数据的关联关系以及候选数据与第二业务系统中的其他数据的关联关系之间的相似度。目标数据与第一业务系统中的其他数据的关联关系可以通过第一业务系统中的业务模型，关联表等数据进行确定，候选数据与第二业务系统中的其他数据的关联关系可以通过第二业务系统中的业务模型，关联表等数据进行确定。然后，结构相似度可以通过提取目标数据与第一业务系统中的其他数据的关联关系的结构特征和候选数据与第二业务系统中的其他数据的关联关系的结构特征进行计算得到。

步骤103，根据各个候选数据对应的语义相似度和结构相似度，确定相似度判定结果。

在确定目标数据与各个候选数据对应的语义相似度以及结构相似度之后，可选的，对确定得到的语义相似度和结构相似度进行融合计算，确定相似度判定结果。

步骤104，根据相似度判定结果从多个候选数据中，确定与目标数据具有对应关系的数据。

每个相似度判定结果代表目标数据与各个候选数据的相似度，根据相似度判断结果可以确定目标数据具有对应关系的候选数据。对第一业务系统中的多个目标数据依次进行判断，可以得到与每个目标数据具有对应关系的候选数据，完成主数据的整合。

上述实施例中，首先，分别确定第一业务系统中的目标数据与第二业务系统中的各个候选数据之间的语义相似度，然后，分别确定目标数据与各个候选数据之间的结构相似度，其中，结构相似度用于指示目标数据与第一业务系统中的其他数据的关联关系以及候选数据与第二业务系统中的其他数据的关联关系之间的相似度，最后，根据各个候选数据对应的语义相似度和结构相似度，确定相似度判定结果，根据相似度判定结果从多个候选数据中，确定与目标数据具有对应关系的数据。通过这种方式，在确定第一业务系统中的目标数据和第二业务系统中的候选数据的文本相似度和结构相似度后，得到关联的目标数据和候选数据，实现不同业务系统间的数据的关联，不需要人工进行对比，效率更高。进一步的，同时通过语义相似度和结构相似度确定与目标数据关联的候选数据，数据关联的准确率更高。

在一个实施例中，语义相似度的确定步骤如图2所示，包括：

步骤201，从第一业务系统包括的数据中确定与目标数据关联的第一数据，并根据第一业务系统的业务结构生成目标数据和第一数据对应的第一概念树。

可选的，第一数据是第一业务系统中与目标数据关联的相关数据，例如，当目标数据为产品类型时，相关数据可以包括产品，产品类型的属性取值等。从第一业务系统中提取第一数据和目标数据，然后，根据业务结构生成第一概念树。

步骤202，对于各候选数据，从第二业务系统包括的数据中确定与候选数据关联的第二数据，并根据第二业务系统的业务结构生成候选数据和第二数据对应的第二概念树。

可选的，第二数据是第二业务系统中与候选数据关联的相关数据，从第二业务系统中提取第二数据和候选数据，然后根据业务结构可以生成第二概念树。

步骤203，分别确定第一概念树和各个第二概念树之间的相似度，以得到目标数据与各个候选数据之间的语义相似度。

根据相似度算法，分别确定第一概念树和各个第二概念树之间的相似度，相似度算法包括编辑距离算法、公共子串算法，深度学习模型或者文本嵌入模型中的至少一种。

在确定第一概念树和第二概念树之后，根据相似度算法，确定目标数据和各个候选数据之间的语义相似度。可选的，相似度算法可以包括编辑距离算法、公共子串算法，或者使用预训练过的开源的深度学习模型，例如fastText，以及文本嵌入模型如word2Vec，基于BERT的嵌入模型等等。可选的，针对不同的相似度算法由于输入不同，可以将第一概念树和第二概念树进行数据处理，符合不同的相似度算法的输入要求。

可选的，如图3所示，将第一业务系统中的目标数据生成的第一概念树和第二业务系统中的候选数据生成的第二概念树，输入不同的相似度算法进行相似度计算，得到语义相似度矩阵。

上述实施例中，通过获取第一业务系统的目标数据和第一数据生成的第一概念树和获取第二业务系统中的候选数据与第二数据生成的第二概念树，然后根据不同的相似度算法进行相似度计算，得到语义相似度矩阵，得到的语义相似度更准确。

在一个实施例中，结构相似度的确定步骤如图4所示，包括：

步骤401，根据目标数据与各第一数据之间的关联关系，生成第一关联关系图，并根据目标数据的数据内容与各第一数据的数据内容，生成第一关联关系图对应的第一数据属性矩阵。

可选的，根据目标数据与各第一数据之间的关联关系，以及第一业务系统的业务模型，第一业务系统中的表之间的关联，关联表等作为图关系，业务模型表的数据作为图节点，生成第一关联关系图。可选的，目标数据的数据内容和第一数据的数据内容，也即表的字段作为图节点的属性，字段值作为图节点的属性取值，对文本内容可以采用文本嵌入模型进行处理后，作为第一关联关系图的图节点属性取值内容，也即生成第一关联关系图对应的第一数据属性矩阵。

步骤402，对于各候选数据，根据候选数据与各第二数据之间的关联关系，生成第二关联关系图，并根据候选数据的数据内容与各第二数据的数据内容，生成第二关联关系图对应的第二数据属性矩阵。

可选的，对于各候选数据，如上述实施例所示，生成第二关联关系图和与第二关联关系图对应的第二数据属性矩阵。

步骤403，将第一关联关系图、第一数据属性矩阵、各第二关联关系图和各第二数据属性矩阵输入图神经网络模型，根据图神经网络模型的输出得到目标数据与各个候选数据之间的结构相似度。

将第一关联关系图、第一数据属性矩阵、各第二关联关系图和各第二数据属性矩阵输入预先训练好的图神经网络模型，然后根据图神经网络模型的输出得到目标数据与各个候选数据之间的结构相似度。可选的，图神经网络模型可以通过预设的训练集进行标注后训练得到的。

可选的，如图5所示，根据第一业务系统生成第一关联关系图即图中的graph1，第二业务系统生成第二关联关系图即图中的graph2，然后输入图神经网络模型，根据图神经网络模型内部处理，输出结构相似度向量，可选的，相似度向量可以拓展为结构相似度矩阵。

上述实施例中，通过获取第一业务系统的数据生成第一关联关系图和获取第二业务系统的数据生成第二关联关系图，然后输入图神经网络模型提取结构特征得到两个图的结构相似度，通过图神经网络模型生成目标数据和候选数据的包括相关数据的特征的结构相似度，实现更加精确的相似度计算。

在本申请的实施例中，根据各个候选数据对应的语义相似度和结构相似度，确定相似度判定结果，包括：对各候选数据对应的语义相似度和结构相似度进行融合处理，以得到各候选数据对应的综合相似度，并根据各候选数据对应的综合相似度，确定相似度判定结果。

可选的，具体的融合处理的步骤如图6所示，包括：

步骤601，根据各候选数据对应的语义相似度，构建语义相似度矩阵。

可选的，如图3所示，将目标数据和各候选数据生成概念树输入不同的相似度算法，得到目标数据与各候选数据在不同的相似度算法对应的语义相似度，构建得到语义相似度矩阵。

步骤602，根据各候选数据对应的结构相似度，构建结构相似度矩阵。

可选的，如图5所示，将目标数据和各候选数据的关联关系图输入图神经网络，得到目标数据和各候选数据的图相似度的向量，将向量进行拓展至与语义相似度矩阵的纬度相同，构建得到结构相似度矩阵。

步骤603，对语义相似度矩阵和结构相似度矩阵进行加权求和处理，以得到由各候选数据对应的综合相似度构成的综合相似度矩阵，将综合相似度矩阵作为相似度判定结果。

可选的，对上述得到的语义相似度矩阵和结构相似度矩阵赋予相应的权重，然后相加，得到目标数据与各候选数据对应的综合相似度矩阵，综合相似矩阵包括了目标数据与各候选数据的综合相似度，将将综合相似度矩阵作为相似度判定结果。

可选的，综合相似度矩阵包括多个与各候选数据分别对应的多个相似度，根据相似度判定结果从多个候选数据中，确定与目标数据具有对应关系的数据，包括：若所述相似度中的最大值大于预设阈值，将各相似度中的最大值对应的候选数据，确定为与目标数据具有对应关系的数据。

可选的，将各相似度中的最大值与预设阈值进行比较，若大于预设阈值，则将最大值对应的候选数据，确定为与目标数据具有对应关系的数据。输出对应的数据对，例如以上述第一业务系统和第二业务系统中的一个主数据为例，输出“第一业务系统-F-女-相似-第二业务系统-1000-女”。可选的，可以根据最后输出的具有对应关系的数据对的准确性动态调整语义相似度和结构相似度的权重值，提高匹配的准确性。

上述实施例中，通过对语义相似度和结构相似度进行融合计算，得到最终的综合相似度，然后根据综合相似度和预设阈值确定与目标数据关联的候选数据，可以根据主数据关联的结果动态调整权重值，提高主数据关联的准确率。

在本申请的实施例中，请参考图7，其示出了本申请实施例提供的数据处理方法的流程图，该数据处理方法包括以下步骤：

步骤701，从第一业务系统包括的数据中确定与目标数据关联的第一数据，并根据第一业务系统的业务结构生成目标数据和第一数据对应的第一概念树。

步骤702，对于各候选数据，从第二业务系统包括的数据中确定与候选数据关联的第二数据，并根据第二业务系统的业务结构生成候选数据和第二数据对应的第二概念树。

步骤703，分别确定第一概念树和各个第二概念树之间的相似度，以得到目标数据与各个候选数据之间的语义相似度。

步骤704，根据目标数据与各第一数据之间的关联关系，生成第一关联关系图，并根据目标数据的数据内容与各第一数据的数据内容，生成第一关联关系图对应的第一数据属性矩阵。

步骤705，对于各候选数据，根据候选数据与各第二数据之间的关联关系，生成第二关联关系图，并根据候选数据的数据内容与各第二数据的数据内容，生成第二关联关系图对应的第二数据属性矩阵。

步骤706，将第一关联关系图、第一数据属性矩阵、各第二关联关系图和各第二数据属性矩阵输入图神经网络模型，根据图神经网络模型的输出得到目标数据与各个候选数据之间的结构相似度。

步骤707，根据各候选数据对应的语义相似度，构建语义相似度矩阵。

步骤708，根据各候选数据对应的结构相似度，构建结构相似度矩阵。

步骤709，对语义相似度矩阵和结构相似度矩阵进行加权求和处理，以得到由各候选数据对应的综合相似度构成的综合相似度矩阵，将综合相似度矩阵作为相似度判定结果。

步骤710，根据相似度判定结果从多个候选数据中，确定与目标数据具有对应关系的数据。

在一个实施例中，提供了一种数据处理方法，如图8所示，从第一业务系统获取与目标数据的关联数据生成第一概念树、第一关联关系图以及第一数据属性矩阵，从第二业务系统获取与候选数据的关联数据生成第二概念树、第二关系图以及第二数据属性矩阵，然后将第一概念树和第二概念树输入相似度算法得到语义相似度矩阵，第一关联关系图、第一数据属性矩阵、各第二关联关系图和各第二数据属性矩阵输入图神经网络模型得到相似度向量然后拓展为结构相似度矩阵，将语义相似度矩阵和结构相似度矩阵进行加权求和，然后根据预设阈值，输出第一业务系统和第二业务系统的主数据的对应关系，也即主数据关联对。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的数据处理方法的数据处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个数据处理装置实施例中的具体限定可以参见上文中对于数据处理方法的限定，在此不再赘述。

在一个实施例中，如图9所示，提供了一种数据处理装置900，包括：第一确定模块901、第二确定模块902、第三确定模块903和第四确定模块904，其中：

该第一确定模块901，用于分别确定第一业务系统中的目标数据与第二业务系统中的各个候选数据之间的语义相似度；

该第二确定模块902，用于分别确定目标数据与各个候选数据之间的结构相似度，结构相似度用于指示目标数据与第一业务系统中的其他数据的关联关系以及候选数据与第二业务系统中的其他数据的关联关系之间的相似度；

该第三确定模块903，用于根据各个候选数据对应的语义相似度和结构相似度，确定相似度判定结果；

该第四确定模块904，用于根据相似度判定结果从多个候选数据中，确定与目标数据具有对应关系的数据。

在一个实施例中，该第一确定模块901，具体用于从第一业务系统包括的数据中确定与目标数据关联的第一数据，并根据第一业务系统的业务结构生成目标数据和第一数据对应的第一概念树；对于各候选数据，从第二业务系统包括的数据中确定与候选数据关联的第二数据，并根据第二业务系统的业务结构生成候选数据和第二数据对应的第二概念树；分别确定第一概念树和各个第二概念树之间的相似度，以得到目标数据与各个候选数据之间的语义相似度。

在一个实施例中，该第二确定模块902，具体用于根据目标数据与各第一数据之间的关联关系，生成第一关联关系图，并根据目标数据的数据内容与各第一数据的数据内容，生成第一关联关系图对应的第一数据属性矩阵；对于各候选数据，根据候选数据与各第二数据之间的关联关系，生成第二关联关系图，并根据候选数据的数据内容与各第二数据的数据内容，生成第二关联关系图对应的第二数据属性矩阵；将第一关联关系图、第一数据属性矩阵、各第二关联关系图和各第二数据属性矩阵输入图神经网络模型，根据图神经网络模型的输出得到目标数据与各个候选数据之间的结构相似度。

在一个实施例中，该第三确定模块903，具体用于对各候选数据对应的语义相似度和结构相似度进行融合处理，以得到各候选数据对应的综合相似度，并根据各候选数据对应的综合相似度，确定相似度判定结果。

在一个实施例中，该第三确定模块903，具体用于根据各候选数据对应的语义相似度，构建语义相似度矩阵；根据各候选数据对应的结构相似度，构建结构相似度矩阵；对语义相似度矩阵和结构相似度矩阵进行加权求和处理，以得到由各候选数据对应的综合相似度构成的综合相似度矩阵，将综合相似度矩阵作为相似度判定结果。

在一个实施例中，综合相似度矩阵包括多个与各候选数据分别对应的多个相似度，该第四确定模块904，具体用于若所述相似度中的最大值大于预设阈值，将各相似度中的最大值对应的候选数据，确定为与目标数据具有对应关系的数据。

在一个实施例中，该第一确定模块901，具体用于根据相似度算法，分别确定第一概念树和各个第二概念树之间的相似度，相似度算法包括编辑距离算法、公共子串算法，深度学习模型或者文本嵌入模型中的至少一种。

上述数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种数据处理方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：分别确定第一业务系统中的目标数据与第二业务系统中的各个候选数据之间的语义相似度；分别确定目标数据与各个候选数据之间的结构相似度，结构相似度用于指示目标数据与第一业务系统中的其他数据的关联关系以及候选数据与第二业务系统中的其他数据的关联关系之间的相似度；根据各个候选数据对应的语义相似度和结构相似度，确定相似度判定结果；根据相似度判定结果从多个候选数据中，确定与目标数据具有对应关系的数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：从第一业务系统包括的数据中确定与目标数据关联的第一数据，并根据第一业务系统的业务结构生成目标数据和第一数据对应的第一概念树；对于各候选数据，从第二业务系统包括的数据中确定与候选数据关联的第二数据，并根据第二业务系统的业务结构生成候选数据和第二数据对应的第二概念树；分别确定第一概念树和各个第二概念树之间的相似度，以得到目标数据与各个候选数据之间的语义相似度。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据目标数据与各第一数据之间的关联关系，生成第一关联关系图，并根据目标数据的数据内容与各第一数据的数据内容，生成第一关联关系图对应的第一数据属性矩阵；对于各候选数据，根据候选数据与各第二数据之间的关联关系，生成第二关联关系图，并根据候选数据的数据内容与各第二数据的数据内容，生成第二关联关系图对应的第二数据属性矩阵；将第一关联关系图、第一数据属性矩阵、各第二关联关系图和各第二数据属性矩阵输入图神经网络模型，根据图神经网络模型的输出得到目标数据与各个候选数据之间的结构相似度。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对各候选数据对应的语义相似度和结构相似度进行融合处理，以得到各候选数据对应的综合相似度，并根据各候选数据对应的综合相似度，确定相似度判定结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据各候选数据对应的语义相似度，构建语义相似度矩阵；根据各候选数据对应的结构相似度，构建结构相似度矩阵；对语义相似度矩阵和结构相似度矩阵进行加权求和处理，以得到由各候选数据对应的综合相似度构成的综合相似度矩阵，将综合相似度矩阵作为相似度判定结果。

在一个实施例中，综合相似度矩阵包括多个与各候选数据分别对应的多个相似度，处理器执行计算机程序时还实现以下步骤：若所述相似度中的最大值大于预设阈值，将各相似度中的最大值对应的候选数据，确定为与目标数据具有对应关系的数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据相似度算法，分别确定第一概念树和各个第二概念树之间的相似度，相似度算法包括编辑距离算法、公共子串算法，深度学习模型或者文本嵌入模型中的至少一种。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：分别确定第一业务系统中的目标数据与第二业务系统中的各个候选数据之间的语义相似度；分别确定目标数据与各个候选数据之间的结构相似度，结构相似度用于指示目标数据与第一业务系统中的其他数据的关联关系以及候选数据与第二业务系统中的其他数据的关联关系之间的相似度；根据各个候选数据对应的语义相似度和结构相似度，确定相似度判定结果；根据相似度判定结果从多个候选数据中，确定与目标数据具有对应关系的数据。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：从第一业务系统包括的数据中确定与目标数据关联的第一数据，并根据第一业务系统的业务结构生成目标数据和第一数据对应的第一概念树；对于各候选数据，从第二业务系统包括的数据中确定与候选数据关联的第二数据，并根据第二业务系统的业务结构生成候选数据和第二数据对应的第二概念树；分别确定第一概念树和各个第二概念树之间的相似度，以得到目标数据与各个候选数据之间的语义相似度。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据目标数据与各第一数据之间的关联关系，生成第一关联关系图，并根据目标数据的数据内容与各第一数据的数据内容，生成第一关联关系图对应的第一数据属性矩阵；对于各候选数据，根据候选数据与各第二数据之间的关联关系，生成第二关联关系图，并根据候选数据的数据内容与各第二数据的数据内容，生成第二关联关系图对应的第二数据属性矩阵；将第一关联关系图、第一数据属性矩阵、各第二关联关系图和各第二数据属性矩阵输入图神经网络模型，根据图神经网络模型的输出得到目标数据与各个候选数据之间的结构相似度。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对各候选数据对应的语义相似度和结构相似度进行融合处理，以得到各候选数据对应的综合相似度，并根据各候选数据对应的综合相似度，确定相似度判定结果。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据各候选数据对应的语义相似度，构建语义相似度矩阵；根据各候选数据对应的结构相似度，构建结构相似度矩阵；对语义相似度矩阵和结构相似度矩阵进行加权求和处理，以得到由各候选数据对应的综合相似度构成的综合相似度矩阵，将综合相似度矩阵作为相似度判定结果。

在一个实施例中，综合相似度矩阵包括多个与各候选数据分别对应的多个相似度，计算机程序被处理器执行时还实现以下步骤：若所述相似度中的最大值大于预设阈值，将各相似度中的最大值对应的候选数据，确定为与目标数据具有对应关系的数据。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据相似度算法，分别确定第一概念树和各个第二概念树之间的相似度，相似度算法包括编辑距离算法、公共子串算法，深度学习模型或者文本嵌入模型中的至少一种。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：分别确定第一业务系统中的目标数据与第二业务系统中的各个候选数据之间的语义相似度；分别确定目标数据与各个候选数据之间的结构相似度，结构相似度用于指示目标数据与第一业务系统中的其他数据的关联关系以及候选数据与第二业务系统中的其他数据的关联关系之间的相似度；根据各个候选数据对应的语义相似度和结构相似度，确定相似度判定结果；根据相似度判定结果从多个候选数据中，确定与目标数据具有对应关系的数据。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

分别确定第一业务系统中的目标数据与第二业务系统中的各个候选数据之间的语义相似度；

分别确定所述目标数据与各个所述候选数据之间的结构相似度，所述结构相似度用于指示所述目标数据与所述第一业务系统中的其他数据的关联关系以及所述候选数据与所述第二业务系统中的其他数据的关联关系之间的相似度；

根据各个所述候选数据对应的语义相似度和结构相似度，确定相似度判定结果；

根据所述相似度判定结果从多个所述候选数据中，确定与所述目标数据具有对应关系的数据。

2.根据权利要求1所述的方法，其特征在于，所述分别确定第一业务系统中的目标数据与第二业务系统中的各个候选数据之间的语义相似度，包括：

从所述第一业务系统包括的数据中确定与所述目标数据关联的第一数据，并根据所述第一业务系统的业务结构生成所述目标数据和所述第一数据对应的第一概念树；

对于各所述候选数据，从所述第二业务系统包括的数据中确定与所述候选数据关联的第二数据，并根据所述第二业务系统的业务结构生成所述候选数据和所述第二数据对应的第二概念树；

分别确定所述第一概念树和各个所述第二概念树之间的相似度，以得到所述目标数据与各个所述候选数据之间的语义相似度。

3.根据权利要求2所述的方法，其特征在于，所述分别确定所述目标数据与各个所述候选数据之间的结构相似度，包括：

根据所述目标数据与各所述第一数据之间的关联关系，生成第一关联关系图，并根据所述目标数据的数据内容与各所述第一数据的数据内容，生成所述第一关联关系图对应的第一数据属性矩阵；

对于各所述候选数据，根据所述候选数据与各所述第二数据之间的关联关系，生成第二关联关系图，并根据所述候选数据的数据内容与各所述第二数据的数据内容，生成所述第二关联关系图对应的第二数据属性矩阵；

将所述第一关联关系图、所述第一数据属性矩阵、各所述第二关联关系图和各所述第二数据属性矩阵输入图神经网络模型，根据所述图神经网络模型的输出得到所述目标数据与各个所述候选数据之间的结构相似度。

4.根据权利要求1至3任一所述的方法，其特征在于，所述根据各个所述候选数据对应的语义相似度和结构相似度，确定相似度判定结果，包括：

对各所述候选数据对应的语义相似度和结构相似度进行融合处理，以得到各所述候选数据对应的综合相似度，并根据各所述候选数据对应的综合相似度，确定所述相似度判定结果。

5.根据权利要求4所述的方法，其特征在于，所述对各所述候选数据对应的语义相似度和结构相似度进行融合处理，以得到各所述候选数据对应的综合相似度，并根据各所述候选数据对应的综合相似度，确定所述相似度判定结果，包括：

根据各所述候选数据对应的语义相似度，构建语义相似度矩阵；

根据各所述候选数据对应的结构相似度，构建结构相似度矩阵；

对所述语义相似度矩阵和所述结构相似度矩阵进行加权求和处理，以得到由各所述候选数据对应的综合相似度构成的综合相似度矩阵，将所述综合相似度矩阵作为所述相似度判定结果。

6.根据权利要求5所述的方法，其特征在于，所述综合相似度矩阵包括多个与各所述候选数据分别对应的多个相似度，所述根据所述相似度判定结果从多个所述候选数据中，确定与所述目标数据具有对应关系的数据，包括：

若所述相似度中的最大值大于预设阈值，将各所述相似度中的最大值对应的候选数据，确定为与所述目标数据具有对应关系的数据。

7.根据权利要求2所述的方法，其特征在于，所述分别确定所述第一概念树和各个所述第二概念树之间的相似度，包括：

根据相似度算法，分别确定所述第一概念树和各个所述第二概念树之间的相似度，所述相似度算法包括编辑距离算法、公共子串算法，深度学习模型或者文本嵌入模型中的至少一种。

8.一种数据处理装置，其特征在于，所述装置包括：

第二确定模块，用于分别确定所述目标数据与各个所述候选数据之间的结构相似度，所述结构相似度用于指示所述目标数据与所述第一业务系统中的其他数据的关联关系以及所述候选数据与所述第二业务系统中的其他数据的关联关系之间的相似度；

第三确定模块，用于根据各个所述候选数据对应的语义相似度和结构相似度，确定相似度判定结果；

第四确定模块，用于根据所述相似度判定结果从多个所述候选数据中，确定与所述目标数据具有对应关系的数据。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。