CN117371028A

CN117371028A - 数据匹配方法、装置、计算机设备及存储介质

Info

Publication number: CN117371028A
Application number: CN202311234886.1A
Authority: CN
Inventors: 王聪会
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2023-09-22
Filing date: 2023-09-22
Publication date: 2024-01-09

Abstract

本申请涉及一种数据匹配方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：根据预设隐私集合求交策略计算数据接收方对应的第一待匹配数据与数据发送方对应的第二待匹配数据之间的交集字符数量；基于第一待匹配数据的总字符数量、第二待匹配数据的总字符数量以及交集字符数量计算第一待匹配数据与第二待匹配数据之间的相似度；根据相似度确定模糊匹配结果；将模糊匹配结果同步至数据发送方。采用本方法能够避免暴露待匹配数据的额外信息，与精准匹配相比，提升了敏感数据匹配准确性。

Description

数据匹配方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机信息处理技术领域，特别是涉及一种数据匹配方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着企业和个人对数据隐私保护重视程度的提高，隐私数据匹配逐渐有了越来越广泛的需求。例如，金融机构在为客户提供服务时，可能需要进行跨机构敏感数据匹配，对客户资质或信息进行核查。

目前跨机构的敏感数据匹配一般采用精准匹配，但是精准匹配的方式只有双方数据完全一致的情况下才能匹配成功，无法识别本质相同、但有较小区别的敏感数据，导致匹配错误率高，例如，两家金融机构拥有若干共同的客户，需求是确认这些共同客户所提供的个人住址信息是否一致，但是同一个地址信息可能会有不同的留存形式，如“A号院”和“A小区”指向的是同一个小区，此时若是利用精确匹配的方式，容易将这两个地址信息误判为不同的小区。因此，如何提升敏感数据匹配的准确性，是当前亟待解决的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够在不暴露额外信息的情况下，提升敏感数据匹配准确性的数据匹配方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种数据匹配方法。所述方法应用于数据接收方，包括：

根据预设隐私集合求交策略计算数据接收方对应的第一待匹配数据与数据发送方对应的第二待匹配数据之间的交集字符数量；

基于所述第一待匹配数据的总字符数量、所述第二待匹配数据的总字符数量以及所述交集字符数量计算所述第一待匹配数据与所述第二待匹配数据之间的相似度；

根据所述相似度确定模糊匹配结果；

将所述模糊匹配结果同步至所述数据发送方。

在其中一个实施例中，所述根据预设隐私集合求交策略计算数据接收方对应的第一待匹配数据与数据发送方对应的第二待匹配数据之间的交集字符数量，包括：

生成随机数，并根据所述随机数和私钥对第一待匹配数据进行签名，得到第一密文数据；

将所述第一密文数据发送给数据发送方，以指示所述数据发送方使用公钥对所述第一密文数据进行加密，得到第二密文数据，将所述第二密文数据和第三密文数据发送至数据接收方，其中，所述第三密文数据为所述数据发送方使用所述公钥对第二待匹配数据加密得到，所述数据发送方的公钥与所述数据接收方的私钥对应；

利用所述私钥和所述随机数对接收到的所述第二密文数据进行解密，得到第四密文数据；

计算所述第三密文数据与所述第四密文数据之间的交集，得到交集字符数量。

在其中一个实施例中，所述基于所述第一待匹配数据的总字符数量、所述第二待匹配数据的总字符数量以及所述交集字符数量计算所述第一待匹配数据与所述第二待匹配数据之间的相似度，包括：

基于所述第一待匹配数据的总字符数量、所述第二待匹配数据的总字符数量以及所述交集字符数量计算所述第一待匹配数据与所述第二待匹配数据之间的第一相似度；

提取所述第三密文数据对应的第一差异数据，并提取所述第四密文数据对应的第二差异数据；

将所述第一差异数据和所述第二差异数据输入至预先训练好的神经网络模型，得到第二相似度；

根据所述第一相似度和所述第二相似度确定所述第一待匹配数据与所述第二待匹配数据之间的相似度。

在其中一个实施例中，所述根据预设隐私集合求交策略计算数据接收方对应的第一待匹配数据与数据发送方对应的第二待匹配数据之间的交集字符数量之前，所述方法还包括：

根据待匹配信息查询得到第一目标数据；

根据预设字典对所述第一目标数据进行数字转换，得到第一待匹配数据；

并根据所述待匹配信息向数据发送方请求数据，以指示所述数据发送方根据所述待匹配信息查询得到第二目标数据，根据预设字典对所述第二目标数据进行数字转换，得到第二待匹配数据。

在其中一个实施例中，所述基于所述第一待匹配数据的总字符数量、所述第二待匹配数据的总字符数量以及所述交集字符数量计算所述第一待匹配数据与所述第二待匹配数据之间的第一相似度，包括：

利用杰卡德相似系数，基于所述第一待匹配数据的总字符数量、所述第二待匹配数据的总字符数量以及所述交集字符数量确定并集数量；

根据所述交集字符数量和所述并集数量计算所述第一待匹配数据与所述第二待匹配数据之间的第一相似度。

在其中一个实施例中，所述根据所述相似度确定模糊匹配结果，包括：

在所述相似度大于预设阈值时，确定模糊匹配结果为匹配成功；

在所述相似度小于或等于预设阈值时，确定模糊匹配结果为匹配失败。

第二方面，本申请还提供了一种数据匹配装置。所述装置应用于数据接收方，包括：

隐私集合求交模块，用于根据预设隐私集合求交策略计算数据接收方对应的第一待匹配数据与数据发送方对应的第二待匹配数据之间的交集字符数量；

模糊匹配模块，用于基于所述第一待匹配数据的总字符数量、所述第二待匹配数据的总字符数量以及所述交集字符数量计算所述第一待匹配数据与所述第二待匹配数据之间的相似度，根据所述相似度确定模糊匹配结果；

结果管理模块，用于将所述模糊匹配结果同步至所述数据发送方。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

根据所述相似度确定模糊匹配结果；

将所述模糊匹配结果同步至所述数据发送方。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

根据所述相似度确定模糊匹配结果；

将所述模糊匹配结果同步至所述数据发送方。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

根据所述相似度确定模糊匹配结果；

将所述模糊匹配结果同步至所述数据发送方。

上述数据匹配方法、装置、计算机设备、存储介质和计算机程序产品，根据预设隐私集合求交策略计算数据接收方对应的第一待匹配数据与数据发送方对应的第二待匹配数据之间的交集字符数量；基于第一待匹配数据的总字符数量、第二待匹配数据的总字符数量以及交集字符数量计算第一待匹配数据与第二待匹配数据之间的相似度；根据相似度确定模糊匹配结果；将模糊匹配结果同步至数据发送方。通过上述方式，调用预设隐私集合求交策略能够避免暴露待匹配数据的额外信息，通过计算相似度的方式进行数据的模糊匹配，与精准匹配相比，提升了敏感数据匹配准确性。

附图说明

图1为一个实施例中数据匹配方法的应用环境图；

图2为一个实施例中数据匹配方法的流程示意图；

图3为一个实施例中202步骤的流程示意图；

图4为一个实施例中204步骤的流程示意图；

图5为一个实施例中数据匹配装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的数据匹配方法，可以应用于如图1所示的应用环境中。其中，数据接收方102通过网络与数据发送方104进行通信。数据接收方102与数据发送方104均设置有数据存储系统，用于存储需要处理的数据。其中，数据接收方102和数据发送方104可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。数据接收方102和数据发送方104还可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种数据匹配方法，以该方法应用于图1中的数据接收方102为例进行说明，包括以下步骤：

步骤202，根据预设隐私集合求交策略计算数据接收方对应的第一待匹配数据与数据发送方对应的第二待匹配数据之间的交集字符数量。

其中，预设隐私集合求交策略为提前设置的在不泄露参与双方任何额外信息的情况下，得到双方持有数据的交集的计算策略，可以采用朴素哈希求交方式、基于全同态加密的隐私集合求交方式、基于公钥加密的隐私集合求交方式等等，本实施例对此不加以限制。以采用朴素哈希求交方式进行隐私集合求交为例进行说明：

数据发送方持有数据X，数据接收方持有数据Y；数据发送方和数据接收方使用相同的哈希函数；数据发送方生成随机盐值salt并发送给数据接收方；数据接收方使用salt对Y进行哈希计算，得到加密数据y₁；数据发送方使用salt对X进行哈希计算，得到加密数据x₁，并发送给数据接收方；数据接收方计算x₁∩y₁，从而确定数据X与数据Y之间的交集。

在具体实现中，具有敏感数据匹配需求的双方中任一方为数据接收方，另一方为数据发送方。可选地，为了提升敏感数据匹配的效率，具有敏感数据匹配需求的双方均同时为数据接收方和数据发送方，在接收数据的同时向另一方发送数据，从而同步计算多条敏感数据间的交集字符数量。

其中，交集字符数量是指第一待匹配数据与第二待匹配数据之间的交集所包含的字符个数，例如，根据预设隐私集合求交策略计算的交集中包含k个字符，则确定交集字符数量为k。

其中，第一待匹配数据和第二待匹配数据为数据合作双方针对同一类型的字段所存储的数据，例如，两个金融机构针对同一客户存储的居住地址。可选地，数据接收方和数据发送方提前针对同一类型的字段进行检索，从数据库中获取待匹配数据并进行数据准备工作，例如，字符转化处理、数据加密处理等等。

步骤204，基于所述第一待匹配数据的总字符数量、所述第二待匹配数据的总字符数量以及所述交集字符数量计算所述第一待匹配数据与所述第二待匹配数据之间的相似度。

其中，第一待匹配数据的总字符数量是指第一待匹配数据中包含的字符个数，第二待匹配数据的总字符数量是指第二待匹配数据中包含的字符个数。可选地，利用杰卡德相似系数计算双方数据的相似性，具体参考以下公式：

式中，m为第一待匹配数据的总字符数量，n为第二待匹配数据的总字符数量，I为交集字符数量。其中，若S＝1，且m＝n，则表示第一待匹配数据与第二待匹配数据完全一致。

步骤206，根据所述相似度确定模糊匹配结果。

其中，若相似度较高，确定模糊匹配成功，若相似度较低，确定模糊匹配失败。相比于精准匹配，即使双方数据有区别，也能确定两者的相似度。

步骤208，将所述模糊匹配结果同步至所述数据发送方。

其中，数据接收方将模糊匹配结果同步给数据发送方，从而能够更好的进行结果共享。在数据合作双方针对不同的数据同时进行匹配时，每条数据的数据接收方均进行数据同步，从而使得数据合作双方均能得到各条敏感数据的匹配结果。

上述数据匹配方法中，根据预设隐私集合求交策略计算数据接收方对应的第一待匹配数据与数据发送方对应的第二待匹配数据之间的交集字符数量；基于第一待匹配数据的总字符数量、第二待匹配数据的总字符数量以及交集字符数量计算第一待匹配数据与第二待匹配数据之间的相似度；根据相似度确定模糊匹配结果；将模糊匹配结果同步至数据发送方。通过上述方式，调用预设隐私集合求交策略能够避免暴露待匹配数据的额外信息，通过计算相似度的方式进行数据的模糊匹配，与精准匹配相比，提升了敏感数据匹配准确性。

在一个实施例中，如图3所示，步骤202，包括：

步骤302，生成随机数，并根据所述随机数和私钥对第一待匹配数据进行签名，得到第一密文数据。

其中，假设数据接收方持有的第一待匹配数据为X，数据发送方持有的第二待匹配数据为Y，数据接收方生成随机数，并使用随机数以及私钥对数据X进行签名。可选地，数据接收方持有私钥，并将对应的公钥发送给数据发送方，私钥和公钥为非对称加密算法生成的非对称密钥，非对称加密算法例如RSA算法。可选地，数据接收方和数据发送方使用相同的哈希函数，在进行签名时，先使用该哈希函数对数据进行处理，然后使用随机数以及私钥进行签名，进一步提升数据交互的安全性。

步骤304，将所述第一密文数据发送给数据发送方，以指示所述数据发送方使用公钥对所述第一密文数据进行加密，得到第二密文数据，将所述第二密文数据和第三密文数据发送至数据接收方，其中，所述第三密文数据为所述数据发送方使用所述公钥对第二待匹配数据加密得到，所述数据发送方的公钥与所述数据接收方的私钥对应。

其中，数据发送方使用公钥对持有的第二待匹配数据Y进行加密，可选地，数据发送方使用哈希函数对数据Y进行处理，然后使用公钥进行加密。针对数据接收方发出的第一密文数据，数据发送方使用公钥进行加密，将加密后的第二密文数据和第三密文数据发送至数据接收方。

步骤306，利用所述私钥和所述随机数对接收到的所述第二密文数据进行解密，得到第四密文数据。

步骤308，计算所述第三密文数据与所述第四密文数据之间的交集，得到交集字符数量。

其中，假设第三密文数据为Y’，第四密文数据为X’，计算X’∩Y’，确定交集F，确定交集F中包括的字符数量。

本实施例中，通过生成随机数，并根据随机数和私钥对第一待匹配数据进行签名，得到第一密文数据；将第一密文数据发送给数据发送方，以指示数据发送方使用公钥对第一密文数据进行加密，得到第二密文数据，将第二密文数据和第三密文数据发送至数据接收方，其中，第三密文数据为数据发送方使用公钥对第二待匹配数据加密得到，数据发送方的公钥与数据接收方的私钥对应；利用私钥和随机数对接收到的第二密文数据进行解密，得到第四密文数据；计算第三密文数据与第四密文数据之间的交集，得到交集字符数量，能够在数据交互时均使用密文数据，避免暴露待匹配数据的额外信息，确保数据合作双方计算数据交集的安全性。

在一个实施例中，如图4所示，步骤204，包括：

步骤402，基于所述第一待匹配数据的总字符数量、所述第二待匹配数据的总字符数量以及所述交集字符数量计算所述第一待匹配数据与所述第二待匹配数据之间的第一相似度。

其中，在实际使用场景下，仅计算两个待匹配数据的交集可能会误判数据的真实含义，例如，“A号院”和“A小区”本质是同一个地址，如果“A”转换后的字符数小于“号院”和“小区”，仅计算交集得到的相似度可能较低，造成模糊匹配的结果不准确。因此，本实施例中针对待匹配数据相对于交集的差异数据进行相似度计算，进一步对待匹配数据的含义进行分析，从而提升敏感数据匹配的准确性。

可选地，利用杰卡德相似系数计算双方数据的第一相似性，具体参考以下公式：

式中，m为第一待匹配数据的总字符数量，n为第二待匹配数据的总字符数量，I为交集字符数量。

步骤404，提取所述第三密文数据对应的第一差异数据，并提取所述第四密文数据对应的第二差异数据。

其中，若S＝1，且m＝n，则表示第一待匹配数据与第二待匹配数据完全一致，此时第三密文数据、第四密文数据中不存在差异数据，无需执行步骤404-408。

在具体实现中，针对第三密文数据，从中去除交集数据，即可得到第一差异数据，针对第四密文数据，从中去除交集数据，即可得到第二差异数据。

步骤406，将所述第一差异数据和所述第二差异数据输入至预先训练好的神经网络模型，得到第二相似度。

其中，预先训练好的神经网络模型可以采用BERT网络，本实施例对此不加以限制。在具体实现中，通过以下方式对神经网络模型进行训练：

1、采集训练样本，例如，与地址相关的训练样本中可以包括“社区”与“小区”、“公司”与“集团”等正样本，还可以包括“饭店”与“小区”等负样本；

2、对样本采用步骤302-步骤306的方式进行加密，得到处理后的样本数据；

3、根据处理后的样本数据对神经网络模型进行训练，直到训练的迭代次数高于预设次数或神经网络模型的损失函数值小于预设损失值，得到训练好的神经网络模型。

其中，将第一差异数据和第二差异数据作为神经网络模型的输入，经由神经网络模型进行计算，输出第一差异数据与第二差异数据之间的第二相似度。

步骤408，根据所述第一相似度和所述第二相似度确定所述第一待匹配数据与所述第二待匹配数据之间的相似度。

其中，将第一相似度S₁与第二相似度S₂相加，得到第一待匹配数据与第二待匹配数据之间的相似度。

本实施例中，通过基于第一待匹配数据的总字符数量、第二待匹配数据的总字符数量以及交集字符数量计算第一待匹配数据与第二待匹配数据之间的第一相似度；提取第三密文数据对应的第一差异数据，并提取第四密文数据对应的第二差异数据；将第一差异数据和第二差异数据输入至预先训练好的神经网络模型，得到第二相似度；根据第一相似度和第二相似度确定第一待匹配数据与第二待匹配数据之间的相似度，能够对差异数据进行相似度估计，提升了相似度计算的准确性，进而提升了敏感数据匹配的准确性。

在一个实施例中，所述步骤202之前，所述方法还包括：根据待匹配信息查询得到第一目标数据；根据预设字典对所述第一目标数据进行数字转换，得到第一待匹配数据；并根据所述待匹配信息向数据发送方请求数据，以指示所述数据发送方根据所述待匹配信息查询得到第二目标数据，根据预设字典对所述第二目标数据进行数字转换，得到第二待匹配数据。

其中，待匹配信息为数据合作双方需要匹配的字段信息，例如，客户名称等。可选地，数据接收方以列表的形式罗列需要匹配的字段信息，按照列表顺序读取待匹配信息，根据待匹配信息从数据库中查询第一目标数据，并将待匹配信息发送至数据发送方，由数据发送方从对应的数据库中查询第二目标数据。

其中，数据合作双方均通过数据管理模块准备待匹配数据，在一个完整的匹配过程中，假设数据接收方持有的一条数据为X＝{x₁,x₂,…,x_m}，数据发送方持有的一条数据为Y＝{y₁,y₂,…,y_n}，若为地址信息，则X和Y均为一个完整的地址，其中的每个元素为一个字符。

其中，数据合作双方设置有相同的字典，均通过字典管理模块对如地址类的文本信息进行数字转换，以便进行后续的交集计算和相似度计算。

在一个实施例中，所述步骤402，包括：利用杰卡德相似系数，基于所述第一待匹配数据的总字符数量、所述第二待匹配数据的总字符数量以及所述交集字符数量确定并集数量；根据所述交集字符数量和所述并集数量计算所述第一待匹配数据与所述第二待匹配数据之间的第一相似度。

其中，利用杰卡德相似系数计算双方数据的第一相似性，具体参考以下公式：

在一个实施例中，所述步骤206，包括：在所述相似度大于预设阈值时，确定模糊匹配结果为匹配成功；在所述相似度小于或等于预设阈值时，确定模糊匹配结果为匹配失败。

其中，预设阈值为提前基于经验或实际需求设置的数值，在相似度大于预设阈值时，确定模糊匹配成功，表征第一待匹配数据与第二待匹配数据两者的差异小，认定两者为同一类数据；在相似度小于或等于预设阈值时，确定模糊匹配失败，表征第一待匹配数据与第二待匹配数据两者的差异大，认定两者为不同数据。

为详细说明本方案中数据匹配方法以及效果，下面以一个最详细实施例进行说明：

针对两家金融机构对客户地址进行匹配的场景，假设金融机构C为数据发送方，金融机构D为数据接收方。

1、金融机构D设置的数据管理模块根据客户名称查询客户地址，并通过字典管理模块进行数字转换，得到第一待匹配数据X。同样的，金融机构C设置的数据管理模块根据该客户名称查询客户地址，并通过字典管理模块进行数字转换，得到第二待匹配数据Y。

2、金融机构C与金融机构D采用隐私集合求交模块，计算两者的交集字符数目，隐私集合求交的算法可以采用基于RSA算法的方式，确保计算过程的安全性。

3、利用杰卡德相似系数计算双方数据的相似度，进一步地，在进行隐私集合求交时，也计算数据X相对于数据Y的差集和数据Y相对于数据X的差集，通过预先训练好的神经网络模型确定两个差集的相似度，结合杰卡德相似系数计算得到的相似度和神经网络模型计算得到的相似度，得到数据X和数据Y之间的相似度。

4、基于经验设定阈值，若相似度高于该值，则确定模糊匹配成功。

5、金融机构C与金融机构D通过结果管理模块对结果进行存储和共享同步。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的数据匹配方法的数据匹配装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个数据匹配装置实施例中的具体限定可以参见上文中对于数据匹配方法的限定，在此不再赘述。

在一个实施例中，如图5所示，提供了一种数据匹配装置10，所述数据匹配装置10应用于数据接收方，包括：

隐私集合求交模块120，用于根据预设隐私集合求交策略计算数据接收方对应的第一待匹配数据与数据发送方对应的第二待匹配数据之间的交集字符数量；

模糊匹配模块140，用于基于所述第一待匹配数据的总字符数量、所述第二待匹配数据的总字符数量以及所述交集字符数量计算所述第一待匹配数据与所述第二待匹配数据之间的相似度，根据所述相似度确定模糊匹配结果；

结果管理模块160，用于将所述模糊匹配结果同步至所述数据发送方。

上述数据匹配装置中，根据预设隐私集合求交策略计算数据接收方对应的第一待匹配数据与数据发送方对应的第二待匹配数据之间的交集字符数量；基于第一待匹配数据的总字符数量、第二待匹配数据的总字符数量以及交集字符数量计算第一待匹配数据与第二待匹配数据之间的相似度；根据相似度确定模糊匹配结果；将模糊匹配结果同步至数据发送方。通过上述方式，调用预设隐私集合求交策略能够避免暴露待匹配数据的额外信息，通过计算相似度的方式进行数据的模糊匹配，与精准匹配相比，提升了敏感数据匹配准确性。

在一个实施例中，所述隐私集合求交模块120，还用于生成随机数，并根据所述随机数和私钥对第一待匹配数据进行签名，得到第一密文数据；将所述第一密文数据发送给数据发送方，以指示所述数据发送方使用公钥对所述第一密文数据进行加密，得到第二密文数据，将所述第二密文数据和第三密文数据发送至数据接收方，其中，所述第三密文数据为所述数据发送方使用所述公钥对第二待匹配数据加密得到，所述数据发送方的公钥与所述数据接收方的私钥对应；利用所述私钥和所述随机数对接收到的所述第二密文数据进行解密，得到第四密文数据；计算所述第三密文数据与所述第四密文数据之间的交集，得到交集字符数量。

在一个实施例中，所述模糊匹配模块140，还用于基于所述第一待匹配数据的总字符数量、所述第二待匹配数据的总字符数量以及所述交集字符数量计算所述第一待匹配数据与所述第二待匹配数据之间的第一相似度；提取所述第三密文数据对应的第一差异数据，并提取所述第四密文数据对应的第二差异数据；将所述第一差异数据和所述第二差异数据输入至预先训练好的神经网络模型，得到第二相似度；根据所述第一相似度和所述第二相似度确定所述第一待匹配数据与所述第二待匹配数据之间的相似度。

在一个实施例中，所述数据匹配装置还包括：数据管理模块；所述数据管理模块，用于根据待匹配信息查询得到第一目标数据；根据预设字典对所述第一目标数据进行数字转换，得到第一待匹配数据；并根据所述待匹配信息向数据发送方请求数据，以指示所述数据发送方根据所述待匹配信息查询得到第二目标数据，根据预设字典对所述第二目标数据进行数字转换，得到第二待匹配数据。

在一个实施例中，所述模糊匹配模块140，还用于利用杰卡德相似系数，基于所述第一待匹配数据的总字符数量、所述第二待匹配数据的总字符数量以及所述交集字符数量确定并集数量；根据所述交集字符数量和所述并集数量计算所述第一待匹配数据与所述第二待匹配数据之间的第一相似度。

在一个实施例中，所述模糊匹配模块140，还用于在所述相似度大于预设阈值时，确定模糊匹配结果为匹配成功；在所述相似度小于或等于预设阈值时，确定模糊匹配结果为匹配失败。

上述数据匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待匹配数据和密文数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据匹配方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

根据所述相似度确定模糊匹配结果；

将所述模糊匹配结果同步至所述数据发送方。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

根据待匹配信息查询得到第一目标数据；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

根据所述相似度确定模糊匹配结果；

将所述模糊匹配结果同步至所述数据发送方。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

根据待匹配信息查询得到第一目标数据；

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

根据所述相似度确定模糊匹配结果；

将所述模糊匹配结果同步至所述数据发送方。

根据待匹配信息查询得到第一目标数据；

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种数据匹配方法，应用于数据接收方，其特征在于，所述方法包括：

根据所述相似度确定模糊匹配结果；

将所述模糊匹配结果同步至所述数据发送方。

2.根据权利要求1所述的方法，其特征在于，所述根据预设隐私集合求交策略计算数据接收方对应的第一待匹配数据与数据发送方对应的第二待匹配数据之间的交集字符数量，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一待匹配数据的总字符数量、所述第二待匹配数据的总字符数量以及所述交集字符数量计算所述第一待匹配数据与所述第二待匹配数据之间的相似度，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据预设隐私集合求交策略计算数据接收方对应的第一待匹配数据与数据发送方对应的第二待匹配数据之间的交集字符数量之前，所述方法还包括：

根据待匹配信息查询得到第一目标数据；

5.根据权利要求3所述的方法，其特征在于，所述基于所述第一待匹配数据的总字符数量、所述第二待匹配数据的总字符数量以及所述交集字符数量计算所述第一待匹配数据与所述第二待匹配数据之间的第一相似度，包括：

6.根据权利要求1至5任意一项所述的方法，其特征在于，所述根据所述相似度确定模糊匹配结果，包括：

7.一种数据匹配装置，应用于数据接收方，其特征在于，所述装置包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。