CN109347620B - 样本对齐方法、系统及计算机可读存储介质 - Google Patents

样本对齐方法、系统及计算机可读存储介质 Download PDF

Info

Publication number
CN109347620B
CN109347620B CN201810920961.2A CN201810920961A CN109347620B CN 109347620 B CN109347620 B CN 109347620B CN 201810920961 A CN201810920961 A CN 201810920961A CN 109347620 B CN109347620 B CN 109347620B
Authority
CN
China
Prior art keywords
sample
user number
initiator
receiver
encrypted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810920961.2A
Other languages
English (en)
Other versions
CN109347620A (zh
Inventor
范涛
张润杰
马国强
刘洋
陈天健
杨强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201810920961.2A priority Critical patent/CN109347620B/zh
Publication of CN109347620A publication Critical patent/CN109347620A/zh
Application granted granted Critical
Publication of CN109347620B publication Critical patent/CN109347620B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/06Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols the encryption apparatus using shift registers or memories for block-wise or stream coding, e.g. DES systems or RC4; Hash functions; Pseudorandom sequence generators
    • H04L9/0643Hash functions, e.g. MD5, SHA, HMAC or f9 MAC
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • H04L63/0442Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload wherein the sending and receiving network entities apply asymmetric encryption, i.e. different keys for encryption and decryption
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • H04L63/0478Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload applying multiple layers of encryption, e.g. nested tunnels or encrypting the content with a first key and then with at least a second key

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Power Engineering (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种样本对齐方法、系统及计算机可读存储介质,其中,样本对齐方法,通过获取样本对齐发起方样本的样本编号、用户编号、样本特征和时间信息,获取样本接收方样本的用户编号、样本特征和时间信息;对用户编号进行交互加密,比较加密后的用户编号得到交集部分;基于时间信息,将交集部分中接收方样本中同一用户编号对应的相同时间信息的样本,用发起方对应的第一样本编号进行标记,得到目标样本;将各第一样本编号与其对应目标样本中接收方和发起方的样本特征进行样本对齐。使用哈希和RSA加密算法对数据交互过程进行加密,使用样本编号和时间信息实现样本信息的对齐,在保证样本信息安全的前提下通过时间信息实现样本的对齐。

Description

样本对齐方法、系统及计算机可读存储介质
技术领域
本发明涉及数据交互隐私保护技术领域,尤其涉及一种样本对齐方法、系统及计算机可读存储介质。
背景技术
在数据信息爆炸的时代,数据的网络传输、数据交互范围逐步扩大,为人们信息共享提供便捷,但是在数据网络传输、数据交互过程中存在安全隐患,数据信息被窃取,隐私可能暴露给不可信的第三方,而且在数据传输、数据交互过程中,容易出现信息的不对称性,数据信息中样本编号或者用户编号不同,无法实现数据之间准确的共享,因而,无法在保证数据安全的前提下,进行数据之前准确的对齐共享。
发明内容
本发明的主要目的在于提供一种样本对齐方法、系统及计算机可读存储介质,旨在解决现有的数据交互过程中数据信息安全性低和数据信息无法对齐的技术问题。
为实现上述目的,本发明提供一种样本对齐方法,所述样本对齐方法包括步骤:
获取样本对齐发起方样本的第一样本编号、第一用户编号、第一样本特征和第一时间信息,获取样本接收方样本的第二用户编号、第二样本特征和第二时间信息;
对第一用户编号和第二用户编号进行交互加密,通过比较加密后的第一用户编号和第二用户编号得到交集部分;
基于第一时间信息和第二时间信息,将所述交集部分中接收方样本中同一用户编号对应的相同时间信息的样本,用发起方对应的第一样本编号进行标记,得到接收方和发起方的目标样本;
将各第一样本编号与其对应目标样本中发起方的第一样本特征和接收方的第二样本特征进行样本对齐。
可选地,所述对第一用户编号和第二用户编号进行交互加密的步骤,还包括:
控制样本对齐的发起方和接收方分别对发起方的第一用户编号和接收方的第二用户编号进行去重;
基于哈希和RSA加密算法对去重之后的第一用户编号和第二用户编号进行交互加密。
可选地,所述对第一用户编号和第二用户编号进行交互加密的步骤包括:
基于哈希和RSA加密算法控制接收方通过公钥对第二用户编号进行加密,将加密后的第二用户编号发送给发起方;
控制发起方对公钥加密之后的第二用户编号通过私钥进行加密,再将私钥加密后的第二用户编号发送给接收方;
控制接收方对私钥加密后的第二用户编号的哈希值再进行哈希,得到加密的第二用户编号,以实现基于哈希和RSA加密算法对第二用户编号进行交互加密。
可选地,所述对第一用户编号和第二用户编号进行交互加密的步骤包括:
基于哈希和RSA加密算法控制发起方通过私钥对第一用户编号的哈希进行加密;
控制发起方对私钥加密后的第一用户编号的哈希值再进行哈希,得到加密的第一用户编号,将加密后的第一用户编号发送给接收方;
以实现基于哈希和RSA加密算法对第一用户编号进行交互加密。
可选地,所述通过比较加密后的第一用户编号和第二用户编号得到交集部分的步骤包括:
控制接收方对加密后的第一用户编号和第二用户编号进行比较,得到接收方和发起方的交集;
保留相同的用户编号的交集部分,将所述交集部分传送给发起方,以供接收方和发起方获得交集部分的用户编号。
可选地,所述保留相同的用户编号的交集部分,将所述交集部分传送给发起方,以供接收方和发起方获得交集部分的用户编号的步骤包括:
发起方将位于交集部分的用户编号以及其对应的第一样本编号和第一样本编号对应的第一时间信息截断脱敏发送给接收方,以供接收方和发起方获得交集部分的用户编号。
可选地,所述获取样本对齐发起方样本的第一样本编号、第一用户编号、第一样本特征和第一时间信息,获取样本接收方样本的第二用户编号、第二样本特征和第二时间信息的步骤之前,还包括:
确定样本对齐发起方和接收方之间的可信度;
若所述发起方和接收方之间为可信交互端,则执行获取样本对齐发起方样本的第一样本编号、第一用户编号、第一样本特征和第一时间信息,获取样本接收方样本的第二用户编号、第二样本特征和第二时间信息的步骤。
可选地,所述通过所述第一样本编号实现发起方和接收方的样本对齐的步骤之后,还包括:
获取发起方样本的类别标签,确定样本对齐后对应的类别标签;
根据所述样本对齐后对应的类别标签实现根据样本信息进行模型训练和机器学习。
此外,为实现上述目的,本发明还提供一种样本对齐系统,所述样本对齐系统包括接收方、发起方、存储器、处理器和存储在所述存储器上并可在所述处理器上运行的样本对齐程序,所述样本对齐程序被所述处理器执行时实现如上述的样本对齐方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有样本对齐程序,所述样本对齐程序被处理器执行时实现如上述的样本对齐方法的步骤。
本发明提供一种样本对齐方法,通过获取样本对齐发起方样本的第一样本编号、第一用户编号、第一样本特征和第一时间信息,获取样本接收方样本的第二用户编号、第二样本特征和第二时间信息;对第一用户编号和第二用户编号进行交互加密,通过比较加密后的第一用户编号和第二用户编号得到交集部分;基于第一时间信息和第二时间信息,将所述交集部分中接收方样本中同一用户编号对应的相同时间信息的样本,用发起方对应的第一样本编号进行标记,得到接收方和发起方的目标样本;将各第一样本编号与其对应目标样本中发起方的第一样本特征和接收方的第二样本特征进行样本对齐。使用哈希和RSA加密算法对数据交互过程中样本信息进行加密,使用样本编号和时间信息实现样本信息的对齐,在保证样本信息安全的前提下通过时间信息实现样本的对齐。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的结构示意图;
图2为本发明样本对齐方法一实施例的流程示意图;
图3为本发明样本对齐方法一应用实施例样本对齐后样本示意图;
图4为本发明样本对齐方法一实施例的样本加密计算交集的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的结构示意图。
需要说明的是,图1即可为样本对齐系统的硬件运行环境的结构示意图。本发明实施例样本对齐系统可以包括PC,便携计算机、智能手机等终端设备。
如图1所示,该样本对齐系统可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的样本对齐系统的结构并不构成对样本对齐系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及样本对齐程序。其中,操作系统是管理和控制样本对齐系统硬件和软件资源的程序,支持样本对齐程序以及其它软件或程序的运行。
在图1所示的样本对齐系统中,用户接口1003主要用于获取业务请求;网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信,如查找待回答问题对应的答案;而处理器1001可以用于调用存储器1005中存储的样本对齐程序,并执行以下操作:
获取样本对齐发起方样本的第一样本编号、第一用户编号、第一样本特征和第一时间信息,获取样本接收方样本的第二用户编号、第二样本特征和第二时间信息;
对第一用户编号和第二用户编号进行交互加密,通过比较加密后的第一用户编号和第二用户编号得到交集部分;
基于第一时间信息和第二时间信息,将所述交集部分中接收方样本中同一用户编号对应的相同时间信息的样本,用发起方对应的第一样本编号进行标记,得到接收方和发起方的目标样本;
将各第一样本编号与其对应目标样本中发起方的第一样本特征和接收方的第二样本特征进行样本对齐。
进一步地,所述对第一用户编号和第二用户编号进行交互加密的步骤包括:处理器1001还可以用于调用存储器1005中存储的样本对齐程序,并执行以下步骤:
控制样本对齐的发起方和接收方分别对发起方的第一用户编号和接收方的第二用户编号进行去重;
基于哈希和RSA加密算法对去重之后的第一用户编号和第二用户编号进行交互加密。
进一步地,所述对第一用户编号和第二用户编号进行交互加密的步骤包括:
基于哈希和RSA加密算法控制接收方通过公钥对第二用户编号进行加密,将加密后的第二用户编号发送给发起方;
控制发起方对公钥加密之后的第二用户编号通过私钥进行加密,再将私钥加密后的第二用户编号发送给接收方;
控制接收方对私钥加密后的第二用户编号的哈希值再进行哈希,得到加密的第二用户编号,以实现基于哈希和RSA加密算法对第二用户编号进行交互加密。
进一步地,所述对第一用户编号和第二用户编号进行交互加密的步骤包括:
基于哈希和RSA加密算法控制发起方通过私钥对第一用户编号的哈希进行加密;
控制发起方对私钥加密后的第一用户编号的哈希值再进行哈希,得到加密的第一用户编号,将加密后的第一用户编号发送给接收方;
以实现基于哈希和RSA加密算法对第一用户编号进行交互加密。
进一步地,所述通过比较加密后的第一用户编号和第二用户编号得到交集部分的步骤包括:
控制接收方对加密后的第一用户编号和第二用户编号进行比较,得到接收方和发起方的交集;
保留相同的用户编号的交集部分,将所述交集部分传送给发起方,以供接收方和发起方获得交集部分的用户编号。
进一步地,所述保留相同的用户编号的交集部分,将所述交集部分传送给发起方,以供接收方和发起方获得交集部分的用户编号的步骤包括:
发起方将位于交集部分的用户编号以及其对应的第一样本编号和第一样本编号对应的第一时间信息截断脱敏发送给接收方,以供接收方和发起方获得交集部分的用户编号。
进一步地,所述获取样本对齐发起方样本的第一样本编号、第一用户编号、第一样本特征和第一时间信息,获取样本接收方样本的第二用户编号、第二样本特征和第二时间信息的步骤之前,处理器1001还可以用于调用存储器1005中存储的样本对齐程序,并执行以下步骤:
确定样本对齐发起方和接收方之间的可信度;
若所述发起方和接收方之间为可信交互端,则执行获取样本对齐发起方样本的第一样本编号、第一用户编号、第一样本特征和第一时间信息,获取样本接收方样本的第二用户编号、第二样本特征和第二时间信息的步骤。
进一步地,所述通过所述第一样本编号实现发起方和接收方的样本对齐的步骤之后,处理器1001还可以用于调用存储器1005中存储的样本对齐程序,并执行以下步骤:
获取发起方样本的类别标签,确定样本对齐后对应的类别标签;
根据所述样本对齐后对应的类别标签实现根据样本信息进行模型训练和机器学习。
基于上述的结构,提出样本对齐方法的各个实施例。样本对齐方法应用于样本对齐系统,样本对齐系统可以包括PC,便携计算机、智能手机等终端设备。为了描述的简便,在以下样本对齐方法的各个实施例中,省略样本对齐系统中处理器这个执行主体。
参照图2,图2为本发明样本对齐方法较佳实施例的流程示意图。
本发明实施例提供了样本对齐方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
样本对齐方法包括:
步骤S10,获取样本对齐发起方样本的第一样本编号、第一用户编号、第一样本特征和第一时间信息,获取样本接收方样本的第二用户编号、第二样本特征和第二时间信息;
样本对齐发起方,可以是PC、便携式计算机、智能手机等智能终端设备,该智能终端设备中可以安装有各种可以进行数据交互的应用程序。基于智能终端中应用程序发起相关样本信息的对齐。第一样本编号,发起方中需要进行样本对齐的样本的身份标识号,每一样本对应不同的样本编号。第一用户编号,发起方样本中用户的身份识别号,每一用户对应不同的用户编号。第一样本特征,发起方样本中各个特征信息。第一时间信息,发起方样本中各个样本特征出现的时间节点。
接收方,可以是PC、便携式计算机、智能手机等智能终端设备,该智能终端设备中可以安装有各种可以进行数据交互的应用程序。基于智能终端中应用程序与发起方之间进行数据交互实现相关样本信息的对齐。第二用户编号,接收方样本中用户的身份识别号,每一用户对应不同的用户编号。第二样本特征,接收方样本中各个特征信息。第二时间信息,接收方样本中各个样本特征出现的时间节点。当然接收方样本中也可以包含第二样本编号。
当然发起方和接收方还可以获取样本信息中更多的信息,如样本的类别标签。
步骤S20,对第一用户编号和第二用户编号进行交互加密,通过比较加密后的第一用户编号和第二用户编号得到交集部分;
在本实施例的样本对齐方法中基于哈希和RSA加密算法对第一用户编号和第二用户编号进行交互加密,其中,哈希(Hash),一般翻译做“散列”,就是把任意长度的输入(又叫做预映射pre-image)通过散列算法变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,所以不可能从散列值来确定唯一的输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。哈希算法,安全散列算法(英语:Secure HashAlgorithm,缩写为SHA)是一个密码散列函数家族,是FIPS所认证的安全散列算法。能计算出一个数字消息所对应到的,长度固定的字符串(又称消息摘要)的算法。且若输入的消息不同,它们对应到不同字符串的机率很高。
RSA加密算法是一种非对称加密算法,RSA公开密钥密码体制。所谓的公开密钥密码体制就是使用不同的加密密钥与解密密钥,是一种“由已知加密密钥推导出解密密钥在计算上是不可行的”密码体制。在公开密钥密码体制中,加密密钥(即公开密钥,文中的公钥)是公开信息,而解密密钥(即秘密密钥,文中的私钥)是需要保密的。加密算法和解密算法也都是公开的。虽然解密密钥是由公开密钥决定的,但却不能根据公开密钥计算出解密密钥。
通过公钥和私钥对第一用户编号和第二用户编号在数据交互中进行加密,并且对加密的哈希值进行哈希,得到加密之后的第一用户编号和第二用户编号的加密串,将第一用户编号和第二用户编号的加密串进行比较得到发起方和接收方的交集。相同的用户编号即为样本的交集部分,交集部分保留;不相同的部分可以丢弃。实现接收方和发起方均获得位于交集中的用户编号,也就是第一用户编号和第二用户编号中用户编号相同的部分。
步骤S30,基于第一时间信息和第二时间信息,将所述交集部分中接收方样本中同一用户编号对应的相同时间信息的样本,用发起方对应的第一样本编号进行标记,得到接收方和发起方的目标样本;
同一样本中同一用户编号会有多个时间节点,不同时间节点,即时间信息,对应不同的样本特征。将同一时间节点、同一用户编号的样本特征整合到一起,用一个样本编号进行标记。也就是说,交集部分中第一用户编号和第二用户编号相同时,确定该相同的用户编号下,第一时间信息和第二时间信息也相同时,该相同用户编号和相同时间信息下的样本,并且将该样本用发起方对应的第一样本编号进行标记,那么,同一第一样本编号下的发起方和接收方的样本即为目标样本。
步骤S40,将各第一样本编号与其对应目标样本中发起方的第一样本特征和接收方的第二样本特征进行样本对齐。
对各个第一样本编号对应目标样本中的第一样本特征和第二样本特征进行提取,将提取的第一样本特征和第二样本特征进行整理,得到对齐样本,该对齐样本中包含第一样本编号,该样本编号下接收方和发起方同一用户编号,该样本编号下接收方和发起方同一时间信息,及其对应的第一样本特征和第二样本特征。循环上述步骤,根据每个第一样本编号得到对齐样本。
具体来说,在上述步骤中在接收方和发起方拥有同一第一样本编号的交集部分,对应将发起方第一样本特征和接收方第二样本特征进行提取,将同一样本编号的样本特征进行整理,得到同一样本编号下,同一用户编号和同一时间信息的样本特征,实现发起方和接收方的样本对齐。
为辅助理解本发明样本对齐方法,现举一示例进行说明。假设接收方和发起方分别为微信(A)和微众(B),在微众样本中,用户u1在某一时间点t11贷款50万(样本特征xb11),还款期限为五年(样本特征xb12),结果逾期还款(类别标签y);在微信的样本中,用户u1在t11时间点之前通过微信消费次数为100次(样本特征xa11),消费总金额为5万(样本特征xa12)。经过哈希和RSA加密算法的交集计算之后,得到微信和微众双方的样本库中均有用户u1(即交集部分),微众将用户u1样本的第一时间信息和对应第一样本编号发送给微信,微信对比后发现在双方样本库中均有用户u1关于时间点t11的样本特征信息,则微信将用户u1在时间t11时的样本特征(微信消费次数和消费总金额)提出,并在该条样本特征中加入微众样本库中与时间t11对应的样本编号S1,得到了其中一条样本(S1,微信消费100次,消费总金额5万)。于是微信便可通过样本编号S1实现将其中一条样本(微信消费100次,消费总金额5万)与微众的其中一条样本(贷款50万,还款期限五年)的对齐,并组成一条完整样本(微信消费100次,消费总金额5万,贷款50万,还款期限五年)。以此类推,微信可以聚合得到所有与微众有交集的用户在对应某时间点的所有样本信息,如图3所示,得到对齐后微信(
A)和微众(B)的样本信息。至此,发起方和接收方双方基于时间信息的样本对齐完成。
在本实施例中,通过获取样本对齐发起方样本的第一样本编号、第一用户编号、第一样本特征和第一时间信息,获取样本接收方样本的第二用户编号、第二样本特征和第二时间信息;对第一用户编号和第二用户编号进行交互加密,通过比较加密后的第一用户编号和第二用户编号得到交集部分;基于第一时间信息和第二时间信息,将所述交集部分中接收方样本中同一用户编号对应的相同时间信息的样本,用发起方对应的第一样本编号进行标记,得到接收方和发起方的目标样本;将各第一样本编号与其对应目标样本中发起方的第一样本特征和接收方的第二样本特征进行样本对齐。使用哈希和RSA加密算法对数据交互过程中样本信息进行加密,使用样本编号和时间信息实现样本信息的对齐,在保证样本信息安全的前提下通过时间信息实现样本的对齐。
可选地,在本发明样本对齐方法的一实施例中,步骤S20中所述对第一用户编号和第二用户编号进行交互加密的步骤,还包括:
步骤S201,控制样本对齐的发起方和接收方分别对发起方的第一用户编号和接收方的第二用户编号进行去重;
步骤S202,基于哈希和RSA加密算法对去重之后的第一用户编号和第二用户编号进行交互加密。
由于发起方和接收方均会涉及多个用户编号,而且同一个用户编号可能会对应相同的样本特征,这样会存在用户编号重复的情况,如果通过该用户编号进行加密传输计算交集,可能会对相同的用户编号进行加密传输计算,这显然会浪费处理器的运算资源。那么,在这种情况下,首先对发起方和接收方的第一用户编号和第二用户编号进行去重处理,保证样本中用户编号的唯一性,之后,对于去重之后的第一用户编号和第二用户编号使用哈希和RSA加密算法进行交互加密。
在本实施例中,通过对样本对齐的发起方和接收方的第一用户编号和第二用户编号进行去重,保证用户编号的唯一性,避免在进行加密传输计算交集的过程中,对同一用户编号进行计算,提升加密传输计算交集的有效性。
进一步地,在本发明样本对齐方法的一实施例中,如图4所示,步骤S20中所述对第一用户编号和第二用户编号进行交互加密的步骤包括:
步骤S21,基于哈希和RSA加密算法控制接收方通过公钥对第二用户编号进行加密,将加密后的第二用户编号发送给发起方;
步骤S22,控制发起方对公钥加密之后的第二用户编号通过私钥进行加密,再将私钥加密后的第二用户编号发送给接收方;
步骤S23,控制接收方对私钥加密后的第二用户编号的哈希值再进行哈希,得到加密的第二用户编号,以实现基于哈希和RSA加密算法对第二用户编号进行交互加密。
具体地,接收方(A)通过公钥对样本的第二用户编号进行加密:YA={re%n*H(u)|u∈XA},其中,r是对应于XA中每一个不同的样本第二用户编号生成的不同的随机数;XA为接收方(A)的样本特征;u为用户编号;(n,e)为公钥。然后接收方(A)把YA发送给发起方(B)。
发起方(B)通过私钥把接收方(A)第二用户编号加密串YA再进行加密:ZA={(re%n*H(u))d=r*(H(u))d%n|re%n*H(u)∈YA},其中(n,e)为公钥,(n,d)为私钥。之后把ZA传给接收方(A)。
接收方(A)对ZA进行操作,去除之前的随机值r,并对用私钥加密过的第二用户编号哈希值再进行哈希:
Figure BDA0001762036000000121
得到加密的第二用户编号DA,实现基于哈希和RSA加密算法对第二用户编号进行交互加密。
再者,步骤S20中所述对第一用户编号和第二用户编号进行交互加密的步骤包括:
步骤S24,基于哈希和RSA加密算法控制发起方通过私钥对第一用户编号的哈希进行加密;
步骤S25,控制发起方对私钥加密后的第一用户编号的哈希值再进行哈希,得到加密的第一用户编号,将加密后的第一用户编号发送给接收方,以实现基于哈希和RSA加密算法对第一用户编号进行交互加密。
具体地,发起方(B)通过私钥将发起方(B)第二用户编号的哈希进行加密,之后再对加密过的第二用户编号哈希值再进行哈希:ZB={H((H(u))d%n)|u∈XB}得到加密的第一用户编号,实现对第一用户编号的加密,之后将ZB传给接收方(A)。
在本实施例中,通过哈希和RSA加密算法对发起方第一用户编号和接收方第二用户编号进行交互加密,实现在接收方和发起方样本对齐过程中数据信息的安全交互。
可选地,在本发明样本对齐方法的一实施例中,步骤S20中所述通过比较加密后的第一用户编号和第二用户编号得到交集部分的步骤包括:
步骤S26,控制接收方对加密后的第一用户编号和第二用户编号进行比较,得到接收方和发起方的交集;
步骤S27,保留相同的用户编号的交集部分,将所述交集部分传送给发起方,以供接收方和发起方获得交集部分的用户编号。
根据上一实施例中得到的加密的第一用户编号ZB和加密的第二用户编号DA,接收方(A)对DA和ZB进行比较,得到接收方和发起方的交集部分I。相同的用户编号即为样本的交集部分I,进行保留;不相同的部分可以丢弃。之后将交集部分I传给发起方(B),如此,接收方和发起方均获得位于交集部分I中的用户编号,即第一用户编号与第二用户编号中相同的用户编号。
具体地,步骤S27还包括:
步骤S271,发起方将位于交集部分的用户编号以及其对应的第一样本编号和第一样本编号对应的第一时间信息截断脱敏发送给接收方,以供接收方和发起方获得交集部分的用户编号。
截断脱敏,防止数据信息在传输过程中被截断,从而进行数据脱敏;数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如×××号、手机号、卡号、客户姓名、客户地址、等个人敏感信息都需要通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。这样就可以在开发、测试和其他非生产环境以及外包环境中可以安全的使用脱敏后的真实数据集。
发起方将位于交集部分的用户编号以及其对应的第一样本编号和第一样本编号对应的第一时间信息截断脱敏发送给接收方,进一步保障样本在数据传输过程中的安全性。
在本实施例中,通过对加密后的第一用户编号和第二用户编号进行比对,进而得到接收方和发起方的交集部分,从而,保证接收方和发起方之间获取到相同交集部分的用户编号,利于实现样本对齐。
可选地,在本发明样本对齐方法的一实施例中,步骤S10所述获取样本对齐发起方样本的第一样本编号、第一用户编号、第一样本特征和第一时间信息,获取样本接收方样本的第二用户编号、第二样本特征和第二时间信息的步骤之前,还包括:
步骤S01,确定样本对齐发起方和接收方之间的可信度;
步骤S02,若所述发起方和接收方之间为可信交互端,则执行获取样本对齐发起方样本的第一样本编号、第一用户编号、第一样本特征和第一时间信息,获取样本接收方样本的第二用户编号、第二样本特征和第二时间信息的步骤。
在发起方和接收方进行数据交互之前,确定发起方和接收方之间是否为互相可信的终端设备,或者是发起方和接收方之间是否为互相可信的应用程序。当发起方和接收方之间确认为可信交互端,那么才可以执行后续的步骤S10及其之后的步骤。如果发起方和接收方之间被认定为不可信的交互端,那么就不执行后续的样本对齐方法的步骤,进一步的保障发起方和接收方之间进行数据交互的安全性。
可选地,在本发明样本对齐方法的一实施例中,步骤S40中所述通过所述第一样本编号实现发起方和接收方的样本对齐的步骤之后,还包括:
步骤S41,获取发起方样本的类别标签,确定样本对齐后对应的类别标签;
步骤S42,根据所述样本对齐后对应的类别标签实现根据样本信息进行模型训练和机器学习。
类别标签,对发起方样本中各个样本信息进行标注,便于通过类别标签实现将对应样本信息作为模型训练和机器学习的输入,从而进行模型训练和机器学习。
此外,本发明实施例还提供一种样本对齐系统,所述样本对齐系统包括接收方、发起方、存储器、处理器和存储在所述存储器上并可在所述处理器上运行的样本对齐程序,所述样本对齐程序被所述处理器执行时实现如上述的样本对齐方法的步骤。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有样本对齐程序,所述样本对齐程序被处理器执行时实现如上述的样本对齐方法的步骤。
本发明样本对齐系统和计算机可读存储介质具体实施方式与上述样本对齐方法各实施例基本相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种样本对齐方法,其特征在于,所述样本对齐方法包括以下步骤:
获取样本对齐发起方样本的第一样本编号、第一用户编号、第一样本特征和第一时间信息,获取样本接收方样本的第二用户编号、第二样本特征和第二时间信息;
对第一用户编号和第二用户编号进行交互加密,通过比较加密后的第一用户编号和第二用户编号得到交集部分;
基于第一时间信息和第二时间信息,将所述交集部分中接收方样本中同一用户编号对应的相同时间信息的样本,用发起方对应的第一样本编号进行标记,得到接收方和发起方的目标样本;
将各第一样本编号与其对应目标样本中发起方的第一样本特征和接收方的第二样本特征进行样本对齐;
其中,所述将各第一样本编号与其对应目标样本中发起方的第一样本特征和接收方的第二样本特征进行样本对齐的步骤包括:
在接收方和发起方拥有同一第一样本编号的交集部分,对应将发起方第一样本特征和接收方第二样本特征进行提取,将同一样本编号的样本特征进行整理,得到同一样本编号下,同一用户编号和同一时间信息的样本特征,实现发起方和接收方的样本对齐。
2.如权利要求1所述的样本对齐方法,其特征在于,所述对第一用户编号和第二用户编号进行交互加密的步骤,还包括:
控制样本对齐的发起方和接收方分别对发起方的第一用户编号和接收方的第二用户编号进行去重;
基于哈希和RSA加密算法对去重之后的第一用户编号和第二用户编号进行交互加密。
3.如权利要求1所述的样本对齐方法,其特征在于,所述对第一用户编号和第二用户编号进行交互加密的步骤包括:
基于哈希和RSA加密算法控制接收方通过公钥对第二用户编号进行加密,将加密后的第二用户编号发送给发起方;
控制发起方对公钥加密之后的第二用户编号通过私钥进行加密,再将私钥加密后的第二用户编号发送给接收方;
控制接收方对私钥加密后的第二用户编号的哈希值再进行哈希,得到加密的第二用户编号,以实现基于哈希和RSA加密算法对第二用户编号进行交互加密。
4.如权利要求3所述的样本对齐方法,其特征在于,所述对第一用户编号和第二用户编号进行交互加密的步骤包括:
基于哈希和RSA加密算法控制发起方通过私钥对第一用户编号的哈希进行加密;
控制发起方对私钥加密后的第一用户编号的哈希值再进行哈希,得到加密的第一用户编号,将加密后的第一用户编号发送给接收方;
以实现基于哈希和RSA加密算法对第一用户编号进行交互加密。
5.如权利要求4所述的样本对齐方法,其特征在于,所述通过比较加密后的第一用户编号和第二用户编号得到交集部分的步骤包括:
控制接收方对加密后的第一用户编号和第二用户编号进行比较,得到接收方和发起方的交集;
保留相同的用户编号的交集部分,将所述交集部分传送给发起方,以供接收方和发起方获得交集部分的用户编号。
6.如权利要求5所述的样本对齐方法,其特征在于,所述保留相同的用户编号的交集部分,将所述交集部分传送给发起方,以供接收方和发起方获得交集部分的用户编号的步骤包括:
发起方将位于交集部分的用户编号以及其对应的第一样本编号和第一样本编号对应的第一时间信息截断脱敏发送给接收方,以供接收方和发起方获得交集部分的用户编号。
7.如权利要求1所述的样本对齐方法,其特征在于,所述获取样本对齐发起方样本的第一样本编号、第一用户编号、第一样本特征和第一时间信息,获取样本接收方样本的第二用户编号、第二样本特征和第二时间信息的步骤之前,还包括:
确定样本对齐发起方和接收方之间的可信度;
若所述发起方和接收方之间为可信交互端,则执行获取样本对齐发起方样本的第一样本编号、第一用户编号、第一样本特征和第一时间信息,获取样本接收方样本的第二用户编号、第二样本特征和第二时间信息的步骤。
8.如权利要求1所述的样本对齐方法,其特征在于,所述通过所述第一样本编号实现发起方和接收方的样本对齐的步骤之后,还包括:
获取发起方样本的类别标签,确定样本对齐后对应的类别标签;
根据所述样本对齐后对应的类别标签实现根据样本信息进行模型训练和机器学习。
9.一种样本对齐系统,其特征在于,所述样本对齐系统包括接收方、发起方、存储器、处理器和存储在所述存储器上并可在所述处理器上运行的样本对齐程序,所述样本对齐程序被所述处理器执行时实现如权利要求1至8中任一项所述的样本对齐方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有样本对齐程序,所述样本对齐程序被处理器执行时实现如权利要求1至8中任一项所述的样本对齐方法的步骤。
CN201810920961.2A 2018-08-10 2018-08-10 样本对齐方法、系统及计算机可读存储介质 Active CN109347620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810920961.2A CN109347620B (zh) 2018-08-10 2018-08-10 样本对齐方法、系统及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810920961.2A CN109347620B (zh) 2018-08-10 2018-08-10 样本对齐方法、系统及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109347620A CN109347620A (zh) 2019-02-15
CN109347620B true CN109347620B (zh) 2022-06-17

Family

ID=65291494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810920961.2A Active CN109347620B (zh) 2018-08-10 2018-08-10 样本对齐方法、系统及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109347620B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399741A (zh) * 2019-07-29 2019-11-01 深圳前海微众银行股份有限公司 数据对齐方法、设备及计算机可读存储介质
CN110633805B (zh) * 2019-09-26 2024-04-26 深圳前海微众银行股份有限公司 纵向联邦学习系统优化方法、装置、设备及可读存储介质
CN110727960A (zh) * 2019-10-16 2020-01-24 卓尔智联(武汉)研究院有限公司 基于隐私保护的数据求交集装置、方法及可读存储介质
CN110851472A (zh) * 2019-11-19 2020-02-28 深圳前海微众银行股份有限公司 样本匹配方法、设备及可读存储介质
CN112182598A (zh) * 2020-09-14 2021-01-05 天冕信息技术(深圳)有限公司 公有样本id识别方法、装置、服务器及可读存储介质
CN112231308B (zh) * 2020-10-14 2024-05-03 深圳前海微众银行股份有限公司 横向联邦建模样本数据的去重方法、装置、设备及介质
CN114095236B (zh) * 2021-11-17 2023-11-10 安天科技集团股份有限公司 密钥查找方法、装置、计算设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9165109B2 (en) * 2010-02-24 2015-10-20 Pacific Biosciences Of California, Inc. Sequence assembly and consensus sequence determination
CN104915590A (zh) * 2015-07-05 2015-09-16 高峰 一种用于计算机加密的人脸识别系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
On the performance of certain Private Set Intersection protocols;Emiliano De Cristofaro , GeneTsudik;《5th Intl.Conference on Trust&Trustworthy Computing(TRUST 2012)》;20120407;第55-73页 *
诱发脑电信号的采集与分析;刘琳;《CNKI中国硕士学位论文全文数据库信息科技辑》;20160315;第26-27页 *

Also Published As

Publication number Publication date
CN109347620A (zh) 2019-02-15

Similar Documents

Publication Publication Date Title
CN109347620B (zh) 样本对齐方法、系统及计算机可读存储介质
CN107786331B (zh) 数据处理方法、装置、系统及计算机可读存储介质
CN113259133B (zh) 基于http协议的加密通讯方法、设备及存储介质
CN111897786B (zh) 日志读取方法、装置、计算机设备和存储介质
WO2021114614A1 (zh) 应用程序安全启动方法、装置、计算机设备和存储介质
US20200145389A1 (en) Controlling Access to Data
CN107040520B (zh) 一种云计算数据共享系统及方法
CN112559993A (zh) 身份认证方法、装置、系统及电子设备
CN113225324A (zh) 区块链匿名账户创建方法、系统、设备及存储介质
CN113434882A (zh) 应用程序的通讯保护方法、装置、计算机设备及存储介质
CN112733180A (zh) 数据查询方法、装置和电子设备
CN112632573A (zh) 智能合约执行方法、装置、系统、存储介质及电子设备
CN115795538A (zh) 脱敏文档的反脱敏方法、装置、计算机设备和存储介质
CN115603907A (zh) 加密存储数据的方法、装置、设备和存储介质
CN111222075A (zh) 基于多Webview的数据传输方法、服务器及存储介质
CN117561508A (zh) 可验证凭证的跨会话颁发
CN114501431A (zh) 报文传输方法、装置、存储介质及电子设备
CN114362955A (zh) 软件代码云端数字签名方法、系统、设备和存储介质
CN116743481A (zh) 服务安全管控方法、装置、设备及存储介质
US20170279777A1 (en) File signature system and method
CN111414636A (zh) 识别模型的更新方法、装置、设备及存储介质
CN114070610A (zh) Api网关鉴权方法、网关设备及可读存储介质
CN112769565B (zh) 密码加密算法的升级方法、装置、计算设备和介质
CN110830252B (zh) 数据加密的方法、装置、设备和存储介质
CN113946862A (zh) 一种数据处理方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant