CN111566640A - 隔离数据集的机器学习 - Google Patents

隔离数据集的机器学习 Download PDF

Info

Publication number
CN111566640A
CN111566640A CN201980006951.0A CN201980006951A CN111566640A CN 111566640 A CN111566640 A CN 111566640A CN 201980006951 A CN201980006951 A CN 201980006951A CN 111566640 A CN111566640 A CN 111566640A
Authority
CN
China
Prior art keywords
data set
entity
authentication
values
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980006951.0A
Other languages
English (en)
Inventor
拉巴斯·帕特尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jumio Corp
Original Assignee
Jumio Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jumio Corp filed Critical Jumio Corp
Publication of CN111566640A publication Critical patent/CN111566640A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • G06Q50/265Personal security, identity or safety
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0861Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0876Network architectures or network communication protocols for network security for authentication of entities based on the identity of the terminal or configuration, e.g. MAC address, hardware or software configuration or device fingerprint
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3226Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
    • H04L9/3231Biological data, e.g. fingerprint, voice or retina
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2209/00Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
    • H04L2209/42Anonymization, e.g. involving pseudonyms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/02Protecting privacy or anonymity, e.g. protecting personally identifiable information [PII]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Bioethics (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Power Engineering (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

提供了用于确定认证结果的计算机系统和方法。计算机系统接收与第一实体相对应的第一数据集。机器学习系统确定与第一数据集相对应的一个或多个值的第一集合。计算机系统接收与第二实体相对应的第二数据集。机器学习系统确定与第二数据集相对应的一个或多个值的第二集合。使用一个或多个值的第一集合的至少一部分来确定一个或多个值的第二集合。

Description

隔离数据集的机器学习
技术领域
本申请一般地涉及用户认证,更具体地涉及使用机器学习来生成与各隔离数据集相对应的多个模型。
背景技术
被收集的个人可识别信息(PII)受到越来越多的法规(例如,隐私法规,如《通用数据保护法规》)限制,这些法规对PII的使用进行限制。例如,可能有必要将一个实体收集的PII与任何其他实体收集的PII分开存储。在许多情况下,生成信息的系统使用由多个不同实体收集的PII。此类系统可能不符合要求将实体收集的PII隔离的法规。
发明内容
因此,需要对隔离数据集执行机器学习的系统和/或设备。可选地,这样的系统、设备和方法补充或替代用于对被收集的数据进行机器学习的常规系统、设备和方法。
在一个方面,所公开的主题包括一种计算机化方法,用于接收与第一实体相对应的第一数据集。该方法还包括使用机器学习系统确定与第一数据集相对应的一个或多个值的第一集合。该方法还包括接收与第二实体相对应的第二数据集。该方法还包括使用机器学习系统确定与第二数据集相对应的一个或多个值的第二集合,其中,使用所述一个或多个值的第一集合中的至少一部分来确定所述一个或多个值的第二集合。
根据一些实施例,一种计算机可读存储介质存储一个或多个程序。所述一个或多个程序包括指令,所述指令在被执行时使设备接收与第一实体相对应的第一数据集。所述指令还使设备使用机器学习系统确定与第一数据集相对应的一个或多个值的第一集合。所述指令还使设备接收与第二实体相对应的第二数据集。所述指令还使所述设备使用机器学习系统来确定与第二数据集相对应的一个或多个值的第二集合,其中,使用所述一个或多个值的第一集合中的至少一部分来确定所述一个或多个值的第二集合。
根据一些实施例,一种系统包括一个或多个处理器、存储器以及一个或多个程序。所述一个或多个程序被存储存储在存储器中,并且被配置为由所述一个或多个处理器执行。所述一个或多个程序包括用于接收与第一实体相对应的第一数据集的指令。所述一个或多个程序还包括用于使用机器学习系统确定与第一数据集相对应的一个或多个值的第一集合的指令。所述一个或多个程序还包括接收与第二实体相对应的第二数据集。所述一个或多个程序还包括使用机器学习系统来确定与第二数据集相对应的一个或多个值的第二集合。使用所述一个或多个值的第一集合的至少一部分来确定所述一个或多个值的第二集合。
附图说明
为了更详细地理解本申请,在附图中示出了各实施例的特征。然而,附图仅示出了本申请的相关特征,因此不是限制性的。
图1是根据一些实施例的计算系统及其上下游的系统图。
图2A是示出根据一些实施例的机器学习的图,该机器学习用于生成与多个数据集相对应的单个模型。
图2B是示出根据一些实施例的机器学习的图,该机器学习用于生成与各隔离数据集相对应的多个模型。
图3示出根据一些实施例的由用户提交的用于认证的参考图像。
图4是示出根据一些实施例的机器学习的流程图,该机器学习用于生成与各隔离数据集相对应的多个模型。
根据惯例,有一些附图中可能没有绘出给定系统、方法或设备的所有组成部分。最后,在整个说明书和附图中,相同的附图标记表示相同的特征。
具体实施方式
本文描述的系统和方法涉及机器学习算法,其用于确定与认证请求相对应的信息的有效性。
机器学习系统用于生成用来分析数据的模型(例如,一个或多个值和/或算法的集合)。可以使用个人可识别信息(PII)的集合生成用于用户认证的模型。通常,随着可用于生成模型的数据增加,模型会得到改进。
被收集的PII越来越受到法规限制(例如,隐私法规,如《通用数据保护法规》),这些法规对PII的使用进行限制。例如,可能有必要将一个实体收集的PII与任何其他实体收集的PII分开存储。
提供认证信息的用户认证服务可以访问包括由多个实体收集的PII的数据集。在一些实施例中,为了维持与一个实体相对应的数据集(例如,包括PII的数据集)的隔离,使用该实体的该数据集(例如,不使用来自任何其他实体的数据集的数据)生成模型。当使用包含PII的数据集训练模型时,得到的模型可能不包含任何PII(例如,得到的模型是包括与由机器学习系统确定的权重相对应的数值数据的数据集,而这些数值数据都不能用来确定任何用户的任何PII)。
为了利用对多个隔离数据集进行机器学习所生成的信息,在使用第一实体的数据生成的模型中的非标识信息可以被用于基于第二实体的数据来生成模型。在一些实施例中,由机器学习系统针对第一实体生成的模型的一个或多个值的集合(例如,不包括PII)被用于生成针对第二实体的模型。例如,使用由第一实体收集的数据生成的第一模型中的一个或多个值的集合被用作要针对第二实体生成的第二模型的初始值,且在使用由第二实体收集的数据集对第二模型进行训练时调整这些初始值。
在一些实施例中,生成的模型被用于分析与认证请求相对应的信息。在一些实施例中,认证请求包括标识文档(例如,与正执行安全交易的用户相关联的标识文档,例如护照、驾驶证或工作证)的图像。在一些实施例中,认证请求包括用户的图像(例如,最近的“自拍照”图像)。响应于认证请求,认证系统确定标识文档的图像的有效性,和/或,将用户的图像与标识文档的图像进行比较以确定是否满足匹配标准。在一些实施例中,机器学习系统使用认证请求中包含的信息来生成和/或更改与各个实体相对应的模型。在一些实施例中,与各实体相对应的模型被用于分析认证请求中包含的信息。
在一些实施例中,本文描述的认证系统减少了人工审查标识文档所需的时间(例如,通过使用由机器学习系统生成的模型来分析图像,并向人工审查者提供与由分析产生的信息有关的信息),和/或,减少用于验证标识文档的人工审查的程度(例如,通过使用模型来确定是否绕过人工审查)。使用本文所述的机器学习来减少人工审查的程度和/或减少人工审查所需的时间,通过使认证请求的处理更快、更高效、所需的人工交互更少而改进了认证设备,进而可以减少认证服务器和/或验证设备所使用的处理和功耗。
图1是根据一些实施例的认证服务器100(在本文中也称为“机器学习系统”)的系统图。认证服务器100通常包括存储器102、一个或多个处理器104、电源106、输入/输出(I/O)子系统108、以及用于互连这些组件的通信总线110。
处理器104执行存储存储在存储器102中的模块、程序和/或指令,从而执行处理操作。
在一些实施例中,存储器102存储一个或多个程序(例如,指令集)和/或数据结构,在本文中它们统称为“模块”。在一些实施例中,存储器102或存储器102的非暂时性计算机可读存储介质存储以下程序、模块和数据结构或其子集或超集:
·操作系统120;
·数据集模块122,其存储多个实体124(例如,针对第一实体124a的第一数据集、针对第二实体124b的第二数据集、针对第三实体124c的第三数据集、…针对第N个实体124N的第N个数据集)的信息;以及
·机器学习模块126,其使用监督训练模块130、无监督训练模块132和/或对抗训练模块134来生成认证模型136(例如,针对第一实体124a的第一模型136a、针对第二实体124b的第二模型136b、...针对第N个实体124N的第N个模型136N)。
上面指出的模块(例如,数据结构和/或包括指令集的程序)不必以单独的软件程序、子程序或模块的方式实现,所以在各种实施例中这些模块的各种子集可以被组合或以其他方式重新布置。在一些实施例中,存储器102存储上面指出的模块的子集。在一些实施例中,远程认证数据库152和/或本地认证数据库142存储上面指出的一个或多个模块的一部分或全部。此外,存储器102可以存储以上未描述的附加模块。在一些实施例中,存储在存储器102或存储器102的非暂时性计算机可读存储介质中的模块提供用于实现以下描述的方法中的相应操作的指令。在一些实施例中,这些模块中的一些或全部可以用专用硬件电路实现,这些专用硬件电路包含模块功能的一部分或全部。上面指出的元件中的一个或多个可以由一个或多个处理器104执行。在一些实施例中,机器学习模块126被存储在一个或多个设备(例如,认证服务器100、验证设备162和/或用户设备156)上,由一个或多个设备执行,和/或,分布在一个或多个设备中。
实体124是例如组织(例如,利用由与认证服务器100相关联的实体提供的验证服务的商家或其他企业)。在一些实施例中,实体124的各数据集(例如,第一实体124a的第一数据集、第二实体124b的第二数据集、和/或第三实体124b的第三数据集)从实体数据库160和/或通信连接到认证服务器100的另一个实体设备接收。在一些实施例中,实体124的各数据集包括个人可识别信息(PIT),如标识信息(例如,唯一性标识、用户名、用户密码、用户住宅信息、用户电话号码、用户出生日期、和/或用户电子邮件)、参考图像、和/或认证图像(例如,图像300)。例如,实体的各数据集包括与该实体相关联的一个或多个用户的PII。在一些实施例中,访问控制(例如,物理访问控制)用于控制对数据集和/或数据集中的PII的访问。在一些实施例中,根据一个或多个标准(例如,支付卡行业数据安全标准(PCI DSS)标准)来处理数据集。
在一些实施例中,生成认证模型136包括生成用于预测连续变量的回归算法。
在一些实施例中,经由通信网络150和/或经由有线和/或无线连接,I/O子系统108将计算系统100通信连接到一个或多个设备,如本地认证数据库142、远程认证数据库152、请求设备154、用户设备156、验证设备162(例如,包括一个或多个验证服务器的验证设备)、和/或一个或多个实体数据库160(例如,实体数据库160a、实体数据库160b、和/或实体数据库160c)。在一些实施例中,通信网络150是互联网。
可选地,通信总线110包括互连并控制系统组件之间的通信的电路(有时称为芯片组)。
在一些实施例中,用于处理认证请求的认证系统包括服务器计算机系统100。在一些实施例中,用于处理认证请求的认证系统包括(例如,经由网络150和/或I/O子系统108)通信连接到一个或多个验证设备162的服务器计算机系统100。在一些实施例中,认证系统接收认证请求(例如,从捕捉用户的图像的用户设备156接收,或从接收来自用户设备156的图像的请求设备154接收)。例如,认证请求是对用户(例如,作为交易的一方的用户、或请求访问系统或物理位置的用户)的身份进行认证的请求。请求设备154是例如商家、银行、交易处理器、计算系统或平台、物理访问系统或另一用户的设备。
在一些实施例中,认证请求包括图像,如图3所示的认证图像300。例如,认证图像300是针对用户的标识文档的图像。在一些实施例中,认证请求包括由用户设备156捕捉的用户的参考图像(例如,图像、一系列图像和/或视频),如用户的近期“自拍照”(例如,作为认证图像300的附加或替代)。在一些实施例中,认证请求包括认证图像300,且认证系统找出与提供认证图像的用户相对应的参考图像(例如,由认证服务器100存储在本地认证数据库142和/或远程认证数据库152中的参考图像)。例如,认证系统将从认证图像300提取的图像数据(例如,面部图像数据)和/或数据与从参考图像提取的图像数据(例如,面部图像数据)和/或数据进行比较,以确定与认证信息相对应的认证结果(例如,确定认证图像是否有效、无效、和/或包括验证错误)。在一些实施例中,认证系统将从认证图像300中提取的图像数据与被存储的用户信息(例如,由认证服务器100存储在本地认证数据库142和/或远程认证数据库152中的用户信息)进行比较。在一些实施例中,认证服务器100将认证信息和/或使用认证信息确定的认证结果发送到请求设备154和/或用户设备156。在一些实施例中,从接收到的认证图像300中提取针对用户的PII的一部分或全部。
在一些实施例中,认证服务器100使验证设备162显示参考图像的全部或一部分、和/或认证图像的全部或一部分,以供人工审查。在一些实施例中,验证设备162接收与确定认证是否成功相对应的输入(例如,基于是否在图像中检测到故障、和/或参考图像300是否足够类似于认证图像350)。在一些实施例中,验证设备162发送与确定认证是否成功相对应的验证信息(例如,发送到认证服务器100、发送到请求设备154、和/或发送到用户设备156)。
图2A是示出根据一些实施例的机器学习的图,该机器学习用于生成与多个数据集相对应的单个模型。在数据捕捉阶段202,从第一顾客(“顾客1”)、第二顾客(“顾客2”)和第三顾客(“顾客3”)获得数据集。来自顾客1、顾客2和顾客3的数据被汇总为单个数据集。在准备阶段204,对汇总的数据集执行准备操作(例如,删除模型生成不需要的数据,重新格式化数据,数据串接等)。在训练阶段206,对汇总的数据集执行训练操作(例如,将训练数据提供给机器学习算法)。在测试阶段208,对汇总的数据集执行测试操作(例如,确定机器学习算法的输出的质量)。在改进阶段210,对汇总的数据集执行改进操作(例如,将测试阶段的结果应用于模型)。因为针对图2A所描述的机器学习将来自多个实体的数据混合在一起以建立机器学习模型,所以可能存在这样的情况,即,图2A所描述的机器学习不符合对PII的使用进行限制的隐私法规。
图2B是示出根据一些实施例的机器学习的图,该机器学习用于生成与各隔离数据集相对应的多个模型。在一些实施例中,针对图2B描述的机器学习通过使用隔离数据集和/或非识别信息来实现对一个或多个隐私法规的遵守。与针对图2A所述的对汇总数据集执行的机器学习不同,在图2B中对各个数据集分别执行机器学习。
在数据捕捉阶段212,从第一实体124a(“顾客A”)、第二实体124b(“顾客B”)和/或第三实体124c(“顾客C”)获得数据集。在准备阶段214中,对第一实体124a的顾客A数据集执行第一准备操作(例如,模型生成不需要的数据的删除,数据的重新格式化,数据的串接等),对第二实体124b的顾客B数据集执行第二准备操作,和/或,对第三实体124c的顾客C数据集执行第三准备操作。在训练阶段216,对第一实体124a的顾客A数据集执行第一训练操作(例如,向机器学习算法提供训练数据)(例如,以生成认证模型136a),对第二实体124b的顾客B数据集执行第二训练操作(例如,以生成第二认证模型136b),和/或对第三实体124c的顾客C数据集执行第三训练操作(例如,以生成认证模型136c)。在一些实施例中,为实体124a开发了第一机器学习算法,为实体124b开发了第二机器学习算法,和/或为实体124c开发了第三机器学习算法。在测试阶段218中,对第一实体124a的顾客A数据集执行第一测试操作(例如,确定机器学习算法的输出的质量),对第二实体124b的顾客B数据集执行第二测试操作,和/或对第三实体124c的顾客C数据集执行第三测试操作。在改进阶段220中,对第一实体124a的顾客A数据集执行第一改进操作(例如,将测试阶段的结果应用于模型),对第二实体124b的顾客B数据集执行第二改进操作,和/或对第三实体124c的顾客C数据集执行第三改进操作。
图3示出了根据一些实施例的参考图像300。参考图像300是例如包括用户的面部图像304的标识文档302的图像。例如,参考图像300是身份证、驾驶证、护照、金融工具(例如,信用卡或借记卡)或设施出入卡的图像。在一些实施例中,通过参考图像300的分析(例如,光学字符识别、安全特征验证、和/或故障检测)获得数据集的至少一部分信息。
图4是示出根据一些实施例的用于使用机器学习来生成与各隔离数据集相对应的多个模型的方法400的流程图。该方法在认证服务器100、用户设备156和/或验证设备162处执行。例如,用于执行该方法的指令被存储在存储器102中,并由认证服务器计算机系统100的处理器104执行。
设备接收与第一实体相对应的第一数据集(402)。例如,认证服务器100从第一实体124a的实体数据库160a接收第一数据集(例如,顾客A数据集)(例如,像针对图2B的数据捕捉阶段212所描述的那样)。在一些实施例中,设备对第一数据集的至少一部分进行解密,和/或,对第一数据集的至少一部分进行加密。
设备使用机器学习系统(例如,针对图1所描述的机器学习系统126)确定与第一数据集相对应的一个或多个值的第一集合(例如,模型136a)(404)。在一些实施例中,一个或多个值的第一集合不包括PII。
在一些实施例中,(例如,在使用机器学习系统126确定一个或多个值的第一集合之前),设备对第一数据集执行一个或多个准备操作。例如,设备通过从第一数据集去除至少一部分个人可识别信息来生成修改后的第一数据集(例如,机器学习系统126从第一数据集去除诸如姓名、电话号码和/或地址之类的信息,并使用国家/地区、文档类型和/或文档错误等信息确定一个或多个值的第一集合)。在一些实施例中,设备使用修改后的第一数据集来确定一个或多个值的第一集合。
在一些实施例中,在确定与第一数据集相对应的一个或多个值的第一集合的同时,对第一数据集进行加密。例如,在每个时期(例如,每次第一数据集通过认证模型136a的第一算法时)对第一数据集进行加密。
设备接收与第二实体相对应的第二数据集(406)。例如,认证服务器100从第二实体124a的实体数据库160b接收第二数据集(例如,顾客B数据集)(例如,像针对图2B的数据捕捉阶段212所描述的那样)。在一些实施例中,设备对第二数据集的至少一部分进行解密,和/或,对接收到的第二数据集的至少一部分进行加密。
设备使用机器学习系统确定与第二数据集相对应的一个或多个值的第二集合(例如,模型136b)(408)。使用一个或多个值的第一集合(例如,模型136a)的至少一部分来确定一个或多个值的第二集合。例如,通过对第一数据集执行机器学习而获得的见解(例如,风险概率与各种文档类型之间的关联性)被用于使用第二数据集进行的机器学习。
在一些实施例中,第一数据集包括与第一实体(例如,实体124a)相关联的第一用户的个人可识别信息,第二数据集包括与第二实体(例如,实体124b)相关联的第二用户的个人可识别信息。
在一些实施例中,在确定与第二数据集相对应的一个或多个值的第二集合的同时,对第二数据集进行加密。例如,在每个时期(例如,每次第二数据集通过认证模型136b的第二算法时)对第二数据集进行加密。
在一些实施例中,针对与第二实体(例如,实体124b)相对应的交易,设备从用户接收认证信息(例如,认证图像300)(410)。
在一些实施例中,设备使用一个或多个值的第二集合(例如,模型136b)来确定与认证信息相对应的认证结果(例如,检测到故障,检测到匹配项,未检测到故障,和/或,未检测到匹配项)(412)。
在一些实施例中,设备将认证结果发送到远程设备(例如,验证设备162、请求设备154、和/或用户设备156)(414)。
在一些实施例中,远程设备是验证设备162。在一些实施例中,由验证设备输出(例如显示)与认证结果相对应的信息,并提示输入验证信息。在一些实施例中,从验证设备接收验证信息。
在一些实施例中,远程设备是用户的用户设备156。在一些实施例中,由用户设备156输出(例如,显示)与认证结果相对应的信息。
可以理解,已经描述的图4中的操作的具体顺序仅是示例,并不旨在指示所描述的顺序是这些操作可以被执行的唯一顺序。本领域普通技术人员会发现将本文描述的操作重新排序的各种方式。
本发明的特征可以在计算机程序产品,中实现,或使用计算机程序产品实现,或在计算机程序产品的帮助下实现,例如,其上存储有指令的存储介质或计算机可读存储介质,这些指令可以用于对处理系统进行编程以执行本文提出的任何特征。存储介质(例如,存储器102)可以包括但不限于高速随机存取存储器如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备,且可以包括非易失性存储器如一个或多个磁盘存储设备、光盘存储设备、闪存设备或其他非易失性固态存储设备。在一些实施例中,存储器102包括远离CPU 104的一个或多个存储设备。存储器102或这些存储器内的非易失性存储器,包括非暂时性计算机可读存储介质。
可选地,本文所提及的通信系统(例如,通信系统108)经由有线和/或无线通信连接进行通信。可选地,通信系统通过无线通信与以下网络(例如,网络150)通信,如因特网,也被称为万维网(WWW),内联网和/或无线网络,如蜂窝电话网络、无线局域网(LAN)和/或城域网(MAN),以及其他设备。可选地,无线通信连接使用多种通信标准、协议和技术中的任一种,包括但不限于全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、高速下行链路分组接入(HSDPA)、高速上行链路分组接入(HSUPA)、演进-仅数据(EV-DO)、HSPA、HSPA+、双小区HSPA(DC-HSPDA),长期演进(LTE)、近场通信(NFC)、宽带码分多址(W-CDMA)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、无线保真(Wi-Fi)(例如,IEEE802.11a、IEEE802.11ac、IEEE802.11ax、IEEE802.11b、IEEE802.11g和/或IEEE802.11n)、互联网协议语音(VoIP)、Wi-MAX、用于电子邮件的协议(例如,因特网消息访问协议(IMAP)和/或邮局协议(POP))、即时消息传送(例如,可扩展消息传送和存在协议(XMPP),用于即时消息传送和存在利用扩展(SIMPLE)的会话发起协议、即时消息和存在服务(IMPS))和/或短消息服务(SMS)、或任何其他合适的通信协议,包括在本申请文件的提交日尚未开发的通信协议。
应当理解,尽管本文中可能使用了术语“第一”、“第二”等来描述各种元件,但是这些元件不应受这些术语限制。这些术语仅用于将一个元件与另一个元件区分开来。
本文中所使用的术语仅用于描述特定实施例的目的,而不旨在限制权利要求。如在实施例的描述和所附权利要求中所使用的,单数形式“一个”、“一种”和“该”旨在也包括复数形式,除非上下文另有明确说明。还应理解,本文所用的术语“和/或”是指并包含一个或多个相关所列项目的任何和所有可能的组合。还应当理解,在本说明书中使用时,术语“包括”和/或“包含”指明存在所述特征、步骤、操作、元件和/或组件,但不排除一个或多个其他特征、步骤、操作、元素、组件和/或其组的存在或添加。
如本文中所使用的,术语“如果......”可以根据上下文解释为指“在......时”、“一旦......时”、“响应于确定为......”、“根据确定为......”或“响应于检测到......”,“.....”表示所陈述的前提条件成立。类似地,短语“如果确定为(所陈述的前提条件成立)”、“如果(所陈述的前提条件成立)”或“在(所陈述的前提条件成立)时”可以根据上下文解释为指“一旦确定为......”、“响应于确定为......”、“根据确定为......”、“一旦检测到......”或“响应于检测到......”,“.....”表示所陈述的前提条件成立。
出于解释的目的,已经参考具体实施例进行了上面的描述。然而,上面的说明性讨论并非旨在穷举或将本发明限制于所公开的精确形式。鉴于上述教导,许多修改和变化都是可能的。选择和描述这些实施例是为了最好地解释本发明的原理及其实际应用,从而使得本领域的其他技术人员能够实现本发明。

Claims (14)

1.一种计算机实现的方法,包括:
在包括一个或多个处理器和存储由所述一个或多个处理器执行的一个或多个程序的服务器系统中:
接收与第一实体相对应的第一数据集;
使用机器学习系统确定与所述第一数据集相对应的一个或多个值的第一集合;
接收与第二实体相对应的第二数据集;
使用机器学习系统确定与所述第二数据集相对应的一个或多个值的第二集合,其中使用所述一个或多个值的第一集合中的至少一部分来确定所述一个或多个值的第二集合。
2.根据权利要求1所述的方法,其中,所述第一数据集包括与所述第一实体相关联的第一用户的个人可识别信息,所述第二数据集包括与所述第二实体相关联的第二用户的个人可识别信息。
3.根据权利要求2所述的方法,包括:
从第三用户接收与所述第二实体相对应的交易的认证信息;
使用所述一个或多个值的第二集合来确定与所述认证信息相对应的认证结果;以及
将所述认证结果发送到远程设备。
4.根据权利要求3所述的方法,其中,所述认证信息包括认证文档的图像。
5.根据权利要求3至4中任一项所述的方法,其中,所述认证结果是验证错误。
6.根据权利要求3至5中任一项所述的方法,其中:
所述远程设备是验证设备;
由所述验证设备输出与所述认证结果相对应的信息,并提示输入验证信息;且
该方法包括从所述验证设备接收所述验证信息。
7.根据权利要求3至6中任一项所述的方法,其中:
所述远程设备是所述第三用户的用户设备;且
由所述用户设备输出与所述认证结果相对应的信息。
8.根据权利要求2至7中任一项所述的方法,包括在使用机器学习系统确定与所述第一数据集相对应的所述一个或多个值的第一集合之前:
通过从所述第一数据集去除一个或多个用户的至少一部分个人可识别信息来生成修改后的第一数据集;以及
使用所述修改后的第一数据集确定所述一个或多个值的第一集合。
9.根据权利要求1至8中任一项所述的方法,其中,在确定与所述第一数据集相对应的所述一个或多个值的第一集合的同时,对所述第一数据集进行加密。
10.根据权利要求1至9中任一项所述的方法,其中,在确定与所述第一数据集相对应的所述一个或多个值的第二集合的同时,对所述第二数据集进行加密。
11.一种计算机可读存储介质,存储有一个或多个程序,所述一个或多个程序包括指令,所述指令在被执行时使设备执行以下操作:
接收与第一实体相对应的第一数据集;
使用机器学习系统确定与所述第一数据集相对应的一个或多个值的第一集合;
接收与第二实体相对应的第二数据集;
使用机器学习系统确定与所述第二数据集相对应的一个或多个值的第二集合,其中使用所述一个或多个值的第一集合中的至少一部分来确定所述一个或多个值的第二集合。
12.一种计算机可读存储介质,存储有一个或多个程序,所述一个或多个程序包括指令,所述指令在被执行时使设备执行权利要求1至10中任一项所述的方法。
13.一种系统,包括:
一个或多个处理器;
存储器;和
一个或多个程序,
其中,所述一个或多个程序被存储在所述存储器中,并被配置成用于被所述一个或多个处理器执行,所述一个或多个程序包括用于执行以下操作的指令:
接收与第一实体相对应的第一数据集;
使用机器学习系统确定与所述第一数据集相对应的一个或多个值的第一集合;
接收与第二实体相对应的第二数据集;
使用机器学习系统确定与所述第二数据集相对应的一个或多个值的第二集合,其中使用所述一个或多个值的第一集合中的至少一部分来确定所述一个或多个值的第二集合。
14.一种系统,包括:
一个或多个处理器;
存储器;和
一个或多个程序,
其中,所述一个或多个程序被存储在所述存储器中并被配置成用于被所述一个或多个处理器执行,所述一个或多个程序包括用于执行权利要求1至10中任一项所述的方法的指令。
CN201980006951.0A 2018-06-01 2019-06-03 隔离数据集的机器学习 Pending CN111566640A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862679697P 2018-06-01 2018-06-01
US62/679,697 2018-06-01
US16/428,699 US20190370688A1 (en) 2018-06-01 2019-05-31 Machine learning for isolated data sets
US16/428,699 2019-05-31
PCT/US2019/035233 WO2019232534A1 (en) 2018-06-01 2019-06-03 Machine learning for isolated data sets

Publications (1)

Publication Number Publication Date
CN111566640A true CN111566640A (zh) 2020-08-21

Family

ID=68693936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980006951.0A Pending CN111566640A (zh) 2018-06-01 2019-06-03 隔离数据集的机器学习

Country Status (3)

Country Link
US (1) US20190370688A1 (zh)
CN (1) CN111566640A (zh)
WO (1) WO2019232534A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11755754B2 (en) * 2018-10-19 2023-09-12 Oracle International Corporation Systems and methods for securing data based on discovered relationships
KR102263768B1 (ko) * 2020-11-09 2021-06-11 주식회사 고스트패스 사용자 생체 정보를 이용하는 본인 인증 시스템
US11902416B2 (en) * 2022-06-09 2024-02-13 The Government of the United States of America, as represented by the Secretary of Homeland Security Third party biometric homomorphic encryption matching for privacy protection
US11727100B1 (en) 2022-06-09 2023-08-15 The Government of the United States of America, as represented by the Secretary of Homeland Security Biometric identification using homomorphic primary matching with failover non-encrypted exception handling

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657878A (zh) * 2013-11-21 2015-05-27 国际商业机器公司 用于对数据集进行推荐和定价的方法和系统
US20170187748A1 (en) * 2015-12-23 2017-06-29 Ryan M. Durand Protecting Personally Identifiable Information From Electronic User Devices
US20170200247A1 (en) * 2016-01-08 2017-07-13 Confirm, Inc. Systems and methods for authentication of physical features on identification documents

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8838629B2 (en) * 2009-10-23 2014-09-16 American Express Travel Related Services Company, Inc. Anonymous information exchange
US9390378B2 (en) * 2013-03-28 2016-07-12 Wal-Mart Stores, Inc. System and method for high accuracy product classification with limited supervision
US9699205B2 (en) * 2015-08-31 2017-07-04 Splunk Inc. Network security system
CA2963113A1 (en) * 2016-03-31 2017-09-30 Confirm, Inc. Storing identification data as virtual personally identifiable information
US11210670B2 (en) * 2017-02-28 2021-12-28 Early Warning Services, Llc Authentication and security for mobile-device transactions
US10721239B2 (en) * 2017-03-31 2020-07-21 Oracle International Corporation Mechanisms for anomaly detection and access management
US20190080063A1 (en) * 2017-09-13 2019-03-14 Facebook, Inc. De-identification architecture
US11036884B2 (en) * 2018-02-26 2021-06-15 International Business Machines Corporation Iterative execution of data de-identification processes
US11379855B1 (en) * 2018-03-06 2022-07-05 Wells Fargo Bank, N.A. Systems and methods for prioritizing fraud cases using artificial intelligence

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657878A (zh) * 2013-11-21 2015-05-27 国际商业机器公司 用于对数据集进行推荐和定价的方法和系统
US20170187748A1 (en) * 2015-12-23 2017-06-29 Ryan M. Durand Protecting Personally Identifiable Information From Electronic User Devices
US20170200247A1 (en) * 2016-01-08 2017-07-13 Confirm, Inc. Systems and methods for authentication of physical features on identification documents

Also Published As

Publication number Publication date
WO2019232534A1 (en) 2019-12-05
US20190370688A1 (en) 2019-12-05

Similar Documents

Publication Publication Date Title
US20210152550A1 (en) Machine learning for document authentication
CN111566640A (zh) 隔离数据集的机器学习
WO2019237565A1 (zh) 贷款业务处理方法、装置、计算机设备及可读存储介质
US11824851B2 (en) Identification document database
JP5695709B2 (ja) 生体認証および自己学習アルゴリズムを用いた個人用アカウント識別子の有効化方法およびシステム。
US20210224563A1 (en) Efficient removal of personal information from a data set
WO2020077885A1 (zh) 身份验证方法、装置、计算机设备和存储介质
US11558377B2 (en) Triage engine for document authentication
US20150215310A1 (en) System and method for cross-channel authentication
US20240184919A1 (en) Batch tokenization service
CN111343162B (zh) 系统安全登录方法、装置、介质及电子设备
CN110351672B (zh) 信息推送方法、装置及电子设备
US11537737B2 (en) De-tokenization patterns and solutions
WO2020019977A1 (zh) 一种身份验证方法及装置、一种计算设备及存储介质
US20210226939A1 (en) Providing outcome explanation for algorithmic decisions
US20240095327A1 (en) Computer authentication using knowledge of former devices
US20210342530A1 (en) Framework for Managing Natural Language Processing Tools
US20220414652A1 (en) Prioritizing Holds When Selecting Transactions for Transaction-Based Knowledge-Based Authentication
CN114118046A (zh) 一种批量交易处理方法和装置
US20220292497A1 (en) Transaction Based Authentication with Refunded Transactions Removed
US20170091860A1 (en) Method and system for performing an action in a branchless banking environment
CN111681106A (zh) 贷款用途承诺声明的验证方法及装置
US11783334B2 (en) Using an always on listening device skill to relay answers to transaction-based knowledge-based authentications
EP4075364A1 (en) Method for determining the likelihood for someone to remember a particular transaction
US10153902B1 (en) Secure data transmission using natural language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200821