CN111931223A - 保护隐私的同时在分布式客户数据上的机器学习 - Google Patents
保护隐私的同时在分布式客户数据上的机器学习 Download PDFInfo
- Publication number
- CN111931223A CN111931223A CN201911042526.5A CN201911042526A CN111931223A CN 111931223 A CN111931223 A CN 111931223A CN 201911042526 A CN201911042526 A CN 201911042526A CN 111931223 A CN111931223 A CN 111931223A
- Authority
- CN
- China
- Prior art keywords
- data
- anonymized
- model
- training
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 title claims description 48
- 238000012549 training Methods 0.000 claims abstract description 146
- 238000004519 manufacturing process Methods 0.000 claims abstract description 71
- 238000000034 method Methods 0.000 claims abstract description 58
- 238000013507 mapping Methods 0.000 claims description 5
- 239000003795 chemical substances by application Substances 0.000 description 48
- 230000015654 memory Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 238000007781 pre-processing Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000004590 computer program Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000002085 persistent effect Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013526 transfer learning Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/10—Providing a specific technical effect
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
计算机实施的系统和计算机实施的方法包括以下。在训练代理处接收对训练机器学习ML模型的请求。用于训练模型的匿名化数据由训练代理从多个数据源的每个单独数据源获得。通过数据科学模式访问匿名化数据,匿名化数据由来自每个单独数据源的生产数据的敏感信息的匿名化提供。对匿名化数据的访问被提供给数据供应商,用于使用匿名化数据训练ML模型。
Description
技术领域
本公开涉及机器学习。
背景技术
当使用生产数据例如而不是制造的测试数据时,机器学习技术可以提供改进的结果。然而,生产数据可能包括是私人的或敏感的信息。受益于机器学习技术的客户,诸如公司或企业,可能具有关于提供私人或敏感信息的担心。私人信息可以包括例如个人可识别信息(personally identifiable information,PII),诸如姓名、地址、电话号码、帐号、和计算机凭证。敏感信息可以包括例如账户余额、其它数字量或测量、和人口统计信息。作为结果,客户避免向创建模型的供应商提供他们的数据,因为这些数据可能包含隐私相关或一般敏感的信息。
发明内容
本公开描述了用于在维护对隐私的最小影响的同时在分布式客户数据上执行机器学习的技术。在实施方式中,计算机实施的方法包括:在训练代理处接收对训练机器学习模型ML的请求;由训练代理从多个数据源的每个单独数据源获得用于训练模型的匿名化数据,其中通过匿名化来自每个单独数据源的生产数据的敏感信息来提供通过数据科学模式访问的匿名化数据;并且向数据供应商提供对匿名化数据的访问,用于使用匿名化数据训练ML模型。
所描述的主题可以使用以下各项来实施:计算机实施的方法;存储计算机可读指令以执行计算机实施的方法的非暂时性计算机可读介质;和包括一个或多个计算机存储设备的计算机实施的系统,该一个或多个计算机存储设备可互操作地与一个或多个计算机耦合,并且具有存储指令的有形的、非暂时性机器可读介质,当由一个或多个计算机运行时,该指令执行计算机实施的方法/存储在非暂时性计算机可读介质上的计算机可读指令。
本说明书中描述的主题可以实施为实现以下优点中的一个或多个。第一,真实的生产数据可以用于训练模型而不损害私人或敏感信息,增加用于客户的数据隐私。第二,可以创建使用不同客户的数据的模型训练服务,而客户不需要将其数据复制到供应商数据库。第三,真实的生产数据的使用可以改进模型的性能和准确性,因为生成的数据可能无法提供足够的结果。第四,机器学习模型可以为基于个人基础的分布式客户创建。第五,用于训练模型的单独客户数据不能追溯回到数据源,诸如单独个人。
在具体实施方式、权利要求、和附图中阐述了本说明书的主题的一个或多个实施方式的细节。从具体实施方式、权利要求、和附图,主题的其它特征、方面、和优点对于本领域普通技术人员将变得显而易见。
附图说明
图1是示出根据本公开的实施方式的预处理系统的示例的框图。
图2是示出根据本公开的实施方式的使用预处理系统的模型训练系统的示例的框图。
图3A和图3B是共同地示出根据本公开的实施方式的模型训练系统的数据到模型变体的示例的框图。
图4A和图4B是共同地示出根据本公开的实施方式的模型训练系统的模型到数据变体的示例的框图。
图5是示出根据本公开的实施方式的用于使用训练代理来代理用于模型的机器学习训练的匿名化数据的计算机实施的方法的示例的流程图。
图6是示出根据本公开的实施方式的用于提供与所描述的算法、方法、功能、过程、流程、和程序相关联的计算功能性的计算机实施的系统的示例的框图。
各种附图中的相同参考标号和名称指示相同元件。
具体实施方式
以下详细描述描述了用于在保护隐私的同时在分布式客户数据上执行机器学习的技术,并且被呈现为使得本领域的任何技术人员能够在一个或多个特定实施方式的上下文中制作和使用所公开的主题。可以对所公开的实施方式进行各种修改、改变和置换,并且对于本领域普通技术人员来说,这些修改、改变和置换是显而易见的。在不脱离本公开的范围的情况下,所定义的一般原理可以应用于其它实施方式和应用。在一些情况下,可以省略对于获得对所描述的主题的理解不必要并且在本领域普通技术人员的技能范围内的一个或多个技术细节,以便不模糊一个或多个所描述的实施方式。本公开不旨在限于所描述或示出的实施方式,而是符合与所描述的原理和特征一致的最宽范围。
许多客户使用部署到他们的(多个)客户站点的标准软件。例如,客户可以使用相同的企业资源规划(enterprise resource planning,ERP)软件。在某些情况下,ERP软件包括附加功能,诸如客户特定的扩展。附加功能中的一些可能与机器学习(machinelearning,ML)功能相关,可能包括应用于所有客户及其数据的技术。例如,ML技术可以基于对于使用相同ERP软件的客户是共同的数据的基础。数据可以以共同格式,包括在应用的不同类型当中共享的格式。例如,ML技术可以应用于销售订单、销售订单项目、发票、人力资源(human resources,HR)数据、和数据的组合。这些数据类型中的每一个可以使用基于实际上的行业标准的数据结构,行业标准是为存储在映射到一个共同数据格式的不同软件产品中的数据集定义的。
软件供应商例如可能想要创建基于给定产品或一套产品中使用的信息的ML模型。ML模型、数据分析、和模型训练可以经常从使用实际的客户数据或生产数据受益。生产数据可能是必要的,例如,在其中生成的数据不能提供可接受或现实的结果的情景中。在这种情况下,可能会要求客户提供用于内部产品或基于云的产品的生产数据。可能存在禁止供应商读取客户数据的数据访问法规或要求。由于公司政策,一些公司可能禁止对客户数据的某些类型的评估。可能存在禁止对敏感数据(例如,PII)的访问的政府或法律法规,诸如《一般数据保护法规(General Data Protection Regulation,GDPR)》规则。
作为数据隐私问题的结果,例如,关于用于基于实际的客户数据创建机器学习模型的最佳方式可能存在挑战。当数据分布在若干客户当中(例如,在不同定位处),并且不允许供应商对数据的直接访问时,挑战会变得更加困难。即使数据中的一些是可访问的,维护客户数据隐私仍然是挑战。
数据预处理
在一些实施方式中,在数据被访问用于模型中的使用之前,可以发生数据的预处理。预处理可以被引导,使得机器学习过程不直接地访问或使用如存储在数据库中的数据。由软件供应商提供的预处理机制典型地取决于特定的数据结构和数据类型。例如,可以过滤掉训练过程不需要的字段。过滤掉的字段可以包括例如对于模型不需要的个人数据。过滤可以确保数据不会由训练过程读取或使得对训练过程可访问。在一些实施方式中,可以在数据集或数据库上使用机制来将诸如文本、字符串、和全局唯一标识符(global uniqueidentifier,GUID)的字段转换为数字(包括随机数)或转换为防止源数据的反向工程和重新创建的其它形式。
图1是示出根据本公开的实施方式的预处理系统100的示例的框图。预处理系统100可以用于预处理服务应用104的数据库102中的数据。数据曝光器控件106可以向模型提供数据。数据库102包括服务应用104的客户生产数据模式108和服务曝光器控件106的数据科学模式110。生产数据模式108通过视图114提供对数据库表112的访问。数据科学模式110通过视图118提供对数据库表116的访问。在一些实施方式中,数据曝光器控件106也可以通过接收生产数据的子集的流水线(pipeline)120来访问数据。
在一些实施方式中,预处理系统100可以支持通过附加数据库模式(诸如数据科学模式110)的使用建立的过滤。附加数据库模式可以包含诸如视图118的对象,对象授权对生产数据的具体子集的访问,具体子集将另外使用客户生产数据模式108可访问。在一些实施方式中,可以创建选择性地授权对具体字段的读取访问(同时禁用写入访问)的视图。例如,可以过滤掉包含名称的数据字段,或者可以将名称或其它字段映射到匿名化原始名称的全局唯一标识符(GUID)。GUID可以替换表示私人信息的值,这些私人信息通常用于例如连接两个或多个表。在一些实施方式中,数值可以按任意数字缩放。以这种方式,可以比较数值数据的幅度(和其中的相对关系),而不展示实际值。
在一些实施方式中,第二过滤机制可以包括数据流水线的创建和使用,诸如流水线120。当使用数据流水线时,例如,使用客户生产数据模式108读取的数据可以被转换并且存储在由数据科学模式110可访问的数据库表116中。客户(例如,通过他们的管理员)可以控制数据科学模式110,包括定义使用数据科学模式110可访问的数据。客户可以使用用户界面以查看曝光的信息的类型。对于不会被曝光用于机器学习的某些数据集,可以删除视图、表、和表行。可以为客户提供用于曝光数据的应用编程接口(application programminginterface,API),以便客户可以验证曝光的数据对于客户是可接受的。
图2是示出根据本公开的实施方式的使用预处理系统100的模型训练系统200的示例的框图。模型训练系统200可以使用机器学习模型(ML)训练202或204(或组合)来训练模型206。
训练
模型206的训练可以在数据的预处理已经完成后发生。在一些实施方式中,至少两个不同的途径可以用于执行训练:1)数据到模型ML模型训练202,或者2)模型到数据ML模型训练204。
在数据到模型变体(或途径)中,存储器208中的数据被带到模型(例如,通过访问数据或通过接收数据)。在供应商处使用数据科学模式210访问数据。数据通过训练代理212递送。
在模型到数据变体中,模型被提供用于在数据定位处使用(例如,通过将模型提供给客户的定位)。当针对给定客户来训练模型时,更新的模型被提供给训练代理212,训练代理212可以将更新的模型递送给附加客户。
在一些实施方式中,数据到模型变体可以被认为是最佳途径。这是因为对于运作训练所需要的特定硬件不能假定为存在于数据的定位处。例如,可能并非所有客户都拥有对于运行模型所要求的图形处理单元(graphics processing unit,GPU)或专用集成电路(application-specific integrated circuit,ASIC)硬件。此外,如果训练消耗大量资源,并且在客户数据中心处资源不可用,那么资源可以由供应商提供。
在一些实施方式中,模型到数据变体可以限于能够分布到数据定位的模型(例如,用于“传递学习”)。作为结果,模型到数据变体可能更适合于大数据量,因为只有模型(而不是数据)通过网络发送以用于训练。
数据到模型的变体
图3A和图3B是根据本公开的实施方式的共同地示出模型训练系统的数据到模型变体300的示例的框图。数据到模型变体300可以提供使用分布式客户数据的集中训练。在训练发生之前,可以预处理数据,例如,通过从客户数据库中的数据科学模式读取数据,并且将数据高速缓存在训练代理中。
在步骤1 302处,例如,当请求训练场景X(包括请求高速缓存相关数据)时,可以启动模型训练。例如,供应商数据中心304处的供应商可以为每个特定的训练指定哪些数据将被高速缓存(306)。识别要高速缓存的数据的信息可以被递送给训练代理212。供应商数据中心304可以包括类似于客户308的组件(包括应用310和数据库312)的组件。数据库312包括供应商自己的数据模式314和数据科学模式316。供应商数据中心304包括可以训练模型的数据到模型ML训练模块320。数据匿名化和转换318可以确保客户私人和敏感数据受到保护。
然后,训练代理212可以从参与客户那里读取记录,读取可以以任何顺序,包括随机顺序。例如,在步骤2a-2m 324,读取数据可以包括访问由训练代理212呼叫的客户的单个记录。在数据已经被训练代理212访问并且高速缓存之后,当提供对高速缓存的访问用于训练时,模型训练可以在步骤3 326处发生。在在从训练代理212读取的数据上执行实际训练的时间期间,训练代理212可以从所有连接的客户随机地传递记录。因此,训练算法不访问私人或隐私敏感的数据所有者信息,包括哪些数据来自哪个客户。
因为高速缓存不需要强制原始数据库表的唯一键约束,所以具有相同键的行可以从不同的客户读取并且高速缓存。客户名称和客户的数据库名称(或其它能够将记录映射到特定客户的信息)不会添加到高速缓存中的记录。在某些情况下,隐私保护技术的这些类型可以由外部可信第三方监管。
机器模型训练可以读取数据的超集(superset),超集表示若干不同来源的多个数据集,例如,由不同客户可访问的数据集。在一些实施方式中,可以指定源的最小数量,意味着要使用来自客户的最小数量(例如,十个)的数据。在一些实施方式中,外部可信第三方可以监管并且强制最小值。
在一些实施方式中,在读取期间可以将白噪声记录的集合引入到高速缓存中。以这种方式,例如,训练算法不能确定访问的数据是来自连接的客户系统中的任一还是来自白噪声生成器。可以设计白噪声数据集使得不干扰模型的训练。
模型到数据变体
图4A和图4B是根据本公开的实施方式的共同地示出模型训练系统的模型到数据变体400的示例的框图。模型到数据变体可以支持在客户数据之上迭代的分布式训练。模型到数据途径可以用于对于“传送学习”使能的模型,“传递学习”涵盖了可以通过用更多数据训练来改进训练的模型的概念。在一些实施方式中,途径可以以类似于神经网络的方式来实施,包括以下步骤。
在步骤1a 402处,在供应商数据上训练模型。根模型可以基于可以由供应商生成的供应商的自有数据来创建,其中数据具有更低但仍然可用的质量。根模型可以以这样的方式初始地创建,以便保护初始客户的数据的隐私。例如,当来自第一客户的模型的更新版本随后地被返回给训练代理212时,模型不是排外地仅仅基于客户的数据,并且因此不能被映射到客户。在步骤1b404处,模型被递送给训练代理212用于进一步训练。
模型的重新训练可以然后发生,例如,一次一个客户。在步骤2a 406处,训练代理212可以向客户的流水线308的第一客户提供根模型,用于在客户数据上的附加训练。在步骤3a 408处,第一客户可以使用客户1的数据重新训练模型。在步骤4a 410处,在训练模型之后,第一客户可以将重新训练的模型递送给训练代理212。作为结果,随着模型版本412被重新训练,模型版本414被创建。一般地,当由客户重新训练模型时,可以从模型的版本Vn创建模型的版本Vn+1。在此示例中,在步骤1b 404处,在模型被第一次递送给训练代理212之后,版本为n=1,并且在模型被第一客户重新训练之后,版本为n=2。在模型的每个版本被创建之后,更新的模型然后被发送给下一客户,包括在当前示例中的客户的流水线308的客户2到m。
类似于步骤406-410的步骤可以针对剩余的客户2到m在逐客户(customer-by-customer)的基础上重复。例如,在步骤416处,训练代理212可以向客户的流水线308的第m客户提供根模型的更新版本(例如,版本Vx+1)。作为结果,可以重新训练递送给第m客户的模型版本Vx 422以创建模型版本Vx+1 424。
一旦用许多客户的数据训练模型,就可以测试模型。在步骤5 426处,训练代理212可以将模型(例如,版本x+1)递送给其中供应商可以测试更新的模型的精确度的供应商数据中心304。精确度可以报告给例如数据科学家。可以重复模型到数据变体400的步骤,直到模型的精确度被确定为足够好,例如,具有高于预定阈值的精确度。
扩展变体
在一些实施方式中,变体300和400中的两者可以被扩展为使用添加的公共数据训练,例如,使用来自中央情报局(Central Intelligence Agency,CIA)世界概况手册的数据或来自维基百科的数据。对于数据到模型变体300,公共数据可以以与客户数据相同的方式被访问,并且与真实的客户数据混合。对于模型到数据变体400,公共数据可以用于训练根模型。如果期望在在客户的定位处训练期间将公共数据与客户数据相关联,则可以在在客户数据中心处训练期间读取公共数据。
在一些实施方式中,供应商可能想要使用训练的随机顺序来训练模型,以供客户使用模型到数据变体。例如,可以向客户A提供模型,并指示在客户的数据的20%上来训练模型。可以连续地由客户B-Z中的每一个重新训练模型,并且还可以指示使用他们的数据的20%来训练模型。一旦所有客户已经使用他们的数据的20%重新训练了模型,供应商可以可选地进入到重新训练的另一阶段。例如,以客户的任何顺序,可以指示客户A-Z中的每一个用他们的数据的下一N%(例如30%)来重新训练模型。每次客户重新训练模型,模型已经先前地被其他客户训练或重新训练直到该点。
在一些实施方式中,供应商或其它实体可以指定如何进行训练。例如,供应商可以指定要用于训练的客户的类型的概况和客户数量。在此示例中,训练代理可以选择特定的客户以及例如从哪个行业选择客户。
示例
在可以反映所收集的若干组织的知识的以下训练ML模型的示例中,每个组织可以具有其自有数据库,并且客户可以是组织或许多组织。
在信息服务模型的示例中,供应商可以提出提供由机器学习驱动并且基于参与客户的数据的信息服务。如果客户想要消费(或订阅到)服务,客户可以同意向供应商提供数据。供应商可以使用所有贡献的客户的数据来创建并且向参与客户提供服务。在信息服务模型的一些实施方式中,供应商可以向客户提出用于价格的服务,并且供应商可以可选地向提供支持服务的数据的客户提供折扣价格。
在第一示例中,供应商可能想要提出提供与为不同广告渠道花费的营销投资相关的推荐的服务。客户可以提供关于他们的产品、收入、和营销活动的数据。
ML模型可以使用与客户推断相关联的参数作为输入,诸如产品类型(例如,耳机、电视、或服装)、(多个)产品的价格、和所使用的营销类型(例如,包括电子邮件活动、在线广告、电视广告、或报纸广告的广告渠道)。模型可以返回对于渠道的评估值。例如,模型可以用价值0.3来对电视广告评级、用价值0.1来对电子邮件广告评级和用价值0.8来对在线广告评级,向客户指示在线广告为营销提供了最高价值的渠道。
在此示例中,除了客户推断值之外,用于训练模型所需要的信息可以包括与具体活动前后的营销成本和销售量相关联的信息。参数可以标准化,以便不曝光公司内部机密。例如,销售量值可以标准化为一百万(或另一值)。以这种方式,实际销售信息对供应商来说是不可见的,但是对于缩放值的改变(例如,从100万到120万的改变)是可见的。在一些实施方式中,公共本体可以用于标准化产品类型和广告渠道。
在第二示例中,供应商可能想要提出针对职位发布提供申请人的推荐的服务。订阅到服务的客户可以提供关于申请人的数据,包括申请人的简历、工作描述、和申请人的职业成功。ML模型可以使用输入参数,诸如来自简历和职位概况的数据,来创建例如对候选人在他或她的职业中可能表现得多好的评估或预测。招聘机构可以然后专注于邀请高评级的候选人用于面试。
可以使用简历信息、职位概况信息、雇佣/不雇佣决策、年度绩效考核、和职业路径来训练模型。公共本体(或供应商本体)可以用于标准化职位概况和简历中的信息,诸如教育背景、知识、和经验。
图5是示出根据本公开的实施方式的用于使用训练代理来代理用于模型的机器学习训练的匿名化数据的计算机实施的方法的示例的流程图。为了呈现的清楚性,以下描述一般地在本说明书中的其它附图的上下文中描述方法500。然而,应当理解,方法500可以如适当的例如由任何系统、环境、软件、和硬件,或者系统、环境、软件和硬件的组合来执行。在一些实施方式中,方法500的各个步骤可以并列、组合、循环或以任何顺序运作。
在502处,在训练代理处接收对训练机器学习(ML)模型的请求。作为示例,参考图3A(在步骤1 302处),训练代理212可以从供应商数据中心304接收请求。可以做出请求以训练场景X,包括请求对相关数据进行高速缓存。从502,方法500前进到504。
在504处,用于训练模型的匿名化数据由训练代理从多个数据源的每个单独数据源获得。通过来自每个单独数据源的生产数据的敏感信息的匿名化来提供通过数据科学模式访问的匿名化数据。例如,在步骤2a-2m 324处,训练代理212可以从参与客户308读取记录。读取数据可以包括访问由训练代理212呼叫的客户的单个记录。例如,可以通过数据科学模式110提供对数据的访问。从504,方法500前进到506。
在506处,对匿名化数据的访问被提供给数据供应商,用于使用匿名化数据训练ML模型。作为示例,在数据已经被训练代理212访问并且高速缓存之后,当提供对高速缓存的访问用于训练时,模型训练可以在步骤3 326处发生。在在从训练代理212读取的数据上执行实际训练的时间期间,训练代理212可以从所有连接的客户随机地传递记录。在506之后,方法500可以停止。
在一些实施方式(包括基于数据到模型变体的实施方式)中,获得匿名化数据和ML模型的随后训练包括训练代理、单独数据源和数据供应商之间的以下交互。对匿名化数据的请求被提供给多个数据源的每个单独数据源,并且从多个数据源的每个单独数据源接收匿名化数据。匿名化数据存储在由训练代理维护的高速缓存中,并且对匿名化数据的访问被提供给数据供应商。例如,通过步骤2a-2m 324,训练代理212可以从参与客户308读取记录。在步骤3 326处,训练代理212高速缓存(306)数据,并且对高速缓存的访问被提供给供应商数据中心304用于训练。
在一些实施方式(包括基于模式到数据变体的实施方式)中,获得匿名化数据和ML模型的随后训练包括训练代理、单独数据源和数据供应商之间的以下交互。模型被提供给多个数据源的每个单独数据源。从多个数据源的每个单独数据源接收更新的模型,其中更新的模型由单独数据源使用在单独数据源处运行的机器学习模型训练并且使用对于单独数据源本地地可用的匿名化数据来创建。对于多个数据源的其它单独数据源,重复提供和接收。更新的模型由训练代理提供给数据供应商。作为示例,参考图4A,在步骤2a406处,训练代理212可以向客户的流水线308的第一客户提供根模型,用于在客户的数据上的附加训练。在步骤3a 408处,第一客户可以使用客户1的数据重新训练模型。在步骤4a 410处,在训练模型之后,第一客户可以将重新训练的模型递送给训练代理212。在步骤5 426处,训练代理212可以将模型递送给其中供应商可以测试更新的模型的精度的供应商数据中心304。
在一些实施方式中,方法500可以进一步包括创建和使用数据科学模式。例如,可以基于生产数据的生产数据模式108来创建数据科学模式110。数据科学模式提供对生产数据的只读访问,并且访问仅限于生产数据中的非个性化数据。通过使用数据科学模式110,不要求非个性化数据的复制。数据科学模式用于提供对生产数据的访问。
在一些实施方式中,方法500可以进一步包括提供对数据科学模式的访问,用于在每个单独数据源处的用户查看。例如,可以向客户308提供用于曝光数据的API,使得客户可以验证曝光的数据是可接受的。
在一些实施方式中,方法500可以进一步包括缩放匿名化数据中的数值,以移除可追溯到单独数据源的数值。例如,数值可以按任意数字缩放。以这种方式,可以比较数值数据的振幅(以及其中的相对关系),而不展示实际值。
在一些实施方式中,方法500可以进一步包括将生产数据中的字段映射到GUID,以移除可追溯到单独数据源的值。例如,GUID可以与匿名化数据一起存储。
在一些实施方式中,方法500可以进一步包括流水线的使用。创建流水线(例如,流水线120)用于接收生产数据的子集(例如,从表112)。读取生产数据以提供用于训练ML模型所需要的训练数据。训练数据存储在例如对于流水线120可访问的数据库表116中。对数据库表的访问可以例如使用数据科学模式110来提供。
图6是示出根据本公开的实施方式的用于提供与所描述的算法、方法、功能、过程、流程、和程序相关联的计算功能性的计算机实施的系统600的示例的框图。在示出的实施方式中,系统600包括计算机602和网络630。
示出的计算机602旨在涵盖任何计算设备(诸如服务器、台式计算机、膝上型/笔记本计算机、无线数据端口、智能电话、个人数字助理(personal digital assistant,PDA)、平板计算机、这些设备内的一个或多个处理器)或计算设备的组合,包括计算设备的物理或虚拟实例、或计算设备的物理或虚拟实例的组合。另外,计算机602可以包括输入设备(诸如小键盘、键盘、或触摸屏)或者可以接受用户信息的输入设备的组合以及在图形类型用户界面(user interface,UI)(或GUI)或其它UI上传送与计算机602的操作相关联的信息的输出设备,包括数字数据、视觉信息、音频信息、信息的其它类型、或信息的类型的组合。
计算机602可以充当分布式计算系统中的角色,作为例如,客户端、网络组件、服务器、或者数据库或另一持久库,或者用于执行本公开中描述的主题的角色的组合。示出的计算机602与网络630可通信地耦合。在一些实施方式中,计算机602的一个或多个组件可以被配置为在包括云计算、本地或全局的环境中操作,或者在包括云计算、本地或全局的环境的组合中操作。
在高层处,计算机602是可操作以接收、发送、处理、存储、或管理与所描述的主题相关联的数据和信息的电子计算设备。根据一些实施方式,计算机602也可以包括服务器或与服务器(诸如应用服务器、电子邮件服务器、网络服务器、高速缓存服务器、流数据服务器、或服务器的任意组合)可通信地耦合。
计算机602可以在网络630之上接收请求(例如,从在另一计算机602上运行的客户端软件应用),并且通过使用软件应用或软件应用的组合处理接收到的请求来响应于接收的请求。此外,也可以从内部用户(例如,从命令控制台或通过另一内部访问方法)、外部或第三方、或其它实体、个人、系统、或计算机向计算机602发送请求。
计算机602的组件中的每一个可以使用系统总线603通信。在一些实施方式中,计算机602的组件中的任一或所有,包括硬件、软件或硬件和软件的组合,可以使用应用编程接口(API)612、服务层613或API 612和服务层613的组合在系统总线603上进行接口。API612可以包括用于例程、数据结构、和对象类的规范。API 612可以是计算机语言独立的或依赖的任一,并且指代完整接口、单个功能、或API的集合。服务层613向计算机602或可通信地耦合到计算机602的其它组件(无论是否示出)提供软件服务。计算机602的功能性对于所有服务客户可访问使用服务层613。诸如由服务层613提供的软件服务的软件服务通过定义的接口提供可重用的、定义的功能。例如,接口可以是用计算语言(例如JAVA或C++)或计算语言的组合编写的软件,并且以特定格式(例如可扩展标记语言(extensible markuplanguage,XML))或格式的组合提供数据。虽然被示为计算机602的集成组件,但是替代实施方式可以将API 612或服务层613示为相对于计算机602的其它组件或可通信地耦合到计算机602的其它组件(无论是否示出)的独立组件。此外,API 612或服务层613的任何或所有部分可以实施为另一软件模块、企业应用或硬件模块的子部分或子模块,而不脱离本公开的范围。
计算机602包括接口604。尽管图示为单个接口604,但是可以根据计算机602的具体需要、期望、或具体实施方式来使用两个或多个接口604。由计算机602使用接口604用于与分布式环境中通信地链接到网络630的另一计算系统(无论是否示出)通信。一般地,接口604可操作以与网络630通信,并且包括编码在软件、硬件、或软件和硬件的组合中的逻辑。更特定地,接口604可以包括支持与通信相关联的一个或多个通信协议的软件,使得网络630或接口604的硬件可操作以在示出的计算机602的内部和外部通信传达物理信号。
计算机602包括处理器605。尽管图示为单个处理器605,但是根据计算机602的具体需要、期望、或具体实施方式,可以使用两个或多个处理器605。一般地,处理器605运行指令并且操纵数据以执行计算机602的操作以及如本公开中描述的任何算法、方法、功能、过程、流程、和程序。
计算机602也包括可以保存用于计算机602、通信地链接到网络630的另一组件(无论是否示出)、或者计算机602和另一组件的组合的数据的数据库606。例如,数据库606可以是存储与本公开一致的数据的存储器内(in-memory)或传统数据库。在一些实施方式中,根据计算机602的具体需要、期望、或具体实施方式和所描述的功能性,数据库606可以是两种或多种不同数据库类型的组合(例如,混合的存储器内和传统数据库)。尽管示出为单个数据库606,但是根据计算机602的具体需要、期望、或具体实施方式和所描述的功能性,可以使用相似或不同类型的两个或多个数据库。虽然数据库606被示出为计算机602的集成组件,但是在替代实施方式中,数据库606可以在计算机602的外部。
计算机602也包括可以保存用于计算机602、通信地链接到网络630的另一组件或另外多个组件(无论是否示出)、或者计算机602和另一组件的组合的数据的存储器607。存储器607可以存储与本公开一致的任何数据。在一些实施方式中,根据计算机602的具体需要、期望、或具体实施方式和所描述的功能性,存储器607可以是存储器的两种或多种不同类型的组合(例如,半导体和磁储存器的组合)。尽管示出为单个存储器607,但是根据计算机602的具体需要、期望、或具体实施方式和所描述的功能性,可以使用相似或不同类型的两个或多个存储器607。虽然存储器607被示出为计算机602的集成组件,但是在替代实施方式中,存储器607可以在计算机602的外部。
应用608是算法软件引擎,其根据计算机602的具体需要、期望、或具体实施方式提供功能性,具体是针对本公开中描述的功能性。例如,应用608可以充当一个或多个组件、模块、或应用。此外,尽管被示为单个应用608,但是应用608可以被实施为计算机602上的多个应用608。此外,尽管示出为集成于计算机602,但是在替代实施方式中,应用608可以在计算机602的外部。
计算机602也可以包括电源614。电源614可以包括可以被配置为用户可替换或非用户可替换任一的可再充电的或一次性电池。在一些实施方式中,电源614可以包括电源转换或管理电路(包括再充电、待机、或另一电源管理功能性)。在一些实施方式中,电源614可以包括电源插头,以允许计算机602插入到墙壁插座或另一电源中以例如给计算机602供电或给可再充电电池充电。
可以有与包含计算机602的计算机系统相关联的或在该计算机系统外部的任意数量的计算机602,每个计算机602通过网络630通信。此外,在不脱离本公开的范围的情况下,术语“客户端”、“用户”或其它合适的术语可以如适当的可互换地使用。此外,本公开预期许多用户可以使用一台计算机602,或者一个用户可以使用多台计算机602。
主题的所描述的实施方式可以单独地或以组合包括一个或多个特征。
例如,在第一实施方式中,计算机实施的方法包括:在训练代理处接收对训练机器学习ML模型的请求;由训练代理从多个数据源的每个单独数据源获得用于训练模型的匿名化数据,通过数据科学模式访问的匿名化数据通过来自每个单独数据源的生产数据的敏感信息的匿名化来提供;以及向数据供应商提供对匿名化数据的访问,用于使用匿名化数据训练ML模型。
前述和其它描述的实施方式可以每个可选地包括以下特征中的一个或多个:
第一特征,与以下特征中的任一可组合,其中获得匿名化数据包括:向多个数据源的每个单独数据源提供对匿名化数据的请求;从多个数据源的每个单独数据源接收匿名化数据;并且将匿名化数据存储在由训练代理维护的高速缓存中,其中向数据供应商提供对匿名化数据的访问包括提供对高速缓存的访问。
第二特征,与先前或以下特征中的任一可组合,其中获得匿名化数据包括:向多个数据源的每个单独数据源提供模型;从多个数据源的每个单独数据源接收更新的模型,其中更新的模型由单独数据源使用在单独数据源处运行的机器学习模型训练并且使用对于单独数据源本地地可用的匿名化数据来创建;对多个数据源的其它单独数据源重复提供和接收;并且由训练代理向数据供应商提供更新的模型。
第三特征,与先前或以下特征中的任一可组合,进一步包括:基于生产数据的生产数据模式创建数据科学模式,其中数据科学模式提供对生产数据的只读访问,并且其中数据科学模式提供限于对生产数据中的非个性化数据的访问,而不复制非个性化数据;并使用数据科学模式提供对生产数据的访问。
第四特征,与先前或以下特征中的任一可组合,进一步包括向每个单独数据源处的用户提供对数据科学模式的访问用于查看。
第五特征,与先前或以下特征中的任一可组合,进一步包括缩放匿名化数据中的数值以移除可追溯到单独数据源的数值。
第六特征,与先前或以下特征中的任一可组合,进一步包括将生产数据中的字段映射到全局唯一标识符(GUID)以移除可追溯到单独数据源的值,并将GUID与匿名化数据存储。
第七特征,与先前或以下特征中的任一可组合,进一步包括:创建用于接收生产数据的子集的流水线;读取生产数据用于对于训练ML模型所需要的训练数据;将训练数据存储在对于流水线可访问的数据库表中;以及使用数据科学模式提供对数据库表的访问。
在第二实施方式中,存储一个或多个指令的计算机可读介质,指令由计算机系统可运行以执行操作,操作包括:向多个数据源的每个单独数据源提供对匿名化数据的请求;从多个数据源的每个单独数据源接收匿名化数据;以及将匿名化数据存储在由训练代理维护的高速缓存中,其中向数据供应商提供对匿名化数据的访问包括提供对高速缓存的访问。
前述和其它描述的实施方式可以每个可选地包括以下特征中的一个或多个:
第一特征,与以下特征中的任一可组合,其中获得匿名化数据包括:向多个数据源的每个单独数据源提供对匿名化数据的请求;从多个数据源的每个单独数据源接收匿名化数据;以及将匿名化数据存储在由训练代理维护的高速缓存中,其中向数据供应商提供对匿名化数据的访问包括提供对高速缓存的访问。
第二特征,与先前或以下特征中的任一可组合,其中获得匿名化数据包括:向多个数据源的每个单独数据源提供模型;从多个数据源的每个单独数据源接收更新的模型,其中更新的模型由单独数据源使用在单独数据源处运行的机器学习模型训练并且使用对于单独数据源本地可用的匿名化数据来创建;对多个数据源的其它单独数据源重复提供和接收;以及由训练代理向数据供应商提供更新的模型。
第三特征,与先前或以下特征中的任一可组合,操作进一步包括:基于生产数据的生产数据模式创建数据科学模式,其中数据科学模式提供对生产数据的只读访问,并且其中数据科学模式提供限于对生产数据中的非个性化数据的访问,而不复制非个性化数据;并使用数据科学模式以提供对生产数据的访问。
第四特征,与先前或以下特征中的任一可组合,操作进一步包括向每个单独数据源处的用户提供对数据科学模式的访问用于查看。
第五特征,与先前或以下特征中的任一可组合,操作进一步包括缩放匿名化数据中的数值以移除可追溯到单独数据源的数值。
第六特征,与先前或以下特征中的任一可组合,操作进一步包括将生产数据中的字段映射到全局唯一标识符(GUID)以移除可追溯到单独数据源的值,并将GUID与匿名化数据存储。
第七特征,与先前或以下特征中的任一可组合,操作进一步包括:创建用于接收生产数据的子集的流水线;读取生产数据用于对于训练ML模型所需要的训练数据;将训练数据存储在对于流水线可访问的数据库表中;以及使用数据科学模式提供对数据库表的访问。
在第三实施方式中,计算机实施的系统包括:一个或多个计算机;以及一个或多个计算机存储器设备,其与该一个或多个计算机可互操作地耦合,并且具有存储一个或多个指令的有形的、非暂时性的机器可读介质,指令当由一个或多个计算机运行时执行一个或多个操作,一个或多个操作包括:向多个数据源的每个单独数据源提供对匿名化数据的请求;从多个数据源的每个单独数据源接收匿名化数据;以及将匿名化数据存储在由训练代理维护的高速缓存中,其中向数据供应商提供对匿名化数据的访问包括提供对高速缓存的访问。
前述和其它描述的实施方式各自都可以可选地包括下面的特征中的一个或多个:
第一特征,与以下特征中的任一可组合,其中获得匿名化数据包括:向多个数据源的每个单独数据源提供对匿名化数据的请求;从多个数据源的每个单独数据源接收匿名化数据;以及将匿名化数据存储在由训练代理维护的高速缓存中,其中向数据供应商提供对匿名化数据的访问包括提供对高速缓存的访问。
第二特征,与先前或以下特征中的任一可组合,其中获得匿名化数据包括:向多个数据源的每个单独数据源提供模型;从多个数据源的每个单独数据源接收更新的模型,其中更新的模型由单独数据源使用在单独数据源处运行的机器学习模型训练并且使用对于单独数据源本地地可用的匿名化数据来创建;对多个数据源的其它单独数据源重复提供和接收;以及由训练代理向数据供应商提供更新的模型。
第三特征,与先前或以下特征中的任一可组合,操作进一步包括:基于生产数据的生产数据模式创建数据科学模式,其中数据科学模式提供对生产数据的只读访问,并且其中数据科学模式提供限于对生产数据中的非个性化数据的访问,而不复制非个性化数据;并使用数据科学模式以提供对生产数据的访问。
本说明书中描述的主题和功能性操作的实施方式能够被实施在数字电子电路中、实施在有形地体现的计算机软件或者固件中、实施在包括本说明书中公开的结构及其结构等同物的计算机硬件中、或者实施在它们的任何组合中。所描述的主题的软件实施方式可以被实施为一个或多个计算机程序,即编码在有形的、非暂时性的计算机可读介质上用于由计算机或计算机实施的系统运行或控制计算机或计算机实施的系统的操作的计算机程序指令的一个或多个模块。可替换地或附加地,程序指令可以被编码在人工生成的传播的信号中/上,例如被生成以编码用于向接收器装置的发送用于由计算机或计算机实施的系统的运行的机器生成的电、光、或者电磁信号。计算机储存器介质可以是机器可读储存器设备、机器可读储存器基底、随机或串行访问存储器设备、或计算机储存器介质的组合。配置一台或多台计算机意味着一台或多台计算机已经安装了硬件、固件、或软件(或硬件、固件、和软件的组合),使得当软件由一台或多台计算机运行时,执行具体的计算操作。
术语“实时”、“实际时间”、“真实(快速)时间(real(fast)time,RFT)、“接近(地)实时(near(ly)real-time,NRT)、“准实时”、或类似术语(如由本领域普通技术人员所理解的),意味着动作和响应在时间上是接近的,使得个体感觉到动作和响应基本上同时地发生。例如,对于用于数据的显示的响应(或对于显示的发起)跟随个人用于访问数据的动作的时间差可以小于1毫秒(ms)、小于1秒(s)或小于5s。虽然所请求的数据不需要即刻地显示(或发起用于显示),但是考虑到所描述的计算系统的处理限制和用于例如收集、精确地测量、分析、处理、存储、或发送数据所要求的时间,它被显示(或发起用于显示)而没有任何有意的延迟。
术语“数据处理装置”、“计算机”或“电子计算机设备”(或如由本领域普通技术人员理解的等同术语)指代数据处理硬件,并涵盖用于处理数据的装置、设备、和机器的所有种类,通过示例的方法包括可编程处理器、计算机、或多个处理器或计算机。计算机也可以是或进一步包括专用逻辑电路,例如中央处理单元(central processing unit,CPU)、现场可编程门阵列(field programmable gate array,FPGA)、或专用集成电路(applicationspecific integrated circuit,ASIC)。在一些实施方式中,计算机或计算机实施的系统或专用逻辑电路(或计算机或计算机实施的系统和专用逻辑电路的组合)可以是基于硬件或软件的(或基于硬件和软件两者的组合)。计算机可以可选地包括创建用于计算机程序的运行环境的代码,例如,组成处理器固件、协议栈、数据库管理系统、操作系统、或者运行环境的组合的代码。本公开考虑具有操作系统(例如LINUX、UNIX、WINDOWS、MAC OS、ANDROID、或IOS,)、或者操作系统的组合的计算机或计算机实施的系统的使用。
也可以被称为或描述为程序、软件、软件应用、单元、模块、软件模块、脚本、代码、或其它组件的计算机程序可以用编程语言的任何形式(包括编译或解释语言、或者声明或过程语言)编写并且其可以以任何形式(包括例如作为独立程序、模块、组件、或子例程)部署,用于在计算环境中使用。计算机程序可以但不需要对应于文件系统中的文件。程序可以存储在保存其它程序或数据(例如,存储在标记语言文档中的一个或多个脚本)的文件的部分中、存储在专用于所讨论的程序的单个文件中、或者存储在多个协调文件(例如,存储一个或多个模块、子程序或部分代码的文件)中。计算机程序能够被部署为在一个计算机上运行,或者在定位在一个站点的或者跨越多个站点分布并通过通信网络互连的多个计算机上运行。
虽然在各个图中示出的程序的部分可以被示出为使用各种对象、方法、或其它过程实施所描述的特征和功能性的单独组件(诸如单元或模块),但是程序可以替代地如适当的包括数个子单元、子模块、第三方服务、组件、库、和其它组件。相反地,各种组件的特征和功能性可以如适当的组合到单个组件中。用于进行计算的确定的阈值可以是静态的、动态的、或静态的和动态的两者。
所描述的方法、过程、或逻辑流程表示与本公开一致的功能性的一个或多个示例,并不旨在将公开限制为所描述或示出的实施方式,而是符合与所描述的原理和特征一致的最宽范围。所描述的方法、过程、或逻辑流程可以由运行一个或多个计算机程序的一个或多个可编程计算机来执行,以通过对输入数据操作并生成输出数据来执行功能。方法、过程、或逻辑流程也可以由专用逻辑电路来执行,并且计算机也可以实施为专用逻辑电路,例如,CPU、FPGA、或ASIC。
用于计算机程序的运行的计算机可以基于通用或专用微处理器、或两者、CPU的另一类型。一般地,CPU将从存储器接收指令和数据,并向存储器写入指令和数据。计算机的必要元件是用于执行或运行指令的CPU、以及用于存储指令和数据的一个或多个存储设备。一般地,计算机也将包括用于存储数据的一个或多个海量储存器设备(例如,磁盘、磁光盘、或者光盘),或者计算机还将被可操作地耦合以从所述一个或多个海量储存器设备接收数据、或者向所述一个或多个海量储存器设备传递数据、或者兼而有之。然而,计算机不需要具有这样的设备。此外,计算机可以嵌入在另一设备中,例如,移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(global positioning system,GPS)接收器、或便携式存储器储存器设备。
用于存储计算机程序指令和数据的非暂时性计算机可读介质可以包括永久/非永久或易失性/非易失性存储器、介质和存储设备的所有形式,通过示例的方式包括:半导体存储设备(例如,随机存取存储器(random access memory,RAM)、只读存储器(read onlymemory,ROM)、相变存储器(phase change memory,PRAM)、静态随机存取存储器(staticrandom access memory,SRAM)、动态随机存取存储器(dynamic random access memory,DRAM)、可擦除可编程只读存储器(erasable programmable read-only memory,EPROM)、电可擦除可编程只读存储器(electrically erasable programmable read-only memory,EEPROM)、和闪存设备);磁性设备(例如,磁带、盒式磁盘、盒式磁带、内部/可移动磁盘;磁光盘);和光学存储设备(例如,数字多功能/视频光盘(digital versatile/video disc,DVD)、光盘(compact disc,CD)-ROM、DVD+/-R、DVD+/-R、DVD-RAM、DVD-ROM、高清晰度/密度(high-definition/density,HD)-DVD和BLU-RAY/BLU-RAY DISC(BD)、以及其它光学存储技术)。存储器可以存储各种对象或数据,包括高速缓存、类、框架、应用、模块、备份数据、作业、网页、网页模板、数据结构、数据库表、存储动态信息的储存库、或其它适当的信息(包括任何参数、变量、算法、指令、规则、约束、或参考)。此外,存储器可以包括其它适当的数据,诸如日志、策略、安全或访问数据、或报告文件。处理器和存储器可以由专用逻辑电路来补充或并入在专用逻辑电路中。
为了提供与用户的交互,在本说明书中描述的主题的实施方式能够被实施在具有用于向用户显示信息的显示设备以及被能够被用户用来向计算机提供输入的键盘和指向设备的计算机上,其中该显示设备例如阴极射线管(cathode ray tube,CRT)、液晶显示器(liquid crystal display,LCD)、发光二极管(light emitting diode,LED)、或者等离子监视器,该指向设备例如鼠标、轨迹球、或者轨迹板。也可以使用触摸屏向计算机提供输入,诸如具有压力敏感性的平板计算机表面或使用电容或电感测的多触摸屏。其它类型的设备也可以用来与用户交互。例如,提供给用户的反馈可以是任何形式的感觉反馈(诸如,视觉、听觉、触觉或反馈类型的组合)。可以以任何形式接收来自用户的输入,包括声音、语音或触觉输入。此外,计算机可以通过向由用户使用的客户端计算设备传送文档并且从由用户使用的客户端计算设备接收文档来与用户交互(例如,通过响应于从用户的移动计算设备上的网络浏览器接收的请求向网络浏览器传送网页)。
术语“图形用户界面”或者“GUI”可以以单数或者复数使用,以描述一个或多个图形用户界面以及具体图形用户界面的显示中的每一个。因此,GUI可以代表任何图形用户界面,包括但不限于,网络浏览器、触摸屏、或者处理信息并且高效地向用户呈现信息结果的命令行界面(command line interface,CLI)。一般,GUI可以包括许多用户界面(UI)元素,一些或所有(诸如交互式字段、下拉列表、和按钮)与网络浏览器相关联。这些和其它UI元素可以与网络浏览器的功能相关或表示网络浏览器的功能。
本说明书中描述的主题的实施方式可以实施在包括后端组件(例如,作为数据服务器)的计算系统中,或者可以实施在包括中间件组件(例如,应用服务器)的计算系统中,或者可以实施在包括前端组件的计算系统(例如,具有通过其用户可以与在本说明书中描述的主题的实施方式交互的图形用户界面或者互联网浏览器的客户端计算机)中,或者可以实施在包括一个或多个这样的后端、中间件、或者前端组件的任何组合的计算系统中。系统的组件可以通过有线或无线数字数据通信(或数据通信的组合)的任何形式或介质(例如,通信网络)互连。通信网络的示例包括:局域网(local area network,LAN)、无线接入网(radio access network,RAN)、城域网(metropolitan area network,MAN)、广域网(widearea network,WAN)、微波接入全球互操作性(Worldwide Interoperability forMicrowave Access,WIMAX)、使用例如802.11a/b/g/n或802.20(或802.11x和802.20的组合或与本公开一致的其它协议)的无线局域网(wireless local area network,WLAN)、互联网的所有或部分、另一通信网络、或者通信网络的组合。通信网络可以与例如互联网协议(Internet Protocol,IP)分组、帧中继帧、异步传递模式(Asynchronous Transfer Mode,ATM)信元、语音、视频、数据、或网络节点之间的其它信息通信。
计算系统可以包括客户端和服务器。客户端和服务器一般地从彼此远离,并且典型地通过通信网络交互。客户端和服务器的关系凭借在各个计算机上运作的并且对于彼此具有客户端-服务器关系的计算机程序产生。
虽然本说明书包含许多特定实施方式细节,但是这些不应被解释为对任何发明构思的范围或对可以要求保护的范围的限制,而是作为对可以特定于具体发明构思的具体实施方式的特征的描述。在分离的实施方式的上下文中在本说明书中描述的某些特征也能够在单个实施方式中以组合实施。相反地,在单个实施方式的上下文中描述的各种特征也可以在多个实施方式中分离地或以任何子组合来实施。此外,尽管先前地描述的特征可以被描述为在某些组合中起作用,并且甚至初始地如这样要求保护,但是来自所要求保护的组合的一个或多个特征可以在一些情况下从组合切除,并且所要求保护的组合可以指向子组合或子组合的变化。
已经描述了主题的具体实施方式。其它实施方式、变更、和所描述的实施方式的置换在如将对于本领域技术人员显而易见的以下权利要求的范围内。虽然在附图或权利要求中以特定次序描述了操作,但是这不应当理解为要求这样的操作以所示的特定次序或以顺序次序执行,或者要求所有示出的操作都被执行(一些操作可以被认为是可选的),以实现期望的结果。在某些情况下,多任务或并行处理(或多任务和并行处理的组合)可能是有利的并且执行为被认为合适的。
此外,先前地描述的实施方式中的各种系统模块和组件的分离和/或集成不应该被理解为在所有的实施方式中要求这样的分离或集成,并且应该理解,所描述的程序组件和系统能够一般地一起集成在单个软件产品中或者打包到多个软件产品中。
因此,先前描述的示例实施方式不定义或约束本公开。其它改变、替换、和变更也是可能的,而不脱离本公开的精神和范围。
此外,任何要求保护的实施方式被认为适用于至少计算机实施的方法;存储用于执行计算机实施的方法的计算机可读指令的非暂时性计算机可读介质;以及包括与被配置为执行计算机实施的方法或存储在非暂时性计算机可读介质上的指令的硬件处理器可互操作地耦合的计算机存储器的计算机系统。
Claims (20)
1.一种计算机实施的方法,包括:
在训练代理处接收对训练机器学习ML模型的请求;
由训练代理从多个数据源的每个单独数据源获得用于训练模型的匿名化数据,通过数据科学模式访问的匿名化数据由来自每个单独数据源的生产数据的敏感信息的匿名化提供;并且
向数据供应商提供对匿名化数据的访问,用于使用匿名化数据训练ML模型。
2.根据权利要求1所述的计算机实施的方法,其中,获得匿名化数据包括:
向多个数据源的每个单独数据源提供对匿名化数据的请求;
从多个数据源的每个单独数据源接收匿名化数据;并且
将匿名化数据存储在由训练代理维护的高速缓存中,其中,向数据供应商提供对匿名化数据的访问包括提供对高速缓存的访问。
3.根据权利要求1所述的计算机实施的方法,其中,获得匿名化数据包括:
向多个数据源的每个单独数据源提供模型;
从多个数据源的每个单独数据源接收更新的模型,其中,更新的模型由单独数据源使用在单独数据源处运行的机器学习模型训练并且使用对于单独数据源本地地可用的匿名化数据创建;
对于多个数据源的其它单独数据源重复提供和接收;并且
由训练代理向数据供应商提供更新的模型。
4.根据权利要求1所述的计算机实施的方法,进一步包括:
基于生产数据的生产数据模式创建数据科学模式,其中,数据科学模式提供对生产数据的只读访问,并且其中,数据科学模式提供限于对生产数据中的非个性化数据的访问,而不复制非个性化数据;并且
使用数据科学模式以提供对生产数据的访问。
5.根据权利要求4所述的计算机实施的方法,进一步包括:
向每个单独数据源处的用户提供对数据科学模式的访问用于查看。
6.根据权利要求2所述的计算机实施的方法,进一步包括:
缩放匿名化数据中的数值以移除可追溯到单独数据源的数值。
7.根据权利要求1所述的计算机实施的方法,进一步包括:
将生产数据中的字段映射到全局唯一标识符GUID以移除可追溯到单独数据源的值;并且
将GUID与匿名化数据存储。
8.根据权利要求1所述的计算机实施的方法,进一步包括:
创建用于接收生产数据的子集的流水线;
读取生产数据用于对于训练ML模型需要的训练数据;
将训练数据存储在对于流水线可访问的数据库表中;并且
使用数据科学模式提供对数据库表的访问。
9.一种存储一个或多个指令的非暂时性计算机可读介质,指令由计算机系统可运行以执行操作,操作包括:
在训练代理处接收对训练机器学习ML模型的请求;
由训练代理从多个数据源的每个单独数据源获得用于训练模型的匿名化数据,通过数据科学模式访问的匿名化数据由来自每个单独数据源的生产数据的敏感信息的匿名化提供;并且
向数据供应商提供对匿名化数据的访问,用于使用匿名化数据训练ML模型。
10.根据权利要求9所述的非暂时性计算机可读介质,其中,获得匿名化数据包括:
向多个数据源的每个单独数据源提供对匿名化数据的请求;
从多个数据源的每个单独数据源接收匿名化数据;并且
将匿名化数据存储在由训练代理维护的高速缓存中,其中,向数据供应商提供对匿名化数据的访问包括提供对高速缓存的访问。
11.根据权利要求9所述的非暂时性计算机可读介质,其中,获得匿名化数据包括:
向多个数据源的每个单独数据源提供模型;
从多个数据源的每个单独数据源接收更新的模型,其中,更新的模型由单独数据源使用在单独数据源处运行的机器学习模型训练并且使用对于单独数据源本地地可用的匿名化数据创建;
对于多个数据源的其它单独数据源重复提供和接收;并且
由训练代理向数据供应商提供更新的模型。
12.根据权利要求9所述的非暂时性计算机可读介质,操作进一步包括:
基于生产数据的生产数据模式创建数据科学模式,其中,数据科学模式提供对生产数据的只读访问,并且其中,数据科学模式提供限于对生产数据中的非个性化数据的访问,而不复制非个性化数据;并且
使用数据科学模式以提供对生产数据的访问。
13.根据权利要求12所述的非暂时性计算机可读介质,操作进一步包括:
向每个单独数据源处的用户提供对数据科学模式的访问用于查看。
14.根据权利要求10所述的非暂时性计算机可读介质,操作进一步包括:
缩放匿名化数据中的数值以移除可追溯到单独数据源的数值。
15.根据权利要求9所述的非暂时性计算机可读介质,操作进一步包括:
将生产数据中的字段映射到全局唯一标识符GUID以移除可追溯到单独数据源的值;并且
将GUID与匿名化数据存储。
16.根据权利要求9所述的非暂时性计算机可读介质,操作进一步包括:
创建用于接收生产数据的子集的流水线;
读取生产数据用于对于训练ML模型需要的训练数据;
将训练数据存储在对于流水线可访问的数据库表中;并且
使用数据科学模式提供对数据库表的访问。
17.一种计算机实施的系统,包括:
一个或多个计算机;和
一个或多个计算机存储器设备,与一个或多个计算机可互操作地耦合,并且具有存储一个或多个指令的有形的、非暂时性的机器可读介质,指令当由一个或多个计算机运行时执行一个或多个操作,操作包括:
在训练代理处接收对训练机器学习ML模型的请求;
由训练代理从多个数据源的每个单独数据源获得用于训练模型的匿名化数据,通过数据科学模式访问的匿名化数据由来自每个单独数据源的生产数据的敏感信息的匿名化提供;并且
向数据供应商提供对匿名化数据的访问,用于使用匿名化数据训练ML模型。
18.根据权利要求17所述的计算机实施的系统,其中,获得匿名化数据包括:
向多个数据源的每个单独数据源提供对匿名化数据的请求;
从多个数据源的每个单独数据源接收匿名化数据;并且
将匿名化数据存储在由训练代理维护的高速缓存中,其中,向数据供应商提供对匿名化数据的访问包括提供对高速缓存的访问。
19.根据权利要求17所述的计算机实施的系统,其中,获得匿名化数据包括:
向多个数据源的每个单独数据源提供模型;
从多个数据源的每个单独数据源接收更新的模型,其中,更新的模型由单独数据源使用在单独数据源处运行的机器学习模型训练并且使用对于单独数据源本地地可用的匿名化数据创建;
对于多个数据源的其它单独数据源重复提供和接收;并且
由训练代理向数据供应商提供更新的模型。
20.根据权利要求17所述的计算机实施的系统,操作进一步包括:
基于生产数据的生产数据模式创建数据科学模式,其中,数据科学模式提供对生产数据的只读访问,并且其中,数据科学模式提供限于对生产数据中的非个性化数据的访问,而不复制非个性化数据;并且
使用数据科学模式以提供对生产数据的访问。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/410,076 | 2019-05-13 | ||
US16/410,076 US11797879B2 (en) | 2019-05-13 | 2019-05-13 | Machine learning on distributed customer data while protecting privacy |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111931223A true CN111931223A (zh) | 2020-11-13 |
Family
ID=68296094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911042526.5A Pending CN111931223A (zh) | 2019-05-13 | 2019-10-30 | 保护隐私的同时在分布式客户数据上的机器学习 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11797879B2 (zh) |
EP (1) | EP3739487B1 (zh) |
JP (1) | JP7229148B2 (zh) |
CN (1) | CN111931223A (zh) |
AU (2) | AU2019283803A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051620A (zh) * | 2021-05-31 | 2021-06-29 | 华中科技大学 | 一种机器学习中训练数据隐私度量的方法和系统 |
CN115129992A (zh) * | 2022-07-04 | 2022-09-30 | 北京深演智能科技股份有限公司 | 数据的处理方法及装置、非易失性存储介质、处理器 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10983762B2 (en) | 2019-06-27 | 2021-04-20 | Sap Se | Application assessment system to achieve interface design consistency across micro services |
KR102557639B1 (ko) * | 2021-04-20 | 2023-07-19 | 성신여자대학교 연구 산학협력단 | 인공지능 학습장치 및 인공지능 학습장치의 동작방법 |
GB2623057A (en) * | 2022-09-28 | 2024-04-10 | Nokia Technologies Oy | Training data collection |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180332082A1 (en) * | 2017-05-12 | 2018-11-15 | Sap Se | Positionally-encoded string representations, including their use in machine learning and in security applications |
US20180357561A1 (en) * | 2017-06-12 | 2018-12-13 | Honeywell International Inc. | System and methods to provide seamless information exchange between certified and uncertified applications |
CN109451757A (zh) * | 2016-06-21 | 2019-03-08 | 品点预测股份有限公司 | 在保持用户匿名的同时使用机器学习从行为数据预测心理度量简档 |
CN109711186A (zh) * | 2017-10-26 | 2019-05-03 | Sap欧洲公司 | 内存数据库中的数据匿名化 |
CN109716346A (zh) * | 2016-07-18 | 2019-05-03 | 河谷生物组学有限责任公司 | 分布式机器学习系统、装置和方法 |
Family Cites Families (144)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6253203B1 (en) | 1998-10-02 | 2001-06-26 | Ncr Corporation | Privacy-enhanced database |
US7523142B2 (en) | 2001-12-17 | 2009-04-21 | Sap Ag | Systems, methods and articles of manufacture for upgrading a database with a shadow system |
US7720992B2 (en) | 2005-02-02 | 2010-05-18 | Sap Aktiengesellschaft | Tentative update and confirm or compensate |
US7657575B2 (en) | 2005-12-30 | 2010-02-02 | Sap Ag | Sequencing updates to business objects |
US7734648B2 (en) | 2006-04-11 | 2010-06-08 | Sap Ag | Update manager for database system |
US9262763B2 (en) | 2006-09-29 | 2016-02-16 | Sap Se | Providing attachment-based data input and output |
US7739387B2 (en) | 2007-03-08 | 2010-06-15 | Sap Ag | System and method for message packaging |
US20090106371A1 (en) | 2007-10-22 | 2009-04-23 | Markus Schmidt-Karaca | Systems and methods to generate business reports based on electronic mail messages |
US20090106372A1 (en) | 2007-10-22 | 2009-04-23 | Markus Schmidt-Karaca | Systems and methods to transmit information to a groupware client |
US8407297B2 (en) | 2007-10-22 | 2013-03-26 | Sap Ag | Systems and methods to receive information from a groupware client |
US8225303B2 (en) | 2007-11-30 | 2012-07-17 | Sap Ag | System and method for providing software upgrades |
US20090150479A1 (en) | 2007-12-07 | 2009-06-11 | Peter Eberlein | Web Feeds for Work List Publishing |
US20090172110A1 (en) | 2007-12-31 | 2009-07-02 | Peter Eberlein | Systems and methods to identify internal and external email |
US9122669B2 (en) | 2008-08-29 | 2015-09-01 | Sap Se | Flat schema integrated document oriented templates |
US8200634B2 (en) | 2008-10-08 | 2012-06-12 | Sap Ag | Zero downtime maintenance using a mirror approach |
US8996466B2 (en) | 2008-12-01 | 2015-03-31 | Sap Se | Extend crud to support lifecyle management and business continuity |
US8479187B2 (en) | 2008-12-02 | 2013-07-02 | Sap Ag | Adaptive switch installer |
US9361326B2 (en) | 2008-12-17 | 2016-06-07 | Sap Se | Selectable data migration |
US9229707B2 (en) | 2008-12-18 | 2016-01-05 | Sap Se | Zero downtime mechanism for software upgrade of a distributed computer system |
US20100161648A1 (en) | 2008-12-19 | 2010-06-24 | Peter Eberlein | Flexible multi-tenant support of metadata extension |
US8291038B2 (en) | 2009-06-29 | 2012-10-16 | Sap Ag | Remote automation of manual tasks |
US8572369B2 (en) | 2009-12-11 | 2013-10-29 | Sap Ag | Security for collaboration services |
US20110154445A1 (en) | 2009-12-22 | 2011-06-23 | Markus Schmidt-Karaca | Systems to provide business information over social networks |
US8732083B2 (en) | 2010-06-15 | 2014-05-20 | Sap Ag | Managing consistent interfaces for number range, number range profile, payment card payment authorisation, and product template template business objects across heterogeneous systems |
US8631406B2 (en) | 2010-06-30 | 2014-01-14 | Sap Ag | Distributed cloud computing architecture |
US9032406B2 (en) | 2010-07-01 | 2015-05-12 | Sap Se | Cooperative batch scheduling in multitenancy system based on estimated execution time and generating a load distribution chart |
US8560876B2 (en) | 2010-07-06 | 2013-10-15 | Sap Ag | Clock acceleration of CPU core based on scanned result of task for parallel execution controlling key word |
US8250135B2 (en) | 2010-07-09 | 2012-08-21 | Sap Ag | Brokered cloud computing architecture |
US8301610B2 (en) | 2010-07-21 | 2012-10-30 | Sap Ag | Optimizing search for insert-only databases and write-once data storage |
US8880486B2 (en) | 2010-07-27 | 2014-11-04 | Sap Ag | Distributed database system utilizing an extended two-phase-commit process |
US8392573B2 (en) | 2010-07-30 | 2013-03-05 | Sap Ag | Transport of customer flexibility changes in a multi-tenant environment |
US8924384B2 (en) | 2010-08-04 | 2014-12-30 | Sap Ag | Upgrading column-based databases |
US8356010B2 (en) | 2010-08-11 | 2013-01-15 | Sap Ag | Online data migration |
US8380667B2 (en) | 2010-08-11 | 2013-02-19 | Sap Ag | Selectively upgrading clients in a multi-tenant computing system |
US8434060B2 (en) | 2010-08-17 | 2013-04-30 | Sap Ag | Component load procedure for setting up systems |
US8751573B2 (en) | 2010-11-23 | 2014-06-10 | Sap Ag | Cloud-processing management with a landscape directory |
US8604973B2 (en) | 2010-11-30 | 2013-12-10 | Sap Ag | Data access and management using GPS location data |
US20120136839A1 (en) | 2010-11-30 | 2012-05-31 | Peter Eberlein | User-Driven Conflict Resolution Of Concurrent Updates In Snapshot Isolation |
US8762929B2 (en) | 2010-12-16 | 2014-06-24 | Sap Ag | System and method for exclusion of inconsistent objects from lifecycle management processes |
US8375130B2 (en) | 2010-12-16 | 2013-02-12 | Sap Ag | Shared resource discovery, configuration, and consumption for networked solutions |
US8972934B2 (en) | 2010-12-20 | 2015-03-03 | Sap Ag | Support for temporally asynchronous interface extensions |
US8706772B2 (en) | 2010-12-30 | 2014-04-22 | Sap Ag | Strict tenant isolation in multi-tenant enabled systems |
US8875122B2 (en) | 2010-12-30 | 2014-10-28 | Sap Se | Tenant move upgrade |
US9009105B2 (en) | 2010-12-30 | 2015-04-14 | Sap Se | Application exits for consistent tenant lifecycle management procedures |
US8467817B2 (en) | 2011-06-16 | 2013-06-18 | Sap Ag | Generic business notifications for mobile devices |
US9137130B2 (en) | 2011-09-22 | 2015-09-15 | Sap Se | Dynamic network load forecasting |
US8566784B2 (en) | 2011-09-22 | 2013-10-22 | Sap Ag | Business process change controller |
US20130085810A1 (en) | 2011-09-29 | 2013-04-04 | Volker Driesen | Federated business configuration and scoping |
US8805986B2 (en) | 2011-10-31 | 2014-08-12 | Sap Ag | Application scope adjustment based on resource consumption |
US8645483B2 (en) | 2011-11-15 | 2014-02-04 | Sap Ag | Groupware-integrated business document management |
US9256840B2 (en) | 2011-12-01 | 2016-02-09 | Sap Se | Establishing business networks using a shared platform |
US9633107B2 (en) | 2011-12-06 | 2017-04-25 | Sap Se | Mobile metadata model repository |
US9069984B2 (en) | 2011-12-21 | 2015-06-30 | Sap Se | On-demand authorization management |
US20130166416A1 (en) | 2011-12-21 | 2013-06-27 | Peter Eberlein | Dynamic catalogs on mobile wireless devices |
US20130166415A1 (en) | 2011-12-21 | 2013-06-27 | Jens Odenheimer | Adapting Mobile Catalogs by Filtering for Available Products, Mass Movers and Hot-Sellers |
US9582562B2 (en) | 2012-03-06 | 2017-02-28 | Sap Se | Using temporary system to provide continuous access during application upgrade |
US8612406B1 (en) | 2012-05-22 | 2013-12-17 | Sap Ag | Sharing business data across networked applications |
US20130325672A1 (en) | 2012-05-31 | 2013-12-05 | Sap Ag | Mobile forecasting of sales using customer stock levels in a supplier business system |
US20130324201A1 (en) | 2012-06-01 | 2013-12-05 | Peter Eberlein | Applying gamification techniques to process incidents |
US20130339488A1 (en) | 2012-06-15 | 2013-12-19 | Peter Eberlein | Enterprise services framework for mobile devices |
US9183540B2 (en) | 2012-07-03 | 2015-11-10 | Sap Se | Mobile device analytics engine |
US20140019429A1 (en) | 2012-07-12 | 2014-01-16 | Volker Driesen | Downtime reduction for lifecycle management events |
US20140025441A1 (en) | 2012-07-19 | 2014-01-23 | Sap Ag | Peer support gamification by application knowledge scoring in social networks |
US20140047319A1 (en) | 2012-08-13 | 2014-02-13 | Sap Ag | Context injection and extraction in xml documents based on common sparse templates |
US9720994B2 (en) | 2012-10-04 | 2017-08-01 | Sap Se | Replicated database structural change management |
US8793230B2 (en) | 2012-10-23 | 2014-07-29 | Sap Ag | Single-database multiple-tenant software system upgrade |
US9348929B2 (en) | 2012-10-30 | 2016-05-24 | Sap Se | Mobile mapping of quick response (QR) codes to web resources |
US20140149158A1 (en) | 2012-11-28 | 2014-05-29 | Jens Odenheimer | Retail math optimization |
US9077717B2 (en) | 2012-11-30 | 2015-07-07 | Sap Se | Propagation and adoption of extensions across applications in networked solutions |
US9652744B2 (en) | 2012-12-10 | 2017-05-16 | Sap Se | Smart user interface adaptation in on-demand business applications |
US9367199B2 (en) | 2012-12-13 | 2016-06-14 | Sap Se | Dynamical and smart positioning of help overlay graphics in a formation of user interface elements |
US9182979B2 (en) | 2013-04-29 | 2015-11-10 | Sap Se | Social coding extensions |
US11050820B2 (en) | 2013-04-29 | 2021-06-29 | Sap Se | Cloud sharing system |
US9632802B2 (en) | 2013-06-14 | 2017-04-25 | Sap Se | Automatic configuration of mobile programs |
US9721116B2 (en) | 2013-06-24 | 2017-08-01 | Sap Se | Test sandbox in production systems during productive use |
US9031910B2 (en) | 2013-06-24 | 2015-05-12 | Sap Se | System and method for maintaining a cluster setup |
US9026502B2 (en) | 2013-06-25 | 2015-05-05 | Sap Se | Feedback optimized checks for database migration |
US9189226B2 (en) | 2013-06-25 | 2015-11-17 | Sap Se | Software logistics protocols |
US10191733B2 (en) | 2013-06-25 | 2019-01-29 | Sap Se | Software change process orchestration in a runtime environment |
US10291704B2 (en) | 2013-06-26 | 2019-05-14 | Sap Se | Networked solutions integration using a cloud business object broker |
US9639448B2 (en) | 2013-06-27 | 2017-05-02 | Sap Se | Multi-version systems for zero downtime upgrades |
US9336227B2 (en) | 2013-10-07 | 2016-05-10 | Sap Se | Selective synchronization in a hierarchical folder structure |
US9223985B2 (en) | 2013-10-09 | 2015-12-29 | Sap Se | Risk assessment of changing computer system within a landscape |
US9767424B2 (en) | 2013-10-16 | 2017-09-19 | Sap Se | Zero downtime maintenance with maximum business functionality |
US9436724B2 (en) | 2013-10-21 | 2016-09-06 | Sap Se | Migrating data in tables in a database |
US9274757B2 (en) | 2013-12-19 | 2016-03-01 | Sap Se | Customer tailored release master plan generation for hybrid networked solutions |
US10061788B2 (en) | 2013-12-19 | 2018-08-28 | Sap Se | Transformation of document flow to contributors network |
US9800689B2 (en) | 2013-12-19 | 2017-10-24 | Sap Se | Distributed application integration auto-adjustment |
US20150188890A1 (en) | 2013-12-26 | 2015-07-02 | Bare Said | Client side encryption in on-demand applications |
US9875273B2 (en) | 2014-01-31 | 2018-01-23 | Sap Se | Methods and systems for managing configuration settings |
US20150222665A1 (en) | 2014-01-31 | 2015-08-06 | Peter Eberlein | Restricting user actions based on document classification |
US9569283B2 (en) | 2014-01-31 | 2017-02-14 | Sap Se | Write back of documents opened in third-party applications |
US9354871B2 (en) | 2014-06-26 | 2016-05-31 | Sap Se | Multi-stage push notifications for software logistic tools |
US9354860B2 (en) | 2014-07-15 | 2016-05-31 | Sap Se | Optimizing software change processes using real-time analysis and rule-based hinting |
US20160026698A1 (en) | 2014-07-23 | 2016-01-28 | Peter Eberlein | Enabling business process continuity on periodically replicated data |
US20160063050A1 (en) | 2014-08-28 | 2016-03-03 | Joerg Schoen | Database Migration Consistency Checker |
US10303665B2 (en) | 2014-09-24 | 2019-05-28 | Sap Se | Zero downtime maintenance for applications and databases |
US9519675B2 (en) | 2014-10-01 | 2016-12-13 | Sap Se | Data access management during zero downtime upgrade |
US9361093B2 (en) | 2014-10-01 | 2016-06-07 | Sap Se | Revoking a zero downtime upgrade |
US9858309B2 (en) | 2014-10-07 | 2018-01-02 | Sap Se | Managing write accesses during database upgrade procedure |
US20160098253A1 (en) | 2014-10-07 | 2016-04-07 | Daniel Hutzel | Delivering and deploying services in multi-server landscapes |
US20160127325A1 (en) | 2014-10-29 | 2016-05-05 | Jens Odenheimer | Scrambling business data |
US9372685B1 (en) | 2014-12-16 | 2016-06-21 | Sap Se | Impact prediction of software change deployment on customer systems |
US9501516B2 (en) | 2014-12-19 | 2016-11-22 | Sap Se | Zero downtime upgrade of database applications using triggers and calculated fields |
US9898495B2 (en) | 2015-02-23 | 2018-02-20 | Sap Se | Zero downtime upgrade for database applications with altering sequences |
US9898494B2 (en) | 2015-02-23 | 2018-02-20 | Sap Se | Zero downtime upgrade for database applications using tables with sequences |
US9854045B2 (en) | 2015-04-13 | 2017-12-26 | Sap Se | Generic cloud enabling of stateful applications |
US10102478B2 (en) | 2015-06-26 | 2018-10-16 | Conduent Business Services, Inc. | Distributed and privacy-preserving prediction method |
US9678740B2 (en) | 2015-10-01 | 2017-06-13 | Sap Se | Migration mechanism |
US10311077B2 (en) | 2015-10-22 | 2019-06-04 | Sap Se | Database table conversion |
US10296324B2 (en) | 2015-10-30 | 2019-05-21 | Sap Se | Zero downtime software system upgrade |
US20170161291A1 (en) | 2015-12-03 | 2017-06-08 | Sap Se | Database table conversion |
US9703554B2 (en) | 2015-12-07 | 2017-07-11 | Sap Se | Custom code migration suggestion system based on actual change references |
US10157068B2 (en) | 2015-12-29 | 2018-12-18 | Sap Se | Configuring and operating applications using a descriptor |
US10685007B2 (en) | 2016-03-29 | 2020-06-16 | Sap Se | Table content transport and delivery |
US9898279B2 (en) | 2016-03-31 | 2018-02-20 | Sap Se | Optimizing ABAP development as a service |
US10346184B2 (en) | 2016-05-13 | 2019-07-09 | Sap Se | Open data protocol services in applications and interfaces across multiple platforms |
US10230708B2 (en) | 2016-05-20 | 2019-03-12 | Sap Se | Application managed service instances |
US10871962B2 (en) | 2016-05-27 | 2020-12-22 | Sap Se | Zero downtime maintenance in constrained systems |
US10417205B2 (en) | 2016-06-07 | 2019-09-17 | Sap Se | Database system and method of operation thereof |
US10523662B2 (en) | 2016-09-16 | 2019-12-31 | Sap Se | In-memory database advanced programming model |
US10055215B2 (en) | 2016-10-05 | 2018-08-21 | Sap Se | Enabling corrections during upgrade procedure |
US10684999B2 (en) | 2016-10-05 | 2020-06-16 | Sap Se | Multi-procedure support in data migration |
US10929406B2 (en) * | 2016-10-27 | 2021-02-23 | American Express Travel Related Services Company, Inc | Systems and methods for a self-services data file configuration with various data sources |
US10558529B2 (en) | 2016-11-11 | 2020-02-11 | Sap Se | Database object delivery infrastructure |
US10025568B2 (en) | 2016-11-11 | 2018-07-17 | Sap Se | Database object lifecycle management |
US10891273B2 (en) | 2016-11-11 | 2021-01-12 | Sap Se | Database container delivery infrastructure |
US10909090B2 (en) | 2016-11-11 | 2021-02-02 | Sap Se | Database proxy object delivery infrastructure |
US10491700B2 (en) | 2016-11-18 | 2019-11-26 | Sap Se | Application managed service instances |
US11693945B2 (en) | 2016-11-18 | 2023-07-04 | Sap Se | Secure calls between applications |
US10565524B2 (en) | 2017-01-31 | 2020-02-18 | Hewlett Packard Enterprise Development Lp | Performing privacy-preserving multi-party analytics on horizontally partitioned local data |
US10268692B2 (en) | 2017-02-15 | 2019-04-23 | Sap Se | Multi-procedure support in data migration |
US10706170B2 (en) | 2017-03-16 | 2020-07-07 | Sap Se | Tenant table sharing with content separation |
US10789220B2 (en) | 2017-03-28 | 2020-09-29 | Sap Se | Management of database API schema |
US10656933B2 (en) | 2017-03-28 | 2020-05-19 | Sap Se | Zero downtime for frequent software updates |
US10693989B2 (en) | 2017-04-28 | 2020-06-23 | Sap Se | Brokering services from partner cloud platforms |
US10298591B2 (en) | 2017-04-28 | 2019-05-21 | Sap Se | Secure integration of independent cloud foundry applications in a fiori launchpad |
US10185552B2 (en) | 2017-05-12 | 2019-01-22 | Sap Se | Enforcing content constraints on delivery and end user changes |
JP6929124B2 (ja) | 2017-05-12 | 2021-09-01 | 株式会社Micin | 予測システム、予測方法、および予測プログラム |
US10437795B2 (en) | 2017-05-12 | 2019-10-08 | Sap Se | Upgrading systems with changing constraints |
US10268472B2 (en) | 2017-05-16 | 2019-04-23 | Sap Se | Upgrading systems with replicated data |
US20180374105A1 (en) * | 2017-05-26 | 2018-12-27 | Get Attached, Inc. | Leveraging an intermediate machine learning analysis |
US20190012609A1 (en) | 2017-07-06 | 2019-01-10 | BeeEye IT Technologies LTD | Machine learning using sensitive data |
US11062043B2 (en) * | 2019-05-01 | 2021-07-13 | Optum, Inc. | Database entity sensitivity classification |
-
2019
- 2019-05-13 US US16/410,076 patent/US11797879B2/en active Active
- 2019-10-18 EP EP19204050.9A patent/EP3739487B1/en active Active
- 2019-10-30 CN CN201911042526.5A patent/CN111931223A/zh active Pending
- 2019-12-17 AU AU2019283803A patent/AU2019283803A1/en not_active Abandoned
- 2019-12-19 JP JP2019229271A patent/JP7229148B2/ja active Active
-
2021
- 2021-12-15 AU AU2021286319A patent/AU2021286319B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109451757A (zh) * | 2016-06-21 | 2019-03-08 | 品点预测股份有限公司 | 在保持用户匿名的同时使用机器学习从行为数据预测心理度量简档 |
CN109716346A (zh) * | 2016-07-18 | 2019-05-03 | 河谷生物组学有限责任公司 | 分布式机器学习系统、装置和方法 |
US20180332082A1 (en) * | 2017-05-12 | 2018-11-15 | Sap Se | Positionally-encoded string representations, including their use in machine learning and in security applications |
US20180357561A1 (en) * | 2017-06-12 | 2018-12-13 | Honeywell International Inc. | System and methods to provide seamless information exchange between certified and uncertified applications |
CN109711186A (zh) * | 2017-10-26 | 2019-05-03 | Sap欧洲公司 | 内存数据库中的数据匿名化 |
Non-Patent Citations (3)
Title |
---|
佩奇 巴尔茨: "《中国政务信息化发展报告》", 31 May 2017, 北京邮电大学出版社, pages: 135 - 136 * |
佩奇 巴尔茨: "管理信息系统", 东北财经大学出版社, pages: 135 - 136 * |
沈江: "《新一代信息技术产业》", 30 April 2018, 山东科学技术出版社, pages: 166 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051620A (zh) * | 2021-05-31 | 2021-06-29 | 华中科技大学 | 一种机器学习中训练数据隐私度量的方法和系统 |
CN113051620B (zh) * | 2021-05-31 | 2021-08-03 | 华中科技大学 | 一种机器学习中训练数据隐私度量的方法和系统 |
CN115129992A (zh) * | 2022-07-04 | 2022-09-30 | 北京深演智能科技股份有限公司 | 数据的处理方法及装置、非易失性存储介质、处理器 |
Also Published As
Publication number | Publication date |
---|---|
AU2021286319A1 (en) | 2022-01-20 |
EP3739487A1 (en) | 2020-11-18 |
US11797879B2 (en) | 2023-10-24 |
JP7229148B2 (ja) | 2023-02-27 |
EP3739487B1 (en) | 2023-08-02 |
US20200364604A1 (en) | 2020-11-19 |
AU2021286319B2 (en) | 2024-01-18 |
JP2020187723A (ja) | 2020-11-19 |
AU2019283803A1 (en) | 2020-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2728522C1 (ru) | Совместное использование секретов без доверенного инициализатора | |
AU2021286319B2 (en) | Machine learning on distributed customer data while protecting privacy | |
US11625602B2 (en) | Detection of machine learning model degradation | |
US20180232442A1 (en) | Web api recommendations | |
US20110321154A1 (en) | Systems and methods for generating constraints for use in access control | |
US11443256B2 (en) | Real-time matching and smart recommendations for tasks and experts | |
US20140074648A1 (en) | Portion recommendation for electronic books | |
US9798788B1 (en) | Holistic methodology for big data analytics | |
Sabi et al. | Staff perception towards cloud computing adoption at universities in a developing country | |
US20200394534A1 (en) | Multi task oriented recommendation system for benchmark improvement | |
US10942980B2 (en) | Real-time matching of users and applications | |
CA3163408A1 (en) | Creating predictor variables for prediction models from unstructured data using natural language processing | |
Gao et al. | AutoPer: Automatic recommender for runtime-permission in android applications | |
CA3228490A1 (en) | Customized data analysis and visualization using structured data tables and nodal networks | |
US20190304036A1 (en) | Determining an effect of a message on a personal brand based on future goals | |
Xu et al. | Do llms implicitly exhibit user discrimination in recommendation? an empirical study | |
US10332048B2 (en) | Job profile generation based on intranet usage | |
US10298676B2 (en) | Cost-effective reuse of digital assets | |
US11343251B2 (en) | Secure authorization provisioning using variant profiles | |
Richards et al. | A Human-Centered Methodology for Creating AI FactSheets. | |
WO2021224871A1 (en) | Resource scoring and recommendation system | |
US11263533B2 (en) | Dynamic configurable rule representation | |
US20230401203A1 (en) | Domain-Agnostic Natural Language Processing Using Explainable Interpretation Feedback Models | |
Morga | Mobile commerce adoption in older adults: a quantitative study | |
US20230177383A1 (en) | Adjusting machine learning models based on simulated fairness impact |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |