CN117223017A - 用于对机器学习模型的嵌入向量去偏置的系统、方法和计算机程序产品 - Google Patents

用于对机器学习模型的嵌入向量去偏置的系统、方法和计算机程序产品 Download PDF

Info

Publication number
CN117223017A
CN117223017A CN202280022075.2A CN202280022075A CN117223017A CN 117223017 A CN117223017 A CN 117223017A CN 202280022075 A CN202280022075 A CN 202280022075A CN 117223017 A CN117223017 A CN 117223017A
Authority
CN
China
Prior art keywords
vector
vectors
embedded
candidate
mean vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280022075.2A
Other languages
English (en)
Inventor
S·戴夫
郑艳
M·叶
王俊朋
张维
A·拉索尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Visa International Service Association
Original Assignee
Visa International Service Association
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Visa International Service Association filed Critical Visa International Service Association
Publication of CN117223017A publication Critical patent/CN117223017A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

描述了一种用于对机器学习模型的嵌入向量去偏置的系统、方法和计算机程序产品。该方法包括接收嵌入向量,并且生成该嵌入向量的两个群集。该方法包括确定第一群集的第一均值向量和第二群集的第二均值向量。该方法包括确定与多个第一候选向量中的每个第一候选向量相关联的偏置,并且基于该偏置用第一候选向量替换该第一均值向量。该方法包括确定与多个第二候选向量中的每个第二候选向量相关联的偏置,并且基于该偏置用第二候选向量替换该第二均值向量。该方法包括重复替换该第一均值向量和该第二均值向量,直至达到偏置分数的极值,并且通过使用由该第一均值向量和该第二均值向量定义的方向线性地投影来对该嵌入向量去偏置。

Description

用于对机器学习模型的嵌入向量去偏置的系统、方法和计算 机程序产品
相关申请的交叉引用
本申请要求2021年3月30日提交的美国临时专利申请63/167,737的权益,该美国临时专利申请的公开内容据此以全文引用方式并入。
技术领域
本公开涉及机器学习模型和自然语言处理。具体地但不排他地,本公开涉及对神经网络机器学习模型的嵌入向量去偏置。
背景技术
嵌入向量可以包括相对较高维向量的相对低维向量表示。例如,嵌入向量可以表示较高维向量(例如表示离散和/或分类变量、高维数据记录等)到较低维空间中的映射。在包括神经网络的机器学习建模中,嵌入向量可以包括较高维向量的多维、经学习的连续向量表示。自然语言处理(NLP)可以将词映射到向量表示(例如嵌入向量、词嵌入等)。具有相似表示的嵌入向量(例如两个向量之间相对较短的距离)可以被视为相似的(例如具有相似的含义、值、上下文等)。
然而,嵌入向量可能反映和/或放大生成它们的数据中的偏置。例如,在机器学习模型中使用的有偏置嵌入向量可能降低执行所述机器学习模型的计算机系统的准确度和效率。
本领域需要一种技术解决方案来对嵌入向量的几何形状去偏置,以提高采用所述嵌入向量的计算机驱动的决策系统的准确度、公平性和效率。
发明内容
通过本公开的技术实现额外的特征和优势。本公开的其他实施方案和方面在本文中予以详细描述,并且被视为要求保护的公开内容的一部分。
根据非限制性实施方案或方面,提供了一种用于对机器学习模型的嵌入向量去偏置的计算机实现的方法。所述方法可以包括使用至少一个处理器从神经网络模型接收多个嵌入向量。所述方法还可以包括使用所述至少一个处理器基于多个嵌入向量来生成嵌入向量的两个群集。所述两个群集可以包括预期在第一方向上有偏置的嵌入向量的第一群集以及预期在第二方向上有偏置的第二群集。所述方法还可以包括使用所述至少一个处理器确定嵌入向量的第一群集的第一均值向量和嵌入向量的第二群集的第二均值向量。所述方法还可以包括使用所述至少一个处理器通过以下操作来修改第一均值向量:将第一均值向量朝向嵌入向量的第一群集的每个嵌入向量移动以提供多个第一候选向量,并且沿着在第二均值向量与每个第一候选向量之间定义的第一方向线性地投影第一群集和第二群集两者的嵌入向量,以确定与每个第一候选向量相关联的偏置分数。所述方法还可以包括使用所述至少一个处理器基于多个第一候选向量中的第一候选向量的偏置分数用第一候选向量替换第一均值向量。所述方法还可以包括使用所述至少一个处理器通过以下操作来修改第二均值向量:将第二均值向量朝向嵌入向量的第二群集的每个嵌入向量移动以提供多个第二候选向量,并且沿着在第一均值向量与每个第二候选向量之间定义的第二方向线性地投影第一群集和第二群集两者的嵌入向量,以确定与每个第二候选向量相关联的偏置分数。所述方法还可以包括使用所述至少一个处理器基于多个第二候选向量中的第二候选向量的偏置分数用第二候选向量替换第二均值向量。所述方法还可以包括使用所述至少一个处理器重复对第一均值向量的所述修改、对第一均值向量的所述替换、对第二均值向量的所述修改以及对第二均值向量的所述替换,直至达到偏置分数的极值。所述方法还可以包括:响应于达到偏置分数的极值,使用所述至少一个处理器沿着在第一均值向量与第二均值向量之间定义的方向线性地投影多个嵌入向量中的每个嵌入向量,以对多个嵌入向量去偏置。
在一些非限制性实施方案或方面中,多个嵌入向量可以是词嵌入的向量表示,并且神经网络模型可以包括自然语言处理(NLP)模型。
在一些非限制性实施方案或方面中,多个嵌入向量可以是从客户交易数据中生成的商家身份嵌入的向量表示。所述方法还可以包括使用所述至少一个处理器使用多个嵌入向量修改欺诈监控系统的机器学习模型,所述多个嵌入向量已通过使用在第一均值向量与第二均值向量之间定义的方向线性地投影多个嵌入向量中的每个嵌入向量而被去偏置。
在一些非限制性实施方案或方面中,可以根据词嵌入关联测试(WEAT)来计算偏置分数。也可以根据嵌入一致性测试(ECT)来计算偏置分数。
在一些非限制性实施方案或方面中,所述方法还可以包括:在修改第一均值向量和第二均值向量之前,使用所述至少一个处理器通过沿着在第一均值向量与第二均值向量之间定义的初始方向线性地投影第一群集和第二群集两者的嵌入向量来确定初始偏置分数。用多个第一候选向量中的第一候选向量对第一均值向量的所述替换可以基于使初始偏置分数与第一候选向量的偏置分数之间的差最大化。用多个第二候选向量中的第二候选向量对第二均值向量的所述替换可以基于使初始偏置分数与第二候选向量的偏置分数之间的差最大化。
根据非限制性实施方案或方面,提供了一种用于对机器学习模型的嵌入向量去偏置的系统。所述系统可以包括服务器,所述服务器包括至少一个处理器。所述服务器可以被编程为或被配置成从神经网络模型接收多个嵌入向量。服务器可以被编程为或被配置成基于多个嵌入向量来生成嵌入向量的两个群集,所述两个群集包括预期在第一方向上有偏置的嵌入向量的第一群集以及预期在第二方向上有偏置的第二群集。所述服务器可以被编程为或被配置成确定嵌入向量的第一群集的第一均值向量和嵌入向量的第二群集的第二均值向量。所述服务器可以被编程为或被配置成通过以下操作来修改第一均值向量:将第一均值向量朝向嵌入向量的第一群集的每个嵌入向量移动以提供多个第一候选向量,并且沿着在第二均值向量与每个第一候选向量之间定义的第一方向线性地投影第一群集和第二群集两者的嵌入向量,以确定与每个第一候选向量相关联的偏置分数。所述服务器可以被编程为或被配置成基于多个第一候选向量中的第一候选向量的偏置分数用第一候选向量替换第一均值向量。所述服务器可以被编程为或被配置成通过以下操作来修改第二均值向量:将第二均值向量朝向嵌入向量的第二群集的每个嵌入向量移动以提供多个第二候选向量,并且沿着在第一均值向量与每个第二候选向量之间定义的第二方向线性地投影第一群集和第二群集两者的嵌入向量,以确定与每个第二候选向量相关联的偏置分数。所述服务器可以被编程为或被配置成基于多个第二候选向量中的第二候选向量的偏置分数用第二候选向量替换第二均值向量。所述服务器可以被编程为或被配置成重复对第一均值向量的所述修改、对第一均值向量的所述替换、对第二均值向量的所述修改以及对第二均值向量的所述替换,直至达到偏置分数的极值。所述服务器可以被编程为或被配置成响应于达到偏置分数的极值,沿着在第一均值向量与第二均值向量之间定义的方向线性地投影多个嵌入向量中的每个嵌入向量,以对多个嵌入向量去偏置。
在一些非限制性实施方案或方面中,多个嵌入向量可以是词嵌入的向量表示,并且神经网络模型包括自然语言处理(NLP)模型。
在一些非限制性实施方案或方面中,多个嵌入向量可以是从客户交易数据中生成的商家身份嵌入的向量表示。
在一些非限制性实施方案或方面中,所述服务器可以被进一步编程为或被进一步配置成使用多个嵌入向量修改欺诈监控系统的机器学习模型,所述多个嵌入向量已通过使用在第一均值向量与第二均值向量之间定义的方向线性地投影多个嵌入向量中的每个嵌入向量而被去偏置。
在一些非限制性实施方案或方面中,可以根据词嵌入关联测试(WEAT)来计算偏置分数。
在一些非限制性实施方案或方面中,可以根据嵌入一致性测试(ECT)来计算偏置分数。
在一些非限制性实施方案或方面中,服务器可以被进一步编程为或被进一步配置成:在修改第一均值向量和第二均值向量之前,通过沿着在第一均值向量与第二均值向量之间定义的初始方向线性地投影第一群集和第二群集两者的嵌入向量来确定初始偏置分数。用多个第一候选向量中的第一候选向量对第一均值向量的所述替换可以基于使初始偏置分数与第一候选向量的偏置分数之间的差最大化。用多个第二候选向量中的第二候选向量对第二均值向量的所述替换可以基于使初始偏置分数与第二候选向量的偏置分数之间的差最大化。
根据非限制性实施方案或方面,提供了一种用于对机器学习模型的嵌入向量去偏置的计算机程序产品。所述计算机程序产品可以包括至少一个非暂时性计算机可读介质,所述至少一个非暂时性计算机可读介质包括程序指令,当由至少一个处理器执行时,所述程序指令使得所述至少一个处理器从神经网络模型接收多个嵌入向量。所述指令可以使得所述至少一个处理器基于多个嵌入向量来生成嵌入向量的两个群集,所述两个群集包括预期在第一方向上有偏置的嵌入向量的第一群集以及预期在第二方向上有偏置的第二群集。所述指令可以使得所述至少一个处理器确定嵌入向量的第一群集的第一均值向量和嵌入向量的第二群集的第二均值向量。所述指令可以使得所述至少一个处理器通过以下操作来修改第一均值向量:将第一均值向量朝向嵌入向量的第一群集的每个嵌入向量移动以提供多个第一候选向量,并且沿着在第二均值向量与每个第一候选向量之间定义的第一方向线性地投影第一群集和第二群集两者的嵌入向量,以确定与每个第一候选向量相关联的偏置分数。所述指令可以使得所述至少一个处理器基于多个第一候选向量中的第一候选向量的偏置分数用第一候选向量替换第一均值向量。所述指令可以使得所述至少一个处理器通过以下操作来修改第二均值向量:将第二均值向量朝向嵌入向量的第二群集的每个嵌入向量移动以提供多个第二候选向量,并且沿着在第一均值向量与每个第二候选向量之间定义的第二方向线性地投影第一群集和第二群集两者的嵌入向量,以确定与每个第二候选向量相关联的偏置分数。所述指令可以使得所述至少一个处理器基于多个第二候选向量中的第二候选向量的偏置分数用第二候选向量替换第二均值向量。所述指令可以使得所述至少一个处理器重复对第一均值向量的所述修改、对第一均值向量的所述替换、对第二均值向量的所述修改以及对第二均值向量的所述替换,直至达到偏置分数的极值。所述指令可以使得所述至少一个处理器响应于达到偏置分数的极值,沿着在第一均值向量与第二均值向量之间定义的方向线性地投影多个嵌入向量中的每个嵌入向量,以对多个嵌入向量去偏置。
在一些非限制性实施方案或方面中,多个嵌入向量可以是词嵌入的向量表示,并且神经网络模型包括自然语言处理(NLP)模型。
在一些非限制性实施方案或方面中,多个嵌入向量可以是从客户交易数据中生成的商家身份嵌入的向量表示。
在一些非限制性实施方案或方面中,当由至少一个处理器执行时,所述指令可以进一步使得所述至少一个处理器使用多个嵌入向量修改欺诈监控系统的机器学习模型,所述多个嵌入向量已通过使用在第一均值向量与第二均值向量之间定义的方向线性地投影多个嵌入向量中的每个嵌入向量而被去偏置。
在一些非限制性实施方案或方面中,可以根据词嵌入关联测试(WEAT)来计算偏置分数。
在一些非限制性实施方案或方面中,可以根据嵌入一致性测试(ECT)来计算偏置分数。
在一些非限制性实施方案或方面中,当由至少一个处理器执行时,所述指令可以进一步使得所述至少一个处理器在修改第一均值向量和第二均值向量之前,通过沿着在第一均值向量与第二均值向量之间定义的初始方向线性地投影第一群集和第二群集两者的嵌入向量来确定初始偏置分数。用多个第一候选向量中的第一候选向量对第一均值向量的所述替换可以基于使初始偏置分数与第一候选向量的偏置分数之间的差最大化。用多个第二候选向量中的第二候选向量对第二均值向量的所述替换可以基于使初始偏置分数与第二候选向量的偏置分数之间的差最大化。
将在以下编号的条款中阐述本公开的其他非限制性实施方案或方面:
条款1:一种计算机实现的方法,包括:使用至少一个处理器从神经网络模型接收多个嵌入向量;使用所述至少一个处理器基于多个嵌入向量来生成嵌入向量的两个群集,所述两个群集包括预期在第一方向上有偏置的嵌入向量的第一群集以及预期在第二方向上有偏置的第二群集;使用所述至少一个处理器确定嵌入向量的第一群集的第一均值向量和嵌入向量的第二群集的第二均值向量;使用所述至少一个处理器通过以下操作来修改第一均值向量:将第一均值向量朝向嵌入向量的第一群集的每个嵌入向量移动以提供多个第一候选向量,并且沿着在第二均值向量与每个第一候选向量之间定义的第一方向线性地投影第一群集和第二群集两者的嵌入向量,以确定与每个第一候选向量相关联的偏置分数;使用所述至少一个处理器基于多个第一候选向量中的第一候选向量的偏置分数用第一候选向量替换第一均值向量;使用所述至少一个处理器通过以下操作来修改第一均值向量:将第二均值向量朝向嵌入向量的第二群集的每个嵌入向量移动以提供多个第二候选向量,并且沿着在第一均值向量与每个第二候选向量之间定义的第二方向线性地投影第一群集和第二群集两者的嵌入向量,以确定与每个第二候选向量相关联的偏置分数;使用所述至少一个处理器基于多个第二候选向量中的第二候选向量的偏置分数用第二候选向量替换第二均值向量;使用所述至少一个处理器重复对第一均值向量的所述修改、对第一均值向量的所述替换、对第二均值向量的所述修改以及对第二均值向量的所述替换,直至达到偏置分数的极值;以及响应于达到偏置分数的极值,使用所述至少一个处理器沿着在第一均值向量与第二均值向量之间定义的方向线性地投影多个嵌入向量中的每个嵌入向量,以对多个嵌入向量去偏置。
条款2:如条款1所述的计算机实现的方法,其中所述多个嵌入向量是词嵌入的向量表示,并且所述神经网络模型包括自然语言处理(NLP)模型。
条款3:如条款1或2所述的计算机实现的方法,其中所述多个嵌入向量是从客户交易数据中生成的商家身份嵌入的向量表示。
条款4:如条款1至3中任一项所述的计算机实现的方法,还包括使用所述至少一个处理器使用所述多个嵌入向量修改欺诈监控系统的机器学习模型,所述多个嵌入向量已通过使用在所述第一均值向量与所述第二均值向量之间定义的所述方向线性地投影所述多个嵌入向量中的每个嵌入向量而被去偏置。
条款5:如条款1至4中任一项所述的计算机实现的方法,其中根据词嵌入关联测试(WEAT)来计算所述偏置分数。
条款6:如条款1至5中任一项所述的计算机实现的方法,其中根据嵌入一致性测试(ECT)来计算所述偏置分数。
条款7:如条款1至6中任一项所述的计算机实现的方法,还包括:在修改所述第一均值向量和所述第二均值向量之前,使用所述至少一个处理器通过沿着在所述第一均值向量与所述第二均值向量之间定义的初始方向线性地投影所述第一群集和所述第二群集两者的所述嵌入向量来确定初始偏置分数,其中:用所述多个第一候选向量中的所述第一候选向量对所述第一均值向量的所述替换是基于使所述初始偏置分数与所述第一候选向量的所述偏置分数之间的差最大化;并且用所述多个第二候选向量中的所述第二候选向量对所述第二均值向量的所述替换是基于使所述初始偏置分数与所述第二候选向量的所述偏置分数之间的差最大化。
条款8:一种包括服务器的系统,所述服务器包括至少一个处理器,所述服务器被编程为或被配置成:从神经网络模型接收多个嵌入向量;基于所述多个嵌入向量来生成嵌入向量的两个群集,所述两个群集包括预期在第一方向上有偏置的嵌入向量的第一群集以及预期在第二方向上有偏置的第二群集;确定嵌入向量的第一群集的第一均值向量和嵌入向量的第二群集的第二均值向量;通过以下操作来修改第一均值向量:将第一均值向量朝向嵌入向量的第一群集的每个嵌入向量移动以提供多个第一候选向量,并且沿着在第二均值向量与每个第一候选向量之间定义的第一方向线性地投影第一群集和第二群集两者的嵌入向量,以确定与每个第一候选向量相关联的偏置分数;基于多个第一候选向量中的第一候选向量的偏置分数用第一候选向量替换第一均值向量;通过以下操作来修改第一均值向量:将第二均值向量朝向嵌入向量的第二群集的每个嵌入向量移动以提供多个第二候选向量,并且沿着在第一均值向量与每个第二候选向量之间定义的第二方向线性地投影第一群集和第二群集两者的嵌入向量,以确定与每个第二候选向量相关联的偏置分数;基于多个第二候选向量中的第二候选向量的偏置分数用第二候选向量替换第二均值向量;重复对第一均值向量的所述修改、对第一均值向量的所述替换、对第二均值向量的所述修改以及对第二均值向量的所述替换,直至达到偏置分数的极值;以及响应于达到偏置分数的极值,沿着在第一均值向量与第二均值向量之间定义的方向线性地投影多个嵌入向量中的每个嵌入向量,以对多个嵌入向量去偏置。
条款9:如条款8所述的系统,其中所述多个嵌入向量是词嵌入的向量表示,并且所述神经网络模型包括自然语言处理(NLP)模型。
条款10:如条款8或9所述的系统,其中所述多个嵌入向量是从客户交易数据中生成的商家身份嵌入的向量表示。
条款11:如条款8至10中任一项所述的系统,其中所述服务器被进一步编程为或被进一步配置成使用所述多个嵌入向量修改欺诈监控系统的机器学习模型,所述多个嵌入向量已通过使用在所述第一均值向量与所述第二均值向量之间定义的所述方向线性地投影所述多个嵌入向量中的每个嵌入向量而被去偏置。
条款12:如条款8至11中任一项所述的系统,其中根据词嵌入关联测试(WEAT)来计算所述偏置分数。
条款13:如条款8至12中任一项所述的系统,其中根据嵌入一致性测试(ECT)来计算所述偏置分数。
条款14:如条款8至13中任一项所述的系统,其中所述服务器被进一步编程为或被进一步配置成:在修改所述第一均值向量和所述第二均值向量之前,通过沿着在所述第一均值向量与所述第二均值向量之间定义的初始方向线性地投影所述第一群集和所述第二群集两者的所述嵌入向量来确定初始偏置分数,并且其中:用所述多个第一候选向量中的所述第一候选向量对所述第一均值向量的所述替换是基于使所述初始偏置分数与所述第一候选向量的所述偏置分数之间的差最大化;并且用所述多个第二候选向量中的所述第二候选向量对所述第二均值向量的所述替换是基于使所述初始偏置分数与所述第二候选向量的所述偏置分数之间的差最大化。
条款15:一种计算机程序产品,包括至少一个非暂时性计算机可读介质,所述至少一个非暂时性计算机可读介质包括程序指令,当由至少一个处理器执行时,所述程序指令使得所述至少一个处理器:从神经网络模型接收多个嵌入向量;基于所述多个嵌入向量来生成嵌入向量的两个群集,所述两个群集包括预期在第一方向上有偏置的嵌入向量的第一群集以及预期在第二方向上有偏置的第二群集;确定嵌入向量的第一群集的第一均值向量和嵌入向量的第二群集的第二均值向量;通过以下操作来修改第一均值向量:将第一均值向量朝向嵌入向量的第一群集的每个嵌入向量移动以提供多个第一候选向量,并且沿着在第二均值向量与每个第一候选向量之间定义的第一方向线性地投影第一群集和第二群集两者的嵌入向量,以确定与每个第一候选向量相关联的偏置分数;基于多个第一候选向量中的第一候选向量的偏置分数用第一候选向量替换第一均值向量;通过以下操作来修改第一均值向量:将第二均值向量朝向嵌入向量的第二群集的每个嵌入向量移动以提供多个第二候选向量,并且沿着在第一均值向量与每个第二候选向量之间定义的第二方向线性地投影第一群集和第二群集两者的嵌入向量,以确定与每个第二候选向量相关联的偏置分数;基于多个第二候选向量中的第二候选向量的偏置分数用第二候选向量替换第二均值向量;重复对第一均值向量的所述修改、对第一均值向量的所述替换、对第二均值向量的所述修改以及对第二均值向量的所述替换,直至达到偏置分数的极值;以及响应于达到偏置分数的极值,沿着在第一均值向量与第二均值向量之间定义的方向线性地投影多个嵌入向量中的每个嵌入向量,以对多个嵌入向量去偏置。
条款16:如条款15所述的计算机程序产品,其中所述多个嵌入向量是词嵌入的向量表示,并且所述神经网络模型包括自然语言处理(NLP)模型。
条款17:如条款15或16所述的计算机程序产品,其中所述多个嵌入向量是从客户交易数据中生成的商家身份嵌入的向量表示,并且其中当由至少一个处理器执行时,所述指令进一步使得所述至少一个处理器使用多个嵌入向量修改欺诈监控系统的机器学习模型,所述多个嵌入向量已通过使用在第一均值向量与第二均值向量之间定义的方向线性地投影多个嵌入向量中的每个嵌入向量而被去偏置。
条款18:如条款15至17中任一项所述的计算机程序产品,其中根据词嵌入关联测试(WEAT)来计算所述偏置分数。
条款19:如条款15至18中任一项所述的计算机程序产品,其中根据嵌入一致性测试(ECT)来计算所述偏置分数。
条款20:如条款15至19中任一项所述的计算机程序产品,其中当由至少一个处理器执行时,所述指令进一步使得所述至少一个处理器在修改所述第一均值向量和所述第二均值向量之前,通过沿着在所述第一均值向量与所述第二均值向量之间定义的初始方向线性地投影所述第一群集和所述第二群集两者的所述嵌入向量来确定初始偏置分数,并且其中:用所述多个第一候选向量中的所述第一候选向量对所述第一均值向量的所述替换是基于使所述初始偏置分数与所述第一候选向量的所述偏置分数之间的差最大化;并且用所述多个第二候选向量中的所述第二候选向量对所述第二均值向量的所述替换是基于使所述初始偏置分数与所述第二候选向量的所述偏置分数之间的差最大化。
在参考附图考虑以下描述和所附权利要求书时,本公开的这些和其他特征和特性以及相关结构元件和各部分的组合的操作方法和功能以及制造经济性将变得更加显而易见,所有附图形成本说明书的部分,其中相似附图标号在各图中标示对应部分。然而,应明确地理解,图式仅用于说明及描述的目的,且不希望作为对本公开的限制的定义。
附图说明
下文参考示意性附图中示出的示例性实施方案或方面更详细地解释本公开的额外优点和细节,在示意性附图中:
图1是根据一些非限制性实施方案或方面的用于对机器学习模型的嵌入向量去偏置的系统的图;
图2示出了结合非限制性实施方案或方面使用的设备或系统的示例部件。
图3是根据一些非限制性实施方案或方面的用于对机器学习模型的嵌入向量去偏置的方法的流程图;
图4A至图4D是根据一些非限制性实施方案或方面的图3中所示出的方法的示例性具体实现的图;
图5是根据一些非限制性实施方案或方面的图3中所示出的方法的示例性具体实现的图;
图6A至图6C是根据一些非限制性实施方案或方面的图3中所示出的过程的示例性具体实现的示例性向量的图形可视化;并且
图7是根据一些非限制性实施方案或方面的其中可以实现本文中描述的方法、系统和/或计算机程序产品的示例性环境的图。
本领域的技术人员应了解,本文中的任何框图表示体现本发明主题的原理的说明性系统的概念视图。类似地,可了解,任何流程图表、流程图、状态转换图、伪代码等表示可基本上在计算机可读介质中表示并且由计算机或处理器执行的各种过程,无论是否明确示出此类计算机或处理器。
具体实施方式
在本文档中,词“示例性”在本文中用于意指“充当示例、实例或说明”。本文中描述为“示例性”的本发明主题的任何实施方案或具体实现不一定解释为比其他实施方案或方面优选或有利。
术语“包括(comprises/includes/comprising/including)”或其任何其他变型希望涵盖非排他性包括,使得包括一系列部件或步骤的设置、设备或方法不仅包括那些部件或步骤,而且还可以包括并未明确列出或者这种设置、设备或方法固有的其他部件或步骤。换句话说,在没有更多约束的情况下,系统或装置中在“包括……(comprises…a/includes…a)”之后的一个或多个元件不排除系统或装置中其他元件或额外元件的存在。
为了进行以下描述,术语“上”、“下”、“右”、“左”、“竖直”、“水平”、“顶部”、“底部”、“橫向”、“纵向”以及其派生词应如其在附图中的定向那样与非限制性实施方案或方面相关。然而,应理解,除了明确指定为相反的情况之外,非限制性实施方案或方面可采用各种替代变化和步骤顺序。还应理解,附图中所示的以及在以下说明书中描述的特定设备和过程仅仅是示例性实施方案或方面。因此,与本文公开的实施方案或方面有关的特定尺寸和其它物理特性不应被视为限制。
本文所使用的方面、部件、元件、结构、动作、步骤、功能、指令等都不应当被理解为关键的或必要的,除非明确地如此描述。且,如本文所使用,冠词“一”希望包括一个或多个项目,且可与“一个或多个”和“至少一个”互换使用。此外,如本文所使用,术语“集合”希望包括一个或多个项目(例如,相关项目、不相关项目、相关项目与不相关项目的组合等),并且可与“一个或多个”或“至少一个”互换使用。在希望仅有一个项目的情况下,使用术语“一个”或类似语言。且,如本文所使用,术语“具有”等希望是开放式术语。另外,除非另外明确陈述,否则短语“基于”希望意味着“至少部分地基于”。
本文中结合阈值描述一些非限制性实施方案或方面。如本文所使用,满足阈值可以指值大于阈值、多于阈值、高于阈值、大于或等于阈值、小于阈值、少于阈值、低于阈值、小于或等于阈值、等于阈值等。
如本文所使用,术语“通信”可指代信息(例如,数据、信号、消息、指令、命令等)的接收、接收到、传输、传送、提供等。一个单元(例如,设备、系统、设备或系统的部件、它们的组合等)与另一单元通信意味着所述一个单元能够直接或间接地从所述另一单元接收信息和/或向所述另一单元传输信息。这可以指在本质上有线和/或无线的直接或间接连接(例如,直接通信连接、间接通信连接等)。另外,尽管所发送的信息可以在第一单元与第二单元之间被修改、处理、中继和/或路由,但这两个单元也可以彼此通信。例如,即使第一单元被动地接收信息且不会主动地将信息发送到第二单元,第一单元也可以与第二单元通信。作为另一示例,如果至少一个中间单元(例如,位于第一单元与第二单元之间的第三单元)处理从第一单元接收的信息并且将处理后的信息传送到第二单元,则第一单元可以与第二单元通信。在一些非限制性实施方案或方面中,消息可以指包括数据的网络包(例如数据包等)。可以使用任何已知的电子通信协议和/或算法,诸如传输控制协议/互联网协议(TCP/IP)(包括超文本传输协议(HTTP)和其他协议)、无线局域网(WLAN)(包括802.11以及其他基于射频的协议和方法)、模拟传输、蜂窝网络(例如全球移动通信系统码分多址(CDMA)、长期演进/>微波接入全球互通/>第三代(3G)网络、第四代(4G)网络、第五代(5G)网络等)等。将了解,许多其他布置是可能的。
如本文中所使用,术语“支付设备”可以指便携式金融设备、电子支付设备、支付卡(例如信用卡或借记卡)、礼品卡、智能卡、智能介质、工资卡、医疗保健卡、腕带、含有账户信息的机器可读介质、钥匙链设备或挂扣、射频识别(RFID)应答器、零售商折扣或会员卡、蜂窝电话、电子钱包移动应用程序、个人数字助理(PDA)、寻呼机、安全卡、计算机、访问卡、无线终端、应答器等。在一些非限制性实施方案或方面中,支付设备可以包括用于存储信息(例如,账户标识符、账户持有人姓名等)的易失性或非易失性存储器。
如本文中所使用,术语“交易服务提供商”可以指从商家或其他实体接收交易授权请求并且在一些情况下通过交易服务提供商与发行方机构之间的协议来提供支付保证的实体。例如,交易服务提供商可以包括例如之类的支付网络,或处理交易的任何其它实体。术语“交易处理系统”可以指由交易服务提供商或代表交易服务提供商操作的一个或多个计算机系统,诸如执行一个或多个软件应用程序的交易处理服务器、执行一个或多个软件应用程序的令牌服务等。交易处理服务器可包括一个或多个处理器,并且在一些非限制性实施方案或方面中,可以由交易服务提供商或代表交易服务提供商操作。
如本文中所使用,术语“支付网关”可以指实体以及/或者由这种实体(例如商家服务提供商、支付服务提供商、支付服务商、与收单方有合约的支付服务商、支付聚合商(payment aggregator)等)或代表这种实体操作的支付处理系统,所述实体向一个或多个商家提供支付服务(例如交易服务提供商支付服务、支付处理服务等)。支付服务可以与由交易服务提供商管理的便携式金融设备的使用相关联。如本文所使用,术语“支付网关系统”可指由支付网关或代表支付网关操作的一个或多个计算机系统、计算机设备、服务器、服务器群组等。
如本文中所使用,术语“发行方机构”可以指对客户提供用于进行交易(例如支付交易)(诸如发起信用和/或借记支付)的账户的一个或多个实体,诸如银行。例如,发行方机构可向客户提供唯一地标识与所述客户相关联的一个或多个账户的账户标识符,例如主账号(PAN)。账户标识符可在例如实体支付工具(例如,支付卡)之类的支付设备上实施,和/或可以是电子的且用于电子支付。术语“发行方系统”是指由发行方机构或代表发行方机构操作的一个或多个计算机系统,例如执行一个或多个软件应用程序的服务器计算机。例如,发行方系统可以包括用于授权交易的一个或多个授权服务器。
如本文所使用,术语“收单方机构”可指由交易服务提供商授权和/或批准以使用与交易服务提供商相关联的支付设备发起交易(例如,支付交易)的实体。收单方机构可发起的交易可以包括支付交易(例如购买、原始信用交易(OCT)、账户资金交易(AFT)等)。在一些非限制性实施方案或方面中,收单方机构可以是银行。如本文中所使用,术语“收单方系统”可以指由收单方机构或代表收单方机构操作的一个或多个计算机系统、计算机设备、软件应用程序等。
如本文中所使用,术语“认证系统(authenticating system/authenticationsystem)”可以指认证用户和/或账户的一个或多个计算设备,诸如但不限于交易处理系统、商家系统、发行方系统、支付网关、第三方认证服务等。
如本文中所使用,术语“请求”、“响应”、“请求消息”和“响应消息”可以指用于在两个或更多个部件或单元之间传送数据的一个或多个消息、数据包、信号和/或数据结构。
如本文所使用,术语“账户标识符”可以包括一个或多个PAN、令牌或与客户账户相关联的其他标识符。术语“令牌”可以指用作PAN等原始账户标识符的替代或替换标识符的标识符。账户标识符可以是文字数字的,或是字符和/或符号的任何组合。令牌可与一个或多个数据结构(例如一个或多个数据库等)中的PAN或其它原始账户标识符相关联,使得令牌可用于进行交易而无需直接使用原始账户标识符。在一些示例中,诸如PAN的原始账户标识符可以与用于不同个人或目的的多个令牌相关联。
如本文所使用,术语“商家”可以指基于交易(诸如支付交易)向用户(例如,客户、消费者等)提供商品和/或服务以及/或者对商品和/或服务的访问的一个或多个实体(例如,零售企业的运营者)。如本文中所使用,“商家系统”可以指由商家或代表商家操作的一个或多个计算机系统,诸如执行一个或多个软件应用程序的服务器。如本文所使用,术语“产品”可以指由商家提供的一种或多种商品和/或服务。
如本文所使用,“销售点(POS)设备”可指可以由商家用来进行交易(例如,支付交易)和/或处理交易的一个或多个设备。例如,POS设备可包括一个或多个客户端设备。另外或替代地,POS设备可以包括外围设备、读卡器、扫描设备(例如,代码扫描器)、通信接收器、近场通信(NFC)接收器、射频标识(RFID)接收器和/或其它非接触式收发器或接收器、基于接触的接收器、支付终端等。如本文所使用,“销售点(POS)系统”可以指商家用来进行交易的一个或多个客户端设备和/或外围设备。例如,POS系统可包括一个或多个POS设备,和/或可用于进行支付交易的其他类似设备。在一些非限制性实施方案或方面中,POS系统(例如,商家POS系统)可以包括一个或多个服务器计算机,该一个或多个服务器计算机被编程或配置为通过网页、移动应用等处理在线支付交易。
如本文所使用,术语“客户端”和“客户端设备”可指代用于发起或促进交易(例如,支付交易)的一个或多个客户端侧设备或系统(例如,在交易服务提供商的远程处)。作为示例,“客户端设备”可指代由商家使用的一个或多个POS设备、由收单方使用的一个或多个收单方主机计算机、由用户使用的一个或多个移动设备等。在一些非限制性实施方案或方面中,客户端设备可以是被配置成与一个或多个网络通信并发起或促进交易的电子设备。例如,客户端设备可包括一个或多个计算机、便携式计算机、膝上型计算机、平板计算机、移动设备、蜂窝式电话、可穿戴设备(例如,手表、眼镜、镜片、衣物等)、PDA等。此外,“客户端”还可指代拥有、利用和/或操作客户端设备用于发起交易(例如,用于发起与交易服务提供商的交易)的实体(例如,商家、收单方等)。
如本文所使用,术语“计算设备”可以指被配置成直接地或间接地与一个或多个网络通信或在一个或多个网络上通信的一个或多个电子设备。计算设备可以是移动设备、台式计算机和/或任何其他类似设备。此外,术语“计算机”可以指包括用于接收、处理和输出数据的必要部件且通常包括显示器、处理器、存储器、输入设备和网络接口的任何计算设备。如本文中所使用,术语“服务器”可以指或包括一个或多个处理器或计算机、存储设备或由诸如互联网的网络环境中的通信和/或处理来操作或促进该通信和处理的类似的计算机布置,但将了解,可以通过一个或多个公开或专用网络环境促进通信,并且各种其他布置也是可能的。此外,在网络环境中直接或间接通信的多个计算机(例如服务器)或其他计算机化设备(诸如POS设备)可以构成诸如商家的POS系统的“系统”。
如本文所使用,术语“处理器”可以表示任何类型的处理单元,例如具有一个或多个核心的单个处理器、一个或多个处理器的一个或多个核心、各自具有一个或多个核心的多个处理器、和/或处理单元的其他布置和组合。
如本文所使用,术语“系统”可指代一个或多个计算设备或计算设备的组合(例如,处理器、服务器、客户端设备、软件应用程序、这些计算设备的部件等)。如本文中所使用,对“设备”、“服务器”、“处理器”等的提及可可以指叙述为执行先前步骤或功能的先前叙述的设备、服务器或处理器、不同的服务器或处理器,和/或服务器和/或处理器的组合。例如,如说明书和权利要求书所使用,叙述为执行第一步骤或第一功能的第一服务器或第一处理器可以指叙述为执行第二步骤或第二功能的相同或不同服务器或相同或不同处理器。
如本文中所使用,“嵌入向量”可以指相对较高维向量的相对低维向量表示。例如,嵌入向量可以表示较高维向量(例如表示离散和/或分类变量、高维数据记录等)到较低维空间中的映射。在一些非限制性实施方案或方面中,嵌入向量可以包括用于表示在机器学习模型(例如深度学习模型、神经网络模型等)中使用的离散变量(例如分类变量等)的连续元素(例如数字)的向量。例如,嵌入向量可以包括离散变量的多维、经学习的连续向量表示,该连续向量表示可以减少分类变量的维度,并且有意义地表示变换空间中的类别。在一些非限制性实施方案或方面中,嵌入向量可以使对较大输入(诸如表示词的稀疏向量)的机器学习简化。例如,嵌入向量可以通过在嵌入空间中将语义相似的输入紧密地放置在一起来捕获输入的语义(例如来自文档语料库的词)。在一些非限制性实施方案或方面中,可以跨模型学习和重用嵌入向量。在一些非限制性实施方案或方面中,嵌入向量可以包括数据串的向量表示(例如词、商家标识符(例如名称、标识号等),该向量表示是基于所述串在数据语料库(例如一组文档(例如书籍等)、消费者交易数据(例如一组账户中的每个消费者账户与其交易的一系列商家标识符等)等)中的分布。
本公开的非限制性实施方案或方面针对一种用于对神经网络机器学习模型的嵌入向量去偏置的系统、方法和计算机程序产品。将了解,所描述的系统和方法通过减小和/或移除来自机器学习模型中的嵌入向量的偏置来提高计算机驱动的决策系统的准确度和效率。因为嵌入向量可以类似地表示具有相似语义值的输入变量,并且因为偏置可以在嵌入向量中被放大,所以移除偏置允许机器学习模型检测由除了偏置源之外的其他特征维度产生的语义相似性。例如,原本应当被检测到但由于偏置造成的混淆而未被标识出的语义相似性可能导致决策系统在应当触发计算机进程时并未触发计算机进程(例如假阴性)。另外或替代地,被检测到但在移除偏置的情况下将不会被标识出的语义相似性可能导致决策系统在不应当触发计算机进程时触发计算机进程(例如假阳性)。对于每秒作出执行或不执行计算机进程的许多决策的决策系统(例如欺诈监控系统),假阴性和假阳性的减少节省了计算机资源(例如处理带宽、存储空间、通信次数等)。
现在参考图1,示出了用于对机器学习模型的嵌入向量去偏置的示例系统100的图。如图1中所示出,系统100可以包括用户设备102、建模系统104、欺诈监控系统106、决策系统108和通信网络110。前述设备和/或系统中的每一者可以包括被配置成与系统100中的其他设备和/或系统通信(例如直接地和/或经由通信网络110间接地)的一个或多个计算设备。
用户设备102可以包括被配置有显示器的计算设备,该显示器用于在去偏置之前、期间和/或之后可视地表示嵌入向量。
建模系统104可以包括一个或多个计算设备(例如服务器等),该一个或多个计算设备被编程为或被配置成接收嵌入向量,并且根据本文中描述的方法来执行一个或多个去偏置过程。在一些非限制性实施方案或方面中,建模系统104和用户设备102可以在单个设备内实现(例如用户设备102可以包括(例如完全地、部分地等)建模系统104)。
欺诈监控系统106可以包括一个或多个计算设备(例如服务器等),该一个或多个计算设备被编程为或被配置成接收嵌入向量,以用于在机器学习模型中检测欺诈以及/或者执行一个或多个欺诈减轻动作(例如冻结账户、拒绝交易、传输警报等)。
决策系统108可以包括一个或多个服务器,该一个或多个服务器被编程为或被配置成接收嵌入向量,以用于在机器学习模型中作出一个或多个计算机驱动的决策(例如执行计算机进程、停止执行计算机进程、存储数据、修改数据、传输数据等)。在一些非限制性实施方案或方面中,决策系统108可以包括欺诈监控系统106。
通信网络110可包括一个或多个有线和/或无线网络。例如,通信网络110可以包括蜂窝网络(例如长期演进网络、第三代(3G)网络、第四代(4G)网络、第五代(5G)网络、码分多址(CDMA)网络等)、公共陆地移动网(PLMN)、局域网(LAN)、广域网(WAN)、城域网(MAN)、电话网络(例如公共交换电话网络(PSTN))、专用网络、自组网络、网状网络、信标网络、内联网、互联网、基于光纤的网络、云计算网络等,以及/或者这些或其他类型的网络的组合。
提供图1中所示出的设备和网络的数量和布置作为示例。可能存在与图1中所示的那些相比额外的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络,或不同地布置的设备和/或网络。此外,图1中所示的两个或更多个设备可在单个设备内实施,或图1中所示的单个设备可实施为多个分布式设备。另外或替代地,系统100的一组设备(例如一个或多个设备)可以执行被描述为由系统100的另一组设备执行的一个或多个功能。
现在参考图2,示出了设备200的示例部件的图。设备200可以对应于用户设备102、建模系统104、欺诈监控系统106、决策系统108和/或通信网络110的一个或多个设备。在一些非限制性实施方案或方面中,前述的一个或多个设备可以包括至少一个设备200和/或设备200的至少一个部件。如图2所示,设备200可以包括总线202、处理器204、存储器206、存储部件208、输入部件210、输出部件212和通信接口214。
总线202可以包括准许设备200的部件之间的通信的部件。在一些非限制性实施方案或方面中,处理器204可以在硬件、软件,或硬件和软件的组合中实施。例如,处理器204可以包括处理器(例如中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)等)、微处理器、数字信号处理器(DSP)以及/或者可被编程为执行功能的任何处理部件(例如现场可编程门阵列(FPGA)、专用集成电路(ASIC)等)。存储器206可以包括随机存取存储器(RAM)、只读存储器(ROM),以及/或者存储供处理器204使用的信息和/或指令的另一类型的动态或静态存储设备(例如闪存存储器、磁存储器、光学存储器等)。
存储部件208可存储与设备200的操作和使用相关联的信息和/或软件。例如,存储部件208可以包括硬盘(例如磁盘、光盘、磁光盘、固态磁盘等)、压缩光盘(CD)、数字多功能光盘(DVD)、软盘、盒带、磁带和/或另一类型的计算机可读介质,以及对应的驱动器。
输入部件210可以包括准许设备200诸如经由用户输入(例如触摸屏显示器、键盘、小键盘、鼠标、按钮、开关、麦克风、相机等)接收信息的部件。另外或替代地,输入部件210可以包括用于感测信息的传感器(例如全球定位系统(GPS)部件、加速度计、陀螺仪、致动器等)。输出部件212可以包括从设备200提供输出信息的部件(例如,显示器、扬声器、一个或多个发光二极管(LED)等)。
通信接口214可以包括使得设备200能够例如经由有线连接、无线连接或有线连接和无线连接的组合与其他设备通信的收发器类部件(例如收发器、单独的接收器和发射器等)。通信接口214可以准许设备200接收来自另一设备的信息和/或向另一设备提供信息。例如,通信接口214可包括以太网接口、光学接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、接口、蜂窝网络接口等。
设备200可以执行本文描述的一个或多个过程。设备200可基于处理器204执行由存储器206和/或存储部件208等计算机可读介质存储的软件指令来执行这些过程。计算机可读介质(例如,非暂时性计算机可读介质)在本文中定义为非暂时性存储器设备。非暂时性存储器设备包括位于单个物理存储设备内部的存储器空间或散布于多个物理存储设备上的存储器空间。
软件指令可以经由通信接口214从另一计算机可读介质或从另一设备读取到存储器206和/或存储部件208中。在被执行时,存储在存储器206和/或存储部件208中的软件指令可以使处理器204执行本文描述的一个或多个过程。另外或替代地,硬接线电路系统可以替代或结合软件指令使用以执行本文中所描述的一个或多个过程。因此,本文所描述的实施方案或方面不限于硬件电路系统和软件的任何特定组合。
存储器206和/或存储部件208可以包括数据存储装置或者一个或多个数据结构(例如数据库等)。设备200能够从存储器206和/或存储部件208中的数据存储装置或一个或多个数据结构接收信息、将信息存储于所述数据存储装置或一个或多个数据结构中、向所述数据存储装置或一个或多个数据结构传送信息或搜索其中存储的信息。例如,信息可以包括加密数据、输入数据、输出数据、交易数据、账户数据或其任何组合。
图2所示的部件的数目和布置作为示例提供。在一些非限制性实施方案或方面中,设备200可以包括额外部件、更少部件、不同部件或以与图2所示的那些不同的方式布置的部件。另外或替代地,设备200的一组部件(例如一个或多个部件)可以执行被描述为由设备200的另一组部件执行的一个或多个功能。
现在参考图3,示出了用于对至少一个机器学习模型(例如至少一个神经网络模型等)的嵌入向量去偏置的方法300的流程图。方法300的一个或多个步骤可以由建模系统104的一个或多个处理器执行。另外或替代地,方法300的一个或多个步骤可以由与建模系统104分离或包括该建模系统的另一系统、另一设备、另一系统群组或另一设备群组(诸如用户设备102、欺诈监控系统106、决策系统108等)来执行(例如完全地、部分地等)。方法300的每个步骤可以由相同或不同的处理器执行。
在步骤302中,可以接收多个嵌入向量。例如,建模系统104可以从神经网络模型接收多个嵌入向量。
在一些非限制性实施方案或方面中,嵌入向量可以包括词嵌入的向量表示,并且/或者神经网络模型可以包括自然语言处理(NLP)模型。例如,针对词嵌入的偏置类别可以包括并非固有性别的词的性别关联。
在一些非限制性实施方案或方面中,多个嵌入向量可以是从客户交易数据中生成的商家身份嵌入的向量表示。例如,针对商家身份嵌入的偏置类别可以包括商家的位置(例如商家可以基于位置被关联,即使这类商家在类型方面不是固有相关的(例如商家类别代码(MCC)等))。
在步骤304中,可以生成至少两个群集。例如,建模系统104可以基于多个嵌入向量来生成嵌入向量的两个群集。
在一些非限制性实施方案中,这两个群集可以包括预期在第一方向上有偏置的嵌入向量的第一群集(例如面向男性的性别偏置、第一位置偏置等)以及/或者预期在第二方向上有偏置的嵌入向量的第二群集(例如面向女性的性别偏置、第二位置偏置等)。偏置方向可以是双极的,并且可以根据偏置的一极或另一极基于群组来确定群集。可以通过选择表示已知或统计上有偏置的输入变量的嵌入向量来生成这两个群集。另外或替代地,可以通过选择附近嵌入向量的群组来生成这两个群集,如在界面中可视地或数学地确定的。
在步骤306中,可以确定第一群集的第一均值向量和/或第二群集的第二均值向量。例如,建模系统104可以确定嵌入向量的第一群集的第一均值向量和嵌入向量的第二群集的第二均值向量。
在一些非限制性实施方案或方面中,可以(例如由建模系统104)使用二均值方法来确定第一均值向量和第二均值向量,例如可以确定每个群集的中心向量。对于任何两组词,二均值方法可以返回它们相应的平均值的归一化向量。例如,对于嵌入向量群组si∈S和mi∈M,建模系统104可以计算第一均值向量,如以下等式中所示出:
另外或替代地,建模系统104可以计算第二均值向量,如以下等式中所示出:
根据上述均值向量,可以计算初始方向,如以下等式中所示出:
在一些非限制性实施方案或方面中,用户设备102的用户可以查看嵌入向量的可视化(例如在用户设备102的显示器上)。另外或替代地,用户可以向用户设备102提供输入,以将第一群集内的另一向量指定为第一均值向量以及/或者将第二群集内的另一向量指定为第二均值向量。
在一些非限制性实施方案或方面中,建模系统104可以将第一群集的凸组合确定为第一均值向量以及/或者将第二群集的凸组合确定为第二均值向量。
在一些非限制性实施方案或方面中,建模系统104可以确定多个嵌入向量的初始(例如基线)偏置分数(例如偏置测试统计数据的值)。例如,可以根据一个或多个偏置测试统计数据来计算偏置分数(例如通过建模系统104),该一个或多个偏置测试统计数据包括但不限于词嵌入关联测试(WEAT)、嵌入一致性测试(ECT)等。另外或替代地,建模系统104可以将多个嵌入向量与表示已知的有偏置变量的嵌入向量进行比较,以确定向量群组之间的关联(例如偏置的相似性)。
在一些非限制性实施方案或方面中,建模系统104可以基于沿着在第一均值向量与第二均值向量之间定义的初始方向线性地投影第一群集和第二群集两者的嵌入向量来确定偏置分数(例如二均值偏置分数)。例如,可以根据一个或多个偏置测试统计数据来计算偏置分数,该一个或多个偏置测试统计数据包括但不限于WEAT、ECT等。另外或替代地,建模系统104可以确定偏置分数(例如二均值偏置分数)与初始偏置分数之间的差。
在步骤308中,可以通过将第一均值向量朝向第一群集的每个向量移动来修改第一均值向量。例如,建模系统104可以通过以下操作来修改第一均值向量:将第一均值向量朝向第一群集的每个嵌入向量移动以提供多个第一候选向量,并且沿着在第二均值向量与每个第一候选向量之间定义的第一方向线性地投影第一群集和第二群集两者的嵌入向量,以确定与每个第一候选向量相关联的偏置分数。
在一些非限制性实施方案或方面中,将第一均值向量朝向第一群集中的每个相应向量移动可以包括标识第一均值向量与相应向量的凸组合,从而使得偏置分数得到改善。另外或替代地,对第一均值向量的移动可以包括使用黄金分割搜索(GSS)通过评估候选向量(例如第一均值向量与第一群集的相应嵌入向量的凸组合)来优化偏置分数的改善。
在步骤310中,可以基于第一候选向量的偏置分数用第一候选向量替换第一均值向量。例如,建模系统104可以基于多个第一候选向量中的第一候选向量的偏置分数用第一候选向量替换第一均值向量。
在一些非限制性实施方案或方面中,建模系统104可以优先标识具有偏置分数的值的局部极值(例如较低WEAT分数、较高ECT分数等)的第一候选向量。另外或替代地,建模系统104可以基于使初始偏置分数与第一候选向量的偏置分数之间的差最大化(例如WEAT分数的最大减小、ECT分数的最大增加等)而用多个第一候选向量中的第一候选向量替换第一均值向量。选定的第一候选向量可以成为新的第一均值向量。
在步骤312中,可以通过将第二均值向量朝向第二群集的每个向量移动来修改第二均值向量。例如,建模系统104可以通过以下操作来修改第二均值向量:将第二均值向量朝向第二群集的每个嵌入向量移动以提供多个第二候选向量,并且沿着在第一均值向量与每个第二候选向量之间定义的第二方向线性地投影第一群集和第二群集两者的嵌入向量,以确定与每个第二候选向量相关联的偏置分数。
在一些非限制性实施方案或方面中,将第二均值向量朝向第二群集中的每个相应向量移动可以包括标识第二均值向量与相应向量的凸组合,从而使得偏置分数得到改善。另外或替代地,对第二均值向量的移动可以包括使用GSS通过评估候选向量(例如第二均值向量与第二群集的相应嵌入向量的凸组合)来优化偏置分数的改善。
在步骤314中,可以基于第二候选向量的偏置分数用第二候选向量替换第二均值向量。例如,建模系统104可以基于多个第二候选向量中的第二候选向量的偏置分数用第二候选向量替换第二均值向量。
在一些非限制性实施方案或方面中,建模系统104可以优先标识具有偏置分数的值的局部极值(例如较低WEAT分数、较高ECT分数等)的第二候选向量。另外或替代地,建模系统104可以基于使初始偏置分数与第二候选向量的偏置分数之间的差最大化(例如WEAT分数的最大减小、ECT分数的最大增加等)而用多个第二候选向量中的第二候选向量替换第二均值向量。
在一些非限制性实施方案中,可以重复步骤308、310、312和314,直至达到偏置分数的极值(例如收敛于偏置测试统计数据的最大值或最小值)。例如,建模系统104可以重复在步骤308中对第一均值向量的修改、在步骤310中对第一均值向量的替换、在步骤312中对第二均值向量的修改以及在步骤314中对第二均值向量的替换,直至达到偏置分数的极值(例如最大ECT分数、最小WEAT分数等)。
在步骤316中,多个嵌入向量可以沿着在第一均值向量与第二均值向量之间定义的方向被线性地投影(例如在如上文所描述那样被移动之后)。例如,建模系统104可以响应于达到偏置分数的极值,沿着在第一均值向量与第二均值向量之间定义的方向线性地投影多个嵌入向量中的每个嵌入向量,以对多个嵌入向量去偏置。
在一些非限制性实施方案或方面中,建模系统104可以将(去偏置的)嵌入向量传送到欺诈监控系统106和/或决策系统108中的至少一者。
在一些非限制性实施方案或方面中,决策系统108可以使用去偏置的嵌入向量来修改(例如训练、再训练等)用于执行一个或多个计算机驱动的进程的机器学习模型。
在一些非限制性实施方案或方面中,对于包括从文档数据中生成的词嵌入的向量表示的嵌入向量,用于自然语言处理的系统可以修改(例如训练、再训练等)用于基于文本的搜索查询、机器翻译等的机器学习模型。去偏置的词嵌入的使用可以提高所述搜索查询和机器翻译的准确度和效率。
在一些非限制性实施方案或方面中,对于包括从客户交易数据中生成的商家身份嵌入的向量表示的嵌入向量,欺诈监控系统106可以使用已去偏置的多个嵌入向量来修改(例如训练、再训练等)欺诈监控系统106的机器学习模型,以便进一步提高欺诈检测和减轻的准确度和效率。
在一些非限制性实施方案或方面中,对于包括从客户交易数据中生成的商家身份嵌入的向量表示的嵌入向量,推荐系统可以修改(例如训练、再训练等)用于(例如在移动应用程序、网络浏览器、推送通信等中)向用户作出商家推荐的机器学习模型。去偏置的商家身份嵌入的使用可以提高所述商家推荐的准确度和效率。
现在参考图4A至图4D,示出了图3中所示出的方法的示例性具体实现的图。具体实现400的一个或多个步骤可以由建模系统104的一个或多个处理器执行。另外或替代地,具体实现400的一个或多个步骤可以由与建模系统104分离或包括该建模系统的另一系统、另一设备、另一系统群组或另一设备群组(诸如用户设备102、欺诈监控系统106、决策系统108等)来执行(例如完全地、部分地等)。具体实现400的每个步骤可以由相同或不同的处理器执行。
如图4A中所示出,在一些非限制性实施方案或方面中,可以接收多个嵌入向量401、403。(为了清楚起见,每个嵌入向量401、403被示出为点而不是射线。每个点可以表示相应向量的端点)。例如,建模系统104可以接收多个嵌入向量401、403,如本文中所描述。嵌入向量401、403可以包括第一类别中的第一嵌入向量401和第二类别中的第二嵌入向量403,如本文中所描述。在一些非限制性实施方案或方面中,第一类别和第二类别各自可以是偏置类别的相应子类别。例如,第一类别可以包括第一位置,并且第二类别可以包括第二位置,并且位置可以是针对商家嵌入向量的偏置类别。例如,第一类别可以包括第一性别(例如男性),并且第二类别可以包括第二性别(例如女性),并且性别可以是偏置词嵌入向量的类别。
在一些非限制性实施方案或方面中,可以生成至少两个群集。例如,建模系统104可以基于第一嵌入401和第二嵌入向量403来生成两个群集421、423,如本文中所描述。
在一些非限制性实施方案或方面中,可以确定第一群集421的第一均值向量411和/或第二群集423的第二均值向量413。例如,建模系统104可以确定第一嵌入向量401的第一群集421的第一均值向量411和第二嵌入向量403的第二群集423的第二均值向量413,如本文中所描述。在一些非限制性实施方案或方面中,可以基于第一均值向量411和第二均值向量413来确定初始方向431a,如本文中所描述。
在一些非限制性实施方案或方面中,可以通过将第二均值向量413朝向第二群集423的每个(第二)嵌入向量403移动来修改第二均值向量413,如本文中所描述。例如,建模系统104可以修改第二均值向量413,如本文中所描述。
如图4B中所示出,在一些非限制性实施方案或方面中,可以基于(第二)候选向量413a的偏置分数用(第二)候选向量413a替换第二均值向量413,如本文中所描述。例如,建模系统104可以基于多个(第二)候选向量中的(第二)候选向量413a的偏置分数用(第二)候选向量413a替换第二均值向量413,如本文中所描述。在一些非限制性实施方案或方面中,可以基于第一均值向量411和(第二)候选向量413a来确定经修改的方向431b,如本文中所描述。
如图4C中所示出,在一些非限制性实施方案或方面中,可以通过将第一均值向量411朝向第一群集421的每个(第一)嵌入向量401移动来修改第一均值向量411,如本文中所描述。例如,建模系统104可以修改第一均值向量411,如本文中所描述。
如图4D中所示出,在一些非限制性实施方案或方面中,可以基于(第一)候选向量411a的偏置分数用(第一)候选向量411a替换第一均值向量411,如本文中所描述。例如,建模系统104可以基于多个(第一)候选向量中的(第一)候选向量411a的偏置分数用(第一)候选向量411a替换第一均值向量411,如本文中所描述。在一些非限制性实施方案或方面中,可以基于第一候选向量411a和第二候选向量413a来确定另一经修改的方向431c,如本文中所描述。
在一些非限制性实施方案或方面中,可以重复上述过程直至达到偏置分数的极值(例如收敛于偏置测试统计数据的最大值或最小值),如本文中所描述。
现在参考图5,示出了图3中所示出的方法的示例性具体实现500的图。如图5中所示出,具体实现500包括客户数据501、第一商家数据503、第二商家数据505、嵌入数据集511、其他交易数据513、客户嵌入向量521、第一商家嵌入向量523、第二商家嵌入向量525、其他数据527、机器学习模型530、第一预测531和第二预测533。在一些非限制性实施方案或方面中,具体实现500可以由建模系统104实现(例如完全地、部分地等)。另外或替代地,具体实现500可以由与建模系统104分离或包括该建模系统的另一系统、另一设备、另一系统群组或另一设备群组(诸如用户设备102、欺诈监控系统106、决策系统108等)来实现(例如完全地、部分地等)。例如,如图5中所示出,出于说明而非限制的目的,具体实现500可以部分地由建模系统104实现,并且部分地由欺诈监控系统106和/或决策系统108实现。
在一些非限制性实施方案或方面中,客户数据501可以包括与客户(例如客户的支付账户)相关联的交易数据(例如与多个支付交易相关联的支付交易数据)。另外或替代地,第一商家数据503可以包括与第一商家(例如第一餐厅等)相关联的交易数据(例如与多个支付交易相关联的支付交易数据)。另外或替代地,第二商家数据505可以包括与第二商家(例如第二餐厅等)相关联的交易数据(例如与多个支付交易相关联的支付交易数据)。
在一些非限制性实施方案或方面中,嵌入数据集511可以包括基于客户数据501(或其一部分)、第一商家数据503(或其一部分)和/或第二商家数据505(或其一部分)的数据。另外或替代地,其他交易数据513可以包括基于客户数据501(或其一部分)、第一商家数据503(或其一部分)和/或第二商家数据505(或其一部分)的数据。
在一些非限制性实施方案或方面中,客户嵌入向量521、第一商家嵌入向量523和/或第二商家嵌入向量525可以例如由神经网络模型和/或NLP模型来生成,如本文中所描述。另外或替代地,可以修改(例如线性地投影)客户嵌入向量521、第一商家嵌入向量523和/或第二商家嵌入向量525中的至少一者以移除偏置,如本文中所描述。
在一些非限制性实施方案或方面中,客户嵌入向量521、第一商家嵌入向量523和/或第二商家嵌入向量525(例如在被修改/线性地投影以移除偏置之后,如本文中所描述)可以被传送到和/或输入到机器学习模型530,如本文中所描述。例如,机器学习模型530可以包括神经网络、深度神经网络(DNN)、欺诈检测模型、推荐模型(例如商家推荐模型、餐厅推荐模型、产品推荐模型等)等。
在一些非限制性实施方案或方面中,在被传送到机器学习模型530之前或之后(例如在被输入到机器学习模型530之前),客户嵌入向量521、第一商家嵌入向量523和/或第二商家嵌入向量525可以基于其他交易数据513而与其他数据527组合(例如附加到该其他数据和/或与该其他数据连接)。
在一些非限制性实施方案或方面中,机器学习模型530可以基于嵌入向量(例如客户嵌入向量521、第一商家嵌入向量523和/或第二商家嵌入向量525,这些嵌入向量中的每一者可能已被修改/线性地投影以移除偏置,如本文中所描述)来修改(例如训练、再训练等)。另外或替代地,机器学习模型530(例如在已被训练之后)可以基于嵌入向量(例如客户嵌入向量521、第一商家嵌入向量523和/或第二商家嵌入向量525,这些嵌入向量中的每一者可能已被修改/线性地投影以移除偏置,如本文中所描述)来生成至少一个预测。例如,机器学习模型530可以基于嵌入向量来生成指示客户有可能会偏好第一商家(例如第一餐厅)的第一预测531以及/或者指示客户有可能会偏好第二商家(例如第二餐厅)的第二预测533。
图6A至图6C是图3中所示出的过程的示例性具体实现的示例性向量的图形可视化。在每个可视化中,具有相对高维数(例如大于二维,诸如50维或更多维)的嵌入向量被投影到二维空间中,以使得能够将嵌入向量可视化。为了清楚起见,每个嵌入向量被示出为点而不是射线。每个点可以表示相应向量的端点。每个点标记有位置(例如针对洛杉矶(LosAngeles)的“LA”或针对湾区(Bay Area)的“BAY”)以及由相应嵌入向量表示的商家名称(例如餐厅)。圆形点是用于训练的嵌入向量,并且方形点是用于评估的嵌入向量。偏置方向(例如将位置作为偏置类别)由从原点(origin)(例如“原点(Origin)”)出发的线(标记为“位置”)指示。
如图6A中所示出,嵌入向量可以被投影到二维空间中,使得二维空间的水平轴和竖直轴是具有最高方差的维度(例如,如由主成分分析(PCA)所确定)。出于说明而非限制的目的,在此二维空间中,从原点出发的(位置)偏置方向朝向顶部,并且在可视化内稍微指向左侧。出于说明而非限制的目的,针对洛杉矶的商家的嵌入向量一般聚集在可视化的底部部分中,并且针对湾区的商家的嵌入向量一般聚集在可视化的顶部部分中。在一些非限制性实施方案或方面中,每个商家可以是具有七种类型中的一种类型的菜肴的餐厅:中餐、拉面、韩国BBQ、小餐馆、甜甜圈、披萨和汉堡/热狗。然而,如图6A中所示出,具有相同类型菜肴的餐厅最初没有聚集在一起。
如图6B中所示出,二维可视化空间可以旋转,使得偏置方向与水平轴对准。另外或替代地,具有最高方差(例如由PCA所确定)的(较高维)嵌入向量空间的维度可以与竖直轴对准。出于说明而非限制的目的,从原点出发的(位置)偏置方向直接指向可视化的右侧。出于说明而非限制的目的,针对洛杉矶的商家的嵌入向量一般聚集在可视化的左侧部分中,并且针对湾区的商家的嵌入向量一般聚集在可视化的右侧部分中。然而,如图6B中所示出,具有相同类型菜肴的餐厅最初没有聚集在一起。
如图6C中所示出,嵌入向量被修改/线性地投影以移除偏置,如本文中所描述。出于说明而非限制的目的,已移除(位置)偏置(例如标签位置现在与标签原点重叠,因为没有偏置方向)。另外,如图6C中所示出,具有相同类型菜肴的餐厅现在聚集在一起。例如,群集601包括两家甜甜圈餐厅,尽管它们处于不同的位置(洛杉矶和湾区)。群集603包括两家汉堡/热狗餐厅,尽管它们处于不同的位置。群集605包括两家披萨餐厅,尽管它们处于不同的位置。群集607包括两家拉面餐厅,尽管它们处于不同的位置。群集609包括两家小餐馆餐厅,尽管它们处于不同的位置。群集611包括两家中餐厅,尽管它们处于不同的位置。群集613包括两家韩国BBQ餐厅,尽管它们处于不同的位置。
出于说明而非限制的目的,表1示出了与没有任何偏置校正的嵌入(“基线”)以及用于移除偏置的三种不同方法相比针对所公开的方法(“迭代子空间”)的三个偏置分数(WEAT、ECT和自然语言推理(NLI)):对于从词嵌入中移除性别偏置的任务,PCA(“PCA”)、二均值(“2均值”)和分类正常(“分类”)。对于ECT和NLI,较高值可能是期望的(例如较小偏置),并且对于WEAT,较低值可能是期望的(例如较小偏置)。如从表1中可以看出,所公开的方法(“迭代子空间”)优于用于移除偏置的其他方法。
方法 ECT(occ) WEAT(adj) NLI测试
基线 0.773 1.587 0.297
PCA 0.905 1.17 0.346
2均值 0.912 1.102 0.379
分类(1步) 0.872 0.951 0.383
迭代子空间 0.966 0.902 0.386
表1
现在参考图7,图7是根据本公开主题的非限制性实施方案或方面的其中可以实现如本文中所描述的系统、产品和/或方法的示例性环境700的图。如图7中所示出,环境700包括交易服务提供商系统702、发行方系统704、客户设备706、商家系统708、收单方系统710和通信网络712。在一些非限制性实施方案或方面中,用户设备102、建模系统104、欺诈监控系统106和/或决策系统108中的至少一者(例如全部)可以与交易服务提供商系统702相同、类似以及/或者为该交易服务提供商系统的一部分。在一些非限制性实施方案或方面中,用户设备102、建模系统104、欺诈监控系统106和/或决策系统108中的至少一者可以与和交易服务提供商系统702分离或包括该交易服务提供商系统的另一系统、另一设备、另一系统群组或另一设备群组(诸如发行方系统704、客户设备706、商家系统708、收单方系统710等)相同、类似以及/或者为其一部分。例如,交易服务提供商系统702可以包括建模系统104、欺诈监控系统106和决策系统108中的每一者,并且发行方系统704、客户设备706、商家系统708和/或收单方系统710中的至少一者可以包括用户设备102。另外或替代地,交易服务提供商系统702可以包括建模系统104,并且发行方系统704、客户设备706、商家系统708和/或收单方系统710中的至少一者可以包括用户设备102、欺诈监控系统106和/或决策系统108中的一者或多者。另外或替代地,交易服务提供商系统702可以包括建模系统104和欺诈监控系统106,并且发行方系统704、客户设备706、商家系统708和/或收单方系统710中的至少一者可以包括用户设备102和/或决策系统108中的一者或多者。
交易服务提供商系统702可以包括能够经由通信网络712从发行方系统704、客户设备706、商家系统708和/或收单方系统710接收信息以及/或者将信息传送到该发行方系统、该客户设备、该商家系统和/或该收单方系统的一个或多个设备。例如,交易服务提供商系统702可以包括计算设备,诸如服务器(例如交易处理服务器等)、服务器群组和/或其他类似设备。在一些非限制性实施方案或方面中,交易服务提供商系统702可以与本文描述的交易服务提供商相关联。在一些非限制性实施方案或方面中,交易服务提供商系统702可与数据存储设备通信,所述数据存储设备对于交易服务提供商系统702可为本地的或远程的。在一些非限制性实施方案或方面中,交易服务提供商系统702能够从数据存储设备接收信息、将信息存储在数据存储设备中、将信息传送到数据存储设备,或搜索存储在数据存储设备中的信息。
发行方系统704可包括能够经由通信网络712从702、客户设备706、商家系统708和/或收单方系统710接收信息和/或向所述交易服务提供商系统、客户设备、商家系统和/或收单方系统传送信息的一个或多个设备。例如,发行方系统704可以包括计算设备,诸如服务器、服务器群组和/或其他类似设备。在一些非限制性实施方案或方面中,发行方系统704可与如本文所述的发行方机构相关联。例如,发行方系统704可以与向与客户设备706相关联的用户发出信用账户、借记账户、信用卡、借记卡等的发行方机构相关联。
客户设备706可包括能够经由通信网络712从交易服务提供商系统702、发行方系统704、商家系统708和/或收单方系统710接收信息和/或向所述交易服务提供商系统、发行方系统、商家系统和/或收单方系统传送信息的一个或多个设备。另外或替代地,每个客户设备706可以包括能够经由通信网络712、另一网络(例如自组网络、本地网络、专用网络、虚拟专用网络等)和/或任何其他合适的通信技术从其他用户设备706接收信息以及/或者将信息传送到该其他用户设备的设备。例如,客户设备706可包括客户端设备等。在一些非限制性实施方案或方面中,客户设备706能够或不能够经由短程无线通信连接(例如NFC通信连接、RFID通信连接、通信连接、/>通信连接等)(例如从商家系统708或从另一客户设备706)接收信息,以及/或者经由短程无线通信连接(例如向商家系统708)传送信息。
商家系统708可包括能够经由通信网络712从交易服务提供商系统702、发行方系统704、客户设备706和/或收单方系统710接收信息和/或向所述交易服务提供商系统、发行方系统、客户设备和/或收单方系统传送信息的一个或多个设备。商家系统708还可以包括能够经由通信网络712、与客户设备706的通信连接(例如NFC通信连接、RFID通信连接、通信连接、/>通信连接等)等从客户设备706接收信息,以及/或者经由通信网络712、通信连接等向客户设备706传送信息的设备。在一些非限制性实施方案或方面中,商家系统708可以包括计算设备,诸如服务器、服务器群组、客户端设备、客户端设备群组和/或其他类似设备。在一些非限制性实施方案或方面中,商家系统708可与商家相关联,如本文中所描述。在一些非限制性实施方案或方面中,商家系统708可包括一个或多个客户端设备。例如,商家系统708可以包括允许商家将信息传送到交易服务提供商系统702的客户端设备。在一些非限制性实施方案或方面中,商家系统708可以包括能够供商家使用以与用户进行交易的一个或多个设备,例如,计算机、计算机系统和/或外围设备。例如,商家系统708可包括POS设备和/或POS系统。
收单方系统710可包括能够经由通信网络712从交易服务提供商系统702、发行方系统704、客户设备706和/或商家系统708接收信息和/或向所述交易服务提供商系统、发行方系统、客户设备和/或商家系统传送信息的一个或多个设备。例如,收单方系统710可包括计算设备、服务器、服务器群组等。在一些非限制性实施方案或方面中,收单方系统710可与本文描述的收单方相关联。
通信网络712可包括一个或多个有线和/或无线网络。例如,通信网络712可以包括蜂窝网络(例如网络、3G网络、4G网络、5G网络、CDMA网络等)、PLMN、LAN、WAN、MAN、电话网络(例如PSTN)、专用网络(例如与交易服务提供商相关联的专用网络)、自组网络、内联网、互联网、基于光纤的网络、云计算网络等,以及/或者这些或其他类型的网络的组合。
在一些非限制性实施方案或方面中,处理交易可以包括生成和/或传送至少一个交易消息(例如授权请求、授权响应、它们的任何组合等)。例如,客户端设备(例如客户设备706、商家系统708的POS设备等)可以例如通过生成授权请求来发起交易。另外或替代地,客户端设备(例如客户设备706、商家系统708的至少一个设备等)可以传送授权请求。例如,客户设备706可以将授权请求传送到商家系统708和/或支付网关(例如交易服务提供商系统702的支付网关、与交易服务提供商系统702分离的第三方支付网关等)。另外或替代地,商家系统708(例如其POS设备)可以将授权请求传送到收单方系统710和/或支付网关。在一些非限制性实施方案或方面中,收单方系统710和/或支付网关可以将授权请求传送到交易服务提供商系统702和/或发行方系统704。另外或替代地,交易服务提供商系统702可以将授权请求传送到发行方系统704。在一些非限制性实施方案或方面中,发行方系统704可以基于授权请求来确定授权决策(例如授权、拒绝等)。例如,授权请求可以使发行方系统704基于所述授权请求而确定授权决策。在一些非限制性实施方案或方面中,发行方系统704可以基于授权决策生成授权响应。另外或替代地,发行方系统704可以传送授权响应。例如,发行方系统704可以将授权响应传送到交易服务提供商系统702和/或支付网关。另外或替代地,交易服务提供商系统702和/或支付网关可以将授权响应传送到收单方系统710、商家系统708和/或客户设备706。另外或替代地,收单方系统710可以将授权响应传送到商家系统708和/或支付网关。另外或替代地,支付网关可以将授权响应传送到商家系统708和/或客户设备706。另外或替代地,商家系统708可以将授权响应传送到客户设备706。在一些非限制性实施方案或方面中,商家系统708可以(例如从收单方系统710和/或支付网关)接收授权响应。另外或替代地,商家系统708可以基于授权响应来完成交易(例如提供、运送和/或交付与交易相关联的商品和/或服务;履行与交易相关联的订单;它们的任何组合等)。
出于说明的目的,处理交易可以包括基于客户(例如与客户设备706等相关联)的账户标识符以及/或者与交易相关联的交易数据来生成交易消息(例如授权请求等)。例如,商家系统708(例如商家系统708的客户端设备、商家系统708的POS设备等)可以例如通过生成授权请求(例如响应于从客户的便携式金融设备等接收到账户标识符)来发起交易。另外或替代地,商家系统708可以将授权请求传送到收单方系统710。另外或替代地,收单方系统710可以将授权请求传送到交易服务提供商系统702。另外或替代地,交易服务提供商系统702可以将授权请求传送到发行方系统704。发行方系统704可以基于授权请求来确定授权决策(例如授权、拒绝等),并且/或者发行方系统704可以基于授权决策和/或授权请求来生成授权响应。另外或替代地,发行方系统704可以将授权响应传送到交易服务提供商系统702。另外或替代地,交易服务提供商系统702可以将授权响应传送到收单方系统710,所述收单方系统可以将授权响应传送到商家系统708。
出于说明的目的,交易的清算和/或结算可以包括基于客户(例如与客户设备706等相关联)的账户标识符以及/或者与交易相关联的交易数据来生成消息(例如清算消息、结算消息等)。例如,商家系统708可以生成至少一个清算消息(例如多个清算消息、一批清算消息等)。另外或替代地,商家系统708可以将清算消息传送到收单方系统710。另外或替代地,收单方系统710可以将清算消息传送到交易服务提供商系统702。另外或替代地,交易服务提供商系统702可以将清算消息传送到发行方系统704。另外或替代地,发行方系统704可以基于清算消息生成至少一个结算消息。另外或替代地,发行方系统704可以将结算消息和/或资金传送到交易服务提供商系统702(以及/或者与交易服务提供商系统702相关联的结算银行系统)。另外或替代地,交易服务提供商系统702(和/或结算银行系统)可以将结算消息和/或资金传送到收单方系统710,该收单方系统可以将结算消息和/或资金传送到商家系统708(以及/或者与商家系统708相关联的账户)。
作为示例提供图7所示的系统、设备和/或网络的数目和布置。可存在额外系统、设备和/或网络、更少系统、设备和/或网络、不同的系统、设备和/或网络,和/或以与图7所示的那些不同的方式布置的系统、设备和/或网络。此外,可在单个系统和/或设备内实施图7中展示的两个或更多个系统或设备,或图7中展示的单个系统或设备可实施为多个分布式系统或设备。另外或替代地,环境700的一组系统(例如一个或多个系统)和/或一组设备(例如一个或多个设备)可以执行被描述为由环境700的另一组系统或另一组设备执行的一个或多个功能。
尽管为了说明的目的,已基于当前被视为最实用且非限制性的实施方案或方面对本公开进行了详细描述,但应理解,这种细节仅出于该目的,并且本公开不限于所公开的实施方案或方面,而相反是旨在涵盖在所附权利要求的精神和范围内的修改和等效布置。例如,应当理解,本公开预期,尽可能地,任何实施方案或方面的一个或多个特征可以与任何其他实施方案或方面的一个或多个特征组合。

Claims (20)

1.一种计算机实现的方法,包括:
使用至少一个处理器从神经网络模型接收多个嵌入向量;
使用所述至少一个处理器基于所述多个嵌入向量来生成嵌入向量的两个群集,所述两个群集包括预期在第一方向上有偏置的嵌入向量的第一群集以及预期在第二方向上有偏置的第二群集;
使用所述至少一个处理器确定嵌入向量的所述第一群集的第一均值向量和嵌入向量的所述第二群集的第二均值向量;
使用所述至少一个处理器通过以下操作来修改所述第一均值向量:将所述第一均值向量朝向嵌入向量的所述第一群集的每个嵌入向量移动以提供多个第一候选向量,并且沿着在所述第二均值向量与每个第一候选向量之间定义的第一方向线性地投影所述第一群集和所述第二群集两者的所述嵌入向量,以确定与每个第一候选向量相关联的偏置分数;
使用所述至少一个处理器基于所述多个第一候选向量中的第一候选向量的所述偏置分数用所述第一候选向量替换所述第一均值向量;
使用所述至少一个处理器通过以下操作来修改所述第二均值向量:将所述第二均值向量朝向嵌入向量的所述第二群集的每个嵌入向量移动以提供多个第二候选向量,并且沿着在所述第一均值向量与每个第二候选向量之间定义的第二方向线性地投影所述第一群集和所述第二群集两者的所述嵌入向量,以确定与每个第二候选向量相关联的偏置分数;
使用所述至少一个处理器基于所述多个第二候选向量中的第二候选向量的所述偏置分数用所述第二候选向量替换所述第二均值向量;
使用所述至少一个处理器重复对所述第一均值向量的所述修改、对所述第一均值向量的所述替换、对所述第二均值向量的所述修改以及对所述第二均值向量的所述替换,直至达到所述偏置分数的极值;以及
响应于达到所述偏置分数的所述极值,使用所述至少一个处理器沿着在所述第一均值向量与所述第二均值向量之间定义的方向线性地投影所述多个嵌入向量中的每个嵌入向量,以对所述多个嵌入向量去偏置。
2.如权利要求1所述的计算机实现的方法,其中所述多个嵌入向量是词嵌入的向量表示,并且所述神经网络模型包括自然语言处理(NLP)模型。
3.如权利要求1所述的计算机实现的方法,其中所述多个嵌入向量是从客户交易数据中生成的商家身份嵌入的向量表示。
4.如权利要求3所述的计算机实现的方法,还包括使用所述至少一个处理器使用所述多个嵌入向量修改欺诈监控系统的机器学习模型,所述多个嵌入向量已通过使用在所述第一均值向量与所述第二均值向量之间定义的所述方向线性地投影所述多个嵌入向量中的每个嵌入向量而被去偏置。
5.如权利要求1所述的计算机实现的方法,其中根据词嵌入关联测试(WEAT)来计算所述偏置分数。
6.如权利要求1所述的计算机实现的方法,其中根据嵌入一致性测试(ECT)来计算所述偏置分数。
7.如权利要求1所述的计算机实现的方法,还包括:在修改所述第一均值向量和所述第二均值向量之前,使用所述至少一个处理器通过沿着在所述第一均值向量与所述第二均值向量之间定义的初始方向线性地投影所述第一群集和所述第二群集两者的所述嵌入向量来确定初始偏置分数,其中:
用所述多个第一候选向量中的所述第一候选向量对所述第一均值向量的所述替换是基于使所述初始偏置分数与所述第一候选向量的所述偏置分数之间的差最大化;并且
用所述多个第二候选向量中的所述第二候选向量对所述第二均值向量的所述替换是基于使所述初始偏置分数与所述第二候选向量的所述偏置分数之间的差最大化。
8.一种包括服务器的系统,所述服务器包括至少一个处理器,所述服务器被编程为或被配置成:
从神经网络模型接收多个嵌入向量;
基于所述多个嵌入向量来生成嵌入向量的两个群集,所述两个群集包括预期在第一方向上有偏置的嵌入向量的第一群集以及预期在第二方向上有偏置的第二群集;
确定嵌入向量的所述第一群集的第一均值向量和嵌入向量的所述第二群集的第二均值向量;
通过以下操作来修改所述第一均值向量:将所述第一均值向量朝向嵌入向量的所述第一群集的每个嵌入向量移动以提供多个第一候选向量,并且沿着在所述第二均值向量与每个第一候选向量之间定义的第一方向线性地投影所述第一群集和所述第二群集两者的所述嵌入向量,以确定与每个第一候选向量相关联的偏置分数;
基于所述多个第一候选向量中的第一候选向量的所述偏置分数用所述第一候选向量替换所述第一均值向量;
通过以下操作来修改所述第二均值向量:将所述第二均值向量朝向嵌入向量的所述第二群集的每个嵌入向量移动以提供多个第二候选向量,并且沿着在所述第一均值向量与每个第二候选向量之间定义的第二方向线性地投影所述第一群集和所述第二群集两者的所述嵌入向量,以确定与每个第二候选向量相关联的偏置分数;
基于所述多个第二候选向量中的第二候选向量的所述偏置分数用所述第二候选向量替换所述第二均值向量;
重复对所述第一均值向量的所述修改、对所述第一均值向量的所述替换、对所述第二均值向量的所述修改以及对所述第二均值向量的所述替换,直至达到所述偏置分数的极值;以及
响应于达到所述偏置分数的所述极值,沿着在所述第一均值向量与所述第二均值向量之间定义的方向线性地投影所述多个嵌入向量中的每个嵌入向量,以对所述多个嵌入向量去偏置。
9.如权利要求8所述的系统,其中所述多个嵌入向量是词嵌入的向量表示,并且所述神经网络模型包括自然语言处理(NLP)模型。
10.如权利要求8所述的系统,其中所述多个嵌入向量是从客户交易数据中生成的商家身份嵌入的向量表示。
11.如权利要求10所述的系统,其中所述服务器被进一步编程为或被进一步配置成使用所述多个嵌入向量修改欺诈监控系统的机器学习模型,所述多个嵌入向量已通过使用在所述第一均值向量与所述第二均值向量之间定义的所述方向线性地投影所述多个嵌入向量中的每个嵌入向量而被去偏置。
12.如权利要求8所述的系统,其中根据词嵌入关联测试(WEAT)来计算所述偏置分数。
13.如权利要求8所述的系统,其中根据嵌入一致性测试(ECT)来计算所述偏置分数。
14.如权利要求8所述的系统,其中所述服务器被进一步编程为或被进一步配置成:在修改所述第一均值向量和所述第二均值向量之前,通过沿着在所述第一均值向量与所述第二均值向量之间定义的初始方向线性地投影所述第一群集和所述第二群集两者的所述嵌入向量来确定初始偏置分数,并且其中:
用所述多个第一候选向量中的所述第一候选向量对所述第一均值向量的所述替换是基于使所述初始偏置分数与所述第一候选向量的所述偏置分数之间的差最大化;并且
用所述多个第二候选向量中的所述第二候选向量对所述第二均值向量的所述替换是基于使所述初始偏置分数与所述第二候选向量的所述偏置分数之间的差最大化。
15.一种计算机程序产品,包括至少一个非暂时性计算机可读介质,所述至少一个非暂时性计算机可读介质包括程序指令,当由至少一个处理器执行时,所述程序指令使得所述至少一个处理器:
从神经网络模型接收多个嵌入向量;
基于所述多个嵌入向量来生成嵌入向量的两个群集,所述两个群集包括预期在第一方向上有偏置的嵌入向量的第一群集以及预期在第二方向上有偏置的第二群集;
确定嵌入向量的所述第一群集的第一均值向量和嵌入向量的所述第二群集的第二均值向量;
通过以下操作来修改所述第一均值向量:将所述第一均值向量朝向嵌入向量的所述第一群集的每个嵌入向量移动以提供多个第一候选向量,并且沿着在所述第二均值向量与每个第一候选向量之间定义的第一方向线性地投影所述第一群集和所述第二群集两者的所述嵌入向量,以确定与每个第一候选向量相关联的偏置分数;
基于所述多个第一候选向量中的第一候选向量的所述偏置分数用所述第一候选向量替换所述第一均值向量;
通过以下操作来修改所述第二均值向量:将所述第二均值向量朝向嵌入向量的所述第二群集的每个嵌入向量移动以提供多个第二候选向量,并且沿着在所述第一均值向量与每个第二候选向量之间定义的第二方向线性地投影所述第一群集和所述第二群集两者的所述嵌入向量,以确定与每个第二候选向量相关联的偏置分数;
基于所述多个第二候选向量中的第二候选向量的所述偏置分数用所述第二候选向量替换所述第二均值向量;
重复对所述第一均值向量的所述修改、对所述第一均值向量的所述替换、对所述第二均值向量的所述修改以及对所述第二均值向量的所述替换,直至达到所述偏置分数的极值;以及
响应于达到所述偏置分数的所述极值,沿着在所述第一均值向量与所述第二均值向量之间定义的方向线性地投影所述多个嵌入向量中的每个嵌入向量,以对所述多个嵌入向量去偏置。
16.如权利要求15所述的计算机程序产品,其中所述多个嵌入向量是词嵌入的向量表示,并且所述神经网络模型包括自然语言处理(NLP)模型。
17.如权利要求15所述的计算机程序产品,其中所述多个嵌入向量是从客户交易数据中生成的商家身份嵌入的向量表示,并且
其中当由至少一个处理器执行时,所述指令进一步使得所述至少一个处理器使用所述多个嵌入向量修改欺诈监控系统的机器学习模型,所述多个嵌入向量已通过使用在所述第一均值向量与所述第二均值向量之间定义的所述方向线性地投影所述多个嵌入向量中的每个嵌入向量而被去偏置。
18.如权利要求15所述的计算机程序产品,其中根据词嵌入关联测试(WEAT)来计算所述偏置分数。
19.如权利要求15所述的计算机程序产品,其中根据嵌入一致性测试(ECT)来计算所述偏置分数。
20.如权利要求15所述的计算机程序产品,其中当由至少一个处理器执行时,所述指令进一步使得所述至少一个处理器在修改所述第一均值向量和所述第二均值向量之前,通过沿着在所述第一均值向量与所述第二均值向量之间定义的初始方向线性地投影所述第一群集和所述第二群集两者的所述嵌入向量来确定初始偏置分数,并且其中:
用所述多个第一候选向量中的所述第一候选向量对所述第一均值向量的所述替换是基于使所述初始偏置分数与所述第一候选向量的所述偏置分数之间的差最大化;并且
用所述多个第二候选向量中的所述第二候选向量对所述第二均值向量的所述替换是基于使所述初始偏置分数与所述第二候选向量的所述偏置分数之间的差最大化。
CN202280022075.2A 2021-03-30 2022-03-30 用于对机器学习模型的嵌入向量去偏置的系统、方法和计算机程序产品 Pending CN117223017A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163167737P 2021-03-30 2021-03-30
US63/167,737 2021-03-30
PCT/US2022/022474 WO2022212453A1 (en) 2021-03-30 2022-03-30 System, method, and computer program product for debiasing embedding vectors of machine learning models

Publications (1)

Publication Number Publication Date
CN117223017A true CN117223017A (zh) 2023-12-12

Family

ID=81346263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280022075.2A Pending CN117223017A (zh) 2021-03-30 2022-03-30 用于对机器学习模型的嵌入向量去偏置的系统、方法和计算机程序产品

Country Status (3)

Country Link
US (1) US20240160854A1 (zh)
CN (1) CN117223017A (zh)
WO (1) WO2022212453A1 (zh)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10671942B1 (en) * 2019-02-28 2020-06-02 Accenture Global Solutions Limited Tunable bias reduction pipeline

Also Published As

Publication number Publication date
WO2022212453A1 (en) 2022-10-06
US20240160854A1 (en) 2024-05-16

Similar Documents

Publication Publication Date Title
US11694064B1 (en) Method, system, and computer program product for local approximation of a predictive model
US11176606B1 (en) Categorizing financial transactions based on spending patterns
US10354336B1 (en) Categorizing financial transactions based on business preferences
US11847572B2 (en) Method, system, and computer program product for detecting fraudulent interactions
US11711391B2 (en) System, method, and computer program product for user network activity anomaly detection
CN113039567B (zh) 自然语言处理系统
CN112384920A (zh) 具有自动模糊变量检测功能的保护隐私的图压缩
US20230297552A1 (en) System, Method, and Computer Program Product for Monitoring and Improving Data Quality
US20220327514A1 (en) System, method, and computer program product for generating embeddings for objects
US20240086422A1 (en) System, Method, and Computer Program Product for Analyzing a Relational Database Using Embedding Learning
US10713538B2 (en) System and method for learning from the images of raw data
CN117223017A (zh) 用于对机器学习模型的嵌入向量去偏置的系统、方法和计算机程序产品
US20210049619A1 (en) System, Method, and Computer Program Product for Determining a Dormancy Classification of an Account Using Deep Learning Model Architecture
US20240062120A1 (en) System, Method, and Computer Program Product for Multi-Domain Ensemble Learning Based on Multivariate Time Sequence Data
US11861324B2 (en) Method, system, and computer program product for normalizing embeddings for cross-embedding alignment
US20240134599A1 (en) Method, System, and Computer Program Product for Normalizing Embeddings for Cross-Embedding Alignment
US20230351431A1 (en) System, Method, and Computer Program Product for Segmenting Users Using a Machine Learning Model Based on Transaction Data
US20240152499A1 (en) System, Method, and Computer Program Product for Feature Analysis Using an Embedding Tree
CN116964603A (zh) 用于基于多变量时间序列数据的多域集成学习的系统、方法和计算机程序产品
CN116583851A (zh) 使用自动编码器清洗来自未标记数据集的噪声数据的系统、方法和计算机程序产品
US20200286094A1 (en) System, Method, and Apparatus for Determining a Geo-Location of a Transaction
WO2024081177A1 (en) Method, system, and computer program product for providing a framework to improve discrimination of graph features by a graph neural network
CN118020088A (zh) 用于检测商家数据变动的系统、方法和计算机程序产品
CN118119959A (zh) 用于自动剖析异常的方法、系统和计算机程序产品
CN114402323A (zh) 用于生成代码以检取机器学习模型的聚合数据的系统、方法和计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination