CN117546155A - 使用嵌入树进行特征分析的系统、方法和计算机程序产品 - Google Patents

使用嵌入树进行特征分析的系统、方法和计算机程序产品 Download PDF

Info

Publication number
CN117546155A
CN117546155A CN202280041774.1A CN202280041774A CN117546155A CN 117546155 A CN117546155 A CN 117546155A CN 202280041774 A CN202280041774 A CN 202280041774A CN 117546155 A CN117546155 A CN 117546155A
Authority
CN
China
Prior art keywords
embedded
data
tree
embedding
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280041774.1A
Other languages
English (en)
Inventor
郑艳
张维
M·叶
L·王
王俊朋
S·贾因
庄中方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Visa International Service Association
Original Assignee
Visa International Service Association
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Visa International Service Association filed Critical Visa International Service Association
Publication of CN117546155A publication Critical patent/CN117546155A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

提供了一种使用嵌入树来分析与实体相关联的特征的系统,该系统包括至少一个处理器,该至少一个处理器被编程或配置为接收与多个实体相关联的数据集,其中该数据集包括针对多个实体的多个数据实例。处理器能够被编程或配置为基于数据集生成至少两个嵌入,并且基于与实体相关联的特征数据和与至少两个嵌入相关联的嵌入数据来确定用于划分与数据集相关联的至少一个嵌入树的嵌入空间的分割标准。处理器能够被编程或配置为基于分割标准生成具有多个节点的至少一个嵌入树。还提供了方法和计算机程序产品。

Description

使用嵌入树进行特征分析的系统、方法和计算机程序产品
相关申请的交叉引用
本申请要求2021年6月10日提交的美国临时专利申请63/209,113的优先权,该美国临时专利申请的公开内容据此以全文引用的方式并入。
技术领域
本公开总体上涉及用于特征分析的系统、设备、产品、装置和方法,并且在一个特定实施方案中,涉及使用嵌入树进行特征分析的系统、产品和方法。
背景技术
嵌入(例如,神经嵌入)可以指高维向量(诸如特征向量)可以被转换到的相对低维的空间。在一些示例中,嵌入可以包括向量,该向量具有通过在嵌入空间中将语义上相似的输入更紧密地放置在一起来表示输入的语义和句法关系的值。在一些实例中,嵌入可以提高机器学习技术在大输入(诸如表示词语的稀疏向量)上的性能。例如,可以在机器学习模型上学习和重用嵌入。
在一些实例中,嵌入可用于从数据集中学习信息。然而,在一些实例中,可能需要在嵌入可用于从数据集中学习信息之前执行操作。例如,在嵌入可用于从数据集中学习信息之前,可能需要在数据集的顶部上生成伪文档和/或图。此外,可能难以确定关于嵌入所嵌入的特征向量的特征值的信息。
发明内容
因此,公开了使用嵌入树来分析与实体相关联的特征的系统、设备、产品、装置和/或方法。
根据一些非限制性实施方案或方面,提供了一种使用嵌入树来分析与实体相关联的特征的系统。在一些非限制性实施方案或方面中,该系统可包括至少一个处理器,该处理器被编程或配置为接收与多个实体相关联的数据集,其中该数据集包括针对多个实体的多个数据实例,其中每个数据实例包括与实体相关联的特征数据,并且其中该特征数据包括针对实体的多个特征的多个特征值。在一些非限制性实施方案或方面中,至少一个处理器可被进一步编程或配置为基于与多个实体相关联的数据集生成至少两个嵌入,其中至少两个嵌入包括与该至少两个嵌入相关联的嵌入数据,并且其中该嵌入数据包括至少两个嵌入的嵌入向量的值。在一些非限制性实施方案或方面中,至少一个处理器可被进一步编程或配置为基于与实体相关联的特征数据和与至少两个嵌入相关联的嵌入数据来确定用于划分与数据集相关联的至少一个嵌入树的嵌入空间的分割标准。在一些非限制性实施方案或方面中,至少一个处理器被进一步编程或配置为基于分割标准生成具有多个节点的至少一个嵌入树。
在一些非限制性实施方案或方面中,至少一个处理器被进一步编程或配置为基于嵌入树执行异常检测过程。
在一些非限制性实施方案或方面中,至少一个处理器被进一步编程或配置为基于至少一个嵌入树生成针对第一实体的嵌入。
在一些非限制性实施方案或方面中,当确定用于划分与数据集相关联的至少一个嵌入树的嵌入空间的分割标准时,至少一个处理器被编程或配置为确定针对与嵌入数据下的高斯混合模型相关联的特征的贝叶斯信息标准(BIC)分数。
在一些非限制性实施方案或方面中,当确定针对与嵌入数据下的高斯混合模型相关联的特征的BIC分数时,至少一个处理器被编程或配置为对于针对实体的多个特征中的每个特征,将值等于1的每个特征分配到第一组,并且将值等于0的每个特征分配到第二组;使用最大似然估计(MLE)函数确定针对第一组和第二组中的每一组的先验概率分布度量、均值度量和标准偏差度量;以及基于针对第一组的先验概率分布、均值度量和标准偏差度量以及针对第二组的先验概率分布、均值度量和标准偏差度量来确定BIC分数。
在一些非限制性实施方案或方面中,至少一个处理器被进一步编程或配置为显示至少一个嵌入树的图形表示,其中该图形表示包括与至少一个嵌入树的多个节点相关联的多个图形用户界面(GUI)元素,并且其中至少一个嵌入树的每个节点包括GUI元素。
在一些非限制性实施方案或方面中,其中分割标准包括多个特征中的特征,并且其中,当确定用于划分与数据集相关联的至少一个嵌入树的嵌入空间的分割标准时,至少一个处理器被编程或配置为确定多个特征中的特征,以用于划分与数据集相关联的至少一个嵌入树的嵌入空间。
根据一些非限制性实施方案或方面,提供了一种使用嵌入树来分析与实体相关联的特征的方法。在一些非限制性实施方案或方面中,该方法可包括由至少一个处理器接收与多个实体相关联的数据集,其中该数据集包括针对多个实体的多个数据实例,其中每个数据实例包括与实体相关联的特征数据,并且其中该特征数据包括针对实体的多个特征的多个特征值。在一些非限制性实施方案或方面中,该方法还可包括由至少一个处理器基于与多个实体相关联的数据集生成至少两个嵌入,其中至少两个嵌入包括与该至少两个嵌入相关联的嵌入数据,并且其中该嵌入数据包括至少两个嵌入的嵌入向量的值。在一些非限制性实施方案或方面中,该方法还可包括由至少一个处理器基于与实体相关联的特征数据和与至少两个嵌入相关联的嵌入数据来确定用于划分与数据集相关联的至少一个嵌入树的嵌入空间的分割标准。在一些非限制性实施方案或方面中,该方法还可包括由至少一个处理器基于分割标准生成具有多个节点的至少一个嵌入树。
在一些非限制性实施方案或方面中,该方法还可包括由至少一个处理器基于嵌入树执行异常检测过程。
在一些非限制性实施方案或方面中,该方法还可包括由至少一个处理器基于至少一个嵌入树生成针对第一实体的嵌入。
在一些非限制性实施方案或方面中,确定用于划分与数据集相关联的至少一个嵌入树的嵌入空间的分割标准可包括确定针对与嵌入数据下的高斯混合模型相关联的特征的贝叶斯信息标准(BIC)分数。
在一些非限制性实施方案或方面中,确定针对与嵌入数据下的高斯混合模型相关联的特征的BIC分数可包括,对于针对实体的多个特征中的每个特征,将值等于1的每个特征分配到第一组,并且将值等于0的每个特征分配到第二组;使用最大似然估计(MLE)函数确定针对第一组和第二组中的每一组的先验概率分布度量、均值度量和标准偏差度量;以及基于针对第一组的先验概率分布、均值度量和标准偏差度量以及针对第二组的先验概率分布、均值度量和标准偏差度量来确定BIC分数。
在一些非限制性实施方案或方面中,该方法还可包括由至少一个处理器显示至少一个嵌入树的图形表示,其中该图形表示包括与至少一个嵌入树的多个节点相关联的多个GUI元素,并且其中至少一个嵌入树的每个节点包括GUI元素。
在一些非限制性实施方案或方面中,其中分割标准包括多个特征中的特征,并且其中确定用于划分与数据集相关联的至少一个嵌入树的嵌入空间的分割标准可包括确定多个特征中的特征,以用于划分与数据集相关联的至少一个嵌入树的嵌入空间。
根据一些非限制性实施方案或方面,提供了一种使用嵌入树来分析与实体相关联的特征的计算机程序产品。在一些非限制性实施方案或方面中,该计算机程序产品可包括至少一个非暂时性计算机可读介质,该至少一个非暂时性计算机可读介质包括一个或多个指令,该一个或多个指令在由至少一个处理器执行时使得该至少一个处理器:接收与多个实体相关联的数据集,其中该数据集包括针对多个实体的多个数据实例,其中每个数据实例包括与实体相关联的特征数据,并且其中该特征数据包括针对实体的多个特征的多个特征值。在一些非限制性实施方案或方面中,一个或多个指令可进一步使得至少一个处理器基于与多个实体相关联的数据集生成至少两个嵌入,其中至少两个嵌入包括与该至少两个嵌入相关联的嵌入数据,并且其中该嵌入数据包括至少两个嵌入的嵌入向量的值。在一些非限制性实施方案或方面中,一个或多个指令可进一步使得至少一个处理器基于与实体相关联的特征数据和与至少两个嵌入相关联的嵌入数据来确定用于划分与数据集相关联的至少一个嵌入树的嵌入空间的分割标准。在一些非限制性实施方案或方面中,一个或多个指令可进一步使得至少一个处理器基于分割标准生成具有多个节点的至少一个嵌入树。
在一些非限制性实施方案或方面中,一个或多个指令可进一步使得至少一个处理器基于嵌入树执行异常检测过程。
在一些非限制性实施方案或方面中,一个或多个指令可进一步使得至少一个处理器基于至少一个嵌入树生成针对第一实体的嵌入。
在一些非限制性实施方案或方面中,其中,当确定用于划分与数据集相关联的至少一个嵌入树的嵌入空间的分割标准时,一个或多个指令可使得至少一个处理器确定针对与嵌入数据下的高斯混合模型相关联的特征的贝叶斯信息标准(BIC)分数。
在一些非限制性实施方案或方面中,其中,当确定针对与嵌入数据下的高斯混合模型相关联的特征的BIC分数时,一个或多个指令可使得至少一个处理器:对于针对实体的多个特征中的每个特征,将值等于1的每个特征分配到第一组,并且将值等于0的每个特征分配到第二组;使用最大似然估计(MLE)函数确定针对第一组和第二组中的每一组的先验概率分布度量、均值度量和标准偏差度量;以及基于针对第一组的先验概率分布、均值度量和标准偏差度量以及针对第二组的先验概率分布、均值度量和标准偏差度量来确定BIC分数;在一些非限制性实施方案或方面中,其中分割标准包括多个特征中的特征,并且其中,当确定用于划分与数据集相关联的至少一个嵌入树的嵌入空间的分割标准时,一个或多个指令可进一步使得至少一个处理器确定多个特征中的特征,以用于划分与数据集相关联的至少一个嵌入树的嵌入空间。
在一些非限制性实施方案或方面中,一个或多个指令可进一步使得至少一个处理器显示至少一个嵌入树的图形表示,其中该图形表示包括与至少一个嵌入树的多个节点相关联的多个GUI元素,并且其中至少一个嵌入树的每个节点包括GUI元素。
在以下编号条款中阐述另外的实施方案或方面:
条款1:一种使用嵌入树来分析与实体相关联的特征的系统,所述系统包括:至少一个处理器,所述至少一个处理器被编程或配置为:接收与多个实体相关联的数据集,其中所述数据集包括针对多个实体的多个数据实例,其中每个数据实例包括与实体相关联的特征数据,并且其中所述特征数据包括针对所述实体的多个特征的多个特征值;基于与所述多个实体相关联的所述数据集生成至少两个嵌入,其中所述至少两个嵌入包括与所述至少两个嵌入相关联的嵌入数据,并且其中所述嵌入数据包括所述至少两个嵌入的嵌入向量的值;基于与实体相关联的所述特征数据和与所述至少两个嵌入相关联的所述嵌入数据,确定用于划分与所述数据集相关联的至少一个嵌入树的嵌入空间的分割标准;以及基于所述分割标准生成具有多个节点的所述至少一个嵌入树。
条款2:如条款1所述的系统,其中所述至少一个处理器被进一步编程或配置为:基于所述嵌入树执行异常检测过程。
条款3:如条款1或条款2所述的系统,其中所述至少一个处理器被进一步编程或配置为:基于所述至少一个嵌入树生成针对第一实体的嵌入。
条款4:如条款1至3中任一项所述的系统,其中,当确定用于划分与所述数据集相关联的所述至少一个嵌入树的所述嵌入空间的分割标准时,所述至少一个处理器被编程或配置为:确定针对与所述嵌入数据下的高斯混合模型相关联的特征的贝叶斯信息标准(BIC)分数。
条款5:如条款1至4中任一项所述的系统,其中,当确定针对与所述嵌入数据下的高斯混合模型相关联的特征的所述BIC分数时,所述至少一个处理器被编程或配置为:对于针对所述实体的所述多个特征中的每个特征:将值等于1的每个特征分配到第一组,并且将值等于0的每个特征分配到第二组;使用最大似然估计(MLE)函数确定针对所述第一组和所述第二组中的每一组的先验概率分布度量、均值度量和标准偏差度量;以及基于针对所述第一组的所述先验概率分布、所述均值度量和所述标准偏差度量以及针对所述第二组的所述先验概率分布、所述均值度量和所述标准偏差度量来确定所述BIC分数。
条款6:如条款1至5中任一项所述的系统,其中所述至少一个处理器被进一步编程或配置为:显示所述至少一个嵌入树的图形表示,其中所述图形表示包括与所述至少一个嵌入树的所述多个节点相关联的多个图形用户界面元素,并且其中所述至少一个嵌入树的每个节点包括图形用户界面元素。
条款7:如条款1至6中任一项所述的系统,其中所述分割标准包括所述多个特征中的特征,并且其中,当确定用于划分与所述数据集相关联的所述至少一个嵌入树的所述嵌入空间的所述分割标准时,所述至少一个处理器被编程或配置为:确定所述多个特征中的所述特征,以用于划分与所述数据集相关联的所述至少一个嵌入树的所述嵌入空间。
条款8:一种使用嵌入树来分析与实体相关联的特征的方法,所述方法包括:由至少一个处理器接收与多个实体相关联的数据集,其中所述数据集包括针对多个实体的多个数据实例,其中每个数据实例包括与实体相关联的特征数据,并且其中所述特征数据包括针对所述实体的多个特征的多个特征值;由所述至少一个处理器基于与所述多个实体相关联的所述数据集生成至少两个嵌入,其中所述至少两个嵌入包括与所述至少两个嵌入相关联的嵌入数据,并且其中所述嵌入数据包括所述至少两个嵌入的嵌入向量的值;由所述至少一个处理器基于与实体相关联的所述特征数据和与所述至少两个嵌入相关联的所述嵌入数据,确定用于划分与所述数据集相关联的至少一个嵌入树的嵌入空间的分割标准;以及由所述至少一个处理器基于所述分割标准生成具有多个节点的所述至少一个嵌入树。
条款9:如条款8所述的方法,还包括:由所述至少一个处理器基于所述嵌入树执行异常检测过程。
条款10:如条款8或条款9所述的方法,还包括:由所述至少一个处理器基于所述至少一个嵌入树生成针对第一实体的嵌入。
条款11:如条款8至10中任一项所述的方法,其中确定用于划分与所述数据集相关联的所述至少一个嵌入树的所述嵌入空间的分割标准包括:确定针对与所述嵌入数据下的高斯混合模型相关联的特征的贝叶斯信息标准(BIC)分数。
条款12:如条款8至11中任一项所述的方法,其中确定针对与所述嵌入数据下的高斯混合模型相关联的特征的所述BIC分数包括:对于针对所述实体的所述多个特征中的每个特征:将值等于1的每个特征分配到第一组,并且将值等于0的每个特征分配到第二组;使用最大似然估计(MLE)函数确定针对所述第一组和所述第二组中的每一组的先验概率分布度量、均值度量和标准偏差度量;以及基于针对所述第一组的所述先验概率分布、所述均值度量和所述标准偏差度量以及针对所述第二组的所述先验概率分布、所述均值度量和所述标准偏差度量来确定所述BIC分数。
条款13:如条款8至12中任一项所述的方法,还包括:由所述至少一个处理器显示所述至少一个嵌入树的图形表示,其中所述图形表示包括与所述至少一个嵌入树的所述多个节点相关联的多个图形用户界面元素,并且其中所述至少一个嵌入树的每个节点包括图形用户界面元素。
条款14:如条款8至13中任一项所述的方法,其中所述分割标准包括所述多个特征中的特征,并且其中确定用于划分与所述数据集相关联的所述至少一个嵌入树的所述嵌入空间的所述分割标准包括:确定所述多个特征中的所述特征,以用于划分与所述数据集相关联的所述至少一个嵌入树的所述嵌入空间。
条款15:一种使用嵌入树来分析与实体相关联的特征的计算机程序产品,所述计算机程序产品包括至少一个非暂时性计算机可读介质,所述至少一个非暂时性计算机可读介质包括一个或多个指令,所述一个或多个指令在由至少一个处理器执行时使得所述至少一个处理器:接收与多个实体相关联的数据集,其中所述数据集包括针对多个实体的多个数据实例,其中每个数据实例包括与实体相关联的特征数据,并且其中所述特征数据包括针对所述实体的多个特征的多个特征值;基于与所述多个实体相关联的所述数据集生成至少两个嵌入,其中所述至少两个嵌入包括与所述至少两个嵌入相关联的嵌入数据,并且其中所述嵌入数据包括所述至少两个嵌入的嵌入向量的值;基于与实体相关联的所述特征数据和与所述至少两个嵌入相关联的所述嵌入数据,确定用于划分与所述数据集相关联的至少一个嵌入树的嵌入空间的分割标准;以及基于所述分割标准生成具有多个节点的所述至少一个嵌入树。
条款16:如条款15所述的计算机程序产品,其中所述一个或多个指令使得所述至少一个处理器:基于所述嵌入树执行异常检测过程。
条款17:如条款15或条款16所述的计算机程序产品,其中所述一个或多个指令使得所述至少一个处理器:基于所述至少一个嵌入树生成针对第一实体的嵌入。
条款18:如条款15至17中任一项所述的计算机程序产品,其中,当确定用于划分与所述数据集相关联的所述至少一个嵌入树的所述嵌入空间的分割标准时,所述一个或多个指令使得所述至少一个处理器:确定针对与所述嵌入数据下的高斯混合模型相关联的特征的贝叶斯信息标准(BIC)分数。
条款19:如条款15至18中任一项所述的计算机程序产品,其中,当确定针对与所述嵌入数据下的高斯混合模型相关联的特征的所述BIC分数时,所述一个或多个指令使得所述至少一个处理器:对于针对所述实体的所述多个特征中的每个特征:将值等于1的每个特征分配到第一组,并且将值等于0的每个特征分配到第二组;使用最大似然估计(MLE)函数确定针对所述第一组和所述第二组中的每一组的先验概率分布度量、均值度量和标准偏差度量;以及基于针对所述第一组的所述先验概率分布、所述均值度量和所述标准偏差度量以及针对所述第二组的所述先验概率分布、所述均值度量和所述标准偏差度量来确定所述BIC分数;其中所述分割标准包括所述多个特征中的特征,并且其中,当确定用于划分与所述数据集相关联的所述至少一个嵌入树的所述嵌入空间的所述分割标准时,所述一个或多个指令使得所述至少一个处理器:确定所述多个特征中的所述特征,以用于划分与所述数据集相关联的所述至少一个嵌入树的所述嵌入空间。
条款20:如条款15至19中任一项所述的计算机程序产品,其中所述一个或多个指令进一步使得所述至少一个处理器:显示所述至少一个嵌入树的图形表示,其中所述图形表示包括与所述至少一个嵌入树的所述多个节点相关联的多个图形用户界面元素,并且其中所述至少一个嵌入树的每个节点包括图形用户界面元素。
在参考附图考虑以下描述和所附权利要求书时,本公开的这些和其他特征和特性以及相关结构元件和各部分的组合的操作方法和功能以及制造经济性将变得更加显而易见,所有附图形成本说明书的部分,其中相似附图标号在各图中标示对应部分。然而,应明确地理解,图式仅用于说明及描述的目的,且不希望作为对本公开的限制的定义。除非上下文另外明确规定,否则在本说明书和权利要求书中使用时,单数形式“一”和“所述”包括多个指示物。
附图说明
下文参考附图中说明的示例性实施方案更详细地解释本公开的额外优点和细节,在附图中:
图1是根据本公开的原理可以实现本文描述的系统、设备、产品、装置和/或方法的环境的非限制性实施方案或方面的图示;
图2是图1的一个或多个设备的部件的非限制性实施方案或方面的图示;
图3是使用嵌入树来分析与实体相关联的特征的过程的非限制性实施方案或方面的流程图;
图4A至图4H是使用嵌入树来分析与实体相关联的特征的过程的具体实现的非限制性实施方案或方面的图示;并且
图5是使用嵌入树来分析与实体相关联的特征的图形表示的示例性图示。
具体实施方式
下文出于描述的目的,术语“端”、“上”、“下”、“右”、“左”、“竖直”、“水平”、“顶部”、“底部”、“横向”、“纵向”以及其衍生词应涉及本公开如其在附图中的定向。然而,应理解,除了明确指定相反情况之外,本公开可以采用各种替代变化和步骤序列。还应理解,附图中所说明的以及在以下说明中描述的特定设备和过程仅仅是本公开的示例性实施方案或方面。因此,除非另有指示,否则与本文公开的实施方案或实施方案的方面相关联的特定维度和其它物理特性不应被视为限制。
本文所使用的方面、部件、元件、结构、动作、步骤、功能、指令等都不应当被理解为关键的或必要的,除非明确地如此描述。另外,如本文所使用,冠词“一”希望包括一个或多个项目,且可与“一个或多个”和“至少一个”互换使用。此外,如本文所使用,术语“集合”希望包括一个或多个项目(例如,相关项目、不相关项目、相关项目与不相关项目的组合等),并且可与“一个或多个”或“至少一个”互换使用。在希望仅有一个项目的情况下,使用术语“一个”或类似语言。且,如本文所使用,术语“具有”等希望是开放式术语。另外,除非另外明确陈述,否则短语“基于”希望意味着“至少部分地基于”。在适当的情况下,短语“基于”也可以意味着“响应于”。
如本文所使用,术语“通信”和“传送”可指信息(例如,数据、信号、消息、指令、命令等)的接收、接受、发送、迁移、提供等。一个单元(例如,设备、系统、设备或系统的部件、其组合等)与另一单元通信意味着所述一个单元能够直接或间接地从所述另一单元接收信息和/或向所述另一单元传递(例如,发送)信息。这可以指代本质上有线和/或无线的直接或间接连接。另外,尽管所发送的信息可以在第一单元与第二单元之间被修改、处理、中继和/或路由,但这两个单元也可以彼此通信。例如,即使第一单元被动地接收信息且不会主动地将信息发送到第二单元,第一单元也可以与第二单元通信。作为另一示例,如果至少一个中间单元(例如,位于第一单元与第二单元之间的第三单元)处理从第一单元接收的信息且将处理后的信息发送到第二单元,则第一单元可与第二单元通信。在一些非限制性实施方案或方面中,消息可以指包括数据的网络包(例如,数据包等)。
如本文所使用,术语“发行方”、“发行方机构”、“发行方银行”或“支付设备发行方”可指向个体(例如,用户、客户等)提供用于进行例如信用支付交易和/或借记支付交易等支付交易的账户的一个或多个实体。例如,发行方机构可向客户提供唯一地标识与所述客户相关联的一个或多个账户的账户标识符,例如主账号(PAN)。在一些非限制性实施方案或方面中,发行方可以与唯一地标识发行方机构的银行标识号码(BIN)相关联。如本文所使用,“发行方系统”可以指由发行方或代表发行方操作的一个或多个计算机系统,例如执行一个或多个软件应用程序的服务器。例如,发行方系统可以包括用于授权交易的一个或多个授权服务器。
如本文所使用,术语“交易服务提供商”可指向商家或其它实体接收交易授权请求且在一些情况下通过交易服务提供商与发行方机构之间的协议来提供支付保证的实体。例如,交易服务提供商可包括支付网络,诸如American或处理交易的任何其他实体。如本文所使用,术语“交易服务提供商系统”可以指由交易服务提供商或代表交易服务提供商操作的一个或多个计算机系统,例如执行一个或多个软件应用程序的交易服务提供商系统。交易服务提供商系统可以包括一个或多个处理器,并且在一些非限制性实施方案或方面中,可由交易服务提供商或代表交易服务提供商操作。
如本文所使用,术语“商家”可以指基于交易(诸如支付交易)向用户(例如,客户、消费者等)提供商品和/或服务以及/或者对商品和/或服务的访问的一个或多个实体(例如,零售企业的运营者)。如本文所使用,“商家系统”可以指由商家或代表商家操作的一个或多个计算机系统,例如执行一个或多个软件应用程序的服务器。如本文所使用,术语“产品”可以指由商家提供的一种或多种商品和/或服务。
如本文所使用,术语“收单方”可以指由交易服务提供商许可且由交易服务提供商批准以发起涉及与交易服务提供商相关联的支付设备的交易(例如,支付交易)的实体。如本文所使用,术语“收单方系统”也可以指由收单方或代表收单方操作的一个或多个计算机系统、计算机设备等。收单方可发起的交易可以包括支付交易(例如,购买、原始信用交易(OCT)、账户资金交易(AFT)等)。在一些非限制性实施方案或方面中,收单方可以由交易服务提供商授权以与商家或服务提供商签约,发起涉及与交易服务提供商相关联的支付设备的交易。收单方可与支付服务商签合约,以使支付服务商能够向商家提供赞助。收单方可以根据交易服务提供商规章监视支付服务商的合规性。收单方可以对支付服务商进行尽职调查,并确保在与受赞助的商家签约之前发生适当的尽职调查。收单方可能对收单方操作或赞助的所有交易服务提供商计划负责任。收单方可以负责收单方支付服务商、由收单方支付服务商赞助的商家等等的行为。在一些非限制性实施方案或方面中,收单方可以是金融机构,例如银行。
如本文中所使用,术语“支付网关”可以指实体以及/或者由这种实体(例如商家服务提供商、支付服务提供商、支付服务商、与收单方有合约的支付服务商、支付聚合商(payment aggregator)等)或代表这种实体操作的支付处理系统,所述实体向一个或多个商家提供支付服务(例如交易服务提供商支付服务、支付处理服务等)。支付服务可以与由交易服务提供商管理的便携式金融设备的使用相关联。如本文所使用,术语“支付网关系统”可指由支付网关或代表支付网关操作的一个或多个计算机系统、计算机设备、服务器、服务器群组等。
如本文所使用,术语“客户端”和“客户端设备”可以指一个或多个计算设备,例如处理器、存储设备和/或访问可由服务器提供的服务的类似计算机部件。在一些非限制性实施方案或方面中,客户端设备可以包括被配置为与一个或多个网络通信和/或促进交易的计算设备,诸如但不限于一个或多个台式计算机、一个或多个便携式计算机(例如,平板计算机)、一个或多个移动设备(例如,蜂窝电话、智能手机、个人数字助理、可穿戴设备诸如手表、眼镜、透镜和/或衣物等)和/或其他类似设备。此外,术语“客户端”还可指拥有、使用和/或操作客户端设备以促进与另一实体的交易的实体。
如本文所使用,术语“服务器”可以指一个或多个计算设备,例如处理器、存储设备和/或类似计算机部件,所述计算设备在例如因特网或私用网络等网络上与客户端设备和/或其它计算设备通信,且在一些实例中,促进其它服务器和/或客户端设备之间的通信。
如本文所使用,术语“系统”可指一个或多个计算设备或计算设备组合,例如但不限于处理器、服务器、客户端设备、软件应用程序和/或其它类似部件。此外,如本文所使用,对“服务器”或“处理器”的参考可指先前所述的陈述为执行先前步骤或功能的服务器和/或处理器、不同的服务器和/或处理器,和/或服务器和/或处理器的组合。例如,如在说明书和权利要求书中所使用,陈述为执行第一步骤或功能的第一服务器和/或第一处理器可指陈述为执行第二步骤或功能的相同或不同服务器和/或处理器。
本公开的非限制性实施方案或方面涉及使用嵌入树来分析与实体相关联的特征的系统、方法和计算机程序产品。在一些非限制性实施方案或方面中,嵌入分析系统可包括至少一个处理器,该至少一个处理器被编程或配置为接收与多个实体相关联的数据集,其中该数据集包括针对多个实体的多个数据实例,其中每个数据实例包括与实体相关联的特征数据,并且其中该特征数据包括针对实体的多个特征的多个特征值;基于与多个实体相关联的数据集生成至少两个嵌入,其中至少两个嵌入包括与该至少两个嵌入相关联的嵌入数据,并且其中该嵌入数据包括至少两个嵌入的嵌入向量的值;基于与实体相关联的特征数据和与至少两个嵌入相关联的嵌入数据,确定用于划分与数据集相关联的至少一个嵌入树的嵌入空间的分割标准;以及基于该分割标准生成具有多个节点的至少一个嵌入树。在一些非限制性实施方案或方面中,至少一个处理器被进一步编程或配置为基于嵌入树执行异常检测过程。在一些非限制性实施方案或方面中,至少一个处理器被进一步编程或配置为基于至少一个嵌入树生成针对第一实体的嵌入。在一些非限制性实施方案或方面中,当确定用于划分与数据集相关联的至少一个嵌入树的嵌入空间的分割标准时,至少一个处理器被编程或配置为确定针对与嵌入数据下的高斯混合模型相关联的特征的贝叶斯信息标准(BIC)分数。
在一些非限制性实施方案或方面中,当确定针对与嵌入数据下的高斯混合模型相关联的特征的BIC分数时,至少一个处理器被编程或配置为:对于针对实体的多个特征中的每个特征,将值等于1的每个特征分配到第一组,并且将值等于0的每个特征分配到第二组;使用最大似然估计(MLE)函数确定针对第一组和第二组中的每一组的先验概率分布度量、均值度量和标准偏差度量;以及基于针对第一组的先验概率分布、均值度量和标准偏差度量以及针对第二组的先验概率分布、均值度量和标准偏差度量来确定BIC分数。在一些非限制性实施方案或方面中,其中至少一个处理器被进一步编程或配置为显示至少一个嵌入树的图形表示,其中该图形表示包括与至少一个嵌入树的多个节点相关联的多个图形用户界面元素,并且其中至少一个嵌入树的每个节点包括图形用户界面元素。在一些非限制性实施方案或方面中,分割标准包括多个特征中的特征,并且当确定用于划分与数据集相关联的至少一个嵌入树的嵌入空间的分割标准时,至少一个处理器被编程或配置为确定多个特征中的特征,以用于划分与数据集相关联的至少一个嵌入树的嵌入空间。
以这种方式,嵌入分析系统可以允许使用嵌入来从数据集中学习信息,而无需对数据集执行初始操作。另外,嵌入分析系统可以允许确定关于嵌入所嵌入的特征向量的特征值的信息。此外,嵌入分析系统可用于基于特征数据找到最佳嵌入集群,并且新的嵌入可通过嵌入集群的统计信息(例如,均值或中值)获得。
现在参考图1,图1是其中可以实现本文中描述的设备、系统和/或方法的示例环境100的图。如图1所示,环境100包括嵌入分析系统102、交易服务提供商系统104、用户设备106和通信网络108。嵌入分析系统102、交易服务提供商系统104和/或用户设备106可以经由有线连接、无线连接或有线连接和无线连接的组合来互连(例如,建立连接以进行通信)。
嵌入分析系统102可以包括被配置为经由通信网络108与交易服务提供商系统104和/或用户设备106通信的一个或多个设备。例如,嵌入分析系统102可以包括服务器、服务器群组和/或其他类似设备。在一些非限制性实施方案或方面中,嵌入分析系统102可与交易服务提供商系统相关联,如本文中所描述。另外或替代地,嵌入分析系统102可以生成(例如,训练、验证、重新训练等)、存储和/或实现(例如,操作、提供到一个或多个机器学习模型的输入和/或来自一个或多个机器学习模型的输出等)一个或多个机器学习模型。在一些非限制性实施方案或方面中,嵌入分析系统102可以与数据存储设备通信,该数据存储设备对于嵌入分析系统102可以是本地或远程的。在一些非限制性实施方案或方面中,嵌入分析系统102可能能够从数据存储设备接收信息,将信息存储在数据存储设备中、将信息发送到数据存储设备和/或搜索存储在数据存储设备中的信息。
交易服务提供商系统104可以包括被配置为经由通信网络108与嵌入分析系统102和/或用户设备106通信的一个或多个设备。例如,交易服务提供商系统104可以包括计算设备,诸如服务器、服务器群组和/或其他类似设备。在一些非限制性实施方案或方面中,交易服务提供商系统104可与交易服务提供商系统相关联,如本文中所描述。在一些非限制性实施方案或方面中,嵌入分析系统可以是交易服务提供商系统104的部件。
用户设备106可以包括被配置为经由通信网络108与嵌入分析系统102和/或交易服务提供商系统104通信的计算设备。例如,用户设备106可以包括计算设备,诸如台式计算机、便携式计算机(例如,平板计算机、膝上型计算机等)、移动设备(例如,蜂窝电话、智能手机、个人数字助理、可穿戴设备等)和/或其他类似设备。在一些非限制性实施方案或方面中,用户设备106可与用户(例如,操作用户设备106的个体)相关联。
通信网络108可包括一个或多个有线和/或无线网络。例如,通信网络108可以包括蜂窝网络(例如,长期演进网络、第三代(3G)网络、第四代(4G)网络、第五代(5G)网络、码分多址(CDMA)网络等)、公用陆地移动网络(PLMN)、局域网(LAN)、广域网(WAN)、城域网(MAN)、电话网络(例如,公共交换电话网络(PSTN)等)、专用网络、自组网络、内联网、因特网、基于光纤的网络、云计算网络等和/或这些或其他类型的网络中的一些或全部的组合。
提供图1中所示出的设备和网络的数量和布置作为示例。可能存在与图1中所示的那些相比额外的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络,或不同地布置的设备和/或网络。此外,图1中所示的两个或更多个设备可在单个设备内实施,或图1中所示的单个设备可实施为多个分布式设备。另外或替代地,环境100的一组设备(例如,一个或多个设备)可以执行被描述为由环境100的另一组设备执行的一个或多个功能。
现在参考图2,图2是设备200的示例部件的图示。设备200可以对应于嵌入分析系统102(例如,嵌入分析系统102的一个或多个设备)、交易服务提供商系统104(例如,交易服务提供商系统104的一个或多个设备)和/或用户设备106。在一些非限制性实施方案或方面中,嵌入分析系统102、交易服务提供商系统104和/或用户设备106可以包括至少一个设备200和/或设备200的至少一个部件。如图2所示,设备200可以包括总线202、处理器204、存储器206、存储部件208、输入部件210、输出部件212和通信接口214。
总线202可以包括准许设备200的部件之间的通信的部件。在一些非限制性实施方案或方面中,处理器204可以在硬件、软件,或硬件和软件的组合中实施。例如,处理器204可包括处理器(例如,中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)等)、微处理器、数字信号处理器(DSP)和/或可以被编程为执行功能的任何处理部件(例如,现场可编程门阵列(FPGA)、专用集成电路(ASIC)等)。存储器206可以包括随机存取存储器(RAM)、只读存储器(ROM),和/或存储供处理器204使用的信息和/或指令的另一类型的动态或静态存储器(例如,快闪存储器、磁存储器、光学存储器等)。
存储部件208可以存储与设备200的操作和使用相关的信息和/或软件。例如,存储部件208可以包括硬盘(例如,磁盘、光盘、磁光盘、固态磁盘等)、压缩光盘(CD)、数字多功能光盘(DVD)、软盘、盒式磁带、磁带和/或另一类型的计算机可读介质,以及对应的驱动器。
输入部件210可以包括准许设备200诸如经由用户输入(例如,触摸屏显示器、键盘、小键盘、鼠标、按钮、开关、麦克风等)接收信息的部件。另外或替代地,输入部件210可以包括用于感测信息的传感器(例如全球定位系统(GPS)部件、加速度计、陀螺仪、致动器等)。输出部件212可以包括从设备200提供输出信息的部件(例如,显示器、扬声器、一个或多个发光二极管(LED)等)。
通信接口214可以包括使得设备200能够诸如经由有线连接、无线连接或有线连接和无线连接的组合与其他设备通信的收发器类部件(例如收发器、单独的接收器和发射器等)。通信接口214可以准许设备200接收来自另一设备的信息和/或向另一设备提供信息。例如,通信接口214可以包括以太网接口、光学接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、接口、蜂窝网络接口等。
设备200可以执行本文中所描述的一个或多个过程。设备200可基于处理器204执行由诸如存储器206和/或存储部件208的计算机可读介质存储的软件指令来执行这些过程。计算机可读介质(例如,非暂时性计算机可读介质)在本文中定义为非暂时性存储器设备。存储器设备包括位于单个物理存储设备内的存储器空间或跨多个物理存储设备扩展的存储器空间。
软件指令可以经由通信接口214从另一计算机可读介质或从另一设备读取到存储器206和/或存储部件208中。当执行时,存储在存储器206和/或存储部件208中的软件指令可以使处理器204执行本文中所描述的一个或多个过程。另外或替代地,硬接线电路可替代或结合软件指令使用以执行本文中所描述的一个或多个过程。因此,本文所描述的实施方案不限于硬件电路和软件的任何特定组合。
图2中所示的部件的数量和布置作为实例提供。在一些非限制性实施方案或方面中,设备200可以包括额外部件、更少部件、不同部件或以与图2所示的那些不同的方式布置的部件。另外或替代地,设备200的一组部件(例如一个或多个部件)可执行被描述为由设备200的另一组部件执行的一个或多个功能。
现在参考图3,图3是使用嵌入树来分析与实体相关联的特征的过程300的非限制性实施方案或方面的流程图。在一些非限制性实施方案或方面中,过程300的步骤中的一个或多个步骤可以(例如,完全地、部分地等)由嵌入分析系统102(例如,嵌入分析系统102的一个或多个设备)来执行。在一些非限制性实施方案或方面中,过程300的步骤中的一个或多个步骤可以(例如,完全地、部分地等)由与嵌入分析系统102(例如,嵌入分析系统102的一个或多个设备)、交易服务提供商系统104(例如,交易服务提供商系统104的一个或多个设备)和/或用户设备106分离或包括它们的另一设备或一组设备来执行。
如图3所示,在步骤302处,过程300包括接收与多个实体相关联的数据集。例如,嵌入分析系统102可以从交易服务提供商系统104接收与多个实体(例如,多个商家)相关联的数据集。在一些非限制性实施方案或方面中,数据集可以包括针对多个实体的多个数据实例。每个数据实例可以包括与实体相关联的特征数据,并且该特征数据可以包括针对该实体的多个特征的多个特征值。
如图3所示,在步骤304处,过程300可以包括生成多个嵌入。例如,嵌入分析系统102可以基于与多个实体相关联的数据集生成至少两个嵌入。在一些非限制性实施方案或方面中,嵌入分析系统102可以使用机器学习算法基于与多个实体相关联的数据集来生成至少两个嵌入。在一些非限制性实施方案或方面中,机器学习算法可以包括Word2vec。
在一些非限制性实施方案或方面中,多个嵌入可以包括与多个嵌入相关联的嵌入数据,并且嵌入数据可以包括多个嵌入的嵌入向量的值。
如图3所示,在步骤306处,过程300包括确定用于划分至少一个嵌入树的嵌入空间的分割标准。例如,嵌入分析系统102可以确定用于划分至少一个嵌入树的嵌入空间的分割标准。
在一些非限制性实施方案或方面中,嵌入空间可以包括与多个嵌入相关联的嵌入数据。在一些非限制性实施方案或方面中,嵌入分析系统102可以确定针对与嵌入数据下的高斯混合模型相关联的特征的BIC分数。在一些非限制性实施方案或方面中,当确定针对与嵌入数据下的高斯混合模型相关联的特征的BIC分数时,嵌入分析系统102可以:对于针对实体的多个特征中的每个特征,将值等于1的每个特征分配到第一组,并且将值等于0的每个特征分配到第二组;使用最大似然估计(MLE)函数确定针对第一组和第二组中的每一组的先验概率分布度量、均值度量和标准偏差度量;以及基于针对第一组的先验概率分布、均值度量和标准偏差度量以及针对第二组的先验概率分布、均值度量和标准偏差度量来确定BIC分数。
在一些非限制性实施方案或方面中,分割标准可以包括多个特征(例如,针对实体的多个特征)中的特征。在一些非限制性实施方案或方面中,嵌入分析系统102可以确定多个特征中的特征,以用于划分与数据集相关联的至少一个嵌入树的嵌入空间。
如图3所示,在步骤308处,过程300包括生成至少一个嵌入树。例如,嵌入分析系统102可以基于用于划分至少一个嵌入树的嵌入空间的分割标准来生成具有多个节点的至少一个嵌入树。在一些非限制性实施方案或方面中,嵌入分析系统102可以基于至少一个嵌入树生成针对实体的嵌入。例如,嵌入分析系统102可以基于至少一个嵌入树来生成针对未被包括在与数据集相关联的多个实体中的新实体的嵌入。
在一些非限制性实施方案或方面中,嵌入分析系统102可以执行异常检测过程。例如,嵌入分析系统102可以基于至少一个嵌入树来执行异常检测过程。在一些非限制性实施方案或方面中,嵌入分析系统102可以基于异常检测过程来计算针对实体的异常分数。
在一些非限制性实施方案或方面中,嵌入分析系统102可以显示至少一个嵌入树的图形表示。在一些非限制性实施方案或方面中,图形表示可以包括与至少一个嵌入树的多个节点相关联的多个图形用户界面(GUI)元素。在一些非限制性实施方案或方面中,至少一个嵌入树的每个节点可以包括GUI元素。
现在参考图4A至图4H,示出了使用嵌入树来分析与实体相关联的特征的过程的具体实现的非限制性实施方案或方面的图示。
如图4A所示,在步骤410处,嵌入分析系统102可以接收与多个实体相关联的数据集。例如,嵌入分析系统102可以从交易服务提供商系统104接收数据集。在一些非限制性实施方案或方面中,数据集可以包括与多个商家和/或多个客户相关联的数据。
在一些非限制性实施方案或方面中,数据集可以包括针对多个实体(例如,实体1、实体2…实体X)的多个数据实例。在一些非限制性实施方案或方面中,实体(例如,商家)可以在数据集内具有唯一且独立的存在。在一些非限制性实施方案或方面中,多个实体可以与多个商家相关联。例如,数据集可以包括与多个商家相关联的多个数据实例。
在一些非限制性实施方案或方面中,数据集可以包括针对多个实体的多个数据实例。在一些非限制性实施方案或方面中,多个数据实例可以与多个交易相关联。例如,数据集可以包括与针对多个商家的多个交易相关联的多个数据实例。
在一些非限制性实施方案或方面中,每个实体可以具有多个特征(例如,针对实体1的特征F11、F21…Fq1;针对实体2的特征F12、F22…Fq2;以及针对实体X的特征F1x、F2x…Fqx)。在一些非限制性实施方案或方面中,每个数据实例可以包括与实体相关联的特征数据(例如,与实体1相关联的特征F11、F21…Fq1)。在一些非限制性实施方案或方面中,每个数据实例可以包括与实体相关联的特征数据(例如,商家位置、商家类别代码、交易数量等)。
在一些非限制性实施方案或方面中,嵌入分析系统102可以根据Word2Vec方法来组织数据集。例如,当组织数据集以应用Word2Vec方法时,与多个客户相关联的数据可以被视为文档,并且/或者与多个商家相关联的数据可以被视为词语。在一些非限制性实施方案或方面中,与多个商家相关联的数据可以基于与多个客户相关联的数据来分组。
如图4B所示,在步骤412处,嵌入分析系统102可以生成至少两个嵌入。在一些非限制性实施方案或方面中,嵌入分析系统102可以基于机器学习模型生成至少两个嵌入。在一些非限制性实施方案或方面中,嵌入分析系统102可以基于Word2Vec机器学习算法生成至少两个嵌入。在一些非限制性实施方案或方面中,基于Word2Vec机器学习算法的模型可以与连续词袋(CBOW)模型相同或相似。
在一些非限制性实施方案或方面中,至少两个嵌入可以包括与至少两个嵌入相关联的嵌入数据。在一些非限制性实施方案或方面中,嵌入数据可以包括至少两个嵌入的嵌入向量的值。
在一些非限制性实施方案或方面中,嵌入分析系统102可以对与至少两个嵌入相关联的嵌入数据应用主成分分析(PCA),以找到第一特征向量并将至少两个嵌入投影到主方向。
如图4C所示,在步骤414处,嵌入分析系统102可以将与实体相关联的特征数据和/或与至少两个嵌入相关联的嵌入数据输入到用于构建嵌入树的算法(例如,嵌入树算法)中。例如,嵌入分析系统102可以将与实体(例如,实体1)相关联的特征数据和/或与至少两个嵌入相关联的嵌入数据输入到算法中,以构建嵌入树。
在一些非限制性实施方案或方面中,嵌入分析系统102可以提供维度数据集的子集、特征数据的维度和/或一组分割易读性标准,作为到嵌入树算法中的输入。
如图4D所示,在步骤416处,嵌入分析系统102可以将值等于1的每个特征分配到第一组,并且/或者将值等于0的每个特征分配到第二组。例如,对于针对实体(例如,实体1)的多个特征中的每个特征,嵌入分析系统102可以将值为1的每个特征(例如,特征11、特征41)分配到第一组,并且将值为0的每个特征(例如,特征21、特征31、特征q1)分配到第二组。
在一些非限制性实施方案或方面中,值为1的每个特征可以被分配到高斯混合模型的第一高斯组,并且值为0的每个特征可以被分配到高斯混合模型的第二高斯组。
在一些非限制性实施方案或方面中,嵌入分析系统102可以将父节点分割成两个子节点。例如,嵌入分析系统102可以连续地将父节点分割成两个子节点,直到满足终止规范为止。在一些非限制性实施方案或方面中,多个实体的每个特征可以将与至少两个嵌入相关联的嵌入数据分割成两部分。在一些非限制性实施方案或方面中,可以基于分割易读性标准来评估每个特征以确定最佳分割(例如,最佳分割特征),可以选择该最佳分割来将嵌入数据分割成两个子节点。
在一些非限制性实施方案或方面中,嵌入分析系统102可以检查多个特征中的所有特征,以确定最佳分割。在一些非限制性实施方案或方面中,嵌入分析系统102可以选择多个特征中的第一特征。在一些非限制性实施方案或方面中,嵌入分析系统102可以确定第一特征是否满足分割易读性标准。例如,嵌入分析系统102可以基于第一特征是否满足分割易读性标准,将第一特征分配到第一组或第二组。
在一些非限制性实施方案或方面中,如果第一特征不满足分割易读性标准,则嵌入树算法可以返回叶(例如,嵌入树的节点)。在一些非限制性实施方案或方面中,如果第一特征满足分割易读性标准,则嵌入分析系统102可以确定针对第一特征的最佳分割。
在一些非限制性实施方案或方面中,嵌入分析系统102可以选择第二特征。在一些非限制性实施方案或方面中,嵌入分析系统102可以检查多个特征中除第一特征之外的所有剩余特征,以确定第二特征是否满足分割易读性标准。
在一些非限制性实施方案或方面中,如果第二特征不满足分割易读性标准,则嵌入树算法可以返回叶(例如,嵌入树的节点)。在一些非限制性实施方案或方面中,如果第二特征满足分割易读性标准,则嵌入分析系统102可以确定针对第二特征的最佳分割。
在一些非限制性实施方案或方面中,嵌入分析系统102可以选择第三特征。在一些非限制性实施方案或方面中,嵌入分析系统可以检查多个特征中除第一特征和第二特征之外的所有剩余特征,以确定第三特征是否满足分割易读性标准。
在一些非限制性实施方案或方面中,如果第三特征不满足分割易读性标准,则嵌入树算法可以返回叶(例如,嵌入树的节点)。在一些非限制性实施方案或方面中,如果第三特征满足分割易读性标准,则嵌入分析系统102可以确定针对第三特征的最佳分割。
在一些非限制性实施方案或方面中,为了确定最佳分割,可以使用算法来计算针对高斯混合模型的近似BIC。在一些非限制性实施方案或方面中,该算法可以组合每个实体的特征和嵌入来分割嵌入空间。
如图4E所示,在步骤418处,当确定针对与嵌入数据下的高斯混合模型相关联的特征的BIC分数时,嵌入分析系统102可以针对第一组和第二组中的每一组确定一个或多个最大似然估计(MLE)值。在一些非限制性实施方案或方面中,MLE值可以包括先验概率分布度量、均值度量和标准偏差度量在一些非限制性实施方案或方面中,嵌入分析系统102可以针对第一组和第二组中的每一组确定先验概率分布度量均值度量和/或标准偏差度量在一些非限制性实施方案或方面中,嵌入分析系统102可以确定针对第一组(例如,其中j=1的集群)的先验概率分布度量均值度量和标准偏差度量在一些非限制性实施方案或方面中,嵌入分析系统102可以确定针对第一组(例如,其中j=2的集群)的先验概率分布度量均值度量和标准偏差度量
在一些非限制性实施方案或方面中,对于针对实体(例如,实体1)的多个特征中的每个特征,嵌入分析系统102可以针对第一组(例如,特征11、特征41)和第二组(例如,特征21、特征31,特征q1)中的每一组,基于以下等式确定先验概率分布度量其中第一嵌入由s表示,并且其中嵌入的总数由N表示:
在一些非限制性实施方案或方面中,对于针对实体(例如,实体1)的多个特征中的每个特征,嵌入分析系统102可以针对第一组和第二组中的每一组,基于以下等式确定均值度量其中由s表示的第一嵌入包括数据点xi,并且可以具有等于0的特征值fi
在一些非限制性实施方案或方面中,对于针对实体(例如,实体1)的多个特征中的每个特征,嵌入分析系统102可以针对第一组和第二组中的每一组,基于以下等式确定标准偏差度量
在一些非限制性实施方案或方面中,对于第一组(例如,j=1)和/或第二组(例如,j=2),第一嵌入s可以具有特征值fi=0,并且剩余嵌入N-s具有特征值fi=1。在一些非限制性实施方案或方面中,诸如zn,j的z值可以是数据点xn在第一组j=1和/或第二组j=2中的指示符。
在一些非限制性实施方案或方面中,嵌入分析系统102可以执行硬聚类,如以两种方式。在一些非限制性实施方案或方面中,如果数据点xi在组j中,则对于所有j≠j′,zi,j=1且zi,j′=0。
如图4F所示,在步骤420处,嵌入分析系统102可以确定针对嵌入s的对数似然(例如,特征是最佳分割特征的似然)
在一些非限制性实施方案或方面中,可通过根据以下等式对z值求和来获得似然
此外,zi,j=0并且
在一些非限制性实施方案或方面中,用于找到似然的等式可以简化如下:
在一些非限制性实施方案或方面中,嵌入分析系统102可以插入参数的MLE值来使用以下等式确定最大对数似然函数,L=log P(x,μ,σ,ω),其中
在一些非限制性实施方案或方面中,等式可被简化为去掉不是参数的函数的项,如下:
在一些非限制性实施方案或方面中,对于针对实体(例如,实体1)的多个特征中的每个特征,嵌入分析系统102可以基于第一组的先验概率分布度量第一组的均值度量第一组的标准偏差度量第二组的先验概率分布度量第二组的均值度量以及第二组的标准偏差度量通过将对数似然函数进一步简化如下来确定BIC分数:
如图4G所示,在步骤422处,嵌入分析系统102可以根据BIC分数找到最佳分割。例如,嵌入分析系统102可以将嵌入数据和特征数据输入到嵌入BIC算法中,以根据BIC分数找到最佳分割。在一些非限制性实施方案或方面中,BIC算法可用于确定使的值最大化的维度和分割点。
在一些非限制性实施方案或方面中,嵌入分析系统102可以将嵌入数据X∈RP和/或特征数据F∈{0,1}q输入到嵌入BIC算法中。在一些非限制性实施方案或方面中,嵌入BIC算法可以输出中点并且/或者基于该中点输出对应于输入分区X的BIC分数。
在一些非限制性实施方案或方面中,对于第一组j=1和/或第二组j=2,嵌入分析系统102可以使用嵌入BIC算法来确定范围从1到q的针对多个特征k中的每个特征的中点和/或BIC分数。
在一些非限制性实施方案或方面中,可以基于针对第一组j=1的MLE参数以及/或者针对第二组j=2的MLE参数来确定BIC分数。
如图4H所示,在步骤424处,嵌入分析系统102可以生成至少一个嵌入树。在一些非限制性实施方案或方面中,嵌入分析系统102可以基于至少一个嵌入树生成针对第一实体嵌入。
在一些非限制性实施方案或方面中,至少一个嵌入树可以包括多个节点和/或多个分支。在一些非限制性实施方案或方面中,多个节点(例如,叶)可以与多个特征相关联。在一些非限制性实施方案或方面中,多个分支中的一个或多个分支可以连接多个节点中的一个或多个节点。在一些非限制性实施方案或方面中,多个分支可以将父节点连接到至少两个相应的子节点。
在一些非限制性实施方案或方面中,嵌入分析系统102可以基于嵌入树执行异常检测过程。在一些非限制性实施方案或方面中,嵌入分析系统102可以基于异常检测过程自动生成和/或发送通信(例如,警报、消息等)。例如,如果检测到异常,则嵌入分析系统102可以自动生成通信,并且/或者经由通信网络108向交易服务提供商系统104和/或用户设备106发送通信。
现在参考图5,示出了使用嵌入树来分析与实体相关联的特征的图形表示500的示例性图示。在一些非限制性实施方案或方面中,嵌入分析系统102可以生成并显示至少一个嵌入树的图形表示500。在一些非限制性实施方案或方面中,图形表示可以包括与至少一个嵌入树的多个节点相关联的多个GUI元素。在一些非限制性实施方案或方面中,至少一个嵌入树的每个节点可以包括GUI元素。
在一些非限制性实施方案或方面中,嵌入分析系统102可以经由图形表示500显示与嵌入树相关联的数据。在一些非限制性实施方案或方面中,图形表示500可以包括包含多个GUI元素的GUI。在一些非限制性实施方案或方面中,GUI可以是交互式GUI。例如,交互式GUI可以被配置为从用户接收输入和/或选择。在一些非限制性实施方案或方面中,GUI可以被配置为基于从用户接收到的输入和/或选择来更新。
在一些非限制性实施方案或方面中,图形表示500可以包括树视图502。例如,经由图形表示500,嵌入分析系统102可以经由交互式GUI在树视图502中显示与选定嵌入树相关联的数据。在一些非限制性实施方案或方面中,树视图502可以包括多个节点504。在一些非限制性实施方案或方面中,可以基于用于划分嵌入树的嵌入空间的分割标准来确定多个节点504。在一些非限制性实施方案或方面中,多个节点504中的每个节点可以指示针对多个节点504中的每个相应节点的分割条件。
在一些非限制性实施方案或方面中,树视图502可以包括多个分支506。例如,树视图502可以示出选定树的结构和/或数据分布跨多个分支506中的不同分支的分布。在一些非限制性实施方案或方面中,多个分支506中的一个或多个分支可以连接多个节点504中的一个或多个节点。例如,多个分支506中的一个或多个分支可以基于多个节点504中的一个或多个节点的分割条件来连接多个节点504中的一个或多个节点。在一些非限制性实施方案或方面中,多个分支506中的分支的宽度可以指示由多个分支506中的该分支表示的实体的数量。
在一些非限制性实施方案或方面中,图形表示500可以包括降维视图508。例如,经由图形表示500,嵌入分析系统102可以经由交互式GUI在降维视图508中显示与选定嵌入树相关联的数据。在一些非限制性实施方案或方面中,图形表示500可以使用降维算法(例如,t-分布式随机邻域嵌入(t-SNE)、PCA、统一流形逼近和投影(UMAP)等)来生成选定嵌入的二维可视化。在一些非限制性实施方案或方面中,降维视图508可以包括来自多个节点504中的选定节点504的实体510。
在一些非限制性实施方案或方面中,降维视图508可以包括集群512。例如,降维视图508可以基于特征选择来显示集群512。在一些非限制性实施方案或方面中,集群512可以包括多个实体510的子集。在一些非限制性实施方案或方面中,集群512可以指示数据集中的异常。
在一些非限制性实施方案或方面中,图形表示500可以包括数据表视图514。例如,经由图形表示500,嵌入分析系统102可以经由交互式GUI在数据表视图514中显示与选定嵌入树相关联的数据。在一些非限制性实施方案或方面中,数据表视图514可以经由交互式GUI在二维表中显示与多个实体相关联的多个数据特征(例如,原始数据)。在一些非限制性实施方案或方面中,数据表视图514可以包括选定数据实体的数据特征,诸如商家ID、商家类别代码、城市代码、交易数量等。
尽管已出于说明的目的而基于当前被认为是最实用和优选的实施方案或方面详细描述了本公开,但应理解,此类细节仅用于所述目的,并且本公开不限于所公开实施方案或方面,而是相反,旨在涵盖在所附权利要求书的精神和范围内的修改和等效布置。例如,应理解,本发明设想,在可能的范围内,任何实施方案的一个或多个特征可以与任何其他实施方案的一个或多个特征组合。

Claims (20)

1.一种使用嵌入树来分析与实体相关联的特征的系统,所述系统包括:
至少一个处理器,所述至少一个处理器被编程或配置为:
接收与多个实体相关联的数据集,其中所述数据集包括针对所述多个实体的多个数据实例,其中所述多个数据实例中的每个数据实例包括与所述多个实体中的实体相关联的特征数据,并且其中所述特征数据包括针对所述实体的多个特征的多个特征值;
基于与所述多个实体相关联的所述数据集生成至少两个嵌入,其中所述至少两个嵌入包括与所述至少两个嵌入相关联的嵌入数据,并且其中所述嵌入数据包括所述至少两个嵌入的嵌入向量的值;
基于与实体相关联的所述特征数据和与所述至少两个嵌入相关联的所述嵌入数据,确定用于划分与所述数据集相关联的至少一个嵌入树的嵌入空间的分割标准;以及
基于所述分割标准生成具有多个节点的所述至少一个嵌入树。
2.如权利要求1所述的系统,其中所述至少一个处理器被进一步编程或配置为:
基于所述嵌入树执行异常检测过程。
3.如权利要求1所述的系统,其中所述至少一个处理器被进一步编程或配置为:
基于所述至少一个嵌入树生成针对第一实体的嵌入。
4.如权利要求1所述的系统,其中,当确定用于划分与所述数据集相关联的所述至少一个嵌入树的所述嵌入空间的所述分割标准时,所述至少一个处理器被编程或配置为:
确定针对与所述嵌入数据下的高斯混合模型相关联的特征的贝叶斯信息准则(BIC)分数。
5.如权利要求4所述的系统,其中,当确定针对与所述嵌入数据下的所述高斯混合模型相关联的所述特征的所述BIC分数时,所述至少一个处理器被编程或配置为:
对于针对所述实体的所述多个特征中的每个特征:
将值等于1的每个特征分配到第一组,并且将值等于0的每个特征分配到第二组;
使用最大似然估计(MLE)函数确定针对所述第一组和所述第二组中的每一组的先验概率分布度量、均值度量和标准偏差度量;以及
基于针对所述第一组的所述先验概率分布、所述均值度量和所述标准偏差度量以及针对所述第二组的所述先验概率分布、所述均值度量和所述标准偏差度量来确定所述BIC分数。
6.如权利要求1所述的系统,其中所述至少一个处理器被进一步编程或配置为:
显示所述至少一个嵌入树的图形表示,其中所述图形表示包括与所述至少一个嵌入树的所述多个节点相关联的多个图形用户界面(GUI)元素,并且其中所述至少一个嵌入树的每个节点包括GUI元素。
7.如权利要求5所述的系统,其中所述分割标准包括所述多个特征中的特征,并且其中,当确定用于划分与所述数据集相关联的所述至少一个嵌入树的所述嵌入空间的所述分割标准时,所述至少一个处理器被编程或配置为:
确定所述多个特征中的所述特征,以用于划分与所述数据集相关联的所述至少一个嵌入树的所述嵌入空间。
8.一种使用嵌入树来分析与实体相关联的特征的方法,所述方法包括:
由至少一个处理器接收与多个实体相关联的数据集,其中所述数据集包括针对所述多个实体的多个数据实例,其中所述多个数据实例中的每个数据实例包括与所述多个实体中的实体相关联的特征数据,并且其中所述特征数据包括针对所述实体的多个特征的多个特征值;
由所述至少一个处理器基于与所述多个实体相关联的所述数据集生成至少两个嵌入,其中所述至少两个嵌入包括与所述至少两个嵌入相关联的嵌入数据,并且其中所述嵌入数据包括所述至少两个嵌入的嵌入向量的值;
由所述至少一个处理器基于与所述实体相关联的所述特征数据和与所述至少两个嵌入相关联的所述嵌入数据,确定用于划分与所述数据集相关联的至少一个嵌入树的嵌入空间的分割标准;以及
由所述至少一个处理器基于所述分割标准生成具有多个节点的所述至少一个嵌入树。
9.如权利要求8所述的方法,还包括:
由所述至少一个处理器基于所述嵌入树执行异常检测过程。
10.如权利要求8所述的方法,还包括:
由所述至少一个处理器基于所述至少一个嵌入树生成针对第一实体的嵌入。
11.如权利要求8所述的方法,其中确定用于划分与所述数据集相关联的所述至少一个嵌入树的所述嵌入空间的所述分割标准包括:
确定针对与所述嵌入数据下的高斯混合模型相关联的特征的贝叶斯信息准则(BIC)分数。
12.如权利要求11所述的方法,其中确定针对与所述嵌入数据下的所述高斯混合模型相关联的所述特征的所述BIC分数包括:
对于针对所述实体的所述多个特征中的每个特征:
将值等于1的每个特征分配到第一组,并且将值等于0的每个特征分配到第二组;
使用最大似然估计(MLE)函数确定针对所述第一组和所述第二组中的每一组的先验概率分布度量、均值度量和标准偏差度量;以及
基于针对所述第一组的所述先验概率分布、所述均值度量和所述标准偏差度量以及针对所述第二组的所述先验概率分布、所述均值度量和所述标准偏差度量来确定所述BIC分数。
13.如权利要求8所述的方法,还包括:
由所述至少一个处理器显示所述至少一个嵌入树的图形表示,其中所述图形表示包括与所述至少一个嵌入树的所述多个节点相关联的多个图形用户界面(GUI)元素,并且其中所述至少一个嵌入树的每个节点包括GUI元素。
14.如权利要求12所述的方法,其中所述分割标准包括所述多个特征中的特征,并且其中确定用于划分与所述数据集相关联的所述至少一个嵌入树的所述嵌入空间的所述分割标准包括:
确定所述多个特征中的所述特征,以用于划分与所述数据集相关联的所述至少一个嵌入树的所述嵌入空间。
15.一种使用嵌入树来分析与实体相关联的特征的计算机程序产品,所述计算机程序产品包括至少一个非暂时性计算机可读介质,所述至少一个非暂时性计算机可读介质包括一个或多个指令,所述一个或多个指令在由至少一个处理器执行时使得所述至少一个处理器:
接收与多个实体相关联的数据集,其中所述数据集包括针对所述多个实体的多个数据实例,其中所述多个数据实例中的每个数据实例包括与所述多个实体中的实体相关联的特征数据,并且其中所述特征数据包括针对所述多个实体中的所述实体的多个特征的多个特征值;
基于与所述多个实体相关联的所述数据集生成至少两个嵌入,其中所述至少两个嵌入包括与所述至少两个嵌入相关联的嵌入数据,并且其中所述嵌入数据包括所述至少两个嵌入的嵌入向量的值;
基于与所述实体相关联的所述特征数据和与所述至少两个嵌入相关联的所述嵌入数据,确定用于划分与所述数据集相关联的至少一个嵌入树的嵌入空间的分割标准;以及
基于所述分割标准生成具有多个节点的所述至少一个嵌入树。
16.如权利要求15所述的计算机程序产品,其中所述一个或多个指令使得所述至少一个处理器:
基于所述嵌入树执行异常检测过程。
17.如权利要求15所述的计算机程序产品,其中所述一个或多个指令使得所述至少一个处理器:
基于所述至少一个嵌入树生成针对第一实体的嵌入。
18.如权利要求15所述的计算机程序产品,其中,当确定用于划分与所述数据集相关联的所述至少一个嵌入树的所述嵌入空间的所述分割标准时,所述一个或多个指令使得所述至少一个处理器:
确定针对与所述嵌入数据下的高斯混合模型相关联的特征的贝叶斯信息准则(BIC)分数。
19.如权利要求18所述的计算机程序产品,其中,当确定针对与所述嵌入数据下的所述高斯混合模型相关联的所述特征的所述BIC分数时,所述一个或多个指令使得所述至少一个处理器:
对于针对所述实体的所述多个特征中的每个特征:
将值等于1的每个特征分配到第一组,并且将值等于0的每个特征分配到第二组;
使用最大似然估计(MLE)函数确定针对所述第一组和所述第二组中的每一组的先验概率分布度量、均值度量和标准偏差度量;以及
基于针对所述第一组的所述先验概率分布、所述均值度量和所述标准偏差度量以及针对所述第二组的所述先验概率分布、所述均值度量和所述标准偏差度量来确定所述BIC分数;
其中所述分割标准包括所述多个特征中的特征,并且其中,当确定用于划分与所述数据集相关联的所述至少一个嵌入树的所述嵌入空间的所述分割标准时,所述一个或多个指令使得所述至少一个处理器:
确定所述多个特征中的所述特征,以用于划分与所述数据集相关联的所述至少一个嵌入树的所述嵌入空间。
20.如权利要求15所述的计算机程序产品,其中所述一个或多个指令进一步使得所述至少一个处理器:
显示所述至少一个嵌入树的图形表示,其中所述图形表示包括与所述至少一个嵌入树的所述多个节点相关联的多个图形用户界面(GUI)元素,并且其中所述至少一个嵌入树的每个节点包括GUI元素。
CN202280041774.1A 2021-06-10 2022-06-09 使用嵌入树进行特征分析的系统、方法和计算机程序产品 Pending CN117546155A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163209113P 2021-06-10 2021-06-10
US63/209,113 2021-06-10
PCT/US2022/032863 WO2022261345A1 (en) 2021-06-10 2022-06-09 System, method, and computer program product for feature analysis using an embedding tree

Publications (1)

Publication Number Publication Date
CN117546155A true CN117546155A (zh) 2024-02-09

Family

ID=84425557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280041774.1A Pending CN117546155A (zh) 2021-06-10 2022-06-09 使用嵌入树进行特征分析的系统、方法和计算机程序产品

Country Status (3)

Country Link
US (1) US20240152499A1 (zh)
CN (1) CN117546155A (zh)
WO (1) WO2022261345A1 (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007048229A1 (en) * 2005-10-25 2007-05-03 Angoss Software Corporation Strategy trees for data mining
US20140108324A1 (en) * 2012-10-12 2014-04-17 Nec Laboratories America, Inc. Data analytic engine towards the self-management of complex physical systems
US11163831B2 (en) * 2019-02-04 2021-11-02 Adobe Inc. Organizing hierarchical data for improved data locality
US11132403B2 (en) * 2019-09-06 2021-09-28 Digital Asset Capital, Inc. Graph-manipulation based domain-specific execution environment
CN110750704B (zh) * 2019-10-23 2022-03-11 深圳计算科学研究院 一种查询自动补全的方法和装置
CN112233798B (zh) * 2020-12-16 2021-03-19 杭州智策略科技有限公司 基于病理模式与注意力机制的可解释疾病风险分析系统
US20220383145A1 (en) * 2021-05-28 2022-12-01 Google Llc Regression and Time Series Forecasting

Also Published As

Publication number Publication date
US20240152499A1 (en) 2024-05-09
WO2022261345A1 (en) 2022-12-15

Similar Documents

Publication Publication Date Title
CN107247786A (zh) 用于确定相似用户的方法、装置和服务器
KR102307517B1 (ko) 네트워크 기반 상품 추천 방법 및 장치
CN105531701A (zh) 个性化趋势图像搜索建议
CN111292168B (zh) 数据处理方法、装置及设备
WO2019213425A2 (en) System and method including accurate scoring and response
US20240086422A1 (en) System, Method, and Computer Program Product for Analyzing a Relational Database Using Embedding Learning
CN111787042B (zh) 用于推送信息的方法和装置
CN112347147A (zh) 基于用户关联关系的信息推送方法、装置及电子设备
US20240134599A1 (en) Method, System, and Computer Program Product for Normalizing Embeddings for Cross-Embedding Alignment
WO2024072848A1 (en) System, method, and computer program product for determining influence of a node of a graph on a graph neural network
US11809808B2 (en) System, method, and computer program product for classifying service request messages
CN117546155A (zh) 使用嵌入树进行特征分析的系统、方法和计算机程序产品
JP7189277B1 (ja) 提供装置、提供方法、および提供プログラム
US20240220490A1 (en) System, Method, and Computer Program Product for Generating Code to Retrieve Aggregation Data for Machine Learning Models
US20240160854A1 (en) System, Method, and Computer Program Product for Debiasing Embedding Vectors of Machine Learning Models
WO2023183387A1 (en) System, method, and computer program product for dynamic peer group analysis of systematic changes in large scale data
US20240249116A1 (en) System, Method, and Computer Program Product for Adaptive Feature Optimization During Unsupervised Training of Classification Models
WO2023287970A1 (en) System, method, and computer program product for segmentation using knowledge transfer based machine learning techniques
WO2024144757A1 (en) System, method, and computer program product for determining feature importance
WO2024220790A1 (en) Method, system, and computer program product for multi-layer analysis and detection of vulnerability of machine learning models to adversarial attacks
WO2024107183A1 (en) System, method, computer program product for use of machine learning framework in adversarial attack detection
WO2024147996A1 (en) System, method, and computer program product for efficient node embeddings for use in predictive models
CN116562984A (zh) 商品的归并方法、装置、存储介质及计算机设备
WO2024081177A1 (en) Method, system, and computer program product for providing a framework to improve discrimination of graph features by a graph neural network
WO2023009810A2 (en) Method, system, and computer program product for adversarial training and for analyzing the impact of fine-tuning on deep learning models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination