CN116583851A - 使用自动编码器清洗来自未标记数据集的噪声数据的系统、方法和计算机程序产品 - Google Patents
使用自动编码器清洗来自未标记数据集的噪声数据的系统、方法和计算机程序产品 Download PDFInfo
- Publication number
- CN116583851A CN116583851A CN202280006624.7A CN202280006624A CN116583851A CN 116583851 A CN116583851 A CN 116583851A CN 202280006624 A CN202280006624 A CN 202280006624A CN 116583851 A CN116583851 A CN 116583851A
- Authority
- CN
- China
- Prior art keywords
- unlabeled
- samples
- data
- noisy
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000004140 cleaning Methods 0.000 title claims abstract description 31
- 238000004590 computer program Methods 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 88
- 238000005406 washing Methods 0.000 claims description 13
- 230000000670 limiting effect Effects 0.000 description 131
- 238000004891 communication Methods 0.000 description 41
- 238000013475 authorization Methods 0.000 description 40
- 230000008569 process Effects 0.000 description 17
- 230000004044 response Effects 0.000 description 15
- 230000006870 function Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 13
- 238000003860 storage Methods 0.000 description 9
- 230000001413 cellular effect Effects 0.000 description 5
- 238000013500 data storage Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000011010 flushing procedure Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
提供了使用自动编码器清洗来自未标记数据集的噪声数据的方法、系统和计算机程序产品。一种方法包括接收包括噪声样本和其它样本的训练数据。基于所述训练数据训练自动编码器网络以基于所述噪声样本增加第一度量且基于所述其它样本减小第二度量。接收包括未标记样本的未标记数据。由所述自动编码器网络基于所述多个未标记样本生成多个第三输出。对于每个相应未标记样本,基于所述相应未标记样本和相应第三输出确定相应第三度量,并且基于所述相应第三度量和阈值确定将所述相应未标记样本标记为有噪声的还是干净的。清洗确定将标记为有噪声的每个相应未标记样本。
Description
相关申请交叉引用
本申请要求2021年12月8日提交的第63/287,225号美国临时专利申请的权益,所述美国临时专利申请的公开内容特此以全文引用的方式并入本文中。
技术领域
本公开大体上涉及清洗来自未标记数据集的噪声数据,并且在非限制性实施例或方面中,涉及使用自动编码器清洗来自未标记数据集的噪声数据的系统、方法和计算机程序产品。
背景技术
某些机构拥有大量可用于机器学习任务的数据。例如,热门网站可能拥有大量描述使用行为的数据,应用开发人员可能拥有大量用户输入的数据,或者金融机构可能拥有大量与交易相关的数据。此类数据可以输入到机器学习模型中以基于输入训练模型和/或执行任务(例如,分类、预测、评分等)。
然而,如果数据或其一部分是有噪声的,则数据质量将很差。因此,使用此类数据的机器学习模型将表现不佳。例如,此类模型的准确性可能降低,此类模型的训练时间可能增加等。标识和/或清洗数据中的噪声数据样本可能困难。例如,数据可能未被标记和/或以其它方式标识为有噪声的。
发明内容
因此,提供了能克服上文所述的一些或全部缺陷的使用自动编码器清洗来自未标记数据集的噪声数据的改进的系统、方法和计算机程序产品。
根据非限制性实施例或方面,提供一种使用自动编码器清洗来自未标记数据集的噪声数据的计算机实施的方法。一种方法可包括接收训练数据,所述训练数据包括标记为有噪声的多个噪声样本和未标记为有噪声的多个其它样本。可以基于所述训练数据训练自动编码器网络,以基于所述多个噪声样本和由所述自动编码器网络使用所述多个噪声样本生成的多个第一输出增加第一度量,并且基于所述多个其它样本和由所述自动编码器网络使用所述多个其它样本生成的多个第二输出减小第二度量。可以接收包括多个未标记样本的未标记数据。可以由所述自动编码器网络基于所述多个未标记样本生成多个第三输出。对于所述多个未标记样本中的每个相应未标记样本,可以基于所述相应未标记样本和所述多个第三输出中的相应第三输出确定相应第三度量。对于所述多个未标记样本中的每个相应未标记样本,可以基于所述相应第三度量和阈值确定将所述相应未标记样本标记为有噪声的还是干净的。对于确定将标记为有噪声的每个相应未标记样本,可以清洗所述相应未标记样本。
在一些非限制性实施例或方面,所述多个其它样本可包括标记为干净的多个干净样本。
在一些非限制性实施例或方面,所述多个其它样本可包括所述多个未标记样本的子集。
在一些非限制性实施例或方面,所述多个其它样本可包括第二多个未标记样本。所述方法还可包括将所述第二多个未标记样本标记为干净的。
在一些非限制性实施例或方面,所述自动编码器网络可包括最小-最大对抗混合自动编码器。
在一些非限制性实施例或方面,训练所述自动编码器网络可包括训练所述自动编码器网络以最大化所述多个噪声样本与所述多个第一输出之间的差且最小化所述多个其它样本与所述多个第二输出之间的差。
在一些非限制性实施例或方面,训练所述自动编码器网络可包括基于所述多个噪声样本和所述多个第一输出确定负均方误差作为第一损失分量,和/或基于所述多个其它样本和所述多个第二输出确定均方误差作为第二损失分量。
在一些非限制性实施例或方面,所述第三度量可包括每个相应未标记样本与所述相应第三输出之间的差。另外或替代地,确定将所述相应未标记样本标记为有噪声的还是干净的可包括:如果所述差超过所述阈值,则确定将所述相应未标记样本标记为有噪声的;或者如果所述差不超过所述阈值,则确定将所述相应未标记样本标记为干净的。
在一些非限制性实施例或方面,清洗所述相应未标记样本可包括以下中的至少一个:丢弃所述相应未标记样本;设置指示确定将所述相应未标记样本标记为有噪声的相应标志;将所述相应未标记样本标记为有噪声的;传送所述相应未标记样本的基于所述度量的得分;基于确定将每个相应未标记样本标记为有噪声的还是干净的来传送报告数据;和/或其任何组合。
在一些非限制性实施例或方面,所述多个噪声样本可包括多个被拒交易,所述多个其它样本可包括第一多个批准交易,并且所述多个未标记样本可包括第二多个批准交易。在一些非限制性实施例或方面,确定将每个相应未标记样本标记为有噪声的还是干净的可包括确定分别将每个相应未标记样本标记为被拒还是批准。另外或替代地,清洗确定将标记为有噪声的每个相应未标记样本可包括丢弃所述相应未标记样本。在一些非限制性实施例或方面,剩余多个未标记样本包括确定将标记为干净的每个相应未标记样本。
在一些非限制性实施例或方面,所述方法还可包括:重新训练所述自动编码器网络,以基于所述多个被拒交易和由所述自动编码器网络使用所述多个被拒交易生成的另外的多个第一输出增加另外的第一度量,并且基于所述剩余多个未标记样本和由所述自动编码器网络使用所述剩余多个未标记样本生成的另外多个第二输出减小另外的第二度量。
在一些非限制性实施例或方面,接收所述训练数据可包括从用户装置接收所述训练数据。另外或替代地,接收所述未标记数据可包括从所述用户装置接收所述未标记数据。
在一些非限制性实施例或方面,清洗可包括基于确定将每个相应未标记样本标记为有噪声的还是干净的来生成报告数据,和/或将所述报告数据传送到所述用户装置。
根据非限制性实施例或方面,提供一种使用自动编码器清洗来自未标记数据集的噪声数据的系统。一种系统可包括数据清洗系统,所述数据清洗系统被配置成:接收训练数据,所述训练数据包括标记为有噪声的多个噪声样本和未标记为有噪声的多个其它样本;基于所述训练数据训练自动编码器网络,以基于所述多个噪声样本和由所述自动编码器网络使用所述多个噪声样本生成的多个第一输出增加第一度量,并且基于所述多个其它样本和由所述自动编码器网络使用所述多个其它样本生成的多个第二输出减小第二度量;接收包括多个未标记样本的未标记数据;由所述自动编码器网络基于所述多个未标记样本生成多个第三输出;对于所述多个未标记样本中的每个相应未标记样本,基于所述相应未标记样本和所述多个第三输出中的相应第三输出确定相应第三度量;对于所述多个未标记样本中的每个相应未标记样本,基于所述相应第三度量和阈值确定将所述相应未标记样本标记为有噪声的还是干净的;以及对于确定将标记为有噪声的每个相应未标记样本,清洗所述相应未标记样本。
在一些非限制性实施例或方面,所述系统还可包括输入数据数据库,所述输入数据数据库被配置成:从用户装置接收所述训练数据;从所述用户装置接收所述未标记数据;以及将所述训练数据和所述未标记数据传送到所述数据清洗系统。
在一些非限制性实施例或方面,清洗可包括基于确定将每个相应未标记样本标记为有噪声的还是干净的来生成报告数据并传送所述报告数据。
在一些非限制性实施例或方面,所述系统还可包括输出数据数据库,所述输出数据数据库被配置成:从所述数据清洗系统接收所述报告数据;以及将所述报告数据传送到用户装置。
在一些非限制性实施例或方面,所述数据清洗系统可以是交易服务提供商系统的一部分,并且用户装置可以是发行方系统的一部分。
根据非限制性实施例或方面,提供一种使用自动编码器清洗来自未标记数据集的噪声数据的计算机程序产品。一种计算机程序产品可包括至少一个非瞬态计算机可读介质,所述至少一个非瞬态计算机可读介质包括一个或多个指令,所述一个或多个指令在由至少一个处理器执行时使所述至少一个处理器:接收训练数据,所述训练数据包括标记为有噪声的多个噪声样本和未标记为有噪声的多个其它样本;基于所述训练数据训练自动编码器网络,以基于所述多个噪声样本和由所述自动编码器网络使用所述多个噪声样本生成的多个第一输出增加第一度量,并且基于所述多个其它样本和由所述自动编码器网络使用所述多个其它样本生成的多个第二输出减小第二度量;接收包括多个未标记样本的未标记数据;由所述自动编码器网络基于所述多个未标记样本生成多个第三输出;对于所述多个未标记样本中的每个相应未标记样本,基于所述相应未标记样本和所述多个第三输出中的相应第三输出确定相应第三度量;对于所述多个未标记样本中的每个相应未标记样本,基于所述相应第三度量和阈值确定将所述相应未标记样本标记为有噪声的还是干净的;以及对于确定将标记为有噪声的每个相应未标记样本,清洗所述相应未标记样本。
在一些非限制性实施例或方面,所述多个噪声样本可包括多个被拒交易,所述多个其它样本可包括第一多个批准交易,并且所述多个未标记样本可包括第二多个批准交易。
将在以下编号的条款中阐述其它非限制性实施例或方面:
条款1:一种计算机实施的方法,所述方法包括:用至少一个处理器接收训练数据,所述训练数据包括标记为有噪声的多个噪声样本和未标记为有噪声的多个其它样本;用至少一个处理器基于所述训练数据训练自动编码器网络,以基于所述多个噪声样本和由所述自动编码器网络使用所述多个噪声样本生成的多个第一输出增加第一度量,并且基于所述多个其它样本和由所述自动编码器网络使用所述多个其它样本生成的多个第二输出减小第二度量;用至少一个处理器接收包括多个未标记样本的未标记数据;用至少一个处理器由所述自动编码器网络基于所述多个未标记样本生成多个第三输出;对于所述多个未标记样本中的每个相应未标记样本,用至少一个处理器基于所述相应未标记样本和所述多个第三输出中的相应第三输出确定相应第三度量;对于所述多个未标记样本中的每个相应未标记样本,用至少一个处理器基于所述相应第三度量和阈值确定将所述相应未标记样本标记为有噪声的还是干净的;以及对于确定将标记为有噪声的每个相应未标记样本,用至少一个处理器清洗所述相应未标记样本。
条款2:根据条款1所述的方法,其中所述多个其它样本包括标记为干净的多个干净样本。
条款3:根据条款1或2所述的方法,其中所述多个其它样本包括所述多个未标记样本的子集。
条款4:根据条款1至3中任一项所述的方法,其中所述多个其它样本包括第二多个未标记样本,所述方法还包括:用至少一个处理器将所述第二多个未标记样本标记为干净的。
条款5:根据条款l至4中任一项所述的方法,其中所述自动编码器网络包括最小-最大对抗混合自动编码器。
条款6:根据条款l至5中任一项所述的方法,其中训练所述自动编码器网络包括训练所述自动编码器网络以最大化所述多个噪声样本与所述多个第一输出之间的差且最小化所述多个其它样本与所述多个第二输出之间的差。
条款7:根据条款l至6中任一项所述的方法,其中训练所述自动编码器网络包括:基于所述多个噪声样本和所述多个第一输出确定负均方误差作为第一损失分量;以及基于所述多个其它样本和所述多个第二输出确定均方误差作为第二损失分量。
条款8:根据条款1至7中任一项所述的方法,其中所述第三度量包括每个相应未标记样本与所述相应第三输出之间的差,并且其中确定将所述相应未标记样本标记为有噪声的还是干净的包括:如果所述差超过所述阈值,则确定将所述相应未标记样本标记为有噪声的;或者如果所述差不超过所述阈值,则确定将所述相应未标记样本标记为干净的。
条款9:根据条款1至8中任一项所述的方法,其中清洗所述相应未标记样本包括以下中的至少一个:丢弃所述相应未标记样本;设置指示确定将所述相应未标记样本标记为有噪声的相应标志;将所述相应未标记样本标记为有噪声的;传送所述相应未标记样本的基于所述度量的得分;基于确定将每个相应未标记样本标记为有噪声的还是干净的来传送报告数据;或者其任何组合。
条款10:根据条款1至9中任一项所述的方法,其中所述多个噪声样本包括多个被拒交易,所述多个其它样本包括第一多个批准交易,并且所述多个未标记样本包括第二多个批准交易,其中确定将每个相应未标记样本标记为有噪声的还是干净的包括确定分别将每个相应未标记样本标记为被拒还是批准,其中清洗确定将标记为有噪声的每个相应未标记样本包括丢弃所述相应未标记样本,并且其中剩余多个未标记样本包括确定将标记为干净的每个相应未标记样本。
条款11:根据条款l至10中任一项所述的方法,还包括:用至少一个处理器重新训练所述自动编码器网络,以基于所述多个被拒交易和由所述自动编码器网络使用所述多个被拒交易生成的另外的多个第一输出增加另外的第一度量,并且基于所述剩余多个未标记样本和由所述自动编码器网络使用所述剩余多个未标记样本生成的另外多个第二输出减小另外的第二度量。
条款12:根据条款1至11中任一项所述的方法,其中接收所述训练数据包括从用户装置接收所述训练数据;并且其中接收所述未标记数据包括从所述用户装置接收所述未标记数据。
条款13:根据条款l至12中任一项所述的方法,其中清洗包括:基于确定将每个相应未标记样本标记为有噪声的还是干净的来生成报告数据;以及将所述报告数据传送到所述用户装置。
条款14:一种系统包括数据清洗系统,所述数据清洗系统被配置成:接收训练数据,所述训练数据包括标记为有噪声的多个噪声样本和未标记为有噪声的多个其它样本;基于所述训练数据训练自动编码器网络,以基于所述多个噪声样本和由所述自动编码器网络使用所述多个噪声样本生成的多个第一输出增加第一度量,并且基于所述多个其它样本和由所述自动编码器网络使用所述多个其它样本生成的多个第二输出减小第二度量;接收包括多个未标记样本的未标记数据;由所述自动编码器网络基于所述多个未标记样本生成多个第三输出;对于所述多个未标记样本中的每个相应未标记样本,基于所述相应未标记样本和所述多个第三输出中的相应第三输出确定相应第三度量;对于所述多个未标记样本中的每个相应未标记样本,基于所述相应第三度量和阈值确定将所述相应未标记样本标记为有噪声的还是干净的;以及对于确定将标记为有噪声的每个相应未标记样本,清洗所述相应未标记样本。
条款15:根据条款14所述的系统,还包括:输入数据数据库,所述输入数据数据库被配置成:从用户装置接收所述训练数据;从所述用户装置接收所述未标记数据;以及将所述训练数据和所述未标记数据传送到所述数据清洗系统。
条款16:根据条款14或15所述的系统,其中清洗包括基于确定将每个相应未标记样本标记为有噪声的还是干净的来生成报告数据并传送所述报告数据。
条款17:根据条款14至16中任一项所述的系统,还包括:输出数据数据库,所述输出数据数据库被配置成:从所述数据清洗系统接收所述报告数据;以及将所述报告数据传送到用户装置。
条款18:根据条款14至17中任一项所述的系统,其中所述数据清洗系统包括交易服务提供商系统的一部分,并且其中用户装置包括发行方系统的一部分。
条款19:一种计算机程序产品包括至少一个非瞬态计算机可读介质,所述至少一个非瞬态计算机可读介质包括一个或多个指令,所述一个或多个指令在由至少一个处理器执行时使所述至少一个处理器:接收训练数据,所述训练数据包括标记为有噪声的多个噪声样本和未标记为有噪声的多个其它样本;基于所述训练数据训练自动编码器网络,以基于所述多个噪声样本和由所述自动编码器网络使用所述多个噪声样本生成的多个第一输出增加第一度量,并且基于所述多个其它样本和由所述自动编码器网络使用所述多个其它样本生成的多个第二输出减小第二度量;接收包括多个未标记样本的未标记数据;由所述自动编码器网络基于所述多个未标记样本生成多个第三输出;对于所述多个未标记样本中的每个相应未标记样本,基于所述相应未标记样本和所述多个第三输出中的相应第三输出确定相应第三度量;对于所述多个未标记样本中的每个相应未标记样本,基于所述相应第三度量和阈值确定将所述相应未标记样本标记为有噪声的还是干净的;以及对于确定将标记为有噪声的每个相应未标记样本,清洗所述相应未标记样本。
条款20:根据条款19所述的计算机程序产品,其中所述多个噪声样本包括多个被拒交易,所述多个其它样本包括第一多个批准交易,并且所述多个未标记样本包括第二多个批准交易。
在参考附图考虑以下描述和所附权利要求书之后,本公开的这些和其它特征和特性以及相关结构元件和各部分的组合的操作方法和功能以及制造经济性将变得更加显而易见,所有附图形成本说明书的部分,其中相似附图标号在各图中标示对应部分。然而,应明确地理解,各图仅用于说明和描述目的,并非旨在作为本公开的限制的定义。
附图说明
下文参考示意性附图中示出的非限制性、示例性实施例更详细地解释额外优势和细节,在附图中:
图1是根据一些非限制性实施例或方面的使用自动编码器清洗来自未标记数据集的噪声数据的系统的示意图;
图2是根据一些非限制性实施例或方面的使用自动编码器清洗来自未标记数据集的噪声数据的方法的流程图;
图3A是根据一些非限制性实施例或方面的本文所述系统和方法的示例性实施方案的图;
图3B是根据一些非限制性实施例或方面的图3A实施方案的示例性度量的图表;
图4是可以根据一些非限制性实施例或方面实施本文所述的方法、系统和/或计算机程序产品的环境的非限制性实施例或方面的图;以及
图5示出结合非限制性实施例或方面使用的装置的示例组件。
具体实施方式
为了进行以下描述,术语“端”、“上”、“下”、“右”、“左”、“竖直”、“水平”、“顶部”、“底部”、“横向”、“纵向”和其派生词应与实施例在附图中的定向相关。然而,应理解,实施例可采用各种替代变化和步骤顺序,除了明确指定为相反的情况之外。还应理解,附图中所说明的以及在以下说明中描述的特定装置和过程仅仅是本公开的示例性实施例或方面。因此,与本文公开的实施例或方面有关的特定尺寸和其它物理特性不应被视为限制。
本文所使用的方面、组件、元件、结构、动作、步骤、功能、指令等都不应当被理解为关键的或必要的,除非明确地如此描述。并且,如本文所使用,冠词“一”希望包括一个或多个项目,且可与“一个或多个”和“至少一个”互换使用。此外,如本文所使用,术语“集”希望包括一个或多个项目(例如,相关项目、不相关项目、相关项目与不相关项目的组合等),并且可与“一个或多个”或“至少一个”互换使用。在希望仅有一个项目的情况下,使用术语“一个”或类似语言。且,如本文所使用,术语“具有”等希望是开放式术语。另外,除非另外明确陈述,否则短语“基于”希望意味着“至少部分地基于”。
如本文所使用,术语“收单方机构”可指由交易服务提供商许可和/或批准以使用与交易服务提供商相关联的支付装置发起交易(例如,支付交易)的实体。收单方机构可发起的交易可包括支付交易(例如,购买、原始信用交易(OCT)、账户资金交易(AFT)等)。在一些非限制性实施例或方面,收单方机构可以是金融机构,例如银行。如本文所使用,术语“收单方系统”可以指由收单方机构或代表收单方机构操作的一个或多个计算装置,例如执行一个或多个软件应用程序的服务器计算机。
如本文所使用,术语“账户标识符”可包括一个或多个主账号(PAN)、令牌或与顾客账户相关联的其它标识符。术语“令牌”可指用作诸如PAN等原始账户标识符的替代或替换标识符的标识符。账户标识符可以是字母数字或字符和/或符号的任何组合。令牌可与一个或多个数据结构(例如,一个或多个数据库等)中的PAN或其它原始账户标识符相关联,使得令牌可用于进行交易而无需直接使用原始账户标识符。在一些实例中,例如PAN等原始账户标识符可以与用于不同个人或目的的多个令牌相关联。
如本文中所使用,术语“通信”可以指数据(例如,信息、信号、消息、指令、命令等)的接收、接纳、发送、传送、提供等。一个单元(例如,装置、系统、装置或系统的组件、其组合等)与另一单元通信意味着所述一个单元能够直接或间接地从所述另一单元接收信息和/或向所述另一单元发送信息。这可以指代在本质上有线和/或无线的直接或间接连接(例如,直接通信连接、间接通信连接等)。另外,尽管所发送的信息可以在第一单元与第二单元之间被修改、处理、中继和/或路由,但这两个单元也可以彼此通信。例如,即使第一单元被动地接收信息且不会主动地将信息发送到第二单元,第一单元也可以与第二单元通信。作为另一示例,如果至少一个中间单元处理从第一单元接收的信息且将处理后的信息传送到第二单元,那么第一单元可以与第二单元通信。
如本文中所使用,术语“计算装置”可以指被配置成处理数据的一个或多个电子装置。在一些示例中,计算装置可包括接收、处理和输出数据的必要组件,例如处理器、显示器、存储器、输入装置、网络接口等。计算装置可以是移动装置。作为示例,移动装置可包括蜂窝电话(例如,智能手机或标准蜂窝电话)、便携式计算机、可穿戴装置(例如,手表、眼镜、镜片、服装等)、个人数字助理(PDA),和/或其它类似装置。计算装置还可以是台式计算机或其它形式的非移动计算机。
如本文所使用,术语“电子钱包”和“电子钱包应用程序”是指被配置为发起和/或进行支付交易的一个或多个电子装置和/或软件应用程序。例如,电子钱包可包括执行电子钱包应用程序的移动装置,并且还可包括用于维护交易数据并将交易数据提供给移动装置的服务器侧软件和/或数据库。“电子钱包提供商”可包括为客户提供和/或维护电子钱包的实体,例如GoogleAndroid/>Apple/>Samsung/>和/或其它类似电子支付系统。在一些非限制性示例中,发行方银行可是电子钱包提供商。
如本文所使用,术语“发行方机构”可以指代对顾客提供用于进行交易(例如,支付交易),例如发起信用和/或借记支付的账户的一个或多个实体,例如银行。例如,发行方机构可向客户提供唯一地标识与所述客户相关联的一个或多个账户的账户标识符,例如PAN。账户标识符可以在例如实体金融工具(例如,支付卡)等便携式金融装置上实施,和/或可以是电子的且用于电子支付。术语“发行方系统”指由发行方机构或代表发行方机构操作的一个或多个计算机装置,例如执行一个或多个软件应用程序的服务器计算机。例如,发行方系统可包括用于授权交易的一个或多个授权服务器。
如本文所使用,术语“商家”可以指基于例如支付交易的交易向客户提供商品和/或服务或者对商品和/或服务的访问的个人或实体。术语“商家”或“商家系统”还可以指由商家或代表商家操作的一个或多个计算机系统,例如执行一个或多个软件应用程序的服务器计算机。如本文所使用,“销售点(POS)系统”可指由商家用来与客户进行支付交易的一个或多个计算机和/或外围装置,包括一个或多个读卡器、近场通信(NFC)接收器、射频标识(RFID)接收器和/或其它非接触收发器或接收器、基于接触的接收器、支付终端、计算机、服务器、输入装置和/或可用于发起支付交易的其它类似装置。
如本文所使用,术语“支付装置”可以指便携式金融装置、电子支付装置、支付卡(例如,信用卡或借记卡)、礼品卡、智能卡、智能介质、工资卡、医疗保健卡、腕带、含有账户信息的机器可读介质、钥匙链装置或吊坠、RFID应答器、零售商折扣或会员卡、蜂窝电话、电子钱包移动应用程序、PDA、寻呼机、安全卡、计算装置、访问卡、无线终端、应答器等。在一些非限制性实施例或方面,支付装置可包括用以存储信息(例如,账户标识符、账户持有人姓名等)的易失性或非易失性存储器。
如本文所使用,术语“支付网关”可指实体和/或由此类实体或代表此类实体操作的支付处理系统,所述实体(例如,商家服务提供商、支付服务提供商、支付服务商、与收单方有合约的支付服务商、支付集合人(payment aggregator)等)将支付服务(例如,交易服务提供商支付服务、支付处理服务等)提供到一个或多个商家。支付服务可以与由交易服务提供商管理的便携式金融装置的使用相关联。如本文所使用,术语“支付网关系统”可以指由支付网关或代表支付网关操作的一个或多个计算机系统、计算机装置、服务器、服务器群组等。
如本文所使用,术语“服务器”可以指或包括由互联网等网络环境中的多方操作或促进所述多方的通信和处理的一个或多个计算装置,但应了解,可通过一个或多个公共或专用网络环境促进通信,并且可能有各种其它布置。此外,在网络环境中直接或间接通信的多个计算装置(例如服务器、销售点(POS)装置、移动装置等可构成“系统”。如本文中所使用,对“服务器”或“处理器”的提及可以指陈述为执行先前步骤或功能的先前所述服务器和/或处理器、不同的服务器和/或处理器,和/或服务器和/或处理器的组合。例如,如在说明书和权利要求书中所使用,陈述为实施第一步骤或功能的第一服务器和/或第一处理器可指代陈述为实施第二步骤或功能的相同或不同服务器和/或处理器。
如本文所使用,术语“交易服务提供商”可指从商家或其它实体接收交易授权请求且在一些情况下通过交易服务提供商与发行方机构之间的协议来提供支付保证的实体。例如,交易服务提供商可包括例如之类的支付网络,或处理交易的任何其它实体。术语“交易处理系统”可指由交易服务提供商或代表交易服务提供商操作的一个或多个计算机系统,例如执行一个或多个软件应用程序的交易处理服务器。交易处理服务器可包括一个或多个处理器,并且在一些非限制性实施例或方面,可以由交易服务提供商或代表交易服务提供商操作。
所公开的主题的非限制性实施例或方面涉及使用自动编码器清洗来自未标记数据集的噪声数据的系统、方法和计算机程序产品。例如,所公开的主题的非限制性实施例或方面提供使用包括标记为有噪声的一些噪声样本和未标记为有噪声的其它样本的训练数据训练自动编码器网络(例如,最小-最大对抗混合自动编码器),以基于噪声样本和基于噪声样本生成的第一输出(例如,噪声样本与第一输出之间的差)增加第一度量,并且基于其它样本和基于其它样本生成的第二输出(例如,其它样本与第二输出之间的差)减小第二度量,使得当接收到未标记数据时,经过训练的自动编码器网络可以基于未标记数据生成第三输出,并且基于第三度量(例如,每个相应未标记样本与基于每个相应未标记样本的相应第三输出之间的差)确定每个未标记样本是否是有噪声的。此类实施例或方面提供了能够将未标记样本标识为有噪声的(或清洗)和/或能够清洗噪声样本的技术和系统。因此,由于对来自数据的噪声样本的标识和/或清洗,改进了数据质量。另外,通过使用已清洗数据,改进了下游机器学习模型的性能(例如,可以提高准确性、可以减少训练时间等)。此外,最小-最大对抗混合自动编码器能实现传统自动编码器无法实现的功能。例如,最小-最大对抗混合自动编码器可以实现将数据标记为有噪声的(或干净的)、评估数据质量和/或清洗数据。
出于说明的目的,在以下描述中,虽然本发明所公开的主题是关于使用例如用于交易数据和手写样本数据的自动编码器清洗来自未标记数据集的噪声数据的系统、方法和计算机程序产品而描述的,但本领域的技术人员将认识到,所公开的主题不限于说明性实施例。例如,本文所述的系统、方法和计算机程序产品可以与各种设置一起使用,例如使用用于任何合适类型的数据的自动编码器清洗来自未标记数据集的噪声数据,例如使用网站上的行为的数据描述、用户输入到应用程序中的数据输入等等。
图1描绘根据一些非限制性实施例或方面的使用自动编码器清洗来自未标记数据集的噪声数据的系统100。如图l所示,系统100包括数据清洗系统102、用户装置104、输入数据数据库106和输出数据数据库108。
数据清洗系统102可包括能够从用户装置104、输入数据数据库106和/或输出数据数据库l 08接收信息和/或将信息传送到所述用户装置、输入数据数据库和/或输出数据数据库的一个或多个装置。例如,数据清洗系统102可包括计算装置,例如服务器、服务器群组和/或其它类似装置。在一些非限制性实施例或方面,数据清洗系统102可以与数据存储装置通信,所述数据存储装置对于数据清洗系统102可以是本地或远程的。在一些非限制性实施例或方面,数据清洗系统102可能够从数据存储装置接收信息,将信息存储在数据存储装置中,将信息传送到数据存储装置,或搜索存储在数据存储装置中的信息。在一些非限制性实施例或方面,数据清洗系统102可与如本文所述的交易服务提供商相关联。
用户装置104可包括能够从数据清洗系统102、输入数据数据库106和输出数据数据库108接收信息和/或将信息传送到所述数据清洗系统、输入数据数据库和输出数据数据库的一个或多个装置。例如,用户装置104可包括计算装置,例如移动装置、便携式计算机、台式计算机和/或其它类似装置。
输入数据数据库106可包括能够从数据清洗系统102、用户装置104和/或输出数据数据库108接收信息和/或将信息传送到所述数据清洗系统、用户装置和/或输出数据数据库的一个或多个装置。例如,输入数据数据库106可包括计算装置,例如服务器、服务器群组和/或其它类似装置。在一些非限制性实施例或方面,输入数据数据库106可以与数据存储装置通信,所述数据存储装置对于输入数据数据库106可以是本地或远程的。在一些非限制性实施例或方面,输入数据数据库106可能够从数据存储装置接收信息,将信息存储在数据存储装置中,将信息传送到数据存储装置,或搜索存储在数据存储装置中的信息。在一些非限制性实施例或方面,输入数据数据库106可以与数据清洗系统102相关联(例如,可以是其一部分)。
输出数据数据库108可包括能够从数据清洗系统102、用户装置104和/或输入数据数据库106接收信息和/或将信息传送到所述数据清洗系统、用户装置和/或输入数据数据库的一个或多个装置。例如,输出数据数据库108可包括计算装置,例如服务器、服务器群组和/或其它类似装置。在一些非限制性实施例或方面,输出数据数据库108可以与数据存储装置通信,所述数据存储装置对于输出数据数据库108可以是本地或远程的。在一些非限制性实施例或方面,输出数据数据库108可能够从数据存储装置接收信息,将信息存储在数据存储装置中,将信息传送到数据存储装置,或搜索存储在数据存储装置中的信息。在一些非限制性实施例或方面,输出数据数据库108可以与数据清洗系统102相关联(例如,可以是其一部分)。另外或替代地,在一些非限制性实施例或方面,输入数据数据库106和输出数据数据库108可以在单个数据库中实施。
在一些非限制性实施例或方面,数据清洗系统102可包括自动编码器网络120。例如,自动编码器网络120可包括编码器网络130、潜在层140和解码器网络150。在一些非限制性实施例,编码器网络130可包括输入层132和/或至少一个隐藏层134。另外或替代地,解码器网络150可包括至少一个隐藏层152和输出层154。在一些非限制性实施例或方面,数据清洗系统102可(例如,从输入数据数据库106和/或用户装置104)接收数据,所述数据可包括噪声样本111和/或干净样本112。可以将数据(例如,噪声样本111和/或干净样本112)输入到自动编码器网络120中以生成输出,所述输出可分别包括噪声重建样本113和/或干净重建样本114。例如,在训练自动编码器网络120之后,如本文所述,可以增加(例如,最大化)基于噪声样本11l和噪声重建样本113(例如,噪声样本与噪声重建样本之间的差)的度量,和/或可以减小(例如,最小化)基于干净样本112和干净重建样本114(例如,干净样本与干净重建样本之间的差)的度量。如本文所述,基于相应度量,数据清洗系统102可确定每个相应输入样本(例如,噪声样本111或干净样本112)是有噪声的还是干净的。另外或替代地,如本文所述,数据清洗系统102可以清洗每个噪声样本11l(例如,丢弃每个噪声样本、设置与每个噪声样本相关联的标志、标记每个噪声样本、对每个噪声样本评分、报告每个噪声样本等)。在一些非限制性实施例或方面,数据清洗系统102可以传送(例如,传送到输出数据数据库108和/或用户装置104)输出(噪声重建样本113和/或干净重建样本114)、已清洗数据(例如,在丢弃噪声样本111之后的干净样本112)、基于确定每个输入样本是有噪声的还是干净的报告和/或其任何组合。
作为示例提供图1所示的系统和装置的数目和布置。可存在额外系统和/或装置、更少系统和/或装置、不同的系统和/或装置,和/或以与图1所示的那些不同的方式布置的系统和/或装置。此外,可在单个系统和/或装置内实施图l中展示的两个或更多个系统或装置,或图l中展示的单个系统或装置可实施为多个分布式系统或装置。另外或替代地,系统100的一组系统(例如,一个或多个系统)或一组装置(例如,一个或多个装置)可以执行被描述为由系统100的另一组系统或另一组装置执行的一个或多个功能。
现在参考图2,示出根据一些非限制性实施例或方面的使用自动编码器清洗来自未标记数据集的噪声数据的过程200。图2中所示的步骤仅用于实例目的。应了解,在非限制性实施例或方面,可使用附近的、更少的、不同的和/或不同次序的步骤。在一些非限制性实施例或方面,过程200的一个或多个步骤可(例如,完全地、部分地等)由数据清洗系统102(例如,数据清洗系统102的一个或多个装置)执行。在一些非限制性实施例或方面,过程200的一个或多个步骤可(例如,完全地、部分地等)由与数据清洗系统102分开或包括所述数据清洗系统的另一系统、另一装置、另一系统群组或另一装置群组执行,例如用户装置104、输入数据数据库106和输出数据数据库108。
如图2所示,在步骤202,过程200可包括接收训练数据。例如,数据清洗系统102可以从输入数据数据库106和/或用户装置104接收训练数据。在一些非限制性实施例或方面,用户装置104可以将训练数据传送到输入数据数据库106(例如,在数据清洗系统102从输入数据数据库106接收训练数据之前)。在一些非限制性实施例或方面,用户装置104可以将训练数据传送到数据清洗系统102。在一些非限制性实施例或方面,输入数据数据库106可以将训练数据传送到数据清洗系统102。
在一些非限制性实施例或方面,训练数据可包括标记为有噪声的多个噪声样本111和未标记为有噪声的多个其它样本。例如,其它样本可包括多个干净样本112,其可标记为干净的。另外或替代地,其它样本可包括多个未标记样本。在一些非限制性实施例或方面,数据清洗系统102可以将训练数据的未标记样本(子集)标记为干净的(例如,用于训练)。
在一些非限制性实施例或方面,数据清洗系统102可以接收(例如,从输入数据数据库106和/或用户装置104)输入数据,所述输入数据包括标记为有噪声的多个噪声样本和多个未标记样本。数据清洗系统102可以将输入数据划分为训练数据和剩余数据。例如,训练数据可包括噪声样本(例如,标记为有噪声的所有样本)和未标记样本的子集。另外或替代地,数据清洗系统102可以保存(例如,存储)剩余未标记样本(例如,作为未标记数据),以便在训练自动编码器网络120之后使用,如本文所述。在一些非限制性实施例或方面,数据清洗系统102可以将训练数据的未标记样本(子集)标记为干净的(例如,用于训练)。
如图2所示,在步骤204,过程200可包括训练自动编码器网络。例如,数据清洗系统102可以基于训练数据训练自动编码器网络120。在一些非限制性实施例或方面,数据清洗系统102可以基于训练数据训练自动编码器网络120,以基于噪声样本111和第一输出(例如,由自动编码器网络120使用噪声样本11l作为输入而生成的噪声重建样本113)增加第一度量,并且基于其它样本(例如,干净样本112)和第二输出(例如,由自动编码器网络120使用其它样本作为输入而生成的干净重建样本114)减小第二度量。替代地,数据清洗系统102可以训练自动编码器网络120以减小第一度量并增加第二度量,这取决于所使用的度量的类型。
在一些非限制性实施例或方面,每个度量(例如,第一度量和第二度量)可以是相应输入(例如,噪声样本111或干净样本112)与相应输出(例如,分别为噪声重建样本113或干净重建样本114)之间的差。在一些非限制性实施例或方面,每个度量可以是基于相应输入和相应输出的得分(例如,相似性得分等)。
在一些非限制性实施例或方面,自动编码器网络120可包括本文称为最小最大对抗混合自动编码器的新型自动编码器网络。最小-最大对抗混合自动编码器可包括具有混合(例如,双重)目标函数的自动编码器网络,以基于噪声样本111和基于噪声样本的第一输出(例如,噪声重建样本113)(例如,噪声样本与第一输出之间的差)增加(例如,最大化)第一度量,并且基于其它样本(例如,干净样本112)和基于其它样本的第二输出(例如,干净重建样本114)(例如,其它样本与第二输出之间的差)减小(例如,最小化)第二度量。例如,最小-最大对抗混合自动编码器的目标函数可以由以下公式表示:
F*=argmaxF||Xn-F(Xn)||D+argminF||Xc-F(Xc)||D,
其中,D是度量,Xn是多个噪声样本,Xc是多个其它样本,F(Xn)是噪声样本的自动编码器网络120的输出,F(Xc)是其它/干净样本的自动编码器网络120的输出,F是将自动编码器网络120的输入变换为输出的函数的简短注释,并且F*是参数满足目标函数的F。因此,在一些非限制性实施例或方面,数据清洗系统102可以训练自动编码器网络120(例如,最小-最大对抗混合自动编码器)以使噪声样本111与噪声重建样本113之间的差最大化,并且使干净样本112与干净重建样本114之间的差最小化。
在一些非限制性实施例或方面,可基于输入是有噪声的(例如,噪声样本111)还是未标记的/干净的(例如,干净样本112)而不同地确定自动编码器网络120(例如,最小-最大对抗混合自动编码器)的损失。例如,在自动编码器网络120的训练期间,数据清洗系统102可以基于噪声样本111和基于噪声样本生成的输出(例如,噪声重建样本113)确定负均方误差作为损失(例如,第一损失分量)。另外或替代地,数据清洗系统102可以基于其它样本(例如,干净样本112)和基于其它样本生成的输出(例如,干净重建样本114)确定(正)均方误差作为损失(例如,第二损失分量)。因此,在一些非限制性实施例或方面,数据清洗系统102可以基于训练数据、上述目标函数和上述损失确定来训练自动编码器网络120。
在一些非限制性实施例或方面,训练可包括(例如,由数据清洗系统102)将每个相应输入样本(例如,每个噪声样本111和/或每个其它样本/干净样本112)输入到自动编码器网络120中以生成相应输出(例如,相应噪声重建样本113或相应干净重建样本114)。可以基于每个相应输入样本和每个相应输出确定相应损失(分量)。损失(或每个损失分量)可以通过自动编码器网络120反向传播以更新其参数(例如,权重)。可以重复此训练过程,直到满足终止条件为止。例如,终止条件可包括目标数量的时期、目标损失值、目标准确性等。
如图2所示,在步骤206,过程200可包括接收未标记数据。例如,数据清洗系统102可以从输入数据数据库106和/或用户装置104接收未标记数据。在一些非限制性实施例或方面,用户装置104可以将未标记数据传送到输入数据数据库106(例如,在数据清洗系统102从输入数据数据库106接收未标记数据之前)。在一些非限制性实施例或方面,用户装置104可以将未标记数据传送到数据清洗系统102。在一些非限制性实施例或方面,输入数据数据库106可以将未标记数据传送到数据清洗系统102。在一些非限制性实施例或方面,未标记数据可包括多个未标记样本。
在一些非限制性实施例或方面,如上文所述,数据清洗系统102可以接收(例如,从输入数据数据库106和/或用户装置104)输入数据,所述输入数据包括标记为有噪声的多个噪声样本和多个未标记样本。如本文所述,数据清洗系统102可以将输入数据划分为训练数据和剩余数据。例如,剩余未标记样本(例如,在数据清洗系统将训练数据与输入数据分开之后)可以用作未标记数据。
如图2所示,在步骤208,过程200可包括由自动编码器网络生成输出。例如,数据清洗系统102可以将每个相应未标记样本输入到自动编码器网络120中,以基于未标记样本生成相应输出(例如,相应噪声重建样本113或相应干净重建样本114)。
在一些非限制性实施例或方面,自动编码器网络120的输入层132可以接收每个相应未标记样本作为输入。每个相应输入可通过隐藏层134从输入层132向前传播,以将相应输入变换为潜在层140处的潜在表示(例如,潜在空间中的矢量,其可以是相应输入的压缩表示)。另外或替代地,潜在表示可通过隐藏层152从潜在层140向前传播,以将相应潜在表示变换为输出层154处的输出(例如,基于潜在表示的相应输入的重建)。
如图2所示,在步骤210,过程200可包括确定度量和/或确定将每个输入样本标记为有噪声的还是干净的。例如,数据清洗系统102可以基于每个相应未标记样本和基于每个相应未标记样本生成的相应输出(例如,噪声重建样本113和/或干净重建样本114)(例如,每个相应未标记样本与相应输出之间的差)确定度量。另外或替代地,数据清洗系统102可以基于度量和/或基于每个相应未标记样本与基于每个相应未标记样本生成的相应输出之间的差,确定将每个未标记样本标记为有噪声的还是干净的。例如,数据清洗系统102可以基于度量和阈值确定将每个未标记样本标记为有噪声的还是干净的。
在一些非限制性实施例或方面,度量可包括每个相应未标记样本与基于每个相应未标记样本生成的相应输出(例如,噪声重建样本113和/或干净重建样本114)之间的差。例如,数据清洗系统102可以确定每个相应未标记样本与基于每个相应未标记样本生成的相应输出之间的差。另外或替代地,数据清洗系统102可以基于满足阈值的度量(例如,差)确定将相应未标记样本标记为有噪声的还是干净的。例如,如果差满足(例如,超过)阈值,数据清洗系统102可以确定将相应未标记样本标记为有噪声的,或者如果差不满足(例如,不超过)阈值,数据清洗系统102可以确定将相应未标记样本标记为干净的。
如图2所示,在步骤212,过程200可包括清洗(未标记)数据和/或基于(未标记)数据生成报告。例如,数据清洗系统102可以清洗未标记数据。另外或替代地,数据清洗系统102可以基于未标记数据生成报告。
在一些非限制性实施例或方面,数据清洗系统102可以通过丢弃噪声样本111(例如,如本文所述,基于标记为有噪声的样本)来清洗未标记样本。因此,可仅保留干净样本112。
在一些非限制性实施例或方面,数据清洗系统102可以设置标志,指示已确定将每个噪声样本111标记为有噪声的。因此,未标记数据中的所有噪声样本111可以被标识为有噪声的。
在一些非限制性实施例或方面,数据清洗系统102可以将每个噪声样本111标记为有噪声的。
在一些非限制性实施例或方面,数据清洗系统102可以传送每个噪声样本111和/或未标记数据中的每个样本(例如,所有噪声样本111和干净样本112)的基于度量(例如,差)的得分。在一些非限制性实施例或方面,相应样本的相应得分可以是度量。在一些非限制性实施例或方面,相应样本的相应得分可以是基于度量的归一化值(例如,介于0与1之间的值,其中得分是归一化的,使得任何样本的最高度量等于1)。
在一些非限制性实施例或方面,数据清洗系统102可以基于将每个相应未标记样本标记为有噪声的还是干净的来传送报告数据。例如,数据清洗系统102可以生成报告,其中未标记数据的每个样本指示为有噪声的或干净的。另外或替代地,报告可包括与未标记数据的每个相应样本相关联的度量(例如,差)和/或得分。另外或替代地,报告可包括未标记数据的总得分(例如,度量的平均值、得分的平均值、中值度量、中值得分、最大度量、最大得分等)。
在一些非限制性实施例或方面,数据清洗系统102可以传送(例如,传送到输出数据数据库108和/或用户装置104)输出(噪声重建样本113和/或干净重建样本114)、已清洗数据(例如,在丢弃噪声样本111之后的干净样本112)、基于确定每个输入样本是有噪声的还是干净的报告和/或其任何组合。
在一些非限制性实施例或方面,可以(例如,由用户装置104、与数据清洗系统102分开或包括所述数据清洗系统的另一系统、另一装置、另一系统群组或另一装置群组)使用已清洗数据来训练单独的机器学习模型和/或基于已清洗数据执行任务(例如,分类、预测、评分等)。
在一些非限制性实施例或方面,数据清洗系统102可以基于训练数据和已清洗数据重新训练自动编码器网络120。例如,如果数据清洗系统102将未标记数据的每个样本标记为干净的或有噪声的,则标记为有噪声的样本可以作为额外噪声样本111添加到训练数据中,并且标记为干净的样本可以作为额外干净样本112添加到训练数据中。另外或替代地,基于未标记数据生成的噪声重建样本113和/或干净重建样本114可以分别作为额外噪声样本111和/或额外干净样本112添加到训练数据中。
在一些非限制性实施例或方面,多个噪声样本可包括多个被拒交易。另外或替代地,多个其它样本可包括第一多个批准交易(其可包括真实(例如,正确批准的)批准交易和/或虚假(例如,错误)批准交易),和/或多个未标记样本可包括第二多个批准交易(其可包括真实批准交易和/或虚假批准交易)。数据清洗系统102可以接收多个被拒交易、第一多个批准交易和/或第二多个批准交易,如本文所述。数据清洗系统102可以基于多个被拒交易(例如,噪声样本)和第一多个批准交易(例如,其它/干净样本)训练自动编码器网络120,如本文所述。另外或替代地,数据清洗系统102可以将第二多个批准交易中的每个交易输入到(经过训练的)自动编码器网络120中,以基于所述交易生成输出,和/或数据清洗系统102可以基于(例如,第二多个批准交易中的)每个交易和基于所述交易生成的输出(例如,每个交易与输出之间的差)确定度量,如本文所述。数据清洗系统102可以基于相应度量和阈值确定将每个相应未标记样本标记为有噪声的(例如,错误批准的,即,已被拒绝的)还是干净的(例如,真实批准的,即,应批准的),如本文所述。在一些非限制性实施例或方面,数据清洗系统102可以通过丢弃相应交易来清洗数据清洗系统102确定将标记为有噪声的第二多个未标记样本中的每个相应交易,如本文所述。因此,剩余多个交易可包括数据清洗系统102确定将标记为干净的(第二多个批准交易中的)每个相应交易,如本文所述。
在一些非限制性实施例或方面,数据清洗系统102可以重新训练自动编码器网络,以基于多个被拒交易和由自动编码器网络使用多个被拒交易生成的另外的多个第一输出增加另外的第一度量,并且基于剩余多个未标记样本和由自动编码器网络使用剩余多个未标记样本生成的另外多个第二输出减小另外的第二度量。
图3A描绘根据一些非限制性实施例或方面的使用自动编码器清洗来自未标记数据集的噪声数据的实施方案300a。如图3A所示,实施方案300a包括噪声样本311a(例如,多个噪声样本中的一个)、第一未标记样本312a(例如,第一多个未标记样本中的一个)、第二未标记样本312b(例如,第二多个未标记样本中的一个)、第一噪声重建样本313a(例如,第一多个噪声重建样本中的一个)、第二噪声重建样本313b(例如,第二多个噪声重建样本中的一个)、干净重建样本314a(例如,多个噪声干净样本中的一个)和自动编码器网络320(包括编码器网络330、输入层332、隐藏层334、潜在层340、解码器网络350、隐藏层352和输出层354)。在一些非限制性实施例或方面,噪声样本311a可与噪声样本111相同或类似。在一些非限制性实施例或方面,第一未标记样本312a和/或第二未标记样本312b可以与未标记样本112相同或相似。在一些非限制性实施例或方面,第一噪声重建样本313a和/或第二噪声重建样本313b可以与噪声重建样本113相同或相似。在一些非限制性实施例或方面,干净重建样本314a可以与干净重建样本114相同或相似。在一些非限制性实施例或方面,自动编码器网络320、编码器网络330、输入层332、隐藏层334、潜在层340、解码器网络350、隐藏层352和/或输出层354可以与自动编码器网络120、编码器网络130、输入层132、隐藏层134、潜在层140、解码器网络150、隐藏层152和/或输出层154相同或相似。在一些非限制性实施例或方面,实施方案300a可(例如,完全地、部分地等)由数据清洗系统102实施。在一些非限制性实施例或方面,实施方案300a可(例如,完全地、部分地等)由与数据清洗系统102分离或包括所述数据清洗系统的另一系统、另一装置、另一系统群组或另一装置群组(例如用户装置104、输入数据数据库106和输出数据数据库108)执行。
在一些非限制性实施例或方面,噪声样本311a可包括数字1的手写样本。在一些非限制性实施例或方面,第二未标记样本312b可包括数字1的第二手写样本。在一些非限制性实施例或方面,第一未标记样本312a可包括数字5的手写样本。出于说明的目的,假设数字1的手写样本是相对有噪声的(例如,不均匀的),并且数字5的手写样本是相对干净的。因此,可以训练自动编码器网络320以最大化噪声样本311a与第一噪声重建样本313a之间的差和/或第二未标记样本312b与第二噪声重建样本313b之间的差。另外,可以训练自动编码器网络320以最小化第一未标记样本312a与干净重建样本314a之间的差。
在一些非限制性实施例或方面,可以基于噪声样本(例如,包括噪声样本311a)和未标记样本(例如,包括第一未标记样本312a和/或第二未标记样本312b)训练自动编码器网络320,如本文所述。
在一些非限制性实施例或方面,在训练自动编码器网络320之后,自动编码器网络320可以基于输入(例如,分别为噪声样本311a、第二未标记样本312b和/或第一未标记样本312a)生成输出(例如,第一噪声重建样本313a、第二噪声重建样本313b和/或干净重建样本314a),如本文所述。例如,如图3A所示,自动编码器网络320可以增加(例如,最大化)噪声样本311a与第一噪声重建样本313a之间的差和/或第二未标记样本312b与第二噪声重建样本313b之间的差。另外,自动编码器网络320可以减小(例如,最小化)第一未标记样本312a与干净重建样本314a之间的差。
图3B描绘根据一些非限制性实施例或方面的实施方案300a的示例性度量的图表300b。如图3B所示,图表300b包括水平轴上针对1或5的手写样本的标记和垂直轴上的度量。在一些非限制性实施例或方面,度量可包括基于输入手写样本与竖直轴上的输出之间的差的归一化得分,如本文所述。
在一些非限制性实施例或方面,标记为数字1的手写样本的得分的分布可以相对分散,其中大多数得分高于阈值。因此,数字l的手写样本大部分是有噪声的。
在一些非限制性实施例或方面,标记为数字5的手写样本的得分的分布可以相对压缩,其中大多数得分低于阈值。因此,数字5的手写样本大部分是干净的。
现参考图4,图4是其中可实施本文所描述的系统、产品和/或方法的环境400的非限制性实施例或方面的图。如图4所示,环境400包括交易服务提供商系统402、发行方系统404、客户装置406、商家系统408、收单方系统410和通信网络412。在一些非限制性实施例或方面,数据清洗系统102、用户装置104、输入数据数据库106和/或输出数据数据库108中的每一个可以由交易服务提供商系统402(例如,其一部分)实施。在一些非限制性实施例或方面,用户装置104、输入数据数据库106和/或输出数据数据库108中的至少一个可以由与交易服务提供商系统402分开或包括所述交易服务提供商系统的另一系统、另一装置、另一系统群组或另一装置群组(例如,其一部分)实施,例如发行方系统404、商家系统408、收单方系统410等。例如,用户装置104可以与客户装置406相同或类似,和/或用户装置可以由发行方系统404、商家系统408或收单方系统410(例如,其一部分)实施。
交易服务提供商系统402可包括能够经由通信网络412从发行方系统404、客户装置406、商家系统408和/或收单方系统410接收信息和/或将信息传送到所述发行方系统、客户装置、商家系统和/或收单方系统的一个或多个装置。例如,交易服务提供商系统402可包括计算装置,诸如服务器(例如,交易处理服务器)、服务器群组和/或其它类似装置。在一些非限制性实施例或方面,交易服务提供商系统402可以与本文描述的交易服务提供商相关联。在一些非限制性实施例或方面,交易服务提供商系统402可以与数据存储装置通信,所述数据存储装置对于交易服务提供商系统402可以是本地或远程的。在一些非限制性实施例或方面,交易服务提供商系统402可能够从数据存储装置接收信息,将信息存储在数据存储装置中,将信息传送到数据存储装置,或搜索存储在数据存储装置中的信息。
发行方系统404可包括能够经由通信网络412接收信息和/或向交易服务提供商系统402、客户装置406、商家系统408和/或收单方系统410传送信息的一个或多个装置。例如,发行方系统404可包括计算装置,诸如服务器、服务器群组和/或其它类似装置。在一些非限制性实施例或方面,发行方系统404可与本文描述的发行方机构相关联。例如,发行方系统404可以与向与客户装置406相关联的用户发布信用账户、借记账户、信用卡、借记卡等的发行方机构相关联。
客户装置406可包括能够经由通信网络412从交易服务提供商系统402、发行方系统404、商家系统408和/或收单方系统410接收信息和/或将信息传送到所述交易服务提供商系统、发行方系统、商家系统和/或收单方系统的一个或多个装置。另外或替代地,每个客户装置406可包括能够经由通信网络412、另一网络(例如,临时网络、本地网络、专用网络、虚拟专用网络等)和/或任何其它合适的通信技术从其它客户装置406接收信息和/或将信息传送到所述其它客户装置的装置。例如,客户装置406可包括客户端装置等。在一些非限制性实施例或方面,客户装置406可或可不能够经由短程无线通信连接(例如,NFC通信连接、RFID通信连接、通信连接、/>通信连接等)(例如从商家系统408或从另一客户装置406)接收信息,和/或经由短程无线通信连接传送信息(例如,传送到商家系统408)。
商家系统408可包括能够经由通信网络412从交易服务提供商系统402、发行方系统404、客户装置406和/或收单方系统410接收信息和/或将信息传送到所述交易服务提供商系统、发行方系统、客户装置和/或收单方系统的一个或多个装置。商家系统408还可包括能够经由通信网络412、与客户装置406的通信连接(例如,NFC通信连接、RFID通信连接、通信连接、/>通信连接等)等从客户装置406接收信息,和/或经由通信网络412、通信连接等将信息传送到客户装置406的装置。在一些非限制性实施例或方面,商家系统408可包括计算装置,诸如服务器、服务器群组、客户端装置、客户端装置群组和/或其它类似装置。在一些非限制性实施例或方面,商家系统408可与本文描述的商家相关联。在一些非限制性实施例或方面,商家系统408可包括一个或多个客户端装置。例如,商家系统408可包括允许商家将信息传送到交易服务提供商系统402的客户端装置。在一些非限制性实施例或方面,商家系统408可包括能够供商家用以与用户进行交易的一个或多个装置,诸如计算机、计算机系统和/或外围装置。例如,商家系统408可包括POS装置和/或POS系统。
收单方系统410可包括能够经由通信网络412从交易服务提供商系统402、发行方系统404、客户装置406和/或商家系统408接收信息和/或将信息传送到所述交易服务提供商系统、发行方系统、客户装置和/或商家系统的一个或多个装置。例如,收单方系统410可包括计算装置、服务器、服务器群组等。在一些非限制性实施例或方面,收单方系统410可与本文描述的收单方相关联。
通信网络412可包括一个或多个有线和/或无线网络。例如,通信网络412可包括蜂窝网络(例如,长期演进(LTE)网络、第三代(4G)网络、第四代(4G)网络、第五代(5G)网络、码分多址(CDMA)网络等)、公共陆地移动网(PLMN)、局域网(LAN)、广域网(WAN)、城域网(MAN)、电话网络(例如,公共交换电话网络(PSTN))、专用网络(例如,与交易服务提供商相关联的专用网络)、特设网络、内联网、互联网、基于光纤的网络、云计算网络等,和/或这些或其它类型的网络的组合。
在一些非限制性实施例或方面,处理交易可包括生成和/或传送至少一个交易消息(例如,授权请求、授权响应、它们的任何组合等)。例如,客户端装置(例如,客户装置406、商家系统408的POS装置等)可以例如通过生成授权请求来发起交易。另外或替代地,客户端装置(例如,客户装置406、商家系统408的至少一个装置等)可以传送授权请求。例如,客户装置406可以将授权请求传送到商家系统408和/或支付网关(例如,交易服务提供商系统402的支付网关、与交易服务提供商系统402分开的第三方支付网关等)。另外或替代地,商家系统408(例如,其POS装置)可以将授权请求传送到收单方系统410和/或支付网关。在一些非限制性实施例或方面,收单方系统410和/或支付网关可以将授权请求传送到交易服务提供商系统402和/或发行方系统404。另外或替代地,交易服务提供商系统402可以将授权请求传送到发行方系统404。在一些非限制性实施例或方面,发行方系统404可以基于授权请求而确定授权决策(例如,授权、拒绝等)。例如,授权请求可以使发行方系统404基于所述授权请求而确定授权决策。在一些非限制性实施例或方面,发行方系统404可以基于授权决策而生成授权响应。另外或替代地,发行方系统404可以传送授权响应。例如,发行方系统404可以将授权响应传送到交易服务提供商系统402和/或支付网关。另外或替代地,交易服务提供商系统402和/或支付网关可以将授权响应传送到收单方系统410、商家系统408和/或客户装置406。另外或替代地,收单方系统410可以将授权响应传送到商家系统408和/或支付网关。另外或替代地,支付网关可以将授权响应传送到商家系统408和/或客户装置406。另外或替代地,商家系统408可以将授权响应传送到客户装置406。在一些非限制性实施例或方面,商家系统408可以(例如,从收单方系统410和/或支付网关)接收授权响应。另外或替代地,商家系统408可以基于授权响应(例如,提供、运送和/或交付与交易相关联的商品和/或服务;履行与交易相关联的订单;它们的任何组合;等)而完成交易。
出于说明的目的,处理交易可包括基于客户的(例如,与客户装置406等相关联的)账户标识符和/或与交易相关联的交易数据来生成交易消息(例如,授权请求等)。例如,商家系统408(例如,商家系统408的客户端装置、商家系统408的POS装置等)可以例如通过(例如,响应于从客户的便携式金融装置等接收到账户标识符)生成授权请求来发起交易。另外或替代地,商家系统408可以将授权请求传送到收单方系统410。另外或替代地,收单方系统410可以将授权请求传送到交易服务提供商系统402。另外或替代地,交易服务提供商系统402可以将授权请求传送到发行方系统404。发行方系统404可以基于授权请求来确定授权决策(例如,授权、拒绝等),和/或发行方系统404可以基于授权决策和/或授权请求来生成授权响应。另外或替代地,发行方系统404可以将授权响应传送到交易服务提供商系统402。另外或替代地,交易服务提供商系统402可以将授权响应传送到收单方系统410,所述收单方系统可以将授权响应传送到商家系统408。
出于说明的目的,交易的清算和/或结算可包括基于客户的(例如,与客户装置406等相关联的)账户标识符和/或与交易相关联的交易数据来生成消息(例如,清算消息、结算消息等)。例如,商家系统408可以生成至少一个清算消息(例如,多个清算消息、一批清算消息等)。另外或替代地,商家系统408可以将清算消息传送到收单方系统410。另外或替代地,收单方系统410可以将清算消息传送到交易服务提供商系统402。另外或替代地,交易服务提供商系统402可以将清算消息传送到发行方系统404。另外或替代地,发行方系统404可以基于清算消息生成至少一个结算消息。另外或替代地,发行方系统404可以将结算消息和/或资金传送到交易服务提供商系统402(和/或与交易服务提供商系统402相关联的结算银行系统)。另外或替代地,交易服务提供商系统402(和/或结算银行系统)可以将结算消息和/或资金传送到收单方系统410,所述收单方系统可以将结算消息和/或资金传送到商家系统408(和/或与商家系统408相关联的账户)。
作为示例提供图4所示的系统、装置和/或网络的数目和布置。与图4中所示的那些相比,可存在额外系统、装置和/或网络;更少系统、装置和/或网络;不同的系统、装置和/或网络;和/或以不同方式布置的系统、装置和/或网络。此外,可在单个系统和/或装置内实施图4所示的两个或更多个系统或装置,或图4所示的单个系统或装置可实施为多个分布式系统或装置。另外或替代地,环境400的一组系统(例如,一个或多个系统)和/或一组装置(例如,一个或多个装置)可执行被描述为由环境400的另一组系统或另一组装置执行的一个或多个功能。
现在参考图5,示出了根据非限制性实施例或方面的装置900的示例组件的图。作为示例,装置900可以对应于图l中的数据清洗系统102、用户装置104、输入数据数据库106和/或输出数据数据库108和/或图4中的交易服务提供商系统402、发行方系统404、客户装置406、商家系统408和/或收单方系统410。在一些非限制性实施例或方面,此类系统或装置可包括至少一个装置900和/或装置900的至少一个组件。作为实例提供所示组件的数目和布置。在一些非限制性实施例或方面,与图5中所示的那些相比,装置900可包括额外组件、更少组件、不同组件或以不同方式布置的组件。另外或替代地,装置900的一组组件(例如,一个或多个组件)可执行被描述为由装置900的另一组组件执行的一个或多个功能。
如图5所示,装置900可包括总线902、处理器904、存储器906、存储组件908、输入组件910、输出组件912和通信接口914。总线902可包括准许装置900的组件之间的通信的组件。在一些非限制性实施例或方面,处理器904可以硬件、软件,或硬件和软件的组合实施。例如,处理器904可包括处理器(例如中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)等)、微处理器、数字信号处理器(DSP)和/或可被编程以执行功能的任何处理组件(例如现场可编程门阵列(FPGA)、专用集成电路(ASIC)等)。存储器906可包括随机存取存储器(RAM)、只读存储器(ROM),和/或存储供处理器904使用的信息和/或指令的另一类型的动态或静态存储装置(例如,闪存存储器、磁存储器、光学存储器等)。
继续参考图5,存储组件908可存储与装置900的操作和使用相关的信息和/或软件。例如,存储组件908可包括硬盘(例如磁盘、光盘、磁光盘、固态磁盘等)和/或另一类型的计算机可读介质。输入组件910可包括准许装置900例如通过用户输入(例如触摸屏显示器、键盘、小键盘、鼠标、按钮、开关、麦克风等)接收信息的组件。另外或替代地,输入组件910可包括用于感测信息的传感器(例如全球定位系统(GPS)组件、加速度计、陀螺仪、致动器等)。输出组件912可包括从装置900提供输出信息的组件(例如显示器、扬声器、一个或多个发光二极管(LED)等)。通信接口914可包括使装置900能够例如通过有线连接、无线连接或有线和无线连接的组合与其它装置通信的收发器类组件(例如,收发器、单独的接收器和发射器等)。通信接口914可准许装置900从另一装置接收信息和/或提供信息给另一装置。例如,通信接口914可包括以太网接口、光接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、接口、蜂窝网络接口等。
装置900可执行本文中所述的一个或多个过程。装置900可基于处理器904执行由存储器906和/或存储组件908等计算机可读介质存储的软件指令来执行这些过程。计算机可读介质可包括任何非瞬态存储器装置。非瞬态存储器装置包括位于单个物理存储装置内部的存储器空间或散布于多个物理存储装置上的存储器空间。软件指令可通过通信接口914从另一计算机可读介质或从另一装置读取到存储器906和/或存储组件908中。在被执行时,存储在存储器906和/或存储组件908中的软件指令可使处理器904执行本文中所描述的一个或多个过程。另外或替代地,硬接线电路可替代或结合软件指令使用以执行本文中所描述的一个或多个过程。因此,本文所描述的实施例不限于硬件电路和软件的任何特定组合。本文所使用的术语“被编程或配置”是指一个或多个装置上的软件、硬件电路系统或其任何组合的布置。
尽管已出于说明的目的详细描述了实施例,但应理解,此类细节仅用于所述目的,并且本公开不限于所公开的实施例或方面,但相反,旨在涵盖处于所附权利要求书的精神和范围内的修改和等同布置。例如,应理解,本公开预期,尽可能地,任何实施例或方面的一个或多个特征可与任何其它实施例或方面的一个或多个特征组合。
Claims (20)
1.一种计算机实施的方法,所述方法包括:
用至少一个处理器接收训练数据,所述训练数据包括标记为有噪声的多个噪声样本和未标记为有噪声的多个其它样本;
用至少一个处理器基于所述训练数据训练自动编码器网络,以基于所述多个噪声样本和由所述自动编码器网络使用所述多个噪声样本生成的多个第一输出增加第一度量,并且基于所述多个其它样本和由所述自动编码器网络使用所述多个其它样本生成的多个第二输出减小第二度量;
用至少一个处理器接收包括多个未标记样本的未标记数据;
用至少一个处理器由所述自动编码器网络基于所述多个未标记样本生成多个第三输出;
对于所述多个未标记样本中的每个相应未标记样本,用至少一个处理器基于所述相应未标记样本和所述多个第三输出中的相应第三输出确定相应第三度量;
对于所述多个未标记样本中的每个相应未标记样本,用至少一个处理器基于所述相应第三度量和阈值确定将所述相应未标记样本标记为有噪声的还是干净的;以及
对于确定将标记为有噪声的每个相应未标记样本,用至少一个处理器清洗所述相应未标记样本。
2.根据权利要求1所述的方法,其中所述多个其它样本包括标记为干净的多个干净样本。
3.根据权利要求1所述的方法,其中所述多个其它样本包括所述多个未标记样本的子集。
4.根据权利要求1所述的方法,其中所述多个其它样本包括第二多个未标记样本,所述方法还包括:
用至少一个处理器将所述第二多个未标记样本标记为干净的。
5.根据权利要求1所述的方法,其中所述自动编码器网络包括最小-最大对抗混合自动编码器。
6.根据权利要求1所述的方法,其中训练所述自动编码器网络包括训练所述自动编码器网络以最大化所述多个噪声样本与所述多个第一输出之间的差且最小化所述多个其它样本与所述多个第二输出之间的差。
7.根据权利要求1所述的方法,其中训练所述自动编码器网络包括:
基于所述多个噪声样本和所述多个第一输出确定负均方误差作为第一损失分量;以及
基于所述多个其它样本和所述多个第二输出确定均方误差作为第二损失分量。
8.根据权利要求1所述的方法,其中所述第三度量包括每个相应未标记样本与所述相应第三输出之间的差,并且
其中确定将所述相应未标记样本标记为有噪声的还是干净的包括:
如果所述差超过所述阈值,则确定将所述相应未标记样本标记为有噪声的;或者
如果所述差不超过所述阈值,则确定将所述相应未标记样本标记为干净的。
9.根据权利要求1所述的方法,其中清洗所述相应未标记样本包括以下中的至少一个:
丢弃所述相应未标记样本;
设置指示确定将所述相应未标记样本标记为有噪声的相应标志;
将所述相应未标记样本标记为有噪声的;
传送所述相应未标记样本的基于所述度量的得分;
基于确定将每个相应未标记样本标记为有噪声的还是干净的来传送报告数据;或者
其任何组合。
10.根据权利要求1所述的方法,其中所述多个噪声样本包括多个被拒交易,所述多个其它样本包括第一多个批准交易,并且所述多个未标记样本包括第二多个批准交易,
其中确定将每个相应未标记样本标记为有噪声的还是干净的包括确定分别将每个相应未标记样本标记为被拒还是批准,
其中清洗确定将标记为有噪声的每个相应未标记样本包括丢弃所述相应未标记样本,并且
其中剩余多个未标记样本包括确定将标记为干净的每个相应未标记样本。
11.根据权利要求10所述的方法,还包括:
用至少一个处理器重新训练所述自动编码器网络,以基于所述多个被拒交易和由所述自动编码器网络使用所述多个被拒交易生成的另外的多个第一输出增加另外的第一度量,并且基于所述剩余多个未标记样本和由所述自动编码器网络使用所述剩余多个未标记样本生成的另外多个第二输出减小另外的第二度量。
12.根据权利要求1所述的方法,其中接收所述训练数据包括从用户装置接收所述训练数据;并且
其中接收所述未标记数据包括从所述用户装置接收所述未标记数据。
13.根据权利要求12所述的方法,其中清洗包括:
基于确定将每个相应未标记样本标记为有噪声的还是干净的来生成报告数据;以及
将所述报告数据传送到所述用户装置。
14.一种系统,所述系统包括:
数据清洗系统,所述数据清洗系统被配置成:
接收训练数据,所述训练数据包括标记为有噪声的多个噪声样本和未标记为有噪声的多个其它样本;
基于所述训练数据训练自动编码器网络,以基于所述多个噪声样本和由所述自动编码器网络使用所述多个噪声样本生成的多个第一输出增加第一度量,并且基于所述多个其它样本和由所述自动编码器网络使用所述多个其它样本生成的多个第二输出减小第二度量;
接收包括多个未标记样本的未标记数据;
由所述自动编码器网络基于所述多个未标记样本生成多个第三输出;
对于所述多个未标记样本中的每个相应未标记样本,基于所述相应未标记样本和所述多个第三输出中的相应第三输出确定相应第三度量;
对于所述多个未标记样本中的每个相应未标记样本,基于所述相应第三度量和阈值确定将所述相应未标记样本标记为有噪声的还是干净的;以及
对于确定将标记为有噪声的每个相应未标记样本,清洗所述相应未标记样本。
15.根据权利要求14所述的系统,还包括:
输入数据数据库,所述输入数据数据库被配置成:
从用户装置接收所述训练数据;
从所述用户装置接收所述未标记数据;以及
将所述训练数据和所述未标记数据传送到所述数据清洗系统。
16.根据权利要求14所述的系统,其中清洗包括基于确定将每个相应未标记样本标记为有噪声的还是干净的来生成报告数据并传送所述报告数据。
17.根据权利要求16所述的系统,还包括:
输出数据数据库,所述输出数据数据库被配置成:
从所述数据清洗系统接收所述报告数据;以及
将所述报告数据传送到用户装置。
18.根据权利要求14所述的系统,其中所述数据清洗系统包括交易服务提供商系统的一部分,并且
其中用户装置包括发行方系统的一部分。
19.一种计算机程序产品,所述计算机程序产品包括至少一个非瞬态计算机可读介质,所述至少一个非瞬态计算机可读介质包括一个或多个指令,所述一个或多个指令在由至少一个处理器执行时使所述至少一个处理器:
接收训练数据,所述训练数据包括标记为有噪声的多个噪声样本和未标记为有噪声的多个其它样本;
基于所述训练数据训练自动编码器网络,以基于所述多个噪声样本和由所述自动编码器网络使用所述多个噪声样本生成的多个第一输出增加第一度量,并且基于所述多个其它样本和由所述自动编码器网络使用所述多个其它样本生成的多个第二输出减小第二度量;
接收包括多个未标记样本的未标记数据;
由所述自动编码器网络基于所述多个未标记样本生成多个第三输出;
对于所述多个未标记样本中的每个相应未标记样本,基于所述相应未标记样本和所述多个第三输出中的相应第三输出确定相应第三度量;
对于所述多个未标记样本中的每个相应未标记样本,基于所述相应第三度量和阈值确定将所述相应未标记样本标记为有噪声的还是干净的;以及
对于确定将标记为有噪声的每个相应未标记样本,清洗所述相应未标记样本。
20.根据权利要求19所述的计算机程序产品,其中所述多个噪声样本包括多个被拒交易,所述多个其它样本包括第一多个批准交易,并且所述多个未标记样本包括第二多个批准交易。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163287225P | 2021-12-08 | 2021-12-08 | |
US63/287,225 | 2021-12-08 | ||
PCT/US2022/042433 WO2023107164A1 (en) | 2021-12-08 | 2022-09-02 | System, method, and computer program product for cleaning noisy data from unlabeled datasets using autoencoders |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116583851A true CN116583851A (zh) | 2023-08-11 |
Family
ID=86731076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280006624.7A Pending CN116583851A (zh) | 2021-12-08 | 2022-09-02 | 使用自动编码器清洗来自未标记数据集的噪声数据的系统、方法和计算机程序产品 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11948064B2 (zh) |
CN (1) | CN116583851A (zh) |
WO (1) | WO2023107164A1 (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107590778A (zh) * | 2017-07-31 | 2018-01-16 | 南京理工大学 | 一种基于无损约束降噪的自编码方法 |
US20190227536A1 (en) * | 2016-05-09 | 2019-07-25 | Strong Force Iot Portfolio 2016, Llc | Systems, methods and apparatus for providing a reduced dimensionality view of data collected on a self-organizing network |
US20190273510A1 (en) * | 2018-03-01 | 2019-09-05 | Crowdstrike, Inc. | Classification of source data by neural network processing |
US20200210849A1 (en) * | 2018-12-31 | 2020-07-02 | Paypal, Inc. | Transaction anomaly detection using artificial intelligence techniques |
US20200320371A1 (en) * | 2017-09-28 | 2020-10-08 | D5Ai Llc | Training for machine learning systems with synthetic data generators |
US20210049418A1 (en) * | 2019-08-15 | 2021-02-18 | Visa International Service Association | Method, System, and Computer Program Product for Detecting Fraudulent Interactions |
US20210241118A1 (en) * | 2020-01-30 | 2021-08-05 | Visa International Service Association | System, Method, and Computer Program Product for Implementing a Generative Adversarial Network to Determine Activations |
CN113705699A (zh) * | 2021-08-31 | 2021-11-26 | 平安科技(深圳)有限公司 | 基于机器学习的样本异常检测方法、装置、设备及介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10726525B2 (en) * | 2017-09-26 | 2020-07-28 | Samsung Electronics Co., Ltd. | Image denoising neural network architecture and method of training the same |
US20200089650A1 (en) | 2018-09-14 | 2020-03-19 | Software Ag | Techniques for automated data cleansing for machine learning algorithms |
CN109978079A (zh) | 2019-04-10 | 2019-07-05 | 东北电力大学 | 一种改进的堆栈降噪自编码器的数据清洗方法 |
-
2022
- 2022-09-02 CN CN202280006624.7A patent/CN116583851A/zh active Pending
- 2022-09-02 US US18/026,742 patent/US11948064B2/en active Active
- 2022-09-02 WO PCT/US2022/042433 patent/WO2023107164A1/en active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190227536A1 (en) * | 2016-05-09 | 2019-07-25 | Strong Force Iot Portfolio 2016, Llc | Systems, methods and apparatus for providing a reduced dimensionality view of data collected on a self-organizing network |
CN107590778A (zh) * | 2017-07-31 | 2018-01-16 | 南京理工大学 | 一种基于无损约束降噪的自编码方法 |
US20200320371A1 (en) * | 2017-09-28 | 2020-10-08 | D5Ai Llc | Training for machine learning systems with synthetic data generators |
US20190273510A1 (en) * | 2018-03-01 | 2019-09-05 | Crowdstrike, Inc. | Classification of source data by neural network processing |
US20200210849A1 (en) * | 2018-12-31 | 2020-07-02 | Paypal, Inc. | Transaction anomaly detection using artificial intelligence techniques |
US20210049418A1 (en) * | 2019-08-15 | 2021-02-18 | Visa International Service Association | Method, System, and Computer Program Product for Detecting Fraudulent Interactions |
US20210241118A1 (en) * | 2020-01-30 | 2021-08-05 | Visa International Service Association | System, Method, and Computer Program Product for Implementing a Generative Adversarial Network to Determine Activations |
CN113705699A (zh) * | 2021-08-31 | 2021-11-26 | 平安科技(深圳)有限公司 | 基于机器学习的样本异常检测方法、装置、设备及介质 |
Non-Patent Citations (2)
Title |
---|
周彧聪;刘轶;王锐;: "互补学习:一种面向图像应用和噪声标注的深度神经网络训练方法", 计算机研究与发展, vol. 54, no. 12, 15 December 2017 (2017-12-15), pages 2649 - 2659 * |
林金钏;艾浩军: "噪声可容忍的标记组合半监督学习算法", 计算机工程, vol. 45, no. 04, 8 April 2018 (2018-04-08), pages 157 - 162 * |
Also Published As
Publication number | Publication date |
---|---|
US11948064B2 (en) | 2024-04-02 |
WO2023107164A1 (en) | 2023-06-15 |
US20240028874A1 (en) | 2024-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11741475B2 (en) | System, method, and computer program product for evaluating a fraud detection system | |
US20220284435A1 (en) | System, Method, and Computer Program Product for Determining a Reason for a Deep Learning Model Output | |
US11645543B2 (en) | System, method, and computer program product for implementing a generative adversarial network to determine activations | |
US20240086422A1 (en) | System, Method, and Computer Program Product for Analyzing a Relational Database Using Embedding Learning | |
US20210027300A1 (en) | System, Method, and Computer Program Product for Generating Aggregations Associated with Predictions of Transactions | |
CN112823366B (zh) | 用于检测潜在洗钱活动的系统、方法和计算机程序产品 | |
US20210192641A1 (en) | System, Method, and Computer Program Product for Determining Correspondence of Non-Indexed Records | |
WO2020113208A1 (en) | System, method, and computer program product for generating embeddings for objects | |
WO2019143946A1 (en) | System, method, and computer program product for compressing neural network models | |
US20210103853A1 (en) | System, Method, and Computer Program Product for Determining the Importance of a Feature of a Machine Learning Model | |
US20210049619A1 (en) | System, Method, and Computer Program Product for Determining a Dormancy Classification of an Account Using Deep Learning Model Architecture | |
CN116583851A (zh) | 使用自动编码器清洗来自未标记数据集的噪声数据的系统、方法和计算机程序产品 | |
US20240062120A1 (en) | System, Method, and Computer Program Product for Multi-Domain Ensemble Learning Based on Multivariate Time Sequence Data | |
US12008449B2 (en) | System, method, and computer program product for iteratively refining a training data set | |
US20230351431A1 (en) | System, Method, and Computer Program Product for Segmenting Users Using a Machine Learning Model Based on Transaction Data | |
US11847654B2 (en) | System, method, and computer program product for learning continuous embedding space of real time payment transactions | |
US20200257666A1 (en) | "System, Method, and Computer Program Product for Monitoring and Improving Data Quality" | |
US20240134599A1 (en) | Method, System, and Computer Program Product for Normalizing Embeddings for Cross-Embedding Alignment | |
CN116964603A (zh) | 用于基于多变量时间序列数据的多域集成学习的系统、方法和计算机程序产品 | |
ELDON et al. | SYSTEM FOR MATCHING A STRING INCLUDING PLURALITY OF SUBSTRINGS AND METHOD THEREOF | |
WO2023069699A1 (en) | Method, system, and computer program product for embedding compression and regularization | |
WO2022212453A1 (en) | System, method, and computer program product for debiasing embedding vectors of machine learning models | |
WO2024081177A1 (en) | Method, system, and computer program product for providing a framework to improve discrimination of graph features by a graph neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |