CN114616546A

CN114616546A - 模拟客户数据的智能代理

Info

Publication number: CN114616546A
Application number: CN202080076407.6A
Authority: CN
Inventors: B·哈里斯; E·I·凯尔顿; C·沃尔默
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-11-05
Filing date: 2020-11-02
Publication date: 2022-06-10
Also published as: WO2021090141A1; GB2605054A; GB202207340D0; JP2023501343A; WO2021090142A1; DE112020005484T5; CN114730359A; JP2023500698A

Abstract

一种用于使用强化学习模型来模拟交易数据的计算机实现的方法，该方法包括：通过组合从真实客户简档数据的集合中随机选择的信息来生成人工客户简档；提供标准客户交易数据，所述标准客户交易数据表示具有与目标相似的交易特征的一组真实客户；由所述智能代理执行包括多个模拟交易的动作；由所述环境将所述动作与所述目标进行比较；由所述环境基于相对于所述目标的相似度来提供与所述动作相关联的反馈；由所述策略引擎基于所述反馈来调整策略；重复所述执行动作的步骤导所述调整策略的步骤，直到所述相似度高于第一预定阈值；以及将所述人工客户简档与所述动作组合以形成模拟客户数据。

Description

模拟客户数据的智能代理

技术领域

本发明大致涉及实现交易数据模拟器的认知系统，并且更具体地涉及实现被配置为模拟由金融机构(例如银行)提供的交易数据的交易数据模拟器。

背景技术

金融犯罪检测系统，例如

金融犯罪警告洞悉连同IBM

可以利用认知分析来帮助银行检测洗钱和恐怖融资。认知分析将“正常”金融活动与“可疑”活动区分开，并且使用区分信息来建立用于银行的预测模型。需要大量真实金融客户数据来训练预测模型。

由于真实客户数据非常敏感，因此银行只能提供有限量的真实客户数据。然而，为了最佳地模拟欺诈情况并检测不同类型的金融犯罪，看上去逼真的更多模拟的客户数据，例如用于训练的交易数据，可以产生更好的预测模型。IBM和IBM Watson是国际商业机器公司的商标，在全世界的许多管辖区注册。因此，在本领域中需要解决上述问题。

发明内容

从第一方面来看，本发明提供了一种在数据处理系统中的计算机实现的方法，所述数据处理系统包括处理器和包括指令的存储器，所述指令由所述处理器执行以使所述处理器实现用于使用包括智能代理、策略引擎和环境的强化学习模型来模拟客户数据的方法，所述方法包括：由所述处理器通过组合从真实客户简档数据的集合中随机选择的信息来生成人工客户简档；由所述处理器提供标准客户交易数据，所述标准客户交易数据表示具有与目标相似的交易特征的一组真实客户；由所述智能代理执行包括多个模拟交易的动作；由所述环境将所述动作与所述目标进行比较；由所述环境基于相对于所述目标的相似度来提供与所述动作相关联的反馈；由所述策略引擎基于所述反馈来调整策略；重复所述执行动作的步骤到所述调整策略的步骤，直到所述相似度高于第一预定阈值；以及由处理器将所述人工客户简档与最后动作组合以形成模拟客户数据。

从第一方面来看，本发明提供了一种在数据处理系统中的计算机实现的方法，所述数据处理系统包括处理器和包括指令的存储器，所述指令由所述处理器执行以使所述处理器实现用于使用包括智能代理、策略引擎和环境的强化学习模型来模拟客户数据的方法，所述方法包括：由所述处理器通过组合从真实客户简档数据的集合中随机选择的信息来生成人工客户简档；由所述处理器提供标准客户交易数据，所述标准客户交易数据表示具有与目标相似的交易特征的一组真实客户；由所述智能代理执行包括多个模拟交易的动作；由所述环境将所述动作与所述目标进行比较；由所述环境基于相对于所述目标的相似度来提供与所述动作相关联的反馈；由所述策略引擎基于所述反馈来调整策略；重复所述执行动作的步骤到所述调整策略的步骤，直到所述相似度高于第一预定阈值；以及由处理器将人工客户简档与最后动作组合以形成模拟客户数据。

从另一方面来看，本发明提供了一种用于使用包括智能代理、策略引擎和环境的强化学习模型来模拟客户数据的计算机程序产品，所述计算机程序产品包括计算机可读存储介质，所述计算机可读存储介质具有随其体现的程序指令，所述程序指令可由处理器执行以使所述处理器：通过组合从真实客户简档数据的集合中随机选择的信息来生成人工客户简档；提供标准客户交易数据，所述标准客户交易数据表示具有与目标相似的交易特征的一组客户；由所述智能代理执行包括多个模拟交易的动作；由所述环境将所述动作与所述目标进行比较；由所述环境基于相对于所述目标的相似度来提供与所述动作相关联的反馈；由所述策略引擎基于所述反馈来调整策略；重复所述执行动作的步骤到所述调整策略的步骤，直到所述相似度高于第一预定阈值；以及将所述人工客户简档与所述最后动作组合以形成模拟客户数据。

从另一方面来看，本发明提供了一种用于使用包括智能代理、策略引擎和环境的强化学习模型来模拟客户数据的系统，所述系统包括：处理器，其被配置为：通过组合从真实客户简档数据的集合中随机选择的信息来生成人工客户简档；提供标准客户交易数据，所述标准客户交易数据表示具有与目标相似的交易特征的一组客户；由所述智能代理执行包括多个模拟交易的动作；由所述环境将所述动作与所述目标进行比较；由所述环境基于相对于所述目标的相似度来提供与所述动作相关联的反馈；由所述策略引擎基于所述反馈来调整策略；重复所述执行动作的步骤到所述调整策略的步骤，直到所述相似度高于第一预定阈值；以及将所述人工客户简档与所述最后动作组合以形成模拟客户数据。

从另一方面来看，本发明提供了一种用于模拟交易数据的计算机程序产品，该计算机程序产品包括计算机可读存储介质，该计算机可读存储介质可由处理电路读取并且存储由处理电路执行以执行用于执行本发明的步骤的方法的指令。

从另一方面来看，本发明提供了一种存储在计算机可读介质上并且可加载到数字计算机的内部存储器中的计算机程序，包括软件代码部分，当所述程序在计算机上运行时，用于执行本发明的步骤。

实施例提供了一种在数据处理系统中的计算机实现的方法，所述数据处理系统包括处理器和包括指令的存储器，所述指令由所述处理器执行以使所述处理器实现用于使用包括智能代理、策略引擎和环境的增强学习模型来模拟客户数据的方法。该方法包括：由所述处理器通过组合从真实客户简档数据的集合中随机选择的信息来生成人工客户简档；由所述处理器提供标准客户交易数据，所述标准客户交易数据表示具有与目标相似的交易特征的一组真实客户；由所述智能代理执行包括多个模拟交易的动作；由所述环境将所述动作与所述目标进行比较；由所述环境基于相对于所述目标的相似度来提供与所述动作相关联的反馈；由所述策略引擎基于所述反馈来调整策略；重复执行所述调整策略的步骤的动作，直到所述相似度高于第一预定阈值；以及由处理器将人工客户简档与最后动作组合以形成模拟客户数据。

实施例还提供了一种计算机实现的方法，其中，真实客户简档数据包括客户地址、客户姓名、联系信息、信用信息和收入信息中的一个或多个。

实施例还提供了一种计算机实现的方法，其中，每个模拟交易包括交易类型、交易金额、交易时间、交易地点、交易介质、与模拟交易相关联的第二方。

实施例还提供了一种计算机实现的方法，其中，环境包括由智能代理执行的所有先前动作的集合。

实施例还提供了一种计算机实现的方法，还包括：由所述处理器移除具有低于第二预定义阈值的相似度的多个先前动作。

实施例还提供了一种计算机实现的方法，还包括：由所述处理器通过无监督聚类方法从原始客户交易数据获取所述标准客户交易数据。

实施例还提供了一种计算机实现的方法，其中，所述反馈是奖励或惩罚。

在另一说明性实施例中，提供了一种计算机程序产品，其包括具有计算机可读程序的计算机可用或可读介质。当在处理器上执行所述计算机可读程序时，所述计算机可读程序使得所述处理器执行上面关于方法说明性实施例概述的操作中的各种操作和操作的组合。

在又一说明性实施例中，提供了一种系统。该系统可以包括训练数据采集处理器，其被配置为执行以上关于方法说明性实施例概述的操作中的各种操作和操作的组合。

从以下参考附图进行的对说明性实施例的详细描述中，本公开的附加特征和优点将变得显而易见。

附图说明

当结合附图阅读时，从以下详细描述中可以最好地理解本发明的前述和其它方面。为了说明本发明，在附图中示出了目前优选的实施例，然而，应当理解，本发明不限于所公开的具体手段。附图中包括以下附图：

图1描绘了在计算机网络中实现交易数据模拟器的认知系统100的一个说明性实施例的示意图；

图2描绘了交易数据模拟器110的一个说明性实施例的示意图；

图3描绘了示出根据本文的实施例的来自模拟客户的多个模拟交易的示意图；

图4示出了模拟客户数据的方法400的一个说明性实施例的流程图；以及

图5是其中可以实现说明性实施例的各方面的示例数据处理系统500的框图。

具体实施方式

作为概述，认知系统是专用计算机系统，或计算机系统组，其配置有硬件和/或软件逻辑(与在其上执行软件的硬件逻辑组合)以仿效人类认知功能。这些认知系统将类人的特征应用于传达和操纵思想，当与数字计算的固有强度结合时，其可以以高准确度和大规模弹性解决问题。IBM

是一个这样的认知系统的例子，其可以处理人类可读语言，并且以比人类快得多的速度和大得多的规模，以类人的精确度识别文本段之间的推断。通常，这样的认知系统能够执行以下功能：

导航人类语言和理解的复杂性

摄取和处理大量结构化和非结构化数据

生成和评估假设

加权和评估仅基于相关证据的响应

提供特定于情况的建议、洞察和指导

通过机器学习过程用每次迭代和交互来改进知识和学习

使得能够在影响点处做出决策(上下文引导)

按任务比例缩放

扩展和放大人类的专业知识和认知

从自然语言中识别产生共鸣的类人属性和特质

从自然语言推断各种语言特定或不可知属性

从数据点(图像、文本、语音)的高度相关回忆(记忆和回忆)

基于经验模仿人类认知的利用情境意识的预测和感测

基于自然语言和特定证据的回答问题

在一个方面，认知系统可以被增加交易数据模拟器，以模拟来自金融机构(例如银行)的客户交易数据集合。即使模拟的客户交易数据不是来自金融机构的“实际”客户交易数据，也可以被用来训练用于识别金融犯罪的预测模型。

交易数据模拟器将多层无监督聚类方法与交互式增强学习(IRL)模型相结合，以创建已经学习到表现得像“标准客户”的大量智能代理。

在一个实施例中，多层无监督聚类方法使用包括在变化的时间段内“标准客户”的数百个属性的信息来创建大量标准客户交易行为(从银行提供的真实客户交易数据中提取)。每个标准客户交易行为可以与具有类似交易特征的一组客户相关联。智能代理生成人工客户简档，并选择标准客户交易行为中的一个以与所生成的人工客户简档组合。这样，智能代理可以模拟“标准客户”，并且学习表现得像“标准客户”。然后，向智能代理提供一段时间(例如，十年)，在该段时间期间，智能代理可以观察环境，例如，所表示的“标准客户”的过去行为，并且学习执行与所表示的“标准客户”的标准客户交易行为类似的“假”客户交易。标准客户交易行为的每个因素可以是统计数据。例如，标准客户交易行为的交易金额可以是值的范围，例如，标准客户交易行为的交易金额是20元-3,000元。标准客户交易行为的交易位置可以按统计方式提供，例如，30％的交易位置是购物中心，50％的交易位置是餐馆，20％的交易位置是加油站。标准客户交易行为的交易类型可以按统计方式提供，例如，20％的交易类型是支票支付，40％的交易类型是POS支付，25％的交易类型是ATM取款，15％的交易类型是电汇。标准客户交易行为的交易介质可以按统计方式提供，例如，15％的交易介质是现金，45％的交易介质是信用卡，25％的交易介质是支票账户，15％的交易介质是

在一个实施例中，根据多个真实客户简档数据生成大量人工客户简档。真实的客户简档数据可以由一个或多个银行提供。每个真实客户简档可以包括客户的地址；客户的名称(客户可以是法人实体或个人)；诸如电话号码、电子邮件地址等的联系信息；信用信息，例如信用评分、信用报告等；收入信息(例如，法人的年收入，或个人工资)等。真实的客户简档数据被存储在不同的类别下。例如，商业客户(即，法人实体)可以基于商业客户的尺寸、产品或服务被分成不同的类别。可以通过随机搜索所有真实的客户简档数据来生成人工客户简档。例如，可以通过组合随机选择的信息，包括地址、名、姓、电话号码、电子邮件地址、信用分数、收入或工资等，来生成人工客户简档。因此，所生成的人工客户简档提取来自真实客户简档数据的不同条信息，并因此看起来像现实的客户简档。金融交易数据被进一步与每个人工客户简档相关联地模拟。在一个实施例中，模拟的客户交易数据可以与人工客户简档组合以形成模拟客户数据。

在一个实施例中，为了保护真实客户的隐私，诸如地址、姓名等的复合信息可以在随机选择之前被分成多个部分。例如，地址“2471乔治华莱士街”可以被解析为3个部分：[编号]“2471”、[名称]“George Wallace”和[后缀]“街”。这些部分可以单独地被随机选择以形成人工客户简档。在另一实施例中，将人工客户简档的合成信息，例如地址、姓名等，与真实客户简档的合成信息进行比较。如果相似度大于预定阈值，则人工客户简档是不可接受的，并且需要被更新，直到相似度小于预定阈值。

图1描绘了在计算机网络102中实现交易数据模拟器110的认知系统100的一个说明性实施例的示意图。认知系统100被实现在连接到计算机网络102的一个或多个计算设备104(包括一个或多个处理器和一个或多个存储器，以及潜在地，本领域中通常已知的任何其他计算设备元件，包括总线、存储设备、通信接口等)上。计算机网络102包括多个计算设备104，其经由一个或多个有线和/或无线数据通信链路彼此通信并且与其他设备或组件通信，其中每个通信链路包括导线、路由器、交换机、发射机、接收机等中的一个或多个。认知系统100的其他实施例可以与除了本文所描述的那些之外的组件、系统、子系统和/或设备一起使用。在各种实施例中，计算机网络102包括本地网络连接和远程连接，使得认知系统100可以在任何大小的环境中操作，包括本地的和全球的，例如因特网。认知系统100被配置为实现可以模拟标准客户交易数据106(即，标准客户交易行为)的交易数据模拟器110。交易数据模拟器110可以基于标准客户交易数据106生成大量模拟客户交易数据108，使得模拟客户交易数据108看起来像真实客户交易数据。然后，模拟客户交易数据108与随机选择的人工客户简档112组合，从而获得针对模拟客户的完整模拟客户数据114。

在实施例中，通过无监督聚类方法获得标准客户交易数据106。包括大量客户交易数据的原始客户数据由一个或多个银行提供，并且通过无监督聚类方法从原始客户数据中聚类或分组大量表示银行客户的不同特性的小组。每个小组包括来自具有相似特征的客户的交易数据。例如，组A表示的客户是在纽约执业专利法的单个律师，而组B表示的客户是在纽约执业商业法的已婚律师。

图2描绘了交易数据模拟器110的一个说明性实施例的示意图。交易数据模拟器110利用强化学习技术来模拟金融交易数据。交易数据模拟器110包括智能代理202和环境204。智能代理202随机选择代表具有类似交易特征的一组“客户”的标准交易行为220(即，目标220)，并将标准交易行为与随机选择的人工客户简档112相关联。智能代理202在每次迭代中采取动作212。在该实施例中，在每次迭代中采取的动作212包括在一天中执行多个交易。每个交易具有包括交易类型(例如，自动票据交换所(ACH)转账、支票支付、电汇、自动柜员机(ATM)取款、销售点(POS)支付等)的信息；交易金额；交易时间；交易地点；交易介质(例如，现金、信用卡、借记卡、支票账户等)；与交易相关的第二方(例如，接收电汇支付的人)等。环境204采取动作212作为输入，并返回来自环境204的奖励214(或反馈)和状态216作为输出。奖励214是这样的反馈，通过该反馈来测量动作212的成功或失败。在该实施例中，环境204将动作212与目标220(例如，标准交易行为)进行比较。如果动作212偏离目标220超过预定义阈值，则惩罚智能代理202，而如果动作212偏离目标220在预定义阈值内(即，动作212类似于目标220)，则奖励智能代理202。动作212被有效地评估，使得智能代理202可基于奖励214改进下一动作212。在该实施例中，环境204是智能代理202所采取的所有旧动作的集合，即，环境204是所有旧模拟交易的集合。智能代理202观察环境204，并且获得关于旧交易的信息，例如，在一天、一周、一月或一年内进行的交易的数量；每个交易金额、账户余额、每个交易类型等。策略引擎206可以基于观察结果调整策略，使得智能代理202可以在下一次迭代中采取更好的动作212。

智能代理202还包括策略引擎206，其被配置为基于状态216和奖励214调整策略。策略是智能代理202用来基于状态216和奖励214确定下一动作212的对策。为了针对智能代理202采取的下一动作212获得更高的回报214，调整策略。策略包括不同策略概率或决策概率的集合，其可以用于决定是否在特定的一天执行交易、每天的交易数量、交易金额、交易类型、交易方等。在强化学习模型中，事件的结果是随机的，并且随机数发生器(RNG)是从随机性的真实源生成随机数的系统。在一个示例中，每天交易的最大数量是100，并且最大交易金额是一千五百万元。在第一次迭代中，智能代理202进行交易金额为一千五万元到津巴布韦的随机交易。该动作212偏离目标220(例如，在Maine上由执业商业法的已婚律师进行的交易)，并且因此该动作212被惩罚(即，奖励214是负的)。策略引擎206被训练以调整策略，使得可以进行更接近目标220的不同交易。通过更多的迭代，可以由“更智能”的策略引擎206来模拟与目标220相似的交易。如图3所示，来自客户“James Culley”的多个交易被模拟，并且模拟的交易数据类似于目标220。

如图2所示，在一个实施例中，一个反馈循环(即，一次迭代)对应于一“天”的动作(即，一“天”的模拟交易)。在一段时间内，例如十年，智能代理202学会如何采取动作212以获得尽可能高的奖励214。迭代的次数对应于持续时间。例如，十年对应于10×365＝3650次迭代。强化学习通过动作212产生的结果来判断动作212。它是是面向目标220的，并且其目的在于学习将引导智能代理202实现其目标220或最大化其目标函数的动作序列212。

在实施例中，交易数据模拟器110还包括更新器210。在每次迭代中执行新的动作212。更新器210在每次迭代之后利用智能代理202所采取的动作212来更新环境204。在每次迭代中采取的动作212由更新器210添加到环境204中。在实施例中，交易数据模拟器110还包括修剪器208，其被配置为修剪环境204。在实施例中，修剪器208可以移除一个或多个不期望的动作。例如，移除在前十次迭代中采取的动作212，因为这十次迭代偏离目标220很远，并且相似度低于预定义阈值。在另一个实施例中，可以执行交易数据模拟器110的完全重新初始化，以移除环境204中的所有累积动作，使得智能代理202可以再次启动。

图4示出了示出模拟交易数据的方法400的一个说明性实施例的流程图。在步骤402，提供标准客户交易行为数据作为目标220。标准客户交易行为表示具有类似交易特征的一组客户。标准客户交易行为是通过无监督聚类方法获得的。

在步骤404，采取动作212以在代表例如一天(例如，每天100个交易)的迭代中执行多个交易。每个交易具有包括交易类型、交易金额、交易时间、交易地点、交易介质、与交易相关联的第二方等的信息。

在步骤406，环境204将目标220与在该迭代中采取的动作212进行比较，基于与目标220的相似性或偏离来奖励或惩罚动作212。用于决定动作212是否类似于目标220的阈值或规则是预定义的，并且可以基于用户偏好与目标220的相似程度来调整。

在步骤408，更新环境204以将动作212包括在当前迭代中。环境204包括所有旧的动作的集合。

在步骤410，策略引擎206基于奖励214(即，奖励或惩罚)调整用于确定下一动作212的策略。该策略基于各种因素，例如交易发生的概率、每天交易的数量、交易金额、交易类型、交易方、每个交易类型的交易频率、每个交易的上限和下限、交易介质等来制定。策略可基于每一迭代中的奖励214来调整这些因素的权重。

在步骤412，在新的迭代中，智能代理202采取新的动作212。重复步骤404至412，直到动作212足够类似于目标220(步骤414)。例如，在目标220中指定的交易金额是20元-3000元。如果动作212中的每个交易的交易金额落在20元-3000元的范围内，则动作212足够类似于目标220。在步骤416，将人工客户简档112与包括与目标220足够相似的多个交易的最后动作212组合，从而生成模拟客户数据114。

由于标准客户交易数据106可以包括异常数据，例如欺诈交易，因此模拟客户交易数据108还可以包括异常数据，因为模拟客户交易数据108类似于标准客户交易数据106。在强化学习模型中，智能代理202随机地或随机地探索环境204，从其经验学习策略，并且在其探索时更新策略以改进智能代理202的行为(即，交易)。在实施例中，与随机动作相反，在基于RNG的探索期间，可以出现行为模式(例如，花费“挥霍”直到用完储蓄，或者经历针对一次大的消费的“买家懊悔”等)。异常行为模式可能指示欺诈交易。例如，模拟客户JamesCulley通常可以进行交易金额低于1000元的交易。突然有交易金额为5000元的交易，并且该可疑交易可能是欺诈交易(例如James Culley的信用卡被偷窃，或者James Culley的支票账户被黑客攻击)。存在在探索期间自然出现的行为模式。例如，如图3所示，模拟的客户James Culley在2014年1月1日在支票账户中收到12387.71元的金额。James Culley通过与支票账户相关联的借记卡在2014年1月3日花费了474.98元，在1月3日花费了4400元，在2014年1月4日花费了3856.55元。在下一个月，James Culley在2014年2月1日在支票账户中收到12387.71元的金额。James Culley通过与支票账户相关联的借记卡在2014年2月2日花费4500元，在2月3日花费1713.91元，并在2014年6月27日从支票账户中转出8100元。在这个例子中，这个模拟的客户James Culley具有存钱和花钱的趋势，并且偶尔有大的购买。行为模式使得该模拟的客户James Culley表现得更逼真(即，看起来更像真实的客户，而不是机器人)。由策略引擎206生成多个参数，例如“行为一致性”(一段时间内的行为一致性程度)、“一致性波动性”(行为变化的频率)、“行为异常”(与常规交易行为的偏差)等，并且该多个参数被用于示出每个模拟客户的不同个性。

交易数据模拟器110使用抽象或聚合的真实客户数据来模拟代表真实客户的客户数据。交易数据模拟器110可以提供大量的模拟客户数据(即，与人工客户简档相结合的模拟交易数据)，其可以用于训练用于检测异常客户行为的预测模型。此外，模拟客户数据是基于真实原始客户数据的抽象数据而不是真实原始客户数据本身生成的，因此不可能导出任何真实客户的实际交易动作。另外，交易数据模拟器110允许在迭代期间为每个模拟的客户生成行为模式。

图5是其中实现了说明性实施例的各方面的示例数据处理系统500的框图。数据处理系统500是例如服务器或客户端的计算机的例子，实现本发明的说明性实施例的过程的计算机可用代码或指令位于其中。在一个实施例中，图5表示实现本文描述的认知系统100的服务器计算设备，例如服务器。

在所描述的例子中，数据处理系统500可以采用包括北桥和存储器控制器集线器(NB/MCH)501以及南桥和输入/输出(I/O)控制器集线器(SB/ICH)502的集线器体系结构。处理单元503、主存储器504和图形处理器505可以连接到NB/MCH 501。图形处理器505可以通过例如加速图形端口(AGP)连接到NB/MCH 501

在所描述的例子中，网络适配器506连接到SB/ICH 502。音频适配器507、键盘和鼠标适配器508、调制解调器509、只读存储器(ROM)510、硬盘驱动器(HDD)511、光盘驱动器(例如，CD或DVD)512、通用串行总线(USB)端口和其它通信端口513、以及PCI/PCIe设备514可以通过总线系统516连接到SB/ICH 502。PCI/PCIe设备514可以包括以太网适配器、附加卡和用于笔记本计算机的PC卡。ROM 510可以是例如闪速基本输入/输出系统(BIOS)。HDD 511和光盘驱动器512可以使用集成驱动器电子设备(IDE)或串行高级技术附件(SATA)接口。超级I/O(SIO)设备515可以连接到SB/ICH 502)

操作系统可以在处理单元503上运行。操作系统可以协调并提供对数据处理系统500内的各种组件的控制。作为客户端，操作系统可以是市场上可买到的操作系统。面向对象的编程系统，例如Java^TM编程系统，可以与操作系统一起运行，并且提供从在数据处理系统500上执行的面向对象的程序或应用到操作系统的调用。作为服务器，数据处理系统500可以是运行高级交互执行操作系统的

eServer^TM系统或

操作系统的系统。eServer是国际商业机器公司的商标，在全世界的许多管辖区注册。注册商标

是按照来自在全球范围内的商标拥有者Linus Torvalds的专有被许可人Linux基金会的分许可人使用的。数据处理系统500可以是对称多处理器(SMP)系统，其可以在处理单元503中包括多个处理器。或者，可以采用单处理器系统。

用于操作系统、面向对象的编程系统以及应用或程序的指令位于诸如HDD 511的存储设备上，并且被加载到主存储器504中以由处理单元503执行。本文描述的认知系统100的实施例的过程可以由处理单元503使用计算机可用程序代码来执行，所述计算机可用程序代码可以位于诸如主存储器504、ROM 510之类的存储器中，或者位于一个或多个外围设备中。

总线系统516可以包括一个或多个总线。总线系统516可以使用任何类型的通信结构或体系结构来实现，所述通信结构或体系结构可以提供在附接到该结构或体系结构的不同组件或设备之间的数据传输。诸如调制解调器509或网络适配器506的通信单元可以包括一个或多个可以用于发送和接收数据的设备。

本领域的普通技术人员将理解，图5中所描绘的硬件可以根据实现而变化。除了所描述的硬件之外，或者代替所描述的硬件，可以使用其它内部硬件或外围设备，例如闪存、等效的非易失性存储器或光盘驱动器。

此外，数据处理系统500可以采取多种不同数据处理系统中的任何一种的形式，包括但不限于客户端计算设备、服务器计算设备、平板计算机、膝上型计算机、电话或其他通信设备、个人数字助理等。本质上，数据处理系统500可以是任何已知的或以后开发的数据处理系统，而没有架构限制。

附图中的系统和过程不是排他性的。根据这里描述的实施例的原理，可以导出其它系统、处理和菜单，以实现相同的目的。应当理解，这里示出和描述的实施例和变型仅用于说明的目的。在不脱离实施例的范围的情况下，本领域技术人员可以实现对当前设计的修改。如本文所述，可以使用硬件组件、软件组件和/或其组合来实现各种系统、子系统、代理、管理器和过程。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个媒介)，所述计算机可读程序指令用于使处理器执行本发明的各方面。

计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是，例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下：便携式计算机磁盘、头盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如其上记录有指令的打孔卡或凹槽中的凸起结构之类的机械编码装置，以及上述的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤线缆的光脉冲)、或通过导线传输的电信号。

本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络(例如，因特网、局域网(LAN)、广域网(WAN)和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器相关指令、微代码、固件指令、状态设置数据，或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言，例如Java^TM、Smalltalk、C++等，以及常规的过程式编程语言，例如“C”编程语言或类似的编程语言。计算机可读程序指令可以完全在用户的计算机上执行，部分在用户的计算机上执行，作为独立的软件包执行，部分在用户的计算机上并且部分在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络，包括LAN或WAN，连接到用户的计算机，或者可以连接到外部计算机(例如，使用因特网服务提供商通过因特网)。在一些实施例中，为了执行本发明的各方面，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。

在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。

这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作，使得其中存储有指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。

计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。

附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上，流程图或框图中的每个框可以表示指令的模块、段或部分，其包括用于实现指定逻辑功能的一个或多个可执行指令。在一些替代实施方案中，框中所提及的功能可不按图中所提及的次序发生。例如，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能。还将注意，框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由基于专用硬件的系统来实现，该基于专用硬件的系统执行指定的功能或动作或执行专用硬件和计算机指令的组合

本说明书和权利要求书可以关于说明性实施例的特定特征和元素使用术语“一”、“至少一个”和“一个或多个”。应当理解，这些术语和短语旨在表明在特定的说明性实施例中存在至少一个特定特征或元件，但是也可以存在多于一个。也就是说，这些术语/短语不旨在将说明书或权利要求限制为存在单个特征/元件或要求存在多个这样的特征/元件。相反，这些术语/短语仅要求至少单个特征/元件，其中多个这样的特征/元件的可能性在说明书和权利要求的范围内。

此外，应当理解，以下描述使用说明性实施例的各种元件的多个各种示例来进一步说明说明性实施例的示例实现方式，并且帮助理解说明性实施例的机制。这些示例旨在是非限制性的，并且不是用于实现说明性实施例的机制的各种可能性的穷举。鉴于本说明书，对于本领域的普通技术人员来说，显然，在不脱离本发明的精神和范围的情况下，除了本文提供的示例之外，或者作为其替代，可以利用这些各种元件的许多其它替代实现。

尽管已经参考示例性实施例描述了本发明，但是本发明不限于此。本领域技术人员将理解，可以对本发明的优选实施例进行许多改变和修改，并且可以在不偏离本发明的真实精神的情况下进行这样的改变和修改。因此，所附权利要求书旨在被解释为覆盖落入本发明的真实精神和范围内的所有这些等同变化。

Claims

1.一种在数据处理系统中的计算机实现的方法，所述数据处理系统包括处理器和包括指令的存储器，所述指令由所述处理器执行以使所述处理器实现用于使用包括智能代理、策略引擎和环境的强化学习模型来模拟客户数据的方法，所述方法包括：

由所述处理器通过组合从真实客户简档数据的集合中随机选择的信息来生成人工客户简档；

由所述处理器提供标准客户交易数据，所述标准客户交易数据表示具有与目标相似的交易特征的一组真实客户；

由所述智能代理执行包括多个模拟交易的动作；

由所述环境将所述动作与所述目标进行比较；

由所述环境基于相对于所述目标的相似度来提供与所述动作相关联的反馈；

由所述策略引擎基于所述反馈来调整策略；

重复所述执行动作的步骤到所述调整策略的步骤，直到所述相似度高于第一预定阈值；以及

由所述处理器将所述人工客户简档与最后动作组合以形成模拟客户数据。

2.如权利要求1所述的方法，其中，所述真实客户简档数据包括客户地址、客户姓名、联系信息、信用信息和收入信息中的一个或多个。

3.如权利要求1所述的方法，其中，每个模拟交易包括交易类型、交易金额、交易时间、交易地点、交易介质、与所述模拟交易相关联的第二方。

4.如权利要求1所述的方法，其中，所述环境包括由所述智能代理执行的所有先前动作的集合。

5.如权利要求4所述的方法，进一步包括：

由所述处理器移除具有低于第二预定义阈值的相似度的多个先前动作。

6.根据权利要求1所述的方法，进一步包括：

由所述处理器通过无监督聚类方法从原始客户交易数据获取所述标准客户交易数据。

7.如权利要求1所述的方法，其中，所述反馈是奖励或惩罚。

8.一种用于使用包括智能代理、策略引擎和环境的强化学习模型来模拟客户数据的系统，所述系统包括：

处理器，其被配置为：

通过组合从真实的客户简档数据的集合中随机选择的信息来生成人工客户简档；

提供标准客户交易数据，所述标准客户交易数据表示具有与目标相似的交易特征的一组客户；

由所述智能代理执行包括多个模拟交易的动作；

由所述环境将所述动作与所述目标进行比较；

由所述策略引擎基于所述反馈来调整策略；

将所述人工客户简档与所述最后动作组合以形成模拟客户数据。

9.根据权利要求8所述的系统，其中，所述真实客户简档数据包括客户地址、客户姓名、联系信息、信用信息和收入信息中的一个或多个。

10.根据权利要求8或9中的任一项所述的系统，其中，所述环境包括由所述智能代理执行的所有先前动作的集合。

11.根据权利要求10所述的系统，其中，在所述调整策略的步骤之前，所述处理器还被配置为将所述动作添加到所述环境中。

12.根据权利要求10或11中的任一项所述的系统，其中，所述处理器还被配置为移除具有低于第二预定义阈值的相似度的多个先前动作。

13.根据权利要求8至12中任一项所述的系统，其中，所述反馈是奖励或惩罚。

14.一种用于模拟交易数据的计算机程序产品，所述计算机程序产品包括：

一种计算机可读存储介质，其可由处理电路读取并且存储用于由所述处理电路执行以用于执行根据权利要求1至7中任一项所述的方法的指令。

15.一种计算机程序，其被存储在计算机可读介质上并且可加载到数字计算机的内部存储器中，所述计算机程序包括软件代码部分，当所述程序在计算机上运行时，用于执行根据权利要求1至7中任一项所述的方法。