CN109241125B

CN109241125B - 用于挖掘和分析数据以标识洗钱者的反洗钱方法和设备

Info

Publication number: CN109241125B
Application number: CN201810623906.7A
Authority: CN
Inventors: 韩景光; M·F·扎曼; 万大东; A·卡贝洛希门尼斯; E·克拉多塞斯彭
Original assignee: Accenture Global Solutions Ltd
Current assignee: Accenture Global Solutions Ltd
Priority date: 2017-06-19
Filing date: 2018-06-15
Publication date: 2022-10-04
Anticipated expiration: 2038-06-15
Also published as: EP3418958A1; US20180365773A1; CN109241125A; US10438297B2

Abstract

本公开涉及用于挖掘和分析数据以标识洗钱者的反洗钱平台。对于洗钱调查中涉及的第一实体集合，平台可以获得针对目标实体的目标实体信息以及相关实体集合的相关实体信息。平台可以分析目标实体信息和相关实体信息以标识洗钱候选。平台可以确定指示目标实体与一个或多个相关实体之间的相似度的一个或多个关系。平台可以生成图数据结构，其使用一个或多个关系来将目标实体和一个或多个相关实体相关联。平台可以确定目标实体的得分和一个或多个相关实体的一个或多个得分。平台可以提供指示目标实体和/或一个或多个相关实体是否可能从事洗钱的推荐。

Description

用于挖掘和分析数据以标识洗钱者的反洗钱方法和设备

技术领域

本公开的实施例总体上涉及计算机领域，更具体地涉及用于挖掘和分析数据以标识洗钱者的反洗钱方法和设备。

背景技术

洗钱是一个将非法获得的利润转化为表面上合法的资产的过程。反洗钱(AML)服务提供了一种用于检测可疑活动以减少洗钱的方式。

发明内容

根据一些可能的实现，一种方法可以包括由设备从第一数据源获得与洗钱调查中涉及的第一实体集合相关联的信息。与第一实体集合相关联的信息可以包括目标实体的目标实体信息和相关实体集合的相关实体信息。该方法可以包括由设备分析与第一实体集合相关联的信息以将相关实体集合中的一个或多个相关实体标识为洗钱候选。该方法可以包括由设备从第二数据源获得与目标实体和/或一个或多个相关实体相关联的附加信息。该方法可以包括由设备确定目标实体与一个或多个相关实体之间的一个或多个关系。一个或多个关系可以指示目标实体与一个或多个相关实体之间的相似度。该方法可以包括由设备生成使用一个或多个关系将目标实体和一个或多个相关实体相关联的图数据结构。该方法可以包括由设备生成用于处理被包括在图数据结构中的信息的数据模型。得分和/或一个或多个得分可以标识目标实体和/或一个或多个相关实体是否可能从事洗钱。该方法可以包括由设备基于确定得分和/或一个或多个得分来提供指示目标实体和/或一个或多个相关实体是否可能从事洗钱的推荐。

根据一些可能的实现，其中目标实体信息、相关实体信息和/或附加信息包括与企业相关联的信息和/或与企业的雇员相关联的信息，与企业相关联的信息包括以下中的至少一项：指示企业名称的信息，指示企业所在的领域的信息，或者指示企业所在的地理位置的信息，或者，与企业的雇员相关联的信息包括以下中的至少一项：指示雇员姓名的信息，或者指示雇员职位的信息。

根据一些可能的实现，其中第二数据源包括与洗钱调查相关联的实体的新闻数据源、社交媒体数据源和/或内部数据源。

根据一些可能的实现，方法还包括：由设备分析与第一实体集合相关联的信息以将相关实体集合中的一个或多个相关实体标识为洗钱候选。

根据一些可能的实现，方法还包括：分析附加信息以标识一个或多个附加相关实体和/或目标实体与一个或多个相关实体之间的一个或多个附加关系；更新图数据结构以包括与一个或多个附加相关实体相关联的信息和/或与一个或多个附加关系相关联的信息；使用数据模型确定针对一个或多个附加相关实体的一个或多个得分；以及提供指示一个或多个附加相关实体是否可能从事洗钱的另一推荐。

根据一些可能的实现，其中生成数据模型包括：从第三数据源获得与第二实体集合相关联的训练信息，使用训练信息生成数据模型，从第四数据源获得与第三实体集合相关联的测试信息，以及使用测试信息验证数据模型。

根据一些可能的实现，方法还包括：确定针对被包括在图数据结构中的边集合的相关性得分集合，确定相关性得分集合中的一个或多个相关性得分满足相关性阈值，以及移除与满足相关性阈值的一个或多个相关性得分相关联的一个或多个边和/或一个或多个节点。

根据一些可能的实现，一种非暂态计算机可读介质可以存储在由一个或多个处理器执行时引起一个或多个处理器从第一数据源获得与洗钱调查中涉及的第一实体集合相关联的信息的一个或多个指令。与第一实体集合相关联的信息可以包括目标实体的目标实体信息和相关实体集合的相关实体信息。一个或多个指令可以引起一个或多个处理器从第二数据源获得与洗钱调查中涉及的第一实体集合相关联的附加信息。一个或多个指令可以引起一个或多个处理器确定目标实体与相关实体集合之间的一个或多个关系。一个或多个关系可以指示目标实体与相关实体集合之间的相似度。一个或多个指令可以引起一个或多个处理器生成使用一个或多个关系来将目标实体和相关实体集合相关联的图数据结构。一个或多个指令可以引起一个或多个处理器分析被包括在图数据结构中的节点集合以确定得分集合。一个或多个指令可以引起一个或多个处理器基于得分集合来提供指示目标实体和/或相关实体集合是否可能从事洗钱的推荐。

根据一些可能的实现，其中引起一个或多个处理器确定一个或多个关系的一个或多个指令引起一个或多个处理器：比较目标实体信息和与相关实体集合中的相关实体相关联的相关实体信息，确定目标实体与相关实体之间的社交距离是否满足阈值社交距离，以及基于确定目标实体与相关实体之间的社交距离满足阈值社交距离，标识一个或多个关系中的关系。

根据一些可能的实现，其中引起一个或多个处理器确定一个或多个关系的一个或多个指令引起一个或多个处理器：比较目标实体信息和与相关实体集合中的相关实体相关联的相关实体信息，基于比较目标实体信息和与相关实体相关联的相关实体信息，确定目标实体与相关实体之间的相似度，以及向相关实体分配指示相关实体与目标实体之间的相似度的权重值。

根据一些可能的实现，其中一个或多个指令在由一个或多个处理器执行时还引起一个或多个处理器：将附加信息与图数据结构的一个或多个节点和一个或多个边进行比较；确定附加信息满足与图数据结构的节点和边的阈值相似度；以及基于确定附加信息满足阈值相似度，验证图数据结构的一个或多个节点和一个或多个边。

根据一些可能的实现，其中引起一个或多个处理器分析被包括在图数据结构中的节点集合的一个或多个指令引起一个或多个处理器：提供被包括在图数据结构中的节点值作为数据模型的输入，使用数据模型分析节点值，以及基于使用数据模型分析节点值，确定得分，得分待用于确定目标实体和/或相关实体集合是否可能从事洗钱。

根据一些可能的实现，其中引起一个或多个处理器分析被包括在图数据结构中的节点集合的一个或多个指令引起一个或多个处理器：从第三数据源获得与第二实体集合相关联的训练信息，第三数据源是新闻数据源或社交媒体数据源，以及训练信息包括财务条款，使用训练信息、深度学习分析技术和词袋技术来生成数据模型，以及通过使用图数据结构的节点作为针对数据模型的输入，确定得分集合，得分集合指示图数据结构中的节点值与正面情绪得分还是负面情绪得分相关联。

根据一些可能的实现，其中引起一个或多个处理器分析节点集合以确定得分集合的一个或多个指令引起一个或多个处理器：

分析在一段时间间隔内的节点集合以确定得分集合，得分集合指示图数据结构中的节点值在时间间隔期间趋向正面情绪方向还是负面情绪方向；以及其中引起一个或多个处理器提供推荐的一个或多个指令引起一个或多个处理器：提供得分集合，以用于在设备的用户界面上的图形显示。

根据一些可能的实现，一种平台可以包括用于从第一数据源获得与洗钱调查中涉及的第一实体集合相关联的信息的一个或多个计算资源。该信息可以包括目标实体的目标实体信息和相关实体集合的相关实体信息。一个或多个计算资源可以分析目标实体信息和相关实体信息以将相关实体集合中的一个或多个相关实体标识为洗钱候选。一个或多个计算资源可以确定目标实体与一个或多个相关实体之间的一个或多个关系。一个或多个关系可以指示目标实体与一个或多个相关实体之间的相似度。一个或多个计算资源可以生成使用一个或多个关系来目标实体和一个或多个相关实体相关联的图数据结构。一个或多个计算资源可以确定目标实体的得分和一个或多个相关实体的一个或多个得分。一个或多个计算资源可以提供指示目标实体和/或一个或多个相关实体是否可能从事洗钱的推荐。

根据一些可能的实现，其中一个或多个计算资源用于从第二数据源获得与洗钱调查中涉及的第一实体集合相关联的附加信息。

根据一些可能的实现，其中一个或多个计算资源用于分析附加信息以标识与洗钱调查相关的信息，并且更新被包括在图数据结构中的节点集合以存储与洗钱调查相关的信息的装置。

根据一些可能的实现，其中一个或多个计算资源用于分析目标实体信息和/或针对一个或多个相关实体中的相关实体的相关实体信息以确定目标实体与相关实体之间的相似度，并且向相关实体分配指示相关实体与目标实体之间的相似度的权重值。

根据一些可能的实现，其中一个或多个计算资源用于分析目标实体信息和相关实体信息以确定目标实体与一个或多个相关实体之间的语义关系。

根据一些可能的实现，其中一个或多个计算资源用于使用训练信息生成数据模型，使用测试信息验证数据模型，以及在验证数据模型之后使用数据模型确定针对目标实体的得分和/或针对一个或多个相关实体的一个或多个得分。

附图说明

图1A至1E是本文所描述的示例实现的概述的示图；

图2A和2B是其中可以实现本文所描述的系统和/或方法的示例环境的图；

图3是图2的一个或多个设备的示例组件的示图；

图4是用于将实体集合标识为洗钱候选、确定洗钱候选之间的一个或多个关系以及生成图数据结构以存储洗钱候选之间的一个或多个关系的示例过程的流程图；以及

图5是用于分析关于图4描述的示例过程中所包括的图数据结构以确定实体集合中的一个或多个实体是否从事洗钱的示例过程的流程图。

具体实施方式

示例实现的以下详细描述参考附图。不同附图中的相同的附图标记可以标识相同或相似的元素。

AML服务可以通过检测实体参与的可疑商业交易来确定特定实体(例如，企业、企业的雇员等)是否在洗钱。然而，很多AML服务是基于规则和手动的，导致AML服务检测到大量的误报(即，当实体没有从事洗钱时，AML服务可能错误地预测实体从事洗钱)。为了遵守法规，银行必须雇佣数以万计的有经验的人员手动调查这些交易，这是一笔巨大的资金成本。

本文所描述的实现提供了一种AML平台以用于分析与洗钱调查相关联的信息以确定一个或多个实体是否从事洗钱。例如，AML平台可以获得与洗钱调查相关联的信息，并且可以生成标识目标实体与可能从事洗钱的一个或多个相关实体之间的关系的图数据结构。另外，AML平台可以生成数据模型，并且可以使用数据模型来确定数据结构中所标识的实体的得分并且预测其分类(例如，情感得分)。得分可以用于确定目标实体和/或一个或多个相关实体是否从事洗钱。AML平台可以基于得分生成指示目标实体和/或一个或多个相关实体是否从事洗钱的推荐。

通过确定实体(例如，企业或企业的雇员)从事洗钱，反洗钱平台可以帮助防止犯罪并且保护个人和企业不受从事洗钱计划的人员和企业的影响。此外，AML平台能够有效且高效地检测洗钱极化(例如，比其他AML服务的误报率更低)，从而节省处理资源。

图1A至1E是本文所描述的示例实现100的概述的示图。如图1A至1E所示，示例实现100示出了用于执行洗钱调查的AML平台。例如，感兴趣方(例如，诸如银行等金融机构)可以接收关于目标实体的可疑交易的指示，并且可以使用反洗钱平台执行洗钱调查以确定目标实体是否从事洗钱。在一些实现中，AML平台可以执行一个或多个动作来帮助感兴趣方确定目标实体否是从事洗钱。

如图1A和附图标记105所示，AML平台可以从第一数据源(例如，提供关于目标实体的信息的数据源)获得与第一实体集合相关联的信息。与第一实体集合相关联的信息可以包括与目标实体相关联的目标实体信息和/或与相关实体集合相关联的相关实体信息。目标实体信息和/或相关实体信息可以包括与企业相关联的信息和/或与企业的一个或多个雇员相关联的信息。例如，目标实体信息可以包括指示以下各项的信息：企业名称、企业所在的区域或领域、企业所在的位置、企业从事的交易、雇员姓名、雇员职位、雇员工作描述等。

如附图标记110所示，AML平台可以将相关实体集合中的一个或多个相关实体标识为洗钱候选。例如，AML平台可以分析目标实体信息和/或相关实体信息以将一个或多个相关实体标识为洗钱候选。

在一些实现中，AML平台可以通过确定目标实体的一个或多个特征与一个或多个相关实体的一个或多个特征之间的相似度来分析目标实体信息和/或相关实体信息。例如，AML平台可以分析诸如距离(例如，地理距离、社交距离等)、地址信息、工作部门信息、社交媒体信息等特征。在这种情况下，AML平台可以基于与目标实体相关联的一个或多个特征和与一个或多个相关实体相关联的一个或多个特征之间的相似度来向一个或多个相关实体分配权重值。此外，AML平台可以确定权重值是否满足阈值，并且如果相关实体的一个或多个特征满足阈值，则AML平台可以将相关实体标识为洗钱候选。

作为示例，AML平台可以通过确定目标实体与相关实体集合中的每个相关实体之间的距离来分析目标实体信息和/或相关实体信息。在这种情况下，AML平台可以基于相关实体与目标实体之间的距离向相关实体分配权重值。另外，AML平台可以确定权重值是否满足距离阈值。如果相关实体权重值满足距离阈值(例如，足够接近目标实体)，则AML平台可以将相关实体标识为洗钱候选。

通过将一个或多个相关实体标识为洗钱候选，AML平台标识相关实体集合的子集以进一步分析，从而与对整个相关实体集合执行进一步分析相比节省了处理资源。

如图1B和附图标记115所示，AML平台可以确定目标实体与一个或多个相关实体之间的一个或多个关系。例如，AML平台可以分析从第一数据源获得的目标实体信息和相关实体信息以确定一个或多个基于相似性的关系、一个或多个基于语义的关系等。

在一些实现中，AML平台可以确定一个或多个基于相似性的关系。例如，AML平台可以通过分析目标实体信息和/或相关实体信息来确定目标实体与一个或多个相关实体之间的相似度。例如，目标实体与相关实体之间的相似度可以基于目标实体和相关实体是否共享公共的业务领域、目标实体的地理位置是否非常接近相关实体地理位置、目标实体的雇员是否居住在与相关实体的雇员所居住的地理位置相似的地理位置等。另外，AML平台可以向目标实体信息和/或相关实体信息分配权重值，并且可以使用加权值来确定目标实体与一个或多个相关实体之间的相似度。

在一些实现中，AML平台可以确定一个或多个基于语义的关系。例如，AML平台可以分析目标实体信息和/或相关实体信息以确定可以用于建立实体之间的关系的语义短语。作为示例，AML平台可以分析目标实体信息和相关实体信息以确定人员A是目标实体A的股东、相关实体A是目标实体A与相关实体B之间的中间人、以及人员B是相关实体B的受益人。

如附图标记120所示，AML平台可以生成图数据结构。例如，AML平台可以生成使用一个或多个关系将目标实体与一个或多个相关实体相关联的图数据结构。在这种情况下，图数据结构可以包括节点(例如，与目标实体、一个或多个相关实体等相关的节点)和边(例如，表示目标实体与一个或多个相关实体之间的一个或多个关系的边)。另外，节点可以包括具有目标实体信息、相关实体信息和/或标识目标实体信息与相关实体信息之间的一个或多个关系的信息的元数据。如图1B的示例所示，图数据结构可以包括目标实体A、人员A、相关实体A、相关实体B和人员B。在这种情况下，图数据结构可以使用一个或多个关系将实体相关联。

以这种方式，AML平台可以生成使用一个或多个关系来将目标实体和一个或多个相关实体相关联的数据结构。这可以允许AML平台进一步分析信息以确定目标实体和/或一个或多个相关实体是否从事洗钱。

如图1C和附图标记125所示，AML平台可以从第二数据源获得附加信息。附加信息可以包括雇员人口统计信息、与特定商业交易相关联的信息等。如附图标记130所示，AML平台可以分析附加信息。例如，AML平台可以分析附加信息以标识图数据结构的附加节点和/或边，以验证图数据结构的现有节点和边，确定图数据结构的现有节点的附加元数据，使用来自其他源的附加节点和边来扩展现有图，等等。

如附图标记135所示，AML平台可以更新图数据结构。例如，AML平台可以通过添加节点、添加边、移除节点、移除边、为现有节点添加附加元数据、移除现有节点的元数据等来更新图数据结构。如图1C中的示例所示，假定AML平台分析附加信息以确定人员B是人员A的妻子，并且目标实体A与相关实体B有数百万美元的合同。在这种情况下，AML平台可以通过添加标识新关系的两个附加边来更新数据结构。

以这种方式，AML平台可以使用可以用于确定目标实体和/或一个或多个相关实体是否从事洗钱的附加信息来更新图数据结构。

如图1D和附图标记140所示，AML平台可以从第三数据源获得与第二实体集合相关联的训练信息。训练信息可以包括与实体相关联的信息，并且可以包括与没有被包括在洗钱调查中的企业相关联的信息。如附图标记145所示，AML平台可以生成数据模型。例如，AML平台可以使用训练信息和训练字典来生成数据模型。在这种情况下，训练字典可以包括将单词和短语与特定得分相关联的单词和短语的集合。以这种方式，AML平台可以通过使用训练字典对训练信息进行评分来生成数据模型。

如附图标记150所示，AML平台可以从第四数据源获得与第三实体集合相关联的测试信息。测试信息可以包括与实体相关的当前信息。如附图标记155所示，AML平台可以验证数据模型。例如，AML平台可以通过使用测试信息作为数据模型的输入来验证数据模型。在一些情况下，AML平台可以通过获得与最近被证明洗钱的实体相关的测试信息来验证数据模型，并且可以通过验证数据模型是否正确地预测实体从事洗钱来验证数据模型。

以这种方式，AML平台可以生成和验证可以用于处理被包括在图数据结构中的信息的数据模型，由此允许AML平台确定目标实体和/或一个或多个相关实体是否从事洗钱。

如图1E和附图标记160所示，AML平台可以使用被包括在图数据结构中的信息作为数据模型的输入。例如，AML平台可以使用一个或多个节点、一个或多个边和/或与一个或多个节点相关联的元数据作为数据模型的输入。如附图标记165所示，AML平台可以使用数据模型来确定得分(例如，情绪得分)。在这种情况下，较高的得分可以表明实体从事洗钱的可能性较高(反之亦然)。作为示例示出，得分可以在0到4的范围内，其中0指示非常低的概率，1指示低概率，2指示中等概率，3指示高概率，并且4指示非常高的概率。在这个示例中，数据模型可以接收与人员A相关联的信息作为输入，可以分析信息，并且可以输出得分4，表明人员A从事洗钱的概率非常高。

如附图标记170所示，AML平台可以生成指示目标实体是否从事洗钱的推荐。例如，如果得分为正面或非常正面，则AML平台可以生成指示实体从事洗钱的推荐，并且如果得分为负面或非常负面，则AML平台可以生成指示实体没有从事洗钱的推荐。在一些情况下，不是做出明确的确定，而是推荐可以包括指示实体从事洗钱的可能性的置信度得分。如附图标记175所示，AML平台可以向感兴趣方(例如，诸如银行等金融机构)提供推荐。

以这种方式，AML平台有效且客观地检测洗钱，从而降低误报预测的速率。

如上所述，图1A至1E仅作为示例而被提供。其他示例是可能的，并且可以不同于关于图1A至1E描述的示例。例如，反洗钱平台可以确定个人是否从事洗钱，诸如黑社会成员、帮派成员等。在一些实现中，AML平台可以确定实体或个人是否从事与洗钱相关的非法行为，诸如欺诈、内幕交易、市场操纵等。

图2A和2B是其中可以实现本文所描述的系统和/或方法的示例环境200的图。如图2A所示，环境200可以包括数据源210、被托管在云计算环境230内的AML平台220、和/或网络240。环境200的设备可以经由有线连接、无线连接或有线和无线连接的组合来互连。

数据源210包括能够存储和提供与实体相关联的信息的一个或多个设备。例如，数据源210可以包括服务器或一组服务器。在一些实现中，数据源210可以包括新闻数据源(例如，提供与目标实体相关的信息的新闻源)、社交媒体数据源(例如，Facebook、Twitter等)、网站数据源(例如，金融网站、公司网站、发布秘密信息的网站、新闻泄漏和/或来自匿名来源的分类媒体等)、内部数据源(例如，执行洗钱调查的实体内部的数据源)等。在一些实现中，数据源210可以向AML平台220提供目标实体信息和/或相关实体信息。在一些实现中，第一数据源210(例如，新闻源)可以提供与第一实体集合相关联的信息。另外，第二数据源210(例如，社交媒体源)可以提供与第一实体集合相关联的附加信息。另外，第三数据源210(例如，另一新闻源、另一社交媒体源或网站)可以提供与第二实体集合(例如，可能经受或没有经受洗钱调查的实体)相关联的信息。另外，第四数据源210(例如，另一新闻源、另一社交媒体源或网站)可以提供可以用于训练和/或验证数据模型的信息(例如，训练信息、测试信息等)。

AML平台220包括能够获得、存储、生成、分析和/或提供与洗钱调查相关联的信息的一个或多个设备。例如，AML平台220可以包括云服务器或一组云服务器。在一些实现中，AML平台220可以获得与洗钱调查相关联的信息。在一些实现中，AML平台220可以分析信息并且可以向对洗钱调查感兴趣方(例如，金融机构，诸如银行、执法机构等)提供推荐。

在一些实现中，如图所示，AML平台220可以被托管在云计算环境230中。值得注意的是，虽然本文所描述的实现将AML平台220描述为托管在云计算环境230中，但是在一些实现中，AML平台220可以不是基于云的(即，可以被实现在云计算环境之外)，或者可以是部分基于云的。

云计算环境230包括托管AML平台220的环境。云计算环境230可以提供不需要终端用户知道托管AML平台220的系统和/或设备的物理位置和配置的计算、软件、数据访问、存储等服务。如图所示，云计算环境230可以包括一组计算资源222(统称为“计算资源222”，并且单独称为“计算资源222”)。

计算资源222包括一个或多个个人计算机、工作站计算机、服务器设备或另一类型的计算和/或通信设备。在一些实现中，计算资源222可以托管AML平台220。云资源可以包括在计算资源222中执行的计算实例、在计算资源222中提供的存储设备、由计算资源222提供的数据传送设备等。在一些实现中，资源222可以经由有线连接、无线连接或有线和无线连接的组合与其他计算资源222通信。

如图2A进一步所示，计算资源222可以包括一组云资源，诸如一个或多个应用(“APP”)222-1、一个或多个虚拟机(“VM”)222-2、虚拟化存储装置(“VS”)222-3、一个或多个管理程序(“HYP”)222-4等。

应用222-1包括可以被提供给与感兴趣方相关联的设备或被该设备访问的一个或多个软件应用。应用222-1可以消除在与兴趣方相关联的设备上安装和执行软件应用的需要。例如，应用222-1可以包括与AML平台220相关联的软件和/或能够经由云计算环境230提供的任何其他软件。在一些实现中，一个应用222-1可以经由虚拟机222-2向/从一个或多个其他应用222-1发送/接收信息。

虚拟机222-2包括像物理机器一样执行程序的机器(例如，计算机)的软件实现。虚拟机222-2可以是系统虚拟机或进程虚拟机，这取决于虚拟机222-2与任何真实机器的使用和对应程度。系统虚拟机可以提供支持完整操作系统(“OS”)的执行的完整系统平台。进程虚拟机可以执行单个程序，并且可以支持单个进程。在一些实现中，虚拟机222-2可以代表用户执行，并且可以管理云计算环境230的基础设施，诸如数据管理、同步或长持续时间数据传送。

虚拟化存储装置222-3包括在计算资源222的存储系统或设备内使用虚拟化技术的一个或多个存储系统和/或一个或多个设备。在一些实现中，在存储系统的上下文中，虚拟化可以包括块虚拟化和文件虚拟化。块虚拟化可以是指逻辑存储与物理存储的抽象(或分离)，使得可以访问存储系统而不考虑物理存储或异构结构。分离可以允许存储系统的管理员在管理员如何管理终端用户的存储方面变得灵活。文件虚拟化可以消除在文件级别访问的数据与物理地存储文件的位置之间的依赖关系。这可以实现存储使用的优化、服务器整合和/或无中断文件迁移的性能。

管理程序222-4提供允许多个操作系统(例如，“客户操作系统”)在诸如计算资源222等主计算机上并行执行的硬件虚拟化技术。管理程序222-4可以向客户操作系统呈现虚拟操作平台，并且可以管理客户操作系统的执行。多种操作系统的多个实例可以共享虚拟化硬件资源。

网络240包括一个或多个有线和/或无线网络。例如，网络240可以包括蜂窝网络(例如，第五代(5G)网络、第四代(4G)网络(诸如长期演进(LTE)网络)、第三代(3G)网络、码分多址(CDMA)网络、另一类型的高级生成网络等)、公共陆地移动网络(PLMN)、局域网(LAN)、广域网(WAN)、城域网(MAN)、电话网络(例如，公共交换电话网(PSTN))、专用网络、自组织网络、内联网、因特网、基于光纤的网络、云计算网络等、和/或这些或其他类型的网络的组合。

图2A所示的设备和网络的数目和布置作为示例而被提供。实际上，可以存在与图2A所示的那些相比更多的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络、或者不同地布置的设备和/或网络。此外，图2A所示的两个或更多个设备可以被实现在单个设备内，或者图2A所示的单个设备可以实现为多个分布式设备。附加地或备选地，环境200的设备集合(例如，一个或多个设备)可以执行被描述为由环境200的另一设备集合执行的一个或多个功能。

图2B是AML平台220的示例功能模块的图。如图2B所示，AML平台220可以包括输入模块223、邻近分析模块224、关系分析模块225、数据存储模块226、社交分析模块227、评分模块228，推荐模块229等。在一些实现中，一个或多个模块可以被实现为AML平台220的一部分。AML平台220的功能模块可以用硬件、在硬件上执行的软件、和/或固件来实现。

输入模块223对一个或多个计算资源进行操作并且与获得、格式化、存储和/或提供与洗钱调查相关联的信息相关联。例如，输入模块223可以从第一数据源210获得第一实体集合的目标实体信息和/或相关实体信息。另外，输入模块223可以从第二数据源210获得附加目标实体信息和/或第一实体集合的附加相关实体信息。另外，输入模块223可以从第三数据源210获得用于生成数据模型的训练信息。另外，输入模块223可以从第四数据源210获得用于验证数据模型的测试信息。在一些实现中，输入模块223可以从一个或多个数据源210获得数千、数百万、数十亿、数万亿等的数据项。在一些实现中，输入模块223可以将从多个数据源获得的信息格式化为单个数据类型，从而允许AML平台220的一个或多个其他模块进一步分析信息。

邻近分析模块224对一个或多个计算资源进行操作并且与将一个或多个相关实体标识为洗钱候选相关联。例如，邻近分析模块224可以分析与目标实体相关联的目标实体信息以及与相关实体集合相关联的相关实体信息，以将一个或多个相关实体标识为洗钱候选。在一些实现中，邻近分析模块224可以针对相关实体集合中的相关实体，确定相关实体与目标实体之间的距离。

关系分析模块225对一个或多个计算资源进行操作并且与确定目标实体与一个或多个相关实体之间的一个或多个关系相关联。例如，关系分析模块225可以包括相似性分析子模块和/或语义分析子模块。在一些实现中，相似性分析子模块可以分析目标实体信息和/或相关实体信息以确定目标实体与相关实体之间的相似度。在一些情况下，相似性分析子模块可以向相关实体分配指示相关实体与目标实体之间的相似度的权重值。附加地或备选地，语义分析子模块可以分析目标实体信息和/或相关实体信息以确定目标实体与一个或多个相关实体之间的语义关系。

数据存储模块226对一个或多个计算资源进行操作并且与生成使用一个或多个关系将目标实体和一个或多个相关实体相关联的数据结构(例如，图数据结构)相关联。例如，数据存储模块226可以生成包括节点(例如，表示目标实体、一个或多个相关实体等)和边(例如，表示目标实体与一个或多个相关实体之间的一个或多个关系)的图数据结构。在一些实现中，数据存储模块226可以更新图数据结构以包括与洗钱调查相关联的附加信息。

社交分析模块227对一个或多个计算资源进行操作并且与标识和/或生成目标实体与一个或多个相关实体之间的附加关系相关联。例如，社交分析模块227可以从数据源210(例如，新闻源、社交媒体源、网站等)分析附加信息以标识与洗钱调查相关的信息。在一些实现中，由社交分析模块227生成的输出可以由数据存储模块226用来更新图数据结构。

评分模块228对一个或多个计算资源进行操作并且与确定目标实体的得分和一个或多个相关实体的一个或多个得分相关联。例如，评分模块228可以包括数据模型生成子模块、数据模型验证子模块、数据模型处理子模块等。在一些实现中，数据模型生成子模块可以使用训练信息来生成数据模型。在一些实现中，数据模型验证子模块可以使用测试信息来验证数据模型。在一些实现中，数据模型处理子模块可以使用数据模型来确定目标实体的得分(例如，情绪得分)和/或一个或多个相关实体的一个或多个得分(例如，情绪得分)。

推荐模块229对一个或多个计算资源进行操作并且与提供推荐相关联。例如，推荐模块229可以生成指示目标实体和/或一个或多个相关实体是否从事洗钱的推荐，并且可以向感兴趣方(例如，金融机构)提供推荐。作为另一示例，推荐模块229可以生成包括感兴趣方(例如，调查者)可以采取以确定实体是否从事洗钱的一个或多个动作的推荐。

图2B所示的设备和模块的数目和布置作为示例而被提供。实际上，可以存在与图2B所示的那些相比更多的设备和/或模块、更少的设备和/或模块、不同的设备和/或模块、或不同地布置的设备和/或模块。此外，图2B所示的两个或更多个设备和/或模块可以被实现在单个设备内，或者图2B所示的单个设备和/或单个模块可以实现为多个分布式设备和/或模块。例如，虽然模块223至229被示出为由单个云平台220(例如，AML平台220)操作，但是模块223至227可以由第一云平台220(例如，链路分析平台)操作，并且模块228至229可以由可以经由接口(诸如应用编程接口(API)、安全接口等)进行通信的第二云平台220(例如，评分和推荐平台)操作。附加地或备选地，环境200的设备集合(例如，一个或多个设备)可以执行被描述为由环境200的另一设备集合执行的一个或多个功能。

图3是设备300的示例组件的示图。设备300可以对应于数据源210和/或AML平台220。在一些实现中，数据源210和/或AML平台220可以包括一个或多个设备300和/或设备300的一个或多个组件。如图3所示，设备300可以包括总线310、处理器320、存储器330、存储组件340、输入组件350、输出组件360和通信接口370。

总线310包括允许设备300的组件之间的通信的组件。处理器320以硬件、固件或硬件和软件的组合来实现。处理器320包括中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或另一类型的处理组件。在一些实现中，处理器320包括能够被编程为执行功能的一个或多个处理器。存储器330包括存储随机存取存储器(RAM)、只读存储器(ROM)和/或另一类型的动态或静态存储设备(例如，闪存、磁存储器和/或光存储器)，其存储用于由处理器320使用的信息和/或指令。

存储组件340存储与设备300的操作和使用相关联的信息和/或软件。例如，存储组件340可以包括硬盘(例如，磁盘、光盘、磁光盘、和/或固态盘)、光盘(CD)、数字多功能盘(DVD)、软盘、盒式磁带、磁带和/或另一类型的非暂态计算机可读介质以及相应的驱动器。

输入组件350包括允许设备300接收信息的组件，诸如经由用户输入(例如，触摸屏显示器、键盘、小键盘、鼠标、按钮、开关和/或麦克风)。附加地或备选地，输入组件350可以包括用于感测信息的传感器(例如，全球定位系统(GPS)组件、加速度计、陀螺仪和/或致动器)。输出组件360包括提供来自设备300的输出信息的组件(例如，显示器、扬声器和/或一个或多个发光二极管(LED))。

通信接口370包括使得设备300能够诸如经由有线连接、无线连接或有线和无线连接的组合与其他设备通信的收发器类的组件(例如，收发器和/或单独的接收器和发射器)。通信接口370可以允许设备300从另一设备接收信息和/或向另一设备提供信息。例如，通信接口370可以包括以太网接口、光学接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、Wi-Fi接口、蜂窝网络接口等。

设备300可以执行本文所描述的一个或多个过程。设备300可以响应于处理器320执行由诸如存储器330和/或存储组件340等非暂态计算机可读介质存储的软件指令来执行这些处理。计算机可读介质在本文中被定义为非暂态存储器设备。存储器设备包括在单个物理存储设备内的存储器空间或跨多个物理存储设备分布的存储器空间。

软件指令可以经由通信接口370从另一计算机可读介质或从另一设备被读取到存储器330和/或存储组件340中。当被执行时，被存储在存储器330和/或存储组件340中的软件指令可以引起处理器320执行本文所描述的一个或多个过程。附加地或备选地，可以使用硬连线电路来代替软件指令或与软件指令相结合来执行本文所描述的一个或多个过程。因此，本文所描述的实现不限于硬件电路和软件的任何特定组合。

图3所示的组件的数目和布置作为示例而被提供。实际上，设备300可以包括与图3所示的那些相比更多的组件、更少的组件、不同的组件或不同地布置的组件。附加地或备选地，设备300的组件集合(例如，一个或多个组件)可以执行被描述为由设备300的另一组件集合执行的一个或多个功能。

图4是用于将实体集合标识为洗钱候选、确定洗钱候选之间的一个或多个关系以及生成图数据结构以存储洗钱候选之间的一个或多个关系的示例过程400的流程图。在一些实现中，图4的一个或多个过程框可以由AML平台220执行。在一些实现中，图4的一个或多个过程框可以由与AML平台220分离或包括AML平台220的另一设备或设备集合执行，诸如数据源210。

如图4所示，过程400可以包括从第一数据源获得与洗钱调查中涉及的目标实体和相关实体集合相关联的信息(框410)。例如，AML平台220可以从第一数据源210(例如，其可以表示数十、数百或甚至数千个数据源)获得洗钱调查中涉及的目标实体的目标实体信息和/或可能涉及洗钱的相关实体集合的相关实体信息。目标实体信息可以包括与企业相关联的信息和/或与企业的一个或多个雇员相关联的信息。例如，目标实体信息可以包括指示以下各项的信息：企业名称、企业所在的区域或领域、企业所在的位置、企业从事的交易、雇员姓名、雇员职位、雇员工作描述等。相关实体信息还可以包括与企业相关联的信息和/或与企业的一个或多个雇员相关联的信息。相关实体可以是从事与目标实体的交易的实体，和/或是作为涉及目标实体的交易中的中间人的实体。

在一些实现中，AML平台220可以获得与洗钱调查中涉及的第一实体集合相关联的信息。例如，AML平台220可以从第一数据源210获得目标实体信息和/或相关实体信息，第一数据源210提供关于目标实体的泄漏(即，潜在地牵连信息)。在一些情况下，AML平台220可以提供目标实体指示符(例如，企业名称、雇员姓名等)作为输入以搜索第一数据源210，以引起第一数据源210提供与洗钱调查相关联的信息。

在一些实现中，AML平台220可以存储与洗钱调查相关联的信息。例如，如本文中进一步所述，AML平台220可以使用图数据结构或者以允许AML平台220进一步分析信息的格式来存储与洗钱调查相关联的信息。

如图4进一步所示，过程400可以包括分析信息以将相关实体集合中的一个或多个相关实体标识为洗钱候选(框420)。例如，AML平台220可以分析目标实体信息和/或相关实体信息以将一个或多个相关实体标识为洗钱候选。在一些实现中，洗钱候选可以是在目标实体的阈值距离内(例如，阈值社交距离、阈值地理距离等)的相关实体。

在一些实现中，AML平台220可以分析目标实体信息和/或相关实体信息以确定信息是否满足阈值社交距离。例如，AML平台220可以针对相关实体集合中的每个相关实体，比较相关实体与目标实体之间的社交距离。社交距离可以指示两个实体(例如，两个个人)连接的程度。作为示例，丈夫和妻子的社交距离可以比两个不相关的人更接近。如果相关实体与目标实体之间的社交距离满足阈值社交距离，则AML平台220可以将相关实体标识为洗钱候选。

在一些实现中，AML平台220可以分析目标实体信息和/或相关实体信息以确定信息是否满足阈值地理距离。例如，AML平台220可以针对相关实体集合中的每个相关实体，确定相关实体与目标实体之间的地理距离。如果相关实体与目标实体之间的地理距离满足阈值地理距离，则AML平台220可以将相关实体标识为洗钱候选。

在一些实现中，AML平台220可以向距离间隔应用权重，可以确定目标实体与相关实体之间的距离(例如，社交距离、地理距离等)，并且可以基于与距离相关联的距离区间来向相关实体分配特定权重。作为示例，AML平台220可以基于下式使用顶点距离算法来确定距离的相似度：

D(E,E’,relation_type)＝Φ(E,E’)+∑[∫(relation_type)] (1)

在式1中，函数D(E,E’,relation_type)可以表示目标实体与相关实体之间的距离的相似度。术语relation_type可以表示被分配给目标实体与相关实体之间的关系的权重。函数Φ(E,E’)指示目标实体与相关实体之间的距离相似度。在一些实现中，AML平台220可以应用顶点距离算法来将一个或多个相关实体标识为洗钱候选。

通过将一个或多个相关实体标识为洗钱候选，AML平台220可对从第一数据源210获得的信息的子集执行进一步分析，从而与对所有信息执行进一步分析相比节省处理资源。

如图4进一步所示，过程400可以包括确定目标实体与一个或多个相关实体之间的一个或多个关系(框430)。例如，AML平台220可以通过分析目标实体信息和/或与一个或多个相关实体相关联的相关实体信息来确定目标实体与一个或多个相关实体之间的一个或多个关系。在一些实现中，AML平台220可以分析目标实体信息和/或相关实体信息以确定一个或多个基于相似性的关系、一个或多个基于语义的关系，等等。

在一些实现中，AML平台220可以确定一个或多个基于相似性的关系。例如，AML平台220可以分析被包括在目标实体信息中的信息和/或被包括在相关实体信息中的信息，以确定目标实体与相关实体之间的相似度。例如，目标实体与相关实体之间的相似度可以基于目标实体和相关实体是否共享公共的业务领域、目标实体的地理位置是否非常接近相关实体地理位置、目标实体的雇员是否居住在与相关实体的雇员所居住的地理位置相似的地理位置、目标实体的雇员和相关实体的雇员是否在阈值社交距离内等。另外，AML平台220可以向目标实体信息和/或相关实体信息分配权重值，并且可以使用权重值来确定目标实体与一个或多个相关实体之间的相似度。

作为示例，AML平台220可以基于以下相似性分析等公式来确定目标实体与相关实体之间的相似度：

Φ(X,X’)＝∑(δ(x_i,x’_i)) (2)

在式2中，函数Φ(X,X’)可以表示目标实体与相关实体之间的总体相似度。Kronecker Delta算子(δ)可以表示目标实体的属性与相关实体的属性之间的相似度(例如，属性可以是特定类型的信息，诸如企业所在的领域、企业的地理位置等)。如果目标实体的属性值和相关实体的属性值相同，则Kronecker Delta算子的值可以为1。在一些实现中，AML平台220可以应用相似性分析公式来确定目标实体与一个或多个相关实体之间的一个或多个关系。

在一些实现中，AML平台220可以确定一个或多个基于语义的关系。例如，AML平台220可以分析目标实体信息和/或相关实体信息以确定实体之间的语义短语。例如，语义短语可以指示被包括在目标实体信息和/或相关实体信息中的单词和/或短语之间的关系。作为示例，目标实体信息和相关实体信息可以指示人员A是实体A的雇员，人员A是主管，人员A曾从事与人员B打交道的业务，以及人员B是实体B的主管。在这种情况下，AML平台220可以分析目标实体信息和相关实体信息以标识以下语义短语：人员A是实体A的主管，并且从事与作为实体B的主管的人员B打交道的业务。

通过确定目标实体与一个或多个相关实体之间的一个或多个关系，AML平台220可以生成可以用于进一步分析的图数据结构。

如图4进一步所示，过程400可以包括生成使用一个或多个关系来将目标实体和一个或多个相关实体相关联的图数据结构(框440)。例如，AML平台220可以生成包括节点(例如，表示目标实体、一个或多个相关实体等)和边(例如，表示目标实体与一个或多个相关实体之间的一个或多个关系)的图数据结构。在一些实现中，图数据结构可以是指以图形格式(例如，知识图、图数据库、知识库等)表示数据的数据结构。另外，一个或多个节点可以包括元数据，元数据包括目标实体信息、相关实体信息、标识节点之间的一个或多个关系的信息等。

在一些实现中，图数据结构可以包括节点集合和与节点集合相关联的边集合。例如，节点集合可以对应于实体(例如，目标实体、一个或多个相关实体等)，并且边集合可以对应于节点之间的关系。作为示例，第一节点(例如，“人员A”)和第二节点(例如，“实体A”)可以包括标识第一节点与第二节点之间的关系的边(例如，“是...的股东”)，例如，人员A是实体A的股东。

在一些实现中，图数据结构可以存储大量的数据。例如，图数据结构可以包括数千、数万、数十万甚至数百万个节点和边。以这种方式，AML平台220能够存储大量的数据以进行处理。此外，大量的数据可能会使得人类操作员或劣等的AML系统无法客观地分析或处理。

通过生成使用一个或多个关系来将目标实体和一个或多个相关实体相关联的图数据结构，AML平台220以允许后续分析确定目标实体和/或一个或多个相关实体是否从事洗钱的方式来存储信息。

如图4进一步所示，过程400可以包括从第二数据源获得与洗钱调查中涉及的目标实体和/或一个或多个相关实体相关联的附加信息(框450)。例如，AML平台220可以从第二数据源210(例如，其可以代表数十、数百或甚至数千个数据源)获得附加目标实体信息和/或附加相关实体信息。附加目标实体信息和附加相关实体信息可以包括与企业相关联的信息和/或与企业的一个或多个雇员相关联的信息，诸如雇员人口统计信息(例如，雇员地址、雇员性别、雇员婚姻状况等)、指示商业交易的细节的信息(例如，描述商业交易的细节的社交媒体帖子、揭示商业交易的细节的新闻源泄漏等)，等等。

在一些实现中，AML平台220可以从第二数据源210获得与洗钱调查相关联的附加信息。例如，AML平台220可以从第二数据源210(诸如新闻源、社交媒体源、网站等)获得与目标实体相关联的附加信息。在这种情况下，AML平台220可以使用数据挖掘技术来获得附加信息。在一些实现中，AML平台220可以从多个第二数据源210(例如，数千个第二数据源210)获得大量的附加信息(例如，千兆字节、兆兆字节、拍字节等)，由此允许AML平台220与无法处理大量数据的AML服务相比做出更准确的预测。

以这种方式，AML平台220可以获得可以被分析以允许AML平台220确定目标实体和/或一个或多个相关实体是否从事洗钱的附加信息。

如图4进一步所示，过程400可以包括分析附加信息以确定图数据结构的一个或多个修改(框460)。例如，AML平台220可以分析附加目标实体信息和/或附加相关实体信息以标识图数据结构的附加节点和/或边，以验证图数据结构的现有节点和边，以确定图数据结构的特定节点的附加元数据，以从图数据结构中移除节点和/或边，等等。

在一些实现中，AML平台220可以分析附加信息以标识图数据结构的附加节点和/或边。例如，AML平台220可以分析附加信息以标识一个或多个附加相关实体以及目标实体与一个或多个相关实体之间的一个或多个附加关系。在这种情况下，如上所述，AML平台220可以通过执行相似性分析和/或语义分析来分析信息。作为示例，AML平台220可以确定先前未被包括在一个或多个相关实体中的实体满足与目标实体的阈值相似度，并且因此应当被包括在图数据结构中。作为另一示例，AML平台220可以确定在目标实体与相关实体之间先前未标识的关系满足阈值相似度，并且因此应当被包括在图数据结构中。

附加地或备选地，AML平台220可以验证图数据结构的现有节点和边。例如，AML平台220可以通过将图数据结构的节点和边与附加信息进行比较来验证图数据结构的节点和边。在一些情况下，AML平台220可以确定附加信息是否满足与节点和边的阈值相似度。

如果AML平台220确定附加信息与节点和边相一致，则验证可以成功。如果AML平台220确定附加信息与节点和边不一致，并且附加信息是从可信源(例如，雇员的Facebook简档、信誉良好的新闻源等)获得，则AML平台220可以从图数据结构中移除节点和边。如果AML平台220确定附加信息与节点和边不一致，并且附加信息不是来自可信源(例如，用户在Tweet上传送关于雇员的指控)，则AML平台220可以执行可信度分析以确定是否验证节点和边或从图数据结构中移除节点和边。

附加地或备选地，AML平台220可以分析附加信息以确定节点的附加元数据。例如，AML平台220可以分析附加信息以生成实体的简档。在这种情况下，AML平台220可以生成可以作为与节点相关联的元数据而添加到图数据结构的简档。附加地或备选地，AML平台220可以分析附加信息并且通过执行上述分析来确定从节点中移除元数据。

附加地或备选地，AML平台220可以从图数据结构中移除节点和/或边。例如，AML平台220可以确定被包括在图数据结构中的节点集合和/或边集合的相关性得分集合。相关性得分可以指示与洗钱调查相关的信息的相关性程度。在这种情况下，AML平台220可以确定相关性得分集合中的一个或多个相关性得分是否满足相关性阈值。相关性阈值可以是标识节点或边是否满足特定相关性标准的限制或边界(例如，上边界、下边界)。如果一个或多个相关性得分满足相关性阈值，则AML平台220可以从图数据结构中移除与一个或多个相关性得分相关联的一个或多个节点和/或一个或多个边。以这种方式，AML平台220确保仅存储相关数据，从而节省了否则可能用于处理不相关数据的处理资源。

以这种方式，AML平台220可以更新图数据结构以包括附加信息，由此提供可以被分析以确定目标实体和/或一个或多个相关实体是否是从事洗钱的附加实体和/或关系。

如图4进一步所示，过程400可以包括使用一个或多个修改来更新图数据结构(框470)。例如，AML平台220可以通过添加或移除节点、添加或移除边、添加或移除节点元数据等来更新图数据结构。

在一些实现中，AML平台220可以通过预测信息来自动更新图数据结构。例如，AML平台220可以应用机器学习技术和/或人工智能技术来预测要被包括在图数据结构中的信息。在这种情况下，AML平台220可以分析图数据结构的节点和边以标识趋势。趋势可以是重复出现的人、地点、事物、关系等。在一些情况下，AML平台220可以将与趋势相关联的信息和趋势阈值相比较以确定信息是否要被添加到图数据结构。

作为示例，假定AML平台220接收图数据结构的信息，该信息指示实体A的九个股东参与股东投票。进一步假定实体A有十个股东，并且股东章程要求所有股东出席股东投票。在这种情况下，AML平台220可以应用机器学习技术来标识趋势(例如，所有股东都可能出席股东会议)。通过标识趋势，AML平台220能够更新图数据结构，使得边指示所有十个股东参与股东投票。以这种方式，AML平台220保存了否则可能用于纠正图数据结构中的错误的处理资源。此外，AML平台220通过使用机器学习和/或人工智能来降低误报率，从而做出更准确的洗钱确定。

通过使用一个或多个修改来更新图数据结构，AML平台220可以进一步分析已更新的图数据结构以确定目标实体和/或一个或多个相关实体是否从事洗钱。

尽管图4示出了过程400的示例框，但是在一些实现中，过程400可以包括与图4中描绘的那些相比更多的框、更少的框、不同的框或不同地布置的框。附加地或备选地，过程400的两个或更多个框可以并行执行。

图5是用于分析关于图4描述的示例过程中包括的图数据结构以确定实体集合中的一个或多个实体是否从事洗钱的示例过程500的流程图。在一些实现中，图5的一个或多个过程框可以由AML平台220执行。在一些实现中，图5的一个或多个过程框可以由与AML平台220分离或包括AML平台220的另一设备或一组设备执行，诸如数据源210。

如图5所示，过程500可以包括使用与第二实体集合相关联的训练信息来生成数据模型(框510)。例如，AML平台220可以从第三数据源210(例如，其可以表示数十、数百或甚至数千个数据源)获得与第二实体集合相关联的训练信息，并且可以使用训练信息来生成数据模型。训练信息可以包括与企业相关联的信息和/或与企业的一个或多个雇员相关联的信息(例如，上述信息、财务条款等)。训练信息可以包括与目标实体、相关实体集合、不相关实体集合等相关联的信息。如本文中进一步所述，通过使用训练信息来生成数据模型，AML平台220可以使用数据模型来确定目标实体和/或一个或多个相关实体是否从事洗钱。

在一些实现中，AML平台220可以对训练信息进行标准化。例如，AML平台220可以对训练信进行标准化以允许训练信息被处理以生成数据模型。在这种情况下，训练信息可以与不同的文件类型、不同的文件格式等相关联，并且AML平台220可以应用标准化技术以允许训练信息以统一格式被存储。在一些实现中，AML平台220可以针对不同的文件类型和/或文件格式应用不同的标准化技术。通过对训练信息进行标准化，AML平台220可以使用训练信息来生成数据模型。

在一些实现中，AML平台220可以生成数据模型。例如，AML平台220可以基于训练信息和训练字典并且使用深度学习分析技术来生成数据模型。训练字典可以包括与得分(例如，情绪得分，诸如正面情绪得分或负面情绪得分)相关联的单词和短语的集合。作为示例，AML平台220可以使用递归神经网络和词袋技术来生成数据模型。

在一些实现中，AML平台220可以使用机器学习技术来分析训练信息以生成模型。机器学习技术可以包括例如有监督和/或无监督技术，诸如人工网络、贝叶斯统计、学习自动机、隐马尔可夫模型、线性分类器、二次分类器、决策树、关联规则学习等。在一些实现中，AML平台220可以使用诸如人工智能、机器感知、计算机视觉等另一种计算机实现的技术来分析训练信息并且生成模型。

在一些实现中，AML平台220可以使用大量数据来生成模型。例如，AML平台220可以使用机器学习技术来分析大量数据(例如，兆兆字节、拍字节等)以生成模型。在这种情况下，大量的数据可以使得操作人员无法客观地分析。

以这种方式，AML平台220生成可以用于确定目标实体和/或一个或多个相关实体是否从事洗钱的数据模型。

如图5所示，过程500可以包括使用与第三实体集合相关联的测试信息来验证数据模型(框520)。例如，AML平台220可以从第四数据源210(例如，其可以表示数十、数百或甚至数千个数据源)获得与可以用于验证数据模型的第三实体集合相关联的测试信息。测试信息可以包括与企业相关联的信息和/或与企业的一个或多个雇员相关联的信息等。

在一些实现中，AML平台220可以验证数据模型。例如，AML平台220可以通过使用测试信息作为数据模型的输入来验证数据模型。在这种情况下，数据模型可以处理测试信息以输出已评分的单词或短语集合。作为示例，假定测试信息与已经被证明涉及洗钱的实体相关联。在这种情况下，如果数据模型输出指示实体涉及洗钱的得分，则AML平台220可以验证数据模型。如果数据模型输出指示实体不涉及洗钱的得分，则AML平台220可以获得可以用于重新训练数据模型的附加信息。在一些实现中，AML平台220可以继续使用测试信息来验证数据模型，直到数据模型的输出满足阈值准确度。

与应用未被验证的数据模型相比，通过验证数据模型，AML平台220能够做出准确的洗钱确定。

如图5进一步所示，过程500可以包括确定目标实体和/或一个或多个相关实体是否从事洗钱(框530)。例如，AML平台220可以使用数据模型来确定可以指示目标实体和/或一个或多个相关实体是否从事洗钱的得分(例如，情绪得分)。得分可以指示目标实体或相关实体从事洗钱的概率。作为示例，可以使用0至4的等级，其中0分指示非常低的概率，1分指示低概率，2分指示中等概率，3分指示高概率，并且4分指示非常高的概率。在其他示例中可以使用其他得分等级。

在一些实现中，AML平台220可以通过使用被包括在图数据结构中的信息作为数据模型的输入来确定实体(例如，目标实体、相关实体等)是否从事洗钱。例如，AML平台220可以提供被包括在图数据结构中的节点值作为数据模型的输入，并且数据模型可以输出实体的得分，该得分指示实体从事洗钱的概率。以这种方式，AML平台220能够使用图数据结构和数据模型来确定实体是否从事洗钱。

在一些实现中，AML平台220可以通过使用数据模型标识趋势来确定实体是否从事洗钱。例如，假定AML平台220使用数据模型来处理图数据结构的节点并且确定与节点相关联的实体具有高的概率(但不是非常高的概率)从事洗钱。在这种情况下，AML平台220可以使用数据模型来分析在一段时间间隔内与实体相关的信息以标识可以确认或否认实体参与洗钱的趋势。

在一些情况下，AML平台220可以使用词袋技术和递归神经网络(RNN)来确定趋势(例如，情绪趋势，诸如指示正面情绪方向或负面情绪方向)。例如，假定AML平台220使用领域专用字典(例如，词袋技术)和训练信息来训练RNN(即，数据模型)。在这种情况下，AML平台220可以使用领域专用字典来确定与实体相关联的特定单词的得分(例如，情感得分)，并且可以使用RNN来确定与实体相关联的特定短语的标签(例如，情感标签)。此外，AML平台220可以分析得分和标签以确定可以确认或否认实体参与洗钱的趋势。

通过确定得分和趋势，AML平台220能够确定目标实体和/或一个或多个相关实体是否从事洗钱。

如图5进一步所示，过程500可以包括向感兴趣方提供指示目标实体和/或一个或多个相关实体是否从事洗钱的推荐(步骤540)。例如，AML平台220可以基于得分和趋势生成推荐，并且可以向感兴趣方提供推荐(例如，通过提供推荐以用于用户界面上的图形显示)。感兴趣方可以是金融机构、执法机构、保险提供者等。

在一些实现中，AML平台220可以生成指示目标实体和/或一个或多个相关实体是否从事洗钱的推荐。例如，如果得分指示洗钱的概率高或非常高，则AML平台220可以生成指示目标实体和/或一个或多个相关实体从事洗钱的推荐。如果得分指示洗钱的概率低或非常低，则AML平台220可以生成指示目标实体和/或一个或多个相关实体没有从事洗钱的推荐。在一些实现中，AML平台220可以生成指示目标实体和/或一个或多个相关实体从事洗钱的可能性的推荐，并且可以使用得分作为置信度值。在一些实现中，AML平台220可以基于趋势来生成推荐。

在一些实现中，AML平台220可以提供包括将实体标识为从事洗钱的陈述以及可以用于防止附加洗钱和/或证明实体洗钱的附加信息的推荐。附加信息可以包括与该实体可能违反的一个或多个洗钱章程或法律相关联的信息、(例如，如经由一个或多个个人社交媒体账户获得的)与涉及洗钱的一个或多个个人相关联的位置信息、建议采取以防止后续洗钱行为的一个或多个附加措施的信息，等等。在一些实现中，AML平台可以分析指示实体或个人从事洗钱的得分，并且可以基于得分是否满足阈值来选择要包括在推荐中的特定措施(例如，洗钱的概率较高的得分可以与更严厉或更直接的措施相关联)。

作为示例，假定AML平台220确定与实体相关联的个体从事洗钱。进一步假定社交媒体账户上的个人帖子指示个体的地理位置。在这种情况下，AML平台220可以为物理上接近个人的地理位置的警察局提供推荐，以允许警察局逮捕或进一步调查从事洗钱的个人。以这种方式，AML平台220提供了将实体标识为洗钱者并且包括用于防止额外的洗钱和/或证明个体洗钱的附加信息的推荐。

作为另一示例，AML平台220可以向政策人员提供全点公告(APB)。例如，反洗钱平台220可以向警方人员提供指示个人从事洗钱的推荐，并且可以提供附加信息作为APB的一部分以向特定人员警告个人从事洗钱。

作为另一示例，AML平台220可以向诸如银行等金融机构提供推荐。例如，AML平台220可以向银行提供指示个人从事洗钱的推荐，并且可以提供建议银行经理冻结个人的账户(例如，银行账户、信用卡账户等)的附加信息。

作为另一示例，AML平台可以向由于洗钱导致丢失金钱的实体提供推荐。例如，AML平台220可以向实体提供指示实体雇用的个人从事洗钱的推荐，并且可以提供建议实体冻结与个人相关联的所有账户(例如，对商业账户的信用卡访问、对建筑物的卡访问等)的附加信息。

作为另一示例，AML平台220可以向司法机构提供推荐。例如，AML平台220可以提供指示个人从事洗钱的推荐，并且可以提供诸如电子批准等附加信息。在这种情况下，AML平台220可以自动填充电子批准的一个或多个单元，从而允许司法机构的人员快速处理并且执行批准。

通过生成推荐并且向感兴趣方提供推荐，AML平台220能够提醒感兴趣方以防止附加洗钱行为。

虽然图5示出了过程500的示例框，但是在一些实现中，过程500可以包括与图5中描绘的那些相比更多的框、更少的框、不同的框或不同地布置的框。附加地或备选地，过程500的两个或更多个框可以被并行执行。

以这种方式，AML平台220能够使用机器学习技术来处理大量数据，从而降低误报率并且提高洗钱确定的准确性。

前面的公开内容提供了说明和描述，但是并非旨在穷尽或将实现限于所公开的精确形式。鉴于上述公开内容，修改和变化是可能的，或者可以从实现的实践中被获得。

如本文中使用的，术语组件旨在被广义地解释为硬件、固件和/或硬件和软件的组合。

本文中结合阈值描述了一些实现。如本文中使用的，满足阈值可以是指如下的值：大于阈值、多于阈值、高于阈值、大于或等于阈值、小于阈值、少于阈值、低于阈值、小于或等于阈值、等于阈值等。

显然，本文所描述的系统和/或方法可以以不同形式的硬件、固件或硬件和软件的组合来实现。用于实现这些系统和/或方法的实际的专用控制硬件或软件代码不是对实现的限制。因此，本文所描述了系统和/或方法的操作和行为，而没有参考具体的软件代码，应当理解，软件和硬件可以被设计为基于本文的描述来实现这些系统和/或方法。

尽管特征的特定组合在权利要求中被列举和/或在说明书中被公开，但是这些组合不旨在限制可能实现的公开内容。实际上，这些特征中的很多特征可以以未在权利要求中具体记载和/或在说明书中公开的方式被组合。尽管下面列出的每个从属权利要求可以仅直接从属于一项权利要求，但是可能的实现的公开内容包括每个从属权利要求与权利要求集合中的每个其他权利要求的组合。

除非明确地如此描述，否则本文中使用的任何元素、动作或指令都不应当被解释为是关键或必要的。而且，如本文中使用的，冠词“一”和“一种”旨在包括一个或多个项目，并且可以与“一个或多个”可互换地使用。此外，如本文中使用的，术语“集合”旨在包括一个或多个项目(例如，相关项目、不相关项目、相关项目和不相关项目的组合等)，并且可以与“一个或多个”可互换地使用。在意图只有一个项目的情况下，使用术语“一个”或类似的语言。而且，如本文中使用的，术语“具有”、“有”、“含有”等旨在是开放式术语。此外，除非另有明确说明，否则短语“基于”旨在表示“至少部分地基于”。

Claims

1.一种用于挖掘和分析数据以标识洗钱者的反洗钱方法，包括：

由设备从第一数据源获得与洗钱调查中涉及的第一实体集合相关联的信息，

与所述第一实体集合相关联的所述信息包括针对目标实体的目标实体信息以及针对相关实体集合的相关实体信息；

由所述设备从第二数据源获得与所述目标实体和/或所述相关实体集合相关联的附加信息；

由所述设备确定所述目标实体与所述相关实体集合之间的一个或多个关系，

所述一个或多个关系指示所述目标实体与所述相关实体集合之间的相似度；

由所述设备生成使用所述一个或多个关系将所述目标实体与所述相关实体集合相关联的图数据结构；

由所述设备从第三数据源获取训练信息，所述训练信息包括与情感得分相关联的单词和短语的集合；

由所述设备应用一种或多种标准化技术将所述训练信息以统一格式存储，所述训练信息包括一种或多种文件类型或文件格式；

由所述设备在应用所述一种或多种标准化技术之后使用所述训练信息生成数据模型；

由所述设备使用测试信息来验证所述数据模型正确地预测实体从事洗钱，从而验证所述数据模型，所述测试信息来自第四数据源并且包括与涉及洗钱的实体相关联的信息；

基于确定所述数据模型没有正确预测所述实体从事洗钱，由所述设备重新训练所述数据模型；

由所述设备使用来自所述图数据结构的数据作为经重新训练的数据模型的输入来处理所述经重新训练的数据模型；

由所述设备使用所述经重新训练的数据模型确定针对所述目标实体的得分和/或针对所述相关实体集合的得分集合，

所述得分和/或所述得分集合用于标识所述目标实体和/或所述相关实体集合是否可能是洗钱者；以及

由所述设备基于确定所述得分和/或所述得分集合来生成和提供指示所述目标实体和/或所述相关实体集合是否可能从事洗钱的推荐。

2.根据权利要求1所述的方法，其中所述目标实体信息、所述相关实体信息和/或所述附加信息包括与企业相关联的信息和/或与所述企业的雇员相关联的信息，

与所述企业相关联的信息包括以下中的至少一项：

指示企业名称的信息，

指示所述企业所在的领域的信息，或者

指示所述企业所在的地理位置的信息，或者

与所述企业的所述雇员相关联的信息包括以下中的至少一项：

指示雇员姓名的信息，或者

指示雇员职位的信息。

3.根据权利要求1所述的方法，其中所述第二数据源包括与所述洗钱调查相关联的实体的新闻数据源、社交媒体数据源和/或内部数据源。

4.根据权利要求1所述的方法，还包括：

由所述设备分析与所述第一实体集合相关联的信息以将所述相关实体集合中的一个或多个相关实体标识为洗钱候选。

5.根据权利要求1所述的方法，还包括：

分析所述附加信息以标识一个或多个附加相关实体和/或所述目标实体与所述一个或多个相关实体之间的一个或多个附加关系；

更新所述图数据结构以包括与所述一个或多个附加相关实体相关联的信息和/或与所述一个或多个附加关系相关联的信息；

使用所述经重新训练的数据模型确定针对所述一个或多个附加相关实体的一个或多个得分；以及

提供指示所述一个或多个附加相关实体是否可能从事洗钱的另一推荐。

6.根据权利要求1所述的方法，还包括：

确定针对被包括在所述图数据结构中的边集合的相关性得分集合，

确定所述相关性得分集合中的一个或多个相关性得分满足相关性阈值，以及

移除与满足所述相关性阈值的所述一个或多个相关性得分相关联的一个或多个边和/或一个或多个节点。

7.一种非暂态计算机可读介质，其存储指令，所述指令包括：

一个或多个指令，其在由一个或多个处理器执行时引起所述一个或多个处理器：

从第一数据源获得与洗钱调查中涉及的第一实体集合相关联的信息，

与所述第一实体集合相关联的信息包括针对目标实体的目标实体信息以及针对相关实体集合的相关实体信息；

从第二数据源获得与所述洗钱调查中涉及的所述第一实体集合相关联的附加信息；

确定所述目标实体与所述相关实体集合之间的一个或多个关系，

生成使用所述一个或多个关系将所述目标实体与所述相关实体集合相关联的图数据结构；

从第三数据源获取训练信息，所述训练信息包括与情感得分相关联的单词和短语的集合；

应用一种或多种标准化技术将所述训练信息以统一格式存储，所述训练信息包括一种或多种文件类型或文件格式；

在应用所述一种或多种标准化技术之后使用所述训练信息生成数据模型；

使用测试信息来验证所述数据模型正确地预测实体从事洗钱，从而验证所述数据模型，所述测试信息来自第四数据源并且包括与涉及洗钱的实体相关联的信息；

基于确定所述数据模型没有正确预测所述实体从事洗钱，重新训练所述数据模型；

基于经重新训练的数据模型，分析被包括在所述图数据结构中的节点集合以确定得分集合；以及

基于所述得分集合来提供指示所述目标实体和/或所述相关实体集合是否可能从事洗钱的推荐。

8.根据权利要求7所述的非暂态计算机可读介质，其中引起所述一个或多个处理器确定所述一个或多个关系的所述一个或多个指令引起所述一个或多个处理器：

比较所述目标实体信息和与所述相关实体集合中的相关实体相关联的所述相关实体信息，

确定所述目标实体与所述相关实体之间的社交距离是否满足阈值社交距离，以及

基于确定所述目标实体与所述相关实体之间的所述社交距离满足所述阈值社交距离，标识所述一个或多个关系中的关系。

9.根据权利要求7所述的非暂态计算机可读介质，其中引起所述一个或多个处理器确定所述一个或多个关系的所述一个或多个指令引起所述一个或多个处理器：

比较所述目标实体信息和与所述相关实体集合中的相关实体相关联的相关实体信息，

基于比较所述目标实体信息和与所述相关实体相关联的所述相关实体信息，确定所述目标实体与所述相关实体之间的相似度，以及

向所述相关实体分配指示所述相关实体与所述目标实体之间的所述相似度的权重值。

10.根据权利要求7所述的非暂态计算机可读介质，其中所述一个或多个指令在由所述一个或多个处理器执行时还引起所述一个或多个处理器：

将所述附加信息与所述图数据结构的一个或多个节点和一个或多个边进行比较；

确定所述附加信息满足与所述图数据结构的所述一个或多个节点和所述边的阈值相似度；以及

基于确定所述附加信息满足所述阈值相似度，验证所述图数据结构的所述一个或多个节点和所述一个或多个边。

11.根据权利要求7所述的非暂态计算机可读介质，其中引起所述一个或多个处理器分析被包括在所述图数据结构中的所述节点集合的所述一个或多个指令引起所述一个或多个处理器：

提供被包括在所述图数据结构中的节点值作为所述经重新训练的数据模型的输入，

使用所述经重新训练的数据模型分析所述节点值，以及

基于使用所述经重新训练的数据模型分析所述节点值，确定得分，

所述得分待用于确定所述目标实体和/或所述相关实体集合是否可能从事洗钱。

12.根据权利要求7所述的非暂态计算机可读介质，其中引起所述一个或多个处理器分析被包括在所述图数据结构中的所述节点集合的所述一个或多个指令引起所述一个或多个处理器：

从第三数据源获得与第二实体集合相关联的训练信息，

所述第三数据源是新闻数据源或社交媒体数据源，以及

所述训练信息包括财务条款，

其中引起所述一个或多个处理器使用所述训练信息生成数据模型的所述一个或多个指令引起所述一个或多个处理器：

使用与所述第二实体集合相关联的所述训练信息、深度学习分析技术和词袋技术来生成所述数据模型；

其中引起所述一个或多个处理器分析被包括在所述图数据结构中的所述节点集合的所述一个或多个指令引起所述一个或多个处理器：

通过使用所述图数据结构的所述节点集合作为针对所述经重新训练的数据模型的输入，确定所述得分集合，

所述得分集合指示所述图数据结构中的节点值与正面情绪得分还是负面情绪得分相关联。

13.根据权利要求7所述的非暂态计算机可读介质，其中引起所述一个或多个处理器分析所述节点集合以确定所述得分集合的所述一个或多个指令引起所述一个或多个处理器：

分析在一段时间间隔内的所述节点集合以确定所述得分集合，

所述得分集合指示所述图数据结构中的节点值在所述时间间隔期间趋向正面情绪方向还是负面情绪方向；以及

其中引起所述一个或多个处理器提供所述推荐的所述一个或多个指令引起所述一个或多个处理器：

提供所述得分集合，以用于在设备的用户界面上的图形显示。

14.一种用于挖掘和分析数据以标识洗钱者的反洗钱设备，包括：

用于从第一数据源获得与洗钱调查中涉及的第一实体集合相关联的信息的装置，

所述信息包括针对目标实体的目标实体信息以及针对相关实体集合的相关实体信息；

用于分析所述目标实体信息和所述相关实体信息、以将所述相关实体集合中的一个或多个相关实体标识为洗钱候选的装置；

用于确定所述目标实体与所述一个或多个相关实体之间的一个或多个关系的装置，

所述一个或多个关系指示所述目标实体与所述一个或多个相关实体之间的相似度；

用于生成使用所述一个或多个关系将所述目标实体与所述一个或多个相关实体相关联的图数据结构的装置；

用于从第二数据源获取训练信息的装置，所述训练信息包括与情感得分相关联的单词和短语的集合；

用于应用一种或多种标准化技术将所述训练信息以统一格式存储的装置，所述训练信息包括一种或多种文件类型或文件格式；

用于在应用所述一种或多种标准化技术之后使用所述训练信息生成数据模型的装置；

用于使用测试信息来验证所述数据模型正确地预测实体从事洗钱，从而验证所述数据模型的装置，所述测试信息来自第三数据源并且包括与涉及洗钱的实体相关联的信息；

用于基于确定所述数据模型没有正确预测所述实体从事洗钱，重新训练所述数据模型的装置；

用于基于经重新训练的数据模型确定针对所述目标实体的得分和针对所述一个或多个相关实体的一个或多个得分的装置；以及

用于提供指示所述目标实体和/或所述一个或多个相关实体是否可能从事洗钱的推荐的装置。

15.根据权利要求14所述的设备，还包括：

用于分析附加信息以标识与所述洗钱调查相关的信息的装置；以及

用于更新被包括在所述图数据结构中的节点集合以存储与所述洗钱调查相关的信息的装置。

16.根据权利要求14所述的设备，还包括：

用于分析所述目标实体信息和/或针对所述一个或多个相关实体中的相关实体的相关实体信息以确定所述目标实体与所述相关实体之间的相似度的装置；以及

用于向所述相关实体分配指示所述相关实体与所述目标实体之间的所述相似度的权重值的装置。

17.根据权利要求14所述的设备，还包括：

用于分析所述目标实体信息和所述相关实体信息以确定所述目标实体与所述一个或多个相关实体之间的语义关系的装置。

18.根据权利要求14所述的设备，还包括：

用于使用所述经重新训练的数据模型确定针对所述目标实体的所述得分和/或针对所述一个或多个相关实体的所述一个或多个得分的装置。