CN114144770A - 用于生成用于模型重新训练的数据集的系统和方法 - Google Patents

用于生成用于模型重新训练的数据集的系统和方法 Download PDF

Info

Publication number
CN114144770A
CN114144770A CN202080035557.2A CN202080035557A CN114144770A CN 114144770 A CN114144770 A CN 114144770A CN 202080035557 A CN202080035557 A CN 202080035557A CN 114144770 A CN114144770 A CN 114144770A
Authority
CN
China
Prior art keywords
synthetic
dataset
model
datasets
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080035557.2A
Other languages
English (en)
Inventor
A·德维迪
H·郑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nasdaq Inc
Original Assignee
Nasdaq Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nasdaq Inc filed Critical Nasdaq Inc
Publication of CN114144770A publication Critical patent/CN114144770A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

提供了一种计算机系统并对其进行编程,以组装多个合成数据集并将那些合成数据集混合成合成数据集。然后执行评估,以确定现有模型应该与合成数据集相关联,还是应该使用合成数据集从现有模型训练新模型。

Description

用于生成用于模型重新训练的数据集的系统和方法
(一个或多个)相关申请的(一个或多个)交叉引用
本申请要求2019年5月14日提交的美国申请No.62/847,621和2020年5月13日提交的美国申请No.15/931,369的优先权,所述美国申请的全部内容特此通过引用并入。
技术领域
本文描述的技术涉及处理和/或准备用于重新训练或训练模型的数据集。更特别地,本文描述的技术涉及用于机器学习以及更特别的深度学习的转移学习技术。
背景技术
机器学习和深度学习可以向计算机赋予“学习”特定任务而无需为该任务对计算机明确地编程的能力。这可以通过基于初始数据开发模型(例如,数学模型)并且然后使用该模型评估新数据来实现。例如,可以开发模型在包含狗的图片和包含猫的图片之间自动识别和区分。
机器学习(以及特别是深度学习)中的一个问题是,开发这样的模型可能占用大量资源(例如,在时间、计算能力、数据集大小等方面)。并且对于每个新的任务或问题,可能需要开发新的模型来解决该特定的任务或问题。用于标识狗的模型可能对于标识马或猫没有那么有用。因此,的那个处理新类型的任务(例如,标识猫相对于标识狗)时,可能需要开发全新的模型。然而,生成(例如,训练)全新的模型可能是资源密集型的过程。
因此,将领会,在机器学习和深度学习中,不断寻求新的和改进的技术、系统和过程。这样的技术可以包括开发模型领域中新的和改进的技术。例如,通过准备或以其他方式组织可以用于开发新模型的数据集,新模型可以根据已经现有的模型训练。
发明内容
提供了一种计算机系统,并且该计算机系统被编程为组装多个合成数据集并将那些合成数据集混合成合成的数据集。然后,评估器确定是应当将现有模型与合成数据集相关联,还是应当使用合成数据集训练新模型。
提供本发明内容是为了引入将在下面的详细描述中进一步描述的概念的选择。本发明内容既不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围;相反,本发明内容旨在提供本文档中描述的主题的概述。因此,将领会,上述特征仅仅是示例,并且根据以下详细描述、附图和权利要求书,本文描述的主题的其他特征、方面和优点将变得清楚。
附图说明
通过结合附图参考示例非限制性说明性实施例的以下详细描述,将更好和更完全地理解这些和其他特征和优点,其中:
图1是根据某些示例实施例的被配置为处置已经通过使用机器和/或深度学习技术生成的多个不同模型的计算机系统的图解;
图2是根据某些示例实施例的被配置为选择或生成至少一个数据集和/或模型的计算机系统的图解;
图3是根据某些示例实施例的图2中所示的合成重新训练数据集生成器的流程图;
图4是根据某些示例实施例的包括图3中所示的具有模型无关张量同质性评估器(MATHOR)模块的学习Oracle(Learned Oracle)的框图;
图5示出了根据某些示例实施例可以使用MATHOR处理的数据集的示例;
图6示出了根据某些示例实施例的在图4的学习MATHOR模块中提供的MATHOR过程;
图7示出了可以作为图6的MATHOR过程的一部分计算的示例密度估计曲线;
图8图示了在图6中所示的MATHOR过程期间被执行的样本级相似性检查;
图9示图示了根据某些示例实施例的图4的用于数据集选择模块的学习Oracle;
图10A是根据某些示例实施例的图2的模型评估器的框图;
图10B是根据某些示例实施例可以如何采用图2的系统的示例实现的框图;和
图11示出了可以在一些实施例中用于实现本文描述的特征的示例计算设备。
具体实施方式
在以下描述中,出于解释而非限制的目的,阐述了诸如特定节点、功能实体、技术、协议等之类的具体细节,以便提供对所述技术的理解。对于本领域技术人员而言将清楚的是,除了下面描述的具体细节之外,还可以实践其他实施例。在其他实例中,对公知的方法、设备、技术等的详细描述被省略,以免用不必要的细节模糊描述。
在本具体实施方式中使用章节仅仅是为了引导读者以便了解每个章节的一般主题;如下文将看到的,许多特征的描述跨越多个章节,并且标题不应被解读为影响任何章节中包括的描述的含义。
概述
提供了一种计算机系统,并且该计算机系统被编程为从多个帧组装或以其他方式生成数据集,并为组装或以其他方式生成的数据集选择(或生成)模型。该系统使用(例如,由用户或其他处理)标记的帧作为输入来生成不同的合成数据集,然后使用神经网络对用户定义的重新训练问题进行适配来混合所述不同的合成数据集。在某些示例中,该系统允许将包含在第一模型中的“知识”转移到生成的新的第二模型。在某些示例中,知识被表示为数据集(例如,其可以是从多个不同的合成数据集合成的最优生成/选择的数据集)。第二模型可以用于解决与第一模型已经解决的问题不同(但潜在相关)的问题。例如,用于检测图像中的狗的模型(第一模型)可以用于生成用于检测猫的新模型(第二模型)。
图1示出了通过使用不同模型处理数据的计算机系统的示例(并且因此可以用于处理不同的任务)。图2是模型重新训练系统的框图。图3图示了作为图2的重新训练系统的一部分的合成重新训练数据集生成器。除了其他模块之外,合成重新训练数据集生成器尤其包括模型无关张量同质性评估器(MATHOR)模块。图4-9图示了在模块中实现的MATHOR过程的不同方面,并且用于确定两个数据集之间的相似性。图10A是图2中所示的模型评估器的框图。图10B示出了本文讨论的技术的示例实现。图11示出了可以用于实现本文描述的特征的计算设备的示例。
在本文档的许多地方,描述了软件执行的软件模块、引擎、生成器、评估器、提取器、过程和动作。这样做是为了便于描述;应当理解,无论何时在本文档中描述软件执行任何动作,该动作实际上都是由底层硬件元件(诸如处理器和存储器设备)根据包括软件的指令来执行的。关于此的另外细节除了其他地方之外尤其在下面图11的描述中提供。
图1的描述
图1是根据某些示例实施例的计算机系统100的框图,该计算机系统100被配置为处理已经使用机器和/或深度学习生成的多个不同模型。
将领会,深度学习可以被视为机器学习的子领域。如本文使用的,并且除非另有指示,否则本文讨论的与“机器学习”相关的方面也可以应用于“深度学习”,并且反之亦然。
计算机系统100存储机器学习模型,该机器学习模型包括模型104和110,用于处理(例如分类)包含在数据库102(或其他数据存储介质)中的数据。计算机系统100的示例包括结合图11描述的计算设备1100。在某些示例中,计算机系统100由计算设备1100的多个不同实例组成。在某些示例中,计算机系统100可以是包括许多不同节点(例如,每个节点都是计算设备1100的实例)的基于云的计算机系统。在某些示例中,由计算机系统100处理的每个模型在其自己的虚拟环境(例如,虚拟机或虚拟容器,诸如由Kubernetes创建和/或管理的虚拟容器)内被处理。
图1中所示的计算机系统100包括两个不同的机器学习模型,用于检测哈士奇的模型104和用于检测拉布拉多的模型110。取决于要解答或解决的任务的性质,也可以包括其他类型的模型。例如,可以生成模型来帮助从由操作匹配平台或交易所的自动化计算机系统提供的数据中标识不规则或欺诈的市场活动。在某些示例中,系统100可以使用一个模型,或者可以使用许多不同的模型来对数据进行分类(例如,一个模型可以用于对拉布拉多和哈士奇进行分类)。
计算机系统100包括数据102(例如图像或其他数据)的数据库。该系统被编程为取得包含在数据库102中的数据(例如,图像、时间序列数据等),并通过使用模型104和110来处理该数据。这将导致例如标识包含哈士奇106的那些图像和包含拉布拉多112的那些图像。数据库102还可以包括“实时”提供的数据。“实时”数据的示例可以是从电子交易系统提供的市场数据馈送。该数据可以被供应给系统100,并且然后对照模型使用。另一个示例可以是要对照系统100的模型进行处理的视频流(或周期性提供的图像)。
在某些示例中,系统100使用的模型可以存储在数据库中,并基于特定任务的性质检索以供使用。这样的数据库的示例是图2中的模型数据库202。例如,如果任务是要在10000个新图像中标识哈士奇,则用于检测哈士奇的模型可以从模型的数据库(可能通过使用图2的模型评估器200)中动态检索,并用于分类/分析10000个图像。然而,如果任务的性质是要分析市场条件以发现欺诈活动,则可以从模型数据库202检索用于这样的任务的模型。在某些示例中,可以通过使用MATHOR过程的结果(例如,类似于图6中描述的结果)来确定使用哪个模型对未分类的数据(例如,尚未通过使用模型被分类的数据)进行分类。如下文更详细讨论的,MATHOR过程可以提供关于两个数据集有多相似或不同的度量。这样的度量然后可以用于选择模型。换句话说,如果未分类数据集类似于与现有模型相关联的已经分类的数据集,则可以选择现有模型对未分类数据进行分类。
在某些实例中,任务可能没有对于该特定任务的对应模型。例如,可能不存在用于检测股票市场中欺诈活动的模型,或者不存在用于检测图像中拉布拉多的模型。在某些示例中,必须生成模型,使得可以执行特定任务。在某些示例实施例中,可以使用传统技术来生成新模型,该传统技术用于使用机器学习来生成模型。例如,通过使用神经网络等。然而,将领会,生成新模型可能是相对资源密集型的任务。当训练数据集的大小相对小时,模型的生成可能甚至更困难。例如,如果图片数据库中用于训练目的的拉布拉多图片相对少,则可能难以开发用于标识拉布拉多的准确/有用的模型。
在某些示例实施例中,计算机系统100可以包括模型重新训练系统108。在某些示例中,模型重新训练系统108可以是其自己的计算机系统,并且与计算机系统100分离。例如,系统108和100可以在基于云的计算环境的单独节点上提供。模型重新训练系统108被编程为生成或开发用于处理新的和/或不同的任务的新模型。模型重新训练系统108可以具有对与模型104和110具有的相同数据源(例如,数据库102)的访问权。例如,模型重新训练系统108可以具有对新图像的每日集合、来自电子匹配平台的实时市场数据馈送或其他数据的访问权。
模型重新训练系统108可以在结合图11描述的一个或多个计算设备1100上实现。模型重新训练系统108可以允许从现有模型和/或数据生成新模型而不需要从头开始训练新模型,或者提供更智能的训练(例如,这可能比传统的强力方法更高效)。这样的技术因此可以节省可能需要用于生成和/或选择新模型的资源(时间、计算能力、获取训练数据集等)。
图2的描述
图2是可以包括在图1中所示的模型重新训练系统108中的部件的图解。根据某些示例实施例,模型重新训练系统108可以被配置为选择或生成至少一个数据集,用于生成新的训练模型。图2中所示的每个模块或其他部件可以在计算机系统(例如,计算设备1100)上实现,该计算机系统(例如,计算设备1100)被编程为基于现有模型和对应的数据集生成或训练新模型。
在某些实例中,图2中的模块的描述和操作是结合用于在图像内标识狗和/或在市场数据内标识欺骗的示例来描述的。对于狗的示例,用于检测哈士奇的模型104存储在模型数据库202中。然而,现在期望用于检测拉布拉多的模型110。模型重新训练系统108将使用已经生成的模型104来生成新模型110,该新模型110是用数据集训练的,该数据集本身是使用机器学习技术构建的。对于欺骗示例,存在用于检测商品市场上的欺骗的模型。现在期望用于在股票市场中检测欺骗的模型。这两个示例都是结合本文描述的特征来讨论的。将领会,本文描述的技术可应用于模型可以用于分析或分类不同类型数据的其他领域中。
该过程开始于从存储在模型数据库202中的模型之中选择初始模型(例如,模型104)。这是由模型评估器模块200完成的。结合图10A更详细地描述了模型评估器模块的细节。在某些示例中,图2中所示的处理以循环的形式发生(如图2中图示)。因此,模型评估器200对模型的选择过程在“第一次”迭代期间可能不同于后续迭代。例如,在第一次或初始迭代期间,模型可以由用户手动选择,可以从存储在模型数据库中的模型之中随机选择,或者从头开始训练。
模型数据库202可以存储许多不同的模型,所述许多不同的模型全部已经为不同的(例如,几十个、几百个或甚至几千个)任务而开发。所选择的模型可以是用户(或模型评估器200)认为“最接近”于他们正在解决的问题的模型。因此,如果数据库202包含用于标识不同犬种的模型和用于预测天气的模型,则用户可以(给定在图片中标识拉布拉多的任务)选择用于标识犬种的模型之一,并将该模型用作起始点。通过执行下面讨论的MATHOR处理,可以(至少间接地)实现模型离给定问题有多近的确定。因此,在某些示例中,模型的选择可以是手动过程(在用户手动选择模型的情况下由用户驱动)、半手动过程(例如,用户选择由系统选择的多个选项之一)或自动化的(计算系统在没有直接用户输入的情况下自动选择模型)。
随着系统108正在执行的过程进展(例如,每次迭代),模型评估器200还可以结合目标对模型(和/或与每个模型相关联的数据集)进行评级或评分。因此,例如,包含在数据库202中的不同模型可以根据它们在(例如)结合给定数据集标识拉布拉多方面表现得有多好来评分。如上面指出的,结合图10A讨论了模型评估器及其功能性的细节。
在任何情况下,模型评估器200选择模型并将该模型服务于模型服务模块204。模型服务模块204然后对照数据集提取器模块205提供的数据集执行该模型。
由数据集提取器205提供的数据集可以是由先前未分类的数据(或尚未对照模型评估器200选择的模型进行处理的数据)组成的数据集。返回到我们的狗示例,由数据集提取器205提供的数据集可以是图片等的集合。模型服务模块204使用所提供的模型(用于标识哈士奇的模型)来标识由数据集提取器205提供的数据集内的拉布拉多狗。换句话说,所提供的模型用于对照数据集提取器205提供的数据集(例如,新的和先前未分类的图像)运行初始预测。初始预测包括尝试使用提供的模型对拉布拉多狗进行分类/标识。根据由模型服务模块提供的模型对每个帧(例如,每个图像,或正由模型评估的数据的其他“帧”)进行分类。
自然,正在执行的任务的性质可以将数据集提取器205正在服务的数据集的性质指示给模型服务模型204。例如,如果正在开发模型来检测欺诈市场活动,则数据集可以是时间序列市场数据等。还将领会,从数据集提取器205提供的数据集应该是与最初用于训练从模型评估器200提供的模型的数据不同的数据。因此,如果用于哈士奇的模型是使用数据集A训练的,则数据集提取器205应该提供不同的数据集B(例如,来自不同的图片集)。类似地,在检测欺诈市场活动的上下文中,用于训练模型的数据集可以来自第一时间段(例如,2018年第一季度),而由数据集提取器205提供的数据集可以来自另一时间段(例如,2018年第二季度)。在某些示例中,数据集可以来自不同的源(例如,一个来自商品市场,并且另一个来自股票市场,和/或一个来自第一交易所,并且另一个来自第二交易所)。
一旦通过对照模型处理数据集来执行预测,则使用帧验证和标记模块206来验证和/或标记检测到的帧。在某些示例中,这可以是手动过程,其中人类(例如,数据科学家)经历分类的帧(例如,图像)并标记和/或验证由模型服务模块204做出的预测。在某些实例中,验证和/或标记可以是自动化过程。在某些示例中,模块206可以是部分自动化的,其中人类将被用来验证和/或标记已经经由模型服务模块204处理的一些(但不是全部)数据。在任何情况下,由模型服务模块204产生的检测帧被验证,并且那些被验证和/或标记的帧被存储到检测存储装置208。
在某些示例中,帧验证和标记模块206可以采用在美国临时申请No.62/689,545(Atty Dkt No.4010-446)中描述的技术,该美国临时申请的全部内容特此通过引用并入。特别地,在‘545申请中提到的窗口可以是正在验证和/或标记的帧。因此,本文讨论的帧可以是例如:在性质上是空间的(例如,图像或图像的部分),在性质上是时间的(例如,如‘545申请中的时间帧),在性质上是上下文的(例如,文档的不同章节、书的每个句子等),等等。实际上,帧可以是数据集的可以从该数据集内的其他数据分开或分离的任何部分。
验证和/或标记的帧(例如,来自204的处理结果和来自206的验证和/或标记)然后被存储到检测帧存储装置208。对最初对帧/图像/等进行分类的模型的引用也被存储,使得以后可以引用最初进行分类的模型。该引用(标记/验证的数据集与模型之间的链接)可以允许下面讨论的MATHOR结果(生成数据集度量)对特定模型在处理给定任务时表现得有多好进行评级。
在数据帧被存储到存储装置208之后,该过程然后继续生成一个或多个新数据集。这些新数据集可以基于存储在存储装置208中的帧。新数据集可以用于训练新模型(例如,用于目标任务的模型,诸如标识图片中的拉布拉多)。该过程可以操作来智能地构建将用于训练/重新训练的数据集。数据集的智能构建将使用机器学习来最优地(例如,至少比随机选择的数据表现得好)选择要包括在用于训练的数据集中的数据。将领会,以这种方式构建用于训练的数据集可以减少新模型所需的训练时间和/或增加模型的准确性(例如,降低最终构建的模型的误差率)。
存储在检测帧存储装置208中的检测帧被供应给合成重新训练数据集生成器210。这至少结合图3-9进行了更详细的描述。来自生成器210的输出是重新训练数据集(最终合成数据集308)。输出的重新训练数据集可以被视为由生成器210构建以实现定义的目标的数据集。返回到狗的示例,生成的数据集可以是被设计来有效地产生标识拉布拉多(以及还有潜在的哈士奇)的模型。将领会,所生成的数据集不同于仅使用包含在存储装置208中的所有检测帧来训练模型,或者随机选择帧来训练这样的模型。相反,重新训练数据集可以被视为产生重新训练数据集的机器学习过程的产物(例如,它由合成重新训练数据集生成器210产生)。
从合成重新训练数据集生成器210产生的重新训练数据集然后被存储到存储装置212。在某些示例实施例中,存储在存储装置212中的数据集全部与对应的模型(例如,用于在模型服务模块204中生成初始预测的模型)配对。在某些示例实施例中,重新训练数据集也可以应用于训练器214以产生模型(例如,h5文件),该模型(例如,h5文件)然后被传递回到评估最近创建的模型的模型评估器200。换句话说,使用生成器210创建的数据集然后可以用于训练新模型(例如,用于标识拉布拉多的模型)。新创建的模型可以由模型评估器200评估。结合图10A更详细地讨论评估过程。新创建的模型然后可以服务于模型服务模块204,并且循环可以继续。在某些示例中,模型评估器200可以确定新模型不需要训练。取而代之,模型评估器可以基于来自生成器210的数据集输出来确定存储在模型数据库202中的已经存在的模型将在给定任务的定义的误差阈值内执行。换句话说,模型评估器200不仅可以对新训练的模型进行评级,而且还可以确定已经存在的模型可以何时足以进行给定的任务。
图3描述:合成重新训练数据集生成器
图3是根据某些示例实施例的图2中所示的合成重新训练数据集生成器210的流程图。
合成重新训练数据集生成器210被设计成生成将用于重新训练/训练目的的合成数据集。作为该过程的一部分,合成重新训练数据集生成器210使用多个不同的数据集生成技术来初始创建多个合成数据集。所述技术可以产生合成数据集,该合成数据集包括存储在检测帧存储装置208中的验证帧的不同组合。
在图3中,帧集合300包括来自检测帧存储装置208的那些检测帧,这些检测帧与创建新的动态、定制和/或合成数据集相关(或潜在相关)。在某些示例实施例中,帧集合300包括用于要解决的任务或问题的那些帧,并且在某些实例中,可能是由于使用多个不同模型而导致的多个不同分类预测的结果。在某些示例中,帧集合300包括已经使用模型服务模块204分类并且于是随后经由模块206验证和/或标记的帧(如上面讨论的)。在某些示例实施例中,与相同模型(由模型服务模块204提供的模型)相关联的所有帧都包括在帧集合300中。
合成重新训练数据集生成器210包括数据集生成模块302,该数据集生成模块302包括不同的数据集生成技术。这些技术用于产生多个合成数据集304。然后,合成数据集304被传递给具有MATHOR模块的学习Oracle 306进行处理。具有MATHOR模块的学习Oracle 306与存储在重新训练数据库212中的先前生成的重新训练数据集(例如,参考数据集)组合地使用合成数据集304来产生最终合成数据集308,然后将其存储在重新训练数据库212(连同其他先前存储的合成数据集一起)中。
模块302中包括的数据集生成技术可以包括一种或多种以下技术来生成合成数据集。第一种技术可以是从帧集合300随机选择帧。第二种技术可以是选择由模型服务模块204测试的模型出错的那些帧(例如,在来自204的模型分类与来自模块206的标记不一致的情况下)。例如,如果模型在事实上动物是狼时将图片分类为具有拉布拉多。第三种技术可以是挑选正确标识一种特性的一些样本部分(例如,正确标识哈士奇的那些样本)和正确标识第二种特性的一些样本部分(例如,正确标识拉布拉多的样本)。其他技术也可以用于生成合成数据集。实际上,有些可能在性质上非常具体。作为合成数据集的数据生成中可能涉及的特异性的示例,数据集可能由错误标识的背景中有雪的哈士奇图片组成。作为另一个示例,合成数据集的帧可以基于帧的具体特性。例如,仅落在特定时间帧内的那些帧(假设所述帧在性质上是时间序列)可以包括在数据集中。在某些示例实施例中,用于数据集的帧可以基于数据特征的某些特性(例如,稀疏性、分布等...)。因此,数据集生成器模块302可以生成多个不同的合成数据集304。在某些示例中,生成的数据集的数量可以是例如至少10个不同的合成数据集。
一旦合成数据集304被生成,则它们就被传递给具有MATHOR模块的学习Oracle306,该MATHOR模块306用于产生最终的合成数据集308。
图4-9的描述:用MATHOR学习Oracle
图4是根据某些示例实施例的图3中所示的具有MATHOR模块的学习Oracle 306的框图。图5示出了可以如何使用MATHOR处理示例数据集。图6示出了可以由图4的学习MATHOR模块使用的MATHOR过程。图7包括示出数据集之间几何接近度的图形示例。图8是测量样本之间相似性的评分可以如何生成的框图。图9是来自图4的用于数据集选择的学习oracle的框图。
MATHOR是首字母缩略词,并且代表模型无关张量同质性评估器。MATHOR背后的技术——如名称暗示的——在性质上是模型无关的,并且允许评估张量的相似性或不同性。张量可以视为是保持N维数据的结构。例如,虽然向量可以保持在一维(例如,1维张量),但张量指代描述N维数据的更灵活的方法。张量还可以包括不仅仅是张量中包含的数据的附加属性、特性等。为了便于本文描述,张量也可以称为数据集。
张量的示例在图5中用图形示出。图5中的张量用于与市场活动相关的数据,并且要解决的任务是标识市场内是否正在发生欺骗。在美国临时申请No.62/689,545中找到了可以如何标识欺骗的另外讨论,该美国临时申请的全部内容特此通过引用并入。
图5中的数据集502和512由许多不同的样本组成,其中每个样本包括跨越多个时间步长(例如,时间段)的多个特征(例如,样本的个体特性)。时间步长可以是总体时间序列数据集内的特定时间窗口,并且在某些实例中,所述窗口可能在时间上重叠。数据集中包括的特征的性质可能基于模型所处理任务的性质而变化。例如,用于图像识别的数据集中包括的特征可能不同于用于欺骗检测的数据集中包括的特征。在图5中所示的示例中,第一数据集502是参考数据集,并且包含已经被标识为包含欺骗的样本(506)和已经被标识为不包含欺骗的样本(504)。参考数据集502可以存储在重新训练数据库212中,并从重新训练数据库212供应。参考数据集502可以被选择为已经由服务于模型服务模块204的模型处理的数据集。
图5中的其他数据集是数据集512。这是“新”数据集,并且可以是如结合图3所述已经生成的合成数据集304之一。数据集512类似地被拆分成其中不预测欺骗的数据集514和其中预测欺骗的数据集514。自然,数据集可以取决于任务的性质以其他方式拆分。例如,如果正在开发用于标识拉布拉多的模型(如本文其他地方所讨论的),则数据集可以在其中发现拉布拉多的那些实例(例如图像)和其中未发现拉布拉多的那些实例(例如图像)之间分离。
一般而言,由MATHOR执行的过程(如结合图6所讨论的)用于确定两个张量有多相似(和/或有多不同)(例如,合成生成张量的参考张量)。来自MATHOR过程的输出可以是例如相似性度量、评分或(一个或多个)其他度量。因此,MATHOR可以用于对参考数据集与每个合成数据集304有多相似进行评分。
返回图4,具有MATHOR模块的学习Oracle 306包括学习MATHOR模块402和用于数据集选择模块的学习Oracle 404。模块402和404协同工作以产生最终的合成数据集308。
学习MATHOR模块402(在图6中更详细地描述)是用于度量选择的学习oracle,并且使用神经网络来为MATHOR提供的与问题分类相对应的度量分配权重(例如优先级)。模块402将合成数据集304取作输入以及数据集提取器406提供的至少一个参考数据集。参考数据集可以是已经与由模型服务模块204提供的模型相关联的数据集。学习MATHOR模块402基于MATHOR处理产生加权度量。这些度量可以被认为是合成数据集的哪些特征被认为对与参考数据集相关联的模型所解决的特定问题更有影响或更相关的数据。
生成的加权度量被传递给用于数据集选择的学习Oracle 404,该学习Oracle 404然后使用神经网络来基于由学习的MATHOR模块402产生的相似性信息从各种合成数据集生成最优子集。
现在将更详细地讨论学习的MATHOR模块402。学习的MATHOR模块402包括用于执行MATHOR的MATHOR过程600和使用神经网络中MATHOR的输出来加权MATHOR结果的单独步骤。
MATHOR过程600生成关于两个不同数据集602的度量(例如,特征度量)。对从数据集提取器406供应的合成数据集和参考数据集中的每一个执行该过程。因此,如果存在10个生成的合成数据集(例如,A1-A10),则那些数据集中的每一个都通过具有所提供的参考数据集的MATHOR过程来运行。这样的数据集的示例是数据集502(参考数据集)和512(新生成的合成数据集)。
一旦获得数据集,则在604对那些数据集执行特征级相似性检查(例如,过程)。具体地,作为604的部分,可以为数据集中的每个特征和每个样本生成几何接近度表(例如,每行是每个样本,并且列是每个特征)。然后可以基于几何接近度表数据为每个特征计算密度估计曲线。
图7示出了给定数据集内跨样本的特征的示例密度估计曲线702。为相应数据集(例如,504、506、514和516)的每个特征计算密度估计曲线。这些计算的示例在图704中示出。在图704中,图704的左图示出了新的数据集512,其密度估计曲线在左侧表示欺骗的肯定标识,并且在左侧双侧曲线的右侧表示非欺骗的肯定标识。右侧的双图类似地在左侧示出了欺骗的标识,并且在右侧示出了非欺骗的肯定标识。
从多个不同的密度估计曲线(例如,4)中,可以基于一个或多个接近度度量来计算几何相似性。以下是可以用于测量密度曲线的逐对几何接近度的示例度量。
等式1:
Figure 393490DEST_PATH_IMAGE002
其中
Figure DEST_PATH_IMAGE003
Figure 497581DEST_PATH_IMAGE004
相对于v的Radon-Nikodym导数。
等式2:
Figure DEST_PATH_IMAGE005
等式3:
Figure 215001DEST_PATH_IMAGE006
其中,如果对象jk对于变量i的比较因缺少数据而无效,则
Figure DEST_PATH_IMAGE007
,否则
Figure 610211DEST_PATH_IMAGE008
等式4:
Figure DEST_PATH_IMAGE009
可以使用以上等式中的一个或多个。也可以使用用于计算接近度的其他等式。
对于有用的特征(例如,将在训练模型中有用的特征),个体数据集内的类之间的相似性应该小于第一阈值,并且跨数据集的相同类的相似性应该大于第二阈值。满足这些参数的特征可以被认为是具有可分离性和/或可用的特征。
在某些示例实施例中,来自604处的特征级相似性检查的数据然后在606处被归一化。例如,这可能涉及在数据集大小方面100到1的约简。
在610,使用基于规则的方法选择特征。在某些示例实施例中,使用该方法的特征选择被设计成选择具有大于阈值量的可分离性的特征。这可以通过定义特征为了在610被选择而必须满足的一个或多个标准来实现。在某些示例实施例中,标准的数量可以是两个或更多。示例标准可以是例如选择具有最大余弦距离为X的那些特征和/或基于从604/606处的特征相似性检查生成的相似性评分进行过滤。在某些示例中,标准可以由例如执行/监督MATHOR过程(或作为整体的重新训练过程)的数据科学家或其他用户来决定。
在某些示例中,可以基于将执行的底层任务的性质自动建议某些特征。例如,可以基于先前分析的图像来建议与图像分类相关联的某些特征/标准。类似地,可以为时间序列数据建议倾向于提供更大可分离性的某些特征或标准。如上面指出的,可以提供两个(或更多)不同的标准,并且仅满足这两个标准的那些特征可以被选择以供将来在开发重新训练数据集中使用。在其他示例中,可以使用一个标准或者三个或更多标准。
接下来,在612,可以降低张量(数据集)的维度。这可以起到降低或减少张量的复杂性、噪声和/或维数的作用。示例的约简过程可以是更高阶奇异值分解(HOSVD)。该过程在去噪复杂数据流(例如,像用于检测欺骗的市场数据)中可能是有用的。
在降低数据集的维数之后,然后在614,MATHOR过程600执行样本级相似性检查。这在图8中说明性地示出。样本级相似性检查614测量每个个体数据集内和跨数据集的样本相似性。这包括两个单独的检查。第一个是同质性检查802,并且第二个是异质性检查804。同质性检查用于测量跨不同数据集的相同类有多相似,而异质性检查用于测量相同数据集内不同类有多不相似。在某些示例实施例中,同质性检查和异质性检查是基于从数据集计算的几何形态度量来确定的。
例如,并且参考本文讨论的狗的示例,同质性检查用于检查两个不同数据集(502和512)中的拉布拉多图像有多相似。相比之下,异质性检查用于检查哈士奇和拉布拉多图像在给定数据集(例如,516 vs 514)内有多不相似。
这两个检查然后被用于产生评分615(例如,质量评估结果)或度量。在某些示例实施例中,质量评估结果或评分可以包括多个成分或片段。因此,评分可能比简单的整数更复杂和/或更详细。取而代之,它可以是或基于使用MATHOR过程600生成的个体合成数据集的各种度量(例如,特性)。
一旦MATHOR过程600完成,则来自该过程的输出(例如,度量数据615)就被提供给输入数据生成器622。度量数据然后被传递到数据预处理步骤624,该数据预处理步骤624执行数据清理处理(例如,处理NaN、空值、缺失值等)。然后在626,通过神经网络处理度量数据。这导致导出的评分628,其有效地加权由MATHOR过程600产生的度量。权重可以用于影响或决定合成数据集内哪些特征更有影响力。更高加权的特征将对应地导致它们的数据集被加权得更高(例如,由数据集选择模块404的学习Oracle)。在某些示例实施例中,通过神经网络处理从MATHOR过程生成的度量,以确定或以其他方式生成每个合成数据集相对于参考数据集有多相似的评分。因此,可以通过用神经网络处理度量来生成数据集相似性评分。
考虑合成数据集具有特征x、y和z的示例。MATHOR过程600将获得该合成数据集的度量(例如,它将与参考数据集有多相似)以及个体特征在该合成数据集内如何表现的度量。然后,在626,来自MATHOR的度量被馈送到神经网络中,该神经网络可以为特征x、y、z产生权重。这可以导致例如x被加权与Y的两倍一样多并且比Z多50%。更具体地,在626,神经网络处理的结果(例如,导出的评分628)可以对由MATHOR获得的度量进行优先级排序,并且由此推断与其相关联的特征。换句话说,神经网络处理可以导致获得关于哪些度量重要以及哪些不重要的信息。
转到图9,导出的评分628以数据集选择模块的学习Oracle 404的形式被提供给另一机器学习过程。这里,输入数据生成器902收集每个合成数据集304的所有导出度量628。因此,如果存在最初(例如,从302)生成的10个不同的合成数据集,则可能存在10个不同的导出评分/度量628。输入数据生成器902收集各种合成数据集的那些多个评分。该数据集合然后被传递到数据预处理904,该数据预处理904对数据执行数据清理,以确保它在906为神经网络做好准备(例如,移除NaN、处理空值、零值等)。神经网络906然后与来自每个合成数据集的所有加权度量数据一起运行,以产生最终的合成数据集304。这包括加权个体合成数据集(基于与那些数据集相关联的度量),以及然后将多个合成数据集混合到由神经网络906产生的最终数据集308中。因此,神经网络906被编程为从各种合成数据集的每一个产生最优(例如,在定义的误差阈值内)选择,以产生数据集308。
在某些示例实施例中,与参考数据集相关联的模型(参考模型)的架构用于神经网络906。更具体地,与参考模型相关联的权重被剥离,并且然后通过使用相应合成数据集的数据来训练参考模型的架构。该训练然后将为神经网络906的对应实例产生权重。然后可以将生成的权重与参考模型的权重进行比较,从而生成训练相似性评分。然后,训练相似性评分和数据集相似性评分可以用于从最初生成的合成数据集产生合成数据集。
图10A的描述-模型评估器
图10A是根据某些示例实施例的图2的模型评估器200的框图。模型评估器200用于通过基于用户提供的度量使用最终合成数据集308来比较模型数据库202中模型的性能,以对以下一个或多个项目做出确定:1)做出关于重新训练的决定;2)做出对重新训练的基础模型的决策;3)对模型的性能进行排名;和/或4)确定哪个模型(现有的或新生成的)将与合成数据集308相关联。
当模型评估器200评估(一个或多个)模型时,它将创建测试数据集1002。这被用作测试模型性能的保持数据集。在某些示例实施例中,测试数据集1002对应于在MATHOR过程600期间使用的参考数据集。该测试数据集可以用作查看合成数据集308如何表现的比较点。
模型管理器1010被配置为向预测器1006供应模型。由模型管理器1010选择的模型可以是已经与参考数据集1002相关联的模型(例如,如上面指出的,每个参考数据集可以与对应的模型相关联)。在某些示例中,可以基于最终合成数据集的性质来选择供应给预测器1006的模型。
预测器1006然后将通过所供应的模型运行合成数据集308(例如,从合成重新训练数据集生成器210生成)和参考数据集1002二者,以生成用于这两个数据集的预测(例如,拉布拉多是否在图片中、是否发现欺骗等)。
预测器1006然后将生成度量(例如,混淆矩阵、f评分、精度、召回率等),其量化模型在分类参考数据集1002时表现得有多好。例如,混淆矩阵可以用来描述模型的性能。来自预测器1006的输出可以包括关于模型和针对该模型运行的两个数据集的性能的度量。该输出然后被供应给比较器1008。
比较器1008将来自预测器1006的性能度量取作输入,并基于用户提供的评估度量1004来判断模型的性能。评估度量可以是用户(或者可能是另一个自动化过程)认为对合成数据集的性能有意义的那些度量等。如果最终合成数据集308相对于模型的性能在提供的阈值量内,则模型(其已经与参考数据集1002相关联)可以被认为适合于处理期望的任务(例如,判断欺骗实例或标识拉布拉多等)。
基于比较器1008的结果,模型管理器将选择模型并将该模型链接到合成数据集308,该合成数据集308现在是作为重新训练数据库212的一部分的多个数据集之一。如果预测器1006使用的模型被认为表现得足够好(例如,基于用户提供的评估度量1004和比较器1008的处理),则选择该模型。另一方面,如果模型被认为表现得不够好,则该模型和合成数据集308将被传递给训练器214,训练器214将生成新模型(例如,通过使用合成数据集308训练模型)。一旦新模型被训练,它就被存储到模型数据库202中,并且还将被链接到存储在重新训练数据库212中的合成数据集308。因此,合成数据集将成为新的参考数据集,该新的参考数据集将来可以与相关联模型(其可能是或可能不是新生成的)一起使用。
图10B的描述:示例实现
以下是本文讨论的转移学习技术的示例用例。该示例涉及评估在电子交易平台(例如,期货市场、股票市场、债券市场等)中执行的市场操纵。图10B是根据某些示例实施例,可以如何采用图2的系统来检测不同类型的市场操纵的示例实现的框图。
在现代市场中,市场操纵或欺诈活动可能难以被检测。这样的活动包括内幕交易和其他欺诈以及交易操纵。这样的操纵可以包括通过交易来操纵价格和总量、订货单操纵、价格变动和明显错误的交易等。发现某些类型的欺诈活动的困难部分与电子市场(例如NASDAQ证券交易所)场所的操作速度(例如,比人类可以实际处理的更快)和它们在每天基础上处理的数据量(例如,数百万或数十亿的交易,其中每个交易具有数十、数百或甚至数千个不同的参数和值)有关。
采用模型检测这样的活动的问题是,存在许多不同类型的操纵和许多不同类型的市场(或子市场)。由于市场处理的数据的性质,这些问题的难度可能甚至更复杂。使用的数据可以是未标记的,不同的问题可能存在独特的特征需要解决,等等。给定所有这些因素,开发模型可能花费大量的资源。因此,本文的技术允许使用人工智能和/或机器学习来通过在例如市场和/或事件之间转移知识并且允许通过在机器学习过程中使用分析师反馈来持续增强模型(例如检测质量),从而减少例如模型开发时间。
转到图10B,系统1050(统称为系统1050A、1050B、1050C和1050D)是示例检测系统,其可以是例如模型重新训练系统108和/或计算机系统100。每个系统1050可以是相同的计算实例(例如,计算设备1100)或者可以是不同的实例(例如,单独的计算设备1100)。取决于给定问题或任务的需要,向系统1050供应不同类型的数据。还向每个系统供应了一个模型,该模型将用在对系统处置的数据或以其他方式与要解决的问题或任务(潜在)相关的数据进行分类中。
在图10B中,初始欺骗模型1054连同通用市场数据1052一起被供应给系统1050A。数据和模型被传递到监督系统1056(其可以是模型服务部件204和数据集提取器205),该监督系统1056将基于将数据1052应用于模型1054来执行初始分类并产生检测到的事件1058(例如,检测帧)。在1060,检测到的事件被传递给分析师。分析师然后验证和/或标记检测到的事件(例如,如结合帧验证和标记模块206所讨论的)。基于该标记,然后在1062产生新的模型。这可以是例如由合成重新训练数据集生成器210和模型评估器200(其可以基于最初供应的模型1054来训练新模型)执行的处理的结果。随着分析师1060应用新数据和执行新标签/验证,系统1050A可以继续循环和更新模型1054。
在某个点,可能期望一个或多个新任务,在该示例中,所述一个或多个新任务涉及美国股票市场数据1066和/或美国期权市场数据1074。在该点,包含在模型1054(或其更新版本)和/或与其相关联的数据集中的知识可以经历转移学习1064过程。具体地,欺骗模型1068(例如,基于欺骗模型1054的欺骗模型)可以被系统1050B用来对美国股票市场数据1066进行分类。类似地,欺骗模型1072(例如,从模型1054导出的版本)可以用于使用系统1050对美国期权市场数据1074进行分类。对新类型数据进行分类的过程可能导致(一个或多个)模型的权重被微调,以专门处理来自更具体数据源的数据。因此,(来自模型1054的)预先训练的模型可以与新的市场数据一起使用,这然后可以导致模型1054的微调,从而产生新的模型(例如,模型1072),其能够更好地发现可能存在于那些新类型的市场中的欺骗。
正如可以使用新类型的数据(例如期权数据vs股票市场数据),也可以为相同或不同的市场数据开发新的模型,以解决其他类型的市场操纵或欺诈活动。例如,一旦欺骗模型1068是专门为美国股票开发的,以处置美国股票市场中的欺骗,则转移学习就可以用于为新的但潜在相关类型的市场操纵或欺诈活动开发新的模型。
例如,可以生成用于检测所谓的泵送和倾卸操纵的模型1070。该模型最初可能与欺骗模型1068相同。然而,在系统1050D使用股票市场数据1066进行处理之后,由该系统的分析师执行的标记和验证将有助于重新训练处置泵送和倾卸场景标识的新模型。
因此,本文的技术可以允许使用机器学习来开发模型,以检测可能发生在电子交易平台中的市场操纵和其他类型的欺诈活动。开发新模型不需要从通用模型开始。取而代之,现有模型和那些模型中的知识(连同与之相关联的参考数据集)可以用于开发又另外的模型来解决新的任务。新任务可以包括相同数据源的新问题、相同问题的新数据源或具有新问题的新数据源。
图11的描述
图11是根据一些实施例的示例计算设备1100(其也可以被称为例如“计算设备”、“计算机系统”或“计算系统”)的框图。在一些实施例中,计算设备1100包括以下各项中的一个或多个:一个或多个处理器1102;一个或多个存储器设备1104;一个或多个网络接口设备1106;一个或多个显示界面1108;和一个或多个用户输入适配器1110。附加地,在一些实施例中,计算设备1100连接到或包括显示设备1112。将如下面解释的,这些元件(例如,处理器1102、存储器设备1104、网络接口设备1106、显示接口1108、用户输入适配器1110、显示设备1112)是被配置为执行计算设备1100的各种不同功能的硬件设备(例如,电子电路或电路的组合)。
在一些实施例中,处理器1102中的每一个或任何一个是或包括例如单核或多核处理器、微处理器(例如,其可以被称为中央处理单元或CPU)、数字信号处理器(DSP)、与DSP内核相关联的微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)电路或片上系统(SOC)(例如,包括CPU的集成电路和诸如存储器、网络接口等之类的其他硬件部件)。处理器1102是硬件处理器的示例。在一些实施例中,处理器1102中的每一个或任何一个使用指令集架构,诸如x86或高级RISC机(ARM)。在某些实例中,计算设备内的每个、任何或所有处理器1102可以被称为(例如,统称为)处理系统。在某些示例中,处理系统可以跨越多个计算设备(例如,作为分布式处理系统)。
在一些实施例中,存储器设备1104中的每一个或任何一个是或包括随机存取存储器(RAM)(诸如动态RAM(DRAM)或静态RAM(SRAM))、闪存(基于例如NAND或NOR技术)、硬盘、磁光介质、光学介质、高速缓冲存储器、寄存器(例如保存指令)或执行数据和/或指令的易失性或非易失性存储的其他类型的设备(例如在处理器110上或由处理器110执行的软件)存储器设备1104是非暂时性计算机可读存储装置的示例。
在一些实施例中,网络接口设备1106中的每一个或任何一个包括一个或多个电路(诸如基带处理器和/或有线或无线收发器),并且为一个或多个有线通信技术(诸如以太网(IEEE 802.3))和/或无线通信技术(诸如蓝牙、WiFi(IEEE 802.11)、GSM、CDMA2000、UMTS、LTE、LTE-Advanced(LTE-A)和/或其他短程、中程和/或远程无线通信技术)实现层一、层二和/或更高层。收发器可以包括用于发射器和接收器的电路。发射器和接收器可以共享公共外壳,并且可以共享外壳中的一些或全部电路,以执行无线或有线信号的发射和接收。在一些实施例中,收发器的发射器和接收器可以不共享任何公共电路和/或可以在相同或单独的外壳中。
在一些实施例中,显示接口1108中的每一个或任何一个是或包括一个或多个电路,所述一个或多个电路从处理器1102接收数据,基于接收到的数据生成(例如,经由分立GPU、集成GPU、执行图形处理的CPU等)对应的图像数据,和/或向显示图像数据的显示设备112输出(例如,高清多媒体接口(HDMI)、显示端口接口、视频图形阵列(VGA)接口、数字视频接口(DVI)等)生成的图像数据。替代地或附加地,在一些实施例中,显示接口1108中的每一个或任何一个是或包括例如视频卡、视频适配器或图形处理单元(GPU)。
在一些实施例中,用户输入适配器1110中的每一个或任何一个是或包括一个或多个电路,该一个或多个电路接收和处理来自一个或多个用户输入设备(图11中未示出)的用户输入数据,该一个或多个用户输入设备(图11中未示出)包括在计算设备1100中、附接到计算设备1100或者以其他方式与计算设备1100通信,并且基于接收到的输入数据将数据输出到处理器1102。替代地或附加地,在一些实施例中,用户输入适配器1110中的每一个或任何一个是或包括例如PS/2接口、USB接口、触摸屏控制器等;和/或用户输入适配器1110促进来自用户输入设备(图11中未示出)的输入,该用户输入设备(图11中未示出)诸如例如是键盘、鼠标、触控板、触摸屏等。
在一些实施例中,显示设备1112可以是液晶显示器(LCD)显示器、发光二极管(LED)显示器或其他类型的显示设备。在显示设备1112是计算设备1100的部件的实施例中(例如,计算设备和显示设备被包括在统一的外壳中),显示设备1112可以是触摸屏显示器或非触摸屏显示器。在显示设备1112连接到计算设备1100(例如,在计算设备1100外部并且经由有线和/或经由无线通信技术与计算设备1100通信)的实施例中,显示设备1112例如是外部监视器、投影仪、电视、显示屏等。
在各种实施例中,计算设备1100包括上述元件中的每一个或任何一个的一个或两个或三个或者四个或更多个(例如,处理器1102、存储器设备1104、网络接口设备1106、显示接口1108和用户输入适配器1110)。替代地或附加地,在一些实施例中,计算设备1100包括以下各项中的一个或多个:包括处理器1102的处理系统;包括存储器设备1104的存储器或存储系统;和包括网络接口设备1106的网络接口系统。
在各种实施例中,计算设备1100可以以许多不同的方式来布置。仅作为一个示例,计算设备1100可以被布置成使得处理器1102包括:多核(或单核)处理器;第一网络接口设备(其实现例如WiFi、蓝牙、NFC等);实现一种或多种蜂窝通信技术(例如,3G、4G LTE、CDMA等)的第二网络接口设备;存储器或存储设备(例如,RAM、闪存或硬盘)。处理器、第一网络接口设备、第二网络接口设备和存储器设备可以集成为相同SOC(例如,一个集成电路芯片)的一部分。作为另一个示例,计算设备1100可以被布置成使得:处理器1102包括两个、三个、四个、五个或更多个多核处理器;网络接口设备1106包括实现以太网的第一网络接口设备和实现WiFi和/或蓝牙的第二网络接口设备;并且存储器设备1104包括RAM和闪存或硬盘。
如先前指出的,每当在本文档中描述软件模块、软件过程或其他软件元件执行任何动作时,该动作实际上由底层硬件元件根据包括软件模块的指令来执行。与前述一致,在各种实施例中,模型重新训练系统108、数据库102、模型评估器200、模型服务204、数据集提取器205、帧验证和标记206、检测帧存储装置208、合成重新训练数据集生成器210、重新训练数据集存储装置212、训练器214、模型数据库202、数据集生成方法模块、具有MATHOR模块的学习oracle 306、学习MATHOR模块402、用于数据集选择的学习oracle 404、数据集提取器406、预测器1006、比较器1008和模型管理器1010中的每一个或任何组合,在本段落的剩余部分为了清楚起见将被单独称为“部件”的它们中的每一个使用图5的计算设备1100的示例来实现。 在这样的实施例中,以下内容适用于每个部件:(a)图11中所示的1100计算设备1100的元件(即,一个或多个处理器1102、一个或多个存储器设备1104、一个或多个网络接口设备1106、一个或多个显示接口1108以及一个或多个用户输入适配器1110),或者前述的适当组合或子集)被配置为、适于和/或被编程为实现本文描述的动作、活动或特征的每一个或任何组合,如由部件和/或由如包括在部件内的本文描述的任何软件模块执行的;(b)替代地或附加地,在本文描述的部件内存在一个或多个软件模块的程度上,在一些实施例中,这样的软件模块(以及本文描述的如由软件模块等处置和/或使用的任何数据)存储在存储器设备1104中(例如,在各种实施例中, 在诸如RAM或指令寄存器的易失性存储器设备中和/或在诸如闪存或硬盘的非易失性存储器设备中),并且本文描述的如由软件模块执行的所有动作由处理器1102适当地结合计算设备1100中的和/或连接到计算设备1100的其他元件(即,网络接口设备1106、显示接口1108、用户输入适配器1110和/或显示设备1112)来执行;(c)替代地或附加地,在本文描述的部件处理和/或以其他方式处置数据的程度上,在一些实施例中,这样的数据存储在存储器设备1104中(例如,在一些实施例中,存储在诸如RAM的易失性存储器设备中和/或诸如闪存或硬盘的非易失性存储器设备中)和/或由处理器1102适当地结合计算设备1100中的和/或连接到计算设备1100的其他元件(即,网络接口设备1100)来处理/处置(d)替代地或附加地,在一些实施例中,存储器设备1102存储指令,所述指令当由处理器1102执行时,使得处理器1102适当地结合计算设备1100中的和/或连接到计算设备1100的其他元件(即,存储器设备1104、网络接口设备1106、显示接口1108、用户输入适配器1110和/或显示设备512)来执行由部件和/或如部件内包括的本文描述的任何软件模块执行的本文描述的动作中的每一个或任何组合。
与前述段落一致,作为一个示例,在计算设备1100的实例用于实现模型重新训练系统108的实施例中,存储器设备1104可以将检测帧存储在检测帧存储装置208中,并且模型可以存储在模型数据库202中,和/或存储如由合成重新训练数据集生成器210和/或模型评估器200处理和/或以其他方式处置的本文描述的数据。处理器1102可以用于操作合成重新训练数据集生成器(以及其中描述的部件和处理)以生成合成数据集,模型评估器200(以及其中描述的部件和处理)从合成数据集选择或训练模型,模型服务模块204对具有数据集提取器205提供的数据集的模型运行预测,等等。
图11中示出并在上面描述的硬件配置是作为示例提供的,并且本文描述的主题可以结合多种不同的硬件架构和元件来使用。例如:在本文档中的许多图中,示出了单独的功能/动作块;在各种实施例中,那些块的功能可以使用以下各项来实现:(a)单独的硬件电路,(b)使用被具体配置为执行所描述的功能/动作的专用集成电路(ASIC),(c)使用被具体配置为执行所描述的功能/动作的一个或多个数字信号处理器(DSP),(d)使用上面参考图11描述的硬件配置,(e)经由其他硬件布置、架构和配置,和/或经由(a)至(e)中描述的技术的组合。
所描述主题的技术优势
某些示例实施例允许生成数据集,该数据集可以用于以更资源高效的方式重新训练(或训练)模型。
在某些示例实施例中,提供了用于确定两个数据集相对于模型彼此有多相似的技术(例如,经由上面讨论的MATHOR过程)。这样的技术可以用于生成(例如,更高效地)用于选择和/或重新训练模型的数据集。作为示例,训练模型的标准方法可能需要2500个检测到的帧,其具有20个左右的正帧。本文的技术可以能够在大约75个检测到的帧和25个左右的正帧的情况下操作。因此,可以减少重新训练目的所需的数据量。例如,减少至少25%或者甚至50%或更多。这样的技术对于数据集内出现次数相对少的情况可能是有益的。
在某些示例实施例中,提供了用于开发有助于标识市场操纵的模型的技术。例如,帮助标识参与欺骗活动的市场参与者的技术。所述技术可以允许将与第一数据集(例如,商品市场)相关的知识转移到第二数据集(例如,股票市场)。
在某些示例实施例中,本文的技术可以应用于语言翻译模型,其有助于以更资源高效的方式开发语言翻译模型。例如,英语到西班牙语的翻译模型可以用于生成或开发从英语翻译到葡萄牙语的模型。例如,可能存在较少的具有英语和葡萄牙语翻译的书籍,并且因此开发/训练英语-葡萄牙语模型的翻译模型可能比英语-西班牙语模型(其可能具有更多的书籍)更困难。此外,生成英语和葡萄牙语可能是资源密集型任务。本文的技术可以用于通过使用英语到西班牙语的翻译模型作为起始点来帮助选择将有助于开发英语到葡萄牙语模型的葡萄牙语书籍(或者那些书籍的哪些部分)。
本文描述的技术特征因此可以改进可验证性、可靠性、速度以及与机器学习和通过使用机器学习开发模型相关的其他技术方面。
选择的术语
每当在本文档中描述给定项目存在于“一些实施例”、“各种实施例”、“某些实施例”、“某些示例实施例”、“一些示例实施例”、“示例性实施例”中时,或者每当使用任何其他类似的语言时,应该理解,给定项目就存在于至少一个实施例中,尽管不一定存在于所有实施例中。与前述一致,每当在本文档中描述动作“可以”、“能够”或“可”被执行,特征、元件或部件“可以”、“能够”或“可”被包括在给定的上下文中或适用于给定的上下文时,给定的项目就“可以”、“能够”或“可”拥有给定的属性,或者每当使用涉及术语“可以”、“能够”或“可”的任何类似短语时,应该理解,给定的动作、特征、元件、部件、属性等就存在于至少一个实施例中,尽管不一定存在于所有实施例中。除非另有明确说明,否则本文档中使用的术语和短语及其变体应被解释为开放式的,而不是限制性的。作为前述的示例:“和/或”包括一个或多个相关联列出项目的任何和所有组合(例如,a和/或b意指a、b或a和b);单数形式“一”、“一个”和“该”应被解读为意指“至少一个”、“一个或多个”等;术语“示例”用于提供所讨论主题的示例,而不是其穷举或限制列表;术语“包括”和“包含”(以及其其他变位和其他变型)指定了相关联列出项目的存在,但不排除一个或多个其他项目的存在或添加;并且如果项目被描述为“可选的”,则这样的描述不应该被理解为指示其他项目也不是可选的。
如本文使用的,术语“非暂时性计算机可读存储介质”包括寄存器、高速缓冲存储器、ROM、半导体存储器设备(诸如D-RAM、S-RAM或其他RAM)、磁介质(诸如闪存、硬盘、磁光介质)、光学介质(诸如CD-ROM、DVD或蓝光光盘)或其他类型的用于非暂时性电子数据存储的设备。术语“非暂时性计算机可读存储介质”不包括暂时性传播电磁信号。
描述主题的附加应用
尽管包括但不限于参考图1-10的过程步骤、算法等可以以特定的顺序次序描述或要求保护,但是这样的过程可以被配置为以不同的次序工作。换句话说,可以在本文档中明确描述或要求保护的步骤的任何顺序或次序不一定指示以该次序执行所述步骤的要求;相反,本文描述的过程步骤可以以任何可能的次序执行。此外,一些步骤可以同时(或并行)执行,尽管被描述或暗示为不同时发生(例如,因为一个步骤在其他步骤之后被描述)。此外,通过其在附图中的描绘而说明的过程不暗示所说明的过程排除了对其的其他变型和修改、不暗示所说明的过程或其任何步骤是必要的,并且不暗示所说明的过程是优选的。
尽管已经详细示出和描述了各种实施例,但是权利要求书不限于任何特定的实施例或示例。以上描述都不应被解读为暗示任何特定的元件、步骤、范围或功能是必要的。本领域普通技术人员已知的上述实施例的元件的所有结构和功能等同物通过引用明确并入本文,并且旨在被包含。此外,设备或方法没有必要解决本发明寻求解决的每个和所有问题,因为它被本发明所包含。本文档中的任何实施例、特征、元素、部件或步骤都不旨在专用于公众。

Claims (20)

1.一种计算机系统,包括:
非暂时性计算机可读存储器,被配置为存储:
参考模型;和
与参考模型相关联的参考数据集;
包括至少一个硬件处理器的处理系统,所述处理系统被配置为:
生成从标记的检测帧导出的多个合成数据集;
针对所述多个合成数据集的每个合成数据集,为来自所述每个合成数据集的多个特征生成多个特征度量,其中所述特征度量是基于参考数据集生成的;
使用第一神经网络,基于所确定的多个特征度量,生成所述多个合成数据集的每一个相对于参考数据集的数据集相似性评分,其中数据集相似性评分中的每一个指示给定合成数据集与参考数据集有多相似;
通过使用对应的合成数据集训练参考模型的神经网络架构,为所述多个合成数据集的每一个生成训练相似性评分;以及
通过基于训练相似性评分和数据集相似性评分将来自所述多个合成数据集的数据组合来生成合成数据集。
2.根据权利要求1所述的系统,其中处理系统进一步被配置为:
从所述多个合成数据集的每一个选择具有大于阈值量的可分离性的特征,
其中基于所选择的那些特征来生成所述多个合成数据集的每一个的所述多个特征度量。
3.根据权利要求1所述的系统,其中处理系统进一步被配置为:
在所述多个合成数据集的每一个和参考数据集之间执行特征级相似性处理,
其中,基于所执行的特征级相似性处理,生成所述多个合成数据集的每一个的多个特征度量。
4.根据权利要求3所述的系统,其中处理系统进一步被配置为:
针对所述多个合成数据集的每一个的每个特征,计算关于参考数据集的密度估计曲线,其中所述多个合成数据集的每一个的所述多个特征度量是针对所述多个合成数据集中的特征的所计算的密度估计曲线生成的。
5.根据权利要求4所述的系统,其中处理系统进一步被配置为:
基于对应的所计算的密度估计曲线,为所述多个合成数据集的每一个的每个特征计算几何相似性。
6.根据权利要求1所述的系统,其中处理系统进一步被配置为:
执行包括同质性检查和异质性检查的样本级相似性检查,同质性检查测量所述多个合成数据集之一和参考数据集之间的相同类有多相似,异质性检查测量相同合成数据集内的不同类有多不相似,
其中所述多个合成数据集的每一个的所述多个特征度量是针对所述多个合成数据集中的特征的所计算的密度估计曲线生成的。
7.根据权利要求1所述的系统,其中,处理系统进一步被配置为:执行模型无关张量同质性评估器过程,以计算所述多个特征度量。
8. 根据权利要求1所述的系统,其中处理系统进一步被配置为:
对照参考模型测试合成数据集的性能;和
基于合成数据集的测试性能在阈值量内的确定,存储合成数据集和参考模型之间的关联。
9. 根据权利要求8所述的系统,其中处理系统进一步被配置为:
基于合成数据集的测试性能在阈值量外部的确定,通过使用合成数据集训练新模型;和
存储合成数据集和新模型之间的关联。
10.一种在计算机系统上实现的方法,该方法包括:
将参考模型和与参考模型相关联的参考数据集存储到非暂时性存储介质;
生成从标记的检测帧导出的多个合成数据集;
针对所述多个合成数据集的每个合成数据集,为来自合成数据集的多个特征生成多个特征度量,其中所述特征度量是基于与参考数据集的比较而生成的;
使用第一神经网络,基于所确定的多个特征度量,生成所述多个合成数据集的每一个相对于参考数据集的数据集相似性评分,其中数据集相似性评分中的每一个指示给定合成数据集与参考数据集有多相似;
通过使用对应的合成数据集训练参考模型的神经网络架构,为所述多个合成数据集的每一个生成训练相似性评分;和
通过基于训练相似性评分和数据集相似性评分将来自所述多个合成数据集的数据组合来构建合成数据集。
11.根据权利要求10所述的方法,进一步包括:
从所述多个合成数据集的每一个选择具有大于阈值量的可分离性的特征,其中基于所选择的那些特征来生成所述多个合成数据集的每一个的多个特征度量。
12.根据权利要求10所述的方法,进一步包括:
在所述多个合成数据集的每一个和参考数据集之间执行特征级相似性处理,
其中,基于所执行的特征级相似性处理,生成所述多个合成数据集的每一个的多个特征度量。
13.根据权利要求10所述的方法,进一步包括:
针对所述多个合成数据集的每一个的每个特征,计算关于参考数据集的密度估计曲线,
其中所述多个合成数据集的每一个的所述多个特征度量是针对所述多个合成数据集中的特征的所计算的密度估计曲线生成的。
14.根据权利要求10所述的方法,进一步包括:
基于对应的所计算的密度估计曲线,为所述多个合成数据集的每一个的每个特征计算几何相似性。
15.根据权利要求10所述的方法,进一步包括:
执行包括同质性检查和异质性检查的样本级相似性检查,同质性检查测量所述多个合成数据集之一和参考数据集之间的相同类有多相似,异质性检查测量相同合成数据集内的不同类有多不相似,
其中所述多个合成数据集的每一个的所述多个特征度量是针对所述多个合成数据集中的特征的所计算的密度估计曲线生成的。
16.根据权利要求10所述的方法,进一步包括:
执行模型无关张量同质性评估器过程,以计算所述多个特征度量。
17. 根据权利要求10所述的方法,进一步包括:
对照参考模型测试合成数据集的性能;和
基于合成数据集的测试性能在阈值量内的确定,存储合成数据集和参考模型之间的关联。
18.根据权利要求10所述的方法,进一步包括:基于合成数据集的测试性能在阈值量外部的确定,通过使用合成数据集训练新模型;和
存储合成数据集和新模型之间的关联。
19.一种非暂时性计算机可读存储介质,被配置为存储供与计算机系统一起使用的计算机可执行指令,存储的计算机可执行指令包括使得计算机系统执行操作的指令,所述操作包括:
将参考模型和与参考模型相关联的参考数据集存储到非暂时性存储介质;
生成从标记的检测帧导出的多个合成数据集;
针对所述多个合成数据集的每个合成数据集,为来自合成数据集的多个特征生成多个特征度量,其中所述特征度量是基于与参考数据集的比较而生成的;
使用第一神经网络,基于所确定的多个特征度量,生成所述多个合成数据集的每一个相对于参考数据集的数据集相似性评分,其中数据集相似性评分中的每一个指示给定合成数据集与参考数据集有多相似;
通过使用对应的合成数据集训练参考模型的神经网络架构,为所述多个合成数据集的每一个生成训练相似性评分;和
通过基于训练相似性评分和数据集相似性评分将来自所述多个合成数据集的数据组合来构建合成数据集。
20.根据权利要求19所述的非暂时性计算机可读存储介质,其中所述操作进一步包括:
从所述多个合成数据集的每一个选择具有大于阈值量的可分离性的特征,
其中基于所选择的那些特征来生成所述多个合成数据集的每一个的所述多个特征度量。
CN202080035557.2A 2019-05-14 2020-05-14 用于生成用于模型重新训练的数据集的系统和方法 Pending CN114144770A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962847621P 2019-05-14 2019-05-14
US62/847621 2019-05-14
US15/931369 2020-05-13
US15/931,369 US11531875B2 (en) 2019-05-14 2020-05-13 Systems and methods for generating datasets for model retraining
PCT/US2020/032780 WO2020232188A1 (en) 2019-05-14 2020-05-14 Systems and methods for generating datasets for model retraining

Publications (1)

Publication Number Publication Date
CN114144770A true CN114144770A (zh) 2022-03-04

Family

ID=73231562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080035557.2A Pending CN114144770A (zh) 2019-05-14 2020-05-14 用于生成用于模型重新训练的数据集的系统和方法

Country Status (5)

Country Link
US (3) US11531875B2 (zh)
EP (1) EP3970024A4 (zh)
CN (1) CN114144770A (zh)
CA (1) CA3140418C (zh)
WO (1) WO2020232188A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11531875B2 (en) 2019-05-14 2022-12-20 Nasdaq, Inc. Systems and methods for generating datasets for model retraining
CN110188182B (zh) * 2019-05-31 2023-10-27 中国科学院深圳先进技术研究院 模型训练方法、对话生成方法、装置、设备及介质
US11829871B2 (en) * 2019-08-20 2023-11-28 Lg Electronics Inc. Validating performance of a neural network trained using labeled training data
US20220230024A1 (en) * 2021-01-20 2022-07-21 Hewlett Packard Enterprise Development Lp Artificial intelligence optimization platform

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8374974B2 (en) * 2003-01-06 2013-02-12 Halliburton Energy Services, Inc. Neural network training data selection using memory reduced cluster analysis for field model development
WO2017055878A1 (en) * 2015-10-02 2017-04-06 Tractable Ltd. Semi-automatic labelling of datasets
US20170372155A1 (en) * 2016-06-23 2017-12-28 Siemens Healthcare Gmbh Image Quality Score Using A Deep Generative Machine-Learning Model
WO2017223560A1 (en) * 2016-06-24 2017-12-28 Rensselaer Polytechnic Institute Tomographic image reconstruction via machine learning
US20180189677A1 (en) * 2017-01-05 2018-07-05 Cisco Technology, Inc. Training a machine learning-based traffic analyzer using a prototype dataset
CN110503204A (zh) * 2018-05-17 2019-11-26 国际商业机器公司 识别用于机器学习任务的迁移模型

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6742003B2 (en) 2001-04-30 2004-05-25 Microsoft Corporation Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications
US6430539B1 (en) 1999-05-06 2002-08-06 Hnc Software Predictive modeling of consumer financial behavior
US20040204975A1 (en) 2003-04-14 2004-10-14 Thomas Witting Predicting marketing campaigns using customer-specific response probabilities and response values
US20110178847A1 (en) 2010-01-20 2011-07-21 American Express Travel Related Services Company, Inc. System and method for identifying a selected demographic's preferences using spend level data
US20110231305A1 (en) 2010-03-19 2011-09-22 Visa U.S.A. Inc. Systems and Methods to Identify Spending Patterns
US11615208B2 (en) * 2018-07-06 2023-03-28 Capital One Services, Llc Systems and methods for synthetic data generation
US20200312457A1 (en) * 2019-03-28 2020-10-01 The Trustees Of Indiana University Method and system for creating synthetic unstructured free-text medical data for training machine learning models
US10909446B2 (en) * 2019-05-09 2021-02-02 ClimateAI, Inc. Systems and methods for selecting global climate simulation models for training neural network climate forecasting models
US11531875B2 (en) 2019-05-14 2022-12-20 Nasdaq, Inc. Systems and methods for generating datasets for model retraining

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8374974B2 (en) * 2003-01-06 2013-02-12 Halliburton Energy Services, Inc. Neural network training data selection using memory reduced cluster analysis for field model development
WO2017055878A1 (en) * 2015-10-02 2017-04-06 Tractable Ltd. Semi-automatic labelling of datasets
US20170372155A1 (en) * 2016-06-23 2017-12-28 Siemens Healthcare Gmbh Image Quality Score Using A Deep Generative Machine-Learning Model
WO2017223560A1 (en) * 2016-06-24 2017-12-28 Rensselaer Polytechnic Institute Tomographic image reconstruction via machine learning
US20180189677A1 (en) * 2017-01-05 2018-07-05 Cisco Technology, Inc. Training a machine learning-based traffic analyzer using a prototype dataset
CN110503204A (zh) * 2018-05-17 2019-11-26 国际商业机器公司 识别用于机器学习任务的迁移模型

Also Published As

Publication number Publication date
EP3970024A4 (en) 2023-02-08
EP3970024A1 (en) 2022-03-23
WO2020232188A1 (en) 2020-11-19
US20230289602A1 (en) 2023-09-14
CA3140418A1 (en) 2020-11-19
US11995550B2 (en) 2024-05-28
US11531875B2 (en) 2022-12-20
US11694080B2 (en) 2023-07-04
US20200364551A1 (en) 2020-11-19
US20230074683A1 (en) 2023-03-09
CA3140418C (en) 2022-12-06

Similar Documents

Publication Publication Date Title
US10769766B1 (en) Regularized multi-label classification from partially labeled training data
US11995550B2 (en) Systems and methods for generating datasets for model retraining
WO2018121690A1 (zh) 对象属性检测、神经网络训练、区域检测方法和装置
US11270124B1 (en) Temporal bottleneck attention architecture for video action recognition
Moen et al. Automatic interpretation of otoliths using deep learning
CN109564575A (zh) 使用机器学习模型来对图像进行分类
WO2020232874A1 (zh) 基于迁移学习的建模方法、装置、计算机设备和存储介质
CN111783039B (zh) 风险确定方法、装置、计算机系统和存储介质
JP2017527013A (ja) サービスとしての適応特徴化
CN112329762A (zh) 图像处理方法、模型训练方法、装置、计算机设备和介质
US20220108054A1 (en) System for universal hardware-neural network architecture search (co-design)
US20220198277A1 (en) Post-hoc explanation of machine learning models using generative adversarial networks
CN116109907B (zh) 目标检测方法、装置、电子设备及存储介质
US20230360364A1 (en) Compositional Action Machine Learning Mechanisms
WO2020167156A1 (ru) Способ отладки обученной рекуррентной нейронной сети
US20230143701A1 (en) Systems and methods for predicting expression levels
US11514311B2 (en) Automated data slicing based on an artificial neural network
Wang et al. Intelligent Crowdsourced Testing
Wei et al. Cooperative distillation with X-ray images classifiers for prohibited items detection
WO2023220891A1 (en) Resolution-switchable segmentation networks
Razavi et al. Rice-ResNet: Rice classification and quality detection by transferred ResNet deep model
Ackerman et al. Theory and Practice of Quality Assurance for Machine Learning Systems An Experiment Driven Approach
Sajeeda et al. Bangla missing data imputation using HexaGAN framework
Dabrowski et al. A practical study of neural network-based image classification model trained with transfer learning method.
Akram et al. From Data Quality to Model Performance: Navigating the Landscape of Deep Learning Model Evaluation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40063137

Country of ref document: HK