CN116194936A - 识别拟合目标域的传递学习过程的源数据集 - Google Patents

识别拟合目标域的传递学习过程的源数据集 Download PDF

Info

Publication number
CN116194936A
CN116194936A CN202180061172.8A CN202180061172A CN116194936A CN 116194936 A CN116194936 A CN 116194936A CN 202180061172 A CN202180061172 A CN 202180061172A CN 116194936 A CN116194936 A CN 116194936A
Authority
CN
China
Prior art keywords
source
dataset
target
pair
similarity score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180061172.8A
Other languages
English (en)
Inventor
B·哈伊姆
A·芬克尔施泰因
E·梅纳赫姆
N·阿格蒙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN116194936A publication Critical patent/CN116194936A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2358Change logging, detection, and notification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

提供了一种用于对目标数据集与多个源数据集之间的相似性进行量化并识别与所述目标数据集最相似的一个或多个源数据集的方法。该方法包括在计算系统处接收与源域有关的源数据集和与感兴趣的目标域有关的目标数据集。每个数据集被安排成包括列和行的表格格式,并且源数据集和目标数据集包括相同的特征空间。该方法还包括经由计算系统的处理器预处理每个源‑目标数据集对以移除不相交的列。该方法还包括计算每个源‑目标数据集对的数据集相似性得分、行相似性得分和列相似性得分中的至少两个,以及对所计算的相似性得分进行汇总以识别与该目标数据集最相似的一个或多个源数据集。

Description

识别拟合目标域的传递学习过程的源数据集
背景技术
本公开涉及机器学习和传递学习的领域。更具体地,本公开涉及识别与目标数据集相似的一个或多个源数据集,并且因此适合目标域的传递学习过程。
发明内容
根据本文所描述的实施例,提供了一种用于对目标数据集与多个源数据集之间的相似性进行量化并识别与该目标数据集最相似的至少一个源数据集的方法。该方法包括在计算系统处接收与源域相关的源数据集和与感兴趣的目标域相关的目标数据集,其中,每个数据集以表格格式被安排,所述表格格式包括与所述数据集的特征相对应的列以及与所述数据集的实例相对应的行,并且其中,所述源数据集和所述目标数据集包括相同的特征空间。该方法还包括经由计算系统的处理器预处理每个源-目标数据集对以移除任何不相交的列。该方法还包括经由该处理器计算每个源-目标数据集对的数据集相似性得分、行相似性得分和列相似性得分中的至少两个,以及经由该处理器汇总每个源-目标数据集对的数据集相似性得分、行相似性得分和列相似性得分中的该至少两个以识别与该目标数据集最相似的至少一个源数据集。
在另一实施例中,提供了一种计算系统。所述计算系统包括用于接收与源域相关的源数据集和与感兴趣的目标域相关的目标数据集的接口,其中,每个数据集以表格格式来安排,所述表格格式包括与所述数据集的特征相对应的列以及与所述数据集的实例相对应的行,并且其中,所述源数据集和所述目标数据集包括相同的特征空间。计算系统还包括处理器和存储程序指令的计算机可读存储介质,所述程序指令指引处理器预处理每个源-目标数据集对以移除任何不相交的列。计算机可读存储介质还存储指导处理器计算每个源-目标数据集对的数据集相似性得分、行相似性得分和列相似性得分中的至少两个的程序指令。该计算机可读存储介质进一步存储指导该处理器汇总每一个源-目标数据集对的数据集相似性得分、行相似性得分和列相似性得分中的至少两个以识别与该目标数据集最相似的至少一个源数据集的程序指令。
在又一实施例中,提供一种计算机程序产品。所述计算机程序产品包括计算机可读存储介质,所述计算机可读存储介质具有随其包含的程序指令,其中所述计算机可读存储介质不是瞬时性信号本身。所述程序指令可由处理器执行以使得所述处理器接收与源域相关的源数据集和与感兴趣的目标域相关的目标数据集,其中,每个数据集以表格格式来安排,所述表格格式包括与所述数据集的特征相对应的列以及与所述数据集的实例相对应的行,并且其中,所述源数据集和所述目标数据集包括相同的特征空间。程序指令还可由处理器执行以使处理器预处理每个源-目标数据集对以移除任何不相交的列。程序指令还可由处理器执行以使处理器计算每个源-目标数据集对的数据集相似性得分、行相似性得分和列相似性得分中的至少两个,并汇总每个源-目标数据集对的数据集相似性得分、行相似性得分和列相似性得分中的至少两个,以识别与目标数据集最相似的至少一个源数据集。
附图说明
图1是可用于实现本文所描述的数据集识别技术的示例性计算系统的简化框图;
图2是本文所述的数据集识别过程的示例性实施例的过程流程图;
图3是示出可以如何结合Pearson相关函数使用分布直方图计算示例性相似性得分的图形表示;
图4是用于量化目标数据集和多个源数据集之间的相似性并识别与目标数据集最相似的一个或多个源数据集的方法的简化过程流程图;
图5是示例性云计算环境的示意图;以及
图6是由图5中所示的云计算环境提供的示例性功能抽象层的简化示意图。
具体实施方式
传统的受监督的机器学习技术涉及使用源数据集来训练用于特定任务和领域的模型。具体地,源数据集由输入数据与相应的配对的输出数据组成。在训练过程期间,受监督机器学习算法例如通过搜索输入数据中与输出数据相关的模式来学习。当训练过程完成时,所得到的受监督的机器学习模型可以用于对与同一任务和领域有关的新输入数据进行标记或分类。
这样的受监督的机器学习技术需要足够数量的源数据集来训练用于特定任务和领域的模型。不幸的是,在许多现实场景中,为感兴趣的目标域获得足够数量的源数据集是困难的或甚至不可能的。然而,给定目标域的特定目标数据集,通常存在来自其他相关源域的类似源数据集。因此,类似的源数据集可以用于执行针对目标域的传递学习过程。
在机器学习团体中,传递学习是在不同域之间传递知识的过程。更具体地说,转移传递学习涉及通过识别两个领域之间的共性或相似性,将针对特定任务的先前源领域所学习的知识和技能应用于特定任务的新目标感兴趣领域。为了将传递学习过程成功地应用于目标域,必须识别来自源域的合适的源数据集。源数据集然后被用于训练目标域的准确模型。然而,在操作中,识别对于目标域的传递学习过程是良好拟合的源数据集常常在计算上困难且耗时。
因而,本公开描述了用于识别源数据集的技术,所述源数据集类似于目标数据集,并且因此适用于使用传递学习过程来训练目标域的准确模型。换言之,给定多个源数据集和单个目标数据集,本文所描述的技术识别最可能适合目标域的传递学习过程的一个或多个源数据集。这是通过执行在源数据集和目标数据集的对(即,“源-目标数据集对”)之间的成对比较以生成与每个源-目标数据集对相关的相似性得分的若干方法来实现的。相似性得分随后被汇总以识别与目标数据集最相似或最接近的一个或多个源数据集。所识别的源数据集随后可被用于目标域的传递学习过程。
在一些实施例中,本文所描述的技术用于金融欺诈检测。例如,银行经常使用受监督的机器学习技术来训练模型,这些模型可以基于特定的交易细节(如支付金额、商户、位置、时间等)将交易(如信用卡支付)自动分类为合法的或欺诈的。这样的模型对于大银行是有效的,因为大银行通常具有足够数量的经标记的实例来准确地训练用于它们的特定任务和域的分类器。然而,较小银行通常不具有足够数量的经标记的实例或其他资源以利用这样的受监督的机器学习技术。此外,虽然这样的银行可能对相同的任务感兴趣,但是它们的域将可能在某种程度上与较大银行的域不同,从而使得难以或不可能使用由较大银行学习的模型。
因此,在一些情况下,传递学习过程可用于将相对于较大银行的先前域和任务而学习的知识和技能应用到与较小银行的相同任务有关的感兴趣的新目标域。具体而言,传递学习过程可使用来自先前域的与较大bank相关的源数据集来训练与较小银行相关的目标域的准确分类器。然而,为了传递学习过程成功,必须识别来自先前域的与用于目标域的目标数据集类似的特定源数据集。在各实施例中,这是使用本文描述的数据集识别技术来实现的。
本文描述的实施例涉及使用数据集识别技术来帮助金融欺诈检测。然而,本领域技术人员将领会,本文描述的数据集识别技术对于将受益于对与目标数据集类似的一个或多个源数据集的识别的任何传递学习任务是有用的。
图1是可用于实现本文所描述的数据集识别技术的示例性计算系统100的简化框图。计算系统100可以包括一个或多个服务器、一个或多个通用计算设备、一个或多个专用计算设备、一个或多个虚拟机和/或任何其他合适类型的计算设备。作为示例,计算系统100可以是台式计算机、膝上型计算机、平板计算机或智能电话。此外,在一些实施例中,计算系统100是云计算节点。
计算系统100包括适于执行存储的程序指令(诸如程序模块)的处理器102,以及在执行期间为程序指令提供临时存储空间的存储器设备104。处理器102可以包括任何合适的处理单元或设备,诸如例如单核处理器、具有软件多线程执行能力的单核处理器、多核处理器、具有软件多线程执行能力的多核处理器、计算集群、并行平台、具有共享存储器的并行平台、或任意数量的其他配置。此外,处理器102可包含集成电路、专用集成电路(ASIC)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑控制器(PLC)、复杂可编程逻辑装置(CPLD)、离散门或晶体管逻辑、离散硬件组件或其任何组合,其经设计以执行本文描述的功能。存储器设备104可以包括易失性存储器组件、非易失性存储器组件或者易失性和非易失性存储器组件两者。非易失性存储器部件可以包括例如只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除ROM(EEROM)、闪存、或非易失性随机存取存储器(RAM)(例如,铁电RAM(FeRAM))。易失性存储器组件可以包括例如RAM,其可以充当外部高速缓存存储器。RAM可以以许多形式获得,诸如例如同步RAM(SRAM)、动态RAM(DRAM)、同步动态RAM(SDRAM)等。
在一些实施例中,计算系统100在分布式云计算环境中实践,其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中,程序模块可以位于本地计算设备和远程计算设备两者中。
处理器102通过系统互连106(例如,
Figure BDA0004113844900000031
等)连接至被适配成用于将计算系统100连接至一个或多个I/O设备110的输入/输出(I/O)设备接口108。I/O设备110可以包括例如键盘和指点设备,其中定点设备可以包括触摸板或触摸屏等等。I/O设备110可以是计算系统100的内置组件,或者可以是外部连接至计算系统100的设备。
处理器102还通过系统互连106链接到适于将计算系统100连接到显示设备114的显示接口112。显示设备114可以包括显示屏,该显示屏是计算系统100的内置组件。显示设备114还可以包括外部连接到计算系统100的计算机监视器、电视机、或投影仪等。此外,网络接口控制器(NIC)116适于通过系统互连106将计算系统100连接到网络118。在一些实施例中,NIC116可使用任何合适的接口或协议(诸如互联网小型计算机系统接口等)传输数据。网络118可以是蜂窝网络、无线电网络、广域网(WAN)、局域网(LAN)或互联网等。网络118可以包括相关联的铜传输电缆、光传输纤维、无线传输设备、路由器、防火墙、交换机、网关计算机、边缘服务器等。
一个或多个远程设备120可以可选地通过网络118连接到计算系统100。此外,一个或多个数据库122可以可选地通过网络118连接至计算系统100。在一些实施例中,一个或多个数据库122存储与机器学习任务和/或传递学习任务相关的数据。例如,(一个或多个)数据库122可包括来自一个或多个相关源域的源数据集。在这样的实施例中,计算系统100可在本文描述的数据集识别过程期间访问或下载来自源域的源数据集的至少一部分。
计算系统100还包括计算机可读存储介质(或多个介质)124,其包括可由处理器102执行以执行不同操作(诸如本文中描述的数据集识别过程)的程序指令。计算机可读存储介质124可以与计算系统100集成在一起,或者可以是在使用时与计算系统100连接的外部设备。计算机可读存储介质124可以包括例如电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质124的更具体示例的非穷尽列表包括以下各项:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡之类的机械编码设备或具有记录在其上的指令的槽中的凸出结构、以及上述各项的任何合适的组合。此外,如本文所使用的术语“计算机可读存储介质”不应被解释为是瞬态信号本身,例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,穿过光纤电缆的光脉冲)、或通过电线传输的电信号。在一些实施例中,NIC116从网络118接收程序指令并且转发这些程序指令用于存储在计算系统100内的计算机可读存储介质124中。
通常,包括程序模块的程序指令可包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。例如,这些程序指令可以包括汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码,这些程序设计语言包括面向对象的程序设计语言(诸如Smalltalk、C++等)和常规的过程式程序设计语言(诸如“C”程序设计语言或类似程序设计语言)。程序指令可以完全在计算系统100上执行、部分在计算系统100上执行、作为独立软件包执行、部分在计算系统100上执行并且部分在经由网络118连接到计算系统100的远程计算机或服务器上执行、或者完全在这样的远程计算机或服务器上执行。在一些实施例中,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用程序指令的状态信息来个性化电子电路来执行程序指令,以便执行本文描述的技术的方面。
根据本文中所描述的实施例,计算机可读存储介质124包括用于执行本文中所描述的数据集识别过程的程序模块。具体地,计算机可读存储介质124包括数据集预处理模块126、特征选择模块128、数据集相似性计算模块130、行相似性计算模块132、列相似性计算模块134以及相似性得分汇总模块136。参见图2-4进一步解释可执行此类模块以执行本文描述的数据集识别过程的方式。
应当理解,图1的框图不旨在指示计算系统100将包括图1中所示的所有组件。相反,计算系统100可以包括图1中未示出的更少或附加的组件(例如,附加处理器、附加存储器组件、嵌入式控制器、附加模块、附加网络接口等)。此外,与这里描述的数据集识别过程有关的任何功能部分地或完全地在硬件和/或处理器102中实现。例如,这些功能可以用ASIC、嵌入式控制器中实现的逻辑、和/或处理器102中实现的逻辑等来实现。在一些实施例中,与本文描述的数据集识别过程有关的功能用逻辑来实现,其中如本文所提及的逻辑可包括任何合适的硬件(例如,处理器等)、软件(例如,应用等)、固件或硬件、软件和固件的任何合适的组合。
图2是本文所述的数据集识别过程200的示例性实施例的过程流程图。相似标号的t条目如参考图1所述。在不同实施例中,方法200由针对图1所述的计算系统100实现。具体地,方法200可由处理器102通过执行计算机可读存储介质124内的模块126-136来执行。
根据本文描述的实施例,数据集识别过程200包括两种形式的输入:(1)与源域相关的多个源数据集202;以及(2)与感兴趣的目标域相关的单个目标数据集204。在各个实施例中,每个数据集202和204内的数据被表示为以包括多个行和多个列的表格格式排列的数值的向量,其中列与行相交以定义表格内的单个单元格。特定数据集内的每一列表示该数据集的特征。此外,特定数据集内的每一行表示数据集的单个实例。此外,当特定行(即,实例)的每个单元格内的数值被组合成单独的矢量时,每个矢量表示数据集的单个特征向量。根据本文中描述的各实施例,数据集识别过程200假定源数据集202和目标数据集204来自相同的特征空间,意味着数据集202和204内的列的大部分是相同的,或换言之,列大部分是相交的。
在框206,预处理每个源-目标数据集对。在不同实施例中,这涉及利用标准数据预处理技术来为数据集识别过程200准备数据集。具体而言,这包括从数据集中移除不相交的列(如果存在的话),使得数据集仅包括相交的列。此外,预处理数据集可以包括以下步骤中的任一个(或全部):(1)填充数据集中的缺失值;(2)从数据集中移除所有不相关或不重要的列;(3)对齐数据集,使得相交的列处于相同的次序,并且因此数值的向量在数据集之间直接相关;以及(4)标准化数据集内的值。此外,取决于具体实现的细节,可以执行任何数量的附加或替代预处理步骤。
在框208,对每个源-目标数据集对可选地执行特征选择。在一些实施例中,特征选择包括从每个源-目标数据集对中识别和移除最佳拆分列。更具体地,对于每个源-目标数据集对,识别并移除最好地拆分数据集的预定数量的列。根据本文描述的实施例,这是通过首先将每个源数据集的每个实例标记为“0”并且将目标数据集的每个实例标记为“1”来实现的。对于每个源-目标数据集对,机器学习模型然后被训练成在这两个数据集之间进行区分。机器学习模型可以包括例如决策树模型、深度学习模型、简单分类模型、回归模型或基于迷宫的模型。在各个实施例中,对每个源-目标数据集对的机器学习模型包括最重要的特征。最重要的特征是包括两个数据集之间的最高级别的不相似性的特征,这种不相似性的特征可以与每个数据集域相关。作为示例,如果两个数据集来自不同国家,则最重要的特征可以是语言特征或国家特征。在各种实施方式中,识别最重要的特征的方式根据所使用的模型的类型而变化。例如,如果机器学习模型是决策树模型,则模型可以自动输出不同度量,包括按照重要性等级对特征进行排名。
一旦识别了最重要的特征,就从源-目标数据集对内的两个数据集中移除与最重要的特征相对应的列。根据本文中所描述的实施例,对应于最重要的特征的列被称为“最佳拆分列”,因为它是包括这两个数据集之间的最不相似(或最好分开)值的列。此外,移除最佳拆分列使得数据集变得更相似,并且因此使得总体机器学习任务更困难。
在已经去除最佳拆分列之后,重新训练机器学习模型以区分这两个数据集。训练机器学习模型并且然后移除最佳拆分列的这个过程被重复预先确定的次数k次迭代。因此,一旦对每个源-目标数据集对完成了该迭代过程,则源数据集和目标数据集已被过滤以移除预定数目k个最佳拆分列。然后,数据集识别过程200可使用经过滤的数据集前进到框210-214的相似性计算步骤。
在不同实施例中,k的值根据数据集内的相交列的数量而变化。例如,k的值可以等于相交列的总数的约10%。作为更具体的示例,如果数据集包括1000个相交列,则可移除总共大约100个最佳拆分列。此外,在一些实施例中,在每个迭代期间移除多于一个的最佳拆分列。例如,在每个迭代期间,可以移除大约2-10个最佳拆分列。使用相同的示例,10-50次迭代随后可被用于从数据集中移除总共100个最佳拆分列。因此,在这种实施例中,预定数量的迭代可表示为n,而预定数量的最佳拆分列可表示为k。
在其他实施例中,特征选择包括滤除其中值的分布在每个源-目标数据集对内的源数据集与目标数据集之间最不相似的列。在一些实施例中,这是通过针对源数据集内的每一列和目标数据集内的每一列的值建立值分布近似(诸如分布直方图)来实现的。随后可将源数据集的特定列的值分布近似值与目标数据集的对应列的值分布近似值进行比较。该比较可以使用任何合适的相似性函数来实现,诸如例如皮尔逊相关函数、余弦相似性函数或欧几里得距离函数。在各实施例中,为相似性函数设置阈值,诸如例如,如果使用皮尔逊相关函数,则bins的阈值>0.3。以此方式,从每个源-目标数据集对中过滤出最不相似的列,导致剩余的列或特征被选择用于数据集识别过程200。在其他实施例中,不是为相似性函数设置阈值,而是将预定百分比的具有最低分布相似性得分的列过滤掉,并且将剩余的列或特征用于数据集识别过程200。
作为另一示例,在标记源数据集的实施例中,特征选择可以包括使用现有特征选择方法来基于特征的相对重要性来选择特征,以便对每个源-目标数据集对解决机器学习任务。此类方法的示例包括基于相关性的特征选择、基于信息增益的特征选择、以及基于学习者的特征选择。在这样的实施例中,一旦按照重要性对特征进行排名,就从数据集中过滤出与最不重要的特征相对应的列,并且将剩余的列或特征用于数据集识别过程200。
在框210,计算每个源-目标数据集对的数据集相似性得分。在框208处的特征选择包括识别每个源-目标数据集对内的最佳拆分列的实施例中,框208的输出可被用于计算每个源-目标数据集对的数据集相似性得分。在一些实施例中,除了在框208的特征选择阶段执行的k次迭代之外,训练机器学习模型并且然后去除最佳拆分列的过程可以被重复预先确定的数量的附加迭代。在这样的实施例中,框208的输出结合从预定数量的附加迭代获得的输出可被用于计算每个源-目标数据集对的数据集相似性得分。此外,在其中在框208处不识别每个源-目标数据集对内的最佳拆分列的实施例中,在框210处执行关于框208所描述的迭代的最佳拆分列识别过程。对于每个源-目标数据集对,该迭代过程的输出是针对每次迭代的机器学习模型,其中,每个机器学习模型已经被训练成在特定迭代期间移除一个或多个最佳拆分列之后在源-目标数据集对内的两个数据集之间拆分。
对于每个源-目标数据集对,然后可以通过例如检查与模型相关的一般度量来分析来自每次迭代的机器学习模型的结果。如果针对特定迭代的机器学习模型产生低质量结果,则这意味着该模型不能在这两个数据集之间进行区分,并且因此这两个数据集包括相对类似的值。相反,如果机器学习模型产生高质量结果,则这意味着该模型能够有效地区分这两个数据集,并且因此这两个数据集包括相对不相似的值。根据本文中所描述的各实施例,这一概念被用来生成每一源-目标数据集对的数据集相似性得分。这是通过首先确定用于源-目标数据集对的机器学习模型的总体准确度来实现的,其中,术语“准确度”是指由模型作出的正确预测的数目与由该模型作出的预测的总数的比率。在各个实施例中,可以使用与机器学习问题有关的任何合适类型的评估度量来确定模型的总体准确度。例如,模型的总体准确度可通过计算针对特定源-目标数据集对生成的所有模型的平均准确度,或通过计算在过程的最终迭代期间生成的模型的曲线下面积(AUC)得分来确定。
然后计算每个源-目标数据集对的数据集相似性得分,其中该数据集相似性得分等于(1-总体准确度)。由于较高的总体准确度意味着数据集较不相似,因此较低的数据集相似性得分也意味着数据集较不相似。结果,根据框210的成对比较方法,具有最高数据集相似性得分的源-目标数据集对最相似。
在框212,计算每个源-目标数据集对的行相似性得分。在各个实施例中,这是通过计算目标数据集的每个实例与每个源数据集的每个实例之间的距离得分来实现的。在操作中,距离得分可以通过比较每个源-目标数据集对内的特征向量来计算。接下来,对每个源-目标数据集对的每个实例的距离得分进行排名并汇总以找到每个源-目标数据集对的最大距离得分的预定百分比(诸如例如5%)的平均值(或加权平均值)。每个源-目标数据集对的所得平均最小距离得分随后被输出作为该源-目标数据集对的行相似性得分。
在不同实施例中,这种成对比较方法可能是计算上困难且耗时的,因为必须比较每个数据集内的每个实例。因此,根据本文描述的实施例,可以使用基于聚类的优化过程来更快速和高效地执行成对比较。在各个实施例中,基于聚类的优化过程涉及对每个源-目标数据集对执行若干步骤。首先,使用聚类算法(例如,k均值聚类算法(也称为Lloyd算法))计算每个源数据集的每个实例的聚类中心。然后用最近的中心对每个源数据集的每个特征向量进行注释。其次,计算目标数据集的每个实例的最近中心。第三,计算目标数据集内的每个特征向量与来自位于最近聚类上的源数据集的每个特征向量之间的最小距离。仅从位于最近的聚类上的源数据集计算特征向量的最小距离去除了不必要的计算,并且因此节省了时间。第四,执行上述距离汇总步骤以找到每个源-目标数据集对的平均最小距离得分,该平均最小距离得分等于该源-目标数据集对的行相似性得分。
在框214,计算每个源-目标数据集对的列相似性得分。具体而言,由于源数据集和目标数据集包括对应的列,因此每个源.目标数据集对的相似性得分是在逐列的基础上计算的。在不同实施例中,通过针对每个列的值建立值分布近似(诸如分布直方图)来计算这样的相似性得分。随后可将源数据集的特定列的值分布近似值与目标数据集的对应列的值分布近似值进行比较。该比较可以使用任何合适的相似性函数来实现,诸如例如皮尔逊相关函数、余弦相似性函数或欧几里得距离函数。每个源-目标数据集对内的对应列的所得相似性得分随后被汇总以输出每个源-目标数据集对的单个列相似性得分。此外,本领域技术人员将理解,虽然在本文中关于分布直方图用于计算列相似性得分的使用来描述实施例,但是任何数量的其他合适的值分布近似值也可以用于计算列相似性得分。
在一些实施例中,通过找到所有相似性得分的平均值来汇总列的相似性得分。在其他实施例中,列的相似性得分是通过找到所有相似性得分的加权平均值来汇总的,其中权重是基于每个列的相对重要性来确定的。在这样的实施例中,如果源数据集被标记,则基于源域的任务的现有特征排名方法可以用于确定每个特征的权重。此类现有特征排名方法的示例包括信息增益技术和方差分析(ANOVA)技术。可替代地,如果没有标记源数据集,则可以使用任何合适的启发式过程(例如,利用熵度量的启发式过程)来确定特征的权重。在各个实施例中,通过以此方式计算加权平均值来汇总相似性得分允许更重要的特征对数据集是否相似具有更大影响。此外,在其他实施例中,任何数量的其他技术也可被利用来汇总列的相似性得分,使得对每个源-目标数据集对获得单个列相似性得分。
在一些实施例中,对数据集识别过程200的每个实现方式执行框210-214的相似性计算步骤中的两个。例如,在一些实施例中,仅计算数据集相似性得分和行相似性得分。在其他实施例中,仅计算行相似性得分和列相似性得分。在其他实施例中,仅计算数据集相似性得分和列相似性得分。此外,在其他实施例中,针对数据集识别过程200的每个实现方式,仅执行框210-214的相似性计算步骤中的一个。此外,在其他实施例中,框210-214的所有三个相似性计算步骤是针对数据集识别过程200的每个实现来执行的。
在不同实施例中,计算机可读存储介质124包括程序指令,例如程序模块(未示出),所述程序指令指导处理器102确定针对数据集识别过程200的每个实现方式要执行哪些相似性计算步骤。在一些实施例中,该确定可基于例如源数据集和目标数据集的一般评估、要执行的任务的类型和/或每种类型的相似性得分的预测准确度。此外,在一些实施例中,计算机可读存储介质124还(或可替代地)包括程序指令(未示出),这些程序指令指导处理器102确定哪些相似性得分用于相对于框216所描述的汇总步骤。例如,在一些实施例中,可在框210-214处计算所有三个相似性得分;然而,如果处理器102确定另一相似性得分不是高度相关或高度准确的,则处理器102可仅选择所计算的相似性得分中的两者以用于汇总步骤。
在框216,对数据集识别过程200的实现来汇总来自框210、212和/或214的相似性得分,在数据集识别过程200中执行框210-214的相似性计算步骤中的至少两个。换言之,每个源-目标数据集对的数据集相似性得分、行相似性得分和/或列相似性得分被组合以找到每个源-目标数据集对之间的总体相似性得分。在一些实施例中,这包括对每个源-目标数据集对的数据集相似性得分、行相似性得分和/或列相似性得分进行规范化,然后简单地对这些得分求和以确定源-目标数据集对的总体相似性得分。在其他实施例中,这包括找到每个源-目标数据集对的平均相似性得分、中值相似性得分和/或最大相似性得分。在其他实施例中,这包括针对每个源-目标数据集对查找数据集相似性得分、行相似性得分和/或列相似性得分的加权平均值。在其他实施例中,这包括使用聚合函数来基于对应的数据集相似性得分、行相似性得分和/或列相似性得分来确定每个源-目标数据集对的总体相似性得分。此外,所属领域的技术人员将了解,取决于特定实施例的细节,可使用任何合适的汇总技术来汇总相似性得分。
在框218,数据集识别过程200输出具有最高得分的源数据集。例如,在一些实施例中,数据集识别过程200输出具有最高总体相似性得分的源数据集的列表,和/或通过总体相似性得分对源数据集进行排名。在一些实施例中,计算系统100的处理器102使得列表或排名经由显示设备114显示给用户和/或经由网络118显示给一个或多个远程设备120的一个或多个远程用户。例如,该列表或排名可以显示为一个或多个图表、图、和/或图。向用户显示列表或排名可便于用户选择具有最高的整体相似性得分的一个或多个源数据集以用于目标域的传递学习过程。
在其他实施例中,计算机可读存储介质124包括程序指令(未示出),所述程序指令指引处理器102自主地选择将用于目标域的传递学习过程的具有最高总体相似性得分的指定数量的源数据集。根据具体实现的细节,指定的源数据集的数量可以是例如大约2-5个源数据集。在一些实施例中,计算系统100的处理器102致使一个或多个图表、示意图和/或图被显示给用户,以提供对自主选择的解释。
图2的框图并不旨在指示数据集识别过程200的框206-218要以任何特定顺序执行,或者数据集识别过程200的所有框206-218要包括在每种情况下。此外,取决于具体实现的细节,任何数目的附加块可被包括在数据集识别过程200内。例如,在一些实施例中,数据集识别过程200包括使用所选择的具有最高总体相似性得分的源数据集来利用传递学习过程训练目标域的分类模型。具体地,所选择的源数据集可以用于训练分类模型的分类器。
图3是示出可以如何使用分布直方图302A-D结合皮尔逊相关函数来计算示例性相似性得分300A和300B的图形表示。根据图3中所示的示例,分布直方图302A和302B以及分布直方图302C和302D使用在源数据集和目标数据集内的对应列来构建。换句话说,分布直方图302A和302B以及分布直方图302C和302D涉及相同的特征。然后使用皮尔逊相关函数来比较分布直方图302A和302B以及分布直方图302C和302D。皮尔逊相关函数随后输出两个列的相似性得分300A和300B,其中更接近1的相似性得分指示列更相似。如图3所示,分布直方图302C和302D具有0.4363的相似性得分300A,而分布直方图302A和302B具有-0.3351的相似性得分300A。因此,与分布直方图302C和302D相关的列相对类似,而与分布直方图302A和302B有关的列高度不同。
图4是用于量化目标数据集和多个源数据集之间的相似性并识别与目标数据集最相似的一个或多个源数据集的方法400的简化过程流程图。在不同实施例中,方法400由关于图1所述的计算系统100实现。具体地,方法400可以由处理器102通过执行计算机可读存储介质124内的模块126-136来执行。
方法400开始于框402,在框402处,在计算系统处接收与源域有关的源数据集和与感兴趣的目标域有关的目标数据集。每个数据集以表格格式来布置,所述表格格式包括对应于数据集的特征的列和对应于数据集的实例的行。此外,源数据集和目标数据集包括相同的特征空间。此外,在不同实施例中,源域和目标域涉及相同的任务,诸如例如金融欺诈检测。
在框404,经由计算系统的处理器对每个源-目标数据集对进行预处理以移除任何不相交的列。在一些实施例中,每个源-目标数据集对也被预处理以填充缺失的值、移除任何不相关或不重要的列、对齐数据集以使得列处于相同的次序、和/或标准化数据集内的值。
在框406,经由处理器计算每个源-目标数据集对的数据集相似性得分、行相似性得分和列相似性得分中的至少两者。在各实施例中,计算每个源-目标数据集对的数据集相似性得分包括对每个源-目标数据集对迭代地执行以下操作,直到从源-目标数据集对中移除了预定数量的最佳拆分列:(1)训练机器学习模型以在源-目标数据集对内的源数据集和目标数据集之间进行区分;(2)识别所述机器学习模型的一个或多个最重要的特征,其中,所述一个或多个最重要的特征中的每一个对应于所述源-目标数据集对内的最佳拆分列;以及(3)从每个源-目标数据集对中移除对应于所述一个或多个最重要的特征的所述一个或多个最佳拆分列。此外,计算每个源-目标数据集对的数据集相似性得分包括在移除了预定数量的最佳拆分列之后对每个源-目标数据集对执行以下操作:(1)确定在每次迭代期间生成的机器学习模型的总体准确度;以及(2)计算所述源-目标数据集对的所述数据集相似性得分,其中所述数据集相似性得分等于1减去所述机器学习模型的总体准确度,并且其中更接近1的数据集相似性得分指示所述源数据集和所述目标数据集更相似。此外,在各个实施例中,计算行相似性得分包括对每个源-目标数据集对执行以下操作:(1)通过执行基于聚类的优化过程来计算目标数据集的每个实例与源数据集的每个实例之间的距离得分;(2)对所述距离得分进行汇总以找到所述源-目标数据集对的平均最小距离得分;以及(3)输出所述平均最小距离得分作为所述源-目标数据集对的所述行相似性得分。此外,在各个实施例中,计算每个源-目标数据集对的列相似性得分包括针对每个源-目标数据集对执行以下操作:(1)针对源数据集内的每列和针对目标数据集内的每列建立值分布近似,诸如分布直方图;(2)使用相似性函数来比较所述源数据集和所述目标数据集内的对应列的所述值分布近似,其中所述相似性函数的输出是每一对应列的相似性得分;以及(3)对相应列的相似性得分进行汇总以找到源-目标数据集对的列相似性得分。
在框408,经由处理器汇总每个源-目标数据集对的所计算的相似性得分,以识别与该目标数据集最相似的一个或多个源数据集。在不同实施例中,这包括找到每个源-目标数据集对的所计算的相似性得分的总和、平均值、中值、最大值、加权平均值、聚合或其他的汇总统计,以及将所计算的相似性得分的总和、平均值、中值、最大值、加权平均值、聚合或其他的汇总统计输出为每个源-目标数据集对的总体相似性得分。
图4的框图并非旨在指示方法400的方框402-408要以任何特定顺序执行,或者方法400的所有方框402-408要包括在每种情况下。此外,取决于具体实现的细节,方法400内可以包括任何数量的附加框。例如,在一些实施例中,方法400还包括使用与目标数据集最相似的至少一个源数据集经由针对目标域的传递学习过程来训练分类模型。此外,在一些实施例中,方法400包括经由计算系统的显示设备显示与目标数据集最相似的源数据集的列表或排名。这可便于用户选择用于传递学习过程的一个或多个源数据集。在其他实施例中,计算系统自主地选择用于传递学习过程的一个或多个源数据集,并且可选地向用户显示一个或多个图表、示意图和/或图以提供对自主选择的解释。
在各个实施例中,方法400还包括在计算每个源-目标数据集对的数据集相似性得分、行相似性得分和列相似性得分中的至少两项之前经由处理器来执行对每个源-目标数据集对的特征选择。在一些实施例中,执行特征选择包括对每个源-目标数据集对迭代地执行以下操作,直到已经从源-目标数据集对移除了预定数量的最佳拆分列:(1)训练机器学习模型以在源-目标数据集对内区分源数据集和目标数据集;(2)识别所述机器学习模型的一个或多个最重要的特征,其中,所述一个或多个最重要的特征中的每一个对应于所述源-目标数据集对内的最佳拆分列;以及(3)从每个源-目标数据集对中移除对应于所述一个或多个最重要的特征的所述一个或多个最佳拆分列。此外,在这样的实施例中,执行特征选择包括将源-目标数据集对内的其余列识别为所选特征。此外,在这样的实施例中,特征选择过程的结果可以用于计算源-目标数据集对的数据集相似性得分,由此简化总体数据集相似性得分计算过程。
本发明可以是计算系统、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(或多个介质)。
下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此,流程图或框图中的每个框可表示指令的模块、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中,框中标注的功能可以不按照图中标注的顺序发生。例如,取决于所涉及的功能,连续示出的两个块实际上可以基本上同时执行,或者这些块有时可以以相反的顺序执行。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。
在一些场景中,本文中描述的技术可在云计算环境中实现,如关于图5和6更详细地描述的。提前理解,虽然本公开可包括云计算的描述,但是本文描述的技术的实现不限于云计算环境。相反,本发明的实施例能够结合现在已知的或以后开发的任何其他类型的计算环境来实现。
云计算是一种服务交付模型,用于使得能够方便地、按需地网络访问可配置计算资源(例如,可配置计算资源)的共享池。网络、网络带宽、服务器、处理单元、存储器、存储设备、应用程序、虚拟机和服务),其能够以最小的管理努力或与服务的提供商的交互快速地供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。
至少五个特征如下:
(1)按需自助服务:云消费者可自动单方面根据需要提供计算能力,如服务器时间和网络存储,而不需要与服务提供商进行人为交互。
(2)广泛的网络接入:能力可通过网络获得并且通过促进异构瘦客户机平台或厚客户机平台(例如,移动电话、膝上型计算机、和PDA)使用的标准机制接入。
(3)资源池:提供者的计算资源被合并以使用多租户模型来服务于多个消费者,其中根据需求动态地分配和重新分配不同的物理和虚拟资源。存在位置独立性的感觉,因为消费者通常不具有对所提供的资源的确切位置的控制或了解,但可能能够以较高抽象级别(例如,国家、州或数据中心)指定位置。
(4)快速弹性:能够快速和弹性地提供能力,在一些情况下自动地快速缩小和快速释放以快速放大。对于消费者而言,可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。
(5)测量服务:云系统通过在适合于服务类型(例如,存储、处理、带宽、和活动用户账户)的某个抽象级别处利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用,为所利用的服务的提供者和消费者提供透明度。
所述至少三种业务模型如下:
(1)软件即服务(SaaS):提供给消费者的能力是使用在云基础设施上运行的提供商的应用程序。可通过诸如web浏览器(例如,基于web的电子邮件)之类的瘦客户端接口从不同客户端设备访问应用程序。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至单独的应用程序能力的底层云基础设施,可能的例外是有限的用户特定应用程序配置设置。
(2)平台即服务(PaaS):提供给消费者的能力是将消费者创建的或获取的使用由提供商支持的编程语言和工具创建的应用程序部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施,但是对所部署的应用程序和可能的应用程序托管环境配置具有控制。
(3)基础设施即服务(IaaS):提供给消费者的能力是提供处理、存储、网络和其他基本计算资源,其中消费者能够部署并运行任意软件,其可以包括操作系统和应用程序。消费者不管理或控制底层云基础设施,而是具有对操作系统、存储、所部署的应用程序的控制以及对所选联网组件(例如,主机防火墙)的可能受限的控制。
至少四种部署模型如下:
(1)私有云:云基础架构仅为组织运作。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
(2)社区云:云基础设施由若干组织共享并且支持已经共享关注(例如,任务、安全要求、策略、和合规性考虑)的特定社区。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
(3)公共云:云基础架构可用于普通公众或大型行业团体并且由出售云服务的组织拥有。
(4)混合云:云基础设施是两个或更多个云(私有云、社区云、或公共云)的组合,这些云保持唯一实体但通过使数据和应用程序能够移植的标准化技术或私有技术(例如,云突发以用于云之间的负载平衡)绑定在一起。
云计算环境是面向服务的,集中于无状态、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点网络的基础设施。
图5是示例性云计算环境500的示意图。如图所示,云计算环境500包括一个或多个云计算节点502,云消费者使用的本地计算设备(诸如例如个人数字助理(PDA)或蜂窝电话504A、台式计算机504B、膝上型计算机504C和/或汽车计算机系统504N)可与云计算节点502通信。云计算节点502可彼此通信。它们可以物理地或虚拟地分组(未示出)在一个或多个网络中,诸如如上所述的私有云、社区云、公共云或混合云、或其组合。这允许云计算环境500提供基础架构、平台和/或软件作为云消费者不需要为其维护本地计算设备上的资源的服务。应当理解,图5中所示的计算设备504A-N的类型仅旨在是说明性的,并且云计算节点502和云计算环境500可以通过任何类型的网络和/或网络可寻址连接(例如,使用web浏览器)与任何类型的计算机化设备通信。
图6是由图5中所示的云计算环境500提供的示例性功能抽象层600的简化示意图。应当事先理解,图6中所示的组件、层和功能仅旨在是说明性的,并且本发明的实施例不限于此。如所描述,提供以下层和对应功能。
硬件和软件层602包括硬件和软件组件。硬件组件的实例包括大型机,在一个示例中为
Figure BDA0004113844900000121
系统;基于RISC(精简指令集计算机)架构的服务器,在一个示例中为IBM/>
Figure BDA0004113844900000122
系统;IBM/>
Figure BDA0004113844900000123
系统;IBM/>
Figure BDA0004113844900000124
系统;存储装置;网络和网络组件。软件组件的示例包括网络应用服务器软件,在一个示例中为IBM/>
Figure BDA0004113844900000125
应用服务器软件;以及数据库软件,在一个示例中为IBM/>
Figure BDA0004113844900000126
数据库软件。(IBM、zSeries、pSeries、xSeries、BladeCenter、WebSphere和DB2是在全球许多司法辖区中注册的国际商业机器公司的商标)。
虚拟化层604提供抽象层,从所述抽象层可以提供虚拟实体的以下示例:虚拟服务器;虚拟存储;虚拟网络,包括虚拟专用网络;虚拟应用和操作系统;以及虚拟客户端。在一个示例中,管理层606可以提供以下描述的功能。资源供应提供用于在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价在云计算环境内利用资源时提供成本跟踪,并为这些资源的消费开账单或发票。在一个示例中,这些资源包括应用软件许可证。安全性为云消费者和任务提供身份验证,以及为数据和其他资源提供保护。用户门户为消费者和系统管理员提供对云计算环境的访问。服务水平管理提供云计算资源分配和管理,使得满足所需的服务水平。服务水平协议(SLA)规划和履行提供云计算资源的预安排和采购,根据该SLA预期该云计算资源的未来要求。
工作负载层608提供可以利用云计算环境的功能的示例。可以从该层提供的工作负荷和功能的示例包括:地图和导航;软件开发和生命周期管理;虚拟教室教育递送;数据分析处理;事务处理;以及执行源数据集识别技术。
已经出于说明的目的呈现了本发明的各个实施例的描述,但并不旨在是详尽的或限于所公开的实施例。在不脱离所描述的实施例的范围和精神的情况下,许多修改和变化对本领域普通技术人员将是显而易见的。本文使用的术语被选择来最好地解释实施例的原理、实际应用或对在市场中找到的技术的技术改进,或使得本领域普通技术人员能够理解本文公开的实施例。

Claims (20)

1.一种用于量化目标数据集和多个源数据集之间的相似性并识别与所述目标数据集最相似的至少一个源数据集的方法,包括:
在计算系统处接收与源域相关的源数据集和与感兴趣的目标域相关的目标数据集,其中,每个数据集以表格格式被安排,所述表格格式包括与所述数据集的特征相对应的列以及与所述数据集的实例相对应的行,并且其中,所述源数据集和所述目标数据集包括相同的特征空间;
经由所述计算系统的处理器预处理每个源-目标数据集对以移除任何不相交的列;
经由所述处理器计算每个源-目标数据集对的数据集相似性得分、行相似性得分和列相似性得分中的至少两个;以及
经由所述处理器汇总每个源-目标数据集对的所述数据集相似性得分、所述行相似性得分以及所述列相似性得分中的至少两个以识别与所述目标数据集最相似的至少一个源数据集。
2.根据权利要求1所述的方法,包括经由传递学习过程训练用于所述目标域的分类模型,所述传递学习过程利用与所述目标数据集最相似的所述至少一个源数据集。
3.根据权利要求1所述的方法,其中,预处理每个源-目标数据集对进一步包括以下项中的至少一个:
填充每个源-目标数据集对内的缺失值;
从每个源-目标数据集对中移除任何不相关或不重要的列;
将在每个源-目标数据集对内的所述源数据集和所述目标数据集对齐,使得所述多列处于相同的次序;以及
对每个源-目标数据集内的值进行标准化。
4.根据权利要求1所述的方法,包括在计算每个源-目标数据集对的所述数据集相似性得分、所述行相似性得分以及所述列相似性得分中的至少两个之前,经由所述处理器对每个源-目标数据集对执行特征选择。
5.根据权利要求4所述的方法,其中,对每个源-目标数据集对执行特征选择包括:
对每个源-目标数据集对迭代地执行以下操作,直到已经从所述源-目标数据集对移除了预定数量的最佳拆分列:
训练机器学习模型以在所述源-目标数据集对内区分所述源数据集和所述目标数据集;
识别所述机器学习模型的一个或多个最重要的特征,其中所述一个或多个最重要的特征中的每一个对应于所述源-目标数据集对内的最佳拆分列;以及
从所述源-目标数据集对中移除对应于所述一个或多个最重要的特征的所述一个或多个最佳拆分列;以及
将每个源-目标数据集对内的剩余列识别为所选择的特征。
6.根据权利要求1所述的方法,其中,计算每个源-目标数据集对的所述数据集相似性得分包括,对于每个源-目标数据集对:
对所述源-目标数据集对迭代地执行以下操作,直到已经从所述源-目标数据集对移除了预定数量的最佳拆分列:
训练机器学习模型以在所述源-目标数据集对内区分所述源数据集和所述目标数据集;
识别所述机器学习模型的一个或多个最重要的特征,其中所述一个或多个最重要的特征中的每一个对应于所述源-目标数据集对内的最佳拆分列;以及
从所述源-目标数据集对中移除对应于所述一个或多个最重要的特征的所述一个或多个最佳拆分列;
确定在每次迭代期间生成的所述机器学习模型的总体准确度;以及
对所述源-目标数据集对计算所述数据集相似性得分,其中所述数据集相似性得分等于1减去所述机器学习模型的总体准确度,并且其中更接近1的数据集相似性得分指示所述源数据集和所述目标数据集更相似。
7.根据权利要求1所述的方法,其中,计算每个源-目标数据集对的所述行相似性得分包括,对于每个源-目标数据集对:
通过执行基于聚类的优化过程来计算所述目标数据集的每个实例与所述源数据集的每个实例之间的距离得分;
对所述距离得分进行汇总以找到所述源-目标数据集对的平均最小距离得分;以及
输出所述平均最小距离得分作为所述源-目标数据集对的所述行相似性得分。
8.根据权利要求1所述的方法,其中,计算每个源-目标数据集对的所述列相似性得分包括:对于每个源-目标数据集对:
为所述源数据集内的每一列和所述目标数据集内的每一列建立值分布近似;
使用相似性函数来比较所述源数据集和所述目标数据集内的对应列的所述值分布近似,其中所述相似性函数的输出是每一对应列的相似性得分;以及
对所述对应列的所述相似性得分进行汇总以找到所述源-目标数据集对的所述列相似性得分。
9.根据权利要求1所述的方法,其中,汇总每个源-目标数据集对的所述数据集相似性得分、所述行相似性得分以及所述列相似性得分中的至少两个包括:
对每个源-目标数据集对,查找所述数据集相似性得分、所述行相似性得分和所述列相似性得分中的至少两个的总和、平均值、中值、最大值、加权平均值、聚集或其他的汇总统计;以及
将所述数据集相似性得分、所述行相似性得分和所述列相似性得分中的至少两个的所述总和、所述平均值、所述中值、所述最大值、所述加权平均值、所述聚集或所述其他的汇总统计值作为每个源-目标数据集对的总体相似性得分进行输出。
10.一种计算系统,包括:
接口,用于接收与源域相关的源数据集和与感兴趣的目标域相关的目标数据集,其中,每个数据集以表格格式被安排,所述表格格式包括与所述数据集的特征相对应的列以及与所述数据集的实例相对应的行,并且其中,所述源数据集和所述目标数据集包括相同的特征空间;
处理器;以及
计算机可读存储介质,所述计算机可读存储介质存储指导所述处理器进行以下操作的程序指令:
预处理每个源-目标数据集对以移除任何不相交的列;
计算每个源-目标数据集对的数据集相似性得分、行相似性得分和列相似性得分中的至少两个;以及
汇总每个源-目标数据集对的所述数据集相似性得分、所述行相似性得分和所述列相似性得分中的至少两个以识别与所述目标数据集最相似的至少一个源数据集。
11.根据权利要求10所述的系统,其中,所述计算机可读存储介质存储程序指令,该程序指令指示所述处理器经由传递学习过程训练用于所述目标域的分类模型,所述传递学习过程利用与所述目标数据集最相似的所述至少一个源数据集。
12.根据权利要求10所述的系统,其中,所述计算机可读存储介质存储程序指令,该程序指令指示所述处理器进一步预处理每个源-目标数据集对以执行以下至少一者:
填充每个源-目标数据集对内的缺失值:
从每个源-目标数据集对中移除任何不相关或不重要的列;
将在每个源-目标数据集对内的所述源数据集和所述目标数据集对齐,使得所述多列处于相同的次序;以及
对每个源-目标数据集内的值进行标准化。
13.根据权利要求10所述的系统,其中,所述计算机可读存储介质存储程序指令,该程序指令指导所述处理器在计算每个源-目标数据集对的所述数据集相似性得分、所述行相似性得分以及所述列相似性得分中的至少两个之前对每个源-目标数据集对执行特征选择。
14.根据权利要求13所述的系统,其中,所述计算机可读存储介质存储程序指令,该程序指令指导所述处理器通过以下操作来执行对每个源-目标数据集对的特征选择:
对每个源-目标数据集对迭代地执行以下操作,直到已经从所述源-目标数据集对移除了预定数量的最佳拆分列:
训练机器学习模型以在所述源-目标数据集对内区分所述源数据集和所述目标数据集;
识别所述机器学习模型的一个或多个最重要的特征,其中所述一个或多个最重要的特征中的每一个对应于所述源-目标数据集对内的最佳拆分列;以及
从所述源-目标数据集对中移除对应于所述一个或多个最重要的特征的所述一个或多个最佳拆分列;以及
将每个源-目标数据集对内的剩余列识别为所选择的特征。
15.根据权利要求10所述的系统,其中,所述计算机可读存储介质存储程序指令,该程序指令指导所述处理器通过以下操作来计算每个源-目标数据集对的所述数据集相似性得分:
对每个源-目标数据集对迭代地执行以下操作,直到已经从所述源-目标数据集对移除了预定数量的最佳拆分列:
训练机器学习模型以在所述源-目标数据集对内区分所述源数据集和所述目标数据集;
识别所述机器学习模型的一个或多个最重要的特征,其中所述一个或多个最重要的特征中的每一个对应于所述源-目标数据集对内的最佳拆分列;以及
从所述源-目标数据集对中移除对应于所述一个或多个最重要的特征的所述一个或多个最佳拆分列;
确定在对每个源-目标数据集对的每次迭代期间生成的所述机器学习模型的总体准确度;以及
计算每个源-目标数据集对的所述数据集相似性得分,其中所述数据集相似性得分等于1减去所述机器学习模型的总体准确度,并且其中更接近1的数据集相似性得分指示所述源数据集和所述目标数据集更相似。
16.根据权利要求10所述的系统,其中,所述计算机可读存储介质存储程序指令,该程序指令指导所述处理器通过以下操作来计算每个源-目标数据集对的所述行相似性得分:
通过执行基于聚类的优化过程来计算所述目标数据集的每个实例与所述源数据集的每个实例之间的距离得分;
对所述距离得分进行汇总以找到所述源-目标数据集对的平均最小距离得分;以及
输出所述平均最小距离得分作为所述源-目标数据集对的所述行相似性得分。
17.根据权利要求10所述的系统,其中,所述计算机可读存储介质存储程序指令,该程序指令指导所述处理器通过以下操作来计算每个源-目标数据集对的所述列相似性得分:
为所述源数据集内的每一列和所述目标数据集内的每一列建立值分布近似;
使用相似性函数来比较所述源数据集和所述目标数据集内的对应列的所述值分布近似,其中所述相似性函数的输出是每一对应列的相似性得分;以及
对所述对应列的所述相似性得分进行汇总以找到所述源-目标数据集对的所述列相似性得分。
18.根据权利要求10所述的系统,其中,所述计算机可读存储介质存储程序指令,该程序指令指导所述处理器通过以下操作来汇总每个源-目标数据集对的所述数据集相似性得分、所述行相似性得分以及所述列相似性得分中的至少两个:
对每个源-目标数据集对,查找所述数据集相似性得分、所述行相似性得分和所述列相似性得分中的至少两个的总和、平均值、中值、最大值、加权平均值、聚集或其他的汇总统计;以及
将所述数据集相似性得分、所述行相似性得分和所述列相似性得分中的至少两个的所述总和、所述平均值、所述中值、所述最大值、所述加权平均值、所述聚集或所述其他的汇总统计值作为每个源-目标数据集对的总体相似性得分进行输出。
19.一种计算机程序产品,包括具有包含在其中的程序指令的计算机可读存储介质,其中,所述计算机可读存储介质不是瞬时信号本身,并且其中,所述程序指令可由处理器执行以使所述处理器:
接收与源域相关的源数据集和与感兴趣的目标域相关的目标数据集,其中,每个数据集以表格格式被安排,所述表格格式包括与所述数据集的特征相对应的列以及与所述数据集的实例相对应的行,并且其中,所述源数据集和所述目标数据集包括相同的特征空间;
预处理每个源-目标数据集对以移除任何不相交的列;
计算每个源-目标数据集对的数据集相似性得分、行相似性得分和列相似性得分中的至少两个;以及
汇总每个源-目标数据集对的所述数据集相似性得分、所述行相似性得分和所述列相似性得分中的至少两个以识别与所述目标数据集最相似的至少一个源数据集。
20.根据权利要求19所述的计算机程序产品,其中,所述程序指令可由处理器执行以使所述处理器在计算每个源-目标数据集对的所述数据集相似性得分、所述行相似性得分以及所述列相似性得分中的至少两项之前对每个源-目标数据集对执行特征选择。
CN202180061172.8A 2020-07-21 2021-06-14 识别拟合目标域的传递学习过程的源数据集 Pending CN116194936A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/934,492 US11308077B2 (en) 2020-07-21 2020-07-21 Identifying source datasets that fit a transfer learning process for a target domain
US16/934,492 2020-07-21
PCT/IB2021/055203 WO2022018538A1 (en) 2020-07-21 2021-06-14 Identifying source datasets that fit transfer learning process for target domain

Publications (1)

Publication Number Publication Date
CN116194936A true CN116194936A (zh) 2023-05-30

Family

ID=79689004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180061172.8A Pending CN116194936A (zh) 2020-07-21 2021-06-14 识别拟合目标域的传递学习过程的源数据集

Country Status (6)

Country Link
US (1) US11308077B2 (zh)
JP (1) JP2023535140A (zh)
CN (1) CN116194936A (zh)
DE (1) DE112021003262T5 (zh)
GB (1) GB2611995A (zh)
WO (1) WO2022018538A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11388046B2 (en) 2019-02-15 2022-07-12 Virtual Instruments Worldwide, Inc. Port configuration for cloud migration readiness
WO2020168356A2 (en) 2019-02-15 2020-08-20 Haggart Rick Systems and methods for cloud migration readiness
US11394770B1 (en) * 2021-10-08 2022-07-19 Virtual Instruments Worldwide, Inc. Application discovery in computer networks
US20230214515A1 (en) * 2022-01-03 2023-07-06 Capital One Services, Llc Systems and methods for using machine learning to manage data
US11977527B2 (en) * 2022-01-03 2024-05-07 Capital One Services, Llc Systems and methods for using machine learning to manage data
US20240161017A1 (en) * 2022-05-17 2024-05-16 Derek Alexander Pisner Connectome Ensemble Transfer Learning
US20240095514A1 (en) * 2022-09-09 2024-03-21 Tencent America LLC Friend-training: methods, systems, and apparatus for learning from models of different but related tasks

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8694514B2 (en) * 2009-10-12 2014-04-08 Oracle International Corporation Collaborative filtering engine
WO2015143580A1 (en) * 2014-03-28 2015-10-01 Huawei Technologies Co., Ltd Method and system for verifying facial data
US20160147765A1 (en) 2014-11-25 2016-05-26 Quixey, Inc. Techniques for Using Similarity to Enhance Relevance in Search Results
US20160253597A1 (en) 2015-02-27 2016-09-01 Xerox Corporation Content-aware domain adaptation for cross-domain classification
US10489438B2 (en) 2016-05-19 2019-11-26 Conduent Business Services, Llc Method and system for data processing for text classification of a target domain
US20180143960A1 (en) 2016-11-18 2018-05-24 International Business Machines Corporation Modifying Tabular Data to be Rendered on a Display Device
US10776693B2 (en) * 2017-01-31 2020-09-15 Xerox Corporation Method and system for learning transferable feature representations from a source domain for a target domain
US10503981B2 (en) * 2017-06-27 2019-12-10 Canon Kabushiki Kaisha Method and apparatus for determining similarity of objects in images
CN107766567B (zh) 2017-11-08 2020-04-21 北京交通大学 网络表的实体扩展方法
US11586875B2 (en) 2017-11-22 2023-02-21 Massachusetts Institute Of Technology Systems and methods for optimization of a data model network architecture for target deployment
CN110619535B (zh) 2018-06-19 2023-07-14 华为技术有限公司 一种数据处理方法及其装置

Also Published As

Publication number Publication date
US11308077B2 (en) 2022-04-19
US20220027339A1 (en) 2022-01-27
GB202301819D0 (en) 2023-03-29
WO2022018538A1 (en) 2022-01-27
GB2611995A (en) 2023-04-19
DE112021003262T5 (de) 2023-03-30
JP2023535140A (ja) 2023-08-16

Similar Documents

Publication Publication Date Title
US11080558B2 (en) System and method of incremental learning for object detection
CN116194936A (zh) 识别拟合目标域的传递学习过程的源数据集
US11030521B2 (en) Estimating cardinality selectivity utilizing artificial neural networks
US11416772B2 (en) Integrated bottom-up segmentation for semi-supervised image segmentation
US11048718B2 (en) Methods and systems for feature engineering
US11128668B2 (en) Hybrid network infrastructure management
US20200097338A1 (en) Api evolution and adaptation based on cognitive selection and unsupervised feature learning
US11501239B2 (en) Metric specific machine learning model improvement through metric specific outlier removal
US11941496B2 (en) Providing predictions based on a prediction accuracy model using machine learning
CN112668690A (zh) 神经网络模型压缩的方法和计算机系统
US20220300822A1 (en) Forgetting data samples from pretrained neural network models
US11841977B2 (en) Training anonymized machine learning models via generalized data generated using received trained machine learning models
US20220083519A1 (en) Explanative analysis for records with missing values
JP2023535168A (ja) ソフトウェア・コンテナのための実行時間環境決定
US11727402B2 (en) Utilizing machine learning and network addresses to validate online transactions with transaction cards
US11164078B2 (en) Model matching and learning rate selection for fine tuning
US20230385706A1 (en) Data selection for machine learning models based on data profiling
US11893132B2 (en) Discovery of personal data in machine learning models
US20230017358A1 (en) Automatically provisioned tag schema for hybrid multicloud cost and chargeback analysis
US11762896B2 (en) Relationship discovery and quantification
US20220198268A1 (en) Estimated online hard negative mining via probabilistic selection and scores history consideration
US11900106B2 (en) Personalized patch notes based on software usage
US11615064B2 (en) Data management configuration tuning through link preference detection
CN112559897B (zh) 匹配关系的识别方法、装置及设备
US20230289276A1 (en) Intelligently optimized machine learning models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination