CN116860796A - 数据匹配方法、装置、存储介质及电子设备 - Google Patents

数据匹配方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN116860796A
CN116860796A CN202310637511.3A CN202310637511A CN116860796A CN 116860796 A CN116860796 A CN 116860796A CN 202310637511 A CN202310637511 A CN 202310637511A CN 116860796 A CN116860796 A CN 116860796A
Authority
CN
China
Prior art keywords
feature
data
subtask
configuration information
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310637511.3A
Other languages
English (en)
Inventor
刘雪莹
王巍
王帅
吴宜达
董金鑫
周鑫鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Du Xiaoman Technology Beijing Co Ltd
Original Assignee
Du Xiaoman Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Du Xiaoman Technology Beijing Co Ltd filed Critical Du Xiaoman Technology Beijing Co Ltd
Priority to CN202310637511.3A priority Critical patent/CN116860796A/zh
Publication of CN116860796A publication Critical patent/CN116860796A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种数据匹配方法、装置、存储介质及电子设备,其中,该方法包括:获取子任务集中各个子任务的配置信息,并对各个子任务的配置信息进行融合处理,得到子任务集对应组任务的组配置信息,一个配置信息包括至少一个特征中每个特征的特征标识,配置信息中的特征标识用于指示相应任务所需特征;分别确定组配置信息中的每个特征标识所指示特征的第一数据集;根据各个子任务的配置信息中的特征标识,以及组配置信息中的每个特征标识所指示特征的第一数据集,分别为各个子任务所需的各个特征分配第二数据集。本发明实施例可便捷地对多个任务进行数据匹配,从而提高数据匹配的效率。

Description

数据匹配方法、装置、存储介质及电子设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据匹配方法、装置、存储介质及电子设备。
背景技术
目前,数据匹配已被应用于各个领域,如深度学习、机器学习等建模工作主要是基于匹配出的样本集来进行模型的训练,各种模型训练方法已经广泛的应用到各个领域,且在其基础上进行数据挖掘的探索能高度的分析企业数据。但现有技术对于不同模型对应的任务,通常需要进行多次数据匹配,且一次数据匹配的结果仅能用于当前任务对应模型的模型训练中,导致数据匹配过程较为繁琐,且数据匹配的耗时较长。基于此,如何实现便捷地对多个任务进行数据匹配,从而提高数据匹配的效率成为一个研究热点。
发明内容
有鉴于此,本发明实施例提供了一种数据匹配方法、装置、存储介质及电子设备,以解决不同模型需要进行多次数据匹配,且匹配时间较长的问题,也就是说,本发明实施例可便捷地对多个任务进行数据匹配,从而提高数据匹配的效率。
根据本发明的一方面,提供了一种数据匹配方法,所述方法包括:
获取子任务集中各个子任务的配置信息,并对所述各个子任务的配置信息进行融合处理,得到所述子任务集对应组任务的组配置信息,一个配置信息包括至少一个特征中每个特征的特征标识,配置信息中的特征标识用于指示相应任务所需特征,且所述组任务所需特征的数量小于或等于所述各个子任务所需特征的数量之和;
分别确定所述组配置信息中的每个特征标识所指示特征的第一数据集,所述组配置信息中的一个特征标识所指示特征的第一数据集包括:相应特征在所述各个子任务中所需匹配的数据;
根据所述各个子任务的配置信息中的特征标识,以及所述组配置信息中的每个特征标识所指示特征的第一数据集,分别为所述各个子任务所需的各个特征分配第二数据集,一个特征的第一数据集包括相应特征在所述各个子任务下的第二数据集。
根据本发明的另一方面,提供了一种数据匹配装置,所述装置包括:
获取单元,用于获取子任务集中各个子任务的配置信息;
处理单元,用于对所述各个子任务的配置信息进行融合处理,得到所述子任务集对应组任务的组配置信息,一个配置信息包括至少一个特征中每个特征的特征标识,配置信息中的特征标识用于指示相应任务所需特征,且所述组任务所需特征的数量小于或等于所述各个子任务所需特征的数量之和;
所述处理单元,还用于分别确定所述组配置信息中的每个特征标识所指示特征的第一数据集,所述组配置信息中的一个特征标识所指示特征的第一数据集包括:相应特征在所述各个子任务中所需匹配的数据;
所述处理单元,还用于根据所述各个子任务的配置信息中的特征标识,以及所述组配置信息中的每个特征标识所指示特征的第一数据集,分别为所述各个子任务所需的各个特征分配第二数据集,一个特征的第一数据集包括相应特征在所述各个子任务下的第二数据集。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括处理器、以及存储程序的存储器,其中,所述程序包括指令;所述指令在由所述处理器执行时使所述处理器执行如下步骤:
获取子任务集中各个子任务的配置信息,并对所述各个子任务的配置信息进行融合处理,得到所述子任务集对应组任务的组配置信息,一个配置信息包括至少一个特征中每个特征的特征标识,配置信息中的特征标识用于指示相应任务所需特征,且所述组任务所需特征的数量小于或等于所述各个子任务所需特征的数量之和;
分别确定所述组配置信息中的每个特征标识所指示特征的第一数据集,所述组配置信息中的一个特征标识所指示特征的第一数据集包括:相应特征在所述各个子任务中所需匹配的数据;
根据所述各个子任务的配置信息中的特征标识,以及所述组配置信息中的每个特征标识所指示特征的第一数据集,分别为所述各个子任务所需的各个特征分配第二数据集,一个特征的第一数据集包括相应特征在所述各个子任务下的第二数据集。
根据本发明的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行如下步骤:
获取子任务集中各个子任务的配置信息,并对所述各个子任务的配置信息进行融合处理,得到所述子任务集对应组任务的组配置信息,一个配置信息包括至少一个特征中每个特征的特征标识,配置信息中的特征标识用于指示相应任务所需特征,且所述组任务所需特征的数量小于或等于所述各个子任务所需特征的数量之和;
分别确定所述组配置信息中的每个特征标识所指示特征的第一数据集,所述组配置信息中的一个特征标识所指示特征的第一数据集包括:相应特征在所述各个子任务中所需匹配的数据;
根据所述各个子任务的配置信息中的特征标识,以及所述组配置信息中的每个特征标识所指示特征的第一数据集,分别为所述各个子任务所需的各个特征分配第二数据集,一个特征的第一数据集包括相应特征在所述各个子任务下的第二数据集。
本发明实施例在获取到子任务集中各个子任务的配置信息后,可对各个子任务的配置信息进行融合处理,得到子任务集对应组任务的组配置信息,一个配置信息包括至少一个特征中每个特征的特征标识,配置信息中的特征标识用于指示相应任务所需特征,且组任务所需特征的数量小于或等于各个子任务所需特征的数量之和,以便于通过组配置信息快速获取各个子任务所需匹配的数据。然后,可分别确定组配置信息中的每个特征标识所指示特征的第一数据集,组配置信息中的一个特征标识所指示特征的第一数据集包括:相应特征在各个子任务中所需匹配的数据;基于此,可根据各个子任务的配置信息中的特征标识,以及组配置信息中的每个特征标识所指示特征的第一数据集,分别为各个子任务所需的各个特征分配第二数据集。可见,本发明实施例可通过组配置信息,便捷地对多个任务进行数据匹配,从而提高数据匹配的效率;基于此,对于不同类型的模型,仅需进行一次数据匹配,即可实现全量所需关联特征向量的数据筛选,可有效节约多次重复匹配工作的时间,且操作简单易于实现。
附图说明
在下面结合附图对于示例性实施例的描述中,本发明的更多细节、特征和优点被公开,在附图中:
图1示出了根据本发明示例性实施例的一种数据匹配方法的流程示意图;
图2示出了根据本发明示例性实施例的一种配置界面的示意图;
图3示出了根据本发明示例性实施例的另一种数据匹配方法的流程示意图;
图4示出了根据本发明示例性实施例的一种数据分片的流程示意图;
图5示出了根据本发明示例性实施例的又一种数据匹配方法的流程示意图;
图6示出了根据本发明示例性实施例的一种数据匹配平台的示意图;
图7示出了根据本发明示例性实施例的一种数据匹配装置的示意性框图;
图8示出了能够用于实现本发明的实施例的示例性电子设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本发明的实施例。虽然附图中显示了本发明的某些实施例,然而应当理解的是,本发明可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是,本发明的附图及实施例仅用于示例性作用,并非用于限制本发明的保护范围。
应当理解,本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本发明实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
需要说明的是,本发明实施例提供的数据匹配方法的执行主体可以是一个或多个电子设备,本发明对此不作限定;其中,电子设备可以是终端(即客户端)或者服务器,那么在执行主体包括多个电子设备,且多个电子设备中包括至少一个终端和至少一个服务器时,本发明实施例提供的数据匹配方法可由终端和服务器共同执行。相应的,此处所提及的终端可以包括但不限于:智能手机、平板电脑、笔记本电脑、台式计算机、智能手表、智能语音交互设备、智能家电、车载终端、飞行器,等等。此处所提及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算(cloud computing)、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,等等。
基于上述描述,本发明实施例提出一种数据匹配方法,该数据匹配方法可以由上述所提及的电子设备(终端或服务器)执行;或者,该数据匹配方法可由终端和服务器共同执行。为了便于阐述,后续均以电子设备执行该数据匹配方法为例进行说明;如图1所示,该数据匹配方法可包括以下步骤S101-S103:
S101,获取子任务集中各个子任务的配置信息,并对各个子任务的配置信息进行融合处理,得到子任务集对应组任务的组配置信息,一个配置信息包括至少一个特征中每个特征的特征标识,配置信息中的特征标识用于指示相应任务所需特征,且组任务所需特征的数量小于或等于各个子任务所需特征的数量之和。
其中,特征标识可以是数字标识(如特征编号),也可以是文字标识(如特征名称),等等;本发明对此不作限定。在本发明实施例中,上述子任务集中各个子任务的配置信息的获取方式包括但不限于以下几种:
第一种获取方式:电子设备可获取子任务集的任务下载链接,并根据该任务下载链接进行任务下载,从而将基于任务下载链接下载的子任务集作为获取到的子任务集,从而获取到子任务集中各个子任务的配置信息。
第二种获取方式:电子设备存储有多个子任务,那么电子设备可从多个子任务中选取出至少一个子任务,那么电子设备可将选取出的子任务作为子任务集中的子任务,从而得到子任务集中各个子任务的配置信息,即选取出的至少一个子任务中每个子任务的配置信息。
第三种获取方式:电子设备可具有配置界面,基于此,在检测到针对配置界面的数据匹配任务的配置指令时,电子设备可获取配置指令所指示的配置信息,如图2所示;然后,电子设备可生成该数据匹配任务,并将配置指令所指示的配置信息作为数据匹配任务的配置信息,以及将数据匹配任务添加至子任务集中,从而使得该数据匹配任务作为子任务集中的一个子任务。需要说明的是,用户可针对数据匹配任务对配置界面执行配置操作,那么电子设备在检测用户执行的配置操作时,可检测到针对配置界面的数据匹配任务的配置指令;其中,配置操作可以是按照预设手势执行的滑动操作,也可以是针对配置界面的确定组件的点击操作,等等;本发明对此不作限定。应当理解的是,图2仅示例性地对配置界面进行了表示,本发明对配置界面的具体内容不作限定;例如,配置界面可不包括匹配时间范围;又如,配置界面中的任务名称仅能通过选择的方式进行配置,等等。
在本发明实施例中,由于配置信息中的特征标识用于指示相应任务所需特征,那么针对子任务集中的任一子任务,电子设备可根据该任一子任务所需特征,确定该任一子任务的配置信息,即确定该任一子任务的配置信息包括的特征标识;在此种情况下,用户(即建模人员或任务匹配人员等)可建立当前任务所需特征(即当前任务所需匹配的特征),从而实现任务的配置;其中,当前任务为建模任务时,用户可根据需要匹配特征向量的不同,进行模型的配置。
示例性的,假设模型1所需特征为特征2和特征3、模型2所需特征为特征1和特征3,以及模型3所需特征为特征2、特征3以及特征4,那么用户可将每个模型作为一个子任务,以配置各个模型对应的子任务,在此种情况下,电子设备可获取一个包含模型1、模型2以及模型3的数据匹配的组任务,且该组任务是由模型1对应的子任务1、模型2对应的子任务2以及模型3对应的子任务3所构成的。进一步的,假设特征1的特征标识为特征标识a、特征2的特征标识为特征标识b、特征3的特征标识为特征标识c以及特征4的特征标识为特征标识d,那么子任务1的配置信息可包括特征标识b和特征标识c、子任务2的配置信息可包括特征标识a和特征标识c,以及子任务3的配置信息可包括特征标识b、特征标识c以及特征标识d;基于此,电子设备可对各个子任务的配置信息进行融合处理,也就是说,可对各个子任务的配置信息进行汇总,得到组任务的组配置信息,且组配置信息可包括特征标识a、特征标识b、特征标识c以及特征标识d,此时组任务所需特征的数量小于各个子任务所需特征的数量之和。
可选的,本发明实施例所提及的特征可以是根据不同的特质对特征进行分类后的结果,也就是说,本发明实施例所提及的特征可以是一个具体的特征,也可以是特质相同的多个特征,本发明对此不作限定。示例性的,假设特征“速度”和特征“加速度”的特质相同,则在按照特质进行分类后,可将这两个特征作为特征1中的特征,使得特征1包括特征“速度”和特征“加速度”这两个特征;相应的,特征1的特征标识可用于指示这两个特征,且在获取特征1的样本数据时,可分别获取到这两个特征中每个特征的样本数据。
S102,分别确定组配置信息中的每个特征标识所指示特征的第一数据集,组配置信息中的一个特征标识所指示特征的第一数据集包括:相应特征在各个子任务中所需匹配的数据。
需要说明的是,针对组配置信息中的任一特征标识,若该任一特征标识未存在于子任务集中某个子任务的配置信息中,那么该任一特征标识所指示特征,在不包括该任一特征标识的配置信息对应子任务中所需匹配的数据为空;相应的,该任一特征标识所指示特征的第一数据集包括:相应特征在各个目标子任务中所需匹配的数据,且一个目标子任务是指与该任一特征标识(或该任一特征标识所指示特征)相匹配的子任务,即是指配置信息中包括该任一特征标识的子任务。
示例性的,假设组任务包括子任务1、子任务2以及子任务3,当组配置信息包括特征1的特征标识a时,特征1的第一数据集包括:特征1在子任务1中所需匹配的数据、特征1在子任务2中所需匹配的数据以及特征1在子任务3中所需匹配的数据;进一步的,假设子任务2和子任务3的配置信息包括特征标识a,而子任务1的配置信息不包括特征标识a,那么特征1在子任务1中所需匹配的数据为空,即无需针对特征1为子任务1匹配数据,基于此,特征1的第一数据集可包括:子任务2所需匹配的特征1的数据,以及子任务3所需匹配的特征1的数据,此时目标子任务可为子任务2和子任务3。
S103,根据各个子任务的配置信息中的特征标识,以及组配置信息中的每个特征标识所指示特征的第一数据集,分别为各个子任务所需的各个特征分配第二数据集,一个特征的第一数据集包括相应特征在各个子任务下的第二数据集。
在本发明实施例中,在组任务完成后(即分别确定组配置信息中的每个特征标识所指示特征的第一数据集后),对于不同的子任务,电子设备可针对各个子任务进行各自的所需特征拉取,从而得到各个子任务所需的各个特征的第二数据集。
示例性的,假设子任务1所需特征包括特征1和特征2,那么在组任务完成后,电子设备可为子任务1拉取所需的特征1的第二数据集,以及为子任务1拉取所需的特征2的第二数据集,等等。
本发明实施例在获取到子任务集中各个子任务的配置信息后,可对各个子任务的配置信息进行融合处理,得到子任务集对应组任务的组配置信息,一个配置信息包括至少一个特征中每个特征的特征标识,配置信息中的特征标识用于指示相应任务所需特征,且组任务所需特征的数量小于或等于各个子任务所需特征的数量之和,以便于通过组配置信息快速获取各个子任务所需匹配的数据。然后,可分别确定组配置信息中的每个特征标识所指示特征的第一数据集,组配置信息中的一个特征标识所指示特征的第一数据集包括:相应特征在各个子任务中所需匹配的数据;基于此,可根据各个子任务的配置信息中的特征标识,以及组配置信息中的每个特征标识所指示特征的第一数据集,分别为各个子任务所需的各个特征分配第二数据集。可见,本发明实施例可通过组配置信息,便捷地对多个任务进行数据匹配,从而提高数据匹配的效率;基于此,对于不同类型的模型,仅需进行一次数据匹配,即可实现全量所需关联特征向量的数据筛选,可有效节约多次重复匹配工作的时间,且操作简单易于实现。
基于上述描述,本发明实施例还提出一种更为具体的数据匹配方法,其中,一个特征的第一数据集是由相应特征的第一数据分片集所构成的,一个数据分片包括相应时间范围内存储的数据(即数据分片是指某一时间范围内的所有数据);一个配置信息包括相应特征标识所指示特征的匹配级别和匹配时间范围,且一个特征的匹配级别用于指示相应特征的样本数据的拆分方式。相应的,该数据匹配方法可以由上述所提及的电子设备(终端或服务器)执行;或者,该数据匹配方法可由终端和服务器共同执行。为了便于阐述,后续均以电子设备执行该数据匹配方法为例进行说明;请参见图3,该数据匹配方法可包括以下步骤S301-S304:
S301,获取子任务集中各个子任务的配置信息,并对各个子任务的配置信息进行融合处理,得到子任务集对应组任务的组配置信息,一个配置信息包括至少一个特征中每个特征的特征标识,配置信息中的特征标识用于指示相应任务所需特征,且组任务所需特征的数量小于或等于各个子任务所需特征的数量之和。
需要说明的是,在模型训练之前,通常需要对于所需的样本数据进行进一步的特征向量的匹配,然后再利用样本关联出的特征向量来进行数据分析,最终采用部分特征向量入模,生成最终的模型文件;其中,现有的特征向量匹配机制是:先获取第一组样本数据,然后根据样本数据生成相关联的第二组样本数据,最后选取所需的数据进行模型训练。在此种情况下,在进行历史数据匹配时,可能因受到时间跨度的影响,无法很好的管理历史数据且进行非常精确匹配的时间较长,操作起来比较困难;示例性的,需分别计算历史数据中各个样本数据,与第一组样本数据中各个样本数据之间的关联关系,从而得到第二组样本数据,导致计算量较大而难以实现,等等。
在本发明实施例中,电子设备可通过分片的形式,对历史数据加上日期版本(即时间范围)进行管理以及匹配,也就是说,电子设备可将任一历史数据拆分为至少一个数据分片,并按照拆分后的至少一个数据分片,对该任一历史数据进行管理以及匹配,从而在快速有效的进行数据匹配的同时,还能更加有序的管理历史数据。其中,数据分片也可称为数据切片;在一种实施方式中,电子设备可在当前分区时间(即当前时间范围)内对当下时刻以前生成的数据进行存储,也就是说,当前时间范围内存储的数据可包括位于当前时间范围以及当前时间范围之前的一个或多个时间范围内存储的数据,使得当前时间范围内的数据包括当下时刻以前的所有数据,那么此时数据分片的特点可以为:基于当前时间范围所生成的数据是当下时刻最准确的特征向量数据。另一种实施方式中,电子设备可仅在当前时间范围内,对当前时间范围内生成的数据进行存储,等等。
S302,针对组配置信息中的任一特征标识,获取任一特征标识所指示特征的目标样本数据,并按照任一特征标识所指示特征的匹配级别,对目标样本数据进行数据拆分处理,得到任一特征标识所指示特征的数据分片拆分结果。
需要说明的是,在获取任一特征标识所指示特征的目标样本数据之前,用户可选定建立当前模型需要匹配特征的初始样本数据,也就是说,用户可选定为组任务进行数据匹配的初始样本数据;其中,该初始样本数据可以是存储在电子设备自身存储空间的,也可以是存储在电子设备以外的其他存储设备中的,本发明对此不作限定。
相应的,一个配置信息可包括相应特征标识所指示特征的筛选指示信息,那么电子设备在获取任一特征标识所指示特征的目标样本数据时,可获取任一特征标识所指示特征的初始样本数据;然后,基于该初始样本数据,确定待筛选样本数据,并采用该任一特征标识所指示特征的筛选指示信息,从待筛选样本数据中,选取出任一特征标识所指示特征的目标样本数据。其中,筛选指示信息可以是符合选取条件的设备标识(如设备id(身份标识号)),也可以是选取时间范围,等等;本发明对此不作限定。需要说明的是,选取目标样本数据的过程也可称为样本处理过程。
具体的,在基于该初始样本数据,确定待筛选样本数据时,若初始样本数据中每个样本数据的存储指示信息与筛选指示信息不匹配,则电子设备可对初始样本数据进行数据转换,得到待筛选样本数据,使得待筛选样本数据中每个样本数据的存储指示信息与筛选指示信息匹配;若初始样本数据中每个样本数据的存储指示信息与筛选指示信息匹配,则可将初始样本数据作为待筛选样本数据。其中,存储指示信息可以指的是设备标识,也可以指的是数据生成时间等,本发明对此不作限定;相应的,目标样本数据中的任一样本数据的存储指示信息与筛选指示信息匹配。
示例性的,假设初始样本数据中每个样本数据的存储指示信息为设备名称,而筛选指示信息为符号筛选条件的设备id,此时初始样本数据中每个样本数据的存储指示信息与筛选指示信息不匹配,那么电子设备可对初始样本数据进行数据转换,得到待筛选样本数据,在此种情况下,待筛选样本数据中每个样本数据的存储指示信息均为相应的设备id;假设初始样本数据中每个样本数据的存储指示信息和筛序指示信息均为设备id,那么此时初始样本数据中每个样本数据的存储指示信息与筛选指示信息匹配。
在本发明实施例中,因为一些特征的样本数据的更新以及波动没有特别明显,但有些特征的样本数据的更新时间比较快,且波动比较大,故本发明实施例可分别提供天级的精准匹配、周级和月级的相对模糊匹配,等等;也就是说,上述匹配级别可以是天级,也可以是周级,还可以是月级等,本发明对此不作限定。基于此,电子设备可将目标样本数据进行时间分片上的拆分处理,此时匹配级别也可称为拆分时间;相应的,数据分片拆分结果可包括至少一个数据分片,且一个数据分片对应的时间范围所形成的时长与匹配级别相同,目标样本数据包括至少一个数据分片中各个数据分片中的样本数据。应当理解的是,数据分片拆分结果中的任一数据分片对应的样本数量大于预设样本数,该预设样本数可以是按照经验设置的,也可以是按照实际需求设置的,本发明对此不作限定。
例如,如图4所示,以节点下方标注有时间范围的节点表示相应数据分片拆分结果中的数据分片为例进行说明,假设上述任一特征标识所指示特征为特征1,且该任一特征标识所指示特征的匹配级别为月级,那么电子设备可按月级对目标样本数据进行拆分处理,得到特征1的数据分片拆分结果,此时目标样本数据为特征1在历史时间2019.01-2020.12期间的样本数据;假设目标样本数据主要分布在6个月份中,也就是说,特征1在这6个月份中被存储的样本数据满足分片形成条件,如相应样本数量大于预设样本数,那么特征1的数据分片拆分结果可包括6个数据分片,即2019.01、2019.06、2019.11、2020.01、2020.05以及2020.09这6个数据分片。
需要说明的是,组配置信息中每个特征标识所指示特征对应数据分片对应的时间范围是不一定完全一致的,数据分片的选取是根据不同特征的自身情况来决定的。示例性的,如图4所示,特征2和特征3的数据分片与特征1是不完全一致的;具体的,特征2拥有2019.02的数据分片,与特征1的数据分片对应时间范围不同,这是因为两个特征分别在不同的时间上有着更丰富的数据。
S303,根据任一特征标识所指示特征的匹配时间范围,从任一特征标识所指示特征的数据分片拆分结果中,匹配出任一特征标识所指示特征的第一数据分片集,以得到任一特征标识所指示特征的第一数据集,且一个特征的第一数据分片集中任一数据分片对应时间范围,与相应特征的匹配时间范围相匹配。
其中,一个特征的匹配时间范围的数量为至少一个;针对上述任一特征标识所指示特征的任一匹配时间范围,根据该任一匹配时间范围,以及该任一特征标识所指示特征的数据分片拆分结果中各个数据分片对应的时间范围,确定与任一匹配时间范围相匹配的目标时间范围,目标时间范围不位于任一匹配时间范围之后,且目标时间范围与任一匹配时间范围之间的距离,小于相应数据分片拆分结果中其他数据分片对应时间范围与任一匹配时间范围之间的距离,也就是说,目标时间范围位于该任一匹配时间范围之前,或目标时间范围等于该任一匹配时间范围;其中,其他数据分片是指相应数据分片拆分结果中除目标时间范围下的数据分片以外的任一数据分片。基于此,电子设备可从任一特征标识所指示特征的数据分片拆分结果中,匹配出目标时间范围对应的数据分片,并将匹配出的数据分片添加至任一特征标识所指示特征的第一数据分片集中。应当理解的是,电子设备可针对任一匹配时间范围来寻找历史最近的一次存储的数据分片进行匹配。需要说明的是,一个特征的匹配时间范围的数量为至少一个时,一个特征的第一数据分片集中任一数据分片对应时间范围,与相应特征的匹配时间范围相匹配即是指:一个特征的第一数据分片集中任一数据分片对应时间范围,与相应特征的至少一个匹配时间范围中的某个时间范围相匹配,也就是说,与相应特征的至少一个匹配时间范围中的某个时间范围之间的距离,小于相应特征的数据分片拆分结果中的其他数据分片对应时间范围与上述某个时间范围之间的距离。
举例来说,如图4所示,假设上述任一匹配时间范围为2019.02,那么当上述任一特征标识所指示特征为特征1、特征2或特征3时,电子设备可在特征1的数据分片拆分结果中匹配到2019.01的数据分片,在特征2的数据分片拆分结果中匹配到2019.02的数据分片,以及在特征3的数据分片拆分结果中匹配到2019.02的数据分片。应当理解的是,当上述任一匹配时间范围为2019.12时,电子设备可在特征1的数据分片拆分结果中匹配到2019.11的数据分片,在特征2的数据分片拆分结果中匹配到2019.09的数据分片,以及在特征3的数据分片拆分结果中匹配到2019.09的数据分片;这是由于虽然特征2的数据分片拆分结果中的2020.01的数据分片对应时间范围与任一匹配时间范围之间的距离更短,但针对2019.12这个时间范围来说,是无法获取到2020年相关数据的,这样匹配是没有意义并且不准确的,故本发明实施例的匹配原则是在上述任一匹配时间范围或向前寻找最近的切片。
S304,根据各个子任务的配置信息中的特征标识,以及组配置信息中的每个特征标识所指示特征的第一数据集,分别为各个子任务所需的各个特征分配第二数据集,一个特征的第一数据集包括相应特征在各个子任务下的第二数据集。
在本发明实施例中,一个特征的第二数据集是由相应特征的第二数据分片集所构成的;基于此,针对子任务集中的任一子任务,电子设备可遍历任一子任务的配置信息中的各个特征标识,并将当前遍历的特征标识所指示特征作为当前特征;然后,可从任一子任务的配置信息中,确定出当前特征的目标匹配时间范围,当前特征在组配置信息中的匹配时间范围包括目标匹配时间范围。相应的,电子设备可从当前特征的第一数据分片集中,选取出与目标匹配时间范围相对应的数据分片,并将选取出的数据分片添加至当前特征在任一子任务下的第二数据分片集中,以得到当前特征的第二数据分片集;在遍历完任一子任务的配置信息中的各个特征标识后,得到任一子任务所需的各个特征的第二数据分片集,以得到任一子任务所需的各个特征的第二数据集,如图5所示。需要说明的是,图5仅示例性的表示了为各个子任务进行数据匹配的过程,本发明对此不作限定;例如,模型1可也可包括特征3,或模型2也可仅包括特征1等;其中,一个模型对应一个子任务,即模型1对应的子任务1所需特征包括特征1和特征2、模型2对应子任务2所需特征包括特征1和特征3,模型3对应子任务3所需特征包括特征2、特征3以及特征4,且为组任务匹配组配置信息中每个特征标识所指示特征的第一数据分片集的过程可称为特征切片方法匹配,从而为子任务分配提供组配置信息中每个特征标识所指示特征的第一数据分片集。
需要说明的是,上述当前特征在上述任一子任务下的目标匹配时间范围的数量可为至少一个,那么在从当前特征的第一数据分片集中,选取出与目标匹配时间范围相对应的数据分片,并将选取出的数据分片添加至当前特征在任一子任务下的第二数据分片集中时,电子设备可遍历当前特征的至少一个目标匹配时间范围中的各个目标匹配时间范围,并将当前遍历的目标匹配时间范围作为当前目标匹配时间范围;进一步的,电子设备可在当前特征的第一数据分片集中,选取出与当前目标匹配时间范围相对应的数据分片,并将选取出的数据分片添加至当前特征在任一子任务下的第二数据分片集中;在遍历完至少一个目标匹配时间范围中的各个目标匹配时间范围后,得到当前特征在该任一子任务下的第二数据分片集。
需要说明的是,一个子任务的配置信息可包括相应子任务的数据处理规则,且一个数据处理规则用于指示:基于至少一个特征中各个特征的数据分片以生成匹配特征向量结果的方式。基于此,针对子任务集中的第i个子任务,电子设备可基于第i个子任务所需的各个特征的第二数据分片集,确定第i个子任务所需的各个特征的待处理数据分片集,i为正整数,且i小于或等于子任务集中的子任务的数量。然后,电子设备可基于第i个子任务的数据处理规则,对第i个子任务所需的各个特征的待处理数据分片集进行处理,得到第i个子任务的匹配特征向量结果,以使第i个子任务的匹配特征向量结果作为任一子任务对应模型的训练数据。
在具体的实现中,在基于第i个子任务所需的各个特征的第二数据分片集,确定第i个子任务所需的各个特征的待处理数据分片集时,针对第i个子任务所需的第j个特征,若第j个特征的第二数据分片集中存在需加工数据分片,则电子设备可对该需加工数据分片进行加工处理,得到第j个特征的待处理数据分片集,使得第j个特征的待处理数据分片集中不存在需加工数据分片,j为正整数,且j为小于或等于第i个子任务所需的特征数量;相应的,若第j个特征的第二数据分片集中不存在需加工数据分片,则可将第j个特征的第二数据分片集,作为第j个特征的待处理数据分片集。其中,需加工数据分片是指需按照特征信息进行加工处理的数据分片,也就是说,需加工数据分片是指不满足特征信息的数据分片。
需要说明的是,上述特征信息包括但不限于数据加工逻辑和数据处理方式,等等;本发明对此不作限定。其中,数据加工逻辑可以指的是指定数据表示方法,当特征信息包括数据加工逻辑时,需加工数据分片是指数据表示方法与指定数据表示方法不同的数据分片,如需加工数据分片的数据表示方法为二进制表示方法,而指定数据表示方法为十进制表示方法等,此时待处理数据分片集中每个待处理数据分片的数据表示方法均为指定数据表示方法。相应的,数据处理方式可以指的是指定数据存储格式,当特征信息包括数据处理方式时,需加工数据分片是指数据存储格式与指定数据存储格式不同的数据分片,此时待处理数据分片集中每个待处理数据分片的数据存储格式均为指定数据存储格式,本发明对指定数据表示方法和指定数据存储格式均不作限定。同时,当特征信息包括数据加工逻辑和数据处理方式时,待处理数据分片集中每个待处理数据分片的数据表示方法为指定数据表示方法,且每个待处理数据分片的数据存储格式均为指定数据存储格式,等等。
在本发明实施例中,上述数据处理规则包括但不限于:加法运算、减法运算以及对数运算等,本发明对此不作限定。示例性的,假设第i个子任务的数据处理规则为加法运算,且第i个子任务所需特征包括特征1和特征2,那么电子设备可对特征1的待处理数据分片集和特征2的待处理数据分片集进行加法运算,得到第i个子任务的匹配特征向量结果,即相应的加法运算结果,使得第i个子任务的匹配特征向量结果中的任一匹配特征向量为:特征1在第i个子任务下的待处理数据分片集中的一个样本数据,与特征2在第i个子任务下的待处理数据分片集中的一个样本数据之间的加法运算结果。
进一步的,电子设备还可对各个子任务所需的各个特征的待处理数据分片集进行数据记录,或对各个子任务所需的各个特征的第二数据分片集进行数据记录等,得到数据记录结果,并对数据记录结果进行数量级统计或匹配数据统计等,得到统计结果,从而根据该统计结果进行特征选取或特征排序等。
本发明实施例可在获取到子任务集中各个子任务的配置信息后,对各个子任务的配置信息进行融合处理,得到子任务集对应组任务的组配置信息,一个配置信息包括至少一个特征中每个特征的特征标识,以便于后续通过组配置信息进行数据分片的快速匹配。在此种情况下,针对组配置信息中的任一特征标识,可获取任一特征标识所指示特征的目标样本数据,并按照任一特征标识所指示特征的匹配级别,对目标样本数据进行数据拆分处理,得到任一特征标识所指示特征的数据分片拆分结果;然后,根据任一特征标识所指示特征的匹配时间范围,从任一特征标识所指示特征的数据分片拆分结果中,匹配出任一特征标识所指示特征的第一数据分片集,以得到任一特征标识所指示特征的第一数据集,从而一次性拉取组配置信息中每个特征标识所指示特征的第一数据分片集,以避免对不同子任务进行多次特征拉取,且避免了对特征的重复拉取,进而节省了重复拉取特征的时间。进一步的,可根据各个子任务的配置信息中的特征标识,以及组配置信息中的每个特征标识所指示特征的第一数据集,分别为各个子任务所需的各个特征分配第二数据集,一个特征的第一数据集包括相应特征在各个子任务下的第二数据集。可见,本发明实施例可通过组任务便捷地对多个子任务进行数据匹配,从而提高数据匹配的效率;并且,本发明实施例可通过对历史数据(如目标样本数据)的拆分处理,对历史数据以数据分片的形式加上日期版本进行管理以及匹配,从而在能够快速有效地进行数据匹配的同时,还能更加有序地管理历史数据。
需要说明的是,现有技术对于不同的模型进行数据处理时,需要对当前的逻辑进行硬编码来支持每个模型独特的逻辑,但是当数据匹配条件以及处理逻辑一旦变更时,开发人员便需要进行相对应的逻辑开发,然后再进行重新的发布上线,这样的耗时较长,很难快速响应相对应的逻辑调整。基于此,如图6所示,本发明实施例所提及的电子设备可包括一个数据匹配平台(一种低代码开发平台装置),且本发明实施例所提出的数据匹配方法可应用于电子设备中的数据匹配平台上,从而通过数据匹配平台便捷地实现对多个子任务的数据匹配,该数据匹配平台是上线高效、高性能的可视化应用开发平台;数据匹配平台可将各个功能进行模块化并且进行模块间的解耦,同时将繁琐的底层架构和基础设施抽象为图形界面,为用户提供了便捷的操作页面,以通过配置化的方式减少硬编码开发,缩短上线流程以及时间。
相应的,该数据匹配平台包括但不限于:任务管理模块、任务调度模块(即调度引擎)、任务特征配置模块以及任务执行模块(包括任务执行器),等等;本发明对此不作限定。其中,任务管理模块的职责主要是负责对于所有任务的调度执行,如优先级的调整、任务开启、任务停止以及任务执行状态的通知警示等;任务特征配置模块可配置相关任务的特征信息(如时间范围)、所需特征等,那么在任务执行过程中,所有用到的配置信息会去从任务特征配置模块中读取,即需从任务特征配置模块中将某些参数和组件匹配好后,再开始执行任务;任务执行模块可关注当前任务的执行状态,系统的资源使用,以及任务的健康检查等功能;调度引擎可提供对调度任务的设置、管理和执行功能,可以创建和维护多个调度任务,对调度任务执行事件进行监听,当有符合执行条件的任务就予以执行。
在此种情况下,在通过API(Application Programming Interface,应用程序编程接口)向电子设备中的数据匹配平台进行任务提交后,数据匹配平台便可生成至少一个组任务和各个组任务对应的子任务集,这些任务均被添加至数据匹配平台的作业池中等待调用;其中,API是一些预先定义的函数,目的是提供应用程序与开发人员(即用户)基于某软件或硬件以访问一组例程的能力,而又无需访问源码或理解内部工作机制的细节。
在此种情况下,上述组任务可通过调度引擎得到任务执行权,从而对组配置信息进行配置解析,得到组配置信息中的每个特征标识。相应的,任务执行模块可对组任务进行任务编译(如根据资源分布进行任务块的组合或数据解密等),一个任务可包括至少一个任务块(如一个特征的数据匹配);然后,组任务可通过任务执行器去进行数据转换(即确定待筛选样本数据)和样本处理(即从待筛选样本数据中选取出目标样本数据),然后对不同子任务需要匹配的特征进行融合处理(即整合汇总)以及配置读取,得到组任务的组配置信息。进一步的,任务执行器可针对组任务进行不同数据源(即初始样本数据)的数据交互,从而完成组任务的特征拉取任务,以得到组配置信息中每个特征标识所指示特征的第一数据分片集;当组任务完成后,可将匹配出的全量特征的第一数据分片集放入特征池中,使得特征池包括全部组任务所匹配拉取回来的第一数据分片集。
相应的,当调度引擎将资源分配到子任务时,子任务可获取到任务执行权。在此种情况下,任务执行器可从特征池中直接拉取到子任务需要的特征(即拉取到相应子任务所需的各个特征的第二数据分片集),然后可对拉取到的第二数据分片集进行加工处理和配置解析,从而得到相应子任务所需的各个特征的待处理数据分片集,并可通过配置的数据处理规则(即规则引擎所实现的处理规则)对相应子任务所需的各个特征的待处理数据分片集进行处理(即结果加工),从而得到相应任务的匹配特征向量结果;该规则引擎由推理引擎发展而来,是一种嵌入在应用程序中的组件,实现了将业务决策从应用程序代码中分离出来,并使用预定义的语义模块编写业务决策,接受数据输入,解释业务规则,并根据业务规则做出业务决策。需要说明的是,用户可通过数据匹配平台中的图形化界面(即配置界面)进行操作,并提交数据匹配的任务,使得即使是非技术人员也可通过数据匹配平台中的配置界面进行操作。
应当理解的是,基于本发明实施例提出的数据匹配平台,对于不同的子任务,只需要进行简单的配置就可以完成数据匹配;同时对于一些复杂模型(即逻辑特殊的模型)对应的子任务,也能够通过规则引擎进行处理,以得到相应任务的匹配特征向量结果。可见,本发明实施例提出的数据匹配平台不仅能为用户提供了便捷的操作页面,通过配置化的方式减缩短上线流程以及时间,还能够支持数据的切片匹配以及同时对多个子任务进行数据匹配,并且在配置信息调整后还能够快速的响应对应的需求,给用户提供了便捷。
基于上述数据匹配方法的相关实施例的描述,本发明实施例还提出了一种数据匹配装置,该数据匹配装置可以是运行于电子设备中的一个计算机程序(包括程序代码);如图7所示,该数据匹配装置可包括获取单元701和处理单元702。该数据匹配装置可以执行图1或图3所示的数据匹配方法,即该数据匹配装置可以运行上述单元:
获取单元701,用于获取子任务集中各个子任务的配置信息;
处理单元702,用于对所述各个子任务的配置信息进行融合处理,得到所述子任务集对应组任务的组配置信息,一个配置信息包括至少一个特征中每个特征的特征标识,配置信息中的特征标识用于指示相应任务所需特征,且所述组任务所需特征的数量小于或等于所述各个子任务所需特征的数量之和;
所述处理单元702,还用于分别确定所述组配置信息中的每个特征标识所指示特征的第一数据集,所述组配置信息中的一个特征标识所指示特征的第一数据集包括:相应特征在所述各个子任务中所需匹配的数据;
所述处理单元702,还用于根据所述各个子任务的配置信息中的特征标识,以及所述组配置信息中的每个特征标识所指示特征的第一数据集,分别为所述各个子任务所需的各个特征分配第二数据集,一个特征的第一数据集包括相应特征在所述各个子任务下的第二数据集。
在一种实施方式中,一个特征的第一数据集是由相应特征的第一数据分片集所构成的,一个数据分片包括相应时间范围内存储的数据;一个配置信息包括相应特征标识所指示特征的匹配级别和匹配时间范围,且一个特征的匹配级别用于指示相应特征的样本数据的拆分方式,处理单元702在分别确定所述组配置信息中的每个特征标识所指示特征的第一数据集时,可具体用于:
针对所述组配置信息中的任一特征标识,获取所述任一特征标识所指示特征的目标样本数据,并按照所述任一特征标识所指示特征的匹配级别,对所述目标样本数据进行数据拆分处理,得到所述任一特征标识所指示特征的数据分片拆分结果;
根据所述任一特征标识所指示特征的匹配时间范围,从所述任一特征标识所指示特征的数据分片拆分结果中,匹配出所述任一特征标识所指示特征的第一数据分片集,以得到所述任一特征标识所指示特征的第一数据集,且一个特征的第一数据分片集中任一数据分片对应时间范围,与相应特征的匹配时间范围相匹配。
另一种实施方式中,一个特征的匹配时间范围的数量为至少一个;处理单元702在根据所述任一特征标识所指示特征的匹配时间范围,从所述任一特征标识所指示特征的数据分片拆分结果中,匹配出所述任一特征标识所指示特征的第一数据分片集时,可具体用于:
针对所述任一特征标识所指示特征的任一匹配时间范围,根据所述任一匹配时间范围,以及所述任一特征标识所指示特征的数据分片拆分结果中各个数据分片对应的时间范围,确定与所述任一匹配时间范围相匹配的目标时间范围,所述目标时间范围不位于所述任一匹配时间范围之后,且所述目标时间范围与所述任一匹配时间范围之间的距离,小于相应数据分片拆分结果中其他数据分片对应时间范围与所述任一匹配时间范围之间的距离;
从所述任一特征标识所指示特征的数据分片拆分结果中,匹配出所述目标时间范围对应的数据分片,并将匹配出的数据分片添加至所述任一特征标识所指示特征的第一数据分片集中。
另一种实施方式中,一个配置信息包括相应特征标识所指示特征的筛选指示信息;处理单元702在获取所述任一特征标识所指示特征的目标样本数据时,可具体用于:
获取所述任一特征标识所指示特征的初始样本数据;
基于所述初始样本数据,确定待筛选样本数据,并采用所述任一特征标识所指示特征的筛选指示信息,从所述待筛选样本数据中,选取出所述任一特征标识所指示特征的目标样本数据。
另一种实施方式中,一个特征的第二数据集是由相应特征的第二数据分片集所构成的,处理单元702在根据所述各个子任务的配置信息中的特征标识,以及所述组配置信息中的每个特征标识所指示特征的第一数据集,分别为所述各个子任务所需的各个特征分配第二数据集时,可具体用于:
针对所述子任务集中的任一子任务,遍历所述任一子任务的配置信息中的各个特征标识,并将当前遍历的特征标识所指示特征作为当前特征;
从所述任一子任务的配置信息中,确定出所述当前特征的目标匹配时间范围,所述当前特征在所述组配置信息中的匹配时间范围包括所述目标匹配时间范围;
从所述当前特征的第一数据分片集中,选取出与所述目标匹配时间范围相对应的数据分片,并将选取出的数据分片添加至所述当前特征在所述任一子任务下的第二数据分片集中,以得到所述当前特征的第二数据分片集;
在遍历完所述任一子任务的配置信息中的各个特征标识后,得到所述任一子任务所需的各个特征的第二数据分片集,以得到所述任一子任务所需的各个特征的第二数据集。
另一种实施方式中,一个特征的第二数据集是由相应特征的第二数据分片集所构成的,一个子任务的配置信息包括相应子任务的数据处理规则,且一个数据处理规则用于指示:基于至少一个特征中各个特征的数据分片以生成匹配特征向量结果的方式,处理单元702还可用于:
针对所述子任务集中的第i个子任务,基于所述第i个子任务所需的各个特征的第二数据分片集,确定所述第i个子任务所需的各个特征的待处理数据分片集,i为正整数,且i小于或等于所述子任务集中的子任务的数量;
基于所述第i个子任务的数据处理规则,对所述第i个子任务所需的各个特征的待处理数据分片集进行处理,得到所述第i个子任务的匹配特征向量结果,以使所述第i个子任务的匹配特征向量结果作为所述任一子任务对应模型的训练数据。
另一种实施方式中,所述各个子任务的配置信息是通过配置界面进行配置的,获取单元701还可用于:
在检测到针对所述配置界面的数据匹配任务的配置指令时,获取所述配置指令所指示的配置信息;
处理单元702还可用于:
生成所述数据匹配任务,并将所述配置指令所指示的配置信息作为所述数据匹配任务的配置信息,以及将所述数据匹配任务添加至所述子任务集中。
根据本发明的一个实施例,图1或图3所示的方法所涉及的各个步骤均可由图7所示的数据匹配装置中的各个单元来执行的。例如,图1中所示的步骤S101可由图7中所示的获取单元701和处理单元702共同执行,步骤S102和S103均可由图7中所示的处理单元702执行。又如,图3中所示的步骤S301可由图7中所示的获取单元701和处理单元702共同执行,步骤S302-S304均可由图7中所示的处理单元702执行,等等。
根据本发明的另一个实施例,图7所示的数据匹配装置中的各个单元均可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本发明的其它实施例中,任一数据匹配装置也可以包括其他单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本发明的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用电子设备上运行能够执行如图1或图3中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图7中所示的数据匹配装置,以及来实现本发明实施例的数据匹配方法。所述计算机程序可以记载于例如计算机存储介质上,并通过计算机存储介质装载于上述电子设备中,并在其中运行。
本发明实施例在获取到子任务集中各个子任务的配置信息后,可对各个子任务的配置信息进行融合处理,得到子任务集对应组任务的组配置信息,一个配置信息包括至少一个特征中每个特征的特征标识,配置信息中的特征标识用于指示相应任务所需特征,且组任务所需特征的数量小于或等于各个子任务所需特征的数量之和,以便于通过组配置信息快速获取各个子任务所需匹配的数据。然后,可分别确定组配置信息中的每个特征标识所指示特征的第一数据集,组配置信息中的一个特征标识所指示特征的第一数据集包括:相应特征在各个子任务中所需匹配的数据;基于此,可根据各个子任务的配置信息中的特征标识,以及组配置信息中的每个特征标识所指示特征的第一数据集,分别为各个子任务所需的各个特征分配第二数据集。可见,本发明实施例可通过组配置信息,便捷地对多个任务进行数据匹配,从而提高数据匹配的效率;基于此,对于不同类型的模型,仅需进行一次数据匹配,即可实现全量所需关联特征向量的数据筛选,可有效节约多次重复匹配工作的时间,且操作简单易于实现。
基于上述方法实施例以及装置实施例的描述,本发明示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本发明实施例的方法。
本发明示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本发明实施例的方法。
本发明示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本发明实施例的方法。
参考图8,现将描述可以作为本发明的服务器或客户端的电子设备800的结构框图,其是可以应用于本发明的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图8所示,电子设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
电子设备800中的多个部件连接至I/O接口805,包括:输入单元806、输出单元807、存储单元808以及通信单元809。输入单元806可以是能向电子设备800输入信息的任何类型的设备,输入单元806可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元807可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元808可以包括但不限于磁盘、光盘。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理。例如,在一些实施例中,数据匹配方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM802和/或通信单元809而被载入和/或安装到电子设备800上。在一些实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据匹配方法。
用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本发明使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
并且,应理解的是,以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种数据匹配方法,其特征在于,包括:
获取子任务集中各个子任务的配置信息,并对所述各个子任务的配置信息进行融合处理,得到所述子任务集对应组任务的组配置信息,一个配置信息包括至少一个特征中每个特征的特征标识,配置信息中的特征标识用于指示相应任务所需特征,且所述组任务所需特征的数量小于或等于所述各个子任务所需特征的数量之和;
分别确定所述组配置信息中的每个特征标识所指示特征的第一数据集,所述组配置信息中的一个特征标识所指示特征的第一数据集包括:相应特征在所述各个子任务中所需匹配的数据;
根据所述各个子任务的配置信息中的特征标识,以及所述组配置信息中的每个特征标识所指示特征的第一数据集,分别为所述各个子任务所需的各个特征分配第二数据集,一个特征的第一数据集包括相应特征在所述各个子任务下的第二数据集。
2.根据权利要求1所述的方法,其特征在于,一个特征的第一数据集是由相应特征的第一数据分片集所构成的,一个数据分片包括相应时间范围内存储的数据;一个配置信息包括相应特征标识所指示特征的匹配级别和匹配时间范围,且一个特征的匹配级别用于指示相应特征的样本数据的拆分方式,所述分别确定所述组配置信息中的每个特征标识所指示特征的第一数据集,包括:
针对所述组配置信息中的任一特征标识,获取所述任一特征标识所指示特征的目标样本数据,并按照所述任一特征标识所指示特征的匹配级别,对所述目标样本数据进行数据拆分处理,得到所述任一特征标识所指示特征的数据分片拆分结果;
根据所述任一特征标识所指示特征的匹配时间范围,从所述任一特征标识所指示特征的数据分片拆分结果中,匹配出所述任一特征标识所指示特征的第一数据分片集,以得到所述任一特征标识所指示特征的第一数据集,且一个特征的第一数据分片集中任一数据分片对应时间范围,与相应特征的匹配时间范围相匹配。
3.根据权利要求2所述的方法,其特征在于,一个特征的匹配时间范围的数量为至少一个;所述根据所述任一特征标识所指示特征的匹配时间范围,从所述任一特征标识所指示特征的数据分片拆分结果中,匹配出所述任一特征标识所指示特征的第一数据分片集,包括:
针对所述任一特征标识所指示特征的任一匹配时间范围,根据所述任一匹配时间范围,以及所述任一特征标识所指示特征的数据分片拆分结果中各个数据分片对应的时间范围,确定与所述任一匹配时间范围相匹配的目标时间范围,所述目标时间范围不位于所述任一匹配时间范围之后,且所述目标时间范围与所述任一匹配时间范围之间的距离,小于相应数据分片拆分结果中其他数据分片对应时间范围与所述任一匹配时间范围之间的距离;
从所述任一特征标识所指示特征的数据分片拆分结果中,匹配出所述目标时间范围对应的数据分片,并将匹配出的数据分片添加至所述任一特征标识所指示特征的第一数据分片集中。
4.根据权利要求2所述的方法,其特征在于,一个配置信息包括相应特征标识所指示特征的筛选指示信息;所述获取所述任一特征标识所指示特征的目标样本数据,包括:
获取所述任一特征标识所指示特征的初始样本数据;
基于所述初始样本数据,确定待筛选样本数据,并采用所述任一特征标识所指示特征的筛选指示信息,从所述待筛选样本数据中,选取出所述任一特征标识所指示特征的目标样本数据。
5.根据权利要求2所述的方法,其特征在于,一个特征的第二数据集是由相应特征的第二数据分片集所构成的,所述根据所述各个子任务的配置信息中的特征标识,以及所述组配置信息中的每个特征标识所指示特征的第一数据集,分别为所述各个子任务所需的各个特征分配第二数据集,包括:
针对所述子任务集中的任一子任务,遍历所述任一子任务的配置信息中的各个特征标识,并将当前遍历的特征标识所指示特征作为当前特征;
从所述任一子任务的配置信息中,确定出所述当前特征的目标匹配时间范围,所述当前特征在所述组配置信息中的匹配时间范围包括所述目标匹配时间范围;
从所述当前特征的第一数据分片集中,选取出与所述目标匹配时间范围相对应的数据分片,并将选取出的数据分片添加至所述当前特征在所述任一子任务下的第二数据分片集中,以得到所述当前特征的第二数据分片集;
在遍历完所述任一子任务的配置信息中的各个特征标识后,得到所述任一子任务所需的各个特征的第二数据分片集,以得到所述任一子任务所需的各个特征的第二数据集。
6.根据权利要求1-5任一项所述的方法,其特征在于,一个特征的第二数据集是由相应特征的第二数据分片集所构成的,一个子任务的配置信息包括相应子任务的数据处理规则,且一个数据处理规则用于指示:基于至少一个特征中各个特征的数据分片以生成匹配特征向量结果的方式,所述方法还包括:
针对所述子任务集中的第i个子任务,基于所述第i个子任务所需的各个特征的第二数据分片集,确定所述第i个子任务所需的各个特征的待处理数据分片集,i为正整数,且i小于或等于所述子任务集中的子任务的数量;
基于所述第i个子任务的数据处理规则,对所述第i个子任务所需的各个特征的待处理数据分片集进行处理,得到所述第i个子任务的匹配特征向量结果,以使所述第i个子任务的匹配特征向量结果作为所述任一子任务对应模型的训练数据。
7.根据权利要求1-5任一项所述的方法,其特征在于,所述各个子任务的配置信息是通过配置界面进行配置的,所述方法还包括:
在检测到针对所述配置界面的数据匹配任务的配置指令时,获取所述配置指令所指示的配置信息;
生成所述数据匹配任务,并将所述配置指令所指示的配置信息作为所述数据匹配任务的配置信息,以及将所述数据匹配任务添加至所述子任务集中。
8.一种数据匹配装置,其特征在于,所述装置包括:
获取单元,用于获取子任务集中各个子任务的配置信息;
处理单元,用于对所述各个子任务的配置信息进行融合处理,得到所述子任务集对应组任务的组配置信息,一个配置信息包括至少一个特征中每个特征的特征标识,配置信息中的特征标识用于指示相应任务所需特征,且所述组任务所需特征的数量小于或等于所述各个子任务所需特征的数量之和;
所述处理单元,还用于分别确定所述组配置信息中的每个特征标识所指示特征的第一数据集,所述组配置信息中的一个特征标识所指示特征的第一数据集包括:相应特征在所述各个子任务中所需匹配的数据;
所述处理单元,还用于根据所述各个子任务的配置信息中的特征标识,以及所述组配置信息中的每个特征标识所指示特征的第一数据集,分别为所述各个子任务所需的各个特征分配第二数据集,一个特征的第一数据集包括相应特征在所述各个子任务下的第二数据集。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-7中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-7中任一项所述的方法。
CN202310637511.3A 2023-05-31 2023-05-31 数据匹配方法、装置、存储介质及电子设备 Pending CN116860796A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310637511.3A CN116860796A (zh) 2023-05-31 2023-05-31 数据匹配方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310637511.3A CN116860796A (zh) 2023-05-31 2023-05-31 数据匹配方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN116860796A true CN116860796A (zh) 2023-10-10

Family

ID=88225710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310637511.3A Pending CN116860796A (zh) 2023-05-31 2023-05-31 数据匹配方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN116860796A (zh)

Similar Documents

Publication Publication Date Title
CN108304201B (zh) 对象更新方法、装置及设备
US8667020B2 (en) Placement goal-based database instance dynamic consolidation
CN109408205B (zh) 基于hadoop集群的任务调度方法和装置
US8667019B2 (en) Placement goal-based database instance consolidation
US10387682B2 (en) Parallel access to running electronic design automation (EDA) application
US11755337B2 (en) Techniques for managing dependencies of an orchestration service
US20180357045A1 (en) Application deployment
US20200278975A1 (en) Searching data on a synchronization data stream
CN114667507A (zh) 使用基于应用的剖析的机器学习工作负载的弹性执行
US11934287B2 (en) Method, electronic device and computer program product for processing data
CN114037293A (zh) 任务分配方法、装置、计算机系统及介质
US20200150957A1 (en) Dynamic scheduling for a scan
US20150142951A1 (en) Performance of a streaming application by running experimental permutations
US11100233B2 (en) Optimizing operating system vulnerability analysis
US10877805B2 (en) Optimization of memory usage by integration flows
US11614963B2 (en) Machine learning based runtime optimization
US10255057B2 (en) Locale object management
CN116569141A (zh) 工作流修补
CN113076224A (zh) 数据备份方法、数据备份系统、电子设备及可读存储介质
CN115373822A (zh) 任务调度方法、任务处理方法、装置、电子设备和介质
US11789774B2 (en) Optimization of workload scheduling in a distributed shared resource environment
CN117716373A (zh) 基于期望的度量值提供机器学习模型
CN114564249A (zh) 推荐调度引擎、推荐调度方法及计算机可读存储介质
CN116860796A (zh) 数据匹配方法、装置、存储介质及电子设备
CN110247802B (zh) 针对云服务单机环境的资源配置方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination