CN117539857A - 表拼接方法、装置、存储介质和系统 - Google Patents
表拼接方法、装置、存储介质和系统 Download PDFInfo
- Publication number
- CN117539857A CN117539857A CN202210904914.5A CN202210904914A CN117539857A CN 117539857 A CN117539857 A CN 117539857A CN 202210904914 A CN202210904914 A CN 202210904914A CN 117539857 A CN117539857 A CN 117539857A
- Authority
- CN
- China
- Prior art keywords
- training
- data object
- auxiliary
- label
- training sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000003860 storage Methods 0.000 title claims abstract description 23
- 238000013145 classification model Methods 0.000 claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 15
- 230000004931 aggregating effect Effects 0.000 claims abstract description 3
- 238000012549 training Methods 0.000 claims description 211
- 230000002776 aggregation Effects 0.000 claims description 8
- 238000004220 aggregation Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000010380 label transfer Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 206010000117 Abnormal behaviour Diseases 0.000 description 3
- 238000004378 air conditioning Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000004900 laundering Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
公开一种表拼接方法、装置、存储介质和系统,所述方法包括:针对主表对应的任意一个副表,基于所述主表和该副表之间的连接键,将所述主表中各主表数据对象的第一标签拼接至该副表中,得到包含第二标签的副表;利用预设的标签分类模型对所述包含第二标签的副表进行处理,得到该副表中各副表数据对象的预测结果;对该副表中各副表数据对象的预测结果进行聚合,得到所述连接键对应的副表统计信息;基于所述连接键,将所述副表统计信息拼接至所述主表中。该表拼接方法能够高效地将整合副表得到的信息拼接至主表中,从而充分地利用副表中的信息。
Description
技术领域
本公开总体说来涉及数据处理领域,更具体地讲,涉及一种表拼接方法、装置、存储介质和系统。
背景技术
在目前涉及到大数据的相关应用中,往往需要借助人工智能模型对大数据进行分析。在应用人工智能模型分析大数据的过程中,涉及到大量表格数据操作,而表拼接是表格数据操作中不可或缺的一个环节。具体而言,表拼接是指将分散的表聚合在一起,通过表拼接能够将各个表所承载的业务信息汇集至同一张表中,便于后续对业务信息的分析应用。
但是在相关技术中,当主表和副表的表关系是一对多的时候,往往是对副表进行简单的聚合操作后直接拼接至主表,导致在后续进行数据分析时,无法充分利用副表中的信息。
发明内容
本公开提供一种表拼接方法、装置、存储介质和系统,用于至少解决部分的上述问题。
根据本公开的一方面,提供一种表拼接方法,包括:针对主表对应的任意一个副表,基于所述主表和该副表之间的连接键,将所述主表中各主表数据对象的第一标签拼接至该副表中,得到包含第二标签的副表;利用预设的标签分类模型对所述包含第二标签的副表进行处理,得到该副表中各副表数据对象的预测结果;对该副表中各副表数据对象的预测结果进行聚合,得到所述连接键对应的副表统计信息;基于所述连接键,将所述副表统计信息拼接至所述主表中。
可选地,任意一个主表数据对象的第一标签表示该主表数据对象是否属于目标类别,任意一个副表数据对象的预测结果表示该副表数据对象属于所述目标类别的概率。
可选地,所述主表数据对象包括多个数据项,其中,所述第一标签为所述多个数据项中的一个数据项。
可选地,所述副表统计信息包括最大值、最小值、中位数、均值、方差、计数中的至少一个。
可选地,所述利用预设的标签分类模型对所述包含第二标签的副表进行处理,得到该副表中各副表数据对象的预测结果,包括:将所述包含第二标签的副表作为第一训练样本集,其中,所述第一训练样本集中的每个第一训练样本对应于该副表中相应的一个副表数据对象;利用所述第一训练样本集对所述标签分类模型进行交叉训练,以通过所述交叉训练对所述第一训练样本集中的每个第一训练样本进行预测,得到所述第一训练样本集中的每个第一训练样本的预测结果,以作为相应的该副表中各副表数据对象的预测结果。
可选地,所述第一训练样本中用于训练的样本特征不包括连接键。
可选地,所述利用所述第一训练样本集对所述标签分类模型进行交叉训练,包括:将所述第一训练样本集划分为第一数量个训练子集,其中,具有相同连接键的第一训练样本被划分至相同的训练子集中;在每次训练时,利用所述第一数量个训练子集中的第二数量个训练子集对所述第一模型进行训练,其中,所述第二数量小于所述第一数量,其中,任意一次训练时使用的所述第二数量个训练子集与其他次训练时使用的所述第二数量个训练子集不完全相同。
可选地,所述通过所述交叉训练对所述第一训练样本集中的每个第一训练样本进行预测,得到所述第一训练样本集中的每个第一训练样本的预测结果,包括:针对任意一次训练,利用该次训练得到的标签分类模型,对该次训练时未使用的所述第一数量个训练子集中的其余训练子集中的每个第一训练样本进行预测,得到所述其余训练子集中的每个第一训练样本的预测结果,其中,所述其余训练子集为所述第二数量个训练子集之外的训练子集。
可选地,所述主表为用于训练目标业务模型的第二训练样本集,所述副表为扩展样本集,其中,所述主表数据对象为所述第二训练样本集中的第二训练样本,所述副表数据对象为所述扩展样本集中的扩展样本,所述扩展样本用于对具有相同连接键的第二训练样本进行信息扩展。
可选地,还包括:基于拼接后的主表,对目标业务模型进行训练,以得到训练好的目标业务模型,其中,所述训练好的目标业务模型用于执行与所述主表相关联的任务。
可选地,所述主表为用户信息表,所述主表数据对象为相应用户的基本公开信息,所述连接键为用户标识,其中,所述副表包括用户的交易信息表、用户的操作信息表、用户的咨询信息表和用户的社会评价信息表中的至少一种。
根据本公开的另一方面,提供一种表拼接装置,包括:标签传递单元,被配置为针对主表对应的任意一个副表,基于所述主表和该副表之间的连接键,将所述主表中各主表数据对象的第一标签拼接至该副表中,得到包含第二标签的副表;副表预测单元,被配置为利用预设的标签分类模型对所述包含第二标签的副表进行处理,得到该副表中各副表数据对象的预测结果;信息聚合单元,被配置为对该副表中各副表数据对象的预测结果进行聚合,得到所述连接键对应的副表统计信息;信息拼接单元,被配置为基于所述连接键,将所述副表统计信息拼接至所述主表中。
可选地,任意一个主表数据对象的第一标签表示该主表数据对象是否属于目标类别,任意一个副表数据对象的预测结果表示该副表数据对象属于所述目标类别的概率。
可选地,所述主表数据对象包括多个数据项,其中,所述第一标签为所述多个数据项中的一个数据项。
可选地,所述副表统计信息包括最大值、最小值、中位数、均值、方差、计数中的至少一个。
可选地,所述副表预测单元被配置为:将所述包含第二标签的副表作为第一训练样本集,其中,所述第一训练样本集中的每个第一训练样本对应于该副表中相应的一个副表数据对象;利用所述第一训练样本集对所述标签分类模型进行交叉训练,以通过所述交叉训练对所述第一训练样本集中的每个第一训练样本进行预测,得到所述第一训练样本集中的每个第一训练样本的预测结果,以作为相应的该副表中各副表数据对象的预测结果。
可选地,所述第一训练样本中用于训练的样本特征不包括连接键。
可选地,所述副表预测单元还被配置为:将所述第一训练样本集划分为第一数量个训练子集,其中,具有相同连接键的第一训练样本被划分至相同的训练子集中;在每次训练时,利用所述第一数量个训练子集中的第二数量个训练子集对所述第一模型进行训练,其中,所述第二数量小于所述第一数量,其中,任意一次训练时使用的所述第二数量个训练子集与其他次训练时使用的所述第二数量个训练子集不完全相同。
可选地,所述副表预测单元还被配置为:针对任意一次训练,利用该次训练得到的标签分类模型,对该次训练时未使用的所述第一数量个训练子集中的其余训练子集中的每个第一训练样本进行预测,得到所述其余训练子集中的每个第一训练样本的预测结果,其中,所述其余训练子集为所述第二数量个训练子集之外的训练子集。
可选地,所述主表为用于训练目标业务模型的第二训练样本集,所述副表为扩展样本集,其中,所述主表数据对象为所述第二训练样本集中的第二训练样本,所述副表数据对象为所述扩展样本集中的扩展样本,所述扩展样本用于对具有相同连接键的第二训练样本进行信息扩展。
可选地,还包括:模型训练单元,被配置为基于拼接后的主表,对目标业务模型进行训练,以得到训练好的目标业务模型,其中,所述训练好的目标业务模型用于执行与所述主表相关联的任务。
可选地,所述主表为用户信息表,所述主表数据对象为相应用户的基本公开信息,所述连接键为用户标识,其中,所述副表包括用户的交易信息表、用户的操作信息表、用户的咨询信息表和用户的社会评价信息表中的至少一种。
根据本公开的另一方面,提供一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如上所述的表拼接方法。
根据本公开的另一方面,提供一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如上所述的表拼接方法。
根据本公开示例性实施例的表拼接方法、装置、存储介质和系统能够通过将主表的标签传递至副表后利用预设分类模型对副表进行处理,来整合副表中的信息,再将整合后的信息拼接至主表中,从而在后续使用拼接后的主表进行数据分析时,能够高效且充分地利用副表中的信息。
将在接下来的描述中部分阐述本公开总体构思另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本公开总体构思的实施而得知。
附图说明
通过结合附图,从实施例的下面描述中,本公开这些和/或其它方面及优点将会变得清楚,并且更易于理解,其中:
图1是示出根据本公开示例性实施例的表拼接方法的流程图;
图2是示出根据本公开示例性实施例的表拼接装置的框图。
具体实施方式
提供参照附图的以下描述以帮助对由权利要求及其等同物限定的本发明的实施例的全面理解。包括各种特定细节以帮助理解,但这些细节仅被视为是示例性的。因此,本领域的普通技术人员将认识到在不脱离本发明的范围和精神的情况下,可对描述于此的实施例进行各种改变和修改。此外,为了清楚和简洁,省略对公知的功能和结构的描述。
在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
下面参照图1和图2详细描述根据本公开示例性实施例的表拼接方法和装置。
图1是示出根据本公开示例性实施例的表拼接方法的流程图。
参照图1,在步骤S101中,可针对主表对应的任意一个副表,基于主表和该副表之间的连接键,将主表中各主表数据对象的第一标签拼接至该副表中,得到包含第二标签的副表。
根据本公开的示例性实施例,主表和副表之间基于连接键具有一对多的表关系,在一种可能的实现中,主表可与多个副表具有关联关系,且主表中的任一个主表数据对象可与副表中的多个副表数据对象具有关联关系。其中,主表数据对象是指主表中的一行数据或一列数据;副表数据对象为副表中的一行数据或一列数据。主表与副表可以通过连接键具备关联关系,该连接键是指表格中的一个单元格的内容,既存在于主表,也存在于副表。例如,主表可以为用户1-用户N的用户数据,副表可以有多个,例如可以有N个,副表i可以为用户i(i的范围是1-N)的交易数据表或行为数据表,那么,主表与副表i的连接键就可以理解为用户i这一单元格内容,即主表与副表的用户标识存在关联关系。
这里,针对作为表格数据的主表和副表,可将表格中的每一行数据作为主表数据对象或副表数据对象,此时,针对任一个连接键,可将对应于该连接键的第一标签拼接至副表中对应于该连接键的至少一行数据中;或者,可将表格中的每一列数据作为主表数据对象或副表数据对象,此时,针对任一个连接键,可将对应于该连接键的第一标签拼接至副表中对应于该连接键的至少一列数据中,但本公开对此不做限制,本领域技术人员可根据实际应用场景来进行设置。进一步地,主表数据对象可包括多个数据项,从而第一标签可为多个数据项中的一个数据项,即第一标签可由本领域技术人员根据实际业务需求进行自定义,例如,在主表是用户交易数据的情况下,可将交易类型的数据项作为第一标签,或者,也可以将交易方式或交易金额等作为第一标签,实际场景中自定义选择即可,但本公开不限于此。通过将自定义的第一标签传递至副表中,能够使处理副表后得到的信息更加符合实际业务的需求。
需要说明的是,本公开的作为主表和副表的表格数据包括但不限于以下场景中的数据:自动控制场景中的设备参数数据,例如矿井组、风力发电机组、空调系统等设备的参数;智能问答场景中的交互数据,例如用户行为数据等;金融科技领域、医疗领域和市政领域的业务决策场景中的表格数据,包括:金融科技领域的营销数据(例如优惠券数据、广告点击数据、用户数据等)、交易数据、信用数据和商品价格数据,医疗领域的疾病诊断数据和个人健康数据,市政领域的社会治安数据、环境设施数据、产业经济数据和交通设施数据;推荐业务场景中的推荐数据,例如新闻数据、广告数据、音乐数据、咨询数据、和金融产品数据等;搜索场景中的搜索记录数据,例如网页搜索记录、图像搜索记录、文本搜索记录、视频搜索记录等数据;异常行为检测场景中的行为数据,例如民用电数据、网络流量数据、操作日志数据等。应理解,上述各场景中的数据可以以表格形式展示或转换为表格数据后应用于本公开实施例所示方法,且仅用于示例,本公开对此不做限制。
接下来,在步骤S102中,可利用预设的标签分类模型对包含第二标签的副表进行处理,得到该副表中各副表数据对象的预测结果。
根据本公开的示例性实施例,任意一个主表数据对象的第一标签可表示该主表数据对象所属的类别,相应地,任意一个副表数据对象的第二标签也可表示该副表数据对象所属的类别,从而可通过标签分类模型预测各副表数据对象所属的类别。在一种可能的实现中,可通过概率来表征副表数据对象是否属于某种类别,此时,可通过标签分类模型预测各副表数据对象属于某种类别的概率,从而任意一个副表数据对象的预测结果可表示该副表预测对象属于某种类别的概率。如上所述,第一标签可由本领域技术人员根据实际业务需求进行自定义,换言之,主表数据对象的类别可由本领域技术人员根据数据的实际应用场景来定义。作为示例,在主表为用户信息表并应用于信用评级的情况下,主表数据对象可为相应用户的基本公开信息,连接键可为用户标识,副表可包括用户的交易信息表、用户的操作信息表、用户的咨询信息表和用户的社会评价信息表中的至少一种,此时,可将主表中用于表示相应用户的信用评级的数据项作为第一标签,从而第一标签可表示对应的主表数据对象的信用评级类别,在一种可能的实现中,主表数据对象的信用评级类别可包括优、良、差等,相应地,各副表数据对象的预测结果则可表示相应用户的信用评级属于哪个等级的概率,但本公开不限于此。通过利用预设的标签分类模型对包含第二标签的副表进行处理,能够使各副表数据对象的预测结果准确地表征各副表数据对象属于那种类别。
根据本公开的另一示例性实施例,在二分类的情况下,任意一个主表数据对象的第一标签可表示该主表数据对象是否属于目标类别,相应地,任意一个副表数据对象的第二标签也可表示该副表数据对象是否属于目标类别,从而可通过标签分类模型预测各副表数据对象是否属于目标类别。在一种可能的实现中,可通过概率来表征副表数据对象是否属于目标类别,此时,可通过标签分类模型预测各副表数据对象属于目标类别的概率,从而任意一个副表数据对象的预测结果可表示该副表预测对象属于目标类别的概率。这里,目标类别可由本领域技术人员根据数据的实际应用场景来定义。作为示例,在主表为用户信息表并应用于信用卡欺诈场景的情况下,主表数据对象可为相应用户的基本公开信息,连接键可为用户标识,副表可包括用户的交易信息表、用户的操作信息表、用户的咨询信息表和用户的社会评价信息表中的至少一种,此时,可将主表中用于表示相应用户的信用卡违约情况的数据项作为第一标签,从而目标类别可以是信用卡违约情况,可用于表示相应用户历史上是否发生过信用卡违约行为,相应地,各副表数据对象的预测结果可表示相应用户未来发生信用卡违约行为的概率,但本公开不限于此。通过利用预设的标签分类模型对包含第二标签的副表进行处理,能够使各副表数据对象的预测结果准确地表征各副表数据对象是否属于目标类别。
接下来,在步骤S103中,可对该副表中各副表数据对象的预测结果进行聚合,得到连接键对应的副表统计信息。然后,在步骤S104中,可基于连接键,将副表统计信息拼接至主表中。这里,针对任意一个连接键,可将各副表数据对象的预测结果中对应于该连接键的预测结果进行聚合,得到对应于该连接键的预测结果的副表统计信息;然后,可将对应于该连接键的预测结果的副表统计信息拼接至主表中对应于该连接键的主表数据对象中。进一步地,副表统计信息可包括但不限于最大值、最小值、中位数、均值、方差、计数中的至少一个,换言之,在对各副表数据对象的预测结果进行聚合时,可求取相同连接键对应的预测结果中的最大值、最小值、中位数、均值、方差和计数等,从而实现对各副表数据对象的预测结果的聚合,得到连接键对应的副表统计信息。但本公开不限于此,本领域技术人员可根据实际情况选择聚合方式,以得到满足业务需求的副表统计信息。通过以连接键的维度对各副表数据对象的预测结果进行聚合,能够使得到的副表统计信息更加具有数据价值,便于合理地将整合后的信息拼接至主表。
综上所述,本公开实施例通过模型训练的方式,对副表的信息进行整合,并将整合后的副表数据拼接至主表,如此,使得主表在后续应用过程中能够更好的利用副表信息。
针对本公开的上述至少一个实施例,在利用预设的标签分类模型对包含第二标签的副表进行处理时,可通过对标签分类模型进行交叉训练的方式来得到各副表数据对象的预测结果。在一种可能的实现中,可将包含第二标签的副表作为第一训练样本集。这里,第一训练样本集中的每个第一训练样本对应于该副表中相应的一个副表数据对象。进一步地,第一训练样本中用于训练的样本特征不包括连接键,从而连接键所包含的信息不参与到标签分类模型的训练中,但本公开对此不做限制,本领域技术人员可根据实际情况来确定用于训练的样本特征是否包括连接键。接下来,可利用第一训练样本集对标签分类模型进行交叉训练,以通过交叉训练对第一训练样本集中的每个第一训练样本进行预测,得到第一训练样本集中的每个第一训练样本的预测结果,以作为相应的该副表中各副表数据对象的预测结果。作为示例,标签分类模型可包括但不限于随机森林模型、支持向量机模型、Wide and Deep模型等机器学习或深度学习模型中的至少一个,但本公开不限于此,本领域技术人员可根据实际情况使用合适的模型进行训练。通过利用包含第二标签的副表对标签分类模型进行训练,可以使标签分类模型基于各个第一训练样本对应的第二标签来学习各个第一训练样本的分布,从而使标签分类模型能够准确地对各副表数据对象进行预测。
作为示例,针对上述交叉训练,可将第一训练样本集划分为第一数量个训练子集,这里,具有相同连接键的第一训练样本被划分至相同的训练子集中;然后,在每次训练时,可利用第一数量个训练子集中的第二数量个训练子集对第一模型进行训练,这里,第二数量小于第一数量。例如,在五折交叉训练的情况下,第一数量为5,第二数量为4,但本公开不限于此,第一数量和第二数量的具体数值可由本领域技术人员根据实际情况进行设置。进一步地,任意一次训练时使用的第二数量个训练子集与其他次训练时使用的第二数量个训练子集不完全相同。换言之,在每次训练时,均可排除一部分训练子集,并且每次排除的训练子集不完全相同。更进一步地,针对任意一次训练,可利用该次训练得到的标签分类模型,对该次训练时未使用的第一数量个训练子集中的其余训练子集中的每个第一训练样本进行预测,得到其余训练子集中的每个第一训练样本的预测结果。这里,其余训练子集为第二数量个训练子集之外的训练子集。通过在每次训练后对训练时排除的训练子集进行预测,能够避免用于训练的样本与用于预测的样本产生重合,提高了预测结果的可靠性,并且能够通过这种方式来最终获得所有副表数据对象的预测结果。
针对本公开的上述至少一个实施例,主表可为用于训练目标业务模型的第二训练样本集,副表可为扩展样本集。这里,主表数据对象可为第二训练样本集中的第二训练样本,副表数据对象可为扩展样本集中的扩展样本,扩展样本可用于对具有相同连接键的第二训练样本进行信息扩展。作为示例,在主表为用户信息表的情况下,主表数据对象为相应用户的基本公开信息,即第二训练样本为用户的基本公开信息,此时,副表可以是用户的交易信息表,包括用户的多条交易信息,从而每条交易信息可作为扩展样本,对相同用户的基本公开信息进行扩展,但本公开不限于此。通过副表对主表进行信息扩展后,训练得到的目标业务模型能够学习到更多的特征分布,从而具有更好的性能。
针对本公开的上述至少一个实施例,在将副表统计信息拼接至主表后,可基于拼接后的主表,对目标业务模型进行训练,以得到训练好的目标业务模型。这里,训练好的目标业务模型可用于执行与主表相关联的任务。进一步地,与主表相关联的任务可以包括但不限于:识别任务、预测任务、分类任务、决策任务等等,此处不再穷举。作为示例,在训练样本集是用户数据的情况下,训练好的目标业务模型可用于评估用户未来是否可能发生信用卡违约行为,或者,可用于评估用户的信用/风险等级,但本公开不限于此。
应理解,目标业务模型与上述对副表进行处理的标签分类模型无必然关系,即目标业务模型与上述对副表进行处理的标签分类模型既可以是相同的模型,也可以是不相同的模型,本领域技术人员可根据实际情况确定合适的模型作为目标业务模型。通过拼接副表统计信息后的主表来对目标业务模型进行训练,能够高效且充分地利用副表中的信息,使训练好的目标业务模型能够学习到更多的特征分布,从而更好地满足目标业务的需求。
需要说明的是,本公开实施例中所涉及到的目标业务模型可用于预测信用评级、欺诈交易、广告点击率、商品价格等,具体可由本领域技术人员基于主表所应用的目标业务来确定。换言之,上述目标业务模型旨在针对相关场景中的对象或事件有关的问题进行预测。例如,可用于预测信用评级、预测欺诈交易、预测广告点击率、预测商品价格等,使得预测结果可直接作为决策依据或进一步结合其他规则而成为决策依据。
进一步地,本公开的目标业务模型可被用于的场景包括但不限于以下场景:
自动控制场景,包括:矿井组调节操作预测、风力发电机组调节操作预测和空调系统调节操作预测;具体的对于矿井组可预测开采率高的一组调节操作,对于风力发电机组可预测发电效率高的一组调节操作,对于空调系统,可以预测满足需求的同时节省能耗的一组调节操作。
智能问答场景,包括:聊天机器人和智能客服。
业务决策场景,包括:金融科技领域、医疗领域和市政领域的场景,其中,金融科技领域包括:营销(如优惠券使用预测、广告点击行为预测、用户画像挖掘等)与获客、反欺诈、反洗钱、承保和信用评分、商品价格预测;医疗领域包括:疾病筛查和预防、个性化健康管理和辅助诊断;市政领域包括:社会治理与监管执法、资源环境和设施管理、产业发展和经济分析、公众服务和民生保障、智慧城市(公交、网约车、共享单车等各类城市资源的调配和管理)。
推荐业务场景,包括:新闻、广告、音乐、咨询、视频和金融产品(如理财、保险等)的推荐。
搜索场景,包括:网页搜索、图像搜索、文本搜索、视频搜索等。
异常行为检测场景,包括:国家电网客户用电异常行为检测、网络恶意流量检测、操作日志中的异常行为检测等。
另外,本公开实施例中所涉及到的目标业务模型还可被用于隐私计算、多方安全计算、联邦学习、匿踪(隐匿)查询、安全(隐私)求交等场景。
为了方便理解上述实施例,将以用户数据为例,结合下述表1至表6进行描述。
作为示例,下述表1示出的主表示例和表2示出的副表示例为用户数据。表1是用户信息表,包括用户标识、性别、职业、教育程度、婚姻状态、户口类型和第一标签这几个维度的信息,且表1中的一行数据(即一个用户的基本信息)表示一个主表数据对象。表2是用户交易信息表(此处仅示出用户标识“f34cf3be330734cac1cdc5503d06be5b”所对应的交易信息),包括用户标识、时间戳、交易类型、交易金额、工资收入标记这几个维度的信息,且表2中的一行数据(即一条交易信息)表示一个副表数据对象。这里,同一个用户可对应于多条交易信息。应理解,下述表1和表2仅仅是示例性的,本领域技术人员可根据实际情况来确定主表和副表中的数据类型、数据维度和数据量等方面的内容,本公开对此不做限制。
表1主表示例
表2副表示例
针对上述表1和表2,主表和副表之间的连接键是用户标识,从而可基于用户标识,将主表中的第一标签拼接至副表中,得到包含第二标签的副表。下述表3是示出包含第二标签的副表示例。
表3包含第二标签的副表示例
接下来,可将包含第二标签的副表作为第一训练样本集,使用交叉训练的方式,利用第一训练样本集来训练标签分类模型,以通过交叉训练对第一训练样本集中的每个第一训练样本进行预测,得到第一训练样本集中的每个第一训练样本的预测结果,以作为相应的各副表数据对象的预测结果。作为示例,可使用五折交叉的方式,将第一训练样本集均匀地分成五份,每次将其中一份排除在外,用另外四份进行模型训练(例如但不限于每次训练一个随机森林模型),并且用训练得到的标签分类模型对排除在外的那份数据集进行预测。在上述五折交叉过程中,总共训练并预测了五次,最终在五折交叉训练结束时,能够获得副表中的所有副表数据对象的预测结果。下述表4是示出副表中的各副表数据对象的预测结果。
表4各副表数据对象的预测结果示例
接下来,可对副表中各副表数据对象的预测结果进行聚合,得到连接键对应的副表统计信息,包括最大值、最小值、中位数、均值、方差、计数。下述表5是示出连接键对应的副表统计信息示例。
表5副表统计信息示例
接下来,可基于用户标识,将副表统计信息拼接至主表中。下述表6是示出拼接后的主表示例。
表6拼接后的主表示例
根据本公开示例性实施例的表拼接方法能够通过将主表的标签传递至副表后利用预设分类模型对副表进行处理,来整合副表中的信息,再将整合后的信息拼接至主表中,从而在后续使用拼接后的主表进行数据分析时,能够高效且充分地利用副表中的信息。
图2是示出根据本公开示例性实施例的表拼接装置的框图。
参照图2,根据本公开示例性实施例的表拼接装置200可包括标签传递单元210、副表预测单元220、信息聚合单元230和信息拼接单元240。
标签传递单元210可针对主表对应的任意一个副表,基于主表和该副表之间的连接键,将主表中各主表数据对象的第一标签拼接至该副表中,得到包含第二标签的副表。
副表预测单元220可利用预设的标签分类模型对包含第二标签的副表进行处理,得到该副表中各副表数据对象的预测结果。
信息聚合单元230可对该副表中各副表数据对象的预测结果进行聚合,得到连接键对应的副表统计信息。
信息拼接单元240可基于连接键,将副表统计信息拼接至所述主表中。
根据本公开的示例性实施例,任意一个主表数据对象的第一标签可表示该主表数据对象是否属于目标类别,任意一个副表数据对象的预测结果可表示该副表数据对象属于目标类别的概率。
根据本公开的示例性实施例,主表数据对象可包括多个数据项。这里,第一标签可为多个数据项中的一个数据项。
根据本公开的示例性实施例,副表统计信息可包括最大值、最小值、中位数、均值、方差、计数中的至少一个。
根据本公开的示例性实施例,副表预测单元220可将包含第二标签的副表作为第一训练样本集;利用第一训练样本集对标签分类模型进行交叉训练,以通过交叉训练对第一训练样本集中的每个第一训练样本进行预测,得到第一训练样本集中的每个第一训练样本的预测结果,以作为相应的该副表中各副表数据对象的预测结果。这里,第一训练样本集中的每个第一训练样本对应于该副表中相应的一个副表数据对象。
根据本公开的示例性实施例,第一训练样本中用于训练的样本特征可不包括连接键。
根据本公开的示例性实施例,副表预测单元220可将第一训练样本集划分为第一数量个训练子集;在每次训练时,利用第一数量个训练子集中的第二数量个训练子集对第一模型进行训练。这里,具有相同连接键的第一训练样本被划分至相同的训练子集中。进一步地,第二数量小于第一数量。更进一步地,任意一次训练时使用的第二数量个训练子集与其他次训练时使用的第二数量个训练子集不完全相同。
根据本公开的示例性实施例,副表预测单元220还可针对任意一次训练,利用该次训练得到的标签分类模型,对该次训练时未使用的所述第一数量个训练子集中的其余训练子集中的每个第一训练样本进行预测,得到其余训练子集中的每个第一训练样本的预测结果。这里,其余训练子集为第二数量个训练子集之外的训练子集。
根据本公开的示例性实施例,主表为用于训练目标业务模型的第二训练样本集,副表为扩展样本集。这里,主表数据对象为第二训练样本集中的第二训练样本,副表数据对象为扩展样本集中的扩展样本,扩展样本用于对具有相同连接键的第二训练样本进行信息扩展。
根据本公开的示例性实施例,表拼接装置200还可包括模型训练单元(未示出),模型训练单元可基于拼接后的主表,对目标业务模型进行训练,以得到训练好的目标业务模型。这里,训练好的目标业务模型可用于执行与主表相关联的任务。
根据本公开的示例性实施例,主表可为用户信息表,主表数据对象可为相应用户的基本公开信息,连接键可为用户标识。这里,副表可包括用户的交易信息表、用户的操作信息表、用户的咨询信息表和用户的社会评价信息表中的至少一种。
根据本公开示例性实施例的表拼接方法和装置能够通过将主表的标签传递至副表后利用预设分类模型对副表进行处理,来整合副表中的信息,再将整合后的信息拼接至主表中,从而在后续使用拼接后的主表进行数据分析时,能够高效且充分地利用副表中的信息。
以上已参照图1和图2描述了根据本公开示例性实施例的表拼接方法和装置。
图2所示出的表拼接装置中的各个单元可被配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,各个单元可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的模块。此外,各个单元所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
此外,参照图1所描述的表拼接方法可通过记录在计算机可读存储介质上的程序(或指令)来实现。例如,根据本公开的示例性实施例,可提供存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行根据本公开的表拼接方法。
上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经在参照图1进行相关方法的描述过程中提及,因此这里为了避免重复将不再进行赘述。
应注意,根据本公开示例性实施例的表拼接装置中的各个单元可完全依赖计算机程序的运行来实现相应的功能,即,各个单元在计算机程序的功能架构中与各步骤相应,使得整个系统通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。
另一方面,图2所示的各个单元也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
例如,本公开的示例性实施例还可以实现为计算装置,该计算装置包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当计算机可执行指令集合被处理器执行时,执行根据本公开示例性实施例的表拼接方法。
具体说来,计算装置可以部署在服务器或客户端中,也可以部署在分布式网络环境中的节点装置上。此外,计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。
这里,计算装置并非必须是单个的计算装置,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。
在计算装置中,处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
根据本公开示例性实施例的表拼接方法中所描述的某些操作可通过软件方式来实现,某些操作可通过硬件方式来实现,此外,还可通过软硬件结合的方式来实现这些操作。
处理器可运行存储在存储部件之一中的指令或代码,其中,存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。
存储部件可与处理器集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储部件可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器能够读取存储在存储部件中的文件。
此外,计算装置还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。
根据本公开示例性实施例的表拼接方法可被描述为各种互联或耦合的功能块或功能示图。然而,这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。
因此,参照图1所描述的表拼接方法可通过包括至少一个计算装置和至少一个存储指令的存储装置的系统来实现。
根据本公开的示例性实施例,至少一个计算装置是根据本公开示例性实施例的用于执行表拼接方法的计算装置,存储装置中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个计算装置执行时,执行参照图1所描述的表拼接方法。
以上描述了本公开的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本公开不限于所披露的各示例性实施例。在不偏离本公开的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本公开的保护范围应该以权利要求的范围为准。
Claims (10)
1.一种表拼接方法,其特征在于,包括:
针对主表对应的任意一个副表,基于所述主表和该副表之间的连接键,将所述主表中各主表数据对象的第一标签拼接至该副表中,得到包含第二标签的副表;
利用预设的标签分类模型对所述包含第二标签的副表进行处理,得到该副表中各副表数据对象的预测结果;
对该副表中各副表数据对象的预测结果进行聚合,得到所述连接键对应的副表统计信息;
基于所述连接键,将所述副表统计信息拼接至所述主表中。
2.如权利要求1所述的表拼接方法,其特征在于,任意一个主表数据对象的第一标签表示该主表数据对象是否属于目标类别,任意一个副表数据对象的预测结果表示该副表数据对象属于所述目标类别的概率。
3.如权利要求1所述的表拼接方法,其特征在于,所述主表数据对象包括多个数据项,其中,所述第一标签为所述多个数据项中的一个数据项。
4.如权利要求1所述的表拼接方法,其特征在于,所述副表统计信息包括最大值、最小值、中位数、均值、方差、计数中的至少一个。
5.如权利要求1所述的表拼接方法,其特征在于,所述利用预设的标签分类模型对所述包含第二标签的副表进行处理,得到该副表中各副表数据对象的预测结果,包括:
将所述包含第二标签的副表作为第一训练样本集,其中,所述第一训练样本集中的每个第一训练样本对应于该副表中相应的一个副表数据对象;
利用所述第一训练样本集对所述标签分类模型进行交叉训练,以通过所述交叉训练对所述第一训练样本集中的每个第一训练样本进行预测,得到所述第一训练样本集中的每个第一训练样本的预测结果,以作为相应的该副表中各副表数据对象的预测结果。
6.如权利要求1至5中任一项所述的表拼接方法,其特征在于,所述主表为用于训练目标业务模型的第二训练样本集,所述副表为扩展样本集,其中,所述主表数据对象为所述第二训练样本集中的第二训练样本,所述副表数据对象为所述扩展样本集中的扩展样本,所述扩展样本用于对具有相同连接键的第二训练样本进行信息扩展。
7.如权利要求1至5中任一项所述的表拼接方法,其特征在于,还包括:
基于拼接后的主表,对目标业务模型进行训练,以得到训练好的目标业务模型,其中,所述训练好的目标业务模型用于执行与所述主表相关联的任务。
8.一种表拼接装置,其特征在于,包括:
标签传递单元,被配置为针对主表对应的任意一个副表,基于所述主表和该副表之间的连接键,将所述主表中各主表数据对象的第一标签拼接至该副表中,得到包含第二标签的副表;
副表预测单元,被配置为利用预设的标签分类模型对所述包含第二标签的副表进行处理,得到该副表中各副表数据对象的预测结果;
信息聚合单元,被配置为对该副表中各副表数据对象的预测结果进行聚合,得到所述连接键对应的副表统计信息;
信息拼接单元,被配置为基于所述连接键,将所述副表统计信息拼接至所述主表中。
9.一种存储指令的计算机可读存储介质,其特征在于,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至7中的任一权利要求所述的表拼接方法。
10.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其特征在于,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至7中的任一权利要求所述的表拼接方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210904914.5A CN117539857A (zh) | 2022-07-29 | 2022-07-29 | 表拼接方法、装置、存储介质和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210904914.5A CN117539857A (zh) | 2022-07-29 | 2022-07-29 | 表拼接方法、装置、存储介质和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117539857A true CN117539857A (zh) | 2024-02-09 |
Family
ID=89781215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210904914.5A Pending CN117539857A (zh) | 2022-07-29 | 2022-07-29 | 表拼接方法、装置、存储介质和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117539857A (zh) |
-
2022
- 2022-07-29 CN CN202210904914.5A patent/CN117539857A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020249125A1 (zh) | 用于自动训练机器学习模型的方法和系统 | |
WO2020253775A1 (zh) | 机器学习建模过程的实现方法和系统 | |
US20210264272A1 (en) | Training method and system of neural network model and prediction method and system | |
Chung | BizPro: Extracting and categorizing business intelligence factors from textual news articles | |
CN111401777B (zh) | 企业风险的评估方法、装置、终端设备及存储介质 | |
CN110751286B (zh) | 神经网络模型的训练方法和训练系统 | |
CN111523677B (zh) | 实现对机器学习模型的预测结果进行解释的方法及装置 | |
CN110705719A (zh) | 执行自动机器学习的方法和装置 | |
CN103020841A (zh) | 用于提供使用信息的方法及使用分析模块 | |
CN110751287B (zh) | 神经网络模型的训练方法及系统以及预测方法及系统 | |
CN110852881B (zh) | 风险账户识别方法、装置、电子设备及介质 | |
CN111340240A (zh) | 实现自动机器学习的方法及装置 | |
WO2020035075A1 (zh) | 在数据隐私保护下执行机器学习的方法和系统 | |
CN110751285A (zh) | 神经网络模型的训练方法和系统以及预测方法和系统 | |
Hashimoto et al. | Analyzing temporal patterns of topic diversity using graph clustering | |
CN110717597A (zh) | 利用机器学习模型获取时序特征的方法和装置 | |
Yao et al. | Enterprise credit risk prediction using supply chain information: A decision tree ensemble model based on the differential sampling rate, Synthetic Minority Oversampling Technique and AdaBoost | |
CN111651524B (zh) | 利用机器学习模型进行线上预测的辅助实现方法及装置 | |
CN112308465A (zh) | 一种业务指标的处理方法及装置 | |
US9141686B2 (en) | Risk analysis using unstructured data | |
CN113434575A (zh) | 基于数据仓库的数据归因处理方法、装置及存储介质 | |
KR20210097204A (ko) | 정보를 출력하는 방법 및 장치 | |
CN106708869B (zh) | 一种群组数据处理的方法及装置 | |
Dutta et al. | Big data analytics for real time systems | |
CN117539857A (zh) | 表拼接方法、装置、存储介质和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |