CN115983210A - 表格数据增强方法、装置、设备及介质 - Google Patents

表格数据增强方法、装置、设备及介质 Download PDF

Info

Publication number
CN115983210A
CN115983210A CN202211638471.6A CN202211638471A CN115983210A CN 115983210 A CN115983210 A CN 115983210A CN 202211638471 A CN202211638471 A CN 202211638471A CN 115983210 A CN115983210 A CN 115983210A
Authority
CN
China
Prior art keywords
data
mask
target
mask field
predicted values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211638471.6A
Other languages
English (en)
Inventor
高维国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202211638471.6A priority Critical patent/CN115983210A/zh
Publication of CN115983210A publication Critical patent/CN115983210A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供了表格数据增强方法、装置、设备及介质,应用于数据处理领域,利用数据增强模型对表格数据进行掩码操作得到掩码表格数据,对掩码表格数据中的掩码字段进行数据预测得到多个候选预测值,根据候选预测值的置信度从多个候选预测值中确定多个目标预测值,利用多个目标预测值分别替换掩码字段得到多个增强表格数据;通过对表格数据的多个单元格数据设置掩码字段,并对掩码字段进行预测得到多个对应的预测值,通过预测值替换掩码字段,保证了增强数据的多样性;另外,在对掩码字段进行预测的时候,根据置信度选择多个对应的预测值,保证了增强数据的一致性,提升了数据增强的效果。

Description

表格数据增强方法、装置、设备及介质
技术领域
本申请涉及数据处理领域,尤其涉及表格数据增强方法、装置、设备及介质。
背景技术
数据增强方法是利用少量的样本数据进行扩充得到大量的与样本数据具有数据一致性的增强数据的方法。数据增强方法被广泛应用在表格下游任务中,通过数据增强方法能使表格下游任务有更多的训练数据,提高下游表格数据相关任务模型的效果。但目前的数据增强方法所生成的增强数据单一,多样性差,尤其在低资源条件下生成的增强数据单一性更加明显。
发明内容
本申请的目的在于至少一定程度上解决相关技术中存在的技术问题之一。
为此,本申请实施例的一个目的在于提供表格数据增强方法、装置、设备及介质,能够保证增强数据的多样性和一致性。
为实现上述目的,本申请实施例的第一方面提供了一种表格数据增强方法,包括:
获取表格数据;
将所述表格数据输入至数据增强模型;
根据所述数据增强模型,对所述表格数据进行掩码操作得到掩码表格数据,对所述掩码表格数据中的掩码字段进行数据预测得到多个候选预测值,根据所述候选预测值的置信度从多个所述候选预测值中确定多个目标预测值,利用多个所述目标预测值分别替换所述掩码字段得到多个增强表格数据,其中,所述目标预测值的数量小于所述候选预测值的数量。
在一些实施例中,所述对所述表格数据进行掩码操作得到掩码表格数据,包括:
从所述表格数据的多个单元格数据选择多个目标单元格数据,其中,所述目标单元格数据的数量小于所述单元格数据的数量;
利用掩码字段替换所述目标单元格数据,得到所述掩码表格数据。
在一些实施例中,所述对所述掩码表格数据中的掩码字段进行数据预测得到多个候选预测值,包括:
将所述掩码表格数据中与所述掩码字段处于同一列的单元格数据确定为目标列数据,将所述目标列数据中除所述掩码字段之外的其他单元格数据确定为第一单元格数据;
将所述掩码表格数据中与所述掩码字段处于同一行的单元格数据确定为目标行数据,将所述目标行数据中除所述掩码字段之外的其他单元格数据确定为第二单元格数据;
根据所述第一单元格数据和所述第二单元格数据对所述掩码字段进行数据预测,以从预设的词表匹配出对应所述掩码字段的多个候选预测值。
在一些实施例中,所述根据所述候选预测值的置信度从多个所述候选预测值中确定多个目标预测值,包括:
对所述候选预测值进行置信度计算,确定所述候选预测值的置信度;
按照所述候选预测值的置信度的数值大小对所述候选预测值进行排序,将排序位于预设区间的多个所述候选预测值确定为目标预测值。
在一些实施例中,所述利用多个所述目标预测值分别替换所述掩码字段得到多个增强表格数据,包括:
对多个所述目标预测值进行归一化操作,得到多个归一化值;
利用多个所述归一化值分别替换所述掩码字段得到多个增强表格数据。
在一些实施例中,所述表格数据增强方法还包括:
根据被所述掩码字段替换的单元格数据和所述掩码字段的字嵌入值进行损失值计算,得到第一损失值;
根据所述第一损失值调整所述数据增强模型的参数。
在一些实施例中,所述根据所述第一损失值调整所述数据增强模型的参数,包括:
根据所述表格数据的标签和所述数据增强模型对所述表格数据的第一预测值进行损失值计算,得到第二损失值;
根据所述表格数据的标签、所述掩码字段的位置和所述目标预测值进行损失值计算,得到第三损失值;
根据所述第一损失值、所述第二损失值和所述第三损失值之和得到总损失值;
根据所述总损失值调整所述数据增强模型的参数。
为实现上述目的,本申请实施例的第二方面提供了一种表格数据增强装置,包括:
数据获取模块,用于获取表格数据;
数据输入模块,用于将所述表格数据输入至数据增强模型;
数据增强模块,用于根据所述数据增强模型,对所述表格数据进行掩码操作得到掩码表格数据,对所述掩码表格数据中的掩码字段进行数据预测得到多个候选预测值,根据所述候选预测值的置信度从多个所述候选预测值中确定多个目标预测值,利用所述目标预测值替换所述掩码字段得到多个增强表格数据,其中,所述目标预测值的数量小于所述候选预测值的数量。
为实现上述目的,本申请实施例的第三方面提供了一种电子设备,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现如上所述的表格数据增强方法。
为实现上述目的,本申请实施例的第四方面提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上所述的表格数据增强方法。
本申请实施例的表格数据增强方法、装置、设备及介质,利用数据增强模型对表格数据进行掩码操作得到掩码表格数据,对掩码表格数据中的掩码字段进行数据预测得到多个候选预测值,根据候选预测值的置信度从多个候选预测值中确定多个目标预测值,利用多个目标预测值分别替换掩码字段得到多个增强表格数据;通过对表格数据的多个单元格数据设置掩码字段,并对掩码字段进行预测得到多个对应的预测值,通过预测值替换掩码字段,保证了增强数据的多样性;另外,在对掩码字段进行预测的时候,根据置信度选择多个对应的预测值,保证了增强数据的一致性,提升了数据增强的效果。
附图说明
为了更清楚地说明本申请实施例或者现有技术中的技术方案,下面对本申请实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员来说,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1是本申请的实施例所提供的表格数据增强方法的步骤图;
图2是通过数据增强模型对表格数据进行掩码操作得到掩码表格数据的子步骤图;
图3是对掩码表格数据中的掩码字段进行数据预测得到多个候选预测值的子步骤图;
图4是根据候选预测值的置信度从多个候选预测值中确定多个目标预测值的子步骤图;
图5是利用多个目标预测值分别替换掩码字段得到多个增强表格数据的子步骤图;
图6是调参步骤的子步骤图;
图7是步骤S420的子步骤图;
图8是本申请的实施例所提供的表格数据增强装置的结构图;
图9是本申请的实施例所提供的电子设备的结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本说明书的描述中,参考术语“一个实施方式”、“另一实施方式”或“某些实施方式”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图中示出的技术方案并不构成对本申请实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
本申请实施例的表格数据增强方法、装置、设备及介质,利用数据增强模型对表格数据进行掩码操作得到掩码表格数据,对掩码表格数据中的掩码字段进行数据预测得到多个候选预测值,根据候选预测值的置信度从多个候选预测值中确定多个目标预测值,利用多个目标预测值分别替换掩码字段得到多个增强表格数据;通过对表格数据的多个单元格数据设置掩码字段,并对掩码字段进行预测得到多个对应的预测值,通过预测值替换掩码字段,保证了增强数据的多样性;另外,在对掩码字段进行预测的时候,根据置信度选择多个对应的预测值,保证了增强数据的一致性,提升了数据增强的效果。
下面结合附图,对本申请实施例作进一步阐述。
本申请的实施例提供了一种表格数据增强方法。
表格数据增强方法,包括以下步骤:
步骤S100,获取表格数据;
步骤S200,将表格数据输入至数据增强模型;
步骤S300,根据数据增强模型,对表格数据进行掩码操作得到掩码表格数据,对掩码表格数据中的掩码字段进行数据预测得到多个候选预测值,根据候选预测值的置信度从多个候选预测值中确定多个目标预测值,利用多个目标预测值分别替换掩码字段得到多个增强表格数据,其中,目标预测值的数量小于候选预测值的数量。
对于步骤S100,获取表格数据。表格数据是由行(样本)和列(特征)组成的数据,例如excel表格中的数据,excel表格中的数据是由多行和多列组成的样本数据,又例如机器学习场景中的数据,机器学习场景中的数据是应用于机器学习模型的一个由多个特征组成的样本数据。
例如,一个表格数据如下所示:
表1示例表格数据
Figure BDA0004006799470000061
对于步骤S200,将表格数据输入至数据增强模型,以使后续数据增强模型能对表格数据进行数据增强处理。
对于步骤S300,通过数据增强模型对表格数据进行数据增强处理,得到多个增强表格数据。
其中,通过数据增强模型对表格数据进行掩码操作得到掩码表格数据,对掩码表格数据中的掩码字段进行数据预测得到多个候选预测值,根据候选预测值的置信度从多个候选预测值中确定多个目标预测值,利用多个目标预测值分别替换掩码字段得到多个增强表格数据。
具体地,通过数据增强模型对表格数据进行掩码操作得到掩码表格数据,包括但不限于以下步骤:
步骤S311,从表格数据的多个单元格数据选择多个目标单元格数据,其中,目标单元格数据的数量小于单元格数据的数量;
步骤S312,利用掩码字段替换目标单元格数据,得到掩码表格数据。
对于步骤S311,从表格数据的多个单元格数据选择多个目标单元格数据,例如对于表1,表1具有36个单元格数据,从36个单元格数据中随机选择任意数量的单元格数据作为目标单元格数据。例如,从36个单元格数据中选择第三行第三列的单元格数据、第四行第四列的单元格数据作为目标单元格数据。
可以理解的是,本实施例给出了选择第三行第三列的单元格数据、第四行第四列的单元格数据作为目标单元格数据,但这并不能对本申请实施例中的目标单元格数据进行限制。在其他实施例中,可以选择第二行第三列的单元格数据作为目标单元格数据,目标单元格数据是从单元格数据选择的即可。
可以理解的是,本实施例给出了选择两个目标单元格数据的例子,但这并不能对本申请实施例中的目标单元格数据的数量进行限制。在其他实施例中,目标单元格数据的数量可以为三个,目标单元格数据的数量满足小于单元格数据的数量即可。
对于步骤S312,利用掩码字段替换目标单元格数据;例如,在步骤S311中将第三行第三列的单元格数据、第四行第四列的单元格数据确定为目标单元格数据,则将第三行第三列的单元格数据的“800”用掩码字段遮掩,将第四行第四列的单元格数据的“400”用掩码字段遮掩,即可得到掩码表格数据。
对掩码表格数据中的掩码字段进行数据预测得到多个候选预测值,包括但不限于以下步骤:
步骤S321,将掩码表格数据中与掩码字段处于同一列的单元格数据确定为目标列数据,将目标列数据中除掩码字段之外的其他单元格数据确定为第一单元格数据;
步骤S322,将掩码表格数据中与掩码字段处于同一行的单元格数据确定为目标行数据,将目标行数据中除掩码字段之外的其他单元格数据确定为第二单元格数据;
步骤S323,根据第一单元格数据和第二单元格数据对掩码字段进行数据预测,以从预设的词表匹配出对应掩码字段的多个候选预测值。
对于步骤S321,将掩码表格数据中与掩码字段处于同一列的单元格数据确定为目标列数据,将目标列数据中除掩码字段之外的其他单元格数据确定为第一单元格数据。例如,针对于对应第三行第三列的单元格数据的掩码字段,将第三列的单元格数据确定为目标列数据,将第三列的单元格数据中除掩码字段之外的其他单元格数据确定为第一单元格数据,即将第二行第三列的单元格数据、第四行第三列的单元格数据、第五行第三列的单元格数据、第六行第三列的单元格数据确定为第一单元格数据。
可以理解的是,如果在同一列中存在两个或以上的掩码字段,例如,对应第二行第三列的单元格数据的掩码字段、对应第三行第三列的单元格数据的掩码字段,则将第三列的单元格数据中除对应第二行第三列的单元格数据的掩码字段、对应第三行第三列的单元格数据的掩码字段之外的其他单元格数据确定为第一单元格数据,即将第四行第三列的单元格数据、第五行第三列的单元格数据、第六行第三列的单元格数据确定为第一单元格数据。
对于步骤S322,将掩码表格数据中与掩码字段处于同一行的单元格数据确定为目标行数据,将目标行数据中除掩码字段之外的其他单元格数据确定为第二单元格数据。例如,针对于对应第三行第三列的单元格数据的掩码字段,将第三行的单元格数据确定为目标列数据,将第三行的单元格数据中除掩码字段之外的其他单元格数据确定为第二单元格数据,即将第三行第一列的单元格数据、第三行第二列的单元格数据、第三行第四列的单元格数据、第三行第五列的单元格数据、第三行第六列的单元格数据和第三行第七列的单元格数据确定为第一单元格数据。
可以理解的是,如果在同一行中存在两个或以上的掩码字段,例如,对应第三行第一列的单元格数据的掩码字段、对应第三行第三列的单元格数据的掩码字段,则将第三列的单元格数据中除对应第三行第一列的单元格数据的掩码字段、对应第三行第三列的单元格数据的掩码字段之外的其他单元格数据确定为第二单元格数据,即将第三行第二列的单元格数据、第三行第四列的单元格数据、第三行第五列的单元格数据、第三行第六列的单元格数据和第三行第七列的单元格数据确定为第二单元格数据。
对于步骤S323,利用自然语言处理技术或其他数据预测技术,根据第一单元格数据和第二单元格数据对掩码字段进行数据预测,以从预设的词表匹配出对应掩码字段的多个候选预测值。
例如,针对于对应第三行第三列的单元格数据的掩码字段,根据第一单元格数据和第二单元格数据,即“研究”、“700”、“600”、“500”、“2021”、“KDD”、“500”、“25”、“40”、“1365”,来预测对应第三行第三列的单元格数据的掩码字段。词表中存储有与“研究”、“700”、“600”、“500”、“2021”、“KDD”、“500”、“25”、“40”、“1365”相关的多个字段,通过数据分析和预测,可以从多个字段中匹配出相关性最高的多个候选预测值。
当然,如果表格数据的非掩码字段比较少,在其他实施例中,可以直接根据全部的表格数据的非掩码字段对掩码字段进行数据预测,以从预设的词表匹配出对应掩码字段的多个候选预测值。
自然语言处理(Nature Language processing,NLP),是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,自然语言处理是一门融语言学、计算机科学、数学于一体的科学。这一领域涉及的自然语言即人们日常使用的语言,所以它与语言学的研究也有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
根据候选预测值的置信度从多个候选预测值中确定多个目标预测值,包括但不限于以下步骤:
步骤S331,对候选预测值进行置信度计算,确定候选预测值的置信度;
步骤S332,按照候选预测值的置信度的数值大小对候选预测值进行排序,将排序位于预设区间的多个候选预测值确定为目标预测值。
对于步骤S331,对候选预测值进行置信度计算,确定候选预测值的置信度。可以理解的是,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数测量值的可信程度范围,这个概率被称为置信度。
对于步骤S332,按照候选预测值的置信度的数值大小对候选预测值进行排序,将排序位于预设区间的多个候选预测值确定为目标预测值。例如,按照候选预测值的置信度的数值大小对候选预测值从大到小进行排序,将排序位于前三的三个候选预测值确定为目标预测值;又例如,按照候选预测值的置信度的数值大小对候选预测值从小到大进行排序,将排序位于后三的三个候选预测值确定为目标预测值。
可以理解的是,即将置信度最大的n个候选预测值确定为目标预测值。
利用多个目标预测值分别替换掩码字段得到多个增强表格数据,包括但不限于以下步骤:
步骤S341,对多个目标预测值进行归一化操作,得到多个归一化值;
步骤S342,利用多个归一化值分别替换掩码字段得到多个增强表格数据。
对于步骤S341,通过softmax函数对目标预测值进行归一化操作,得到目标预测值的归一化值。例如,第三行第三列的单元格数据的one hot编码值为[0 10],当将第三行第三列的单元格数据通过掩码字段遮挡,根据上下文对掩码字段进行预测得到预测值[.1.7.2],对预测值[.1.7.2]进行归一化操作得到归一值[00.78 0.22]。
对于步骤S342,用一个归一化值替换对应的一个掩码字段得到一个增强表格数据,当一个表格数据对应设有a个掩码字段,一个掩码字段对应有b个归一化值,则可以生成a*b个增强表格数据。
通过对表格数据的多个单元格数据设置掩码字段,并对掩码字段进行预测得到多个对应的预测值,通过预测值替换掩码字段,保证了增强数据的多样性;另外,在对掩码字段进行预测的时候,根据置信度选择多个对应的预测值,保证了增强数据的一致性,提升了数据增强的效果。
表格数据增强方法,还包括对数据增强模型的调参步骤。对数据增强模型的调参步骤可以在训练数据增强模型的时候进行,也可以在线上应用数据增强模型的时候同步进行。
调参步骤包括但不限于以下步骤:
步骤S410,根据被掩码字段替换的单元格数据和掩码字段的字嵌入值进行损失值计算,得到第一损失值;
步骤S420,根据第一损失值调整数据增强模型的参数。
对于步骤S420,根据第一损失值调整数据增强模型的参数,包括但不限于以下步骤:
步骤S421,根据表格数据的标签和数据增强模型对表格数据的第一预测值进行损失值计算,得到第二损失值;
步骤S422,根据表格数据的标签、掩码字段的位置和目标预测值进行损失值计算,得到第三损失值;
步骤S423,根据第一损失值、第二损失值和第三损失值之和得到总损失值;
步骤S424,根据总损失值调整数据增强模型的参数。
对于步骤S410,对于第一损失值,第一损失值可以通过以下式子表示:
Figure BDA0004006799470000101
其中,mt为第t位置的被掩码字段替换的单元格数据,et为掩码字段的字嵌入值,M为表格数据的单元格数据的数量,T为掩码字段的数量,f()表示数据增强模型对表格数据的预测值。
对于步骤S421,对于第二损失值,第二损失值可以通过以下式子表示:
Figure BDA0004006799470000111
其中,M为表格数据的单元格数据的数量,xi为第i个单元格数据,yi为第i个单元格数据的标签。
对于步骤S422,对于第三损失值,第三损失值可以通过以下式子表示:
Figure BDA0004006799470000112
其中,M为表格数据的单元格数据的数量,xi为第i个单元格数据,yi为第i个单元格数据的标签;B为第i个单元格数据的掩码字段的位置数量,f(xij)为数据增强模型对第i个单元格数据的第j个位置的掩码字段的目标预测值。
对于步骤S423,对于总损失值,总损失值可以通过以下式子表示:losstotal=loss1+loss2+loss3
对于步骤S424,通过反向传播算法根据总损失值调整数据增强模型的参数,进而优化数据增强模型,并进一步保证模型输出的增强表格数据与输入的表格数据之间的数据一致性。
本申请的实施例提供了一种表格数据增强装置。
表格数据增强装置包括数据获取模块110、数据输入模块120、数据增强模块130。
其中,数据获取模块110用于获取表格数据;数据输入模块120用于将表格数据输入至数据增强模型;数据增强模块130用于根据数据增强模型,对表格数据进行掩码操作得到掩码表格数据,对掩码表格数据中的掩码字段进行数据预测得到多个候选预测值,根据候选预测值的置信度从多个候选预测值中确定多个目标预测值,利用目标预测值替换掩码字段得到多个增强表格数据,其中,目标预测值的数量小于候选预测值的数量。
在该实施例中,通过对表格数据的多个单元格数据设置掩码字段,并对掩码字段进行预测得到多个对应的预测值,通过预测值替换掩码字段,保证了增强数据的多样性;另外,在对掩码字段进行预测的时候,根据置信度选择多个对应的预测值,保证了增强数据的一致性,提升了数据增强的效果。
对于数据增强模块130,通过数据增强模型对表格数据进行数据增强处理,得到多个增强表格数据。
其中,通过数据增强模型对表格数据进行掩码操作得到掩码表格数据,对掩码表格数据中的掩码字段进行数据预测得到多个候选预测值,根据候选预测值的置信度从多个候选预测值中确定多个目标预测值,利用多个目标预测值分别替换掩码字段得到多个增强表格数据。
从表格数据的多个单元格数据选择多个目标单元格数据,其中,目标单元格数据的数量小于单元格数据的数量;利用掩码字段替换目标单元格数据,得到掩码表格数据。
具体地,从表格数据的多个单元格数据选择多个目标单元格数据,例如对于表1,表1具有36个单元格数据,从36个单元格数据中随机选择任意数量的单元格数据作为目标单元格数据。例如,从36个单元格数据中选择第三行第三列的单元格数据、第四行第四列的单元格数据作为目标单元格数据。
可以理解的是,本实施例给出了选择第三行第三列的单元格数据、第四行第四列的单元格数据作为目标单元格数据,但这并不能对本申请实施例中的目标单元格数据进行限制。在其他实施例中,可以选择第二行第三列的单元格数据作为目标单元格数据,目标单元格数据是从单元格数据选择的即可。
可以理解的是,本实施例给出了选择两个目标单元格数据的例子,但这并不能对本申请实施例中的目标单元格数据的数量进行限制。在其他实施例中,目标单元格数据的数量可以为三个,目标单元格数据的数量满足小于单元格数据的数量即可。
利用掩码字段替换目标单元格数据;例如,在步骤S311中将第三行第三列的单元格数据、第四行第四列的单元格数据确定为目标单元格数据,则将第三行第三列的单元格数据的“800”用掩码字段遮掩,将第四行第四列的单元格数据的“400”用掩码字段遮掩,即可得到掩码表格数据。
将掩码表格数据中与掩码字段处于同一列的单元格数据确定为目标列数据,将目标列数据中除掩码字段之外的其他单元格数据确定为第一单元格数据;将掩码表格数据中与掩码字段处于同一行的单元格数据确定为目标行数据,将目标行数据中除掩码字段之外的其他单元格数据确定为第二单元格数据;根据第一单元格数据和第二单元格数据对掩码字段进行数据预测,以从预设的词表匹配出对应掩码字段的多个候选预测值。
具体地,将掩码表格数据中与掩码字段处于同一列的单元格数据确定为目标列数据,将目标列数据中除掩码字段之外的其他单元格数据确定为第一单元格数据。例如,针对于对应第三行第三列的单元格数据的掩码字段,将第三列的单元格数据确定为目标列数据,将第三列的单元格数据中除掩码字段之外的其他单元格数据确定为第一单元格数据,即将第二行第三列的单元格数据、第四行第三列的单元格数据、第五行第三列的单元格数据、第六行第三列的单元格数据确定为第一单元格数据。
可以理解的是,如果在同一列中存在两个或以上的掩码字段,例如,对应第二行第三列的单元格数据的掩码字段、对应第三行第三列的单元格数据的掩码字段,则将第三列的单元格数据中除对应第二行第三列的单元格数据的掩码字段、对应第三行第三列的单元格数据的掩码字段之外的其他单元格数据确定为第一单元格数据,即将第四行第三列的单元格数据、第五行第三列的单元格数据、第六行第三列的单元格数据确定为第一单元格数据。
将掩码表格数据中与掩码字段处于同一行的单元格数据确定为目标行数据,将目标行数据中除掩码字段之外的其他单元格数据确定为第二单元格数据。例如,针对于对应第三行第三列的单元格数据的掩码字段,将第三行的单元格数据确定为目标列数据,将第三行的单元格数据中除掩码字段之外的其他单元格数据确定为第二单元格数据,即将第三行第一列的单元格数据、第三行第二列的单元格数据、第三行第四列的单元格数据、第三行第五列的单元格数据、第三行第六列的单元格数据和第三行第七列的单元格数据确定为第一单元格数据。
可以理解的是,如果在同一行中存在两个或以上的掩码字段,例如,对应第三行第一列的单元格数据的掩码字段、对应第三行第三列的单元格数据的掩码字段,则将第三列的单元格数据中除对应第三行第一列的单元格数据的掩码字段、对应第三行第三列的单元格数据的掩码字段之外的其他单元格数据确定为第二单元格数据,即将第三行第二列的单元格数据、第三行第四列的单元格数据、第三行第五列的单元格数据、第三行第六列的单元格数据和第三行第七列的单元格数据确定为第二单元格数据。
利用自然语言处理技术或其他数据预测技术,根据第一单元格数据和第二单元格数据对掩码字段进行数据预测,以从预设的词表匹配出对应掩码字段的多个候选预测值。
例如,针对于对应第三行第三列的单元格数据的掩码字段,根据第一单元格数据和第二单元格数据,即“研究”、“700”、“600”、“500”、“2021”、“KDD”、“500”、“25”、“40”、“1365”,来预测对应第三行第三列的单元格数据的掩码字段。词表中存储有与“研究”、“700”、“600”、“500”、“2021”、“KDD”、“500”、“25”、“40”、“1365”相关的多个字段,通过数据分析和预测,可以从多个字段中匹配出相关性最高的多个候选预测值。
当然,如果表格数据的非掩码字段比较少,在其他实施例中,可以直接根据全部的表格数据的非掩码字段对掩码字段进行数据预测,以从预设的词表匹配出对应掩码字段的多个候选预测值。
对候选预测值进行置信度计算,确定候选预测值的置信度;按照候选预测值的置信度的数值大小对候选预测值进行排序,将排序位于预设区间的多个候选预测值确定为目标预测值。
具体地,对候选预测值进行置信度计算,确定候选预测值的置信度。可以理解的是,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数测量值的可信程度范围,这个概率被称为置信度。
按照候选预测值的置信度的数值大小对候选预测值进行排序,将排序位于预设区间的多个候选预测值确定为目标预测值。例如,按照候选预测值的置信度的数值大小对候选预测值从大到小进行排序,将排序位于前三的三个候选预测值确定为目标预测值;又例如,按照候选预测值的置信度的数值大小对候选预测值从小到大进行排序,将排序位于后三的三个候选预测值确定为目标预测值。
可以理解的是,即将置信度最大的n个候选预测值确定为目标预测值。
对多个目标预测值进行归一化操作,得到多个归一化值;利用多个归一化值分别替换掩码字段得到多个增强表格数据。
具体地,通过softmax函数对目标预测值进行归一化操作,得到目标预测值的归一化值。例如,第三行第三列的单元格数据的one hot编码值为[0 1 0],当将第三行第三列的单元格数据通过掩码字段遮挡,根据上下文对掩码字段进行预测得到预测值[.1.7.2],对预测值[.1.7.2]进行归一化操作得到归一值[0 0.780.22]。
用一个归一化值替换对应的一个掩码字段得到一个增强表格数据,当一个表格数据对应设有a个掩码字段,一个掩码字段对应有b个归一化值,则可以生成a*b个增强表格数据。
通过对表格数据的多个单元格数据设置掩码字段,并对掩码字段进行预测得到多个对应的预测值,通过预测值替换掩码字段,保证了增强数据的多样性;另外,在对掩码字段进行预测的时候,根据置信度选择多个对应的预测值,保证了增强数据的一致性,提升了数据增强的效果。
表格数据增强装置还执行对数据增强模型的调参步骤。对数据增强模型的调参步骤可以在训练数据增强模型的时候进行,也可以在线上应用数据增强模型的时候同步进行。
进一步,根据被掩码字段替换的单元格数据和掩码字段的字嵌入值进行损失值计算,得到第一损失值;根据表格数据的标签和数据增强模型对表格数据的第一预测值进行损失值计算,得到第二损失值;根据表格数据的标签、掩码字段的位置和目标预测值进行损失值计算,得到第三损失值;根据第一损失值、第二损失值和第三损失值之和得到总损失值;根据总损失值调整数据增强模型的参数。
具体地,对于第一损失值,第一损失值可以通过以下式子表示:
Figure BDA0004006799470000151
其中,mt为第t位置的被掩码字段替换的单元格数据,et为掩码字段的字嵌入值,M为表格数据的单元格数据的数量,T为掩码字段的数量,f()表示数据增强模型对表格数据的预测值。
对于第二损失值,第二损失值可以通过以下式子表示:
Figure BDA0004006799470000152
其中,M为表格数据的单元格数据的数量,xi为第i个单元格数据,yi为第i个单元格数据的标签。
对于第三损失值,第三损失值可以通过以下式子表示:
Figure BDA0004006799470000153
其中,M为表格数据的单元格数据的数量,xi为第i个单元格数据,yi为第i个单元格数据的标签;B为第i个单元格数据的掩码字段的位置数量,f(xij)为数据增强模型对第i个单元格数据的第j个位置的掩码字段的目标预测值。
对于总损失值,总损失值可以通过以下式子表示:losstotal=loss1+loss2+loss3
通过反向传播算法根据总损失值调整数据增强模型的参数,进而优化数据增强模型。
可以理解的是,表格数据增强方法实施例中的内容均适用于本表格数据增强装置实施例中,本表格数据增强装置实施例所具体实现的功能与表格数据增强方法实施例相同,并且达到的有益效果与表格数据增强方法实施例所达到的有益效果也相同。
本申请的实施例还提供了一种电子设备。所述电子设备包括存储器220、处理器210、存储在存储器220上并可在处理器210上运行的程序以及用于实现处理器210和存储器220之间的连接通信的数据总线230,所述程序被处理器210执行时实现如上的表格数据增强方法。
上述电子设备通过对表格数据的多个单元格数据设置掩码字段,并对掩码字段进行预测得到多个对应的预测值,通过预测值替换掩码字段,保证了增强数据的多样性;另外,在对掩码字段进行预测的时候,根据置信度选择多个对应的预测值,保证了增强数据的一致性,提升了数据增强的效果。
该电子设备可以为包括平板电脑、车载电脑等任意智能终端。
总体而言,对于电子设备的硬件结构,处理器210可以采用通用的CPU(CentralProcessingUnit,中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案。
存储器220可以采用只读存储器(ReadOnlyMemory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory,RAM)等形式实现。存储器220可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器220中,并由处理器210来调用执行本申请实施例的表格数据增强方法。
输入/输出接口用于实现信息输入及输出。
通信接口用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线230在设备的各个组件(例如处理器210、存储器220、输入/输出接口和通信接口)之间传输信息。处理器210、存储器220、输入/输出接口和通信接口通过总线230实现彼此之间在设备内部的通信连接。
本申请的实施例还一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于使计算机执行如上所述的表格数据增强方法。
上述计算机可读存储介质通过对表格数据的多个单元格数据设置掩码字段,并对掩码字段进行预测得到多个对应的预测值,通过预测值替换掩码字段,保证了增强数据的多样性;另外,在对掩码字段进行预测的时候,根据置信度选择多个对应的预测值,保证了增强数据的一致性,提升了数据增强的效果。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
尽管已经示出和描述了本申请的实施方式,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。
以上是对本申请的较佳实施进行了具体说明,但本申请并不限于实施例,熟悉本领域的技术人员在不违背本申请精神的前提下可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种表格数据增强方法,其特征在于,包括:
获取表格数据;
将所述表格数据输入至数据增强模型;
根据所述数据增强模型,对所述表格数据进行掩码操作得到掩码表格数据,对所述掩码表格数据中的掩码字段进行数据预测得到多个候选预测值,根据所述候选预测值的置信度从多个所述候选预测值中确定多个目标预测值,利用多个所述目标预测值分别替换所述掩码字段得到多个增强表格数据,其中,所述目标预测值的数量小于所述候选预测值的数量。
2.根据权利要求1所述的表格数据增强方法,其特征在于,所述对所述表格数据进行掩码操作得到掩码表格数据,包括:
从所述表格数据的多个单元格数据选择多个目标单元格数据,其中,所述目标单元格数据的数量小于所述单元格数据的数量;
利用掩码字段替换所述目标单元格数据,得到所述掩码表格数据。
3.根据权利要求1所述的表格数据增强方法,其特征在于,所述对所述掩码表格数据中的掩码字段进行数据预测得到多个候选预测值,包括:
将所述掩码表格数据中与所述掩码字段处于同一列的单元格数据确定为目标列数据,将所述目标列数据中除所述掩码字段之外的其他单元格数据确定为第一单元格数据;
将所述掩码表格数据中与所述掩码字段处于同一行的单元格数据确定为目标行数据,将所述目标行数据中除所述掩码字段之外的其他单元格数据确定为第二单元格数据;
根据所述第一单元格数据和所述第二单元格数据对所述掩码字段进行数据预测,以从预设的词表匹配出对应所述掩码字段的多个候选预测值。
4.根据权利要求1所述的表格数据增强方法,其特征在于,所述根据所述候选预测值的置信度从多个所述候选预测值中确定多个目标预测值,包括:
对所述候选预测值进行置信度计算,确定所述候选预测值的置信度;
按照所述候选预测值的置信度的数值大小对所述候选预测值进行排序,将排序位于预设区间的多个所述候选预测值确定为目标预测值。
5.根据权利要求1所述的表格数据增强方法,其特征在于,所述利用多个所述目标预测值分别替换所述掩码字段得到多个增强表格数据,包括:
对多个所述目标预测值进行归一化操作,得到多个归一化值;
利用多个所述归一化值分别替换所述掩码字段得到多个增强表格数据。
6.根据权利要求1所述的表格数据增强方法,其特征在于,所述表格数据增强方法还包括:
根据被所述掩码字段替换的单元格数据和所述掩码字段的字嵌入值进行损失值计算,得到第一损失值;
根据所述第一损失值调整所述数据增强模型的参数。
7.根据权利要求6所述的表格数据增强方法,其特征在于,所述根据所述第一损失值调整所述数据增强模型的参数,包括:
根据所述表格数据的标签和所述数据增强模型对所述表格数据的第一预测值进行损失值计算,得到第二损失值;
根据所述表格数据的标签、所述掩码字段的位置和所述目标预测值进行损失值计算,得到第三损失值;
根据所述第一损失值、所述第二损失值和所述第三损失值之和得到总损失值;
根据所述总损失值调整所述数据增强模型的参数。
8.一种表格数据增强装置,其特征在于,包括:
数据获取模块,用于获取表格数据;
数据输入模块,用于将所述表格数据输入至数据增强模型;
数据增强模块,用于根据所述数据增强模型,对所述表格数据进行掩码操作得到掩码表格数据,对所述掩码表格数据中的掩码字段进行数据预测得到多个候选预测值,根据所述候选预测值的置信度从多个所述候选预测值中确定多个目标预测值,利用所述目标预测值替换所述掩码字段得到多个增强表格数据,其中,所述目标预测值的数量小于所述候选预测值的数量。
9.一种电子设备,其特征在于,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现如权利要求1至7任一项所述的表格数据增强方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的表格数据增强方法。
CN202211638471.6A 2022-12-19 2022-12-19 表格数据增强方法、装置、设备及介质 Pending CN115983210A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211638471.6A CN115983210A (zh) 2022-12-19 2022-12-19 表格数据增强方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211638471.6A CN115983210A (zh) 2022-12-19 2022-12-19 表格数据增强方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN115983210A true CN115983210A (zh) 2023-04-18

Family

ID=85965969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211638471.6A Pending CN115983210A (zh) 2022-12-19 2022-12-19 表格数据增强方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115983210A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116662579A (zh) * 2023-08-02 2023-08-29 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116662579A (zh) * 2023-08-02 2023-08-29 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机及存储介质
CN116662579B (zh) * 2023-08-02 2024-01-26 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机及存储介质

Similar Documents

Publication Publication Date Title
Pérez et al. Genome-wide regression and prediction with the BGLR statistical package
Li et al. Chaotic time series prediction based on a novel robust echo state network
Kell et al. Evaluation of the prediction skill of stock assessment using hindcasting
CN111506723B (zh) 问答响应方法、装置、设备及存储介质
CN107786943A (zh) 一种用户分群方法及计算设备
CN111666766B (zh) 数据处理方法、装置和设备
Saleh Machine Learning Fundamentals: Use Python and scikit-learn to get up and running with the hottest developments in machine learning
CN109656541A (zh) 开发资源的推荐方法、装置、存储介质和电子设备
CN115983210A (zh) 表格数据增强方法、装置、设备及介质
CN115391561A (zh) 图网络数据集的处理方法、装置、电子设备、程序及介质
CN111597321A (zh) 问题答案的预测方法、装置、存储介质及电子设备
CN112988851B (zh) 反事实预测模型数据处理方法、装置、设备及存储介质
CN108875901B (zh) 神经网络训练方法以及通用物体检测方法、装置和系统
CN117312979A (zh) 对象分类方法、分类模型训练方法及电子设备
CN112052663A (zh) 客服语句质检方法及相关设备
CN111221880B (zh) 特征组合方法、装置、介质和电子设备
CN111274377B (zh) 一种训练标记预测模型的方法及系统
Widiputra et al. Dynamic interaction networks versus local trend models for multiple time-series prediction
Sun et al. Evaluation of categorical matrix completion algorithms: toward improved active learning for drug discovery
Hodapp Unsupervised learning for computational phenotyping
CN110851600A (zh) 基于深度学习的文本数据处理方法及装置
CN110503482B (zh) 一种物品处理方法、装置、终端及存储介质
CN114492669A (zh) 关键词推荐模型训练方法、推荐方法和装置、设备、介质
Chorozoglou et al. Investigation of the correlation of successive earthquakes preceding main shocks in the Greek territory
CN116029447A (zh) 预测模型训练方法和装置、介质和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination