CN115470861A - 数据处理方法、装置和电子设备 - Google Patents
数据处理方法、装置和电子设备 Download PDFInfo
- Publication number
- CN115470861A CN115470861A CN202211190845.2A CN202211190845A CN115470861A CN 115470861 A CN115470861 A CN 115470861A CN 202211190845 A CN202211190845 A CN 202211190845A CN 115470861 A CN115470861 A CN 115470861A
- Authority
- CN
- China
- Prior art keywords
- target
- table name
- determining
- value
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 31
- 238000003058 natural language processing Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012550 audit Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 5
- 238000012552 review Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Technology Law (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了数据处理方法、装置和电子设备,该数据处理方法包括:获取待处理表单,待处理表单中具有目标空值;在数据库中,确定与待处理表单匹配的多个目标源表,待处理表单的第一表名与目标源表的第二表名具有关联性;在多个目标源表中,确定与目标空值具有相同关联信息的目标字段值;采用目标字段值填充待处理表单中的目标空值,得到目标表单。本申请通过自动化的方式对待处理表单中的空值进行准确快速的填充,得到符合监管质量要求的目标表单。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法、装置和电子设备。
背景技术
随着金融行业的发展,银保监会为提高对金融机构现场检查的力度,如银行,要求金融机构落实数据标准化推动工作,并按照规定时间和要求完成数据报送,实现对金融机构统一数据质量监控。对于金融机构,由于需要报送的数据报表的数量大、维度高和处理时间短,因此会经常发生数据报表字段缺失的情况。
目前,数据报表中缺失字段的填充主要依靠大量的人员沟通和不同部门进行人工查询缺失字段,以进行人工填充,这种方法会导致数据报表中的缺失字段存在填充效率低的问题。
发明内容
本申请实施例提供了一种数据处理方法、装置和电子设备,以解决目前数据报表中的缺失字段存在填充效率低的问题。
本申请第一方面提供一种数据处理方法,包括:获取待处理表单,待处理表单中具有目标空值;在数据库中,确定与待处理表单匹配的多个目标源表,待处理表单的第一表名与目标源表的第二表名具有关联性;在多个目标源表中,确定与目标空值具有相同关联信息的目标字段值;采用目标字段值填充待处理表单中的目标空值,得到目标表单。
在本申请的一个实施例中,确定与待处理表单匹配的多个目标源表,包括:确定与第一表名的字符串相似度大于相似度阈值的表名,为第二表名;确定具有第二表名的源表为目标源表。
在本申请的一个实施例中,在未确定到与第一表名的字符串相似度大于相似度阈值的表名的情况下,确定具有第二表名的源表为目标源表之前,还包括:获取第一表名的目标标签;在数据库中,确定表名属于目标标签的多个源表;在多个源表的表名中,确定与第一表名的汉明距离小于预设距离阈值的表名,为第二表名。
在本申请的一个实施例中,在未确定到与第一表名的汉明距离小于预设距离阈值的表名的情况下,确定具有第二表名的源表为目标源表之前,还包括:将数据库中的源表的表名和第一表名输入预先训练的自然语言处理模型进行文本处理,得到源表的表名对应的概率值,第一表名和表名的相似度与概率值呈正相关关系;确定概率值大于概率阈值的表名为第二表名。
在本申请的一个实施例中,还包括:确定目标字段值所属的目标源表的第三表名;采用第三表名和第一表名作为正例样本,优化训练自然语言处理模型。
在本申请的一个实施例中,关联信息包括:字段名称和相关信息,在多个目标源表中,确定与目标空值具有相同关联信息的目标字段值,包括:在待处理表单中,确定目标空值的字段名称和相关信息;在多个目标源表中,确定字段名称对应的字段值;在字段值为多个的情况下,在多个字段值中,确定具有相关信息的字段值为目标字段值。
在本申请的一个实施例中,采用目标字段值填充待处理表单中的目标空值,得到目标表单之后,还包括:校验目标表单的格式和目标表单中的字符串,得到校验通过的目标表单。
在本申请的一个实施例中,采用目标字段值填充待处理表单中的目标空值,得到目标表单之后还包括:将目标表单发送给监管机构进行监管。
本申请第二方面提供一种数据处理装置,包括:
获取模块,用于获取待处理表单,待处理表单中具有目标空值;
第一确定模块,用于在数据库中,确定与待处理表单匹配的多个目标源表,待处理表单的第一表名与目标源表的第二表名具有关联性;
第二确定模块,用于在多个目标源表中,确定与目标空值具有相同关联信息的目标字段值;
填充模块,用于采用目标字段值填充待处理表单中的目标空值,得到目标表单。
在本申请的一个实施例中,第一确定模块具体用于:确定与第一表名的字符串相似度大于相似度阈值的表名,为第二表名;确定具有第二表名的源表为目标源表。
在本申请的一个实施例中,在未确定到与第一表名的字符串相似度大于相似度阈值的表名的情况下,第一确定模块在确定具有第二表名的源表为目标源表之前,还具体用于:获取第一表名的目标标签;在数据库中,确定表名属于目标标签的多个源表;在多个源表的表名中,确定与第一表名的汉明距离小于预设距离阈值的表名,为第二表名。
在本申请的一个实施例中,在未确定到与第一表名的汉明距离小于预设距离阈值的表名的情况下,第一确定模块在确定具有第二表名的源表为目标源表之前,还具体用于:将数据库中的源表的表名和第一表名输入预先训练的自然语言处理模型进行文本处理,得到源表的表名对应的概率值,第一表名和表名的相似度与概率值呈正相关关系;确定概率值大于概率阈值的表名为第二表名。
在本申请的一个实施例中,还包括,优化训练模块,用于确定目标字段值所属的目标源表的第三表名;采用第三表名和第一表名作为正例样本,优化训练自然语言处理模型。
在本申请的一个实施例中,关联信息包括:字段名称和相关信息,第二确定模块具体用于:在待处理表单中,确定目标空值的字段名称和相关信息;在多个目标源表中,确定字段名称对应的字段值;在字段值为多个的情况下,在多个字段值中,确定具有相关信息的字段值为目标字段值。
在本申请的一个实施例中,还包括:校验模块,用于在采用目标字段值填充待处理表单中的目标空值,得到目标表单之后,校验目标表单的格式和目标表单中的字符串,得到校验通过的目标表单。
在本申请的一个实施例中,还包括:发送模块,用于将目标表单发送给监管机构进行监管。
本申请第三方面提供一种电子设备,包括存储器与处理器;其中,
存储器用于存储程序代码;
处理器用于调用程序代码实现上述任一项的数据处理方法。
本申请第四方面提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,使得电子设备执行上述任一项的数据处理方法。
本申请第五方面提供一种计算机程序产品,一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行第一方面任一项的数据处理方法。
由上述技术方案可以看出,本申请实施例通过获取待处理表单,待处理表单中具有目标空值;在数据库中,确定与待处理表单匹配的多个目标源表,待处理表单的第一表名与目标源表的第二表名具有关联性;在多个目标源表中,确定与目标空值具有相同关联信息的目标字段值;采用目标字段值填充待处理表单中的目标空值,得到目标表单。本申请通过自动化的方式对待处理表单中的空值进行准确快速的填充,得到符合监管质量要求的目标表单。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的数据处理方法的应用场景示意图;
图2是本申请一实施例提供的数据处理方法的步骤流程图;
图3是本申请另一实施例提供的数据处理方法的步骤流程图;
图4是本申请一实施例提供的目标表单的示意图;
图5是本申请一实施例提供的数据处理装置的结构框图;
图6是本申请实施例提供的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请的方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
相关技术对于数据报表中字段缺失的情况情况,在发现缺失字段后,通过数据库表关联语句进行源表的查询,但对于银行的数据报表来说,尤其是涉及到具体业务需求的数据报表,表关联复杂,使用表关联语句进行表关系之间的查询效率低下,由于大数据平台或数据中台中存在不同的数据来源系统,因此表关联之间的查询字段存在命名不一致、命名规则不同,以及部分重要信息不存在关联等情况,因此单纯使用简单的表关联查询是低效,不成熟的,并且存在缺失字段查询不到的情况,需要询问相关业务部门的人员才能获取,并且对于查询到的源表和字段,需要人工进行格式审核和填充,不能自动化实现审核报送一体化,浪费人力物力且效率低下。
针对上述问题,本申请实施例提供一种数据处理方法,通过获取待处理表单,待处理表单中具有目标空值;在数据库中,确定与待处理表单匹配的多个目标源表,待处理表单的第一表名与目标源表的第二表名具有关联性;在多个目标源表中,确定与目标空值具有相同关联信息的目标字段值;采用目标字段值填充待处理表单中的目标空值,得到目标表单,能够将针对待处理表单,实现检索、查询、整理、填充步骤自动化一体化处理,便于用户对银行的数据报表的认识与处理,快速识别与自动化处理数据报表中的数据质量问题,提高数据报表的数据质量和效率。
示例性的,图1是本申请提供的数据处理方法的一应用场景示意图。如图1所示,金融机构需向监管机构提交数据报送表,金融机构在获取到待处理表单11后,需要对待处理表单11进行审核,确定待处理表单11中存在目标空值,则根据数据库中的数据填充这些目标空值,得到目标表单12,将目标表单作为数据报送表发送给监管机构进行监管。
下面,通过具体实施例对本申请的技术方案进行详细说明。需要说明的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
参照图2,为本申请实施例提供的数据处理方法的步骤流程图,具体包括如下步骤:
S201,获取待处理表单。
其中,待处理表单中具有目标空值。在本申请实施例中,待处理表单具有第一表名,如图1中待处理表单11的第一表名为“客户存款信息表”,此外,待处理表单中的内容采用键值对的格式存储。其中,“键”对应字段名称,“值”对应字段值。
进一步地,对于待处理表单,首先使用python或者shell脚本进行字段值的缺失检索,如果没有字段值的缺失,则进行格式审查,格式审查报告:字符类型、字符大小等。将通过格式审查的待处理表单作为数据报送表发送给监管机构。若有字段值的缺失,进行后续步骤。其中,待处理表单中缺失的字段值的位置为目标空值。
例如,参照图1,待处理表单11中:目标空值为第一行信息中的“姓名”对应的缺失字段值;第二行中“身份证号”对应的缺失字段值;第四行中“电话”对应的缺失字段值;此外,“姓名”、“身份证号”、“电话”和“存款”为字段名称,这些字段名称对应有字段值。
在本申请实施例中,可以使用python(一种计算机编程语言)脚本,例如numpy库中isnan()方法或者将待处理表单看作字典数据结构,进行键值对检查,对于目标空值进行记录。此外,还可以使用Shell(一种计算机程序)脚本确定待处理表单中的目标空值,本申请实施例对目标空值的确定方法不加以限定。
S202,在数据库中,确定与待处理表单匹配的多个目标源表。
其中,待处理表单的第一表名与目标源表的第二表名具有关联性。在本申请实施例中,关联性可以包括:第一表名和第二表名相同、或者第一表名和第二表名表示相同的含义、或者第一表名和第二表名具有一定的相似性、或者第一表名和第二表名具有相同的标签。
此外,根据待处理表单的第一表名和数据库中的源表的表名的是否具有关联性,在多个源表中确定目标源表。
进一步地,数据库中的源表数量巨大,如果针对每个源表均进行数据内容的比对,确定是否具有目标空值对应的填充的目标字段值,则工作量巨大且效率低下。而本申请实施例是采用第一表名和数据库中的源表的表名比对,确定和第一表名有关联性的第二表名的源表为目标源表,后续在目标源表中查找目标空值对应的填充字段值,可以很大程度的提高填充目标字段值的效率。
S203,在多个目标源表中,确定与目标空值具有相同关联信息的目标字段值。
其中,关联关系包括对应的字段名称和其他相关信息。如图1中,目标空值为“姓名”对应的字段值,则该目标空值对应的字段名称为“姓名”,其他相关信息包括“身份证号:0000 0000 0000 00”、“电话:1340000000”中的至少一个。该相关信息可以是具有唯一性的信息。
在本申请实施例中,可以在目标源表中,查找和目标空值的关联信息相同的,且字段名称对应的字段值为目标字段值。
S204,采用目标字段值填充待处理表单中的目标空值,得到目标表单。
参照图1,将目标字段值“赵六”、目标字段值“1111 1111 1111 1111 11”和目标字段值“15800000000”填充在对应的目标空值中,得到目标表单12。
在本申请实施例中,还包括对目标表单的格式的审核,在审核通过后即可发送给监管机构进行报送。如果审核不通过,可以将审核不通过的字段值作为目标空值,执行S203至204的步骤。
在本申请实施例中,通过获取待处理表单,待处理表单中具有目标空值;在数据库中,确定与待处理表单匹配的多个目标源表,待处理表单的第一表名与目标源表的第二表名具有关联性;在多个目标源表中,确定与目标空值具有相同关联信息的目标字段值;采用目标字段值填充待处理表单中的目标空值,得到目标表单,实现自动化的方式在多个源表中,通过表名关联性,筛选出目标源表,然后在目标源表中确定目标字段值,自动化的方式对待处理表单中的,目标空值进行准确快速的填充,进而得到符合监管质量要求的目标表单。
在上述实施例的基础上,本申请实施例提供另一种数据处理方法,具体参照图3,具体包括如下步骤:
S301,获取待处理表单。
此步骤的具体实现过程参照S201,在此不再赘述。
S302,确定与第一表名的字符串相似度大于相似度阈值的表名,为第二表名。
其中,对于目标字段值的查询,需要寻找到该目标字段值所在的目标源表。因此,确定目标源表是查询目标字段值的重点。本申请实施例采用由易到难的顺序依次查找目标源表,能够提高查找目标源表的效率。
进一步地,由于金融机构业务之间的关联性,在数据库中,源表的创建是基于业务命令得到的。其中,属于不同数据库的源表的命名规则可能不同,但是数据存储的格式是相同的,均为键值格式,并且存储的数据内容没有任何变化。例如,对于赵六的身份证号和电话在不同的源表中,应该是存储相同的信息。因此,对于相同的数据内容,对应的源表的表名具有一定的相似度,例如,客户存款信息表和客户贷款信息表,具有一定的相似度。
在本申请实施例中,可以使用KMP(一种字符串匹配算法)算法,利用字符串相似度计算第一表名和各个源表的表名之间的相似度,将相似度大于相似度阈值的表名作为第二表名。其中,相似度阈值可以预先设定。
S303,在未确定到与第一表名的字符串相似度大于相似度阈值的表名的情况下,获取第一表名的目标标签。
进一步地,采用上述方式无法确定第二表名时,则考虑源表之间更多角度的逻辑关系。例如,获取第一表名的目标标签。其中,目标标签例如:贷款类、客户信息类、理财产品类、对公客户类、面向机构类。在本申请实施例中,可以预先针对每个源表的表名进行分类。
S304,在数据库中,确定表名属于目标标签的多个源表。
其中,每个标签下具有多个源表,确定与第一表名属于同一目标标签的表名对应的多个源表。本申请是在这多个源表中确定目标源表。
S305,在多个源表的表名中,确定与第一表名的汉明距离小于预设距离阈值的表名,为第二表名。
其中,汉明距离是指将一个字符串(第一表名)变换成另一个字符串(另一个表名)所需要替换的字符个数。汉明距离是使用在数据传输差错控制编码里面的,汉明距离是一个概念,它表示两个(相同长度)字对应位不同的数量,我们以d(x,y)表示两个字x,y之间的汉明距离。对两个字符串进行异或运算,并统计结果为1的个数,那么这个数就是汉明距离。
在本申请实施例中,预设距离阈值为预先设定的。
S306,在未确定到与第一表名的汉明距离小于预设距离阈值的表名的情况下,将数据库中的源表的表名和第一表名输入预先训练的自然语言处理模型进行文本处理,得到源表的表名对应的概率值。
其中,对于以上两种查询第二表名的方法,在查询均失败的情况下,确定待处理表和源表之间具有较大的差异性,难以溯源。因此,在该步骤,将第一表名和数据库中各个源表的表名输入自然语言处理模型(NLP)进行文本处理,输出每个源表的表名的概率值,概率值越高的表名与第一表名的相似度越高。即第一表名和源表的表名的相似度与概率值呈正相关关系。
此外,自然语言处理模型可以按照概率值从高到低的顺序输出各个源表的表名。
在本申请实施例中,自然语言处理模型是预先训练的,其中,自然语言处理(Natural Language Processing,NLP):是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。
具体地,自然语言处理模型包括:嵌入层、交互层和表现层。其中,嵌入层用于词向量按位累加的方式,计算第一表名和源表的表名的向量表示。交互层利用余弦相似度计算两个向量之间的相似度,表现层将相似度归一化处理为概率值输出。
S307,确定概率值大于概率阈值的表名为第二表名。
S308,确定具有第二表名的源表为目标源表。
S309,在待处理表单中,确定目标空值的字段名称和相关信息。
其中,关联信息包括:字段名称和相关信息。
参照图1,对于待处理表单11第一行的信息,目标空值的字段名称为“姓名”,相关信息为“身份证号:0000 0000 0000 00”和/或“电话:13400000000”。对于第二行的信息,目标空值的字段名称为“身份证号”,相关信息为“姓名:张三”和/或电话“15500000000”。
S310,在多个目标源表中,确定字段名称对应的字段值。
在本申请实施例中,首先确定字段名称对应的字段值,如“姓名”对应的字段值,“身份证号”对应的字段值。
S311,在字段值为多个的情况下,在多个字段值中,确定具有相关信息的字段值为目标字段值。
其中,若确定字段值为一个,则将该字段值作为目标字段值,若字段值为多个,在将与目标空值具有相同相关信息的字段值为目标字段值。例如,目标字段值也具有相同的身份证号和电话号码。
S312,确定目标字段值所属的目标源表的第三表名。
在本申请实施例中,是在多个目标源表中查找目标字段值。如目标源表A、目标源表B和目标源表C。最终在目标源表C中确定了目标字段值,则将目标源表C的表名确定为第三表名。
S313,采用第三表名和第一表名作为正例样本,优化训练自然语言处理模型。
本申请实施例通过第三表名和第一表名作为正例样本,优化训练自然语言处理模型,能够提高自然语言处理模型的精度,实现自然语言处理模型的迭代优化,便于后续自然语言处理模型的使用。
S314,采用目标字段值填充待处理表单中的目标空值,得到目标表单。
S315,校验目标表单的格式和目标表单中的字符串,得到校验通过的目标表单。
参照图4,待处理表单在经过上述步骤处理后,可以得到目标表单41,该目标表单41是一个中间表单。对该中间表单进行校验,其中,校验格式包括校验字符串的类型,如第三行信息中的身份证号出现字母“XXXX”,其中,身份证号应该是数字型,因此格式校验不通过。校验字符串包括校验字符串的长度,如目标表单41中第四行信息中的身份证号为12位,不符合身份证号为18位的要求,因此也不合格。
在本申请实施例中,对于不合格的目标表单,提取不合格的字段值作为目标空值,继续执行上述步骤,直到得到的目标表单中没有空值且校验通过。
S316,将目标表单发送给监管机构进行监管。
本申请实施例可以实现自动化的检索待处理表单中的目标空值,进而自动化的查询目标源表,以及目标空值对应的目标字段值,进行自动化的填充,并且可以自动化的校验,以提高了报送给监管机构的质量,并且对待处理表单的处理效率高。
首先,本申请易于实现,使用的算法兼容性高、智能化程度高以及工程实用性强,自动化完成数据报表的数据检索、格式审查和填充,大大降低用户的操作复杂度,降低时间成本,极大降低了人力物力,更容易进行报送投产等应用。此外本发明是基于python编写的一个轻量级的算法程序框架,简单易用,第三方的开源组件非常丰富,但对于算法的语言选择也可采用其他编程语言,例如java,C语言或者R语言等,对于操作系统和平台环境选择也具有可移植性,最后,本发明自动化程度高以及工程实用性强,对于监管报送领域提高数据质量具有很好的应用前景。
综上,本申请构建了面向报送数据报表审查和填写的自动化模型,设计并实现了一个字段检索、字段补充、字段搜索、格式审查和字段填入的整体框架,该框架从数据检索到最终报表呈现的搜索算法、报表检索算法,帮助报送人员可以更方便、直观地了解排查数据质量问题,并自动化完成源表字段搜索和填入,帮助报送人员审核数据并处理信息。
参照图5,为本申请实施例提供的一种数据处理装置的示意图,数据处理装置50包括:
获取模块501,用于获取待处理表单,待处理表单中具有目标空值;
第一确定模块502,用于在数据库中,确定与待处理表单匹配的多个目标源表,待处理表单的第一表名与目标源表的第二表名具有关联性;
第二确定模块503,用于在多个目标源表中,确定与目标空值具有相同关联信息的目标字段值;
填充模块504,用于采用目标字段值填充待处理表单中的目标空值,得到目标表单。
在本申请的一个实施例中,第一确定模块502具体用于:确定与第一表名的字符串相似度大于相似度阈值的表名,为第二表名;确定具有第二表名的源表为目标源表。
在本申请的一个实施例中,在未确定到与第一表名的字符串相似度大于相似度阈值的表名的情况下,第一确定模块502在确定具有第二表名的源表为目标源表之前,还具体用于:获取第一表名的目标标签;在数据库中,确定表名属于目标标签的多个源表;在多个源表的表名中,确定与第一表名的汉明距离小于预设距离阈值的表名,为第二表名。
在本申请的一个实施例中,在未确定到与第一表名的汉明距离小于预设距离阈值的表名的情况下,第一确定模块502在确定具有第二表名的源表为目标源表之前,还具体用于:将数据库中的源表的表名和第一表名输入预先训练的自然语言处理模型进行文本处理,得到源表的表名对应的概率值,第一表名和表名的相似度与概率值呈正相关关系;确定概率值大于概率阈值的表名为第二表名。
在本申请的一个实施例中,还包括,优化训练模块(未示出),用于确定目标字段值所属的目标源表的第三表名;采用第三表名和第一表名作为正例样本,优化训练自然语言处理模型。
在本申请的一个实施例中,关联信息包括:字段名称和相关信息,第二确定模块503具体用于:在待处理表单中,确定目标空值的字段名称和相关信息;在多个目标源表中,确定字段名称对应的字段值;在字段值为多个的情况下,在多个字段值中,确定具有相关信息的字段值为目标字段值。
在本申请的一个实施例中,还包括:校验模块(未示出),用于在采用目标字段值填充待处理表单中的目标空值,得到目标表单之后,校验目标表单的格式和目标表单中的字符串,得到校验通过的目标表单。
在本申请的一个实施例中,还包括:发送模块(未示出),用于将目标表单发送给监管机构进行监管。
具体的,该数据处理装置的各个模块的具体工作内容,请参照上述数据处理方法的实施例内容,此处不再赘述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,处理模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上处理模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(application specific integrated circuit,ASIC),或,一个或多个微处理器(digital signal processor,DSP),或,一个或者多个现场可编程门阵列(field programmable gate array,FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(centralprocessing unit,CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,SOC)的形式实现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘solid state disk(SSD))等。
图6为本申请实施例提供的电子设备的结构示意图。其中,该电子设备可以具体为银行服务器或者区块链平台。如图6所示,该电子设备可以包括:处理器61、存储器62、通信接口63和系统总线64。其中,存储器62和通信接口63通过系统总线64与处理器61连接并完成相互间的通信,存储器62用于存储计算机执行指令,通信接口63用于和其他设备进行通信,处理器61执行上述计算机执行指令时实现如上述实施例的方案。
该图6中提到的系统总线可以是外设部件互连标准(peripheral componentinterconnect,PCI)总线或扩展工业标准结构(extended industry standardarchitecture,EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(random access memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器CPU、网络处理器(networkprocessor,NP)等;还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可选的,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时,使得电子设备执行如上述图2至图3所示实施例的方法。
可选的,本申请实施例还提供一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得使得电子设备执行上述图2至图3所示实施例的方法。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系;在公式中,字符“/”,表示前后关联对象是一种“相除”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中,a,b,c可以是单个,也可以是多个。
可以理解的是,在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本申请的实施例的范围。在本申请的实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请的实施例的实施过程构成任何限定。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
获取待处理表单,所述待处理表单中具有目标空值;
在数据库中,确定与所述待处理表单匹配的多个目标源表,所述待处理表单的第一表名与所述目标源表的第二表名具有关联性;
在所述多个目标源表中,确定与所述目标空值具有相同关联信息的目标字段值;
采用所述目标字段值填充所述待处理表单中的所述目标空值,得到目标表单。
2.根据权利要求1所述的数据处理方法,其特征在于,所述确定与所述待处理表单匹配的多个目标源表,包括:
确定与所述第一表名的字符串相似度大于相似度阈值的表名,为所述第二表名;
确定具有所述第二表名的源表为所述目标源表。
3.根据权利要求2所述的数据处理方法,其特征在于,在未确定到与所述第一表名的字符串相似度大于相似度阈值的表名的情况下,所述确定具有所述第二表名的源表为所述目标源表之前,还包括:
获取所述第一表名的目标标签;
在所述数据库中,确定表名属于所述目标标签的多个源表;
在所述多个源表的表名中,确定与所述第一表名的汉明距离小于预设距离阈值的表名,为所述第二表名。
4.根据权利要求3所述的数据处理方法,其特征在于,在未确定到与所述第一表名的汉明距离小于预设距离阈值的表名的情况下,所述确定具有所述第二表名的源表为所述目标源表之前,还包括:
将所述数据库中的源表的表名和所述第一表名输入预先训练的自然语言处理模型进行文本处理,得到所述源表的表名对应的概率值,所述第一表名和所述表名的相似度与所述概率值呈正相关关系;
确定所述概率值大于概率阈值的表名为所述第二表名。
5.根据权利要求4所述的数据处理方法,其特征在于,还包括:
确定所述目标字段值所属的目标源表的第三表名;
采用所述第三表名和所述第一表名作为正例样本,优化训练所述自然语言处理模型。
6.根据权利要求1至5中任一项所述的数据处理方法,其特征在于,所述关联信息包括:字段名称和相关信息,所述在所述多个目标源表中,确定与所述目标空值具有相同关联信息的目标字段值,包括:
在所述待处理表单中,确定所述目标空值的字段名称和相关信息;
在所述多个目标源表中,确定所述字段名称对应的字段值;
在所述字段值为多个的情况下,在所述多个字段值中,确定具有所述相关信息的字段值为所述目标字段值。
7.根据权利要求1至5中任一项所述的数据处理方法,其特征在于,所述采用所述目标字段值填充所述待处理表单中的所述目标空值,得到目标表单之后,还包括:
校验所述目标表单的格式和所述目标表单中的字符串,得到校验通过的目标表单。
8.根据权利要求1至5中任一项所述的数据处理方法,其特征在于,所述采用所述目标字段值填充所述待处理表单中的所述目标空值,得到目标表单之后还包括:
将所述目标表单发送给监管机构进行监管。
9.一种数据处理装置,其特征在于,包括:
获取模块,用于获取待处理表单,所述待处理表单中具有目标空值;
第一确定模块,用于在数据库中,确定与所述待处理表单匹配的多个目标源表,所述待处理表单的第一表名与所述目标源表的第二表名具有关联性;
第二确定模块,用于在所述多个目标源表中,确定与所述目标空值具有相同关联信息的目标字段值;
填充模块,用于采用所述目标字段值填充所述待处理表单中的所述目标空值,得到目标表单。
10.一种电子设备,其特征在于,包括存储器与处理器;其中,
所述存储器用于存储程序代码;
所述处理器用于调用所述程序代码实现如权利要求1至8中任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211190845.2A CN115470861A (zh) | 2022-09-28 | 2022-09-28 | 数据处理方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211190845.2A CN115470861A (zh) | 2022-09-28 | 2022-09-28 | 数据处理方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115470861A true CN115470861A (zh) | 2022-12-13 |
Family
ID=84334846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211190845.2A Pending CN115470861A (zh) | 2022-09-28 | 2022-09-28 | 数据处理方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115470861A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117113947A (zh) * | 2023-10-25 | 2023-11-24 | 天衣(北京)科技有限公司 | 一种表单填充系统、方法、电子设备及存储介质 |
-
2022
- 2022-09-28 CN CN202211190845.2A patent/CN115470861A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117113947A (zh) * | 2023-10-25 | 2023-11-24 | 天衣(北京)科技有限公司 | 一种表单填充系统、方法、电子设备及存储介质 |
CN117113947B (zh) * | 2023-10-25 | 2024-01-23 | 天衣(北京)科技有限公司 | 一种表单填充系统、方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109670163B (zh) | 信息识别方法、信息推荐方法、模板构建方法及计算设备 | |
CN110580308B (zh) | 信息审核方法及装置、电子设备、存储介质 | |
CN112035599B (zh) | 基于垂直搜索的查询方法、装置、计算机设备及存储介质 | |
US20180181646A1 (en) | System and method for determining identity relationships among enterprise data entities | |
CN104834651B (zh) | 一种提供高频问题回答的方法和装置 | |
CN110929125A (zh) | 搜索召回方法、装置、设备及其存储介质 | |
US10467276B2 (en) | Systems and methods for merging electronic data collections | |
CN110941951A (zh) | 文本相似度计算方法、装置、介质及电子设备 | |
TW202422362A (zh) | 敏感性資料識別方法、裝置、設備及電腦存儲介質 | |
CN117390170B (zh) | 数据标准的对标方法、装置、电子设备和可读存储介质 | |
CN111325033B (zh) | 实体识别方法、装置、电子设备及计算机可读存储介质 | |
US11409732B2 (en) | Computer estimations based on statistical tree structures | |
EP4430518A1 (en) | Machine learning based models for labelling text data | |
CN111126056B (zh) | 一种识别触发词的方法及装置 | |
CN115392235A (zh) | 字符匹配方法、装置、电子设备及可读存储介质 | |
US11604923B2 (en) | High volume message classification and distribution | |
CN111783424A (zh) | 一种文本分句方法和装置 | |
CN115470861A (zh) | 数据处理方法、装置和电子设备 | |
CN117435189A (zh) | 金融系统接口的测试用例分析方法、装置、设备及介质 | |
CN117251777A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN114706927B (zh) | 基于人工智能的数据批量标注方法及相关设备 | |
CN111126073A (zh) | 语义检索方法和装置 | |
CN115952770A (zh) | 一种数据标准化的处理方法、装置、电子设备及存储介质 | |
CN115481031A (zh) | 南向网关检测方法、装置、设备及介质 | |
CN115017256A (zh) | 电力数据处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |