CN117272147A - 数据分类模型的训练方法、数据分类方法、装置及设备 - Google Patents
数据分类模型的训练方法、数据分类方法、装置及设备 Download PDFInfo
- Publication number
- CN117272147A CN117272147A CN202311295125.7A CN202311295125A CN117272147A CN 117272147 A CN117272147 A CN 117272147A CN 202311295125 A CN202311295125 A CN 202311295125A CN 117272147 A CN117272147 A CN 117272147A
- Authority
- CN
- China
- Prior art keywords
- data
- category
- model
- training
- fields
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000013145 classification model Methods 0.000 title claims abstract description 53
- 230000006870 function Effects 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Biology (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种数据分类模型的训练方法、数据分类方法、装置及设备,筛选用于训练的样本数据,通过查询类别与关键字的对应关系,获取样本数据中的目标字段的字段值所属的类别,将表示目标字段的字段值所属的类别的标识,作为前缀增加至样本数据中,为增加前缀的样本数据配置提示数据,使用提示数据训练待训练的模型,得到数据分类模型。前缀作为先验信息,有利于为模型学习样本数据的特征提供参考,并且,提示数据提供了输入模型的数据的详细上下文,同时明确指示模型完成分类任务,有利于提高模型的输出结果的准确性。基于以上训练方法获得的数据分类模型实现的数据分类方法及装置,能够获得准确性较高的数据分类结果。
Description
技术领域
本申请涉及数据处理领域,尤其涉及一种数据分类模型的训练方法、数据分类方法、装置及设备。
背景技术
数据分类是数据资产盘点过程中的关键环节,是有助于理解数据价值的重要步骤。对数据的分类可以帮助企业分辨重要数据、重点保护的数据以及冗余过时的数据等。
使用传统的机器学习与深度学习方式得到的模型,针对某些场景的数据如银行业务数据进行分类的准确性较低。
发明内容
本申请提供了一种数据分类模型的训练方法、数据分类方法、装置及设备,目的在于解决如何提高数据分类的准确性的问题。
为了实现上述目的,本申请提供了以下技术方案:
本申请的第一方面提供一种数据分类模型的训练方法,包括:
筛选用于训练的样本数据,所述样本数据包括多个字段和所述字段的字段值;
通过查询类别与关键字的对应关系,获取所述样本数据中的目标字段的字段值所属的类别,所述目标字段为所述多个字段中的字段;
将表示所述目标字段的字段值所属的类别的标识,作为前缀增加至所述样本数据中;
为增加前缀的样本数据配置提示数据;
使用所述提示数据训练待训练的模型,得到数据分类模型。
可选的,所述样本数据包括:
银行业务的元数据;
所述目标字段包括:
元数据中的部分字段。
可选的,所述元数据中的部分字段包括:
表中文名和字段中文名。
可选的,所述使用所述提示数据训练待训练的模型,得到数据分类模型,包括:
使用所述提示数据,基于损失函数,训练所述待训练的模型,得到数据分类模型;
所述损失函数包括:所述对应关系中的各个类别的计算误差与对应的权重的加权和,第一类别对应的权重基于所述第一类别的基础权重以及额外权重获取,所述基础权重基于所述第一类别的重要程度配置,所述第一类别的额外权重基于第二类别被分类为所述第一类别导致的影响程度配置,所述第一类别为任意一种类别。
可选的,所述待训练的模型包括:
预训练后的T5模型。
本申请的第二方面提供一种数据分类方法,包括:
获取数据,所述数据包括多个字段和所述字段的字段值;
基于所述数据以及数据分类模型,得到所述数据的分类结果,所述数据分类模型基于本申请的第一方面提供的数据分类模型的训练方法获得。
可选的,所述基于所述数据以及数据分类模型,得到所述数据的分类结果,包括:
将所述数据输入所述数据分类模型,得到所述数据分类模型对所述多个字段中的每个字段的分类结果;
通过对每个字段的分类结果进行投票,得到所述数据的类别结果。
本申请的第三方面提供一种数据分类模型的训练装置,包括:
样本筛选模块,用于筛选用于训练的样本数据,所述样本数据包括多个字段和所述字段的字段值;
字段分类模块,用于通过查询类别与关键字的对应关系,获取所述样本数据中的目标字段的字段值所属的类别,所述目标字段为所述多个字段中的字段;
前缀添加模块,用于将表示所述目标字段的字段值所属的类别的标识,作为前缀增加至所述样本数据中;
提示数据生成模块,用于为增加前缀的样本数据配置提示数据;
训练模块,用于使用所述提示数据训练待训练的模型,得到数据分类模型。
本申请的第四方面提供一种数据分类装置,包括:
数据获取模块,用于获取数据,所述数据包括多个字段和所述字段的字段值;
分类模块,用于基于所述数据以及数据分类模型,得到所述数据的分类结果,所述数据分类模型基于本申请的第一方面提供的数据分类模型的训练方法获得。
本申请的第五方面提供一种电子设备,包括:
存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器用于通过运行所述计算机程序,实现本申请的第一方面或第二方面提供的方法。
本申请的第六方面提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行本申请的第一方面或第二方面提供的方法。
本申请的第七方面提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现本申请的第一方面或第二方面提供的方法。
本申请提供的数据分类模型的训练方法、装置及设备,筛选用于训练的样本数据,通过查询类别与关键字的对应关系,获取所述样本数据中的目标字段的字段值所属的类别,将表示所述目标字段的字段值所属的类别的标识,作为前缀增加至所述样本数据中,为增加前缀的样本数据配置提示数据,使用所述提示数据训练待训练的模型,得到数据分类模型。因为前缀作为先验信息,有利于为模型学习样本数据的特征提供参考,所以有利于获得输出结果更为准确的模型,并且,提示数据提供了输入模型的数据的详细上下文,同时明确指示模型完成分类任务,有利于进一步提高模型的输出结果的准确性。
基于以上训练方法获得的数据分类模型实现的数据分类方法、装置及设备,能够获得准确性较高的数据分类结果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请的实施例公开的数据分类模型的训练方法的流程图;
图2为本申请的实施例公开的数据分类方法的流程图;
图3为本申请的实施例公开的一种数据分类模型的训练装置的结构示例图;
图4为本申请的实施例公开的一种数据分类装置的结构示例图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式,除非其上下文中明确地有相反指示。还应当理解,在本申请实施例中,“一个或多个”是指一个、两个或两个以上;“和/或”,描述关联对象的关联关系,表示可以存在三种关系;例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。
在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请实施例涉及的多个,是指大于或等于两个。需要说明的是,在本申请实施例的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
本申请的实施例提供的数据的分类方法以及模型的训练方法,适用的场景之一为银行业务场景,用于对银行业务场景下的数据(简称为银行业务数据)进行分类。
发明人在研究的过程中发现,银行业务数据具有以下特点:
1、通常以数据库形式进行存储。
2、数据的专业性较强且类别繁多。
3、对于分类结果的准确性要求较高。
基于上述特点,传统的数据分类方法使用机器学习与深度学习方式进行分类训练,再使用softmax对最终结果进行分类输出,具有训练难度大,并且模型分类的准确性较低,而不能满足银行业务数据的需求的问题。
为了解决上述问题,本申请的实施例提供一种对银行业务数据进行分类的模型的训练方法,并在训练得到的模型的基础上,还提出一种数据分的类方法。可以理解的是,本申请的实施例提供的方法,不限定于应用在银行业务数据,而适用于具有以上数据特点(1、2以及3中的至少一项)的所有数据。
图1为本申请的实施例公开的数据分类模型的训练方法,包括以下步骤:
S101、筛选用于训练的样本数据。
本步骤中,基于银行业务数据通常以数据库形式进行存储的特点,选择银行业务的元数据作为样本数据。元数据(MetaData)是指定义数据结构的数据。数据库元数据就是指定义数据库各类对象结构的数据。数据库元数据中包括的一些字段的示例为:数据库名、表名、列名、用户名、以及版本名。
为了提高训练得到的模型的预测结果的准确性,用于训练的样本数据需要具有以下特点:数据中携带的特征与分类结果的关联性较高,并且,数据携带的特征具有较大的信息量。
为了选择满足以上特点的样本数据,在一些实现方式中,使用卡方检测技术和/或信息熵技术,选择样本数据。这里不再赘述卡方检测技术和信息熵技术的具体实现方式。
筛选出的任意一条样本数据结构包括以下字段:{系统中文名,模式(schema)名,表中文名,表英文名,字段中文名,字段英文名,是否主键,是否外键}。每条样本数据中的每个字段都具有字段值。其中,系统是指一套由硬件和软件组成的集成环境,用于存储、处理、检索和管理数据,这里特征用于实现与银行的业务的集成环境。,模式(schema)是指数据库中用于组织数据的结构,一个模式定义了一组表、每个表的字段以及这些表之间关系的元数据。表是指数据库中存储特定类型数据的结构,由行和列组成,每个表都有一个唯一的名字,并包含一个或多个字段。字段是指表中的一个单独数据项的位置,字段有其自身的数据类型和约束。
主键是一个字段或字段的集合,其值在整个表中都是唯一的,并且每个记录都必须有一个主键值,主键用于唯一标识表中的每一行。外键是指外键是一个或多个字段,其值必须是另一个表的主键,外键用于建立两个表之间的关联。
一条样本数据的示例为:系统中文名:{核心系统},schema名:{cloange},表中文名:{基础产品表},表英文名:{product},字段中文名:{产品类型代码},字段英文名:{pjtype},是否主键:{否},是否外键:{否}。其中,每个字段之后{}中的内容为字段值。
S102、对样本数据进行预处理。
预处理的目的在于,提高数据的质量并且统一数据的格式。
在一些实现方式中,预处理包括但不限于:数据清洗、去噪声、数据标准化。
数据清洗可以消除错误和冗余的数据,提高数据的质量。去噪声可以消除数据中的随机误差,提高训练得到的模型的稳定性。数据标准化可以消除数据特征之间的量纲影响,使模型更关注数据的结构特性。
S103、通过查询类别与关键字的对应关系,获取样本数据中的目标字段值所属的类别。
发明人在深入研究和全面理解银行业务流程以及服务模式之后,还进一步探索了数据库命名规范和数据结构设计的行业习惯,基于对业务和元数据命名的理解,基于银行的业务类型以及银行业务元数据的信息,配置类别与关键字的对应关系。在一些实现方式中,对应关系包括以下内容:
类型“参与人”对应的关键字包括:"客户"、"用户"、"会员"、"参与者"、"持卡人"、"投资者"、"贷款人"、"申请人"、"受益人"、以及"股东"。类型“参与人”使用标识"PERS_"表示。
类型“产品”对应的关键字包括:"产品"、"服务"、"项目"、"套餐"、"账户类型"、"卡种"、"理财产品"、"贷款产品"、"保险产品"、以及"信用卡"。类型“产品”使用标识"PROD_"表示。
类型“公共”对应的关键字包括:"公共"、"共享"、"公开"、"通用"、"标准"、"全行"、"系统"、"统一"、"公用"、以及"基础"。类型“公共”使用标识"PUB_"表示。
类型“合约”对应的关键字包括:"合约"、"协议"、"交易"、"合同"、"贷款协议"、"担保协议"、"借款合同"、"储蓄协议"、"信用合同"、以及"转账合同"。类型“合约”使用标识"CONT_"表示。
类型“渠道”对应的关键字包括:"渠道"、"平台"、"网点"、"媒介"、"ATM"、"在线"、"移动"、"电话"、"自助"、以及"柜台"。类型“渠道”使用标识"CHAN_"表示。
类型“事件”对应的关键字包括:"事件"、"事故"、"交易"、"操作"、"违规"、"欺诈"、"异常"、"举报"、"投诉"、以及"事务"。类型“事件”使用标识"EVEN_"表示。
类型“账户”对应的关键字包括:"账户"、"账本"、"账簿"、"钱包"、"存款"、"储蓄"、"支票"、"信用卡账户"、"借记卡账户"、以及"理财账户"。类型“账户”使用标识"ACCT_"表示。
类型“财务”对应的关键字包括:"财务"、"经济"、"财政"、"金融"、"利息"、"费用"、"负债"、"资产"、"收益"、以及"投资"。类型“财务”使用标识"FIN_"表示。
类型“资产”对应的关键字包括:"资产"、"财产"、"投资"、"房产"、"车辆"、"保险"、"证券"、"股票"、"债券"、以及"基金"。类型“资产”使用标识"ASST_"表示。
类型“机构”对应的关键字:包括"机构"、"组织"、"公司"、"企业"、"分行"、"部门"、"团队"、"管理"、"总行"、以及"支行"。类型“机构”使用标识"INST_"表示。
样本数据中的目标字段为预先指定的字段。在一些实现方式中,一条样本数据中的目标字段为该条样本数据中包括的部分字段,以在为训练提供先验信息的情况下,不增加过多的先验信息,从而将模型训练的计算量控制在合理范围。例如,目标字段包括表中文名和字段中文名。这两个中文名中包含了一条元数据中最大的语义信息,会在注意力机制中拥有较大的权重,因此将表中文名和字段中文名作为目标字段,既能够为模型的训练提供较大信息量的先验信息,又能够不过多占用资源,从而起到事半功倍的效果。
还以样本数据:系统中文名:{核心系统},schema名:{cloange},表中文名:{基础产品表},表英文名:{product},字段中文名:{产品类型代码},字段英文名:{pjtype},是否主键:{否},是否外键:{否}为例,目标字段的数量为两个,目标字段值为表中文名的字段值基础产品表,以及字段中文名的字段值产品类型代码。
可以理解的是,从对应关系中查询目标字段值,再将从对应关系中查询到的目标字段值对应的类别,作为目标字段值所属的类别。基于上例,目标字段值:基础产品表,在对应关系中对应的类别为产品,目标字段值:产品类型代码,在对应关系中对应的类别为产品。
S104、将对应关系中表示目标字段值所属的类别的标识,作为前缀增加至样本数据中。
接上例,目标字段值:基础产品表,在对应关系中对应的类别为产品,目标字段值:产品类型代码,在对应关系中对应的类别也为产品,对应关系中,表示类别产品的标识为"PROD_"。因此,需要增加至样本数据中的标识为"PROD_"。
在一些实现方式中,将前缀增加在对应的目标字段值之前。接上例,增加前缀后的样本数据的示例为:系统中文名:{核心系统},schema名:{cloange},表中文名:{PROD_基础产品表},表英文名:{product},字段中文名:{PROD_产品类型代码},字段英文名:{pjtype},是否主键:{否},是否外键:{否}。
上例中,不同的目标字段值均属于对应关系中的类别产品,在另一些实现方式中,有可能不同的目标字段值属于对应关系中的不同类别。在此情况下,对于任意一个目标字段值,仍将其所属的类别的标识作为前缀,增加在该目标字段值之前,可以理解的是,在此情况下不同的目标字段值之前增加的前缀不同。
在样本数据中增加前缀,相当于给样本数据中的字段增加初步确定的类型作为先验信息,从而为后续的数据处理和模型训练提供便利。
S105、为增加前缀的样本数据配置提示数据。
提示数据包括增加前缀的样本数据,以及向待训练的模型指示的任务。
接上例,提示数据的示例为:系统中文名:{核心系统},schema名:{cloange},表中文名:{PROD_基础产品表},表英文名:{product},字段中文名:{PROD_产品类型代码},字段英文名:{pjtype},是否主键:{否},是否外键:{否},请根据这些信息,预测这个数据项属于哪个类别:[mask]。
其中,“请根据这些信息,预测这个数据项属于哪个类别:[mask]”为向待训练的模型指示的任务。
提示数据用于指示待训练的模型,在输入数据为样本数据的情况下,输出样本数据的类型。由于提示数据包含了大量的任务信息,模型可以通过学习如何根据提示数据进行预测,从而更好地理解任务,并提高模型在未标注数据上的表现。
可以理解的是,上述示例仅示出了为一条样本数据增加前缀数据,并配置提示数据的步骤,类似的,为每个样本数据均增加前缀,并配置提示数据。
S106、使用提示数据,训练待训练的模型,得到数据分类模型。
为了减少训练的计算量,在一些实现方式中,待训练的模型为经过预训练的文本到文本传输转换(Text-to-Text Transfer Transformer,T5)模型。
在一些实现方式中,按照以下技术导向配置训练使用的损失函数:
1、基于对应关系中包括的各个类别的重要程度,为各个类别配权重,为了便于与后续配置的权重区分,将本步骤配置的权重称为基础权重。各个类别的重要程度可以基于经验或者需求获取。例如,基于在银行业务场景中,基于各个类别对业务影响的程度配置各个类别的基础权重。
基于上述对应关系示例,各个类别的名称、对应的标识以及配置的基础权重的对应示例为:
参与人"PERS":3.0;
产品"PROD":2.5;
公共"PUB":1.0;
合约"CONT":2.5;
渠道"CHAN":2.0;
事件"EVEN":3.0;
账户"ACCT":2.5;
财务"FIN":3.0;
资产"ASST":2.5;
机构"INST":2.0。
其中,对应的基础权重越大,说明对银行业务的影响程度越大。
2、在实际的银行业务中,例如,一条财务数据(类型为财务的数据)被错误地分类为产品数据(类型为产品),可能对决策造成混淆甚至带来负面的业务结果,因此,为对应关系中包括各个类别配置额外权重。第一类别的额外权重为第二类别被错误分类为第一类别导致的影响程度,第一类别为任意一种类别,第二类别为除第一类别之外的所有其它类别。
第一类别与第二类别之间的距离越大,则说明将第二类别识别为第一类别的错误程度越高,则影响程度越大,所以额外权重越大。例如,假设将“产品”错误分类为“参与人”的额外权重为a1,将“账户”错误分类为“参与人”的额外权重为a2,因为“账户”与“参与人”的更相似,即距离更近,所以a2小于a1。
在实际应用中,类别之间的距离、以及各个类别的额外权重,均可按需配置。
3、对于对应关系中的任意一种类别,将该类别的基础权重、以及额外权重进行运算,得到该类别的最终权重。在一些实现方式中,运算为相乘。
4、配置损失函数为:L=w1*L1+w2*L2+...+wn*Ln,其中,L表示总误差(Loss),L1,L2,...,Ln表示对应关系中的各个类别的计算误差,w1,w2,...,wn表示各个类别的最终权重(也可称为误差权重)。
上述损失函数表示将各个类别的误差进行加权计算,实现对模型进行优化的目的。
其中,任意一个类别(L1,L2,...,Ln中的任意一项)的计算误差为:样本数据被模型识别为该类别的概率。
例如,某条样本数据的标签(即实际类别)为“参与人”,则L1,L2,...,L10的概率组成的向量(简称为向量1)为(1,0,0,0,0,0,0,0,0,0)。假设模型识别到的各个类别的概率组成的向量(简称为向量2)为(0.8,0.02,0.001,0.1979,0,0,0,0,0,0)。任意一个类别在向量1中概率与在向量2中的概率之差(绝对值),记为该类别的计算误差。如,L2的计算误差为0.02。
按照以上技术导向得到的损失函数,能够综合考虑类别的业务重要性、分类错误的业务的影响以及类别不平衡等因素,从而使损失函数更好地反映银行业务的需求和目标。
图1所示的数据分类模型的训练方法,具有以下优点:
1、在样本数据中增加前缀,有利于为模型学习样本数据的特征提供参考,有利于获得输出结果更为准确的模型。
2、提示数据提供了输入模型的数据的详细上下文,同时明确指示模型完成分类任务,有利于进一步提高模型的输出结果的准确性,并且可以大大降低训练的计算复杂度和内存需求,实现在较低的计算成本下训练模型。
3、损失函数综合考虑类别的业务重要性、分类错误的业务的影响以及类别不平衡等因素,能够进一步提高模型的输出结果的准确性。
4、使用经过预训练的模型作为待训练的模型,由于只微调了一小部分参数,模型的大部分参数保持不变,这可以防止模型在小数据集上过拟合。
图2为基于图1训练得到的模型,提供的数据的分类方法的流程图,包括以下步骤:
S201、获取数据。
本步骤中获取的数据为待分类的数据,包括多个字段和字段的字段值。
数据的具体形式可参见S101所述的样本数据。
在一些实现方式中,对获取的数据进行预处理,如S102所述的预处理方式。在此情况下,用于后续步骤的数据为预处理后的数据。
S202、使用数据类型分类模型,对银行业务数据进行分类,分到分类结果。
在一些实现方式中,数据分类模型基于数据中包括的每个字段值均输出一个分类结果,再通过对每个字段的分类结果进行投票,来决定数据的类别标签。具体来说,对每个字段的分类结果进行投票,然后选择得票最多的类别作为最终的分类结果。这种方法充分利用了每个字段的分类信息,能够提高分类的准确性。同时,这种方法也提供了一种处理大规模复杂数据的有效策略。
图2所示的流程,在图1训练得到的模型的基础上,对数据进行分类,具有较高的准确性。
图3为本申请的实施例公开的一种数据分类模型的训练装置,包括:样本筛选模块、字段分类模块、前缀添加模块、提示数据生成模块以及训练模块。
样本筛选模块用于筛选用于训练的样本数据,所述样本数据包括多个字段和所述字段的字段值。字段分类模块用于通过查询类别与关键字的对应关系,获取所述样本数据中的目标字段的字段值所属的类别,所述目标字段为所述多个字段中的字段。前缀添加模块用于将表示所述目标字段的字段值所属的类别的标识,作为前缀增加至所述样本数据中。提示数据生成模块用于为增加前缀的样本数据配置提示数据。训练模块用于使用所述提示数据训练待训练的模型,得到数据分类模型。
所述分类模型的训练装置,能够获得分类结果准确性更高的模型。
以上各个模块的功能的具体实现方式,可参见图1所示的流程,这里不再赘述。
图4为本申请的实施例公开的一种数据分类装置,包括:数据获取模块和分类模块。
数据获取模块用于获取数据,所述数据包括多个字段和所述字段的字段值。分类模块用于基于所述数据以及数据分类模型,得到所述数据的分类结果。分类模块使用的数据分类模型通过图1所示的流程获得。
本实施例所述的分类装置,能够获得准确性更高的分类结果。
本实施例提供的装置中的各个模块的功能的具体实现方式,可参见图2所示的流程,这里不再赘述。
本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
Claims (10)
1.一种数据分类模型的训练方法,其特征在于,包括:
筛选用于训练的样本数据,所述样本数据包括多个字段和所述字段的字段值;
通过查询类别与关键字的对应关系,获取所述样本数据中的目标字段的字段值所属的类别,所述目标字段为所述多个字段中的字段;
将表示所述目标字段的字段值所属的类别的标识,作为前缀增加至所述样本数据中;
为增加前缀的样本数据配置提示数据;
使用所述提示数据训练待训练的模型,得到数据分类模型。
2.根据权利要求1所述的方法,其特征在于,所述样本数据包括:
银行业务的元数据;
所述目标字段包括:
所述元数据中的部分字段。
3.根据权利要求2所述的方法,其特征在于,所述元数据中的部分字段包括:
表中文名和字段中文名。
4.根据权利要求1所述的方法,其特征在于,所述使用所述提示数据训练待训练的模型,得到数据分类模型,包括:
使用所述提示数据,基于损失函数,训练所述待训练的模型,得到数据分类模型;
所述损失函数包括:所述对应关系中的各个类别的计算误差与对应的权重的加权和,第一类别对应的权重基于所述第一类别的基础权重以及额外权重获取,所述基础权重基于所述第一类别的重要程度配置,所述第一类别的额外权重基于第二类别被分类为所述第一类别导致的影响程度配置,所述第一类别为任意一种类别。
5.根据权利要求1所述的方法,其特征在于,所述待训练的模型包括:
预训练后的T5模型。
6.一种数据分类方法,其特征在于,包括:
获取数据,所述数据包括多个字段和所述字段的字段值;
基于所述数据以及数据分类模型,得到所述数据的分类结果;其中,所述数据分类模型基于权利要求1-5任一项所述的数据分类模型的训练方法获得。
7.根据权利要求6所述的方法,其特征在于,所述基于所述数据以及数据分类模型,得到所述数据的分类结果,包括:
将所述数据输入所述数据分类模型,得到所述数据分类模型对所述多个字段中的每个字段的分类结果;
通过对每个字段的分类结果进行投票,得到所述数据的类别结果。
8.一种数据分类模型的训练装置,其特征在于,包括:
样本筛选模块,用于筛选用于训练的样本数据,所述样本数据包括多个字段和所述字段的字段值;
字段分类模块,用于通过查询类别与关键字的对应关系,获取所述样本数据中的目标字段的字段值所属的类别,所述目标字段为所述多个字段中的字段;
前缀添加模块,用于将表示所述目标字段的字段值所属的类别的标识,作为前缀增加至所述样本数据中;
提示数据生成模块,用于为增加前缀的样本数据配置提示数据;
训练模块,用于使用所述提示数据训练待训练的模型,得到数据分类模型。
9.一种数据分类装置,其特征在于,包括:
数据获取模块,用于获取数据,所述数据包括多个字段和所述字段的字段值;
分类模块,用于基于所述数据以及数据分类模型,得到所述数据的分类结果,所述数据分类模型基于权利要求1-5任一项所述的数据分类模型的训练方法获得。
10.一种电子设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器用于通过运行所述计算机程序,实现权利要求1-5任一项所述的数据分类模型的训练方法,或,权利要求6或7所述的数据分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311295125.7A CN117272147A (zh) | 2023-10-08 | 2023-10-08 | 数据分类模型的训练方法、数据分类方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311295125.7A CN117272147A (zh) | 2023-10-08 | 2023-10-08 | 数据分类模型的训练方法、数据分类方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117272147A true CN117272147A (zh) | 2023-12-22 |
Family
ID=89200724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311295125.7A Pending CN117272147A (zh) | 2023-10-08 | 2023-10-08 | 数据分类模型的训练方法、数据分类方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117272147A (zh) |
-
2023
- 2023-10-08 CN CN202311295125.7A patent/CN117272147A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huang et al. | Deep learning in finance and banking: A literature review and classification | |
Tang et al. | Incorporating textual and management factors into financial distress prediction: A comparative study of machine learning methods | |
CN107967575B (zh) | 一种人工智能保险咨询服务人工智能平台系统 | |
CN109087163B (zh) | 信用评估的方法及装置 | |
CN109767318A (zh) | 贷款产品推荐方法、装置、设备及存储介质 | |
CN107704512A (zh) | 基于社交数据的金融产品推荐方法、电子装置及介质 | |
CN108961032A (zh) | 借贷处理方法、装置以及服务器 | |
CN109740642A (zh) | 发票类别识别方法、装置、电子设备及可读存储介质 | |
CN107679977A (zh) | 一种基于语义分析的税务管理平台及实现方法 | |
CN111639690A (zh) | 基于关系图谱学习的欺诈分析方法、系统、介质及设备 | |
KR20210033294A (ko) | 자동보고서생성장치 및 그 동작 방법 | |
KR20220083183A (ko) | 개인화 기반 사업 추천 알고리즘을 이용한 입찰 전략 수립 지원 시스템 및 그 방법 | |
Cao et al. | Bond rating using support vector machine | |
CN113378090B (zh) | 一种互联网网站相似度分析方法、装置以及可读存储介质 | |
CN112950347B (zh) | 资源数据处理的优化方法及装置、存储介质、终端 | |
CN113591476A (zh) | 一种基于机器学习的数据标签推荐方法 | |
CN113887214A (zh) | 基于人工智能的意愿推测方法、及其相关设备 | |
CN116862641A (zh) | 信贷产品推荐方法、装置、电子设备及存储介质 | |
CN115796183A (zh) | 数据字段统一标准命名方法及装置 | |
CN111143533A (zh) | 一种基于用户行为数据的客服方法及系统 | |
CN117272147A (zh) | 数据分类模型的训练方法、数据分类方法、装置及设备 | |
Chakraborty et al. | Automating the process of taxonomy creation and comparison of taxonomy structures | |
CN113988878A (zh) | 一种基于图数据库技术的反欺诈方法及系统 | |
CN113095078A (zh) | 关联资产确定方法、装置和电子设备 | |
CN111639910A (zh) | 一种台账生成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |