CN116127376A - 模型训练方法、数据分类分级方法、装置、设备及介质 - Google Patents

模型训练方法、数据分类分级方法、装置、设备及介质 Download PDF

Info

Publication number
CN116127376A
CN116127376A CN202310132275.XA CN202310132275A CN116127376A CN 116127376 A CN116127376 A CN 116127376A CN 202310132275 A CN202310132275 A CN 202310132275A CN 116127376 A CN116127376 A CN 116127376A
Authority
CN
China
Prior art keywords
training
data
sample
preset
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310132275.XA
Other languages
English (en)
Inventor
廖源
季石磊
冯康康
孟昭慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202310132275.XA priority Critical patent/CN116127376A/zh
Publication of CN116127376A publication Critical patent/CN116127376A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了模型训练方法、数据分类分级方法、装置、设备及介质,人工智能技术领域,尤其涉及神经网络、大数据、数据安全以及数据分类分级技术领域。具体实现方案为:获取预设训练样本集,预设训练样本包括样本数据对应的样本特征信息,且携带有样本数据对应的样本类别标签,将预设训练样本和所携带的样本类别标签输入至数据分类模型中,数据分类模型包括基于双塔结构的语义匹配模型,用于确定预设训练样本与所携带的样本类别标签的语义相似度,根据数据分类模型的输出确定目标损失关系,并根据目标损失关系对数据分类模型进行训练。通过采用上述技术方案,可降低模型迭代成本,提高训练效率和模型迭代效率。

Description

模型训练方法、数据分类分级方法、装置、设备及介质
技术领域
本公开涉及人工智能技术领域,尤其涉及神经网络、大数据、数据安全以及数据分类分级技术领域。
背景技术
随着大数据技术的广泛应用,数据作为新的生产要素应用于生产环境中,数据既要利用,又要保护,数据分类分级是数据安全治理的重要工作之一。
发明内容
本公开提供了一种模型训练方法、数据分类分级方法、装置、设备及介质。
根据本公开的一方面,提供了一种用于数据分类分级的模型训练方法,包括:
获取预设训练样本集,其中,所述预设训练样本集中的预设训练样本包括样本数据对应的样本特征信息,所述样本数据包括存在分类分级需求的数据,所述预设训练样本携带有所述样本数据对应的样本类别标签,所述样本类别标签包含于预设标签库中;
将所述预设训练样本集中的预设训练样本和所携带的样本类别标签输入至数据分类模型中,其中,所述数据分类模型包括基于双塔结构的语义匹配模型,所述数据分类模型用于确定所述预设训练样本与所携带的样本类别标签的语义相似度;
根据所述数据分类模型的输出确定目标损失关系,并根据所述目标损失关系对所述数据分类模型进行训练。
根据本公开的另一方面,提供了一种数据分类分级方法,包括:
根据待分类分级数据对应的特征信息确定输入信息;
将所述输入信息和预设标签库中的各类别标签输入至目标数据分类模型中,其中,所述目标数据分类模型采用本公开任意实施例所述的训练方法得到;
根据所述目标数据分类模型的输出确定所述待分类分级数据的分类分级结果。
根据本公开的另一方面,提供了一种用于数据分类分级的模型训练装置,包括:
预设训练样本集获取模块,用于获取预设训练样本集,其中,所述预设训练样本集中的预设训练样本包括样本数据对应的样本特征信息,所述样本数据包括存在分类分级需求的数据,所述预设训练样本携带有所述样本数据对应的样本类别标签,所述样本类别标签包含于预设标签库中;
样本输入模块,用于将所述预设训练样本集中的预设训练样本和所携带的样本类别标签输入至数据分类模型中,其中,所述数据分类模型包括基于双塔结构的语义匹配模型,所述数据分类模型用于确定所述预设训练样本与所携带的样本类别标签的语义相似度;
第一训练模块,用于根据所述数据分类模型的输出确定目标损失关系,并根据所述目标损失关系对所述数据分类模型进行训练。
根据本公开的另一方面,提供了一种数据分类分级装置,包括:
输入信息确定模块,用于根据待分类分级数据对应的特征信息确定输入信息;
信息输入模块,用于将所述输入信息和预设标签库中的各类别标签输入至目标数据分类模型中,其中,所述目标数据分类模型利用本公开任意实施例所述的训练装置得到;
分类分级结果确定模块,用于根据所述目标数据分类模型的输出确定所述待分类分级数据的分类分级结果。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开任意实施例所述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开任意实施例所述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开任意实施例所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例提供的一种用于数据分类分级的模型训练方法的流程图;
图2是根据本公开实施例提供的另一种用于数据分类分级的模型训练方法的流程图;
图3是根据本公开实施例提供的又一种用于数据分类分级的模型训练方法的流程图;
图4是根据本公开实施例提供的再一种用于数据分类分级的模型训练方法的流程图;
图5是根据本公开实施例提供的一种数据分类分级方法的流程图;
图6是根据本公开实施例提供的一种数据分类分级方案的整体架构图;
图7是根据本公开实施例提供的一种数据分类分级方案的冷启动阶段的架构图;
图8是根据本公开实施例提供的一种数据分类分级方案的模型迭代阶段的架构图;
图9是根据本公开实施例提供的一种用于数据分类分级的模型训练装置的结构示意图;
图10是根据本公开实施例提供的一种数据分类分级装置的结构示意图;
图11是用来实现本公开实施例的方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本公开实施例提供的一种用于数据分类分级的模型训练方法的流程图,本公开实施例可适用于对用于数据分类分级的分类模型进行训练的情况。该方法可由一种用于数据分类分级的模型训练装置来执行,该装置可采用硬件和/或软件的方式来实现,可配置于电子设备中。参考图1,该方法具体包括如下:
S101、获取预设训练样本集,其中,预设训练样本集中的预设训练样本包括样本数据对应的样本特征信息,样本数据包括存在分类分级需求的数据,预设训练样本携带有样本数据对应的样本类别标签,所述样本类别标签包含于预设标签库中;
S102、将预设训练样本集中的预设训练样本和所携带的样本类别标签输入至数据分类模型中,其中,数据分类模型包括基于双塔结构的语义匹配模型,数据分类模型用于确定预设训练样本与所携带的样本类别标签的语义相似度;
S103、根据数据分类模型的输出确定目标损失关系,并根据目标损失关系对数据分类模型进行训练。
相关技术中,数据分类分级方案主要有两种,第一种是基于规则的数据分类分级方案,第二种是基于传统的有监督机器学习或深度学习的数据分类分级方案。随着各行业的业务线的不断迭代,数据分类分级中的类别也在不断增加,因此,数据分类分级方案需要进行动态调整以满足新增类别的分类需求。
对于上述第一种方案,常见的是基于正则表达式或关键字等检测敏感数据,进而对数据进行分类分级。然而,该方案分类分级准确率较低,且维护成本很高。存在分类分级需求的数据通常来自于数据管理平台,平台上通常存在多个业务线,不同业务线对表及字段的命名通常没有统一的规则,基本上是基于建表人的理解来命名,每个人的命名风格不同。对于新增类别的情况,需要不断人工增加规则(如正则匹配规则或关键词等)来满足新增类别的分类需求,然而,增加规则的这一过程需要相关人员具备正则匹配和关键词的专业知识,人工维护成本较高。
对于上述第二种方案,传统的有监督机器学习可包括如朴素贝叶斯、K近邻、支持向量积和决策树等,传统的深度学习算法如卷积神经网络(Convolutional NeuralNetworks,CNN)、文本卷积神经网络(TextCNN)、循环神经网络(Recurrent NeuralNetwork,RNN)以及长短期记忆网络(Long short-term memory,LSTM)等。该方案依赖于昂贵的人工标注数据,且对于新增类别的情况,每次新增类别,均需要采用全量训练数据(包括已参与过训练的训练数据和对应新增类别的新增训练数据)对分类模型进行重新训练,费时费力,模型迭代成本高,训练效率低下。
本公开实施例中,采用基于双塔结构的语义匹配模型(可简称双塔模型)来构建数据分类分级场景下的分类模型,对于新增类别的情况,不需要采用全量训练数据对分类模型进行重新训练,可降低模型迭代成本,提高训练效率和模型迭代效率。
其中,语义匹配模型一般用于在语义上衡量对象(如文本)之间的相似度,在搜索、自动问答和信息推荐等领域应用广泛。双塔模型一般有两个输入层,每个输入层连接有表示层,表示层用于输出向量,再由匹配层计算两个向量的相似度得到匹配得分。本公开实施例中所采用的双塔模型的具体类型不做限定,例如可以包括深度语义匹配模型(DeepStructured Semantic Model,DSSM)、基于卷积神经网络CNN的深度语义匹配模型(CNN-DSSM)、基于LSTM的深度语义匹配模型(LSTM-DSSM)或RocketQA等。
在相关技术中的传统方案中,分类任务中的标签信息通常以独热编码形式存在,如类别数量为160类,则标签信息为160维的向量,向量中的元素为1或0,对应样本所属类别的位为1,其他位为0,这种编码形式丢失了潜在的语义信息。在需要增加类别时,如类别数量增至161类,则标签信息需变更为161维的向量,且模型中的如全连接层等相应需要改变节点数量,导致模型结构发生变化,需要重新训练,训练效率低下。
而本公开实施例中,使用基于双塔结构的语义匹配模型可以将任务中的标签转化为语义信息的语义向量,相当于将原本的分类任务转化为向量的检索和匹配任务,实现从标签库中召回与当前样本语义相似的分类标签作为当前样本的类别。在需要增加类别时,原有标签可以无需改动,模型结构也可以无需改动,不需要重新训练。
本公开实施例中,存在分类分级需求的数据可以是数据表中的任一字段下的数据,具体可以是预设行业(如金融、政务、医疗、电信、互联网和能源等行业)对应的业务数据,其中可能包含敏感内容,为了保证数据安全,因此需要进行分类分级。
在样本采集阶段,可以从不同行业对应的数据库中采集不同业务线的异构数据源的元数据信息,从元数据信息中获取数据对应的特征信息作为样本特征信息,用于构建预设训练样本。样本特征信息可包括业务线信息、表名、字段名、字段描述以及采样数据,采样数据可以是样本数据的部分或全部。对采集数据进行标注,例如在样本特征信息上人工添加样本类别标签或采用相关手段自动添加样本类别标签等,得到预设训练样本,多个预设训练样本构成预设训练样本集。样本类别标签可以是样本数据所属的类别,如地址、邮箱或日期等。对于数据分类分级场景,数据级别可以是安全级别或敏感级别等,例如可包括一般数据、重要数据和核心数据等,也可包括按照数字顺序排序的等级。对于数据分级,可以利用数据分级模型实现,也可以预先建立类别和级别的映射关系,根据本公开实施例训练得到的数据分类模型输出的分类结果来确定数据级别,在此不做限定。
本公开实施例中,对于预设训练样本集中的当前预设训练样本和样本类别标签,可以采用In-batch negatives策略进行模型训练。该策略的核心是在1个批次(Batch)内同时基于多个负例进行梯度更新。其中,将批次(Batch)内除自身之外其它所有预设训练样本对应的样本类别标签作为负例。
在将预设训练样本和样本类别标签输入至数据分类模型后,数据分类模型可以利用表示层分别输出预设训练样本对应的样本特征向量以及样本类别标签对应的类别标签向量,并利用匹配层确定样本特征向量和样本类别标签向量之间的语义相似度,可根据该相似度来确定目标损失关系。根据目标损失关系对数据分类模型进行训练,在训练过程中,可以以最小化目标损失关系为目标,调整数据分类模型中的一个或多个权重参数值。
本公开实施例提供的用于数据分类分级的模型训练方案,获取预设训练样本集,预设训练样本包括样本数据对应的样本特征信息,且携带有样本数据对应的样本类别标签,将预设训练样本和所携带的样本类别标签输入至数据分类模型中,数据分类模型包括基于双塔结构的语义匹配模型,用于确定预设训练样本与所携带的样本类别标签的语义相似度,根据数据分类模型的输出确定目标损失关系,并根据目标损失关系对数据分类模型进行训练。通过采用上述技术方案,采用基于双塔结构的语义匹配模型来构建数据分类分级场景下的分类模型,提供了一种全新的用于数据分类分级的分类模型以及训练方案,训练后得到的模型能够保证数据分类结果的准确性,且对于新增类别的情况,不需要采用全量训练数据对分类模型进行重新训练,可降低模型迭代成本,提高训练效率和模型迭代效率。
在一种可选实施方式中,样本数据包括互联网行业的业务数据,例如互联网公司的不同业务线的数据库中存储的业务数据,不同业务线例如可包括电子地图业务、搜索引擎业务、资讯推荐业务、电商业务和社交平台业务中的至少一种,业务数据中可包括如用户注册信息、应用程序的运行日志、历史导航记录、历史搜索记录、历史推送记录、产品订单、以及用户交互记录等中的至少一种。上述样本数据中可能存在敏感内容,存在分类分级需求。可采集一定数量的上述样本数据对应的样本特征信息,并构建用于训练数据分类模型的预设训练样本集,对于快速发展的互联网行业来说,业务线可能会不断增加,导致业务数据的类别不断增加,且已有业务线的业务数据的类别也在不断增加,通过采用本公开实施例的方案,有利于高效地对数据分类模型进行迭代,及时识别和发现敏感业务数据,进而能够更加实时有效地保障互联网行业的业务数据安全,适应互联网行业的快速发展。
图2是根据本公开实施例提供的另一种用于数据分类分级的模型训练方法的流程图,在上述各可选实施例基础上进行优化,增加了模型增量训练的相关步骤,如图2所示,该方法可包括:
S201、获取预设训练样本集。
其中,预设训练样本集中的预设训练样本包括样本数据对应的样本特征信息,样本数据包括存在分类分级需求的数据,预设训练样本携带有所述样本数据对应的样本类别标签,所述样本类别标签包含于预设标签库中。
S202、将预设训练样本集中的预设训练样本和所携带的样本类别标签输入至数据分类模型中。
其中,数据分类模型包括基于双塔结构的语义匹配模型,数据分类模型用于确定所述预设训练样本与所携带的样本类别标签的语义相似度。
S203、根据数据分类模型的输出确定目标损失关系,并根据目标损失关系对数据分类模型进行训练。
S204、根据训练结果确定第一初始分类模型。
示例性的,在确定满足预设训练截止条件的情况下(如当前的预设训练样本集中的所有预设训练样本已参与训练,或训练迭代次数达到预设次数等),可将当前训练得到的数据分类模型记为第一初始分类模型。
示例性的,可以对第一初始分类模型进行部署,进而可以应用于数据分类分级的应用场景中,对待分类分级数据进行分类。其中,部署方式不做限定,可以根据实际业务需求确定是离线部署或在线部署。
S205、获取增量训练样本集,其中,增量训练样本集中的增量训练样本携带有新增类别对应的新增样本类别标签,新增样本类别标签包含于更新后的预设标签库中。
示例性的,在第一初始分类模型的应用过程中,可能随着业务升级等原因,出现了新的数据类别,可以在预设标签库中加入新增样本类别标签,以对预设标签库进行更新。其中,新增样本类别标签的数量可以是一个或多个。如在S201至S204阶段,预设标签库中包含160个类别标签,而从S205起,预设标签库中可能包含161甚至更多的类别标签。此外,采集数据类别为该新增类别的多个样本数据对应的样本特征信息,并添加新增样本类别标签,得到多个增量训练样本,形成增量训练样本集。
S206、利用增量训练样本集对第一初始分类模型进行增量训练。
示例性的,本步骤可包括:将增量训练样本集中的增量训练样本和所携带的新增样本类别标签输入至第一初始分类模型中;根据第一初始分类模型的输出确定第一目标损失关系,并根据第一目标损失关系对第一初始分类模型进行训练。
示例性的,在对第一初始分类模型进行增量训练后,根据训练结果确定新的数据分类模型,使用该新的数据分类模型能够对属于新增类别的数据进行准确分类。
本公开实施例提供的用于数据分类分级的模型训练方案,在采用预设训练样本集对数据分类模型进行训练后,若出现新的数据类别,则可以对预设标签库进行更新,并获取增量训练样本集对之前已训练好的数据分类模型进行增量训练,可降低模型迭代成本,提高训练效率和模型迭代效率,进而能够更加实时有效地保障业务数据安全,适应业务数据所属行业的快速发展。
相关技术中,通常采用人工标注的方式为样本添加标签,然而,面对数据规模较大的情况,依赖人工逐个为数据表的字段打标签的人工成本非常高。本公开实施例中,通过知识增强将无监督样本数据转化为弱监督样本数据,可以采用规则匹配的方式进行大规模无标注样本数据的标注,为大规模无标注样本数据快速提供基础的知识增强能力,并结合人工纠错的方式,对可能存在标注错误的样本的标签进行调整,保证样本标签的准确度,从而实现在保证样本标注准确度的情况下,提高样本标注效率和标注成本。
在一种可选实施方式中,所述预设训练样本集通过以下1)-4)的方式得到:
1)将无标注样本数据与预设类别匹配规则进行匹配,根据匹配结果为所述无标注样本数据添加初始样本标签,得到初始训练样本集。
示例性的,预设类别匹配规则中可包括正则规则和/或关键字,通常一种数据类别可关联一个或多个预设类别匹配规则。无标注样本数据中包括未分类数据对应的特征信息,如前文所述的业务线信息、表名、字段名、字段描述以及采样数据等。对于某个无标注样本数据,若其能够与某个预设类别匹配规则匹配成功,也即能够被预设类别匹配规则所识别,则可以被添加该预设类别匹配规则所关联的数据类别作为初始样本标签;若其未能够与任意一个预设类别匹配规则匹配成功,也即无法被预设类别匹配规则所识别,则可以被添加为预设数据类别(如“其他类别”或“未分类类别”等)作为初始样本标签。
2)利用所述初始训练样本集对预设分类模型进行训练,并在训练过程中确定所述初始训练样本集中的各初始训练样本对所述预设分类模型的影响分数。
示例性的,预设分类模型例如可以是预训练模型,预训练模型又称预训练大模型,预训练模型基于深度学习架构,利用大量数据训练得到,通用性强,可适用于不同行业领域。本公开实施例中所采用的具体的预训练模型不做限定,例如可以是双向语言表征转换模型(Bidirectional Encoder Representations from Transformers,BERT)模型或文心大模型。可以采用微调的方法利用初始训练样本集对预设分类模型进行训练。在训练过程中,确定各初始训练样本对预设分类模型的影响分数,该影响分数可用于表征初始训练样本为脏数据的可能性,也即被添加错误的初始样本标签的可能性,影响分数越高,对应的可能性越高。
在一种可选实施方式中,在训练过程中,对于所述初始训练样本集中每个当前输入至所述预设分类模型的当前初始训练样本,根据所述当前初始训练样本对应的当前损失对所述预设分类模型最后一层的当前输出的梯度,确定当前初始训练样本对所述预设分类模型的影响分数。这样设置的好处在于,可以快速准确地确定影响分数。
其中,当前损失可以基于交叉熵损失函数计算。发明人经研究发现,当前损失对当前输出的梯度,与模型损失的绝对值是正相关的,对于异常点,损失绝对值越大,越能主导模型的参数,因此,以该方式计算得到的影响分数,能够准确表征当前初始训练样本为脏数据的可能性,影响分数越大,表明模型在当前初始训练样本上的表现相对越差,也即当前初始训练样本为脏数据的可能性越大。
3)根据所述影响分数从所述初始训练样本集中筛选出待调整训练样本。
示例性的,按照影响分数从大到小排序后,取排名前N个初始训练样本作为待调整训练样本,也即,筛选出影响分数较高的预设个数的初始训练样本作为待调整训练样本,参与后续的标签调整。
4)获取针对所述待调整训练样本的标签调整信息,并根据所述标签调整信息对所述初始训练样本集中的所述待调整训练样本的初始样本标签进行调整,得到预设训练样本集。
示例性的,可将待调整训练样本提供给相关人员,由相关人员人工核实对应的初始样本标签是否标注正确。标签调整信息可包括人工标注信息,具体可包括人工确认的正确数据类别。在获取到标签调整信息后,确定待调整训练样本的正确类别标签,若初始样本标签正确,则可保留,若不正确,可将初始样本标签替换为正确类别标签,从而实现对初始训练样本集的纠错,得到预设训练样本集,用于数据分类模型的训练。
可选的,数据分类分级的体系和种类繁多,可能会出现类别极端不平衡的情况。若该情况发生,对初始训练样本集的纠错之后,还可使用同义词替换、随机插入、随机交换、随机删除或随机注入噪音等数据增强方法来扩充极端不平衡类别的初始训练样本,得到预设训练样本集,用于数据分类模型的训练。
图3是根据本公开实施例提供的又一种用于数据分类分级的模型训练方法的流程图,在上述各可选实施例基础上进行优化,增加了模型部署后由用户参与辅助模型优化训练的相关步骤,如图3所示,该方法可包括:
S301、获取预设训练样本集。
其中,预设训练样本集中的预设训练样本包括样本数据对应的样本特征信息,样本数据包括存在分类分级需求的数据,预设训练样本携带有所述样本数据对应的样本类别标签。
S302、将预设训练样本集中的预设训练样本和所携带的样本类别标签输入至数据分类模型中。
其中,数据分类模型包括基于双塔结构的语义匹配模型,数据分类模型用于确定所述预设训练样本与所携带的样本类别标签的语义相似度。
S303、根据数据分类模型的输出确定目标损失关系,并根据目标损失关系对数据分类模型进行训练。
S304、根据训练结果确定第二初始分类模型。
示例性的,在确定满足预设训练截止条件的情况下(如当前的预设训练样本集中的所有预设训练样本已参与训练,或迭代次数达到预设次数等),可将当前训练得到的数据分类模型记为第二初始分类模型。
S305、在利用第二初始分类模型对待分类分级数据进行分类的过程中,获取用户针对分类结果的修订信息。
示例性的,可以对第二初始分类模型进行部署,在数据分类分级的应用场景中执行分类分级任务,并向用户展示分类分级结果,还可以展示结果的置信度(如从0至1之间的实数值),用户可以对分类分级结果进行进一步的人工确认。若分类结果不正确,则用户可以根据自身知识和经验修改对应的标签,以帮助模型的不断优化。修行信息中可包括由用户确认的正确类别标签。
S306、根据待分类分级数据和修订信息构建修正训练样本集,其中,修正训练样本集中的修正训练样本携带有根据修订信息确定的修正样本类别标签。
示例性的,可根据待分类分级数据和修订信息中包含的正确类别标签(也即修正样本类别标签)构建修正训练样本,在经过一段时间的积累后,根据多个修正训练样本构建修正训练样本集。
S307、利用修正训练样本集对第二初始分类模型进行增量训练。
示例性的,本步骤可包括:将修正训练样本集中的修正训练样本和所携带的修正样本类别标签输入至第二初始分类模型中;根据第二初始分类模型的输出确定第二目标损失关系,并根据第二目标损失关系对第二初始分类模型进行训练。
示例性的,在对第二初始分类模型进行增量训练后,根据训练结果确定新的数据分类模型,并重新部署,以进一步提高数据分类的准确度。
本公开实施例提供的用于数据分类分级的模型训练方法,在模型部署后,利用用户主动修正错误分类标签来获得新的训练样本,并对已部署模型进行增量训练,可不断提升模型的准确度。
图4是根据本公开实施例提供的再一种用于数据分类分级的模型训练方法的流程图,在上述各可选实施例基础上进行优化,增加了对参与辅助模型优化训练的用户进行评分的相关步骤,如图4所示,该方法可包括:
S401、获取预设训练样本集。
S402、将预设训练样本集中的预设训练样本和所携带的样本类别标签输入至数据分类模型中。
S403、根据数据分类模型的输出确定目标损失关系,并根据目标损失关系对数据分类模型进行训练。
S404、根据训练结果确定第二初始分类模型。
S405、在利用第二初始分类模型对待分类分级数据进行分类的过程中,获取用户针对分类结果的修订信息。
S406、根据待分类分级数据和修订信息构建修正训练样本集,其中,修正训练样本集中的修正训练样本携带有根据修订信息确定的修正样本类别标签。
示例性的,修正训练样本集中包含不同用户集合分别对应的样本子集。可按照预设划分规则对用户进行划分,得到不同的用户集合,预设划分规则例如可以是按照业务线进行划分,一个业务线对应一个用户集合。对于一个样本子集,其中包含的修正训练样本中的修正样本类别标签,由所对应的用户集合中的用户提供的修订信息确定。
S407、利用修正训练样本集对第二初始分类模型进行增量训练,根据增量训练结果确定基准数据分类模型。
示例性的,本步骤中,所采用的修正训练样本集包含的所有用户集合对应的样本子集。假设业务线为5个,对应的用户集合为5个,则采用5个样本子集对第二初始分类模型进行增量训练,得到基准数据分类模型,记为M。
S408、针对目标用户集合,从修正训练样本集中去除所述目标用户集合对应的目标样本子集,得到对照训练样本集。
示例性的,假设目标用户集合为集合i,则从修正训练样本集中去除集合i对应的目标样本子集,例如将其他4个样本子集的集合作为对照训练样本集。
S409、利用对照训练样本集对第二初始分类模型进行增量训练,得到对照数据分类模型。
示例性的,本步骤可包括:将对照训练样本集中的对照训练样本和预设标签库中的类别标签输入至第二初始分类模型中;根据第二初始分类模型的输出确定第三目标损失关系,并根据第三目标损失关系对第二初始分类模型进行训练。
S410、针对预设模型效果指标,确定基准分类模型和对照数据分类模型的差异度。
示例性的,预设模型效果指标可以为准确率,具体可以分别验证基准分类模型和对照数据分类模型在线上真实测试集上的准确率,将准确率的差值确定为差异度。例如,基准分类模型对应的准确率为A,目标用户集合对应的对照数据分类模型的准确率为Ai,则差异度X可以表示为A-Ai。
S411、根据差异度确定目标用户集合对应的目标用户集合评分。
示例性的,可以将差异度确定为目标用户集合对应的目标用户集合评分,还可以在差异度基础上结合其他相关信息来确定目标用户集合评分。
可选的,可以根据用户集合评分设定激励机制,用户集合评分越高,可说明该用户集合对模型优化的贡献度越高。可选的,在确定基准数据分类模型之后,可以对基准数据分类模型进行部署,在利用作为新的第二初始分类模型的基准数据分类模型对待分类分级数据进行分类的过程中,继续获取用户针对分类结果的修订信息,并继续进行增量训练。
本公开实施例提供的用于数据分类分级的模型训练方法,在模型部署后,利用用户主动修正错误分类标签来进行增量训练的基础上,根据增量训练的效果对用户进行评分比较,有利于提高用户参与修正的积极性,进而提升模型的优化速度和优化质量。
在一种可选实施方式中,所述根据所述差异度确定所述目标用户集合对应的目标用户集合评分,包括:根据所述差异度确定所述目标用户集合对应的第一用户集合评分;根据所述目标样本子集中的修正训练样本的数量确定所述目标用户集合对应的第二用户集合评分;根据所述第一用户集合评分和所述第二用户集合评分确定所述目标用户集合对应的目标用户集合评分。这样设置的好处在于,引入修正数量来进行综合评分,可以更加合理地确定用户集合评分。
示例性的,可以将第一用户集合评分和第二用户集合评分的加权值确定为目标用户集合对应的目标用户集合评分。例如,差异度记为X,数量记为Y,目标用户集合评分记为Z,则Z=aX+bY,其中,a表示差异度的加权系数,b表示数量的加权系数。
在一种可选实施方式中,第一初始分类模型可以替换为基准数据分类模型,也即,可以利用所述增量训练样本集和所述更新后的预设标签库,对所述基准数据分类模型进行增量训练。在一种可选实施方式中,第二初始分类模型可以替换为对所述第一初始分类模型进行增量训练后得到的新的数据分类模型,也即,可以利用所述修正训练样本集和所述预设标签库,对所述新的数据分类模型进行增量训练。
图5是根据本公开实施例提供的一种数据分类分级方法的流程图,本公开实施例可适用于对数据进行分类分级的情况。该方法可由一种数据分类分级装置来执行,该装置可采用硬件和/或软件的方式来实现,可配置于电子设备中。参考图5,该方法具体包括如下:
S501、根据待分类分级数据对应的特征信息确定输入信息;
S502、将所述输入信息和预设标签库中的各类别标签输入至目标数据分类模型中。
其中,所述目标数据分类模型采用本公开任意实施例所述的训练方法得到。
S503、根据所述目标数据分类模型的输出确定所述待分类分级数据的分类分级结果。
本公开实施例提供的数据分类分级方案,根据待分类分级数据对应的特征信息确定输入信息,将输入信息输入至采用本公开任意实施例所述的训练方法得到的基于双塔结构的语义匹配模型构建的目标数据分类模型中,根据目标数据分类模型的输出可以快速准确地确定待分类分级数据的分类分级结果,提高数据分类分级的准确性,及时识别和发现敏感数据,且对于新增类别的情况,不需要采用全量训练数据对目标数据分类模型进行重新训练,可模型迭代效率,保证新增类别对应的待分类分级数据的分类分级结果的准确性。
可选的,将预设标签库中的各类别标签输入至目标数据分类模型中,获取对应的类别标签向量,并将类别标签向量存储到向量数据库中,如Milvus等。这样做的好处在于,在需要进行样本预测时,无需再次进行标签向量构建,可提高模型计算效率,进而提高数据分类效率。
示例性的,将所述输入信息输入至目标数据分类模型中,得到输入信息特征向量,并将输入信息特征向量输入到所述标签向量数据库中进行相似度检索,根据检索结果确定待分类分级数据对应的预测类别。
在一种可选实施方式中,待分类分级数据包括目标行业(如金融、政务、医疗、电信、互联网和能源等行业)对应的业务数据,如互联网行业的业务数据,例如互联网公司的目标业务线对应的数据库中存储的业务数据,目标业务线例如可包括电子地图业务、搜索引擎业务、资讯推荐业务、电商业务和社交平台业务中的至少一种,业务数据中可包括如用户注册信息、应用程序的运行日志、导航数据、历史搜索记录、历史推送记录、产品订单、以及用户交互记录等中的至少一种。特征信息可以包括业务线信息、表名、字段名、字段描述以及采样数据等。根据上述业务数据对应的特征信息确定输入信息后,再将输入信息输入至目标数据分类模型中,可以快速准确地得到互联网行业的业务数据的分类分级结果,进而能够有效保障互联网行业的业务数据安全。
在一种可选实施方式中,所述根据所述目标数据分类模型的输出确定所述待分类分级数据的分类分级结果,包括:根据所述目标数据分类模型的输出确定所述待分类分级数据的预测类别;根据所述预测类别查询预设映射关系,得到所述待分类分级数据的预测级别,其中,所述预设映射关系中包括所述预设标签库中的各类别标签与级别标签的对应关系;根据所述预测类别和所述预测级别确定所述待分类分级数据的分类分级结果。这样设置的好处在于,预先建立各个数据类别与数据级别之间的对应关系,在根据目标数据分类模型的输出确定出数据类别后,可快速查询到对应的数据级别,从而提高分类分级效率。
例如,根据目标数据分类模型的输出确定待分类分级数据的预测类别为家庭住址,预设映射关系中,与家庭住址存在对应关系的数据等级为五级,则待分类分级数据的预测级别为五级,分类分级结果可以是家庭住址类别的五级敏感数据,并针对该分类分级结果采用相应的数据保护策略对该待分类分级数据进行处理,保证数据安全。
图6是根据本公开实施例提供的一种数据分类分级方案的整体架构图,如图6所示,方案划分为冷启动阶段和模型迭代阶段。在冷启动阶段,利用预设类别匹配规则(如图中的正则规则)进行匹配,实现对大规模无标注样本数据的知识注入,得到低质量标注数据(也即初始训练样本集),随后进行脏数据识别和标签调整,得到高质量标注数据(也即预设训练样本集),利用高质量标注数据进行基于双塔模型的训练。在模型迭代阶段,基于双塔模型进行训练后,采用得到的数据分类模型进行模型推断,得到待分类分级数据的分类分级结果后,通过人工修改和确认后筛选出模型识别错误的错误样本,构建修正训练样本集,并进行增量训练,以实现模型的优化迭代。
示例性的,图7是根据本公开实施例提供的一种数据分类分级方案的冷启动阶段的架构图。如图7所示,冷启动阶段主要包括数据准备阶段、模型训练阶段和模型部署阶段。在数据准备阶段,利用正则规则对大规模无标注样本数据进行匹配后,得到低质量标注数据,利用低质量标注数据采用微调的方法训练预训练模型,在训练过程中,通过计算各样本对预训练模型的影响分数来筛选出脏数据,利用人工清洗方式修正标签,得到高质量标注数据,随后,若出现标注样本中类别不平衡的情况,可通过数据增强策略进行增强,得到最终用于模型训练的预设训练样本集。在模型部署阶段,可以根据业务需求判断是离线推断还是在线推断。若是离线推断,则选择离线方式部署。离线推断场景中由于对吞吐量和每秒请求数(Query Per Second,QPS)等一般没有严格要求,因此可以不用选择模型裁剪或模型量化等方案,减少对模型预测的准确率的影响。若是在线推断,则选择服务化方式部署。在服务化部署中,对吞吐量及QPS一般有着较高的要求,因此可根据需求选择模型裁剪、半精度或INT8(8位整型)量化加速等方法来提高模型预测的吞吐量、QPS等性能指标。
示例性的,图8是根据本公开实施例提供的一种数据分类分级方案的模型迭代阶段的架构图,如图8所示,模型迭代阶段主要包括分类分级识别任务执行、用户修改及确认、模型增量训练以及模型部署4个阶段。在分类分级识别任务执行阶段,用户可在数据管理平台上配置分类分级扫描识别任务,该任务可以是一次性执行或周期性调度执行。若任务没有执行成功,则可以有任务重试机制;若任务执行成功后,可向用户展示字段的分类分级结果以及结果的置信度(如从0到1之间的实数值)。在用户修改及确认阶段,若展示的分类分级结果不正确,用户可根据自己的知识和经验修改字段标签,若分类分级结果正确,用户可批量确认。模型预测错误的样本及其正确标签可以持久化保存到数据库中,供模型下一次升级迭代时使用。在模型增量训练阶段,当错误样本达到一定数量或到达周期性训练时间时,利用存储的错误样本和对应的正确的标签进行增量训练。在模型部署阶段,根据业务需求,判断是离线推断还是在线推断。若是离线推断,可以让模型离线在测试集上验证,当测试集达到一定性能指标时且模型部署的周期性任务时间到达时,可以进行模型离线部署。同冷启动阶段类似,离线推断场景中由于对吞吐量和QPS一般没有严格要求,因此不用选择模型裁剪或模型量化等方案。若是在线推断,则选择服务化方式部署。在服务化部署中,吞吐量和QPS有着较高的要求,因此可根据需求选择模型裁剪、半精度或INT8量化加速等方法来提高模型预测的吞吐量和QPS等性能指标。同时,在模型裁剪和模型量化后,可以让模型离线在测试集上验证。当测试集达到一定性能指标时且模型部署的周期性任务时间到达时,可以自动以模型热加载的方式进行模型服务化部署。当模型上线后,还可以进行线上AB测试来观察模型在线上的表现情况。当模型升级迭代后,下一次用户在配置分类分级识别扫描任务时可以自动使用新模型来进行数据分类分级结果的预测。
图9是根据本公开实施例提供的一种用于数据分类分级的模型训练装置的结构示意图,本公开实施例可适用于对用于数据分类分级的分类模型进行训练的情况,该装置可采用硬件和/或软件的方式来实现,可配置于电子设备中。参考图9,该用于数据分类分级的模型训练装置900具体包括:
预设训练样本集获取模块901,用于获取预设训练样本集,其中,所述预设训练样本集中的预设训练样本包括样本数据对应的样本特征信息,所述样本数据包括存在分类分级需求的数据,所述预设训练样本携带有所述样本数据对应的样本类别标签,所述样本类别标签包含于预设标签库中;
样本输入模块902,用于将所述预设训练样本集中的预设训练样本和所携带的样本类别标签输入至数据分类模型中,其中,所述数据分类模型包括基于双塔结构的语义匹配模型,所述数据分类模型用于确定所述预设训练样本与所携带的样本类别标签的语义相似度;
第一训练模块903,用于根据所述数据分类模型的输出确定目标损失关系,并根据所述目标损失关系对所述数据分类模型进行训练。
本公开实施例提供的用于数据分类分级的模型训练方案,采用基于双塔结构的语义匹配模型来构建数据分类分级场景下的分类模型,提供了一种全新的用于数据分类分级的分类模型以及训练方案,训练后得到的模型能够保证数据分类结果的准确性,且对于新增类别的情况,不需要采用全量训练数据对分类模型进行重新训练,可降低模型迭代成本,提高训练效率和模型迭代效率。
在一种可选实施方式中,该装置还包括:
第一模型确定模块,用于在所述根据所述目标损失关系对所述数据分类模型进行训练之后,根据训练结果确定第一初始分类模型;
增量训练样本集获取模块,用于获取增量训练样本集,其中,所述增量训练样本集中的增量训练样本携带有新增类别对应的新增样本类别标签,所述新增样本类别标签包含于更新后的预设标签库中;
第二训练模块,用于利用所述增量训练样本集对所述第一初始分类模型进行增量训练。
在一种可选实施方式中,所述预设训练样本集通过以下方式得到:将无标注样本数据与预设类别匹配规则进行匹配,根据匹配结果为所述无标注样本数据添加初始样本标签,得到初始训练样本集;利用所述初始训练样本集对预设分类模型进行训练,并在训练过程中确定所述初始训练样本集中的各初始训练样本对所述预设分类模型的影响分数;根据所述影响分数从所述初始训练样本集中筛选出待调整训练样本;获取针对所述待调整训练样本的标签调整信息,并根据所述标签调整信息对所述初始训练样本集中的所述待调整训练样本的初始样本标签进行调整,得到预设训练样本集。
在一种可选实施方式中,所述在训练过程中确定所述初始训练样本集中的各初始训练样本对所述预设分类模型的影响分数,包括:在训练过程中,对于所述初始训练样本集中每个当前输入至所述预设分类模型的当前初始训练样本,根据所述当前初始训练样本对应的当前损失对所述预设分类模型最后一层的当前输出的梯度,确定当前初始训练样本对所述预设分类模型的影响分数。
在一种可选实施方式中,该装置还包括:
第二模型确定模块,用于在所述根据所述目标损失关系对所述数据分类模型进行训练之后,根据训练结果确定第二初始分类模型;
修订信息获取模块,用于在利用所述第二初始分类模型对待分类分级数据进行分类的过程中,获取用户针对分类结果的修订信息;
修正训练样本集构建模块,用于根据所述待分类分级数据和所述修订信息构建修正训练样本集,其中,所述修正训练样本集中的修正训练样本携带有根据所述修订信息确定的修正样本类别标签;
第三训练模块,用于利用所述修正训练样本集对所述第二初始分类模型进行增量训练。
在一种可选实施方式中,所述修正训练样本集中包含不同用户集合分别对应的样本子集,所述装置还包括:
第三模型确定模块,用于在所述利用所述修正训练样本集和所述预设标签库,对所述第二初始分类模型进行增量训练之后,根据增量训练结果确定基准数据分类模型;
对照训练样本集确定模块,用于针对目标用户集合,从所述修正训练样本集中去除所述目标用户集合对应的目标样本子集,得到对照训练样本集;
第四训练模块,用于利用所述对照训练样本集对所述第二初始分类模型进行增量训练,得到对照数据分类模型;
差异度确定模块,用于针对预设模型效果指标,确定所述基准分类模型和所述对照数据分类模型的差异度;
评分确定模块,用于根据所述差异度确定所述目标用户集合对应的目标用户集合评分。
在一种可选实施方式中,所述评分确定模块包括:
第一评分确定单元,用于根据所述差异度确定所述目标用户集合对应的第一用户集合评分;
第二评分确定单元,用于根据所述目标样本子集中的修正训练样本的数量确定所述目标用户集合对应的第二用户集合评分;
第三评分确定单元,用于根据所述第一用户集合评分和所述第二用户集合评分确定所述目标用户集合对应的目标用户集合评分。
图10是根据本公开实施例提供的一种数据分类分级装置的结构示意图,本公开实施例可适用于对数据进行分类分级的情况,该装置可采用硬件和/或软件的方式来实现,可配置于电子设备中。参考图10,数据分类分级装置1000具体包括:
输入信息确定模块1001,用于根据待分类分级数据对应的特征信息确定输入信息;
信息输入模块1002,用于将所述输入信息和预设标签库中的各类别标签输入至目标数据分类模型中,其中,所述目标数据分类模型利用本公开任意实施例所述的训练装置得到;
分类分级结果确定模块1003,用于根据所述目标数据分类模型的输出确定所述待分类分级数据的分类分级结果。
本公开实施例提供的数据分类分级方案,根据待分类分级数据对应的特征信息确定输入信息,将输入信息输入至采用本公开任意实施例所述的训练方法得到的基于双塔结构的语义匹配模型构建的目标数据分类模型中,根据目标数据分类模型的输出可以快速准确地确定待分类分级数据的分类分级结果,提高数据分类分级的准确性,且对于新增类别的情况,不需要采用全量训练数据对目标数据分类模型进行重新训练,可模型迭代效率,保证新增类别对应的待分类分级数据的分类分级结果的准确性。
在一种可选实施方式中,所述分类分级结果确定模块包括:
类别确定单元,用于根据所述目标数据分类模型的输出确定所述待分类分级数据的预测类别;
级别确定单元,用于根据所述预测类别查询预设映射关系,得到所述待分类分级数据的预测级别,其中,所述预设映射关系中包括所述预设标签库中的各类别标签与级别标签的对应关系;
分类分级结果确定单元,用于根据所述预测类别和所述预测级别确定所述待分类分级数据的分类分级结果。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,设备1100包括计算单元1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM 1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106,例如键盘、鼠标等;输出单元1107,例如各种类型的显示器、扬声器等;存储单元1108,例如磁盘、光盘等;以及通信单元1109,例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理,例如用于数据分类分级的模型训练方法或数据分类分级方法。例如,在一些实施例中,用于数据分类分级的模型训练方法或数据分类分级方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时,可以执行上文描述的用于数据分类分级的模型训练方法或数据分类分级方法的一个或多个步骤。备选地,在其他实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行用于数据分类分级的模型训练方法或数据分类分级方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)区块链网络和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。
云计算(cloud computing),指的是通过网络接入弹性可扩展的共享物理或虚拟资源池,资源可以包括服务器、操作系统、网络、软件、应用和存储设备等,并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术,可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开提供的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (20)

1.一种用于数据分类分级的模型训练方法,包括:
获取预设训练样本集,其中,所述预设训练样本集中的预设训练样本包括样本数据对应的样本特征信息,所述样本数据包括存在分类分级需求的数据,所述预设训练样本携带有所述样本数据对应的样本类别标签,所述样本类别标签包含于预设标签库中;
将所述预设训练样本集中的预设训练样本和所携带的样本类别标签输入至数据分类模型中,其中,所述数据分类模型包括基于双塔结构的语义匹配模型,所述数据分类模型用于确定所述预设训练样本与所携带的样本类别标签的语义相似度;
根据所述数据分类模型的输出确定目标损失关系,并根据所述目标损失关系对所述数据分类模型进行训练。
2.根据权利要求1所述的方法,在所述根据所述目标损失关系对所述数据分类模型进行训练之后,还包括:
根据训练结果确定第一初始分类模型;
获取增量训练样本集,其中,所述增量训练样本集中的增量训练样本携带有新增类别对应的新增样本类别标签,所述新增样本类别标签包含于更新后的预设标签库中;
利用所述增量训练样本集对所述第一初始分类模型进行增量训练。
3.根据权利要求1所述的方法,其中,所述预设训练样本集通过以下方式得到:
将无标注样本数据与预设类别匹配规则进行匹配,根据匹配结果为所述无标注样本数据添加初始样本标签,得到初始训练样本集;
利用所述初始训练样本集对预设分类模型进行训练,并在训练过程中确定所述初始训练样本集中的各初始训练样本对所述预设分类模型的影响分数;
根据所述影响分数从所述初始训练样本集中筛选出待调整训练样本;
获取针对所述待调整训练样本的标签调整信息,并根据所述标签调整信息对所述初始训练样本集中的所述待调整训练样本的初始样本标签进行调整,得到预设训练样本集。
4.根据权利要求3所述的方法,其中,所述在训练过程中确定所述初始训练样本集中的各初始训练样本对所述预设分类模型的影响分数,包括:
在训练过程中,对于所述初始训练样本集中每个当前输入至所述预设分类模型的当前初始训练样本,根据所述当前初始训练样本对应的当前损失对所述预设分类模型最后一层的当前输出的梯度,确定当前初始训练样本对所述预设分类模型的影响分数。
5.根据权利要求1所述的方法,在所述根据所述目标损失关系对所述数据分类模型进行训练之后,还包括:
根据训练结果确定第二初始分类模型;
在利用所述第二初始分类模型对待分类分级数据进行分类的过程中,获取用户针对分类结果的修订信息;
根据所述待分类分级数据和所述修订信息构建修正训练样本集,其中,所述修正训练样本集中的修正训练样本携带有根据所述修订信息确定的修正样本类别标签;
利用所述修正训练样本集对所述第二初始分类模型进行增量训练。
6.根据权利要求5所述的方法,其中,所述修正训练样本集中包含不同用户集合分别对应的样本子集,在所述利用所述修正训练样本集对所述第二初始分类模型进行增量训练之后,还包括:
根据增量训练结果确定基准数据分类模型;
针对目标用户集合,从所述修正训练样本集中去除所述目标用户集合对应的目标样本子集,得到对照训练样本集;
利用所述对照训练样本集对所述第二初始分类模型进行增量训练,得到对照数据分类模型;
针对预设模型效果指标,确定所述基准分类模型和所述对照数据分类模型的差异度;
根据所述差异度确定所述目标用户集合对应的目标用户集合评分。
7.根据权利要求6所述的方法,其中,所述根据所述差异度确定所述目标用户集合对应的目标用户集合评分,包括:
根据所述差异度确定所述目标用户集合对应的第一用户集合评分;
根据所述目标样本子集中的修正训练样本的数量确定所述目标用户集合对应的第二用户集合评分;
根据所述第一用户集合评分和所述第二用户集合评分确定所述目标用户集合对应的目标用户集合评分。
8.一种数据分类分级方法,包括:
根据待分类分级数据对应的特征信息确定输入信息;
将所述输入信息和预设标签库中的各类别标签输入至目标数据分类模型中,其中,所述目标数据分类模型采用如权利要求1-7任一所述的训练方法得到;
根据所述目标数据分类模型的输出确定所述待分类分级数据的分类分级结果。
9.根据权利要求8所述的方法,其中,所述根据所述目标数据分类模型的输出确定所述待分类分级数据的分类分级结果,包括:
根据所述目标数据分类模型的输出确定所述待分类分级数据的预测类别;
根据所述预测类别查询预设映射关系,得到所述待分类分级数据的预测级别,其中,所述预设映射关系中包括所述预设标签库中的各类别标签与级别标签的对应关系;
根据所述预测类别和所述预测级别确定所述待分类分级数据的分类分级结果。
10.一种用于数据分类分级的模型训练装置,包括:
预设训练样本集获取模块,用于获取预设训练样本集,其中,所述预设训练样本集中的预设训练样本包括样本数据对应的样本特征信息,所述样本数据包括存在分类分级需求的数据,所述预设训练样本携带有所述样本数据对应的样本类别标签,所述样本类别标签包含于预设标签库中;
样本输入模块,用于将所述预设训练样本集中的预设训练样本和所携带的样本类别标签输入至数据分类模型中,其中,所述数据分类模型包括基于双塔结构的语义匹配模型,所述数据分类模型用于确定所述预设训练样本与所携带的样本类别标签的语义相似度;
第一训练模块,用于根据所述数据分类模型的输出确定目标损失关系,并根据所述目标损失关系对所述数据分类模型进行训练。
11.根据权利要求10所述的装置,还包括:
第一模型确定模块,用于在所述根据所述目标损失关系对所述数据分类模型进行训练之后,根据训练结果确定第一初始分类模型;
增量训练样本集获取模块,用于获取增量训练样本集,其中,所述增量训练样本集中的增量训练样本携带有新增类别对应的新增样本类别标签,所述新增样本类别标签包含于更新后的预设标签库中;
第二训练模块,用于利用所述增量训练样本集对所述第一初始分类模型进行增量训练。
12.根据权利要求10所述的装置,其中,所述预设训练样本集通过以下方式得到:
将无标注样本数据与预设类别匹配规则进行匹配,根据匹配结果为所述无标注样本数据添加初始样本标签,得到初始训练样本集;
利用所述初始训练样本集对预设分类模型进行训练,并在训练过程中确定所述初始训练样本集中的各初始训练样本对所述预设分类模型的影响分数;
根据所述影响分数从所述初始训练样本集中筛选出待调整训练样本;
获取针对所述待调整训练样本的标签调整信息,并根据所述标签调整信息对所述初始训练样本集中的所述待调整训练样本的初始样本标签进行调整,得到预设训练样本集。
13.根据权利要求12所述的装置,其中,所述在训练过程中确定所述初始训练样本集中的各初始训练样本对所述预设分类模型的影响分数,包括:
在训练过程中,对于所述初始训练样本集中每个当前输入至所述预设分类模型的当前初始训练样本,根据所述当前初始训练样本对应的当前损失对所述预设分类模型最后一层的当前输出的梯度,确定当前初始训练样本对所述预设分类模型的影响分数。
14.根据权利要求10所述的装置,还包括:
第二模型确定模块,用于在所述根据所述目标损失关系对所述数据分类模型进行训练之后,根据训练结果确定第二初始分类模型;
修订信息获取模块,用于在利用所述第二初始分类模型对待分类分级数据进行分类的过程中,获取用户针对分类结果的修订信息;
修正训练样本集构建模块,用于根据所述待分类分级数据和所述修订信息构建修正训练样本集,其中,所述修正训练样本集中的修正训练样本携带有根据所述修订信息确定的修正样本类别标签;
第三训练模块,用于利用所述修正训练样本集和所述预设标签库,对所述第二初始分类模型进行增量训练。
15.根据权利要求14所述的装置,其中,所述修正训练样本集中包含不同用户集合分别对应的样本子集,所述装置还包括:
第三模型确定模块,用于在所述利用所述修正训练样本集对所述第二初始分类模型进行增量训练之后,根据增量训练结果确定基准数据分类模型;
对照训练样本集确定模块,用于针对目标用户集合,从所述修正训练样本集中去除所述目标用户集合对应的目标样本子集,得到对照训练样本集;
第四训练模块,用于利用所述对照训练样本集对所述第二初始分类模型进行增量训练,得到对照数据分类模型;
差异度确定模块,用于针对预设模型效果指标,确定所述基准分类模型和所述对照数据分类模型的差异度;
评分确定模块,用于根据所述差异度确定所述目标用户集合对应的目标用户集合评分。
16.根据权利要求15所述的装置,其中,所述评分确定模块包括:
第一评分确定单元,用于根据所述差异度确定所述目标用户集合对应的第一用户集合评分;
第二评分确定单元,用于根据所述目标样本子集中的修正训练样本的数量确定所述目标用户集合对应的第二用户集合评分;
第三评分确定单元,用于根据所述第一用户集合评分和所述第二用户集合评分确定所述目标用户集合对应的目标用户集合评分。
17.一种数据分类分级装置,包括:
输入信息确定模块,用于根据待分类分级数据对应的特征信息确定输入信息;
信息输入模块,用于将所述输入信息和预设标签库中的各类别标签输入至目标数据分类模型中,其中,所述目标数据分类模型利用如权利要求10-16任一所述的训练装置得到;
分类分级结果确定模块,用于根据所述目标数据分类模型的输出确定所述待分类分级数据的分类分级结果。
18.根据权利要求17所述的装置,其中,所述分类分级结果确定模块包括:
类别确定单元,用于根据所述目标数据分类模型的输出确定所述待分类分级数据的预测类别;
级别确定单元,用于根据所述预测类别查询预设映射关系,得到所述待分类分级数据的预测级别,其中,所述预设映射关系中包括所述预设标签库中的各类别标签与级别标签的对应关系;
分类分级结果确定单元,用于根据所述预测类别和所述预测级别确定所述待分类分级数据的分类分级结果。
19.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。
CN202310132275.XA 2023-02-17 2023-02-17 模型训练方法、数据分类分级方法、装置、设备及介质 Pending CN116127376A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310132275.XA CN116127376A (zh) 2023-02-17 2023-02-17 模型训练方法、数据分类分级方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310132275.XA CN116127376A (zh) 2023-02-17 2023-02-17 模型训练方法、数据分类分级方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN116127376A true CN116127376A (zh) 2023-05-16

Family

ID=86304522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310132275.XA Pending CN116127376A (zh) 2023-02-17 2023-02-17 模型训练方法、数据分类分级方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116127376A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116757775A (zh) * 2023-06-14 2023-09-15 上海任意门科技有限公司 模型训练方法及召回方法
CN116975400A (zh) * 2023-08-03 2023-10-31 星环信息科技(上海)股份有限公司 一种数据分级分类方法、装置、电子设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116757775A (zh) * 2023-06-14 2023-09-15 上海任意门科技有限公司 模型训练方法及召回方法
CN116975400A (zh) * 2023-08-03 2023-10-31 星环信息科技(上海)股份有限公司 一种数据分级分类方法、装置、电子设备及存储介质
CN116975400B (zh) * 2023-08-03 2024-05-24 星环信息科技(上海)股份有限公司 一种数据分类分级方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN112560912B (zh) 分类模型的训练方法、装置、电子设备和存储介质
US20220383190A1 (en) Method of training classification model, method of classifying sample, and device
CN116127376A (zh) 模型训练方法、数据分类分级方法、装置、设备及介质
CN117453921B (zh) 一种大语言模型的数据信息标签处理方法
CN113590796B (zh) 排序模型的训练方法、装置和电子设备
CN111859953B (zh) 训练数据的挖掘方法、装置、电子设备及存储介质
CN116089873A (zh) 模型训练方法、数据分类分级方法、装置、设备及介质
CN111667056A (zh) 用于搜索模型结构的方法和装置
US20220100967A1 (en) Lifecycle management for customized natural language processing
CN112328798A (zh) 文本分类方法以及装置
CN113869034B (zh) 基于强化依赖图的方面情感分类方法
CN111814056A (zh) 基于信息处理的供应商推荐方法及相关设备
WO2022072237A1 (en) Lifecycle management for customized natural language processing
CN113642727A (zh) 神经网络模型的训练方法和多媒体信息的处理方法、装置
CN117688946A (zh) 基于大模型的意图识别方法、装置、电子设备和存储介质
CN115248890A (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
CN111813941A (zh) 结合rpa和ai的文本分类方法、装置、设备及介质
WO2023102831A1 (en) Systems and methods to search for digital twins
CN111695036B (zh) 内容推荐方法及装置
CN114611609A (zh) 一种图网络模型节点分类方法、装置、设备及存储介质
CN114817476A (zh) 语言模型的训练方法、装置、电子设备和存储介质
CN113094504A (zh) 基于自动机器学习的自适应文本分类方法及装置
CN112949313A (zh) 信息处理模型训练方法、装置、设备及存储介质
CN111859124A (zh) 一种目标对象智能推荐方法
CN112784033B (zh) 一种时效等级识别模型训练及应用的方法、及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination