CN113569957A - 一种业务对象的对象类型识别方法、装置及存储介质 - Google Patents

一种业务对象的对象类型识别方法、装置及存储介质 Download PDF

Info

Publication number
CN113569957A
CN113569957A CN202110864070.1A CN202110864070A CN113569957A CN 113569957 A CN113569957 A CN 113569957A CN 202110864070 A CN202110864070 A CN 202110864070A CN 113569957 A CN113569957 A CN 113569957A
Authority
CN
China
Prior art keywords
classifier
sample
object type
prediction
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110864070.1A
Other languages
English (en)
Inventor
兰亭
徐琳玲
王娜
倪俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110864070.1A priority Critical patent/CN113569957A/zh
Publication of CN113569957A publication Critical patent/CN113569957A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例涉及人工智能领域,具体公开了一种业务对象的对象类型识别方法、装置及存储介质,所述方法包括:接收目标业务对象的业务数据;获取预先构建的对象类型识别模型,所述对象类型识别模型包括两个以上依次关联的分类器;其中,所述分类器基于配置有样本权重的不平衡样本集构建;除第一个分类器之外的其他分类器训练时所对应的样本权重基于相应分类器的前一个分类器的预测结果确定;利用所述对象类型识别模型的各分类器对所述业务数据进行处理,得到各分类器对所述业务数据的处理结果;基于所述各分类器对所述业务数据的处理结果,确定所述目标业务对象的对象类型,从而进一步提高业务对象的对象类型识别的准确性。

Description

一种业务对象的对象类型识别方法、装置及存储介质
技术领域
本说明书涉及人工智能技术领域,特别地,涉及一种业务对象的对象类型识别方法、装置及存储介质。
背景技术
不平衡样本是指在一个分类预测场景中,各类样本出现概率不均衡,如异常检测(异常的概率较小)。RUSBoost是一种针对不平衡样本的预测方法,在每轮迭代中,对多数类样本抽样,训练弱分类器,获取预测误差,以此作为弱分类器的权重(误差越大权重越小),累加各轮弱分类器预测各类时的得分,取预测得分最高的类别为最终预测类别。而在一个正样本数远远小于负样本数的场景中,直接调用RUSBoost方法获取的预测效果有限,且当多数类抽样至与少数类均衡时,多数类的抽样结果可能不具有代表性,也降低了训练集的稳定性。
发明内容
本说明书实施例的目的在于提供一种业务对象的对象类型识别方法、装置及存储介质,可以提高业务对象的对象类型识别的准确性及稳定性。
本说明书提供一种业务对象的对象类型识别方法、装置及存储介质是包括如下方式实现的:
一种业务对象的对象类型识别方法,所述方法包括:接收目标业务对象的业务数据;获取预先构建的对象类型识别模型,所述对象类型识别模型包括两个以上依次关联的分类器;其中,所述分类器基于配置有样本权重的不平衡样本集构建;除第一个分类器之外的其他分类器训练时所对应的样本权重基于相应分类器的前一个分类器的预测结果确定;利用所述对象类型识别模型的各分类器对所述业务数据进行处理,得到各分类器对所述业务数据的处理结果;基于所述各分类器对所述业务数据的处理结果,确定所述目标业务对象的对象类型。
另一方面,本说明书实施例提供一种业务对象的对象类型识别装置,应用于服务器,所述装置包括:接收模块,用于接收目标业务对象的业务数据;获取模块,用于获取预先构建的对象类型识别模型,所述对象类型识别模型包括两个以上依次关联的分类器;其中,所述分类器基于配置有样本权重的不平衡样本集构建;除第一个分类器之外的其他分类器训练时所对应的样本权重基于相应分类器的前一个分类器的预测结果确定;预测模块,用于利用所述对象类型识别模型的各分类器对所述业务数据进行处理,得到各分类器对所述业务数据的处理结果;类型确定模块,用于基于所述各分类器对所述业务数据的处理结果,确定所述目标业务对象的对象类型。
另一方面,本说明书实施例提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现上述任意一个或者多个实施例所述方法的步骤。
本说明书一个或多个实施例提供的业务对象的对象类型识别方法、装置及存储介质,针对不平衡样本二分类场景,通过直接基于不平衡样本集进行模型的训练,可以提升训练集的代表性和稳定性。在样本权重更迭过程中,可以进一步提升错判样本的权重,并扩大样本权重的方差,提升错判样本的重要性,使模型在迭代训练中,更多关注错判样本,提升模型整体预测结果的准确性。通过进一步给出一种定量的分类器错误率的计算方法,可以使得错误率的确定更加准确,且也更加便于测试人员分析理解。同时,还给出一种新的分类器预测权重的定量计算方式,使得预测权重的确定更加准确,从而进一步提高业务对象的对象类型识别的准确性及稳定性。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本说明书提供的对象类型识别模型的训练以及测试流程示意图;
图2为本说明书提供的业务对象的对象类型识别方法的实施流程示意图;
图3为本说明书提供的业务对象的对象类型识别装置的模块结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是说明书一部分实施例,而不是全部的实施例。基于说明书一个或多个实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书实施例方案保护的范围。
所述业务对象的对象类型识别方法可以应用于单个服务器或由多个服务器组成的服务器集群,或者也可以应用于可执行数据处理功能的智能终端设备等。所述业务对象可以为业务用户、业务产品、业务订单等等,以实现异常用户/产品/订单识别等等。相应的,所述对象类型如可以为正常/异常等。当然,所述业务对象根据应用场景需求,还可以为其他类型,如所述对象类型还可以为有风险/无风险。通常业务系统中,异常业务对象数据量较少,正常业务对象的数据量较多,若按数据量占比进行样本抽取,则构建的样本集中不同对象类型的样本所对应的样本数量占比差距较大,造成样本集中不同对象类型的样本数量存在严重不平衡。然而多数分类算法都有一个基本假设,即数据分布均匀,因此,样本数量的不平衡会在一定程度上影响分类器的性能,分类器可能将感兴趣的异常业务对象识别为噪声,并在学习过程中忽略它们,导致在评估一个分类器性能时,会出现全局评估性能很好而异常业务对象正确识别率不高的现象。
针对上述问题,目前通常采用过采样或欠采样的方式,来平衡样本集中不同对象类型的样本数量占比。欠采样通常通过删减样本数量占比较大的对象类型对应的样本,以平衡样本集中不同对象类型的样本数量占比。但欠采样会忽略不同业务对象的数据实际分布情况,从而丢失该部分信息,使得最终构建分类器的准确率较难保证。过采样则通常通过提升样本数量占比较小的对象类型对应的样本,以平衡样本集中不同对象类型的样本数量占比。如可以通过复制样本或模拟生成新样本等方式来提升相应类型的样本数量。但采用过采样的方式,则可能容易存在过拟合或噪声过大的问题,使得构建的分类器的泛华能力不强。
相应的,本说明书实施例提供一种基于原始采集的不平衡样本集进行分类器构建的方法,以基于构建的分类器实现业务对象的对象类型识别,避免过采样或欠采样带来的问题,以及降低因样本数量占比不平衡导致的正确识别率不高的现象。利用本说明书实施例提供的方案,可以在保留实际业务有效信息的同时,提升异常业务对象识别的准确性。
本说明书提供的一个场景示例中,以业务对象的对象类型识别方法应用服务器,对象类型为正常/异常为例进行说明。服务器可以先构建对象类型识别模型。所述对象类型识别模型可以包括两个以上依次关联的分类器。其中,所述分类器可以基于不平衡样本集构建。所述不平衡样本集可以包括正样本以及负样本。正、负样本可以与异常业务对象、正常业务对象对应。
所述不平衡样本集可以是指根据业务系统中的正常业务对象、异常业务对象的实际数量占比进行样本抽取得到的样本集。如对预设时间区间内的业务对象进行样本抽取,则可以先提取该预设时间区间内业务系统中的正常业务对象、异常业务对象的数量占比,作为样本抽取比例。如提取的正常业务对象、异常业务对象的数量占比为10091∶1,则可以将10091∶1作为样本抽取比例,基于10091∶1从业务系统中抽取正/负样本。或者,也可以将该提取的数量占比10091∶1所对应的数量级10000∶1,作为样本抽取比例,以基于10000∶1从业务系统中抽取正/负样本。
所述分类器所采用的架构可以根据需要配置,如可以采用决策树、贝叶斯、支持向量机等。优选的,所述分类器可以采用LightGBM算法构建。
可以将不平衡样本集作为训练集,对对象类型识别模型的各分类器依次进行训练。为所述不平衡样本集中各样本配置样本标签。本场景示例中可以假设,所述正样本的样本标签为异常业务对象,所述负样本的样本标签为正常业务对象。当然,上述假设仅为便于描述设定,实际应用中,也可以采用正样本的样本标签为正常业务对象、负样本的样本标签为异常业务对象。为了便于处理,可以配置样本标签y(i)的值,负样本的样本标签y(i)值为0,正样本的样本标签y(i)值为1。当然,实际应用中,也可以采用其他的标签值配置方式,这里不做限定。
训练开始,先初始化不平衡样本集中各样本的样本权重。可以配置所述不平衡样本集中各样本的样本权重采用指定权重值。如样本权重可以初始化为1/N,其中,N表示不平衡样本集的样本数。可以利用该初始配置权重1/N的不平衡样本集进行第一轮分类器的训练,即构建第一个分类器。优选的,在所述分类器基于LightGBM算法构建的情况下,可以配置所述不平衡样本集中各样本的样本权重为1。样本权重为1的情况下,可以获得较优的类型识别效果。相应的,
Figure BDA0003186727550000041
其中,wt(i)表示所述不平衡样本集中样本i对应的样本权重,下标t表示当前训练的分类器标识,t=1表示第一个分类器的标识。可以利用配置有样本权重
Figure BDA0003186727550000051
及样本标签y(i)的不平衡样本集训练第一个分类器。
对于任意一个分类器t,在训练完成后,可以利用训练得到的分类器t对所述不平衡样本集中的各样本进行预测,得到各样本i预测为正样本的概率pt(i),其中,pt(i)∈[0,1]。
可以获取预先配置的指定预测阈值s,若pt(i)≥s,则预测结果yt(i)′=1(正样本),若pt(i)<s,则预测结果yt(i)′=0(负样本)。
则样本i预测正确的概率rt(i)为:rt(i)=y(i)×pt(i)+(1-y(i))×(1-pt(i))。
比对样本i的预测结果yt(i)′与样本标签y(i):
若样本i预测正确:yt(i)=yt(i)′,则prt(i)=1;或,yt(i)≠yt(i)′,则prt(i)=0;
若样本i预测错误:yt(i)=yt(i)′,则pwt(i)=0;或,yt(i)≠yt(i)′,则pwt(i)=1。
可以根据上述预测正确情况以及正确的概率更新所述不平衡样本集中各样本的样本权重。相应的,wt+1(i)=prt(i)×rt(i)+pwt(i)×(1+rt(i))。以基于更新后的样本权重wt+1(i)训练下一个分类器(t+1)。
之后,可以基于配置有样本权重wt+1(i)的所述不平衡样本集训练标识为(t+1)的分类器。
对所述对象类型识别模型的各分类器依据上述方式依次进行训练,通过上述方式,基于前一个分类器对某样本的预测正确情况以及预测正确的概率更新该样本的样本权重,可以提升被错误预测的样本的权重,以在后续分类器训练时更关注该类样本,以使后续分类器针对此类样本进行增强训练,提高最终构建的识别模型的识别准确性。
另一些实施方式中,还可以提取所述不平衡样本集中各样本的样本权重wt+1(i)的最大值,作为基准权重wmt+1。利用所述基准权重wmt+1更新所述不平衡样本集中各样本的样本权重,得到更新后的样本权重
Figure BDA0003186727550000052
其中,
Figure BDA0003186727550000053
可以利用配置有样本权重
Figure BDA0003186727550000054
的所述不平衡样本集训练标识为(t+1)的分类器。此处进一步利用权重最大值对初始计算的样本权重进行调整,可以扩大样本间权重的方差,进一步提升错判样本的关注重要度,使得在后续分类器的训练中,更加关注错判样本,从而进一步提高最终构建的识别模型的识别准确性。
对于任意一个分类器t,在训练完成后,还可以获取分类器t训练时所对应的样本权重wt(i)。并计算分类器t的预测错误率et。其中,
et=wswt/wst
wst表示所述不平衡样本集中各样本的样本权重wt(i)的和,wswt表示所述指定分类器预测错误的各样本的样本权重wt(i)的和。
Figure BDA0003186727550000061
Figure BDA0003186727550000062
T表示所述对象类型识别模型所包含的分类器的数量。
通过上述方式计算分类器的预测错误率,可以使得错误率预测更加准确高效。
还可以基于预测错误率确定分类器的预测权重,以基于所述对象类型识别模型中各分类器的预测权重以及各分类器对所述业务数据的处理结果,确定所述目标业务对象的对象类型。通过进一步结合预测错误率来作为各分类器对预测结果的影响重要度,可以在综合各分类器预测结果的基础上,进一步提高预测结果的准确性。
优选的,还可以根据预测错误率计算分类器的权重评价因子αt;其中,αt=et/(1-et);
提取所述对象类型识别模型的各分类器的权重评价因子中不为零的最小值αmin
利用下述方式确定分类器的预测权重west
若αt≠0,则west=log(1/αt);
若αt=0,则west=log(1/αmin)+1。
可以将上述计算得到的各分类器预测错误率et以及预测权重west进行关联存储,以在后续测试或者识别过程中使用。
图1为本说明书提供的另一个场景示例中模型训练以及测试流程示意图。可以将样本集中样本数量占比较多的样本描述为多数类样本,样本数量占比较小的样本描述为少数类样本。并设定多数类为负样本,样本标签y(i)为0,少数类为正样本,样本标签y(i)为1。
假设,训练集样本数为N,训练集样本编号i∈[1,N]。测试集样本数为M,测试集样本编号j∈[1,M]。
如图1所示,可以采用下述步骤进行模型的训练以及测试。
S101:初始化训练集中各样本的样本权重为1。
Figure BDA0003186727550000071
下标t表示当前训练轮次,t=1表示第1轮训练,也即对第一个分类器进行训练。对象类型识别模型的各分类器是依次进行训练的,可以将第一轮训练的分类器作为第一个分类器,依次类推。
S102:判断当前训练轮次是否小于等于预设轮次T。
训练轮次计数变量t,初始化为1,t=1表示当前为第1轮训练。预设轮次T,一般取5或10。
如果t≤T,则进入训练,否则训练结束。
S103:训练分类器,预测各样本为正样本的概率。
基于配置有样本权重的训练集对分类器进行训练。训练完成后,对训练集的各样本进行预测,获取训练集各样本预测为正样本的概率pt(i)∈[0,1]。
S104:获取各样本预测正确的概率。
训练集各样本预测正确的概率为rt(i)=y(i)×pt(i)+(1-y(i))×(1-pt(i))。
S105:根据指定预测阈值,区分预测结果为正样本还是负样本。
假设分类器的指定预测阈值为s,一般设置为0.5。若pt(i)≥s,则预测结果yt(i)′为1(正样本),若pt(i)<s,则预测结果yt(i)′为0(负样本)。
S106:根据样本标签、样本的预测结果、样本权重,计算分类器的预测错误率和α值。
获取训练集各样本权重wt(i),t∈[1,T],下标t是当前训练轮次。
各错判的样本权重之和
Figure BDA0003186727550000072
y(i)≠yt(i)′,t∈[1,T]。
各样本权重之和
Figure BDA0003186727550000073
t∈[1,T]。
则当前分类器t的预测错误率et=wswt/wst,t∈[1,T]。预测错误率可以供分析人员观测各分类器的错误率的变化。根据该预测错误率计算方式,可以使得预测错误率更加便于理解和观测。
当前分类器t的α值,αt=et/(1-et),t∈[1,T]。
S107:根据各样本的预测结果和预测正确的概率,计算各样本在新一轮训练中的权重。
样本预测正确,prt(i)=1,yt(i)=yt(i)′;prt(i)=0,yt(i)≠yt(i)′。
样本预测错误,pwt(i)=1,yt(i)≠yt(i)′;pwt(i)=0,yt(i)=yt(i)′。
获取在步骤S104计算的训练集各样本预测正确的概率rt(i),其中,rt(i)=y(i)×pt(i)+(1-y(i))×(1-pt(i))。
训练集各样本在新一轮训练中的权重wt+1(i)=prt(i)×rt(i)+pwt(i)×(1+rt(i)),以提升错判样本的权重。
S108:根据训练集样本在新一轮训练中的权重的最大值,更新各样本在新一轮训练中的权重。
各训练集样本在新一轮训练中权重的最大值wmt+1=max{wt+1(i),i∈[1,N]}。
各训练集样本在新一轮训练中的权重wt+1(i)=wt+1(i)/wmt+1。通过该调整可以扩大样本间权重的方差,进一步提升了错判样本的重要性,使模型在迭代训练中,更多关注错判样本。
S109:保存当前训练的分类器、α值、错误率。
S110:当前训练轮次+1。
S111:训练结束,根据训练生成的分类器、α值,预测测试集,获取预测得分。
计算各α值中,最小不为0的α值αmin=min{αt≠0,t∈[1,T]}。
计算各分类器权重west
west=log(1/αt),αt≠0,t∈[1,T];
west=log(1/αmin)+1,αt=0,t∈[1,T]。
输入测试集的各样本,通过之前训练生成的各分类器ht,t∈[1,T],预测测试集的各样本为正样本的概率pt(j)∈[0,1],t∈[1,T]。
计算测试集的各样本的预测得分
Figure BDA0003186727550000081
S112:根据测试集的样本标签和预测得分,观察模型预测效果。
对测试集的各样本,按预测得分proba(j)降序排序,若预测得分大于等于指定预测阈值,则预测结果为1(正样本),若预测得分小于指定预测阈值,则预测结果为0(负样本)。可通过观察测试集的样本标签和预测结果,分析模型的预测效果。
针对不平衡样本二分类场景,利用上述场景示例提供的方案,通过直接基于不平衡样本集进行模型的训练,可以提升训练集的代表性和稳定性。在样本权重更迭过程中,可以进一步提升错判样本的权重,并扩大样本权重的方差,提升错判样本的重要性,使模型在迭代训练中,更多关注错判样本,提升模型整体预测结果的准确性。通过进一步给出一种定量的分类器错误率的计算方法,可以使得错误率的确定更加准确,且也更加便于测试人员分析理解。同时,还给出一种新的分类器预测权重的定量计算方式,使得预测权重的确定更加准确。且还增加对各分类器的权重评价因子α为0的特殊处理,进一步实现特殊情况下的预测权重确定。
基于上述场景示例,本说明书还提供一种业务对象的对象类型识别方法。图2是本说明书提供的所述业务对象的对象类型识别方法实施例流程示意图。如图2所示,本说明书提供的业务对象的对象类型识别方法的一个实施例中,所述方法可以应用于服务器。所述方法可以包括如下步骤。
S20:接收目标业务对象的业务数据。所述业务数据所包含的数据类型及特征可以根据业务对象的类型以及识别场景配置。
S22:获取预先构建的对象类型识别模型,所述对象类型识别模型包括两个以上依次关联的分类器;其中,所述分类器基于配置有样本权重的不平衡样本集构建;除第一个分类器之外的其他分类器训练时所对应的样本权重基于相应分类器的前一个分类器的预测结果确定。
可以先从业务系统中抽取样本,构建不平衡样本集。所述不平衡样本集中各对象类型所对应的样本数量占比可以根据各对象类型在业务系统中的业务对象数量占比确定。可以对不平衡样本集中各样本配置样本权重,以区分各样本在分类器训练过程中的关注度。
可以先初始化配置不平衡样本集中各样本的样本权重,以基于初始化配置的样本权重训练第一个分类器。优选的,在所述分类器基于LightGBM算法构建的情况下,所述对象类型识别模型的第一个分类器采用下述方式训练:配置所述不平衡样本集中各样本的样本权重为1;利用配置有样本权重1的所述不平衡样本集训练所述对象类型识别模型的第一个分类器。
可以将所述对象类型识别模型中除第一个分类器之外的任一待训练的分类器,作为目标分类器,利用下述方式配置目标分类器训练时,所述不平衡样本集中各样本的样本权重:
wt+1(i)=prt(i)×rt(i)+pwt(i)×(1+rt(i))
其中,wt+1(i)表示样本i对应的样本权重,t+1表示目标分类器的标识,t表示目标分类器的前一个分类器的标识,t≥1;若yt(i)=yt(i)′,则prt(i)=1;若yt(i)≠yt(i)′,则prt(i)=0;若yt(i)≠yt(i)′,则pwt(i)=1;若yt(i)=yt(i)′,则pwt(i)=0;rt(i)=y(i)×pt(i)+(1-y(i))×(1-pt(i));yt(i)表示样本i的实际标签、yt(i)′表示标识为t的分类器对样本i的预测标签,pt(i)表示标识为t的分类器预测样本i属于指定标签的概率。
利用配置有样本权重wt+1(i)的所述不平衡样本集训练所述目标分类器。
或者,还可以提取所述不平衡样本集中各样本的样本权重wt+1(i)的最大值,作为基准权重wmt+1;利用所述基准权重wmt+1更新所述不平衡样本集中各样本的样本权重,得到更新后的样本权重
Figure BDA0003186727550000101
其中,
Figure BDA0003186727550000102
相应的,可以利用配置有样本权重
Figure BDA0003186727550000103
的所述不平衡样本集训练所述目标分类器。
S24:利用所述对象类型识别模型的各分类器对所述业务数据进行处理,得到各分类器对所述业务数据的处理结果。
S26:基于所述各分类器对所述业务数据的处理结果,确定所述目标业务对象的对象类型。
在训练过程中,可以将任一分类器作为指定分类器。获取所述指定分类器训练时所对应的样本权重wt(i);其中,t表示指定分类器的标识,i表示样本标识。计算所述指定分类器的预测错误率et;其中,et=wswt/wst,wst表示所述不平衡样本集中各样本的样本权重wt(i)的和;wswt表示所述指定分类器预测错误的各样本的样本权重wt(i)的和。
相应的,在对象类型识别过程中,可以根据所述预测错误率确定所述指定分类器的预测权重;基于所述对象类型识别模型中各分类器的预测权重以及各分类器对所述业务数据的处理结果,确定所述目标业务对象的对象类型。
一些实施例中,还可以根据所述预测错误率计算所述指定分类器的权重评价因子αt;其中,αt=et/(1-et)。提取所述对象类型识别模型的各分类器的权重评价因子中不为零的最小值αmin。并利用下述方式确定所述指定分类器的预测权重west
若αt≠0,则west=log(1/αt);
若αt=0,则west=log(1/αmin)+1。
相应的,还可以计算各分类器对所述目标业务对象的预测得分proba(j);其中,
Figure BDA0003186727550000111
pt(j)表示标识为t的分类器预测目标业务对象j属于指定标签的概率,T表示所述对象类型识别模型所包含的分类器的数目。所述指定标签可以为对象类型中的一种。例如,所述对象类型为异常/正常,则所述指定标签可以为正常,也可以为异常。例如,在上述场景示例中,所述指定标签即为异常业务对象。
若预测得分proba(j)大于等于指定预测阈值,则目标业务对象j的对象类型为指定标签。若预测得分proba(j)小于指定预测阈值,则目标业务对象j的对象类型为非指定标签。
基于上述业务对象的对象类型识别方法,本说明书实施例还提供一种业务对象的对象类型识别装置。如图3所示,所述装置可以包括:接收模块30,用于接收目标业务对象的业务数据;获取模块32,用于获取预先构建的对象类型识别模型,所述对象类型识别模型包括两个以上依次关联的分类器;其中,所述分类器基于配置有样本权重的不平衡样本集构建;除第一个分类器之外的其他分类器训练时所对应的样本权重基于相应分类器的前一个分类器的预测结果确定;预测模块34,用于利用所述对象类型识别模型的各分类器对所述业务数据进行处理,得到各分类器对所述业务数据的处理结果;类型确定模块36,用于基于所述各分类器对所述业务数据的处理结果,确定所述目标业务对象的对象类型。
需要说明的,上述所述的装置根据上述实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本说明书还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现包括上述任意一个或者多个实施例所述方法的步骤。所述存储介质可以包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括:利用电能方式存储信息的装置如,各式存储器,如RAM、ROM等;利用磁能方式存储信息的装置如,硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息的装置如,CD或DVD。当然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。
需要说明的是,本说明书实施例并不局限于必须是符合标准数据模型/模板或本说明书实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例,仍然可以属于本说明书的可选实施方案范围之内。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述并不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (10)

1.一种业务对象的对象类型识别方法,其特征在于,所述方法包括:
接收目标业务对象的业务数据;
获取预先构建的对象类型识别模型,所述对象类型识别模型包括两个以上依次关联的分类器;其中,所述分类器基于配置有样本权重的不平衡样本集构建;除第一个分类器之外的其他分类器训练时所对应的样本权重基于相应分类器的前一个分类器的预测结果确定;
利用所述对象类型识别模型的各分类器对所述业务数据进行处理,得到各分类器对所述业务数据的处理结果;
基于所述各分类器对所述业务数据的处理结果,确定所述目标业务对象的对象类型。
2.根据权利要求1所述的方法,其特征在于,在所述分类器基于LightGBM算法构建的情况下,所述对象类型识别模型的第一个分类器采用下述方式训练:
配置所述不平衡样本集中各样本的样本权重为1;
利用配置有样本权重1的所述不平衡样本集训练所述对象类型识别模型的第一个分类器。
3.根据权利要求1所述的方法,其特征在于,所述对象类型识别模型中除第一个分类器之外的其他分类器采用下述方式训练:
将所述对象类型识别模型中除第一个分类器之外的任一待训练的分类器,作为目标分类器;
利用下述方式配置所述不平衡样本集中各样本的样本权重:
wt+1(i)=prt(i)×rt(i)+pwt(i)×(1+rt(i))
其中,wt+1(i)表示样本i对应的样本权重,t+1表示目标分类器的标识,t表示目标分类器的前一个分类器的标识,t≥1;若yt(i)=yt(i)′,则prt(i)=1;若yt(i)≠yt(i)′,则prt(i)=0;若yt(i)≠yt(i)′,则pwt(i)=1;若yt(i)=yt(i)′,则pwt(i)=0;rt(i)=y(i)×pt(i)+(1-y(i))×(1-pt(i));yt(i)表示样本i的实际标签、yt(i)′表示标识为t的分类器对样本i的预测标签,pt(i)表示标识为t的分类器预测样本i属于指定标签的概率;
利用配置有样本权重wt+1(i)的所述不平衡样本集训练所述目标分类器。
4.根据权利要求3所述的方法,其特征在于,所述配置所述不平衡样本集中各样本的样本权重,还包括:
提取所述不平衡样本集中各样本的样本权重wt+1(i)的最大值,作为基准权重wmt+1
利用所述基准权重wmt+1更新所述不平衡样本集中各样本的样本权重,得到更新后的样本权重
Figure FDA0003186727540000021
其中,
Figure FDA0003186727540000022
相应的,利用配置有样本权重
Figure FDA0003186727540000023
的所述不平衡样本集训练所述目标分类器。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述对象类型识别模型的任一分类器作为指定分类器;
获取所述指定分类器训练时所对应的样本权重wt(i);其中,t表示指定分类器的标识,i表示样本标识;
计算所述指定分类器的预测错误率et;其中,et=wswt/wst,wst表示所述不平衡样本集中各样本的样本权重wt(i)的和;wswt表示所述指定分类器预测错误的各样本的样本权重wt(i)的和。
6.根据权利要求5所述的方法,其特征在于,所述基于所述对象类型识别模型中各分类器对所述业务数据的处理结果,确定所述目标业务对象的对象类型,包括:
根据所述预测错误率确定所述指定分类器的预测权重;
基于所述对象类型识别模型中各分类器的预测权重以及各分类器对所述业务数据的处理结果,确定所述目标业务对象的对象类型。
7.根据权利要求6所述的方法,其特征在于,所述基于所述预测错误率确定所述指定分类器的预测权重,包括:
根据所述预测错误率计算所述指定分类器的权重评价因子αt;其中,αt=et/(1-et);
提取所述对象类型识别模型的各分类器的权重评价因子中不为零的最小值αmin
利用下述方式确定所述指定分类器的预测权重west
若αt≠0,则west=log(1/αt);
若αt=0,则west=log(1/αmin)+1。
8.根据权利要求7所述的方法,其特征在于,利用下述方式确定所述目标业务对象的对象类型:
计算各分类器对所述目标业务对象的预测得分proba(j);其中,
Figure FDA0003186727540000031
pt(j)表示标识为t的分类器预测目标业务对象j属于指定标签的概率,T表示所述对象类型识别模型所包含的分类器的数目;
若预测得分proba(j)大于等于指定预测阈值,则目标业务对象j的对象类型为指定标签;
若预测得分proba(j)小于指定预测阈值,则目标业务对象j的对象类型为非指定标签。
9.一种业务对象的对象类型识别装置,其特征在于,应用于服务器,所述装置包括:
接收模块,用于接收目标业务对象的业务数据;
获取模块,用于获取预先构建的对象类型识别模型,所述对象类型识别模型包括两个以上依次关联的分类器;其中,所述分类器基于配置有样本权重的不平衡样本集构建;除第一个分类器之外的其他分类器训练时所对应的样本权重基于相应分类器的前一个分类器的预测结果确定;
预测模块,用于利用所述对象类型识别模型的各分类器对所述业务数据进行处理,得到各分类器对所述业务数据的处理结果;
类型确定模块,用于基于所述各分类器对所述业务数据的处理结果,确定所述目标业务对象的对象类型。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被执行时实现权利要求1-8中任一项所述方法的步骤。
CN202110864070.1A 2021-07-29 2021-07-29 一种业务对象的对象类型识别方法、装置及存储介质 Pending CN113569957A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110864070.1A CN113569957A (zh) 2021-07-29 2021-07-29 一种业务对象的对象类型识别方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110864070.1A CN113569957A (zh) 2021-07-29 2021-07-29 一种业务对象的对象类型识别方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN113569957A true CN113569957A (zh) 2021-10-29

Family

ID=78168984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110864070.1A Pending CN113569957A (zh) 2021-07-29 2021-07-29 一种业务对象的对象类型识别方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113569957A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115204321A (zh) * 2022-09-15 2022-10-18 江苏海力达机电制造有限公司 一种自动车床加工的精度波动控制方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115204321A (zh) * 2022-09-15 2022-10-18 江苏海力达机电制造有限公司 一种自动车床加工的精度波动控制方法及系统
CN115204321B (zh) * 2022-09-15 2023-07-25 江苏海力达机电制造有限公司 一种自动车床加工的精度波动控制方法及系统

Similar Documents

Publication Publication Date Title
CN111181939B (zh) 一种基于集成学习的网络入侵检测方法及装置
CN110472675B (zh) 图像分类方法、图像分类装置、存储介质与电子设备
CN109583468B (zh) 训练样本获取方法,样本预测方法及对应装置
US7783581B2 (en) Data learning system for identifying, learning apparatus, identifying apparatus and learning method
CN110633725A (zh) 训练分类模型的方法和装置以及分类方法和装置
CN111343147B (zh) 一种基于深度学习的网络攻击检测装置及方法
CN106294344A (zh) 视频检索方法和装置
CN110991474A (zh) 一种机器学习建模平台
CN110716792B (zh) 一种目标检测器及其构建方法和应用
CN108009287A (zh) 一种基于对话系统的回答数据生成方法以及相关装置
CN111582315B (zh) 样本数据处理方法、装置及电子设备
CN116467141A (zh) 日志识别模型训练、日志聚类方法和相关系统、设备
CN111144462A (zh) 一种雷达信号的未知个体识别方法及装置
CN113569957A (zh) 一种业务对象的对象类型识别方法、装置及存储介质
CN112115996A (zh) 图像数据的处理方法、装置、设备及存储介质
CN111782805A (zh) 一种文本标签分类方法及系统
CN112132239B (zh) 一种训练方法、装置、设备和存储介质
CN110717817A (zh) 贷前审核方法及装置、电子设备和计算机可读存储介质
CN113724779B (zh) 基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备
CN112463964B (zh) 文本分类及模型训练方法、装置、设备及存储介质
CN113918471A (zh) 测试用例的处理方法、装置及计算机可读存储介质
CN111209567B (zh) 提高检测模型鲁棒性的可知性判断方法及装置
CN113010673A (zh) 一种基于熵优化支持向量机的漏洞自动分类方法
CN113221995A (zh) 基于半监督深度分类算法的数据分类方法、设备及装置
CN113191433B (zh) 一种数据分类方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination