CN115640518A - 用户识别模型的训练、用户识别方法和装置 - Google Patents

用户识别模型的训练、用户识别方法和装置 Download PDF

Info

Publication number
CN115640518A
CN115640518A CN202211273066.9A CN202211273066A CN115640518A CN 115640518 A CN115640518 A CN 115640518A CN 202211273066 A CN202211273066 A CN 202211273066A CN 115640518 A CN115640518 A CN 115640518A
Authority
CN
China
Prior art keywords
user
user identification
training
identification model
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211273066.9A
Other languages
English (en)
Inventor
姜林伟
张青
刘心唯
李力卡
高志新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202211273066.9A priority Critical patent/CN115640518A/zh
Publication of CN115640518A publication Critical patent/CN115640518A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本公开涉及一种用户识别模型的训练、用户识别方法和装置,涉及人工智能技术领域。其中,用户识别模型的训练方法包括:周期性地判断至少一个用户识别模型的性能指标是否满足预设条件,所述至少一个用户识别模型包括第一用户识别模型;在第一用户识别模型的性能指标不满足预设条件的情况下,从候选样本用户数据集中去除白名单上的用户数据,以得到第一训练样本用户数据集;根据第一训练样本用户数据集,对第一用户识别模型进行再训练。通过以上步骤,不仅能够自动、及时地对用户识别模型进行更新,而且能够提高更新后的用户识别模型的识别准确率,提高用户体验。

Description

用户识别模型的训练、用户识别方法和装置
技术领域
本公开涉及人工智能技术领域,特别涉及一种用户识别模型的训练、用户识别方法和装置。
背景技术
目前,主要依靠用户识别模型进行异常用户识别。例如,将待识别用户的通话特征与预设阈值进行比较,根据比较结果确定该待识别用户是异常用户还是正常用户。
大部分用户识别模型在上线初期的效果良好,但是随着时间推移,其效果很可能会越变越差,这是因为异常用户很可能试探出用户识别模型所用的特征及相应阈值,从而可以避开用户识别模型的特征检测。
相关技术中,主要依靠人为方式对用户识别模型进行更新。
发明内容
本公开提出了一种用户识别模型的训练、用户识别方法和装置。
根据本公开的第一方面,提供了一种用户识别模型的训练方法,包括:周期性地判断至少一个用户识别模型的性能指标是否满足预设条件,所述至少一个用户识别模型包括第一用户识别模型,所述用户识别模型用于识别用户所属类别,用户所属类别包括第一类别和第二类别;在所述第一用户识别模型的性能指标不满足预设条件的情况下,从候选样本用户数据集中去除白名单上的用户数据,以得到第一训练样本用户数据集,所述白名单为第一类别用户的名单;根据所述第一训练样本用户数据集,对所述第一用户识别模型进行再训练。
在一些实施例中,从候选样本用户数据集中去除白名单上的用户的数据,以得到第一训练样本用户数据集包括:从候选样本用户数据集中,去除白名单和灰名单上的用户数据,以得到第一训练样本用户数据集,其中,所述灰名单为疑似第二类别用户的名单。
在一些实施例中,所述用户识别模型还包括第二用户识别模型,所述用户识别模型的训练方法还包括:在第二用户识别模型的性能指标不满足预设条件的情况下,根据灰名单上的用户的数据,构建第二训练样本用户数据集;根据所述第二训练样本用户数据集,对所述第二用户识别模型进行再训练。
在一些实施例中,采用遗传算法,对所述第一用户识别模型和第二识别模型进行再训练。
在一些实施例中,还包括:对所述白名单和所述灰名单进行定期更新。
在一些实施例中,所述用户识别模型的性能指标包括用户识别模型的拦截率、漏拦率、以及误拦率中的至少一种。
在一些实施例中,所述第一训练样本用户数据集包括用户的通话特征数据,所述用户的通话特征数据包括用户的呼出次数、被叫次数、呼出城市数、被叫城市数、平均通话时长中的至少一项。
根据本公开的第二方面,提供了一种用户识别方法,包括:获取待识别用户的通话特征数据;利用如前所述的用户识别模型的训练方法训练得到的用户识别模型,对所述待识别用户的通话特征数据进行处理,以得到所述待识别用户的识别结果,其中,所述用户识别模型用于识别用户所属类别,所述用户所属类别包括第一类别和第二类别。
在一些实施例中,还包括:在利用所述用户识别模型,对所述待识别用户的通话特征数据进行处理之前,确认所述待识别用户不是白名单上的用户,所述白名单为第一类别用户的名单。
在一些实施例中,利用用户识别模型,对所述待识别用户的通话特征数据进行处理包括:在所述待识别用户不是灰名单上的用户的情况下,利用第一用户识别模型,对所述待识别用户的通话特征数据进行处理,其中,所述灰名单为疑似第二类别用户的名单。
在一些实施例中,利用用户识别模型,对所述待识别用户的通话特征数据进行处理还包括:在所述待识别用户是灰名单上的用户的情况下,利用第二用户识别模型,对所述待识别用户的通话特征数据进行处理。
在一些实施例中,还包括:在所述待识别用户是白名单上的用户的情况下,确认所述待识别用户为第一类别用户。
根据本公开的第三方面,提供了一种用户识别模型的训练装置,包括:判断模块,被配置为周期性地判断至少一个用户识别模型的性能指标是否满足预设条件,所述至少一个用户识别模型包括第一用户识别模型,所述用户识别模型用于识别用户所属类别,用户所属类别包括第一类别和第二类别;构建模块,被配置为在所述第一用户识别模型的性能指标不满足预设条件的情况下,从候选样本用户数据集中去除白名单上的用户数据,以得到第一训练样本用户数据集,所述白名单为第一类别用户的名单;训练模块,被配置为根据所述第一训练样本用户数据集,对所述第一用户识别模型进行再训练。
根据本公开的第四方面,提供了一种用户识别装置,包括:获取模块,被配置为获取待识别用户的通话特征数据;识别模块,被配置为利用根据如前所述的用户识别模型的训练方法训练得到的用户识别模型,对所述待识别用户的通话特征数据进行处理,以得到所述待识别用户的识别结果,其中,所述用户识别模型用于识别用户所属类别,所述用户所属类别包括第一类别和第二类别。
根据本公开的第五方面,提供了一种电子设备,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令,执行如上所述的用户识别模型的训练方法或用户识别方法。
根据本公开的第六方面,提供了一种计算机可存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现如上所述的用户识别模型的训练方法或用户识别方法。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1是示出根据本公开一些实施例的用户识别模型的训练方法的流程图;
图2是示出根据本公开另一些实施例的用户识别模型的训练方法的部分流程示意图;
图3是示出根据本公开另一些实施例的用户识别模型的训练方法的部分流程示意图;
图4是示出根据本公开一些实施例的用户识别方法的流程图;
图5是示出根据本公开一些实施例的用户识别模型的训练装置的框图;
图6是示出根据本公开一些实施例的用户识别装置的框图;
图7是示出根据本公开一些实施例的电子设备的框图;
图8是示出用于实现本公开一些实施例的计算机系统的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
相关技术中,在基于电话行为识别模型进行用户识别时,仅依赖用户的通话行为特征进行识别,缺少上网行为特征。由于某些类别的用户(比如涉诈用户)的通话行为特征与日益增加的外卖、快递、网约车等配送运输人员及电话销售人员的工作通话行为较为相似,仅依赖通话行为特征进行诈骗用户识别,容易误拦截正常用户,导致用户投诉增加,以及对真正需要拦截的用户的排查难度提升等问题。
相关技术中,主要依靠人为方式对用户识别模型进行更新。人为更新方式存在处理效率低、对模型更新不及时,且人为更新后的模型的识别准确率难以保证等不足,进一步,导致对异常用户的拦截准确率降低、以及对正常用户的误拦截率升高,影响正常用户的体验。
鉴于此,本公开提供了一种用户识别模型的训练、用户识别方法和装置,不仅能够自动、及时地对用户识别模型进行更新,而且能够提高更新后的用户识别模型的识别准确率,提高用户体验。
图1是示出根据本公开一些实施例的用户识别模型的训练方法的流程图。如图1所示,本公开实施例的用户识别模型的训练方法包括:
步骤S110:周期性地判断至少一个用户识别模型的性能指标是否满足预设条件。
其中,用户识别模型包括第一用户识别模型,用于识别用户所属类别,用户所属类别包括第一类别和第二类别。例如,第一类别为正常用户,第二类别为涉诈用户。
在一些实施例中,用户识别模型的性能指标包括以下至少一项:用户识别模型的拦截量、拦截率、漏拦率、以及误拦率。
例如,在步骤S110中,周期性地判断第一用户识别模型的拦截率是否大于第一阈值,以及,误拦率是否小于第二阈值。当第一用户识别模型的拦截率小于等于第一阈值、或误拦率大于等于第二阈值的情况下,确认不满足预设条件,进而执行步骤S120;否则,结束此次流程。
例如,在步骤S110中,周期性地判断第一用户识别模型的拦截率是否大于等于第一阈值,以及,漏拦率是否小于等于第三阈值。当第一用户识别模型的拦截率小于第一阈值、或漏拦率大于第三阈值的情况下,确认不满足预设条件,进而执行步骤S120;否则,结束此次流程。
在本公开实施例中,通过周期性地判断用户识别模型的性能指标是否满足预设条件,能够及时触发针对用户识别模型的自动优化流程,提高了模型更新的效率和及时性。
步骤S120:在第一用户识别模型的性能指标不满足预设条件的情况下,从候选样本用户数据集中去除白名单上的用户数据,以得到第一训练样本用户数据集。
其中,白名单为第一类别用户的名单。例如,将与第二类别用户的通话特征相似、但明确为第一类别的用户,作为白名单用户。比如,在涉诈用户识别场景下,将通话特征与涉诈用户很相似的快递员、电话销售人员等用户加入白名单。此外,也可将近几个周期被误拦的用户也加入白名单。
在一些实施例中,在接收到上游系统周期性(例如每天)下发的候选样本用户数据之后,将这些数据进行存储。在确定满足用户识别模型自优化的触发条件后,从数据库中获取近几个周期下发的候选样本用户数据,然后基于白名单对获取的候选样本用户数据进行过滤,再将过滤剩下的用户数据作为第一训练样本用户数据集。
在一些实施例中,在步骤S120之前,还包括:获取最新的白名单,和/或,对白名单进行定期更新。例如,对上游系统周期性(例如每天)下发的白名单进行存储。在通过步骤S110判断出需要对用户识别模型进行更新时,从数据库中获取最新的白名单,以基于最新的白名单滤除候选样本用户数据集中的部分用户的数据。
在本公开实施例中,通过利用白名单对候选样本用户数据进行过滤,有助于删除模型难以识别的样本用户数据,进而有助于提高再训练后的模型性能。进一步,通过基于最新的候选样本用户数据、以及最新的白名单,构建第一训练样本用户数据集,有助于在指定类别的用户特征发生变化时,比如第二类别用户的通话特征发生变化时,及时对用户识别模型进行再训练,以使用户识别模型能够在使用过程中不断地自动寻优并更新参数,改善用户识别模型的性能。
步骤S130:根据第一训练样本用户数据集,对第一用户识别模型进行再训练。
在一些实施例中,采用遗传算法,对第一用户识别模型进行再训练。
在一些实施例中,第一训练样本用户数据集包括用户的通话特征数据。其中,用户的通话特征数据包括用户的呼出次数、被叫次数、呼出城市数、被叫城市数、平均通话时长、呼叫成功接通次数与呼叫次数的比值,被叫应答次与被叫次数的比值中的至少一项。
在本公开实施例中,通过以上步骤不仅能够自动、及时地对用户识别模型进行更新,降低人力投入且提高参数更新效率,而且,通过合理利用白名单数据构建再训练所用的训练样本集,有助于提高再训练得到的用户识别模型的性能,进而提高用户识别准确率,降低用户误拦率和漏拦率,提高用户体验。
图2是示出根据本公开另一些实施例的用户识别模型的训练方法的部分流程示意图。如图2所示,本公开实施例的用户识别模型的训练方法包括:
步骤S210:监控第一用户识别模型的性能指标。
在一些实施例中,该方法由用户识别模型的训练装置执行。用户识别模型的训练装置周期性地监控包括第一用户识别模型在内的多个用户识别模型的性能指标。
例如,定期从其他系统模块接收第一用户识别模型的性能指标。
例如,定期获取最近一段时间内第一用户识别模型对用户进行识别的识别结果数据、以及这些用户的真实类别标签等,据此计算第一用户识别模型的性能指标。
在一些实施例中,第一用户识别模型的性能指标包括用户识别模型的拦截率、漏拦率、以及误拦率中的至少一种。
例如,在确定第一用户识别模型的拦截率和误拦率之后,判断第一用户识别模型的拦截率是否大于等于第一阈值、且误拦率是否小于等于第二阈值。若是,确定第一用户识别模型的性能指标满足预设条件,否则,确定第一用户识别模型的性能指标未满足预设条件。
在一些实施例中,针对不同用户识别模型,所监控的性能指标不同。在一些实施例中,针对不同用户识别模型,所监控的性能指标相同。
在第一用户识别模型的性能指标不满足预设条件的情况下,执行步骤S220;否则,结束此次处理流程,即此次不执行针对第一用户识别模型的再训练。
步骤S220:从候选样本用户数据集中,去除白名单和灰名单上的用户数据,以得到第一训练样本用户数据集。
其中,白名单是第一类别用户的名单。例如,将与第二类别用户的通话特征相似、但明确为第一类别的用户,作为白名单用户。比如,在涉诈用户识别场景下,将通话特征与涉诈用户很相似的快递员、电话销售人员等用户加入白名单。此外,也可将近几个周期被误拦的用户也加入白名单。
其中,灰名单为疑似第二类别用户的名单。例如,将近几个周期被系统判定为疑似第二类别的用户,比如疑似涉诈用户,作为灰名单用户。
在一些实施例中,用户识别模型的训练方法还包括:接收上游系统下发的白名单与灰名单并存储。在确定第一用户识别模型不满足预设条件的情况下,获取白名单和灰名单,以根据白名单和灰名单执行步骤S220。
在本公开实施例中,通过利用白名单和灰名单对候选样本用户数据进行过滤,有助于去除模型难以识别的样本用户数据,进而有助于提高再训练后的模型性能。而且,通过基于最新的候选样本用户数据,构建第一训练样本用户数据集,有助于在指定类别的用户特征发生变化时,比如第二类别用户的通话特征发生变化时,及时对用户识别模型进行再训练,以使用户识别模型能够在使用过程中不断地自动寻优并更新参数,改善用户识别模型的性能。
步骤S230:基于第一训练样本用户数据,对第一用户识别模型进行再训练。
在一些实施例中,采用遗传算法,基于第一训练样本用户数据,对第一用户识别模型进行再训练。
遗传算法(Genetic Algorithm,GA)起源于对生物系统所进行的计算机模拟研究。它是模仿自然界生物进化机制发展起来的随机全局搜索和优化方法,借鉴了达尔文的进化论和孟德尔的遗传学说。其本质是一种高效、并行、全局搜索的方法,能在搜索过程中自动获取和积累有关搜索空间的知识,并自适应地控制搜索过程以求得最佳解。
在一些实施例中,将剔除白名单用户数据后的候选样本用户数据(例如多个样本用户的通话特征数据)作为输入,调用遗传算法对用户识别模型进行再训练,以得到优化后的用户识别模型。具体实施时,输入参数还包括个体、环境、目标限制条件、迭代次数、突变概率、个体上下界。其中,个体是指用户识别模型中的待优化参数。目标限制条件,例如误拦率最低、拦截量不少于某个数量、漏拦率最低等等,多限制条件可以避免算法陷入局部最优。
在一些实施例中,利用遗传算法对用户识别模型进行再训练包括以下步骤:产生初始种群、计算适应度、模拟遗传步骤、选出最佳个体。
例如,假设用户识别模型为包括3个通话特征参数、以及相应阈值的策略,具体为“当用户的通话特征参数A大于阈值a,且通话特征参数B大于阈值b,且通话特征参数C小于阈值c时,将该用户判断为涉诈用户”,对用户识别模型的再训练过程包括:
步骤1、产生初始种群。
在该步骤中,随机产生个体数目一定的初始种群,每个个体表示为类似于染色体的基因编码。其中,基因的编码机制是根据需要求解的具体要求而制定的,常见的编码方式有:二进制编码、实数编码、自适应编码。例如,随机产生容量为30的初始种群,即种群中有30个个体。每个个体利用三个通话特征参数初始值构成的向量表示。
步骤2、计算适应度。
在该步骤中,计算个体的适应度,根据适应度判断是否符合优化准则。若符合优化准则,则执行步骤4;否则,执行步骤3。
其中,适应度是用来判断群体中的个体优劣程度的指标,它是根据所求问题的目标函数来进行评估的。适应度越大,则结果越优。例如,计算30个个体的适应度(例如误拦率、漏拦率、拦截率等指标),并根据适应度判断个体的优劣程度。
步骤3、模拟遗传步骤。
在该步骤中,包括选择、交叉、变异操作。
其中,选择操作指的是:依据适应度选择再生个体。适应度高的个体被选中的概率高,适应度低的个体可能被淘汰,这样让优良的个体能够有更大的机会保留到下一代。在本公开一些实施例中,使用精英保留法选择个体,即选择适应度高的个体。
在完成选择操作后,将选择出来的优良个体进行配对交叉。通过交叉操作,能够提高收敛速度,高效的交叉方式能组合两个父代个体的优良基因,构造出更优秀的子代个体。在本公开一些实施例中,采用单点交叉方式。通过采用这种交叉方式,能够确保交叉后适应度的变化可以直接与某参数对应,使优化过程更加可控。
变异操作对提高遗传算法的局部搜索能力担负着重要的作用,同时也是产生新个体的重要步骤。是整个遗传算法的操作中必不可少的环节。在变异操作过程中,按照一定的概率随机的改变种群中个体的基因。目前,常用的变异算子有以下几种:边界变异算子、基本位变异算子、逆转变异算子和自适应变异算子等。在本公开一些实施例中,是在变异率为1%的情况下搭载的自适应变异算子。
步骤4、选出最佳个体。
遗传算法中的优化准则,一般依据不同的问题有不同的确定方式。例如,可以采用以下的准则之一作为判断条件:种群中个体的最大适应度超过预先设定值;种群中个体的平均适应度超过预先设定值;世代数超过预先设定值。
在本公开实施例中,采用第三种优化准则,即设定一个训练上限周期,即设定迭代次数上限,以选出最优的个体,即用户识别模型中通话特征参数A、B、C的最佳阈值。
在本公开实施例中,通过以上步骤不仅能够自动、及时地对用户识别模型进行更新,降低人力投入且提高参数更新效率,而且,通过合理利用白名单、灰名单数据构建再训练所用的训练样本集,有助于提高再训练得到的用户识别模型的性能,进而提高用户识别准确率,降低用户误拦率、漏拦率,提高用户体验。
在本公开一些实施例中,用户识别模型的训练方法除了包括图2所示流程之外,还包括图3所示流程。如图3所示,用户识别模型的训练方法还包括:
步骤S310:监控第二用户识别模型的性能指标。
在一些实施例中,第二用户识别模型的性能指标包括用户识别模型的拦截率、漏拦率、以及误拦率中的至少一种。
例如,在确定第二用户识别模型的拦截率和误拦率之后,判断第二用户识别模型的拦截率是否大于等于第一阈值、且误拦率是否小于等于第二阈值。若是,确定第二用户识别模型的性能指标满足预设条件,否则,确定第二用户识别模型的性能指标未满足预设条件。
在第二用户识别模型的性能指标不满足预设条件的情况下,执行步骤S320;否则,结束此次处理流程,即此次不执行针对第二用户识别模型的再训练。
步骤S320:根据灰名单上的用户的数据,构建第二训练样本用户数据集。
其中,灰名单为疑似第二类别用户的名单。例如,将近几个周期被系统判定为疑似第二类别的用户,比如疑似涉诈用户,作为灰名单用户。
在一些实施例中,用户识别模型的训练方法还包括:接收上游系统下发的灰名单并存储。在确定第二用户识别模型不满足预设条件的情况下,获取灰名单,以根据灰名单执行步骤S320。
例如,将最近一段时间内积累的灰名单用户的通话特征数据,作为第二训练样本用户数据集。其中,通话特征数据包括以下至少一项:用户的呼出次数、被叫次数、呼出城市数、被叫城市数、以及平均通话时长、呼叫成功接通次数与呼叫次数的比值、被叫应答次与被叫次数的比值。
在本公开实施例中,通过基于灰名单构建训练样本集,并据此对第二用户识别模型进行再训练,有助于提高再训练后的用户识别模型针对疑似第二类别用户的识别能力。
步骤S330:根据第二训练样本用户数据集,对第二用户识别模型进行再训练。
在一些实施例中,采用遗传算法,基于第二训练样本用户数据集,对第二用户识别模型进行再训练。
在一些实施例中,用户识别模型的训练方法还包括:对白名单和灰名单进行定期更新。通过对白名单和灰名单进行定期更新,有助于提高模型训练所用样本数据的时效性,进而能够随着用户通话特征的变化,及时更新用户识别模型的策略参数。
在本公开实施例中,通过设置第一、二用户识别模型,并针对这两种用户识别模型的性能指标分别进行监控、再训练,不仅能够自动、及时地对这两种用户识别模型进行更新,降低人力投入且提高参数更新效率,而且,利用白名单、灰名单等先验信息构建相应的第一训练样本用户数据集和第二训练样本用户数据集,基于不同用户群体的数据,对第一、第二用户识别模型分别进行再训练,有助于提高模型针对不同用户群体的识别准确率,降低用户误拦率和漏拦率,提高用户体验。
图4是示出根据本公开一些实施例的用户识别方法的流程图。
如图4所示,本公开实施例的用户识别方法包括:
步骤S410:获取待识别用户的通话特征数据。
在一些实施例中,用户识别方法由用户识别装置执行。在接收到用户识别请求后,用户识别装置根据待识别用户的标识(比如用户的手机号)查询数据库,以得到待识别用户的通话特征数据。
在一些实施例中,在接收到用户识别请求后,用户识别装置从用户识别请求中获取其携带的待识别用户的通话特征数据。
在一些实施例中,待识别用户的通话特征数据包括以下至少一项:用户的呼出次数、被叫次数、呼出城市数、被叫城市数、以及平均通话时长、呼叫成功接通次数与呼叫次数的比值、被叫应答次与被叫次数的比值。
步骤S420:利用用户识别模型,对待识别用户的通话特征数据进行处理,以得到待识别用户的识别结果。
在一些实施例中,根据前述用户识别模型的训练方法,对用户识别模型进行自动更新,利用更新后的用户识别模型,确定待识别用户的类别。其中,待识别用户的类别包括第一类别和第二类别。例如,待识别用户为正常用户或涉诈用户。通过利用前述训练方法,对用户识别模型进行自动更新,不仅能够自动、及时地对用户识别模型进行更新,降低人力投入且提高参数更新效率,而且,有助于提高再训练得到的用户识别模型的性能,进而提高用户识别准确率,降低用户误拦率、漏拦率,提高用户体验。
在一些实施例中,用户识别方法还包括:判断待识别用户是否为白名单上的用户;若待识别用户是白名单用户,确认待识别用户为第一类别用户;若待识别用户不是白名单用户,执行步骤S420。
其中,白名单为第一类别用户的名单。例如,在涉诈用户识别场景下,将通话特征与涉诈用户很相似的快递员、电话销售人员等用户加入白名单。此外,也可将近几个周期被误拦的用户也加入白名单。
在本公开实施例中,通过记录白名单,并结合白名单和用户识别模型共同对待识别用户进行识别,不仅有助于提高用户识别效率,而且有助于提高用户识别准确率。
在一些实施例中,步骤S420包括:判断待识别用户是否为灰名单用户;在待识别用户不是灰名单上的用户的情况下,利用第一用户识别模型,对待识别用户的通话特征数据进行处理,以得到待识别用户的识别结果;在待识别用户是灰名单上的用户的情况下,利用第二用户识别模型,对待识别用户的通话特征数据进行处理。
其中,灰名单为疑似第二类别用户的名单。例如,将近几个周期被系统判定的疑似涉诈用户,作为灰名单用户。
在本公开实施例中,通过结合灰名单以及第一、二用户识别模型对待识别用户进行识别,能够针对灰名单用户、非灰名单用户采用不同的识别模型进行识别,有助于避免一套模型参数无法适应多种用户识别需求的情况出现,从而有助于提高用户识别的准确率。
图5是示出根据本公开一些实施例的用户识别模型的训练装置的框图。如图5所示,本公开实施例的用户识别模型的训练装置500包括:判断模块510、构建模块520、训练模块530。
判断模块510,被配置为周期性地判断至少一个用户识别模型的性能指标是否满足预设条件。
其中,用户识别模型包括第一用户识别模型,用户识别模型用于识别用户所属类别,用户所属类别包括第一类别和第二类别。
构建模块520,被配置为在第一用户识别模型的性能指标不满足预设条件的情况下,从候选样本用户数据集中去除白名单上的用户数据,以得到第一训练样本用户数据集。其中,白名单为第一类别用户的名单。
训练模块530,被配置为根据第一训练样本用户数据集,对第一用户识别模型进行再训练。
在本公开实施例中,通过以上装置不仅能够自动、及时地对这两种用户识别模型进行更新,降低人力投入且提高参数更新效率,而且,有助于提高针对不同用户群体的识别准确率,降低用户误拦率和漏拦率,提高用户体验。
图6是示出根据本公开一些实施例的用户识别装置的框图。如图6所示,本公开实施例的用户识别装置600包括:获取模块610、识别模块620。
获取模块610,被配置为获取待识别用户的通话特征数据;
识别模块620,被配置为利用前述用户识别模型的训练方法训练得到的用户识别模型,对待识别用户的通话特征数据进行处理,以得到待识别用户的识别结果。
其中,用户识别模型用于识别用户所属类别,用户所属类别包括第一类别和第二类别。
在一些实施例中,用户识别装置600还包括判断模块,被配置为判断待识别用户是否为白名单上的用户。在这些实施例中,识别模块620,被配置为:在待识别用户是白名单上的用户的情况下,确认待识别用户为第一类别用户;在待识别用户不是白名单上的用户的情况下,利用用户识别模型,对待识别用户的通话特征数据进行处理,以得到待识别用户的识别结果。
在一些实施例中,识别模块620利用用户识别模型,对待识别用户的通话特征数据进行处理,以得到待识别用户的识别结果包括:在待识别用户不是灰名单上的用户的情况下,利用第一用户识别模型,对待识别用户进行识别;在待识别用户是灰名单上的用户的情况下,利用第二用户识别模型,对待识别用户进行识别,其中,灰名单为疑似第二类别用户的名单。
在本公开实施例中,通过以上装置不仅能够提高用户识别效率,而且能够提高用户识别结果的准确率。
图7是示出根据本公开另一些实施例的电子设备的框图。
如图7所示,电子设备700包括存储器710;以及耦接至该存储器710的处理器720。存储器710用于存储执行用户识别模型的训练方法或用户识别方法对应实施例的指令。处理器720被配置为基于存储在存储器710中的指令,执行本公开中任意一些实施例中的用户识别模型的训练方法或用户识别方法。
图8是示出用于实现本公开一些实施例的计算机系统的框图。
如图8所示,计算机系统800可以通用计算设备的形式表现。计算机系统800包括存储器810、处理器820和连接不同系统组件的总线830。
存储器810例如可以包括系统存储器、非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。系统存储器可以包括易失性存储介质,例如随机存取存储器(RAM)和/或高速缓存存储器。非易失性存储介质例如存储有执行用户识别模型的训练方法或用户识别方法中的至少一种的对应实施例的指令。非易失性存储介质包括但不限于磁盘存储器、光学存储器、闪存等。
处理器820可以用通用处理器、数字信号处理器(DSP)、应用专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑设备、分立门或晶体管等分立硬件组件方式来实现。相应地,诸如判断模块、构建模块和训练模块中的每个模块,可以通过中央处理器(CPU)运行存储器中执行相应步骤的指令来实现,也可以通过执行相应步骤的专用电路来实现。
总线830可以使用多种总线结构中的任意总线结构。例如,总线结构包括但不限于工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、外围组件互连(PCI)总线。
计算机系统800还可以包括输入输出接口840、网络接口850、存储接口860等。这些接口840、850、860以及存储器810和处理器820之间可以通过总线830连接。输入输出接口840可以为显示器、鼠标、键盘等输入输出设备提供连接接口。网络接口850为各种联网设备提供连接接口。存储接口860为软盘、U盘、SD卡等外部存储设备提供连接接口。
这里,参照根据本公开实施例的方法、装置和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个框以及各框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可提供到通用计算机、专用计算机或其他可编程装置的处理器,以产生一个机器,使得通过处理器执行指令产生实现在流程图和/或框图中一个或多个框中指定的功能的装置。
这些计算机可读程序指令也可存储在计算机可读存储器中,这些指令使得计算机以特定方式工作,从而产生一个制造品,包括实现在流程图和/或框图中一个或多个框中指定的功能的指令。
本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
通过上述实施例中的用户识别模型的训练、用户识别方法和装置,不仅能够自动、及时地对用户识别模型进行更新,而且能够提高更新后的用户识别模型的识别准确率,提高用户体验。
至此,已经详细描述了根据本公开的用户识别模型的训练、用户识别方法和装置。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。

Claims (16)

1.一种用户识别模型的训练方法,包括:
周期性地判断至少一个用户识别模型的性能指标是否满足预设条件,所述至少一个用户识别模型包括第一用户识别模型,所述用户识别模型用于识别用户所属类别,用户所属类别包括第一类别和第二类别;
在所述第一用户识别模型的性能指标不满足预设条件的情况下,从候选样本用户数据集中去除白名单上的用户数据,以得到第一训练样本用户数据集,所述白名单为第一类别用户的名单;
根据所述第一训练样本用户数据集,对所述第一用户识别模型进行再训练。
2.根据权利要求1所述的用户识别模型的训练方法,其中,从候选样本用户数据集中去除白名单上的用户的数据,以得到第一训练样本用户数据集包括:
从候选样本用户数据集中,去除白名单和灰名单上的用户数据,以得到第一训练样本用户数据集,其中,所述灰名单为疑似第二类别用户的名单。
3.根据权利要求1所述的用户识别模型的训练方法,其中,所述用户识别模型还包括第二用户识别模型,所述用户识别模型的训练方法还包括:
在第二用户识别模型的性能指标不满足预设条件的情况下,根据灰名单上的用户的数据,构建第二训练样本用户数据集;
根据所述第二训练样本用户数据集,对所述第二用户识别模型进行再训练。
4.根据权利要求3所述的用户识别模型的训练方法,其中,采用遗传算法,对所述第一用户识别模型和第二识别模型进行再训练。
5.根据权利要求2至4任一所述的用户识别模型的训练方法,还包括:
对所述白名单和所述灰名单进行定期更新。
6.根据权利要求1至4任一所述的用户识别模型的训练方法,其中,所述用户识别模型的性能指标包括用户识别模型的拦截率、漏拦率、以及误拦率中的至少一种。
7.根据权利要求1所述的用户识别模型的训练方法,其中,所述第一训练样本用户数据集包括用户的通话特征数据,所述用户的通话特征数据包括用户的呼出次数、被叫次数、呼出城市数、被叫城市数、平均通话时长中的至少一项。
8.一种用户识别方法,包括:
获取待识别用户的通话特征数据;
利用根据权利要求1-7任一所述的用户识别模型的训练方法训练得到的用户识别模型,对所述待识别用户的通话特征数据进行处理,以得到所述待识别用户的识别结果,其中,所述用户识别模型用于识别用户所属类别,所述用户所属类别包括第一类别和第二类别。
9.根据权利要求8所述的用户识别方法,还包括:
在利用所述用户识别模型,对所述待识别用户的通话特征数据进行处理之前,确认所述待识别用户不是白名单上的用户,所述白名单为第一类别用户的名单。
10.根据权利要求8或9所述的用户识别方法,其中,利用用户识别模型,对所述待识别用户的通话特征数据进行处理包括:
在所述待识别用户不是灰名单上的用户的情况下,利用第一用户识别模型,对所述待识别用户的通话特征数据进行处理,其中,所述灰名单为疑似第二类别用户的名单。
11.根据权利要求10所述的用户识别方法,其中,利用用户识别模型,对所述待识别用户的通话特征数据进行处理还包括:
在所述待识别用户是灰名单上的用户的情况下,利用第二用户识别模型,对所述待识别用户的通话特征数据进行处理。
12.根据权利要求9所述的用户识别方法,还包括:
在所述待识别用户是白名单上的用户的情况下,确认所述待识别用户为第一类别用户。
13.一种用户识别模型的训练装置,包括:
判断模块,被配置为周期性地判断至少一个用户识别模型的性能指标是否满足预设条件,所述至少一个用户识别模型包括第一用户识别模型,所述用户识别模型用于识别用户所属类别,用户所属类别包括第一类别和第二类别;
构建模块,被配置为在所述第一用户识别模型的性能指标不满足预设条件的情况下,从候选样本用户数据集中去除白名单上的用户数据,以得到第一训练样本用户数据集,所述白名单为第一类别用户的名单;
训练模块,被配置为根据所述第一训练样本用户数据集,对所述第一用户识别模型进行再训练。
14.一种用户识别装置,包括:
获取模块,被配置为获取待识别用户的通话特征数据;
识别模块,被配置为利用根据权利要求1-7任一所述的用户识别模型的训练方法训练得到的用户识别模型,对所述待识别用户的通话特征数据进行处理,以得到所述待识别用户的识别结果,其中,所述用户识别模型用于识别用户所属类别,所述用户所属类别包括第一类别和第二类别。
15.一种电子设备,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令,执行如权利要求1至7任一项所述的用户识别模型的训练方法,或权利要求8至12任一项所述的用户识别方法。
16.一种计算机可存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现如权利要求1至7任一项所述的用户识别模型的训练方法,或权利要求8至12任一项所述的用户识别方法。
CN202211273066.9A 2022-10-18 2022-10-18 用户识别模型的训练、用户识别方法和装置 Pending CN115640518A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211273066.9A CN115640518A (zh) 2022-10-18 2022-10-18 用户识别模型的训练、用户识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211273066.9A CN115640518A (zh) 2022-10-18 2022-10-18 用户识别模型的训练、用户识别方法和装置

Publications (1)

Publication Number Publication Date
CN115640518A true CN115640518A (zh) 2023-01-24

Family

ID=84945610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211273066.9A Pending CN115640518A (zh) 2022-10-18 2022-10-18 用户识别模型的训练、用户识别方法和装置

Country Status (1)

Country Link
CN (1) CN115640518A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116595336A (zh) * 2023-07-07 2023-08-15 中国电子科技集团公司第十五研究所 一种数据纠偏方法、装置和设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116595336A (zh) * 2023-07-07 2023-08-15 中国电子科技集团公司第十五研究所 一种数据纠偏方法、装置和设备
CN116595336B (zh) * 2023-07-07 2023-09-08 中国电子科技集团公司第十五研究所 一种数据纠偏方法、装置和设备

Similar Documents

Publication Publication Date Title
KR102061987B1 (ko) 위험 평가 방법 및 시스템
CN111143102B (zh) 异常数据检测方法、装置、存储介质及电子设备
CN111294819B (zh) 一种网络优化方法及装置
CN111796957B (zh) 基于应用日志的交易异常根因分析方法及系统
CN110166344B (zh) 一种身份标识识别方法、装置以及相关设备
CN109474756B (zh) 一种基于协同网络表示学习的电信异常检测方法
CN111510368B (zh) 家庭群组识别方法、装置、设备及计算机可读存储介质
CN115640518A (zh) 用户识别模型的训练、用户识别方法和装置
CN111626754B (zh) 养卡用户识别方法及装置
CN101389085A (zh) 基于发送行为的垃圾短消息识别系统及方法
CN110138638B (zh) 一种网络流量的处理方法及装置
CN111428963B (zh) 一种数据处理方法及装置
CN113112347A (zh) 催收决策的确定方法、相关装置及计算机存储介质
CN112035570A (zh) 一种商户的评价方法及系统
CN115130577A (zh) 一种欺诈号码识别方法、装置及电子设备
CN114218500A (zh) 用户挖掘方法、系统、装置及存储介质
CN114449106A (zh) 一种异常电话号码的识别方法、装置、设备和存储介质
CN110087230B (zh) 数据处理方法、装置、存储介质及电子设备
CN116208513A (zh) 网关的健康度预测方法及装置
CN111242147B (zh) 一种亲密联系人和频繁活跃区域识别的方法及装置
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN112215386A (zh) 一种人员活跃度预测方法、装置和计算机可读存储介质
CN114997879B (zh) 一种支付路由方法、装置、设备和存储介质
CN112887491B (zh) 用户缺失信息获取方法和装置
CN113837472B (zh) 一种预测事件执行人员的方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination