CN111104963B - 目标用户确定方法、装置、存储介质及电子设备 - Google Patents

目标用户确定方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN111104963B
CN111104963B CN201911153667.4A CN201911153667A CN111104963B CN 111104963 B CN111104963 B CN 111104963B CN 201911153667 A CN201911153667 A CN 201911153667A CN 111104963 B CN111104963 B CN 111104963B
Authority
CN
China
Prior art keywords
target user
sample
actual
determining
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911153667.4A
Other languages
English (en)
Other versions
CN111104963A (zh
Inventor
张洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beike Technology Co Ltd
Original Assignee
Beike Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beike Technology Co Ltd filed Critical Beike Technology Co Ltd
Priority to CN201911153667.4A priority Critical patent/CN111104963B/zh
Publication of CN111104963A publication Critical patent/CN111104963A/zh
Application granted granted Critical
Publication of CN111104963B publication Critical patent/CN111104963B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Abstract

本申请公开了一种目标用户确定方法、装置、存储介质及电子设备,涉及数据处理技术。具体方案包括:获取待确定用户的行为信息;行为信息用于描述所述待确定用户对客户端进行的操作行为;根据行为信息提取行为特征;将行为特征输入目标用户确定模型中,确定待确定用户是否是目标用户;目标用户确定模型的参数是基于包含了数量均衡的目标用户样本与非目标用户样本的样本集训练得到的;目标用户样本包含实际目标用户样本和虚拟目标用户样本;虚拟目标用户样本是根据实际目标用户样本和非目标用户样本确定得到的。本申请可以减少识别目标用户耗费的不少人力和时间成本,且不会受到用户与黑名单中账户的绑定关系的影响,识别得到的目标用户更加准确。

Description

目标用户确定方法、装置、存储介质及电子设备
技术领域
本申请涉及数据处理技术,特别是涉及一种目标用户确定方法、装置、存储介质及电子设备。
背景技术
目标用户为传递目标信息、实施目标行为的用户。以恶意访问行为作为目标行为为例,实施恶意访问行为的目标用户的访问,小则浪费服务提供方大量人力或时间资源进行甄别,大则会对未实施恶意访问行为的非目标用户的隐私和财产安全构成威胁。
现有技术中,常采用构建黑名单或白名单的方法识别目标用户。但是黑名单或白名单的建立过程已经耗费了不少人力和时间成本。且黑名单或白名单的建立标准难以衡量,如果黑名单或白名单的建立标准过于严格,还容易漏掉部分的目标用户或非目标用户。另外,当用户与黑名单或白名单中的账户的绑定关系发生改变时,服务端并不能获知绑定关系的改变,此时,仍会漏掉潜在的目标用户或者非目标用户。
发明内容
有鉴于此,本申请的主要目的在于提供一种目标用户确定方法,该方法可以减少识别目标用户耗费的不少人力和时间成本,且不会受到用户与黑名单或白名单中账户的绑定关系的影响,识别得到的目标用户更加准确。
为了达到上述目的,本申请提出的技术方案为:
第一方面,本申请实施例提供了一种目标用户确定方法,包括以下步骤:
获取待确定用户的行为信息;所述行为信息用于描述所述待确定用户对客户端进行的操作行为;
根据所述行为信息提取行为特征;
将所述行为特征输入目标用户确定模型中,确定所述待确定用户是否是目标用户;所述目标用户确定模型的参数是基于包含了数量均衡的目标用户样本与非目标用户样本的样本集训练得到的;所述目标用户样本包含实际目标用户样本和虚拟目标用户样本;所述虚拟目标用户样本是根据所述实际目标用户样本和所述非目标用户样本确定得到的。
一种可能的实施方式中,所述获取待确定用户的行为信息的步骤之前,所述方法还包括所述目标用户确定模型的训练步骤:
获取所述实际目标用户样本和所述非目标用户样本;所述实际目标用户样本以实际进行过目标行为的用户为样本;
根据所述实际目标用户样本和所述非目标用户样本,确定所述虚拟目标用户样本,得到包括目标用户样本与非目标用户样本的样本集;
使用所述样本集对初始确定模型进行训练,得到所述目标用户确定模型。
一种可能的实施方式中,所述根据所述实际目标用户样本和所述非目标用户样本,确定所述虚拟目标用户样本的步骤,包括:
从所述实际目标用户样本中随机确定第一目标实际样本;
根据所述实际目标用户样本、所述非目标用户样本和所述第一目标实际样本之间的相似度,确定合成系数;
根据所述第一目标实际样本和所述合成系数,确定所述虚拟目标用户样本。
一种可能的实施方式中,所述根据所述实际目标用户样本和所述非目标用户样本,确定所述虚拟目标用户样本的步骤,包括:
确定所述实际目标用户样本的内部相似度,并根据所述实际目标用户样本的所述内部相似度的均值,确定第一平均相似度;
确定所述实际目标用户样本的外部相似度,并根据所述实际目标用户样本的所述外部相似度的均值,确定第二平均相似度;
根据所述第一目标实际样本与第一剩余目标用户样本之间的相似度的均值,确定第三平均相似度;
根据所述第一目标实际样本与非目标用户样本之间的相似度的均值,确定第四平均相似度;
根据所述第一平均相似度、所述第二平均相似度、所述第三平均相似度和所述第四平均相似度,确定合成系数。
一种可能的实施方式中,所述确定所述实际目标用户样本的内部相似度的步骤,包括:
根据所述实际目标用户样本与第二剩余目标用户样本之间的相似度,确定所述实际目标用户样本的内部相似度。
一种可能的实施方式中,所述确定所述实际目标用户样本的内部相似度的步骤,包括:
根据所述实际目标用户样本与第二剩余目标用户样本之间的相似度,确定第二目标实际样本;
根据所述实际目标用户样本与所述第二目标实际样本之间的相似度,确定所述实际目标用户样本的内部相似度。
一种可能的实施方式中,所述确定所述实际目标用户样本的外部相似度的步骤,包括:
根据所述实际目标用户样本与非目标用户样本之间的相似度,确定所述实际目标用户样本的外部相似度。
一种可能的实施方式中,所述确定所述实际目标用户样本的外部相似度的步骤,包括:
根据所述实际目标用户样本与非目标用户样本之间的相似度,确定第三目标实际样本;
根据所述实际目标用户样本与所述第三目标实际样本之间的相似度,确定所述实际目标用户样本的外部相似度。
一种可能的实施方式中,所述根据所述第一平均相似度、所述第二平均相似度、所述第三平均相似度和所述第四平均相似度,确定合成系数的步骤,包括:
判断所述第三平均相似度是否大于所述第一平均相似度,并且判断所述第四平均相识度是否大于所述第二平均相似度;
根据判断结果确定所述合成系数。
一种可能的实施方式中,所述根据判断结果确定所述合成系数的步骤,包括:
当所述第三平均相似度不大于所述第一平均相似度,并且所述第四平均相识度大于所述第二平均相似度时,从第一预设数值范围内随机确定所述合成系数;
当所述第三平均相似度不大于所述第一平均相似度,并且所述第四平均相识度不大于所述第二平均相似度时,根据所述第一预设数值范围或第二预设数值范围,确定所述合成系数;
当所述第三平均相似度大于所述第一平均相似度,并且所述第四平均相识度不大于所述第二平均相似度时,根据所述第一预设数值范围和第三预设数值范围,确定所述合成系数;
当所述第三平均相似度大于所述第一平均相似度,并且所述第四平均相识度大于所述第二平均相似度时,根据所述第一预设数值范围或第二预设数值范围,确定所述合成系数。
一种可能的实施方式中,所述根据所述第一预设数值范围或第二预设数值范围,确定所述合成系数的步骤,包括:
根据所述第一预设数值范围确定第一中间系数,根据所述第一中间系数与预设系数,确定所述合成系数;
或者,根据所述第二预设数值范围,确定所述合成系数。
一种可能的实施方式中,所述根据所述第一预设数值范围和第三预设数值范围,确定所述合成系数的步骤,包括:
根据所述第一预设数值范围确定第一中间系数,根据所述第三预设数值范围确定第二中间系数,根据所述第一中间系数和所述第二中间系数,确定所述合成系数。
一种可能的实施方式中,所述根据所述第一目标实际样本和所述合成系数,确定所述虚拟目标用户样本的步骤,包括:
从所述实际目标用户样本中随机确定第四目标实际样本;
确定所述第一目标实际样本和所述第四目标实际样本之间的相似度;
根据所述第一目标实际样本和所述第四目标实际样本之间的相似度和所述合成系数,确定所述虚拟目标用户样本。
第二方面,本申请实施例还提供一种目标用户确定装置,包括:
获取模块,用于获取待确定用户的行为信息;所述行为信息用于描述所述待确定用户对客户端进行的操作行为;
特征提取模块,用于根据所述行为信息提取行为特征;
目标用户确定模型,用于输入所述行为特征,确定所述待确定用户是否是目标用户;所述目标用户确定模型的参数是基于包含了数量均衡的目标用户样本与非目标用户样本的样本集训练得到的;所述目标用户样本包含实际目标用户样本和虚拟目标用户样本;所述虚拟目标用户样本是根据所述实际目标用户样本和所述非目标用户样本确定得到的。
一种可能的实施方式中,目标用户确定装置,还包括模型训练模块,模型训练模块,还包括:
样本获取模块,用于获取所述实际目标用户样本和所述非目标用户样本;所述实际目标用户样本以实际进行过目标行为的用户为样本;
样本集确定模块,用于根据所述实际目标用户样本和所述非目标用户样本,确定所述虚拟目标用户样本,得到包括目标用户样本与非目标用户样本的样本集;
训练模块,用于使用所述样本集对初始确定模型进行训练,得到所述目标用户确定模型。
一种可能的实施方式中,所述样本集确定模块,包括:
目标样本确定单元,用于从所述实际目标用户样本中随机确定第一目标实际样本;
合成系数确定单元,用于根据所述第一平均相似度、所述第二平均相似度、所述第三平均相似度和所述第四平均相似度,确定合成系数;
虚拟样本确定单元,用于根据所述第一目标实际样本和所述合成系数,确定所述虚拟目标用户样本。
一种可能的实施方式中,合成系数确定单元,包括:
第一相似度确定单元,用于确定所述实际目标用户样本的内部相似度,并根据所述实际目标用户样本的所述内部相似度的均值,确定第一平均相似度;
第二相似度确定单元,用于确定所述实际目标用户样本的外部相似度,并根据所述实际目标用户样本的所述外部相似度的均值,确定第二平均相似度;
第三相似度确定单元,用于根据所述第一目标实际样本与第一剩余目标用户样本之间的相似度的均值,确定第三平均相似度;
第四相似度确定单元,用于根据所述第一目标实际样本与非目标用户样本之间的相似度的均值,确定第四平均相似度;
系数确定单元,用于根据所述第一平均相似度、所述第二平均相似度、所述第三平均相似度和所述第四平均相似度,确定合成系数。
一种可能的实施方式中,第一相似度确定单元,还用于:
根据所述实际目标用户样本与第二剩余目标用户样本之间的相似度,确定所述实际目标用户样本的内部相似度。
一种可能的实施方式中,第一相似度确定单元,还用于:
根据所述实际目标用户样本与第二剩余目标用户样本之间的相似度,确定第二目标实际样本;
根据所述实际目标用户样本与所述第二目标实际样本之间的相似度,确定所述实际目标用户样本的内部相似度。
一种可能的实施方式中,第二相似度确定单元,还用于:
根据所述实际目标用户样本与非目标用户样本之间的相似度,确定所述实际目标用户样本的外部相似度。
一种可能的实施方式中,第二相似度确定单元,还用于:
根据所述实际目标用户样本与非目标用户样本之间的相似度,确定第三目标实际样本;
根据所述实际目标用户样本与所述第三目标实际样本之间的相似度,确定所述实际目标用户样本的外部相似度。
一种可能的实施方式中,系数确定单元,还包括:
判断单元,用于判断所述第三平均相似度是否大于所述第一平均相似度,并且判断所述第四平均相识度是否大于所述第二平均相似度;
合成单元,用于根据判断结果确定所述合成系数。
一种可能的实施方式中,合成单元,具体用于:
当所述第三平均相似度不大于所述第一平均相似度,并且所述第四平均相识度大于所述第二平均相似度时,从第一预设数值范围内随机确定所述合成系数;
当所述第三平均相似度不大于所述第一平均相似度,并且所述第四平均相识度不大于所述第二平均相似度时,根据所述第一预设数值范围或第二预设数值范围,确定所述合成系数;
当所述第三平均相似度大于所述第一平均相似度,并且所述第四平均相识度不大于所述第二平均相似度时,根据所述第一预设数值范围和第三预设数值范围,确定所述合成系数;
当所述第三平均相似度大于所述第一平均相似度,并且所述第四平均相识度大于所述第二平均相似度时,根据所述第一预设数值范围或第二预设数值范围,确定所述合成系数。
一种可能的实施方式中,合成单元,还用于:
根据所述第一预设数值范围确定第一中间系数,根据所述第一中间系数与预设系数,确定所述合成系数;
或者,根据所述第二预设数值范围,确定所述合成系数。
一种可能的实施方式中,合成单元,还用于:
根据所述第一预设数值范围确定第一中间系数,根据所述第三预设数值范围确定第二中间系数,根据所述第一中间系数和所述第二中间系数,确定所述合成系数。
一种可能的实施方式中,虚拟样本确定单元,还用于:
从所述实际目标用户样本中随机确定第四目标实际样本;
确定所述第一目标实际样本和所述第四目标实际样本之间的相似度;
根据所述第一目标实际样本和所述第四目标实际样本之间的相似度和所述合成系数,确定所述虚拟目标用户样本。
第三方面,本申请实施例还提供一种计算机可读存储介质。具体方案为:
一种计算机可读存储介质,存储有计算机指令,所述指令被处理器执行时可实现上述第一方面及第一方面中任一种可能的实施方式的步骤。
第四方面,本申请实施例还提供一种电子设备。具体方案为:
一种电子设备,该电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述第一方面及第一方面中任一种可能的实施方式的步骤。
综上所述,本申请提出的一种目标用户确定方法、装置、存储介质及电子设备。本申请使用目标用户确定模型对目标用户进行识别,目标用户确定模型训练完成后可持续使用,减少了识别目标用户耗费的不少人力和时间成本。目标用户确定模型根据用户的行为信息对目标用户进行识别,不会受到用户与黑名单或白名单中账户的绑定关系的影响。且使用包含了数量均衡的目标用户样本和非目标用户样本的样本集,对目标用户确定模型的参数进行训练,从而使目标用户确定模型的训练可以得到良好的训练效果,提高目标用户确定模型确定得到的目标用户的准确率。样本集中的目标用户样本是根据实际目标用户样本和非目标用户样本确定得到的,可以避免目标用户确定模型出现过拟合问题,进一步提升目标用户确定模型的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种目标用户确定方法的流程示意图;
图2为目标用户确定方法中对目标用户确定模型进行训练的流程示意图;
图3为目标用户确定方法中确定虚拟目标用户样本的流程示意图;
图4为目标用户确定方法中实际目标用户样本的分布及确定内部相似度的一种可能的实施方式的示意图;
图5为目标用户确定方法中实际目标用户样本的分布及确定内部相似度的另一种可能的实施方式的示意图;
图6为目标用户确定方法中实际目标用户样本、非目标用户样本的分布及确定外部相似度的一种可能的实施方式的示意图;
图7为目标用户确定方法中实际目标用户样本、非目标用户样本的分布及确定外部相似度的另一种可能的实施方式的示意图;
图8为目标用户确定方法中确定合成系数的流程示意图;
图9为本申请实施例提供的一种目标用户确定装置的结构示意图;
图10为目标用户确定装置中样本集确定模块的结构示意图;
图11为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例,例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
目标用户为传递目标信息、实施目标行为的用户。以恶意访问行为作为目标行为为例,实施恶意访问行为的目标用户的访问小则浪费服务提供方大量人力或时间资源进行甄别,大则会对正常的非目标用户的隐私和财产安全构成威胁。示例性的,很多网站或应用程序有回访的制度,当有用户上传信息时,有专门的客服人员对用户上传的信息进行回访与核实。但如果上传信息的是实施恶意访问行为的用户,对虚假的信息进行回访和核实会浪费大量人力与时间成本。
现有技术中,常采用构建黑名单或白名单的方法识别目标用户。但是黑名单或白名单需要不断的重新构建,其建立过程已经耗费了不少人力和时间成本。且黑名单或白名单的建立标准难以衡量,如果黑名单或白名单的建立标准过于严格,还容易漏掉部分潜在的目标用户或非目标用户。另外,当用户与黑名单或白名单中账户的绑定关系发生改变时,服务端并不能获知绑定关系的改变,此时,会漏掉潜在的目标用户或者非目标用户。
即便有采用目标用户确定模型确定目标用户的方法,在目标用户确定模型确定目标用户时,很难获得良好的确定效果。这是由于,现有技术中,在现实的访问环境中,目标用户的数量与非目标用户的数量不均衡,以恶意访问行为作为目标行为为例,实施恶意访问行为的目标用户的数量大大小于实施正常访问行为的非目标用户的数量。因此,在对目标用户确定模型进行训练时,获取的目标用户样本数量与非目标用户样本数量不均衡,目标用户确定模型的训练很难达到良好的效果,使用目标用户确定模型确定得到的目标用户准确率较低。
有鉴于此,本申请的核心发明点在于:首先,使用目标用户确定模型对目标用户进行识别,目标用户确定模型训练完成后可持续使用,减少了识别目标用户耗费的不少人力和时间成本。目标用户确定模型根据用户的行为信息对目标用户进行识别,不会受到用户与黑名单中账户的绑定关系的影响。且使用包含了目标用户样本和非目标用户样本的样本集,对目标用户确定模型进行训练,从而使目标用户确定模型的训练可以得到良好的训练效果,提高目标用户确定模型确定得到的目标用户的准确率。
进一步的,本申请使用包含了实际目标用户样本和虚拟目标用户样本的样本集,使用虚拟目标用户样本增加目标用户样本的数量,使得样本集中,目标用户样本的数量与非目标用户样本的数量均衡,从而使目标用户确定模型的训练可以得到良好的训练效果,提高目标用户确定模型确定得到的目标用户的准确率。
进一步的,本申请样本集中的目标用户样本是根据实际目标用户样本和非目标用户样本确定得到的,比起现有技术中常用的仅根据实际目标用户样本确定虚拟目标用户样本的方法,可以避免目标用户确定模型出现过拟合问题,进一步提升目标用户确定模型的准确性。
本申请实施例通常实现在服务器端,根据数据库中存储的或者客户端获取的待确定用户的行为信息,确定待确定用户是否是目标用户。
为使本申请的目的、技术方案和优点更加清楚,下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
实施例一
图1为本申请实施例提供的一种目标用户确定方法的流程示意图,如图1所示,该实施例主要包括:
S101:获取待确定用户的行为信息;所述行为信息用于描述所述待确定用户对客户端进行的操作行为。
待确定用户为产生行为的用户,为判断是否是目标用户的目标,根据待确定用户的行为判断待确定用户是否是目标用户。行为信息用于描述所述待确定用户对客户端进行的操作行为,待确定用户的行为信息可以包括待确定用户建立账户以来的历次行为信息,包括待确定用户对网站或应用程序的操作行为信息、待确定用户对回访的响应行为信息等。
具体的例如,在房地产交易领域,待确定用户对房地产交易程序进行访问时,待确定用户的行为信息可以包括:待确定用户对房地产交易程序的访问数据信息和浏览数据信息、待确定用户上传的至少一个房源信息、待确定用户对回访人员的响应信息和待确定用户的账号绑定信息等。
S102:根据所述行为信息提取行为特征。
具体的,可以根据行为信息提取多维的行为特征。可以采用任一种常用的特征提取方法提取行为特征。并且在提取行为特征之前,还可以包括数据预处理的步骤,进行去除异常数据等操作。由于行为特征是基于行为信息提取的,因此行为特征也用于描述待确定用户对客户端进行的操作行为的特征信息。
S103:将所述行为特征输入目标用户确定模型中,确定所述待确定用户是否是目标用户;所述目标用户确定模型基于包含了目标用户样本与非目标用户样本的样本集训练得到;所述目标用户样本包含实际目标用户样本和虚拟目标用户样本。
将行为特征输入目标用户确定模型中,确定待确定用户是否是目标用户。这里,目标用户确定模型为确定目标用户的神经网络模型,示例性的,可以采用分类算法实现目标用户确定模型,使用目标用户确定模型确定待确定用户的用户类型是目标用户还是非目标用户。具体的,可以采用LightGBM算法实现目标用户确定模型。
使用目标用户确定模型对目标用户进行识别,目标用户确定模型训练完成后可持续使用,减少了识别目标用户耗费的不少人力和时间成本。目标用户确定模型根据用户的行为信息对目标用户进行识别,不会受到用户与黑名单中账户的绑定关系的影响。且使用包含了目标用户样本和非目标用户样本的样本集,对目标用户确定模型进行训练,从而使目标用户确定模型的训练可以得到良好的训练效果,提高目标用户确定模型确定得到的目标用户的准确率。
具体的,可以采用如图2所示的步骤对目标用户确定模型进行训练:
S201:获取所述实际目标用户样本和所述非目标用户样本;所述实际目标用户样本以实际进行过目标行为的用户为样本。
获取实际目标用户样本和非目标用户样本,这里,实际目标用户样本为实际进行过目标行为的用户样本,非目标用户样本也是实际上未进行过目标行为的用户样本。实际目标用户样本和非目标用户样本均是从数据存储中获取的,例如,可以从内部数据库、云端数据库等任一种常用的数据库中获取。
这里,实际目标用户样本以实际进行过目标行为的用户为样本,这里的目标行为,为确定目标用户时关注的行为。示例性的,当使用本申请实施例提供的方法识别实施恶意访问行为的目标用户时,以恶意访问行为作为目标行为。在实际应用的环境中,目标用户与非目标用户的数量通常不均衡。以恶意访问行为作为目标行为为例,大部分用户为没有实施恶意访问行为的非目标用户,非目标用户的数量远大于目标用户的数量,因此,非目标用户样本数量较多,实际目标用户样本数量较少。如果直接采用非目标用户样本和实际目标用户样本进行训练,不均衡的用户样本会造成训练得到的目标用户确定模型准确性较低。如果强行减少非目标用户样本数量,将非目标用户样本的数量降低到与实际目标用户样本相当的数量,由于采用的用户样本数量较少,同样会造成训练得到的目标用户确定模型准确性较低。因此,根据实际目标用户样本和非目标用户样本,确定虚拟目标用户样本,得到包括目标用户样本与非目标用户样本的样本集。
S202:根据所述实际目标用户样本和所述非目标用户样本,确定所述虚拟目标用户样本,得到包括目标用户样本与非目标用户样本的样本集。
一般的,虚拟目标用户样本可以根据实际目标用户样本确定,例如,通过复制实际目标用户样本,得到虚拟目标用户样本。但简单的根据实际目标用户样本确定虚拟目标用户样本,得到的虚拟目标用户样本存在过拟合问题,不能尽可能的反应实际目标用户样本的特征,从而使得得到的目标用户确定模型在训练时对已知数据的确定效果很好,但在实际应用时对未知数据的确定效果较差。因此,本申请实施例根据实际目标用户样本和非目标用户样本,确定虚拟目标用户样本,提升目标用户确定模型在实际应用时的确定效果。
本申请实施例根据实际目标用户样本和非目标用户样本的相似度,确定实际目标用户样本的分布情况,进而确定虚拟目标用户样本。具体的,根据所述实际目标用户样本和所述非目标用户样本,确定所述虚拟目标用户样本的步骤如图3所示:
S301:从所述实际目标用户样本中随机确定第一目标实际样本;
虚拟目标用户样本仍然需要根据实际目标用户样本确定,从实际目标用户样本随机确定第一目标实际样本,根据第一目标实际样本,确定虚拟目标用户样本。
S302:根据所述实际目标用户样本、所述非目标用户样本和所述第一目标实际样本之间的相似度,确定合成系数;
合成系数用于调整虚拟目标用户样本与实际目标用户样本之间的相似度、以及调整虚拟目标用户样本与非目标用户样本之间的相似度,使得合成的虚拟目标用户样本尽可能的靠近实际目标用户样本的密集区域,远离非目标用户样本的密集区域。
具体的,可以采用下述步骤1至步骤5确定合成系数:
步骤1、针对每个所述实际目标用户样本,确定该实际目标用户样本的内部相似度,并根据每个所述实际目标用户样本的所述内部相似度的均值,确定第一平均相似度。
在具体实施时,可以采用下述两种可能的实施方式,确定实际目标用户样本的内部相似度:
A:一种可能的实施方式中,针对每个所述实际目标用户样本,根据该实际目标用户样本与第二剩余目标用户样本之间的相似度,确定该实际目标用户样本的内部相似度。
如图4所示为每个实际目标用户样本的分布示意图,在图4中,正被确定内部相似度的该实际目标用户样本使用实心点表示,第二剩余目标用户样本使用空心点表示,这里,第二剩余目标用户样本为每个实际目标用户样本中,除正被确定内部相似度的该实际目标用户样本以外的所有实际目标用户样本。当实际目标用户样本数量较少时,可以根据该实际目标用户样本与第二剩余目标用户样本之间的相似度,确定该实际目标用户样本的内部相似度。具体的,根据该实际目标用户样本与第二剩余目标用户样本之间的相似度的均值,确定该实际目标用户样本的内部相似度。
B:另一种可能的实施方式中,根据该实际目标用户样本与第二剩余目标用户样本之间的相似度,确定第二目标实际样本;根据该实际目标用户样本与每个所述第二目标实际样本之间的相似度,确定该实际目标用户样本的内部相似度。
当实际目标用户样本数量较多时,可以根据该实际目标用户样本与第二剩余目标用户样本之间的相似度,先确定第二目标实际样本。具体的,可以将与该实际目标用户样本之间的相似度最大的第一预设数量个第二剩余目标用户样本,确定为第二目标实际样本。也可以将与该实际目标用户样本之间的相似度小于预设第一相似度阈值的第二剩余目标用户样本,确定为第二目标实际样本。
如图5所示为每个实际目标用户样本的分布示意图,在图5中,正被确定内部相似度的该实际目标用户样本使用实心点表示,第二剩余目标用户样本使用空心点表示。第二目标实际样本为圆圈中圈定的第二剩余目标用户样本。确定得到第二目标实际样本后,具体可以根据该实际目标用户样本与每个所述第二目标实际样本之间的相似度的均值,确定该实际目标用户样本的内部相似度。
示例性的,可以通过计算用户样本之间的距离,确定用户样本之间的相似度。例如,可以通过计算用户样本之间的欧式距离、曼哈顿距离、马氏距离或汉明距离,确定用户样本之间的相似度。如图4、图5、图6、图7中,用户样本之间的连线为用户样本之间的距离。
确定每个实际目标用户样本分别的内部相似度后,根据每个实际目标用户样本的内部相似度的均值,确定第一平均相似度。
步骤2、针对每个所述实际目标用户样本,确定该实际目标用户样本的外部相似度,并根据每个所述实际目标用户样本的所述外部相似度的均值,确定第二平均相似度。
在具体实施时,可以采用下述两种可能的实施方式,确定实际目标用户样本的外部相似度:
a:一种可能的实施方式中,针对每个所述实际目标用户样本,根据该实际目标用户样本与每个非目标用户样本之间的相似度,确定该实际目标用户样本的外部相似度。
如图6所示为该实际目标用户样本与非目标用户样本的分布示意图,在图6中,正被确定外部相似度的该实际目标用户样本使用实心点表示,非目标用户样本使用空心点表示。当非目标用户样本数量较少时,可以根据该实际目标用户样本与非目标用户样本之间的相似度,确定该实际目标用户样本的外部相似度。具体的,根据该实际目标用户样本与非目标用户样本之间的相似度的均值,确定该实际目标用户样本的外部相似度。
b:另一种可能的实施方式中,根据该实际目标用户样本与每个非目标用户样本之间的相似度,确定第三目标实际样本;根据该实际目标用户样本与每个所述第三目标实际样本之间的相似度,确定该实际目标用户样本的外部相似度。
当实际目标用户样本数量较多时,可以根据该实际目标用户样本与每个非目标用户样本之间的相似度,先确定第三目标实际样本。具体的,可以将与该实际目标用户样本之间的相似度最大的第二预设数量个非目标用户样本,确定为第三目标实际样本。也可以将与该实际目标用户样本之间的相似度小于预设第二相似度阈值的非目标用户样本,确定为第三目标实际样本。
如图7所示为每个实际目标用户样本的分布示意图,在图7中,正被确定外部相似度的该实际目标用户样本使用实心点表示,非目标用户样本使用空心点表示。第三目标实际样本为圆圈中圈定的非目标用户样本。确定得到第三目标实际样本后,具体可以根据该实际目标用户样本与每个所述第三目标实际样本之间的相似度的均值,确定该实际目标用户样本的外部相似度。
步骤3、根据所述第一目标实际样本与第一剩余目标用户样本之间的相似度的均值,确定第三平均相似度。
这里,第一剩余目标用户样本为除第一目标实际样本之外的所有实际目标用户样本。
在具体实施时,除了可以根据所述第一目标实际样本与每个第一剩余目标用户样本之间的相似度的均值,确定第三平均相似度。一种可能的实施方式中,还可以根据第一目标实际样本与每个第一剩余目标用户样本之间的相似度,确定第五目标实际样本;根据第一目标实际样本与每个所述第五目标实际样本之间的相似度的均值,确定第三平均相似度。具体的,可以将与第一目标实际样本之间的相似度最大的第三预设数量个第一剩余目标用户样本,确定为第五目标实际样本。也可以将与第一目标实际样本之间的相似度小于预设第三相似度阈值的第一剩余目标用户样本,确定为第五目标实际样本。
步骤4、根据所述第一目标实际样本与每个非目标用户样本之间的相似度的均值,确定第四平均相似度。
在具体实施时,除了可以根据所述第一目标实际样本与每个非目标用户样本之间的相似度的均值,确定第四平均相似度。一种可能的实施方式中,还可以根据第一目标实际样本与每个非目标用户样本之间的相似度,确定第六目标实际样本;根据该实际目标用户样本与每个所述第六目标实际样本之间的相似度的均值,确定第四平均相似度。具体的,可以将与第一目标实际样本之间的相似度最大的第四预设数量个非目标用户样本,确定为第六目标实际样本。也可以将与第一目标实际样本之间的相似度小于预设第四相似度阈值的非目标用户样本,确定为第六目标实际样本。
步骤5、根据所述第一平均相似度、所述第二平均相似度、所述第三平均相似度和所述第四平均相似度,确定合成系数。
为了方便表述,使用s1代表第一平均相似度,s2代表第二平均相似度,d1代表第三平均相似度,d2代表第四平均相似度,使用ξ代表合成系数,使用xi代表第一目标实际样本。
具体的,如图8所示,根据所述第一平均相似度、所述第二平均相似度、所述第三平均相似度和所述第四平均相似度,确定合成系数的步骤包括:
S801:判断所述第三平均相似度是否大于所述第一平均相似度,并且判断所述第四平均相识度是否大于所述第二平均相似度。
第一平均相似度s1与第二平均相似度s2,表征了随机选择得到的第一目标实际样本xi与目标用户样本密集区域的距离;第三平均相似度d1与第四平均相似度d2,表征了随机选择得到的第一目标实际样本xi与非目标用户样本密集区域的距离。
因此,本申请实施例根据判断结果确定所述合成系数。
S802:当所述第三平均相似度不大于所述第一平均相似度,并且所述第四平均相识度大于所述第二平均相似度时,从第一预设数值范围内随机确定所述合成系数。
当d1不大于s1,且d2大于s2时,即代表选取的第一目标实际样本xi处于目标用户样本密集区域,且远离非目标用户样本密集区域。从第一预设数值范围内随机确定所述合成系数ξ,目的是尽可能使生成的虚拟目标用户样本仍处于第一目标实际样本xi附近,即在目标用户样本密集区域且远离非目标用户样本密集区域。优选的,第一预设数值范围为0到1。示例性的,采用下述公式(1)从第一预设数值范围内随机确定所述合成系数ξ:
ξ=rand(0,1),d1≤s1∩d2>s2 (1)
这里,ξ为合成系数,rand(0,1)代表从0到1的第一预设数值范围内随机确定合成系数ξ。
S803:当所述第三平均相似度不大于所述第一平均相似度,并且所述第四平均相识度不大于所述第二平均相似度时,根据所述第一预设数值范围或第二预设数值范围,确定所述合成系数。
当d1不大于s1,且d2不大于s2时,即代表选取的第一目标实际样本xi处于目标用户样本密集区域,且离非目标用户样本密集区域较近,此时确定的虚拟目标用户样本需稍靠近该点,故根据所述第一预设数值范围或第二预设数值范围,确定所述合成系数ξ。
可以采用下述两种可能的实施方式根据所述第一预设数值范围或第二预设数值范围,确定所述合成系数ξ:
I:一种可能的实施方式中,根据所述第一预设数值范围确定第一中间系数,根据所述第一中间系数与预设系数,确定所述合成系数ξ。优选的,第一预设数值范围为0到1,预设系数为0.5。示例性的,采用下述公式(2)从第一预设数值范围内随机确定所述合成系数ξ:
ξ=0.5*rand(0,1),d1≤s1∩d2≤s2 (2)
这里,ξ为合成系数,rand(0,1)代表从0到1的第一预设数值范围内随机确定第一中间系数,第一中间系数与预设系数0.5相乘,得到合成系数ξ。
II:另一种可能的实施方式中,根据所述第二预设数值范围,确定所述合成系数。优选的,第二预设数值范围为0到0.5。示例性的,采用下述公式(3)从第二预设数值范围内随机确定合成系数ξ:
ξ=rand(0,0.5),d1≤s1∩d2≤s2 (3)
这里,ξ为合成系数,rand(0,0.5)代表从0到0.5的第二预设数值范围内随机确定合成系数ξ。
S804:当所述第三平均相似度大于所述第一平均相似度,并且所述第四平均相识度不大于所述第二平均相似度时,根据所述第一预设数值范围和第三预设数值范围,确定所述合成系数。
当d1大于s1,且d2不大于s2时,即代表选取的第一目标实际样本xi处于远离目标用户样本密集区域,且离非目标用户样本密集区域较近,此时合成系数ξ根据第一预设数值范围和第三预设数值范围确定。
具体的,根据所述第一预设数值范围确定第一中间系数,根据所述第三预设数值范围确定第二中间系数,根据所述第一中间系数和所述第二中间系数,确定所述合成系数。目的是使虚拟目标用户样本尽可能远离第一目标实际样本xi,更接近目标用户样本密集区域,而不是成为一个原理目标用户样本密集区域的异常点。优选的,第一预设数值范围为0到1,第三预设数值范围为0.5到1。示例性的,采用下述公式(4)从根据第一预设数值范围和第三预设数值范围,确定合成系数ξ:
ξ=η+(1-η)*rand(0,1),η∈(0.5,1),d1>s1∩d2≤s2 (4)
其中,ξ为合成系数,rand(0,1)代表从0到1的第一预设数值范围内随机确定的第一中间系数。η为第二中间系数,η从第三预设数值范围0.5到1之间随机确定,或在第三预设数值范围0.5到1之间设定,优选的,可以将η设定为0.75。
S805:当所述第三平均相似度大于所述第一平均相似度,并且所述第四平均相识度大于所述第二平均相似度时,根据所述第一预设数值范围或第二预设数值范围,确定所述合成系数。
当d1大于s1,且d2大于s2时,即代表选取的第一目标实际样本xi处于远离目标用户样本密集区域,且非目标用户样本密集区域,那么此时新虚拟的样本点需稍远离第一目标实际样本xi,那么此时取0.5到1之间的一个随机数。此时,根据第一预设数值范围或第二预设数值范围,确定合成系数ξ。优选的,第一预设数值范围为0到1,第二预设数值范围为0到0.5。
可以采用下述两种可能的实施方式根据所述第一预设数值范围或第二预设数值范围,确定所述合成系数ξ:
i:一种可能的实施方式中,根据所述第一预设数值范围确定第一中间系数,根据所述第一中间系数与预设系数,确定所述合成系数ξ。优选的,第一预设数值范围为0到1,预设系数为0.5。示例性的,采用下述公式(5)从第一预设数值范围内随机确定所述合成系数ξ:
ξ=0.5+0.5*rand(0,1),d1>s1∩d2>s2 (5)
这里,ξ为合成系数,rand(0,1)代表从0到1的第一预设数值范围内随机确定第一中间系数,第一中间系数与预设系数0.5相乘之后,与预设系数0.5相加,得到合成系数ξ。
ii:另一种可能的实施方式中,根据所述第二预设数值范围,确定所述合成系数ξ。优选的,第二预设数值范围为0到0.5。示例性的,采用下述公式(6)从第二预设数值范围内随机确定合成系数ξ:
ξ=0.5+rand(0,0.5),d1>s1∩d2>s2 (6)
这里,ξ为合成系数,rand(0,0.5)代表从0到0.5的第二预设数值范围内随机确定合成系数ξ。
承接上述步骤S302,接下来介绍步骤S303。
S303:根据所述第一目标实际样本和所述合成系数,确定所述虚拟目标用户样本。
确定得到合成系数ξ之后,可以根据第一目标实际样本xi和合成系数ξ,确定虚拟目标用户样本。
具体的,从所述实际目标用户样本中随机确定第四目标实际样本xi(nn);确定所述第一目标实际样本xi和所述第四目标实际样本xi(nn)之间的相似度;根据所述第一目标实际样本xi和第四目标实际样本xi(nn)之间的相似度和合成系数ξ,确定所述虚拟目标用户样本。示例性的,可以采用下述公式(7)确定虚拟目标用户样本:
xi1=xi+ξ*(xi(nn)-xi) (7)
其中,xi1为虚拟目标用户样本,xi为第一目标实际样本,xi(nn)为第四目标实际样本,(xi(nn)-xi)代表确定第一目标实际样本xi和第四目标实际样本xi(nn)之间的相似度,ξ为合成系数。
承接上述步骤S202,接下来介绍步骤S203。
S203:使用所述样本集对初始确定模型进行训练,得到所述目标用户确定模型。
通过重复步骤S301至S303,获得虚拟目标用户样本,使得包括实际目标用户样本与虚拟目标用户样本的目标用户样本,与非目标用户样本的数量均衡,从而得到样本集。
根据样本集中的每个用户样本,提取样本特征,并根据样本特征对初始确定模型进行训练,得到所述目标用户确定模型。
这样在一个未知的待确定用户进行操作行为的时候,获取待确定用户的行为信息,之后会调用训练得到的目标用户确定模型根据待确定用户的行为信息对待确定用户进行分类,确定待确定用户是否是目标用户。此过程无需人工干预,并返回待确定用户是否是目标用户的分类结果,后续可根据分类结果进行相应的操作。使用生成了虚拟目标用户样本的样本集对目标用户确定模型进行训练,得到的目标用户确定模型可以达到较高的准确率,减少了误判的发生。
优选的,可以采用LightGBM算法实现目标用户确定模型,LightGBM算法是一种决策树算法,直接选择最大收益的节点展开,以更小的计算代价来选择决策树,以控制树的深度和每个叶子节点的数据量来减小过拟合。并且LightGBM算法采用直方图算法,把特征值分成多个小筒,然后在筒上搜索分裂点,这样使得计算代价和存储代价降低,从而提高了分类效率。直方图算法不需要额外存储预排序结果,而且可以只保存特征离散化后的值,而且使用8位整型存储,内存消耗降低为原来的1/8,而且计算量也可以下降到常数级别。
LightGBM算法没有继续使用按层生长(level-wise)的决策树生长策略,而是使用了带有深度限制的按叶子生长(leaf-wise)算法。虽然level-wise可以同时分裂同一层的叶子,容易进行多线程优化,但是这种算法非常低效,它对所有叶子一视同仁地进行计算,却有很多无用功。而leaf-wise算法是一种非常高效的算法,它是从每次分裂的叶子中找到一个分裂增益最大的叶子节点进行增益,这样能得到更高的精度和更小的误差,但是有可能会出现过拟合现问题,所以再进行最大深度的限制,就防止了过拟合。此外,LightGBM算法还进行了并行优化、多线程优化、Cache命中率优化等,提高了目标用户确定模型的性能。
本申请实施例提供的目标用户确定方法,使用目标用户确定模型对目标用户进行识别,目标用户确定模型训练完成后可持续使用,减少了识别目标用户耗费的不少人力和时间成本。目标用户确定模型根据用户的行为信息对目标用户进行识别,不会受到用户与黑名单中账户的绑定关系的影响。且使用包含了目标用户样本和非目标用户样本的样本集,对目标用户确定模型进行训练,从而使目标用户确定模型的训练可以得到良好的训练效果,提高目标用户确定模型确定得到的目标用户的准确率。进一步的,本申请实施例使用包含了实际目标用户样本和虚拟目标用户样本的样本集,使用虚拟目标用户样本增加目标用户样本的数量,使得样本集中,目标用户样本的数量与非目标用户样本的数量均衡,从而使目标用户确定模型的训练可以得到良好的训练效果,提高目标用户确定模型确定得到的目标用户的准确率。进一步的,本申请样本集中的目标用户样本是根据实际目标用户样本和非目标用户样本确定得到的,比起现有技术中常用的仅根据实际目标用户样本确定虚拟目标用户样本的方法,可以避免目标用户确定模型出现过拟合问题,进一步提升目标用户确定模型的准确性。
基于相同的设计构思,本申请实施例还提供一种目标用户确定装置、存储介质及电子设备。
实施例二
如图9所示,本申请实施例提供的一种目标用户确定装置900,包括:
获取模块901,用于获取待确定用户的行为信息;所述行为信息用于描述所述待确定用户对客户端进行的操作行为;
特征提取模块902,用于根据所述行为信息提取行为特征;
目标用户确定模型903,用于输入所述行为特征,确定所述待确定用户是否是目标用户;所述目标用户确定模型的参数是基于包含了数量均衡的目标用户样本与非目标用户样本的样本集训练得到的;所述目标用户样本包含实际目标用户样本和虚拟目标用户样本;所述虚拟目标用户样本是根据所述实际目标用户样本和所述非目标用户样本确定得到的。
获取模块901与目标用户确定模型903连接,获取模块901获取待确定用户的行为信息,并将待确定用户的行为信息发送给目标用户确定模型903。目标用户确定模型903获取待确定用户的行为信息,并根据待确定用户的行为信息确定待确定用户是否是目标用户。
一种可能的实施方式中,目标用户确定装置900,还包括模型训练模块904,模型训练模块904,还包括:
样本获取模块9041,用于获取所述实际目标用户样本和所述非目标用户样本;所述实际目标用户样本以实际进行过目标行为的用户为样本;
样本集确定模块9042,用于根据所述实际目标用户样本和所述非目标用户样本,确定所述虚拟目标用户样本,得到包括目标用户样本与非目标用户样本的样本集;
训练模块9043,用于使用所述样本集对初始确定模型进行训练,得到所述目标用户确定模型。
样本获取模块9041与样本集确定模块9042连接,样本获取模块9041从数据库中获取实际目标用户样本和非目标用户样本,并将获取的实际目标用户样本和非目标用户样本发送给样本集确定模块9042。样本集确定模块9042与训练模块9043连接,根据实际目标用户样本和非目标用户样本,确定所述虚拟目标用户样本,得到包括目标用户样本与非目标用户样本的样本集,之后,将样本集发送给训练模块9043。训练模块9043与目标用户确定模型903连接,根据样本集对初始确定模型进行训练,得到目标用户确定模型。
一种可能的实施方式中,如图10所示,样本集确定模块9042,包括:
目标样本确定单元1001,用于从所述实际目标用户样本中随机确定第一目标实际样本;
合成系数确定单元1002,用于根据所述第一平均相似度、所述第二平均相似度、所述第三平均相似度和所述第四平均相似度,确定合成系数;
虚拟样本确定单元1003,用于根据所述第一目标实际样本和所述合成系数,确定所述虚拟目标用户样本。
一种可能的实施方式中,合成系数确定单元1002,包括:
第一相似度确定单元1021,用于确定所述实际目标用户样本的内部相似度,并根据所述实际目标用户样本的所述内部相似度的均值,确定第一平均相似度;
第二相似度确定单元1022,用于确定所述实际目标用户样本的外部相似度,并根据所述实际目标用户样本的所述外部相似度的均值,确定第二平均相似度;
第三相似度确定单元1023,用于根据所述第一目标实际样本与第一剩余目标用户样本之间的相似度的均值,确定第三平均相似度;
第四相似度确定单元1024,用于根据所述第一目标实际样本与非目标用户样本之间的相似度的均值,确定第四平均相似度;
系数确定单元1025,用于根据所述第一平均相似度、所述第二平均相似度、所述第三平均相似度和所述第四平均相似度,确定合成系数。
第一相似度确定单元1021、第二相似度确定单元1022和目标样本确定单元1001分别与样本获取模块9041连接,根据样本获取模块9041发来的实际目标用户样本和非目标用户样本,分别确定第一平均相似度、第二平均相似度和第一目标实际样本。第三相似度确定单元1023和第四相似度确定单元1024分别与目标样本确定单元1001连接,获取目标样本确定单元1001确定的第一目标实际样本,第三相似度确定单元1023和第四相似度确定单元1024还分别与样本获取模块9041连接,根据样本获取模块9041发来的实际目标用户样本和非目标用户样本,分别确定第三平均相似度和第四平均相似度。
第一相似度确定单元1021、第二相似度确定单元1022、第三相似度确定单元1023和第四相似度确定单元1024分别与系数确定单元1025连接,将第一平均相似度、第二平均相似度、第三平均相似度和第四平均相似度发送给系数确定单元1025,系数确定单元1025根据第一平均相似度、第二平均相似度、第三平均相似度和第四平均相似度,确定合成系数。
系数确定单元1025和目标样本确定单元1001分别与虚拟样本确定单元1003连接,将确定的合成系数和第一目标实际样本分别发送给虚拟样本确定单元1003,确定虚拟目标用户样本。
一种可能的实施方式中,第一相似度确定单元1021,还用于:
根据所述实际目标用户样本与第二剩余目标用户样本之间的相似度,确定所述实际目标用户样本的内部相似度。
一种可能的实施方式中,第一相似度确定单元1021,还用于:
根据所述实际目标用户样本与第二剩余目标用户样本之间的相似度,确定第二目标实际样本;
根据所述实际目标用户样本与所述第二目标实际样本之间的相似度,确定所述实际目标用户样本的内部相似度。
一种可能的实施方式中,第二相似度确定单元1022,还用于:
根据所述实际目标用户样本与非目标用户样本之间的相似度,确定所述实际目标用户样本的外部相似度。
一种可能的实施方式中,第二相似度确定单元1022,还用于:
根据所述实际目标用户样本与非目标用户样本之间的相似度,确定第三目标实际样本;
根据所述实际目标用户样本与所述第三目标实际样本之间的相似度,确定所述实际目标用户样本的外部相似度。
一种可能的实施方式中,系数确定单元1025,还包括:
判断单元1251,用于判断所述第三平均相似度是否大于所述第一平均相似度,并且判断所述第四平均相识度是否大于所述第二平均相似度;
合成单元1252,用于根据判断结果确定所述合成系数。
判断单元1251分别与第一相似度确定单元1021、第二相似度确定单元1022、第三相似度确定单元1023和第四相似度确定单元1024连接,获取第一平均相似度、第二平均相似度、第三平均相似度和第四平均相似度,并判断第三平均相似度是否大于第一平均相似度,第四平均相识度是否大于第二平均相似度。判断单元1251与合成单元1252连接,将判断结果、以及第一相似度确定单元1021、第二相似度确定单元1022、第三相似度确定单元1023和第四相似度确定单元1024发送给合成单元1252。合成单元1252根据判断结果确定合成系数。合成单元1252与虚拟样本确定单元1003连接,将合成系数发送给虚拟样本确定单元1003。
一种可能的实施方式中,合成单元1252,具体用于:
当所述第三平均相似度不大于所述第一平均相似度,并且所述第四平均相识度大于所述第二平均相似度时,从第一预设数值范围内随机确定所述合成系数;
当所述第三平均相似度不大于所述第一平均相似度,并且所述第四平均相识度不大于所述第二平均相似度时,根据所述第一预设数值范围或第二预设数值范围,确定所述合成系数;
当所述第三平均相似度大于所述第一平均相似度,并且所述第四平均相识度不大于所述第二平均相似度时,根据所述第一预设数值范围和第三预设数值范围,确定所述合成系数;
当所述第三平均相似度大于所述第一平均相似度,并且所述第四平均相识度大于所述第二平均相似度时,根据所述第一预设数值范围或第二预设数值范围,确定所述合成系数。
一种可能的实施方式中,合成单元1252,还用于:
根据所述第一预设数值范围确定第一中间系数,根据所述第一中间系数与预设系数,确定所述合成系数;
或者,根据所述第二预设数值范围,确定所述合成系数。
一种可能的实施方式中,合成单元1252,还用于:
根据所述第一预设数值范围确定第一中间系数,根据所述第三预设数值范围确定第二中间系数,根据所述第一中间系数和所述第二中间系数,确定所述合成系数。
一种可能的实施方式中,虚拟样本确定单元1003,还用于:
从所述实际目标用户样本中随机确定第四目标实际样本;
确定所述第一目标实际样本和所述第四目标实际样本之间的相似度;
根据所述第一目标实际样本和所述第四目标实际样本之间的相似度和所述合成系数,确定所述虚拟目标用户样本。
此种可能的实施方式中,虚拟样本确定单元1003还与样本获取模块9041连接,根据样本获取模块9041发来的实际目标用户样本中,确定第四目标实际样本,根据第四目标实际样本和目标样本确定单元1001确定的第一目标实际样本,确定第一目标实际样本和第四目标实际样本之间的相似度,根据第一目标实际样本和第四目标实际样本之间的相似度、以及系数确定单元1025确定的合成系数,确定虚拟目标用户样本。
一种可能的实施方式中,本申请实施例提供的目标用户确定装置还可以包括中央控制模块和存储模块,目标用户确定装置中的每个模块均与中央控制模块连接,存储模块也与中央控制模块连接,由中央控制模块进行每个模块之间执行顺序和数据交互的调度,并将每个中间数据存存储在内部存储或存储器中,通过中央控制模块从内部存储或存储器读取中间数据、或者将中间数据写入内部存储或存储器中。
本申请实施例提供的目标用户确定装置可以减少识别目标用户耗费的不少人力和时间成本,且不会受到用户与黑名单中账户的绑定关系的影响,识别得到的目标用户更加准确。
实施例三
一种计算机可读介质,所述计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行本申请实施例提供的任一种目标用户确定方法的步骤。实际应用中,所述的计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的,也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或多个程序被执行时,实现根据参考本申请实施例提供的任一种目标用户确定装置进行本申请实施例提供的任一种目标用户确定方法的步骤。
根据本申请公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件,或者上述的任意合适的组合,但不用于限制本申请保护的范围。在本申请公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
本申请所述的方法步骤除了可以用数据处理程序来实现,还可以由硬件来实现,例如,可以由逻辑门、开关、专用集成电路(ASIC)、可编程逻辑控制器和嵌微控制器等来实现。因此这种可以实现本申请所述方法的硬件也可以构成本申请。
实施例四
本申请实施例还提供一种电子设备,可以是计算机或服务器,其中可以集成本申请实施例提供的任一种目标用户确定装置。如图11所示,其示出了本申请实施例提供的电子设备1100。
该电子设备可以包括一个或者一个以上处理核心的处理器1101、一个或一个以上用于存储所述处理器1101可执行指令的存储器1102。该电子设备还可以包括电源1103、输入输出单元1104。本领域技术人员可以理解,图11中并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中:
处理器1101是该电子设备的控制部分,利用各种接口和线路连接各个部分,从存储器1102中读取所述可执行指令,通过运行或执行存储在存储器1102中的指令以实现本申请实施例提供的任一种目标用户确定方法的步骤。
存储器1102可用于存储软件程序,即本申请实施例提供的任一种目标用户确定方法中涉及的程序。
处理器1101通过运行存储在存储器1102的软件程序,从而执行各种功能应用以及数据处理。存储器1102可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据电子设备需要使用的数据等。此外,存储器1102可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器1102还可以包括存储器控制器,以提供处理器1101对存储器1102的访问。
电子设备还包括给各个部件供电的电源1103,优选的,电源1103可以通过电源管理系统与处理器1101逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1103还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入输出单元1104,比如可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入;比如可用于显示由用户输入的信息或提供给用户的信息以及服务器的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。
本申请实施例提供的任一种目标用户确定方法、装置、存储介质及电子设备均基于相同的设计构思,并且本申请任一个实施例中的技术手段可以进行自由组合,组合得到的技术手段仍在本申请的保护范围之内。
本申请附图中的流程图和框图,示出了按照本申请公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同附图中所标准的顺序发生。例如,两个连接地表示的方框实际上可以基本并行地执行,它们有时也可以按照相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或者流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本申请中。特别地,在不脱离本申请精神和教导的情况下,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,所有这些组合和/或结合均落入本申请公开的范围。
本申请中应用了具体实施例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思路,并不用于限制本申请。对于本领域的技术人员来说,可以依据本申请的思路、精神和原则,在具体实施方式及应用范围上进行改变,其所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (9)

1.一种目标用户确定方法,其特征在于,包括:
获取待确定用户的行为信息;所述行为信息用于描述所述待确定用户对客户端进行的操作行为;
根据所述行为信息提取行为特征;
将所述行为特征输入目标用户确定模型中,确定所述待确定用户是否是目标用户;所述目标用户确定模型的参数是基于包含了数量均衡的目标用户样本与非目标用户样本的样本集训练得到的;所述目标用户样本包含实际目标用户样本和虚拟目标用户样本;所述虚拟目标用户样本是根据所述实际目标用户样本和所述非目标用户样本确定得到的;
所述虚拟目标用户样本是根据所述实际目标用户样本和所述非目标用户样本确定得到的,包括:
从所述实际目标用户样本中随机确定第一目标实际样本;
根据所述实际目标用户样本、所述非目标用户样本和所述第一目标实际样本之间的相似度,确定合成系数;
根据所述第一目标实际样本和所述合成系数,确定所述虚拟目标用户样本。
2.根据权利要求1所述的方法,其特征在于,所述获取待确定用户的行为信息的步骤之前,所述方法还包括所述目标用户确定模型的训练步骤:
获取所述实际目标用户样本和所述非目标用户样本;所述实际目标用户样本以实际进行过目标行为的用户为样本;
根据所述实际目标用户样本和所述非目标用户样本,确定所述虚拟目标用户样本,得到包括目标用户样本与非目标用户样本的样本集;
使用所述样本集对初始确定模型进行训练,得到所述目标用户确定模型。
3.根据权利要求1所述的方法,其特征在于,所述根据所述实际目标用户样本、所述非目标用户样本和所述第一目标实际样本之间的相似度,确定合成系数的步骤,包括:
确定所述实际目标用户样本的内部相似度,并根据所述实际目标用户样本的所述内部相似度的均值,确定第一平均相似度;
确定所述实际目标用户样本的外部相似度,并根据所述实际目标用户样本的所述外部相似度的均值,确定第二平均相似度;
根据所述第一目标实际样本与第一剩余目标用户样本之间的相似度的均值,确定第三平均相似度;
根据所述第一目标实际样本与非目标用户样本之间的相似度的均值,确定第四平均相似度;
根据所述第一平均相似度、所述第二平均相似度、所述第三平均相似度和所述第四平均相似度,确定合成系数。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一平均相似度、所述第二平均相似度、所述第三平均相似度和所述第四平均相似度,确定合成系数的步骤,包括:
判断所述第三平均相似度是否大于所述第一平均相似度,并且判断所述第四平均相识度是否大于所述第二平均相似度;
根据判断结果确定所述合成系数。
5.根据权利要求4所述的方法,其特征在于,所述根据判断结果确定所述合成系数的步骤,包括:
当所述第三平均相似度不大于所述第一平均相似度,并且所述第四平均相识度大于所述第二平均相似度时,从第一预设数值范围内随机确定所述合成系数;
当所述第三平均相似度不大于所述第一平均相似度,并且所述第四平均相识度不大于所述第二平均相似度时,根据所述第一预设数值范围或第二预设数值范围,确定所述合成系数;
当所述第三平均相似度大于所述第一平均相似度,并且所述第四平均相识度不大于所述第二平均相似度时,根据所述第一预设数值范围和第三预设数值范围,确定所述合成系数;
当所述第三平均相似度大于所述第一平均相似度,并且所述第四平均相识度大于所述第二平均相似度时,根据所述第一预设数值范围或第二预设数值范围,确定所述合成系数。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第一目标实际样本和所述合成系数,确定所述虚拟目标用户样本的步骤,包括:
从所述实际目标用户样本中随机确定第四目标实际样本;
确定所述第一目标实际样本和所述第四目标实际样本之间的相似度;
根据所述第一目标实际样本和所述第四目标实际样本之间的相似度和所述合成系数,确定所述虚拟目标用户样本。
7.一种目标用户确定装置,其特征在于,包括:
获取模块,用于获取待确定用户的行为信息;所述行为信息用于描述所述待确定用户对客户端进行的操作行为;
特征提取模块,用于根据所述行为信息提取行为特征;
目标用户确定模型,用于输入所述行为特征,确定所述待确定用户是否是目标用户;所述目标用户确定模型的参数是基于包含了数量均衡的目标用户样本与非目标用户样本的样本集训练得到的;所述目标用户样本包含实际目标用户样本和虚拟目标用户样本;所述虚拟目标用户样本是根据所述实际目标用户样本和所述非目标用户样本确定得到的;
所述虚拟目标用户样本是根据所述实际目标用户样本和所述非目标用户样本确定得到的,包括:
从所述实际目标用户样本中随机确定第一目标实际样本;
根据所述实际目标用户样本、所述非目标用户样本和所述第一目标实际样本之间的相似度,确定合成系数;
根据所述第一目标实际样本和所述合成系数,确定所述虚拟目标用户样本。
8.一种计算机可读存储介质,存储有计算机指令,其特征在于,所述指令被处理器执行时可实现权利要求1~6任一项所述的方法的步骤。
9.一种电子设备,其特征在于,该电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现权利要求1-6任一所述的方法。
CN201911153667.4A 2019-11-22 2019-11-22 目标用户确定方法、装置、存储介质及电子设备 Active CN111104963B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911153667.4A CN111104963B (zh) 2019-11-22 2019-11-22 目标用户确定方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911153667.4A CN111104963B (zh) 2019-11-22 2019-11-22 目标用户确定方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN111104963A CN111104963A (zh) 2020-05-05
CN111104963B true CN111104963B (zh) 2023-10-24

Family

ID=70420893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911153667.4A Active CN111104963B (zh) 2019-11-22 2019-11-22 目标用户确定方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN111104963B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914645A (zh) * 2020-06-30 2020-11-10 五八有限公司 识别虚假信息的方法、装置、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012018614A (ja) * 2010-07-09 2012-01-26 Sumitomo Mitsui Banking Corp 口座照会サービスを提供するシステムおよび方法
CN103118043A (zh) * 2011-11-16 2013-05-22 阿里巴巴集团控股有限公司 一种用户账号的识别方法及设备
CN103365597A (zh) * 2013-07-07 2013-10-23 广州市沃希信息科技有限公司 电子设备通信方法、电子设备以及电子设备通信系统
CN103544500A (zh) * 2013-10-22 2014-01-29 东南大学 多用户自然场景标记排序方法
CN104794417A (zh) * 2015-03-26 2015-07-22 立德高科(北京)数码科技有限责任公司 一种码图识读方法
JP2016009308A (ja) * 2014-06-24 2016-01-18 日本電信電話株式会社 マルウェア検出方法、システム、装置、ユーザpc及びプログラム
WO2017036346A1 (zh) * 2015-09-02 2017-03-09 阿里巴巴集团控股有限公司 一种确定兴趣点poi布设需求的方法及装置
CN107665443A (zh) * 2017-05-10 2018-02-06 平安科技(深圳)有限公司 获取目标用户的方法及装置
CN109255391A (zh) * 2018-09-30 2019-01-22 武汉斗鱼网络科技有限公司 一种识别恶意用户的方法、装置及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012018614A (ja) * 2010-07-09 2012-01-26 Sumitomo Mitsui Banking Corp 口座照会サービスを提供するシステムおよび方法
CN103118043A (zh) * 2011-11-16 2013-05-22 阿里巴巴集团控股有限公司 一种用户账号的识别方法及设备
CN103365597A (zh) * 2013-07-07 2013-10-23 广州市沃希信息科技有限公司 电子设备通信方法、电子设备以及电子设备通信系统
CN103544500A (zh) * 2013-10-22 2014-01-29 东南大学 多用户自然场景标记排序方法
JP2016009308A (ja) * 2014-06-24 2016-01-18 日本電信電話株式会社 マルウェア検出方法、システム、装置、ユーザpc及びプログラム
CN104794417A (zh) * 2015-03-26 2015-07-22 立德高科(北京)数码科技有限责任公司 一种码图识读方法
WO2017036346A1 (zh) * 2015-09-02 2017-03-09 阿里巴巴集团控股有限公司 一种确定兴趣点poi布设需求的方法及装置
CN107665443A (zh) * 2017-05-10 2018-02-06 平安科技(深圳)有限公司 获取目标用户的方法及装置
CN109255391A (zh) * 2018-09-30 2019-01-22 武汉斗鱼网络科技有限公司 一种识别恶意用户的方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱玉全等.基于高维几何特征的孤立点检测算法.《江苏大学学报》.2011,全文. *

Also Published As

Publication number Publication date
CN111104963A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN106548343B (zh) 一种非法交易检测方法及装置
CN110442712B (zh) 风险的确定方法、装置、服务器和文本审理系统
CN111369299B (zh) 识别的方法、装置、设备及计算机可读存储介质
US20180268295A1 (en) Risk evaluation method, computer-readable recording medium, and information processing apparatus
CN104573130A (zh) 基于群体计算的实体解析方法及装置
CN104573741A (zh) 一种特征选择方法及装置
KR102227593B1 (ko) 학습-기반 그룹 태깅을 위한 시스템 및 방법
CN108459965B (zh) 一种结合用户反馈和代码依赖的软件可追踪生成方法
CN113642652A (zh) 生成融合模型的方法、装置和设备
CN104504334A (zh) 用于评估分类规则选择性的系统及方法
CN110968802B (zh) 一种用户特征的分析方法、分析装置及可读存储介质
CN111104963B (zh) 目标用户确定方法、装置、存储介质及电子设备
WO2018036402A1 (zh) 模型中关键变量的探测方法及装置
Singh et al. An ensemble approach for feature selection of Cyber Attack Dataset
Penev Free search–comparative analysis 100
US20230156043A1 (en) System and method of supporting decision-making for security management
CN110705889A (zh) 一种企业筛选方法、装置、设备及存储介质
Son et al. Reliable decision from multiple subtasks through threshold optimization: Content moderation in the wild
CN110968889A (zh) 一种数据保护方法、设备、装置和计算机存储介质
JP5063639B2 (ja) データ分類方法及び装置及びプログラム
Rodríguez-Alarcón et al. SOM-based decision support system for reservoir operation management
CN113469816A (zh) 基于多组学技术的数字货币识别方法、系统和存储介质
CN113065911A (zh) 推荐信息生成方法、装置、存储介质及电子设备
CN117370471B (zh) 基于修剪平均的全局预测方法、装置、设备及存储介质
CN114816964B (zh) 风险模型构建方法、风险检测方法、装置、计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant