CN109063433B - 虚假用户的识别方法、装置及可读存储介质 - Google Patents
虚假用户的识别方法、装置及可读存储介质 Download PDFInfo
- Publication number
- CN109063433B CN109063433B CN201810742996.1A CN201810742996A CN109063433B CN 109063433 B CN109063433 B CN 109063433B CN 201810742996 A CN201810742996 A CN 201810742996A CN 109063433 B CN109063433 B CN 109063433B
- Authority
- CN
- China
- Prior art keywords
- user
- data
- false
- sample data
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000004422 calculation algorithm Methods 0.000 claims description 100
- 238000010801 machine learning Methods 0.000 claims description 76
- 238000012549 training Methods 0.000 claims description 66
- 238000012360 testing method Methods 0.000 claims description 62
- 238000012545 processing Methods 0.000 claims description 29
- 230000002159 abnormal effect Effects 0.000 claims description 13
- 230000006399 behavior Effects 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000006855 networking Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供的虚假用户的识别方法、装置及可读存储介质,通过采集待识别用户的用户数据;根据用户信息和对应的业务数据之间的关联关系,对用户数据中的缺失数据进行补全处理,获得补全后的用户数据;将补全后的用户数据输入用于识别用户是否为虚假用户的预设的最优识别模型,获得待识别用户的识别结果。本发明通过采用对用户数据中的缺失数据进行补全的方式提高用户数据的信息全面性,并利用经过训练的最优识别模型对用户数据进行识别,进而实现在用户语音、短信、流量等使用情况的信息不够全面时对用户是否为虚假用户的准确识别,识别适用率和识别效率均得到有效提高。
Description
技术领域
本发明涉及数据处理技术,尤其涉及一种虚假用户的识别方法、装置及可读存储介质。
背景技术
随着移动互联网时代的到来,运营商营销渠道得到广泛拓展,线上线下的营销效率得到大幅提升。但仍然存在部分业务人员因业绩指标压力,发展“虚假用户”的现象,容易影响公司正常经营分析,造成资源分配失衡,甚至影响公司战略决策。
在现有的对电信虚假用户的识别方法中,一般是通过提取SIM的通信记录,检测其语音、短信、流量使用情况实现的,即若在一段时间内无使用情况,则用户被标记为虚假用户。
但是,当获得的用户语音、短信、流量等使用情况的信息不够全面时,无法对该用户是否为虚假用户进行识别。因此,亟需一种新的识别虚假用户的方式,以保证对各类用户的识别适用性以及识别效率。
发明内容
针对上述提及的现有识别方法无法在用户语音、短信、流量等使用情况的信息不够全面时对用户是否为虚假用户进行识别,识别适用率和识别效率均不高的问题,本发明提供了一种虚假用户的识别方法、装置及可读存储介质。
一方面,本发明提供了一种虚假用户的识别方法,包括:
采集待识别用户的用户数据;其中,所述用户数据包括用户信息数据和对应的业务数据;
根据所述用户信息和对应的业务数据之间的关联关系,对所述用户数据中的缺失数据进行补全处理,获得补全后的用户数据;
将所述补全后的用户数据输入用于识别用户是否为虚假用户的预设的最优识别模型,获得待识别用户的识别结果,其中,所述最优识别模型是在对多个机器学习算法模型进行训练和测试之后,根据各机器学习算法模型识别虚假用户的识别准确率确定的。
在其中一种可选的实施方式中,该识别方法还包括:
采集多个样本用户的用户样本数据,所述样本用户为已知虚假用户识别结果的用户,所述用户样本数据包括用户信息数据、对应的业务数据以及虚假用户标识;
根据所述用户信息和对应的业务数据之间的关联关系,对各所述用户样本数据中的缺失数据进行补全处理,获得各补全后的用户样本数据;
按照预设比例,对各补全后的用户样本数据进行划分以获得训练样本数据集和测试样本数据集;
根据所述训练样本数据集,分别对所述多个机器学习算法模型进行训练,获得训练后的各机器学习算法模型;
根据所述测试样本数据集对各训练后的各机器学习算法模型进行测试,获得测试结果;
根据各机器学习算法模型的测试结果和训练样本数据集中的各虚假用户标识,确定各机器学习算法模型的识别准确率;
将识别准确率最高的训练后的机器学习算法模型作为最优识别模型。
在其中一种可选的实施方式中,所述获得待识别用户的识别结果之后,还包括:
将识别结果为虚假用户的待识别用户作为回访用户;
采集回访用户在一段时间之后的用户回访数据,所述用户回访数据包括在一段时间之后的用户信息数据、对应的业务数据以及虚假用户标识;
将所述用户回访数据输入所述最优识别模型,以供所述最优识别模型根据所述用户回访数据进行调优。
在其中一种可选的实施方式中,所述按照预设比例,对各补全后的用户样本数据进行划分以获得训练样本数据集和测试样本数据集,包括:
根据异常检测算法去除所述各补全后的用户样本数据中的异常用户样本数据,获得处理后的用户样本数据;
按照预设比例,对各处理后的用户样本数据进行划分以获得训练样本数据集和测试样本数据集。
在其中一种可选的实施方式中,其特征在于,所述根据所述用户信息和对应的业务数据之间的关联关系,对所述用户数据中的缺失数据进行补全处理,获得补全后的用户数据之后,包括:
根据补全后的用户数据的数据类型对各类型的数据进行归一化处理,以提取获得待识别用户的特征数据;
相应的,所述将所述补全后的用户数据输入用于识别用户是否为虚假用户的预设的最优识别模型,包括:
将待识别用户的特征数据输入用于识别用户是否为虚假用户的预设的最优识别模型。
另一方面,本发明提供了一种虚假用户的识别装置,包括:
采集模块,用于采集待识别用户的用户数据;其中,所述用户数据包括用户信息数据和对应的业务数据;
数据处理模块,用于根据所述用户信息和对应的业务数据之间的关联关系,对所述用户数据中的缺失数据进行补全处理,获得补全后的用户数据;
识别模块,用于将所述补全后的用户数据输入用于识别用户是否为虚假用户的预设的最优识别模型,获得待识别用户的识别结果,其中,所述最优识别模型是在对多个机器学习算法模型进行训练和测试之后,根据各机器学习算法模型识别虚假用户的识别准确率确定的。
在其中一种可选的实施方式中,该识别装置还包括:训练模块;
所述采集模块还用于采集多个样本用户的用户样本数据,所述样本用户为已知虚假用户识别结果的用户,所述用户样本数据包括用户信息数据、对应的业务数据以及虚假用户标识;
所述数据处理模块,还用于根据所述用户信息和对应的业务数据之间的关联关系,对各所述用户样本数据中的缺失数据进行补全处理,获得各补全后的用户样本数据;
所述训练模块,用于按照预设比例,对各补全后的用户样本数据进行划分以获得训练样本数据集和测试样本数据集;根据所述训练样本数据集,分别对所述多个机器学习算法模型进行训练,获得训练后的各机器学习算法模型;根据所述测试样本数据集对各训练后的各机器学习算法模型进行测试,获得测试结果;根据各机器学习算法模型的测试结果和训练样本数据集中的各虚假用户标识,确定各机器学习算法模型的识别准确率;将识别准确率最高的训练后的机器学习算法模型作为最优识别模型。
在其中一种可选的实施方式中,所述采集模块还用于在所示识别模块获得待识别用户的识别结果之后,将识别结果为虚假用户的待识别用户作为回访用户,并采集回访用户在一段时间之后的用户回访数据,所述用户回访数据包括在一段时间之后的用户信息数据、对应的业务数据以及虚假用户标识;
所述训练模块,还用于将所述用户回访数据输入所述最优识别模型,以供所述最优识别模型根据所述用户回访数据进行调优。
在其中一种可选的实施方式中,所述训练模块,具体用于根据异常检测算法去除所述各补全后的用户样本数据中的异常用户样本数据,获得处理后的用户样本数据;按照预设比例,对各处理后的用户样本数据进行划分以获得训练样本数据集和测试样本数据集。
在其中一种可选的实施方式中,所述数据处理模块在根据所述用户信息和对应的业务数据之间的关联关系,对所述用户数据中的缺失数据进行补全处理,获得补全后的用户数据之后,还用于根据补全后的用户数据的数据类型对各类型的数据进行归一化处理,以提取获得待识别用户的特征数据;
相应的,所述识别模块具体用于将待识别用户的特征数据输入用于识别用户是否为虚假用户的预设的最优识别模型。
再一方面,本发明提供了一种虚假用户的识别装置,包括:存储器、与所述存储器连接的处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,
所述处理器运行所述计算机程序时执行如前任一项所述的虚假用户的识别方法。
最后一方面,本发明提供了一种可读存储介质,包括程序,当其在终端上运行时,使得终端执行如前任一项所述的虚假用户的识别方法。
本发明提供的虚假用户的识别方法、装置及可读存储介质,通过采集待识别用户的用户数据;其中,所述用户数据包括用户信息数据和对应的业务数据;根据所述用户信息和对应的业务数据之间的关联关系,对所述用户数据中的缺失数据进行补全处理,获得补全后的用户数据;将所述补全后的用户数据输入用于识别用户是否为虚假用户的预设的最优识别模型,获得待识别用户的识别结果,其中,所述最优识别模型是在对多个机器学习算法模型进行训练和测试之后,根据各机器学习算法模型识别虚假用户的识别准确率确定的。本发明通过采用对用户数据中的缺失数据进行补全的方式提高用户数据的信息全面性,并利用经过训练的最优识别模型对用户数据进行识别,进而实现在用户语音、短信、流量等使用情况的信息不够全面时对用户是否为虚假用户的准确识别,识别适用率和识别效率均得到有效提高。
附图说明
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
图1为本发明实施例一提供的一种虚假用户的识别方法的流程示意图;
图2为本发明实施例二提供的一种虚假用户的识别方法的流程示意图;
图3为本发明实施例三提供的一种虚假用户的识别装置的结构示意图;
图4为本发明实施例四提供的一种虚假用户的识别装置的结构示意图。
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
随着移动互联网时代的到来,运营商营销渠道得到广泛拓展,线上线下的营销效率得到大幅提升。但仍然存在部分业务人员因业绩指标压力,发展“虚假用户”的现象,容易影响公司正常经营分析,造成资源分配失衡,甚至影响公司战略决策。
在现有的对电信虚假用户的识别方法中,一般是通过提取SIM的通信记录,检测其语音、短信、流量使用情况实现的,即若在一段时间内无使用情况,则用户被标记为虚假用户。
但是,当获得的用户语音、短信、流量等使用情况的信息不够全面时,无法对该用户是否为虚假用户进行识别。因此,亟需一种新的识别虚假用户的方式,以保证对各类用户的识别适用性以及识别效率。
针对上述提及的现有识别方法无法在用户语音、短信、流量等使用情况的信息不够全面时对用户是否为虚假用户进行识别,识别适用率和识别效率均不高的问题,本发明提供了一种虚假用户的识别方法、装置及可读存储介质。
图1为本发明实施例一提供的一种虚假用户的识别方法的流程示意图。
如图1所示,该识别方法包括:
步骤101、采集待识别用户的用户数据,所述用户数据包括用户信息数据和对应的业务数据。
步骤102、根据所述用户信息和对应的业务数据之间的关联关系,对所述用户数据中的缺失数据进行补全处理,获得补全后的用户数据。
步骤103、将所述补全后的用户数据输入用于识别用户是否为虚假用户的预设的最优识别模型,获得待识别用户的识别结果,其中,所述最优识别模型是在对多个机器学习算法模型进行训练和测试之后,根据各机器学习算法模型识别虚假用户的识别准确率确定的。
需要说明的是,本发明提供的虚假用户的识别方法的执行主体具体可为虚假用户的识别装置,该识别装置可通过硬件和/或软件的方式实现。一般可集成于电信运营商的线上平台所基于的云端服务器中,与线上平台所基于的存放有各类数据库的数据服务器配合使用,此外,识别装置所基于的服务器可与数据服务器为同一服务器,或者为隶属于同一服务器集群的不同服务器,本发明对此均不进行限制。
具体来说,在本实施例中,虚假用户的识别装置需要采集获得待识别用户的用户数据,该用户数据可为运营商通过记录用户通信行为或消费行为形成的。其中,用户数据中包括用户信息数据和业务数据。举例来说,用户信息数据包括不限于用户标识、年龄、星座、省份、性别、实名制信息、入网渠道、在网情况等等;业务数据包括但不限于入网时长、开户时间、通话时长、消费信息、流量信息、APP使用信息、短信信息等等。
随后,可根据用户信息和对应的业务数据之间的关联关系,对所述用户数据中的缺失数据进行补全处理,获得补全后的用户数据。具体来说,在很多情况下,运营商无法准确并全面的记录和获知用户通信行为或消费行为,因此,采集获得的待识别用户的用户数据中将存在很多缺失数据,而数据缺失会影响着对待识别用户的识别准确率。因此,在本实施方式中,利用了用户信息数据和业务数据之间的关联关系。对用户数据中的缺失数据进行补全,以提高识别准确率。其中,在用户信息数据和业务数据中,很多数据类型是相关的,例如,业务数据中的通话时长、消费信息、流量信息、APP使用信息能够在一定程度上反映用户信息数据中的在网情况,而业务数据中的APP使用信息能够在一定程度上反映用户信息数据中的性别和年龄。因此,可利用业务数据和用户信息数据之间的关联关系,其用户数据中的缺失数据进行补全。当然,用户信息数据和业务数据之间的关联关系可通过现有的聚类算法、人群肖像算法等方式进行获取,本实施方式对此不进行限制。
随后,可将补全后的用户数据输入用于识别用户是否为虚假用户的预设的最优识别模型,获得待识别用户的识别结果。其中,需要说明的是,该最优识别模型是在对多个机器学习算法模型进行训练和测试之后,根据各机器学习算法模型识别虚假用户的识别准确率确定的。机器学习算法模型包括但不限于:一般线性模型算法、神经网络算法、支持向量回归算法、集成学习算法等。而为了获得适用于对虚假用户进行识别的算法,也为了提高对虚假用户的识别准确性。在对这些机器学习算法模型进行训练和测试的过程中,可对其每个机器学习算法模型的识别准确率进行计算,以获得更适用本应用场景的最优识别模型。而将待识别用户的用户数据输入该最优识别模型从而可获得该待识别用户是否为虚假用户的识别结果。
通过采用对用户数据中的缺失数据进行补全的方式提高用户数据的信息全面性,并利用经过训练的最优识别模型对用户数据进行识别,进而实现在用户语音、短信、流量等使用情况的信息不够全面时对用户是否为虚假用户的准确识别,识别适用率和识别效率均得到有效提高。
优选的,在实施例一提供的实施方式的基础上,为了提高识别效率,在根据所述用户信息和对应的业务数据之间的关联关系,对所述用户数据中的缺失数据进行补全处理,获得补全后的用户数据之后,该识别方法还包括:根据补全后的用户数据的数据类型对各类型的数据进行归一化处理,以提取获得待识别用户的特征数据。相应的,所述将所述补全后的用户数据输入用于识别用户是否为虚假用户的预设的最优识别模型,则可包括将待识别用户的特征数据输入用于识别用户是否为虚假用户的预设的最优识别模型。
具体来说,由于用户数据的数据类型的差异,在描述数据时会采用不同的描述方式,例如,对性别这一类型的描述会采用如“0(女)”“1(男)”“2(未知)”等数值范围相对固定的方式进行描述;而对于上网时长这一类型的描述会采用“0(min)”“268(min)”等数值范围相对不固定的方式进行描述。因此,为了便于对用户数据的识别,提高识别效率。本实施方式还根据用户数据的数据类型,对各数据进行归一化处理,即可将全部数据均采用数值范围相对固定的方式进行描述。以前述的上网时长为例,可采用“0(0-500min)”“1(501-1000min)”的方式对其描述。又例如,对于年龄可采用“0(18岁以下)”“1(18-25岁)”“2(26-35岁)”等等。通过前述的归一化处理,可获得该待识别用户的特征数据,如“0(年龄)、1(上网时长)、1(性别)”。相应的,在对待识别用户进行识别的过程中,可将待识别用户的特征数据输入用于识别用户是否为虚假用户的预设的最优识别模型。
本发明实施例一提供的虚假用户的识别方法通过采集待识别用户的用户数据;其中,所述用户数据包括用户信息数据和对应的业务数据;根据所述用户信息和对应的业务数据之间的关联关系,对所述用户数据中的缺失数据进行补全处理,获得补全后的用户数据;将所述补全后的用户数据输入用于识别用户是否为虚假用户的预设的最优识别模型,获得待识别用户的识别结果,其中,所述最优识别模型是在对多个机器学习算法模型进行训练和测试之后,根据各机器学习算法模型识别虚假用户的识别准确率确定的。本发明通过采用对用户数据中的缺失数据进行补全的方式提高用户数据的信息全面性,并利用经过训练的最优识别模型对用户数据进行识别,进而实现在用户语音、短信、流量等使用情况的信息不够全面时对用户是否为虚假用户的准确识别,识别适用率和识别效率均得到有效提高。
为了更好的描述本发明提供的虚假用户的识别方法,在实施例一的基础上,图2为本发明实施例二提供的一种虚假用户的识别方法的流程示意图。
如图2所示,该识别方法包括:
步骤201、采集多个样本用户的用户样本数据,所述样本用户为已知虚假用户识别结果的用户,所述用户样本数据包括用户信息数据、对应的业务数据以及虚假用户标识。
步骤202、根据所述用户信息和对应的业务数据之间的关联关系,对各所述用户样本数据中的缺失数据进行补全处理,获得各补全后的用户样本数据。
步骤203、按照预设比例,对各补全后的用户样本数据进行划分以获得训练样本数据集和测试样本数据集。
步骤204、根据所述训练样本数据集,分别对所述多个机器学习算法模型进行训练,获得训练后的各机器学习算法模型。
步骤205、根据所述测试样本数据集对各训练后的各机器学习算法模型进行测试,获得测试结果。
步骤206、根据各机器学习算法模型的测试结果和训练样本数据集中的各虚假用户标识,确定各机器学习算法模型的识别准确率,将识别准确率最高的训练后的机器学习算法模型作为最优识别模型。
步骤207、采集待识别用户的用户数据,所述用户数据包括用户信息数据和对应的业务数据。
步骤208、根据所述用户信息和对应的业务数据之间的关联关系,对所述用户数据中的缺失数据进行补全处理,获得补全后的用户数据。
步骤209、将所述补全后的用户数据输入用于识别用户是否为虚假用户的预设的最优识别模型,获得待识别用户的识别结果。
其中,所述最优识别模型是在对多个机器学习算法模型进行训练和测试之后,根据各机器学习算法模型识别虚假用户的识别准确率确定的。
具体来说,在实施例一的基础上,为了进一步描述本发明提供的虚假用户的识别方法,本实施例二提供另一种虚假用户的识别方法的具体实施方式。与实施例一不同的是,在本实施例二中还包括获得最优识别模型的过程。
首先,采集多个样本用户的用户样本数据,样本用户为已知虚假用户识别结果的用户,所述用户样本数据包括用户信息数据、对应的业务数据以及虚假用户标识。需要说明的是,样本用户的用户样本数据与实施例一中的待识别用户的用户数据不同的是,在用户样本数据中还包括有虚假用户标识,该虚假用户标识表示该样本用户是否为虚假用户。也就是说,对于每一个样本用户来说,其是否为虚假用户是已知的。而用户样本数据中的用户信息数据和业务数据则与实施例一种用户数据类似,在此不进行赘述。
随后,可对根据所述用户信息和对应的业务数据之间的关联关系,对各所述用户样本数据中的缺失数据进行补全处理,获得各补全后的用户样本数据。与实施例一类似的是,在对用户样本数据进行补全处理,也可利用用户信息数据和业务数据之间的关联关系,以提高识别准确率。其中,在用户信息数据和业务数据中,很多数据类型是相关的,例如,业务数据中的通话时长、消费信息、流量信息、APP使用信息能够在一定程度上反映用户信息数据中的在网情况,而业务数据中的APP使用信息能够在一定程度上反映用户信息数据中的性别和年龄。因此,可利用业务数据和用户信息数据之间的关联关系,其用户样本数据中的缺失数据进行补全。当然,用户信息数据和业务数据之间的关联关系可通过现有的聚类算法、人群肖像算法等方式进行获取,本实施方式对此不进行限制。
然后,可按照预设比例对各补全后的用户样本数据进行划分以获得训练样本数据集和测试样本数据集。其中,预设比例可为六比四,即将全部用户样本数据中的百分之六十的用户样本数据作为训练样本数据,形成训练样本数据集,将全部用户样本数据中的百分之四十的用户样本数据作为测试样本数据,形成测试样本数据集。
优选的,在划分训练样本数据集和测试样本数据集之前,为了进一步提高训练测试的有效性,还可根据异常检测算法去除所述各补全后的用户样本数据中的异常用户样本数据,获得处理后的用户样本数据,而作为一种可替代算法,还可将异常检测算法用孤立森林算法进行替代,以剔除预设异常比例阈值的异常用户样本数据。相应的按照预设比例,对各处理后的用户样本数据进行划分以获得训练样本数据集和测试样本数据集。
随后,而为了获得适用于对虚假用户进行识别的算法,也为了提高对虚假用户的识别准确性。在对这些机器学习算法模型进行训练和测试的过程中,可对其每个机器学习算法模型的识别准确率进行计算,以获得更适用本应用场景的最优识别模型。可根据训练样本数据集,分别对多个机器学习算法模型进行训练,获得训练后的各机器学习算法模型。其中,多个机器学习算法模型可选取比较主流的机器学习算法,例如,一般线性模型算法中的线性回归模型,神经网络算法中的向前结构的人工神经网络模型,支持向量回归算法,包括有预测函数、迭代算法、决策树、梯度提升树、随机森林等多种模型在内的集成学习算法等。此外,对各机器学习算法模型的训练包括但不限于根据模型负责度进行模型参数的估计,对模型的管道的参数寻优的串行管道化处理;通过网格搜索对参数寻优过程中的多重参数指标的自由组合,获得模型的最优参数,形成训练的机器学习算法模型。
当完成对每一个机器学习算法模型的训练之后,还需将测试样本数据集输入至各训练后的各机器学习算法模型中,并输出相应的测试结果。由于本发明是对用户是否为虚假用户的测试,此时输出的测试结果应于该测试目的对应,即虚假用户标识的数值。再后,由于测试样本数据集中各测试样本数据的虚假用户标识是已知的,因此,可利用已知的虚假用户标识对输出的虚假用户标识的数值进行验证,并得到每一机器学习算法模型的识别误差,该识别误差可用于表示机器学习算法模型的识别准确率。最后,从中选出识别准确率最高,识别误差最小的机器学习算法模型作为本发明所需的最优识别模型。
当确定最优识别模型之后,与实施例一类似的是,可利用该最优识别模型对待识别用户的用户数据进行识别获得相应的识别结果,其具体过程可参见实施例一,在此不进行赘述。
优选的,在本实施例二中,为了提高最优识别模型的时效性以及进一步提升其识别准确度,在获得待识别用户的识别结果之后,还包括将识别结果为虚假用户的待识别用户作为回访用户;采集回访用户在一段时间之后的用户回访数据,所述用户回访数据包括在一段时间之后的用户信息数据、对应的业务数据以及虚假用户标识;将所述用户回访数据输入所述最优识别模型,以供所述最优识别模型根据所述用户回访数据进行模型参数调优,调优的过程与训练过程类似,在此不进行赘述。
本发明实施例二提供的虚假用户的识别方法通过采集待识别用户的用户数据;其中,所述用户数据包括用户信息数据和对应的业务数据;根据所述用户信息和对应的业务数据之间的关联关系,对所述用户数据中的缺失数据进行补全处理,获得补全后的用户数据;将所述补全后的用户数据输入用于识别用户是否为虚假用户的预设的最优识别模型,获得待识别用户的识别结果,其中,所述最优识别模型是在对多个机器学习算法模型进行训练和测试之后,根据各机器学习算法模型识别虚假用户的识别准确率确定的。本发明通过采用对用户数据中的缺失数据进行补全的方式提高用户数据的信息全面性,并利用经过训练的最优识别模型对用户数据进行识别,进而实现在用户语音、短信、流量等使用情况的信息不够全面时对用户是否为虚假用户的准确识别,识别适用率和识别效率均得到有效提高。
图3为本发明实施例三提供的一种虚假用户的识别装置的结构示意图,如图3所示,该虚假用户的识别装置包括:
采集模块10,用于采集待识别用户的用户数据;其中,所述用户数据包括用户信息数据和对应的业务数据;
数据处理模块20,用于根据所述用户信息和对应的业务数据之间的关联关系,对所述用户数据中的缺失数据进行补全处理,获得补全后的用户数据;
识别模块30,用于将所述补全后的用户数据输入用于识别用户是否为虚假用户的预设的最优识别模型,获得待识别用户的识别结果,其中,所述最优识别模型是在对多个机器学习算法模型进行训练和测试之后,根据各机器学习算法模型识别虚假用户的识别准确率确定的。
在其中一种可选的实施方式中,该识别装置还包括:训练模块;
所述采集模块10还用于采集多个样本用户的用户样本数据,所述样本用户为已知虚假用户识别结果的用户,所述用户样本数据包括用户信息数据、对应的业务数据以及虚假用户标识;
所述数据处理模块20,还用于根据所述用户信息和对应的业务数据之间的关联关系,对各所述用户样本数据中的缺失数据进行补全处理,获得各补全后的用户样本数据;
所述训练模块,用于按照预设比例,对各补全后的用户样本数据进行划分以获得训练样本数据集和测试样本数据集;根据所述训练样本数据集,分别对所述多个机器学习算法模型进行训练,获得训练后的各机器学习算法模型;根据所述测试样本数据集对各训练后的各机器学习算法模型进行测试,获得测试结果;根据各机器学习算法模型的测试结果和训练样本数据集中的各虚假用户标识,确定各机器学习算法模型的识别准确率;将识别准确率最高的训练后的机器学习算法模型作为最优识别模型。
在其中一种可选的实施方式中,所述采集模块10还用于在所示识别模块30获得待识别用户的识别结果之后,将识别结果为虚假用户的待识别用户作为回访用户,并采集回访用户在一段时间之后的用户回访数据,所述用户回访数据包括在一段时间之后的用户信息数据、对应的业务数据以及虚假用户标识;
所述训练模块,还用于将所述用户回访数据输入所述最优识别模型,以供所述最优识别模型根据所述用户回访数据进行调优。
在其中一种可选的实施方式中,所述训练模块,具体用于根据异常检测算法去除所述各补全后的用户样本数据中的异常用户样本数据,获得处理后的用户样本数据;按照预设比例,对各处理后的用户样本数据进行划分以获得训练样本数据集和测试样本数据集。
在其中一种可选的实施方式中,所述数据处理模块20在根据所述用户信息和对应的业务数据之间的关联关系,对所述用户数据中的缺失数据进行补全处理,获得补全后的用户数据之后,还用于根据补全后的用户数据的数据类型对各类型的数据进行归一化处理,以提取获得待识别用户的特征数据;
相应的,所述识别模块30具体用于将待识别用户的特征数据输入用于识别用户是否为虚假用户的预设的最优识别模型。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程以及相应的有益效果,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例三提供的虚假用户的识别装置,通过采集待识别用户的用户数据;其中,所述用户数据包括用户信息数据和对应的业务数据;根据所述用户信息和对应的业务数据之间的关联关系,对所述用户数据中的缺失数据进行补全处理,获得补全后的用户数据;将所述补全后的用户数据输入用于识别用户是否为虚假用户的预设的最优识别模型,获得待识别用户的识别结果,其中,所述最优识别模型是在对多个机器学习算法模型进行训练和测试之后,根据各机器学习算法模型识别虚假用户的识别准确率确定的。本发明通过采用对用户数据中的缺失数据进行补全的方式提高用户数据的信息全面性,并利用经过训练的最优识别模型对用户数据进行识别,进而实现在用户语音、短信、流量等使用情况的信息不够全面时对用户是否为虚假用户的准确识别,识别适用率和识别效率均得到有效提高。
图4为本发明实施例四提供的一种虚假用户的识别装置的结构示意图。如图4所示,该终端包括:存储器41、处理器42及存储在存储器41上并可在处理器42上运行的计算机程序,处理器42运行计算机程序时执行上述任一实施例的方法。
本发明还提供一种可读存储介质,包括程序,当其在终端上运行时,使得终端执行上述任一实施例的方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (6)
1.一种虚假用户的识别方法,其特征在于,包括:
采集待识别用户的用户数据;其中,所述用户数据包括用户信息数据和对应的业务数据;所述用户数据为运营商通过记录用户通信行为或消费行为形成的;所述业务数据包括入网时长、开户时间、通话时长、消费信息、流量信息、APP使用信息、短信信息;
根据所述用户信息数据和对应的业务数据之间的关联关系,对所述用户数据中的缺失数据进行补全处理,获得补全后的用户数据;
将所述补全后的用户数据输入用于识别用户是否为虚假用户的预设的最优识别模型,获得待识别用户的识别结果,其中,所述最优识别模型是在对多个机器学习算法模型进行训练和测试之后,根据各机器学习算法模型识别虚假用户的识别准确率确定的;
其中,所述方法还包括:采集多个样本用户的用户样本数据,所述样本用户为已知虚假用户识别结果的用户,所述用户样本数据包括用户信息数据、对应的业务数据以及虚假用户标识;根据所述用户信息和对应的业务数据之间的关联关系,对各所述用户样本数据中的缺失数据进行补全处理,获得各补全后的用户样本数据;按照预设比例,对各补全后的用户样本数据进行划分以获得训练样本数据集和测试样本数据集;根据所述训练样本数据集,分别对所述多个机器学习算法模型进行训练,获得训练后的各机器学习算法模型;根据所述测试样本数据集对各训练后的各机器学习算法模型进行测试,获得测试结果;根据各机器学习算法模型的测试结果和训练样本数据集中的各虚假用户标识,确定各机器学习算法模型的识别准确率;将识别准确率最高的训练后的机器学习算法模型作为最优识别模型;
其中,所述获得待识别用户的识别结果之后,还包括:
将识别结果为虚假用户的待识别用户作为回访用户;采集回访用户在一段时间之后的用户回访数据,所述用户回访数据包括在一段时间之后的用户信息数据、对应的业务数据以及虚假用户标识;将所述用户回访数据输入所述最优识别模型,以供所述最优识别模型根据所述用户回访数据进行调优;
其中,所述按照预设比例,对各补全后的用户样本数据进行划分以获得训练样本数据集和测试样本数据集,包括:
根据异常检测算法去除所述各补全后的用户样本数据中的异常用户样本数据,获得处理后的用户样本数据;按照预设比例,对各处理后的用户样本数据进行划分以获得训练样本数据集和测试样本数据集。
2.根据权利要求1所述的虚假用户的识别方法,其特征在于,所述根据所述用户信息和对应的业务数据之间的关联关系,对所述用户数据中的缺失数据进行补全处理,获得补全后的用户数据之后,包括:
根据补全后的用户数据的数据类型对各类型的数据进行归一化处理,以提取获得待识别用户的特征数据;
相应的,所述将所述补全后的用户数据输入用于识别用户是否为虚假用户的预设的最优识别模型,包括:
将待识别用户的特征数据输入用于识别用户是否为虚假用户的预设的最优识别模型。
3.一种虚假用户的识别装置,其特征在于,包括:
采集模块,用于采集待识别用户的用户数据;其中,所述用户数据包括用户信息数据和对应的业务数据;所述用户数据为运营商通过记录用户通信行为或消费行为形成的;所述业务数据包括入网时长、开户时间、通话时长、消费信息、流量信息、APP使用信息、短信信息;
数据处理模块,用于根据所述用户信息数据和对应的业务数据之间的关联关系,对所述用户数据中的缺失数据进行补全处理,获得补全后的用户数据;
识别模块,用于将所述补全后的用户数据输入用于识别用户是否为虚假用户的预设的最优识别模型,获得待识别用户的识别结果,其中,所述最优识别模型是在对多个机器学习算法模型进行训练和测试之后,根据各机器学习算法模型识别虚假用户的识别准确率确定的;
其中,所述装置还包括:训练模块;
相应的,所述采集模块还用于采集多个样本用户的用户样本数据,所述样本用户为已知虚假用户识别结果的用户,所述用户样本数据包括用户信息数据、对应的业务数据以及虚假用户标识;
所述数据处理模块,还用于根据所述用户信息和对应的业务数据之间的关联关系,对各所述用户样本数据中的缺失数据进行补全处理,获得各补全后的用户样本数据;
所述训练模块,用于按照预设比例,对各补全后的用户样本数据进行划分以获得训练样本数据集和测试样本数据集;根据所述训练样本数据集,分别对所述多个机器学习算法模型进行训练,获得训练后的各机器学习算法模型;根据所述测试样本数据集对各训练后的各机器学习算法模型进行测试,获得测试结果;根据各机器学习算法模型的测试结果和训练样本数据集中的各虚假用户标识,确定各机器学习算法模型的识别准确率;将识别准确率最高的训练后的机器学习算法模型作为最优识别模型;
其中,所述采集模块还用于在所示识别模块获得待识别用户的识别结果之后,将识别结果为虚假用户的待识别用户作为回访用户,并采集回访用户在一段时间之后的用户回访数据,所述用户回访数据包括在一段时间之后的用户信息数据、对应的业务数据以及虚假用户标识;
所述训练模块,还用于将所述用户回访数据输入所述最优识别模型,以供所述最优识别模型根据所述用户回访数据进行调优;
其中,所述训练模块,具体用于根据异常检测算法去除所述各补全后的用户样本数据中的异常用户样本数据,获得处理后的用户样本数据;按照预设比例,对各处理后的用户样本数据进行划分以获得训练样本数据集和测试样本数据集。
4.根据权利要求3所述的虚假用户的识别装置,其特征在于,所述数据处理模块在根据所述用户信息和对应的业务数据之间的关联关系,对所述用户数据中的缺失数据进行补全处理,获得补全后的用户数据之后,还用于根据补全后的用户数据的数据类型对各类型的数据进行归一化处理,以提取获得待识别用户的特征数据;
相应的,所述识别模块具体用于将待识别用户的特征数据输入用于识别用户是否为虚假用户的预设的最优识别模型。
5.一种虚假用户的识别装置,其特征在于,包括:存储器、与所述存储器连接的处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,
所述处理器运行所述计算机程序时执行权利要求1或2所述的方法。
6.一种可读存储介质,其特征在于,包括程序,当其在终端上运行时,使得终端执行权利要求1或2所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810742996.1A CN109063433B (zh) | 2018-07-09 | 2018-07-09 | 虚假用户的识别方法、装置及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810742996.1A CN109063433B (zh) | 2018-07-09 | 2018-07-09 | 虚假用户的识别方法、装置及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109063433A CN109063433A (zh) | 2018-12-21 |
CN109063433B true CN109063433B (zh) | 2021-04-30 |
Family
ID=64819581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810742996.1A Active CN109063433B (zh) | 2018-07-09 | 2018-07-09 | 虚假用户的识别方法、装置及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109063433B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110111131A (zh) * | 2019-04-08 | 2019-08-09 | 浙江口碑网络技术有限公司 | 虚假客资信息的确定方法及装置 |
CN110674277A (zh) * | 2019-09-29 | 2020-01-10 | 北京金山安全软件有限公司 | 交互数据有效性识别方法和装置 |
CN110995681B (zh) * | 2019-11-25 | 2022-04-22 | 北京奇艺世纪科技有限公司 | 用户识别方法、装置、电子设备及存储介质 |
CN113010500A (zh) * | 2019-12-18 | 2021-06-22 | 中国电信股份有限公司 | 用于dpi数据的处理方法和处理系统 |
CN113641696A (zh) * | 2021-08-12 | 2021-11-12 | 北京百度网讯科技有限公司 | 一种虚假流量检测方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101334637A (zh) * | 2008-06-11 | 2008-12-31 | 清华大学 | 基于流模型的机器组负载预测控制方法 |
CN103279868A (zh) * | 2013-05-22 | 2013-09-04 | 兰亭集势有限公司 | 一种自动识别欺诈订单的方法和装置 |
CN106815782A (zh) * | 2017-01-23 | 2017-06-09 | 重庆汇集源科技有限公司 | 一种基于神经网络统计学模型的房地产估值方法及系统 |
CN107563425A (zh) * | 2017-08-24 | 2018-01-09 | 长安大学 | 一种基于随机森林的隧道运营状态感知模型的建立方法 |
CN108074084A (zh) * | 2016-11-18 | 2018-05-25 | 腾讯科技(深圳)有限公司 | 一种延迟处理请求的方法、装置及服务器 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106998336B (zh) * | 2016-01-22 | 2020-07-31 | 腾讯科技(深圳)有限公司 | 渠道中的用户检测方法和装置 |
CN106372151B (zh) * | 2016-08-30 | 2019-10-08 | 多盟睿达科技(中国)有限公司 | 一种基于用户性别识别的消息推送方法及装置 |
CN108038130B (zh) * | 2017-11-17 | 2021-06-25 | 中国平安人寿保险股份有限公司 | 虚假用户的自动清理方法、装置、设备及存储介质 |
-
2018
- 2018-07-09 CN CN201810742996.1A patent/CN109063433B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101334637A (zh) * | 2008-06-11 | 2008-12-31 | 清华大学 | 基于流模型的机器组负载预测控制方法 |
CN103279868A (zh) * | 2013-05-22 | 2013-09-04 | 兰亭集势有限公司 | 一种自动识别欺诈订单的方法和装置 |
CN108074084A (zh) * | 2016-11-18 | 2018-05-25 | 腾讯科技(深圳)有限公司 | 一种延迟处理请求的方法、装置及服务器 |
CN106815782A (zh) * | 2017-01-23 | 2017-06-09 | 重庆汇集源科技有限公司 | 一种基于神经网络统计学模型的房地产估值方法及系统 |
CN107563425A (zh) * | 2017-08-24 | 2018-01-09 | 长安大学 | 一种基于随机森林的隧道运营状态感知模型的建立方法 |
Non-Patent Citations (1)
Title |
---|
《基于关系图特征的微博水军发现方法》;程晓涛等;《自动化学报》;20150930;第1533-1541页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109063433A (zh) | 2018-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109063433B (zh) | 虚假用户的识别方法、装置及可读存储介质 | |
CN109922032B (zh) | 用于确定登录账户的风险的方法、装置、设备及存储介质 | |
CN112926990B (zh) | 欺诈识别的方法和装置 | |
CN110457175B (zh) | 业务数据处理方法、装置、电子设备及介质 | |
CN111796957B (zh) | 基于应用日志的交易异常根因分析方法及系统 | |
CN111340233B (zh) | 机器学习模型的训练方法及装置、样本处理方法及装置 | |
CN111652661B (zh) | 一种手机客户端用户流失预警处理方法 | |
CN112884569A (zh) | 一种信用评估模型的训练方法、装置及设备 | |
CN111045902A (zh) | 服务器的压力测试方法及装置 | |
CN117409419A (zh) | 图像检测方法、设备及存储介质 | |
CN117633666A (zh) | 网络资产识别方法、装置、电子设备和存储介质 | |
CN112200862B (zh) | 目标检测模型的训练方法、目标检测方法及装置 | |
CN110263618A (zh) | 一种核身模型的迭代方法和装置 | |
CN113268419B (zh) | 测试用例优化信息的生成方法、装置、设备和存储介质 | |
CN113962216A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN114449569B (zh) | 用户流量使用量处理方法、网络设备及业务处理系统 | |
CN111798237B (zh) | 基于应用日志的异常交易诊断方法及系统 | |
CN114972302A (zh) | 判别标准生成方法、表面质检方法、存储介质及程序产品 | |
CN111835541B (zh) | 一种流量识别模型老化检测方法、装置、设备及系统 | |
CN109829713B (zh) | 一种基于知识与数据共同驱动的移动支付方式识别方法 | |
CN113285977A (zh) | 基于区块链和大数据的网络维护方法及系统 | |
CN110569277A (zh) | 一种配置数据信息自动识别与归类方法及系统 | |
CN113946703B (zh) | 一种图片漏检处理方法及其相关装置 | |
CN114242048A (zh) | 一种基于语音的居家服务质量评定方法及系统 | |
CN117745479A (zh) | 关键业务环节定位方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |