CN113255710A - 手机号码分类方法、装置、设备及存储介质 - Google Patents
手机号码分类方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113255710A CN113255710A CN202010089202.3A CN202010089202A CN113255710A CN 113255710 A CN113255710 A CN 113255710A CN 202010089202 A CN202010089202 A CN 202010089202A CN 113255710 A CN113255710 A CN 113255710A
- Authority
- CN
- China
- Prior art keywords
- mobile phone
- phone number
- feature
- classifier
- obtaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000012549 training Methods 0.000 claims abstract description 61
- 238000000605 extraction Methods 0.000 claims abstract description 43
- 230000006399 behavior Effects 0.000 claims description 63
- 238000004891 communication Methods 0.000 claims description 40
- 238000011156 evaluation Methods 0.000 claims description 8
- 206010000117 Abnormal behaviour Diseases 0.000 abstract description 13
- 238000007418 data mining Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000007477 logistic regression Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000002349 favourable effect Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000001680 brushing effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Biology (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供一种手机号码分类方法、装置、设备及存储介质,涉及数据挖掘技术领域。该方法包括:对用于训练的各个手机号码的第一行为指标集进行特征提取,获得各个手机号码的第一特征集,对各个手机号码的第二行为指标集进行特征提取,获得各个手机号码的第二特征集;基于聚类方法根据各个手机号码的第一特征集获得特征簇,特征簇包括至少一个手机号码;获得特征簇中的至少一个手机号码的第二特征集的集中程度;根据特征簇中的至少一个手机号码的第二特征集的集中程度获得用于训练的各个手机号码的标签;基于各个手机号码和各个手机号码的标签对初始分类器进行训练,获得目标分类器,实现了低成本、高准确率地识别异常行为手机号码。
Description
技术领域
本公开涉及数据挖掘技术领域,具体而言,涉及一种手机号码分类方法、装置、设备及可读存储介质。
背景技术
在电商平台中存在着一些用于进行刷排名、刷好评等异常行为的手机号码。相关技术中对于异常行为手机号码的识别通常采用无监督学习分类方法或有监督分类方法。对于无监督学习方法,一般需要结合业务知识,从手机号码的使用方式出发,提取能够反映其行为特点的特征,然后在此基础上进行聚类,最后人工分析聚类得到的各个子集是否包含异常行为手机号码。由于聚类会产生数量庞大的子集,人工分析的工作量很大,而得到的这些子集往往并不准确,增加了人工判断的难度,因此这种方法在大规模数据集上的效果较差,且通常只能发现某些特定场景下的手机号码,可适用的场景不够广泛。
对于有监督分类方法,拥有足够大的有标注训练集是训练分类器的前提,若采用于人工标注或向通信运营商购买大量的数据的方式,成本都很高,而运营商提供的标注数据的准确性也较低。
如上所述,如何提供较低成本、准确率高、应用广泛的异常行为手机号码的识别方法成为亟待解决的问题。
在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种手机号码分类方法、装置、设备及可读存储介质,至少在一定程度上克服相关技术中的异常行为手机号码识别方法准确率低的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一方面,提供一种手机号码分类方法,包括:对用于训练的各个手机号码的第一行为指标集进行特征提取,获得所述各个手机号码的第一特征集,对所述各个手机号码的第二行为指标集进行特征提取,获得所述各个手机号码的第二特征集;基于聚类方法根据所述各个手机号码的第一特征集获得特征簇,所述特征簇包括至少一个手机号码;获得所述特征簇中的所述至少一个手机号码的第二特征集的集中程度;根据所述特征簇中的所述至少一个手机号码的第二特征集的集中程度获得所述用于训练的各个手机号码的标签;基于所述各个手机号码和所述各个手机号码的标签对初始分类器进行训练,获得目标分类器。
根据本公开的一实施例,所述方法还包括:通过所述目标分类器获得待识别手机号码的类别。
根据本公开的一实施例,所述获得所述特征簇中的所述至少一个手机号码的第二特征集的集中程度,包括:基于箱线图方法获得所述特征簇中的所述至少一个手机号码的第二特征集中特征数据的分布情况;根据所述特征簇中的所述至少一个手机号码的第二特征集中特征数据的分布情况获得所述特征簇中的所述至少一个手机号码的第二特征集的集中程度。
根据本公开的一实施例,所述获得所述特征簇中的所述至少一个手机号码的第二特征集的集中程度,包括:获得所述特征簇中的所述至少一个手机号码的第二特征集中的特征数据的高斯分布模型的参数;根据所述高斯分布模型的参数获得所述高斯分布模型的置信区间;根据所述高斯分布模型的置信区间获得所述特征簇中的所述至少一个手机号码的第二特征集的集中程度。
根据本公开的一实施例,所述第一行为指标集为手机号码在电商平台的交易数据的集合,其中,所述手机号码在电商平台的交易数据包括手机号码在电商平台的下单行为数据和手机号码在电商平台所购商品的数据;所述第二行为指标集为手机号码的通讯数据的集合;所述对用于训练的各个手机号码的第一行为指标集进行特征提取,获得所述各个手机号码的第一特征集,包括:对所述各个手机号码在电商平台的下单行为数据进行特征提取,获得所述各个手机号码的第一类特征;对所述各个手机号码在电商平台所购商品的数据进行特征提取,获得所述各个手机号码的第二类特征;获得所述各个手机号码的第一特征集,其中,所述第一特征集为所述第一类特征和所述第二类特征的集合。
根据本公开的一实施例,所述对所述各个手机号码在电商平台所购商品的数据进行特征提取,获得所述各个手机号码的第二类特征,包括:获得所述各个手机号码在电商平台所购各个商品的至少一个关联行为指标数据;获得所述各个商品的至少一个关联行为指标数据的统计参数;获得所述各个手机号码的第二类特征,其中,所述各个手机号码的第二类特征包括所述各个商品的至少一个关联行为指标数据的统计参数。
根据本公开的一实施例,所述基于所述用于训练的各个手机号码和所述用于训练的各个手机号码的标签对初始分类器进行训练,获得目标分类器,包括:S4102.获得当前分类器,其中所述当前分类器为所述初始分类器;S4104.基于所述各个手机号码和所述各个手机号码的标签对所述当前分类器进行训练,获得更新的分类器;S4106.通过所述更新的分类器对所述各个手机号码进行分类,获得所述各个手机号码的识别概率;S4108.根据所述各个手机号码的识别概率判断所述各个手机号码的标签是否满足预设条件;S4110.若所述各个手机号码的标签满足预设条件,则所述更新的分类器为所述目标分类器;S4112.若所述各个手机号码的标签不满足预设条件,则根据所述识别概率更新所述各个手机号码和所述各个手机号码的标签,将所述更新的分类器作为所述当前分类器,重复S4104至S4112,直至所述各个手机号码的标签满足预设条件。
根据本公开的再一方面,提供一种手机号码分类装置,包括:特征提取模块,用于对用于训练的各个手机号码的第一行为指标集进行特征提取,获得所述各个手机号码的第一特征集,对所述各个手机号码的第二行为指标集进行特征提取,获得所述各个手机号码的第二特征集;聚类模块,用于基于聚类方法根据所述各个手机号码的第一特征集获得特征簇,所述特征簇包括至少一个手机号码;聚类评估模块,用于获得所述特征簇中的所述至少一个手机号码的第二特征集的集中程度;标签获得模块,用于根据所述特征簇中的所述至少一个手机号码的第二特征集的集中程度获得所述用于训练的各个手机号码的标签;分类器模块,用于基于所述各个手机号码和所述各个手机号码的标签对初始分类器进行训练,获得目标分类器。
根据本公开的再一方面,提供一种电子设备,包括:存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,所述处理器执行所述可执行指令时实现如上述任一种方法。
根据本公开的再一方面,提供一种计算机可读存储介质,其上存储有计算机可执行指令,所述可执行指令被处理器执行时实现如上述任一种方法。
本公开的实施例提供的方法,通过对用于训练的各个手机号码的第一行为指标集进行特征提取,获得各个手机号码的第一特征集,对各个手机号码的第二行为指标集进行特征提取,获得各个手机号码的第二特征集,然后基于聚类方法根据各个手机号码的第一特征集获得包括至少一个手机号码的特征簇,获得特征簇中的至少一个手机号码的第二特征集的集中程度,再根据特征簇中的至少一个手机号码的第二特征集的集中程度获得用于训练的各个手机号码的标签,最后基于各个手机号码和各个手机号码的标签对初始分类器进行训练,获得目标分类器,从而可实现提高用于识别异常行为手机号码的分类器的准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。
图1示出本公开实施例中一种手机号码分类系统结构的示意图;
图2示出本公开实施例中一种手机号码分类方法的流程图。
图3示出本公开实施例中另一种手机号码分类方法的流程图。
图4示出本公开实施例中再一种手机号码分类方法的流程图。
图5示出本公开实施例中一种手机号码分类装置的框图。
图6示出本公开实施例中一种的电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施例使得本公开将更加全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。符号“/”一般表示前后关联对象是一种“或”的关系。
在本公开中,除非另有明确的规定和限定,“连接”等术语应做广义理解,例如,可以是电连接或可以互相通讯;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本公开中的具体含义。
如上所述,因现有技术中的手机号码分类方法准确度低、适用场景不够广泛且成本高,因此,本公开提供了一种方法,通过聚类方法结合手机号码的第一行为指标和第二行为指标获得用于训练的各个手机号码的标签,再进行训练获得目标分类器,从而可实现提高用于识别异常行为手机号码的分类器的准确率。
图1示出了可以应用本公开的手机号码分类方法或手机号码分类装置的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如数据导入应用、信息提取应用等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103进行数据挖掘提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的初始等数据进行分析等处理,并将如目标计数结果反馈给终端设备。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2是根据一示例性实施例示出的一种手机号码分类方法的流程图。如图2所示的方法例如可以应用于上述手机号码分类系统的服务器端,也可以应用于上述手机号码分类系统的终端设备。
参考图2,本公开实施例提供的方法20可以包括以下步骤。
首先准备用于有监督方法的训练数据。在步骤S202中,对用于训练的各个手机号码的第一行为指标集进行特征提取,获得各个手机号码的第一特征集,对各个手机号码的第二行为指标集进行特征提取,获得各个手机号码的第二特征集。根据欲分类的类别设定需要提取特征的手机号码的行为指标,若手机号码的类别可能导致多种特定行为模式,则分类时应考虑是否在各个行为模式中展现特征一致性。例如,若欲将手机号码分为正常行为类和电商平台行为异常类,则需考虑的指标包括手机号码的通讯数据,如通话时长、入网时间等等,还需考虑手机号码在电商平台的指标,如商品购买量、评价数量等等;若欲将手机号码分为正常行为类和电信诈骗行为类,则考虑的指标包括手机号码的通讯数据,如联系人地区、短信数量等等。
在步骤S204中,基于聚类方法根据各个手机号码的第一特征集获得特征簇,特征簇包括至少一个手机号码。聚类方法作为无监督学习方法,需要从手机号码的行为方式出发,利用提取的能够反映其行为特点的特征,然后在此基础上进行聚类,会产生数量庞大的子集,若仅采用此种方法进行分类,需要人工对子集判断,人工成本大,判定准确率较低,应用场景不够广泛。
在一些实施例中,可采用基于密度的带噪声空间聚类(Density-Based SpatialClustering of Applications with Noise,缩写为DBSCAN)算法进行聚类,可自动确定簇的个数。
在步骤S206中,获得特征簇中的至少一个手机号码的第二特征集的集中程度。在对手机号码的一种行为特征进行聚类获得初步分类结果后,评估获得的子集是否在另一种行为特征上也具有相似的集中程度,以对无监督的分类进行修正,提高无监督分类的准确度。
在一些实施例中,可选地,基于箱线图方法获得特征簇中的至少一个手机号码的第二特征集中特征数据的分布情况,根据特征簇中的至少一个手机号码的第二特征集中特征数据的分布情况获得特征簇中的至少一个手机号码的第二特征集的集中程度。
在步骤S208中,根据特征簇中的至少一个手机号码的第二特征集的集中程度获得用于训练的各个手机号码的标签。获得了在相关的行为特征上具有相似的集中程度的手机号码后,为其标注类别标签,以作为有监督学习的训练数据。
在步骤S210中,基于各个手机号码和各个手机号码的标签对初始分类器进行训练,获得目标分类器。本申请的主要目的是将手机号码分类为行为正常和行为异常,属于二分类问题,可采用逻辑回归(LogisticRegression)分类器、支持向量机(Support VectorMachine,SVM)等分类器,通过将训练数据输入分类器并输出训练分类结果,再将训练分类结果与标准标签进行比较后,对分类器网络参数进行修正,直至分类器可获得较为准确的输出结果为止。
上述进行聚类和分类的方法可由本领域技术人员根据实际需要选择合适的算法,本公开不以此为限。
本公开的实施例提供的方法,通过对用于训练的各个手机号码的第一行为指标集进行特征提取,获得各个手机号码的第一特征集,对各个手机号码的第二行为指标集进行特征提取,获得各个手机号码的第二特征集,然后基于聚类方法根据各个手机号码的第一特征集获得包括至少一个手机号码的特征簇,获得特征簇中的至少一个手机号码的第二特征集的集中程度,再根据特征簇中的至少一个手机号码的第二特征集的集中程度获得用于训练的各个手机号码的标签,最后基于各个手机号码和各个手机号码的标签对初始分类器进行训练,获得目标分类器,从而可实现提高用于识别异常行为手机号码的分类器的准确率。
图3是根据一示例性实施例示出的一种手机号码分类方法的流程图。如图3所示的方法例如可以应用于上述手机号码分类系统的服务器端,也可以应用于上述手机号码分类系统的终端设备。
参考图3,本公开实施例提供的方法30可以包括以下步骤。
在步骤S302中,对用于训练的各个手机号码在电商平台的交易数据的集合进行特征提取,获得各个手机号码在电商平台的交易数据特征集,对各个手机号码的通讯数据的集合进行特征提取,获得各个手机号码的通讯数据特征集。
在一些实施例中,从电商数据中提取某一时期内活跃用户的注册绑定手机号为用于训练的各个手机号码,手机号码在电商平台的交易数据包括手机号码在电商平台的下单行为数据和手机号码在电商平台所购商品的数据。具体地,来自电商平台的交易数据包括用户的注册信息、网页浏览信息和下单信息等,其特点是免费、数据量大、能够完整覆盖用户在电商平台上的所有行为;来自通信运营商的通讯数据包括手机号的历史话费、通话时长和流量等,其特点是收费、数量有限,能够在一定程度上反映出手机号码的使用习惯。
在一些实施例中,对用于训练的各个手机号码在电商平台的交易数据的集合进行特征提取,获得各个手机号码在电商平台的交易数据特征集,包括以下步骤。
对各个手机号码在电商平台的下单行为数据进行特征提取,获得各个手机号码的第一类特征。
对各个手机号码在电商平台所购商品的数据进行特征提取,获得各个手机号码的第二类特征。进一步地,获得各个手机号码在电商平台所购各个商品的至少一个关联行为指标数据;获得各个商品的至少一个关联行为指标数据的统计参数;获得各个手机号码的第二类特征,其中,各个手机号码的第二类特征包括各个商品的至少一个关联行为指标数据的统计参数。
获得各个手机号码的在电商平台的交易数据特征集,其中,在电商平台的交易数据特征集为第一类特征和第二类特征的集合。
具体地,第一类特征主要是对发生在该手机号上的一系列下单行为的统计,例如该手机号的历史下单量,微信支付比例、评论率、好评率、使用过的收货地址数、使用过的设备数等。第一类特征和手机号自身的关系最密切,但问题是其特征值普遍比较稀疏,统计意义较差。为了弥补这一缺陷,增加了第二类特征:首先找到该手机号在电商平台历史购买过的商品,从整个平台的角度统计这些商品上的历史浏览和下单情况,例如总浏览人次、总访问人数,总下单量、订单取消比例、评论率、好评率、不同支付方式的支付比例等。由于每个手机号都会对应若干个商品,因此上述商品的各个特征被关联到手机号后就会变成一个长度不定的向量,我们必须将该向量压缩为一个或多个固定的标量,才能保证最终的特征向量是定长的。可采用提取商品特征向量的长度、平均值、方差、最小值、中位数和最大值等5个值作为特征的方法,获得第二类特征的长度为5的向量。
手机号码的通讯数据包含的字段较少,主要是用户历史的主被叫通话时长、话费、网络流量、总在网时长、手机号状态等等,这些字段本身已经足够反应手机号的行为习惯,因此可直接将这些字段作为特征,不再进行额外的加工。
识别手机号码是否为异常行为号码时采用的方法为:如果手机号码的集合在在电商平台的交易数据特征集和通讯数据特征集中的集中程度表现出相似性,则可获得这些具有一致性的手机号的集合,这些集合可能代表正常手机号,也可能代表异常手机号。首先,在步骤S304中,基于聚类方法根据各个手机号码在电商平台的交易数据特征集获得特征簇,特征簇包括至少一个手机号码。
在步骤S306中,采用箱线图方法获得特征簇中的至少一个手机号码的通讯数据特征集的集中程度。由于手机号码的通讯数据的特征较少,因此可以直接绘制出手机号码在电商平台的交易数据特征集通过聚类获得的各簇在第二特征集中各特征上的箱线图,通过可视化的方式直接观察簇内样本是否分布集中。箱线图是一种归纳数据分布特点的经典可视化方式,基本原理是将一组数据的最大值、最小值、分位数、平均值等用矩形框或线段描绘出来,从而可以从矩形框的形状上直观地看出一组数据分布的集中程度。
在步骤S308中,根据特征簇中的至少一个手机号码的通讯数据特征集的集中程度获得用于训练的各个手机号码的标签。对此可以从特征出发,观察它们的历史通话量、话费、交易频率、评论率、喜欢购买的品类等,为这些集合标记为异常或正常手机号码。
在步骤S310中,基于各个手机号码和各个手机号码的标签对初始分类器进行训练,获得目标分类器。
根据本公开实施例提供的手机号码分类方法,通过对用于训练的各个手机号码在电商平台的交易数据集进行特征提取,获得各个手机号码在电商平台的交易数据特征集,对各个手机号码的通讯数据集进行特征提取,获得各个手机号码的通讯数据特征集,然后基于聚类方法根据各个手机号码在电商平台的交易数据特征集获得包括至少一个手机号码的特征簇,获得特征簇中的至少一个手机号码的通讯数据特征集的集中程度,再根据特征簇中的至少一个手机号码的通讯数据特征集的集中程度获得用于训练的各个手机号码的标签,最后基于各个手机号码和各个手机号码的标签对初始分类器进行训练,获得目标分类器,从而可实现提高用于识别异常行为手机号码的分类器的准确率,并综合电商平台数据和运营商通讯数据进行训练,提高模型的泛化能力。
图4是根据一示例性实施例示出的一种方法的流程图。如图4所示的方法例如可以应用于的服务器端,也可以应用于的终端设备。
参考图4,本公开实施例提供的方法40可以包括以下步骤。
在步骤S402中,对用于训练的各个手机号码在电商平台的交易数据集进行特征提取,获得各个手机号码在电商平台的交易数据特征集,对各个手机号码的通讯数据集进行特征提取,获得各个手机号码的通讯数据特征集。
在步骤S404中,基于聚类方法根据各个手机号码在电商平台的交易数据特征集获得特征簇,特征簇包括至少一个手机号码。
在步骤S406中,通过高斯分布模型获得特征簇中的至少一个手机号码的通讯数据集的集中程度。其中,获得特征簇中的至少一个手机号码的通讯数据特征集中的特征数据的高斯分布模型的参数,根据高斯分布模型的参数获得高斯分布模型的置信区间,根据高斯分布模型的置信区间获得特征簇中的至少一个手机号码的通讯数据特征集的集中程度。具体地,对于数据量较大、数据纯净度低的情况,可以采用高斯混合模型对各簇对应的手机号码的通讯数据特征的分布的参数进行估计,通过比较参数置信区间的大小来判断手机号码的通讯数据特征的集中度。
在步骤S408中,根据特征簇中的至少一个手机号码的通讯数据特征集的集中程度获得用于训练的各个手机号码的标签。
步骤S402至步骤S408的一些实施例已于步骤S302至步骤S308中进行详述,此处不再赘述。
在步骤S4102中,获得当前分类器,其中当前分类器为初始分类器。可采用逻辑回归(Logistic Regression)分类器进行训练得到可识别手机号码是否为异常的分类器。
在步骤S4104中,基于各个手机号码和各个手机号码的标签对当前分类器进行训练,获得更新的分类器。
在步骤S4106中,通过更新的分类器对各个手机号码进行分类,获得各个手机号码的识别概率。
在步骤S4108中,根据各个手机号码的识别概率判断各个手机号码的标签是否满足预设条件。
在步骤S4110中,若各个手机号码的标签满足预设条件,则更新的分类器为目标分类器。
在步骤S4112中,若各个手机号码的标签不满足预设条件,则根据识别概率更新各个手机号码和各个手机号码的标签,将更新的分类器作为当前分类器,重复S4104至S4112,直至各个手机号码的标签满足预设条件。
在一些实施例中,根据预设确信区间统计所有样本识别概率的分布情况,例如认为所有识别概率大于预设阈值0.9的样本都是确信样本。剔除所有识别概率低于该预设阈值的样本,得到新的有标注训练集,重新训练分类器,继续剔除非确信样本,直至非确信样本的比例已经很低(低于预设比例)或没有明显下降(与上一次分类得到的非确信样本相比)或样本总量已经下降至初始大小的预设比例,如70%,输出此时的分类器作为最终的分类器。
在步骤S412中,通过目标分类器获得待识别手机号码的类别。将待识别的手机号码输入目标分类器,可由目标分类器输出该手机号码为行为正常或者为行为异常。
根据本公开实施例提供的手机号码分类方法,通过对用于训练的各个手机号码在电商平台的交易数据集进行特征提取,获得各个手机号码在电商平台的交易数据特征集,对各个手机号码的通讯数据集进行特征提取,获得各个手机号码的通讯数据特征集,然后基于聚类方法根据各个手机号码在电商平台的交易数据特征集获得包括至少一个手机号码的特征簇,获得特征簇中的至少一个手机号码的通讯数据特征集的集中程度,再根据特征簇中的至少一个手机号码的通讯数据特征集的集中程度获得用于训练的各个手机号码的标签,最后基于各个手机号码和各个手机号码的标签以标注越来越准确的样本对分类器进行迭代训练,获得目标分类器,从而可实现提高用于识别异常行为手机号码的分类器的准确率,并综合电商平台数据和运营商通讯数据进行训练,提高模型的泛化能力。
图5是根据一示例性实施例示出的一种手机号码分类装置的框图。如图5所示的装置例如可以应用于上述手机号码分类系统的服务器端,也可以应用于上述手机号码分类系统的终端设备。
参考图5,本公开实施例提供的装置50可以包括:特征提取模块502、聚类模块504、聚类评估模块506、标签获得模块508以及分类器模块510。
特征提取模块502可以用于对用于训练的各个手机号码的第一行为指标集进行特征提取,获得各个手机号码的第一特征集,对各个手机号码的第二行为指标集进行特征提取,获得各个手机号码的第二特征集。
聚类模块504可以用于基于聚类方法根据各个手机号码的第一特征集获得特征簇,特征簇包括至少一个手机号码。
聚类评估模块506可以用于获得特征簇中的至少一个手机号码的第二特征集的集中程度。
标签获得模块508可以用于根据特征簇中的至少一个手机号码的第二特征集的集中程度获得用于训练的各个手机号码的标签。
分类器模块510可以用于基于各个手机号码和各个手机号码的标签对初始分类器进行训练,获得目标分类器。
分类器模块510还可以用于通过目标分类器获得待识别手机号码的类别。
聚类评估模块506还可以用于基于箱线图方法获得特征簇中的至少一个手机号码的第二特征集中特征数据的分布情况;根据特征簇中的至少一个手机号码的第二特征集中特征数据的分布情况获得特征簇中的至少一个手机号码的第二特征集的集中程度。
聚类评估模块506还可以用于获得特征簇中的至少一个手机号码的第二特征集中的特征数据的高斯分布模型的参数;根据高斯分布模型的参数获得高斯分布模型的置信区间;根据高斯分布模型的置信区间获得特征簇中的至少一个手机号码的第二特征集的集中程度。
特征提取模块502还可以用于对各个手机号码在电商平台的下单行为数据进行特征提取,获得各个手机号码的第一类特征;对各个手机号码在电商平台所购商品的数据进行特征提取,获得各个手机号码的第二类特征;获得各个手机号码的第一特征集,其中,第一特征集为第一类特征和第二类特征的集合。
特征提取模块502还可以用于获得各个手机号码在电商平台所购各个商品的至少一个关联行为指标数据;获得各个商品的至少一个关联行为指标数据的统计参数;获得各个手机号码的第二类特征,其中,各个手机号码的第二类特征包括各个商品的至少一个关联行为指标数据的统计参数。
分类器模块510还可以用于实现以下步骤:
S4102.获得当前分类器,其中当前分类器为初始分类器;
S4104.基于各个手机号码和各个手机号码的标签对初始分类器进行训练,获得更新的分类器;
S4106.通过更新的分类器对各个手机号码进行分类,获得各个手机号码的识别概率;
S4108.根据各个手机号码的识别概率判断各个手机号码的标签是否满足预设条件;
S4110.若各个手机号码的标签满足预设条件,则更新的分类器为目标分类器;
S4112.若各个手机号码的标签不满足预设条件,则根据识别概率更新各个手机号码和各个手机号码的标签,重复S4104至S4112,直至各个手机号码的标签满足预设条件。
图6示出本公开实施例中一种的电子设备的结构示意图。需要说明的是,图6示出的设备仅以计算机系统为示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,设备600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中,还存储有设备600操作所需的各种程序和数据。CPU601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本公开的系统中限定的上述功能。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括特征提取模块、聚类模块、聚类评估模块、标签获得模块和分类器训练模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,特征提取模块还可以被描述为“从数据中提取特征的模块”。
作为另一方面,本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:
对用于训练的各个手机号码的第一行为指标集进行特征提取,获得各个手机号码的第一特征集,对各个手机号码的第二行为指标集进行特征提取,获得各个手机号码的第二特征集;
基于聚类方法根据各个手机号码的第一特征集获得特征簇,特征簇包括至少一个手机号码;
获得特征簇中的至少一个手机号码的第二特征集的集中程度;
根据特征簇中的至少一个手机号码的第二特征集的集中程度获得用于训练的各个手机号码的标签;
基于各个手机号码和各个手机号码的标签对初始分类器进行训练,获得目标分类器。
以上具体地示出和描述了本公开的示例性实施例。应可理解的是,本公开不限于这里描述的详细结构、设置方式或实现方法;相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
Claims (10)
1.一种手机号码分类方法,其特征在于,包括:
对用于训练的各个手机号码的第一行为指标集进行特征提取,获得所述各个手机号码的第一特征集,对所述各个手机号码的第二行为指标集进行特征提取,获得所述各个手机号码的第二特征集;
基于聚类方法根据所述各个手机号码的第一特征集获得特征簇,所述特征簇包括至少一个手机号码;
获得所述特征簇中的所述至少一个手机号码的第二特征集的集中程度;
根据所述特征簇中的所述至少一个手机号码的第二特征集的集中程度获得所述用于训练的各个手机号码的标签;
基于所述各个手机号码和所述各个手机号码的标签对初始分类器进行训练,获得目标分类器。
2.根据权利要求1所述的方法,其特征在于,还包括:通过所述目标分类器获得待识别手机号码的类别。
3.根据权利要求1所述的方法,其特征在于,所述获得所述特征簇中的所述至少一个手机号码的第二特征集的集中程度,包括:
基于箱线图方法获得所述特征簇中的所述至少一个手机号码的第二特征集中特征数据的分布情况;
根据所述特征簇中的所述至少一个手机号码的第二特征集中特征数据的分布情况获得所述特征簇中的所述至少一个手机号码的第二特征集的集中程度。
4.根据权利要求1所述的方法,其特征在于,所述获得所述特征簇中的所述至少一个手机号码的第二特征集的集中程度,包括:
获得所述特征簇中的所述至少一个手机号码的第二特征集中的特征数据的高斯分布模型的参数;
根据所述高斯分布模型的参数获得所述高斯分布模型的置信区间;
根据所述高斯分布模型的置信区间获得所述特征簇中的所述至少一个手机号码的第二特征集的集中程度。
5.根据权利要求1所述的方法,其特征在于,所述第一行为指标集为手机号码在电商平台的交易数据的集合,其中,所述手机号码在电商平台的交易数据包括手机号码在电商平台的下单行为数据和手机号码在电商平台所购商品的数据;所述第二行为指标集为手机号码的通讯数据的集合;
所述对用于训练的各个手机号码的第一行为指标集进行特征提取,获得所述各个手机号码的第一特征集,包括:
对所述各个手机号码在电商平台的下单行为数据进行特征提取,获得所述各个手机号码的第一类特征;
对所述各个手机号码在电商平台所购商品的数据进行特征提取,获得所述各个手机号码的第二类特征;
获得所述各个手机号码的第一特征集,其中,所述第一特征集为所述第一类特征和所述第二类特征的集合。
6.根据权利要求5所述的方法,其特征在于,所述对所述各个手机号码在电商平台所购商品的数据进行特征提取,获得所述各个手机号码的第二类特征,包括:
获得所述各个手机号码在电商平台所购各个商品的至少一个关联行为指标数据;
获得所述各个商品的至少一个关联行为指标数据的统计参数;
获得所述各个手机号码的第二类特征,其中,所述各个手机号码的第二类特征包括所述各个商品的至少一个关联行为指标数据的统计参数。
7.根据权利要求1所述的方法,其特征在于,所述基于所述用于训练的各个手机号码和所述用于训练的各个手机号码的标签对初始分类器进行训练,获得目标分类器,包括:
获得当前分类器,其中所述当前分类器为所述初始分类器;
基于所述各个手机号码和所述各个手机号码的标签对所述当前分类器进行训练,获得更新的分类器;
通过所述更新的分类器对所述各个手机号码进行分类,获得所述各个手机号码的识别概率;
根据所述各个手机号码的识别概率判断所述各个手机号码的标签是否满足预设条件;
若所述各个手机号码的标签满足预设条件,则所述更新的分类器为所述目标分类器;
若所述各个手机号码的标签不满足预设条件,则根据所述识别概率更新所述各个手机号码和所述各个手机号码的标签,将所述更新的分类器作为所述当前分类器,重复以下步骤:基于所述各个手机号码和所述各个手机号码的标签对所述当前分类器进行训练,获得更新的分类器;通过所述更新的分类器对所述各个手机号码进行分类,获得所述各个手机号码的识别概率;根据所述各个手机号码的识别概率判断所述各个手机号码的标签是否满足预设条件;直至所述各个手机号码的标签满足预设条件。
8.一种手机号码分类装置,其特征在于,包括:
特征提取模块,用于对用于训练的各个手机号码的第一行为指标集进行特征提取,获得所述各个手机号码的第一特征集,对所述各个手机号码的第二行为指标集进行特征提取,获得所述各个手机号码的第二特征集;
聚类模块,用于基于聚类方法根据所述各个手机号码的第一特征集获得特征簇,所述特征簇包括至少一个手机号码;
聚类评估模块,用于获得所述特征簇中的所述至少一个手机号码的第二特征集的集中程度;
标签获得模块,用于根据所述特征簇中的所述至少一个手机号码的第二特征集的集中程度获得所述用于训练的各个手机号码的标签;
分类器模块,用于基于所述各个手机号码和所述各个手机号码的标签对初始分类器进行训练,获得目标分类器。
9.一种电子设备,包括:存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,其特征在于,所述处理器执行所述可执行指令时实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,所述可执行指令被处理器执行时实现如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010089202.3A CN113255710B (zh) | 2020-02-12 | 2020-02-12 | 手机号码分类方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010089202.3A CN113255710B (zh) | 2020-02-12 | 2020-02-12 | 手机号码分类方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113255710A true CN113255710A (zh) | 2021-08-13 |
CN113255710B CN113255710B (zh) | 2024-05-28 |
Family
ID=77220191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010089202.3A Active CN113255710B (zh) | 2020-02-12 | 2020-02-12 | 手机号码分类方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255710B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6338082B1 (en) * | 1999-03-22 | 2002-01-08 | Eric Schneider | Method, product, and apparatus for requesting a network resource |
JP2006039970A (ja) * | 2004-07-27 | 2006-02-09 | Kokuritsu Iyakuhin Shokuhin Eisei Kenkyusho | 高次元データを塊に分割する装置 |
US20140250032A1 (en) * | 2013-03-01 | 2014-09-04 | Xerox Corporation | Methods, systems and processor-readable media for simultaneous sentiment analysis and topic classification with multiple labels |
CN107978311A (zh) * | 2017-11-24 | 2018-05-01 | 腾讯科技(深圳)有限公司 | 一种语音数据处理方法、装置以及语音交互设备 |
JP2020008992A (ja) * | 2018-07-04 | 2020-01-16 | 株式会社日立製作所 | データ分類システム、データ分類方法、および、データ分類装置 |
-
2020
- 2020-02-12 CN CN202010089202.3A patent/CN113255710B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6338082B1 (en) * | 1999-03-22 | 2002-01-08 | Eric Schneider | Method, product, and apparatus for requesting a network resource |
JP2006039970A (ja) * | 2004-07-27 | 2006-02-09 | Kokuritsu Iyakuhin Shokuhin Eisei Kenkyusho | 高次元データを塊に分割する装置 |
US20140250032A1 (en) * | 2013-03-01 | 2014-09-04 | Xerox Corporation | Methods, systems and processor-readable media for simultaneous sentiment analysis and topic classification with multiple labels |
CN107978311A (zh) * | 2017-11-24 | 2018-05-01 | 腾讯科技(深圳)有限公司 | 一种语音数据处理方法、装置以及语音交互设备 |
JP2020008992A (ja) * | 2018-07-04 | 2020-01-16 | 株式会社日立製作所 | データ分類システム、データ分類方法、および、データ分類装置 |
Non-Patent Citations (3)
Title |
---|
刘丽珍;宋瀚涛;陆玉昌;: "无标记训练样本的Web文本分类方法", 计算机科学, no. 03, 25 March 2006 (2006-03-25) * |
巩建光: "面向电信领域的数据挖掘关键技术研究", 中国博士学位论文全文数据库, no. 1, 15 January 2013 (2013-01-15) * |
许奇功;郭洪;: "基于类内K-means聚簇的KNN改进算法", 木工机床, no. 04, 25 December 2015 (2015-12-25) * |
Also Published As
Publication number | Publication date |
---|---|
CN113255710B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105744005A (zh) | 客户定位分析方法及服务器 | |
CN107944481A (zh) | 用于生成信息的方法和装置 | |
CN110392155B (zh) | 通知消息的显示、处理方法、装置及设备 | |
CN107426328A (zh) | 信息推送方法和装置 | |
CN107644106B (zh) | 自动挖掘业务中间人的方法、终端设备及存储介质 | |
CN108595448A (zh) | 信息推送方法和装置 | |
CN112241327A (zh) | 分享信息处理方法、装置、存储介质与电子设备 | |
CN110119340A (zh) | 异常监测方法、装置、电子设备和存储介质 | |
CN107911449A (zh) | 用于推送信息的方法和装置 | |
CN109389182A (zh) | 用于生成信息的方法和装置 | |
CN110335061B (zh) | 交易模式画像建立方法、装置、介质及电子设备 | |
CN111245815B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN112950359A (zh) | 一种用户识别方法和装置 | |
CN110110295B (zh) | 大样本研报信息提取方法、装置、设备及存储介质 | |
CN113255710B (zh) | 手机号码分类方法、装置、设备及存储介质 | |
CN114925275A (zh) | 产品推荐方法、装置、计算机设备及存储介质 | |
CN113779346A (zh) | 用于识别一人多账号的方法及装置 | |
CN107368597B (zh) | 信息输出方法和装置 | |
CN111429257A (zh) | 一种交易监控方法和装置 | |
CN112734352A (zh) | 一种基于数据维度的单据审核方法和装置 | |
CN110084541A (zh) | 用于预测供应商送货时长的方法和装置 | |
CN110222097A (zh) | 用于生成信息的方法和装置 | |
CN116911912B (zh) | 一种交互对象和交互结果的预测方法及装置 | |
CN111726448B (zh) | 号码标记方法、装置、计算机存储介质及电子设备 | |
CN116204567B (zh) | 用户挖掘及模型的训练方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |