CN113709747B - 一种骚扰号码识别方法、装置、计算机设备和存储介质 - Google Patents

一种骚扰号码识别方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113709747B
CN113709747B CN202010388824.6A CN202010388824A CN113709747B CN 113709747 B CN113709747 B CN 113709747B CN 202010388824 A CN202010388824 A CN 202010388824A CN 113709747 B CN113709747 B CN 113709747B
Authority
CN
China
Prior art keywords
black
harassment
prediction
decision tree
tree model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010388824.6A
Other languages
English (en)
Other versions
CN113709747A (zh
Inventor
张滨
娄涛
温暖
周莹
廖珺
廖奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202010388824.6A priority Critical patent/CN113709747B/zh
Publication of CN113709747A publication Critical patent/CN113709747A/zh
Application granted granted Critical
Publication of CN113709747B publication Critical patent/CN113709747B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供了一种骚扰号码识别方法、装置、计算机设备和存储介质。本发明实施例提供的技术方案中,将获取的待识别号码输入预先训练的第一决策树模型,输出多个第一决策树对应的第一预测标签;通过第一决策树对多个第一预测标签进行投票,生成票数最多的第一预测标签;将票数最多的第一预测标签确定为第一骚扰号码识别结果;将获取的待识别号码输入预先训练的第二决策树模型,输出多个第二决策树对应的第二预测标签;通过第二决策树对多个第二预测标签进行投票,生成票数最多的第二预测标签;将票数最多的第二预测标签确定为第二骚扰号码识别结果,通过对预测标签进行投票,提高识别骚扰号码的准确率。

Description

一种骚扰号码识别方法、装置、计算机设备和存储介质
【技术领域】
本发明涉及通信技术领域,尤其涉及一种骚扰号码识别方法、装置、计算机设备和存储介质。
【背景技术】
随着科技的发展和人民生活水平的提高,人们越来越离不开手机带给我们的便利,但是也不可避免地会接到各种各样的骚扰电话。现有技术方案主要是通过收集骚扰号码和正常号码作为算法学习的输入数据,构建分类模型。这种方案的输入数据较为单一且不能得到充分利用,导致骚扰号码的查准率偏低。
【发明内容】
有鉴于此,本发明实施例提供了一种骚扰号码识别方法、装置、计算机设备和存储介质,可以提高识别骚扰号码的准确率。
一方面,本发明实施例提供了一种骚扰号码识别方法,所述方法包括:
将获取的待识别号码输入预先训练的第一决策树模型,输出多个第一决策树对应的第一预测标签,第一决策树与第一预测标签一一对应;
通过第一决策树对多个第一预测标签进行投票,生成票数最多的第一预测标签;
将票数最多的第一预测标签确定为第一骚扰号码识别结果;
将获取的待识别号码输入预先训练的第二决策树模型,输出多个第二决策树对应的第二预测标签,第二决策树与第二预测标签一一对应;
通过第二决策树对多个第二预测标签进行投票,生成票数最多的第二预测标签;
将票数最多的第二预测标签确定为第二骚扰号码识别结果。
可选地,在将获取的待识别号码输入预先训练的第一决策树模型,输出第一预测标签之前,还包括:
将获取的第一样本数据划分为第一训练集和第一袋外数据;
基于类bagging算法,根据第一训练集,构建第一树模型,第一树模型包括模型参数;
通过网格搜索算法,对第一树模型的模型参数进行调整,生成初始第一决策树模型;将第一袋外数据输入初始第一决策树模型,输出第一预测准确率;
将第一预测准确率大于第一准确率阈值的初始第一决策树模型作为第一决策树模型。
可选地,在将获取的待识别号码输入预先训练的第二决策树模型,输出第二预测标签之前,还包括:
将获取的第二样本数据划分为第二训练集和第二袋外数据;
基于类bagging算法,根据第二训练集,构建第二树模型,第二树模型包括模型参数;
通过网格搜索算法,对第二树模型的模型参数进行调整,生成初始第二决策树模型;
将第二袋外数据输入初始第二决策树模型,输出第二预测准确率;
将第二预测准确率大于第二准确率阈值的初始第二决策树模型作为第二决策树模型。
可选地,在将获取的第一样本数据划分为第一训练集和第一袋外数据之前,还包括:
获取白号码、灰号码、第一黑号码和第一黑号码的第一被叫侧指标数据;
根据统计出的第一黑号码的数量、白号码的数量和灰号码的数量,生成第一号码比例值;
通过独立成分分析算法,根据第一被叫侧指标数据,生成第一特征数据;
若判断出第一号码比例值大于第一比例阈值,通过不平衡分类算法,根据第一特征数据、白号码、灰号码和第一黑号码,生成第一样本数据,第一样本数据包括白号码、灰号码、第一黑号码、第一样本增加量和第一特征指标。
可选地,在将获取的第二样本数据划分为第二训练集和第二袋外数据之前,还包括:
获取白号码、灰号码、第二黑号码和第二黑号码的第二被叫侧指标数据;
根据统计出的第二黑号码的数量、白号码的数量和灰号码的数量,生成第二号码比例值;
通过独立成分分析算法,根据第二被叫侧指标数据,生成第二特征数据;
若判断出第二号码比例值大于第二比例阈值,通过不平衡分类算法,根据第二特征数据、白号码、灰号码和第二黑号码,生成第二样本数据,第二样本数据包括白号码、灰号码、第二黑号码、第二样本增加量和第二特征指标。
可选地,还包括:
根据预先获取的通话话单,计算出入黑号段的入黑占比;
判断入黑占比是否大于入黑比例阈值;
若判断出入黑占比大于入黑比例阈值,获取拦截号段;
判断拦截号段中是否包括入黑号段;
若判断出拦截号段中包括入黑号段,将入黑号段确定为类骚扰号段;
获取类骚扰号段对应的黑号码和黑号码的号码信息,号码信息包括入黑时间;
将入黑时间大于预先设置的采集时间终点的黑号码确定为第一黑号码;
将入黑时间小于或等于预先设置的采集时间终点的黑号码确定为第二黑号码。
可选地,在根据预先获取的通话话单,计算出入黑号段的入黑占比之前,还包括:
获取在预设周期内黑名单中增加的入黑号段;
根据入黑号段,统计出在指定第一时间内入黑号段的周期增长量;
判断统计出的入黑号段的数量是否大于新增阈值或周期增长量是否大于周期增长阈值;
若判断出统计出的入黑号段的数量大于新增阈值或周期增长量大于周期增长阈值,获取高占比号段;
判断高占比号段是否包括入黑号段;
若判断出高占比号段包括入黑号段,获取入黑号段在指定第二时间内的通话话单。
另一方面,本发明实施例提供了一种骚扰号码识别装置,包括:
第一输出单元,用于将获取的待识别号码输入预先训练的第一决策树模型,输出多个第一决策树对应的第一预测标签,第一决策树与第一预测标签一一对应;
第一生成单元,用于通过第一决策树对多个第一预测标签进行投票,生成票数最多的第一预测标签;
第一确定单元,用于将票数最多的第一预测标签确定为第一骚扰号码识别结果;
第二输出单元,用于将获取的待识别号码输入预先训练的第二决策树模型,输出多个第二决策树对应的第二预测标签,第二决策树与第二预测标签一一对应;
第二生成单元,用于通过第二决策树对多个第二预测标签进行投票,生成票数最多的第二预测标签;
第二确定单元,用于将票数最多的第二预测标签确定为第二骚扰号码识别结果。
另一方面,本发明实施例提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述骚扰号码识别方法。
另一方面,本发明实施例提供了一种计算机设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,其特征在于,所述程序指令被处理器加载并执行时实现上述骚扰号码识别方法。
本发明实施例的方案中,将获取的待识别号码输入预先训练的第一决策树模型,输出多个第一决策树对应的第一预测标签,第一决策树与第一预测标签一一对应;通过第一决策树对多个第一预测标签进行投票,生成票数最多的第一预测标签;将票数最多的第一预测标签确定为第一骚扰号码识别结果;将获取的待识别号码输入预先训练的第二决策树模型,输出多个第二决策树对应的第二预测标签,第二决策树与第二预测标签一一对应;通过第二决策树对多个第二预测标签进行投票,生成票数最多的第二预测标签;将票数最多的第二预测标签确定为第二骚扰号码识别结果,通过对预测标签进行投票,提高识别骚扰号码的准确率。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种骚扰号码识别方法的流程图;
图2为本发明实施例提供的又一种骚扰号码识别方法的流程图;
图3为本发明实施例提供的一种骚扰号码识别装置的结构示意图;
图4为本发明实施例提供的一种计算机设备的示意图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二等来描述设定阈值,但这些设定阈值不应限于这些术语。这些术语仅用来将设定阈值彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一设定阈值也可以被称为第二设定阈值,类似地,第二设定阈值也可以被称为第一设定阈值。
图1为本发明实施例提供的一种骚扰号码识别方法的流程图,如图1所示,该方法包括:
步骤101、将获取的待识别号码输入预先训练的第一决策树模型,输出多个第一决策树对应的第一预测标签,第一决策树与第一预测标签一一对应。
步骤102、通过第一决策树对多个第一预测标签进行投票,生成票数最多的第一预测标签。
步骤103、将票数最多的第一预测标签确定为第一骚扰号码识别结果。
步骤104、将获取的待识别号码输入预先训练的第二决策树模型,输出多个第二决策树对应的第二预测标签,第二决策树与第二预测标签一一对应。
步骤105、通过第二决策树对多个第二预测标签进行投票,生成票数最多的第二预测标签。
步骤106、将票数最多的第二预测标签确定为第二骚扰号码识别结果。
本实施例中,步骤101至步骤103与步骤104至步骤106之间的先后执行顺序不做限定,即:可以先执行步骤101至步骤103,再执行步骤104至步骤106;也可以先执行步骤104至步骤106,再执行步骤101至步骤103。
本发明实施例提供的技术方案中,将获取的待识别号码输入预先训练的第一决策树模型,输出多个第一决策树对应的第一预测标签,第一决策树与第一预测标签一一对应;通过第一决策树对多个第一预测标签进行投票,生成票数最多的第一预测标签;将票数最多的第一预测标签确定为第一骚扰号码识别结果;将获取的待识别号码输入预先训练的第二决策树模型,输出多个第二决策树对应的第二预测标签,第二决策树与第二预测标签一一对应;通过第二决策树对多个第二预测标签进行投票,生成票数最多的第二预测标签;将票数最多的第二预测标签确定为第二骚扰号码识别结果,通过对预测标签进行投票,提高识别骚扰号码的准确率。
图2为本发明实施例提供的又一种骚扰号码识别方法的流程图,如图2所示,该方法包括:
步骤201、获取在预设周期内黑名单中增加的入黑号段。
本实施例中,各步骤由服务器执行。
本实施例中,预设周期可根据实际情况进行设置。作为一种可选方案,预设周期为6个月。
本实施例中,入黑号段包括黑名单中的黑号码的号段。其中,若黑号码为手机号码,则号段为手机号码的前3位,例如:157开头的号码;若黑号码为固定号码,则号段为号码的前2位,例如:95开头的号码。
步骤202、判断入黑号段是否符合预先设置的类骚扰条件,若是,执行步骤203;若否,流程结束。
本步骤中,若判断出入黑号段符合预先设置的类骚扰条件,表明具有入黑号段的号码较大可能为骚扰号码,继续执行步骤203;若判断出入黑号段不符合预先设置的类骚扰条件,表明具有该入黑号段的号码不是骚扰号码,流程结束。
本实施例中,步骤202具体包括:
步骤2021、根据入黑号段,统计出在指定第一时间内入黑号段的周期增长量。
本实施例中,指定第一时间可根据实际情况进行设置。作为一种可选方案,指定第一时间为1天。
例如:统计出第一天的周期增长量为7、第二天的周期增长量为8、第三天的周期增长量为9、第四天的周期增长量为5、第五天的周期增长量为7、第六天的周期增长量为10。
步骤2022、判断统计出的入黑号段的数量是否大于新增阈值或周期增长量是否大于周期增长阈值,若是,执行步骤2023;若否,流程结束。
本实施例中,新增阈值可根据实际情况进行设置。作为一种可选方案,新增阈值为30。
本实施例中,周期增长阈值可根据实际情况进行设置。作为一种可选方案,周期增长阈值为四分之一分位数为10。
本实施例中,若判断出入黑号段的数量大于新增阈值,表明入黑量居高不下;若判断出周期增长量大于周期增长阈值,表明入黑量稳步上升。例如:新增阈值为30,入黑号段的数量为40,则入黑号段的数量大于新增阈值,表明入黑量居高不下;周期增长阈值为四分之一分位数为10,升序排序后的周期增长量为5、7、10、8、7、9,则周期增长量的四分之一分位数为6.5,小于周期增长阈值,表明入黑量没有稳步上升。
本步骤中,若判断出统计出的入黑号段的数量大于新增阈值或周期增长量大于周期增长阈值,表明具有该入黑号段的号码可能为骚扰号码,继续执行步骤2023;若判断出统计出的入黑号段的数量小于或等于新增阈值且周期增长量小于或等于周期增长阈值,表明具有该入黑号段的号码不是骚扰号码,流程结束。
步骤2023、获取高占比号段。
本实施例中,将每个号段的号码数量除以号码总数量,生成多个号段对应的号段占比;对多个号段占比进行降序排列;将排序靠前的指定数量的号段占比对应的号段确定为高占比号段。作为一种可选方案,指定数量为3。
步骤2024、判断高占比号段是否包括入黑号段,若是,执行步骤2025;若否,流程结束。
本步骤中,若判断出高占比号段包括入黑号段,表明具有该入黑号段的号码可能为骚扰号码,继续执行步骤2025;若判断出高占比号段不包括入黑号段,表明具有该入黑号段的号码不是骚扰号码,流程结束。
步骤2025、获取入黑号段在指定第二时间内的通话话单。
本实施例中,指定第二时间可根据实际情况进行设置。作为一种可选方案,指定第二时间为1天。
步骤2026、根据通话话单,计算出入黑号段的入黑占比。
本实施例中,统计出指定第二时间内增加的入黑号段的总数量和每个入黑号段的数量;将每个入黑号段的数量除以入黑号段的总数量,计算出每个入黑号段的入黑占比。
步骤2027、判断入黑占比是否大于入黑比例阈值,若是,执行步骤2028;若否,流程结束。
本实施例中,入黑比例阈值可根据实际情况进行设置。作为一种可选方案,入黑比例阈值为5%。
本步骤中,若判断出入黑占比大于入黑比例阈值,表明具有该入黑号段的号码可能为骚扰号码,继续执行步骤2028;若判断出入黑占比小于或等于入黑比例阈值,表明具有该入黑号段的号码不是骚扰号码,流程结束。
步骤2028、获取拦截号段。
具体地,获取多个用户自定义设置的黑色号段;统计每个黑色号段的数量;对每个黑色号段的数量进行降序排列;将排序靠前的指定数量的黑色号段的数量对应的号段确定为拦截号段。作为一种可选方案,指定数量为5。
步骤2029、判断拦截号段中是否包括入黑号段,若是,执行步骤203;若否,流程结束。
本步骤中,若判断出拦截号段中包括入黑号段,表明具有该入黑号段的号码可能为骚扰号码,继续执行步骤203;若判断出拦截号段中不包括入黑号段,表明具有该入黑号段的号码不是骚扰号码,流程结束。
步骤203、将入黑号段确定为类骚扰号段。
本实施例中,将入黑号段确定为类骚扰号段,具有该入黑号段的号码较大可能为骚扰号码。
步骤204、获取类骚扰号段对应的黑号码和黑号码的号码信息,号码信息包括入黑时间。
本实施例中,入黑时间包括该号码进入黑名单的时间。
本实施例中,除入黑时间之外,号码信息还包括策略发现时间和出现标记时间。策略发现时间为使用高频策略发现号码的时间,其中,高频策略为筛选出在指定时间内外呼次数大于预设外呼次数的号码,作为一种可选方案,指定时间为1天,预设外呼次数为100次。出现标记时间为号码被标记的时间,其中,号码标记包括但不限于外卖、快递、出租车、疑似诈骗、骚扰、违法犯罪、广告推销或者响一声。出现标记时间和号码标记来源于第三方平台,作为一种可选方案,第三方平台为分类标记库。
步骤205、判断入黑时间是否大于预先设置的采集时间终点,若是,执行步骤206;若否,执行步骤222。
本实施例中,设置采集黑号码的采集时间周期,采集时间周期包括采集时间起点和采集时间终点。作为一种可选方案,采集时间周期设置为以黑号码的入黑时间为中点的前后10天。例如:黑号码的入黑时间为2019年4月15日,则采集号码时间起点为2019年4月5日,采集号码时间终点为2019年4月25日。
本步骤中,若判断出入黑时间大于预先设置的采集时间终点,表明该黑号码的潜伏周期较长,继续执行步骤206;若判断出入黑时间小于或等于预先设置的采集时间终点,表明该黑号码的潜伏周期较短,继续执行步骤222。
步骤206、将黑号码确定为第一黑号码。
本实施例中,第一黑号码为潜伏周期较长的号码。
步骤207、获取白号码、灰号码、第一黑号码和第一黑号码的第一被叫侧指标数据。
本实施例中,白号码为正常号码,例如:移动员工号码;灰号码为其它号码,例如:外卖号码、快递号码或出租车号码。
本实施例中,灰号码与其它号码在呼出频次、生命周期、号段稳定性、号段性质、接通率和通话时长特征方面具有差异,例如:灰号码的呼出频次以中频为主,比白号码的呼出频次多,比黑号码的呼出码频次少、灰号码的接通率比黑号码的接通率高、灰号码的通话时长比白号码的通话时长短、灰号码的生命周期比黑号码的生命周期长(即:灰号码的使用时长较长;黑号码的使用时长较短)、灰号码的号段稳定性比黑号码的号段稳定性高(即:灰号码的号段比较稳定,基本不发生变化;黑号码的号段不稳定,号段呈周期性变化)、灰号码的号段性质为较为常用的老号段,黑号码的号段性质为价格低、功能少的上网卡号段。
本实施例中,第一黑号码的第一被叫侧指标数据是根据第一黑号码的业务话单采集到的。其中,第一被叫测指标数据包括但不限于通话时长、主叫号码、被叫号码、呼叫频次、接通率和接通时间。
步骤208、根据统计出的第一黑号码的数量、白号码的数量和灰号码的数量,生成第一号码比例值。
本实施例中,步骤208具体包括:
步骤2081、从第一黑号码的数量、白号码的数量和灰号码的数量中筛选出最大值和最小值。
步骤2082、将最小值除以最大值,生成第一号码比例值。
步骤209、通过独立成分分析算法,根据第一被叫侧指标数据,生成第一特征数据。
具体地,将第一被叫侧指标数据输入独立成分分析算法进行降维,输出第一特征数据。
作为一种可选方案,将第一被叫测指标数据输入集成学习算法进行特征重要性分析,输出第一特征数据。
进一步地,将第一被叫侧指标数据进行保存。
本实施例中,采用独立成分分析算法对数据进行降维,独立成分分析算法既可以处理高斯分布数据,也可以处理非高斯分布数据,对数据的包容性较高。
本实施例中,采用集成学习算法进行特征重要性分析,可以避免局限单一的降维处理技术造成数据利用不充分,可以提高数据的利用率,进而提高识别骚扰号码的准确性。
步骤210、判断第一号码比例值是否大于第一比例阈值,若是,执行步骤213;若否,执行步骤211。
本实施例中,第一比例阈值是预先设置的。作为一种可选方案,第一比例阈值为1/5。
本步骤中,若判断出第一号码比例值大于第一比例阈值,表明第一黑号码、白号码和灰号码三种号码之间的数据不平衡,继续执行步骤213;若判断出第一号码比例值小于或等于第一比例阈值,表明第一黑号码、白号码和灰号码三种号码之间的数据平衡,继续执行步骤211。
步骤211、通过指定异常值检测算法,对白号码、灰号码、第一黑号码和第一特征数据进行检测分析,生成第一骚扰号码识别模型。
本实施例中,步骤211具体包括:
步骤2111、将白号码、灰号码和第一特征数据划分为第一平衡训练集和第一平衡测试集。
步骤2112、将第一平衡训练集输入孤立森林(Isolation Forest,简称:iForest)模型进行训练,生成第一初始识别模型和第一评估指标,继续执行步骤2115。
进一步地,将第一平衡测试集输入第一初始识别模型,输出第一预测结果和第一异常值评分系数。第一预测结果包括-1或1,其中,输出-1代表该号码不是骚扰号码;输出1代表该号码是骚扰号码。
步骤2113、将白号码、灰号码和第一黑号码划分为第二平衡训练集和第二平衡测试集。
步骤2114、将第二平衡训练集输入一类支持向量机(one-class SVM)模型进行训练,生成第二初始识别模型和第二评估指标。
进一步地,将第二平衡测试集输入第二初始识别模型,输出第二预测结果和第二异常值评分系数。第二预测结果包括-1或1,其中,输出-1代表该号码不是骚扰号码;输出1代表该号码是骚扰号码。
步骤2115、对第一评估指标和第二评估指标进行比较,将比较出的较大的评估指标对应的初始识别模型为第一骚扰号码识别模型。
本实施例中,步骤2111至步骤2112与步骤2113至步骤2114之间的先后执行顺序不做限定,即:可以先执行步骤2111至步骤2112,再执行步骤2113至步骤2114;也可以先执行步骤2113至步骤2114,再执行步骤2111至步骤2112。
步骤212、将获取的待识别号码输入第一骚扰号码识别模型,输出第一识别结果,流程结束。
本实施例中,步骤212具体包括:
步骤2121、将待识别号码输入第一骚扰号码识别模型,输出平均路径长度。
步骤2122、判断平均路径长度是否大于预设长度阈值,若是,执行步骤2123;若否,执行步骤2124。
本实施例中,根据异常值评分系数和异常比例值计算出预设长度阈值,其中,异常值评分系数可根据训练第一骚扰号码识别模型的过程中输出得到,异常比例值可根据第一黑号码的数量除以号码总数量计算得到。
本步骤中,若判断出平均路径长度大于预设长度阈值,表明待识别号码为骚扰号码;若判断出平均路径长度小于或等于预设长度阈值,表明待识别号码不是骚扰号码。
步骤2123、将待识别号码确定为骚扰号码。
步骤2124、将待识别号码确定为正常号码。
步骤213、通过不平衡分类算法,根据第一特征数据、白号码、灰号码和第一黑号码,生成第一样本数据,第一样本数据包括白号码、灰号码、第一黑号码、第一样本增加量和第一特征指标。
本实施例中,步骤213具体包括:
步骤2131、通过自适应综合过采样(ADASYN)算法,根据第一特征数据、第一黑号码、白号码和灰号码,生成第一样本增加量。
具体地,将第一特征数据、第一黑号码、白号码和灰号码输入ADASYN算法,输出第一样本增加量。
步骤2132、通过xgboost集成算法,根据第一特征数据、第一样本增加量、第一黑号码、白号码和灰号码,生成第一特征指标。
具体地,将第一特征数据、第一样本增加量、第一黑号码、白号码和灰号码输入xgboost集成算法,输出第一特征指标。
作为一种可选方案,第一特征指标的数量为10个。
步骤2133、将白号码、灰号码、第一黑号码、第一样本增加量和第一特征指标确定为第一样本数据。
步骤214、将第一样本数据划分为第一训练集和第一袋外数据。
作为一种可选方案,按照8:2的比例将第一样本数据划分为第一训练集和第一袋外数据。
步骤215、基于类bagging算法,根据第一训练集,构建第一树模型,第一树模型包括模型参数。
具体地,从第一训练集中多次随机抽取n个样本以及m个特征;根据n个样本和m个特征构建第一树模型。其中,n和m的取值可根据实际情况进行设置。
本实施例中,模型参数包括但不限于内部节点再划分所需最小样本数(min_samples_split)、叶子节点最小样本数(min_samples_leaf)、树的最大深度(max_depth)。
步骤216、通过网格搜索算法,对第一树模型的模型参数进行调整,生成初始第一决策树模型。
本实施例中,每个模型参数包括对应的预设参数值。
具体地,通过网格搜索算法遍历每个模型参数对应的预设参数值,以获得最优参数值组合。
本实施例中,按照不同号码的数量比例采用不同的方法进行处理,保证了数据本身分布情况保持不变,进而可以提高识别骚扰号码的准确性。
步骤217、将第一袋外数据输入初始第一决策树模型,输出第一预测准确率。
步骤218、将第一预测准确率大于第一准确率阈值的初始第一决策树模型作为第一决策树模型。
本实施例中,第一准确率阈值可根据实际情况进行设置。作为一种可选方案,第一准确率阈值为80%。
步骤219、将获取的待识别号码输入第一决策树模型,输出多个第一决策树对应的第一预测标签,第一决策树与第一预测标签一一对应。
本实施例中,第一预测标签包括0、1或2。其中第一预测标签为0表示预测待识别号码为正常号码,第一预测标签为1表示预测待识别号码为骚扰号码、第一预测标签为2表示预测待识别号码为其它号码。
步骤220、通过第一决策树对多个第一预测标签进行投票,生成票数最多的第一预测标签。
具体地,按照以下公式对多个第一预测标签进行投票:
其中,为第一预测标签为0的票数、/>为第一预测标签为1的票数,/>为第一预测标签为2的票数。
本实施例中,当第i棵树的预测标签为0时,xi记为1,不为0时记为0;当第j棵树的预测标签为1时,yj记为1,不为1时记为0;当第l棵树的预测标签为2时,zl记为1,不为2时记为0。
步骤221、将票数最多的第一预测标签确定为第一骚扰号码识别结果,流程结束。
本实施例中,若票数最多的第一预测标签为0,表明待识别号码为正常号码,第一骚扰号码识别结果为正常号码;若票数最多的第一预测标签为1,表明待识别号码为骚扰号码,第一骚扰号码识别结果为骚扰号码;若票数最多的第一预测标签为2,表明待识别号码为其它号码,第一骚扰号码识别结果为其它号码。
步骤222、将黑号码确定为第二黑号码。
本实施例中,第二黑号码为潜伏周期较短的号码。
步骤223、获取白号码、灰号码、第二黑号码和第二黑号码的第二被叫侧指标数据。
本实施例中,第二黑号码的第二被叫侧指标数据是根据第二黑号码的业务话单采集到的。其中,第二被叫测指标数据包括但不限于通话时长、主叫号码、被叫号码、呼叫频次、接通率和接通时间。
步骤224、根据统计出的第二黑号码的数量、白号码的数量和灰号码的数量,生成第二号码比例值。
本实施例中,步骤224具体包括:
步骤2241、从第二黑号码的数量、白号码的数量和灰号码的数量中筛选出最大值和最小值。
步骤2242、将最小值除以最大值,生成第二号码比例值
步骤225、通过独立成分分析算法,根据第二被叫侧指标数据,生成第二特征数据。
具体地,将第二被叫侧指标数据输入独立成分分析算法进行降维,输出第二特征数据。
作为一种可选方案,将第二被叫测指标数据输入集成学习算法进行特征重要性分析,输出第二特征数据。
进一步地,将第二被叫侧指标数据进行保存。
本实施例中,采用独立成分分析算法对数据进行降维,独立成分分析算法既可以处理高斯分布数据,也可以处理非高斯分布数据,对数据的包容性较高。
本实施例中,采用集成学习算法进行特征重要性分析,可以避免局限单一的降维处理技术造成数据利用不充分,可以提高数据的利用率,进而提高识别骚扰号码的准确性。
步骤226、判断第二号码比例值是否大于第二比例阈值,若是,执行步骤229;若否,执行步骤227。
本实施例中,第二比例阈值是预先设置的。作为一种可选方案,第二比例阈值为1/5。
本步骤中,若判断出第二号码比例值大于第二比例阈值,表明第二黑号码、白号码和灰号码三种号码之间的数据不平衡,继续执行步骤229;若判断出第二号码比例值小于或等于第二比例阈值,表明第二黑号码、白号码和灰号码三种号码之间的数据平衡,继续执行步骤227。
步骤227、通过指定异常值检测算法,对白号码、灰号码、第二黑号码和第二特征数据进行检测分析,生成第二骚扰号码识别模型。
本实施例中,步骤227具体包括:
步骤2271、将白号码、灰号码和第二特征数据划分为第三平衡训练集和第四平衡测试集。
步骤2272、将第三平衡训练集输入iForest模型进行训练,生成第三初始识别模型和第三评估指标,继续执行步骤2275。
进一步地,将第三平衡测试集输入第三初始识别模型,输出第三预测结果和第三异常值评分系数。第三预测结果包括-1或1,其中,输出-1代表该号码不是骚扰号码;输出1代表该号码是骚扰号码。
步骤2273、将白号码、灰号码和第二黑号码划分为第四平衡训练集和第四平衡测试集。
步骤2274、将第四平衡训练集输入一类支持向量机(one-class SVM)模型进行训练,生成第四初始识别模型和第四评估指标。
进一步地,将第四平衡测试集输入第四初始识别模型,输出第四预测结果和第四异常值评分系数。第四预测结果包括-1或1,其中,输出-1代表该号码不是骚扰号码;输出1代表该号码是骚扰号码。
步骤2275、对第三评估指标和第四评估指标进行比较,将比较出的较大的评估指标对应的初始识别模型为第二骚扰号码识别模型。
本实施例中,步骤2271至步骤2272与步骤2273至步骤2274之间的先后执行顺序不做限定,即:可以先执行步骤2271至步骤2272,再执行步骤2273至步骤2274;也可以先执行步骤2273至步骤2274,再执行步骤2271至步骤2272。
步骤228、将获取的待识别号码输入第二骚扰号码识别模型,输出第二识别结果,流程结束。
本实施例中,步骤228具体包括:
步骤2281、将待识别号码输入第二骚扰号码识别模型,输出平均路径长度。
步骤2282、判断平均路径长度是否大于预设长度阈值,若是,执行步骤2283;若否,执行步骤2284。
本实施例中,根据异常值评分系数和异常比例值计算出预设长度阈值,其中,异常值评分系数可根据训练第二骚扰号码识别模型的过程中输出得到,异常比例值可根据第二黑号码的数量除以号码总数量计算得到。本步骤中,若判断出平均路径长度大于预设长度阈值,表明待识别号码为骚扰号码;若判断出平均路径长度小于或等于预设长度阈值,表明待识别号码不是骚扰号码。
步骤2283、将待识别号码确定为骚扰号码。
步骤2284、将待识别号码确定为正常号码。
步骤229、通过不平衡分类算法,根据第二特征数据、白号码、灰号码和第二黑号码,生成第二样本数据,第二样本数据包括白号码、灰号码、第二黑号码、第二样本增加量和第二特征指标。
本实施例中,步骤229具体包括:
步骤2291、通过ADASYN算法,根据第二特征数据、第二黑号码、白号码和灰号码,生成第二样本增加量。
具体地,将第二特征数据、第二黑号码、白号码和灰号码输入ADASYN算法,输出第二样本增加量。
步骤2292、通过xgboost集成算法,根据第二特征数据、第二样本增加量、第二黑号码、白号码和灰号码,生成第二特征指标。
具体地,将第二特征数据、第二样本增加量、第二黑号码、白号码和灰号码输入xgboost集成算法,输出第二特征指标。
作为一种可选方案,第二特征指标的数量为10个。
步骤2293、将白号码、灰号码、第二黑号码、第二样本增加量和第二特征指标确定为第二样本数据。
步骤230、将第二样本数据划分为第二训练集和第二袋外数据。
作为一种可选方案,按照8:2的比例将第二样本数据划分为第二训练集和第二袋外数据。
步骤231、基于类bagging算法,根据第二训练集,构建第二树模型,第二树模型包括模型参数。
具体地,从第二训练集中多次随机抽取n个样本以及m个特征;根据n个样本和m个特征构建第二树模型。其中,n和m的取值可根据实际情况进行设置。
本实施例中,模型参数包括但不限于min_samples_split、min_samples_leaf、max_depth。
步骤232、通过网格搜索算法,对第二树模型的模型参数进行调整,生成初始第二决策树模型。
本实施例中,每个模型参数包括对应的预设参数值。
具体地,通过网格搜索算法遍历每个模型参数对应的预设参数值,以获得最优参数值组合。
步骤233、将第二袋外数据输入初始第二决策树模型,输出第二预测准确率。
步骤234、将第二预测准确率大于第二准确率阈值的初始第二决策树模型作为第二决策树模型。
本实施例中,第二准确率阈值可根据实际情况进行设置。作为一种可选方案,第二准确率阈值为80%。
本实施例中,按照不同号码的数量比例采用不同的方法进行处理,保证了数据本身分布情况保持不变,进而可以提高识别骚扰号码的准确性。
步骤235、将获取的待识别号码输入第二决策树模型,输出多个第二决策树对应的第二预测标签,第二决策树与第二预测标签一一对应。
本实施例中,第二预测标签包括0、1或2。其中第二预测标签为0表示预测待识别号码为正常号码,第二预测标签为1表示预测待识别号码为骚扰号码、第二预测标签为2表示预测待识别号码为其它号码。
步骤236、通过第二决策树对多个第二预测标签进行投票,生成票数最多的第二预测标签。
具体地,按照以下公式对多个第二预测标签进行投票:
其中,为第二预测标签为0的票数、/>为第二预测标签为1的票数,/>为第二预测标签为2的票数。
本实施例中,当第i棵树的预测标签为0时,xi记为1,不为0时记为0;当第j棵树的预测标签为1时,yj记为1,不为1时记为0;当第l棵树的预测标签为2时,zl记为1,不为2时记为0。
步骤237、将票数最多的第二预测标签确定为第二骚扰号码识别结果,流程结束。
本实施例中,若票数最多的第二预测标签为0,表明待识别号码为正常号码,第二骚扰号码识别结果为正常号码;若票数最多的第二预测标签为1,表明待识别号码为骚扰号码,第二骚扰号码识别结果为骚扰号码;若票数最多的第二预测标签为2,表明待识别号码为其它号码,第二骚扰号码识别结果为其它号码。
本实施例中,步骤206至步骤221与步骤222至步骤237之间的先后执行顺序不做限定,即:可以先执行步骤206至步骤221,再执行步骤222至步骤237;也可以先执行步骤222至步骤237,再执行步骤206至步骤221。
本实施例中,对于潜伏周期长的黑号码和潜伏周期短的黑号码分别进行分析,可以排除在部分黑号码进入黑名单后被拦截的无效行为数据,进而提高了识别骚扰号码的准确性。
本发明实施例提供的骚扰号码识别方法的技术方案中,将获取的待识别号码输入预先训练的第一决策树模型,输出多个第一决策树对应的第一预测标签,第一决策树与第一预测标签一一对应;通过第一决策树对多个第一预测标签进行投票,生成票数最多的第一预测标签;将票数最多的第一预测标签确定为第一骚扰号码识别结果;将获取的待识别号码输入预先训练的第二决策树模型,输出多个第二决策树对应的第二预测标签,第二决策树与第二预测标签一一对应;通过第二决策树对多个第二预测标签进行投票,生成票数最多的第二预测标签;将票数最多的第二预测标签确定为第二骚扰号码识别结果,通过对预测标签进行投票,提高识别骚扰号码的准确率。
图3为本发明实施例提供的一种骚扰号码识别装置的结构示意图,该装置用于执行上述骚扰号码识别方法,如图3所示,该装置包括:第一输出单元11、第一生成单元12、第一确定单元13、第二输出单元14、第二生成单元15和第二确定单元16。
第一输出单元11用于将获取的待识别号码输入预先训练的第一决策树模型,输出多个第一决策树对应的第一预测标签,第一决策树与第一预测标签一一对应。
第一生成单元12用于通过第一决策树对多个第一预测标签进行投票,生成票数最多的第一预测标签。
第一确定单元13用于将票数最多的第一预测标签确定为第一骚扰号码识别结果。
第二输出单元14用于将获取的待识别号码输入预先训练的第二决策树模型,输出多个第二决策树对应的第二预测标签,第二决策树与第二预测标签一一对应。
第二生成单元15用于通过第二决策树对多个第二预测标签进行投票,生成票数最多的第二预测标签。
第二确定单元16用于将票数最多的第二预测标签确定为第二骚扰号码识别结果。
本发明实施例中,该装置还包括:第一划分单元17、第一构建单元18、第三生成单元19、第三输出单元20和第三确定单元21。
第一划分单元17用于将获取的第一样本数据划分为第一训练集和第一袋外数据。
第一构建单元18用于基于类bagging算法,根据第一训练集,构建第一树模型,第一树模型包括模型参数。
第三生成单元19用于通过网格搜索算法,对第一树模型的模型参数进行调整,生成初始第一决策树模型。
第三输出单元20用于将第一袋外数据输入初始第一决策树模型,输出第一预测准确率。
第三确定单元21用于将第一预测准确率大于第一准确率阈值的初始第一决策树模型作为第一决策树模型。
本发明实施例中,该装置还包括:第二划分单元22、第二构建单元23、第四生成单元24、第四输出单元25和第四确定单元26。
第二划分单元22用于将获取的第二样本数据划分为第二训练集和第二袋外数据。
第二构建单元23用于基于类bagging算法,根据第二训练集,构建第二树模型,第二树模型包括模型参数。
第四生成单元24用于通过网格搜索算法,对第二树模型的模型参数进行调整,生成初始第二决策树模型。
第四输出单元25用于将第二袋外数据输入初始第二决策树模型,输出第二预测准确率。
第四确定单元26用于将第二预测准确率大于第二准确率阈值的初始第二决策树模型作为第二决策树模型。
本发明实施例中,该装置还包括:第一获取单元27、第五生成单元28、第六生成单元29和第七生成单元30。
第一获取单元27用于获取白号码、灰号码、第一黑号码和第一黑号码的第一被叫侧指标数据。
第五生成单元28用于根据统计出的第一黑号码的数量、白号码的数量和灰号码的数量,生成第一号码比例值。
第六生成单元29用于通过独立成分分析算法,根据第一被叫侧指标数据,生成第一特征数据。
第七生成单元30用于若判断出第一号码比例值大于第一比例阈值,通过不平衡分类算法,根据第一特征数据、白号码、灰号码和第一黑号码,生成第一样本数据,第一样本数据包括白号码、灰号码、第一黑号码、第一样本增加量和第一特征指标。
本发明实施例中,该装置还包括:第二获取单元31、第八生成单元32、第九生成单元33和第十生成单元34。
第二获取单元31用于获取白号码、灰号码、第二黑号码和第二黑号码的第二被叫侧指标数据。
第八生成单元32用于根据统计出的第二黑号码的数量、白号码的数量和灰号码的数量,生成第二号码比例值。
第九生成单元33用于通过独立成分分析算法,根据第二被叫侧指标数据,生成第二特征数据。
第十生成单元34用于若判断出第二号码比例值大于第二比例阈值,通过不平衡分类算法,根据第二特征数据、白号码、灰号码和第二黑号码,生成第二样本数据,第二样本数据包括白号码、灰号码、第二黑号码、第二样本增加量和第二特征指标。
本发明实施例中,该装置还包括:
第一计算单元35用于根据预先获取的通话话单,计算出入黑号段的入黑占比。
第一判断单元36用于判断入黑占比是否大于入黑比例阈值。
第三获取单元37用于若判断出入黑占比大于入黑比例阈值,获取拦截号段。
第二判断单元38用于判断拦截号段中是否包括入黑号段。
第五确定单元39用于若判断出拦截号段中包括入黑号段,将入黑号段确定为类骚扰号段。
第四获取单元40用于获取类骚扰号段对应的黑号码和黑号码的号码信息,号码信息包括入黑时间。
第六确定单元41用于将入黑时间大于预先设置的采集时间终点的黑号码确定为第一黑号码。
第七确定单元42用于将入黑时间小于或等于预先设置的采集时间终点的黑号码确定为第二黑号码。
本发明实施例中,该装置还包括第五获取单元43、统计单元44、第二判断单元45、第六获取单元46、第三判断单元47和第七获取单元48。
第五获取单元43用于获取在预设周期内黑名单中增加的入黑号段。
统计单元44用于根据入黑号段,统计出在指定第一时间内入黑号段的周期增长量。
第二判断单元45用于判断统计出的入黑号段的数量是否大于新增阈值或周期增长量是否大于周期增长阈值。
第六获取单元46用于若判断出统计出的入黑号段的数量大于新增阈值或周期增长量大于周期增长阈值,获取高占比号段。
第三判断单元47用于判断高占比号段是否包括入黑号段。
第七获取单元48用于若判断出高占比号段包括入黑号段,获取入黑号段在指定第二时间内的通话话单。
本发明实施例的方案中,将获取的待识别号码输入预先训练的第一决策树模型,输出多个第一决策树对应的第一预测标签,第一决策树与第一预测标签一一对应;通过第一决策树对多个第一预测标签进行投票,生成票数最多的第一预测标签;将票数最多的第一预测标签确定为第一骚扰号码识别结果;将获取的待识别号码输入预先训练的第二决策树模型,输出多个第二决策树对应的第二预测标签,第二决策树与第二预测标签一一对应;通过第二决策树对多个第二预测标签进行投票,生成票数最多的第二预测标签;将票数最多的第二预测标签确定为第二骚扰号码识别结果,通过对预测标签进行投票,提高识别骚扰号码的准确率。
本发明实施例提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述骚扰号码识别方法的实施例的各步骤,具体描述可参见上述骚扰号码识别方法的实施例。
本发明实施例提供了一种计算机设备,包括存储器和处理器,存储器用于存储包括程序指令的信息,处理器用于控制程序指令的执行,程序指令被处理器加载并执行时实现上述骚扰号码识别方法的实施例的各步骤,具体描述可参见上述骚扰号码识别方法的实施例。
图4为本发明实施例提供的一种计算机设备的示意图。如图4所示,该实施例的计算机设备50包括:处理器51、存储器52以及存储在存储52中并可在处理器51上运行的计算机程序53,该计算机程序53被处理器51执行时实现实施例中的应用于骚扰号码识别方法,为避免重复,此处不一一赘述。或者,该计算机程序被处理器51执行时实现实施例中应用于骚扰号码识别装置中各模型/单元的功能,为避免重复,此处不一一赘述。
计算机设备50包括,但不仅限于,处理器51、存储器52。本领域技术人员可以理解,图4仅仅是计算机设备50的示例,并不构成对计算机设备50的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器51可以是中央处理单元(Central Proceing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital ignal Proceor,DP)、专用集成电路(Application pecific Integrated Circuit,AIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器52可以是计算机设备50的内部存储单元,例如计算机设备50的硬盘或内存。存储器52也可以是计算机设备50的外部存储设备,例如计算机设备50上配备的插接式硬盘,智能存储卡(mart Media Card,MC),安全数字(ecure Digital,D)卡,闪存卡(FlahCard)等。进一步地,存储器52还可以既包括计算机设备50的内部存储单元也包括外部存储设备。存储器52用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器52还可以用于暂时地存储已经输出或者将要输出的数据。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (9)

1.一种骚扰号码识别方法,其特征在于,所述方法包括:
将获取的待识别号码输入预先训练的第一决策树模型,输出多个第一决策树对应的第一预测标签,所述第一决策树与所述第一预测标签一一对应;
通过所述第一决策树对所述多个第一预测标签进行投票,生成票数最多的所述第一预测标签;
将票数最多的所述第一预测标签确定为第一骚扰号码识别结果;
将获取的待识别号码输入预先训练的第二决策树模型,输出多个第二决策树对应的第二预测标签,所述第二决策树与所述第二预测标签一一对应;
通过所述第二决策树对所述多个第二预测标签进行投票,生成票数最多的所述第二预测标签;
将票数最多的所述第二预测标签确定为第二骚扰号码识别结果;
在将获取的待识别号码输入预先训练的第一决策树模型,输出第一预测标签之前,还包括:
将获取的第一样本数据划分为第一训练集和第一袋外数据;
在将获取的第一样本数据划分为第一训练集和第一袋外数据之前,还包括:
获取白号码、灰号码、第一黑号码和第一黑号码的第一被叫侧指标数据;
根据统计出的第一黑号码的数量、所述白号码的数量和所述灰号码的数量,生成第一号码比例值;
通过独立成分分析算法,根据所述第一被叫侧指标数据,生成第一特征数据;
若判断出所述第一号码比例值大于第一比例阈值,通过不平衡分类算法,根据所述第一特征数据、所述白号码、所述灰号码和所述第一黑号码,生成第一样本数据,所述第一样本数据包括所述白号码、所述灰号码、所述第一黑号码、第一样本增加量和第一特征指标。
2.根据权利要求1所述的骚扰号码识别方法,其特征在于,在将获取的待识别号码输入预先训练的第一决策树模型,输出第一预测标签之前,还包括:
将获取的第一样本数据划分为第一训练集和第一袋外数据;
基于类bagging算法,根据所述第一训练集,构建第一树模型,所述第一树模型包括模型参数;
通过网格搜索算法,对所述第一树模型的模型参数进行调整,生成初始第一决策树模型;
将所述第一袋外数据输入所述初始第一决策树模型,输出第一预测准确率;
将所述第一预测准确率大于第一准确率阈值的初始第一决策树模型作为第一决策树模型。
3.根据权利要求1所述的骚扰号码识别方法,其特征在于,在将获取的待识别号码输入预先训练的第二决策树模型,输出第二预测标签之前,还包括:
将获取的第二样本数据划分为第二训练集和第二袋外数据;
基于类bagging算法,根据所述第二训练集,构建第二树模型,所述第二树模型包括模型参数;
通过网格搜索算法,对所述第二树模型的模型参数进行调整,生成初始第二决策树模型;
将所述第二袋外数据输入所述初始第二决策树模型,输出第二预测准确率;
将所述第二预测准确率大于第二准确率阈值的初始第二决策树模型作为第二决策树模型。
4.根据权利要求3所述的骚扰号码识别方法,其特征在于,在将获取的第二样本数据划分为第二训练集和第二袋外数据之前,还包括:
获取白号码、灰号码、第二黑号码和第二黑号码的第二被叫侧指标数据;
根据统计出的第二黑号码的数量、所述白号码的数量和所述灰号码的数量,生成第二号码比例值;
通过独立成分分析算法,根据所述第二被叫侧指标数据,生成第二特征数据;
若判断出所述第二号码比例值大于第二比例阈值,通过不平衡分类算法,根据所述第二特征数据、所述白号码、所述灰号码和所述第二黑号码,生成第二样本数据,所述第二样本数据包括所述白号码、所述灰号码、所述第二黑号码、第二样本增加量和第二特征指标。
5.根据权利要求4所述的骚扰号码识别方法,其特征在于,还包括:
根据预先获取的通话话单,计算出入黑号段的入黑占比;
判断所述入黑占比是否大于入黑比例阈值;
若判断出所述入黑占比大于所述入黑比例阈值,获取拦截号段;
判断所述拦截号段中是否包括所述入黑号段;
若判断出所述拦截号段中包括所述入黑号段,将所述入黑号段确定为类骚扰号段;
获取类骚扰号段对应的黑号码和所述黑号码的号码信息,所述号码信息包括入黑时间;
将所述入黑时间大于预先设置的采集时间终点的黑号码确定为第一黑号码;
将所述入黑时间小于或等于预先设置的采集时间终点的黑号码确定为第二黑号码。
6.根据权利要求5所述的骚扰号码识别方法,其特征在于,在根据预先获取的通话话单,计算出所述入黑号段的入黑占比之前,还包括:
获取在预设周期内黑名单中增加的入黑号段;
根据所述入黑号段,统计出在指定第一时间内所述入黑号段的周期增长量;
判断统计出的所述入黑号段的数量是否大于新增阈值或所述周期增长量是否大于周期增长阈值;
若判断出统计出的所述入黑号段的数量大于新增阈值或所述周期增长量大于周期增长阈值,获取高占比号段;
判断所述高占比号段是否包括所述入黑号段;
若判断出所述高占比号段包括所述入黑号段,获取所述入黑号段在指定第二时间内的通话话单。
7.一种骚扰号码识别装置,其特征在于,所述装置包括:
第一输出单元,用于将获取的待识别号码输入预先训练的第一决策树模型,输出多个第一决策树对应的第一预测标签,所述第一决策树与所述第一预测标签一一对应;
第一生成单元,用于通过所述第一决策树对所述多个第一预测标签进行投票,生成票数最多的所述第一预测标签;
第一确定单元,用于将票数最多的所述第一预测标签确定为第一骚扰号码识别结果;
第二输出单元,用于将获取的待识别号码输入预先训练的第二决策树模型,输出多个第二决策树对应的第二预测标签,所述第二决策树与所述第二预测标签一一对应;
第二生成单元,用于通过所述第二决策树对所述多个第二预测标签进行投票,生成票数最多的所述第二预测标签;
第二确定单元,用于将票数最多的所述第二预测标签确定为第二骚扰号码识别结果;
第一划分单元用于将获取的第一样本数据划分为第一训练集和第一袋外数据;
第一获取单元用于获取白号码、灰号码、第一黑号码和第一黑号码的第一被叫侧指标数据;
第五生成单元用于根据统计出的第一黑号码的数量、白号码的数量和灰号码的数量,生成第一号码比例值;
第六生成单元用于通过独立成分分析算法,根据第一被叫侧指标数据,生成第一特征数据;
第七生成单元用于若判断出第一号码比例值大于第一比例阈值,通过不平衡分类算法,根据第一特征数据、白号码、灰号码和第一黑号码,生成第一样本数据,第一样本数据包括白号码、灰号码、第一黑号码、第一样本增加量和第一特征指标。
8.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至6中任意一项所述的骚扰号码识别方法。
9.一种计算机设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,其特征在于,所述程序指令被处理器加载并执行时实现权利要求1至6任意一项所述的骚扰号码识别方法。
CN202010388824.6A 2020-05-09 2020-05-09 一种骚扰号码识别方法、装置、计算机设备和存储介质 Active CN113709747B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010388824.6A CN113709747B (zh) 2020-05-09 2020-05-09 一种骚扰号码识别方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010388824.6A CN113709747B (zh) 2020-05-09 2020-05-09 一种骚扰号码识别方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN113709747A CN113709747A (zh) 2021-11-26
CN113709747B true CN113709747B (zh) 2023-10-13

Family

ID=78645308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010388824.6A Active CN113709747B (zh) 2020-05-09 2020-05-09 一种骚扰号码识别方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113709747B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250461A (zh) * 2016-07-28 2016-12-21 北京北信源软件股份有限公司 一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法
CN106255116A (zh) * 2016-08-24 2016-12-21 王瀚辰 一种骚扰号码的识别方法
CN107133265A (zh) * 2017-03-31 2017-09-05 咪咕动漫有限公司 一种识别行为异常用户的方法及装置
CN109645990A (zh) * 2018-08-30 2019-04-19 北京航空航天大学 一种癫痫患者脑电信号的计算机模式识别方法
CN111046931A (zh) * 2019-12-02 2020-04-21 北京交通大学 一种基于随机森林的道岔故障诊断方法
CN111131593A (zh) * 2018-11-01 2020-05-08 百度在线网络技术(北京)有限公司 骚扰电话识别方法及其装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250461A (zh) * 2016-07-28 2016-12-21 北京北信源软件股份有限公司 一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法
CN106255116A (zh) * 2016-08-24 2016-12-21 王瀚辰 一种骚扰号码的识别方法
CN107133265A (zh) * 2017-03-31 2017-09-05 咪咕动漫有限公司 一种识别行为异常用户的方法及装置
CN109645990A (zh) * 2018-08-30 2019-04-19 北京航空航天大学 一种癫痫患者脑电信号的计算机模式识别方法
CN111131593A (zh) * 2018-11-01 2020-05-08 百度在线网络技术(北京)有限公司 骚扰电话识别方法及其装置
CN111046931A (zh) * 2019-12-02 2020-04-21 北京交通大学 一种基于随机森林的道岔故障诊断方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
一种识别骚扰电话的组合算法研究;王彦青;王瀚辰;;电信科学(第07期);全文 *
基于机器学习的恶意电话场景化治理方法研究;林建洪;徐菁;;网络安全技术与应用(第04期);全文 *
骚扰电话智能拦截策略分析;徐磊;钱峻;;电信快报(01);全文 *

Also Published As

Publication number Publication date
CN113709747A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN110991875B (zh) 一种平台用户质量评估系统
CN108337358B (zh) 应用清理方法、装置、存储介质及电子设备
CN107248082B (zh) 养卡识别方法及装置
CN112258093A (zh) 风险等级的数据处理方法及装置、存储介质、电子设备
CN112235327A (zh) 异常日志检测方法、装置、设备和计算机可读存储介质
CN103793484A (zh) 分类信息网站中的基于机器学习的欺诈行为识别系统
CN111796957B (zh) 基于应用日志的交易异常根因分析方法及系统
CN110083507B (zh) 关键性能指标分类方法及装置
CN111048214A (zh) 外来畜禽疫病传播态势的预警方法及装置
CN106998336B (zh) 渠道中的用户检测方法和装置
CN112994960B (zh) 业务数据异常检测方法、装置及计算设备
TWI677830B (zh) 模型中關鍵變量的探測方法及裝置
CN105429792A (zh) 用户行为流量获取方法及装置、用户行为分析方法及系统
CN109274834B (zh) 一种基于通话行为的快递号码识别方法
CN116610821B (zh) 一种基于知识图谱的企业风险分析方法、系统和存储介质
CN113709747B (zh) 一种骚扰号码识别方法、装置、计算机设备和存储介质
CN113282920A (zh) 日志异常检测方法、装置、计算机设备和存储介质
CN108399387A (zh) 用于识别目标群体的数据处理方法及装置
CN105930430A (zh) 一种基于非累积属性的实时欺诈检测方法及装置
CN115278757A (zh) 一种检测异常数据的方法、装置及电子设备
CN115392351A (zh) 风险用户识别方法、装置、电子设备及存储介质
CN113282686B (zh) 一种不平衡样本的关联规则确定方法及装置
CN112598228B (zh) 企业竞争力的分析方法、装置、设备及存储介质
CN111581508B (zh) 业务监控方法、装置、设备及存储介质
CN114518988A (zh) 资源容量系统及其控制方法和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant