CN106304085A - 信息处理方法及装置 - Google Patents
信息处理方法及装置 Download PDFInfo
- Publication number
- CN106304085A CN106304085A CN201610668866.9A CN201610668866A CN106304085A CN 106304085 A CN106304085 A CN 106304085A CN 201610668866 A CN201610668866 A CN 201610668866A CN 106304085 A CN106304085 A CN 106304085A
- Authority
- CN
- China
- Prior art keywords
- user terminal
- phone number
- classification
- terminal cell
- tested
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/12—Detection or prevention of fraud
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/12—Messaging; Mailboxes; Announcements
- H04W4/14—Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]
Abstract
本发明实施例提供一种信息处理方法及装置,所述方法包括:获取待处理数据;计算不同号码类别下所述各个预设字段值的分布,根据所述各个分布,选取预设模型的输入变量;根据输入变量及待处理数据,选取一个筛选模型,并获取筛选标准;获取待测试数据;获取待测试用户终端手机号分别属于各个号码类别的概率值;判断待测试用户终端手机号属于异常号码类别的概率值是否大于预设阈值;如果是,确定待测试用户终端手机号为异常号码类别,并根据所述概率值,确定监控等级。所述方法可以主动的发现待测试用户终端手机号是否为异常号码类别,并且主动进行监控,提升了垃圾短信监控和识别的能力。
Description
技术领域
本发明涉及计算机应用领域,具体而言,涉及一种信息处理方法及装置。
背景技术
目前,对垃圾短信的发现主要是依赖于客户举报处理,但是现在垃圾短信的发送手段很隐蔽,通过短信群发器和伪基站等以手机号码的形式群发消息,同时短信的内容也多样化,使得原有的治理方案和识别规则产生误拦、漏拦等问题,无法有针对性的提升垃圾短信监控和识别的能力。
发明内容
有鉴于此,本发明实施例的目的在于提供一种信息处理方法及装置,以解决上述问题。
第一方面,本发明实施例提供一种信息处理方法,所述方法包括:获取待处理数据,所述待处理数据包括多个用户终端手机号、所述各个用户终端手机号分别对应的各个预设字段的值、以及所述用户终端手机号对应的号码类别,所述号码类别包括普遍号码类别或异常号码类别;计算不同号码类别下,所述各个预设字段值的分布,根据所述不同用户类别下,所述各个预设字段值的分布,从所述多个预设字段中选取预设模型的输入变量;
根据所述输入变量以及待处理数据,从各个预设模型中选取一个作为筛选模型,并获取所述筛选模型对应的筛选标准;获取待测试数据,所述待测试数据包括待测试用户终端手机号及所述待测试用户终端手机号对应的多个预设字段的值;根据所述筛选标准,获取所述待测试用户终端手机号分别属于各个号码类别的概率值;判断所述待测试用户终端手机号属于异常号码类别的概率值是否大于预设阈值;如果是,确定所述待测试用户终端手机号为异常号码类别,并根据所述概率值,确定所述待测试用户终端手机号的监控等级。
第二方面,本发明实施例提供一种信息处理装置,所述装置包括:第一获取模块,用于获取待处理数据,所述待处理数据包括多个用户终端手机号、所述各个用户终端手机号分别对应的各个预设字段的值、以及所述用户终端手机号对应的号码类别,所述号码类别包括普遍号码类别或异常号码类别;计算模块,用于计算不同号码类别下,所述各个预设字段值的分布,根据所述不同用户类别下,所述各个预设字段值的分布,从所述多个预设字段中选取预设模型的输入变量;选取模块,用于根据所述输入变量以及待处理数据,从各个预设模型中选取一个作为筛选模型,并获取所述筛选模型对应的筛选标准;第二获取模块,用于获取待测试数据,所述待测试数据包括待测试用户终端手机号及所述待测试用户终端手机号对应的多个预设字段的值;第三获取模块,用于根据所述筛选标准,获取所述待测试用户终端手机号分别属于各个号码类别的概率值;判断模块,用于判断所述待测试用户终端手机号属于异常号码类别的概率值是否大于预设阈值;如果是,确定所述待测试用户终端手机号为异常号码类别,并根据所述概率值,确定所述待测试用户终端手机号的监控等级。
与现有技术相比,本发明实施例提供的一种信息处理方法及装置,通过获取到不同号码类别对应的数据,并根据所述输入变量以及待处理数据,从各个预设模型中选取一个作为筛选模型,并获取所述筛选模型对应的筛选标准,通过所述筛选标准,就能识别出待测试用户终端手机号是否为异常号码类别,如果是,则可以确定所述待测试用户终端手机号的监控等级。这种方式,使得监控垃圾短信的方式可以不再被动的只依赖于客户举报,而是可以主动的发现待测试用户终端手机号是否为异常号码类别,并且主动进行监控,提升了垃圾短信监控和识别的能力。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例提供的服务器的方框示意图。
图2是本发明实施例提供的一种信息处理方法的流程图。
图3是本发明实施例提供的一种信息处理方法的部分流程图。
图4是本发明实施例提供的一种信息处理方法的部分流程图。
图5是本发明实施例提供的一种信息处理方法的部分流程图。
图6是本发明实施例提供的一种信息处理装置的功能模块示意图。
图7是本发明实施例提供的一种信息处理装置中计算模块的功能模块示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性或时间先后。
如图1所示,是所述服务器200的方框示意图。所述服务器200包括信息处理装置210、存储器220、存储控制器230、处理器240。
所述存储器220、存储控制器230、处理器240各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述信息处理装置210包括至少一个可以软件或固件(firmware)的形式存储于所述存储器中或固化在所述服务端200的操作系统(operating system,OS)中的软件功能模块。所述处理器240用于执行存储器220中存储的可执行模块,例如所述信息处理装置210包括的软件功能模块或计算机程序。
其中,存储器220可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器220用于存储程序,所述处理器240在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的服务端所执行的方法可以应用于处理器中,或者由处理器实现。
处理器240可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
可以理解,图1所示的结构仅为示意,服务器200还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
图2示出了本发明实施例提供的一种信息处理方法的流程图,请参阅图2,本实施例描述的是服务器的处理流程,所述方法包括:
步骤S310,获取待处理数据,所述待处理数据包括多个用户终端手机号、所述各个用户终端手机号分别对应的各个预设字段的值、以及所述用户终端手机号对应的号码类别,所述号码类别包括普遍号码类别或异常号码类别。
其中,所述待处理数据的来源可以有很多,例如,可以来源于集团公司10086999平台中被投诉的垃圾短信发送者号码,也可以来源于省公司华为垃圾短信监控系统中被捕获并确认为垃圾短信发送者的号码,将这些号码作为异常号码类别,可以来源于经分系统中随机用户的数据,将这些号码作为普通号码类别。当然,所述待处理数据的来源并不局限于此。
预设字段的实施方式也可以有多种,例如,用户终端手机号的位置信息,IMEI信息,上周点对点短信发送量,上周点对点短信接收量,入网时间,号码归属城市等等,当然,并不局限于此。
作为一种实施方式,步骤S310可以包括:
步骤S311,获取待处理数据,所述待处理数据包括多个用户终端手机号及所述各个用户终端手机号分别对应的第一预设字段集合中各个预设字段的值。
步骤S312,对所述待处理数据进行预处理,分别获取所述各个用户终端手机号分别对应的第二预设字段集合中各个预设字段的值。
所述预处理可以包括:值检查,类型转换,列转换,分组,聚集,缺失值处理,孤立点处理等。
其中,值检查,是指初步查看预设字段的值是否符合常规,是否有明显错误。例如,在一次值检查中发现发送目标用户人数的值只有0、1和2,明显值有问题,反馈问题并重新提取数据。
类型转换,是指数据类型的转换,主要是不同的数据挖掘算法需要更适合的数据类型。
例如,将入网时间转换为网龄,如下表1所示:
表1
入网时间 | 网段 |
20090919 | 5.9 |
20090121 | 6.7 |
20141025 | 1.7 |
20150708 | 0.1 |
列转换,是指连续列的转换,典型的转换是把这些数据分成不同的分支,如年龄段;分组,是指为减少模型的复杂性,把许多不同的值(状态)按分类类别进行分组。
聚集,即对数据进行初步处理,如将2个字段合成一个新的字段或将2个字段的值相除,产生派生列等。
例如:将短信发送量和短信接收量这两个字段合成为一个新的派生列:短信发送量发收比,所述短信发送量发收比的值为短信发送量/短信接收量,如下表2所示:
表2
短信发送量 | 短信接收量 | 短信发送量发收比 |
46 | 20 | 2.3 |
836 | 155 | 5.39 |
1042 | 22 | 47.36 |
1521 | 68 | 22.37 |
缺失值处理,是指缺省值处理,如null值自定义解释或将缺失的值的整行记录删除,保证数据的完整性;孤立点处理,是指孤立点清除,如清除不规范或者异常的基础数据。
可以理解的是,所述预处理过程,既能提高建模的准确度,又能提高建模的工作效率。
步骤S320,计算不同号码类别下,所述各个预设字段值的分布,根据所述不同用户类别下,所述各个预设字段值的分布,从所述多个预设字段中选取预设模型的输入变量。
其中,所述预设模型包括神经网络算法模块、决策树算法模型、逻辑回归算法模型。进一步的是,所述决策树算法模型包括C5.0算法模型、CHAID算法模型、或QUEST(QuickUnbiased Efficient Statistical Tree)算法模型。
作为一种实施方法,所述步骤S320可以包括:
步骤S321,分别计算各个预设字段下,不同用户类别对应的字段值的差异值。
作为一种实施方式,可以通过基本统计方法,分析异常号码类别和普通号码类别相对于某个预设字段的差异性,描述统计分布检验,观察是否有显著差异特征。
例如,普通号码类别对“发送目标用户人数”这预设字段的分布如下表3所示:
表3
F | 概率 |
F<=50 | 98.14% |
50<F<=100 | 1.03% |
F>100 | 0.83% |
异常号码类别对“发送目标用户人数”这预设字段的分布如下表4所示:
表4
F | 概率 |
F<=50 | 14.14% |
50<F<=100 | 30.03% |
F>100 | 55.83% |
可以看出,异常号码类别和普通号码类别相对于“发送目标用户人数”这个预设字段的差异性,因此所述“发送目标用户人数”这个字段在建模时的重要程度大,即发送目标用户人数越大,成为异常号码类别的可能性越大。
步骤S322,分别计算各个字段对应的信息增益。
例如,假设获取到的号码类别的分布及各个字段的分布如下表所示,其中各个字段包括:黑名单用户(S)、发送目标用户人数(F)、网龄(W)。
根据以上信息熵介绍里的三大公式计算各变量的熵,用H表示熵,如下表5至表7所示:
表5
S | 数量 | 概率 | 信息量 | 信息熵 |
是 | 110023 | 15.67% | 0.37 | 0.06 |
否 | 591925 | 84.33% | 4.07 | 3.43 |
合计 | 701948 | 100.00% | 4.44 | 3.49 |
表6
F | 数量 | 概率 | 信息量 | 信息熵 |
F<=50 | 688902 | 98.14% | 3.31 | 3.25066 |
50<F<=100 | 7206 | 1.03% | 0.00 | 1E-05 |
F>100 | 5786 | 0.82% | 0.00 | 9E-06 |
合计 | 701948 | 100% | 3.31 | 3.25 |
表7
W | 数量 | 概率 | 信息量 | 信息熵 |
W<=6 | 501919 | 71.50% | 2.48 | 1.77 |
6<W<=12 | 174088 | 24.80% | 18.00 | 4E+00 |
F>12 | 25941 | 3.70% | 39.56 | 1E+00 |
合计 | 701948 | 100% | 60.04 | 7.70 |
根据信息熵的公式可以计算得出:
H(S)=3.49;H(F)=3.25;H(W)=7.70。
进一步的,计算计算各个字段对应的信息增益:
(1)预设字段“发送目标用户人数”对应的信息增益为:
Gain(F)=H(S)-H(F)=3.49-3.25=0.24。
(2)预设字段“网龄”对应的信息增益为:
Gain(W)=H(S)-H(W)=3.49-7.70=-4.21。
步骤S323,根据所述差异值以及所述信息增益,从所述多个预设字段中选取预设模型的输入变量。
接上例,比较各增益结果:Gain(F)>Gain(X)。
若此时只选择一个预设字段,则选择预设字段“发送目标用户人数”。
可以理解的是,所述实施方式,主要从两个方面确定输入变量,一是基本的统计分析,分析异常号码类别和普通号码类别相对于某个预设字段的差异性,从而判定所述预设字段作用的重要程度;二是数据挖掘中信息熵的计算,根据各变量信息熵的增益对比,确定所述预设字段作用的重要性;最后综合2个方面的分析结果,确定建模所需的输入变量。
步骤S330,根据所述输入变量以及待处理数据,从各个预设模型中选取一个作为筛选模型,并获取所述筛选模型对应的筛选标准。
优选的,在步骤S330之后,所述方法还可以包括:
步骤S331,获取待验证数据,所述待验证数据包括多个用户终端手机号、所述各个用户终端手机号分别对应的各个预设字段的值、以及所述用户终端手机号对应的号码类别。
步骤S332,根据所述筛选标准,分别确定所述待验证数据中各个用户终端手机号的预测号码类别。
步骤S333,根据所述预测号码类别与获取到的待验证数据中的用户终端手机号码的号码类别,计算预测的准确率及召回率。
步骤S334,当所述准确率小于第一预设阈值或所述召回率小于第二预设阈值时,重新从所述多个预设字段中选取预设模型的输入变量。
步骤S335,根据重新确定的输入变量以及待处理数据,从各个预设模型中选取一个作为筛选模型,并获取所述筛选模型对应的筛选标准。
例如:假设根据待处理数据得出的筛选标准为:发送目标用户人数>15and信用等级<=2and短信发送量>85.
根据所述预测号码类别与获取到的待验证数据中的用户终端手机号码的号码类别,计算得出预测的准确率为31%,如下表8所示,假设第一预设阈值为90%,此时,所述准确率小于第一预设阈值,准确率偏低,说明筛选模型可靠性低,需优化。
表8
总记录数 | 符合条件的记录数 | 准确率 |
107445 | 33308 | 31% |
当所述准确率小于第一预设阈值或所述召回率小于第二预设阈值时时,需重新回到建模过程,重新建模、训练,得出新的模型,输出更合理的筛选标准。
当筛选标准确定后,可以用来判断待测试用户终端手机号是否为异常号码。
步骤S340,获取待测试数据,所述待测试数据包括待测试用户终端手机号及所述待测试用户终端手机号对应的多个预设字段的值。
步骤S350,根据所述筛选标准,获取所述待测试用户终端手机号分别属于各个号码类别的概率值。
步骤S360,判断所述待测试用户终端手机号属于异常号码类别的概率值是否大于预设阈值。
步骤S370,如果是,确定所述待测试用户终端手机号为异常号码类别,并根据所述概率值,确定所述待测试用户终端手机号的监控等级。
优选的,也可以将所述概率值或者所述监控等级发送到用户终端,以使用户终端可以根据所述概率值或者所述监控等级确定进一步用于指导垃圾短信政治的策略。
本发明实施例提供的信息处理方法,通过获取到不同号码类别对应的数据,并根据所述输入变量以及待处理数据,从各个预设模型中选取一个作为筛选模型,并获取所述筛选模型对应的筛选标准,通过所述筛选标准,就能识别出待测试用户终端手机号是否为异常号码类别,如果是,则可以确定所述待测试用户终端手机号的监控等级。这种方式,使得监控垃圾短信的方式可以不再被动的只依赖于客户举报,而是可以主动的发现待测试用户终端手机号是否为异常号码类别,并且主动进行监控,提升了垃圾短信监控和识别的能力。
请参阅图6,是本发明实施例提供的图1所示的信息处理装置210的功能模块示意图。所述信息处理装置210运行于所述服务器200。所述信息处理装置210包括第一获取模块211、计算模块212、选取模块213、第二获取模块214、第三获取模块215以及判断模块216。
所述第一获取模块211,用于获取待处理数据,所述待处理数据包括多个用户终端手机号、所述各个用户终端手机号分别对应的各个预设字段的值、以及所述用户终端手机号对应的号码类别,所述号码类别包括普遍号码类别或异常号码类别。
优选的,所述第一获取模块211,具体用于获取待处理数据,所述待处理数据包括多个用户终端手机号及所述各个用户终端手机号分别对应的第一预设字段集合中各个预设字段的值;对所述待处理数据进行预处理,分别获取所述各个用户终端手机号分别对应的第二预设字段集合中各个预设字段的值。
所述计算模块212,用于计算不同号码类别下,所述各个预设字段值的分布,根据所述不同用户类别下,所述各个预设字段值的分布,从所述多个预设字段中选取预设模型的输入变量。
所述选取模块213,用于根据所述输入变量以及待处理数据,从各个预设模型中选取一个作为筛选模型,并获取所述筛选模型对应的筛选标准。
其中,所述预设模型包括神经网络算法模块、决策树算法模型、逻辑回归算法模型。
所述第二获取模块214,用于获取待测试数据,所述待测试数据包括待测试用户终端手机号及所述待测试用户终端手机号对应的多个预设字段的值。
所述第三获取模块215,用于根据所述筛选标准,获取所述待测试用户终端手机号分别属于各个号码类别的概率值。
所述判断模块216,用于判断所述待测试用户终端手机号属于异常号码类别的概率值是否大于预设阈值;如果是,确定所述待测试用户终端手机号为异常号码类别,并根据所述概率值,确定所述待测试用户终端手机号的监控等级。
优选的,所述装置还包括优化模块216,用于获取待验证数据,所述待验证数据包括多个用户终端手机号、所述各个用户终端手机号分别对应的各个预设字段的值、以及所述用户终端手机号对应的号码类别;根据所述筛选标准,分别确定所述待验证数据中各个用户终端手机号的预测号码类别;根据所述预测号码类别与获取到的待验证数据中的用户终端手机号码的号码类别,计算预测的准确率及召回率;当所述准确率小于第一预设阈值或所述召回率小于第二预设阈值时,重新从所述多个预设字段中选取预设模型的输入变量;根据重新确定的输入变量以及待处理数据,从各个预设模型中选取一个作为筛选模型,并获取所述筛选模型对应的筛选标准。
请参阅图7,是本发明实施例提供的图1所示的信息处理装置210中计算模块212的功能模块示意图。
所述计算模块212包括第一计算子模块2121,第二计算子模块2122以及处理模块2123。
所述第一计算子模块2121,用于分别计算各个预设字段下,不同用户类别对应的字段值的差异值;
所述第二计算子模块2122,用于分别计算各个字段对应的信息增益;
所述处理模块2123,用于根据所述差异值以及所述信息增益,从所述多个预设字段中选取预设模型的输入变量。
以上各模块可以是由软件代码实现,此时,上述的各模块可存储于中间服务器200的存储器220内。以上各模块同样可以由硬件例如集成电路芯片实现。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明实施例所提供的信息处理装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种信息处理方法,其特征在于,所述方法包括:
获取待处理数据,所述待处理数据包括多个用户终端手机号、所述各个用户终端手机号分别对应的各个预设字段的值、以及所述用户终端手机号对应的号码类别,所述号码类别包括普遍号码类别或异常号码类别;
计算不同号码类别下,所述各个预设字段值的分布,根据所述不同用户类别下,所述各个预设字段值的分布,从所述多个预设字段中选取预设模型的输入变量;
根据所述输入变量以及待处理数据,从各个预设模型中选取一个作为筛选模型,并获取所述筛选模型对应的筛选标准;
获取待测试数据,所述待测试数据包括待测试用户终端手机号及所述待测试用户终端手机号对应的多个预设字段的值;
根据所述筛选标准,获取所述待测试用户终端手机号分别属于各个号码类别的概率值;
判断所述待测试用户终端手机号属于异常号码类别的概率值是否大于预设阈值;
如果是,确定所述待测试用户终端手机号为异常号码类别,并根据所述概率值,确定所述待测试用户终端手机号的监控等级。
2.根据权利要求1所述的方法,其特征在于,根据所述不同用户类别下,所述各个预设字段值的分布,从所述多个预设字段中选取预设模型的输入变量,包括:
分别计算各个预设字段下,不同用户类别对应的字段值的差异值;
分别计算各个字段对应的信息增益;
根据所述差异值以及所述信息增益,从所述多个预设字段中选取预设模型的输入变量。
3.根据权利要求1所述的方法,其特征在于,获取待处理数据,所述待处理数据包括多个用户终端手机号及所述各个用户终端手机号分别对应的各个预设字段的值,包括:
获取待处理数据,所述待处理数据包括多个用户终端手机号及所述各个用户终端手机号分别对应的第一预设字段集合中各个预设字段的值;
对所述待处理数据进行预处理,分别获取所述各个用户终端手机号分别对应的第二预设字段集合中各个预设字段的值。
4.根据权利要求1所述的方法,其特征在于,所述预设模型包括神经网络算法模块、决策树算法模型、逻辑回归算法模型。
5.根据权利要求1所述的方法,其特征在于,在所述根据所述输入变量以及待处理数据,从各个预设模型中选取一个作为筛选模型,并获取所述筛选模型对应的筛选标准之后,所述方法还包括:
获取待验证数据,所述待验证数据包括多个用户终端手机号、所述各个用户终端手机号分别对应的各个预设字段的值、以及所述用户终端手机号对应的号码类别;
根据所述筛选标准,分别确定所述待验证数据中各个用户终端手机号的预测号码类别;
根据所述预测号码类别与获取到的待验证数据中的用户终端手机号码的号码类别,计算预测的准确率及召回率;
当所述准确率小于第一预设阈值或所述召回率小于第二预设阈值时,重新从所述多个预设字段中选取预设模型的输入变量;
根据重新确定的输入变量以及待处理数据,从各个预设模型中选取一个作为筛选模型,并获取所述筛选模型对应的筛选标准。
6.一种信息处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取待处理数据,所述待处理数据包括多个用户终端手机号、所述各个用户终端手机号分别对应的各个预设字段的值、以及所述用户终端手机号对应的号码类别,所述号码类别包括普遍号码类别或异常号码类别;
计算模块,用于计算不同号码类别下,所述各个预设字段值的分布,根据所述不同用户类别下,所述各个预设字段值的分布,从所述多个预设字段中选取预设模型的输入变量;
选取模块,用于根据所述输入变量以及待处理数据,从各个预设模型中选取一个作为筛选模型,并获取所述筛选模型对应的筛选标准;
第二获取模块,用于获取待测试数据,所述待测试数据包括待测试用户终端手机号及所述待测试用户终端手机号对应的多个预设字段的值;
第三获取模块,用于根据所述筛选标准,获取所述待测试用户终端手机号分别属于各个号码类别的概率值;
判断模块,用于判断所述待测试用户终端手机号属于异常号码类别的概率值是否大于预设阈值;如果是,确定所述待测试用户终端手机号为异常号码类别,并根据所述概率值,确定所述待测试用户终端手机号的监控等级。
7.根据权利要求6所述的装置,其特征在于,所述计算模块包括第一计算子模块,第二计算子模块以及处理模块,
所述第一计算子模块,用于分别计算各个预设字段下,不同用户类别对应的字段值的差异值;
所述第二计算子模块,用于分别计算各个字段对应的信息增益;
所述处理模块,用于根据所述差异值以及所述信息增益,从所述多个预设字段中选取预设模型的输入变量。
8.根据权利要求6所述的装置,其特征在于,所述第一获取模块,具体用于获取待处理数据,所述待处理数据包括多个用户终端手机号及所述各个用户终端手机号分别对应的第一预设字段集合中各个预设字段的值;对所述待处理数据进行预处理,分别获取所述各个用户终端手机号分别对应的第二预设字段集合中各个预设字段的值。
9.根据权利要求6所述的装置,其特征在于,所述预设模型包括神经网络算法模块、决策树算法模型、逻辑回归算法模型。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括优化模块,用于获取待验证数据,所述待验证数据包括多个用户终端手机号、所述各个用户终端手机号分别对应的各个预设字段的值、以及所述用户终端手机号对应的号码类别;根据所述筛选标准,分别确定所述待验证数据中各个用户终端手机号的预测号码类别;根据所述预测号码类别与获取到的待验证数据中的用户终端手机号码的号码类别,计算预测的准确率及召回率;当所述准确率小于第一预设阈值或所述召回率小于第二预设阈值时,重新从所述多个预设字段中选取预设模型的输入变量;根据重新确定的输入变量以及待处理数据,从各个预设模型中选取一个作为筛选模型,并获取所述筛选模型对应的筛选标准。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610668866.9A CN106304085B (zh) | 2016-08-15 | 2016-08-15 | 信息处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610668866.9A CN106304085B (zh) | 2016-08-15 | 2016-08-15 | 信息处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106304085A true CN106304085A (zh) | 2017-01-04 |
CN106304085B CN106304085B (zh) | 2019-11-26 |
Family
ID=57671750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610668866.9A Active CN106304085B (zh) | 2016-08-15 | 2016-08-15 | 信息处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106304085B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107944557A (zh) * | 2017-12-13 | 2018-04-20 | 广州市景心科技股份有限公司 | 一种骚扰电话的识别方法 |
CN109918279A (zh) * | 2019-01-24 | 2019-06-21 | 平安科技(深圳)有限公司 | 电子装置、基于日志数据识别用户异常操作的方法及存储介质 |
CN110457566A (zh) * | 2019-08-15 | 2019-11-15 | 腾讯科技(武汉)有限公司 | 信息筛选方法、装置、电子设备及存储介质 |
CN110795436A (zh) * | 2019-11-01 | 2020-02-14 | 泰康保险集团股份有限公司 | 数据处理方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104717674A (zh) * | 2014-12-02 | 2015-06-17 | 北京奇虎科技有限公司 | 号码属性识别方法、装置、终端和服务器 |
CN105302911A (zh) * | 2015-11-10 | 2016-02-03 | 珠海多玩信息技术有限公司 | 一种数据筛选引擎建立方法及数据筛选引擎 |
CN105824813A (zh) * | 2015-01-05 | 2016-08-03 | 中国移动通信集团江苏有限公司 | 一种挖掘核心用户的方法及装置 |
-
2016
- 2016-08-15 CN CN201610668866.9A patent/CN106304085B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104717674A (zh) * | 2014-12-02 | 2015-06-17 | 北京奇虎科技有限公司 | 号码属性识别方法、装置、终端和服务器 |
CN105824813A (zh) * | 2015-01-05 | 2016-08-03 | 中国移动通信集团江苏有限公司 | 一种挖掘核心用户的方法及装置 |
CN105302911A (zh) * | 2015-11-10 | 2016-02-03 | 珠海多玩信息技术有限公司 | 一种数据筛选引擎建立方法及数据筛选引擎 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107944557A (zh) * | 2017-12-13 | 2018-04-20 | 广州市景心科技股份有限公司 | 一种骚扰电话的识别方法 |
CN107944557B (zh) * | 2017-12-13 | 2021-08-13 | 广州市景心科技股份有限公司 | 一种骚扰电话的识别方法 |
CN109918279A (zh) * | 2019-01-24 | 2019-06-21 | 平安科技(深圳)有限公司 | 电子装置、基于日志数据识别用户异常操作的方法及存储介质 |
CN109918279B (zh) * | 2019-01-24 | 2022-09-27 | 平安科技(深圳)有限公司 | 电子装置、基于日志数据识别用户异常操作的方法及存储介质 |
CN110457566A (zh) * | 2019-08-15 | 2019-11-15 | 腾讯科技(武汉)有限公司 | 信息筛选方法、装置、电子设备及存储介质 |
CN110795436A (zh) * | 2019-11-01 | 2020-02-14 | 泰康保险集团股份有限公司 | 数据处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106304085B (zh) | 2019-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106304085A (zh) | 信息处理方法及装置 | |
CN102724219B (zh) | 网络数据的计算机处理方法及系统 | |
CN110298547A (zh) | 风险评估方法、装置、计算机装置及存储介质 | |
CN108334033A (zh) | 基于物联网与机器学习的冲床组故障预测方法及其系统 | |
CN104660464B (zh) | 一种基于非广延熵的网络异常检测方法 | |
CN104268173B (zh) | 集中式数据监控方法、装置及系统 | |
CN112153000A (zh) | 网络流量异常的检测方法、装置、电子装置和存储介质 | |
CN113313280B (zh) | 云平台的巡检方法、电子设备及非易失性存储介质 | |
CN111199244A (zh) | 一种数据的分类方法、装置、存储介质及电子装置 | |
CN106304084A (zh) | 信息处理方法及装置 | |
CN115222303B (zh) | 基于大数据的行业风险数据分析方法、系统及存储介质 | |
CN107330128A (zh) | 认证异常判断方法及装置 | |
CN111476375A (zh) | 一种确定识别模型的方法、装置、电子设备及存储介质 | |
CN106130929A (zh) | 基于图论算法的互联网保险领域的业务报文自动处理方法和系统 | |
CN110851414A (zh) | 一种以聚类法进行边界数据分析的方法及其系统 | |
CN116865994A (zh) | 一种基于大数据的网络数据安全预测方法 | |
CN114492491B (zh) | 一种nfc标签应用的数据管理系统 | |
CN107580329B (zh) | 一种网络分析优化方法及装置 | |
CN114968933A (zh) | 数据中心的日志的分类方法和装置 | |
CN108062395A (zh) | 一种轨道交通大数据分析方法及系统 | |
CN107220811A (zh) | 流程中节点激活的方法及装置 | |
CN106815718A (zh) | 一种pcb板缺陷统计方法及系统 | |
CN113221984A (zh) | 用户酒驾行为分析预测方法、装置、设备及存储介质 | |
CN117473094B (zh) | 日志分类方法及系统 | |
CN117057786B (zh) | 一种数据中心智能化运维管理方法、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |