CN104714947A

CN104714947A - 预定类型号码识别方法及装置

Info

Publication number: CN104714947A
Application number: CN201310674170.3A
Authority: CN
Inventors: 金欢; 陈中亭; 潘安群; 李雪冰; 张盛凯; 全小龙; 陈和
Original assignee: Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2013-12-11
Filing date: 2013-12-11
Publication date: 2015-06-17

Abstract

本发明实施例公开了一种预定类型号码识别方法及装置，所述方法包括：从第一类型号码在作业关系链中所对应的节点开始，以所述节点作为起始节点，按照其分支的指向搜索相邻的其它节点，直到叶节点然后再回溯到所述叶节点的父节点，搜索所述父节点相邻的其它节点，过程中判断每一个所搜索到的节点的属性是否符合特定条件；重复执行上述步骤，直到访问完所述作业关系链中的所有节点为止，以得到第一判断结果；按照预先设置的筛选条件对所述第一判断结果中符合所述特定条件的节点进行筛选，以得到预定类型号码。本发明实施例的预定类型号码识别方法及装置可以实现自动地识别预定类型号码。

Description

预定类型号码识别方法及装置

【技术领域】

本发明涉及计算机技术领域，特别涉及一种预定类型号码识别方法及装置。

【背景技术】

互联网中每天都在进行着大量的、频繁的网络交互作业（例如，网络支付、网络转账，等等）。部分不法分子出于非法目的，通过互联网实施了相关危害网络交互作业安全的行为（例如，盗窃、诈骗，等等），给互联网应用的用户带来了巨大的财产损失。

为了避免损失，需要识别出恶意号码（即，不法分子实施非法行为所使用的号码），以对该恶意号码采取相关措施。

传统的对恶意号码进行识别的技术方案包括以下两种：

第一种技术方案是通过客服人员受理互联网应用的用户的投诉或举报来发现恶意号码。

第二种技术方案是通过对相关号码的网络支付次数、网络交易额度、IP（Internet Protocol，互联网协议）地址聚集程度、IP地址跳变次数等设置阈值，以在该相关号码进行交易或转账时，根据该阈值对该相关号码的交易行为或转账行为进行审查，从而识别出恶意号码。

在实践中，发明人发现现有技术至少存在以下问题：

上述第一种技术方案需要依赖互联网应用的用户在损失财产后投诉和反馈的意愿。以网络虚拟钱币（如Q币）被盗为例，根据调查，主动投诉者的人数仅占实际受损失的人数的10%左右。因此上述第一种技术方案存在发现恶意号码所需的周期较长、所发现的恶意号码不全面等不足之处。

上述第二种技术方案容易被不法分子绕开。例如，若上述网络交易额度的阈值为50元，则不法分子往往会通过将交易金额或转账金额设置为49元来避开针对交易行为或转账行为的审查；又例如，不法分子可通过以非常低的价格来引诱和误导互联网应用的用户向恶意号码充值，此时，IP地址聚集的特征并不明显。此外，利用此技术方案来发现和识别恶意号码往往需要针对多个特征、多种策略来综合决策，此时，对相关号码的交易行为或转账行为进行审查将会变得非常耗时和效率低下。

综上，传统的技术方案无法实现自动地对恶意号码进行识别。

故，有必要提出一种新的技术方案，以解决上述技术问题。

【发明内容】

本发明的目的在于提供一种预定类型号码识别方法及装置，其能实现自动地识别预定类型号码（例如，恶意号码）。

为解决上述问题，本发明实施例的技术方案如下：

一种预定类型号码识别方法，包括：从第一类型号码在作业关系链中所对应的节点开始，以所述节点作为起始节点，按照其分支的指向搜索相邻的其它节点，直到叶节点然后再回溯到所述叶节点的父节点，搜索所述父节点相邻的其它节点，过程中判断每一个所搜索到的节点的属性是否符合特定条件，其中，所述作业关系链是预先构造的；重复执行上述步骤，直到访问完所述作业关系链中的所有节点为止，以得到第一判断结果，其中，所述第一判断结果包括所述作业关系链中每一节点的属性是否符合所述特定条件的信息；按照预先设置的筛选条件对所述第一判断结果中符合所述特定条件的节点进行筛选，以得到预定类型号码。

一种预定类型号码识别装置，包括：搜索模块，用于从第一类型号码在作业关系链中所对应的节点开始，以所述节点作为起始节点，按照其分支的指向搜索相邻的其它节点，直到叶节点然后再回溯到所述叶节点的父节点，搜索所述父节点相邻的其它节点，过程中判断每一个所搜索到的节点的属性是否符合特定条件，重复执行上述操作，直到访问完所述作业关系链中的所有节点为止，以得到第一判断结果，其中，所述作业关系链是预先构造的，所述第一判断结果包括所述作业关系链中每一节点的属性是否符合所述特定条件的信息；筛选模块，用于按照预先设置的筛选条件对所述第一判断结果中符合所述特定条件的节点进行筛选，以得到预定类型号码。

相对现有技术，本发明实施例的预定类型号码识别方法及装置可以实现自动地识别预定类型号码（例如，恶意号码），有利于据此采取相关措施（例如，禁止恶意号码登录，进而有效地防止侵害互联网应用的用户的财产安全的行为）。

为让本发明的上述内容能更明显易懂，下文特举优选实施例，并配合所附图式，作详细说明如下：

【附图说明】

图1为本发明实施例的预定类型号码识别方法和装置的工作模式示意图；

图2为本发明实施例的预定类型号码识别方法和装置的运行环境示意图；

图3为本发明的预定类型号码识别装置的第一实施例的框图；

图4为本发明的预定类型号码识别装置的第二实施例的框图；

图5为本发明的预定类型号码识别装置的第三实施例的框图；

图6为本发明中作业关系链的示意图；

图7为本发明中遍历作业关系链中的节点的操作示意图；

图8为本发明的预定类型号码识别方法的第一实施例的流程图；

图9为本发明的预定类型号码识别方法的第二实施例的流程图；

图10为本发明的预定类型号码识别方法的第三实施例的流程图；

图11为本发明的预定类型号码识别方法的具体实施步骤的示意图；

图12为本发明预定类型号码识别方法和装置工作原理的示意图。

【具体实施方式】

以下各实施例的说明是参考附加的图式，用以例示本发明可用以实施的特定实施例。

术语“预定类型号码”可以指恶意号码、非恶意号码（可信号码）中的任意一种，其中，所述号码可以是互联网应用的帐号、互联网业务的账号，等等，所述互联网应用包括但不限于即时通讯应用（例如，QQ、微信，等等）、电子邮箱、网络游戏，等等。在下面论述的技术方案中，以恶意号码为例来说明。

术语“网络交互作业数据”是指与网络交互作业相关的数据，其中，所述网络交互作业可以是网络支付、网络转账，等等。

术语“候选号码”是指经过初步选择后确定其与所述预定类型号码（例如，恶意号码）具有一定的相关度的号码。

术语“作业关系链”是指上述网络交互作业的数据流所对应的关系树结构（关系链条）。

术语“遍历”是指沿着某条搜索路线，依次对树（作业关系链）中每个节点均做一次且仅做一次访问，其对应的英文为：Traversal。

术语“组件”、“模块”、“系统”、“接口”等等一般指：硬件、硬件和软件的组合、软件或执行中的软件。例如，组件可以是但不限于是运行在处理器上的进程、处理器、对象、可执行应用、执行的线程、程序和/或计算机。通过图示，运行在控制器上的应用和该控制器二者都可以是组件。一个或多个组件可以存在于执行的进程和/或线程内，并且组件可以位于一个计算机上和/或分布在两个或更多计算机之间。

本说明书所使用的词语“实施例”意指用作实例、示例或例证。全文描述为“实施例”任意方面或设计不必被解释为比其他方面或设计更有利。相反，词语“实施例”的使用旨在以具体方式提出概念。本说明书所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即，除非另外指定或从上下文中清楚，“X使用A或B”意指自然包括排列的任意一个。即，如果X使用A；X使用B；或X使用A和B二者，则“X使用A或B”在前述任一示例中得到满足。此外，本说明书和所附权利要求中所使用的冠词“一”一般地可以被解释为意指“一个或多个”，除非另外指定或从上下文清楚导向单数形式。

本发明要求保护的主题可以被实现为使用标准编程和/或工程技术产生软件、固件、硬件或其任意组合以控制计算机实现所公开的主题的方法、装置或制造品。本文所使用的术语“制造品”旨在包含可从任意计算机可读设备、载体或介质访问的计算机程序。当然，本领域技术人员将认识到可以对该配置进行许多修改，而不脱离要求保护的主题的范围或精神。

图1、图2及随后的论述提供了对实现本文所阐述的一个或多个实施例的工作模式、运行环境的描述。图1所示的工作模式、运行环境仅仅是适当的工作模式、运行环境的一个实例并且不旨在建议关于工作模式、运行环境的用途或功能的范围的任何限制。

本发明的预定类型号码识别方法和装置可以在以下设备中应用：包括但不限于个人计算机、服务器计算机、手持式或膝上型设备、移动设备（比如移动电话、个人数字助理（PDA，PersonalDigital Assistant）、媒体播放器等等）、多处理器系统、消费型电子设备、小型计算机、大型计算机、包括上述任意系统或设备的分布式计算环境，等等。

图1示出了本说明书所提供的一个或多个实施例的装置或系统的工作模式，其中，本发明的预定类型号码识别装置可以视作服务器100或客户端设备300，其中，服务器100与客户端设备300通过网络200通信。服务器100中可以设置有数据库和云端处理器，服务器100中的数据库和云端处理器可以为客户端设备300中的数据提供数据存储和数据处理功能。服务器100和客户端设备300通过网络200交互和交换数据。在本说明书中，优选地，将服务器100作为本发明的预定类型号码识别的示例性对象。

参考图2，图2为本发明实施例的预定类型号码识别方法和装置的运行环境示意图。

本发明实施例的预定类型号码识别方法及装置可以运行于安装有计算机操作系统的用户设备中，该用户设备可以是台式电脑、笔记本电脑、服务器等等中的一种或者一种以上组合而成的系统。该用户设备中可以包括处理器1001、存储器1002、传感器1004、时钟信号生成器1006、通信接口1005、输入输出设备1003等中的任意组合100，用户设备中的处理器1001、存储器1002、传感器1004、输入输出设备1003、通信接口1005、时钟信号生成器1006等中的任意组合100用于实现本发明实施例的预定类型号码识别方法中的步骤及预定类型号码识别装置100中的功能。

参考图3，图3为本发明的预定类型号码识别装置100的第一实施例的框图。

本实施例的预定类型号码识别装置100包括搜索模块301和筛选模块302。

搜索模块301用于从第一类型号码在作业关系链中所对应的节点开始，以所述节点作为起始节点，按照其分支的指向搜索相邻的其它节点（分支节点），直到叶节点然后再回溯到所述叶节点的父节点，搜索所述父节点相邻的其它节点，过程中判断每一个所搜索到的节点的属性是否符合特定条件，重复执行上述操作，直到访问完所述作业关系链中的所有节点为止，以得到第一判断结果。即，所述搜索模块301用于从第一类型号码在作业关系链中所对应的节点开始，访问与所述节点相邻的分支节点，并判断所述分支节点（所搜索到的节点）的属性是否符合特定条件，所述搜索模块301还用于从所述分支节点开始，重复执行上述操作，直到访问完所述作业关系链中的所有节点为止，以得到所述第一判断结果，其中，所述作业关系链是预先构造的，所述第一判断结果包括所述作业关系链中每一节点（所搜索到的节点）的属性是否符合所述特定条件的信息；

所述筛选模块302用于按照预先设置的筛选条件对所述第一判断结果中符合所述特定条件的节点进行筛选，以得到预定类型号码。

具体地，所述搜索模块301用于将预选号码在作业关系链中所对应的节点设置为起始节点，并用于从所述起始节点开始，访问与所述起始节点相邻的任一下一级节点（分支节点），以及用于判断所述下一级节点（分支节点）是否符合特定条件，并生成第一判断结果。

所述搜索模块301还用于在所述下一级节点符合所述特定条件的情况下，将所述下一级节点设置为所述起始节点，并继续从所述起始节点开始，访问与所述起始节点相邻的任一下一级节点，以及用于在所述下一级节点不符合所述特定条件的情况下，访问与所述起始节点相邻的其它下一级节点，并判断所述下一级节点（所搜索到的节点/分支节点）是否符合特定条件，并生成所述第一判断结果，以及用于在所述下一级节点为所述作业关系链的叶节点的情况下，返回到所述下一级节点的上一级节点（父节点）中访问其它节点，直至访问完所述作业关系链中的所有节点。

所述筛选模块302用于按照预先设置的筛选条件对所述第一判断结果中符合所述特定条件的节点进行筛选，以得到预定类型号码，其中所述筛选条件是经过对第一训练样本进行训练得到的。

通过上述技术方案，本发明实施例的预定类型号码识别装置100可以实现自动地识别预定类型号码（例如，恶意号码），有利于据此采取相关措施（例如，禁止恶意号码登录，进而有效地防止侵害互联网应用的用户的财产安全的行为）。

具体地，在本实施例中，所述搜索模块301用于从所述网络交互作业数据中的预选号码（第一类型号码，例如，被投诉的号码）开始，对所述作业关系链中的节点进行深度优先遍历，以得到所述第一判断结果，即，从中选择至少一个与所述预定类型号码类似的候选号码，即，所述搜索模块301用于从所述作业关系链中的预选号码开始，对所述作业关系链中的所有节点进行深度优先遍历搜索，以从中选择至少一个符合所述特定条件的所述候选号码。具体地，所述搜索模块301用于从至少一个所述号码所对应的节点（例如，如图7所示，被投诉的号码P所对应的节点）开始，遍历所述作业关系链中的所有节点，以从中选择至少一个所述候选号码。

在本实施例中，遍历所述作业关系链中的所有节点有利于穷尽所有相关的节点，因此能够更加全面地，不遗漏地获得其中的至少一个所述候选号码。

如图7所示，在本实施例中，所述预选号码（第一类型号码）对应被投诉的号码P，所述搜索模块301用于从被投诉的号码P所对应的节点开始进行深度优先遍历搜索，即，首先以该节点作为起始节点，按照其分支的指向搜索相邻的其它节点，直到叶节点然后再回溯到该叶节点的父节点，搜索该父节点相邻的其它节点，直到搜索完所有的分支，从而找出其中的至少一个所述候选号码。

参考图4，图4为本发明的预定类型号码识别装置100的第二实施例的框图，本实施例与上述第一实施例相似，不同之处在于：

本实施例的预定类型号码识别装置100还包括获取模块401、作业关系链数据生成模块402。

所述作业关系链是通过所述作业关系链数据生成模块402预先构造的。

所述获取模块401用于获取网络交互作业数据。所述获取模块401可以用于从互联网应用的服务器中获取或接收所述网络交互作业数据。

所述作业关系链数据生成模块402用于根据所述网络交互作业数据生成作业关系链数据，从而利用所述网络交互作业数据构造所述作业关系链。其中，所述作业关系链数据为与网络交互作业的作业关系链相关的数据，所述作业关系链包括至少两节点。所述作业关系链数据包括号码数据、作业流向信息、权重信息中的至少一者。如图6所示，所述号码数据包括号码A、号码B、...、号码K等的数据，所述作业流向信息包括网络交互作业的主体信息、网络交互作业的对象信息，所述权重信息包括网络交互作业的客体所对应的数值和单位。

所述作业关系链数据还可以包括作业频率信息。所述作业频率信息与网络交互作业的次数、网络交互作业的时间间隔相关。所述号码数据中的至少一个号码与作业关系链中的至少一个节点对应，如图6所示，其中，所述作业关系链与所述作业关系链数据相关。

所述搜索模块301用于对所述作业关系链中的节点进行搜索，以从所述作业关系链数据中选择出至少一个所述候选号码，所述候选号码符合特定条件，即，所述搜索模块301用于从所述作业关系链的所述节点中搜索至少一个符合特定条件的所述候选号码，其中，所述候选号码与所述节点对应。具体地，所述搜索模块301用于从所述作业关系链数据的号码数据中选择作为众多网络交互作业的对象的号码，例如，号码E和号码H，如图6所示。该号码E和号码H作为所述候选号码。所述特定条件可以是具有作为众多网络交互作业的对象这一特征，也可以是网络交互作业的频率较大，还可以是在所述作业关系链中具有较多分支。

所述筛选模块302用于从至少一个所述候选号码中识别出至少一个预定类型号码。具体地，所述筛选模块302用于对所述候选号码进行检查，以从中识别出至少一个预定类型号码。所述筛选模块302用于根据每一个所述候选号码的特征、属性判断所述候选号码是否符合预定模型，若是，则将其识别为预定类型号码，其中所述预定模型可以是具有与恶意号码相关的特征的模型。

在本实施例中，所述网络交互作业数据包括至少两作业记录。

所述作业关系链数据生成模块402用于根据所述网络交互作业数据中的号码数据、作业流向信息、作业频率信息、权重信息中的至少一者，对所述网络交互作业数据中的所述作业记录进行分类整理，以得出分类整理结果。具体地，所述作业关系链数据生成模块402用于根据所述作业记录中的号码数据、作业流向信息、作业频率信息、权重信息中的至少一者，对所述作业记录进行分类整理，以得出分类整理结果。如图6所示，所述作业关系链数据生成模块402用于分析任意两所述作业记录中的号码数据是否具有相同的号码，若是，则将所述两作业记录分为具有关联一类。若两作业记录中的网络交互作业的主体、对象均相同，则将所述两个作业记录中的客体的数值（例如，交易金额）相加。

所述作业关系链数据生成模块402用于根据所述分类整理结果生成所述作业关系链数据（作业关系链），其中，所述号码数据与所述节点对应，所述作业流向信息与所述作业关系链中的分支对应。如图6所示，所述作业关系链数据生成模块402用于以号码数据中的号码作为节点，以网络交互作业的流向作为分支，生成所述作业关系链数据，其中，所述作业关系链数据所对应的作业关系链包括所述节点和所述分支。

所述网络交互作业数据中的任意一个作业记录是相对孤立的，所述作业关系链数据生成模块402用于通过将每一个相对孤立的作业记录和其他相对孤立的作业记录建立关联，从而构造所述作业关系链。所述作业关系链数据生成模块402建立所述关联以所述作业记录中的网络交互作业的主体、对象作为依据。

在本实施例中，所述搜索模块301还用于判断与所述下一级节点（所搜索到的节点/分支节点）相关的所述作业流向信息、所述作业频率信息、所述权重信息中的至少一者是否符合所述特定条件。

参考图5，图5为本发明的预定类型号码识别装置100的第三实施例的框图，本实施例与上述第一或第二实施例相似，不同之处在于：

在本实施例中，所述搜索模块301还用于从第二类型号码在所述作业关系链中所对应的节点开始，根据预定阈值判断所述作业关系链中所有节点（所搜索到的节点）的属性是否与所述预定阈值相符，以生成第二判断结果。

其中，所述预定阈值是根据历史预定类型号码作为第二训练样本，并对所述第二训练样本的特征进行提取得出的。

具体地，在本实施例中，所述搜索模块301用于根据预定阈值，对所述作业关系链中的节点的分支数量、分支权重中的至少一者进行筛选，以得到至少一个所述候选号码。其中，所述预定阈值是根据历史预定类型号码作为第二训练样本，并对所述第二训练样本的特征进行提取得出的。

所述特征阈值与从第二训练样本中提取的第二特征量均值相关，所述第二训练样本为关于经过识别得出的恶意号码的样本。所述第二特征量包括所述作业关系链的分支数量、累积权重、相邻节点数量。

在本实施例中，所述搜索模块301根据预定阈值对所述节点所进行的筛选操作是基于恶意号码相比非恶意号码交易次数多、交易金额大、关联的独立用户多等方面来实施的。

本实施例的预定类型号码识别装置100还包括去重模块501。

所述去重模块501用于对所述第一判断结果中符合所述特定条件的节点和所述第二判断结果中与所述预定阈值相符的节点进行去重操作，以得到去重结果。

所述筛选模块302还用于按照预先设置的筛选条件对所述去重结果进行筛选，以得到所述预定类型号码。

本发明的预定类型号码识别装置100的第四实施例与上述第一至第三实施例中的任意一个实施例相似，不同之处在于：

在本实施例中，所述筛选模块302还用于利用预先构造的分类器对所述判断结果中的节点所对应的号码进行模式分类，以从中识别出至少一个预定类型号码；

其中，所述分类器的构造以从所述第一训练样本中提取的第一特征量作为参考信息，所述第一训练样本为预先选取的号码的样本。

在本实施例中，所述搜索模块301用于根据所述作业流向信息、所述作业频率信息、所述权重信息中的至少一者，从所述号码数据中搜索（选择）至少一个所述候选号码。其中，所述作业流向信息对应所述作业关系链中的节点的分支，所述作业频率信息对应所述作业关系链中的所述分支出现的频率，所述权重信息对应所述分支的属性值，其中该属性值与相关作业记录的客体的数值相关。例如，如图6所示，所述搜索模块301用于根据所述分支数量的多少来选择所述候选号码，得出号码E和号码H，其中，该号码E和号码H所对应的节点具有较多的分支。

所述筛选模块302用于利用预先构造的分类器对至少一个所述候选号码进行分类，并从中识别出至少一个所述预定类型号码。其中，所述分类器可以根据决策树算法来构造所述分类器。由于所述搜索模块301所得出的至少一个所述候选号码有可能包括非恶意号码，因此，利用所述分类器来对至少一个所述候选号码进行分类和识别是为了尽可能地减少所述搜索模块301错误地选择非恶意号码的概率。其中，利用所述分类器来对至少一个所述候选号码进行分类和识别相当于对所述搜索模块301得出的至少一个上述候选号码做进一步的检查，从而发现（识别）出恶意号码。

其中，利用所述分类器进行分类的参照信息包括从第一训练样本中提取的第一特征量，即，所述分类器的构造以从第一训练样本中提取的第一特征量作为参考信息，所述第一训练样本为预先选取的号码的样本。具体地，可以事先对第一训练样本（由恶意号码和非恶意号码组成的样本）从充值次数、支付次数、好友热度、IP地址聚集数、IP地址跳变数、历史黑名单、渠道等方面来实现第一特征量提取。

上述分类器可以通过以下步骤来构造：第一步，选择第一训练样本；第二步，计算所述第一训练样本中的训练节点所包含的熵不纯度，即，计算当前节点包含的所有样本的熵不纯度；第三步，根据所述熵不纯度计算所述训练节点采用不同特征进行分支操作将会得到的信息增益，即，计算采用不同特征进行分支将会得到的信息增益；第四步，根据最大的信息增益对所述训练节点进行分支操作，以得到下一个训练节点，即，选择具有最大增益的特征作为当前的节点，该特征的取值个数决定了该节点下的分支数目，若后续节点只包含一类样本，则停止该分支的生成，该节点即为叶节点（末端节点），若后续节点仍然包含不同类样本，则再次进行上述第一步，直至每一个分支到达叶节点（末端节点）为止。

通过上述措施，可以在识别对象具有多个特征、识别过程需要应用多种策略时有效地提升综合决策的效率。

此外，除了上述决策树算法外，还可以通过随机森林、K均值聚类、神经网络、贝叶斯决策、K近邻、线性分类器、逻辑回归等算法来对至少一个所述候选号码进行分类，并识别其中的预定类型号码。

参考图8，图8为本发明的预定类型号码识别方法的第一实施例的流程图。本实施例的预定类型号码识别方法通过以下步骤来实现本发明的技术目的：所述搜索模块301从第一类型号码在作业关系链中所对应的节点开始，以所述节点作为起始节点，按照其分支的指向搜索相邻的其它节点（分支节点），直到叶节点然后再回溯到所述叶节点的父节点，搜索所述父节点相邻的其它节点，过程中判断每一个所搜索到的节点（分支节点）的属性是否符合特定条件，重复执行上述步骤，直到访问完所述作业关系链中的所有节点为止，以得到第一判断结果，其中，所述作业关系链是预先构造的，所述第一判断结果包括所述作业关系链中每一节点的属性是否符合所述特定条件的信息；所述筛选模块302按照预先设置的筛选条件对所述第一判断结果中符合所述特定条件的节点进行筛选，以得到预定类型号码。

具体地，所述方法包括以下步骤801、802和803。

步骤801，所述搜索模块301从第一类型号码在作业关系链中所对应的节点开始，访问与所述节点相邻的分支节点，并判断所述分支节点（所搜索到的节点）的属性是否符合特定条件，其中，所述作业关系链是预先构造的。

步骤802，所述搜索模块301从所述分支节点开始，重复执行上述步骤，直到访问完所述作业关系链中的所有节点为止，以得到所述第一判断结果，其中，所述第一判断结果包括所述作业关系链中每一节点（所搜索到的节点/分支节点）的属性是否符合所述特定条件的信息；

步骤803，所述筛选模块302按照预先设置的筛选条件对所述第一判断结果中符合所述特定条件的节点进行筛选，以得到预定类型号码。

通过上述技术方案，本发明实施例的预定类型号码识别方法可以实现自动地识别预定类型号码（例如，恶意号码），有利于据此采取相关措施（例如，禁止恶意号码登录，进而有效地防止侵害互联网应用的用户的财产安全的行为）。

具体地，在本实施例中，所述搜索模块301从所述网络交互作业数据中的预选号码开始，对所述作业关系链中的节点进行深度优先遍历，以得到所述第一判断结果，即，从中选择至少一个与所述预定类型号码类似的候选号码，即，所述搜索模块301从所述作业关系链中的预选号码开始，对所述作业关系链中的所有节点进行深度优先遍历搜索，以从中选择至少一个符合所述特定条件的所述候选号码。具体地，所述搜索模块301从至少一个所述号码所对应的节点（例如，被投诉的号码P所对应的节点）开始，遍历所述作业关系链中的所有节点，以从中选择至少一个所述候选号码，如图7所示。

如图7所示，在本实施例中，所述预选号码对应被投诉的号码P，所述搜索模块301从被投诉的号码P所对应的节点开始进行深度优先遍历搜索，即，首先以该节点作为起始节点，按照其分支的指向搜索相邻的其它节点，直到叶节点然后再回溯到该叶节点的父节点，搜索该父节点相邻的其它节点，直到搜索完所有的分支，从而找出其中的至少一个所述候选号码。

参考图9，图9为本发明的预定类型号码识别方法的第二实施例的流程图，本实施例与上述第一实施例相似，不同之处在于：

预先构造所述作业关系链包括以下步骤：

步骤901，所述获取模块401获取网络交互作业数据。所述获取模块401可以从互联网应用的服务器中获取或接收所述网络交互作业数据。

步骤902，所述作业关系链数据生成模块402根据所述网络交互作业数据生成作业关系链数据，从而利用所述网络交互作业数据构造所述作业关系链。其中，所述作业关系链数据为与网络交互作业的作业关系链相关的数据，所述作业关系链包括至少两节点。所述作业关系链数据包括号码数据、作业流向信息、权重信息中的至少一者。如图6所示，所述号码数据包括号码A、号码B、...、号码K等的数据，所述作业流向信息包括网络交互作业的主体信息、网络交互作业的对象信息，所述权重信息包括网络交互作业的客体所对应的数值和单位。

所述搜索模块301对所述作业关系链中的节点进行搜索，以从所述作业关系链数据中选择出至少一个所述候选号码，所述候选号码符合特定条件，即，所述搜索模块301从所述作业关系链的所述节点中搜索至少一个符合特定条件的所述候选号码，其中，所述候选号码与所述节点对应。具体地，所述搜索模块301从所述作业关系链数据的号码数据中选择作为众多网络交互作业的对象的号码，例如，号码E和号码H，如图6所示。该号码E和号码H作为所述候选号码。所述特定条件可以是具有作为众多网络交互作业的对象这一特征，也可以是网络交互作业的频率较大，还可以是在所述作业关系链中具有较多分支。

所述筛选模块302从至少一个所述候选号码中识别出至少一个预定类型号码。具体地，所述筛选模块302对所述候选号码进行检查，以从中识别出至少一个预定类型号码。所述筛选模块302根据每一个所述候选号码的特征、属性判断所述候选号码是否符合预定模型，若是，则将其识别为预定类型号码，其中所述预定模型可以是具有与恶意号码相关的特征的模型。

具体地，在步骤902中，所述作业关系链数据生成模块402根据所述网络交互作业数据中的号码数据、作业流向信息、作业频率信息、权重信息中的至少一者，对所述网络交互作业数据中的所述作业记录进行分类整理，以得出分类整理结果。具体地，所述作业关系链数据生成模块402根据所述作业记录中的号码数据、作业流向信息、作业频率信息、权重信息中的至少一者，对所述作业记录进行分类整理，以得出分类整理结果。如图6所示，所述作业关系链数据生成模块402分析任意两所述作业记录中的号码数据是否具有相同的号码，若是，则将所述两作业记录分为具有关联一类。若两作业记录中的网络交互作业的主体、对象均相同，则将所述两个作业记录中的客体的数值相加。

所述作业关系链数据生成模块402根据所述分类整理结果生成所述作业关系链数据（作业关系链），其中，所述号码数据与所述节点对应，所述作业流向信息与所述作业关系链中的分支对应。如图6所示，所述作业关系链数据生成模块402以号码数据中的号码作为节点，以网络交互作业的流向作为分支，生成所述作业关系链数据，其中，所述作业关系链数据所对应的作业关系链包括所述节点和所述分支。

所述网络交互作业数据中的任意一个作业记录是相对孤立的，所述作业关系链数据生成模块402通过将每一个相对孤立的作业记录和其他相对孤立的作业记录建立关联，从而构造所述作业关系链。所述作业关系链数据生成模块402建立所述关联以所述作业记录中的网络交互作业的主体、对象作为依据。

在本实施例中，所述搜索模块301判断与所述下一级节点（所搜索到的节点/分支节点）相关的所述作业流向信息、所述作业频率信息、所述权重信息中的至少一者是否符合所述特定条件。

参考图10，图10为本发明的预定类型号码识别方法的第三实施例的流程图，本实施例与上述第一或第二实施例相似，不同之处在于：

所述方法还包括以下步骤：

步骤1001，所述搜索模块301从第二类型号码在所述作业关系链中所对应的节点开始，根据预定阈值判断所述作业关系链中所有节点的属性是否与所述预定阈值相符，以生成第二判断结果。

具体地，在本实施例中，所述搜索模块301根据预定阈值，对所述作业关系链中的节点的分支数量、分支权重中的至少一者进行筛选，以得到至少一个所述候选号码。其中，所述预定阈值是根据历史预定类型号码作为第二训练样本，并对所述第二训练样本的特征进行提取得出的。

本实施例的预定类型号码识别方法还包括以下步骤：

步骤1002，所述去重模块501对所述第一判断结果中符合所述特定条件的节点和所述第二判断结果中与所述预定阈值相符的节点进行去重操作，以得到去重结果。

在步骤803中，所述筛选模块302按照预先设置的筛选条件对所述去重结果进行筛选，以得到所述预定类型号码。

参考图11，图11为本发明的预定类型号码识别方法的具体实施步骤的示意图。具体地，本实施例的预定类型号码识别方法包括以下步骤：

步骤1101，所述获取模块401获取网络交互作业数据。

步骤1102，所述作业关系链数据生成模块402根据所述作业记录中的号码数据、作业流向信息、作业频率信息、权重信息中的至少一者，对所述作业记录进行分类整理，以得出分类整理结果。

步骤1103，所述作业关系链数据生成模块402根据所述分类整理结果生成所述作业关系链数据（作业关系链）。

步骤1104，所述搜索模块301将预选号码（第一类型号码）在作业关系链中所对应的节点设置为起始节点。

步骤1106，所述搜索模块301从所述起始节点开始，访问与所述起始节点相邻的任一下一级节点（分支节点）。

步骤1108，所述搜索模块301判断所述下一级节点（所搜索到的节点/分支节点）是否为叶节点，若是，则进入步骤1109，否则，进入步骤1110。

步骤1110，所述搜索模块301判断所述下一级节点（所搜索到的节点/分支节点）是否符合特定条件，并生成第一判断结果，若是，则进入步骤1112，否则，进入步骤1114。

步骤1112，若所述下一级节点符合所述特定条件，所述搜索模块301将所述下一级节点设置为所述起始节点，并返回到步骤1106。

步骤1114，若所述下一级节点不符合所述特定条件，所述搜索模块301访问与所述起始节点相邻的其它下一级节点，并返回到步骤1110。

步骤1109，所述搜索模块301判断是否访问完所有节点，若是，则进入步骤1111，否则，进入步骤1107。

步骤1107，若所述下一级节点为所述作业关系链的叶节点，所述搜索模块301返回到所述下一级节点的上一级节点（父节点）中访问其它节点，并进入步骤1106，直至访问完所述作业关系链中的所有节点。

步骤1105，所述搜索模块301从第二类型号码在所述作业关系链中所对应的节点开始，根据预定阈值判断所述作业关系链中所有节点的属性是否与所述预定阈值相符，以生成第二判断结果。

步骤1111，所述去重模块501对所述第一判断结果中符合所述特定条件的节点和所述第二判断结果中与所述预定阈值相符的节点进行去重操作，以得到去重结果。

步骤1113，所述筛选模块302按照预先设置的筛选条件对所述第一判断结果中符合所述特定条件的节点进行筛选，以得到预定类型号码，其中所述筛选条件是经过对第一训练样本进行训练得到的。

本发明的预定类型号码识别方法的第四实施例与上述第一至第三实施例中的任意一个实施例相似，不同之处在于：

所述筛选模块302利用预先构造的分类器对所述去重结果（第一判断结果、第二判断结果）中的节点所对应的号码进行模式分类，以从中识别出至少一个预定类型号码。

在本实施例中，所述搜索模块301根据所述作业流向信息、所述作业频率信息、所述权重信息中的至少一者，从所述号码数据中搜索（选择）至少一个所述候选号码。其中，所述作业流向信息对应所述作业关系链中的节点的分支，所述作业频率信息对应所述作业关系链中的所述分支出现的频率，所述权重信息对应所述分支的属性值，其中该属性值与相关作业记录的客体的数值相关。例如，如图6所示，所述搜索模块301根据所述分支数量的多少来选择所述候选号码，得出号码E和号码H，其中，该号码E和号码H所对应的节点具有较多的分支。

所述筛选模块302利用预先构造的分类器对至少一个所述候选号码进行分类，并从中识别出至少一个所述预定类型号码。其中，所述分类器可以根据决策树算法来构造所述分类器。由于所述搜索模块301所得出的至少一个所述候选号码有可能包括非恶意号码，因此，利用所述分类器来对至少一个所述候选号码进行分类和识别是为了尽可能地减少所述搜索模块301错误地选择非恶意号码的概率。其中，利用所述分类器来对至少一个所述候选号码进行分类和识别相当于对所述搜索模块301得出的至少一个上述候选号码做进一步的检查，从而发现（识别）出恶意号码。

如图12所示，图12为本发明预定类型号码识别方法和装置工作原理的示意图。具体说明如下：

本发明利用原始数据（网络交互作业数据）构造出更能反映用户交易行为的关系链数据（作业关系链数据），并在此数据上根据恶意号码（预定类型号码）的行为本质实现特征提取，同时引入数据挖掘算法，实现多个特征策略的自动合理组织及综合决策。

本发明从恶意用户的根本目的是变现盈利为出发点，将孤立的交易数据构造出联系型的“关系链”数据，并采用有向图的方式实现数据的组织、描述，并在此数据上实现特征量提取和分类。

本发明引入了数据挖掘算法（决策树/分类器算法），把恶意用户及其行为的识别抽象为模式分类问题，将数据挖掘技术应用到互联网安全领域，解决了多个特征条件下的综合决策和效率问题。

构造支付关系链数据：恶意用户发起盗窃、诈骗等行为的根本目的在于实现非法盈利，这就必须先利用各种账号（财付通、Q币、游戏道具、游戏点券等）将受害被盗用户的财物通过转移类交易（赠送、寄售等、P2P）汇总到恶意号码上，再将这些财物通过转移类交易卖给其他玩家，并从中收取人民币以实现最终变现。基于这样的利益驱动，恶意用户与正常用户必然在交易行为上有着显著差异，即恶意用户会更加频繁、密集的发起转移类交易操作，而正常用户则不会。将交易数据按照用户间的财物流向关系可以生成一个有向图，其中权重代表交易涉及的金额。如图6所示，用户E、H通过多次交易最终将用户A、B、C、D、I、F的财产转移到了用户G、J、K上，这一过程符合恶意用户先盗窃，再销赃的行为。

利用支付关系链实现特征量提取（判定）和一级分类：本发明整体使用两级分类的识别处理流程（如图12所示）。如上所述，在使用有向图完成支付关系链数据的构造后，第一级分类就是要把有向图中类似E、H的用户号码作为可疑号码筛选出来。筛选方法本发明具体采用了两种方式相结合实现，详细介绍如下：

种子搜索法

客服已处理的投诉数据具备较高可信度，但是如果只把被投诉的号码作为恶意号码，又不够全面（坏人往往会利用多个号码作案，不一定所有都会被投诉），种子搜索法是先以被投诉用户作为种子，再对图进行深度优先遍历进行搜索。即先以被投诉用户号码作为起点节点，并按其边的指向分别搜索相邻节点，若满足特征的阈值条件（如图7所示）则视为可疑号码，并以当前节点为新起点沿边的指向搜索其相邻节点，直到不满足阈值判定条件，则回溯上一节点（父节点）取其另一相邻节点，如此往复，直到搜索完所有分支。

以图7为例，被投诉用户A作为最初的起点（种子），深度优先遍历的路径为：用户A->用户G->用户J->用户G->用户I->用户G->用户H->用户G->用户A->用户E。

全量遍历法

由于恶意号码与普通号码相比有交易多、金额大、关联的独立用户多等特征，在图的数据上可反映为边的数量多、累计权重大、相邻节点数大等特征量（如：用户A、用户G）。本发明利用已有恶意号码数据作为训练样本，提取训练样本的上述特征量均值作为阈值，并以此阈值对全量交易用户进行搜索。

利用数据挖掘（决策树）算法实现二级分类：通过一级分类得到的可疑号码集中可能会包含一些正常用户，为了尽可能少的误检，需对一级分类的结果做进一步的检查。本发明将恶意号码的识别看作模式分类问题，并引入决策树算法构造分类器，实现最终恶意用户的提取。

决策树构造

本发明对训练样本（已知恶意号码和正常号码的数据集合）从充值次数、支付次数、好友热度、IP聚集数、IP跳变数、历史黑名单、渠道等实现特征量提取，并采用训练样本自动生成决策树进行恶意号码识别。该方法的使用解决了特征条件较多时的综合决策和效率提升问题。决策树构造过程如下：

步骤1：计算计算当前节点包含的所有样本的熵不纯度；

步骤2：计算采用不同特征进行分枝将会得到的信息增益；

步骤3：选取具有最大信息增益的特征作为当前节点，该特征的取值个数决定了该节点下的分枝数目；

步骤4：如果后续节点只包含一类样本，则停止该枝的生长，该节点为叶节点（末端节点）；如果后继节点仍然包含不同类样本，则再次进行步骤1，直至每一枝都到达叶节点（末端节点）。

其中，二级分类除利用决策树实现分类器外，还可以采用其他数据挖掘算法实现，可选取的算法有：随机森林、K均值聚类、神经网络、贝叶斯决策、k近邻、线性分类器、逻辑回归等方法。

在本发明中，用于实现本说明书所提供的一个或多个实施例的计算机可读指令可以在存储器1002中。存储器1002还可以存储用于实现操作系统、应用程序等的其他计算机可读指令。计算机可读指令可以载入存储器1002中以由处理器1001执行。

计算机可读介质包括计算机存储介质。计算机存储介质包括以用于存储诸如计算机可读指令或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。存储器1002是计算机存储介质的实例。计算机存储介质包括但不限于RAM、ROM、EEPROM（Electrically Erasable ProgrammableRead-Only Memory，电可擦可编程只读存储器）、闪存或其他存储器技术、CD-ROM（Compact Disc Read-Only Memory，只读光盘）、数字多功能光盘（DVD，Digital Versatile Disc）或其他光存储装置、盒式磁带、磁带、磁盘存储装置或其他磁存储设备。

计算机可读指令可以实现为程序模块，比如执行特定任务或实现特定抽象数据类型的功能、对象、应用编程接口（API，Application Programming Interface）、数据结构等等。典型地，该计算机可读指令的功能可以在各种环境中随意组合或分布。

尽管已经相对于一个或多个实现方式示出并描述了本发明，但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本发明包括所有这样的修改和变型，并且仅由所附权利要求的范围限制。特别地关于由上述组件（例如元件、资源等）执行的各种功能，用于描述这样的组件的术语旨在对应于执行所述组件的指定功能（例如其在功能上是等价的）的任意组件（除非另外指示），即使在结构上与执行本文所示的本说明书的示范性实现方式中的功能的公开结构不等同。此外，尽管本说明书的特定特征已经相对于若干实现方式中的仅一个被公开，但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或多个其他特征组合。而且，就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言，这样的术语旨在以与术语“包含”相似的方式包括。

本说明书提供了实施例的各种操作。其中所描述的一些或所有操作的顺序不应当被解释为暗示这些操作必需是顺序相关的。本领域技术人员将理解具有本说明书的益处的可替代的排序。而且，应当理解，不是所有操作必需在本说明书所提供的每个实施例中存在。

综上所述，虽然本发明已以优选实施例揭露如上，但上述优选实施例并非用以限制本发明，本领域的普通技术人员，在不脱离本发明的精神和范围内，均可作各种更动与润饰，因此本发明的保护范围以权利要求界定的范围为准。

Claims

1.一种预定类型号码识别方法，其特征在于，包括：

从第一类型号码在作业关系链中所对应的节点开始，以所述节点作为起始节点，按照其分支的指向搜索相邻的其它节点，直到叶节点然后再回溯到所述叶节点的父节点，搜索所述父节点相邻的其它节点，过程中判断每一个所搜索到的节点的属性是否符合特定条件，其中，所述作业关系链是预先构造的；

重复执行上述步骤，直到访问完所述作业关系链中的所有节点为止，以得到第一判断结果，其中，所述第一判断结果包括所述作业关系链中每一节点的属性是否符合所述特定条件的信息；

按照预先设置的筛选条件对所述第一判断结果中符合所述特定条件的节点进行筛选，以得到预定类型号码。

2.根据权利要求1所述的预定类型号码识别方法，其特征在于，所述作业关系链的构造包括以下步骤：

获取网络交互作业数据，其中，所述网络交互作业数据包括至少两个作业记录，所述作业记录包括号码数据和作业流向信息；

分别对所述作业记录中的号码数据和作业流向信息进行分类整理，以得出分类整理结果；以及

根据所述分类整理结果生成所述作业关系链，其中，所述号码数据与所述节点对应，所述作业流向信息与所述作业关系链中的分支对应。

3.根据权利要求2所述的预定类型号码识别方法，其特征在于，所述作业记录还包括作业频率信息、权重信息中的至少一者；

所述分别对所述作业记录中的号码数据和作业流向信息进行分类整理的步骤包括：

分别对所述作业记录中的号码数据和作业流向信息以及所述作业频率信息、所述权重信息中的至少一者进行分类整理。

4.根据权利要求3所述的预定类型号码识别方法，其特征在于，所述判断每一个所搜索到的节点的属性是否符合特定条件的步骤包括：

判断与所搜索到的节点相关的所述作业流向信息、所述作业频率信息、所述权重信息中的至少一者是否符合所述特定条件。

5.根据权利要求3所述的预定类型号码识别方法，其特征在于，在所述按照预先设置的筛选条件对所述第一判断结果中符合所述特定条件的节点进行筛选的步骤之前，所述方法还包括：

从第二类型号码在所述作业关系链中所对应的节点开始，根据预定阈值判断所述作业关系链中所有节点的属性是否与所述预定阈值相符，以生成第二判断结果；

6.根据权利要求5所述的预定类型号码识别方法，其特征在于，在所述生成第二判断结果的步骤之后，以及在所述按照预先设置的筛选条件对所述第一判断结果中符合所述特定条件的节点进行筛选的步骤之前，所述方法还包括：

对所述第一判断结果中符合所述特定条件的节点和所述第二判断结果中与所述预定阈值相符的节点进行去重操作，以得到去重结果；

所述按照预先设置的筛选条件对所述第一判断结果中符合所述特定条件的节点进行筛选的步骤为：

按照所述筛选条件对所述去重结果进行筛选。

7.根据权利要求1所述的预定类型号码识别方法，其特征在于，所述筛选条件是经过对第一训练样本进行训练得到的。

8.根据权利要求7所述的预定类型号码识别方法，其特征在于，所述按照预先设置的筛选条件对所述第一判断结果中符合所述特定条件的节点进行筛选的步骤包括：

利用预先构造的分类器对所述判断结果中的节点所对应的号码进行模式分类，以从中识别出至少一个预定类型号码；

9.根据权利要求8所述的预定类型号码识别方法，其特征在于，所述分类器的构造包括以下步骤：

计算所述第一训练样本中的训练节点所包含的熵不纯度；

根据所述熵不纯度计算所述训练节点采用不同特征进行分支操作将会得到的信息增益；

根据最大的信息增益对所述训练节点进行分支操作，以得到下一个训练节点；

重复执行上述步骤，直至所述分支操作所对应的训练节点均为末端节点。

10.一种预定类型号码识别装置，其特征在于，包括：

搜索模块，用于从第一类型号码在作业关系链中所对应的节点开始，以所述节点作为起始节点，按照其分支的指向搜索相邻的其它节点，直到叶节点然后再回溯到所述叶节点的父节点，搜索所述父节点相邻的其它节点，过程中判断每一个所搜索到的节点的属性是否符合特定条件，重复执行上述操作，直到访问完所述作业关系链中的所有节点为止，以得到第一判断结果，其中，所述作业关系链是预先构造的，所述第一判断结果包括所述作业关系链中每一节点的属性是否符合所述特定条件的信息；

筛选模块，用于按照预先设置的筛选条件对所述第一判断结果中符合所述特定条件的节点进行筛选，以得到预定类型号码。

11.根据权利要求10所述的预定类型号码识别装置，其特征在于，所述装置还包括：

获取模块，用于获取网络交互作业数据，其中，所述网络交互作业数据包括至少两个作业记录，所述作业记录包括号码数据和作业流向信息；

作业关系链数据生成模块，用于分别对所述作业记录中的号码数据和作业流向信息进行分类整理，以得出分类整理结果，并根据所述分类整理结果生成所述作业关系链，其中，所述号码数据与所述节点对应，所述作业流向信息与所述作业关系链中的分支对应。

12.根据权利要求11所述的预定类型号码识别装置，其特征在于，所述作业记录还包括作业频率信息、权重信息中的至少一者；

所述作业关系链数据生成模块还用于分别对所述作业记录中的号码数据和作业流向信息以及所述作业频率信息、所述权重信息中的至少一者进行分类整理。

13.根据权利要求12所述的预定类型号码识别装置，其特征在于，所述搜索模块还用于判断与所搜索到的节点相关的所述作业流向信息、所述作业频率信息、所述权重信息中的至少一者是否符合所述特定条件。

14.根据权利要求12所述的预定类型号码识别装置，其特征在于，所述搜索模块还用于从第二类型号码在所述作业关系链中所对应的节点开始，根据预定阈值判断所述作业关系链中所有节点的属性是否与所述预定阈值相符，以生成第二判断结果；

15.根据权利要求14所述的预定类型号码识别装置，其特征在于，所述装置还包括：

去重模块，用于对所述第一判断结果中符合所述特定条件的节点和所述第二判断结果中与所述预定阈值相符的节点进行去重操作，以得到去重结果；

所述筛选模块还用于按照所述筛选条件对所述去重结果进行筛选。

16.根据权利要求10所述的预定类型号码识别装置，其特征在于，所述筛选条件是经过对第一训练样本进行训练得到的。

17.根据权利要求16所述的预定类型号码识别装置，其特征在于，所述筛选模块还用于利用预先构造的分类器对所述判断结果中的节点所对应的号码进行模式分类，以从中识别出至少一个预定类型号码；

18.根据权利要求17所述的预定类型号码识别装置，其特征在于，所述分类器是通过计算所述第一训练样本中的训练节点所包含的熵不纯度，根据所述熵不纯度计算所述训练节点采用不同特征进行分支操作将会得到的信息增益，根据最大的信息增益对所述训练节点进行分支操作，以得到下一个训练节点，以及重复执行上述步骤，直至所述分支操作所对应的训练节点均为末端节点来构造的。