CN109522304B - 异常对象识别方法及装置、存储介质 - Google Patents
异常对象识别方法及装置、存储介质 Download PDFInfo
- Publication number
- CN109522304B CN109522304B CN201811413135.5A CN201811413135A CN109522304B CN 109522304 B CN109522304 B CN 109522304B CN 201811413135 A CN201811413135 A CN 201811413135A CN 109522304 B CN109522304 B CN 109522304B
- Authority
- CN
- China
- Prior art keywords
- data
- training
- prediction model
- model
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种异常对象识别方法及装置、存储介质。该方法包括:对初始数据进行处理并分类,得到训练集与验证集,其中,所述训练集包括正样本与未知样本,所述验证集包括正样本,所述正样本为已知的异常对象的行为数据样本,然后,利用所述训练集训练预测模型,并利用所述验证集对训练后的预测模型进行验证,得到至少一个目标预测模型,进而,利用所述至少一个目标预测模型对待识别对象进行身份预测,以确定所述待识别对象是否为异常对象。本发明的方法,提高了物联网卡使用异常情况的识别准确率,从而,降低了物联网卡的安全性风险。
Description
技术领域
本发明涉及数据处理技术,尤其涉及一种异常对象识别方法及装置、存储介质。
背景技术
物联网卡一般用以满足专业化的通信需求,采用专用号段实现。但是,物联网卡经常被盗用。
目前,是通过物联网卡的数据异常来判断其是否被盗用的。其具体手段是,将统计后的数据与统计数据的阈值进行比较,根据其比较结果来判断该物联网卡的使用数据是否使用异常,若是,则确定该物联网卡被盗用。
但是,单纯的依靠阈值的比较判断来识别物联网卡是否被盗用,判断方式单一,准确率较低,导致物联网卡具备较高的安全性风险。
发明内容
本发明提供一种异常对象识别方法及装置、存储介质,用以提高物联网卡使用异常情况的识别准确率,从而,降低物联网卡的安全性风险。
第一方面,本发明提供一种异常对象识别方法,包括:
对初始数据进行处理并分类,得到训练集与验证集,其中,所述训练集包括正样本与未知样本,所述验证集包括正样本,所述正样本为已知的异常对象的行为数据样本;
利用所述训练集训练预测模型,并利用所述验证集对训练后的预测模型进行验证,得到至少一个目标预测模型;
利用所述至少一个目标预测模型对待识别对象进行身份预测,以确定所述待识别对象是否为异常对象。
第二方面,本发明提供一种异常对象识别装置,包括:
处理模块,用于对初始数据进行处理并分类,得到训练集与验证集,其中,所述训练集包括正样本与未知样本,所述验证集包括正样本,所述正样本为已知的异常对象的行为数据样本;
训练模块,用于利用所述训练集训练预测模型,并利用所述验证集对训练后的预测模型进行验证,得到至少一个目标预测模型;
识别模块,用于利用所述至少一个目标预测模型对待识别对象进行身份预测,以确定所述待识别对象是否为异常对象。
第三方面,本发明提供一种异常对象识别装置,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面任一项所述的方法。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现如第一方面任一项所述的方法。
本发明提供的异常对象识别方法及装置、存储介质,通过对初始数据的处理并分类得到训练集以及验证集,以及,利用具备部分正样本与未知样本的训练集对预测模型进行训练,而利用仅具备正样本的验证集对预测模型的预测结果准确性进行验证,从而,得到的目标预测模型具备较高的识别准确率,以此实现对待识别对象的身份预测,具备较高的识别准确率,有利于快速完成针对物联网卡盗用用户的异常对象识别,减少不必要的经济损失,降低了使用物联网卡的安全性风险;此外,本发明提供的技术方案还具备较高的处理效率,有利于缩短异常识别时间,及时发现物联网卡的异常情况,有利于完善物联网发展体系,有利于物联网产业的健康发展。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本发明实施例所提供的一种异常对象识别方法的流程示意图;
图2为本发明实施例所提供的一种数据流向示意图;
图3为本发明实施例所提供的另一种异常对象识别方法的流程示意图;
图4为本发明实施例所提供的另一种异常对象识别方法的流程示意图;
图5为本发明实施例所提供的一种异常对象识别装置的功能方块图;
图6为本发明实施例所提供的一种异常对象识别装置的实体结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
首先对本发明所涉及的名词进行解释:
物联网卡:是指一种针对智能硬件和物联网设备的专业化功能、采用专用号段,满足智能硬件和物联网行业对设备联网的管理需求,以及集团公司连锁企业的移动信息化应用需求的一种通信用卡。其能够满足低功耗/长待机、深覆盖、大容量等低速率的业务要求,可应用于移动性较差的静态业务或非连续移动、实时传输数据等场景。
本发明具体的应用场景为针对物联网卡被盗用的异常对象识别场景,也就是,如何根据识别出物联网卡的盗用用户(或称之为行为异常用户)。此时,待识别对象为某一个物联网卡(对应于一个物联网号码),异常对象也就是被盗用的物联网卡。
正如背景技术所述,现有的针对物联网卡被盗用的识别手段是通过将该物联网卡的网络数据与预设的阈值进行比较实现的,由于识别模式的单一,在具体实现异常对象的识别时,准确率较低,容易导致识别不及时而造成用户的经济损失,安全性风险较大。
本发明提供的技术方案,旨在解决现有技术的如上技术问题,并提出如下解决思路:利用机器学习算法,将当前已有的数据分为训练集和验证集,由训练集训练预测模型,同时,利用验证集保证训练出的预测模型的识别准确率,以此来实现对待识别对象的异常识别。
下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
实施例一
本发明实施例提供了一种异常对象识别方法。请参考图1,该方法包括如下步骤:
S102,对初始数据进行处理并分类,得到训练集与验证集,其中,训练集包括正样本与未知样本,验证集包括正样本,正样本为已知的异常对象的行为数据样本。
本发明实施例中所涉及到的初始数据为行为数据。其中,正样本为已知的异常对象的行为数据样本,负样本为已知的正常对象的行为数据样本,而未知样本可能为正样本和/或负样本。
S104,利用训练集训练预测模型,并利用验证集对训练后的预测模型进行验证,得到至少一个目标预测模型。
该步骤实质上包含两个步骤:首先,利用训练集训练预测模型,以及,利用验证集验证预测模型的识别准确率。
本发明实施例中,各预测模型可以采用不同结构的初始模型,初始模型的输入为行为数据,输出为行为数据对应对象的预测结果。在预测模型的训练阶段,输入可以为训练集中各样本,输出为各样本的预测结果。
而验证集用于在验证出当前预测模型的识别准确率较低时,可指示继续训练该预测模型;反之,若识别准确率能够达到预设要求,例如,若达到预设阈值,则可将当前训练好的预测模型作为一个目标预测模型。
此外,在具体进行预测模型的训练时,可仅训练一个预测模型,或者,也可以训练多个各不相同的预测模型,本发明实施例对于该步骤训练的预测模型的数目无特别限定。
S106,利用至少一个目标预测模型对待识别对象进行身份预测,以确定待识别对象是否为异常对象。
以下,结合具体的应用场景,对前述各步骤的实现方式进行具体说明。
本发明实施例中所涉及的行为数据可以包括但不限于:流量数据、短信数据、通话数据、账户数据与用户身份数据中的至少一种。
本发明实施例对于这些行为数据的表现形式无特别限定。例如,在一个可能的实现场景中,初始数据可以由5个表格构成,包括:用量详情-流量表格、用量详情-短信表格、用量详情-通话表格、账户截图、用户信息表格等。
在一个可能的实现场景中,可以参考图2所示的一种数据流向示意图,如图2所示,初始数据可以来源于集客系统、订单系统与物联网网络支撑(Jasper)平台中的至少一个。其中,Jasper平台的Hadoop集群中存储的物联网数据的组成,也就是,包含有少部分被标记为行为异常的数据和海量未标记的数据;而订单系统可携带与订单相关的特征信息;集客系统包含有部分用户身份信息。
前述各数据源提供的初始数据提供给该方法的执行装置(异常对象的识别装置)。在如图2所示的一个实现场景中,该异常对象的识别装置为物联网平台。此外,在具体实现时,该异常对象的识别装置可以是物联网平台或者物联网平台中的一个或多个处理器。物联网平台中可设置有多个插件,这些插件程序可实现对初始数据的预处理,经预处理后的特征数据(训练集和验证集)用于进行预测模型的训练与验证,并将验证完成后的目标预测模型反馈给物联网平台,如此,物联网平台可利用目标预测模型实现对待识别对象的身份识别。
此外,还需要说明的是,本发明实施例对于初始数据的提供时段无特殊限定,例如,其可以是一天或多天的数据,也可以是一小时或多个小时的数据;其可以是当前时段的实时数据,也可以是之前某一时段的历史数据。
而在前述数据的处理阶段,也就是,S102步骤的实现阶段,本发明实施例给出如图3所示的实现方式:
S1022,对初始数据进行特征提取,得到特征数据。
其中,该步骤在实现时可以通过关键字段信息抓取的方式实现。其中,关键字段的抓取方式可以为利用Spark编程语言实现。
具体而言,针对用量详情-流量表格,可在该表格中的物联网卡唯一标识,账户识别号码(Identification,ID),物联网卡状态与数据流量中的至少一个关键字段进行信息抓取,得到特征数据。
针对用量详情-短信表格,可在该表格中的物联网卡唯一标识,账户ID,物联网卡状态与短信用量中的至少一个关键字段进行信息抓取,得到该表格的特征数据。
针对用量详情-通话表格,则可在物联网卡唯一标识,物联网卡状态,账户ID与语音用量中的至少一个关键字段进行信息抓取,得到该表格的特征数据。
针对账户截图,则可在其中的账户ID与操作ID中的至少一个关键字段位置处进行信息抓取,得到该表格的特征数据。
针对用户信息表格,则可在用户名称与操作ID中的至少一个关键字段进行信息抓取,得到该表格的特征数据。
该步骤在具体实现时,还可以根据物联网卡的唯一标识建立各特征数据之间的相互关联,也就是,按照物联网卡的唯一标识,将一个物联网卡的全部特殊数据关联到一起。这可以获取的获得物联网用户所有物联网卡单天的流量、短信、语音的使用情况。
此外,在执行该特征提取步骤之前,还可以根据需要,对前述初始数据进行预处理,并在预处理之后执行该特征提取步骤。其中,预处理可以包括:总和多天数据。
例如,在一个可能的设计中,可以提前对前述用量详情-短信表格进行预处理:根据每天收发短信的时间,对每个物联网卡当天短信的使用次数进行加和。这是考虑到单天的特征数目较少,特征维度较低,为了扩展特征宽度和维度,可以整合多天的数据,如7天,最终得到较高维度的特征数据集合。
S1024,对特征数据进行结构化处理,得到具备统一数据格式的结构化特征数据。
本发明实施例中,该步骤是为了得到具备统一数据格式的结构化特征数据,以便于后续利用这些统一格式的结构化特征数据进行预测模型的训练。
具体而言,该结构化处理过程可以包括但不限于如下至少一种:
对特征数据进行格式统一处理;
去除特征书中的冗余值;
填充特征数据中的空值;
根据特征数据的数据类型,对特征数据进行归一化处理或哑变量处理。
其中,格式统一处理是考虑到部分特征数据的数据类型与其他数据类型不同,不利于后续执行模型训练,因此,该步骤是为了统一数据类型。例如,前述初始数据中提取出的特征数据类型包括:图片特征数据、文字特征数据与数字类型数据,而图片特征数据与文字特征数据不便于后续模型训练,因此,可将图片特征数据与文字特征数据进行格式转换,得到数字类型的数据。其中,格式转换的规则可以根据需要提前预设。
以文字类型数据为例,若提取出的特征为该物联网卡用户对应的性别为男,则可根据提前预设的规则(男性为1,女性为0),将该性别特征转换为数字类型数据:1。
而去除冗余值则是考虑到前一步骤中提取出的各特征数据中存在大量重合的数据,例如,账户截图与用户信息表格中均存在操作ID这一特征数据。这些重合是不必要的,因此,可将重复特征数据删除,避免冗余。在具体实现时,可以根据物联网卡的唯一标识,将每个唯一标识关联的多个特征数据中的重复数据中的冗余数据删除掉,仅保留一个特征数据即可。
填充特征数据中的空值是为了统一各对象的特征维度,使其特征维度一致。例如,若经前述特征提取,得到对象A的5个特征数据和对象B的4个特征数据,则可以根据预设规则,将对象B欠缺的这一维度的特征数据的特征值记录为指定数值,例如0,使得对象A与对象B的特征维度都是5。
此外,考虑到前述特征处理后的数据可能存在离散型数据,也可能存在连续数据,那么,出于便于进行模型训练的角度考虑,可以将离散型数据做转化哑变量的处理,而将连续型数据做归一化处理。
需要说明的是,若以前述多种处理方式共同执行该结构化处理步骤时,本发明实施例对于各步骤的执行时序无特殊限定。例如,可同时执行,也可以按照一定次序执行。在一个可能的实现场景中,可以按照如下流程处理:首先,对特征数据进行格式统一处理,其次,去除特征书中的冗余值,之后,填充特征数据中的空值,之后,根据特征数据的数据类型,对特征数据进行归一化处理或哑变量处理。
还需要说明的是,在实际执行数据结构化处理步骤时,还可以根据需要做其他结构化处理,本发明实施例对此无特殊限制。
S1026,对结构化特征数据进行分类,得到训练集与验证集。
如前,本发明实施例中,初始数据中已经确定某一部分物联网卡(对象)已经被盗用,成为异常对象,也就是,可作为正样本。这部分已知数据可以是初始数据中携带的,例如,Jasper平台中标记的;或者,也可以是通过其他手段确定的,对此无特殊限定。
基于此,可按照一定的比例,将前述结构化特征数据进行分类,将较大比例的结构化特征数据用于模型训练,将较小比例的结构化特征数据(均为正样本)用于模型验证。一种可能的设计中,该比例可以为7:3。
基于前述流程确定的训练集和验证集,本发明实施例还进一步提供了目标预测模型的获取方式。
首先,预测模型的训练方面,本发明实施例提供了两种训练思路:
第一种思路:利用训练集中的全部数据训练预测模型。
和/或,
第二种思路:利用训练集中包含的正样本训练预测模型。
由于本发明实施例并未限定所训练的预测模型的种类和数目,可同时利用前述两种思路进行预测模型的训练。
具体而言,预测模型的训练架构示意图可以参考图4。
首先,如图4中的S104-1示出了采用第一种思路进行预测模型训练时的一种实现方式。
在以S104-1方式执行预测模型训练时,可以包括如下步骤:
S104-1-2,利用朴素贝叶斯分类器处理未知样本,得到未知样本中的正样本与负样本,负样本为确定的正常行为数据样本。
该步骤在实现时,相当于将所有的未知样本均作为负样本,然后通过朴素贝叶斯分类器处理。针对任一未知样本,若朴素贝叶斯分类器的输出结果为正样本,则将未知样本确认为正样本;反之,若朴素贝叶斯分类器的输出结果为负样本,则将未知样本确认为负样本。
该步骤实质上实现了针对训练集中的正样本与负样本的分类。
S104-1-4,利用训练集中的全部正样本与全部负样本训练预测模型,其中,预测模型为分类模型。
基于S104-1-2步骤的分类,后续训练预测模型时,可采用分类模型实现。具体的,分类模型可以包括但不限于如下至少一种:支持向量机(Support Vector Machine,SVM)模型、线性回归模型、随机森林树模型。
如图4所示的S104-2示出了采用第一种思路进行预测模型训练时的另一种实现方式。
在以S104-2方式执行预测模型训练时,可以包括如下步骤:利用训练集中的全部数据训练预测模型;其中,预测模型为:偏倚支持向量机(Biased SVM)算法模型和/或加权逻辑回归(Weighted Regression)算法模型。其中,偏倚支持向量机算法与加权逻辑回归算法适用于多类数据的预测场景。
在以S104-2所示方式进行预测模型训练时,无需确认其中的负样本,可直接利用整个训练集进行训练即可。
如图4所示的S104-3示出了采用第二种思路进行预测模型训练时的另一种实现方式。
在以S104-3方式执行预测模型训练时,可以包括如下步骤:利用训练集中包含的正样本训练预测模型;其中,预测模型为一分类支持向量机(One Class SVM)算法模型。其中,一分类支持向量机算法适用于一类数据的预测场景。
通过前述处理,可得到各自算法模型训练出来的至少一个预测模型。
如前,本发明实施例中还设置了验证集,通过验证集进行预测模型验证的准则为:其中,r表示召回率,也就是,预测模型预测出来的正样本在总的正样本数目中的占比,而Pr[f(x)=1]由整个验证集计算得到,用于指示一个样本被预测为正样本的概率。
在一个具体的实现场景中,可参考图4所示流程,该验证方式为:
S104-4-2,将验证集输入预测模型,得到预测结果;
S104-4-4,获取预测结果的正确率;
S104-4-6,判断该正确率是否达到预设的正确率阈值,若是,执行S104-4-8;若否,执行S S104-1~S104-3中的至少一个步骤。
S104-4-8,将当前预测模型确定为目标预测模型。
反之,若正确率未达到该正确率阈值,则需要重新执行前述训练步骤(S104-1~S104-3中的至少一个步骤)。
举例说明。若验证集中共包含4k个对象的行为数据,且这4k个对象均为异常对象。将每个对象的行为数据作为预测模型的输入,得到预测模型输出的预测结果,此时,可能得到为正的结果(异常对象),也可能得到为负的结果(正常对象),此时,获取其预测正确的对象数占验证集中总对象数的比例,假设预测正确的对象数为3k,则该预测模型的预测结果的正确率为3k/4k,也就是75%。此时,将其与预设阈值比较,若75%大于或者等于预设正确率阈值,则可将该预测模型作为目标预测模型之一;若75%小于预设正确率阈值,则重新返回前述模型训练步骤。
重新返回模型训练步骤进行训练的实质为对预测模型进行参数调整寻优,以使得其输出结果更趋近真实结果。具体的,可使用Pipeline模式(管道模式)来实现参数寻优的串行管道化处理,Grid Search(网格搜索)来实现参数寻优过程中的多重参数指标的自有组合,进行最优参数的自动筛选。
通过前述方案,可以经前述模型训练流程,得到至少一个目标预测模型。
在具体执行针对待识别对象的身份预测时,可以在前述确定的至少一个目标预测模型中确定一个目标预测模型,来实现对待识别对象的身份预测,此时,该目标预测模型输出的预测结果即为最终结果。
或者,在另一实现场景中,可以通过至少一个目标预测模型(可以前述训练出的所有目标预测模型,或其中的部分目标预测模型,无特别限定)共同作用,得到待识别对象的身份预测结果。
也就是,利用至少一个目标预测模型对待识别对象进行身份预测,得到至少一个预测结果,然后,根据至少一个预测结果,确定待识别对象是否为异常对象。
具体而言,根据至少一个预测结果,确定待识别对象是否为异常对象可以有多种实现方式。
一种可能的设计中,可以为各目标预测模型输出的预测结果设置权重,然后,通过加权的方式获得最终预测结果。
例如,假设预测样本的正样本为正数,负样本为负数,基础值均为1,权重值不同。则可以在前述各目标预测模型输出的预测结果上乘以各自对应的权重值,并求和,若该总和为正数,则确定该待识别对象为正样本对象,也就是异常对象,该物联网卡可能被盗用;反之,若该总和为负数,则确定该待识别对象为负样本对象,也就是正常对象。
另一种可能的设计中,根据输出结果的数目比较得到最终预测结果。
例如,若前述各目标预测模型输出的预测结果中正样本结果数目为A,负样本结果数目为B,若A大于B,则确定该待识别对象为正样本对象,也就是异常对象,该物联网卡可能被盗用;反之,若A小于B,则确定该待识别对象为负样本对象,也就是正常对象。
通过多个目标预测模型共同作用对待识别对象的身份进行身份验证,可有效提高验证结果的准确率。
此外,对于后期产生的物联网卡终端数据可以进行预测时,还可以建立一个字典,用户账户为键值,其对应的值为该账户名下数据异常卡数,根据该账户数据异常总卡数和开卡总数的比值来确定该任一待识别对象是否有较大概率为异常对象。根据模型预测的异常对象,物联网公司可进行实地考察,确认该异常对象账户下的卡是否大量存在异常使用情况,并对此作出相应的举措。
本发明实施例利用机器学习算法,完成了物联网异常对象的预测,帮助运营商快速精准地识别异常对象,减少不必要的损失,完善了物联网发展体系,有利于物联网产业的健康发展。识别异常对象的模型在异常对象数据量很小的情况下完成了较精准的识别,省去了大量人工打标的人力与时间,是一种未来大数据领域的趋势。
可以理解的是,上述实施例中的部分或全部步骤或操作仅是示例,本申请实施例还可以执行其它操作或者各种操作的变形。此外,各个步骤可以按照上述实施例呈现的不同的顺序来执行,并且有可能并非要执行上述实施例中的全部操作。
基于上述实施例所提供的异常对象识别方法,本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。
本发明实施例提供了一种异常对象识别装置,请参考图5,该异常对象识别装置500,包括:
处理模块510,用于对初始数据进行处理并分类,得到训练集与验证集,其中,训练集包括正样本与未知样本,验证集包括正样本,正样本为已知的异常对象的行为数据样本;
训练模块520,用于利用训练集训练预测模型,并利用验证集对训练后的预测模型进行验证,得到至少一个目标预测模型;
识别模块530,用于利用至少一个目标预测模型对待识别对象进行身份预测,以确定待识别对象是否为异常对象。
一种可能的设计中,处理模块510,具体用于:
对初始数据进行特征提取,得到特征数据;
对特征数据进行结构化处理,得到具备统一数据格式的结构化特征数据;
对结构化特征数据进行分类,得到训练集与验证集。
另一种可能的设计中,处理模块510,具体用于执行如下至少一种:
对特征数据进行格式统一处理;
去除特征书中的冗余值;
填充特征数据中的空值;
根据特征数据的数据类型,对特征数据进行归一化处理或哑变量处理。
另一种可能的设计中,初始数据包括:流量数据、短信数据、通话数据、账户数据与用户身份数据中的至少一种。
另一种可能的设计中,训练模块520,用于:
利用训练集中包含的正样本训练预测模型;和/或,
利用训练集中的全部数据训练预测模型;
其中,预测模型的输入为行为数据,输出为行为数据对应对象的预测结果。
此时,一种可能的设计中,训练模块520,具体用于:
利用朴素贝叶斯分类器处理未知样本,得到未知样本中的正样本与负样本,负样本为确定的正常行为数据样本;
利用训练集中的全部正样本与全部负样本训练预测模型,其中,预测模型为分类模型。
或者,另一种可能的设计中,训练模块520,具体用于:
利用训练集中的全部数据训练预测模型;其中,预测模型为:偏倚支持向量机Biased SVM算法模型和/或加权逻辑回归Weighted Regression算法模型。
或者,另一种可能的设计中,训练模块520,具体用于:
利用训练集中包含的正样本训练预测模型;其中,预测模型为一分类支持向量机One Class SVM算法模型。
此外,训练模块520,具体用于:
将验证集输入预测模型,得到预测结果;
获取预测结果的正确率;
若正确率达到预设的正确率阈值,将当前预测模型确定为目标预测模型。
另一种可能的设计中,识别模块530,具体用于:
利用至少一个目标预测模型对待识别对象进行身份预测,得到至少一个预测结果;
根据至少一个预测结果,确定待识别对象是否为异常对象。
并且,本发明实施例提供了一种异常对象识别装置,请参考图6,该异常对象识别装置600,包括:
存储器610;
处理器620;以及
计算机程序;
其中,计算机程序存储在存储器610中,并被配置为由处理器620执行以实现如上述实施例所述的方法。
此外,如图6所示,在该异常对象识别装置600中还设置有收发器630,用于与其他设备进行数据传输或通信,在此不再赘述。其中,如图6所示,存储器610、处理器620与收发器630通过总线连接。
此外,本发明实施例提供了一种可读存储介质,其上存储有计算机程序,
该计算机程序被处理器执行以实现如前任一实施例所述的异常对象识别方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本发明旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。
Claims (14)
1.一种异常对象识别方法,其特征在于,包括:
对初始数据进行处理并分类,得到训练集与验证集,其中,所述训练集包括正样本与未知样本,所述验证集包括正样本,所述正样本为已知的异常对象的行为数据样本;
利用所述训练集训练预测模型,并利用所述验证集对训练后的预测模型进行验证,得到至少一个目标预测模型;
利用所述至少一个目标预测模型对待识别对象进行身份预测,以确定所述待识别对象是否为异常对象;
所述利用所述训练集训练预测模型,包括:
利用所述训练集中的全部数据训练所述预测模型;和,利用所述训练集中包含的所述正样本训练所述预测模型;
所述利用所述训练集中的全部数据训练所述预测模型,包括:
利用朴素贝叶斯分类器处理所述未知样本,得到所述未知样本中的正样本与负样本,所述负样本为确定的正常行为数据样本;
利用所述训练集中的全部正样本与全部负样本训练所述预测模型,其中,所述预测模型为分类模型;
所述利用所述训练集中的全部数据训练所述预测模型,还包括:
利用所述训练集中的全部数据训练所述预测模型;其中,所述预测模型为:偏倚支持向量机Biased SVM算法模型和/或加权逻辑回归Weighted Regression算法模型;
所述利用所述训练集中包含的所述正样本训练所述预测模型,包括:
利用所述训练集中包含的所述正样本训练所述预测模型;其中,所述预测模型为一分类支持向量机One Class SVM算法模型。
2.根据权利要求1所述的方法,其特征在于,所述对初始数据进行处理并分类,得到训练集与验证集,包括:
对所述初始数据进行特征提取,得到特征数据;
对所述特征数据进行结构化处理,得到具备统一数据格式的结构化特征数据;
对所述结构化特征数据进行分类,得到所述训练集与所述验证集。
3.根据权利要求2所述的方法,其特征在于,对所述特征数据进行结构化处理,包括如下至少一种:
对所述特征数据进行格式统一处理;
去除所述特征数据中的冗余值;
填充所述特征数据中的空值;
根据所述特征数据的数据类型,对所述特征数据进行归一化处理或哑变量处理。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述初始数据包括:流量数据、短信数据、通话数据、账户数据与用户身份数据中的至少一种。
5.根据权利要求1所述的方法,其特征在于,所述利用所述验证集对训练后的预测模型进行验证,包括:
将所述验证集输入所述预测模型,得到预测结果;
获取所述预测结果的正确率;
若所述正确率达到预设的正确率阈值,将当前预测模型确定为所述目标预测模型。
6.根据权利要求1所述的方法,其特征在于,所述利用所述至少一个目标预测模型对待识别对象进行身份预测,以确定所述待识别对象是否为异常对象,包括:
利用所述至少一个目标预测模型对待识别对象进行身份预测,得到至少一个预测结果;
根据所述至少一个预测结果,确定所述待识别对象是否为异常对象。
7.一种异常对象识别装置,其特征在于,包括:
处理模块,用于对初始数据进行处理并分类,得到训练集与验证集,其中,所述训练集包括正样本与未知样本,所述验证集包括正样本,所述正样本为已知的异常对象的行为数据样本;
训练模块,用于利用所述训练集训练预测模型,并利用所述验证集对训练后的预测模型进行验证,得到至少一个目标预测模型;
识别模块,用于利用所述至少一个目标预测模型对待识别对象进行身份预测,以确定所述待识别对象是否为异常对象;
所述训练模块,用于:
利用所述训练集中的全部数据训练所述预测模型;和,
利用所述训练集中包含的所述正样本训练所述预测模型;
所述训练模块,具体用于:
利用朴素贝叶斯分类器处理所述未知样本,得到所述未知样本中的正样本与负样本,所述负样本为确定的正常行为数据样本;
利用所述训练集中的全部正样本与全部负样本训练所述预测模型,其中,所述预测模型为分类模型;
所述训练模块,还具体用于:
利用所述训练集中的全部数据训练所述预测模型;其中,所述预测模型为:偏倚支持向量机Biased SVM算法模型和/或加权逻辑回归Weighted Regression算法模型;
所述训练模块,还具体用于:
利用所述训练集中包含的所述正样本训练所述预测模型;其中,所述预测模型为一分类支持向量机One Class SVM算法模型。
8.根据权利要求7所述的装置,其特征在于,所述处理模块,具体用于:
对所述初始数据进行特征提取,得到特征数据;
对所述特征数据进行结构化处理,得到具备统一数据格式的结构化特征数据;
对所述结构化特征数据进行分类,得到所述训练集与所述验证集。
9.根据权利要求8所述的装置,其特征在于,所述处理模块,具体用于执行如下至少一种:
对所述特征数据进行格式统一处理;
去除所述特征数据中的冗余值;
填充所述特征数据中的空值;
根据所述特征数据的数据类型,对所述特征数据进行归一化处理或哑变量处理。
10.根据权利要求7-9任一项所述的装置,其特征在于,所述初始数据包括:流量数据、短信数据、通话数据、账户数据与用户身份数据中的至少一种。
11.根据权利要求7所述的装置,其特征在于,所述训练模块,具体用于:
将所述验证集输入所述预测模型,得到预测结果;
获取所述预测结果的正确率;
若所述正确率达到预设的正确率阈值,将当前预测模型确定为所述目标预测模型。
12.根据权利要求7所述的装置,其特征在于,所述识别模块,具体用于:
利用所述至少一个目标预测模型对待识别对象进行身份预测,得到至少一个预测结果;
根据所述至少一个预测结果,确定所述待识别对象是否为异常对象。
13.一种异常对象识别装置,其特征在于,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-6任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,
所述计算机程序被处理器执行以实现如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811413135.5A CN109522304B (zh) | 2018-11-23 | 2018-11-23 | 异常对象识别方法及装置、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811413135.5A CN109522304B (zh) | 2018-11-23 | 2018-11-23 | 异常对象识别方法及装置、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109522304A CN109522304A (zh) | 2019-03-26 |
CN109522304B true CN109522304B (zh) | 2021-05-18 |
Family
ID=65779099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811413135.5A Active CN109522304B (zh) | 2018-11-23 | 2018-11-23 | 异常对象识别方法及装置、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109522304B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783804B (zh) * | 2019-04-04 | 2023-11-24 | 中国移动通信集团上海有限公司 | 异常话单确定方法、装置、设备及存储介质 |
CN110032596B (zh) * | 2019-04-17 | 2021-07-27 | 中国联合网络通信集团有限公司 | 流量异常用户识别方法及系统 |
CN110075524B (zh) * | 2019-05-10 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 异常行为检测方法和装置 |
CN110348471B (zh) * | 2019-05-23 | 2023-09-01 | 平安科技(深圳)有限公司 | 异常对象识别方法、装置、介质及电子设备 |
CN111860872B (zh) * | 2019-06-11 | 2024-03-26 | 北京嘀嘀无限科技发展有限公司 | 用于异常检测的系统和方法 |
CN110390584B (zh) * | 2019-07-24 | 2022-05-17 | 秒针信息技术有限公司 | 一种异常用户的识别方法、识别装置及可读存储介质 |
CN112488141B (zh) * | 2019-09-12 | 2023-04-07 | 中移(苏州)软件技术有限公司 | 物联卡应用范围的确定方法、装置及计算机可读存储介质 |
CN110808988B (zh) * | 2019-11-08 | 2021-09-10 | 国家计算机网络与信息安全管理中心山西分中心 | 一种基于信息特征熵和长短期记忆网络的物联网卡业务异常检测方法 |
SG10202001528TA (en) * | 2020-02-20 | 2020-07-29 | Alipay Labs Singapore Pte Ltd | Methods and systems for identity proofing |
CN111476375B (zh) * | 2020-03-30 | 2023-09-19 | 中移动信息技术有限公司 | 一种确定识别模型的方法、装置、电子设备及存储介质 |
CN115545271A (zh) * | 2020-08-12 | 2022-12-30 | 支付宝(杭州)信息技术有限公司 | 一种用户身份状态预测方法、装置及设备 |
CN112446425A (zh) * | 2020-11-20 | 2021-03-05 | 北京思特奇信息技术股份有限公司 | 一种用于自动获取疑似养卡渠道的方法和装置 |
CN112396513B (zh) * | 2020-11-27 | 2024-02-20 | 中国银联股份有限公司 | 一种数据处理的方法及装置 |
CN112907351A (zh) * | 2021-02-05 | 2021-06-04 | 中国工商银行股份有限公司 | 金融报文异常识别方法及装置 |
CN113129054B (zh) * | 2021-03-30 | 2024-05-31 | 广州博冠信息科技有限公司 | 用户识别方法和装置 |
CN114143227B (zh) * | 2021-10-25 | 2024-09-17 | 国网山西省电力公司阳泉供电公司 | 一种物联网卡异常状态监测预警方法 |
CN113837672B (zh) * | 2021-11-26 | 2022-03-15 | 深圳普菲特信息科技股份有限公司 | 基于工业互联网的设备维护管理方法 |
CN114500326B (zh) * | 2022-02-25 | 2023-08-11 | 北京百度网讯科技有限公司 | 异常检测方法、装置、电子设备以及存储介质 |
CN115880696A (zh) * | 2022-12-29 | 2023-03-31 | 天翼物联科技有限公司 | 一种基于深度学习的物联网卡管理方法、装置及相关介质 |
CN116302661B (zh) * | 2023-05-15 | 2023-10-13 | 合肥联宝信息技术有限公司 | 一种异常预测方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069470A (zh) * | 2015-07-29 | 2015-11-18 | 腾讯科技(深圳)有限公司 | 分类模型训练方法及装置 |
CN107766418A (zh) * | 2017-09-08 | 2018-03-06 | 广州汪汪信息技术有限公司 | 一种基于融合模型的信用评估方法、电子设备和存储介质 |
CN107958382A (zh) * | 2017-12-06 | 2018-04-24 | 北京小度信息科技有限公司 | 异常行为识别方法、装置、电子设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6714925B1 (en) * | 1999-05-01 | 2004-03-30 | Barnhill Technologies, Llc | System for identifying patterns in biological data using a distributed network |
US9898811B2 (en) * | 2015-05-08 | 2018-02-20 | Kla-Tencor Corporation | Method and system for defect classification |
CN107341401B (zh) * | 2017-06-21 | 2019-09-20 | 清华大学 | 一种基于机器学习的恶意应用监测方法和设备 |
CN107862468A (zh) * | 2017-11-23 | 2018-03-30 | 深圳市智物联网络有限公司 | 设备风险识别模型建立的方法及装置 |
CN108364106A (zh) * | 2018-02-27 | 2018-08-03 | 平安科技(深圳)有限公司 | 一种报销单风险预测方法、装置、终端设备及存储介质 |
-
2018
- 2018-11-23 CN CN201811413135.5A patent/CN109522304B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069470A (zh) * | 2015-07-29 | 2015-11-18 | 腾讯科技(深圳)有限公司 | 分类模型训练方法及装置 |
CN107766418A (zh) * | 2017-09-08 | 2018-03-06 | 广州汪汪信息技术有限公司 | 一种基于融合模型的信用评估方法、电子设备和存储介质 |
CN107958382A (zh) * | 2017-12-06 | 2018-04-24 | 北京小度信息科技有限公司 | 异常行为识别方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109522304A (zh) | 2019-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522304B (zh) | 异常对象识别方法及装置、存储介质 | |
CN111444952B (zh) | 样本识别模型的生成方法、装置、计算机设备和存储介质 | |
CN107835496B (zh) | 一种垃圾短信的识别方法、装置和服务器 | |
CN107122369B (zh) | 一种业务数据处理方法、装置和系统 | |
CN111970400B (zh) | 骚扰电话识别方法及装置 | |
CN107291775B (zh) | 错误样本的修复语料生成方法和装置 | |
CN110348471B (zh) | 异常对象识别方法、装置、介质及电子设备 | |
CN115577858B (zh) | 基于区块链的碳排放量预测方法、装置及电子设备 | |
CN111260220A (zh) | 群控设备识别方法、装置、电子设备和存储介质 | |
CN110675263B (zh) | 交易数据的风险识别方法以及装置 | |
CN111444362A (zh) | 恶意图片拦截方法、装置、设备和存储介质 | |
CN105099700A (zh) | 一种认证方法、服务器及系统 | |
CN114297735A (zh) | 数据处理方法及相关装置 | |
CN113065748A (zh) | 业务风险评估方法、装置、设备及存储介质 | |
CN114491010A (zh) | 信息抽取模型的训练方法及装置 | |
CN111464687A (zh) | 一种陌生呼叫请求的处理方法及装置 | |
CN113946703A (zh) | 一种图片漏检处理方法及其相关装置 | |
CN109308565B (zh) | 人群绩效等级识别方法、装置、存储介质及计算机设备 | |
CN111639718A (zh) | 分类器应用方法及装置 | |
CN114944950A (zh) | 实名认证方法以及装置 | |
CN118381682B (zh) | 工控网络攻击事件综合分析溯源方法及装置 | |
CN114648978B (zh) | 一种语音验证处理的方法以及相关装置 | |
CN117058432B (zh) | 图像查重方法、装置、电子设备及可读存储介质 | |
CN116993307B (zh) | 一种具有人工智能学习能力的协同办公方法及系统 | |
CN116778534B (zh) | 图像处理方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |