CN107133265B - 一种识别行为异常用户的方法及装置 - Google Patents

一种识别行为异常用户的方法及装置 Download PDF

Info

Publication number
CN107133265B
CN107133265B CN201710209852.5A CN201710209852A CN107133265B CN 107133265 B CN107133265 B CN 107133265B CN 201710209852 A CN201710209852 A CN 201710209852A CN 107133265 B CN107133265 B CN 107133265B
Authority
CN
China
Prior art keywords
signaling data
training
data
information table
characteristic value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710209852.5A
Other languages
English (en)
Other versions
CN107133265A (zh
Inventor
王正平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MIGU Comic Co Ltd
Original Assignee
MIGU Comic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MIGU Comic Co Ltd filed Critical MIGU Comic Co Ltd
Priority to CN201710209852.5A priority Critical patent/CN107133265B/zh
Publication of CN107133265A publication Critical patent/CN107133265A/zh
Application granted granted Critical
Publication of CN107133265B publication Critical patent/CN107133265B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90348Query processing by searching ordered data, e.g. alpha-numerically ordered data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Abstract

本发明公开了一种识别行为异常用户的方法,包括:根据黑号码库和白号码库在全量话单的信令数据中获取训练信令数据和测试信令数据;获取训练信令数据中特征值与目标的特征值相关性较高的第一信令数据;根据第一信令数据的特征值和时间粒度生成包括衍生指标的第一信息表;使用第一筛选策略对衍生指标进行筛选,生成包括显著指标的第二信息表;将第一信息表和第二信息表结合,生成训练信息表;基于所述训练信息表建立第一模型,并使用所述测试信令数据对所述第一模型进行测试,得到测试结果;根据所述测试结果对所述第一模型进行评估,得到评估优化后的第二模型,以识别行为异常用户。本发明还公开了一种识别行为异常用户的装置。采用本发明提供的识别行为异常用户的方法及装置,可以减少算法模型上线后的调整优化时间。

Description

一种识别行为异常用户的方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种识别行为异常用户的方法及装置。
背景技术
现有技术中识别异常呼叫用户或诈骗号码时,一般先通过用户自主标记、警方与信安部提供黑名单、第三方友商渠道等建立或搜集黑名单,对黑名单进行分类后建立数据库,再将当前号码与数据库进行比对进行当前号码识别。该方法不能有效实时发现行为异常的用户或是涉及诈骗的号码。
另一种识别异常呼叫用户或诈骗号码的方案中,通过算法针对用户行为进行分析并形成算法模型,该方案能透过现有的数据测试算法模型是否正确,并在算法模型实际上线运作后逐步调整优化,但算法模型从上线到稳定运行所需时间较长,从而导致在较长时间内无法识别行为异常用户。
发明内容
为解决上述技术问题,本发明实施例提供一种识别行为异常用户的方法及装置,以减少算法模型上线后的调整优化时间。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种识别行为异常用户的方法及装置,包括:
根据黑号码库和白号码库在全量话单的信令数据中获取训练信令数据和测试信令数据;
获取训练信令数据中特征值与目标的特征值相关性较高的第一信令数据;
根据所述第一信令数据的特征值和时间粒度生成包括衍生指标的第一信息表;
使用第一筛选策略对所述衍生指标进行筛选,生成包括显著指标的第二信息表;
将所述第一信息表和所述第二信息表结合,生成训练信息表;
基于所述训练信息表建立第一模型,并使用所述测试信令数据对所述第一模型进行测试,得到测试结果;
根据所述测试结果对所述第一模型进行评估,得到评估优化后的第二模型,以识别行为异常用户。
上述方案中,所述根据黑号码库和白号码库在全量话单的信令数据中获取训练信令数据和测试信令数据,包括:
从数据库中取出全量话单的信令数据;
根据黑号码库和白号码库,在全量话单中获取黑样本数据和白样本数据;
通过黑样本数据和白样本数据在全量话单的信令数据中获取训练信令数据和测试信令数据。
上述方案中,所述获取训练信令数据中特征值与目标的特征值相关性较高的第一信令数据,包括:
将训练信令数据中特征值与目标的特征值无关的信令数据或特征值为噪声的信令数据删除,获取训练信令数据中特征值与目标的特征值相关性较高的第一信令数据。
上述方案中,所述使用第一筛选策略对所述衍生指标进行筛选,包括:
对所述衍生指标的特征值两两之间的相关性进行相关分析,根据分析结果将多余特征值筛除;
对所述衍生指标的特征值与目标的特征值的相关性进行维规约分析,根据分析结果将不相关特征值筛除。
上述方案中,所述使用第一筛选策略对所述衍生指标进行筛选,还包括:
对所述衍生指标进行方差分析和/或去噪处理。
上述方案中,所述基于所述训练信息表建立第一模型,并使用所述测试信令数据对所述第一模型进行测试,得到测试结果,包括:
基于所述训练信息表和分类算法构建分类器,并使用测试信令数据对所述分类器进行测试,并记录相应测试结果。
上述方案中,所述根据所述测试结果对所述第一模型进行评估,包括:
对所述第一模型的预测效果和运行效果分别进行评估。
上述方案中,所述通过黑样本数据和白样本数据在全量话单的信令数据中获取训练信令数据,包括:
获取全部黑样本数据和部分白样本数据组成所述训练信令数据;其中,
所述黑样本数据的数量占所述训练信令数据数量的第一阈值范围;
在全量话单的信令数据中随机抽取的白样本数据的数量占所述训练信令数据数量的第二阈值范围。
本发明实施例提供一种识别行为异常用户的装置,所述装置包括:
第一获取单元,用于根据黑号码库和白号码库在全量话单的信令数据中获取训练信令数据和测试信令数据;
第二获取单元,用于获取训练信令数据中特征值与目标的特征值相关性较高的第一信令数据;
第一生成单元,用于根据所述第一信令数据的特征值和时间粒度生成包括衍生指标的第一信息表;
第二生成单元,用于使用第一筛选策略对所述衍生指标进行筛选,生成包括显著指标的第二信息表;
第三生成单元,用于将所述第一信息表和所述第二信息表结合,生成训练信息表;
建模分析单元,用于基于所述训练信息表建立算法模型,并使用所述测试信令数据对所述算法模型进行测试;
评估单元,用于对测试后的所述算法模型进行评估,得到最优算法模型。
上述方案中,所述第一获取单元还用于:
从数据库中取出全量话单的信令数据;
根据黑号码库和白号码库,在全量话单中获取黑样本数据和白样本数据;
通过黑样本数据和白样本数据在全量话单的信令数据中获取训练信令数据和测试信令数据。
上述方案中,所述第二获取单元还用于:
将训练信令数据中特征值与目标的特征值无关的信令数据或特征值为噪声的信令数据删除,获取训练信令数据中特征值与目标的特征值相关性较高的第一信令数据。
上述方案中,所述第二生成单元用于:
对所述衍生指标的特征值两两之间的相关性进行相关分析,根据分析结果将多余特征值筛除;
对所述衍生指标的特征值与目标的特征值的相关性进行维规约分析,根据分析结果将不相关特征值筛除。
上述方案中,所述第二生成单元用于:对所述衍生指标进行方差分析和/或去噪处理。
上述方案中,所述建模分析单元还用于:
基于所述训练信息表和分类算法构建分类器,并使用测试信令数据对所述分类器进行测试,并记录相应测试结果。
上述方案中,所述评估单元还用于:
对所述算法模型的预测效果和运行效果分别进行评估。
上述方案中,所述第一获取单元还用于:
获取全部黑样本数据和部分白样本数据组成所述训练信令数据;其中,
所述黑样本数据的数量占所述训练信令数据数量的第一阈值范围;
在全量话单的信令数据中随机抽取的白样本数据的数量占所述训练信令数据数量的第二阈值范围。
本发明实施例所提供的识别行为异常用户的方法及装置通过获取训练信令数据和测试信令数据,并基于训练信令数据生成训练信息表;之后,基于训练信息表建立算法模型并使用测试信令数据进行算法模型测试,并经过评估步骤确认最优算法模型,相比较现有技术中算法模型上线后才进行优化调整,减少了算法模型上线后的调整优化时间。
附图说明
图1为本发明实施例识别行为异常用户的方法的实现流程图;
图2为本发明实施例识别行为异常用户的装置的组成结构示意图。
具体实施方式
为了能够更加详尽地了解本发明的特点与技术内容,下面结合附图对本发明的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明。
图1为本发明实施例识别行为异常用户的方法的实现流程图,如图1所示,本发明实施例提供的识别行为异常用户的方法包括:
步骤101,根据黑号码库和白号码库在全量话单的信令数据中获取训练信令数据和测试信令数据。
步骤102,获取训练信令数据中特征值与目标的特征值相关性较高的第一信令数据。
步骤103,根据第一信令数据的特征值和时间粒度生成包括衍生指标的第一信息表。
步骤104,使用第一筛选策略对衍生指标进行筛选,生成包括显著指标的第二信息表。
步骤105,将第一信息表和第二信息表结合,生成训练信息表。
步骤106,基于训练信息表建立第一模型,并使用测试信令数据对第一模型进行测试,得到测试结果。
步骤107,根据所述测试结果对第一模型进行评估,得到评估优化后的第二模型,以识别行为异常用户。
本发明实施例提供的识别行为异常用户的方法通过对基础通话数据进行各项通话数据特征指标的识别及计算,最终获得识别行为异常用户所需特征指标信息表及分析算法,为多种不良、违规、不法等用户通话行为分析发现提供了通用的分析算法构建方法。
本发明实施例得到的算法模型能够根据用户的异常行为模式,或是诈骗号码的异常行为模式,藉由调整训练信令数据为训练信息表,迅速修正算法模型,使得服务器可以根据算法模型快速反应找出异常用户与诈骗号码,有效减少服务器运算时间以及提升服务器效能,进而减少算法模型上线后的调整优化时间。
在通信过程中,负责呼叫处理的服务器会将所有用户每次通话的起呼、接听、挂机等事件在通讯网络中传输的信令消息收集并整合,然后以通话记录话单方式写入业务平台数据库。
在步骤101中,根据黑号码库和白号码库在全量话单的信令数据中获取训练信令数据和测试信令数据时,首先从数据库中取出全量话单的信令数据;再根据黑号码库和白号码库,在全量话单中获取黑样本数据和白样本数据,其中,黑样本数据与黑号码库对应,白样本数据与白样本库对应;然后通过黑样本数据和白样本数据在全量话单的信令数据中获取模型训练基准识别数据即训练信令数据和测试信令数据。
训练信令数据由全部黑样本数据和部分白样本数据组成;其中,黑样本数据的数量占训练信令数据数量的第一阈值范围;在全量话单的信令数据中随机抽取的白样本数据的数量占训练信令数据数量的第二阈值范围。
训练信令数据中组成黑样本数据的信令数据为目标样本,需标识出来;组成白样本的信令数据采用随机抽取的方式,根据目标样本的数量按比例进行抽取。通常目标样本的信令数据量占训练信令数据数量的第一阈值范围,该第一阈值范围为15%-50%。同时,训练信令数据为目标样本的信令数据与白样本的信令数据的加总组和,因此白样本的信令数据数量占训练信令数据数量的第二阈值范围为50%-85%。
测试信令数据与训练信令数据类似,但是需要选择与训练信令数据不同日期的信令数据。测试信令数据中,黑样本的信令数据依然需要标识出来,作为算法模型测试检验的依据。
测试信令数据与训练信令数据都基于对全量用户通话数据的全量采集,不同之处包括时间、内容及目标三方面。
首先,获取的时间段是相对独立的。举例来说,训练信令数据如果是以2月份第一周的全量通话数据为数据集合,那么测试信令数据可以续3月份第一周的全量通话数据为数据集合。
其次,训练信令数据中包括已知的黑样本在本数据集合中有通话记录;而测试信令数据中预先没有黑样本的。
最后,训练信令数据主要用于基于黑白样本进行分析任务目标算法的学习,测试信令数据主要用于对算法模型的检测验证。
信令数据的基础知识数据包括:
全网运营商号段数据:运营商、号段、归属地市;
公共特服号码数据:号码、特服行业;
黑名单/白名单数据:号码、行为类型、违规/合规标识;
彩印用户:用户编号、用户归属地区、用户号码、业务类型;
通话记录表:通话记录编号、主叫号码、被叫号码、通话起始时间、通话结束时间、挂机时间、挂机方向;
提醒记录表:提醒记录编号、主叫号码、被叫号码、提醒类型、提醒消息编号。
在步骤102中,将训练信令数据中特征值与目标的特征值无关的信令数据或特征值为噪声的信令数据删除,获取训练信令数据中特征值与目标的特征值相关性较高的第一信令数据。
特征值的来源就是信令数据中的特征,通过步骤102可以清理信令数据中的噪声数据、空缺数据和不一致数据,例如主叫号码为空的记录。
信令数据中包括多种特征值,在步骤102中,由众多特征值中挑选出常用的基础指标,并获取具有基础指标的第一信令数据。
基础指标模板如表1所示:
Figure BDA0001260736510000071
Figure BDA0001260736510000081
表1基础指标模板列表
在步骤103中,基于第一信令数据的基础指标,针对各种呼叫特征进行统计,计算获得衍生指标,形成第一信息表。
衍生指标的计算过程,主要是从大批量的信令数据的特征值中,基于主叫号码、被叫号码、呼叫频次、呼叫时间间隔、振铃时长、通话时长、释放方向、释放原因、接通率、被叫号码离散度、被叫归属地区离散度等多种统计项目,并结合24小时、忙时和闲时等时间粒度,可以得到带有时间粒度的衍生指标,例如24小时内的平均通话时长等,最终形成衍生指标的第一信息表。
衍生指标列表如表2所示:
Figure BDA0001260736510000082
Figure BDA0001260736510000091
Figure BDA0001260736510000101
表2衍生指标列表
由于衍生指标之间可能存在相关性,或者衍生指标与目标样本的指标之间没有显著性,因此需要进行对衍生指标进行筛选。在步骤104中,首先对衍生指标的特征值两两之间的相关性进行相关分析,根据分析结果将多余特征值筛除;对衍生指标的特征值与目标的特征值的相关性进行维规约分析,根据分析结果将不相关特征值筛除;再对衍生指标进行方差分析和/或去噪处理,得到显著指标,并最终形成显著指标的第二信息表。
其中,显著指标是指某些基础指标或衍生指标与目标样本的特征值之间的显著性很大,可叫做显著指标。
显著指标可设定为:统计时间、主叫号码、被叫离散度、呼叫频次、呼叫接通率、被叫挂机率、平均通话时长、短通话频次、短通话被叫离散度。
维规约分析对分析挖掘具有多方面优点。例如,降低维度后,能够一定程度删除不相关的特征并降低噪声,进而可有更多的挖掘算法选择;同时,进行维归约分析后将使得模型更易理解,数据结果可视化效果佳;即便维规约分析不能将数据归约到二维或三维,数据也可以通过观察属性或将三个属性可视化的方式,使得组合数目降低,将带来挖掘分析的时间、内存及计算资源的节约。
在步骤105中,将衍生指标的信息表与显著指标的信息表结合,形成训练信息表。
训练信息表由训练信令数据调整得到,代替训练信令数据用于后续建模。
在步骤106中,基于训练信息表和分类算法构建分类器,并使用测试信令数据对分类器进行测试,并记录相应测试结果。
在本申请中,可以使用R语言基于训练信息表和分类算法构建分类器,但本申请不以此为限,也可使用其它种类的编程语言进行构建。
相应测试结果用于后续的算法模型的评估与优化步骤。
可以使用的分类算法包括:决策树,逻辑回归,随机森林,支持向量机,神经网络模型等算法。同时,可以使用装袋(Bagging)或提升(Boosting)方法将多个分类器结果通过构造预测函数系列组合,使分类预测结果更精准。
在步骤107中,对算法模型的预测效果和运行效果分别进行评估,得到评估优化后的第二模型,以识别行为异常用户。
其中,预测效果包括对该模型的查准率,查全率,F-measure等指标的预测,其中,查准率又称精准率,查全率又称召回率,F-measure又称F-score。
在考察查全率时,首先需要根据测试信令数据测试的结构,构建如表3所示的混淆矩阵。
Figure BDA0001260736510000121
表3混淆矩阵
根据该矩阵,可以根据以下公式计算出相应指标,从而衡量该模型的表现。其中:
预测为诈骗的精准度Precison计算公式为:
Figure BDA0001260736510000122
预测为诈骗的召回率Recall计算公式为:
Figure BDA0001260736510000123
相互制约的精准度与召回率的调和平均值F-score计算公式为:
Figure BDA0001260736510000124
表征分类器对于整个样本的判定能力的准确率A计算公式为:
Figure BDA0001260736510000125
运行效果包括模型的运行时间、模型的鲁棒性、模型的可扩展性等方面内容。其中,鲁棒性是指描述在数据带有噪声和有数据遗失情况下,模型仍能进行正确预测的能力;可扩展性是描述对处理大量数据并构造相应学习模型所需要的能力。
在每个行为分析任务得到的分析算法公式中各项参数调整变动后,对分析算法执行结果经过上述考察,最终选定各项参数的配置值,以实现算法的现网部署配置要求。
本发明实施例所提供的识别行为异常用户的方法通过获取训练信令数据和测试信令数据,并基于训练信令数据生成训练信息表;之后,基于训练信息表建立算法模型并使用测试信令数据进行算法模型测试,并经过评估步骤确认最优算法模型,相比较现有技术中算法模型上线后才进行优化调整,减少了算法模型上线后的调整优化时间。
如图2所示,本发明实施例提供的识别行为异常用户的装置包括:
第一获取单元201,用于根据黑号码库和白号码库在全量话单的信令数据中获取训练信令数据和测试信令数据。
第二获取单元202,用于获取训练信令数据中特征值与目标的特征值相关性较高的第一信令数据。
第一生成单元203,用于根据第一信令数据的特征值和时间粒度生成包括衍生指标的第一信息表。
第二生成单元204,用于使用第一筛选策略对衍生指标进行筛选,生成包括显著指标的第二信息表。
第三生成单元205,用于将第一信息表和第二信息表结合,生成训练信息表。
建模分析单元206,用于基于训练信息表建立第一模型,并使用测试信令数据对第一模型进行测试,得到测试结果。
评估单元207,用于根据所述测试结果对第一模型进行评估,得到评估优化后的第二模型,以识别行为异常用户。
本发明实施例提供的识别行为异常用户的装置通过对基础通话数据进行各项通话数据特征指标的识别及计算,最终获得特定呼叫行为分析判断所需特征指标信息表及分析算法,为多种不良、违规、不法等用户通话行为分析发现提供了通用的分析算法构建方法。
在通信过程中,负责呼叫处理的服务器会将所有用户每次通话的起呼、接听、挂机等事件在通讯网络中传输的信令消息收集并整合,然后以通话记录话单方式写入业务平台数据库。
具体地,第一获取单元201首先从数据库中取出全量话单的信令数据;再根据黑号码库和白号码库,在全量话单中获取黑样本数据和白样本数据,其中,黑样本数据与黑号码库对应,白样本数据与白样本库对应;然后,通过黑样本数据和白样本数据在全量话单的信令数据中获取训练信令数据和测试信令数据。
训练信令数据由全部黑样本数据和部分白样本数据组成;其中,黑样本数据的数量占训练信令数据数量的第一阈值范围;在全量话单的信令数据中随机抽取的白样本数据的数量占训练信令数据数量的第二阈值范围。
训练信令数据中组成黑样本数据的信令数据为目标样本,需标识出来;组成白样本的信令数据采用随机抽取的方式,根据目标样本的数量按比例进行抽取。通常目标样本的信令数据量占训练信令数据数量的第一阈值范围,该第一阈值范围为15%-50%。同时,训练信令数据为目标样本的信令数据与白样本的信令数据的加总组和,因此白样本的信令数据数量占训练信令数据数量的第二阈值范围为50%-85%。
之后,第二获取单元202将训练信令数据中特征值与目标的特征值无关的信令数据或特征值为噪声的信令数据删除,获取训练信令数据中特征值与目标的特征值相关性较高的第一信令数据。
特征值的来源就是信令数据中的特征,第二获取单元202可以清理信令数据中的噪声数据、空缺数据和不一致数据,例如主叫号码为空的记录。
第一生成单元203基于第一信令数据的基础指标,针对各种呼叫特征进行统计,计算获得衍生指标,形成第一信息表。
衍生指标的计算过程,主要是从大批量的信令数据的特征值中,基于主叫号码、被叫号码、呼叫频次、呼叫时间间隔、振铃时长、通话时长、释放方向、释放原因、接通率、被叫号码离散度、被叫归属地区离散度等多种统计项目,并结合24小时、忙时和闲时等时间粒度,可以得到带有时间粒度的衍生指标,例如24小时内的平均通话时长等,最终形成衍生指标的第一信息表。
由于衍生指标之间可能存在相关性,或者衍生指标与目标样本的指标之间没有显著性,因此需要进行对衍生指标进行筛选。在对衍生指标进行筛选时,第二生成单元204首先对衍生指标的特征值两两之间的相关性进行相关分析,根据分析结果将多余特征值筛除;对衍生指标的特征值与目标的特征值的相关性进行维规约分析,根据分析结果将不相关特征值筛除;再对衍生指标进行方差分析和/或去噪处理,得到显著指标,并最终形成显著指标的第二信息表。
其中,显著指标是指某些基础指标或衍生指标与目标样本的特征值之间的显著性很大,可叫做显著指标。
显著指标可设定为:统计时间、主叫号码、被叫离散度、呼叫频次、呼叫接通率、被叫挂机率、平均通话时长、短通话频次、短通话被叫离散度。
之后,第三生成单元205将衍生指标的信息表与显著指标的信息表结合,形成训练信息表。训练信息表由训练信令数据调整得到,代替训练信令数据用于后续建模。
建模分析单元206基于训练信息表和分类算法构建分类器,并使用测试信令数据对分类器进行测试,并记录相应测试结果。
在本申请中,建模分析单元206可以使用R语言基于训练信息表和分类算法构建分类器,但本申请不以此为限,也可使用其它种类的编程语言进行构建。
相应测试结果用于后续的算法模型的评估与优化步骤。
可以使用的分类算法包括:决策树,逻辑回归,随机森林,支持向量机,神经网络模型等算法。
最后,评估单元207对算法模型的预测效果和运行效果分别进行评估,得到评估优化后的第二模型,以识别行为异常用户。
其中,预测效果包括对该模型的查准率,查全率,F-measure等指标的预测,运行效果包括模型的运行时间、模型的鲁棒性、模型的可扩展性等方面内容。
在每个行为分析任务得到的分析算法公式中各项参数调整变动后,评估单元207对分析算法执行结果经过上述考察,最终选定各项参数的配置值,以实现算法的现网部署配置要求。
本发明实施例所提供的识别行为异常用户的装置通过获取训练信令数据和测试信令数据,并基于训练信令数据生成训练信息表;之后,基于训练信息表建立算法模型并使用测试信令数据进行算法模型测试,并经过评估步骤确认最优算法模型,相比较现有技术中算法模型上线后才进行优化调整,减少了算法模型上线后的调整优化时间。
实际应用中,第一获取单元201、第二获取单元202、第一生成单元203、第二生成单元204、第三生成单元205、建模分析单元206及评估单元207均可由位于识别行为异常用户的装置上的中央处理器(CPU,Central Processing Unit)、微处理器(MPU,MicroProcessor Unit)、数字信号处理器(DSP,Digital Signal Processor)、或现场可编程门阵列(FPGA,Field Programmable Gate Array)等实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (12)

1.一种识别行为异常用户的方法,其特征在于,所述方法包括:
根据黑号码库和白号码库在全量话单的信令数据中获取训练信令数据和测试信令数据;
获取训练信令数据中特征值与目标的特征值相关性较高的第一信令数据;
根据所述第一信令数据的特征值和时间粒度生成包括衍生指标的第一信息表;
使用第一筛选策略对所述衍生指标进行筛选,生成包括显著指标的第二信息表;其中,所述使用第一筛选策略对所述衍生指标进行筛选,生成包括显著指标的第二信息表,包括:对所述衍生指标的特征值两两之间的相关性进行相关分析,根据分析结果将多余特征值筛除;对所述衍生指标的特征值与目标的特征值的相关性进行维规约分析,根据分析结果将不相关特征值筛除;再对所述衍生指标进行方差分析和/或去噪处理,得到显著指标,并形成包含显著指标的第二信息表;
将所述第一信息表和所述第二信息表结合,生成训练信息表;
基于所述训练信息表建立第一模型,并使用所述测试信令数据对所述第一模型进行测试,得到测试结果;
根据所述测试结果对所述第一模型进行评估,得到评估优化后的第二模型,以识别行为异常用户。
2.根据权利要求1所述的方法,其特征在于,所述根据黑号码库和白号码库在全量话单的信令数据中获取训练信令数据和测试信令数据,包括:
从数据库中取出全量话单的信令数据;
根据黑号码库和白号码库,在全量话单中获取黑样本数据和白样本数据;
通过黑样本数据和白样本数据在全量话单的信令数据中获取训练信令数据和测试信令数据。
3.根据权利要求2所述的方法,其特征在于,所述获取训练信令数据中特征值与目标的特征值相关性较高的第一信令数据,包括:
将训练信令数据中特征值与目标的特征值无关的信令数据或特征值为噪声的信令数据删除,获取训练信令数据中特征值与目标的特征值相关性较高的第一信令数据。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述基于所述训练信息表建立第一模型,并使用所述测试信令数据对所述第一模型进行测试,得到测试结果,包括:
基于所述训练信息表和分类算法构建分类器,并使用测试信令数据对所述分类器进行测试,并记录相应测试结果。
5.根据权利要求4所述的方法,其特征在于,所述根据所述测试结果对所述第一模型进行评估,包括:
对所述第一模型的预测效果和运行效果分别进行评估。
6.根据权利要求2或3所述的方法,其特征在于,所述通过黑样本数据和白样本数据在全量话单的信令数据中获取训练信令数据,包括:
获取全部黑样本数据和部分白样本数据组成所述训练信令数据;其中,
所述黑样本数据的数量占所述训练信令数据数量的第一阈值范围;
在全量话单的信令数据中随机抽取的白样本数据的数量占所述训练信令数据数量的第二阈值范围。
7.一种识别行为异常用户的装置,其特征在于,所述装置包括:
第一获取单元,用于根据黑号码库和白号码库在全量话单的信令数据中获取训练信令数据和测试信令数据;
第二获取单元,用于获取训练信令数据中特征值与目标的特征值相关性较高的第一信令数据;
第一生成单元,用于根据所述第一信令数据的特征值和时间粒度生成包括衍生指标的第一信息表;
第二生成单元,用于使用第一筛选策略对所述衍生指标进行筛选,生成包括显著指标的第二信息表;其中,所述第二生成单元具体用于:对所述衍生指标的特征值两两之间的相关性进行相关分析,根据分析结果将多余特征值筛除;对所述衍生指标的特征值与目标的特征值的相关性进行维规约分析,根据分析结果将不相关特征值筛除;再对所述衍生指标进行方差分析和/或去噪处理,得到显著指标,并形成包含显著指标的第二信息表;
第三生成单元,用于将所述第一信息表和所述第二信息表结合,生成训练信息表;
建模分析单元,用于基于所述训练信息表建立算法模型,并使用所述测试信令数据对所述算法模型进行测试;
评估单元,用于对测试后的所述算法模型进行评估,得到最优算法模型。
8.根据权利要求7所述的装置,其特征在于,所述第一获取单元还用于:
从数据库中取出全量话单的信令数据;
根据黑号码库和白号码库,在全量话单中获取黑样本数据和白样本数据;
通过黑样本数据和白样本数据在全量话单的信令数据中获取训练信令数据和测试信令数据。
9.根据权利要求8所述的装置,其特征在于,所述第二获取单元还用于:
将训练信令数据中特征值与目标的特征值无关的信令数据或特征值为噪声的信令数据删除,获取训练信令数据中特征值与目标的特征值相关性较高的第一信令数据。
10.根据权利要求7至9任一项所述的装置,其特征在于,所述建模分析单元还用于:
基于所述训练信息表和分类算法构建分类器,并使用测试信令数据对所述分类器进行测试,并记录相应测试结果。
11.根据权利要求10所述的装置,其特征在于,所述评估单元还用于:
对所述算法模型的预测效果和运行效果分别进行评估。
12.根据权利要求8或9所述的装置,其特征在于,所述第一获取单元还用于:
获取全部黑样本数据和部分白样本数据组成所述训练信令数据;其中,
所述黑样本数据的数量占所述训练信令数据数量的第一阈值范围;
在全量话单的信令数据中随机抽取的白样本数据的数量占所述训练信令数据数量的第二阈值范围。
CN201710209852.5A 2017-03-31 2017-03-31 一种识别行为异常用户的方法及装置 Active CN107133265B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710209852.5A CN107133265B (zh) 2017-03-31 2017-03-31 一种识别行为异常用户的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710209852.5A CN107133265B (zh) 2017-03-31 2017-03-31 一种识别行为异常用户的方法及装置

Publications (2)

Publication Number Publication Date
CN107133265A CN107133265A (zh) 2017-09-05
CN107133265B true CN107133265B (zh) 2021-07-09

Family

ID=59715402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710209852.5A Active CN107133265B (zh) 2017-03-31 2017-03-31 一种识别行为异常用户的方法及装置

Country Status (1)

Country Link
CN (1) CN107133265B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609196A (zh) * 2017-10-19 2018-01-19 北京工业大学 一种基于用户话单大数据特征信息的AdaBoost用户居住地判别方法
CN109767337A (zh) * 2017-11-09 2019-05-17 腾讯科技(深圳)有限公司 保险中逆选择用户的识别方法、装置及计算机设备
CN109995924A (zh) * 2017-12-30 2019-07-09 中国移动通信集团贵州有限公司 欺诈电话识别方法、装置、设备及介质
CN109995566B (zh) * 2017-12-31 2022-05-10 中国移动通信集团辽宁有限公司 网络故障定位方法、装置、设备及介质
CN110278555B (zh) * 2018-03-15 2022-04-01 中移动信息技术有限公司 一种国际漫游沉默号码的识别方法、平台及存储介质
CN110401780B (zh) * 2018-04-25 2021-05-11 中国移动通信集团广东有限公司 一种识别诈骗电话的方法及装置
CN110636531B (zh) * 2018-05-30 2023-04-25 中国移动通信集团浙江有限公司 签约异常用户识别方法和装置
CN110611929A (zh) * 2018-06-15 2019-12-24 中国移动通信集团有限公司 异常用户识别方法及装置
CN109168168B (zh) * 2018-07-09 2021-11-30 上海欣方智能系统有限公司 一种检测国际盗打的方法
CN109801151B (zh) * 2019-01-07 2023-09-05 平安科技(深圳)有限公司 财务造假风险监控方法、装置、计算机设备和存储介质
CN109918899A (zh) * 2019-01-23 2019-06-21 平安科技(深圳)有限公司 服务器、员工泄露企业信息的预测方法及存储介质
CN111866923B (zh) * 2019-04-24 2022-11-29 中国移动通信集团安徽有限公司 VoLTE用户开户数据异常判断方法、装置及网络设备
CN110311902B (zh) * 2019-06-21 2022-04-22 北京奇艺世纪科技有限公司 一种异常行为的识别方法、装置及电子设备
CN111031546B (zh) * 2019-11-29 2023-09-19 武汉烽火众智数字技术有限责任公司 一种应用于电话号码分析的lr模型训练方法及使用方法
CN111382068B (zh) * 2020-02-29 2024-04-09 中国平安人寿保险股份有限公司 一种大批量数据的层次测试方法及装置
CN113709747B (zh) * 2020-05-09 2023-10-13 中国移动通信集团有限公司 一种骚扰号码识别方法、装置、计算机设备和存储介质
CN113810547B (zh) * 2020-06-16 2023-12-15 中国移动通信集团重庆有限公司 语音呼叫安全防护的方法、装置及计算设备
CN112307472A (zh) * 2020-11-03 2021-02-02 平安科技(深圳)有限公司 基于智能决策的异常用户识别方法、装置及计算机设备
CN112529623B (zh) * 2020-12-14 2023-07-11 中国联合网络通信集团有限公司 恶意用户的识别方法、装置和设备
CN113141613B (zh) * 2021-04-27 2023-09-26 上海淇玥信息技术有限公司 一种通信渠道检测方法、装置和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106255116A (zh) * 2016-08-24 2016-12-21 王瀚辰 一种骚扰号码的识别方法
CN106385693A (zh) * 2016-09-22 2017-02-08 长沙创客软件有限公司 针对虚拟号段的电信诈骗判断方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10445658B2 (en) * 2015-09-14 2019-10-15 Thomson Reuters Global Resources Unlimited Company Docket search and analytics engine
CN106022508A (zh) * 2016-05-06 2016-10-12 陈丛威 预测线上理财平台的用户邀请好友行为的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106255116A (zh) * 2016-08-24 2016-12-21 王瀚辰 一种骚扰号码的识别方法
CN106385693A (zh) * 2016-09-22 2017-02-08 长沙创客软件有限公司 针对虚拟号段的电信诈骗判断方法

Also Published As

Publication number Publication date
CN107133265A (zh) 2017-09-05

Similar Documents

Publication Publication Date Title
CN107133265B (zh) 一种识别行为异常用户的方法及装置
CN111614690B (zh) 一种异常行为检测方法及装置
CN109241711A (zh) 基于预测模型的用户行为识别方法及装置
CN108200054A (zh) 一种基于dns解析的恶意域名检测方法及装置
CN108965340B (zh) 一种工业控制系统入侵检测方法及系统
CN110457175B (zh) 业务数据处理方法、装置、电子设备及介质
WO2020024414A1 (zh) 基于滑块验证码的用户认证方法及装置
CN113055335B (zh) 用于检测通信异常的方法、装置、网络系统和存储介质
CN109344042B (zh) 异常操作行为的识别方法、装置、设备及介质
JP4889618B2 (ja) データ処理装置及びデータ処理方法及びプログラム
CN106998336B (zh) 渠道中的用户检测方法和装置
CN110309473A (zh) 融合身份标识和投票行为监控的防刷票方法及装置
CN106301979B (zh) 检测异常渠道的方法和系统
CN109388949B (zh) 一种数据安全集中管控方法和系统
CN110138638B (zh) 一种网络流量的处理方法及装置
CN111064719A (zh) 文件异常下载行为的检测方法及装置
CN114785710A (zh) 一种工业互联网标识解析二级节点服务能力的评估方法及系统
CN111582722B (zh) 风险识别方法、装置、电子设备及可读存储介质
CN112948262A (zh) 一种系统测试方法、装置、计算机设备和存储介质
CN109194622B (zh) 一种基于特征效率的加密流量分析特征选择方法
CN112541177A (zh) 一种基于数据安全的异常检测方法及系统
CN112446425A (zh) 一种用于自动获取疑似养卡渠道的方法和装置
CN114189585A (zh) 骚扰电话异常检测方法、装置及计算设备
CN111309706A (zh) 模型训练方法、装置、可读存储介质及电子设备
Peeperkorn et al. Supervised conformance checking using recurrent neural network classifiers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant