CN112348296A - 电信数据获取方法、装置、设备及存储介质 - Google Patents

电信数据获取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112348296A
CN112348296A CN201910724630.6A CN201910724630A CN112348296A CN 112348296 A CN112348296 A CN 112348296A CN 201910724630 A CN201910724630 A CN 201910724630A CN 112348296 A CN112348296 A CN 112348296A
Authority
CN
China
Prior art keywords
telecommunication
data
characteristic
evaluation value
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910724630.6A
Other languages
English (en)
Other versions
CN112348296B (zh
Inventor
余凤丽
吉晶
朱君瑀
余韦
梁恩磊
杨猛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201910724630.6A priority Critical patent/CN112348296B/zh
Publication of CN112348296A publication Critical patent/CN112348296A/zh
Application granted granted Critical
Publication of CN112348296B publication Critical patent/CN112348296B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • G06Q50/60

Abstract

本发明公开了一种电信数据获取方法、装置、设备及存储介质。该方法包括:获取原始电信数据,原始电信数据包括多个特征变量;根据电信特征评估函数计算每个特征变量的至少一个电信特征指标的评估值;对至少一个电信特征指标的评估值进行加权计算,得到综合电信特征指标评估值;根据综合电信特征指标评估值从原始电信数据的多个特征变量中确定目标特征变量对应的目标电信数据。根据本发明实施例,能够针对电信特征评估指标得到量化的电信特征分值,能够客观、全面地评价特征水平,提高电信数据筛选效果。

Description

电信数据获取方法、装置、设备及存储介质
技术领域
本发明属于数据分析及特征获取技术领域,尤其涉及一种电信数据获取方法、装置、设备及存储介质。
背景技术
特征获取对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。
现有技术中特征获取过程中的特征评估分析环节里无量化的衡量标准,仅是通过建模人员依据自身建模经验进行人工判断,或是进行简单的统计值来判断。特征评估的衡量标准简单粗放,且各指标的评估方法简单,评估值大小不一、无量纲化,没有对特征的综合评估,与实际业务不符。
目前简单、无量纲化的特征获取无法迎合在数据分析中日益增长的特征获取需求。
发明内容
本发明实施例提供一种电信数据获取方法、装置、设备及计算机存储介质,能够基于常用评估指标,结合电信行业业务特点,针对电信特征评估指标到量化的电信特征分值,解决了对电信行业数据特征进行量化衡量、综合评估的问题。
第一方面,本发明实施例提供一种电信数据获取方法,方法包括:获取原始电信数据,原始电信数据包括多个特征变量;根据电信特征评估函数计算每个特征变量的至少一个电信特征指标的评估值;对至少一个电信特征指标的评估值进行加权计算,得到综合电信特征指标评估值;根据综合电信特征指标评估值从原始电信数据的多个特征变量中确定目标特征变量对应的目标电信数据。
基于常用评估指标,结合电信行业业务特点,创造性地针对特征评估指标拟合不同函数得到量化的特征分值,更加客观、量化地反映出每个特征质量。
在另一种可能的实现中,电信特征指标包括下述中的至少一项:缺失率、标准差、相关系数、重要度量;其中,
相关系数用于表征原始电信数据与原始电信数据对应的目标变量的相关性;
重要度量用于表征原始电信数据与目标变量的重要程度。
对于数据的质量更多地考虑了数据缺失情况、变量标准差、变量对目标变量的影响度和重要程度,填补了电信行业中综合考虑特征指标的空白。
在另一种可能的实现中,该方法还包括:电信特征指标为缺失率,电信特征评估函数满足以下条件:
当缺失率大于第一阈值且小于第二阈值时,评估值以第一速率函数呈减少趋势,当缺失率大于第二阈值且小于第三阈值时,评估值以第一速率函数呈减少趋势,第一速率函数为减函数。
在另一种可能的实现中,该方法还包括:第一电信特征评估函数为
Figure BDA0002158474740000021
a1为缺失率;b1为评估值。
第一电信特征评估函数对分数梯度下降的速度进行了更有效的控制,更适用于现实场景。
在另一种可能的实现中,该方法还包括:电信特征指标为标准差,电信特征评估函数满足以下条件:
当标准差大于第四阈值且小于第五阈值时,评估值以第二速率函数呈增大趋势,第二速率函数为减函数。
在另一种可能的实现中,该方法还包括:第二电信特征评估函数为
Figure BDA0002158474740000031
a2为标准差;b2为评估值。
在另一种可能的实现中,该方法还包括:电信特征指标为相关系数,电信特征评估函数满足以下条件:
当相关系数大于第六阈值且小于第七阈值时,评估值以第三速率呈减少趋势,当相关系数大于第七阈值且小于第八阈值时,特征评估函数以第四速率呈上升趋势,第三速率等于第四速率。
在另一种可能的实现中,该方法还包括:第三电信特征评估函数为b3=abs(a3),-1≤a3≤1;
a3为相关系数;b3为评估值。
在另一种可能的实现中,该方法还包括:电信特征指标为重要度量,电信特征评估函数满足以下条件包括:
当重要度量大于第九阈值且小于第十阈值时,评估值以第五速率函数呈指数变化趋势。
在另一种可能的实现中,该方法还包括:第四电信特征评估函数为
Figure BDA0002158474740000032
a4为重要度量;b4为评估值。
在另一种可能的实现中,该方法还包括:对原始电信数据进行数据清洗处理,数据清洗处理包括下述中的至少一项:
对原始电信数据中的缺失值进行缺失值填补处理、对原始电信数据中的重复值进行删除处理、对原始电信数据中的时间数据进行分解处理和对原始电信数据中的异常值进行删除处理和/或填补处理。
针对特征的不同特点采取了不同的处理方式,完成了精细的特征清洗。
接收用户输入的数据存储路径信息;
在另一种可能的实现中,该方法还包括:
接收用户的第一指令;
响应于第一指令,从原始电信数据的多个特征变量中确定目标特征变量对应的目标电信数据;
输出目标电信数据;
其中,从原始电信数据的多个特征变量中确定目标特征变量对应的目标电信数据包括:根据电信特征评估函数计算每个特征变量的至少一个电信特征指标的评估值;对至少一个电信特征指标的评估值进行加权计算,得到综合电信特征指标评估值;根据综合电信特征指标评估值从原始电信数据的多个特征变量中确定目标特征变量对应的目标电信数据。
用户只需输入数据存储路径信息,就可以按照预定设置,从大量原始数据中直接获取目标特征变量对应的电信数据,易于操作,实操性好。
第三方面,本发明实施例提供了一种处理装置,装置包括:
电信数据获取模块,用于获取原始电信数据,原始电信数据包括多个特征变量;
电信特征指标评估值计算模块,用于根据电信特征评估函数计算每个特征变量的至少一个电信特征指标的评估值;对至少一个电信特征指标的评估值进行加权计算,得到综合电信特征指标评估值;
目标电信数据获取模块,用于根据综合电信特征指标评估值从原始电信数据的多个特征变量中确定目标特征变量对应的目标电信数据。
第三方面,本发明实施例提供了一种计算设备,设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现如本发明实施例提供的计算方法。
第四方面,本发明实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如本发明实施例提供的处理方法。
本发明实施例的电信数据获取方法、装置、设备及计算机存储介质,通过结合电信行业数据特征,将各电信特征的指标数据直观量化,得到电信特征评估值,此方法结合了每个电信特征评估指标的特点,更加客观、量化地反映出每个电信特征的质量,并且加权得到单个电信特征的综合电信特征评估值,得到每个特征的综合分值,以此综合分值来进行特征的筛选,能够客观、全面地评价特征水平,如此更加能够更好地根据特征特点来筛选特征,提高筛选效果,获取出适合建立模型的电信特征。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的电信数据获取方法流程示意图;
图2是本发明实施例提供的缺失率得分对比示意图;
图3是本发明实施例提供的电信数据获取方法分层图;
图4是本发明实施例提供的系统交互处理模式图;
图5是本发明实施例提供的系统智能处理模式图;
图6是本发明实施例提供的电信数据获取装置的结构框图;
图7是本发明实施例提供的示例性硬件架构的示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了能够客观全面的评估电信数据水平,本发明实施例提供了一种电信数据获取方法,下面首先对本发明实施例所提供的电信数据获取方法进行详细描述。
图1所示为本发明实施例的电信数据获取方法流程示意图,如图1所示,该方法的执行主体是服务器,该方法可以包括S101-S103,具体如下所示:
S101,获取原始电信数据,原始电信数据包括多个特征变量。
在一个实施例中,在S101之前,该方法还包括:对原始电信数据进行数据清洗处理,数据清洗处理包括下述中的至少一项:
对原始电信数据中的缺失值进行缺失值填补处理、对原始电信数据中的重复值进行删除处理、对原始电信数据中的时间数据进行分解处理和对原始电信数据中的异常值进行删除处理和/或填补处理。针对特征的不同特点采取了不同的处理方式,完成了精细的特征清洗。
S102,根据电信特征评估函数计算每个特征变量的至少一个电信特征指标的评估值;对至少一个电信特征指标的评估值进行加权计算,得到综合电信特征指标评估值。
在一个实施例中,电信特征指标包括下述中的至少一项:缺失率、标准差、相关系数、重要度量;其中,所述相关系数用于表征所述原始电信数据与所述原始电信数据对应的目标变量的相关性;所述重要度量用于表征所述原始电信数据与所述目标变量的重要程度。
在另一个实施例中,为了获取家庭宽带潜在客户识别模型项目的建模数据,在本实施例中,原始电信数据包括:用户在网时长、用户开网时间、用户缴费次数等;原始电信数据对应的目标变量为用户是潜在客户。
在另一个实施例中,当原始电信数据为用户开网时间时,原始电信数据的特征评估指标包括:缺失率,用于表征用户开网时间这一数据集合的缺失情况;标准差,用于表征用户开网时间这一数据集合的离散程度;相关系数,用于表征所述用户开网时间与用户是潜在客户的相关性;重要度量,用于表征所述用户开网时间对用户是潜在客户的重要程度。对于数据的质量更多地考虑了数据缺失情况、变量标准差、变量对目标变量的影响度和重要程度,填补了电信行业中综合考虑特征指标的空白。
下面以单个电信特征指标为例进行说明。
在一个实施例中,当电信特征指标为缺失率时,电信特征评估函数满足以下条件:
当缺失率大于第一阈值0且小于第二阈值0.5时,评估值以第一速率函数呈减少趋势,当缺失率大于第二阈值0.5且小于第三阈值0.8时,评估值以第一速率函数呈减少趋势,第一速率函数为减函数。
在一个实施例中,用户开网时间的特征评估指标为缺失率时,假设用户开网时间的缺失率为a1,业务上当a1>0.8,代表特征可用性极差,电信行业此变量的评分应为0,当0.5<a1<0.8时,对目标评估分数应该呈快速下降趋势,而当a1<0.5时,评估分值应较缓,即整体呈现抛物线形式λx2+γx+c。第一电信特征评估函数对分数梯度下降的速度进行了更有效的控制,更适用于现实场景。
在一个实施例中,根据所述第一缺失率0和与所述第一缺失率对应的特征评估值1,确定第一坐标点(0,1)。
根据所述第二缺失率0.5和与所述第二缺失率对应的特征评估值0.5,确定第二坐标点(0.5,0.5)。
根据所述第三缺失率0.8和与所述第三缺失率对应的特征评估值0,确定第三坐标点(0.8,0)。
所述第一坐标点(0,1)至第二坐标点(0.5,0.5)以第一速率函数呈下降趋势,所述第二坐标点(0.5,0.5)至第三坐标点(0.8,0)以第一速率函数呈下降趋势,所述第一速率函数为减函数。
在一个实施例中,根据所述第一坐标点、所述第二坐标点和第三坐标点形成的下降趋势确定与所述缺失率对应的第一电信特征评估函数。
在一个实施例中,得到缺失率指标得分函数:
Figure BDA0002158474740000071
a1为缺失率;b1为评估值。
在一个实施例中,图2示出了缺失率得分对比示意图,如图2所示,将第一电信特征评估函数曲线与当前常用技术b1=1-a1相比,可以看出本发明对分数梯度下降的速度进行了有效的控制,更适用于现实场景。
在一个实施例中,电信特征指标为标准差时,电信特征评估函数满足以下条件:
当标准差大于第四阈值0.1且小于第五阈值9时,评估值以第二速率函数呈增大趋势,第二速率函数为减函数。
在一个实施例中,用户开网时间的特征评估指标为标准差时,假设用户开网时间的标准差为a2,标准差太小证明变量对目标变量区分度不大,随着标准差增大说明变量对目标变量的影响度越来越大,但是增长效率越来越小,即呈现lgx(0<x<10)的趋势,当x>=10,取最大值为1。
在一个实施例中,选取依次递增的第一标准差0.1、第二标准差9和第三标准差12。
在一个实施例中,根据所述第一标准差0.1和与所述第一标准差对应的特征评估值0,确定第一坐标点(0.1,0),根据所述第二标准差9和与所述第二标准差对应的特征评估值1,确定第二坐标点(9,1),根据所述第三标准差12和与所述第三标准差对应的特征评估值1,确定第三坐标点(12,1)。
在一个实施例中,所述第一坐标点(0.1,0)至第二坐标点(9,1)以第二速率函数呈上升趋势,所述第二坐标点(9,1)至第三坐标点(12,1)以第二速率函数呈上升趋势,所述第二速率函数为减函数。
在一个实施例中,根据所述第一坐标点、所述第二坐标点和第三坐标点形成的上升趋势确定与所述标准差对应的第二电信特征评估函数。
在一个实施例中,第二电信特征评估函数为:
Figure BDA0002158474740000081
其中,a2为标准差;b2为评估值。
在一个实施例中,电信特征指标为相关系数时,电信特征评估函数满足以下条件:
当相关系数大于第六阈值-1且小于第七阈值0时,评估值以第三速率呈减少趋势,当相关系数大于第七阈值0且小于第八阈值1时,特征评估函数以第四速率呈上升趋势,第三速率等于第四速率。
在一个实施例中,用户开网时间的特征评估指标为相关系数时,选取依次递增的第一相关系数、第二相关系数0和第三相关系数1。
在一个实施例中,用户开网时间的特征评估指标为相关系数时,假设用户开网时间的相关系数为a3,特征变量与目标变量间关系可使用皮尔逊方法计算,皮尔逊计算出的值取值范围为-1到1,取值的绝对值越大说明特征变量对目标变量影响越大。
在一个实施例中,根据第一相关系数-1和与第一相关系数对应的特征评估值1,确定第一坐标点(-1,1);根据第二相关系数0和与第二相关系数对应的特征评估值0,确定第二坐标点(0,0);根据第三相关系数1和与第三相关系数对应的特征评估值1,确定第三坐标点(1,1)。
在一个实施例中,第一坐标点(-1,1)至第二坐标点(0,0)以第三速率呈上升趋势,第二坐标点(0,0)至第三坐标点(1,1)以第四速率呈下降趋势,第三速率等于第四速率,根据第一坐标点和第二坐标点形成的上升趋势和第二坐标点至第三坐标点形成的下降趋势确定与相关系数对应的第三电信特征评估函数。
在一个实施例中,特征变量与目标变量间相关系数a3的评分b3曲线函数:
b3=abs(a3),-1≤a3≤1
其中,a3为输入变量对目标变量的皮尔逊系数。
在一个实施例中,电信特征指标为重要度量,电信特征评估函数满足以下条件包括:
当重要度量大于第九阈值-inf且小于第十阈值inf时,评估值以第五速率函数呈指数变化趋势。
在一个实施例中,用户开网时间的特征评估指标为重要度量时,假设用户开网时间的重要度量为a4,特征变量的重要度考评将依据目标变量,使用随机森林计算每个变量对目标变量的重要度量,重要度为a4取值为-inf到inf,首先通过a4i进行标准化(a4i-min(a4i(i=1…m))/(max(a4i(i=1…m))-min(a4i(i=1…m))),标准化后自变量对目标变量的影响度程指数变化。
在一个实施例中,若电信特征评估指标为重要度量,则选取依次递增的第一重要度量和第二重要度量,根据第一重要度量和与第一重要度量对应的特征评估值,确定第一坐标点;根据第二重要度量和与第二重要度量对应的特征评估值,确定第二坐标点。
在一个实施例中,第一坐标点至第二坐标点以第五速率函数呈指数变化趋势;根据第一坐标点和第二坐标点形成的指数变化趋势确定与重要度量对应的第四电信特征评估函数。
在一个实施例中,重要度量使用随机森林算法计算。
在一个实施例中,第四电信特征评估函数为:
Figure BDA0002158474740000101
其中,
Figure BDA0002158474740000102
为根据随机森林计算的每个输入变量对目标变量的重要度,b4i为评估值。
基于常用评估指标,结合电信行业业务特点,创造性地针对特征评估指标拟合不同函数得到量化的特征分值,更加客观、量化地反映出每个特征质量。
在另一个实施例中,可根据至少一个电信特征指标(如缺失率、标准差、相关系数、重要度量)的综合电信特征评估函数计算每个特征变量的评估值;对至少一个电信特征指标的评估值进行加权计算,得到综合电信特征指标评估值。
S103,根据综合电信特征指标评估值从原始电信数据的多个特征变量中确定目标特征变量对应的目标电信数据。
在一个实施例中,以上四个函数的评分范围均控制在[0,1]之间,也说明通过电信特征评估函数不仅能科学合理的拟合出各指标的评分,还解决了评分值量纲化问题,也为计算综合指标得分建立了初步的理论基础。
在一个实施例中,使用加权求和即可计算出各特征变量对目标变量的综合质量评分值:
B=w1b1+w2b2+w3b3+w4b4
在一个实施例中,各特征变量的权重w可分为缺失率权重值w1=0.3,标准差权重值w2=0.1,相关系数权重值w3=0.1,重要度量权重值w4=0.5。为了更直观,最后,对各输入变量的B值进行标准化处理,标准化过程(Bi-min(Bi(i=1…m))/(max(Bi(i=1…m))-min(Bi(i=1…m)))*100,使得B值映射在[0,100]中间。
在一个实施例中,提出各电信特征评估指标的电信特征评估拟合曲线,与传统数据获取进行简单数据统计或者默认线性分布相比,更科学合理准确的反应各特征质量评估分数,从而更加精准的得到各特征对目标变量的贡献度和影响程度,更有效的完成建模前的数据获取工作。
在一个实施例中,该方法还包括:
接收用户输入的数据存储路径信息,接收用户的第一指令,该第一指令是用户输入的目标特征变量筛选的指令,响应于第一指令,从原始电信数据的多个特征变量中确定目标特征变量对应的目标电信数据;输出目标电信数据。
其中,从原始电信数据的多个特征变量中确定目标特征变量对应的目标电信数据包括:根据电信特征评估函数计算每个特征变量的至少一个电信特征指标的评估值;对至少一个电信特征指标的评估值进行加权计算,得到综合电信特征指标评估值;根据综合电信特征指标评估值从原始电信数据的多个特征变量中确定目标特征变量对应的目标电信数据。用户只需输入数据存储路径信息,就可以按照预定设置,从大量原始数据中直接获取目标特征变量对应的电信数据,易于操作,实操性好。
这里需要说明的是,从原始电信数据的多个特征变量中确定目标特征变量对应的目标电信数据的过程与图1所提供实施例中获取目标电信数据的过程相同,且能达到其相应的技术效果,为简洁描述,在此不再赘述。
本发明提出的电信数据获取方法,能够基于常用评估指标,结合电信行业业务特点,创造性地针对电信特征评估指标拟合对应的电信特征评估函数得到量化的电信特征分值,此方法结合了每个电信特征评估指标的特点,更加客观、量化地反映出每个电信特征的质量,并且加权得到单个电信特征的综合电信特征评估函数,得到每个特征的综合分值,以此综合分值来进行特征的筛选,如此更加能够更好地根据特征特点来筛选特征,提高筛选效果。
图3所示为本发明实施例提供的一种电信数据获取方法分层图。如图3所示,电信数据获取方法可以分为三层:特征分析层、特征清洗层、特征筛选层;下面将对这三部分作详细的阐述。
在一个实施例,在S101之前,对原始电信数据进行特征分析和特征清洗。
在一个实施例中,在特征分析层对原始电信数据进行特征分析,主要对输入的原始电信数据进行质量分析,分析内容包括统计原始电信数据的数据分布、缺失值、异常值、变量相关性的情况,并根据原始电信数据的完整性、可用性对特征数据进行初步评分。
在一个实施例中,数据分布的分析包括原始电信数据的以下数据特性:最大值、最小值、中位数、均值、众数、标准差、四分之一分位数、四分之三分位数,通过上述多类指标看数据分布情况,可横向对比各指标的分布。
在一个实施例中,分析原始电信数据的缺失值情况,根据电信行业系统的差异,缺失值也具有差异性,包括INF、SUP、0值类型、空值类型、空格类型,对这四种类型都识别并进行展示。
在一个实施例中,分析原始电信数据的异常值情况,从电信场景出发设定了三种检测数据异常值的方法,用户可根据实际使用过程中不同场景来选用不同的异常值检测方法进行数据中异常值情况的评估。
在一个实施例中,通过标准差检测异常值,定义异常值为位于平均值加减三倍标准差范围之外的数据。
在一个实施例中,通过箱线图检测异常值,定义异常值为小于下界点,即数据四分之一位数减去1.5*(四分之三位数-四分之一位数)以及大于上界点,即数据四分之三位数加上1.5*(四分之三位数-四分之一位数)的数据。
在一个实施例中,通过分位数检测异常值,定义异常值为小于0.001分位数点和大于0.999分位数点的数据。在电信行业的场景下,数据的分布更适合此种方法,因此将分位数检测异常值方法设为默认方法。也就是说,在后文中提及的系统智能处理模式中,将分位数检测异常值方法设为默认方法。在系统交互处理模式中,由用户自行选择异常值确认。
在一个实施例中,分析原始电信数据的相关性情况,展示变量间的相关性指数,并为后续建模方便,取相关性最强的10个做特别标注。
在一个实施例中,经过上述初步评分标准针对特征数据的完整性和有效性,认为当数据不完整和有效性较差时该特征不适合建模,因此缺失值大于80%或标准差小于0.1的指标判为0分,其他情况不进行分数判别。
在一个实施例中,在特征清洗层对原始电信数据进行特征清洗,对原始电信数据进行特征清洗,将分数为0的无法进行建模的特征删除,再对剩下的特征数据进行空缺值填补、时间数据分解、异常值处理等。
在一个实施例中,对经过特征分析后的原始电信数据进行重复值处理,对每个值都重复的多条数据只保留一条。
在一个实施例中,对经过特征分析后的原始电信数据进行空缺值处理,对0值、空缺值进行判断,数值型变量用均值进行空缺值填补,非数值型变量则当缺失值小于20%时用众数填充,缺失值大于20%时用unknown字符进行填充。
在一个实施例中,计算样本缺失率,将样本字段缺失率达60%以上的样本删除。
在一个实施例中,对经过特征分析后的原始电信数据进行时间数据分解,针对电信行业数据中常出现“年-月-日”、“年/月/日”模式的时间数据,将数据与模型建立时的时间进行对比,生成使用天数。例如,某用户开网时间为2007年4月24日,模型建立时间为2018年9月21日,所以该用户使用宽带网络天数为4168天。
在一个实施例中,对经过特征分析后的原始电信数据进行异常值处理,与异常值的检测相类似,本发明设计了不同的异常值处理策略,用户可根据自身数据场景进行相应合适的策略进行异常值处理。
在一个实施例中,异常值处理采用删除策略,将数据中含有异常值的对应样本删除。
在一个实施例中,异常值处理采用截尾策略,将数据中的低异常值统一赋值为0.001分位点数值,高异常值统一赋值为0.999分位点数值,从而将数据截尾,设定了上下界值,在系统智能处理模式中根据默认设定的异常值判断方法,选择该策略为默认异常值处理策略。
在一个实施例中,异常值处理采用填充策略,将数据中的异常值视为空缺值,按照系统中处理空缺值的方法处理异常值。
在一个实施例中,适用场景多,本发明结果会输出特征质量评估分析报告、特征清洗后结果、特征获取结果等,用户可针对性选择,故不仅适用于建模前的特征获取还适用于单纯的特征质量评估分析或特征清洗等场景。
在一个实施例中,在特征筛选层对原始电信数据进行特征筛选,本发明使用综合特征指标评估函数得分值对特征进行筛选。
在一个实施例中,基于电信数据业务特点设计智能交互模式,降低建模门槛,可使建模水平高低不一的人员达到各自的预处理目标,有效的减少了人工参与,下面根据使用对象不同来分别阐述系统使用模式。
在一个实施例中,图4所示为本发明实施例的系统交互处理模式图,如图4所示,对于有建模经验的工作人员可以按照如图4所示的流程进行操作具体如下所示:
启动系统。
加载数据,用户输入数据存储路径、结果存储路径、数据特征个数,系统则从数据存储路径中读取加载数据。
用户进行第一次选择,将数据加载完成后,用户可选择不同的特征衡量指标,如选择自己认可的异常值统计指标来检测,选择完毕后,系统将进行特征评估,并为用户输出特征评估分析报告,供用户参考。
特征清洗。系统针对特征中不同问题采取不同清洗策略进行处理。
用户进行第二次选择,特征清洗完成后,用户可选择是否要进一步进行特征筛选,若选是,则进行特征筛选,若选否,则输出特征清洗后的完整数据。
特征筛选,用户选择特征筛选后,系统进行特征筛选,并输出特征筛选结果报告。
用户进行第三次选择:用户可根据特征筛选结果报告来选择是否按报告中建议保留的特征输出,若选是,则输出特征获取后的数据,若选否,则输出特征清洗后的完整数据。
结束系统。
在一个实施例中,本发明针对建模前特征挖掘的各过程进行Python脚本系统性封装,并形成exe格式的工具。该工具不仅封装了数据特征挖掘及特征挖掘前特征评估的各环节,而且实现了人工交互,用户可根据自己需求及技术条件,针对性选择要达成的目标。对技术能力较强的数据挖掘人员,可按需选择特殊评估方法、特殊挖掘方法,智能化生成处理好的数据,在保证实现个性化需求和特征挖掘准确性前提下,大大节约建模人员建模时间和提高建模效率。
在一个实施例中,图5所示为本发明实施例的系统智能处理模式图,如图5所示,对于没有建模经验的工作人员可以按照如图5所示的流程进行操作,具体如下所示:
启动系统。
加载数据,用户输入数据存储路径、结果存储路径、数据特征个数,系统则从数据存储路径中读取加载数据。
将数据加载完成后,系统自动选择不同的特征衡量指标,选择完毕后,系统将进行特征评估,输出特征评估分析报告。
特征清洗。系统针对特征中不同问题采取不同清洗策略进行处理。
特征清洗完成后,系统自动进行特征筛选,输出特征筛选结果报告。
特征筛选,用户选择特征筛选后,系统进行特征筛选,并输出特征筛选结果报告。
输出特征获取后的数据。
结束系统。
在一个实施例中,针对没有建模经验的使用对象,用户使用系统智能处理模式,只需输入数据存储路径、结果存储路径等信息,就可按默认设置一键完成从特征评估分析、特征清洗、特征筛选等环节,最后输出特征获取后的数据,该份数据可直接应用于后续建模过程,方便易用。对数据挖掘技术较弱的人比如电信行业市场部员工,可使用常见默认值一键完成整个特征挖掘过程,使用exe格式工具便可直接完成特征挖掘,大大降低使用人员门槛,提高使用范围。
在一个实施例中,本发明专门针对特征获取环节构造了人机交互智能操作系统,该系统不仅适用于懂得数据获取和建模脚本的人员,还解决了电信行业不懂数据获取技术、不会数据获取工具的市场业务人员快速高效完成数据特征获取问题。
图6所示为本发明实施例的电信数据获取装置的结构框图,该装置600包括610-630:
电信数据获取模块610:获取原始电信数据中的多个电信特征评估指标。
电信特征指标评估值计算模块620,用于根据多个电信特征评估指标中的每个电信特征评估指标建立与每个电信特征评估指标对应的电信特征评估函数,确定每个电信特征评估函数对应的预设权重值。
目标电信数据获取模块630,用于将每个电信特征评估函数对应的预设权重值和每个电信特征评估函数进行加权计算,得到综合电信特征评估函数,综合电信特征评估函数用于从原始电信数据中获取目标数据。
在一个实施例中,本发明实施例中的电信数据获取模块610具体用于,电信特征评估指标包括下述中的至少一项:缺失率、标准差、相关系数、重要度量;其中,相关系数用于表征原始电信数据与原始电信数据对应的目标变量的相关性;重要度量用于表征原始电信数据与目标变量的重要程度。对于数据的质量更多地考虑了数据缺失情况、变量标准差、变量对目标变量的影响度和重要程度,填补了电信行业中综合考虑特征指标的空白。
在一个实施例中,本发明实施例中的电信数据获取模块610还用于,对原始电信数据中的缺失值进行缺失值填补处理、对原始电信数据中的重复值进行删除处理、对原始电信数据中的时间数据进行分解处理和对原始电信数据中的异常值进行删除处理和/或填补处理。针对特征的不同特点采取了不同的处理方式,完成了精细的特征清洗。
图7示出了本发明实施例提供的电信数据获取方法的硬件结构示意图。
处理设备可以包括处理器701以及存储有计算机程序指令的存储器702。
具体地,上述处理器701可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器702可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器702可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器702可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器702可在综合网关容灾设备的内部或外部。在特定实施例中,存储器702是非易失性固态存储器。在特定实施例中,存储器702包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器701通过读取并执行存储器702中存储的计算机程序指令,以实现上述图1至图5所示的实施例中的任意一种处理方法。
在一个示例中,处理设备还可包括通信接口703和总线710。其中,如图5所示,处理器701、存储器702、通信接口703通过总线710连接并完成相互间的通信。
通信接口703,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线710包括硬件、软件或两者,将电信数据获取设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线710可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
该处理设备可以执行本发明实施例中的电信数据获取方法,从而实现结合图1和图6描述的电信数据获取方法和装置。
另外,结合上述实施例中的电信数据获取方法,本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种电信数据获取方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为软件方式,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (15)

1.一种电信数据获取方法,其特征在于,包括:
获取原始电信数据,所述原始电信数据包括多个特征变量;
根据电信特征评估函数计算每个特征变量的至少一个电信特征指标的评估值;
对所述至少一个电信特征指标的评估值进行加权计算,得到综合电信特征指标评估值;
根据所述综合电信特征指标评估值从所述原始电信数据的多个特征变量中确定目标特征变量对应的目标电信数据。
2.根据权利要求1所述的方法,其特征在于,所述至少一个电信特征指标包括下述中的至少一项:缺失率、标准差、相关系数、重要度量;其中,
所述相关系数用于表征所述原始电信数据与所述原始电信数据对应的目标变量的相关性;
所述重要度量用于表征所述原始电信数据与所述目标变量的重要程度。
3.根据权利要求2所述的方法,其特征在于,所述电信特征指标为缺失率,所述电信特征评估函数满足以下条件:
当所述缺失率大于第一阈值且小于第二阈值时,所述评估值以第一速率函数呈减少趋势,当所述缺失率大于第二阈值且小于第三阈值时,所述评估值以所述第一速率函数呈减少趋势,所述第一速率函数为减函数。
4.根据权利要求3所述的方法,其特征在于,所述第一电信特征评估函数为:
Figure FDA0002158474730000011
其中,a1为所述缺失率;b1为所述评估值。
5.根据权利要求2所述的方法,其特征在于,所述电信特征指标为标准差,所述电信特征评估函数满足以下条件:
当所述标准差大于第四阈值且小于第五阈值时,所述评估值以第二速率函数呈增大趋势,所述第二速率函数为减函数。
6.根据权利要求5所述的方法,其特征在于,所述第二电信特征评估函数为:
Figure FDA0002158474730000021
a2为所述标准差;b2为所述评估值。
7.根据权利要求2所述的方法,其特征在于,所述电信特征指标为相关系数,所述电信特征评估函数满足以下条件:
当所述相关系数大于第六阈值且小于第七阈值时,所述评估值以第三速率呈减少趋势,当所述相关系数大于第七阈值且小于第八阈值时,所述特征评估函数以第四速率呈上升趋势,所述第三速率等于所述第四速率。
8.根据权利要求7所述的方法,其特征在于,所述第三电信特征评估函数为:
b3=abs(a3),-1≤a3≤1;
a3为所述相关系数;b3为所述评估值。
9.根据权利要求2所述的方法,其特征在于,所述电信特征指标为重要度量,所述电信特征评估函数满足以下条件包括:
当所述重要度量大于第九阈值且小于第十阈值时,所述评估值以第五速率函数呈指数变化趋势。
10.根据权利要求9所述的方法,其特征在于,所述第四电信特征评估函数为:
Figure FDA0002158474730000022
a4为所述重要度量;b4为所述评估值。
11.根据权利要求1至10任一项所述的方法,其特征在于,所述方法还包括:
对所述原始电信数据进行数据清洗处理,所述数据清洗处理包括下述中的至少一项:
对所述原始电信数据中的缺失值进行缺失值填补处理、对所述原始电信数据中的重复值进行删除处理、对所述原始电信数据中的时间数据进行分解处理和对所述原始电信数据中的异常值进行删除处理和/或填补处理。
12.一种电信数据获取方法,
接收用户输入的数据存储路径信息;
接收用户的第一指令;
响应于所述第一指令,从所述原始电信数据的多个特征变量中确定目标特征变量对应的目标电信数据;
输出所述目标电信数据;
其中,从所述原始电信数据的多个特征变量中确定目标特征变量对应的目标电信数据包括:根据电信特征评估函数计算每个特征变量的至少一个电信特征指标的评估值;对所述至少一个电信特征指标的评估值进行加权计算,得到综合电信特征指标评估值;根据所述综合电信特征指标评估值从所述原始电信数据的多个特征变量中确定目标特征变量对应的目标电信数据。
13.一种电信数据获取装置,其特征在于,包括:
电信数据获取模块,用于获取原始电信数据,所述原始电信数据包括多个特征变量;
电信特征指标评估值计算模块,用于根据电信特征评估函数计算每个特征变量的至少一个电信特征指标的评估值;对所述至少一个电信特征指标的评估值进行加权计算,得到综合电信特征指标评估值;
目标电信数据获取模块,用于根据所述综合电信特征指标评估值从所述原始电信数据的多个特征变量中确定目标特征变量对应的目标电信数据。
14.一种计算设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-12任意一项所述的电信数据获取方法。
15.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-12任意一项所述的电信数据获取方法。
CN201910724630.6A 2019-08-07 2019-08-07 电信数据获取方法、装置、设备及存储介质 Active CN112348296B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910724630.6A CN112348296B (zh) 2019-08-07 2019-08-07 电信数据获取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910724630.6A CN112348296B (zh) 2019-08-07 2019-08-07 电信数据获取方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112348296A true CN112348296A (zh) 2021-02-09
CN112348296B CN112348296B (zh) 2023-12-22

Family

ID=74366554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910724630.6A Active CN112348296B (zh) 2019-08-07 2019-08-07 电信数据获取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112348296B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620691A (zh) * 2008-06-30 2010-01-06 上海全成通信技术有限公司 电信业自动化数据挖掘平台
US20110202407A1 (en) * 2010-02-18 2011-08-18 Finsphere Corporation System and method for improving internet search results using telecommunications data
CN106780140A (zh) * 2016-12-15 2017-05-31 国网浙江省电力公司 基于大数据的电力信用评价方法
CN107292320A (zh) * 2016-03-30 2017-10-24 阿里巴巴集团控股有限公司 系统及其指标优化方法及装置
CN109242361A (zh) * 2018-10-31 2019-01-18 深圳市中电数通智慧安全科技股份有限公司 一种消防风险评估方法、装置及终端设备
CN109345368A (zh) * 2018-08-22 2019-02-15 中国平安人寿保险股份有限公司 基于大数据的信用评估方法、装置、电子设备及存储介质
CN109389281A (zh) * 2018-08-17 2019-02-26 浙江华云信息科技有限公司 一种基于高斯混合模型的采集终端生产厂商评价方法
CN109409628A (zh) * 2018-08-17 2019-03-01 国网浙江省电力有限公司 基于计量大数据聚类模型的采集终端生产厂商评价方法
CN109711715A (zh) * 2018-12-25 2019-05-03 国家电网有限公司 电力通信网风险评估方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620691A (zh) * 2008-06-30 2010-01-06 上海全成通信技术有限公司 电信业自动化数据挖掘平台
US20110202407A1 (en) * 2010-02-18 2011-08-18 Finsphere Corporation System and method for improving internet search results using telecommunications data
CN107292320A (zh) * 2016-03-30 2017-10-24 阿里巴巴集团控股有限公司 系统及其指标优化方法及装置
CN106780140A (zh) * 2016-12-15 2017-05-31 国网浙江省电力公司 基于大数据的电力信用评价方法
CN109389281A (zh) * 2018-08-17 2019-02-26 浙江华云信息科技有限公司 一种基于高斯混合模型的采集终端生产厂商评价方法
CN109409628A (zh) * 2018-08-17 2019-03-01 国网浙江省电力有限公司 基于计量大数据聚类模型的采集终端生产厂商评价方法
CN109345368A (zh) * 2018-08-22 2019-02-15 中国平安人寿保险股份有限公司 基于大数据的信用评估方法、装置、电子设备及存储介质
CN109242361A (zh) * 2018-10-31 2019-01-18 深圳市中电数通智慧安全科技股份有限公司 一种消防风险评估方法、装置及终端设备
CN109711715A (zh) * 2018-12-25 2019-05-03 国家电网有限公司 电力通信网风险评估方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
万年红;王雪蓉;: "面向个性化通讯云的移动互联用户大数据可信服务推荐算法", 温州大学学报(自然科学版), no. 02 *

Also Published As

Publication number Publication date
CN112348296B (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
CN108564286B (zh) 一种基于大数据征信的人工智能金融风控授信评定方法和系统
Verbraken et al. Development and application of consumer credit scoring models using profit-based classification measures
CN110969285B (zh) 预测模型训练方法、预测方法、装置、设备及介质
CN109255517B (zh) 风控策略的生成方法、装置、服务器及可读存储介质
CN108681751B (zh) 确定事件影响因素的方法及终端设备
CN109242363B (zh) 一种基于多种质量控制模型的全生命周期测试管理平台
JP2016099915A (ja) 与信審査用サーバと与信審査用システム及び与信審査用プログラム
CN111797320A (zh) 数据处理方法、装置、设备及存储介质
CN114139931A (zh) 企业数据评估方法、装置、计算机设备及存储介质
JP4299508B2 (ja) 製造プロセスにおける操業と品質の関連分析装置、関連分析方法及びコンピュータ読み取り可能な記憶媒体
CN110826196B (zh) 一种工业设备运行数据的处理方法及装置
CN112085517A (zh) 优惠券发放方法、装置、电子设备及可读存储介质
CN117132383A (zh) 一种信贷数据处理方法、装置、设备及可读存储介质
CN111028062A (zh) 一种潜力商品挖掘方法、装置及计算机可读存储介质
CN112348296A (zh) 电信数据获取方法、装置、设备及存储介质
CN111080037A (zh) 一种基于深度神经网络的短期电力负荷预测方法及装置
CN115599687A (zh) 一种软件测试场景的确定方法、装置、设备及介质
CN111984637B (zh) 数据建模中的缺失值处理方法和装置、设备及存储介质
CN116502918B (zh) 一种科技创新平台的创新能力评价方法
CN114329213B (zh) 基于用户行为的电商平台优化方法、装置、设备及介质
CN108399170A (zh) 数据挖掘方法以及装置
CN116227425A (zh) 针对芯片设计中算法实现的评估方法
CN112613755A (zh) 利用置信度评估企业风险的方法、装置及电子设备
CN116304825A (zh) 钢材末端淬透性的预测方法、装置、终端及存储介质
CN117132117A (zh) 基于客流分析的经营风险识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant