CN107346367A - 一种业务变量的数值的分段方法及装置 - Google Patents

一种业务变量的数值的分段方法及装置 Download PDF

Info

Publication number
CN107346367A
CN107346367A CN201610289143.8A CN201610289143A CN107346367A CN 107346367 A CN107346367 A CN 107346367A CN 201610289143 A CN201610289143 A CN 201610289143A CN 107346367 A CN107346367 A CN 107346367A
Authority
CN
China
Prior art keywords
value
segmentation
queue
numerical value
intensity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610289143.8A
Other languages
English (en)
Other versions
CN107346367B (zh
Inventor
邵明旭
潘浩源
钱劭立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610289143.8A priority Critical patent/CN107346367B/zh
Publication of CN107346367A publication Critical patent/CN107346367A/zh
Application granted granted Critical
Publication of CN107346367B publication Critical patent/CN107346367B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及数据分析技术领域,特别涉及一种业务变量的数值的分段方法及装置。其中方法包括对业务变量的各个数值排序形成数值队列,并对所述数值队列进行初始分段;计算每个初始分段中数值的集中程度;尝试合并相邻分段,计算新分段中数值的集中程度,若该集中程度符合预定条件,则形成新的分段结果;输出所述新的分段结果。通过本申请实施例的方案,可以动态的对网络中以连续变量形式发生的业务进行分段,该动态分段后的枚举变量可以更加准确的分析出出现异常的原因,而且由于本申请的分段手段可以大量的减少分段数量,从而减少消耗的系统资源。

Description

一种业务变量的数值的分段方法及装置
技术领域
本申请涉及数据分析技术领域,特别涉及一种业务变量的数值的分段方法及装置。
背景技术
随着互联网的发展,网络中的谣言、不利舆论可能会对互联网公司的形象造成负面影响,从而会影响互联网公司发布的产品,并且造成损失。以往商业智能软件(BI)分析笔数类信息时,是根据经验来进行分段,以支付宝中对”我要付款”业务进行举例来说,现有技术中对用户当天累计笔数的信息根据经验来进行分段,一天之内进行“我要付款”业务的次数<=3笔时是正常用户,3-5笔的为高频用户,>5笔的为当日异常用户。现有技术中的上述分析监控可能会存在以下问题,尽管该方法能对数值型变量进行分段,但是忽略了数值分布的集中性,并且主要以经验进行分段,认为参与过多,针对实时变化的业务可能产生滞后或者不合理的情况,不能够动态的调整分段。
发明内容
为了解决现有技术中对于连续出现的业务或者事件不能够动态的分段,并且现有的分段算法不能表达出事件出现的集中程度,因此本申请的发明人提供了一种业务变量的数值的分段方法及装置,针对连续出现的业务或者事件可以动态的分段,并且能够根据业务或者事件出现的集中程度进行分段,可以更加准确的分析出连续出现的业务或者事件出现异常的原因,而且由于本申请的分段手段可以大量的减少分段数量,从而减少消耗的系统资源。
本申请实施例提供了一种业务变量的数值的分段方法,包括:
对业务变量的各个数值排序形成数值队列,并对所述数值队列进行初始分段;
计算每个初始分段中数值的集中程度;
尝试合并相邻分段,计算新分段中数值的集中程度,若该集中程度符合预定条件,则形成新的分段结果;
输出所述新的分段结果。
本申请实施例还提供了一种业务变量的数值的分段装置,包括:
初始分段单元,用于对业务变量的各个数值排序形成数值队列,并对所述数值队列进行初始分段;
计算单元,用于计算每个初始分段中数值的集中程度;
处理单元,用于尝试合并相邻分段,计算新分段中数值的集中程度,若该集中程度符合预定条件,则形成新的分段结果;
输出单元,用于输出所述新的分段结果。
由以上本申请实施例提供的技术方案可见,可以动态的对网络中以连续变量形式发生的事件或者业务进行分段,该动态分段后的枚举变量可以更加准确的分析出出现异常的原因,而且由于本申请的分段手段可以大量的减少分段数量,从而减少消耗的系统资源。
当然实施本申请的任一产品或者方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1所示为本申请实施例一种业务变量的数值的分段方法的流程图;
图2所示为本申请实施例一种业务变量的数值的分段装置的结构示意图;
图3所示为本申请实施例一种银行卡解绑业务的分段方法的流程图。
具体实施方式
本申请实施例提供一种业务变量的数值的分段方法及装置。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
如图1所示为本申请实施例一种业务变量的数值的分段方法的流程图,在该图中描述了在对监控的数值数据进行分段的过程中,考虑数值之间的相关性,将数值相关的分段进行合并,形成数值上相对更加集中的数值分段,从而可以以较小的系统资源对异常数据进行监控和分析,该方法具体包括:
步骤101,对业务变量的各个数值排序形成数值队列,并对所述数值队列进行初始分段。
步骤102,计算每个初始分段中数值的集中程度。
步骤103,尝试合并相邻分段,计算新分段中数值的集中程度,若该集中程度符合预定条件,则形成新的分段结果。
步骤104,输出所述新的分段结果。
作为本申请的一个实施例,在对业务变量的各个数值排序形成数值队列之前还包括,抽取业务变量原始数值中的数值,形成所述数值队列。
其中,可以以系统时间为种子,运用随机函数计算所述系统时间得到需要抽取的数值;或者还可以以等距法来抽取数值,也就是按照固定个数抽取数值,例如以10个数值为等距,分别抽取原始数值中的第1个,第11个,第21个,以此类推。
作为本申请的一个实施例,在对业务变量的各个数值排序形成数值队列之前还包括,将时间型的业务变量转换为数值。
其中,若时间型的变量为部分时间变量,则将该时间型变量补充为完整时间变量。例如,若时间型变量为时分秒,则将该时分秒的时间型变量前补充特定年月日的信息,具体可以给予1970年1月1日的年月日信息,或者还可以获取系统的年月日信息,以补充该时间型变量为年月日时分秒的时间型变量。
所述的转换时间型变量为数值可以采用unix格式的数值,例如,UNIX_TIMESTAMP("1970-01-01 15:00:00")=25200),由此数值队列中的所有时间型变量都可以转换为相应的数值。
作为本申请的一个实施例,对所述数值队列进行初始分段中进一步包括,通过分位数的方式将数值队列进行初始分段,或者通过等距法将数值队列进行初始分段。
其中,分位数分段方式为,设连续随机变量X的分布函数为F(X),密度函数为p(x)。那么,对任意0<p<1的p,称F(X)=p的X为此分布的分位数,或者下侧分位数。简单的说,分位数指的就是连续分布函数中的一个点,这个点的一侧对应概率p。常用的分位数有:
中位数(又称中值,英语:Median),统计学中的专有名词,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数;
四分位数(Quartile),即统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。
作为本申请的一个实施例,对所述数值队列进行初始分段中进一步包括,获得初始分段中每个分段的分界值,形成分界值队列。
其中,假设初始分段为200段,则具有199个分界值,每个分界值都为相应分段的第一个值或者最后一个值,由于整个数值队列都已经进行了排序,如果按照由大到小的顺序对数值队列进行排序,则分界值为分段的第一个值,如果按照由小到大的顺序对数值队列进行排序,则分界值为分段的最后一个值,相应的分界值队列也同样形成由小到大或者由大到小的队列。
作为本申请的一个实施例,获得初始分段中每个分段的分界值,形成分界值队列之后还包括,去除数值队列中的极值,具体的,将数值队列中小于分界值队列中最小值的数值更新为所述分界值队列中的最小值,将数值队列中大于分界值队列中最大值的数值更新为所述分界值队列中的最大值。
其中,本步骤的目的是为了消除数值队列中极大值与极小值对整个数值队列分段的影响,例如,在对用户消费进行分段时,可能大部分的消费都在100-1000元中,但是也可能有用户消费100000元,也有可能消费0.01元,这部分数值会影响到数值队列的分段。
作为本申请的一个实施例,获得初始分段中每个分段的分界值,形成分界值队列之后还包括,若数值队列中的最小值等于分界值队列中的最小值,则去掉所述分界值队列中的最小值,若数值队列中的最大值等于分界值队列中的最大值,则去掉所述分界值队列中的最大值。
作为本申请的一个实施例,在计算每个初始分段中数值的集中程度中具体包括,计算每个分段中数值的变异系数,其中,变异系数CV=标准偏差SD/平均值Mean,CV值越小代表数值比较集中,CV值越大代表数值比较分散。
作为本申请的一个实施例,在计算每个初始分段中数值的集中程度中具体包括,计算每个分段中数值的方差,或者标准差,其中,标准差也就是方差开根后的结果,方差或者标准差越小代表数值比较集中,方差或者标准差越大代表数值比较分散。
作为本申请的一个实施例,尝试合并相邻分段,计算新分段中数值的集中程度,若该集中程度符合预定条件,则形成新的分段结果具体包括,从数值集中程度最好的分段开始,尝试将该分段与向前的分段合并,然后计算合并后的前向分段中数值的前向集中程度;尝试将该分段与向后的分段合并,然后计算合并后的后向分段中数值的后向集中程度;比较所述前向集中程度和后向集中程度,取集中程度较小的作为新的分段;对所有分段重复进行上述处理,直到新的分段中数值的集中程度超过第一门限值,则停止处理,形成新的分段结果。
其中,在处理开始阶段,若数值集成程度最好的分段为初始分段中的首段或者尾段,则计算前向分段或者后向分段的集中程度时,是需要计算一侧的集中程度。
在本步骤中,还可以采用其它的段之间的合并方法,例如贪婪法等,只需要判断合并后新的段中数值的集中程度是否大于门限值(在集中程度的计算方法不同时,也可能是小于门限值),如果大于则认为这两段数值之间的差距较大,不够集中,再选择另一段继续尝试合并相邻段,重复判断新的段中数值的集中程度是否大于门限值。
作为本申请的一个实施例,在尝试合并相邻分段,计算新分段中数值的集中程度,若该集中程度符合预定条件,则形成新的分段结果之中还包括,将数值个数较少的分段与相邻的分段进行合并,确保每个分段中数值个数占整个数值队列中数值个数的比例(PCT)大于第二门限值,形成新的分段结果。
其中具体的,计算每个分段中数值个数占所有分段中数值个数的比例(PCT),从PCT值最小的分段开始,尝试将该分段与向前的分段合并,然后计算前向分段的前向PCT;尝试将该分段与向后的分段合并,然后计算后向分段的后向PCT;比较所述前向PCT值和后向PCT值,取较小的作为新的分段;重复对所有分段进行上述处理,直到所有分段的PCT值超过第二门限值,则停止处理,形成新的分段结果。
在上述实施例中,还可以根据形成新的分段结果中分段的个数来决定是否继续合并相邻的分段,即根据后期的数据分析要求进行相邻分段的合并,例如,对分段个数的要求为5个,如果当前新的分段结果为10个,则还需要将一些相邻的分段合并,合并的方法可以重新设定一个第一门限,或者重新设定一个第二门限,并采用相应的分段合并方式进行相邻分段的合并。
作为本申请的一个实施例,输出所述新的分段结果后还包括,根据集中程度最好的分段所在的时间段,查询该时间段是否发生异常情况。
其中,例如在某个时间段内,支付宝出现异常高的解绑事件,可以根据解绑事件集中的时间段内或者之前一段时间,是否发生了什么异常事件,也就是出现了对微信安全质疑的舆论,而该舆论影响到支付宝的解绑事件,从而可以方便的找到异常事件发生的原因。
通过上述本申请的方法,可以动态的对网络中以连续变量形式发生的事件或者业务进行分段,该动态分段后的枚举变量可以更加准确的分析出出现异常的原因,而且由于本申请的分段手段可以大量的减少分段数量,从而减少消耗的系统资源。
如图2所示为本申请实施例一种业务变量的数值的分段装置的结构示意图,在该图中描述了在对监控的数值数据进行分段的过程中,考虑数值之间的相关性,将数值相关的分段进行合并,形成数值上相对更加集中的数值分段,从而可以以较小的系统资源对异常数据进行监控和分析,该装置所具有的各个功能单元均可以采用可编程逻辑器件或者芯片实现,或者采用计算机或者计算机集群来实现各个功能单元的功能,该装置具体包括:
初始分段单元201,用于对业务变量的各个数值排序形成数值队列,并对所述数值队列进行初始分段。
计算单元202,用于计算每个初始分段中数值的集中程度。
处理单元203,用于尝试合并相邻分段,计算新分段中数值的集中程度,若该集中程度符合预定条件,则形成新的分段结果。
输出单元204,用于输出所述新的分段结果。
作为本申请的一个实施例,还包括抽取单元205,用于抽取业务变量原始数值中的数值,形成所述数值队列。
作为本申请的一个实施例,还包括转换单元206,用于将时间型的业务变量转换为数值。
作为本申请的一个实施例,所述初始分段单元201进一步用于,通过分位数的方式将数值队列进行初始分段,或者通过等距法将数值队列进行初始分段。
作为本申请的一个实施例,所述初始分段单元201还用于,获得初始分段中每个分段的分界值,形成分界值队列。
作为本申请的一个实施例,所述初始分段单元201还用于,去除数值队列中的极值,具体的,将数值队列中小于分界值队列中最小值的数值更新为所述分界值队列中的最小值,将数值队列中大于分界值队列中最大值的数值更新为所述分界值队列中的最大值。
作为本申请的一个实施例,所述初始分段单元201还用于,若数值队列中的最小值等于分界值队列中的最小值,则去掉所述分界值队列中的最小值,若数值队列中的最大值等于分界值队列中的最大值,则去掉所述分界值队列中的最大值。
作为本申请的一个实施例,所述计算单元202具体用于,计算每个分段中数值的变异系数,其中,变异系数CV=标准偏差SD/平均值Mean。
作为本申请的一个实施例,所述计算单元202还具体用于,计算每个分段中数值的方差,或者标准差。
作为本申请的一个实施例,所述处理单元203具体用于,从数值集中程度最好的分段开始,尝试将该分段与向前的分段合并,然后计算合并后的前向分段中数值的前向集中程度;尝试将该分段与向后的分段合并,然后计算合并后的后向分段中数值的后向集中程度;比较所述前向集中程度和后向集中程度,取集中程度较小的作为新的分段;对所有分段重复进行上述处理,直到新的分段中数值的集中程度超过第一门限值,则停止处理,形成新的分段结果。
作为本申请的一个实施例,所述处理单元203还具体用于,将数值个数较少的分段与相邻的分段进行合并,确保每个分段中数值个数占整个数值队列中数值个数的比例(PCT)大于第二门限值,形成新的分段结果。
作为本申请的一个实施例,还包括监控单元207,用于根据集中程度最好的分段所在的时间段,查询该时间段是否发生异常情况。
通过上述本申请的装置,可以动态的对网络中以连续变量形式发生的事件或者业务进行分段,该动态分段后的枚举变量可以更加准确的分析出出现异常的原因,而且由于本申请的分段手段可以大量的减少分段数量,从而减少消耗的系统资源。
如图3所示为本申请实施例一种银行卡解绑事件的分段方法的流程图,在本图描述的实施例是以银行卡解绑业务为例进行说明,在某个时间窗口内监控银行卡解绑业务是否发生异常,在业务系统中记录有所有用户解绑银行卡的具体时间,业务变量在本例中为该时间信息,数据库中以时间信息作为每次解绑银行卡时间的记录,因此获得的数值队列也是该时间信息。
步骤301,获取业务系统中解绑银行卡的时间信息。
在本步骤中,可能获取到100万条时间信息的记录。
步骤302,对所述时间信息记录进行抽样。
在本步骤中,可以采用固定跨度的方式进行抽样,即每间隔固定跨度来取时间信息(求取排序后的序位号除以间距的余数值,指定余数值来挑选样本),这样就得到了若干条抽样的时间信息记录,并对抽样的时间信息记录进行由小到大的排序。
还可以将系统的时间作为种子,运用随机函数的计算结果进行抽样,并对抽样的时间信息记录进行由小到大的排序。
步骤303,将时间信息记录转换为数值队列。
在本步骤中,如果时间信息记录为具体的时分秒的信息,则将该时间信息拼接成为完整的时间信息,例如如果时间信息08(时):20(分):30(秒),可以获取系统日期2016年1月9日,将两部分时间信息拼接在一起构成2016:01:09:08:20:30,或者可以设定一个日期1970年1月1日,与时分秒的时间信息进行拼接,构成完整的时间信息1970:01:01:08:20:30,这里所说的拼接时间信息的方法是针对所有时间信息记录;或者时间信息记录中的时间信息原本就是完整的时间信息,即包括年月日时分秒的时间信息,则可以直接获得该时间信息。将完整的时间信息转换成整型的unix格式的日期时间数值,例如UNIX_TIMESTAMP("1970-01-01 15:00:00")=25200)。
若待分段的业务或者事件已经是连续的数值形式,则可以不进行步骤303。
步骤304,将数值队列分段,并获得所有分段的分界值序列。
在本步骤中,可以采用现有技术中的分位数方法进行分段,也可以等距法进行分段,在本例中采用分位数方法进行分段,将上述时间数值序列划分为200个段,其中包括了199个分界值,该分界值可以为分段中的第一个数值也可以为最后一个数值,按照由小到大的方式对所述分界值进行排序,形成Q_LIST队列,其中每个分界值为Q1、Q2、Q3……Q197、Q198、Q199。
步骤305,对分界值队列中的分界值进行去重处理。
可能有很多解绑银行卡的时间发生在同一时间,因此在分段时可能产生多个分段的分界值都相同的情况,在本步骤中,去掉分界值队列中重复的分界值,这样可以将相同的分段合并,从而减少分段的数量,减少后期的计算量。
步骤306,对数值队列中的极值进行处理。
在本步骤中,确定分界值队列中的最大值和最小值,将数值队列中小于所述最小分界值的数值都更新为分界值队列中的最小值,将数值队列中大于所述最大分界值的数值都更新为分界值队列中的最大值,也就是将数值队列中的首段和尾段的数值都归一化,减小对数值集中性的影响。
为了进一步减少分段个数,还可以获取全部数值队列中的极大值MAX_DATA和极小值MIN_DATA,如果MIN_DATA=Q_LIST的最小值,则去掉Q_LIST中的最小值;如果发现MAX_DATA=Q_LIST中的最大值,则去掉Q_LIST中的最大值,由此来获得新的Q_LIST,也就是得到了新的分段。
步骤307,计算每个分段中数值的变异系数CV。
在本步骤中,采用分段中数值的变异系数来表示分段中数值的集中程度,变异系数CV=标准偏差SD/平均值Mean,还可以计算出每个分段中数值的个数占整个数值队列中数值个数的比例PCT。
在其它的实施例中,也可以计算每个分段中数值的方差或者标准差,或者还可以使用现有技术中的方式计算分段中数值的集中程度值。
步骤308,判断当前分段中数值的CV是否大于第一门限值,如果大于则结束本次循环,进入步骤310,否则进入步骤309。
在本步骤中,第一门限值可以设置为0.5,或者其它值。
步骤309,将相邻的段进行合并,并将CV值较小的作为当前段。
本步骤中具体包括,找出所有分段中变异系数最小的段S,段S的前一段为(S-1),段S的下一段为(S+1)。
查找与段S相邻的前后两个段,将段S与段(S-1)合并后计算段内数值的变异系数,标记为前向CV值,同理求取段S与段(S+1)合并的后向CV值。
比较前向CV值与后向CV值大小,如果前向CV值较小,则在Q_LIST中去除段S的分界值,也就是说将段S与段(S-1)合并,形成当前段;如果后向CV值较小,则在Q_LIST中去除段(S+1)的分界值,也就是说将段S与段(S+1)合并,形成当前段。
去除后形成新的Q_LIST,根据该Q_LIST求取各段新的CV与PCT。
步骤310,对其它分段重复上述步骤308以及步骤309,如果所有分段都判断完毕,则结束循环。
步骤311,根据每个分段的PCT值,判断若所有段中最小的PCT值大于第二门限值,则进入步骤313,否则进入步骤312。
在本步骤中,所述第二门限值可以取0.2。
步骤312,将数值数量较少的段与相邻段合并。
在本步骤中,寻找所有段中PCT值最小的段S,段S的前一段为(S-1),段S的下一段为(S+1)。
查找与段S相邻的前后两个段,将段S与段(S-1)合并后计算该段的PCT值,标记为前向PCT值,同理求取段S与段(S+1)合并的后向PCT值。
比较前向PCT值与后向PCT值大小,如果前向PCT值较小,则在Q_LIST中去除段S的分界值,也就是说将段S与段(S-1)合并;如果后向PCT值较小,则在Q_LIST中去除段(S+1)的分界值,也就是说将段S与段(S+1)合并。
去除后形成新的Q_LIST,根据该Q_LIST求取各段新的CV与PCT。
上述步骤311以及步骤312,与步骤308至步骤310的可以颠倒,也就是说判断分段的PCT值或者判断分段中数值的CV值的步骤执行顺序可以不限。
步骤313,输出上述分段结果。
在本步骤中,经过上述步骤的处理已经将大量的分段进行了合并,并且是将数值相对集中的分段进行合并,能够体现分段中数值集中性的特点的同时,还大幅度的减少了分段的数量。
在本步骤之后还可以包括,根据新的分段结果,可以查询互联网中发生了什么事件,可能导致了异常的支付宝银行卡解绑发生,例如,通过前述步骤的处理,将分析时间窗口内的所有银行卡解绑事件的时间信息进行了重新分段,新的分段结果表示,在16点30分10秒至22点30分30秒的分段内,集中的发生了银行卡解绑事件,通过查询可以得知在15点30分互联网中出现了微信安全隐患可能导致绑定的银行卡中资金受损的流言或者舆论,该信息公开后不仅导致了大量微信银行卡解绑事件发生,并且引发了支付宝的银行卡解绑出现异常的情况,监控者可以采用相应的措施进行处理和解决。
通过上述本申请实施例中的方法及装置,可以动态的对网络中以连续变量形式发生的事件或者业务进行分段,该动态分段后的枚举变量可以更加准确的分析出出现异常的原因,而且由于本申请的分段手段可以大量的减少分段数量,从而减少消耗的系统资源。
对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable Gate Array,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片2。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell UniversityProgramming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等,目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、AtmelAT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施例描绘了本申请,本领域普通技术人员知道,本申请有许多变形和变化而不脱离本申请的精神,希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims (24)

1.一种业务变量的数值的分段方法,其特征在于包括:
对业务变量的各个数值排序形成数值队列,并对所述数值队列进行初始分段;
计算每个初始分段中数值的集中程度;
尝试合并相邻分段,计算新分段中数值的集中程度,若该集中程度符合预定条件,则形成新的分段结果;
输出所述新的分段结果。
2.根据权利要求1所述的方法,其特征在于,在对业务变量的各个数值排序形成数值队列之前还包括,抽取业务变量原始数值中的数值,形成所述数值队列。
3.根据权利要求1所述的方法,其特征在于,在对业务变量的各个数值排序形成数值队列之前还包括,将时间型的业务变量转换为数值。
4.根据权利要求1所述的方法,其特征在于,对所述数值队列进行初始分段进一步包括,通过分位数的方式将数值队列进行初始分段,或者通过等距法将数值队列进行初始分段。
5.根据权利要求1所述的方法,其特征在于,对所述数值队列进行初始分段进一步包括,获得初始分段中每个分段的分界值,形成分界值队列。
6.根据权利要求5所述的方法,其特征在于,获得初始分段中每个分段的分界值,形成分界值队列之后还包括,将数值队列中小于分界值队列中最小值的数值更新为所述分界值队列中的最小值,将数值队列中大于分界值队列中最大值的数值更新为所述分界值队列中的最大值。
7.根据权利要求6所述的方法,其特征在于,获得初始分段中每个分段的分界值,形成分界值队列之后还包括,若数值队列中的最小值等于分界值队列中的最小值,则去掉所述分界值队列中的最小值,若数值队列中的最大值等于分界值队列中的最大值,则去掉所述分界值队列中的最大值。
8.根据权利要求1所述的方法,其特征在于,计算每个初始分段中数值的集中程度具体包括,计算每个分段中数值的变异系数,其中,变异系数CV=标准偏差SD/平均值Mean。
9.根据权利要求1所述的方法,其特征在于,计算每个初始分段中数值的集中程度具体包括,计算每个分段中数值的方差,或者标准差。
10.根据权利要求1所述的方法,其特征在于,尝试合并相邻分段,计算新分段中数值的集中程度,若该集中程度符合预定条件,则形成新的分段结果具体包括,从数值集中程度最好的分段开始,尝试将该分段与向前的分段合并,然后计算合并后的前向分段中数值的前向集中程度;尝试将该分段与向后的分段合并,然后计算合并后的后向分段中数值的后向集中程度;比较所述前向集中程度和后向集中程度,取集中程度较小的作为新的分段;对所有分段重复进行上述处理,直到新的分段中数值的集中程度超过第一门限值,则停止处理,形成新的分段结果。
11.根据权利要求10所述的方法,其特征在于,在尝试合并相邻分段,计算新分段中数值的集中程度,若该集中程度符合预定条件,则形成新的分段结果之中还包括,将数值个数较少的分段与相邻的分段进行合并,确保每个分段中数值个数占整个数值队列中数值个数的比例大于第二门限值,形成新的分段结果。
12.根据权利要求1所述的方法,其特征在于,输出所述新的分段结果后还包括,根据集中程度最好的分段所在的时间段,查询该时间段是否发生异常情况。
13.一种业务变量的数值的分段装置,其特征在于包括:
初始分段单元,用于对业务变量的各个数值排序形成数值队列,并对所述数值队列进行初始分段;
计算单元,用于计算每个初始分段中数值的集中程度;
处理单元,用于尝试合并相邻分段,计算新分段中数值的集中程度,若该集中程度符合预定条件,则形成新的分段结果;
输出单元,用于输出所述新的分段结果。
14.根据权利要求13所述的装置,其特征在于,还包括抽取单元,用于抽取业务变量原始数值中的数值,形成所述数值队列。
15.根据权利要求13所述的装置,其特征在于,还包括转换单元,用于将时间型的业务变量转换为数值。
16.根据权利要求13所述的装置,其特征在于,所述初始分段单元进一步用于,通过分位数的方式将数值队列进行初始分段,或者通过等距法将数值队列进行初始分段。
17.根据权利要求13所述的装置,其特征在于,所述初始分段单元还用于,获得初始分段中每个分段的分界值,形成分界值队列。
18.根据权利要求13所述的装置,其特征在于,所述初始分段单元还用于,将数值队列中小于分界值队列中最小值的数值更新为所述分界值队列中的最小值,将数值队列中大于分界值队列中最大值的数值更新为所述分界值队列中的最大值。
19.根据权利要求18所述的装置,其特征在于,所述初始分段单元还用于,若数值队列中的最小值等于分界值队列中的最小值,则去掉所述分界值队列中的最小值,若数值队列中的最大值等于分界值队列中的最大值,则去掉所述分界值队列中的最大值。
20.根据权利要求13所述的装置,其特征在于,所述计算单元具体用于,计算每个分段中数值的变异系数,其中,变异系数CV=标准偏差SD/平均值Mean。
21.根据权利要求13所述的装置,其特征在于,所述计算单元还具体用于,计算每个分段中数值的方差,或者标准差。
22.根据权利要求13所述的装置,其特征在于,所述处理单元具体用于,从数值集中程度最好的分段开始,尝试将该分段与向前的分段合并,然后计算合并后的前向分段中数值的前向集中程度;尝试将该分段与向后的分段合并,然后计算合并后的后向分段中数值的后向集中程度;比较所述前向集中程度和后向集中程度,取集中程度较小的作为新的分段;对所有分段重复进行上述处理,直到新的分段中数值的集中程度超过第一门限值,则停止处理,形成新的分段结果。
23.根据权利要求22所述的装置,其特征在于,所述处理单元还具体用于,将数值个数较少的分段与相邻的分段进行合并,确保每个分段中数值个数占整个数值队列中数值个数的比例大于第二门限值,形成新的分段结果。
24.根据权利要求13所述的装置,其特征在于,还包括监控单元,用于根据集中程度最好的分段所在的时间段,查询该时间段是否发生异常情况。
CN201610289143.8A 2016-05-04 2016-05-04 一种业务变量的数值的分段方法及装置 Active CN107346367B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610289143.8A CN107346367B (zh) 2016-05-04 2016-05-04 一种业务变量的数值的分段方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610289143.8A CN107346367B (zh) 2016-05-04 2016-05-04 一种业务变量的数值的分段方法及装置

Publications (2)

Publication Number Publication Date
CN107346367A true CN107346367A (zh) 2017-11-14
CN107346367B CN107346367B (zh) 2020-09-18

Family

ID=60252881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610289143.8A Active CN107346367B (zh) 2016-05-04 2016-05-04 一种业务变量的数值的分段方法及装置

Country Status (1)

Country Link
CN (1) CN107346367B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577543A (zh) * 2013-10-10 2014-02-12 北京智谷睿拓技术服务有限公司 应用程序的排名欺诈检测方法和排名欺诈检测系统
CN104216887A (zh) * 2013-05-30 2014-12-17 国际商业机器公司 用于对采样数据进行总结的方法和装置
WO2014198052A1 (en) * 2013-06-14 2014-12-18 Microsoft Corporation Fast grouping of time series
CN105139282A (zh) * 2015-08-20 2015-12-09 国家电网公司 一种电网指标数据处理方法、装置以及计算设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216887A (zh) * 2013-05-30 2014-12-17 国际商业机器公司 用于对采样数据进行总结的方法和装置
WO2014198052A1 (en) * 2013-06-14 2014-12-18 Microsoft Corporation Fast grouping of time series
CN103577543A (zh) * 2013-10-10 2014-02-12 北京智谷睿拓技术服务有限公司 应用程序的排名欺诈检测方法和排名欺诈检测系统
CN105139282A (zh) * 2015-08-20 2015-12-09 国家电网公司 一种电网指标数据处理方法、装置以及计算设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孙焕良 等: "一种优化的自底向上时间序列分段算法", 《沈阳建筑大学学报(自然科学版)》 *
张建明 等: "传感网络中误差有界的分段逼近数据压缩算法", 《软件学报》 *

Also Published As

Publication number Publication date
CN107346367B (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
US20200380017A1 (en) Automatic feature learning from a relational database for predictive modelling
US9459950B2 (en) Leveraging user-to-tool interactions to automatically analyze defects in IT services delivery
TWI650653B (zh) 大數據處理方法及平台
CN111680159B (zh) 数据处理方法、装置及电子设备
CN106156791B (zh) 业务数据分类方法和装置
WO2017084521A1 (zh) 一种订单聚类方法及装置,以及反恶意信息的方法及装置
US20150213002A1 (en) Personal emotion state monitoring from social media
US9842301B2 (en) Systems and methods for improved knowledge mining
US9104709B2 (en) Cleansing a database system to improve data quality
WO2018184518A1 (zh) 微博数据处理方法、装置、计算机设备及存储介质
CN110287313A (zh) 一种风险主体的确定方法及服务器
WO2018161900A1 (zh) 一种风控事件自动处理方法及装置
CN110874530A (zh) 关键词提取方法、装置、终端设备及存储介质
CN111460153A (zh) 热点话题提取方法、装置、终端设备及存储介质
CN107391545A (zh) 一种对用户进行分类的方法、输入方法及装置
CN114118287A (zh) 样本生成方法、装置、电子设备以及存储介质
CN112967144A (zh) 一种金融信用风险事件抽取方法、可读存储介质及设备
CN107491484A (zh) 一种数据匹配方法、装置及设备
CN111190967A (zh) 用户多维度数据处理方法、装置及电子设备
CN109376981B (zh) 数据处理方式的确定方法、装置、服务器和数据处理方法
CN107346367A (zh) 一种业务变量的数值的分段方法及装置
US10467258B2 (en) Data categorizing system, method, program software and recording medium therein
CN114095390B (zh) 区域内对象流量的预测方法、装置、设备及存储介质
JP2020154512A (ja) 文分類装置、文分類方法及び文分類プログラム
CN106815727A (zh) 一种信息风险评估方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200925

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200925

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Advanced innovation technology Co.,Ltd.

Address before: Greater Cayman, British Cayman Islands

Patentee before: Alibaba Group Holding Ltd.