CN108170837A - 数据离散化方法、装置、计算机设备及存储介质 - Google Patents

数据离散化方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN108170837A
CN108170837A CN201810031540.4A CN201810031540A CN108170837A CN 108170837 A CN108170837 A CN 108170837A CN 201810031540 A CN201810031540 A CN 201810031540A CN 108170837 A CN108170837 A CN 108170837A
Authority
CN
China
Prior art keywords
data set
data
discrete
comentropy
merging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810031540.4A
Other languages
English (en)
Inventor
晏存
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810031540.4A priority Critical patent/CN108170837A/zh
Priority to PCT/CN2018/077137 priority patent/WO2019136799A1/zh
Publication of CN108170837A publication Critical patent/CN108170837A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据离散化方法、装置、计算机设备及存储介质,该方法包括:基于熵的数据离散化,将业务数据的取值范围离散以生成离散数据集合并计算离散数据集合的信息熵,其中离散数据集合包括多个数据区间;根据预设合并规则预合并离散数据集合中的数据区间以得到多个预合并数据区间并计算预合并数据区间的信息熵;将离散数据集合中具有最大信息熵的预合并数据区间进行合并作为目标数据集合并计算目标数据集合的信息熵以及区间损失率;根据离散数据集合的信息熵和目标数据集合的信息熵计算熵损失率;若熵损失率大于区间损失率,输出目标数据集合以完成对业务数据的数据离散化。该方法提高了数据离散化的效果,有利于数据挖掘和机器学习。

Description

数据离散化方法、装置、计算机设备及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据离散化方法、装置、计算机设备及存储介质。
背景技术
目前,在大数据信息化时代,数据库变得越来越大,人们迫切的需要对庞大的数据库进行数据挖掘以得到有价值信息,由于采集到的数据多为连续的,为了更好地进行知识发现和规则提取,数据离散化技术成为关键,同时连续属性的离散化是数据挖掘和机器学习的重要预处理步骤,直接关系到学习的效果。在分类算法中,对训练样本集进行离散化预处理,具有双重意义,一方面可以有效降低学习算法的复杂度,加快学习速度,甚至提高学习分类精度;另一方面还可以简化和归纳获得的知识,提高分类结果的可理解性。因此,离散化问题得到了较为广泛和深入的研究。等宽和等频区间法的数据离散化是常见的离散化算法,虽然易于实现,但因为忽视了样本分布信息,因而难以将区间边界设置在最合适的位置上,从而使得它们的性能在大多数情况下无法取得令人满意效果。
发明内容
本申请提供了一种数据离散化方法、装置、计算机设备及存储介质,以提高机器学习的训练效果。
第一方面,本申请提供了一种数据离散化方法,该方法包括:
基于熵的数据离散化,将业务数据的取值范围离散以生成相应的离散数据集合,并计算所述离散数据集合的信息熵,其中所述离散数据集合包括多个数据区间;
根据预设合并规则预合并所述离散数据集合中的数据区间以得到多个预合并数据区间,并计算所述预合并数据区间的信息熵;
将所述离散数据集合中具有最大信息熵的预合并数据区间进行合并作为目标数据集合,并计算所述目标数据集合的信息熵以及区间损失率;
根据所述离散数据集合的信息熵和所述目标数据集合的信息熵计算所述目标数据集合的熵损失率;
判断所述熵损失率是否大于所述区间损失率;
若所述熵损失率大于所述区间损失率,输出所述目标数据集合以完成对所述业务数据的取值范围的数据离散化。
第二方面,本申请提供了一种数据离散化装置,该装置包括:
离散生成计算单元,用于基于熵的数据离散化,将业务数据的取值范围离散以生成相应的离散数据集合,并计算所述离散数据集合的信息熵,其中所述离散数据集合包括多个数据区间;
第一合并计算单元,用于根据预设合并规则预合并所述离散数据集合中的数据区间以得到多个预合并数据区间,并计算所述预合并数据区间的信息熵;
第二合并计算单元,用于将所述离散数据集合中具有最大信息熵的预合并数据区间进行合并作为目标数据集合,并计算所述目标数据集合的信息熵以及区间损失率;
熵损失率计算单元,用于根据所述离散数据集合的信息熵和所述目标数据集合的信息熵计算所述目标数据集合的熵损失率;
损失率判断单元,用于判断所述熵损失率是否大于所述区间损失率;
数据集合输出单元,用于若所述熵损失率大于所述区间损失率,输出所述目标数据集合以完成对所述业务数据的取值范围的数据离散化。
第三方面,本申请还提供了一种计算机设备,该计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现本申请提供的任一项所述的数据离散化方法。
第四方面,本申请还提供了一种存储介质,其中所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行本申请提供的任一项所述的数据离散化方法。
本申请实施例通过基于熵的数据离散化将业务数据的取值范围离散成离散数据集合,其中所述离散数据集合包括多个数据区间;采用预设合并规则合并所述数据区间直至合并后的数据集合的熵损失率大于区间损失率为止,使得该合并后的数据集合的离散区间尽可能少而熵又尽可能大,由此提高了数据离散化的效果,有利于数据挖掘和机器学习。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的一种数据离散化方法的示意流程图;
图2是本申请另一实施例提供的一种数据离散化方法的示意流程图;
图3是本申请一实施例提供的一种数据离散化装置的示意性框图;
图4是本申请另一实施例提供的一种数据离散化装置的示意性框图;
图5是本申请一实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1是本申请一实施例提供的一种数据离散化方法的示意流程图。如图1所示,该数据离散化方法包括步骤S101~S107。
S101、基于熵的数据离散化,将业务数据的取值范围离散以生成相应的离散数据集合,并计算所述离散数据集合的信息熵,其中所述离散数据集合包括多个数据区间。
在本实施例中,该业务数据的属性为连续属性。基于熵的数据离散化,将连续的取值范围划分为多个小区间,这些小区间即是数据区间,多个数据区间组成离散数据集合。
其中,基于熵的数据离散化,将业务数据的取值范围离散以生成相应的离散数据集合,可首先确定分裂点,根据所述分裂点对连续数值进行离散化,例如采用现有的为了离散化属性A,选择A的具有最小熵的值作为分裂点,并递归地划分数据区间,以得到离散数据集合。
其中,计算所述离散数据集合的信息熵,具体为采用信息熵的计算公式计算所述离散数据集合的信息熵,其中所述信息熵的计算公式为:
在表达式1-1中,n为大于1的正整数,i为1到n之间的正整数,pi为第i数据出现的概率,H(p)为信息熵。
具体,采用信息熵的计算公式计算所述离散数据集合的信息熵,首先需要将数据区间按照从小到大的顺序进行排列,并统计每个所述数据区间的出现次数,根据该出现次数即可计算出该数据区间的概率分布。根据所述数据区间的概率利用表达式1-1则可计算出所述离散数据集合的信息熵,记为G0。
S102、根据预设合并规则预合并所述离散数据集合中的数据区间以得到多个预合并数据区间,并计算所述预合并数据区间的信息熵。
在本实施例中,所述预设合并规则为采用预设方式将所述离散数据集合中的数据区间进行合并,该预设合并规则比如为:合并所述离散数据集合中相邻的两个数据区间,或者合并所述离散数据集合中的交替的两个数据区间。需要说明的是,在同一实施例中只采用同一种预设合并规则,比如采用合并所述离散数据集合中相邻的两个数据区间,在后续的循环合并方式均采用该合并所述离散数据集合中相邻的两个数据区间的方式。
譬如,离散数据集合为S0,其包括多个数据区间记为S00、S01、S02...S0n。其中S00和S01、S01和S02均为相邻的两个数据区间,而交替的两个数据区间比如为S00和S02、S01和S03。合并所述离散数据集合中相邻的两个数据区间则会产生新的数据区间,比如(S00、S01)、(S01、S02)....(S0n-1、S0n),这些新的数据区间即为预合并数据区间,利用信息熵的计算公式分别计算这些预合并数据区间对应的信息熵,这些预合并数据区间对应的信息熵会有大有小,并查找其中具有最大信息熵的预合并数据区间。
S103、将所述离散数据集合中具有最大信息熵的预合并数据区间进行合并作为目标数据集合,并计算所述目标数据集合的信息熵以及区间损失率。
在本实施例中,比如在步骤S102中查找到所述离散数据集合中具有最大信息熵的预合并数据区间为(S02、S03),即该预合并数据区间对应的信息熵比其他的预合并数据区间对应的信息熵都大,将该预合并数据区间进行真正的合并,并记为AS0203,即将所述离散数据集合中具有最大信息熵的预合并数据区间进行合并作为目标数据集合。因此,该目标数据集合包括的数据区间为S00、S01、AS0203、S04...S0n。由于合并了具有最大熵的数据区间,因此目标数据集合的信息熵就会发生变化,因此需要根据信息熵的计算公式重新计算目标数据集合对应的信息熵,记为G1。
由于真正合并了其中两个数据区间,因此原来的离散数据集合相对于该目标数据集合会出现数据区间和信息熵的损失,由此还可以计算出该目标数据集合的区间损失率。
具体地,可采用预设区间损失率公式计算所述目标数据集合的区间损失率,所述预设区间损失率公式为:
Lq=x/N (1-2)
其中,Lq为区间损失率,x为每次合并后损失的数据区间数,N为离散数据集合的数据区间数。
在本实施例中,由于是第一次合并,目标数据集合的区间损失率记为L1。由预设区间损失率公式可计算出该目标数据集合的区间损失率L1=1/N。
S104、根据所述离散数据集合的信息熵和所述目标数据集合的信息熵计算所述目标数据集合的熵损失率。
在本实施例中,具体是根据所述离散数据集合的信息熵和所述目标数据集合的信息熵采用预设熵损失率公式计算所述目标数据集合的熵损失率,所述预设熵损失率公式为:
Hq=(G0-G)/G0 (1-3)
其中,Hq为熵损失率,G0为所述离散数据集合的信息熵,G为所述目标数据集合的信息熵。
在本实施例中,所述目标数据集合的熵损失率记为H1,由于上述预设熵损失率可以计算出该目标数据集合的熵损失率H1=(G0-G1)/G0。
需要说明的是,所述预设熵损失率公式与所述预设区间损失率公式是相关联的,如果所述预设区间损失率公式中的N采用随着每次数据区间合并而变化,那么所述预设熵损失率中的G0也需要选择随着每次数据区间合并进行变化,以提高计算的准确度。
S105、判断所述熵损失率是否大于所述区间损失率。
在本实施例中,具体为判断所述目标数据集合的熵损失率H1是否大于该目标数据集合的区间损失率L1。若所述熵损失率大于所述区间损失率,则执行步骤S106;若所述熵损失率不大于所述区间损失率,则执行步骤S107。
S106、输出所述目标数据集合以完成对所述业务数据的取值范围的数据离散化。
在本实施例中,若所述熵损失率大于所述区间损失率,输出所述目标数据集合以完成对所述业务数据的取值范围的数据离散化,具体可将所述目标数据集合进行保存并保存地址信息发送给用户,由于用户根据需要进行提取该目标数据集合,比如用于数据挖掘或机器学习中的模型训练等。
S107、将所述目标数据集合设为所述离散数据集合并返回执行所述根据预设合并规则预合并所述离散数据集合中的数据区间以得到多个预合并数据区间的步骤,直至所述熵损失率大于所述区间损失率。
在本实施例中,若所述熵损失率不大于所述区间损失率,则将所述目标数据集合作为所述离散数据集合执行上述步骤S102至S105进行下一轮的数据区间的合并,依次循环直至所述熵损失率大于所述区间损失率,停止继续循环合并,其中所述熵损失率大于所述区间损失率对应的那个目标数据集合就是最后所需要的数据离散化的结果。
上述实施例通过基于熵的数据离散化将业务数据的取值范围离散成离散数据集合,其中所述离散数据集合包括多个数据区间;采用预设合并规则合并所述数据区间直至合并后的数据集合的熵损失率大于区间损失率为止,使得该合并后的数据集合的离散区间尽可能少而熵又尽可能大,由此提高了数据离散化的效果,有利于数据挖掘和机器学习。
请参阅图2,图2是本申请另一实施例提供的一种数据离散化方法的示意流程图。该数据离散化方法具体为基于熵的数据离散化,可以运行在终端或服务器中以对数据的连续属性进行离散化。如图2所示,该数据离散化方法包括步骤S201~S209。
S201、获取目标业务的业务数据并确定所述业务数据的取值范围。
在本实施例中,所述确定所述业务数据的取值范围,可以根据用户的选择截取等方式确定所述业务数据的取值范围,也可以根据预设截取窗口方式截取以确定所述业务数据的取值范围,该预设截取窗口可以由用户根据实际需要进行设定。该取值范围为业务数据的有效范围,可以反映出该业务数据的某些特征。
S202、根据预设处理规则对所述业务数据的取值范围进行处理。
在本实施例中,所述根据预设处理规则对所述业务数据的取值范围进行处理,包括:对所述业务数据的取值范围进行滤波降噪处理或归一化处理等,目的是为以后的离散化后更好地应用在数据挖掘或机器学习上。其中,滤波降噪处理或归一化处理的方法采用现有的方法,在此不做详细介绍。
S203、基于熵的数据离散化,将业务数据的取值范围离散以生成相应的离散数据集合,并计算所述离散数据集合的信息熵,其中所述离散数据集合包括多个数据区间。
在本实施例中,基于熵的数据离散化,将业务数据的取值范围离散以生成相应的离散数据集合,所述离散数据集合包括多个数据区间。将多少所述数据区间进行排序统计其出现次数,再根据信息熵的计算公式即可计算出所述离散数据集合的信息熵。
S204、预合并所述离散数据集合中相邻的两个数据区间以得到多个预合并数据区间,并计算所述预合并数据区间的信息熵。
在本实施例中,比如,离散数据集合为S0,其包括多个数据区间记为S00、S01、S02...S0n。合并所述离散数据集合中相邻的两个数据区间则会产生新的数据区间,比如(S00、S01)、(S01、S02)....(S0n-1、S0n),这些新的数据区间即为预合并数据区间,利用信息熵的计算公式分别计算这些预合并数据区间对应的信息熵,这些预合并数据区间对应的信息熵会有大有小,并查找其中具有最大信息熵的预合并数据区间。
S205、将所述离散数据集合中具有最大信息熵的预合并数据区间进行合并作为目标数据集合,并计算所述目标数据集合的信息熵以及区间损失率。
在本实施例中,由于真正合并了其中两个数据区间,即所述离散数据集合中具有最大信息熵的预合并数据区间,因此原来的离散数据集合相对于该目标数据集合会出现数据区间和信息熵的损失,由此还需计算出该目标数据集合的信息熵以及相应的区间损失率。具体采用上述实施例中的区间损失率计算公式进行计算。
S206、根据所述离散数据集合的信息熵和所述目标数据集合的信息熵计算所述目标数据集合的熵损失率。
在本实施例中,具体地,根据所述离散数据集合的信息熵和所述目标数据集合的信息熵采用表达式1-3计算所述目标数据集合的熵损失率。
S207、判断所述熵损失率是否大于所述区间损失率。
在本实施例中,判断所述熵损失率是否大于所述区间损失率,产生两种判断结果。具体地,若所述熵损失率大于所述区间损失率,则执行步骤S208;若所述熵损失率不大于所述区间损失率,则执行步骤S208。
S208、若所述熵损失率大于所述区间损失率,输出所述目标数据集合以完成对所述业务数据的取值范围的数据离散化。
在本实施例中,若所述熵损失率大于所述区间损失率,输出所述目标数据集合以完成对所述业务数据的取值范围的数据离散化,具体可将所述目标数据集合进行保存并保存地址信息发送给用户,由于用户根据需要进行提取该目标数据集合,比如用于数据挖掘或机器学习中的模型训练等。
S209、若所述熵损失率不大于所述区间损失率,将所述目标数据集合设为所述离散数据集合并返回执行所述根据预设合并规则预合并所述离散数据集合中的数据区间以得到多个预合并数据区间的步骤,直至所述熵损失率大于所述区间损失率。
在本实施例中,若所述熵损失率不大于所述区间损失率,则将所述目标数据集合作为所述离散数据集合执行上述步骤S204至S207进行下一轮的数据区间的合并,依次循环直至所述熵损失率大于所述区间损失率,停止继续循环合并,其中所述熵损失率大于所述区间损失率对应的那个目标数据集合就是最后所需要的数据离散化的结果。
上述实施例通过离散化之前对业务数据进行相应的处理后,基于熵的数据离散化将业务数据的取值范围离散成离散数据集合,其中所述离散数据集合包括多个数据区间;采用预设合并规则合并所述数据区间直至合并后的数据集合的熵损失率大于区间损失率为止,使得该合并后的数据集合的离散区间尽可能少而熵又尽可能大,由此提高了数据离散化的效果,有利于提高数据挖掘和机器学习的效果。
请参阅图3,图3是本申请实施例提供的一种数据离散化装置的示意性框图。该数据离散化装置300可以安装于服务器或终端中。如图3所示,数据离散化装置300包括:离散生成计算单元301、第一合并计算单元302、第二合并计算单元303、熵损失率计算单元304、损失率判断单元305、数据集合输出单元306和返回循环执行单元307。
离散生成计算单元301,用于基于熵的数据离散化,将业务数据的取值范围离散以生成相应的离散数据集合,并计算所述离散数据集合的信息熵,其中所述离散数据集合包括多个数据区间。
第一合并计算单元302,用于根据预设合并规则预合并所述离散数据集合中的数据区间以得到多个预合并数据区间,并计算所述预合并数据区间的信息熵。
第二合并计算单元303,用于将所述离散数据集合中具有最大信息熵的预合并数据区间进行合并作为目标数据集合,并计算所述目标数据集合的信息熵以及区间损失率。
熵损失率计算单元304,用于根据所述离散数据集合的信息熵和所述目标数据集合的信息熵计算所述目标数据集合的熵损失率。
损失率判断单元305,用于判断所述熵损失率是否大于所述区间损失率。
具体地,若损失率判断单元305判断出所述熵损失率大于所述区间损失率,则调用数据集合输出单元306;若损失率判断单元305判断出所述熵损失率不大于所述区间损失率,则调用返回循环执行单元307。
数据集合输出单元306,用于输出所述目标数据集合以完成对所述业务数据的取值范围的数据离散化。
返回循环执行单元307,用于将所述目标数据集合设为所述离散数据集合并返回执行所述根据预设合并规则预合并所述离散数据集合中的数据区间以得到多个预合并数据区间的步骤,直至所述熵损失率大于所述区间损失率。
请参阅图4,图4是本申请实施例提供的一种数据离散化装置的示意性框图。该数据离散化装置400可以安装于服务器或终端中。如图4所示,数据离散化装置400包括:取值范围确定单元401、取值范围处理单元402、离散生成计算单元403、第一合并计算单元404、第二合并计算单元405、熵损失率计算单元406、损失率判断单元407、数据集合输出单元408和返回循环执行单元409。
取值范围确定单元401,用于获取目标业务的业务数据并确定所述业务数据的取值范围。
取值范围处理单元402,用于根据预设处理规则对所述业务数据的取值范围进行处理。
离散生成计算单元403,用于基于熵的数据离散化,将业务数据的取值范围离散以生成相应的离散数据集合,并计算所述离散数据集合的信息熵,其中所述离散数据集合包括多个数据区间。
第一合并计算单元404,用于预合并所述离散数据集合中相邻的两个数据区间以得到多个预合并数据区间,并计算所述预合并数据区间的信息熵。
第二合并计算单元405,用于将所述离散数据集合中具有最大信息熵的预合并数据区间进行合并作为目标数据集合,并计算所述目标数据集合的信息熵以及区间损失率。
熵损失率计算单元406,用于根据所述离散数据集合的信息熵和所述目标数据集合的信息熵计算所述目标数据集合的熵损失率。
损失率判断单元407,用于判断所述熵损失率是否大于所述区间损失率。
具体地,若损失率判断单元407判断出所述熵损失率大于所述区间损失率,则调用数据集合输出单元408;若损失率判断单元407判断出所述熵损失率不大于所述区间损失率,则调用返回循环执行单元409。
数据集合输出单元408,用于若所述熵损失率大于所述区间损失率,输出所述目标数据集合以完成对所述业务数据的取值范围的数据离散化。
返回循环执行单元409,用于若所述熵损失率不大于所述区间损失率,将所述目标数据集合设为所述离散数据集合并返回执行所述根据预设合并规则预合并所述离散数据集合中的数据区间以得到多个预合并数据区间的步骤,直至所述熵损失率大于所述区间损失率。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的数据离散化装置和单元的具体工作过程,可以参考前述的数据离散化方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的数据离散化装置和方法,可以通过其它的方式实现。例如,以上所描述的数据离散化装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
上述装置可以实现为一种计算机程序的形式,计算机程序可以在如图5所示的计算机设备上运行。
请参阅图5,图5是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500设备可以是终端或服务器。
参照图5,该计算机设备500包括通过系统总线510连接的处理器520、存储器和网络接口550,其中,存储器可以包括非易失性存储介质530和内存储器540。
该非易失性存储介质530可存储操作系统531和计算机程序532。该计算机程序532被执行时,可使得处理器520执行一种数据离散化方法。
该处理器520用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器540为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器520执行时,可使得处理器520执行一种数据离散化方法。
该网络接口550用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器520用于运行存储在存储器中的程序代码,以实现如下步骤:
基于熵的数据离散化,将业务数据的取值范围离散以生成相应的离散数据集合,并计算所述离散数据集合的信息熵,其中所述离散数据集合包括多个数据区间;
根据预设合并规则预合并所述离散数据集合中的数据区间以得到多个预合并数据区间,并计算所述预合并数据区间的信息熵;
将所述离散数据集合中具有最大信息熵的预合并数据区间进行合并作为目标数据集合,并计算所述目标数据集合的信息熵以及区间损失率;
根据所述离散数据集合的信息熵和所述目标数据集合的信息熵计算所述目标数据集合的熵损失率;
判断所述熵损失率是否大于所述区间损失率;
若所述熵损失率大于所述区间损失率,输出所述目标数据集合以完成对所述业务数据的取值范围的数据离散化。
在一实施例中,处理器520在执行判断所述熵损失率是否大于所述区间损失率之后,还执行如下步骤:
若所述熵损失率不大于所述区间损失率,将所述目标数据集合设为所述离散数据集合并返回执行所述根据预设合并规则预合并所述离散数据集合中的数据区间以得到多个预合并数据区间的步骤,直至所述熵损失率大于所述区间损失率。
在一实施例中,处理器520在执行所述根据预设合并规则预合并所述离散数据集合中的数据区间以得到多个预合并数据区间,具体执行如下步骤:
预合并所述离散数据集合中相邻的两个数据区间以得到多个预合并数据区间。
在一实施例中,处理器520在执行所述计算所述离散数据集合的信息熵以及计算所述预合并数据区间的信息熵,具体执行如下步骤:
采用信息熵的计算公式计算所述离散数据集合的信息熵以及计算所述预合并数据区间的信息熵,所述信息熵的计算公式为:
其中,n为大于1的正整数,i为1到n之间的正整数,pi为第i数据出现的概率,H(p)为信息熵。
在一实施例中,处理器520在执行所述计算所述目标数据集合的区间损失率时,具体执行如下步骤:
采用预设区间损失率公式计算所述目标数据集合的区间损失率,所述预设区间损失率公式为:
Lq=x/N
其中,Lq为区间损失率,x为每次合并后损失的数据区间数,N为离散数据集合的数据区间数。
在一实施例中,处理器520在执行所述根据所述离散数据集合的信息熵和所述目标数据集合的信息熵计算所述目标数据集合的熵损失率时,具体执行如下步骤:
根据所述离散数据集合的信息熵和所述目标数据集合的信息熵采用预设熵损失率公式计算所述目标数据集合的熵损失率,所述预设熵损失率公式为:
Hq=(G0-G)/G0
其中,Hq为熵损失率,G0为所述离散数据集合的信息熵,G为所述目标数据集合的信息熵。
应当理解,在本申请实施例中,处理器520可以是中央处理单元(CentralProcessing Unit,CPU),该处理器520还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域技术人员可以理解,图5中示出的计算机设备500结构并不构成对计算机设备500的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本领域普通技术人员可以理解的是实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,程序可存储于一存储介质中,该存储介质为计算机可读存储介质。如本发明实施例中,该程序可存储于计算机系统的存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述各方法的实施例的流程步骤。
该计算机可读存储介质可以是磁碟、光盘、U盘、移动硬盘、随机存储记忆体(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种数据离散化方法,其特征在于,包括:
基于熵的数据离散化,将业务数据的取值范围离散以生成相应的离散数据集合,并计算所述离散数据集合的信息熵,其中所述离散数据集合包括多个数据区间;
根据预设合并规则预合并所述离散数据集合中的数据区间以得到多个预合并数据区间,并计算所述预合并数据区间的信息熵;
将所述离散数据集合中具有最大信息熵的预合并数据区间进行合并作为目标数据集合,并计算所述目标数据集合的信息熵以及区间损失率;
根据所述离散数据集合的信息熵和所述目标数据集合的信息熵计算所述目标数据集合的熵损失率;
判断所述熵损失率是否大于所述区间损失率;
若所述熵损失率大于所述区间损失率,输出所述目标数据集合以完成对所述业务数据的取值范围的数据离散化。
2.根据权利要求1所述的数据离散化方法,其特征在于,所述判断所述熵损失率是否大于所述区间损失率之后,还包括:
若所述熵损失率不大于所述区间损失率,将所述目标数据集合设为所述离散数据集合并返回执行所述根据预设合并规则预合并所述离散数据集合中的数据区间以得到多个预合并数据区间的步骤,直至所述熵损失率大于所述区间损失率。
3.根据权利要求1所述的数据离散化方法,其特征在于,所述根据预设合并规则预合并所述离散数据集合中的数据区间以得到多个预合并数据区间,包括:
预合并所述离散数据集合中相邻的两个数据区间以得到多个预合并数据区间。
4.根据权利要求1所述的数据离散化方法,其特征在于,所述计算所述离散数据集合的信息熵以及计算所述预合并数据区间的信息熵,包括:
采用信息熵的计算公式计算所述离散数据集合的信息熵以及计算所述预合并数据区间的信息熵,所述信息熵的计算公式为:
其中,n为大于1的正整数,i为1到n之间的正整数,pi为第i数据出现的概率,H(p)为信息熵。
5.根据权利要求4所述的数据离散化方法,其特征在于,所述计算所述目标数据集合的区间损失率,包括:采用预设区间损失率公式计算所述目标数据集合的区间损失率,所述预设区间损失率公式为:
Lq=x/N
其中,Lq为区间损失率,x为每次合并后损失的数据区间数,N为离散数据集合的数据区间数;
所述根据所述离散数据集合的信息熵和所述目标数据集合的信息熵计算所述目标数据集合的熵损失率,包括:根据所述离散数据集合的信息熵和所述目标数据集合的信息熵采用预设熵损失率公式计算所述目标数据集合的熵损失率,所述预设熵损失率公式为:
Hq=(G0-G)/G0
其中,Hq为熵损失率,G0为所述离散数据集合的信息熵,G为所述目标数据集合的信息熵。
6.一种数据离散化装置,其特征在于,包括:
离散生成计算单元,用于基于熵的数据离散化,将业务数据的取值范围离散以生成相应的离散数据集合,并计算所述离散数据集合的信息熵,其中所述离散数据集合包括多个数据区间;
第一合并计算单元,用于根据预设合并规则预合并所述离散数据集合中的数据区间以得到多个预合并数据区间,并计算所述预合并数据区间的信息熵;
第二合并计算单元,用于将所述离散数据集合中具有最大信息熵的预合并数据区间进行合并作为目标数据集合,并计算所述目标数据集合的信息熵以及区间损失率;
熵损失率计算单元,用于根据所述离散数据集合的信息熵和所述目标数据集合的信息熵计算所述目标数据集合的熵损失率;
损失率判断单元,用于判断所述熵损失率是否大于所述区间损失率;
数据集合输出单元,用于若所述熵损失率大于所述区间损失率,输出所述目标数据集合以完成对所述业务数据的取值范围的数据离散化。
7.根据权利要求6所述的数据离散化装置,其特征在于,还包括:
返回循环执行单元,用于若所述熵损失率不大于所述区间损失率,将所述目标数据集合设为所述离散数据集合并返回执行所述根据预设合并规则预合并所述离散数据集合中的数据区间以得到多个预合并数据区间的步骤,直至所述熵损失率大于所述区间损失率。
8.根据权利要求6所述的数据离散化装置,其特征在于,所述第一合并计算单元,具体用于预合并所述离散数据集合中相邻的两个数据区间以得到多个预合并数据区间。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的数据离散化方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-5任一项所述的数据离散化方法。
CN201810031540.4A 2018-01-12 2018-01-12 数据离散化方法、装置、计算机设备及存储介质 Pending CN108170837A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810031540.4A CN108170837A (zh) 2018-01-12 2018-01-12 数据离散化方法、装置、计算机设备及存储介质
PCT/CN2018/077137 WO2019136799A1 (zh) 2018-01-12 2018-02-24 数据离散化方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810031540.4A CN108170837A (zh) 2018-01-12 2018-01-12 数据离散化方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN108170837A true CN108170837A (zh) 2018-06-15

Family

ID=62514636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810031540.4A Pending CN108170837A (zh) 2018-01-12 2018-01-12 数据离散化方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN108170837A (zh)
WO (1) WO2019136799A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418258A (zh) * 2019-08-22 2021-02-26 北京京东振世信息技术有限公司 一种特征离散化方法和装置
CN113168414A (zh) * 2018-10-11 2021-07-23 维萨国际服务协会 用于负载平衡以处理大型数据集的系统、方法和计算机程序产品

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230259078A1 (en) * 2020-06-12 2023-08-17 Korea Electrotechnology Research Institute Temperature discretization digital device

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9779283B2 (en) * 2011-01-05 2017-10-03 The Board Of Trustees Of The University Of Illinois Automated prostate tissue referencing for cancer detection and diagnosis
CN106407304A (zh) * 2016-08-30 2017-02-15 北京大学 一种基于互信息的数据离散化与特征选择集成方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113168414A (zh) * 2018-10-11 2021-07-23 维萨国际服务协会 用于负载平衡以处理大型数据集的系统、方法和计算机程序产品
CN112418258A (zh) * 2019-08-22 2021-02-26 北京京东振世信息技术有限公司 一种特征离散化方法和装置

Also Published As

Publication number Publication date
WO2019136799A1 (zh) 2019-07-18

Similar Documents

Publication Publication Date Title
CN105446988B (zh) 预测类别的方法和装置
Yu et al. Trajectory similarity clustering based on multi-feature distance measurement
CN108090567A (zh) 电力通信系统故障诊断方法及装置
TW202029079A (zh) 異常群體識別方法及裝置
CN107515890A (zh) 一种识别常驻点的方法及终端
US8898808B1 (en) System and method for assessing effectiveness of online advertising
CN108170837A (zh) 数据离散化方法、装置、计算机设备及存储介质
CN107506802A (zh) 一种基于网格的聚类算法及其装置
CN107357812A (zh) 一种数据查询方法及装置
CN108647997A (zh) 一种检测异常数据的方法及装置
CN112597284B (zh) 公司名称的匹配方法、装置、计算机设备及存储介质
CN109272402A (zh) 评分卡的建模方法、装置、计算机设备及存储介质
CN109033148A (zh) 一种面向多分类的不平衡数据预处理方法、装置及设备
CN110414926A (zh) 台账管理方法、装置及计算机可读存储介质
CN103544325A (zh) 用于网页页面点击分布的数据处理方法和装置
CN108205571A (zh) 键值数据表的连接方法及装置
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
CN106776757B (zh) 用户完成网银操作的指示方法及装置
CN110309143A (zh) 数据相似度确定方法、装置及处理设备
CN106802958A (zh) Cad数据到gis数据的转换方法及系统
CN110347841A (zh) 一种文档内容分类的方法、装置、存储介质及电子设备
CN109522275A (zh) 基于用户生产内容的标签挖掘方法、电子设备及存储介质
CN111339163B (zh) 获取用户流失状态的方法、装置、计算机设备和存储介质
CN104778202B (zh) 基于关键词的事件演化过程的分析方法及系统
CN110427496A (zh) 用于文本处理的知识图谱扩充方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180615

RJ01 Rejection of invention patent application after publication