CN109508726A - 数据处理方法及其系统 - Google Patents

数据处理方法及其系统 Download PDF

Info

Publication number
CN109508726A
CN109508726A CN201710839392.4A CN201710839392A CN109508726A CN 109508726 A CN109508726 A CN 109508726A CN 201710839392 A CN201710839392 A CN 201710839392A CN 109508726 A CN109508726 A CN 109508726A
Authority
CN
China
Prior art keywords
dvielement
positive
negative
sample
class sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710839392.4A
Other languages
English (en)
Inventor
张明阳
李小刚
宋增超
马千里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710839392.4A priority Critical patent/CN109508726A/zh
Publication of CN109508726A publication Critical patent/CN109508726A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Abstract

本公开提供了一种数据处理方法,该方法包括:获取非平衡数据的初始样本,其中,在初始样本中正类元素的个数小于负类元素的个数;根据初始样本中的正类元素创建一个正类样本以及根据初始样本中的负类元素创建多个负类样本,其中,每个负类样本中的负类元素的个数都等于正类样本中的正类元素的个数;利用正类样本分别与多个负类样本中的每个负类样本训练出一对应的分类器,而得到多个分类器;以及将目标非平衡数据输入至多个分类器中,以对目标非平衡数据进行分类。本公开还提供了一种数据处理系统、一种计算机系统和一种计算机可读介质。

Description

数据处理方法及其系统
技术领域
公开涉及数据处理领域,更具体地,涉及一种数据处理方法及其系统、以及一种计算机系统和一种计算机可读介质。
背景技术
非平衡大数据是指构成大数据的正类样本的样本数量和负类样本的样本数量不平衡,即负类样本中的样本数量远远大于正类样本中的样本数量。由于类别样本数量固有的不平衡性,会导致正类样本的分类结果正确率较低,如容易将正类样本判别为负类样本,严重影响分类算法的分类性能。一般情况下,将正类样本判为负类样本的损失代价要明显高于将负类样本判为正类样本的损失代价。例如,在医学诊断、入侵检测等领域,将有疾病患者诊断为无疾病的损失代价和将非法入侵判为合法交易的损失代价都要明显高于相反的情形。
在实现本公开实施例的过程中,发明人发现相关技术中至少存在如下问题:对非平衡大数据进行分类时容易导致分类结果正确率低。
针对相关技术中的上述问题,目前还未提出有效的解决方案。
发明内容
有鉴于此,本公开提供了一种数据处理方法及其系统、以及一种计算机系统和一种计算机可读介质。
本公开的一个方面提供了一种数据处理方法,包括:获取非平衡数据的初始样本,其中,在上述初始样本中正类元素的个数小于负类元素的个数;根据上述初始样本中的上述正类元素创建一个正类样本以及根据上述初始样本中的上述负类元素创建多个负类样本,其中,每个上述负类样本中的负类元素的个数都等于上述正类样本中的正类元素的个数;利用上述正类样本分别与上述多个负类样本中的每个负类样本训练出一对应的分类器,而得到多个分类器;以及将目标非平衡数据输入至上述多个分类器中,以对上述目标非平衡数据进行分类。
根据本公开的实施例,根据上述初始样本中的上述正类元素创建一个正类样本包括:根据每个上述负类样本中的负类元素的个数,确定上述正类样本中的上述正类元素的拟定个数;确定上述正类样本中的上述正类元素的实际个数;将上述拟定个数与上述实际个数的差值作为上述正类样本中采样元素的采样个数;根据所述初始样本中的所述正类元素和每个所述负类样本中的负类元素确定所述正类元素的采样空间;在上述采样空间内,按照确定出的上述采样个数对上述正类样本中的上述正类元素进行采样,以获得上述采样元素;以及创建包含上述采样元素和上述正类元素的样本作为上述正类样本。
根据本公开的实施例,根据所述初始样本中的所述正类元素和每个所述负类样本中的负类元素确定所述正类元素的采样空间包括:计算上述初始样本中的上述正类元素与每个上述负类样本中各负类元素之间的欧式距离;从欧式距离的计算结果中找出最小的欧式距离值;以及分别以上述初始样本中的每个上述正类元素为中心,以确定出的上述最小的欧式距离值为半径的超球体作为上述正类元素的采样空间。
根据本公开的实施例,根据上述初始样本中的上述负类元素创建多个负类样本包括:确定上述正类样本中的正类元素的个数;确定上述初始样本中的负类元素的个数;参考上述正类元素的个数,确定上述多个负类样本中每个负类样本中的负类元素的个数;以及根据确定出的每个负类样本中的负类元素的个数创建上述多个负类样本中的各个负类样本。
根据本公开的实施例,将目标非平衡数据输入至上述多个分类器中,以对上述目标非平衡数据进行分类包括:将上述目标非平衡数据输入至上述多个分类器,得到多个分类结果;将上述分类结果中占多数的分类结果作为上述目标非平衡数据的分类结果;或者对上述分类结果进行打分,根据打分结果确定上述目标非平衡数据的分类结果。
根据本公开的实施例,上述方法还包括:上述多个分类器的个数为奇数。
本公开的另一个方面提供了数据处理系统,包括:获取模块,用于获取非平衡数据的初始样本,其中,在上述初始样本中正类元素的个数小于负类元素的个数;创建模块,用于根据上述初始样本中的上述正类元素创建一个正类样本以及根据上述初始样本中的上述负类元素创建多个负类样本,其中,每个上述负类样本中的负类元素的个数都等于上述正类样本中的正类元素的个数;训练模块,用于利用上述正类样本分别与上述多个负类样本中的每个负类样本训练出一对应的分类器,而得到多个分类器;以及分类模块,用于将目标非平衡数据输入至上述多个分类器中,以对上述目标非平衡数据进行分类。
根据本公开的实施例,上述创建模块包括:第一确定单元,用于根据每个上述负类样本中的负类元素的个数,确定上述正类样本中的上述正类元素的拟定个数;第二确定单元,用于确定上述正类样本中的上述正类元素的实际个数;第一处理单元,用于将上述拟定个数与上述实际个数的差值作为上述正类样本中采样元素的采样个数;第三确定单元,用于根据所述初始样本中的所述正类元素和每个所述负类样本中的负类元素确定所述正类元素的采样空间;采样单元,用于在上述采样空间内,按照确定出的上述采样个数对上述正类样本中的上述正类元素进行采样,以获得上述采样元素;以及第一创建单元,用于创建包含上述采样元素和上述正类元素的样本作为上述正类样本。
根据本公开的实施例,上述第三确定单元包括:计算子单元,用于计算上述初始样本中的上述正类元素与每个上述负类样本中各负类元素之间的欧式距离;处理子单元,用于从欧式距离的计算结果中找出最小的欧式距离值;以及构建子单元,用于分别以上述初始样本中的每个上述正类元素为中心,以确定出的上述最小的欧式距离值为半径的超球体作为上述正类元素的采样空间。
根据本公开的实施例,上述创建模块包括:第四确定单元,用于确定上述正类样本中的正类元素的个数;第五确定单元,用于确定上述初始样本中的负类元素的个数;第六确定单元,用于参考上述正类元素的个数,确定上述多个负类样本中每个负类样本中的负类元素的个数;以及第二创建单元,用于根据确定出的每个负类样本中的负类元素的个数创建上述多个负类样本中的各个负类样本。
根据本公开的实施例,上述分类模块包括:第二处理单元,用于将上述目标非平衡数据输入至上述多个分类器,得到多个分类结果;第三处理单元,用于将上述分类结果中占多数的分类结果作为上述目标非平衡数据的分类结果;或者第四处理单元,用于对上述分类结果进行打分,根据打分结果确定上述目标非平衡数据的分类结果。
根据本公开的实施例,上述系统还包括:上述分类器个数为奇数的多个分类器。
本公开的另一方面提供了一种计算机系统,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得上述一个或多个处理器实现如上所述的数据处理方法。
本公开的另一方面提供了计算机可读介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现如上所述的数据处理方法。
根据本公开的实施例,由于在以对目标非平衡数据进行分类的过程中,采用利用非平衡数据的初始样本中的正类元素创建一个正类样本以及根据初始样本中的负类元素创建多个负类样本,使得每个负类样本中的负类元素的个数都等于正类样本中的正类元素的个数,即实现训练数据的平衡,进而利用创建好的平衡数据训练出多个分类器来对目标非平衡数据进行分类的技术方案,可以至少部分地克服相关技术提供的方案由于正类样本创建方法不合理导致的对目标非平衡数据进行分类时分类结果正确率低的技术问题,并因此通过正类样本的创建方法,达到对目标非平衡数据进行分类时提高分类结果正确率的技术效果。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的可以应用数据处理方法的示例性系统架构;
图2示意性示出了根据本公开实施例的数据处理方法的流程图;
图3A示意性示出了根据本公开实施例的根据初始样本中的正类元素创建一个正类样本的流程图;
图3B示意性示出了根据初始样本中的正类元素和每个负类样本中的负类元素确定正类元素的采样空间的流程图;
图3C示意性示出了根据本公开实施例的根据初始样本中的负类元素创建多个负类样本的流程图;
图3D示意性示出了根据本公开实施例的将目标非平衡数据输入至多个分类器中,以对目标非平衡数据进行分类的流程图;
图3E示意性示出了根据本公开另一实施例的将目标非平衡数据输入至多个分类器中,以对目标非平衡数据进行分类的流程图;
图4示意性示出了根据本公开实施例的数据处理系统的框图;
图5A示意性示出了根据本公开实施例的创建模块的框图;
图5B示意性示出了根据本公开实施例的第三确定单元的框图;
图5C示意性示出了根据本公开另一实施例的创建模块的框图;
图5D示意性示出了根据本公开实施例的分类模块的框图;
图5E示意性示出了根据本公开另一实施例的分类模块的框图;以及
图6示意性示出了根据本公开实施例的适于实现数据处理方法的计算机系统的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思,除非上下文另外明确指出。此外,在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。本领域技术人员还应理解,实质上任意表示两个或更多可选项目的转折连词和/或短语,无论是在说明书、权利要求书还是附图中,都应被理解为给出了包括这些项目之一、这些项目任一方、或两个项目的可能性。例如,短语“A或B”应当被理解为包括“A”或“B”、或“A和B”的可能性。
本公开的实施例提供了一种数据处理方法及其系统。该方法包括:获取非平衡数据的初始样本,其中,在初始样本中正类元素的个数小于负类元素的个数;根据初始样本中的正类元素创建一个正类样本以及根据初始样本中的负类元素创建多个负类样本,其中,每个负类样本中的负类元素的个数都等于正类样本中的正类元素的个数;利用正类样本分别与多个负类样本中的每个负类样本训练出一对应的分类器,而得到多个分类器;以及将目标非平衡数据输入至多个分类器中,以对目标非平衡数据进行分类。
图1示意性示出了根据本公开实施例的可以应用数据处理方法的示例性系统架构。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104、服务器105和计算机系统(例如云计算平台)106。网络104用以在终端设备101、102、103、服务器105和计算机系统106之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103、服务器105通过网络104与计算机系统106交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的数据处理方法一般可以由计算机系统106执行。相应地,本公开实施例所提供的数据处理系统一般可以设置于计算机系统106中。计算机系统106处理的数据可以来自终端设备101、102、103和/或服务器105,但不限于此。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
本公开的一个方面提供了一种数据处理方法。
图2示意性示出了根据本公开实施例的数据处理方法的流程图。
如图2所示,该数据处理方法可以包括操作S210~S240,其中:
操作S210,获取非平衡数据的初始样本,其中,在初始样本中正类元素的个数小于负类元素的个数。
操作S220,根据初始样本中的正类元素创建一个正类样本以及根据初始样本中的负类元素创建多个负类样本,其中,每个负类样本中的负类元素的个数都等于正类样本中的正类元素的个数。
操作S230,利用正类样本分别与多个负类样本中的每个负类样本训练出一对应的分类器,而得到多个分类器。
操作S240,将目标非平衡数据输入至多个分类器中,以对目标非平衡数据进行分类。
需要说明的是,广泛存在于各行各业,如医学诊断、入侵检测等领域的非平衡数据,也被称为非平衡大数据、非平衡数据集。这些数据中某一类样本的数量远远小于其他类别样本的数量,通常将数量少的样本称为正类样本,正类样本由正类元素组成,数量多的样本称为负类样本,负类样本由负类元素组成。通常正类样本更具有显著的指导意义,如在医学诊断中,有疾病的患者的数量要远远小于无疾病的健康者的数量,而有疾病的患者的诊断数据(正类样本)对医学诊断提供更有意义的数据参考和指导。一般地,两种样本的数量相差越大即样本的分布存在的偏差性越大,由于样本数据数量上的不平衡行,导致在对正类样本分类时,分类结果越偏向于多数类。为了克服非平衡数据的这种由于数据不平衡导致的分类结果不准确的缺陷,通常需要对占少数的正类样本进行上采样,以增加正类样本的数量,使得正类样本的数量、负类样本的数量达到平衡,对平衡数据进行训练,得到一个或多个分类器对数据进行分类,至少可以部分消除由于数据的不平衡而导致的分类结果不准确的问题,尤其是对正类样本的分类结果不准确。
一般而言,非平衡数据的数据量非常庞大,对非平衡数据的处理和分析,对计算设备的软硬件性能要求较高,通常需要借助具有强大计算功能的计算机系统,如具有多节点的云计算平台等。非平衡数据的获取方式有多种,如可以从云平台上获取,也可以从相关业务的数据库中获取,还可以通过其他方式获取,例如直接从用户终端获取,具体获取方式本公开在此不做限定。但是,为了达到充分利用计算资源以实现快速准确对非平衡大数据进行分类的目的,需要在正类样本中正类元素的数量、负类样本中负类元素的数量、分类器的个数和计算平台的计算资源之间寻找一个平衡,使得计算效率最高,换言之,如果根据正类样本中正类元素的数量和负类样本中负类元素的数量,得出的分类器个数越多,计算平台的运算负担就会越重,计算速度就会越慢,而分类器个数太少,又无法实现对数据准确分类的目的,在实施本公开的实施例的过程中,经过试验测试,认为分类器的个数一般不超过7个为宜,但是分类器的个数依赖于计算平台的软硬件资源,可以根据不同的平台做不同的设定,在此不做限定。
需要说明的是,由于说明书篇幅有限,也为了方便对本公开实施例的理解,将以从医学诊断的非平衡数据中选取的部分样本数据作为初始样本对本公开的实施例进行详细的阐述。
在本公开实施例中,假设初始样本中有160个样本数据,一个样本数据对应一个数据元素,数据元素可以是无疾病的健康者的检测数据,也可以是有疾病的患者的检测数据,该检测数据可以是为了实现诊断目的做的一种或多种医学检查的相关数据,通常,检测数据包含相同的可对比的数据,即检测数据中包含一个或多个属性、一个或多个类别,如可以是身高、体重、血常规和心电图等,在此不做限定。根据上述非平衡数据的定义,这160个样本数据中有150个是无疾病的健康者的检测数据被称为负类元素,10个是有疾病的患者的检测数据被称为正类元素,即本公开的实施例的初始样本由包含150个负类元素的负类样本和包含10个正类元素的正类样本组成。但是,应该明确的是,该初始样本中的数据元素仅为示例,而并非对本公开的实施例能够处理的数据格式或数量的具体限定。实际上,非平衡数据,如医学诊断的非平衡数据远比本示例的初始样本中涉及的样本数据更复杂、更庞大,但是在阅读完本公开的实施例之后,应用于本公开的数据处理方法可根据本公开的实施例的精神做展开。
本公开的实施例将根据初始样本中占少数的10个正类元素创建一个正类样本,根据初始样本中占多数的150个负类元素创建多个负类样本,使得每个负类样本中的负类元素的个数都等于正类样本中的正类元素的个数,在确定正类样本中的正类元素的个数之后,将从初始样本的负类元素中选取与正类样本中的正类元素的个数相等的负类元素组成负类样本生成一个负类样本,利用生成的一个负类样本和创建的一个正类样本就形成了平衡数据,对该平衡数据进行训练,就可以得到一个分类器,一般地,生成的负类样本的个数与上述指定的分类器的个数相同。
需要说明的是,上述一个正类样本中的正类元素的个数可以是任意值,如可以直接指定正类样本中的正类元素的个数,但为了实现最优的效果,通常需要考虑负类样本中负类元素的个数和计算设备的计算能力,如可以间接指定正类样本中的正类元素的个数,即通过指定分类器的个数,来计算出每个分类器中负类样本中的负类元素的个数,从而确定正类样本中的正类元素的个数,也可以通过其他方法来指定,在此不做限定。以上述初始样本为例,对指定上述一个正类样本中的正类元素的个数的方法做简单说明。
方法1:直接指定正类样本中的正类元素的个数。
在初始样本中正类元素为10个,负类元素为150个的情况下,正类样本中的正类元素的个数可以是20-150之间的任意值(以10的倍数为例),正类样本中正类元素的个数等于多个负类样本中的每个负类样本中负类元素的个数,对应于不同的正类元素的个数,相应地,可以生成一个或多个分类器,正类样本中正类元素的个数、每个负类样本中负类元素的个数和相应的分类器的个数之间的数值关系如表1所示。
如表1所示,当指定正类样本中有20个正类元素时,与之对应的每个负类样本中有20个负类元素,所以负类样本中的150个负类元素就可以生成7个负类样本,即可以生成7个分类器;当指定正类样本中有30个正类元素时,与之对应的每个负类样本中有30个负类元素,所以负类样本中的150个负类元素可以生成5个负类样本,即可以生成5个分类器;当指定正类样本中有50个正类元素时,与之对应的每个负类样本中有50个负类元素,所以负类样本中的150个负类元素可以生成3个负类样本,即可以生成3个分类器;以此类推,在此不再赘述。
需要说明的是,每个分类器是利用正类样本和负类样本进行训练得到的,但是具体的训练方法有多种,如可以采用极限学习机,在此不做限定。
表1
方法2:间接指定正类样本中的正类元素的个数。
情况1:可以预先设定有7个分类器,那么负类样本中的150个负类元素,对应到每个分类器中的负类样本的负类元素最多是20个,由于正类样本中正类元素的个数等于每个负类样本中负类元素的个数,可以得出正类样本中正类元素的个数是20个,此时,初始样本中可能剩余10个负类元素。
情况2:可以预先设定有5个分类器,那么负类样本中的150个负类元素,对应到每个分类器中的负类样本的负类元素就是30个,由于正类样本中正类元素的个数等于每个负类样本中负类元素的个数,可以得出正类样本中正类元素的个数是30个,此时,初始样本中没有剩余的负类元素。
情况3:可以预先设定有2个分类器,那么负类样本中的150个负类元素,对应到每个分类器中的负类样本的负类元素最多是70个,由于正类样本中正类元素的个数等于每个负类样本中负类元素的个数,可以得出正类样本中正类元素的个数是70个,此时,初始样本中剩余10个负类元素。
情况4:可以预先设定有1个分类器,那么负类样本中的150个负类元素,对应到每个分类器中的负类样本的负类元素是150个,由于正类样本中正类元素的个数等于每个负类样本中负类元素的个数,可以得出正类样本中正类元素的个数是150个,此时,初始样本中没有剩余的负类元素。
值得注意的是,情况1和情况3,初始样本中可能还有剩余的负类元素,而情况2和情况4,初始样本中没有剩余的负类元素。通常,为了达到对目标数据准确分类的效果,会尽可能多的选择初始样本中的样本元素,以此达到充分利用初始样本信息的效果,提高分类器的分类能力,因此,在间接指定正类样本中的正类元素的个数时,会优先考虑情况2和情况4的指定策略,但是考虑到多个分类器能够克服一个分类器训练数据量小,假设空间小,局部最优的技术缺陷,所以相比较一个分类器而言,会采用情况2所示的指定策略。当然,实际应用中,在大多数情况下,非平衡大数据中正类样本中的正类元素个数和负类样本中的负类元素个数都不是情况2所示的这种情况,所以需要在充分考虑分类器个数的前提下,尽可能多的利用初始样本中的正类元素和负类元素即可。在初始样本中可能还有剩余的负类元素的情况下,这些剩余的负类元素可以作为验证数据用来验证分类器的分类效果,也可以在本次选择该负类元素训练出的分类器分类效果不满意的情况下,下次选择该负类元素训练分类器,来改善分类器的训练效果。
考虑到间接的指定方法,在指定正类样本中的正类元素的个数之前,就已经充分考虑了正类样本中正类元素的数量、负类样本中负类元素的数量、分类器的个数和计算平台的性能,并期望在它们之间寻找一个平衡,所以分类的实现过程更合理,可以减少由于正类样本中的正类元素的个数指定不合理,导致重复计算,延迟获得分类结果的问题,本公开的实施例建议采用方法2提供的情况2的指定策略,以下将以此为例展开详细阐述,而方法1和方法2提供的其他情况的具体实施方式可参看下述方法做展开。
在得到多个分类器之后,将目标非平衡数据输入至多个分类器中,根据多个分类器的分类结果,得出相应的分类结果,以实现对目标非平衡数据进行分类。
需要说明的是,由于分类器的个数可以是奇数,也可以是偶数,所以根据多个分类器的分类结果,得出相应的分类结果可以有多种方式,本公开并不做限定。如当分类器的个数是奇数时,可以采用简单的多数投票法,当分类器的个数是偶数时,在多数投票法无法获取分类结果的情况下,可以采用对不同的分类器设置权重值,再对分类结果进行打分,从而获取分类结果的方法。
通过本公开的实施例,由于在对目标非平衡数据进行分类的过程中,采用利用非平衡数据的初始样本中的正类元素创建一个正类样本以及根据初始样本中的负类元素创建多个负类样本,使得每个负类样本中的负类元素的个数都等于正类样本中的正类元素的个数,即实现训练数据的平衡,进而利用创建好的平衡数据训练出多个分类器来对目标非平衡数据进行分类的技术方案,可以至少部分地克服相关技术提供的方案由于正类样本创建方法不合理导致的对目标非平衡数据进行分类时分类结果正确率低的技术问题,并因此通过正类样本的创建方法,达到对目标非平衡数据进行分类时提高分类结果正确率的技术效果。
下面参考图3A~图3E,结合具体实施例对图2所示的数据处理方法做进一步说明。
图3A示意性示出了根据初始样本中的正类元素创建一个正类样本的流程图。
在该实施例中,该数据处理方法除了可以包括上文参考图2所对应的实施例中描述的操作S210~S240之外,还可以包括操作S311~S316。其中,操作S220可以替换为操作S311~S316。为了描述的简洁起见,这里省略对图2描述的操作S210~S240的描述。如图3A所示,其中:
操作S311,根据每个负类样本中的负类元素的个数,确定正类样本中的正类元素的拟定个数。
操作S312,确定初始样本中的正类元素的实际个数。
操作S313,将拟定个数与实际个数的差值作为正类样本中采样元素的采样个数。
操作S314,根据初始样本中的正类元素和每个负类样本中的负类元素确定正类元素的采样空间。
操作S315,在采样空间内,按照确定出的采样个数对正类样本中的正类元素进行采样,以获得采样元素。
操作S316,创建包含采样元素和正类元素的样本作为正类样本。
需要说明的是,每个负类样本中的负类元素是30个,那么正类样本中的正类元素的拟定个数也是30个,而初始样本中的正类元素的实际个数是10个,那么需要对初始样本中的10个正类元素进行上采样,以增加20个采样元素,即每一个正类元素需要有2个采样元素,使得正类样本中的正类元素的达到拟定个数即30个。采样需要在指定的采样空间内进行,由于是对初始样本中的正类元素进行采样,因此,该采样空间根据初始样本中的正类元素确定,具体如何确定该采样空间,请参阅有关图3B的说明文字,在此不再详述。以下给出MapReduce的伪代码算法。需要说明的是,测试样例可以是本公开实施例中的目标非平衡数据,类标表示非平衡数据属于哪个类,可以是正类,也可以是负类。正类样例可以是正类样本中的正类元素,同样地,负类样例可以是负类样本中的负类元素。
表2
在对初始样本中的正类元素进行采样获得采样元素之后,创建包含采样元素和正类元素的样本作为正类样本,此时,这一个正类样本中的正类元素个数和每个负类样本中的负类元素个数相同,因此,可以形成一个平衡数据,为后续分类器的训练提供数据基础。
通过本公开的实施例,由于采用根据初始样本中的正类元素和每个负类样本中的负类元素确定正类元素的采样空间的技术方案,可以至少部分克服相关技术中没有很好利用负类样本信息,导致合成的正类样本质量不高的问题,并因此可以提高合成的正类样本的质量。
图3B示意性示出了根据初始样本中的正类元素和每个负类样本中的负类元素确定正类元素的采样空间的流程图。
在该实施例中,该数据处理方法除了可以包括上文参考图3A所对应的实施例中描述的操作S311~S316之外,还可以包括操作S321~S323,具体地,图3A中的操作S314还可以包括操作S321~S323。为了描述的简洁起见,这里省略对图3A描述的操作S311~S316描述。如图3B所示,其中:
操作S321,计算初始样本中的正类元素与每个负类样本中各负类元素之间的欧式距离。
操作S322,从欧式距离的计算结果中找出最小的欧式距离值。
操作S323,分别以初始样本中的每个正类元素为中心,以确定出的最小的欧式距离值为半径的超球体作为正类元素的采样空间。
需要说明的是,可以通过多种方法确定正类元素的采样空间,在此不做限定。本公开的提供的采样空间的确定方法是首先利用MapReduce计算出初始样本中的正类元素的异类最近邻,假设与其异类最近邻的欧式距离为d,然后在小于d的范围内随机采样出几个正类样本点。具体地,对初始样本中的每一个正类元素,利用MapReduce计算其与每个负类样本中各负类元素之间的欧式距离,最小的欧式距离值d对应的最近邻就是该正类元素的异类最近邻,在异类最近邻超球内,即在小于d的范围内随机生成若干个服从均匀分布的正类元素。以下给出MapReduce的两个函数Map和Reduce的伪代码算法。
具体地,对10个正类样本中的每一个正类元素,在确定其异类最近邻之后,在异类最近邻超球内,即在小于d的范围内随机生成2个服从均匀分布的正类元素,可以获得20个采样元素,加上正类样本中实际存在的10个正类元素,就可以生成30个正类元素的正类样本。
以下给出Map函数和Reduce函数的伪代码算法。
表3
其中,在Map函数的伪代码中,<k1,v1>表示<起始偏移量,正类样本>;<k2,v2>表示<上采样的正类样本,NullWritable>。
其中,在Reduce函数的伪代码中,<k2:v2s>表示<上采样的正类样本,NullWritable集合>;<k3,v3>表示<上采样的正类样本,NullWritable>。
表4
通过本公开的实施例,由于采用计算初始样本中的正类元素与每个负类样本中各负类元素之间的欧式距离,从欧式距离的计算结果中找出最小的欧式距离值,分别以初始样本中的每个正类元素为中心,以确定出的最小的欧式距离值为半径的超球体作为正类元素的采样空间的技术方案,可以至少部分克服相关技术中,由于没有利用负类样本的信息而导致的生成的正类样本质量不高的问题,并因此可以提高生成的正类样本的质量。
图3C示意性示出了根据初始样本中的负类元素创建多个负类样本的流程图。
在该实施例中,该数据处理方法除了可以包括上文参考图2所对应的实施例中描述的操作S210~S240之外,还可以包括操作S331~S334;其中,操作S220可以替换为操作S331~S334。为了描述的简洁起见,这里省略对图2描述的操作S210~S240的描述。如图3C所示,其中:
操作S331,确定正类样本中的正类元素的个数。
操作S332,确定初始样本中的负类元素的个数。
操作S333,参考正类元素的个数,确定多个负类样本中每个负类样本中的负类元素的个数。
操作S334,根据确定出的每个负类样本中的负类元素的个数创建多个负类样本中的各个负类样本。
在异类最近邻中随机采样生成正类样本之后,需要参考正类元素的个数,确定多个负类样本中每个负类样本中的负类元素的个数,从而创建多个负类样本中的各个负类样本。如有30个正类元素的正类样本,对应的每个负类样本中的负类元素也应该是30个,每次从初始样本中的负类元素中选出30个组成一个负类样本,以此类推,负类样本中的150个负类元素可以组成5个负类样本。
需要说明的是,在创建多个负类样本中的多个负类样本之后,初始样本中的负类元素可能没有剩余(上述情况2和情况4所示),也可能有剩余(上述情况1和情况3所示),即初始样本中可能有没有被选择用来生成负类样本的负类元素,这些剩余的负类元素可以作为验证数据用来验证分类器的分类效果,也可以在本次选择该负类元素训练出的分类器分类效果不满意的情况下,下次选择该负类元素训练分类器,来改善分类器的训练效果。
值得注意的是,在指定正类样本中的正类元素的个数时,在充分考虑计算设备的计算性能来指定分类器个数的前提下,尽可能多的利用初始样本中负类样本的负类元素即可。
如在情况1中,预先设定有7个分类器,那么负类样本中的150个负类元素,对应到每个分类器中的负类样本的负类元素最多是20个,此时,初始样本中可能剩余10个负类元素。
如在情况3中,预先设定有2个分类器,那么负类样本中的150个负类元素,对应到每个分类器中的负类样本的负类元素最多是70个,此时,初始样本中剩余10个负类元素。
由于上述两种情况,初始样本中都剩余10个负类元素,此时,需要考虑分类器的个数,7个分类器相较于2个分类器对计算设备的技术性能要求较高,可能倾向选择2个分类器,但是2个分类器又有可能出现分类结果不好确定的情况,关于这个问题,请参阅后续关于图3D的说明,在此不再详述。
通过本公开的实施例,由于采用参考正类元素的个数,确定多个负类样本中每个负类样本中的负类元素的个数,根据确定出的每个负类样本中的负类元素的个数创建多个负类样本中的各个负类样本,可以基于多个负类样本中的各个负类样本和正类样本训练出多个具有独立决策能力的分类器的技术方案,可以至少部分克服相关技术中,一个分类器训练数据量小,假设空间小,局部最优的缺陷,实现提高分类预测结果准确性的技术效果。
如上,基于多个负类样本和一个正类样本训练出具有独立决策能力的分类器的个数有可能是奇数,也有可能是偶数。
如果是奇数个分类器,通过投票法即可确定分类结果(图3D所示)。如果是偶数个分类器,则可能出现投票法无法确定分类结果的情况,本公开提供了另外一种方法来确定分类结果,如可以通过打分法确定分类结果(图3E所示),还可以是任何公知的方法。需要说明的是,本公开只是提供两种确定分类结果的方式,并不是对确定分类结果的方法的具体限定,具体实现方式不再赘述。
图3D示意性示出了根据本公开实施例的将目标非平衡数据输入至多个分类器中,以对目标非平衡数据进行分类的流程图。
在该实施例中,该数据处理方法除了可以包括上文参考图2所对应的实施例中描述的操作S210~S240之外,还可以包括操作S341~S342;其中,操作S240可以替换为操作S341~S342。为了描述的简洁起见,这里省略对图2描述的操作S210~S240的描述。如图3D所示,其中:
操作S341,将目标非平衡数据输入至多个分类器,得到多个分类结果。
操作S342,将分类结果中占多数的分类结果作为目标非平衡数据的分类结果。
或者如图3E示意性示出了根据本公开另一实施例的将目标非平衡数据输入至多个分类器中,以对目标非平衡数据进行分类的流程图。
在该实施例中,该数据处理方法除了可以包括上文参考图2所对应的实施例中描述的操作S210~S240,图3D所对应的实施例中描述的操作S341之外,还可以包括操作S343。为了描述的简洁起见,这里省略对图2描述的操作S210~S240,图3D描述的操作S341的描述。如图3E所示,其中:操作S343,对分类结果进行打分,根据打分结果确定目标非平衡数据的分类结果。
需要说明的是,目标非平衡数据可以是初始样本,也可以是除初始样本之外的其他样本,对目标平衡数据的分类,只需要将该数据输入至训练出的多个分类器中,通过分析每个分类器的分类结果即可确定出该数据是属于正类样本还是负类样本,如将获取的新检测数据输入至训练好的多个分类器,即可判断出该检测数据对应的是无疾病的健康者还是有疾病的患者。
对应于上述情况1,将新获取的检测数据输入7个分类器中,可以得到7个分类结果,其中,这7个分类结果可以有以下几种情况:
1)7个为正类,则分类结果为正类;
2)6个为正类,1个为负类,则分类结果为正类;
3)5个为正类,2个为负类,则分类结果为正类;
4)4个为正类,3个为负类,则分类结果为正类;
5)3个为正类,4个为负类,则分类结果为负类;
6)2个为正类,5个为负类,则分类结果为负类;
7)1个为正类,6个为负类,则分类结果为负类;
8)7个为负类,则分类结果为负类。
可以看出,对于7个分类器的情况,无论是上述8种结果中的哪一种,都可以由多数投票法得出最终的分类结果,即少数服从多数。
对应于上述情况3,将新获取的检测数据输入2个分类器中,可以得到2个分类结果,其中,这2个分类结果可以有以下几种情况。
1)2个为正类,则分类结果为正类;
2)1个为正类,1个为负类,无法判断;
3)2个为负类,则分类结果为负类。
可以看出,对于2个分类器的情况,当分类结果如1)和3)所示,则可以由多数投票法得出最终的分类结果,如2)所示的分类结果则无法实现分类,此时,可以通过设定2个分类器的权重,计算不同分类结果的分数,分数高的即为最终的分类结果。
为了进一步展示本公开提供的数据处理方法的显著效果,对以下4个实验数据集(如表5所示)进行分类。其中,数据集A、数据集B和数据集C为常用的标准测试数据集;数据集D为人工数据集。具体各数据集中样本总个数、正类样本个数、负类样本个数和正负样本比例如表中所示。
表5 实验数据集信息表
需要说明的是,选择评价指标F(由召回率R和精确率决定)、G-mean(由正类准确率和负类准确率决定)对本公开提供的数据处理方法进行分类的结果与相关技术采用的数据处理方法的分类结果进行对比,具体结果如表6和表7所示。
表6 F值比较结果
数据集 本公开 相关技术
A 0.85025 0.78731
B 0.95572 0.88334
C 0.87078 0.76612
D 0.80677 0.76858
表7 G-mean值比较结果
数据集 本公开 相关技术
A 0.92671 0.84898
B 0.82015 0.71184
C 0.90087 0.82642
D 0.88941 0.77512
从评价指标的数值可以看出,本公开提供的数据处理方法,分类结果远远优于相关技术提供的数据处理的分类结果。
通过本公开的实施例,由于采用将分类结果中占多数的分类结果作为目标非平衡数据的分类结果或者对分类结果进行打分,根据打分结果确定目标非平衡数据的分类结果的技术方案,使得对目标非平衡数据的分类不再受分类器个数的奇偶性的限制,使得数据处理方法的适用范围更广,分类效果更可靠。
根据本公开的实施例,多个分类器的个数为奇数。
通过本公开的实施例,由于分类器的个数是奇数,将目标非平衡数据输入至奇数个分类器后,奇数个分类器的分类结果必定有占多数的也有占少数的,利用多数投票法就能确定目标非平衡数据的分类结果。
本公开的另一个方面提供了数据处理系统。
图4示意性示出了根据本公开实施例的数据处理系统的框图。
在该实施例中,该数据处理系统400包括获取模块410、创建模块420、训练模块430和分类模块440。该数据处理系统400可以执行上述参考图2描述的数据处理方法。如图4所示,其中:
获取模块410用于获取非平衡数据的初始样本,其中,在初始样本中正类元素的个数小于负类元素的个数。
创建模块420用于根据初始样本中的正类元素创建一个正类样本以及根据初始样本中的负类元素创建多个负类样本,其中,每个负类样本中的负类元素的个数都等于正类样本中的正类元素的个数。
训练模块430用于利用正类样本分别与多个负类样本中的每个负类样本训练出一对应的分类器,而得到多个分类器。
分类模块440用于将目标非平衡数据输入至多个分类器中,以对目标非平衡数据进行分类。
可以理解的是,获取模块410、创建模块420、训练模块430和分类模块440可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的实施例,获取模块410、创建模块420、训练模块430和分类模块440中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式的适当组合来实现。或者,获取模块410、创建模块420、训练模块430和分类模块440中的至少一个可以至少被部分地实现为计算机程序模块,当该程序被计算机运行时,可以执行相应模块的功能。
通过本公开的实施例,由于在对目标非平衡数据进行分类的过程中,采用利用非平衡数据的初始样本中的正类元素创建一个正类样本以及根据初始样本中的负类元素创建多个负类样本,使得每个负类样本中的负类元素的个数都等于正类样本中的正类元素的个数,即实现训练数据的平衡,进而利用创建好的平衡数据训练出多个分类器来对目标非平衡数据进行分类的技术方案,可以至少部分地克服相关技术提供的方案由于正类样本创建方法不合理导致的对目标非平衡数据进行分类时分类结果正确率低的技术问题,并因此通过正类样本的创建方法,达到对目标非平衡数据进行分类时提高分类结果正确率的技术效果。
下面参考图5A~图5E,结合具体实施例对图4所示的数据处理系统做进一步说明。
图5A示意性示出了根据本公开实施例的创建模块的框图。
在该实施例中,该数据处理系统400除了可以包括上文参考图4所对应的实施例中描述的获取模块410、创建模块420、训练模块430和分类模块440之外,创建模块420可以包括第一确定单元511、第二确定单元512、第一处理单元513、第三确定单元514、采样单元515和第一创建单元516。为了描述的简洁起见,这里省略对图4中对应模块的描述。如图5A所示,其中:第一确定单元511用于根据每个负类样本中的负类元素的个数,确定正类样本中的正类元素的拟定个数。第二确定单元512用于确定正类样本中的正类元素的实际个数。第一处理单元513用于将拟定个数与实际个数的差值作为正类样本中采样元素的采样个数。第三确定单元514用于根据初始样本中的正类元素和每个负类样本中的负类元素确定正类元素的采样空间。采样单元515用于在采样空间内,按照确定出的采样个数对正类样本中的正类元素进行采样,以获得采样元素。第一创建单元516用于创建包含采样元素和正类元素的样本作为正类样本。
通过本公开的实施例,由于采用根据初始样本中的正类元素和每个负类样本中的负类元素确定正类元素的采样空间的技术方案,可以至少部分克服相关技术中没有很好利用负类样本信息,导致合成的正类样本质量不高的问题,并因此可以提高合成的正类样本的质量。
图5B示意性示出了根据本公开实施例的第三确定单元的框图。
在该实施例中,该数据处理系统除了可以包括上文参考图4所对应的实施例中描述的获取模块410、创建模块420、训练模块430和分类模块440,参考图5A所对应的实施例中描述创建模块420可以包括第一确定单元511、第二确定单元512、第一处理单元513、第三确定单元514、采样单元515和第一创建单元516之外,第三确定单元514还可以包括计算子单元521、处理子单元522和构建子单元523。为了描述的简洁起见,这里省略对参考图4和图5A所对应的模块和单元的描述。如图5B所示,其中:计算子单元521用于计算初始样本中的正类元素与每个负类样本中各负类元素之间的欧式距离。处理子单元522用于从欧式距离的计算结果中找出最小的欧式距离值。构建子单元523用于分别以初始样本中的每个正类元素为中心,以确定出的最小的欧式距离值为半径的超球体作为正类元素的采样空间。
通过本公开的实施例,由于采用计算初始样本中的正类元素与每个负类样本中各负类元素之间的欧式距离,从欧式距离的计算结果中找出最小的欧式距离值,分别以初始样本中的每个正类元素为中心,以确定出的最小的欧式距离值为半径的超球体作为正类元素的采样空间的技术方案,可以至少部分克服相关技术中,由于没有利用负类样本的信息而导致的生成的正类样本质量不高的问题,并因此可以提高生成的正类样本的质量。
图5C示意性示出了根据本公开另一实施例的创建模块的框图。
在该实施例中,该数据处理系统400除了可以包括上文参考图4所对应的实施例中描述的获取模块410、创建模块420、训练模块430和分类模块440之外,创建模块420可以包括第四确定单元531、第五确定单元532、第六确定单元533和第二创建单元534。为了描述的简洁起见,这里省略对图4对应模块的描述。如图5C所示,第四确定单元531用于确定正类样本中的正类元素的个数。第五确定单元532用于确定初始样本中的负类元素的个数。第六确定单元533用于参考正类元素的个数,确定多个负类样本中每个负类样本中的负类元素的个数。第二创建单元534用于根据确定出的每个负类样本中的负类元素的个数创建多个负类样本中的各个负类样本。
通过本公开的实施例,由于采用参考正类元素的个数,确定多个负类样本中每个负类样本中的负类元素的个数,根据确定出的每个负类样本中的负类元素的个数创建多个负类样本中的各个负类样本,可以基于多个负类样本中的各个负类样本和正类样本训练出多个具有独立决策能力的分类器的技术方案,可以至少部分克服相关技术中,一个分类器训练数据量小,假设空问小,局部最优的缺陷,实现提高分类预测结果准确性的技术效果
图5D示意性示出了根据本公开实施例的分类模块的框图。
图5E示意性示出了根据本公开另一实施例的分类模块的框图。
在该实施例中,该数据处理系统400除了可以包括上文参考图5C所对应的实施例中描述的模块和单元之外,分类模块440包括第二处理单元531和第三处理单元532。为了描述的简洁起见,这里省略对图5C对应模块的描述。如图5D所示,分类模块440包括第二处理单元531和第三处理单元532。其中:第二处理单元531用于将目标非平衡数据输入至多个分类器,得到多个分类结果。第三处理单元532用于将分类结果中占多数的分类结果作为目标非平衡数据的分类结果。或者如图5E所示,分类模块440包括第二处理单元531和第四处理单元533,其中第四处理单元533用于对分类结果进行打分,根据打分结果确定目标非平衡数据的分类结果。
通过本公开的实施例,由于采用将分类结果中占多数的分类结果作为目标非平衡数据的分类结果或者对分类结果进行打分,根据打分结果确定目标非平衡数据的分类结果的技术方案,使得对目标非平衡数据的分类不再受分类器个数的奇偶性的限制,使得数据处理方法的适用范围更广,分类效果更可靠。
根据本公开的实施例,多个分类器的个数为奇数。
通过本公开的实施例,由于分类器的个数是奇数,将目标非平衡数据输入至奇数个分类器后,奇数个分类器的分类结果必定有占多数的也有占少数的,利用多数投票法就能确定目标非平衡数据的分类结果。
需要说明的是,本公开实施例的数据处理方法与数据处理系统是相对应的,对于该数据处理系统的描述可以参考根据本公开实施例的数据处理方法的描述,在此不再赘述。
图6示意性示出了根据本公开实施例的适于实现数据处理方法的计算机系统的方框图。图6示出的计算机系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,根据本公开实施例的计算机系统600包括处理器601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。处理器601例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器610还可以包括用于缓存用途的板载存储器。处理器610可以包括用于执行参考图2、图3A~图3E描述的根据本公开实施例的数据处理方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 603中,存储有系统600操作所需的各种程序和数据。处理器601、ROM 602以及RAM 603通过总线604彼此相连。处理器601通过执行ROM 602和/或RAM 603中的程序来执行以上参考图2、图3A~图3E描述的数据处理的各种操作。需要注意,所述程序也可以存储在除ROM 602和RAM 603以外的一个或多个存储器中。处理器601也可以通过执行存储在所述一个或多个存储器中的程序来执行以上参考参考图2、图3A~图3E描述的数据处理方法的各种操作。
根据本公开的实施例,系统600还可以包括输入/输出(I/O)接口605,输入/输出(I/O)接口605也连接至总线604。系统600还可以包括连接至I/O接口605的以下部件中的一项或多项:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
根据本公开的实施例,上文参考流程图描述的方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被处理器601执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。根据本公开的实施例,计算机可读介质可以包括上文描述的ROM 602和/或RAM 603和/或ROM 602和RAM 603以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
作为另一方面,本公开提供了一种计算机系统,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得上述一个或多个处理器实现如上所述的数据处理方法。
作为另一方面,本公开提供了计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备执行:获取非平衡数据的初始样本,其中,在初始样本中正类元素的个数小于负类元素的个数;根据初始样本中的正类元素创建一个正类样本以及根据初始样本中的负类元素创建多个负类样本,其中,每个负类样本中的负类元素的个数都等于正类样本中的正类元素的个数;利用正类样本分别与多个负类样本中的每个负类样本训练出一对应的分类器,而得到多个分类器;以及将目标非平衡数据输入至多个分类器中,以对目标非平衡数据进行分类。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (14)

1.一种数据处理方法,包括:
获取非平衡数据的初始样本,其中,在所述初始样本中正类元素的个数小于负类元素的个数;
根据所述初始样本中的所述正类元素创建一个正类样本以及根据所述初始样本中的所述负类元素创建多个负类样本,其中,每个所述负类样本中的负类元素的个数都等于所述正类样本中的正类元素的个数;
利用所述正类样本分别与所述多个负类样本中的每个负类样本训练出一对应的分类器,而得到多个分类器;以及
将目标非平衡数据输入至所述多个分类器中,以对所述目标非平衡数据进行分类。
2.根据权利要求1所述的方法,其中,根据所述初始样本中的所述正类元素创建一个正类样本包括:
根据每个所述负类样本中的负类元素的个数,确定所述正类样本中的所述正类元素的拟定个数;
确定所述初始样本中的所述正类元素的实际个数;
将所述拟定个数与所述实际个数的差值作为所述正类样本中采样元素的采样个数;
根据所述初始样本中的所述正类元素和每个所述负类样本中的负类元素确定所述正类元素的采样空间;
在所述采样空间内,按照确定出的所述采样个数对所述初始样本中的所述正类元素进行采样,以获得所述采样元素;以及
创建包含所述采样元素和所述正类元素的样本作为所述正类样本。
3.根据权利要求2所述的方法,其中,根据所述初始样本中的所述正类元素和每个所述负类样本中的负类元素确定所述正类元素的采样空间包括:
计算所述初始样本中的所述正类元素与每个所述负类样本中各负类元素之间的欧式距离;
从欧式距离的计算结果中找出最小的欧式距离值;以及
分别以所述初始样本中的每个所述正类元素为中心,以确定出的所述最小的欧式距离值为半径的超球体作为所述正类元素的采样空间。
4.根据权利要求1所述的方法,其中,根据所述初始样本中的所述负类元素创建多个负类样本包括:
确定所述正类样本中的正类元素的个数;
确定所述初始样本中的负类元素的个数;
参考所述正类元素的个数,确定所述多个负类样本中每个负类样本中的负类元素的个数;以及
根据确定出的每个负类样本中的负类元素的个数创建所述多个负类样本中的各个负类样本。
5.根据权利要求1所述的方法,其中,将目标非平衡数据输入至所述多个分类器中,以对所述目标非平衡数据进行分类包括:
将所述目标非平衡数据输入至所述多个分类器,得到多个分类结果;
将所述分类结果中占多数的分类结果作为所述目标非平衡数据的分类结果;或者
对所述分类结果进行打分,根据打分结果确定所述目标非平衡数据的分类结果。
6.根据权利要求1所述的方法,其中,所述方法还包括:
所述多个分类器的个数为奇数。
7.一种数据处理系统,包括:
获取模块,用于获取非平衡数据的初始样本,其中,在所述初始样本中正类元素的个数小于负类元素的个数;
创建模块,用于根据所述初始样本中的所述正类元素创建一个正类样本以及根据所述初始样本中的所述负类元素创建多个负类样本,其中,每个所述负类样本中的负类元素的个数都等于所述正类样本中的正类元素的个数;
训练模块,用于利用所述正类样本分别与所述多个负类样本中的每个负类样本训练出一对应的分类器,而得到多个分类器;以及
分类模块,用于将目标非平衡数据输入至所述多个分类器中,以对所述目标非平衡数据进行分类。
8.根据权利要求7所述的系统,其中,所述创建模块包括:
第一确定单元,用于根据每个所述负类样本中的负类元素的个数,确定所述正类样本中的所述正类元素的拟定个数;
第二确定单元,用于确定所述正类样本中的所述正类元素的实际个数;
第一处理单元,用于将所述拟定个数与所述实际个数的差值作为所述正类样本中采样元素的采样个数;
第三确定单元,用于根据所述初始样本中的所述正类元素和每个所述负类样本中的负类元素确定所述正类元素的采样空间;
采样单元,用于在所述采样空间内,按照确定出的所述采样个数对所述正类样本中的所述正类元素进行采样,以获得所述采样元素;以及
第一创建单元,用于创建包含所述采样元素和所述正类元素的样本作为所述正类样本。
9.根据权利要求8所述的系统,其中,所述第三确定单元包括:
计算子单元,用于计算所述初始样本中的所述正类元素与每个所述负类样本中各负类元素之间的欧式距离;
处理子单元,用于从欧式距离的计算结果中找出最小的欧式距离值;以及
构建子单元,用于分别以所述初始样本中的每个所述正类元素为中心,以确定出的所述最小的欧式距离值为半径的超球体作为所述正类元素的采样空间。
10.根据权利要求7所述的系统,其中,所述创建模块包括:
第四确定单元,用于确定所述正类样本中的正类元素的个数;
第五确定单元,用于确定所述初始样本中的负类元素的个数;
第六确定单元,用于参考所述正类元素的个数,确定所述多个负类样本中每个负类样本中的负类元素的个数;以及
第二创建单元,用于根据确定出的每个负类样本中的负类元素的个数创建所述多个负类样本中的各个负类样本。
11.根据权利要求10所述的系统,其中,所述分类模块包括:
第二处理单元,用于将所述目标非平衡数据输入至所述多个分类器,得到多个分类结果;
第三处理单元,用于将所述分类结果中占多数的分类结果作为所述目标非平衡数据的分类结果;或者
第四处理单元,用于对所述分类结果进行打分,根据打分结果确定所述目标非平衡数据的分类结果。
12.根据权利要求7所述的系统,其中,所述系统还包括:
所述分类器个数为奇数的多个分类器。
13.一种计算机系统,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至6中任一项所述的数据处理方法。
14.一种计算机可读介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求1至6中任一项所述的数据处理方法。
CN201710839392.4A 2017-09-15 2017-09-15 数据处理方法及其系统 Pending CN109508726A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710839392.4A CN109508726A (zh) 2017-09-15 2017-09-15 数据处理方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710839392.4A CN109508726A (zh) 2017-09-15 2017-09-15 数据处理方法及其系统

Publications (1)

Publication Number Publication Date
CN109508726A true CN109508726A (zh) 2019-03-22

Family

ID=65745120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710839392.4A Pending CN109508726A (zh) 2017-09-15 2017-09-15 数据处理方法及其系统

Country Status (1)

Country Link
CN (1) CN109508726A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110141216A (zh) * 2019-05-29 2019-08-20 清华大学深圳研究生院 一种心电信号qrs特征波的识别方法、训练方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763466A (zh) * 2010-01-20 2010-06-30 西安电子科技大学 基于动态样本选择集成的生物信息识别方法
CN103530373A (zh) * 2013-10-15 2014-01-22 无锡清华信息科学与技术国家实验室物联网技术中心 不均衡感知数据下的移动应用分类方法
CN103577646A (zh) * 2013-11-09 2014-02-12 深港产学研基地 一种快速估算集成电路良率的计算方法
CN105956621A (zh) * 2016-04-29 2016-09-21 南京航空航天大学 一种基于进化欠抽样集成学习的航班延误预警方法
CN106326924A (zh) * 2016-08-23 2017-01-11 武汉大学 一种基于局部分类的目标跟踪方法及系统
CN106681305A (zh) * 2017-01-03 2017-05-17 华南理工大学 一种Fast RVM污水处理在线故障诊断方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763466A (zh) * 2010-01-20 2010-06-30 西安电子科技大学 基于动态样本选择集成的生物信息识别方法
CN103530373A (zh) * 2013-10-15 2014-01-22 无锡清华信息科学与技术国家实验室物联网技术中心 不均衡感知数据下的移动应用分类方法
CN103577646A (zh) * 2013-11-09 2014-02-12 深港产学研基地 一种快速估算集成电路良率的计算方法
CN105956621A (zh) * 2016-04-29 2016-09-21 南京航空航天大学 一种基于进化欠抽样集成学习的航班延误预警方法
CN106326924A (zh) * 2016-08-23 2017-01-11 武汉大学 一种基于局部分类的目标跟踪方法及系统
CN106681305A (zh) * 2017-01-03 2017-05-17 华南理工大学 一种Fast RVM污水处理在线故障诊断方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王陈希: "基于MapReduce的非平衡大数据集分类", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
肇莹等: "最近邻搜索用于分类问题的一种改进", 《南京大学学报(自然科学)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110141216A (zh) * 2019-05-29 2019-08-20 清华大学深圳研究生院 一种心电信号qrs特征波的识别方法、训练方法及系统
CN110141216B (zh) * 2019-05-29 2022-09-30 清华大学深圳研究生院 一种心电信号qrs特征波的识别方法、训练方法及系统

Similar Documents

Publication Publication Date Title
CN108171191B (zh) 用于检测人脸的方法和装置
CN107133202A (zh) 基于人工智能的文本校验方法和装置
WO2022160449A1 (zh) 文本分类方法、装置、电子设备及存储介质
CN110995459B (zh) 异常对象识别方法、装置、介质及电子设备
CN110020107A (zh) 页面展示方法及系统
CN110909222A (zh) 基于聚类的用户画像建立方法、装置、介质及电子设备
CN107145485A (zh) 用于压缩主题模型的方法和装置
CN105740434B (zh) 网络信息评分方法及装置
CN113162787B (zh) 电信网络中故障定位的方法、节点分类方法以及相关设备
CN109948401A (zh) 用于文本的数据处理方法及其系统
CN110389873A (zh) 一种判定服务器资源使用情况的方法和装置
CN109190123A (zh) 用于输出信息的方法和装置
CN111582315A (zh) 样本数据处理方法、装置及电子设备
CN110110257A (zh) 数据处理方法及其系统、计算机系统及计算机可读介质
US20220366139A1 (en) Rule-based machine learning classifier creation and tracking platform for feedback text analysis
CN109508726A (zh) 数据处理方法及其系统
CN109101531A (zh) 文件处理方法、装置及系统
CN113704389A (zh) 一种数据评估方法、装置、计算机设备及存储介质
CN110428012A (zh) 脑网络模型建立方法、脑图像分类方法、装置及电子设备
CN117251619A (zh) 一种数据处理方法及相关装置
CN109961085A (zh) 基于贝叶斯估计的航班延误预测模型的建立方法及装置
WO2022141838A1 (zh) 模型置信度分析方法、装置、电子设备及计算机存储介质
CN111859985B (zh) Ai客服模型测试方法、装置、电子设备及存储介质
CN107368281A (zh) 一种数据处理方法及装置
CN109213937A (zh) 智能搜索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination