CN103488656A - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
CN103488656A
CN103488656A CN201210196534.7A CN201210196534A CN103488656A CN 103488656 A CN103488656 A CN 103488656A CN 201210196534 A CN201210196534 A CN 201210196534A CN 103488656 A CN103488656 A CN 103488656A
Authority
CN
China
Prior art keywords
classification
taxon
data
reception data
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210196534.7A
Other languages
English (en)
Other versions
CN103488656B (zh
Inventor
罗景
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shiji Guangsu Information Technology Co Ltd filed Critical Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority to CN201210196534.7A priority Critical patent/CN103488656B/zh
Publication of CN103488656A publication Critical patent/CN103488656A/zh
Application granted granted Critical
Publication of CN103488656B publication Critical patent/CN103488656B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于计算机技术领域,提供了一种数据处理方法及装置,所述方法包括:接收数据,将所述数据发送给至少一个分类单元;获取所述至少一个分类单元的处理结果;根据所述处理结果,确定所述接收数据的类别;其中,所述分类单元用于按照确定的分类方法对接收到的数据进行分类处理。本发明由于灵活的利用多个分类单元的处理结果,使得在分类数据处理过程中,在类别体系及分类数据比较动态的情况下,分类过程中数据处理简单、方便。

Description

一种数据处理方法及装置
技术领域
本发明属于数据处理技术领域,尤其涉及一种数据处理方法及装置。
背景技术
分类是指对某些对象分门别类,标识出所属的目录,以方便使用与存储,例如,对信息分类,如文档的分类,数据的查询等,通过对信息分类能够方便用户的浏览以及进一步的数据分析。分类的目标是通过学习,进而可以自动的将数据分到已知的类别,常用的分类方法,例如:支持向量机分类算法(SupportVector Machine,SVM),K最近邻分类算法(k-Nearest Neighbor,KNN),贝叶斯分类算法等等,这些分类方法基本上都是通过对一些已知数据的学习,形成分类模型,然后利用模型预测未知数据的类别。
现有技术,在分类实现过程中,通常通过不同的分类器对不同的对象进行分类,分类器是一种计算机程序,它的目标是在通过学习,进而实现自动将数据分到已知类别。它可以应用在搜索引擎以及各种检索程序中,同时也大量应于数据分析与预测领域。
现有技术的分类方法,在针对固定类别体系以及数据比较稳定的情况下,能够获得比较好的分类效果。但是,在类别体系及分类数据比较动态的情况下,以前的学习结果很难直接利用,需要重新标定训练数据,并训练新的分类模型,从而导致分类过程中数据处理复杂。
发明内容
本发明实施例的目的在于提供一种数据处理方法,旨在解决现有技术的分类数据处理过程中,在类别体系及分类数据比较动态的情况下,分类过程中数据处理复杂的问题。
为了实现上述目的,本发明实施例提供如下技术方案:
本发明实施例是这样实现的,一种数据处理方法,所述方法包括:
接收数据,将所述数据发送给至少一个分类单元;
获取所述至少一个分类单元的处理结果;
根据所述处理结果,确定所述接收数据的类别;
其中,所述分类单元用于按照确定的分类方法对接收到的数据进行分类处理。
本发明实施例还提供了一种分类装置,所述装置包括:
接收单元,用于接收数据;
发送单元,用于将所述数据发送给至少一个分类单元;
获取单元,用于获取所述至少一个分类单元的处理结果;
确定单元,用于根据所述处理结果,确定所述接收数据的类别;
其中,所述分类单元用于按照确定的分类方法对接收到的数据进行分类处理。
本发明实施例与现有技术相比,有益效果在于:接收数据,将所述数据发送给至少一个分类单元,获取所述至少一个分类单元的处理结果,根据所述处理结果,确定所述接收数据的类别。由于灵活的利用多个分类单元的处理结果,使得在分类数据处理过程中,在类别体系及分类数据比较动态的情况下,分类过程中数据处理简单、方便。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的数据处理方法的实现的流程图;
图2是本发明实施例一提供的分类单元的结构图;
图3是本发明实施例二提供的数据处理方法的实现的流程图;
图4是本发明实施例三提供的数据处理装置的结构图;
图5是本发明实施例四提供的数据处理装置的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供了一种分类方法,所述方法包括:
接收数据,将所述数据发送给至少一个分类单元;
获取所述至少一个分类单元的处理结果;
根据所述处理结果,确定所述接收数据的类别;
其中,所述分类单元用于按照确定的分类方法对接收到的数据进行分类处理。
本发明实施例还提供了一种分类装置,所述装置包括:
接收单元,用于接收数据;
发送单元,用于将所述数据发送给至少一个分类单元;
获取单元,用于获取所述至少一个分类单元的处理结果;
确定单元,用于根据所述处理结果,确定所述接收数据的类别;
其中,所述分类单元用于按照确定的分类方法对接收到的数据进行分类处理。
以下结合具体实施例对本发明的实现进行详细描述:
实施例一
图1示出了本发明实施例一提供的数据处理方法的实现的流程图,详述如下:
在S101中,接收数据,将所述数据发送给至少一个分类单元;
本实施例中,可以根据客户的需求,将数据发送至不同的分类单元的,具体的,用户需求由程序设置这进行预先设置,比如,可以根据用户需要对数据的结构进行分类、也可以对数据的内容进行分类。
本实施例中,每一分类单元接收数据,并对分类数据进行分类,其中,所述每个分类单元采用不同的分类算法对接收数据进行处理。
本实施例中,可以将所述至少一个分类单元作为一个分类体,该分类体与一个分类体系相对应,以方便用户使用,即,所述至少一个分类单元与一个分类体系对应,其中,当分类单元为多个时,多个分类单元与多种分类算法一一对应,从而,可以通过不同的算法对接收的分类数据进行分类评价。
在S102中,获取所述至少一个分类单元的处理结果;
在S103中,根据所述处理结果,确定所述接收数据的类别;
在本实施例中,所述分类单元用于按照确定的分类方法对接收到的数据进行分类处理,类单元可以是在线的分类器,图2给出了一个分类单元的示例,也可以是离线的优质分类数据,例如,可以是已经进行分类的分类数据。
可选的,还可以根据用户的实际需求,引入新的分类单元,从而使整个分类方法具有良好的可扩展性,例如,当分类数据发生动态变化时,可以及时增加新的分类单元以适应数据发生的变化。
本实施例中,所述处理结果为:所述至少一个分类单元对所述接收数据分类的类别及分类置信度值,此时,所述S103可以采用以下方式实现:
在所述至少一个分类单元对所述接收数据分类的类别中,选择分类置信度值超过预设值的分类单元分类的类别作为所述接收数据的类别;或者
在所述至少一个分类单元对所述接收数据分类的类别中,选择分类置信度值最高的分类单元分类的类别作为所述接收数据的类别。
其中,可以采用评分的方式表示分类单元分类的类别的分类置信度值,具体的,每一分类单元可以通过相应的算法计算给出分类数据的类别及该类别的评分值,根据该分类体系中所有分类单元给出分类数据的类别及该类别的评分值,可以采用不同的策略,确定接收数据的最终分类结果,则S103具体为:
在所述至少一个分类单元对所述接收数据分类的类别中,选择类别的评分值超过预设值的分类单元分类的类别作为所述接收数据的类别;或者
在所述至少一个分类单元对所述接收数据分类的类别中,选择类别的评分值最高的分类单元分类的类别作为所述接收数据的类别。
可选的,所述分类单元串行或者并行对所述接收数据进行分类,以满足不同场景下性能的要求。当串行对接收数据进行分类时,接收到数据后,则依次发送分类数据至每一分类单元,此时,当某一分类单元计算的分类置信度值超过预设阈值,则可以不再分发数据至剩余的分类单元,从而提高分类的效率;当并行对接收数据进行分类时,接收到数据后,同时发送分类数据至所有分类单元进行数据分类。
本实施例中,接收数据,将所述数据发送给至少一个分类单元,获取所述至少一个分类单元的处理结果,根据所述处理结果,确定所述接收数据的类别由于灵活的利用多个分类单元的处理结果,使得在分类数据处理过程中,在类别体系及分类数据比较动态的情况下,分类过程中数据处理简单、方便。
另外,由于多个分类单元相互独立,因此,当某一分类模型发生变化时,无需重新训练新的整体分类模型,而只需针对改变的类别进行训练即可,因而可以充分的利用已有的分类数据,能够良好的适应分类体系以及数据分布的变化,因而也就能更好的适应实际需求的变化。
并且,通过多个分类单元的分类结果对分类数据进行综合分类,使得分类质量与效率都有所提高,提升了用户体验。
实施例二
图3示出了本发明实施例二提供的数据处理方法的实现的流程图,详述如下:
在S301中,预先为每个分类单元配置质量因子,所述质量因子用于调整所述至少一个分类单元的处理结果;
本实施例中,可以根据实际需要设置质量因子的值,例如,可以设置质量因子为大于0,小于1的任一值。
在实际的数据处理过程中,同一分类单元可能能够较好的识别某些类别的分类数据,但是对其他类别的分类数据的识别能力就比较弱,基于此,为每一个分类单元配置一个质量因子Q,以对分类单元给出的候选分类评分值进行调整,当质量因子Q值较大时,则分类单元给出的分类置信度值在确定所述数据对象的类别时所起作用较大,当质量因子Q值较小时,分类单元给出的分类置信度值在确定所述数据对象的类别时所起作用较小。
可选的,S301具体可以采用以下方式实现:
根据每个分类单元数据分析的召回率和/或准确率,预先为每个分类单元配置质量因子,具体为:召回率(Recall)和/或准确率(Precision)越高,则为每个分类单元配置的质量因子值越大,其中,召回率=正确分为某类的数据数/测试集中属于该类数据总数;准确率=正确分为某类的数据数/测试集中分为该类数据总数。
在S302中,接收数据,将所述数据发送给至少一个分类单元;
在S303中,获取所述至少一个分类单元的处理结果;
在S304中,根据调整过的处理结果,确定所述接收数据的类别;
其中,所述分类单元用于按照确定的分类方法对接收到的数据进行分类处理。
本实施例中,根据不同的用户需求及实际应用场景,可以对不同的分类单元设置不同的质量因子,以实现能够灵活的调整每个分类单元在分类结果中的贡献,从而保证了优质分类器的效果。
实施例三
图4示出了本发明实施例三提供的数据处理装置的结构图,为了便于说明,仅示出了与本发明实施例相关的部分。
该数据处理装置针对一个分类体系,完成一个分类数据在该分类体系下的分类,所述数据处理装置包括:接收单元41、发送单元42、获取单元43及确定单元44。
接收单元41,用于接收数据;
发送单元42,用于将所述数据发送给至少一个分类单元;
获取单元43,用于获取所述至少一个分类单元的处理结果;
确定单元44,用于根据所述处理结果,确定所述接收数据的类别;
其中,所述分类单元用于按照确定的分类方法对接收到的数据进行分类处理。
可选的,所述处理结果为:所述至少一个分类单元对所述接收数据分类的类别及分类置信度值,此时,所述确定单元44,具体用于在在所述至少一个分类单元对所述接收数据分类的类别中,选择分类置信度值超过预设值的分类单元分类的类别作为所述接收数据的类别;或者所述确定单元44,具体用于在所述至少一个分类单元对所述接收数据分类的类别中,选择分类置信度值最高的分类单元分类的类别作为所述接收数据的类别。
本实施例中,所述分类单元串行或者并行对所述接收数据进行分类。
本发明实施例提供的数据处理装置可以使用在前述对应的方法实施例一中,详情参见上述实施例一的描述,在此不再赘述。
实施例四
图5示出了本发明实施例四提供的数据处理装置的结构图,为了便于说明,仅示出了与本发明实施例相关的部分。
本实施例中,所述数据处理装置包括:配置单元51,接收单元52、发送单元53、至少一个分类单元54、获取单元55及确定单元56。
本实施例与实施例三的区别在于:
配置单元51,用于预先为每个分类单元配置质量因子,所述质量因子用于调整所述至少一个分类单元的处理结果;
可以根据实际需要设置质量因子的值,例如,可以设置质量因子为大于0,小于1的任一值。
所述确定单元56,具体用于根据调整过的处理结果,确定所述接收数据的类别。
可选的,所述确定单元56,具体用于根据每个分类单元数据分析的召回率和/或准确率,预先为每个分类单元配置质量因子,具体为:召回率和/或准确率越高,则为每个分类单元配置的质量因子值越大。
本发明实施例提供的数据处理装置可以使用在前述对应的方法实施例二中,详情参见上述实施例二的描述,在此不再赘述。
值得注意的是,上述装置实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘或光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
接收数据,将所述数据发送给至少一个分类单元;
获取所述至少一个分类单元的处理结果;
根据所述处理结果,确定所述接收数据的类别;
其中,所述分类单元用于按照确定的分类方法对接收到的数据进行分类处理。
2.如权利要求1所述的方法,其特征在于,所述接收数据,将所述数据发送给至少一个分类单元之前,所述方法还包括:
预先为每个分类单元配置质量因子,所述质量因子用于调整所述至少一个分类单元的处理结果;
所述根据所述处理结果确定所述接收数据的类别具体为:
根据调整过的处理结果,确定所述接收数据的类别。
3.如权利要求2所述的方法,其特征在于,所述预先为每个分类单元配置一质量因子具体为:
根据每个分类单元数据分析的召回率和/或准确率,预先为每个分类单元配置质量因子,具体为:召回率和/或准确率越高,则为每个分类单元配置的质量因子值越大。
4.如权利要求1所述的方法,其特征在于,所述处理结果为:所述至少一个分类单元对所述接收数据分类的类别及分类置信度值;
所述根据所述处理结果确定所述接收数据的类别具体为:
在所述至少一个分类单元对所述接收数据分类的类别中,选择分类置信度值超过预设值的分类单元分类的类别作为所述接收数据的类别;或者
在所述至少一个分类单元对所述接收数据分类的类别中,选择分类置信度值最高的分类单元分类的类别作为所述接收数据的类别。
5.如权利要求1所述的方法,其特征在于,所述分类单元串行或者并行对所述接收数据进行分类。
6.一种分类装置,其特征在于,所述装置包括:
接收单元,用于接收数据;
发送单元,用于将所述数据发送给至少一个分类单元;
获取单元,用于获取所述至少一个分类单元的处理结果;
确定单元,用于根据所述处理结果,确定所述接收数据的类别;
其中,所述分类单元用于按照确定的分类方法对接收到的数据进行分类处理。
7.如权利要求6所述的装置,其特征在于,所述装置还包括:
配置单元,用于预先为每个分类单元配置质量因子,所述质量因子用于调整所述至少一个分类单元的处理结果;
所述确定单元,具体用于根据调整过的处理结果,确定所述接收数据的类别。
8.如权利要求7所述的装置,其特征在于,所述确定单元,具体用于根据每个分类单元数据分析的召回率和/或准确率,预先为每个分类单元配置质量因子,具体为:召回率和/或准确率越高,则为每个分类单元配置的质量因子值越大。
9.如权利要求6所述的装置,其特征在于,所述处理结果为:所述至少一个分类单元对所述接收数据分类的类别及分类置信度值;
所述确定单元,具体用于在在所述至少一个分类单元对所述接收数据分类的类别中,选择分类置信度值超过预设值的分类单元分类的类别作为所述接收数据的类别;或者在所述至少一个分类单元对所述接收数据分类的类别中,选择分类置信度值最高的分类单元分类的类别作为所述接收数据的类别。
10.如权利要求6所述的装置,其特征在于,所述分类单元串行或者并行对所述接收数据进行分类。
CN201210196534.7A 2012-06-14 2012-06-14 一种数据处理方法及装置 Active CN103488656B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210196534.7A CN103488656B (zh) 2012-06-14 2012-06-14 一种数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210196534.7A CN103488656B (zh) 2012-06-14 2012-06-14 一种数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN103488656A true CN103488656A (zh) 2014-01-01
CN103488656B CN103488656B (zh) 2018-11-13

Family

ID=49828894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210196534.7A Active CN103488656B (zh) 2012-06-14 2012-06-14 一种数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN103488656B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017124713A1 (zh) * 2016-01-18 2017-07-27 华为技术有限公司 一种数据模型的确定方法及装置
CN107209262A (zh) * 2014-07-03 2017-09-26 通用汽车环球科技运作有限责任公司 车辆雷达方法和系统
CN109598307A (zh) * 2018-12-06 2019-04-09 北京达佳互联信息技术有限公司 数据筛选方法、装置、服务器及存储介质
CN109670971A (zh) * 2018-11-30 2019-04-23 平安医疗健康管理股份有限公司 异常就诊费用的判断方法、装置、设备及计算机存储介质
US20230246972A1 (en) * 2020-07-01 2023-08-03 Viasat, Inc. Parallel and tiered network traffic classification

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101316246A (zh) * 2008-07-18 2008-12-03 北京大学 一种基于分类器动态更新的垃圾邮件检测方法及系统
US7565369B2 (en) * 2004-05-28 2009-07-21 International Business Machines Corporation System and method for mining time-changing data streams
CN101901345A (zh) * 2009-05-27 2010-12-01 复旦大学 一种差异蛋白质组学的分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7565369B2 (en) * 2004-05-28 2009-07-21 International Business Machines Corporation System and method for mining time-changing data streams
CN101316246A (zh) * 2008-07-18 2008-12-03 北京大学 一种基于分类器动态更新的垃圾邮件检测方法及系统
CN101901345A (zh) * 2009-05-27 2010-12-01 复旦大学 一种差异蛋白质组学的分类方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107209262A (zh) * 2014-07-03 2017-09-26 通用汽车环球科技运作有限责任公司 车辆雷达方法和系统
WO2017124713A1 (zh) * 2016-01-18 2017-07-27 华为技术有限公司 一种数据模型的确定方法及装置
CN109670971A (zh) * 2018-11-30 2019-04-23 平安医疗健康管理股份有限公司 异常就诊费用的判断方法、装置、设备及计算机存储介质
CN109598307A (zh) * 2018-12-06 2019-04-09 北京达佳互联信息技术有限公司 数据筛选方法、装置、服务器及存储介质
US20230246972A1 (en) * 2020-07-01 2023-08-03 Viasat, Inc. Parallel and tiered network traffic classification
US12058053B2 (en) * 2020-07-01 2024-08-06 Viasat, Inc. Parallel and tiered network traffic classification

Also Published As

Publication number Publication date
CN103488656B (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
TWI718337B (zh) 固態式硬碟以及管理串流的物品及方法
US8787682B2 (en) Fast image classification by vocabulary tree based image retrieval
CN103488656A (zh) 一种数据处理方法及装置
US10438590B2 (en) Voice recognition
CN111046286A (zh) 一种对象推荐方法、装置、以及计算机存储介质
CN106407311A (zh) 获取搜索结果的方法和装置
CN104156438A (zh) 一种基于置信度和聚类的未标记样本选择的方法
CN106529883A (zh) 分配数据对象的方法及装置
CN108762686B (zh) 数据一致性校验流控方法、装置、电子设备及存储介质
CN109685104B (zh) 一种识别模型的确定方法和装置
CN103365997A (zh) 一种基于集成学习的观点挖掘方法
CN103455531A (zh) 一种支持高维数据实时有偏查询的并行索引方法
CN109190674A (zh) 训练数据的生成方法及装置
CN106611021B (zh) 一种数据处理方法和设备
CN111444930B (zh) 一种确定二分类模型的预测效果的方法及装置
CN103927530A (zh) 一种最终分类器的获得方法及应用方法、系统
CN106997340B (zh) 词库的生成以及利用词库的文档分类方法及装置
KR101158750B1 (ko) 문서분류장치 및 그것의 문서분류방법
CN103218419A (zh) 网络标签聚类方法和系统
CN112949672B (zh) 商品识别方法、装置、设备以及计算机可读存储介质
CN113449208B (zh) 空间查询方法、设备、系统及存储介质
KR20190078692A (ko) 데이터 분포를 고려하여 데이터를 샘플링하는 장치 및 그 방법
CN110928484B (zh) 一种基于软件定义存储的混合云存储方法
CN105335385A (zh) 一种基于项目的协同过滤推荐方法及装置
Park Data proxy generation for fast and efficient neural architecture search

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant