CN109034207B - 数据分类方法、装置和计算机设备 - Google Patents

数据分类方法、装置和计算机设备 Download PDF

Info

Publication number
CN109034207B
CN109034207B CN201810715472.3A CN201810715472A CN109034207B CN 109034207 B CN109034207 B CN 109034207B CN 201810715472 A CN201810715472 A CN 201810715472A CN 109034207 B CN109034207 B CN 109034207B
Authority
CN
China
Prior art keywords
source domain
classification result
data
classification
heterogeneous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810715472.3A
Other languages
English (en)
Other versions
CN109034207A (zh
Inventor
吴庆耀
闫玉光
肖磊
刘大鹏
刘婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Tencent Technology Shenzhen Co Ltd
Original Assignee
South China University of Technology SCUT
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT, Tencent Technology Shenzhen Co Ltd filed Critical South China University of Technology SCUT
Priority to CN201810715472.3A priority Critical patent/CN109034207B/zh
Publication of CN109034207A publication Critical patent/CN109034207A/zh
Application granted granted Critical
Publication of CN109034207B publication Critical patent/CN109034207B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种数据处理方法、装置和计算机设备。根据预设源域中源域数据的特征空间结构,将目标分类数据划分为同构部分及异构部分,所述同构部分为与所述源域数据在特征空间中结构相同的部分,所述异构部分为与所述源域数据在特征空间中结构不同的部分;对所述同构部分进行分类,得到基于所述预设源域的同构分类结果;对所述异构部分进行分类,得到基于所述预设源域的异构分类结果;根据基于所述预设源域的同构分类结果及异构分类结果,确定与所述预设源域对应的组合分类结果;根据所述组合分类结果,确定所述目标分类数据的目标分类结果。如此,可以提高数据分类的准确性。

Description

数据分类方法、装置和计算机设备
技术领域
本申请涉及数据处理技术领域,特别是涉及一种数据分类方法、装置和计算机设备。
背景技术
随着数据处理技术的发展,对数据的分类在数据处理中具有十分重要的意义。数据分类是指对数据结构相同的数据按照一定规则进行分类,将不同类别的数据进行分类,可以通过数据分类器实现。
传统的数据分类方法,在仅针对与目标分类数据的特征空间结构完全相同的数据进行分析,得到分类结果。
因此,传统的数据分类方法,存在准确率低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种分类准确性高的数据分类方法、装置和计算机设备。
一种数据分类方法,所述方法包括:
根据预设源域中源域数据的特征空间结构,将目标分类数据划分为同构部分及异构部分,所述同构部分为与所述源域数据在特征空间中结构相同的部分,所述异构部分为与所述源域数据在特征空间中结构不同的部分;
对所述同构部分进行分类,得到基于所述预设源域的同构分类结果;
对所述异构部分进行分类,得到基于所述预设源域的异构分类结果;
根据基于所述预设源域的同构分类结果及异构分类结果,确定与所述预设源域对应的组合分类结果;
根据与所述预设源域对应的所述组合分类结果,确定所述目标分类数据的目标分类结果。
一种数据分类装置,所述装置包括:
空间划分模块,用于根据预设源域中源域数据的特征空间结构,将目标分类数据划分为同构部分及异构部分,所述同构部分为与所述源域数据在特征空间中结构相同的部分,所述异构部分为与所述源域数据在特征空间中结构不同的部分;
同构分类模块,用于对所述同构部分进行分类,得到基于所述预设源域的同构分类结果;
异构分类模块,用于对所述异构部分进行分类,得到基于所述预设源域的异构分类结果;
分类组合模块,用于根据基于所述预设源域的同构分类结果及异构分类结果,确定与所述预设源域对应的组合分类结果;
结果确定模块,用于根据与所述预设源域对应的所述组合分类结果,确定所述目标分类数据的目标分类结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
根据预设源域中源域数据的特征空间结构,将目标分类数据划分为同构部分及异构部分,所述同构部分为与所述源域数据在特征空间中结构相同的部分,所述异构部分为与所述源域数据在特征空间中结构不同的部分;
对所述同构部分进行分类,得到基于所述预设源域的同构分类结果;
对所述异构部分进行分类,得到基于所述预设源域的异构分类结果;
根据基于所述预设源域的同构分类结果及异构分类结果,确定与所述预设源域对应的组合分类结果;
根据与所述预设源域对应的所述组合分类结果,确定所述目标分类数据的目标分类结果。
上述数据分类方法、装置和计算机设备,首先根据预设源域中源域数据的特征空间结构,将目标分类数据划分为同构部分及异构部分,然后对所述同构部分进行分类得到基于所述预设源域的同构分类结果,并对所述异构部分进行分类得到基于所述预设源域的异构分类结果;因此,根据基于所述预设源域的同构分类结果及异构分类结果,确定的与所述预设源域对应的组合分类结果的准确性高,从而,根据与所述预设源域对应的所述组合分类结果,确定的所述目标分类数据的目标分类结果的准确性高。
附图说明
图1为一个实施例中数据分类方法的应用环境图;
图2为一个实施例中数据分类方法的流程示意图;
图3为另一个实施例中数据分类方法的流程示意图;
图4为一具体实施例的原理图;
图5为一具体实施例中组合分类器的工作原理图;
图6为一个实施例中数据分类装置的结构框图;
图7为另一个实施例中数据分类装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的数据分类方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。本申请实施例的数据分类方法可以运行在服务器104上,终端102可通过网络发送需要分类的目标分类数据至服务器104。服务器104根据预设源域中源域数据的特征空间结构,将目标分类数据划分为同构部分及异构部分;对同构部分进行分类,得到基于预设源域的同构分类结果;对异构部分进行分类,得到基于预设源域的异构分类结果;根据基于预设源域的同构分类结果及异构分类结果,确定与预设源域对应的组合分类结果;根据组合分类结果,确定目标分类数据的目标分类结果。最后将目标分类结果返回终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种数据分类方法,包括以下步骤:
S201,根据预设源域中源域数据的特征空间结构,将目标分类数据划分为同构部分及异构部分。同构部分为与源域数据在特征空间中结构相同的部分,异构部分为与源域数据在特征空间中结构不同的部分。
目标分类数据为与目标域中的数据的特征空间结构完全相同的数据。该目标分类数据为待分类的数据。目标域为待分类的数据的域。预设源域的特征空间的结构与目标域的特征空间具有结构相同的部分。特征空间包括不少于两个维度的数据信息。特征空间具有结构相同的部分是指,在特征空间中至少存在一个相同的维度。换而言之,目标分类数据的同构部分是指与预设源域中源域数据的特征空间中维度相同的数据信息。目标分类数据的异构部分是指与预设源域中源域数据的数据空间中维度不同的数据信息。可以理解地,同构部分与异构部分的交集为空。
S203,对同构部分进行分类,得到基于预设源域的同构分类结果。
可以根据预设源域与目标域在特征空间上结构相同部分,对目标分类数据的同构部分进行分类,得到基于预设源域的同构分类结果。
进一步地,可以通过基于预设源域的同构分类器对同构部分进行分类,得到基于预设源域的同构分类结果。该同构分类器可以根据训练域中的训练对训练得到。训练对包括训练数据和目标训练结果。训练数据的数据结构与目标分类数据的数据结构相同,目标训练结果为训练数据应该得到的结果。可以根据该目标训练结果与训练数据的实际训练结果确定损失值,从而更新同构分类器,当损失值达到预设条件时(如可以是损失值小于预设值时达到预设条件),得到最优的同构分类器。
S205,对异构部分进行分类,得到基于预设源域的异构分类结果。
可以根据目标域与预设源域在特征空间上结构不同的部分,对目标分类数据的异构部分进行分类,得到基于预设源域的异构分类结果。
进一步地,可以通过基于预设源域的异构分类器对异构部分进行分类,得到基于预设源域的异构分类结果。该异构分类器可以根据训练域中的训练对训练得到。训练对包括训练数据和目标训练结果。训练数据的数据结构与目标分类数据的数据结构相同,目标训练结果为训练数据应该得到的结果。可以根据该目标训练结果与训练数据的实际训练结果确定损失值,从而更新异构分类器,当损失值达到预设条件时(如可以是损失值小于预设值时达到预设条件),得到最优的异构分类器。
S207,根据基于预设源域的同构分类结果及异构分类结果,确定与预设源域对应的组合分类结果。
在得到基于预设源域的同构分类结果及异构分类结果之后,可以根据该同构分类结果及异构分类结果确定与预设源域对应的组合分类结果。如,可以采用加权求和的方式,分别对同构分类结果及异构分类结果进行加权,并在加权之后对两者进行求和,得到与预设源域对应的组合分类结果。
S209,根据组合分类结果,确定目标分类数据的目标分类结果。
对于只有一个预设源域的情况,可以直接将该预设源域对应的组合结果,确定为目标分类数据的目标分类结果。
对于预设源域的数量不小于2的情况,可以采用加权求和的方式,分别对各预设源域对应的组合结果进行加权,并对各加权后的组合分类结果进行求和,得到目标分类数据的目标分类结果。还可以根据预设规则,将预设组合分类结果确定为目标分类结果,如该预设规则可以是将组合分类结果中值最大的或最小的,作为目标分类结果。
上述数据分类方法,首先根据预设源域中源域数据的特征空间结构,将目标分类数据划分为同构部分及异构部分,然后对同构部分进行分类得到基于预设源域的同构分类结果,并对异构部分进行分类得到基于预设源域的异构分类结果;因此,根据基于预设源域的同构分类结果及异构分类结果,确定的与预设源域对应的组合分类结果的准确性高,从而,根据组合分类结果,确定的目标分类数据的目标分类结果的准确性高。
在其中一实施例中,预设源域的数量不小于2。
根据基于预设源域的同构分类结果及异构分类结果,确定与预设源域对应的组合分类结果,包括:对于各预设源域,根据基于该预设源域的同构分类结果及异构分类结果,确定与各预设源域分别对应的各组合分类结果。
根据组合分类结果,确定目标分类数据的目标分类结果,包括:根据各组合分类结果,确定目标分类数据的目标分类结果。
基于本实施方式的技术方案,由于预设源域的数量不小于2,对于各预设源域,均根据基于该预设源域的同构分类结果及异构分类结果确定与该预设源域对应的组分类结果,最终能够确定与各预设源域分别对应的各组分类结果。需要说明的是一个预设源域对应一个组分类结果。在确定目标分类结果时,根据各组分类结果确定。如此,增加预设源域的数量,可以进一步提高数据分类的准确性。
进一步地,根据各组合分类结果,确定目标分类数据的目标分类结果,包括:
根据预设加权参数对各组合分类结果进行加权求和,得到目标分类数据的目标分类结果。
预设加权参数可以采用平均权重的方式确定,即各预设源域对应的组合分类结果的权重相同,也即各预设源域对应的权重参数为预设源域的数量的倒数。预设加权参数也可以根据经验设置。预设加权参数还可以是通过训练确定。
基于本实施例的技术方案,由于通过对各组合分类结果加权求和的方式确定目标分类结果,能够进一步提高数据分类的准确性。
请参阅图3,在其中一实施例中,根据基于预设源域的同构分类结果及异构分类结果,确定与预设源域对应的组合分类结果之前,还包括:
S306,根据预设源域对目标分类数据进行分类,得到基于预设源域的源域分类结果。
根据基于预设源域的同构分类结果及异构分类结果,确定与预设源域对应的组合分类结果,包括:
S307,根据基于预设源域的同构分类结果、异构分类结果及源域分类结果,确定与预设源域对应的组合分类结果。
根据预设源域对目标分类数据进行分类,可以是采用对预设源域内源域数据的分类方式对目标分类数据进行分类,得到基于该预设源域的分类结果;也可以是采用基于该预设源中源域数据的分类方式确定的分类方式对目标分类数据进行分类,得到基于该预设源域的分类结果。在本实施例中,该分类结果称之为源域分类结果。根据预设源域对目标分类数据进行分类,还可以是根据预设源于对目标分类数据的同构部分进行分类得到基于预设源域的源域分类结果。在确定与该预设源域对应的组合分类结果时,也加入该源域分类结果的因素,即根据基于该预设源域的同构分类结果、异构分类结果及源域分类结果,确定该预设源域对应的组合分类结果。
可以通过加权求和的方式,确定与预设源域对应的组合分类结果,如分别对该预设源域对应的同构分类结果、异构分类结果及源域分类结果进行加权,并在加权之后对三者进行求和,得到与该预设源域对应的组合分类结果。还可以根据预设规则,直接将同构分类结果或异构分类结果或源域分类结果确定为目标分类结果,如该预设规则可以是将该三类结果中值最大的或最小的,作为目标分类结果。
可以通过基于预设源域的源域分类器对目标分类数据进行分类,得到基于预设源域的源域分类结果。该源域分类器可以根据训练域中的训练对训练得到。训练对包括训练数据和目标训练结果。训练数据的数据结构与源域数据的数据结构相同,目标训练结果为训练数据应该得到的结果。可以根据该目标训练结果与训练数据的实际训练结果确定损失值,从而更新源域分类器,当损失值达到预设条件时(如可以是损失值小于预设值时达到预设条件),得到最优的源域分类器。
基于本实施例的技术方案,由于在组合分类结果中加入了通过源域分类结果的因素,可以提高组合分类结果的准确性,从而进一步提高目标分类结果的准确性。
进一步地,为了提高数据分类的效率可以通过离线方式,根据预设源域对目标分类数据进行分类,得到基于预设源域的源域分类结果。
离线的方式是指,无需接入互联网即可实现的方式。由于无需接入互联网,可以提高处理速度,从而能够提高数据分类的效率。
请继续参阅图3,在其中一实施例中,根据预设源域中源域数据的特征空间结构,将目标分类数据划分为同构部分及异构部分之前,还包括:
S300,通过在线方式获取目标分类数据。
在线方式是指,通过接入互联网的方式。通过在线方式获取目标分类数据即为通过接入互联网的方式,从互联网上获取目标分类数据。由于通过在线方式获取目标分类数据的方式,往往目标域中的数据量较小,因此难以通过仅仅基于目标域的方式对目标分类数据进行准确性高的分类。从而,基于本实施例的技术方案,能够更大幅度的提高数据分类的准确性。
在其中一实施例中,根据基于预设源域的同构分类结果及异构分类结果,确定与预设源域对应的组合分类结果,包括:
根据预设加权参数对同构分类结果及异构分类结果进行加权求和,得到与预设源域对应的组合分类结果。
基本本实施例的技术方案,通过加权求和的方式,确定与预设源域对应的组合分类结果,如分别对该预设源域对应的同构分类结果及异构分类结果进行加权,并在加权之后对两者进行求和,得到与该预设源域对应的组合分类结果。预设加权参数可以采用平均权重的方式确定,即同构分类结果和异构分类结果的预设加权参数相同,均为0.5。预设加权参数也可以根据经验设置。预设加权参数还可以是通过训练确定。由于通过加权求和的方式确定组合分类结果,能够提高组合分类结果的准确性,从而可进一步提高数据分类的准确性。
在其中一实施例中,通过基于预设源域的同构分类器对同构部分进行分类,得到基于预设源域的同构分类结果;通过基于预设源域的异构分类器对异构部分进行分类,得到基于预设源域的异构分类结果;通过基于预设源域的源域分类器对目标分类数据进行分类,得到基于预设源域的源域分类结果。该同构分类器可以通过一个同构决策函数实现,该异构分类器可以通过一个异构决策函数实现,该源域分类器可以通过一个源域决策函数实现。第i个预设源域对应的同构决策函数可以表示为
Figure BDA0001717508720000091
第i个预设源域对应的异构决策函数可以表示为
Figure BDA0001717508720000092
各预设源域对应的源域分类器的源域决策函数可以表示为
Figure BDA0001717508720000093
其中,Si表示第i个预设源域,其取值范围为1至n,n为预设源域的数量。
在其中一实施例中,可以通过组合分类器实现根据基于预设源域的同构分类结果、异构分类结果及源域分类结果,确定与预设源域对应的组合分类结果。组合分类器可以通过组合决策函数实现,各预设源域对应的组合决策函数可以表示为fi。同构分类结果、异构分类结果及源域分类结果的权重可以分别表示为:
Figure BDA0001717508720000094
ui,其取值可以均为1/3。即各预设源域对应的组合决策函数的确定公式可以表示为:
Figure BDA0001717508720000095
在其中一实施例中,第i个预设源域对应的组合分类结果的预设加权参数可以表示为wi,其取值可以为1/n。确定目标分类数据的目标分类结果的公式可以表示为:
Figure BDA0001717508720000096
在其中一实施例中,可以对各预设源域分别对应的组合分类结果的预设加权参数进行标准化,得到标准化后的预设加权参数。标准化的过程可以表示为:
Figure BDA0001717508720000097
其中,pi表示第i个预设源域对应的组合分类结果的标准化后的预设加权参数。在根据预设加权参数对各组合分类结果进行加权求和,得到目标分类数据的目标分类结果时,采用的预设加权参数为标准化后的预设加权参数。从而进一步提高分类的准确性。
在其中一具体实施例中,本申请的数据分类方法可以通过一个数据分类器实现,该数据分类器的训练过程与本申请的数据分类方法的步骤对应。
获取训练数据对,训练数据包括训练数据及目标训练结果;该目标数据的数据结构与目标分类数据的数据结构一致。
根据预设源域中源域数据的特征空间结构,将目标数据划分为同构部分及异构部分。第t轮迭代训练过程中第i个预设源域对应的同构部分及异构部分可以分别表示为
Figure BDA0001717508720000098
通过基于预设源域的同构分类器对同构部分进行分类,得到基于预设源域的同构分类结果;通过基于预设源域的异构分类器对异构部分进行分类,得到基于预设源域的异构分类结果;通过基于预设源域的源域分类器对目标分类数据进行分类,得到基于预设源域的源域分类结果。第t轮迭代训练过程中第i个预设源域对应的同构分类器、异构分类器及源域分类器,可以分别表示为
Figure BDA0001717508720000101
Figure BDA0001717508720000102
Figure BDA0001717508720000103
通过组合分类器实现采用预设加权参数对基于预设源域的同构分类结果、异构分类结果及源域分类结果进行加权求和,得到与预设源域对应的组合分类结果。第t轮迭代训练过程中第i个预设源域对应的组合分类器可以表示为ft i
根据组合分类结果,确定目标分类数据的目标分类结果。
根据实际训练结果、同构分类结果、异构分类结果、组合分类结果及目标训练结果,更新同构分类器、异构分类器、预设加权参数及组合分类器。
进一步地,在更新预设加权参数中,正则化参数C>0,同构分类结果及异构分类结果对应的加权参数时的权重衰退因子可以分别表示为β1,β2。其中,β12∈(0,1)。
在其中一具体实施例中,可以通过公式
Figure BDA0001717508720000104
对更新组合分类器进行更新,其中,ui,t为第t轮迭代训练过程中第i预设源域对应的源域分类器的加权参数,
Figure BDA0001717508720000105
为第t轮迭代训练过程中第i预设源域对应的源域分类结果;
Figure BDA0001717508720000106
为第t轮迭代训练过程中第i预设源域对应的同构分类器的加权参数,
Figure BDA0001717508720000107
为第t轮迭代训练过程中第i预设源域对应的同构分类结果;
Figure BDA0001717508720000108
为第t轮迭代训练过程中第i预设源域对应的异构分类器的加权参数,
Figure BDA0001717508720000109
为第t轮迭代训练过程中第i预设源域对应的异构分类结果。
在其中一具体实施例中,在更新同构分类器时,第t轮迭代训练过程中第i预设源域对应的同构分类器的损失值可以表示为li 1,t,其计算公式为:
Figure BDA00017175087200001010
其中yt表示第t轮迭代训练过程中输入的训练数据对应的目标训练结果。在损失值大于0时,更新下一轮迭代过程中第i预设源域对应的同构分类器为:
Figure BDA0001717508720000111
其中,τ1为同构分类器的更新系数。
在其中一具体实施例中,在更新异构分类器时,第t轮迭代训练过程中第i预设源域对应的异构分类器的损失值可以表示为li 2,t,其计算公式为:
Figure BDA0001717508720000112
在损失值大于0时,更新下一轮迭代过程中第i预设源域对应的异构分类器为:
Figure BDA0001717508720000113
其中,τ2为异构分类器的更新系数。
在其中一具体实施例中,本申请的数据分类方法可以应用于对不同商品评论情感信息的分类,可以是二分类任务,即分类结果包括正面评价和负面评价。目标分类数据可以为厨具类商品的评论,第1个预设源域可以为书籍类商品的评论,第2个预设源域可以为DVD类商品的评论,第3个预设源域可以为电子器件类商品的评论。本实施例中,目标分类数据所属的目标域中的数据是数量不足或标记不足,需要预设源域来辅助目标分类任务效果的提升。为进一步进行说明,如图4所示,场景中书籍、电子器件和DVD的评论分别为各预设源域的源域数据,为了辅助目标域数据的分类,需要分别构建相应的组合分类器,再将各组合分类器的结果结合起来,得到最后的目标分类结果。
其中,每个预设源域对应的组合分类器的工作原理可以如图5所示。根据预设源域中源域数据的特征空间结构,将目标分类数据划分为同构部分及异构部分;根据预设源域对目标分类数据进行分类,得到基于预设源域的源域分类结果;对同构部分进行分类,得到基于预设源域的同构分类结果;对异构部分进行分类,得到基于预设源域的异构分类结果;对基于预设源域的同构分类结果、异构分类结果及源域分类结果进行加权求和,得到与预设源域对应的组合分类结果。
需要说明的是本申请的数据分类方法可以还适用于其它数据的分类,且数据的规模和分类器的选择也具有多样性。可以选择不同的硬件环境以满足需求,基本的运行硬件环境可为普通的计算机,如处理器为主频不低于2.93GHz,具有独立,内存不小于8GB的计算机。该数据分类方法的运行环境可以为LINUX平台。可以采用Python语言(一种面向对象的解释型计算机程序设计语言)及其中与机器学习相关的库实现上述数据分类方法。
应该理解的是,虽然图2、3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种与上述数据分类方法对应的数据分类装置,该装置,包括:
空间划分模块601,用于根据预设源域中源域数据的特征空间结构,将目标分类数据划分为同构部分及异构部分,所述同构部分为与所述源域数据在特征空间中结构相同的部分,所述异构部分为与所述源域数据在特征空间中结构不同的部分;
同构分类模块603,用于对所述同构部分进行分类,得到基于所述预设源域的同构分类结果;
异构分类模块605,用于对所述异构部分进行分类,得到基于所述预设源域的异构分类结果;
分类组合模块607,用于根据基于所述预设源域的同构分类结果及异构分类结果,确定与所述预设源域对应的组合分类结果;
结果确定模块609,用于根据所述组合分类结果,确定所述目标分类数据的目标分类结果。
上述数据分类装置,首先根据预设源域中源域数据的特征空间结构,将目标分类数据划分为同构部分及异构部分,然后对同构部分进行分类得到基于预设源域的同构分类结果,并对异构部分进行分类得到基于预设源域的异构分类结果;因此,根据基于预设源域的同构分类结果及异构分类结果,确定的与预设源域对应的组合分类结果的准确性高,从而,根据组合分类结果,确定的目标分类数据的目标分类结果的准确性高。
在其中一实施例中,所述预设源域的数量不小于2;
所述分类组合模块607,用于对于各所述预设源域,根据基于所述预设源域的同构分类结果及异构分类结果,确定与各所述预设源域分别对应的各组合分类结果;
所述结果确定模块609,用于根据各所述组合分类结果,确定所述目标分类数据的目标分类结果。
在其中一实施例中,所述结果确定模块609,用于根据预设加权参数对各所述组合分类结果进行加权求和,得到所述目标分类数据的目标分类结果。
请参阅图7,在其中一实施例中,所述装置还包括源域分类模块706;
所述源域分类模块706,用于根据所述预设源域对所述目标分类数据进行分类,得到基于所述预设源域的源域分类结果;
所述分类组合模块707,用于根据基于所述预设源域的同构分类结果、异构分类结果及源域分类结果,确定与所述预设源域对应的组合分类结果。
在其中一实施例中,所述源域分类模块706,用于通过离线方式,根据所述预设源域对所述目标分类数据进行分类,得到基于所述预设源域的源域分类结果。
在其中一实施例中,所述装置还包括:数据获取模块700,用于通过在线方式获取目标分类数据。
请返回参阅图6,在其中一实施例中,所述分类组合模块607,用于根据预设加权参数对所述同构分类结果及所述异构分类结果进行加权求和,得到与所述预设源域对应的组合分类结果。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图,8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储异构数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据分类方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述数据分类方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (11)

1.一种数据分类方法,所述方法包括:
服务器根据预设源域中源域数据的特征空间结构,将目标分类数据划分为同构部分及异构部分,所述同构部分为与所述源域数据在特征空间中结构相同的部分,所述异构部分为与所述源域数据在特征空间中结构不同的部分;其中所述目标分类数据由终端发送至服务器;所述目标分类数据为针对第一评论对象的评论情感信息数据;所述源域数据为针对第二评论对象的评论情感信息数据;所述第二评论对象与所述第一评论对象的类型不同;所述特征空间包括不少于两个维度的数据信息;
服务器对所述同构部分进行类别分类,得到基于所述预设源域的同构分类结果;
服务器对所述异构部分进行类别分类,得到基于所述预设源域的异构分类结果;
服务器根据基于所述预设源域的同构分类结果及异构分类结果,确定与所述预设源域对应的组合分类结果;
服务器根据所述组合分类结果,确定所述目标分类数据的目标分类结果;所述目标分类结果包括所述评论情感信息数据对应的类别;
服务器将目标分类结果返回终端。
2.根据权利要求1所述的方法,其特征在于,所述预设源域的数量不小于2;
所述根据基于所述预设源域的同构分类结果及异构分类结果,确定与所述预设源域对应的组合分类结果,包括:对于各所述预设源域,根据基于所述预设源域的同构分类结果及异构分类结果,确定与各所述预设源域分别对应的各组合分类结果;
所述根据所述组合分类结果,确定所述目标分类数据的目标分类结果,包括:根据各所述组合分类结果,确定所述目标分类数据的目标分类结果。
3.根据权利要求2所述的方法,其特征在于,所述根据各所述组合分类结果,确定所述目标分类数据的目标分类结果,包括:
根据预设加权参数对各所述组合分类结果进行加权求和,得到所述目标分类数据的目标分类结果。
4.根据权利要求1所述的方法,其特征在于,所述根据基于所述预设源域的同构分类结果及异构分类结果,确定与所述预设源域对应的组合分类结果之前,还包括:
根据所述预设源域对所述目标分类数据进行分类,得到基于所述预设源域的源域分类结果;
所述根据基于所述预设源域的同构分类结果及异构分类结果,确定与所述预设源域对应的组合分类结果,包括:
根据基于所述预设源域的同构分类结果、异构分类结果及源域分类结果,确定与所述预设源域对应的组合分类结果。
5.根据权利要求4所述的方法,其特征在于:通过离线方式,根据所述预设源域对所述目标分类数据进行分类,得到基于所述预设源域的源域分类结果。
6.根据权利要求1-5任意一项所述的方法,其特征在于,所述根据预设源域中源域数据的特征空间结构,将目标分类数据划分为同构部分及异构部分之前,还包括:
通过在线方式获取目标分类数据。
7.根据权利要求1所述的方法,其特征在于,所述根据基于所述预设源域的同构分类结果及异构分类结果,确定与所述预设源域对应的组合分类结果,包括:
根据预设加权参数对所述同构分类结果及所述异构分类结果进行加权求和,得到与所述预设源域对应的组合分类结果。
8.一种数据分类装置,所述装置包括:
空间划分模块,用于服务器根据预设源域中源域数据的特征空间结构,将目标分类数据划分为同构部分及异构部分,所述同构部分为与所述源域数据在特征空间中结构相同的部分,所述异构部分为与所述源域数据在特征空间中结构不同的部分;其中所述目标分类数据由终端发送至服务器;所述目标分类数据为针对第一评论对象的评论情感信息数据;所述源域数据为针对第二评论对象的评论情感信息数据;所述第二评论对象与所述第一评论对象的类型不同;所述特征空间包括不少于两个维度的数据信息;
同构分类模块,用于服务器对所述同构部分进行类别分类,得到基于所述预设源域的同构分类结果;
异构分类模块,用于服务器对所述异构部分进行类别分类,得到基于所述预设源域的异构分类结果;
分类组合模块,用于服务器根据基于所述预设源域的同构分类结果及异构分类结果,确定与所述预设源域对应的组合分类结果;
结果确定模块,用于服务器根据所述组合分类结果,确定所述目标分类数据的目标分类结果;所述目标分类结果包括所述评论情感信息数据对应的类别;服务器将目标分类结果返回终端。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:数据获取模块,用于通过在线方式获取目标分类数据。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
11.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时可实现如权利要求1至7中任一项所述方法的步骤。
CN201810715472.3A 2018-06-29 2018-06-29 数据分类方法、装置和计算机设备 Active CN109034207B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810715472.3A CN109034207B (zh) 2018-06-29 2018-06-29 数据分类方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810715472.3A CN109034207B (zh) 2018-06-29 2018-06-29 数据分类方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN109034207A CN109034207A (zh) 2018-12-18
CN109034207B true CN109034207B (zh) 2021-01-05

Family

ID=65522349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810715472.3A Active CN109034207B (zh) 2018-06-29 2018-06-29 数据分类方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN109034207B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218405A (zh) * 2013-03-20 2013-07-24 西安电子科技大学 基于维数约简的集成迁移文本分类方法
CN104102917A (zh) * 2014-07-03 2014-10-15 中国石油大学(北京) 域自适应分类器的构造及数据分类的方法和装置
CN105224663A (zh) * 2015-09-30 2016-01-06 广州精点计算机科技有限公司 一种基于多个数据源的数据访问任务管理方法及装置
CN106096004A (zh) * 2016-06-23 2016-11-09 北京工业大学 一种建立大规模跨领域文本情感倾向性分析框架的方法
CN107679580A (zh) * 2017-10-21 2018-02-09 桂林电子科技大学 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130185314A1 (en) * 2012-01-16 2013-07-18 Microsoft Corporation Generating scoring functions using transfer learning
US10832166B2 (en) * 2016-12-20 2020-11-10 Conduent Business Services, Llc Method and system for text classification based on learning of transferable feature representations from a source domain

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218405A (zh) * 2013-03-20 2013-07-24 西安电子科技大学 基于维数约简的集成迁移文本分类方法
CN104102917A (zh) * 2014-07-03 2014-10-15 中国石油大学(北京) 域自适应分类器的构造及数据分类的方法和装置
CN105224663A (zh) * 2015-09-30 2016-01-06 广州精点计算机科技有限公司 一种基于多个数据源的数据访问任务管理方法及装置
CN106096004A (zh) * 2016-06-23 2016-11-09 北京工业大学 一种建立大规模跨领域文本情感倾向性分析框架的方法
CN107679580A (zh) * 2017-10-21 2018-02-09 桂林电子科技大学 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法

Also Published As

Publication number Publication date
CN109034207A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN110598845B (zh) 数据处理方法、装置、计算机设备和存储介质
CN109165983B (zh) 保险产品推荐方法、装置、计算机设备和存储介质
WO2021169111A1 (zh) 简历筛选方法、装置、计算机设备和存储介质
CN108520041B (zh) 文本的行业分类方法、系统、计算机设备和存储介质
CN108536800B (zh) 文本分类方法、系统、计算机设备和存储介质
CN109783604B (zh) 基于少量样本的信息提取方法、装置和计算机设备
CN113379301A (zh) 通过决策树模型对用户进行分类的方法、装置和设备
WO2020034801A1 (zh) 医疗特征筛选方法、装置、计算机设备和存储介质
CN107437111B (zh) 基于神经网络的数据处理方法、介质、装置和计算设备
WO2021159748A1 (zh) 模型压缩方法、装置、计算机设备及存储介质
US11200466B2 (en) Machine learning classifiers
US20190378009A1 (en) Method and electronic device for classifying an input
CN111209929A (zh) 访问数据处理方法、装置、计算机设备及存储介质
US11537934B2 (en) Systems and methods for improving the interpretability and transparency of machine learning models
CN113963205A (zh) 基于特征融合的分类模型训练方法、装置、设备及介质
CN111242319A (zh) 模型预测结果的解释方法和装置
US20150186793A1 (en) System and method for distance learning with efficient retrieval
CN114168318A (zh) 存储释放模型的训练方法、存储释放方法及设备
CN113011532A (zh) 分类模型训练方法、装置、计算设备及存储介质
CN113239697B (zh) 实体识别模型训练方法、装置、计算机设备及存储介质
CN110659347B (zh) 关联文书确定方法、装置、计算机设备及存储介质
CN109034207B (zh) 数据分类方法、装置和计算机设备
CN112232360A (zh) 图像检索模型优化方法、图像检索方法、装置及存储介质
CN115827877A (zh) 一种提案辅助并案的方法、装置、计算机设备和存储介质
CN115169334A (zh) 意图识别模型训练方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant