CN117076977A - 对象分类方法、装置、计算机设备和存储介质 - Google Patents

对象分类方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN117076977A
CN117076977A CN202310930725.XA CN202310930725A CN117076977A CN 117076977 A CN117076977 A CN 117076977A CN 202310930725 A CN202310930725 A CN 202310930725A CN 117076977 A CN117076977 A CN 117076977A
Authority
CN
China
Prior art keywords
sample set
target attribute
attribute
feature sample
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310930725.XA
Other languages
English (en)
Inventor
张顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202310930725.XA priority Critical patent/CN117076977A/zh
Publication of CN117076977A publication Critical patent/CN117076977A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Pure & Applied Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种对象分类方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取对象特征样本集;对对象特征样本集中的特征样本子集进行信息增益处理,得到多个对象属性各自对应的信息增益值,并根据信息增益值,从多个对象属性中筛选出第一目标属性;对对象特征样本集进行降维处理,得到对象特征样本集对应的协方差矩阵,并根据对象特征样本集对应的协方差矩阵,确定第二目标属性;根据第一目标属性、第二目标属性、对象特征样本集中第一目标属性所对应的属性值、对象特征样本集中第二目标属性所对应的属性值和类别标签,对待训练的对象分类模型进行训练,采用该方法可以实现对潜在客户的针对性分类与推荐。

Description

对象分类方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种对象分类方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着银行金融业务的快速发展,金融监管加强,行业经营竞争日益激烈,加之互联网金融等因素的冲击,我国商业银行总体经营环境受到了较大的影响,银行业转型日益迫切。商业银行经营的目的之一在于盈利,而盈利的关键在于客户,所以做好对潜在客户的挖掘就十分有必要。
然而,目前银行在对潜在客户进行挖掘时,均统一向客户推荐,过于死板和机械,缺乏对客户的针对性分类与推荐,导致客户对银行推荐的产品不感兴趣。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高推荐与分类灵活性的对象分类方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种对象分类方法。所述方法包括:
获取对象特征样本集;所述对象特征样本集,包括多个样本对象各自对应的特征样本子集和每个所述特征样本子集各自对应的类别标签;每个所述特征样本子集,包括多个对象属性和所述多个对象属性各自对应的属性值;
对所述对象特征样本集中的特征样本子集进行信息增益处理,得到所述多个对象属性各自对应的信息增益值,并根据所述信息增益值,从所述多个对象属性中筛选出第一目标属性;
对所述对象特征样本集进行降维处理,得到所述对象特征样本集对应的协方差矩阵,并根据所述对象特征样本集对应的协方差矩阵,确定第二目标属性;
根据所述第一目标属性、所述第二目标属性、所述对象特征样本集中所述第一目标属性所对应的属性值、所述对象特征样本集中所述第二目标属性所对应的属性值和所述类别标签,对待训练的对象分类模型进行训练;
其中,训练好的对象分类模型,用于对待分类的对象进行分类处理,得到所述待分类的对象所对应的目标类别。
在其中一个实施例中,所述对所述对象特征样本集中的特征样本子集进行信息增益处理,得到所述多个对象属性各自对应的信息增益值,包括:
对所述特征样本子集中对应的所述多个对象属性进行对数运算处理,得到所述多个对象属性各自对应的经验熵值;
对所述多个对象属性各自对应的属性值进行条件概率运算处理,得到所述多个对象属性各自对应的条件经验熵值;
将所述多个对象属性各自对应的经验熵值分别与相应的条件经验熵值进行相减,得到所述多个对象属性各自对应的信息增益值。
在其中一个实施例中,所述根据所述对象特征样本集对应的协方差矩阵,确定第二目标属性,包括:
根据所述对象特征样本集对应的协方差矩阵,确定所述协方差矩阵对应的特征向量和特征值;
基于所述特征值的大小顺序对所述特征向量进行排序,得到排序后的特征向量;
基于所述排序后的特征向量,确定第二目标属性;
其中,所述第二目标属性是由相应对象属性经过降维处理后生成。
在其中一个实施例中,所述根据所述第一目标属性、所述第二目标属性、所述对象特征样本集中所述第一目标属性所对应的属性值、所述对象特征样本集中所述第二目标属性所对应的属性值和所述类别标签,对待训练的对象分类模型进行训练,包括:
对所述第一目标属性和所述第二目标属性进行集合运算,得到第三目标属性;
根据所述第三目标属性、所述对象特征样本集中所述第三目标属性所对应的属性值、所述对象特征样本集中所述第三目标属性所对应的属性值和所述类别标签,对待训练的对象分类模型进行训练。
在其中一个实施例中,所述第二目标属性是由相应对象属性经过降维处理后生成,所述对所述第一目标属性和所述第二目标属性进行集合运算,得到第三目标属性,包括:
对所述第一目标属性和所述第二目标属性进行并集运算,得到并集目标属性;
将所述并集目标属性与相应属性进行相减运算,得到所述第三目标属性。
在其中一个实施例中,将所述待分类的对象所对应的对象信息输入所述训练好的对象分类模型;
将所述待分类的对象所对应的对象信息进行归一化处理,得到所述待分类的对象所对应的待处理样本集;
将所述待处理样本集绘制在笛卡尔坐标系中,根据所述待处理样本集,在笛卡尔坐标系中确定最大间隔超平面;
根据所述最大间隔超平面,确定所述待处理样本集的类型,若所述待处理样本集为线性可分,则生成线性分类函数;
通过所述线性分类器对所述待处理样本集进行分类处理,得到所述待分类的对象所对应的目标类别。
第二方面,本申请还提供了一种对象分类装置。所述装置包括:
获取模块,用于获取对象特征样本集;所述对象特征样本集,包括多个样本对象各自对应的特征样本子集和每个所述特征样本子集各自对应的类别标签;每个所述特征样本子集,包括多个对象属性和所述多个对象属性各自对应的属性值;
信息增益模块,用于对所述对象特征样本集中的特征样本子集进行信息增益处理,得到所述多个对象属性各自对应的信息增益值,并根据所述信息增益值,从所述多个对象属性中筛选出第一目标属性;
降维模块,用于对所述对象特征样本集进行降维处理,得到所述对象特征样本集对应的协方差矩阵,并根据所述对象特征样本集对应的协方差矩阵,确定第二目标属性;
训练模块,用于根据所述第一目标属性、所述第二目标属性、所述对象特征样本集中所述第一目标属性所对应的属性值、所述对象特征样本集中所述第二目标属性所对应的属性值和所述类别标签,对待训练的对象分类模型进行训练;
其中,训练好的对象分类模型,用于对待分类的对象进行分类处理,得到所述待分类的对象所对应的目标类别。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取对象特征样本集;所述对象特征样本集,包括多个样本对象各自对应的特征样本子集和每个所述特征样本子集各自对应的类别标签;每个所述特征样本子集,包括多个对象属性和所述多个对象属性各自对应的属性值;
对所述对象特征样本集中的特征样本子集进行信息增益处理,得到所述多个对象属性各自对应的信息增益值,并根据所述信息增益值,从所述多个对象属性中筛选出第一目标属性;
对所述对象特征样本集进行降维处理,得到所述对象特征样本集对应的协方差矩阵,并根据所述对象特征样本集对应的协方差矩阵,确定第二目标属性;
根据所述第一目标属性、所述第二目标属性、所述对象特征样本集中所述第一目标属性所对应的属性值、所述对象特征样本集中所述第二目标属性所对应的属性值和所述类别标签,对待训练的对象分类模型进行训练;
其中,训练好的对象分类模型,用于对待分类的对象进行分类处理,得到所述待分类的对象所对应的目标类别。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取对象特征样本集;所述对象特征样本集,包括多个样本对象各自对应的特征样本子集和每个所述特征样本子集各自对应的类别标签;每个所述特征样本子集,包括多个对象属性和所述多个对象属性各自对应的属性值;
对所述对象特征样本集中的特征样本子集进行信息增益处理,得到所述多个对象属性各自对应的信息增益值,并根据所述信息增益值,从所述多个对象属性中筛选出第一目标属性;
对所述对象特征样本集进行降维处理,得到所述对象特征样本集对应的协方差矩阵,并根据所述对象特征样本集对应的协方差矩阵,确定第二目标属性;
根据所述第一目标属性、所述第二目标属性、所述对象特征样本集中所述第一目标属性所对应的属性值、所述对象特征样本集中所述第二目标属性所对应的属性值和所述类别标签,对待训练的对象分类模型进行训练;
其中,训练好的对象分类模型,用于对待分类的对象进行分类处理,得到所述待分类的对象所对应的目标类别。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取对象特征样本集;所述对象特征样本集,包括多个样本对象各自对应的特征样本子集和每个所述特征样本子集各自对应的类别标签;每个所述特征样本子集,包括多个对象属性和所述多个对象属性各自对应的属性值;
对所述对象特征样本集中的特征样本子集进行信息增益处理,得到所述多个对象属性各自对应的信息增益值,并根据所述信息增益值,从所述多个对象属性中筛选出第一目标属性;
对所述对象特征样本集进行降维处理,得到所述对象特征样本集对应的协方差矩阵,并根据所述对象特征样本集对应的协方差矩阵,确定第二目标属性;
根据所述第一目标属性、所述第二目标属性、所述对象特征样本集中所述第一目标属性所对应的属性值、所述对象特征样本集中所述第二目标属性所对应的属性值和所述类别标签,对待训练的对象分类模型进行训练;
其中,训练好的对象分类模型,用于对待分类的对象进行分类处理,得到所述待分类的对象所对应的目标类别。
上述对象分类方法、装置、计算机设备、存储介质和计算机程序产品,通过获取对象特征样本集,对对象特征样本集中的特征样本子集进行信息增益处理,从而实现从所述多个对象属性中筛选出第一目标属性;再对对象特征样本集进行降维处理,从而实现从所述多个对象属性中确定第二目标属性;使得从对象特征样本集中多个对象属性中提取出对分类最重要的特征,减少训练样本的冗余,一定程度上提升了分类模型训练的效率。最后根据对象特征样本集中第一目标属性所对应的属性值、对象特征样本集中第二目标属性所对应的属性值以及类别标签,对待训练的对象分类模型进行训练,得到训练好的对象分类模型,由此可以实现对潜在客户的针对性分类与推荐。
附图说明
图1为一个实施例中对象分类方法的应用环境图;
图2为一个实施例中对象分类方法的流程示意图;
图3为另一个实施例中对象分类方法的流程示意图;
图4为一个实施例中对象分类装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的对象分类方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。在本申请中终端102生成对象分类请求,然后将该对象分类请求发送至服务器,以使得服务器104获取对象特征样本集;对对象特征样本集中的特征样本子集进行信息增益处理;对所述对象特征样本集进行降维处理;对待训练的对象分类模型进行训练。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种对象分类方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤202,获取对象特征样本集;对象特征样本集,包括多个样本对象各自对应的特征样本子集和每个特征样本子集各自对应的类别标签;每个特征样本子集,包括多个对象属性和多个对象属性各自对应的属性值。
其中,对象特征样本集是将客户信息集合根据特殊属性映射关系表映射成对应的数值所形成的集合。容易理解地,对于特殊属性映射关系表的取得方式,不做具体限定,可根据实际需要进行设定,可选的,该特殊属性映射关系表是根据建模人员和业务人员的经验人为定制而来的。例如,样本对象可以是用户,对象属性为能够反映用户某些特殊信息的特征属性如年龄、性别、年收入和存款余额等,样本子集可以是每一用户对应的特征属性,以及该特征属性各自对应的属性数值组成的集合。类别标签用于表示用户所属的分类,可以是客户类别如贷款用户、理财用户、信用卡用户、存款用户一共4种分类。
具体地,先根据对象的特征属性收集对象信息,对收集到的对象信息分别标注类别标签,再将标注后的对象信息根据特殊属性映射关系表,映射成对应的数值即属性值,例如,将存款金额在5万以内映射为0.2,将存款金额在5万-10万之间映射成0.3,将存款金额在10万以上映射成0.6。最终得到对象特征样本集。
步骤204,对对象特征样本集中的特征样本子集进行信息增益处理,得到多个对象属性各自对应的信息增益值,并根据信息增益值,从多个对象属性中筛选出第一目标属性。
其中,信息增益是特征选择的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,说明该特征越重要,相应的信息增益也就越大。信息增益值是指特征经过信息增益处理之后得到的用于反映特征重要程度的数值。第一目标属性是指按照特征对于分类的重要程度筛选出的特征属性也即对象属性。
具体地,对每一用户对应的特征属性,以及该特征属性各自对应的属性数值组成的集合进行信息增益处理,得到各个对象属性各自所对应的信息增益值。根据各个对象属性各自所对应的信息增益值的大小,从多个特征属性中筛选出对于分类的重要程度很高的部分特征属性作为第一目标属性。
步骤206,对对象特征样本集进行降维处理,得到对象特征样本集对应的协方差矩阵,并根据对象特征样本集对应的协方差矩阵,确定第二目标属性。
其中,在机器学习和统计学领域,降维是指在某些限定条件下,降低随机变量个数,得到一组“不相关”主变量的过程,换言之,降维的真正意义在于对有效信息的提取综合及对无用信息的摒弃。容易理解地,在本申请中,对于降维方法不做具体的限定,可根据实际需要进行设置。可选的,通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分也即第二目标属性。
具体地,对对象特征样本集进行降维处理,将对象特征样本集转换成对应的协方差矩阵,对该协方差矩阵进行处理,使该协方差矩阵中的一组可能存在相关性的变量转换为一组线性不相关的变量,换后的这组变量叫主成分也即第二目标属性。
步骤208,根据第一目标属性、第二目标属性、对象特征样本集中第一目标属性所对应的属性值、对象特征样本集中第二目标属性所对应的属性值和类别标签,对待训练的对象分类模型进行训练;
其中,训练好的对象分类模型,用于对待分类的对象进行分类处理,得到待分类的对象所对应的目标类别。
其中,待训练的对象分类模型是指对象分类模型的初始模型,用于经过模型训练,得到训练好的对象分类模型,最终实现对待分类的对象进行分类处理,待分类的对象所对应的目标类别。容易理解地,本申请对于对象分类模型的初始模型的选择以及该对象分类模型的初始模型的训练过程不做具体限定,可根据实际需要进行选择。
具体地,将对象特征样本集中第一目标属性所对应的属性值、对象特征样本集中第二目标属性所对应的属性值输入待训练的对象分类模型,得到初始类别;基于初始类别与类别标签的差异,确定待训练的对象分类模型的模型损失;基于待训练的对象分类模型的模型损失,调整待训练的对象分类模型的模型参数,直到满足模型训练结束条件,得到训练好的对象分类模型。该训练好的对象分类模型,用于对待分类的对象进行分类处理,得到待分类的对象所对应的目标类别。
在其中一个实施例中,对特征样本子集中对应的多个对象属性进行对数运算处理,得到多个对象属性各自对应的经验熵值;对多个对象属性各自对应的属性值进行条件概率运算处理,得到多个对象属性各自对应的条件经验熵值;将多个对象属性各自对应的经验熵值分别与相应的条件经验熵值进行相减,得到多个对象属性各自对应的信息增益值。
具体地,先分别计算出特征样本子集中对应的对象属性各自的经验熵H(D),该经验熵为对象属性在对象特征样本集中的占比。然后计算在各自对象属性的条件下,对象特征样本集的经验条件熵H(D/A),通过g(D,A)计算出对象属性对应的信息增益值。其中,D表示对象特征样本集,A表示对象属性,H表示信息增益算法,g表示信息增益值。
由于对对象特征样本集中的对象属性进行信息增益处理,提取出对分类更重要的特征,剔除对分类不重要的特征,大大减少了训练样本的冗余,一定程度上提升了分类模型训练的效率。
在其中一个实施例中,利用对象特征样本集构造相似度图,然后利用拉普拉斯特征映射通过对相似度图的拉普拉斯矩阵进行特征值分解而完成数据降维。
在其中一个实施例中,根据对象特征样本集对应的协方差矩阵,确定协方差矩阵对应的特征向量和特征值;基于特征值的大小顺序对特征向量进行排序,得到排序后的特征向量;基于排序后的特征向量,确定第二目标属性;其中,第二目标属性是由相应对象属性经过降维处理后生成。
具体地,在降维之前,对象特征样本集为对象信息根据特殊属性映射关系表进行线性变换得到的数据集合,使得对象特征样本集中的数据全部映射到0到1的范围,实现对对象信息的归一化处理。首先将对象特征样本集转换成对应的协方差矩阵,根据该协方差矩阵,分析对象属性之间的相关性,若协方差为正,则两个对象属性之间为正相关,若协方差为负,则两个对象属性之间为负相关。然后通过计算协方差矩阵的特征向量和特征值来确定对象属性中的主成分,该主成分是由初始变量的线性组合或混合构成的新变量。新变量之间是互不相关的。
由于对对象特征样本集中的对象属性进行降维处理,提取出了对象属性中的主要对象属性,保留住了对分类更重要的特征,剔除对分类不重要的特征,进一步减少了训练样本的冗余,提升了分类模型训练的效率。
在其中一个实施例中,对第一目标属性和第二目标属性进行集合运算,得到第三目标属性;根据第三目标属性、对象特征样本集中第三目标属性所对应的属性值、对象特征样本集中第三目标属性所对应的属性值和类别标签,对待训练的对象分类模型进行训练。
具体地,对第一目标属性和第二目标属性进行集合运算,例如第一目标属性包括年龄、年收入,第二目标属性包括年收入、性别,那么对对第一目标属性和第二目标属性进行集合运算就是对第一目标属性中的年龄、年收入和第一目标属性中的年龄、年收入,进行集合运算。容易理解地,在本申请中,对于集合运算的种类不做具体限定,可根据实际需要进行设置。
由于在得到第一目标属性和第二目标属性之后,进一步对第一目标属性和第二目标属性进行集合运算,使得对对象特征样本集中对象属性的选取方式更加灵活。
在其中一个实施例中,对第一目标属性和第二目标属性进行交集运算,得到交集目标属性,再将交集目标属性与相应属性进行相减运算,得到第三目标属性。
在其中一个实施例中,对第一目标属性和第二目标属性进行并集运算,得到并集目标属性;将并集目标属性与相应属性进行相减运算,得到第三目标属性。
具体地,对第一目标属性和第二目标属性进行并集运算,例如第一目标属性包括年龄、年收入,性别第二目标属性包括性别、潜力收入。对第一目标属性和第二目标属性进行并集运算得到年龄、年收入、性别、性别、潜力收入,又由于潜力收入是将年龄和年收入进行降维处理后,得到的新的对象属性,所以此时,需要将对第一目标属性和第二目标属性进行并集运算得到的结果即年龄、年收入、性别、性别、潜力收入减去年龄、年收入,最终得到性别和潜力收入,作为第三目标属性。
由于在得到第一目标属性和第二目标属性之后,进一步对第一目标属性和第二目标属性进行并集运算,之后再将并集目标属性与相应属性进行相减运算,使得最终得到的第三目标属性消除了同一对象属性出现多次的情况,避免了对象分类的准确度受到影响。容易理解地,同一对象属性出现又两种形式,第一种是直接以该对象属性的形式存在,第二种是以该对象属性经过降维处理后形成的新队形属性的形式存在。
在其中一个实施例中,将待分类的对象所对应的对象信息输入训练好的对象分类模型;将待分类的对象所对应的对象信息进行归一化处理,得到待分类的对象所对应的待处理样本集;将待处理样本集绘制在笛卡尔坐标系中;根据待处理样本集,在笛卡尔坐标系中确定最大间隔超平面;根据最大间隔超平面,确定待处理样本集的类型;若待处理样本集为线性可分,则生成线性分类函数;通过线性分类器对待处理样本集进行分类处理,得到待分类的对象所对应的目标类别。
具体地,将待分类的对象所对应的对象信息输入训练好的对象分类模型,对输入的对象信息进行归一化处理,转换成属于0到1范围内的数值。将归一化后的对象信息绘制在笛卡尔坐标系中,进一步确定出最大间隔超平面,以及根据该最大间隔超平面确定出归一化后的对象信息的类型为线性可分,进而生成线性分类函数对归一化后的对象信息进行分类处理,得到待分类的对象所对应的目标类别。
由于利用训练好的对象分类模型对待训练的对象进行分类处理,由此实现对潜在客户的针对性分类与推荐。
在一个实施例中,如图3所示,图3为另一个实施例中对象分类方法的流程示意图,包括如下步骤:
步骤302,获取对象特征样本集;对象特征样本集,包括多个样本对象各自对应的特征样本子集和每个特征样本子集各自对应的类别标签;每个特征样本子集,包括多个对象属性和多个对象属性各自对应的属性值;
步骤304,对特征样本子集中对应的多个对象属性进行对数运算处理,得到多个对象属性各自对应的经验熵值;
对多个对象属性各自对应的属性值进行条件概率运算处理,得到多个对象属性各自对应的条件经验熵值;
将多个对象属性各自对应的经验熵值分别与相应的条件经验熵值进行相减,得到多个对象属性各自对应的信息增益值;
步骤306,根据对象特征样本集对应的协方差矩阵,确定协方差矩阵对应的特征向量和特征值;
基于特征值的大小顺序对特征向量进行排序,得到排序后的特征向量;
基于排序后的特征向量,确定第二目标属性;
其中,第二目标属性是由相应对象属性经过降维处理后生成;
步骤308,对第一目标属性和第二目标属性进行并集运算,得到并集目标属性;将并集目标属性与相应属性进行相减运算,得到第三目标属性;
步骤310,对待训练的对象分类模型进行训练;
步骤312,将待分类的对象所对应的对象信息输入训练好的对象分类模型;
将待分类的对象所对应的对象信息进行归一化处理,得到待分类的对象所对应的待处理样本集;
将待处理样本集绘制在笛卡尔坐标系中,根据待处理样本集,在笛卡尔坐标系中确定最大间隔超平面;
根据最大间隔超平面,确定待处理样本集的类型,若待处理样本集为线性可分,则生成线性分类函数;
通过线性分类器对待处理样本集进行分类处理,得到待分类的对象所对应的目标类别。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的对象分类方法的对象分类装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个对象分类装置实施例中的具体限定可以参见上文中对于对象分类方法的限定,在此不再赘述。
在一个实施例中,如图4示,提供了一种对象分类装置400,包括:获取模块402、信息增益模块404、降维模块406和训练模块408,其中:
获取模块402,用于获取对象特征样本集;对象特征样本集,包括多个样本对象各自对应的特征样本子集和每个特征样本子集各自对应的类别标签;每个特征样本子集,包括多个对象属性和多个对象属性各自对应的属性值;
信息增益模块404,用于对对象特征样本集中的特征样本子集进行信息增益处理,得到多个对象属性各自对应的信息增益值,并根据信息增益值,从多个对象属性中筛选出第一目标属性;
降维模块406,用于对对象特征样本集进行降维处理,得到对象特征样本集对应的协方差矩阵,并根据对象特征样本集对应的协方差矩阵,确定第二目标属性;
训练模块408,用于根据第一目标属性、第二目标属性、对象特征样本集中第一目标属性所对应的属性值、对象特征样本集中第二目标属性所对应的属性值和类别标签,对待训练的对象分类模型进行训练;
其中,训练好的对象分类模型,用于对待分类的对象进行分类处理,得到待分类的对象所对应的目标类别。
在其中一个实施例中,信息增益模块404,用于对特征样本子集中对应的多个对象属性进行对数运算处理,得到多个对象属性各自对应的经验熵值;
对多个对象属性各自对应的属性值进行条件概率运算处理,得到多个对象属性各自对应的条件经验熵值;
将多个对象属性各自对应的经验熵值分别与相应的条件经验熵值进行相减,得到多个对象属性各自对应的信息增益值。
在其中一个实施例中,降维模块406,用于根据对象特征样本集对应的协方差矩阵,确定协方差矩阵对应的特征向量和特征值;
基于特征值的大小顺序对特征向量进行排序,得到排序后的特征向量;
基于排序后的特征向量,确定第二目标属性;
其中,第二目标属性是由相应对象属性经过降维处理后生成。
在其中一个实施例中,训练模块408,用于对第一目标属性和第二目标属性进行集合运算,得到第三目标属性;
根据第三目标属性、对象特征样本集中第三目标属性所对应的属性值、对象特征样本集中第三目标属性所对应的属性值和类别标签,对待训练的对象分类模型进行训练。
在其中一个实施例中,训练模块408,用于对第一目标属性和第二目标属性进行并集运算,得到并集目标属性;
将并集目标属性与相应属性进行相减运算,得到第三目标属性。
在其中一个实施例中,训练模块408,用于将待分类的对象所对应的对象信息输入训练好的对象分类模型;
将待分类的对象所对应的对象信息进行归一化处理,得到待分类的对象所对应的待处理样本集;
将待处理样本集绘制在笛卡尔坐标系中,根据待处理样本集,在笛卡尔坐标系中确定最大间隔超平面;
根据最大间隔超平面,确定待处理样本集的类型,若待处理样本集为线性可分,则生成线性分类函数;
通过线性分类器对待处理样本集进行分类处理,得到待分类的对象所对应的目标类别。
上述对象分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储与对象分类相关的数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种对象分类方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取对象特征样本集;对象特征样本集,包括多个样本对象各自对应的特征样本子集和每个特征样本子集各自对应的类别标签;每个特征样本子集,包括多个对象属性和多个对象属性各自对应的属性值;
对对象特征样本集中的特征样本子集进行信息增益处理,得到多个对象属性各自对应的信息增益值,并根据信息增益值,从多个对象属性中筛选出第一目标属性;
对对象特征样本集进行降维处理,得到对象特征样本集对应的协方差矩阵,并根据对象特征样本集对应的协方差矩阵,确定第二目标属性;
根据第一目标属性、第二目标属性、对象特征样本集中第一目标属性所对应的属性值、对象特征样本集中第二目标属性所对应的属性值和类别标签,对待训练的对象分类模型进行训练;
其中,训练好的对象分类模型,用于对待分类的对象进行分类处理,得到待分类的对象所对应的目标类别。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对特征样本子集中对应的多个对象属性进行对数运算处理,得到多个对象属性各自对应的经验熵值;
对多个对象属性各自对应的属性值进行条件概率运算处理,得到多个对象属性各自对应的条件经验熵值;
将多个对象属性各自对应的经验熵值分别与相应的条件经验熵值进行相减,得到多个对象属性各自对应的信息增益值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据对象特征样本集对应的协方差矩阵,确定协方差矩阵对应的特征向量和特征值;
基于特征值的大小顺序对特征向量进行排序,得到排序后的特征向量;
基于排序后的特征向量,确定第二目标属性;
其中,第二目标属性是由相应对象属性经过降维处理后生成。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对第一目标属性和第二目标属性进行集合运算,得到第三目标属性;
根据第三目标属性、对象特征样本集中第三目标属性所对应的属性值、对象特征样本集中第三目标属性所对应的属性值和类别标签,对待训练的对象分类模型进行训练。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对第一目标属性和第二目标属性进行并集运算,得到并集目标属性;
将并集目标属性与相应属性进行相减运算,得到第三目标属性。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将待分类的对象所对应的对象信息输入训练好的对象分类模型;
将待分类的对象所对应的对象信息进行归一化处理,得到待分类的对象所对应的待处理样本集;
将待处理样本集绘制在笛卡尔坐标系中,根据待处理样本集,在笛卡尔坐标系中确定最大间隔超平面;
根据最大间隔超平面,确定待处理样本集的类型,若待处理样本集为线性可分,则生成线性分类函数;
通过线性分类器对待处理样本集进行分类处理,得到待分类的对象所对应的目标类别。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取对象特征样本集;对象特征样本集,包括多个样本对象各自对应的特征样本子集和每个特征样本子集各自对应的类别标签;每个特征样本子集,包括多个对象属性和多个对象属性各自对应的属性值;
对对象特征样本集中的特征样本子集进行信息增益处理,得到多个对象属性各自对应的信息增益值,并根据信息增益值,从多个对象属性中筛选出第一目标属性;
对对象特征样本集进行降维处理,得到对象特征样本集对应的协方差矩阵,并根据对象特征样本集对应的协方差矩阵,确定第二目标属性;
根据第一目标属性、第二目标属性、对象特征样本集中第一目标属性所对应的属性值、对象特征样本集中第二目标属性所对应的属性值和类别标签,对待训练的对象分类模型进行训练;
其中,训练好的对象分类模型,用于对待分类的对象进行分类处理,得到待分类的对象所对应的目标类别。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取对象特征样本集;对象特征样本集,包括多个样本对象各自对应的特征样本子集和每个特征样本子集各自对应的类别标签;每个特征样本子集,包括多个对象属性和多个对象属性各自对应的属性值;
对对象特征样本集中的特征样本子集进行信息增益处理,得到多个对象属性各自对应的信息增益值,并根据信息增益值,从多个对象属性中筛选出第一目标属性;
对对象特征样本集进行降维处理,得到对象特征样本集对应的协方差矩阵,并根据对象特征样本集对应的协方差矩阵,确定第二目标属性;
根据第一目标属性、第二目标属性、对象特征样本集中第一目标属性所对应的属性值、对象特征样本集中第二目标属性所对应的属性值和类别标签,对待训练的对象分类模型进行训练;
其中,训练好的对象分类模型,用于对待分类的对象进行分类处理,得到待分类的对象所对应的目标类别。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种对象分类方法,其特征在于,所述方法包括:
获取对象特征样本集;所述对象特征样本集,包括多个样本对象各自对应的特征样本子集和每个所述特征样本子集各自对应的类别标签;每个所述特征样本子集,包括多个对象属性和所述多个对象属性各自对应的属性值;
对所述对象特征样本集中的特征样本子集进行信息增益处理,得到所述多个对象属性各自对应的信息增益值,并根据所述信息增益值,从所述多个对象属性中筛选出第一目标属性;
对所述对象特征样本集进行降维处理,得到所述对象特征样本集对应的协方差矩阵,并根据所述对象特征样本集对应的协方差矩阵,确定第二目标属性;
根据所述第一目标属性、所述第二目标属性、所述对象特征样本集中所述第一目标属性所对应的属性值、所述对象特征样本集中所述第二目标属性所对应的属性值和所述类别标签,对待训练的对象分类模型进行训练;
其中,训练好的对象分类模型,用于对待分类的对象进行分类处理,得到所述待分类的对象所对应的目标类别。
2.根据权利要求1所述的方法,其特征在于,所述对所述对象特征样本集中的特征样本子集进行信息增益处理,得到所述多个对象属性各自对应的信息增益值,包括:
对所述特征样本子集中对应的所述多个对象属性进行对数运算处理,得到所述多个对象属性各自对应的经验熵值;
对所述多个对象属性各自对应的属性值进行条件概率运算处理,得到所述多个对象属性各自对应的条件经验熵值;
将所述多个对象属性各自对应的经验熵值分别与相应的条件经验熵值进行相减,得到所述多个对象属性各自对应的信息增益值。
3.根据权利要求1所述的方法,其特征在于,所述根据所述对象特征样本集对应的协方差矩阵,确定第二目标属性,包括:
根据所述对象特征样本集对应的协方差矩阵,确定所述协方差矩阵对应的特征向量和特征值;
基于所述特征值的大小顺序对所述特征向量进行排序,得到排序后的特征向量;
基于所述排序后的特征向量,确定第二目标属性;
其中,所述第二目标属性是由相应对象属性经过降维处理后生成。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一目标属性、所述第二目标属性、所述对象特征样本集中所述第一目标属性所对应的属性值、所述对象特征样本集中所述第二目标属性所对应的属性值和所述类别标签,对待训练的对象分类模型进行训练,包括:
对所述第一目标属性和所述第二目标属性进行集合运算,得到第三目标属性;
根据所述第三目标属性、所述对象特征样本集中所述第三目标属性所对应的属性值、所述对象特征样本集中所述第三目标属性所对应的属性值和所述类别标签,对待训练的对象分类模型进行训练。
5.根据权利要求4所述的方法,其特征在于,所述第二目标属性是由相应对象属性经过降维处理后生成,所述对所述第一目标属性和所述第二目标属性进行集合运算,得到第三目标属性,包括:
对所述第一目标属性和所述第二目标属性进行并集运算,得到并集目标属性;
将所述并集目标属性与相应属性进行相减运算,得到所述第三目标属性。
6.根据权利要求1至5任意一项所述的方法,其特征在于,所述训练好的对象分类模型,用于对待分类的对象进行分类处理,得到所述待分类的对象所对应的目标类别,包括:
将所述待分类的对象所对应的对象信息输入所述训练好的对象分类模型;
将所述待分类的对象所对应的对象信息进行归一化处理,得到所述待分类的对象所对应的待处理样本集;
将所述待处理样本集绘制在笛卡尔坐标系中,根据所述待处理样本集,在笛卡尔坐标系中确定最大间隔超平面;
根据所述最大间隔超平面,确定所述待处理样本集的类型,若所述待处理样本集为线性可分,则生成线性分类函数;
通过所述线性分类器对所述待处理样本集进行分类处理,得到所述待分类的对象所对应的目标类别。
7.一种对象分类装置,其特征在于,所述装置包括:
获取模块,用于获取对象特征样本集;所述对象特征样本集,包括多个样本对象各自对应的特征样本子集和每个所述特征样本子集各自对应的类别标签;每个所述特征样本子集,包括多个对象属性和所述多个对象属性各自对应的属性值;
信息增益模块,用于对所述对象特征样本集中的特征样本子集进行信息增益处理,得到所述多个对象属性各自对应的信息增益值,并根据所述信息增益值,从所述多个对象属性中筛选出第一目标属性;
降维模块,用于对所述对象特征样本集进行降维处理,得到所述对象特征样本集对应的协方差矩阵,并根据所述对象特征样本集对应的协方差矩阵,确定第二目标属性;
训练模块,用于根据所述第一目标属性、所述第二目标属性、所述对象特征样本集中所述第一目标属性所对应的属性值、所述对象特征样本集中所述第二目标属性所对应的属性值和所述类别标签,对待训练的对象分类模型进行训练;
其中,训练好的对象分类模型,用于对待分类的对象进行分类处理,得到所述待分类的对象所对应的目标类别。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202310930725.XA 2023-07-27 2023-07-27 对象分类方法、装置、计算机设备和存储介质 Pending CN117076977A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310930725.XA CN117076977A (zh) 2023-07-27 2023-07-27 对象分类方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310930725.XA CN117076977A (zh) 2023-07-27 2023-07-27 对象分类方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN117076977A true CN117076977A (zh) 2023-11-17

Family

ID=88708871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310930725.XA Pending CN117076977A (zh) 2023-07-27 2023-07-27 对象分类方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN117076977A (zh)

Similar Documents

Publication Publication Date Title
CN108960833B (zh) 一种基于异构金融特征的异常交易识别方法,设备及存储介质
Zhang et al. Nonnegative Laplacian embedding guided subspace learning for unsupervised feature selection
CN109284371B (zh) 反欺诈方法、电子装置及计算机可读存储介质
CN114119058B (zh) 用户画像模型的构建方法、设备及存储介质
CN112036476A (zh) 基于二分类业务的数据特征选择方法、装置及计算机设备
CN115510981A (zh) 一种决策树模型特征重要性计算方法、装置及存储介质
TAŞCI A meta-ensemble classifier approach: Random rotation forest
CN112069269B (zh) 基于大数据和多维特征的数据溯源方法及大数据云服务器
CN113688906A (zh) 基于量子K-means算法的客户细分方法和系统
CN117076977A (zh) 对象分类方法、装置、计算机设备和存储介质
CN114529136A (zh) 基于主成分分析和Topsis的电子部组件评价方法和装置
CN113553326A (zh) 电子表格数据处理方法、装置、计算机设备和存储介质
CN114281994B (zh) 一种基于三层加权模型的文本聚类集成方法及系统
CN116226260B (zh) 一种大数据决策方法、系统及云端服务中心
Huang et al. Variable selection in classification model via quadratic programming
CN110084303B (zh) 一种基于cnn与rf的老年人平衡能力特征选择方法
CN116468531A (zh) 账户信息处理方法、装置、计算机设备和存储介质
CN117216646A (zh) 分类模型处理方法、装置、计算机设备和存储介质
CN116910604A (zh) 用户分类方法、装置、计算机设备、存储介质和程序产品
CN117370817A (zh) 数据处理方法、装置、设备、介质和程序产品
CN114238763A (zh) 基于金融app的信息推送方法、装置和计算机设备
Guo et al. Feature selection via uncorrelated discriminant sparse regression for multimedia analysis
CN116860972A (zh) 交互信息分类方法、装置、设备、存储介质和程序产品
Wang et al. Adaptive Subspace Clustering with Sparse Constraints
CN116431775A (zh) 意图类别识别模型的确定方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination