CN114120040A - 数据分类方法、装置、电子设备和存储介质 - Google Patents

数据分类方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN114120040A
CN114120040A CN202111427636.0A CN202111427636A CN114120040A CN 114120040 A CN114120040 A CN 114120040A CN 202111427636 A CN202111427636 A CN 202111427636A CN 114120040 A CN114120040 A CN 114120040A
Authority
CN
China
Prior art keywords
data
loss function
processed
adjusted probability
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111427636.0A
Other languages
English (en)
Inventor
彭涵宇
孙明明
李平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111427636.0A priority Critical patent/CN114120040A/zh
Publication of CN114120040A publication Critical patent/CN114120040A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种数据分类方法、装置、电子设备和存储介质,涉及人工智能领域,具体涉及深度学习和大数据技术领域。数据分类方法的具体实现方式包括:将待处理数据输入数据分类模型,得到待处理数据针对预定类别的初始概率数据;根据目标损失函数和初始概率数据,确定待处理数据针对预定类别的调整后概率数据;其中,目标损失函数以待处理数据针对预定类别的调整后概率数据为自变量;以及基于调整后概率数据,确定待处理数据的类别。其中,目标损失函数包括以下约束条件:调整后概率数据的数据分布满足预定分布。

Description

数据分类方法、装置、电子设备和存储介质
技术领域
本公开涉及人工智能领域,具体涉及深度学习和大数据技术领域,更具体地涉及一种数据分类方法、装置、电子设备和存储介质。
背景技术
在分类问题中,存在的基本问题包括长尾(Long-Tail)效应问题。即在数据全集中,少数类别的数据的出现频率明显高于除少数类别外其他类别的数据的出现频率。该问题给分类模型的建模带来了较大的挑战。相关技术中通常采用重加权和重采样的方式来使得模型对出现频率低的数据得到充分学习,以期通过该方式提高模型的泛化能力。
发明内容
提供了一种降低计算资源的消耗和提升分类精度的数据分类方法、装置、电子设备和存储介质。
本公开的一个方面提供了一种数据分类方法,包括:将待处理数据输入数据分类模型,得到待处理数据针对预定类别的初始概率数据;根据目标损失函数和初始概率数据,确定待处理数据针对预定类别的调整后概率数据;其中,目标损失函数以待处理数据针对预定类别的调整后概率数据为自变量;以及基于调整后概率数据,确定待处理数据的类别,其中,目标损失函数包括以下约束条件:调整后概率数据的数据分布满足预定分布。
本公开的另一个方面提供了一种数据分类装置,包括:初始概率获得模块,用于将待处理数据输入数据分类模型,得到待处理数据针对预定类别的初始概率数据;调整后概率确定模块,用于根据目标损失函数和初始概率数据,确定待处理数据针对预定类别的调整后概率数据;其中,目标损失函数以待处理数据针对预定类别的调整后概率数据为自变量;以及类别确定模块,用于基于调整后概率数据,确定待处理数据的类别,其中,目标损失函数包括以下约束条件:调整后概率数据的数据分布满足预定分布。
本公开的另一个方面提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提供的数据分类方法。
根据本公开的另一个方面提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提供的数据分类方法。
根据本公开的另一个方面提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开提供的数据分类方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例的数据分类方法和装置的应用场景示意图;
图2是根据本公开实施例的数据分类方法的流程示意图;
图3是根据本公开实施例的数据分类方法的原理示意图;
图4是根据本公开另一实施例的数据分类方法的原理示意图;
图5是根据本公开实施例的数据分类装置的结构框图;以及
图6是用来实施本公开实施例的数据分类方法的电子设备的结构框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开提供了一种数据分类方法,该方法包括初始概率获得阶段、调整后概率确定阶段和类别确定阶段。在初始概率获得阶段中,将待处理数据输入数据分类模型,得到待处理数据针对预定类别的初始概率数据。在调整后概率确定阶段中,根据目标损失函数和初始概率数据,确定待处理数据针对预定类别的调整后概率数据。其中,目标损失函数以待处理数据针对预定类别的调整后概率数据为自变量,目标损失函数包括以下约束条件:调整后概率数据的数据分布满足预定分布。在类别确定阶段中,基于调整后概率数据,确定待处理数据的类别。
以下将结合图1对本公开提供的方法和装置的应用场景进行描述。
图1是根据本公开实施例的数据分类方法和装置的应用场景图。
如图1所示,该应用场景100中可以包括电子设备110,该电子设备110可以为具有处理功能的任意电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等。
该电子设备110例如可以对输入的图像121、文本122或音频片段123等进行分类,从而得到分类结果130。其中,分类结果130例如可以指示图像121中目标对象的类别(例如病变类别、非病变类别等),文本122的类别(例如体育新闻类别、财经新闻类别等)或音频片段123对应的目标对象的类别(例如老人类别、青年人类别、儿童类别等)等,本公开对此不做限定。
根据本公开的实施例,可以采用数据分类模型来对输入的图像121、文本122或音频片段123等多媒体数据进行分类。该图像121、文本122或音频片段123的类别的分布例如可以预先统计得到。该实施例可以采用数据分类模型对批量的数据进行分类,并根据统计得到的类别的分布来调整数据分类模型得到的批量的数据的分类概率,并根据调整后的分类概率来确定数据的类别。通过该调整,可以使得最终确定的数据类别的分布更为贴合预先统计得到的类别的分布,因此可以在一定程度上提高分类精度。
根据本公开的实施例,还可以采用逻辑调整方法来调整分类概率。该逻辑调整方法是从贝叶斯最优准则中推导出来的。
根据本公开的实施例,如图1所示,该应用场景100还可以包括服务器140。电子设备110可以通过网络与服务器140通信连接,该网络可以包括无线或有线通信链路。
示例性地,服务器140可以用于训练数据分类模型,并响应于电子设备110发送的模型获取请求,将训练得到的数据分类模型150发送给电子设备110,便于电子设备110对输入的图像121、文本122或音频片段123进行分类,并根据预先统计得到的分类的分布对分类结果进行调整。
示例性地,电子设备110还可以通过网络将输入的图像121、文本122或音频片段123等发送给服务器140,由服务器140根据训练得到的数据分类模型150来对图像121、文本122或音频片段123等进行分类。
根据本公开的实施例,如图1所示,该应用场景100还可以包括数据库160,该数据库160可以维护有海量的图像、文本或音频片段。服务器140可以访问该数据库160,并从数据库160中抽取部分图像、文本或音频片段作为样本图像,对数据分类模型进行训练。
需要说明的是,本公开所提供的数据分类方法可以由电子设备110或服务器140执行。相应地,本公开所提供的数据分类装置可以设置于电子设备110或服务器140中。
应该理解,图l中的电子设备、服务器和数据库的数目和类型仅仅是示意性的。根据实现需要,可以具有任意数目和类型的终端设备、服务器和数据库。
以下将结合图2~图4对本公开提供的数据分类方法进行详细描述。
图2是根据本公开实施例的数据分类方法的流程示意图。
根据本公开的实施例,如图2所示,该实施例的数据分类方法200可以包括操作S210~操作S230。
在操作S210,将待处理数据输入数据分类模型,得到待处理数据针对预定类别的初始概率数据。
根据本公开的实施例,数据分类模型例如可以为反向传播神经网络模型,卷积神经网络模型或循环神经网络模型等深度学习模型。其中,根据待处理数据的不同,该数据分类模型可以采用不同的模型。例如,若待处理数据为文本,数据分类模型可以包括TextCNN模型、动态卷积神经网络(Dynamic Convolutional Neural Network,DCNN)模型或循环卷积神经网络(Recurrent Convolutional Neural Network,RCNN)模型等。若待处理数据为图像,数据分类模型可以包括VGG网络系列模型、残差网络(Residual Network,ResNet)系列模型、LeNet系列模型等。若待处理数据为音频片段,数据分类模型可以包括门控训练单元(Gate Recurrent Unit,GRU)模型、时间卷积网络(Time Convolutional Network)模型等。
该实施例可以将待处理数据输入数据分类模型,由数据分类模型输出待处理数据针对预定类别的概率向量,作为初始概率数据。该概率向量中包括待处理数据属于每个预定类别的概率值。在待处理数据为多个的情况下,可以得到多个概率向量,该多个概率向量可以拼接形成概率矩阵,相应地将该概率矩阵作为初始概率数据。
在操作S220,根据目标损失函数和初始概率数据,确定待处理数据针对预定类别的调整后概率数据。
根据本公开的实施例,目标损失函数以调整后概率数据为自变量,且可以与初始概率数据相关。例如,该目标损失函数可以由初始概率数据与调整后概率数据之间的差值来表示。该目标损失函数还可以包括约束条件,该约束条件可以为调整后概率数据的数据分布满足预定分布。该操作S220可以在该约束条件下,求解目标损失函数取最小值时调整后概率数据的取值,从而得到调整后概率数据。其中,初始概率数据与调整后概率数据之间的差值例如可以采用初始概率数据与调整后概率数据之间的相似度的负数来表示,从而可以通过最小化目标损失函数来求解调整后概率数据。
根据本公开的实施例,预定分布可以为通过统计待处理数据所在领域中,与待处理数据类似的大量数据的分类分布确定得到的。例如,该大量数据可以包括训练数据分类模型的训练集中的数据,或者可以包括测试数据分类模型的测试集中的数据。
例如,大量数据可以包括某电商电子商城中多个类别的商品的销量数据,或者可以包括某医疗机构采集的多张人体部位的检测图像等。预定分布例如可以为均匀分布、伯努利分布、泊松分布、指数分布等。在一实施例中,大量数据可以包括类别均匀分布的测试集的数据,相应地预定分布即为均匀分布。
该实施例中的待处理数据可以为多个数据,以此使得调整后概率数据的数据分布更为准确地满足预定分布。并因此可以在一定程度上提高得到的待处理数据类别的精度。
可以理解的是,调整后概率数据与初始概率数据类似,可以表征待处理数据属于预定类别的调整后概率值。
在操作S230,基于调整后概率数据,确定待处理数据的类别。
该实施例可以根据调整后概率数据来确定待处理数据的类别。调整后概率数据的数据量与初始概率数据的数据量相同。该实施例可以将调整后概率数据中,与每个待处理数据对应的概率数据中最大概率值对应的预定类别作为该每个待处理数据的类别。例如,调整后概率数据中,与每个待处理数据对应的概率数据为一个概率向量。该概率向量的维度与预定类别的个数相同,该概率向量中的每个元素对应一个预定类别。该实施例可以将该概率向量中最大元素对应的预定类别作为该每个待处理数据的类别。
由于调整后概率数据的数据分布满足预定分布,则该实施例根据该调整后概率数据确定的类别可以更为贴合实际需求,并因此可以提高对数据进行分类的精度。
根据本公开的实施例,对于存在长尾效应的领域,通常少数类别的数据的出现频率要高于除该少数类别外其他类别的数据的出现概率。若从该领域中随机抽取一部分数据用来训练数据分类模型,可能会导致数据分类模型无法准确地学习到其他类别的数据的特征,并因此无法对其他类别的数据进行准确分类。为了提高数据分类模型的精度,通常需要获取该领域中生成的大量数据,以为出现概率低的类别采集到较多数据,或者通过重加权的方式来在分类错误时,为出现概率低的类别的数据分配更大的的惩罚。该些方法都是对数据分类模型训练过程的改进,存在训练难度大,资源消耗多,模型精度无法把控的问题。而本公开实施例中,通过以预定分布作为约束条件,来根据目标损失函数调整数据分类模型输出的初始概率数据,并根据调整后的概率数据来确定待处理数据的类别,可以使得确定的数据类别的分布更为符合各领域中数据的分布,相较于相关技术,可以降低对模型精度的要求,降低计算资源的消耗,并保证分类结果的精度较高。
可以理解的是,也可以采用前文描述的逻辑调整方法来对初始概率数据进行调整,但该方法与本公开实施例的方法相比,无法保证调整后概率数据的分布能够满足期望的分布(即预定分布)。
根据本公开的实施例,前文描述的目标损失函数例如还可以包括以下约束条件:调整后概率数据的数据之和为预定值。例如,对于每个待处理数据,经由数据分类模型输出的初始概率数据为一个概率向量,该概率向量中所有概率值的和应为1,相应地,调整后概率数据中与该每个待处理数据对应的概率向量中所有概率值的和也应为1。若待处理数据为N个,则可以限定调整后概率数据的数据之和的预定值为N。
根据本公开的实施例,在待处理数据为N个,且预定类别个数为C个时,得到的调整后概率数据例如可以是尺寸为N×C的概率矩阵。对于该概率矩阵中每一行的C个元素,可以限定该C个元素的和为1。例如,设定调整后概率数据为Y,则调整后概率数据Y的数据之和为预定值的约束条件可以采用以下公式(1)表示:
Y{1}C={1}N。 公式(1)
其中,{1}C表示包括C个元素、且该C个元素的取值均为1的列向量。{1}N表示包括N个元素、且该N个元素的取值均为1的列向量。
通过上述公式(1)描述的约束条件,可以保证调整后概率数据的合理性。
图3是根据本公开实施例的数据分类方法的原理示意图。
根据本公开的实施例,可以在目标损失函数中添加熵正则项,以使得求解目标损失函数的问题转换为凸优化问题,便于得到全局唯一解,同时降低求解目标损失函数的复杂度。
例如,在一实施例中,目标损失函数可以包括两项,一项表示初始概率数据与调整后概率数据之间的距离,另一项为熵正则项。
例如,如图3所示,该实施例的数据分类方法300可以设定待处理数据为N个。该实施例可以先将N个待处理数据(例如待处理数据311~待处理数据313)按序依次输入数据分类模型320,经由数据分类模型320对该N个待处理数据处理后,可以得到初始概率数据330,该初始概率数据330可以是尺寸为N×C的矩阵。
在得到初始概率数据330后,可以以调整后概率数据为自变量,得到表示初始概率数据330与调整后概率数据之间的距离340的数据项。该数据项例如可以表示为
Figure BDA0003376395890000081
其中,Y为调整后概率数据,
Figure BDA0003376395890000082
为初始概率数据。f()函数例如可以包括内积函数、L1距离函数、L2距离函数或KL(Kullback-Leibler)散度函数等。需要说明的是,若f()函数包括内积函数,则f()实质上为内积函数的负数,这是因为内积函数通常表示两个数据之间的相似度。
根据本公开的实施例,熵正则项例如可以采用Y log Y来表示,也可以采用任意地可以表示熵正则项的数据项表示,本公开对此不做限定。
例如,在一实施例中,目标损失函数可以采用以下公式(2)表示:
Figure BDA0003376395890000083
其中,可以设定Y与
Figure BDA0003376395890000084
均为行数为N的矩阵数据,α为超参。在Y为概率矩阵的情况下,∑αY log Y表示将αY log Y得到的矩阵中各元素的取值相加。该目标损失函数的约束条件可以包括以下公式(3):
{Y}T{1}N=μ。 公式(3)
其中,{Y}T表示Y的转置矩阵,μ为预定分布。
在一实施例中,该目标损失函数的约束条件例如还可以包括前文描述的公式(1),在此不再赘述。
在一实施例中,
Figure BDA0003376395890000085
例如可以表示为
Figure BDA0003376395890000086
其中,
Figure BDA0003376395890000087
表示Y与
Figure BDA0003376395890000088
之间的内积,
Figure BDA0003376395890000089
表示将Y与
Figure BDA00033763958900000810
点乘得到的矩阵中各元素相加。可以理解的是,该
Figure BDA00033763958900000811
的表示仅作为示例以利于理解本公开,本公开对此不做限定。
在得到目标损失函数350和初始概率数据330后,即可通过最小化目标损失函数350,来求解得到目标损失函数350中调整后概率数据的取值,从而得到调整后概率数据360,该调整后概率数据360的尺寸与初始概率数据的尺寸相同,均为N×C的矩阵。随后,即可根据该调整后概率数据360,来确定N个待处理数据中每个待处理数据的数据类别370。
根据本公开的实施例,例如可以采用Sinkhorn算法来最小化前文描述的公式(2)中的目标损失函数。该Sinkhorn算法常用于具有熵约束的最优传输(Optimal Transport,OT)问题。可以理解的是,前文描述的具有公式(1)和公式(3)表示的约束条件的目标损失函数实质上为一种最优传输函数。
图4是根据本公开另一实施例的数据分类方法的原理示意图。
根据本公开的实施例,在对初始概率数据进行调整时,例如还可以考虑多个待处理数据中数据的关联性。例如,对于两个具有关联的待处理数据,在初始概率数据中对应该两个待处理数据的概率值之间的距离应与调整后概率数据中对应该两个待处理数据的概率值之间的距离相近。这是由于有关联的待处理数据通常属于相同或相近的类别。通过考虑该关联性,可以进一步提高调整得到的调整后概率数据的精度,并因此可以提高数据的分类精度。
基于此,若待处理数据包括多个数据,则该实施例在调整该初始概率数据时,还可以为目标损失函数添加表征多个数据之间的关联关系的数据项。
例如,如图4所示,该实施例的数据分类方法400中,设定待处理数据包括待处理数据411~待处理数据413共计N个数据。该方法400可以先针对N个数据中的每个数据,确定N个数据中针对该每个数据的近邻数据,从而得到近邻数据421~近邻数据423。其中,每个近邻数据例如可以为一个数据组。例如,近邻数据421为由针对待处理数据411的至少一个近邻数据构成的数据组。
根据本公开的实施例,可以采用K近邻算法来从N个数据中搜索每个数据的近邻数据。可以理解的是,上述K近邻算法仅作为示例以利于理解本公开,本公开对此不做限定。
在得到针对每个数据的近邻数据后,可以根据每个数据与近邻数据之间的近邻关系,来确定针对多个数据的数据关联信息。该数据关联信息可以指示每个数据与针对其的近邻数据之间具有关联关系。例如,该数据关联信息可以采用图4中的近邻图430来表示数据关联信息。
其中,该近邻图430中,可以包括多个节点及连接节点的边。其中,多个节点中的每个节点为N个数据中的一个数据,连接两个节点的边表示两个节点的数据之间具有近邻关系。即该两个节点的数据中,其中一个数据为针对另一个数据的近邻数据。
该实施例可以基于该数据关联信息来确定与调整后概率数据关联的正则项440。其中,该正则项440可以指示数据关联信息。
例如,可以采用以下公式(4)表示正则项440:
Figure BDA0003376395890000101
其中,K为每个数据的近邻数据的个数,
Figure BDA0003376395890000102
表示
Figure BDA0003376395890000103
Figure BDA0003376395890000104
之间的L2距离的平方。其中,
Figure BDA0003376395890000105
表示多个待处理数据中第m个待处理数据xm经由数据分类模型提取得到的特征值,
Figure BDA0003376395890000106
表示多个待处理数据中第n个待处理数据xn经由数据分类模型提取得到的特征值。其中,经由数据分类模型提取得到的特征值可以为数据分类模型中逻辑回归处理的输入值。
Figure BDA0003376395890000107
表示P(yn|xn)与P(ym|xm)之间的L2距离的平方。P(yn|xn)表示针对数据xn的调整后概率数据,P(ym|xm)表示针对数据xm的调整后概率数据。
设定P(y|x)的L2范数的取值近似于P(y|x)的L1范数的取值,则
Figure BDA0003376395890000108
Figure BDA0003376395890000109
的取值可以近似为1。相应地,上述公式(4)可以被简化为以下公式(5):
Figure BDA00033763958900001010
其中,
Figure BDA00033763958900001011
表示
Figure BDA00033763958900001012
矩阵的迹,即
Figure BDA00033763958900001013
矩阵中主对角线上各个元素的总和。
Figure BDA00033763958900001014
表示前述近邻图的拉普拉斯矩阵,即指示数据关联信息的拉普拉斯矩阵。其中,
Figure BDA00033763958900001015
为近邻图的每个节点的度组成的矩阵,该矩阵中,对角线上的值为一个节点的度,其余值为0。
Figure BDA00033763958900001016
是邻接矩阵,以近邻图为无向图为例,若两个节点相接,则邻接矩阵中对应该两个节点关联关系的值就为1,否则为0。
如图4所示,该实施例的数据分类方法400在得到正则项440的同时,可以将待处理数据411~待处理数据413按序输入数据分类模型450,经由数据分类模型450对该N个待处理数据处理后,可以得到初始概率数据460,该初始概率数据460可以是尺寸为N×C的矩阵。
在得到正则项440和初始概率数据460后,可以先采用前文描述的类似方法得到表示初始概率数据460与调整后概率数据之间的距离的数据项,并在前述实施例描述的目标损失函数中添加该正则项440,得到该实施例的目标损失函数470。例如,该目标损失函数470可以采用以下公式(6)表示:
Figure BDA0003376395890000111
其中,β为超参,可以根据实际需求进行设定,本公开对此不做限定。可以理解的是,上述目标损失函数及正则项的表示仅作为示例以利于理解本公开,本公开对此不做限定。
Figure BDA0003376395890000112
为前文描述的
Figure BDA0003376395890000113
时,上述公式(6)即可转换为由以下公式(7)表示:
Figure BDA0003376395890000114
可以理解的是,公式(6)和/或公式(7)表示的目标损失函数可以具有前文公式(1)和/或公式(2)表示的约束条件,在此不再赘述。
在得到目标损失函数470和初始概率数据460后,即可通过最小化目标损失函数470,来求解得到目标损失函数470中调整后概率数据的取值,从而得到调整后概率数据480,该调整后概率数据480的尺寸与初始概率数据的尺寸相同,均为N×C的矩阵。随后,即可根据该调整后概率数据480,来确定N个待处理数据中每个待处理数据的数据类别490。
根据本公开的实施例,可以采用广义条件梯度算法(Generalized ConditionalGradient,GCG)来最小化目标损失函数。该广义条件梯度算法的算法流程可以包括:
步骤1,随机选择一个概率数据Y0∈H,使得
Figure BDA0003376395890000115
将Y0作为调整后概率数据的初始值。其中,H为希尔伯特空间的非空集。同时,设定函数
Figure BDA0003376395890000116
步骤2,将计数器t的初始值设为0,寻找以下公式(8)的可行解:
Figure BDA0003376395890000117
其中,Y*为最小化F(Y)得到的Y的取值。该可行解例如可以采用前文描述的Sinkhorn算法计算得到。
步骤3,可以采用以下公式(9)确定一个合适的步长st
Figure BDA0003376395890000118
其中,Yt-1为上一循环中得到的调整后概率数据,s(Y*-Yt-1)即为与(Y*-Yt-1)相关的步长的函数。
步骤4,设置Yt=Yt-1+s(Y*-Yt-1),并设置t=t+1,返回执行步骤2,直至根据Yt得到的目标损失函数的取值与根据Yt-1得到的目标损失函数的取值之间的差值小于预定值。该预定值可以根据实际需求进行设定,本公开对此不做限定。
可以理解的是,上述采用广义条件梯度算法最小化目标损失函数的方法仅作为示例以利于理解本公开,本公开对此不做限定。
基于本公开提供的数据分类方法,本公开还提供了一种数据分类装置。以下将结合图5对该装置进行详细描述。
图5是根据本公开实施例的数据分类装置的结构框图。
如图5所示,该实施例的数据分类装置500可以包括初始概率获得模块510、调整后概率确定模块520和类别确定模块530。
初始概率获得模块510用于将待处理数据输入数据分类模型,得到待处理数据针对预定类别的初始概率数据。在一实施例中,初始概率获得模块510可以用于执行前文描述的操作S210,在此不再赘述。
调整后概率确定模块520用于根据目标损失函数和初始概率数据,确定待处理数据针对预定类别的调整后概率数据。其中,目标损失函数以待处理数据针对预定类别的调整后概率数据为自变量。其中,目标损失函数包括以下约束条件:调整后概率数据的数据分布满足预定分布。在一实施例中,调整后概率确定模块520可以用于执行前文描述的操作S220,在此不再赘述。
类别确定模块530用于基于调整后概率数据,确定待处理数据的类别。在一实施例中,类别确定模块530可以用于执行前文描述的操作S230,在此不再赘述。
根据本公开的实施例,目标损失函数还包括以下约束条件:调整后概率数据的数据之和为预定值。
根据本公开的实施例,上述目标损失函数采用以下公式表示:
Figure BDA0003376395890000121
该目标损失函数的约束条件包括:
{Y}T{1}N=μ。
其中,
Figure BDA0003376395890000122
表示Y与
Figure BDA0003376395890000123
之间的距离,Y为调整后概率数据,
Figure BDA0003376395890000124
为初始概率数据,Y与
Figure BDA0003376395890000131
均为行数为N的矩阵数据;α为超参;{1}N表示包括N个元素、且该N个元素的取值均为1的列向量,μ为预定分布。
根据本公开的实施例,上述调整后概率确定模块520用于:采用Sinkhorn算法最小化目标损失函数,得到调整后概率数据。
根据本公开的实施例,上述待处理数据包括多个数据,上述数据分类装置500还可以包括近邻数据确定模块、关联信息确定模块和正则项确定模块。近邻数据确定模块用于针对多个数据中的每个数据,确定多个数据中针对每个数据的近邻数据。关联信息确定模块用于基于针对每个数据的近邻数据,确定针对多个数据的数据关联信息。正则项确定模块用于基于数据关联信息,确定与调整后概率数据关联的正则项。其中,正则项指示数据关联信息,且目标损失函数包括正则项。
根据本公开的实施例,上述目标损失函数采用以下公式表示:
Figure BDA0003376395890000132
其中,目标损失函数的约束条件包括:
{Y}T{1}N=μ。
其中,
Figure BDA0003376395890000133
表示Y与
Figure BDA0003376395890000134
之间的距离,Y为调整后概率数据,
Figure BDA0003376395890000135
为初始概率数据,Y与
Figure BDA0003376395890000136
均为行数为N的矩阵数据,α、β为超参,
Figure BDA0003376395890000137
为正则项;
Figure BDA0003376395890000138
为指示数据关联信息的拉普拉斯矩阵;{1}N表示包括N个元素、且该N个元素的取值均为1的列向量,μ为预定分布。
根据本公开的实施例,上述调整后概率确定模块520具体用于:采用广义条件梯度算法最小化目标损失函数,得到调整后概率数据。
需要说明的是,本公开的技术方案中,所涉及的用户个人信息的获取、收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图6示出了可以用来实施本公开实施例的数据分类方法的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如数据分类方法。例如,在一些实施例中,数据分类方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的数据分类方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据分类方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中,服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(″Virtual Private Server″,或简称″VPS″)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (17)

1.一种数据分类方法,包括:
将待处理数据输入数据分类模型,得到所述待处理数据针对预定类别的初始概率数据;
根据目标损失函数和所述初始概率数据,确定待处理数据针对所述预定类别的调整后概率数据;其中,所述目标损失函数以所述待处理数据针对所述预定类别的调整后概率数据为自变量;以及
基于所述调整后概率数据,确定所述待处理数据的类别,
其中,所述目标损失函数包括以下约束条件:所述调整后概率数据的数据分布满足预定分布。
2.根据权利要求1所述的方法,其中,所述目标损失函数还包括以下约束条件:
所述调整后概率数据的数据之和为预定值。
3.根据权利要求1或2所述的方法,其中,所述目标损失函数采用以下公式表示:
Figure FDA0003376395880000011
所述目标损失函数的约束条件包括:
{Y}T{1}N=μ;
其中,
Figure FDA0003376395880000012
表示Y与
Figure FDA0003376395880000013
之间的距离,Y为所述调整后概率数据,
Figure FDA0003376395880000014
为所述初始概率数据,Y与
Figure FDA0003376395880000015
均为行数为N的矩阵数据;α为超参;{1}N表示包括N个元素、且该N个元素的取值均为1的列向量,μ为所述预定分布。
4.根据权利要求3所述的方法,其中,根据目标损失函数和所述初始概率数据,确定待处理数据针对所述预定类别的调整后概率数据包括:
采用Sinkhorn算法最小化所述目标损失函数,得到所述调整后概率数据。
5.根据权利要求1或2所述的方法,其中,所述待处理数据包括多个数据;所述方法还包括:
针对所述多个数据中的每个数据,确定所述多个数据中针对所述每个数据的近邻数据;
基于针对所述每个数据的近邻数据,确定针对所述多个数据的数据关联信息;以及
基于所述数据关联信息,确定与所述调整后概率数据关联的正则项,
其中,所述正则项指示所述数据关联信息,且所述目标损失函数包括所述正则项。
6.根据权利要求5所述的方法,其中,所述目标损失函数采用以下公式表示:
Figure FDA0003376395880000021
所述目标损失函数的约束条件包括:
{Y}T{1}N=μ;
其中,
Figure FDA0003376395880000022
表示Y与
Figure FDA0003376395880000023
之间的距离,Y为所述调整后概率数据,
Figure FDA0003376395880000024
为所述初始概率数据,Y与
Figure FDA0003376395880000025
均为行数为N的矩阵数据,α、β为超参,
Figure FDA0003376395880000026
为所述正则项;
Figure FDA0003376395880000027
为指示所述数据关联信息的拉普拉斯矩阵;{1}N表示包括N个元素、且该N个元素的取值均为1的列向量,μ为所述预定分布。
7.根据权利要求5所述的方法,其中,根据目标损失函数和所述初始概率数据,确定待处理数据针对所述预定类别的调整后概率数据包括:
采用广义条件梯度算法最小化所述目标损失函数,得到所述调整后概率数据。
8.一种数据分类装置,包括:
初始概率获得模块,用于将待处理数据输入数据分类模型,得到所述待处理数据针对预定类别的初始概率数据;
调整后概率确定模块,用于根据目标损失函数和所述初始概率数据,确定待处理数据针对所述预定类别的调整后概率数据;其中,所述目标损失函数以所述待处理数据针对所述预定类别的调整后概率数据为自变量;以及
类别确定模块,用于基于所述调整后概率数据,确定所述待处理数据的类别,
其中,所述目标损失函数包括以下约束条件:所述调整后概率数据的数据分布满足预定分布。
9.根据权利要求8所述的装置,其中,所述目标损失函数还包括以下约束条件:
所述调整后概率数据的数据之和为预定值。
10.根据权利要求8或9所述的装置,其中,所述目标损失函数采用以下公式表示:
Figure FDA0003376395880000031
所述目标损失函数的约束条件包括:
{Y}T{1}N=μ;
其中,
Figure FDA0003376395880000032
表示Y与
Figure FDA0003376395880000033
之间的距离,Y为所述调整后概率数据,
Figure FDA0003376395880000034
为所述初始概率数据,Y与
Figure FDA0003376395880000035
均为行数为N的矩阵数据;α为超参;{1}N表示包括N个元素、且该N个元素的取值均为1的列向量,μ为所述预定分布。
11.根据权利要求10所述的装置,其中,所述调整后概率确定模块用于:
采用Sinkhorn算法最小化所述目标损失函数,得到所述调整后概率数据。
12.根据权利要求8或9所述的装置,其中,所述待处理数据包括多个数据;所述装置还包括:
近邻数据确定模块,用于针对所述多个数据中的每个数据,确定所述多个数据中针对所述每个数据的近邻数据;
关联信息确定模块,用于基于针对所述每个数据的近邻数据,确定针对所述多个数据的数据关联信息;以及
正则项确定模块,用于基于所述数据关联信息,确定与所述调整后概率数据关联的正则项,
其中,所述正则项指示所述数据关联信息,且所述目标损失函数包括所述正则项。
13.根据权利要求12所述的装置,其中,所述目标损失函数采用以下公式表示:
Figure FDA0003376395880000036
所述目标损失函数的约束条件包括:
{Y}T{1}N=μ;
其中,
Figure FDA0003376395880000037
表示Y与
Figure FDA0003376395880000038
之间的距离,Y为所述调整后概率数据,
Figure FDA0003376395880000039
为所述初始概率数据,Y与
Figure FDA0003376395880000041
均为行数为N的矩阵数据,α、β为超参,
Figure FDA0003376395880000042
为所述正则项;
Figure FDA0003376395880000043
为指示所述数据关联信息的拉普拉斯矩阵;{1}N表示包括N个元素、且该N个元素的取值均为1的列向量,μ为所述预定分布。
14.根据权利要求12所述的装置,其中,所述调整后概率确定模块用于:
采用广义条件梯度算法最小化所述目标损失函数,得到所述调整后概率数据。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1~7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1~7中任一项所述的方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1~7中任一项所述的方法。
CN202111427636.0A 2021-11-26 2021-11-26 数据分类方法、装置、电子设备和存储介质 Pending CN114120040A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111427636.0A CN114120040A (zh) 2021-11-26 2021-11-26 数据分类方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111427636.0A CN114120040A (zh) 2021-11-26 2021-11-26 数据分类方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN114120040A true CN114120040A (zh) 2022-03-01

Family

ID=80370560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111427636.0A Pending CN114120040A (zh) 2021-11-26 2021-11-26 数据分类方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN114120040A (zh)

Similar Documents

Publication Publication Date Title
US11995702B2 (en) Item recommendations using convolutions on weighted graphs
US11093854B2 (en) Emoji recommendation method and device thereof
Zhang et al. Two feature weighting approaches for naive Bayes text classifiers
WO2020125445A1 (zh) 分类模型训练方法、分类方法、设备及介质
CN105022754B (zh) 基于社交网络的对象分类方法及装置
US20170344884A1 (en) Semantic class localization in images
CN108519971B (zh) 一种基于平行语料库的跨语种新闻主题相似性对比方法
US20200342523A1 (en) Link prediction using hebbian graph embeddings
CN116010684A (zh) 物品推荐方法、装置及存储介质
CN112131322B (zh) 时间序列分类方法及装置
US10417578B2 (en) Method and system for predicting requirements of a user for resources over a computer network
CN112507098B (zh) 问题处理方法、装置、电子设备、存储介质及程序产品
CN111223128A (zh) 目标跟踪方法、装置、设备及存储介质
Hu et al. Predicting the quality of online health expert question-answering services with temporal features in a deep learning framework
CN111225009B (zh) 用于生成信息的方法和装置
CN113392920B (zh) 生成作弊预测模型的方法、装置、设备、介质及程序产品
US20220374682A1 (en) Supporting Database Constraints in Synthetic Data Generation Based on Generative Adversarial Networks
CN115248890B (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
CN114238611B (zh) 用于输出信息的方法、装置、设备以及存储介质
US10650335B2 (en) Worker group identification
CN113822390B (zh) 用户画像构建方法、装置、电子设备和存储介质
CN114120040A (zh) 数据分类方法、装置、电子设备和存储介质
CN116029760A (zh) 消息推送方法、装置、计算机设备和存储介质
CN114610953A (zh) 一种数据分类方法、装置、设备及存储介质
Raykar et al. An entropic score to rank annotators for crowdsourced labeling tasks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination