CN112801221B - 一种数据分类方法、装置、设备及存储介质 - Google Patents

一种数据分类方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112801221B
CN112801221B CN202110316417.9A CN202110316417A CN112801221B CN 112801221 B CN112801221 B CN 112801221B CN 202110316417 A CN202110316417 A CN 202110316417A CN 112801221 B CN112801221 B CN 112801221B
Authority
CN
China
Prior art keywords
task
mode
data
task data
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110316417.9A
Other languages
English (en)
Other versions
CN112801221A (zh
Inventor
吕根鹏
庄伯金
刘玉宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110316417.9A priority Critical patent/CN112801221B/zh
Publication of CN112801221A publication Critical patent/CN112801221A/zh
Application granted granted Critical
Publication of CN112801221B publication Critical patent/CN112801221B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例涉及人工智能领域,公开了一种数据分类方法、装置、设备及存储介质,该方法包括:提取第一训练样本数据集中每个模态的第一任务数据的第一任务特征;提取第二训练样本数据集中每个第二任务数据的第二任务特征,确定每个第二任务数据的模态;根据与每个第二任务数据的模态对应的第一修改分支的第一权重调整分类特征提取器的第二权重,并确定目标分类特征提取器;将待查询任务数据输入目标分类特征提取器确定待查询任务数据的模态类别,实现了使用一个神经网络模型对多个模态的任务数据进行分类,提高了对各个模态的任务数据进行分类的性能和准确性。本发明涉及区块链技术,如可将任务数据写入区块链中,以用于数据取证等场景。

Description

一种数据分类方法、装置、设备及存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种数据分类方法、装置、设备及存储介质。
背景技术
在解决少样本分类任务时,神经网络学习是目前比较流行的方法,基于神经网络学习的方法,使模型可以从少量训练样本里面学会分类。目前的分类研究中,假设模型遇到的新任务都是单模态的,比如训练任务的类别都是来自于鸟这个大类,需要分的是鸟的子类,比如区分哪些是麻雀、哪些是燕子、哪些是鹦鹉等,举个例子,在模型训练阶段,有大量的训练任务,教会模型如何根据少量的样本就可以区分麻雀和鹦鹉、鸽子和老鹰,在遇到新的任务的时候,模型只要少量的样本就可以学会分别新任务的鸟类,这里的所有类别都是属于鸟类的,所以新任务是单模态的。
然而现实中,任务可能不是要区分单一模态的类别,可能是要区分多个模态的类别,例如,可能是要根据少量样本区分麻雀和鹦鹉,也有可能要区分金毛和拉布拉多,也有可能要区分牡丹花和玫瑰花等等。如果直接将区分狗类的分类任务和区分鸟类的分类任务不加区分地共同训练一个神经网络模型,神经网络模型的分类效果并不理想,如果要区分的模态的数目变多,效果会更差。因此,如何使用一个神经网络模型对多个模态的任务进行分类,同时要保证对各个模态任务的分类性能是非常重要的。
发明内容
本发明实施例提供了一种数据分类方法、装置、设备及存储介质,可以实现使用一个神经网络模型对多个模态的任务数据进行分类,并提高了对各个模态的任务数据进行分类的性能和准确性。
第一方面,本发明实施例提供了一种数据分类方法,所述方法包括:
获取第一训练样本数据集,所述第一训练样本数据集中包括多个模态的第一任务数据;
利用预训练得到的任务特征提取器从所述多个模态的第一任务数据中提取与每个模态的第一任务数据对应的第一任务特征,并基于预设的聚类算法对提取的第一任务特征进行聚类,以及根据聚类结果确定所述每个模态的聚类中心;
获取第二训练样本数据集,所述第二训练样本数据集中包括多个第二任务数据,并利用所述任务特征提取器提取每个第二任务数据对应的第二任务特征,以及根据所述每个第二任务特征和所述每个模态的聚类中心确定所述每个第二任务数据的模态;
根据预设的模态与分支的对应关系,确定与所述每个第二任务数据的模态对应的第一修改分支,并根据每个第一修改分支的第一权重调整预设的分类特征提取器的第二权重,以及基于调整后的第二权重对所述预设的分类特征提取器进行训练,得到目标分类特征提取器;
将所述第二训练样本数据集中每个模态中的各个第二任务数据分别输入所述目标分类特征提取器,得到所述每个模态对应的类别特征;
获取待查询数据集,所述待查询数据集中包括一个或多个待查询任务数据,并将每个待查询任务数据输入所述目标分类特征提取器,得到所述每个待查询任务数据的类别特征,以及根据所述每个待查询任务数据的类别特征与所述每个模态对应的类别特征确定所述每个待查询任务数据的模态类别。
进一步地,所述利用预训练得到的任务特征提取器从所述多个模态的第一任务数据中提取与每个模态的第一任务数据对应的第一任务特征之前,还包括:
采集第三训练样本数据集,所述第三训练样本数据集包括多个第三任务数据,并对每个第三任务数据添加任务特征标签;
将添加任务特征标签的每个第三任务数据输入指定的分类网络模型进行训练,得到预测类别结果;
根据预测类别结果与所述每个第三任务数据的任务特征标签计算第一损失函数,并根据所述第一损失函数调整所述指定的分类网络模型的第三权重,以及基于调整后的第三权重重新训练所述指定的分类网络模型;
当调整所述第三权重后重新训练得到的第一损失函数满足第一预设条件时,确定所述指定的分类网络模型为所述任务特征提取器。
进一步地,所述根据聚类结果确定所述每个模态的聚类中心,包括:
获取所述聚类结果中聚类得到的每个模态中包括的第一任务特征;
计算所述每个模态中各个第一任务特征的平均值,并确定所述每个模态的各个任务特征的平均值为所述每个模态的聚类中心。
进一步地,所述根据所述每个第二任务特征和所述每个模态的聚类中心确定所述每个第二任务数据的模态,包括:
根据所述每个第二任务特征和所述每个模态的聚类中心计算所述每个第二任务特征与所述每个模态的聚类中心的距离;
确定距离最短的模态所述每个第二任务数据的模态。
进一步地,所述基于调整后的第二权重对所述预设的分类特征提取器进行训练,得到目标分类特征提取器,包括:
将所述每个第二任务数据输入调整所述第二权重后的分类特征提取器进行训练,得到预测分类特征;
根据所述预测分类特征和所述第二任务数据中携带的分类特征标签确定第二损失函数;
当所述第二损失函数不满足第二预设条件时,根据所述第二损失函数通过梯度下降优化算法重新调整所述第二权重,并迭代训练所述分类特征提取器;
当所述第二损失函数满足第二预设条件时,确定训练得到目标分类特征器。
进一步地,所述将所述第二训练样本数据集中每个模态中的各个第二任务数据分别输入所述目标分类特征提取器,得到所述每个模态对应的类别特征,包括:
将所述第二训练样本数据集中每个模态中的各个第二任务数据分别输入所述目标分类特征提取器,得到所述每个模态中各个第二任务数据对应的子类别特征;
根据所述每个模态中各个第二任务数据对应的子类别特征计算所述每个模态中各个第二任务数据对应的子类别特征的平均值;
确定所述每个模态中各个第二任务数据对应的子类别特征的平均值为所述每个模态对应的类别特征。
进一步地,所述根据所述每个待查询任务数据的类别特征与所述每个模态对应的类别特征确定所述每个待查询任务数据的模态类别,包括:
将所述每个待查询任务数据的类别特征与所述每个模态的类别特征进行对比;
根据与所述每个待查询任务数据的类别特征相匹配的类别特征确定所述每个待查询任务数据的模态类别。
第二方面,本发明实施例提供了一种数据分类装置,包括:
第一获取单元,用于获取第一训练样本数据集,所述第一训练样本数据集中包括多个模态的第一任务数据;
聚类单元,用于利用预训练得到的任务特征提取器从所述多个模态的第一任务数据中提取与每个模态的第一任务数据对应的第一任务特征,并基于预设的聚类算法对提取的第一任务特征进行聚类,以及根据聚类结果确定所述每个模态的聚类中心;
第二获取单元,用于获取第二训练样本数据集,所述第二训练样本数据集中包括多个第二任务数据,并利用所述任务特征提取器提取每个第二任务数据对应的第二任务特征,以及根据所述每个第二任务特征和所述每个模态的聚类中心确定所述每个第二任务数据的模态;
训练单元,用于根据预设的模态与分支的对应关系,确定与所述每个第二任务数据的模态对应的第一修改分支,并根据每个第一修改分支的第一权重调整预设的分类特征提取器的第二权重,以及基于调整后的第二权重对所述预设的分类特征提取器进行训练,得到目标分类特征提取器;
第一确定单元,用于将所述第二训练样本数据集中每个模态中的各个第二任务数据分别输入所述目标分类特征提取器,得到所述每个模态对应的类别特征;
第二确定单元,用于获取待查询数据集,所述待查询数据集中包括一个或多个待查询任务数据,并将每个待查询任务数据输入所述目标分类特征提取器,得到所述每个待查询任务数据的类别特征,以及根据所述每个待查询任务数据的类别特征与所述每个模态对应的类别特征确定所述每个待查询任务数据的模态类别。
第三方面,本发明实施例提供了一种计算机设备,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储支持数据分类装置执行上述方法的计算机程序,所述计算机程序包括程序,所述处理器被配置用于调用所述程序,执行上述第一方面的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行以实现上述第一方面的方法。
本发明实施例可以利用预训练得到的任务特征提取器从第一训练样本数据集中的多个模态的第一任务数据中提取与每个模态的第一任务数据对应的第一任务特征,并基于预设的聚类算法对提取的第一任务特征进行聚类,以及根据聚类结果确定每个模态的聚类中心,以使得任务特征提取器可以认识第一训练样本数据中不同模态的第一任务数据的第一任务特征,有助于任务特征提取器可以更准确地从第二训练样本数据集的多个第二任务数据中提取对应的第二任务特征,有助于根据每个第二任务特征和每个模态的聚类中心确定每个第二任务数据的模态。进一步可以根据预设的模态与分支的对应关系,确定与每个第二任务数据的模态对应的第一修改分支,并根据每个第一修改分支的第一权重调整预设的分类特征提取器的第二权重,有助于提高对各个模态的任务数据的分类性能,以及基于调整后的第二权重对预设的分类特征提取器进行训练,得到目标分类特征提取器,从而实现利用不同模态的任务数据共同训练得到一个神经网络模型即目标分类特征提取器,有助于提高对各个模态的任务数据的分类的准确性。将第二训练样本数据集中每个模态中的各个第二任务数据分别输入目标分类特征提取器,得到每个模态对应的类别特征;获取待查询数据集,待查询数据集中包括一个或多个待查询任务数据,并将每个待查询任务数据输入目标分类特征提取器,得到每个待查询任务数据的类别特征,以及根据每个待查询任务数据的类别特征与每个模态对应的类别特征确定每个待查询任务数据的模态类别,实现了使用一个神经网络模型对多个模态的任务数据进行分类,提高了对各个模态的任务数据进行分类的性能和准确性。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种数据分类方法的流程示意图;
图2是本发明实施例提供的一种数据分类方法的示意流程图;
图3是本发明实施例提供的一种数据分类装置的示意框图;
图4是本发明实施例提供的一种计算机设备的示意框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的数据分类方法可以应用于一种数据分类装置,在某些实施例中,所述数据分类装置设置于计算机设备中。在某些实施例中,所述计算机设备包括但不限于智能手机、平板电脑、膝上型电脑等中的一种或者多种。
具体可以图1为例,图1是本发明实施例提供的一种数据分类方法的流程示意图。其中包括支持集11、查询集12、任务特征提取器13、分类特征提取器14,其中,支持集11中包括第一训练样本数据集、第二训练样本数据集,查询集12中包括待查询数据集。
本发明实施例可以从支持集11中获取第一训练样本数据集,所述第一训练样本数据集中包括多个模态的第一任务数据;利用预训练得到的任务特征提取器13从所述多个模态的第一任务数据中提取与每个模态的第一任务数据对应的第一任务特征,并基于预设的聚类算法对提取的第一任务特征进行聚类,以及根据聚类结果确定所述每个模态的聚类中心。从支持集11中获取第二训练样本数据集,所述第二训练样本数据集中包括多个第二任务数据,并利用所述任务特征提取器提取每个第二任务数据对应的第二任务特征,以及根据所述每个第二任务特征和所述每个模态的聚类中心确定所述每个第二任务数据的模态,如模态1、模态2、模态3等。根据预设的模态与分支的对应关系,确定与所述每个第二任务数据的模态对应的第一修改分支,并根据每个第一修改分支的第一权重调整预设的分类特征提取器的第二权重,以及基于调整后的第二权重对所述预设的分类特征提取器14进行训练,得到目标分类特征提取器;将所述第二训练样本数据集中每个模态中的各个第二任务数据分别输入所述目标分类特征提取器,得到所述每个模态对应的类别特征。从查询集12中获取待查询数据集,所述待查询数据集中包括一个或多个待查询任务数据,并将每个待查询任务数据输入所述目标分类特征提取器,得到所述每个待查询任务数据的类别特征,以及根据所述每个待查询任务数据的类别特征与所述每个模态对应的类别特征确定所述每个待查询任务数据的模态类别。
在一个实施例中,一个模态对应一个特定的修改分支(即第一修改分支),比如有N个模态,就会有N个修改分支。每一个修改分支是一个修改网络,每一个修改分支对应一个第一权重,每个第一权重包括修改权重和修改偏置,负责修改神经网络里面的分类特征提取器的第二权重。例如,假设确定当前的第二任务数据的模态属于模态1,则可以用模态1对应的修改分支1的第一权重的修改权重和修改偏置修改神经网络里面的分类特征提取器的第二权重。
在一个实施例中,所述支持集11中还可以包括第三训练样本数据集,在利用预训练得到的任务特征提取器从所述多个模态的第一任务数据中提取与每个模态的第一任务数据对应的第一任务特征之前,可以从支持集11中获取第三训练样本数据集,所述第三训练样本数据集包括多个第三任务数据,并对每个第三任务数据添加任务特征标签;将添加任务特征标签的每个第三任务数据输入指定的分类网络模型进行训练,得到预测类别结果;根据预测类别结果与所述每个第三任务数据的任务特征标签计算第一损失函数,并根据所述第一损失函数调整所述指定的分类网络模型的第三权重,以及基于调整后的第三权重重新训练所述指定的分类网络模型;当调整所述第三权重后重新训练得到的第一损失函数满足第一预设条件时,确定所述指定的分类网络模型为所述任务特征提取器。
下面结合附图2对本发明实施例提供的数据分类方法进行示意性说明。
请参见图2,图2是本发明实施例提供的一种数据分类方法的示意流程图,如图2所示,该方法可以由数据分类装置执行,所述数据分类装置设置于计算机设备中。具体地,本发明实施例的所述方法包括如下步骤。
S201:获取第一训练样本数据集,所述第一训练样本数据集中包括多个模态的第一任务数据。
本发明实施例中,数据分类装置可以获取第一训练样本数据集,所述第一训练样本数据集中包括多个模态的第一任务数据。在某些实施例中,一个模态用于指示一种类别的任务数据,所述多个模态可以包括但不限于鸟类、花类、猫类、狗类等不同类别的模态,例如,麻雀和鹦鹉属于鸟类的模态,牡丹花和玫瑰花属于花类的模态等。
在某些实施例中,所述第一任务数据可以包括但不限于图片数据。例如,所述第一训练样本数据集可以包括麻雀和鹦鹉的图片,以及金毛和拉布拉多的图片,以及牡丹花和玫瑰花的图片这3个不同模态的第一任务数据。
S202:利用预训练得到的任务特征提取器从所述多个模态的第一任务数据中提取与每个模态的第一任务数据对应的第一任务特征,并基于预设的聚类算法对提取的第一任务特征进行聚类,以及根据聚类结果确定所述每个模态的聚类中心。
本发明实施例中,数据分类装置可以利用预训练得到的任务特征提取器从所述多个模态的第一任务数据中提取与每个模态的第一任务数据对应的第一任务特征,并基于预设的聚类算法对提取的第一任务特征进行聚类,以及根据聚类结果确定所述每个模态的聚类中心。在某些实施例中,所述预设的聚类算法可以包括但不限于Kmean聚类算法。
在一个实施例中,在基于预设的聚类算法对提取的第一任务特征进行聚类时,可以将相同模态的第一任务特征聚类在一起。
在一个实施例中,数据分类装置在利用预训练得到的任务特征提取器从所述多个模态的第一任务数据中提取与每个模态的第一任务数据对应的第一任务特征之前,可以采集第三训练样本数据集,所述第三训练样本数据集包括多个第三任务数据,并对每个第三任务数据添加任务特征标签;将添加任务特征标签的每个第三任务数据输入指定的分类网络模型进行训练,得到预测类别结果;根据预测类别结果与所述每个第三任务数据的任务特征标签计算第一损失函数,并根据所述第一损失函数调整所述指定的分类网络模型的第三权重,以及基于调整后的第三权重重新训练所述指定的分类网络模型;当调整所述第三权重后重新训练得到的第一损失函数满足第一预设条件时,确定所述指定的分类网络模型为所述任务特征提取器。在某些实施例中,所述指定的分类网络模型为神经网络模型。
通过这种方式预训练得到任务特征提取器,使得任务特征提取器认识所述第三训练样本数据集中不同模态的第三任务数据对应的任务特征,有助于任务特征提取器可以从第一训练样本数据集的多个模态的第一任务数据中分别提取第一任务特征。
在一个实施例中,数据分类装置在根据聚类结果确定所述每个模态的聚类中心时,可以获取所述聚类结果中聚类得到的每个模态中包括的第一任务特征;计算所述每个模态中各个第一任务特征的平均值,并确定所述每个模态的各个任务特征的平均值为所述每个模态的聚类中心。
S203:获取第二训练样本数据集,所述第二训练样本数据集中包括多个第二任务数据,并利用所述任务特征提取器提取每个第二任务数据对应的第二任务特征,以及根据所述每个第二任务特征和所述每个模态的聚类中心确定所述每个第二任务数据的模态。
本发明实施例中,数据分类装置可以获取第二训练样本数据集,所述第二训练样本数据集中包括多个第二任务数据,并利用所述任务特征提取器提取每个第二任务数据对应的第二任务特征,以及根据所述每个第二任务特征和所述每个模态的聚类中心确定所述每个第二任务数据的模态。
在一个实施例中,数据分类装置在根据所述每个第二任务特征和所述每个模态的聚类中心确定所述每个第二任务数据的模态时,可以根据所述每个第二任务特征和所述每个模态的聚类中心计算所述每个第二任务特征与所述每个模态的聚类中心的距离,并确定距离最短的模态所述每个第二任务数据的模态。在某些实施例中,所述每个第二任务特征与所述每个模态的聚类中心的距离可以包括但不限于欧式距离或余弦距离。
例如,以一个第二任务数据为例,可以计算一个第二任务数据的第二任务特征与所述每个模态的聚类中心的距离,如果一个第二任务数据的第二任务特征与模态2的聚类中心的距离最短,则可以确定所述一个第二任务数据的模态为模态2。
S204:根据预设的模态与分支的对应关系,确定与所述每个第二任务数据的模态对应的第一修改分支,并根据每个第一修改分支的第一权重调整预设的分类特征提取器的第二权重,以及基于调整后的第二权重对所述预设的分类特征提取器进行训练,得到目标分类特征提取器。
本发明实施例中,数据分类装置可以根据预设的模态与分支的对应关系,确定与所述每个第二任务数据的模态对应的第一修改分支,并根据每个第一修改分支的第一权重调整预设的分类特征提取器的第二权重,以及基于调整后的第二权重对所述预设的分类特征提取器进行训练,得到目标分类特征提取器。
在一些实施例中,一个模态对应一个第一修改分支,比如有N个模态,就会有N个第一修改分支。每一个第一修改分支是一个修改网络,每一个第一修改分支对应一个第一权重,所述第一权重包括修改权重和修改偏置,用于修改神经网络里面的分类特征提取器的第二权重。
例如,假设当前的第二任务数据对应模态2,模态2对应的第一修改分支为修改分支2,则可以用修改分支2的第一权重中的修改权重和修改偏置修改神经网络里面的分类特征提取器的第二权重。
这种方式可以使得每一个模态的任务数据对应有一个的修改分支修改神经网络里面的分类特征提取器的第二权重,有助于提高对各个模态的任务数据的分类性能。
在一个实施例中,数据分类装置在基于调整后的第二权重对所述预设的分类特征提取器进行训练,得到目标分类特征提取器时,可以将所述每个第二任务数据输入调整所述第二权重后的分类特征提取器进行训练,得到预测分类特征,并根据所述预测分类特征和所述第二任务数据中携带的分类特征标签确定第二损失函数,当所述第二损失函数不满足第二预设条件时,根据所述第二损失函数通过梯度下降优化算法重新调整所述第二权重,并迭代训练所述分类特征提取器,当所述第二损失函数满足第二预设条件时,确定训练得到目标分类特征器。
在一个实施例中,如果第二任务数据的模态为模态1,分类特征提取器的第二权重是一个大小为C*H*W的矩阵A,模态1对应的修改分支1的第一权重是大小为C的矩阵B,修改偏置是大小为C的矩阵T,这里C、H、W都是一个整数,分别代表高、长、宽,则修改后的第二权重可以为如下公式(1)所示。
其中,C代表神经网络的层数,i表示神经网络的层数,C*H*W代表神经网络所有层的矩阵,类似于长方体的高*长*宽,表示通过计算神经网络的每一层的权重得到分类特征提取器的第二权重。Ai表示矩阵A的第i个权重(大小为H*W),Bi表示矩阵B的第i个权重(大小为1)Ti表示矩阵T的第i个权重(大小为1),/>表示训练得到的目标分类特征提取器的第二权重。
S205:将所述第二训练样本数据集中每个模态中的各个第二任务数据分别输入所述目标分类特征提取器,得到所述每个模态对应的类别特征。
本发明实施例中,数据分类装置可以将所述第二训练样本数据集中每个模态中的各个第二任务数据分别输入所述目标分类特征提取器,得到所述每个模态对应的类别特征。
在一个实施例中,数据分类装置在将所述第二训练样本数据集中每个模态中的各个第二任务数据分别输入所述目标分类特征提取器,得到所述每个模态对应的类别特征时,可以将所述第二训练样本数据集中每个模态中的各个第二任务数据分别输入所述目标分类特征提取器,得到所述每个模态中各个第二任务数据对应的子类别特征;根据所述每个模态中各个第二任务数据对应的子类别特征计算所述每个模态中各个第二任务数据对应的子类别特征的平均值;确定所述每个模态中各个第二任务数据对应的子类别特征的平均值为所述每个模态对应的类别特征。
例如,假设将第二训练样本数据集中多个模态中模态1中的各个第二任务数据输入所述目标分类特征提取器,得到所述模态1中的各个第二任务数据对应的子类别特征,并计算模态1中的各个第二任务数据对应的子类别特征的平均值,确定该子类别特征的平均值为所述模态1对应的类别特征。
同理,可以利用上述方法确定出第二训练样本数据集中其他模态的类别特征,此处不再赘述。
S206:获取待查询数据集,所述待查询数据集中包括一个或多个待查询任务数据,并将每个待查询任务数据输入所述目标分类特征提取器,得到所述每个待查询任务数据的类别特征,以及根据所述每个待查询任务数据的类别特征与所述每个模态对应的类别特征确定所述每个待查询任务数据的模态类别。
本发明实施例中,数据分类装置可以获取待查询数据集,所述待查询数据集中包括一个或多个待查询任务数据,并将每个待查询任务数据输入所述目标分类特征提取器,得到所述每个待查询任务数据的类别特征,以及根据所述每个待查询任务数据的类别特征与所述每个模态对应的类别特征确定所述每个待查询任务数据的模态类别。
在一个实施例中,数据分类装置在根据所述每个待查询任务数据的类别特征与所述每个模态对应的类别特征确定所述每个待查询任务数据的模态类别时,可以将所述每个待查询任务数据的类别特征与所述每个模态的类别特征进行对比,并根据与所述每个待查询任务数据的类别特征相匹配的类别特征确定所述每个待查询任务数据的模态类别。
在一个实施例中,在根据与所述每个待查询任务数据的类别特征相匹配的类别特征确定所述每个待查询任务数据的模态类别时,可以计算所述每个待查询任务数据的类别特征与各个模态的类别特征的距离,确定距离最短的模态的类别特征为所述每个待查询任务数据的模态类别。
例如,假设待查询数据集的每一个待查询任务数据为金毛和拉布拉多的图片数据以及牡丹花和玫瑰花的图片数据,则可以将金毛和拉布拉多的图片数据以及牡丹花和玫瑰花的图片数据输入修改后的目标分类特征提取器,得到金毛和拉布拉多的图片数据的类别特征,以及牡丹花和玫瑰花的图片数据的类别特征,计算金毛和拉布拉多的图片数据的类别特征与各个模态的类别特征的距离,如果距离最短为模态2的类别特征,则可以确定出距离最短的模态2对应的狗类为金毛和拉布拉多的图片数据的模态类别;计算牡丹花和玫瑰花的图片数据的类别特征与各个模态的类别特征的距离,如果距离最短为模态1的类别特征,则可以确定出距离最短的模态1对应的花类为牡丹花和玫瑰花的图片数据的模态类别。
本发明实施例中,数据分类装置可以利用预训练得到的任务特征提取器从第一训练样本数据集中的多个模态的第一任务数据中提取与每个模态的第一任务数据对应的第一任务特征,并基于预设的聚类算法对提取的第一任务特征进行聚类,以及根据聚类结果确定每个模态的聚类中心;获取第二训练样本数据集,第二训练样本数据集中包括多个第二任务数据,并利用任务特征提取器提取每个第二任务数据对应的第二任务特征,以及根据每个第二任务特征和每个模态的聚类中心确定每个第二任务数据的模态;根据预设的模态与分支的对应关系,确定与每个第二任务数据的模态对应的第一修改分支,并根据每个第一修改分支的第一权重调整预设的分类特征提取器的第二权重,以及基于调整后的第二权重对预设的分类特征提取器进行训练,得到目标分类特征提取器;将第二训练样本数据集中每个模态中的各个第二任务数据分别输入目标分类特征提取器,得到每个模态对应的类别特征;获取待查询数据集,待查询数据集中包括一个或多个待查询任务数据,并将每个待查询任务数据输入目标分类特征提取器,得到每个待查询任务数据的类别特征,以及根据每个待查询任务数据的类别特征与每个模态对应的类别特征确定每个待查询任务数据的模态类别。通过这种实施方式,可以实现使用一个神经网络模型对多个模态的任务数据进行分类,并提高了对各个模态的任务数据进行分类的性能和准确性。
本发明实施例还提供了一种数据分类装置,该数据分类装置用于执行前述任一项所述的方法的单元。具体地,参见图3,图3是本发明实施例提供的一种数据分类装置的示意框图。本实施例的数据分类装置包括:第一获取单元301、聚类单元302、第二获取单元303、训练单元304、第一确定单元305以及第二确定单元306。
第一获取单元301,用于获取第一训练样本数据集,所述第一训练样本数据集中包括多个模态的第一任务数据;
聚类单元302,用于利用预训练得到的任务特征提取器从所述多个模态的第一任务数据中提取与每个模态的第一任务数据对应的第一任务特征,并基于预设的聚类算法对提取的第一任务特征进行聚类,以及根据聚类结果确定所述每个模态的聚类中心;
第二获取单元303,用于获取第二训练样本数据集,所述第二训练样本数据集中包括多个第二任务数据,并利用所述任务特征提取器提取每个第二任务数据对应的第二任务特征,以及根据所述每个第二任务特征和所述每个模态的聚类中心确定所述每个第二任务数据的模态;
训练单元304,用于根据预设的模态与分支的对应关系,确定与所述每个第二任务数据的模态对应的第一修改分支,并根据每个第一修改分支的第一权重调整预设的分类特征提取器的第二权重,以及基于调整后的第二权重对所述预设的分类特征提取器进行训练,得到目标分类特征提取器;
第一确定单元305,用于将所述第二训练样本数据集中每个模态中的各个第二任务数据分别输入所述目标分类特征提取器,得到所述每个模态对应的类别特征;
第二确定单元306,用于获取待查询数据集,所述待查询数据集中包括一个或多个待查询任务数据,并将每个待查询任务数据输入所述目标分类特征提取器,得到所述每个待查询任务数据的类别特征,以及根据所述每个待查询任务数据的类别特征与所述每个模态对应的类别特征确定所述每个待查询任务数据的模态类别。
进一步地,所述聚类单元302利用预训练得到的任务特征提取器从所述多个模态的第一任务数据中提取与每个模态的第一任务数据对应的第一任务特征之前,还用于:
采集第三训练样本数据集,所述第三训练样本数据集包括多个第三任务数据,并对每个第三任务数据添加任务特征标签;
将添加任务特征标签的每个第三任务数据输入指定的分类网络模型进行训练,得到预测类别结果;
根据预测类别结果与所述每个第三任务数据的任务特征标签计算第一损失函数,并根据所述第一损失函数调整所述指定的分类网络模型的第三权重,以及基于调整后的第三权重重新训练所述指定的分类网络模型;
当调整所述第三权重后重新训练得到的第一损失函数满足第一预设条件时,确定所述指定的分类网络模型为所述任务特征提取器。
进一步地,所述聚类单元302根据聚类结果确定所述每个模态的聚类中心时,具体用于:
获取所述聚类结果中聚类得到的每个模态中包括的第一任务特征;
计算所述每个模态中各个第一任务特征的平均值,并确定所述每个模态的各个任务特征的平均值为所述每个模态的聚类中心。
进一步地,所述第二获取单元303根据所述每个第二任务特征和所述每个模态的聚类中心确定所述每个第二任务数据的模态时,具体用于:
根据所述每个第二任务特征和所述每个模态的聚类中心计算所述每个第二任务特征与所述每个模态的聚类中心的距离;
确定距离最短的模态所述每个第二任务数据的模态。
进一步地,所述训练单元304基于调整后的第二权重对所述预设的分类特征提取器进行训练,得到目标分类特征提取器时,具体用于:
将所述每个第二任务数据输入调整所述第二权重后的分类特征提取器进行训练,得到预测分类特征;
根据所述预测分类特征和所述第二任务数据中携带的分类特征标签确定第二损失函数;
当所述第二损失函数不满足第二预设条件时,根据所述第二损失函数通过梯度下降优化算法重新调整所述第二权重,并迭代训练所述分类特征提取器;
当所述第二损失函数满足第二预设条件时,确定训练得到目标分类特征器。
进一步地,所述第一确定单元305将所述第二训练样本数据集中每个模态中的各个第二任务数据分别输入所述目标分类特征提取器,得到所述每个模态对应的类别特征时,具体用于:
将所述第二训练样本数据集中每个模态中的各个第二任务数据分别输入所述目标分类特征提取器,得到所述每个模态中各个第二任务数据对应的子类别特征;
根据所述每个模态中各个第二任务数据对应的子类别特征计算所述每个模态中各个第二任务数据对应的子类别特征的平均值;
确定所述每个模态中各个第二任务数据对应的子类别特征的平均值为所述每个模态对应的类别特征。
进一步地,所述第二确定单元306根据所述每个待查询任务数据的类别特征与所述每个模态对应的类别特征确定所述每个待查询任务数据的模态类别时,具体用于:
将所述每个待查询任务数据的类别特征与所述每个模态的类别特征进行对比;
根据与所述每个待查询任务数据的类别特征相匹配的类别特征确定所述每个待查询任务数据的模态类别。
本发明实施例中,数据分类装置可以利用预训练得到的任务特征提取器从第一训练样本数据集中的多个模态的第一任务数据中提取与每个模态的第一任务数据对应的第一任务特征,并基于预设的聚类算法对提取的第一任务特征进行聚类,以及根据聚类结果确定每个模态的聚类中心;获取第二训练样本数据集,第二训练样本数据集中包括多个第二任务数据,并利用任务特征提取器提取每个第二任务数据对应的第二任务特征,以及根据每个第二任务特征和每个模态的聚类中心确定每个第二任务数据的模态;根据预设的模态与分支的对应关系,确定与每个第二任务数据的模态对应的第一修改分支,并根据每个第一修改分支的第一权重调整预设的分类特征提取器的第二权重,以及基于调整后的第二权重对预设的分类特征提取器进行训练,得到目标分类特征提取器;将第二训练样本数据集中每个模态中的各个第二任务数据分别输入目标分类特征提取器,得到每个模态对应的类别特征;获取待查询数据集,待查询数据集中包括一个或多个待查询任务数据,并将每个待查询任务数据输入目标分类特征提取器,得到每个待查询任务数据的类别特征,以及根据每个待查询任务数据的类别特征与每个模态对应的类别特征确定每个待查询任务数据的模态类别。通过这种实施方式,可以实现使用一个神经网络模型对多个模态的任务数据进行分类,并提高了对各个模态的任务数据进行分类的性能和准确性。
参见图4,图4是本发明实施例提供的一种计算机设备的示意框图。如图所示的本实施例中的设备可以包括:一个或多个处理器401;一个或多个输入设备402,一个或多个输出设备403和存储器404。上述处理器401、输入设备402、输出设备403和存储器404通过总线405连接。存储器404用于存储计算机程序,所述计算机程序包括程序,处理器401用于执行存储器404存储的程序。其中,处理器401被配置用于调用所述程序执行:
获取第一训练样本数据集,所述第一训练样本数据集中包括多个模态的第一任务数据;
利用预训练得到的任务特征提取器从所述多个模态的第一任务数据中提取与每个模态的第一任务数据对应的第一任务特征,并基于预设的聚类算法对提取的第一任务特征进行聚类,以及根据聚类结果确定所述每个模态的聚类中心;
获取第二训练样本数据集,所述第二训练样本数据集中包括多个第二任务数据,并利用所述任务特征提取器提取每个第二任务数据对应的第二任务特征,以及根据所述每个第二任务特征和所述每个模态的聚类中心确定所述每个第二任务数据的模态;
根据预设的模态与分支的对应关系,确定与所述每个第二任务数据的模态对应的第一修改分支,并根据每个第一修改分支的第一权重调整预设的分类特征提取器的第二权重,以及基于调整后的第二权重对所述预设的分类特征提取器进行训练,得到目标分类特征提取器;
将所述第二训练样本数据集中每个模态中的各个第二任务数据分别输入所述目标分类特征提取器,得到所述每个模态对应的类别特征;
获取待查询数据集,所述待查询数据集中包括一个或多个待查询任务数据,并将每个待查询任务数据输入所述目标分类特征提取器,得到所述每个待查询任务数据的类别特征,以及根据所述每个待查询任务数据的类别特征与所述每个模态对应的类别特征确定所述每个待查询任务数据的模态类别。
进一步地,所述处理器401利用预训练得到的任务特征提取器从所述多个模态的第一任务数据中提取与每个模态的第一任务数据对应的第一任务特征之前,还用于:
采集第三训练样本数据集,所述第三训练样本数据集包括多个第三任务数据,并对每个第三任务数据添加任务特征标签;
将添加任务特征标签的每个第三任务数据输入指定的分类网络模型进行训练,得到预测类别结果;
根据预测类别结果与所述每个第三任务数据的任务特征标签计算第一损失函数,并根据所述第一损失函数调整所述指定的分类网络模型的第三权重,以及基于调整后的第三权重重新训练所述指定的分类网络模型;
当调整所述第三权重后重新训练得到的第一损失函数满足第一预设条件时,确定所述指定的分类网络模型为所述任务特征提取器。
进一步地,所述处理器401根据聚类结果确定所述每个模态的聚类中心时,具体用于:
获取所述聚类结果中聚类得到的每个模态中包括的第一任务特征;
计算所述每个模态中各个第一任务特征的平均值,并确定所述每个模态的各个任务特征的平均值为所述每个模态的聚类中心。
进一步地,所述处理器401根据所述每个第二任务特征和所述每个模态的聚类中心确定所述每个第二任务数据的模态时,具体用于:
根据所述每个第二任务特征和所述每个模态的聚类中心计算所述每个第二任务特征与所述每个模态的聚类中心的距离;
确定距离最短的模态所述每个第二任务数据的模态。
进一步地,所述处理器401基于调整后的第二权重对所述预设的分类特征提取器进行训练,得到目标分类特征提取器时,具体用于:
将所述每个第二任务数据输入调整所述第二权重后的分类特征提取器进行训练,得到预测分类特征;
根据所述预测分类特征和所述第二任务数据中携带的分类特征标签确定第二损失函数;
当所述第二损失函数不满足第二预设条件时,根据所述第二损失函数通过梯度下降优化算法重新调整所述第二权重,并迭代训练所述分类特征提取器;
当所述第二损失函数满足第二预设条件时,确定训练得到目标分类特征器。
进一步地,所述处理器401将所述第二训练样本数据集中每个模态中的各个第二任务数据分别输入所述目标分类特征提取器,得到所述每个模态对应的类别特征时,具体用于:
将所述第二训练样本数据集中每个模态中的各个第二任务数据分别输入所述目标分类特征提取器,得到所述每个模态中各个第二任务数据对应的子类别特征;
根据所述每个模态中各个第二任务数据对应的子类别特征计算所述每个模态中各个第二任务数据对应的子类别特征的平均值;
确定所述每个模态中各个第二任务数据对应的子类别特征的平均值为所述每个模态对应的类别特征。
进一步地,所述处理器401根据所述每个待查询任务数据的类别特征与所述每个模态对应的类别特征确定所述每个待查询任务数据的模态类别时,具体用于:
将所述每个待查询任务数据的类别特征与所述每个模态的类别特征进行对比;
根据与所述每个待查询任务数据的类别特征相匹配的类别特征确定所述每个待查询任务数据的模态类别。
本发明实施例中,计算机设备可以利用预训练得到的任务特征提取器从第一训练样本数据集中的多个模态的第一任务数据中提取与每个模态的第一任务数据对应的第一任务特征,并基于预设的聚类算法对提取的第一任务特征进行聚类,以及根据聚类结果确定每个模态的聚类中心;获取第二训练样本数据集,第二训练样本数据集中包括多个第二任务数据,并利用任务特征提取器提取每个第二任务数据对应的第二任务特征,以及根据每个第二任务特征和每个模态的聚类中心确定每个第二任务数据的模态;根据预设的模态与分支的对应关系,确定与每个第二任务数据的模态对应的第一修改分支,并根据每个第一修改分支的第一权重调整预设的分类特征提取器的第二权重,以及基于调整后的第二权重对预设的分类特征提取器进行训练,得到目标分类特征提取器;将第二训练样本数据集中每个模态中的各个第二任务数据分别输入目标分类特征提取器,得到每个模态对应的类别特征;获取待查询数据集,待查询数据集中包括一个或多个待查询任务数据,并将每个待查询任务数据输入目标分类特征提取器,得到每个待查询任务数据的类别特征,以及根据每个待查询任务数据的类别特征与每个模态对应的类别特征确定每个待查询任务数据的模态类别。通过这种实施方式,可以实现使用一个神经网络模型对多个模态的任务数据进行分类,并提高了对各个模态的任务数据进行分类的性能和准确性。
应当理解,在本发明实施例中,所称处理器401可以是中央处理单元(CenSralProcessing UniS,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigiSalSignal Processor,DSP)、专用集成电路(ApplicaSion Specific InSegraSed CircuiS,ASIC)、现成可编程门阵列(Field-Programmable GaSe Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备402可以包括触控板、麦克风等,输出设备403可以包括显示器(LCD等)、扬声器等。
该存储器404可以包括只读存储器和随机存取存储器,并向处理器401提供指令和数据。存储器404的一部分还可以包括非易失性随机存取存储器。例如,存储器404还可以存储设备类型的信息。
具体实现中,本发明实施例中所描述的处理器401、输入设备402、输出设备403可执行本发明实施例提供的图2所述的方法实施例中所描述的实现方式,也可执行本发明实施例图3所描述的数据分类装置的实现方式,在此不再赘述。
本发明实施例中还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现图2所对应实施例中描述的数据分类方法,也可实现本发明图3所对应实施例的数据分类装置,在此不再赘述。
所述计算机可读存储介质可以是前述任一实施例所述的数据分类装置的内部存储单元,例如数据分类装置的硬盘或内存。所述计算机可读存储介质也可以是所述数据分类装置的外部存储装置,例如所述数据分类装置上配备的插接式硬盘,智能存储卡(SmarSMedia Card,SMC),安全数字(Secure DigiSal,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述数据分类装置的内部存储单元也包括外部存储装置。所述计算机可读存储介质用于存储所述计算机程序以及所述数据分类装置所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。所述的计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
需要强调的是,为进一步保证上述数据的私密和安全性,上述数据还可以存储于一区块链的节点中。其中,本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上所述,仅为本发明的部分实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种数据分类方法,其特征在于,所述方法包括:
获取第一训练样本数据集,所述第一训练样本数据集中包括多个模态的第一任务数据,一个模态用于指示一种类别的任务数据,所述多个模态包括鸟类、花类、猫类、狗类中的多个不同类别的模态,所述第一任务数据包括图片数据;
利用预训练得到的任务特征提取器从所述多个模态的第一任务数据中提取与每个模态的第一任务数据对应的第一任务特征,并基于预设的聚类算法对提取的第一任务特征进行聚类,以及根据聚类结果确定所述每个模态的聚类中心;
获取第二训练样本数据集,所述第二训练样本数据集中包括多个第二任务数据,并利用所述任务特征提取器提取每个第二任务数据对应的第二任务特征,以及根据所述每个第二任务特征和所述每个模态的聚类中心确定所述每个第二任务数据的模态;
根据预设的模态与分支的对应关系,确定与所述每个第二任务数据的模态对应的第一修改分支,并根据每个第一修改分支的第一权重调整预设的分类特征提取器的第二权重,以及基于调整后的第二权重对所述预设的分类特征提取器进行训练,得到目标分类特征提取器;
将所述第二训练样本数据集中每个模态中的各个第二任务数据分别输入所述目标分类特征提取器,得到所述每个模态对应的类别特征;
获取待查询数据集,所述待查询数据集中包括一个或多个待查询任务数据,并将每个待查询任务数据输入所述目标分类特征提取器,得到所述每个待查询任务数据的类别特征,以及根据所述每个待查询任务数据的类别特征与所述每个模态对应的类别特征确定所述每个待查询任务数据的模态类别。
2.根据权利要求1所述的方法,其特征在于,所述利用预训练得到的任务特征提取器从所述多个模态的第一任务数据中提取与每个模态的第一任务数据对应的第一任务特征之前,还包括:
采集第三训练样本数据集,所述第三训练样本数据集包括多个第三任务数据,并对每个第三任务数据添加任务特征标签;
将添加任务特征标签的每个第三任务数据输入指定的分类网络模型进行训练,得到预测类别结果;
根据预测类别结果与所述每个第三任务数据的任务特征标签计算第一损失函数,并根据所述第一损失函数调整所述指定的分类网络模型的第三权重,以及基于调整后的第三权重重新训练所述指定的分类网络模型;
当调整所述第三权重后重新训练得到的第一损失函数满足第一预设条件时,确定所述指定的分类网络模型为所述任务特征提取器。
3.根据权利要求1所述的方法,其特征在于,所述根据聚类结果确定所述每个模态的聚类中心,包括:
获取所述聚类结果中聚类得到的每个模态中包括的第一任务特征;
计算所述每个模态中各个第一任务特征的平均值,并确定所述每个模态的各个任务特征的平均值为所述每个模态的聚类中心。
4.根据权利要求3所述的方法,其特征在于,所述根据所述每个第二任务特征和所述每个模态的聚类中心确定所述每个第二任务数据的模态,包括:
根据所述每个第二任务特征和所述每个模态的聚类中心计算所述每个第二任务特征与所述每个模态的聚类中心的距离;
确定距离最短的模态所述每个第二任务数据的模态。
5.根据权利要求1所述的方法,其特征在于,所述基于调整后的第二权重对所述预设的分类特征提取器进行训练,得到目标分类特征提取器,包括:
将所述每个第二任务数据输入调整所述第二权重后的分类特征提取器进行训练,得到预测分类特征;
根据所述预测分类特征和所述第二任务数据中携带的分类特征标签确定第二损失函数;
当所述第二损失函数不满足第二预设条件时,根据所述第二损失函数通过梯度下降优化算法重新调整所述第二权重,并迭代训练所述分类特征提取器;
当所述第二损失函数满足第二预设条件时,确定训练得到目标分类特征器。
6.根据权利要求5所述的方法,其特征在于,所述将所述第二训练样本数据集中每个模态中的各个第二任务数据分别输入所述目标分类特征提取器,得到所述每个模态对应的类别特征,包括:
将所述第二训练样本数据集中每个模态中的各个第二任务数据分别输入所述目标分类特征提取器,得到所述每个模态中各个第二任务数据对应的子类别特征;
根据所述每个模态中各个第二任务数据对应的子类别特征计算所述每个模态中各个第二任务数据对应的子类别特征的平均值;
确定所述每个模态中各个第二任务数据对应的子类别特征的平均值为所述每个模态对应的类别特征。
7.根据权利要求6所述的方法,其特征在于,所述根据所述每个待查询任务数据的类别特征与所述每个模态对应的类别特征确定所述每个待查询任务数据的模态类别,包括:
将所述每个待查询任务数据的类别特征与所述每个模态的类别特征进行对比;
根据与所述每个待查询任务数据的类别特征相匹配的类别特征确定所述每个待查询任务数据的模态类别。
8.一种数据分类装置,其特征在于,包括:
第一获取单元,用于获取第一训练样本数据集,所述第一训练样本数据集中包括多个模态的第一任务数据,一个模态用于指示一种类别的任务数据,所述多个模态包括鸟类、花类、猫类、狗类中的多个不同类别的模态,所述第一任务数据包括图片数据;
聚类单元,用于利用预训练得到的任务特征提取器从所述多个模态的第一任务数据中提取与每个模态的第一任务数据对应的第一任务特征,并基于预设的聚类算法对提取的第一任务特征进行聚类,以及根据聚类结果确定所述每个模态的聚类中心;
第二获取单元,用于获取第二训练样本数据集,所述第二训练样本数据集中包括多个第二任务数据,并利用所述任务特征提取器提取每个第二任务数据对应的第二任务特征,以及根据所述每个第二任务特征和所述每个模态的聚类中心确定所述每个第二任务数据的模态;
训练单元,用于根据预设的模态与分支的对应关系,确定与所述每个第二任务数据的模态对应的第一修改分支,并根据每个第一修改分支的第一权重调整预设的分类特征提取器的第二权重,以及基于调整后的第二权重对所述预设的分类特征提取器进行训练,得到目标分类特征提取器;
第一确定单元,用于将所述第二训练样本数据集中每个模态中的各个第二任务数据分别输入所述目标分类特征提取器,得到所述每个模态对应的类别特征;
第二确定单元,用于获取待查询数据集,所述待查询数据集中包括一个或多个待查询任务数据,并将每个待查询任务数据输入所述目标分类特征提取器,得到所述每个待查询任务数据的类别特征,以及根据所述每个待查询任务数据的类别特征与所述每个模态对应的类别特征确定所述每个待查询任务数据的模态类别。
9.一种计算机设备,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序,所述处理器被配置用于调用所述程序,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1-7任一项所述的方法。
CN202110316417.9A 2021-03-24 2021-03-24 一种数据分类方法、装置、设备及存储介质 Active CN112801221B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110316417.9A CN112801221B (zh) 2021-03-24 2021-03-24 一种数据分类方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110316417.9A CN112801221B (zh) 2021-03-24 2021-03-24 一种数据分类方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112801221A CN112801221A (zh) 2021-05-14
CN112801221B true CN112801221B (zh) 2023-12-22

Family

ID=75815677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110316417.9A Active CN112801221B (zh) 2021-03-24 2021-03-24 一种数据分类方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112801221B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019127924A1 (zh) * 2017-12-29 2019-07-04 深圳云天励飞技术有限公司 样本权重分配方法、模型训练方法、电子设备及存储介质
CN111062495A (zh) * 2019-11-28 2020-04-24 深圳市华尊科技股份有限公司 机器学习方法及相关装置
CN111382791A (zh) * 2020-03-07 2020-07-07 北京迈格威科技有限公司 深度学习任务处理方法、图像识别任务处理方法和装置
CN111767400A (zh) * 2020-06-30 2020-10-13 平安国际智慧城市科技股份有限公司 文本分类模型的训练方法、装置、计算机设备和存储介质
CN111881968A (zh) * 2020-07-22 2020-11-03 平安科技(深圳)有限公司 多任务分类方法、装置及相关设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3454260A1 (en) * 2017-09-11 2019-03-13 Tata Consultancy Services Limited Bilstm-siamese network based classifier for identifying target class of queries and providing responses thereof

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019127924A1 (zh) * 2017-12-29 2019-07-04 深圳云天励飞技术有限公司 样本权重分配方法、模型训练方法、电子设备及存储介质
CN111062495A (zh) * 2019-11-28 2020-04-24 深圳市华尊科技股份有限公司 机器学习方法及相关装置
CN111382791A (zh) * 2020-03-07 2020-07-07 北京迈格威科技有限公司 深度学习任务处理方法、图像识别任务处理方法和装置
CN111767400A (zh) * 2020-06-30 2020-10-13 平安国际智慧城市科技股份有限公司 文本分类模型的训练方法、装置、计算机设备和存储介质
CN111881968A (zh) * 2020-07-22 2020-11-03 平安科技(深圳)有限公司 多任务分类方法、装置及相关设备

Also Published As

Publication number Publication date
CN112801221A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
Middlehurst et al. Scalable dictionary classifiers for time series classification
CN110163478B (zh) 一种合同条款的风险审查方法及装置
WO2017075939A1 (zh) 一种图像内容识别方法及装置
CN106462807A (zh) 根据大规模非结构化数据学习多媒体语义
CN111178533B (zh) 实现自动半监督机器学习的方法及装置
CN114357117A (zh) 事务信息查询方法、装置、计算机设备及存储介质
CN112132238A (zh) 一种识别隐私数据的方法、装置、设备和可读介质
CN115222443A (zh) 客户群体划分方法、装置、设备及存储介质
Amlekar et al. Plant classification using image processing and neural network
WO2020179378A1 (ja) 情報処理システム、情報処理方法および記録媒体
Zhang et al. Bayesian classification
CN110442674B (zh) 标签传播的聚类方法、终端设备、存储介质及装置
CN112801221B (zh) 一种数据分类方法、装置、设备及存储介质
CN114491134B (zh) 一种商标注册成功率分析方法及系统
Eger et al. Eelection at semeval-2017 task 10: Ensemble of neural learners for keyphrase classification
CN115661472A (zh) 图像查重方法、装置、计算机设备及存储介质
CN112507912B (zh) 一种识别违规图片的方法及装置
Saad et al. Practical aspects of zero-shot learning
Wang Construction of Alumni Information Analysis Model Based on Big Data
Qi et al. Giant panda age recognition based on a facial image deep learning system
Prakash et al. Flower Detection Using Advanced Deep Learning Techniques
Kapoor et al. Bell-Pepper Leaf Bacterial Spot Detection Using AlexNet and VGG-16
Shetty et al. Data Preprocessing and Finding Optimal Value of K for KNN Model
Khosla et al. Integrating randomization and discrimination for classifying human-object interaction activities
Gabryel The bag-of-words methods with pareto-fronts for similar image retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant