CN116958622A - 数据的分类方法、装置、设备、介质及程序产品 - Google Patents
数据的分类方法、装置、设备、介质及程序产品 Download PDFInfo
- Publication number
- CN116958622A CN116958622A CN202211635303.1A CN202211635303A CN116958622A CN 116958622 A CN116958622 A CN 116958622A CN 202211635303 A CN202211635303 A CN 202211635303A CN 116958622 A CN116958622 A CN 116958622A
- Authority
- CN
- China
- Prior art keywords
- data
- training
- target
- classified
- classification result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000012549 training Methods 0.000 claims abstract description 449
- 230000004927 fusion Effects 0.000 claims abstract description 88
- 238000009826 distribution Methods 0.000 claims abstract description 84
- 238000013145 classification model Methods 0.000 claims abstract description 52
- 238000003860 storage Methods 0.000 claims description 29
- 230000004044 response Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 8
- 230000004931 aggregating effect Effects 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 12
- 238000012360 testing method Methods 0.000 description 56
- 238000005516 engineering process Methods 0.000 description 25
- 230000008569 process Effects 0.000 description 23
- 230000007246 mechanism Effects 0.000 description 15
- 238000000605 extraction Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 5
- 238000013508 migration Methods 0.000 description 5
- 230000005012 migration Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 241000700605 Viruses Species 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000007499 fusion processing Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 208000035977 Rare disease Diseases 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据的分类方法、装置、设备、介质及程序产品,涉及人工智能领域。该方法包括:获取待分类数据、多个训练样本数据以及通过多个训练样本数据训练训练得到的目标分类模型;将待分类数据输入目标分类模型中进行分类预测,输出得到待分类数据对应的第一分类结果;基于多个训练样本数据中各训练样本数据之间的组合结果,得到多个训练数据组训练数据组对应有第二标签;基于多个训练数据组中与待分类数据关联的至少一个目标训练数据组的第二标签,得到待分类数据对应的第二分类结果;基于第一分类结果和第二分类结果的融合情况,得到待分类数据对应的目标分类结果。该方法提升了模型在对属于不同分布的数据进行预测时的预测准确度。
Description
技术领域
本申请涉及人工智能领域,特别涉及一种数据的分类方法、装置、设备、介质及程序产品。
背景技术
将深度神经网络模型(Deep neural network,DNN)应用在大部分业务场景通常遵循如下的常规流程:训练数据收集;利用训练数据对神经网络模型的网络参数进行训练;对训练好的神经网络模型部署于实际业务场景,并以测试样本作为输入,由训练好的神经网络模型输出对应的决策结果。上述方式类似于“闭卷”考试,即在已有训练集合学习,但是训练完成就丢弃掉训练数据直接利用神经网络在新样本上测试。
相关技术中,通过在测试阶段引入额外的记忆力机制能实现“开卷”考试的效果,从而提升模型的预测性能。其实现为除开模型本身的预测结果之外,可以通过查询测试样本在原始训练集合中特征相似的训练样本,并将这些近邻的训练样本的标签信息与模型的预测信息融合得到增强的预测结果。
上述方式通常假设训练集和测试数据通常来自同一数据分布,而在实际业务场景中,训练样本与测试样本的数据分布通常差异较大,例如,训练样本是在应用平台A收集的数据,而测试样本来自应用平台B。因此,训练样本和测试样本之间数据分布的差异会降低模型在测试样本上的预测准确度。
发明内容
本申请实施例提供了一种数据的分类方法、装置、设备、介质及程序产品,能够提升模型在未知数据分布的数据上的预测准确度。所述技术方案如下:
一方面,提供了一种数据的分类方法,所述方法包括:
获取待分类数据、多个训练样本数据以及通过所述多个训练样本数据训练训练得到的目标分类模型,所述训练样本数据标注有第一标签,所述第一标签用于指示所述训练样本数据的分类类别;
将所述待分类数据输入所述目标分类模型中进行分类预测,输出得到所述待分类数据对应的第一分类结果;
基于所述多个训练样本数据中各训练样本数据之间的组合结果,得到多个训练数据组,所述训练数据组中包括至少两个训练样本数据,所述训练数据组对应有第二标签,所述第二标签由所述至少两个训练样本数据的所述第一标签融合得到;
基于所述多个训练数据组中与所述待分类数据关联的至少一个目标训练数据组的第二标签,得到所述待分类数据对应的第二分类结果;
基于所述第一分类结果和所述第二分类结果的融合情况,得到所述待分类数据对应的目标分类结果。
另一方面,提供了一种数据的分类装置,所述装置包括:
获取模块,用于获取待分类数据、多个训练样本数据以及通过所述多个训练样本数据训练训练得到的目标分类模型,所述训练样本数据标注有第一标签,所述第一标签用于指示所述训练样本数据的分类类别;
第一预测模块,用于将所述待分类数据输入所述目标分类模型中进行分类预测,输出得到所述待分类数据对应的第一分类结果;
第二预测模块,用于基于所述多个训练样本数据中各训练样本数据之间的组合结果,得到多个训练数据组,所述训练数据组中包括至少两个训练样本数据,所述训练数据组对应有第二标签,所述第二标签由所述至少两个训练样本数据的所述第一标签融合得到;
所述第二预测模块,还用于基于所述多个训练数据组中与所述待分类数据关联的至少一个目标训练数据组的第二标签,得到所述待分类数据对应的第二分类结果;
融合模块,用于基于所述第一分类结果和所述第二分类结果的融合情况,得到所述待分类数据对应的目标分类结果。
另一方面,提供了一种计算机设备,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现本申请实施例中任一所述的数据的分类方法。
另一方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现本申请实施例中任一所述的数据的分类方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的数据的分类方法。
本申请的提供的技术方案至少包括以下有益效果:
该方法在实现的过程中,对训练样本数据进行组合,并针对组内的训练样本数据进行标签融合,由于组合得到的训练样本数据组相当于对原本多个训练样本数据对应的原始数据分布进行了插值,从而对原始数据分布进行了增强,使得在使用记忆力机制实现模型的测试或应用过程中,增强了训练样本数据的分布多样性,从而提升了记忆力机制的性能,进而提升了模型在对属于不同分布的数据进行预测时的预测准确度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的实施环境的示意图;
图2是本申请一个示例性实施例提供的数据的分类方法的流程图;
图3是本申请一个示例性实施例提供的数据的分类方法的流程图;
图4是本申请一个示例性实施例提供的训练样本数据的组合过程的示意图;
图5是本申请一个示例性实施例提供的数据的分类方法的流程图;
图6是本申请一个示例性实施例提供的目标分类结果的生成的流程示意图;
图7是本申请一个示例性实施例提供的数据的分类装置结构框图;
图8是本申请一个示例性实施例提供的数据的分类装置结构框图;
图9是本申请一个示例性实施例提供的服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,对本申请实施例中涉及的名词进行简要介绍:
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
记忆力机制:在模型测试阶段中除开模型本身的预测结果之外,通过查询测试样本在原始训练集合中特征相似的样本,将训练集合中相似的样本作为近邻样本,并将这些近邻样本的标签信息与模型的预测结果融合得到最终的预测结果。
上述方案在实现的过程中,通常假设训练集和测试数据通常来自同一数据分布,而在实际业务场景中分布迁移现象无处不在。为此,本申请实施例提出的数据的分类方法实现了基于记忆力混合机制增强训练数据的分布多样性,从而提升了记忆力机制的性能。
结合上述名词简介,对本申请实施例方法的应用场景进行示意性说明:
第一种,应用于医疗分析场景。
随着AI的发展,AI逐渐广泛地应用于医疗领域,例如,由AI实现医学影像的识别、实现针对症状的病症识别、实现分子组合制药等。在精准医疗分析场景中,模型在训练阶段所使用的训练样本集合和在测试或应用阶段所输入的数据集合之间的数据分布可能存在差异,例如,训练样本集合为公开的数据集合,其数据来源来自A医院,该模型在B医院进行应用,其测试样本或应用数据均为来自B医院的数据。
通过本申请实施例提供的方法,针对训练样本集合中的训练样本数据进行组合,以形成新的数据分布,从而丰富了原始训练样本集合所对应的数据分布,进而提升了模型在面对分布迁移(Distribution Shift)时的鲁棒性。
在另一些实施例中,在医学领域中,除了因数据的来源不同而产生的分布迁移之外,还因数据对应的领域不同而产生的分布迁移,例如,模型是在具有大量样本的常见病症对应的训练样本集合上训练得到的,在实际应用中,可以通过本申请实施例方法对模型在少样本的罕见病症对应的测试样本集合上,对模型对罕见病症的识别效果进行测试。或者,在历史病毒所对应的样本数据上训练得到模型,将模型应用于新型病毒的测试上,从而提升模型对新型病毒的可靠性。
第二种,应用于内容分类场景。
示意性的,上传至互联网的内容在后台会通过机器识别或人工审核打上不同标签以进行内容分类,从而便于下游中针对账号兴趣进行内容推荐或提供内容分类查询服务。
由于模型训练时所使用的训练样本数据往往是公开的数据集,或是某个应用平台内部的已授权数据,而在实际应用场景中,模型可能被迁移运用至不同平台,或者是同一平台的不同功能板块,因此存在应用时输入数据所属的数据分布与训练样本集合对应的数据分布存在差异的情况。
在本申请实施例中,在模型应用过程中结合了模型原本得到的预测结果,以及进行分布多样化后的训练数据组对应的标签融合得到的预测结果,提升了模型在面对分布迁移时的鲁棒性,保证了模型在数据分布存在区别的内容分类业务场景的可靠性。
值得注意的是,上述应用场景仅为示意性说明,本申请实施例提供的方法,还可以应用于其它自然语言处理业务(如,文本情感分析等)、计算机视觉业务(如,动物识别、车辆识别等)等,在此不对具体的业务场景进行限制。
请参考图1,其示出了本申请一个示例性实施例提供的实施环境的示意图。该实施环境的计算机系统中包括:终端110、服务器120和通信网络130。
可选地,终端110包括手机、平板电脑、台式电脑、便携式笔记本电脑、智能家电、车载终端、飞行器、医学检测设备等多种形式的设备。
可选地,上述服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云安全、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
其中,云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
在一些实施例中,上述服务器120还可以实现为区块链系统中的节点。区块链(Blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。
在一些实施例中,以本申请实施例提供的方法通过终端110和服务器120之间的交互实现为例进行示意性说明,当终端110中存在数据的分类需求时,在一个示例中,终端110中运行有能够实现医学影像识别的应用,当终端110需要对目标医学影像所表达的病症进行识别时,终端110将目标医学影像发送至服务器120。服务器120将上述目标医学影像作为待分类数据,通过已完成训练的目标分类模型对目标医学影像进行识别并完成病症分类,得到第一分类结果,然后在预制的训练数据组中查询得到与待分类数据关联的目标训练数据组,根据目标训练数据组对应的第二标签得到第二分类结果,将第一分类结果和第二分类结果融合得到的目标分类结果作为反馈,发送至终端110,终端110通过目标分类结果指示目标医学影像对应的病症。
值得注意的是,上述应用还可以实现为电商应用、社交应用、视频应用等其它应用,在此不进行具体限定。
在另一些实施例中,本申请实施例提供的方法也可以通过终端110独立实现,在一个示例中,以终端110实现为医学检测设备为例,医学检测设备中配置有AI组件,该AI组件中存储有能够完成对应检测任务的目标分类模型以及目标分类模型的训练样本数据生成的训练数据组,AI组件根据输入的待检测数据输出得到由两种分类结果融合得到的目标分类结果,将目标分类结果进行展示以供相关人员参考。
请参考图2,其示出了本申请一个实施例示出的数据的分类方法的流程图,在本申请实施例中,以该方法应由服务器执行为例进行示意性说明,该方法包括:
步骤210,获取待分类数据、多个训练样本数据以及通过多个训练样本数据训练训练得到的目标分类模型。
示意性的,上述训练样本数据标注有第一标签,上述第一标签用于指示训练样本数据的分类类别。
可选地,训练样本数据的数据形式可以实现为文本形式、图像形式、音频形式中的至少一种。
在一些实施例中,待分类数据的数据形式与训练样本数据的数据形式相同。
可选地,待分类数据可以是目标分类模型在测试阶段中的测试样本数据;或者,待分类数据可以是目标分类模型在应用阶段中的输入数据。
可选地,上述待分类数据可以是由终端上传的;或者,上述待分类数据可以是服务器从数据库中读取的,在此不进行限定。
步骤220,将待分类数据输入目标分类模型中进行分类预测,输出得到待分类数据对应的第一分类结果。
示意性的,将待分类数据输入至目标分类模型中,由目标分类模型根据待分类数据在特征空间中所形成的数据特征对待分类数据进行分类,从而得到第一分类结果。
在一些实施例中,目标分类模型中包括特征提取部分和决策分布生成部分。示意性的,特征提取部分用于对输入的待分类数据进行特征提取,从而得到对应的数据特征表示,如公式一所示,其中,h为待分类数据x对应的数据特征表示,θ为目标分类模型的模型参数。
公式一:h=f(x;θ)
示意性的,上述数据特征表示为待分类数据的隐藏层特征,是一个高维向量,该向量将进一步被用于生产决策结果。在决策分布生成部分,首先基于全连接层生成logits向量,如公式二所示,其中,W为决策层参数矩阵,h为待分类数据的数据特征表示。
公式二:logits z=W·h
将全连接层输出的logits向量输入到逻辑回归(softmax)层得到不同类别对应的预测概率,其中,第i个类别的预测概率pi如公式三所示,zi为第i个类别对应的logits向量,i为正整数。
公式三:
决策分布生成部分在确定每个类别对应的预测概率后,将预测概率最大的类别输出为第一分类结果,即如公式四所示,其中,模型对应的分类类别包括C个分类类别,pi为第i个类别对应的预测概率。
公式四:conf=max pi,i=1,2,…,C
目标分类模型针对待分类数据的分类预测过程即可表示为公式五所示,其中,p为输出的第一分类结果,pi为第i个类别对应的预测概率,i∈[1,C],x为待分类数据,θ和W为目标分类模型的模型参数。
公式五:p=(p1,…pC)=g(x;θ,W)
步骤230,基于多个训练样本数据中各训练样本数据之间的组合结果,得到多个训练数据组。
示意性的,上述训练数据组中包括至少两个训练样本数据,在一些实施例中,上述至少两个训练样本数据为互不相同的训练样本数据。训练数据组对应有第二标签,其中,第二标签由至少两个训练样本数据的第一标签融合得到。
可选地,不同训练数据组中训练样本数据的数量可以是相同的,即,每个训练数据组中包括指定数量的训练样本数据;或者,不同训练数据组中训练样本数据的数量可以是不同的。
在一些实施例中,在对训练样本数据对应的第一标签进行融合时,可以将第一标签对应的第一标签编码表示进行累加,从而得到第二标签编码表示,对第二标签编码表示进行解码,从而得到上述第二标签。
在一些实施例中,在对第一标签编码表示进行累加时,可以根据第一融合权重关系进行加权求和,可选地,上述第一融合权重关系可以是预设的。
步骤240,基于多个训练数据组中与待分类数据关联的至少一个目标训练数据组的第二标签,得到待分类数据对应的第二分类结果。
在一些实施例中,根据训练数据组和待分类数据之间的相似度来确定至少一个目标训练数据。
可选地,训练数据组和待分类数据之间的相似度的确定方式可以实现为以下方式中的至少一种:
第一种,根据训练数据组对应的数据组特征表示和待分类数据对应的数据特征表示在特征空间中的距离确定上述相似度。
在一些实施例中,训练数据组对应有数据组特征表示,待分类数据通过目标分类模型的特征提取部分能够得到对应的数据特征表示,通过计算数据组特征表示和数据特征表示之间的距离,得到上述相似度。
可选地,上述特征表示之间的距离可以实现为欧式距离、余弦距离、马氏距离、汉明距离等中的至少一种距离,在此不进行限定。
第二种,将训练数据组和待分类数据之间的数据相似度确定为上述相似度。
示意性的,训练数据组中包括至少两个训练样本数据,计算至少两个训练样本数据中各训练样本数据与待分类数据之间的数据相似度,将训练数据组中每个训练样本数据对应的数据相似度的平均值确定为训练数据组和待分类数据之间的相似度。
在一些实施例中,通过目标分类模型确定训练数据中各训练样本数据对应的训练特征表示,以及待分类数据对应的数据特征表示,通过确定训练特征表示和数据特征表示在特征空间中的距离来确定训练样本数据和待分类数据之间的数据相似度。
在另一些实施例中,当训练样本数据和待分类数据的数据形式为文本形式时,上述数据相似度可以通过计算训练样本文本和待分类文本中出现相同或语义相似的词汇的数量,将上述词汇数量进行归一化后作为训练样本文本和待分类文本之间的数据相似度。
在另一些实施例中,当训练样本数据和待分类数据的数据形式为图像形式时,上述数据相似度可以通过计算训练样本图像和待分类图像之间的直方图相似度,将上述直方图相似度作为训练样本图像和待分类图像之间的数据相似度。
在另一些实施例中,当训练样本数据和待分类数据的数据形式为音频形式时,上述数据相似度可以通过计算训练样本音频和待分类音频对应的音素统计结果之间的相似度,将上述音素结果相似度作为训练样本音频和待分类音频之间的数据相似度。
在一些实施例中,响应于第i个训练数据组和待分类数据之间的相似度达到指定相似阈值,将该第i个训练数据组确定为目标训练数据组;在另一些实施例中,根据训练数据组和待分类数据之间的相似度对多个训练数据组进行排序,并将多个训练数据组中上述相似度最高的N个训练数据组确定为上述目标训练数据组,i和N为正整数。
在一些实施例中,当存在一个目标训练数据组时,将该目标训练数据组对应的第二标签作为第二分类结果。
在另一些实施例中,响应于存在多个目标训练数据组,对多个目标训练数据组对应的第二标签进行标签融合,得到第二分类结果。
步骤250,基于第一分类结果和第二分类结果的融合情况,得到待分类数据对应的目标分类结果。
在一些实施例中,在对第一分类结果和第二分类结果进行融合时,可以根据第二融合权重关系来对第一分类结果和第二分类结果进行融合,上述第二融合权重关系用于指示第一分类结果和第二分类结果进行融合时分别对应的权重。示意性的,获取第二融合权重关系,基于第二融合权重关系对第一分类结果和第二分类结果进行加权求和,得到目标分类结果。
在一些实施例中,在对第一分类结果和第二分类结果进行融合时,通过第一分类结果对应的第一结果编码表示和第二分类结果对应的第二结果编码表示进行融合,得到融合编码表示,对融合编码表示进行解码得到上述目标分类结果。
在一些实施例中,在融合得到目标分类结果的过程中,还融合有与待分类数据相似的训练样本数据对应的标签信息。示意性的,基于待分类数据和训练样本数据之间的数据相似情况从多个训练样本数据中确定出至少一个目标训练样本数据,基于至少一个目标训练样本数据的第一标签生成待分类数据对应的第三分类结果,基于第一分类结果、第二分类结果和第三分类结果的融合情况,得到待分类数据对应的目标分类结果。
示意性的,基于待分类数据和训练样本数据之间的数据相似情况从多个训练样本数据中确定出至少一个目标训练样本数据可以实现为:获取待分类数据对应的数据特征表示,获取训练样本数据对应的数据特征表示,根据数据特征表示和数据特征表示在特征空间中的距离确定数据特征表示和数据特征表示之间的特征相似度,将特征相似度最高的M个训练样本数据对应的第一标签进行融合,得到上述第三分类结果。
综上所述,本申请实施例提供的数据的分类方法,该方法在实现的过程中,对训练样本数据进行组合,并针对组内的训练样本数据进行标签融合,由于组合得到的训练样本数据组相当于对原本多个训练样本数据对应的原始数据分布进行了插值,从而对原始数据分布进行了增强,使得在使用记忆力机制实现模型的测试或应用过程中,增强了训练样本数据的分布多样性,从而提升了记忆力机制的性能,进而提升了模型在对属于不同分布的数据进行预测时的预测准确度。
请参考图3,其示出了本申请一个实施例示出的数据的分类方法的流程图,在本申请实施例中,对第二分类结果的生成过程进行示意性说明,该方法包括:
步骤310,获取待分类数据、多个训练样本数据以及通过所述多个训练样本数据训练训练得到的目标分类模型。
示意性的,上述训练样本数据标注有第一标签,上述第一标签用于指示训练样本数据的分类类别。
可选地,训练样本数据的数据形式可以实现为文本形式、图像形式、音频形式中的至少一种。
在一些实施例中,待分类数据的数据形式与训练样本数据的数据形式相同。
步骤320,将待分类数据输入目标分类模型中进行分类预测,输出得到待分类数据对应的第一分类结果。
示意性的,将待分类数据输入至目标分类模型中,由目标分类模型根据待分类数据在特征空间中所形成的数据特征对待分类数据进行分类,从而得到第一分类结果。
步骤330,基于多个训练样本数据中各训练样本数据之间的组合结果,得到多个训练数据组。
示意性的,上述训练数据组中包括至少两个训练样本数据,训练数据组对应有第二标签,第二标签由所述至少两个训练样本数据的第一标签融合得到。
在本申请实施例中,在对训练样本数据进行组合以得到多个训练数据组后,获取每个训练数据组对应的数据组特征表示。可选地,训练数据组对应的数据组特征表示的生成方式可以实现为以下方式中的至少一种:
第一种,对训练数据组内的至少两个训练样本数据的训练特征表示进行特征融合,得到训练数据组对应的数据组特征表示,由该数据组特征表示来指示训练数据组对应的数据组特征。
示意性的,通过目标分类模型对至少两个训练样本数据分别进行特征提取,得到训练样本数据对应的训练特征表示,获取训练数据组对应的第一融合权重关系,基于第一融合权重关系对训练数据组中各训练样本数据对应的训练特征表示进行加权求和,得到数据组特征表示,第一融合权重关系用于指示训练数据组中至少两个训练样本数据进行特征融合时分别对应的权重。
通过目标分类模型的特征提取部分实现训练样本数据的特征提取,得到训练特征表示,然后将训练数据组中的至少两个训练样本数据对应的训练特征表示进行特征融合,得到数据组特征表示,其中,融合过程通过第一融合权重关系实现。在一个示例中,以训练数据组中包括两个训练样本数据为例,训练样本数据A对应的训练特征表示为hA,训练样本数据B对应的训练特征该表示为hB,通过公式六对上述两个训练特征表示进行融合,得到数据组特征表示hAB,其中,α为进行融合时使用的权重,在一个示例中,α=0.5。
公式六:hAB=αhA+(1-α)hB
示意性的,针对训练数据组对应的第二标签,在本申请实施例中同样通过上述第一融合权重关系进行标签融合,即如公式七所示,其中,yA为训练样本数据A对应的第一标签A,yB为训练样本数据B对应的第一标签B,yAB为训练数据组对应的第二标签,α为进行融合时使用的权重,在一个示例中,α=0.5。
公式七:yAB=αyA+(1-α)yB
如图4所示,其示出了本申请一个示例性实施例提供的训练样本数据的组合过程的示意图,训练样本集合410中包括多个训练样本数据411,将训练样本集合410中的训练样本数据411两两混合,得到多个训练数据组420,通过训练数据组420中训练样本数据411的训练特征表示按照第一融合权重关系进行融合,得到训练数据组420对应的数据组特征表示421,将训练数据组420中各训练样本数据411对应的第一标签412进行融合,得到第二标签422。
第二种,将训练数据组内至少两个训练样本数据的训练特征表示的平均值作为数据组特征表示。
示意性的,通过目标分类模型对至少两个训练样本数据分别进行特征提取,得到训练样本数据对应的训练特征表示,对组内的训练特征表示进行求均值运算,得到的平均特征表示作为上述数据组特征表示。
第三种,对训练数据组中的至少两个训练样本数据进行数据融合,得到融合训练数据,将融合训练数据输入至目标分类模型,通过目标分类模型的特征提取部分生成融合训练数据对应的特征表示以作为数据组特征表示。
在一个示例中,当训练样本数据为文本形式的数据时,上述数据融合可以实现为至少两个训练样本文本之间的直接拼接或穿插拼接得到;在另一个示例中,当训练样本数据为图像形式的数据时,上述数据融合可以实现为至少两个训练样本图像之间的图像拼接或灰度值(RGB值)叠加得到;在另一个示例中,当训练样本数据为音频形式的数据时,上述数据融合可以实现为至少两个训练样本音频之间的音频拼接或穿插拼接得到。
步骤341,基于待分类数据和训练数据组之间的相似度,从多个训练数据中确定目标训练数据组。
在本申请实施例中,通过训练数据组对应的数据组特征表示和待分类数据的数据特征表示在特征空间中的距离确定上述待分类数据和训练数据组之间的相似度。示意性的,基于训练数据组对应的至少两个训练样本数据获取训练数据组对应的数据组特征表示,通过目标分类模型对待分类数据进行特征提取,得到待分类数据对应的数据特征表示,基于数据组特征表示和数据特征表示在特征空间中的距离确定待分类数据和训练数据组之间的特征相似度,将特征相似度满足预设筛选条件的训练数据组确定为目标训练数据组。
可选地,上述预设筛选条件可以设置为将特征相似度达到指定相似阈值的训练数据组确定为目标训练数据组,示意性的,响应于第i个训练数据组和待分类数据之间的特征相似度达到指定相似阈值,确定第i个训练数据组满足预设筛选条件,即,将第i个训练数据组确定为目标训练数据组。
可选地,上述预设筛选条件可以设置为将所有训练数据组中特征相似度最高的N个训练数据组确定为目标训练数据组。
步骤342,响应于存在多个目标训练数据组,对多个目标训练数据组对应的第二标签进行标签融合,得到第二分类结果。
在一些实施例中,对多个目标训练数据组的第二标签的第二标签编码表示相加,得到第三标签编码表示,对第三标签编码表示进行解码,得到上述第二分类结果。
在一些实施例中,根据目标权重对第二标签的第二标签编码表示进行加权后相加,得到第三标签编码表示,对第三标签编码表示进行解码,得到上述第二分类结果。
可选地,上述目标权重可以是预设的,或者,上述目标权重可以是通过指定转化规则转化而来的。
在一些实施例中,上述目标权重可以是通过目标训练数据组和待分类数据之间的特征相似度转化而来的。示意性的,将目标训练数据组和待分类数据对应的特征相似度转化为目标权重,获取目标训练数据组的第二标签对应的第二标签编码表示,基于目标权重对多个目标训练数据组对应的第二标签编码表示进行加权求和,得到第二分类结果。
示意性的,在将特征相似度转化为目标权重时,特征相似度和目标权重呈正相关关系,即,数据组特征表示和数据特征表示在特征空间中的距离和上述目标权重呈负相关关系。在一个示例中,将特征相似度进行归一化,从而得到上述目标权重。
如公式八所示,其中,pKNN为第二分类结果,xi为第i个目标训练数据组,Nei(x)为目标训练数据组对应的数据组集合,wi为第i个第二标签yi对应的权重,表示One-hot向量,即,只有第yi位置为1,其它位置为0。
公式八:
步骤350,基于第二融合权重关系对第一分类结果和第二分类结果进行加权求和,得到目标分类结果。
在本申请实施例中,通过第二融合权重关系对第一分类结果和第二分类结果进行加权求和,以得到目标分类结果。如公式九所示,其中,pfinal为目标分类结果,p为第一分类结果,pknn为第二分类结果,λ为进行融合时使用的权重。
公式九:pfinal=λp+(1-λ)pknn
在一些实施例中,上述第二融合权重关系可以是系统预设的,例如,上述λ可被设置为0.5。
在另一些实施例中,当待分类数据是目标数据集中的数据时,可以根据待分类数据在目标数据集中关联的数据分布和目标训练数据组的数据分布之间的相似情况来确定上述第二融合权重关系。示意性的,上述目标数据集中包括多个候选待分类数据,对目标数据集中待分类数据之间的特征相似情况进行聚合,得到至少两个数据子集,至少两个数据子集中的目标数据子集包括待分类数据,基于目标数据子集中候选待分类数据在特征空间中的分布情况,获取目标数据子集对应的第一特征分布,响应于存在多个目标训练数据组,基于多个目标训练数据组在特征空间中的分布情况,获取多个目标训练数据组对应的第二特征分布,基于第一特征分布和第二特征分布之间的相似情况,生成第二融合权重关系。
可选地,目标数据子集对应的第一特征分布的确定可以实现为:获取目标数据子集中各候选待分类数据对应的候选特征表示,根据候选特征表示在特征空间中的分布情况拟合得到第一分布曲线,将该第一分布曲线作为上述第一特征分布。多个目标训练数据组对应的第二特征分布的确定可以实现为:获取目标训练数据组对应的数据组特征表示,根据数据组特征表示在特征空间中的分布情况拟合得到第二分布曲线,将该第二分布曲线作为上述第二特征分布。
在一个示例中,上述第一分布曲线和第二分布曲线均可以实现为正态分布曲线,则第一特征分布和第二特征分布之间的分布相似度可以根据不同正态分布之间的均值和/或方差确定。
示意性的,第一特征分布和第二特征分布之间的分布相似度和第二分类结果对应的权重呈正相关关系。
综上所述,本申请实施例提供的数据的分类方法,该方法在实现的过程中,对训练样本数据进行组合,并针对组内的训练样本数据进行标签融合,由于组合得到的训练样本数据组相当于对原本多个训练样本数据对应的原始数据分布进行了插值,从而对原始数据分布进行了增强,使得在使用记忆力机制实现模型的测试或应用过程中,增强了训练样本数据的分布多样性,从而提升了记忆力机制的性能,进而提升了模型在对属于不同分布的数据进行预测时的预测准确度。
请参考图5,其示出了本申请一个实施例示出的数据的分类方法的流程图,在本申请实施例中,以将该方法应用于模型的测试过程为例进行示意性说明,即,待分类数据为测试样本数据,测试样本数据对应有第三标签,该方法包括:
步骤510,获取测试样本数据、多个训练样本数据以及目标分类模型。
示意性的,上述目标分类模型为通过上述多个训练样本数据训练得到的模型,训练样本数据标注有第一标签。上述测试样本数据是来自测试样本集合的数据,测试样本数据标注有第三标签,第三标签用于指示测试样本数据对应的分类类别。
步骤520,将测试样本数据输入目标分类模型中进行分类预测,输出得到测试样本数据对应的第一分类结果。
示意性的,将测试样本数据输入至目标分类模型中,由目标分类模型根据测试样本数据在特征空间中所形成的数据特征对测试样本数据进行分类,从而得到第一分类结果。
步骤531,对多个训练样本数据进行两两组合,得到多个训练数据组。
在本申请实施例中,将训练样本数据进行两两组合,从而得到多个训练数据组,每个训练数据组中包括两个不同的训练样本数据,即,训练数据组xij=<xi,xj>,i和j为正整数且i≠j。
步骤532,通过训练数据组中训练样本数据对应的训练特征表示的融合结果,得到训练数据组对应的数据组特征表示。
示意性的,针对训练数据组中的训练样本数据,通过目标分类模型的特征提取部分对训练样本数据进行特征提取,得到训练样本数据对应的训练特征表示,通过训练特征表示之间的融合结果得到数据组特征表示,其中,在融合过程中采用第一融合权重关系。
步骤533,通过训练数据组中训练样本数据对应的第一标签的融合结果,得到训练数据组对应的第二标签。
在本申请实施例中,通过训练数据组中两个训练样本数据对应的第一标签进行加权求和,从而得到上述第二标签,其中,在融合过程中采用第一融合权重关系。
在一些实施例中,根据训练数据组的数据组特征表示和第二标签之间的对应关系生成记忆表格该记忆表格/>用于在生成测试样本数据对应的第二分类结果的过程中进行数据组特征表示和第二标签的查询。在一个示例中,记忆表格/>如表一所示。
表一
特征 | 标签 |
h12 | y12 |
h13 | y13 |
… | … |
hNM | yNM |
步骤541,根据测试样本数据对应的测试特征表示和数据组特征表示之间的特征相似度,从多个训练数据组中确定出N个目标训练数据组。
在本申请实施例中,通过目标分类模型的特征提取部分对测试样本数据进行特征提取,得到上述测试特征表示。
示意性的,依次计算记忆表格中数据组特征表示和测试特征表示在特征空间中的距离,从而得到特征相似度,将所有训练数据组中与测试样本数据之间的特征相似度最高的N个训练数据组确定为目标训练数据组,以用于生成第二分类结果,N为正整数。
步骤542,将N个目标训练数据组对应的第二标签进行标签融合,得到第二分类结果。
示意性的,在确定目标训练数据组后,根据目标训练数据组从记忆表格中查找得到对应的第二标签,并将目标训练数据组和测试样本数据之间的特征相似度转换为目标权重,通过目标权重对第二标签进行加权求和,最终得到第二分类结果。
步骤550,基于第一分类结果和第二分类结果的融合情况,得到测试样本数据对应的目标分类结果。
在一些实施例中,在对第一分类结果和第二分类结果进行融合时,可以根据第二融合权重关系来对第一分类结果和第二分类结果进行融合,上述第二融合权重关系用于指示第一分类结果和第二分类结果进行融合时分别对应的权重。示意性的,获取第二融合权重关系,基于第二融合权重关系对第一分类结果和第二分类结果进行加权求和,得到目标分类结果。
在一个示例中,如图6所示,其示出了本申请一个示例性实施例提供的目标分类结果的生成的流程示意图,由训练样本集合610中的训练样本数据和第一标签生成记忆表格620,在对测试样本数据601进行分类预测时,通过目标分类模型630获取测试样本数据601对应的测试特征表示602和第一分类结果603,测试特征表示602与记忆表格620中的数据组特征表示进行相似度计算,从而筛选出近邻集合640,近邻集合640中包括与测试样本数据关联的目标训练数据组对应的数据组特征表示和第二标签,通过第二标签之间的融合结果得到第二分类结果604,将第一分类结果603和第二分类结果604融合得到目标分类结果605。
步骤560,基于目标分类结果和第三标签之间的差异情况,生成目标分类模型对应的测试结果。
在一些实施例中,通过统计测试样本集合中,目标分类结果和第三标签匹配的测试样本数据的数量,从而确定预测正确的测试样本数量占测试样本集合中所有测试样本数量的百分比,将该百分比作为目标分类模型在测试阶段时对应的预测准确度,以用于对目标分类模型进行评估。
综上所述,本申请实施例提供的数据的分类方法,该方法在实现的过程中,对训练样本数据进行组合,并针对组内的训练样本数据进行标签融合,由于组合得到的训练样本数据组相当于对原本多个训练样本数据对应的原始数据分布进行了插值,从而对原始数据分布进行了增强,使得在使用记忆力机制实现模型的测试或应用过程中,增强了训练样本数据的分布多样性,从而提升了记忆力机制的性能,进而提升了模型在对属于不同分布的数据进行预测时的预测准确度。
请参考图7,其示出了本申请一个示例性的实施例提供的数据的分类装置结构框图,该装置包括如下模块:
获取模块710,用于获取待分类数据、多个训练样本数据以及通过所述多个训练样本数据训练训练得到的目标分类模型,所述训练样本数据标注有第一标签,所述第一标签用于指示所述训练样本数据的分类类别;
第一预测模块720,用于将所述待分类数据输入所述目标分类模型中进行分类预测,输出得到所述待分类数据对应的第一分类结果;
第二预测模块730,用于基于所述多个训练样本数据中各训练样本数据之间的组合结果,得到多个训练数据组,所述训练数据组中包括至少两个训练样本数据,所述训练数据组对应有第二标签,所述第二标签由所述至少两个训练样本数据的所述第一标签融合得到;
所述第二预测模块730,还用于基于所述多个训练数据组中与所述待分类数据关联的至少一个目标训练数据组的第二标签,得到所述待分类数据对应的第二分类结果;
融合模块740,用于基于所述第一分类结果和所述第二分类结果的融合情况,得到所述待分类数据对应的目标分类结果。
在一些可选的实施例中,如图8所示,所述第二预测模块730,还包括:
筛选子模块731,用于基于所述待分类数据和所述训练数据组之间的相似度,从所述多个训练数据中确定所述目标训练数据组;
第一融合子模块732,用于响应于存在多个目标训练数据组,对所述多个目标训练数据组对应的所述第二标签进行标签融合,得到所述第二分类结果。
在一些可选的实施例中,所述筛选子模块731,还包括:
提取单元733,用于基于所述训练数据组对应的所述至少两个训练样本数据获取所述训练数据组对应的数据组特征表示;
所述提取单元733,还用于通过所述目标分类模型对所述待分类数据进行特征提取,得到所述待分类数据对应的数据特征表示;
第一确定单元734,用于基于所述数据组特征表示和所述数据特征表示在特征空间中的距离确定所述待分类数据和所述训练数据组之间的特征相似度;
所述第一确定单元734,还用于将所述特征相似度满足预设筛选条件的训练数据组确定为所述目标训练数据组。
在一些可选的实施例中,所述提取单元733,还用于通过所述目标分类模型对所述至少两个训练样本数据分别进行特征提取,得到所述训练样本数据对应的训练特征表示;获取所述训练数据组对应的第一融合权重关系,所述第一融合权重关系用于指示所述训练数据组中至少两个训练样本数据进行特征融合时分别对应的权重;基于所述第一融合权重关系对所述训练数据组中各训练样本数据对应的训练特征表示进行加权求和,得到所述数据组特征表示。
在一些可选的实施例中,所述第一确定单元734,还用于获取所述训练数据组中所述至少两个训练样本数据分别对应的所述第一标签的第一标签编码表示;基于所述第一融合权重关系对所述训练数据组对应的多个第一标签编码表示进行加权求和,得到所述训练数据组对应的所述第二标签。
在一些可选的实施例中,所述第一融合子模块732,还包括:
转化单元735,用于将所述目标训练数据组和所述待分类数据对应的所述特征相似度转化为目标权重;
第二确定单元736,用于获取所述目标训练数据组的第二标签对应的第二标签编码表示;
所述第二确定单元736,还用于基于所述目标权重对所述多个目标训练数据组对应的第二标签编码表示进行加权求和,得到所述第二分类结果。
在一些可选的实施例中,所述融合模块740,还包括:
获取子模块741,用于获取第二融合权重关系,所述第二融合权重关系用于指示所述第一分类结果和所述第二分类结果进行融合时分别对应的权重;
第二融合子模块742,用于基于所述第二融合权重关系对所述第一分类结果和所述第二分类结果进行加权求和,得到所述目标分类结果。
在一些可选的实施例中,所述待分类数据来自目标数据集,所述目标数据集中包括多个候选待分类数据;
所述获取子模块741,还包括:
聚合单元743,用于对所述目标数据集中待分类数据之间的特征相似情况进行聚合,得到至少两个数据子集,所述至少两个数据子集中的目标数据子集包括所述待分类数据;
获取单元744,用于基于所述目标数据子集中候选待分类数据在特征空间中的分布情况,获取所述目标数据子集对应的第一特征分布;
所述获取单元744,还用于响应于存在多个目标训练数据组,基于所述多个目标训练数据组在特征空间中的分布情况,获取所述多个目标训练数据组对应的第二特征分布;
生成单元745,用于基于所述第一特征分布和所述第二特征分布之间的相似情况,生成所述第二融合权重关系。
在一些可选的实施例中,所述装置还包括:
第三预测模块750,用于基于所述待分类数据和所述训练样本数据之间的数据相似情况从所述多个训练样本数据中确定出至少一个目标训练样本数据;
所述第三预测模块750,还用于基于所述至少一个目标训练样本数据的第一标签生成所述待分类数据对应的第三分类结果;
所述融合模块740,还用于基于所述第一分类结果、所述第二分类结果和所述第三分类结果的融合情况,得到所述待分类数据对应的所述目标分类结果。
综上所述,本申请实施例提供的数据的分类装置,对训练样本数据进行组合,并针对组内的训练样本数据进行标签融合,由于组合得到的训练样本数据组相当于对原本多个训练样本数据对应的原始数据分布进行了插值,从而对原始数据分布进行了增强,使得在使用记忆力机制实现模型的测试或应用过程中,增强了训练样本数据的分布多样性,从而提升了记忆力机制的性能,进而提升了模型在对属于不同分布的数据进行预测时的预测准确度。
需要进行说明的是,本申请在收集用户的相关数据之前以及在收集用户的相关数据的过程中,都可以显示提示界面、弹窗或输出语音提示信息,该提示界面、弹窗或语音提示信息用于提示用户当前正在搜集其相关数据,使得本申请仅仅在获取到用户对该提示界面或者弹窗发出的确认操作后,才开始执行获取用户相关数据的相关步骤,否则(即未获取到用户对该提示界面或者弹窗发出的确认操作时),结束获取用户相关数据的相关步骤,即不获取用户的相关数据。换句话说,本申请所采集的所有用户数据都是在用户同意并授权的情况下进行采集的,且相关用户数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
需要说明的是:上述实施例提供的数据的分类装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数据的分类装置与数据的分类方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图9示出了本申请一个示例性实施例提供的服务器的结构示意图。具体来讲包括如下结构。
服务器900包括中央处理单元(Central Processing Unit,CPU)901、包括随机存取存储器(Random Access Memory,RAM)902和只读存储器(Read Only Memory,ROM)903的系统存储器904,以及连接系统存储器904和中央处理单元901的系统总线905。服务器900还包括用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备906。
大容量存储设备906通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。大容量存储设备906及其相关联的计算机可读介质为服务器900提供非易失性存储。也就是说,大容量存储设备906可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory,EEPROM)、闪存或其他固态存储器技术,CD-ROM、数字通用光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备906可以统称为存储器。
根据本申请的各种实施例,服务器900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器900可以通过连接在系统总线905上的网络接口单元911连接到网络912,或者说,也可以使用网络接口单元911来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
本申请的实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的生物识别方法。可选地,该计算机设备可以是终端,也可以是服务器。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的生物识别方法。
本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的生物识别方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (13)
1.一种数据的分类方法,其特征在于,所述方法包括:
获取待分类数据、多个训练样本数据以及通过所述多个训练样本数据训练训练得到的目标分类模型,所述训练样本数据标注有第一标签,所述第一标签用于指示所述训练样本数据的分类类别;
将所述待分类数据输入所述目标分类模型中进行分类预测,输出得到所述待分类数据对应的第一分类结果;
基于所述多个训练样本数据中各训练样本数据之间的组合结果,得到多个训练数据组,所述训练数据组中包括至少两个训练样本数据,所述训练数据组对应有第二标签,所述第二标签由所述至少两个训练样本数据的所述第一标签融合得到;
基于所述多个训练数据组中与所述待分类数据关联的至少一个目标训练数据组的第二标签,得到所述待分类数据对应的第二分类结果;
基于所述第一分类结果和所述第二分类结果的融合情况,得到所述待分类数据对应的目标分类结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述多个训练数据组中与所述待分类数据关联的至少一个目标训练数据组的第二标签,得到所述待分类数据对应的第二分类结果,包括:
基于所述待分类数据和所述训练数据组之间的相似度,从所述多个训练数据中确定所述目标训练数据组;
响应于存在多个目标训练数据组,对所述多个目标训练数据组对应的所述第二标签进行标签融合,得到所述第二分类结果。
3.根据权利要求2所述的方法,其特征在于,所述基于所述待分类数据和所述训练数据组之间的特征相似度,从所述多个训练数据中确定所述目标训练数据组,包括:
基于所述训练数据组对应的所述至少两个训练样本数据获取所述训练数据组对应的数据组特征表示;
通过所述目标分类模型对所述待分类数据进行特征提取,得到所述待分类数据对应的数据特征表示;
基于所述数据组特征表示和所述数据特征表示在特征空间中的距离确定所述待分类数据和所述训练数据组之间的特征相似度;
将所述特征相似度满足预设筛选条件的训练数据组确定为所述目标训练数据组。
4.根据权利要求3所述的方法,其特征在于,所述基于所述训练数据组对应的所述至少两个训练样本数据获取所述训练数据组对应的数据组特征表示,包括:
通过所述目标分类模型对所述至少两个训练样本数据分别进行特征提取,得到所述训练样本数据对应的训练特征表示;
获取所述训练数据组对应的第一融合权重关系,所述第一融合权重关系用于指示所述训练数据组中至少两个训练样本数据进行特征融合时分别对应的权重;
基于所述第一融合权重关系对所述训练数据组中各训练样本数据对应的训练特征表示进行加权求和,得到所述数据组特征表示。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取所述训练数据组中所述至少两个训练样本数据分别对应的所述第一标签的第一标签编码表示;
基于所述第一融合权重关系对所述训练数据组对应的多个第一标签编码表示进行加权求和,得到所述训练数据组对应的所述第二标签。
6.根据权利要求3至5任一所述的方法,其特征在于,所述响应于存在多个目标训练数据组,对所述多个目标训练数据组对应的所述第二标签进行标签融合,得到所述第二分类结果,包括:
将所述目标训练数据组和所述待分类数据对应的所述特征相似度转化为目标权重;
获取所述目标训练数据组的第二标签对应的第二标签编码表示;
基于所述目标权重对所述多个目标训练数据组对应的第二标签编码表示进行加权求和,得到所述第二分类结果。
7.根据权利要求1至5任一所述的方法,其特征在于,所述基于所述第一分类结果和所述第二分类结果的融合情况,得到所述待分类数据对应的目标分类结果,包括:
获取第二融合权重关系,所述第二融合权重关系用于指示所述第一分类结果和所述第二分类结果进行融合时分别对应的权重;
基于所述第二融合权重关系对所述第一分类结果和所述第二分类结果进行加权求和,得到所述目标分类结果。
8.根据权利要求7所述的方法,其特征在于,所述待分类数据来自目标数据集,所述目标数据集中包括多个候选待分类数据;
所述获取第二融合权重关系,包括:
对所述目标数据集中待分类数据之间的特征相似情况进行聚合,得到至少两个数据子集,所述至少两个数据子集中的目标数据子集包括所述待分类数据;
基于所述目标数据子集中候选待分类数据在特征空间中的分布情况,获取所述目标数据子集对应的第一特征分布;
响应于存在多个目标训练数据组,基于所述多个目标训练数据组在特征空间中的分布情况,获取所述多个目标训练数据组对应的第二特征分布;
基于所述第一特征分布和所述第二特征分布之间的相似情况,生成所述第二融合权重关系。
9.根据权利要求1至5任一所述的方法,其特征在于,所述基于所述第一分类结果和所述第二分类结果的融合情况,得到所述待分类数据对应的目标分类结果,包括:
基于所述待分类数据和所述训练样本数据之间的数据相似情况从所述多个训练样本数据中确定出至少一个目标训练样本数据;
基于所述至少一个目标训练样本数据的第一标签生成所述待分类数据对应的第三分类结果;
基于所述第一分类结果、所述第二分类结果和所述第三分类结果的融合情况,得到所述待分类数据对应的所述目标分类结果。
10.一种数据的分类装置,其特征在于,所述装置包括:
获取模块,用于获取待分类数据、多个训练样本数据以及通过所述多个训练样本数据训练训练得到的目标分类模型,所述训练样本数据标注有第一标签,所述第一标签用于指示所述训练样本数据的分类类别;
第一预测模块,用于将所述待分类数据输入所述目标分类模型中进行分类预测,输出得到所述待分类数据对应的第一分类结果;
第二预测模块,用于基于所述多个训练样本数据中各训练样本数据之间的组合结果,得到多个训练数据组,所述训练数据组中包括至少两个训练样本数据,所述训练数据组对应有第二标签,所述第二标签由所述至少两个训练样本数据的所述第一标签融合得到;
所述第二预测模块,还用于基于所述多个训练数据组中与所述待分类数据关联的至少一个目标训练数据组的第二标签,得到所述待分类数据对应的第二分类结果;
融合模块,用于基于所述第一分类结果和所述第二分类结果的融合情况,得到所述待分类数据对应的目标分类结果。
11.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行以实现如权利要求1至9任一所述的数据的分类方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现如权利要求1至9任一所述的数据的分类方法。
13.一种计算机程序产品,其特征在于,包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现如权利要求1至9任一所述的数据的分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211635303.1A CN116958622A (zh) | 2022-12-19 | 2022-12-19 | 数据的分类方法、装置、设备、介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211635303.1A CN116958622A (zh) | 2022-12-19 | 2022-12-19 | 数据的分类方法、装置、设备、介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116958622A true CN116958622A (zh) | 2023-10-27 |
Family
ID=88453643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211635303.1A Pending CN116958622A (zh) | 2022-12-19 | 2022-12-19 | 数据的分类方法、装置、设备、介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116958622A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117633706A (zh) * | 2023-11-30 | 2024-03-01 | 众悦(威海)信息技术有限公司 | 一种用于信息系统数据融合的数据处理方法 |
-
2022
- 2022-12-19 CN CN202211635303.1A patent/CN116958622A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117633706A (zh) * | 2023-11-30 | 2024-03-01 | 众悦(威海)信息技术有限公司 | 一种用于信息系统数据融合的数据处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3985578A1 (en) | Method and system for automatically training machine learning model | |
Bhuvaneshwari et al. | Spam review detection using self attention based CNN and bi-directional LSTM | |
CN111126396A (zh) | 图像识别方法、装置、计算机设备以及存储介质 | |
CN111783903A (zh) | 文本处理方法、文本模型的处理方法及装置、计算机设备 | |
CN111696656B (zh) | 一种互联网医疗平台的医生评价方法、装置 | |
CN112258250A (zh) | 基于网络热点的目标用户识别方法、装置和计算机设备 | |
CN112528136A (zh) | 一种观点标签的生成方法、装置、电子设备和存储介质 | |
CN116842194A (zh) | 一种电力语义知识图谱系统及方法 | |
CN114372532A (zh) | 标签标注质量的确定方法、装置、设备、介质及产品 | |
CN115222443A (zh) | 客户群体划分方法、装置、设备及存储介质 | |
CN113656699B (zh) | 用户特征向量确定方法、相关设备及介质 | |
CN111259115A (zh) | 内容真实性检测模型的训练方法、装置和计算设备 | |
CN116958622A (zh) | 数据的分类方法、装置、设备、介质及程序产品 | |
US10346856B1 (en) | Personality aggregation and web browsing | |
CN113821587A (zh) | 文本相关性确定方法、模型训练方法、装置及存储介质 | |
CN117312562A (zh) | 内容审核模型的训练方法、装置、设备及存储介质 | |
CN113689234B (zh) | 一种基于深度学习的平台相关的广告点击率预测方法 | |
CN115168590A (zh) | 文本特征提取方法、模型训练方法、装置、设备及介质 | |
CN115186085A (zh) | 回复内容处理方法以及媒体内容互动内容的交互方法 | |
CN112084408B (zh) | 名单数据筛选方法、装置、计算机设备及存储介质 | |
CN114612246A (zh) | 对象集合识别方法、装置、计算机设备及存储介质 | |
CN116701962B (zh) | 边缘数据处理方法、装置、计算设备及存储介质 | |
Berg et al. | Do you see what I see? Measuring the semantic differences in image‐recognition services' outputs | |
CN116823069B (zh) | 基于文本分析的智能客服服务质检方法及相关设备 | |
CN113821498A (zh) | 数据的筛选方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |