CN117251761A - 数据对象分类方法、装置、存储介质及电子装置 - Google Patents
数据对象分类方法、装置、存储介质及电子装置 Download PDFInfo
- Publication number
- CN117251761A CN117251761A CN202311142880.1A CN202311142880A CN117251761A CN 117251761 A CN117251761 A CN 117251761A CN 202311142880 A CN202311142880 A CN 202311142880A CN 117251761 A CN117251761 A CN 117251761A
- Authority
- CN
- China
- Prior art keywords
- data object
- classification
- classified
- characterization vector
- storage area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 239000013598 vector Substances 0.000 claims abstract description 391
- 238000012512 characterization method Methods 0.000 claims abstract description 307
- 238000012545 processing Methods 0.000 claims abstract description 28
- 238000012216 screening Methods 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 30
- 230000004044 response Effects 0.000 claims description 28
- 238000013500 data storage Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007711 solidification Methods 0.000 description 1
- 230000008023 solidification Effects 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据对象分类方法、装置、存储介质及电子装置。该方法包括:获取待分类数据对象以及待分类数据对象对应的多个表征向量,其中,多个表征向量通过预先对待分类数据对象进行向量化处理后得到;基于预设分类条件和待分类数据对象对应的多个表征向量,对待分类数据对象进行分类处理,得到第一分类结果,其中,预设分类条件用于确定待分类数据对象的分类阈值。本申请解决了相关技术中对数据对象进行分类时的分类效率低、准确性差的技术问题。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种数据对象分类方法、装置、存储介质及电子装置。
背景技术
随着大数据的发展,很多行业和工作都涉及到对大量的相似数据进行整理和分类,例如,在人工智能(Artificial Intelligence,AI)模型训练过程中,需要对训练过程中所使用的数据集进行归纳分类,以评估数据集是否存在缺失或冗余。相关技术中在利用给定分类或目标数据搜索相似数据以进行分类时,需要预先提供一个分类目标,例如,指定一张预设图像,再从剩余图像中查找与预设图像的相似度大于预设阈值的图像;或者指定一个已有的特征,例如,文本描述、颜色,再将待分类数据根据特征相似度匹配的结果进行分类。但是,这种方式仅能保证分类结果与预先设置的分类目标具有足够的相关性,无法保证分类结果中的每个数据对象之间都具有强相关性,从而影响分类准确性。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请至少部分实施例提供了一种数据对象分类方法、装置、存储介质及电子装置,以至少解决相关技术中对数据对象进行分类时的分类效率低、准确性差的技术问题。
根据本申请其中一实施例,提供了一种数据对象分类方法,包括:获取待分类数据对象以及待分类数据对象对应的多个表征向量,其中,多个表征向量通过预先对待分类数据对象进行向量化处理后得到;基于预设分类条件和待分类数据对象对应的多个表征向量,对待分类数据对象进行分类处理,得到第一分类结果,其中,预设分类条件用于确定待分类数据对象的分类阈值。
根据本申请其中一实施例,还提供了一种数据对象分类装置,包括:获取模块,用于获取待分类数据对象以及待分类数据对象对应的多个表征向量,其中,多个表征向量通过预先对待分类数据对象进行向量化处理后得到;分类模块,用于基于预设分类条件和待分类数据对象对应的多个表征向量,对待分类数据对象进行分类处理,得到第一分类结果,其中,预设分类条件用于确定待分类数据对象的分类阈值。
根据本申请其中一实施例,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述任一项中的数据对象分类方法。
根据本申请其中一实施例,还提供了一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述任一项中的数据对象分类方法。
在本申请至少部分实施例中,通过获取待分类数据对象以及待分类数据对象对应的多个表征向量,进而基于预设分类条件和待分类数据对象对应的多个表征向量,对待分类数据对象进行分类处理,得到第一分类结果,达到了对待分类数据对象进行高效分类的目的,从而实现了提升数据对象分类的分类效率和准确性的技术效果,进而解决了相关技术中对数据对象进行分类时的分类效率低、准确性差的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请其中一实施例的一种数据对象分类方法的移动终端的硬件结构框图;
图2是根据本申请其中一实施例的一种数据对象分类方法的流程图;
图3是根据本申请其中一实施例的一种数据对象分类方法的示意图;
图4是根据本申请其中一实施例的又一种数据对象分类方法的示意图;
图5是根据本申请其中一实施例的又一种数据对象分类方法的示意图;
图6是根据本申请其中一实施例的一种数据对象分类装置的结构框图;
图7是根据本申请其中一实施例的一种电子装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
视觉转换器(Vision Transformer,ViT)模型,是一种基于Transformer架构的图像分类模型。余弦相似度:通过测量两个向量的夹角的余弦值来度量它们之间的相似性,余弦相似性最常用于高维正空间。
稠密表征(Embedding):Embedding的过程就是把数据集合映射到向量空间,进而把数据进行向量化的过程,Embedding的目标就是找到一组合适的向量,来刻画现有的数据集合。
本公开涉及到的上述方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,该移动终端可以是智能手机、平板电脑、掌上电脑以及移动互联网设备、PAD、游戏机等终端设备。图1是本申请实施例的一种数据对象分类方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于中央处理器(CPU)、图形处理器(GPU)、数字信号处理(DSP)芯片、微处理器(MCU)、可编程逻辑器件(FPGA)、神经网络处理器(NPU)、张量处理器(TPU)、人工智能(AI)类型处理器等的处理装置)和用于存储数据的存储器104,在本申请其中一实施例中,还可以包括:输入输出设备108以及显示设备110。
在一些以游戏场景为主的可选实施例中,上述设备还可以提供具有触摸触敏表面的人机交互界面,该人机交互界面可以感应手指接触和/或手势来与图形用户界面(GUI)进行人机交互,该人机交互功能可以包括如下交互:创建网页、绘图、文字处理、制作电子文档、游戏、视频会议、即时通信、收发电子邮件、通话界面、播放数字视频、播放数字音乐和/或网络浏览等、用于执行上述人机交互功能的可执行指令被配置/存储在一个或多个处理器可执行的计算机程序产品或可读存储介质中。
本领域技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
根据本申请其中一实施例,提供了一种数据对象分类方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图2是根据本申请其中一实施例的数据对象分类方法的流程图,如图2所示,该方法包括如下步骤:
步骤S21,获取待分类数据对象以及待分类数据对象对应的多个表征向量,其中,多个表征向量通过预先对待分类数据对象进行向量化处理后得到;
步骤S22,基于预设分类条件和待分类数据对象对应的多个表征向量,对待分类数据对象进行分类处理,得到第一分类结果,其中,预设分类条件用于确定待分类数据对象的分类阈值。
上述待分类数据对象可以是任何类型的数据,例如文本、图像、音频等。待分类数据对象通常用于机器学习和数据挖掘任务中,通过对这些数据对象进行分类,可以进行预测、识别、推荐等应用。
待分类数据对象的获取途径包括但不限于:通过网络爬虫和数据采集工具从互联网上获取,例如从网页、社交媒体、论坛、新闻网站等地方获取待分类数据对象;通过查询数据库来获取待分类数据对象;从数据集的官方网站或其他数据共享平台上下载待分类数据对象,这些公开数据集通常是经过标注和整理的,可以直接用于分类模型的训练和评估;对于一些特定的待分类数据对象,可能需要人工进行标注和分类。需要说明的是,在获取待分类数据对象时,需要确保数据的质量和合法性。
上述待分类数据对象对应的多个表征向量可以通过预先对待分类数据对象进行向量化处理后得到,多个表征向量可以为嵌入向量(Embedding Vectors),能够用于描述待分类数据对象的特征和语义信息。该待分类数据对象可以为特定类型的数据对象集合(例如:图像image类型的数据对象集合),其中,每个数据对象分别对应一个表征向量。例如:image 1对应于embedding 1,image 2对应于embedding 2,image 3对应于embedding 3,以此类推。
上述向量化处理的过程则是通过机器学习算法将待分类数据对象转化为多个向量表示的过程,通过对待分类数据对象进行向量化处理,能够将待分类数据对象转换为固定长度的表征向量,从而使得计算机能够更好地理解和处理。
示例性的,当待分类数据对象为文本数据时,可以采用词嵌入模型或者全局向量表征将文本数据中的每个单词转换为一个表征向量,使得相似的单词在向量空间中距离较近。由此在分类任务中,可以将待分类的文本数据转换为多个单词向量的序列,然后通过池化等操作得到一个固定长度的表征向量。
示例性的,当待分类数据对象为图像数据时,可以采用卷积神经网络和预训练的深度学习模型将图像转换为多个特征向量,每个特征向量表示图像的不同层次的特征信息。由此在分类任务中,可以将图像数据转换为多个特征向量,然后通过池化等操作得到一个固定长度的表征向量。
通过将待分类数据对象转换为多个嵌入向量,可以提取出更丰富的特征信息,从而改善分类任务的性能,嵌入向量能够捕捉到待分类数据对象之间的相似性和关联性,从而能够更好地区分不同类别的数据对象。
以待分类数据对象为图像数据为例,使用Python的开源图片库(Pillow)作为图像文件的读取工具时,只要其支持的非高动态范围(High Dynamic Range,HDR)图片格式都可以使用,例如常见的便携式网络图形(Portable Network Graphics,PNG)、联合照片专家组(Joint Photographic Experts Group,JPEG)、真彩色图形适配器(Truevision GraphicsAdapter,TGA)等,无需做过多的处理,即可进行图像操作。
采用开源的预训练模型(open_clip)预先对待分类图集进行向量化处理,所使用的预训练权重为('ViT-L-14','openai'),从而将待分类图集中每张图像的表征向量计算出来并和原图像成对存储起来备用。图3是根据本申请其中一实施例的一种数据对象分类方法的示意图,如图3所示,预先对待分类图集中的图像1、图像2和图像3进行向量化处理,从而得到表征向量1、表征向量2和表征向量3,将图像1和表征向量1成对存储,将图像2和表征向量2成对存储,将图像3和表征向量3成对存储。需要说明的是,本申请实施例中的预训练模型仅为一种示例,实际应用中还可以选择其他能将图像进行有效向量化的AI模型,本申请实施例不予限制。
上述预设分类条件用于确定待分类数据对象的分类阈值,该分类阈值可以为相似度阈值,通过相似度阈值和待分类数据对象对应的多个表征向量对待分类数据对象进行分类处理,从而得到第一分类结果。
基于上述步骤S21至步骤S22,通过获取待分类数据对象以及待分类数据对象对应的多个表征向量,进而基于预设分类条件和待分类数据对象对应的多个表征向量,对待分类数据对象进行分类处理,得到第一分类结果,达到了对待分类数据对象进行高效分类的目的,从而实现了提升数据对象分类的分类效率和准确性的技术效果,进而解决了相关技术中对数据对象进行分类时的分类效率低、准确性差的技术问题。
下面对本申请实施例中的数据对象分类方法进行进一步介绍。
可选地,在步骤S22,基于预设分类条件和待分类数据对象对应的多个表征向量,对待分类数据对象进行分类处理,得到第一分类结果包括:
步骤S221,从待分类数据对象中选取第一数据对象,并将第一数据对象存储至第一分类存储区域,其中,第一数据对象为当前设定的分类目标,第一分类存储区域对应的第一表征向量由第一分类存储区域内存储的数据对象对应的表征向量确定,且第一表征向量的初始值由第一数据对象对应的表征向量确定;
步骤S222,利用第一分类存储区域对应的第一表征向量,从待分类数据对象中查找第二数据对象,其中,第一表征向量与第二数据对象对应的表征向量之间的相似度最高;
步骤S223,基于预设分类条件,以及第一表征向量与第二数据对象对应的表征向量之间的相似度,对待分类数据对象进行分类处理,得到第一分类结果。
上述第一数据对象为当前设定的分类目标,可以从待分类数据对象中随机选取。上述第一分类存储区域可以为预先创建的空白容器,该空白容器可以但不限于为数字容器、虚拟容器以及云存储容器,其中,数字容器是指电子设备中的存储区域,如硬盘、闪存等,这种存储区域可以用于存储各种数字信息,如文件、图片、视频等;虚拟容器是指计算机系统中的虚拟存储区域,如虚拟磁盘、虚拟文件系统等,这种存储区域可以用于模拟物理容器或数字容器的功能,实现文件的存储和管理;云存储容器是指云计算平台提供的存储服务,用户可以将文件上传到云端进行存储和管理,这种存储区域可以实现跨设备和跨地域的文件访问和共享。需要说明的是,不同类型的容器适用于不同的存储需求和场景,本申请实施例不予限制。
上述第一表征向量为根据第一分类存储区域内存储的数据对象对应的表征向量而确定出的表征向量均值,表征向量均值可用于表示第一分类存储区域内存储的数据对象的综合特征,第一表征向量的初始值可以为第一数据对象对应的表征向量。以图像数据为例,综合特征为图像的内容、颜色、尺寸等要素组合而成的复合特征。
在利用第一表征向量从待分类数据对象中查找第二数据对象时,将与第一表征向量之间的相似度最大的表征向量所对应的待分类数据对象确定为第二数据对象。进一步的,利用相似度阈值,以及第一表征向量与第二数据对象对应的表征向量之间的相似度,对待分类数据对象进行分类处理,得到第一分类结果。
基于上述可选实施例,通过从待分类数据对象中选取第一数据对象,并将第一数据对象存储至第一分类存储区域,进而利用第一分类存储区域对应的第一表征向量,从待分类数据对象中查找第二数据对象,最后基于预设分类条件,以及第一表征向量与第二数据对象对应的表征向量之间的相似度,对待分类数据对象进行分类处理,得到第一分类结果,能够保证第一分类结果内的数据对象具有强相关性,进一步提升分类效率。
可选地,第一表征向量由第一分类存储区域内存储的数据对象对应的表征向量总和与第一分类存储区域内存储的数据对象数量进行均值计算得到。
具体的,第一表征向量可以通过以下公式计算得到:
其中,avg_embedding表示第一表征向量,Vi表示第一分类存储区域内存储的每个数据对象对应的表征向量,n表示第一分类存储区域内存储的数据对象数量。
可选地,在步骤S223,基于预设分类条件,以及第一表征向量与第二数据对象对应的表征向量之间的相似度,对待分类数据对象进行分类处理,得到第一分类结果包括:
步骤S2231,响应于第一表征向量与第二数据对象对应的表征向量之间的相似度满足预设分类条件,将第二数据对象存储至第一分类存储区域;
步骤S2232,基于第一分类存储区域内当前存储的数据对象对应的表征向量均值,对第一表征向量进行更新;
步骤S2233,利用更新后的第一表征向量,从待分类数据对象中查找新的数据对象,其中,更新后的第一表征向量与新的数据对象对应的表征向量之间的相似度最高;
步骤S2234,响应于更新后的第一表征向量与新的数据对象对应的表征向量之间的相似度满足预设分类条件,将新的数据对象存储至第一分类存储区域,直至得到第一分类结果。
具体的,当第一表征向量与第二数据对象对应的表征向量之间的相似度大于相似度阈值时,将第二数据对象存储至容器,并且基于容器内当前存储的数据对象对应的表征向量均值,对第一表征向量进行更新,利用更新后的第一表征向量从待分类数据对象中查找新的最相似的数据对象,当更新后的第一表征向量与新的数据对象对应的表征向量之间的相似度大于相似度阈值时,将新的数据对象存储至容器中,直至得到第一分类结果。
以待分类数据对象为图像数据为例,在待分类图像集中,图像1对应的表征向量1与容器的表征向量均值之间的相似度最高,当容器的表征向量均值与图像1对应的表征向量1之间的相似度大于相似度阈值时,将图像1存储至容器中并对容器的表征向量均值进行更新;当更新后的表征向量均值与图像2对应的表征向量2之间的相似度大于相似度阈值时,将图像2存储至容器中,直至得到第一分类结果。
基于上述可选实施例,通过响应于第一表征向量与第二数据对象对应的表征向量之间的相似度满足预设分类条件,将第二数据对象存储至第一分类存储区域,进而基于第一分类存储区域内当前存储的数据对象对应的表征向量均值,对第一表征向量进行更新,随后利用更新后的第一表征向量,从待分类数据对象中查找新的数据对象,最后响应于更新后的第一表征向量与新的数据对象对应的表征向量之间的相似度满足预设分类条件,将新的数据对象存储至第一分类存储区域,直至得到第一分类结果,进一步提升了分类效率。
可选地,本申请实施例中的数据对象分类方法还包括:响应于第一表征向量与第二数据对象对应的表征向量之间的相似度未满足预设分类条件,创建第二分类存储区域,其中,第二分类存储区域与第一分类存储区域用于存储待分类数据对象中分属不同类别的数据对象。
具体的,当第一表征向量与第二数据对象对应的表征向量之间的相似度小于或者等于相似度阈值时,则创建一个新的容器进行分类,不同容器可以存储不同类别的数据对象。
基于上述可选实施例,响应于第一表征向量与第二数据对象对应的表征向量之间的相似度未满足预设分类条件,创建第二分类存储区域,从而能够采用不同容器存储不同类别的数据对象,进一步提升分类效率。
图4是根据本申请其中一实施例的又一种数据对象分类方法的示意图,如图4所示,以待分类数据对象为图像数据为例,预先设置相似度阈值,当不存在待分类图像时结束分类流程,当存在待分类图像时,创建一个新的容器。若当前容器为空容器时,则从待分类图像中随机选择一个图像放入容器并更新容器的表征向量均值;若当前容器并非为空容器时,则从待分类图像中查找与表征向量均值相似度最高的图像,若该图像与表征向量均值的相似度大于相似度阈值,将该图像放入容器并更新容器的表征向量均值,若该图像与表征向量均值的相似度小于或者等于相似度阈值,则结束当前容器分类,重新创建容器存储该图像,由此可以达到对待分类数据对象进行高效分类的目的,从而提升数据对象分类的分类效率和准确性。
可选地,本申请实施例中的数据对象分类方法还包括:
步骤S31,响应于第一分类存储区域内当前存储的数据对象数量大于预设数值,确定第一分类存储区域内当前存储的数据对象对应的表征向量与第一表征向量之间的相似度是否满足预设筛选条件,其中,预设筛选条件用于确定第一分类存储区域内当前存储的数据对象的筛选阈值;
步骤S32,响应于第一分类存储区域内当前存储的数据对象对应的表征向量与第一表征向量之间的相似度满足预设筛选条件,保留第一分类存储区域内当前存储的数据对象;
步骤S33,响应于第一分类存储区域内当前存储的数据对象对应的表征向量与第一表征向量之间的相似度未满足预设筛选条件,重新对第一分类存储区域内当前存储的数据对象进行分类。
继续以待分类数据对象为图像数据为例,当容器内存储的图像数量大于预设数值时,确定容器中当前存储的每张图像对应的表征向量与表征向量均值之间的相似度是否满足预设筛选条件,预设数值可以为1。具体的,若容器中图像对应的表征向量与表征向量均值之间的相似度大于筛选阈值,则在容器中保留该图像;若容器中图像对应的表征向量与表征向量均值之间的相似度小于筛选阈值,则重新对该图像进行分类。
基于上述可选实施例,通过响应于第一分类存储区域内当前存储的数据对象数量大于预设数值,确定第一分类存储区域内当前存储的数据对象对应的表征向量与第一表征向量之间的相似度是否满足预设筛选条件,进而响应于第一分类存储区域内当前存储的数据对象对应的表征向量与第一表征向量之间的相似度满足预设筛选条件,保留第一分类存储区域内当前存储的数据对象,最后响应于第一分类存储区域内当前存储的数据对象对应的表征向量与第一表征向量之间的相似度未满足预设筛选条件,重新对第一分类存储区域内当前存储的数据对象进行分类,由此能够避免由于放图顺序而导致表征向量均值不够准确,从而使第一分类结果出现误差的问题,通过对第一分类结果进行修剪操作,进一步提升了分类准确性。
可选地,本申请实施例中的数据对象分类方法还包括:响应于第一分类存储区域内存储的数据对象数量未大于预设数值,重新对第一分类存储区域内存储的数据对象进行分类并销毁第一分类存储区域。
继续以待分类数据对象为图像数据为例,当容器内存储的图像数量小于或者等于预设数值时,重新对容器内的图像进行分类并删除当前容器。
图5是根据本申请其中一实施例的又一种数据对象分类方法的示意图,如图5所示,预先设置筛选阈值,选择一个存储第一分类结果的容器,若容器内存储的图像数量大于1张,则计算容器的表征向量均值;若容器内存储的图像数量小于或者等于1张,则将图像放回待分类图像集重新分类并删除容器。若容器中图像对应的表征向量与表征向量均值之间的相似度大于筛选阈值,则在容器中保留该图像;若容器中图像对应的表征向量与表征向量均值之间的相似度小于筛选阈值,则将图像放回待分类图像集重新分类。
可选地,本申请实施例中的数据对象分类方法还包括:
步骤S41,从剩余数据对象中选取第三数据对象,并将第一数据对象存储至第三分类存储区域,其中,剩余数据对象为待分类数据对象在经过分类处理得到第一分类结果之后尚未分类的数据对象,第三数据对象为当前设定的分类目标,第三分类存储区域对应的第二表征向量由第三分类存储区域内存储的数据对象对应的表征向量确定,且第二表征向量的初始值由第三数据对象对应的表征向量确定;
步骤S42,利用第三分类存储区域对应的第二表征向量,从剩余数据对象中查找第四数据对象,其中,第二表征向量与第四数据对象对应的表征向量之间的相似度最高;
步骤S43,基于预设分类条件,以及第二表征向量与第四数据对象对应的表征向量之间的相似度,对剩余数据对象进行分类处理,得到第二分类结果。
对剩余数据对象进行分类处理得到第二分类结果的实现过程可以参照上述对待分类对象进行分类处理得到第一分类结果的实现过程,不予赘述。
基于上述可选实施例,通过从剩余数据对象中选取第三数据对象,并将第一数据对象存储至第三分类存储区域,进而利用第三分类存储区域对应的第二表征向量,从剩余数据对象中查找第四数据对象,最后基于预设分类条件,以及第二表征向量与第四数据对象对应的表征向量之间的相似度,对剩余数据对象进行分类处理,得到第二分类结果,能够在获得修剪后的容器列表和剩余数据对象的基础上,对剩余数据对象进行再次分类,从而获得新的容器列表,进一步保证了分类的准确性。
可选地,本申请实施例中的数据对象分类方法还包括:基于第一表征向量与第二表征向量之间的相似度,对第一分类结果与第二分类结果进行合并处理,得到目标分类结果。
具体的,第一分类结果为对待分类数据对象进行分类处理所得到的容器列表,第二分类结果为对第一分类结果进行修剪后再次进行分类处理所得到的容器列表,其中,容器类表中每个容器内存储有归属于同一类的数据对象。通过比较任意两组容器对应表征向量均值之间的相似度,对两组容器进行合并处理,从而得到最终的目标分类结果。
基于上述可选实施例,通过基于第一表征向量与第二表征向量之间的相似度,对第一分类结果与第二分类结果进行合并处理,能够快速得到目标分类结果,进一步提升分类效率。
可选地,基于第一表征向量与第二表征向量之间的相似度,对第一分类结果与第二分类结果进行合并处理,得到目标分类结果包括:响应于第一表征向量与第二表征向量之间的相似度满足预设合并条件,对第一分类存储区域与第三分类存储区域进行合并处理,得到目标分类结果,其中,预设合并条件用于确定第一表征向量与第二表征向量之间的相似度阈值。
具体的,当第一表征向量与第二表征向量之间的相似度大于相似度阈值,则对第一分类存储区域与第三分类存储区域进行合并处理,得到目标分类结果,以进一步提升分类效率。
可选地,本申请实施例中的数据对象分类方法还包括:
步骤S51,从预设数据对象资源库中获取候选数据对象;
步骤S52,对候选数据对象中每个数据对象进行向量化处理,得到每个数据对象对应的表征向量;
步骤S53,将候选数据对象中每个数据对象以及每个数据对象对应的表征向量配对存储至预设数据存储区域。
上述预设数据对象资源库可以为Python的开源图片库。该Python的开源图片库是可以进行图片数据读取的代码功能库。当然,上述预设数据对象资源库还可以是直接存储图片数据的图片资源库。
上述候选数据对象可以为非HDR格式的图像,对候选数据对象中每个数据对象进行向量化处理,得到每个数据对象对应的表征向量,进而将候选数据对象中每个数据对象以及每个数据对象对应的表征向量配对存储至预设数据存储区域,从而实现待分类数据对象的固化存储。
可选地,在步骤S21,获取待分类数据对象以及待分类数据对象对应的多个表征向量包括:从预设数据存储区域获取待分类数据对象以及待分类数据对象对应的多个表征向量,其中,待分类数据对象为候选数据对象中的至少部分数据对象。
具体的,从预设数据存储区域获取待分类数据对象以及待分类数据对象对应的多个表征向量,待分类数据对象可以为候选数据对象中的全部数据对象,也可以为候选数据对象中的部分数据对象,由此能够进一步提升数据获取速度和分类效率。
可选地,在步骤S21,获取待分类数据对象以及待分类数据对象对应的多个表征向量包括:从预设数据对象资源库中获取待分类数据对象;对待分类数据对象中每个数据对象进行向量化处理,得到多个表征向量。
具体的,在从预设数据对象资源库中获取待分类数据对象后,可以实时对待分类数据对象中每个数据对象进行向量化处理,得到临时存储的多个表征向量,从而用于分类处理,由此能够进一步提升数据获取速度和分类效率。
在本申请实施例中,仅需要提供相似度阈值,无需提供具体分类目标,即可综合判断待分类数据对象的相似度,从而进行归类,而不是按照具体的某一特征,例如,图像包含的某个颜色或者是否出现某个特定的人物进行分类,由此无需进行大量的比对计算,分类过程能够快速运行,从而有效提升了分类效率,同时能够确保每个分类结果中的数据对象相互之间都具有高相似度,进一步保证了分类准确性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
在本实施例中还提供了一种数据对象分类装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图6是根据本申请其中一实施例的一种数据对象分类装置的结构框图,如图6所示,该装置包括:
获取模块601,用于获取待分类数据对象以及待分类数据对象对应的多个表征向量,其中,多个表征向量通过预先对待分类数据对象进行向量化处理后得到;
分类模块602,用于基于预设分类条件和待分类数据对象对应的多个表征向量,对待分类数据对象进行分类处理,得到第一分类结果,其中,预设分类条件用于确定待分类数据对象的分类阈值。
可选地,分类模块602还用于:从待分类数据对象中选取第一数据对象,并将第一数据对象存储至第一分类存储区域,其中,第一数据对象为当前设定的分类目标,第一分类存储区域对应的第一表征向量由第一分类存储区域内存储的数据对象对应的表征向量确定,且第一表征向量的初始值由第一数据对象对应的表征向量确定;利用第一分类存储区域对应的第一表征向量,从待分类数据对象中查找第二数据对象,其中,第一表征向量与第二数据对象对应的表征向量之间的相似度最高;基于预设分类条件,以及第一表征向量与第二数据对象对应的表征向量之间的相似度,对待分类数据对象进行分类处理,得到第一分类结果。
可选地,第一表征向量由第一分类存储区域内存储的数据对象对应的表征向量总和与第一分类存储区域内存储的数据对象数量进行均值计算得到。
可选地,分类模块602还用于:响应于第一表征向量与第二数据对象对应的表征向量之间的相似度满足预设分类条件,将第二数据对象存储至第一分类存储区域;基于第一分类存储区域内当前存储的数据对象对应的表征向量均值,对第一表征向量进行更新;利用更新后的第一表征向量,从待分类数据对象中查找新的数据对象,其中,更新后的第一表征向量与新的数据对象对应的表征向量之间的相似度最高;响应于更新后的第一表征向量与新的数据对象对应的表征向量之间的相似度满足预设分类条件,将新的数据对象存储至第一分类存储区域,直至得到第一分类结果。
可选地,数据对象分类装置还包括:创建模块603,用于响应于第一表征向量与第二数据对象对应的表征向量之间的相似度未满足预设分类条件,创建第二分类存储区域,其中,第二分类存储区域与第一分类存储区域用于存储待分类数据对象中分属不同类别的数据对象。
可选地,数据对象分类装置还包括:确定模块604,用于响应于第一分类存储区域内当前存储的数据对象数量大于预设数值,确定第一分类存储区域内当前存储的数据对象对应的表征向量与第一表征向量之间的相似度是否满足预设筛选条件,其中,预设筛选条件用于确定第一分类存储区域内当前存储的数据对象的筛选阈值;分类模块602还用于响应于第一分类存储区域内当前存储的数据对象对应的表征向量与第一表征向量之间的相似度满足预设筛选条件,保留第一分类存储区域内当前存储的数据对象;分类模块602还用于响应于第一分类存储区域内当前存储的数据对象对应的表征向量与第一表征向量之间的相似度未满足预设筛选条件,重新对第一分类存储区域内当前存储的数据对象进行分类。
可选地,分类模块602还用于响应于第一分类存储区域内存储的数据对象数量未大于预设数值,重新对第一分类存储区域内存储的数据对象进行分类并销毁第一分类存储区域。
可选地,分类模块602还用于:从剩余数据对象中选取第三数据对象,并将第一数据对象存储至第三分类存储区域,其中,剩余数据对象为待分类数据对象在经过分类处理得到第一分类结果之后尚未分类的数据对象,第三数据对象为当前设定的分类目标,第三分类存储区域对应的第二表征向量由第三分类存储区域内存储的数据对象对应的表征向量确定,且第二表征向量的初始值由第三数据对象对应的表征向量确定;利用第三分类存储区域对应的第二表征向量,从剩余数据对象中查找第四数据对象,其中,第二表征向量与第四数据对象对应的表征向量之间的相似度最高;基于预设分类条件,以及第二表征向量与第四数据对象对应的表征向量之间的相似度,对剩余数据对象进行分类处理,得到第二分类结果。
可选地,数据对象分类装置还包括:合并模块605,用于基于第一表征向量与第二表征向量之间的相似度,对第一分类结果与第二分类结果进行合并处理,得到目标分类结果。
可选地,合并模块605还用于:响应于第一表征向量与第二表征向量之间的相似度满足预设合并条件,对第一分类存储区域与第三分类存储区域进行合并处理,得到目标分类结果,其中,预设合并条件用于确定第一表征向量与第二表征向量之间的相似度阈值。
可选地,数据对象分类装置还包括:存储模块606,用于:从预设数据对象资源库中获取候选数据对象;对候选数据对象中每个数据对象进行向量化处理,得到每个数据对象对应的表征向量;将候选数据对象中每个数据对象以及每个数据对象对应的表征向量配对存储至预设数据存储区域。
可选地,获取模块601还用于从预设数据存储区域获取待分类数据对象以及待分类数据对象对应的多个表征向量,其中,待分类数据对象为候选数据对象中的至少部分数据对象。
可选地,获取模块601还用于从预设数据对象资源库中获取待分类数据对象;对待分类数据对象中每个数据对象进行向量化处理,得到多个表征向量。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
可选地,在本实施例中,上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取待分类数据对象以及待分类数据对象对应的多个表征向量,其中,多个表征向量通过预先对待分类数据对象进行向量化处理后得到;
S2,基于预设分类条件和待分类数据对象对应的多个表征向量,对待分类数据对象进行分类处理,得到第一分类结果,其中,预设分类条件用于确定待分类数据对象的分类阈值。
可选地,上述计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:从待分类数据对象中选取第一数据对象,并将第一数据对象存储至第一分类存储区域,其中,第一数据对象为当前设定的分类目标,第一分类存储区域对应的第一表征向量由第一分类存储区域内存储的数据对象对应的表征向量确定,且第一表征向量的初始值由第一数据对象对应的表征向量确定;利用第一分类存储区域对应的第一表征向量,从待分类数据对象中查找第二数据对象,其中,第一表征向量与第二数据对象对应的表征向量之间的相似度最高;基于预设分类条件,以及第一表征向量与第二数据对象对应的表征向量之间的相似度,对待分类数据对象进行分类处理,得到第一分类结果。
可选地,第一表征向量由第一分类存储区域内存储的数据对象对应的表征向量总和与第一分类存储区域内存储的数据对象数量进行均值计算得到。
可选地,上述计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:响应于第一表征向量与第二数据对象对应的表征向量之间的相似度满足预设分类条件,将第二数据对象存储至第一分类存储区域;基于第一分类存储区域内当前存储的数据对象对应的表征向量均值,对第一表征向量进行更新;利用更新后的第一表征向量,从待分类数据对象中查找新的数据对象,其中,更新后的第一表征向量与新的数据对象对应的表征向量之间的相似度最高;响应于更新后的第一表征向量与新的数据对象对应的表征向量之间的相似度满足预设分类条件,将新的数据对象存储至第一分类存储区域,直至得到第一分类结果。
可选地,上述计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:响应于第一表征向量与第二数据对象对应的表征向量之间的相似度未满足预设分类条件,创建第二分类存储区域,其中,第二分类存储区域与第一分类存储区域用于存储待分类数据对象中分属不同类别的数据对象。
可选地,上述计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:响应于第一分类存储区域内当前存储的数据对象数量大于预设数值,确定第一分类存储区域内当前存储的数据对象对应的表征向量与第一表征向量之间的相似度是否满足预设筛选条件,其中,预设筛选条件用于确定第一分类存储区域内当前存储的数据对象的筛选阈值;响应于第一分类存储区域内当前存储的数据对象对应的表征向量与第一表征向量之间的相似度满足预设筛选条件,保留第一分类存储区域内当前存储的数据对象;响应于第一分类存储区域内当前存储的数据对象对应的表征向量与第一表征向量之间的相似度未满足预设筛选条件,重新对第一分类存储区域内当前存储的数据对象进行分类。
可选地,上述计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:响应于第一分类存储区域内存储的数据对象数量未大于预设数值,重新对第一分类存储区域内存储的数据对象进行分类并销毁第一分类存储区域。
可选地,上述计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:从剩余数据对象中选取第三数据对象,并将第一数据对象存储至第三分类存储区域,其中,剩余数据对象为待分类数据对象在经过分类处理得到第一分类结果之后尚未分类的数据对象,第三数据对象为当前设定的分类目标,第三分类存储区域对应的第二表征向量由第三分类存储区域内存储的数据对象对应的表征向量确定,且第二表征向量的初始值由第三数据对象对应的表征向量确定;利用第三分类存储区域对应的第二表征向量,从剩余数据对象中查找第四数据对象,其中,第二表征向量与第四数据对象对应的表征向量之间的相似度最高;基于预设分类条件,以及第二表征向量与第四数据对象对应的表征向量之间的相似度,对剩余数据对象进行分类处理,得到第二分类结果。
可选地,上述计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:基于第一表征向量与第二表征向量之间的相似度,对第一分类结果与第二分类结果进行合并处理,得到目标分类结果。
可选地,上述计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:响应于第一表征向量与第二表征向量之间的相似度满足预设合并条件,对第一分类存储区域与第三分类存储区域进行合并处理,得到目标分类结果,其中,预设合并条件用于确定第一表征向量与第二表征向量之间的相似度阈值。
可选地,上述计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:从预设数据对象资源库中获取候选数据对象;对候选数据对象中每个数据对象进行向量化处理,得到每个数据对象对应的表征向量;将候选数据对象中每个数据对象以及每个数据对象对应的表征向量配对存储至预设数据存储区域。
可选地,上述计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:从预设数据存储区域获取待分类数据对象以及待分类数据对象对应的多个表征向量,其中,待分类数据对象为候选数据对象中的至少部分数据对象。
可选地,上述计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:从预设数据对象资源库中获取待分类数据对象;对待分类数据对象中每个数据对象进行向量化处理,得到多个表征向量。
在该实施例的计算机可读存储介质中,通过获取待分类数据对象以及待分类数据对象对应的多个表征向量,进而基于预设分类条件和待分类数据对象对应的多个表征向量,对待分类数据对象进行分类处理,得到第一分类结果,达到了对待分类数据对象进行高效分类的目的,从而实现了提升数据对象分类的分类效率和准确性的技术效果,进而解决了相关技术中对数据对象进行分类时的分类效率低、准确性差的技术问题。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。
在本申请的示例性实施例中,计算机可读存储介质上存储有能够实现本实施例上述方法的程序产品。在一些可能的实施方式中,本申请实施例的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本实施例上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。
根据本申请的实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本申请实施例的程序产品不限于此,在本申请实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
上述程序产品可以采用一个或多个计算机可读介质的任意组合。该计算机可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列举)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
需要说明的是,计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
本申请的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取待分类数据对象以及待分类数据对象对应的多个表征向量,其中,多个表征向量通过预先对待分类数据对象进行向量化处理后得到;
S2,基于预设分类条件和待分类数据对象对应的多个表征向量,对待分类数据对象进行分类处理,得到第一分类结果,其中,预设分类条件用于确定待分类数据对象的分类阈值。
可选地,上述处理器还可以被设置为通过计算机程序执行以下步骤:从待分类数据对象中选取第一数据对象,并将第一数据对象存储至第一分类存储区域,其中,第一数据对象为当前设定的分类目标,第一分类存储区域对应的第一表征向量由第一分类存储区域内存储的数据对象对应的表征向量确定,且第一表征向量的初始值由第一数据对象对应的表征向量确定;利用第一分类存储区域对应的第一表征向量,从待分类数据对象中查找第二数据对象,其中,第一表征向量与第二数据对象对应的表征向量之间的相似度最高;基于预设分类条件,以及第一表征向量与第二数据对象对应的表征向量之间的相似度,对待分类数据对象进行分类处理,得到第一分类结果。
可选地,第一表征向量由第一分类存储区域内存储的数据对象对应的表征向量总和与第一分类存储区域内存储的数据对象数量进行均值计算得到。
可选地,上述处理器还可以被设置为通过计算机程序执行以下步骤:响应于第一表征向量与第二数据对象对应的表征向量之间的相似度满足预设分类条件,将第二数据对象存储至第一分类存储区域;基于第一分类存储区域内当前存储的数据对象对应的表征向量均值,对第一表征向量进行更新;利用更新后的第一表征向量,从待分类数据对象中查找新的数据对象,其中,更新后的第一表征向量与新的数据对象对应的表征向量之间的相似度最高;响应于更新后的第一表征向量与新的数据对象对应的表征向量之间的相似度满足预设分类条件,将新的数据对象存储至第一分类存储区域,直至得到第一分类结果。
可选地,上述处理器还可以被设置为通过计算机程序执行以下步骤:响应于第一表征向量与第二数据对象对应的表征向量之间的相似度未满足预设分类条件,创建第二分类存储区域,其中,第二分类存储区域与第一分类存储区域用于存储待分类数据对象中分属不同类别的数据对象。
可选地,上述处理器还可以被设置为通过计算机程序执行以下步骤:响应于第一分类存储区域内当前存储的数据对象数量大于预设数值,确定第一分类存储区域内当前存储的数据对象对应的表征向量与第一表征向量之间的相似度是否满足预设筛选条件,其中,预设筛选条件用于确定第一分类存储区域内当前存储的数据对象的筛选阈值;响应于第一分类存储区域内当前存储的数据对象对应的表征向量与第一表征向量之间的相似度满足预设筛选条件,保留第一分类存储区域内当前存储的数据对象;响应于第一分类存储区域内当前存储的数据对象对应的表征向量与第一表征向量之间的相似度未满足预设筛选条件,重新对第一分类存储区域内当前存储的数据对象进行分类。
可选地,上述处理器还可以被设置为通过计算机程序执行以下步骤:响应于第一分类存储区域内存储的数据对象数量未大于预设数值,重新对第一分类存储区域内存储的数据对象进行分类并销毁第一分类存储区域。
可选地,上述处理器还可以被设置为通过计算机程序执行以下步骤:从剩余数据对象中选取第三数据对象,并将第一数据对象存储至第三分类存储区域,其中,剩余数据对象为待分类数据对象在经过分类处理得到第一分类结果之后尚未分类的数据对象,第三数据对象为当前设定的分类目标,第三分类存储区域对应的第二表征向量由第三分类存储区域内存储的数据对象对应的表征向量确定,且第二表征向量的初始值由第三数据对象对应的表征向量确定;利用第三分类存储区域对应的第二表征向量,从剩余数据对象中查找第四数据对象,其中,第二表征向量与第四数据对象对应的表征向量之间的相似度最高;基于预设分类条件,以及第二表征向量与第四数据对象对应的表征向量之间的相似度,对剩余数据对象进行分类处理,得到第二分类结果。
可选地,上述处理器还可以被设置为通过计算机程序执行以下步骤:基于第一表征向量与第二表征向量之间的相似度,对第一分类结果与第二分类结果进行合并处理,得到目标分类结果。
可选地,上述处理器还可以被设置为通过计算机程序执行以下步骤:响应于第一表征向量与第二表征向量之间的相似度满足预设合并条件,对第一分类存储区域与第三分类存储区域进行合并处理,得到目标分类结果,其中,预设合并条件用于确定第一表征向量与第二表征向量之间的相似度阈值。
可选地,上述处理器还可以被设置为通过计算机程序执行以下步骤:从预设数据对象资源库中获取候选数据对象;对候选数据对象中每个数据对象进行向量化处理,得到每个数据对象对应的表征向量;将候选数据对象中每个数据对象以及每个数据对象对应的表征向量配对存储至预设数据存储区域。
可选地,上述处理器还可以被设置为通过计算机程序执行以下步骤:从预设数据存储区域获取待分类数据对象以及待分类数据对象对应的多个表征向量,其中,待分类数据对象为候选数据对象中的至少部分数据对象。
可选地,上述处理器还可以被设置为通过计算机程序执行以下步骤:从预设数据对象资源库中获取待分类数据对象;对待分类数据对象中每个数据对象进行向量化处理,得到多个表征向量。
在该实施例的电子装置中,通过获取待分类数据对象以及待分类数据对象对应的多个表征向量,进而基于预设分类条件和待分类数据对象对应的多个表征向量,对待分类数据对象进行分类处理,得到第一分类结果,达到了对待分类数据对象进行高效分类的目的,从而实现了提升数据对象分类的分类效率和准确性的技术效果,进而解决了相关技术中对数据对象进行分类时的分类效率低、准确性差的技术问题。
图7是根据本申请实施例的一种电子装置的示意图。如图7所示,电子装置700仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,电子装置700以通用计算设备的形式表现。电子装置700的组件可以包括但不限于:上述至少一个处理器710、上述至少一个存储器720、连接不同系统组件(包括存储器720和处理器710)的总线730和显示器740。
其中,上述存储器720存储有程序代码,所述程序代码可以被处理器710执行,使得处理器710执行本申请实施例的上述方法部分中描述的根据本申请各种示例性实施方式的步骤。
存储器720可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202,还可以进一步包括只读存储单元(ROM)7203,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。
在一些实例中,存储器720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204,这样的程序模块7205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。存储器720可进一步包括相对于处理器710远程设置的存储器,这些远程存储器可以通过网络连接至电子装置700。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
总线730可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理器710或者使用多种总线结构中的任意总线结构的局域总线。
显示器740可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与电子装置700的用户界面进行交互。
可选地,电子装置700也可以与一个或多个外部设备800(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子装置700交互的设备通信,和/或与使得该电子装置700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且,电子装置700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图7所示,网络适配器760通过总线730与电子装置700的其它模块通信。应当明白,尽管图7中未示出,可以结合电子装置700使用其它硬件和/或软件模块,可以包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
上述电子装置700还可以包括:键盘、光标控制设备(如鼠标)、输入/输出接口(I/O接口)、网络接口、电源和/或相机。
本领域普通技术人员可以理解,图7所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,电子装置700还可包括比图7中所示更多或者更少的组件,或者具有与图1所示不同的配置。存储器720可用于存储计算机程序及对应的数据,如本申请实施例中的数据对象分类方法对应的计算机程序及对应的数据。处理器710通过运行存储在存储器720内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的数据对象分类方法。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (16)
1.一种数据对象分类方法,其特征在于,包括:
获取待分类数据对象以及所述待分类数据对象对应的多个表征向量,其中,所述多个表征向量通过预先对所述待分类数据对象进行向量化处理后得到;
基于预设分类条件和所述待分类数据对象对应的所述多个表征向量,对所述待分类数据对象进行分类处理,得到第一分类结果,其中,所述预设分类条件用于确定所述待分类数据对象的分类阈值。
2.根据权利要求1所述的数据对象分类方法,其特征在于,基于所述预设分类条件和所述待分类数据对象对应的所述多个表征向量,对所述待分类数据对象进行分类处理,得到所述第一分类结果包括:
从所述待分类数据对象中选取第一数据对象,并将所述第一数据对象存储至第一分类存储区域,其中,所述第一数据对象为当前设定的分类目标,所述第一分类存储区域对应的第一表征向量由所述第一分类存储区域内存储的数据对象对应的表征向量确定,且所述第一表征向量的初始值由所述第一数据对象对应的表征向量确定;
利用所述第一分类存储区域对应的所述第一表征向量,从所述待分类数据对象中查找第二数据对象,其中,所述第一表征向量与所述第二数据对象对应的表征向量之间的相似度最高;
基于所述预设分类条件,以及所述第一表征向量与所述第二数据对象对应的表征向量之间的相似度,对所述待分类数据对象进行分类处理,得到所述第一分类结果。
3.根据权利要求2所述的数据对象分类方法,其特征在于,所述第一表征向量由所述第一分类存储区域内存储的数据对象对应的表征向量总和与所述第一分类存储区域内存储的数据对象数量进行均值计算得到。
4.根据权利要求2所述的数据对象分类方法,其特征在于,基于所述预设分类条件,以及所述第一表征向量与所述第二数据对象对应的表征向量之间的相似度,对所述待分类数据对象进行分类处理,得到所述第一分类结果包括:
响应于所述第一表征向量与所述第二数据对象对应的表征向量之间的相似度满足所述预设分类条件,将所述第二数据对象存储至所述第一分类存储区域;
基于所述第一分类存储区域内当前存储的数据对象对应的表征向量均值,对所述第一表征向量进行更新;
利用更新后的所述第一表征向量,从所述待分类数据对象中查找新的数据对象,其中,更新后的所述第一表征向量与所述新的数据对象对应的表征向量之间的相似度最高;
响应于更新后的所述第一表征向量与所述新的数据对象对应的表征向量之间的相似度满足所述预设分类条件,将所述新的数据对象存储至所述第一分类存储区域,直至得到所述第一分类结果。
5.根据权利要求2所述的数据对象分类方法,其特征在于,所述数据对象分类方法还包括:
响应于所述第一表征向量与所述第二数据对象对应的表征向量之间的相似度未满足所述预设分类条件,创建第二分类存储区域,其中,所述第二分类存储区域与所述第一分类存储区域用于存储所述待分类数据对象中分属不同类别的数据对象。
6.根据权利要求2所述的数据对象分类方法,其特征在于,所述数据对象分类方法还包括:
响应于所述第一分类存储区域内当前存储的数据对象数量大于预设数值,确定所述第一分类存储区域内当前存储的数据对象对应的表征向量与所述第一表征向量之间的相似度是否满足预设筛选条件,其中,所述预设筛选条件用于确定所述第一分类存储区域内当前存储的数据对象的筛选阈值;
响应于所述第一分类存储区域内当前存储的数据对象对应的表征向量与所述第一表征向量之间的相似度满足所述预设筛选条件,保留所述第一分类存储区域内当前存储的数据对象;
响应于所述第一分类存储区域内当前存储的数据对象对应的表征向量与所述第一表征向量之间的相似度未满足所述预设筛选条件,重新对所述第一分类存储区域内当前存储的数据对象进行分类。
7.根据权利要求2所述的数据对象分类方法,其特征在于,所述数据对象分类方法还包括:
响应于所述第一分类存储区域内存储的数据对象数量未大于预设数值,重新对所述第一分类存储区域内存储的数据对象进行分类并销毁所述第一分类存储区域。
8.根据权利要求2所述的数据对象分类方法,其特征在于,所述数据对象分类方法还包括:
从剩余数据对象中选取第三数据对象,并将所述第一数据对象存储至第三分类存储区域,其中,所述剩余数据对象为所述待分类数据对象在经过分类处理得到所述第一分类结果之后尚未分类的数据对象,所述第三数据对象为当前设定的分类目标,所述第三分类存储区域对应的第二表征向量由所述第三分类存储区域内存储的数据对象对应的表征向量确定,且所述第二表征向量的初始值由所述第三数据对象对应的表征向量确定;
利用所述第三分类存储区域对应的所述第二表征向量,从所述剩余数据对象中查找第四数据对象,其中,所述第二表征向量与所述第四数据对象对应的表征向量之间的相似度最高;
基于所述预设分类条件,以及所述第二表征向量与所述第四数据对象对应的表征向量之间的相似度,对所述剩余数据对象进行分类处理,得到第二分类结果。
9.根据权利要求8所述的数据对象分类方法,其特征在于,所述数据对象分类方法还包括:
基于所述第一表征向量与所述第二表征向量之间的相似度,对所述第一分类结果与所述第二分类结果进行合并处理,得到目标分类结果。
10.根据权利要求9所述的数据对象分类方法,其特征在于,基于所述第一表征向量与所述第二表征向量之间的相似度,对所述第一分类结果与所述第二分类结果进行合并处理,得到所述目标分类结果包括:
响应于所述第一表征向量与所述第二表征向量之间的相似度满足预设合并条件,对所述第一分类存储区域与所述第三分类存储区域进行合并处理,得到所述目标分类结果,其中,所述预设合并条件用于确定所述第一表征向量与所述第二表征向量之间的相似度阈值。
11.根据权利要求1所述的数据对象分类方法,其特征在于,所述数据对象分类方法还包括:
从预设数据对象资源库中获取候选数据对象;
对所述候选数据对象中每个数据对象进行向量化处理,得到每个数据对象对应的表征向量;
将所述候选数据对象中每个数据对象以及每个数据对象对应的表征向量配对存储至预设数据存储区域。
12.根据权利要求11所述的数据对象分类方法,其特征在于,获取所述待分类数据对象以及所述待分类数据对象对应的所述多个表征向量包括:
从所述预设数据存储区域获取所述待分类数据对象以及所述待分类数据对象对应的所述多个表征向量,其中,所述待分类数据对象为所述候选数据对象中的至少部分数据对象。
13.根据权利要求1所述的数据对象分类方法,其特征在于,获取所述待分类数据对象以及所述待分类数据对象对应的所述多个表征向量包括:
从预设数据对象资源库中获取所述待分类数据对象;
对所述待分类数据对象中每个数据对象进行向量化处理,得到所述多个表征向量。
14.一种数据对象分类装置,其特征在于,包括:
获取模块,用于获取待分类数据对象以及所述待分类数据对象对应的多个表征向量,其中,所述多个表征向量通过预先对所述待分类数据对象进行向量化处理后得到;
分类模块,用于基于预设分类条件和所述待分类数据对象对应的所述多个表征向量,对所述待分类数据对象进行分类处理,得到第一分类结果,其中,所述预设分类条件用于确定所述待分类数据对象的分类阈值。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为被处理器运行时执行权利要求1至13任一项中所述的数据对象分类方法。
16.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至13任一项中所述的数据对象分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311142880.1A CN117251761A (zh) | 2023-09-04 | 2023-09-04 | 数据对象分类方法、装置、存储介质及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311142880.1A CN117251761A (zh) | 2023-09-04 | 2023-09-04 | 数据对象分类方法、装置、存储介质及电子装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117251761A true CN117251761A (zh) | 2023-12-19 |
Family
ID=89132277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311142880.1A Pending CN117251761A (zh) | 2023-09-04 | 2023-09-04 | 数据对象分类方法、装置、存储介质及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117251761A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117874543A (zh) * | 2024-03-12 | 2024-04-12 | 瑞达可信安全技术(广州)有限公司 | 一种数据处理方法、装置、存储系统及计算机可读存储介质 |
-
2023
- 2023-09-04 CN CN202311142880.1A patent/CN117251761A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117874543A (zh) * | 2024-03-12 | 2024-04-12 | 瑞达可信安全技术(广州)有限公司 | 一种数据处理方法、装置、存储系统及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114155543B (zh) | 神经网络训练方法、文档图像理解方法、装置和设备 | |
CN111062871B (zh) | 一种图像处理方法、装置、计算机设备及可读存储介质 | |
CN106980867B (zh) | 将嵌入空间中的语义概念建模为分布 | |
US20190108242A1 (en) | Search method and processing device | |
CN112163428A (zh) | 语义标签的获取方法、装置、节点设备及存储介质 | |
CN111898675B (zh) | 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备 | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
CN116303459A (zh) | 处理数据表的方法及系统 | |
CN117251761A (zh) | 数据对象分类方法、装置、存储介质及电子装置 | |
CN113435499A (zh) | 标签分类方法、装置、电子设备和存储介质 | |
CN112328833A (zh) | 标签处理方法、装置及计算机可读存储介质 | |
CN114372532A (zh) | 标签标注质量的确定方法、装置、设备、介质及产品 | |
CN111259975B (zh) | 分类器的生成方法及装置、文本的分类方法及装置 | |
CN113705293A (zh) | 图像场景的识别方法、装置、设备及可读存储介质 | |
CN111950265A (zh) | 一种领域词库构建方法和装置 | |
CN110738261A (zh) | 图像分类和模型训练方法、装置、电子设备及存储介质 | |
CN113704623B (zh) | 一种数据推荐方法、装置、设备及存储介质 | |
CN115186085A (zh) | 回复内容处理方法以及媒体内容互动内容的交互方法 | |
CN111091198B (zh) | 一种数据处理方法及装置 | |
CN108009233B (zh) | 一种图像还原方法、装置、计算机设备及存储介质 | |
CN114490996B (zh) | 意图识别方法、装置、计算机设备和存储介质 | |
CN117131197B (zh) | 一种招标书的需求类别处理方法、装置、设备及存储介质 | |
US20230033354A1 (en) | Context-based saving of data | |
CN117093211A (zh) | 一种数据处理方法和相关装置 | |
CN117788842A (zh) | 图像检索方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |