CN110472082A - 数据处理方法、装置、存储介质及电子设备 - Google Patents

数据处理方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN110472082A
CN110472082A CN201910713732.8A CN201910713732A CN110472082A CN 110472082 A CN110472082 A CN 110472082A CN 201910713732 A CN201910713732 A CN 201910713732A CN 110472082 A CN110472082 A CN 110472082A
Authority
CN
China
Prior art keywords
data
cluster
model
clusters
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910713732.8A
Other languages
English (en)
Other versions
CN110472082B (zh
Inventor
罗彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jinsheng Communication Technology Co Ltd
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Shanghai Jinsheng Communication Technology Co Ltd
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jinsheng Communication Technology Co Ltd, Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Shanghai Jinsheng Communication Technology Co Ltd
Priority to CN201910713732.8A priority Critical patent/CN110472082B/zh
Publication of CN110472082A publication Critical patent/CN110472082A/zh
Application granted granted Critical
Publication of CN110472082B publication Critical patent/CN110472082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据处理方法、装置、存储介质及电子设备。该数据处理方法包括:获取多个数据,该多个数据携带有相同的类别标签;提取每一该数据的特征,得到多个数据特征;对该多个数据特征进行聚类处理,得到聚类结果;根据该聚类结果,确定第一数据聚类簇和第二数据聚类簇,其中该第一数据聚类簇为不需要清洗的数据所在的簇,该第二数据聚类簇为需要清洗的数据所在的簇;对该第二数据聚类簇中的数据进行数据清洗处理,得到已处理数据;根据该第一数据聚类簇中的数据和该已处理数据,得到目标数据。本申请可以提高数据清洗的效率。

Description

数据处理方法、装置、存储介质及电子设备
技术领域
本申请属于数据技术领域,尤其涉及一种数据处理方法、装置、存储介质及电子设备。
背景技术
数据清洗是指对数据进行重新审查和校验的过程,其目的在于将数据集中的错误信息删除。以分类图片的数据清洗处理为例,主要是检查图片的分类标签是否正确,并将分类标签错误的图片删除。然而,相关技术中,数据清洗处理的效率较低。
发明内容
本申请实施例提供一种数据处理方法、装置、存储介质及电子设备,可以提高数据清洗的效率。
本申请实施例提供一种数据处理方法,包括:
获取多个数据,所述多个数据携带有相同的类别标签;
提取每一所述数据的特征,得到多个数据特征;
对所述多个数据特征进行聚类处理,得到聚类结果;
根据所述聚类结果,确定第一数据聚类簇和第二数据聚类簇,其中所述第一数据聚类簇为不需要清洗的数据所在的簇,所述第二数据聚类簇为需要清洗的数据所在的簇;
对所述第二数据聚类簇中的数据进行数据清洗处理,得到已处理数据;
根据所述第一数据聚类簇中的数据和所述已处理数据,得到目标数据。
本申请实施例提供一种数据处理装置,包括:
获取模块,用于获取多个数据,所述多个数据携带有相同的类别标签;
提取模块,用于提取每一所述数据的特征,得到多个数据特征;
聚类模块,用于对所述多个数据特征进行聚类处理,得到聚类结果;
确定模块,用于根据所述聚类结果,确定第一数据聚类簇和第二数据聚类簇,其中所述第一数据聚类簇为不需要清洗的数据所在的簇,所述第二数据聚类簇为需要清洗的数据所在的簇;
第一处理模块,用于对所述第二数据聚类簇中的数据进行数据清洗处理,得到已处理数据;
第二处理模块,用于根据所述第一数据聚类簇中的数据和所述已处理数据,得到目标数据。
本申请实施例提供一种存储介质,其上存储有计算机程序,当所述计算机程序在计算机上执行时,使得所述计算机执行本申请实施例提供的数据处理方法中的流程。
本申请实施例还提供一种电子设备,包括存储器,处理器,所述处理器通过调用所述存储器中存储的计算机程序,用于执行本申请实施例提供的数据处理方法中的流程。
本实施例中,电子设备可以利用聚类处理来进行数据清洗工作。由于利用聚类处理可以快速地确定出类别标签有误的数据,并由电子设备对这部分类别标签有误的数据进行数据清洗处理。因此,本实施例可以快速地得到干净数据。相比于相关技术中由人工逐一浏览检查数据的标签信息是否有误的数据清洗方式,本实施例可以提高数据清洗的效率。
附图说明
下面结合附图,通过对本申请的具体实施方式详细描述,将使本申请的技术方案及其有益效果显而易见。
图1是本申请实施例提供的数据处理方法的流程示意图。
图2是本申请实施例提供的数据处理方法的另一流程示意图。
图3是本申请实施例提供的层次聚类图的示意图。
图4是本申请实施例提供的由多个模型融合形成的特征提取模型的结构示意图。
图5至图10是本申请实施例提供的数据处理方法的场景示意图。
图11是本申请实施例提供的数据处理装置的结构示意图。
图12是本申请实施例提供的电子设备的结构示意图。
图13是本申请实施例提供的电子设备的另一结构示意图。
具体实施方式
请参照图示,其中相同的组件符号代表相同的组件,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其它具体实施例。
可以理解的是,本申请实施例的执行主体可以是诸如智能手机或平板电脑等的电子设备。
请参阅图1,图1是本申请实施例提供的数据处理方法的流程示意图,流程可以包括:
101、获取多个数据,该多个数据携带有相同的类别标签。
数据清洗是指对数据进行重新审查和校验的过程,其目的在于将数据集中的错误信息删除。以分类图片的数据清洗处理为例,相关技术中主要是通过人工检查的方式来进行数据清洗。例如,由人工来检查图片的分类标签是否正确,并将分类标签错误的图片删除。然而,相关技术中,数据清洗处理的效率较低。
在本申请实施例的101中,电子设备可以先获取多个数据,这些数据可以携带有相同的类别标签。可以理解的是,该多个数据即是需要进行数据清洗的数据。比如,电子设备可以获取需要进行数据清洗的一个数据集。
例如,需要进行数据清洗的数据为一个图片集,该图片集中包含的图片可以是具有同一类别标签的图片。例如,该图片集中包含的图片的类别标签为花卉类别等。
102、提取每一数据的特征,得到多个数据特征。
比如,在获取到需要进行数据清洗处理的数据后,电子设备可以提取其中每一个数据的特征,从而得到多个数据特征。
例如,电子设备获取到需要进行数据清洗处理的图片集P,其中图片集P中包含的图片表示为Pi,i为大于或等于1的整数。之后,电子设备可以提取该图片集P中的每一张图片Pi的特征,得到与每一图片对应特征Fi。其中,特征Fi是图片Pi的特征。
103、对多个数据特征进行聚类处理,得到聚类结果。
104、根据聚类结果,确定第一数据聚类簇和第二数据聚类簇,其中该第一数据聚类簇为不需要清洗的数据所在的簇,该第二数据聚类簇为需要清洗的数据所在的簇。
比如,在得到与上述多个数据对应的多个数据特征后,电子设备可以对该多个数据特征进行聚类处理,从而得到聚类结果。之后,电子设备可以根据该聚类结果,确定出第一数据聚类簇和第二数据聚类簇。其中,该第一数据聚类簇为不需要清洗的数据所在的簇,该第二数据聚类簇为需要清洗的数据所在的簇。即,在聚类时,电子设备以数据特征为依据,对数据(样本)进行聚类。其中,第二数据聚类簇可以包含至少一个簇。
需要说明的是,聚类处理是指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。
例如,图片集P中包含1000张图片,分别为P1、P2、P3,……,P1000。这1000张图片对应的数据特征依次为F1、F2、F3,……,F1000。那么,电子设备可以对数据特征F1、F2、F3,……,F1000进行聚类处理,从而得到对应的聚类结果。
比如,在得到数据特征的聚类结果后,电子设备可以根据该聚类结果,确定出第一数据聚类簇和第二数据聚类簇。其中,该第一数据聚类簇为不需要清洗的图片所在的簇,该第二数据聚类簇为需要清洗的图片所在的簇。也就是说,该第一数据聚类簇中包含的图片的类别标签被判定为正确,该第二数据聚类簇中包含的图片的类别标签被判定为可能存在错误。
例如,在得到数据特征F1、F2、F3,……,F1000的聚类结果后,电子设备可以据此确定出第一数据聚类簇和第二数据聚类簇,其中,第一数据聚类簇中包含的图片的类别标签被认为是正确的,而第二数据聚类簇中包含的图片的类别标签被认为是可能存在错误的。需要说明的是,第二数据聚类簇中包含的数据的类别标签实际上可能确实是错误的,也可能实际上是正确的。
105、对第二数据聚类簇中的数据进行数据清洗处理,得到已处理数据。
106、根据第一数据聚类簇中的数据和已处理数据,得到目标数据。
比如,在确定出第一数据聚类簇和第二数据聚类簇后,电子设备可以对第二数据聚类簇中包含的数据进行数据清洗处理,从而得到已处理数据。之后,电子设备可以根据第一数据聚类簇中包含的数据和该已处理数据得到目标数据。可以理解的是,该目标数据即为数据清洗处理后得到的干净数据。
例如,第二数据聚类簇中包含5张图片,分别为P7、P21、P81、P200和P751。那么,电子设备可以对P7、P21、P81、P200和P751进行数据清洗处理。例如,电子设备确定出这5张图片中P7、P81、P200的类别标签无误,而P21和P751的类别标签有误。那么,电子设备可以将P21和P751这两张图片删除,从而得到已处理数据,即图片P7、P81、P200
之后,电子设备可以将第一数据聚类簇中包含的图片和P7、P81、P200合并,得到数据清洗处理后的图片集,即类别标签正确的图片集。
可以理解的是,本实施例中,电子设备可以利用聚类处理来进行数据清洗工作。由于利用聚类处理可以快速地确定出类别标签有误的数据,并由电子设备对这部分类别标签有误的数据进行数据清洗处理。因此,本实施例可以快速地得到干净数据。相比于相关技术中由人工逐一浏览检查数据的标签信息是否有误的数据清洗方式,本实施例可以提高数据清洗的效率。
请参阅图2,图2为本申请实施例提供的数据处理方法的另一流程示意图,流程可以包括:
在201中,电子设备获取多个数据,该多个数据携带有相同的类别标签。
比如,电子设备可以获取需要进行数据清洗的图片集P,该图片集P中包含1000张图片。这1000张照片携带有相同的类别标签。例如,这1000张图片具有人工标注的相同的花卉类别标签。例如,图片集P中包含的1000张图片分别为P1、P2、P3,……,P1000。即,P={P1、P2、P3,……,P1000}。
在202中,电子设备利用预设特征提取模型对每一数据进行特征提取,得到多个数据特征。
比如,在获取到图片集P之后,电子设备可以利用预设特征提取模型对图片集P中的每一图片进行特征提取,从而得到多个图片特征。
例如,电子设备可以提取图片集P中的每一张图片Pi的特征,得到与每一张图片对应特征Fi。其中,特征Fi是图片Pi的特征,i为大于或等于1的整数。例如,由图片特征Fi构成一个特征集F。即,F={F1、F2、F3,……,F1000},其中,F1是图片P1的特征,F2是图片P2的特征,F3是图片P3的特征,等等,以此类推。
在一种实施方式中,电子设备可以通过如下方式来获得预设特征提取模型:
当所述多个数据为图片时,电子设备获取第一模型,该第一模型为根据ImageNet训练得到的ResNet模型;
电子设备利用所述多个数据对ResNet模型进行学习训练,得到第二模型;
电子设备将位于第二模型最后一层的全连接层移除得到第三模型,并将该第三模型确定为预设特征提取模型。
比如,当所述多个数据为图片,即需要进行数据清洗的数据为图片时,电子设备可以先获取第一模型,其中该第一模型是根据ImageNet训练得到的ResNet模型。
需要说明的是,ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释,以指示图片中的对象。自2010年以来,ImageNet项目每年举办一次软件比赛,即ImageNet大规模视觉识别挑战赛(ILSVRC),软件程序竞相正确分类检测物体和场景。
ResNet(Residual Neural Network)通过使用ResNet Unit成功训练出了152层的神经网络,并在ILSVRC2015比赛中取得冠军。ResNet的结构可以极快的加速神经网络的训练,模型的准确率也有比较大的提升。
也就是说,ImageNet是一个开放的、免费的大型图片数据库,其中包含了2.2万类的已分类图片。而ResNet则是一个用ImageNet中的数据训练好的图片分类模型。
比如,在获取到ResNet模型后,电子设备可以先利用需要进行数据清洗的图片对ResNet模型进行机器学习训练,从而得到第二模型。在得到第二模型后,电子设备可以将位于第二模型最后一层的全连接层移除,从而得到第三模型,并将该第三模型确定为预设特征提取模型。需要说明的是,ResNet模型的最后一层为全连接层,该全连接层在模型中的作用是对图片进行分类,而该ResNet模型中除该最后一层的全连接层外的其它神经网络层的作用是提取特征,因此将第二模型的最后一层的全连接层移除后得到的神经网络层可以用于作为特征提取模型。另外,之所以要利用需要进行数据清洗的图片对ResNet模型再进行一次学习训练,是因为ResNet是一个较为通用的分类模型,用需要进行数据清洗的图片对ResNet模型再进行一次学习训练得到第二模型,可以使得第二模型对需要进行数据清洗的图片的分类更有针对性,进而使得第三模型对需要进行数据清洗的图片的特征提取更准确。
在203中,电子设备利用层次聚类算法,对多个数据特征进行聚类处理,得到聚类结果,其中,在聚类处理时使用明氏距离衡量样本之间的距离,取分属于不同类的样本的两两之间的距离的均值作为两类的类间距离。
比如,在提取到各图片的特征得到特征集F之后,电子设备可以利用层次聚类算法,对特征集F中的特征进行聚类处理,得到聚类结果。即,在聚类时,电子设备以数据特征为依据,对数据(图片)进行聚类。其中,电子设备在利用层次聚类算法进行层次聚类处理时使用明氏距离来衡量样本之间的距离,并取分属于不同类的样本的两两之间的距离的均值作为两类的类间距离。
需要说明的是,明氏距离是欧氏空间中的一种测度,其定义为对于两点P=(x1,x2,…,xn)和Q=(y1,y2,…,yn),它们之间的明氏距离为其中P为正整数。在进行层次聚类时,取分属于两个不同类的样本的两两之间的距离的均值作为两类的类间距离(即取两类的均值作为类间距离),即其中,davg表示类间距离,Ci表示一个类,Cj表示另一个类,|Ci|表示Ci这个类中样本的个数,|Cj|表示Cj这个类中样本的个数,dist(x,z)为明氏距离。即,在进行层次聚类判断两个类能否聚成一个类时,电子设备可以计算Ci中的每一个样本和Cj中的每一个样本的明氏距离,从而得到多个距离值,并将这多个距离值的均值作为这两个类的类间距离。若某两个类之间的距离小于其他任意两个类之间的距离,则将这两个类聚成一类。
需要说明的是,层次聚类(Hierarchical Clustering)是一种基于原型的聚类算法,试图在不同层次对数据集进行划分,从而形成树形的聚类结构。数据集的划分可采用"自下而上"的聚合策略,也可以采用"自上而下"的分拆策略。层次聚类算法的优势在于,可以通过绘制树状图(Dendrogram),帮助我们使用可视化的方式来解释聚类结果。层次聚类的另一个优点是它不需要事先指定簇的数量。
在204中,电子设备获取分割阈值,并根据聚类结果和该分割阈值确定第一数据聚类簇和第二数据聚类簇,其中该聚类结果为层次聚类图,该分割阈值用于从该层次聚类图中选取出所需的聚类簇,该第一数据聚类簇中包含的特征数量记为第一数量,该第二数据聚类簇中包含的特征数量记为第二数量,该第一数量与该第二数量的差值大于第一阈值,该第一数据聚类簇为不需要清洗的数据所在的簇,该第二数据聚类簇为需要清洗的数据所在的簇。
比如,在利用层次聚类算法对特征集F进行聚类处理得到聚类结果后,电子设别可以根据该聚类结果确定第一数据聚类簇和第二数据聚类簇。比如,本实施例中,由于聚类处理使用的是层次聚类算法,因此得到的聚类结果为层次聚类图。层次聚类图(树形图)可以如图3所示。
在得到层次聚类图后,电子设备可以获取一分割阈值,该分割阈值为用于从该层次聚类图中选取出所需的聚类簇的数值。例如,如图3所示,以样本集中包括7个样本R0、R1、R2、R3、R4、R5和R6为例。当分割阈值取1.8时(即图3中纵轴数值1.8对应的虚线),可以从树形图中选取出5个簇,这个5个簇分别为{R0}、{R1}、{R2}、{R3}、{R4}、{R5和R6}。当分割阈值取3.5时(即图3中纵轴数值3.5对应的虚线),可以从树形图中选取出3个簇,这个3个簇分别为{R0、R1、R2}、{R3}、{R4、R5和R6}。当分割阈值取4.5时(即图3中纵轴数值4.5对应的虚线),可以从树形图中选取出2个簇,这个2个簇分别为{R0、R1、R2}、{R3、R4、R5和R6}。可见,分割阈值的数值越大,最终得到的聚类簇的数量越少。
在一种实施方式中,分割阈值可以由人工确定并输入至电子设备中,并且分割阈值的选取可以遵循如下原则:第一,得到的聚类簇不超过10个;第二,至少有一个聚类簇包含的特征数显著高于其他聚类簇。
在本实施例中,根据聚类结果和分割阈值确定出来的第一数据聚类簇和第二数据聚类簇可以满足如下条件:该第一数据聚类簇中包含的样本数量记为第一数量,该第二数据聚类簇中包含的样本数量记为第二数量,该第一数量与该第二数量的差值大于第一阈值。也即,第一数据聚类簇中包含的样本数量显著大于第二数据聚类簇中包含的样本数量。
其中,该第一数据聚类簇为不需要清洗的图片所在的簇,该第二数据聚类簇为需要清洗的图片所在的簇。也就是说,该第一数据聚类簇中包含的图片的类别标签被判定为正确,该第二数据聚类簇中包含的图片的类别标签被判定为可能存在错误。
例如,在得到数据特征F1、F2、F3,……,F1000的聚类结果后,电子设备可以据此确定出第一数据聚类簇和第二数据聚类簇,其中,第一数据聚类簇中包含的图片的类别标签被认为是正确的,而第二数据聚类簇中包含的图片的类别标签被认为是可能存在错误的。需要说明的是,第二数据聚类簇中包含的数据的类别标签实际上可能确实是错误的,也可能实际上是正确的。
需要说明的是,在一种实施方式中,第一数据聚类簇可以包含一个簇,而第二数据聚类簇中可以包含多个簇,即第二数据聚类簇可以有多个。
例如,根据聚类结果,电子设备确定出一个第一数据聚类簇和两个第二数据聚类簇,其中第一数据聚类簇中包含800个样本(如800张图片),第二数据聚类簇中包含的两个簇的样本总数为200个(如200张图片)。
205、电子设备从第二数据聚类簇中确定出类别标签有误的数据并删除,得到已处理数据。
206、根据第一数据聚类簇中的数据和已处理数据,电子设备得到目标数据。
比如,在确定出第一数据聚类簇和第二数据聚类簇后,电子设备可以对第二数据聚类簇中包含的图片进行数据清洗处理,从而得到已处理数据。之后,电子设备可以根据第一数据聚类簇中包含的图片和该已处理数据得到目标数据。可以理解的是,该目标数据即为数据清洗处理后得到的干净图片。
例如,第二数据聚类簇中包含5张图片,分别为P7、P21、P81、P200和P751。那么,电子设备可以对图片P7、P21、P81、P200和P751进行数据清洗处理。例如,电子设备确定出这5张图片中P7、P81、P200的类别标签无误,而P21和P751的类别标签有误。那么,电子设备可以将P21和P751这两张图片删除,从而得到已处理数据,即图片P7、P81、P200
之后,电子设备可以将第一数据聚类簇中包含的图片和P7、P81、P200合并,得到数据清洗处理后的图片集,即类别标签正确的图片集。
在一种实施方式中,在确定出第二数据聚类簇后,可以通过人工检查的方式来判断第二数据聚类簇中的数据的类别标签是否有误。例如,第二数据聚类簇中包含5张图片,分别为P7、P21、P81、P200和P751。通过人工检查,检查人员确定出图片P7、P81、P200的类别标签无误,而P21和P751的类别标签有误。那么,检查人员可以将检查结果输入电子设备,则电子设备获取到这5张图片中P7、P81、P200的类别标签无误而P21和P751的类别标签有误的信息。
在一种实施方式中,202中电子设备利用预设特征提取模型对每一数据进行特征提取,得到多个数据特征的流程,可以包括:
当电子设备的计算能力低于第二阈值时,利用预设特征提取模型对每一所述数据进行特征提取,得到多个数据特征。
比如,当需要进行数据清洗处理的数据集为图片集时,电子设备可以在其计算能力低于第二阈值,即电子设备当前的计算能力一般或较弱时,使用预设特征提取模型对每一图片进行特征提取,得到多个特征。
在另一种实施方式中,本实施例还可以包括如下流程:
当电子设备的计算能力不低于第二阈值时,获取第四模型,并利用该第四模型对每一数据进行特征提取,得到多个数据特征,其中第四模型的特征提取精度高于预设特征提取模型。
比如,当需要进行数据清洗处理的数据集为图片集时,电子设备可以在其计算能力不低于第二阈值,即电子设备当前的计算能力较强时,获取第四模型,并利用该第四模型对每一图片进行特征提取,得到多个特征。其中,第四模型的特征提取精度高于预设特征提取模型。
例如,相较于本实施例中使用的ResNet模型,第四模型可以是结构更加复杂的单个模型,如Inception-Resnet-v2。或者,第四模型可以是多个模型的融合(stacking)。例如,第四模型的结构可以如图4所示。将图片数据同时输入给多个一级模型(Level 1),然后将一级模型提取的特征作为二级模型的输入,最后使用二级模型的输出作为输出特征,用于后续的聚类。其中Model 1、Model 2、Model 3可以选用常用的深度学习模型,如ResNet、Inception、MobileNet等,而Model 4可以选择较简单的传统机器学习模型,如线性回归等。多模型的融合综合了多种模型的优势,对特征的提取能力更强,使得后续清洗的效果更好,但消耗的资源也更多,适合在电子设备运算能力充足的情况下使用。
在一种实施方式中,电子设备的运算能力可以是诸如CPU占用率和/或剩余运行内存的容量和/或剩余运行内存容量在运行内存总容量中所占的比值等。
在本实施例中,203中电子设备使用的用于对数据特征进行聚类处理的层次聚类算法可以是诸如AGENS层次聚类算法等。其中,AGENS层次聚类算法是“自下而上”的聚类方法,该聚类方法不指定聚类簇的个数,而是根据聚类图确定分割阈值和所需聚类簇个数。
当然,也可以采用其它聚类算法,如DIANA算法和K-means算法等。其中,DIANA算法适用于大多数情况,该算法也属于层次聚类算法,首先将所有对象初始化到一个簇中,然后根据一些原则将该簇分类,直到到达用户指定的簇数目或者两个簇之间的距离超过了某个阈值。K-means算法适合已知脏数据包含的类别数量的情况。该算法需要先指定聚类簇的数量,因此适合事先已知类别数量的情况。例如,当狗的图片中仅仅混入了猫的图片时,可以使用k-means方法进行聚类,并指定最终所需的聚类簇数量为2。
请参阅图5至图10,图5至图10为本申请实施例提供的数据处理方法的场景示意图。
比如,如图5所示,用户当前需要对一图片集进行数据清洗处理,该图片集中的图片被标注有相同的类别标签。那么,电子设备可以先获取该图片集,并使用预设特征提取模型对每一图片进行特征提取,得到特征集。例如,图片集为P={P1、P2、P3,……,P1000}。特征集为F={F1、F2、F3,……,F1000},其中,特征Fi是图片Pi的特征,i为大于或等于1的整数。
在提取得到各图片的特征后,电子设备可以使用AGENS层次聚类算法对特征集F进行聚类处理,得到层次聚类图。在得到层次聚类图后,电子设备可以将该层次聚类图显示在电子设备的显示屏上供用户查看,如图6所示。
例如,用户在查看该层级聚类图后可以根据经验确定出分割阈值,并将该分割阈值输入到电子设备中,如图7所示。
电子设备在获取到该分割阈值后,可以根据该分割阈值和层次聚类图,确定出第一图片聚类簇和第二图片聚类簇。其中,第一图片聚类簇的数量显著大于第二图片聚类簇的数量。
之后,例如,如图8所示,电子设备将第一图片聚类簇和第二图片聚类簇分为两个文件夹。
之后,用户可以利用电子设备对第二图片聚类簇中的图片进行人工复核,将其中类别标签确实错误的图片删除,并从中筛选出类别标签无误的图片,以及将该类别标签无误的图片保存到第一图片聚类簇的文件夹中。例如,如图9所示,通过人工复核检测到P21和P751这两张图片的类别标签确实有误,那么用户可以将这两张图片删除。
可以理解的是,此时第一图片聚类簇对应的文件夹中包含的图片即为数据清洗后得到的干净数据。
另请参阅图10,图10为本实施例提供的处理流程图。
本实施例中,电子设备可以利用聚类处理来进行数据清洗工作。由于利用聚类处理可以快速地确定出类别标签有误的数据,并由电子设备对这部分类别标签有误的数据进行数据清洗处理。因此,本实施例可以快速地得到干净数据。相比于相关技术中由人工逐一浏览检查数据的标签信息是否有误的数据清洗方式,本实施例减少了大量的人工工作量,可以提高数据清洗的效率,减少了数据清洗的成本。
另外,本实施例利用聚类的方式进行数据清洗工作,可以达到与人工清洗相近的准确度。并且,本实施例提供是数据清洗方式其数据清洗过程可回溯,其它人员可以通过清洗过程检查数据清洗质量。
请参阅图11,图11为本申请实施例提供的数据处理装置的结构示意图。数据处理装置300可以包括:获取模块301,提取模块302,聚类模块303,确定模块304,第一处理模块305,第二处理模块306。
获取模块301,用于获取多个数据,所述多个数据携带有相同的类别标签。
提取模块302,用于提取每一所述数据的特征,得到多个数据特征。
聚类模块303,用于对所述多个数据特征进行聚类处理,得到聚类结果。
确定模块304,用于根据所述聚类结果,确定第一数据聚类簇和第二数据聚类簇,其中所述第一数据聚类簇为不需要清洗的数据所在的簇,所述第二数据聚类簇为需要清洗的数据所在的簇。
第一处理模块305,用于对所述第二数据聚类簇中的数据进行数据清洗处理,得到已处理数据。
第二处理模块306,用于根据所述第一数据聚类簇中的数据和所述已处理数据,得到目标数据。
在一种实施方式中,确定模块304可以用于:
根据所述聚类结果,确定第一数据聚类簇和第二数据聚类簇,其中所述第一数据聚类簇中包含的样本数量记为第一数量,所述第二数据聚类簇中包含的样本数量记为第二数量,所述第一数量与所述第二数量的差值大于第一阈值,所述第二数据聚类簇至少包含一个簇。
在一种实施方式中,聚类模块303可以用于:利用层次聚类算法,对所述多个数据特征进行聚类处理,得到聚类结果。
那么,确定模块304可以用于:获取分割阈值,并根据所述分割阈值和所述聚类结果,确定第一数据聚类簇和第二数据聚类簇,其中所述聚类结果为层次聚类图,所述分割阈值用于从所述层次聚类图中选取出所需的聚类簇。
在一种实施方式中,获取模块301可以用于:
当所述多个数据为图片时,获取第一模型,所述第一模型为根据ImageNet训练得到的ResNet模型;
利用所述多个数据对所述ResNet模型进行学习训练,得到第二模型;
将位于所述第二模型最后一层的全连接层移除得到第三模型,并将所述第三模型确定为预设特征提取模型;
那么,提取模块302可以用于:利用所述预设特征提取模型对每一所述数据进行特征提取,得到多个数据特征。
在一种实施方式中,提取模块302可以用于:
当电子设备的计算能力低于第二阈值时,利用所述预设特征提取模型对每一所述数据进行特征提取,得到多个数据特征。
在一种实施方式中,提取模块302还可以用于:
当所述电子设备的计算能力不低于所述第二阈值时,获取第四模型,并利用所述第四模型对每一所述数据进行特征提取,得到多个数据特征,其中所述第四模型的特征提取精度高于所述预设特征提取模型。
在一种实施方式中,聚类模块303可以用于:
利用层次聚类算法,对所述多个数据特征进行聚类处理,得到聚类结果,其中,在聚类处理时使用明氏距离衡量样本之间的距离,取分属于不同类的样本的两两之间的距离的均值作为两类的类间距离。
在一种实施方式中,第一处理模块305可以用于:
从所述第二数据聚类簇中确定出类别标签有误的数据并删除,得到已处理数据。
本申请实施例提供一种计算机可读的存储介质,其上存储有计算机程序,当所述计算机程序在计算机上执行时,使得所述计算机执行如本实施例提供的数据处理方法中的流程。
本申请实施例还提供一种电子设备,包括存储器,处理器,所述处理器通过调用所述存储器中存储的计算机程序,用于执行本实施例提供的数据处理方法中的流程。
例如,上述电子设备可以是诸如平板电脑或者智能手机等移动终端。请参阅图12,图12为本申请实施例提供的电子设备的结构示意图。
该电子设备400可以包括显示屏401、存储器402、处理器403等部件。本领域技术人员可以理解,图12中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
显示屏401可以用于显示图文等信息。
存储器402可用于存储应用程序和数据。存储器402存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器403通过运行存储在存储器402的应用程序,从而执行各种功能应用以及数据处理。
处理器403是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的应用程序,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。
在本实施例中,电子设备中的处理器403会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器402中,并由处理器403来运行存储在存储器402中的应用程序,从而执行:
获取多个数据,所述多个数据携带有相同的类别标签;
提取每一所述数据的特征,得到多个数据特征;
对所述多个数据特征进行聚类处理,得到聚类结果;
根据所述聚类结果,确定第一数据聚类簇和第二数据聚类簇,其中所述第一数据聚类簇为不需要清洗的数据所在的簇,所述第二数据聚类簇为需要清洗的数据所在的簇;
对所述第二数据聚类簇中的数据进行数据清洗处理,得到已处理数据;
根据所述第一数据聚类簇中的数据和所述已处理数据,得到目标数据。
请参阅图13,电子设备400可以包括显示屏401、存储器402、处理器403、输入单元404、电源405等部件。
显示屏401可以用于显示图文等信息。
存储器402可用于存储应用程序和数据。存储器402存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器403通过运行存储在存储器402的应用程序,从而执行各种功能应用以及数据处理。
处理器403是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的应用程序,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。
输入单元404可用于接收输入的数字、字符信息或用户特征信息(比如指纹),以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
电源405可用于为各部件提供电力保证。
在本实施例中,电子设备中的处理器403会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器402中,并由处理器403来运行存储在存储器402中的应用程序,从而执行:
获取多个数据,所述多个数据携带有相同的类别标签;
提取每一所述数据的特征,得到多个数据特征;
对所述多个数据特征进行聚类处理,得到聚类结果;
根据所述聚类结果,确定第一数据聚类簇和第二数据聚类簇,其中所述第一数据聚类簇为不需要清洗的数据所在的簇,所述第二数据聚类簇为需要清洗的数据所在的簇;
对所述第二数据聚类簇中的数据进行数据清洗处理,得到已处理数据;
根据所述第一数据聚类簇中的数据和所述已处理数据,得到目标数据。
在一种实施方式中,处理器403执行根据所述聚类结果,确定第一数据聚类簇和第二数据聚类簇时,可以执行:根据所述聚类结果,确定第一数据聚类簇和第二数据聚类簇,其中所述第一数据聚类簇中包含的样本数量记为第一数量,所述第二数据聚类簇中包含的样本数量记为第二数量,所述第一数量与所述第二数量的差值大于第一阈值,所述第二数据聚类簇至少包含一个簇。
在一种实施方式中,处理器403执行对所述多个数据特征进行聚类处理,得到聚类结果时,可以执行:利用层次聚类算法,对所述多个数据特征进行聚类处理,得到聚类结果。
那么,处理器403执行根据所述聚类结果,确定第一数据聚类簇和第二数据聚类簇时,可以执行:获取分割阈值,并根据所述分割阈值和所述聚类结果,确定第一数据聚类簇和第二数据聚类簇,其中所述聚类结果为层次聚类图,所述分割阈值用于从所述层次聚类图中选取出所需的聚类簇。
在一种实施方式中,处理器403还可以执行:当所述多个数据为图片时,获取第一模型,所述第一模型为根据ImageNet训练得到的ResNet模型;利用所述多个数据对所述ResNet模型进行学习训练,得到第二模型;将位于所述第二模型最后一层的全连接层移除得到第三模型,并将所述第三模型确定为预设特征提取模型。
那么,处理器403执行所述提取每一所述数据的特征,得到多个数据特征时,可以执行:利用所述预设特征提取模型对每一所述数据进行特征提取,得到多个数据特征。
在一种实施方式中,处理器403执行利用所述预设特征提取模型对每一所述数据进行特征提取,得到多个数据特征时,可以执行:当电子设备的计算能力低于第二阈值时,利用所述预设特征提取模型对每一所述数据进行特征提取,得到多个数据特征。
在一种实施方式中,处理器403还可以执行:当所述电子设备的计算能力不低于所述第二阈值时,获取第四模型,并利用所述第四模型对每一所述数据进行特征提取,得到多个数据特征,其中所述第四模型的特征提取精度高于所述预设特征提取模型。
在一种实施方式中,处理器403执行所述利用层次聚类算法,对所述多个数据特征进行聚类处理,得到聚类结果时,可以执行:利用层次聚类算法,对所述多个数据特征进行聚类处理,得到聚类结果,其中,在聚类处理时使用明氏距离衡量样本之间的距离,取分属于不同类的样本的两两之间的距离的均值作为两类的类间距离。
在一种实施方式中,处理器403执行对所述第二数据聚类簇中的数据进行数据清洗处理,得到已处理数据时,可以执行:从所述第二数据聚类簇中确定出类别标签有误的数据并删除,得到已处理数据。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对数据处理方法的详细描述,此处不再赘述。
本申请实施例提供的所述数据处理装置与上文实施例中的数据处理方法属于同一构思,在所述数据处理装置上可以运行所述数据处理方法实施例中提供的任一方法,其具体实现过程详见所述数据处理方法实施例,此处不再赘述。
需要说明的是,对本申请实施例所述数据处理方法而言,本领域普通技术人员可以理解实现本申请实施例所述数据处理方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,如存储在存储器中,并被至少一个处理器执行,在执行过程中可包括如所述数据处理方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)等。
对本申请实施例的所述数据处理装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
以上对本申请实施例所提供的一种数据处理方法、装置、存储介质以及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (11)

1.一种数据处理方法,其特征在于,包括:
获取多个数据,所述多个数据携带有相同的类别标签;
提取每一所述数据的特征,得到多个数据特征;
对所述多个数据特征进行聚类处理,得到聚类结果;
根据所述聚类结果,确定第一数据聚类簇和第二数据聚类簇,其中所述第一数据聚类簇为不需要清洗的数据所在的簇,所述第二数据聚类簇为需要清洗的数据所在的簇;
对所述第二数据聚类簇中的数据进行数据清洗处理,得到已处理数据;
根据所述第一数据聚类簇中的数据和所述已处理数据,得到目标数据。
2.根据权利要求1所述的数据处理方法,其特征在于,根据所述聚类结果,确定第一数据聚类簇和第二数据聚类簇,包括:
根据所述聚类结果,确定第一数据聚类簇和第二数据聚类簇,其中所述第一数据聚类簇中包含的样本数量记为第一数量,所述第二数据聚类簇中包含的样本数量记为第二数量,所述第一数量与所述第二数量的差值大于第一阈值,所述第二数据聚类簇至少包含一个簇。
3.根据权利要求2所述的数据处理方法,其特征在于,对所述多个数据特征进行聚类处理,得到聚类结果,包括:利用层次聚类算法,对所述多个数据特征进行聚类处理,得到聚类结果;
根据所述聚类结果,确定第一数据聚类簇和第二数据聚类簇,包括:获取分割阈值,并根据所述分割阈值和所述聚类结果,确定第一数据聚类簇和第二数据聚类簇,其中所述聚类结果为层次聚类图,所述分割阈值用于从所述层次聚类图中选取出所需的聚类簇。
4.根据权利要求1所述的数据处理方法,其特征在于,所述方法还包括:
当所述多个数据为图片时,获取第一模型,所述第一模型为根据ImageNet训练得到的ResNet模型;
利用所述多个数据对所述ResNet模型进行学习训练,得到第二模型;
将位于所述第二模型最后一层的全连接层移除得到第三模型,并将所述第三模型确定为预设特征提取模型;
所述提取每一所述数据的特征,得到多个数据特征,包括:利用所述预设特征提取模型对每一所述数据进行特征提取,得到多个数据特征。
5.根据权利要求4所述的数据处理方法,其特征在于,利用所述预设特征提取模型对每一所述数据进行特征提取,得到多个数据特征,包括:
当电子设备的计算能力低于第二阈值时,利用所述预设特征提取模型对每一所述数据进行特征提取,得到多个数据特征。
6.根据权利要求5所述的数据处理方法,其特征在于,所述方法还包括:
当所述电子设备的计算能力不低于所述第二阈值时,获取第四模型,并利用所述第四模型对每一所述数据进行特征提取,得到多个数据特征,其中所述第四模型的特征提取精度高于所述预设特征提取模型。
7.根据权利要求3所述的数据处理方法,其特征在于,所述利用层次聚类算法,对所述多个数据特征进行聚类处理,得到聚类结果,包括:
利用层次聚类算法,对所述多个数据特征进行聚类处理,得到聚类结果,其中,在聚类处理时使用明氏距离衡量样本之间的距离,取分属于不同类的样本的两两之间的距离的均值作为两类的类间距离。
8.根据权利要求1所述的数据处理方法,其特征在于,对所述第二数据聚类簇中的数据进行数据清洗处理,得到已处理数据,包括:
从所述第二数据聚类簇中确定出类别标签有误的数据并删除,得到已处理数据。
9.一种数据处理装置,其特征在于,包括:
获取模块,用于获取多个数据,所述多个数据携带有相同的类别标签;
提取模块,用于提取每一所述数据的特征,得到多个数据特征;
聚类模块,用于对所述多个数据特征进行聚类处理,得到聚类结果;
确定模块,用于根据所述聚类结果,确定第一数据聚类簇和第二数据聚类簇,其中所述第一数据聚类簇为不需要清洗的数据所在的簇,所述第二数据聚类簇为需要清洗的数据所在的簇;
第一处理模块,用于对所述第二数据聚类簇中的数据进行数据清洗处理,得到已处理数据;
第二处理模块,用于根据所述第一数据聚类簇中的数据和所述已处理数据,得到目标数据。
10.一种存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机上执行时,使得所述计算机执行如权利要求1至8中任一项所述的方法。
11.一种电子设备,包括存储器,处理器,其特征在于,所述处理器通过调用所述存储器中存储的计算机程序,用于执行如权利要求1至8中任一项所述的方法。
CN201910713732.8A 2019-08-02 2019-08-02 数据处理方法、装置、存储介质及电子设备 Active CN110472082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910713732.8A CN110472082B (zh) 2019-08-02 2019-08-02 数据处理方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910713732.8A CN110472082B (zh) 2019-08-02 2019-08-02 数据处理方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN110472082A true CN110472082A (zh) 2019-11-19
CN110472082B CN110472082B (zh) 2022-04-01

Family

ID=68509390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910713732.8A Active CN110472082B (zh) 2019-08-02 2019-08-02 数据处理方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN110472082B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340084A (zh) * 2020-02-20 2020-06-26 北京市商汤科技开发有限公司 数据处理方法及装置、处理器、电子设备、存储介质
CN111460195A (zh) * 2020-03-26 2020-07-28 Oppo广东移动通信有限公司 图片处理方法、装置、存储介质及电子设备
CN112256766A (zh) * 2020-11-02 2021-01-22 浙江八达电子仪表有限公司 用于能源采集终端的用电行为分析方法
CN112348107A (zh) * 2020-11-17 2021-02-09 百度(中国)有限公司 图像数据清洗方法及装置、电子设备和介质
CN112418169A (zh) * 2020-12-10 2021-02-26 上海芯翌智能科技有限公司 一种对人体属性数据进行处理的方法及设备
CN112465020A (zh) * 2020-11-25 2021-03-09 创新奇智(合肥)科技有限公司 训练数据集的生成方法及装置、电子设备、存储介质
CN113518058A (zh) * 2020-04-09 2021-10-19 中国移动通信集团海南有限公司 异常登录行为检测方法、装置、存储介质和计算机设备
CN114638322A (zh) * 2022-05-20 2022-06-17 南京大学 开放场景下基于给定描述的全自动目标检测系统和方法
CN117235448A (zh) * 2023-11-14 2023-12-15 北京阿丘科技有限公司 数据清洗方法、终端设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101430708A (zh) * 2008-11-21 2009-05-13 哈尔滨工业大学深圳研究生院 一种基于标签聚类的博客层次分类树构建方法
US20130002810A1 (en) * 2011-06-30 2013-01-03 Stauder Juergen Outlier detection for colour mapping
CN105678232A (zh) * 2015-12-30 2016-06-15 中通服公众信息产业股份有限公司 一种基于深度学习的人脸图片特征提取与对比方法
CN106547893A (zh) * 2016-11-03 2017-03-29 福建中金在线信息科技有限公司 一种图片分类管理系统及图片分类管理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101430708A (zh) * 2008-11-21 2009-05-13 哈尔滨工业大学深圳研究生院 一种基于标签聚类的博客层次分类树构建方法
US20130002810A1 (en) * 2011-06-30 2013-01-03 Stauder Juergen Outlier detection for colour mapping
CN105678232A (zh) * 2015-12-30 2016-06-15 中通服公众信息产业股份有限公司 一种基于深度学习的人脸图片特征提取与对比方法
CN106547893A (zh) * 2016-11-03 2017-03-29 福建中金在线信息科技有限公司 一种图片分类管理系统及图片分类管理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曹科研: "不确定数据的聚类分析与异常点检测算法", 《中国优秀博士学位论文全文数据库 信息科技辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340084A (zh) * 2020-02-20 2020-06-26 北京市商汤科技开发有限公司 数据处理方法及装置、处理器、电子设备、存储介质
CN111340084B (zh) * 2020-02-20 2024-05-17 北京市商汤科技开发有限公司 数据处理方法及装置、处理器、电子设备、存储介质
CN111460195A (zh) * 2020-03-26 2020-07-28 Oppo广东移动通信有限公司 图片处理方法、装置、存储介质及电子设备
CN113518058B (zh) * 2020-04-09 2022-12-13 中国移动通信集团海南有限公司 异常登录行为检测方法、装置、存储介质和计算机设备
CN113518058A (zh) * 2020-04-09 2021-10-19 中国移动通信集团海南有限公司 异常登录行为检测方法、装置、存储介质和计算机设备
CN112256766A (zh) * 2020-11-02 2021-01-22 浙江八达电子仪表有限公司 用于能源采集终端的用电行为分析方法
CN112348107A (zh) * 2020-11-17 2021-02-09 百度(中国)有限公司 图像数据清洗方法及装置、电子设备和介质
CN112465020A (zh) * 2020-11-25 2021-03-09 创新奇智(合肥)科技有限公司 训练数据集的生成方法及装置、电子设备、存储介质
CN112418169A (zh) * 2020-12-10 2021-02-26 上海芯翌智能科技有限公司 一种对人体属性数据进行处理的方法及设备
CN114638322A (zh) * 2022-05-20 2022-06-17 南京大学 开放场景下基于给定描述的全自动目标检测系统和方法
CN114638322B (zh) * 2022-05-20 2022-09-13 南京大学 开放场景下基于给定描述的全自动目标检测系统和方法
CN117235448A (zh) * 2023-11-14 2023-12-15 北京阿丘科技有限公司 数据清洗方法、终端设备及存储介质
CN117235448B (zh) * 2023-11-14 2024-02-06 北京阿丘科技有限公司 数据清洗方法、终端设备及存储介质

Also Published As

Publication number Publication date
CN110472082B (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
CN110472082A (zh) 数据处理方法、装置、存储介质及电子设备
Xie et al. Unseen object instance segmentation for robotic environments
Patel Hands-on unsupervised learning using Python: how to build applied machine learning solutions from unlabeled data
Sharma et al. An analysis of convolutional neural networks for image classification
Russakovsky et al. Imagenet large scale visual recognition challenge
CN112632385A (zh) 课程推荐方法、装置、计算机设备及介质
CN112395506A (zh) 一种资讯推荐方法、装置、电子设备和存储介质
CN107209860A (zh) 使用分块特征来优化多类图像分类
CN104573130B (zh) 基于群体计算的实体解析方法及装置
Zhang et al. Sequential optimization for efficient high-quality object proposal generation
CN109471944A (zh) 文本分类模型的训练方法、装置及可读存储介质
CN110490237A (zh) 数据处理方法、装置、存储介质及电子设备
CN110276406A (zh) 表情分类方法、装置、计算机设备及存储介质
CN109284675A (zh) 一种用户的识别方法、装置及设备
CN106874292A (zh) 话题处理方法及装置
CN102201062A (zh) 信息处理设备、方法和程序
CN110110113A (zh) 图像搜索方法、系统及电子装置
CN110580489B (zh) 一种数据对象的分类系统、方法以及设备
CN108228844A (zh) 一种图片筛选方法及装置、存储介质、计算机设备
CN111737479B (zh) 数据获取方法、装置、电子设备及存储介质
CN108536784A (zh) 评论信息情感分析方法、装置、计算机存储介质和服务器
Somnugpong et al. Content-based image retrieval using a combination of color correlograms and edge direction histogram
CN109716275A (zh) 基于个性化主题以多维模式来显示图像的方法
EP3821366A1 (en) Systems, methods, and computer-readable media for improved table identification using a neural network
CN110458600A (zh) 画像模型训练方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant