CN111046969A - 数据筛选方法、装置、存储介质及电子设备 - Google Patents

数据筛选方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN111046969A
CN111046969A CN201911340834.6A CN201911340834A CN111046969A CN 111046969 A CN111046969 A CN 111046969A CN 201911340834 A CN201911340834 A CN 201911340834A CN 111046969 A CN111046969 A CN 111046969A
Authority
CN
China
Prior art keywords
center identification
clustering
identification vector
cluster
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911340834.6A
Other languages
English (en)
Inventor
郭子亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oppo Chongqing Intelligent Technology Co Ltd
Original Assignee
Oppo Chongqing Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oppo Chongqing Intelligent Technology Co Ltd filed Critical Oppo Chongqing Intelligent Technology Co Ltd
Priority to CN201911340834.6A priority Critical patent/CN111046969A/zh
Publication of CN111046969A publication Critical patent/CN111046969A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种数据筛选方法、装置、存储介质及电子设备,其中,通过获取已标注类别的数据样本的样本标识,并获取对应样本标识的标识向量;然后,将已标注类别的类别数作为聚类类别数对标识向量进行聚类处理;然后,对于每一聚类类别,获取其聚类中心标识向量与非聚类中心标识向量的相似度;然后,确定出每一聚类类别中与聚类中心标识向量的相似度未达到预设相似度的目标非聚类中心标识向量,将其表征的数据样本的已标注类别判定为标注噪声;最后,滤除每一聚类类别中目标非聚类中心标识向量所对应的数据样本,从而达到提高数据样本标注质量的目的,以为机器学习提供高质量的数据样本。

Description

数据筛选方法、装置、存储介质及电子设备
技术领域
本申请涉及机器学习技术领域,具体涉及一种数据筛选方法、装置、存储介质及电子设备。
背景技术
目前,在机器学习领域,通常利用人工的方式来对数据样本进行标注,从而根据数据样本以及对应的标识数据进行机器学习,以得到相应的功能模型。然而,在使用人工进行数据样本的标注时,不可避免的会产生标注噪声,而这些标注噪声将对机器学习造成影响。
发明内容
本申请实施例提供了一种数据筛选方法、装置、存储介质及电子设备,能够提高数据样本的标注质量。
第一方面,本申请实施例提供了一种数据筛选方法,包括:
获取已标注类别的数据样本的样本标识,并获取对应所述样本标识的标识向量;
将已标注类别的类别数作为聚类类别数对所述标识向量进行聚类处理;
对于每一聚类类别,获取其聚类中心标识向量与非聚类中心标识向量的相似度;
确定出每一聚类类别中与聚类中心标识向量的相似度未达到预设相似度的目标非聚类中心标识向量;
滤除每一聚类类别中目标非聚类中心标识向量所对应的数据样本。
第二方面,本申请实施例提供了一种数据筛选装置,包括:
样本获取模块,用于获取已标注类别的数据样本的样本标识,并获取对应所述样本标识的标识向量;
向量聚类模块,用于将已标注类别的类别数作为聚类类别数对所述标识向量进行聚类处理;
相似度量模块,用于对于每一聚类类别,获取其聚类中心标识向量与非聚类中心标识向量的相似度;
目标确定模块,用于确定出每一聚类类别中与聚类中心标识向量的相似度未达到预设相似度的目标非聚类中心标识向量;
样本过滤模块,用于滤除每一聚类类别中目标非聚类中心标识向量所对应的数据样本。
第三方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,当所述计算机程序被处理器调用时,使得所述处理器执行如本申请实施例提供的数据筛选方法。
第四方面,本申请实施例提供了一种电子设备,包括处理器和存储器,所述存储器存储有计算机程序,且所述处理器通过调用所述计算机程序,用于执行如本申请实施例提供的数据筛选方法。
本申请通过获取已标注类别的数据样本的样本标识,并获取对应样本标识的标识向量;然后,将已标注类别的类别数作为聚类类别数对标识向量进行聚类处理;然后,对于每一聚类类别,获取其聚类中心标识向量与非聚类中心标识向量的相似度;然后,确定出每一聚类类别中与聚类中心标识向量的相似度未达到预设相似度的目标非聚类中心标识向量,将其表征的数据样本的已标注类别判定为标注噪声;最后,滤除每一聚类类别中目标非聚类中心标识向量所对应的数据样本,从而达到提高数据样本标注质量的目的,以为机器学习提供高质量的数据样本。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的数据筛选方法的一流程示意图。
图2是本申请实施例中对标识向量进行聚类的示意图。
图3是本申请实施例提供的数据筛选方法的另一流程示意图。
图4是本申请实施例提供的数据筛选装置的一结构示意图。
图5是本申请实施例提供的电子设备的一结构示意图。
图6是本申请实施例提供的电子设备的另一结构示意图。
具体实施方式
应当说明的是,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其它具体实施例。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。
应当说明的是,本申请关注的是在正式机器学习之前的预处理过程,旨在滤除存在标注噪声的数据样本,从而更好的基于过滤后的数据样本进行机器学习。
为此,本申请实施例提供一种数据筛选方法、数据筛选装置、存储介质以及电子设备。其中,该数据筛选方法的执行主体可以是本申请实施例提供的数据筛选装置,或者集成了该数据筛选装置的电子设备,其中该数据筛选装置可以采用硬件或者软件的方式实现,电子设备可为配置有处理器而具备处理能力的设备,包括但不限于智能手机、台式电脑以及服务器等。
请参照图1,图1为本申请实施例提供的数据筛选方法的流程示意图,该数据筛选方法的流程可以如下:
在101中,获取已标注类别的数据样本的样本标识,并获取对应样本标识的标识向量。
应当说明的是,本申请对数据样本的类型不做具体限制,包括但不限于视频、文本、图像以及音频等。比如,当需要训练用于对视频进行分类的分类模型时,则可以预先获取视频样本,并采用人工的方式对视频样本的类别进行标注,得到已标注类别的视频样本。
本申请实施例中,对于已标注类别的数据样本,电子设备首先获取到这些已标注类别的数据样本的样本标识。其中,样本标识用于表征数据样本,比如,对于视频样本,可以获取其视频标题作为样本标识。
在获取到已标注类别的数据样本的样本标识之后,电子设备进一步对获取到的样本标识进行向量化表征,以获取得到对应样本标识的标识向量。
其中,本申请对于采用何种方式来对样本标识进行向量化表征不做具体限制,可由本领域普通技术人员根据实际需要选取向量化表征方式。
在102中,将已标注类别的类别数作为聚类类别数对标识向量进行聚类处理。
其中,聚类可以理解为将一数据集中在某些方面相似的数据成员进行分类组织的过程。
本申请实施例中,电子设备在获取到已标注类别的数据样本的样本标识,并获取到对应样本标识的标识向量之后,电子设备进一步对获取到的标识向量进行聚类。其中,聚类类别数与获取到的已标注类别的数据样本的类别数相同。
比如,请参照图2,假设共获取到已标注类别的n个数据样本,其中已标注类别的类别数为k(即获取到的这n个数据样本被人工标注为了k个不同的类别),则电子设备相应确定对标识向量进行聚类处理的聚类类别数为k,并采用预设的聚类算法按照确定的聚类类别数对标识向量进行聚类处理,将标识向量聚类为k个聚类类别。
应当说明的是,本申请对于采用何种聚类算法对标识向量进行聚类处理不做具体限制,可由本领域普通技术人员根据实际需要进行选取。
示例性的,本申请中电子设备采用k-means算法对标识向量进行聚类处理。
其中,k即代表了聚类类别数,其基本思路是:
在确定k值后,随机选取k个对象作为初始的聚类中心,然后计算每个对象与各个聚类中心之间的欧式距离,把每个对象分配给距离它最近的聚类中心,这样,聚类中心以及分配给它的对象就代表一个聚类。然后,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,或者没有(或最小数目)聚类中心再发生变化,或者误差平方和局部最小等。
在103中,对于每一聚类类别,获取其聚类中心标识向量与非聚类中心标识向量的相似度。
其中,在完成对获取到的标识向量的聚类处理之后,将得到聚类类别数与已标注类别数相同的多个聚类类别。
本申请实施例中,针对每一聚类类别,将位于其聚类中心的标识向量记为聚类中心标识向量,将其它的标识向量记为非聚类中心标识向量。然后,电子设备获取每一聚类类别中聚类中心标识向量与非聚类中心标识向量的相似度。
其中,对于如何表征聚类中心标识向量与非聚类中心标识向量的相似度,可由本领域普通技术人员根据实际需要选取合适的表征方式,包括但不限于切比雪夫距离(也称棋盘距离)、曼哈顿距离、欧式距离以及余弦相似度等。
在104中,确定出每一聚类类别中与聚类中心标识向量的相似度未达到预设相似度的目标非聚类中心标识向量。
对于每一聚类类别,电子设备确定出其中与聚类中心标识向量的相似度未达到预设相似度的非聚类中心标识向量,记为目标非聚类中心标识向量。对于目标非聚类中心标识向量,电子设备将其表征的数据样本的已标注类别判定为标注噪声,需要过滤掉。
应当说明的是,本申请中对预设相似度的取值不做具体限制,可由本领域普通技术人员根据实际需要进行设置。
在105中,滤除每一聚类类别中目标非聚类中心标识向量所对应的数据样本。
在确定出每一聚类类别中的目标非聚类中心标识向量之后,电子设备即相应滤除每一聚类类别中的目标非聚类中心标识向量所表征的数据样本,从而滤除存在标注噪声的数据样本,达到提升数据样本标注质量的目的。
由上可知,本申请通过获取已标注类别的数据样本的样本标识,并获取对应样本标识的标识向量;然后,将已标注类别的类别数作为聚类类别数对标识向量进行聚类处理;然后,对于每一聚类类别,获取其聚类中心标识向量与非聚类中心标识向量的相似度;然后,确定出每一聚类类别中与聚类中心标识向量的相似度未达到预设相似度的目标非聚类中心标识向量,将其表征的数据样本的已标注类别判定为标注噪声;最后,滤除每一聚类类别中目标非聚类中心标识向量所对应的数据样本,从而达到提高数据样本标注质量的目的,以为机器学习提供高质量的数据样本。
在一实施例中,对于每一聚类类别,获取其聚类中心标识向量与非聚类中心标识向量的相似度,包括:
(1)对于每一聚类类别,获取其聚类中心标识向量与非聚类中心标识向量的欧式距离;
(2)将对应欧式距离小于第一预设欧式距离的非聚类中心标识向量作为第一类非聚类中心标识向量,以及将对应欧式距离大于或等于第一预设欧式距离的非聚类中心标识向量作为第二类非聚类中心标识向量;
(3)获取聚类中心标识向量与第一类非聚类中心标识向量的相似度,以及并行获取聚类中心标识向量与第二类非聚类中心标识向量的相似度。
本申请实施例中,为了提升处理效率,将非聚类中心标识向量分为两部分,然后并行获取两部分非聚类中心标识向量与聚类中心标识向量的相似度。
其中,对于每一聚类类别,电子设备获取其聚类中心标识向量与每一非聚类中心标识向量的欧式距离。
然后,根据各非聚类中心标识向量对应的欧式距离,电子设备求取一个欧式距离阈值,该欧式距离阈值使得该聚类类别中第一预设百分比的非聚类中心标识向量的欧式距离都小于它。然后,电子设备将该欧式距离阈值记为第一预设欧式距离,用于对非聚类中心标识向量进行分类。其中,第一预设百分比可由本领域普通技术人员根据实际需要进行设置,本申请中对此不作具体限制,比如,本申请中将第一预设百分比配置为80%。
在确定第一预设欧式距离之后,电子设备将对应欧式距离小于第一预设欧式距离的非聚类中心标识向量作为第一类非聚类中心标识向量,以及将对应欧式距离大于或等于第一预设欧式距离的非聚类中心标识向量作为第二类非聚类中心标识向量。其中,以第一预设欧式距离为界,第一类非聚类中心标识向量构成了该聚类类别的聚类核心区域,而第二类非聚类中心标识向量则构成了该聚类类别的非聚类核心区域。
在完成对非聚类中心标识向量的分类之后,电子设备获取聚类中心标识向量与第一类非聚类中心标识向量的相似度,以及并行获取聚类中心标识向量与第二类非聚类中心标识向量的相似度。
其中,电子设备可以通过同一处理器件(比如中央处理器)来并行获取两类非聚类中心标识向量与聚类中心标识向量的相似度,也可以通过不同处理器器件(比如中央处理器和协处理器)来并行获取两类非聚类中心标识向量与聚类中心标识向量的相似度。
在一实施例中,获取聚类中心标识向量与第一类非聚类中心标识向量的相似度,以及并行获取聚类中心标识向量与第二类非聚类中心标识向量的相似度,包括:
通过处理器的第一内核获取聚类中心标识向量与第一类非聚类中心标识向量的相似度,并行通过处理器的第二内核获取聚类中心标识向量与第二类非聚类中心标识向量的相似度。
应当说明的是,内核是处理器的核心部件,用来完成所有的计算、接受/存储命令、处理数据等。目前,电子设备配备的处理器通常为多核处理器,即包括多个内核的处理器。
本申请实施例中,电子设备在获取聚类中心标识向量与第一类非聚类中心标识向量的相似度,以及并行获取聚类中心标识向量与第二类非聚类中心标识向量的相似度时,可以通过处理器的一个内核(记为第一内核)来获取聚类中心标识向量与第一类非聚类中心标识向量的相似度,以及并行通过处理器中的另一个内核(记为第二内核)来获取聚类中心标识向量与第二类非聚类中心标识向量的相似度。
在一实施例中,获取聚类中心标识向量与第二类非聚类中心标识向量的相似度,包括:
(1)滤除对应欧式距离大于第二预设欧式距离的第二类非聚类中心标识向量,及其对应的数据样本,其中,第二预设欧式距离大于第一预设欧式距离;
(2)获取聚类中心标识向量与剩余的第二类非聚类中心标识向量的相似度。
本申请实施例中,对于划分的第二类非聚类中心标识向量,电子设备并不直接获取聚类中心标识向量与其相似度,而是先通过离心半径进行过滤,再获取聚类中心标识向量与剩余的第二类非聚类中心标识向量的相似度。
其中,对于每一聚类类别,离心半径是求取是一个欧式距离阈值,该欧式距离阈值使得该聚类类别中第二预设百分比的非聚类中心标识向量的欧式距离都小于它,且第二预设百分比大于第一预设百分比。应当说明的是,本申请中对第二预设百分比的取值不做具体限制,可由本领域普通技术人员根据实际需要进行设置,比如,本申请中将第一预设百分比配置为80%时,将第二预设百分比配置为90%。
本申请实施例中,在求取得到上述离心半径时,电子设备将求取得到离心半径记为第二预设欧式距离,相应的,该第二预设欧式距离大于第一预设欧式距离。
其中,对于对应欧式距离大于第二预设欧式距离的第二类非聚类中心标识向量,电子设备判定其表征的数据样本的已标注类别为标注噪声,需要过滤掉。相应的,对于每一聚类类别,电子设备滤除其中对应欧式距离大于第二预设欧式距离的第二类非聚类中心标识向量,以及滤除对应欧式距离大于第二预设欧式距离的第二类非聚类中心标识向量所表征的数据样本。
在一实施例中,获取对应样本标识的标识向量,包括:
调用预训练的Bert模型对样本标识进行向量化表征,得到对应样本标识的标识向量。
本申请实施例中,在获取对应样本标识的标识向量时,电子设备调用预训练的Bert模型对样本标识进行向量化表征,从而得到对应样本标识的标识向量。
在其它实施例中,电子设备还可以调用预训练的word2vec模型、glove模型或者ELMo模型等来对样本标识进行向量化表征,以得到对应样本标识的标识向量。
在一实施例中,对于每一聚类类别,获取其聚类中心标识向量与非聚类中心标识向量的相似度,包括:
对于每一聚类类别,获取其聚类中心标识向量与非聚类中心标识向量的余弦相似度。
本申请实施例中,采用余弦相似度来表征聚类中心标识向量与非聚类中心标识向量的相似度。其中,对于每一聚类类别,获取其聚类中心标识向量与非聚类中心标识向量的余弦相似度。
应当说明的是,余弦相似度是通过测量两个向量的夹角的余弦值来度量它们之间的相似度。0度角的余弦值是1,而其他任何角度的余弦值都不大于1,并且其最小值是-1。从而根据两个向量之间的角度的余弦值可以确定两个向量是否大致指向相同的方向,其中,两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;而当两个向量指向完全相反的方向时,余弦相似度的值为-1。基于此,本申请中可以将预设相似度配置为0。由此,对于每一聚类类别,电子设备在获取到该聚类类别中聚类中心标识向量与非聚类中心标识向量的余弦相似度之后,确定该聚类类别中与聚类中心标识向量的余弦相似度为负值的非聚类中心标识向量,记为目标非聚类中心标识向量。
在一实施例中,滤除每一聚类类别中目标非聚类中心标识向量所对应的数据样本之后,还包括:
滤除每一聚类类别中已标注类别与聚类类别不匹配的非聚类中心标识向量所对应的数据样本。
本申请实施例中,电子设备在滤除每一聚类类别中目标非聚类中心标识向量所对应的数据样本之后,还进一步识别出每一聚类类别中已标注类别与聚类类别不匹配的非聚类中心标识向量所对应的数据样本,将其也判定为标注噪声,并相应滤除每一聚类类别中已标注类别与聚类类别不匹配的非聚类中心标识向量所对应的数据样本,以进一步提高数据样本的标注质量。
请参照图3,本申请实施例提供的数据筛选方法的流程还可以为:
在201中,电子设备获取已标注类别的数据样本的样本标识,并获取对应样本标识的标识向量。
应当说明的是,本申请对数据样本的类型不做具体限制,包括但不限于视频、文本、图像以及音频等。比如,当需要训练用于对视频进行分类的分类模型时,则可以预先获取视频样本,并采用人工的方式对视频样本的类别进行标注,得到已标注类别的视频样本。
本申请实施例中,对于已标注类别的数据样本,电子设备首先获取到这些已标注类别的数据样本的样本标识。其中,样本标识用于表征数据样本,比如,对于视频样本,可以获取其视频标题作为样本标识。
在获取到已标注类别的数据样本的样本标识之后,电子设备进一步对获取到的样本标识进行向量化表征,以获取得到对应样本标识的标识向量。
其中,本申请对于采用何种方式来对样本标识进行向量化表征不做具体限制,可由本领域普通技术人员根据实际需要选取向量化表征方式。
在202中,电子设备将已标注类别的类别数作为聚类类别数对标识向量进行聚类处理。
其中,聚类可以理解为将一数据集中在某些方面相似的数据成员进行分类组织的过程。
本申请实施例中,电子设备在获取到已标注类别的数据样本的样本标识,并获取到对应样本标识的标识向量之后,电子设备进一步对获取到的标识向量进行聚类。其中,聚类类别数与获取到的已标注类别的数据样本的类别数相同。
比如,请参照图2,假设共获取到已标注类别的n个数据样本,其中已标注类别的类别数为k(即获取到的这n个数据样本被人工标注为了k个不同的类别),则电子设备相应确定对标识向量进行聚类处理的聚类类别数为k,并采用预设的聚类算法按照确定的聚类类别数对标识向量进行聚类处理,将标识向量聚类为k个聚类类别。
应当说明的是,本申请对于采用何种聚类算法对标识向量进行聚类处理不做具体限制,可由本领域普通技术人员根据实际需要进行选取。
示例性的,本申请中电子设备采用k-means算法对标识向量进行聚类处理。
在203中,对于每一聚类类别,电子设备获取其聚类中心标识向量与非聚类中心标识向量的欧式距离。
本申请实施例中,将非聚类中心标识向量分为两部分,分别进行处理。
首先,对于每一聚类类别,电子设备获取其聚类中心标识向量与每一非聚类中心标识向量的欧式距离。
在204中,电子设备将每一聚类类别中对应欧式距离小于第一预设欧式距离的非聚类中心标识向量作为第一类非聚类中心标识向量,以及将对应欧式距离大于或等于第一预设欧式距离的非聚类中心标识向量作为第二类非聚类中心标识向量。
其中,根据各非聚类中心标识向量对应的欧式距离,电子设备求取一个欧式距离阈值,该欧式距离阈值使得该聚类类别中第一预设百分比的非聚类中心标识向量的欧式距离都小于它。然后,电子设备将该欧式距离阈值记为第一预设欧式距离,用于对非聚类中心标识向量进行分类。其中,第一预设百分比可由本领域普通技术人员根据实际需要进行设置,本申请中对此不作具体限制,比如,本申请中将第一预设百分比配置为80%。
在确定第一预设欧式距离之后,电子设备将对应欧式距离小于第一预设欧式距离的非聚类中心标识向量作为第一类非聚类中心标识向量,以及将对应欧式距离大于或等于第一预设欧式距离的非聚类中心标识向量作为第二类非聚类中心标识向量。其中,以第一预设欧式距离为界,第一类非聚类中心标识向量构成了该聚类类别的聚类核心区域,而第二类非聚类中心标识向量则构成了该聚类类别的非聚类核心区域。
在205中,电子设备获取每一聚类类别中聚类中心标识向量与第一类非聚类中心标识向量的余弦相似度,以及滤除对应欧式距离大于第二预设欧式距离的第二类非聚类中心标识向量,及其对应的数据样本,再获取聚类中心标识向量与剩余的第二类非聚类中心标识向量的余弦相似度。
对于第一类非聚类中心标识向量,电子设备直接获取每一聚类类别中聚类中心标识向量与第一类非聚类中心标识向量的余弦相似度。
而对于第二类非聚类中心标识向量,电子设备先滤除对应欧式距离大于第二预设欧式距离的第二类非聚类中心标识向量,及其对应的数据样本后,再获取聚类中心标识向量与剩余的第二类非聚类中心标识向量的余弦相似度。
在206中,电子设备确定出每一聚类类别中与聚类中心标识向量的余弦相似度未达到预设相似度的目标非聚类中心标识向量。
应当说明的是,余弦相似度是通过测量两个向量的夹角的余弦值来度量它们之间的相似度。0度角的余弦值是1,而其他任何角度的余弦值都不大于1,并且其最小值是-1。从而根据两个向量之间的角度的余弦值可以确定两个向量是否大致指向相同的方向,其中,两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;而当两个向量指向完全相反的方向时,余弦相似度的值为-1。基于此,本申请中可以将预设相似度配置为0。由此,对于每一聚类类别,电子设备在获取到该聚类类别中聚类中心标识向量与非聚类中心标识向量的余弦相似度之后,确定该聚类类别中与聚类中心标识向量的余弦相似度为负值的非聚类中心标识向量,记为目标非聚类中心标识向量。
在207中,电子设备滤除每一聚类类别中目标非聚类中心标识向量所对应的数据样本。
在确定出每一聚类类别中的目标非聚类中心标识向量之后,电子设备即相应滤除每一聚类类别中的目标非聚类中心标识向量所表征的数据样本,从而滤除存在标注噪声的数据样本,达到提升数据样本标注质量的目的。
在208中,电子设备滤除每一聚类类别中已标注类别与聚类类别不匹配的非聚类中心标识向量所对应的数据样本。
本申请实施例中,电子设备在滤除每一聚类类别中目标非聚类中心标识向量所对应的数据样本之后,还进一步识别出每一聚类类别中已标注类别与聚类类别不匹配的非聚类中心标识向量所对应的数据样本,将其也判定为标注噪声,并相应滤除每一聚类类别中已标注类别与聚类类别不匹配的非聚类中心标识向量所对应的数据样本,以进一步提高数据样本的标注质量。
本申请实施例还提供一种数据筛选装置。请参照图4,图4为本申请实施例提供的数据筛选装置的结构示意图。其中该数据筛选装置应用于电子设备,该数据筛选装置包括样本获取模块301、向量聚类模块302、相似度量模块303、目标确定模块304以及样本过滤模块305,如下:
样本获取模块301,用于获取已标注类别的数据样本的样本标识,并获取对应样本标识的标识向量;
向量聚类模块302,用于将已标注类别的类别数作为聚类类别数对标识向量进行聚类处理;
相似度量模块303,用于对于每一聚类类别,获取其聚类中心标识向量与非聚类中心标识向量的相似度;
目标确定模块304,用于确定出每一聚类类别中与聚类中心标识向量的相似度未达到预设相似度的目标非聚类中心标识向量;
样本过滤模块305,用于滤除每一聚类类别中目标非聚类中心标识向量所对应的数据样本。
在一实施例中,对于每一聚类类别,在获取其聚类中心标识向量与非聚类中心标识向量的相似度时,相似度量模块303用于:
对于每一聚类类别,获取其聚类中心标识向量与非聚类中心标识向量的欧式距离;
将对应欧式距离小于第一预设欧式距离的非聚类中心标识向量作为第一类非聚类中心标识向量,以及将对应欧式距离大于或等于第一预设欧式距离的非聚类中心标识向量作为第二类非聚类中心标识向量;
获取聚类中心标识向量与第一类非聚类中心标识向量的相似度,以及并行获取聚类中心标识向量与第二类非聚类中心标识向量的相似度。
在一实施例中,在获取聚类中心标识向量与第二类非聚类中心标识向量的相似度时,相似度量模块303用于:
滤除对应欧式距离大于第二预设欧式距离的第二类非聚类中心标识向量,及其对应的数据样本,其中,第二预设欧式距离大于第一预设欧式距离;
获取聚类中心标识向量与剩余的第二类非聚类中心标识向量的相似度。
在一实施例中,在获取聚类中心标识向量与第一类非聚类中心标识向量的相似度,以及并行获取聚类中心标识向量与第二类非聚类中心标识向量的相似度时,相似度量模块303用于:
通过处理器的第一内核获取聚类中心标识向量与第一类非聚类中心标识向量的相似度,并行通过处理器的第二内核获取聚类中心标识向量与第二类非聚类中心标识向量的相似度。
在一实施例中,在获取对应样本标识的标识向量时,样本获取模块301用于:
调用预训练的Bert模型对样本标识进行向量化表征,得到对应样本标识的标识向量。
在一实施例中,对于每一聚类类别,在获取其聚类中心标识向量与非聚类中心标识向量的相似度时,相似度量模块303用于:
对于每一聚类类别,获取其聚类中心标识向量与非聚类中心标识向量的余弦相似度。
在一实施例中,在滤除每一聚类类别中目标非聚类中心标识向量所对应的数据样本之后,样本过滤模块305还用于:
滤除每一聚类类别中已标注类别与聚类类别不匹配的非聚类中心标识向量所对应的数据样本。
应当说明的是,本申请实施例提供的数据筛选装置与上文实施例中的数据筛选方法属于同一构思,在数据筛选装置上可以运行数据筛选方法实施例中提供的任一方法,其具体实现过程详见数据筛选方法实施例,此处不再赘述。
本申请实施例提供一种计算机可读的存储介质,其上存储有计算机程序,当其存储的计算机程序在计算机上执行时,使得计算机执行如本申请实施例提供的数据筛选方法中的步骤。其中,存储介质可以是磁碟、光盘、只读存储器(Read Only Memory,ROM,)或者随机存取器(Random Access Memory,RAM)等。
本申请实施例还提供一种电子设备,请参照图5,电子设备包括处理器401和存储器402,其中,处理器401与存储器402电性连接。
处理器401是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或加载存储在存储器402内的计算机程序,以及调用存储在存储器402内的数据,执行电子设备的各种功能并处理数据。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的计算机程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
在本申请实施例中,电子设备中的处理器401会按照如下的步骤,将一个或一个以上的计算机程序的进程对应的指令加载到存储器402中,并由处理器401运行存储在存储器402中的计算机程序,从而实现各种功能,如下:
获取已标注类别的数据样本的样本标识,并获取对应样本标识的标识向量;
将已标注类别的类别数作为聚类类别数对标识向量进行聚类处理;
对于每一聚类类别,获取其聚类中心标识向量与非聚类中心标识向量的相似度;
确定出每一聚类类别中与聚类中心标识向量的相似度未达到预设相似度的目标非聚类中心标识向量;
滤除每一聚类类别中目标非聚类中心标识向量所对应的数据样本。
请参照图6,图6为本申请实施例提供的电子设备的另一结构示意图,与图5所示电子设备的区别在于,电子设备还包括输入单元403和输出单元404等组件。
其中,输入单元403可用于接收输入的数字、字符信息或用户特征信息(比如指纹),以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入等。
输出单元404可用于显示由用户输入的信息或提供给用户的信息,如屏幕。
在本申请实施例中,处理器401通过调用存储器402中的计算机程序,用于执行:
获取已标注类别的数据样本的样本标识,并获取对应样本标识的标识向量;
将已标注类别的类别数作为聚类类别数对标识向量进行聚类处理;
对于每一聚类类别,获取其聚类中心标识向量与非聚类中心标识向量的相似度;
确定出每一聚类类别中与聚类中心标识向量的相似度未达到预设相似度的目标非聚类中心标识向量;
滤除每一聚类类别中目标非聚类中心标识向量所对应的数据样本。
在一实施例中,对于每一聚类类别,在获取其聚类中心标识向量与非聚类中心标识向量的相似度时,处理器401执行:
对于每一聚类类别,获取其聚类中心标识向量与非聚类中心标识向量的欧式距离;
将对应欧式距离小于第一预设欧式距离的非聚类中心标识向量作为第一类非聚类中心标识向量,以及将对应欧式距离大于或等于第一预设欧式距离的非聚类中心标识向量作为第二类非聚类中心标识向量;
获取聚类中心标识向量与第一类非聚类中心标识向量的相似度,以及并行获取聚类中心标识向量与第二类非聚类中心标识向量的相似度。
在一实施例中,在获取聚类中心标识向量与第二类非聚类中心标识向量的相似度时,处理器401执行:
滤除对应欧式距离大于第二预设欧式距离的第二类非聚类中心标识向量,及其对应的数据样本,其中,第二预设欧式距离大于第一预设欧式距离;
获取聚类中心标识向量与剩余的第二类非聚类中心标识向量的相似度。
在一实施例中,处理器401包括第一内核和第二内核,在获取聚类中心标识向量与第一类非聚类中心标识向量的相似度,以及并行获取聚类中心标识向量与第二类非聚类中心标识向量的相似度时,第一内核执行获取聚类中心标识向量与第一类非聚类中心标识向量的相似度,第二内核并行执行获取聚类中心标识向量与第二类非聚类中心标识向量的相似度。
在一实施例中,在获取对应样本标识的标识向量时,处理器401执行:
调用预训练的Bert模型对样本标识进行向量化表征,得到对应样本标识的标识向量。
在一实施例中,对于每一聚类类别,在获取其聚类中心标识向量与非聚类中心标识向量的相似度时,处理器401执行:
对于每一聚类类别,获取其聚类中心标识向量与非聚类中心标识向量的余弦相似度。
在一实施例中,在滤除每一聚类类别中目标非聚类中心标识向量所对应的数据样本之后,处理器401还执行:
滤除每一聚类类别中已标注类别与聚类类别不匹配的非聚类中心标识向量所对应的数据样本。
应当说明的是,本申请实施例提供的电子设备与上文实施例中的数据筛选方法属于同一构思,在电子设备上可以运行数据筛选方法实施例中提供的任一方法,其具体实现过程详见特征提取方法实施例,此处不再赘述。
需要说明的是,对本申请实施例的数据筛选方法而言,本领域普通测试人员可以理解实现本申请实施例的数据筛选方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,如存储在电子设备的存储器中,并被该电子设备内的至少一个处理器执行,在执行过程中可包括如数据筛选方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。
对本申请实施例的数据筛选装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
以上对本申请实施例所提供的一种数据筛选方法、装置、存储介质及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种数据筛选方法,其特征在于,包括:
获取已标注类别的数据样本的样本标识,并获取对应所述样本标识的标识向量;
将已标注类别的类别数作为聚类类别数对所述标识向量进行聚类处理;
对于每一聚类类别,获取其聚类中心标识向量与非聚类中心标识向量的相似度;
确定出每一聚类类别中与聚类中心标识向量的相似度未达到预设相似度的目标非聚类中心标识向量;
滤除每一聚类类别中目标非聚类中心标识向量所对应的数据样本。
2.根据权利要求1所述的数据筛选方法,其特征在于,所述对于每一聚类类别,获取其聚类中心标识向量与非聚类中心标识向量的相似度,包括:
对于每一聚类类别,获取其聚类中心标识向量与非聚类中心标识向量的欧式距离;
将对应欧式距离小于第一预设欧式距离的非聚类中心标识向量作为第一类非聚类中心标识向量,以及将对应欧式距离大于或等于第一预设欧式距离的非聚类中心标识向量作为第二类非聚类中心标识向量;
获取聚类中心标识向量与第一类非聚类中心标识向量的相似度,以及并行获取聚类中心标识向量与第二类非聚类中心标识向量的相似度。
3.根据权利要求2所述的数据筛选方法,其特征在于,所述获取聚类中心标识向量与第二类非聚类中心标识向量的相似度,包括:
滤除对应欧式距离大于第二预设欧式距离的第二类非聚类中心标识向量,及其对应的数据样本,其中,所述第二预设欧式距离大于所述第一预设欧式距离;
获取聚类中心标识向量与剩余的第二类非聚类中心标识向量的相似度。
4.根据权利要求2所述的数据筛选方法,其特征在于,获取聚类中心标识向量与第一类非聚类中心标识向量的相似度,以及并行获取聚类中心标识向量与第二类非聚类中心标识向量的相似度,包括:
通过处理器的第一内核获取聚类中心标识向量与第一类非聚类中心标识向量的相似度,并行通过处理器的第二内核获取聚类中心标识向量与第二类非聚类中心标识向量的相似度。
5.根据权利要求1所述的数据筛选方法,其特征在于,所述获取对应所述样本标识的标识向量,包括:
调用预训练的Bert模型对所述样本标识进行向量化表征,得到对应所述样本标识的标识向量。
6.根据权利要求1所述的数据筛选方法,其特征在于,所述对于每一聚类类别,获取其聚类中心标识向量与非聚类中心标识向量的相似度,包括:
对于每一聚类类别,获取其聚类中心标识向量与非聚类中心标识向量的余弦相似度。
7.根据权利要求1-6任一项所述的数据筛选方法,其特征在于,所述滤除每一聚类类别中目标非聚类中心标识向量所对应的数据样本之后,还包括:
滤除每一聚类类别中已标注类别与聚类类别不匹配的非聚类中心标识向量所对应的数据样本。
8.一种数据筛选装置,其特征在于,包括:
样本获取模块,用于获取已标注类别的数据样本的样本标识,并获取对应所述样本标识的标识向量;
向量聚类模块,用于将已标注类别的类别数作为聚类类别数对所述标识向量进行聚类处理;
相似度量模块,用于对于每一聚类类别,获取其聚类中心标识向量与非聚类中心标识向量的相似度;
目标确定模块,用于确定出每一聚类类别中与聚类中心标识向量的相似度未达到预设相似度的目标非聚类中心标识向量;
样本过滤模块,用于滤除每一聚类类别中目标非聚类中心标识向量所对应的数据样本。
9.一种存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序被处理器调用时,使得所述处理器执行如权利要求1至7任一项所述的数据筛选方法。
10.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有计算机程序,且所述处理器通过调用所述计算机程序,用于执行如权利要求1至7任一项所述的数据筛选方法。
CN201911340834.6A 2019-12-23 2019-12-23 数据筛选方法、装置、存储介质及电子设备 Pending CN111046969A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911340834.6A CN111046969A (zh) 2019-12-23 2019-12-23 数据筛选方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911340834.6A CN111046969A (zh) 2019-12-23 2019-12-23 数据筛选方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN111046969A true CN111046969A (zh) 2020-04-21

Family

ID=70238674

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911340834.6A Pending CN111046969A (zh) 2019-12-23 2019-12-23 数据筛选方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN111046969A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111882416A (zh) * 2020-07-24 2020-11-03 未鲲(上海)科技服务有限公司 一种风险预测模型的训练方法和相关装置
CN112118268A (zh) * 2020-09-28 2020-12-22 北京嘀嘀无限科技发展有限公司 一种网络流量判定方法和系统
CN112134898A (zh) * 2020-09-28 2020-12-25 北京嘀嘀无限科技发展有限公司 一种网络流量判定方法和系统
CN112348107A (zh) * 2020-11-17 2021-02-09 百度(中国)有限公司 图像数据清洗方法及装置、电子设备和介质
CN116089523A (zh) * 2023-02-14 2023-05-09 黑龙江开源科技有限公司 基于低空雷达信息的大数据分析的处理系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111882416A (zh) * 2020-07-24 2020-11-03 未鲲(上海)科技服务有限公司 一种风险预测模型的训练方法和相关装置
CN112118268A (zh) * 2020-09-28 2020-12-22 北京嘀嘀无限科技发展有限公司 一种网络流量判定方法和系统
CN112134898A (zh) * 2020-09-28 2020-12-25 北京嘀嘀无限科技发展有限公司 一种网络流量判定方法和系统
CN112348107A (zh) * 2020-11-17 2021-02-09 百度(中国)有限公司 图像数据清洗方法及装置、电子设备和介质
CN116089523A (zh) * 2023-02-14 2023-05-09 黑龙江开源科技有限公司 基于低空雷达信息的大数据分析的处理系统
CN116089523B (zh) * 2023-02-14 2023-12-15 黑龙江开源科技有限公司 基于低空雷达信息的大数据分析的处理系统

Similar Documents

Publication Publication Date Title
CN111046969A (zh) 数据筛选方法、装置、存储介质及电子设备
CN107766787B (zh) 人脸属性识别方法、装置、终端及存储介质
Sinha et al. Class-wise difficulty-balanced loss for solving class-imbalance
CN110148117B (zh) 基于电力图像的电力设备缺陷识别方法、装置与存储介质
CN111598012B (zh) 一种图片聚类管理方法、系统、设备及介质
CN114155397B (zh) 一种小样本图像分类方法及系统
CN111027450A (zh) 银行卡信息识别方法、装置、计算机设备及存储介质
CN111783743A (zh) 一种图像聚类方法及装置
CN111444807A (zh) 目标检测方法、装置、电子设备和计算机可读介质
CN111860056B (zh) 基于眨眼的活体检测方法、装置、可读存储介质及设备
CN116227573B (zh) 分割模型训练方法、图像分割方法、装置及相关介质
CN112818774A (zh) 一种活体检测方法及装置
CN111753583A (zh) 一种识别方法及装置
CN111767419A (zh) 图片搜索方法、装置、设备及计算机可读存储介质
CN115565548A (zh) 异常声音检测方法、装置、存储介质及电子设备
CN111767710B (zh) 印尼语的情感分类方法、装置、设备及介质
Candrasari et al. Hand gesture recognition using discrete wavelet transform and hidden Markov models
CN114548218A (zh) 图像匹配方法、装置、存储介质和电子装置
CN109614854B (zh) 视频数据处理方法及装置、计算机装置及可读存储介质
CN108154162A (zh) 一种聚类分析方法及装置
CN113111689A (zh) 一种样本挖掘方法、装置、设备及存储介质
Le Callet et al. Visual content indexing and retrieval with psycho-visual models
CN117333926B (zh) 一种图片聚合方法、装置、电子设备及可读存储介质
CN113408556B (zh) 身份识别方法及装置
CN111242142B (zh) 模板子图的获取方法、装置、处理器及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination