CN114969462A - 一样本筛选方法、装置、存储介质及电子设备 - Google Patents
一样本筛选方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN114969462A CN114969462A CN202210694801.7A CN202210694801A CN114969462A CN 114969462 A CN114969462 A CN 114969462A CN 202210694801 A CN202210694801 A CN 202210694801A CN 114969462 A CN114969462 A CN 114969462A
- Authority
- CN
- China
- Prior art keywords
- sample
- samples
- screened
- graph
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种样本筛选方法、装置、存储介质及电子设备。其中,方法包括:基于样本集合构建获得以各样本为节点的样本图;所述样本集合中包括若干带有训练价值标签的标签样本以及若干未带有训练价值标签的待筛选样本;至少基于所述样本图中各所述标签样本以及各所述标签样本的训练价值标签进行模型训练,获得目标GNN图网络模型;基于所述目标GNN图网络模型确定所述样本图中各所述待筛选样本的训练价值;基于各所述待筛选样本的训练价值对各所述待筛选样本进行筛选,获得目标样本。本申请能够准确确定各待筛选样本的训练价值,进而后续根据各待筛选的训练价值准确的筛选获得目标样本。
Description
技术领域
本发明涉及计算机领域,特别涉及一种样本筛选方法、装置、存储介质及电子设备。
背景技术
深度学习模型近年来在各个领域取得了突破性进展。而训练数据集的质量是决定机器学习模型实际表现的关键因素之一。
而目前,准备大批量的样本费时费力、成本非常高,例如,可能需要对大批量的未标注样本进行标注,从而获得标注样本。然而,有很多未标注样本的质量较差,如相似的未标注样本的数量可能过多等等,导致所获得的标注样本的质量不高,影响了对相应的模型的训练效果,从而影响了模型的应用性能,并且大大提升了标注所需的时间成本以及人力成本等。
由此,亟需一种样本筛选方法,以解决现有技术中无法准确、快速的从大量的未标注样本中筛选获得质量较高的样本的问题。
发明内容
有鉴于此,本发明提供了一种样本筛选方法、装置、存储介质及电子设备,主要目的在于解决现有技术中无法准确、快速的从大量的未标注样本中筛选获得目标样本的问题。
为解决上述问题,本申请提供一种样本筛选方法,包括:
基于样本集合构建获得以各样本为节点的样本图;所述样本集合中包括若干带有训练价值标签的标签样本以及若干未带有训练价值标签的待筛选样本;
至少基于所述样本图中各所述标签样本以及各所述标签样本的训练价值标签进行模型训练,获得目标GNN图网络模型;
基于所述目标GNN图网络模型确定所述样本图中各所述待筛选样本的训练价值;
基于各所述待筛选样本的训练价值对各所述待筛选样本进行筛选,获得目标样本。
可选的,在基于样本集合构建获得以各样本为节点的样本图之前,所述样本筛选方法还包括:
对所述样本集合中的各所述标签样本以及各所述待筛选样本分别进行特征提取,获得与各样本对应的特征向量;
所述基于样本集合构建获得以各样本为节点的样本图,具体包括:
基于任意两个样本各自对应的特征向量,确定所述两个样本的相似度;
基于各样本之间的相似度构建各样本之间的拓扑关系网,以构建获得以各样本为节点的样本图。
可选的,所述基于任意两个样本各自对应的特征向量,确定所述两个样本的相似度,具体包括:
基于任意两个样本各自对应的特征向量,计算所述两个样本之间的欧式距离;
基于所述欧式距离获得所述两个样本之间的相似度。
可选的,所述至少基于所述样本图中各所述标签样本以及各所述标签样本的训练价值标签进行模型训练,获得目标GNN图网络模型,具体包括:
基于所述样本图中各所述标签样本的训练价值标签、各所述标签样本的特征向量、与各所述标签样本相邻的邻居样本的特征向量以及邻居样本的训练价值标签,进行模型训练,获得所述目标GNN图网络模型。
可选的,所述基于所述目标GNN图网络模型确定所述样本图中各所述待筛选样本的训练价值,具体包括:
利用所述目标GNN图网络模型,根据所述待筛选样本的特征向量、与所述待筛选样本相邻的邻居样本的特征向量以及邻居样本的训练价值,进行训练价值计算,获得所述待筛选样本的训练价值。
可选的,所述基于各所述待筛选样本的训练价值对各所述待筛选样本进行筛选,获得目标样本,具体包括:
将各所述待筛选样本的训练价值与预定训练价值阈值进行比较,在确定待筛选样本的训练价值大于所述预定训练价值阈值的情况下,确定所述待筛选样本为目标样本。
为解决上述问题,本申请提供一种样本筛选装置,包括:
构建模块,用于基于样本集合构建获得以各样本为节点的样本图;所述样本集合中包括若干带有训练价值标签的标签样本以及若干未带有训练价值标签的待筛选样本;
训练模块,用于至少基于所述样本图中各所述标签样本以及各所述标签样本的训练价值标签进行模型训练,获得目标GNN图网络模型;
确定模块,用于基于所述目标GNN图网络模型确定所述样本图中各所述待筛选样本的训练价值;
筛选模块,用于基于各所述待筛选样本的训练价值对各所述待筛选样本进行筛选,获得目标样本。
可选的,所述装置还包括特征提取模块,所述特征提取模块用于:对所述样本集合中的各所述标签样本以及各所述待筛选样本分别进行特征提取,获得与各样本对应的特征向量;
所述构建模块具体用于:基于任意两个样本各自对应的特征向量,确定所述两个样本的相似度;
基于各样本之间的相似度构建各样本之间的拓扑关系网,以构建获得以各样本为节点的样本图。
为解决上述问题,本申请提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述样本筛选方法的步骤。
为解决上述问题,本申请提供一种电子设备,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现上述任一项所述样本筛选方法的步骤。
本申请中的样本筛选方法、装置、存储介质及电子设备,通过构建以各样本为节点的样本图,然后利用该样本图中带有训练价值的标签样本进行模型训练,获得目标GNN图网络模型,由此能够利用该目标GNN图网络模型准确的确定出该样本图中各待筛选样本的训练价值,进而为后续根据各待筛选的训练价值准确的筛选获得目标样本奠定了基础。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例一种样本筛选方法的流程图;
图2为本申请又一实施例中样本筛选方法的流程图;
图3为本申请实施例中样本图的结构示意图;
图4为本申请又一实施例中样本筛选装置的结构框图;
图5为本申请实施例中电子设备的结构示意图。
具体实施方式
此处参考附图描述本申请的各种方案以及特征。
应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例,并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本申请的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本申请进行了描述,但本领域技术人员能够确定地实现本申请的很多其它等效形式。
当结合附图时,鉴于以下详细说明,本申请的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本申请的具体实施例;然而,应当理解,所申请的实施例仅仅是本申请的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此,本文所申请的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本申请的相同或不同实施例中的一个或多个。
本申请实施例提供一种样本筛选方法,具体可以应用于终端、服务器等电子设备。如图1所示,本实施例中的样本筛选方法包括如下步骤:
步骤S101,基于样本集合构建获得以各样本为节点的样本图;所述样本集合中包括若干带有训练价值标签的标签样本以及若干未带有训练价值标签的待筛选样本;
本步骤在具体实施过程中,具体可以利用自组织映射神经网络(Self OrganizingMaps,简称SOM)来实现样本图的构建。即利用SOM网络模型,根据各样本的特征计算各样本之间的相似度,以此来构建样本之间的拓扑关系网,以此来获得样本图。本步骤中SOM网络模型可以对数据进行无监督学习聚类,其本质上是一种只有输入层--隐藏层的神经网络。隐藏层中的一个节点代表一个需要聚成的类。训练时采用“竞争学习”的方式,每个输入的样本在隐藏层中找到一个和它最匹配的节点,称为它的激活节点,也叫“winning neuron”。紧接着用随机梯度下降法更新激活节点的参数。同时,和激活节点临近的样本节点也根据它们距离激活节点的远近而适当地更新参数。
步骤S102,至少基于所述样本图中各所述标签样本以及各所述标签样本的训练价值标签进行模型训练,获得目标GNN图网络模型;
本步骤在具体实施过程中,具体可以预先为各样本标注训练价值,以此来获得标签样本,为后续基于标签样本训练获得目标GNN图网络模型奠定了基础。
本步骤在进行模型训练获得目标GNN图网络模型时,具体可以根据各标签样本的训练价值、各所述标签样本位于所述样本图中的位置等来进行模型训练。其中,采用的GNN图网络模型基于消息传递机制,每一个节点通过相互交换消息来更新自己的节点状态,直到达到某一个稳定值,GNN的输出就是在每个节点处,根据当前节点状态分别计算输出。可以说,图神经网络模型学习的主要过程是通过迭代对图数据中节点的邻居信息进行聚合和更新。在一次迭代中,每一个节点通过聚合邻居节点的特征及自己在上一层的特征来更新自己的信息,通常也会对聚合后的信息进行非线性变换。通过堆叠多层网络,每个节点可以获取到相应跳数内的邻居节点信息,为后续利用该目标GNN图网络模型,根据待筛选样本的邻居节点的特征以及邻居节点的训练价值,准确的推算出待筛选样本的训练价值奠定了基础。
步骤S103,基于所述目标GNN图网络模型确定所述样本图中各所述待筛选样本的训练价值;
本步骤在获得目标GNN图网络模型之后,就可以利用该目标GNN图网络模型,根据待筛选样本的特征、待筛选样本的邻居节点的特征以及邻居节点的训练价值,准确的推算出待筛选样本的训练价值。
步骤S104,基于各所述待筛选样本的训练价值对各所述待筛选样本进行筛选,获得目标样本。
本步骤中,在确定各待筛选样本的训练价值之后,就可以将各待筛选样本的训练价值与预定的训练价值阈值进行比较,在训练价值大于所述预定训练价值阈值的情况下,对该待筛选样本进行价值标注,以此来获得目标样本。后续就可以利用该目标样本来进行模型训练,由于目标样本具有较高的训练价值,由此能够提高了模型训练的速度、以及模型的准确度。
本实施中,通过构建以各样本为节点的样本图,然后利用该样本图中带有训练价值的标签样本进行模型训练,获得目标GNN图网络模型,由此能够利用该目标GNN图网络模型准确的确定出该样本图中各待筛选样本的训练价值,进而为后续根据各待筛选的训练价值准确的筛选获得目标样本奠定了基础。
通过采用本实施例中的样本筛选方法,可以在进行模型训练时,从若干训练样本中挑选出小部分的目标训练样本,然后利用这部分目标训练样本进行模型训练,也就是用更小的训练样本集来更快地达到最理想的性能,能够提高模型的训练速度,同时保证模型的准确度。
在上述实施例的基础上,本申请又一实施例提供一种样本筛选方法,如图2所示,包括如下步骤:
步骤S201,对所述样本集合中的各所述标签样本以及各所述待筛选样本分别进行特征提取,获得与各样本对应的特征向量;
本步骤在具体实施过程中,在样本类型为图片类型的情况下,具体可以采用如下方式来进行特征提取,以此来获得与各样本对应的特征向量:采用编码器对各标签样本以及待筛选样本进行统一编码:采用预训练好的Vision Transformer模型作为编码器,将各样本图片分解成196个14×14的图片块(patch),然后依次对其做线性编码,从而得到一个输入序列(input sequence),利用Transformer可以像处理文本字符序列一样处理图片,实现对图片进行编码。同时,为了保留各个图片块之间的位置信息,还可以加入和输入序列编码维度等长的位置编码,为每个样本图输出768维的向量,以此来获得与各标签样本以及待筛选样本的的特征向量。
步骤S202,基于任意两个样本各自对应的特征向量,确定所述两个样本的相似度;基于各样本之间的相似度构建各样本之间的拓扑关系网,以构建获得以各样本为节点的样本图;
本步骤在具体实施过程中,具体可以利用SOM模型进行相似度计算,具体的,可以利用SOM模型根据任意两个样本所对应的特征向量,计算所述两个样本之间的欧式距离;然后根据所述欧式距离获得所述两个样本之间的相似度。即根据欧式距离来确定两个样本之间是否需要建立以样本为节点的线段以及该线段的长短,进而获得样本之间的拓扑关系网,即获得如图3所示的样本图。
具体的,SOM网络的学习算法过程为:
1)初始化:每个节点随机初始化自己的参数。每个节点的参数个数与Input的维度相同。(每个样本初始化特征向量)
2)对于每一个输入数据,找到与它最相配的节点。假设输入时D维的,即X={x_i,i=1,...,D},那么判别函数可以为欧几里得距离:(根据欧式距离计算相似度)。
3)找到激活节点I(x)之后,我们也希望更新和它临近的节点。令S_ij表示节点i和j之间的距离,对于I(x)临近的节点,分配给它们一个更新权重:
简单地说,临近的节点根据距离的远近,更新程度要打折扣。
4)接着就是更新节点的参数了。按照梯度下降法更新:
Δwji=η(t).Tj,I(x)(t)·(xi-wji)
迭代,直到收敛。
步骤S203,基于所述样本图中各所述标签样本的训练价值标签、各所述标签样本的特征向量、与各所述标签样本相邻的邻居样本的特征向量以及邻居样本的训练价值标签,进行模型训练,获得目标GNN图网络模型。
本步骤中可以基于图卷积神经网络的模型训练方式来训练获得目标GNN图网络模型,即将样本图结构的图数据作为输入,利用样本图中的各标签样本节点的特征、标签样本的训练价值以及各样本图中标签样本图的拓扑结构来进行模型训练获得目标GNN图网络模型。其中,样本图上节点的特征通常是由能够表征图节点所对应的实体的标量或者向量构成的。样本图的拓扑结构则是由一个被称为“邻接矩阵”的图元素来表达。
本步骤中,图卷积神经网络的前向传播可以由以下公式(1)所示:
其中,被称之为标准化邻接矩阵。图卷积神经网络的前向传播过程可以概括为节点特征的聚合和变换。节点特征聚合隐含在矩阵乘法中。令矩阵M的第i行就是第i个节点进行特征聚合后的结果。其中,特征聚合的结果是指第i个节点的特征与其邻居节点的特征的加权平均,权重由标准化邻接矩阵的第i行给出。
从公式(2)中可以了解到,如果将多个图卷积层堆叠在一起组成一个图卷积神经网络,图中的节点就可以聚合来自更远的邻居节点的特征。假设图卷积神经网络由k个图卷积层构成,那么图中的一个节点最多可以聚合它的k阶邻居节点的特征,由此针对每个标签样本,都可以将标签样本的特征与其邻居样本的特征进行聚合,获得与该标签样本对应的聚合后的特征。后续就可以利用各标签样本聚合后的特征以及各标签样本的训练价值来训练获得所述目标GNN图网络模型。
步骤S204,利用所述目标GNN图网络模型,根据所述待筛选样本的特征向量、与所述待筛选样本相邻的邻居样本的特征向量以及邻居样本的训练价值,进行训练价值计算,获得所述待筛选样本的训练价值;
本步骤中,在获得目标GNN图网络模型之后,就可以利用该模型来对待筛选的样本进行训练价值的推算,使得推算出的各待筛选样本的训练价值更加准确、可靠,为后续准确的对各待筛选样本进行筛选奠定了基础。例如对待筛选样本的的特征以及与待筛选样本邻近的邻居样本的特征进行聚合,获得与待筛选样本对应的聚合后的特征,然后将该待筛选样本聚合后的特征与各标签样本聚合后的特征进行匹配,获得匹配结果一致的目标标签样本,或者获得匹配结果差值小于预定值的目标标签样本,进而可以根据该目标标签样本的训练价值确定所述待筛选样本的训练价值,使得待筛选样本训练价值的确定更加合理准确。
步骤S205,将各所述待筛选样本的训练价值与预定训练价值阈值进行比较,在确定待筛选样本的训练价值大于所述预定训练价值阈值的情况下,确定所述待筛选样本为目标样本。
本步骤中,预定训练价值阈值可以根据实际需要设定。在具体实施过程,可以对训练价值大于所述预定训练价值阈值的待筛选样本进行价值标注,例如预定训练价值阈值为0.6,则可以对训练价值大于0.6的待筛选样本进价值标注、以获得目标样本,而对于训练价值小于或等于0.6的待筛选样本则不进行价值标注,由此能够根据标注结果准确的区分出目标样本,为后续进行模型训练提供了保障。
本实施例中,采用无导师学习自组织神经网络,通过自动寻找样本中的内在规律和本质属性,自组织、自适应地改变网络参数与结构,发现样本之间的关联关系,由此能够准确的构建出以样本为节点的样本图。
本实施例中,通过新颖的图建模方式,主动使用标记的和未标记的数据不断改进模型,提供了一个相对不同的解决途径,在有限的计算资源或者标注成本条件下,探索性地主动挖掘、抽取高价值的小部分数据集,为后续基于该小部分数据快速、准确的进行模型训练奠定了基础,解决的训练样本过多造成的模型训练时间长、模型训练效率低的问题。
本申请又一实施例提供一种样本筛选装置,如图3所示,包括:
构建模块1,用于基于样本集合构建获得以各样本为节点的样本图;所述样本集合中包括若干带有训练价值标签的标签样本以及若干未带有训练价值标签的待筛选样本;
训练模块2,用于至少基于所述样本图中各所述标签样本以及各所述标签样本的训练价值标签进行模型训练,获得目标GNN图网络模型;
确定模块3,用于基于所述目标GNN图网络模型确定所述样本图中各所述待筛选样本的训练价值;
筛选模块4,用于基于各所述待筛选样本的训练价值对各所述待筛选样本进行筛选,获得目标样本。
本实施例在具体实施过程中,所述样本筛选装置还包括特征提取模块,所述特征提取模块用于:对所述样本集合中的各所述标签样本以及各所述待筛选样本分别进行特征提取,获得与各样本对应的特征向量;所述构建模块具体用于:基于任意两个样本各自对应的特征向量,确定所述两个样本的相似度;基于各样本之间的相似度构建各样本之间的拓扑关系网,以构建获得以以各样本为节点的样本图。
本实施例在具体实施过程中,所述构建模块具体用于:基于任意两个样本各自对应的特征向量,计算所述两个样本之间的欧式距离;基于所述欧式距离获得所述两个样本之间的相似度。
本实施例在具体实施过程中,所述训练模块具体用于:基于所述样本图中各所述标签样本的训练价值标签、各所述标签样本的特征向量、与各所述标签样本相邻的邻居样本的特征向量以及邻居样本的训练价值标签,进行模型训练,获得所述目标GNN图网络模型。
本实施例在具体实施过程中,所述确定模块具体用于:利用所述目标GNN图网络模型,根据所述待筛选样本的特征向量、与所述待筛选样本相邻的邻居样本的特征向量以及邻居样本的训练价值,进行训练价值计算,获得所述待筛选样本的训练价值。
本实施例在具体实施过程中,所述筛选模块具体用于:
将各所述待筛选样本的训练价值与预定训练价值阈值进行比较,在确定待筛选样本的训练价值大于所述预定训练价值阈值的情况下,确定所述待筛选样本为目标样本。
本实施例中的样本筛选装置,通过构建以各样本为节点的样本图,然后利用该样本图中带有训练价值的标签样本进行模型训练,获得目标GNN图网络模型,由此能够利用该目标GNN图网络模型准确的确定出该样本图中各待筛选样本的训练价值,进而为后续根据各待筛选的训练价值准确的筛选获得目标样本奠定了基础。
本申请另一实施例提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如下方法步骤:
步骤一、基于样本集合构建获得以各样本为节点的样本图;所述样本集合中包括若干带有训练价值标签的标签样本以及若干未带有训练价值标签的待筛选样本;
步骤二、至少基于所述样本图中各所述标签样本以及各所述标签样本的训练价值标签进行模型训练,获得目标GNN图网络模型;
步骤三、基于所述目标GNN图网络模型确定所述样本图中各所述待筛选样本的训练价值;
步骤四、基于各所述待筛选样本的训练价值对各所述待筛选样本进行筛选,获得目标样本。
本实施例在具体实施过程中,在基于样本集合构建获得以各样本为节点的样本图之前,所述方法还包括:对所述样本集合中的各所述标签样本以及各所述待筛选样本分别进行特征提取,获得与各样本对应的特征向量;
所述基于样本集合构建获得以各样本为节点的样本图,具体包括:基于任意两个样本各自对应的特征向量,确定所述两个样本的相似度;基于各样本之间的相似度构建各样本之间的拓扑关系网,以构建获得以各样本为节点的样本图。
本实施例在具体实施过程中,所述基于任意两个样本各自对应的特征向量,确定所述两个样本的相似度,具体包括:基于任意两个样本所对应的特征向量,计算所述两个样本之间的欧式距离;基于所述欧式距离获得所述两个样本之间的相似度。
本实施例在具体实施过程中,所述至少基于所述样本图中各所述标签样本以及各所述标签样本的训练价值标签进行模型训练,获得目标GNN图网络模型,具体包括:基于所述样本图中各所述标签样本的训练价值标签、各所述标签样本的特征向量、与各所述标签样本相邻的邻居样本的特征向量以及邻居样本的训练价值标签,进行模型训练,获得所述目标GNN图网络模型。
本实施例在具体实施过程中,所述基于所述目标GNN图网络模型确定所述样本图中各所述待筛选样本的训练价值,具体包括:利用所述目标GNN图网络模型,根据所述待筛选样本的特征向量、与所述待筛选样本相邻的邻居样本的特征向量以及邻居样本的训练价值,进行训练价值计算,获得所述待筛选样本的训练价值。
本实施例在具体实施过程中,所述基于各所述待筛选样本的训练价值对各所述待筛选样本进行筛选,获得目标样本,具体包括:将各所述待筛选样本的训练价值与预定训练价值阈值进行比较,在确定待筛选样本的训练价值大于所述预定训练价值阈值的情况下,确定所述待筛选样本为目标样本。
本申请中存储介质,通过构建以各样本为节点的样本图,然后利用该样本图中带有训练价值的标签样本进行模型训练,获得目标GNN图网络模型,由此能够利用该目标GNN图网络模型准确的确定出该样本图中各待筛选样本的训练价值,进而为后续根据各待筛选的训练价值准确的筛选获得目标样本奠定了基础。
本申请另一实施例提供一种电子设备,如图4所示,至少包括存储器1、处理器2,所述存储器1上存储有计算机程序,所述处理器2在执行所述存储器1上的计算机程序时实现如下方法步骤:
步骤一、基于样本集合构建获得以各样本为节点的样本图;所述样本集合中包括若干带有训练价值标签的标签样本以及若干未带有训练价值标签的待筛选样本;
步骤二、至少基于所述样本图中各所述标签样本以及各所述标签样本的训练价值标签进行模型训练,获得目标GNN图网络模型;
步骤三、基于所述目标GNN图网络模型确定所述样本图中各所述待筛选样本的训练价值;
步骤四、基于各所述待筛选样本的训练价值对各所述待筛选样本进行筛选,获得目标样本。
本实施例在具体实施过程中,在基于样本集合构建获得以各样本为节点的样本图之前,所述方法还包括:对所述样本集合中的各所述标签样本以及各所述待筛选样本分别进行特征提取,获得与各样本对应的特征向量;
所述基于样本集合构建获得以各样本为节点的样本图,具体包括:基于任意两个样本各自对应的特征向量,确定所述两个样本的相似度;基于各样本之间的相似度构建各样本之间的拓扑关系网,以构建获得以以各样本为节点的样本图。
本实施例在具体实施过程中,所述基于任意两个样本各自对应的特征向量,确定所述两个样本的相似度,具体包括:基于任意两个样本各自对应的特征向量,计算所述两个样本之间的欧式距离;基于所述欧式距离获得所述两个样本之间的相似度。
本实施例在具体实施过程中,所述至少基于所述样本图中各所述标签样本以及各所述标签样本的训练价值标签进行模型训练,获得目标GNN图网络模型,具体包括:基于所述样本图中各所述标签样本的训练价值标签、各所述标签样本的特征向量、与各所述标签样本相邻的邻居样本的特征向量以及邻居样本的训练价值标签,进行模型训练,获得所述目标GNN图网络模型。
本实施例在具体实施过程中,所述基于所述目标GNN图网络模型确定所述样本图中各所述待筛选样本的训练价值,具体包括:利用所述目标GNN图网络模型,根据所述待筛选样本的特征向量、与所述待筛选样本相邻的邻居样本的特征向量以及邻居样本的训练价值,进行训练价值计算,获得所述待筛选样本的训练价值。
本实施例在具体实施过程中,所述基于各所述待筛选样本的训练价值对各所述待筛选样本进行筛选,获得目标样本,具体包括:将各所述待筛选样本的训练价值与预定训练价值阈值进行比较,在确定待筛选样本的训练价值大于所述预定训练价值阈值的情况下,确定所述待筛选样本为目标样本。
本申请中的电子设备,通过构建以各样本为节点的样本图,然后利用该样本图中带有训练价值的标签样本进行模型训练,获得目标GNN图网络模型,由此能够利用该目标GNN图网络模型准确的确定出该样本图中各待筛选样本的训练价值,进而为后续根据各待筛选的训练价值准确的筛选获得目标样本奠定了基础。
以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。
Claims (10)
1.一种样本筛选方法,其特征在于,包括:
基于样本集合构建获得以各样本为节点的样本图;所述样本集合中包括若干带有训练价值标签的标签样本以及若干未带有训练价值标签的待筛选样本;
至少基于所述样本图中各所述标签样本以及各所述标签样本的训练价值标签进行模型训练,获得目标GNN图网络模型;
基于所述目标GNN图网络模型确定所述样本图中各所述待筛选样本的训练价值;
基于各所述待筛选样本的训练价值对各所述待筛选样本进行筛选,获得目标样本。
2.如权利要求1所述的方法,其特征在于,在基于样本集合构建获得以各样本为节点的样本图之前,所述方法还包括:
对所述样本集合中的各所述标签样本以及各所述待筛选样本分别进行特征提取,获得与各样本对应的特征向量;
所述基于样本集合构建获得以各样本为节点的样本图,具体包括:
基于任意两个样本各自对应的特征向量,确定所述两个样本的相似度;
基于各样本之间的相似度构建各样本之间的拓扑关系网,以构建获得以各样本为节点的样本图。
3.如权利要求2所述的方法,其特征在于,所述基于任意两个样本各自对应的特征向量,确定所述两个样本的相似度,具体包括:
基于任意两个样本各自对应的特征向量,计算所述两个样本之间的欧式距离;
基于所述欧式距离获得所述两个样本之间的相似度。
4.如权利要求2所述的方法,其特征在于,所述至少基于所述样本图中各所述标签样本以及各所述标签样本的训练价值标签进行模型训练,获得目标GNN图网络模型,具体包括:
基于所述样本图中各所述标签样本的训练价值标签、各所述标签样本的特征向量、与各所述标签样本相邻的邻居样本的特征向量以及邻居样本的训练价值标签,进行模型训练,获得所述目标GNN图网络模型。
5.如权利要求1所述的方法,其特征在于,所述基于所述目标GNN图网络模型确定所述样本图中各所述待筛选样本的训练价值,具体包括:
利用所述目标GNN图网络模型,根据所述待筛选样本的特征向量、与所述待筛选样本相邻的邻居样本的特征向量以及邻居样本的训练价值,进行训练价值计算,获得所述待筛选样本的训练价值。
6.如权利要求1所述的方法,其特征在于,所述基于各所述待筛选样本的训练价值对各所述待筛选样本进行筛选,获得目标样本,具体包括:
将各所述待筛选样本的训练价值与预定训练价值阈值进行比较,在确定待筛选样本的训练价值大于所述预定训练价值阈值的情况下,确定所述待筛选样本为目标样本。
7.一种样本筛选装置,其特征在于,包括:
构建模块,用于基于样本集合构建获得以各样本为节点的样本图;所述样本集合中包括若干带有训练价值标签的标签样本以及若干未带有训练价值标签的待筛选样本;
训练模块,用于至少基于所述样本图中各所述标签样本以及各所述标签样本的训练价值标签进行模型训练,获得目标GNN图网络模型;
确定模块,用于基于所述目标GNN图网络模型确定所述样本图中各所述待筛选样本的训练价值;
筛选模块,用于基于各所述待筛选样本的训练价值对各所述待筛选样本进行筛选,获得目标样本。
8.如权利要求7所述的样本筛选装置,其特征在于,所述装置还包括特征提取模块,所述特征提取模块用于:对所述样本集合中的各所述标签样本以及各所述待筛选样本分别进行特征提取,获得与各样本对应的特征向量;
所述构建模块具体用于:基于任意两个样本各自对应的特征向量,确定所述两个样本的相似度;
基于各样本之间的相似度构建各样本之间的拓扑关系网,以构建获得以各样本为节点的样本图。
9.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1-6任一项所述样本筛选方法的步骤。
10.一种电子设备,其特征在于,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现上述权利要求1-6任一项所述样本筛选方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210694801.7A CN114969462A (zh) | 2022-06-20 | 2022-06-20 | 一样本筛选方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210694801.7A CN114969462A (zh) | 2022-06-20 | 2022-06-20 | 一样本筛选方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114969462A true CN114969462A (zh) | 2022-08-30 |
Family
ID=82963897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210694801.7A Pending CN114969462A (zh) | 2022-06-20 | 2022-06-20 | 一样本筛选方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114969462A (zh) |
-
2022
- 2022-06-20 CN CN202210694801.7A patent/CN114969462A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240046094A1 (en) | Semi-Supervised Person Re-Identification Using Multi-View Clustering | |
WO2022068196A1 (zh) | 跨模态的数据处理方法、装置、存储介质以及电子装置 | |
CN106599900B (zh) | 一种识别图像中的字符串的方法和装置 | |
CN110276406B (zh) | 表情分类方法、装置、计算机设备及存储介质 | |
CN110929848B (zh) | 基于多挑战感知学习模型的训练、跟踪方法 | |
CN111382283B (zh) | 资源类别标签标注方法、装置、计算机设备和存储介质 | |
CN111931505A (zh) | 一种基于子图嵌入的跨语言实体对齐方法 | |
CN111325338A (zh) | 神经网络结构评价模型构建和神经网络结构搜索方法 | |
CN110110128B (zh) | 用于分布式架构的快速监督离散哈希图像检索系统 | |
CN112214775A (zh) | 对图数据的注入式攻击方法、装置、介质及电子设备 | |
CN111859454A (zh) | 防御基于图神经网络链路预测的隐私保护方法 | |
CN115293919A (zh) | 面向社交网络分布外泛化的图神经网络预测方法及系统 | |
CN113887698B (zh) | 基于图神经网络的整体知识蒸馏方法和系统 | |
Hsu et al. | Unsupervised convolutional neural networks for large-scale image clustering | |
CN113822419A (zh) | 一种基于结构信息的自监督图表示学习运行方法 | |
CN114556364A (zh) | 基于相似度运算符排序的神经架构搜索 | |
CN115114484A (zh) | 异常事件检测方法、装置、计算机设备和存储介质 | |
CN116090504A (zh) | 图神经网络模型训练方法及装置、分类方法、计算设备 | |
Priya et al. | Community Detection in Networks: A Comparative study | |
CN116883751A (zh) | 基于原型网络对比学习的无监督领域自适应图像识别方法 | |
CN116956081A (zh) | 面向异构社交网络分布外泛化的社交标签预测方法及系统 | |
CN114969462A (zh) | 一样本筛选方法、装置、存储介质及电子设备 | |
CN115952438A (zh) | 社交平台用户属性预测方法、系统、移动设备及存储介质 | |
CN113255451B (zh) | 遥感图像的变化检测方法、装置、电子设备及存储介质 | |
CN115690465A (zh) | 图像多标签分类方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |