CN110705629A - 数据处理方法及相关装置 - Google Patents

数据处理方法及相关装置 Download PDF

Info

Publication number
CN110705629A
CN110705629A CN201910923988.1A CN201910923988A CN110705629A CN 110705629 A CN110705629 A CN 110705629A CN 201910923988 A CN201910923988 A CN 201910923988A CN 110705629 A CN110705629 A CN 110705629A
Authority
CN
China
Prior art keywords
nodes
labeled
node
processed
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910923988.1A
Other languages
English (en)
Inventor
杨磊
黄青虬
黄怀毅
林达华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN201910923988.1A priority Critical patent/CN110705629A/zh
Publication of CN110705629A publication Critical patent/CN110705629A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本公开公开了一种数据处理方法及相关装置。该方法包括:获取待处理邻接图,所述待处理邻接图中的n个节点分别与待处理数据对应,所述n为正整数,所述n个节点中包括待标注节点、所述待标注节点对应的待处理数据为待标注数据;基于所述n个节点中已标注节点的标注数据,使用图卷积网络对所述待处理邻接图进行多次迭代处理,获得所述待处理邻接图中待标注节点的分类结果;基于所述多次迭代处理中至少一次迭代处理得到的所述待标注节点的分类结果,确定所述待标注节点的标注数据。还公开了相应的装置。以实现对待处理数据中的待标注数据进行标注。

Description

数据处理方法及相关装置
技术领域
本公开涉及人工智能技术领域,尤其涉及一种数据处理方法及相关装置。
背景技术
随着机器学习的快速发展,机器学习可应用的领域越来越多。而在将机器学习的模型应用到不同的领域之前,需要对该模型进行训练,而训练需要大量已标注的数据作为训练数据。若通过人工标注的方式获得训练数据带来的人力成本高,且标注效率低。因此,如何通过机器完成对数据的标注就变得非常有意义。
发明内容
本公开提供一种数据处理方法及相关装置。
第一方面,提供了一种数据处理方法,所述方法包括:获取待处理邻接图,所述待处理邻接图中的n个节点分别与待处理数据对应,所述n为正整数,所述n个节点中包括待标注节点、所述待标注节点对应的待处理数据为待标注数据;基于所述n个节点中已标注节点的标注数据,使用图卷积网络对所述待处理邻接图进行多次迭代处理,获得所述待处理邻接图中待标注节点的分类结果;基于所述多次迭代处理中至少一次迭代处理得到的所述待标注节点的分类结果,确定所述待标注节点的标注数据。
在该方面中,通过图卷积网络对待处理邻接图进行多次迭代处理,以实现利用待处理邻接图中已标注节点的类别信息确定待标注节点的分类结果。其中,在每一次迭代后,待标注节点都将获得一个分类结果,再基于多次迭代处理获得多个分类结果中的至少一个分类结果确定待标注节点的标注数据(即与待标注节点对应的待标注数据的标注数据),可提高获得的标注数据的准确度。
在一种可能实现的方式中,所述多次迭代处理中的每次迭代处理包括:从所述n个节点中选取q个节点,获得包含所述q个节点的局部子图;所述q为小于所述n的正整数;使用所述图卷积网络对所述局部子图进行处理,获得所述局部子图中待标注节点的分类结果;所述多次迭代处理中的任意两次迭代处理中获得的局部子图不同。
在该种可能实现的方式中,通过从待处理邻接图中选取局部子图,实现将对待处理邻接图的处理转化为了对多个局部子图的处理。这样可在数据处理装置的硬件资源有限的情况下,提升数据处理装置对待处理邻接图的处理效率。
在另一种可能实现的方式中,所述标注数据包括目标类别以及属于所述目标类别的置信度;所述基于所述多次迭代处理中至少一次迭代处理得到的所述待标注节点的分类结果,确定所述待标注节点的标注数据,包括:在所述待标注节点的分类结果的数量大于或等于第一阈值的情况下,基于所述多次迭代处理中至少一次迭代处理得到的所述待标注节点的分类结果,确定所述待标注节点的目标类别以及所述待标注节点属于所述目标类别的置信度。
在该种可能实现的方式中,在待标注节点的分类结果的数量大于或等于第一阈值的情况下,基于待标注节点的分类结果确定待标注节点的目标类别以及待标注节点属于上述目标类别的置信度可提高待标注节点的目标类别的准确度和待标注节点属于上述目标类别的置信度的准确度。
在又一种可能实现的方式中,所述标注数据包括属于目标类别的置信度;所述方法还包括:在所述待标注节点的分类结果的数量小于第一阈值的情况下,将所述待标注节点的分类结果的置信度调整为第一预设值。
在该种可能实现的方式中,在待标注节点的分类结果的数量小于第一阈值的情况下,表征待标注节点的分类结果的可信度低。因此将待标注节点的分类结果的置信度调整为第一预设值,可减小在后续处理过程中,分类结果的数量小于第一阈值的节点的分类结果对确定待标注节点的目标类别和属于上述目标类别的置信度的影响,进而提高待标注节点的目标类别和属于上述目标类别的置信度的准确度。
在又一种可能实现的方式中,所述分类结果包含所述待标注节点属于不同类别的概率;所述在所述待标注节点的分类结果的数量大于或等于第一阈值的情况下,所述基于所述多次迭代处理中至少一次迭代处理得到的所述待标注节点的分类结果,确定所述待标注节点的目标类别以及所述待标注节点属于所述目标类别的置信度,包括:分别确定所述待标注节点的分类结果中属于同一类别的概率的均值,获得目标分类结果;将所述目标分类结果中的最大均值对应的类别作为所述待标注节点的所述目标类别,将所述目标分类结果中的最大均值作为所述待标注节点属于所述目标类别的置信度。
结合前面一种可能实现的方式,在该种可能实现的方式中,通过确定分类结果的数量大于或等于第一阈值的待标注节点的分类结果的均值获得目标分类结果,可确定待标注节点的目标类别和属于上述目标类别的置信度。
在又一种可能实现的方式中,所述n个节点中还包括已标注节点,所述已标注节点的标注数据包含的置信度为第二预设值,所述待标注节点中未经过所述迭代处理的节点的标注数据包含的置信度为第三预设值。
在该种可能实现的方式中,对待处理邻接图中已标注节点的标注数据的置信度和未经过迭代处理的待标注节点的标注数据的置信度进行初始化,以便后续处理利用已标注节点的标注数据的置信度。
在又一种可能实现的方式中,所述从所述n个节点中选取q个节点,获得包含所述q个节点的局部子图,包括:以所述n个节点中的第一节点为起始节点,在所述待处理邻接图中搜索获得所述包含所述q个节点的局部子图;所述第一节点为未作为过起始节点的节点中置信度最高的节点。
在该种可能实现的方式中,以未作为过起始节点的节点中置信度最高的节点为起始点搜索获得局部子图,可使局部子图中包含置信度最高的节点,这样在后续对局部子图进行处理时,可利用置信度最高的节点的标注数据的信息确定局部子图的待标注节点的目标分类结果和属于上述目标分类结果的置信度。
在又一种可能实现的方式中,所述以所述n个节点中的第一节点为起始节点,在所述待处理邻接图中搜索获得所述包含所述q个节点的局部子图,包括:以所述第一节点为起始节点对所述待处理邻接图中的节点进行搜索,在搜索获得的节点的预期置信度增长大于或等于第二阈值的情况下停止搜索,获得所述包含所述q个节点的局部子图,所述预期置信度增长通过所述搜索获得的节点的数量和所述搜索获得的节点的置信度的和确定。
结合前一种可能实现的方式,在该种可能实现的方式中,以预期置信度增长大于或等于第二阈值为搜索停止的条件,可使搜索获得的局部子图中节点的预期置信度大于或等于第二阈值。这样可提高后续对局部子图进行处理的一次迭代处理的“最低工作量”(即可通过一次迭代处理将局部子图中节点的置信度的和提升第二阈值),提高了一次迭代处理的效率,进而提高了对整个待处理邻接图的处理效率。
在又一种可能实现的方式中,所述以所述第一节点为起始节点对所述待处理邻接图中的节点进行搜索,在搜索获得的节点的预期置信度增长大于或等于第二阈值的情况下停止搜索,获得所述包含所述q个节点的局部子图,包括:以所述第一节点为起始节点对所述待处理邻接图中的节点进行搜索,在所述搜索获得的节点的预期置信度增长大于或等于所述第二阈值,且搜索获得的节点的数量小于或等于第三阈值的情况下停止搜索,获得所述局部子图。
结合前一种可能实现的方式,在该种可能实现的方式中,在搜索停止的条件中增加搜索获得的节点的数量小于或等于第三阈值,可减小局部子图中节点的数量过多的情况发生,以此提高对局部子图的处理速度,进而提高对整个待处理邻接图的处理效率。
在又一种可能实现的方式中,所述以所述第一节点为起始节点对所述待处理邻接图中的节点进行搜索,在所述搜索获得的节点的预期置信度增长大于或等于所述第二阈值,且搜索获得的节点的数量小于或等于第三阈值的情况下停止搜索,获得所述局部子图,包括:以所述第一节点为起始节点,按搜索步长为r个节点对所述待处理邻接图进行搜索,在所述搜索获得的节点的预期置信度增长大于或等于所述第二阈值,且搜索获得的节点的数量小于或等于所述第三阈值的情况下停止搜索,获得所述局部子图,所述r为正整数。
结合前面一种可能实现的方式,在该种可能实现的方式中,以步长为r个节点进行搜索,可提高搜索速度,进而提高处理待处理邻接图的速度。
在又一种可能实现的方式中,所述预期置信度增长通过所述搜索获得的节点的数量和所述搜索获得的节点的置信度的和确定,包括:确定所述搜索获得的节点的置信度的和获得总置信度;将所述搜索获得的节点的数量与所述总置信度之间的差值作为所述预期置信度增长。
在又一种可能实现的方式中,所述获取待处理邻接图,包括:获取所述n个节点和与所述n个节点分别对应的待处理数据;基于所述n个节点中每两个节点分别对应的待处理数据之间的相似度,获得所述待处理邻接图。
在该种可能实现的方式中,基于待处理数据之间的相似度构建待处理邻接图,使待处理邻接图中节点之间的连接关系和位置关系可反应待处理数据之间的相似度,这样后续再利用节点之间的连接关系和位置关系确定待标注节点的目标类别和属于上述目标类别的置信度,可提高待标注节点的目标类别的准确率和属于上述目标类别的置信度的准确率。
在又一种可能实现的方式中,所述基于所述n个节点中每两个节点分别对应的待处理数据之间的相似度,获得所述待处理邻接图,包括:基于所述n个节点中每两个节点分别对应的待处理数据之间的相似度,确定所述每两个节点之间的距离;所述距离与所述相似度呈负相关;基于所述n个节点中每两个节点之间的距离,获得所述待处理邻接图。
结合前面一种可能实现的方式,在该种可能实现的方式中,基于待处理数据之间的相似度确定节点之间的距离,可进一步提高待标注节点的目标类别的准确率和属于上述目标类别的置信度的准确率。
在又一种可能实现的方式中,所述基于所述n个节点中每两个节点之间的距离,获得所述待处理邻接图,包括:将所述n个节点中的每个节点分别与距离最近的k个节点相连,获得所述待处理邻接图。
在该种可能实现的方式中,通过将n个节点中任意一个节点与距离最近的k个节点相连,可构建待处理邻接图。
在又一种可能实现的方式中,所述待处理数据包括图像或语句。
第二方面,提供了一种数据处理装置,所述装置包括:获取单元,用于获取待处理邻接图,所述待处理邻接图中的n个节点分别与待处理数据对应,所述n为正整数,所述n个节点中包括待标注节点、所述待标注节点对应的待处理数据为待标注数据;处理单元,用于基于所述n个节点中已标注节点的标注数据,使用图卷积网络对所述待处理邻接图进行多次迭代处理,获得所述待处理邻接图中待标注节点的分类结果;确定单元,用于基于所述多次迭代处理中至少一次迭代处理得到的所述待标注节点的分类结果,确定所述待标注节点的标注数据。
在一种可能实现的方式中,所述多次迭代处理中的每次迭代处理包括:从所述n个节点中选取q个节点,获得包含所述q个节点的局部子图;所述q为小于所述n的正整数;使用所述图卷积网络对所述局部子图进行处理,获得所述局部子图中待标注节点的分类结果;所述多次迭代处理中的任意两次迭代处理中获得的局部子图不同。
在另一种可能实现的方式中,所述标注数据包括目标类别以及属于所述目标类别的置信度;所述确定单元用于:在所述待标注节点的分类结果的数量大于或等于第一阈值的情况下,基于所述多次迭代处理中至少一次迭代处理得到的所述待标注节点的分类结果,确定所述待标注节点的目标类别以及所述待标注节点属于所述目标类别的置信度。
在又一种可能实现的方式中,所述标注数据包括属于目标类别的置信度;所述装置还包括:调整单元,用于在所述待标注节点的分类结果的数量小于第一阈值的情况下,将所述待标注节点的分类结果的置信度调整为第一预设值。
在又一种可能实现的方式中,所述分类结果包含所述待标注节点属于不同类别的概率;所述调整单元具体用于:分别确定所述待标注节点的分类结果中属于同一类别的概率的均值,获得目标分类结果;将所述目标分类结果中的最大均值对应的类别作为所述待标注节点的所述目标类别,将所述目标分类结果中的最大均值作为所述待标注节点属于所述目标类别的置信度。
在又一种可能实现的方式中,所述n个节点中还包括已标注节点,所述已标注节点的标注数据包含的置信度为第二预设值,所述待标注节点中未经过所述迭代处理的节点的标注数据包含的置信度为第三预设值。
在又一种可能实现的方式中,所述从所述n个节点中选取q个节点,获得包含所述q个节点的局部子图,包括:以所述n个节点中的第一节点为起始节点,在所述待处理邻接图中搜索获得所述包含所述q个节点的局部子图;所述第一节点为未作为过起始节点的节点中置信度最高的节点。
在又一种可能实现的方式中,所述以所述n个节点中的第一节点为起始节点,在所述待处理邻接图中搜索获得所述包含所述q个节点的局部子图,包括:以所述第一节点为起始节点对所述待处理邻接图中的节点进行搜索,在搜索获得的节点的预期置信度增长大于或等于第二阈值的情况下停止搜索,获得所述包含所述q个节点的局部子图,所述预期置信度增长通过所述搜索获得的节点的数量和所述搜索获得的节点的置信度的和确定。
在又一种可能实现的方式中,所述以所述第一节点为起始节点对所述待处理邻接图中的节点进行搜索,在搜索获得的节点的预期置信度增长大于或等于第二阈值的情况下停止搜索,获得所述包含所述q个节点的局部子图,包括:以所述第一节点为起始节点对所述待处理邻接图中的节点进行搜索,在所述搜索获得的节点的预期置信度增长大于或等于所述第二阈值,且搜索获得的节点的数量小于或等于第三阈值的情况下停止搜索,获得所述局部子图。
在又一种可能实现的方式中,所述以所述第一节点为起始节点对所述待处理邻接图中的节点进行搜索,在所述搜索获得的节点的预期置信度增长大于或等于所述第二阈值,且搜索获得的节点的数量小于或等于第三阈值的情况下停止搜索,获得所述局部子图,包括:以所述第一节点为起始节点,按搜索步长为r个节点对所述待处理邻接图进行搜索,在所述搜索获得的节点的预期置信度增长大于或等于所述第二阈值,且搜索获得的节点的数量小于或等于所述第三阈值的情况下停止搜索,获得所述局部子图,所述r为正整数。
在又一种可能实现的方式中,所述预期置信度增长通过所述搜索获得的节点的数量和所述搜索获得的节点的置信度的和确定,包括:确定所述搜索获得的节点的置信度的和获得总置信度;将所述搜索获得的节点的数量与所述总置信度之间的差值作为所述预期置信度增长。
在又一种可能实现的方式中,所述获取单元用于:获取所述n个节点和与所述n个节点分别对应的待处理数据;基于所述n个节点中每两个节点分别对应的待处理数据之间的相似度,获得所述待处理邻接图。
在又一种可能实现的方式中,所述获取单元具体用于:基于所述n个节点中每两个节点分别对应的待处理数据之间的相似度,确定所述每两个节点之间的距离;所述距离与所述相似度呈负相关;基于所述n个节点中每两个节点之间的距离,获得所述待处理邻接图。
在又一种可能实现的方式中,所述获取单元具体用于:将所述n个节点中的每个节点分别与距离最近的k个节点相连,获得所述待处理邻接图。
在又一种可能实现的方式中,所述待处理数据包括图像或语句。
第三方面,提供了一种处理器,所述处理器用于执行如上述第一方面及其任意一种可能实现的方式的方法。
第四方面,提供了一种电子设备,包括:处理器、发送装置、输入装置、输出装置和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,当所述处理器执行所述计算机指令时,所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。
第五方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被电子设备的处理器执行时,使所述处理器执行如上述第一方面及其任意一种可能实现的方式的方法。
第六方面,提供了一种包含指令的计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行上述第一方面及其任一种可能的实现方式的方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。
附图说明
为了更清楚地说明本公开实施例或背景技术中的技术方案,下面将对本公开实施例或背景技术中所需要使用的附图进行说明。
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。
图1为本公开实施例提供的一种数据处理方法的流程示意图;
图2为本公开实施例提供的一种待处理邻接图的示意图;
图3为本公开实施例提供的另一种数据处理方法的流程示意图;
图4为本公开实施例提供的另一种待处理邻接图的示意图;
图5为本公开实施例提供的另一种数据处理方法的流程示意图;
图6为本公开实施例提供的另一种待处理邻接图的示意图;
图7为本公开实施例提供的另一种待处理邻接图的示意图;
图8为本公开实施例提供的一种具有连接关系的节点的示意图;
图9为本公开实施例提供的一种“尖峰型”概率图形的示意图;
图10为本公开实施例提供的一种“平缓型”概率图形的示意图;
图11为本公开实施例提供的一种局部子图的示意图;
图12为本公开实施例提供的另一种待处理邻接图的示意图;
图13为本公开实施例提供的另一种待处理邻接图的示意图;
图14为本公开实施例提供的一种数据处理装置的结构示意图;
图15为本公开实施例提供的一种数据处理装置的硬件结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本公开方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本公开的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。本公开提供的技术方案可应用于类别分类的数据标注。所谓类别分类的数据标注,即是按数据内容确定数据的类别,并在数据上标注出类别。
举例来说(例1),现需要对图像a进行标注,标注的类别包括猫和狗,其中,猫可用数字0表示,狗可用数字1表示。若a中的动物是猫,则可在a上标注0,若a中的动物是狗,则可在a上标注1。
再举例来说(例2),现在需要对语句b进行标注,标注的类别包括该语句是否是描述车辆故障的语句,0表示否,1表示是。若b是描述车辆故障的语句(如:刹车时有异响),则可给b标注1,若b不是描述车辆故障的语句(如:下午去打球),则可给b标注0。
在例1和例2中,待标注数据的数量均为1,标注待标注数据所需的工作量小,通过人工标注的方式即可快速完成对待标注数据的标注。但现实情况中,待标注数据的数量往往很多,标注这些待标注数据的工作量很大,通过人工标注的方式对待标注数据进行标注的效率低、耗时长、人力成本高。
举例来说,现有一个图像分类任务需要通过神经网络来完成,而在使用神经网络执行图像分类任务之前需要对该神经网络进行训练,为使训练后的神经网络达到预期效果,需要10000张已标注的图像作为训练图像。若通过人工标注的方式完成对10000张图像的标注获得训练图像,将耗费大量时间成本和人力成本。
因此,一种通过对基于待标注数据构建的邻接图进行处理,利用邻接图中节点之间的连接关系以及节点的信息可完成对待标注数据的标注的标注方法应用而生。由于邻接图中包含标注数据的置信度高的节点和标注数据的置信度低的节点,而该种标注方法在确定传播至待标注节点的信息时并未考虑与待标注节点相连的节点的标注数据的置信度,导致存在利用置信度低的节点的信息确定待标注节点的标注数据,进而使待标注节点的标注数据的准确度低。
为提高标注数据的准确度,本公开提供了一种数据标注(下文将称为自动标注)的技术方案,下面结合本公开实施例中的附图对本公开实施例进行描述。
请参阅图1,图1是本公开实施例(一)提供的一种数据处理方法的流程示意图。
101、获取待处理邻接图,上述待处理邻接图中的n个节点分别与待处理数据对应,上述n为正整数,上述n个节点中包括待标注节点、上述待标注节点对应的待处理数据为待标注数据。
本公开实施例的执行主体为数据处理装置,例如服务器、终端或其他计算机设备。
上述待处理数据可以是任意按类别进行分类的数据,如:待处理图像、待处理语句等等。
待处理邻接图包含n个节点,这n个节点与上述待处理数据对应,例如,在待处理数据为待处理图像时,上述n个节点分别与n张待处理图像一一对应。又例如,在待处理数据为待处理语句时,上述n个节点分别与n条待处理语句一一对应。上述n个节点中的每一个节点均与一个或多个节点相连。待处理邻接图中节点之间的位置关系用于表征待处理数据之间的相似度。
举例来说(例3),在图2所示的待处理邻接图中共有6个节点(图中一个圆圈表示一个节点)。其中,1号节点对应待处理图像a,2号节点对应待处理图像b,3号节点对应待处理图像c,4号节点对应待处理图像d,5号节点对应待处理图像e,6号节点对应待处理图像f。从图2中可以看出,2号节点与1号节点之间的距离比4号节点与1号节点之间的距离近,相应的,b和a之间的相似度比d和a之间的相似度大。同理,c和a之间的相似度比c和e之间的相似度大,d和f之间的相似度比d和a之间的相似度大。
上述待标注数据指未确定类别的待处理数据,待处理邻接图中与待标注数据对应的节点为待标注节点。
102、基于上述n个节点中已标注节点的标注数据,使用图卷积网络对所述待处理邻接图进行多次迭代处理,获得上述待处理邻接图中待标注节点的分类结果。
本公开实施例提供的技术方案可利用已标注数据的信息确定待标注数据的类别,因此,待处理数据中还包含已标注数据,其中,已标注数据为已标注类别的数据。
接着例3继续举例(例4),假定图像的类别包括:苹果、香蕉、梨子三个类别,图像a为已标注图像(类别为苹果),图像b和图像c为待标注图像,图像d为已标注图像(类别为香蕉),图像e和图像f为待标注图像。图中任意两个节点之间存在连线表示这两个节点是相连的,相连的节点之间可以进行信息传播,如1号节点的类别为苹果,2号节点与1号节点的距离近,这样可通过1号节点的类别以及1号节点和2号节点之间的距离(节点之间的距离与图像之间的相似度呈正相关)确定2号节点的类别。
由于例4中的已标注图像的类别只有苹果和香蕉而没有梨子,因此图2所示的待处理邻接图中的已标注节点中不存在类别为梨子的信息。若通过图2所示的待处理邻接图中的已标注节点的信息确定待标注节点的类别,最终确定的待标注节点的类别中将不存在梨子(而待处理邻接图中存在真实类别为梨子的待标注节点),进而降低对待标注节点的类别的标注准确率。
接着例4继续举例,假定图像e中包含梨子(即图像e的真实类别为梨子),但由于待处理邻接图中不存在类别为梨子的信息,因此,最终5号节点的类别可能是苹果也可能是香蕉但不是梨子。显然,给5号节点标注的类别是不正确的。
为减小因待处理邻接图中包含的类别信息不完整降低对待标注节点的标注准确率,可选的,待处理数据中的已标注数据包含所有类别。
上述多次迭代处理中的每次迭代处理均包含使用图卷积网络对待处理邻接图进行处理的过程。图卷积网络(graph convolutional networks)在对待处理邻接图进行卷积处理的过程中,可利用与待标注节点相连的节点的类别信息确定该待标注节点的分类结果。分类结果包括该待标注节点属于不同类别的概率。
接着例3继续举例(例5),假定图像的类别包括:苹果、香蕉、梨子三个类别,图像a为已标注图像(类别为苹果),图像b和图像c为待标注图像,图像d为已标注图像(类别为香蕉),图像e为待标注图像,图像f为已标注图像(类别为梨子)。图中任意两个节点之间存在连线表示这两个节点是相连的,相连的节点之间可以进行信息传播。使用图卷积网络对图2所示的待处理邻接图进行卷积处理以确定2号节点的类别时,将分别提取出1号节点的类别信息(A),3号节点的类别信息(B)和4号节点的类别信息(C),并通过加权求和的方式确定1号节点,3号节点和4号节点传播至2号节点的类别信息。如,A*d1+B*d2+C*d3=D,其中,D为1号节点,3号节点和4号节点传播至2号节点的类别信息,d1、d2、d3均为权重,d1、d2、d3的大小可由1号节点和2号节点之间的距离,3号节点和2号节点之间的距离,4号节点和2号节点之间的距离确定。即与2号节点的距离越小,该节点的类别信息的权重越大。在确定类别信息D之后,即可根据类别信息D确定2号节点的分类结果(包括2号节点的类别为苹果的概率,2号节点的类别为香蕉的概率和2号节点的类别为梨子的概率)。同理可通过图卷积网络对图2所示的待处理邻接图进行卷积处理确定3号节点和5号节点的分类结果。
可选的,在使用图卷积网络对待处理邻接图进行卷积处理之前,可对图卷积网络进行训练,以提高标注准确率。在一种可能实现的方式中,基于图卷积网络给待标注节点标注的类别与待标注节点的真实类别之间的差异,确定图卷积网络的损失。在损失大于损失阈值的情况下,基于该损失调整图卷积网络的参数,直至损失小于损失阈值,完成对图卷积网络的训练。
103、基于上述多次迭代处理中至少一次迭代处理得到的上述待标注节点的分类结果,确定上述待标注节点的标注数据。
本公开中,上述标注数据可以包括待标注节点所属的目标类别,还可以包括待标注节点属于目标类别的置信度。
由于在不同的迭代处理中,传播至待标注节点的信息不同,因此待标注节点在每次迭代处理后获得的分类结果也不同。这样,再基于多次迭代处理获得的多个分类结果中的至少一个分类结果确定待标注节点的标注数据,可提高标注数据的准确度。
在一种可能实现的方式中,若基于多个分类结果中的一个分类结果确定待标注节点的标注数据,可将分类结果中的最大概率对应的类别作为待标注节点的目标类别。举例来说(例6),待标注节点a的分类结果包括a属于第一类别的概率为0.4,a属于第二类别的概率为0.5,a属于第三类别的概率为0.1,属于第二类别的概率最大,因此可确定待标注节点a的目标类别为第二类别。
在另一种可能实现的方式中,若基于多个分类结果确定待标注节点的标注数据,可将多个分类结果的均值中的最大值对应的类别作为待标注节点的目标类别。由于每个分类结果均基于待处理邻接图中不同的节点的信息获得,这样基于多个分类结果确定待标注节点的目标类别相较于基于一个分类结果确定待标注节点的目标类别利用了更多的节点信息确定待标注节点的目标类别,因此,可提高待标注数据的准确度。
上述例6中的待标注节点a属于第二类别的概率与a属于第一类别的概率之间的差距较小(0.1),也就是说,待标注节点a属于第二类别的概率虽然最大,但待标注节点a的类别为第二类别这个标注结果的可信度不高。
因此,在确定待标注节点的类别的同时,本公开提供的技术方案还可确定待标注节点属于目标类别的置信度。
在一种可能实现的方式中,由于待标注节点的目标类别的可信度与最大概率呈正相关,因此可将分类结果中的最大概率作为待标注节点属于目标类别的置信度。
用户可通过上述置信度获知待处理邻接图中节点的类别的可信度。例如,使用实施例(一)提供的技术方案对待处理数据进行标注,并将标注后的数据用于训练神经网络,由于训练数据的质量(包括训练数据的标注信息的准确性)将影响神经网络的训练效果,为提高神经网络的训练效果,可选择置信度大于或等于0.8的数据作为训练数据。
本实施例通过图卷积网络对待处理邻接图进行多次迭代处理,以实现利用待处理邻接图中已标注节点的类别信息确定待标注节点的分类结果。其中,在每一次迭代后,待标注节点都将获得一个分类结果,再基于多次迭代处理获得多个分类结果中的至少一个分类结果确定待标注节点的标注数据(即与待标注节点对应的待标注数据的标注数据),可提高获得的标注数据的准确度。
在现实应用中,待处理数据的数量往往非常大,而数据处理装置的硬件资源往往又是有限的,这就导致数据处理装置无法同时处理待处理邻接图中的所有节点。因此,需要通过对待处理邻接图进行多次处理(即上述多次迭代处理),以完成对待处理邻接图中所有节点的处理。同时,在通过多次迭代处理对待处理邻接图进行处理时,还可利用获得的待标注节点的置信度来提高对待标注节点的类别的标注准确率。
为此,本公开实施例还提供了一种适用于待处理数据量非常大的情况的数据处理技术方案。请参阅图3,图3是本公开实施例(二)提供的实施例(一)中102的一种可能实现的方式的流程示意图。
301、从上述n个节点中选取q个节点,获得包含上述q个节点的局部子图。
如上所述,在数据处理装置的硬件资源有限时,数据处理装置往往无法一次性将待处理邻接图中的n个节点处理完,这样会导致处理速度慢,处理效率低。因此本实施例从n个节点中选取q个节点作为数据处理装置一次迭代处理的处理对象,以提高处理速度和处理效率。
上述q为小于n的正整数,可选的,q可根据数据处理装置的硬件配置进行调整,即数据处理装置的硬件配置高(如显存容量大)就可将q的值调高。
从待处理邻接图中选取包含q个节点的局部子图作为一次迭代的处理对象。由于待处理邻接图中包含已标注节点和待标注节点,而确定待标注节点的标签需要利用已标注节点的类别信息。因此,需使局部子图中包含已标注节点,且局部子图中包含的已标注节点的数量占局部子图中节点的数量的比重越大(即局部子图中包含的可信度高的类别信息在局部子图中包含的类别信息的占比越大),最终获得的局部子图中待标注节点的类别的准确率就越高。
在一种可能实现的方式中,通过使选取的q个节点的置信度之和与预期置信度的差值达到置信度阈值,以保证局部子图中已标注节点的数量。其中,预期置信度为局部子图中节点的数量(即q)。举例来说,局部子图中包含10个节点,则该局部子图的预期置信度为10*1=10。
例如,已标注节点的类别信息是正确的,相应的可将已标注节点的置信度设置为1,待标注节点的类别信息的可信度不高,相应的可将待标注节点的置信度设置为一个较低的数值(如0.3)。再从n个节点选取预期置信度达到置信度阈值的局部子图。
302、使用上述图卷积网络对上述局部子图进行处理,获得上述局部子图中待标注节点的分类结果。
使用图卷积网络对步骤301获得的局部子图进行卷积处理,即可利用局部子图中已标注节点的类别信息确定待标注节点的分类结果,至此完成了第一次迭代处理。再以步骤301中的方式从待处理邻接图中选取第二次迭代处理的局部子图,并使用图卷积网络对第二次迭代处理的局部子图进行处理,获得第二次迭代处理的局部子图中待标注节点的分类结果。在执行多次迭代处理后,获得待处理邻接图中所有待标注节点的分类结果。
需要理解的是,上述多次迭代处理中任意两次迭代处理选取的局部子图均不同,这样可在执行多次迭代处理后可完成对待处理邻接图中所有待标注节点的处理。
本实施例通过从待处理邻接图中选取局部子图,实现将对待处理邻接图的处理转化为了对多个局部子图的处理。这样可在数据处理装置的硬件资源有限的情况下,提升数据处理装置对待处理邻接图的处理效率。
通过实施例(一)和实施例(二)提供的技术方案对待处理邻接图进行处理获得待处理邻接图中待标注节点的分类结果,即通过节点之间的连接关系利用与待标注节点相连的节点(包括待标注节点和已标注节点)的类别信息确定待标注节点的分类结果,换句话说就是依据传播至待标注节点的类别信息确定待标注节点的分类结果。
由于待处理邻接图中的待标注节点(1号待标注节点)相连的节点中有已标注节点和待标注节点(2号待标注节点),其中,2号待标注节点的类别信息的可信度要低于已标注节点的类别信息。而2号待标注节点的类别信息和已标注节点的类别信息均有可能传播至1号待标注节点,进而影响该待标注节点的分类结果。显然,若传播至1号待标注节点的类别信息为已标注节点的类别信息,最终获得的1号待标注节点的分类结果会更准确。若传播至1号待标注节点的类别信息为2号待标注节点的类别信息,最终获得的1号待标注节点的分类结果的误差大。
举例来说(例7),图4所示的待处理邻接图中共有4个节点(图中一个圆圈表示一个一个节点)。假设1号节点、2号节点和4号节点均为待标注节点,2号节点为已标注节点,若传播至1号节点中的类别信息中2号节点的类别信息比3号节点的类别信息多,则最终获得的1号节点的分类结果与2号节点的类别的匹配度要高于与3号节点的类别的匹配度。由于2号节点的类别信息的可信度低,进而导致1号节点的分类结果的可信度低。进一步的,1号节点的类别信息还将传播至4号节点,这将进一步导致4号节点的分类结果的可信度低。若传播至1号节点中的类别信息中3号节点的类别信息比2号节点的类别信息多,则最终获得的1号节点的分类结果与3号节点的类别的匹配度要高于与2号节点的类别的匹配度。由于3号节点的类别信息的可信度高,相应的,1号节点的分类结果的可信度也高。进一步的,1号节点的类别信息还将传播至4号节点,4号节点的分类结果的可信度也高。
从例7中可以看出,1号待标注节点的分类结果的准确率(即置信度)很大程度上取决于传播至1号节点的类别信息的置信度。为此,本公开实施例还提供了一种数据处理方法,可使待处理邻接图中置信度高的节点的类别信息传播至置信度低的节点,进而提高待处理邻接图中待标注节点的分类结果的准确率。
请参阅图5,图5为本公开实施例(三)提供另一种数据处理方法的流程图。
501、获取待处理邻接图。
如步骤101所述,待处理邻接图中节点之间的位置关系可用于表征待处理数据之间的相似度。可选的,待处理邻接图中任意两个节点之间的距离与对应的两个待处理数据之间的相似度呈负相关。因此可依据待处理数据之间的相似度构建待处理邻接图。
在一种可能实现的方式中,对上述n个节点中每两个节点分别对应的待处理数据进行特征提取处理,获得上述n个节点中每两个接地那对应的待处理数据的特征数据。确定上述n个节点中每两个节点分别对应的特征数据之间的相似度,并依据该相似度获得n个节点中每两个节点之间的距离。该相似度与距离呈负相关。
举例来说,向数据处理装置输入1000张图像作为待处理数据,数据处理装置将分别对这1000张图像进行特征提取处理,获得这1000张图像中每一张图像的特征数据。再依据每一张图像的特征数据确定任意两张图像之间的相似度(如通过计算两张图像的特征数据之间的余弦相似度确定两张图像之间的相似度),并依据两张图像之间的相似度确定与这两张图像对应的节点之间的距离。如,图像a对应的1号节点,图像b对应的2号节点,图像c对应的3号节点,图像a的特征数据与图像b的特征数据之间的余弦相似度为80%,图像a的特征数据与图像c的特征数据之间的余弦相似度为70%,图像b的特征数据与图像c的特征数据之间的余弦相似度为60%。在确定1号节点、2号节点、3号节点之间的距离时,可将1号节点和2号节点之间的距离取为2,1号节点和3号节点之间的距离取为3,2号节点和3号节点之间的距离取为4。
在确定n个节点中任意两个节点之间的距离后,即可确定这n个节点彼此之间的位置关系。由于在后续确定待标注节点的分类结果时,需要借助已标注节点的类别信息,因此需要让已标注节点的类别信息传播至待标注节点,即在不同的节点之间建立连接关系,以使不同的节点之间可以相互传播类别信息。
在一种可能实现的方式中,将n个节点中的每个节点分别与距离最近的k个节点相连,获得所述待处理邻接图。这样可使待处理邻接图中任意两个节点通过节点与节点之间的连接关系进行类别信息的传播。举例来说,在图6所示的待处理邻接图中,k的取值为3。1号节点和11号节点距离较远,彼此不直接相连。但1号节点的类别信息可沿以下传播路径:1→2→4→6→10→11传播至11号节点。上述k为大于或等于1且小于或等于n的正整数。
由于k的取值将影响节点之间的连接关系,在建立节点之间的连接关系时需要考虑以下两个方面的内容:一方面若k的取值过小,每个节点连接的节点的数量就很少,传播至每个节点的信息也就很少,进而将降低每个节点的分类结果的准确率。另一方面,若k的取值过大,每个节点连接的节点的数量就很多,这将势必使距离较远的两个节点之间相连,而两个节点距离较远表征这两个节点的特征数据之间的相似度较低,因此,在距离较远的两个节点之间建立连接关系反而会降低待标注节点的分类结果的准确率。同时若节点之间的连接关系过于复杂时,在根据节点之间的连接关系确定待标注节点的类别时,将带来巨大的数据处理量,同时也将降低处理速度。
基于上述考虑,可选的,k的取值范围为大于或等于10且小于或等于100的正数。
502、从上述n个节点中选取q个节点,获得包含上述q个节点的局部子图。
如上所述,待处理数据的数量往往非常大,而数据处理装置的硬件资源往往又是有限的情况下,需要通过对待处理邻接图中的节点分批次进行处理以完成对所有节点的处理。如步骤103所述,待处理邻接图中的节点还包含置信度,该置信度可用于表征待标注节点的类别的可信度,即若某一节点的置信度高,表征该节点的类别的准确率高。
未经过迭代处理的待处理邻接图中包含已标注节点和待标注节点,已标注节点的标注数据包含的置信度可设为第二预设值,待标注节点的标注数据包含的置信度可设为第三预设值。其中,第二预设值第三预设值的取值范围均为大于0小于或等于1的任意自然数。可选的,已标注节点对应已标注数据,显然已标注节点的类别的可信度高,因此可将第二预设值的值取为1。待标注节点的类别的可信度比已标注节点的可信度低,因此可将第三预设值取小于1的数值。
需要理解的是,未经过迭代处理的待标注节点的标注数据可理解为该待标注节点的初始分类结果,其中初始分类结果包括未经过迭代处理的待标注节点属于不同类别的概率。可选的,可将未经过迭代处理的待标注节点属于不同类别的概率设为相同。在一种可能实现的方式中,将未经过迭代处理的待标注节点属于不同类别的概率均设为类别数量的倒数,并将第三预设值的值设为类别数量的倒数。例如,待处理数据的类别包括苹果、香蕉、梨子、橙子4个类别,则未经过迭代处理的待标注节点的初始分类结果为[0.25,0.25,0.25,0.25],置信度为0.25。即待标注节点属于苹果的概率、待标注节点属于香蕉的概率、待标注节点属于梨子的概率和待标注节点属于橙子的概率均为0.25,且待标注节点的初始分类结果的置信度(下文将称为初始置信度)为0.25。
显然利用置信度高的节点确定待标注节点的分类结果,可提高待标注节点的分类结果的准确率。因此,在一种选取局部子图的方式中,以n个节点中未作为过起始节点的节点中置信度最高的节点(即第一节点)为起始节点,在待处理邻接图中搜索获得包含上述q个节点的局部子图。这样可使局部子图中包含高置信度的节点,进而在对局部子图进行后续处理时可利用该置信度高的节点的类别信息确定待标注节点的分类结果。
需要理解的是,若待处理邻接图中未作为过起始节点的节点中置信度最高的节点有多个,可从这多个置信度最高的节点中任取一个作为起始节点。
由于待处理邻接图中包含的已标注节点的数量不止1个,因此搜索获得的局部子图中已标注节点的数量可能有多个。本公开实施例的目的是为了确定待标注节点的分类结果,若局部子图中已标注节点的数量多,相应的在后续通过对局部子图进行处理确定分类结果的待标注节点的数量就少,即对待标注节点的置信度的提升低。如果将对局部子图的处理称为一次迭代,那么也就意味着需要更多的迭代次数确定待处理邻接图中所有待标注节点的分类结果(此处需要理解的是,在确定所有节点的分类结果的同时还需使该分类结果的置信度较高),即降低了对整个待处理邻接图的处理的效率。
为提高一次迭代的处理效率,在另一种选取局部子图的方式中,以上述第一节点为起始节点对上述待处理邻接图中的节点进行搜索,在搜索获得的节点的预期置信度增长大于或等于第二阈值的情况下停止搜索,获得上述包含所述q个节点的局部子图。
上述预期置信度增长可理解为理论上搜索获得的节点的置信度的和的可增长的空间,例如,搜索获得1号节点、2号节点、3号节点、4号节点和5号节点5个节点,其中1号节点的置信度为1,2号节点的置信度为0.6,3号节点的置信度为0.6,4号节点的置信度为1,5号节点的置信度为1。理论上,这5个节点的置信度的和可以达到5*1=5,而这5个节点的当前置信度的和为:1+0.6+0.6+1+1=4.2,因此这5个节点的置信度可增长的空间为5-4.2=0.8,即这5个节点的置信度的和还可提高0.8。
将搜索获得的节点的预期置信度增长大于或等于第二阈值设置为搜索终止的条件,可保证搜索获得的局部子图中节点的预期置信度大于或等于第二阈值,相当于保证了一次迭代处理的“最低工作量”(即通过一次迭代处理将局部子图中节点的置信度的和提升第二阈值),提高了一次迭代处理的处理效率,进而提高了对整个待处理邻接图的处理的效率。
此外,在数据处理装置的硬件资源有限的情况下,若局部子图中的节点的数量过多,将降低处理局部子图中节点的速度,进而降低对整个待处理邻接图的处理效率。因此,在前一种选取局部子图的方式的基础上,还需使局部子图中节点的数量不能过多。在又一种获取局部子图的方式中,以上述第一节点为起始节点对上述待处理邻接图中的节点进行搜索,在搜索获得的节点的预期置信度增长大于或等于第二阈值,且搜索获得的节点的数量小于或等于第三阈值的情况下停止搜索,获得上述局部子图。其中,第三阈值可根据数据处理装置的硬件配置进行调整,本公开对第三阈值的取值不做限定。
需要指出的是,在该种获取局部子图的方式中,若搜索获得的节点的数量大于第三阈值了,但搜索获得的节点的预期置信度增长还未达到第二阈值,也就是说以第一节点为起始节点进行搜索不能获得满足要求的局部子图。此时将停止搜索,并从待处理邻接图中选取除第一节点之外的节点中置信度最高的节点作为起始节点,并重新搜索获得局部子图。
上述三种获取局部子图的方式中的搜索可以是任意一种搜索方式,如:深度优先搜索、广度优先搜索、A*搜索、回溯搜索等等。
在一种可能实现的方式中,以上述第一节点为起始节点,按搜索步长为r个节点对所述待处理邻接图进行广度优先搜索,在搜索获得的节点的预期置信度增长大于或等于上述第二阈值,且搜索获得的节点的数量小于或等于上述第三阈值的情况下停止搜索,获得上述局部子图。其中,r为正整数,可选的,r的取值为1。
举例来说(例8),在图7所示的待处理邻接图中,1号节点为起始节点,按搜索步长为1个节点对图7中的待处理邻接图进行广度优先搜索,则第一次搜索后获得的节点包括:1号节点、2号节点、3号节点、4号节点和5号节点。再在第一次搜索的基础上按搜索步长为1个节点进行第二次搜索获得的节点包括:1号节点、2号节点、3号节点、4号节点、5号节点、6号节点、7号节点、8号节点和9号节点。
从例8中可以看出,广度优先搜索扩大搜索范围的方式好比水波纹扩散。通过广度优先搜索的方式对待处理邻接图进行搜索,可快速搜索完待处理邻接图中所有的节点。
503、基于上述n个节点中已标注节点的标注数据,使用图卷积网络对所述待处理邻接图进行多次迭代处理,获得上述待处理邻接图中待标注节点的分类结果。
使用图卷积网络对局部子图中进行卷积处理,可利用与待标注节点相连的节点的类别信息确定该待标注节点的分类结果确定局部子图中待标注节点的分类结果。
可选的,在使用图卷积网络对局部子图进行卷积处理之前,可对图卷积网络进行训练。在一种可能实现的方式中,将包含已标注样本节点和待标注样本节点的样本邻接图输入至图卷积网络进行训练,其中,上述待标注样本节点存在有真实的标注信息,但在样本邻接图中将真实的标注信息去除了。通过图卷积网络对样本邻接图的处理,将获得待标注样本节点的分类结果,并依据该分类结果确定待标注样本节点的类别。再依据该类别与待标注样本节点的标注信息之间的差异确定图卷积网络的损失,并基于该损失调整图卷积网络的参数,完成对图卷积网络的训练。
上述已标注样本节点和待标注样本节点均包含置信度,图卷积网络在对样本邻接图进行处理时,将优先利用置信度高的节点的类别信息确定待标注样本节点的分类结果。
举例来说,如图8所示,1号节点分别与2号节点、3号节点相连,其中,2号节点的分类结果为[0.05,0.05,0.8,0.05,0.05],3号节点的分类结果为[0.2,0.2,0.35,0.2,0.15]。2号节点的类别为第三类别的概率要远远大于2号节点的类别为其他几个类别的概率,因此,2号节点的类别为第三类别的可信度高。而3号节点的分类结果中,3号节点属于不同类别的概率之间的差异并不大,因此,若将分类结果中的最大概率对应的类别(第三类别)作为3号节点的类别,3号节点的类别的可信度不高。以第一类别为香蕉、第二类别为苹果、第三类别为梨子、第四类别为橙子、第五类别为桃子为例,图9所示为2号节点的分类结果,图10所示为3号节点的分类结果。显然,图9所示的分类结果的概率图形更偏向于“尖峰型”,而图10所示的分类结果更偏向于“平缓型”。通过对图卷积网络的训练,可使图卷积网络在确定1号节点的分类结果时,赋予传播至1号节点的类别信息中属于“尖峰型”的信息大权重,赋予传播至1号节点的类别信息中属于“平缓型”的信息小权重,再依据权重对传播至1号节点的类别信息进行加权求和即可确定传播至1号节点的目标类别信息,并依据目标类别信息确定1号节点的分类结果。
在使用训练好的图卷积网络对局部子图进行处理时,也将依据传播至待标注节点的类别信息的是“尖峰型”还是“平缓型”,以及“尖峰”的程度和“平缓”的程度,以及不同节点的特征数据之间的相似度确定类别信息的权重。可选的,分类结果中最大概率与第二大概率之间的差异越大,“尖峰”的程度越大,相应的,权重就越大。分类结果中的概率的方差越小,“平缓”的程度越大,相应的,权重就越小。
可选的,可依据与待标注节点连接的节点的分类结果的概率图形和连接的距离确定节点的目标权重,再依据节点的目标权重确定待标注节点的目标类别信息。
举例来说,图11所示的局部子图中,1号节点为待标注节点,2号节点、3号节点和4号节点均为未标注节点,且2号节点和4号节点的分类结果为“尖峰型”,3号节点的分类结果为“平缓型”,且2号节点的“尖峰”程度比4号节点的“尖峰”程度要大。假设1号节点和2号节点之间的距离为3,1号节点和3号节点之间的距离为2,1号节点和4号节点之间的距离为4。依据2号节点、3号节点和4号节点的概率图形可确定2号节点的权重为0.5,3号节点的权重为0.1,4号节点的权重为0.4(下文将称为第一组权重)。同时依据2号节点与1号节点之间的距离、3号节点与1号节点之间的距离和4号节点与1号节点之间的距离,可确定2号节点的权重为0.3,3号节点的权重为0.5,4号节点的权重为0.2(下文将称为第二组权重)。再将依据第一组权重和第二组权重确定节点的目标权重,如,将两组权重的平均值作为节点的目标权重,则2号节点的权重为(0.5+0.3)/2=0.4,3号节点的权重为(0.1+0.5)/2=0.3,4号节点的权重为(0.4+0.2)/2=0.3。若2号节点传播至1号节点的类别信息为[0.1,0.8,0.1],3号节点传播至1号节点的类别信息为[0.4,0.3,0.3],4号节点传播至1号节点的类别信息为[0.15,0.7,0.15],则1号节点的目标类别信息为[0.4*0.1+0.3*0.4+0.3*0.15,0.4*0.8+0.3*0.3+0.3*0.7,0.4*0.1+0.3*0.3+0.3*0.15]=[0.205,0.62,0.175]。
通过为不同置信度的节点的类别信息赋予不同的权重,可实现利用置信度高的节点的信息确定待标注样本节点的分类结果,即使局部子图中类别信息的传播方向为从置信度高的节点传播至置信度低的节点,这样可提高最终获得的待标注节点的分类结果的准确率。
504、基于上述多次迭代处理中至少一次迭代处理得到的上述待标注节点的分类结果,确定上述待标注节点的标注数据。
经过步骤503的处理,局部子图中的待标注节点将获得一个分类结果,每一个分类结果均可视为包含了不同局部子图中的节点的类别信息。显然用于确定待标注节点的分类结果的类别信息越丰富,最终获得的待标注节点的分类结果就越准确,进而获得的待标注节点的目标类别也就越准确。因此在待处理邻接图中的待标注节点的分类结果的数量大于或等于第一阈值的情况下,基于所述多次迭代处理中至少一次迭代处理得到的上述待标注节点的分类结果,确定上述待标注节点的目标类别以及所述待标注节点属于上述目标类别的置信度,可提高待标注节点的标注数据的准确率。可选的,上述第一阈值为2。
在一种可能实现的方式中,在待标注节点的分类结果的数量大于或等于第一阈值的情况下,分别计算该待标注节点的分类结果中属于同一类别的概率的均值,获得目标分类结果,再将目标分类结果中的最大均值对应的类别作为该待标注节点的目标类别,并将目标分类结果中的最大均值作为该待标注节点属于目标类别的置信度。
举例来说(例8),在图7所示的待处理邻接图中,3号节点、5号节点、9号节点均为待标注数据对应的节点。经过多次迭代后,3号节点有3个分类结果,分别为:[0.3,0.4,0.3]、[0.3,0.5,0.2]、[0.2,0.6,0.2],5号节点有1个分类结果:[0.1,0.7,0.2],9号节点有2个分类结果,分别为:[0.7,0.2,0.1]、[0.8,0.1,0.1]。假设第一阈值为2,则3号节点的目标分类结果为:[(0.3+0.3+0.2)/3,(0.4+0.5+0.6)/3,(0.3+0.2+0.2)/3],3号节点的类别为(0.4+0.5+0.6)/3对应的类别,且3号节点的置信度为(0.4+0.5+0.6)/3=0.5。由于5号节点只有1个分类结果,因此将不会为5号节点确定目标分类结果。9号节点的目标分类结果为:[(0.7+0.8)/2,(0.2+0.1)/2,(0.1+0.1)/2],9号节点的目标类别为(0.7+0.8)/2对应的类别,且9号节点属于目标类别的置信度为(0.7+0.8)/2=0.75。
若待标注节点的分类结果的数量小于第一阈值,表征该待标注节点的分类结果的可信度较低,因此将分类结果的数量小于第一阈值的待标注节点的置信度调整为第一预设值。其中,第一预设值为很小的正数,可选的第一预设值为e-6,其中,e为自然底数,约等于2.7182818284。接着例8继续举例,5号节点的置信度即可调整为第一预设值。
通过步骤504的处理可确定503中的局部子图中待标注节点的类别和置信度,即减小了局部子图的预期置信度增长。这样在下一次迭代中选取局部子图时将不会再选中当前次迭代中选取的局部子图。
举例来说(例9),在图12所示的待处理邻接图中,假设第s次迭代处理的局部子图包含1号节点、2号节点、3号节点和6号节点。其中,1号节点的置信度为1、2号节点的置信度为0.3、3号节点的置信度为0.3、6号节点的置信度为1,上述第二阈值为1.2。经过第s次迭代,2号节点的置信度由0.3更新为0.7,3号节点的置信度由0.3更新为0.6,则第s次迭代的局部子图中的节点的预期置信度增长由4*1-1-0.3-0.3-1=1.4更新为4*1-1-0.7-0.6-1=0.7。由于在执行完第s次迭代后,1号节点、2号节点、3号节点和6号节点的置信度均不再改变,1号节点、2号节点、3号节点和6号节点的预期置信度也将不再改变(始终是0.7)。这样在第s次迭代后的任意一次迭代处理中都将不会选取1号节点、2号节点、3号节点和6号节点作为局部子图(0.7始终小于1.2)。上述s为正整数。
通过每一次迭代处理将局部子图中分类结果的数量大于或等于第一阈值的待标注节点的置信度“调高”(包括从初始置信度调整至目标分类结果中的最大均值,以及从第一预设值调整至目标分类结果中的最大均值),可降低局部子图中的预期置信度增长,进而在后续的迭代处理中重新选取预期置信度增长大于或等于第二阈值的局部子图。而局部子图中节点的置信度越高,局部子图的预期置信度增长就越小,在后续的迭代处理中重新选取预期置信度增长大于或等于第二阈值的局部子图就相当于再次选取置信度低的节点作为被处理的对象,这样就实现了将待处理邻接图中的置信度高的节点的类别信息传播至待处理邻接图中的置信度低的节点。
接着例9继续举例,假定4号节点的置信度为e-6、5号节点的置信度为0.8、7号节点的置信度为0.3,第s次迭代处理的局部子图的起始节点为6号节点。由于经过第s次迭代处理后,第s次迭代处理的局部子图的预期置信度增长小于第二阈值,因此在第s+1次迭代处理时需要重新选取局部子图。而6号节点已经作为过起始节点,因此在选取第s+1次迭代处理的局部子图时,将从除6号节点之外的节点中选取置信度最高的节点作为起始节点,即1号节点为起始节点。而以1号节点为起始节点选取的第s+1次迭代处理的局部子图可能包括1号节点、2号节点、3号节点、4号节点和5号节点。其中,4号节点的置信度很低,使用图卷积网络对第s+1次迭代处理的局部子图进行处理时就可利用1号节点、2号节点、3号节点和5号节点的类别信息确定4号节点的分类结果。而在第s次迭代处理中,在确定2号节点和3号节点的目标类别和属于目标类别的置信度时又利用了6号节点的类别信息,因此,在确定4号节点的分类结果时,就相当于利用了1号节点、2号节点、3号节点、5号节点和6号节点的类别信息。
经过多次迭代处理,直到确定待处理邻接图中所有的待标注节点的目标类别和属于目标类别的置信度时,完成对待处理邻接图的处理,即获得了待处理数据中所有待标注数据的标注数据。
可选的,在多次迭代处理后,待处理邻接图中仍然存在未确定目标类别和属于目标类别的置信度的待标注节点,但已经无法通过搜索获得预期置信度增长大于或等于第二阈值,且节点数量小于或等于第三阈值的局部子图时,表征待处理邻接图中的节点的置信度均达到预期,可停止对待处理邻接图的处理。
可选的,根据未确定目标类别和属于目标类别的置信度的待标注节点的分类结果或初始分类结果,确定该待标注节点的目标分类结果和属于目标分类结果的置信度。例如,若在停止对待处理邻接图的处理时,待处理邻接图中的节点A仍未被图卷积网络处理过,即节点A不具有分类结果,但具有初始分类结果。此时可根据节点A的初始分类结果确定节点A的目标类别和节点A属于目标类别的置信度。如在初始分类结果中的对应不同类别的概率值均相同的情况下,可将距离与节点A最近的节点的目标类别作为节点A的目标类别,并将节点A与距离节点A最近的节点之间的相似度作为节点A属于目标类别的置信度(如相似度为80%,置信度为0.8)。在初始分类结果中的对应不同类别的概率值不同的情况下,将初始分类结果中的最大概率值对应的类别作为节点A的目标类别,并将该最大概率值作为节点A属于目标类别的置信度。若在停止对待处理邻接图的处理时,待处理邻接图中的节点B仍未确定目标类别和属于目标类别的置信度,但节点B被图卷积网络处理过,即节点B具有分类结果,则可根据节点B的分类结果确定节点B的目标分类结果和节点B属于目标分类结果的置信度。在节点B的分类结果只有一个的情况下,可将节点B的分类结果中的最大概率值对应的类别作为节点B的目标类别,并将该最大概率值作为节点B属于目标类别的置信度。在节点B的分类结果有多个的情况下,可将节点B的多个分类结果的均值中的最大概率值对应的类别作为节点B的目标类别,并将该均值中的最大概率值作为节点B属于目标类别的置信度。
本实施例通过多次迭代完成对待处理邻接图的处理获得待处理邻接图中待标注节点的目标类别和属于目标类别的置信度,可提升处理效率。而在每一次选取局部子图的过程中考虑节点的置信度,可实现将待处理邻接图中置信度高的节点的类别信息传播至置信低的节点,进而提升最终获得的待标注节点的目标类别和属于目标类别的置信度的准确率。
基于实施例(一)、实施例(二)以及实施例(三)提供的技术方案,本公开还提供了几种可能实现的应用场景。
场景A:得益于强大的性能,近几年神经网络被广泛应用于各种任务(如图像识别、语句识别)。神经网络在这些领域中的表现效果很大程度取决于对神经网络的训练效果,而神经网络的训练效果又主要取决于训练神经网络的训练数据的数量,即训练数据的数量越多,神经网络的训练效果越好,进而应用训练后的神经网络执行相应的任务(如图像识别、语句识别)的效果也就越好。
训练数据指有标注信息图像或语句,例如,需要执行的任务为对图像中包含的内容进行分类,判断图像中包含的内容是苹果、香蕉、梨子、桃子、橙子、西瓜中的哪一种,那么上述标注信息包括苹果、香蕉、梨子、桃子、橙子、西瓜。又例如,需要执行的任务为对语句描述的内容进行分类,判断语句描述的内容是否是描述汽车故障的语句,那么上述标注信息包括是描述汽车故障的语句和不是描述汽车故障的语句。
训练数据的标注信息越准确,神经网络的训练效果越好,因此,训练数据的标注数据与训练数据的真实内容的匹配度越高,训练效果就越好。例如,如果将包含梨子的图像标注为苹果就不正确。又例如,将“晚上去哪儿吃饭?”标注为是描述汽车故障的语句也不正确。而标注信息不正确的训练数据会使训练效果变差,因此传统方法大多通过人工标注的方式完成对训练数据的标注。但是在训练数据的数量很大时,人工标注的方式效率低,人工成本高,而应用本公开提供的技术方案可实现通过数据处理装置对训练数据进行特征提取处理并构建待处理邻接图,并通过对待处理邻接图进行处理完成对训练数据的标注,且标注信息的准确率高。
场景B:随着互联网技术的高速发展,社交网络也越来越普及,人们可通过在社交网络上建立好友关系,进行交流等操作。如果将社交网络上的每个用户视为一个节点,那么整个社交网络也可视为一张待处理邻接图,其中,待处理邻接图中节点之间的连接关系可通过用户之间的好友关系确定。而用户的属性(如:年龄、性别、爱好、归属地、教育背景等)可视为节点的特征数据。通过本公开实施例提供的技术方案可依据待处理邻接图中节点之间的连接关系确定节点的属性。
举例来说,在图13所示的待处理邻接图中,1号节点对应的用户是张三,2号节点对应的用户是李四,3号节点对应的用户是王五。其中,张三、李四、王五彼此之间均为好友关系。若张三和李四的爱好都是打篮球,而王五的属性中未包含爱好信息,则可依据本公开实施例提供的技术方案对图13所示的待处理邻接图进行处理,以确定3号节点的爱好信息,如3号节点的爱好为打篮球的概率为90%,即王五的爱好为打篮球的概率较高。进一步的,在确定王五非常有可能喜欢打篮球后,可向王五的账户推送与篮球相关的信息。
在场景B中应用本公开实施例提供的技术方案,可确定社交网络中用户的属性信息,并可基于用户的属性信息进行相应的处理(如推送信息,推荐好友等等)。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
上述详细阐述了本公开实施例的方法,下面提供了本公开实施例的装置。
请参阅图4,图4为本公开实施例提供的一种数据处理装置的结构示意图,该数据处理装置1包括:获取单元11、处理单元12、确定单元13以及调整单元14,其中:
获取单元11,用于获取待处理邻接图,所述待处理邻接图中的n个节点分别与待处理数据对应,所述n为正整数,所述n个节点中包括待标注节点、所述待标注节点对应的待处理数据为待标注数据;
处理单元12,用于基于所述n个节点中已标注节点的标注数据,使用图卷积网络对所述待处理邻接图进行多次迭代处理,获得所述待处理邻接图中待标注节点的分类结果;
确定单元13,用于基于所述多次迭代处理中至少一次迭代处理得到的所述待标注节点的分类结果,确定所述待标注节点的标注数据。
在一种可能实现的方式中,所述多次迭代处理中的每次迭代处理包括:从所述n个节点中选取q个节点,获得包含所述q个节点的局部子图;所述q为小于所述n的正整数;使用所述图卷积网络对所述局部子图进行处理,获得所述局部子图中待标注节点的分类结果;所述多次迭代处理中的任意两次迭代处理中获得的局部子图不同。
在另一种可能实现的方式中,所述标注数据包括目标类别以及属于所述目标类别的置信度;所述确定单元13用于:在所述待标注节点的分类结果的数量大于或等于第一阈值的情况下,基于所述多次迭代处理中至少一次迭代处理得到的所述待标注节点的分类结果,确定所述待标注节点的目标类别以及所述待标注节点属于所述目标类别的置信度。
在又一种可能实现的方式中,所述标注数据包括属于目标类别的置信度;所述装置1还包括:调整单元14,用于在所述待标注节点的分类结果的数量小于第一阈值的情况下,将所述待标注节点的分类结果的置信度调整为第一预设值。
在又一种可能实现的方式中,所述分类结果包含所述待标注节点属于不同类别的概率;所述调整单元具体用于:分别确定所述待标注节点的分类结果中属于同一类别的概率的均值,获得目标分类结果;将所述目标分类结果中的最大均值对应的类别作为所述待标注节点的所述目标类别,将所述目标分类结果中的最大均值作为所述待标注节点属于所述目标类别的置信度。
在又一种可能实现的方式中,所述n个节点中还包括已标注节点,所述已标注节点的标注数据包含的置信度为第二预设值,所述待标注节点中未经过所述迭代处理的节点的标注数据包含的置信度为第三预设值。
在又一种可能实现的方式中,所述从所述n个节点中选取q个节点,获得包含所述q个节点的局部子图,包括:以所述n个节点中的第一节点为起始节点,在所述待处理邻接图中搜索获得所述包含所述q个节点的局部子图;所述第一节点为未作为过起始节点的节点中置信度最高的节点。
在又一种可能实现的方式中,所述以所述n个节点中的第一节点为起始节点,在所述待处理邻接图中搜索获得所述包含所述q个节点的局部子图,包括:以所述第一节点为起始节点对所述待处理邻接图中的节点进行搜索,在搜索获得的节点的预期置信度增长大于或等于第二阈值的情况下停止搜索,获得所述包含所述q个节点的局部子图,所述预期置信度增长通过所述搜索获得的节点的数量和所述搜索获得的节点的置信度的和确定。
在又一种可能实现的方式中,所述以所述第一节点为起始节点对所述待处理邻接图中的节点进行搜索,在搜索获得的节点的预期置信度增长大于或等于第二阈值的情况下停止搜索,获得所述包含所述q个节点的局部子图,包括:以所述第一节点为起始节点对所述待处理邻接图中的节点进行搜索,在所述搜索获得的节点的预期置信度增长大于或等于所述第二阈值,且搜索获得的节点的数量小于或等于第三阈值的情况下停止搜索,获得所述局部子图。
在又一种可能实现的方式中,所述以所述第一节点为起始节点对所述待处理邻接图中的节点进行搜索,在所述搜索获得的节点的预期置信度增长大于或等于所述第二阈值,且搜索获得的节点的数量小于或等于第三阈值的情况下停止搜索,获得所述局部子图,包括:以所述第一节点为起始节点,按搜索步长为r个节点对所述待处理邻接图进行搜索,在所述搜索获得的节点的预期置信度增长大于或等于所述第二阈值,且搜索获得的节点的数量小于或等于所述第三阈值的情况下停止搜索,获得所述局部子图,所述r为正整数。
在又一种可能实现的方式中,所述预期置信度增长通过所述搜索获得的节点的数量和所述搜索获得的节点的置信度的和确定,包括:确定所述搜索获得的节点的置信度的和获得总置信度;将所述搜索获得的节点的数量与所述总置信度之间的差值作为所述预期置信度增长。
在又一种可能实现的方式中,所述获取单元11用于:获取所述n个节点和与所述n个节点分别对应的待处理数据;基于所述n个节点中每两个节点分别对应的待处理数据之间的相似度,获得所述待处理邻接图。
在又一种可能实现的方式中,所述获取单元11具体用于:基于所述n个节点中每两个节点分别对应的待处理数据之间的相似度,确定所述每两个节点之间的距离;所述距离与所述相似度呈负相关;基于所述n个节点中每两个节点之间的距离,获得所述待处理邻接图。
在又一种可能实现的方式中,所述获取单元11具体用于:将所述n个节点中的每个节点分别与距离最近的k个节点相连,获得所述待处理邻接图。
在又一种可能实现的方式中,所述待处理数据包括图像或语句。
本实施例通过图卷积网络对待处理邻接图进行多次迭代处理,以实现利用待处理邻接图中已标注节点的类别信息确定待标注节点的分类结果。其中,在每一次迭代后,待标注节点都将获得一个分类结果,再基于多次迭代处理获得多个分类结果中的至少一个分类结果确定待标注节点的标注数据(即与待标注节点对应的待标注数据的标注数据),可提高获得的标注数据的准确度。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
图15为本公开实施例提供的一种数据处理装置的硬件结构示意图。该数据处理装置2包括处理器21,存储器22,输入装置23,输出装置24。该处理器21、存储器22、输入装置23和输出装置24通过连接器相耦合,该连接器包括各类接口、传输线或总线等等,本公开实施例对此不作限定。应当理解,本公开的各个实施例中,耦合是指通过特定方式的相互联系,包括直接相连或者通过其他设备间接相连,例如可以通过各类接口、传输线、总线等相连。
处理器21可以是一个或多个图形处理器(graphics processing unit,GPU),在处理器21是一个GPU的情况下,该GPU可以是单核GPU,也可以是多核GPU。可选的,处理器21可以是多个GPU构成的处理器组,多个处理器之间通过一个或多个总线彼此耦合。可选的,该处理器还可以为其他类型的处理器等等,本公开实施例不作限定。
存储器22可用于存储计算机程序指令,以及用于执行本公开方案的程序代码在内的各类计算机程序代码。可选地,存储器包括但不限于是随机存储记忆体(random accessmemory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasableprogrammable read only memory,EPROM)、或便携式只读存储器(compact disc read-only memory,CD-ROM),该存储器用于相关指令及数据。
输入装置23用于输入数据和/或信号,以及输出装置24用于输出数据和/或信号。输出装置23和输入装置24可以是独立的器件,也可以是一个整体的器件。
可理解,本公开实施例中,存储器22不仅可用于存储相关指令,还可用于存储待处理邻接图,如该存储器22可用于存储通过输入装置23获取的待处理数据,又或者该存储器22还可用于存储通过处理器21获得的待标注节点的标注数据等等,本公开实施例对于该存储器中具体所存储的数据不作限定。
可以理解的是,图15仅仅示出了一种数据处理装置的简化设计。在实际应用中,数据处理装置还可以分别包含必要的其他元件,包含但不限于任意数量的输入/输出装置、处理器、存储器等,而所有可以实现本公开实施例的数据处理装置都在本公开的保护范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。所属领域的技术人员还可以清楚地了解到,本公开各个实施例描述各有侧重,为描述的方便和简洁,相同或类似的部分在不同实施例中可能没有赘述,因此,在某一实施例未描述或未详细描述的部分可以参见其他实施例的记载。
在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本公开实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriberline,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字通用光盘(digital versatiledisc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:只读存储器(read-only memory,ROM)或随机存储存储器(random access memory,RAM)、磁碟或者光盘等各种可存储程序代码的介质。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
获取待处理邻接图,所述待处理邻接图中的n个节点分别与待处理数据对应,所述n为正整数,所述n个节点中包括待标注节点、所述待标注节点对应的待处理数据为待标注数据;
基于所述n个节点中已标注节点的标注数据,使用图卷积网络对所述待处理邻接图进行多次迭代处理,获得所述待处理邻接图中待标注节点的分类结果;
基于所述多次迭代处理中至少一次迭代处理得到的所述待标注节点的分类结果,确定所述待标注节点的标注数据。
2.根据权利要求1所述的方法,其特征在于,所述多次迭代处理中的每次迭代处理包括:
从所述n个节点中选取q个节点,获得包含所述q个节点的局部子图;所述q为小于所述n的正整数;
使用所述图卷积网络对所述局部子图进行处理,获得所述局部子图中待标注节点的分类结果;
所述多次迭代处理中的任意两次迭代处理中获得的局部子图不同。
3.根据权利要求1或2所述的方法,其特征在于,所述标注数据包括目标类别以及属于所述目标类别的置信度;
所述基于所述多次迭代处理中至少一次迭代处理得到的所述待标注节点的分类结果,确定所述待标注节点的标注数据,包括:
在所述待标注节点的分类结果的数量大于或等于第一阈值的情况下,基于所述多次迭代处理中至少一次迭代处理得到的所述待标注节点的分类结果,确定所述待标注节点的目标类别以及所述待标注节点属于所述目标类别的置信度。
4.根据权利要求1或2所述的方法,其特征在于,所述标注数据包括属于目标类别的置信度;
所述方法还包括:
在所述待标注节点的分类结果的数量小于第一阈值的情况下,将所述待标注节点的分类结果的置信度调整为第一预设值。
5.根据权利要求3所述的方法,其特征在于,所述分类结果包含所述待标注节点属于不同类别的概率;
所述在所述待标注节点的分类结果的数量大于或等于第一阈值的情况下,所述基于所述多次迭代处理中至少一次迭代处理得到的所述待标注节点的分类结果,确定所述待标注节点的目标类别以及所述待标注节点属于所述目标类别的置信度,包括:
分别确定所述待标注节点的分类结果中属于同一类别的概率的均值,获得目标分类结果;
将所述目标分类结果中的最大均值对应的类别作为所述待标注节点的所述目标类别,将所述目标分类结果中的最大均值作为所述待标注节点属于所述目标类别的置信度。
6.根据权利要求2至5中任意一项所述的方法,其特征在于,所述n个节点中还包括已标注节点,所述已标注节点的标注数据包含的置信度为第二预设值,所述待标注节点中未经过所述迭代处理的节点的标注数据包含的置信度为第三预设值。
7.一种数据处理装置,其特征在于,所述装置包括:
获取单元,用于获取待处理邻接图,所述待处理邻接图中的n个节点分别与待处理数据对应,所述n为正整数,所述n个节点中包括待标注节点、所述待标注节点对应的待处理数据为待标注数据;
处理单元,用于基于所述n个节点中已标注节点的标注数据,使用图卷积网络对所述待处理邻接图进行多次迭代处理,获得所述待处理邻接图中待标注节点的分类结果;
确定单元,用于基于所述多次迭代处理中至少一次迭代处理得到的所述待标注节点的分类结果,确定所述待标注节点的标注数据。
8.一种处理器,其特征在于,所述处理器用于执行如权利要求1至6中任意一项所述的方法。
9.一种电子设备,其特征在于,包括:处理器、发送装置、输入装置、输出装置和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,当所述处理器执行所述计算机指令时,所述电子设备执行如权利要求1至6中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被电子设备的处理器执行时,使所述处理器执行权利要求1至6中任意一项所述的方法。
CN201910923988.1A 2019-09-27 2019-09-27 数据处理方法及相关装置 Pending CN110705629A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910923988.1A CN110705629A (zh) 2019-09-27 2019-09-27 数据处理方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910923988.1A CN110705629A (zh) 2019-09-27 2019-09-27 数据处理方法及相关装置

Publications (1)

Publication Number Publication Date
CN110705629A true CN110705629A (zh) 2020-01-17

Family

ID=69198257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910923988.1A Pending CN110705629A (zh) 2019-09-27 2019-09-27 数据处理方法及相关装置

Country Status (1)

Country Link
CN (1) CN110705629A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340082A (zh) * 2020-02-19 2020-06-26 深圳市商汤科技有限公司 数据处理方法及装置、处理器、电子设备、存储介质
CN111562985A (zh) * 2020-05-09 2020-08-21 上海商汤智能科技有限公司 资源管理方法及装置、电子设备和存储介质
CN112131942A (zh) * 2020-08-19 2020-12-25 深圳云天励飞技术股份有限公司 场所的属性分类方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108287881A (zh) * 2017-12-29 2018-07-17 北京理工大学 一种基于随机游走关系发现的优化方法
CN108388651A (zh) * 2018-02-28 2018-08-10 北京理工大学 一种基于图核和卷积神经网络的文本分类方法
CN109460793A (zh) * 2018-11-15 2019-03-12 腾讯科技(深圳)有限公司 一种节点分类的方法、模型训练的方法及装置
CN109816009A (zh) * 2019-01-18 2019-05-28 南京旷云科技有限公司 基于图卷积的多标签图像分类方法、装置及设备
CN110147547A (zh) * 2019-04-09 2019-08-20 苏宁易购集团股份有限公司 一种基于迭代式学习的智能辅助标注方法及系统
WO2019174393A1 (zh) * 2018-03-14 2019-09-19 阿里巴巴集团控股有限公司 图结构模型训练和垃圾账号识别

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108287881A (zh) * 2017-12-29 2018-07-17 北京理工大学 一种基于随机游走关系发现的优化方法
CN108388651A (zh) * 2018-02-28 2018-08-10 北京理工大学 一种基于图核和卷积神经网络的文本分类方法
WO2019174393A1 (zh) * 2018-03-14 2019-09-19 阿里巴巴集团控股有限公司 图结构模型训练和垃圾账号识别
CN109460793A (zh) * 2018-11-15 2019-03-12 腾讯科技(深圳)有限公司 一种节点分类的方法、模型训练的方法及装置
CN109816009A (zh) * 2019-01-18 2019-05-28 南京旷云科技有限公司 基于图卷积的多标签图像分类方法、装置及设备
CN110147547A (zh) * 2019-04-09 2019-08-20 苏宁易购集团股份有限公司 一种基于迭代式学习的智能辅助标注方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
冯旸赫 等: "《在线半监督学习理论及方法》", 31 January 2019 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340082A (zh) * 2020-02-19 2020-06-26 深圳市商汤科技有限公司 数据处理方法及装置、处理器、电子设备、存储介质
CN111562985A (zh) * 2020-05-09 2020-08-21 上海商汤智能科技有限公司 资源管理方法及装置、电子设备和存储介质
CN111562985B (zh) * 2020-05-09 2024-03-22 上海商汤智能科技有限公司 资源管理方法及装置、电子设备和存储介质
CN112131942A (zh) * 2020-08-19 2020-12-25 深圳云天励飞技术股份有限公司 场所的属性分类方法、装置、电子设备及存储介质
CN112131942B (zh) * 2020-08-19 2022-05-17 深圳云天励飞技术股份有限公司 场所的属性分类方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110705629A (zh) 数据处理方法及相关装置
CN108520470B (zh) 用于生成用户属性信息的方法和装置
CN111708876B (zh) 生成信息的方法和装置
CN110046706B (zh) 模型生成方法、装置及服务器
CN107240029B (zh) 一种数据处理方法及装置
CN110807472B (zh) 图像识别方法、装置、电子设备及存储介质
CN113486989B (zh) 基于知识图谱的对象识别方法、装置、可读介质和设备
CN112214677B (zh) 一种兴趣点推荐方法、装置、电子设备及存储介质
CN113408570A (zh) 一种基于模型蒸馏的图像类别识别方法、装置、存储介质及终端
CN110135428B (zh) 图像分割处理方法和装置
CN110097004B (zh) 面部表情识别方法和装置
CN111310834A (zh) 数据处理方法及装置、处理器、电子设备、存储介质
CN114494709A (zh) 特征提取模型的生成方法、图像特征提取方法和装置
CN112364198A (zh) 一种跨模态哈希检索方法、终端设备及存储介质
CN114780863B (zh) 基于人工智能的项目推荐方法、装置、计算机设备及介质
CN114238746A (zh) 跨模态检索方法、装置、设备及存储介质
CN114610922A (zh) 图像处理方法及装置、存储介质及电子设备
CN114764593A (zh) 一种模型训练方法、模型训练装置及电子设备
CN113742474A (zh) 一种基于知识图谱的智能问答方法和装置
CN112417260B (zh) 本地化推荐方法、装置及存储介质
CN111461118A (zh) 兴趣特征确定方法、装置、设备及存储介质
CN111951070A (zh) 基于车联网的智能推荐方法、装置、服务器及存储介质
CN112329459A (zh) 文本标注方法和神经网络模型的构建方法
CN112906724A (zh) 一种图像处理装置、方法、介质及系统
CN111340082A (zh) 数据处理方法及装置、处理器、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200117