CN110428003A - 样本类别标签的修正方法、装置以及电子设备 - Google Patents

样本类别标签的修正方法、装置以及电子设备 Download PDF

Info

Publication number
CN110428003A
CN110428003A CN201910703812.5A CN201910703812A CN110428003A CN 110428003 A CN110428003 A CN 110428003A CN 201910703812 A CN201910703812 A CN 201910703812A CN 110428003 A CN110428003 A CN 110428003A
Authority
CN
China
Prior art keywords
point
candidate
credible
user
class label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910703812.5A
Other languages
English (en)
Other versions
CN110428003B (zh
Inventor
刘世霞
向首兴
叶曦
李岩
张志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Tsinghua University
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Beijing Dajia Internet Information Technology Co Ltd filed Critical Tsinghua University
Priority to CN201910703812.5A priority Critical patent/CN110428003B/zh
Publication of CN110428003A publication Critical patent/CN110428003A/zh
Application granted granted Critical
Publication of CN110428003B publication Critical patent/CN110428003B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06T3/06

Abstract

本公开公开了一种样本类别标签的修正方法、装置以及电子设备,涉及数据处理技术领域,其中,该样本类别标签的修正方法包括:响应于候选可信点选择操作指示,对实例视图中的投射点进行选择,并展示各候选可信点以及对应的类别标签;响应于用户操作对用户选中的候选可信点的类别标签进行更正得到可信数据集;基于可信数据集和各类标注数据,修正标注数据的类别标签;依据修正后的类别标签对应的渲染效果,在实例视图中渲染各类标注数据的投射点,该方式便于用户直观的观察标注数据的聚类分布,选择合适的标注数据并对类别标签有误的标注数据进行更正,通过可视化视图并结合人的经验实现对类别标签的修正,进一步地提高了样本类别标签修正的准确性。

Description

样本类别标签的修正方法、装置以及电子设备
技术领域
本公开涉及数据处理技术领域,特别涉及一种样本类别标签的修正方法、装置以及电子设备。
背景技术
随着人工智能的快速发展,机器学习被广泛应用于生产生活中。基于机器学习可以快速解决数据分类、图像识别等问题。机器学习使得人们的生产生活更加便利。在机器学习中,高质量的训练数据是有监督和半监督学习成功的一个关键因素,通常需要对样本数据标注类别标签后再进行机器学习。
然而,随着大数据时代的到来,数据快速增长,数据质量水平越来越难保证,而类别标签错误便是一种典型的数据质量问题。为了处理类别标签错误的问题,有关技术提出了使用机器学习技术来纠正类别标签,但该方法需要预先获取训练数据的类别标签特性,利用训练数据的先验知识来进行辅助检测。因此,利用该方法进行类别标签错误检测较为困难,并且对于大规模数据集而言,该方法识别类别标签错误的速度较慢,在出现大量类标错误的情况下,也不能有效地修正类别标签错误。
发明内容
本公开提供了一种样本类别标签的修正方法、装置以及电子设备,以至少解决相关技术中类别标签错误的问题。
根据本公开实施例的第一方面,提供一种样本类别标签的修正方法,包括:
响应于候选可信点选择操作指示,对实例视图中的投射点进行选择,并展示各候选可信点以及对应的类别标签;其中,所述实例视图用于将标注数据的聚类分布进行可视化展示;所述投射点为各类标注数据在二维平面或三维空间的投射点,且,所述投射点保留有各类标注数据的局部结构,在所述实例视图中不同类别标签的投射点的渲染效果不同,同一类投射点的渲染效果相同;响应于用户操作对用户选中的候选可信点的类别标签进行更正得到可信数据集;基于所述可信数据集和所述各类标注数据,利用双重优化标注数据的修正方法,修正所述标注数据的类别标签;依据修正后的类别标签对应的渲染效果,在所述实例视图中渲染各类标注数据的投射点。
可选的,所述投射点依照层次结构图划分为多个层级,则所述响应于候选可信点选择操作指示,对实例视图的投射点进行选择之前,所述方法还包括:对所述标注数据进行特征提取得到特征数据;对所述特征数据进行逐级递减采样,按照采样层级对应得到的多个层级的特征数据,将每相邻层级特征数据按照上下级关系进行级联,构建层次结构图。
可选的,还包括:响应于在所述实例视图中候选区域的选择操作指令,标识选择的候选区域;确定接收到更细粒度的展示操作指令后,确定候选区域内包含投射点的下一层级的级联的投射点,并在所述实例视图中渲染。
可选的,所述对实例视图中的投射点进行选择之后,并在所述响应于用户操作对用户选中的候选可信点的类别标签进行更正得到可信数据集之前,还包括:从候选可信点集中选择指定数量的候选可信点,其中,所述指定数量为根据用户设置确定的数量。
可选的,所述响应于用户操作对用户选中的候选可信点的类别标签进行更正得到可信数据集,包括:响应于对展示的候选可信点的用户选择操作,对选择的候选可信点渲染选中标识;响应于用户对类别标签的选择操作,将选择的候选可信点的类别标签更正为用户选择的类别标签。
可选的,所述依据修正后的类别标签对应的渲染效果,在所述实例视图中渲染各类标注数据的投射点之后,所述方法还包括:响应于用户操作,确定用户选择的投射点;响应于用户触发的确认操作,依据修正类别标签的标注数据,重新进行降维生成所述投射点,且在降维过程中,每次迭代时依据如下方法确定引力:对用户选择的投射点采用该投射点的同类别标签的标注数据确定该投射点所受的引力;对用户选择的投射点之外的投射点,采用所有标注数据确定该投射点的引力;依据重新降维得到的投射点,在实例视图中渲染各类标注数据的投射点。
可选的,所述方法还包括:生成并展示按时序排列的历史操作记录,其中,所述历史操作记录对应有操控节点,所述历史操作记录中包括以下信息中的至少一种:可信数据集以及类标被修改数据集的组合、用户触发的确认操作;其中,可信数据集采用按类别标签统计的分布直方图进行展示,类标被修改数据集采用类别标签被修改的标注数据按类别标签统计的分布直方图进行展示;响应于用户对所述操控节点的选择操作,将对标注数据的处理从当前状态回滚/或前滚到选择的操控节点对应的历史状态,并展示在所述实例视图以及可信点视图中,其中,所述可信点视图用于展示可信数据集中的数据。
可选的,所述依据类别标签对应的渲染效果,在实例视图中渲染各类标注数据的投射点之前,所述方法还包括:响应于加载标注数据的加载操作,展示加载界面,其中,所述加载界面中包括以下可设置项中的至少一项:标注数据的加载控件、可信标注数据的加载控件、降维顶层投射点总数量、降维的迭代次数、降维所需的混淆度;响应于用户针对加载界面的操作,执行相应的操作。
可选的,还包括:响应于用户对所述实例视图中的投射点的选择操作,在所述实例视图的指定区域中展现选取的投射点对应的标注数据的信息,其中,所述标注数据的信息包括标注数据的图像。
可选的,所述展示各候选可信点以及对应的类别标签,包括:依据所述实例视图中类别标签对应的渲染效果,在候选可信点视图中展示各候选可信点的图像以及与所述各候选可信点对应的类别标签。
可选的,所述方法还包括:响应于用户在候选可信点视图中的候选可信点管理操作,对相应的候选可信点执行相应的操作,其中,候选可信点管理操作包括以下中的至少一种:清除所有候选可信点、删除选中候选可信点、删除未选中候选可信点。
可选的,得到可信数据集,包括:响应于针对候选可信点视图中更正后的候选可信点的选中操作,确定选中的候选可信点;响应于将选中的候选可信点添加可信数据集中的用户操作,依据实例视图中类别标签对应的渲染效果,在可信点视图中展示可信点图像及其对应的类别标签。
可选的,在候选可信点视图和/或可信点视图中,所述渲染效果包括不同类别标签的分布。
可选的,所述依据修正后的类别标签对应的渲染效果,在所述实例视图中渲染各类标注数据的投射点之后,所述方法还包括:基于用户操作显示修正前后的区域对比图,其中,所述区域对比图可响应于用户操作指令进行缩放。
可选的,所述在实例视图中渲染之后,所述方法还包括:显示所有层级的层级标识;响应于用户通过层级标识触发的切换层级操作,切换实例视图中投射点的层级。
可选的,所述响应于候选可信点选择操作指示,对实例视图中的投射点进行选择之后,还包括:响应于用户切换操作,切换候选可信点在实例视图中的展示效果,其中,展示效果在第一效果和第二效果之间切换,所述第一效果为展示候选可信点对应的标注数据的缩略图,所述第二效果为展示候选可信点的空心指定图形。
可选的,所述实例视图中还包括由标注数据构造的密度分布图。
根据本公开实施例的第二方面,提供一种样本类别标签的修正装置,包括:展示单元,被配置为响应于候选可信点选择操作指示,对实例视图中的投射点进行选择,并展示各候选可信点以及对应的类别标签;其中,所述实例视图用于将标注数据的聚类分布进行可视化展示;所述投射点为各类标注数据在二维平面或三维空间的投射点,且,所述投射点保留有各类标注数据的局部结构,在所述实例视图中不同类别标签的投射点的渲染效果不同,同一类投射点的渲染效果相同;更正单元,被配置为响应于用户操作对用户选中的候选可信点的类别标签进行更正得到可信数据集;修正单元,被配置为基于所述可信数据集和所述各类标注数据,修正所述标注数据的类别标签;渲染单元,被配置为依据修正后的类别标签对应的渲染效果,在所述实例视图中渲染各类标注数据的投射点。
可选的,所述投射点依照层次结构图划分为多个层级,则更正单元响应于候选可信点选择操作指示,对实例视图的投射点进行选择之前,还包括:降维单元被配置为对所述标注数据进行特征提取得到特征数据;对所述特征数据进行逐级递减采样,按照采样层级对应得到的多个层级的特征数据,并将每相邻层级特征数据按照上下级关系进行级联,构建层次结构图。
可选的,还包括:候选区域选择单元被配置为:响应于在所述实例视图中候选区域的选择操作指令,标识选择的候选区域;确定接收到更细粒度的展示操作指令后,确定候选区域内包含投射点的下一层级的级联的投射点,并在所述实例视图中渲染。
可选的,所述展示单元对实例视图的投射点进行选择之后,并在响应于用户操作对用户选中的候选可信点的类别标签进行更正得到可信数据集之前,被配置为:从候选可信点集中选择指定数量的候选可信点,其中,所述指定数量为根据用户设置确定的数量。
可选的,所述更正单元,包括:响应于对展示的候选可信点的用户选择操作,对选择的候选可信点渲染选中标识;响应于用户对类别标签的选择操作,将选择的候选可信点的类别标签更正为用户选择的类别标签。
可选的,所述渲染单元依据修正后的类别标签对应的渲染效果,在所述实例视图中渲染各类标注数据的投射点之后还包括:投射点选择单元被配置为响应于用户操作,确定用户选择的投射点;响应于用户触发的确认操作,依据修正类别标签的标注数据,重新进行降维生成所述投射点,且在降维过程中,每次迭代时依据如下方法确定引力:对用户选择的投射点采用该投射点的同类别标签的标注数据确定该投射点所受的引力;对用户选择的投射点之外的投射点,采用所有标注数据确定该投射点的引力;依据重新降维得到的投射点,在实例视图中渲染各类标注数据的投射点。
可选的,所述装置还包括:历史操作记录单元被配置为生成并展示按时序排列的历史操作记录,其中,所述历史操作记录对应有操控节点,所述历史操作记录中包括以下信息中的至少一种:可信数据集以及类标被修改数据集的组合、用户触发的确认操作;其中,可信数据集采用按类别标签统计的分布直方图进行展示,类标被修改数据集采用类别标签被修改的标注数据按类别标签统计的分布直方图进行展示;响应于用户对所述操控节点的选择操作,将对标注数据的处理从当前状态回滚/或前滚到选择的操控节点对应的历史状态,并展示在所述实例视图以及可信点视图中,其中,所述可信点视图用于展示可信数据集中的数据。
可选的,所述渲染单元依据类别标签对应的渲染效果,在实例视图中渲染各类标注数据的投射点之前,还包括:加载单元被配置为响应于加载标注数据的加载操作,展示加载界面,其中,所述加载界面中包括以下可设置项中的至少一项:标注数据的加载控件、可信标注数据的加载控件、降维顶层投射点总数量、降维的迭代次数、降维所需的混淆度;响应于用户针对加载界面的操作,执行相应的操作。
可选的,所述装置还包括:放大单元被配置为响应于用户对所述实例视图中的投射点的选择操作,在所述实例视图的指定区域中展现选取的投射点对应的标注数据的信息,其中所述标注数据的信息包括标注数据的图像。
可选的,展示单元展示各候选可信点以及对应的类别标签被配置为依据所述实例视图中类别标签对应的渲染效果,在候选可信点视图中展示各候选可信点的图像以及与所述各候选可信点对应的类别标签。
可选的,所述装置还包括:候选可信点管理单元被配置为响应于用户在候选可信点视图中的候选可信点管理操作,对相应的候选可信点执行相应的操作,其中,候选可信点管理操作包括以下中的至少一种:清除所有候选可信点、删除选中候选可信点、删除未选中候选可信点。
可选的,更正单元得到可信数据集,被配置为响应于针对候选可信点视图中更正后的候选可信点的选中操作,确定选中的候选可信点;响应于将选中的候选可信点添加可信数据集中的用户操作,依据实例视图中类别标签对应的渲染效果,在可信点视图中展示可信点图像及其对应的类别标签。
可选的,在候选可信点视图和/或可信点视图中,所述渲染效果包括不同类别标签分布。
可选的,渲染单元依据修正后的类别标签对应的渲染效果,在所述实例视图中渲染各类标注数据的投射点之后,还包括:对比图显示单元被配置为基于用户操作显示修正前后的区域对比图,其中所述区域对比图可响应于用户操作指令进行缩放。
可选的,所述候选区域选择单元在实例视图中渲染之后,被配置为:显示所有层级的层级标识;并,响应于用户通过层级标识触发的切换层级操作,切换实例视图中投射点的层级。
可选的,展示单元响应于候选可信点选择操作指示,对实例视图的投射点进行采样之后,还包括:候选可信点效果切换单元被配置为响应于用户切换操作,切换候选可信点在实例视图中的展示效果,其中展示效果在第一效果和第二效果之间切换,第一效果为展示候选可信点对应的标注数据的缩略图,第二效果为展示候选可信点的空心指定图形。
可选的,所述实例视图中还包括标注数据构造的密度分布图。
根据本公开实施例的第三方面,提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面所述的方法。
根据本公开实施例的第四方面,提供一种计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如第一方面所述的方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
本公开公开了一种样本类别标签的修正方法、装置以及电子设备,该方法中将标注数据投射到二维平面或三维平面得到标注数据的投射点,且投射点保留有各类标注数据的局部结构。该投射点的聚类分布表征了标注数据的聚类分布以及局部结构。然后在实例视图中渲染投射点,且在实例视图中不同类别标签的投射点的渲染效果不同,同一类投射点的渲染效果相同,以便于用户直观的观察标注数据的聚类分布,选择合适的标注数据并对类别标签有误的标注数据进行更正得到可信的标注数据,然后基于可信的标注数据修正整个数据集中的类别标签,以此通过可视化视图并结合人的经验实现对类别标签的修正,进一步地提高了样本类别标签修正的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1为本申请实施例提供的样本类别标签修正的交互界面图;
图2为本申请实施例提供的样本类别标签的修正方法的流程图;
图3为本申请实施例提供的候选可信点展示方法的流程图;
图4为本申请实施例提供的候选可信点选取效果图;
图5为本申请实例提供的修正区域对比图;
图6为本申请实施例提供的可信点视图;
图7为本申请实施例提供的候选可信点选取示意图;
图8为本申请实施例提供的类别标签列表图;
图9为本申请实施例提供的历史记录视图;
图10为本申请实施例提供的加载界面图;
图11为本申请实施例提供的候选可信区域切换示意图;
图12为本申请实施例提供的候选可信点切换效果对比图;
图13为本申请实施例提供的修正操作后候选可信点位置变换示意图;
图14为本申请实施例提供的样本类别标签的修正装置的结构示意图;
图15为本申请实施例提供的电子设备的结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
相关技术中,在进行机器学习时,需要大量的样本数据,通常样本数据对应类别标签,应用带有类别标签的样本数据进行机器学习的训练时,可以提取样本数据的特征,有助于预测数据的特征。但是随着数据爆炸式增长,样本数据的类别标签的准确度很难保证,因此基于带有错误标签的样本数据进行机器学习时,严重影响了机器学习的效果,使得提取的特征准确度低,不利于数据的分析,基于此,本公开提供一种样本类别标签的修正方法,以提高标注数据类别标签的准确性。
为便于理解,这里先对本公开涉及的一些关键词进行说明,需要说明的是,这里关键词的定义仅是用于举例说明其可能包含的含义,并不用于限定本公开实施例,涉及的关键词可包括:
标注数据,带有类别标签的样本数据,例如训练神经网络模型用于识别不同的动物,那么训练时需要采集动物的图像作为样本数据,为了训练神经网络模型,需要为每个样本数据标注标签,例如:狗的图片类别标签为狗,长颈鹿图片的类别标签为长颈鹿。
如前所述,机器学习时需要大量的样本数据,样本数据的类别标签可以是人工标注的,也可以是预先训练好的网络模型自动标注的。无论类别标签是如何标注的,均可能出现标注错误的问题。
有鉴于此,本公开提出了能够修正类别标签的方案。在本公开中,提供了可视化的交互操作系统,用户可基于该系统查看各类标注数据的聚类分布,该聚类分布保留了各类标注数据的局部结构特性,用户能够直观的了解各类标注数据是否能够显著的区分开来,且能够直观地了解到哪些数据存在混叠交叉,或游离等情况。通过直观地观察聚类分布,用户能够直观地了解到哪些区域的数据可能存在标注错误。然后从中查找可能会标注错误的数据,并查看该数据的原始数据及其对应的类别标签,从而了解该数据是否存在事实上的标注错误。当用户确定存在标注错误时,可以基于提供的交互控件手动更正类别标签。然后,用户可以将确认正确的标注数据传播到整个样本数据集,实现对整个样本数据集的类别标签的纠正。为便于简述,后文将标注正确的数据简称为可信数据。
为了能够不断的提升类别标签的准确性,用户可多次设置可信数据集,每设置一次可信数据集均可对应完成一轮类别标签的修正。通过多轮的修正,可实现逐步提升类别标签的准确性。经过实验确认,本申请能够有效的将标注数据进行可视化,将晦涩难以解读的标注数据解读成可便于用户直观地观察的数据进行展示,进而将机器难以学到的人的经验结合进来,再结合有效的修正方法,来提升类别标签的准确性。
下面,为便于理解本公开提供的方案,结合附图对此进行说明。
首先结合如图1所示交互界面,对本公开提供的类别标签的修正方法进行说明。图1的界面中主要包括控制视图1-a、实例视图1-b、候选可信点视图1-c、可信点视图1-d以及历史操作记录视图1-e。其中:
1、控制视图:
提供一些可交互操作的控件,便于实现人机交互。可包括如下控件:
1)、数据加载控件(Load),用于加载标注数据和/或可信数据。
2)、数据导出控件(Export),用于导出标注数据。
3)、候选可信点更细粒度展示控件(Zoom in),可用于控制前述控制视图的展示粒度。
4)、图片/点切换控件(Show image/Show dot),用于切换实例视图的显示效果。
5)、设置标签控件(Set label),供用户设置候选可信点的类别标签。
6)、添加可信数据集控件(Add trusted items),用于将当前所有候选可信点数据集添加至可信点数据集中。
7)、确认控件(Confirms),用于确认对类别标签的修改并重新构建层次结构图。
8)、运行控件(Run Duti),用于传播运行算法达到修正类别标签的目的。
9)、可信点数据集推荐控件(NO.trusted items),设置推荐的可信点数量。
2、实例视图:
也即前述的聚类图,用于将标注数据进行可视化。实施时不同类的标注数据可采用不同颜色展示、而同一类的标注数据采用相同颜色展示。图中的点为标注数据的投射点,每个点对应一个标注数据。由于标注数据量大,在可视化处理时采用降维的方法构建层次结构图将标注数据分层次展示,具体的实现方法将在后文说明,这里暂不赘述。
3、候选可信点视图:
用户在控制视图设定的推荐的可信点数量并不是用来修正的可信点数量,而需要系统从当前选择的候选数据点中(若没有选择候选可信点,则从实例视图当前显示的投射点中)选择与推荐的可信点数量相一致的投射点作为候选可信点,并显示在候选可信点视图中。本公开中可以根据用户设定的数量从实例视图的投射点中进行选择,并将候选可信点展示在候选可信点视图当中。用户可基于候选可信点视图查看各个候选可信点的类别标签是否正确,并对不正确的类别标签进行更正。用户通过候选可信点视图将类别标签更正后,候选可信点成为可信数据,用户可将可信数据添加到可信数据集中并在可信点视图中进行展示。
4、可信点视图:
如前所述,用于展示可信数据,展示的效果可和候选可信点视图相同,以此保持整个视图统一的展示风格,便于用户查看各可信数据。
5、历史记录视图:
记录运行算法传播以及确认修正后的标注数据的类别标签来重新构建层次结构图,且可供用户查看历史的操作记录信息。
综上而言,在大概介绍各部分视图之后,为便于进一步详细理解本公开提供的方案,下面对各视图的实现以及如何进行类别标签修正做进一步详细说明。可包括以下几部分的内容:
1、实例视图如图1-b区域所示的内容:
实例视图1-b中包括各种类别标签,为了形象展示,图中用不同填充样式的矩形框标识不同的类别标签。当然,实施时不同的类别标签可通过不同的渲染颜色进行区分,如:深蓝色表示连衣裙(dress)的类别标签、浅蓝色表示衬衣(shirt)的类别标签、橘黄色表示马甲(vest)的类别标签、红色表示短袖汗衫(T-shirt)的类别标签等,在此不一一说明。
基于实例视图,本公开的方法可实施为以下步骤,如图2所示:
步骤S201:响应于候选可信点选择操作指示,对实例视图中的投射点进行选择,并展示各候选可信点以及对应的类别标签。
实施时,实例视图中还包括由标注数据构造的密度分布图,可基于标注数据的密度分布选择候选可信点。
步骤S202:响应于用户操作对用户选中的候选可信点的类别标签进行更正得到可信数据集。
步骤S203:基于可信数据集和各类标注数据,修正标注数据的类别标签。
其中,标注数据的修正可利用双重优化标注数据的修正方法实现。
步骤S204:依据修正后的类别标签对应的渲染效果,在实例视图中渲染各类标注数据的投射点。
为了实现标注数据可视化,在对标注数据进行降维时,首先通过对标注数据进行特征提取得到特征数据,然后对所述特征数据进行逐级递减采样,按照采样层级对应得到的多个层级的特征数据,将每相邻层级特征数据按照上下级关系进行级联,构建层次结构图。
本公开中,当投射点具有层级时,用户可通过查看不同层级的投射点来观察标注数据的聚类分布。故此,在本公开提供的实施例中,可在实例视图中显示所有层级的层级标识;并,响应于用户通过层级标识触发的切换层级操作,切换实例视图中投射点的层级。例如图1中的level 1和level 0均是层级标识,level 1是一个层级,level 0是另一个层级,每个层级包括的投射点不同,用户可通过点击层级标识在不同层级间进行切换以便于查看粗粒度和更细粒度的投射点。
可选的,在本公开中,层级越高时,其对应的投射点越少,也即采用更少的投射点来展示标注数据的特性。例如,图1中level 0的层级高于level 1的层级。level 1层级的投射点为相对于level 0的更细粒度展示。
为便于用户在同一层级的局部区域选择候选可信点,本公开中,可基于人机交互实现,可包括以下步骤,如图3所示:
步骤2011:响应于在实例视图中选择候选区域的选择操作指令,标识选择的候选区域。
例如,图5所示,用户可以在实例视图中绘制一个封闭的图形(如图5中的沿黑色实线选出的区域),其中,用户绘制黑色实线图形的操作可视为选择操作指令,而显示出的黑色实线可等同于标识出了选择的候选区域。
步骤2012:确定接收到更细粒度的展示操作指令后,确定候选区域内包含投射点的下一层级的级联的投射点,并在实例视图中渲染。
需要说明的是,展示操作指令可以是通过触发控制视图中的“Zoom in”控件触发的,其中,在构建层次结构图时层级越高投射点数量越少,故此,展示下一层级的投射点相当于实现了更细粒度的展示。
综上所述,该方式通过按层级显示投射点,可根据用户选择确定从哪些区域选择投射点。
为了便于用户通过实例视图观察标注数据,本公开中,可响应于用户对实例视图中的投射点的选择操作,在所述实例视图的指定区域中展现选取的投射点对应的标注数据的图像。例如,当用户将焦点移动至感兴趣的投射点时,可在实例视图的右下角显示标注数据的图片信息(如图1中的1-b所示),可选的,该图片信息中可包括:图片地址信息(ID)、以及类别标签信息(Lable),图示内容显示标注数据的ID为11575,Lable为shirt(衬衫)。
此外,为了便于用户了解标注数据的更多信息,本公开中,定义两种展示效果,其中第一效果为展示候选可信点对应的标注数据的缩略图,第二效果为展示候选可信点的空心指定图形。基于这两种效果,在交互时可响应于用户切换操作,切换候选可信点在实例视图中的展示效果,依次实现在第一效果和第二效果之间切换。如图4所示,空心指定图形可用空心圆圈标识。
可选的,为了便于查看类别标签的修正效果,本公开中可基于用户操作显示修正前后的区域对比图,其中,区域对比图可响应用户操作指令进行缩放。例如,修正数据后,用户可以通过相应的控件触发显示修正前后的修正区域对比图,如图5所示,区域1即Region1展示效果图,其中Previous distributon为修正前投射点图,Current distributon为修正后投射点图。此外,用户可通过相应的控件根据需求对对比图进行缩放操作,当然,实施时还可通过点击相应控件,亦或者通过手势控制对比图的缩放,在此对具体实现方式不做限定。
在选择类别标签后,用户可通过执行确定操作来使系统完成将相同类别的投射点向其类别中心汇聚的操作。在实施时可由用户选择哪些投射点能够更好的向类别中心汇聚。交互时可实施为响应于用户操作,确定用户选择的投射点,然后响应于用户触发的确认操作,并依据修正类别标签的标注数据,重新进行降维生成投射点,然后,依据重新降维得到的投射点,在实例视图中渲染各类标注数据的投射点。在重新降维过程中,为了实现相应的投射点向聚类中心汇集,在每次迭代时依据如下方法确定引力:对用户选择的投射点采用该投射点的同类别标签的标注数据确定该投射点所受引力;而对用户选择的投射点之外的投射点,采用所有标注数据确定该投射点的引力。如公式(1)所示,其中,为引力。
其中,公式(1)中y(t)指的是第t次迭代的二维坐标(即输出),C是代价函数,等式右边第一项为y(t-1)指的是第t-1次迭代的二维坐标(即输出)第二项是代价函数的梯度,第三项是用输出y(t)的相邻两次迭代的差值用来表示输出的变化速度,α(t)是第t次迭代的衰减系数。
2、候选可信点视图:
为了便于用户观察候选可信点,并更正类别标签。本公开可响应于用户在候选可信点视图中的候选可信点管理操作,对相应的候选可信点执行相应的操作。其中,管理操作包括以下中的至少一种:清除所有候选可信点、删除选中候选可信点、删除未选中候选可信点。上述管理操作可通过控件来实现,如图6所示,该候选可信点视图中可包括:删除选中候选可信点控件(Delete)、删除未选中候选可信点控件(inverse delete)、清除所有候选可信点控件(Clear)、添加可信数据集控件(Add trusted items)以及设置标签控件(Setlabel)和选取数据集控件(Selected items)中的至少一种。候选可信点视图中的控件是为了便于用户对候选可信点视图中的候选可信点进行操作而设置的。
为便于用户查看各类候选可信点,在候选可信点视图中可依据实例视图中类别标签对应的渲染效果,在候选可信点视图中展示各类别标签及对应的候选可信点的图像。如图6所示,填充有斜纹的矩形框表示类别标签,当用户点击类别标签时,候选可信点视图中显示该类包含的所有候选可信点的图像。当用户切换到另一类别标签的矩形框时,候选可信点视图中渲染相应类别的候选可信点的图像。这样,便于用户根据类别标签对候选可信点进行相应操作。
可选的,对实例视图的投射点进行选择之后,并在响应于用户操作对用户选中的候选可信点的类别标签进行更正得到可信数据集之前,还可进一步筛选候选可信点,可实施为从候选可信点集中选择指定数量的候选可信点;其中,指定数量为根据用户设置确定的数量。
需要说明的是,候选可信点集的生成可以是用户手动选择的投射点,也可以是系统自动推荐的点。当候选可信点集中的点全部设置为可信点时,候选可信点集可自动清空。
此外,若候选可信点集有预设数量的候选可信点,用户可以设置指定数量,并从候选可信点集中选择部分或全部候选可信点。如:候选可信点集中有25个候选可信点,用户设置的指定数量为10,则从25个候选可信点中选择10个候选可信点;若候选可信点集中有10个候选可信点,用户设置的指定数量为25个,则仅选择候选可信点集中的10个候选可信点,当然,也可以在实例视图的投射点中选择15个投射点补入候选可信点。该候选可信点的选择方式具有层次性,在进行样本类别标签修正时,可以通过多次的迭代来优化样本类别标签。
在一个可选的实施例中,在更正候选可信点的类别标签后,可将满足要求的候选可信点添加到可信数据集,如可响应于针对候选可信点视图中更正后的候选可信点的选中操作,确定选中的候选可信点,然后响应于将选中的候选可信点添加可信数据集中的用户操作,依据实例视图中类别标签对应的渲染效果,在可信点视图中展示各类别标签及对应的可信点的图像。如图7所示,候选可信点A周围的标注数据的类别标签均是正确的,若将候选可信点A设置为可信点进行传播,则其周围的数据点的类别标签可能会被改错,由此会影响修正效果,因此将符合该特征的候选可信点剔除,也即,用户可不选择这样的候选可信点作为可信数据。
可选的,为了便于用户了解到各类别候选可信点的数量,本公开中在候选可信点视图和/或可信点视图中,类别标签的渲染效果可包括不同类别标签分布,并采用不同颜色的指定几何图形进行展示,且指定几何图形的大小与相应类别标签的候选可信点的数量正相关。如图6所示,不同填充效果的矩形框的长度不同,其中,矩形框越长表示相应类别的候选可信点数量越多。如:候选区域中带有dress(连衣裙)类别标签的标注数据在候选区域所占比例为60%,候选区域中带有vest(背心)类别标签的标注数据在采样区域所占比例为10%,则dress类别标签的长度相对较长,而vest类别标签的长度相对较短。
可选的,在更改类别标签时,可响应于对展示的候选可信点的用户选择操作,对选择的候选可信点渲染选中标识(如图6所示的第二排最后一张图片中所展示的选中图片会出现带阴影圈圈的标识);然后,响应于用户对类别标签的选择操作,将选择的候选可信点的类别标签更正为用户选择的类别标签。如在用户点击set label控件后,可弹出如图8所示的标签列表供用户选择标签,图中包括8个类别标签,分别为标签1、标签2、标签3、标签4、标签5、标签6、标签7以及标签8,图中示意标签6被选中。
此外,除了如图8所示的标签列表可供用户手动修改类别标签外,用户也可以自定义类别标签。例如,可在候选可信点视图中设置供用户自定义类别标签的输入框供用户键入自定义的类别标签。
可选的,候选可信点视图所占的显示区域有限,若候选可信点数量较多,可分批次展示候选可信点的图片。例如若每批次的展示数量为15,而在采样时选取了200个候选可信点,则候选可信点视图的显示区域可仅显示15张图片,然后用户可通过相应的用户查看更多候选可信点的控件或指定的触屏操作来实现换一批次的候选可信点的查看,以便于完成对所有候选可信点的浏览。
3、历史记录视图:
为了便于用户了解类别标签的修正历史,以及修改的相关信息,本公开中可提供历史操作记录以便于用户操作。可实施为生成并展示按时序排列的历史操作记录,其中,历史操作记录对应有操控节点,响应于用户对操控节点的选择操作,将对标注数据的处理从当前状态回滚/或前滚到选择的操控节点对应的历史状态,并展示在实例视图以及可信点视图中。其中,历史操作记录中包括以下信息中的至少一种:可信数据集以及类标被修改数据集的组合、所述用户触发的确认操作;其中,可信数据集采用按类别标签统计的分布直方图进行展示,类标被修改数据集采用类别标签被修改的标注数据按类别标签统计的分布直方图进行展示。需要说明的是,类标被修改数据集为上一次迭代中类别标签被修改的数据点,并非所有的数据点。当然,具体实施时,哪些信息作为历史操作记录可根据用户需求设定,本公开对此不作限定。
如图9所示在该区域视图中,包括两种不同类型的直方图,分别为可信点数据集分布以及类标被修改数据集对应的分布,用户每次修正操作可通过直方图展示可信点数据集分布以及类标被修改数据集的分布,区别在于在可信点数据集分布前通过T进行标记,在类标被修改数据集的分布通过C进行标记,此外,该历史记录视图中还包括用户点击确认控件(Confirms)的记录操作。
下面结合面所述的视图内容对如何进行类别标签修正做进一步详细说明:
用户可先点击图1所示交互界面中的Load控件加载数据,其中,加载界面的界面图如图10所示。通过在图10所示界面中的标注数据的加载控件(如图10中的Select files 1控件)来加载标注数据,通过在图10所示界面中的可信数据的加载控件(如图10中的Selectfiles 2控件)来加载可信数据。此外还要说明的是,no Select files 1提醒用户没有选择对应的标注数据文件上传,以及no Select files 2是用于提醒没有选择对应的可信数据文件上传。
此外,用于数据可视化的降维处理的相关信息也可在该界面中设置,可设置项中包括以下中的至少一项:降维顶层投射点总数量(Sampling)用于设定顶层的投射点的总数量、降维的迭代次数(Iterations)用于设定降维的迭代次数、降维所需的混淆度(Perplexity)等。可默认设置Sampling为10000,Iterations为1000,Perplexity为30,可通过图中的滑块调整各参数。
在加载完标注数据后,在实例视图中会显示出最顶层的投射点。本公开仅以二维平面的投射点为例进行说明,但在实际应用时,并不限制于二维平面投射点的形式。
其中,通过图1所示实例视图中可以直观的看到投射点的存在交叠区域、混合区域以及游离区域。用户在设置候选区域时可参照投射点的聚类分布特点进行选择,如候选区域可设置在交叠区域和/或游离区域。
在设置候选区域时用户可如图11所示,在图11中,11-a表示圈出一定区域作为候选区域,然后用户可点击Zoom in控件,从当前的层级level0切换到level 1实现更细粒度展示,如图11中的11-b为更细粒度展示的示意图。当然,用户也可通过如图11中的11-c所示的手势控制来更细粒度的展示候选区域。用户可观察候选区域的更细粒度展示,并可根据观察结果设置候选可信点的数量,最后系统会自动进行采样,并在候选可信点视图中展示候选可信点。
为便于观察采样结果,用户可点击Show image控件在实例视图中显示候选可信点的标注数据以及标注数据的缩略图,如图12中的12-a所示。此外,控件显示的是“Showimage”还是“Show dot”是取决于当前选中的投射点的展示状态,如果当前选中的点都是“image”的展现状态,则控制视图中的控件显示为“Show dot”,点击“Show dot”控件即可将这些投射点转化为“dot”;如果当前选中的点中存在“dot”状态的点,则控制视图中的控件显示为“Show image”,点击Show image”控件即将选中的点都变成“image”状态。故此用户也可通过点击Show dot控件以使候选可信点以空心圆圈形显示出来,以便于用户了解候选可信点在候选区域的分布,其效果如图12中的12-b所示。当然,若用户觉得部分选择的候选可信点不能满足要求,用户可手动在实例视图中选择候选可信点并添加到候选可信点视图中。
在候选可信点视图中,用户可更改候选可信点的标注数据的类别标签,然后将具有正确类别标签的候选可信点加入可信点数据集中。当然也可以选择部分候选可信点加入到可信数据集。可信数据集的数据将在可信点视图中展示。用户可通过可信点视图对可信数据进行确认。当确认无误后,用户可通过点击Run Duti控件触发对类别标签的修正。在修改结束后,可在历史记录视图中展示候选可信点的统计直方图,以及被修正类别标签的标注数据的直方图,这两个直方图可均以类别标签为基准,统计相应类别标签包含的数据量。
当然,在完成一轮修正后,用户可以重新在实例视图中选择候选可信点,以便于完成下一轮的修正。每完成一轮修正后,历史操作记录视图中均会按时序排布各操控节点。如图9所示,用户可通过点击相应节点查看该节点的操作结果。
当完成一轮修正后,被修改类别标签的投射点的颜色会展示为修正后的类别标签对应的颜色。为了进一步使得相应标注数据向其类别中心靠近,用户可通过点击Confirms来完成投射点位置的改变,如图13所示。图13中的13-a所示为位置改变前的示意图,图13中的13-b为位置改变后的示意图,由这两张图可知,游离区域的投射点发生了明显变化,且投射点向各自的聚类中心移动。
本公开实施例提供一种样本类别标签的修正装置如图14所示,包括:展示单元140、更正单元141、修正单元142以及渲染单元143。
需要说明的是,展示单元140,被配置为响应于采样操作指示,对实例视图中的投射点进行采样,并展示各候选可信点以及对应的类别标签;其中,所述实例视图用于将标注数据的聚类分布进行可视化展示;所述投射点为各类标注数据在二维平面或三维空间的投射点,且,所述投射点保留有各类标注数据的局部结构,在所述实例视图中不同类别标签的投射点的渲染效果不同,同一类投射点的渲染效果相同。
更正单元141,被配置为响应于用户操作对用户选中的候选可信点的类别标签进行更正得到可信数据集;修正单元142,被配置为基于所述可信数据集和各类标注数据,修正所述标注数据的类别标签;渲染单元143,被配置为依据修正后的类别标签对应的渲染效果,在所述实例视图中渲染各类标注数据的投射点。
可选的,所述投射点依照层次结构图划分为多个层级,则更正单元响应于候选可信点选择操作指示,对实例视图的投射点进行选择之前,还包括:降维单元被配置为对所述标注数据进行特征提取得到特征数据;对所述特征数据进行逐级递减采样,按照采样层级对应得到的多个层级的特征数据,并将每相邻层级特征数据按照上下级关系进行级联,构建层次结构图。
可选的,还包括:候选区域选择单元被配置为:响应于在所述实例视图中候选区域的选择操作指令,标识选择的候选区域;确定接收到更细粒度的展示操作指令后,确定候选区域内包含投射点的下一层级的级联的投射点,并在所述实例视图中渲染。
可选的,所述展示单元对实例视图的投射点进行选择之后,并在响应于用户操作对用户选中的候选可信点的类别标签进行更正得到可信数据集之前,被配置为:从候选可信点集中选择指定数量的候选可信点,其中,所述指定数量为根据用户设置确定的数量。
可选的,所述更正单元包括:响应于对展示的候选可信点的用户选择操作,对选择的候选可信点渲染选中标识;响应于用户对类别标签的选择操作,将选择的候选可信点的类别标签更正为用户选择的类别标签。
可选的,所述渲染单元依据修正后的类别标签对应的渲染效果,在所述实例视图中渲染各类标注数据的投射点之后还包括:投射点选择单元被配置为响应于用户操作,确定用户选择的投射点;响应于用户触发的确认操作,依据修正类别标签的标注数据,重新进行降维生成所述投射点,且在降维过程中,每次迭代时依据如下方法确定引力:对用户选择的投射点采用该投射点的同类别标签的标注数据确定该投射点所受的引力;对用户选择的投射点之外的投射点,采用所有标注数据确定该投射点的引力;依据重新降维得到的投射点,在实例视图中渲染各类标注数据的投射点。
可选的,所述装置还包括:历史操作记录单元被配置为生成并展示按时序排列的历史操作记录,其中,所述历史操作记录对应有操控节点,所述历史操作记录中包括以下信息中的至少一种:可信数据集以及类标被修改数据集的组合、用户触发的确认操作;其中,可信数据集采用按类别标签统计的分布直方图进行展示,类标被修改数据集采用类别标签被修改的标注数据按类别标签统计的分布直方图进行展示;响应于用户对所述操控节点的选择操作,将对标注数据的处理从当前状态回滚/或前滚到选择的控制节点对应的历史状态,并展示在所述实例视图以及可信点视图中,其中,所述可信点视图用于展示可信数据集中的数据。
可选的,所述渲染单元依据类别标签对应的渲染效果,在实例视图中渲染各类标注数据的投射点之前,还包括:加载单元被配置为响应于加载标注数据的加载操作,展示加载界面,其中,所述加载界面中包括以下可设置项中的至少一项:标注数据的加载控件、可信标注数据的加载控件、降维顶层投射点总数量、降维的迭代次数、降维所需的混淆度;响应于用户针对加载界面的操作,执行相应的操作。
可选的,所述装置还包括:放大单元被配置为响应于用户对所述实例视图中的投射点的选择操作,在所述实例视图的指定区域中展现选取的投射点对应的标注数据的信息,其中,所述标注数据的信息包括标注数据的图像。
可选的,展示单元展示各候选可信点以及对应的类别标签被配置为依据所述实例视图中类别标签对应的渲染效果,在候选可信点视图中展示各候选可信点的图像以及与所述各候选可信点对应的类别标签。
可选的,所述装置还包括:候选可信点管理单元被配置为响应于用户在候选可信点视图中的候选可信点管理操作,对相应的候选可信点执行相应的操作,其中,候选可信点管理操作包括以下中的至少一种:清除所有候选可信点、删除选中候选可信点、删除未选中候选可信点。
可选的,更正单元得到可信数据集,被配置为响应于针对候选可信点视图中更正后的候选可信点的选中操作,确定选中的候选可信点;响应于将选中的候选可信点添加可信数据集中的用户操作,依据实例视图中类别标签对应的渲染效果,在可信点视图中展示可信点图像及其对应的类别标签。
可选的,在候选可信点视图和/或可信点视图中,所述渲染效果包括不同类别标签分布。
可选的,渲染单元依据修正后的类别标签对应的渲染效果,在所述实例视图中渲染各类标注数据的投射点之后,还包括:对比图显示单元被配置为基于用户操作显示修正前后的区域对比图,其中,所述区域对比图可响应于用户操作指令进行缩放。
可选的,所述候选区域选择单元在实例视图中渲染之后,被配置为:显示所有层级的层级标识;响应于用户通过层级标识触发的切换层级操作,切换实例视图中投射点的层级。
可选的,展示单元响应于候选可信点选择操作指示,对实例视图中的投射点进行采样之后,还包括:候选可信点效果切换单元被配置为响应于用户切换操作,切换候选可信点在实例视图中的展示效果,其中展示效果在第一效果和第二效果之间切换,第一效果为展示候选可信点对应的标注数据的缩略图,第二效果为展示候选可信点的空心指定图形。
可选的,所述实例视图中还包括标注数据构造的密度分布图。
在介绍了本申请示例性实施方式中的样本类别标签的修正方法和装置之后,接下来,介绍本申请的另一示例性实施方式的电子设备。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本申请的电子设备可以至少包括至少一个处理器、以及至少一个存储器。其中,存储器存储有程序代码,当程序代码被处理器执行时,使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的样本类别标签的修正方法中的步骤。例如,处理器可以执行如图2所示的步骤201-步骤204。
下面参照图15述根据本申请的这种实施方式的电子设备150。图9显示的电子设备150仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图15所示,电子设备150以通用计算装置的形式表现。电子设备150的组件可以包括但不限于:上述至少一个处理器151、上述至少一个存储器152、连接不同系统组件(包括存储器152和处理器151)的总线153。
总线153表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储器152可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1521和/或高速缓存存储器1522,还可以进一步包括只读存储器(ROM)1523。
存储器152还可以包括具有一组(至少一个)程序模块1524的程序/实用工具1525,这样的程序模块1524包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
电子设备150也可以与一个或多个外部设备154(例如键盘、指向设备等)通信,还可与一个或者多个使得目标对象能与电子设备150交互的设备通信,和/或与使得所述电子设备150能与一个或多个其它计算装置进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(I/O)接口155进行。并且,计算装置150还可以通过网络适配器156与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器156通过总线153与用于电子设备150的其它模块通信。应当理解,尽管图中未示出,可以结合电子设备150使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在一些可能的实施方式中,本申请提供的数据处理方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的样本类别标签的修正方法中的步骤,例如,计算机设备可以执行如图2中所示的步骤201-步骤204。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的用于图像处理的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算装置上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,所述程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,所述可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在目标对象计算装置上执行、部分地在目标对象设备上执行、作为一个独立的软件包执行、部分在目标对象计算装置上部分在远程计算装置上执行、或者完全在远程计算装置或服务器上执行。在涉及远程计算装置的情形中,远程计算装置可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到目标对象电子设备,或者,可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照所述特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在所述计算机可读存储器中的指令产生包括指令装置的制造品,所述指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种样本类别标签的修正方法,其特征在于,包括:
响应于候选可信点选择操作指示,对实例视图中的投射点进行选择,并展示各候选可信点以及对应的类别标签;其中,所述实例视图用于将标注数据的聚类分布进行可视化展示;所述投射点为各类标注数据在二维平面或三维空间的投射点,且,所述投射点保留有各类标注数据的局部结构,在所述实例视图中不同类别标签的投射点的渲染效果不同,同一类投射点的渲染效果相同;
响应于用户操作对用户选中的候选可信点的类别标签进行更正得到可信数据集;
基于所述可信数据集和所述各类标注数据,修正所述标注数据的类别标签;
依据修正后的类别标签对应的渲染效果,在所述实例视图中渲染各类标注数据的投射点。
2.根据权利要求1所述的方法,其特征在于,所述投射点依照层次结构图划分为多个层级,则所述响应于候选可信点选择操作指示,对实例视图的投射点进行选择之前,所述方法还包括:
对所述标注数据进行特征提取得到特征数据;
对所述特征数据进行逐级递减采样,按照采样层级对应得到的多个层级的特征数据,将每相邻层级特征数据按照上下级关系进行级联,构建层次结构图。
3.根据权利要求2所述的方法,其特征在于,还包括:
响应于在所述实例视图中候选区域的选择操作指令,标识选择的候选区域;
确定接收到更细粒度的展示操作指令后,确定候选区域内包含投射点的下一层级的级联的投射点,并在所述实例视图中渲染。
4.根据权利要求1所述的方法,其特征在于,所述对实例视图中的投射点进行选择之后,并在所述响应于用户操作对用户选中的候选可信点的类别标签进行更正得到可信数据集之前,还包括:
从候选可信点集中选择指定数量的候选可信点,其中,所述指定数量为根据用户设置确定的数量。
5.根据权利要求1所述的方法,其特征在于,所述响应于用户操作对用户选中的候选可信点的类别标签进行更正得到可信数据集,包括:
响应于对展示的候选可信点的用户选择操作,对选择的候选可信点渲染选中标识;
响应于用户对类别标签的选择操作,将选择的候选可信点的类别标签更正为用户选择的类别标签。
6.根据权利要求1-5中任一所述的方法,其特征在于,所述依据修正后的类别标签对应的渲染效果,在所述实例视图中渲染各类标注数据的投射点之后,所述方法还包括:
响应于用户操作,确定用户选择的投射点;
响应于用户触发的确认操作,依据修正类别标签的标注数据,重新进行降维生成所述投射点,且在降维过程中,每次迭代时依据如下方法确定引力:
对用户选择的投射点采用该投射点的同类别标签的标注数据确定该投射点所受的引力;对用户选择的投射点之外的投射点,采用所有标注数据确定该投射点的引力;
依据重新降维得到的投射点,在实例视图中渲染各类标注数据的投射点。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
生成并展示按时序排列的历史操作记录,其中,所述历史操作记录对应有操控节点,所述历史操作记录中包括以下信息中的至少一种:可信数据集以及类标被修改数据集的组合、用户触发的确认操作;其中,可信数据集采用按类别标签统计的分布直方图进行展示,类标被修改数据集采用类别标签被修改的标注数据按类别标签统计的分布直方图进行展示;
响应于用户对所述操控节点的选择操作,将对标注数据的处理从当前状态回滚/或前滚到选择的操控节点对应的历史状态,并展示在所述实例视图以及可信点视图中,其中,所述可信点视图用于展示可信数据集中的数据。
8.一种样本类别标签的修正装置,其特征在于,包括:
展示单元,被配置为响应于候选可信点选择操作指示,对实例视图中的投射点进行选择,并展示各候选可信点选择以及对应的类别标签;其中,所述实例视图用于将标注数据的聚类分布进行可视化展示;所述投射点为各类标注数据在二维平面或三维空间的投射点,且,所述投射点保留有各类标注数据的局部结构,在所述实例视图中不同类别标签的投射点的渲染效果不同,同一类投射点的渲染效果相同;
更正单元,被配置为响应于用户操作对预先选中的候选可信点选择的类别标签进行更正得到可信数据集;
修正单元,被配置为基于所述可信数据集和各类标注数据,修正所述标注数据的类别标签;
渲染单元,被配置为依据修正后的类别标签对应的渲染效果,在所述实例视图中渲染各类标注数据的投射点。
9.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-7中任一权利要求所述的方法。
10.一种计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于执行如权利要求1-7中任一权利要求所述的方法。
CN201910703812.5A 2019-07-31 2019-07-31 样本类别标签的修正方法、装置以及电子设备 Active CN110428003B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910703812.5A CN110428003B (zh) 2019-07-31 2019-07-31 样本类别标签的修正方法、装置以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910703812.5A CN110428003B (zh) 2019-07-31 2019-07-31 样本类别标签的修正方法、装置以及电子设备

Publications (2)

Publication Number Publication Date
CN110428003A true CN110428003A (zh) 2019-11-08
CN110428003B CN110428003B (zh) 2022-04-22

Family

ID=68413526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910703812.5A Active CN110428003B (zh) 2019-07-31 2019-07-31 样本类别标签的修正方法、装置以及电子设备

Country Status (1)

Country Link
CN (1) CN110428003B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046927A (zh) * 2019-11-26 2020-04-21 北京达佳互联信息技术有限公司 标注数据的处理方法、装置、电子设备及存储介质
CN111407269A (zh) * 2020-03-30 2020-07-14 华南理工大学 一种基于增强学习的eeg信号情感识别方法
CN111950618A (zh) * 2020-08-05 2020-11-17 中国建设银行股份有限公司 水域图像数据标注方法、装置、设备和存储介质
CN114092709A (zh) * 2021-11-23 2022-02-25 北京百度网讯科技有限公司 一种识别图像中目标轮廓的方法、装置、设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104392253A (zh) * 2014-12-12 2015-03-04 南京大学 一种草图数据集的交互式类别标注方法
CN107451597A (zh) * 2016-06-01 2017-12-08 腾讯科技(深圳)有限公司 一种样本类别标签纠正方法及装置
CN107492135A (zh) * 2017-08-21 2017-12-19 维沃移动通信有限公司 一种图像分割标注方法、装置及计算机可读存储介质
US20180114098A1 (en) * 2016-10-24 2018-04-26 International Business Machines Corporation Edge-based adaptive machine learning for object recognition
CN108062394A (zh) * 2017-12-18 2018-05-22 北京中关村科金技术有限公司 一种数据集的标注方法及相关装置
CN108875768A (zh) * 2018-01-23 2018-11-23 北京迈格威科技有限公司 数据标注方法、装置和系统及存储介质
CN109086798A (zh) * 2018-07-03 2018-12-25 迈吉客科技(北京)有限公司 一种数据标注方法和标注装置
WO2019043381A1 (en) * 2017-08-29 2019-03-07 Factmata Limited CONTENT RATING
CN109934266A (zh) * 2019-02-19 2019-06-25 清华大学 提高众包标注数据质量的可视分析系统及方法
CN110047078A (zh) * 2019-04-18 2019-07-23 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104392253A (zh) * 2014-12-12 2015-03-04 南京大学 一种草图数据集的交互式类别标注方法
CN107451597A (zh) * 2016-06-01 2017-12-08 腾讯科技(深圳)有限公司 一种样本类别标签纠正方法及装置
US20180114098A1 (en) * 2016-10-24 2018-04-26 International Business Machines Corporation Edge-based adaptive machine learning for object recognition
CN107492135A (zh) * 2017-08-21 2017-12-19 维沃移动通信有限公司 一种图像分割标注方法、装置及计算机可读存储介质
WO2019043381A1 (en) * 2017-08-29 2019-03-07 Factmata Limited CONTENT RATING
CN108062394A (zh) * 2017-12-18 2018-05-22 北京中关村科金技术有限公司 一种数据集的标注方法及相关装置
CN108875768A (zh) * 2018-01-23 2018-11-23 北京迈格威科技有限公司 数据标注方法、装置和系统及存储介质
CN109086798A (zh) * 2018-07-03 2018-12-25 迈吉客科技(北京)有限公司 一种数据标注方法和标注装置
CN109934266A (zh) * 2019-02-19 2019-06-25 清华大学 提高众包标注数据质量的可视分析系统及方法
CN110047078A (zh) * 2019-04-18 2019-07-23 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
J. BERNARD 等: "Comparing visual-interactive labeling with active learning: An experimental study", 《 IEEE TRANSACTIONS ON VISUALIZATION AND COMPUTER GRAPHICS》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046927A (zh) * 2019-11-26 2020-04-21 北京达佳互联信息技术有限公司 标注数据的处理方法、装置、电子设备及存储介质
CN111046927B (zh) * 2019-11-26 2023-05-30 北京达佳互联信息技术有限公司 标注数据的处理方法、装置、电子设备及存储介质
CN111407269A (zh) * 2020-03-30 2020-07-14 华南理工大学 一种基于增强学习的eeg信号情感识别方法
CN111950618A (zh) * 2020-08-05 2020-11-17 中国建设银行股份有限公司 水域图像数据标注方法、装置、设备和存储介质
CN114092709A (zh) * 2021-11-23 2022-02-25 北京百度网讯科技有限公司 一种识别图像中目标轮廓的方法、装置、设备及存储介质
CN114092709B (zh) * 2021-11-23 2023-10-31 北京百度网讯科技有限公司 一种识别图像中目标轮廓的方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110428003B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN110428003A (zh) 样本类别标签的修正方法、装置以及电子设备
US10719301B1 (en) Development environment for machine learning media models
US20230202513A1 (en) Systems and Methods for Graph-Based AI Training
US20150242761A1 (en) Interactive visualization of machine-learning performance
Yang et al. Visual hierarchical dimension reduction for exploration of high dimensional datasets
Li et al. Guided attention inference network
US9002100B2 (en) Model uncertainty visualization for active learning
US11537506B1 (en) System for visually diagnosing machine learning models
CN110348462A (zh) 一种图像特征确定、视觉问答方法、装置、设备及介质
Rufiange et al. Treematrix: A hybrid visualization of compound graphs
US20160292578A1 (en) Predictive modeling of data clusters
Zhang et al. Sequential optimization for efficient high-quality object proposal generation
US10685062B2 (en) Relational database management
CN106507686A (zh) 设计不同技术领域的复杂信息物理系统的具有其各种软件工件的软件架构的方法和工具
Jang et al. Motionflow: Visual abstraction and aggregation of sequential patterns in human motion tracking data
Jaunet et al. Visqa: X-raying vision and language reasoning in transformers
Monica et al. Multi-label point cloud annotation by selection of sparse control points
CN110084175A (zh) 一种目标检测方法、目标检测装置及电子设备
CN110287978A (zh) 用于有监督的机器学习的计算机实现的方法和计算机系统
JP7242994B2 (ja) ビデオイベント識別方法、装置、電子デバイス及び記憶媒体
CN111783514A (zh) 面部解析方法、装置及计算机可读存储介质
Boyko et al. Cheaper by the dozen: Group annotation of 3D data
Moehrmann et al. Efficient annotation of image data sets for computer vision applications
CN108197203A (zh) 一种门脸头图挑选方法、装置、服务器和存储介质
Huang et al. Interactive visual study of multiple attributes learning model of x-ray scattering images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant