CN113537261A - 一种图像数据处理方法以及相关设备 - Google Patents
一种图像数据处理方法以及相关设备 Download PDFInfo
- Publication number
- CN113537261A CN113537261A CN202010311127.0A CN202010311127A CN113537261A CN 113537261 A CN113537261 A CN 113537261A CN 202010311127 A CN202010311127 A CN 202010311127A CN 113537261 A CN113537261 A CN 113537261A
- Authority
- CN
- China
- Prior art keywords
- pictures
- labeled
- picture
- suspected
- groups
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 10
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 47
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000012163 sequencing technique Methods 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 15
- 238000002372 labelling Methods 0.000 abstract description 25
- 238000012552 review Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 241000282326 Felis catus Species 0.000 description 7
- 206010028813 Nausea Diseases 0.000 description 5
- 230000008693 nausea Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 208000027418 Wounds and injury Diseases 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011022 operating instruction Methods 0.000 description 3
- 206010071368 Psychological trauma Diseases 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000009223 counseling Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000002980 postoperative effect Effects 0.000 description 2
- 230000002035 prolonged effect Effects 0.000 description 2
- 241000282376 Panthera tigris Species 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/40—Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本申请实施例公开了一种图像数据处理方法以及相关设备,用于对待标注图片进行排序,使得具有预设内容的图片可以均匀地展示。该方法包括:通过预设的人工智能AI模型确定K张待标注图片中具有预设内容的图片,得到疑似图片集,K为正整数,根据疑似图片集对K张待标注图片进行排序,得到目标图片序列,疑似图片集中的图片均匀分布在目标图片序列中,根据目标图片序列展示K张待标注图片,使具有预设内容的引起不适的待标注图片的展示分散化和均匀化,使得数据标注人员可以达到心理可预期,从而降低标注人员不适感。
Description
技术领域
本申请涉及图像数据处理领域,尤其涉及一种图像数据处理方法以及相关设备。
背景技术
随着互联网的快速发展,数据正呈爆炸式增长,其中,图像数据带来的信息量最高。受利益驱使,互联网内容平台的繁荣下乱象丛生,大量的违规、违法内容充斥互联网。其中,血腥/暴恐/虐童/恶心/色情等图像内容导致用户体验变差、用户流失、平台受损。当前,对于图像内容的审核,业界各大平台均采用人工智能(artificial intelligence,AI)审核+人工审核的方式。AI审核的方式可以对大量、重复、共性的内容做到高效识别,而人工审核可以对新的变化的内容以及一些文化隐喻内容进行识别和标注。
但是对于血腥/暴恐/虐童/恶心/色情等内容,会引起进行人工审核的数据标注人员的心理和生理的不适。长时间暴露在这些极端内容之下,数据标注人员会遭受着严重的心理创伤。业界各大平台对引起不适的图像并不会进行特殊处理,只有少部分平台会进行干预。常见的干预方法包括提供定期咨询以及限制审查时间。但是,即使提供定期咨询,创伤已经形成,事后干预并不能降低创伤的形成。而限制审查时间会减少标注量,降低标注的效率,增加人力成本。
发明内容
本申请实施例提供了一种图像数据处理方法以及相关设备,用于对待标注图片进行排序,使得具有预设内容的图片可以均匀地展示。
第一方面,本申请提供了图像数据处理方法,包括:
通过预设的人工智能AI模型确定K张待标注图片中具有预设内容的图片,得到疑似图片集,K为正整数,根据疑似图片集对K张待标注图片进行排序,得到目标图片序列,疑似图片集中的图片均匀分布在目标图片序列中,根据目标图片序列展示K张待标注图片,使具有预设内容的引起不适的待标注图片的展示分散化和均匀化,使得数据标注人员可以达到心理可预期,从而降低标注人员不适感。
可选的,在第一方面的一种实现中,通过预设的AI模型确定K张待标注图片中具有预设内容的图片,得到疑似图片集,包括:通过AI模型确定K张待标注图片中各个图片出现预设内容的概率,确定K张待标注图片中出现预设内容的概率大于等于预设概率值的图片,得到疑似图片集。AI模型可以大批量同时处理K张待标注图片,效率很高。
可选的,在第一方面的一种实现中,预设概率值为90%。
可选的,在第一方面的一种实现中,预设内容为不适内容。
可选的,在第一方面的一种实现中,根据疑似图片集对K张待标注图片进行排序,得到目标图片序列,包括:
将K张待标注图片分为依次排列的n组待标注图片,根据疑似图片比例确定为n组待标注图片中每一组待标注图片分配的疑似图片的数量,疑似图片比例为疑似图片集的图片数量与K之比,根据疑似图片比例和k确定每n组待标注图片中每一组待标注图片的疑似图片的数量,将疑似图片集的图片随机放入n组待标注图片的各组待标注图片中,将K张待标注图片中非疑似图片集的图片随机放入n组待标注图片的各组待标注图片中,对n组待标注图片中各组待标注图片内的图片进行随机排序,得到目标图片序列,使具有预设内容的引起不适的待标注图片的展示分散化和均匀化,使得数据标注人员可以达到心理可预期,从而降低标注人员不适感。
可选的,在第一方面的一种实现中,将K张待标注图片分为依次排列的n组待标注图片之前,还包括:根据疑似图片比例确定k,k小于K,1/k不小于疑似图片比例,若K整除k,则n=K/k,n组待标注图片中每一组待标注图片的图片数量为k,若K不整除k,则n=ceil(K/k),其中,n组待标注图片中第1组待标注图片至第n-1组待标注图片的图片数量为k,第n组待标注图片的图片数量为mod(K,k),ceil()为向上取整函数,mod()为求余函数,从而保障了k张待标注图片中至少有一张疑似图片,可以实现疑似图片集在K张待标注图片中的均匀分布。
可选的,在第一方面的一种实现中,对n组待标注图片中各组待标注图片内的图片进行随机排序,得到目标图片序列之后,还包括:P次执行下述步骤:
S1、随机确定第一图片和第二图片,第一图片和第二图片分别为n组待标注图片中不同组的图片。
S2、分别计算目标图片序列中第一连续m张待标注图片和第二连续m张待标注图片中具有疑似内容图片的图片数量之差abs1,第一连续m张待标注图片和第二连续m张待标注图片无交集,其中,第一连续m张待标注图片包括第一图片,第二连续m张待标注图片包括第二图片。
S3、交换第一图片和第二图片的位置,得到新的第一连续m张待标注图片和新的第二连续m张待标注图片以及新的目标图片序列,并分别计算新的目标图片序列中新的第一连续m张待标注图片和新的第二连续m张待标注图片中具有疑似内容图片的图片数量之差abs2。
S4、若abs1大于abs2,则根据新的目标图片序列更新目标图片序列。
使得进一步将疑似图片集中的图片均匀分布在K张待标注图片中。
可选的,在第一方面的一种实现中,第一图片排列在第一连续m张待标注图片的中位,第二图片排列在第二连续m张待标注图片的中位。
可选的,在第一方面的一种实现中,P等于K。
可选的,在第一方面的一种实现中,根据目标图片序列依次展示K张待标注图片之前,还包括:对疑似图片集中的图片加入蒙版,以减轻数据标注人员的不适。
可选的,在第一方面的一种实现中,蒙版为45%透明度的有色蒙版。
可选的,在第一方面的一种实现中,根据目标图片序列依次展示K张待标注图片之后,还包括:接受对K张待标注图片任意图片的标注,在L次标注后,展示预设的怡人图片,以减轻数据标注人员的不适。
第二方面,本申请提供了一种图像数据处理设备,包括:
AI模块,用于通过预设的人工智能AI模型确定K张待标注图片中具有预设内容的图片,得到疑似图片集,K为正整数。
处理模块,还用于根据疑似图片集对K张待标注图片进行排序,得到目标图片序列,疑似图片集中的图片均匀分布在目标图片序列中。
展示模块,用于根据目标图片序列展示K张待标注图片。
可选的,在第二方面的一种实现中,AI模块,具体用于:
通过AI模型确定K张待标注图片中各个图片出现预设内容的概率。
确定K张待标注图片中出现预设内容的概率大于等于预设概率值的图片,得到疑似图片集。
可选的,在第二方面的一种实现中,处理模块,具体用于:
将K张待标注图片分为依次排列的n组待标注图片。
根据疑似图片比例确定为n组待标注图片中每一组待标注图片分配的疑似图片的数量,疑似图片比例为疑似图片集的图片数量与K之比。
根据疑似图片比例和k确定每n组待标注图片中每一组待标注图片的疑似图片的数量。
将疑似图片集的图片随机放入n组待标注图片的各组待标注图片中。
将K张待标注图片中非疑似图片集的图片随机放入n组待标注图片的各组待标注图片中。
对n组待标注图片中各组待标注图片内的图片进行随机排序,得到目标图片序列。
可选的,在第二方面的一种实现中,处理模块,还用于根据疑似图片比例确定k,k小于K,1/k不小于疑似图片比例。若K整除k,则n=K/k,n组待标注图片中每一组待标注图片的图片数量为k。若K不整除k,则n=ceil(K/k),其中,n组待标注图片中第1组待标注图片至第n-1组待标注图片的图片数量为k,第n组待标注图片的图片数量为mod(K,k),ceil()为向上取整函数,mod()为求余函数。
可选的,在第二方面的一种实现中,处理模块,还用于P次执行下述步骤:
S1、随机确定第一图片和第二图片,第一图片和第二图片分别为n组待标注图片中不同组的图片。
S2、分别计算目标图片序列中第一连续m张待标注图片和第二连续m张待标注图片中具有疑似内容图片的图片数量之差abs1,第一连续m张待标注图片和第二连续m张待标注图片无交集,其中,第一连续m张待标注图片包括第一图片,第二连续m张待标注图片包括第二图片。
S3、交换第一图片和第二图片的位置,得到新的第一连续m张待标注图片和新的第二连续m张待标注图片以及新的目标图片序列,并分别计算新的目标图片序列中新的第一连续m张待标注图片和新的第二连续m张待标注图片中具有疑似内容图片的图片数量之差abs2。
S4、若abs1大于abs2,则根据新的目标图片序列更新目标图片序列。
可选的,在第二方面的一种实现中,展示模块,还用于对疑似图片集中的图片加入蒙版。
可选的,在第二方面的一种实现中,标注模块,用于接受对K张待标注图片任意图片的标注。
可选的,在第二方面的一种实现中,展示模块,还用于在L次标注后,展示预设的怡人图片。
第三方面,本申请提供了一种计算机可读存储介质,包括程序,当其在计算机上运行时,使得计算机执行上述第一方面及可能实现方式中任一项所述的步骤。
第四方面,本申请提供了一种图像数据处理设备,包括处理器和存储器,处理器与存储器耦合,存储器,用于存储程序。处理器,用于执行存储器中的程序,使得图像数据处理设备执行上述第一方面及可能实现方式中任一项所述的步骤。
从以上技术方案可以看出,本申请实施例具有以下优点:
通过预设的人工智能AI模型确定K张待标注图片中具有预设内容的图片,得到疑似图片集,K为正整数,根据疑似图片集对K张待标注图片进行排序,得到目标图片序列,疑似图片集中的图片均匀分布在目标图片序列中,根据目标图片序列展示K张待标注图片,使具有预设内容的引起不适的待标注图片的展示分散化和均匀化,使得数据标注人员可以达到心理可预期,从而降低标注人员不适感。
附图说明
图1为本申请所应用的图像数据处理设备的结构示意图;
图2-1为本申请提供的一种图像数据处理方法的实施例示意图;
图2-2为不适图片的示意图;
图2-3为猫图片的示意图;
图2-4为通过AI模型识别的示意图;
图2-5为本申请实施例提供的对K张待标注图片进行排序的方法示意图;
图2-6为分别在两组的图片的示意图;
图2-7为分别在两组的图片对调后的示意图;
图2-8为图片添加蒙版的示意图;
图2-9为怡人图片的示意图;
图3为本申请提供的一种图像数据处理设备的实施例示意图;
图4为本申请提供的一种图像数据处理设备的实施例示意图。
具体实施方式
本申请实施例提供了一种图像数据处理方法以及相关设备,用于对多张待标注图片进行排序并展示。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请实施例可应用于如图1所示的图像数据处理设备100中,图像数据处理设备100包括处理器110、显示器120、存储器130、收发器140和输入单元150(例如键盘、鼠标、触摸屏等,此处不做限定)。
处理器1180是图像数据处理设备100的控制中心,利用各种接口和线路连接图像数据处理设备100的各个部分,通过运行或执行存储在存储器130内的软件程序和/或模块,以及调用存储在存储器130内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器110可包括一个或多个处理单元;优选的,处理器110可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器110中。
显示器120可用于显示由用户输入的信息或提供给用户的信息以及图像数据处理设备100的各种界面。显示器120可包括显示面板,可选的,可以采用液晶显示器(LiquidCrystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板。进一步的,触控面板可覆盖显示面板,当触控面板检测到在其上或附近的触摸操作后,传送给处理器110以确定触摸事件的类型,随后处理器110根据触摸事件的类型在显示面板上提供相应的视觉输出。
存储器130可以包括只读存储器和随机存取存储器,并向处理器110提供指令和数据。存储器130的一部分还可以包括非易失性随机存取存储器(non-volatile randomaccess memory,NVRAM)。存储器130存储有处理器和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。
收发器140可用于接收输入的数字或字符信息,以及产生与终端设备的相关设置以及功能控制有关的信号输入。收发器140可用于通过第一接口输出数字或字符信息;收发器140还可用于通过第一接口向磁盘组发送指令,以修改磁盘组中的数据;收发器140还可以包括显示屏等显示设备。
输入单元150可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元150可包括触控面板以及其他输入设备。触控面板,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器110,并能接收处理器110发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板。除了触控面板,输入单元150还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
在一些可能的实现方式中,图像数据处理设备100可以为终端设备也可以为服务器,此处不做限定。
随着互联网的快速发展,数据正呈爆炸式增长,其中,图像带来的信息量最高。受利益驱使,互联网内容平台的繁荣下乱象丛生,大量的违规、违法内容充斥互联网。其中,血腥/暴恐/虐童/恶心/色情等图像导致用户体验变差、用户流失、平台受损。当前,对于图像内容的审核,当前业界内各大平台均采用人工智能(artificial intelligence,AI)审核+人工审核的方式。AI审核的方式可以对大量、重复、共性的内容做到高效识别,而人工审核可以对新的变化的内容以及一些文化隐喻内容进行识别和标注。
但是对于血腥/暴恐/虐童/恶心/色情等内容,会引起人工审核的数据标注人员的心理和生理的不适。长时间暴露在这些极端内容之下,数据标注员们会遭受着严重的心理创伤。业界各大平台对引起不适的图像并不会进行特殊处理,只有少部分平台会进行干预。常见的干预方法包括提供定期咨询以及限制审查时间。但是,即使提供定期咨询,创伤已经形成,事后干预并不能降低创伤的形成。而限制审查时间会减少标注量,降低标注的效率,增加人力成本。
为此,请参考图2-1,本申请提出了一种图像数据处理方法,包括:
201、通过预设的AI模型确定K张待标注图片中疑似具有预设内容的疑似图片,得到疑似图片集。
在本申请实施例中,K张待标注图片为数据标注人员实际需要标注的图片。例如,社交网站上或者知识分享平台上,用户上传的图片。K张待标注图片可以都来自同一个平台,也可以来自不同的平台,此处不做限定。数据标注人员可以是平台的工作人员,也可以是专门审核内容的第三方组织的工作人员,此处不做限定。
在一些可能的实现方式中,预设内容可以为不适内容,例如恶心、色情、暴力、恐怖等让人产生心理或生理不适的内容,如图2-2所示。在一些可能的实现方式中,预设内容也可以为某些特定类型的内容,比如猫图像、人像、卡通等,例如图2-3所示的猫图像,此处不做限定。
在本申请实施例中,AI模型可以是预先训练好的AI模型,也可以通过在实际工作中获取一定数量的图片进行训练得到的AI模型。具体的,获取多张训练图片后,可以由数据标注人员对多张训练图片进行一一标注,然后将标注后的图片输入待训练的AI模型,以得到训练后的AI模型。
例如,获取某社交网站上的1万张图片,首先由数据标注人员对该1万张图片进行标注,判断每一张图片是否具有预设内容。数据标注人员对1万张图片中每1张都标注后,交给图形处理器(graphic processing unit,GPU)进行对待训练的AI模型进行训练,得到AI模型的各个参数,即得到训练后的AI模型。当AI模型训练完成后,可以使用该AI模型对K张待标注图片进行识别。
具体的,AI模型可以通过下述方式进行内容审核:
(1)通过AI模型确定K张待标注图片中各个图片出现预设内容的概率。
例如,如图2-4所示,为K张待标注图片中的4张待标注图片,分别是图a、图b、图c和图d。通过AI模型可以确定哪些图片为具有预设内容。例如,预设内容为猫,即AI模型需要识别各个图片中哪些图片有猫。通过AI模型对4张图片进行计算的概率得到:图a出现预设内容的概率为5%;图b出现预设内容的概率为93%;图c的概率为95%,图d的概率为65%。
(2)确定K张待标注图片中出现预设内容的概率大于等于预设概率值的图片,得到疑似图片集。
例如,设置预设概率值为90%。那么,如图2-4中的4张图片中,出现预设内容的概率大于等于90%的图片有图b和图c,出现预设内容的概率小于90%的图片有图a和图d,因此,AI模型初步判断图b和图c为疑似图片,属于疑似图片集,则图a和图d不属于疑似图片集。需要说明的是,预设概率值可以是人为设置的,也可以为通过机器学习得到的较优的经验值,此处不做限定。
有上述可知,AI模型将图b识别为猫,但是显然地这是一只老虎;AI模型未将图a识别为猫,但是显然看出这是一只卡通猫。因此,AI模型识别的是否具有预设内容的图片未必准确,AI模型只能对K张待标注图片进行初步的识别,得到疑似图片集,接下来需要通过人工审核的方式对疑似图片进行进一步识别和标注。
在本申请实施例中,设疑似图片集中的图片数量为N。例如,假设K=1000,N=100,即通过AI模型对1000张待标注图片进行识别,确定的疑似图片集中的图片数量为100。
202、根据疑似图片集对K张待标注图片进行排序,得到目标图片序列,疑似图片集中的图片均匀分布在目标图片序列中。
在本申请实施例中,可以根据疑似图片集对K张待标注图片进行排序,得到目标图片序列,疑似图片集中的图片均匀分布在目标图片序列中。最后,根据目标图片序列展示K张待标注图片,使具有预设内容的引起不适的待标注图片的展示分散化和均匀化,使得数据标注人员可以达到心理可预期,从而降低标注人员不适感。
具体的,请参考图2-5,以下对K张待标注图片进行排序的各个步骤分别进行说明。
2021、将K张待标注图片划分为n组待标注图片。
在一些可能的实现方式中,可以将K张待标注图片划分为数量相同的n组待标注图片组,然后将疑似图片集中的图片平均分配给各个待标注图片组,再将K张待标注图片中的非疑似图片平均分给各组待标注图片。最后,各组待标注图片所分配的图片(包括疑似图片和非疑似图片)进行随机排列,得到目标图片序列。
例如,假设K=1000,N=100,那么疑似图片集在K张待标注图片中的占比为10%,那么可以设置每出现10张图片,就有其中1张疑似图片。可选的,该1张疑似图片出现在10张图片的固定位置,例如第5张,或者第10张。例如,设0为非疑似图片集中的图片,1为疑似图片集中的图片,那么可以设置为:
00000 00001 00000 00001 00000 00001 00000 00001 ……
在一些可行的实现方式中,也可以设置为:
00001 00000 00001 00000 00001 00000 00001 00000 ……
在一些可能的实现方式中,疑似图片也可以出现在第1张,或者第2张,此处不做限定。
又例如,假设将1000张待标注图片划分为10组,每组100张待标注图片,疑似图片集的图片数量为40,那么可以将这40张疑似图片平均分配给这10组待标注图片,得到每组待标注图片具有40/10=4张疑似图片。然后从剩余的960张图片分配给10组待标注图片,每组96张。最后,将每组待标注图片进行随机排列,即可以得到目标图片序列。
在一些可能的实现方式中,可以将K张待标注图片划分为数量不尽相同的待标注图片组,例如,某些组具有101张,某些组具有99张,或者某些组具有150张,某些组具有50张,此处不做限定。
在一些可能的实现方式,假如疑似图片集的图片数量为45,那么可以得到每组待标注图片平均可以分配到45/10=4.5张疑似图片。但是由于图片的分配必须以1张为单位,即每组待标注图片所分配的疑似图片的数量必须为整数。为此,在一些可能的实现方式,可以在某些组分配5张,某些组分配4张,例如,奇数组分配5张疑似图片,偶数组分配4张疑似图片。在一些可能的实现方式,也可以重新确定分组的组数,例如将K张待标注图片划分为5组,每组9张疑似图片。之所以确定为5组,因为1000可以整除5,45也可以整除5,使得可以将K张待标注图片和45张疑似图片均可以实现平均分为5组,即确定1000和45的最大公约数。
但是,如果疑似图片集中的图片数量为43,由于1000和43互质,最大公约数为1,如果以1张图片为1组,由于疑似图片集有43张疑似图片,那么将有957个组分配不到疑似图片,那么会造成不均匀。为此,在一些可能的实现方式中,可以按照疑似图片比例来确定分组方式。
具体的,计算疑似图片集在K张待标注图片的占比,得到疑似图片比例N/K,其中,N为疑似图片集中的图片数量。例如,N/K=43/1000=4.3%。那么,将疑似图片集中的图片分配4张或5张给各组待标注图片。在一些可能的实现方式,也可以给其中7组待标注图片分配4张疑似图片,给另外3组待标注图片分配5张疑似图片。分得5张疑似图片的组可以排在最后,也可以排在前面,也可以随机排列在10组之间,也可以分别分配给第1、4、7组,或者2、5、8组,此处不做限定。
在一些可能的实现方式中,假设N=4,即疑似图片集中的图片数量为4,那么疑似图片比例为0.4%。那个可以给各组待标注图片分配1张或0张疑似图片。那么,会造成6组待标注图片分配不到疑似图片。
为此,针对上述出现的各种情况实现,为了使得分成n组后,图片数量为k的待标注图片组中,至少可以分到1张疑似图片,即使得k*N/K>1,可以通过下述方法对K张待标注图片进行分组:
1、根据N和K确定k。
需要说明的是,在本申请实施例中,k用于为K张待标注图片分组。例如,根据k将K张待标注图片划分为n组待标注图片,得到前n-1组待标注图片的图片数量均为k,第n组待标注图片的图片数量为mod(K,k)。
(1)预设k的默认值k0。
首先,可以根据经验确定k的默认值k0。例如,假设K=1000,那么可以将k设置为100。在一些可能的实现方式中,也可以设k为50,也可以设置为200,也可以设置为250,也可以设置为43,此处不做限定。可选的,优先考虑设置的k值为K可以整除的数,这样可以划分为数量相等的n组待标注图片。如果K不能整除k,那么也可以将K张待标注图片划分为n组,其中,前n-1组待标注图片的图片数量为k,第n组的待标注图片的图片数量为mod(K,k)。在一些可能的实现方式,图片数量为mod(K,k)的一组可以分配在任意一组,例如第1组,或者第5组,此处不做限定。
(2)确定N/k*k0是否小于1。
需要说明的是,N/K为疑似图片集在K张待标注图片的占比,则N/K*k0表示若将另k=k0的情况下,k0张待标注图片照片那个可以分配到多少张疑似图片。为了使得图片数量为k的待标注图片组中分配到至少1张疑似图片,即需要N/K*k大于等于1。在此,设k=k0,计算N/K*k0,判断其是否小于1。如果N/K*k0大于等于1,则不需要调整k,即得到k=k0;若N/K*k0小于1,说明k=k0太小了,需要增大k的值。
(3)如果N/k*k0大于等于1,那么令k=k0;若N/k*k0小于1,则令k=ceil(K/N)。
具体的,为了增大k,使得N/K*k大于1,得到k大于K/N,即k=ceil(K/N)。为此,确定k的值的一般公式为:
例如,设K=1000,k0=100,当N=43时,由于k0*N/K≥1,因此k=k0=100;例如,设K=1000,k0=100,当N=4时,由于k0*N/K<1,因此k=ceil(K/N)=250。
在一些可能的实现方式中,除了要每个图片数量为k的图片组具有至少一张疑似图片,还要求每个图片数量为k的图片组具有至少一张非疑似图片。设K张待标注图片中非疑似图片的数量为M,那么:
例如,K=1000,N=995,M=5,那么由于k0*M/K=0.5,那么k=ceil(K/M)=2000;K=1000,N=997,M=3,那么由于k0*M/K=0.3,那么k=ceil(K/M)=334。
2、根据k确定n。
当确定了k值之后,既可以确定n的值,具体的,n=ceil(K/k)。
例如,设K=1000,k=100,那么n=ceil(K/k)=10;设K=1000,k=250,那么n=ceil(K/k)=4;设K=1000,k=55,那么n=ceil(K/k)=19。
3、根据k、n、N、K确定K张待标注图片的分组方案。
在本申请实施例中,假设K整除k,那么n组带标注图片中的每组待标注图片的图片数量均等于k;假设K不整除k,那么前n-1组带标注图片中的每组待标注图片的图片数量均等于k,第n组待标注图片的中待标注图片的图片数量为mod(K/k)。
例如,设K=1000,k=100,则分为K/k=10组,那么10组待标注图片中的每一组待标注图片的图片数量为100;设K=1000,k=250,则分为K/k=4组,那么4组待标注图片中的每一组待标注图片的图片数量为250;设K=1000,k=55,则分为ceil(K/k)=19组,那么前18组待标注图片中的每一组待标注图片的图片数量为55,第n组待标注图片的图片数量为10。
2022、将疑似图片集均匀地分配到n组待标注图片中,并将非疑似图片分配到n组待标注图片中,得到目标图片序列。
当确定了分组方案后,可以将疑似图片集中的图片均匀分配到n组待标注图片中。
例如,K=1000,N=3,k=334,则n=3,每组可以分到1张疑似图片;K=1000,N=995,则M=5,那么k=ceil(k/M)=200,即n=ceil(K/k)=5,则5组待标注图片中每组200张待标注图片,每组待标注图片具有1张非疑似图片,199张疑似图片;K=1000,N=50,k=100,则n=10,即每一组待标注图片的图片数量为100,每组待标注图片可以分到2张疑似图片。
例如,若K=1000,N=40,即1000张待标注图片,初步标识出40张疑似图片,即疑似图片集的图片数量为40。那么可以将1000张待标注图片分为10组,即n=10,即将1000张待标注图片划分为10组,每组100张图片,每组待标注图片可以分配4张疑似图片。然后在1000张待标注图片中非疑似图片集的图片填充这10组,即每组分配96张非疑似图片集的图片。然后,随机排列每组的图片,得到各个组的图片的排列顺序。最后,得到每一组的排列顺序,记得到目标图片序列。
将K张待标注图片划分为n组后,然后将疑似图片集中的图片均匀地分配到n组中,再将非疑似图片集中的图片填充每一组剩下的数量,每一组待标注图片中疑似图片均匀分布。
2023、调节目标图片序列中个别图片的位置。
在一些可能的实现方式中,可选的,可以进一步均匀疑似图片。在本申请实施例中,进一步均匀疑似图片的具体方法为随机选择不在同一个组的2张待标注图片,计算这2张待标注图片的周围的疑似图片的图片数量,计算其数量差,得到abs1;然后将这2张待标注图片交换位置,计算这2张待标注图片的周围的疑似图片的图片数量,计算其数量差,得到abs2。最后,对比abs1和abs2,如果abs1大于abs2,说明原来的分配比较不均匀,需要将这2张待标注图片的位置对换;如果abs1小于等于abs2,说明原来的分配比较均匀,这2张图片可以保持原位置,不需要对换位置。
具体的,可以P次执行下述步骤:
S1、随机确定第一图片和第二图片,第一图片和第二图片分别为n组待标注图片中不同组的图片。
例如,如图2-6所示的第一图片和第二图片,第一图片在第1组,第二图片在第4组。
S2、分别计算目标图片序列中第一连续m张待标注图片和第二连续m张待标注图片中具有疑似图片的图片数量之差abs1,第一连续m张待标注图片和第二连续m张待标注图片无交集,其中,第一连续m张待标注图片包括第一图片,第二连续m张待标注图片包括第二图片。
在一些可能的实现方式中,可以将疑似图片标记为1,非疑似图片标记为0。那么,可以计算得到包括第一图片的第一连续m张待标注图片中疑似图片的数量,以及第二图片的第二连续m张待标注图片中疑似图片的数量。在一些可能的实现方式,第一图片为第一连续m张待标注图片的中位,第二图片为第二连续m张待标注图片的中位。需要说明的是,abs1代表“不均匀度”,abs1的数值越大,说明第一连续m张待标注图片和第二连续m张待标注图片中疑似图片的图片数量的差距越大。
例如,第一连续m张待标注图片中疑似图片的数量为24,第二连续m张待标注图片中疑似图片的数量为20,那么abs1=24-20=4。
在一些可能的实现方式中,第一图片排列在第一连续m张待标注图片的中位,第二图片排列在第二连续m张待标注图片的中位。例如,m=101,即将第一图片/第二图片的前后各取50张图片,包括第一图片/第二图片一共101张图片。在一些可能的实现方式,也可以设置m=k,此处不做限定。
S3、交换第一图片和第二图片的位置,得到新的第一连续m张待标注图片和新的第二连续m张待标注图片,并分别计算新的第一连续m张待标注图片和新的第二连续m张待标注图片中具有疑似图片的图片数量之差abs2。
为了进一步均匀疑似图片在n组待标注图片中的分布,可以将第一图片和第二图片对调位置,得到新的第一连续m张待标注图片和新的第二连续m张待标注图片以及新的目标图片序列。即,第一图片和第二图片交换位置之后,第一图片属于新的第二连续m张待标注图片,第二图片属于新的第一连续m张待标注图片。然后,计算分别计算新的目标图片序列中新的第一连续m张待标注图片和新的第二连续m张待标注图片中具有疑似图片的图片数量之差abs2。
例如,第一连续m张待标注图片中疑似图片的数量为25,第二连续m张待标注图片中疑似图片的数量为19,那么abs1=25-19=6;例如,如图2-7所示,第一连续m张待标注图片中疑似图片的数量为23,第二连续m张待标注图片中疑似图片的数量为21,那么abs1=23-21=2。
S4、若abs1大于abs2,则根据新的目标图片序列更新目标图片序列。
假如第一连续m张待标注图片中疑似图片的数量为25,第二连续m张待标注图片中疑似图片的数量为19,那么abs1=25-19=6。由此可知,由于第一图片和第二图片对调后,不均匀度更大了,因此双方保留原来的位置。
例如,第一连续m张待标注图片中疑似图片的数量为23,第二连续m张待标注图片中疑似图片的数量为21,那么abs1=23-21=2。由此可知,由于第一图片和第二图片对调后,不均匀度变小了,因此双方需要交换位置。
P次执行上述步骤S1-S4,使得K张待标注图片中疑似图片分布地更均匀。在一些可能的实现方式中,P=K,K为通过实验得出的经验值。
203、根据目标图片序列依次展示K张待标注图片。
需要说明的是,这n组待标注图片每组都有序号,分别为第1组、第2组、……、第n组。在本申请实施例中,可以依次展示第1组、第2组、……、第n组,每一组的展示根据上述步骤201-202确定的目标图片序列进行展示。在一些可能的实现方式,可以逐张待标注图片一起展示,也可以同时展示若干张图片,例如5张或者n张。
在本申请实施例中,在展示K张待标注图片的过程中接受数据标注人员的标注。具体的,如果数据标注人员认为是疑似图片,即具有预设内容,则标注为“是”,否则标注为“否”或者不标注。如果预设内容为不适内容,则在网站上展示时,屏蔽掉这张图片,或者直接删掉,或者直接删帖,此处不做限定。
在一些可能的实现方式中,为了减轻不适感,可以将疑似图片加入蒙版。具体的,蒙版为45%透明度的有色蒙版,可选的,也可以选择其他度数的有色蒙版,如蓝色或绿色。例如,如图2-8所示的蒙版。
在一些可能的实现方式中,若下一张待标注图片为疑似图片,可以预告下一张图片即将展示疑似图片,让数据标注人员有心里准备。
在一些可能的实现方式总,在数据标注人员对具有预设内容的待标注图片进行L次标注后,展示预设的怡人图片。具体的,如图2-9所示,怡人图片可以为风景、美女、婴儿、卡通等,此处不做限定。
请参考图3,本申请还提供了一种图像数据处理设备300,包括:
AI模块310,用于通过预设的人工智能AI模型确定K张待标注图片中具有预设内容的图片,得到疑似图片集,K为正整数。
处理模块320,还用于根据疑似图片集对K张待标注图片进行排序,得到目标图片序列,疑似图片集中的图片均匀分布在目标图片序列中。
展示模块330,用于根据目标图片序列展示K张待标注图片。
可选的,AI模块310具体用于:
通过AI模型确定K张待标注图片中各个图片出现预设内容的概率。
确定K张待标注图片中出现预设内容的概率大于等于预设概率值的图片,得到疑似图片集。
可选的,处理模块320具体用于:
将K张待标注图片分为依次排列的n组待标注图片。
根据疑似图片比例确定为n组待标注图片中每一组待标注图片分配的疑似图片的数量,疑似图片比例为疑似图片集的图片数量与K之比。
根据疑似图片比例和k确定每n组待标注图片中每一组待标注图片的疑似图片的数量。
将疑似图片集的图片随机放入n组待标注图片的各组待标注图片中。
将K张待标注图片中非疑似图片集的图片随机放入n组待标注图片的各组待标注图片中。
对n组待标注图片中各组待标注图片内的图片进行随机排序,得到目标图片序列。
可选的,处理模块320还用于根据疑似图片比例确定k,k小于K,1/k不小于疑似图片比例。若K整除k,则n=K/k,n组待标注图片中每一组待标注图片的图片数量为k。若K不整除k,则n=ceil(K/k),其中,n组待标注图片中第1组待标注图片至第n-1组待标注图片的图片数量为k,第n组待标注图片的图片数量为mod(K,k),ceil()为向上取整函数,mod()为求余函数。
可选的,在第二方面的一种实现中,处理模块320还用于P次执行下述步骤:
S1、随机确定第一图片和第二图片,第一图片和第二图片分别为n组待标注图片中不同组的图片。
S2、分别计算目标图片序列中第一连续m张待标注图片和第二连续m张待标注图片中具有疑似内容图片的图片数量之差abs1,第一连续m张待标注图片和第二连续m张待标注图片无交集,其中,第一连续m张待标注图片包括第一图片,第二连续m张待标注图片包括第二图片。
S3、交换第一图片和第二图片的位置,得到新的第一连续m张待标注图片和新的第二连续m张待标注图片以及新的目标图片序列,并分别计算新的目标图片序列中新的第一连续m张待标注图片和新的第二连续m张待标注图片中具有疑似内容图片的图片数量之差abs2。
S4、若abs1大于abs2,则根据新的目标图片序列更新目标图片序列。
可选的,展示模块330还用于对疑似图片集中的图片加入蒙版。
可选的,图像数据处理设300还包括标注模块340,用于接受对K张待标注图片任意图片的标注。
可选的,展示模块330还用于在L次标注后,展示预设的怡人图片。
请参考图4,本申请提供了一种图像数据处理设备400,包括处理器410和存储器420,处理器410与存储器420耦合,存储器420,用于存储程序。处理器410,用于执行存储器420中的程序,使得图像数据处理设备400执行上述图2所述方法的步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (23)
1.一种图像数据处理方法,其特征在于,包括:
通过预设的人工智能AI模型确定K张待标注图片中具有预设内容的图片,得到疑似图片集,K为正整数;
根据所述疑似图片集对所述K张待标注图片进行排序,得到目标图片序列,所述疑似图片集中的图片均匀分布在所述目标图片序列中;
根据所述目标图片序列展示所述K张待标注图片。
2.根据权利要求1所述方法,其特征在于,所述通过预设的AI模型确定K张待标注图片中具有预设内容的图片,得到疑似图片集,包括:
通过所述AI模型确定所述K张待标注图片中各个图片出现所述预设内容的概率;
确定所述K张待标注图片中出现所述预设内容的概率大于等于预设概率值的图片,得到所述疑似图片集。
3.根据权利要求2所述方法,其特征在于,所述预设概率值为90%。
4.根据权利要求1-3中任一项所述方法,其特征在于,所述预设内容为不适内容。
5.根据权利要求1-4中任一项所述方法,其特征在于,所述根据所述疑似图片集对所述K张待标注图片进行排序,得到目标图片序列,包括:
将所述K张待标注图片分为依次排列的n组待标注图片;
根据疑似图片比例确定为所述n组待标注图片中每一组待标注图片分配的疑似图片的数量,所述疑似图片比例为所述疑似图片集的图片数量与K之比;
根据所述疑似图片比例和k确定每所述n组待标注图片中每一组待标注图片的疑似图片的数量;
将所述疑似图片集的图片随机放入所述n组待标注图片的各组待标注图片中;
将所述K张待标注图片中非所述疑似图片集的图片随机放入所述n组待标注图片的各组待标注图片中;
对所述n组待标注图片中各组待标注图片内的图片进行随机排序,得到所述目标图片序列。
6.根据权利要求5所述方法,其特征在于,所述将所述K张待标注图片分为依次排列的n组待标注图片之前,还包括:
根据所述疑似图片比例确定k,k小于K,1/k不小于所述疑似图片比例;
若K整除k,则n=K/k,所述n组待标注图片中每一组待标注图片的图片数量为k;
若K不整除k,则n=ceil(K/k),其中,所述n组待标注图片中第1组待标注图片至第n-1组待标注图片的图片数量为k,第n组待标注图片的图片数量为mod(K,k),ceil()为向上取整函数,mod()为求余函数。
7.根据权利要求5或6所述方法,其特征在于,所述对所述n组待标注图片中各组待标注图片内的图片进行随机排序,得到所述目标图片序列之后,还包括:
P次执行下述步骤:
S1、随机确定第一图片和第二图片,所述第一图片和所述第二图片分别为所述n组待标注图片中不同组的图片;
S2、分别计算所述目标图片序列中第一连续m张待标注图片和第二连续m张待标注图片中具有所述疑似内容图片的图片数量之差abs1,所述第一连续m张待标注图片和所述第二连续m张待标注图片无交集,其中,所述第一连续m张待标注图片包括所述第一图片,所述第二连续m张待标注图片包括所述第二图片;
S3、交换所述第一图片和所述第二图片的位置,得到新的第一连续m张待标注图片和新的第二连续m张待标注图片以及新的目标图片序列,并分别计算所述新的目标图片序列中所述新的第一连续m张待标注图片和所述新的第二连续m张待标注图片中具有所述疑似内容图片的图片数量之差abs2;
S4、若所述abs1大于所述abs2,则根据所述新的目标图片序列更新所述目标图片序列。
8.根据权利要求7所述方法,其特征在于,所述第一图片排列在所述第一连续m张待标注图片的中位,所述第二图片排列在所述第二连续m张待标注图片的中位。
9.根据权利要求7或8所述方法,其特征在于,P等于K。
10.根据权利要求1-9中任一项所述方法,其特征在于,所述根据所述目标图片序列依次展示所述K张待标注图片之前,还包括:
对所述疑似图片集中的图片加入蒙版。
11.根据权利要求10所述方法,其特征在于,所述蒙版为45%透明度的有色蒙版。
12.根据权利要求1-11中任一项所述方法,其特征在于,所述根据所述目标图片序列依次展示所述K张待标注图片之后,还包括:
接受对所述K张待标注图片任意图片的标注。
13.根据权利要求12所述方法,其特征在于,所述方法还包括:
在L次标注后,展示预设的怡人图片。
14.一种图像数据处理设备,其特征在于,包括:
AI模块,用于通过预设的人工智能AI模型确定K张待标注图片中具有预设内容的图片,得到疑似图片集,K为正整数;
所述处理模块,还用于根据所述疑似图片集对所述K张待标注图片进行排序,得到目标图片序列,所述疑似图片集中的图片均匀分布在所述目标图片序列中;
展示模块,用于根据所述目标图片序列展示所述K张待标注图片。
15.根据权利要求14所述设备,其特征在于,所述AI模块,具体用于:
通过所述AI模型确定所述K张待标注图片中各个图片出现所述预设内容的概率;
确定所述K张待标注图片中出现所述预设内容的概率大于等于预设概率值的图片,得到所述疑似图片集。
16.根据权利要求14或15所述设备,其特征在于,所述处理模块,具体用于:
将所述K张待标注图片分为依次排列的n组待标注图片;
根据疑似图片比例确定为所述n组待标注图片中每一组待标注图片分配的疑似图片的数量,所述疑似图片比例为所述疑似图片集的图片数量与K之比;
根据所述疑似图片比例和k确定每所述n组待标注图片中每一组待标注图片的疑似图片的数量;
将所述疑似图片集的图片随机放入所述n组待标注图片的各组待标注图片中;
将所述K张待标注图片中非所述疑似图片集的图片随机放入所述n组待标注图片的各组待标注图片中;
对所述n组待标注图片中各组待标注图片内的图片进行随机排序,得到所述目标图片序列。
17.根据权利要求16所述设备,其特征在于,
所述处理模块,还用于根据所述疑似图片比例确定k,k小于K,1/k不小于所述疑似图片比例;若K整除k,则n=K/k,所述n组待标注图片中每一组待标注图片的图片数量为k;若K不整除k,则n=ceil(K/k),其中,所述n组待标注图片中第1组待标注图片至第n-1组待标注图片的图片数量为k,第n组待标注图片的图片数量为mod(K,k),ceil()为向上取整函数,mod()为求余函数。
18.根据权利要求16或17所述设备,其特征在于,
所述处理模块,还用于P次执行下述步骤:
S1、随机确定第一图片和第二图片,所述第一图片和所述第二图片分别为所述n组待标注图片中不同组的图片;
S2、分别计算所述目标图片序列中第一连续m张待标注图片和第二连续m张待标注图片中具有所述疑似内容图片的图片数量之差abs1,所述第一连续m张待标注图片和所述第二连续m张待标注图片无交集,其中,所述第一连续m张待标注图片包括所述第一图片,所述第二连续m张待标注图片包括所述第二图片;
S3、交换所述第一图片和所述第二图片的位置,得到新的第一连续m张待标注图片和新的第二连续m张待标注图片以及新的目标图片序列,并分别计算所述新的目标图片序列中所述新的第一连续m张待标注图片和所述新的第二连续m张待标注图片中具有所述疑似内容图片的图片数量之差abs2;
S4、若所述abs1大于所述abs2,则根据所述新的目标图片序列更新所述目标图片序列。
19.根据权利要求14-18中任一项所述设备,其特征在于,
所述展示模块,还用于对所述疑似图片集中的图片加入蒙版。
20.根据权利要求14-19中任一项所述设备,其特征在于,还包括:
标注模块,用于接受对所述K张待标注图片任意图片的标注。
21.根据权利要求20所述设备,其特征在于,
所述展示模块,还用于在L次标注后,展示预设的怡人图片。
22.一种计算机可读存储介质,包括程序,当其在计算机上运行时,使得计算机执行如权利要求1-13中任一项所述的方法。
23.一种图像数据处理设备,包括处理器和存储器,所述处理器与所述存储器耦合,其特征在于,
所述存储器,用于存储程序;
所述处理器,用于执行所述存储器中的程序,使得所述终端设备执行如权利要求1至13中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010311127.0A CN113537261A (zh) | 2020-04-20 | 2020-04-20 | 一种图像数据处理方法以及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010311127.0A CN113537261A (zh) | 2020-04-20 | 2020-04-20 | 一种图像数据处理方法以及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113537261A true CN113537261A (zh) | 2021-10-22 |
Family
ID=78123647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010311127.0A Pending CN113537261A (zh) | 2020-04-20 | 2020-04-20 | 一种图像数据处理方法以及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113537261A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104751188A (zh) * | 2015-04-15 | 2015-07-01 | 爱威科技股份有限公司 | 一种图片处理方法及系统 |
CN108427970A (zh) * | 2018-03-29 | 2018-08-21 | 厦门美图之家科技有限公司 | 图片标注方法和装置 |
CN109756746A (zh) * | 2018-12-28 | 2019-05-14 | 广州华多网络科技有限公司 | 视频审核方法、装置、服务器及存储介质 |
CN109829069A (zh) * | 2018-12-28 | 2019-05-31 | 广州华多网络科技有限公司 | 图像审核处理方法、装置、电子设备及存储介质 |
CN110909193A (zh) * | 2019-11-22 | 2020-03-24 | 携程计算机技术(上海)有限公司 | 图像排序展示方法、系统、设备和存储介质 |
-
2020
- 2020-04-20 CN CN202010311127.0A patent/CN113537261A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104751188A (zh) * | 2015-04-15 | 2015-07-01 | 爱威科技股份有限公司 | 一种图片处理方法及系统 |
CN108427970A (zh) * | 2018-03-29 | 2018-08-21 | 厦门美图之家科技有限公司 | 图片标注方法和装置 |
CN109756746A (zh) * | 2018-12-28 | 2019-05-14 | 广州华多网络科技有限公司 | 视频审核方法、装置、服务器及存储介质 |
CN109829069A (zh) * | 2018-12-28 | 2019-05-31 | 广州华多网络科技有限公司 | 图像审核处理方法、装置、电子设备及存储介质 |
CN110909193A (zh) * | 2019-11-22 | 2020-03-24 | 携程计算机技术(上海)有限公司 | 图像排序展示方法、系统、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110909034B (zh) | 一种业务数据的分配方法、装置、终端设备及存储介质 | |
CN102368193B (zh) | 一种用于提供浏览页面的方法与设备 | |
CN107783702A (zh) | 显示数据的控制方法、装置和系统 | |
CN110210883A (zh) | 群控账号识别方法、装置、服务器及存储介质 | |
CN109614238A (zh) | 一种目标对象识别方法、装置、系统及可读存储介质 | |
CN109788020A (zh) | 一种坐席分配方法及相关设备 | |
CN110321508A (zh) | 页面展示数据的处理方法、装置、存储介质及设备 | |
WO2021208695A1 (zh) | 目标物推荐方法、装置、电子设备及计算机可读存储介质 | |
CN107729143A (zh) | 应用控制方法、装置、存储介质及电子设备 | |
US20160335985A1 (en) | Rendering high bit depth grayscale images using gpu color spaces and acceleration | |
CN105867864A (zh) | 一种kvm显示方法及装置 | |
CN115758399A (zh) | 基于医联网的智慧医疗信息管理方法、装置、设备及介质 | |
CN107729109A (zh) | 一种管理应用图标的方法、终端及计算机可读介质 | |
CN110709867A (zh) | 预约受理装置及预约受理程序 | |
CN107852422A (zh) | 与具有不同api的服务器接口连接来获取广告数据 | |
CN111415062A (zh) | 众包任务分配方法、装置、电子设备及存储介质 | |
CN107888663A (zh) | 一种分发文件的方法、设备及计算机可读介质 | |
JP6529718B2 (ja) | 学習支援システム及び方法 | |
CN113537261A (zh) | 一种图像数据处理方法以及相关设备 | |
CN107391094A (zh) | 一种窗口显示方法及装置 | |
CN111428276B (zh) | 一种数据处理的方法、装置、设备和介质 | |
CN109711997A (zh) | 保险业务推送方法、装置、设备及可读存储介质 | |
US10275498B2 (en) | Method and apparatus for ranking and dynamically displaying information | |
KR20220045233A (ko) | 디지털 콘텐츠의 시각적 품질 평가 | |
CN107590672A (zh) | 基于马斯洛需求层次理论的推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |