CN115114467A - 图片神经网络模型的训练方法以及装置 - Google Patents

图片神经网络模型的训练方法以及装置 Download PDF

Info

Publication number
CN115114467A
CN115114467A CN202110286611.7A CN202110286611A CN115114467A CN 115114467 A CN115114467 A CN 115114467A CN 202110286611 A CN202110286611 A CN 202110286611A CN 115114467 A CN115114467 A CN 115114467A
Authority
CN
China
Prior art keywords
sample
picture
sample picture
pictures
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110286611.7A
Other languages
English (en)
Other versions
CN115114467B (zh
Inventor
陈少华
余亭浩
张绍明
侯昊迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110286611.7A priority Critical patent/CN115114467B/zh
Priority claimed from CN202110286611.7A external-priority patent/CN115114467B/zh
Publication of CN115114467A publication Critical patent/CN115114467A/zh
Application granted granted Critical
Publication of CN115114467B publication Critical patent/CN115114467B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种图片神经网络模型的训练方法以及装置。其中,该方法包括:通过循环迭代的样本图片集合对训练待训练的图片神经网络模型,当前训练的样本图片集合是上次训练使用的样本集合与当前获取到的样本集合的合并,当前获取的样本集合与使用上次训练的样本图片训练的图片神经网络模型的结果有关系,达到了将样本图片收集和图片神经网络模型训练结合起来,根据当前图片神经网络模型的不足,针对性地补充训练样本图片的目的,进而解决了现有技术中,获取训练图片神经网络模型的样本图片的方式单一的技术问题。

Description

图片神经网络模型的训练方法以及装置
技术领域
本发明涉及图片识别技术领域,具体而言,涉及一种图片神经网络模型的训练方法以及装置。
背景技术
随着信息流的快速发展,出现大量的自媒体,自媒体中生产内容,质量参差不齐。图片作为内容中不可或缺的组成部分,在实际业务场景中,图片种类错综复杂。其中不乏一些容易引起人们反感、不适的case,例如惊悚、皮肤病、蛇、虫子等等,这类case可以定义为不适图片。这类图片严重影响了用户阅读体验,比如睡前刷到鬼脸、怪物、蛇,或者吃饭时刷到恶心吃播、恶心牙齿,一定会体验很差。如果采用人工审核的方式,会大大增加审核成本并且由于标准的复杂性容易导致人工漏判。因此需要通过机器自动识别图片不适,提升用户体验并降低审核成本。
现有技术中,机器自动识别图片任务或人工智能识别图片任务中通常的做法是:先随机抽取待标注数据,进行人工标注得到训练集;再使用标注训练集训练常用分类模型。其中,存在如下不足:1)训练集标注和模型训练流程分离:无法针对当前模型的不足挖掘困难样本;2)训练集标注成本高:标注样本通常的做法是随机抽取业务数据后进行人工标注。然而不适图片实际占比很低,平均1000张图片中只能标注出4张,绝大部分都是正常图片。使用随机抽取标注的方法会消耗大量标注人力,标注效率低下。3)模型表征能力不足:由于不适图片种类复杂,包含很多子类型,例如惊悚、恶心痘痘、活物宰杀、恶心吃播等等。这些子类场景不同、特征粒度不同,学习难度较大。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种图片神经网络模型的训练方法以及装置,以至少解决现有技术中,获取训练图片神经网络模型的样本图片的方式单一的技术问题。
根据本发明实施例的一个方面,提供了一种图片神经网络模型的训练方法,包括:获取第一样本图片集合;通过所述第一样本图片集合对第一图片神经网络模型进行训练,得到所述第一样本图片集合中每个样本图片的第一预测类型和第二图片神经网络模型;在所述每个样本图片的标注类型和所述第一预测类型之间的损失值不满足目标预设条件的情况下,获取第二样本图片集合,其中,所述第二样本图片集合中的部分样本图片是根据所述第一预测类型获取到的图片;将所述第一样本图片集合和所述第二样本图片集合合并,得到第三样本图片集合;通过所述第三样本图片集合对所述第二图片神经网络模型进行训练,得到所述第三样本图片集合中每个样本图片的第二预测类型和第三图片神经网络;在所述第三样本图片集合中的所述每个样本图片的标注类型和所述第二预测类型之间的损失值满足所述目标预设条件的情况下,将所述第三图片神经网络模型确定为目标图片神经网络。
根据本发明实施例的另一方面,还提供了一种图片神经网络模型的训练装置,包括:第一获取单元,用于获取第一样本图片集合;第一得到单元,用于通过所述第一样本图片集合对第一图片神经网络模型进行训练,得到所述第一样本图片集合中每个样本图片的第一预测类型和第二图片神经网络模型;第二获取单元,用于在所述每个样本图片的标注类型和所述第一预测类型之间的损失值不满足目标预设条件的情况下,获取第二样本图片集合,其中,所述第二样本图片集合中的部分样本图片是根据所述第一预测类型获取到的图片;合并单元,用于将所述第一样本图片集合和所述第二样本图片集合合并,得到第三样本图片集合;第二得到单元,用于通过所述第三样本图片集合对所述第二图片神经网络模型进行训练,得到所述第三样本图片集合中每个样本图片的第二预测类型和第三图片神经网络;确定单元,用于在所述第三样本图片集合中的所述每个样本图片的标注类型和所述第二预测类型之间的损失值满足所述目标预设条件的情况下,将所述第三图片神经网络模型确定为目标图片神经网络。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述图片神经网络模型的训练方法。
根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过所述计算机程序执行上述的图片神经网络模型的训练方法。
在本发明实施例中,通过获取第一样本图片集合;通过第一样本图片集合对第一图片神经网络模型进行训练,得到第一样本图片集合中每个样本图片的第一预测类型和第二图片神经网络模型;在每个样本图片的标注类型和第一预测类型之间的损失值不满足目标预设条件的情况下,获取第二样本图片集合,其中,第二样本图片集合中的部分样本图片是根据第一预测类型获取到的图片;将第一样本图片集合和第二样本图片集合合并,得到第三样本图片集合;通过第三样本图片集合对第二图片神经网络模型进行训练,得到第三样本图片集合中每个样本图片的第二预测类型和第三图片神经网络;在第三样本图片集合中的每个样本图片的标注类型和第二预测类型之间的损失值满足目标预设条件的情况下,将第三图片神经网络模型确定为目标图片神经网络,在本实施例中,通过循环迭代的样本图片集合对训练待训练的图片神经网络模型,当前训练的样本图片集合是上次训练使用的样本集合与当前获取到的样本集合的合并,当前获取的样本集合与使用上次训练的样本图片训练的图片神经网络模型的结果有关系,达到了将样本图片收集和图片神经网络模型的训练结合起来,根据当前图片神经网络模型的不足,针对性地补充训练样本图片的目的,进而解决了现有技术中,获取训练图片神经网络模型的样本图片的方式单一的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的图片神经网络模型的训练方法的应用环境的示意图;
图2是根据本发明实施例的一种可选的图片神经网络模型的训练方法的流程图;
图3是根据本发明实施例的一种可选的图片类型的识别方法的流程图;
图4是根据本发明实施例的一种可选的半自动化样本收集以及模型迭代方法的框架图;
图5是根据本发明实施例的一种可选的图片神经网络模型的训练装置的结构示意图;
图6是根据本发明实施例的一种可选的图片类型的识别装置的结构示意图;
图7是根据本发明实施例的一种可选的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种图片神经网络模型的训练方法,可选地,作为一种可选的实施方式,上述图片神经网络模型的训练方法可以但不限于应用于如图1所示的环境中。终端设备102、网络104以及服务器106。终端设备102中可以运行网站或网页。
通过样本图片抓取工具从网页或网站中抓取样本图片,对样本图片标注类型,得到第一样本图片集合以及第一样本图片集合中的每个样本图片的标注类型。
服务器106获取第一样本图片集合以及第一样本图片集合中的每个样本图片的标注类型;将第一样本图片集合中的每个样本图片输入至第一图片神经网络模型中,得到第一样本图片集合中的每个样本图片的预测类型;在每个样本图片的标注类型和预测类型之间的损失值不满足目标预设条件的情况下,获取第二样本图片集合以及第二样本图片集合中的每个样本图片的标注类型,其中,第二样本图片集合中的部分样本图片是根据第一图片神经网络模型得到的每个样本图片的预测类型获取到的图片;将第一样本图片集合和第二样本图片集合合并,得到第三样本图片集合;第二图片神经网络模型是使用第一样本图片集合对第一图片神经网络模型进行训练所得到的模型;在第三样本图片集合中的每个样本图片的标注类型和预测类型之间的损失值满足目标预设条件的情况下,将第三图片神经网络模型确定为目标图片神经网络,其中,第三图片神经网络模型是使用第三样本图片集合对第二图片神经网络模型进行训练所得到的模型,目标图片神经网络用于确定输入至目标图片神经网络的图片的预测类型,在本实施例中,通过循环迭代的样本图片集合对训练待训练的图片神经网络模型,当前训练的样本图片集合是上次训练使用的样本集合与当前获取到的样本集合的合并,当前获取的样本集合与使用上次训练的样本图片训练的图片神经网络模型的结果有关系,达到了将样本图片收集和图片神经网络模型的训练结合起来,根据当前图片神经网络模型的不足,针对性地补充训练样本图片的目的,进而解决了现有技术中,获取训练图片神经网络模型的样本图片的方式单一的技术问题。
需要说明的是,在本实施例中,在未确定目标图片神经网络模型之前的图片神经网络均为待训练的图片神经网络模型,即第一图片神经网络模型、第二图片神经网络均可以看成待训练的神经网络模型,其中,第二图片神经网络模型是在第一图片神经网络模型的基础上继续训练得到的图片神经网络模型。
可选地,在本实施例中,上述终端设备可以是配置有目标客户端的终端设备,可以包括但不限于以下至少之一:手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices,移动互联网设备)、PAD、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器。上述仅是一种示例,本实施例中对此不作任何限定。
可选地,作为一种可选的实施方式,如图2所示,上述图片神经网络模型的训练方法包括:
步骤S202,获取第一样本图片集合。
步骤S204,通过第一样本图片集合对第一图片神经网络模型进行训练,得到第一样本图片集合中每个样本图片的第一预测类型和第二图片神经网络模型。
步骤S206,在每个样本图片的标注类型和第一预测类型之间的损失值不满足目标预设条件的情况下,获取第二样本图片集合,其中,第二样本图片集合中的部分样本图片是根据第一预测类型获取到的图片。
步骤S208,将第一样本图片集合和第二样本图片集合合并,得到第三样本图片集合。
步骤S210,通过第三样本图片集合对第二图片神经网络模型进行训练,得到第三样本图片集合中每个样本图片的第二预测类型和第三图片神经网络。
步骤S212,在第三样本图片集合中的每个样本图片的标注类型和第二预测类型之间的损失值满足目标预设条件的情况下,将第三图片神经网络模型确定为目标图片神经网络。
可选的,在本实施例中,上述图片神经网络模型的训练可以包括但不限于应用在图片识别模型的训练过程中,其循环迭代的核心思想,还可以应用于人脸关键点的神经网络模型的训练,即通过不断更新的样本图片集合,训练待训练的人脸关键点的神经网络模型,得到人脸关键点的目标神经网络模型。即上述图片神经网络模型的训练过程可以应用任何基于图片训练的神经网络模型。
在本实施例中,获取第一样本图片集合,可以包括从网页或网站中获取样本图片集合之后,还可以获取第一样本图片集合中每个样本图片的标注类型。其中,第一样本图片集合中的样本图片的标注类型可以是该样本图片在网页或网站中已经标注的标注类型,还可以是人为标注的标注类型。
其中,在每个样本图片的标注类型和第一预测类型之间的损失值不满足目标预设条件的情况下,获取第二样本图片集合之后,还可以包括:获取第二样本图片集合中每个样本图片的标注类型。其中,第二样本图片集合中的样本图片的标注类型可以是该样本图片在网页或网站中已经标注的标注类型,还可以是人为标注的标注类型。
还需要说明的是,目标图片神经网络模型可以理解为训练好的神经网络模型,用于识别目标图片的类型,即利用目标图片神经网络识别待识别图片的类型。如待识别目标图片1中存在猫的图片,则目标图片的类型为一张猫的图片,待识别图片2中存在一辆车的图片,目标图片的类型为车的图片。
需要说明的是,图片的类型还可以包括但不限于图片的类型为风景图片,动物图片、植物图片等,根据用户观看图片的感受确定图片的类型还可以包括但不限于恶心的图片、刺激的图片、惊悚的图片等。
在本实施例中,通过上述图片神经网络模型的训练方法得到目标图片神经网络模型,目标图片神经网络模型可以包括但不限于图片类型的识别,可以识别出视频中每帧图片的类型,进而根据视频中每帧图片的类型选择出视频封面图片,避免将视频中不适的图片作为视频的封面图片,还可以应用图片个性化推荐系统中,可以识别出图片的类别,将图片推荐给用户观看时,根据用户观看的反馈,可以避免向用户推荐相应类别的图片,实现个性化推荐,提高用户观看体验。
在实际应用中,图片神经网络模型的训练通常的做法是:先获取足够的训练样本,对训练样本进行标注,使用标注的训练样本训练常用分类模型例如InceptionV3、ResNet等,图片神经网络模型的训练需要足够多的样本图片,以及需要对足够多的样本图片进行人为标注,在一些场景下,样本图片本身存在较少,样本图片获取困难;样本图片需要人为标注,人力成本较高。
在本实施例中,图片神经网络模型的训练方法中可以通过循环迭代的样本图片集合对训练待训练的图片神经网络模型,当前训练的样本图片集合是上次训练使用的样本集合与当前获取到的样本集合的合并,当前获取的样本集合与使用上次训练的样本图片训练的图片神经网络模型的结果有关系,达到了将样本图片收集和图片神经网络模型的训练结合起来,根据当前图片神经网络模型的不足,针对性地补充训练样本图片的目的,进而解决了现有技术中,获取训练图片神经网络模型的样本图片的方式单一的技术问题。
可选的,在本实施例中,在未确定目标图片神经网络模型之前的图片神经网络模型均可以看成为待训练的图片神经网络模型,即上述第一图片神经网络模型、第二图片神经网络模型可以看成待训练的图片神经网络模型,直到待训练的图片神经网络模型的损失函数值满足预设条件下,得到目标图片神经网络模型。上述第一图片神经网络模型、第二图片神经网络模型还可以理解为,得到目标图片神经网络模型训练的中间态。
还需要说明的是,在本实施例中,上述在第三图片神经网络模型对应的损失函数值不满足预设条件的情况下,还需要根据第四样本图片集合训练第三图片神经网络模型,直到第N图片神经网络模型对应的损失函数值满足预设条件的情况下,得到用于图片识别的目标图片神经网络模型,其中第三样本集合的获取方式与第三样本图片集合的获取方式相同,即用于训练当前图片神经网络模型的样本图片集合,需要根据上一次训练的图片神经网络模型有关,进而实现了样本图片的再次利用,实现样本图片的扩充,在模型优化迭代过程中,有针对性地补充模型学习不好的困难样本。进而根据充足的样本图片训练图片神经网络模型,得到高精度的目标图片神经网络模型。
在本实施例中,可以从网站或网页中抓取样本图片,得到第一样本图片集合,并对第一样本图片集合中的每个样本图片进行标注,得到每个样本图片的标注类型,将第一样本图片集合中的每个样本图片输出至第一图片神经网络模型中,得到第一样本图片集合中的每个样本图片的第一预测类型,以及使用第一样本图片集合训练第一图片神经网络模型得到的第二图片神经网络模型,在使用第一样本图片集合训练第一图片神经网络模型不满足模型训练任务要求时,即第二图片神经网络模型不满足用于识别目标图片的要求的情况下,根据第一图片神经网络模型得到的每个样本图片的第一预测类型获取第二样本图片集合中的样本图片,将第二样本图片集合和第一样本图片集合合并,得到第三样本图片集合,并将第三样本图片集合中的样本图片输入至第二图片神经网络模型中,得到第二图片神经网络模型输出的第三样本图片集合中的每个样本图片的第二预测类型,判断第三样本图片集合中的每个样本图片的标注类型和第二预测类型之间的损失值是否满足目标预设条件。
其中,在第三样本图片集合中的每个样本图片的标注类型和第二预测类型之间的损失值不满足目标预设条件的情况下,将按照上述获取第三样本图片集合的方式获取第四样本图片集合,进而对第三图片神经网络模型进行训练,直至第N样本图片集合中的每个样本图片的标注类型和预测类型之间的损失值满足目标预设条件的情况下,结束图片神经网络的训练,得到目标图片神经网络模型。
其中,在第三样本图片集合中的每个样本图片的标注类型和第二预测类型之间的损失值满足目标预设条件的情况下,将第三图片神经网络模型确定为目标图片神经网络,其中,目标图片神经网络用于确定输入至目标图片神经网络的图片的预测类型。
可选的,在本实施例中,可以通过机器学习,设计半自动化样本图片收集以及图片神经网络模型迭代优化框架,将样本收集和图片神经网络模型迭代相结合,自动挖掘困难样本,提升模型识别能力。
其中,机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。
可选的,上述图片神经网络模型的训练方法还可以用于人工智能(ArtificialIntelligence,AI)领域,即AI自动识别目标图片,识别目标图片中类型,根据类型确定图片是否允许用户观看。还可以用于与计算机视觉技术(Computer Vision,CV)领域,代替用户识别图片的类型。
其中,计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
通过本申请提供的实施例,获取第一样本图片集合;通过第一样本图片集合对第一图片神经网络模型进行训练,得到第一样本图片集合中每个样本图片的第一预测类型和第二图片神经网络模型;在每个样本图片的标注类型和第一预测类型之间的损失值不满足目标预设条件的情况下,获取第二样本图片集合,其中,第二样本图片集合中的部分样本图片是根据第一预测类型获取到的图片;将第一样本图片集合和第二样本图片集合合并,得到第三样本图片集合;通过第三样本图片集合对第二图片神经网络模型进行训练,得到第三样本图片集合中每个样本图片的第二预测类型和第三图片神经网络;在第三样本图片集合中的每个样本图片的标注类型和第二预测类型之间的损失值满足目标预设条件的情况下,将第三图片神经网络模型确定为目标图片神经网络,其中,第三图片神经网络模型是使用第三样本图片集合对第二图片神经网络模型进行训练所得到的模型,目标图片神经网络用于确定输入至目标图片神经网络的图片的预测类型,在本实施例中,通过循环迭代的样本图片集合对训练待训练的图片神经网络模型,当前训练的样本图片集合是上次训练使用的样本集合与当前获取到的样本集合的合并,当前获取的样本集合与使用上次训练的样本图片训练的图片神经网络模型的结果有关系,达到了将样本图片收集和图片神经网络模型的训练结合起来,根据当前图片神经网络模型的不足,针对性地补充训练样本图片的目的,进而解决了现有技术中,获取训练图片神经网络模型的样本图片的方式单一的技术问题。
作为一种可选的实施例,上述获取第二样本图片集合,可以包括:根据第一样本图片集合中的每个样本图片的标注类型以及第一预测类型,在第一样本图片集合中确定待重新进行类型标注的第一样本图片子集,其中,第一样本图片子集中的样本图片的标注类型和第一预测类型不同;将第一样本图片子集确定为第二样本图片集合或第二样本图片集合的子集。
在本实施例中,将第一样本图片集合确定为包括第一样本图片子集,即将第一样本图片子集确定为第二样本图片集合或第二样本图片集合的子集。也就是说,第二样本图片集合可以只包括第一样本图片子集,还可以包括其他方式获取的样本图片子集。可以根据第一图片神经网络模型的预测样本图片类型的结果与样本图片的标注类型,有针对性的获取第一样本图片子集,即可以从第一样本图片集合中获取第一样本图片子集,可以将第一样本图片集合中的样本图片重新标注,重新训练,增加了样本图片的有效利用率,减少样本图片本身存在较少,样本图片获取的困难。
可选的,根据第一样本图片集合中的每个样本图片的标注类型以及第一预测类型,在第一样本图片集合中确定待重新进行类型标注的第一样本图片子集,可以包括:在第一样本图片集合中获取标注类型与第一预测类型不同的样本图片;将第一样本图片子集确定为包括标注类型与第一预测类型不同的样本图片中的全部或部分样本图片。
例如,第一样本图片集合中包括样本图片400张,其标注类型为A,将100张样本图片输入至第一图片神经网络模型中,输出100张样本图片的第一预测类型,第一预测类型中类型是A的380张,类型不是A的20张,可以将20张中的部分或全部从新构成第一样本图片子集,第二样本图片集合包括第一样本图片子集。进而将第二样本图片集合和第一样本图片集合合并,得到第三样本图片集合,进而训练第二图片神经网络模型,得到第三图片神经网络模型。
还需要说明的是,在第二样本图片集合包括第一样本图片子集的情况下,第一样本图片子集中的样本图片在第一样本图片集合中出现过,因此,将去除与第一样本图片子集相同的第一样本图片集合和第一样本图片子集进行合并,得到第三样本图片集合,进而保证第三样本图片集合中同一张样本图片只有一个标注类型。
可选的,根据第一样本图片集合中的每个样本图片的标注类型以及第一预测类型,在第一样本图片集合中确定待重新进行类型标注的第一样本图片子集,可以包括:在第一样本图片集合中的样本图片的标注类型共包括多个标注类型的情况下,在多个标注类型中确定目标标注类型,其中,在第一样本图片集合中的目标标注类型的样本图片中,标注类型与第一预测类型不同的样本图片的占比大于第一阈值,或,标注类型与第一预测类型不同的样本图片的数量大于第二阈值;在第一样本图片集合中获取标注类型为目标标注类型、且标注类型与第一预测类型不同的样本图片;将第一样本图片子集确定为包括标注类型为目标标注类型、且标注类型与第一预测类型不同的样本图片中的全部或部分样本图片。
在本实施例中,在第一样本图片集合中的样本图片的标注类型共包括多个标注类型的情况下,可以只获取第一样本图片集合中标注类型与预测类型不同的样本图片的占比大于第一阈值的目标类型图片中的样本图片,还可以只获取第一样本图片集合中标注类型与预测类型不同的样本图片的数量大于第二阈值的目标类型图片中的样本图片。进而可以获取有效的样本图片。
例如,第一样本图片集合包括4种类型的样本图片,类型a、b、c、d,共400张,类型a包括100张,类型b包括100张,类型c包括100张,类型d包括100张,对于类型a的样本图片,第一图片神经网络模型输出的预测类型包括a类型的包括80张,对于类型b的样本图片,第一图片神经网络模型输出的预测类型包括b类型的包括70张,对于类型c的样本图片,第一图片神经网络模型输出的预测类型包括c类型的包括90张,对于类型d的样本图片,第一图片神经网络模型输出的预测类型包括d类型的包括60张,根据第一图片神经网络模型的输出可以知晓,对于类型a,标注类型与预测类型不同的样本图片的占比为20/100,对于类型b,标注类型与预测类型不同的样本图片的占比为30/100,对于类型c,标注类型与预测类型不同的样本图片的占比为10/100,对于类型d,标注类型与预测类型不同的样本图片的占比为40/100。类型d中的标注类型与预测类型不同的样本图片的占比为40/100大于第二阈值0.3,在第一样本图片集合中获取标注类型为d、且标注类型与预测类型不同的样本图片;将第一样本图片子集确定为包括标注类型为d、且标注类型与预测类型不同的样本图片中的全部或部分样本图片。其中,上述标注类型与预测类型不同的样本图片的占比可以理解为第一图片神经网络模型的输出的错误率。
作为一种可选的实施例,上述获取第二样本图片集合中的每个样本图片的标注类型,可以包括:获取对第一样本图片子集中的每个样本图片进行重新标注所得到的标注类型。
可选的,获取对第一样本图片子集中的每个样本图片进行重新标注所得到的标注类型,可以包括:响应于重新标注指令,获取对第一样本图片子集中的每个样本图片进行重新标注所得到的标注类型,其中,重新标注指令中指示了第一样本图片子集中的每个样本图片的重新标注的标注类型;或者根据第一图片神经网络模型确定的第一样本图片子集中的每个样本图片的各个预测类型的概率,获取对第一样本图片子集中的每个样本图片进行重新标注所得到的标注类型。
在本实施例中,可以根据第一图片神经网络模型对每张样本图片的预测不同类型的概率对第一样本图片子集中的样本图片重新标注类型。例如,第一样本图片集合包括4种类型的样本图片,类型a、b、c、d,共400张,类型a包括100张,类型b包括100张,类型c包括100张,类型d包括100张,对于类型d,标注类型与预测类型不同的样本图片的占比为40/100。类型d中的标注类型与预测类型不同的样本图片的占比为40/100大于第二阈值0.3,在第一样本图片集合中获取标注类型为d、且标注类型与预测类型不同的样本图片;将第一样本图片子集确定为包括标注类型为d、且标注类型与预测类型不同的样本图片中的全部或部分样本图片。其中,上述标注类型与预测类型不同的样本图片的占比可以理解为第一图片神经网络模型的输出的错误率。
对第一图片样本子集中包括第一样本图片集合中样本图片类型d的40张样本图片进行重新标注,其中,可以获取40张样本图片中每张样本图片在第一图片神经网络模型中的全连接层输出不同类型的概率,确定第一样本图片子集中每张样本图片的标注标签。如第一图片子集中的一张样本图片通过第一图片神经网络模型输出的预测类型为a,其中,全连接层中预测类型a的概率是0.5,输出类型b的概率是0.1,输出类型c的概率是0.1,输出类型d的概率是0.3,则可以将第一样本图片子集中的样本图片的类型标注为a,第一图片样本子集中的样本图片可以重新标注为第一图片神经网络模型中全连接层的预测概率最高的预测类型。
需要说明的是,第一样本图片集合中的多个类型对应第一图片神经网络模型中全连接层的一组预测类型,如第一样本图片集合中包括3种类型,则第一图片神经网络模型中的全连接层可以一张样本图片为3种类型各个预测的概率。其中,第一图片神经网络模型输出的预测类型对应全连接层中预测概率最高的类型。
作为一种可选的实施例,上述获取第二样本图片集合,可以包括:获取第一样本图片集合中的每个样本图片的图片标签;在第一样本图片集合中的样本图片的图片标签共包括多个图片标签的情况下,在多个图片标签中确定目标图片标签,其中,在第一样本图片集合中,标签为目标图片标签的样本图片的占比大于第三阈值,或者,标签为目标图片标签的样本图片的数量大于第四阈值;在目标图片数据库中或从目标网站上获取与目标图片标签匹配的样本图片,得到第二样本图片子集;将第二样本图片子集确定为第二样本图片集合或第二样本图片集合的子集。
在本实施例中,将第二样本图片子集确定为第二样本图片集合或第二样本图片集合的子集,即第二样本图片集合可以只包括第二样本图片子集,还可以包括第二样本图片子集和第一样本图片子集。第一样本图片集合中的每个样本图片会有自身的图片标签,图片标签可以是在该样本图片被上传至网站或网页是标注的,也可以是不同用户浏览或使用后,对样本图片标注的。在第一样本图片集合中的样本图片标签包括多个图片标签的情况下,确定图片标签出现次数最多的标签,在目标图片数据库中或从目标网站上获取与目标图片标签匹配的样本图片,得到第二样本图片子集,第二样本图片集合可以只包括第二样本图片子集,还可以包括第二样本图片子集和第一样本图片子集,还可以包括其他方式获取的样本图片。
例如,第一样本图片集合中的样本图片的图片标签包括标签1、标签2、标签3以及标签4,4种标签,共300张样本图片,其中,包括标签1的样本图片有200张,包括标签2的样本图片有100张,包括标签3的样本图片有50张,包括标签4的样本图片有100张,则可以将标签1作为目标标签,在目标图片数据库中或从目标网站上获取与目标图片标签匹配的样本图片,得到第二样本图片子集;将第二样本图片集合确定为包括第二样本图片子集。即在本实施例中,统计第一样本图片集合中图片标签出现最高目标图片的标签,进而可以在目标网站或网页中获取更准确的样本图片。
可选的,在目标图片数据库中或从目标网站上获取与目标图片标签匹配的样本图片,得到第二样本图片子集,可以包括:在目标图片数据库中以目标图片标签为关键词抓取图片,得到第一组样本图片,其中,第二样本图片子集包括第一组样本图片,目标图片数据库中的图片是动态更新的;和/或从目标网站上以目标图片标签为关键词抓取图片,得到第二组样本图片,其中,第二样本图片子集包括第二组样本图片,目标网站上的图片是动态更新的。
可选的,在目标图片数据库中或从目标网站上获取与目标图片标签匹配的样本图片,得到第二样本图片子集,可以包括:在目标图片数据库中获取标题包括目标图片标签的样本图片,得到第三组样本图片,其中,第二样本图片子集包括第三组样本图片,目标图片数据库中的图片是动态更新的;和/或从目标网站上获取标题包括目标图片标签的样本图片,得到第四组样本图片,其中,第二样本图片子集包括第四组样本图片,目标网站上的图片是动态更新的。
作为一种可选的实施例,上述获取第二样本图片集合,可以包括:在开源数据集中获取标签包括目标图片标签的图片,得到第三样本图片子集,其中,目标图片标签为预设的图片标签,或者,根据第一样本图片集合中的样本图片的图片标签确定得到的图片标签;将第三样本图片子集确定为第二样本图片集合或第二样本图片集合的子集。
可选的,在本实施例中,将第二样本图片集合确定为可以包括第三样本图片子集,第二样本图片集合可以只包括第三样本图片子集,还可以包括第第三样本图片子集、二样本图片子集和第一样本图片子集,还可以包括其他方式获取的样本图片。目标标签可以是在第一样本图片集合中,标签为目标图片标签的样本图片的占比大于第三阈值,或者,标签为目标图片标签的样本图片的数量大于第四阈值。进而可以根据目标标签获取更贴切图片神经网络模型训练的样本图片。
作为一种可选的实施例,上述获取第二样本图片集合,可以包括:根据一组预测类型,从本地数据库中获取样本图片,得到第四样本图片子集,其中,第四样本图片子集中的每个样本图片的标注类型为一组预测类型中的一个类型,第一图片神经网络模型用于将输入的图片的类型预测成一组预测类型中的一个类型;将第四样本图片子集确定为第二样本图片集合或第二样本图片集合的子集。
在本实施例中,将第二样本图片集合确定为包括第四样本图片子集,即第二样本图片集合可以只包括第四样本图片子集,可以包括第四样本图片子集、第三样本图片子集、第二样本图片子集、第一样本图片子集,还可以包括第四样本图片子集、第三样本图片子集、第二样本图片子集,还可以包括第四样本图片子集、第三样本图片子集,还可以包括其他方式获取的样本图片。根据第一图片神经网络模型的训练任务,从本地数据库中获取样本图片,并对样本图片进行标注类型,得到第二样本图片集合包括的第四样本图片子集。
在本实施例中,第二图片样本集合可以包括以下之一:第一样本图片子集、第二样本图片子集、第三样本图片子集、第四样本图片子集,其中,第一样本图片子集、第二样本图片子集、第三样本图片子集、第四样本图片子集是按照不同的方式获取的样本图片子集,即在本实施例中,采用了多路样本收集策略,解决训练样本标注成本高的问题,并提高训练集样本的丰富性。
可选的,上述方法还可以包括:在第一样本图片集合中的样本图片与第二样本图片集合中的样本图片均不同的情况下,将第一样本图片集合和第二样本图片集合的并集确定为第三样本图片集合,其中,第三样本图片集合中的每个样本图片的标注类型包括第一样本图片集合中的每个样本图片的标注类型、以及第二样本图片集合中的每个样本图片的标注类型;在第一样本图片集合中的样本图片与第二样本图片集合中的样本图片存在部分相同的样本图片、且部分相同的样本图片的标注类型不同的情况下,将第一样本图片集合和第二样本图片集合的并集确定为第三样本图片集合,其中,第三样本图片集合中的部分相同的样本图片的标注类型被设置为第二样本图片集合中的部分相同的样本图片的标注类型,第三样本图片集合中除部分相同的样本图片之外的样本图片的标注类型包括:第一样本图片集合中除部分相同的样本图片之外的样本图片的标注类型、以及第二样本图片集合中除部分相同的样本图片之外的样本图片的标注类型。
在本实施例中,保证第二样本图片集合中的每张样本图片对应一个标注类型,进而提高第二图片神经网络模型的训练准确性。
可选的,将第一样本图片集合中的每个样本图片输入至第一图片神经网络模型中,得到第一样本图片集合中的每个样本图片的预测类型,可以包括:对于第一样本图片集合中的每个样本图片,执行以下步骤,其中,在执行以下步骤时,第一样本图片集合中的每个样本图片被视为当前样本图片:将当前样本图片输入至当前的第一图片神经网络模型中,得到第一图片神经网络模型输出的当前样本图片的预测类型,其中,第一图片神经网络模型包括预设的依次连接的N个训练子模块,N为大于1的自然数;在根据当前样本图片的预测类型和标注类型确定出的损失值不满足目标预设条件的情况下,仅调整N个训练子模块中的第N个训练子模块中的参数,得到当前的第一图片神经网络模型。
在本实施例中,第一图片神经网络模型可以包括预设的依次连接的N个训练子模块;在根据当前样本图片的预测类型和标注类型确定出的损失值不满足目标预设条件的情况下,可以仅调整N个训练子模块中的第N个训练子模块中的参数,得到当前的第一图片神经网络模型。
其中,上述第一图片神经网络模型可以是BiT预训练模型,其包括依次连接的5个训练子模块,在本实施例中,将冻结前5个训练子模块,仅调整第5训练子模块的参数,进而可以加快模型的训练。在本实施例中,既可以应用结合BiT预训练模型的结构,又可以实现模型的快速训练。
可选的,根据预设的目标损失函数、当前样本图片的预测类型和标注类型,确定目标损失值,其中,当前样本图片的预测类型和标注类型对应的参数是目标损失函数的输入参数,目标损失函数包括预设的平滑处理子函数,平滑处理子函数用于对目标损失函数确定的目标损失值进行平滑处理;判断目标损失值是否满足目标预设条件。
在本实施例中,在预设的目标损失函数引入平滑处理子函数,增加目标损失的平滑,防止过拟合,上述平滑处理子函数可以是标签损失函数label_smoothing。
可选地,作为一种可选的实施方式,如图3所示,上述图片类型的识别方法包括:
步骤S302,获取待识别的目标图片。
步骤S304,将目标图片输入目标图片神经网络模型,得到目标图片神经网络模型确定的目标图片的预测类型,其中,目标图片神经网络模型是使用多个样本图片集合对待训练的图片神经网络模型进行多轮训练所得到的模型,在每轮训练中,使用一个样本图片集合对待训练的图片神经网络模型进行训练,每轮训练所使用的样本图片集合是对上一轮训练所使用的样本图片集合以及当前轮所获取到的样本图片集合进行合并得到的集合,当前轮所获取到的样本图片集合中的部分样本图片是根据上一轮训练所确定的样本图片的预测类型所获取得到的图片;
步骤S306,输出目标图片的预测类型。
可选的,在本实施例中,上述图片类型的识别方法可以包括但不限于应用视频中的图片类型的识别,如自媒体中主播创造的视频;还用于根据识别图片类型,确定视频的封面图片,进而提高视频的曝光率。
在本实施例中,可以通过人工智能的方式学习得到上述目标图片神经网络。该目标图片神经网络可以自动识别出视频中每张图片的类型,判断视频中是否存在不适合观看的图片,在存在不适合观看的图片的情况下,禁止将该视频推送给用户观看。
可选的,在本实施例中,在多个样本图片集合包括第一样本图片集合、第二样本图片集合、第三样本图片集合的情况下,使用多个样本图片集合对待训练的图片神经网络模型进行多轮训练所得到目标图片神经网络模型,包括:
S1,获取第一样本图片集合以及第一样本图片集合中的每个样本图片的标注类型;
S2,将第一样本图片集合中的每个样本图片输入至第一图片神经网络模型中,得到第一样本图片集合中的每个样本图片的预测类型,其中,第二图片神经网络模型是使用第一样本图片集合对第一图片神经网络模型进行训练所得到的模型;
S3,在每个样本图片的标注类型和预测类型之间的损失值不满足目标预设条件的情况下,获取第二样本图片集合以及第二样本图片集合中的每个样本图片的标注类型,其中,第二样本图片集合中的部分样本图片是根据第一图片神经网络模型得到的每个样本图片的预测类型获取到的图片;
S4,将第三样本图片集合中的每个样本图片输入至第二图片神经网络模型中,得到第三样本图片集合中的每个样本图片的预测类型,其中,第三样本图片集合是对第一样本图片集合和第二样本图片集合进行合并得到的集合,第三图片神经网络模型是使用第三样本图片集合对第二图片神经网络模型进行训练所得到的模型;
S5,在第三样本图片集合中的每个样本图片的标注类型和预测类型之间的损失值满足目标预设条件的情况下,将第三图片神经网络模型确定为目标图片神经网络,其中,目标图片神经网络用于确定输入至目标图片神经网络的图片的预测类型。
在本实施例中,目标图片神经网络的模型是通过循环迭代的样本图片集合对训练待训练的图片神经网络模型,当前训练的样本图片集合是上次训练使用的样本集合与当前获取到的样本集合的合并,当前获取的样本集合与使用上次训练的样本图片训练的图片神经网络模型的结果有关系,即根据足够的样本图片训练得到目标图片神经网络。
通过本申请提供的实施例,获取待识别的目标图片;将目标图片输入目标图片神经网络模型,得到目标图片神经网络模型确定的目标图片的预测类型,其中,目标图片神经网络模型是使用多个样本图片集合对待训练的图片神经网络模型进行多轮训练所得到的模型,在每轮训练中,使用一个样本图片集合对待训练的图片神经网络模型进行训练,每轮训练所使用的样本图片集合是对上一轮训练所使用的样本图片集合以及当前轮所获取到的样本图片集合进行合并得到的集合,当前轮所获取到的样本图片集合中的部分样本图片是根据上一轮训练所确定的样本图片的预测类型所获取得到的图片;输出目标图片的预测类型。由于目标图片神经网络模型是通过循环迭代的样本图片集合对训练待训练的图片神经网络模型,可以根据迭代的样本图片集合获取足够多的样本图片,进而可以得到识别精度高的目标图片神经网络模型。
根据本发明实施例的一个方面,提供了一种半自动化样本收集以及模型迭代方法。如图4所示,半自动化样本收集以及模型迭代方法的框架图。具体的实现过程如下。
在图4中,构造了多种样本图片集合筛选策略,根据多种筛选策略获取第二样本图片集合,并将第二样本图片集合合并到第一样本图片集合中,得到更新后的第三样本图片集合,通过第三样本图片集合训练待训练的图片神经网络模型,直到待训练的图片神经网络模型满足图片识别任务的要求,结束对图片神经网络模型的训练,得到目标图片神经网络模型。
本实施例中的图片神经网络模型的训练方法可以应用于样本图片本身不多,样本图片获取困难的场景中,即根据当前图片神经网络模型的预测结果,采用多种样本图片召唤策略,补充用于训练图片神经网络模型的样本图片,即实现了训练图片神经网络模型需要多少样本图片,获取需要的样本图片即可,以及根据需要的样本图片可以训练得到满足需要的目标图片神经网络模型。
步骤S401,构造多种筛选策略,例如base模型粗召回,tag抓取,tag粗召回等。
步骤S402,根据筛选策略召回待标注数据X,进行人工标注后得到X*,补充到标注数据集L中。
在本实施例中,待标注数据X(相当于上述第二样本图片集合中的待标注类型的样本),将标注类型的第二样本图片集合与补充到第一样本图片集合L中。
步骤S403,使用更新后的标注数据集L训练待训练的图片神经网络模型。
在本实施例中,使用更新后的标注数据集L,可以得到第三样本图片集合,即使用第三样本图片集合训练图片神经网络模型,其中,待训练的图片神经网络模型可以包括得到目标图片神经网络模型过程中的中间态的第一图片神经网络模型、第二图片神经网络模型。
步骤S404,待训练的图片神经网络模型训练完成后,计算待训练的图片神经网络模型指标是否满足业务需求。如果满足需求则完成模型训练以及样本收集;如果不满足业务指标需求,则从未标注样本池中过滤掉上一次的标注数据X。继续重复上述流程,直到满足指标需求为止。
在本实施例中,待训练的图片神经网络模型训练完成后,得到第三图片神经网络,计算待训练的图片神经网络模型指标是否满足业务需求,包括:
在第三样本图片集合中的每个样本图片的标注类型和预测类型之间的损失值满足目标预设条件的情况下,将第三图片神经网络模型确定为目标图片神经网络,其中,目标图片神经网络用于确定输入至目标图片神经网络的图片的预测类型。
需要说明的是,训练集(样本图片集合)的构造需要满足多样性和丰富性,才可以使训练得到的目标图片神经网络模型具有更好的泛化能力。本实施例中,多路筛选策略,通过不同维度例如图片、标题,不同来源例如业务数据、网络爬取、开源数据集等保证训练集的多样性。
在本实施例中,多路筛选策略具体包括如下内容。
a)base模型粗召回:根据当前训练的图片神经网络模型(第一图片神经网络)预测未标注样本(第一样本图片子集或第二样本图片子集),通过设定阈值粗召回一批疑似不适图片。这批较低阈值样本中包含了第一图片神经网络模型学习不好的困难样本,经过标注后补充到训练集重新训练第二图片神经网络模型可以提升模型识别效果。
在本实施例中,根据第一样本图片集合中的每个样本图片的标注类型以及预测类型,在第一样本图片集合中确定待重新进行类型标注的第一样本图片子集,其中,第一样本图片子集中的样本图片的标注类型和预测类型不同;将第二样本图片集合确定为包括第一样本图片子集。
可选的,根据第一样本图片集合中的每个样本图片的标注类型以及预测类型,在第一样本图片集合中确定待重新进行类型标注的第一样本图片子集,可以包括:在第一样本图片集合中的样本图片的标注类型共包括多个标注类型的情况下,在多个标注类型中确定目标标注类型,其中,在第一样本图片集合中的目标标注类型的样本图片中,标注类型与预测类型不同的样本图片的占比大于第一阈值,或,标注类型与预测类型不同的样本图片的数量大于第二阈值;在第一样本图片集合中获取标注类型为目标标注类型、且标注类型与预测类型不同的样本图片;将第一样本图片子集确定为包括标注类型为目标标注类型、且标注类型与预测类型不同的样本图片中的全部或部分样本图片。
例如,第一样本图片集合包括4种类型的样本图片,类型a、b、c、d,共400张,类型a包括100张,类型b包括100张,类型c包括100张,类型d包括100张,对于类型a的样本图片,第一图片神经网络模型输出的预测类型包括a类型的包括80张,对于类型b的样本图片,第一图片神经网络模型输出的预测类型包括b类型的包括70张,对于类型c的样本图片,第一图片神经网络模型输出的预测类型包括c类型的包括90张,对于类型d的样本图片,第一图片神经网络模型输出的预测类型包括d类型的包括60张,根据第一图片神经网络模型的输出可以知晓,对于类型a,标注类型与预测类型不同的样本图片的占比为20/100,对于类型b,标注类型与预测类型不同的样本图片的占比为30/100,对于类型c,标注类型与预测类型不同的样本图片的占比为10/100,对于类型d,标注类型与预测类型不同的样本图片的占比为40/100。类型d中的标注类型与预测类型不同的样本图片的占比为40/100大于第二阈值0.3,在第一样本图片集合中获取标注类型为d、且标注类型与预测类型不同的样本图片;将第一样本图片子集确定为包括标注类型为d、且标注类型与预测类型不同的样本图片中的全部或部分样本图片。其中,上述标注类型与预测类型不同的样本图片的占比可以理解为第一图片神经网络模型的输出的错误率。
b)tag抓取:统计第一样本图片集合中的样本图片的已有标注的标题tag(图片标签),通过计算频率得到高频tag,这些高频tag往往具有一定不适倾向性。利用开源图片抓取工具将这些高频tag作为关键词,自动从目标网站或网页上抓取对应图片,如弥补人工收集关键词存在的费时费力、覆盖面不全的问题。其中,目标网页可以包括但不限于谷歌的网页,百度的网页。
c)tag粗召回:计算得到高频tag后,除了作为关键词抓取图片外,也可以直接用tag做粗召回,从开放集中捞取标题tag含有这些关键词的对应封面图。
d)人审标记:为了更贴近实际业务场景,收集标准化流程中打上“惊悚、血腥、恐怖”标记的审核数据以及用户不适相关的负反馈数据。
e)开源数据集:收集开源数据集OpenImage中标签为“snake”“bug”等不适词语的数据。
在本实施例中,通过多路筛选策略可以得到多维度、多粒度且噪声较小的标注类型数据集,经过人工复标出的不适图片比例大约在20%,远高于自然分布下的随机标注(0.4%比例)。有效地提高了标注效率,减少了标注成本。
可选的,在本实施例中,由于不适图片实际占比极低,并且包含多个子类型,场景复杂,因此对模型的表征能力要求更高。待训练的图片神经网络模型引入预训练模型BiT(Big Transfer)。
其中,BiT的网络结构是基于ResNet结构,有五种不同深度不同宽度的模型结构以及三种不同规模的预训练数据集。具有如下优点:a)更大规模预训练语料:对比InceptionV3,BiT使用的预训练数据量大幅度增加,可以使模型学习到更充分的语义特征。b)预训练方式优化:BiT在预训练阶段做了优化,例如用GN+Weight Standardization取代了BN。当模型更大或者输入更大的时候,受显存大小的影响,batch_size一般会较小,传统的BN会受到影响。GN(Group Normalizaiton)是基于channel维度而不是样本维度做归一化,把channel方向分成多个组,计算每个组内多个channel的均值方差做归一化,不会受batch_size大小的影响。c)降低finetune调参工作:BiT在下游finetune时设计了HyperRule机制,可以根据任务自动设置训练step,是否mix-up等,降低fineune阶段的调参工作。
BiT主要是针对预训练数据量和预训练方式进行了优化,常规的用法是将backbone网络替换为BiT。在本实施例中,对BiT的使用也做了进一步的探索,目的是为了更好地适用于下游任务。主要包括以下三点:
a)模型尺寸选择:结合应用场景和数据集规模,经过充分的实验验证,ResNet-50*1能够较好地平衡推理效率和模型精度,因此选择ResNet-50*1作为分类模型。
b)BiT finetune策略选择:预训练模型应用在下游任务时常规的做法是finetune全部参数或者做冻结backbone网络,只训练分类全连接层。经过在不适任务上的充分实验,发现冻结BiT前三层Block,只finetune最后一层Block效果最好。因为不适训练数据量规模较小,如果finetune全部层容易使模型在预训练阶段学习到的表征知识遗忘过多,影响效果。
c)损失函数优化:在损失loss方面引入了label_smoothing增加平滑,防止过拟合。
在实际应用中,已有方法大多是样本收集和模型训练过程分离,没有针对当前模型挖掘困难样本。在标注训练样本时,人工标注效率低,成本高。并且分类模型表征能力有限,无法满足场景复杂、种类众多的不适任务场景。
通过本申请提供的实施例,将样本收集和模型训练结合起来,构建半自动化样本收集以及图片神经网络模型迭代优化框架。根据当前模型的不足,针对性地补充训练样本。采用多路召回策略保证样本图片集合中的样本图片丰富性,提高标注有效率,减少人工标注成本,标注有效率从0.4%提升至20%。引入预训练模型BiT,并根据不适图片任务优化BiT训练方式,提升模型表征能力。算法识别评测效果误判率0.3%,召回率60%。应用在腾讯看点业务上的封面图选图服务以及个性化推荐场景中,节省了大量审核人力,提升了用户阅读体验。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述图片神经网络模型的训练方法的图片神经网络模型的训练装置。如图5所示,该图片神经网络模型的训练装置包括:第一获取单元51、第一得到单元53、第二获取单元55、合并单元57、第二得到单元59以及确定单元511。
第一获取单元51,用于获取第一样本图片集合。
第一得到单元53,用于通过第一样本图片集合对第一图片神经网络模型进行训练,得到第一样本图片集合中每个样本图片的第一预测类型和第二图片神经网络模型。
第二获取单元55,用于在每个样本图片的标注类型和第一预测类型之间的损失值不满足目标预设条件的情况下,获取第二样本图片集合,其中,第二样本图片集合中的部分样本图片是根据第一预测类型获取到的图片。
合并单元57,用于将第一样本图片集合和第二样本图片集合合并,得到第三样本图片集合。
第二得到单元59,用于通过第三样本图片集合对第二图片神经网络模型进行训练,得到第三样本图片集合中每个样本图片的第二预测类型和第三图片神经网络。
确定单元511,用于在第三样本图片集合中每个样本图片的标注类型和第二预测类型之间的损失值满足目标预设条件的情况下,将第三图片神经网络模型确定为目标图片神经网络。
通过本申请提供的实施例,第一获取单元51获取第一样本图片集合;第一得到单元53通过第一样本图片集合对第一图片神经网络模型进行训练,得到第一样本图片集合中每个样本图片的第一预测类型和第二图片神经网络模型;第二获取单元55在每个样本图片的标注类型和第一预测类型之间的损失值不满足目标预设条件的情况下,获取第二样本图片集合,其中,第二样本图片集合中的部分样本图片是根据第一预测类型获取到的图片;合并单元57将所述第一样本图片集合和所述第二样本图片集合合并,得到第三样本图片集合;第二得到单元59通过第三样本图片集合对第二图片神经网络模型进行训练,得到第三样本图片集合中每个样本图片的第二预测类型和第三图片神经网络;确定单元511在第三样本图片集合中每个样本图片的标注类型和第二预测类型之间的损失值满足目标预设条件的情况下,将第三图片神经网络模型确定为目标图片神经网络。在本实施例中,通过循环迭代的样本图片集合对训练待训练的图片神经网络模型,当前训练的样本图片集合是上次训练使用的样本集合与当前获取到的样本集合的合并,当前获取的样本集合与使用上次训练的样本图片训练的图片神经网络模型的结果有关系,达到了将样本图片收集和图片神经网络模型的训练结合起来,根据当前图片神经网络模型的不足,针对性地补充训练样本图片的目的,进而解决了现有技术中,获取训练图片神经网络模型的样本图片的方式单一的技术问题。
可选的,上述第二获取单元55,可以包括:第一确定模块,用于根据第一样本图片集合中的每个样本图片的标注类型以及第一预测类型,在第一样本图片集合中确定待重新进行类型标注的第一样本图片子集,其中,第一样本图片子集中的样本图片的标注类型和第一预测类型不同;第二确定模块,用于将第一样本图片子集确定为第二样本图片集合或第二样本图片集合的子集。
上述第一确定模块,可以包括:第一获取子模块,用于在第一样本图片集合中获取标注类型与第一预测类型不同的样本图片;第一确定子模块,用于将第一样本图片子集确定为包括标注类型与预测类型不同的样本图片中的全部或部分样本图片。
上述第一确定模块,还可以包括:第二确定子模块,用于在第一样本图片集合中的样本图片的标注类型共包括多个标注类型的情况下,在多个标注类型中确定目标标注类型,其中,在第一样本图片集合中的目标标注类型的样本图片中,标注类型与第一预测类型不同的样本图片的占比大于第一阈值,或,标注类型与第一预测类型不同的样本图片的数量大于第二阈值;第二获取子模块,用于在第一样本图片集合中获取标注类型为目标标注类型、且标注类型与第一预测类型不同的样本图片;第三确定子模块,用于将第一样本图片子集确定为包括标注类型为目标标注类型、且标注类型与第一预测类型不同的样本图片中的全部或部分样本图片。
可选的,上述第二获取单元55,可以包括:第一获取模块,用于获取对第一样本图片子集中的每个样本图片进行重新标注所得到的标注类型。
其中,上述第一获取模块,可以包括:第三获取子模块,用于响应于重新标注指令,获取对第一样本图片子集中的每个样本图片进行重新标注所得到的标注类型,其中,重新标注指令中指示了第一样本图片子集中的每个样本图片的重新标注的标注类型。第四确定子模块,用于根据第一图片神经网络模型确定的第一样本图片子集中的每个样本图片的各个预测类型的概率,获取对第一样本图片子集中的每个样本图片进行重新标注所得到的标注类型。
可选的,上述第二获取单元55,还可以包括:第二获取模块,用于获取第一样本图片集合中的每个样本图片的图片标签;第二确定模块,用于在第一样本图片集合中的样本图片的图片标签共包括多个图片标签的情况下,在多个图片标签中确定目标图片标签,其中,在第一样本图片集合中,标签为目标图片标签的样本图片的占比大于第三阈值,或者,标签为目标图片标签的样本图片的数量大于第四阈值;第三获取模块,用于在目标图片数据库中或从目标网站上获取与目标图片标签匹配的样本图片,得到第二样本图片子集;第三确定模块,用于将第二样本图片子集确定为第二样本图片集合或第二样本图片集合的子集。
其中,上述第三获取模块,可以包括:
1)第一得到子模块,用于在目标图片数据库中以目标图片标签为关键词抓取图片,得到第一组样本图片,其中,第二样本图片子集包括第一组样本图片,目标图片数据库中的图片是动态更新的。
2)第二得到子模块,用于从目标网站上以目标图片标签为关键词抓取图片,得到第二组样本图片,其中,第二样本图片子集包括第二组样本图片,目标网站上的图片是动态更新的。
3)第三得到子模块,用于在目标图片数据库中获取标题包括目标图片标签的样本图片,得到第三组样本图片,其中,第二样本图片子集包括第三组样本图片,目标图片数据库中的图片是动态更新的。
4)第四得到子模块,用于从目标网站上获取标题包括目标图片标签的样本图片,得到第四组样本图片,其中,第二样本图片子集包括第四组样本图片,目标网站上的图片是动态更新的。
可选的,上述第二获取单元55,可以包括:第一得到模块,用于在开源数据集中获取标签包括目标图片标签的图片,得到第三样本图片子集,其中,目标图片标签为预设的图片标签,或者,根据第一样本图片集合中的样本图片的图片标签确定得到的图片标签;第四确定模块,用于将第三样本图片子集确定为第二样本图片集合或第二样本图片集合的子集。
可选的,上述第二获取单元55,可以包括:第四获取模块,用于根据一组预测类型,从本地数据库中获取样本图片,得到第四样本图片子集,其中,第四样本图片子集中的每个样本图片的标注类型为一组预测类型中的一个类型,第一图片神经网络模型用于将输入的图片的类型预测成一组预测类型中的一个类型;第五确定模块,用于将第四样本图片子集确定为第二样本图片集合或第二样本图片集合的子集。
作为一种可选的实施例,上述装置还可以包括:第六确定模块,用于在第一样本图片集合中的样本图片与第二样本图片集合中的样本图片均不同的情况下,将第一样本图片集合和第二样本图片集合的并集确定为第三样本图片集合,其中,第三样本图片集合中的每个样本图片的标注类型包括第一样本图片集合中的每个样本图片的标注类型、以及第二样本图片集合中的每个样本图片的标注类型;第七确定模块,用于在第一样本图片集合中的样本图片与第二样本图片集合中的样本图片存在部分相同的样本图片、且部分相同的样本图片的标注类型不同的情况下,将第一样本图片集合和第二样本图片集合的并集确定为第三样本图片集合,其中,第三样本图片集合中的部分相同的样本图片的标注类型被设置为第二样本图片集合中的部分相同的样本图片的标注类型,第三样本图片集合中除部分相同的样本图片之外的样本图片的标注类型包括:第一样本图片集合中除部分相同的样本图片之外的样本图片的标注类型、以及第二样本图片集合中除部分相同的样本图片之外的样本图片的标注类型。
其中,上述第一得到单元,可以包括:处理模块,用于对于第一样本图片集合中的每个样本图片,执行以下步骤,其中,在执行以下步骤时,第一样本图片集合中的每个样本图片被视为当前样本图片:将当前样本图片输入至当前的第一图片神经网络模型中,得到第一图片神经网络模型输出的当前样本图片的预测类型,其中,第一图片神经网络模型包括预设的依次连接的N个训练子模块,N为大于1的自然数;在根据当前样本图片的预测类型和标注类型确定出的损失值不满足目标预设条件的情况下,仅调整N个训练子模块中的第N个训练子模块中的参数,得到当前的第一图片神经网络模型。
可选的,上述装置可以包括:第八确定模块,用于根据预设的目标损失函数、当前样本图片的预测类型和标注类型,确定目标损失值,其中,当前样本图片的预测类型和标注类型对应的参数是目标损失函数的输入参数,目标损失函数包括预设的平滑处理子函数,平滑处理子函数用于对目标损失函数确定的目标损失值进行平滑处理;判断模块,用于判断目标损失值是否满足目标预设条件。
根据本发明实施例的另一个方面,还提供了一种用于实施上述图片类型的识别方法的图片类型的识别装置。如图6所示,该图片类型的识别装置包括:获取单元61、输入单元63以及输出单元65。
获取单元61,用于获取待识别的目标图片。
输入单元63,用于将目标图片输入目标图片神经网络模型,得到目标图片神经网络模型确定的目标图片的预测类型,其中,目标图片神经网络模型是使用多个样本图片集合对待训练的图片神经网络模型进行多轮训练所得到的模型,在每轮训练中,使用一个样本图片集合对待训练的图片神经网络模型进行训练,每轮训练所使用的样本图片集合是对上一轮训练所使用的样本图片集合以及当前轮所获取到的样本图片集合进行合并得到的集合,当前轮所获取到的样本图片集合中的部分样本图片是根据上一轮训练所确定的样本图片的预测类型所获取得到的图片。
输出单元65,用于输出目标图片的预测类型。
通过本申请提供的实施例,获取单元61获取待识别的目标图片;输入单元63将目标图片输入目标图片神经网络模型,得到目标图片神经网络模型确定的目标图片的预测类型,其中,目标图片神经网络模型是使用多个样本图片集合对待训练的图片神经网络模型进行多轮训练所得到的模型,在每轮训练中,使用一个样本图片集合对待训练的图片神经网络模型进行训练,每轮训练所使用的样本图片集合是对上一轮训练所使用的样本图片集合以及当前轮所获取到的样本图片集合进行合并得到的集合,当前轮所获取到的样本图片集合中的部分样本图片是根据上一轮训练所确定的样本图片的预测类型所获取得到的图片;输出单元65输出目标图片的预测类型。由于目标图片神经网络模型是通过循环迭代的样本图片集合对训练待训练的图片神经网络模型,可以根据迭代的样本图片集合获取足够多的样本图片,进而可以得到识别精度高的目标图片神经网络模型。
根据本发明实施例的又一个方面,还提供了一种用于实施上述图片神经网络模型的训练方法的电子设备,该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为服务器为例来说明。如图7所示,该电子设备包括存储器702和处理器704,该存储器702中存储有计算机程序,该处理器704被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取第一样本图片集合;
S2,通过第一样本图片集合对第一图片神经网络模型进行训练,得到第一样本图片集合中每个样本图片的第一预测类型和第二图片神经网络模型;
S3,在每个样本图片的标注类型和第一预测类型之间的损失值不满足目标预设条件的情况下,获取第二样本图片集合,其中,第二样本图片集合中的部分样本图片是根据第一预测类型获取到的图片;
S4,将第一样本图片集合和第二样本图片集合合并,得到第三样本图片集合;
S5,通过第三样本图片集合对第二图片神经网络模型进行训练,得到第三样本图片集合中每个样本图片的第二预测类型和第三图片神经网络;
S6,在第三样本图片集合中每个样本图片的标注类型和第二预测类型之间的损失值满足目标预设条件的情况下,将第三图片神经网络模型确定为目标图片神经网络。
可选地,本领域普通技术人员可以理解,图7所示的结构仅为示意,电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图7其并不对上述电子装置电子设备的结构造成限定。例如,电子装置电子设备还可包括比图7中所示更多或者更少的组件(如网络接口等),或者具有与图7所示不同的配置。
其中,存储器702可用于存储软件程序以及模块,如本发明实施例中的图片神经网络模型的训练方法和装置对应的程序指令/模块,处理器704通过运行存储在存储器702内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的图片神经网络模型的训练方法。存储器702可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器702可进一步包括相对于处理器704远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器702具体可以但不限于用于存储第一样本图片集合、样本图片的标注标签、样本图片的预测标签、第二样本图片集合、第三样本图片集合等信息。作为一种示例,如图7所示,上述存储器702中可以但不限于包括上述图片神经网络模型的训练装置中的第一获取单元51、第一得到单元53、第二获取单元55以及第二获取单元57。此外,还可以包括但不限于上述图片神经网络模型的训练装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置706用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置706包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置706为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子设备还包括:显示器708,用于显示上述样本图片或目标图片;和连接总线710,用于连接上述电子设备中的各个模块部件。
在其他实施例中,上述终端设备或者服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(P2P,Peer To Peer)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图片神经网络模型的训练方面或者图片神经网络模型的训练方面的各种可选实现方式中提供的图片神经网络模型的训练方法。其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取第一样本图片集合以及第一样本图片集合中的每个样本图片的标注类型;
S2,通过第一样本图片集合对第一图片神经网络模型进行训练,得到第一样本图片集合中每个样本图片的第一预测类型和第二图片神经网络模型;
S3,在每个样本图片的标注类型和第一预测类型之间的损失值不满足目标预设条件的情况下,获取第二样本图片集合,其中,第二样本图片集合中的部分样本图片是根据第一预测类型获取到的图片;
S4,将第一样本图片集合和第二样本图片集合合并,得到第三样本图片集合;
S5,通过第三样本图片集合对第二图片神经网络模型进行训练,得到第三样本图片集合中每个样本图片的第二预测类型和第三图片神经网络;
S6,在第三样本图片集合中每个样本图片的标注类型和第二预测类型之间的损失值满足目标预设条件的情况下,将第三图片神经网络模型确定为目标图片神经网络。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1.一种图片神经网络模型的训练方法,其特征在于,包括:
获取第一样本图片集合;
通过所述第一样本图片集合对第一图片神经网络模型进行训练,得到所述第一样本图片集合中每个样本图片的第一预测类型和第二图片神经网络模型;
在所述每个样本图片的标注类型和所述第一预测类型之间的损失值不满足目标预设条件的情况下,获取第二样本图片集合,其中,所述第二样本图片集合中的部分样本图片是根据所述第一预测类型获取到的图片;
将所述第一样本图片集合和所述第二样本图片集合合并,得到第三样本图片集合;
通过所述第三样本图片集合对所述第二图片神经网络模型进行训练,得到所述第三样本图片集合中每个样本图片的第二预测类型和第三图片神经网络;
在所述第三样本图片集合中每个样本图片的标注类型和所述第二预测类型之间的损失值满足所述目标预设条件的情况下,将所述第三图片神经网络模型确定为目标图片神经网络。
2.根据权利要求1所述的方法,其特征在于,所述获取所述第二样本图片集合,包括:
根据所述第一样本图片集合中的所述每个样本图片的标注类型以及所述第一预测类型,在所述第一样本图片集合中确定待重新进行类型标注的第一样本图片子集,其中,所述第一样本图片子集中的样本图片的所述标注类型和所述预测类型不同;
将所述第一样本图片子集确定为所述第二样本图片集合或所述第二样本图片集合的子集。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一样本图片集合中的所述每个样本图片的标注类型以及所述第一预测类型,在所述第一样本图片集合中确定待重新进行类型标注的第一样本图片子集,包括:
在所述第一样本图片集合中获取所述标注类型与所述第一预测类型不同的样本图片;
将所述第一样本图片子集确定为包括所述标注类型与所述第一预测类型不同的样本图片中的全部或部分样本图片。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第一样本图片集合中的所述每个样本图片的标注类型以及所述第一预测类型,在所述第一样本图片集合中确定待重新进行类型标注的第一样本图片子集,包括:
在所述第一样本图片集合中的样本图片的标注类型共包括多个标注类型的情况下,在所述多个标注类型中确定目标标注类型,其中,在所述第一样本图片集合中的所述目标标注类型的样本图片中,所述标注类型与所述第一预测类型不同的样本图片的占比大于第一阈值,或,所述标注类型与所述第一预测类型不同的样本图片的数量大于第二阈值;
在所述第一样本图片集合中获取标注类型为所述目标标注类型、且所述标注类型与所述第一预测类型不同的样本图片;
将所述第一样本图片子集确定为包括所述标注类型为所述目标标注类型、且所述标注类型与所述第一预测类型不同的样本图片中的全部或部分样本图片。
5.根据权利要求2所述的方法,其特征在于,所述获取所述第二样本图片集合中的每个样本图片的标注类型,包括:
获取对所述第一样本图片子集中的每个样本图片进行重新标注所得到的标注类型。
6.根据权利要求5所述的方法,其特征在于,所述获取对所述第一样本图片子集中的每个样本图片进行重新标注所得到的标注类型,包括:
响应于重新标注指令,获取对所述第一样本图片子集中的每个样本图片进行重新标注所得到的标注类型,其中,所述重新标注指令中指示了所述第一样本图片子集中的每个样本图片的重新标注的标注类型;或者
根据所述第一图片神经网络模型确定的所述第一样本图片子集中的每个样本图片的各个预测类型的概率,获取对所述第一样本图片子集中的每个样本图片进行重新标注所得到的标注类型。
7.根据权利要求1所述的方法,其特征在于,所述获取所述第二样本图片集合,包括:
获取所述第一样本图片集合中的所述每个样本图片的图片标签;
在所述第一样本图片集合中的样本图片的图片标签共包括多个图片标签的情况下,在所述多个图片标签中确定目标图片标签,其中,在所述第一样本图片集合中,标签为所述目标图片标签的样本图片的占比大于第三阈值,或者,标签为所述目标图片标签的样本图片的数量大于第四阈值;
在目标图片数据库中或从目标网站上获取与所述目标图片标签匹配的样本图片,得到第二样本图片子集;
将所述第二样本图片子集确定为所述第二样本图片集合或所述第二样本图片集合的子集。
8.根据权利要求7所述的方法,其特征在于,所述在目标图片数据库中或从目标网站上获取与所述目标图片标签匹配的样本图片,得到第二样本图片子集,包括:
在所述目标图片数据库中以所述目标图片标签为关键词抓取图片,得到第一组样本图片,其中,所述第二样本图片子集包括所述第一组样本图片,所述目标图片数据库中的图片是动态更新的;和/或
从所述目标网站上以所述目标图片标签为关键词抓取图片,得到第二组样本图片,其中,所述第二样本图片子集包括所述第二组样本图片,所述目标网站上的图片是动态更新的。
9.根据权利要求7所述的方法,其特征在于,所述在目标图片数据库中或从目标网站上获取与所述目标图片标签匹配的样本图片,得到第二样本图片子集,包括:
在所述目标图片数据库中获取标题包括所述目标图片标签的样本图片,得到第三组样本图片,其中,所述第二样本图片子集包括所述第三组样本图片,所述目标图片数据库中的图片是动态更新的;和/或
从所述目标网站上获取标题包括所述目标图片标签的样本图片,得到第四组样本图片,其中,所述第二样本图片子集包括所述第四组样本图片,所述目标网站上的图片是动态更新的。
10.根据权利要求1所述的方法,其特征在于,所述获取所述第二样本图片集合,包括:
在开源数据集中获取标签包括目标图片标签的图片,得到第三样本图片子集,其中,所述目标图片标签为预设的图片标签,或者,根据所述第一样本图片集合中的样本图片的图片标签确定得到的图片标签;
将所述第三样本图片子集确定为所述第二样本图片集合或所述第二样本图片集合的子集。
11.根据权利要求1所述的方法,其特征在于,所述获取所述第二样本图片集合,包括:
根据一组预测类型,从本地数据库中获取样本图片,得到第四样本图片子集,其中,所述第四样本图片子集中的每个样本图片的标注类型为所述一组预测类型中的一个类型,所述第一图片神经网络模型用于将输入的图片的类型预测成所述一组预测类型中的一个类型;
将所述第四样本图片子集确定为所述第二样本图片集合或所述第二样本图片集合的子集。
12.根据权利要求1至11任一项所述的方法,其特征在于,所述方法还包括:
在所述第一样本图片集合中的样本图片与所述第二样本图片集合中的样本图片均不同的情况下,将所述第一样本图片集合和所述第二样本图片集合的并集确定为所述第三样本图片集合,其中,所述第三样本图片集合中的每个样本图片的标注类型包括所述第一样本图片集合中的每个样本图片的标注类型、以及所述第二样本图片集合中的每个样本图片的标注类型;
在所述第一样本图片集合中的样本图片与所述第二样本图片集合中的样本图片存在部分相同的样本图片、且所述部分相同的样本图片的标注类型不同的情况下,将所述第一样本图片集合和所述第二样本图片集合的并集确定为所述第三样本图片集合,其中,所述第三样本图片集合中的所述部分相同的样本图片的标注类型被设置为所述第二样本图片集合中的所述部分相同的样本图片的标注类型,所述第三样本图片集合中除所述部分相同的样本图片之外的样本图片的标注类型包括:所述第一样本图片集合中除所述部分相同的样本图片之外的样本图片的标注类型、以及所述第二样本图片集合中除所述部分相同的样本图片之外的样本图片的标注类型。
13.根据权利要求1至11中任一项所述的方法,其特征在于,所述将所述第一样本图片集合中的所述每个样本图片输入至第一图片神经网络模型中,得到所述第一样本图片集合中的所述每个样本图片的预测类型,包括:
对于所述第一样本图片集合中的所述每个样本图片,执行以下步骤,其中,在执行以下步骤时,所述第一样本图片集合中的所述每个样本图片被视为当前样本图片:
将所述当前样本图片输入至当前的所述第一图片神经网络模型中,得到所述第一图片神经网络模型输出的所述当前样本图片的预测类型,其中,所述第一图片神经网络模型包括预设的依次连接的N个训练子模块,N为大于1的自然数;
在根据所述当前样本图片的预测类型和标注类型确定出的损失值不满足所述目标预设条件的情况下,仅调整所述N个训练子模块中的第N个训练子模块中的参数,得到当前的所述第一图片神经网络模型。
14.根据权利要求13所述的方法,其特征在于,所述方法还包括:
根据预设的目标损失函数、所述当前样本图片的预测类型和标注类型,确定目标损失值,其中,所述当前样本图片的预测类型和标注类型对应的参数是所述目标损失函数的输入参数,所述目标损失函数包括预设的平滑处理子函数,所述平滑处理子函数用于对所述目标损失函数确定的所述目标损失值进行平滑处理;
判断所述目标损失值是否满足所述目标预设条件。
15.一种图片神经网络模型的训练装置,其特征在于,包括:
第一获取单元,用于获取第一样本图片集合;
第一得到单元,用于通过所述第一样本图片集合对第一图片神经网络模型进行训练,得到所述第一样本图片集合中每个样本图片的第一预测类型和第二图片神经网络模型;
第二获取单元,用于在所述每个样本图片的标注类型和所述第一预测类型之间的损失值不满足目标预设条件的情况下,获取第二样本图片集合,其中,所述第二样本图片集合中的部分样本图片是根据所述第一预测类型获取到的图片;
合并单元,用于将所述第一样本图片集合和所述第二样本图片集合合并,得到第三样本图片集合;
第二得到单元,用于通过所述第三样本图片集合对所述第二图片神经网络模型进行训练,得到所述第三样本图片集合中每个样本图片的第二预测类型和第三图片神经网络;
确定单元,用于在所述第三样本图片集合中每个样本图片的标注类型和所述第二预测类型之间的损失值满足所述目标预设条件的情况下,将所述第三图片神经网络模型确定为目标图片神经网络。
CN202110286611.7A 2021-03-17 图片神经网络模型的训练方法以及装置 Active CN115114467B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110286611.7A CN115114467B (zh) 2021-03-17 图片神经网络模型的训练方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110286611.7A CN115114467B (zh) 2021-03-17 图片神经网络模型的训练方法以及装置

Publications (2)

Publication Number Publication Date
CN115114467A true CN115114467A (zh) 2022-09-27
CN115114467B CN115114467B (zh) 2024-05-14

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112365352A (zh) * 2020-11-30 2021-02-12 西安四叶草信息技术有限公司 一种基于图神经网络的反套现方法及装置

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229543A (zh) * 2017-12-22 2018-06-29 中国科学院深圳先进技术研究院 图像分类模型设计方法及装置
CN108805258A (zh) * 2018-05-23 2018-11-13 北京图森未来科技有限公司 一种神经网络训练方法及其装置、计算机服务器
CN108898218A (zh) * 2018-05-24 2018-11-27 阿里巴巴集团控股有限公司 一种神经网络模型的训练方法、装置、及计算机设备
CN109214501A (zh) * 2017-06-29 2019-01-15 北京京东尚科信息技术有限公司 用于识别信息的方法和装置
JP2019028839A (ja) * 2017-08-01 2019-02-21 国立研究開発法人情報通信研究機構 分類器、分類器の学習方法、分類器における分類方法
WO2019105218A1 (zh) * 2017-11-30 2019-06-06 腾讯科技(深圳)有限公司 图像特征的识别方法和装置、存储介质、电子装置
CN110245721A (zh) * 2019-06-25 2019-09-17 深圳市腾讯计算机系统有限公司 神经网络模型的训练方法、装置和电子设备
WO2019237558A1 (zh) * 2018-06-14 2019-12-19 平安科技(深圳)有限公司 电子装置、图片样本集生成方法和计算机可读存储介质
CN110889489A (zh) * 2019-11-08 2020-03-17 北京小米移动软件有限公司 神经网络的训练方法、图像识别方法及其装置
CN111061933A (zh) * 2019-11-21 2020-04-24 深圳壹账通智能科技有限公司 图片样本库构建方法、装置、可读存储介质及终端设备
WO2020082732A1 (zh) * 2018-10-26 2020-04-30 平安科技(深圳)有限公司 图片自动分类方法、装置及计算机可读存储介质
CA3061717A1 (en) * 2018-11-16 2020-05-16 Royal Bank Of Canada System and method for a convolutional neural network for multi-label classification with partial annotations
CN111428613A (zh) * 2020-03-19 2020-07-17 北京市商汤科技开发有限公司 数据处理方法、装置、设备和存储介质
CN111582477A (zh) * 2020-05-09 2020-08-25 北京百度网讯科技有限公司 神经网络模型的训练方法和装置
CN111611988A (zh) * 2020-05-22 2020-09-01 上海携程商务有限公司 图片验证码识别方法及装置、电子设备和计算机可读介质
JP2020191080A (ja) * 2019-05-21 2020-11-26 富士通株式会社 増分学習のためのデータ認識方法
CN112132179A (zh) * 2020-08-20 2020-12-25 中国人民解放军战略支援部队信息工程大学 基于少量标注样本的增量学习方法及系统
WO2021027142A1 (zh) * 2019-08-14 2021-02-18 平安科技(深圳)有限公司 图片分类模型训练方法、系统和计算机设备
CN112488237A (zh) * 2020-12-07 2021-03-12 北京天融信网络安全技术有限公司 一种分类模型的训练方法及装置

Patent Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214501A (zh) * 2017-06-29 2019-01-15 北京京东尚科信息技术有限公司 用于识别信息的方法和装置
JP2019028839A (ja) * 2017-08-01 2019-02-21 国立研究開発法人情報通信研究機構 分類器、分類器の学習方法、分類器における分類方法
WO2019105218A1 (zh) * 2017-11-30 2019-06-06 腾讯科技(深圳)有限公司 图像特征的识别方法和装置、存储介质、电子装置
CN108229543A (zh) * 2017-12-22 2018-06-29 中国科学院深圳先进技术研究院 图像分类模型设计方法及装置
CN108805258A (zh) * 2018-05-23 2018-11-13 北京图森未来科技有限公司 一种神经网络训练方法及其装置、计算机服务器
CN108898218A (zh) * 2018-05-24 2018-11-27 阿里巴巴集团控股有限公司 一种神经网络模型的训练方法、装置、及计算机设备
WO2019237558A1 (zh) * 2018-06-14 2019-12-19 平安科技(深圳)有限公司 电子装置、图片样本集生成方法和计算机可读存储介质
WO2020082732A1 (zh) * 2018-10-26 2020-04-30 平安科技(深圳)有限公司 图片自动分类方法、装置及计算机可读存储介质
CA3061717A1 (en) * 2018-11-16 2020-05-16 Royal Bank Of Canada System and method for a convolutional neural network for multi-label classification with partial annotations
JP2020191080A (ja) * 2019-05-21 2020-11-26 富士通株式会社 増分学習のためのデータ認識方法
CN110245721A (zh) * 2019-06-25 2019-09-17 深圳市腾讯计算机系统有限公司 神经网络模型的训练方法、装置和电子设备
CN110689038A (zh) * 2019-06-25 2020-01-14 深圳市腾讯计算机系统有限公司 神经网络模型的训练方法、装置和医学图像处理系统
WO2020259582A1 (zh) * 2019-06-25 2020-12-30 腾讯科技(深圳)有限公司 神经网络模型的训练方法、装置和电子设备
WO2021027142A1 (zh) * 2019-08-14 2021-02-18 平安科技(深圳)有限公司 图片分类模型训练方法、系统和计算机设备
CN110889489A (zh) * 2019-11-08 2020-03-17 北京小米移动软件有限公司 神经网络的训练方法、图像识别方法及其装置
CN111061933A (zh) * 2019-11-21 2020-04-24 深圳壹账通智能科技有限公司 图片样本库构建方法、装置、可读存储介质及终端设备
CN111428613A (zh) * 2020-03-19 2020-07-17 北京市商汤科技开发有限公司 数据处理方法、装置、设备和存储介质
CN111582477A (zh) * 2020-05-09 2020-08-25 北京百度网讯科技有限公司 神经网络模型的训练方法和装置
CN111611988A (zh) * 2020-05-22 2020-09-01 上海携程商务有限公司 图片验证码识别方法及装置、电子设备和计算机可读介质
CN112132179A (zh) * 2020-08-20 2020-12-25 中国人民解放军战略支援部队信息工程大学 基于少量标注样本的增量学习方法及系统
CN112488237A (zh) * 2020-12-07 2021-03-12 北京天融信网络安全技术有限公司 一种分类模型的训练方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BBUF: "https://zhuanlan.zhihu.com/p/114869268 1/8 【CNN调参】图像分类算法优化技巧(实用性很高)", pages 3, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/114869268> *
MPCV: "用小样本数据集构建强大的图像分类模型", pages 6, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/42333072> *
测试小兵: "一款Google抓图神器, 它与Python批量抓取图片的原理一模一样", pages 2, Retrieved from the Internet <URL:https://cloud.tencent.com/developer/article/1536553> *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112365352A (zh) * 2020-11-30 2021-02-12 西安四叶草信息技术有限公司 一种基于图神经网络的反套现方法及装置

Similar Documents

Publication Publication Date Title
CN112199375B (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
WO2021139191A1 (zh) 数据标注的方法以及数据标注的装置
CN109189991A (zh) 重复视频识别方法、装置、终端及计算机可读存储介质
CN108446964B (zh) 一种基于移动流量dpi数据的用户推荐方法
CN111353392A (zh) 换脸检测方法、装置、设备及存储介质
CN110825968A (zh) 信息推送方法、装置、存储介质和计算机设备
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN111738083B (zh) 一种人脸识别模型的训练方法和装置
CN112989209A (zh) 内容推荐方法、装置和存储介质
CN113515669A (zh) 基于人工智能的数据处理方法和相关设备
CN112613548A (zh) 基于弱监督学习的用户定制化目标检测方法、系统和存储介质
CN114219971A (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN113590854B (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN114428910A (zh) 资源推荐方法、装置、电子设备、产品及介质
Das et al. Extracting road maps from high-resolution satellite imagery using refined DSE-LinkNet
CN116956183A (zh) 多媒体资源推荐方法、模型训练方法、装置及存储介质
CN115114467B (zh) 图片神经网络模型的训练方法以及装置
CN115114467A (zh) 图片神经网络模型的训练方法以及装置
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质
CN111538859B (zh) 一种动态更新视频标签的方法、装置及电子设备
CN113821676A (zh) 视频检索方法、装置、设备及存储介质
CN114580533A (zh) 特征提取模型的训练方法、装置、设备、介质及程序产品
CN113822291A (zh) 一种图像处理方法、装置、设备及存储介质
CN115878839A (zh) 一种视频推荐方法、装置、计算机设备和计算机程序产品
CN111143688A (zh) 一种基于移动新闻客户端的评估方法及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant