CN111626362B - 图像处理方法、装置、计算机设备和存储介质 - Google Patents

图像处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111626362B
CN111626362B CN202010467165.5A CN202010467165A CN111626362B CN 111626362 B CN111626362 B CN 111626362B CN 202010467165 A CN202010467165 A CN 202010467165A CN 111626362 B CN111626362 B CN 111626362B
Authority
CN
China
Prior art keywords
image
text
feature
category
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010467165.5A
Other languages
English (en)
Other versions
CN111626362A (zh
Inventor
郭卉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010467165.5A priority Critical patent/CN111626362B/zh
Publication of CN111626362A publication Critical patent/CN111626362A/zh
Application granted granted Critical
Publication of CN111626362B publication Critical patent/CN111626362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种图像处理方法、装置、计算机设备和存储介质,该方法包括:获得标注有类别标签的图像及图像关联的描述文本;提取图像的图像特征;基于图像描述文本确定图像的文本特征;利用第一特征映射模型,将图像的图像特征转换为第一标签特征;基于第二特征映射模型,确定图像的文本特征对应的第二标签特征;如第一标签特征和第二标签特征的匹配度符合条件,则确定图像标注的类别标签正确。本申请的方案可以降低识别图像标注的标签类别是否准确的复杂度,减少人力资源耗费。

Description

图像处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及图像处理技术领域,尤其涉及一种图像处理方法、装置、计算机设备和存储介质。
背景技术
在图像识别场景中,需要获得标注有类别标签的大量图像,如,基于标注有类别标签的多个图像训练用于识别图像识别的识别模型等。
由于受到各种因素影响,在标注有类别标签的图像中,可能会存在很多类别标签标注错误的图像(俗称的,类别标签标注错误的噪声图像)。如,由于人为原因,导致人工标注的类别标签错误;或者是,通过搜索引擎等收到的图像与图像对应的类别标签不相符等。这些类别标签标注错误的图像会大大影响到图像识别的识别性能,因此,在图像识别之前,需要识别出类别标签标注错误的噪声样本。
目前较为通用的方式是采用人工清洗标注有类别标签的图像,即通过人工来依次确定各个图像的类别标签是否标注正确。然而,人工清洗的方式复杂度较高,需要耗费较多的人力资源。
发明内容
有鉴于此,本申请提供了一种图像处理方法、装置、计算机设备和存储介质,以降低识别图像标注的标签类别是否准确的复杂度,减少人力资源耗费。
为实现上述目的,本申请提供了如下技术方案:
一方面,本申请提供了一种图像处理方法,包括:
获得待处理的图像以及所述图像关联的至少一种描述文本,所述图像标注有类别标签;
提取所述图像的图像特征;
基于所述图像的至少一种描述文本,确定所述图像的文本特征,所述文本特征为所述图像的至少一种描述文本中能够反映所述图像所属类别的特征信息;
利用第一特征映射模型,将所述图像的图像特征转换为用于反映所述图像所属的类别标签的第一标签特征;
基于第二特征映射模型,确定所述图像的文本特征对应的第二标签特征,所述第二标签特征表示所述图像的文本特征中表达出的用于反映所述图像所属的类别标签的特征,第一特征映射模型和第二特征映射模型为利用与所述图像具有相同的类别标签的多个第一图像样本作为训练样本,并基于所述第一图像样本的图像特征和文本特征训练得到的,所述第一图像样本的文本特征为基于所述第一图像样本关联的描述文本确定的;
如所述第一标签特征和所述第二标签特征的匹配度符合条件,则确定所述图像标注的类别标签正确。
在一种可能的实现方式中,所述基于所述图像的至少一种描述文本,确定所述图像的文本特征,包括:
确定所述图像关联的至少一种描述文本对应的文本向量;
将所述图像对应的文本向量输入到文本特征提取模型,并提取所述文本特征提取模型的中间层输出特征,将提取出的输出特征确定为所述图像的文本特征,所述文本特征提取模型为将标注有类别标签的多个第二图像样本作为训练样本,并基于所述第二图像样本关联的描述文本所对应的文本向量训练得到的。
在又一种可能的实现方式中,在确定出所述图像的文本特征之后,还包括:
利用文本分类模型确定所述图像的文本特征对应的目标图像类别,所述文本分类模型为将标注有类别标签的多个第三图像样本作为训练样本,并基于所述第三图像样本关联的描述文本对应的文本特征训练得到;
确定用于表示所述目标图像类别的文本类别特征;
所述基于第二特征映射模型,确定所述图像的文本特征对应的第二标签特征,包括:
利用第二特征映射模型,将所述文本类别特征转换为第二标签特征。
又一方面,本申请还提供了一种图像处理装置,包括:
对象获得单元,用于获得待处理的图像以及所述图像关联的至少一种描述文本,所述图像标注有类别标签;
图像特征确定单元,用于提取所述图像的图像特征;
文本特征确定单元,用于基于所述图像的至少一种描述文本,确定所述图像的文本特征,所述文本特征为所述图像的至少一种描述文本中能够反映所述图像所属类别的特征信息;
第一特征映射单元,用于利用第一特征映射模型,将所述图像的图像特征转换为用于反映所述图像所属的类别标签的第一标签特征;
第二特征映射单元,用于基于第二特征映射模型,确定所述图像的文本特征对应的第二标签特征,所述第二标签特征表示所述图像的文本特征中表达出的用于反映所述图像所属的类别标签的特征,第一特征映射模型和第二特征映射模型为利用与所述图像具有相同的类别标签的多个第一图像样本作为训练样本,并基于所述第一图像样本的图像特征和文本特征训练得到的,所述第一图像样本的文本特征为基于所述第一图像样本关联的描述文本确定的;
图像清洗单元,用于如所述第一标签特征和所述第二标签特征的匹配度符合条件,则确定所述图像标注的类别标签正确。
又一方面,本申请还提供了一种计算机设备,包括存储器和处理器;
其中,所述存储器用于存储程序;
所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如上任意一项所述的图像处理方法。
又一方面,本申请还提供了一种存储介质,用于存储程序,所述程序被执行时,用于实现如上任意一项所述的图像处理方法。
由以上内容可知,本申请会获得该待处理的图像关联的至少一种描述文本,在获得图像的图像特征的同时,还会基于图像关联的描述文本确定图像的文本特征。在此基础上,针对图像的图像特征和文本特征两种维度的特征,分别利用适用于该图像的标签类别的第一特征映射模型和第二特征映射模型,能够确定出能够评判图像类别标签的第一标签特征和第二标签特征,因此,基于第一标签特征和第二标签特征的匹配度便可以分析该图像标注的标签类别是否正确,从而无需人工干预便可以识别图像标注的类别标签是否正确,进而避免了人工对图像的类别标签进行清洗所导致的复杂度,减少人力资源耗费。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本申请的一种图像处理方法所适用的一种场景的组成架构示意图;
图2示出了本申请提供的图像处理方法一个实施例的流程示意图;
图3示出了本申请中第一特征映射模型的一种网络结构示意图;
图4示出了本申请中第一特征映射模型的又一种网络结构示意图;
图5示出了本申请基于图像的文本特征得到第二标签特征的一种流程示意图;
图6示出了本申请中训练文本分类模型的一种原理示意图;
图7示出了本申请训练第一特征映射模型和第二特征映射模型的一种流程示意图;
图8示出了本申请的图像处理方法的一种实现原理的框架示意图;
图9示出了本申请的图像处理方法又一个实施例的流程示意图;
图10示出了本申请的图像处理装置的一种组成结构示意图;
图11示出了本申请的一种计算机设备的一种组成架构示意图。
具体实施方式
本申请的图像处理方法适用于在图像识别任务之前,对图像类别识别任务所需的图像样本进行噪声图像识别,以识别出标注的标签类别存在错误的图像样本。其中,图像识别可以为识别图像的类别,如,识别图像中包含的对象的类别等。当然,图像识别还可以适用于其他需要基于已标注标签的图像样本来实现图像识别的场景。
本申请的图像处理方法可以应用于服务器或者个人计算机等单台具备图像处理能力的计算机设备,也可以应用于云平台或者服务器集群等由多台计算机设备所组成的系统。
为了便于理解,以本申请的方案应用于云平台这一场景为例说明。如图1所示,其示出了本申请所适用的一种场景的组成架构示意图。
由图1可以看出,该场景包括:云平台10,云平台可以包括多个云服务器101。
其中,云平台也成为云计算平台,其基于云技术构建出的网络平台。其中,云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
云技术(Cloud technology)是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。技术网络系统的后台服务需要大量的计算、存储资源,如图像存储以及编码等等。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
其中,云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
在本申请中,云平台可以获得用于图像识别且标注有类别标签的多个图像(即,用于实现图像识别任务的图像样本)。
其中,类别标签用于表示图像所显示内容的类别。如,图像的类别标签可以为鱼类、人物或者动物等等。在不同的图像识别场景中,类别标签也可能会有所不同,如,需要针对包含不同衣服的图像中衣服类别,那么则需要针对各个图像标注衣服的类别,例如,衣服为T恤、背心、衬衫或者裙子等标签。
其中,具有类别标签的多个图像可以通过多种不同方式得到:
如,在一种可能的情况中,云平台可以获得多个图像,并获得用户对该多个图像标注的类别标签,从而得到具有类别标签的多个图像。
又如,在一种可能的情况中,可以获得用户输入的待收集图像对应的标签类别,然后向搜索引擎请求该标签类别的图像,并将搜索引擎返回的图像标注为具有该标签类别的图像。
例如,在图1所示的场景中,还可以包括至少一个搜索引擎服务器20。相应的,云平台10的云服务器101可以基于用户在浏览器中输入的标签类别,向搜索引擎服务器20发送搜索请求,该搜索请求用于请求搜索该标签类别匹配的图像;相应的,云平台的云服务器101可以获得搜索引擎服务器返回的至少一幅图像,并该至少一幅图像的标签均设置为该用户输入的该标签类别。
可以理解的是,标注有类别标签的多个图像可以是云平台直接从搜索引擎服务器,也可以是从其他网络平台获得的。如,其他网络设备或者平台可以获得标注有类别标签的多个图像,并传输给云平台;或者,其他网络设备或者平台获得标注有类别标签的多个图像后,存储到数据库,由云平台从数据库中获取标注有标签类别的多个图像。
当然,云平台获得标注有标签类别的多个图像的方式还可以有其他多种可能,还可以是结合多种不同方式获得该多个图像,本申请对于如何获得该多个图像的具体方式不加限制。
可以理解的是,由于人为原因或者机器识别错误等原因,经常会导致图像对应的标签类别存在错误。如,以基于搜索引擎获得“纸巾”这一标签类别的图像为例,搜索引擎除了可能会返回纸巾的图片之外,还可能会返回标题为“准备好纸巾”的包含感人行为的小狗图片等,而小狗图片被标注为“纸巾”则会导致标签标注错误。
由于获得的标注有标签类别的图像中存在标签标注错误的噪声图像的数量较多,那么,基于这些图像训练出的图像识别模型的识别图像类别的精准度就会较低,影响了图像识别性能。
基于此,为了提高图像识别的性能,云平台会对获得的多个图像进行去噪识别,以识别各个图像标注的类别标签是否正确,从而识别出类别标签标注错误的噪声图像,以达到清洗多个图像中的噪声图像的目的。在此基础上,将清洗后得到的图像作为图像识别任务的图像样本,可以有利于提高图像识别的性能。
可以理解的是,以上是以图像处理方法应用于云平台为例说明,在实际应用中,图像处理方法也可以应用于其他网络平台、独立的服务器或者个人计算机设备等等,在该种情况下,这些网络平台或者设备获得标注有标签类别的多个图像之后,通过可以对该多个图像进行噪声图像识别。
结合以上内容,下面结合流程图对本申请的图像处理方法进行介绍。
如图2所示,其示出了本申请一种图像处理方法一个实施例的流程示意图,本实施例可以应用于前面提到的云平台、服务器或者个人计算机等。本实施例的方法可以包括:
S201,获得待分析的图像以及该图像关联的至少一种描述文本。
其中,该待分析的图像即待处理的图像,是指需要识别其类别标签是否正确的图像,因此,该待分析的图像标注有类别标签。
其中,图像标注的类别标签用于表征图像呈现的内容所属的类别。如,图像的类别标签可以是人物、动物、景色、服装和建筑等等分类类别。又如,图像的标签类别可以为某种大类别下的细分出的各个类别,例如,对于包含服装的图像而言,图像的类别标签可以分为:T恤、衬衫、裙子和裤子等等。
图像关联的描述文本用于表示图像所显示内容或者所表达含义。如,图像的描述文本包含描述图像所显示内容的词语、句子或者其他文字描述等文本。
其中,图像关联的描述文本可以通过多种途径获得,下面以几种可能情况为例说明:
在一种可能的情况中,可以获得人工为图像标注的至少一种描述文本。如,通过用户输入对图像的中文或者其他语言的描述文本。
在又一种可能的情况中,可以从网络中获得图像关联的标题或者标签等至少一种描述信息,将图像关联的至少一种描述信息确定为图像关联的至少一种描述文本。如,待分析的图像为通过搜索引擎搜索到的图像,那么图像一般会附带有标签或者描述类文本信息,那么可以将这些信息作为图像关联的描述文本,其中,这些标签或者描述类文本信息可以是由计算机设备生成的;也可以是用户向网络上传图像时标注的信息,如,在一些博客等网站中的图片一般都会附带有用户上传该图片时为该图片添加的描述信息,例如,对于一张蛋糕的图片,用户可能会标上“最好吃的甜品”和/或“自制果酱蛋糕”等描述信息。
在又一种可能的情况中,图像关联的描述文本可以是基于训练出的网络模型,为图像生成文本描述。如,可以基于深度学习等机器学习方法训练图像转文字模型(例如,利用一些开源的预训练模型或者利用自由数据重新训练图片字幕模型等),并将图片输入到该图像转文字模型得到该图片的文本描述。又如,还可以先确定采用深度学习训练的多标签分类模型,将图像输入到多标签分类模型得到图像的标签描述,将标签描述确定为图像的文本描述。其中,多标签分类模型可以是利用一些网站发布的大规模开源多标签数据集或者大型通用物体识别开源数据集Imagenet等训练多标签分类模型。
可以理解的是,在实际应用中,图像关联的文本描述可以采用以上可能情况中的一种或者几种方式得到,对此不加限制。
S202,提取该图像的图像特征。
其中,图像的图像特征是指基于图像自身具有的特征所分析出的用于表征图像所呈现的内容信息的特征。如,图像的图像特征可以反映出图像的纹理和颜色分布等等特征。在一种可能的情况中,图像的图像特征可以为图像的图像嵌入特征。
其中,提取图像的图像特征的方式可以有多种,本申请对此不加限制。
作为一种可选方式,可以利用训练出的图像特征提取模型,提取图像的图像特征。具体的,可以将图像输入训练出的图像特征提取模型,并获取图像特征提取模型的中间层特征作为图像的图像特征。例如,图像提取特征为训练出的用于提取图像特征的卷积神经网络模型,则可以提取该图像特征提取模型中倒数第二层即池化层输出的图像嵌入特征。
其中,图像特征提取模型可以为利用标注有标签类别的多个图像样本作为训练样本,并对网络模型进行训练得到的。
其中,训练图像特征提取模型的训练样本可以是已经由人工清洗或者标注的干净图像样本,所谓干净图像样本就是图像样本标注的标签类别为该图像样本对应的正确的标签类别。在该种情况中,可以提升训练出的图像特征提取模型确定出的图像特征的表达效果。
考虑到人工清洗或者标注干净的图像样本比较耗时,该训练图像特征提取模型的多个训练样本也可以是包含有噪声图像样本的多个图像样本,即俗称的全量图像样本,全量图像样本包含有标签类别标注错误的噪声图像样本和标签类别标注正确的图像样本。虽然全量图像样本包含有噪声图像样本,但是由于该图像特征提取模型提取出的特征并不是本申请直接用于评判图像的标签是否正确的特征,因此,只有全量图像样本中噪声图像样本的比例低于设定比例(例如40%等),则仍可以训练出有效提取图像特征的图像特征提取模型。
作为一种可选方式,针对不同的待分析图像,确定待分析图像的图像特征所采用的图像特征提取模型也可以不同,具体的,可以确定采用与该图像标注的类别标签相同的多个图像样本训练出的图像特征提取模型,然后基于该图像特征提取模型对该待分析的图像进行图像特征提取。
其中,图像特征提取模型可以为基于标注有标签类别的多个图像样本对任意神经网络模型进行训练得到的。如,神经网络模型可以为卷积神经网络模型。
可以理解的是,基于多个标注有类别标签的多个图像样本训练图像特征提取模型具体训练过程可以有多种可能,本申请对于具体训练过程不加限制。
为了便于理解,以图像特征提取模型为卷积神经网络模型,并以一种训练过程为例说明。可以结合各个图像样本标注的类别标签,并利用梯度下降法求解卷积神经网络模型的卷积模板参数和偏置参数,并不断迭代,直至基于各个图像样本实际标注的类别标签,确定出卷积神经网络对各个图像样本预测出的类别标签的准确度符合条件。具体的:
首先,获得基于开源数据集(如大型通用物体识别开源数据集)与训练的残差网络的参数,基于残差网络的参数确定卷积神经网络模型的初始参数。当然该部分为可选步骤,待训练的卷积神经网络模型的初始参数还可以通过其他方式设定。
其次,针对每个图像样本,将图像样本输入到卷积神经网络模型,得到卷积神经网络模型预测出的该图像样本的预测标签类别。
最后,基于每个图像样本实际标注的类别标签与预测标签类别,确定该卷积神经网络模型的交叉熵损失函数值,并利用梯度下降法,结合该交叉熵损失函数更新卷积神经网络模型的参数,并重新预测各个图像样本的预测标签类别,直至交叉熵损失函数值低于设定阈值。
S203,基于该图像的至少一种描述文本,确定该图像的文本特征。
其中,与图像特征不同,文本特征为基于图像的描述文本确定出的特征。该文本特征为该图像的至少一种描述文本中能够反映该图像所属类别的特征信息。
如,利用训练出的文本特征提取模型确定该至少一种描述文本对应的文本特征。如,将至少一种描述文本输入到文本特征提取模型,并提取文本特征提取模型的中间层输出的特征作为图像的文本特征。
作为一种可选方式,考虑到图像关联的描述文本无法直接直观反映出描述文本的语义特征,因此,为了能够更准确的确定出描述文本的文本特征,并有利于文本特征提取模型提取文本特征,还可以先确定图像关联的至少一种描述文本的文本向量。通过将描述文本转换为向量形式,既可以通过向量较为直观表达出描述文本,又有利于文本特征提取模型提取文本特征。
其中,确定该图像关联的至少一种描述文本的文本向量可以基于采用任意文本转向量的方式得到。如,在一种实现方式中,可以利用文本转换向量模型分别将该图像关联的每种描述文本转换为文本向量。如果图像关联的描述文本有多个,则可以对图像关联的该多种描述文本各自转换出的文本向量进行加权求和,得到该图像关联的多种描述文本对应的文本向量。其中,各个描述文本的文本向量的权重可以根据需要设定,如,可以结合描述文本的数量设定各个描述文本的向量。例如,可以默认各个文本向量的权重一致,且各个文本向量的权重之和为1。
相应的,可以将图像对应的文本向量输入到已训练出的文本特征提取模型,并提取该文本特征提取模型的中间层输出特征,将提取出的输出特征确定为该图像的文本特征。
其中,该文本特征提取模型为将标注有类别标签的多个图像样本作为训练样本,并基于该图像样本关联的描述文本所对应的文本向量训练得到的。作为一种可选方式,为了提高识别噪声图像的精度和性能,文本特征提取模型为利用具有与该图像标注有相同的标签类别的多个图像样本训练得到的。
训练该文本特征提取模型所采用的图像样本与前面训练图像特征提取模型所采用的图像样本可以相同,也可以不同,具体可以根据需要设定。
其中,训练该文本特征提取模型的过程与前面训练图像特征提取模型的过程相似,不同之处仅仅在于训练文本特征提取模型时,文本特征提取模型的输入为图像关联的描述文本对应的文本向量。
如,可以分别将每个图像样本关联的至少一种描述文本转换为文本向量。在此基础上,针对每个图像样本,可以将图像样本对应的文本向量输入到需要训练的文本特征提取模型(文本特征提取模型可以为卷积神经网络模型等神经网络模型),得到文本特征提取模型预测出的预测类别标签。相应的,基于梯度下降法,并结合图像样本实际标注的类别标签和预测出的预测类别标签,可以确定该文本特征提取模型的预测准确度(例如,交叉熵损失函数值),如果预测准确度不符合要求,则可以调整该文本特征提取模型的内部参数,并继续训练,直至预测准确度符合要求。
S204,利用已训练出的第一特征映射模型,将该图像的图像特征转换为用于反映该图像所属的类别标签的第一标签特征。
可以理解的是,从图像提取的图像特征仅仅是能够反映图像类别的特征,却无法用于评判图像标注的标签是否准确,而基于该第一特征映射模型对图像特征进行映射本质上是将图像特征转换为与图像的类别标签具有关联的特征,因此,转换出的第一标签特征是用于从图像特征角度,评判图像标注的标签类别是否正确的特征。
其中,为了便于区分,将图像特征转换出的标签特征称为第一标签特征,而后续将文本特征转换出的标签特征称为第二标签特征。
S205,基于已训练出的第二特征映射模型,确定该图像的文本特征对应的第二标签特征。
其中,该第二标签特征表示该图像的文本特征中表达出的用于反映该图像所属的类别标签的特征。与图像特征转换出的第一标签特征类似,该第二标签特征实际上是将图像的文本特征转换出与图像的类别标签具有关联的特征,相应的,第二标签特征为用于从文本特征角度,评分图像标注的标签类别是否正确的特征。
在本申请实施例中,第一特征映射模型和第二特征映射模型均可以为训练出的任意神经网络模型。
如,第一特征映射模型可以为两组或者多组由全连接层与激活层构成的堆叠组合的网络结构,例如,如图3所示,其示出了两层结构的堆叠组合构成的网络结构,在该网络结构中包含两组堆叠组合,每组堆叠组合均有全连接层和激活层构成。类似的,如图4所示的多组堆叠组合的网络结构,在该种网络结构包括多组由全连接层和激活层构成的堆叠组合。其中,第二特征映射模型的网络结构与第一特征映射模型的结构相似,不再赘述。
可选的,为了便于后续对第一标签特征和第二标签特征的特征匹配,在该第一特征映射模型和第二特征映射模型的最后一层均可以加入特征归一化层,如可以采用L2归一化,以使得最终得到的第一标签特征和第二标签特征的维度在在0~1范围,避免神经网络学习到的特征中出现个别极大或者极小值造成最终输出结果向极值偏移。
其中,该第一特征映射模型和第二特征映射模型为利用与该图像具有相同的类别标签的多个第一图像样本作为训练样本,并基于该第一图像样本的图像特征和文本特征训练得到的。
为了便于区分,将用于训练第一特征映射模型和第二特征映射模型的图像样本称为第一图像样本,而前面或者后续用于训练其他模型的图像样本也可以相应区分,如,用于训练文本特征提取模型的图像样本可以称为第二图像样本。
其中,该第一图像样本的文本特征为基于该第一图像样本关联的描述文本确定的,得到第一图像样本的文本特征的过程可以与上面提到的确定图像的文本特征的过程相同,相应的,得到第一图像样本的图像特征的过程也与前面提取图像的图像特征的过程相同,具体可以参见前面的相关介绍。
在训练过程中,第一特征映射模型和第二特征映射模型为同步一起训练。
可以理解的是,为了使得训练出的第一特征映射模型和第二特征映射模型可以转换出标签特征能够真实反映第一图像样本的标签类别是否标注正确,第一图像样本标注的标签类别是否正确是预先已知的。
作为一种可选方式,用于训练的多个第一图像样本包括至少一个类别标签标注正确的至少一个第一图像样本。
为了后续能够基于图像的第一标签特征和第二标签特征确定图像标注的标签类别是否正确,训练第一特征映射模型和第二特征映射模型是以设定的训练目标作为训练目的。该设定的训练目标为类别标签标注正确的第一图像样本对应的第三标签特征与第四标签特征的匹配度符合条件。其中,第三标签特征为第一特征映射模型将第一图像样本的图像特征转换出的标签特征;第四标签特征为基于第二特征映射模型确定出的第一图像样本的文本特征对应的标签特征。
其中,第三标签特征与第四标签特征的匹配度符合条件可以为第三标签与第四标签特征的匹配度超过设定阈值。
相应的,作为一种可选方式,该第一特征映射模型和第二特征映射模型为至少利用类别标签标注正确的至少一个第一图像样本作为训练样本,并按照设定的训练目标,基于第一图像样本的图像特征和文本特征训练得到的。
其中,训练第一特征映射模型和第二特征映射模型的具体过程可以有多种,后续会以一种情况为例进行详细说明,在此不再赘述。
S206,如该第一标签特征和该第二标签特征的匹配度符合条件,则确定该图像标注的类别标签正确。
其中,第一标签特征和第二标签特征的匹配度可以是这两种特征之间的相似性,如,可以采用余弦距离计算方法等计算该第一标签特征与第二标签特征之间的匹配度。
其中,匹配度符合条件可以为匹配度大于设定阈值。
可以理解的是,第一特征映射模型是将图像特征转换为能够反映该图像标注的类别标签的特征,而第二特征映射模型是将文本特征转换为能够反映该图像标注的类别标签的特征,那么在图像标注的类别标签正确的情况下,该第一标签特征和第二标签特征应该相同或者相似,因此,如果这两个标签特征的匹配度满足条件,则说明图像标注的标签类别正确。反之,如果第一标签特征和第二标签特征的匹配度不满足条件,则确定该图像标注的标签类别错误。
可见,本申请会获得该待分析的图像关联的至少一种描述文本,在获得图像的图像特征的同时,还会基于图像关联的描述文本确定图像的文本特征。在此基础上,针对图像的图像特征和文本特征两种维度的特征,分别利用已训练出的且适用于该图像的标签类别的第一特征映射模型和第二特征映射模型,能够确定出能够评判图像类别标签的第一标签特征和第二标签特征,因此,基于第一标签特征和第二标签特征的匹配度便可以分析该图像标注的标签类别是否正确,从而无需人工干预便可以识别图像标注的类别标签是否正确,进而避免了人工对图像的类别标签进行清洗所导致的复杂度,减少人力资源耗费。
同时,由于本申请在识别图像标注的类别标签的过程中结合了图像自身的图像特征以及图像关联的描述文本的文本特征,实现了综合多种维度特征进行噪声图像识别,有利于提高噪声图像识别的准确度。
在以上实施例中,图像关联的至少一种描述文本的文本特征虽然可以反映出图像关联描述文本所表征出的该图像的类别信息,但是由于文本特征并不是直接反映出该图像关联的描述文本所能表征的图像类别,为了能够更为准确的分析出文本特征所对应的图像类别,在本申请实施例中,还可以基于文本特征,确定图像关联的描述文本所表征的图像类别,然后,再将基于该图像类别对应的文本类别特征映射到第二标签特征。
如,参见图5,其示出了本申请基于图像的文本特征得到第二标签特征的一种流程示意图,该流程可以包括:
S501,针对确定出的图像的文本特征,利用已训练出的文本分类模型确定该图像的文本特征对应的目标图像类别。
其中,将基于图像的文本特征,确定出的该图像所属的图像类别称为目标图像类别。该文本分类模型为通过对图像的文本特征进行分类,最终得到该目标图像类别。
该文本分类模型为标注有类别标签的多个第三图像样本作为训练样本,并基于该第三图像样本关联的描述文本对应的文本特征训练得到。
为了便于区分,将训练文本分类模型的图像样本称为第三图像样本,该第三图像样本可以与前面训练文本特征提取模型所采用的图像样本相同,也可以不同。该多个第三图像样本的类别标签可以为具有正确标注的类别标签的多个第三图像样本,当然,该多个第三图像样本中也可以是包含有低于设定比例的类别标签标注错误的图像样本。
其中,作为一种可选方式,文本分类模型为利用与该图像标注的类别标签相同的多个第三图像样本作为训练样本训练得到的。
其中,该文本分类模型可以为利用多个第三图像样本对网络模型进行训练得到的,如,文本分类模型可以为卷积神经网络模型,例如,该文本分类模型的网络结构可以如图4所示。
其中,文本分类模型的训练目标为预测出的各个第三图像样本的标签类别与各个第三图像样本实际标注的标签类别相符,如,可以基于文本分类模型预测出的各个第三图像样本的标签类别以及各个第三图像样本实际标注的标签类别确定交叉熵损失函数值,训练目标为该交叉熵损失函数值收敛或者小于设定值等。
其中,训练该文本分类模型的过程与前面训练文本特征提取模型的过程相似。
如参见图6,其示出了本申请训练文本分类模型的一种训练逻辑示意图。由图6可知,针对每个第三图像样本,可以将第三图像样本对应的文本特征输入到需要训练的文本分类模型,得到文本分类模型预测出的图像类别;基于各个第三图像样本实际标注的类别标签以及预测出的图像类别,检测是否到达训练结束条件,如果是,则结束训练;如果否,则调整该文本分类模型的内部参数,并重新利用该多个第三图像样本训练该文本分类模型,如图6所示的反向更新参数。其中,此处的训练结束条件同样可以是结合交叉熵损失函数确定,如图6中损失函数所示。
S502,确定用于表示该目标图像类别的文本类别特征。
如,在一种可能的情况中,按照不同图像类别与文本类别特征的对应关系,确定该目标图像类别的文本类别特征。其中,该图像类别对应的文本类别特征为依据属于该目标图像类别的多个第四图像样本的文本特征,确定出的处于类别中心的第四图像样本的文本特征。
其中,第四图像样本的文本特征是基于第四图像样本关联的描述文本确定出的,具体过程与前面基于图像关联的描述文本确定图像的文本特征的过程相似,在此不再赘述。
相应的,得到图像样本的文本特征之后,同样可以基于文本分类模型确定出图像样本所属的图像类别。在本申请中,为了确定出该图像所属的目标图像类别对应的文本类别特征,需要获得属于该目标图像类别的多个第四图像样本,然后,基于该多个第四图像样本的文本特征,确定该多个第四图像样本的类别中心,即该多个第四图像样本组成的目标图像类别的类别中心。
由于处于该目标图像类别的类别中心的第四图像样本的文本特征最能够表达该目标图像类别的类别特征,因此,将处于类别中心的第四图像样本的文本特征作为该目标图像类别对应的文本类别特征,以实现更为准确表达属于该目标图像类别的各个描述文本具有的文本类别特征。
可以理解的是,为了便于区分,将用于确定该目标图像类别对应的文本类别特征所采用的图像样本称为第四图像样本。在实际应用中,第四图像样本可以属于多个第三图像样本,也可以是独立于第三图像样本之外的图像样本。
如,在基于第三图像样本训练出文本分类模型之后,可以利用文本分类模型确定出各个第三图像样本的图像类别,然后,针对每个图像类别,可以基于该图像类别的多个第三图像样本的文本特征,确定出于类别中心的第三图像样本,并将处于类别中心的第三图像样本的文本特征确定为该图像类别的文本类别特征。其中,针对目标图像类别,属于目标图像类别的第三图像样本就是该第四图像样本。
该作为一种可选方式,确定该目标图像类别的文本类别特征所采用的该第四图像样本为与该图像标注有相同的类别标签。
其中,基于属于目标图像类别的多个第四图像样本而言,确定该目标图像类别的类别中心的方式可以有多种,如,可以采用K-Means确定由该多个第四图像样本组成的目标图像类别的类别中心;还可以通过其他方式确定该类别中心,对此不加限制。为了便于理解,以一种情况确定类别中心的方式为例进行简单说明:
首先,初始化距离阈值thr。
如,人为设定距离阈值。当然,后续步骤中还可以根据需要调整该距离阈值。
其次,针对每个第四图像样本j,计算该第四图像样本对应的样本密度。
其中,j为从1到n的自然数,n为第四图像样本的总数。
针对每个第四图像样本,该第四图像样本的样本密度通过如下方式计算得到:
1)、分别计算该第四图像样本的文本特征与该目标图像类别中其他各第四图像样本的文本特征之间的余弦距离L,得到该第四图像样本对应的至少一个个余弦距离L。
2)、基于该第四图像样本对应的至少一个余弦距离,确定余弦距离大于距离阈值thr的数量,将该数量作为该第四图像样本的样本密度。
最后,选取样本密度最大的第四图像样本作为该目标图像类别的类别中心,以便将该样本密度最大的第四图像样本的文本特征确定为该目标图像类别的文本类别特征。
以上确定类别中心的方法中,每个图像类别只选取了1个图像样本作为类别中心;在实际应用中,还可以选取样本密度较大的前设定数量个图像样本作为类别中心,并将这前设定数量个图像样本的文本特征的平均值作为该图像类别的文本类别特征。
S503,利用已训练出的第二特征映射模型,将该文本类别特征转换为第二标签特征。
其中,在本申请实施例中,文本特征以及文本类别特征都可以为向量,因此,可以将该文本类别特征直接输入到该第二特征映射模型,以得到输出的第二标签特征。
可以理解的是,本申请实施例在确定文本特征对应的第二标签特征时,会先确定文本特征表征的目标图像类别,然后获得目标图像类别对应的文本类别特征,由于本实施例可以将属于该目标图像类别的多个图像样本中处于类别中心的图像样本所对应的文本特征确定为该目标图像类别的文本类别特征,从而使得目标图像类别的文本类别特征更能够准确反映出该目标图像类别的文本特征,进而基于该目标图像类别的文本类别特征可以更为准确的得到能够用于识别图像标签是否正确的第二标签特征。
为了便于理解本申请中第一特征映射模型和第二特征映射模型的训练方式,下面以基于设定的训练目标,训练出这两种映射模型的一种训练方式为例进行说明。如图7所示,其示出了本申请训练第一特征映射模型和第二特征映射模型的一种流程示意图,该流程可以包括:
S701,获得多个第一图像样本以及每个第一图像样本关联的至少一种描述文本。
其中,对待分析的图像进行处理的过程中,需要利用与图像标注的标签类别对应的第一特征映射模型和第二特征映射模型。因此,针对待分析的图像,在训练适用于对该图像的图像特征和文本特征进行映射的第一特征映射模型和第二特征映射模型的过程中,作为训练样本的第一图像样本的类别标签与待分析的图像标注的类别标签相同。
如,为了能够分析标注为“衬衫”这一类别标签的图像所标注的标签是否正确,需要获得标注为“衬衫”的多个第一图像样本,以基于该多个第一图像样本训练适用于对“衬衫”这一类别标签的图像的第一特征映射模型和第二特征映射模型。
可以理解的是,为了检测模型训练效果,该多个第一图像样本标注的类别标签是否正确是已知的。在本实施例中,以该多个第一图像样本可以包括类别标签标注正确的至少一个第一图像样本和类别标签标注错误的至少一个第一图像样本为例。
S702,针对每个第一图像样本,提取该第一图像样本的图像特征,基于该第一图像样本关联的至少一种描述文本,确定该第一图像图像的文本特征,利用需要训练的第一特征映射模型,将该第一图像样本的图像特征转换为第三标签特征,并基于需要训练的第二特征映射模型,确定该第一图像样本的文本特征对应的第四标签特征。
其中,第三标签特征为第一图像样本转换出的,用于反映该第一图像样本所属的类别标签的标签特征。
该第四标签特征表示该第一图像样本的文本特征中表达出的用于反映该第一图像样本所属的类别标签的特征。
其中,确定第一图像样本的图像特征和文本特征的过程与前面确定图像的图像特征和文本特征的过程相似。相应的,确定第三标签特征的过程与前面确定第一特征标签的过程相似,且确定第四标签特征的过程与前面确定第二特征标签的过程相似。
如,特别的,在训练过程中,如果先确定出第一图像样本的文本特征对应的图像类别,再确定出该图像类别对应的文本类别特征,那么可以将该第一图像样本对应的文本类别特征输入到需要训练的第二特征映射模型,得到该第二特征映射模型输出的第四标签特征,具体可以参见前面的相关介绍,在此不再赘述。
S703,针对类别标签标注正确的第一图像样本,如该第一图像样本的第三标签特征和第四标签特征之间的匹配度符合条件,则确定该第一图像样本的特征映射正确。
此处的匹配度符合条件可以参见前面实施例的相关介绍,在此不再赘述。
S704,针对类别标签标注错误的第一图像样本,如该第一图像样本的第三标签特征和第四标签特征之间的匹配度不符合条件,则确定该第一图像样本的特征映射正确。
S705,如基于特征映射正确的各第一图像样本确定出不满足训练结束条件,则调整该第一特征映射模型和第二特征映射模型的内部参数,直至基于特征映射正确的各第一图像样本确定出满足训练结束条件。
其中,该步骤提到的训练结束条件可以特征映射正确的第一图像样本的比例超过设定阈值。
该训练结束条件还可以是:在基于特征映射正确的第一图像样本和特征映射错误的第一图像样本,确定出损失函数值之后,检测该损失函数值是否收敛等。
其中,损失函数值的计算方法可以有多种。如,可以基于L2距离或者基于余弦距离来确定损失函数等。
其中,基于L2距离计算第一图像样本对应的损失函数值LL2可以参见公式一:
其中,fimg表示第一图像样本的第一特征标签,ftext表示第一图像样本的第二特征标签;
if clean表示第一图像样本为类别标签标注正确的图像样本;
if noise表示第一图像样本为类别标签标注错误的图像样本;
该margin的取值可以设置为1。
其中,基于余弦距离计算第一图像样本的损失函数值Lcos可以参见如下公式二:
Lcos=v*(1-sim(fimg,ftext))+a*((1-v)*max(0,sim(fimg,ftext)-margin)) (公式二);
在公式二中sim(fimg,ftext)可以通过如下公式三求得:
其中,a为设定的噪声图像样本损失函数值的权重调节,如a的取值可以为2。v的取值为0或者1,其中,在第一图像样本为类别标签标注正确的图像样本时,其取值为1;否则为0。
对于多个第一图像样本,可以求取各个第一图像样本的损失函数值的平均值,作为最终的损失函数值。
在本实施例中,该步骤S703和S705实际上体现了前面提到的训练目标。可见,该训练目标本质上是让干净图像(类别标签标注正确)的图像特征的特征映射与文本类别特征的特征映射结果相似,而使得噪声图像(类别标签标注正确)的图像特征的特征映射与文本类别特征的特征映射结果不相似。
基于此可知,在训练出第一特征映射模型和第二特征映射模型之后,针对与训练这两个映射模型所采用的图像样本具有相同类别标签的图像而言,如果该图像标注的标签类别是正确的,那么,在利用第一特征映射模型将该图像的图像特征转换为第一标签特征,且利用第二特征模型将图像的文本特征(或者文本类别特征)转换为第二标签特征之后,该第一标签特征与第二标签特征匹配度满足条件;反之,如果图像标注的类别标签标注错误,则第一标签特征与第二标签特征匹配度不满足条件,从而可以识别出标签标注错误的图像。
为了便于更为清晰和直观的了解本申请的图像处理方法,可以参见图8。图8示出了本申请中图像处理方法的实现原理的一种框架示意图。由图8可以看出,本申请在获得待分析的图像之后,一个分支为图像特征表达,另一个分支为文本特征表达。
其中,图像特征表达为对图像的图像特征进行处理的分支,具体为:深度学习模型是指将图像输入到基于深度学习训练得到的的特征提取模型,图像特征模块是获得深度学习模型得到的该图像的图像特征。
而文本特征表达为基于图像的描述文本,确定能够反映图像所属类别的文本类别特征的分支。具体的,文本自然语言处理模型确定图像的描述文本的文本向量;然后,文本类别模块将文本向量转换为能够表征描述文本所述文本类别的文本特征;再然后,文本分类模块确定文本特征对应的目标图像类别;最后,类别表达模块确定该目标图像类别对应的文本类别特征(文本类别特征向量)。
在通过以上两个分支分别得到图像特征和文本类别特征之后,会分别通过图像特征映射和文本特征映射,得到第一标签特征和第二标签特征,从而通过比较第一标签特征和第二标签特征可以得到该图像的标签特征是否标注正确的结论。
为了便于理解,结合图8的原理框图,以一种实现方式对本申请的图像处理方法进行介绍。如图9所示,其示出了本申请的图像处理方法又一个实施例的流程示意图,本实施例的方法可以包括:
S901,获得待处理的图像以及该图像关联的至少一种描述文本。
其中,该图像标注有类别标签。
S902,将该图像输入已训练的图像特征提取模型,并提取该图像特征提取模型的中间层输出的图像特征。
如,在图像特征提取模型为神经网络模型的情况下,该中间层可以为池化层。
S903,利用文本转换向量模型分别将该图像关联的每种描述文本转换为文本向量,并基于对图像关联的各描述文本对应的文本向量,确定该图像关联的至少一种描述文本对应的文本向量。
S904,将图像关联的至少一种描述文本对应的文本向量输入到已训练出的文本特征提取模型,并提取文本特征提取模型的中间层输出特征作为该图像的文本特征。
其中,该文本特征提取模型为将与该图像标注有相同的类别标签的多个第二图像样本作为训练样本,并基于该第二图像样本关联的描述文本所对应的文本向量训练得到的。
S905,将该图像的文本特征输入到已训练出的文本分类模型,得到文本分类模型输出的目标图像类别。
可选的,该文本分类模型为将与该图像标注有相同的类别标签的多个第三图像样本作为训练样本,并基于该第三图像样本关联的描述文本对应的文本特征训练得到。
S906,按照不同图像类别与文本类别特征的对应关系,确定该目标图像类别的文本类别特征。
其中,图像类别对应的文本类别特征为依据属于该图像类别的多个第四图像样本的文本特征,确定出的处于类别中心的第四图像样本的文本特征,该第四图像样本与该图像标注有相同的类别标签。
S907,利用已训练的第一特征映射模型将该图像的图像特征转换为第一标签特征。
S908,利用已训练出的第二特征映射模型,将该文本类别特征转换为第二标签特征。
S909,如果第一特征标签和第二特征标签的匹配度大于设定阈值,则确定该图像标注的类别标签正确。
在本实施例中,以匹配度满足条件为匹配度大于设定阈值为例,在实际应用中,还可以根据需要设定其他条件,对此不加限制。
对应本申请的图像处理方法,本申请还提供了一种图像处理装置。如图10所示,其示出了本申请一种图像处理装置的一种组成结构示意图,本实施例的装置可以包括:
对象获得单元1001,用于获得待处理的图像以及该图像关联的至少一种描述文本,该图像标注有类别标签;
图像特征确定单元1002,用于提取该图像的图像特征;
文本特征确定单元1003,用于基于该图像的至少一种描述文本,确定该图像的文本特征,该文本特征为该图像的至少一种描述文本中能够反映该图像所属类别的特征信息;
第一特征映射单元1004,用于利用第一特征映射模型,将该图像的图像特征转换为用于反映该图像所属的类别标签的第一标签特征;
第二特征映射单元1005,用于基于第二特征映射模型,确定该图像的文本特征对应的第二标签特征,该第二标签特征表示该图像的文本特征中表达出的用于反映该图像所属的类别标签的特征,第一特征映射模型和第二特征映射模型为利用与该图像具有相同的类别标签的多个第一图像样本作为训练样本,并基于该第一图像样本的图像特征和文本特征训练得到的,该第一图像样本的文本特征为基于该第一图像样本关联的描述文本确定的;
图像清洗单元1006,用于如该第一标签特征和该第二标签特征的匹配度符合条件,则确定该图像标注的类别标签正确。
在一种可能的实现方式中,文本特征确定单元,包括:
向量转换单元,用于确定该图像关联的至少一种描述文本对应的文本向量;
文本特征提取单元,用于将该图像对应的文本向量输入到文本特征提取模型,并提取该文本特征提取模型的中间层输出特征,将提取出的输出特征确定为该图像的文本特征,该文本特征提取模型为将标注有类别标签的多个第二图像样本作为训练样本,并基于该第二图像样本关联的描述文本所对应的文本向量训练得到的。
可选的,在该对象获得单元获得的图像关联有多种描述文本的情况下,该向量转换单元,包括:
文本转向量子单元,用于利用文本转换向量模型分别将该图像关联的每种描述文本转换为文本向量;
向量融合单元,用于对该图像关联的多种描述文本各自转换出的文本向量进行加权求和,得到该图像关联的多种描述文本对应的文本向量。
在以上任意一个装置的实施例中,该装置还可以包括:
文本分类单元,用于在文本特征确定单元确定出该图像的文本特征之后,利用文本分类模型确定该图像的文本特征对应的目标图像类别,该文本分类模型为将标注有类别标签的多个第三图像样本作为训练样本,并基于该第三图像样本关联的描述文本对应的文本特征训练得到;
类别特征确定单元,用于确定用于表示该目标图像类别的文本类别特征;
该第二特征映射单元,具体为,用于利用第二特征映射模型,将该文本类别特征转换为第二标签特征。
可选的,类别特征确定单元具体为,用于按照不同图像类别与文本类别特征的对应关系,确定该目标图像类别的文本类别特征,其中,图像类别对应的文本类别特征为依据属于该目标图像类别的多个第四图像样本的文本特征,确定出的处于类别中心的第四图像样本的文本特征。
其中,第一特征映射单元和第二特征映射单元所采用的第一特征映射模型和第二特征映射模型为至少利用类别标签标注正确的至少一个第一图像样本作为训练样本,并按照设定的训练目标,基于该第一图像样本的图像特征和文本特征训练得到的;
其中,该训练目标为该类别标签标注正确的第一图像样本对应的第三标签特征与第四标签特征的匹配度符合条件;
其中,该第三标签特征为该第一特征映射模型将第一图像样本的图像特征转换出的标签特征;该第四标签特征为基于该第二特征映射模型确定出的该第一图像样本的文本特征对应的标签特征。
可选的,本申请还包括模型训练单元,用于通过如下方式训练得到该第一特征映射模型和第二特征映射模型:
获得多个第一图像样本以及该第一图像样本关联的至少一种描述文本,该第一图像样本的类别标签与该图像的类别标签相同,且该多个第一图像样本中包括类别标签标注正确的至少一个第一图像样本和类别标签标注错误的至少一个第一图像样本;
针对每个第一图像样本,提取该第一图像样本的图像特征,基于该第一图像样本关联的至少一种描述文本,确定该第一图像图像的文本特征,利用需要训练的第一特征映射模型,将该第一图像样本的图像特征转换为用于反映该第一图像样本所属的类别标签的第三标签特征,并基于需要训练的第二特征映射模型,确定该第一图像样本的文本特征对应的第四标签特征,该第四标签特征表示该第一图像样本的文本特征中表达出的用于反映该第一图像样本所属的类别标签的特征;
针对类别标签标注正确的第一图像样本,如该第一图像样本的第三标签特征和第四标签特征之间的匹配度符合条件,则确定该第一图像样本的特征映射正确;
针对类别标签标注错误的第一图像样本,如该第一图像样本的第三标签特征和第四标签特征之间的匹配度不符合条件,则确定该第一图像样本的特征映射正确;
如基于特征映射正确的各第一图像样本确定出不满足训练结束条件,则调整该第一特征映射模型和第二特征映射模型的内部参数,直至基于特征映射正确的各第一图像样本确定出满足训练结束条件。
又一方面,本申请还提供了一种计算机设备,该计算机设备可以为个人计算机、服务器或者云平台中的节点等等。如图11,其示出了本申请提供的计算机设备的一种组成架构示意图。在图11中,该计算机设备1100可以包括:处理器1101和存储器1102。
可选的,该计算机设备还可以包括:通信接口1103、输入单元1104和显示器1105和通信总线1106。
其中,处理器1101、存储器1102、通信接口1103、输入单元1104和显示器1105均通过通信总线1106完成相互间的通信。
在本申请实施例中,该处理器1101,可以为中央处理器,特定应用集成电路等。
该处理器可以调用存储器1102中存储的程序,具体的,处理器可以执行以上实施例中云计算机设备侧所执行的操作。
存储器1102中用于存放一个或者一个以上程序,程序可以包括程序代码,所述程序代码包括计算机操作指令,在本申请实施例中,该存储器中至少存储有用于实现以上任意一个实施例中的图像处理方法的程序。
在一种可能的实现方式中,该存储器1102可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、以上所提到的程序,以及图像播放等功能所需的应用程序等;存储数据区可存储根据计算机设备的使用过程中所创建的数据。
该通信接口1103可以为通信模块的接口。
本申请还可以包括输入单元1104,该输入单元可以包括触摸感应单元、键盘等等。
该显示器1105包括显示面板,如触摸显示面板等。
当然,图11所示的计算机设备结构并不构成对本申请实施例中计算机设备的限定,在实际应用中计算机设备可以包括比图11所示的更多或更少的部件,或者组合某些部件。
另一方面,本申请还提供了一种存储介质,该存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上任意一个实施例中的图像处理方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (14)

1.一种图像处理方法,其特征在于,包括:
获得待处理的图像以及所述图像关联的至少一种描述文本,所述图像标注有类别标签;所述图像关联的至少一种描述文本用于表示所述图像所显示内容或者所表达含义;
提取所述图像的图像特征;
基于所述图像的至少一种描述文本,确定所述图像的文本特征,所述文本特征为所述图像的至少一种描述文本中能够反映所述图像所属类别的特征信息;
利用文本分类模型确定所述图像的文本特征对应的目标图像类别,所述文本分类模型为将标注有类别标签的多个第三图像样本作为训练样本,并基于所述第三图像样本关联的描述文本对应的文本特征训练得到;
确定用于表示所述目标图像类别的文本类别特征;
利用第一特征映射模型,将所述图像的图像特征转换为用于反映所述图像所属的类别标签的第一标签特征;
利用第二特征映射模型,将所述文本类别特征转换为第二标签特征,所述第二标签特征表示所述图像的文本特征中表达出的用于反映所述图像所属的类别标签的特征,第一特征映射模型和第二特征映射模型为利用与所述图像具有相同的类别标签的多个第一图像样本作为训练样本,并基于所述第一图像样本的图像特征和文本特征训练得到的,所述第一图像样本的文本特征为基于所述第一图像样本关联的描述文本确定的;
如所述第一标签特征和所述第二标签特征的匹配度符合条件,则确定所述图像标注的类别标签正确。
2.根据权利要求1所述的方法,其特征在于,所述基于所述图像的至少一种描述文本,确定所述图像的文本特征,包括:
确定所述图像关联的至少一种描述文本对应的文本向量;
将所述图像对应的文本向量输入到文本特征提取模型,并提取所述文本特征提取模型的中间层输出特征,将提取出的输出特征确定为所述图像的文本特征,所述文本特征提取模型为将标注有类别标签的多个第二图像样本作为训练样本,并基于所述第二图像样本关联的描述文本所对应的文本向量训练得到的。
3.根据权利要求1所述的方法,其特征在于,所述确定用于表示所述目标图像类别的文本类别特征,包括:
按照不同图像类别与文本类别特征的对应关系,确定所述目标图像类别的文本类别特征,其中,图像类别对应的文本类别特征为依据属于所述目标图像类别的多个第四图像样本的文本特征,确定出的处于类别中心的第四图像样本的文本特征。
4.根据权利要求1所述的方法,其特征在于,所述第一特征映射模型和第二特征映射模型为至少利用类别标签标注正确的至少一个第一图像样本作为训练样本,并按照设定的训练目标,基于所述第一图像样本的图像特征和文本特征训练得到的;
所述训练目标为所述类别标签标注正确的第一图像样本对应的第三标签特征与第四标签特征的匹配度符合条件;
其中,所述第三标签特征为所述第一特征映射模型将第一图像样本的图像特征转换出的标签特征;所述第四标签特征为基于所述第二特征映射模型确定出的所述第一图像样本的文本特征对应的标签特征。
5.根据权利要求4所述的方法,其特征在于,所述第一特征映射模型和第二特征映射模型通过如下方式训练得到:
获得多个第一图像样本以及所述第一图像样本关联的至少一种描述文本,所述第一图像样本的类别标签与所述图像的类别标签相同,且所述多个第一图像样本中包括类别标签标注正确的至少一个第一图像样本和类别标签标注错误的至少一个第一图像样本;
针对每个第一图像样本,提取所述第一图像样本的图像特征,基于所述第一图像样本关联的至少一种描述文本,确定所述第一图像样本的文本特征,利用需要训练的第一特征映射模型,将所述第一图像样本的图像特征转换为用于反映所述第一图像样本所属的类别标签的第三标签特征,并基于需要训练的第二特征映射模型,确定所述第一图像样本的文本特征对应的第四标签特征,所述第四标签特征表示所述第一图像样本的文本特征中表达出的用于反映所述第一图像样本所属的类别标签的特征;
针对类别标签标注正确的第一图像样本,如所述第一图像样本的第三标签特征和第四标签特征之间的匹配度符合条件,则确定所述第一图像样本的特征映射正确;
针对类别标签标注错误的第一图像样本,如所述第一图像样本的第三标签特征和第四标签特征之间的匹配度不符合条件,则确定所述第一图像样本的特征映射正确;
如基于特征映射正确的各第一图像样本确定出不满足训练结束条件,则调整所述第一特征映射模型和第二特征映射模型的内部参数,直至基于特征映射正确的各第一图像样本确定出满足训练结束条件。
6.根据权利要求2所述的方法,其特征在于,在所述图像关联有多种描述文本的情况下,所述确定所述图像关联的至少一种描述文本对应的文本向量,包括:
利用文本转换向量模型分别将所述图像关联的每种描述文本转换为文本向量;
对所述图像关联的多种描述文本各自转换出的文本向量进行加权求和,得到所述图像关联的多种描述文本对应的文本向量。
7.一种图像处理装置,其特征在于,包括:
对象获得单元,用于获得待处理的图像以及所述图像关联的至少一种描述文本,所述图像标注有类别标签;所述图像关联的至少一种描述文本用于表示所述图像所显示内容或者所表达含义;
图像特征确定单元,用于提取所述图像的图像特征;
文本特征确定单元,用于基于所述图像的至少一种描述文本,确定所述图像的文本特征,所述文本特征为所述图像的至少一种描述文本中能够反映所述图像所属类别的特征信息;
文本分类单元,用于利用文本分类模型确定所述图像的文本特征对应的目标图像类别,所述文本分类模型为将标注有类别标签的多个第三图像样本作为训练样本,并基于所述第三图像样本关联的描述文本对应的文本特征训练得到;
类别特征确定单元,用于确定用于表示所述目标图像类别的文本类别特征;
第一特征映射单元,用于利用第一特征映射模型,将所述图像的图像特征转换为用于反映所述图像所属的类别标签的第一标签特征;
第二特征映射单元,用于利用第二特征映射模型,将所述文本类别特征转换为第二标签特征,所述第二标签特征表示所述图像的文本特征中表达出的用于反映所述图像所属的类别标签的特征,第一特征映射模型和第二特征映射模型为利用与所述图像具有相同的类别标签的多个第一图像样本作为训练样本,并基于所述第一图像样本的图像特征和文本特征训练得到的,所述第一图像样本的文本特征为基于所述第一图像样本关联的描述文本确定的;
图像清洗单元,用于如所述第一标签特征和所述第二标签特征的匹配度符合条件,则确定所述图像标注的类别标签正确。
8.根据权利要求7所述的装置,其特征在于,所述文本特征确定单元,包括:
向量转换单元,用于确定所述图像关联的至少一种描述文本对应的文本向量;
文本特征提取单元,用于将所述图像对应的文本向量输入到文本特征提取模型,并提取所述文本特征提取模型的中间层输出特征,将提取出的输出特征确定为所述图像的文本特征,所述文本特征提取模型为将标注有类别标签的多个第二图像样本作为训练样本,并基于所述第二图像样本关联的描述文本所对应的文本向量训练得到的。
9.根据权利要求7所述的装置,其特征在于,所述类别特征确定单元,具体用于按照不同图像类别与文本类别特征的对应关系,确定所述目标图像类别的文本类别特征,其中,图像类别对应的文本类别特征为依据属于所述目标图像类别的多个第四图像样本的文本特征,确定出的处于类别中心的第四图像样本的文本特征。
10.根据权利要求7所述的装置,其特征在于,所述第一特征映射模型和第二特征映射模型为至少利用类别标签标注正确的至少一个第一图像样本作为训练样本,并按照设定的训练目标,基于所述第一图像样本的图像特征和文本特征训练得到的;
所述训练目标为所述类别标签标注正确的第一图像样本对应的第三标签特征与第四标签特征的匹配度符合条件;
其中,所述第三标签特征为所述第一特征映射模型将第一图像样本的图像特征转换出的标签特征;所述第四标签特征为基于所述第二特征映射模型确定出的所述第一图像样本的文本特征对应的标签特征。
11.根据权利要求10所述的装置,其特征在于,还包括模型训练单元,用于通过如下方式训练得到所述第一特征映射模型和第二特征映射模型:
获得多个第一图像样本以及所述第一图像样本关联的至少一种描述文本,所述第一图像样本的类别标签与所述图像的类别标签相同,且所述多个第一图像样本中包括类别标签标注正确的至少一个第一图像样本和类别标签标注错误的至少一个第一图像样本;
针对每个第一图像样本,提取所述第一图像样本的图像特征,基于所述第一图像样本关联的至少一种描述文本,确定所述第一图像样本的文本特征,利用需要训练的第一特征映射模型,将所述第一图像样本的图像特征转换为用于反映所述第一图像样本所属的类别标签的第三标签特征,并基于需要训练的第二特征映射模型,确定所述第一图像样本的文本特征对应的第四标签特征,所述第四标签特征表示所述第一图像样本的文本特征中表达出的用于反映所述第一图像样本所属的类别标签的特征;
针对类别标签标注正确的第一图像样本,如所述第一图像样本的第三标签特征和第四标签特征之间的匹配度符合条件,则确定所述第一图像样本的特征映射正确;
针对类别标签标注错误的第一图像样本,如所述第一图像样本的第三标签特征和第四标签特征之间的匹配度不符合条件,则确定所述第一图像样本的特征映射正确;
如基于特征映射正确的各第一图像样本确定出不满足训练结束条件,则调整所述第一特征映射模型和第二特征映射模型的内部参数,直至基于特征映射正确的各第一图像样本确定出满足训练结束条件。
12.根据权利要求8所述的装置,其特征在于,在所述图像关联有多种描述文本的情况下,所述向量转换单元,包括:
文本转向量子单元,用于利用文本转换向量模型分别将所述图像关联的每种描述文本转换为文本向量;
向量融合单元,用于对所述图像关联的多种描述文本各自转换出的文本向量进行加权求和,得到所述图像关联的多种描述文本对应的文本向量。
13.一种计算机设备,其特征在于,包括存储器和处理器;
其中,所述存储器用于存储程序;
所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如权利要求1至6任意一项所述的图像处理方法。
14.一种存储介质,其特征在于,用于存储程序,所述程序被处理器执行时,用于实现如权利要求1至6任意一项所述的图像处理方法。
CN202010467165.5A 2020-05-28 2020-05-28 图像处理方法、装置、计算机设备和存储介质 Active CN111626362B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010467165.5A CN111626362B (zh) 2020-05-28 2020-05-28 图像处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010467165.5A CN111626362B (zh) 2020-05-28 2020-05-28 图像处理方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN111626362A CN111626362A (zh) 2020-09-04
CN111626362B true CN111626362B (zh) 2024-02-02

Family

ID=72272012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010467165.5A Active CN111626362B (zh) 2020-05-28 2020-05-28 图像处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN111626362B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931762B (zh) * 2020-09-25 2021-07-30 广州佰锐网络科技有限公司 基于ai的图像识别解决方法、装置及可读存储介质
CN115082930B (zh) * 2021-03-11 2024-05-28 腾讯科技(深圳)有限公司 图像分类方法、装置、电子设备和存储介质
CN113095405B (zh) * 2021-04-13 2024-04-30 沈阳雅译网络技术有限公司 基于预训练及双层注意力的图像描述生成系统的构建方法
CN113723513B (zh) * 2021-08-31 2024-05-03 平安国际智慧城市科技股份有限公司 多标签图像分类方法、装置及相关设备
CN115019218B (zh) * 2022-08-08 2022-11-15 阿里巴巴(中国)有限公司 图像处理方法和处理器
CN117671678A (zh) * 2022-08-29 2024-03-08 华为技术有限公司 图像标注方法及装置
CN116304719B (zh) * 2023-05-15 2023-08-04 北京睿企信息科技有限公司 一种判断异常分类标签的处理系统
CN116992031B (zh) * 2023-08-29 2024-01-09 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备、存储介质及程序产品
CN117271819B (zh) * 2023-11-17 2024-03-01 上海闪马智能科技有限公司 图像数据的处理方法和装置、存储介质及电子装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984555A (zh) * 2017-06-01 2018-12-11 腾讯科技(深圳)有限公司 用户状态挖掘和信息推荐方法、装置以及设备
CN109522942A (zh) * 2018-10-29 2019-03-26 中国科学院深圳先进技术研究院 一种图像分类方法、装置、终端设备和存储介质
CN111125422A (zh) * 2019-12-13 2020-05-08 北京达佳互联信息技术有限公司 一种图像分类方法、装置、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984555A (zh) * 2017-06-01 2018-12-11 腾讯科技(深圳)有限公司 用户状态挖掘和信息推荐方法、装置以及设备
CN109522942A (zh) * 2018-10-29 2019-03-26 中国科学院深圳先进技术研究院 一种图像分类方法、装置、终端设备和存储介质
CN111125422A (zh) * 2019-12-13 2020-05-08 北京达佳互联信息技术有限公司 一种图像分类方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于深度半监督跨模态学习的Web图像标注方法";张璐璠等;《武汉理工大学学报》;第40卷(第12期);第101-107页 *

Also Published As

Publication number Publication date
CN111626362A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN111626362B (zh) 图像处理方法、装置、计算机设备和存储介质
CN110119786B (zh) 文本话题分类方法及装置
CN109117777B (zh) 生成信息的方法和装置
CN111753060A (zh) 信息检索方法、装置、设备及计算机可读存储介质
Liu et al. Open-world semantic segmentation via contrasting and clustering vision-language embedding
CN107463658B (zh) 文本分类方法及装置
CN108228682B (zh) 字符串验证方法、字符串扩充方法与验证模型训练方法
CN110851641B (zh) 跨模态检索方法、装置和可读存储介质
CN107679070B (zh) 一种智能阅读推荐方法与装置、电子设备
CN111985520A (zh) 一种基于图卷积神经网络的多模态分类方法
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN106874397B (zh) 一种面向物联网设备的自动语义标注方法
CN113961666B (zh) 关键词识别方法、装置、设备、介质及计算机程序产品
CN111783903A (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
CN117493491A (zh) 一种基于机器学习的自然语言处理方法及系统
CN114996511A (zh) 一种针对跨模态视频检索模型的训练方法及装置
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
CN115408488A (zh) 用于小说场景文本的分割方法及系统
CN111814496B (zh) 文本处理方法、装置、设备及存储介质
CN116628202A (zh) 意图识别方法、电子设备、存储介质
CN110717316A (zh) 字幕对话流的主题分割方法及装置
CN113076426B (zh) 多标签文本分类及模型训练方法、装置、设备及存储介质
CN115599953A (zh) 视频文本检索模型的训练方法、检索方法及相关设备
CN114443904A (zh) 视频查询方法、装置、计算机设备及计算机可读存储介质
CN115130475A (zh) 一种可扩展的通用端到端命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant