CN115393606A - 图像识别的方法和系统 - Google Patents

图像识别的方法和系统 Download PDF

Info

Publication number
CN115393606A
CN115393606A CN202210961266.7A CN202210961266A CN115393606A CN 115393606 A CN115393606 A CN 115393606A CN 202210961266 A CN202210961266 A CN 202210961266A CN 115393606 A CN115393606 A CN 115393606A
Authority
CN
China
Prior art keywords
target
image
text
feature
training sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210961266.7A
Other languages
English (en)
Inventor
曹佳炯
丁菁汀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202210961266.7A priority Critical patent/CN115393606A/zh
Publication of CN115393606A publication Critical patent/CN115393606A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本说明书提供的图像识别的方法和系统,获取训练样本集合,并在训练样本集合中提取出至少一个训练样本对后,采用识别模型对每一训练样本对进行特征提取,得到图像样本的图像特征和文本样本的文本特征,然后,在图像特征中提取出预设尺寸的特征区域对应的至少一个图像子特征,并在文本特征中识别出文本样本中每一文本词对应的文本子特征,遍历至少一个图像子特征与文本子特征之间的相似度,得到局部相似度集合,并基于局部相似度集合对识别模型进行收敛,得到目标识别模型,以及采用目标识别模型在对象图像中识别出目标对象的属性信息;该方案通过细化识别模型的约束粒度,可以提升图像识别的识别准确率。

Description

图像识别的方法和系统
技术领域
本说明书涉及图像识别领域,尤其涉及一种图像识别的方法和系统。
背景技术
近年来,随着互联网技术的飞速发展,对象的画像信息也变得越来越重要,所谓的画像信息可以理解为对象的属性信息,以对象为商户为例,就可以为商户的属性信息。当前画像信息的采集主要是通过文本和统计信息来获取,往往忽略了图像中包含的画像信息,因此,还可以在图像中识别出画像信息。现有的图像识别方法往往是通过图像分类方式获取画像信息。
在对现有技术的研究和实践过程中,本发明的发明人发现图像分类的方式需要通过识别模型将图像特征与预设属性信息的文本特征进行匹配,在识别模型的训练中采用图像与文本之间的关系进行粗粒度约束,降低了匹配的准确率,因此,导致图像识别的准确率较低。
因此,需要提供一种准确率更高的图像识别的方法和系统。
发明内容
本说明书提供一种准确率更高的图像识别的方法和系统。
第一方面,本说明书提供一种图像识别方法,包括:获取训练样本集合,并在所述训练样本集合中提取出至少一个训练样本对,所述至少一个训练样本对中的每一训练样本对包括图像样本和文本样本;采用识别模型对所述每一训练样本对进行特征提取,得到所述图像样本的图像特征和所述文本样本的文本特征;在所述图像特征中提取出预设尺寸的特征区域对应的至少一个图像子特征,并在所述文本特征中识别出所述文本样本中每一文本词对应的文本子特征;遍历所述至少一个图像子特征与所述文本子特征之间的相似度,得到局部相似度集合,并基于所述局部相似度集合对所述识别模型进行收敛,得到目标识别模型;以及采用所述目标识别模型在对象图像中识别出目标对象的属性信息。
在一些实施例中,所述训练样本集合包括全量对象的全量样本集合和所述目标对象的测试样本集合,所述全量样本集合的样本数量大于所述测试样本集合的样本数量;以及所述在所述训练样本集合中提取出至少一个训练样本对,包括:在所述全量样本集合中提取出至少一个候选样本对;在所述测试样本集合中提取出至少一个测试样本对;以及将所述至少一个候选样本对和所述至少一个测试样本对作为所述至少一个训练样本对。
在一些实施例中,所述在所述图像特征中提取出预设尺寸的特征区域对应的至少一个图像子特征,并在所述文本特征中识别出所述文本样本中每一文本词对应的文本子特征,包括:获取所述图像特征与所述文本特征之间的相似度,得到所述至少一个训练样本对对应的全局相似度集合;基于所述全局相似度集合,在所述至少一个训练样本对中筛选出目标训练样本对;以及基于所述目标训练样本对,在所述图像特征中提取出预设尺寸的特征区域对应的至少一个图像子特征,并在所述文本特征中识别出所述文本样本中每一文本词对应的文本子特征。
在一些实施例中,所述目标训练样本对包括目标图像样本和目标文本样本;以及所述基于所述目标训练样本对,在所述图像特征中提取出预设尺寸的特征区域对应的至少一个图像子特征,并在所述文本特征中识别出所述文本样本中每一文本词对应的文本子特征,包括:在所述图像特征中筛选出所述目标图像样本的目标图像特征,并在所述文本特征中筛选出所述目标文本样本的目标文本特征;在所述目标图像特征中提取出预设尺寸的特征区域对应的至少一个图像子特征;以及在所述目标文本特征中提取出所述目标文本样本中每一文本词对应的文本子特征。
在一些实施例中,所述基于所述全局相似度集合,在所述至少一个训练样本对中筛选出目标训练样本对,包括:基于所述全局相似度集合,确定所述每一训练样本对对应的全局损失信息;基于所述每一训练样本对对应的所述图像特征、所述文本特征以及所述全局损失信息,确定所述每一训练样本对的采样概率;以及基于所述采样概率,在所述至少一个训练样本对中筛选出目标训练样本对。
在一些实施例中,所述基于所述全局相似度集合,确定所述每一训练样本对对应的全局损失信息,包括:在所述全局相似度集合中筛选出所述每一训练样本对对应的相似度,得到目标全局相似度;基于所述目标全局相似度,获取所述每一训练样本对对应的所述图像特征与所述文本特征之间的特征差值;以及基于所述特征差值,确定每一训练样本对对应的全局损失信息。
在一些实施例中,所述基于所述每一训练样本对对应的所述图像特征、所述文本特征以及所述全局损失信息,确定所述每一训练样本对的采样概率,包括:基于所述全局损失信息,确定所述每一训练样本对对应的梯度;以及通过所述识别模型的采样网络,基于所述每一训练样本对对应的所述图像特征、所述文本特征和所述梯度,确定所述每一训练样本对的采样概率。
在一些实施例中,所述识别模型包括编码网络和采样网络;以及所述基于所述局部相似度集合对所述识别模型进行收敛,得到目标识别模型,包括:基于所述采样网络、所述全局损失信息和所述局部相似集合,对所述编码网络进行预设第一次数的编码训练,得到目标编码网络;基于所述目标编码网络,对所述采样网络进行预设第二次数的采样训练,得到目标采样网络;将所述目标编码网络和目标采样网络作为当前识别模型,并将所述识别模型更新为所述当前识别模型;以及返回执行所述采用识别模型对所述每一训练样本对进行特征提取的步骤,直至所述识别模型收敛,得到所述目标识别模型。
在一些实施例中,所述预设第一次数大于所述第二预设次数,所述预设第一次数与所述预设第二次数之间的比值为预设比值。
在一些实施例中,所述基于所述采样网络、所述全局损失信息和所述局部相似集合,对所述编码网络进行预设第一次数的编码训练,得到目标编码网络,包括:基于所述全局损失信息和局部相似度集合,确定所述编码网络的编码损失信息;基于所述编码损失信息对所述编码网络的网络参数进行更新,得到当前编码网络;将所述当前编码网络和采样网络作为候选识别模型,并将所述识别模型更新为所述候选识别模型;以及返回执行所述采用识别模型对所述每一训练样本对进行特征提取的步骤,直至更新次数达到预设第一次数时为止,得到所述目标编码网络。
在一些实施例中,所述基于所述全局损失信息和局部相似度集合,确定所述编码网络的编码损失信息,包括:在所述全局损失信息中筛选出所述目标训练样本对对应的目标全局损失信息;基于所述局部相似度集合,确定所述编码网络对应的局部损失信息;以及将所述全局损失信息和局部损失信息进行融合,得到所述编码网络的编码损失信息。
在一些实施例中,所述基于所述局部相似度集合,确定所述编码网络对应的局部损失信息,包括:在所述局部相似度集合中遍历出每一文本子特征对应的局部相似度,得到所述每一文本子特征对应的候选局部相似度集合;在所述候选局部相似度集合中筛选出相似度最大的局部相似度,得到所述每一文本子特征对应的目标局部相似度;以及将所述目标局部相似度调整至预设相似度,以得到所述编码网络对应的局部损失信息,所述预设相似度大于所述目标局部相似度。
在一些实施例中,所述基于所述目标编码网络,对所述采样网络进行预设第二次数的采样训练,得到目标采样网络,包括:采用所述目标编码网络对所述至少一个训练样本对进行特征提取,以得到所述至少一个训练样本对对应的当前全局损失信息集合;基于所述采样网络在所述当前全局损失信息集合中筛选出候选全局损失信息,并在所述候选全局损失信息中提取出目标测试损失信息;基于所述目标测试损失信息对所述采样网络的网络参数进行更新,得到当前采样网络,并将所述采样网络更新为所述当前采样网络;以及返回执行所述采用所述目标编码网络对所述至少一个训练样本对进行特征提取的步骤,直至更新次数达到所述预设第二次数时为止,得到目标采样网络。
在一些实施例中,所述在所述候选全局损失信息中提取出目标测试损失信息,包括:在所述候选全局损失信息中筛选出测试样本对对应的至少一个全局损失信息,得到测试损失信息集合;以及在所述测试损失信息集合中筛选出最小的测试损失信息,得到目标测试损失信息。
在一些实施例中,所述采用识别模型对所述每一训练样本对进行特征提取之前,还包括:采用预设识别模型中的采样网络和所述至少一个训练样本对,对所述预设识别模型中的编码网络进行预设第一次数的编码训练,得到基础编码网络;基于所述基础编码网络和所述至少一个训练样本对,对所述预设识别模型中的采样网络进行预设第二次数的采样训练,得到基础采样网络;将所述基础编码网络和基础采样网络作为基础识别模型,并将所述预设识别模型更新为所述基础识别模型;以及返回执行所述采用预设识别模型中的采样网络和所述至少一个训练样本对,对所述预设识别模型中的编码网络进行预设第一次数的编码训练的步骤,直至所述预设识别模型收敛时为止,得到所述识别模型。
在一些实施例中,所述采用预设识别模型中的采样网络和所述至少一个训练样本对,对所述预设识别模型中的编码网络进行预设第一次数的编码训练,得到基础编码网络,包括:采用所述预设识别模型中的编码网络对所述至少一个训练样本对进行特征提取,以得到所述至少一个训练样本对对应的候选全局损失信息集合;基于所述预设识别模型中的采样网络在所述候选全局损失信息集合中筛选出基础全局损失信息;以及基于所述基础全局损失信息对所述预设识别模型中的编码网络进行所述预设第一次数的编码训练,得到基础编码网络。
在一些实施例中,所述基于所述局部相似度集合对所述识别模型进行收敛,得到目标识别模型之后,还包括:获取所述目标对象的至少一个预设属性信息对应的文本集合;以及采用所述目标识别模型对所述文本集合中的每一文本进行特征提取,得到所述至少一个预设属性信息对应的文本特征集合。
在一些实施例中,所述采用所述目标识别模型在对象图像中识别出目标对象的属性信息,包括:获取所述目标对象的对象图像;采用所述目标识别模型对所述对象图像进行特征提取,得到所述对象图像的当前图像特征;以及基于所述文本特征集合和所述当前图像特征,确定所述对象图像中所述目标对象的属性信息。
在一些实施例中,所述基于所述文本特征集合预所述当前图像特征,确定所述对象图像中所述目标对象的属性信息,包括:获取所述当前图像特征与所述文本特征集合中每一文本特征之间的相似度,得到当前相似度集合;在所述当前相似度集合中筛选出超过预设相似度阈值的目标相似度;以及在所述至少一个属性信息中筛选出所述目标相似度对应的属性信息,得到所述目标对象的属性信息。
在一些实施例中,还包括:获取当前属性信息对应的目标文本,并基于所述当前属性信息对所述至少一个属性信息进行更新,得到更新后的属性信息集合;采用所述目标识别模型对所述目标文本进行特征提取,得到当前文本特征;以及基于所述当前文本特征,对所述文本特征集合进行更新,得到所述属性信息集合对应的更新后文本特征集合。
第二方面,本说明书还提供一种图像识别系统,包括:至少一个存储介质,存储有至少一个指令集,用于进行图像识别;以及至少一个处理器,同所述至少一个存储介质通信连接,其中,当所述图像识别系统运行时,所述至少一个处理器读取所述至少一个指令集,并且根据所述至少一个指令集的指示执行本说明书第一方面所述的图像识别的方法。
由以上技术方案可知,本说明书提供的图像识别的方法和系统,获取训练样本集合,并在训练样本集合中提取出至少一个训练样本对后,至少一个训练样本对中的每一训练样本对包括图像样本和文本样本,采用识别模型对每一训练样本对进行特征提取,得到图像样本的图像特征和文本样本的文本特征,然后,在图像特征中提取出预设尺寸的特征区域对应的至少一个图像子特征,并在文本特征中识别出文本样本中每一文本词对应的文本子特征,遍历至少一个图像子特征与文本子特征之间的相似度,得到局部相似度集合,并基于局部相似度集合对识别模型进行收敛,得到目标识别模型,以及采用目标识别模型在对象图像中识别出目标对象的属性信息;由于该方案在对识别模型进行训练过程中,在图像特征提取出图像子特征,并在文本特征中提取出文本样本中每一文本词的文本子特征,然后,遍历出图像子特征与文本子特征之间的相似度进行约束,使得将约束的粒度细化为特征区域与文本词之间的关系,进而提升识别模型的识别精度,因此,可以提升图像识别的识别准确率。
本说明书提供的图像识别的方法和系统的其他功能将在以下说明中部分列出。根据描述,以下数字和示例介绍的内容将对那些本领域的普通技术人员显而易见。本说明书提供的图像识别的方法和系统的创造性方面可以通过实践或使用下面详细示例中所述的方法、装置和组合得到充分解释。
附图说明
为了更清楚地说明本说明书实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本说明书的实施例提供的一种图像识别的系统的应用场景示意图;
图2示出了根据本说明书的实施例提供的一种计算设备的硬件结构图;
图3示出了根据本说明书的实施例提供的一种图像识别的方法流程图;以及
图4示出了根据本说明书的实施例提供的一种获取商户画像的流程示意图。
具体实施方式
以下描述提供了本说明书的特定应用场景和要求,目的是使本领域技术人员能够制造和使用本说明书中的内容。对于本领域技术人员来说,对所公开的实施例的各种局部修改是显而易见的,并且在不脱离本说明书的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用。因此,本说明书不限于所示的实施例,而是与权利要求一致的最宽范围。
这里使用的术语仅用于描述特定示例实施例的目的,而不是限制性的。比如,除非上下文另有明确说明,这里所使用的,单数形式“一”,“一个”和“该”也可以包括复数形式。当在本说明书中使用时,术语“包括”、“包含”和/或“含有”意思是指所关联的整数,步骤、操作、元素和/或组件存在,但不排除一个或多个其他特征、整数、步骤、操作、元素、组件和/或组的存在或在该系统/方法中可以添加其他特征、整数、步骤、操作、元素、组件和/或组。
考虑到以下描述,本说明书的这些特征和其他特征、以及结构的相关元件的操作和功能、以及部件的组合和制造的经济性可以得到明显提高。参考附图,所有这些形成本说明书的一部分。然而,应该清楚地理解,附图仅用于说明和描述的目的,并不旨在限制本说明书的范围。还应理解,附图未按比例绘制。
本说明书中使用的流程图示出了根据本说明书中的一些实施例的系统实现的操作。应该清楚地理解,流程图的操作可以不按顺序实现。相反,操作可以以反转顺序或同时实现。此外,可以向流程图添加一个或多个其他操作。可以从流程图中移除一个或多个操作。
在对本说明书具体实施例说明之前,先对本说明书的应用场景进行如下介绍:
在商户画像获取场景下,画像技术为各类营销、活动等提供了坚实的数据基础。画像技术越能提供细粒度的信息,就越能让运营和活动策划有相关的抓手。现有的画像获取技术都是从商户上传的信息以及在APP上的交互信息来得到各类画像属性,往往忽略了图像中包含的各类商户画像信息。在对图像中的商户画像信息进行识别时,往往采用的图像分类的方式,通过识别模型直接将商户图像的图像特征与预设属性信息对应的文本特征进行匹配。识别模型在进行多模特的特征匹配过程中通常采用图像特征与文本特征之间的粗粒度约束,使得匹配出的商户画像的准确率较低。如果可以在识别模型的训练阶段,采用更加细粒度的约束方式,就可以提升识别模型的识别精度,进而提升在对象图像中识别出的商户画像的准确率。
为了方便描述,本说明书将对以下描述将会出现的术语进行如下解释:
多模态关系:通常指的是不同模态的对象之间的关系,在本方案中特指的是图像与文本之间的相似度,比如,“面包店”标签和面包店的图像相似度高,而“面包店”标签和宠物店的图像相似度低,等等。
商户画像:从图像中获取的商户的一些信息,也可以理解为商户的属性信息,譬如,可以包括商户的类型(面包点、宠物店等)、商户的客流密度、商户的门店大小或者商户的其他属性信息,等等。
需要说明的是,上述商户画像获取场景只是本说明是提供的多个使用场景中的一个,本说明书所述的图像识别方法和系统不仅可以应用于商户画像场景,还可以应用于图像识别的所有场景,比如,学校画像信息识别的场景,车辆画像信息识别的场景,或者,企业画像信息识别场景,等等。本领域技术人员应当明白,本说明书所述的图像识别方法和系统应用于其他使用场景也在本说明书的保护范围内。
图1示出了根据本说明书的实施例提供的一种图像识别的系统001的应用场景示意图。图像识别的系统001(以下简称系统001)可以应用于任意场景的图像识别,比如,学校画像信息识别场景下的图像识别、车辆画像信息识别场景下的图像识别、企业/单位画像信息识别场景下的图像识别,等等,如图1所示,系统001可以包括目标用户100、客户端200、服务器300以及网络400。
目标用户100可以为触发对目标图像进行识别的用户,目标用户100可以在客户端200进行图像识别的操作。
客户端200可以为响应于目标用户100的图像识别操作对目标图像进行识别的设备。在一些实施例中,所述图像识别的方法可以在客户端200上执行。此时,客户端200可以存储有执行本说明书描述的图像识别的方法的数据或指令,并可以执行或用于执行所述数据或指令。在一些实施例中,客户端200可以包括具有数据信息处理功能的硬件设备和驱动该硬件设备工作所需必要的程序。如图1所示,客户端200可以与服务器300进行通信连接。在一些实施例中,服务器300可以与多个客户端200进行通信连接。在一些实施例中,客户端200可以通过网络400与服务器300交互,以接收或发送消息等,比如接收或发送训练样本,比如,图像样本和文本样本等。在一些实施例中,客户端200可以包括移动设备、平板电脑、笔记本电脑、机动车辆的内置设备或类似内容,或其任意组合。在一些实施例中,所述移动设备可包括智能家居设备、智能移动设备、虚拟现实设备、增强现实设备或类似设备,或其任意组合。在一些实施例中,所述智能家居装置可包括智能电视、台式电脑等,或任意组合。在一些实施例中,所述智能移动设备可包括智能手机、个人数字辅助、游戏设备、导航设备等,或其任意组合。在一些实施例中,所述虚拟现实设备或增强现实设备可能包括虚拟现实头盔、虚拟现实眼镜、虚拟现实补丁、增强现实头盔、增强现实眼镜、增强现实补丁或类似内容,或其中的任何组合。例如,所述虚拟现实设备或所述增强现实设备可能包括谷歌眼镜、头戴式显示器、VR等。在一些实施例中,所述机动车中的内置装置可包括车载计算机、车载电视等。在一些实施例中,客户端200可以包括图像采集设备,用于采集对象的视频或图像信息,从而获取图像样本或对象图像。在一些实施例中,所述图像采集设备可以是二维图像采集设备(比如RGB摄像头),也可以是二维图像采集设备(比如RGB摄像头)和深度图像采集设备(比如3D结构光摄像头、激光探测器,等等)。在一些实施例中,客户端200可以是具有定位技术的设备,用于定位客户端200的位置。
在一些实施例中,客户端200可以安装有一个或多个应用程序(APP)。所述APP能够为目标用户100提供通过网络400同外界交互的能力以及界面。所述APP包括但不限于:网页浏览器类APP程序、搜索类APP程序、聊天类APP程序、购物类APP程序、视频类APP程序、理财类APP程序、即时通信工具、邮箱客户端、社交平台软件等等。在一些实施例中,客户端200上可以安装有目标APP。所述目标APP能够为客户端200采集对象的图像样本或对象图像。在一些实施例中,所述目标对象100还可以通过所述目标APP触发图像识别请求。所述目标APP可以响应于所述图像识别请求,执行本说明书描述的图像识别的方法。所述图像识别的方法将在后面的内容中详细介绍。
服务器300可以是提供各种服务的服务器,例如对客户端200上采集的目标图像提供支持的后台服务器。在一些实施例中,所述图像识别的方法可以在服务器300上执行。此时,服务器300可以存储有执行本说明书描述的图像识别的方法的数据或指令,并可以执行或用于执行所述数据或指令。在一些实施例中,服务器300可以包括具有数据信息处理功能的硬件设备和驱动该硬件设备工作所需必要的程序。服务器300可以与多个客户端200通信连接,并接收客户端200发送的数据。
网络400用以在客户端200和服务器300之间提供通信连接的介质。网络400可以促进信息或数据的交换。如图1所示,客户端200和服务器300可以同网络400连接,并且通过网络400互相传输信息或数据。在一些实施例中,网络400可以是任何类型的有线或无线网络,也可以是其组合。比如,网络400可以包括电缆网络,有线网络、光纤网络、电信通信网络、内联网、互联网、局域网(LAN)、广域网(WAN)、无线局域网(WLAN)、大都市市区网(MAN)、广域网(WAN)、公用电话交换网(PSTN)、蓝牙网络、ZigBee网络、近场通信(NFC)网络或类似网络。在一些实施例中,网络400可以包括一个或多个网络接入点。例如,网络400可以包括有线或无线网络接入点,如基站或互联网交换点,通过该接入点,客户端200和服务器300的一个或多个组件可以连接到网络400以交换数据或信息。
应该理解,图1中的客户端200、服务器300和网络400的数目仅仅是示意性的。根据实现需要,可以具有任意数目的客户端200、服务器300和网络400。
需要说明的是,所述图像识别的方法可以完全在客户端200上执行,也可以完全在服务器300上执行,还可以部分在客户端200上执行,部分在服务器300上执行。
图2示出了根据本说明书的实施例提供的一种计算设备600的硬件结构图。计算设备600可以执行本说明书描述的图像识别的方法。所述图像识别的方法在本说明书中的其他部分介绍。当所述图像识别的方法在客户端200上执行时,计算设备600可以是客户端200。当所述图像识别的方法在服务器300上执行时,计算设备600可以是服务器300。当所述图像识别的方法可以部分在客户端200上执行,部分在服务器300上执行时,计算设备600可以是客户端200和服务器300。
如图2所示,计算设备600可以包括至少一个存储介质630和至少一个处理器620。在一些实施例中,计算设备600还可以包括通信端口650和内部通信总线610。同时,计算设备600还可以包括I/O组件660。
内部通信总线610可以连接不同的系统组件,包括存储介质630、处理器620和通信端口650。
I/O组件660支持计算设备600和其他组件之间的输入/输出。
通信端口650用于计算设备600同外界的数据通信,比如,通信端口650可以用于计算设备600同网络400之间的数据通信。通信端口650可以是有线通信端口也可以是无线通信端口。
存储介质630可以包括数据存储装置。所述数据存储装置可以是非暂时性存储介质,也可以是暂时性存储介质。比如,所述数据存储装置可以包括磁盘632、只读存储介质(ROM)634或随机存取存储介质(RAM)636中的一种或多种。存储介质630还包括存储在所述数据存储装置中的至少一个指令集。所述指令是计算机程序代码,所述计算机程序代码可以包括执行本说明书提供的图像识别的方法的程序、例程、对象、组件、数据结构、过程、模块等等。
至少一个处理器620可以同至少一个存储介质630以及通信端口650通过内部通信总线610通信连接。至少一个处理器620用以执行上述至少一个指令集。当计算设备600运行时,至少一个处理器620读取所述至少一个指令集,并且根据所述至少一个指令集的指示,执行本说明书提供的图像识别的方法。处理器620可以执行图像识别的方法包含的所有步骤。处理器620可以是一个或多个处理器的形式,在一些实施例中,处理器620可以包括一个或多个硬件处理器,例如微控制器,微处理器,精简指令集计算机(RISC),专用集成电路(ASIC),特定于应用的指令集处理器(ASIP),中心处理单元(CPU),图形处理单元(GPU),物理处理单元(PPU),微控制器单元,数字信号处理器(DSP),现场可编程门阵列(FPGA),高级RISC机器(ARM),可编程逻辑器件(PLD),能够执行一个或多个功能的任何电路或处理器等,或其任何组合。仅仅为了说明问题,在本说明书中计算设备600中仅描述了一个处理器620。然而,应当注意,本说明书中计算设备600还可以包括多个处理器,因此,本说明书中披露的操作和/或方法步骤可以如本说明书所述的由一个处理器执行,也可以由多个处理器联合执行。例如,如果在本说明书中计算设备600的处理器620执行步骤A和步骤B,则应该理解,步骤A和步骤B也可以由两个不同处理器620联合或分开执行(例如,第一处理器执行步骤A,第二处理器执行步骤B,或者第一和第二处理器共同执行步骤A和B)。
图3示出了根据本说明书的实施例提供的一种图像识别的方法P100的流程图。如前,计算设备600可以执行本说明书的图像识别的方法P100。具体地,处理器620可以读取存储在其本地存储介质中的指令集,然后根据指令集的规定,执行本说明书的图像识别的方法P100。如图3所示,方法P100可以包括:
S110:获取训练样本集合,并在训练样本集合中提取出至少一个训练样本对。
其中,训练样本集合包括全量对象的全量样本集合和目标对象的测试样本集合,全量样本集合的样本数量大于测试样本集合。所谓全量样本集合可以理解为一个公开的数据集,该公开数据集中可以包括多种属性(画像信息)的文本样本和每一属性对应的各类对象的对象图像样本,测试样本就可以理解为仅包含目标对象已知的少量属性和目标对象相关的图像样本。全量对象可以包括目标对象,也可以不包括目标对象。全量样本集合可以用于保证识别模型的冷启动能力,也就说可以让识别模型除了具有针对目标对象的已知属性的识别能力,还可以针对新增属性的冷启动的识别,从而无需重新训练识别模型。测试样本集合可以保证识别模型在针对目标对象的属性信息的识别性能。因此,可以通过特定算法在这两个集合中进行采样,使得模型达到冷启动能力和性能的折中。
其中,获取训练样本集合的方式可以有多种,具体可以如下:
例如,处理器620可以接收目标用户100通过终端或者其他设备上传的训练样本集合,或者,可以在网络或者多模态样本数据库中获取至少一个候选对象的属性信息的文本样本和该属性信息对应的至少一个图像样本,从而得到全量样本集合,在该全量样本集合中筛选出预设数量的目标对象对应的文本样本和图像样本,从而得到测试样本集合,或者,还可以通过有放回或无放回的抽样方式分别在网络或多模态样本数据库中筛选出每一属性信息对应的文本样本和图像样本,从而得到全量样本集合和测试样本集合。
在获取训练样本集合之后,便可以在训练样本集合中提取出至少一个训练样本对,至少一个训练样本对中的每一训练样本对包括图像样本和文本样本。提取至少一个训练样本对的方式可以有多种,比如,处理器620可以在全量样本集合中提取出至少一个候选样本对,在测试样本集合中提取出至少一个测试样本对,以及将至少一个候选样本对和至少一个测试样本对作为至少一个训练样本对。
其中,每一候选样本对中可以包括候选对象的属性信息对应的文本样本和图像样本。每一测试样本对可中可以包括目标对象的属性信息对应的文本样本和图像样本。另外,每一个属性信息可以对应的一个或多个文本样本,也可以对应一个或多个图像样本,因此,不同训练样本对中的图像样本或文本样本可以相同。最后,候选样本对和测试样本的提取数量可以为任意值,可以相同,也可以不相同。
S120:采用识别模型对每一训练样本对进行特征提取,得到图像样本的图像特征和文本样本的文本特征。
其中,图像特征可以为表征图像样本的特征信息,文本特征可以为表征文本样本的特征信息。
其中,识别模型可以包括编码网络和采样网络,编码网络主要用于对图像样本和文本样本进行特征编码,从而得到图像特征和文本特征。编码网络可以多模态编码器,可以包括图像编码器和文本编码器,图像编码器用于对图像样本进行特征编码,从而输出图像特征,文本编码器用于文本样本进行特征编码,从而输出文本特征。
其中,采用识别模型对每一训练样本对进行特征提取的方式可以有多种,具体可以如下:
例如,处理器620可以在每一训练样本对中提取出图像样本和文本样本,通过编码网络的图像编码器对图像样本进行特征编码,从而得到图像特征,通过编码网络的文本编码器对文本样本进行特征编码,从而得到文本特征。
其中,编码网络的网络结构可以有多种,比如,可以为类似CLIP(一种连接文本和图像的多模态网络结构)的多模态编码器,或者,还可以为其他可以对图像/文本等多模态信息进行特征编码的网络结构。
S130:在图像特征中提取出预设尺寸的特征区域对应的至少一个图像子特征,并在文本特征中识别出文本样本中每一文本词对应的文本子特征。
其中,特征区域可以为图像特征的特征图中的区域,也可以理解为图像样本中某一个区域在特征图中对应的区域。
其中,文本词可以理解为对文本样本进行文本分词所得到的词或词组。比如,以文本样本为“大型宠物店”,则该文本样本中就可以包括“大型”和“宠物店”等词或词组,这些词或词组就可以为文本词。
其中,在图像特征中提取出图像子特征,并在文本特征中识别出文本子特征的方式可以有多种,具体可以如下:
例如,处理器620可以获取图像特征与文本特征之间的相似度,得到至少一个训练样本对对应的全局相似度集合,基于全局相似度集合,在至少一个训练样本对中筛选出目标训练样本对,以及基于目标训练样本对,在图像特征中提取出预设尺寸的特征区域对应的至少一个图像子特征,并在文本特征中识别出文本样本中每一文本词对应的文本子特征,具体可以如下:
S131:获取图像特征与文本特征之间的相似度,得到至少一个训练样本对对应的全局相似度集合。
其中,全局相似度集合可以包括至少一个全局相似度,所谓全局相似度可以理解为图像特征与文本特征之间整体的相似度。
其中,获取图像特征与文本特征之间的相似度的方式可以有多种,具体可以如下:
例如,处理器620可以计算图像特征与文本特征之间的余弦相似度,并将该余弦相似度作为图像特征与文本特征之间的全局相似度,从而得到至少一个训练样本对对应的全局相似度集合,或者,还可以计算图像特征与文本特征之间的特征距离,并将该特征距离作为图像特征与文本特征之间的全局相似度,从而得到至少一个训练样本的全局相似度集合。
其中,特征距离的类型可以有多种,比如,可以包括欧式距离或者其他类型的特征距离。
S132:基于全局相似度集合,在至少一个训练样本对中筛选出目标训练样本对。
其中,目标训练样本对可以理解为用于对识别模型的编码网络进行训练或收敛的训练样本对。
其中,基于全局相似度集合,在至少一个训练样本对中筛选出目标训练样本对的方式可以有多种,具体可以如下:
例如,处理器620可以基于全局相似度,确定每一训练样本对对应的全局损失信息,基于每一训练样本对对应的图像特征、文本特征以及全局损失信息,确定每一训练样本对的采样概率,基于采样概率,在至少一个训练样本对中筛选出目标训练样本对。
其中,全局损失信息可以理解为编码器损失的信息,基于全局相似度,确定每一个训练样本对应的全局损失信息的方式可以有多种,比如,处理器620可以在全局相似度集合中筛选出每一训练样本对对应的相似度,得到目标全局相似度,基于目标全局相似度,获取每一训练样本对对应的图像特征与文本特征之间的特征差值,以及基于特征差值,确定每一训练样本对对应的全局损失信息。
其中,基于特征差值,确定每一训练样本对对应的全局损失信息的方式可以有多种,比如,处理器620可以采用L2损失函数计算特征差值的平方和,从而得到每一训练样本对对应的全局损失信息,具体可以如公式(1)所示:
Figure BDA0003793220990000141
其中,Lossclip为全局损失信息,fimg为图像特征,ftext为文本特征。
在确定出每一训练样本对对应的全局损失信息之后,便可以基于全局损失信息、图像特征和文本特征,确定该训练样本对的采样概率。所谓采样概率可以理解为将该训练样本对作为对编码网络进行训练或收敛的目标训练样本对的概率信息。确定每一训练样本对的采样概率的方式可以有多种,比如,处理器620可以基于全局损失信息,确定每一训练样本对对应的梯度,以及基于识别模型的采样网络,基于每一训练样本对对应的图像特征、文本特征和梯度,确定每一训练样本对的采样概率。
其中,梯度可以理解为在基于全局损失信息对编码网络进行收敛时表征函数下降的方向或极值点的信息,通常可以直接对全局损失信息进行求导而来。基于全局损失信息,确定每一训练样本对对应的梯度的方式可以有多种,比如,处理器620可以对全局损失信息进行求导,从而得到训练样本对对应的梯度,具体可以如公式(2)所示:
Figure BDA0003793220990000142
其中,x为训练样本对,gradx为该训练样本对对应的梯度,
Figure BDA0003793220990000151
为全局损失信息。
在确定出每一训练样本对对应的梯度之后,便可以通过识别模型的采样网络,基于每一训练样本对对应的图像特征、文本特征和梯度,确定每一训练样本对的采样概率。确定采样概率的方式可以有多种,比如,处理器620可以将每一训练样本对对应的图像特征、文本特征和梯度输入至采样网络,采样网络输出该训练样本对的采样概率。
其中,采样网络的网络结构可以有多种,比如,可以为元网络或者其他可以通过梯度、图像特征和文本特征输出采样概率的网络结构,等等。
在确定出每一训练样本对的采样概率之后,便可以基于采样概率,在至少一个训练样本对中筛选出目标训练样本的方式可以有多种,比如,处理器620可以在至少一个训练样本对中筛选出采样概率超过预设概率阈值的训练样本对,得到目标训练样本对,或者,可以基于采样概率,对至少一个训练样本对中的每一训练样本对进行排序,基于排序结果,在至少一个训练样本对中筛选出TOP K的训练样本对作为目标训练样本对,或者,可以根据训练样本对对应的对象类型,对至少一个训练样本对进行分类,得到每一对象类型对应的训练样本对集合,基于采样概率,对训练样本对集合中的训练样本对进行排序,基于排序结果,在训练样本对集合中筛选出目标训练样本对,或者,还可以基于训练样本对对应的对象类型,获取每一对象类型对应的加权系数,基于该加权系数,分别对训练样本对的采样概率进行加权,并基于加权后的采样概率,在至少一个训练样本对中筛选出目标训练样本对。
其中,在对识别模型训练过程中,在全量样本集合中采样出更多的候选样本对,就可以增加识别模型的冷启动能力,而在测试样本集合中采样出更多的测试样本对,就可以增加识别模型针对目标对象的画像信息的识别性能。在本方案中,可以通过采样网络确定出每一训练样本对的采样概率,并基于采样概率,在至少一个训练样本对中筛选出目标训练样本,从而可以通过强化学习的采样策略平衡全量样本集合和测试样本集合之间的采样数量,使得识别模型可以达到冷启动能力和性能的折中。
S133:基于目标训练样本对,在图像特征中提取出预设尺寸的特征区域对应的至少一个图像子特征,并在文本特征中识别出文本样本中每一文本词对应的文本子特征。
其中,基于目标训练样本对包括目标图像样本和目标文本样本。
其中,在图像特征中提取出图像子特征,并在文本特征中识别出文本子特征的方式可以有多种,具体可以如下:
例如,处理器620可以在图像特征中筛选出目标图像样本的目标图像特征,并在文本特征中筛选出目标文本样本的目标文本特征,在目标图像特征中提取出预设尺寸的特征区域对应的至少一个图像子特征,以及在目标文本特征中提取出目标文本样本中每一文本词对应的文本子特征。
其中,在目标图像特征中提取出预设尺寸的特征区域对应的至少一个图像子特征的方式可以有多种,比如,处理器620可以在目标图像特征对应的特征图中遍历预设预尺寸的特征区域,在目标图像特征中提取出每一特征区域对应的图像特征,从而就可以得到至少一个图像子特征。
其中,预设尺寸可以为任意值,可以根据特征图的尺寸进行设定,还可以根据实际应用进行设定,比如,可以为5*5或者其他尺寸。
其中,在目标文本特征中提取出目标文本样本中每一文本词对的文本子特征的方式可以有多种,比如,处理器620可以对目标文本样本进行文本分词,从而得到目标文本样本中的至少一个文本词,在目标文本特征中筛选出至少一个文本词中的每一文本词对应的文本特征,从而得到每一文本词对应的文本子特征。
其中,对目标文本样本进行文本分词的方式可以有多种,比如,处理器620可以获取文本样本的文本类型,采用该文本类型对应的分词算法,对目标文本样本进行文本分词,从而得到目标文本样本中的至少一个文本词。
其中,文本类型可以包括长文本、短文本、中文文本和非中文文本中的至少一种。
S140:遍历至少一个图像子特征与文本子特征之间的相似度,得到局部相似度集合,并基于局部相似度集合对识别模型进行收敛,得到目标识别模型。
其中,局部相似度集合包括至少一个局部相似度,所谓局部相似度可以理解为图像样本中的某一个区域与文本样本中某一个文本词之间的相似度,或者,还可以理解为图像特征中某一个图像子特征与文本特征中某一个文本词的文本子特征之间的相似度。该局部相似度相对于全局相似度来说,可以更加细粒度的约束多模态关系。
S141:遍历至少一个图像子特征与文本子特征之间的相似度,得到局部相似度集合。
其中,遍历至少一个图像子特征与文本子特征之间的相似度的方式可以有多种,具体可以如下:
例如,处理器620可以遍历至少一个图像子特征中每一图像子特征与每一文本子特征,并计算每一图像子特征分别与每一文本子特征之间的相似度,并将该相似度作为局部相似度,从而得到局部相似度集合。
S142:基于局部相似度集合对识别模型进行收敛,得到目标识别模型。
例如,处理器620可以基于采样网络、全局损失信息和局部相似度集合,对编码网络进行预设第一次数的编码训练,得到目标编码网络,基于目标编码网络,对采样网络进行预设第二次数的采样训练,得到目标采样网络,将目标编码网络和目标采样网络作为当前识别模型,并将识别模型更新为所述当前识别模型,以及返回执行采用识别模型对每一训练样本对进行特征提取的步骤,直至识别模型收敛,得到目标识别模型,具体可以如下:
(1)基于采样网络、全局损失信息和局部相似度集合,对编码网络进行预设第一次数的编码训练,得到目标编码网络。
其中,编码训练就可以理解为对编码网络中的网络参数进行更新,基于采样网络、全局损失信息和局部相似度集合,对编码网络进行预设第一次数的编码训练的方式可以有多种,具体以如下:
例如,处理器620可以基于全局损失信息和局部相似度集合,确定编码网络的编码损失信息,基于编码损失信息对编码网络的网络参数进行更新,得到当前编码网络,将当前编码网络和采样网络作为候选识别模型,并将识别模型更新为候选识别模型,以及返回执行采用识别模型对每一训练样本对进行特征提取的步骤,直至更新次数达到预设第一次数时为止,得到目标编码网络。
其中,编码损失信息可以理解为编码网络在对图像样本和文本样本进行特征编码时的损失信息。基于全局损失信息和局部相似度集合,确定编码网络的编码损失信息的方式可以有多种,比如,处理器620可以在全局损失信息中筛选出目标训练样本对对应的目标全局损失信息,基于局部相似度集合,确定编码网络对应的局部损失信息,以及将全局损失信息和局部损失信息进行融合,得到编码网络的编码损失信息。
其中,局部损失信息可以理解为图像样本的局部区域与文本样本的文本词之间的损失信息。基于局部相似度集合,确定编码网络对应的局部损失信息的方式可以有多种,比如,处理器620可以在局部相似度集合中遍历出每一文本子特征对应的局部相似度,得到每一文本子特征对应的候选局部相似度集合,在候选局部相似度集合中筛选出相似度最大的局部相似度,得到每一文本子特征对应的目标局部相似度,以及将目标局部相似度调整至预设相似度,以得到编码网络对应的局部损失信息。
其中,预设相似度大于目标局部相似度,将目标局部相似度调整至预设相似度的方式可以有多种,比如,处理器620可以直接将目标局部相似度调整至预设相似度,基于调整后的局部相似度与局部相似度,确定编码网络对应的局部损失信息,或者,还可以基于预设相似度,对目标局部相似度对应的图像子特征和文本子特征进行特征调整,使得调整后的图像子特征与文本子特征的局部相似度达到预设相似度,根据调整后的图像子特征和调整后的文本子特征与图像子特征和文本子特征,确定编码网络对应的局部损失信息。
其中,预设相似度可以实际应用中设定的最大相似度,比如,可以为1或者其他任意值。对目标局部相似度的调整可以理解为对目标局部相似度进行最大化处理,所谓最大化处理可以理解为最大化其中最大的区域-文本词之间的局部相似度,具体可以如公式(3)所示:
Figure BDA0003793220990000181
其中,Losslocal为局部损失信息,fmi为第i个图像子特征,textj为第j个文本子特征。
在确定出编码网络对应的局部损失信息之后,便可以将全局损失信息和局部损失信息进行融合,从而得到编码网络的编码损失信息。将全局损失信息和局部损失信息进行融合的方式可以有多种,比如,处理器620可以直接将全局损失信息和局部损失信息进行拼接或者组合,从而得到编码网络的编码损失信息,或者,还可以分别获取全局损失信息和局部损伤信息的加权系数,并基于加权系数,分别对全局损失信息和局部损失信息进行加权,并将加权后的全局损失信息和加权后的局部损失信息进行融合,从而得到编码网络的编码损失信息。
在确定出编码网络的编码损失信息之后,便可以基于编码损失信息对编码网络的网络参数进行更新,得到当前编码网络。基于编码损失信息对编码网络的网络参数进行更新的方式可以有多种,比如,处理器620可以采用梯度下降算法,基于编码损失信息对编码网络的网络参数进行更新,从而得到当前编码网络,或者,处理器620还可以通过其他网络参数更新算法,基于编码损失信息对编码网络的网络参数进行更新,从而得到当前编码网络。
在对编码网络的网络参数进行更新之后,就可以将当前编码网络和采样网络作为候选识别模型,并将识别模型更新后候选识别模型。然后,处理器620就可以返回执行采用识别模型对每一训练样本对进行特征提取的步骤,直至更新次数到预设第一次数时为止,将最后得到的编码网络和采样网络就可以作为目标编码网络。
(2)基于目标编码网络,对采样网络进行预设第二次数的采样训练,得到目标采样网络。
其中,采样训练就可以理解为采样网络的网络参数进行更新,基于目标编码网络,对采样网络进行预设第二次数的采样训练,得到目标采样网络的方式可以有多种,具体可以如下:
例如,处理器620可以采用目标编码网络对至少一个训练样本对进行特征提取,以得到至少一个训练样本对对应的当前全局损失信息集合,基于采样网络在当前全局损失信息集合中筛选出候选全局损失信息,并在候选全局损失信息中提取出目标测试损失信息,基于目标测试损失信息对采样网络的网络参数进行更新,得到当前采样网络,并将采样网络更新为当前采样网络,以及返回执行采用目标编码网络对至少一个训练样本对进行特征提取的步骤,直至更新次数达到预设第二次数时为止,得到目标采样网络。
其中,采用目标编码网络对至少一个训练样本对进行特征提取,以得到至少一个训练样本对对应的当前全局损失信息集合的方式可以有多种,比如,处理器620可以采用目标编码网络对至少一个训练样本对中的每一训练样本对进行特征提取,得到每一训练样本对对应的样本特征对,该样本特征对包括图像特征和文本特征,然后,计算样本特征对中的图像特征与文本特征之间的相似度,基于该相似度确定出样本特征对对应的全局损失信息,从而得到至少一个训练样本对对应的当前全局损失信息集合。
在得到至少一个训练样本对对应的当前全局损失信息集合之后,便可以基于采样网络在当前全局损失信息集合中筛选出候选全局损失信息。基于采样网络,通过采样概率在当前全局损失信息中筛选出候选全局损失信息的方式与筛选出目标全局损失的方式类似,详见上文所述在此就不再一一赘述。
在筛选出候选全局损失信息之后,便可以在候选全局损失信息中提取出目标测试损失信息。目标测试损失信息可以理解为候选全局损失信息中测试样本对对应的损失信息,也可以理解为采样后数据在测试集上的损失信息。在候选全局损失信息中提取出目标测试损失信息的方式可以有多种,比如,处理器620可以在候选全局损失信息中筛选出测试样本对对应的至少一个全局损失信息,得到测试损失信息集合,以及在测试损失信息集合中筛选出最小的测试损失信息,得到目标测试损失信息,具体可以如公式(4)所示:
Lossmeta=min(s(X)) (4)
其中,Lossmeta为目标测试损失信息,s(X)为测试样本对对应的全局损失信息。
在提取出目标测试损失信息之后,便可以基于目标测试损失信息对采样网络的网络参数进行更新,更新的方式与编码网络的更新方式类似,在此就不再一一赘述,从而得到当前采样网络。
在得到当前采样网络之后,便可以将采样网络更新为当前采样网络,返回执行采用目标编码网络对至少一个训练样本进行特征提取的步骤,直至更新次数达到预设第二次数时为止,得到目标采样网络。
在对编码网络和采样网络训练之后,将训练后的目标编码网络和目标采样网络作为当前识别模型,并将识别模型更新为当前识别模型。处理器620就可以返回执行采用识别模型对每一训练样本对进行特征提取的步骤,直至识别模型进行收敛,得到目标识别模型。
其中,识别模型的收敛条件可以有多种,比如,可以为识别模型的训练次数达到预设目标次数,或者,可以为识别模型的性能达到预设性能,或者,还可以为识别模型大小达到预设大小。
其中,对识别模型进行一次训练,就可以看作是对编码网络进行预设第一次数的训练,并对采样网络进行预设第二次数的训练,但是两者的训练过程相互独立。预设第一次数大于预设第二次数,也就说在识别模型进行收敛之前,对编码网络训练的次数大于对采样网络的训练次数。还需要说明的是,在对编码网络和采样网络进行训练时,分别独立进行训练,也就说是在训练编码网络时,固定采样网络,训练采样网络时,固定编码网络。另外,该预设第一次数与预设第二次数之间的比值为预设比值,该预设比值可以根据实际应用进行设定,比如,可以为10:1,或者其他任意比值。以预设比值为10:1,编码网络为编码器,采样网络为元网络为例,也就是在对识别模型每一完成一次训练时,可以先进行10轮的编码器训练,然后,再进行一轮的元网络训练,直至识别模型收敛,从而得到训练后的目标识别模型。
在一些实施例中,在对识别模型进行训练之前,还可以对预设识别模型进行图像-文本关系的预训练,从而得到识别模型。因此,在采用识别模型对每一训练样本对进行特征提取之前,处理器620可以对预设识别模型进行预训练,从而得到识别模型。预训练的方式可以有多种,比如,处理器620可以采用预设识别模型中的采样网络和至少一个训练样本对,对预设识别模型中的编码网络进行预设第一次数的编码训练,得到基础编码网络,基于基础编码网络和至少一个训练样本对,对预设识别模型中的采样网络进行预设第二次数的采样训练,得到基础采样网络,将基础编码网络和基础采样网络作为基础识别模型,并将预设识别模型更新为基础识别模型,以及返回执行采用预设识别模型中的采样网络和至少一个训练样本对,对预设识别模型中的编码网络进行预设第一次数的编码训练的步骤,直至预设识别模型收敛时为止,得到识别模型。
其中,预设识别模型可以为未经过图像-文本关系预训练的初始识别模型。预设识别模型中可以包括编码网络和采样网络。采用预设识别模型中的采样网络和至少一个训练样本对,对预设识别模型中的编码网络进行预设第一次数的编码训练的方式可以有多种,比如,处理器620可以采用预设识别模型中的编码网络对至少一个训练样本对进行特征提取,以得到至少一个训练样本对对应的候选全局损失信息集合,基于预设识别模型中的采样网络在候选全局损失信息集合中筛选出基础全局损失信息,以及基于基础全局损失信息对预设识别模型中的编码网络进行预设第一次数的编码训练,得到基础编码网络。
其中,采用预设识别模型中的编码网络对至少一个训练样本对进行特征提取,以得到至少一个训练样本对对应的候选全局损失信息与得到全局损失信息集合方式相同,详见上文所述,在此就不再一一赘述。
其中,基于预设识别模型的采样网络在候选全局损失信息集合中筛选出基础全局损失信息的方式与从全局损失信息集合中筛选出目标全局损失信息的方式相同,详见上文所述,在此就不再一一赘述。另外,针对预设识别模型中的编码网络的编码训练与识别模型中的编码网络中的编码训练的主要不同在于,预设识别模型对应的编码训练中的损失信息仅仅为基础全局损失信息,并未包含局部损失信息,因此,针对预设识别模型的编码网络的编码训练重点在于图像-文本关系的预训练,而针对识别模型中的编码网络的编码训练重点在于图像区域-文本词之间细粒度关系的训练,从而可以逐级提升识别模型的识别粒度,增加识别模型的识别精度。
在对预设识别模型中的编码网络编码训练之后,便可以基于训练后的基础编码网络和至少一个训练样本对,对预设识别模型中的采样网络进行预设第二次数的采样训练,从而得到基础采样网络的训练。对预设识别模型中的采样网络的训练与对识别模型中的采样网络的训练类似,详见上文所述,在此就不再一一赘述。
其中,在预设识别模型的一次完整训练中的预设第一次数和预设第二次数可以与识别模型的一次完整训练中的预设第一次数和预设第二次数可以根据实际应用进行设定,可以相同,也可以不同。在预设识别模型训练中的预设第一次数和预设第二次数之间的比值也可以预设比值,预设第一次数大于预设第二次数。
在对预设识别模型中的编码网络和采样网络进行训练之后,得到基础识别模型,就可以将识别模型更新为基础识别模型,然后,处理器620就可以返回执行采用预设识别模型中的采样网络和至少一个训练样本对,对预设识别模型中的编码网络进行预设第一次数的编码训练的步骤,直至预设识别模型收敛时为止,得到识别模型。
其中,针对预设识别模型的训练与针对识别模型的训练,在整体训练过程中类似,主要的区别点在于针对预设识别模型的训练中编码网络的编码训练。预设识别模型的编码训练和识别模型的编码训练中的损失信息不同,预设识别模型的编码训练的损失信息为全局损失信息,而识别模型的编码训练的损失信息可以包括全局损失信息和局部损失信息,从而可以逐级提升识别模型的识别粒度,增加识别模型的识别精度。
在一些实施例中,在基于局部相似度集合对识别模型进行收敛,得到目标识别模型之后,还可以定义目标对象的属性信息(对象画像),从而可以使得目标识别模型在对象图像中准确的识别出目标对象的属性信息。因此,处理器620还可以获取目标对象的至少一个预设属性信息对应的文本集合,以及采用目标识别模型对文本集合中每一文本进行特征提取,得到至少一个预设属性信息对应的文本特征集合。该文本特征集合就可以用于与对象图像的图像特征进行匹配,将匹配成功的文本特征对应的预设属性信息作为对象图像对应的目标对象的属性信息。
其中,预设属性信息可以为根据业务需要,预先设定的目标对象的常用属性信息,以目标对象为商户为例,预设属性信息就可以包括商户类别、门店大小、门店人流量信息或者门店地址,等等。
S150:采用目标识别模型在对象图像中识别出目标对象的属性信息。
其中,对象图像可以理解为包含目标对象的图像,所谓目标对象可以理解为根据业务需要预先设定的一个或多个特定的对象,比如,在支付业务下,目标对象就可以为商户,在学校场景下,目标对象就可以为学生或教师,等等。
其中,属性信息可以理解为表征目标对象的属性的相关信息,比如,以目标对象为商户为例,属性信息就可以包括商户类别、门店大小、门店人流量信息或者门店地址,等等。
其中,采用目标识别模型在对象图像中识别出目标对象的属性信息的方式可以有多种,具体可以如下:
例如,处理器620可以获取目标对象的对象图像,采用目标识别模型对对象图像进行特征提取,得到对象图像的当前图像特征,以及基于文本特征集合和当前图像特征,确定对象图像中目标对象的属性信息。
其中,获取目标对象的对象图像的方式可以有多种,比如,处理器620可以直接获取用户通过终端上传的目标对象的对象图像,或者,可以在图像数据库中获取至少一个目标对象的对象图像,或者,还可以接收图像识别请求,该图像识别请求中包括目标对象的对象图像的存储地址,基于该存储地址,获取目标对象的对象图像。
在获取到目标对象的对象图像之后,便可以采用目标识别模型对对象图像进行特征提取,从而得到对象图像的当前图像特征。对对象图像进行特征提取的方式可以有多做,比如,处理器620可以采用目标识别模型中的编码网络在对象图像中提取出图像特征,从而得到对象图像的当前图像特征。
在提取出对象图像的当前图像特征之后,便可以基于文本特征集合和当前图像特征,确定对象图像中目标对象的属性信息。确定目标图像中目标对象的属性信息的方式可以有多种,比如,处理器620可以获取当前图像特征与文本特征集合中每一文本特征之间的相似度,得到当前相似度集合,在当前相似度集合中筛选出超过预设相似度阈值的目标相似度,以及在至少一个属性信息中筛选出目标相似度对应的属性信息,得到目标对象的属性信息。
其中,获取当前图像特征与文本特征集合中每一文本特征之间的相似度的方式可以有多种,比如,处理器620可以直接计算当前图像特征与文本特征集合中每一文本特征之间的余弦相似度或特征距离,将余弦相似度或特征距离作为当前图像特征与文本特征集合中每一文本特征之间的相似度,从而得到当前相似度集合,或者,还可以在当前图像特征中遍历出预设尺寸的特征区域对应的至少一个当前图像子特征,并在文本特征集合中识别出每一文本特征中文本词对应的当前文本子特征,然后,分别计算当前图像子特征与当前文本子特征之间的相似度,在计算出的相似度中筛选出最大的相似度,从而得到当前图像子特征匹配的文本子特征之间的目标相似度,将目标相似度进行融合,得到当前图像特征与每一文本特征之间的当前相似度,将当前相似度进行融合,就可以得到当前相似度集合。
其中,预设相似度阈值可以为预先设定的判断图像样本与预设属性信息匹配的阈值,该预设相似度阈值可以根据实际应用进行设定。以预设相似度阈值为T,目标对象为商户为例,相似度超过T的文本对应的预设属性信息就可以为商户的属性(商户画像)。
在一些实施例中,针对除了预设属性信息以外的新增属性信息时,还可以直接进行适配,直接适配就需要依赖于识别模型的冷启动能力。因此,针对新属性信息的冷启动的方式可以有多种,比如,处理器620可以获取当前属性信息对应的目标文本,并基于当前属性信息对至少一个属性信息进行更新,得到更新后的属性信息集合,采用目标识别模型对目标文本进行特征提取,得到当前文本特征,以及基于当前文本特征,对文本特征集合进行更新,得到属性信息集合对应的更新后文本特征集合。基于更新后文本特征集合,在对象图像中识别出对象图像中目标对象的属性信息。
其中,基于更新后文本特征集合,在对象图像中识别出对象图像中目标对象的属性信息的方式可以有多种,比如,处理器620可以采用目标识别模型的编码网络对对象图像进行特征提取,得到图像特征,在更新后文本特征集合中提取出新增的目标属性对应的目标文本对应的文本特征,当图像特征与文本特征之间的相似度超过预设相似度阈值时,就可以将新增的属性信息添加至目标对象的属性信息,也就表明该对象图像中可以包括目标对象的新增的属性信息。另外,针对新增的属性信息的预设相似度阈值可以与预设属性信息对应的预设相似度阈值可以相同,也可以不同。
其中,针对新增的属性信息,采用冷启动的方式无需对目标识别模型重新进行训练,从而大大减少针对新增的属性信息的适配和升级成本,也可以提升图像识别的识别效率。
其中,以目标对象为商户为例,图像识别的本质就可以理解为在商户图像中获取该商户的商户画像。本方案与传统的图像分类的方式不同在于该方案可以基于细粒度的多模特关系来获取商户画像,具体的获取过程可以如图4所示,对识别模型训练可以分为两个训练阶段,主要包括一阶段图像-文本关系预训练和二节点细粒度关系训练。在对识别模型训练之后,便可以进行画像属性定义和获取,在新增属性信息,还可以对新属性进行冷启动。在一阶段图像-文本关系预训练时,可以采用元网络的采样技术在公开数据集和商户数据集中进行平衡采样,并基于采样出的训练样本对进行图像-文本关系的模型训练。在二阶段细粒度关系训练时,增加局部区域(特征区域)和字段(文本词)的约束,从而实现细粒度关系训练。在画像属性信息和获取时,定义所需的画像属性,然后,利用训练好的目标识别模型直接获取属性信息。在增加新属性时,可以直接采用冷启动的方式进行图像识别。
综上所述,本说明书提供的图像识别的方法P100和系统001,获取训练样本集合,并在训练样本集合中提取出至少一个训练样本对后,至少一个训练样本对中的每一训练样本对包括图像样本和文本样本,采用识别模型对每一训练样本对进行特征提取,得到图像样本的图像特征和文本样本的文本特征,然后,在图像特征中提取出预设尺寸的特征区域对应的至少一个图像子特征,并在文本特征中识别出文本样本中每一文本词对应的文本子特征,遍历至少一个图像子特征与文本子特征之间的相似度,得到局部相似度集合,并基于局部相似度集合对识别模型进行收敛,得到目标识别模型,以及采用目标识别模型在对象图像中识别出目标对象的属性信息;由于该方案在对识别模型进行训练过程中,在图像特征提取出图像子特征,并在文本特征中提取出文本样本中每一文本词的文本子特征,然后,遍历出图像子特征与文本子特征之间的相似度进行约束,使得将约束的粒度细化为特征区域与文本词之间的关系,进而提升识别模型的识别精度,因此,可以提升图像识别的识别准确率。
本说明书另一方面提供一种非暂时性存储介质,存储有至少一组用来进行图像识别的可执行指令。当所述可执行指令被处理器执行时,所述可执行指令指导所述处理器实施本说明书所述的图像识别的方法P100的步骤。在一些可能的实施方式中,本说明书的各个方面还可以实现为一种程序产品的形式,其包括程序代码。当所述程序产品在计算设备600上运行时,所述程序代码用于使计算设备600执行本说明书描述的图像识别的方法P100的步骤。用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)包括程序代码,并可以在计算设备600上运行。然而,本说明书的程序产品不限于此,在本说明书中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统使用或者与其结合使用。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本说明书操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在计算设备600上执行、部分地在计算设备600上执行、作为一个独立的软件包执行、部分在计算设备600上部分在远程计算设备上执行、或者完全在远程计算设备上执行。
上述对本说明书特定实施例进行了描述。其他实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者是可能有利的。
综上所述,在阅读本详细公开内容之后,本领域技术人员可以明白,前述详细公开内容可以仅以示例的方式呈现,并且可以不是限制性的。尽管这里没有明确说明,本领域技术人员可以理解本说明书需求囊括对实施例的各种合理改变,改进和修改。这些改变,改进和修改旨在由本说明书提出,并且在本说明书的示例性实施例的精神和范围内。
此外,本说明书中的某些术语已被用于描述本说明书的实施例。例如,“一个实施例”,“实施例”和/或“一些实施例”意味着结合该实施例描述的特定特征,结构或特性可以包括在本说明书的至少一个实施例中。因此,可以强调并且应当理解,在本说明书的各个部分中对“实施例”或“一个实施例”或“替代实施例”的两个或更多个引用不一定都指代相同的实施例。此外,特定特征,结构或特性可以在本说明书的一个或多个实施例中适当地组合。
应当理解,在本说明书的实施例的前述描述中,为了帮助理解一个特征,出于简化本说明书的目的,本说明书将各种特征组合在单个实施例、附图或其描述中。然而,这并不是说这些特征的组合是必须的,本领域技术人员在阅读本说明书的时候完全有可能将其中一部分设备标注出来作为单独的实施例来理解。也就是说,本说明书中的实施例也可以理解为多个次级实施例的整合。而每个次级实施例的内容在于少于单个前述公开实施例的所有特征的时候也是成立的。
本文引用的每个专利,专利申请,专利申请的出版物和其他材料,例如文章,书籍,说明书,出版物,文件,物品等,可以通过引用结合于此。用于所有目的全部内容,除了与其相关的任何起诉文件历史,可能与本文件不一致或相冲突的任何相同的,或者任何可能对权利要求的最宽范围具有限制性影响的任何相同的起诉文件历史。现在或以后与本文件相关联。举例来说,如果在与任何所包含的材料相关联的术语的描述、定义和/或使用与本文档相关的术语、描述、定义和/或之间存在任何不一致或冲突时,使用本文件中的术语为准。
最后,应理解,本文公开的申请的实施方案是对本说明书的实施方案的原理的说明。其他修改后的实施例也在本说明书的范围内。因此,本说明书披露的实施例仅仅作为示例而非限制。本领域技术人员可以根据本说明书中的实施例采取替代配置来实现本说明书中的申请。因此,本说明书的实施例不限于申请中被精确地描述过的实施例。

Claims (21)

1.一种图像识别方法,包括:
获取训练样本集合,并在所述训练样本集合中提取出至少一个训练样本对,所述至少一个训练样本对中的每一训练样本对包括图像样本和文本样本;
采用识别模型对所述每一训练样本对进行特征提取,得到所述图像样本的图像特征和所述文本样本的文本特征;
在所述图像特征中提取出预设尺寸的特征区域对应的至少一个图像子特征,并在所述文本特征中识别出所述文本样本中每一文本词对应的文本子特征;
遍历所述至少一个图像子特征与所述文本子特征之间的相似度,得到局部相似度集合,并基于所述局部相似度集合对所述识别模型进行收敛,得到目标识别模型;以及
采用所述目标识别模型在对象图像中识别出目标对象的属性信息。
2.根据权利要求1所述的图像识别方法,其中,所述训练样本集合包括全量对象的全量样本集合和所述目标对象的测试样本集合,所述全量样本集合的样本数量大于所述测试样本集合的样本数量;以及
所述在所述训练样本集合中提取出至少一个训练样本对,包括:
在所述全量样本集合中提取出至少一个候选样本对;
在所述测试样本集合中提取出至少一个测试样本对;以及
将所述至少一个候选样本对和所述至少一个测试样本对作为所述至少一个训练样本对。
3.根据权利要求1所述的图像识别方法,其中,所述在所述图像特征中提取出预设尺寸的特征区域对应的至少一个图像子特征,并在所述文本特征中识别出所述文本样本中每一文本词对应的文本子特征,包括:
获取所述图像特征与所述文本特征之间的相似度,得到所述至少一个训练样本对对应的全局相似度集合;
基于所述全局相似度集合,在所述至少一个训练样本对中筛选出目标训练样本对;以及
基于所述目标训练样本对,在所述图像特征中提取出预设尺寸的特征区域对应的至少一个图像子特征,并在所述文本特征中识别出所述文本样本中每一文本词对应的文本子特征。
4.根据权利要求3所述的图像识别方法,其中,所述目标训练样本对包括目标图像样本和目标文本样本;以及
所述基于所述目标训练样本对,在所述图像特征中提取出预设尺寸的特征区域对应的至少一个图像子特征,并在所述文本特征中识别出所述文本样本中每一文本词对应的文本子特征,包括:
在所述图像特征中筛选出所述目标图像样本的目标图像特征,并在所述文本特征中筛选出所述目标文本样本的目标文本特征;
在所述目标图像特征中提取出预设尺寸的特征区域对应的至少一个图像子特征;以及
在所述目标文本特征中提取出所述目标文本样本中每一文本词对应的文本子特征。
5.根据权利要求3所述的图像识别方法,其中,所述基于所述全局相似度集合,在所述至少一个训练样本对中筛选出目标训练样本对,包括:
基于所述全局相似度集合,确定所述每一训练样本对对应的全局损失信息;
基于所述每一训练样本对对应的所述图像特征、所述文本特征以及所述全局损失信息,确定所述每一训练样本对的采样概率;以及
基于所述采样概率,在所述至少一个训练样本对中筛选出目标训练样本对。
6.根据权利要求5所述的图像识别方法,其中,所述基于所述全局相似度集合,确定所述每一训练样本对对应的全局损失信息,包括:
在所述全局相似度集合中筛选出所述每一训练样本对对应的相似度,得到目标全局相似度;
基于所述目标全局相似度,获取所述每一训练样本对对应的所述图像特征与所述文本特征之间的特征差值;以及
基于所述特征差值,确定每一训练样本对对应的全局损失信息。
7.根据权利要求5所述的图像识别方法,其中,所述基于所述每一训练样本对对应的所述图像特征、所述文本特征以及所述全局损失信息,确定所述每一训练样本对的采样概率,包括:
基于所述全局损失信息,确定所述每一训练样本对对应的梯度;以及
通过所述识别模型的采样网络,基于所述每一训练样本对对应的所述图像特征、所述文本特征和所述梯度,确定所述每一训练样本对的采样概率。
8.根据权利要求5所述的图像识别方法,其中,所述识别模型包括编码网络和采样网络;以及
所述基于所述局部相似度集合对所述识别模型进行收敛,得到目标识别模型,包括:
基于所述采样网络、所述全局损失信息和所述局部相似集合,对所述编码网络进行预设第一次数的编码训练,得到目标编码网络;
基于所述目标编码网络,对所述采样网络进行预设第二次数的采样训练,得到目标采样网络;
将所述目标编码网络和目标采样网络作为当前识别模型,并将所述识别模型更新为所述当前识别模型;以及
返回执行所述采用识别模型对所述每一训练样本对进行特征提取的步骤,直至所述识别模型收敛,得到所述目标识别模型。
9.根据权利要求8所述的图像识别方法,其中,所述预设第一次数大于所述第二预设次数,所述预设第一次数与所述预设第二次数之间的比值为预设比值。
10.根据权利要求8所述的图像识别方法,其中,所述基于所述采样网络、所述全局损失信息和所述局部相似集合,对所述编码网络进行预设第一次数的编码训练,得到目标编码网络,包括:
基于所述全局损失信息和局部相似度集合,确定所述编码网络的编码损失信息;
基于所述编码损失信息对所述编码网络的网络参数进行更新,得到当前编码网络;
将所述当前编码网络和采样网络作为候选识别模型,并将所述识别模型更新为所述候选识别模型;以及
返回执行所述采用识别模型对所述每一训练样本对进行特征提取的步骤,直至更新次数达到预设第一次数时为止,得到所述目标编码网络。
11.根据权利要求10所述的图像识别方法,其中,所述基于所述全局损失信息和局部相似度集合,确定所述编码网络的编码损失信息,包括:
在所述全局损失信息中筛选出所述目标训练样本对对应的目标全局损失信息;
基于所述局部相似度集合,确定所述编码网络对应的局部损失信息;以及
将所述全局损失信息和局部损失信息进行融合,得到所述编码网络的编码损失信息。
12.根据权利要求11所述的图像识别方法,其中,所述基于所述局部相似度集合,确定所述编码网络对应的局部损失信息,包括:
在所述局部相似度集合中遍历出每一文本子特征对应的局部相似度,得到所述每一文本子特征对应的候选局部相似度集合;
在所述候选局部相似度集合中筛选出相似度最大的局部相似度,得到所述每一文本子特征对应的目标局部相似度;以及
将所述目标局部相似度调整至预设相似度,以得到所述编码网络对应的局部损失信息,所述预设相似度大于所述目标局部相似度。
13.根据权利要求8所述的图像识别方法,其中,所述基于所述目标编码网络,对所述采样网络进行预设第二次数的采样训练,得到目标采样网络,包括:
采用所述目标编码网络对所述至少一个训练样本对进行特征提取,以得到所述至少一个训练样本对对应的当前全局损失信息集合;
基于所述采样网络在所述当前全局损失信息集合中筛选出候选全局损失信息,并在所述候选全局损失信息中提取出目标测试损失信息;
基于所述目标测试损失信息对所述采样网络的网络参数进行更新,得到当前采样网络,并将所述采样网络更新为所述当前采样网络;以及
返回执行所述采用所述目标编码网络对所述至少一个训练样本对进行特征提取的步骤,直至更新次数达到所述预设第二次数时为止,得到目标采样网络。
14.根据权利要求13所述的图像识别方法,其中,所述在所述候选全局损失信息中提取出目标测试损失信息,包括:
在所述候选全局损失信息中筛选出测试样本对对应的至少一个全局损失信息,得到测试损失信息集合;以及
在所述测试损失信息集合中筛选出最小的测试损失信息,得到目标测试损失信息。
15.根据权利要求1所述的图像识别方法,其中,所述采用识别模型对所述每一训练样本对进行特征提取之前,还包括:
采用预设识别模型中的采样网络和所述至少一个训练样本对,对所述预设识别模型中的编码网络进行预设第一次数的编码训练,得到基础编码网络;
基于所述基础编码网络和所述至少一个训练样本对,对所述预设识别模型中的采样网络进行预设第二次数的采样训练,得到基础采样网络;
将所述基础编码网络和基础采样网络作为基础识别模型,并将所述预设识别模型更新为所述基础识别模型;以及
返回执行所述采用预设识别模型中的采样网络和所述至少一个训练样本对,对所述预设识别模型中的编码网络进行预设第一次数的编码训练的步骤,直至所述预设识别模型收敛时为止,得到所述识别模型。
16.根据权利要求15所述的图像识别方法,其中,所述采用预设识别模型中的采样网络和所述至少一个训练样本对,对所述预设识别模型中的编码网络进行预设第一次数的编码训练,得到基础编码网络,包括:
采用所述预设识别模型中的编码网络对所述至少一个训练样本对进行特征提取,以得到所述至少一个训练样本对对应的候选全局损失信息集合;
基于所述预设识别模型中的采样网络在所述候选全局损失信息集合中筛选出基础全局损失信息;以及
基于所述基础全局损失信息对所述预设识别模型中的编码网络进行所述预设第一次数的编码训练,得到基础编码网络。
17.根据权利要求1所述的图像识别方法,其中,所述基于所述局部相似度集合对所述识别模型进行收敛,得到目标识别模型之后,还包括:
获取所述目标对象的至少一个预设属性信息对应的文本集合;以及
采用所述目标识别模型对所述文本集合中的每一文本进行特征提取,得到所述至少一个预设属性信息对应的文本特征集合。
18.根据权利要求17所述的图像识别方法,其中,所述采用所述目标识别模型在对象图像中识别出目标对象的属性信息,包括:
获取所述目标对象的对象图像;
采用所述目标识别模型对所述对象图像进行特征提取,得到所述对象图像的当前图像特征;以及
基于所述文本特征集合和所述当前图像特征,确定所述对象图像中所述目标对象的属性信息。
19.根据权利要求18所述的图像识别方法,其中,所述基于所述文本特征集合预所述当前图像特征,确定所述对象图像中所述目标对象的属性信息,包括:
获取所述当前图像特征与所述文本特征集合中每一文本特征之间的相似度,得到当前相似度集合;
在所述当前相似度集合中筛选出超过预设相似度阈值的目标相似度;以及
在所述至少一个属性信息中筛选出所述目标相似度对应的属性信息,得到所述目标对象的属性信息。
20.根据权利要求17所述的图像识别方法,其中,还包括:
获取当前属性信息对应的目标文本,并基于所述当前属性信息对所述至少一个属性信息进行更新,得到更新后的属性信息集合;
采用所述目标识别模型对所述目标文本进行特征提取,得到当前文本特征;以及
基于所述当前文本特征,对所述文本特征集合进行更新,得到所述属性信息集合对应的更新后文本特征集合。
21.一种图像识别系统,包括:
至少一个存储介质,存储有至少一个指令集,用于进行图像识别;以及
至少一个处理器,同所述至少一个存储介质通信连接,
其中,当所述图像识别系统运行时,所述至少一个处理器读取所述至少一个指令集,并且根据所述至少一个指令集的指示执行权利要求1-20中任一项所述的图像识别的方法。
CN202210961266.7A 2022-08-11 2022-08-11 图像识别的方法和系统 Pending CN115393606A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210961266.7A CN115393606A (zh) 2022-08-11 2022-08-11 图像识别的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210961266.7A CN115393606A (zh) 2022-08-11 2022-08-11 图像识别的方法和系统

Publications (1)

Publication Number Publication Date
CN115393606A true CN115393606A (zh) 2022-11-25

Family

ID=84118284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210961266.7A Pending CN115393606A (zh) 2022-08-11 2022-08-11 图像识别的方法和系统

Country Status (1)

Country Link
CN (1) CN115393606A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115546590A (zh) * 2022-12-05 2022-12-30 杭州联汇科技股份有限公司 一种基于多模态预训练持续学习的目标检测优化方法
CN116311320A (zh) * 2023-05-22 2023-06-23 建信金融科技有限责任公司 文本图像融合层的训练方法、文本图像识别方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115546590A (zh) * 2022-12-05 2022-12-30 杭州联汇科技股份有限公司 一种基于多模态预训练持续学习的目标检测优化方法
CN116311320A (zh) * 2023-05-22 2023-06-23 建信金融科技有限责任公司 文本图像融合层的训练方法、文本图像识别方法及装置
CN116311320B (zh) * 2023-05-22 2023-08-22 建信金融科技有限责任公司 文本图像融合层的训练方法、文本图像识别方法及装置

Similar Documents

Publication Publication Date Title
CN109117777B (zh) 生成信息的方法和装置
CN111860573B (zh) 模型训练方法、图像类别检测方法、装置和电子设备
CN113255694B (zh) 训练图像特征提取模型和提取图像特征的方法、装置
CN111126396B (zh) 图像识别方法、装置、计算机设备以及存储介质
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN115393606A (zh) 图像识别的方法和系统
CN111931859B (zh) 一种多标签图像识别方法和装置
CN112712069B (zh) 一种判题方法、装置、电子设备及存储介质
CN113408287B (zh) 实体识别方法、装置、电子设备及存储介质
CN116226785A (zh) 目标对象识别方法、多模态识别模型的训练方法和装置
CN112149699A (zh) 用于生成模型的方法、装置和用于识别图像的方法、装置
CN114880505A (zh) 图像检索方法、装置及计算机程序产品
CN116503876A (zh) 图像识别模型的训练方法及装置、图像识别方法及装置
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
CN116168274A (zh) 对象检测方法以及对象检测模型训练方法
CN111859002A (zh) 兴趣点名称生成方法及装置、电子设备和介质
CN116994021A (zh) 图像检测方法、装置、计算机可读介质及电子设备
CN113223011B (zh) 基于引导网络和全连接条件随机场的小样本图像分割方法
CN114495113A (zh) 文本分类方法和文本分类模型的训练方法、装置
CN113657473A (zh) 一种基于迁移学习的Web服务分类方法
CN116246287B (zh) 目标对象识别方法、训练方法、装置以及存储介质
CN116958512A (zh) 目标检测方法、装置、计算机可读介质及电子设备
CN116311546A (zh) 活体检测方法和系统
CN115909357A (zh) 基于人工智能的目标识别方法、模型训练方法和装置
CN115131291A (zh) 对象计数模型的训练方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination