CN116664857A

CN116664857A - 图像细粒度识别方法及装置、存储介质、计算机设备

Info

Publication number: CN116664857A
Application number: CN202310695574.4A
Authority: CN
Inventors: 唐小初; 苏童; 舒畅; 陈又新
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-06-12
Filing date: 2023-06-12
Publication date: 2023-08-29

Abstract

本发明公开了一种图像细粒度识别方法及装置、存储介质、计算机设备，涉及图像识别技术领域、医学影像识别领域，主要目的在于解决图像细粒度识别效率、准确性较低的问题。主要包括获取待识别图像、与待识别图像的基础类别相匹配的目标描述文本，目标描述文本包括不同精细类别下的描述文本；利用已完成训练的特征提取模型分别对待识别图像、目标描述文本进行特征提取，得到图像特征向量、文本特征向量，已完成训练的图像识别模型为基于网络爬取的文本样本及联合损失函数训练得到的；基于所述图像特征向量、所述文本特征向量确定图像文本相似度矩阵，并基于所述图像文本相似度矩阵确定所述待识别图像的识别结果。主要用于细粒度识别图像。

Description

图像细粒度识别方法及装置、存储介质、计算机设备

技术领域

本发明涉及一种图像识别领域、医学影像识别领域，特别是涉及一种图像细粒度识别方法及装置、存储介质、计算机设备。

背景技术

图像细粒度识别(fi ne-grai ned image recognit ion)，即图像的精细化分类。例如，传统的图像识别仅能识别出图像中是狗还是鸟，而图像细粒度识别的研究方向是在识别出图像中是狗的基础上，进一步识别出狗的品种。该方法在动物物种的精细识别、医学影像的病灶识别、无人零售场景的产品识别、智能城市交通中的车辆识别中都有着广泛的应用。

现有的图像细粒度识别主要采用强监督方法，需要依赖于图像中目标边界框、部位标注点等人工标注信息对模型进行训练，其中，标记的过程需要借助于专家知识对每张待分类的图像进行单独标注，需要耗费较长的时间、及较多的人力，导致图像识别的效率较低，同时，基于人工标注的样本对模型进行训练，模型在实际应用中的鲁棒性较弱，导致图像识别的准确性较低，尤其，在对医学影像的分类识别中，由于每个患者的组织形态及病灶形态差异较大，基于人工标注训练的模型，在实际应用中对医学影像的分类识别准确度较低。

发明内容

有鉴于此，本发明提供一种图像细粒度识别方法及装置、存储介质、计算机设备，主要目的在于现有图像细粒度识别效率、准确性较低的问题。

依据本发明一个方面，提供了一种图像细粒度识别方法，包括：

获取待识别图像、与所述待识别图像的基础类别相匹配的目标描述文本，所述目标描述文本包括不同精细类别下的描述文本；

利用已完成训练的特征提取模型分别对所述待识别图像、所述目标描述文本进行特征提取，得到图像特征向量、文本特征向量，所述已完成训练的图像识别模型为基于网络爬取的文本样本及联合损失函数训练得到的；

基于所述图像特征向量、所述文本特征向量确定图像文本相似度矩阵，并基于所述图像文本相似度矩阵确定所述待识别图像的识别结果。

进一步地，所述利用已完成训练的特征提取模型分别对所述待识别图像、所述目标描述文本进行特征提取，得到图像特征向量、文本特征向量之前，所述方法还包括：

获取训练样本集，所述训练样本集包括不同精细类别下的图像文本样本对，所述图像文本样本对包括图像样本、及从目标网站爬取的对应所述图像样本的一段描述文本样本；

构建初始特征提取模型，所述初始特征提取模型包括图像编码器、文本编码器；

基于所述训练样本集、所述图像编码器、文本编码器构建联合损失函数，并利用所述联合损失函数对初始特征提取模型进行训练，得到已完成训练的特征提取模型。

进一步地，所述基于所述训练样本集、所述图像编码器、文本编码器构建联合损失函数包括：

基于所述图像编码器对同一图像样本的两次编码结果构建第一损失函数；

基于图像样本特征向量与文本样本特征向量的相似度矩阵与标签掩码矩阵构建第二损失函数；

基于所述第一损失函数、所述第二损失函数进行加权融合得到联合损失函数。

进一步地，所述获取训练样本集之前，所述方法还包括：

获取预期精细类别，并根据所述预期精细类别获取分别与每个精细类别对应的至少一个图像样本；

根据每个所述预期精细类别分别从目标网站中爬取至少一段描述文本；

从对应所述图像样本的所述描述文本中提取任一一段作为描述文本样本，并将所述描述文本样本与所述图像样本构建图像文本样本对，得到训练样本集。

进一步地，所述已完成训练的特征提取模型包括图像编码器、文本编码器，所述利用已完成训练的特征提取模型分别对所述待识别图像、所述目标基础类别的描述文本进行特征提取，得到图像特征向量、文本特征向量包括：

利用所述图像编码器对所述待识别图像进行特征提取，得到初始图像特征向量，并对所述初始图像特征向量进行高维特征映射，得到图像特征向量；

利用所述文本编码器对所述目标描述文本进行令牌化处理，并对令牌化处理后的目标描述文本进行特征提取，得到初始文本特征向量；

对所述初始文本特征向量进行高维特征映射，得到文本特征向量。

进一步地，所述获取待识别图像、与所述待识别图像的基础类别相匹配的目标描述文本包括：

获取图像识别请求，所述图像识别请求携带有待识别图像、图像采集终端信息；

对所述图像采集终端信息进行解析，确定所述待识别图像所对应的业务属性，并根据所述业务属性从不同基础类别的描述文本中匹配出目标描述文本。

进一步地，所述获取待识别图像、与所述待识别图像的基础类别相匹配的目标描述文本信息之前，所述方法还包括：

获取预期识别图像的预期精细类别；

根据所述预期精细类别从目标网站分别爬取与每个所述预期精细类别对应的至少一段描述文本；

按照预设基础类别将不同预期精细类别的所述描述文本进行基础类别划分，得到不同基础类别的描述文本。

依据本发明另一个方面，提供了一种图像细粒度识别装置，包括：

获取模块，用于获取待识别图像、与所述待识别图像的基础类别相匹配的目标描述文本，所述目标描述文本包括不同精细类别下的描述文本；

提取模块，用于利用已完成训练的特征提取模型分别对所述待识别图像、所述目标描述文本进行特征提取，得到图像特征向量、文本特征向量，所述已完成训练的图像识别模型为基于网络爬取的文本样本及联合损失函数训练得到的；

确定模块，用于基于所述图像特征向量、所述文本特征向量确定图像文本相似度矩阵，并基于所述图像文本相似度矩阵确定所述待识别图像的识别结果。

进一步地，所述装置还包括：

所述获取模块，还用于获取训练样本集，所述训练样本集包括不同精细类别下的图像文本样本对，所述图像文本样本对包括图像样本、及从目标网站爬取的对应所述图像样本的一段描述文本样本；

第一构建模块，用于构建初始特征提取模型，所述初始特征提取模型包括图像编码器、文本编码器；

训练模块，用于基于所述训练样本集、所述图像编码器、文本编码器构建联合损失函数，并利用所述联合损失函数对初始特征提取模型进行训练，得到已完成训练的特征提取模型。

进一步地，所述训练模块包括：

第二构建模块，用于基于所述图像编码器对同一图像样本的两次编码结果构建第一损失函数；

第三构建模块，用于基于图像样本特征向量与文本样本特征向量的相似度矩阵与标签掩码矩阵构建第二损失函数；

融合模块，用于基于所述第一损失函数、所述第二损失函数进行加权融合得到联合损失函数。

进一步地，所述装置还包括：

所述获取模块，还用于获取预期精细类别，并根据所述预期精细类别获取分别与每个精细类别对应的至少一个图像样本；

爬取模块，用于根据每个所述预期精细类别分别从目标网站中爬取至少一段描述文本；

第四构建模块，用于从对应所述图像样本的所述描述文本中提取任一一段作为描述文本样本，并将所述描述文本样本与所述图像样本构建图像文本样本对，得到训练样本集。

进一步地，所述提取模块包括：

第一提取单元，用于利用所述图像编码器对所述待识别图像进行特征提取，得到初始图像特征向量，并对所述初始图像特征向量进行高维特征映射，得到图像特征向量；

处理单元，用于利用所述文本编码器对所述目标描述文本进行令牌化处理，并对令牌化处理后的目标描述文本进行特征提取，得到初始文本特征向量；

映射单元，用于对所述初始文本特征向量进行高维特征映射，得到文本特征向量。

进一步地，所述获取模块包括：

获取单元，用于获取图像识别请求，所述图像识别请求携带有待识别图像、图像采集终端信息；

匹配单元，用于对所述图像采集终端信息进行解析，确定所述待识别图像所对应的业务属性，并根据所述业务属性从不同基础类别的描述文本中匹配出目标描述文本。

进一步地，所述装置还包括：

所述获取模块，还用于获取预期识别图像的预期精细类别；

第二爬取模块，用于根据所述预期精细类别从目标网站分别爬取与每个所述预期精细类别对应的至少一段描述文本；

划分模块，用于按照预设基础类别将不同预期精细类别的所述描述文本进行基础类别划分，得到不同基础类别的描述文本。

根据本发明的又一方面，提供了一种存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如上述图像细粒度识别方法对应的操作。

根据本发明的再一方面，提供了一种计算机设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述图像细粒度识别方法对应的操作。

借由上述技术方案，本发明实施例提供的技术方案至少具有下列优点：

本发明提供了一种图像细粒度识别方法及装置、存储介质、计算机设备，首先获取待识别图像、与所述待识别图像的基础类别相匹配的目标描述文本，所述目标描述文本包括不同精细类别下的描述文本；利用已完成训练的特征提取模型分别对所述待识别图像、所述目标描述文本进行特征提取，得到图像特征向量、文本特征向量，所述已完成训练的图像识别模型为基于网络爬取的文本样本及联合损失函数训练得到的；基于所述图像特征向量、所述文本特征向量确定图像文本相似度矩阵，并基于所述图像文本相似度矩阵确定所述待识别图像的识别结果。与现有技术相比，本发明实施例通过从网络爬取的文本样本进行训练，避免了人工对图像样本进行文本标记，大大减少了模型训练时间，基于联合损失函数对模型进行训练有效提高模型的学习能力，并基于对比学习的方式对图像进行识别，能够有效提高图像识别的准确性，同时提高图像识别的效率，在医学影像的分类识别过程中，基于包含图像编码损失的联合损失函数进行模型训练，能够大大降低组织图像编码的误差，同时，基于影像中各组织图像与图像描述文本进行对比学习，能够有效提升对组织、病灶的识别度，从而提升的医学影像的分类识别准确度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种图像细粒度识别方法流程图；

图2示出了本发明实施例提供的另一种图像细粒度识别方法流程图；

图3示出了本发明实施例提供的一种特征识别模型训练示意图；

图4示出了本发明实施例提供的一种图像细粒度识别装置组成框图；

图5示出了本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(AI：Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

针对现有的图像细粒度识别主要采用强监督方法，需要依赖于图像中目标边界框、部位标注点等人工标注信息对模型进行训练，其中，标记的过程需要借助于专家知识对每张待分类的图像进行单独标注，需要耗费较长的时间、及较多的人力，导致图像识别的效率较低，同时，基于人工标注的样本对模型进行训练，模型在实际应用中的鲁棒性较弱，导致图像识别的准确性较低的技术问题。本发明实施例提供了一种图像细粒度识别方法，如图1所示，以该方法应用于服务器等计算机设备为例进行说明，其中，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN：Content Delivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器，如智能医疗系统、数字医疗平台等。该方法包括：

101、获取待识别图像、与所述待识别图像的基础类别相匹配的目标描述文本。

本发明实施例中，待识别图像的数量可以为一张或多张，图像的内容可以为对动物科研场景下捕获的动物图像，无人售货场景下捕获的待结算商品、智能城市交通场景下捕获的车辆图像、医疗服务场景下捕获的药品、医疗器械图像等，本发明实施例不做具体限定。基础类别可以为与不同场景对应的基础类别、例如，零售商品、药品、动物、交通工具等广泛的类别，也可以为某一场景下的粗分类别，例如，无人售货场景下的水果、蔬菜、包装产品、散称产品等粗分类别。目标描述文本包括不同精细类别下的描述文本，其中，每个精细类别下的描述文本可以为一段或多段。精细类别可以为最小分类类别，例如，画眉鸟、萨摩耶犬，也可以为具体的商品、药品名称，例如，某品牌意面、某制药厂生产的感冒药等，本发明实施例不做具体限定。

需要说明的是，识别出与待识别图像的基础类别相匹配的目标描述文本，可以基于待识别图像的采集终端的不同，如，超市水产区终端设备采集的图像为水产基础类别、零食区终端设备采集的图像为零食基础类别，也可以基于待识别图像上传终端的不同来进行判断，如，医院西药药房终端设备上传的图像为西药类别、医院中药药房终端设备上传的图像为中药类别。采集基于与待识别图像的基础类别相匹配的目标描述文本对待识别图像进行识别，而不是基于全局的描述文本进行识别，能够大大减少文本数量，降低特征提取与后续相似度计算的计算量，从而提高图像识别的效率。此外，针对基础类别较多的应用场景，从文本角度对类别进行了预先的划分，更有利于提高图像识别的准确性。

102、利用已完成训练的特征提取模型分别对所述待识别图像、所述目标描述文本进行特征提取，得到图像特征向量、文本特征向量。

本发明实施例中，已完成训练的特征提取模型包括用于对图像进行特征提取的图像编码器，以及用于对文本进行特征提取的文本编码器能够分别对待识别图像、目标描述文本进行特征提取，以得到待识别图像的图像特征向量、目标描述文本的文本特征向量。其中，已完成训练的图像识别模型为基于网络爬取的文本样本训练得到的，也就是说，模型训练样本中的文本部分不是基于专家知识及人工标记的样本，而是基于不同精细类别的图像样本从网络中爬取的描述文本构建文本样本，基于网络爬取文本样本的方式构建文本样本，能够大大减少基于人工标注的工作量、及时间消耗，从而提高模型训练的效率，同时，保证描述文本的实时性、多样化，也能够有效提升模型的鲁棒性。

103、基于所述图像特征向量、所述文本特征向量确定图像文本相似度矩阵，并基于所述图像文本相似度矩阵确定所述待识别图像的识别结果。

本发明实施例中，在得到图像特征向量、文本特征向量之后，采用将图像特征向量与文本特征向量进行矩阵相乘的方式，计算待识别图像与不同精细类别下描述文本的相似度，得到图像文本相似度矩阵。针对每张待识别图像，从图像文本相似度矩阵中找到与该图像相似度值最大的向量，并将该向量所对应的描述文本的精细类别作为当前待识别图像的类别。例如，在医学影像分类识别过程中，将不同组织下不同病灶的图像描述文本进行特征提取，得到文本特征向量，将医学影像所对应的图像特征向量与文本特征向量进行矩阵相乘，并计算矩阵中每个相乘关系的图像特征向量与文本特征向量的相似度，并将与图像特征向量相似度最大的文本特征向量所对应的描述文本作为此医学影像的类别，例如，相似度最大的描述文本为“肝脏恶性肿瘤三期”，则“肝脏恶性肿瘤三期”为此医学影像的类别的细颗粒分类结果。由于精细类别可以为精细类别，可以为最小分类类别，也可以为具体的商品、药品名称，因此，待识别图像的识别结果可以为待识别图像中物体的小类别，如，非处方药、处方药，也可以为待识别图像中物体的名称，如肝脏组织良性肿瘤、肺脏组织恶性肿瘤。

在一个本发明实施例中，为了进一步说明及限定，如图2所示，步骤所述利用已完成训练的特征提取模型分别对所述待识别图像、所述目标描述文本进行特征提取，得到图像特征向量、文本特征向量之前，所述方法还包括：

201、获取训练样本集。

202、构建初始特征提取模型。

203、基于所述训练样本集、所述图像编码器、文本编码器构建联合损失函数，并利用所述联合损失函数对初始特征提取模型进行训练，得到已完成训练的特征提取模型。

本发明实施例中，训练样本集包括不同精细类别下的图像文本样本对图像文本样本对包括图像样本、从目标网站爬取的对应图像样本的一段描述文本样本。其中，图像文本样本对是基于图像样本以及与该图像样本对应的一段描述文本样本构建的样本对，在训练过程中图像样本与描述文本样本成对输入到模型中对模型进行训练。描述文本样本是根据每张图像样本分别从目标网站中爬取得到的对应描述文本段，其中，从目标网站中可以爬取到与图像样本对应的多段描述文本段，与图像样本配对的描述文本样本是多段描述文本段中随机抽取的一段描述文本段。其中，目标网站可以为百度、维基等百科网站、也可以为商品简介网站，本发明实施例不做具体限定。通过随机抽取一段描述文本段与对应图像样本构成图像文本样本对，能够训练样本更为多样化，从而有效提升模型的鲁棒性。

本发明实施例中，损失函数为联合损失函数，该联合损失函数为基于图像编码器和/或文本编码器的单独损失函数与图像编码器、文本编码器的整体损失函数进行加权融合得到的联合损失函数，每个损失函数的权重可以根据具体应用需要自定义，本发明实施例不做具体限定。

在一个本发明实施例中，为了进一步说明及限定，步骤所述利用所述图像样本、所述描述文本样本对初始特征提取模型进行训练，得到已完成训练的特征提取模型包括：

本发明实施例中，在训练的过程中，图像样本和描述文本样本按批(batch)输入模型，并取每次输入图像的最后一层编码器输出的cls token位置作为图像的全局特征描述，设定一批的输入中，图像样本特征向量为文本样本特征向量为/>其中，N为图像的数量，D为特征向量的维度、I为第I张图像、T为第T个文本。采用对比学习的方法，将图像样本特征向量与文本样本特征向量进行矩阵计算，得到相似度S，公式为：针对每张图像样本的特征向量应该与其对应精细类别的文本描述的特征向量相似度最大，因此优化目标为使相似度矩阵S中相同精细类别位置的相似度尽可能大，其他位置的相似度尽可能小。例如输入一批数量为5的图像，其中，第2、4张图像属于同一类别，则生成的大小为5×5的相似度矩阵中，第2行中第4列位置的、第4行第2列位置的相似度值应该最大，而其它位置的相似度值应该小于该位置，这里，可以由图像的真实标签生成对应的掩码矩阵来优化目标，掩码中与上述对应的位置为1，其它位置为0，然后计算相似度矩阵与掩码的二维交叉熵损失函数，即第二损失函数来进行网络模型的优化。

本发明实施例中，由于深度学习网络在训练的过程中存在dropout，即随机丢弃的神经网络，因此，编码器对同一图像的两次特征提取结果存在差异，为了提升图像编码器的特征学习能力，将图像样本输入图像编码器两次，两次得到的图像特征向量分别表示为和/>其中，图像和文本是按批(batch)输入模型的，N为图像数量、D为向量的维度、I为第I张图像。由于两者具有相同的尺寸，可以直接计算两者的相似度矩阵S₁，公式为：S₁＝f_I·f_I′(2)；通过计算其对比学习损失函数(infoNCE)，即第一损伤函数，最大化相似度矩阵中对角线上的值，得到更优的图像特征表示。

需要说明的是，通过采用对比学习的方式对图像编码器、文本编码器进行训练，并基于图像编码器所对应的第一损失函数，与图像编码器、文本编码器构成的第二损失函数构建联合损失函数，能够有效提升图像编码器、文本编码器的特征学习能力，从而提升模型对图像识别的准确性。

在一个本发明实施例中，为了进一步说明及限定，步骤所述获取训练样本集之前，所述方法还包括：

本发明实施例中，预期精细类别为每个基础类别下预期需要划分的精细类别。针对每个预期精细类别分别获取至少一个图像样本，并且根据此预期精细类别，利用自动化脚本对目标网站进行数据爬取、数据清洗，以得到一组用于描述对应预期精细类别下图像样本的描述文本。由于描述文本样本为多段，而在训练过程中，每个图像样本配有一段描述文本样本，为了保证模型的鲁棒性，采用随机抽取描述文本样本的方式，从图像样本对应精细类别下的多段描述文本中随机选择一段描述文本作为此图像样本的描述文本样本，与图像样本构成图像文本样本对，从而得到包括有不同精细类别的图像文本样本对的训练样本集。

需要说明的是，细颗粒类别往往具有较为详细的百科描述，通过自动化的爬虫程序对描述文本进行采集，基于爬取到的描述文本随机对相同精细类别的图像样本进行匹配，避免了基于人工对图像样本进行标记，大大减少了模型训练的时间，从而提升了模型训练的效率。此外，基于爬取的描述文本随机对图像样本进行匹配，能够使图像的匹配的描述文本内容更为灵活、多样，且更具时效性，以这样的样本对模型进行训练，能够有效保证模型的鲁棒性。

在一个本发明实施例中，为了进一步说明及限定，步骤所述利用已完成训练的特征提取模型分别对所述待识别图像、所述目标基础类别的描述文本进行特征提取，得到图像特征向量、文本特征向量包括：

本发明实施例中，所述已完成训练的特征提取模型包括图像编码器、文本编码器，其中，图像编码器可以为基于预训练的图像特征提取模型，如ViT(Vision Transformer)网络模型构建的，文本编码器可以为基于预训练的分词器、自然语音处理模型构建的，如Tokenizer网络模型和BERT(Bidirectional Encoder Representation fromTransformers)网络模型。由于进行矩阵计算过程需要维度的统一，因此，在图像编码器和文本编码器中还分别包括一个门控单元，该门控单元用于将图像特征提取模型的最后一层的结果、自然语音处理模型的结果映射到统一的高维图像-文本特征空间中，从而得到处于同一高维空间的图像特征向量与文本特征向量。如图3所示其中，待识别图像输入图像分支，经过包含多层神经网络的Vision Transformer网络模型进行特征提取，得到初始图像特征向量，进而经过门控单元进行高维映射，得到图像特征向量；目标描述文本输入图像分支，经过Tokenizer网络模型进行令牌化处理，再经过BERT模型进行文本特征提取，得到初始文本特征向量，进而经过门控单元进行高维映射，得到文本特征向量。

在一个本发明实施例中，为了进一步说明及限定，步骤所述获取待识别图像、与所述待识别图像的基础类别相匹配的目标描述文本包括：

本发明实施例中，当需要进行图像识别时，终端设备或图像采集设备会向服务器发送图像识别请求，当前执行主体服务器接收到图像识别请求之后，会根据此图像识别请求所携带的图像采集终端信息从预先建立的图像采集终端信息与业务属性的映射关系中判别出当前图像采集终端所采集的图像内容所对应的业务属性。例如，中药房的图像采集终端信息为编号01，对应的业务属性为中药销售、西药房的图像采集终端信息为编号02，对应的业务属性为西药销售、自动售货超市的图像采集终端信息为编号03，对应业务属性为日用商品销售。并根据业务属性从预先设定的描述文本基础类别中匹配出对应的基础类别，例如，业务属性为中药销售，则将中药描述文本确定为目标描述文本，业务属性为日用商品销售，则将日用商品描述文本确定为目标描述文本。其中，图像采集终端信息可以为终端设备编号，也可以为网络ID等信息，本发明实施例不做具体限定。通过预先根据图像采集终端信息确定描述文本的基本类别，能够降低图像对比过程中参与计算的文本量，且使描述文本内容与图像的匹配度更高，从而提高图像识别的准确性及图像识别效率。

在一个本发明实施例中，为了进一步说明及限定，步骤所述获取待识别图像、与所述待识别图像的基础类别相匹配的目标描述文本信息之前，所述方法还包括：

获取预期识别图像的预期精细类别；

本发明实施例中，预期识别图像为根据业务需求预估的预期会需要识别的图像，预期精细类别即为预期需要识别图像的精细类别。在一些多场景类别的交叉应用中，图像的业务需求可能有多个方向，而不同的业务需求所对应的图像基础类别存在差异，也就是说预期精细类别中会包括对应不同基础类别的预期精细类别。例如，中药、西药、日用商品分别属于不同的基础类别，但是在医院的场景中，会涉及到这三个类别所对应的业务需求。由于每个基础类别下有着大量的精细类别，若将业务需求所对应的全局基础类别下的精细类别全部与待识别图像进行相似度计算，计算量会非常大，因此，在得到预期精细类别后按照基础类别对预期精细类别进行一个划分，从而在面对具体业务场景下的待识别图像时，仅需要提取满足当前业务场景的基础类别的描述文本用于与待识别图像计算相似度，从而降低计算量、及计算难度。

本发明提供了一种图像细粒度识别方法，首先获取待识别图像、与所述待识别图像的基础类别相匹配的目标描述文本，所述目标描述文本包括不同精细类别下的描述文本；利用已完成训练的特征提取模型分别对所述待识别图像、所述目标描述文本进行特征提取，得到图像特征向量、文本特征向量，所述已完成训练的图像识别模型为基于网络爬取的文本样本及联合损失函数训练得到的；基于所述图像特征向量、所述文本特征向量确定图像文本相似度矩阵，并基于所述图像文本相似度矩阵确定所述待识别图像的识别结果。与现有技术相比，本发明实施例通过从网络爬取的文本样本进行训练，避免了人工对图像样本进行文本标记，大大减少了模型训练时间，基于联合损失函数对模型进行训练有效提高模型的学习能力，并基于对比学习的方式对图像进行识别，能够有效提高图像识别的准确性，同时提高图像识别的效率。

进一步的，作为对上述图1所示方法的实现，本发明实施例提供了一种图像细粒度识别装置，如图4所示，该装置包括：

获取模块31，用于获取待识别图像、与所述待识别图像的基础类别相匹配的目标描述文本，所述目标描述文本包括不同精细类别下的描述文本；

提取模块32，用于利用已完成训练的特征提取模型分别对所述待识别图像、所述目标描述文本进行特征提取，得到图像特征向量、文本特征向量，所述已完成训练的图像识别模型为基于网络爬取的文本样本及联合损失函数训练得到的；

确定模块33，用于基于所述图像特征向量、所述文本特征向量确定图像文本相似度矩阵，并基于所述图像文本相似度矩阵确定所述待识别图像的识别结果。

进一步地，所述装置还包括：

所述获取模块31，还用于获取训练样本集，所述训练样本集包括不同精细类别下的图像文本样本对，所述图像文本样本对包括图像样本、及从目标网站爬取的对应所述图像样本的一段描述文本样本；

进一步地，所述训练模块包括：

进一步地，所述装置还包括：

所述获取模块31，还用于获取预期精细类别，并根据所述预期精细类别获取分别与每个精细类别对应的至少一个图像样本；

进一步地，所述提取模块32包括：

进一步地，所述获取模块31包括：

进一步地，所述装置还包括：

所述获取模块31，还用于获取预期识别图像的预期精细类别；

本发明提供了一种图像细粒度识别装置，首先获取待识别图像、与所述待识别图像的基础类别相匹配的目标描述文本，所述目标描述文本包括不同精细类别下的描述文本；利用已完成训练的特征提取模型分别对所述待识别图像、所述目标描述文本进行特征提取，得到图像特征向量、文本特征向量，所述已完成训练的图像识别模型为基于网络爬取的文本样本及联合损失函数训练得到的；基于所述图像特征向量、所述文本特征向量确定图像文本相似度矩阵，并基于所述图像文本相似度矩阵确定所述待识别图像的识别结果。与现有技术相比，本发明实施例通过从网络爬取的文本样本进行训练，避免了人工对图像样本进行文本标记，大大减少了模型训练时间，基于联合损失函数对模型进行训练有效提高模型的学习能力，并基于对比学习的方式对图像进行识别，能够有效提高图像识别的准确性，同时提高图像识别的效率。

根据本发明一个实施例提供了一种存储介质，所述存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的图像细粒度识别方法。

图5示出了根据本发明一个实施例提供的一种计算机设备的结构示意图，本发明具体实施例并不对计算机设备的具体实现做限定。

如图5所示，该计算机设备可以包括：处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。

其中：处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。

通信接口404，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器402，用于执行程序410，具体可以执行上述图像细粒度识别方法实施例中的相关步骤。

具体地，程序410可以包括程序码，该程序码包括计算机操作指令。

处理器402可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器406，用于存放程序410。存储器406可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序410具体可以用于使得处理器402执行以下操作：

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种图像细粒度识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用已完成训练的特征提取模型分别对所述待识别图像、所述目标描述文本进行特征提取，得到图像特征向量、文本特征向量之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述训练样本集、所述图像编码器、文本编码器构建联合损失函数包括：

4.根据权利要求2所述的方法，其特征在于，所述获取训练样本集之前，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述已完成训练的特征提取模型包括图像编码器、文本编码器，所述利用已完成训练的特征提取模型分别对所述待识别图像、所述目标描述文本进行特征提取，得到图像特征向量、文本特征向量包括：

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述获取待识别图像、与所述待识别图像的基础类别相匹配的目标描述文本包括：

7.根据权利要求6所述的方法，其特征在于，所述获取待识别图像、与所述待识别图像的基础类别相匹配的目标描述文本信息之前，所述方法还包括：

获取预期识别图像的预期精细类别；

8.一种图像细粒度识别装置，其特征在于，包括：

9.一种存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-7中任一项所述的图像细粒度识别方法对应的操作。

10.一种计算机设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的图像细粒度识别方法对应的操作。