CN111753618A

CN111753618A - 图像识别方法、装置、计算机设备及计算机可读存储介质

Info

Publication number: CN111753618A
Application number: CN201911330628.7A
Authority: CN
Inventors: 齐鹏飞; 梅涛; 赖荣凤
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-10-09

Abstract

本发明公开一种图像识别方法、装置、计算机设备及计算机可读存储介质。该图像识别方法包括：获取待识别图像；通过预先训练的检测模型，对所述待识别图像中包含的目标对象进行定位，并确定所述目标对象与所述检测模型中的各分类相匹配的概率；以及当所述概率的至少其中之一处于预设范围时，通过预先训练的特征模型，对所述目标对象进行特征提取，并根据提取出的特征数据，确定所述目标对象的最终分类。根据本发明提供的图像识别方法，能够有效地提升图像识别的准确度。

Description

图像识别方法、装置、计算机设备及计算机可读存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种图像识别方法、装置、计算机设备及计算机可读存储介质。

背景技术

随着计算机视觉技术的诞生和发展，由机器代替人工对图片中的目标进行识别与分类，可以极大地节约时间及人力成本。然而，现阶段机器发生误识别的概率仍然较大。

需要说明的是，在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本发明提供一种图像识别方法、装置、计算机设备及计算机可读存储介质。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明的一方面，提供一种图像识别方法，包括：获取待识别图像；通过预先训练的检测模型，对所述待识别图像中包含的目标对象进行定位，并确定所述目标对象与所述检测模型中的各分类相匹配的概率；以及当所述概率的至少其中之一处于预设范围时，通过预先训练的特征模型，对所述目标对象进行特征提取，并根据提取出的特征数据，确定所述目标对象的最终分类。

根据本发明的一实施方式，所述检测模型为基于二阶段模型框架的检测模型；确定所述目标对象与所述检测模型中的各分类相匹配的概率包括：将定位出的所述目标对象输入经训练的卷积神经网络中进行分类，以确定所述目标对象与所述检测模型中的各分类相匹配的概率。

根据本发明的一实施方式，所述卷积神经网络的训练样本包括对原始训练图像进行下述至少一种操作而获得的新图像：翻转、旋转、模糊、缩放、截取、变换颜色、变换明暗度、变换对比度、变换饱和度。

根据本发明的一实施方式，根据提取出的特征数据，确定所述目标对象的最终分类包括：在所述特征模型中，确定与所述目标对象的特征数据集欧式距离最小的特征数据簇；以及确定所述特征数据簇对应的分类为所述目标对象的最终分类。

根据本发明的一实施方式，所述特征模型中的各特征数据簇是基于聚类算法对各分类的多个特征数据集进行预先训练确定的；其中，各特征数据簇间的最小欧氏距离大于预设的第一阈值，每个特征数据簇中特征数据间的最大欧氏距离小于预设的第二阈值。

根据本发明的一实施方式，所述方法还包括：根据所述目标对象的分类，在预先建立的知识图谱中检索并输出所述分类的关联信息。

根据本发明的一实施方式，所述分类的关联信息包括：所述分类的背景信息及各分类之间的关系信息。

根据本发明的另一方面，提供一种图像识别装置，包括：图像获取模块，用于获取待识别图像；目标检测模块，用于通过预先训练的检测模型，对所述待识别图像中包含的目标对象进行定位，并确定所述目标对象与所述检测模型中的各分类相匹配的概率；以及分类确定模块，用于当所述概率的至少其中之一处于预设范围时，通过预先训练的特征模型，对所述目标对象进行特征提取，并根据提取出的特征数据，确定所述目标对象的最终分类。

根据本发明的再一方面，提供一种计算机设备，包括：存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令，所述处理器执行所述可执行指令时实现上述任一种图像识别方法。

根据本发明的再一方面，提供一种计算机可读存储介质，其上存储有计算机可执行指令，所述可执行指令被处理器执行时实现上述任一种图像识别方法。

根据本发明提供的图像识别方法，能够有效地提升图像识别的准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施方式示出的一种图像识别方法的流程图。

图2是根据一示例性实施方式示出的另一种图像识别方法的流程图。

图3是根据一示例性实施方式示出的再一种图像识别方法的流程图。

图4是根据一示例性实施方式示出的一种图像识别装置的框图。

图5是根据一示例性实施方式示出的一种计算机设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本发明的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本发明的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本发明的各方面变得模糊。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本发明提供的方案采用计算机视觉技术替代人工进行图像识别。为了便于理解，下面首先对本发明涉及到的“计算机视觉”概念进行解释：

计算机视觉(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步地说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(3-Dimension，三维)技术、虚拟现实、增强现实、同步定位及地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

如上所述，本发明提出了一种新的图像识别方法，下面通过本发明的各实施方式进行具体说明。

图1是根据一示例性实施方式示出的一种图像识别方法的流程图。如图1所示的图像识别方法例如可以应用于电商监管平台的服务器端。

参考图1，图像识别方法10包括：

在步骤S102中，获取待识别图像。

在步骤S104中，通过预先训练的检测模型，对待识别图像中包含的目标对象进行定位，并确定目标对象与检测模型中的各分类相匹配的概率。

在步骤S106中，当概率的至少其中之一处于预设范围时，通过预先训练的特征模型，对目标对象进行特征提取，并根据提取出的特征数据，确定目标对象的最终分类。

需要说明的是，在本发明中不对预设范围做任何限定，其可以为[0，1]中的任意范围，包括[0，1]。也即，在任何情况下均可执行步骤S106。

根据本发明实施方式提供的图像识别方法，能够有效地提升图像识别的准确度。

应清楚地理解，本发明描述了如何形成和使用特定示例，但本发明的原理不限于这些示例的任何细节。相反，基于本发明公开的内容的教导，这些原理能够应用于许多其它实施方式。

承上述，本发明以电商监管动漫IP(Intellectual Property)的场景为例进行说明。但需要说明的是，本发明方法仅以该场景作示例性阐述，并不以该场景及其所涉任何概念为限制。

电商监管动漫IP的目的在于：对商家未获得动漫IP授权的商品进行检测，以对其进行相应的下架、惩戒或警告处理。平台服务器端获取到各个商家上传的若干图像，图像来源于商家拍摄其线上商品(如：服装、背包、公仔等周边产品，其中可能包含动漫人物形象，即步骤S104中的“目标对象”)。

就现阶段而言，实现目标检测的基础框架主要包括：(一)以RCNN、Fast-CNN、Faster-CNN、Faster-RCNN等为代表的二阶段模型；(二)以YOLO、SSD等为代表的一阶段模型。在保证检测精度的前提下，可选择一阶段模型以提高实时检测速率。在本发明的一些实施例中，检测模型可以为基于二阶段模型(例如：Faster-RCNN)框架的检测模型，以均衡各项指标、增强泛化能力。相应地，步骤S104可包括：将定位出的目标对象输入经训练的卷积神经网络中进行分类，以确定目标对象与检测模型中的各分类相匹配的概率。

对于动漫IP的检测场景而言，在训练检测模型前，需将采集的图像按每一个动漫人物对应一个分类标签进行分类整理(即检测模型中的“分类”为人物名)，并使用标注工具对其检测边框进行标注，输出例如VOC格式的XML(Extensible Markup Language，可扩展标记语言)文件作为检测边框位置信息的载体。将带有标记信息的图像输入例如Faster-RCNN中进行有监督训练，同时保留一部分图像作为验证集，用以验证模型效果、确定最优模型。

在一些实施例中，卷积神经网络的训练样本可包括对原始训练图像进行下述至少一种操作而获得的新图像：翻转、旋转、模糊、缩放、截取、变换颜色、变换明暗度、变换对比度、变换饱和度，即通过对样本数据采取一系列增强措施以提高检测模型应用的泛化能力。

待识别图像经过检测模型后，由于图像特征的多样性导致抽象特征泛化能力过强，可能存在一部分目标对象被误检，即某些目标对象与本不为同一个动漫人物相匹配的概率较高。为解决该问题，需从人物形象特征的深度学习入手。

图2是根据一示例性实施方式示出的另一种图像识别方法的流程图。与图1所示方法10的不同之处在于，图2所示的方法进一步提供了应用特征模型确定目标对象最终分类的一种具体方法，即进一步提供了上述步骤S106的一实施例。同样地，如图2所示的图像识别方法例如也可以应用于电商监管平台的服务器端。

参考图2，步骤S106可包括：

在步骤S1062中，在特征模型中，确定与目标对象的特征数据集欧式距离最小的特征数据簇。

在一些实施例中，特征模型中的各特征数据簇可以是基于聚类算法对各分类的多个特征数据集进行预先训练确定的。其中，各特征数据簇间的最小欧氏距离大于预设的第一阈值，每个特征数据簇中特征数据间的最大欧氏距离小于预设的第二阈值。

承上述，例如可采用VGG16，ResNet-50等特征提取网络对图像进行特征提取，并使用Triplet Loss，Center Loss，Contractive Loss等损失函数对特征数据进行训练。在特征模型的训练过程中，使同一分类(动漫人物)样本数据之间的距离尽可能小、不同分类样本数据之间的距离尽可能大，从而可在特征模型的应用过程中精确划分目标对象的最终分类。需要说明的是，上述目的可在训练过程中，通过调整损失函数中控制特征本身聚类程度的参数实现。

在步骤S1064中，确定特征数据簇对应的分类为目标对象的最终分类。

如上述，仅经过检测模型可能存在一部分目标对象被误检，而经过特征模型对图像特征的深度学习，能够最大限度地排除目标对象的浅层特征表现与已确定的分类发生错误匹配的可能。

对于目标对象的最终分类结果(即图像中是否含有某一动漫人物)，除了可用于与平台服务器端存储的商家已获授权IP列表进行比对以审核商家是否存在动漫IP侵权行为之外，还可用于为消费者提供丰富的商品背景信息。

承上述，图3是根据一示例性实施方式示出的再一种图像识别方法的流程图，其进一步提供了上述方法10的一实施例。同样地，如图3所示的图像识别方法例如也可以应用于电商监管平台的服务器端。

参考图3，方法10还可包括：

在步骤S108中，根据目标对象的分类，在预先建立的知识图谱中检索并输出分类的关联信息。

在一些实施例中，分类的关联信息可包括：分类的背景信息及各分类之间的关系信息。仍以动漫IP为例：在建立知识图谱时，可编写动漫人物所属的动漫名称、动漫人物的背景信息，并构建动漫人物关系等关联信息。

本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本发明提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本发明示例性实施方式的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

参考图4，图像识别装置40包括：图像获取模块402、目标检测模块404以及分类确定模块406。

其中，图像获取模块402用于获取待识别图像。

目标检测模块404用于通过预先训练的检测模型，对待识别图像中包含的目标对象进行定位，并确定目标对象与检测模型中的各分类相匹配的概率。

分类确定模块406用于当概率的至少其中之一处于预设范围时，通过预先训练的特征模型，对目标对象进行特征提取，并根据提取出的特征数据，确定目标对象的最终分类。

根据本发明实施方式提供的图像识别装置，能够有效地提升图像识别的准确度。

需要注意的是，上述附图中所示的框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

图5是根据一示例性实施方式示出的一种计算机设备的结构示意图。需要说明的是，图5示出的计算机设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机设备800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本发明的设备中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括发送单元、获取单元、确定单元和第一处理单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，发送单元还可以被描述为“向所连接的服务端发送图片获取请求的单元”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：

获取待识别图像；通过预先训练的检测模型，对待识别图像中包含的目标对象进行定位，并确定目标对象与检测模型中的各分类相匹配的概率；以及当概率的至少其中之一处于预设范围时，通过预先训练的特征模型，对目标对象进行特征提取，并根据提取出的特征数据，确定目标对象的最终分类。

以上具体地示出和描述了本发明的示例性实施方式。应可理解的是，本发明不限于这里描述的详细结构、设置方式或实现方法；相反，本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种图像识别方法，其特征在于，包括：

获取待识别图像；

通过预先训练的检测模型，对所述待识别图像中包含的目标对象进行定位，并确定所述目标对象与所述检测模型中的各分类相匹配的概率；以及

当所述概率的至少其中之一处于预设范围时，通过预先训练的特征模型，对所述目标对象进行特征提取，并根据提取出的特征数据，确定所述目标对象的最终分类。

2.根据权利要求1所述的方法，其特征在于，所述检测模型为基于二阶段模型框架的检测模型；确定所述目标对象与所述检测模型中的各分类相匹配的概率包括：将定位出的所述目标对象输入经训练的卷积神经网络中进行分类，以确定所述目标对象与所述检测模型中的各分类相匹配的概率。

3.根据权利要求2所述的方法，其特征在于，所述卷积神经网络的训练样本包括对原始训练图像进行下述至少一种操作而获得的新图像：翻转、旋转、模糊、缩放、截取、变换颜色、变换明暗度、变换对比度、变换饱和度。

4.根据权利要求1-3任一项所述的方法，其特征在于，根据提取出的特征数据，确定所述目标对象的最终分类包括：

在所述特征模型中，确定与所述目标对象的特征数据集欧式距离最小的特征数据簇；以及

确定所述特征数据簇对应的分类为所述目标对象的最终分类。

5.根据权利要求4所述的方法，其特征在于，所述特征模型中的各特征数据簇是基于聚类算法对各分类的多个特征数据集进行预先训练确定的；其中，各特征数据簇间的最小欧氏距离大于预设的第一阈值，每个特征数据簇中特征数据间的最大欧氏距离小于预设的第二阈值。

6.根据权利要求1-3任一项所述的方法，其特征在于，还包括：根据所述目标对象的分类，在预先建立的知识图谱中检索并输出所述分类的关联信息。

7.根据权利要求6所述的方法，其特征在于，所述分类的关联信息包括：所述分类的背景信息及各分类之间的关系信息。

8.一种图像识别装置，其特征在于，包括：

图像获取模块，用于获取待识别图像；

目标检测模块，用于通过预先训练的检测模型，对所述待识别图像中包含的目标对象进行定位，并确定所述目标对象与所述检测模型中的各分类相匹配的概率；以及

分类确定模块，用于当所述概率的至少其中之一处于预设范围时，通过预先训练的特征模型，对所述目标对象进行特征提取，并根据提取出的特征数据，确定所述目标对象的最终分类。

9.一种计算机设备，包括：存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令，其特征在于，所述处理器执行所述可执行指令时实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机可执行指令，其特征在于，所述可执行指令被处理器执行时实现如权利要求1-7任一项所述的方法。