CN115131811A

CN115131811A - 目标识别及模型训练方法、装置、设备、存储介质

Info

Publication number: CN115131811A
Application number: CN202210435779.4A
Authority: CN
Inventors: 郑少胤
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2022-09-30

Abstract

本申请实施例提供了一种目标识别及模型训练方法、装置、设备、存储介质，在进行目标识别时，提取待识别网页的网页内容，并对网页内容进行检测，若该网页内容中包括图像，则通过图像识别模型中的特征提取模块，对网页内容中的图像进行多尺度特征提取，得到N个不同尺度的第一特征图，对N个不同尺度的第一特征图进行融合，得到第二特征图；接着，基于该第二特征图，通过图像识别模型的回归层进行目标物识别，得到图像识别结果，进而根据该图像识别结果，得到待识别网页的识别结果。即本申请对网页所包括的图像进行目标识别，相比于只对网页的文本进行目标识别，本申请增大了对网页进行目标识别的范围，进而提高了目标识别的可靠性和准确性。

Description

目标识别及模型训练方法、装置、设备、存储介质

技术领域

本申请实施例涉及人工智能(Artificial Intelligence，AI)技术领域，尤其涉及一种目标识别及模型训练方法、装置、设备、存储介质。

背景技术

随着互联网技术的高速发展，人们可以方便的从各类网页上获取海量的信息和资源，生活生产方式与互联网的联系越来越紧密。然而网络规模的逐渐扩大，网页内容的信息较多，如何通过目标识别从浩繁的网络海洋中获取准确的信息成为当下互联网研究的又一热点。

目前针对网页内容的目标识别主要是基于关键词的识别方案，具体是识别待识别的网页中是否含有目标物对应的关键词，得到相应的识别结果。

然而，目前的目标识别方法，存在无法准确识别出网页中的目标物的情况。

发明内容

本申请实施例提供一种目标识别及模型训练方法、装置、设备、存储介质，可以实现对网页中目标物的准确识别。

第一方面，本申请提供一种目标识别方法，包括：

提取待识别网页的网页内容；

对所述网页内容进行检测，若所述网页内容中包括图像，则通过图像识别模型中的特征提取模块，对所述图像进行多尺度特征提取，得到N个不同尺度的第一特征图，所述N为大于1的正整数；

对所述N个不同尺度的第一特征图进行融合，得到第二特征图；

基于所述第二特征图，通过所述图像识别模型的回归层进行目标物识别，得到图像识别结果；

根据所述图像识别结果，得到所述待识别网页的识别结果。

第二方面，本申请提供一种识别模型的训练方法，包括：

获取第一训练图像，并通过图像识别模型中的特征提取模块，对该第一训练图像进行多尺度特征提取，得到N个不同尺度的第一特征图，N为大于1的正整数；

对该N个不同尺度的第一特征图进行融合，得到第二特征图；

基于该第二特征图，通过该图像识别模型的回归层进行目标物识别，得到该第一训练图像对应的目标物识别结果；

根据所述目标物识别结果，确定图像识别模型的损失，并根据该损失，对图像识别模型进行训练。

第三方面，本申请实施例提供一种目标识别装置，包括：

提取单元，用于提取待识别网页的网页内容；

识别单元，用于对所述网页内容进行检测，若所述网页内容中包括图像，则通过图像识别模型中的特征提取模块，对所述图像进行多尺度特征提取，得到N个不同尺度的第一特征图，所述N为大于1的正整数；

融合单元，用于对所述N个不同尺度的第一特征图进行融合，得到第二特征图；

识别单元，用于基于所述第二特征图，通过所述图像识别模型的回归层进行目标物识别，得到图像识别结果。

第四方面，本申请实施例提供一种识别模型训练装置，包括：

获取单元，用于获取第一训练图像，并通过图像识别模型中的特征提取模块，对所述第一训练图像进行多尺度特征提取，得到N个不同尺度的第一特征图，所述N为大于1的正整数；

识别单元，用于基于所述第二特征图，通过所述图像识别模型的回归层进行目标物识别，得到所述第一训练图像对应的目标物识别结果；

训练单元，用于根据所述目标物识别结果，确定所述图像识别模型的损失，并根据所述损失，对所述图像识别模型进行训练。

第五方面，本申请实施例提供一种电子设备，包括：存储器，处理器；

该存储器用于存储计算机程序，该处理器用于调用并运行该存储器中存储的计算机程序，以执行上述第一方面或第二方面中任一方面或其各实现方式中的方法。

第六方面，提供了一种芯片，用于实现上述第一方面或第二方面中任一方面或其各实现方式中的方法。具体地，该芯片包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有该芯片的设备执行如上述第一方面或第二方面中任一方面或其各实现方式中的方法。

第七方面，提供了一种计算机可读存储介质，用于存储计算机程序，该计算机程序使得计算机执行上述第一方面或第二方面中任一方面或其各实现方式中的方法。

第八方面，提供了一种计算机程序产品，包括计算机程序指令，该计算机程序指令使得计算机执行上述第一方面或第二方面中任一方面或其各实现方式中的方法。

第九方面，提供了一种计算机程序，当其在计算机上运行时，使得计算机执行上述第一方面或第二方面中任一方面或其各实现方式中的方法。

综上，通过本申请的技术方案，在进行目标识别时，首先提取待识别网页的网页内容，并对网页内容进行检测，若该网页内容中包括图像，则通过图像识别模型中的特征提取模块，对网页内容中的图像进行多尺度特征提取，得到N个不同尺度的第一特征图，对N个不同尺度的第一特征图进行融合，得到第二特征图；接着，基于该第二特征图，通过图像识别模型的回归层进行目标物识别，得到图像识别结果，进而根据该图像识别结果，得到待识别网页的识别结果。即本申请在对网页进行目标识别时，对网页所包括的图像进行目标识别，相比于只对网页的文本进行目标识别，本申请增大了对网页进行目标识别的范围，进而提高了目标识别的可靠性和准确性。另外，本申请实施例，在对网页中的图像进行目标识别时，提取图像的N个不同尺度的第一特征图，并对N个不同尺度的第一特征图进行融合，得到第二特征图，这样基于该第二特征图进行目标识别时，可以实现对图像中不同大小的目标进行准确识别，进一步提高了目标识别的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种系统架构示意图；

图2为本申请实施例提供的一种识别模型的训练方法示意性流程图；

图3为本申请实施例提供的一种图像识别模型的结构示意图；

图4为本申请实施例提供的一种Yolov4的训练流程示意图；

图5为本申请实施例提供的Yolov4的原理示意图；

图6为本申请实施例提供的一种模型训练方法流程图；

图7为本申请实施例提供的一种TextCNN的训练流程示意图；

图8为本申请实施例提供的TextCNN的网络结构示意图；

图9为本申请实施例提供的TextCNN的原理示意图；

图10为本申请实施例提供的一种目标识别方法的流程图；

图11为本申请一实施例提供的目标识别方法流程示意图

图12为本申请实施例提供的目标识别装置的结构示意图；

图13为本申请实施例提供的识别模型训练装置的结构示意图；

图14为本申请实施例提供的电子设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在介绍本申请技术方案之前，下面将对本申请技术方案的相关知识进行说明：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

应理解，人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例可涉及人工智能技术中的计算机视觉(Computer Vision，CV)技术，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical CharacterRecognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

词向量，又称为单词的分布式表示，是一种将单词表示成稠密、低纬度、实数向量的方法。很多词向量的学习方法不断涌现，基于分布式假设理论：经常出现在相似语境下的词语往往具有相似的含义，这些方法主要使用词语的共现关系训练词向量。最终，学习模型使得语义相似的词语获得了相似的向量表示。词向量既可应用在计算词语间的相似性，又可作为原子表示应用于各种自然处理任务中。比如文本分类、词性标注、语法分析，情感分析等，在词向量的帮助下，很多自然语言处理任务都得到了业内最好结果。

OCR，是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率，是OCR最重要的课题，智能字符识别(IntelligentCharacter Recognition，ICR)的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。

下面将对本申请实施例涉及的系统架构进行介绍。

在一些实施例中，本申请实施例的系统架构如图1所示。

图1为本申请实施例涉及的一种系统架构示意图，用户设备101、数据采集设备102、训练设备103、执行设备104、数据库105和内容库106。

其中，数据采集设备102用于从内容库106中读取训练数据，并将读取的训练数据存储至数据库105中。本申请实施例涉及的训练数据包括第一训练图像和/或训练文本。

在一些实施例中，用户设备101用于对数据库105中的数据进行标注操作，例如，标注出目标物。

训练设备103基于数据库105中维护的训练数据，对图像识别模型和/或文本识别模型进行训练，使得训练后的图像识别模型可以准确识别出网页的图片中所包括的目标物，使得训练后的文本识别模型可以准确识别出网页的文本中所包括的目标物，进而实现对网页的准确识别。可选的，训练设备103得到的图像识别模型和/或文本识别模型可以应用到不同的系统或设备中。

在附图1中，执行设备104配置有I/O接口107，与外部设备进行数据交互。比如通过I/O接口接收用户设备101发送的待识别网页。执行设备104中的计算模块109使用训练好的图像识别模型和/或文本识别模型对待识别网页进行目标物识别，并将识别结果输出给用户设备101。

其中，用户设备101可以包括手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device，MID)或其他具有安装浏览器功能的终端设备。

执行设备104可以为服务器。

示例性的，服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备。该服务器可以是独立的测试服务器，也可以是多个测试服务器所组成的测试服务器集群。

本实施例中，执行设备104通过网络与用户设备101连接。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobilecommunication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。

需要说明的是，附图1仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制。在一些实施例中，上述数据采集设备102与用户设备101、训练设备103和执行设备104可以为同一个设备。在一些实施例中，上述数据库105可以分布在一个服务器上也可以分布在多个服务器上，上述的内容库106可以分布在一个服务器上也可以分布在多个服务器上。

目前针对网页内容的目标识别主要是基于关键词的识别方案，具体是检测待识别的网页中是否含有目标物对应的关键词，得到相应的识别结果。但是，当待识别的网页内容中不包括文本，或者待识别的网页内容中包括文本内容，但是该文本内容与目标物对应的关键词不相关时，目前的识别方法无法准确识别出待识别网页内容中是否包括目标物，导致识别准确率低。

为了解决上述技术问题，本申请实施例，在进行目标识别时，首先提取待识别网页的网页内容，并对网页内容进行检测，若该网页内容中包括图像，则通过图像识别模型中的特征提取模块，对网页内容中的图像进行多尺度特征提取，得到N个不同尺度的第一特征图，对N个不同尺度的第一特征图进行融合，得到第二特征图；接着，基于该第二特征图，通过图像识别模型的回归层进行目标物识别，得到图像识别结果，进而根据该图像识别结果，得到待识别网页的识别结果。即本申请在对网页进行目标识别时，对网页所包括的图像进行目标识别，相比于只对网页的文本进行目标识别，本申请增大了对网页进行目标识别的范围，进而提高了目标识别的可靠性和准确性。另外，本申请实施例，在对网页中的图像进行目标识别时，提取图像的N个不同尺度的第一特征图，并对N个不同尺度的第一特征图进行融合，得到第二特征图，这样基于该第二特征图进行目标识别时，可以实现对图像中不同大小的目标进行准确识别，进一步提高了目标识别的准确性。

需要说明的是，本申请提供的目标识别的方案可应用于任何需要针对图像和/或文本进行智能理解的场景。例如，广告的搜索、推荐、审核等场景。

下面通过一些实施例对本申请实施例的技术方案进行详细说明。下面这几个实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

首先结合图2所述的模型训练方法示意图，对本申请实施例涉及的模型训练过程进行介绍。

图2为本申请实施例提供的一种识别模型的训练方法示意性流程图，该方法可以由电子设备执行，可选的，该电子设备可以为终端设备，例如为台式电脑、笔记本电脑、平板电脑等，可选的，该电子设备还可以是服务器。

图3为本申请实施例涉及的图像识别模型的一种网络结构示意图，如图3所示，本申请实施例的图像识别模型包括特征提取模块和回归层，其中特征提取模块用于提取输入图像的N个不同尺度上的第一特征图，回归层用于基于融合后的第二特征图进行目标物识别，得到目标识别结果。

在使用上述图3所示的图像识别模型进行目标识别之前，首先需要对该图像识别模型进行训练。

如图2所示，本申请实施例的识别模型训练方法包括如下S210至S240的步骤：

S210、获取第一训练图像，并通过图像识别模型中的特征提取模块，对第一训练图像进行多尺度特征提取，得到N个不同尺度的第一特征图，N为大于1的正整数。

在一些实施例中，第一特征图也称为第一特征信息，第二特征图也称为第二特征信息。

本申请实施例中，通过图像训练数据集中的训练图像对图像识别模型进行训练，使得训练后的图像识别模型可以准确识别出网页中的图片所包括的目标物。本申请实施例中，图像训练数据集中每一张训练图像的训练过程一致，为了便于描述，以其中一张第一训练图像为例进行说明。

本申请实施例对获取第一训练图像的具体方式不做限制。

在一些实施例中，手工从已有的图像数据库中获取第一训练图像，并将获取的第一训练图像输入训练设备。

在一些实施例中，通过如下S210-A1至S210-A3的步骤获取第一训练图像：

S210-A1、获取背景图像，以及目标物图像。本申请实施例的背景图像可以理解为网页背景图像，例如从网页数据库中获取多个网页图像作为背景图像。本申请实施例的目标物图像可以理解为只包含目标物的图像，例如目标物为烟草，则获取烟草图像。

其中获取目标物的方法包括但不限于如下几种：

方式1，通过绘图工具，绘制目标物图像。例如，目标物图像为烟草图像，则可以通过绘图工具，通过手工绘制烟草图像。

方式2，从已有包括目标物的图像中，裁剪出该图像中的目标物，得到目标物图像。

在该方式2的一种可能实现方式中，利用开源计算机视觉(Open Source ComputerVision，简称openCV)中的轮廓提取函数findContours(轮廓提取)，从包括目标物的图像中将目标物提取出来，如果该轮廓提取函数未能获取该目标物，则通过人工描边的方式对该目标物的轮廓进行增强，得到目标物图像。

需要说明的是，本申请实施例对上述所获取的背景图像和目标物图像的数量不做限制，具体可以根据实际情况确定。

根据上述方法，获得背景图像，以及目标物图像后，执行如下S210-A2的步骤。

S210-A2、将目标物图像粘贴在背景图像中，得到多张第二训练图像；

本申请实施例，通过上述方法可以提取出多个背景图像和多个目标物图像，这样，将多个背景图像和多个目标物图像进行组合，例如将不同的目标物图像粘贴到不同的背景图像中，生成多个包括目标物的第二训练图像，这些第二训练图像构成训练图像数据集。

示例性地，可以使用Image图像处理库将目标物图像随机贴在上述背景图像上。可选的，在将目标物图像粘贴在背景图像上时，还可以设置目标物图像的透明度、厚度和大小，保证训练数据的多样性和拟合性。

基于上述方法，将目标物图像粘贴到网页背景图像中，生成多个第二训练图像，每一张第二训练图像中均包括目标物。接着，执行如下S210-A3的步骤，基于上述生成的多个第二训练图像，可以确定第一训练图像。

S210-A3、根据多张第二训练图像，确定第一训练图像。

本申请实施例对上述S210-A3中根据多张第二训练图像，确定第一训练图像的具体方法不做限制。

在一些实施例中，可以将第二训练图像中的任意一张第二训练图像作为第一训练图像，用于训练图像识别模型。

在一些实施例中，为了使得图像识别模型可以实现对小目标的准确识别，则可以将上述生成的多张第二训练图像进行拼接，生成一张第一训练图像。具体是，按照预设的比例，将多张第二训练图像中的至少两张第二训练图像，组合为一张第一训练图像。例如，根据马赛克数据增强，将4张第二训练图像按照一定的比例组合为一张第一训练图像。

可选的，按照预设的比例，由至少两张第二训练图像拼接而成的第一训练图像的大小，与未缩小之前的第二训练图像的大小一致。

在该实施例中，从上述生成的多张第二训练图像中随机选取至少两张第二训练图像，按照预设比例进行缩放，再随机分布进行拼接，得到第一训练图像。一方面，大大提高了训练数据集的丰富性，且随机缩放增加了很多小目标，这样使用包括小目标的训练图像对图像识别模型进行训练时，使得训练后的图像识别模型可以对小目标进行准确识别，进而提高图像识别模型的鲁棒性。另一方面，技术上采用自制训练数据和数据增强的策略，能够在低成本的条件下达到更高的识别准确率。

在一些实施例中，根据上述方法获得第一训练图像后，在将第一训练图像输入图像识别模型之前，对第一训练图像进行图像归一化处理。图像归一化是计算机视觉、模式识别等领域广泛使用的一种技术。所谓图像归一化,就是通过一系列变换，将待处理的原始图像转换成相应的唯一标准形式(该标准形式图像对平移、旋转、缩放等仿射变换具有不变特征)。训练图像和测试图像进行模型训练前需要进行图像大小归一化，根据实际效率需要设置为320*320或者460*460，一般更大的图像大小会获取更高的准确率和更高的耗时。

根据上述方法，对生成第一训练图像进行归一化处理后，将归一化处理后的第一训练图像输入图像识别模型中的特征提取模块进行多尺度特征提取，得到第一训练图像的N个不同尺度的第一特征图。

需要说明的是，上述N个不同尺度可以通过参数进行预先设定，本申请实施例对N个不同尺度的具体值不做限制。

根据上述步骤，获取第一训练图像，并通过图像识别模型中的特征提取模块，对第一训练图像进行多尺度特征提取，得到N个不同尺度的第一特征图之后，执行如下S220的步骤。

S220、对N个不同尺度的第一特征图进行融合，得到第二特征图。

本申请实施例对N个不同尺度的第一特征图进行融合，得到第二特征图的具体方式不做限制。

在一种示例中，将N个不同尺度的第一特征图进行拼接，得到第二特征图。

在另一种示例中，将N个不同尺度的第一特征图进行相加，将相加后的特征图，确定为第二特征图。

在另一种示例中，将N个不同尺度的第一特征图进行相乘，将相乘后的特征图，确定为第二特征图。

在另一种示例中，还可以通过卷积层对上述N个不同尺度的第一特征图进行处理，输出第二特征图。

S230、基于第二特征图，通过图像识别模型的回归层进行目标物识别，得到第一训练图像对应的目标物识别结果。

本申请实施例中，根据上述方法，将N个不同尺度的第一特征图进行融合，生成第二特征图，接着，将第二特征图输入图像识别模型的回归层进行目标物识别，以将第一训练图像中的目标物进行框选，得到第一训练图像对应的目标物识别结果。

本申请实施例对上述S230中基于第二特征图，通过图像识别模型的回归层进行目标物识别，得到第一训练图像对应的目标物识别结果的具体过程不做限制。

在一些实施例中，上述S230包括如下S230-A和S230-B步骤：

S230-A、获取第一训练图像对应的目标先验框；

S230-B、基于该目标先验框和该第二特征图，通过该回归层进行目标物识别，得到目标物识别结果。

在一种示例中，上述第一训练图像对应的目标先验框可以为预设的先验框，例如预设第一训练图像对应的目标先验框的大小为50*50。

在另一种示例中，上述第一训练图像对应的目标先验框为通过聚类确定的，此时可以对训练图像数据集中，各训练图像所包括的目标物的大小进行聚类，获得M个先验框，M为大于1的正整数；根据该M个先验框，确定该目标先验框。

可理解的是，该训练数据集在进行聚类前已经过人工标注，使用聚类算法，例如使用k-means(k-均值)聚类算法对人工标注后的训练数据集中目标物的宽高进行聚类，得到M个先验框，M为大于1的正整数，可选的，M＝3，这3个先验框包括分别适合识别大目标、中目标、小目标的先验框。

根据上述方法，获得M个先验框后，根据这M个先验框，确定目标先验框。

例如，从M个先验框中选择一个先验框，作为目标先验框，示例性的，选择M个先验框中中等目标对应的先验框中的一个，确定为目标先验框。

再例如，将M个先验框中中等目标对应的至少一个先验框的均值作为目标先验框的大小。

根据上述方法，确定出目标先验框后，基于该目标先验框和该第二特征图，通过该回归层进行目标物识别，得到目标物识别结果。示例性的，通过预设的方法，对第二特征图和目标先验框进行处理，得到候选框，对候选框进行非极大值抑制计算，得到目标物识别结果。

S240、根据目标物识别结果，确定图像识别模型的损失，并根据该损失，对图像识别模型进行训练。

根据上述方法，得到图像识别模型输出的第一训练图像对应的目标物识别结果，根据图像识别模型预测的目标物识别结果确定图像识别模型的损失，并根据该损失，对图像识别模型进行训练。

在一些实施例中，目标识别结果包括预测框，此时可以根据图像识别模型所预测的预测框与第一训练图像中目标物的真实框，确定图像识别模型的损失，例如将图像识别模型预测的预测框与第一训练图像中目标物的真实框的差值，确定为图像识别模型的损失。

在一些实施例中，目标识别结果包括预测框、该预测框对应的置信度和类别判断，此时可以根据该预测框的中心点和大小，以及该预测框对应的置信度和类别判断，确定该图像识别模型的损失。

本申请实施例对根据该预测框的中心点和大小，以及该预测框对应的置信度和类别判断，确定该图像识别模型的损失的具体方式不做限制。

在一种可能的实现方式中，根据如下公式(1)确定图像识别模型的损失：

其中，S²表示网格数，每个网格产生B个候选框，

表示第i个网格的第j个候选框是否负责这个目标物，如果负责那么

否则为0。其中负责是指，确定第i个网格的B个候选框与真实框的重叠度(Intersection over Union，IOU)，若B个候选框中第j个候选框对应的IOU最大，则确定第j个候选框对该目标物负责，因为第j个候选框的形状、尺寸最符合当前目标物，此时

表示第i个网格的第j个候选框不负责该目标物。(x_i，y_i)为目标物真实框的中心点，(w_i，h_i)为真实框的宽和高，

表示真实框对应的置信度，

表示真实框对应的类别判断结果，即类别概率，

为第i个网格的第j个候选框的中心点，

为第i个网格的第j个候选框的宽和高，

表示第i个网格的第j个候选框对应的置信度，

表示第i个网格的第j个候选框对应的类别判断结果。λ_noobj和λ_coord为预设权重。

根据上述方法，确定出图像识别模型的损失后，根据该损失对图像识别模型中参数进行反向调整，使用调整后的图像识别模型对下一个第一训练图像进行目标物识别，并根据识别结果对图像识别模型再进行调整，依次类推，直到达到预设的模型训练结束条件为止。其中，模型训练结束条件可以是模型的预测结果达到预设值，或者模型的训练次数达到预测次数。

本申请实施例对上述图像识别模型的具体网络结构不做限制。

在一些实施例中，上述图像识别模型为Yolov4(You Only Look Once Version4，只需看一次版本4)，下面结合具体的实施例，对Yolov4的训练过程进行介绍。

图4为本申请实施例提供的一种Yolov4的训练流程示意图，图5为Yolov4的原理示意图，如图4和图5所示，Yolov4的训练过程包括：

S310、确定训练图像集。示例性的，首先收集背景图像，例如收集1000到2000张背景图像。以网页背景为宜。为了保证训练数据的多样性和泛化能力，需要收集符合应用场景的背景图。接着，对目标物(例如烟草)素材的图片进行抠图，抠出目标物图像。例如，利用openCV中的轮廓提取函数findContours，将目标物的轮廓提取出来。该过程中由于复杂背景等影响，findContours轮廓提取函数未必能获取目标轮廓，此时可人工描边对样例进行增强，使得轮廓成功提取。然后，将提取的目标图像粘贴在上述背景图像上，生成多张第二训练图像。

基于以上自制训练数据集的方案，能够保证目标识别模型的泛化能力。

S320、基于训练图像集，获得第一训练图像。例如，可以将多张第二训练图像中的任意一张第二训练图像作为第一训练图像，用于训练图像识别模型。再例如，将该训练数据集中的多张第二训练图像，按照预设的比例组合成一张，得到第一训练图像。

示例性的，使用马赛克数据增强技术将多张第二训练图像按一定比例组合成1张第一训练图像。基于该马赛克数据增强技术，能使得图像识别模型学习识别比正常尺寸小的物体，该方法能够提高小目标识别的准确率，适用于类似烟草广告等小目标的识别场景。

S330、获取第一训练图像对应的目标先验框。例如，对训练图像数据集中，各训练图像所包括的目标物的大小进行聚类，获得M个先验框，M为大于1的正整数；根据M个先验框，确定目标先验框。

示例性的，对上述第一训练图像进行标注，获得真实框；对标注后的第一训练图像进行聚类，获得9个先验框。

需要说明的是，9个先验框中，有三个先验框适合于识别大目标，三个先验框适合于识别中目标，三个先验框适合于识别小目标。

本申请实施例中，根据待识别的目标物的预设大小，可以从上述9个先验框中，选择与目标物适配的先验框作为目标先验框。例如，本申请实施例用于识别小目标，则可以从上述三个适合于小目标识别的先验框中选择一个作为目标先验框。也就是说，本申请实施例中，根据待识别的目标物的不同，可以确定不同的目标先验框，进而使用该与待识别的目标物适配的目标先验框对目标物进行识别时，可以提高识别准确性。

不同于一般的目标识别模型，需要基于9个先验框进行目标识别，本申请根据识别的场景，对先验框进行筛选，确定一个目标先验框，能简化图像识别的过程，且实现对预设场景下的目标物的准确识别，例如实现对小目标烟草等的准确识别。

需要说明的是，上述第一训练图像的获取，以及目标先验框的确定均是图像识别模型的训练之前完成。接着，执行如下S340的步骤，对图像识别模型进行训练。

S340、通过图像识别模型中的特征提取模块，对第一训练图像进行多尺度特征提取，得到N个不同尺度的第一特征图。示例性的，如图5所示，将上述目标先验框和上述第一训练图像输入至Darknet-53网络结构中，Darknet-53为一种深层网络，使用Darknet-53对第一训练图像进行多尺度特征提取，具体是进行图像特征提取以及降采样，例如分别进行32倍降采样、16倍降采样以及8倍降采样，得到输出13×13，26×26，52×52三种尺度的第一特征图。

其中，Darknet-53模型是全卷积网络，主要是由一系列的1x1和3x3的卷积层组成(共53个)，利用卷积操作而非池化来进行降采样，可以减少梯度负面效果，进而提高模型的训练效果。

需要说明的是，上述具体的数值参数只是一种示例，本申请实施例包括但不限于上述数值参数，例如不限于13×13，26×26，52×52三种尺度的第一特征图，还可以是其他不同尺度的多个第一特征图。

根据上述方法，通过图像识别模型中的特征提取模块，对第一训练图像进行多尺度特征提取，得到N个不同尺度的第一特征图后，执行如下S350的步骤。

S350、对N个不同尺度的第一特征图进行融合，得到第二特征图。示例性的，对上述13×13的第一特征图进行上采样，与上述26×26的第一特征图进行拼接，得到拼接后的26×26特征图。接着，对拼接后的26×26特征图，进行上采样，与上述52×52的第一特征图进行拼接，得到第二特征图。

上述Darknet-53中输出三种尺度的特征图，实现识别不同大小的目标，例如分别在32倍、16倍和8倍降采样的尺度上进行识别。最后将不同尺度上识别得到的特征图进行特征融合，使得融合后的第二特征图包括不同尺度上的识别得到的特征，进而丰富了该第二特征图所表示的信息。

S360、基于目标先验框和第二特征图，通过回归层进行目标物识别，得到第一训练图像对应的目标识别结果。例如，将上述第二特征图和目标先验框输入回归层，该回归层基于该第二特征图和上述目标先验框，得到第一训练图像对应的目标识别结果。

示例性的，基于第二特征图和目标先验框，得到候选框，对候选框进行处理，例如进行非极大值抑制计算，得到第一训练图像对应的目标识别结果。

其中，非极大值抑制(Non Maximum Suppression，NMS)算法是目标识别中常用的技术，主要解决的问题是在众多候选框中找到最优候选框，即预测框，消除冗余的重复候选框，找到最佳的物体识别位置。NMS运用的主要思想是选取邻域里的局部极大值，去除邻域内的非极大值。在对给定输入图片生成候选框，特征提取和分类器分类后，在图像目标附近会有很多识别正确的候选框，这些候选框很可能存在互相重叠现象，而实际不需要这么多候选框，只有其中一个候选框是描述待识别目标的最优候选框，目标是找到最优候选框并且筛除其他候选框。每个候选框被分类器赋予一个置信度分数，首先将所有候选框按照置信度分数从高到低排序，选出其中置信度分数最高的候选框m，将剩余的候选框分别与m计算IOU，通常给定IOU阈值为0.5，若剩余候选框与m的交并比大于0.5则认为与候选框m存在重合部分，应将此候选框筛除。按照此步骤继续遍历剩余的候选框直至找到最优候选框。

S370、根据第一训练图像对应的目标识别结果，确定图像识别模型的损失，并根据该损失，对图像识别模型进行训练。例如，第一训练图像对应的目标识别结果包括预测框，此时则可以计算上述预测框与上述第一训练图像的真实框之间的损失，基于该损失对Yolov4的网络参数进行更新，直至损失值小于设定阈值，获得训练后的Yolov4图像识别模型。

在一些实施例中，第一训练图像对应的目标识别结果包括预测框、该预测框对应的置信度和类别判断，此时，可以根据预测框的中心点和大小，以及预测框对应的置信度和类别判断，确定图像识别模型的损失。示例性的，可以根据上述公式(1)确定出图像识别模型的损失。

可选的，Yolov4损失分为3个部分，类别损失、置信度损失和位置损失。

本申请实施例提供的识别模型训练方法，通过获取第一训练图像，并通过图像识别模型中的特征提取模块，对第一训练图像进行多尺度特征提取，得到N个不同尺度的第一特征图，N为大于1的正整数；对N个不同尺度的第一特征图进行融合，得到第二特征图；基于第二特征图，通过图像识别模型的回归层进行目标物识别，得到第一训练图像对应的目标识别结果；根据该目标识别结果，确定图像识别模型的损失，并根据该损失，对图像识别模型进行训练，使得训练后的图像识别模型可以实现对网页图片中预设尺度大小的目标物进行准确快速识别。

上文对图像识别模型的训练过程进行介绍，本申请实施例的识别模型的训练方法还包括对文本识别模型的训练。下面结合图6对文本模型的训练过程进行介绍。

图6为本申请实施例提供的一种模型训练方法流程图，该方法可以由台式电脑、笔记本电脑、平板电脑等电子设备执行，本申请对此不做限制，如图6所示，该模型训练方法包括：

S410、获取与目标物相关的关键词。例如，从已有的词库中，获取与目标物相关的关键词。再例如，从网络中收集与目标物相关的关键词。

需要说明的是，不同的目标物所相关的关键词不同。

其中，与目标物相关的关键词包括目标物的关键词，以及目标物的变种词。

以目标物为烟草为例，示例性的，与烟草相关的关键词包括：鼻通棒，鼻吸神器，低温烟，点烟戒烟器，电子“火因”，电子火因，电子化雾烟，电子化雾烟器，电子火因，电子食粮，电子香烟，电子奶茶，干烧烟草，华雾烟，化雾烟，火因弓单，戒烟帮，电子烟，大烟雾戒烟，雾化口香糖，点烟器化雾口香糖，电口香糖，电烟，电子点烟，电子戒烟，电子戒烟器，电子口粮，电子能量棒，电子器烟，电子式点烟，电子式戒烟器，电子式吸烟，电子式烟器，电子式烟雾，电子水果味烟，电子替烟器，电子雾化棒，电子雾化口香糖，电子雾化烟，电子雾化液，加热不燃烧电子，加热烟，戒烟棒，戒烟产品，戒烟器，戒烟神器，戒烟贴，戒烟用品，可吸入式男女清凉口香糖，可吸式子烟器，控烟棒，口粮弹，口香糖雾化烟，迷你一体烟，能量棒，水果糖雾化能量棒，水果雾化电子，提神棒，替烟，替烟控烟棒，雾化棒，雾化弹，雾化蛋，雾化戒烟替烟，雾化口香糖，雾化能量吸入式电子糖，雾化烟，雾化烟雾棒，烟弹，烟蛋，烟菲烟，烟雾棒，烟油，蒸气烟，蒸汽雾化烟，茶烟等等。

根据上述方法，确定出与目标物相关的关键词后，执行S420的步骤。

S420、根据该关键词，获取训练文本。

在一些实施例中，根据关键词，在已有的训练数据库中查询与关键词匹配的文本，作为文本识别模型的训练文本。

在一些实施例中，根据该关键词，从网页中筛选训练文本。例如，使用静态爬虫requests(请求)库访问网页广告信息库里的广告链接，进而从网页中得到与关键词匹配的文本，作为文本识别模型的训练文本。

S430、使用该训练文本，对文本识别模型进行训练。例如，将训练文本输入文本识别模型中，以对文本识别模型进行训练。

在一些实施例中，上述S430包括剔除上述训练文本中的预设停用词，得到剔除后的训练文本，并使用剔除后的训练文本，对该文本识别模型进行训练。

可理解的是，对中文而言，字是最小的字符单元，而最小的语义单元是词，所以为了模型能够从语义的角度处理文本，取得更好的效果，在文本预处理阶段第一步先对训练文本数据集进行分词处理。根据实现原理和特点，中文分词主要分为基于词典的分词方法、基于统计的分词方法和基于理解的分词方法三类。

需要说明的是，停用词主要分为两类：一类是在句子中出现的频率比较高，但是实际意义不大的词，这类词主要包括了助词、语气词、连词、介词等，比如我们常见的“啊”、“哈”、“哦”、“的”、“喔”等，这些词语在多数情况下其自身并没有实际意义，它们的出现主要是为了语法的需要；另一类是在句子中应用广泛，并且频率过高的词语，比如中文的“我”、“他”，英文的“I”、“his”等，这类词语基本上在所有的文本中均会出现。如果文本中存在大量的停用词，容易影响文本有效信息的提取，从而影响文本聚类的效果。因此，在文本中适当的减少停用词的数量，能够有效的提高提取文本的关键信息的准确度，从而提高文本识别的效果。目前常用的去除停用词的方法主要是通过将文本与一些现有的停用词表进行匹配。

在一些实施例中，文本识别模型的输入为词向量，也就是说，对应训练文本，将训练文本的各词转换成词向量后，输入文本识别模型。

本申请实施例的文本识别模型用于对预设的目标物进行识别，已有的词向量表中可能不包括或不完全包括该目标物对应的关键词的词向量表。基于此，本申请实施例，可以自行构建目标物对应的词向量表。

即本申请实施例，在上述S430之前，还包括：使用该训练文本，训练得到目标物对应的词向量表，该词向量表中包括与目标物相关的不同关键词对应的词向量。

本申请实施例，可以采用One-hot(独热)表示法、分布式表示法及Word2vec(wordto vector，词向量)等方法，得到目标物对应的词向量，本申请实施例对使用该训练文本，训练得到目标物对应的词向量表的具体方式不做限定。

在一种可能的实现方式中，采用Word2Vec方法，对训练文本进行训练，得到目标物对应的词向量表。

Word2Vec是一种神经网络模型，是一种基于文本上下文的词向量表示模型，广泛的应用于自然语言处理中。其主要思想为，利用深度学习的思想，用空间中的k维向量的计算来表达对文本内容进行处理的过程，而文本语义的相似度也可以用这些k维向量在空间上的相似度来表示。

Word2Vec训练词向量一般分为CBOW(Continuous Bag-of-Words，连续词袋模型)与Skip-Gram(跳字模型)两种模型。CBOW模型的训练输入是某一个特征词的上下文相关的词对应的词向量，而输出就是这特定的一个词的词向量。Skip-Gram模型和CBOW的思路是反着来的，即输入是特定的一个词的词向量，而输出是特定词对应的上下文词向量，比如中心词是“love”，那么可以通过Skip-Gram模型预测上下文为“I”、“you”。CBOW对小型数据库比较合适，而Skip-Gram在大型语料中表现更好。

CBOW模型的主要流程为：首先根据语料库建立一个词汇表，其中词汇表中的单词对应于一个随机的词向量，接下来选取语料库中的一段文本进行训练。将单词w的上下文词向量输入到CBOW模型中，在投影层进行累加得到中间向量，最后将中间向量输出到哈夫曼树的根节点中，哈夫曼树的每个非叶子节点均会对该向量进行分类，最终到达的叶子节点就是该模型对单词的预测，即得到单词对应的词向量。当模型训练完成以后，除了得到了一个语言模型，更重要的是得到了源输入的词向量表示，即可以得到所有词语对应的词向量。

根据上述方法，训练得到目标物对应的词向量表后，上述S430包括在词向量表中查询该训练文本对应的词向量，并将该训练文本对应的词向量，输入文本识别模型中，以训练该文本识别模型。

本申请实施例对上述文本识别模型的具体网络结构不做限制。

在一些实施例中，上述文本识别模型为文本卷积神经网络(Text ConvolutionalNeural Networks，简称TextCNN)。下面结合具体的实施例，对TextCNN的训练过程进行介绍。

图7为本申请实施例提供的一种TextCNN的训练流程示意图。如图7所示，TextCNN的训练过程包括：

S510、获取与目标物相关的关键词，并根据关键词，获取训练文本。例如，根据关键词，从网页中筛选训练文本。

具体参照上述S410和S420的相关描述，在此不再赘述。

S520、剔除训练文本中的预设停用词，得到剔除后的训练文本。其中，该词向量表中包括与目标物相关的不同关键词对应的词向量。

上述S520的实现过程参照上述S430-A的描述，在此不再赘述。

S530、使用训练文本，训练得到目标物对应的词向量表。例如，使用剔除后的训练文本，训练得到目标物对应的词向量表。

上述S530的实现过程参照上述S430中构建目标物对应的词向量表的描述，在此不再赘述。

S540、在词向量表中查询训练文本对应的词向量。

S550、将训练文本对应的词向量，输入TextCNN中，以训练TextCNN。

图8为本申请实施例涉及的一种TextCNN的网络结构示意图。

TextCNN使用预先训练好的词向量作embedding layer(嵌入层)。对于数据集里的所有词，因为每个词都可以表征成一个向量，因此我们可以得到一个嵌入矩阵，该嵌入矩阵里的每一行都是词向量。这个嵌入矩阵可以是静态(static)的，也就是固定不变；可以是非静态(non-static)的，也就是可以根据反向传播更新。

嵌入层：输入一个句子，首先对这个句子进行切词，假设有s个单词，对每个词，根据嵌入矩阵，可以得到词向量。假设词向量一共有d维。那么对于这个句子，便可以得到s行d列的矩阵。在一些实施例中，TextCNN通过该嵌入层将训练文本的各词转换成词向量。

卷积层，通过卷积神经网络提取不同的特征。示例性的，卷积层包括多个宽度相同的过滤器。

池化层：不同尺寸的卷积核得到的特征图大小是不一样的，因此对每个特征图使用池化函数，使它们维度相同。图8的池化操作是max-overtime-pooling(最大时间池化)。

池化层后面加上全连接层和Softmax分类层做分类任务，同时为防止过拟合，一般会添加正则化方法。最后整体使用梯度法进行参数的更新和模型的优化。

图9为本申请实施例涉及的TextCNN的一种原理示意图。

如图9所示，TextCNN的详细过程：

嵌入：第一层是图中最左边的7乘5的句子矩阵，每行是词向量，维度＝5，这个可以类比为图像中的原始像素点。

卷积：经过卷积核＝(2,3,4)的一维卷积层，每个卷积核有两个输出通道(或两个滤波器)，总共6个滤波器。

最大池化：第三层是一个一维最大池化层，这样不同长度句子经过池化层之后都能变成定长的表示。

全连接层和Softmax分类层：最后接一层全连接的Softmax分类层，输出每个类别的概率。

本申请实施例提供的识别模型训练方法，获取与所述目标物相关的关键词；根据所述关键词，获取训练文本；使用所述训练文本，对文本识别模型进行训练，使得训练后的文本识别模型可以对网页文本中目标物进行准确识别。

上文对图像识别模型和文本识别模型的训练过程进行介绍，下面对基于上述训练好的图像识别模型和文本识别模型，进行目标物识别的过程进行介绍。

图10为本申请实施例提供的一种目标识别方法的流程图，该方法电子设备执行，可选的，该电子设备可以为终端设备，例如为台式电脑、笔记本电脑、平板电脑等，可选的，该电子设备还可以是服务器。

如图10所示，本申请实施例的目标识别方法，包括：

S610、提取待识别网页的网页内容。例如，从待识别网页队列中取出当前待识别网页，并提取出该待识别网页的网页内容。

其中网页内容包括文本内容和图像内容中的至少一个。

可选的，可以使用静态爬虫requests(请求)库访问该待识别网页，提取该待识别网页的网页内容。

需要说明的是，requests(请求)库是python实现的简单易用的HTTP(Hyper TextTransfer Protocol，超文本传输协议)库，可用于访问网页获取文本素材和图像素材。

S620、对网页内容进行检测，若网页内容中包括图像，则通过图像识别模型中的特征提取模块，对该图像进行多尺度特征提取，得到N个不同尺度的第一特征图，N为大于1的正整数。

例如，使用静态爬虫对网页内容进行检测，提取出网页内容中的图像，进而将图像输入图像识别模型中的特征提取模块中，得到N个不同尺度的第一特征图。

由上述图像识别模型的训练过程可知，采用上述训练方法训练得到的图像识别模型可以实现对图像中目标物的准确识别。因此，本申请实施例，为了提高网页的识别准确性，在检测到网页内容中包括图像时，则使用上述训练得到的图像识别模型对图像进行目标识别，相比于只对网页的文本进行目标识别，本申请增大了对网页进行目标识别的范围，进而提高了目标识别的可靠性和准确性。

上述图像识别模型是经过第一训练图像训练得到的。其中第一训练图像是根据多张第二训练图确定的，多张第二训练图像是将获取的目标物图像粘贴在获取的背景图像中得到的。具体的，可以参照上述S210-A1和S210-A2的具体描述，在此不再赘述。

在一些实施例中，第一训练图像为多张第二训练图像中的任一第二训练图像。

在一些实施例中，第一训练图像是按照预设的比例，将多张第二训练图像中的至少两张第二训练图像进行组合得到的。

S630、对N个不同尺度的第一特征图进行融合，得到第二特征图。

S640、基于第二特征图，通过图像识别模型的回归层进行目标物识别，得到图像识别结果。例如，基于目标先验框和第二特征图，通过回归层进行目标物识别，得到图像识别结果。

其中，目标先验框是根据M个先验框确定的，M个先验框是对训练图像数据集中，各训练图像所包括的目标物的大小进行聚类得到的，M为大于1的正整数。

上述S640的具体实现方式，可以参照上述S230的描述，在此不再赘述。

S650、根据图像识别结果，得到待识别网页的识别结果。

例如，若该图像识别结果指示图像中包括目标物时，则将该图像识别结果，确定为待识别网页的识别结果，即确定该待识别网页中包括目标物。

在一些实施例中，本申请实施例除了使用图像识别模型对网页内容的图像进行目标识别外，还可以使用上述训练得到的文本识别模型对网页内容的文本进行目标识别。

也就是说，在本申请实施例中，可以使用上述训练得到的图像识别模型和文本识别模型中的至少一个对网页进行目标识别。

例如，使用上述图像识别模型对上述网页内容中的图像进行目标物识别，并使用文本识别模型对上述网页内容中的文本进行目标物识别。

再例如，首先使用上述图像识别模型对上述网页内容中的图像进行目标物识别，得到图像识别结果，若图像识别结果中包括目标物，则将图像识别结果确定为该待识别网页的识别结果。若上述图像识别结果中不包括目标物，则使用文本识别模型对上述网页内容中的文本进行目标物识别，得到待识别网页的识别结果。

再例如，首先通过该文本识别模型，对网页内容中的文本进行目标物识别，得到文本识别结果；若文本识别结果中包括目标物对应的关键词，则将文本识别结果，确定为待识别网页的识别结果。若上述文本识别结果中不包括目标物对应的关键词，则通过图像识别模型对网页内容中的图像进行目标物识别，得到待识别网页的识别结果。

由于文本识别计算量小，速度快，因此，在一些实施例中，若网页内容中即包括文本又包括图像时，则如图11所示，先对网页内容的文本进行目标识别，再对网页内容的图像进行目标识别。

图11为本申请一实施例提供的目标识别方法流程示意图，包括：

S701、提取待识别网页的网页内容。例如可以使用静态爬虫技术访问该待识别网页，提取该待识别网页的网页内容。

上述S701的具体实现过程参照上述S610的描述，在此不再赘述。

S702、对网页内容进行检测，获取网页内容中的文本和图像。例如，使用爬虫技术提取出网页内容中的文本和图像。

S703、通过文本识别模型，对文本进行目标物识别，得到文本识别结果。例如，在目标物对应的词向量表中查询文本对应的词向量；将文本对应的词向量输入文本识别模型，以对文本进行目标物识别，得到文本识别结果。

可选的，目标物对应的词向量表是经过训练文本训练得到的，词向量表中包括与目标物相关的不同关键词对应的词向量。

在一些实施例中，上述文本识别模型是经过训练文本训练得到的，其中训练文本是根据所述目标物相关的关键词从网页中筛选得到的。

在一些实施例中，上述文本识别模型是经过剔除后的训练文本训练得到的，其中剔除后的训练文本是对训练文本中的预设停用词进行剔除后得到的文本。

S704、判断文本识别结果中是否包括目标物对应的关键词。若文本识别结果中包括目标物对应的关键词，则执行如下S705将文本识别结果确定为待识别网页的识别结果。若文本识别结果中不包括目标物对应的关键词，则执行如下S706进行图像检测。

S705、将文本识别结果确定为待识别网页的识别结果。

若文本识别结果中不包括目标物对应的关键词，则执行如下S706进行图像检测。

S706、通过图像识别模型中的特征提取模块，对图像进行多尺度特征提取，得到N个不同尺度的第一特征图。

示例性的，如图5所示，将上述目标先验框和上述第一训练图像输入至Darknet-53网络结构中，Darknet-53为一种深层网络，使用Darknet-53对第一训练图像进行多尺度特征提取，具体是进行图像特征提取以及降采样，例如分别进行32倍降采样、16倍降采样以及8倍降采样，得到输出13×13、26×26、52×52三种尺度的第一特征图。

需要说明的是，上述具体的数值参数只是一种示例，本申请实施例包括但不限于上述数值参数，例如不限于13×13、26×26、52×52三种尺度的第一特征图，还可以是其他不同尺度的多个第一特征图。

S707、对N个不同尺度的第一特征图进行融合，得到第二特征图。

示例性的，对上述13×13的第一特征图进行上采样，与上述26×26的第一特征图进行拼接，得到拼接后的26×26特征图。接着，对拼接后的26×26特征图，进行上采样，与上述52×52的第一特征图进行拼接，得到第二特征图。

S708、基于第二特征图，通过图像识别模型的回归层进行目标物识别，得到图像识别结果。例如，将上述第二特征图和目标先验框输入回归层，该回归层基于该第二特征图和上述目标先验框，得到图像识别结果。

示例性的，基于第二特征图和目标先验框，得到候选框，对候选框进行处理，例如进行非极大值抑制计算，得到图像识别结果。

S709、根据图像识别结果，得到待识别网页的识别结果。

例如，若该图像识别结果指示图像中包括目标物时，则确定该待识别网页中包括目标物。

再例如，若该图像识别结果指示图像中不包括目标物时，则确定该待识别网页中不包括目标物。

在一些实施例中，若该网页内容的图像中包括该目标物，则本申请还提取该图像中的文本内容，并将提取的文本内容，存储至该目标物对应的变种词库中。

在一些实施例中，可以采用OCR对网页内容中的图像进行文字识别，得到该网页内容的图像所包括的与目标物相关的文本内容。

本申请实施例，获取待识别网页的网页内容，包括文本和图像，调用文本识别模型判断该文本是否含有目标物对应的关键词；如果该文本识别模型判断文本包括目标物对应的关键词，则将文本识别结果，确定为该待识别网页的识别结果。如果该文本识别模型判断该文本不包含该目标物对应的关键词，则将该网页内容中的图像输入图像识别模型，如果该图像识别模型判断该图像包含目标物，则采用OCR方法对该图像的文本进行识别，将识别出来的文本存入变种词库，识别结束。

本申请实施例提供的目标识别方法，在进行目标识别时，首先提取待识别网页的网页内容，并对网页内容进行检测，若该网页内容中包括图像，则通过图像识别模型中的特征提取模块，对网页内容中的图像进行多尺度特征提取，得到N个不同尺度的第一特征图，对N个不同尺度的第一特征图进行融合，得到第二特征图；接着，基于该第二特征图，通过图像识别模型的回归层进行目标物识别，得到图像识别结果，进而根据该图像识别结果，得到待识别网页的识别结果。即本申请在对网页进行目标识别时，对网页所包括的图像进行目标识别，相比于只对网页的文本进行目标识别，本申请增大了对网页进行目标识别的范围，进而提高了目标识别的可靠性和准确性。另外，本申请实施例，在对网页中的图像进行目标识别时，提取图像的N个不同尺度的第一特征图，并对N个不同尺度的第一特征图进行融合，得到第二特征图，这样基于该第二特征图进行目标识别时，可以实现对图像中不同大小的目标进行准确识别，进一步提高了目标识别的准确性。

以上结合附图详细描述了本申请的优选实施方式，但是，本申请并不限于上述实施方式中的具体细节，在本申请的技术构思范围内，可以对本申请的技术方案进行多种简单变型，这些简单变型均属于本申请的保护范围。例如，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本申请对各种可能的组合方式不再另行说明。又例如，本申请的各种不同的实施方式之间也可以进行任意组合，只要其不违背本申请的思想，其同样应当视为本申请所公开的内容。

还应理解，在本申请的各种方法实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图12为本申请一实施例提供的目标识别装置的结构示意图。如图12所示，该目标识别装置10包括：

提取单元11，用于提取待识别网页的网页内容；

识别单元12，用于对所述网页内容进行检测，若所述网页内容中包括图像，则通过图像识别模型中的特征提取模块，对所述图像进行多尺度特征提取，得到N个不同尺度的第一特征图，所述N为大于1的正整数；

融合单元13，用于对所述N个不同尺度的第一特征图进行融合，得到第二特征图；

识别单元14，用于基于所述第二特征图，通过所述图像识别模型的回归层进行目标物识别，得到图像识别结果。

在一些实施例中，识别单元14，具体用于基于目标先验框和所述第二特征图，通过所述回归层进行目标物识别，得到所述图像识别结果。

在一些实施例中，所述目标先验框是根据M个先验框确定的，所述M个先验框是对训练图像数据集中，各训练图像所包括的所述目标物的大小进行聚类得到的，M为大于1的正整数。

在一些实施例中，所述若所述网页内容中包括图像，则识别单元14，还用于若所述网页内容中包括文本时，则通过文本识别模型，对所述文本进行目标物识别，得到文本识别结果；若所述文本识别结果中不包括所述目标物对应的关键词，且所述网页内容中包括所述图像时，则通过所述特征提取模块，对所述图像进行多尺度特征提取，得到所述N个不同尺度的第一特征图。

在一些实施例中，识别单元14，具体用于在所述目标物对应的词向量表中查询所述文本对应的词向量；将所述文本对应的词向量输入所述文本识别模型，以对所述文本进行目标物识别，得到文本识别结果。

在一些实施例中，所述目标物对应的词向量表是经过训练文本训练得到的，所述词向量表中包括与所述目标物相关的不同关键词对应的词向量。

在一些实施例中，识别单元14，还用于若所述文本识别结果中包括所述目标物对应的关键词，则将所述文本识别结果确定为所述待识别网页的识别结果。

在一些实施例中，识别单元14，还用于若所述网页内容的图像中包括所述目标物，则提取所述图像中的文本内容；将提取的所述文本内容，存储至所述目标物对应的变种词库中。

在一些实施例中，所述图像识别模型是经过第一训练图像训练得到的，所述第一训练图像是根据多张第二训练图确定的，所述多张第二训练图像是将获取的目标物图像粘贴在获取的背景图像中得到的。

在一些实施例中，所述第一训练图像为所述多张第二训练图像中的任一第二训练图像；或者，所述第一训练图像是按照预设的比例，将所述多张第二训练图像中的至少两张第二训练图像进行组合得到的。

在一些实施例中，所述文本识别模型是经过训练文本训练得到的，所述训练文本是根据所述目标物相关的关键词从网页中筛选得到的。

在一些实施例中，所述文本识别模型是经过剔除后的所述训练文本训练得到的，所述剔除后的所述训练文本是对所述训练文本中的预设停用词进行剔除后得到的文本。

应理解的是，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图12所示的装置可以执行上述目标识别方法的实施例，并且装置中的各个模块的前述和其它操作和/或功能分别为了实现计算设备对应的目标识别方法实施例，为了简洁，在此不再赘述。

图13为本申请一实施例提供的识别模型训练装置的结构示意图。如图13所示，该识别模型训练装置20包括：

获取单元21，用于获取第一训练图像，并通过图像识别模型中的特征提取模块，对所述第一训练图像进行多尺度特征提取，得到N个不同尺度的第一特征图，所述N为大于1的正整数；

融合单元22，用于对所述N个不同尺度的第一特征图进行融合，得到第二特征图；

识别单元23，用于基于所述第二特征图，通过所述图像识别模型的回归层进行目标物识别，得到所述第一训练图像对应的目标物识别结果；

训练单元24，用于根据所述目标物识别结果，确定所述图像识别模型的损失，并根据所述损失，对所述图像识别模型进行训练。

在一些实施例中，识别单元23，具体用于获取所述第一训练图像对应的目标先验框；基于所述目标先验框和所述第二特征图，通过所述回归层进行目标物识别，得到所述目标物识别结果。

在一些实施例中，所述目标物识别结果包括预测框、所述预测框对应的置信度和类别判断，训练单元24，具体用于根据所述预测框的中心点和大小，以及所述预测框对应的置信度和类别判断，确定所述图像识别模型的损失。

在一些实施例中，获取单元21，还用于获取与所述目标物相关的关键词；并根据所述关键词，获取训练文本；

训练单元24，还用于使用所述训练文本，对文本识别模型进行训练。

应理解的是，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图13所示的装置可以执行上述模型训练方法的实施例，并且装置中的各个模块的前述和其它操作和/或功能分别为了实现计算设备对应的模型训练方法实施例，为了简洁，在此不再赘述。

上文中结合附图从功能模块的角度描述了本申请实施例的装置。应理解，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

图14是本申请实施例提供的电子设备的示意性框图，该电子设备可以为可以用于执行上述模型训练方法和/或目标物识别方法。

如图14所示，该电子设备60可包括：

存储器61和处理器62，该存储器61用于存储计算机程序，并将该程序代码传输给该处理器62。换言之，该处理器62可以从存储器61中调用并运行计算机程序，以实现本申请实施例中的方法。

例如，该处理器62可用于根据该计算机程序中的指令执行上述方法实施例。

在本申请的一些实施例中，该处理器62可以包括但不限于：

通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

在本申请的一些实施例中，该存储器61包括但不限于：

易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。

在本申请的一些实施例中，该计算机程序可以被分割成一个或多个模块，该一个或者多个模块被存储在该存储器61中，并由该处理器62执行，以完成本申请提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述该计算机程序在该视频制作设备中的执行过程。

如图14所示，该电子设备60还可包括：

收发器63，该收发器63可连接至该处理器62或存储器61。

其中，处理器62可以控制该收发器63与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器63可以包括发射机和接收机。收发器63还可以进一步包括天线，天线的数量可以为一个或多个。

应当理解，该设备中的各个组件通过总线系统相连，其中，总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

根据本申请的一个方面，提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说，本申请实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例的方法。

根据本申请的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算设备执行上述方法实施例的方法。

换言之，当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以该权利要求的保护范围为准。

Claims

1.一种目标识别方法，其特征在于，包括：

提取待识别网页的网页内容；

根据所述图像识别结果，得到所述待识别网页的识别结果。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第二特征图，通过所述图像识别模型的回归层进行目标物识别，得到图像识别结果，包括：

基于目标先验框和所述第二特征图，通过所述回归层进行目标物识别，得到所述图像识别结果。

3.根据权利要求2所述的方法，其特征在于，所述目标先验框是根据M个先验框确定的，所述M个先验框是对训练图像数据集中，各训练图像所包括的所述目标物的大小进行聚类得到的，M为大于1的正整数。

4.根据权利要求1所述的方法，其特征在于，所述若所述网页内容中包括图像，则通过图像识别模型中的特征提取模块，对所述图像进行多尺度特征提取，得到N个不同尺度的第一特征图之前，所述方法还包括：

若所述网页内容中包括文本时，则通过文本识别模型，对所述文本进行目标物识别，得到文本识别结果；

所述若所述网页内容中包括图像，则通过图像识别模型中的特征提取模块，对所述图像进行多尺度特征提取，得到N个不同尺度的第一特征图，包括：

若所述文本识别结果中不包括所述目标物对应的关键词，且所述网页内容中包括所述图像时，则通过所述特征提取模块，对所述图像进行多尺度特征提取，得到所述N个不同尺度的第一特征图。

5.根据权利要求4所述的方法，其特征在于，所述通过文本识别模型，对所述文本进行目标物识别，得到文本识别结果，包括：

在所述目标物对应的词向量表中查询所述文本对应的词向量；

将所述文本对应的词向量输入所述文本识别模型，以对所述文本进行目标物识别，得到文本识别结果。

6.根据权利要求5所述的方法，其特征在于，所述目标物对应的词向量表是经过训练文本训练得到的，所述词向量表中包括与所述目标物相关的不同关键词对应的词向量。

7.根据权利要求4所述的方法，其特征在于，所述方法还包括：

若所述文本识别结果中包括所述目标物对应的关键词，则将所述文本识别结果确定为所述待识别网页的识别结果。

8.根据权利要求4所述的方法，其特征在于，所述方法还包括：

若所述网页内容的图像中包括所述目标物，则提取所述图像中的文本内容；

将提取的所述文本内容，存储至所述目标物对应的变种词库中。

9.根据权利要求1-8任一项所述的方法，其特征在于，所述图像识别模型是经过第一训练图像训练得到的，所述第一训练图像是根据多张第二训练图确定的，所述多张第二训练图像是将获取的目标物图像粘贴在获取的背景图像中得到的。

10.根据权利要求9所述的方法，其特征在于，所述第一训练图像为所述多张第二训练图像中的任一第二训练图像；或者，

所述第一训练图像是按照预设的比例，将所述多张第二训练图像中的至少两张第二训练图像进行组合得到的。

11.根据权利要求4-7任一项所述的方法，其特征在于，所述文本识别模型是经过训练文本训练得到的，所述训练文本是根据所述目标物相关的关键词从网页中筛选得到的。

12.根据权利要求11所述的方法，其特征在于，所述文本识别模型是经过剔除后的所述训练文本训练得到的，所述剔除后的所述训练文本是对所述训练文本中的预设停用词进行剔除后得到的文本。

13.一种识别模型训练方法，其特征在于，包括：

获取第一训练图像，并通过图像识别模型中的特征提取模块，对所述第一训练图像进行多尺度特征提取，得到N个不同尺度的第一特征图，所述N为大于1的正整数；

基于所述第二特征图，通过所述图像识别模型的回归层进行目标物识别，得到所述第一训练图像对应的目标物识别结果；

根据所述目标物识别结果，确定所述图像识别模型的损失，并根据所述损失，对所述图像识别模型进行训练。

14.根据权利要求13所述的方法，其特征在于，所述基于所述第二特征图，通过所述图像识别模型的回归层进行目标物识别，得到所述第一训练图像对应的目标物识别结果，包括：

获取所述第一训练图像对应的目标先验框；

基于所述目标先验框和所述第二特征图，通过所述回归层进行目标物识别，得到所述目标物识别结果。

15.根据权利要求13所述的方法，其特征在于，所述目标物识别结果包括预测框、所述预测框对应的置信度和类别判断，所述根据所述目标物识别结果，确定所述图像识别模型的损失，包括：

根据所述预测框的中心点和大小，以及所述预测框对应的置信度和类别判断，确定所述图像识别模型的损失。

16.根据权利要求13-15任一项所述的方法，其特征在于，所述方法还包括：

获取与所述目标物相关的关键词；

根据所述关键词，从网页中筛选训练文本；

使用所述训练文本，对文本识别模型进行训练。

17.一种目标识别装置，其特征在于，包括：

提取单元，用于提取待识别网页的网页内容；

18.一种识别模型训练装置，其特征在于，包括：

19.一种电子设备，其特征在于，包括：存储器，处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序以实现如上述权利要求1至12或13至16任一项所述的方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至12或13至16任一项所述的方法。