CN109213862B

CN109213862B - 物体识别方法和装置、计算机可读存储介质

Info

Publication number: CN109213862B
Application number: CN201810950784.2A
Authority: CN
Inventors: 白亚龙; 梅涛
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2018-08-21
Filing date: 2018-08-21
Publication date: 2020-11-24
Anticipated expiration: 2038-08-21
Also published as: CN109213862A

Abstract

本公开涉及物体识别方法和装置、计算机可读存储介质。物体识别方法包括：从网页中获取图像和图像对应的文本数据；通过将物体的标签与文本数据进行匹配，过滤与物体的标签不匹配文本数据对应的图像，得到第一候选数据集ε_T；利用有标注数据集D训练物体识别模型；利用训练的物体识别模型识别ε_T中的图像，过滤置信度低于第一阈值α的图像及其对应的文本数据，得到第一扩充数据集ε_TV；利用ε_TV中的文本数据训练文本分类器；利用训练的文本分类器对图像对应的文本数据进行分类，得到第二候选数据集ε_T'；利用训练的物体识别模型识别ε_T'中的图像，过滤置信度低于第二阈值α'的图像，得到第二扩充数据集ε_TV'，α'<α；合并ε_TV、ε_TV'和D，得到训练数据集D'。

Description

物体识别方法和装置、计算机可读存储介质

技术领域

本公开涉及计算机领域，特别涉及一种物体识别方法和装置、计算机可读存储介质。

背景技术

通用物体识别(Object Recognition)是多媒体技术以及计算机视觉领域中一个非常基础且重要的任务。利用人工标注数据集来构建物体识别模型的训练数据集，物体识别技术在近些年取得了突飞猛进的发展。

由于人工标注的训练数据集的规模较小或成本很高，相关技术还尝试采用简单的图像搜索，并直接利用返回的有噪声图像数据集作为训练数据集。这样可以低成本得到大规模的训练数据集，但是这样训练出的物体识别模型，与利用人工标注的训练数据集训练的物体识别模型相比，性能下降明显。

发明内容

不管是利用人工标注的数据集，还是利用搜索返回的图像数据集，训练出的物体识别模型的通用性都较差。

鉴于此，本公开提出了一种物体识别方案，能够提高物体识别模型的通用性。

根据本公开的一些实施例，提供了一种物体识别方法，包括：从网页中获取图像以及图像对应的文本数据；通过将物体的标签与图像对应的文本数据进行匹配，过滤与物体的标签不匹配的文本数据对应的图像，得到第一候选数据集ε_T；利用有标注数据集D来训练物体识别模型；利用训练的物体识别模型来识别第一候选数据集ε_T中的图像，并过滤置信度低于第一阈值α的图像及其对应的文本数据，得到第一扩充数据集ε_TV；利用第一扩充数据集ε_TV中的文本数据来训练文本分类器；利用训练的文本分类器对从网页中获取的或第一候选数据集ε_T中图像对应的文本数据进行分类，得到第二候选数据集ε_T'；利用训练的物体识别模型来识别第二候选数据集ε_T'中的图像，并过滤置信度低于第二阈值α'的图像，得到第二扩充数据集ε_TV'，其中第二阈值α'小于第一阈值α；和合并得到的第一、第二扩充数据集ε_TV、ε_TV'和有标注数据集D，得到训练数据集D'。

在一些实施例中，所述物体识别方法还包括：利用训练数据集D'来训练物体识别模型；降低第一阈值α，重复得到第一扩充数据集ε_TV、训练文本分类器、得到第二候选数据集ε_T'的步骤；降低第二阈值α'，重复得到第二扩充数据集ε_TV'的步骤；合并得到的第一、第二扩充数据集ε_TV、ε_TV'和训练数据集D'，以扩充训练数据集D'。

在一些实施例中，所述物体识别方法还包括：利用扩充的训练数据集D'来训练物体识别模型；利用训练的物体识别模型来识别验证数据集A，得到该物体识别模型的识别准确率。

在一些实施例中，所述物体识别方法还包括迭代执行训练数据集D'的扩充，其中：在每一次扩充后，比较当前训练的物体识别模型与前一次训练的物体识别模型的识别准确率；在当前训练的物体识别模型与前一次训练的物体识别模型的识别准确率之差位于阈值范围内的情况下，停止迭代。

在一些实施例中，所述物体识别方法还包括：利用停止迭代时的训练数据集D'所训练的物体识别模型来识别物体。

在一些实施例中，利用网页解析器获取图像以及图像对应的文本数据。

在一些实施例中，将物体的标签与图像对应的文本数据进行匹配包括：将物体的标签与图像对应的文本数据进行字符串匹配。

在一些实施例中，基于深度神经网络来训练物体识别模型。

在一些实施例中，训练文本分类器包括：以第一扩充数据集ε_TV中的图像对应的文本数据作为正样本，从第一候选数据集ε_T中过滤掉的图像对应的文本数据作为负样本，训练文本分类器。

在一些实施例中，图像对应的文本数据包括以下各项中的至少一项：图像链接中的文本数据、alt标签数据、网页的主题、图像周围的文本数据

根据本公开的另一些实施例，提供一种物体识别装置，包括：获取单元，被配置为从网页中获取图像以及图像对应的文本数据；第一过滤单元，被配置为通过将物体的标签与图像对应的文本数据进行匹配，过滤与物体的标签不匹配的文本数据对应的图像，得到第一候选数据集ε_T；第一训练单元，被配置为利用有标注数据集D来训练物体识别模型；第二过滤单元，被配置为利用训练的物体识别模型来识别第一候选数据集ε_T中的图像，并过滤置信度低于第一阈值α的图像及其对应的文本数据，得到第一扩充数据集ε_TV；第二训练单元，被配置为利用第一扩充数据集ε_TV中的文本数据来训练文本分类器；分类单元，被配置为利用训练的文本分类器对从网页中获取的或第一候选数据集ε_T中图像对应的文本数据进行分类，得到第二候选数据集ε_T'；第三过滤单元，被配置为利用训练的物体识别模型来识别第二候选数据集ε_T'中的图像，并过滤置信度低于第二阈值α'的图像，得到第二扩充数据集ε_TV'，其中第二阈值α'小于第一阈值α；和合并单元，被配置为合并得到的第一、第二扩充数据集ε_TV、ε_TV'和有标注数据集D，得到训练数据集D'。

根据本公开的又一些实施例，提供一种物体识别装置，包括：存储器以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器装置中的指令，执行上述任一个实施例所述的物体识别方法。

根据本公开的另一些实施例，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一个实施例所述的物体识别方法。

在上述实施例中，通过综合考虑网页中图像本身的视觉信息以及图像对应的文本信息，利用视觉信息与文本信息之间的互补关系，构建出高质量的训练数据集，从而提高训练出的物体识别模型的通用性。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1示出根据本公开的物体识别方法的一些实施例的流程图；

图2示出根据本公开的物体识别方法的另一些实施例的流程图；

图3示出根据本公开的物体识别方法的又一些实施例的流程图；

图4示出根据本公开的物体识别装置的一些实施例的框图；

图5示出根据本公开的物体识别装置的另一些实施例的框图；

图6是示出用于实现本公开一些实施例的计算机系统的框图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1示出根据本公开的物体识别方法的一些实施例的流程图。如图1所示，物体识别方法包括步骤S10-S17。

在步骤S10中，利用有标注数据集D来训练物体识别模型。

有标注数据集D可以通过以下方式得到：定义物体的类别集合；在搜索引擎中搜索相关物体，收集有噪声的候选图像；利用人工进行数据清洗和标注，得到有标注数据集D。有标注数据集D也可以使用ILSVRC-2012物体识别数据集。

在一些实施例中，基于深度神经网络来训练物体识别模型。基于深度神经网络的物体识别模型包括但不限于AlexNet和ResNet模型。对于特定类别的物体，基于有标注数据集训练的深度卷积神经网络的识别准确率甚至可以高于人类的视觉识别系统。

在步骤S11中，从网页中获取图像以及图像对应的文本数据。

对于任一物体类别，可以从互联网中获取海量的网页。网页中的图像对应的文本数据可以包括以下各项中的至少一项：图像链接中的文本数据、alt标签数据、网页的主题、图像周围的文本数据。

在一些实施例中，利用网页解析器(parser)获取图像以及图像对应的文本数据。利用网页解析器可以获取网页中的各个标签对应的数据，例如，img标签对应的图像、alt标签对应的文本数据。

在步骤S12中，通过将物体的标签与图像对应的文本数据进行匹配，过滤与物体的标签不匹配的文本数据对应的图像，得到第一候选数据集ε_T。

在一些实施例中，将物体的标签与图像对应的文本数据进行字符串匹配。每个物体类别可以对应一个标签，例如“台灯”、“电视机”等。例如，通过将与物体的标签字符串不匹配的文本数据对应的图像过滤掉，可以过滤掉文本信息不相关的图像。即，利用文本信息可以将不在对应物体类别中的噪声图像过滤掉。

应当明白，步骤S11-S12也可以在步骤S10之前执行，或者与步骤S10同时执行。步骤S10与步骤S11-S12之间的执行顺序对于实现本公开的物体识别方案没有影响。

在步骤S13中，利用训练的物体识别模型来识别第一候选数据集ε_T中的图像，并过滤置信度低于第一阈值α的图像及其对应的文本数据，得到第一扩充数据集ε_TV。

对于基于网页中文本数据构建的图像数据集(即ε_T)，很多视觉上不相关和语义上有歧义的图像可以进一步通过物体识别模型检测出来并过滤掉，从而得到噪声更少的数据集ε_TV。

在步骤S14中，利用第一扩充数据集ε_TV中的文本数据来训练文本分类器。

在一些实施例中，以第一扩充数据集ε_TV中的图像对应的文本数据作为正样本，从第一候选数据集ε_T中过滤掉的图像对应的文本数据作为负样本，训练文本分类器。这里的负样本指ε_TV和ε_T的相对差集(ε_T\ε_TV)中的图像对应的文本数据。

在步骤S15中，利用训练的文本分类器对从网页中获取的或第一候选数据集ε_T中图像对应的文本数据进行分类，得到第二候选数据集ε_T'。

由于文本分类器的准确率比字符串匹配方式的准确率高，所以即使在对从网页中获取的图像对应的文本数据利用训练的文本分类器进行分类，第二候选数据集ε_T'中的噪声也比第一候选数据集ε_T中的噪声低。

由于在第一候选数据集ε_T中与物体的标签不匹配的文本数据已经被过滤，因此采用文本分类器对第一候选数据集ε_T中图像对应的文本数据进行分类能够进一步降低第一候选数据集ε_T中的噪声。

在步骤S16中，利用训练的物体识别模型来识别第二候选数据集ε_T'中的图像，并过滤置信度低于第二阈值α'的图像，得到第二扩充数据集ε_TV'。

置信度阈值的选择是为了防止引入过多的噪声。由于在步骤S16中使用更精确的文本分类器来代替步骤S12中的标签匹配(例如字符串匹配)，所以可以选择第二阈值α'小于第一阈值α，以引入更多难样本，即得到包括更多高质量数据的数据集，从而提高物体识别模型的通用性。置信度阈值的取值范围与使用的物体识别模型的类型有关。对AlexNet这样的物体识别模型，可以取[0.01,0.1]。

在步骤S17中，合并得到的第一、第二扩充数据集ε_TV、ε_TV'和有标注数据集D，得到训练数据集D'，即D'←D∪ε_TV∪ε_TV'。

在一些实施例中，物体识别模型的识别准确率可以通过识别验证数据集A来得到。验证数据集A例如是人工标注的测试数据集。识别准确率可以通过Top-1准确率来表征。Top-1准确率表示物体识别模型输出的多个物体标签中，置信度最大的标签是正确标签的概率。

由于扩充的训练数据集D'中包括了更多高质量数据，所以在此基础上训练的物体识别模型的识别准确率优于在原来的有标注数据集D上训练的物体识别模型。相应地，由于物体识别准确率的提升，可以将置信度阈值α和α'降低，以便将更多的高质量数据引入ε_TV和ε_TV'。

图2示出根据本公开的物体识别方法的另一些实施例的流程图。如图2所示，物体识别方法包括步骤S20-S27。

首先，在步骤S20中，利用训练数据集D'来训练物体识别模型。这里，可以采用类似于S10的方式，例如，基于深度神经网络来训练物体识别模型。

接下来，在步骤S23中，降低第一阈值α，利用训练的物体识别模型来识别第一候选数据集ε_T中的图像，并过滤置信度低于第一阈值α的图像，得到第一扩充数据集ε_TV。在步骤S24中，利用第一扩充数据集ε_TV中的文本数据来训练文本分类器。在步骤S25中，利用训练的文本分类器对第一候选数据集ε_T中的文本数据进行分类，得到第二候选数据集ε_T'。

然后，降低第二阈值α'，重复得到第二扩充数据集ε_TV'的步骤，即执行图2中的步骤S26。这里，步骤S26可以采用类似于S16的方式。

在步骤S23和S26中，置信度阈值α和α'的降低幅度可以根据实际情况来选择，例如降低5％、10％或20％等。

最后，在步骤S27中，合并得到的第一、第二扩充数据集ε_TV、ε_TV'和训练数据集D'，以扩充训练数据集D'，即D'←D'∪ε_TV∪ε_TV'。

在上述实施例中，由于扩充训练数据集D'包括更多高质量数据，由此训练的物体识别模型的识别准确率提升；而由于识别准确率的提升，又可以降低置信度阈值α和α'，从而将更多的高质量数据引入ε_TV和ε_TV'。因此，迭代执行训练数据集D'的扩充将可以进一步提升物体识别模型的识别准确率。

图3示出根据本公开的物体识别方法的又一些实施例的流程图。如图3所示，物体识别方法包括步骤S20-S27。

首先，在步骤S20中，利用训练数据集D'来训练物体识别模型。

然后，在步骤S21中，利用训练的物体识别模型来识别验证数据集A，得到该物体识别模型的识别准确率。在一些实施例中，识别准确率通过Top-1准确率来表征。

接下来，在步骤S22中，比较当前训练的物体识别模型与前一次训练的物体识别模型的识别准确率，判断当前训练的物体识别模型与前一次训练的物体识别模型的识别准确率之差是否位于阈值范围内。

如果判断结果为否，则重复执行步骤S23-S27，并且在步骤S27中扩充训练数据集D'后返回步骤S20，并再次执行步骤S20-S22。

如果判断结果为是，则停止迭代，进入步骤S28，结束流程。

在一些实施例中，在当前训练的物体识别模型与前一次训练的物体识别模型的识别准确率之差小于前一次训练的物体识别模型的识别准确率的一定百分比(例如1％)时，认为识别准确率提升不明显，可以停止迭代。

在一些实施例中，物体识别方法还包括：利用停止迭代时的训练数据集D'所训练的物体识别模型来识别物体。

在步骤S23和S26中，置信度阈值α和α'的降低幅度可以根据实际情况来选择，也可以按照固定的步长进行，例如每一次降低5％、10％或20％等。

在上述实施例中，通过迭代扩充训练数据集D'，可以不断提升物体识别模型的识别准确率，直到物体识别准确率的提升不再明显(例如位于阈值范围内)，此时训练数据集的数据规模趋于收敛。通过上述方法，物体识别模型实现了性能的自动增强。

在一些实施例中，通过上述方法在ILSVRC-2012上训练的AlexNet和ResNet物体识别模型可以将Top-1准确率分别提升约4％。

图4示出根据本公开的物体识别装置的一些实施例的框图。

如图4所示，物体识别装置4包括第一训练单元40、获取单元41、第一过滤单元42、第二过滤单元43、第二训练单元44、分类单元45、第三过滤单元46和合并单元47。

第一训练单元40被配置为利用有标注数据集D来训练物体识别模型，例如执行步骤S10或S20。

获取单元41被配置为从网页中获取图像以及图像对应的文本数据，例如执行步骤S11。

第一过滤单元42通过将物体的标签与图像对应的文本数据进行匹配，过滤与物体的标签不匹配的文本数据对应的图像，得到第一候选数据集ε_T，例如执行步骤S12。

第二过滤单元43被配置为利用训练的物体识别模型来识别第一候选数据集ε_T中的图像，并过滤置信度低于第一阈值α的图像及其对应的文本数据，得到第一扩充数据集ε_TV，例如执行步骤S13或S23。

第二训练单元44被配置为利用第一扩充数据集ε_TV中的文本数据来训练文本分类器，例如执行步骤S14或S24。

分类单元45被配置为利用训练的文本分类器对从网页中获取的或第一候选数据集ε_T中图像对应的文本数据进行分类，得到第二候选数据集ε_T'，例如执行步骤S15或S25。

第三过滤单元46被配置为利用训练的物体识别模型来识别第二候选数据集ε_T'中的图像，并过滤置信度低于第二阈值α'的图像，得到第二扩充数据集ε_TV'，例如执行步骤S16或S26。

合并单元47被配置为合并得到的第一、第二扩充数据集ε_TV、ε_TV'和有标注数据集D，得到训练数据集D'，例如执行步骤S17或S27。

在一些实施例中，物体识别装置还包括比较单元和判断单元(图中未示出)。比较单元被配置为比较不同物体识别模型的识别准确率。判断单元被配置为判断不同物体识别模型的识别准确率之差是否位于阈值范围内。

图5示出根据本公开的物体识别装置的另一些实施例的框图。

如图5所示，该实施例的装置5包括：存储器51以及耦接至该存储器51的处理器52。存储器51用于存储执行物体识别方法对应实施例的指令。处理器52被配置为基于存储在存储器51中的指令，执行本公开中任意一些实施例中的物体识别方法。

除了物体识别方法、装置之外，本公开实施例还可采用在一个或多个包含有计算机程序指令的非易失性存储介质上实施的计算机程序产品的形式。因此，本公开实施例还包括一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现前述任意实施例中的物体识别方法。

图6是示出用于实现本公开一些实施例的计算机系统的框图。

如图6所示，计算机系统60可以通用计算设备的形式表现。计算机系统60包括存储器610、处理器620和连接不同系统组件的总线600。

存储器610例如可以包括系统存储器、非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。系统存储器可以包括易失性存储介质，例如随机存取存储器(RAM)和/或高速缓存存储器。非易失性存储介质例如存储有执行物体识别方法的对应实施例的指令。非易失性存储介质包括但不限于磁盘存储器、光学存储器、闪存等。

处理器620可以用通用处理器、数字信号处理器(DSP)、应用专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑设备、分立门或晶体管等分立硬件组件方式来实现。相应地，诸如判断模块和确定模块的每个模块，可以通过中央处理器(CPU)运行存储器中执行相应步骤的指令来实现，也可以通过执行相应步骤的专用电路来实现。

总线600可以使用多种总线结构中的任意总线结构。例如，总线结构包括但不限于工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、外围组件互连(PCI)总线。

计算机系统60还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630、640、650以及存储器610和处理器620之间可以通过总线600连接。输入输出接口630可以为显示器、鼠标、键盘等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口。存储接口640为软盘、U盘、SD卡等外部存储设备提供连接接口。

这里，参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个框以及各框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可提供到通用计算机、专用计算机或其他可编程物体识别装置的处理器，以产生一个机器，使得通过处理器执行指令产生实现在流程图和/或框图中一个或多个框中指定的功能的装置。

这些计算机可读程序指令也可存储在计算机可读存储器中，这些指令使得计算机以特定方式工作，从而产生一个制造品，包括实现在流程图和/或框图中一个或多个框中指定的功能的指令。

本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

至此，已经通过示例对本公开的一些实施例进行了详细说明。应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员可以对以上实施例进行变化、修改、替换、变型、组合，而不脱离本公开的范围。

Claims

1.一种物体识别方法，包括：

从网页中获取图像以及图像对应的文本数据；

通过将物体的标签与图像对应的文本数据进行匹配，过滤与物体的标签不匹配的文本数据对应的图像，得到第一候选数据集ε_T；

利用有标注数据集D来训练物体识别模型；

利用训练的物体识别模型来识别第一候选数据集ε_T中的图像，并过滤置信度低于第一阈值α的图像及其对应的文本数据，得到第一扩充数据集ε_TV；

以第一扩充数据集ε_TV中的图像对应的文本数据作为正样本，从第一候选数据集ε_T中过滤掉的图像对应的文本数据作为负样本，训练文本分类器；

利用训练的文本分类器对从网页中获取的或第一候选数据集ε_T中图像对应的文本数据进行分类，得到第二候选数据集ε_T'；

利用训练的物体识别模型来识别第二候选数据集ε_T'中的图像，并过滤置信度低于第二阈值α'的图像，得到第二扩充数据集ε_TV'，其中第二阈值α'小于第一阈值α；和

合并得到的第一、第二扩充数据集ε_TV、ε_TV'和有标注数据集D，得到训练数据集D'。

2.根据权利要求1所述的物体识别方法，还包括：

利用训练数据集D'来训练物体识别模型；

降低第一阈值α，重复得到第一扩充数据集ε_TV、训练文本分类器、得到第二候选数据集ε_T'的步骤；

降低第二阈值α'，重复得到第二扩充数据集ε_TV'的步骤；

合并得到的第一、第二扩充数据集ε_TV、ε_TV'和训练数据集D'，以扩充训练数据集D'。

3.根据权利要求2所述的物体识别方法，还包括：

利用扩充的训练数据集D'来训练物体识别模型；

利用训练的物体识别模型来识别验证数据集A，得到该物体识别模型的识别准确率。

4.根据权利要求3所述的物体识别方法，还包括迭代执行训练数据集D'的扩充，其中：

在每一次扩充后，比较当前训练的物体识别模型与前一次训练的物体识别模型的识别准确率；

在当前训练的物体识别模型与前一次训练的物体识别模型的识别准确率之差位于阈值范围内的情况下，停止迭代。

5.根据权利要求4所述的物体识别方法，还包括：

利用停止迭代时的训练数据集D'所训练的物体识别模型来识别物体。

6.根据权利要求1所述的物体识别方法，其中，利用网页解析器获取图像以及图像对应的文本数据。

7.根据权利要求1所述的物体识别方法，其中，将物体的标签与图像对应的文本数据进行匹配包括：将物体的标签与图像对应的文本数据进行字符串匹配。

8.根据权利要求1所述的物体识别方法，其中，基于深度神经网络来训练物体识别模型。

9.根据权利要求1-8中任一项所述的物体识别方法，其中，图像对应的文本数据包括以下各项中的至少一项：图像链接中的文本数据、alt标签数据、网页的主题、图像周围的文本数据。

10.一种物体识别装置，包括：

获取单元，被配置为从网页中获取图像以及图像对应的文本数据；

第一过滤单元，被配置为通过将物体的标签与图像对应的文本数据进行匹配，过滤与物体的标签不匹配的文本数据对应的图像，得到第一候选数据集ε_T；

第一训练单元，被配置为利用有标注数据集D来训练物体识别模型；

第二过滤单元，被配置为利用训练的物体识别模型来识别第一候选数据集ε_T中的图像，并过滤置信度低于第一阈值α的图像及其对应的文本数据，得到第一扩充数据集ε_TV；

第二训练单元，被配置为以第一扩充数据集ε_TV中的图像对应的文本数据作为正样本，从第一候选数据集ε_T中过滤掉的图像对应的文本数据作为负样本，训练文本分类器；

分类单元，被配置为利用训练的文本分类器对从网页中获取的或第一候选数据集ε_T中图像对应的文本数据进行分类，得到第二候选数据集ε_T'；

第三过滤单元，被配置为利用训练的物体识别模型来识别第二候选数据集ε_T'中的图像，并过滤置信度低于第二阈值α'的图像，得到第二扩充数据集ε_TV'，其中第二阈值α'小于第一阈值α；和

合并单元，被配置为合并得到的第一、第二扩充数据集ε_TV、ε_TV'和有标注数据集D，得到训练数据集D'。

11.一种物体识别装置，包括：

存储器；和

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1-9中任一项所述的物体识别方法。

12.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-9中任一项所述的物体识别方法。